JPH11249686A - 情報解析方法および情報解析プログラムを記憶した媒体 - Google Patents

情報解析方法および情報解析プログラムを記憶した媒体

Info

Publication number
JPH11249686A
JPH11249686A JP10064432A JP6443298A JPH11249686A JP H11249686 A JPH11249686 A JP H11249686A JP 10064432 A JP10064432 A JP 10064432A JP 6443298 A JP6443298 A JP 6443298A JP H11249686 A JPH11249686 A JP H11249686A
Authority
JP
Japan
Prior art keywords
node
analysis
symbol string
pattern symbol
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10064432A
Other languages
English (en)
Other versions
JP3930138B2 (ja
Inventor
Yasuyuki Kono
恭之 河野
Takehide Yano
武秀 屋野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP06443298A priority Critical patent/JP3930138B2/ja
Priority to US09/258,071 priority patent/US6169972B1/en
Publication of JPH11249686A publication Critical patent/JPH11249686A/ja
Application granted granted Critical
Publication of JP3930138B2 publication Critical patent/JP3930138B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】入力ラティスを無展開で解析でき高速にその解
析結果を得ること。 【解決手段】有向グラフ構造入力ラティスの各ノード(N
D)の表象となる終端記号の集合と各終端記号所属のカテ
ゴリ記号集合の和集合要素系列として与えられた受理パ
ターン記号列(P1)の集合の内、開始ND又は終了NDからグ
ラフ(G)構造の解析を始める第1手順S5、G構造の各NDの
解析途中経過での該NDが解経路候補の開始点又は終了点
からある順番で解経路候補に含まれる場合に取得るP1を
求めNDに記録する第2手順S5、G構造の各NDの解析途中
経過からそのNDに対する解析経路パターン(P2)を網羅済
みか判定する第3手順S3、あるNDにつき該NDの解析P2の
網羅時、第3手順実行にて蓄積されたそのNDヘのP1を次
接続NDに伝播させる第4手順S6、解析終了の際に開始ND
か終了NDに蓄積のP1情報から解析結果出力のP1を収集す
る第5手順S4、収集P1集合と各ND蓄積のP1情報よりG構
造を探索し尤もらしいP1集合の各要素を生成し得る解経
路候補集合を出力する第6手順を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ワードスポッティ
ングを含む音声認識や文字認識等において、認識結果の
単語や文字といった複数の候補が得られるような一般に
ラティス形式で表現できるような認識処理結果を与えら
れ、それを解析して利用者の意図した入力系列候補を絞
り込むための情報解析方法および情報解析プログラムを
記憶した媒体に関する。
【0002】
【従来の技術】近年、電子計算機技術(コンピュータ技
術)の発展により、利用者にとってより自然な方法で種
々の情報を計算機に入力することが可能になってきてお
り、その利用を促進する技術が求められるようになって
きている。
【0003】例えば、コンピュータにマイクロフォンと
安価なA/Dコンバータが装備されたことにより、利用
者はコンピュータに対して、自分の要求を発声すると、
コンピュータがそれを音声認識処理することにより、ユ
ーザの要求を解釈するような技術の重要性が増してい
る。
【0004】また、ぺンタブレットやイメージスキャナ
等の普及により、手書き文字や紙面に印刷された文字等
を文字認識し、ディジタルデータ化するような要求が一
般化してきている。
【0005】音声認識や文字認識といった認識処理を伴
う入力の処理において、従来から問題になっていた点と
して、一般に、これらの認識処理において利用者の意図
する入力が一意に認識結果として得ることができないと
いうことがあった。
【0006】すなわち、入力信号の認識処理において
は、100%の認識率を期待することはできず、そのた
め、一つの発声単語や文字に対して複数の候補が発生す
ることが一般的である。
【0007】このため、音声で利用者が文発声をした
り、文章を文字認識したりするような場合、候補となる
単語や文字が格子状に組み合わされた形式である“ラテ
ィス形式”で表現できるような認識結果が得られる。
【0008】利用者の入力を、一般のアプリケーション
プログラムで利用可能にするためには、このような認識
結果から利用者の入力として尤もらしい文や文字列を、
高速かつ適切に決定するような認識の後処理技術が重要
である。
【0009】そこで、そのための後処理技術を考えてみ
ると、例えば、音声認識や文字認識結果のラティス構造
から、利用者の入力した文を決定する後処理の技術があ
る。このような後処理技術として、従来、このラティス
構造を展開して文候補集合を生成し、各候補に自然言語
の構文解釈技術を応用することが考えられる。例えば、
特開平5‐197389号公報「音声認識装置」に開示
されているような先行発明では、少数の認識対象単語か
ら得られる認識結果のラティス(文章を文字認識した
り、あるいは利用者が音声で文発声をしたりするような
場合での認識結果であって、候補となる単語や文字が格
子状に組み合わされた形式で表現されたもの)を展開し
ながら、極めて単純な文法からなる文の入力同定に成功
している。
【0010】しかしながら、一般に人対人の対話で想定
されるような多数の語棄と複雑な文法からなる文の入力
に対する認識結果として得られるラティス構造は、一般
に数多くの候補を含んで複雑に接続されているのが一般
的である。
【0011】例えば、「西宮インターチェンジまでどの
くらいですか」という発声に対して、ワードスポッティ
ング処理を施した結果の例を、図16に示す。
【0012】図16では、1行に一つの単語候補が、
「入力要素ID:単語表象(認識スコア)信号フレーム
におけるこの単語の区間」の形式で示されている。
【0013】この“0フレーム目”から“40フレーム
目”までの音声入力に対して、正しくスポッティングさ
れた4単語を含む合計42単語が得られており、実に3
8単語が“湧き出し誤り”となっている。
【0014】このようなワードスポッティング結果から
構成されるラティス構造を展開すると、単語間の時間的
な前後関係や離れ、重なりなどによる制約を加えたとし
ても、数百万の単語系列候補が生成されることとなる。
このため、ラティスを候補に展開して解析するという手
法は計算量、必要メモリ量の両面において現実的ではな
い。
【0015】また、候補展開よりも高速な解析手法とし
て、特開平9‐134369号公報「ラティスをキーと
した検索を行う辞書検索装置及び方法」に開示されてい
るようなものがある。
【0016】これは、ラティスの先頭を根とするツリー
上に入力ラティスを展開し、トライ辞書を用いてそのツ
リーを解析することで解析の高速化を図る手法である。
そして、この発明では、ツリー上に入力ラティスを展開
することで、単純に全候補を展開する方法に対して解析
対象候補数をかなり抑えることに成功している。また、
その解析に際してもトライ辞書を用いることで高速化が
図られている。
【0017】しかしながら、前記図16のような、より
曖味性の大きな入力ラティスに対しては、解析処理回数
が無視できないほど多くなると共に、解析途中の候補系
列を残しながらトライ辞書を引くための手数が無視でき
ないほど大きくなってしまうという問題があった。
【0018】
【発明が解決しようとする課題】このように、従来は、
利用者の入力の認識結果として得られるラティス構造
(以下、入力ラティスと記す)の解析において、何らか
の形でラティスを展開して解析しようとすると、現実的
な問題においては莫大な計算量とメモリ量を必要とし、
事実上解析が不可能であるという問題があった。
【0019】本発明の第1の目的は、入力ラティスを展
開することなく解析し、高速にその解析結果を得ること
ができる情報解析方法を提供することにある。
【0020】
【課題を解決するための手段】上記目的を達成するた
め、本発明は次のように構成する。
【0021】第1には、開始ノードと終了ノードと一つ
以上のデータノードから構成される有向グラフであっ
て、各ノードが他の一つ以上のノードと順序関係を持つ
有向枝で連結され、一つ以上の開始ノードから終了ノー
ドに到達し得る経路である解経路候補を持つようなグラ
フ構造に変換可能な入力情報を、当該入力情報の各要素
の表象となり得る終端記号の集合と前記各終端記号が所
属するカテゴリであるカテゴリ記号の集合の和集合の要
素の系列で表される受理可能な受理パターン記号列の集
合に基づいて解析し、零個以上の尤もらしい受理パター
ン記号列を出力する情報解析方法において、前記開始ノ
ードもしくは終了ノードから前記グラフ構造の解析を開
始する解析開始ノード決定ステップと、前記グラフ構造
の各ノードの解析の途中経過においてそのノードが解経
路候補の開始点または終了点からある順番で解経路候補
に含まれる場合にとり得る受理パターン記号列を計算し
てノードに記録する受理パターン記号列計算・蓄積ステ
ップと、前記グラフ構造の各ノードの解析の途中経過に
おいてそのノードに対する解析の経路パターンを網羅し
たか否かを判定するノード解析網羅判定ステップと、あ
るノードについてそのノードの解析経路パターンが網羅
された場合に零回以上の受理パターン記号列計算・蓄積
ステップの実行によって蓄積されたそのノードへの受理
パターン記号列を解析においてそのノードの次に接続さ
れている一個以上のノードに伝播させる受理パターン記
号列伝播ステップと、解析が終了したかどうかを判定す
る解析終了判定ステップと、解析が終了した際に前記開
始ノードもしくは終了ノードに蓄積されている受理パタ
ーン記号列情報を用いて前記解析結果の出力である零個
以上の尤もらしい受理パターン記号列を収集し、出力す
る受理パターン記号列収集・出力ステップとを具備する
ことを特徴とする。
【0022】すなわち、本発明に係る情報解析方法の全
体的な処理の流れを示す図2を参照して説明すると、処
理開始により、まず初期化処理S1が行われる。その後
終了が選択されるまで、入力に対する解析処理を行うル
ープに入る。そして、入力の認識結果が伝達されると
(S2)、それを入力ラティスに再構成し(S5)、入
力ラティス上で解釈処理を行って受理可能な入力要素カ
テゴリ系列の集合を構成し(S3)、得られた入力要素
カテゴリ系列集合を元に入力ラティスを再スキャンする
ことで、受理可能な入力要素系列集合を得る(S4)。
ここで文発声に対する音声ワードスポッティングの場
合、S3の出力である入力要素カテゴリ系列集合とは受
理可能な品詞系列の集合であり、S4の出力である入力
要素系列集合とは単語系列の集合となる。
【0023】すなわち、本発明の第一の特徴は、入力ラ
ティスの解析S3において、後述する品詞系列のハッシ
ュ辞書を用意してそれを参照しながら解析することでラ
ティスを展開することなくかつ高速に解析処理を行い、
入力要素カテゴリ系列集合を得ることができるようにな
ることである。更に本発明の第二の特徴は、解析結果と
して入力要素系列集合が必要な場合、上記の入力要素カ
テゴリ系列集合を得た後、その入力要素カテゴリ系列集
合を元に入力ラティスを再スキャンして受理可能な入力
要素系列集合を得ることで、一度のスキャンで入力要素
系列集合を得るよりもメモリ効率良く入力要素系列集合
が得られるようになることである。
【0024】本発明によれば、展開すれば極めて多数の
入力要素系列候補を導く入力ラティス様のデータを構築
し得る入力認識結果の解析において、与えられた受理可
能構文規則を満足する尤もらしい入力要素カテゴリ系列
を高速かつ少ないメモリ要求量で導くことが可能とな
る。
【0025】さらに、本発明によれば、展開すれば極め
て多数の入力要素系列候補を導く入力ラティス様のデー
タを構築し得る入力認識結果の解析において、与えられ
た受理可能構文規則を満足する尤もらしい入力要素系列
を高速かつ少ないメモリ要求量で導くことが可能とな
る。
【0026】また、第2には本発明は、開始ノードと終
了ノードと一つ以上のデータノードから構成される有向
グラフであって、各ノードが他の一つ以上のノードと順
序関係を持つ有向枝で連結され、一つ以上の開始ノード
から終了ノードに到達し得る経路である解経路候補を持
つ形式のグラフ構造に変換可能な入力情報を、当該入力
情報の各要素の表象となり得る終端記号の集合と前記各
終端記号が所属するカテゴリであるカテゴリ記号の集合
の和集合の要素の系列で表される受理可能な受理パター
ン記号列の集合に基づいて解析することにより、零個以
上の尤もらしい受理パターン記号列を出力する情報解析
方法において、前記受理可能な受理パターン記号列のう
ち、特定の部分系列である部分受理パターン記号列を構
成し、また、その部分受理パターン記号列を一つのカテ
ゴリ記号として利用し、受理パターン記号列を再帰的に
構成し、階層受理パターン記号列集合を生成する階層受
理パターン記号列生成ステップと、前記階層受理パター
ン記号列集合の中から、全てのカテゴリ記号が既知であ
る前記部分受理パターン記号列を選択する部分受理パタ
ーン記号列選択ステップと、前記階層部分受理パターン
記号列集合の中の、各部分受理パターン記号列が既に選
択されたか否かを記憶する処理状態管理ステップと、こ
の処理状態管理ステップにて記憶した情報から、選択さ
れた部分受理パターン記号列が最終の記号列か否かを判
定し、最後でない場合は無条件で前記開始ノードと終了
ノードとに全てのデータノードを連結して、前記選択さ
れた部分受理パターン記号列を受理パターンとした前記
解析を実施し、最後の場合は、前記選択された部分受理
パターン記号列を受理パターンとした前記解析を実施す
ることにより、尤もらしい部分受理パターン記号列を出
力する解析ステップと、前記収集された尤もらしい部分
受理パターン記号列集合と前記各ノードに蓄積された各
ノードの受理パターン記号列の情報を用いて前記グラフ
構造を探索し、前記尤もらしい受理パターン記号列集合
の各要素を生成し得る零個以上の解経路候補の集合を発
見し、各経路に存在するノードをマージし、その所属カ
テゴリを該当する部分受理パターンとする新たなノード
を作成する新規ノード生成ステップと、前記処理状態管
理ステップから、全ての部分受理パターン記号列につい
て解析ステップを通過したか否かを判定し、全ての部分
受理パターン記号列につて解析ステップを通過した場合
に処理を終了する終了条件判定ステップとを具備するこ
とを特徴とする。
【0027】このような本発明は、従来、該当受理パタ
ーン記号列伝搬法において、正解となりうる品詞系列の
集合が増大した場合に、記憶すベきハッシュ辞書の規模
が大きくなり、膨大な量のメモリを必要とすること、ま
た、解析途中の伝搬処理に必要な集合演算の規模が大き
くなるため、計算量においても大きなコストを必要と
し、また、正解となりうる品詞系列を生成するための、
文型辞書にも配慮が必要であったという問題を解決し、
正解となりうる品詞系列の集合が増大した場合において
も、使用するメモリ量の増加を抑制し、解析時の伝搬処
理の際の計算量の増加を抑制するラティス解析手法を提
供できるようになる。また、該当受理パターン記号列伝
搬法における品詞系列を生成するための文型辞書につい
ても、システム管理者が管理し易い形式を与えることが
できるようになる。
【0028】
【発明の実施の形態】以下、本発明の具体例を、図面を
参照して説明する。
【0029】本発明においては、音声で利用者が文発声
をしたり、文章を文字認識したりするような場合におい
て、候補となる単語や文字が格子状に組み合わされた形
式である“ラティス形式”で表現できるような認識結果
を使用して情報解析するもので、以下、詳細を説明す
る。
【0030】(第1の具体例) <概略説明>本発明は、品詞系列のハッシュ辞書を参照
しながら入力ラティス、すなわち、“利用者の入力の認
識結果として得られるラティス構造”を展開することな
く、かつ、高速に解析処理を行い尤もらしい入力要素カ
テゴリ系列を導く機能を持ち、また、入力ラティスを展
開することなくかつ高速に解析処理を行い、尤もらしい
入力要素系列を導く機能を持つ情報解析方式を提供する
ものであり、以下、図面を参照して本発明の詳細につき
説明する。
【0031】図1は、本発明による情報解析システムの
概略的な構成図であり、図中、1はCPU、2はメイン
メモリ、3は入力部、4は出力部である。メインメモリ
2は、本発明システムの機能を実現するに必要なプログ
ラム等を格納しておくメモリであり、CPU1は、この
メモリ2に記憶されたプログラムを実行して各種処理や
各種制御を実施する演算制御の中枢であり、入力部3
は、利用者の音声を取り込み、音声認識してデータ化し
たり、あるいは入力文字を取り込んで文字認識し、デー
タ化するなどしてその入力情報をCPU1に与えるもの
である。
【0032】出力部4は、認識結果や最終出力を表示あ
るいはデータとして出力したりするためのものである。
【0033】また、この他、各種辞書等を保持するハー
ドディスや光ディスクなどによる大容量外部記憶装置
5、また、光ディスクやCD‐ROM、CD‐R、CD
‐RW、DVDなどの可搬型記憶媒体をアクセスする大
容量記憶媒体ドライブ装置6、外部システムとの通信を
行う通信部7などを有する。
【0034】図2は、本発明に係る情報解析方法の全体
的な処理の流れを示すフローチャートであり、ここで説
明する如きの機能が図1の装置で実行されることで実現
される。このフローチャートに従って本発明の処理の流
れを説明すると、次の通りである。
【0035】本発明システムにおける情報解析処理は、
[i]初期化処理、[ii]ラティス構築処理、[iii]
ラティス解析処理、[iv]単語系列候補リスト形成処理
からなる。
【0036】CPU1は、処理を開始すると、まず、初
めに[i]の初期化処理(ステップS1)を行う。その
後、終了が選択されるまで、入力に対する解析処理を行
うループに入る。すなわち、[ii]のラティス構築処
理、[iii]のラティス解析処理、[iv]の単語系列候
補リスト形成処理である。
【0037】そして、[ii]ラティス構築処理において
は、入力の認識結果が伝達されると(ステップS2)、
それを入力ラティスに再構成する(ステップS5)。つ
いで、[iii]のラティス解析処理を行い、ここで入力
ラティス上で解釈処理を行って受理可能な入力要素カテ
ゴリ系列の集合を構成する(ステップS3)。ついで
[iv]の単語系列候補リスト形成処理に入り、ステップ
S3で得られた入力要素カテゴリ系列集合を元に入力ラ
ティスを再スキャンすることで、受理可能な入力要素系
列集合を得る(ステップS4)。
【0038】ここで文発声に対する音声ワードスポッテ
ィングの場合、ステップS3での処理結果に基づく出力
である“入力要素カテゴリ系列集合”とは受理可能な品
詞系列の集合であり、ステップS4での処理に基づく出
力である入力要素系列集合とは単語系列の集合となる。
【0039】以上が、本発明に係る報解析方式の概略構
成である。以下、文発声された音声信号に対し、ワード
スポッティングを行った結果から適切な単語系列を同定
する場合を例にとり、本発明を詳しく説明する。
【0040】<具体例>ここで、本発明に係る情報解析
方式の処理過程において利用される辞書及びデータの構
成について説明する。本発明に係る情報解析システム
は、その処理過程において“品詞辞書”、“品詞系列パ
ターン辞書”、“品詞系列ハッシュ辞書”、“処理中ノ
ードリスト”を参照し、また、“品飼系列パターン辞
書”と“品詞系列ハッシュ辞書”の生成の際に、“文型
辞書”を参照する。これらは大容量外部記憶装置5に構
築されている。
【0041】尚、“処理中ノードリスト”は、現在処理
対象とし得る入力ラティス上のノードのリストである。
【0042】図12に、本発明システムで用いる“品詞
辞書”の例を示す。この図に示す“品詞辞書”は、“品
詞”、すなわち、“入力要素カテゴリ”については角丸
長方形枠で囲んで示し、“単語”、すなわち、“入力要
素”については長方形枠で囲んで示す。例えば、“品飼
「場所」”は“「現在地」,「施設」,「目的地」,
「経由地」”といった“子品詞”から構成され、“品詞
「経由地」”は子品詞「出口・入口」と共に単語「イン
ター」及び「インターチェンジ」を要素として持つ。
【0043】本実施例では、このような形で入力解釈の
基盤となる単語とその品詞構造の辞書を持つこととす
る。
【0044】<文型辞書の例>図13に、本実施形態で
受理可能な単語系列である「文」の形を定義し蓄積する
“文型辞書”の例を示す。この例の場合、 「((場所)|(経由地名)(経由地)|(代名詞:代
名詞場所<そこ>))‐[道程])‐((疑問詞:HO
W_MUCH<どれくらい>)|(疑問詞:HOW_MU
CH 時間)|(疑問詞:HOW_MUCH 距離))」 なる内容の“g1”と、 「((場所固有名詞:地名)|(経由地名)(経由
地))‐(疑問詞:WHAT:WHAT 物)‐((目
印)|(場所:施設<食べるところ>))‐(動作:存
在:存在通常)」 なる内容の“g2”の2つの文型が登録されている。
【0045】これらの文型において、“(”と“)”と
で括られた最も小さい固まり、例えば“(場所)”や
“(経由地名)”等、が一つの単語に対応する品詞とな
る。そして、それらの系列の連接が “‐(ハイフ
ン)”で表され、「AかBかCのうちの何れかの選択」
は “(A|B|C|)” と記述される。ま
た、“[”と“[”とで囲まれた区間は高々一回、すな
わち、0回または1回だけ“[”と“]”で囲まれた区
間が現れることを意味する。例えば、“g1”からは 「そこ」「まで」「どれくらい」 「京都」「まで」「どれぐらい」 「吹田」「まで」「何分」 「入口」「まで」「どのくらい」 等といったような単語系列が生成・受理可能であり、
“g2”からは 「倉敷」「何か」「食べるところ」「ある」 「京都駅ロータリー」「なにか」「目印」「ある」 といったような単語系列が生成・受理できる。
【0046】このような文型に従って読み展開すると、
“文型辞書”は図14に示すような“品詞系列パターン
辞書”に展開することができる。この図において図13
の文型“g1”は“sp01‐g1”から“sp18‐
g1”までの18パターンの品詞系列に展開することが
でき、文型“g2”は“sp01‐g2”から“sp0
4‐g2”までの4パターンに展開できる。
【0047】この“sp01‐g1”から“sp18‐
g1”と“sp01‐g2”から“sp04‐g2”ま
での各品詞系列パターンに付与された記号を、“品詞系
列ID”と呼ぶ。“品詞系列パターン辞書”の各パター
ンは、各々が一つの単語に当たる品詞の連接からなる。
例えば、“sp11‐g1”に品詞辞書を適用すると、
(「魚崎」「インター」「何キロ」)といったような受
理可能な単語系列が生成できる。
【0048】“品詞系列パターン辞書”の内容を元に、
各品詞の各品詞系列パターンにおける出現箇所(出現順
序)と、その品詞によって“ハッシュ辞書”を構成する
と図15に示す如きの“品詞系列ハッシュ辞書”が生成
できる。
【0049】例えば、図15(a)に示す“単語出現番
号1”の“ハッシュ表”を見れば、本実施形態の文型辞
書において“品詞(地名)”が文頭に現れる単語系列の
パターンとしては、“品詞系列ID”が“sp01‐g
2”と“sp02‐g2”の2種類しかないことがわか
る。
【0050】“品詞系列ハッシュ辞書”は、単語出現番
号が“1”から、あり得る品詞系列パターンの最長のも
の(本実施形態では“5”)までの各“出現順位の表”
と、各単語系列パターンの末尾からの“ハッシュ表”と
から構成される。
【0051】ここで処理の説明を簡単化させるため、得
られたワードスポッティング結果が図8に示す如きの簡
単化されたワードスポッティング結果であるとして話を
進める。
【0052】この入力はラティス構築処理部において各
単語候補の時間的関係、及び重なりや離れの制約を用い
ることで、図9のような入力ラティス構造(文章を文字
認識したり、あるいは利用者が音声で文発声をしたりす
るような場合での認識結果であって、候補となる単語や
文字が格子状に組み合わされた形式で表現された構造)
が構築される。
【0053】この入力ラティス構造の各ノードには、図
10に示す如きのデータ要素が格納される。
【0054】すなわち、図10に示すように、“ノード
ID”、“所属品詞”、“前ノードリスト”、“次ノー
ドリスト”、“未処理前ノードリスト”、“解析途中経
過リスト”、“入力要素id:単語表象”の7要素であ
る。
【0055】ここで、入力ラティスのノードの第1の要
素は、ノードの識別子である“ノードID”であり、図
9で各ノードに示されているように、「入力要素ID:
単語表象」の形式で記述される。
【0056】第2の要素は、その単語の“所属品詞”で
ある。
【0057】第3の要素は、そのノードの前に接続する
可能性のあるノードの集合を表す“前ノードリスト”で
ある。
【0058】第4の要素は、そのノードの後ろに接続す
る可能性のあるノードの集合を表す“次ノードリスト”
である。
【0059】第5の要素は、前ノードリストの要素中解
析処理が終了していないノードの集合を表す“未処理前
ノードリスト”であり、このリストの内容が空にならな
い限りそのノードの解析を行ってはならないことを示
す。
【0060】第6の要素は、そのノードが表象する単語
が受理される単語系列の要素であるならば、どの品詞系
列パターンがその単語系列のテンプレートとしてあり得
るかを要素として持つ“解析途中経過リスト”である。
解析途中経過リストは、そのノードが受理可能単語系列
の何番目に現れるかの数値と、その順序でそのノードが
表象する単語が現れたときに考えられる品詞系列IDの
リストとの組のリストで表現される。
【0061】例えば、図9の入力ラティスを例にとる
と、当該入力ラティスのノード“「07:今」”につい
ては“(「今」…)”という具合に、単語系列の最初に
現れる場合と、“(「道」、「今」、…)”という具合
に、2番目に現れる場合とが考えられる。
【0062】このような場合、“解析途中経過リスト2
は“[(1、1…1)、 (2、[…]]”と云う具合
に、この単語が1番目に現れた場合に取り得る品詞系列
パターンのリストと2番目に現れた場合に取り得る品詞
系列パターンのそれとを分けて管理する。 <[iii]ラティス解析処理S3での処理機能>図3
は、図2で説明した本発明の具体例に係る情報解析方法
におけるラティス解析処理S3での処理内容の概略を示
すフローチャートである。ラティス解析処理S3での処
理の詳細を図4乃至図7に示す。但し、図4はラティス
解析処理フローの全体図、図5乃至図7はその部分拡大
図である。
【0063】以下、図3および図4乃至図7を参照し
て、解析処理の流れを説明する。
【0064】処理が開始されると、まず初期設定処理
(図3のステップS31)において解析処理の準備を行
う。この初期設定処理(S31)の詳細は、図4乃至図
6のステップS311〜S318に示す。
【0065】この処理において、具体的には、(1)入
力ラティスの全ノードについて、前ノードリストの内容
を未処理前ノードリストにコピーする、(2)入力ラテ
ィスの開始ノードに接続している、すなわち単語系列の
先頭になりうる単語を表象するノードを処理中ノードリ
ストに含める、(3)処理中ノードリストに含めたノー
ドの解析途中経過リストの初期値を設定する、(4)処
理中ノードリストに含めた各ノードの未処理前ノードリ
ストから開始ノードを除去する、の4つの処理を行う。
この例では、処理中ノードリストの内容は[07:今,
01:道,03:西宮]となり、それらの各ノードの
“未処理前ノードリスト”と“解析途中経過リスト”の
内容は 07:今 [01:道] [(1,[])] 01:道 [] [] 03:西宮 [] [1,[sp03‐g2,sp04‐g2,sp07‐
g1,sp08‐g1,sp09‐g1,sp10‐g
1,sp11‐g1,sp12‐g1])] となる。初期設定処理(S31)が終わった段階での単
語ラティスのノード例は例えば、図11に示す如きとな
る。
【0066】初期設定処理(S31)が終わると、本ラ
ティス解析処理S3では“処理中ノードリスト”が空に
なるまで(図3のステップS32)伝播処理(S33)
を繰り返す。
【0067】伝播処理S33の詳細は、図4および図6
および図7におけるステップS331〜S338にある
が、この処理を一言でいうと、「あるノードにおいて未
処理前ノードリストが空になり解析途中経過が確定する
と、そのノードの後続のノードに解析途中経過リストの
内容を伝播する」ということになる。
【0068】そして、“処理中ノードリスト”が空にな
ると、ラティスの“終了ノードの解析途中経過リスト”
に蓄積されている内容が、ラティスで受理可能な“品詞
系列ID”の集合となっている。
【0069】このため、終了ノードの“解析途中経過リ
スト”の全ての“品詞系列ID”を“品詞系列候補リス
ト”にコピーして、ラティス解析処理(S3)は終了す
る。次に、このようにして得られた“品詞系列候補リス
ト”を利用して、入力ラティスをもう一度スキャンする
前述の[iv]単語系列候補リスト形成処理(S4)を実
行する。この単語系列候補リスト形成処理を実行するこ
とにより、求める受理可能な単語系列のリストを得る。
【0070】以上が本発明に係る情報解析方法の処理概
要とその機能である。
【0071】<伝播処理S33での処理の詳細>ここで
これまでの例を用い、図4および図6および図7のステ
ップS331〜S338を参照してラティス解析処理に
おける伝播処理(S33)の内容を更に詳しく説明す
る。
【0072】まず、図4および図6および図7のステッ
プS331において、“処理中ノードリスト”からノー
ドが一つ取り出される。この場合、ノード「07:今」
が処理対象前ノードMとなる。
【0073】しかしながら、このノードの“未処理前ノ
ードリスト”は空でないため、ステップS332のチェ
ックで処理は開始されず、ステップS32の処理に戻
る。そして、再び、ステップS331で別のノード「0
1:道」が“処理中ノードリスト”から取り出される。
【0074】このノードの“未処理前ノードリスト”は
空のため、後ろに接続するノード「07:今」と「1
5:インターチェンジ」にこのノードの“解析途中経過
リスト”の内容が伝播される。ただし、上に示すように
「01:道」の“解析途中経過リスト”は空であるた
め、「07:今」と「l5:インターチェンジ」の“解
析途中経過リスト”の内容は変化せず、これらのノード
の“未処理前ノードリスト”から「01:道」が除去さ
れる。
【0075】すなわち、この操作により、それらの各ノ
ードの“未処理前ノードリスト”と“解析途中経過リス
ト”の内容が 07:今 [] [(1,[])] 15:インターチェンジ [07:今、03:西宮] [] となる結果、“処理中ノードリスト”から「01:道」
が除去され、[07:今,03:西宮,15:インター
チェンジ]となる。
【0076】次にS331で、再び、ノード「07:
今」が“処理中ノードリスト”から取り出されるが、
“未処理前ノードリスト”は空となったため、今回は伝
播が可能となる。
【0077】しかしながら、このノードの“解析途中経
過リスト”も事実上、“空”、すなわち、このノードを
経由して受理可能な品詞系列はないため、このノードの
後ろに接続する 「14:インター、18:今、20:まで、15:イン
ターチェンジ」の“解析途中経過リスト”の内容は変化
せず、これらのノードの“未処理前ノードリスト”から
「07:今」が除去されるのみである。
【0078】これらの操作の結果、それらの各ノードの
“未処理前ノードリスト”と“解析途中経過リスト”の
内容は 14:インター [03:西宮] 15:インターチェンジ [03:西宮] 18:今 [03:西宮、14:インター] 20:まで [14:インター、15:インターチェンジ] となり、“処理中ノードリスト”から「07:今」が除
去され、[03:西宮、15:インターチェンジ、1
4:インター、18:今、20:まで]となる。
【0079】次にステップS331において、“処理中
ノードリスト”からノード「03:西宮」が取り出され
る。このノードの“未処理前ノードリスト”は空のた
め、“解析途中経過リスト”の内容の伝播が可能であ
る。
【0080】ここで、まず、ノード「03:西宮」の
“解析途中経過リスト”の各順番インデックスに“1”
を加えたリスト [(2,[sp03‐g2,sp04‐g2,sp07
‐g1、sp08‐g1,sp09‐g1、sp10‐
g1,sp11‐g1,sp12‐g1])]を生成す
る。そして、このリストと、後続するノードの対応する
“品詞系列ハッシュ”の内容との積集合をとる。
【0081】例えば、[14:インター」に伝播する
際、前出のリストの単語出現番号である“2”のハッシ
ュ辞書の「インター」の品詞である「経由地」の項目の
リスト [sp08‐g1,sp09‐g1,sp10‐g1,
sp11‐g1、sp12‐g1,sp07‐g1、s
p03‐g2、Sp04‐g2]との積集合がとられ、
その結果、「14:インター」の“解析途中経過リス
ト”の内容は[(2,[sp03‐g2、sp04‐g
2、sp07‐g1、sp08‐g1,sp09‐g
1,sp10‐g1,sp11‐g1,8pl2‐g
1])]となる。
【0082】同様の処理が「03:西宮」に接続する各
ノードに対して行われ、それらの各ノードの“未処理前
ノードリスト”と“解析途中経過リスト”の内容は 14:インター [] [(2,[sp03‐g2,sp04‐g2,sp07
‐g1,sp08‐g1、sp09‐g1,sp10‐
g1,sp11‐g1,sp12‐g1])] 15:インターチェンジ [] [(2,[sp03‐g2,sp04‐g2,sp07
‐g1,sp08‐g1,sp09‐g1,sp10‐
g1,sp11‐g1,sp12‐g1])] 18:今 [14:インター] [] となり、“処理中ノードリスト”は、[15:インター
チェンジ,14:インター,18:今、20:まで]と
なる。
【0083】次に、ステップS331でノード「15:
インターチェンジ」が“処理中ノードリスト”から取り
出される。このノードの“未処理前ノードリスト”は空
のため、“解析途中経過リスト”の内容の伝播が可能で
ある。
【0084】ここでまず、ノード「15:インターチェ
ンジ」の“解析途中経過リスト”の各順番インデックス
に“1”を加えたリスト [(3,sp03‐g2,sp04‐g2、sp07‐
g1,sp08‐g1,sp09‐g1、sp10‐g
1、sp11‐g1,sp12‐g1])]を生成す
る。そして、このリストと、後続するノード「20:ま
で」の対応する“品詞系列ハッシュ”の内容との積集合
をとる。
【0085】すなわち、「20:まで」に伝播する際、
前出のリストの単語出現番号である“3”のハッシュ辞
書の「まで」の品詞である「道程」の項目のリスト [sp08‐g1,sp10‐g1,sp12‐g1]
との積集合がとられ、「20:まで」の解析途中経過リ
ストの内容は[(3,[sp08‐g1,sp10‐g
1,sp12‐g1])]となる。
【0086】同様のサイクルが「14:インター」から
の伝播でも行われる。この伝播の際、「14:インタ
ー」からは「18:今」に対しても接続可能ではある
が、「18:今」の対応するハッシュ辞書項目がないた
め、このノードの“解析途中経過リスト”の内容は空の
ままである。結果として、各ノードの“未処理前ノード
リスト”と“解析途中経過リスト”の内容は 20:まで [] [(3、[sp08‐g1、sp10‐g1、sp12
‐g1])] 18:今 [] [] 24:どのくらい [20:まで] [] となり、“処理中ノードリスト”は、[20:まで、2
4:どのくらい]となる。
【0087】次に、ステップS331でノード「20:
まで」が“処理中ノードリスト”から取り出される。こ
のノードの“未処理前ノードリスト”は空のため、“解
析途中経過リスト”の内容の伝播が可能である。ここで
まず、ノード「20:まで」の“解析途中経過リスト”
の各順番インデックスに“1”を加えたリスト [(4、[sp08‐g1,sp10‐g1,spl2
‐g1])]を生成し、後続のノード「24:どのくら
い」と「終了」に伝播する。その結果、まず、“ノード
「24:どのくらい」”ではこれまでと同様品詞系列ハ
ッシュ辞書を参照することで“解析途中経過リスト”を
更新することから、当該“解析途中経過リスト”の内容
は 24:どのくらい [] [(4,[sp08‐g1])1 となり、また、“処理中ノードリスト”の内容は[2
4:どのくらい]となる。次に、「終了」ノードへの伝
播に際しては単語出現番号「end」のハッシュ辞書項
目が参照される。この場合、品詞「道程」で終了する文
型は登録されていないため辞書参照は失敗し、終了ノー
ドの解析途中経過リストの内容は更新されない。すなわ
ち、 終了 [24:どのくらい] [] となり、処理中ノードリストは[24:どのくらい]と
なる。
【0088】次にステップS331で、ノード「24:
どのくらい」が“処理中ノードリスト”から取り出され
る。このノードの“未処理前ノードリスト”は空のた
め、“解析途中経過リスト”の内容の伝播が可能であ
る。しかし、このノードに接続可能なノードは「終了」
ノードのみなので、終了ノードに伝播させる。
【0089】この伝播において、単語出現番号 「en
d」のハッシュ辞書項目が参照される。品詞「HOW
MUCH<どれくらい>」の項目が参照され、ノード
「24:どのくらい」の“解析途中経過リスト”との積
集合がとられ、 終了 [] [(5、「sp08‐g1])] が最終的に得られる。また、処理中ノードリストが空に
なり、品詞系列候補リストの内容が[sp08‐g1]
となって、ラティス解析処理S3は終了する。
【0090】次に得られた“品詞系列候補リスト”か
ら、受理可能な単語系列を生成する前記の[iv]単語系
列候補リスト形成処理(図2のステップS4)に処理が
移る。 <[iv]単語系列候補リスト形成処理>この単語系列候
補リスト形成処理処理は、入力ラティスの可能な系列の
中から、得られた各品詞系列候補、この場合は“sp0
8‐g1”を見つけ出す処理に他ならない。
【0091】ここで、ラティス解析処理の過程において
各ノードが所属し得る品詞系列の集合が“解析途中経過
リスト”として残っているため、求める“品詞系列I
D”を“解析途中経過リスト”のメンバとして持つ系列
を探索することで、求める“単語系列候補リスト”を得
ることができる。
【0092】このような単語系列候補リスト形成処理
(図2のステップS4)の過程を経て、“単語系列候補
リスト” 「(03:西宮,14:インター,20:まで,24:
どのくらい)、(03:西宮,15:インターチェン
ジ、20まで,24:どのくらい)]が得られる。
【0093】かくして、このように構成された情報解析
方法によれば、展開すれば極めて多数の入力要素系列候
補を導く入力ラティス様のデータを構築し得る入力認識
結果の解析において、「与えられた受理可能構文規則を
満足する尤もらしい入力要素カテゴリ系列」を高速、か
つ、少ないメモリ容量で導くことが可能となる。
【0094】さらに、本発明によれば、展開すれば極め
て多数の入力要素系列候補を導く入力ラティス様のデー
タを構築し得る入力認識結果の解析において、「与えら
れた受理可能構文規則を満足する尤もらしい入力要素系
列」を高速、かつ、少ないメモリ容量で導くことが可能
となる。
【0095】尚、本発明の実施の形態としては上記の方
式を実現したプログラムを収録した媒体として実現し、
その媒体に納められたプログラムをコンピュータに読み
込ませて実行させることで実施することも可能である。
【0096】尚、上述の例において制御の単位を単語と
し音声ワードスポッティングをアプリケーションとして
記述しているが、本発明の実現形態はこれに限定される
ものではなく、例えば、連続音声認識の音韻を単位とし
てで実現することも可能であり、また、文字認識処理に
おける文字を単位として制御することも可能であり、そ
のような実現形態も本発明の趣旨の範囲内である。ま
た、上述の例において文法辞書の要素の記述を“OR”
付きの品詞系列用の形式で、品詞辞書を単語カテゴリの
階層構造として記述しているが、本発明の実現形態はこ
れに限定される物ではなく、最終的には品詞系列パター
ン辞書が作成できる、すなわち入力ラティスの各ノード
の要素の集合とそれらの要素が所属するカテゴリの集合
をあわせた集合の要素の系列を要素として持つ高々有限
個の集合として品詞系列パターン辞書が構成できるよう
な実現形態であればどのような形式でも実現可能であ
る。例えば、構文記述及び品詞記述を書き換え規則で記
述したとしても、規則による構文展開回数に制限を加え
るなどその書き換え規則から有限個の前終端記号列が生
成されるような記述と制御が行われれば、本発明は実現
可能である。一般に、計算機で処理可能な構文の数は有
限であり、また、人間が話したり書いたりできる語棄や
文型の展開は有限であることから、本来無限個の前終端
記号列を生成できるような書き換え文法にそのような制
約を加えたとしても枠組の現実性を損なう物ではない。
以上のように、本発明の実現形態には上述の例に対して
種々の変形が可能であり、それらも趣旨に反しない限り
本発明の実施形態の範囲内である。以上、第1の実施形
態は、入力ラティスを展開することなく解析し、高速に
その解析結果を得ることができる情報解析方法を提供す
るために、有向グラフ構造状のデータ構造として与えら
れる入力ラティスの各ノードの表象となり得る終端記号
の集合と前記各終端記号が所属するカテゴリであるカテ
ゴリ記号の集合の和集合の要素の系列として与えられた
受理可能な受理パターン記号列の集合のうち、前記開始
ノードもしくは終了ノードから前記グラフ構造の解析を
開始する解析開始ノード決定ステップと、前記グラフ構
造の各ノードの解析の途中経過においてそのノードが解
経路候補の開始点または終了点からある順番で解経路候
補に含まれる場合にとり得る受理パターン記号列を計算
してノードに記録する受理パターン記号列計算・蓄積ス
テップと、前記グラフ構造の各ノードの解析の途中経過
においてそのノードに対する解析の経路パターンを網羅
したかどうかを判定するノード解析網羅判定ステップ
と、あるノードについてそのノードの解析経路パターン
が網羅された場合に零回以上の受理パターン記号列計算
・蓄積ステップの実行によって蓄積されたそのノードヘ
の受理パターン記号列を解析においてそのノードの次に
接続されている一個以上のノードに伝播させる受理パタ
ーン記号列伝播ステップと、解析が終了したかどうかを
判定する解析終了判定ステップと、解析が終了した際に
前記開始ノードもしくは終了ノードに蓄積されている受
理パターン記号列情報を用いて本方法の出力である零個
以上の尤もらしい受理パターン記号列を収集する受理パ
ターン記号列収集ステップと、前記収集された尤もらし
い受理パターン記号列集合と前記各ノードに蓄積された
各ノードの受理パターン記号列の情報を用いて前記グラ
フ構造を探索し、前記尤もらしい受理パターン記号列集
合の各要素を生成し得る零個以上の解経路候補の集合を
発見し、出力する解経路候補検索・出力ステップとを具
備したことを特徴とする。
【0097】本発明によれば、展開すれば極めて多数の
入力要素系列候補を導く入力ラティス様のデータを構築
し得る入力認識結果の解析において、与えられた受理可
能構文規則を満足する尤もらしい入力要素カテゴリ系列
を高速かつ少ないメモリ要求量で導くことが可能とな
る、展開すれば極めて多数の入力要素系列候補を導く入
力ラティス様のデータを構築し得る入力認識結果の解析
において、与えられた受理可能構文規則を満足する尤も
らしい入力要素系列を高速かつ少ないメモリ要求量で導
くことが可能となる、等の実用上多大な効果が奏せられ
る。
【0098】(第2の実施形態)ここで、第1の実施形
態に示した発明を該当受理パターン記号列伝搬法と呼ぶ
ことにする。
【0099】自然言語解析や自然言語生成、あるいは音
声認識や音声合成技術あるいは対話処理技術を利用し、
自由発話による音声入力によって利用者とコンピュータ
システムとが対話する音声対話装置においては、通常、
音声認識処理を必要としているが、このような認識処理
は、一般に一意に認識結果が得られないという問題があ
る。すなわち、一つの入力信号に対して複数の候補が現
われるという状態が一般的である。このため、音声で利
用者が文発声をする場合、候補となる単語や文字が格子
状に組み合わされたラティス形式で表現できるような認
識結果が得られる。
【0100】利用者の入力を一般のアプリケーションプ
ログラムで利用可能にするためには、このような認識結
果から利用者の入力として尤もらしい文や文字列を高速
かつ適切に決定するような認識の後処理技術が重要であ
る。
【0101】また、文章に対して単語のラティス形式で
認識結果を与えることの可能な音声認識手法であるワー
ドスポッティングでは、一般に多数の湧きだし誤りを生
じ、ラティス形式から生じうる系列に展開し、それぞれ
について解析を行う手法は、湧きだし誤りによる系列数
の増加を考慮しておらず、現実的ではないといえる。そ
こで、ラティスを展開せずに、正解となりうる品詞系列
の集合と、それから構成される各品詞の出現順序に基づ
くハッシュ辞書(その要素はその順序にある品詞が存在
する品詞系列のIDの集合となる)とを利用し、生成さ
れたラティスの各単語に、考えうるその単語の出現順序
と対応する品詞から得られる、ハッシュ辞書の内容を、
次に出現しうる単語に伝搬し、伝搬された「存在しうる
系列集合」と「その単語が存在できる系列集合」とで、
共通な系列を更に伝搬させることによって、最終的に利
用者が入力したであろう品詞系列へと絞り込む手法であ
る「該当受理パターン記号列伝搬法」は、ラティスを展
開せずに解析を行うので、多くの曖味性を含むラティス
に対しても高速に解析結果が得られるが次のような問題
点を含んでいる。
【0102】その問題点とは、「正解となりうるカテゴ
リ系列の集合が増大した場合に、記憶すべきハッシュ辞
書の規模が大きくなり、膨大な量のメモリを必要とする
こと」と、「解析途中の伝搬処理に必要な集合演算の規
模が大きくなるため、計算量においても大きなコストが
必要となる」ことである。
【0103】また、「正解となりうるカテゴリ系列を生
成するための、受理パターン記号列の辞書にも配慮が必
要となる」という点も無視できない。例えば、第1の実
施形態における対話システムに適用する場合には、カテ
ゴリは品詞に、受理パターン記号列は「文型」に相当す
る。
【0104】また、そのような音声対話システムのタス
クがカーナビゲーションシステムの場合であれば、「場
所」に関する表現が多くなると考えられるが、システム
管理者が文型を定義する際に、誤って、ある「場所」の
表現を与える品詞系列を付与し損ねた場合に、文型によ
って受け付けられる「場所」の表現が異なることにな
り、どのような「場所」の表現が受け付け可能かが利用
者にはわかりにくくなり、利用者が混乱すると考えられ
る。また、文型の数が多くなった場合には、「場所」の
表現を追加あるいは削除する場合についても、管理者の
処理が煩雑となり、また、その結果、上記のような文型
によって受け付けられる「場所」の表現が異なるという
状況も起こる可能性があり、それにより、利用者が混乱
するということも考えられる。
【0105】このように、該当受理パターン記号列伝搬
法において、正解となりうるカテゴリ系列の集合が増大
した場合に、記憶すベきハッシュ辞書の規模が大きくな
り、膨大な量のメモリを必要とすること、また、解析途
中の伝搬処理に必要な集合演算の規模が大きくなるた
め、計算量においても大きなコストを必要とする。ま
た、正解となりうるカテゴリ系列を生成するための、受
理パターン記号列の辞書にも配慮が必要である。
【0106】次に説明する第2の実施形態は、このよう
な問題に対処できるようにするもので、正解となりうる
カテゴリ系列の集合が増大した場合においても、使用す
るメモリ量の増加を抑制し、解析時の伝搬処理の際の計
算量の増加を抑制するラティス解析手法を提供する。ま
た、該当受理パターン記号列伝搬法における品詞系列を
生成するための受理パターン記号列の辞書についても、
システム管理者が管理し易い形式を与えることができる
ようにする。
【0107】以下、第2の実施形態を説明する。
【0108】ここで説明する第2の実施形態としての本
発明は、「該当受理パターン記号列伝搬法における受け
付け可能なカテゴリ系列パターン辞書を管理/修正し易
いようにした受理パターン記号列定義方法」について示
すと共に、ハッシュ辞書の要素となるカテゴリ系列パタ
ーンの数が増大しても、処理に必要なコンピュータのメ
モリ容量の増大や、計算量におけるコストの増加を抑制
できるようにする手法を提案するものであり、以下、図
面を参照して本発明の詳細につき説明する。ここでは、
音声指示方式のカーナビゲーションシステムをタスクと
した場合での例を主体に説明する。
【0109】図18は、音声指示方式のカーナビゲーシ
ョンシステムをタスクとした場合での、該当受理パター
ン記号列伝搬法で利用する“文型辞書”の例を表してい
る。この図において、“(”と、“)”とで囲まれた文
字列が品詞を表し、“|”はその両側の品詞(列)のう
ちの1つを出力する記号であり、“‐”は1つの構文要
素を複数行に分けて表示していることを表す。
【0110】また、個々の構文要素は、空白あるいは改
行で区切られている。例えば、文型“Where”は2
つの構文要素からなり、第一構文要素が5個存在するの
で、そこから品詞系列パターンは5個生成されると、こ
の図からわかる。
【0111】この場合、“Where”と“HowMu
ch1”、そして、“HowMuch2”の合計3種類
の文型が登録されている。
【0112】しかし、これらの定義では、「場所」を表
す部分(例えば、文型“Where”における品詞(W
HERE)の前にある記号列)である 「(経由地名)(経由地)|(施設名)(施設)|(経
由地)(順序相対)(順序絶対)(施設)|(経由地)
(順序相対)(施設)|(経由地名)(経由地)(順序
相対)(施設)」 という表現となっていて表現形式が複雑なものとなって
おり、「場所」を表す部分の修正、追加などの管理が複
雑になる。特に“文型HowMuch2”においては、
この「場所」を表す表現が、最初の位置と、品詞(起
点)の直後と云うように2箇所も存在する。そのため、
一方を修正しても他方の修正を見落すこともある。
【0113】また、この図から、各文型において「場
所」を表す共通の表現が存在することがわかる。
【0114】図19は、このような該当受理パターン記
号列伝搬法で利用する複雑な表現形式の図18の如き
“文型辞書”を修正して得られた本発明システムで利用
するための“文型辞書”の例を表している。
【0115】ここでの修正とは、『「場所」を表す表現
を「場所句」とした別の一つの句の文型辞書として定義
する』というものである。この図において、「別の文法
セットの文型辞書として定義すること」を表す識別子が
「+Phrase」であり、その直後の文字列がその文
型辞書の名前を表す。
【0116】ここで、“文法セット”とは、「句」など
の「部分的な構文からなる規則」と、「全体の構文から
なる規則」のいずれかのことを指す。
【0117】そして、別の文型を利用する場合に、「そ
の文型を必要とすることを明示する識別子」が「−Ne
eds」であり、その後の文字列が必要な文型辞書名
(文法セット名)を表す。
【0118】この図の例の場合では、入力文章を表す文
型辞書「全系列」に必要な文型辞書が、「場所句」であ
ることを表している。複数の文型辞書が必要な場合は、
識別子「−Needs」の後に、複数の文型辞書名を表
記する。
【0119】これにより、「場所」を表す表現を追加す
る場合には、文型辞書「場所句」を修正すれば、文型辞
書 「全系列」の全てにそれが反映されるので、管理者
にとって管理/修正が容易な文型辞書定義が可能とな
る、ということがわかる。この方法は、特に、ある意味
を表す集合を別辞書として管理するにとどまらず、主
部、述部のような文法的な情報を持つ集合と一つの辞書
としても構わない。 <ラティス解析方法の実施形態>続いて、本発明におけ
るラティス解析方法の実施形態について説明する。
【0120】本実施形態は、図19における文型辞書を
展開せずに、各文法セットについて順にラテイスの解釈
を行う方法である。
【0121】これにより、該当受理パターン記号列伝搬
法が持つ品詞系列パターン数の増大、特に、文法セット
の品詞系列パターン数の増大によるコンピュータの使用
メモリ、コンピュータの計算量といったリソースや運用
コストが増大することを抑制することが可能となる。
【0122】最初に、階層ハッシュ辞書(図21)を構
築する。
【0123】図20は、本実施形態で使用する“階層品
詞系列パターン辞書”の例である。図20に示すよう
に、各文法セットについて展開された階層品詞系列パタ
ーン辞書から、各文法セットについてのハッシュ辞書を
構築しても良いし、予め構築しておいたハッシュ辞書を
読み込む形式でも良い。
【0124】この図では、図19に示した文型辞書の例
から展開したものを示した。この図からわかるように、
“階層品詞系列パターン辞書”とは、各文法セット別個
に提案されている文型辞書から、それぞれの文法セット
を別個に展開し、品詞(文法セット名も含む)系列パタ
ーンを生成したものを云う。尚、文法セットは厳密には
品詞ではないが、仮想的に品詞と同じような扱いをする
ものとすれば、このように表記できる。
【0125】この図から、この例では「場所句」につい
ては“P1#0”〜“P5#0”までの5パターン分、
定義されており、最終的な品詞系列である「全系列」に
ついては「場所句」を利用する形式で “Where#0”、 “HowMuch1#0”、 “HowMuch2#0” の3パターン分、定義されていることがわかる。
【0126】ここで、各品詞系列パターンに付与されて
いるIDの中の“#0”について補足しておく。
【0127】この“#0”というのは、1つの文型辞書
のパターンから展開されたものにつけるIDである。そ
して、1つの文型辞書のパターンから複数の品詞系列パ
ターンに展開される場合は“#1”、“#2”・・・と
云う具合に別のIDが付与されるものとする。尚、ID
は各品詞パターンに特有のものであれば、どのような形
式でもよい。
【0128】また、この図においても図19と同じよう
に、別の文法セットとして定義することを表す識別子が
「+Phrase」であり、その直後の文字列がその文
法セットの名前を表す。そして、別の文法セットを利用
する場合に、その文法セットを必要とすることを明示す
る識別子が「−Needs」であり、その後の文字列が
必要な文法セットを表している。また、各品詞系列には
固有のIDが付与されており、各系列の先頭に表記され
ている記号がそのIDとする。
【0129】<階層ハッシュ辞書の例>図21は、本実
施形態で使用する一例としての階層ハッシュ辞書の例で
ある。この図では、図20に示した階層品詞パターン辞
書からハッシュ辞書を構築したものを示した。この図か
ら、例えば「場所句」では一番目に現われる品詞(文法
セット名)としては“(経由地名)”、“(施設
名)”、“(経由地)”の三種類が存在し、それぞれ該
当する品詞パターンIDとしては、品詞「経由地名」が
“P1#0”,“P5#0”、品詞「施設名」が“P2
#0”、そして、品詞「経由地」が“P3#0”,“P
4#0”であり、「全系列」では一番目に現われる品詞
(文法セット名)としては「場所句」しか存在しないこ
とがわかる。
【0130】この図からわかるように、“階層ハッシュ
辞書”とは、図20に示すように各文法セット別個に展
開された階層品詞パターン辞書から、それぞれの文法セ
ットを別個にしてハッシュ辞書を生成したものを指す。
【0131】また、この図20においても図19と同じ
ように、別の文法セットとして定義することを表す識別
子が「+Phrase」であり、その直後の文字列がそ
の文法セットの名前を表す。そして、別の文法セットを
利用する場合に、その文法セットを必要とすることを明
示する識別子が「−Needs」であり、その後の文字
列が必要な文法セットを表している。
【0132】<第2の実施形態におけるラティス解析手
順>図17は、本実施形態におけるラティス解析方法の
処理手順を示すフローチャートである。
【0133】例えば、図1に示す如きシステムの入力部
3(例えば、音声認識装置や文字認識装置などの認識装
置)からラティス状の認識結果を渡された場合に、図1
7の流れに基づいてCPU1はラティス解析処理を行
う。以下は、この図を参照しながら詳細に本発明のラテ
ィス解析方法を説明する。
【0134】[ステップS201] このステップで
は、ラティス解釈処理の初期化を行う。初期化処理は、
まず、“処理済み文法セット名”と“未処理文法セット
名”を記録するリストを準備し、登録されている全ての
文法セットを“未処理文法セット名のリスト”に登録す
る、と云ったことを行う。また、ノードを記録するリス
トを準備し、ラティス結果の各一単位(単語ラティスな
ら各単語)をそれぞれノードとして、“ノードリスト”
に登録する。
【0135】このノードには、各認識単位の他に、その
単位の出現位置毎の品詞系列パターンIDの集合と、該
当する品詞(文法セット名)に関する情報を持つことが
でき、ここでは、各認識単位の他に、該当する品詞情報
もこのノードに登録する。そして、次のS202の処理
に進む。
【0136】[ステツプS202] このステップで
は、ラティス解釈に適用する文法セットを選択する。適
用する文法セットを選択するには、その文法セットを生
成するために必要な他の文法セットが既に生成されてい
るということを確認する必要がある。もし、ある文法セ
ットに必要な文法セットが生成されていない状態で、そ
の文法セットの解釈を行ったとすると、その文法セット
に対応する系列が生成できない可能性があるからであ
る。
【0137】上記条件を確認するために、図21にある
識別子「−Needs」以降の文法セット名を参照す
る。すなわち、「−Needs」以降の文法セット名か
らできる“必要文法セット名リスト”と、“処理済み文
法セット名リスト”とを比較する。そして、“必要文法
セット名リスト”の中身の全てが“処理済み文法セット
名リスト”に含まれている場合は、その文法セットは適
用可能ということになる。
【0138】よって、最初に適用可能な文法セットは
「−Needs」識別子以降の必要な文法セットが存在
しないものとなる。また、全系列を表す文法セットを最
後に適用するように、階層ハッシュ辞書の「−Need
s」識別子には依存関係を明確に記しておく必要があ
る。
【0139】[ステップS203] このステップで
は、登録されたノードを適切に連結する。
【0140】ノードの連結は、例えば、対応する単語
(系列)の出現位置に基づいて連結する。例えば、音声
ラティスの場合は単語の出現フレームの重なり、離れか
ら単語同士がつながるかどうかの判定を行う。また、無
駄な接続を少なくすることにより、より効率的に解釈を
行うために接続可能品詞リスト(図22)などの他の情
報を適用してもよい。但し、S202で最後の文法セッ
ト(全文系にあたる品詞系列パターン辞書)以外の文法
セットを選択している場合は、その文法セットが文章の
任意の位置に出現するので、“文頭/文末”に関する条
件は適用しないようにする必要がある。
【0141】図22は、“接続可能品詞リスト”の例を
表す。“接続可能品詞リスト”は、品詞テンプレート辞
書から連続する2つの品詞(文法セット名)のつながり
を抽出したものである。また、二階層品詞テンプレート
辞書”から生成する場合は、各文法セットからそれぞれ
“接続可能品詞リスト”を作ることができる。
【0142】この図では、図20から生成できる“接続
可能品詞リスト”を示している。この図においても、図
21と同じように別の文法セットとして定義することを
表す識別子が 「+Phrase」であり、その直後の
文字列がその文法セットの名前を表す。そして、別の文
法セットを利用する場合に、その文法セットを必要とす
ることを明示する識別子が「−Needs」であり、そ
の後の文字列が必要な文法セットを表している。
【0143】この図から、例えば「場所句」を適用して
いる場合に、品詞「経由地名」には品詞「経由地」が連
結可能であることがわかり、「全系列」を適用している
場合に、「場所句」には品詞「WHERE」「道程」が
連結可能であることがわかる。
【0144】また、S203で適用される“接続可能品
詞リスト”はS202で選択された文法セット名と一致
するものでなければならない。
【0145】[ステツプS204] このステップで
は、現在連結されているノードを現在適用されている文
法セットについて、該当受理パターン記号列伝搬法を利
用して解釈処理を行う。参照するハッシュ辞書は、階層
ハッシュ辞書の中で、現在適用している文法セット名に
該当するハッシュ辞書を適用する。
【0146】また、既に他の文法セットに関するノード
が生成されている場合があるので、初期設定されている
品詞辞書の他に、“処理済み文法セット名リスト”に登
録されている文法セット名も品詞と同様に参照する必要
がある。あるいは、処理済みの文法セットを動的に品詞
として登録することが可能ならば、処理済みの文法セッ
ト名を品詞名として品詞辞書に登録することによって、
“処理済み文法セット名リスト”を参照する必要はなく
なる。
【0147】[ステツプS205] このステップで
は、S204で処理された文法セット名を“未処理文法
セット名リスト”から削除し、“処理済み文法セット名
リスト”に登録する。“処理済みの文法セット”を動的
に品詞として登録することが可能ならば、その文法セッ
ト名を品詞名として品詞辞書に登録してもよい。
【0148】[ステツプS206] このステップで
は、全ての文法セット(全系列を含む)が処理されたか
どうかを判定する。すなわち、“未処理文法セット名リ
スト”が空かどうかを判定し、空ならば終了し、空でな
ければ、S207に進む。
【0149】[ステップS207] このステップで
は、S204によって生成された系列のそれぞれを、ノ
ードとして登録する。その際に、次回のステップS20
4の処理実行時に参照できるように、生成されたノード
がどの文法セットに属しているかを示す情報を各ノード
に付与する。
【0150】これは例えば、“処理済みの文法セット”
を動的に品詞として登録することが可能ならば、その文
法セット名を品詞としてそのノードに付与してもよい。
あるいは、文法セット名をそのノードに持たせて、ステ
ップS204の処理実行の際に、“処理済み文法セット
名リスト”から文法セットに対応しているノードである
ことを認識させてもよい。また、最終的な解釈結果とし
て、単語系列情報と、該当する品詞パターン辞書情報と
の組合せが必要な場合は、各ノードに該当する品詞パタ
ーンを持たせておく必要がある。
【0151】以上が、第2の実施形態におけるラティス
解析方法の概要である。
【0152】<ラティス解析方法の詳細>続いて、上述
したラティス解析方法について、その具体例をあげて更
に詳しく説明する。
【0153】ここでは、ワードスポッティングを行い、
単語ラティス形式で認識結果を出力する音声認識システ
ムに、利用者が『西宮インターの前のサービスエリアま
でどれくらい』と音声入力した場合での処理例につい
て、説明する。
【0154】本発明のラティス解析方法を適用した解析
システム搭載のラティス解釈システムは、この音声認識
システムと接続し、認識結果を受け取る。
【0155】また、このラティス解釈システムは図19
で定義された文型辞書を受け付けるように設定されいる
ものとする。
【0156】この時、図19の文型辞書から図20の如
きの“階層品詞系列パターン辞書”が生成され、この
“階層品詞系列パターン辞書”から図21の如きの“階
層ハッシュ辞書”が構築される。
【0157】[ステップS201] ここで、図23に
示した認識結果のラティスを受け取ったとする。図23
において“<”と“>”とで囲まれた数値がその単語の
出現位置を表している。ラティスを受け取った段階で、
まず、スポッティングされた単語ラティスから、“ノー
ドリスト”にノードを登録する。
【0158】この実施例では、登録されたノードに対し
て該当する品詞をノードに登録しておく。また、“未処
理文法セット名リスト”と“処理済み文法セット名リス
ト”を準備し、“階層ハッシュ辞書”から登録されてい
る文法セットの名前を取り出し、“未処理文法セット名
リスト”に登録する。
【0159】その結果、“ノードリスト”内容は図24
の如きとなり、“未処理文法セット名リスト”、“処理
済み文法セット名リスト”はそれぞれ以下のようにな
る。未処理文法セット名リスト 処理済み文法セット名リスト 場所句 全系列 [ステップS202] 次に、最初に適用する文法セッ
トを選択する。
【0160】階層ハッシュ辞書(図21)から、各文法
セットの必要文法セット名リストを構築すると、以下の
ようになる。 このリストと、先ほどの処理済み文法セット名リストを
比較し、“必要文法セット名リスト”が空である場所句
を適用する文法セットとして選択する。
【0161】[ステップS203] 次に、“ノードリ
スト”に登録されているノードを、出現位置を基準にし
て連結する。但し、現在処理している場所句の他に、全
系列という文法セットが残っているので、最後に処理し
ている文法セットとはみなさず、文頭、文末について
は、全てのノードが連結しているとみなす。
【0162】その結果、ラティス構造として図25の如
きの結果が得られたとする。
【0163】この図において、“Start”は文頭を
意味し、また、“End”は文末を意味し、丸囲みの文
字がノードを示し、ノードに付与する形で添えられてい
る文字列がその品詞を意味する。但し、この図におい
て、文頭(Start)、文末(End)については、
全てのノードが連結しているが、図の明瞭化のために、
それらの連結は省略する。
【0164】[ステップS204] 次に、図25で表
されたラティスに対して、図21の中の場所句のハッシ
ュ辞書を適用した該当受理パターン記号列伝搬法を行
う。その結果、生成された場所句は図26となる。
【0165】この図において、“‐”でつながれている
単語は、個々のノードを表し、“)”と“(”で囲まれ
た文字列は、該当した品詞を表している。
【0166】[ステップS205] 以上で、場所句に
対しての処理を終了したので、次に“処理済み文法セッ
ト名リスト”、“未処理文法セット名リスト”を更新す
る。場所句を未処理文法セット名リストから削除し、
“処理済み文法セット名リスト”に登録する。
【0167】その結果、各々のリストは以下のようにな
る。未処理文法セット名リスト 処理済み文法セット名リスト 全系列 場所句 [ステップS206] “未処理文法セット名リスト”
に全系列が残っているので、S207の処理に進む。
【0168】[ステップS207] S204で生成さ
れた系列を一つのノードとして、“ノードリスト”に追
加する。その時に、新たにできた各ノードが場所句のノ
ードであることも登録する。その結果、“ノードリス
ト”は図27のようになる。そして、S202の処理に
進む。
【0169】[ステップS202] “未処理文法セッ
ト名リスト”に唯一残っている全系列について、実行可
能性を調べる。全系列の生成に必要な文法セット名であ
る場所句は、既に生成されているので全系列に関する解
釈が可能である。よって、全系列を適用する文法セット
として選択する。
【0170】[ステップS203] 次に、ノードリス
ト登録されているノードを出現位置を基準にして連結す
る。但し、今回は、二未処理文法セットリスト”に唯一
残っている全系列についての処理であるので、文頭、文
末に関する判定も行う。
【0171】その結果、図28の如きの結果が得られた
とする。この図においても、図25と同様に、“Sta
rt”は文頭を“End”は文末を意味し、丸囲みの文
字がノードを示し、ノードに付与する形で添えられてい
る文字列がその品詞を意味する。但し、今回は文頭、文
末についての連結判定が行われているので、それらの連
結も表示している。
【0172】[ステップS204] 次に、図28で表
されたラティスに対して、図21の中の全系列のハッシ
ュ辞書を適用した該当受理パターン記号列伝搬法を行
う。その結果、生成された全系列は図29となる。
【0173】[ステップS205] 全系列に対しての
処理を終了したので、“処理済み文法セット名リス
ト”、“未処理文法セット名リスト2を更新する。全系
列を“未処理文法セット名リスト”から削除し、“処理
済み文法セット名リスト”に登録する。
【0174】そして、各々のリストは以下のようにな
る。未処理文法セット名リスト 処理済み文法セット名リスト 場所句 全系列 [ステップS206] “未処理文法セット名リスト”
が空になったので、処理を終了する。
【0175】この段階で生成されている系列(図29)
が、ラティス解釈結果となる。
【0176】以上で本発明によるラティスの解釈が終了
し、最終的な解析結果として、「西宮インター前サービ
スエリアまでどれくらい」という階層化を行わない場合
と同じ文字系列が得られる。
【0177】ここで、階層化を行わなかった場合との計
算量の比較を行ってみる。もし、階層化を行わなかった
場合、“品詞系列パターン辞書”は図30のように展開
される。そして、この“品詞系列パターン辞書”から構
成されるハッシュ辞書の一番目の出現位置の部分は図3
1のようになる。
【0178】尚、この場合のハッシュ辞書は出現位置が
最大“10”となり、各出現位置においても品詞の数が
最大“9”個と、ハッシュ辞書の規模が大きくなってい
る。また、該当受理パターン記号列伝搬法では、該当品
詞系列パターンを絞り込むために、ハッシュ辞書の要素
同士の“And/Or”論理の集合演算を行うが、集合
演算の比較演算の回数は要素数の2乗のオーダーとな
る。
【0179】ここで、両者のハッシュ辞書の要素数を比
較すると、図31(最大14個)と、図21(最大3
個)であり、要素数が大きく異なることがわかる。
【0180】ここで、階層化を行わなかった場合と、行
った場合との比較演算回数のオーダーは次のようにな
る。
【0181】非階層化 : A12×L 階層化 : A22×L×R ここで、A1,A2はそれぞれの場合におけるハッシュ辞
書の最大の要素数であり、LはS3において連結された
ノード間連結数、Rは階層化によって行われる該当受理
パターン記号列伝搬法の回数である。
【0182】また、第2の実施形態での例における比較
演算回数を計算すると、階層化を行っていない場合は、
A1=14であるから、14×14×L=196Lとな
り、階層化を行った場合は、A2=3であるから、3×
3×L×2=18Lとなる。これより、比較演算回数は
階層化により、大きく減少していることがわかる。ま
た、演算処理に際してのコンピュータのメモリ使用量に
ついても、記憶すべき品詞系列パターンの数は、階層化
を行っていない場合は35個であるのに対し、階層化を
行った場合は“場所句”5個、“全系列”3個の計8個
となって、大幅に削減出来、それに伴い前述したように
ハッシュ辞書の規模も小さくなる。
【0183】また、文法セット表現の数が増加した場合
に、特に本発明の効果は大きくなる。例えば、先ほどの
例において、場所句の品詞パターン辞書の数が100個
になった場合、階層化を行わない場合は、品詞系列パタ
ーン辞書の数が10200個、階層化を行った場合は、
“場所句”100個、“全系列”3個の計103個とな
り、その差は更に有意なものとなる。
【0184】また、本実施例において、図22に示した
階層接続可能品詞リストをS203に利用した場合に、
残るリンクを示した図が図32(場所句を処理文法セッ
トとして使用)、図33(場所句生成後、全系列を処理
文法セットとして使用)である。
【0185】これらの図からわかるように、接続可能品
詞リストを使用しない場合と比較して、大きくりンクの
数が減少し、該当受理パターン記号列伝搬法による計算
量が減少していることがわかる。勿論、階層化を行わな
くとも、リンク数は減少するが、階層化を行えば、もと
の文法セットそのものが小さくなるために、出現する品
詞の数がより少なくなり、接続できる種類も減少すると
考えられ、接続可能品詞リストの効果も増すものと考え
られる。
【0186】以上から、本発明によって該当受理パター
ン記号列伝搬法から計算量、メモリのコストを大きく減
少させていることがわかる。
【0187】かくして、このように構成された本方式に
よれば、該当受理パターン記号列伝搬法において、正解
となりうるカテゴリ系列の集合が増大した場合おいて
も、必要なメモリ量を抑制し、また、解析途中の伝搬処
理に必要な集合演算の規模が大きくなるため、計算量に
おいても必要なコストを抑制する解釈方法を構成でき
る。
【0188】尚、上述の例において、文型辞書を「場所
句‐全系列」の1階層としているが、依存関係を明記す
る限り、何階層に分割しても、場所句と同じ位置づけと
して別の句を並列に定義しても構わない。また、最終的
に部分系列を定義できる品詞系列パターン辞書を生成で
きる文型辞書であれば、どのような文型定義方法でも構
わない。例えば、文型を書き換え規則で定義する場合は
該当受理パターン記号列伝搬法の前提である有限展開個
数の範囲内であれば、ある特定の非終端記号までを展開
した品詞系列パターンを句として定義し、本方式を適用
することが可能である。
【0189】また、上述の例においては、制御の単位を
単語とし、音声ワードスポッティングをアプリケーショ
ンとして記述しているが、本発明の実現形態はこれに限
定されるものではなく、該当受理パターン記号列伝搬法
が適用できる範囲であれば、そのような実現形態は本発
明の趣旨の範囲内である。
【0190】以上のように、本発明の実現形態には上述
の例に対して種々の変形が可能であり、それらも趣旨に
反しない限り本発明の実施形態の範囲内である。
【0191】以上、第2の実施形態の例は、開始ノード
と終了ノードと一つ以上のデータノードから構成される
有向グラフであって、各ノードが他の一つ以上のノード
と順序関係を持つ有向枝で連結され、一つ以上の開始ノ
ードから終了ノードに到達し得る経路である解経路候補
を持つ形式のグラフ構造に変換可能な入力情報を、当該
入力情報の各要素の表象となり得る終端記号の集合と前
記各終端記号が所属するカテゴリであるカテゴリ記号の
集合の和集合の要素の系列で表される受理可能な受理パ
ターン記号列の集合に基づいて解析することにより、零
個以上の尤もらしい受理パターン記号列を出力する情報
解析方法において、前記受理可能な受理パターン記号列
のうち、特定の部分系列である部分受理パターン記号列
を構成し、また、その部分受理パターン記号列を一つの
カテゴリ記号として利用し、受理パターン記号列を再帰
的に構成し、階層受理パターン記号列集合を生成する階
層受理パターン記号列生成ステップと、前記階層受理パ
ターン記号列集合の中から、全てのカテゴリ記号が既知
である前記部分受理パターン記号列を選択する部分受理
パターン記号列選択ステップと、前記階層部分受理パタ
ーン記号列集合の中の、各部分受理パターン記号列が既
に選択されたか否かを記憶する処理状態管理ステップ
と、この処理状態管理ステップにて記憶した情報から、
選択された部分受理パターン記号列が最終の記号列か否
かを判定し、最後でない場合は無条件で前記開始ノード
と終了ノードとに全てのデータノードを連結して、前記
選択された部分受理パターン記号列を受理パターンとし
た前記解析を実施し、最後の場合は、前記選択された部
分受理パターン記号列を受理パターンとした前記解析を
実施することにより、尤もらしい部分受理パターン記号
列を出力する解析ステップと、前記収集された尤もらし
い部分受理パターン記号列集合と前記各ノードに蓄積さ
れた各ノードの受理パターン記号列の情報を用いて前記
グラフ構造を探索し、前記尤もらしい受理パターン記号
列集合の各要素を生成し得る零個以上の解経路候補の集
合を発見し、各経路に存在するノードをマージし、その
所属カテゴリを該当する部分受理パターンとする新たな
ノードを作成する新規ノード生成ステップと、前記処理
状態管理ステップから、全ての部分受理パターン記号列
について解析ステップを通過したか否かを判定し、全て
の部分受理パターン記号列につて解析ステップを通過し
た場合に処理を終了する終了条件判定ステップとからな
るもので、このような本発明によれば、膨大な数の品詞
パターン系列の中に共有する部分品詞パターン系列を先
に解釈し、その結果を利用して全体の品詞パターン系列
を解釈するため、一回の該当文型伝搬法の対象となる品
詞パターン系列の個数を大幅に削減し、計算量、メモリ
の両面において大幅にコストを削減することができる。
【0192】実施形態に記載した手法は、コンピュータ
に実行させることのできるプログラムとして、磁気ディ
スク(フロッピーディスク、ハードディスクなど)、光
ディスク(CD‐ROM、DVDなど)、半導体メモリ
などの記録媒体に格納して頒布することもできる。
【0193】
【発明の効果】以上説明したように、第1の本発明によ
れば、展開すれば極めて多数の入力要素系列候補を導く
入力ラティス様のデータを構築し得る入力認識結果の解
析において、与えられた受理可能構文規則を満足する尤
もらしい入力要素カテゴリ系列を高速かつ少ないメモリ
要求量で導くことが可能となる、展開すれば極めで多数
の入力要素系列候補を導く入力ラティス様のデータを構
築し得る入力認識結果の解析において、与えられた受理
可能構文規則を満足する尤もらしい入力要素系列を高速
かつ少ないメモリ要求量で導くことが可能となる、等の
実用上多大な効果が奏せられる。
【0194】また、第2の本発明によれば、膨大な数の
カテゴリ系列の中に共有する部分品詞パターン系列を先
に解釈し、その結果を利用して全体のカテゴリ系列を解
釈するため、一回の該当文型伝搬法の対象となるカテゴ
リ系列の個数を大幅に削減し、計算量、メモリの両面に
おいて大幅にコストを削減することができる。
【図面の簡単な説明】
【図1】本発明を説明するための図であって、第1の実
施形態における本発明システムの概略的構成を示すブロ
ック図。
【図2】本発明を説明するための図であって、第1の実
施形態における本発明システムの全体的な処理の流れを
示すフローチャート。
【図3】本発明を説明するための図であって、第1の実
施形態における本発明システムでのラティス解析処理
(S3)の概要を説明するフローチャート。
【図4】本発明を説明するための図であって、本発明に
おける第1の実施形態におけるラティス解析処理(S
3)での処理の詳細を示すフローチャート。
【図5】図4のフローチャートの部分拡大図。
【図6】図4のフローチャートの部分拡大図。
【図7】図4のフローチャートの部分拡大図。
【図8】本発明を説明するための図であって、第1の実
施形態において説明に用いる簡単化されたワードスポッ
ティング結果の例を示す図。
【図9】ワードスポッティング結果から構築された単語
ラティスの例を示す図。
【図10】単語ラティスの各ノードのデータ構造を示す
図。
【図11】初期設定処理(S31)終了時の単語ラティ
スのノードの例を示す図。
【図12】本発明を説明するための図であって、第1の
実施形態において用いる品詞辞書の例を示す図。
【図13】本発明を説明するための図であって、第1の
実施形態において用いる文型辞書の例を示す図。
【図14】本発明を説明するための図であって、第1の
実施形態において用いる品詞系列パターン辞書の例を示
す図。
【図15】本発明を説明するための図であって、第1の
実施形態において用いる品詞系列ハッシュ辞書の例を示
す図。
【図16】ワードスポッティング結果の例を示す図。
【図17】本発明を説明するための図であって、第2の
実施形態における本発明システムの全体的な処理の流れ
を示すフローチャート。
【図18】本発明を説明するための図であって、該当文
型伝搬法における文型辞書例を示す図。
【図19】本発明を説明するための図であって、第2の
実施形態において用いる文型辞書例を示す図。
【図20】本発明を説明するための図であって、第2の
実施形態において用いる階層品詞系列パターン辞書例を
示す図。
【図21】本発明を説明するための図であって、第2の
実施形態において用いる階層ハッシュ辞書例を示す図。
【図22】本発明を説明するための図であって、第2の
実施形態において用いる階層接続可能品詞リスト例を示
す図。
【図23】本発明を説明するための図であって、第2の
実施形態において得られた入力認識結果の例を示す図。
【図24】本発明を説明するための図であって、第2の
実施形態における初期ノードリスト例を示す図。
【図25】本発明を説明するための図であって、場所句
を選択時に連結されたラティスの例を示す図。
【図26】本発明を説明するための図であって、第2の
実施形態において生成された場所句の例を示す図。
【図27】本発明を説明するための図であって、第2の
実施形態における場所句登録後のノードリストの例を示
す図。
【図28】本発明を説明するための図であって、第2の
実施形態において全系列を選択した時に連結されるラテ
ィスの例を示す図。
【図29】本発明を説明するための図であって、第2の
実施形態において生成された全系列の例を示す図。
【図30】本発明を説明するための図であって、該当文
型伝搬法における品詞系列パターン辞書例を示す図。
【図31】本発明を説明するための図であって、該当文
型伝搬法におけるハッシュ辞書例を示す図。
【図32】本発明を説明するための図であって、場所句
を選択時に接続可能品詞リストを適用して連結されたラ
ティスの例を示す図。
【図33】本発明を説明するための図であって、全系列
を選択時に接続可能品詞リストを適用して連結されるラ
ティスの例を示す図。
【符号の説明】
1…CPU(プロセッサ) 2…メインメモリ 3…入力部 4…出力部 5…大容量外部記憶装置 6…ドライブ 7…通信部

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】開始ノードと終了ノードと一つ以上のデー
    タノードから構成される有向グラフであって、各ノード
    が他の一つ以上のノードと順序関係を持つ有向枝で連結
    され、一つ以上の開始ノードから終了ノードに到達し得
    る経路である解経路候補を持つようなグラフ構造に変換
    可能な入力情報を、当該入力情報の各要素の表象となり
    得る終端記号の集合と前記各終端記号が所属するカテゴ
    リであるカテゴリ記号の集合の和集合の要素の系列で表
    される受理可能な受理パターン記号列の集合に基づいて
    解析し、零個以上の尤もらしい受理パターン記号列を出
    力する情報解析方法において、 前記開始ノードもしくは終了ノードから前記グラフ構造
    の解析を開始する解析開始ノード決定ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードが解経路候補の開始点または終了点からある順
    番で解経路候補に含まれる場合にとり得る受理パターン
    記号列を計算してノードに記録する受理パターン記号列
    計算・蓄積ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードに対する解析の経路パターンを網羅したか否か
    を判定するノード解析網羅判定ステップと、 あるノードについてそのノードの解析経路パターンが網
    羅された場合に零回以上の受理パターン記号列計算・蓄
    積ステップの実行によって蓄積されたそのノードへの受
    理パターン記号列を解析においてそのノードの次に接続
    されている一個以上のノードに伝播させる受理パターン
    記号列伝播ステップと、 解析が終了したかどうかを判定する解析終了判定ステッ
    プと、 解析が終了した際に前記開始ノードもしくは終了ノード
    に蓄積されている受理パターン記号列情報を用いて前記
    解析結果の出力である零個以上の尤もらしい受理パター
    ン記号列を収集し、出力する受理パターン記号列収集・
    出力ステップと、を具備したことを特徴とする情報解析
    方法。
  2. 【請求項2】開始ノードと終了ノードと一つ以上のデー
    タノードから構成される有向グラフであって、各ノード
    が他の一つ以上のノードと順序関係を持つ有向枝で連結
    され、一つ以上の開始ノードから終了ノードに到達し得
    る経路である解経路候補を持つようなグラフ構造に変換
    可能な入力情報を解析し、零個以上の尤もらしい解経路
    候補を出力する情報解析方法において、 前記入力情報の各要素の表象となり得る終端記号の集合
    と前記各終端記号が所属するカテゴリであるカテゴリ記
    号の集合の和集合の要素の系列として与えられた受理可
    能な受理パターン記号列の集合のうち、前記開始ノード
    もしくは終了ノードから前記グラフ構造の解析を開始す
    る解析開始ノード決定ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードが解経路候補の開始点または終了点からある順
    番で解経路候補に含まれる場合にとり得る受理パターン
    記号列を計算してノードに記録する受理パターン記号列
    計算・蓄積ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードに対する解析の経路パターンを網羅したかどう
    かを判定するノード解析網羅判定ステップと、 あるノードについてそのノードの解析経路パターンが網
    羅された場合に零回以上の受理パターン記号列計算・蓄
    積ステップの実行によって蓄積されたそのノードへの受
    理パターン記号列を解析においてそのノードの次に接続
    されている一個以上のノードに伝播させる受理パターン
    記号列伝播ステップと、 解析が終了したかどうかを判定する解析終了判定ステッ
    プと、解析が終了した際に前記開始ノードもしくは終了
    ノードに蓄積されている受理パターン記号列情報を用い
    て本方法の出力である零個以上の尤もらしい受理パター
    ン記号列を収集する受理パターン記号列収集ステップ
    と、前記収集された尤もらしい受理パターン記号列集合
    と前記各ノードに蓄積され た各ノードの受理パターン記号列の情報を用いて前記グ
    ラフ構造を探索し、前記尤もらしい受理パターン記号列
    集合の各要素を生成し得る零個以上の解経路候補の集合
    を発見し出力する解経路候補検索・出力ステップと、 を具備したことを特徴とする情報解析方法。
  3. 【請求項3】前記受理可能な受理パターン記号列の集合
    を元に生成され、前記各終端記号または前記各カテゴリ
    記号のうちのある記号であるインデックス記号が前記受
    理可能な受理パターン記号列の集合に含まれる各受理パ
    ターン記号列における出現箇所IDと、前記インデック
    ス記号をキーにして、前記インデックス記号が前記出現
    箇所IDの箇所に出現する可能性のある受理パターン記
    号列の集合を参照できる受理パターン系列ハッシュ辞書
    を装備し、 前記受理パターン記号列計算・蓄積ステップの各ノード
    における受理パターン記号列の計算において、前記接続
    するノードから伝播された受理パターン記号列と、前記
    ノードのその解析における出現箇所IDと前記ノードの
    表象する終端記号または前記終端記号が所属するカテゴ
    リ記号をキーに受理パターン系列ハッシュ辞書を参照す
    ることで得られるその解析のそのノードにおいて出現す
    る可能性のある受理パターン記号列の集合との積集合を
    計算し前記そのノードにおける受理パターン記号列の計
    算することを特徴とする請求項1または2記載の情報解
    析方法。
  4. 【請求項4】前記各終端記号を自然言語の単語とし、前
    記各カテゴリ記号を各単語の所属する品詞とし、音声ワ
    ードスポッティング装置または音声認識装置から前記入
    力情報として音声認識結果単語候補を与えられ、音声認
    識結果の後処理として言語処理を施し、尤もらしい品詞
    系列の集合または尤もらしい単語系列の集合を出力する
    ことを特徴とする請求項1乃至請求項3いずれか1項記
    載の情報解析方法。
  5. 【請求項5】コンピュータにて読み込み可能な記憶媒体
    に記憶され、コンピュータにて実行可能なプログラムで
    あり、開始ノードと終了ノードと一つ以上のデータノー
    ドから構成される有向グラフであって、各ノードが他の
    一つ以上のノードと順序関係を持つ有向枝で連結され、
    一つ以上の開始ノードから終了ノードに到達し得る経路
    である解経路候補を持つようなグラフ構造に変換可能な
    入力情報を、前記入力情報の各要素の表象となり得る終
    端記号の集合と前記各終端記号が所属するカテゴリであ
    るカテゴリ記号の集合の和集合の要素の系列で表される
    受理可能な受理パターン記号列の集合に基づいて解析
    し、零個以上の尤もらしい受理パターン記号列を出力す
    るものとして機能させるプログラムにおいて、 前記開始ノードもしくは終了ノードから前記グラフ構造
    の解析を開始する解析開始ノード決定ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードが解経路候補の開始点または終了点からある順
    番で解経路候補に含まれる場合にとり得る受理パターン
    記号列を計算してノードに記録する受理パターン記号列
    計算・蓄積ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードに対する解析の経路パターンを網羅したか否か
    を判定するノード解析網羅判定ステップと、 あるノードについてそのノードの解析経路パターンが網
    羅された場合に零回以上の受理パターン記号列計算・蓄
    積ステップの実行によって蓄積されたそのノードへの受
    理パターン記号列を解析においてそのノードの次に接続
    されている一個以上のノードに伝播させる受理パターン
    記号列伝播ステップと、 解析が終了したか否かを判定する解析終了判定ステップ
    と、 解析が終了した際に前記開始ノードもしくは終了ノード
    に蓄積されている受理パターン記号列情報を用いて本方
    法の出力である零個以上の尤もらしい受理パターン記号
    列を収集し出力する受理パターン記号列収集・出力ステ
    ップと、を具備したことを特徴とするプログラムを記憶
    した媒体。
  6. 【請求項6】コンピュータにて読み込み可能な記憶媒体
    に記憶され、コンピュータにて実行可能なプログラムで
    あり、開始ノードと終了ノードと一つ以上のデータノー
    ドから構成される有向グラフであって、各ノードが他の
    一つ以上のノードと順序関係を持つ有向枝で連結され、
    一つ以上の開始ノードから終了ノードに到達し得る経路
    である解経路候補を持つようなグラフ構造に変換可能な
    入力情報を解析し、零個以上の尤もらしい解経路候補を
    出力するものとして機能させるプログラムにおいて、 前記入力情報の各要素の表象となり得る終端記号の集合
    と前記各終端記号が所属するカテゴリであるカテゴリ記
    号の集合の和集合の要素の系列として与えられた受理可
    能な受理パターン記号列の集合のうち、前記開始ノード
    もしくは終了ノードから、前記グラフ構造の解析を開始
    する解析開始ノード決定ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードが解経路候補の開始点または終了点からある順
    番で解経路候補に含まれる場合にとり得る受理パターン
    記号列を計算してノードに記録する受理パターン記号列
    計算・蓄積ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードに対する解析の経路パターンを網羅したかどう
    かを判定するノード解析網羅判定ステップと、 あるノードについてそのノードの解析経路パターンが網
    羅された場合に零回以上の受理パターン記号列計算・蓄
    積ステップの実行によって蓄積されたそのノードへの受
    理パターン記号列を解析においてそのノードの次に接続
    されている一個以上のノードに伝播させる受理パターン
    記号列伝播ステップと、 解析が終了したか否かを判定する解析終了判定ステップ
    と、 解析が終了した際に前記開始ノードもしくは終了ノード
    に蓄積されている受理パターン記号列情報を用いて解析
    結果の出力である尤もらしい受理パターン記号列を収集
    する受理パターン記号列収集ステップと、 前記収集された尤もらしい受理パターン記号列集合と前
    記各ノードに蓄積された各ノードの受理パターン記号列
    の情報を用いて前記グラフ構造を探索し、前記尤もらし
    い受理パターン記号列集合の各要素を生成し得る解経路
    候補の集合を発見し出力する解経路候補検索・出力ステ
    ップと、 を具備したことを特徴とするプログラムを記憶した媒
    体。
  7. 【請求項7】前記受理可能な受理パターン記号列の集合
    を元に生成され、前記各終端記号または前記各カテゴリ
    記号のうちのある記号であるインデックス記号が前記受
    理可能な受理パターン記号列の集合に含まれる各受理パ
    ターン記号列における出現箇所IDと、前記インデック
    ス記号をキーにして、前記インデックス記号が前記出現
    箇所IDの箇所に出現する可能性のある受理パターン記
    号列の集合を参照できる受理パターン系列ハッシュ辞書
    を装備し、前記受理パターン記号列計算・蓄積ステップ
    の各ノードにおける受理パターン記号列の計算におい
    て、 前記接続するノードから伝播された受理パターン記号列
    と、前記ノードのその解析における出現箇所IDと前記
    ノードの表象する終端記号または前記終端記号が所属す
    るカテゴリ記号をキーに受理パターン系列ハッシュ辞書
    を参照することで得られるその解析のそのノードにおい
    て出現する可能性のある受理パターン記号列の集合との
    積集合を計算し前記そのノードにおける受理パターン記
    号列の計算することを特徴とするプログラムを記憶した
    請求項5または6いずれか1項記載の媒体。
  8. 【請求項8】開始ノードと終了ノードと一つ以上のデー
    タノードから構成される有向グラフであって、各ノード
    が他の一つ以上のノードと順序関係を持つ有向枝で連結
    され、一つ以上の開始ノードから終了ノードに到達し得
    る経路である解経路候補を持つ形式のグラフ構造に変換
    可能な入力情報を、当該入力情報の各要素の表象となり
    得る終端記号の集合と前記各終端記号が所属するカテゴ
    リであるカテゴリ記号の集合の和集合の要素の系列で表
    される受理可能な受理パターン記号列の集合に基づいて
    解析することにより、尤もらしい受理パターン記号列を
    出力する情報解析方法において、 前記受理可能な受理パターン記号列のうち、特定の部分
    系列である部分受理パターン記号列を構成し、また、そ
    の部分受理パターン記号列を一つのカテゴリ記号として
    利用し、受理パターン記号列を再帰的に構成し、階層受
    理パターン記号列集合を生成する階層受理パターン記号
    列生成ステップと、 前記階層受理パターン記号列集合の中から、全てのカテ
    ゴリ記号が既知である前記部分受理パターン記号列を選
    択する部分受理パターン記号列選択ステップと、 前記階層部分受理パターン記号列集合の中の、各部分受
    理パターン記号列が既に選択されたか否かを記憶する処
    理状態管理ステップと、 この処理状態管理ステップにて記憶した情報から、選択
    された部分受理パターン記号列が最終の記号列か否かを
    判定し、最後でない場合は無条件で前記開始ノードと終
    了ノードとに全てのデータノードを連結して、前記選択
    された部分受理パターン記号列を受理パターンとした前
    記解析を実施し、最後の場合は、前記選択された部分受
    理パターン記号列を受理パターンとした前記解析を実施
    することにより、尤もらしい部分受理パターン記号列を
    出力する解析ステップと、 前記収集された尤もらしい部分受理パターン記号列集合
    と前記各ノードに蓄積された各ノードの受理パターン記
    号列の情報を用いて前記グラフ構造を探索し、前記尤も
    らしい受理パターン記号列集合の各要素を生成し得る解
    経路候補の集合を見つけ、各経路に存在するノードをマ
    ージし、その所属カテゴリを該当する部分受理パターン
    とする新たなノードを作成する新規ノード生成ステップ
    と、 前記処理状態管理ステップでの記憶内容から、全ての部
    分受理パターン記号列について解析ステップを通過した
    か否かを判定し、全ての部分受理パターン記号列につて
    解析ステップを通過した場合に処理を終了する終了条件
    判定ステップと、を具備することを特徴とする情報解析
    方法。
  9. 【請求項9】前記受理パターン記号列を出力する情報解
    析は、前記開始ノードもしくは終了ノードから前記グラ
    フ構造の解析を開始する解析開始ノード決定ステップ
    と、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードが解経路候補の開始点または終了点からある順
    番で解経路候補に含まれる場合にとり得る受理パターン
    記号列を計算してノードに記録する受理パターン記号列
    計算・蓄積ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードに対する解析の経路パターンを網羅したかどう
    かを判定するノード解析網羅判定ステップと、 あるノードについてそのノードの解析経路パターンが網
    羅された場合に零回以上の受理パターン記号列計算・蓄
    積ステップの実行により蓄積されたそのノードへの受理
    パターン記号列を解析においてそのノードの次に接続さ
    れている一個以上のノードに伝播させる受理パターン記
    号列伝播ステップと、 解析が終了したかどうかを判定する解析終了判定ステッ
    プと、解析が終了した際に前記開始ノードもしくは終了
    ノードに蓄積されている受理パターン記号列情報を用い
    て前記解析結果より見つけた前記尤もらしい受理パター
    ン記号列を収集し出力する受理パターン記号列収集・出
    力ステップと、を備えたことを特徴とする請求項8記載
    の情報解析方法。
  10. 【請求項10】開始ノードと終了ノードと一つ以上のデ
    ータノードから構成される有向グラフであって、各ノー
    ドが他の一つ以上のノードと順序関係を持つ有向枝で連
    結され、一つ以上の開始ノードから終了ノードに到達し
    得る経路である解経路候補を持つようなグラフ構造に変
    換可能な入力情報を、当該入力情報の各要素の表象とな
    り得る終端記号の集合と前記各終端記号が所属するカテ
    ゴリであるカテゴリ記号の集合の和集合の要素の系列で
    表される受理可能な受理パターン記号列の集合に基づい
    て解析することにより、尤もらしい受理パターン記号列
    と、前記尤もらしい受理パターン記号列に対応する一つ
    以上の解経路候補を出力する情報解析方法において、 前記受理可能な受理パターン記号列のうち、特定の部分
    系列である部分受理パターン記号列を構成し、また、そ
    の部分受理パターン記号列を一つのカテゴリ記号として
    利用し、受理パターン記号列を再帰的に構成し、階層受
    理パターン記号列集合を生成する階層受理パターン記号
    列生成ステップと、 前記階層受理パターン記号列集合の中から、全てのカテ
    ゴリ記号が既知である部分受理パターン記号列を選択す
    る部分受理パターン記号列選択ステップと、 前記階層部分受理パターン記号列集合の中の、各部分受
    理パターン記号列が既に選択されたか否かを記憶する処
    理状態管理ステップと、 前記処理状態管理ステップでの記憶内容から、選択され
    た部分受理パターン記号列が最終の記号列か否かを判定
    し、最後でない場合は、無条件で前記開始ノードと終了
    ノードとに全てのデータノードを連結して、前記選択さ
    れた部分受理パターン記号列を受理パターンとした前記
    情報解析手法を適用し、最後の場合は、前記選択された
    部分受理パターン記号列を受理パターンとした前記解析
    を実施して解経路候補の集合を出力する解析ステップ
    と、 前記解析ステップの出力である解経路候補の集合の各経
    路に存在するノードをマージし、その所属カテゴリを該
    当する部分受理パターンとする新たなノードを作成する
    新規ノード生成ステップと、 前記処理状態管理ステップから、全ての部分受理パター
    ン記号列について解析ステップを通過したか否かを判定
    し、全ての部分受理パターン記号列につて解析ステップ
    を通過した場合に、処理を終了する終了条件判定ステッ
    プと、を具備することを特徴とする情報解析方法。
  11. 【請求項11】前記受理パターン記号列と対応する解経
    路候補を出力する情報解析は、 前記開始ノードもしくは終了ノードから前記グラフ構造
    の解析を開始する解析開始ノード決定ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードが解経路候補の開始点または終了点からある順
    番で解経路候補に含まれる場合にとり得る受理パターン
    記号列を計算してノードに記録する受理パターン記号列
    計算・蓄積ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードに対する解析の経路パターンを網羅したかどう
    かを判定するノード解析網羅判定ステップと、 あるノードについてそのノードの解析経路パターンが網
    羅された場合に零回以上の受理パターン記号列計算・蓄
    積ステップの実行によって蓄積されたそのノードへの受
    理パターン記号列を解析においてそのノードの次に接続
    されている一個以上のノードに伝播させる受理パターン
    記号列伝播ステップと、 解析が終了したかどうかを判定する解析終了判定ステッ
    プと、 解析が終了した際に前記開始ノードもしくは終了ノード
    に蓄積されている受理パターン記号列情報を用いて前記
    解析結果としての出力である尤もらしい受理パターン記
    号列を収集し出力する受理パターン記号列収集・出力ス
    テップと、 前記収集された尤もらしい受理パターン記号列集合と前
    記各ノードに蓄積された各ノードの受理パターン記号列
    の情報を用いて前記グラフ構造を探索し、前記尤もらし
    い受理パターン記号列集合の各要素を生成し得る解経路
    候補の集合を発見し出力する解経路候補検索出力ステッ
    プと、を備えることを特徴とする請求項9に記載の情報
    解析方法。
  12. 【請求項12】請求項10または請求項11いずれか1
    項記載の情報解析方法において、 その解析ステップは、 前記受理可能な部分受理パターン記号列の集合を元に生
    成され、前記各終端記号または前記各カテゴリ記号のう
    ちのある記号であるインデックス記号が前記受理可能な
    部分受理パターン記号列の集合に含まれる各部分受理パ
    ターン記号列における出現箇所IDと、前記インデック
    ス記号をキーにして、前記インデックス記号が前記出現
    箇所IDの箇所に出現する可能性のある部分受理パター
    ン記号列の集合を参照できる受理パターン系列ハッシュ
    辞書を装備し、前記受理パターン記号列計算・蓄積ステ
    ップの各ノードにおける受理パターン記号列の計算にお
    いて、前記接続するノードから伝播された受理パターン
    記号列と、前記ノードのその解析における出現箇所ID
    と前記ノードの表象する終端記号または前記終端記号が
    所属するカテゴリ記号をキーに受理パターン系列ハッシ
    ュ辞書を参照することで得られるその解析のそのノード
    において出現する可能性のある受理パターン記号列の集
    合との積集合を計算し前記そのノードにおける受理パタ
    ーン記号列を計算することを特徴とする情報解析方法。
  13. 【請求項13】前記各終端記号を自然言語の単語とし、
    前記各カテゴリ記号を各単語の所属する品詞とし、音声
    ワードスポッティング装置または音声認識装置から前記
    入力情報として音声認識結果単語候補を与えられ、音声
    認識結果の後処理として言語処理を施し、尤もらしい品
    詞系列の集合または尤もらしい単語系列の集合を出力す
    ることを特徴とする請求項8または請求項9または請求
    項10または請求項11または請求項12いずれか1項
    記載の情報解析方法。
  14. 【請求項14】コンピュータにて読み込み可能な記憶媒
    体に記憶され、コンピュータにて実行可能なプログラム
    であり、 開始ノードと終了ノードと一つ以上のデータノードから
    構成される有向グラフとすると共に、各ノードが他の一
    つ以上のノードと順序関係を持つ有向枝で連結され、一
    つ以上の開始ノードから終了ノードに到達し得る経路で
    ある解経路候補を持つようなグラフ構造に変換可能な入
    力情報を、前記入力情報の各要素の表象となり得る終端
    記号の集合と前記各終端記号が所属するカテゴリである
    カテゴリ記号の集合の和集合の要素の系列で表される受
    理可能な受理パターン記号列の集合に基づいて解析し、
    尤もらしい受理パターン記号列を出力する情報解析プロ
    グラムにおいて、 前記受理可能な受理パターン記号列のうち、特定の部分
    系列である部分受理パターン記号列を構成し、また、そ
    の部分受理パターン記号列を一つのカテゴリ記号として
    利用し、受理パターン記号列を再帰的に構成し、階層受
    理パターン記号列集合を生成する階層受理パターン記号
    列生成ステップと、 前記階層受理パターン記号列集合の中から、全てのカテ
    ゴリ記号が既知である前記部分受理パターン記号列を選
    択する部分受理パターン記号列選択ステップと、 前記階層部分受理パターン記号列集合の中の、各部分受
    理パターン記号列が既に選択されたかどうかを記憶する
    処理状態管理ステップと、 前記処理状態管理ステップでの記憶内容から、選択され
    た部分受理パターン記号列が最終の記号列か否かを判定
    し、最後でない場合は、無条件で前記開始ノードと終了
    ノードとに全てのデータノードを連結して、前記選択さ
    れた部分受理パターン記号列を受理パターンとした前記
    情報解析手法を適用し、最後の場合は、前記選択された
    部分受理パターン記号列を受理パターンとして前記解析
    を実施することにより、尤もらしい部分受理パターン記
    号列を出力する解析ステップと、 前記収集された尤もらしい部分受理パターン記号列集合
    と前記各ノードに蓄積された各ノードの受理パターン記
    号列の情報を用いて前記グラフ構造を探索し、前記尤も
    らしい受理パターン記号列集合の各要素を生成し得る解
    経路候補の集合を発見し、各経路に存在するノードをマ
    ージし、その所属カテゴリを該当する部分受理パターン
    とする新たなノードを作成する新規ノード生成ステップ
    と、 前記処理状態管理ステップでの記憶内容から、全ての部
    分受理パターン記号列について解析ステップを通過した
    か否かを判定し、全ての部分受理パターン記号列につて
    解析ステップを通過した場合に、処理を終了する終了条
    件判定ステップと、を具備することを特徴とする情報解
    析プログラムを記憶した媒体。
  15. 【請求項15】コンピュータにて読み込み可能な記憶媒
    体に記憶され、コンピュータにて実行可能なプログラム
    であり、 開始ノードと終了ノードと一つ以上のデータノードから
    構成される有向グラフとすると共に、各ノードが他の一
    つ以上のノードと順序関係を持つ有向枝で連結され、一
    つ以上の開始ノードから終了ノードに到達し得る経路で
    ある解経路候補を持つようなグラフ構造に変換可能な入
    力情報を、当該入力情報の各要素の表象となり得る終端
    記号の集合と前記各終端記号が所属するカテゴリである
    カテゴリ記号の集合の和集合の要素の系列で表される受
    理可能な受理パターン記号列の集合に基づいて解析する
    ことにより、尤もらしい受理パターン記号列と、前記尤
    もらしい受理パターン記号列に対応する一つ以上の解経
    路候補を出力する情報解析プログラムにおいて、 前記受理可能な受理パターン記号列のうち、特定の部分
    系列である部分受理パターン記号列を構成し、また、そ
    の部分受理パターン記号列を一つのカテゴリ記号として
    利用し、受理パターン記号列を再帰的に構成し、階層受
    理パターン記号列集合を生成する階層受理パターン記号
    列生成ステップと、 前記階層受理パターン記号列集合の中から、全てのカテ
    ゴリ記号が既知である部分受理パターン記号列を選択す
    る部分受理パターン記号列選択ステップと、 前記階層部分受理パターン記号列集合の中の、各部分受
    理パターン記号列が既に選択されたか否かを記憶する処
    理状態管理ステップと、 前記処理状態管理ステップでの記憶内容から、選択され
    た部分受理パターン記号列が最終の記号列か否かを判定
    し、最後でない場合は、無条件で前記開始ノードと終了
    ノードとに全てのデータノードを連結して、前記選択さ
    れた部分受理パターン記号列を受理パターンとした前記
    情報解析手法を適用し、最後の場合は、前記選択された
    部分受理パターン記号列を受理パターンとした前記情報
    解析を実施して解経路候補の集合を出力する解析ステッ
    プと、 前記解析ステップの出力である解経路候補の集合の各経
    路に存在するノードをマージし、その所属カテゴリを該
    当する部分受理パターンとする新たなノードを作成する
    新規ノード生成ステップと、 前記処理状態管理ステップでの記憶内容から、全ての部
    分受理パターン記号列について解析ステップを通過した
    か否かを判定し、全ての部分受理パターン記号列につて
    解析ステップを通過した場合に、処理を終了する終了条
    件判定ステップと、を具備することを特徴とする情報解
    析プログラムを記憶した媒体。
  16. 【請求項16】前記受理パターン記号列と対応する解経
    路候補を出力する解析が、 前記開始ノードもしくは終了ノードから前記グラフ構造
    の解析を開始する解析開始ノード決定ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードが解経路候補の開始点または終了点からある順
    番で解経路候補に含まれる場合にとり得る受理パターン
    記号列を計算してノードに記録する受理パターン記号列
    計算・蓄積ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードに対する解析の経路パターンを網羅したかどう
    かを判定するノード解析網羅判定ステップと、 あるノードについてそのノードの解析経路パターンが網
    羅された場合に零回以上の受理パターン記号列計算・蓄
    積ステップの実行によって蓄積されたそのノードへの受
    理パターン記号列を解析においてそのノードの次に接続
    されている一個以上のノードに伝播させる受理パターン
    記号列伝播ステップと、 解析が終了したか否かを判定する解析終了判定ステップ
    と、 解析が終了した際に前記開始ノードもしくは終了ノード
    に蓄積されている受理パターン記号列情報を用いて解析
    結果の出力である尤もらしい受理パターン記号列を収集
    し出力する受理パターン記号列収集・出力ステップと、 前記収集された尤もらしい受理パターン記号列集合と前
    記各ノードに蓄積された各ノードの受理パターン記号列
    の情報を用いて前記グラフ構造を探索し、前記尤もらし
    い受理パターン記号列集合の各要素を生成し得る解経路
    候補の集合を発見し出力する解経路候補検索出力ステッ
    プと、 を備えた情報解析方法であることを特徴とする請求項1
    5に記載の情報解析方法として動作させるプログラムを
    記憶した媒体。
  17. 【請求項17】前記受理パターン記号列を出力する解析
    が、 前記開始ノードもしくは終了ノードから前記グラフ構造
    の解析を開始する解析開始ノード決定ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードが解経路候補の開始点または終了点からある順
    番で解経路候補に含まれる場合にとり得る受理パターン
    記号列を計算してノードに記録する受理パターン記号列
    計算・蓄積ステップと、 前記グラフ構造の各ノードの解析の途中経過においてそ
    のノードに対する解析の経路パターンを網羅したか否か
    を判定するノード解析網羅判定ステップと、 あるノードについてそのノードの解析経路パターンが網
    羅された場合に零回以上の受理パターン記号列計算・蓄
    積ステップの実行によって蓄積されたそのノードへの受
    理パターン記号列を解析においてそのノードの次に接続
    されている一個以上のノードに伝播させる受理パターン
    記号列伝播ステップと、 解析が終了したか否かを判定する解析終了判定ステップ
    と、 解析が終了した際に前記開始ノードもしくは終了ノード
    に蓄積されている受理パターン記号列情報を用いて解析
    結果の出力である尤もらしい受理パターン記号列を収集
    し出力する受理パターン記号列収集・出力ステップと、
    を備えることを特徴とする請求項14に記載の情報解析
    プログラムを記憶した媒体。
  18. 【請求項18】前記解析ステップは、前記受理可能な部
    分受理パターン記号列の集合を元に生成され、前記各終
    端記号または前記各カテゴリ記号のうちのある記号であ
    るインデックス記号が前記受理可能な部分受理パターン
    記号列の集合に含まれる各部分受理パターン記号列にお
    ける出現箇所IDと、前記インデックス記号をキーにし
    て、前記インデックス記号が前記出現箇所IDの箇所に
    出現する可能性のある部分受理パターン記号列の集合を
    参照できる受理パターン系列ハッシュ辞書を装備し、前
    記受理パターン記号列計算・蓄積ステップの各ノードに
    おける受理パターン記号列の計算において、前記接続す
    るノードから伝播された受理パターン記号列と、前記ノ
    ードのその解析における出現箇所IDと前記ノードの表
    象する終端記号または前記終端記号が所属するカテゴリ
    記号をキーに受理パターン系列ハッシュ辞書を参照する
    ことで得られるその解析のそのノードにおいて出現する
    可能性のある受理パターン記号列の集合との積集合を計
    算し前記そのノードにおける受理パターン記号列を計算
    することを特徴とする請求項16または請求項17いず
    れか1項に記載の解析プログラムを記憶した媒体。
JP06443298A 1998-02-27 1998-02-27 情報解析方法および情報解析プログラムを記憶した媒体 Expired - Fee Related JP3930138B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP06443298A JP3930138B2 (ja) 1998-02-27 1998-02-27 情報解析方法および情報解析プログラムを記憶した媒体
US09/258,071 US6169972B1 (en) 1998-02-27 1999-02-26 Information analysis and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06443298A JP3930138B2 (ja) 1998-02-27 1998-02-27 情報解析方法および情報解析プログラムを記憶した媒体

Publications (2)

Publication Number Publication Date
JPH11249686A true JPH11249686A (ja) 1999-09-17
JP3930138B2 JP3930138B2 (ja) 2007-06-13

Family

ID=13258121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06443298A Expired - Fee Related JP3930138B2 (ja) 1998-02-27 1998-02-27 情報解析方法および情報解析プログラムを記憶した媒体

Country Status (2)

Country Link
US (1) US6169972B1 (ja)
JP (1) JP3930138B2 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6486898B1 (en) * 1999-03-31 2002-11-26 Koninklijke Philips Electronics N.V. Device and method for a lattice display
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6947885B2 (en) * 2000-01-18 2005-09-20 At&T Corp. Probabilistic model for natural language generation
JP4116233B2 (ja) * 2000-09-05 2008-07-09 パイオニア株式会社 音声認識装置ならびにその方法
WO2002030629A1 (fr) * 2000-10-11 2002-04-18 Sony Corporation Appareil robot, systeme d"affichage d"information et procede d"affichage d"information
US7003445B2 (en) * 2001-07-20 2006-02-21 Microsoft Corporation Statistically driven sentence realizing method and apparatus
US7685126B2 (en) * 2001-08-03 2010-03-23 Isilon Systems, Inc. System and methods for providing a distributed file system utilizing metadata to track information about data stored throughout the system
AU2003239962A1 (en) * 2002-06-03 2003-12-19 Arizona Board Of Regents Acting For And On Behalf Of Arizona State University System and method of analyzing the temporal evolution of text using dynamic centering resonance analysis
US20060036627A1 (en) * 2004-08-06 2006-02-16 Roger Deran Method and apparatus for a restartable hash in a trie
US8238350B2 (en) 2004-10-29 2012-08-07 Emc Corporation Message batching with checkpoints systems and methods
US8055711B2 (en) * 2004-10-29 2011-11-08 Emc Corporation Non-blocking commit protocol systems and methods
US7797283B2 (en) * 2005-10-21 2010-09-14 Isilon Systems, Inc. Systems and methods for maintaining distributed data
US7917474B2 (en) * 2005-10-21 2011-03-29 Isilon Systems, Inc. Systems and methods for accessing and updating distributed data
US7788303B2 (en) * 2005-10-21 2010-08-31 Isilon Systems, Inc. Systems and methods for distributed system scanning
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
US7848261B2 (en) * 2006-02-17 2010-12-07 Isilon Systems, Inc. Systems and methods for providing a quiescing protocol
US20070260450A1 (en) * 2006-05-05 2007-11-08 Yudong Sun Indexing parsed natural language texts for advanced search
US7822932B2 (en) * 2006-08-18 2010-10-26 Isilon Systems, Inc. Systems and methods for providing nonlinear journaling
US7899800B2 (en) * 2006-08-18 2011-03-01 Isilon Systems, Inc. Systems and methods for providing nonlinear journaling
US7590652B2 (en) * 2006-08-18 2009-09-15 Isilon Systems, Inc. Systems and methods of reverse lookup
US7882071B2 (en) * 2006-08-18 2011-02-01 Isilon Systems, Inc. Systems and methods for a snapshot of data
US8286029B2 (en) * 2006-12-21 2012-10-09 Emc Corporation Systems and methods for managing unavailable storage devices
US7593938B2 (en) * 2006-12-22 2009-09-22 Isilon Systems, Inc. Systems and methods of directory entry encodings
US7509448B2 (en) * 2007-01-05 2009-03-24 Isilon Systems, Inc. Systems and methods for managing semantic locks
US8966080B2 (en) * 2007-04-13 2015-02-24 Emc Corporation Systems and methods of managing resource utilization on a threaded computer system
US7779048B2 (en) 2007-04-13 2010-08-17 Isilon Systems, Inc. Systems and methods of providing possible value ranges
US7900015B2 (en) * 2007-04-13 2011-03-01 Isilon Systems, Inc. Systems and methods of quota accounting
US7882068B2 (en) 2007-08-21 2011-02-01 Isilon Systems, Inc. Systems and methods for adaptive copy on write
JP5206296B2 (ja) * 2008-10-03 2013-06-12 富士通株式会社 類似文章抽出プログラム、方法、装置
US8176080B2 (en) * 2009-03-06 2012-05-08 Hewlett-Packard Development Company, L.P. Desensitizing character strings
US9317595B2 (en) 2010-12-06 2016-04-19 Yahoo! Inc. Fast title/summary extraction from long descriptions
US8914288B2 (en) * 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
CN103345922B (zh) * 2013-07-05 2016-07-06 张巍 一种长篇幅语音全自动切分方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829423A (en) * 1983-01-28 1989-05-09 Texas Instruments Incorporated Menu-based natural language understanding system
US4864502A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer
JPH05197389A (ja) 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
US5805911A (en) * 1995-02-01 1998-09-08 Microsoft Corporation Word prediction system
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
JP3152871B2 (ja) 1995-11-10 2001-04-03 富士通株式会社 ラティスをキーとした検索を行う辞書検索装置および方法
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure

Also Published As

Publication number Publication date
JP3930138B2 (ja) 2007-06-13
US6169972B1 (en) 2001-01-02

Similar Documents

Publication Publication Date Title
JP3930138B2 (ja) 情報解析方法および情報解析プログラムを記憶した媒体
US5987404A (en) Statistical natural language understanding using hidden clumpings
KR101120798B1 (ko) 텍스트로부터 세만틱 구조들을 식별하기 위한 방법 및장치
JP5788015B2 (ja) 複数の粒度でのテキスト分割
US6789231B1 (en) Method and system for providing alternatives for text derived from stochastic input sources
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
JP4940973B2 (ja) 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置
JP2010044637A (ja) データ処理装置、方法、及びプログラム
JPH05324713A (ja) 自然語処理方法および自然語処理システム
JPH07334368A (ja) 知識ベースシステムおよび認識システム
JP2006243728A (ja) 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム
JPH06266779A (ja) 制御装置
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
JP2000067047A (ja) 対話制御装置および対話制御方法
JP3016779B1 (ja) 音声理解装置及び音声理解システム
JP3581044B2 (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
KR101072890B1 (ko) 데이터베이스 정제 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법
JP3908919B2 (ja) 形態素解析システムと形態素解析方法
JP2001312294A (ja) 入力記号列を出力記号列に変換するトランスデューサの学習方法およびトランスデューサの学習プログラムを記憶したコンピュータ読み取り可能な記録媒体
JP2013171214A (ja) 情報処理装置、およびプログラム
JP6569543B2 (ja) 短縮文生成装置、方法およびプログラム。
WO2022107328A1 (ja) 機械学習プログラム、機械学習方法および自然言語処理装置
JPH11259482A (ja) 複合名詞の機械翻訳方式
JP4016018B2 (ja) 自然言語解析装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070308

LAPS Cancellation because of no payment of annual fees