JP3930138B2

JP3930138B2 - 情報解析方法および情報解析プログラムを記憶した媒体

Info

Publication number: JP3930138B2
Application number: JP06443298A
Authority: JP
Inventors: 恭之河野; 武秀屋野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-02-27
Filing date: 1998-02-27
Publication date: 2007-06-13
Anticipated expiration: 2018-02-27
Also published as: US6169972B1; JPH11249686A

Description

【０００１】
【発明の属する技術分野】
本発明は、ワードスポッティングを含む音声認識や文字認識等において、認識結果の単語や文字といった複数の候補が得られるような一般にラティス形式で表現できるような認識処理結果を与えられ、それを解析して利用者の意図した入力系列候補を絞り込むための情報解析方法および情報解析プログラムを記憶した媒体に関する。
【０００２】
【従来の技術】
近年、電子計算機技術（コンピュータ技術）の発展により、利用者にとってより自然な方法で種々の情報を計算機に入力することが可能になってきており、その利用を促進する技術が求められるようになってきている。
【０００３】
例えば、コンピュータにマイクロフォンと安価なＡ／Ｄコンバータが装備されたことにより、利用者はコンピュータに対して、自分の要求を発声すると、コンピュータがそれを音声認識処理することにより、ユーザの要求を解釈するような技術の重要性が増している。
【０００４】
また、ぺンタブレットやイメージスキャナ等の普及により、手書き文字や紙面に印刷された文字等を文字認識し、ディジタルデータ化するような要求が一般化してきている。
【０００５】
音声認識や文字認識といった認識処理を伴う入力の処理において、従来から問題になっていた点として、一般に、これらの認識処理において利用者の意図する入力が一意に認識結果として得ることができないということがあった。
【０００６】
すなわち、入力信号の認識処理においては、１００％の認識率を期待することはできず、そのため、一つの発声単語や文字に対して複数の候補が発生することが一般的である。
【０００７】
このため、音声で利用者が文発声をしたり、文章を文字認識したりするような場合、候補となる単語や文字が格子状に組み合わされた形式である“ラティス形式”で表現できるような認識結果が得られる。
【０００８】
利用者の入力を、一般のアプリケーションプログラムで利用可能にするためには、このような認識結果から利用者の入力として尤もらしい文や文字列を、高速かつ適切に決定するような認識の後処理技術が重要である。
【０００９】
そこで、そのための後処理技術を考えてみると、例えば、音声認識や文字認識結果のラティス構造から、利用者の入力した文を決定する後処理の技術がある。
このような後処理技術として、従来、このラティス構造を展開して文候補集合を生成し、各候補に自然言語の構文解釈技術を応用することが考えられる。例えば、特開平５‐１９７３８９号公報「音声認識装置」に開示されているような先行発明では、少数の認識対象単語から得られる認識結果のラティス（文章を文字認識したり、あるいは利用者が音声で文発声をしたりするような場合での認識結果であって、候補となる単語や文字が格子状に組み合わされた形式で表現されたもの）を展開しながら、極めて単純な文法からなる文の入力同定に成功している。
【００１０】
しかしながら、一般に人対人の対話で想定されるような多数の語棄と複雑な文法からなる文の入力に対する認識結果として得られるラティス構造は、一般に数多くの候補を含んで複雑に接続されているのが一般的である。
【００１１】
例えば、「西宮インターチェンジまでどのくらいですか」という発声に対して、ワードスポッティング処理を施した結果の例を、図１６に示す。
【００１２】
図１６では、１行に一つの単語候補が、「入力要素ＩＤ：単語表象（認識スコア）信号フレームにおけるこの単語の区間」の形式で示されている。
【００１３】
この“０フレーム目”から“４０フレーム目”までの音声入力に対して、正しくスポッティングされた４単語を含む合計４２単語が得られており、実に３８単語が“湧き出し誤り”となっている。
【００１４】
このようなワードスポッティング結果から構成されるラティス構造を展開すると、単語間の時間的な前後関係や離れ、重なりなどによる制約を加えたとしても、数百万の単語系列候補が生成されることとなる。このため、ラティスを候補に展開して解析するという手法は計算量、必要メモリ量の両面において現実的ではない。
【００１５】
また、候補展開よりも高速な解析手法として、特開平９‐１３４３６９号公報「ラティスをキーとした検索を行う辞書検索装置及び方法」に開示されているようなものがある。
【００１６】
これは、ラティスの先頭を根とするツリー上に入力ラティスを展開し、トライ辞書を用いてそのツリーを解析することで解析の高速化を図る手法である。そして、この発明では、ツリー上に入力ラティスを展開することで、単純に全候補を展開する方法に対して解析対象候補数をかなり抑えることに成功している。また、その解析に際してもトライ辞書を用いることで高速化が図られている。
【００１７】
しかしながら、前記図１６のような、より曖味性の大きな入力ラティスに対しては、解析処理回数が無視できないほど多くなると共に、解析途中の候補系列を残しながらトライ辞書を引くための手数が無視できないほど大きくなってしまうという問題があった。
【００１８】
【発明が解決しようとする課題】
このように、従来は、利用者の入力の認識結果として得られるラティス構造（以下、入力ラティスと記す）の解析において、何らかの形でラティスを展開して解析しようとすると、現実的な問題においては莫大な計算量とメモリ量を必要とし、事実上解析が不可能であるという問題があった。
【００１９】
本発明の第１の目的は、入力ラティスを展開することなく解析し、高速にその解析結果を得ることができる情報解析方法を提供することにある。
【００２０】
【課題を解決するための手段】
上記目的を達成するため、本発明は次のように構成する。
【００２１】
第１には、開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフであって、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つようなグラフ構造に変換可能な入力情報を、当該入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列で表される受理可能な受理パターン記号列の集合に基づいて解析し、零個以上の尤もらしい受理パターン記号列を出力する情報解析方法において、
前記開始ノードもしくは終了ノードから前記グラフ構造の解析を開始する解析開始ノード決定ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したか否かを判定するノード解析網羅判定ステップと、
あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行によって蓄積されたそのノードへの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、
解析が終了したかどうかを判定する解析終了判定ステップと、
解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて前記解析結果の出力である零個以上の尤もらしい受理パターン記号列を収集し、出力する受理パターン記号列収集・出力ステップとを具備することを特徴とする。
【００２２】
すなわち、本発明に係る情報解析方法の全体的な処理の流れを示す図２を参照して説明すると、処理開始により、まず初期化処理Ｓ１が行われる。その後終了が選択されるまで、入力に対する解析処理を行うループに入る。そして、入力の認識結果が伝達されると（Ｓ２）、それを入力ラティスに再構成し（Ｓ５）、入力ラティス上で解釈処理を行って受理可能な入力要素カテゴリ系列の集合を構成し（Ｓ３）、得られた入力要素カテゴリ系列集合を元に入力ラティスを再スキャンすることで、受理可能な入力要素系列集合を得る（Ｓ４）。ここで文発声に対する音声ワードスポッティングの場合、Ｓ３の出力である入力要素カテゴリ系列集合とは受理可能な品詞系列の集合であり、Ｓ４の出力である入力要素系列集合とは単語系列の集合となる。
【００２３】
すなわち、本発明の第一の特徴は、入力ラティスの解析Ｓ３において、後述する品詞系列のハッシュ辞書を用意してそれを参照しながら解析することでラティスを展開することなくかつ高速に解析処理を行い、入力要素カテゴリ系列集合を得ることができるようになることである。更に本発明の第二の特徴は、解析結果として入力要素系列集合が必要な場合、上記の入力要素カテゴリ系列集合を得た後、その入力要素カテゴリ系列集合を元に入力ラティスを再スキャンして受理可能な入力要素系列集合を得ることで、一度のスキャンで入力要素系列集合を得るよりもメモリ効率良く入力要素系列集合が得られるようになることである。
【００２４】
本発明によれば、展開すれば極めて多数の入力要素系列候補を導く入力ラティス様のデータを構築し得る入力認識結果の解析において、与えられた受理可能構文規則を満足する尤もらしい入力要素カテゴリ系列を高速かつ少ないメモリ要求量で導くことが可能となる。
【００２５】
さらに、本発明によれば、展開すれば極めて多数の入力要素系列候補を導く入力ラティス様のデータを構築し得る入力認識結果の解析において、与えられた受理可能構文規則を満足する尤もらしい入力要素系列を高速かつ少ないメモリ要求量で導くことが可能となる。
【００２６】
また、第２には本発明は、開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフであって、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つ形式のグラフ構造に変換可能な入力情報を、当該入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列で表される受理可能な受理パターン記号列の集合に基づいて解析することにより、零個以上の尤もらしい受理パターン記号列を出力する情報解析方法において、
前記受理可能な受理パターン記号列のうち、特定の部分系列である部分受理パターン記号列を構成し、また、その部分受理パターン記号列を一つのカテゴリ記号として利用し、受理パターン記号列を再帰的に構成し、階層受理パターン記号列集合を生成する階層受理パターン記号列生成ステップと、
前記階層受理パターン記号列集合の中から、全てのカテゴリ記号が既知である前記部分受理パターン記号列を選択する部分受理パターン記号列選択ステップと、
前記階層部分受理パターン記号列集合の中の、各部分受理パターン記号列が既に選択されたか否かを記憶する処理状態管理ステップと、
この処理状態管理ステップにて記憶した情報から、選択された部分受理パターン記号列が最終の記号列か否かを判定し、最後でない場合は無条件で前記開始ノードと終了ノードとに全てのデータノードを連結して、前記選択された部分受理パターン記号列を受理パターンとした前記解析を実施し、最後の場合は、前記選択された部分受理パターン記号列を受理パターンとした前記解析を実施することにより、尤もらしい部分受理パターン記号列を出力する解析ステップと、
前記収集された尤もらしい部分受理パターン記号列集合と前記各ノードに蓄積された各ノードの受理パターン記号列の情報を用いて前記グラフ構造を探索し、前記尤もらしい受理パターン記号列集合の各要素を生成し得る零個以上の解経路候補の集合を発見し、各経路に存在するノードをマージし、その所属カテゴリを該当する部分受理パターンとする新たなノードを作成する新規ノード生成ステップと、
前記処理状態管理ステップから、全ての部分受理パターン記号列について解析ステップを通過したか否かを判定し、全ての部分受理パターン記号列につて解析ステップを通過した場合に処理を終了する終了条件判定ステップとを具備することを特徴とする。
【００２７】
このような本発明は、従来、該当受理パターン記号列伝搬法において、正解となりうる品詞系列の集合が増大した場合に、記憶すベきハッシュ辞書の規模が大きくなり、膨大な量のメモリを必要とすること、また、解析途中の伝搬処理に必要な集合演算の規模が大きくなるため、計算量においても大きなコストを必要とし、また、正解となりうる品詞系列を生成するための、文型辞書にも配慮が必要であったという問題を解決し、正解となりうる品詞系列の集合が増大した場合においても、使用するメモリ量の増加を抑制し、解析時の伝搬処理の際の計算量の増加を抑制するラティス解析手法を提供できるようになる。また、該当受理パターン記号列伝搬法における品詞系列を生成するための文型辞書についても、システム管理者が管理し易い形式を与えることができるようになる。
【００２８】
【発明の実施の形態】
以下、本発明の具体例を、図面を参照して説明する。
【００２９】
本発明においては、音声で利用者が文発声をしたり、文章を文字認識したりするような場合において、候補となる単語や文字が格子状に組み合わされた形式である“ラティス形式”で表現できるような認識結果を使用して情報解析するもので、以下、詳細を説明する。
【００３０】
（第１の具体例）
＜概略説明＞
本発明は、品詞系列のハッシュ辞書を参照しながら入力ラティス、すなわち、“利用者の入力の認識結果として得られるラティス構造”を展開することなく、かつ、高速に解析処理を行い尤もらしい入力要素カテゴリ系列を導く機能を持ち、また、入力ラティスを展開することなくかつ高速に解析処理を行い、尤もらしい入力要素系列を導く機能を持つ情報解析方式を提供するものであり、以下、図面を参照して本発明の詳細につき説明する。
【００３１】
図１は、本発明による情報解析システムの概略的な構成図であり、図中、１はＣＰＵ、２はメインメモリ、３は入力部、４は出力部である。メインメモリ２は、本発明システムの機能を実現するに必要なプログラム等を格納しておくメモリであり、ＣＰＵ１は、このメモリ２に記憶されたプログラムを実行して各種処理や各種制御を実施する演算制御の中枢であり、入力部３は、利用者の音声を取り込み、音声認識してデータ化したり、あるいは入力文字を取り込んで文字認識し、データ化するなどしてその入力情報をＣＰＵ１に与えるものである。
【００３２】
出力部４は、認識結果や最終出力を表示あるいはデータとして出力したりするためのものである。
【００３３】
また、この他、各種辞書等を保持するハードディスや光ディスクなどによる大容量外部記憶装置５、また、光ディスクやＣＤ‐ＲＯＭ、ＣＤ‐Ｒ、ＣＤ‐ＲＷ、ＤＶＤなどの可搬型記憶媒体をアクセスする大容量記憶媒体ドライブ装置６、外部システムとの通信を行う通信部７などを有する。
【００３４】
図２は、本発明に係る情報解析方法の全体的な処理の流れを示すフローチャートであり、ここで説明する如きの機能が図１の装置で実行されることで実現される。このフローチャートに従って本発明の処理の流れを説明すると、次の通りである。
【００３５】
本発明システムにおける情報解析処理は、［ｉ］初期化処理、［ii］ラティス構築処理、［iii］ラティス解析処理、［iv］単語系列候補リスト形成処理からなる。
【００３６】
ＣＰＵ１は、処理を開始すると、まず、初めに［ｉ］の初期化処理（ステップＳ１）を行う。その後、終了が選択されるまで、入力に対する解析処理を行うループに入る。すなわち、［ii］のラティス構築処理、［iii］のラティス解析処理、［iv］の単語系列候補リスト形成処理である。
【００３７】
そして、［ii］ラティス構築処理においては、入力の認識結果が伝達されると（ステップＳ２）、それを入力ラティスに再構成する（ステップＳ５）。ついで、［iii］のラティス解析処理を行い、ここで入力ラティス上で解釈処理を行って受理可能な入力要素カテゴリ系列の集合を構成する（ステップＳ３）。ついで［iv］の単語系列候補リスト形成処理に入り、ステップＳ３で得られた入力要素カテゴリ系列集合を元に入力ラティスを再スキャンすることで、受理可能な入力要素系列集合を得る（ステップＳ４）。
【００３８】
ここで文発声に対する音声ワードスポッティングの場合、ステップＳ３での処理結果に基づく出力である“入力要素カテゴリ系列集合”とは受理可能な品詞系列の集合であり、ステップＳ４での処理に基づく出力である入力要素系列集合とは単語系列の集合となる。
【００３９】
以上が、本発明に係る報解析方式の概略構成である。以下、文発声された音声信号に対し、ワードスポッティングを行った結果から適切な単語系列を同定する場合を例にとり、本発明を詳しく説明する。
【００４０】
＜具体例＞
ここで、本発明に係る情報解析方式の処理過程において利用される辞書及びデータの構成について説明する。本発明に係る情報解析システムは、その処理過程において“品詞辞書”、“品詞系列パターン辞書”、“品詞系列ハッシュ辞書”、“処理中ノードリスト”を参照し、また、“品飼系列パターン辞書”と“品詞系列ハッシュ辞書”の生成の際に、“文型辞書”を参照する。これらは大容量外部記憶装置５に構築されている。
【００４１】
尚、“処理中ノードリスト”は、現在処理対象とし得る入力ラティス上のノードのリストである。
【００４２】
図１２に、本発明システムで用いる“品詞辞書”の例を示す。この図に示す “品詞辞書”は、“品詞”、すなわち、“入力要素カテゴリ”については角丸長方形枠で囲んで示し、“単語”、すなわち、“入力要素”については長方形枠で囲んで示す。例えば、“品飼「場所」”は“「現在地」，「施設」，「目的地」，「経由地」”といった“子品詞”から構成され、“品詞「経由地」”は子品詞「出口・入口」と共に単語「インター」及び「インターチェンジ」を要素として持つ。
【００４３】
本実施例では、このような形で入力解釈の基盤となる単語とその品詞構造の辞書を持つこととする。
【００４４】
＜文型辞書の例＞
図１３に、本実施形態で受理可能な単語系列である「文」の形を定義し蓄積する“文型辞書”の例を示す。この例の場合、
「（（場所）｜（経由地名）（経由地）｜（代名詞：代名詞場所＜そこ＞））‐［道程］）‐（（疑問詞：ＨＯＷ_ＭＵＣＨ＜どれくらい＞）｜（疑問詞：ＨＯＷ_ＭＵＣＨ時間）｜（疑問詞：ＨＯＷ_ＭＵＣＨ距離））」
なる内容の“ｇ１”と、
「（（場所固有名詞：地名）｜（経由地名）（経由地））‐（疑問詞：ＷＨＡＴ：ＷＨＡＴ物）‐（（目印）｜（場所：施設＜食べるところ＞））‐（動作：存在：存在通常）」
なる内容の“ｇ２”の２つの文型が登録されている。
【００４５】
これらの文型において、“（”と“）”とで括られた最も小さい固まり、例えば“（場所）”や“（経由地名）”等、が一つの単語に対応する品詞となる。そして、それらの系列の連接が “‐（ハイフン）”で表され、「ＡかＢかＣのうちの何れかの選択」は “（Ａ｜Ｂ｜Ｃ｜）” と記述される。また、 “［”と“［”とで囲まれた区間は高々一回、すなわち、０回または１回だけ “［”と“］”で囲まれた区間が現れることを意味する。例えば、“ｇ１”からは
「そこ」「まで」「どれくらい」
「京都」「まで」「どれぐらい」
「吹田」「まで」「何分」
「入口」「まで」「どのくらい」
等といったような単語系列が生成・受理可能であり、“ｇ２”からは
「倉敷」「何か」「食べるところ」「ある」
「京都駅ロータリー」「なにか」「目印」「ある」
といったような単語系列が生成・受理できる。
【００４６】
このような文型に従って読み展開すると、“文型辞書”は図１４に示すような“品詞系列パターン辞書”に展開することができる。この図において図１３の文型“ｇ１”は“ｓｐ０１‐ｇ１”から“ｓｐ１８‐ｇ１”までの１８パターンの品詞系列に展開することができ、文型“ｇ２”は“ｓｐ０１‐ｇ２”から“ｓｐ０４‐ｇ２”までの４パターンに展開できる。
【００４７】
この“ｓｐ０１‐ｇ１”から“ｓｐ１８‐ｇ１”と“ｓｐ０１‐ｇ２”から “ｓｐ０４‐ｇ２”までの各品詞系列パターンに付与された記号を、“品詞系列ＩＤ”と呼ぶ。“品詞系列パターン辞書”の各パターンは、各々が一つの単語に当たる品詞の連接からなる。例えば、“ｓｐ１１‐ｇ１”に品詞辞書を適用すると、
（「魚崎」「インター」「何キロ」）
といったような受理可能な単語系列が生成できる。
【００４８】
“品詞系列パターン辞書”の内容を元に、各品詞の各品詞系列パターンにおける出現箇所（出現順序）と、その品詞によって“ハッシュ辞書”を構成すると図１５に示す如きの“品詞系列ハッシュ辞書”が生成できる。
【００４９】
例えば、図１５（ａ）に示す“単語出現番号１”の“ハッシュ表”を見れば、本実施形態の文型辞書において“品詞（地名）”が文頭に現れる単語系列のパターンとしては、“品詞系列ＩＤ”が“ｓｐ０１‐ｇ２”と“sｐ０２‐ｇ２”の２種類しかないことがわかる。
【００５０】
“品詞系列ハッシュ辞書”は、単語出現番号が“１”から、あり得る品詞系列パターンの最長のもの（本実施形態では“５”）までの各“出現順位の表”と、各単語系列パターンの末尾からの“ハッシュ表”とから構成される。
【００５１】
ここで処理の説明を簡単化させるため、得られたワードスポッティング結果が図８に示す如きの簡単化されたワードスポッティング結果であるとして話を進める。
【００５２】
この入力はラティス構築処理部において各単語候補の時間的関係、及び重なりや離れの制約を用いることで、図９のような入力ラティス構造（文章を文字認識したり、あるいは利用者が音声で文発声をしたりするような場合での認識結果であって、候補となる単語や文字が格子状に組み合わされた形式で表現された構造）が構築される。
【００５３】
この入力ラティス構造の各ノードには、図１０に示す如きのデータ要素が格納される。
【００５４】
すなわち、図１０に示すように、“ノードＩＤ”、“所属品詞”、“前ノードリスト”、“次ノードリスト”、“未処理前ノードリスト”、“解析途中経過リスト”、“入力要素ｉｄ：単語表象”の７要素である。
【００５５】
ここで、入力ラティスのノードの第１の要素は、ノードの識別子である“ノードＩＤ”であり、図９で各ノードに示されているように、「入力要素ＩＤ：単語表象」の形式で記述される。
【００５６】
第２の要素は、その単語の“所属品詞”である。
【００５７】
第３の要素は、そのノードの前に接続する可能性のあるノードの集合を表す “前ノードリスト”である。
【００５８】
第４の要素は、そのノードの後ろに接続する可能性のあるノードの集合を表す“次ノードリスト”である。
【００５９】
第５の要素は、前ノードリストの要素中解析処理が終了していないノードの集合を表す“未処理前ノードリスト”であり、このリストの内容が空にならない限りそのノードの解析を行ってはならないことを示す。
【００６０】
第６の要素は、そのノードが表象する単語が受理される単語系列の要素であるならば、どの品詞系列パターンがその単語系列のテンプレートとしてあり得るかを要素として持つ“解析途中経過リスト”である。解析途中経過リストは、そのノードが受理可能単語系列の何番目に現れるかの数値と、その順序でそのノードが表象する単語が現れたときに考えられる品詞系列ＩＤのリストとの組のリストで表現される。
【００６１】
例えば、図９の入力ラティスを例にとると、当該入力ラティスのノード“「０７：今」”については“（「今」…）”という具合に、単語系列の最初に現れる場合と、“（「道」、「今」、…）”という具合に、２番目に現れる場合とが考えられる。
【００６２】
このような場合、“解析途中経過リスト２は“［（１、１…１）、（２、［…］］”と云う具合に、この単語が１番目に現れた場合に取り得る品詞系列パターンのリストと２番目に現れた場合に取り得る品詞系列パターンのそれとを分けて管理する。
＜［iii］ラティス解析処理Ｓ３での処理機能＞
図３は、図２で説明した本発明の具体例に係る情報解析方法におけるラティス解析処理Ｓ３での処理内容の概略を示すフローチャートである。ラティス解析処理Ｓ３での処理の詳細を図４乃至図７に示す。但し、図４はラティス解析処理フローの全体図、図５乃至図７はその部分拡大図である。
【００６３】
以下、図３および図４乃至図７を参照して、解析処理の流れを説明する。
【００６４】
処理が開始されると、まず初期設定処理（図３のステップＳ３１）において解析処理の準備を行う。この初期設定処理（Ｓ３１）の詳細は、図４乃至図６のステップＳ３１１〜Ｓ３１８に示す。
【００６５】
この処理において、具体的には、
（１）入力ラティスの全ノードについて、前ノードリストの内容を未処理前ノードリストにコピーする、
（２）入力ラティスの開始ノードに接続している、すなわち単語系列の先頭になりうる単語を表象するノードを処理中ノードリストに含める、
（３）処理中ノードリストに含めたノードの解析途中経過リストの初期値を設定する、
（４）処理中ノードリストに含めた各ノードの未処理前ノードリストから開始ノードを除去する、
の４つの処理を行う。この例では、処理中ノードリストの内容は
［０７：今，０１：道，０３：西宮］
となり、それらの各ノードの“未処理前ノードリスト”と“解析途中経過リスト”の内容は

となる。初期設定処理（Ｓ３１）が終わった段階での単語ラティスのノード例は例えば、図１１に示す如きとなる。
【００６６】
初期設定処理（Ｓ３１）が終わると、本ラティス解析処理Ｓ３では“処理中ノードリスト”が空になるまで（図３のステップＳ３２）伝播処理（Ｓ３３）を繰り返す。
【００６７】
伝播処理Ｓ３３の詳細は、図４および図６および図７におけるステップＳ３３１〜Ｓ３３８にあるが、この処理を一言でいうと、「あるノードにおいて未処理前ノードリストが空になり解析途中経過が確定すると、そのノードの後続のノードに解析途中経過リストの内容を伝播する」ということになる。
【００６８】
そして、“処理中ノードリスト”が空になると、ラティスの“終了ノードの解析途中経過リスト”に蓄積されている内容が、ラティスで受理可能な“品詞系列ＩＤ”の集合となっている。
【００６９】
このため、終了ノードの“解析途中経過リスト”の全ての“品詞系列ＩＤ”を“品詞系列候補リスト”にコピーして、ラティス解析処理（Ｓ３）は終了する。次に、このようにして得られた“品詞系列候補リスト”を利用して、入力ラティスをもう一度スキャンする前述の［iv］単語系列候補リスト形成処理（Ｓ４）を実行する。この単語系列候補リスト形成処理を実行することにより、求める受理可能な単語系列のリストを得る。
【００７０】
以上が本発明に係る情報解析方法の処理概要とその機能である。
【００７１】
＜伝播処理Ｓ３３での処理の詳細＞
ここでこれまでの例を用い、図４および図６および図７のステップＳ３３１〜Ｓ３３８を参照してラティス解析処理における伝播処理（Ｓ３３）の内容を更に詳しく説明する。
【００７２】
まず、図４および図６および図７のステップＳ３３１において、“処理中ノードリスト”からノードが一つ取り出される。この場合、ノード「０７：今」が処理対象前ノードＭとなる。
【００７３】
しかしながら、このノードの“未処理前ノードリスト”は空でないため、ステップＳ３３２のチェックで処理は開始されず、ステップＳ３２の処理に戻る。そして、再び、ステップＳ３３１で別のノード「０１：道」が“処理中ノードリスト”から取り出される。
【００７４】
このノードの“未処理前ノードリスト”は空のため、後ろに接続するノード「０７：今」と「１５：インターチェンジ」にこのノードの“解析途中経過リスト”の内容が伝播される。ただし、上に示すように「０１：道」の“解析途中経過リスト”は空であるため、「０７：今」と「ｌ５：インターチェンジ」の“解析途中経過リスト”の内容は変化せず、これらのノードの“未処理前ノードリスト”から「０１：道」が除去される。
【００７５】
すなわち、この操作により、それらの各ノードの“未処理前ノードリスト”と“解析途中経過リスト”の内容が

となる。
【００７６】
次にＳ３３１で、再び、ノード「０７：今」が“処理中ノードリスト”から取り出されるが、“未処理前ノードリスト”は空となったため、今回は伝播が可能となる。
【００７７】
しかしながら、このノードの“解析途中経過リスト”も事実上、“空”、すなわち、このノードを経由して受理可能な品詞系列はないため、このノードの後ろに接続する
「１４：インター、１８：今、２０：まで、１５：インターチェンジ」
の“解析途中経過リスト”の内容は変化せず、これらのノードの“未処理前ノードリスト”から「０７：今」が除去されるのみである。
【００７８】
これらの操作の結果、それらの各ノードの“未処理前ノードリスト”と“解析途中経過リスト”の内容は

となり、“処理中ノードリスト”から「０７：今」が除去され、

となる。
【００７９】
次にステップＳ３３１において、“処理中ノードリスト”からノード「０３：西宮」が取り出される。このノードの“未処理前ノードリスト”は空のため、 “解析途中経過リスト”の内容の伝播が可能である。
【００８０】
ここで、まず、ノード「０３：西宮」の“解析途中経過リスト”の各順番インデックスに“１”を加えたリスト
［（２，［ｓｐ０３‐ｇ２，ｓｐ０４‐ｇ２，ｓｐ０７‐ｇ１、ｓｐ０８‐ｇ１，ｓｐ０９‐ｇ１、ｓｐ１０‐ｇ１，ｓｐ１１‐ｇ１，ｓｐ１２‐ｇ１］）］
を生成する。そして、このリストと、後続するノードの対応する“品詞系列ハッシュ”の内容との積集合をとる。
【００８１】
例えば、［１４：インター」に伝播する際、前出のリストの単語出現番号である“２”のハッシュ辞書の「インター」の品詞である「経由地」の項目のリスト
［ｓｐ０８‐ｇ１，ｓｐ０９‐ｇ１，ｓｐ１０‐ｇ１，ｓｐ１１‐ｇ１、ｓｐ１２‐ｇ１，ｓｐ０７‐ｇ１、ｓｐ０３‐ｇ２、Ｓｐ０４‐ｇ２］
との積集合がとられ、その結果、「１４：インター」の“解析途中経過リスト”の内容は
［（２，［ｓｐ０３‐ｇ２、ｓｐ０４‐ｇ２、ｓｐ０７‐ｇ１、ｓｐ０８‐ｇ１，ｓｐ０９‐ｇ１，ｓｐ１０‐ｇ１，ｓｐ１１‐ｇ１，８ｐｌ２‐ｇ１］）］
となる。
【００８２】
同様の処理が「０３：西宮」に接続する各ノードに対して行われ、それらの各ノードの“未処理前ノードリスト”と“解析途中経過リスト”の内容は

となり、“処理中ノードリスト”は、
［１５：インターチェンジ，１４：インター，１８：今、２０：まで］
となる。
【００８３】
次に、ステップＳ３３１でノード「１５：インターチェンジ」が“処理中ノードリスト”から取り出される。このノードの“未処理前ノードリスト”は空のため、“解析途中経過リスト”の内容の伝播が可能である。
【００８４】
ここでまず、ノード「１５：インターチェンジ」の“解析途中経過リスト”の各順番インデックスに“１”を加えたリスト
［（３，ｓｐ０３‐ｇ２，ｓｐ０４‐ｇ２、ｓｐ０７‐ｇ１，ｓｐ０８‐ｇ１，ｓｐ０９‐ｇ１、ｓｐ１０‐ｇ１、ｓｐ１１‐ｇ１，ｓｐ１２‐ｇ１］）］
を生成する。そして、このリストと、後続するノード「２０：まで」の対応する“品詞系列ハッシュ”の内容との積集合をとる。
【００８５】
すなわち、「２０：まで」に伝播する際、前出のリストの単語出現番号である“３”のハッシュ辞書の「まで」の品詞である「道程」の項目のリスト
［ｓｐ０８‐ｇ１，ｓｐ１０‐ｇ１，ｓｐ１２‐ｇ１］
との積集合がとられ、「２０：まで」の解析途中経過リストの内容は
［（３，［ｓｐ０８‐ｇ１，ｓｐ１０‐ｇ１，ｓｐ１２‐ｇ１］）］
となる。
【００８６】
同様のサイクルが「１４：インター」からの伝播でも行われる。この伝播の際、「１４：インター」からは「１８：今」に対しても接続可能ではあるが、「１８：今」の対応するハッシュ辞書項目がないため、このノードの“解析途中経過リスト”の内容は空のままである。結果として、各ノードの“未処理前ノードリスト”と“解析途中経過リスト”の内容は

となる。
【００８７】
次に、ステップＳ３３１でノード「２０：まで」が“処理中ノードリスト”から取り出される。このノードの“未処理前ノードリスト”は空のため、“解析途中経過リスト”の内容の伝播が可能である。ここでまず、ノード「２０：まで」の“解析途中経過リスト”の各順番インデックスに“１”を加えたリスト
［（４、［ｓｐ０８‐ｇ１，ｓｐ１０‐ｇ１，ｓｐｌ２‐ｇ１］）］
を生成し、後続のノード「２４：どのくらい」と「終了」に伝播する。その結果、まず、“ノード「２４：どのくらい」”ではこれまでと同様品詞系列ハッシュ辞書を参照することで“解析途中経過リスト”を更新することから、当該“解析途中経過リスト”の内容は

となる。次に、「終了」ノードへの伝播に際しては単語出現番号「ｅｎｄ」のハッシュ辞書項目が参照される。この場合、品詞「道程」で終了する文型は登録されていないため辞書参照は失敗し、終了ノードの解析途中経過リストの内容は更新されない。すなわち、

となる。
【００８８】
次にステップＳ３３１で、ノード「２４：どのくらい」が“処理中ノードリスト”から取り出される。このノードの“未処理前ノードリスト”は空のため、 “解析途中経過リスト”の内容の伝播が可能である。しかし、このノードに接続可能なノードは「終了」ノードのみなので、終了ノードに伝播させる。
【００８９】
この伝播において、単語出現番号「ｅｎｄ」のハッシュ辞書項目が参照される。品詞「ＨＯＷＭＵＣＨ＜どれくらい＞」の項目が参照され、ノード「２４：どのくらい」の“解析途中経過リスト”との積集合がとられ、

が最終的に得られる。また、処理中ノードリストが空になり、品詞系列候補リストの内容が
［ｓｐ０８‐ｇ１］
となって、ラティス解析処理Ｓ３は終了する。
【００９０】
次に得られた“品詞系列候補リスト”から、受理可能な単語系列を生成する前記の［iv］単語系列候補リスト形成処理（図２のステップＳ４）に処理が移る。
＜［iv］単語系列候補リスト形成処理＞
この単語系列候補リスト形成処理処理は、入力ラティスの可能な系列の中から、得られた各品詞系列候補、この場合は“ｓｐ０８‐ｇ１”を見つけ出す処理に他ならない。
【００９１】
ここで、ラティス解析処理の過程において各ノードが所属し得る品詞系列の集合が“解析途中経過リスト”として残っているため、求める“品詞系列ＩＤ”を“解析途中経過リスト”のメンバとして持つ系列を探索することで、求める“単語系列候補リスト”を得ることができる。
【００９２】
このような単語系列候補リスト形成処理（図２のステップＳ４）の過程を経て、“単語系列候補リスト”

が得られる。
【００９３】
かくして、このように構成された情報解析方法によれば、展開すれば極めて多数の入力要素系列候補を導く入力ラティス様のデータを構築し得る入力認識結果の解析において、「与えられた受理可能構文規則を満足する尤もらしい入力要素カテゴリ系列」を高速、かつ、少ないメモリ容量で導くことが可能となる。
【００９４】
さらに、本発明によれば、展開すれば極めて多数の入力要素系列候補を導く入力ラティス様のデータを構築し得る入力認識結果の解析において、「与えられた受理可能構文規則を満足する尤もらしい入力要素系列」を高速、かつ、少ないメモリ容量で導くことが可能となる。
【００９５】
尚、本発明の実施の形態としては上記の方式を実現したプログラムを収録した媒体として実現し、その媒体に納められたプログラムをコンピュータに読み込ませて実行させることで実施することも可能である。
【００９６】
尚、上述の例において制御の単位を単語とし音声ワードスポッティングをアプリケーションとして記述しているが、本発明の実現形態はこれに限定されるものではなく、例えば、連続音声認識の音韻を単位としてで実現することも可能であり、また、文字認識処理における文字を単位として制御することも可能であり、そのような実現形態も本発明の趣旨の範囲内である。また、上述の例において文法辞書の要素の記述を“ＯＲ”付きの品詞系列用の形式で、品詞辞書を単語カテゴリの階層構造として記述しているが、本発明の実現形態はこれに限定される物ではなく、最終的には品詞系列パターン辞書が作成できる、すなわち入力ラティスの各ノードの要素の集合とそれらの要素が所属するカテゴリの集合をあわせた集合の要素の系列を要素として持つ高々有限個の集合として品詞系列パターン辞書が構成できるような実現形態であればどのような形式でも実現可能である。例えば、構文記述及び品詞記述を書き換え規則で記述したとしても、規則による構文展開回数に制限を加えるなどその書き換え規則から有限個の前終端記号列が生成されるような記述と制御が行われれば、本発明は実現可能である。一般に、計算機で処理可能な構文の数は有限であり、また、人間が話したり書いたりできる語棄や文型の展開は有限であることから、本来無限個の前終端記号列を生成できるような書き換え文法にそのような制約を加えたとしても枠組の現実性を損なう物ではない。以上のように、本発明の実現形態には上述の例に対して種々の変形が可能であり、それらも趣旨に反しない限り本発明の実施形態の範囲内である。
以上、第１の実施形態は、入力ラティスを展開することなく解析し、高速にその解析結果を得ることができる情報解析方法を提供するために、有向グラフ構造状のデータ構造として与えられる入力ラティスの各ノードの表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列として与えられた受理可能な受理パターン記号列の集合のうち、前記開始ノードもしくは終了ノードから前記グラフ構造の解析を開始する解析開始ノード決定ステップと、前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したかどうかを判定するノード解析網羅判定ステップと、あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行によって蓄積されたそのノードヘの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、解析が終了したかどうかを判定する解析終了判定ステップと、解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて本方法の出力である零個以上の尤もらしい受理パターン記号列を収集する受理パターン記号列収集ステップと、前記収集された尤もらしい受理パターン記号列集合と前記各ノードに蓄積された各ノードの受理パターン記号列の情報を用いて前記グラフ構造を探索し、前記尤もらしい受理パターン記号列集合の各要素を生成し得る零個以上の解経路候補の集合を発見し、出力する解経路候補検索・出力ステップとを具備したことを特徴とする。
【００９７】
本発明によれば、展開すれば極めて多数の入力要素系列候補を導く入力ラティス様のデータを構築し得る入力認識結果の解析において、与えられた受理可能構文規則を満足する尤もらしい入力要素カテゴリ系列を高速かつ少ないメモリ要求量で導くことが可能となる、展開すれば極めて多数の入力要素系列候補を導く入力ラティス様のデータを構築し得る入力認識結果の解析において、与えられた受理可能構文規則を満足する尤もらしい入力要素系列を高速かつ少ないメモリ要求量で導くことが可能となる、等の実用上多大な効果が奏せられる。
【００９８】
（第２の実施形態）
ここで、第１の実施形態に示した発明を該当受理パターン記号列伝搬法と呼ぶことにする。
【００９９】
自然言語解析や自然言語生成、あるいは音声認識や音声合成技術あるいは対話処理技術を利用し、自由発話による音声入力によって利用者とコンピュータシステムとが対話する音声対話装置においては、通常、音声認識処理を必要としているが、このような認識処理は、一般に一意に認識結果が得られないという問題がある。すなわち、一つの入力信号に対して複数の候補が現われるという状態が一般的である。このため、音声で利用者が文発声をする場合、候補となる単語や文字が格子状に組み合わされたラティス形式で表現できるような認識結果が得られる。
【０１００】
利用者の入力を一般のアプリケーションプログラムで利用可能にするためには、このような認識結果から利用者の入力として尤もらしい文や文字列を高速かつ適切に決定するような認識の後処理技術が重要である。
【０１０１】
また、文章に対して単語のラティス形式で認識結果を与えることの可能な音声認識手法であるワードスポッティングでは、一般に多数の湧きだし誤りを生じ、ラティス形式から生じうる系列に展開し、それぞれについて解析を行う手法は、湧きだし誤りによる系列数の増加を考慮しておらず、現実的ではないといえる。そこで、ラティスを展開せずに、正解となりうる品詞系列の集合と、それから構成される各品詞の出現順序に基づくハッシュ辞書（その要素はその順序にある品詞が存在する品詞系列のＩＤの集合となる）とを利用し、生成されたラティスの各単語に、考えうるその単語の出現順序と対応する品詞から得られる、ハッシュ辞書の内容を、次に出現しうる単語に伝搬し、伝搬された「存在しうる系列集合」と「その単語が存在できる系列集合」とで、共通な系列を更に伝搬させることによって、最終的に利用者が入力したであろう品詞系列へと絞り込む手法である「該当受理パターン記号列伝搬法」は、ラティスを展開せずに解析を行うので、多くの曖味性を含むラティスに対しても高速に解析結果が得られるが次のような問題点を含んでいる。
【０１０２】
その問題点とは、「正解となりうるカテゴリ系列の集合が増大した場合に、記憶すべきハッシュ辞書の規模が大きくなり、膨大な量のメモリを必要とすること」と、「解析途中の伝搬処理に必要な集合演算の規模が大きくなるため、計算量においても大きなコストが必要となる」ことである。
【０１０３】
また、「正解となりうるカテゴリ系列を生成するための、受理パターン記号列の辞書にも配慮が必要となる」という点も無視できない。例えば、第１の実施形態における対話システムに適用する場合には、カテゴリは品詞に、受理パターン記号列は「文型」に相当する。
【０１０４】
また、そのような音声対話システムのタスクがカーナビゲーションシステムの場合であれば、「場所」に関する表現が多くなると考えられるが、システム管理者が文型を定義する際に、誤って、ある「場所」の表現を与える品詞系列を付与し損ねた場合に、文型によって受け付けられる「場所」の表現が異なることになり、どのような「場所」の表現が受け付け可能かが利用者にはわかりにくくなり、利用者が混乱すると考えられる。また、文型の数が多くなった場合には、「場所」の表現を追加あるいは削除する場合についても、管理者の処理が煩雑となり、また、その結果、上記のような文型によって受け付けられる「場所」の表現が異なるという状況も起こる可能性があり、それにより、利用者が混乱するということも考えられる。
【０１０５】
このように、該当受理パターン記号列伝搬法において、正解となりうるカテゴリ系列の集合が増大した場合に、記憶すベきハッシュ辞書の規模が大きくなり、膨大な量のメモリを必要とすること、また、解析途中の伝搬処理に必要な集合演算の規模が大きくなるため、計算量においても大きなコストを必要とする。また、正解となりうるカテゴリ系列を生成するための、受理パターン記号列の辞書にも配慮が必要である。
【０１０６】
次に説明する第２の実施形態は、このような問題に対処できるようにするもので、正解となりうるカテゴリ系列の集合が増大した場合においても、使用するメモリ量の増加を抑制し、解析時の伝搬処理の際の計算量の増加を抑制するラティス解析手法を提供する。また、該当受理パターン記号列伝搬法における品詞系列を生成するための受理パターン記号列の辞書についても、システム管理者が管理し易い形式を与えることができるようにする。
【０１０７】
以下、第２の実施形態を説明する。
【０１０８】
ここで説明する第２の実施形態としての本発明は、「該当受理パターン記号列伝搬法における受け付け可能なカテゴリ系列パターン辞書を管理／修正し易いようにした受理パターン記号列定義方法」について示すと共に、ハッシュ辞書の要素となるカテゴリ系列パターンの数が増大しても、処理に必要なコンピュータのメモリ容量の増大や、計算量におけるコストの増加を抑制できるようにする手法を提案するものであり、以下、図面を参照して本発明の詳細につき説明する。ここでは、音声指示方式のカーナビゲーションシステムをタスクとした場合での例を主体に説明する。
【０１０９】
図１８は、音声指示方式のカーナビゲーションシステムをタスクとした場合での、該当受理パターン記号列伝搬法で利用する“文型辞書”の例を表している。この図において、“（”と、“）”とで囲まれた文字列が品詞を表し、“｜”はその両側の品詞（列）のうちの１つを出力する記号であり、“‐”は１つの構文要素を複数行に分けて表示していることを表す。
【０１１０】
また、個々の構文要素は、空白あるいは改行で区切られている。例えば、文型“Ｗｈｅｒｅ”は２つの構文要素からなり、第一構文要素が５個存在するので、そこから品詞系列パターンは５個生成されると、この図からわかる。
【０１１１】
この場合、“Ｗｈｅｒｅ”と“ＨｏｗＭｕｃｈ１”、そして、“ＨｏｗＭｕｃｈ２”の合計３種類の文型が登録されている。
【０１１２】
しかし、これらの定義では、「場所」を表す部分（例えば、文型“Ｗｈｅｒｅ”における品詞（ＷＨＥＲＥ）の前にある記号列）である
「（経由地名）（経由地）｜（施設名）（施設）｜（経由地）（順序相対）（順序絶対）（施設）｜（経由地）（順序相対）（施設）｜（経由地名）（経由地）（順序相対）（施設）」
という表現となっていて表現形式が複雑なものとなっており、「場所」を表す部分の修正、追加などの管理が複雑になる。特に“文型ＨｏｗＭｕｃｈ２”においては、この「場所」を表す表現が、最初の位置と、品詞（起点）の直後と云うように２箇所も存在する。そのため、一方を修正しても他方の修正を見落すこともある。
【０１１３】
また、この図から、各文型において「場所」を表す共通の表現が存在することがわかる。
【０１１４】
図１９は、このような該当受理パターン記号列伝搬法で利用する複雑な表現形式の図１８の如き“文型辞書”を修正して得られた本発明システムで利用するための“文型辞書”の例を表している。
【０１１５】
ここでの修正とは、『「場所」を表す表現を「場所句」とした別の一つの句の文型辞書として定義する』というものである。この図において、「別の文法セットの文型辞書として定義すること」を表す識別子が「＋Ｐｈｒａｓｅ」であり、その直後の文字列がその文型辞書の名前を表す。
【０１１６】
ここで、“文法セット”とは、「句」などの「部分的な構文からなる規則」と、「全体の構文からなる規則」のいずれかのことを指す。
【０１１７】
そして、別の文型を利用する場合に、「その文型を必要とすることを明示する識別子」が「−Ｎｅｅｄｓ」であり、その後の文字列が必要な文型辞書名（文法セット名）を表す。
【０１１８】
この図の例の場合では、入力文章を表す文型辞書「全系列」に必要な文型辞書が、「場所句」であることを表している。複数の文型辞書が必要な場合は、識別子「−Ｎｅｅｄｓ」の後に、複数の文型辞書名を表記する。
【０１１９】
これにより、「場所」を表す表現を追加する場合には、文型辞書「場所句」を修正すれば、文型辞書「全系列」の全てにそれが反映されるので、管理者にとって管理／修正が容易な文型辞書定義が可能となる、ということがわかる。この方法は、特に、ある意味を表す集合を別辞書として管理するにとどまらず、主部、述部のような文法的な情報を持つ集合と一つの辞書としても構わない。
＜ラティス解析方法の実施形態＞
続いて、本発明におけるラティス解析方法の実施形態について説明する。
【０１２０】
本実施形態は、図１９における文型辞書を展開せずに、各文法セットについて順にラテイスの解釈を行う方法である。
【０１２１】
これにより、該当受理パターン記号列伝搬法が持つ品詞系列パターン数の増大、特に、文法セットの品詞系列パターン数の増大によるコンピュータの使用メモリ、コンピュータの計算量といったリソースや運用コストが増大することを抑制することが可能となる。
【０１２２】
最初に、階層ハッシュ辞書（図２１）を構築する。
【０１２３】
図２０は、本実施形態で使用する“階層品詞系列パターン辞書”の例である。図２０に示すように、各文法セットについて展開された階層品詞系列パターン辞書から、各文法セットについてのハッシュ辞書を構築しても良いし、予め構築しておいたハッシュ辞書を読み込む形式でも良い。
【０１２４】
この図では、図１９に示した文型辞書の例から展開したものを示した。この図からわかるように、“階層品詞系列パターン辞書”とは、各文法セット別個に提案されている文型辞書から、それぞれの文法セットを別個に展開し、品詞（文法セット名も含む）系列パターンを生成したものを云う。尚、文法セットは厳密には品詞ではないが、仮想的に品詞と同じような扱いをするものとすれば、このように表記できる。
【０１２５】
この図から、この例では「場所句」については“Ｐ１＃０”〜“Ｐ５＃０”までの５パターン分、定義されており、最終的な品詞系列である「全系列」については「場所句」を利用する形式で
“Ｗｈｅｒｅ＃０”、
“ＨｏｗＭｕｃｈ１＃０”、
“ＨｏｗＭｕｃｈ２＃０”
の３パターン分、定義されていることがわかる。
【０１２６】
ここで、各品詞系列パターンに付与されているＩＤの中の“＃０”について補足しておく。
【０１２７】
この“＃０”というのは、１つの文型辞書のパターンから展開されたものにつけるＩＤである。そして、１つの文型辞書のパターンから複数の品詞系列パターンに展開される場合は“＃１”、“＃２”・・・と云う具合に別のＩＤが付与されるものとする。尚、ＩＤは各品詞パターンに特有のものであれば、どのような形式でもよい。
【０１２８】
また、この図においても図１９と同じように、別の文法セットとして定義することを表す識別子が「＋Ｐｈｒａｓｅ」であり、その直後の文字列がその文法セットの名前を表す。そして、別の文法セットを利用する場合に、その文法セットを必要とすることを明示する識別子が「−Ｎｅｅｄｓ」であり、その後の文字列が必要な文法セットを表している。また、各品詞系列には固有のＩＤが付与されており、各系列の先頭に表記されている記号がそのＩＤとする。
【０１２９】
＜階層ハッシュ辞書の例＞
図２１は、本実施形態で使用する一例としての階層ハッシュ辞書の例である。この図では、図２０に示した階層品詞パターン辞書からハッシュ辞書を構築したものを示した。
この図から、例えば「場所句」では一番目に現われる品詞（文法セット名）としては“（経由地名）”、“（施設名）”、“（経由地）”の三種類が存在し、それぞれ該当する品詞パターンＩＤとしては、品詞「経由地名」が“Ｐ１＃０”，“Ｐ５＃０”、品詞「施設名」が“Ｐ２＃０”、そして、品詞「経由地」が“Ｐ３＃０”，“Ｐ４＃０”であり、「全系列」では一番目に現われる品詞（文法セット名）としては「場所句」しか存在しないことがわかる。
【０１３０】
この図からわかるように、“階層ハッシュ辞書”とは、図２０に示すように各文法セット別個に展開された階層品詞パターン辞書から、それぞれの文法セットを別個にしてハッシュ辞書を生成したものを指す。
【０１３１】
また、この図２０においても図１９と同じように、別の文法セットとして定義することを表す識別子が「＋Ｐｈｒａｓｅ」であり、その直後の文字列がその文法セットの名前を表す。そして、別の文法セットを利用する場合に、その文法セットを必要とすることを明示する識別子が「−Ｎｅｅｄｓ」であり、その後の文字列が必要な文法セットを表している。
【０１３２】
＜第２の実施形態におけるラティス解析手順＞
図１７は、本実施形態におけるラティス解析方法の処理手順を示すフローチャートである。
【０１３３】
例えば、図１に示す如きシステムの入力部３（例えば、音声認識装置や文字認識装置などの認識装置）からラティス状の認識結果を渡された場合に、図１７の流れに基づいてＣＰＵ１はラティス解析処理を行う。以下は、この図を参照しながら詳細に本発明のラティス解析方法を説明する。
【０１３４】
［ステップＳ２０１］このステップでは、ラティス解釈処理の初期化を行う。初期化処理は、まず、“処理済み文法セット名”と“未処理文法セット名”を記録するリストを準備し、登録されている全ての文法セットを“未処理文法セット名のリスト”に登録する、と云ったことを行う。また、ノードを記録するリストを準備し、ラティス結果の各一単位（単語ラティスなら各単語）をそれぞれノードとして、“ノードリスト”に登録する。
【０１３５】
このノードには、各認識単位の他に、その単位の出現位置毎の品詞系列パターンＩＤの集合と、該当する品詞（文法セット名）に関する情報を持つことができ、ここでは、各認識単位の他に、該当する品詞情報もこのノードに登録する。そして、次のＳ２０２の処理に進む。
【０１３６】
［ステツプＳ２０２］このステップでは、ラティス解釈に適用する文法セットを選択する。適用する文法セットを選択するには、その文法セットを生成するために必要な他の文法セットが既に生成されているということを確認する必要がある。もし、ある文法セットに必要な文法セットが生成されていない状態で、その文法セットの解釈を行ったとすると、その文法セットに対応する系列が生成できない可能性があるからである。
【０１３７】
上記条件を確認するために、図２１にある識別子「−Ｎｅｅｄｓ」以降の文法セット名を参照する。すなわち、「−Ｎｅｅｄｓ」以降の文法セット名からできる“必要文法セット名リスト”と、“処理済み文法セット名リスト”とを比較する。そして、“必要文法セット名リスト”の中身の全てが“処理済み文法セット名リスト”に含まれている場合は、その文法セットは適用可能ということになる。
【０１３８】
よって、最初に適用可能な文法セットは「−Ｎｅｅｄｓ」識別子以降の必要な文法セットが存在しないものとなる。また、全系列を表す文法セットを最後に適用するように、階層ハッシュ辞書の「−Ｎｅｅｄｓ」識別子には依存関係を明確に記しておく必要がある。
【０１３９】
［ステップＳ２０３］このステップでは、登録されたノードを適切に連結する。
【０１４０】
ノードの連結は、例えば、対応する単語（系列）の出現位置に基づいて連結する。例えば、音声ラティスの場合は単語の出現フレームの重なり、離れから単語同士がつながるかどうかの判定を行う。また、無駄な接続を少なくすることにより、より効率的に解釈を行うために接続可能品詞リスト（図２２）などの他の情報を適用してもよい。但し、Ｓ２０２で最後の文法セット（全文系にあたる品詞系列パターン辞書）以外の文法セットを選択している場合は、その文法セットが文章の任意の位置に出現するので、“文頭／文末”に関する条件は適用しないようにする必要がある。
【０１４１】
図２２は、“接続可能品詞リスト”の例を表す。“接続可能品詞リスト”は、品詞テンプレート辞書から連続する２つの品詞（文法セット名）のつながりを抽出したものである。また、二階層品詞テンプレート辞書”から生成する場合は、各文法セットからそれぞれ“接続可能品詞リスト”を作ることができる。
【０１４２】
この図では、図２０から生成できる“接続可能品詞リスト”を示している。この図においても、図２１と同じように別の文法セットとして定義することを表す識別子が「＋Ｐｈｒａｓｅ」であり、その直後の文字列がその文法セットの名前を表す。そして、別の文法セットを利用する場合に、その文法セットを必要とすることを明示する識別子が「−Ｎｅｅｄｓ」であり、その後の文字列が必要な文法セットを表している。
【０１４３】
この図から、例えば「場所句」を適用している場合に、品詞「経由地名」には品詞「経由地」が連結可能であることがわかり、「全系列」を適用している場合に、「場所句」には品詞「ＷＨＥＲＥ」「道程」が連結可能であることがわかる。
【０１４４】
また、Ｓ２０３で適用される“接続可能品詞リスト”はＳ２０２で選択された文法セット名と一致するものでなければならない。
【０１４５】
［ステツプＳ２０４］このステップでは、現在連結されているノードを現在適用されている文法セットについて、該当受理パターン記号列伝搬法を利用して解釈処理を行う。参照するハッシュ辞書は、階層ハッシュ辞書の中で、現在適用している文法セット名に該当するハッシュ辞書を適用する。
【０１４６】
また、既に他の文法セットに関するノードが生成されている場合があるので、初期設定されている品詞辞書の他に、“処理済み文法セット名リスト”に登録されている文法セット名も品詞と同様に参照する必要がある。あるいは、処理済みの文法セットを動的に品詞として登録することが可能ならば、処理済みの文法セット名を品詞名として品詞辞書に登録することによって、“処理済み文法セット名リスト”を参照する必要はなくなる。
【０１４７】
［ステツプＳ２０５］このステップでは、Ｓ２０４で処理された文法セット名を“未処理文法セット名リスト”から削除し、“処理済み文法セット名リスト”に登録する。“処理済みの文法セット”を動的に品詞として登録することが可能ならば、その文法セット名を品詞名として品詞辞書に登録してもよい。
【０１４８】
［ステツプＳ２０６］このステップでは、全ての文法セット（全系列を含む）が処理されたかどうかを判定する。すなわち、“未処理文法セット名リスト”が空かどうかを判定し、空ならば終了し、空でなければ、Ｓ２０７に進む。
【０１４９】
［ステップＳ２０７］このステップでは、Ｓ２０４によって生成された系列のそれぞれを、ノードとして登録する。その際に、次回のステップＳ２０４の処理実行時に参照できるように、生成されたノードがどの文法セットに属しているかを示す情報を各ノードに付与する。
【０１５０】
これは例えば、“処理済みの文法セット”を動的に品詞として登録することが可能ならば、その文法セット名を品詞としてそのノードに付与してもよい。あるいは、文法セット名をそのノードに持たせて、ステップＳ２０４の処理実行の際に、“処理済み文法セット名リスト”から文法セットに対応しているノードであることを認識させてもよい。また、最終的な解釈結果として、単語系列情報と、該当する品詞パターン辞書情報との組合せが必要な場合は、各ノードに該当する品詞パターンを持たせておく必要がある。
【０１５１】
以上が、第２の実施形態におけるラティス解析方法の概要である。
【０１５２】
＜ラティス解析方法の詳細＞
続いて、上述したラティス解析方法について、その具体例をあげて更に詳しく説明する。
【０１５３】
ここでは、ワードスポッティングを行い、単語ラティス形式で認識結果を出力する音声認識システムに、利用者が『西宮インターの前のサービスエリアまでどれくらい』と音声入力した場合での処理例について、説明する。
【０１５４】
本発明のラティス解析方法を適用した解析システム搭載のラティス解釈システムは、この音声認識システムと接続し、認識結果を受け取る。
【０１５５】
また、このラティス解釈システムは図１９で定義された文型辞書を受け付けるように設定されいるものとする。
【０１５６】
この時、図１９の文型辞書から図２０の如きの“階層品詞系列パターン辞書”が生成され、この“階層品詞系列パターン辞書”から図２１の如きの“階層ハッシュ辞書”が構築される。
【０１５７】
［ステップＳ２０１］ここで、図２３に示した認識結果のラティスを受け取ったとする。図２３において“＜”と“＞”とで囲まれた数値がその単語の出現位置を表している。ラティスを受け取った段階で、まず、スポッティングされた単語ラティスから、“ノードリスト”にノードを登録する。
【０１５８】
この実施例では、登録されたノードに対して該当する品詞をノードに登録しておく。また、“未処理文法セット名リスト”と“処理済み文法セット名リスト”を準備し、“階層ハッシュ辞書”から登録されている文法セットの名前を取り出し、“未処理文法セット名リスト”に登録する。
【０１５９】
その結果、“ノードリスト”内容は図２４の如きとなり、“未処理文法セット名リスト”、“処理済み文法セット名リスト”はそれぞれ以下のようになる。
未処理文法セット名リスト処理済み文法セット名リスト
場所句
全系列
［ステップＳ２０２］次に、最初に適用する文法セットを選択する。
【０１６０】
階層ハッシュ辞書（図２１）から、各文法セットの必要文法セット名リストを構築すると、以下のようになる。

このリストと、先ほどの処理済み文法セット名リストを比較し、“必要文法セット名リスト”が空である場所句を適用する文法セットとして選択する。
【０１６１】
［ステップＳ２０３］次に、“ノードリスト”に登録されているノードを、出現位置を基準にして連結する。但し、現在処理している場所句の他に、全系列という文法セットが残っているので、最後に処理している文法セットとはみなさず、文頭、文末については、全てのノードが連結しているとみなす。
【０１６２】
その結果、ラティス構造として図２５の如きの結果が得られたとする。
【０１６３】
この図において、“Ｓｔａｒｔ”は文頭を意味し、また、“Ｅｎｄ”は文末を意味し、丸囲みの文字がノードを示し、ノードに付与する形で添えられている文字列がその品詞を意味する。但し、この図において、文頭（Ｓｔａｒｔ）、文末（Ｅｎｄ）については、全てのノードが連結しているが、図の明瞭化のために、それらの連結は省略する。
【０１６４】
［ステップＳ２０４］次に、図２５で表されたラティスに対して、図２１の中の場所句のハッシュ辞書を適用した該当受理パターン記号列伝搬法を行う。
その結果、生成された場所句は図２６となる。
【０１６５】
この図において、“‐”でつながれている単語は、個々のノードを表し、“）”と“（”で囲まれた文字列は、該当した品詞を表している。
【０１６６】
［ステップＳ２０５］以上で、場所句に対しての処理を終了したので、次に“処理済み文法セット名リスト”、“未処理文法セット名リスト”を更新する。場所句を未処理文法セット名リストから削除し、“処理済み文法セット名リスト”に登録する。
【０１６７】
その結果、各々のリストは以下のようになる。

［ステップＳ２０６］ “未処理文法セット名リスト”に全系列が残っているので、Ｓ２０７の処理に進む。
【０１６８】
［ステップＳ２０７］Ｓ２０４で生成された系列を一つのノードとして、“ノードリスト”に追加する。その時に、新たにできた各ノードが場所句のノードであることも登録する。
その結果、“ノードリスト”は図２７のようになる。そして、Ｓ２０２の処理に進む。
【０１６９】
［ステップＳ２０２］ “未処理文法セット名リスト”に唯一残っている全系列について、実行可能性を調べる。全系列の生成に必要な文法セット名である場所句は、既に生成されているので全系列に関する解釈が可能である。よって、全系列を適用する文法セットとして選択する。
【０１７０】
［ステップＳ２０３］次に、ノードリスト登録されているノードを出現位置を基準にして連結する。但し、今回は、二未処理文法セットリスト”に唯一残っている全系列についての処理であるので、文頭、文末に関する判定も行う。
【０１７１】
その結果、図２８の如きの結果が得られたとする。この図においても、図２５と同様に、“Ｓｔａｒｔ”は文頭を“Ｅｎｄ”は文末を意味し、丸囲みの文字がノードを示し、ノードに付与する形で添えられている文字列がその品詞を意味する。但し、今回は文頭、文末についての連結判定が行われているので、それらの連結も表示している。
【０１７２】
［ステップＳ２０４］次に、図２８で表されたラティスに対して、図２１の中の全系列のハッシュ辞書を適用した該当受理パターン記号列伝搬法を行う。その結果、生成された全系列は図２９となる。
【０１７３】
［ステップＳ２０５］全系列に対しての処理を終了したので、“処理済み文法セット名リスト”、“未処理文法セット名リスト２を更新する。全系列を“未処理文法セット名リスト”から削除し、“処理済み文法セット名リスト”に登録する。
【０１７４】
そして、各々のリストは以下のようになる。

［ステップＳ２０６］ “未処理文法セット名リスト”が空になったので、処理を終了する。
【０１７５】
この段階で生成されている系列（図２９）が、ラティス解釈結果となる。
【０１７６】
以上で本発明によるラティスの解釈が終了し、最終的な解析結果として、
「西宮インター前サービスエリアまでどれくらい」
という階層化を行わない場合と同じ文字系列が得られる。
【０１７７】
ここで、階層化を行わなかった場合との計算量の比較を行ってみる。もし、階層化を行わなかった場合、“品詞系列パターン辞書”は図３０のように展開される。そして、この“品詞系列パターン辞書”から構成されるハッシュ辞書の一番目の出現位置の部分は図３１のようになる。
【０１７８】
尚、この場合のハッシュ辞書は出現位置が最大“１０”となり、各出現位置においても品詞の数が最大“９”個と、ハッシュ辞書の規模が大きくなっている。また、該当受理パターン記号列伝搬法では、該当品詞系列パターンを絞り込むために、ハッシュ辞書の要素同士の“Ａｎｄ／Ｏｒ”論理の集合演算を行うが、集合演算の比較演算の回数は要素数の２乗のオーダーとなる。
【０１７９】
ここで、両者のハッシュ辞書の要素数を比較すると、図３１（最大１４個）と、図２１（最大３個）であり、要素数が大きく異なることがわかる。
【０１８０】
ここで、階層化を行わなかった場合と、行った場合との比較演算回数のオーダーは次のようになる。
【０１８１】
非階層化：Ａ1²×Ｌ
階層化：Ａ2²×Ｌ×Ｒ
ここで、Ａ1，Ａ2はそれぞれの場合におけるハッシュ辞書の最大の要素数であり、ＬはＳ３において連結されたノード間連結数、Ｒは階層化によって行われる該当受理パターン記号列伝搬法の回数である。
【０１８２】
また、第２の実施形態での例における比較演算回数を計算すると、階層化を行っていない場合は、Ａ１＝１４であるから、１４×１４×Ｌ＝１９６Ｌとなり、階層化を行った場合は、Ａ２＝３であるから、３×３×Ｌ×２＝１８Ｌとなる。
これより、比較演算回数は階層化により、大きく減少していることがわかる。また、演算処理に際してのコンピュータのメモリ使用量についても、記憶すべき品詞系列パターンの数は、階層化を行っていない場合は３５個であるのに対し、階層化を行った場合は“場所句”５個、“全系列”３個の計８個となって、大幅に削減出来、それに伴い前述したようにハッシュ辞書の規模も小さくなる。
【０１８３】
また、文法セット表現の数が増加した場合に、特に本発明の効果は大きくなる。例えば、先ほどの例において、場所句の品詞パターン辞書の数が１００個になった場合、階層化を行わない場合は、品詞系列パターン辞書の数が１０２００個、階層化を行った場合は、“場所句”１００個、“全系列”３個の計１０３個となり、その差は更に有意なものとなる。
【０１８４】
また、本実施例において、図２２に示した階層接続可能品詞リストをＳ２０３に利用した場合に、残るリンクを示した図が図３２（場所句を処理文法セットとして使用）、図３３（場所句生成後、全系列を処理文法セットとして使用）である。
【０１８５】
これらの図からわかるように、接続可能品詞リストを使用しない場合と比較して、大きくりンクの数が減少し、該当受理パターン記号列伝搬法による計算量が減少していることがわかる。勿論、階層化を行わなくとも、リンク数は減少するが、階層化を行えば、もとの文法セットそのものが小さくなるために、出現する品詞の数がより少なくなり、接続できる種類も減少すると考えられ、接続可能品詞リストの効果も増すものと考えられる。
【０１８６】
以上から、本発明によって該当受理パターン記号列伝搬法から計算量、メモリのコストを大きく減少させていることがわかる。
【０１８７】
かくして、このように構成された本方式によれば、該当受理パターン記号列伝搬法において、正解となりうるカテゴリ系列の集合が増大した場合おいても、必要なメモリ量を抑制し、また、解析途中の伝搬処理に必要な集合演算の規模が大きくなるため、計算量においても必要なコストを抑制する解釈方法を構成できる。
【０１８８】
尚、上述の例において、文型辞書を「場所句‐全系列」の１階層としているが、依存関係を明記する限り、何階層に分割しても、場所句と同じ位置づけとして別の句を並列に定義しても構わない。また、最終的に部分系列を定義できる品詞系列パターン辞書を生成できる文型辞書であれば、どのような文型定義方法でも構わない。例えば、文型を書き換え規則で定義する場合は該当受理パターン記号列伝搬法の前提である有限展開個数の範囲内であれば、ある特定の非終端記号までを展開した品詞系列パターンを句として定義し、本方式を適用することが可能である。
【０１８９】
また、上述の例においては、制御の単位を単語とし、音声ワードスポッティングをアプリケーションとして記述しているが、本発明の実現形態はこれに限定されるものではなく、該当受理パターン記号列伝搬法が適用できる範囲であれば、そのような実現形態は本発明の趣旨の範囲内である。
【０１９０】
以上のように、本発明の実現形態には上述の例に対して種々の変形が可能であり、それらも趣旨に反しない限り本発明の実施形態の範囲内である。
【０１９１】
以上、第２の実施形態の例は、開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフであって、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つ形式のグラフ構造に変換可能な入力情報を、当該入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列で表される受理可能な受理パターン記号列の集合に基づいて解析することにより、零個以上の尤もらしい受理パターン記号列を出力する情報解析方法において、
前記受理可能な受理パターン記号列のうち、特定の部分系列である部分受理パターン記号列を構成し、また、その部分受理パターン記号列を一つのカテゴリ記号として利用し、受理パターン記号列を再帰的に構成し、階層受理パターン記号列集合を生成する階層受理パターン記号列生成ステップと、
前記階層受理パターン記号列集合の中から、全てのカテゴリ記号が既知である前記部分受理パターン記号列を選択する部分受理パターン記号列選択ステップと、
前記階層部分受理パターン記号列集合の中の、各部分受理パターン記号列が既に選択されたか否かを記憶する処理状態管理ステップと、
この処理状態管理ステップにて記憶した情報から、選択された部分受理パターン記号列が最終の記号列か否かを判定し、最後でない場合は無条件で前記開始ノードと終了ノードとに全てのデータノードを連結して、前記選択された部分受理パターン記号列を受理パターンとした前記解析を実施し、最後の場合は、前記選択された部分受理パターン記号列を受理パターンとした前記解析を実施することにより、尤もらしい部分受理パターン記号列を出力する解析ステップと、
前記収集された尤もらしい部分受理パターン記号列集合と前記各ノードに蓄積された各ノードの受理パターン記号列の情報を用いて前記グラフ構造を探索し、前記尤もらしい受理パターン記号列集合の各要素を生成し得る零個以上の解経路候補の集合を発見し、各経路に存在するノードをマージし、その所属カテゴリを該当する部分受理パターンとする新たなノードを作成する新規ノード生成ステップと、
前記処理状態管理ステップから、全ての部分受理パターン記号列について解析ステップを通過したか否かを判定し、全ての部分受理パターン記号列につて解析ステップを通過した場合に処理を終了する終了条件判定ステップとからなるもので、このような本発明によれば、膨大な数の品詞パターン系列の中に共有する部分品詞パターン系列を先に解釈し、その結果を利用して全体の品詞パターン系列を解釈するため、一回の該当文型伝搬法の対象となる品詞パターン系列の個数を大幅に削減し、計算量、メモリの両面において大幅にコストを削減することができる。
【０１９２】
実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピーディスク、ハードディスクなど）、光ディスク（ＣＤ‐ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納して頒布することもできる。
【０１９３】
【発明の効果】
以上説明したように、第１の本発明によれば、展開すれば極めて多数の入力要素系列候補を導く入力ラティス様のデータを構築し得る入力認識結果の解析において、与えられた受理可能構文規則を満足する尤もらしい入力要素カテゴリ系列を高速かつ少ないメモリ要求量で導くことが可能となる、展開すれば極めで多数の入力要素系列候補を導く入力ラティス様のデータを構築し得る入力認識結果の解析において、与えられた受理可能構文規則を満足する尤もらしい入力要素系列を高速かつ少ないメモリ要求量で導くことが可能となる、等の実用上多大な効果が奏せられる。
【０１９４】
また、第２の本発明によれば、膨大な数のカテゴリ系列の中に共有する部分品詞パターン系列を先に解釈し、その結果を利用して全体のカテゴリ系列を解釈するため、一回の該当文型伝搬法の対象となるカテゴリ系列の個数を大幅に削減し、計算量、メモリの両面において大幅にコストを削減することができる。
【図面の簡単な説明】
【図１】本発明を説明するための図であって、第１の実施形態における本発明システムの概略的構成を示すブロック図。
【図２】本発明を説明するための図であって、第１の実施形態における本発明システムの全体的な処理の流れを示すフローチャート。
【図３】本発明を説明するための図であって、第１の実施形態における本発明システムでのラティス解析処理（Ｓ３）の概要を説明するフローチャート。
【図４】本発明を説明するための図であって、本発明における第１の実施形態におけるラティス解析処理（Ｓ３）での処理の詳細を示すフローチャート。
【図５】図４のフローチャートの部分拡大図。
【図６】図４のフローチャートの部分拡大図。
【図７】図４のフローチャートの部分拡大図。
【図８】本発明を説明するための図であって、第１の実施形態において説明に用いる簡単化されたワードスポッティング結果の例を示す図。
【図９】ワードスポッティング結果から構築された単語ラティスの例を示す図。
【図１０】単語ラティスの各ノードのデータ構造を示す図。
【図１１】初期設定処理（Ｓ３１）終了時の単語ラティスのノードの例を示す図。
【図１２】本発明を説明するための図であって、第１の実施形態において用いる品詞辞書の例を示す図。
【図１３】本発明を説明するための図であって、第１の実施形態において用いる文型辞書の例を示す図。
【図１４】本発明を説明するための図であって、第１の実施形態において用いる品詞系列パターン辞書の例を示す図。
【図１５】本発明を説明するための図であって、第１の実施形態において用いる品詞系列ハッシュ辞書の例を示す図。
【図１６】ワードスポッティング結果の例を示す図。
【図１７】本発明を説明するための図であって、第２の実施形態における本発明システムの全体的な処理の流れを示すフローチャート。
【図１８】本発明を説明するための図であって、該当文型伝搬法における文型辞書例を示す図。
【図１９】本発明を説明するための図であって、第２の実施形態において用いる文型辞書例を示す図。
【図２０】本発明を説明するための図であって、第２の実施形態において用いる階層品詞系列パターン辞書例を示す図。
【図２１】本発明を説明するための図であって、第２の実施形態において用いる階層ハッシュ辞書例を示す図。
【図２２】本発明を説明するための図であって、第２の実施形態において用いる階層接続可能品詞リスト例を示す図。
【図２３】本発明を説明するための図であって、第２の実施形態において得られた入力認識結果の例を示す図。
【図２４】本発明を説明するための図であって、第２の実施形態における初期ノードリスト例を示す図。
【図２５】本発明を説明するための図であって、場所句を選択時に連結されたラティスの例を示す図。
【図２６】本発明を説明するための図であって、第２の実施形態において生成された場所句の例を示す図。
【図２７】本発明を説明するための図であって、第２の実施形態における場所句登録後のノードリストの例を示す図。
【図２８】本発明を説明するための図であって、第２の実施形態において全系列を選択した時に連結されるラティスの例を示す図。
【図２９】本発明を説明するための図であって、第２の実施形態において生成された全系列の例を示す図。
【図３０】本発明を説明するための図であって、該当文型伝搬法における品詞系列パターン辞書例を示す図。
【図３１】本発明を説明するための図であって、該当文型伝搬法におけるハッシュ辞書例を示す図。
【図３２】本発明を説明するための図であって、場所句を選択時に接続可能品詞リストを適用して連結されたラティスの例を示す図。
【図３３】本発明を説明するための図であって、全系列を選択時に接続可能品詞リストを適用して連結されるラティスの例を示す図。
【符号の説明】
１…ＣＰＵ（プロセッサ）
２…メインメモリ
３…入力部
４…出力部
５…大容量外部記憶装置
６…ドライブ
７…通信部

Claims

開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフであって、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つようなグラフ構造に変換可能な入力情報を、当該入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列で表される受理可能な受理パターン記号列の集合に基づいて解析し、零個以上の尤もらしい受理パターン記号列を出力する情報解析方法において、
前記開始ノードもしくは終了ノードから前記グラフ構造の解析を開始する解析開始ノード決定ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したか否かを判定するノード解析網羅判定ステップと、
あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行によって蓄積されたそのノードへの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、
解析が終了したかどうかを判定する解析終了判定ステップと、
解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて前記解析結果の出力である零個以上の尤もらしい受理パターン記号列を収集し、出力する受理パターン記号列収集・出力ステップと、
を具備したことを特徴とする情報解析方法。
開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフであって、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つようなグラフ構造に変換可能な入力情報を解析し、零個以上の尤もらしい解経路候補を出力する情報解析方法において、
前記入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列として与えられた受理可能な受理パターン記号列の集合のうち、前記開始ノードもしくは終了ノードから前記グラフ構造の解析を開始する解析開始ノード決定ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したかどうかを判定するノード解析網羅判定ステップと、
あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行によって蓄積されたそのノードへの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、
解析が終了したかどうかを判定する解析終了判定ステップと、解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて本方法の出力である零個以上の尤もらしい受理パターン記号列を収集する受理パターン記号列収集ステップと、
前記収集された尤もらしい受理パターン記号列集合と前記各ノードに蓄積された各ノードの受理パターン記号列の情報を用いて前記グラフ構造を探索し、前記尤もらしい受理パターン記号列集合の各要素を生成し得る零個以上の解経路候補の集合を発見し出力する解経路候補検索・出力ステップと、
を具備したことを特徴とする情報解析方法。
前記受理可能な受理パターン記号列の集合を元に生成され、前記各終端記号または前記各カテゴリ記号のうちのある記号であるインデックス記号が前記受理可能な受理パターン記号列の集合に含まれる各受理パターン記号列における出現箇所ＩＤと、前記インデックス記号をキーにして、前記インデックス記号が前記出現箇所ＩＤの箇所に出現する可能性のある受理パターン記号列の集合を参照できる受理パターン系列ハッシュ辞書を装備し、
前記受理パターン記号列計算・蓄積ステップの各ノードにおける受理パターン記号列の計算において、前記接続するノードから伝播された受理パターン記号列と、前記ノードのその解析における出現箇所ＩＤと前記ノードの表象する終端記号または前記終端記号が所属するカテゴリ記号をキーに受理パターン系列ハッシュ辞書を参照することで得られるその解析のそのノードにおいて出現する可能性のある受理パターン記号列の集合との積集合を計算し前記そのノードにおける受理パターン記号列の計算することを特徴とする請求項１または２記載の情報解析方法。
前記各終端記号を自然言語の単語とし、前記各カテゴリ記号を各単語の所属する品詞とし、音声ワードスポッティング装置または音声認識装置から前記入力情報として音声認識結果単語候補を与えられ、音声認識結果の後処理として言語処理を施し、尤もらしい品詞系列の集合または尤もらしい単語系列の集合を出力することを特徴とする請求項１乃至請求項３いずれか１項記載の情報解析方法。
コンピュータにて読み込み可能な記憶媒体に記憶され、コンピュータにて実行可能なプログラムであり、開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフであって、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つようなグラフ構造に変換可能な入力情報を、前記入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列で表される受理可能な受理パターン記号列の集合に基づいて解析し、零個以上の尤もらしい受理パターン記号列を出力するものとして機能させるプログラムにおいて、
前記開始ノードもしくは終了ノードから前記グラフ構造の解析を開始する解析開始ノード決定ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したか否かを判定するノード解析網羅判定ステップと、
あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行によって蓄積されたそのノードへの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、
解析が終了したか否かを判定する解析終了判定ステップと、
解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて本方法の出力である零個以上の尤もらしい受理パターン記号列を収集し出力する受理パターン記号列収集・出力ステップと、
を具備したことを特徴とするプログラムを記憶した媒体。
コンピュータにて読み込み可能な記憶媒体に記憶され、コンピュータにて実行可能なプログラムであり、開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフであって、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つようなグラフ構造に変換可能な入力情報を解析し、零個以上の尤もらしい解経路候補を出力するものとして機能させるプログラムにおいて、
前記入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列として与えられた受理可能な受理パターン記号列の集合のうち、前記開始ノードもしくは終了ノードから、前記グラフ構造の解析を開始する解析開始ノード決定ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したかどうかを判定するノード解析網羅判定ステップと、
あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行によって蓄積されたそのノードへの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、
解析が終了したか否かを判定する解析終了判定ステップと、
解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて解析結果の出力である尤もらしい受理パターン記号列を収集する受理パターン記号列収集ステップと、
前記収集された尤もらしい受理パターン記号列集合と前記各ノードに蓄積された各ノードの受理パターン記号列の情報を用いて前記グラフ構造を探索し、前記尤もらしい受理パターン記号列集合の各要素を生成し得る解経路候補の集合を発見し出力する解経路候補検索・出力ステップと、
を具備したことを特徴とするプログラムを記憶した媒体。
前記受理可能な受理パターン記号列の集合を元に生成され、前記各終端記号または前記各カテゴリ記号のうちのある記号であるインデックス記号が前記受理可能な受理パターン記号列の集合に含まれる各受理パターン記号列における出現箇所ＩＤと、前記インデックス記号をキーにして、前記インデックス記号が前記出現箇所ＩＤの箇所に出現する可能性のある受理パターン記号列の集合を参照できる受理パターン系列ハッシュ辞書を装備し、前記受理パターン記号列計算・蓄積ステップの各ノードにおける受理パターン記号列の計算において、
前記接続するノードから伝播された受理パターン記号列と、前記ノードのその解析における出現箇所ＩＤと前記ノードの表象する終端記号または前記終端記号が所属するカテゴリ記号をキーに受理パターン系列ハッシュ辞書を参照することで得られるその解析のそのノードにおいて出現する可能性のある受理パターン記号列の集合との積集合を計算し前記そのノードにおける受理パターン記号列の計算することを特徴とするプログラムを記憶した請求項５または６いずれか１項記載の媒体。
開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフであって、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つ形式のグラフ構造に変換可能な入力情報を、当該入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列で表される受理可能な受理パターン記号列の集合に基づいて解析することにより、尤もらしい受理パターン記号列を出力する情報解析方法において、
前記受理可能な受理パターン記号列のうち、特定の部分系列である部分受理パターン記号列を構成し、また、その部分受理パターン記号列を一つのカテゴリ記号として利用し、受理パターン記号列を再帰的に構成し、階層受理パターン記号列集合を生成する階層受理パターン記号列生成ステップと、
前記階層受理パターン記号列集合の中から、全てのカテゴリ記号が既知である前記部分受理パターン記号列を選択する部分受理パターン記号列選択ステップと、
前記階層部分受理パターン記号列集合の中の、各部分受理パターン記号列が既に選択されたか否かを記憶する処理状態管理ステップと、
この処理状態管理ステップにて記憶した情報から、選択された部分受理パターン記号列が最終の記号列か否かを判定し、最後でない場合は無条件で前記開始ノードと終了ノードとに全てのデータノードを連結して、前記選択された部分受理パターン記号列を受理パターンとした前記解析を実施し、最後の場合は、前記選択された部分受理パターン記号列を受理パターンとした前記解析を実施することにより、尤もらしい部分受理パターン記号列を出力する解析ステップと、
前記収集された尤もらしい部分受理パターン記号列集合と前記各ノードに蓄積された各ノードの受理パターン記号列の情報を用いて前記グラフ構造を探索し、前記尤もらしい受理パターン記号列集合の各要素を生成し得る解経路候補の集合を見つけ、各経路に存在するノードをマージし、その所属カテゴリを該当する部分受理パターンとする新たなノードを作成する新規ノード生成ステップと、
前記処理状態管理ステップでの記憶内容から、全ての部分受理パターン記号列について解析ステップを通過したか否かを判定し、全ての部分受理パターン記号列につて解析ステップを通過した場合に処理を終了する終了条件判定ステップと、
を具備することを特徴とする情報解析方法。
前記受理パターン記号列を出力する情報解析は、
前記開始ノードもしくは終了ノードから前記グラフ構造の解析を開始する解析開始ノード決定ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したかどうかを判定するノード解析網羅判定ステップと、
あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行により蓄積されたそのノードへの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、
解析が終了したかどうかを判定する解析終了判定ステップと、
解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて前記解析結果より見つけた前記尤もらしい受理パターン記号列を収集し出力する受理パターン記号列収集・出力ステップと、
を備えたことを特徴とする請求項８記載の情報解析方法。
開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフであって、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つようなグラフ構造に変換可能な入力情報を、当該入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列で表される受理可能な受理パターン記号列の集合に基づいて解析することにより、尤もらしい受理パターン記号列と、前記尤もらしい受理パターン記号列に対応する一つ以上の解経路候補を出力する情報解析方法において、
前記受理可能な受理パターン記号列のうち、特定の部分系列である部分受理パターン記号列を構成し、また、その部分受理パターン記号列を一つのカテゴリ記号として利用し、受理パターン記号列を再帰的に構成し、階層受理パターン記号列集合を生成する階層受理パターン記号列生成ステップと、
前記階層受理パターン記号列集合の中から、全てのカテゴリ記号が既知である部分受理パターン記号列を選択する部分受理パターン記号列選択ステップと、
前記階層部分受理パターン記号列集合の中の、各部分受理パターン記号列が既に選択されたか否かを記憶する処理状態管理ステップと、
前記処理状態管理ステップでの記憶内容から、選択された部分受理パターン記号列が最終の記号列か否かを判定し、最後でない場合は、無条件で前記開始ノードと終了ノードとに全てのデータノードを連結して、前記選択された部分受理パターン記号列を受理パターンとした前記情報解析手法を適用し、最後の場合は、前記選択された部分受理パターン記号列を受理パターンとした前記解析を実施して解経路候補の集合を出力する解析ステップと、
前記解析ステップの出力である解経路候補の集合の各経路に存在するノードをマージし、その所属カテゴリを該当する部分受理パターンとする新たなノードを作成する新規ノード生成ステップと、
前記処理状態管理ステップから、全ての部分受理パターン記号列について解析ステップを通過したか否かを判定し、全ての部分受理パターン記号列につて解析ステップを通過した場合に、処理を終了する終了条件判定ステップと、
を具備することを特徴とする情報解析方法。
前記受理パターン記号列と対応する解経路候補を出力する情報解析は、
前記開始ノードもしくは終了ノードから前記グラフ構造の解析を開始する解析開始ノード決定ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したかどうかを判定するノード解析網羅判定ステップと、
あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行によって蓄積されたそのノードへの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、
解析が終了したかどうかを判定する解析終了判定ステップと、
解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて前記解析結果としての出力である尤もらしい受理パターン記号列を収集し出力する受理パターン記号列収集・出力ステップと、
前記収集された尤もらしい受理パターン記号列集合と前記各ノードに蓄積された各ノードの受理パターン記号列の情報を用いて前記グラフ構造を探索し、前記尤もらしい受理パターン記号列集合の各要素を生成し得る解経路候補の集合を発見し出力する解経路候補検索出力ステップと、
を備えることを特徴とする請求項９に記載の情報解析方法。
請求項１０または請求項１１いずれか１項記載の情報解析方法において、
その解析ステップは、
前記受理可能な部分受理パターン記号列の集合を元に生成され、前記各終端記号または前記各カテゴリ記号のうちのある記号であるインデックス記号が前記受理可能な部分受理パターン記号列の集合に含まれる各部分受理パターン記号列における出現箇所ＩＤと、前記インデックス記号をキーにして、前記インデックス記号が前記出現箇所ＩＤの箇所に出現する可能性のある部分受理パターン記号列の集合を参照できる受理パターン系列ハッシュ辞書を装備し、前記受理パターン記号列計算・蓄積ステップの各ノードにおける受理パターン記号列の計算において、前記接続するノードから伝播された受理パターン記号列と、前記ノードのその解析における出現箇所ＩＤと前記ノードの表象する終端記号または前記終端記号が所属するカテゴリ記号をキーに受理パターン系列ハッシュ辞書を参照することで得られるその解析のそのノードにおいて出現する可能性のある受理パターン記号列の集合との積集合を計算し前記そのノードにおける受理パターン記号列を計算することを特徴とする情報解析方法。
前記各終端記号を自然言語の単語とし、前記各カテゴリ記号を各単語の所属する品詞とし、音声ワードスポッティング装置または音声認識装置から前記入力情報として音声認識結果単語候補を与えられ、音声認識結果の後処理として言語処理を施し、尤もらしい品詞系列の集合または尤もらしい単語系列の集合を出力することを特徴とする請求項８または請求項９または請求項１０または請求項１１または請求項１２いずれか１項記載の情報解析方法。
コンピュータにて読み込み可能な記憶媒体に記憶され、コンピュータにて実行可能なプログラムであり、
開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフとすると共に、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つようなグラフ構造に変換可能な入力情報を、前記入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列で表される受理可能な受理パターン記号列の集合に基づいて解析し、尤もらしい受理パターン記号列を出力する情報解析プログラムにおいて、
前記受理可能な受理パターン記号列のうち、特定の部分系列である部分受理パターン記号列を構成し、また、その部分受理パターン記号列を一つのカテゴリ記号として利用し、受理パターン記号列を再帰的に構成し、階層受理パターン記号列集合を生成する階層受理パターン記号列生成ステップと、
前記階層受理パターン記号列集合の中から、全てのカテゴリ記号が既知である前記部分受理パターン記号列を選択する部分受理パターン記号列選択ステップと、
前記階層部分受理パターン記号列集合の中の、各部分受理パターン記号列が既に選択されたかどうかを記憶する処理状態管理ステップと、
前記処理状態管理ステップでの記憶内容から、選択された部分受理パターン記号列が最終の記号列か否かを判定し、最後でない場合は、無条件で前記開始ノードと終了ノードとに全てのデータノードを連結して、前記選択された部分受理パターン記号列を受理パターンとした前記情報解析手法を適用し、最後の場合は、前記選択された部分受理パターン記号列を受理パターンとして前記解析を実施することにより、尤もらしい部分受理パターン記号列を出力する解析ステップと、
前記収集された尤もらしい部分受理パターン記号列集合と前記各ノードに蓄積された各ノードの受理パターン記号列の情報を用いて前記グラフ構造を探索し、前記尤もらしい受理パターン記号列集合の各要素を生成し得る解経路候補の集合を発見し、各経路に存在するノードをマージし、その所属カテゴリを該当する部分受理パターンとする新たなノードを作成する新規ノード生成ステップと、
前記処理状態管理ステップでの記憶内容から、全ての部分受理パターン記号列について解析ステップを通過したか否かを判定し、全ての部分受理パターン記号列につて解析ステップを通過した場合に、処理を終了する終了条件判定ステップと、
を具備することを特徴とする情報解析プログラムを記憶した媒体。
コンピュータにて読み込み可能な記憶媒体に記憶され、コンピュータにて実行可能なプログラムであり、
開始ノードと終了ノードと一つ以上のデータノードから構成される有向グラフとすると共に、各ノードが他の一つ以上のノードと順序関係を持つ有向枝で連結され、一つ以上の開始ノードから終了ノードに到達し得る経路である解経路候補を持つようなグラフ構造に変換可能な入力情報を、当該入力情報の各要素の表象となり得る終端記号の集合と前記各終端記号が所属するカテゴリであるカテゴリ記号の集合の和集合の要素の系列で表される受理可能な受理パターン記号列の集合に基づいて解析することにより、尤もらしい受理パターン記号列と、前記尤もらしい受理パターン記号列に対応する一つ以上の解経路候補を出力する情報解析プログラムにおいて、
前記受理可能な受理パターン記号列のうち、特定の部分系列である部分受理パターン記号列を構成し、また、その部分受理パターン記号列を一つのカテゴリ記号として利用し、受理パターン記号列を再帰的に構成し、階層受理パターン記号列集合を生成する階層受理パターン記号列生成ステップと、
前記階層受理パターン記号列集合の中から、全てのカテゴリ記号が既知である部分受理パターン記号列を選択する部分受理パターン記号列選択ステップと、
前記階層部分受理パターン記号列集合の中の、各部分受理パターン記号列が既に選択されたか否かを記憶する処理状態管理ステップと、
前記処理状態管理ステップでの記憶内容から、選択された部分受理パターン記号列が最終の記号列か否かを判定し、最後でない場合は、無条件で前記開始ノードと終了ノードとに全てのデータノードを連結して、前記選択された部分受理パターン記号列を受理パターンとした前記情報解析手法を適用し、最後の場合は、前記選択された部分受理パターン記号列を受理パターンとした前記情報解析を実施して解経路候補の集合を出力する解析ステップと、
前記解析ステップの出力である解経路候補の集合の各経路に存在するノードをマージし、その所属カテゴリを該当する部分受理パターンとする新たなノードを作成する新規ノード生成ステップと、
前記処理状態管理ステップでの記憶内容から、全ての部分受理パターン記号列について解析ステップを通過したか否かを判定し、全ての部分受理パターン記号列につて解析ステップを通過した場合に、処理を終了する終了条件判定ステップと、
を具備することを特徴とする情報解析プログラムを記憶した媒体。
前記受理パターン記号列と対応する解経路候補を出力する解析が、
前記開始ノードもしくは終了ノードから前記グラフ構造の解析を開始する解析開始ノード決定ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したかどうかを判定するノード解析網羅判定ステップと、
あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行によって蓄積されたそのノードへの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、
解析が終了したか否かを判定する解析終了判定ステップと、
解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて解析結果の出力である尤もらしい受理パターン記号列を収集し出力する受理パターン記号列収集・出力ステップと、
前記収集された尤もらしい受理パターン記号列集合と前記各ノードに蓄積された各ノードの受理パターン記号列の情報を用いて前記グラフ構造を探索し、前記尤もらしい受理パターン記号列集合の各要素を生成し得る解経路候補の集合を発見し出力する解経路候補検索出力ステップと、
を備えた情報解析方法であることを特徴とする請求項１５に記載の情報解析方法として動作させるプログラムを記憶した媒体。
前記受理パターン記号列を出力する解析が、
前記開始ノードもしくは終了ノードから前記グラフ構造の解析を開始する解析開始ノード決定ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードが解経路候補の開始点または終了点からある順番で解経路候補に含まれる場合にとり得る受理パターン記号列を計算してノードに記録する受理パターン記号列計算・蓄積ステップと、
前記グラフ構造の各ノードの解析の途中経過においてそのノードに対する解析の経路パターンを網羅したか否かを判定するノード解析網羅判定ステップと、
あるノードについてそのノードの解析経路パターンが網羅された場合に零回以上の受理パターン記号列計算・蓄積ステップの実行によって蓄積されたそのノードへの受理パターン記号列を解析においてそのノードの次に接続されている一個以上のノードに伝播させる受理パターン記号列伝播ステップと、
解析が終了したか否かを判定する解析終了判定ステップと、
解析が終了した際に前記開始ノードもしくは終了ノードに蓄積されている受理パターン記号列情報を用いて解析結果の出力である尤もらしい受理パターン記号列を収集し出力する受理パターン記号列収集・出力ステップと、
を備えることを特徴とする請求項１４に記載の情報解析プログラムを記憶した媒体。
前記解析ステップは、前記受理可能な部分受理パターン記号列の集合を元に生成され、前記各終端記号または前記各カテゴリ記号のうちのある記号であるインデックス記号が前記受理可能な部分受理パターン記号列の集合に含まれる各部分受理パターン記号列における出現箇所ＩＤと、前記インデックス記号をキーにして、前記インデックス記号が前記出現箇所ＩＤの箇所に出現する可能性のある部分受理パターン記号列の集合を参照できる受理パターン系列ハッシュ辞書を装備し、前記受理パターン記号列計算・蓄積ステップの各ノードにおける受理パターン記号列の計算において、前記接続するノードから伝播された受理パターン記号列と、前記ノードのその解析における出現箇所ＩＤと前記ノードの表象する終端記号または前記終端記号が所属するカテゴリ記号をキーに受理パターン系列ハッシュ辞書を参照することで得られるその解析のそのノードにおいて出現する可能性のある受理パターン記号列の集合との積集合を計算し前記そのノードにおける受理パターン記号列を計算することを特徴とする請求項１６または請求項１７いずれか１項に記載の解析プログラムを記憶した媒体。