JP3765799B2

JP3765799B2 - 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム

Info

Publication number: JP3765799B2
Application number: JP2003150598A
Authority: JP
Inventors: 美穂子北村
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2003-05-28
Filing date: 2003-05-28
Publication date: 2006-04-12
Anticipated expiration: 2023-05-28
Also published as: JP2004355204A; US20040243394A1

Description

【０００１】
【発明の属する技術分野】
本発明は、自然言語処理装置、自然言語処理方法及び自然言語処理プログラムに関し、例えば、事例べース（過去の解析結果や翻訳結果を利用した）の構文解析処理や翻訳処理に適用し得るものである。
【０００２】
【従来の技術】
【０００３】
【非特許文献１】
山田寛康、松本裕治共著、「ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅを用いた決定性上昇型構文解析」、研究報告「自然言語処理」、Ｎｏ．１４９−００９、２００２年５月２３日
【０００４】
【特許文献１】
特開平７−２９５９９１号公報
【０００５】
【特許文献２】
特開２００２−４１５１２号公報
機械翻訳等で利用される自然言語の構文解析技術の進歩は目覚ましい。従来型の構文解析は、構文的な情報を含んだ辞書と文法規則を予め人間が作成しておき、それをチャート法やアーリー法などのパーザを利用することにより、文の解析結果を求めていた。しかし、最近では、大量の文書の構文解析結果があれば、その構文解析結果（学習データ）を再現するための規則を自動的に作成し、以降は、その規則に基づいて構文解析結果を求める機械学習の手法を利用した構文解析システムの研究が進んでいる（非特許文献１）。
【０００６】
また、大量の文書の構文解析結果を蓄積しておき、入力された文の構文解析結果と蓄積された構文解析結果とを比較し、その比較結果から正しい解析結果を求めるような方法も提案されている（特許文献１）。
【０００７】
上述した過去の事例を利用する技術は、辞書や文法の人手による作成が不要であり、また、構文解析の正解結果を多く用意すればするほど解析精度が良くなるという利点がある。
【０００８】
さらに、事例を利用した技術は、検索や翻訳等の自然言語技術に応用しやすいという利点がある。特許文献１の記載方法においては、事例として対訳文書を利用することによって機械翻訳に応用している。この場合は、大量の対訳文書の構文解析結果を蓄積しておき、入力文と同言語の構文解析結果と入力文の構文解析結果とを比較し、最も類似する構文解析結果を選択し、その構文解析結果の相手言語側の構文解析結果を参照することにより、適切な翻訳結果を求めるという手法を採用している。
【０００９】
しかし、非特許文献１の方法は、機械学習を利用しているため、予め作成しておく学習データ（規則）は、人間にとって理解不能であり、規則に手を加えることはできない。つまり、解析結果がより良くなるように規則を人手で調整することはできない。また、規則が理解不能であるため、どんな解析結果が得られるかの推測が難しい。さらに、正解例が増えた場合には、学習し直し、規則を作り直す必要があるが、規則の再学習には膨大な時間がかかる。
【００１０】
一方、特許文献１の方法は、入力文に最も類似する過去の構文解析結果から入力文中に含まれる語彙の用法を知ることにより構文解析支援を行うという提案であり、入力文の構文解析を全自動で行う方法ではない。また、利用する過去の構文解析結果も最も類似する１文のみである。
【００１１】
さらに、特許文献１の提案では、比較の手法（照合手段）において、一文ごとに照合するという手法であるため、用例が何万文と大量になった場合、その比較において実用レベルの速度が得られないという課題も有する。
【００１２】
上記の課題を解決するために、特許文献２では、既存対訳文書から翻訳パターン規則を作成し、それらを辞書として蓄積しておき、その辞書を利用して構文解析することにより、既存文書を模倣した翻訳結果を得ることができる（同様の手法で構文解析処理のみを行うこともできる）方法を提案している。
【００１３】
【発明が解決しようとする課題】
特許文献２の提案方法によって、既存対訳文書から作成された翻訳パターン規則は、入力文に応じて、適宜、構文解析結果に含まれるが、作成された翻訳パターン規則は、全て同列に扱われるものであった。
【００１４】
このように、作成された翻訳パターン規則が全て同列に扱われるため、複数の構文解析結果候補間の順位付けに、翻訳パターン規則の作成に供した文の情報が反映されず、最適でない構文解析結果候補が最適と判断される恐れがある。
【００１５】
仮に、翻訳パターン規則の作成に供した文が、構文解析対象の文として入力された場合において、作成された翻訳パターン規則を適用した構文解析結果候補以外の構文解析結果候補が生じても、必ずしも前者を有効とすることができなかった。
【００１６】
そのため、自然言語処理パターンの作成に供した文の情報も、入力文に対する構文解析などの自然言語処理に反映でき、最適な解析結果が得られる自然言語処理装置、自然言語処理方法及び自然言語処理プログラムが望まれている。
【００１７】
【課題を解決するための手段】
かかる課題を解決するため、第１の本発明は、少なくともパターン名及びパターン構成要素を有するパターン規則を利用して、少なくとも入力文の構文解析結果を得る処理を伴う自然言語処理装置において、同一文に同時に適用する可能性の高さを示す文ＩＤが付与されたパターン規則を格納している文ＩＤ付パターン規則辞書と、解析対象の入力文を形態素解析する形態素解析手段と、形態素解析結果に対し、上記文ＩＤ付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文ＩＤが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する構文解析手段とを有することを特徴とする。
【００１８】
また、第２の本発明は、少なくともパターン名及びパターン構成要素を有するパターン規則を利用して、少なくとも入力文の構文解析結果を得る処理を伴う自然言語処理方法において、同一文に同時に適用する可能性の高さを示す文ＩＤが付与されたパターン規則を格納している文ＩＤ付パターン規則辞書を予め用意しておくと共に、解析対象の入力文を形態素解析する形態素解析工程と、形態素解析結果に対し、上記文ＩＤ付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文ＩＤが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する構文解析工程とを有することを特徴とする。
【００１９】
さらに、第３の本発明の自然言語処理プログラムは、第２の本発明の自然言語処理方法を、コンピュータが実行可能なコードで記述していることを特徴とする。
【００２０】
【発明の実施の形態】
（Ａ）第１の実施形態
以下、本発明による自然言語処理装置、自然言語処理方法及び自然言語処理プログラムの第１の実施形態を図面を参照しながら説明する。第１の実施形態は、入力文に対する構文解析結果を得るものである。
【００２１】
（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の自然言語処理装置（構文解析装置）の機能的構成を示すブロック図である。なお、実際上は、例えば、パソコンなどの情報処理装置上に、第１の実施形態の自然言語処理プログラム（固定データを含む）がローディングされて、第１の実施形態の自然言語処理装置が構築されるが（なお、専用装置として構築しても良い）、機能的には、図１に示すように表すことができる。
【００２２】
図１において、第１の実施形態の自然言語処理装置は、大きくは、入出力部１．１、依存構造解析部１．２、パターン規則辞書１．３から構成されている。
【００２３】
入出力部１．１は、キーボードやファイル読込装置等の入力装置１．０２から、入力文を入力したり、入力文の構文解析結果から得られたパターン規則辞書の修正情報を入力したり、文ＩＤ付きパターン規則辞書１．３１を登録入力したりする入力処理部１．１２と、構文解析結果をディスプレイやプリンタやファイル格納装置等の出力装置１．０１に出力する出力処理部１．１１とから構成されている。
【００２４】
依存構造解析部１．２は、入力文の構文解析結果を求めるための処理部である。依存構造解析部１．２は、単語区切り及び品詞推定を行う形態素解析部１．２１、及び、区切られた単語の依存構造を求める構文解析部１．２２から構成されている。
【００２５】
パターン規則辞書１．３は、文ＩＤ付きパターン規則辞書１．３１と汎用パターン規則１．３２とから構成されている。
【００２６】
文ＩＤ付きパターン規則辞書１．３１は、ユーザが参考にしたい過去の文書の構文解析結果から作成されたパターン規則を格納しており、どの文書中のどの文に由来するかを示すための文の識別情報（以下、文ＩＤと呼ぶ）を持っている（後述する図５参照）。なお、同一の文ＩＤを有する複数のパターン規則は、同一の文をベースに形成されたものである。文ＩＤ付きパターン規則辞書１．３１に格納されているパターン規則は、例えば、特許文献２に記載の作成方法で作成されたものであり、その際、ユーザによって、又は、当該装置が自動的に文ＩＤを付与したものである。
【００２７】
一方、汎用パターン規則辞書１．３２は、特定の文に依存しない汎用的なパターン規則（汎用パターン規則）を格納しており、人手によって作成される（後述する図６参照）。なお、汎用パターン規則には、文ＩＤは付与されていない。
【００２８】
（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の自然言語処理装置の動作（第１の実施形態の自然言語処理方法）を説明する。以下では、適宜、入力文書に“ｗｏｒｋａ４０ｈｏｕｒｗｅｅｋ”という文が含まれ（図３の５．１参照）、この文の構文解析を行うとして具体的な説明も加える。
【００２９】
図２は、第１の実施形態の自然言語処理装置の動作（構文解析処理）を示すフローチャートである。
【００３０】
まず、ユーザは、キーボード等の入力装置１．０２を用いて、入力処理部１．１２より入力文を入力する（Ｓ３１）。入力処理部１．１２は、その入力文を形態素解析部１．２１に渡す。形態素解析部１．２１は、その文を形態素解析し（Ｓ３２）、形態素解析結果を構文解析部１．２２に渡す。次に、構文解析処理部１．２２は、形態素解析結果を構文解析する（Ｓ３３）。なお、ここでの形態素解析処理及び構文解析処理は、以下の通りである。
【００３１】
形態素解析部１．２１では、文を単語単位に区切り、品詞や変化形の情報を付与する（特許文献２記載のものと同様である）。形態素解析結果は、ルートノードを”Ｎｏｄｅ”とした木構造で表現される。複数候補がない形態素の場合には、ルートノードの直下に各形態素の標準形と品詞や変化形などの形態素情報とが付与される。一方、複数候補がある形態素の場合には、ｏｒノードの子ノードとして各形態素候補の情報が付与される。図４は、上述した入力文“ｗｏｒｋａ４０ｈｏｕｒｗｅｅｋ”に対する形態素解析結果を示している。なお、形態素解析結果に複数候補が存在する場合には、図４のように全ての候補を求める（符号４．１参照）。なお、図４などにおける“ｐｏｓ＝”は品詞情報を表しており、“ｎ”は名詞、“ｖ”は動詞、“ａｒｔ”は冠詞である。
【００３２】
構文解析部１．２２は、パターン規則辞書１．３に格納されているパターン規則を、形態素解析結果にボトムアップに適用させて、入力文を構成するパターン規則の集合（木構造）を求めることによって構文解析する。これは、上記特許文献２のものとほぼ同様である。但し、上記特許文献２のものでは、「パターンの評価処理」を行っているが、第１の実施形態では、後述するように、構文解析結果候補の競合を解消しているので、上記特許文献２のような「パターンの評価処理」は実行しない。
【００３３】
図５は、文ＩＤ付きパターン規則辞書１．３１の格納例を示す説明図であり、上述した入力文例に関係するパターン規則６．１を示している。パターン規則６．１には、上述したように、文ＩＤ６．２が対応付けられている。図６は、汎用パターン規則辞書１．３２の格納例を示す説明図であり、上述した入力文例に関係するパターン規則７．１を示している。
【００３４】
両パターン規則６．１及び７．１は、同様な表記方法で表記されており、構文解析では区別することなく、適用される。パターン規則は、［言語名：パターン名パターン構成要素］からなる。言語名は、そのパターン規則に係る言語名を規定するものであり、図５及び図６では英語（ｅｎ）を規定している。言語名は、所定言語の構文解析専用であれば省略されていても良い。言語名に続くパターン名は、例えば、ＶＰ（動詞句）、ＮＰ（名詞句）、Ｎ（名詞）等の句構造規則での標識が適用される。パターン構成要素は、単語、変数、又は、単語と変数の２以上の並び、からなる。変数は［任意の数字：パターン名（木構造の下位ノードに対応する）］で記述される。任意の数字部分は、翻訳処理用の対となっている原言語及び目的言語パターン間での対応関係を示すものである（第２の実施形態参照）。構文解析においては、変数に、別のパターンが適用されることにより、パターンは入れ子構造をとることができる（変数が解消される）。また、単語及びパターン名は、意味情報などの詳細な情報（素性情報）を持つことができる。さらに、単語及びパターン名は、詳細情報を変数化して、情報の参照をすることもできる。
【００３５】
構文解析部１．２２は、構文解析が終了していないことを確認しつつ、パターン辞書引き処理、パターン検査処理及びパターン適用処理の３つの処理を繰り返し行うことにより、構文解析結果（候補）の木構造を形成する。
【００３６】
パターン辞書引き処理は、形態素解析結果及びそれまでのパターン適用処理の結果から、次に適用の可能性のあるパターン規則をパターン規則辞書１．３から引く処理である。パターン検査処理は、辞書引きの結果得られたパターン規則が現在構築中の木構造に適合するか否かを、各木構造毎に検査する処理である。パターン適用処理は、検査の結果、適合すると判定された木構造とパターン規則とに基づいて、木構造にそのパターン規則を実際に適用する処理である。
【００３７】
図７は、図４に示した形態素解析結果に対し、図５及び図６に示したようなパターン規則を適用して得られた構文解析結果（候補）を示すものである。多くの場合、構文解析結果は一意に定まらず、複数の候補を含むものとなる。図７の例では、“ｏｒ”ノード９．１、９．２によって複数の構文解析結果候補を有している。ここで、図７に示すような構文解析結果（候補）において、適用されたパターン規則が文ＩＤ付きのパターン規則であれば、その文ＩＤも、木構造の該当するノードの情報として付与される。また、文ＩＤ付きパターン規則辞書１．３１と汎用パターン規則辞書１．３２とに、付与されている文ＩＤを除けば同じパターン規則が格納されている場合には、文ＩＤ付きパターン規則辞書１．３１に格納されているものを優先する。
【００３８】
構文解析結果（候補）を得た後は、文ＩＤを利用した複数候補の解消（１個への絞り込み）を行う（Ｓ３４〜Ｓ３６）。
【００３９】
まず、図７に示すような構文解析結果（候補）の木構造全体から、解析結果を構成しているパターン規則の文ＩＤの個数を、例えば、構文解析部１．２２が内蔵する図８に示すような文ＩＤ数え上げ表（バッファメモリの一種）を利用して数え上げる（Ｓ３４）。
【００４０】
なお、図９に示すような、“ｏｒ”ノード直下の２個のパターン規則が同じパターン名かつ同じ文番号の場合には（言い換えると、選言的な解析結果にまたがって存在する複数の文ＩＤの場合には）、１つとして数えることにより、数え上げの重複を避ける。
【００４１】
図７の構文解析結果（候補）の場合、文ＩＤが“１２０”をもつパターン規則はア、イ、ウ、工、オの５つであるので、図８の文ＩＤ数え上げ表の“１２０”の結果の欄には「５」がセットされ、一方、文ＩＤが“９２”をもつパターン規則はカ、キの２つなので、“９２”の結果には「２」がセットされる。なお、図９の“＜−＞”は汎用パターン規則であるため文ＩＤを持たないことを表している。従って、数え上げの対象から外されている。以上のようにして、図８の文ＩＤ数え上げ表の結果を得る。
【００４２】
次に、その表中で最も数え上げ数の多い文ＩＤを選択し、その文ＩＤのパターン規則を最も多く有する構文解析結果候補を（最終的な）構文解析結果として選択する（Ｓ３５）。図８の例では、文ＩＤが“１２０”の数え上げ数が最大であるので、図７の構文解析結果候補（解析木）の中からア−オのパターン規則を有する構文解析結果候補が選択される。
【００４３】
その後、選択された構文解析結果の中に、複数候補（選言的な部分）があるか否かを判別し、選択された構文解析結果の中に複数候補（選言的な部分）がなれば、一連の解消処理を終了する（Ｓ３６）。
【００４４】
図７の例では、ア−オのパターン規則を有するが構文解析結果候補が選択された段階で、複数候補がなくなるため、解消処理を終了する。
【００４５】
一方、ステップＳ３５の処理により、選択された構文解析結果の中に、また複数候補が存在すれば、先に決定したパターン規則の文ＩＤを除き、再度、文ＩＤの数え上げ処理を行い（Ｓ３４）、複数候補の解消処理を繰り返す（Ｓ３５）。例えば、“ｏｒ”ノードが多段に存在するような場合においては、ステップＳ３４〜Ｓ３６でなる処理ループが繰り返されることも生じる。
【００４６】
そして、全ての候補が確定して複数候補が解消すれば（Ｓ３６）、依存構造解析部１．２は、構文解析結果を出力処理部１．１１に渡し、ＣＲＴディスプレイなどの出力装置１．０１から出力させ（Ｓ３７）、構文解析処理を終了する。
【００４７】
図１０は、図７の構文解析結果候補に対し、複数候補の解消処理を行って得た最終的な構文解析結果を示している。
【００４８】
なお、ステップＳ３３での構文解析処理による構文解析結果において、文ＩＤ付きのパターン規則が適用されず、全て汎用パターン規則であって、複数候補が存在する場合には、他の複数候補の解消処理を行う。例えば、特許文献２に記載のものを適用することができる。また、文ＩＤの数え上げによって、数え上げ数が最大となった文ＩＤが複数生じた場合にも、例えば、特許文献２に記載の複数候補の解消処理を適用することができる。
【００４９】
（Ａ−３）第１の実施形態の効果
上記第１の実施形態によれば、以下の効果を奏することができる。
【００５０】
正解の構文解析結果が得られた後でそれに基づいて作成された文ＩＤ付きパターン規則を利用しているので、構文解析の精度を向上させることができる。すなわち、文ＩＤに基づいて、同一の文の解析結果から得られた複数のパターン規則を新たな文の解析結果に含めることができ、構文解析の精度を向上させることができる。
【００５１】
例えば、図３における文“ｗｏｒｋａ４０ｈｏｕｒｗｅｅｋ”の前にある同種の文“ｗｏｒｋａ５ｄａｙｗｅｅｋ”の解析結果が提示されたときに、ユーザがその解析結果に満足せず、パターン規則（文ＩＤ付きパターン規則）を作成したとすると、文“ｗｏｒｋａ４０ｈｏｕｒｗｅｅｋ”の構文解析では、“ｗｏｒｋａ５ｄａｙｗｅｅｋ”の解析結果が反映された文ＩＤ付きパターン規則が適用されて、“ｗｏｒｋａ４０ｈｏｕｒｗｅｅｋ”の構文解析結果として良好なものが得られる。
【００５２】
また、上述したステップＳ３４〜Ｓ３６でなる処理ループの繰り返し処理により、複数の文ＩＤを有するパターン規則を適用することもでき、過去の解析結果を反映させる場合において、過去の２文以上の解析結果を、今回の入力文に対する解析結果に反映させることができる。
【００５３】
さらに、過去の事例から作成された文ＩＤ付パターン規則と、当初より人手によって作成された汎用パターン規則の両方を利用しているので、適用できる事例が少ない場合でも構文解析処理を実行することができる。
【００５４】
（Ｂ）第２の実施形態
次に、本発明による自然言語処理装置、自然言語処理方法及び自然言語処理プログラムの第２の実施形態を図面を参照しながら説明する。第２の実施形態は、入力文（原言語文）を他の言語文（目的言語文）に変換する機械翻訳に、第１の実施形態と同様な技術思想を適用したものである。
【００５５】
（Ｂ−１）第２の実施形態の構成
図１１は、第２の実施形態の自然言語処理装置（機械翻訳装置）の機能的構成を示すブロック図である。なお、実際上は、例えば、パソコンなどの情報処理装置上に、第２の実施形態の自然言語処理プログラム（固定データを含む）がローディングされて、第２の実施形態の自然言語処理装置が構築されるが（なお、専用装置として構築しても良い）、機能的には、図１１に示すように表すことができる。
【００５６】
図１１において、第２の実施形態の自然言語処理装置は、大きくは、入出力部２．１、翻訳処理部２．２、及び、翻訳パターン規則辞書２．３から構成されている。
【００５７】
入出力部２．１や翻訳パターン規則辞書２．３は、第１の実施形態のものとほぼ同様である。なお、第２の実施形態の翻訳パターン規則辞書２．３は、第１の実施形態のパターン規則辞書に準じているが、格納されている規則は、二言語対からなるパターン規則（翻訳パターン規則）となっている。図１３は、翻訳パターン規則辞書２．３における文ＩＤ付翻訳パターン規則２．３１の格納例を示し、図１４は、翻訳パターン規則辞書２．３における汎用翻訳パターン規則２．３２の格納例を示している。文ＩＤ付翻訳パターン規則２．３１では、二言語対からなる各対の翻訳パターン規則に文ＩＤが付与されている。
【００５８】
翻訳処理部２．２は、形態素解析部２．２１、構文解析・生成部２．２２、及び、形態素生成部２．２３から構成されている。
【００５９】
形態素解析部２．２１は、第１の実施形態のものと同様なものである。構文解析・生成部２．２２における構文解析機能は、第１の実施形態の構文解析部の機能と同様である。構文解析・生成部２．２２における構文生成機能は、対となっている目的言語のパターン規則に基づいた生成処理を行う機能である。形態素生成部２．２３は、目的言語の各単語の変化形や活用形の整形を行うものである。なお、翻訳処理部２．２は、原言語の構文解析結果の複数候補の解消処理を除き、特許文献２に記載の翻訳処理部とほぼ同様なものである。
【００６０】
（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態の自然言語処理装置の動作（第２の実施形態の自然言語処理方法）を説明する。以下では、適宜、入力文書に“ｗｏｒｋａ４０ｈｏｕｒｗｅｅｋ”という文が含まれ（図３の５．１参照）、この文を機械翻訳するとして具体的な説明も加える。
【００６１】
図１２は、第２の実施形態の自然言語処理装置の動作（機械翻訳処理）を示すフローチャートである。
【００６２】
第２の実施形態における入力処理（Ｓ１２１）及び形態素解析処理（Ｓ１２２）は、第１の実施形態と同様であるので、その詳細説明は省略する。
【００６３】
構文解析処理（Ｓ１２３）も、第１の実施形態とほぼ同様であるが、以下の点が異なっている。まず、構文解析処理に利用するパターン規則が、図１３及び図１４に示したような英語パターン規則と日本語パターン規則の対の翻訳パターン規則であるという点である。入力文を原言語側のパターン規則で構文解析することにより、目的言語（翻訳側）の構文解析結果も同時に得る（特許文献２参照）。上述した入力文の形態素解析結果（図４）を図１３及び図１４に示す翻訳パターン規則で構文解析した結果を図１５に示している。図１５と第１の実施形態における図７の違いは、構文に関する複数候補に加え、符号１５．１に示すような訳語に関する複数候補も現われる点である。すなわち、ステップＳ１２３での構文解析処理では、原言語側でのパターン規則が同じであっても、訳語でのパターン規則が異なる場合には、訳語でのパターン規則が異なることを明らかにして、構文解析木に、原言語でのパターン規則をそれぞれ含める。
【００６４】
しかし、構文の複数候補も訳語の複数候補も、第１の実施形態と同様に、文ＩＤの数え上げ表を用いることにより解消する。
【００６５】
形態素解析結果に対する構文解析処理が終了すると、次に、文ＩＤの数え上げ処理を行う（Ｓ１２４）。図１５に示す構文解析結果に対しては、図１６に示すような文ＩＤの数え上げ表が作成される。文ＩＤが“１２０”の結果が５つとなって最大であるので、文ＩＤ“１２０”の翻訳パターン規則が採用され（Ｓ１２５）、この結果、図１７に示すような文ＩＤ“１２０”の翻訳パターン規則を最も含む構文解析結果候補を得る。
【００６６】
図１７には複数候補が存在しないので（Ｓ１２６）、次の処理に進む。なお、第１の実施形態と同様に、ステップＳ１２４からＳ１２６でなる処理ループが、複数候補がなくなるまで繰り返し実行される。
【００６７】
ステップＳ１２４からＳ１２６でなる処理ループの繰り返し処理により、複数候補が存在しなくなると、原言語の構文解析結果が得られると同時に、図１８に示すような目的言語の構文解析結果も得られる。図１２では、構文生成処理を別個のステップで記載しているが、原言語の構文解析結果を得る処理とほぼ並行して、目的言語の構文解析結果を生成する構文生成処理を実行する（Ｓ１２７）。
【００６８】
構文生成処理では、翻訳パターン規則辞書２．３を参照し、原言語（英語）のパターンと対をなしている目的言語（日本語）のパターンを利用して、構文解析結果に対応する日本語の木構造を得る（特許文献２参照）。なお、翻訳パターンは、原言語パターンと翻訳パターンとの対になっており、その対応が一意であるので、実際上は、構文解析処理と構文生成処理とがほぼ並行して実行される。
【００６９】
次に、目的言語の木構造（構文生成結果）に基づいて形態素生成処理を行い（Ｓ１２８）、最終的な翻訳結果を得て、この翻訳結果を、ＣＲＴディスプレイなどの出力装置２．０１により出力する（Ｓ１２９）。ここで、形態素生成処理では、構文生成結果を、終端ノードに位置する日本語単語を左から順に並べ、目的言語形態素辞書（図示せず）を用いて、動詞の活用形を整えたりなど、各単語の整形を行う。
【００７０】
例えば、“ｗｏｒｋａ４０ｈｏｕｒｗｅｅｋ”という原文に対して、「週４０時間の仕事」という翻訳結果が得られる。
【００７１】
（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態と同様な効果に加えて、以下の効果を奏することができる。
【００７２】
過去の翻訳事例から作成した文ＩＤ付翻訳パターン規則を適用して構文解析すると共に、一旦得られた構文解析結果に対して、文ＩＤを利用した複数候補の解消を行うことにより、構文の複数候補の解消と訳語の複数候補の解消を同時に行うことができる。
【００７３】
文単位の既存対訳文書の利用ではなく、過去の翻訳文を翻訳パターン規則として部分的に分解して利用することにより、既存対訳文書の利用機会を高めることができる。部分的に分解して利用すると、部分同士の関係情報がないため間違って組み合わされるという問題が生じるが、文ＩＤ情報を利用することにより、組み合わせ時に、過去の翻訳文を再現しようという仕組みが働くため、より適切な組み合わせが選択される。
【００７４】
事例に基づいた翻訳方式として一般的な用例主導型翻訳では、過去の翻訳例文から最も類似している文を見つけ出し、その差分（異なっている箇所）を抽出して、その差分を機械翻訳し、もとの翻訳例文に差分を置き換えるという、処理工程の多い手法をとるが、この第２の実施形態の手法では、採用された文ＩＤが付与されていない部分が上記の差分に該当し、構文解析処理だけで用例主導型翻訳と類似する結果が得られる。
【００７５】
（Ｃ）第３の実施形態
以下、本発明による自然言語処理装置、自然言語処理方法及び自然言語処理プログラムの第３の実施形態を図面を参照しながら説明する。第３の実施形態は、入力文に対する構文解析結果を得るものである。
【００７６】
第３の実施形態の自然言語処理装置（構文解析装置）も、例えば、パソコンなどの情報処理装置上に、第３の実施形態の自然言語処理プログラム（固定データを含む）がローディングされて構築されるが（なお、専用装置として構築しても良い）、機能的には、第１の実施形態に係る図１で表すことができる。
【００７７】
第３の実施形態の自然言語処理装置は、第１の実施形態に比較すると、構文解析部１．２２での処理が異なっている。
【００７８】
上述した第１の実施形態では、図７に示すような構文解析結果（構文解析木）を得る際には文ＩＤを利用せず、構文解析木での複数候補の解消時に、文ＩＤを利用するものであったが、この第３の実施形態は、構文解析木を形成していく処理中でも文ＩＤを利用して、構文解析を高速に実行できること、構文解析木が得られた際に、できるだけ複数候補が生じないようにすることを達成しようとしたものである。
【００７９】
第３の実施形態は、ボトムアップ的な手法では、下位パターン規則の条件を満たす上位パターン規則の適用によって、構文解析木が構築されていくが、新しいパターン規則を適用する際に、そのパターン規則が持つ文ＩＤと同じ文ＩＤを持つパターン規則（上位パターン規則）を優先的に選択するように解析することにより、適用するパターン規則の探索空間を狭くして、高速化と複数候補の排除とを達成しようとしたものである。
【００８０】
図１９は、第３の実施形態における構文解析処理（図２のＳ３３〜Ｓ３６に対応）を示すフローチャートである。なお、図１９は、文ＩＤの利用面に重点を置いて、処理の流れを示している。また、図１９でのバッファ１及びバッファ２は、構文解析部１．２２が内蔵するものである。
【００８１】
まず、形態素解析結果から未処理の１個の形態素を選択し（Ｓ１９１）、パターン規則辞書１．３から、その形態素に適用するパターン規則を検索し、検索結果をバッファ１に格納する（Ｓ１９２）。かかる処理を、形態素解析結果の全ての形態素に対して繰り返す（Ｓ１９３）。ここでも、文ＩＤ付きパターン規則辞書１．３１と汎用パターン規則辞書１．３２とに、付与されている文ＩＤを除けば同じパターン規則が格納されている場合には、文ＩＤ付きパターン規則辞書１．３１に格納されているものを優先してバッファ１に格納する。
【００８２】
例えば、図４における形態素「ｗｏｒｋ，ｐｏｓ＝ｎ」、「ｗｏｒｋ，ｐｏｓ＝ｖ」、…毎にステップＳ１９１〜Ｓ１９３の処理が繰り返される。形態素「ｗｏｒｋ，ｐｏｓ＝ｎ」については、図５の符号６．３のパターン規則がバッファ１に格納され、形態素「ｗｏｒｋ，ｐｏｓ＝ｖ」については、図６の符号７．２のパターン規則がバッファ１に格納される。
【００８３】
全ての形態素に対するパターン規則の検索が終了すると、ステップＳ１９４以降の関連するパターン規則（主として上位パターン規則）の検索に移行する。
【００８４】
関連パターン規則の検索ではまず、バッファ１内の１個の未処理のパターン規則を処理対象とし、そのパターン規則が有する文ＩＤをバッファ２に格納し（Ｓ１９４）、その未処理のパターン規則の関連パターン規則として、バッファ２に格納されている文ＩＤを有するものの中から検索する（Ｓ１９５）。なお、処理対象の未処理のパターン規則に文ＩＤが付与されていない場合には、文ＩＤのバッファ２への格納は省略され、又は、無意味な値がバッファ２に格納される（Ｓ１９４）。また、ステップＳ１９４での処理対象となる未処理のパターン規則には、上述したステップＳ１９２で格納されたものだけでなく、後述するステップＳ１９７やＳ１９８で格納されたものもなり得る。
【００８５】
例えば、図５の符号６．３が付されたパターン規則が処理対象となったときには、文ＩＤが１２０を有するパターン規則が検索対象となる。
【００８６】
その後、バッファ２に格納されている文ＩＤを有する関連パターン規則が検索できたか否かを判別する（Ｓ１９６）。そして、検索できた場合には、検索された関連パターン規則をバッファ１に追加する（Ｓ１９７）。この追加時には、パターン規則間の上下関係などの関係情報も格納される。一方、該当する文ＩＤを有する関連パターン規則が検索できなかった場合には、その文ＩＤを持たないパターン規則から検索を行い、検索された関連パターン規則をバッファ１に追加する（Ｓ１９８）。なお、この際の検索で関連パターン規則が検索できなかった場合には、そのことを無視して次の処理に移行する。また、ステップＳ１９７又はＳ１９８で検索結果をバッファ１に格納した際には、処理対象となっているパターン規則以外のバッファ１に格納されているパターン規則の中に、今回、検索された関連パターン規則と連結されて自動的に処理済みになるものも生じる。
【００８７】
次に、今回検索された関連パターン規則が、終了カテゴリ（Ｓ（センテンス）に関するパターン規則）か否かを判別する（Ｓ１９９）。
【００８８】
終了カテゴリに達していなければ、バッファ１に関連パターン規則の検索を行っていない未処理のパターン規則が残っているか否かを判別し（Ｓ２００）、残っていれば、上述したステップＳ１９４に戻り、残っていなければ、構文解析失敗として一連の処理を終了する。
【００８９】
関連パターン規則の検索により、終了カテゴリに達した場合には、第１の実施形態と同様に、構文解析木に含まれている文ＩＤの多少に応じて、複数候補の解消などを行い、構文解析結果を一通りに絞り込んで一連の処理を終了する（Ｓ２０１、Ｓ２０２）。
【００９０】
第３の実施形態によれば、第１の実施形態と同様な効果に加え、構文解析木の構築時において、下位パターン規則が持つ文ＩＤと同じ文ＩＤを持つ関連パターン規則（上位パターン規則）を優先的に選択するようにしたことにより、適用するパターン規則の探索空間が狭くなり、構文解析処理の高速化や複数候補の排除とを達成できるという効果をも奏する。
【００９１】
（Ｄ）第４の実施形態
以下、本発明による自然言語処理装置、自然言語処理方法及び自然言語処理プログラムの第４の実施形態を図面を参照しながら説明する。第４の実施形態も、入力文に対する構文解析結果を得るものである。
【００９２】
第４の実施形態の自然言語処理装置（構文解析装置）も、例えば、パソコンなどの情報処理装置上に、第４の実施形態の自然言語処理プログラム（固定データを含む）がローディングされて構築されるが（なお、専用装置として構築しても良い）、機能的には、第１の実施形態に係る図１で表すことができる。
【００９３】
第４の実施形態の自然言語処理装置は、第１の実施形態に比較すると、構文解析部１．２２での処理が異なっている。
【００９４】
この第４の実施形態も、第３の実施形態と同様に、構文解析木を形成していく処理中でも文ＩＤを利用して、構文解析を高速に実行できること、構文解析木が得られた際に、できるだけ複数候補が生じないようにすることを達成しようとしたものである。
【００９５】
パターン規則を用いた構文解析では、ボトムアップ的な手法をとっており、最初は、語彙（形態素）が含まれるパターン規則の適用から始まる。第４の実施形態は、同一の文ＩＤをもつパターン規則を優先的に適用するものであり、語彙が含まれるパターン規則の適用時に、優先すべき文ＩＤを予め決定しておき、それ以降の関連パターン規則（主として上位パターン規則）の検索時に、その文ＩＤを有するパターン規則の適用を優先するという方法である。これは、語彙に関するパターン規則をチェックするだけでも、優先すべき文ＩＤの予想がつくためである。
【００９６】
第４の実施形態では、まず、全ての語彙のいずれかを含むパターン規則の適用を最初に決め、最も適用数が多い文ＩＤを選択する（数個でも構わない）。以降は、その選択された文ＩＤを持つパターン規則を優先的に適用させる。予め語彙に関するパターン規則で探索すべき文ＩＤを制限することによって、探索空間を狭めることができるため、高速化が見込めると共に、構文解析木が形成された際に複数候補もほとんど生じさせなくすることができる。
【００９７】
図２０は、第４の実施形態における構文解析処理（図２のＳ３３〜Ｓ３６に対応）を示すフローチャートである。なお、図２０は、文ＩＤの利用面に重点を置いて、処理の流れを示している。また、図２０でのバッファ１〜バッファ３は、構文解析部１．２２が内蔵するものである。
【００９８】
まず、形態素解析結果の全ての形態素のそれぞれに対し、パターン規則辞書１．３から、その形態素に適用するパターン規則を検索し、検索結果をバッファ１に格納する（Ｓ２１１〜Ｓ２１３）。かかる処理は、上述した第３の実施形態と同様である。
【００９９】
次に、バッファ１に格納されている形態素（語彙）に適用するパターン規則に付与されている文ＩＤを、文ＩＤ毎に数え上げ、最も適用数が多い文ＩＤをバッファ２に格納する（Ｓ２１４、Ｓ２１５）。
【０１００】
例えば、上述した入力文“ｗｏｒｋａ４０ｈｏｕｒｗｅｅｋ”の場合であれば、図５の符号６．３や６．４などに係るパターン規則が、形態素（語彙）に適用するパターン規則となり、その文ＩＤ“１２０”のパターン規則が最も多く適用されていることになり、１２０がバッファ２に格納される。
【０１０１】
文ＩＤのバッファ２への格納が終了すると、ステップＳ２１６以降の関連するパターン規則（主として上位パターン規則）の検索に移行する。
【０１０２】
関連パターン規則の検索ではまず、バッファ１内の１個の未処理のパターン規則を処理対象とし、その未処理のパターン規則の関連パターン規則を、バッファ２に格納されている文ＩＤを有するものの中から検索し、検索できたか否かを判別する（Ｓ２１６、Ｓ２１７）。すなわち、処理対象の未処理のパターン規則に文ＩＤが付与されていない場合や異なる文ＩＤが付与されていても、バッファ２に格納されている文ＩＤを利用した検索が実行される。なお、ステップＳ２１６での処理対象となる未処理のパターン規則には、上述したステップＳ２１２で格納されたものだけでなく、後述するステップＳ２１８やＳ２２３で格納されたものもなり得る。
【０１０３】
例えば、バッファ２に格納されている文ＩＤが“１２０”の場合において、仮に、図５の符号６．５を付したパターン規則（文ＩＤ９２）や、図６の符号７．３を付したパターン規則が処理対象となった場合でも、ステップＳ２１６での検索では、文ＩＤが“１２０”のパターン規則を探索範囲として実行される。
【０１０４】
バッファ２に格納されている文ＩＤを有する関連パターン規則が検索できた場合には、検索された関連パターン規則をバッファ１に追加する（Ｓ２１８）。この追加時には、パターン規則間の上下関係などの関係情報も格納される。また、検索結果をバッファ１に追加格納した際には、処理対象となっているパターン規則以外のバッファ１に格納されているパターン規則の中に、今回、検索された関連パターン規則と連結されて自動的に処理済みになるものも生じる。一方、該当する文ＩＤを有する関連パターン規則が検索できなかった場合には、検索できなかった旨の情報と共に、処理対象となっているパターン規則をバッファ３に格納する（Ｓ２１９）。
【０１０５】
次に、今回検索された関連パターン規則（Ｓ２１８による）により、終了カテゴリ（Ｓ（センテンス）に関するパターン規則）に達したか否かを判別する（Ｓ２２０）。
【０１０６】
終了カテゴリに達していなければ、バッファ１に関連パターン規則の検索を行っていない未処理のパターン規則が残っているか否かを判別し（Ｓ２２１）、残っていれば、上述したステップＳ２１６に戻る。
【０１０７】
終了カテゴリに達しておらず、しかも、バッファ１に未処理のパターン規則が残っていなければ、バッファ３に格納されているパターン規則があるか否かを判別する（Ｓ２２２）。この場合において、バッファ３に格納されているパターン規則がなければ、構文解析失敗として一連の処理を終了する。
【０１０８】
バッファ３に格納されているパターン規則があれば、その中の未処理（Ｓ２２３について未処理）のパターン規則を１個取り出し、取り出したパターン規則に関連するパターン規則（上位パターン規則）を、バッファ２に格納されている文ＩＤを有するパターン規則以外のパターン規則の中から検索し、検索されたパターン規則をバッファ１に追加する（Ｓ２２３）。なお、この際の検索で関連パターン規則が検索できなかった場合には、そのことを無視して次の処理（Ｓ２２４）に移行する。
【０１０９】
このような処理を、バッファ３に格納されている全てのパターン規則について繰り返す（Ｓ２２４）。そして、バッファ３に格納されている全てのパターン規則について、それぞれ、バッファ２に格納されている文ＩＤに関係しないパターン規則からの検索を終了すると、上述したステップＳ２２３での検索でバッファ１にパターン規則が追加されたか否かを判別する（Ｓ２２５）。
【０１１０】
バッファ１に追加されたパターン規則がなければ、構文解析失敗として一連の処理を終了する。一方、バッファ１に追加されたパターン規則があれば、バッファ３をクリアして、上述したステップＳ２１６に戻る。
【０１１１】
上述したようなボトムアップの検索を繰り返し、終了カテゴリに達した場合には、構文解析成功として一連の処理を終了する。
【０１１２】
なお、上記では、ステップＳ２１５の処理によってバッファ２に格納する文ＩＤが１個の場合を説明したが、形態素（語彙）に適用するパターン規則の文ＩＤの多い方の複数個を格納するようにしても良い。この場合にも、バッファ２に格納された複数の文ＩＤのいずれかを有するパターン規則の集合が関連パターン規則（上位パターン規則）の探索範囲となる。この場合には、終了カテゴリに達し、構文解析成功とした後に、上述した第３の実施形態に係る図１９のステップＳ２０１及びＳ２０２でなるような、複数候補の解消処理を実行することを要する。
【０１１３】
第４の実施形態によれば、第１の実施形態と同様な効果に加え、構文解析木の構築時において、全ての語彙のいずれかを含むパターン規則の適用を最初に決め、適用数が多い文ＩＤを選択し、以降は、その選択された文ＩＤを持つパターン規則を優先的に適用させるようにしたので、探索空間を狭めることができ、高速化が見込めると共に、構文解析木が形成された際に複数候補もほとんど生じさせなくすることができる。
【０１１４】
（Ｅ）他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【０１１５】
第１の実施形態で説明した文ＩＤ付きパターン規則の作成方法に代え、参考にしたい文書が既に存在し、そこからパターン規則を作成したい場合には、ｈｔｔｐ：／／ｃｌ．ａｉｓｔ−ｎａｒａ．ａｃ．ｊｐ／ｌａｂ／ｎｌｔ／ＮＬＴ．ｈｔｍｌのような統計的な手法を利用した構文解析ツールを用いて構文解析し、その構文解析結果から、名詞句、動詞句、形容詞句、副詞句などの句単位のパターン規則に分割し、パターン規則を作成する方法を適用することができる。
【０１１６】
文ＩＤ付き翻訳パターン規則の作成方法（第２の実施形態参照）として、以下の方法を適用できる。参考にしたい翻訳文書が既に存在し、そこから翻訳パターン規則を作成したい場合には、特願２００２−３６７５５３号明細書及び図面の記載方法を用いることによって翻訳パターン規則を作成することができる。
【０１１７】
文ＩＤ付（翻訳）パターン規則辞書は複数存在していても構わない。文ＩＤ付（翻訳）パターン規則辞書を分野や文書毎に複数用意し、参考にしたい分野や文書に合わせて、文ＩＤ付（翻訳）パターン規則辞書を使い分けることにより、参考となる分野や文書における結果を模倣する構文解析結果や翻訳結果を得ることができる。
【０１１８】
上記各実施形態では、英語構文解析装置や、英日機械翻訳装置の場合を例に示したが、処理対象文の言語はいずれの言語であっても構わない。
【０１１９】
第３の実施形態や第４の実施形態の特徴的な技術思想は、機械翻訳装置における構文解析処理（第２の実施形態参照）に適用することができる。
【０１２０】
上記各実施形態における解析結果や翻訳結果をユーザに表示し、その結果をユーザに確認させ、正解ならば、その際、使用された（翻訳）パターン規則の全て、又は、文ＩＤが付与されていないものを、文ＩＤを付与して、文ＩＤ付（翻訳）パターン規則辞書に格納することによって、利用すればするほど、規則が蓄積され、処理の精度を向上させることもできる。すなわち、パターン規則学習部やユーザ登録部を設けるようにしても良い。また、ある文章に対して得られた構文解析結果を構成する、全てのパターン規則、又は、文ＩＤが付与されていないものを、ユーザに確認させることなく、自動的に、文ＩＤを付与して、文ＩＤ付パターン規則辞書に格納するようにしても良い。
【０１２１】
第１の実施形態で説明した文ＩＤが付与されたパターン規則が存在しない場合だけでなく、文ＩＤを利用した複数候補の解消と、特許文献２記載のコスト計算を利用した複数候補解消とを組み合わせることもできる。例えば、最も多い数が出現した文ＩＤでも、その出現数が所定数以下であれば、文ＩＤを利用した複数候補の解消方法ではなく、特許文献２記載のコスト計算を利用した複数候補の解消方法を利用する。また例えば、特許文献２記載のコスト計算式に、文ＩＤの数え上げた数をパラメータとする項などを設け、文ＩＤの数が多ければ多いほどコストが低くなるようなコストを定義し、そのコストと他で定義される構文解析結果のコストを合わせて計算し、最小のコストでなるパターン規則を選択することによって複数の構文解析結果候補から最適な構文解析結果を求めるようにしても良い。
【０１２２】
第１の実施形態や第４の実施形態で、数え上げ数が閾値数より少ない文ＩＤを無視するようにしても良い。
【０１２３】
また、文ＩＤと構文要素のカテゴリの両方を同時に評価するようにしても良い。例えば、一部の特別なカテゴリ（ＮＰ（名詞句）やＶＰ（動詞句）などの自立語系のカテゴリ）をもつパターン規則の文ＩＤだけを数えるようにしても良い。つまり、構文要素のカテゴリを考慮して文ＩＤを利用するようにしても良い。
【０１２４】
上記各実施形態では、同一の文ＩＤは、同一の文から形成されたパターン規則に付与するものを示したが、文ＩＤをパターン規則の同時適用度として付与するようにしても良い。
【０１２５】
例えば、同時適用されやすいパターン規則に共通の文ＩＤを与えることによって、同時適用され易いパターンの組み合わせからなる解析結果が優先的に選ばれるようになる。同一の文ＩＤの付与は、過去の文書で１文中に同時に出現する場合だけでなく、他の手段によって付与することもできる。例えば、関連分野別にパターン規則を分類しておき、関連分野毎に同一の文ＩＤを付与すると、同一の関連分野のパターン規則の組み合わせからなる解析結果が優先されるようになる。パターン規則の関連分野別の分類は、文章を分野に振分け、その文章から得られたパターン規則に文ＩＤを付与することにより行うことができる。
【０１２６】
また例えば、“ｗｏｒｋａ４０ｈｏｕｒｗｅｅｋ”に基づいて、パターン規則を作成して文ＩＤを付与した場合において、その文の類似文“ｗｏｒｋａ５ｄａｙｗｅｅｋ”を考慮してパターン規則を作成し、その作成したパターン規則にも同一の文ＩＤを付与するようにしても良い。
【０１２７】
【発明の効果】
以上のように、本発明によれば、同一文に同時に適用する可能性の高さを示す文ＩＤが付与された文ＩＤ付パターン規則を用意して、同一の文ＩＤが付与されたパターン規則が多くなっている構文解析結果を採用するようにしたので、構文解析結果の精度を高めることができる。
【図面の簡単な説明】
【図１】第１の実施形態の自然言語処理装置の機能的構成を示すブロック図である。
【図２】第１の実施形態の自然言語処理装置の動作を示すフローチャートである。
【図３】第１の実施形態の処理の具体的な説明のための入力文の例を示す説明図である。
【図４】図３の入力文に対する第１の実施形態での形態素解析例を示す説明図である。
【図５】第１の実施形態の文ＩＤ付きパターン規則辞書の格納例を示す説明図である。
【図６】第１の実施形態の汎用パターン規則辞書の格納例を示す説明図である。
【図７】第１の実施形態の複数候補の解消前の構文解析結果例を示す説明図である。
【図８】第１の実施形態の文ＩＤ数え上げ表の一例を示す説明図である。
【図９】第１の実施形態の文ＩＤの数え上げ方法の例外の説明図である。
【図１０】第１の実施形態の複数候補の解消後の構文解析結果例を示す説明図である。
【図１１】第２の実施形態の自然言語処理装置の機能的構成を示すブロック図である。
【図１２】第２の実施形態の自然言語処理装置の動作を示すフローチャートである。
【図１３】第２の実施形態の文ＩＤ付き翻訳パターン規則辞書の格納例を示す説明図である。
【図１４】第２の実施形態の汎用翻訳パターン規則辞書の格納例を示す説明図である。
【図１５】第２の実施形態の複数候補の解消前の構文解析結果例を示す説明図である。
【図１６】第２の実施形態の文ＩＤ数え上げ表の一例を示す説明図である。
【図１７】第２の実施形態の複数候補の解消後の構文解析結果例を示す説明図である。
【図１８】第２の実施形態の構文生成結果例を示す説明図である。
【図１９】第３の実施形態の構文解析処理を示すフローチャートである。
【図２０】第４の実施形態の構文解析処理を示すフローチャートである。
【符号の説明】
１．１…入出力部、１．１１…出力処理部、１．１２…入力処理部、１．２…依存構造解析部、１．２１…形態素解析部、１．２２…構文解析部、１．３…パターン規則辞書、１．３１…文ＩＤ付きパターン規則辞書、１．３２…汎用パターン規則、２．１…入出力部、２．１１…出力処理部、２．１２…入力処理部、２．２…翻訳処理部、２．２１…形態素解析部、２．２２…構文解析・生成部、２．２３…形態素生成部、２．３…翻訳パターン規則辞書、２．３１…文ＩＤ付翻訳パターン規則、２．３２…汎用翻訳パターン規則。

Claims

少なくともパターン名及びパターン構成要素を有するパターン規則を利用して、少なくとも入力文の構文解析結果を得る処理を伴う自然言語処理装置において、
同一文に同時に適用する可能性の高さを示す文ＩＤが付与されたパターン規則を格納している文ＩＤ付パターン規則辞書と、
解析対象の入力文を形態素解析する形態素解析手段と、
形態素解析結果に対し、上記文ＩＤ付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文ＩＤが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する構文解析手段と
を有することを特徴とする自然言語処理装置。
上記構文解析手段は、上記文ＩＤを考慮しないで複数のパターン規則の木構造でなる構文解析結果を得た後、その結果に含まれているパターン規則に付与されている文ＩＤに基づき、同一の文ＩＤが付与されたパターン規則が多くなるように、複数候補の解消を行って最終的な構文解析結果を得ることを特徴とする請求項１に記載の自然言語処理装置。
上記構文解析手段は、同一の文ＩＤが付与されたパターン規則の数を計数する際に、選言的な構造内に同一パターン規則が複数存在する場合には、それらをまとめて１つとして数えることを特徴とする請求項２に記載の自然言語処理装置。
上記構文解析手段は、上記形態素解析結果における各形態素で上記文ＩＤ付パターン規則辞書を参照して木構造の下位のパターン規則を定め、上記各下位パターン規則に対する上位パターン規則の探索を、当該下位パターン規則に付与されている文ＩＤと同一のものを優先させて行いながら、最終的な構文解析結果を得ることを特徴とする請求項１に記載の自然言語処理装置。
上記構文解析手段は、上記形態素解析結果における各形態素で上記文ＩＤ付パターン規則辞書を参照して木構造の下位のパターン規則を定め、定められた複数の下位パターン規則に多く付与されている文ＩＤを検出し、上記各下位パターン規則に対する上位パターン規則の探索を、検出された文ＩＤと同一のものを優先させて行いながら、最終的な構文解析結果を得ることを特徴とする請求項１に記載の自然言語処理装置。
パターン規則の検索対象の辞書として、上記文ＩＤ付パターン規則辞書に加え、文ＩＤが付与されていない汎用的なパターン規則を格納している汎用パターン規則辞書を有することを特徴とする請求項１〜５のいずれかに記載の自然言語処理装置。
上記文ＩＤ付パターン規則辞書は、文ＩＤ付パターン規則を追加して登録できるものであることを特徴とする請求項１〜６のいずれかに記載の自然言語処理装置。
上記文ＩＤ付パターン規則辞書として、文書や分野などに応じて区別される複数の文ＩＤ付パターン規則辞書を有することを特徴とする請求項１〜７のいずれかに記載の自然言語処理装置。
当該自然言語処理装置が機械翻訳装置であり、上記構文解析手段が、原言語文に対する構文解析を行うものであることを特徴とする請求項１〜８のいずれかに記載の自然言語処理装置。
コンピュータを用いて、少なくともパターン名及びパターン構成要素を有するパターン規則を利用して、少なくとも入力文の構文解析結果を得る処理を伴う自然言語処理方法において、
上記コンピュータは、文ＩＤ付パターン規則辞書、形態素解析部及び構文解析部を備え、
上記文ＩＤ付パターン規則辞書には、同一文に同時に適用する可能性の高さを示す文ＩＤが付与されたパターン規則を格納しておくと共に、
解析対象の入力文を形態素解析する、上記形態素解析部が実行する形態素解析工程と、
形態素解析結果に対し、上記文ＩＤ付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文ＩＤが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する、上記構文解析部が実行する構文解析工程と
を有することを特徴とする自然言語処理方法。
上記構文解析工程は、上記文ＩＤを考慮しないで複数のパターン規則の木構造でなる構文解析結果を得た後、その結果に含まれているパターン規則に付与されている文ＩＤに基づき、同一の文ＩＤが付与されたパターン規則が多くなるように、複数候補の解消を行って最終的な構文解析結果を得ることを特徴とする請求項１０に記載の自然言語処理方法。
上記構文解析工程は、同一の文ＩＤが付与されたパターン規則の数を計数する際に、選言的な構造内に同一パターン規則が複数存在する場合には、それらをまとめて１つとして数えることを特徴とする請求項１１に記載の自然言語処理方法。
上記構文解析工程は、上記形態素解析結果における各形態素で上記文ＩＤ付パターン規則辞書を参照して木構造の下位のパターン規則を定め、上記各下位パターン規則に対する上位パターン規則の探索を、当該下位パターン規則に付与されている文ＩＤと同一のものを優先させて行いながら、最終的な構文解析結果を得ることを特徴とする請求項１０に記載の自然言語処理方法。
上記構文解析工程は、上記形態素解析結果における各形態素で上記文ＩＤ付パターン規則辞書を参照して木構造の下位のパターン規則を定め、定められた複数の下位パターン規則に多く付与されている文ＩＤを検出し、上記各下位パターン規則に対する上位パターン規則の探索を、検出された文ＩＤと同一のものを優先させて行いながら、最終的な構文解析結果を得ることを特徴とする請求項１０に記載の自然言語処理方法。
パターン規則の検索対象の辞書として、上記文ＩＤ付パターン規則辞書に加え、文ＩＤが付与されていない汎用的なパターン規則を格納している汎用パターン規則辞書も上記コンピュータに予め用意されていることを特徴とする請求項１０〜１４のいずれかに記載の自然言語処理方法。
上記文ＩＤ付パターン規則辞書は、文ＩＤ付パターン規則を追加して登録できるものであることを特徴とする請求項１０〜１５のいずれかに記載の自然言語処理方法。
上記文ＩＤ付パターン規則辞書として、文書や分野などに応じて区別される複数の文ＩＤ付パターン規則辞書が用意されていることを特徴とする請求項１０〜１６のいずれかに記載の自然言語処理方法。
当該自然言語処理方法が機械翻訳方法であり、上記構文解析工程が、原言語文に対する構文解析を行うことを特徴とする請求項１０〜１７のいずれかに記載の自然言語処理方法。
コンピュータを、
同一文に同時に適用する可能性の高さを示す文ＩＤが付与されたパターン規則を格納している文ＩＤ付パターン規則辞書と、
解析対象の入力文を形態素解析する形態素解析手段と、
形態素解析結果に対し、上記文ＩＤ付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文ＩＤが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する構文解析手段
として機能させるために、
コンピュータが実行可能なコードで記述していることを特徴とする自然言語処理プログラム。