JP3765799B2 - 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム - Google Patents
自然言語処理装置、自然言語処理方法及び自然言語処理プログラム Download PDFInfo
- Publication number
- JP3765799B2 JP3765799B2 JP2003150598A JP2003150598A JP3765799B2 JP 3765799 B2 JP3765799 B2 JP 3765799B2 JP 2003150598 A JP2003150598 A JP 2003150598A JP 2003150598 A JP2003150598 A JP 2003150598A JP 3765799 B2 JP3765799 B2 JP 3765799B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- pattern
- pattern rule
- natural language
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、自然言語処理装置、自然言語処理方法及び自然言語処理プログラムに関し、例えば、事例べース(過去の解析結果や翻訳結果を利用した)の構文解析処理や翻訳処理に適用し得るものである。
【0002】
【従来の技術】
【0003】
【非特許文献1】
山田 寛康、松本 裕治共著、「Support Vector Machineを用いた決定性上昇型構文解析」、研究報告「自然言語処理」、No.149−009、2002年5月23日
【0004】
【特許文献1】
特開平7−295991号公報
【0005】
【特許文献2】
特開2002−41512号公報
機械翻訳等で利用される自然言語の構文解析技術の進歩は目覚ましい。従来型の構文解析は、構文的な情報を含んだ辞書と文法規則を予め人間が作成しておき、それをチャート法やアーリー法などのパーザを利用することにより、文の解析結果を求めていた。しかし、最近では、大量の文書の構文解析結果があれば、その構文解析結果(学習データ)を再現するための規則を自動的に作成し、以降は、その規則に基づいて構文解析結果を求める機械学習の手法を利用した構文解析システムの研究が進んでいる(非特許文献1)。
【0006】
また、大量の文書の構文解析結果を蓄積しておき、入力された文の構文解析結果と蓄積された構文解析結果とを比較し、その比較結果から正しい解析結果を求めるような方法も提案されている(特許文献1)。
【0007】
上述した過去の事例を利用する技術は、辞書や文法の人手による作成が不要であり、また、構文解析の正解結果を多く用意すればするほど解析精度が良くなるという利点がある。
【0008】
さらに、事例を利用した技術は、検索や翻訳等の自然言語技術に応用しやすいという利点がある。特許文献1の記載方法においては、事例として対訳文書を利用することによって機械翻訳に応用している。この場合は、大量の対訳文書の構文解析結果を蓄積しておき、入力文と同言語の構文解析結果と入力文の構文解析結果とを比較し、最も類似する構文解析結果を選択し、その構文解析結果の相手言語側の構文解析結果を参照することにより、適切な翻訳結果を求めるという手法を採用している。
【0009】
しかし、非特許文献1の方法は、機械学習を利用しているため、予め作成しておく学習データ(規則)は、人間にとって理解不能であり、規則に手を加えることはできない。つまり、解析結果がより良くなるように規則を人手で調整することはできない。また、規則が理解不能であるため、どんな解析結果が得られるかの推測が難しい。さらに、正解例が増えた場合には、学習し直し、規則を作り直す必要があるが、規則の再学習には膨大な時間がかかる。
【0010】
一方、特許文献1の方法は、入力文に最も類似する過去の構文解析結果から入力文中に含まれる語彙の用法を知ることにより構文解析支援を行うという提案であり、入力文の構文解析を全自動で行う方法ではない。また、利用する過去の構文解析結果も最も類似する1文のみである。
【0011】
さらに、特許文献1の提案では、比較の手法(照合手段)において、一文ごとに照合するという手法であるため、用例が何万文と大量になった場合、その比較において実用レベルの速度が得られないという課題も有する。
【0012】
上記の課題を解決するために、特許文献2では、既存対訳文書から翻訳パターン規則を作成し、それらを辞書として蓄積しておき、その辞書を利用して構文解析することにより、既存文書を模倣した翻訳結果を得ることができる(同様の手法で構文解析処理のみを行うこともできる)方法を提案している。
【0013】
【発明が解決しようとする課題】
特許文献2の提案方法によって、既存対訳文書から作成された翻訳パターン規則は、入力文に応じて、適宜、構文解析結果に含まれるが、作成された翻訳パターン規則は、全て同列に扱われるものであった。
【0014】
このように、作成された翻訳パターン規則が全て同列に扱われるため、複数の構文解析結果候補間の順位付けに、翻訳パターン規則の作成に供した文の情報が反映されず、最適でない構文解析結果候補が最適と判断される恐れがある。
【0015】
仮に、翻訳パターン規則の作成に供した文が、構文解析対象の文として入力された場合において、作成された翻訳パターン規則を適用した構文解析結果候補以外の構文解析結果候補が生じても、必ずしも前者を有効とすることができなかった。
【0016】
そのため、自然言語処理パターンの作成に供した文の情報も、入力文に対する構文解析などの自然言語処理に反映でき、最適な解析結果が得られる自然言語処理装置、自然言語処理方法及び自然言語処理プログラムが望まれている。
【0017】
【課題を解決するための手段】
かかる課題を解決するため、第1の本発明は、少なくともパターン名及びパターン構成要素を有するパターン規則を利用して、少なくとも入力文の構文解析結果を得る処理を伴う自然言語処理装置において、同一文に同時に適用する可能性の高さを示す文IDが付与されたパターン規則を格納している文ID付パターン規則辞書と、解析対象の入力文を形態素解析する形態素解析手段と、形態素解析結果に対し、上記文ID付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文IDが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する構文解析手段とを有することを特徴とする。
【0018】
また、第2の本発明は、少なくともパターン名及びパターン構成要素を有するパターン規則を利用して、少なくとも入力文の構文解析結果を得る処理を伴う自然言語処理方法において、同一文に同時に適用する可能性の高さを示す文IDが付与されたパターン規則を格納している文ID付パターン規則辞書を予め用意しておくと共に、解析対象の入力文を形態素解析する形態素解析工程と、形態素解析結果に対し、上記文ID付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文IDが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する構文解析工程とを有することを特徴とする。
【0019】
さらに、第3の本発明の自然言語処理プログラムは、第2の本発明の自然言語処理方法を、コンピュータが実行可能なコードで記述していることを特徴とする。
【0020】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による自然言語処理装置、自然言語処理方法及び自然言語処理プログラムの第1の実施形態を図面を参照しながら説明する。第1の実施形態は、入力文に対する構文解析結果を得るものである。
【0021】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の自然言語処理装置(構文解析装置)の機能的構成を示すブロック図である。なお、実際上は、例えば、パソコンなどの情報処理装置上に、第1の実施形態の自然言語処理プログラム(固定データを含む)がローディングされて、第1の実施形態の自然言語処理装置が構築されるが(なお、専用装置として構築しても良い)、機能的には、図1に示すように表すことができる。
【0022】
図1において、第1の実施形態の自然言語処理装置は、大きくは、入出力部1.1、依存構造解析部1.2、パターン規則辞書1.3から構成されている。
【0023】
入出力部1.1は、キーボードやファイル読込装置等の入力装置1.02から、入力文を入力したり、入力文の構文解析結果から得られたパターン規則辞書の修正情報を入力したり、文ID付きパターン規則辞書1.31を登録入力したりする入力処理部1.12と、構文解析結果をディスプレイやプリンタやファイル格納装置等の出力装置1.01に出力する出力処理部1.11とから構成されている。
【0024】
依存構造解析部1.2は、入力文の構文解析結果を求めるための処理部である。依存構造解析部1.2は、単語区切り及び品詞推定を行う形態素解析部1.21、及び、区切られた単語の依存構造を求める構文解析部1.22から構成されている。
【0025】
パターン規則辞書1.3は、文ID付きパターン規則辞書1.31と汎用パターン規則1.32とから構成されている。
【0026】
文ID付きパターン規則辞書1.31は、ユーザが参考にしたい過去の文書の構文解析結果から作成されたパターン規則を格納しており、どの文書中のどの文に由来するかを示すための文の識別情報(以下、文IDと呼ぶ)を持っている(後述する図5参照)。なお、同一の文IDを有する複数のパターン規則は、同一の文をベースに形成されたものである。文ID付きパターン規則辞書1.31に格納されているパターン規則は、例えば、特許文献2に記載の作成方法で作成されたものであり、その際、ユーザによって、又は、当該装置が自動的に文IDを付与したものである。
【0027】
一方、汎用パターン規則辞書1.32は、特定の文に依存しない汎用的なパターン規則(汎用パターン規則)を格納しており、人手によって作成される(後述する図6参照)。なお、汎用パターン規則には、文IDは付与されていない。
【0028】
(A−2)第1の実施形態の動作
次に、第1の実施形態の自然言語処理装置の動作(第1の実施形態の自然言語処理方法)を説明する。以下では、適宜、入力文書に“work a 40 hour week”という文が含まれ(図3の5.1参照)、この文の構文解析を行うとして具体的な説明も加える。
【0029】
図2は、第1の実施形態の自然言語処理装置の動作(構文解析処理)を示すフローチャートである。
【0030】
まず、ユーザは、キーボード等の入力装置1.02を用いて、入力処理部1.12より入力文を入力する(S31)。入力処理部1.12は、その入力文を形態素解析部1.21に渡す。形態素解析部1.21は、その文を形態素解析し(S32)、形態素解析結果を構文解析部1.22に渡す。次に、構文解析処理部1.22は、形態素解析結果を構文解析する(S33)。なお、ここでの形態素解析処理及び構文解析処理は、以下の通りである。
【0031】
形態素解析部1.21では、文を単語単位に区切り、品詞や変化形の情報を付与する(特許文献2記載のものと同様である)。 形態素解析結果は、ルートノードを”Node”とした木構造で表現される。複数候補がない形態素の場合には、ルートノードの直下に各形態素の標準形と品詞や変化形などの形態素情報とが付与される。一方、複数候補がある形態素の場合には、orノードの子ノードとして各形態素候補の情報が付与される。図4は、上述した入力文“work a 40 hour week”に対する形態素解析結果を示している。なお、形態素解析結果に複数候補が存在する場合には、図4のように全ての候補を求める(符号4.1参照)。なお、図4などにおける“pos=”は品詞情報を表しており、“n”は名詞、“v”は動詞、“art”は冠詞である。
【0032】
構文解析部1.22は、パターン規則辞書1.3に格納されているパターン規則を、形態素解析結果にボトムアップに適用させて、入力文を構成するパターン規則の集合(木構造)を求めることによって構文解析する。これは、上記特許文献2のものとほぼ同様である。但し、上記特許文献2のものでは、「パターンの評価処理」を行っているが、第1の実施形態では、後述するように、構文解析結果候補の競合を解消しているので、上記特許文献2のような「パターンの評価処理」は実行しない。
【0033】
図5は、文ID付きパターン規則辞書1.31の格納例を示す説明図であり、上述した入力文例に関係するパターン規則6.1を示している。パターン規則6.1には、上述したように、文ID6.2が対応付けられている。図6は、汎用パターン規則辞書1.32の格納例を示す説明図であり、上述した入力文例に関係するパターン規則7.1を示している。
【0034】
両パターン規則6.1及び7.1は、同様な表記方法で表記されており、構文解析では区別することなく、適用される。パターン規則は、[言語名:パターン名 パターン構成要素]からなる。言語名は、そのパターン規則に係る言語名を規定するものであり、図5及び図6では英語(en)を規定している。言語名は、所定言語の構文解析専用であれば省略されていても良い。言語名に続くパターン名は、例えば、VP(動詞句)、NP(名詞句)、N(名詞)等の句構造規則での標識が適用される。パターン構成要素は、単語、変数、又は、単語と変数の2以上の並び、からなる。変数は[任意の数字:パターン名(木構造の下位ノードに対応する)]で記述される。任意の数字部分は、翻訳処理用の対となっている原言語及び目的言語パターン間での対応関係を示すものである(第2の実施形態参照)。構文解析においては、変数に、別のパターンが適用されることにより、パターンは入れ子構造をとることができる(変数が解消される)。また、単語及びパターン名は、意味情報などの詳細な情報(素性情報)を持つことができる。さらに、単語及びパターン名は、詳細情報を変数化して、情報の参照をすることもできる。
【0035】
構文解析部1.22は、構文解析が終了していないことを確認しつつ、パターン辞書引き処理、パターン検査処理及びパターン適用処理の3つの処理を繰り返し行うことにより、構文解析結果(候補)の木構造を形成する。
【0036】
パターン辞書引き処理は、形態素解析結果及びそれまでのパターン適用処理の結果から、次に適用の可能性のあるパターン規則をパターン規則辞書1.3から引く処理である。パターン検査処理は、辞書引きの結果得られたパターン規則が現在構築中の木構造に適合するか否かを、各木構造毎に検査する処理である。パターン適用処理は、検査の結果、適合すると判定された木構造とパターン規則とに基づいて、木構造にそのパターン規則を実際に適用する処理である。
【0037】
図7は、図4に示した形態素解析結果に対し、図5及び図6に示したようなパターン規則を適用して得られた構文解析結果(候補)を示すものである。多くの場合、構文解析結果は一意に定まらず、複数の候補を含むものとなる。図7の例では、“or”ノード9.1、9.2によって複数の構文解析結果候補を有している。ここで、図7に示すような構文解析結果(候補)において、適用されたパターン規則が文ID付きのパターン規則であれば、その文IDも、木構造の該当するノードの情報として付与される。また、文ID付きパターン規則辞書1.31と汎用パターン規則辞書1.32とに、付与されている文IDを除けば同じパターン規則が格納されている場合には、文ID付きパターン規則辞書1.31に格納されているものを優先する。
【0038】
構文解析結果(候補)を得た後は、文IDを利用した複数候補の解消(1個への絞り込み)を行う(S34〜S36)。
【0039】
まず、図7に示すような構文解析結果(候補)の木構造全体から、解析結果を構成しているパターン規則の文IDの個数を、例えば、構文解析部1.22が内蔵する図8に示すような文ID数え上げ表(バッファメモリの一種)を利用して数え上げる(S34)。
【0040】
なお、図9に示すような、“or”ノード直下の2個のパターン規則が同じパターン名かつ同じ文番号の場合には(言い換えると、選言的な解析結果にまたがって存在する複数の文IDの場合には)、1つとして数えることにより、数え上げの重複を避ける。
【0041】
図7の構文解析結果(候補)の場合、文IDが“120”をもつパターン規則はア、イ、ウ、工、オの5つであるので、図8の文ID数え上げ表の“120”の結果の欄には「5」がセットされ、一方、文IDが“92”をもつパターン規則はカ、キの2つなので、“92”の結果には「2」がセットされる。なお、図9の“<−>”は汎用パターン規則であるため文IDを持たないことを表している。従って、数え上げの対象から外されている。以上のようにして、図8の文ID数え上げ表の結果を得る。
【0042】
次に、その表中で最も数え上げ数の多い文IDを選択し、その文IDのパターン規則を最も多く有する構文解析結果候補を(最終的な)構文解析結果として選択する(S35)。図8の例では、文IDが“120”の数え上げ数が最大であるので、図7の構文解析結果候補(解析木)の中からア−オのパターン規則を有する構文解析結果候補が選択される。
【0043】
その後、選択された構文解析結果の中に、複数候補(選言的な部分)があるか否かを判別し、選択された構文解析結果の中に複数候補(選言的な部分)がなれば、一連の解消処理を終了する(S36)。
【0044】
図7の例では、ア−オのパターン規則を有するが構文解析結果候補が選択された段階で、複数候補がなくなるため、解消処理を終了する。
【0045】
一方、ステップS35の処理により、選択された構文解析結果の中に、また複数候補が存在すれば、先に決定したパターン規則の文IDを除き、再度、文IDの数え上げ処理を行い(S34)、複数候補の解消処理を繰り返す(S35)。例えば、“or”ノードが多段に存在するような場合においては、ステップS34〜S36でなる処理ループが繰り返されることも生じる。
【0046】
そして、全ての候補が確定して複数候補が解消すれば(S36)、依存構造解析部1.2は、構文解析結果を出力処理部1.11に渡し、CRTディスプレイなどの出力装置1.01から出力させ(S37)、構文解析処理を終了する。
【0047】
図10は、図7の構文解析結果候補に対し、複数候補の解消処理を行って得た最終的な構文解析結果を示している。
【0048】
なお、ステップS33での構文解析処理による構文解析結果において、文ID付きのパターン規則が適用されず、全て汎用パターン規則であって、複数候補が存在する場合には、他の複数候補の解消処理を行う。例えば、特許文献2に記載のものを適用することができる。また、文IDの数え上げによって、数え上げ数が最大となった文IDが複数生じた場合にも、例えば、特許文献2に記載の複数候補の解消処理を適用することができる。
【0049】
(A−3)第1の実施形態の効果
上記第1の実施形態によれば、以下の効果を奏することができる。
【0050】
正解の構文解析結果が得られた後でそれに基づいて作成された文ID付きパターン規則を利用しているので、構文解析の精度を向上させることができる。すなわち、文IDに基づいて、同一の文の解析結果から得られた複数のパターン規則を新たな文の解析結果に含めることができ、構文解析の精度を向上させることができる。
【0051】
例えば、図3における文“work a 40 hour week”の前にある同種の文“work a 5 day week”の解析結果が提示されたときに、ユーザがその解析結果に満足せず、パターン規則(文ID付きパターン規則)を作成したとすると、文“work a 40 hour week”の構文解析では、“work a 5 day week”の解析結果が反映された文ID付きパターン規則が適用されて、“work a 40 hour week”の構文解析結果として良好なものが得られる。
【0052】
また、上述したステップS34〜S36でなる処理ループの繰り返し処理により、複数の文IDを有するパターン規則を適用することもでき、過去の解析結果を反映させる場合において、過去の2文以上の解析結果を、今回の入力文に対する解析結果に反映させることができる。
【0053】
さらに、過去の事例から作成された文ID付パターン規則と、当初より人手によって作成された汎用パターン規則の両方を利用しているので、適用できる事例が少ない場合でも構文解析処理を実行することができる。
【0054】
(B)第2の実施形態
次に、本発明による自然言語処理装置、自然言語処理方法及び自然言語処理プログラムの第2の実施形態を図面を参照しながら説明する。第2の実施形態は、入力文(原言語文)を他の言語文(目的言語文)に変換する機械翻訳に、第1の実施形態と同様な技術思想を適用したものである。
【0055】
(B−1)第2の実施形態の構成
図11は、第2の実施形態の自然言語処理装置(機械翻訳装置)の機能的構成を示すブロック図である。なお、実際上は、例えば、パソコンなどの情報処理装置上に、第2の実施形態の自然言語処理プログラム(固定データを含む)がローディングされて、第2の実施形態の自然言語処理装置が構築されるが(なお、専用装置として構築しても良い)、機能的には、図11に示すように表すことができる。
【0056】
図11において、第2の実施形態の自然言語処理装置は、大きくは、入出力部2.1、翻訳処理部2.2、及び、翻訳パターン規則辞書2.3から構成されている。
【0057】
入出力部2.1や翻訳パターン規則辞書2.3は、第1の実施形態のものとほぼ同様である。なお、第2の実施形態の翻訳パターン規則辞書2.3は、第1の実施形態のパターン規則辞書に準じているが、格納されている規則は、二言語対からなるパターン規則(翻訳パターン規則)となっている。図13は、翻訳パターン規則辞書2.3における文ID付翻訳パターン規則2.31の格納例を示し、図14は、翻訳パターン規則辞書2.3における汎用翻訳パターン規則2.32の格納例を示している。文ID付翻訳パターン規則2.31では、二言語対からなる各対の翻訳パターン規則に文IDが付与されている。
【0058】
翻訳処理部2.2は、形態素解析部2.21、構文解析・生成部2.22、及び、形態素生成部2.23から構成されている。
【0059】
形態素解析部2.21は、第1の実施形態のものと同様なものである。構文解析・生成部2.22における構文解析機能は、第1の実施形態の構文解析部の機能と同様である。構文解析・生成部2.22における構文生成機能は、対となっている目的言語のパターン規則に基づいた生成処理を行う機能である。形態素生成部2.23は、目的言語の各単語の変化形や活用形の整形を行うものである。なお、翻訳処理部2.2は、原言語の構文解析結果の複数候補の解消処理を除き、特許文献2に記載の翻訳処理部とほぼ同様なものである。
【0060】
(B−2)第2の実施形態の動作
次に、第2の実施形態の自然言語処理装置の動作(第2の実施形態の自然言語処理方法)を説明する。以下では、適宜、入力文書に“work a 40 hour week”という文が含まれ(図3の5.1参照)、この文を機械翻訳するとして具体的な説明も加える。
【0061】
図12は、第2の実施形態の自然言語処理装置の動作(機械翻訳処理)を示すフローチャートである。
【0062】
第2の実施形態における入力処理(S121)及び形態素解析処理(S122)は、第1の実施形態と同様であるので、その詳細説明は省略する。
【0063】
構文解析処理(S123)も、第1の実施形態とほぼ同様であるが、以下の点が異なっている。まず、構文解析処理に利用するパターン規則が、図13及び図14に示したような英語パターン規則と日本語パターン規則の対の翻訳パターン規則であるという点である。入力文を原言語側のパターン規則で構文解析することにより、目的言語(翻訳側)の構文解析結果も同時に得る(特許文献2参照)。上述した入力文の形態素解析結果(図4)を図13及び図14に示す翻訳パターン規則で構文解析した結果を図15に示している。図15と第1の実施形態における図7の違いは、構文に関する複数候補に加え、符号15.1に示すような訳語に関する複数候補も現われる点である。すなわち、ステップS123での構文解析処理では、原言語側でのパターン規則が同じであっても、訳語でのパターン規則が異なる場合には、訳語でのパターン規則が異なることを明らかにして、構文解析木に、原言語でのパターン規則をそれぞれ含める。
【0064】
しかし、構文の複数候補も訳語の複数候補も、第1の実施形態と同様に、文IDの数え上げ表を用いることにより解消する。
【0065】
形態素解析結果に対する構文解析処理が終了すると、次に、文IDの数え上げ処理を行う(S124)。図15に示す構文解析結果に対しては、図16に示すような文IDの数え上げ表が作成される。文IDが“120”の結果が5つとなって最大であるので、文ID“120”の翻訳パターン規則が採用され(S125)、この結果、図17に示すような文ID“120”の翻訳パターン規則を最も含む構文解析結果候補を得る。
【0066】
図17には複数候補が存在しないので(S126)、次の処理に進む。なお、第1の実施形態と同様に、ステップS124からS126でなる処理ループが、複数候補がなくなるまで繰り返し実行される。
【0067】
ステップS124からS126でなる処理ループの繰り返し処理により、複数候補が存在しなくなると、原言語の構文解析結果が得られると同時に、図18に示すような目的言語の構文解析結果も得られる。図12では、構文生成処理を別個のステップで記載しているが、原言語の構文解析結果を得る処理とほぼ並行して、目的言語の構文解析結果を生成する構文生成処理を実行する(S127)。
【0068】
構文生成処理では、翻訳パターン規則辞書2.3を参照し、原言語(英語)のパターンと対をなしている目的言語(日本語)のパターンを利用して、構文解析結果に対応する日本語の木構造を得る(特許文献2参照)。なお、翻訳パターンは、原言語パターンと翻訳パターンとの対になっており、その対応が一意であるので、実際上は、構文解析処理と構文生成処理とがほぼ並行して実行される。
【0069】
次に、目的言語の木構造(構文生成結果)に基づいて形態素生成処理を行い(S128)、最終的な翻訳結果を得て、この翻訳結果を、CRTディスプレイなどの出力装置2.01により出力する(S129)。ここで、形態素生成処理では、構文生成結果を、終端ノードに位置する日本語単語を左から順に並べ、目的言語形態素辞書(図示せず)を用いて、動詞の活用形を整えたりなど、各単語の整形を行う。
【0070】
例えば、“work a 40 hour week”という原文に対して、「週40時間の仕事」という翻訳結果が得られる。
【0071】
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と同様な効果に加えて、以下の効果を奏することができる。
【0072】
過去の翻訳事例から作成した文ID付翻訳パターン規則を適用して構文解析すると共に、一旦得られた構文解析結果に対して、文IDを利用した複数候補の解消を行うことにより、構文の複数候補の解消と訳語の複数候補の解消を同時に行うことができる。
【0073】
文単位の既存対訳文書の利用ではなく、過去の翻訳文を翻訳パターン規則として部分的に分解して利用することにより、既存対訳文書の利用機会を高めることができる。部分的に分解して利用すると、部分同士の関係情報がないため間違って組み合わされるという問題が生じるが、文ID情報を利用することにより、組み合わせ時に、過去の翻訳文を再現しようという仕組みが働くため、より適切な組み合わせが選択される。
【0074】
事例に基づいた翻訳方式として一般的な用例主導型翻訳では、過去の翻訳例文から最も類似している文を見つけ出し、その差分(異なっている箇所)を抽出して、その差分を機械翻訳し、もとの翻訳例文に差分を置き換えるという、処理工程の多い手法をとるが、この第2の実施形態の手法では、採用された文IDが付与されていない部分が上記の差分に該当し、構文解析処理だけで用例主導型翻訳と類似する結果が得られる。
【0075】
(C)第3の実施形態
以下、本発明による自然言語処理装置、自然言語処理方法及び自然言語処理プログラムの第3の実施形態を図面を参照しながら説明する。第3の実施形態は、入力文に対する構文解析結果を得るものである。
【0076】
第3の実施形態の自然言語処理装置(構文解析装置)も、例えば、パソコンなどの情報処理装置上に、第3の実施形態の自然言語処理プログラム(固定データを含む)がローディングされて構築されるが(なお、専用装置として構築しても良い)、機能的には、第1の実施形態に係る図1で表すことができる。
【0077】
第3の実施形態の自然言語処理装置は、第1の実施形態に比較すると、構文解析部1.22での処理が異なっている。
【0078】
上述した第1の実施形態では、図7に示すような構文解析結果(構文解析木)を得る際には文IDを利用せず、構文解析木での複数候補の解消時に、文IDを利用するものであったが、この第3の実施形態は、構文解析木を形成していく処理中でも文IDを利用して、構文解析を高速に実行できること、構文解析木が得られた際に、できるだけ複数候補が生じないようにすることを達成しようとしたものである。
【0079】
第3の実施形態は、ボトムアップ的な手法では、下位パターン規則の条件を満たす上位パターン規則の適用によって、構文解析木が構築されていくが、新しいパターン規則を適用する際に、そのパターン規則が持つ文IDと同じ文IDを持つパターン規則(上位パターン規則)を優先的に選択するように解析することにより、適用するパターン規則の探索空間を狭くして、高速化と複数候補の排除とを達成しようとしたものである。
【0080】
図19は、第3の実施形態における構文解析処理(図2のS33〜S36に対応)を示すフローチャートである。なお、図19は、文IDの利用面に重点を置いて、処理の流れを示している。また、図19でのバッファ1及びバッファ2は、構文解析部1.22が内蔵するものである。
【0081】
まず、形態素解析結果から未処理の1個の形態素を選択し(S191)、パターン規則辞書1.3から、その形態素に適用するパターン規則を検索し、検索結果をバッファ1に格納する(S192)。かかる処理を、形態素解析結果の全ての形態素に対して繰り返す(S193)。ここでも、文ID付きパターン規則辞書1.31と汎用パターン規則辞書1.32とに、付与されている文IDを除けば同じパターン規則が格納されている場合には、文ID付きパターン規則辞書1.31に格納されているものを優先してバッファ1に格納する。
【0082】
例えば、図4における形態素「work,pos=n」、「work,pos=v」、…毎にステップS191〜S193の処理が繰り返される。形態素「work,pos=n」については、図5の符号6.3のパターン規則がバッファ1に格納され、形態素「work,pos=v」については、図6の符号7.2のパターン規則がバッファ1に格納される。
【0083】
全ての形態素に対するパターン規則の検索が終了すると、ステップS194以降の関連するパターン規則(主として上位パターン規則)の検索に移行する。
【0084】
関連パターン規則の検索ではまず、バッファ1内の1個の未処理のパターン規則を処理対象とし、そのパターン規則が有する文IDをバッファ2に格納し(S194)、その未処理のパターン規則の関連パターン規則として、バッファ2に格納されている文IDを有するものの中から検索する(S195)。なお、処理対象の未処理のパターン規則に文IDが付与されていない場合には、文IDのバッファ2への格納は省略され、又は、無意味な値がバッファ2に格納される(S194)。また、ステップS194での処理対象となる未処理のパターン規則には、上述したステップS192で格納されたものだけでなく、後述するステップS197やS198で格納されたものもなり得る。
【0085】
例えば、図5の符号6.3が付されたパターン規則が処理対象となったときには、文IDが120を有するパターン規則が検索対象となる。
【0086】
その後、バッファ2に格納されている文IDを有する関連パターン規則が検索できたか否かを判別する(S196)。そして、検索できた場合には、検索された関連パターン規則をバッファ1に追加する(S197)。この追加時には、パターン規則間の上下関係などの関係情報も格納される。一方、該当する文IDを有する関連パターン規則が検索できなかった場合には、その文IDを持たないパターン規則から検索を行い、検索された関連パターン規則をバッファ1に追加する(S198)。なお、この際の検索で関連パターン規則が検索できなかった場合には、そのことを無視して次の処理に移行する。また、ステップS197又はS198で検索結果をバッファ1に格納した際には、処理対象となっているパターン規則以外のバッファ1に格納されているパターン規則の中に、今回、検索された関連パターン規則と連結されて自動的に処理済みになるものも生じる。
【0087】
次に、今回検索された関連パターン規則が、終了カテゴリ(S(センテンス)に関するパターン規則)か否かを判別する(S199)。
【0088】
終了カテゴリに達していなければ、バッファ1に関連パターン規則の検索を行っていない未処理のパターン規則が残っているか否かを判別し(S200)、残っていれば、上述したステップS194に戻り、残っていなければ、構文解析失敗として一連の処理を終了する。
【0089】
関連パターン規則の検索により、終了カテゴリに達した場合には、第1の実施形態と同様に、構文解析木に含まれている文IDの多少に応じて、複数候補の解消などを行い、構文解析結果を一通りに絞り込んで一連の処理を終了する(S201、S202)。
【0090】
第3の実施形態によれば、第1の実施形態と同様な効果に加え、構文解析木の構築時において、下位パターン規則が持つ文IDと同じ文IDを持つ関連パターン規則(上位パターン規則)を優先的に選択するようにしたことにより、適用するパターン規則の探索空間が狭くなり、構文解析処理の高速化や複数候補の排除とを達成できるという効果をも奏する。
【0091】
(D)第4の実施形態
以下、本発明による自然言語処理装置、自然言語処理方法及び自然言語処理プログラムの第4の実施形態を図面を参照しながら説明する。第4の実施形態も、入力文に対する構文解析結果を得るものである。
【0092】
第4の実施形態の自然言語処理装置(構文解析装置)も、例えば、パソコンなどの情報処理装置上に、第4の実施形態の自然言語処理プログラム(固定データを含む)がローディングされて構築されるが(なお、専用装置として構築しても良い)、機能的には、第1の実施形態に係る図1で表すことができる。
【0093】
第4の実施形態の自然言語処理装置は、第1の実施形態に比較すると、構文解析部1.22での処理が異なっている。
【0094】
この第4の実施形態も、第3の実施形態と同様に、構文解析木を形成していく処理中でも文IDを利用して、構文解析を高速に実行できること、構文解析木が得られた際に、できるだけ複数候補が生じないようにすることを達成しようとしたものである。
【0095】
パターン規則を用いた構文解析では、ボトムアップ的な手法をとっており、最初は、語彙(形態素)が含まれるパターン規則の適用から始まる。第4の実施形態は、同一の文IDをもつパターン規則を優先的に適用するものであり、語彙が含まれるパターン規則の適用時に、優先すべき文IDを予め決定しておき、それ以降の関連パターン規則(主として上位パターン規則)の検索時に、その文IDを有するパターン規則の適用を優先するという方法である。これは、語彙に関するパターン規則をチェックするだけでも、優先すべき文IDの予想がつくためである。
【0096】
第4の実施形態では、まず、全ての語彙のいずれかを含むパターン規則の適用を最初に決め、最も適用数が多い文IDを選択する(数個でも構わない)。以降は、その選択された文IDを持つパターン規則を優先的に適用させる。予め語彙に関するパターン規則で探索すべき文IDを制限することによって、探索空間を狭めることができるため、高速化が見込めると共に、構文解析木が形成された際に複数候補もほとんど生じさせなくすることができる。
【0097】
図20は、第4の実施形態における構文解析処理(図2のS33〜S36に対応)を示すフローチャートである。なお、図20は、文IDの利用面に重点を置いて、処理の流れを示している。また、図20でのバッファ1〜バッファ3は、構文解析部1.22が内蔵するものである。
【0098】
まず、形態素解析結果の全ての形態素のそれぞれに対し、パターン規則辞書1.3から、その形態素に適用するパターン規則を検索し、検索結果をバッファ1に格納する(S211〜S213)。かかる処理は、上述した第3の実施形態と同様である。
【0099】
次に、バッファ1に格納されている形態素(語彙)に適用するパターン規則に付与されている文IDを、文ID毎に数え上げ、最も適用数が多い文IDをバッファ2に格納する(S214、S215)。
【0100】
例えば、上述した入力文“work a 40 hour week”の場合であれば、図5の符号6.3や6.4などに係るパターン規則が、形態素(語彙)に適用するパターン規則となり、その文ID“120”のパターン規則が最も多く適用されていることになり、120がバッファ2に格納される。
【0101】
文IDのバッファ2への格納が終了すると、ステップS216以降の関連するパターン規則(主として上位パターン規則)の検索に移行する。
【0102】
関連パターン規則の検索ではまず、バッファ1内の1個の未処理のパターン規則を処理対象とし、その未処理のパターン規則の関連パターン規則を、バッファ2に格納されている文IDを有するものの中から検索し、検索できたか否かを判別する(S216、S217)。すなわち、処理対象の未処理のパターン規則に文IDが付与されていない場合や異なる文IDが付与されていても、バッファ2に格納されている文IDを利用した検索が実行される。なお、ステップS216での処理対象となる未処理のパターン規則には、上述したステップS212で格納されたものだけでなく、後述するステップS218やS223で格納されたものもなり得る。
【0103】
例えば、バッファ2に格納されている文IDが“120”の場合において、仮に、図5の符号6.5を付したパターン規則(文ID92)や、図6の符号7.3を付したパターン規則が処理対象となった場合でも、ステップS216での検索では、文IDが“120”のパターン規則を探索範囲として実行される。
【0104】
バッファ2に格納されている文IDを有する関連パターン規則が検索できた場合には、検索された関連パターン規則をバッファ1に追加する(S218)。この追加時には、パターン規則間の上下関係などの関係情報も格納される。また、検索結果をバッファ1に追加格納した際には、処理対象となっているパターン規則以外のバッファ1に格納されているパターン規則の中に、今回、検索された関連パターン規則と連結されて自動的に処理済みになるものも生じる。一方、該当する文IDを有する関連パターン規則が検索できなかった場合には、検索できなかった旨の情報と共に、処理対象となっているパターン規則をバッファ3に格納する(S219)。
【0105】
次に、今回検索された関連パターン規則(S218による)により、終了カテゴリ(S(センテンス)に関するパターン規則)に達したか否かを判別する(S220)。
【0106】
終了カテゴリに達していなければ、バッファ1に関連パターン規則の検索を行っていない未処理のパターン規則が残っているか否かを判別し(S221)、残っていれば、上述したステップS216に戻る。
【0107】
終了カテゴリに達しておらず、しかも、バッファ1に未処理のパターン規則が残っていなければ、バッファ3に格納されているパターン規則があるか否かを判別する(S222)。この場合において、バッファ3に格納されているパターン規則がなければ、構文解析失敗として一連の処理を終了する。
【0108】
バッファ3に格納されているパターン規則があれば、その中の未処理(S223について未処理)のパターン規則を1個取り出し、取り出したパターン規則に関連するパターン規則(上位パターン規則)を、バッファ2に格納されている文IDを有するパターン規則以外のパターン規則の中から検索し、検索されたパターン規則をバッファ1に追加する(S223)。なお、この際の検索で関連パターン規則が検索できなかった場合には、そのことを無視して次の処理(S224)に移行する。
【0109】
このような処理を、バッファ3に格納されている全てのパターン規則について繰り返す(S224)。そして、バッファ3に格納されている全てのパターン規則について、それぞれ、バッファ2に格納されている文IDに関係しないパターン規則からの検索を終了すると、上述したステップS223での検索でバッファ1にパターン規則が追加されたか否かを判別する(S225)。
【0110】
バッファ1に追加されたパターン規則がなければ、構文解析失敗として一連の処理を終了する。一方、バッファ1に追加されたパターン規則があれば、バッファ3をクリアして、上述したステップS216に戻る。
【0111】
上述したようなボトムアップの検索を繰り返し、終了カテゴリに達した場合には、構文解析成功として一連の処理を終了する。
【0112】
なお、上記では、ステップS215の処理によってバッファ2に格納する文IDが1個の場合を説明したが、形態素(語彙)に適用するパターン規則の文IDの多い方の複数個を格納するようにしても良い。この場合にも、バッファ2に格納された複数の文IDのいずれかを有するパターン規則の集合が関連パターン規則(上位パターン規則)の探索範囲となる。この場合には、終了カテゴリに達し、構文解析成功とした後に、上述した第3の実施形態に係る図19のステップS201及びS202でなるような、複数候補の解消処理を実行することを要する。
【0113】
第4の実施形態によれば、第1の実施形態と同様な効果に加え、構文解析木の構築時において、全ての語彙のいずれかを含むパターン規則の適用を最初に決め、適用数が多い文IDを選択し、以降は、その選択された文IDを持つパターン規則を優先的に適用させるようにしたので、探索空間を狭めることができ、高速化が見込めると共に、構文解析木が形成された際に複数候補もほとんど生じさせなくすることができる。
【0114】
(E)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【0115】
第1の実施形態で説明した文ID付きパターン規則の作成方法に代え、参考にしたい文書が既に存在し、そこからパターン規則を作成したい場合には、http://cl.aist−nara.ac.jp/lab/nlt/NLT.htmlのような統計的な手法を利用した構文解析ツールを用いて構文解析し、その構文解析結果から、名詞句、動詞句、形容詞句、副詞句などの句単位のパターン規則に分割し、パターン規則を作成する方法を適用することができる。
【0116】
文ID付き翻訳パターン規則の作成方法(第2の実施形態参照)として、以下の方法を適用できる。参考にしたい翻訳文書が既に存在し、そこから翻訳パターン規則を作成したい場合には、特願2002−367553号明細書及び図面の記載方法を用いることによって翻訳パターン規則を作成することができる。
【0117】
文ID付(翻訳)パターン規則辞書は複数存在していても構わない。文ID付(翻訳)パターン規則辞書を分野や文書毎に複数用意し、参考にしたい分野や文書に合わせて、文ID付(翻訳)パターン規則辞書を使い分けることにより、参考となる分野や文書における結果を模倣する構文解析結果や翻訳結果を得ることができる。
【0118】
上記各実施形態では、英語構文解析装置や、英日機械翻訳装置の場合を例に示したが、処理対象文の言語はいずれの言語であっても構わない。
【0119】
第3の実施形態や第4の実施形態の特徴的な技術思想は、機械翻訳装置における構文解析処理(第2の実施形態参照)に適用することができる。
【0120】
上記各実施形態における解析結果や翻訳結果をユーザに表示し、その結果をユーザに確認させ、正解ならば、その際、使用された(翻訳)パターン規則の全て、又は、文IDが付与されていないものを、文IDを付与して、文ID付(翻訳)パターン規則辞書に格納することによって、利用すればするほど、規則が蓄積され、処理の精度を向上させることもできる。すなわち、パターン規則学習部やユーザ登録部を設けるようにしても良い。また、ある文章に対して得られた構文解析結果を構成する、全てのパターン規則、又は、文IDが付与されていないものを、ユーザに確認させることなく、自動的に、文IDを付与して、文ID付パターン規則辞書に格納するようにしても良い。
【0121】
第1の実施形態で説明した文IDが付与されたパターン規則が存在しない場合だけでなく、文IDを利用した複数候補の解消と、特許文献2記載のコスト計算を利用した複数候補解消とを組み合わせることもできる。例えば、最も多い数が出現した文IDでも、その出現数が所定数以下であれば、文IDを利用した複数候補の解消方法ではなく、特許文献2記載のコスト計算を利用した複数候補の解消方法を利用する。また例えば、特許文献2記載のコスト計算式に、文IDの数え上げた数をパラメータとする項などを設け、文IDの数が多ければ多いほどコストが低くなるようなコストを定義し、そのコストと他で定義される構文解析結果のコストを合わせて計算し、最小のコストでなるパターン規則を選択することによって複数の構文解析結果候補から最適な構文解析結果を求めるようにしても良い。
【0122】
第1の実施形態や第4の実施形態で、数え上げ数が閾値数より少ない文IDを無視するようにしても良い。
【0123】
また、文IDと構文要素のカテゴリの両方を同時に評価するようにしても良い。例えば、一部の特別なカテゴリ(NP(名詞句)やVP(動詞句)などの自立語系のカテゴリ)をもつパターン規則の文IDだけを数えるようにしても良い。つまり、構文要素のカテゴリを考慮して文IDを利用するようにしても良い。
【0124】
上記各実施形態では、同一の文IDは、同一の文から形成されたパターン規則に付与するものを示したが、文IDをパターン規則の同時適用度として付与するようにしても良い。
【0125】
例えば、同時適用されやすいパターン規則に共通の文IDを与えることによって、同時適用され易いパターンの組み合わせからなる解析結果が優先的に選ばれるようになる。同一の文IDの付与は、過去の文書で1文中に同時に出現する場合だけでなく、他の手段によって付与することもできる。例えば、関連分野別にパターン規則を分類しておき、関連分野毎に同一の文IDを付与すると、同一の関連分野のパターン規則の組み合わせからなる解析結果が優先されるようになる。パターン規則の関連分野別の分類は、文章を分野に振分け、その文章から得られたパターン規則に文IDを付与することにより行うことができる。
【0126】
また例えば、“work a 40 hour week”に基づいて、パターン規則を作成して文IDを付与した場合において、その文の類似文“worka 5 day week”を考慮してパターン規則を作成し、その作成したパターン規則にも同一の文IDを付与するようにしても良い。
【0127】
【発明の効果】
以上のように、本発明によれば、同一文に同時に適用する可能性の高さを示す文IDが付与された文ID付パターン規則を用意して、同一の文IDが付与されたパターン規則が多くなっている構文解析結果を採用するようにしたので、構文解析結果の精度を高めることができる。
【図面の簡単な説明】
【図1】第1の実施形態の自然言語処理装置の機能的構成を示すブロック図である。
【図2】第1の実施形態の自然言語処理装置の動作を示すフローチャートである。
【図3】第1の実施形態の処理の具体的な説明のための入力文の例を示す説明図である。
【図4】図3の入力文に対する第1の実施形態での形態素解析例を示す説明図である。
【図5】第1の実施形態の文ID付きパターン規則辞書の格納例を示す説明図である。
【図6】第1の実施形態の汎用パターン規則辞書の格納例を示す説明図である。
【図7】第1の実施形態の複数候補の解消前の構文解析結果例を示す説明図である。
【図8】第1の実施形態の文ID数え上げ表の一例を示す説明図である。
【図9】第1の実施形態の文IDの数え上げ方法の例外の説明図である。
【図10】第1の実施形態の複数候補の解消後の構文解析結果例を示す説明図である。
【図11】第2の実施形態の自然言語処理装置の機能的構成を示すブロック図である。
【図12】第2の実施形態の自然言語処理装置の動作を示すフローチャートである。
【図13】第2の実施形態の文ID付き翻訳パターン規則辞書の格納例を示す説明図である。
【図14】第2の実施形態の汎用翻訳パターン規則辞書の格納例を示す説明図である。
【図15】第2の実施形態の複数候補の解消前の構文解析結果例を示す説明図である。
【図16】第2の実施形態の文ID数え上げ表の一例を示す説明図である。
【図17】第2の実施形態の複数候補の解消後の構文解析結果例を示す説明図である。
【図18】第2の実施形態の構文生成結果例を示す説明図である。
【図19】第3の実施形態の構文解析処理を示すフローチャートである。
【図20】第4の実施形態の構文解析処理を示すフローチャートである。
【符号の説明】
1.1…入出力部、1.11…出力処理部、1.12…入力処理部、1.2…依存構造解析部、1.21…形態素解析部、1.22…構文解析部、1.3…パターン規則辞書、1.31…文ID付きパターン規則辞書、1.32…汎用パターン規則、2.1…入出力部、2.11…出力処理部、2.12…入力処理部、2.2…翻訳処理部、2.21…形態素解析部、2.22…構文解析・生成部、2.23…形態素生成部、2.3…翻訳パターン規則辞書、2.31…文ID付翻訳パターン規則、2.32…汎用翻訳パターン規則。
Claims (19)
- 少なくともパターン名及びパターン構成要素を有するパターン規則を利用して、少なくとも入力文の構文解析結果を得る処理を伴う自然言語処理装置において、
同一文に同時に適用する可能性の高さを示す文IDが付与されたパターン規則を格納している文ID付パターン規則辞書と、
解析対象の入力文を形態素解析する形態素解析手段と、
形態素解析結果に対し、上記文ID付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文IDが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する構文解析手段と
を有することを特徴とする自然言語処理装置。 - 上記構文解析手段は、上記文IDを考慮しないで複数のパターン規則の木構造でなる構文解析結果を得た後、その結果に含まれているパターン規則に付与されている文IDに基づき、同一の文IDが付与されたパターン規則が多くなるように、複数候補の解消を行って最終的な構文解析結果を得ることを特徴とする請求項1に記載の自然言語処理装置。
- 上記構文解析手段は、同一の文IDが付与されたパターン規則の数を計数する際に、選言的な構造内に同一パターン規則が複数存在する場合には、それらをまとめて1つとして数えることを特徴とする請求項2に記載の自然言語処理装置。
- 上記構文解析手段は、上記形態素解析結果における各形態素で上記文ID付パターン規則辞書を参照して木構造の下位のパターン規則を定め、上記各下位パターン規則に対する上位パターン規則の探索を、当該下位パターン規則に付与されている文IDと同一のものを優先させて行いながら、最終的な構文解析結果を得ることを特徴とする請求項1に記載の自然言語処理装置。
- 上記構文解析手段は、上記形態素解析結果における各形態素で上記文ID付パターン規則辞書を参照して木構造の下位のパターン規則を定め、定められた複数の下位パターン規則に多く付与されている文IDを検出し、上記各下位パターン規則に対する上位パターン規則の探索を、検出された文IDと同一のものを優先させて行いながら、最終的な構文解析結果を得ることを特徴とする請求項1に記載の自然言語処理装置。
- パターン規則の検索対象の辞書として、上記文ID付パターン規則辞書に加え、文IDが付与されていない汎用的なパターン規則を格納している汎用パターン規則辞書を有することを特徴とする請求項1〜5のいずれかに記載の自然言語処理装置。
- 上記文ID付パターン規則辞書は、文ID付パターン規則を追加して登録できるものであることを特徴とする請求項1〜6のいずれかに記載の自然言語処理装置。
- 上記文ID付パターン規則辞書として、文書や分野などに応じて区別される複数の文ID付パターン規則辞書を有することを特徴とする請求項1〜7のいずれかに記載の自然言語処理装置。
- 当該自然言語処理装置が機械翻訳装置であり、上記構文解析手段が、原言語文に対する構文解析を行うものであることを特徴とする請求項1〜8のいずれかに記載の自然言語処理装置。
- コンピュータを用いて、少なくともパターン名及びパターン構成要素を有するパターン規則を利用して、少なくとも入力文の構文解析結果を得る処理を伴う自然言語処理方法において、
上記コンピュータは、文ID付パターン規則辞書、形態素解析部及び構文解析部を備え、
上記文ID付パターン規則辞書には、同一文に同時に適用する可能性の高さを示す文IDが付与されたパターン規則を格納しておくと共に、
解析対象の入力文を形態素解析する、上記形態素解析部が実行する形態素解析工程と、
形態素解析結果に対し、上記文ID付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文IDが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する、上記構文解析部が実行する構文解析工程と
を有することを特徴とする自然言語処理方法。 - 上記構文解析工程は、上記文IDを考慮しないで複数のパターン規則の木構造でなる構文解析結果を得た後、その結果に含まれているパターン規則に付与されている文IDに基づき、同一の文IDが付与されたパターン規則が多くなるように、複数候補の解消を行って最終的な構文解析結果を得ることを特徴とする請求項10に記載の自然言語処理方法。
- 上記構文解析工程は、同一の文IDが付与されたパターン規則の数を計数する際に、選言的な構造内に同一パターン規則が複数存在する場合には、それらをまとめて1つとして数えることを特徴とする請求項11に記載の自然言語処理方法。
- 上記構文解析工程は、上記形態素解析結果における各形態素で上記文ID付パターン規則辞書を参照して木構造の下位のパターン規則を定め、上記各下位パターン規則に対する上位パターン規則の探索を、当該下位パターン規則に付与されている文IDと同一のものを優先させて行いながら、最終的な構文解析結果を得ることを特徴とする請求項10に記載の自然言語処理方法。
- 上記構文解析工程は、上記形態素解析結果における各形態素で上記文ID付パターン規則辞書を参照して木構造の下位のパターン規則を定め、定められた複数の下位パターン規則に多く付与されている文IDを検出し、上記各下位パターン規則に対する上位パターン規則の探索を、検出された文IDと同一のものを優先させて行いながら、最終的な構文解析結果を得ることを特徴とする請求項10に記載の自然言語処理方法。
- パターン規則の検索対象の辞書として、上記文ID付パターン規則辞書に加え、文IDが付与されていない汎用的なパターン規則を格納している汎用パターン規則辞書も上記コンピュータに予め用意されていることを特徴とする請求項10〜14のいずれかに記載の自然言語処理方法。
- 上記文ID付パターン規則辞書は、文ID付パターン規則を追加して登録できるものであることを特徴とする請求項10〜15のいずれかに記載の自然言語処理方法。
- 上記文ID付パターン規則辞書として、文書や分野などに応じて区別される複数の文ID付パターン規則辞書が用意されていることを特徴とする請求項10〜16のいずれかに記載の自然言語処理方法。
- 当該自然言語処理方法が機械翻訳方法であり、上記構文解析工程が、原言語文に対する構文解析を行うことを特徴とする請求項10〜17のいずれかに記載の自然言語処理方法。
- コンピュータを、
同一文に同時に適用する可能性の高さを示す文IDが付与されたパターン規則を格納している文ID付パターン規則辞書と、
解析対象の入力文を形態素解析する形態素解析手段と、
形態素解析結果に対し、上記文ID付パターン規則辞書を参照しながら、複数のパターン規則の木構造でなる構文解析結果を得るものであって、同一の文IDが付与されたパターン規則が多くなる、パターン規則間の木構造を採用する構文解析手段
として機能させるために、
コンピュータが実行可能なコードで記述していることを特徴とする自然言語処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003150598A JP3765799B2 (ja) | 2003-05-28 | 2003-05-28 | 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム |
US10/776,518 US20040243394A1 (en) | 2003-05-28 | 2004-02-12 | Natural language processing apparatus, natural language processing method, and natural language processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003150598A JP3765799B2 (ja) | 2003-05-28 | 2003-05-28 | 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004355204A JP2004355204A (ja) | 2004-12-16 |
JP3765799B2 true JP3765799B2 (ja) | 2006-04-12 |
Family
ID=33447734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003150598A Expired - Fee Related JP3765799B2 (ja) | 2003-05-28 | 2003-05-28 | 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040243394A1 (ja) |
JP (1) | JP3765799B2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060009966A1 (en) * | 2004-07-12 | 2006-01-12 | International Business Machines Corporation | Method and system for extracting information from unstructured text using symbolic machine learning |
GB2428508B (en) * | 2005-07-15 | 2009-10-21 | Toshiba Res Europ Ltd | Parsing method |
US8315874B2 (en) * | 2005-12-30 | 2012-11-20 | Microsoft Corporation | Voice user interface authoring tool |
US8060357B2 (en) * | 2006-01-27 | 2011-11-15 | Xerox Corporation | Linguistic user interface |
US7552047B2 (en) * | 2006-05-02 | 2009-06-23 | International Business Machines Corporation | Instance-based sentence boundary determination by optimization |
JP5256654B2 (ja) * | 2007-06-29 | 2013-08-07 | 富士通株式会社 | 文章分割プログラム、文章分割装置および文章分割方法 |
US20090024385A1 (en) * | 2007-07-16 | 2009-01-22 | Semgine, Gmbh | Semantic parser |
JP5032453B2 (ja) * | 2008-12-15 | 2012-09-26 | 株式会社東芝 | 機械翻訳装置及び機械翻訳プログラム |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
KR101356417B1 (ko) * | 2010-11-05 | 2014-01-28 | 고려대학교 산학협력단 | 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법 |
JP2012212422A (ja) * | 2011-03-24 | 2012-11-01 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
WO2013048986A1 (en) * | 2011-09-26 | 2013-04-04 | Knoa Software, Inc. | Method, system and program product for allocation and/or prioritization of electronic resources |
DE112012005177T5 (de) * | 2011-12-12 | 2014-08-28 | International Business Machines Corporation | Erzeugens eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich |
US9372846B1 (en) * | 2013-11-20 | 2016-06-21 | Dmitry Potapov | Method for abstract syntax tree building for large-scale data analysis |
CN104281649B (zh) * | 2014-09-09 | 2017-04-19 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
US20160259851A1 (en) * | 2015-03-04 | 2016-09-08 | The Allen Institute For Artificial Intelligence | System and methods for generating treebanks for natural language processing by modifying parser operation through introduction of constraints on parse tree structure |
JP7103763B2 (ja) * | 2017-07-20 | 2022-07-20 | 株式会社日立製作所 | 情報処理システムおよび情報処理方法 |
US10445423B2 (en) * | 2017-08-17 | 2019-10-15 | International Business Machines Corporation | Domain-specific lexically-driven pre-parser |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62203273A (ja) * | 1986-03-04 | 1987-09-07 | Toshiba Corp | 機械翻訳システム |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US6161083A (en) * | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
US6539348B1 (en) * | 1998-08-24 | 2003-03-25 | Virtual Research Associates, Inc. | Systems and methods for parsing a natural language sentence |
US6243669B1 (en) * | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6275791B1 (en) * | 1999-02-26 | 2001-08-14 | David N. Weise | Natural language parser |
US7024351B2 (en) * | 2001-08-21 | 2006-04-04 | Microsoft Corporation | Method and apparatus for robust efficient parsing |
-
2003
- 2003-05-28 JP JP2003150598A patent/JP3765799B2/ja not_active Expired - Fee Related
-
2004
- 2004-02-12 US US10/776,518 patent/US20040243394A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2004355204A (ja) | 2004-12-16 |
US20040243394A1 (en) | 2004-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3765799B2 (ja) | 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム | |
US5895446A (en) | Pattern-based translation method and system | |
US5418717A (en) | Multiple score language processing system | |
US8185377B2 (en) | Diagnostic evaluation of machine translators | |
Martins et al. | Spelling correction for search engine queries | |
CN110543644A (zh) | 包含术语翻译的机器翻译方法、装置与电子设备 | |
JP2001523019A (ja) | テキストの本文の談話構造の自動認識 | |
JP3921523B2 (ja) | テキスト生成方法及びテキスト生成装置 | |
JP2011118689A (ja) | 検索方法及びシステム | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
JP3932350B2 (ja) | 言語変換処理統一システム | |
WO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP3369127B2 (ja) | 形態素解析装置 | |
KR100420474B1 (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
L’haire | FipsOrtho: A spell checker for learners of French | |
CN113330430A (zh) | 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序 | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
Gavhal et al. | Sentence Compression Using Natural Language Processing | |
JP2020004157A (ja) | 分類方法、装置、及びプログラム | |
Loftsson | Tagging and parsing Icelandic text | |
JP2002334076A (ja) | テキスト処理方法 | |
JP3353647B2 (ja) | 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体 | |
JP2003022266A (ja) | 文章語文体変換システムおよび文章語文体変換処理プログラム | |
JPH0561902A (ja) | 機械翻訳システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060124 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090203 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100203 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110203 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120203 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130203 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |