JP3781561B2 - 自然言語解析装置、システム及び記録媒体 - Google Patents

自然言語解析装置、システム及び記録媒体 Download PDF

Info

Publication number
JP3781561B2
JP3781561B2 JP22885098A JP22885098A JP3781561B2 JP 3781561 B2 JP3781561 B2 JP 3781561B2 JP 22885098 A JP22885098 A JP 22885098A JP 22885098 A JP22885098 A JP 22885098A JP 3781561 B2 JP3781561 B2 JP 3781561B2
Authority
JP
Japan
Prior art keywords
chart
dependency
word
edge
grammar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22885098A
Other languages
English (en)
Other versions
JP2000057139A (ja
Inventor
潔 山端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP22885098A priority Critical patent/JP3781561B2/ja
Priority to US09/373,553 priority patent/US6332118B1/en
Publication of JP2000057139A publication Critical patent/JP2000057139A/ja
Application granted granted Critical
Publication of JP3781561B2 publication Critical patent/JP3781561B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、自然言語を解析するシステムに係り、特に依存文法を適用して入力文の構造を解析する自然言語解析装置、システム及び記録媒体に関する。
【0002】
【従来の技術】
依存文法は、2単語間の係り受けとその種類を基本要素として統語構造を記述する文法の枠組みである。依存文法を用いた解析システムとしては、例えば、1992年10月、情報処理学会論文誌第33巻10号、1211〜1223ページに記載された「係り受けの強度に基づく依存文法−制限依存文法−」(以下、「文献1」と称する)がある。この文献1に示されたシステムでは、2文節間の可能性のある依存関係を解析表、すなわちチャート、に書き込みながら、ボトムアップ縦形の解析を行って可能性のあるすべての解を求める。
【0003】
ボトムアップ横形の解析を行って全解を求める手法には、例えば、1996年7月、プロシーディングス・オブ・ザ・サーティーフォース・アニュアル・ミーティング・オブ・ジ・アソーシエーション・フォー・コンピューテーショナル・リングイスティックス(Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics, July 1996)に記載された、「ア・ニュー・スタティスティカル・パーサー・ベイスト・オン・バイグラム・レキシカル・ディペンダンシーズ(A New Statistical Parser Based on Bigram Lexical Dependencies)」(以下、「文献2」と称する)がある。この文献2の第3章によれば、解析アルゴリズムとしてはボトムアップチャート法を採用し、2つの部分構造が同じ単語列に対する部分解析結果、すなわちエッジ、であってラベル、ヘッド及びヘッドの位置が同じならば確率の高い構造を優先し、確率の低い構造を捨てるようになっている。チャートに登録する単位としては、ヘッド以外の語に対する文法適用が終了した連結な(すなわち、言語的な意味付けが可能な)依存関係構造を用いている。
【0004】
また、1997年9月、プロシーディングス・オブ・ジ・インターナショナル・ワークショップ・オン・パーシング・テクノロジーズ(Proceedings of the International Workshop on Parsing Technologies, MIT, September 1997)に記載された「バイレキシカル・グラマーズ・アンド・ア・キュービックタイム・プロバビリスティック・パーサー(Bilexical Grammars And A Cubic-Time Probabilistic Parser)」(以下、「文献3」と称する)では、やはりボトムアップチャート法を用いているが、文法適用が完了した部分解析結果を単位としてチャートに登録する代わりに、一般に非連結(すなわち、言語的な意味付けが困難な)であるような部分解析結果の並びを単位とすることにより、その後の文法適用に関わる単語を区間の両端の語に限ることに成功している。
【0005】
また、その他の自然言語処理に関する従来技術としては、例えば次のようなものがある。
【0006】
特開平2−300970号公報には、チャート上での構文解析の一つの方式である自然言語構文解析方式が開示されている。この特開平2−300970号公報に示された自然言語構文解析方式は、解析済のすべてのエッジの情報を格納し、任意の時点で任意のエッジからグローバルに参照することができる解析済エッジ情報保持手段を設けたことを特徴としている。すなわち、エッジの解析において、必ずしも近くにないエッジの情報がこの手段により参照可能となるため、日本語の係助詞など、グローバルに影響する語彙の処理が容易になるという利点がある。この特開平2−300970号公報の技術は、チャートの一般的な使用例の一つである。
【0007】
また、特許第2546245号公報には、生成すべき文の意味内容が概念間の依存構造で与えられているとして、述語概念に対応する訳語の意味を適切に選択するために、訳語と概念の共起関係を利用する自然言語文生成方法が開示されている。この特許第2546245号公報の技術は、依存文法によるチャートを利用した構文解析/生成方法の一例である。
【0008】
さらに、特公平7−89353号公報には、構文木の解析結果であるエッジの優先度をベクトルとして表現する自然言語解析装置が開示されている。このように、エッジの優先度をベクトルとして表現することにより、優先知識を自然に記述することができ、優先知識間の整合性の管理が容易になり、新たな優先知識の導入が容易であり、そして正確で有用性の高い枝刈りを行なうことができる等の利点がある。この特公平7−89353号公報もエッジを用いたチャートの使用例の一つである。
【0009】
【発明が解決しようとする課題】
自然言語に内在する曖昧性を解消するためには、解析結果に優先度を付与して、優先度の最高のものを出力とするのが一般的である。ところが、文献1に示されたような縦形の解析では、解析結果が時系列的に得られるため、お互いの優先度を比較することが難しい。さらに、部分解析結果を後の解析で再利用することも難しいため、しばしば、文献2や文献3に示されたような横形の解析が採用される。
【0010】
横形解析を効率的に進める方法の一つにチャート法がある。チャート法のアルゴリズムは,たとえば「自然言語処理の基礎技術」(野村浩郷著、電子情報通信学会、1988年)第2章第3節に説明がある。チャート法では、動的計画法に基づき解析順序の制御を行うこと、部分解析結果をチャートに登録し共通に利用すること、内部構造のみが異なり以後の文法適用で同じ振舞いをする部分解析結果をチャート上で同一視、すなわちパック、することにより、例えば任意の文脈自由文法に対して入力文中の単語数の3乗のオーダーの計算量で横形解析を行うことができる。
【0011】
チャート法における計算量について簡単に解説する。チャート法の基本演算は、隣接する区間の部分解析結果を1つにまとめあげる演算である。文脈自由文法が効率的に解析できるのは、部分解析結果に対する文法適用の可能性が、その解析結果の非終端記号のみに依存するためである。ある区間の単語列が同じ非終端記号にまとまった場合、構造の詳細にはかかわらず、部分解析結果を1つにパックして以後の解析を共通化することができる。こうして、1つの区間に存在する部分解析結果の数の上限が、非終端記号の数という入力単語数によらない定数で抑えられており、したがって基本演算1回あたりの計算量が一様に定数で抑えられている。そのため、全体の計算量のオーダーは、基本演算の回数すなわち隣接2区間の組合わせの数となり、最悪でも計算量が単語数の3乗のオーダーで抑えられることになる。
【0012】
ところが、チャート法を依存文法に対して単純に適用すると、最悪で入力単語数の5乗のオーダーの計算量が必要になることが知られている。ここでいう単純な適用方法とは、上述した文献2で採用しているような、ヘッドワードを親としてまとまった依存構造であって、ヘッドワード以外の語に対する文法適用がすべて終了している依存構造をエッジの単位とし、これを単位に文法適用とパックを行う方法のことを指している。この方法は、文脈自由文法のチャート法による解析手法の直接的な拡張となっている。
【0013】
依存文法では、ある依存構造に以後どのような文法適用が可能かは、その構造のヘッドワードの状態で決定される。一般には、ある区間の解析結果の依存構造のヘッドが、その区間のどの語であるかわからない。そのため、その区間に対するパック後の部分解析結果の数が、最悪の場合、その区間の単語数のオーダーとなる可能性がある。すると、上述した基本演算の各々においてそれぞれの区間長の積のオーダーの計算が必要となり、全体として単語数の5乗の計算量が必要になってしまう。
【0014】
上述した文献3では、この問題を避けるために、チャートに登録する単位、すなわちエッジとして1つのヘッドワードを持つ完成した部分構造を採用するのをやめて、一般に非連結な構造を許すようにしている。その代わり、その構造の文法的振舞いを決める語がその区間の両端の語に限られるようにエッジを構成する。この構成により、ある区間に対する解析結果のその後の文法適用における振る舞い方の数(場合の数)は、両端の語の文法適用に関する状態の積という単語数に依存しない定数で抑えられる。結果として、全解を求めるのに必要な計算量は、文脈自由文法の場合と同様に、入力単語数の3乗のオーダーとなる。
【0015】
文献3における解析方法について、文献3の第4.3節に基づいて、図32に示すプログラムリストを参照して説明する。図32に示したアルゴリズムは文献3の第4.3節から引用した。行番号4、9〜14及び18等の各行の最後の「(*…*)」の部分はコメントである。
【0016】
基本的なデータ構造は、単語をノードとするチャートである。エッジは、内部及び両端の単語、つまりノードの間の依存関係の情報の全体を保持している。エッジは、エッジ内部のノードがエッジ外部のノードと依存関係を結ぶことがないように定義され作成されるが、その中のノードの全体が依存関係のもとに連結であるとは限らない。
【0017】
解析は以下のように進む。最初に隣接するノード(単語)からそれらのノードを結ぶエッジを作成し初期チャートとする(アルゴリズムの行番号1〜4)。具体的には、まず隣接する単語のペアを一つ選択する(アルゴリズムの行番号2)。この単語ペアに対し、まず、リンクタイプ(linktype)を「無し(NONE)」としてアルゴリズムの行番号4を実行することにより、2つのノードを単にグループ化したものをエッジとしてチャートに追加する。次に、リンクタイプを「←×M」又は「→×M」としてアルゴリズムの行番号4を実行することにより、隣接2単語の間に依存関係が結べればノードをグループ化して依存関係を結び、これをノード間のエッジとしてチャートに追加する。
【0018】
このようにして、初期チャートが作成されたら、アルゴリズムの行番号5〜16により、隣接する2つのエッジをまとめあげる操作をボトムアップに繰り返す。まとめあげ操作は次のように行う。以下、左側のエッジをエッジa、右側のエッジをエッジbと呼ぶ。エッジaの右端のノード(単語)とエッジbの左端のノード(単語)が共有されていることに注意する。
【0019】
まず、共有ノードにおいて、エッジaとエッジbで定義された依存関係に矛盾がないことを確認する(行番号11)。さらに、共有ノードが親を1つだけ持っていることを確認する(行番号12)。確認できたら、エッジaの左端からエッジbの右端に至るエッジcを新規作成し、エッジaの持っていた依存関係とエッジbの持っていた依存関係の和集合を新しいエッジの持つ依存関係として与える(行番号13)。次に、エッジcと同様だが、左端のノード(エッジaの左端のノード)と右端のノード(エッジbの右端のノード)の間に依存関係が結べれば、その依存関係を加えたエッジをさらに新規作成しチャートに登録する(行番号16)。
【0020】
以上の処理をボトムアップに繰り返すことにより、全体に対する解析結果を得て、出力として適切なもののみを出力する(行番号18及び19)。
【0021】
図33は文献3における「Figure 1」を引用しており、“The plan of the government to raise income tax”という文の解析における主要なステップが模式的に示されている。図33(a)は出力すべき依存構造を示す。矢印は子供から親へと向かう。図33(b)は、図33(a)の依存構造がチャート上でどのように表現されているかを示している。図33(b)の下部に「no」、「yes」及び「yes」という評定が付された3つの部分依存構造は、このアルゴリズムでどのような部分依存構造がエッジとして許されるかを示したものである。左端の、planをヘッドに The と of が左右から係っていく構造は、このアルゴリズムではエッジとして許容されないので、「no」と評定されている。これは、エッジの内部の単語が外部と依存関係を持つためである。一方、中央の、“of the government”と“to raise”との2つの連結成分からなるまとまりは、エッジとして許されるので、「yes」と評定されている。右端の構造も「yes」と評定されており、エッジとして許容される。
【0022】
図33(c)には、下から上へという順序で解析の過程が示されている。最下部には、“of the government to raise” がまとめられたエッジと、“plan of”がまとめられたエッジが“of” を仲立ちとしてまとめられるステップが図示されている。図で右側のエッジの構成要素のノード(単語)が、依存関係により2つの連結成分に分かれていることに注意してほしい。このまとめあげの際には、planとraiseの間に前者をヘッドとする依存関係を持つものが生成される。これらの間に依存関係がないエッジも生成されるが、最終的に正解となるのは前者なので、以下後者の存在は無視する。
【0023】
次に、“raiseincome tax” がまとまったエッジと、“tax ROOT”がまとまったエッジががノード(単語)“tax”を中心にまとめられて、“raise income tax ROOT” というエッジをつくる。このまとめあげの際には、“ROOT”と“raise”の間には依存関係は結ばれない。なお、“ROOT”は、最終的に全体のヘッドとなる特別な単語であり、解析システムにより入力の最後に自動的に追加される。次のステップでは、先に生成された“plan of the government to raise” というエッジと、“raise income tax ROOT” というエッジがまとめられる(下から2番目の部分図)。このまとめあげでは、“plan”から“ROOT”に依存関係が伸びる。これと並行して、上述と同様に、依存関係がないエッジが作られる。最後に、“the plan”のエッジとまとめられて(下から3番目の部分図)、最終的な解析結果が得られる(図33(c)の最上段の部分図)。
【0024】
この文献3に示された手法における問題点は、部分解析結果の単位として、非連結な部分構造をはじめとする言語的に不自然なまとまりを使わなければならないことである。例えば、隣接する単語から初期エッジを作るステップでは、初期エッジを構成する単語の間には基本的に依存関係がなく、依存構造としては非連結である。これは、構造というよりは、単に隣接する単語をグループ化したものにすぎないので、このまとまりに対し構造解釈を行うことは困難である。これらの初期エッジをまとめることでエッジが成長していくが、一般には左右の単語は別々にまとめられていくので、非連結性はそのまま残り、例えば図33(b)における“of the government to raise” のような非連結な依存構造からなるエッジが生成される。非連結成分を許容しないと初期エッジを生成することができないので、本質的に非連結成分の存在を許すことになる。
【0025】
このように、エッジとして、非連結成分をはじめとする言語的直感に反する人工的な単位を用いている。このため、エッジに言語的な解釈を施すことが困難であり、部分解析結果を対象に意味解釈を行ったり、構造に対して優先度を付与するなど、部分解析結果を単位として様々な操作を行うことが困難であるという問題が発生する。例えば、解析途中で枝刈りを行うために、部分解析結果に優先度を付与することを考える。ところが、“of the government to raise”という2つの依存構造からなるまとまりが表れた場合、これが正しい構造解釈なのかどうかは直感的にはわからない。そのため、優先度を付与したり、構造の正当性を調べるルールを定義することが困難である。
【0026】
本発明は、上述した事情に鑑みてなされたもので、任意の依存文法が与えられたときに、入力単語数の3乗のオーダー程度の少ない計算量で横形の解析が可能で、しかもチャートに登録する部分解析結果を連結な構造に限定することの可能な自然言語解析装置、システム及び記録媒体を提供することを目的とする。
【0027】
【課題を解決するための手段】
上記目的を達成するため、本発明の第1の観点に係る自然言語解析装置は、
単語列を入力する入力部と、
依存文法を格納する文法辞書部と、
単語間の位置をノードとし単語及び連結な依存構造をエッジとして保持する第1のチャートを格納する第1のチャート格納部と、
単語をノードとし連結な依存構造をエッジとして保持する第2のチャートを格納する第2のチャート格納部と、
前記第1のチャートに登録されたエッジと前記第2のチャートに登録されたエッジの対応関係を保持する対応管理部と、
前記第1のチャート及び前記第2のチャートそれぞれのチャート上で隣接するエッジの組に対して、それぞれ依存文法規則を適用し、これらのエッジを依存関係で結んだ連結な依存構造を作成する文法適用部と、
連結な依存構造をエッジとして前記第1のチャート及び前記第2のチャートに追加して登録するエッジ登録部と、前記依存文法規則の適用順序を制御する解析制御部と、
前記解析制御部で得られる解析結果を出力する出力部とを具備する。
【0028】
また、本発明の第2の観点に係る自然言語解析装置は、
単語列を入力する入力部と、
依存文法を格納する文法辞書部と、
単語間の位置をノードとし単語及び連結な依存構造をエッジとして保持する第1のチャートを格納する第1のチャート格納部と、
単語をノードとし連結な依存構造をエッジとして保持する第2のチャートを格納する第2のチャート格納部と、
前記第1のチャートに登録されたエッジと前記第2のチャートに登録されたエッジの対応関係を保持する対応管理部と、
前記第1のチャート上で隣接するエッジの組に対し前記依存文法規則を適用して、両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第1の文法適用部と、
前記第2のチャート上で隣接するエッジの組に対し前記依存文法規則を適用し、対応する依存構造を連結して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第2の文法適用部と、
連結な依存構造をエッジとして前記第1のチャート及び前記第2のチャートに追加して登録するエッジ登録部と、
前記依存文法規則の適用順序を制御する解析制御部と、
前記解析制御部で得られる解析結果を出力する出力部と
を具備する。
【0029】
前記第1のチャート格納部及び第2のチャート格納部に代えて、前記第1のチャート及び前記第2のチャートを物理的に1つのチャート構造上に実現したチャートを格納するチャート格納部を設けてもよい。
【0030】
本発明の第3の観点に係る自然言語解析システムは、
依存文法を格納する文法辞書格納手段と、
入力単語及び依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第1のチャートとして記憶する第1のチャート格納手段と、
複数の単語が依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第2のチャートとして記憶する第2のチャート格納手段と、
前記第1のチャートにおいて一方の右端の単語のすぐ右隣に他方の左端の単語が位置する意味で隣接する2つの依存構造の組、及び前記第2のチャートにおいて一方の右端の単語が他方の左端の単語と一致する意味で隣接する2つの依存構造の組をそれぞれ入力とし、これらに前記依存文法規則を適用して新たな連結な依存構造を作成する文法適用処理手段と、
単語又は連結な依存構造を前記第1のチャート及び前記第2のチャートに追加して格納する依存構造登録処理手段と、
第1のチャート中の依存構造から、該依存構造と同一の第2のチャート中の依存構造を同定する対応管理処理手段と、
チャート法に基づいて前記第1のチャート上で前記依存文法規則の適用を行う区間を定め、この区間に対して前記依存文法の適用の処理を行い、得られた新たな連結な依存構造に対して前記依存構造登録処理及び前記対応管理処理を行うことを繰り返して、入力単語列全体に対する連結な依存構造を作成する解析処理を実行する解析処理手段と、
を具備する。
【0031】
本発明の第4の観点に係る自然言語解析システムは、
依存文法を格納する文法辞書格納手段と、
入力単語及び依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第1のチャートとして記憶する第1のチャート格納手段と、
複数の単語が依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第2のチャートとして記憶する第2のチャート格納手段と、
前記第1のチャートにおいて一方の右端の単語のすぐ右隣に他方の左端の単語が位置する意味で隣接する2つの依存構造の組に前記依存文法規則を適用して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第1の文法適用処理手段と、
前記第2のチャートにおいて一方の右端の単語が他方の左端の単語と一致する意味で隣接する2つの依存構造の組を連結して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第2の文法適用処理手段と、
単語又は連結な依存構造を前記第1のチャート及び前記第2のチャートに追加して格納する依存構造登録処理手段と、
第1のチャート中の依存構造から、該依存構造と同一の第2のチャート中の依存構造を同定する対応管理処理手段と、
チャート法に基づいて前記第1のチャート上で前記依存文法規則の適用を行う区間を定め、この区間に対して前記依存文法の適用の処理を行い、得られた新たな連結な依存構造に対して前記依存構造登録処理及び前記対応管理処理を行うことを繰り返して、入力単語列全体に対する連結な依存構造を作成する解析処理を実行する解析処理手段と、
を具備する。
【0032】
前記第1のチャート格納手段及び第2のチャート格納手段に代えて、前記第1のチャート及び前記第2のチャートを物理的に1つのチャート構造上に実現したチャートを格納するチャート格納手段を設けてもよい。
【0033】
本発明の第5の観点に係るコンピュータ読み取り可能な記録媒体は、
コンピュータに、
依存文法を格納する文法辞書格納機能、
入力単語及び依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第1のチャートとして記憶する第1のチャート格納機能、
複数の単語が依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第2のチャートとして記憶する第2のチャート格納機能、
前記第1のチャート格納機能において一方の右端の単語のすぐ右隣に他方の左端の単語が位置する意味で隣接する2つの依存構造の組、及び前記第2のチャート格納機能において一方の右端の単語が他方の左端の単語と一致する意味で隣接する2つの依存構造の組をそれぞれ入力とし、これらに前記依存文法規則を適用して新たな連結な依存構造を作成する文法適用処理機能、
単語又は連結な依存構造を前記第1のチャート及び前記第2のチャートに追加して格納する依存構造登録処理機能、
第1のチャート中の依存構造から、該依存構造と同一の第2のチャート中の依存構造を同定する対応管理処理機能、及び
チャート法に基づいて前記第1のチャート上で前記依存文法規則の適用を行う区間を定め、この区間に対して前記依存文法の適用の処理を行い、得られた新たな連結な依存構造に対して前記依存構造登録処理及び前記対応管理処理を行うことを繰り返して、入力単語列全体に対する連結な依存構造を作成する解析処理を実行する解析処理機能、
を実現させるためのプログラムを記録する。
【0034】
本発明の第6の観点に係るコンピュータ読み取り可能な記録媒体は、
コンピュータに、
依存文法を格納する文法辞書格納機能、
入力単語及び依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第1のチャートとして記憶する第1のチャート格納機能、
複数の単語が依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第2のチャートとして記憶する第2のチャート格納機能、
前記第1のチャートにおいて一方の右端の単語のすぐ右隣に他方の左端の単語が位置する意味で隣接する2つの依存構造の組に前記依存文法規則を適用して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第1の文法適用処理機能、
前記第2のチャートにおいて一方の右端の単語が他方の左端の単語と一致する意味で隣接する2つの依存構造の組を連結して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第2の文法適用処理機能、
単語又は連結な依存構造を前記第1のチャート及び前記第2のチャートに追加して格納する依存構造登録処理機能、
第1のチャート中の依存構造から、該依存構造と同一の第2のチャート中の依存構造を同定する対応管理処理機能、及び
チャート法に基づいて前記第1のチャート上で前記依存文法規則の適用を行う区間を定め、この区間に対して前記依存文法の適用の処理を行い、得られた新たな連結な依存構造に対して前記依存構造登録処理及び前記対応管理処理を行うことを繰り返して、入力単語列全体に対する連結な依存構造を作成する解析処理を実行する解析処理機能、
を実現させるためのプログラムを記録する。
【0035】
前記第1のチャート格納機能及び第2のチャート格納機能に代えて、前記第1のチャート及び前記第2のチャートを物理的に1つのチャート構造上に実現したチャートを格納するチャート格納機能を実現させるためのプログラムを記録してもよい。
【0036】
この構成においては、チャート法に基づいて、第1のチャートの上でエッジのまとめあげ処理を進めていく。ただし、文法適用により作成する依存構造は、両端の単語以外、すべての文法適用が終了しているようなものに限り、そうでない依存構造は不適格な部分解析結果として作成しない。このように、エッジの文法的振舞いを決める単語を両端の単語に限ることにより、パック後にある区間に存在する解析結果の数を、入力単語数によらない定数で抑えることができ、最悪時の計算量を入力単語数の3乗のオーダーに抑えることができる。
【0037】
しかしながら、適格な部分解析結果をこのようなものに限ると、第1のチャートを使うだけでは、ある種の依存構造が解析できなくなってしまう。具体的には、中央にヘッドの単語があり、左右から複数の単語が子供としてこのヘッドの単語に係っている構造が解析できなくなってしまう。例えば、5つの単語の列W1、W2、W3、W4、及びW5に対する正解の依存構造が、単語W1、W2、W4、及びW5がすべて単語W3の子供となっている構造である時に問題がおきる。このケースでは、正解の部分依存構造のうち適格な依存構造として許されるのは、各単語1語からなる構造と、[W2,W3]、[W3,W4]、[W1,W2,W3]、[W3,W4,W5]のみである。ここで、例えば[W1,W2,W3]は、正解の依存構造のうち単語W1、W2、及びW3だけからなる部分依存構造のことを指すものとする。これら適格な依存構造の集合から隣接するものを2つとってどのように組み合わせても、正解の依存構造へとまとめあげることはできない。
【0038】
本発明では、隣接の定義が少し異なる第2のチャートを設け、その上でも解析を進めることによりこの問題を解決する。第2のチャートは、単語をノードとし、依存構造をエッジとしている。エッジのまとめあげ処理は、第1のチャート上で隣接する依存構造だけでなく、第2のチャートの上で隣接する依存構造をも対象にして行う。
【0039】
上述した部分依存構造では、例えば[W1,W2,W3]と[W3,W4,W5]が第2のチャートの上で隣接しているので、これら2つのまとめあげ処理が起動される。これら2つの依存構造は単語W3を端点に共有しており、この語を仲立ちとして依存構造として矛盾なく連結することができる。その結果、正解の依存構造が得られる。
【0040】
該第2のチャートを用いることにより、最悪で計算量が2倍になるが、入力単語数に依存するファクタは導入されないので、計算量のオーダーはやはり入力単語数の3乗のままである。さらに、適格な依存構造として連結なものだけが許されるにもかかわらず、上述したように本来得られるべき依存構造をすべて得ることができるのである。
【0041】
したがって、任意の依存文法が与えられたときに、入力単語数の3乗のオーダー程度の少ない計算量で横形の解析が可能で、しかもチャートに登録する部分解析結果を連結な構造に限定することが可能である。
【0042】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して詳しく説明する。
【0043】
図1は、本発明の第1の実施の形態に係る自然言語解析システムの構成を示している。
【0044】
図1に示す自然言語解析システムは、入力部1、文法辞書部2、第1のチャート格納部3、第2のチャート格納部4、対応管理部5、文法適用部6、エッジ登録部7、解析制御部8及び出力部9を備えている。
【0045】
入力部1には、解析対象の単語列が入力される。文法辞書部2は、依存文法を格納する。第1のチャート格納部3は、文頭、文末及び単語間の位置をノードとし、単語及び連結な部分解析結果をエッジとして保持する第1のチャートを格納する。第2のチャート格納部4は、単語をノードとし、連結な部分解析結果をエッジとして保持する第2のチャートを格納する。
【0046】
対応管理部5は、第1のチャートに登録されたエッジと第2のチャートに登録されたエッジの対応関係を管理する。文法適用部6は、第1のチャート又は第2のチャート上で隣接するエッジの組を入力とし、依存文法規則を適用してこれらのエッジを依存関係で結んだ連結な部分解析結果を作成する。
【0047】
エッジ登録部7は、新たに作成された部分解析結果をエッジとして第1のチャート及び第2のチャートに必要に応じてパックして登録し、対応管理部5の内容を更新する。解析制御部8は、文法適用の順序を制御する。出力部9は、解析結果を出力する。以上の各構成要素間は、適宜なる通信線等を介して結合されている。
【0048】
次に、図1のように構成された第1の実施の形態による自然言語解析システムの動作について、図2及び図3に示すフローチャートを参照して説明する。
【0049】
まず、入力部1に入力文の単語列が入力される(ステップS1)。入力部1に入力された単語列はエッジ登録部7に送られる。エッジ登録部7は、第1のチャート格納部3に単語列を送り、これらの単語をエッジとして第1のチャートに登録する(ステップS2)。次に、エッジ登録部7は、第2のチャート格納部4に単語列を送り、単語をノードとする第2のチャートの初期チャートを作成し、さらに、対応管理部5を初期化する(ステップS3)。
【0050】
こうして初期チャートが作成されると、解析制御部8が起動される。解析制御部8は、動的計画法に基づいて、注目エッジを1つ決めては隣接エッジとまとめあげることを繰り返して解析を進める。すなわち、まず、第1のチャート格納部3の第1のチャートに登録されたエッジから注目エッジを1つ決めて、これをエッジErとする(ステップS4)。次に、第1のチャート格納部3の第1のチャートに格納されたエッジのうちの注目エッジErの左に隣接するエッジを順次取得してエッジElとし、以下(ステップS6〜S8)のようなエッジErとエッジElの間で文法適用が可能かどうかのチェックを繰り返す(ステップS5)。
【0051】
すなわち、まず、エッジEl及びエッジErを文法適用部6に送る(ステップS6)。文法適用部6は、文法辞書部2の文法辞書を参照して、これら2つのエッジの端点の単語を依存関係で結べるかどうかをチェックし、可能な場合は新しい依存構造を作成して、エッジ登録部7に送る(ステップS7)。エッジ登録部7は送られてきた依存構造を第1のチャート格納部3の第1のチャート及び第2のチャート格納部4の第2のチャートにエッジとして登録すると同時に、エッジの対応関係を対応管理部5に登録する(ステップS8)。登録の際に、同様の文法的振舞いを有するエッジが、既に同じ区間に登録されている場合には、後の解析処理が1回ですむようにエッジをパックして登録する。
【0052】
第1のチャート格納部3の第1のチャート上でエッジErを注目エッジとした処理が終わると、解析制御部8は、注目エッジErに対応するエッジが第2のチャート4の中に存在するかどうかを対応管理部5に問い合わせる(ステップS9)。エッジErに対応する第2のチャート格納部4の第2のチャートのエッジEr(2)の存在を判定し(ステップS10)、該当するエッジEr(2)が存在する場合、該第2のチャートのエッジEr(2)に対して文法適用を行う。まず、第2のチャート格納部4の第2のチャートにおいて、エッジEr(2)の左に隣接するエッジを順次取得してエッジEl(2)とし、エッジEl(2)とエッジEr(2)の間で文法適用が可能かどうかのチェックを繰り返す(ステップS11)。
【0053】
そのために、解析制御部8は、エッジEl(2)とエッジEr(2)を文法適用部6に送る(ステップS12)。文法適用部6は、必要に応じて文法辞書部2の文法辞書を参照して、これらのエッジを1つの連結依存構造にまとめることができるかどうかをチェックし、可能ならば新しい依存構造を作成して、エッジ登録部7に送る(ステップS13)。エッジ登録部7は、送られてきた依存構造を第1のチャート格納部3の第1のチャート及び第2のチャート格納部4の第2のチャートにエッジとして登録すると同時に、エッジの対応関係を対応管理部5に登録する(ステップS14)。第1のチャート上の解析の場合と同様に、登録の際に、同様の文法的振舞いを有するエッジが、既に同じ区間に登録されている場合には、後の解析処理が1回ですむようにエッジをパックして登録する。
【0054】
一方、ステップS10の判定において、第2のチャート格納部4第2のチャート上に注目エッジErに対応するエッジが存在しない場合、上述したステップS11〜ステップS14の処理はスキップする。最後に、解析制御部8は、第1のチャート上のすべてのエッジを注目エッジとして処理したか否かをチェックし((ステップS15)、注目エッジとすべきエッジが残っているならば、ステップS4に戻り、再度注目エッジを選ぶ。一方、ステップS15において、すべてのエッジを注目エッジとして処理を終えたと判定した場合には、出力部9から解析結果を出力し、処理を終了する(ステップS16)。
【0055】
このように構成した本発明の自然言語解析システムは、任意の依存文法に対し、チャート法に基づいて、最悪の場合でも入力単語数の3乗のオーダーの計算量で効率的な横形解析を行うことができる。しかも、入力単語数の3乗のオーダーの計算量で解析が行える従来技術と比較して、チャートに登録されるのは、単語どうしが依存関係で結ばれた連結な依存構造に限るという利点がある。従来技術では一般に非連結で特に言語的意味を持たない構造を単位として登録するため、これらの構造を対象に様々な知識を記述したりアルゴリズムを適用することが難しかったのに比べて、本発明の自然言語解析システムによれば、部分解析結果を単位とした言語的処理が記述し易いという利点がある。このような言語処理の例としては、例えば部分解析結果への優先度の付与などがある。
【0056】
次に、本発明の第2の実施の形態について説明する。本発明の第2の実施の形態は、図1に示した第1の実施の形態の自然言語解析システムをコンピュータ等のデータ処理装置を用いて具体的に構成している。図4は、本発明の第2の実施の形態に係る自然言語解析システムの構成を示している。
【0057】
図4に示す自然言語解析システムは、入力装置A1、データ処理装置A2、出力装置A3、記憶装置A4、及び自然言語解析プログラムを記録した記録媒体A5を備えている。
【0058】
データ処理装置A2は、例えばコンピュータにより構成され、記録媒体A5には、データ処理装置A2によって読み取り且つ実行することができる自然言語解析プログラムを記録している。記録媒体A5は、磁気ディスク、磁気テープ、光ディスク、半導体メモリ又はその他のコンピュータ等による読取りが可能な記録媒体である。
【0059】
自然言語解析プログラムは、記録媒体A5からデータ処理装置A2に読み込まれ、その一部が必要に応じて記憶装置A4に配置されて、データ処理装置A2の動作を制御する。データ処理装置A2は、自然言語解析プログラムの制御により次のような自然言語解析処理を実行する。
【0060】
入力装置A1から読み込まれた単語列は、第1のチャート格納部3の第1のチャート及び第2のチャート格納部4の第2のチャートに格納される。第1のチャートは単語及び連結な依存構造をエッジとするチャートであり、第2のチャートは単語をノードとして連結な依存構造をエッジとするチャートである。単語列が格納されたら、文法適用部6は第1のチャートの上で動的計画法によるエッジの順序付けに基づいて1つの注目エッジを決める。
【0061】
次に、注目エッジの左に隣接するエッジの各々について、このエッジと注目エッジの組を順次文法適用部6に送る。文法適用部6は文法辞書部2の文法辞書を必要に応じて参照し、可能ならば2つのエッジをまとめあげて新規に依存構造を作成する。新規依存構造が作成されたら、エッジ登録部7は、それを第1のチャート及び第2のチャートに格納すると同時に、対応管理部5を更新する。対応管理部5は、1つのエッジが第1のチャートと第2のチャートとの2個所に登録されているときに、これらエッジ間の対応関係を格納する。
【0062】
次に、注目エッジに対応するエッジが第2のチャートの中に存在するかどうかを対応管理部5でチェックし、存在すれば、第2のチャート上で文法を適用する。そのため、第2のチャート内の注目エッジの左に隣接するエッジの各々について、それと注目エッジとの組を文法適用部6に送り、新規依存構造の作成を試みる。新規依存構造の作成が成功すれば、新規依存構造はエッジ登録部7により第1のチャート及び第2のチャートに格納され、さらに対応管理部5が更新される。
【0063】
注目エッジを逐次変更しながら上述の処理を繰り返して解析処理を行ない、該解析処理が終了すると、第1のチャートに登録されたエッジのうち全体の解析結果となっている依存構造が解析結果として出力装置A3から出力される。
【0064】
次に、本発明の第3の実施の形態について説明する。本発明の第3の実施の形態は、図1に示した第1の実施の形態の自然言語解析システムを用いて構成した英語の構文解析システムである。すなわち、図5は、本発明の第3の実施の形態に係る構文解析システムの構成を示している。
【0065】
図5に示す構文解析システムは、入力部1、英語辞書部2′、第1のチャート格納部3、第2のチャート格納部4、対応管理部5、文法適用部6′、エッジ登録部7、解析制御部8、出力部9、形態素解析部10及び解析結果選択部11を備えている。図5の構文解析システムは、文法辞書部2が英語辞書部2′であり、文法適用部6が第1の文法適用部61及び第2の文法適用部62を有する文法適用部6′であり、さらに入力部1とエッジ登録部7との間に形態素解析部10が、解析制御部8と出力部9との間に解析結果選択部11がそれぞれ設けられている点で図1の自然言語解析システムと異なっている。
【0066】
入力部1は、英文入力を受け付ける。英語辞書部2′は、単語の統語情報及びその単語に関わる依存文法を格納している。形態素解析部10は、英語辞書部2′を参照して入力文を英単語列に分割する。
【0067】
第1のチャート格納部3は、単語間の位置をノードとし、英単語及び連結依存構造をエッジとする第1のチャートを格納する。第2のチャート格納部4は、英単語をノードとし、複数単語を含む連結依存構造をエッジとする第2のチャートを格納する。対応管理部5は、同じ依存構造が第1のチャートと第2のチャートの双方に登録されているときに、それらの対応関係を保持する。
【0068】
文法適用部6′は、2つのエッジの組に文法を適用して新たな依存構造を作成する。エッジ登録部7は、単語又は依存構造を第1のチャート及び第2のチャートに必要に応じてパックして登録し、さらに対応管理部5を更新する。解析制御部8は、チャート法に基づいて解析順序を制御する。
【0069】
解析結果選択部11は、第1のチャート中のエッジから入力全体に対する解析結果を保持するものを選択する。出力部9は、解析結果選択部11が選択した解析結果を出力する。以上の各構成要素間は、適宜なる通信線等を介して結合されている。
【0070】
さらに、文法適用部6′は、第1の文法適用部61及び第2の文法適用部62を有している。第1の文法適用部61は、第1のチャートの2つのエッジに対し、英語辞書部2′を必要に応じて参照して、依存文法を適用し、可能ならば該2つの依存構造を依存関係で結んで新たな依存構造を作成する。第2の文法適用部62は、第2のチャートの2つのエッジに対し、英語辞書部2′を必要に応じて参照して、可能ならば該2つの依存構造を1つの依存構造にまとめあげる。
【0071】
次に、図5のように構成された第3の実施の形態による構文解析システムの動作について、図6及び図7に示すフローチャートを参照して説明する。
【0072】
まず、入力部1に英文が入力される(ステップS21)。具体的には、英文が入力部1に入力され、該英文が形態素解析部10に送られる(ステップS21a)。形態素解析部10は、英語辞書部2′を参照して、入力英文を単語に分割する(ステップS21b)。
【0073】
入力部1に入力され、形態素解析部10により単語に分割された入力英文は、エッジ登録部7に送られる。エッジ登録部7は、与えられた単語列をまず第1のチャート格納部3に送り、第1のチャートにエッジとして登録し、第1のチャートを初期化する(ステップS22)。さらに、入力単語をノードとして第2のチャート4の初期チャートを作成し、そして対応管理部5を初期化する(ステップS23)。以上の処理により、第1のチャートと第2のチャートの初期化処理が終了する。
【0074】
第1及び第2のチャートの初期化処理が終了すると、解析制御部8が構文解析を開始する。解析は、ボトムアップ、左から右のチャート法によって行う。まず、第1のチャート格納部3の第1のチャート上で注目エッジErを1つ定める(ステップS24)。次に、第1のチャート上でエッジErの左に隣接するエッジを順次選定し、これをエッジElとして、以下(ステップS26〜S28)のまとめあげ処理を繰り返す(ステップS25)。
【0075】
まず、エッジElとエッジErを第1の文法適用部61に送る(ステップS26)。第1の文法適用部61は、2つのエッジを新たな依存関係で結んで、全体を1つの連結な依存構造にまとめあげる処理を行う(ステップS27)。
【0076】
第1の文法適用部61では依存構造を生成する際に、新しく生成される構造の両端の単語以外の単語に対しては文法適用がすべて終了した状態にあるか、又は依存関係で結ばれることによりそのような状態になるか否かをチェックし、この条件を満たすことができない依存構造は生成しない。この条件により、生成された依存構造の文法的振舞いが両端の単語だけで決まることが保証されるため、パックすることにより横形解析が単語数の3乗のオーダーの計算量で終了することが保証される。
【0077】
さて、このようにして新規作成された依存構造は、エッジ登録部7に送られる。エッジ登録部7は、該依存構造を第1のチャート格納部3の第1のチャート及び第2のチャート格納部4の第2のチャートにエッジとして登録する(ステップS28)。ただし、同一の区間に同一の文法適用の可能性を持ったエッジが既に登録されている場合には、既登録のエッジを代表エッジとしてパックし、以後の文法適用が代表エッジのみを対象として行われるようにする。さらに新規エッジ間の対応関係を対応管理部5に追加する。
【0078】
エッジErの左側にあるエッジのすべてに対して上述の処理を行ったら、解析制御部8は、対応管理部5を参照して、注目エッジErに対応する第2のチャート上のエッジEr(2)を検索する(ステップS29)。解析制御部8は、エッジEr(2)が第2のチャートに登録されているかどうかをチェックし(ステップS30)、第2のチャートにエッジEr(2)が登録されていなければ、後述するステップS35を経てステップS24に戻り、次の注目エッジの処理に移る。
【0079】
一方、ステップS30において、第2のチャートにエッジEr(2)が登録されていると判定されれば、第2のチャート上で、エッジEr(2)の左に隣接するエッジEl(2)の各々に対してエッジまとめあげ処理(ステップS32〜S34)を行う(ステップS31)。
【0080】
第1のチャートにおけるまとめあげ処理と同様、まずエッジEl(2)とEr(2)を第2の文法適用部62に送る(ステップS32)。第2の文法適用部62は必要に応じて文法適用を行い、2つのエッジを1つのエッジにまとめあげる(ステップS33)。
【0081】
この第2の文法適用部62におけるまとめあげに際しては、第1の文法適用部61と同様に、両端の単語を除いては文法適用がすべて終了した状態にあるか、又は依存関係で結ぶことによりそのような状態にできるか否かをチェックし、この条件を満たすことができない依存構造は生成しない。ただし、第2のチャートでは隣接するエッジは中間の単語を共有しているので、依存関係を新たに導入しなくても連結な依存構造を作ることができる点が第1の文法適用部61の場合とは相違する。
【0082】
さて、第2の文法適用部62で新規に生成された連結依存構造はエッジ登録部7に送られる。エッジ登録部7は、第1のチャート及び第2のチャートに依存構造をエッジとして登録し、対応管理部5の内容を更新する(ステップS34)。さらに、必要に応じてパックして登録することも第1のチャートの場合と同様である。
【0083】
こうして、可能性のある全てのエッジEl(2)に対して処理を終了したら、再び第1のチャートに視点を戻し、注目エッジとすべきエッジが第1のチャート上に残っているかどうかをチェックする(ステップS35)。ステップS35において、そのようなエッジが残っていると判定されたならば、ステップS24に戻り、次の注目エッジをErにセットしてステップS24以後の処理を繰り返す。
【0084】
一方、ステップS35において、そのようなエッジが残っていないと判定されたならば、解析結果選択部11が起動される。解析結果選択部11は、解析制御部8を介して第1のチャート格納部3の第1のチャートにアクセスし、解析結果として第1のチャート全体を張るエッジを得て、適正な解析結果を選択出力する(ステップS36)。すなわち、解析結果として得たエッジの中から、出力としてふさわしいものを選択して、出力部9に送る(ステップS36a)。該出力部9は、送られてきた解析結果を出力する(ステップS36b)。
【0085】
次に、上述における第1の文法適用部61の詳細な構成及び動作について図8〜図12を参照して説明する。
【0086】
図8に示すように、第1の文法適用部61は、エッジ格納部61a、単語格納部61b、依存関係チェック部61c、文法適用制約格納部61d、及び依存構造作成部61eを有している。
【0087】
エッジ格納部61aは、第1のチャート格納部3から送られてきた第1のチャートにおけるエッジの組を格納する。単語格納部61bは、エッジ格納部61aに格納されたエッジのうち文法適用に関係する両端の単語を格納する。依存関係チェック部61cは、単語格納部61bに格納された単語の間で依存関係を結ぶことの可否をチェックする。文法適用制約格納部61dは、依存関係チェック部61cで使用する制約条件を格納する。依存構造作成部61eは、依存関係チェック部61cでのチェック結果を受けて新規に依存構造を生成する。依存関係チェック部61cは、英語辞書部2′における英語文法情報を参照し、依存構造作成部61eで新規に生成された依存構造は、エッジ登録部7へ送られる。
【0088】
図9は第1の文法適用部61の動作を説明するフローチャートである。まず、第1のチャート格納部3から与えられる第1のチャートにおける隣接エッジの組を、エッジ格納部61aに格納する(ステップS7−1)。左側のエッジはエッジElに、右側のエッジはエッジErにそれぞれ格納して、以後、これらエッジEl及びErという表現で参照する。エッジEl及びErを格納したら、依存文法適用に関わる4つの単語を抽出し、単語格納部61bに格納する(ステップS7−2)。依存文法適用に関わる4つの単語とは、エッジElの左端の単語W1、エッジElの右端の単語W2、エッジErの左端の単語W3、そしてエッジErの右端の単語W4である。ただし、エッジElが1単語からなるエッジの場合は、その単語を単語W1に格納し、単語W2は空のままとする。また、エッジErが1単語からなるエッジである場合は、その単語を単語W4に格納し、単語W3は空のままとする。エッジElとエッジErとの間の依存関係を考える際に、各エッジの両端以外の単語を考慮する必要がないのは、これらエッジの中間の語はエッジの外側の語との間に依存関係を持たないことが保証されているからである。これは、第1の文法適用部61及び第2の文法適用部62でそのような性質を持つ依存構造しか作成しないようにしているためである。
【0089】
次に、単語どうしを新しい依存関係で結べるか否かをチェックするために、これらの単語を依存関係チェック部61cに与える。依存関係チェック部61cは、英語辞書部2′を参照してこれらの単語の間にどのような依存関係が存在し得るかを判断し、さらに文法適用制約格納部61dを参照して単語の相互位置関係による依存関係への制約をチェックすることにより最終的に可能な依存関係の集合を得る(ステップS7−3)。文法適用制約格納部61dには、新しく生成される依存構造において両端の単語以外の語が外部の語との間に依存関係を持たないようにするための制約が記述されている。依存関係チェック部61cでチェックを通った依存関係は依存構造作成部61eに送られて、新しい依存構造が作成される(ステップS7−4)。新しい依存構造は、連結な2つの依存構造を依存関係で結んだものなので、全体として連結な依存構造になっていることに注意すべきである。作成された依存構造はエッジ登録部7に供給されて、第1及び第2のチャートに登録される。
【0090】
図10は、第1の文法適用部61中の依存関係チェック部61cにおける動作を説明するフローチャートである。依存関係チェック部61cでは、(単語W1,単語W3)、(単語W1,単語W4)、(単語W2,単語W3)、(単語W2,単語W4)の4通りの組合わせに対して、これらの単語の間に依存関係を結んでよいか否かの判断を繰り返す(ステップS7−3−1及びS7−3−2)。
【0091】
図12に、エッジElとエッジErを結ぶ依存関係の可能性を列挙している。左側がエッジElであり、該エッジElの左端に単語W1を有し、エッジElの右端に単語W2を有する。右側がエッジErであり、該エッジErの左端に単語W3を有し、エッジErの右端に単語W4を有する。エッジEl及びErは、それぞれ連結な依存構造をなしている。各エッジの内部の単語は外部の単語との間に係り受け関係を持たない。また、依存関係のループや親が複数ある構造を許容しないことを考えると、これら2つのエッジEl及びErの依存構造の間に存在することが可能な依存関係としては、図12に挙げた8通りを考えればよいことがわかる。
【0092】
すなわち、
(a)エッジElの左端の単語W1がエッジErの左端の単語W3に係る場合、
(b)エッジErの左端の単語W3がエッジElの左端の単語W1に係る場合、
(c)エッジElの左端の単語W1がエッジErの右端の単語W4に係る場合、
(d)エッジErの右端の単語W4がエッジElの左端の単語W1に係る場合、
(e)エッジElの右端の単語W2がエッジErの左端の単語W3に係る場合、
(f)エッジErの左端の単語W3がエッジElの右端の単語W2に係る場合、
(g)エッジElの右端の単語W2がエッジErの右端の単語W4に係る場合、そして
(h)エッジErの右端の単語W4がエッジElの右端の単語W2に係る場合
の8通りである。
【0093】
依存関係チェック部61cでは、これら8通りの可能性について、成立の可否をチェックし、成立するものを出力する。
【0094】
依存関係成立のチェックは、文法的なチェックと、構造的なチェックに分けることができる。前者の文法的なチェックでは、単語の性質と文法に基づき、単語どうしをある依存関係で結べるかどうかを判断するステップであり、文法の適用可能性を判断する一般的なチェックである。後者の構造的なチェックは、本発明に特有のチェックであり、2つの依存構造を新たな依存関係で結んでできる依存構造において、両端の単語を除き、外部の単語と依存関係を持たないことを保証するために行う。このための知識は文法適用制約格納部61dに記述格納されており、依存関係チェック部61cはこれを参照しながら動作する。
【0095】
図10のフローチャートの説明に戻る。以下、単語Wlは、エッジElの左端の単語W1及び右端の単語W2のいずれか一方を、単語Wrは、エッジErの左端の単語W3及び右端の単語W4のいずれか一方をあらわす。まず、単語Wlを子供、単語Wrを親とする依存関係が結べるかどうかを、単語の性質と文法を参照して判断する(ステップS7−3−3)。このステップS7−3−3は、上述した文法的なチェックに相当するステップであり、単語Wlと単語Wrに共通の未だ満たされていない依存関係であって、単語Wl側が子供、単語Wrが親となることができるものがある場合に成立すると判断する。
【0096】
ステップS7−3−3において、ある依存関係が成立すると判断した場合、文法適用制約格納部61d中の制約をチェックする(ステップS7−3−4)。このステップS7−3−4が上述した構造的チェックに相当するステップである。このステップS7−3−4のチェックに成功したら、その依存関係を出力し依存構造作成部61eに送る(ステップS7−3−5)。
【0097】
一方、ステップS7−3−3及びステップS7−3−4のどちらかのチェックで不成功となった場合には、出力処理は行わずに、次のステップS7−3−6にスキップする。ステップS−7−3−6〜S−7−3−8では、上述と逆に、単語Wlが親となって単語Wrが子供となるケースについて、上述したステップS−7−3−3〜S−7−3−5と同様の処理を行う。
【0098】
図11は文法適用制約格納部61dに格納される文法適用制約の内容の一例を示している。図11に示すように、文法適用制約格納部61dには、左の単語Wl、右の単語Wr、係り受けの方向の3組に対し、その係り受けが許容されるための制約が記述してある。文法適用制約格納部61dの目的は、単語Wlと単語Wrを指定した方向の依存関係で結んでできる依存構造において、両端以外の単語に対する文法適用が完了していることを保証することである。
【0099】
例えば、最初のエントリは、単語W1を子供、単語W3を親とする依存関係が許容されるためには、単語W2への文法適用がすでに終了していることと、W3への文法適用も、この新しい依存関係の適用が最後であることの2つを要求している。これは、図12(a)に示す依存関係を結ぶことができるための条件として、単語W2と単語W3が必須で要求する依存関係が、すべてこの図の状態で満たされている、ことを意味する。なお、ある単語に対する文法適用が終わっているとは、その語が既に持っている依存関係によって、その語が必須としている依存関係がすべて満たされていることをいう。
【0100】
具体的には、例えば、他動詞定型のeat は、右側に直接目的語の子供を、左側に主語の子供を必須関係として要求する。また、この語は、右側に副詞的修飾要素を子供としてとることができるが、この依存関係は任意であるとする。この仮定のもとで、他動詞定型のeat に対する文法適用が終わっていることは、この単語がすでに右側に直接目的語に対する依存関係を持っており、左側には主語への依存関係を持っていることで判断する。どちらか一方でも欠けていれば、文法適用が終了しているとは見なされない。一方、副詞的修飾要素はあってもなくても、文法適用終了の判定には影響を及ぼさない。
【0101】
文法適用制約格納部61dの制約が基本的に求めているのは、依存関係を結んだ後に、単語W2と単語W3への文法適用が終わっていることである。もしも、単語W2又はW3が満たされていない必須依存関係を持っていれば、後でこれらの語と他の語をその依存関係で結んでその関係を充足してやらなければならない。ところが、単語W2も単語W3も新しい依存構造の内部にあるため、解析処理が進んでも、後に他の語と依存関係で結ばれる可能性がない。そのため、これらの制約を満たさないことが明らかな構造は、不適格な構造として最初から排除してチャートに登録しないようにしている。
【0102】
次に、上述における第2の文法適用部62の詳細な構成及び動作について図13〜図15を参照して説明する。
【0103】
図13に示すように、第2の文法適用部62は、エッジ格納部62a、単語格納部62b、整合性チェック部62c、及び依存構造作成部62dを有している。
【0104】
エッジ格納部62aは、第2のチャート格納部4から送られてきた第2のチャートにおけるエッジの組を格納する。単語格納部62bは、エッジ格納部62aに格納されたエッジのうち文法適用に関係する両端の単語を格納する。整合性チェック部62cは、左側のエッジの右端の単語と右側のエッジの左端の単語の間で整合性をチェックする。依存構造作成部62dは、整合性のチェック結果を受けて新規に依存構造を生成する。整合性チェック部62cは、英語辞書部2′における英語文法情報を参照し、依存構造作成部62dで新規に生成された依存構造は、エッジ登録部7へ送られる。
【0105】
図14は第2の文法適用部62の動作を説明するフローチャートである。まず、第2のチャート格納部4から与えられる第2のチャートにおける隣接するエッジの組を、エッジ格納部62aに格納する(ステップS11−1)。左側のエッジはエッジElに、右側のエッジはエッジErにそれぞれ格納して、以後、これらエッジEl及びErという表現で参照する。エッジEl及びErを格納したら、依存文法適用に関わる4つの単語を抽出し、単語格納部62bに格納する(ステップS11−2)。依存文法適用に関わる4つの単語とは、エッジElの左端の単語W1、エッジElの右端の単語W2、エッジErの左端の単語W3、そしてエッジErの右端の単語W4である。既に述べたように、エッジの両端以外の単語がエッジの外側の語との間に依存関係を持たないのは、第1の文法適用部61及び第2の文法適用部62ではそのような性質を持つ依存構造しか作成しないためである。エッジElとエッジErは、第2のチャートの上で隣接しているので、単語W2と単語W3は実は同じ単語(以下、「単語Wc」と称する)であることに注意すべきである。単語W2は、単語WcからエッジEl内に伸びる依存関係の集合を持ち、単語W3は、単語WcからエッジEr内に伸びる依存関係の集合を持つ。ステップS11−3において、単語W2とW3を整合性チェック部62cに供給し、これら2種類の依存関係の全体が、1単語Wcが持つ依存関係として整合性があるか否か、さらには、これらを合わせると単語Wcに対する文法適用が終了しているか否かをチェックする。この整合性チェックの結果を判別し(ステップS11−4)、整合性チェックに成功すると、依存構造作成部62dが起動される。依存構造作成部62dは、エッジElとエッジErを単語Wcを仲立ちとして結合した依存構造を作成する(ステップS11−5)。新規作成された依存構造は、単語W1を左端、単語W4を右端とし、それぞれの単語は、エッジEl又はエッジEr内で持っていた依存関係をそのまま引き継いでいる。ただし、単語Wcだけは、エッジElで単語W2として持っていた依存関係とエッジEr内で単語W3として持っていた依存関係を合わせ持つ。単語Wcは、左方に伸びる依存関係も、右方に伸びる依存関係も持っているので、この単語Wcを媒介として、2つの連結依存構造であるエッジElとエッジErが結合し、1つの大きな連結依存構造となる。依存構造としての正しさは整合性チェック部62cが保証している。こうして依存構造が作成されると、作成された依存構造はエッジ登録部7に供給されて、第1及び第2のチャートに登録される。一方、ステップS11−4において、整合性チェックに失敗したと判定された場合には、そのまま、何もせずに処理を終了する。
【0106】
図15は、第2の文法適用部62の整合性チェック部62cの動作を説明するフローチャートである。整合性チェック部62cは、依存関係の集合を格納する領域を、集合Dl、Dr、及びDoblの3つ持っており、さらに、依存関係の集合の間で共通集合や和集合を求めたり、包含関係を比較する集合比較部を有している。
【0107】
整合性チェック処理(図14のステップS11−3及びS11−4)が開始されると、整合性チェック部62cは、まず集合Dlに単語W2が持つ依存関係の全体を格納し、集合Drに単語W3が持つ依存関係の全体を格納する。また、集合Doblに、単語W2(単語W3と同じ単語、すなわち上述した単語Wc)が持たなければならない必須の依存関係の全体を格納する(図15のステップS11−4−1)。なお、集合Doblは、単語への文法適用がまったく行われていない状態を想定して計算する。すなわち、集合Doblは、ある単語が自身の能力として持ちうる必須依存関係の全体のことである。次に、集合Dlと集合Drとの間に矛盾がないことを、2つの集合の共通集合が空集合であることにより確認する(ステップS11−4−2)。もしも、2つの集合の共通集合が空集合でなければ、同じ依存関係が2度使われているので、整合性がないとして整合性チェック処理を抜けて、図14の処理にリターンする(ステップS11−4−5)。ただし、複数回適用可能な依存関係は、それぞれを別々の集合要素と見なし、2度使われていても失敗としない。
【0108】
次に、集合Dlと集合Drをあわせると単語Wcに対する文法適用が終了したと見なせるかどうかをチェックする(ステップS11−4−3)。もしも、単語Wcに対する文法適用が終了したと見なせないならば、やはりステップS11−4−5に移行し、整合性がないとして図14の処理にリターンする。もしも、ステップS11−4−3において、単語Wcに対する文法適用が終了したと見なせるならば、整合性チェックに成功したとして、図14の処理にリターンする(ステップS11−4−4)。
【0109】
ステップS11−4−2は、単語W2と単語W3をマージすることの正当性をチェックしている。ステップS11−4−3は、単語W2と単語W3をマージした結果が、依存構造の内部から外部への依存構造を許さないという制約を満たすかどうかをチェックしている。前者のステップS11−4−2は、第1の文法適用部61の依存関係チェック部61cにおける文法的チェックに相当し、後者のステップS11−4−3は、依存関係チェック部61cにおける構造的チェックに相当する。
【0110】
図16は、文法辞書部2の文法辞書の内容の例を模式的に示している。(a)は名詞“speech”に対する依存関係規則である。図において、矢印は子供から親の方向に向かって伸び、依存関係をあらわす線の近傍にはその関係の種類をあらわす文字列つまり名称を付している。また、実線は必須の依存関係、破線は任意の依存関係をあらわす。また、関係の種類をあらわす名称の末尾の*は、その関係が複数回適用可能であることをあらわす。例えば、(a)に示す名詞“speech”は、左方にcomplの関係で子供となることができ、左方にdet、及びpremodの関係で親になることができる。どの関係も必須ではなく任意の関係である。なお、関係premodは複数回適用可能である。右方に対してのpostmodも同様に、自分を親とする任意の依存関係である。
【0111】
(b)に示す名詞“park”も“speech”と同様の依存関係のセットを持つ。(c)に示す前置詞“at”は、右側にcomplの関係で親となり、この関係は必須である。一方、左方には、postmodの関係で子供になる。この関係は任意である。(d)に示す前置詞“by”の依存関係のセットは“at”と同一である。(e)に示す形容詞“long” は、右方に必須関係 postmod で子供となる。(f)に示す冠詞 “the” は、右方に必須依存関係det で子供となる。(g)に示す副詞的名詞 “yesterday” は、左方に自分が子供としてpostmodの関係をとることが必須である。
【0112】
次に、図17に示す前置詞句 “by the long speech yesterday at the park”が入力されてから図18に示す依存関係が最終的な解析結果として得られ出力されるまでを具体的に追いながら、この第3の実施の形態における動作を説明する。
【0113】
図17の文字列が入力されると、形態素解析部10が英語辞書部2′にアクセスして入力を単語列に分割して、エッジ登録部7に供給する。エッジ登録部7は、第1のチャート格納部3及び第2のチャート格納部4に単語列を供給して第1及び第2のチャートを初期化すると同時に、対応管理部5の内容を初期化する。
【0114】
図19は、この時点で第1のチャート格納部3の第1のチャートに格納される内容を模式的に示している。単語“by”から単語“park”に至る各単語がエッジとして並んでいる。この第1のチャートのノードは単語の中間点の位置に相当する。
【0115】
図20は、同じ時点での、第2のチャート格納部4の第2のチャートに格納される内容を模式的に示している。各単語は、チャートのノードとして黒丸(「●」)であらわされている。ノードを端点とするエッジが存在しないのに注意すべきである。これは、この時点では、複数単語をまとめあげた依存構造がまだ作られていないためである。
【0116】
次に、解析制御部8が左から右のボトムアップチャート法に基づいて解析を開始する。まず、第1のチャート格納部3の第1のチャート上で注目エッジを先頭単語の“by”とし、その左に隣接するエッジと組み合わせて依存構造作成を試みる(図6におけるステップS25)。ところが、左に隣接するエッジは存在しないので、この繰り返しはすぐに終了する。次に、対応管理部5にアクセスし、“by”に対応する第2のチャート上のエッジを取得しようとするが、この時点では第2のチャートの上にはエッジはまったく存在しないので取得に失敗し(図7のステップS30で“No”)、単語“by”を注目エッジとした処理は終了する。
【0117】
次に、解析制御部8は、単語“the”を注目エッジとする。第1のチャート上でこのエッジの左に隣接する唯一のエッジは単語“by”のエッジなので、エッジElを単語“by”のエッジ、エッジErを“the”のエッジとして第1の文法適用部61を起動する。文法適用部61では、単語W1に単語“by”が入り、単語W2が空、単語W3が空、単語W4に単語“the”が入った状態で依存関係チェック部61cが起動される。依存関係チェック部61cは、これら2つの単語を結ぶ依存関係があるかどうかをチェックする(図10のステップS7−3−1)。図16を見ると、単語“by”は自分を親として右方にcomplの関係を結ぶことができ、単語“the”は自分を子供として右方にdetの関係を結ぶことができるが、左に単語“by”、右に単語“the”が並んだときに2つを依存関係で結ぶことはできないことがわかる。そこで、依存関係チェック部は何も出力せず、したがって依存構造作成部61eは何も作成せずに第1の文法適用部61の処理が終わる。第2のチャート上にはまだエッジが存在しないので、単語“the”を注目エッジとした処理もそのまま終了する。
【0118】
同様に、単語“long”を注目エッジとした処理も、新たな依存構造を作ることなく終了する。
【0119】
次に、解析制御部8は、注目エッジを単語“speech”として処理を始める。解析制御部8は、第1のノードで左に隣接する単語“long”のエッジと組にして第1の文法適用部61に送り、文法適用処理を起動する。第1の文法適用部61は、単語W1を単語“long”、単語W4を単語“speech”として依存関係チェック部61cに送り、依存関係チェック処理を起動する。依存関係チェック部61cでは、図10のステップS7−3−3において、単語W1の単語“long”を子供、単語W4の単語“speech”を親とする依存関係が文法的に可能かどうかをチェックする。図16の(a)及び(e)を参照すると、単語“long”は自分を子供として右方にpremodの依存関係を結ぶことができる一方、単語“speech”は自分を親として左方にpremodの依存関係を結ぶことができることがわかるので、依存関係チェック部61cは、依存関係premodにより単語Wlと単語Wrとの間に依存関係が結べると判断し、ステップS7−3−3では“Yes”に進む。
【0120】
次に、単語W2と単語W3に対して文法適用制約格納部61dに記述された制約を満たすかどうかをチェックする(ステップS7−3−4)。しかしながら、この場合、エッジEl、及びErは、共に1単語からなるエッジなので、単語W2、及びW3が共に空であり、チェックは無条件に成功する。こうして、ステップS7−3−6において、依存構造作成部61dが、単語“long”を子供、単語“speech”を親、関係をpremodとする依存関係で2つの単語を結んだ依存構造を作成し、エッジ登録部7に送る。
【0121】
エッジ登録部7は、送られてきた依存構造を第1のチャート及び第2のチャートの対応する区間に登録する。図21はこの時点での第1のチャートの内容である。エッジE1が新規に作成されたエッジである。図22は同じ時点での第2のチャートの内容であり、やはりエッジE1が新規に作成されたエッジである。
【0122】
次に、解析制御部8は、図21に示された、第1のチャート内のエッジE1を注目エッジとする。第1の文法適用部61は、エッジE1の左に隣接する単語“the”のエッジとエッジE1との間に依存関係が結べるかどうかをチェックする。依存関係チェック部61cでは、単語“the”と単語“speech”の間に種類detの依存関係を、前者を子供、後者を親として結べることを見出す(図10のステップS7−3−3)。また、単語W3の単語“long”の文法適用は終了しているので、ステップS7−3−4における文法適用制約のチェックも成功する。単語“the”と単語“long”の間には依存関係が存在しないので、これがエッジElとエッジErとの間に結ぶことが可能な唯一の依存関係である。
【0123】
こうして、依存構造作成部61eが、エッジElとエッジErとをdetの関係で結んで新たな連結依存構造を作成する。作成された依存構造はエッジ登録部7により第1のチャート及び第2のチャートに登録される。図23はこのエッジが登録された時点での第1のチャートの内容であり、エッジE2が新規に作成され登録されたエッジである。図24は同じ時点での第2のチャートの内容であり、やはりエッジE2が新規に作成され登録されたエッジである。
【0124】
図25は、さらに解析が進んだ時点での第1のチャートの内容の一部である。例えば、エッジE3は、第1のチャートの上でチャートE2が注目エッジとなっているときに、左隣の“by”エッジとまとまってできたエッジである。これは、単語“by”と単語“speech”との間にcomplの依存関係を、前者を親、後者を子供として結んで作られた依存構造である。文法適用制約をチェックする際に、単語W3に相当する単語“the”に対する文法適用が終了しているかどうかがチェックされるが、これは満足していることに注意すべきである。
【0125】
図25のエッジE6は、エッジE4とエッジE5から第1の文法適用部61により作成された依存構造である。また、エッジE6が注目エッジとなっているとき、エッジ“long”と結合してエッジE7ができる。しかしながら、これ以後エッジE7が、例えば左隣の“the”のエッジと結合して成長することはない。エッジE7の両端の単語は既に適用可能な依存構造をすべて持っており、これ以上他の単語の結びつく可能性がないためである。エッジ中途の単語“speech”は、単語としてはまだ定冠詞と関係detで結合する能力を残しているが、図9に示した第1の文法適用部61の処理ではエッジの内部の単語と外部の単語との間に依存関係を結ぶことはあり得ないため、第1のチャート上でエッジE7がこれ以上成長することはあり得ないのである。したがって、エッジE6からは、図18に示した正解の構造は成長しない。一般に、第1のチャートの上で第1の文法適用部61によるエッジ作成を進めていっても、図18の正解構造にまで成長しないことが容易に理解できるはずである。
【0126】
エッジE6を注目エッジとした第1のチャート上の解析を終えたら、解析制御部8は、第2のチャートに処理の場を移す。図26は、図25と同じ時点での第2のチャート4の内容の一部である。対応するエッジは、図25と図26とに同じ符号を付して示している。注目エッジはやはりエッジE6である。エッジE6と、エッジE6の左に隣接するエッジとの組が順次第2の文法適用部62に送られる。第2の文法適用部62では、2つの依存構造をマージして連結な依存構造を作成できるかどうかをチェックする。
【0127】
エッジE6の左に隣接するエッジとして、エッジE1、E2、及びE3が順次選ばれて第2の文法適用部62に送られる。第2の文法適用部62では、両者のエッジに共通する単語“speech”に対して、それぞれのエッジで与えられた依存関係を無理なく1つにまとめて、単語“speech”に対する文法適用が終了した状態にできるかどうかをチェックする。例えば、エッジE1では、単語“speech”はpremod関係の親となっており、エッジE6では2つのpostmod関係の親となっている。postmod関係は複数個許されるので、これらを合わせた「右へpremod関係、左へ2つのpostmod関係、すべての関係において親となっている」という依存関係の総体は、単語“speech”の持つ依存関係として整合性があり、かつ必須関係をすべて満足しているので、第2の文法適用部62における整合性関係チェックは成功する。したがって、エッジE1とエッジE6とを連結した依存構造が作成され、登録される。ただし、この構造は、エッジE7とまったく同じ区間を張り、両端の単語“long”と単語“park”における文法適用の状況もまったく同じなので、第1のチャート、及び第2のチャートのいずれにおいても登録時にエッジE7にパックされる。
【0128】
正解に至るのは、エッジE3とエッジE6の組合わせである。これらを第2の文法適用部62に送ると、エッジE1の場合とまったく同様にチェックが進み、新しい依存構造が作成される。こうして作成された依存構造が登録された時点の第1のチャートの内容を図27に示す。また、同じ時点の第2のチャートの内容を図28に示す。正解エッジE8が得られている。
【0129】
以後も解析が進められるが、全体を張るエッジはこのエッジE8だけなので、解析処理の終了後に解析結果選択部11によりこれが選択され、依存構造が出力部9より出力される。
【0130】
以上説明したようなステップを踏んで、入力“by the long speech yesterdayat the park”から図18に示す解析結果を得ることができる。チャートを2つ使うことによる計算量の増加は、単一のチャートを使う場合の計算量の2倍にとどまる。エッジの統語的振舞いは両端の単語だけで決まるため、文献3と同じ理由により解析が単語数の3乗のオーダーで終了する。また、エッジがすべて連結な依存構造であるという大きな利点がある。このため、この連結な依存構造であるエッジに言語的解釈を施して、例えば構造に対する優先度を容易に付与することができるという利点がある。
【0131】
次に、本発明の第4の実施の形態について説明する。本発明の第4の実施の形態も、図1に示した第1の実施の形態の自然言語解析システムを用いて構成した英語の構文解析システムである。すなわち、図29は、本発明の第4の実施の形態に係る構文解析システムの構成を示している。図29に示した本発明の第4の実施の形態に係る構文解析システムの図5の第3の実施の形態の構文解析システムとの相違は、第1のチャートと第2のチャートを物理的に1つのチャートとしてまとめチャート格納部34に格納した点、及び対応管理部5を削除した点である。チャート格納部34に格納されるチャートの物理構造は、第3の実施の形態における第1のチャートと同様であり、単語及び連結な依存構造をエッジとし単語間の位置をノードとする。
【0132】
第3の実施の形態に関連して示したように、第1のチャートの内容と第2のチャートの内容は本質的に同じである。正確には、単語をあらわす長さ1のエッジを除き、第1のチャートと第2のチャートには同じエッジが同じ位置に登録されている。第1のチャートと第2のチャートの本質的な違いは、エッジの隣接関係にある。例えば、図25を参照すると、エッジE4とエッジE5は第1のチャートの上でお互いに隣接していることがわかる。一方、同じ時点での第2のチャートの内容を表す図26を参照すると、エッジE4とエッジE5は第2のチャート上では隣接していないことがわかる。逆に、E3とE6は第1のチャートの上では隣接していないにも関わらず、第2のチャート上では隣接している。一般に、第2のチャートで隣接する2つのエッジは、第1のチャートでは端の1単語を共有している。一方、第1のチャートで1単語を共有する2つのエッジは、第2のチャートで隣接する。例えば、前述のエッジE3とエッジE6は、第1のチャート上では端の単語“speech”を共有する関係にあり、第2のチャート上では隣接する関係にある。したがって、2つのエッジが第2のチャート上で隣接していることと、第1のチャート上で端の単語を共有していることは同値である。
【0133】
このように、第1のチャートと第2のチャートの間には規則的な対応関係があるため、2つを物理的に共通化して1つのチャートとして実現しながら、隣接関係の解釈を状況に応じて変えることにより論理的に2つのチャートとして使用することができる。共通化されたチャート上のエッジの隣接関係を物理的な隣接で判断すれば第1のチャートとみなしていることになり、端の一単語が共有されているかどうかで隣接関係を判断すれば第2のチャートとみなしていることになる。なお、長さ1のエッジは第2のチャートの解釈をとるときは存在しないものとする。
【0134】
第4の実施の形態においては、このような考察に基づき、論理的に2つのチャートを物理的に1つのチャート構造上に実現して構文解析システムを構成する。
【0135】
すなわち、図29に示す構文解析システムは、入力部1、英語辞書部2′、文法適用部6′、エッジ登録部7、解析制御部8、出力部9、形態素解析部10、解析結果選択部11、及びチャート格納部34を備えている。文法適用部6′は、第1の文法適用部61及び第2の文法適用部62を有している。
【0136】
チャート格納部34に格納されるチャートは、上述したように論理的に2つのチャートである第1及び第2のチャートを物理的に1つのチャート構造上に実現したものである。
【0137】
図30及び図31は、第4の実施の形態による構文解析システムの動作を説明するフローチャートである。図6及び図7に示した第3の実施の形態の動作との相違は、チャートの物理的な共通化と対応管理部の廃止に伴い、第2のチャートと対応管理部を初期化するステップ(図6のステップS23)を廃止したこと、第1のチャート上の注目エッジに対応する第2のチャート上のエッジを取得するステップ(図7のステップS29及びS30)を廃止したこと、第1のチャート上で隣接するエッジを取得する操作を、共通のチャート上で第1のチャートの意味で隣接するエッジを取得する操作、すなわち物理的に隣接するエッジを取得する操作に置き換えたこと、第2のチャート上で隣接するエッジを取得する操作を、共通のチャート上で第2のチャートの意味で隣接するエッジを取得する操作、すなわち端の一単語を共有する長さ2以上のエッジを取得する操作に置き換えたこと、さらに、第1のチャートへの格納操作と第2のチャートへの格納操作に分かれていた依存構造格納操作を単一のチャートへの格納操作に共通化したことである。
【0138】
それ以外の点では、第4の実施の形態の動作は第3の実施の形態の動作とまったく同じである。
【0139】
まず、入力部1に英文が入力される(ステップS41)。具体的には、英文が入力部1に入力され、該英文が形態素解析部10に送られる(ステップS41a)。形態素解析部10は、英語辞書部2′を参照して、入力英文を単語に分割する(ステップS41b)。
【0140】
入力部1に入力され、形態素解析部10により単語に分割された入力英文は、エッジ登録部7に送られる。エッジ登録部7は、与えられた単語列をチャート格納部34に送り、チャートに登録し、チャートを初期化する(ステップS42)。
【0141】
チャートの初期化処理が終了すると、解析制御部8が構文解析を開始する。解析は、ボトムアップ、左から右のチャート法によって行う。まず、チャート格納部34のチャート上で注目エッジErを1つ定める(ステップS44)。次に、チャート上でエッジErの左に第1のチャートの意味で隣接するエッジを順次選定し、これをエッジElとして、以下(ステップS46〜S48)のまとめあげ処理を繰り返す(ステップS45)。
【0142】
まず、エッジElとエッジErを第1の文法適用部61に送る(ステップS46)。第1の文法適用部61は、2つのエッジを新たな依存関係で結んで、全体を1つの連結な依存構造にまとめあげる処理を行う(ステップS47)。
【0143】
第1の文法適用部61では依存構造を生成する際に、新しく生成される構造の両端の単語以外の単語に対しては文法適用がすべて終了した状態にあるか、又は依存関係で結ばれることによりそのような状態になるか否かをチェックし、この条件を満たすことができない依存構造は生成しない。この条件により、生成された依存構造の文法的振舞いが両端の単語だけで決まることが保証されるため、パックすることにより横形解析が単語数の3乗のオーダーの計算量で終了することが保証される。
【0144】
さて、このようにして新規作成された依存構造は、エッジ登録部7に送られる。エッジ登録部7は、該依存構造をチャート格納部34のチャートにエッジとして登録する(ステップS48)。ただし、同一の区間に同一の文法適用の可能性を持ったエッジが既に登録されている場合には、既登録のエッジを代表エッジとしてパックし、以後の文法適用が代表エッジのみを対象として行われるようにする。
【0145】
エッジErの左側にあるエッジのすべてに対して上述の処理を行ったら、解析制御部8は、チャート上で、エッジEr(2)の左に第2のチャートの意味で隣接するエッジEl(2)の各々に対してエッジまとめあげ処理(ステップS52〜S54)を行う(ステップS51)。
【0146】
ステップS45(S46〜S48)におけるまとめあげ処理と同様、まずエッジEl(2)とEr(2)を第2の文法適用部62に送る(ステップS52)。第2の文法適用部62は必要に応じて文法適用を行い、2つのエッジを1つのエッジにまとめあげる(ステップS53)。
【0147】
この第2の文法適用部62におけるまとめあげに際しては、第1の文法適用部61と同様に、両端の単語を除いては文法適用がすべて終了した状態にあるか、又は依存関係で結ぶことによりそのような状態にできるか否かをチェックし、この条件を満たすことができない依存構造は生成しない。ただし、第2のチャートの意味では隣接するエッジは中間の単語を共有しているので、依存関係を新たに導入しなくても連結な依存構造を作ることができる点が第1の文法適用部61の場合とは相違する。
【0148】
さて、第2の文法適用部62で新規に生成された連結依存構造はエッジ登録部7に送られる。エッジ登録部7は、依存構造をエッジとしてチャートに登録する(ステップS54)。さらに、必要に応じてパックして登録することも上述の場合と同様である。
【0149】
こうして、可能性のある全てのエッジEl(2)に対して処理を終了したら、再びチャートに視点を戻し、注目エッジとすべきエッジがチャート上に残っているかどうかをチェックする(ステップS55)。ステップS55において、そのようなエッジが残っていると判定されたならば、ステップS44に戻り、次の注目エッジをErにセットしてステップS44以後の処理を繰り返す。
【0150】
一方、ステップS55において、そのようなエッジが残っていないと判定されたならば、解析結果選択部11が起動される。解析結果選択部11は、解析制御部8を介してチャート格納部34のチャートにアクセスし、解析結果としてチャート全体を張るエッジを得て、適正な解析結果を選択出力する(ステップS56)。すなわち、全体に対する解析結果として得たエッジの中から、出力としてふさわしいものを選択して、出力部9に送る(ステップS56a)。該出力部9は、送られてきた解析結果を出力する(ステップS56b)。
【0151】
例えば、図25のエッジE6が注目エッジとなっているとき、第1のチャートの意味で隣接するエッジの単語“long”とのまとめあげを行ってエッジE7を作成した後、このチャートの上で、第2のチャートの意味で隣接するエッジE1、E2、及びE3とのまとめあげに移り、正解となる図27のエッジE8を得ることができる。
【0152】
第4の実施の形態によれば、2つのチャートを物理的に共有できるので、処理に必要なメモリを削減できるという利点がある。
【0153】
本発明は、上述した以外にも種々に変形して実施することができる。例えば、エッジのまとめあげの順序による曖昧性が発生するのを防ぐために、エッジのまとめあげ処理にさらに制約を加えて実施することができる。例えば、隣接する3つの単語が次々右側に係っていく場合を考える。構造化の手順としては、左の2単語をまとめ、次に一番右側の単語とまとめあげる手順と、右の2単語が構造化されたものに一番左の単語が係っていく手順の2つがあるが、上述の実施例ではすべての手順が実行される。どちらの手順で構造化しても、最終的にはまったく同じ依存構造が得られるのは明らかであり、2つの手順からまとめあげが行われるのは冗長である。この問題に対処するために、例えばこのようなまとめあげの際には左又は右のエッジが内部構造を持たない単純なエッジでなければならないという制約を追加して、このような冗長性を削減することができる。本発明をこのような制約を考慮するように変形して実施することは容易である。
【0154】
また、実施例では解析の全体制御にボトムアップ、左から右のチャート法を用いたが、トップダウンの解析方法を用いたり、解析方向を右から左にする、島駆動にする、あるいはそれらを混合して解析をすすめるように本発明を変形して実施することも容易である。その他、本発明は種々変形して実施することができる。
【0155】
【発明の効果】
以上説明したように、本発明によれば、任意の依存文法が与えられたときに、入力単語数の3乗のオーダー程度の少ない計算量で横形の解析が可能で、しかもチャートに登録する部分解析結果を連結な構造に限定することの可能な自然言語解析装置、システム及び記録媒体を提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る自然言語処理システムの構成を示すブロック図である。
【図2】図1の自然言語処理システムの処理動作の一部を説明するためのフローチャートである。
【図3】図1の自然言語処理システムの処理動作の残部を説明するためのフローチャートである。
【図4】本発明の第2の実施の形態に係る自然言語処理システムの構成を示すブロック図である。
【図5】本発明の第3の実施の形態に係る構文解析システムの構成を示すブロック図である。
【図6】図5の構文解析システムの処理動作の一部を説明するためのフローチャートである。
【図7】図5の構文解析システムの処理動作の残部を説明するためのフローチャートである。
【図8】図5の構文解析システムにおける第1の文法適用部の構成の一例を示すブロック図である。
【図9】図8の第1の文法適用部の処理動作の一例を説明するためのフローチャートである。
【図10】図8の第1の文法適用部における依存関係チェック部の処理動作の一例を説明するためのフローチャートである。
【図11】図8の第1の文法適用部における文法適用制約格納部の格納内容の一例を説明するための模式図である。
【図12】図5の構文解析システムにおける第1の文法適用部の処理対象となる2つのエッジの位置関係を説明するための模式図である。
【図13】図5の構文解析システムにおける第2の文法適用部の構成の一例を示すブロック図である。
【図14】図13の第2の文法適用部の処理動作の一例を説明するためのフローチャートである。
【図15】図13の第2の文法適用部における整合性チェック部の処理動作の一例を説明するためのフローチャートである。
【図16】図5の構文解析システムにおける英語辞書部2′の英語辞書の内容の例を示す模式図である。
【図17】図5の構文解析システムへの入力文の一例を示す模式図である。
【図18】図5の構文解析システムからの出力結果の一例を示す模式図である。
【図19】図5の構文解析システムにおける第1のチャートの内容の一例を示す模式図である。
【図20】図5の構文解析システムにおける第2のチャートの内容の一例を示す模式図である。
【図21】図5の構文解析システムにおける第1のチャートの内容の他の一例を示す模式図である。
【図22】図5の構文解析システムにおける第2のチャートの内容の他の一例を示す模式図である。
【図23】図5の構文解析システムにおける第1のチャートの内容のその他の一例を示す模式図である。
【図24】図5の構文解析システムにおける第2のチャートの内容のその他の一例を示す模式図である。
【図25】図5の構文解析システムにおける第1のチャートの内容のさらにその他の一例を示す模式図である。
【図26】図5の構文解析システムにおける第2のチャートの内容のさらにその他の一例を示す模式図である。
【図27】図5の構文解析システムにおける第1のチャートの内容のさらなる他の一例を示す模式図である。
【図28】図5の構文解析システムにおける第2のチャートの内容のさらなる他の一例を示す模式図である。
【図29】本発明の第4の実施の形態に係る構文解析システムの構成を示すブロック図である。
【図30】図29の構文解析システムの処理動作の一部を説明するためのフローチャートである。
【図31】図29の構文解析システムの処理動作の残部を説明するためのフローチャートである。
【図32】従来の自然言語処理システムの処理アルゴリズムの一例を示す図である。
【図33】従来の自然言語処理システムの処理の一例を模式的に示す図である。
【符号の説明】
1 入力部
2 文法辞書部
2′ 英語辞書部
3 第1のチャート
4 第2のチャート
5 対応管理部
6 文法適用部
6′ 文法適用部
7 エッジ登録部
8 解析制御部
9 出力部
10 形態素解析部
11 解析結果選択部
61 第1の文法適用部
62 第2の文法適用部
61a エッジ格納部
61b 単語格納部
61c 依存関係チェック部
61d 文法適用制約格納部
61e 依存構造作成部
62a エッジ格納部
62b 単語格納部
62c 整合性チェック部
62d 依存構造作成部
A1 … 入力装置
A2 … データ処理装置
A3 … 出力装置
A4 … 記憶装置
A5 … 記録媒体

Claims (9)

  1. 単語列を入力する入力部と、
    依存文法を格納する文法辞書部と、
    単語間の位置をノードとし単語及び連結な依存構造をエッジとして保持する第1のチャートを格納する第1のチャート格納部と、
    単語をノードとし連結な依存構造をエッジとして保持する第2のチャートを格納する第2のチャート格納部と、
    前記第1のチャートに登録されたエッジと前記第2のチャートに登録されたエッジの対応関係を保持する対応管理部と、
    前記第1のチャート及び前記第2のチャートそれぞれのチャート上で隣接するエッジの組に対して、それぞれ依存文法規則を適用し、これらのエッジを依存関係で結んだ連結な依存構造を作成する文法適用部と、
    連結な依存構造をエッジとして前記第1のチャート及び前記第2のチャートに追加して登録するエッジ登録部と、
    前記依存文法規則の適用順序を制御する解析制御部と、
    前記解析制御部で得られる解析結果を出力する出力部と
    を具備することを特徴とする自然言語解析装置。
  2. 単語列を入力する入力部と、
    依存文法を格納する文法辞書部と、
    単語間の位置をノードとし単語及び連結な依存構造をエッジとして保持する第1のチャートを格納する第1のチャート格納部と、
    単語をノードとし連結な依存構造をエッジとして保持する第2のチャートを格納する第2のチャート格納部と、
    前記第1のチャートに登録されたエッジと前記第2のチャートに登録されたエッジの対応関係を保持する対応管理部と、
    前記第1のチャート上で隣接するエッジの組に対し前記依存文法規則を適用して、両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第1の文法適用部と、
    前記第2のチャート上で隣接するエッジの組に対し前記依存文法規則を適用し、対応する依存構造を連結して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第2の文法適用部と、
    連結な依存構造をエッジとして前記第1のチャート及び前記第2のチャートに追加して登録するエッジ登録部と、
    前記依存文法規則の適用順序を制御する解析制御部と、
    前記解析制御部で得られる解析結果を出力する出力部と
    を具備することを特徴とする自然言語解析装置。
  3. 前記第1のチャート格納部及び第2のチャート格納部に代えて、前記第1のチャート及び前記第2のチャートを物理的に1つのチャート構造上に実現したチャートを格納するチャート格納部を設けたことを特徴とする請求項1又は2に記載の自然言語解析装置。
  4. 依存文法を格納する文法辞書格納手段と、
    入力単語及び依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第1のチャートとして記憶する第1のチャート格納手段と、
    複数の単語が依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第2のチャートとして記憶する第2のチャート格納手段と、
    前記第1のチャートにおいて一方の右端の単語のすぐ右隣に他方の左端の単語が位置する意味で隣接する2つの依存構造の組、及び前記第2のチャートにおいて一方の右端の単語が他方の左端の単語と一致する意味で隣接する2つの依存構造の組をそれぞれ入力とし、これらに前記依存文法規則を適用して新たな連結な依存構造を作成する文法適用処理手段と、
    単語又は連結な依存構造を前記第1のチャート及び前記第2のチャートに追加して格納する依存構造登録処理手段と、
    第1のチャート中の依存構造から、該依存構造と同一の第2のチャート中の依存構造を同定する対応管理処理手段と、
    チャート法に基づいて前記第1のチャート上で前記依存文法規則の適用を行う区間を定め、この区間に対して前記依存文法の適用の処理を行い、得られた新たな連結な依存構造に対して前記依存構造登録処理及び前記対応管理処理を行うことを繰り返して、入力単語列全体に対する連結な依存構造を作成する解析処理を実行する解析処理手段と、
    を具備することを特徴とする自然言語解析システム。
  5. 依存文法を格納する文法辞書格納手段と、
    入力単語及び依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第1のチャートとして記憶する第1のチャート格納手段と、
    複数の単語が依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第2のチャートとして記憶する第2のチャート格納手段と、
    前記第1のチャートにおいて一方の右端の単語のすぐ右隣に他方の左端の単語が位置する意味で隣接する2つの依存構造の組に前記依存文法規則を適用して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第1の文法適用処理手段と、
    前記第2のチャートにおいて一方の右端の単語が他方の左端の単語と一致する意味で隣接する2つの依存構造の組を連結して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第2の文法適用処理手段と、
    単語又は連結な依存構造を前記第1のチャート及び前記第2のチャートに追加して格納する依存構造登録処理手段と、
    第1のチャート中の依存構造から、該依存構造と同一の第2のチャート中の依存構造を同定する対応管理処理手段と、
    チャート法に基づいて前記第1のチャート上で前記依存文法規則の適用を行う区間を定め、この区間に対して前記依存文法の適用の処理を行い、得られた新たな連結な依存構造に対して前記依存構造登録処理及び前記対応管理処理を行うことを繰り返して、入力単語列全体に対する連結な依存構造を作成する解析処理を実行する解析処理手段と、
    を具備することを特徴とする自然言語解析システム。
  6. 前記第1のチャート格納手段及び第2のチャート格納手段に代えて、前記第1のチャート及び前記第2のチャートを物理的に1つのチャート構造上に実現したチャートを格納するチャート格納手段を設けたことを特徴とする請求項4又は5に記載の自然言語解析システム。
  7. コンピュータに、
    依存文法を格納する文法辞書格納機能、
    入力単語及び依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第1のチャートとして記憶する第1のチャート格納機能、
    複数の単語が依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第2のチャートとして記憶する第2のチャート格納機能、
    前記第1のチャート格納機能において一方の右端の単語のすぐ右隣に他方の左端の単語が位置する意味で隣接する2つの依存構造の組、及び前記第2のチャート格納機能において一方の右端の単語が他方の左端の単語と一致する意味で隣接する2つの依存構造の組をそれぞれ入力とし、これらに前記依存文法規則を適用して新たな連結な依存構造を作成する文法適用処理機能、
    単語又は連結な依存構造を前記第1のチャート及び前記第2のチャートに追加して格納する依存構造登録処理機能、
    第1のチャート中の依存構造から、該依存構造と同一の第2のチャート中の依存構造を同定する対応管理処理機能、及び
    チャート法に基づいて前記第1のチャート上で前記依存文法規則の適用を行う区間を定め、この区間に対して前記依存文法の適用の処理を行い、得られた新たな連結な依存構造に対して前記依存構造登録処理及び前記対応管理処理を行うことを繰り返して、入力単語列全体に対する連結な依存構造を作成する解析処理を実行する解析処理機能、
    を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  8. コンピュータに、
    依存文法を格納する文法辞書格納機能、
    入力単語及び依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第1のチャートとして記憶する第1のチャート格納機能、
    複数の単語が依存関係で結ばれた連結な依存構造をその左端の位置及び右端の位置と共に第2のチャートとして記憶する第2のチャート格納機能、
    前記第1のチャートにおいて一方の右端の単語のすぐ右隣に他方の左端の単語が位置する意味で隣接する2つの依存構造の組に前記依存文法規則を適用して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第1の文法適用処理機能、
    前記第2のチャートにおいて一方の右端の単語が他方の左端の単語と一致する意味で隣接する2つの依存構造の組を連結して両端の単語以外への前記依存文法規則の適用が完了した連結な依存構造を作成する第2の文法適用処理機能、
    単語又は連結な依存構造を前記第1のチャート及び前記第2のチャートに追加して格納する依存構造登録処理機能、
    第1のチャート中の依存構造から、該依存構造と同一の第2のチャート中の依存構造を同定する対応管理処理機能、及び
    チャート法に基づいて前記第1のチャート上で前記依存文法規則の適用を行う区間を定め、この区間に対して前記依存文法の適用の処理を行い、得られた新たな連結な依存構造に対して前記依存構造登録処理及び前記対応管理処理を行うことを繰り返して、入力単語列全体に対する連結な依存構造を作成する解析処理を実行する解析処理機能、
    を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  9. 前記第1のチャート格納機能及び第2のチャート格納機能に代えて、前記第1のチャート及び前記第2のチャートを物理的に1つのチャート構造上に実現したチャートを格納するチャート格納機能を実現させるためのプログラムを記録した請求項7又は8に記載のコンピュータ読み取り可能な記録媒体。
JP22885098A 1998-08-13 1998-08-13 自然言語解析装置、システム及び記録媒体 Expired - Fee Related JP3781561B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP22885098A JP3781561B2 (ja) 1998-08-13 1998-08-13 自然言語解析装置、システム及び記録媒体
US09/373,553 US6332118B1 (en) 1998-08-13 1999-08-13 Chart parsing method and system for natural language sentences based on dependency grammars

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22885098A JP3781561B2 (ja) 1998-08-13 1998-08-13 自然言語解析装置、システム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2000057139A JP2000057139A (ja) 2000-02-25
JP3781561B2 true JP3781561B2 (ja) 2006-05-31

Family

ID=16882863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22885098A Expired - Fee Related JP3781561B2 (ja) 1998-08-13 1998-08-13 自然言語解析装置、システム及び記録媒体

Country Status (2)

Country Link
US (1) US6332118B1 (ja)
JP (1) JP3781561B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6999917B1 (en) * 2000-02-22 2006-02-14 Microsoft Corporation Left-corner chart parsing system
KR100397639B1 (ko) * 2000-08-29 2003-09-13 우요섭 어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
IL142421A0 (en) * 2001-04-03 2002-03-10 Linguistic Agents Ltd Linguistic agent system
US7295967B2 (en) * 2002-06-03 2007-11-13 Arizona Board Of Regents, Acting For And On Behalf Of Arizona State University System and method of analyzing text using dynamic centering resonance analysis
AU2003902020A0 (en) * 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
JP4476609B2 (ja) * 2003-12-10 2010-06-09 株式会社東芝 中国語解析装置、中国語解析方法および中国語解析プログラム
US7657420B2 (en) * 2003-12-19 2010-02-02 Palo Alto Research Center Incorporated Systems and methods for the generation of alternate phrases from packed meaning
GB2428508B (en) * 2005-07-15 2009-10-21 Toshiba Res Europ Ltd Parsing method
JPWO2007102320A1 (ja) * 2006-03-07 2009-07-23 日本電気株式会社 言語処理システム
US7962323B2 (en) * 2007-03-07 2011-06-14 Microsoft Corporation Converting dependency grammars to efficiently parsable context-free grammars
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
JP5392228B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド 番組検索装置および番組検索方法
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
JP5710317B2 (ja) * 2011-03-03 2015-04-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、自然言語解析方法、プログラムおよび記録媒体
US10810368B2 (en) 2012-07-10 2020-10-20 Robert D. New Method for parsing natural language text with constituent construction links
US9720903B2 (en) 2012-07-10 2017-08-01 Robert D. New Method for parsing natural language text with simple links
US9569425B2 (en) * 2013-03-01 2017-02-14 The Software Shop, Inc. Systems and methods for improving the efficiency of syntactic and semantic analysis in automated processes for natural language understanding using traveling features

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8900247A (nl) * 1989-02-01 1990-09-03 Bso Buro Voor Systeemontwikkel Werkwijze en stelsel voor het weergeven van meervoudige analyses in een afhankelijkheidsgrammatica, alsmede ontleed-inrichting voor het genereren van een dergelijke weergave.
JPH02300970A (ja) 1989-05-16 1990-12-13 Kobe Nippon Denki Software Kk 自然言語構文解析方式
JP3578796B2 (ja) 1993-04-19 2004-10-20 橋本フォーミング工業株式会社 異形横断面形状の長尺材の製造方法および装置
JP2855409B2 (ja) * 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
US6138085A (en) * 1997-07-31 2000-10-24 Microsoft Corporation Inferring semantic relations
US6078878A (en) * 1997-07-31 2000-06-20 Microsoft Corporation Bootstrapping sense characterizations of occurrences of polysemous words
US5960384A (en) * 1997-09-03 1999-09-28 Brash; Douglas E. Method and device for parsing natural language sentences and other sequential symbolic expressions
US6112168A (en) * 1997-10-20 2000-08-29 Microsoft Corporation Automatically recognizing the discourse structure of a body of text

Also Published As

Publication number Publication date
JP2000057139A (ja) 2000-02-25
US6332118B1 (en) 2001-12-18

Similar Documents

Publication Publication Date Title
JP3781561B2 (ja) 自然言語解析装置、システム及び記録媒体
US5848385A (en) Machine translation system using well formed substructures
Graehl et al. Training tree transducers
US9323747B2 (en) Deep model statistics method for machine translation
Eisner Bilexical grammars and their cubic-time parsing algorithms
Berwick Principle-based parsing
US8892418B2 (en) Translating sentences between languages
EP0907923B1 (en) Method and system for computing semantic logical forms from syntax trees
US8214199B2 (en) Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US10210249B2 (en) Method and system of text synthesis based on extracted information in the form of an RDF graph making use of templates
US20050075859A1 (en) Method and apparatus for identifying semantic structures from text
US20090070099A1 (en) Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US20080086298A1 (en) Method and system for translating sentences between langauges
Hasan et al. A context free grammar and its predictive parser for bangla grammar recognition
Krishnan et al. Relative Extraction Methodology for class diagram generation using dependency graph
US7143027B2 (en) Sentence realization system for use with unification grammars
Gardent et al. Large scale semantic construction for Tree Adjoining Grammars
Wong et al. Machine translation based on constraint-based synchronous grammar
Ristad Computational structure of GPSG models
Vičič et al. A Method to Overcome the Ambiguities in Shallow Parse and Transfer Machine Translation
JP2005234800A (ja) 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム
Sarkar Statistical parsing algorithms for lexicalized tree adjoining grammars
Soman BONAFIDE CERTIFICATE
CN117273137A (zh) 基于依存句法规则的知识图谱构建方法和装置
Perez-Beltrachini et al. THE WEBNLG DATASET

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060307

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120317

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120317

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130317

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130317

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140317

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees