JP3266246B2

JP3266246B2 - 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法

Info

Publication number: JP3266246B2
Application number: JP15557090A
Authority: JP
Inventors: 確長尾; 浩野美山
Original assignee: インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date: 1990-06-15
Filing date: 1990-06-15
Publication date: 2002-03-18
Anticipated expiration: 2017-03-18
Also published as: JPH0447364A; EP0467527A2; EP0467527A3; US5424947A

Description

【発明の詳細な説明】 A.産業上の利用分野本発明は、自然言語の文章の語彙間の依存関係に関す
る知識を用いて、文の構造的多義性を解消する装置及び
方法並びにそのための知識ベース構築方法に関する。

ここで、語彙とは名詞、動詞、形容詞、副詞などの内
容語であり、冠詞、前置詞などの機能語は含まないもの
とする。分野によっては、一続きの内容語も一つの語彙
として扱われる。例えば、コンピュータの技術文献で
は、“virtual disk"を一つの語彙として扱う。また、
依存関係とは語彙間の修飾・被修飾関係（係り受け関係
とも言う）のことである。

B.従来技術自然言語を扱うシステムにとって、文の構造的多義性
は依然として解消が困難な問題として残されている。例
えば、英語文などにおける前置詞句の係り受けの多義性
である。“A user can log on the system with a pass
word."という文章において、“with a password"という
前置詞句が、“log on"という動詞に副詞的に係るか、
あるいは“the system"という名詞句に係るか、という
多義性が存在する。

文の構造的多義性を、語彙や句などの構成要素の意味
・機能的情報を基にして、解消するという手法がいくつ
か考えられている。例えば、Prentice−Hall社1969年発
行の、Modern Studies in Englishの361−375頁のChare
s J.Fillmore著，“Toward a modern theory of case"
に開示される格文法を理論的基盤とした手法である。文
の構成要素が述語に対して果たす機能を格といい、格の
機能のうち意味的なものを特に深層格という（添付の表
１参照）。

格文法では、文の構成要素は格要素と呼ばれ、格と格
要素の整合性によって文の適格性を判断する。例えば、
先の文章では、“log on"が述語で、“a user"は動作主
格、“the system"な対象格、“a password"は道具格の
機能を持つ。各々の動詞には格フレームと呼ばれる枠組
みが付けられていて、各々の動詞が持つ格とそれに対す
る格要素の制約条件が記述される。

格文法では、格に許容される格要素が規定されてお
り、これに違反する入力は意味的に不適切であるとして
棄却されていたが、実際の言語現象では意味的に受け入
れられる文とそうでない文の境界は微妙であり、それは
文脈にも依存する。例えば、“My car drinks gasolin
e."という文において、述語“drink"が、動作主格とし
て人間を表わす語彙（HUMという意味的属性を持つ語
彙）しか許さないとすると、“car"は“drink"の動作主
格としては棄却される。しかし、この文では、“car"は
比喩的に用いられていると考えると、“car"は“drink"
の動作主格として意味的に受け入れられる。格文法のよ
うに属性値を取るシステムは知識の構築は容易である
が、その運用の柔軟性に欠ける。

また、語彙間の統計的頻度情報を用いて構文解析木の
優先度を計算して構造的多義性を解消する手法が特開昭
63−91776号公報に開示されている。この方法の概要と
その問題点を説明する。

（１）入力された文から複数の解析木が実際に生成さ
れ、その中からもっともらしいものを選択する。複数の
解析木を生成することは、手間である。また、多義性に
あまり関係のない語彙の情報であっても、使わなければ
ならない。

（２）多義性の解消に、語彙と語彙の共起関係の統計的
頻度を使う。したがって、個別の例外は扱えない。たと
えば、ある単語ＡがＢとＣのどちらに係るか多義なと
き、統計的にはＢに係ることが多いとしても、ある特定
の文章の中ではＣに係るということは扱えない。また、
統計的頻度情報を得るために十分な正規化されたデータ
（“virtual machine"を“machine is virtual"として
登録するなど）を必要とするため、データの収集に非常
にコストがかかる。

（３）一般に、自然言語の語彙の数は膨大である。そこ
で、カバーできる範囲を拡大するために単語を抽象化し
たカテゴリーである意味マーカーというものを設定して
いるが、これは対象分野を変えると一から作り直さなけ
ればならない。例えば、“department"という語は、あ
る分野Ｐでは、組織のカテゴリーに分類される。そし
て、“department"に関する係受けの知識は、組織のカ
テゴリーとその他のカテゴリーの共起関係の統計情報に
吸収されてしまうと、しかしながら、別の分野Ｑでは、
“department"は、別のカテゴリーに分類されるとした
なら、分野Ｐの知識は、分野Ｑでは役にたたない。分野
毎に単語を抽象化し直して、統計情報を集め直すのは、
非常にコストがかかる。

Ｃ発明が解決しようとする課題要約すると、自然言語処理において、実用的に意味処
理を行なうには２つの問題がある。１つは、そのための
知識を大量に、しかも効率よく構築すること。もう１つ
は、大量な知識を効率よく利用するメカニズムである。

本発明は、この２つの問題点を克服し、実用に耐えう
る自然言語の意味解析システムを初めて提供する事を目
的とする。

Ｄ課題を解決するための手段自然言語文を解析する上で、最大のボトルネックとな
る構造的多義性は、語彙間の係り受け（依存）関係が複
数考えられることから発生する。このような構造的多義
性は、文法的知識だけでは解消することができない。意
味処理が必要となる。そこで、この問題を、語彙の依存
関係をあらかじめ背景知識として定義しておき、候補と
なる依存関係の中から、背景知識に照らし合わせて、適
切な依存関係を選択することによって解決する。つま
り、このシステムは、文章の構文解析の結果として、係
り受けの候補が複数存在する構造が得られた場合に、背
景知識として蓄えられた語彙間の依存関係を基にして、
文章中の語彙の依存関係の優先度を求めることによっ
て、どの係り受けがより適切であるかを決定することが
できる。

したがって、本発明の自然言語解析装置は、機械翻訳
システムや自然言語による質問応答システムなどの文解
析の中で適用され、構造的多義性を含む入力文に対し
て、語彙間の類義関係、階層関係、依存関係の知識を用
いて、最も適切な構文木を出力するために用いられる。
つまり、文法を用いた解析では、解消できない問題、例
えば、領域に固有の知識を用いることによって、初めて
一意に決まるような多義性や、先行する文の内容に依存
して決まる多義性の解消の問題に適用される。

従来の解析法に共通しているのは、語彙があらかじめ
持つべき情報、例えば意味的な分類のためのいくつかの
属性など、が非常に豊富で、それを人間がヒューリステ
ィックに決めている点である。

これに対し、本発明の自然言語解析に必要な情報は、
かなり形式的に記述され、新たに大量の背景知識を自動
的ないし半自動的に構築できる。それゆえ、比較的容易
に実用的なシステムを構築できる。

Ｅ発明の構成 E1 システムの概略構造的多義性の問題を解決するために、まず知識を、
語彙間の類義関係、階層関係、依存関係を表わす木構造
で表現する。文章が入力されたら、多義な係り受けに関
して、背景知識に定義されている語彙間の依存関係を、
類義関係や階層関係を利用して探索し、文章から得られ
る制約と、文脈から得られる制約を用いて、最適な係り
受けを選択することによって、多義性を解消する。確定
された依存構造は、文脈依存関係データとして、知識ベ
ースに登録される。システムの全体構成は第１図に示す
通りである。

次に、このシステムの、各々の構成要素について説明
する。以下に示す例では全て英文を用いているが、本手
法は特定の言語には依存しない。

E1−１構文解析器文章を受け取り、多義性を内包した統語構造を出力す
る。

文“VM/SP keeps the information on the virtual d
isk."は、構文解析され、第２図のような係り受けの多
義性を内包した句構造が生成される。構文解析技術は本
発明に含まれないので、説明は省略する。

E1−２依存構造解析器（１）依存構造生成部句構造を、第３図のような語彙間の依存関係が明示的
に表現された依存構造に変換する。ここで、句構造の係
り受けの多義性は、語彙間の依存関係の多義性として表
現される。また、語彙間の依存関係には、深層格に相当
するラベルが付けられる。これは、表層の語順や前置詞
を手がかり決められ、可能な深層格の候補のリストとし
て表わされる。

（２）依存関係抽出部生成された依存構造から、第４図のような多義な依存
関係を抽出する。これは、一つの多義性に関して、複数
の可能な依存関係の候補として表わされる。

（３）依存関係選択部これは、可能な依存関係の候補に対して、それに相当
する関係を背景知識の中で探索する装置であり、複数候
補に関係が見いだされた場合は、どの関係がより確から
しいかを制約条件を用いて決定する。これに関しては、
後で詳細を説明する。

（４）依存構造変形部各多義性に関して、最も確からしい依存関係が選択さ
れ、それに従って依存構造を変形し、構造的多義性を解
消する。このとき、依存関係に付けられた深層格も一意
に決められる。依存関係解析器の出力は、多義性の解消
された文の依存構造であり、その確定された依存関係
は、それ以降の文を解析するための制約となるため、文
脈依存関係データとして知識ベースに登録される。

このシステムの特徴は、半自動的に構築される知識ベ
ースと、知識ベースを用いて最良の依存関係を選択する
メカニズムである。次に、それらを順に説明する。

E2 知識ベースの構築本実施例では、用語解説書のような、語彙に関する情
報を集めたものから、ある語彙と別の語彙との間の関
係、つまり、類義関係、階層関係、依存関係を抽出す
る。これらの関係が、知識ベースを構成する。

知識の表現形式としては、次のような理由から木構造
を採用した。

（１）文章を解析することによって、半自動的に構築で
きる。

（２）階層関係、依存関係を表現するのに適している。

類義関係は、後で述べるように２つの階層関係に変換
する。

（３）依存関係解析のための推論は、基本的に木構造の
枝を上にたどる手続きである。知識ベースには、文章か
ら得られた依存構造、また依存構造を変換して得られた
階層関係を表わす木構造が集められる。すなわち、知識
ベースは、木構造の集合体である。

従来の自然言語処理システムでは、知識ベースは、文
章解析に必要な情報が定式化されていないこともあっ
て、フレームなどの比較的何でも表現できる形式が好ま
れていた。しかし、フレーム表現は体系的に構築するの
が困難で、人間に依存した部分が多い。そのため、知識
ベースを大規模化するための労力が大変なものになる。

本システムの知識ベースは、ボトムアップ式に構築す
ることが可能であり、大規模化することが容易である。
さらに構造的多義性という問題の性質にもよく適合して
いる。

もちろん、先ず学習によって、知識を与える必要があ
る。知識ベースのデータは、用語解説文を解析し、依存
構造を生成し、それを変換することによって作られる。
以下にその手順を述べる。

（１）文章から、構文解析器を用いて、句構造を生成
し、それを語彙間の係り受け関係が明確となる依存構造
に変換する。学習段階においては、多義な係り受け関係
は人間が決定し、構造を特定する。例えば、文“Operat
ing system stores files on the disk."から、第５図
のような句構造が生成される。これを、第６図のような
依存構造に変換する。これは、依存関係解析器の依存構
造生成部によって行われる。

（２）第７図に示されるように、語彙間の依存関係を表
わすリンクには、深層格のラベル（agent,patient,loca
tion）が属性として付加される。これは、多義性解消の
ときの制約条件の一つとなる。このラベルは学習段階に
おいては、依存構造生成部によって、その候補が付けら
れた後で、人間によって一意に決められる。

（３）“A is a B."や“A is a synonym for B."などの
語彙間の階層（上位／下位）関係や類義関係を表わす文
から得られた依存構造は、isaというラベルのついたリ
ンクでＡとＢが繋がれた構造に変換される。この構造を
isa木と呼ぶ。第８図と第９図にその例を示す。

以上のように人間が決定した依存関係、階層関係、類
義関係データを、学習データとして知識ベースに蓄積す
る（第１図参照）。

E3 最尤な依存関係の選択最尤な依存関係を選択するために、本システムでは、
（１）各々の依存関係に対応するパスを知識ベースにお
いて探索し（パス・サーチ）、（２）各々のパスに対し
て依存距離と呼ばれる値を、制約条件に基づいて計算す
る（距離計算）、という新しい方式を用いる。そして、
最短な依存距離を持つパスに対応する依存関係を、最尤
なものとして選択する。これは、依存関係解析器の依存
関係選択部によって行われる。

パス・サーチは、まず語彙と語彙の共起関係を用い
て、膨大な知識中の探索空間を限定する。自然言語にお
いて１つの語彙が生起する確率は非常に小さく、２語の
共起が実際に生じている知識は非常に少なくなる。その
ため、実際上、計算の負荷が最も大きい距離の計算の対
象となるものは、非常に小さくなり、結果として非常に
効率的な探索となる。

以下に、パス・サーチと距離計算に関して述べる。

（１）パス・サーチパスとは、２つの語彙に関して、各々の語彙の類義
語、上位語の連鎖と、連鎖の終端の語彙間の依存関係を
合わせたものであり、知識ベースを、語彙を節点とした
グラフと考えたときの、語彙間の一つの経路である。例
えば、語彙“keep"と“virtual disk"の間の一つのパス
は第10図のようになる。

知識ベースにおいて、パスを探索するために、次のよ
うなアルゴリズムを考案した。このアルゴリズムは、添
付の表２のようなインデックス・テーブルを利用する。

ここで、テーブルtx（）は、その語彙の現われる木を
識別するポインターを表わし、（）の値は、その木にお
ける、その語彙の位置を表わす（第11図参照）。

isaなどの枝につけられたラベルは、常に下位の節点
の属性として付けられているため、isa木のコラムにあ
るポインターは、その語彙がisaの枝の下位に現われる
木を指している。ここで、テーブル（表２）から、語彙
ａはisa木t0の（０）の位置にあり、語彙ｂは、isa木を
参照して、t0の一番上のノードすなわち我々の記法では
t0（）として表される。すなわち、第12図のようになっ
ている。

ここで、ｂがａの類義語あるいは上位語であること
は、t0（０）を一つ上にたどることによって分かる。こ
のようにして、テーブルの語彙ｂのisa木のコラムを見
れば、ａとisaのついた枝でつながれた語彙はすべて分
かる。ｂについても同様に、isa木を一段たどって、類
義語・上位語が分かる。このようにして、ａの類義語・
上位語の連鎖が、いくつかできる。

今、ＰはＱの上位語であり、ＱはＲの上位語であると
しよう。このとき、isa木は、二本できる。そして、本
発明では、Ｒの上位語を知るために、Ｒがテーブルに入
力されたなら、まず一本のisa木を使ってＲの直接の上
位語Ｑを知り、次にもう一本のisa木を使ってＱの直接
の上位語Ｐを知る事によって、Ｒの上位語を全て知るよ
うにする。

上の例では、isa木は、上位語と下位語の二つのみを
含む。したがって、テーブルに入力された語を下位語と
して含むisa木の識別データが重要であり、その木の中
での下位語の位置情報は必須ではないことに注意された
い。

他の例では、１本のisa木が上記Ｐ、Ｑ、Ｒを含む事
も可能である。その場合には、テーブルに入力された語
を下位語として含むisa木の識別データのみならず、そ
の木の中での下位語の位置情報も必須となることに注意
されたい。

次に、２つの語彙の間のパスを探索するためには、各
々の類義語・上位語の連鎖のいずれかに登場する語彙の
間に依存関係が存在するかどうかを調べる必要がある。
それは、一方の連鎖に含まれる語彙の含まれる依存構造
木の集合と、他方のそれとの間に共通のものがあり、さ
らにその木において、各々の語彙の間に依存関係あるい
は依存関係の推移があるかどうかを調べることに相当す
る。依存構造木において、２つの語彙のその木における
位置から、語彙間に依存関係あるいはその推移があるか
どうかが分かる。

例えば、語彙ｂに、語彙ｄが係るような依存関係は、
ｂの含まれる依存構造木の集合｛t30（１）,t110
（０）｝とｄの含まれる依存構造木の集合｛t40（1
0）,t110（0 1 0）｝の間の共通要素t110におけるｂの
位置（０）とｄの位置（0 1 0）から、ｂはｄの先祖（a
ncestor）であることから、ｂとｄの間に依存関係の推
移があることが分かる（第13図参照）。

木構造においては、節点ｂが、節点ｄの先祖であると
き、ｄからｂへの経路は一意に決まるので、依存関係を
見いだすことと、位置関係を調べることは等価であると
見なされる。語彙の間のパスは、各々の全ての類義語・
上位語連鎖をisa木から求め、連鎖に含まれる語彙の含
まれる依存構造木の集合の共通要素を求め、その木にお
ける語彙の位置関係を調べることで、その存在の有無が
分かり、依存関係の存在する木をたどることによって、
求められる。例えば、語彙ａとｃの間の一つのパスは、
第14図のようになる。

（２）依存距離計算パスには、いくつかの制約条件が考えられ、それによ
って語彙間の依存関係の近さを計算することができる。
語彙間の依存関係の近さの度合を表わす尺度を依存距離
と呼ぶ。依存距離は、パスに含まれる枝（依存関係）の
数と制約を評価した結果得られる値に基づいて決定され
る。

制約条件は、大きく分けて３種類が考えられる。一つ
は、枝につけられた深層格のラベルが、候補となる係り
受けにおいて可能な関係（ある語彙が、ある述語に主語
として係るとか、目的語として係るなど）に対応してい
るかどうか、という制約である。例えば、“VM/SP keep
s the information on the virtual disk."という文
で、第15図のような依存関係から、第16図のようなパス
が得られたとする。このとき、“keep"と“virtual dis
k"の間の表層格（文章から直接得られる格）と、“stor
e"と“disk"の間の深層格の間に整合がとられていなけ
ればならない。ここで、表層格onは場所を表わす深層格
locationを持つ場合があるので、依存関係とパスの間で
格の整合性は保たれている。このように、依存関係とパ
スの間の格関係の整合がとれていれば、パスの格制約の
値は１、さもなくば０になる。この場合のパスの格制約
の値は１である。

もう一つは、共起制約、すなわち同じ文の異なる位置
に現われている語彙との関係に関する制約で、例えば、
ある語彙が、ある述語に目的語として係る場合に、その
述語の主語は、ある特定の語彙か、あるいはその類義語
・上位語である、という制約である。言い換えれば、そ
の文中で何らかの関連（主語、述語など）をもたなくて
はならないという制約であるが、同一語でなく、関連語
であってもかまわない。共起関係とは、ある２つの単語
が、何らかの１文の中で同時に存在していること、であ
る。

先の例では、第17図のように、“VM/SP"が“keep"の
主語（subject）になっている。一方、パスは、第18図
のような知識ベースの依存構造木から得られたものとす
ると、第19図の共起関係が見つかり、“operating syst
em"が“store"の行為者（agent）であることが分かる。
また、第20図のような“VM/SP"と“operating system"
との階層関係がやはり知識として定義されていれば、第
21図のように、パスと文章の間で、語彙の共起に関する
整合がとれていることが分かる。ここで、表層格subjec
tは深層格agentを持ちうるので、格についても整合がと
れている。このように、共起の整合がとれているもの
（語彙と格が同時に対応しているもの）の数が、共起制
約の値となる。この場合のパスの共起制約の値は１であ
る。（主語以外の共起に関する整合はとれていない。）３つめの制約は、文脈に関する制約であり、パス上に
現われた語彙間の依存関係がすでに前文までの文脈に現
われている場合、その依存関係は、その文脈で強く支持
されてると考えられるので、そのパス上の依存関係の距
離が近くなる、という制約である。

例えば、先の例の文に先行する文として、“In VM/S
P,the data is stored on the storage device."という
文があった場合、第22図のような依存構造が知識ベース
の文脈データとして、登録されていることになる。（こ
こでの、objectは深層格ではなく、目的語を表わす表層
格である。）このとき、パスに現われた依存関係store
←diskの“store"と“disk"の間で、知識ベースの類義
・階層関係と文脈の依存関係を用いて、パス・サーチを
行なうと、第23図のようなパスが見つかり、“store"と
“disk"の依存関係が文脈において規定されていること
が分かる。このように、パスに含まれる依存関係のうち
文脈おいて依存関係が規定されているものの数が、文脈
制約の値となる。この場合は、パスに含まれる依存関係
は一つであるので、パスの文脈制約の値は１になる。

依存距離の値は、以上の制約の値と、パスに含まれる
依存関係の数を用いて計算される。第14図で言えば、語
彙ａとｃの間の一つのパスに含まれる依存関係の数は、
isa木の関係を依存関係の数には含めることなく、２で
ある。すなわち、次のような式で計算される。

この式は、格制約と共起制約はパス全体に、文脈制約
はパスに含まれる個々の依存関係に、それぞれ影響する
ことを反映している。ここで、ｎは０〈ｎ〈１である実
数で、文脈をどの程度重要視するかを表わす、ヒューリ
スティックに決められるパラメータである。上の例のパ
スの依存距離は、依存関係数１、格制約値１、共起制約
値１、文脈制約値１より、0.125になる（ｎ＝0.5）。

E4 知識ベースへの登録最尤であると判断された依存構造は、知識ベースに登
録され、後に入力される文の構造的多義性の解消に利用
される。判断結果は、文脈に依存する度合いが高いの
で、学習データと区別するために、文脈依存関係データ
として、別個に登録するのが好ましい（第１図参照）。
具体的には、第７図の様な依存構造と深層格の情報を蓄
積する知識ベースと、表２の右半分のみのインデックス
・テーブルが、文脈依存関係データのために分野毎に用
意される。そして、最尤の依存関係が決定されると、そ
れを反映するデータが知識ベースとインデックス・テー
ブルに追加される。既登録の依存構造と照合する事によ
り、重複登録は避けるようにしてもよい。

このようにして、知識を自動的に増加することが可能
になる。厳密には、人間の介入を要する場面もあるの
で、自動的とは言えなくても、少なくとも半自動的には
知識は増加する。

E6 実験結果前置詞句の係り受けの多義性に関して、コンピュータ・
マニュアルから抜きだした約2000文を用いて本システム
の実験を行った。以下に、その結果を示す。

ここで、知識として、「IBMコンピュータ用語辞典」の
定義文約20000文を基にして構築した依存構造を用いて
いる。

これにより、かなり有効な手法であることが分かっ
た。

Ｆ効果本発明によれば、自然言語における構造的多犠牲解消
のための知識を大量に、且効率よく構築することが可能
になる。更に、大量の知識を効率よく利用することも可
能になる。

【図面の簡単な説明】

第１図は、本発明による自然言語解析用システムの構成
の説明図である。第２図は、多義性を含む句構造の説明
図である。第３図は、多義性を含む依存構造の説明図で
ある。第４図は、可能な依存構造の候補の説明図であ
る。第５図は、句構造の一例の説明図である。第６図
は、依存構造の一例の説明図である。第７図は、依存構
造と深層格の説明図である。第８図は、階層関係の説明
図である。第９図は、類義関係の説明図である。第10図
は、パスの説明図である。第11図は、依存構造木におけ
る語彙の位置の説明図である。第12図は、isa木の説明
図である。第13図は、依存関係の推移の説明図である。
第14図は、語彙ｃから語彙ａへのパスの説明図である。
第15図は、keepとvirtual diskの間の依存関係の説明図
である。第16図は、virtual diskからkeepへのパスの説
明図である。第17図は、共起関係の説明図である。第18
図は、知識ベース中の依存構造の説明図である。第19図
は、知識ベース中の共起関係の説明図である。第20図
は、知識ベース中の階層関係の説明図である。第21図
は、パスと文の間の共起関係に関する説明図である。第
22図は、文脈データの依存構造の説明図である。第23図
は、文脈データにおけるパスの説明図である。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平２−59962（ＪＰ，Ａ) 特開昭63−219073（ＪＰ，Ａ) 「技術抄録文からの関係情報の自動抽出」情報処理学会論文誌Ｖｏｌ．25 Ｎｏ．２（1984)

Claims

(57)【特許請求の範囲】

【請求項１】コンピュータ・システムにおいて自動処理
可能な自然言語解析装置であって、（ａ）文の中での語彙の依存関係を表わす第一種の木並
びに語彙の上位／下位関係である階層関係及び類義関係
を表す第二種の木を蓄積する知識ベース手段、（ｂ）語彙の入力に応答して、該語彙の現れる第一種の
木の識別データ及び該第一種の木の中での該語彙の位置
データ並びに該語彙を下位語として含む第二種の木の識
別データを出力するためのテーブル手段、（ｃ）入力された文の構造が一義的であるか多義的であ
るかどうかを判定する手段、（ｄ）構造的に多義的であると判定された文について
は、複数の可能な依存関係の各々について、修飾語と被
修飾語のペアを抽出する手段、（ｅ）ペア毎にペアを構造する語彙について、テーブル
手段を利用して、知識ベース手段に蓄積されている第一
種の木及び第二種の木を調べ、該語彙を両端とし、かつ
第一種の木に現れる語彙の一部を含んでなるパスを決定
する手段、（ｆ）ペア毎に、決定されたパスによって導き出せる依
存関係の数と複数の制約値とに基づいて、距離を計算す
る手段、及び（ｇ）ペア毎に求まった距離に基づいて、最尤の依存関
係を決定する手段を具備する自然言語解析装置。
【請求項２】（ｈ）上記手段（ｇ）によって決定された
最尤の依存関係を含む、入力文に関する第一種の木を上
記知識ベース手段（ａ）に蓄積し、且つこれに応じて上
記テーブル手段（ｂ）を更新する手段を具備する請求項
１記載の自然言語解析装置。
【請求項３】上記知識ベース手段（ａ）は、上記手段
（ｈ）の追加する文脈依存関係データを学習データと区
別して蓄積する請求項２記載の自然言語解析装置。
【請求項４】上記テーブル手段（ｂ）は、文脈依存関係
データ用を学習データ用と分けている請求項２記載の自
然言語解析装置。
【請求項５】上記第一種の木には、依存関係毎に深層格
のデータが与えられている請求項１記載の自然言語解析
装置。
【請求項６】上記手段（ｆ）において、制約値の１つが
文脈制約値である請求項１記載の自然言語解析装置。
【請求項７】上記手段（ｆ）において、制約値の１つが
格制約値である請求項１記載の自然言語解析装置。
【請求項８】上記手段（ｆ）において、制約値の１つが
共起制約値である請求項１記載の自然言語解析装置。
【請求項９】上記第二種の木は上位語と下位語に相当す
る二つのノードのみを持つisa木であり、上記手段（ｅ）は、ペアを構成する語彙の上位語が出力
されたなら、更にその上位語を下位語として含むisa木
を探すことを繰返すことにより、上位語の連鎖を出力す
る請求項１記載の自然言語解析装置。
【請求項１０】上位／下位関係を二本のisa木で表わす
請求項１記載の自然言語解析装置。
【請求項１１】文の中での語彙の依存関係を表す第一種
の木並びに語彙の上位／下位関係である階層関係及び類
義関係を表す第二種の木を蓄積する知識ベースと、語彙
の入力に応答して、該語彙の現れる第一種の木の識別デ
ータ及び該第一種の木の中での該語彙の位置データ並び
に該語彙を下位語として含む第二種の木の識別データを
出力するためのテーブルとを備えたコンピュータ・シス
テムにおいて用いる方法であって、（ａ）入力された文の構造が一義的であるか多義的であ
るかどうかを判定するステップ、（ｂ）構造的に多義的であると判定された文について
は、複数の可能な依存関係の各々について、修飾語と被
修飾語のペアを抽出するステップ、（ｃ）ペア毎にペアを構成する語彙について、テーブル
を利用して、知識ベースに蓄積されている第一種の木及
び第二種の木を調べ、該語彙を両端とし、かつ第一種の
木に現れる語彙の一部を含んでなるパスを決定するステ
ップ、（ｄ）ペア毎に、決定されたパスによって導き出せる依
存関係の数と複数の制約値とに基づいて、距離を計算す
るステップ、及び（ｅ）ペア毎に求まった距離に基づいて、最尤の依存関
係を決定するステップを具備する自然言語解析方法。
【請求項１２】（ｆ）上記ステップ（ｅ）によって決定
された最尤の依存関係を含む、入力文に関する第一種の
木を上記知識ベースに蓄積し、且つこれに応じて上記テ
ーブルを更新するステップを具備する請求項11記載の自
然言語解析方法。
【請求項１３】上記知識ベースは、上記ステップ（ｆ）
で追加される文脈依存関係データを学習データと区別し
て蓄積する請求項12記載の自然言語解析方法。
【請求項１４】上記テーブルは、文脈依存関係データ用
を学習データ用と分けている請求項12記載の自然言語解
析方法。
【請求項１５】上記第一種の木には、依存関係毎に深層
格のデータが与えられている請求項11記載の自然言語解
析方法。
【請求項１６】上記ステップ（ｄ）において、制約値の
１つが文脈制約値である請求項11記載の自然言語解析方
法。
【請求項１７】上記ステップ（ｄ）において、制約値の
１つが格制約値である請求項11記載の自然言語解析方
法。
【請求項１８】上記ステップ（ｄ）において、制約値の
１つが共起制約値である請求項11記載の自然言語解析方
法。
【請求項１９】上記第二種の木は上位語と下位語に相当
する二つのノードのみを持つisa木であり、上記ステップ（ｃ）は、ペアを構成する語彙の上位語が
出力されたなら、更にその上位語を下位語として含むis
a木を探すことを繰返すことにより、上位語の連鎖を出
力する請求項11記載の自然言語解析方法。
【請求項２０】上位／下位関係を二本のisa木で表わす
請求項11記載の自然言語解析方法。
【請求項２１】コンピュータ・システムにおいて自動処
理可能な自然言語解析用の知識ベース構築方法であっ
て、（ａ）文の中での語彙の依存関係を表す第一種の木並び
に語彙の上位／下位関係である階層関係及び類義関係を
表す第二種の木を蓄積する知識ベース、及び、語彙の入
力に応答して、該語彙の現れる第一種の木の識別データ
及び該第一種の木の中での該語彙の位置データ並びに該
語彙を下位語として含む第二種の木の識別データを出力
するためのテーブルを設け、（ｂ）上記テーブルを利用して、入力文の複数の可能な
依存関係の候補の中から、上記知識ベースに蓄積されて
いる第一種の木及び第二種の木に基づいて、入力された
語彙を含むパスを探索し、該パスによって導き出せる依
存関係の数と複数の制約値とに基づいて最尤の依存関係
を決定し、（ｃ）決定された最尤の依存関係を含む入力文に関する
第一種の木を上記知識ベースに蓄積する自然言語解析用の知識ベース構築方法。
【請求項２２】上記知識ベースは、上記ステップ（ｃ）
で追加された文脈依存関係データを学習データと区別し
て蓄積する請求項21記載の自然言語解析用の知識ベース
構築方法。
【請求項２３】コンピュータ・システムにおいて自動処
理可能な自然言語解析用の知識ベース構築方法であっ
て、（ａ）文の中での語彙の依存関係を表す第一種の木並び
に語彙の上位／下位関係である階層関係及び類義関係を
表す第二種の木を蓄積する知識ベース、及び、語彙の入
力に応答して、該語彙の現れる第一種の木の識別データ
及び該第一種の木の中での該語彙の位置データ並びに該
語彙を下位語として含む第二種の木の識別データを出力
するためのテーブルを設け、（ｂ）上記テーブルを利用して、入力文の複数の可能な
依存関係の候補の中から、上記知識ベースに蓄積されて
いる第一種の木及び第二種の木に基づいて、入力された
語彙を含むパスを探索し、該パスによって導き出せる依
存関係の数と複数の制約値とに基づいて最尤の依存関係
を決定し、（ｃ）決定された最尤の依存関係を含む入力文に関する
第一種の木を上記知識ベースに蓄積し、且つこれに応じ
て上記テーブルを更新する自然言語解析用の知識ベース構築方法。
【請求項２４】上記知識ベースは、上記ステップ（ｃ）
で追加された文脈依存関係データを学習データと区別し
て蓄積する請求項23記載の自然言語解析用の知識ベース
構築方法。
【請求項２５】上記テーブルは、文脈依存関係データ用
を学習データ用と分けている請求項23記載の自然言語解
析用の知識ベース構築方法。