JPH07200591A

JPH07200591A - 構文解析装置

Info

Publication number: JPH07200591A
Application number: JP5352369A
Authority: JP
Inventors: Yuki Nagase; 友樹長瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-12-28
Filing date: 1993-12-28
Publication date: 1995-08-04
Anticipated expiration: 2018-12-10
Also published as: US5687384A; JP3476237B2

Abstract

(57)【要約】【目的】効率よく、しかも的確な構文解析を行うことを
可能とする。【構成】解析対象入力部１は、解析対象となる文または
句を指定入力する。辞書部２は、前記解析対象の属する
言語に関する辞書引きのための辞書データを保持する。
形態素解析部３は、前記解析対象について前記辞書引き
を行って単語の切れ目を認識する。文法規則部４は、一
般文脈自由文法の形式に則った構文解析のための文法規
則を保持する。統語解析部５は、該文法規則を適用して
統語解析を行う。解析テーブル部６は、統語解析部５に
よる解析の途中経過を所定の格納場所に格納するととも
に、前記解析の途中経過の格納場所および格納場所への
ポインタの少なくとも一方の入った解析テーブルを保持
する。解析テーブル部６の解析の途中経過の情報として
は、構文カテゴリの情報および構文的、意味的、制御的
なあらゆる属性の少なくとも一部の情報を付与する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、機械翻訳システム等に
好適な構文解析装置に係り、特に自然言語を文脈自由文
法の構文解析により並行的に統語解析する構文解析装置
に関する。

【０００２】

【従来の技術】例えば、機械翻訳システムにおいては、
入力される文または句を的確に他の言語の文または句に
翻訳するため、入力される文または句の適切な構文解析
を行って、入力される文または句を正しく解析する必要
がある。このため、機械翻訳における構文解析は機械翻
訳自体の性能を決定する重大な要素となる。

【０００３】文脈自由文法の構文解析は、(1) 後戻り型
構文解析、(2) 並行型構文解析、の２つに大きく分けら
れる。このうち、近年、主として性能面および応用面の
点から注目されているのが並行型構文解析である。

【０００４】並行型構文解析としては、ＣＹＫ（Cocke-
Younger-Kasami）法、チャート（chart parsing）法、
およびＥａｒｌｅｙ法等が代表的な方法として知られて
いる。

【０００５】ＣＹＫ法は、２次元の統語解析表を備え、
統語解析表に部分的な解析結果、すなわち途中経過を書
き込みながら、後戻りせずに解析を進める効率のよい構
文解析法である。しかしながら、このＣＹＫ法では、解
析のための規則が文脈自由文法のうちのチョムスキー標
準形と呼ばれるクラス、つまり子カテゴリが１個または
２個のものに限られる。すなわち、Ａ→ＢＡ→ＢＣなどの規則はＣＹＫ法で扱うことができるが、Ａ→ＢＣＤＡ→ＢＣＤＦなどはＣＹＫ法では扱うことができない。

【０００６】これに対し、チャート法は一般の子カテゴ
リがＮ個の文脈自由文法を扱うことのできる方法である
が、ＣＹＫ法のように具体的な解析手法ではなく、統語
解析アリゴリズムのための枠組みを提案しているにすぎ
ない。したがって、チャート法を実際に構文解析装置等
にインプリメントする場合は、それぞれに効率的なアル
ゴリズムを工夫する必要があった。

【０００７】また、並行型構文解析は、原文の曖昧性を
同時並列的に解析することができる優れた解析方式であ
り、通常、上述のように、解析の途中段階である部分木
の解析結果を格納しておく領域を備えている。部分木の
解析結果としては、最初に辞書引きの結果が格納され、
これをもとに文法の適用が繰り返される。

【０００８】多品詞語は、品詞の数だけ単語が格納され
るのが普通であるが、同一品詞でもいくつかの意味を持
った語は正しく解析されないおそれがある。さらに、イ
ディオムの存在する場合や、長さの異なる複数の単語が
ヒットする場合などはうまく解析できないことがある。

【０００９】

【発明が解決しようとする課題】上述したように、並行
型構文解析のうち、ＣＹＫ法は、解析のための規則が、
文脈自由文法のうちの、子カテゴリが１個または２個の
いわゆるチョムスキー標準形クラスに限られるという欠
点があった。そして、チャート法は、具体的な解析手法
ではなく、統語解析アリゴリズムのための枠組みを提案
しているに過ぎないので、実際にシステム等にインプリ
メントする場合には、個々に効率的なアルゴリズムを工
夫する必要があった。

【００１０】また、並行型構文解析では、解析の途中段
階である部分木の解析結果を格納するにあたり、多品詞
語は、品詞の数だけ単語が格納されるのが普通ではある
が、同一品詞でもいくつかの意味を持った語は正しく解
析されないおそれがあった。さらに、イディオムの存在
する場合や、長さの異なる複数の単語がヒットする場合
などもうまく解析できないことがあった。

【００１１】本発明は、上述した事情に鑑みてなされた
もので、効率よく、しかも的確な構文解析を行うことを
可能とする構文解析装置を提供することを目的としてい
る。また本発明は、ＣＹＫ法のような効率の良さを持ち
ながら、しかも、解析のための規則として一般の文脈自
由文法を扱うことを可能とする構文解析装置を提供する
ことを目的としている。

【００１２】さらに本発明は、多義語を含む単語、イデ
ィオムの可能性のある単語、長さの違う複数単語をも同
時並行的に処理することを可能とし、自然言語の構文解
析精度を向上させ得る構文解析装置を提供することを目
的とする。

【００１３】

【課題を解決するための手段】本発明は、前記目的を達
成するために、統語解析による解析の途中経過を所定の
格納場所に格納するとともに、この解析の途中経過の格
納場所および格納場所へのポインタの少なくとも一方の
入った解析テーブルを保持し、前記解析の途中経過の情
報として、構文カテゴリの情報および少なくとも１つの
構文解析属性の情報を付与することにより、効率的で且
つ高精度な構文解析装置とした。

【００１４】図１は、本発明による構文解析装置の原理
構成を示している。図１に示す構文解析装置は、解析対
象入力部１、辞書部２、形態素解析部３、文法規則部
４、統語解析部５および解析テーブル部６を有してい
る。

【００１５】解析対象入力部１は、解析対象となる文ま
たは句を指定入力する。辞書部２は、前記解析対象の属
する言語に関する辞書引きのための辞書データを保持す
る。

【００１６】形態素解析部３は、前記解析対象について
前記辞書引きを行って単語の切れ目を認識する。文法規
則部４は、一般文脈自由文法の形式に則った構文解析の
ための文法規則を保持する。

【００１７】統語解析部５は、該文法規則を適用して統
語解析を行う。解析テーブル部６は、統語解析部５によ
る解析の途中経過を所定の格納場所に格納するととも
に、前記解析の途中経過の格納場所および格納場所への
ポインタの少なくとも一方の入った解析テーブルを保持
する。

【００１８】解析テーブル部６の解析の途中経過の情報
としては、構文カテゴリの情報および構文解析属性の情
報を付与する。構文解析属性としては、典型的には、構
文的、意味的、および制御的なあらゆる属性の少なくと
もいずれかを含む。

【００１９】解析テーブル部６の解析の途中経過の情報
として、規則を全て満たした完全な部分木であるか、規
則の未充足の部分が残っている不完全な部分木であるか
の別を記述して格納してもよい。この場合、解析テーブ
ル部６は、解析テーブルとして、不完全な部分木のため
の活性弧テーブルと、完全な部分木のための不活性弧テ
ーブルとを含んでいてもよい。

【００２０】解析テーブル部６は、解析テーブルとし
て、文法カテゴリをキーにした規則参照テーブルを含ん
でいてもよい。辞書引き後で且つ統語解析前に解析の精
度を向上させるための前処理を実行するための解析前処
理部７をさらに具備していてもよい。

【００２１】解析前処理部７は、辞書引き結果である単
語群についてそれぞれ多義語を検索し、多義語が見つか
った場合、その一部または全てを予め前記解析テーブル
に加えるようにしてもよい。

【００２２】解析前処理部７は、辞書引き結果である単
語群についてそれぞれイディオムの可能性を検索し、イ
ディオムの可能性が見つかった場合、イディオムの中心
単語と不変化語の部分とを前記解析テーブルに予め追加
するようにしてもよい。この場合、解析テーブルに追加
するイディオムの中心単語には、イディオムの文法的な
特徴を示す属性を付しておいてもよい。

【００２３】解析前処理部７は、辞書引き結果である単
語が２ワード以上から構成される見出し語を持っている
とき、見出し語を区切った部分の単語を解析の対象にす
るように解析テーブルに追加するようにしてもよい。こ
の場合、見出し語を区切った部分の単語を解析テーブル
に追加するのは、最初に引かれた単語が所定の属性を持
っているときに限るようにしてもよい。

【００２４】統語解析部５は、同一の部分文字列に対応
する複数の部分木候補に対し、所定の基準に従い評価し
て順位付けするようにしてもよい。解析テーブル部６
は、属性として、品詞別にカウントされた単語の出現頻
度に関する情報を付与し、且つ統語解析部５は、前記順
位付けのための評価の基準として、単語の出現頻度の高
いものを優先するようにしてもよい。

【００２５】解析テーブル部６は、属性として、規則の
適用回数に関する情報を付与し、且つ統語解析部５は、
順位付けのための評価の基準として、前記規則の適用回
数の少ないものを優先するようにしてもよい。

【００２６】解析テーブル部６は、属性として、修飾語
と被修飾語の距離の合計に関する情報を付与し、且つ統
語解析部５は、順位付けのための評価の基準として、前
記修飾語と被修飾語の距離の合計の低いものを優先する
ようにしてもよい。

【００２７】解析テーブル部６は、属性として、適用規
則に予め付与された得点の合計に関する情報を付与し、
且つ統語解析部５は、順位付けのための評価の基準とし
て、前記適用規則に付与された得点の合計の高いものを
優先するようにしてもよい。

【００２８】解析テーブル部６は、属性として、修飾語
と被修飾語の意味的な距離の評価値に関する情報を付与
し、且つ統語解析部５は、順位付けのための評価の基準
として、前記修飾語と被修飾語の意味的な距離の評価値
の高いものを優先するようにしてもよい。

【００２９】統語解析部５は、同一の部分文字列に対応
する順位付けされた複数の解析木候補のうち、順位の低
い一部の解析木候補について以後の解析で利用できなく
するようにしてもよい。この場合、統語解析部５は、さ
らに、順位の低い一部解析木候補を解析で利用せずに解
析を行って全体の解析に失敗した場合、先に利用できな
いようにした一部解析木候補を利用して、前記失敗した
解析木を補いながら再解析するようにしてもよい。

【００３０】

【作用】本発明による構文解析装置では、ＣＹＫ法の効
率の良さを生かしながら解析のための規則として一般の
文脈自由文法が扱えるように拡張することができ、機械
翻訳などの文法記述を容易にし、且つ並行構文解析の実
行速度を向上させる。

【００３１】また、統語解析の前に前処理手段を設け、
多義を含む単語、イディオムの可能性、長さの違う複数
単語をも同時並行的に処理することを可能とし、自然言
語の構文解析精度を向上させる。

【００３２】解析の途中段階である部分木の解析結果を
解析テーブルを用いて格納していることに着目し、再解
析のときに以前の解析結果をそのまま利用することによ
り、高品質、高性能の構文解析を可能とする。これによ
り、探索の絞り込みを単語レベルのみならず規則適用の
全ての場面で全ての部分木に対して行うことができ、よ
り効率的な構文解析を行うことができる。

【００３３】

【実施例】

《実施例１》次に、本発明に係る構文解析装置の具体的
な実施例を図面を参照して説明する。

【００３４】図２は、本発明の第１の実施例に係る構文
解析装置の構成を示している。図２の構文解析装置は、
解析対象入力部１１、辞書部１２、形態素解析部１３、
文法規則部１４、テーブル参照／書込み部１５、活性弧
テーブル部１６および不活性弧テーブル部１７を有して
いる。

【００３５】解析対象入力部１１は、解析対象となる文
または句を指定入力する。辞書部１２は、前記解析対象
の属する言語に関する辞書引きのための辞書データを保
持する。

【００３６】形態素解析部１３は、前記解析対象につい
て前記辞書引きを行って単語の切れ目を認識する。文法
規則部１４は、一般文脈自由文法の形式に則った構文解
析のための文法規則を保持する。

【００３７】テーブル参照／書込み部１５は、図１にお
ける統語解析部５に相当し、文法規則を適用して統語解
析を行うとともに、活性弧テーブル１６および不活性弧
テーブル１７の参照および書込みを行う。

【００３８】活性弧テーブル部１６および不活性弧テー
ブル部１７は、図１における解析テーブル部６に相当
し、統語解析の途中経過をとして得られる活性弧および
不活性弧それぞれの格納場所または格納場所へのポイン
タを格納する活性弧テーブルおよび不活性弧テーブルを
保持する。

【００３９】ここで、文法規則、辞書および入力文の内
容をそれぞれ次のようなものであるとする。＜文法規則＞ (1) Ｓ → ＮＰＶＰ (2) ＮＰ → ＤＥＴＮ (3) ＮＰ → Ｎ (4) ＶＰ → ＶＮＰ (5) ＶＰ → ＶＮＰＮＰ (6) ＶＰ → Ｖ (7) ＮＰ → ＰＲＯＮ＜辞書＞ＤＥＴ＝ the ＤＥＴ＝ a Ｎ＝ boy Ｎ＝ toy Ｖ＝ gives ＰＲＯＮ＝ you ＜入力文＞ The boy gives you a toy. （ただし、Ｓ：文、Ｎ：名詞、Ｖ：動詞、ＮＰ：名詞
句、ＶＰ：動詞句、ＤＥＴ：決定詞、ＰＲＯＮ：代名
詞）解析対象の文が入力されると、形態素解析部１３が辞書
部１２の辞書データを使って原文の辞書引きをする。辞
書引きの結果は、次のようになる。 the ＤＥＴ boy Ｎ give Ｖ you ＰＲＯＮ a ＤＥＴ toy Ｎ形態素解析の結果は、各々の単語が品詞情報等の辞書中
の属性を持ったままテーブル参照／書き込み部１５に渡
される。

【００４０】テーブル書き込み部１５が書き込むテーブ
ルには、不活性弧表と活性弧表がある。不活性弧表およ
び活性弧表は、それぞれ図３のような三角の形をした表
である。表の横方向（行方向）の数字は文内の単語の位
置を示し、縦方向（列方向）の数字は単語数を表す。

【００４１】表中の、第ｉ列、第ｊ行の箱は、原文のｉ
番目の単語からｊの長さの単語列に対応する。例えば
は、３番目の単語から長さ４単語の単語列、"gives you
a toy"に対応する。

【００４２】ここでは、便宜上、チャート法で使われて
いる用語を使うことにする。不活性弧とは、文法規則を
完全に満足する原文中の単語列のことである。例え
ば、"the boy"と"gives you toy"は、それぞれ、規則
(2) ＮＰ→ＤＥＴＮと規則(5) ＶＰ→ＶＮＰＮＰ
を満足するので不活性弧を張る。

【００４３】活性弧とは、文法規則の一部を満たしただ
けで、不活性弧になる途中段階ともいえる単語列であ
る。例えば、"gives you"は規則(5) の子カテゴリのう
ち２つ（ＶＮＰ）まで満たしているが完全に満足する
には右側にさらにＮＰが必要であるので活性弧を張
る（"gives you"は同時に規則(4) の不活性弧も張
る）。同様に、"the"も右からＮをもらってＮＰになる
ので（規則(2)）活性弧を張る。

【００４４】本発明では、すべての部分単語列の活性弧
と不活性弧の情報を活性弧テーブルと不活性弧テーブル
に書き込みながら、ボトムアップに解析を進める。以下
に、実際に例文を解析する過程を説明する。

【００４５】不活性弧テーブルと活性弧テーブルの第ｉ
行、第ｊ列の箱を、それぞれＨ（ｉ，ｊ）Ｋ（ｉ，ｊ）
と表すとする。テーブル書き込み部が形態素情報を受け
取ると。まず、不活性弧のＨ（ｉ，１）辞書引き結果を
書き込む。

【００４６】図４に１行目まで書き込まれた状態を示
す。不活性弧テーブルへの書き込みはＣＹＫ法のそれと
同じである。すなわち、チョムスキー標準形（右辺が１
つまたは２つのカテゴリ）の規則の条件を満たしたとき
は、それによって構成される構文木の情報を活性弧テー
ブル表に直接書き込む。ＣＹＫ法に従って２行目まで不
活性弧を書き込んだ状態を図５に示す。

【００４７】チョムスキー標準形でない規則（右辺が３
つ以上のカテゴリの規則）は、第１および第２のカテゴ
リの条件を満たす連続する単語列の組み合わせを不活性
弧テーブルから探して、途中経過を活性弧テーブルに書
き込む。活性弧テーブルの第ｉ行目の書き込みは不活性
弧テーブルの第ｉ行目の書き込みと同じタイミングで行
う。つまり、第ｉ行目を書き込むときには、どちらのテ
ーブルもｉ−１行までの箱は完成していなければならな
い。

【００４８】活性弧テーブルの第２行を書き込む場合を
考える。不活性弧テーブル表中の連続する２つの部分単
語列のうち、右辺が３つ以上のカテゴリの規則の第１お
よび第２のカテゴリを満足する組み合わせがないか探す
（この段階の不活性弧は１行しか完成していない）。す
ると、“ＶＰ→ＶＮＰＮＰ”の条件を"give"（Ｖ）
＋"you"（ＮＰ）が満たすので、これらを連結した文字
列（ｉ＝３，ｊ＝２）に対応する活性弧の箱に、残りの
カテゴリの条件（ＮＰ）と親カテゴリの文法情報を書き
込む。図５のＶＰ［ＮＰ］は残りの項ＮＰが満たされれ
ばＶＰが構成されることを意味している。

【００４９】活性弧テーブルの第ｉ行の情報は、テーブ
ルのｉ＋１行以降を書き込む際に参照される。Ｋ（３，
２）のＶＰ［ＮＰ］は第３行目以降の不活性弧を書き込
む際に、Ｋ（３，２）に隣接する単語列でＮＰのものが
不活性弧テーブルにないか探される。実際には４行目の
書き込みのときにＨ（５，２）＝"a toy"が見つかり、
条件のカテゴリを全て満足したので、Ｋ（３，２）とＨ
（５，２）が連結された単語列の情報として不活性弧テ
ーブルＨ（３，４）に記録される。

【００５０】右辺が４カテゴリ以上からなる規則は、不
活性弧テーブルから３つ目のカテゴリの条件を満たす単
語列が見つかっても不活性弧テーブルに書き込むことは
できない。代わりに３つ目まで満たした単語列に対応す
る活性弧テーブルに書き込み、４つ目以降のカテゴリが
不活性弧より探されることになる。

【００５１】上述の例文に対して活性弧表および不活性
弧表を最後まで書き込んだ結果は図６のようになる。テ
ーブル参照／書込み部１５は図７〜図９のステップに従
って、活性弧表、不活性弧表に順次途中経過を書き込み
ながら解析を進める。ただし、この場合、入力文の長
さ、すなわち単語数をｎとする。

【００５２】上述のように、構文解析装置は、２つの２
次元テーブル（不活性弧、活性弧）を備えることから、
一般文脈自由文法の並行型構文解析を行う際に次のよう
な効果を得ることができる。

【００５３】(a) 従来のＣＹＫ法では扱えなかった一般
文脈自由文法を解析することができる。これは、機械翻
訳などで文法記述をおこなう際、開発効率で大きな違い
となって現れる。

【００５４】(b) 連続する２つの部分単語列に対し文法
規則の第１および第２番目のカテゴリの充足チェックを
同時に行うから、第１番目の子カテゴリだけが満たされ
た状態の活性弧を記録する必要がなく、検索効率を高め
メモリ領域を節減することができる。

【００５５】なお、自然言語の統語解析において、適用
されるべき規則を効率良く検索するため、次のようにす
ることもできる。図１０に示すような文法選択表を用意
する。

【００５６】表の行と列は、文脈自由規則の子カテゴリ
（右辺）の、第１のカテゴリと第２のカテゴリにそれぞ
れ対応する。カテゴリには予め連続したコード番号を与
えておく、箱の中には、行、列に対応するカテゴリが第
１番目、第２番目の子カテゴリになっている文法（ある
いは文法へのポインタ）が格納されている。

【００５７】例えば、図１０に示すには第１のカテゴ
リが“Ｖ”で第２のカテゴリが無い規則、すなわち、ＶＰ→ＶＳ→Ｖなどが格納される。図１０のには、第１のカテゴリが
“ＶＰ”で第２のカテゴリが“ＮＰ”の規則、すなわ
ち、ＶＰ→ＶＰＮＰＶＰ→ＶＰＮＰＮＰなどが格納される。

【００５８】このようにして、文法カテゴリを予めコー
ド化しておけば、表は２次元配列として表現され、第１
および第２のカテゴリから直ちに文法規則を探し出すこ
とができる。

【００５９】《実施例２》図１１は、本発明の第２の実
施例に係る構文解析装置の構成を示している。図１１に
おいて、図２と同様の部分には同符号を付して示してお
り、その詳細な説明は省略する。

【００６０】図１１の構文解析装置は、図２と全く同様
の解析対象入力部１１、辞書部１２および文法規則部１
４、ならびに実質的に図２の形態素解析部１３、テーブ
ル参照／書込み部１５、および活性弧、不活性弧テーブ
ル部１６、１７にほぼ対応して同様の機能を有する辞書
引き／語尾処理部２１、統語解析部２２、および解析テ
ーブル部２３に加えて、解析前処理部２４、多義語デー
タ部２５、およびイディオムデータ部２６を有してい
る。

【００６１】解析前処理部２４は、辞書引き後で且つ統
語解析前に解析の精度を向上させるための前処理を実行
する。多義語データ部２５は、多義語データが格納され
ており、多義語の検索に用いられる。解析前処理部２４
は、多義語が見つかった場合、その一部または全てを予
め解析テーブル部２３の解析テーブルに加える。

【００６２】イディオムデータ部２６、イディオムデー
タが格納されており、イディオムの可能性の検索に用い
られる。解析前処理部２４は、イディオムが見つかった
場合、イディオムの中心単語と不変化語の部分とを予め
解析テーブル部２３の解析テーブルに加える。この場
合、解析テーブルに追加するイディオムの中心単語に
は、イディオムの文法的な特徴を示す属性を付しておい
てもよい。

【００６３】ここでは、解析テーブルとして第１の実施
例の場合と同様のＣＹＫ法の表を使うことにする。解析
テーブルのそれぞれの箱の中には、対応する原文の部分
に関する解析結果へのポインタが入るものとする。第ｉ
行、第ｊ列には、原文のｉ番目からｊの長さの部分単語
列に関する情報が格納される。

【００６４】解析対象入力部１１、辞書引き／語尾処理
部２１を経ると、解析テーブルは図１２のように解析テ
ーブルの第１行目だけが埋まっている状態になってい
る。第１行第ｉ列には、ｉ番目の入力単語に関する情報
へのポインタが格納されている。

【００６５】解析前処理はこの状態に作用し、多義語、
イディオム、長さの違う単語などの曖昧さを表の中に展
開する。〈多義語〉解析対象の文が辞書引きされた後で、文を構
成するそれぞれの単語について多義語データ部２５の多
義語データを参照し、多義語候補が見つかれば解析表の
第１列に加える。この際、解析効率の観点から、候補と
する多義語とそうでない多義語を選別する処理を設け、
多義語の一部だけを候補とすることも可能である。ま
た、多義語情報は必ずしも独立したテーブルである必要
はなく、辞書部１２の辞書エントリの一部として検索す
ることも考えられる。

【００６６】ここでいう多義語には、品詞の違う単語は
もちろん、翻訳したときに異なった訳語を割り当てられ
る語まで含まれるが、多義語データの中に構文的な属性
を書き込んでおけば、統語解析過程で単語の意味選択ま
で処理することが可能になる。

【００６７】この場合の多義語情報の追加処理は、図１
３に示すようにして行われる。次に、多義語データの一
例を示す。表記意味属性 play 遊ぶ自動詞 play 弾く他動詞、目的語（楽器） play 演じる他動詞、目的語（芝居／劇） … … … 〈イディオム〉解析対象の文が辞書引きされた後で、文
を構成するそれぞれの単語について、イディオムデータ
部２６のイディオムデータを参照し、第Ｉ番目の語でイ
ディオム候補が見つかれば、中心単語の情報を解析表の
第１行、第ｉ列に加える。不変化部分は対応する位置に
情報を書き込む。例えば、不変化語が第ｊ語より始まる
２語のときは、第２行、第ｊ列に不変化語の情報を書き
込む。

【００６８】このとき中心語と不変化語には対応関係が
わかるように、ＩＤ情報を持たせておく。これによっ
て、「look up to」の中心語と「look up」の不変化語
が結びつくことが避けられる。

【００６９】このような準備をしておくことにより、並
行型統語解析で、イディオムの解析を行うことが可能に
なる。文法規則としては例えば次のようにかけばよい。動詞句 → 中心語＋不変化語イディオムの中心単語には、それぞれ構文属性を持たせ
るようにすると、イディオムの可能性が多数ある場合に
も適切なイディオムの選択ができる。例えば、動詞句 → 中心語（自動詞的）＋不変化語動詞句 → 中心語（他動詞的）＋不変化語＋名詞句のようにすれば、文型に即したイディオムの選択が可能
になる。

【００７０】イディオムの選択にはイディオムを使わな
い解析の選択も含まれる。一般に不変化語は前置詞句と
しての可能性も持ち合わせるので、前置詞句 → 前置詞＋名詞動詞句 → 動詞句＋前置詞句の規則での解析も当然候補の１つである。

【００７１】イディオムデータは必ずしも独立したテー
ブルである必要はなく、多義語と同様に、辞書部１２の
辞書エントリの一部として検索することも考えられる。
図１４にイディオムの前処理後の解析テーブルの一例を
示す。イディオムの可能性追加の処理は図１５に示すよ
うにして行われる。

【００７２】次に、イディオムデータの一例を示す。中心語表記不変化語句意味属性 look about 見渡す主語（生物） look after 世話をする目的語必要目的語（生物）主語（生物） look into 調べる目的語必要主語（生物） look up 見上げる目的語必要目的語（人） look up to 尊敬する目的語必要目的語（人）主語（人） … … … … 〈長さの違う単語〉ある文を解析するために２単語以上
を辞書の１エントリにすることがある。しかし、その単
語によって、それまで正しく解析できていた文が解析で
きなくなることがある。

【００７３】例えば、 I don't know him at all. を解析するためにには、"at all" （全然）という単語
が必要である。

【００７４】一方で、 The temperature is constant at all heights. 等の文では、"at all"が登録されているとうまく解析で
きない。

【００７５】そこで、２単語以上からなる辞書エントリ
はその構成要素としての単語も解析表に加える処理を、
並列型統語解析の前処理として行う。原文の単語を左か
ら順に見ていき、２語以上からなる辞書エントリが使わ
れていたら、構成要素のそれぞれが辞書引きできる場合
に限り構成要素も解析テーブルに加える。"at all"であ
れば"at"、"all"とも辞書に存在するので、解析表は図
１６のようになる。このとき、"at all"の情報は２行目
に格納される。

【００７６】ただし、専門用語や著しく慣用的な表現の
エントリの中には展開しても無駄なものも含まれるの
で、元の単語に展開するべきかしないべきかを示す何ら
かの属性を入れておき、２語以上からなる辞書エントリ
の一部だけを展開する処理も有効である。

【００７７】長さの違う単語情報の追加処理は、図１７
に示すようにして行われる。このように、解析過程を記
録しながら進める並列型構文解析装置において、統語解
析の文法規則を適用する前に、辞書データ、多義語デー
タ、およびイディオムデータ等を参照して、多義語、イ
ディオムおよび長さの異なる単語の可能性を解析テーブ
ルに予め格納することにより、これらの解析を統語解析
の中で行うことが可能になる。

【００７８】このようにすることによって、多義語の選
択、イディオムの解析、および単語の選択の精度が向上
し、機械翻訳をはじめ様々な自然言語システムの質を高
めることができる。

【００７９】《実施例３》図１８は、本発明の第３の実
施例に係る構文解析装置の構成を示している。図１８に
おいて、図１１と同様の部分には同符号を付して示して
おり、その詳細な説明は省略する。

【００８０】図１８の構文解析装置は、図１１と同様の
解析対象入力部１１、辞書部１２、文法規則部１４、辞
書引き／語尾処理部２１、および解析テーブル部２３、
および解析前処理部２４を有している。この場合、統語
解析部３１のみが図１１の場合と異なっている。

【００８１】統語解析部３１は、図１１の統語解析部２
２に加えて、一部の解析候補を頻度等により除外し、必
要に応じて除外した解析候補を再利用する処理を行う。
この実施例においても、解析テーブルとしてＣＹＫ法の
表を使うことにする。解析テーブルのそれぞれの箱の中
には、対応する原文の部分に関する解析結果へのポイン
タが入るものとする。第ｉ行、第ｊ列には、原文のｉ番
目からｊの長さの部分単語列に関する情報が格納され
る。

【００８２】"The can press machine"という文を例と
して、解析する過程を説明する。解析対象入力部１１、
辞書引き／語尾処理部２１を経ると、解析テーブル部２
３の解析テーブルは、図１９のように解析テーブルの第
１行目だけが埋まっている状態になっている。第１行目
第ｉ列には、ｉ番目の入力単語に関する情報へのポイン
タが格納されている。この状態において、逐次、文法規
則を適用する。文法規則の例として次のものを使用す
る。

【００８３】 (1) 文 →名詞句＋動詞句 the（冠詞） (2) 名詞句→名詞 can（助動詞、＊名
詞） (3) 名詞句→名詞＋名詞句 press（名詞、動詞） (4) 名詞句→冠詞＋名詞 machine（名詞） (5) 動詞句→動詞 (6) 動詞句→動詞＋名詞 (7) 動詞句→助動詞＋動詞句ここで、品詞の頻度が低いものを除外して最初の解析を
する。この例では、「＊」を付した"can"（名詞）の頻
度が低いものとする。

【００８４】まず、文法を適用して２列目を埋めてい
く。"can"と"press"は規則(7) によって動詞句に、"pre
ss"および"machine"は規則(3) および規則(6) によって
それぞれ名詞句および動詞句になる。

【００８５】次に、３列目を埋める。"can"と"press ma
chine"が規則(7) によって動詞句になる。最後に４列目
であるが、冠詞と動詞句とをつなぐ規則がないので４列
目を埋めることができない。つまり、このような場合は
解析失敗である。

【００８６】この状態を図２０に示す。解析に失敗する
と、頻度が低い単語として除外されていた候補を入力に
加えて再解析する。再解析は、以前の解析結果を保存し
たままであり、以前の解析の同じ処理を繰り返すことな
く除外されていた単語に関係する部分を追加するように
する。

【００８７】"can"（名詞）からは、規則(3) によっ
て、"can press"で名詞句が、さらに規則(3) によって"
can press machine"で名詞句が構成される。このように
すると、"the"と"can press machine"は規則(4) によっ
て名詞句となり、解析成功となる。

【００８８】次に、解析候補に順位付けを行う方法につ
いて、"I like flowers like rose."を例文として、次
のような文法および辞書を使って説明する。

【００８９】 (1) 文 →名詞句＋動詞句 I（代名詞） (2) 文 →代名詞＋動詞句 like（動詞、前置
詞） (3) 名詞句 →名詞 flowers（名詞、
動詞） (4) 名詞句 →名詞＋前置詞句 like（動詞、前置
詞） (5) 名詞句 →冠詞＋名詞 rose（名詞） (6) 動詞句 →動詞 (7) 動詞句 →動詞＋名詞 (8) 動詞句 →動詞＋前置詞句 (9) 前置詞句→前置詞＋名詞同一文字列に一定の個数以上の候補が存在する場合にこ
れらに順位付けを行い、順位が一定の値以下の候補を以
後の解析対象としないことによって解析の効率化を図る
方法について説明する。ここでは、簡単化のために一定
の値を１にする。すなわち候補が２個以上できた文字列
はその後の解析を最上位に評価された１個のみにする。

【００９０】解析の進み方は前項の説明と同じであ
る。"like"＋"flowers"が規則(7) および規則(9) によ
って動詞句および前置詞句になる。"like flowers"の２
つの候補を評価した結果、動詞句が前置詞句よりも上位
になったと仮定すると、以後の解析には動詞句のみが適
用対象になる。"like"＋"rose"についても同様である。
すると、解析は図２２の状態でストップし、解析失敗と
なる。

【００９１】解析が失敗になったので、規則の適用を中
止していた候補について制限を外し、再解析する。ここ
で１回目の解析で作った解析表の内容はクリアしないで
そのまま２回目の解析に利用する。すなわち、２回目以
降の解析は制限が外れた候補に関係するところを追加す
る。

【００９２】この結果、図２３のようにして解析が成功
する。ここでは、説明のために同一文字に対応する候補
を１つに絞ったが、数個の候補にすることもできる。ま
た、制限を同一品詞内だけにすることも考えられる。ま
た、候補を３つ以上のグループに分けて、３回以上の解
析を試みるシステムも可能である。このように、解析過
程を記録しながら進める並列型構文解析装置において、
同一単語列で解析候補が多数存在する場合に、可能性が
低い一部の候補について文法適用を制限することによっ
て解析の精度向上と効率化を図ることができる。

【００９３】単に品詞を絞り込んで性能を上げることは
従来から知られているが、本実施例では、解析を０から
やり直すのではなく、並列型解析の特徴を生かして以前
の解析結果に順次追加する方法なので、解析効率がよ
い。

【００９４】また、この場合、品詞の絞り込みだけでは
なく、あらゆる範囲の部分文字列の候補について絞り込
みができるためさらに効率の良い解析が可能となる。一
般に、子カテゴリの数が多い規則は特殊な構文パターン
を記述している場合が多い。子カテゴリの数が多い規則
を適用すると、規則の適用回数が少なくなる。そこで、
限定的な規則を用いた部分木を優先するために、規則の
適用回数が少ない部分木を優先するようにすることもで
きる。

【００９５】この場合、第１の実施例の文法にＮＰ→ＮＰＮＰを加えたものを文法として使用する。

【００９６】解析テーブルは、対応する文字列で構成さ
れる部分木への、ポインタが格納されており、部分木が
複数存在するときは図のように次々とポインタで繋がれ
ているとする。

【００９７】図２４は、部分木の情報として、カテゴリ
と子カテゴリの部分木へのポインタ、および文法適用回
数を持たせたときの、情報の参照関係を示したものであ
る。部分木には、他にも文法的、意味的、制御的な属性
を持たせることができる。

【００９８】図２４では文全体の木が２通りできるが、
規則適用回数はＡが３回、Ｂが４回なので、Ａの方がＢ
より優先順位が高いとする。また、一般に前置詞や副詞
句などは、遠くのものよりも近くの句に係る傾向があ
る。そこで部分木の属性として、修飾語と被修飾語の距
離の合計を持たせ、係り距離の合計が小さいものを優先
するようにしてもよい。

【００９９】具体例は、図２４の場合と同様だが、部分
木の情報として図２５に示すような係りの距離を持たせ
る。係り距離の計算は、文法が適用され親カテゴリが生
成されるときに行われる。

【０１００】係り距離の計算は、子カテガゴリの係り距
離の総和に子カテゴリ同士の修飾語と被修飾語の距離を
足した数である。図２６の例は、係り距離の合計はＡが
６、Ｂが８なので、距離の短いＡが優先される。

【０１０１】さらに、文法規則の中には、普通の文法に
則った積極的に適用して欲しい規則と、非文に近い表現
のために加えた規則などできるだけ適用を避けたい規則
が混在している。そこで、文法規則１つ１つに点数を付
加できることとし、部分木の属性として、適用した規則
の点数の合計を持たせるようにすることができる。

【０１０２】図２７は、このような場合の一例を示して
おり、第１の実施例の文法規則におけるＳ→ＮＰＶＰに代えて次の２つの規則を用いた規則で解析した例であ
る。

【０１０３】１：Ｓ→ＮＰ（三人称・単数・現在）ＶＰ（ｓ付き） −１：Ｓ→ＮＰ（二人称）ＶＰ（ｓ付
き）親カテゴリの前に付された数字は、文法につけられた点
数である。点数が高い文法規則を適用した部分木ほど優
先的に扱われる。

【０１０４】この場合、文法点としては、積極的に適用
して欲しい文法にはプラス点を与え、できれば適用して
ほしくない文法にはマイナス点を与えている。すなわ
ち、この例は、おおむね図２４の場合と同様だが、部分
木の情報として文法点を持たせている。文法点の計算
は、文法が適用され親カテゴリが生成されるときに行わ
れる。

【０１０５】Ａは主語が動詞句に係るときに点数が＋１
の文法を適用した例、Ｂは−１の文法を適用した例であ
る。親カテゴリの文法点は子カテゴリの文法点の総和に
適用している規則の文法点を加えたものである。

【０１０６】例えば、Ａ、Ｂを作るための他の文法が全
て０点だとすると、Ａの部分木の点数には＋１、Ｂには
−１が入り、点数の高いＡが優先される。また、図２８
に示すように、部分木の情報として意味点を持たせるよ
うにしてもよい。この意味点は、文法が適用され親カテ
ゴリが生成されるときに親カテゴリに付与される。

【０１０７】親カテゴリの意味点は子カテゴリの意味点
の総和に子カテゴリの間で修飾がおこるときに得られる
点数を加えたものである。修飾がおこる時の点数は、前置詞被修飾側属性修飾側属性点数 WITH 動作動詞道具２ WITH 動作動詞人間３ TO 移動動詞場所２ … … … … のようなテーブルを参照して獲得する。例えば、動作動
詞が道具に修飾されたケースでは２点が与えられる。

【０１０８】このようにして、修飾関係に意味点を与え
ても解析の精度および効率を向上させることができる。

【０１０９】

【発明の効果】以上説明したように、本発明によれば、
解析の途中経過の情報として、構文カテゴリの情報およ
び構文的、意味的、制御的なあらゆる属性の少なくとも
一部の情報を付与することにより、効率よく、しかも的
確な構文解析を行うことの可能な構文解析装置を提供す
ることができる。

【０１１０】また、本発明によれば、ＣＹＫ法のような
効率の良さを持ちながら、しかも、解析のための規則と
して一般の文脈自由文法を扱うことを可能とする構文解
析装置を提供することができる。

【０１１１】さらに、本発明によれば、統語解析の前に
前処理手段を設けて、多義を含む単語、イディオムの可
能性、長さの違う複数単語をも同時並行的に処理するこ
とを可能として自然言語の構文解析精度を向上させ得る
構文解析装置を提供することができる。

【０１１２】また、本発明によれば、解析の途中段階で
ある部分木の解析結果を解析テーブルを用いて格納して
いることに着目し、再解析のときに以前の解析結果をそ
のまま利用することにより、高品質、高性能の構文解析
を可能とする。これにより、探索の絞り込みを単語レベ
ルのみならず規則適用の全ての場面で全ての部分木に対
して行うことができ、より効率的な構文解析を行うこと
ができる構文解析装置を提供することができる。

【図面の簡単な説明】

【図１】本発明に係る構文解析装置の構成を示す原理図
である。

【図２】本発明の第１の実施例に係る構文解析装置の構
成を示すブロック図である。

【図３】図２に示す構文解析装置の動作を説明するため
の不活性弧テーブルおよび活性弧テーブルのフォーマッ
トを示す模式図である。

【図４】図２に示す構文解析装置の動作を説明するため
の不活性弧テーブルおよび活性弧テーブルの１行目まで
書き込まれた状態を示す模式図である。

【図５】図２に示す構文解析装置の動作を説明するため
の不活性弧テーブルおよび活性弧テーブルの２行目まで
書き込まれた状態を示す模式図である。

【図６】図２に示す構文解析装置の動作を説明するため
の不活性弧テーブルおよび活性弧テーブルの最後まで書
き込まれた状態を示す模式図である。

【図７】図２に示す構文解析装置の動作を説明するため
のフローチャートの最初の部分である。

【図８】図２に示す構文解析装置の動作を説明するため
のフローチャートの中間の部分である。

【図９】図２に示す構文解析装置の動作を説明するため
のフローチャートの最後の部分である。

【図１０】図２に示す構文解析装置の動作を説明するた
めの文法選択表を示す模式図である。

【図１１】本発明の第２の実施例に係る構文解析装置の
構成を示すブロック図である。

【図１２】図１１に示す構文解析装置の解析テーブルを
説明するための模式図である。

【図１３】図１１に示す構文解析装置の多義語情報追加
の動作を説明するためのフローチャートである。

【図１４】図１１に示す構文解析装置のイディオムの前
処理後の解析テーブルを説明するための模式図である。

【図１５】図１１に示す構文解析装置のイディオムの可
能性情報追加の動作を説明するためのフローチャートで
ある。

【図１６】図１１に示す構文解析装置の長さの異なる単
語の前処理の結果を示す解析テーブルを説明するための
模式図である。

【図１７】図１１に示す構文解析装置の長さの異なる単
語情報追加の動作を説明するためのフローチャートであ
る。

【図１８】本発明の第３の実施例に係る構文解析装置の
構成を示すブロック図である。

【図１９】図１８に示す構文解析装置の頻度の低い解析
候補の処理における解析テーブルを説明するための模式
図である。

【図２０】図１８に示す構文解析装置の頻度の低い解析
候補の処理における解析失敗時の解析テーブルを説明す
るための模式図である。

【図２１】図１８に示す構文解析装置の頻度の低い解析
候補の処理における解析成功時の解析テーブルを説明す
るための模式図である。

【図２２】図１８に示す構文解析装置の順位付け処理に
おける解析失敗時の解析テーブルを説明するための模式
図である。

【図２３】図１８に示す構文解析装置の順位付け処理に
おける解析成功時の解析テーブルを説明するための模式
図である。

【図２４】図１８に示す構文解析装置の文法適用回数処
理を説明するための模式図である。

【図２５】図１８に示す構文解析装置の係り距離処理を
説明するための模式図である。

【図２６】図１８に示す構文解析装置の係り距離処理を
説明するための模式図である。

【図２７】図１８に示す構文解析装置の文法点処理を説
明するための模式図である。

【図２８】図１８に示す構文解析装置の意味点処理を説
明するための模式図である。

【符号の説明】

１，１１…解析対象入力部２，１２…辞書部３，１３…形態素解析部４，１４…文法規則部５，２２，３１…統語解析部６，２３…解析テーブル部７，２４…解析前処理部１５…テーブル参照／書込み部１６…活性弧テーブル部１７…不活性弧テーブル部２１…辞書引き／語尾処理部２５…多義語データ部２６…イディオムデータ部

Claims

【特許請求の範囲】

【請求項１】自然言語を並行的に統語解析する構文解
析装置において、解析対象となる文および句のいずれか一方を指定するた
めの入力手段（１）と、前記解析対象の属する言語に関する辞書引きのための辞
書データを保持するための辞書手段（２）と、前記解析対象について前記辞書引きを行って単語の切れ
目を認識する形態素解析手段（３）と、一般文脈自由文法の形式に則った構文解析のための文法
規則を保持し、該文法規則を適用して統語解析を行うた
めの統語解析手段（５）と、この統語解析手段（５）による解析の途中経過を所定の
格納場所に格納するための途中経過格納手段（６）と、途中経過格納手段（６）による解析の途中経過の格納場
所および格納場所へのポインタの少なくとも一方の入っ
た解析テーブルを保持するためのテーブル保持手段
（６）とを備え、前記解析の途中経過の情報として、構文カテゴリの情報
および構文解析属性の情報を付与することを特徴とする
構文解析装置。
【請求項２】請求項１記載の構文解析装置において、
構文解析属性は、構文的、意味的および制御的属性の少
なくともいずれかの属性を含むことを特徴とする構文解
析装置。
【請求項３】請求項１記載の構文解析装置において、
途中経過格納手段（６）は、解析の途中経過の情報とし
て、規則を全て満たした完全な部分木であるか、規則の
未充足の部分が残っている不完全な部分木であるかの別
を記述して格納するための手段であることを特徴とする
構文解析装置。
【請求項４】請求項３記載の構文解析装置において、
テーブル保持手段（６）は、解析の途中経過の情報への
アクセスのための解析テーブルとして、不完全な部分木
のための活性弧テーブルと、完全な部分木のための不活
性弧テーブルとを含む手段であることを特徴とする構文
解析装置。
【請求項５】請求項１記載の構文解析装置において、
テーブル保持手段（６）は、解析テーブルとして、文法
カテゴリをキーにした規則参照テーブルを含む手段であ
ることを特徴とする構文解析装置。
【請求項６】請求項１記載の構文解析装置において、
辞書引き後で且つ統語解析前に解析の精度を向上させる
ための前処理を実行するための解析前処理手段（７）を
さらに具備することを特徴とする構文解析装置。
【請求項７】請求項６記載の構文解析装置において、
解析前処理手段（７）は、辞書引き結果である単語群に
ついてそれぞれ多義語を検索し、多義語が見つかった場
合、その一部または全てを予め解析テーブルに加えるた
めの多義語処理手段を含むことを特徴とする構文解析装
置。
【請求項８】請求項６記載の構文解析装置において、
解析前処理手段（７）は、辞書引き結果である単語群に
ついてそれぞれイディオムの可能性を検索し、イディオ
ムの可能性が見つかった場合、イディオムの中心単語と
不変化語の部分とを解析テーブルに予め追加するための
イディオム処理手段を含むことを特徴とする構文解析装
置。
【請求項９】請求項８記載の構文解析装置において、
イディオム処理手段は、解析テーブルに追加するイディ
オムの中心単語には、イディオムの文法的な特徴を示す
属性を付しておく手段を含むことを特徴とする構文解析
装置。
【請求項１０】請求項６記載の構文解析装置におい
て、解析前処理手段（７）は、辞書引き結果である単語
が２ワード以上から構成される見出し語を持っていると
き、見出し語を区切った部分の単語を解析の対象にする
ように解析テーブルに追加する部分単語処理手段を含む
ことを特徴とする構文解析装置。
【請求項１１】請求項１０記載の構文解析装置におい
て、部分単語処理手段は、見出し語を区切った部分の単
語を解析テーブルに追加するのは、最初に引かれた単語
が所定の属性を持っているときに限る手段を含むことを
特徴とする構文解析装置。
【請求項１２】請求項１記載の構文解析装置におい
て、統語解析手段（５）は、同一の部分文字列に対応す
る複数の部分木候補に対し、所定の基準に従い評価して
順位付けするための評価手段を備えることを特徴とする
構文解析装置。
【請求項１３】請求項１２記載の構文解析装置におい
て、途中経過格納手段（６）は、属性として、品詞別に
カウントされた単語の出現頻度に関する情報を付与する
手段を含み、且つ評価手段は、順位付けのための評価の
基準として、単語の出現頻度の高いものを優先する手段
を含むことを特徴とする構文解析装置。
【請求項１４】請求項１２記載の構文解析装置におい
て、途中経過格納手段（６）は、属性として、規則の適
用回数に関する情報を付与する手段を含み、且つ評価手
段は、順位付けのための評価の基準として、前記規則の
適用回数の少ないものを優先する手段を含むことを特徴
とする構文解析装置。
【請求項１５】請求項１２記載の構文解析装置におい
て、途中経過格納手段（６）は、属性として、修飾語と
被修飾語の距離の合計に関する情報を付与する手段を含
み、且つ評価手段は、順位付けのための評価の基準とし
て、前記修飾語と被修飾語の距離の合計の低いものを優
先する手段を含むことを特徴とする構文解析装置。
【請求項１６】請求項１２記載の構文解析装置におい
て、途中経過格納手段（６）は、属性として、適用規則
に予め付与された得点の合計に関する情報を付与する手
段を含み、且つ評価手段は、順位付けのための評価の基
準として、前記適用規則に付与された得点の合計の高い
ものを優先する手段を含むことを特徴とする構文解析装
置。
【請求項１７】請求項１２記載の構文解析装置におい
て、途中経過格納手段（６）は、属性として、修飾語と
被修飾語の意味的な距離の評価値に関する情報を付与す
る手段を含み、且つ評価手段は、順位付けのための評価
の基準として、前記修飾語と被修飾語の意味的な距離の
評価値の高いものを優先する手段を含むことを特徴とす
る構文解析装置。
【請求項１８】請求項１２記載の構文解析装置におい
て、評価手段は、同一の部分文字列に対応する順位付け
された複数の解析木候補のうち、順位の低い一部の解析
木候補について以後の解析で利用できなくするための手
段を含むことを特徴とする構文解析装置。
【請求項１９】請求項１８記載の構文解析装置におい
て、評価手段は、順位の低い一部解析木候補を解析で利
用せずに解析を行って全体の解析に失敗した場合、先に
利用できないようにした一部解析木候補を利用して、前
記失敗した解析木を補いながら再解析する手段を含むこ
とを特徴とする構文解析装置。