JP3694771B2

JP3694771B2 - 自然言語の構文解析装置

Info

Publication number: JP3694771B2
Application number: JP07835695A
Authority: JP
Inventors: 秀憲青沢; 朗高木
Original assignee: 株式会社Ｃｓｋ
Priority date: 1995-03-10
Filing date: 1995-03-10
Publication date: 2005-09-14
Anticipated expiration: 2020-09-14
Also published as: JPH08249330A

Description

【０００１】
【産業上の利用分野】
本発明は、多義・多品詞語を多数含む文の依存構造を解析する自然言語の構文解析装置に関するものである。
【０００２】
【従来の技術】
構文解析しようとする文が長かったり、１つの見出し語に関する多義・多品詞語が多数存在するような場合には、解の候補となる語（多義・多品詞語）の組み合わせが膨大になるため、単純なアルゴリズムで構文解析すると多大な実行時間を要し、また、解の候補も多くなるため正解も得られ難い欠点があった。
【０００３】
ところで、バックトラック（後戻り）のある縦型探索方式で依存構造解析を行い、文頭側から順次隣り合う２つの語又は部分木に着目して依存関係を判定していき、文頭から文末までの語が１つにまとまった最初の解析木を正解として出力するという、単純な解析アルゴリズムを用いた場合、長文や多義・多品詞語を多く含む文をそのまま素直に実行すると、バックトラック量が膨大になる。また、依存関係の判定のための単純なルールだけでは、着目する部分木（語）以外の情報を参照するのが原則的に困難であるため、別の多義・多品詞語の組み合わせによる解候補との比較は行えない。従って、出力する解析木も正解となりにくい。
【０００４】
従来の依存関係判定ルールでは、文頭側から解析するため、まず文頭側の２つの語に着目し、それらの間に依存関係が成立するかどうかを判定し、依存関係が成立するなら「係る」（依存関係の種別）、依存関係が成立しないなら「係らない」として、それぞれの場合に以下のように着目点を制御している。
（１）係らない場合、（ａ）着目点より文末側に語が残っている場合には、着目している文頭側の語を解析スタックにプッシュし、着目点を文末側に１つ進めその位置の語に関する最初の多義・多品詞語を選択する。
（ｂ）着目点より文末側に語が残っていない場合には、着目点から文頭側に選択中の多義・多品詞語とは別の多義・多品詞語が候補として残っているなら文末側に位置するものを優先して別の１つの多義・多品詞語に選択し直す。この場合新たに選択された多義・多品詞語をもつ語の位置（Ｘとする）より文末側にあって着目点までの位置の範囲にある語に関しては、それぞれの位置の語に関する最初の多義・多品詞語が選択し直される。選択し直される前の多義・多品詞語とまとまっていたＸより文頭側にある語又は部分木は分離され、適宜、解析スタックに戻される。そして、着目点は原則的にＸとなりＸの語とＸの文頭側に隣り合う語又は部分木に着目される。なお、（ａ）、（ｂ）において候補として残っている多義・多品詞語がない場合には、失敗となって解析が終了する（解析木出力部にＮＵＬＬを渡す）。
（２）係る場合、（ａ）解析スタックに部分木（語）がある場合には、解析スタックから１つの部分木（語）をポップし、それと直前に着目していた２つの語又は部分木が１つにまとめられた部分木に着目する。
（ｂ）解析スタックに部分木（語）がない場合には、（ｂ−１）文末側に語が残っているとき、直前に着目していた２つの語又は部分木が１つにまとめられた部分木と、着目点を文末側に１つ進めたところの位置の語に着目する。
（ｂ−２）文末側に語が残っていないとき、直前に着目していた２つの部分木（語）を１つの部分木としてまとめたものを正解として解析を終了するため、今まとめた部分木を解析木出力部にわたす。
【０００５】
従来の依存関係判定ルールを、例えば、「新聞さえ読まない。」のような例文について適用した場合についての解析の流れを表１で説明する。この場合の形態素解析出力は、図３に示すような語（多義・多品詞語）の並びになる。なお、表１において、表記の簡略化のため１つにまとまっている語又は部分木を括弧記号「［］」で囲み、それに含まれる語の区切りに記号「＋」を用い、依存関係を判定する着目する２つの語または部分木の間に記号「←→」を用い、その依存関係の判定結果を記号「：」の次に記載している（後に説明する表４、表５及び表６についても同様とする）。
【０００６】
【表１】
【０００７】
すなわち、文頭側から解析するので、まず文頭側の２つの語に着目し、多義・多品詞語がある場合、その最初の多義・多品詞語を選択する。この場合「さえる」と「さえ」が多品詞語となっているが、まず「さえる」を選択する。
（１）［新聞］と［さえる］で依存関係を判定すると、係らないと判定される。ここでは、上記依存関係判定ルールの係らない場合の（ａ）を実行して、［新聞］を解析スタックにプッシュし、［さえる］と［読む］に着目する。
（２）［さえる］と［読む］で依存関係を判定すると、係る（任意の関係）と判定される。ここでは、上記依存関係判定ルールの係る場合で、まず着目する２つの部分木（語）を任意の関係で１つの部分木にまとめ、次に（ａ）を実行して、［新聞］を解析スタックからポップし、［新聞］と［さえる＋読む］に着目する。
（３）［新聞］と［さえる＋読む］で依存関係を判定すると、係らないと判定される。なお、実際には対象格などで係ることもあり、仮に係るとすると誤った解析木を出力してしまう。しかし、この例は正しい解析木を出力するまでの過程を示すものであり、この例では係らないとしておく。ここで係らない場合の（ａ）を実行し、［新聞］を解析スタックにプッシュし、［さえる＋読む］と［ない］に着目する。
（４）［さえる＋読む］と［ない］で依存関係を判定すると、係る（任意の関係）と判定される。ここで係る場合の（ａ）を実行し、［新聞］を解析スタックからポップし、［新聞］と［さえる＋読む＋ない］に着目する。
（５）［新聞］と［さえる＋読む＋ない］で依存関係を判定すると、係らないと判定される。ここで係らない場合の（ｂ）を実行し、文末側を優先的に別の多義・多品詞語の候補に選択し直す。この場合は「さえる」を「さえ」に交換し（選択し直し）、［新聞］と［さえ］に着目する。
（６）［新聞］と［さえ］で依存関係を判定すると、係る（任意の関係）と判定される。ここで係る場合の（ｂ−１）を実行し、［新聞＋さえ］と［読む］に着目する。
（７）［新聞＋さえ］と［読む］で依存関係を判定すると、係る（対象格）と判定される。ここで係る場合の（ｂ−１）を実行し、［新聞＋さえ＋読む］と［ない］に着目する。
（８）［新聞＋さえ＋読む］と［ない］で依存関係を判定すると、係る（任意の関係）と判定される。ここで係る場合の（ｂ−２）を実行し、解析を終了する。
【０００８】
【発明が解決しようとする課題】
しかしながら、依存関係を判定するという概念は、本来、着目する２つの部分木（語）のそれぞれのトップの語に関して選択中である多義・多品詞語の間の構文的あるいは意味的な関係を規定するという性質のものであるため、依存関係判定ルールは、着目する２つの部分木（語）における別の多義・多品詞語の関係を判定できないし、仮に判定できたとしてもそれを優先的に選択するような制御メカニズムになっていない。従って、従来の依存関係判定ルールのみで、長文や多義・多品詞語を多く含む文をそのまま素直に実行すると、着目する部分木以外の情報（別の多義・多品詞語の情報や隣接する部分木や語の情報）を参照するのが原理的に困難であり、別の多義・多品詞語の組み合わせによる解候補との比較及び別の解候補を優先させることはできなかった。従って、出力する解析木も正解となりにくい欠点があった。しかも、長文を解析しようとする場合、語（多義・多品詞語）の組み合わせ数が膨大になるため、バックトラック量も膨大になり、多大な処理時間を要するという欠点があった。
【０００９】
そこで本発明は、依存関係を判定するための従来からのルールとは別に、着目する部分木（語）以外に、隣接する部分木又は語や多義・多品詞語の情報も参照することで、別の解の存在の可能性やその解候補を比較した上で優先関係を判定する機能を持たせたルールを新たに設定し、さらにそのルールの判定結果に応じて別の多義・多品詞語を選択し直す（交換する）制御メカニズムを新たに設定する。これにより、単純な解析アルゴリズムを維持したままで、実際に依存関係を判定する多義・多品詞語の組み合わせ数を大幅に低減することで高速化を図り、併せて、より高精度な解析が可能となる自然言語の構文解析装置を提供することを目的とする。
【００１０】
【課題を解決するための手段】
上記目的を達成するために、本発明の自然言語の構文解析装置は、入力文に対する語の情報が格納された形態素配列を受け取り、その文頭側から順次２つの語又は部分木を選択し、選択中の語又は部分木又は各々の多義・多品詞語に着目し、文頭から文末までの語が１つにまとまるか、文頭から文末までの語又は部分木における多義・多品詞の中で候補として残っている多義・多品詞語がなくなり処理を続けても１つにまとまらないと判断するまで、解析スタックに処理中の語又は部分木を書込み又は読出しさせ、着目点を移動させていく制御をする着目点制御部と、
前記着目点制御部で制御される着目する２つの語又は部分木が渡され、着目する文頭側の語又は部分木のトップの語の品詞と着目する文末側の語又は部分木のトップの語の品詞の組み合わせに対応する形式で適用する依存関係判定ルールを格納する依存関係判定ルール格納部のルールに基づき、それらの間に依存関係が成立するか判定し、成立するなら係る及びその依存関係の種別を、成立しないなら係らないの判定結果を返す依存関係判定部と、
前記着目点制御部で制御される着目する２つの語又は部分木と前記依存関係判定部の判定結果とが渡され、着目する２つの語又は部分木に関して選択中の多義・多品詞語の組み合わせの妥当性あるいは別の組み合わせの優先可能性を判断する多義・多品詞選択ルールに基づき、着目している前記２つの語又は部分木及び、前記２つの語又は部分木の文頭側又は文末側に隣接する語又は部分木について、それぞれの語又は部分木のトップの語あるいはそのトップの語以下にかかっている語の文法、意味情報、多義・多品詞語情報を参照し、前記多義・多品詞ルールのルール集を格納する多義・多品詞選択ルール格納部より、前記選択中の多義・多品詞語の組み合わせに対応するルールを選択し、起動する多義・多品詞選択判定部であって、該多義・多品詞選択判定部における前記多義・多品詞選択ルールは、着目する２つの語又は部分木に関して選択中の多義・多品詞語の組み合わせとは別の多義・多品詞語の組み合わせを優先するか、あるいは着目する２つの語又は部分木に関して選択中の多義・多品詞語の組み合わせが文法的にあり得ない組み合わせであるとみなして棄却するかを判定するよう作成され、さらに
１）前記別の多義・多品詞語の組み合わせを優先すると判定する場合には、該着目している語又は部分木に含まれる特定の語に関して選択中の多義・多品詞語を、指定した別の多義・多品詞語に交換する旨の指定交換及び交換対象を返し、
２）前記文法的にあり得ない組み合わせを棄却する場合には、該着目している部分木に含まれる最も文末側の語の位置から文頭側に存在する多義・多品詞語をもつ語について文末側のものほど優先的に任意の多義・多品詞語に交換する旨の交換を返し、
３）前記優先あるいは棄却のいずれの判断もしない場合に、着目点が文末の語又は部分木であって依存関係判定部の判定結果が係らないであるなら文末で係らない、それ以外は依存関係の判定結果をそのまま返すよう作成されている多義・多品詞選択判定部と、
前記多義・多品詞選択判定部の判定結果が指定交換、交換あるいは文末で係らないである場合に多義・多品詞語の交換を行う多義・多品詞交換部と、
前記多義・多品詞選択判定部の判定結果が係るである場合に、着目する２つの語又は部分木を依存関係の種別に対応する１つの部分木にまとめる部分木作成部と、
前記着目点制御部のもとで、前記依存関係判定部、多義・多品詞選択判定部、部分木作成部及び多義・多品詞交換部を着目点を移動させていく制御を繰り返していく過程で文頭から文末までの語が１つにまとまったと判断したときに解析木を出力し、文頭から文末までの語が１つにまとまらないと判断したときにはＮＵＬＬを出力する解析木出力部とを備えた自然言語の構文解析装置において、
前記着目点制御部は、前記依存関係判定部による判定結果が係らないであり、次に実行される多義・多品詞選択判定部による判定結果が、交換、指定交換、あるいは文末で係らないであり、更に実行される多義・多品詞交換部において、候補として残っている別の多義・多品詞語がなかった場合に、１つにまとまらないと判断し、前記依存関係判定部による判定結果が係るであり、次に実行される多義・多品詞選択判定部による判定結果も係るであり、更に実行される部分木作成部において、選択中であるそれぞれの多義・多品詞語が１つの部分木にまとめられたときに、前記解析スタックに語又は部分木がない場合に、前記部分木を文頭から文末までの語が１つにまとまったと判断することを特徴とする自然言語の構文解析装置。
【００１１】
【作用】
本発明の自然言語の構文解析装置では、着目点制御部で着目点が制御される形態素配列の文頭側の語情報から順次隣り合う２つの語又は部分木を、依存関係判定部が依存関係判定ルール集に基づいて依存関係を判定していくとともに、多義・多品詞選択判定部で多義・多品詞選択ルール集に基づいて、着目する部分木以外に、隣接する部分木（語）や多義・多品詞情報を参照することで、別の解の存在の可能性やその優先関係を判定し、その判定結果により多義・多品詞交換部で交換を行い、また部分木作成部で依存関係判定結果に応じた部分木を作成し、順次着目点を移動させて処理を繰り返していくことにより文頭から文末までの語が１つにまとまったときに解析木を出力することで、単純な解析アルゴリズムを維持したまま、依存関係を判定する多義・多品詞語の組み合わせ数を大幅に低減することで高速化され、併せて、より高精度な解析が可能になる。
【００１２】
【実施例】
以下、本発明を図示の一実施例により具体的に説明する。図１は本発明実施例の自然言語の構文解析装置の構成を示すブロック図である。
【００１３】
同図において、本実施例の構文解析装置は、形態素解析処理のなされた入力文（形態素配列）の語情報について文頭側から順次２つの語又は部分木に着目点を一定の規則で文頭から文末までの語が１つにまとまるか、処理を続けても１つにまとまり得ないと判明するまで移動していく制御を行う着目点制御部１０と、着目する２つの語又は部分木の間に依存関係が成立するかどうか判定する依存関係判定部２０と、着目する部分木（語）以外に、依存関係判定部２０における判定結果や隣接する部分木（語）や多義・多品詞語の情報も参照することで、別の解の存在の可能性やその優先関係を一定のルールで判定する機能を有する多義・多品詞選択判定部３０と、この多義・多品詞選択判定部３０の判定結果に基づいて多義・多品詞語の交換を行う多義・多品詞交換部４０と、依存関係が成立する場合に着目する２つの語又は部分木を１つの部分木にまとめる部分木作成部５０と、文頭から文末まで１つにまとまったときに解析木を出力し、処理を続けても１つにまとまり得ないと判明したときにＮＵＬＬを出力する解析木出力部６０とから構成されている。
【００１４】
上記着目点制御部１０は、従来の着目点制御と同様であり、形態素配列１１の文頭側の語から順次着目し、一度依存関係を判定した語又は部分木については解析スタック部１２へプッシュしたりポップしながら文頭から文末までの語が１つにまとまるか、処理を続けても１つにまとまり得ないと判明するまで着目点を移動していく制御をする部分である。なお、「語に着目する」というのは、厳密には「その語に関して選択中である１つの多義・多品詞語に着目する」ことを意味する。また、「部分木に着目する」というのは、「その部分木に含まれている全ての語に関して選択中であるそれぞれの多義・多品詞語に着目する」ことを意味する。上記依存関係判定部２０は、着目点制御部１０で制御される着目する２つの部分木（語）が渡され、所定の依存関係判定ルール集２１に基づいて、それらの間に依存関係が成立するかどうか判定し、成立するなら「係る」（及びその依存関係の種別）を、成立しないならば「係らない」を返す部分である。この依存関係判定ルール集２１には、例えば、着目する文頭側の部分木（語）のトップの語（多義・多品詞語）の品詞と着目する文末側の部分木（語）のトップの語（多義・多品詞語）の品詞の組み合わせに対応する形式で適用すべきルールが格納されている。
【００１５】
上記多義・多品詞選択判定部３０は、依存関係を判定するだけのルールとは別に、所定の多義・多品詞選択ルール集３１に基づいて、別の解の可能性を判定し選択する機能を新たに設置したものである。すなわち、多義・多品詞選択ルールは、着目する２つの部分木（語）と依存関係判定部２０の判定結果が渡され、（１）別の多義・多品詞語の組み合わせを優先するか、（２）文法的にあり得ない組み合わせを棄却するかどうかを判定し、上記（１）の場合には、着目している部分木に含まれる特定の語について、選択中の１つの多義・多品詞語を指定した別の多義・多品詞語に交換する旨の「指定交換」( 及び交換対象) を返し、上記（２）の場合には、着目している部分木に含まれる最も文末側の語の位置から文頭側に存在する語（別の多義・多品詞語が候補として残っているもの）のうちで、最も文末側に存在するほど優先的に選択中の１つの多義・多品詞語を別の任意の多義・多品詞語に交換する旨の「交換」を返し、上記（１）及び（２）のいずれにも該当しない場合には、着目点が文末であって依存関係判定部２０の判定結果が係らないであるなら「文末で係らない」、それ以外なら依存関係判定部２０の判定結果「係る」（及びその依存関係の種別）あるいは「係らない」をそのまま返すものである。多義・多品詞選択ルール集２１には、例えば、着目する文頭側の部分木（語）のトップの語（多義・多品詞語）の品詞と着目する文末側の部分木（語）のトップの語（多義・多品詞語）の品詞の組み合わせに対応する形式で適用すべきルールが格納されている。
【００１６】
上記多義・多品詞交換部４０は、多義・多品詞選択判定部３０から後に詳細に説明する所定の「指定交換」、「交換」、「文末で係らない」が渡されたとき、多義・多品詞語の交換（選択し直し）を行う部分である。上記部分木作成部５０は、多義・多品詞選択判定部３０から「係る」が渡されたとき、着目する２つの語又は部分木を依存関係の種別に応じて１つの部分木にまとめる部分である。上記解析木出力部６０は、上記着目点制御部１０によって文頭から文末までの語が１つにまとまったと判定された場合に、その部分木を受け取り解析木として出力し、処理を続けても１つにまとまり得ないと判明した場合にＮＵＬＬを受け取りＮＵＬＬ（失敗）を出力する部分である。
【００１７】
図２は本発明実施例の自然言語の構文解析装置の動作を説明するフローチャートである。
【００１８】
まず、形態素解析出力である入力文に対する形態素配列を受け取り、着目点制御部１０で文頭から文末までの語が１つにまとまっているか（ＳＴ６）、文頭から文末までの語が１つにまとまり得ないか（ＳＴ７）を判断するが、最初は（入力文が１語の場合を除き）、ＳＴ１に進み、文頭側から順次２つの語又は部分木に着目点が制御されていく（ＳＴ１）。依存関係判定部２０は着目する２つの語又は部分木が与えられ、それらの間に依存関係が成立するかどうかを依存関係判定ルール集２１に基づいて判定し、依存関係が成立するなら「係る」（及びその依存関係の種別）、依存関係が成立しないなら「係らない」を返す（ＳＴ２）。次に、多義・多品詞選択判定部３０は、着目する２つの部分木（語）と依存関係判定部２０の判定結果が渡され、多義・多品詞選択ルール集３１に基づいて選択判定を行い、別の多義・多品詞語の組み合わせを優先する場合には、着目している部分木に含まれる特定の語に関する選択中の多義・多品詞語を、指定した別の多義・多品詞語に交換する旨の「指定交換」( 及び交換対象) を返し、文法的にあり得ない多義・多品詞語の組み合わせを棄却する場合には、着目している部分木（語）に含まれる最も文末側の語の位置から文頭側に存在する語（別の多義・多品詞語の候補をもつもの）のうちで最も文末側に存在するものほど優先的に別の任意の多義・多品詞語に交換する旨の「交換」を返し、上記のいずれにも該当しない場合には、着目点が文末であって依存関係判定部２０の判定結果が係らないであるなら「文末で係らない」、それ以外は依存関係判定部２０の判定結果をそのまま返す（ＳＴ３）。そして、部分木作成部５０は、「係る」が返されたとき着目する２つの語又は部分木を依存関係の種別に応じた１つの部分木にまとめ（ＳＴ５）、多義・多品詞交換部４０は、「指定交換」、「交換」あるいは「文末で係らない」が返されたとき多義・多品詞語の交換を行い（ＳＴ４）、この後、処理が着目点制御部１０に移り、そこでは文頭から文末までの語が１つにまとまったかを判断し（ＳＴ６）、１つにまとまってないときには更に、文頭から文末までの語が１つにまとまり得るかどうか、すなわち、まだ候補として残っている多義・多品詞語があるかどうかを判断し（ＳＴ７）、１つにまとまり得る可能性があるなら再び着目点を移動させて依存関係判定部２０に進む。また、ＳＴ６で１つにまとまったと判定したときには解析木出力部６０に進み、解析木を出力して終了する。また、ＳＴ７で、１つにまとまり得ないと判定したときにも解析木出力部６０に進み、ＮＵＬＬを出力して失敗として終了する。
【００１９】
上記多義・多品詞選択判定部３０における、多義・多品詞選択ルールの返却される値について具体的に説明する。
【００２０】
この多義・多品詞選択ルールの返却値は、例えば、（１）「交換」、（２）「文末で係らない」、（３）「指定交換」（＋交換対象）、（４）「係る」（依存関係判定ルールの判定結果）、（５）「係らない」（依存関係判定ルールの判定結果）等である。
【００２１】
次に、上記多義・多品詞選択ルールの返却値によってどのように動きがかわるかを説明する。図４は本発明実施例による多義・多品詞選択ルールの返却値による動きを説明する語（多義・多品詞語）の並びの例を示す図である。
【００２２】
同図において、例えば、名詞１ー１と名詞１ー２は多義、名詞１ー１と動詞１ー１は多品詞の関係にあるものとする（入力文長は４語）。なお、以下の明細書の説明において、上位の語（係られる側の語）と下位の語（係る側の語）を「／」で接続して木構造を示すものとする。
【００２３】
（１）「交換」「文末で係らない」
仮に、着目する２つが、
文頭側の部分木文末側の部分木
動詞２―１動詞４−２
／／
名詞１−１名詞３−１
となっている場合に「交換」「文末で係らない」と判定されると、文末側の部分木の文末側の語に関する選択中の多義・多品詞語を優先して別の多義・多品詞語に交換しようとするが、（ａ）「動詞４−２」の位置には候補として残っている別の多義・多品詞語がないので交換不可となり、（ｂ）「名詞３−１」を「名詞３−２」に交換する。この後、着目する２つは、
文頭側の部分木文末側の語
動詞２―１動詞３−２
／
名詞１−１
となる。なお、文末側の部分木内に交換するものがないなら、文頭まで遡って交換するものを調べる。交換する語（多義・多品詞語の候補として残っているもの）が見つからない場合は文頭から文末までの語が１つにまとまり得ないことになり、失敗となって解析が終了する。交換する語（多義・多品詞語の候補として残っているもの）が見つかった場合には、交換する語位置にある語を文末側の語として着目する。ただし、交換する語位置が文頭の場合に限り、その語位置にある語を文頭側の語として着目する。なお、交換する語の位置より文末側にある語については、たとえ１つにまとまっていても分離されてすべて先頭の多義・多品詞語が選択され直す（この場合は動詞４−１が選択され直すことになる）。
【００２４】
（２）「指定交換」（＋交換対象）
仮に、着目する２つが、
文頭側の部分木文末側の部分木
動詞２―１動詞４−２
／／
名詞１−１名詞３−２
となっている場合に「指定交換」（動詞２−１を助詞２−１に交換）と判定されると、（ａ）文頭側の部分木に含まれている「動詞２−１」を「助詞２−１」に交換する。この後、着目する２つは、
文頭側の語文末側の語
名詞１ー１助詞２−１
となる。この場合、助詞２−１より文末側にある語について、たとえ１つにまとまっていても分離されてすべて先頭の多義・多品詞語が選択され直す（この場合名詞３−１、動詞４−１が選択し直される）。
（３）「係る」（依存関係判定ルールの判定結果）
このときは、１つの部分木にまとめる。その後、着目点制御に移る。
【００２５】
（４）「係らない」（依存関係判定ルールの判定結果）
このときには、何もしない。その後、着目点制御に移る。なお、「交換」「文末で係らない」あるいは「指定交換」によって交換された語（多義・多品詞語）とまとまっていた文頭側の語（多義・多品詞語）は分離され、語順に応じて解析スタックに戻される。
【００２６】
次に、上記多義・多品詞選択判定部３０における、ルールの参照内容について具体的に説明する。この多義・多品詞選択ルールでは、着目する２つの部分木（語）のトップの語に関して選択中である多義・多品詞語の品詞の組み合わせに対応するものが起動される。ルール内では、依存関係判定ルールの判定結果や着目する部分木（語）ばかりではなく、文頭側に隣り合う部分木（語）や文末側に隣り合う語の情報も参照される。また、それらの部分木のトップの語以外に、各部分木に係っている語の情報も参照される。しかも、それらの部分木（語）に含まれる全ての語に関する多義・多品詞語情報も参照できるようになっている。以上のように、参照内容に物理的な制限は特に設けていないが、常に、全ての情報を参照するわけではなく、実際には主に以下のような項目から、適宜必要な情報のみを選択して参照する。
【００２７】
（１）前記依存関係判定部における判定結果（２）着目する部分木又は語に含まれる任意の語に関する全ての多義・多品詞語の見出し、品詞、活用形、意味素性、格や属性の制約情報、共起情報（３）着目する部分木又は語に隣接する部分木又は語に含まれる任意の語に関する全ての多義・多品詞語の見出し、品詞、活用形、意味素性、格や属性の制約情報、共起情報（４）形態素配列における全ての語に関して、どの多義・多品詞語が選択中であるか、候補として残っているか、あるいはすでに棄却されたか、といった選択情報（５）着目している部分木又は語、隣接する部分木又は語における読点の有無、読点がある場合には、その位置関係（６）着目する部分木又は語、及び隣接する部分木又は語に含まれる全ての語の形態素配列における位置、及びそれらの位置関係（７）着目しているのが部分木である場合に、それに含まれる語と語の間に成立している依存関係の種別（８）着目している部分木又は語に隣接するのが部分木である場合に、それに含まれる語と語の間に成立している依存関係の種別（９）着目する部分木や語、及び隣接する部分木や語に含まれる任意の複数の語について、それらの語に関する多義・多品詞語の間に共起関係が成立するかどうかの情報
【００２８】
次に、上記多義・多品詞選択ルールの具体例を表２で説明する。なお、この表１において、便宜上、適用条件文は実際の記述文ではなく概略を示す文章で表現し、着目している部分木（語）のうち、文頭側の部分木（表中の例文で〔〕で囲まれたもの）のトップの語を「前」、文末側の部分木（表中の例文で｛｝で囲まれたもの）のトップの語を「後」と表現し、又、「後」の文末側に隣接している語を「次」( 表中の例文で〈〉で囲まれたもの）と表現する。表２は多品詞語選択の例であるが多義選択の場合も意味素性や、格、属性などの制約を参照して全く同様に行われる。
【００２９】
【表２】
【００３０】
表２の最初の例（Ａ）は、着目する２つの部分木のトップの品詞が名詞（前）、動詞（後）のときに適用される「名詞ＶＳ動詞ルール」によって動詞を棄却して助詞を選択する場合であり、その適用条件の概略は、「前の名詞が後の動詞（連用中止）に係らない場合、前と後の間に読点がなく、後の多品詞語に副助詞があり、後に何も係っておらず、次に読点か動詞か格助詞があるなら後を副助詞に指定交換する。ただし、次に助動詞がある場合は曖昧なので交換しない」となっている。この適用例文は、〔この問題〕｛のみ｝〈議論する〉、〔新聞〕｛さえ｝〈読ま〉ない、〔教科書〕｛のみ｝〈で〉勉強する、などであり、非適用例文は、三井販売下げ、〔ダイア建、洋製鋼〕｛さえ｝〈ない〉、などである。
【００３１】
表２の次の例（Ｂ）は、「動詞ＶＳ動詞ルール」によって動詞を棄却して副詞を選択する場合であり、その適用条件の概略は、「前の動詞（連用中止）に何も係っておらず、前の多品詞語に副詞があり、前と後の間に読点がなく、次の多品詞語に接続助詞や助動詞があり、前の多品詞語である副詞と次の多品詞語との間に共起関係がある場合、前の動詞を副詞に指定交換する」となっている。この適用例文は、例えば、〔あまり〕｛大きな声で笑う｝〈ので〉、はずかしかった、〔たとえ〕｛彼がい｝〈ても〉無意味だ、〔あまり〕｛よく｝〈ない〉などである。なお、１つの多義・多品詞選択ルール（例えば「動詞ＶＳ動詞ルール」）中には、複数の交換パターンを記述でき、上記例はその中の１つである。ここで交換パターンとは、ある多義・多品詞語を別の多義・多品詞語に交換するための、適用条件のひとまとまりを言う。なお、表２は「指定交換」のルール例であるが、「交換」のルール例として、「名詞ＶＳ助詞ルール」をあげると、その適用条件概略は「前の名詞が後の助詞に係らない場合に前の名詞と後の助詞の間に読点があり、後の助詞に何も係っていないなら交換する」となっている。
【００３２】
表３はルールの主な交換品詞例とそれに対する具体的な交換見出し例、及び交換見出し例の証券文１７８１８例における出現回数を示している。例えば、表３において、動詞を助詞に交換（あるいは助詞を動詞に交換）するルールがあり、それが適用される具体的な見出し例が「さえる」と「さえ」であり、それらは証券文例で５３５４回出現したことを示している。
【００３３】
【表３】
【００３４】
次に、本発明の多義・多品詞選択ルールを導入した場合と導入しない場合の解析の流れの違いを説明する。表４は従来例で説明したのと同じ例文「新聞さえ読まない」について、本発明の多義・多品詞選択ルールを導入した場合の解析の流れを示している。
【００３５】
【表４】
【００３６】
この例文では、正解を表４の（４）（表１の（８））でまとまった部分木とすると、多義・多品詞選択ルールを導入した場合は４回、導入しない場合は前に説明した表１に示すように８回の依存関係の判定を実行して終了する。この場合、表４の（１）で表２の（Ａ）の多義・多品詞選択ルールが適用され、「さえる」が「さえ」に交換されている。この例文は実際の文に比べると短く多義・多品詞語の数も少ないので効果は小さいが、長文や多義・多品詞語を多く含む文の場合に、特に文頭近くで多義・多品詞選択ルールが適用されると依存関係を判定する回数の削減効果は非常に大きくなり、解析時間も大幅に短縮される。なお、多義・多品詞選択ルールを導入しない場合、実際には「新聞」と「読む」で依存関係が成立（対象格）するので、表１の（３）で「係る」と判定し、この後「ない」もまとまって誤った解を出力してしまうが、多義・多品詞選択ルールを導入することでこれを回避でき構文解析処理も高精度になっている。
【００３７】
次に、「さえる」「読む」の多義語がそれぞれ２個あるとし、上記例文を少し長くした例文「新聞さえ読まなかった」について説明する。この例文の形態素解析出力の語（多義・多品詞語）の並びは図５に示される。なお、説明にあたっては、多義語を区別するため、実際には同じ見出しであっても「さえる１」「さえる２」のように識別番号を付与してある。ここで、正解は「新聞＋さえ＋読む１＋ない＋た」とする。
【００３８】
表５は上記例文の多義・多品詞選択ルールを導入しない場合の解析の流れを示している。
【００３９】
【表５】
【００４０】
また、表６は上記例文の多義・多品詞選択ルールを導入した場合の解析の流れを示している。
【００４１】
【表６】
【００４２】
表５に示すように上記例文で多義・多品詞選択ルールを導入しない場合には、正解にたどりつくまでの依存関係判定回数が３０回であるのに対して、多義・多品詞選択ルールを導入した場合には、５回になる。
【００４３】
以上説明した多義・多品詞選択ルールをコンピュータシステム( Ｃ言語で記述し、構文解析全体で約３５Ｋステップ) として構成し、評価試験をＳｕｎ−ＳＳ２（ＳＰＥＣｉｎｔ＝２１．８，ｍｅｍ＝３２Ｍ）で行った結果について説明する。図６は無作為抽出２１４２３文について多義・多品詞選択ルールを導入した場合と導入しない場合の平均実行時間（実測時間）を示している。なお、図６において横軸を語数、縦軸を時間（単位はｍｓｅｃ：ミリセコンド）としており、多義・多品詞選択ルールを導入した場合と導入しない場合をそれぞれ点列ａと点列ｂで示している。
【００４４】
表７は上記評価結果の特定の語数における具体的な平均実行時間と多義・多品詞選択ルールを導入して実行したときに出力する解を正解とした場合に、多義・多品詞選択ルールがなければ正解にたどりつくまでに何個の誤った解候補を出力しうるか（実際には途中で誤った解候補の最初のものを誤出力してしまうが強制的に処理を継続して求めた）を示したものである。なお、表７において、実行時間（単位はｍｓｅｃ）を括弧外に、解候補数を括弧内に示す。
【００４５】
【表７】
【００４６】
上記図６及び表７に示されるように、実行時間や解候補数が大幅に低減されていることがわかる。なお、評価試験に用いた辞書は、約４万語（証券用語が中心）であり、無作為抽出文（一般的な文が中心）に対する多義・多品詞語の登録が比較的少ないため、語の組み合わせ数も少な目であったが、多義・多品詞語が多くなれば、多義・多品詞選択ルールの効果はより大きくなる。
【００４７】
次に、多義・多品詞語を比較的多く含んだ長文で多義・多品詞選択ルールを導入した具体的実行例を示す。
【００４８】
まず、「決算期末を間近に控えた機関投資家の多くは「これが本格的な反騰に結び付くといえるほど外部環境が好転したわけでなく、へたに手を出してここで新たな損は抱えたくない」（大手生保）と慎重な判断を示していた。」の例文では、文の長さが５３（語）、それに対応する多義・多品詞語の総数は１７５となり、その解析時間は０．１４８秒であった。この例文で多義・多品詞選択ルールがなければ、正しい解析木を出力するのに３．５憶ｍｓｅｃかかるという推定値がはじき出されている（事実上、実行不可能）。また、この例文の多義・多品詞語の組み合わせ数は、２９０３０４００であり、本発明の多義・多品詞選択ルールの導入がなければ、実際には、途中で間違った解析木を出力してしまう。
【００４９】
次に、「関税貿易一般協定・多角的貿易交渉（ガット・ウルグアイ・ラウンド）の農業交渉で、米国と欧州共同体（ＥＣ）が国内農業の保護水準を三〇％に削減する期間を、日本の主張の半分（五年間）に短縮することで合意する見通しが強まったためで、農水省は保護削減強化に対応してこれまでの政策価格（価格支持）方式の一部を農家への所得補償方式に切り替える方向で検討する。」の例文では、文の長さが８０（語）、それに対応する多義・多品詞語の総数は３７８となり、その解析時間は０．３５５秒であった。この例文で多義・多品詞選択ルールがなければ、１．５兆ｍｓｅｃかかるという推定値がはじき出されている。また、この例文の多義・多品詞語の総数は、５５９８７２０００００であり、本発明の多義・多品詞選択ルールの導入がなければ、実際には、上記と同様に途中で間違った解析木を出力してしまう。
【００５０】
本発明の好適な実施例について説明したが、本発明の精神を逸脱しない範囲内において種々の改良及び変更をなし得ることはもちろんである。
【００５１】
【発明の効果】
以上説明したように本発明の自然言語の構文解析装置では、単純な依存構造解析アルゴリズムを採用した上で、依存関係を判定するための従来からの依存関係判定部とともに、別の解の可能性を判定し選択する機能を有する多義・多品詞選択判定部及び多義・多品詞選択ルールを導入したことで、高速、高精度化を図ることができた。
図の説明
【図面の簡単な説明】
【図１】本発明実施例の自然言語の構文解析装置の構成を示すブロック図である。
【図２】本発明実施例の自然言語の構文解析装置の動作を説明するフローチャートである。
【図３】形態素解析のなされた入力文例の語（多義・多品詞語）の並びを示す図である。
【図４】本発明実施例の多義・多品詞選択判定部の動きを説明するための語（多義・多品詞語）の並び例を示す図である。
【図５】本発明実施例の形態素解析のなされた他の入力文例の語（多義・多品詞語）の並びを示す図である。
【図６】本発明実施例の自然言語の構文解析装置で評価試験の結果を示す図である。
【符号の説明】
１０着目点制御部
１１形態素配列
１２解析スタック部
２０依存関係判定部
２１依存関係判定ルール集
３０多義・多品詞選択判定部
３１多義・多品詞選択ルール集
４０部分木作成部
５０多義・多品詞交換部
６０解析木出力部

Claims

入力文に対する語の情報が格納された形態素配列を受け取り、その文頭側から順次２つの語又は部分木を選択し、選択中の語又は部分木又は各々の多義・多品詞語に着目し、文頭から文末までの語が１つにまとまるか、文頭から文末までの語又は部分木における多義・多品詞の中で候補として残っている多義・多品詞語がなくなり処理を続けても１つにまとまらないと判断するまで、解析スタックに処理中の語又は部分木を書き込み又は読出しさせ、着目点を移動させていく制御をする着目点制御部と、
前記着目点制御部で制御される着目する２つの語又は部分木が渡され、着目する文頭側の語又は部分木のトップの語の品詞と着目する文末側の語又は部分木のトップの語の品詞の組み合わせに対応する形式で適用する依存関係判定ルールを格納する依存関係判定ルール格納部のルールに基づき、それらの間に依存関係が成立するか判定し、成立するなら係る及びその依存関係の種別を、成立しないなら係らないの判定結果を返す依存関係判定部と、
前記着目点制御部で制御される着目する２つの語又は部分木と前記依存関係判定部の判定結果とが渡され、着目する２つの語又は部分木に関して選択中の多義・多品詞語の組み合わせの妥当性あるいは別の組み合わせの優先可能性を判断する多義・多品詞選択ルールに基づき、着目している前記２つの語又は部分木及び、前記２つの語又は部分木の文頭側又は文末側に隣接する語又は部分木について、それぞれの語又は部分木のトップの語あるいはそのトップの語以下にかかっている語の文法、意味情報、多義・多品詞語情報を参照し、前記多義・多品詞ルールのルール集を格納する多義・多品詞選択ルール格納部より、前記選択中の多義・多品詞語の組み合わせに対応するルールを選択し、起動する多義・多品詞選択判定部であって、該多義・多品詞選択判定部における前記多義・多品詞選択ルールは、着目する２つの語又は部分木に関して選択中の多義・多品詞語の組み合わせとは別の多義・多品詞語の組み合わせを優先するか、あるいは着目する２つの語又は部分木に関して選択中の多義・多品詞語の組み合わせが文法的にあり得ない組み合わせであるとみなして棄却するかを判定するよう作成され、さらに
１）前記別の多義・多品詞語の組み合わせを優先すると判定する場合には、該着目している語又は部分木に含まれる特定の語に関して選択中の多義・多品詞語を、指定した別の多義・多品詞語に交換する旨の指定交換及び交換対象を返し、
２）前記文法的にあり得ない組み合わせを棄却する場合には、該着目している部分木に含まれる最も文末側の語の位置から文頭側に存在する多義・多品詞語をもつ語について文末側のものほど優先的に任意の多義・多品詞語に交換する旨の交換を返し、
３）前記優先あるいは棄却のいずれの判断もしない場合に、着目点が文末の語又は部分木であって依存関係判定部の判定結果が係らないであるなら文末で係らない、それ以外は依存関係の判定結果をそのまま返すよう作成されている多義・多品詞選択判定部と、
前記多義・多品詞選択判定部の判定結果が指定交換、交換あるいは文末で係らないである場合に多義・多品詞語の交換を行う多義・多品詞交換部と、
前記多義・多品詞選択判定部の判定結果が係るである場合に、着目する２つの語又は部分木を依存関係の種別に対応する１つの部分木にまとめる部分木作成部と、
前記着目点制御部のもとで、前記依存関係判定部、多義・多品詞選択判定部、部分木作成部及び多義・多品詞交換部を着目点を移動させていく制御を繰り返していく過程で文頭から文末までの語が１つにまとまったと判断したときに解析木を出力し、文頭から文末までの語が１つにまとまらないと判断したときにはＮＵＬＬを出力する解析木出力部とを備えた自然言語の構文解析装置において、
前記着目点制御部は、前記依存関係判定部による判定結果が係らないであり、次に実行される多義・多品詞選択判定部による判定結果が、交換、指定交換、あるいは文末で係らないであり、更に実行される多義・多品詞交換部において、候補として残っている別の多義・多品詞語がなかった場合に、１つにまとまらないと判断し、前記依存関係判定部による判定結果が係るであり、次に実行される多義・多品詞選択判定部による判定結果も係るであり、更に実行される部分木作成部において、選択中であるそれぞれの多義・多品詞語が１つの部分木にまとめられたときに、前記解析スタックに語又は部分木がない場合に、前記部分木を文頭から文末までの語が１つにまとまったと判断することを特徴とする自然言語の構文解析装置。