JP3694771B2 - 自然言語の構文解析装置 - Google Patents
自然言語の構文解析装置 Download PDFInfo
- Publication number
- JP3694771B2 JP3694771B2 JP07835695A JP7835695A JP3694771B2 JP 3694771 B2 JP3694771 B2 JP 3694771B2 JP 07835695 A JP07835695 A JP 07835695A JP 7835695 A JP7835695 A JP 7835695A JP 3694771 B2 JP3694771 B2 JP 3694771B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- words
- sentence
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【産業上の利用分野】
本発明は、多義・多品詞語を多数含む文の依存構造を解析する自然言語の構文解析装置に関するものである。
【0002】
【従来の技術】
構文解析しようとする文が長かったり、1つの見出し語に関する多義・多品詞語が多数存在するような場合には、解の候補となる語(多義・多品詞語)の組み合わせが膨大になるため、単純なアルゴリズムで構文解析すると多大な実行時間を要し、また、解の候補も多くなるため正解も得られ難い欠点があった。
【0003】
ところで、バックトラック(後戻り)のある縦型探索方式で依存構造解析を行い、文頭側から順次隣り合う2つの語又は部分木に着目して依存関係を判定していき、文頭から文末までの語が1つにまとまった最初の解析木を正解として出力するという、単純な解析アルゴリズムを用いた場合、長文や多義・多品詞語を多く含む文をそのまま素直に実行すると、バックトラック量が膨大になる。また、依存関係の判定のための単純なルールだけでは、着目する部分木(語)以外の情報を参照するのが原則的に困難であるため、別の多義・多品詞語の組み合わせによる解候補との比較は行えない。従って、出力する解析木も正解となりにくい。
【0004】
従来の依存関係判定ルールでは、文頭側から解析するため、まず文頭側の2つの語に着目し、それらの間に依存関係が成立するかどうかを判定し、依存関係が成立するなら「係る」(依存関係の種別)、依存関係が成立しないなら「係らない」として、それぞれの場合に以下のように着目点を制御している。
(1)係らない場合、(a)着目点より文末側に語が残っている場合には、着目している文頭側の語を解析スタックにプッシュし、着目点を文末側に1つ進めその位置の語に関する最初の多義・多品詞語を選択する。
(b)着目点より文末側に語が残っていない場合には、着目点から文頭側に選択中の多義・多品詞語とは別の多義・多品詞語が候補として残っているなら文末側に位置するものを優先して別の1つの多義・多品詞語に選択し直す。この場合新たに選択された多義・多品詞語をもつ語の位置(Xとする)より文末側にあって着目点までの位置の範囲にある語に関しては、それぞれの位置の語に関する最初の多義・多品詞語が選択し直される。選択し直される前の多義・多品詞語とまとまっていたXより文頭側にある語又は部分木は分離され、適宜、解析スタックに戻される。そして、着目点は原則的にXとなりXの語とXの文頭側に隣り合う語又は部分木に着目される。なお、(a)、(b)において候補として残っている多義・多品詞語がない場合には、失敗となって解析が終了する(解析木出力部にNULLを渡す)。
(2)係る場合、(a)解析スタックに部分木(語)がある場合には、解析スタックから1つの部分木(語)をポップし、それと直前に着目していた2つの語又は部分木が1つにまとめられた部分木に着目する。
(b)解析スタックに部分木(語)がない場合には、(b−1)文末側に語が残っているとき、直前に着目していた2つの語又は部分木が1つにまとめられた部分木と、着目点を文末側に1つ進めたところの位置の語に着目する。
(b−2)文末側に語が残っていないとき、直前に着目していた2つの部分木(語)を1つの部分木としてまとめたものを正解として解析を終了するため、今まとめた部分木を解析木出力部にわたす。
【0005】
従来の依存関係判定ルールを、例えば、「新聞さえ読まない。」のような例文について適用した場合についての解析の流れを表1で説明する。この場合の形態素解析出力は、図3に示すような語(多義・多品詞語)の並びになる。なお、表1において、表記の簡略化のため1つにまとまっている語又は部分木を括弧記号「[]」で囲み、それに含まれる語の区切りに記号「+」を用い、依存関係を判定する着目する2つの語または部分木の間に記号「←→」を用い、その依存関係の判定結果を記号「:」の次に記載している(後に説明する表4、表5及び表6についても同様とする)。
【0006】
【表1】
【0007】
すなわち、文頭側から解析するので、まず文頭側の2つの語に着目し、多義・多品詞語がある場合、その最初の多義・多品詞語を選択する。この場合「さえる」と「さえ」が多品詞語となっているが、まず「さえる」を選択する。
(1)[新聞]と[さえる]で依存関係を判定すると、係らないと判定される。ここでは、上記依存関係判定ルールの係らない場合の(a)を実行して、[新聞]を解析スタックにプッシュし、[さえる]と[読む]に着目する。
(2)[さえる]と[読む]で依存関係を判定すると、係る(任意の関係)と判定される。ここでは、上記依存関係判定ルールの係る場合で、まず着目する2つの部分木(語)を任意の関係で1つの部分木にまとめ、次に(a)を実行して、[新聞]を解析スタックからポップし、[新聞]と[さえる+読む]に着目する。
(3)[新聞]と[さえる+読む]で依存関係を判定すると、係らないと判定される。なお、実際には対象格などで係ることもあり、仮に係るとすると誤った解析木を出力してしまう。しかし、この例は正しい解析木を出力するまでの過程を示すものであり、この例では係らないとしておく。ここで係らない場合の(a)を実行し、[新聞]を解析スタックにプッシュし、[さえる+読む]と[ない]に着目する。
(4)[さえる+読む]と[ない]で依存関係を判定すると、係る(任意の関係)と判定される。ここで係る場合の(a)を実行し、[新聞]を解析スタックからポップし、[新聞]と[さえる+読む+ない]に着目する。
(5)[新聞]と[さえる+読む+ない]で依存関係を判定すると、係らないと判定される。ここで係らない場合の(b)を実行し、文末側を優先的に別の多義・多品詞語の候補に選択し直す。この場合は「さえる」を「さえ」に交換し(選択し直し)、[新聞]と[さえ]に着目する。
(6)[新聞]と[さえ]で依存関係を判定すると、係る(任意の関係)と判定される。ここで係る場合の(b−1)を実行し、[新聞+さえ]と[読む]に着目する。
(7)[新聞+さえ]と[読む]で依存関係を判定すると、係る(対象格)と判定される。ここで係る場合の(b−1)を実行し、[新聞+さえ+読む]と[ない]に着目する。
(8)[新聞+さえ+読む]と[ない]で依存関係を判定すると、係る(任意の関係)と判定される。ここで係る場合の(b−2)を実行し、解析を終了する。
【0008】
【発明が解決しようとする課題】
しかしながら、依存関係を判定するという概念は、本来、着目する2つの部分木(語)のそれぞれのトップの語に関して選択中である多義・多品詞語の間の構文的あるいは意味的な関係を規定するという性質のものであるため、依存関係判定ルールは、着目する2つの部分木(語)における別の多義・多品詞語の関係を判定できないし、仮に判定できたとしてもそれを優先的に選択するような制御メカニズムになっていない。従って、従来の依存関係判定ルールのみで、長文や多義・多品詞語を多く含む文をそのまま素直に実行すると、着目する部分木以外の情報(別の多義・多品詞語の情報や隣接する部分木や語の情報)を参照するのが原理的に困難であり、別の多義・多品詞語の組み合わせによる解候補との比較及び別の解候補を優先させることはできなかった。従って、出力する解析木も正解となりにくい欠点があった。しかも、長文を解析しようとする場合、語(多義・多品詞語)の組み合わせ数が膨大になるため、バックトラック量も膨大になり、多大な処理時間を要するという欠点があった。
【0009】
そこで本発明は、依存関係を判定するための従来からのルールとは別に、着目する部分木(語)以外に、隣接する部分木又は語や多義・多品詞語の情報も参照することで、別の解の存在の可能性やその解候補を比較した上で優先関係を判定する機能を持たせたルールを新たに設定し、さらにそのルールの判定結果に応じて別の多義・多品詞語を選択し直す(交換する)制御メカニズムを新たに設定する。これにより、単純な解析アルゴリズムを維持したままで、実際に依存関係を判定する多義・多品詞語の組み合わせ数を大幅に低減することで高速化を図り、併せて、より高精度な解析が可能となる自然言語の構文解析装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
上記目的を達成するために、本発明の自然言語の構文解析装置は、入力文に対する語の情報が格納された形態素配列を受け取り、その文頭側から順次2つの語又は部分木を選択し、選択中の語又は部分木又は各々の多義・多品詞語に着目し、文頭から文末までの語が1つにまとまるか、文頭から文末までの語又は部分木における多義・多品詞の中で候補として残っている多義・多品詞語がなくなり処理を続けても1つにまとまらないと判断するまで、解析スタックに処理中の語又は部分木を書込み又は読出しさせ、着目点を移動させていく制御をする着目点制御部と、
前記着目点制御部で制御される着目する2つの語又は部分木が渡され、着目する文頭側の語又は部分木のトップの語の品詞と着目する文末側の語又は部分木のトップの語の品詞の組み合わせに対応する形式で適用する依存関係判定ルールを格納する依存関係判定ルール格納部のルールに基づき、それらの間に依存関係が成立するか判定し、成立するなら係る及びその依存関係の種別を、成立しないなら係らないの判定結果を返す依存関係判定部と、
前記着目点制御部で制御される着目する2つの語又は部分木と前記依存関係判定部の判定結果とが渡され、着目する2つの語又は部分木に関して選択中の多義・多品詞語の組み合わせの妥当性あるいは別の組み合わせの優先可能性を判断する多義・多品詞選択ルールに基づき、着目している前記2つの語又は部分木及び、前記2つの語又は部分木の文頭側又は文末側に隣接する語又は部分木について、それぞれの語又は部分木のトップの語あるいはそのトップの語以下にかかっている語の文法、意味情報、多義・多品詞語情報を参照し、前記多義・多品詞ルールのルール集を格納する多義・多品詞選択ルール格納部より、前記選択中の多義・多品詞語の組み合わせに対応するルールを選択し、起動する多義・多品詞選択判定部であって、該多義・多品詞選択判定部における前記多義・多品詞選択ルールは、着目する2つの語又は部分木に関して選択中の多義・多品詞語の組み合わせとは別の多義・多品詞語の組み合わせを優先するか、あるいは着目する2つの語又は部分木に関して選択中の多義・多品詞語の組み合わせが文法的にあり得ない組み合わせであるとみなして棄却するかを判定するよう作成され、さらに
1)前記別の多義・多品詞語の組み合わせを優先すると判定する場合には、該着目している語又は部分木に含まれる特定の語に関して選択中の多義・多品詞語を、指定した別の多義・多品詞語に交換する旨の指定交換及び交換対象を返し、
2)前記文法的にあり得ない組み合わせを棄却する場合には、該着目している部分木に含まれる最も文末側の語の位置から文頭側に存在する多義・多品詞語をもつ語について文末側のものほど優先的に任意の多義・多品詞語に交換する旨の交換を返し、
3)前記優先あるいは棄却のいずれの判断もしない場合に、着目点が文末の語又は部分木であって依存関係判定部の判定結果が係らないであるなら文末で係らない、それ以外は依存関係の判定結果をそのまま返すよう作成されている多義・多品詞選択判定部と、
前記多義・多品詞選択判定部の判定結果が指定交換、交換あるいは文末で係らないである場合に多義・多品詞語の交換を行う多義・多品詞交換部と、
前記多義・多品詞選択判定部の判定結果が係るである場合に、着目する2つの語又は部分木を依存関係の種別に対応する1つの部分木にまとめる部分木作成部と、
前記着目点制御部のもとで、前記依存関係判定部、多義・多品詞選択判定部、部分木作成部及び多義・多品詞交換部を着目点を移動させていく制御を繰り返していく過程で文頭から文末までの語が1つにまとまったと判断したときに解析木を出力し、文頭から文末までの語が1つにまとまらないと判断したときにはNULLを出力する解析木出力部とを備えた自然言語の構文解析装置において、
前記着目点制御部は、前記依存関係判定部による判定結果が係らないであり、次に実行される多義・多品詞選択判定部による判定結果が、交換、指定交換、あるいは文末で係らないであり、更に実行される多義・多品詞交換部において、候補として残っている別の多義・多品詞語がなかった場合に、1つにまとまらないと判断し、前記依存関係判定部による判定結果が係るであり、次に実行される多義・多品詞選択判定部による判定結果も係る であり、更に実行される部分木作成部において、選択中であるそれぞれの多義・多品詞語が1つの部分木にまとめられたときに、前記解析スタックに語又は部分木がない場合に、前記部分木を文頭から文末までの語が1つにまとまったと判断することを特徴とする自然言語の構文解析装置。
【0011】
【作用】
本発明の自然言語の構文解析装置では、着目点制御部で着目点が制御される形態素配列の文頭側の語情報から順次隣り合う2つの語又は部分木を、依存関係判定部が依存関係判定ルール集に基づいて依存関係を判定していくとともに、多義・多品詞選択判定部で多義・多品詞選択ルール集に基づいて、着目する部分木以外に、隣接する部分木(語)や多義・多品詞情報を参照することで、別の解の存在の可能性やその優先関係を判定し、その判定結果により多義・多品詞交換部で交換を行い、また部分木作成部で依存関係判定結果に応じた部分木を作成し、順次着目点を移動させて処理を繰り返していくことにより文頭から文末までの語が1つにまとまったときに解析木を出力することで、単純な解析アルゴリズムを維持したまま、依存関係を判定する多義・多品詞語の組み合わせ数を大幅に低減することで高速化され、併せて、より高精度な解析が可能になる。
【0012】
【実施例】
以下、本発明を図示の一実施例により具体的に説明する。図1は本発明実施例の自然言語の構文解析装置の構成を示すブロック図である。
【0013】
同図において、本実施例の構文解析装置は、形態素解析処理のなされた入力文(形態素配列)の語情報について文頭側から順次2つの語又は部分木に着目点を一定の規則で文頭から文末までの語が1つにまとまるか、処理を続けても1つにまとまり得ないと判明するまで移動していく制御を行う着目点制御部10と、着目する2つの語又は部分木の間に依存関係が成立するかどうか判定する依存関係判定部20と、着目する部分木(語)以外に、依存関係判定部20における判定結果や隣接する部分木(語)や多義・多品詞語の情報も参照することで、別の解の存在の可能性やその優先関係を一定のルールで判定する機能を有する多義・多品詞選択判定部30と、この多義・多品詞選択判定部30の判定結果に基づいて多義・多品詞語の交換を行う多義・多品詞交換部40と、依存関係が成立する場合に着目する2つの語又は部分木を1つの部分木にまとめる部分木作成部50と、文頭から文末まで1つにまとまったときに解析木を出力し、処理を続けても1つにまとまり得ないと判明したときにNULLを出力する解析木出力部60とから構成されている。
【0014】
上記着目点制御部10は、従来の着目点制御と同様であり、形態素配列11の文頭側の語から順次着目し、一度依存関係を判定した語又は部分木については解析スタック部12へプッシュしたりポップしながら文頭から文末までの語が1つにまとまるか、処理を続けても1つにまとまり得ないと判明するまで着目点を移動していく制御をする部分である。なお、「語に着目する」というのは、厳密には「その語に関して選択中である1つの多義・多品詞語に着目する」ことを意味する。また、「部分木に着目する」というのは、「その部分木に含まれている全ての語に関して選択中であるそれぞれの多義・多品詞語に着目する」ことを意味する。上記依存関係判定部20は、着目点制御部10で制御される着目する2つの部分木(語)が渡され、所定の依存関係判定ルール集21に基づいて、それらの間に依存関係が成立するかどうか判定し、成立するなら「係る」(及びその依存関係の種別)を、成立しないならば「係らない」を返す部分である。この依存関係判定ルール集21には、例えば、着目する文頭側の部分木(語)のトップの語(多義・多品詞語)の品詞と着目する文末側の部分木(語)のトップの語(多義・多品詞語)の品詞の組み合わせに対応する形式で適用すべきルールが格納されている。
【0015】
上記多義・多品詞選択判定部30は、依存関係を判定するだけのルールとは別に、所定の多義・多品詞選択ルール集31に基づいて、別の解の可能性を判定し選択する機能を新たに設置したものである。すなわち、多義・多品詞選択ルールは、着目する2つの部分木(語)と依存関係判定部20の判定結果が渡され、(1)別の多義・多品詞語の組み合わせを優先するか、(2)文法的にあり得ない組み合わせを棄却するかどうかを判定し、上記(1)の場合には、着目している部分木に含まれる特定の語について、選択中の1つの多義・多品詞語を指定した別の多義・多品詞語に交換する旨の「指定交換」( 及び交換対象) を返し、上記(2)の場合には、着目している部分木に含まれる最も文末側の語の位置から文頭側に存在する語(別の多義・多品詞語が候補として残っているもの)のうちで、最も文末側に存在するほど優先的に選択中の1つの多義・多品詞語を別の任意の多義・多品詞語に交換する旨の「交換」を返し、上記(1)及び(2)のいずれにも該当しない場合には、着目点が文末であって依存関係判定部20の判定結果が係らないであるなら「文末で係らない」、それ以外なら依存関係判定部20の判定結果「係る」(及びその依存関係の種別)あるいは「係らない」をそのまま返すものである。多義・多品詞選択ルール集21には、例えば、着目する文頭側の部分木(語)のトップの語(多義・多品詞語)の品詞と着目する文末側の部分木(語)のトップの語(多義・多品詞語)の品詞の組み合わせに対応する形式で適用すべきルールが格納されている。
【0016】
上記多義・多品詞交換部40は、多義・多品詞選択判定部30から後に詳細に説明する所定の「指定交換」、「交換」、「文末で係らない」が渡されたとき、多義・多品詞語の交換(選択し直し)を行う部分である。上記部分木作成部50は、多義・多品詞選択判定部30から「係る」が渡されたとき、着目する2つの語又は部分木を依存関係の種別に応じて1つの部分木にまとめる部分である。上記解析木出力部60は、上記着目点制御部10によって文頭から文末までの語が1つにまとまったと判定された場合に、その部分木を受け取り解析木として出力し、処理を続けても1つにまとまり得ないと判明した場合にNULLを受け取りNULL(失敗)を出力する部分である。
【0017】
図2は本発明実施例の自然言語の構文解析装置の動作を説明するフローチャートである。
【0018】
まず、形態素解析出力である入力文に対する形態素配列を受け取り、着目点制御部10で文頭から文末までの語が1つにまとまっているか(ST6)、文頭から文末までの語が1つにまとまり得ないか(ST7)を判断するが、最初は(入力文が1語の場合を除き)、ST1に進み、文頭側から順次2つの語又は部分木に着目点が制御されていく(ST1)。依存関係判定部20は着目する2つの語又は部分木が与えられ、それらの間に依存関係が成立するかどうかを依存関係判定ルール集21に基づいて判定し、依存関係が成立するなら「係る」(及びその依存関係の種別)、依存関係が成立しないなら「係らない」を返す(ST2)。次に、多義・多品詞選択判定部30は、着目する2つの部分木(語)と依存関係判定部20の判定結果が渡され、多義・多品詞選択ルール集31に基づいて選択判定を行い、別の多義・多品詞語の組み合わせを優先する場合には、着目している部分木に含まれる特定の語に関する選択中の多義・多品詞語を、指定した別の多義・多品詞語に交換する旨の「指定交換」( 及び交換対象) を返し、文法的にあり得ない多義・多品詞語の組み合わせを棄却する場合には、着目している部分木(語)に含まれる最も文末側の語の位置から文頭側に存在する語(別の多義・多品詞語の候補をもつもの)のうちで最も文末側に存在するものほど優先的に別の任意の多義・多品詞語に交換する旨の「交換」を返し、上記のいずれにも該当しない場合には、着目点が文末であって依存関係判定部20の判定結果が係らないであるなら「文末で係らない」、それ以外は依存関係判定部20の判定結果をそのまま返す(ST3)。そして、部分木作成部50は、「係る」が返されたとき着目する2つの語又は部分木を依存関係の種別に応じた1つの部分木にまとめ(ST5)、多義・多品詞交換部40は、「指定交換」、「交換」あるいは「文末で係らない」が返されたとき多義・多品詞語の交換を行い(ST4)、この後、処理が着目点制御部10に移り、そこでは文頭から文末までの語が1つにまとまったかを判断し(ST6)、1つにまとまってないときには更に、文頭から文末までの語が1つにまとまり得るかどうか、すなわち、まだ候補として残っている多義・多品詞語があるかどうかを判断し(ST7)、1つにまとまり得る可能性があるなら再び着目点を移動させて依存関係判定部20に進む。また、ST6で1つにまとまったと判定したときには解析木出力部60に進み、解析木を出力して終了する。また、ST7で、1つにまとまり得ないと判定したときにも解析木出力部60に進み、NULLを出力して失敗として終了する。
【0019】
上記多義・多品詞選択判定部30における、多義・多品詞選択ルールの返却される値について具体的に説明する。
【0020】
この多義・多品詞選択ルールの返却値は、例えば、(1)「交換」、(2)「文末で係らない」、(3)「指定交換」(+交換対象)、(4)「係る」(依存関係判定ルールの判定結果)、(5)「係らない」(依存関係判定ルールの判定結果)等である。
【0021】
次に、上記多義・多品詞選択ルールの返却値によってどのように動きがかわるかを説明する。図4は本発明実施例による多義・多品詞選択ルールの返却値による動きを説明する語(多義・多品詞語)の並びの例を示す図である。
【0022】
同図において、例えば、名詞1ー1と名詞1ー2は多義、名詞1ー1と動詞1ー1は多品詞の関係にあるものとする(入力文長は4語)。なお、以下の明細書の説明において、上位の語(係られる側の語)と下位の語(係る側の語)を「/」で接続して木構造を示すものとする。
【0023】
(1)「交換」「文末で係らない」
仮に、着目する2つが、
文頭側の部分木 文末側の部分木
動詞2―1 動詞4−2
/ /
名詞1−1 名詞3−1
となっている場合に「交換」「文末で係らない」と判定されると、文末側の部分木の文末側の語に関する選択中の多義・多品詞語を優先して別の多義・多品詞語に交換しようとするが、(a)「動詞4−2」の位置には候補として残っている別の多義・多品詞語がないので交換不可となり、(b)「名詞3−1」を「名詞3−2」に交換する。この後、着目する2つは、
文頭側の部分木 文末側の語
動詞2―1 動詞3−2
/
名詞1−1
となる。なお、文末側の部分木内に交換するものがないなら、文頭まで遡って交換するものを調べる。交換する語(多義・多品詞語の候補として残っているもの)が見つからない場合は文頭から文末までの語が1つにまとまり得ないことになり、失敗となって解析が終了する。交換する語(多義・多品詞語の候補として残っているもの)が見つかった場合には、交換する語位置にある語を文末側の語として着目する。ただし、交換する語位置が文頭の場合に限り、その語位置にある語を文頭側の語として着目する。なお、交換する語の位置より文末側にある語については、たとえ1つにまとまっていても分離されてすべて先頭の多義・多品詞語が選択され直す(この場合は動詞4−1が選択され直すことになる)。
【0024】
(2)「指定交換」(+交換対象)
仮に、着目する2つが、
文頭側の部分木 文末側の部分木
動詞2―1 動詞4−2
/ /
名詞1−1 名詞3−2
となっている場合に「指定交換」(動詞2−1を助詞2−1に交換)と判定されると、(a)文頭側の部分木に含まれている「動詞2−1」を「助詞2−1」に交換する。この後、着目する2つは、
文頭側の語 文末側の語
名詞1ー1 助詞2−1
となる。この場合、助詞2−1より文末側にある語について、たとえ1つにまとまっていても分離されてすべて先頭の多義・多品詞語が選択され直す(この場合名詞3−1、動詞4−1が選択し直される)。
(3)「係る」(依存関係判定ルールの判定結果)
このときは、1つの部分木にまとめる。その後、着目点制御に移る。
【0025】
(4)「係らない」(依存関係判定ルールの判定結果)
このときには、何もしない。その後、着目点制御に移る。なお、「交換」「文末で係らない」あるいは「指定交換」によって交換された語(多義・多品詞語)とまとまっていた文頭側の語(多義・多品詞語)は分離され、語順に応じて解析スタックに戻される。
【0026】
次に、上記多義・多品詞選択判定部30における、ルールの参照内容について具体的に説明する。この多義・多品詞選択ルールでは、着目する2つの部分木(語)のトップの語に関して選択中である多義・多品詞語の品詞の組み合わせに対応するものが起動される。ルール内では、依存関係判定ルールの判定結果や着目する部分木(語)ばかりではなく、文頭側に隣り合う部分木(語)や文末側に隣り合う語の情報も参照される。また、それらの部分木のトップの語以外に、各部分木に係っている語の情報も参照される。しかも、それらの部分木(語)に含まれる全ての語に関する多義・多品詞語情報も参照できるようになっている。以上のように、参照内容に物理的な制限は特に設けていないが、常に、全ての情報を参照するわけではなく、実際には主に以下のような項目から、適宜必要な情報のみを選択して参照する。
【0027】
(1)前記依存関係判定部における判定結果(2)着目する部分木又は語に含まれる任意の語に関する全ての多義・多品詞語の見出し、品詞、活用形、意味素性、格や属性の制約情報、共起情報(3)着目する部分木又は語に隣接する部分木又は語に含まれる任意の語に関する全ての多義・多品詞語の見出し、品詞、活用形、意味素性、格や属性の制約情報、共起情報(4)形態素配列における全ての語に関して、どの多義・多品詞語が選択中であるか、候補として残っているか、あるいはすでに棄却されたか、といった選択情報(5)着目している部分木又は語、隣接する部分木又は語における読点の有無、読点がある場合には、その位置関係(6)着目する部分木又は語、及び隣接する部分木又は語に含まれる全ての語の形態素配列における位置、及びそれらの位置関係(7)着目しているのが部分木である場合に、それに含まれる語と語の間に成立している依存関係の種別(8)着目している部分木又は語に隣接するのが部分木である場合に、それに含まれる語と語の間に成立している依存関係の種別(9)着目する部分木や語、及び隣接する部分木や語に含まれる任意の複数の語について、それらの語に関する多義・多品詞語の間に共起関係が成立するかどうかの情報
【0028】
次に、上記多義・多品詞選択ルールの具体例を表2で説明する。なお、この表1において、便宜上、適用条件文は実際の記述文ではなく概略を示す文章で表現し、着目している部分木(語)のうち、文頭側の部分木(表中の例文で〔〕で囲まれたもの)のトップの語を「前」、文末側の部分木(表中の例文で{}で囲まれたもの)のトップの語を「後」と表現し、又、「後」の文末側に隣接している語を「次」( 表中の例文で〈〉で囲まれたもの)と表現する。表2は多品詞語選択の例であるが多義選択の場合も意味素性や、格、属性などの制約を参照して全く同様に行われる。
【0029】
【表2】
【0030】
表2の最初の例(A)は、着目する2つの部分木のトップの品詞が名詞(前)、動詞(後)のときに適用される「名詞VS動詞ルール」によって動詞を棄却して助詞を選択する場合であり、その適用条件の概略は、「前の名詞が後の動詞(連用中止)に係らない場合、前と後の間に読点がなく、後の多品詞語に副助詞があり、後に何も係っておらず、次に読点か動詞か格助詞があるなら後を副助詞に指定交換する。ただし、次に助動詞がある場合は曖昧なので交換しない」となっている。この適用例文は、〔この問題〕{のみ}〈議論する〉、〔新聞〕{さえ}〈読ま〉ない、〔教科書〕{のみ}〈で〉勉強する、などであり、非適用例文は、三井販売下げ、〔ダイア建、洋製鋼〕{さえ}〈ない〉、などである。
【0031】
表2の次の例(B)は、「動詞VS動詞ルール」によって動詞を棄却して副詞を選択する場合であり、その適用条件の概略は、「前の動詞(連用中止)に何も係っておらず、前の多品詞語に副詞があり、前と後の間に読点がなく、次の多品詞語に接続助詞や助動詞があり、前の多品詞語である副詞と次の多品詞語との間に共起関係がある場合、前の動詞を副詞に指定交換する」となっている。この適用例文は、例えば、〔あまり〕{大きな声で笑う}〈ので〉、はずかしかった、〔たとえ〕{彼がい}〈ても〉無意味だ、〔あまり〕{よく}〈ない〉などである。なお、1つの多義・多品詞選択ルール(例えば「動詞VS動詞ルール」)中には、複数の交換パターンを記述でき、上記例はその中の1つである。ここで交換パターンとは、ある多義・多品詞語を別の多義・多品詞語に交換するための、適用条件のひとまとまりを言う。なお、表2は「指定交換」のルール例であるが、「交換」のルール例として、「名詞VS助詞ルール」をあげると、その適用条件概略は「前の名詞が後の助詞に係らない場合に前の名詞と後の助詞の間に読点があり、後の助詞に何も係っていないなら交換する」となっている。
【0032】
表3はルールの主な交換品詞例とそれに対する具体的な交換見出し例、及び交換見出し例の証券文17818例における出現回数を示している。例えば、表3において、動詞を助詞に交換(あるいは助詞を動詞に交換)するルールがあり、それが適用される具体的な見出し例が「さえる」と「さえ」であり、それらは証券文例で5354回出現したことを示している。
【0033】
【表3】
【0034】
次に、本発明の多義・多品詞選択ルールを導入した場合と導入しない場合の解析の流れの違いを説明する。表4は従来例で説明したのと同じ例文「新聞さえ読まない」について、本発明の多義・多品詞選択ルールを導入した場合の解析の流れを示している。
【0035】
【表4】
【0036】
この例文では、正解を表4の(4)(表1の(8))でまとまった部分木とすると、多義・多品詞選択ルールを導入した場合は4回、導入しない場合は前に説明した表1に示すように8回の依存関係の判定を実行して終了する。この場合、表4の(1)で表2の(A)の多義・多品詞選択ルールが適用され、「さえる」が「さえ」に交換されている。この例文は実際の文に比べると短く多義・多品詞語の数も少ないので効果は小さいが、長文や多義・多品詞語を多く含む文の場合に、特に文頭近くで多義・多品詞選択ルールが適用されると依存関係を判定する回数の削減効果は非常に大きくなり、解析時間も大幅に短縮される。なお、多義・多品詞選択ルールを導入しない場合、実際には「新聞」と「読む」で依存関係が成立(対象格)するので、表1の(3)で「係る」と判定し、この後「ない」もまとまって誤った解を出力してしまうが、多義・多品詞選択ルールを導入することでこれを回避でき構文解析処理も高精度になっている。
【0037】
次に、「さえる」「読む」の多義語がそれぞれ2個あるとし、上記例文を少し長くした例文「新聞さえ読まなかった」について説明する。この例文の形態素解析出力の語(多義・多品詞語)の並びは図5に示される。なお、説明にあたっては、多義語を区別するため、実際には同じ見出しであっても「さえる1」「さえる2」のように識別番号を付与してある。ここで、正解は「新聞+さえ+読む1+ない+た」とする。
【0038】
表5は上記例文の多義・多品詞選択ルールを導入しない場合の解析の流れを示している。
【0039】
【表5】
【0040】
また、表6は上記例文の多義・多品詞選択ルールを導入した場合の解析の流れを示している。
【0041】
【表6】
【0042】
表5に示すように上記例文で多義・多品詞選択ルールを導入しない場合には、正解にたどりつくまでの依存関係判定回数が30回であるのに対して、多義・多品詞選択ルールを導入した場合には、5回になる。
【0043】
以上説明した多義・多品詞選択ルールをコンピュータシステム( C言語で記述し、構文解析全体で約35Kステップ) として構成し、評価試験をSun−SS2(SPECint=21.8,mem=32M)で行った結果について説明する。図6は無作為抽出21423文について多義・多品詞選択ルールを導入した場合と導入しない場合の平均実行時間(実測時間)を示している。なお、図6において横軸を語数、縦軸を時間(単位はmsec:ミリセコンド)としており、多義・多品詞選択ルールを導入した場合と導入しない場合をそれぞれ点列aと点列bで示している。
【0044】
表7は上記評価結果の特定の語数における具体的な平均実行時間と多義・多品詞選択ルールを導入して実行したときに出力する解を正解とした場合に、多義・多品詞選択ルールがなければ正解にたどりつくまでに何個の誤った解候補を出力しうるか(実際には途中で誤った解候補の最初のものを誤出力してしまうが強制的に処理を継続して求めた)を示したものである。なお、表7において、実行時間(単位はmsec)を括弧外に、解候補数を括弧内に示す。
【0045】
【表7】
【0046】
上記図6及び表7に示されるように、実行時間や解候補数が大幅に低減されていることがわかる。なお、評価試験に用いた辞書は、約4万語(証券用語が中心)であり、無作為抽出文(一般的な文が中心)に対する多義・多品詞語の登録が比較的少ないため、語の組み合わせ数も少な目であったが、多義・多品詞語が多くなれば、多義・多品詞選択ルールの効果はより大きくなる。
【0047】
次に、多義・多品詞語を比較的多く含んだ長文で多義・多品詞選択ルールを導入した具体的実行例を示す。
【0048】
まず、「決算期末を間近に控えた機関投資家の多くは「これが本格的な反騰に結び付くといえるほど外部環境が好転したわけでなく、へたに手を出してここで新たな損は抱えたくない」(大手生保)と慎重な判断を示していた。」の例文では、文の長さが53(語)、それに対応する多義・多品詞語の総数は175となり、その解析時間は0.148秒であった。この例文で多義・多品詞選択ルールがなければ、正しい解析木を出力するのに3.5憶msecかかるという推定値がはじき出されている(事実上、実行不可能)。また、この例文の多義・多品詞語の組み合わせ数は、29030400であり、本発明の多義・多品詞選択ルールの導入がなければ、実際には、途中で間違った解析木を出力してしまう。
【0049】
次に、「関税貿易一般協定・多角的貿易交渉(ガット・ウルグアイ・ラウンド)の農業交渉で、米国と欧州共同体(EC)が国内農業の保護水準を三〇%に削減する期間を、日本の主張の半分(五年間)に短縮することで合意する見通しが強まったためで、農水省は保護削減強化に対応してこれまでの政策価格(価格支持)方式の一部を農家への所得補償方式に切り替える方向で検討する。」の例文では、文の長さが80(語)、それに対応する多義・多品詞語の総数は378となり、その解析時間は0.355秒であった。この例文で多義・多品詞選択ルールがなければ、1.5兆msecかかるという推定値がはじき出されている。また、この例文の多義・多品詞語の総数は、55987200000であり、本発明の多義・多品詞選択ルールの導入がなければ、実際には、上記と同様に途中で間違った解析木を出力してしまう。
【0050】
本発明の好適な実施例について説明したが、本発明の精神を逸脱しない範囲内において種々の改良及び変更をなし得ることはもちろんである。
【0051】
【発明の効果】
以上説明したように本発明の自然言語の構文解析装置では、単純な依存構造解析アルゴリズムを採用した上で、依存関係を判定するための従来からの依存関係判定部とともに、別の解の可能性を判定し選択する機能を有する多義・多品詞選択判定部及び多義・多品詞選択ルールを導入したことで、高速、高精度化を図ることができた。
図の説明
【図面の簡単な説明】
【図1】本発明実施例の自然言語の構文解析装置の構成を示すブロック図である。
【図2】本発明実施例の自然言語の構文解析装置の動作を説明するフローチャートである。
【図3】形態素解析のなされた入力文例の語(多義・多品詞語)の並びを示す図である。
【図4】本発明実施例の多義・多品詞選択判定部の動きを説明するための語(多義・多品詞語)の並び例を示す図である。
【図5】本発明実施例の形態素解析のなされた他の入力文例の語(多義・多品詞語)の並びを示す図である。
【図6】本発明実施例の自然言語の構文解析装置で評価試験の結果を示す図である。
【符号の説明】
10 着目点制御部
11 形態素配列
12 解析スタック部
20 依存関係判定部
21 依存関係判定ルール集
30 多義・多品詞選択判定部
31 多義・多品詞選択ルール集
40 部分木作成部
50 多義・多品詞交換部
60 解析木出力部
Claims (1)
- 入力文に対する語の情報が格納された形態素配列を受け取り、その文頭側から順次2つの語又は部分木を選択し、選択中の語又は部分木又は各々の多義・多品詞語に着目し、文頭から文末までの語が1つにまとまるか、文頭から文末までの語又は部分木における多義・多品詞の中で候補として残っている多義・多品詞語がなくなり処理を続けても1つにまとまらないと判断するまで、解析スタックに処理中の語又は部分木を書き込み又は読出しさせ、着目点を移動させていく制御をする着目点制御部と、
前記着目点制御部で制御される着目する2つの語又は部分木が渡され、着目する文頭側の語又は部分木のトップの語の品詞と着目する文末側の語又は部分木のトップの語の品詞の組み合わせに対応する形式で適用する依存関係判定ルールを格納する依存関係判定ルール格納部のルールに基づき、それらの間に依存関係が成立するか判定し、成立するなら係る及びその依存関係の種別を、成立しないなら係らないの判定結果を返す依存関係判定部と、
前記着目点制御部で制御される着目する2つの語又は部分木と前記依存関係判定部の判定結果とが渡され、着目する2つの語又は部分木に関して選択中の多義・多品詞語の組み合わせの妥当性あるいは別の組み合わせの優先可能性を判断する多義・多品詞選択ルールに基づき、着目している前記2つの語又は部分木及び、前記2つの語又は部分木の文頭側又は文末側に隣接する語又は部分木について、それぞれの語又は部分木のトップの語あるいはそのトップの語以下にかかっている語の文法、意味情報、多義・多品詞語情報を参照し、前記多義・多品詞ルールのルール集を格納する多義・多品詞選択ルール格納部より、前記選択中の多義・多品詞語の組み合わせに対応するルールを選択し、起動する多義・多品詞選択判定部であって、該多義・多品詞選択判定部における前記多義・多品詞選択ルールは、着目する2つの語又は部分木に関して選択中の多義・多品詞語の組み合わせとは別の多義・多品詞語の組み合わせを優先するか、あるいは着目する2つの語又は部分木に関して選択中の多義・多品詞語の組み合わせが文法的にあり得ない組み合わせであるとみなして棄却するかを判定するよう作成され、さらに
1)前記別の多義・多品詞語の組み合わせを優先すると判定する場合には、該着目している語又は部分木に含まれる特定の語に関して選択中の多義・多品詞語を、指定した別の多義・多品詞語に交換する旨の指定交換及び交換対象を返し、
2)前記文法的にあり得ない組み合わせを棄却する場合には、該着目している部分木に含まれる最も文末側の語の位置から文頭側に存在する多義・多品詞語をもつ語について文末側のものほど優先的に任意の多義・多品詞語に交換する旨の交換を返し、
3)前記優先あるいは棄却のいずれの判断もしない場合に、着目点が文末の語又は部分木であって依存関係判定部の判定結果が係らないであるなら文末で係らない、それ以外は依存関係の判定結果をそのまま返すよう作成されている多義・多品詞選択判定部と、
前記多義・多品詞選択判定部の判定結果が指定交換、交換あるいは文末で係らないである場合に多義・多品詞語の交換を行う多義・多品詞交換部と、
前記多義・多品詞選択判定部の判定結果が係るである場合に、着目する2つの語又は部分木を依存関係の種別に対応する1つの部分木にまとめる部分木作成部と、
前記着目点制御部のもとで、前記依存関係判定部、多義・多品詞選択判定部、部分木作成部及び多義・多品詞交換部を着目点を移動させていく制御を繰り返していく過程で文頭から文末までの語が1つにまとまったと判断したときに解析木を出力し、文頭から文末までの語が1つにまとまらないと判断したときにはNULLを出力する解析木出力部とを備えた自然言語の構文解析装置において、
前記着目点制御部は、前記依存関係判定部による判定結果が係らないであり、次に実行される多義・多品詞選択判定部による判定結果が、交換、指定交換、あるいは文末で係らないであり、更に実行される多義・多品詞交換部において、候補として残っている別の多義・多品詞語がなかった場合に、1つにまとまらないと判断し、前記依存関係判定部による判定結果が係るであり、次に実行される多義・多品詞選択判定部による判定結果も係るであり、更に実行される部分木作成部において、選択中であるそれぞれの多義・多品詞語 が1つの部分木にまとめられたときに、前記解析スタックに語又は部分木がない場合に、前記部分木を文頭から文末までの語が1つにまとまったと判断することを特徴とする自然言語の構文解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07835695A JP3694771B2 (ja) | 1995-03-10 | 1995-03-10 | 自然言語の構文解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07835695A JP3694771B2 (ja) | 1995-03-10 | 1995-03-10 | 自然言語の構文解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08249330A JPH08249330A (ja) | 1996-09-27 |
JP3694771B2 true JP3694771B2 (ja) | 2005-09-14 |
Family
ID=13659719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07835695A Expired - Fee Related JP3694771B2 (ja) | 1995-03-10 | 1995-03-10 | 自然言語の構文解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3694771B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5295576B2 (ja) * | 2008-01-24 | 2013-09-18 | ヤフー株式会社 | 自然言語解析装置、自然言語解析方法および自然言語解析プログラム |
-
1995
- 1995-03-10 JP JP07835695A patent/JP3694771B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08249330A (ja) | 1996-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5383120A (en) | Method for tagging collocations in text | |
US10535042B2 (en) | Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet | |
US5225981A (en) | Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes | |
EP2257896B1 (en) | Financial event and relationship extraction | |
Andersen et al. | Automatic extraction of facts from press releases to generate news stories | |
US5095432A (en) | Data processing system implemented process and compiling technique for performing context-free parsing algorithm based on register vector grammar | |
US6243670B1 (en) | Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames | |
US8548805B2 (en) | System and method of semi-supervised learning for spoken language understanding using semantic role labeling | |
Ghosh et al. | Shallow discourse parsing with conditional random fields | |
US7552051B2 (en) | Method and apparatus for mapping multiword expressions to identifiers using finite-state networks | |
US5784489A (en) | Apparatus and method for syntactic signal analysis | |
US20050071173A1 (en) | Computer-aided reading system and method with cross-language reading wizard | |
Wu | Grammarless extraction of phrasal translation examples from parallel texts | |
US20060200336A1 (en) | Creating a lexicon using automatic template matching | |
US20060200338A1 (en) | Method and system for creating a lexicon | |
US11386269B2 (en) | Fault-tolerant information extraction | |
Moldovan et al. | An interactive tool for the rapid development of knowledge bases | |
US7346511B2 (en) | Method and apparatus for recognizing multiword expressions | |
Tseng et al. | Design of Chinese morphological analyzer | |
JPH05197746A (ja) | 翻訳支援装置 | |
Goyal et al. | Analysis of Sanskrit text: Parsing and semantic relations | |
JP3694771B2 (ja) | 自然言語の構文解析装置 | |
Tur et al. | Semi-supervised learning for spoken language understanding semantic role labeling | |
WO2010119262A2 (en) | Apparatus and method for generating advertisements | |
AT&T |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040326 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050609 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050613 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050623 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090708 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090708 Year of fee payment: 4 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100708 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110708 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110708 Year of fee payment: 6 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110708 Year of fee payment: 6 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110708 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120708 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120708 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120708 Year of fee payment: 7 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |