JP4026480B2

JP4026480B2 - 構文解析結果の代表決定装置及び意味解析結果の代表決定装置

Info

Publication number: JP4026480B2
Application number: JP2002334934A
Authority: JP
Inventors: 紹明劉; 博増市; 智子大熊; 一成橋本
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2002-11-19
Filing date: 2002-11-19
Publication date: 2007-12-26
Anticipated expiration: 2022-11-19
Also published as: JP2004171185A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキスト文について得られる複数の構文解析結果候補或いは複数の意味解析結果候補から代表を決定する装置や方法に関し、例えば、コンピュータを利用して構文解析や意味解析の近似的な解析結果を求める技術に関する。
【０００２】
【従来の技術】
ＩＴ技術、特に高速インターネット・モバイル技術の飛躍的な発展により、大量の情報が誰でも、どこでも、いつでも利用可能になったが、逆に、情報洪水と言われる現象が起き、ユーザが真に必要な情報を取り出すことが困難になってきている。利用者がどのような状況にあっても常に適切な情報を得ることができる世界を実現するために、情報洪水の中からユーザにとって真に価値ある情報を抽出・再構成することが必要である。
【０００３】
ここで、ドキュメントの意味内容の比較や、意味内容によるテキスト文書の分類や、ユーザの情報探索意図の理解に関する技術は重要である。また、ドキュメントの意味内容の比較や意味内容によるテキスト文書の分類やユーザの情報探索意図の理解を実現するためには、自然言語処理などを利用したテキスト文書の構文解析や、意味解析や、意味の類似性判定などが欠かせないものである。
【０００４】
構文解析では、自然言語文を受け取り、文法規則に基づいて単語（文節）間の係り受け関係を決定する処理が行われる。構文解析結果は、依存構造と呼ばれる木構造（依存木）の形態で表現することができる。日本語の文である「先生は生徒に英語を教える」の構文解析結果として得られる依存木の例が図４及び図５に示されており、図４の例では木構造の頂点に情報が付与されておらず、図５の例では木構造の頂点に情報が付与されている。なお、依存木を生成する構文解析手法については、例えば非特許文献１に記載された方法などを用いることができる（非特許文献１参照。）。
【０００５】
意味解析では、文中の格関係を決定する処理が行われる。格関係とは、文を構成する各要素が持つ主語（ＳＵＢＪ）や目的語（ＯＢＪ）などといった文法上の役割のことである。また、意味解析の処理には、文の時制や様相や話法等を判定する処理が含まれる場合もある。日本語の文である「先生は生徒に英語を教える」の意味解析結果を木構造として表現した例が図４〜図７に示されている。図４の例では木構造の頂点に情報が付与されておらず、他の図５〜図７の例では木構造の頂点に情報が付与されている。図５の例では単語情報のみが木構造の頂点に付与されており、図６の例では格情報が木構造の頂点に単語情報と一緒に付与されている。図５及び図６の例では木構造の頂点の間の辺に格関係が付与されておらず、図７の例では木構造の頂点に単語情報が付与されており木構造の頂点の間の辺に格関係が付与されている。なお、意味解析方法としては、例えば非特許文献２に記載された方法などを用いることができる（非特許文献２参照。）。
【０００６】
しかしながら、自然言語の性質である多義性があるため、上記のような構文解析や意味解析の解析結果は変化可能な部分に関する組み合わせによって解析されたものとなり、数千通りや数万通りなどの多数の解析結果が得られてしまう場合が多くある。このような解析結果の曖昧性をいかに解消するかは、従来技術における大きな課題であった。
【０００７】
なお、構文解析結果や意味解析結果の曖昧性を解消するために、幾つかの方法が提案されている。
例えば、非特許文献３に述べられているように、構文解析及び意味解析の曖昧性を解消するための技術として、格フレーム辞書を利用する手法が提案されている（非特許文献３参照。）。また、特許文献１においても、ほぼ同様な提案がなされている（特許文献１参照。）。この提案では、構文解析や意味解析により得られる複数の解釈のもっともらしさを、単語ペアの共起の確率と構文構造の構文確率により求めることが行われている。
【０００８】
具体的には、例えば、まず、図５に示されるような格フレーム辞書を作成しておく。ここで、格フレーム辞書は、「述語とその述語と係り受け関係を持つ構成要素、及び、述語−構成要素間の格関係」（格フレーム）を多数用意して、それぞれの格フレームに対して尤度（評価値）を付与したものである。次に、構文解析或いは意味解析によって得られた解析結果候補と格フレーム辞書中の格フレームとを比較し、解析結果候補中に含まれる格フレームに付与されている尤度を解析結果候補毎に加算する。そして、尤度の合計値が最も高い解析結果候補を最終解として選択する。
【０００９】
以下に、従来の技術の例を示す。
【００１０】
【特許文献１】
特開平６−１９５３７５号公報
【非特許文献１】
内元清貴、村田真樹、関根聡、井佐原均、論文“後方文脈を考慮した係り受けモデル”、「自然言語処理」、２０００年、Ｖｏｌ．７、Ｎｏ．５、ｐ．３−１７
【非特許文献２】
原田、水野、論文“ＥＤＲを用いた日本語意味解析システムＳＡＧＥ”、「人口知能学会論文誌」、２００１年、１６（１）、ｐ．８５−９３
【非特許文献３】
長尾真著、「自然言語処理」、岩波書店、１９９６年
【非特許文献４】
田村秀行監修、「コンピュータ画像処理入門（日本工業技術センター編）」、総研出版、ｐ．１５８−１５９
【００１１】
【発明が解決しようとする課題】
しかしながら、構文解析結果や意味解析結果の曖昧性解消法に関する現段階の従来技術では、自然言語の豊富な表現力に対処仕切れず、すべての多義性の問題を解析することは困難であるため、高精度の解析結果を得ることができず、例えば、応用上で大きく不正解な解析結果が利用されてしまうと応用システムの性能に大きな影響を与えてしまうといった問題がある。そこで、このような問題を緩和する方法として、例えば、応用システムの性能を少し犠牲にして正解を含む全ての解析結果を応用システムに提供するような方法があるが、この方法では、応用システムにおいて全ての解析結果の候補について計算することが必要となるため、応用システムの計算コストが増大してしまい、場合によっては発散してしまうといった問題があった。
【００１２】
本発明は、このような従来の事情に鑑みなされたもので、例えば、入力されるテキスト文についての構文解析の解析結果候補や或いは意味解析の解析結果候補が多数存在するような場合においても、複数の構文解析結果候補或いは複数の意味解析結果候補から代表を決定することにより、実用時間で実施可能で且つシステムの性能が大きく悪化しないような応用システムを実現することを可能とすることができる装置や方法を提供することを目的とする。
【００１３】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る構文解析結果の代表決定装置では、次のようにして、テキスト文について得られた複数であるＮ個の構文解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する。
すなわち、木表現手段がＮ個の構文解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、クラスタリング手段が異なる構文解析結果候補を表現する木の間の距離を頂点の間の対応関係に基づいて求めてＮ個の構文解析結果候補をｐ個のクラスタに分類し、代表決定手段が各クラスタに含まれる構文解析結果候補から代表を決定する。
【００１４】
従って、Ｎ個の構文解析結果候補の中の１個が正解である場合、従来では１／Ｎの確率で正解が含まれるがＮが大きい場合には実用上で利用することが困難であったのに対して、本発明で決定されるｐ個の構文解析結果候補の代表では１／ｐ（＞１／Ｎ）の確率で正解或いは正解に近似する解が含まれるため、例えば、決定された代表を応用システムにおいて実用上で有効に利用することが可能となる。
【００１５】
具体的には、本発明では、従来における構文解析結果候補の数Ｎを代表の数ｐへ低減することができるため、応用システムにおける処理速度を高めることができ、処理負担を低減することができる。
また、本発明では、必ずしも決定されるｐ個の代表に正解が含まれるとは限らないが、例えば厳密な正解が含まれなくとも、正解に近い構文解析結果候補が代表として選択されることにより、従来と比べて精度が劣化するものではない。つまり、本発明では、１／ｐの確率で構文解析結果の正解或いは正解に近似するものを得ることができ、全体としては、従来と比べて、利用価値を高めることができる。
【００１６】
また、本発明では、各クラスタから構文解析結果候補の代表を選択することにより、例えば、極端な誤差を有した構文解析結果候補を除く（つまり、代表として決定しない）ことが可能であるため、これにより精度を向上させることができる。
そして、応用システムでは、本発明により決定されるｐ個の代表を用いて、例えば、センテンス間の距離を計算することや、情報検索を実現することや、翻訳を行うことなど、種々な応用上の処理を実行することが可能となる。
【００１７】
また、本発明に係る構文解析結果の代表決定装置では、木表現手段は、一構成例として、構文解析結果候補をグラフ理論上の根があり順序がある木で表現し、或いは、他の構成例として、構文解析結果候補をグラフ理論上の根があり順序がない木で表現する。
また、本発明に係る構文解析結果の代表決定装置では、木表現手段は、一構成例として、構文解析結果候補を各頂点に情報が付与されない木で表現し、或いは、他の構成例として、構文解析結果候補を各頂点に単語情報が付与される木で表現する。
【００１８】
また、本発明に係る構文解析結果の代表決定装置では、代表決定手段は、一構成例として、各クラスタに含まれる構文解析結果候補の中から、同一のクラスタに含まれる他の構文解析結果候補との距離の和が最小となる構文解析結果候補を代表として決定し、或いは、他の構成例として、各クラスタに含まれる構文解析結果候補の中から、他のクラスタに含まれる構文解析結果候補との距離の和が最大となる構文解析結果候補を代表として決定する。
【００１９】
また、本発明に係る意味解析結果の代表決定装置（以下で、説明の便宜上から、意味解析結果の代表決定装置Ａと言う）では、次のようにして、テキスト文について得られた複数であるＮ個の意味解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する。
すなわち、木表現手段がＮ個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、クラスタリング手段が異なる意味解析結果候補を表現する木の間の距離を頂点の間の対応関係に基づいて求めてＮ個の意味解析結果候補をｐ個のクラスタに分類し、代表決定手段が各クラスタに含まれる意味解析結果候補から代表を決定する。
【００２０】
従って、Ｎ個の意味解析結果候補の中の１個が正解である場合、従来では１／Ｎの確率で正解が含まれるがＮが大きい場合には実用上で利用することが困難であったのに対して、本発明で決定されるｐ個の意味解析結果候補の代表では１／ｐ（＞１／Ｎ）の確率で正解或いは正解に近似する解が含まれるため、例えば、決定された代表を応用システムにおいて実用上で有効に利用することが可能となる。
【００２１】
また、本発明に係る意味解析結果の代表決定装置Ａでは、木表現手段は、一構成例として、意味解析結果候補をグラフ理論上の根があり順序がある木で表現し、或いは、他の構成例として、意味解析結果候補をグラフ理論上の根があり順序がない木で表現する。
また、本発明に係る意味解析結果の代表決定装置Ａでは、木表現手段は、一構成例として、意味解析結果候補を各頂点に情報が付与されない木で表現し、或いは、他の構成例として、意味解析結果候補を各頂点に単語情報が付与される木で表現し、或いは、他の構成例として、意味解析結果候補を各頂点に単語情報及び格情報が付与される木で表現する。
【００２２】
また、本発明に係る意味解析結果の代表決定装置Ａでは、代表決定手段は、一構成例として、各クラスタに含まれる意味解析結果候補の中から、同一のクラスタに含まれる他の意味解析結果候補との距離の和が最小となる意味解析結果候補を代表として決定し、或いは、他の構成例として、各クラスタに含まれる意味解析結果候補の中から、他のクラスタに含まれる意味解析結果候補との距離の和が最大となる意味解析結果候補を代表として決定する。
【００２３】
また、本発明に係る意味解析結果の代表決定装置（以下で、説明の便宜上から、意味解析結果の代表決定装置Ｂと言う）では、次のようにして、テキスト文について得られた複数であるＮ個の意味解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する。
すなわち、木表現手段がＮ個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、クラスタリング手段が異なる意味解析結果候補を表現する木の間の距離を頂点の間の対応関係及び辺の間の対応関係に基づいて求めてＮ個の意味解析結果候補をｐ個のクラスタに分類し、代表決定手段が各クラスタに含まれる意味解析結果候補から代表を決定する。
【００２４】
従って、Ｎ個の意味解析結果候補の中の１個が正解である場合、従来では１／Ｎの確率で正解が含まれるがＮが大きい場合には実用上で利用することが困難であったのに対して、本発明で決定されるｐ個の意味解析結果候補の代表では１／ｐ（＞１／Ｎ）の確率で正解或いは正解に近似する解が含まれるため、例えば、決定された代表を応用システムにおいて実用上で有効に利用することが可能となる。
【００２５】
また、本発明に係る意味解析結果の代表決定装置Ｂでは、木表現手段は、一構成例として、意味解析結果候補をグラフ理論上の根があり順序がある木で表現し、或いは、他の構成例として、意味解析結果候補をグラフ理論上の根があり順序がない木で表現する。
また、本発明に係る意味解析結果の代表決定装置Ｂでは、木表現手段は、一構成例として、意味解析結果候補を各頂点に単語情報が付与されるとともに各辺に格情報が付与される木で表現する。
【００２６】
また、本発明に係る意味解析結果の代表決定装置Ｂでは、代表決定手段は、一構成例として、各クラスタに含まれる意味解析結果候補の中から、同一のクラスタに含まれる他の意味解析結果候補との距離の和が最小となる意味解析結果候補を代表として決定し、或いは、他の構成例として、各クラスタに含まれる意味解析結果候補の中から、他のクラスタに含まれる意味解析結果候補との距離の和が最大となる意味解析結果候補を代表として決定する。
【００２７】
また、本発明は、次のように、方法として提供することもできる。
本発明に係る構文解析結果の代表決定方法では、次のようにして、テキスト文について得られた複数であるＮ個の構文解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する。
すなわち、Ｎ個の構文解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、異なる構文解析結果候補を表現する木の間の距離を頂点の間の対応関係に基づいて求めて、Ｎ個の構文解析結果候補をｐ個のクラスタに分類し、各クラスタに含まれる構文解析結果候補から代表を決定する。
【００２８】
また、本発明に係る意味解析結果の代表決定方法では、次のようにして、テキスト文について得られた複数であるＮ個の意味解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する。
すなわち、Ｎ個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、異なる意味解析結果候補を表現する木の間の距離を頂点の間の対応関係に基づいて求めて、Ｎ個の意味解析結果候補をｐ個のクラスタに分類し、各クラスタに含まれる意味解析結果候補から代表を決定する。
【００２９】
また、本発明に係る意味解析結果の代表決定方法では、次のようにして、テキスト文について得られた複数であるＮ個の意味解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する。
すなわち、Ｎ個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、異なる意味解析結果候補を表現する木の間の距離を頂点の間の対応関係及び辺の間の対応関係に基づいて求めて、Ｎ個の意味解析結果候補をｐ個のクラスタに分類し、各クラスタに含まれる意味解析結果候補から代表を決定する。
【００３０】
ここで、構文解析結果候補或いは意味解析結果候補の数であるＮとしては、種々な数が用いられてもよく、一般には非常に大きな数となる。
また、クラスタの数であって、代表の数となるｐとしては、例えば１又は複数の種々な数が用いられてもよい。一構成例として、ｐをパラメータとしてユーザなどにより任意に指定することが可能な構成とすることができる。また、他の構成例として、解析結果候補（構文解析結果候補或いは意味解析結果候補）の数Ｎに関して１又は複数の閾値を設けておいてＮと閾値との大小関係に基づいてｐの値を決定するような構成とすることができ、具体的には、例えば、Ｎ＝１００ならｐ＝５とし、Ｎ＝１０００ならｐ＝５０とし、Ｎ＝１００００ならｐ＝５００とするなどの構成とすることができる。
【００３１】
また、テキスト文についてのＮ個の構文解析結果候補としては、例えば、構文解析手段により１つのテキスト文を構文解析して得られる多数の構文解析結果が用いられる。一般には構文解析手段においてもグラマー手法などにより候補となる構文解析結果がいったん絞られ、この場合、本発明では、当該絞られたＮ個の候補を更に絞ってｐ個の代表とする。
【００３２】
同様に、テキスト文についてのＮ個の意味解析結果候補としては、例えば、意味解析手段により１つのテキスト文を意味解析して得られる多数の意味解析結果が用いられる。一般には意味解析手段においてもグラマー手法などにより候補となる意味解析結果がいったん絞られ、この場合、本発明では、当該絞られたＮ個の候補を更に絞ってｐ個の代表とする。
【００３３】
また、クラスタリング手段は、例えば、異なる２つの解析結果候補（構文解析結果候補或いは意味解析結果候補）の全ての組について木の間の距離を求めて、当該距離に基づいて解析結果候補をクラスタに分類する。
また、異なる２つの解析結果候補について木の間の距離を求める計算方法としては、種々な方法が用いられてもよい。
【００３４】
また、Ｎ個の解析結果候補をｐ個のクラスタに分類する仕方としては、一例として、Ｎ個の解析結果候補をＮ個のクラスタとみなして、まず、当該Ｎ個のクラスタ（この段階では、Ｎ個の解析結果候補）の中で距離が最も近い２つのクラスタを１つのクラスタにまとめ、次に、（Ｎ−１）個のクラスタの中で距離が最も近い２つのクラスタを１つのクラスタにまとめ、更にこれと同様な処理を繰り返して行うような仕方を用いることができる。
【００３５】
この場合、２つのクラスタの間の距離を求める仕方としては、例えば、２つのクラスタ間の距離を一方のクラスタに含まれる要素（解析結果候補）と他方のクラスタに含まれる要素（解析結果候補）との距離の中の最大値とする最大距離法や、同様な距離の中の最小値とする最小距離法を用いることができ、また、例えば、Ｋ−平均法や、ＷＡＲＤ法などを用いることも可能である。
【００３６】
また、本明細書では、グラフ理論上の根があり順序がある木をＲＯ（ＲｏｏｔｅｄａｎｄＯｒｄｅｒｅｄ）木と言い、グラフ理論上の根があり順序がない木をＲ（Ｒｏｏｔｅｄ）木と言う。
また、ＲＯ木とＲ木とを比較すると、一般に、ＲＯ木の方がＲ木と比べて計算が簡易である一方、Ｒ木の方がＲＯ木と比べて精度がよい。
【００３７】
また、単語情報としては、種々な情報が用いられてもよく、例えば、単語属性の情報が含まれてもよい。単語属性の情報としては、例えば、形態素解析により得られる品詞の情報などを用いることができ、また、動詞の場合には変形の情報などを用いることができる。
また、単語間の係り受けの種類が格に相当する。
また、一般に、テキスト文を構文解析すると単語の情報が求められ、テキスト文を意味解析すると単語の情報及び格の情報が求められる。
【００３８】
以下で、更に具体的に、本発明の構成例を示す。
（１）例えばテキストデータ入力や音声認識などにより自然言語を受け取って当該自然言語に対応するテキスト文に対して構文解析処理を施すことにより得られる、入力されたテキスト文の全体の構造情報や単語間の係り受け関係を表現する構文解析の多数の解析結果候補から、数少ない近似な解析結果を求める装置であって、入力されたテキスト文の全体の構造を解析して複数の解析結果候補を得る構文解析手段と、構文解析手段で得られた解析結果候補を頂点と辺に情報が付与されていないグラフ理論上の根があり順序がある木（ＲＯ木）或いは根があり順序がない木（Ｒ木）に変換する手段又は構文解析手段で得られた解析結果候補を頂点に単語（単語属性を含む）の情報を付与したＲＯ木或いはＲ木に変換する手段と、頂点の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度を用いた構文解析結果候補間の相違を比較する距離尺度を用いて構文解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングするクラスタリング手段と、クラスタリング手段で求められた各クラスタの代表を求める手段とを備え、各クラスタの代表を用いて構文解析手段で得られた解析結果の近似的な解析結果（近似解析結果）とする。なお、近似的な解析結果の中には、正解が含まれる場合もある。
【００３９】
この構成では、構文解析の解析結果候補に対して、解析結果をグラフ理論上のＲＯ木或いはＲ木で表現し、ＲＯ木或いはＲ木の頂点と辺に任意の情報を付与せず又は入力文に出現した単語情報をＲＯ木或いはＲ木の頂点に付与し、頂点の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた構文解析結果候補間の相違を測る距離尺度を用いて構文解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングし、クラスタリングされた各クラスタの代表を求め、求められた各クラスタの代表を構文解析手段で得られた解析結果の近似解析結果として用いる。
【００４０】
また、クラスタの代表を求める手段は、一例として、各クラスタに属している全ての候補について、頂点の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた構文解析結果候補間の距離尺度を用いて各候補間の距離を計算し、当該各クラスタに属している他の全ての候補との距離の和が最小となる候補が当該各クラスタの代表となるようにし、又は、他の例として、各クラスタに属している全ての候補について、頂点の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた構文解析結果候補間の距離尺度を用いて、当該各クラスタに属していない解析結果候補との間の距離を計算し、当該各クラスタに属していない全ての候補との距離の和が最大となる候補が当該各クラスタの代表となるようにする。
【００４１】
（２）例えばテキストデータ入力や音声認識などにより自然言語を受け取って当該自然言語に対応するテキスト文に対して意味解析処理を施すことにより得られる、入力されたテキスト文の全体の構造情報や単語間の格関係情報を表現する意味解析の多数の解析結果候補から、数少ない近似な解析結果を求める装置であって、入力されたテキスト文の構造情報と単語間の格情報を解析して複数の解析結果候補を得る意味解析手段と、意味解析手段で得られた解析結果候補を頂点と辺に情報が付与されていないＲＯ木或いはＲ木に変換する手段又は意味解析手段で得られた解析結果候補を頂点に単語（単語属性を含む）の情報を付与したＲＯ木或いはＲ木に変換する手段又は意味解析手段で得られた解析結果候補を頂点に単語（単語属性を含む）の情報及び格の情報を付与したＲＯ木或いはＲ木に変換する手段と、頂点の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた意味解析結果候補間の相違を比較する距離尺度を用いて意味解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングするクラスタリング手段と、クラスタリング手段で求められた各クラスタの代表を求める手段とを備え、各クラスタの代表を用いて意味解析手段で得られた解析結果の近似的な解析結果（近似解析結果）とする。なお、近似的な解析結果の中には、正解が含まれる場合もある。
【００４２】
この構成では、意味解析の解析結果候補に対して、意味解析の解析結果をＲＯ木或いはＲ木で表現し、ＲＯ木或いはＲ木の頂点と辺に任意の情報を付与せず又は入力文に出現した単語情報をＲＯ木或いはＲ木の頂点に付与し又は入力文に出現した単語情報及び単語間の格情報をＲＯ木或いはＲ木の頂点に付与し、頂点の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた意味解析結果候補間の相違を比較する距離尺度を用いて意味解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングし、クラスタリングされた各クラスタの代表を求め、求められた各クラスタの代表を意味解析手段で得られた解析結果の近似解析結果として用いる。
【００４３】
また、クラスタの代表を求める手段は、一例として、各クラスタに属している全ての候補について、頂点の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた意味解析結果候補間の距離尺度を用いて各候補間の距離を計算し、当該各クラスタに属している他の全ての候補との距離の和が最小となる候補が当該各クラスタの代表となるようにし、又は、他の例として、各クラスタに属している全ての候補について、頂点の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた意味解析結果候補間の距離尺度を用いて、当該各クラスタに属していない解析結果候補との間の距離を計算し、当該各クラスタに属していない全ての候補との距離の和が最大となる候補が当該各クラスタの代表となるようにする。
【００４４】
（３）例えばテキストデータ入力や音声認識などにより自然言語を受け取って当該自然言語に対応するテキスト文に対して意味解析処理を施すことにより得られる、入力されたテキスト文の全体の構造情報や単語間の格情報を表現する意味解析の多数の解析結果候補から、数少ない近似な解析結果を求める装置であって、入力されたテキスト文の構造情報や単語間の格情報を解析して複数の解析結果候補を得る意味解析手段と、意味解析手段で得られた解析結果を頂点に単語（単語属性を含む）の情報を付与するとともに辺に格の情報を付与したＲＯ木或いはＲ木に変換する手段と、頂点間及び辺間の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた意味解析結果候補間の相違を比較する距離尺度を用いて意味解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングするクラスタリング手段と、クラスタリング手段で求められた各クラスタの代表を求める手段とを備え、各クラスタの代表を用いてテキスト文の意味解析結果の近似的な解析結果（近似解析結果）とする。なお、近似的な解析結果の中には、正解が含まれる場合もある。
【００４５】
この構成では、意味解析の解析結果候補に対して、意味解析の解析結果をＲＯ木或いはＲ木で表現し、入力文に出現した単語情報及び単語間の格情報をそれぞれＲＯ木或いはＲ木の頂点と辺に格納し、頂点間及び辺間の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた意味解析結果候補間の相違を比較する距離尺度を用いて、意味解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングし、クラスタリングされた各クラスタの代表を求め、求められた各クラスタの代表を意味解析手段で得られた解析結果の近似解析結果として用いる。
【００４６】
また、クラスタの代表を求める手段は、一例として、各クラスタに属している全ての候補について、頂点間及び辺間の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた意味解析結果候補間の距離尺度を用いて各候補間の距離を計算し、当該各クラスタに属している他の全ての候補との距離の和が最小となる候補が当該各クラスタの代表となるようにし、又は、他の例として、各クラスタに属している全ての候補について、頂点間及び辺間の対応関係に基づくＲＯ木間或いはＲ木間の距離尺度に基づいた意味解析結果候補間の距離尺度を用いて、当該各クラスタに属していない解析結果候補との間の距離を計算し、当該各クラスタに属していない全ての候補との距離の和が最大となる候補が当該各クラスタの代表となるようにする。
【００４７】
【発明の実施の形態】
本発明に係る一実施例を図面を参照して説明する。
図１には、本発明に係る構文・意味解析の近似解析結果を求める装置（以下で、解析結果代表決定装置と言う）の実施の一形態を示してある。
本例の解析結果代表決定装置には、外部記憶装置１と、テキスト文の形態素を求める形態素解析部２と、テキスト文の構文を解析する或いは意味を解析する構文意味解析部３と、構文意味解析部３で解析した結果をグラフ理論上のＲＯ木或いはＲ木に変換する木構造変換部４と、ＲＯ木間或いはＲ木間の距離に基づいた解析結果候補間の距離を計算する距離計算部５と、解析結果候補群をクラスタリングするクラスタリング部６と、各クラスタの代表を求める代表決定部７と、例えばメモリから構成される記憶部８と、メモリ９〜１３とが備えられている。
【００４８】
外部記憶装置１には、テキスト文のデータが格納されている。メモリ９は外部記憶装置１から読み出したテキスト文のデータを記憶し、メモリ１０は形態素解析部２によるテキスト文の解析結果を記憶し、メモリ１１は構文解析或いは意味解析により得られる解析結果候補群を記憶し、メモリ１２は木構造変換部４による変換結果を記憶し、メモリ１３はクラスタリング部６で求められた解析結果候補群に関する各クラスタの情報を記憶する。なお、例えば、これらのメモリ９〜１３を１つにまとめた構成や、或いは、このようなメモリ９〜１３を設けないような構成が用いられてもよい。
【００４９】
形態素解析部２は、メモリ９に格納されているテキスト文の形態素及び属性を求め、求められた結果をメモリ１０に格納する。
構文意味解析部３は、メモリ１０に格納された形態素解析の結果を入力し、テキスト文の構文を解析すること或いは意味を解析することを行い、当該解析の結果で得られる候補群をメモリ１１に格納する。
【００５０】
木構造変換部４は、メモリ１１に格納された構文・意味解析の解析結果候補をＲＯ木或いはＲ木で表現し、これに際して、ＲＯ木或いはＲ木の頂点に情報を記憶させないこと、又はＲＯ木或いはＲ木の頂点に入力文に出現した単語（単語の属性を含む）の情報だけを記憶させること、又はＲＯ木或いはＲ木の頂点に入力文に出現した単語（単語の属性を含む）の情報及び単語間の格の情報を記憶させること、又はＲＯ木或いはＲ木の頂点と辺にそれぞれ入力文に出現した単語（単語の属性を含む）の情報と単語間の格の情報を記憶させること、を行う。そして、木構造変換部４は、木構造への変換結果をメモリ１２に格納する。
【００５１】
距離計算部５は、メモリ１２に格納された解析結果候補間の距離を求め、距離の計算結果をクラスタリング部６に提供する。
クラスタリング部６は、距離計算部５で計算された候補間の距離を用いて、解析結果候補をクラスタリングし、その結果をメモリ１３に格納する。
代表決定部７は、メモリ１３に格納された情報に基づいて、各クラスタの代表（解析結果候補）を求め、求められた代表を記憶部８に格納する。
【００５２】
次に、本発明に係る構文解析或いは意味解析の解析結果の代表を決定する装置及び方法の適用例として、情報端末装置に適用した場合の装置構成例を示す。
図２には、本発明を情報端末装置に適用した場合の装置構成例を示してある。
同図に示した情報端末装置２０には、外部記憶装置２１と、キーボート２２と、ディスプレイ２３と、プロセッサ部２４が備えられている。また、プロセッサ部２４には、例えば、テキスト文間の距離を求めるモジュール２５が備えられている。
【００５３】
外部記憶装置２１は、入力されたテキスト文のデータや、解析結果候補間の距離を求めるときに必要な単語特徴量辞書やシソーラス辞書や格間の距離辞書などや、求められた候補間の距離の結果や、クラスタリングされたクラスタの情報や、ソフトウエアなどを格納し、また、計算に必要な記憶空間としても使用される。外部記憶装置２１は、具体例として、ハードディスクなどで構成することができる。
【００５４】
キーボート２２は、ユーザが操作を指示するための入力装置である。なお、キーボード２２以外の入力装置が付加されてもよい。
ディスプレイ２３は、ユーザに対するメッセージや、入力文のデータや、解析結果候補のデータや、距離の計算結果や、クラスタリングの結果などを表示するための出力装置である。なお、ディスプレイ２３以外の出力装置が付加されてもよい。
【００５５】
プロセッサ部２４は、外部記憶装置２１に格納されているソフトウエアなどに従って、各種の処理を行う。プロセッサ部２４は、具体例としては、マイクロプロセッサや、パーソナルコンピュータなどのコンピュータシステムで構成することができる。例えば、上記図１に示した形態素解析部２や構文意味解析部３や木構造変換部４や距離計算部５やクラスタリング部６や代表決定部７の機能は、プロセッサ部２４の上で動作するソフトウエアにより構成することができる。
【００５６】
次に、本例に係る解析結果代表決定装置の動作を更に詳細に説明する。
外部記憶装置１には、テキスト文のデータを格納している。外部記憶装置１からテキスト文のデータを読み出し、メモリ９に記憶させる。
形態素解析部２は、メモリ９に記憶しているテキスト文の形態素を求めて、その結果をメモリ１０に格納させる。ここで、形態素解析ツールとしては、公表された任意のものを利用することができ、例えば、奈良先端技術大学院大学の松本研究室により公表された“茶筅”形態素解析ツールを用いることができる。図３には、「先生は生徒に英語を教える」というテキスト文についての形態素解析の解析結果の例を示してある。
【００５７】
構文意味解析部３は、メモリ１０に記憶された形態素解析の結果を入力し、テキスト文の構文や、係り受け関係や、テキスト文の深層構造（格の関係）などを解析し、解析した結果をメモリ１１に記憶させる。ここで、依存木を生成する構文解析方法としては、任意に公表された方法を用いることができ、例えば、非特許文献１に記載された方法などを利用することができる（非特許文献１参照。）。図４及び図５には、「先生は生徒に英語を教える」というテキスト文についての構文解析結果として得られる依存木の例を示してあり、図４の例では木構造の頂点に情報が付与されておらず、図５の例では木構造の頂点に情報が付与されている。図４或いは図５に示されるような木構造の間の距離により、構文解析結果候補の間の距離を求めることができる。
【００５８】
具体的には、図４には、テキスト文「先生は生徒に英語を教える」についての構文解析の解析結果を木構造の形に書き換えたものを示してある。
また、図５には、テキスト文「先生は生徒に英語を教える」についての構文解析の解析結果を木構造の形に書き換えたものを示してあり、単語情報として、「先生」、「英語」、「生徒」、「に」、「教える」が各頂点に格納されている。
【００５９】
また、意味解析方法としては、任意に公表された意味解析方法を利用することができ、例えば、非特許文献２に記載された方法などを利用することができる（非特許文献２参照。）。「先生は生徒に英語を教える」というテキスト文についての意味解析の解析結果を木構造の形に変換すると、図６や図７に示されるような２種類の木構造となる。図６或いは図７に示されるような木構造の間の距離により、意味解析結果候補の間の距離を求めることができる。
【００６０】
また、意味解析の解析結果を上記図４や上記図５に示されるような木構造で表現することもできる。この場合、図４或いは図５に示されるような木構造の間の距離により、意味解析結果候補の間の距離を求めることができる。なお、図４の例では木構造の頂点に情報が付与されておらず、他の図５〜７の例では木構造の頂点に情報が付与されている。図５の例では単語情報のみが木構造の頂点に付与されており、図６の例では格情報が木構造の頂点に単語情報と一緒に付与されている。図５及び図６の例では木構造の頂点の間の辺に格関係が付与されておらず、図７の例では木構造の頂点に単語情報が付与されており木構造の頂点の間の辺に格関係が付与されている。
【００６１】
具体的には、図６には、テキスト文「先生は生徒に英語を教える」についての意味解析の解析結果を木構造の形に書き換えたものを示してあり、単語情報及び格情報として、「先生」及び「ＳＵＢＪ」、「英語」及び「ＯＢＪ」、「生徒」及び「ＯＢＪ」、「に」及び「ＯＢＬ」、「教える」及び「ＮＵＬＬ」が各頂点に格納されている。
【００６２】
上記図６において、格情報として、ＳＵＢＪ（主格）、ＯＢＪ（目的格）、ＯＢＬ（任意格）、ＮＵＬＬ（空）を示してある。また、格情報として、ＡＤＪＵＮＣＴ（付加格）などを用いることもできる。
なお、本例では、ＯＢＬについては、格助詞と、言い換え可能な格助詞の数だけ変数を用意している。例えば、「彼は京都［に／へ］行った。」の場合、「に」と「へ」が言い換え可能なので、この変数名をＯＢＬ＿ｎｉ−ｈｅとする。
【００６３】
また、図７には、テキスト文「先生は生徒に英語を教える」についての意味解析の解析結果を木構造の形に書き換えたものを示してあり、単語情報として、「先生」、「英語」、「生徒」、「に」、「教える」が各頂点に格納されており、格情報として、「先生」と「教える」の間の「ＳＵＢＪ」、「英語」と「教える」の間の「ＯＢＪ」、「生徒」と「に」の間の「ＯＢＪ」、「に」と「教える」の間の「ＯＢＬ」が各辺に格納されている。
【００６４】
このように、木構造上の頂点や辺に情報を付与するか否かによって、構文解析の解析結果の木構造表現法は上記図４と上記図５に示す２種類に分けることができ、意味解析の解析結果の木構造表現法は上記図４〜上記図７に示す４種類に分けることができる。更に、木構造上の頂点の子供たちの間に左右関係が存在するか否かによってＲＯ木とＲ木に分けることができ、ＲＯ木では子供たちの間に左右関係が存在し、Ｒ木では子供たちの間に左右関係が存在しない。
【００６５】
上記をまとめると、構文解析の解析結果の木構造表現法は次に示す（Ｍ１）〜（Ｍ４）の４種類に分けることができ、意味解析の解析結果の木構造表現法は次に示す（Ｍ１）〜（Ｍ８）の８種類に分けることができる。これら８種類の木構造表現法に基づく解析結果候補間の距離としてはこれら８種類の中のいずれかを用いることとし、いずれが有用かについては例えばそれぞれの応用上の問題に応じて検討されればよい。一例として、計算速度と比較精度の要求に応じて、これら８種類の木構造表現法のいずれかを選択することができる。
【００６６】
（Ｍ１）ＲＯ木であり、頂点と辺に任意の情報を付与しない。
（Ｍ２）Ｒ木であり、頂点と辺に任意の情報を付与しない。
（Ｍ３）ＲＯ木であり、頂点に入力文に出現している単語情報を付与する。
（Ｍ４）Ｒ木であり、頂点に入力文に出現している単語情報を付与する。
（Ｍ５）ＲＯ木であり、頂点に入力文に出現している単語情報及び単語間の格情報を同時に付与する。
（Ｍ６）Ｒ木であり、頂点に入力文に出現している単語情報及び単語間の格情報を同時に付与する。
（Ｍ７）ＲＯ木であり、頂点と辺にそれぞれ入力文に出現している単語情報と単語間の格情報を付与する。
（Ｍ８）Ｒ木であり、頂点と辺にそれぞれ入力文に出現している単語情報と単語間の格情報を付与する。
【００６７】
木構造変換部４は、メモリ１１に記憶された構文・意味解析の結果を入力し、各解析結果候補を木構造へ変換し、変換した結果をメモリ１２に記憶させる。
距離計算部５は、メモリ１２に記憶された解析結果候補の間の距離を求め、その結果をクラスタリング部６に提供する。このとき、距離計算部５は、例えば要求に応じて、上記した８種類の木構造表現法（Ｍ１）〜（Ｍ８）の中のいずれかに基づく解析結果候補間の距離を求める。
【００６８】
ここで、上記した８種類の木構造表現法（Ｍ１）〜（Ｍ８）に基づく解析結果候補間の距離を求める方法を示す。
（Ｍ１）〜（Ｍ６）の木構造表現法に基づく解析結果候補間の距離を求める方法としては、例えば、本出願人による特願２００２−２６８７２８号（以下で、関連出願１と言う）に記載されたような方法を用いることができる。なお、本例では、（Ｍ１）と（Ｍ２）の木構造表現法に基づく解析結果候補間の距離を求めるときには、木構造上の頂点の写像重みの設定として、頂点間の置換重み、脱落重み、挿入重みを全て定数と設定する。
【００６９】
また、（Ｍ７）と（Ｍ８）の木構造表現法に基づく解析結果候補間の距離を求める方法としては、例えば、本出願人による特願２００２−２６９１９３号（以下で、関連出願２と言う）に記載されたような方法を用いることができる。
【００７０】
まず、上記した関連出願１及び関連出願２に共通な事項を示す。
すなわち、解析結果候補（構文解析結果候補或いは意味解析結果候補）であるＣａとＣｂとの間の距離Ｄ（Ｃａ，Ｃｂ）は、式１或いは式２により求められる。ここで、ＴａとＴｂはそれぞれ候補であるＣａとＣｂの木構造を表し、記号｜Ａ｜は集合Ａの要素数を表す。また、Ｄ（Ｔａ，Ｔｂ）は木Ｔａと木Ｔｂとの間の距離を表す。
【００７１】
【数１】

【００７２】
【数２】

【００７３】
次に、上記した関連出願１に記載された（Ｍ１）〜（Ｍ６）に関する距離の計算公式を示す。
ＲＯ木間或いはＲ木間の距離の計算については、まず、ＲＯ木或いはＲ木の根から深さ優先順探索で頂点と辺に番号を付ける。大きい番号を根とするＲＯ木或いはＲ木から小さい番号を根とする部分の順で部分木間の距離を求めて、最後に全体的なＲＯ木間或いはＲ木間の距離を求める。
【００７４】
図８に示されるような２つの木Ｔａ（ｘ）、Ｔｂ（ｙ）の間の距離Ｄ（Ｔａ（ｘ），Ｔｂ（ｙ））は、式３により求められる。
【００７５】
【数３】

【００７６】
ここで、Ｔａ（ｘ）は木Ｔａの頂点ｘを根とする部分木を表し、Ｖａ（ｘ）は部分木Ｔａ（ｘ）の頂点の集合を表し、ｘ_１、ｘ_２、・・・、ｘ_ｍは頂点ｘの子供を表し、Ｃｈ（ｘ）は頂点ｘの子供の集合を表し、Ｆａ（ｘ）は部分木Ｔａ（ｘ_１）、Ｔａ（ｘ_２）、・・・、Ｔａ（ｘ_ｍ）からなる森を表す。また、森間の距離Ｄ（Ｆａ（ｘ），Ｆｂ（ｙ））と、全ての部分木間の距離Ｄ（Ｔａ（ｘ_ｉ），Ｔｂ（ｙ））、Ｄ（Ｔａ（ｘ），Ｔｂ（ｙ_ｊ））は、既に求められたものとする。また、関数Ｓ（ｘ，ｙ）は頂点ｘと頂点ｙとの間の置換重みを表し、関数Ｒ（ｋ）は頂点ｋの脱落重みを表し、関数Ｉ（ｋ）は頂点ｋの挿入重みを表す。また、記号“Ａ−Ｂ”は集合Ａから集合Ｂの全ての要素を取り除く関数を表す。
【００７７】
なお、関数Ｓ（ｘ，ｙ）と関数Ｒ（ｋ）と関数Ｉ（ｋ）の定義は、上記した関連出願１の記載内容に従い、次のようになる。
すなわち、関数Ｓ（ｘ，ｙ）としては、Ｓ（ｘ，ｙ）＝ｘｙ_ｗ＋ｘｙ_ｃを使用することや、Ｓ（ｘ，ｙ）＝ｘｙ_ｗ×ｘｙ_ｃを使用することができ、また、他の関数が使用されもよい。ここで、ｘｙ_ｗは頂点ｘに格納している単語と頂点ｙに格納している単語との間の置換重みを表し、ｘｙ_ｃは頂点ｘに格納している格と頂点ｙに格納している格との間の置換重みを表す。また、頂点に単語情報だけを格納している場合には、関数Ｓ（ｘ，ｙ）＝ｘｙ_ｗを使用する。また、（Ｍ１）と（Ｍ２）の木構造表現法に基づく解析結果候補間の距離を求めるときには、頂点に情報が付与されないことから、関数Ｓ（ｘ，ｙ）＝定数とする。
【００７８】
関数Ｒ（ｘ）としては、Ｒ（ｘ）＝ｘ_ｗ＋ｘ_ｃを使用することや、Ｒ（ｘ）＝ｘ_ｗ×ｘ_ｃを使用することができ、また、他の関数が使用されてもよい。ここで、ｘ_ｗは頂点ｘに格納している単語の脱落重みを表し、ｘ_ｃは頂点ｘに格納している格の脱落重みを表す。また、頂点に単語情報だけを格納している場合には、関数Ｒ（ｘ）＝ｘ_ｗを使用する。また、（Ｍ１）と（Ｍ２）の木構造表現法に基づく解析結果候補間の距離を求めるときには、頂点に情報が付与されないことから、関数Ｒ（ｘ）＝定数とする。
【００７９】
関数Ｉ（ｙ）としては、Ｉ（ｙ）＝ｙ_ｗ＋ｙ_ｃを使用することや、Ｉ（ｙ）＝ｙ_ｗ×ｙ_ｃを使用することができ、また、他の関数が使用されてもよい。ここで、ｙ_ｗは頂点ｙに格納している単語の挿入重みを表し、ｙ_ｃは頂点ｙに格納している格の挿入重みを表す。また、頂点に単語情報だけを格納している場合には、関数Ｉ（ｙ）＝ｙ_ｗを使用する。また、（Ｍ１）と（Ｍ２）の木構造表現法に基づく解析結果候補間の距離を求めるときには、頂点に情報が付与されないことから、関数Ｉ（ｙ）＝定数とする。
【００８０】
ここで、木Ｔａと木ＴｂがＲＯ木である場合には、つまり、子供間の左右関係が存在する場合には、図９に示されるような２つの順序がある森Ｆａ（ｘ）、Ｆｂ（ｙ）の間の距離Ｄ（Ｆａ（ｘ），Ｆｂ（ｙ））は式４により求められる。
【００８１】
【数４】

【００８２】
また、木Ｔａと木ＴｂがＲ木である場合には、つまり、子供間の左右関係が存在しない場合には、図９に示されるような順序がない森Ｆａ（ｘ）、Ｆｂ（ｙ）の間の距離Ｄ（Ｆａ（ｘ），Ｆｂ（ｙ））は式５により求められる。
【００８３】
【数５】

【００８４】
ここで、Ｗ（Ｍ_ｍａｘ）は、図１０に示されるような２部グラフＧ（Ａ，Ｂ，Ｅ）の最大マッチングの重みである。２部グラフＧ（Ａ，Ｂ，Ｅ）の頂点ａ_ｉ（∈Ａ）は順序がない森Ｆａ（ｘ）を構成する部分木Ｔａ（ｘ_ｉ）を表し（ｘ_ｉ∈Ｃｈ（ｘ））、２部グラフＧ（Ａ，Ｂ，Ｅ）の頂点ｂ_ｊ（∈Ｂ）は順序がない森Ｆｂ（ｙ）を構成する部分木Ｔｂ（ｙ_ｊ）を表す（ｙ_ｊ∈Ｃｈ（ｙ））。また、２部グラフの頂点ａ_ｉ（∈Ａ）と頂点ｂ_ｊ（∈Ｂ）の間の辺ｅ（ａ_ｉ，ｂ_ｊ）の重みｗ（ｅ（ａ_ｉ，ｂ_ｊ））を式６のように設定する。２部グラフＧ（Ａ，Ｂ，Ｅ）の最大マッチングの重みは、最大マッチングにあるマッチングした辺ｅ（ａ_ｉ，ｂ_ｊ）の重みｗ（ｅ（ａ_ｉ，ｂ_ｊ））の和の最大値に相当する。
【００８５】
【数６】

【００８６】
次に、上記した関連出願２に記載された（Ｍ７）及び（Ｍ８）に関する距離の計算公式を示す。
上述のように、解析結果候補Ｃａと解析結果候補Ｃｂとの間の距離Ｄ（Ｃａ，Ｃｂ）は、上記した式１或いは上記した式２で求めることができる。
ＲＯ木間或いはＲ木間の距離の計算については、まず、ＲＯ木或いはＲ木の根から深さ優先順探索で頂点と辺に番号を付ける。大きい番号を根とするＲＯ木或いはＲ木から小さい番号を根とする部分の順で部分木間の距離を求めて、最後に全体的なＲＯ木間或いはＲ木間の距離を求めることができる。
【００８７】
【数７】

【００８８】
【数８】

【００８９】
【数９】

【００９０】
【数１０】

【００９１】
【数１１】

【００９２】
【数１２】

【００９３】
【数１３】

【００９４】
ここで、頂点間と辺間の写像重みについては、上記した関連出願２の記載内容に従い、次のようになる。
すなわち、関数δ（ｘ，ｙ）は頂点の置換重みを表し、これは単語の置換重みで求めることができる。また、ｑ（ｘ）は頂点ｘの挿入重みを表し、これは単語の挿入重みで求めることができる。また、ｒ（ｘ）は頂点ｘの脱落重みを表し、これは単語の脱落重みで求めることができる。
【００９５】
【数１４】

【００９６】
【数１５】

【００９７】
【数１６】

【００９８】
【数１７】

【００９９】
ここで、Ｗ（Ｍ_ｍａｘ）は、図１０に示すような２部グラフＧ（Ａ，Ｂ，Ｅ）の最大マッチングの重みである。
また、２部グラフＧ（Ａ，Ｂ，Ｅ）の頂点ａ_ｉ（∈Ａ）と頂点ｂ_ｊ（∈Ｂ）の間の辺ｅ（ａ_ｉ，ｂ_ｊ）の重みｗ（ｅ（ａ_ｉ，ｅ_ｊ））を式１３のように設定する。２部グラフＧ（Ａ，Ｂ，Ｅ）の最大マッチングの重みは、辺ｅ（ａ_ｉ，ｂ_ｊ）の重みｗ（ｅ（ａ_ｉ，ｂ_ｊ））の和の最大値に相当する。
【０１００】
【数１８】

【０１０１】
【数１９】

【０１０２】
次に、クラスタリング部６について説明する。
解析結果候補（構文解析結果候補或いは意味解析結果候補）のクラスタリング方法としては、例えば、一般に公表されているパターンの分類方法の中から、処理するパターンに対応する任意の分類方法を選択することができ、一例として、非特許文献４に記載された最長距離法を使用することができる（非特許文献４参照。）。
【０１０３】
最長距離法を用いたクラスタリング法では、クラスタ間の距離をそれぞれのクラスタ内に存在する任意の２つの要素間の距離の中で最長な距離によって定義し、そして、この距離が最小となる２つのクラスタを統合することが行われる。この場合、２つのクラスタＰｈ、Ｐｋの間の距離Ｄ（Ｐｈ，Ｐｋ）は式１４により定義される。ここで、ＣｉとＣｊは解析結果の候補を表し、Ｄ（Ｃｉ，Ｃｊ）は候補Ｃｉと候補Ｃｊとの間の距離を表す。
【０１０４】
【数２０】

【０１０５】
代表決定部７は、メモリ１３に記憶された情報に基づいて、各クラスタの代表を求め、求められたクラスタと同数の代表（解析結果候補）を記憶部８に記憶させる。
ここで、クラスタ内の候補は比較的に固まっていて相互に似ている性質を持っているため、クラスタ内の全ての候補から構成された多次元空間の中心に最も近い候補がクラスタを代表するとみなすことは最も一般的な考え方である。一方、解析結果候補がなるべくバラエティに富んだものとなるのが良いという考え方、つまり、他の解析結果候補とのコントラストが大きい方が良いという考え方もある。
【０１０６】
このため、本例では、代表決定部７は、次の２種類の方法（方法１）、（方法２）を用いて各クラスタの代表を求める機能を有している。（方法１）と（方法２）としては、いずれが用いられてもよく、例えば、場合によっていずれか有用な方が用いられればよく、応用上の問題に応じて使い分けられるのが好ましい。
【０１０７】
（方法１）では、各クラスタ毎に、クラスタに属している全ての解析結果候補について、各候補間の距離を計算して、当該クラスタ内に存在する他の全ての候補との距離の和が最小になる候補を当該クラスタの代表とする。
（方法２）では、各クラスタ毎に、クラスタに属している全ての解析候補について、当該クラスタに属していない解析結果候補との間の距離を計算して、当該クラスタに属していない全ての候補との距離の和が最大になる候補を当該クラスタの代表とする。
【０１０８】
代表決定部７により求められた各クラスタの代表が対応している解析結果候補が、構文解析或いは意味解析の近似的な解析結果として、記憶部８に記憶され、必要に応じて出力などされる。このようにして求められる代表は、例えば、応用システムに渡されて種々な応用上の処理に利用される。
【０１０９】
ここで、本発明の構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。
また、本発明の適用分野としては、必ずしも以上に示したものに限られず、本発明は、種々な分野に適用することが可能なものである。
【０１１０】
また、本発明において行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがＲＯＭ（Read Only Memory）に格納された制御プログラムを実行することにより制御される構成が用いられてもよく、また、例えば当該処理を実行するための各機能手段が独立したハードウエア回路として構成されてもよい。
また、本発明は上記の制御プログラムを格納したフロッピー（登録商標）ディスクやＣＤ（Compact Disc）−ＲＯＭ等のコンピュータにより読み取り可能な記録媒体や当該プログラム（自体）として把握することもでき、当該制御プログラムを記録媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【０１１１】
【発明の効果】
以上説明したように、本発明に係る構文解析結果或いは意味解析結果の代表決定装置や代表決定方法によると、構文解析の解析結果候補或いは意味解析の解析結果候補をグラフ理論上のＲＯ木或いはＲ木で表現し、ＲＯ木間或いはＲ木間の距離尺度に基づいた候補間の相違を測る距離尺度を用いて解析された候補群を幾つかのクラスタにクラスタリングし、クラスタリングされた各クラスタの代表を求め、求められた代表を用いて構文解析或いは意味解析の近似的な解析結果とすることが行われるため、このようにして求められる構文解析或いは意味解析の近似的な解析結果を利用することにより、例えば、実時間で実施することができて且つ性能が大きく悪化することのない応用システムを実現することが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施例に係る構文・意味解析の近似解析結果を求める装置の構成例を示す図である。
【図２】本発明に係る構文・意味解析の近似解析結果を求める装置及び方法を情報端末装置に適用した場合の構成例を示す図である。
【図３】形態素解析部による解析結果の一例を示す図である。
【図４】木構造の表現の一例を示す図である。
【図５】木構造の表現の一例を示す図である。
【図６】木構造の表現の一例を示す図である。
【図７】木構造の表現の一例を示す図である。
【図８】２つのＲＯ木或いはＲ木の一例を示す図である。
【図９】２つの森の一例を示す図である。
【図１０】２部グラフの一例を示す図である。
【図１１】２つのＲＯ木或いはＲ木の一例を示す図である。
【図１２】２つの森の一例を示す図である。
【符号の説明】
１、２１・・外部記憶装置、２・・形態素解析部、３・・構文意味解析部、
４・・木構造変換部、５・・距離計算部、６・・クラスタリング部、
７・・代表決定部、８・・記憶部、９〜１３・・メモリ、
２０・・情報端末装置、２２・・キーボード、２３・・ディスプレイ、
２４・・プロセッサ部、２５・・モジュール、

Claims

テキスト文について得られた複数であるＮ個の構文解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する構文解析結果の代表決定装置であって、
Ｎ個の構文解析結果候補のそれぞれをグラフ理論上の根がある木で表現する木表現手段と、
異なる構文解析結果候補を表現する木の間の距離を当該異なる構文解析結果候補の間の距離として求める距離取得手段と、
Ｎ個の構文解析結果候補をＮ個のクラスタとみなし、距離取得手段により求められる距離に基づいて複数のクラスタを１つにまとめることで、Ｎ個の構文解析結果候補をｐ個のクラスタに分類するクラスタリング手段と、
クラスタリング手段により分類された各クラスタに含まれる構文解析結果候補について距離取得手段により求められる距離に基づいて、当該各クラスタに含まれる構文解析結果候補の中から代表を決定する代表決定手段と、
を備えたことを特徴とする構文解析結果の代表決定装置。
請求項１に記載の構文解析結果の代表決定装置において、
木表現手段は、構文解析結果候補をグラフ理論上の根があり順序がある木で表現する、
ことを特徴とする構文解析結果の代表決定装置。
請求項１に記載の構文解析結果の代表決定装置において、
木表現手段は、構文解析結果候補をグラフ理論上の根があり順序がない木で表現する、
ことを特徴とする構文解析結果の代表決定装置。
請求項１乃至請求項３のいずれか１項に記載の構文解析結果の代表決定装置において、
木表現手段は、構文解析結果候補を各頂点に情報が付与されない木で表現する、
ことを特徴とする構文解析結果の代表決定装置。
請求項１乃至請求項３のいずれか１項に記載の構文解析結果の代表決定装置において、
木表現手段は、構文解析結果候補を各頂点に単語情報が付与される木で表現する、
ことを特徴とする構文解析結果の代表決定装置。
請求項１乃至請求項５のいずれか１項に記載の構文解析結果の代表決定装置において、
代表決定手段は、各クラスタに含まれる構文解析結果候補の中から、同一のクラスタに含まれる他の構文解析結果候補との距離の和が最小となる構文解析結果候補を代表として決定する、
ことを特徴とする構文解析結果の代表決定装置。
請求項１乃至請求項５のいずれか１項に記載の構文解析結果の代表決定装置において、
代表決定手段は、各クラスタに含まれる構文解析結果候補の中から、他のクラスタに含まれる構文解析結果候補との距離の和が最大となる構文解析結果候補を代表として決定する、
ことを特徴とする構文解析結果の代表決定装置。
テキスト文について得られた複数であるＮ個の意味解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する意味解析結果の代表決定装置であって、
Ｎ個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現する木表現手段と、
異なる意味解析結果候補を表現する木の間の距離を当該異なる意味解析結果候補の間の距離として求める距離取得手段と、
Ｎ個の意味解析結果候補をＮ個のクラスタとみなし、距離取得手段により求められる距離に基づいて複数のクラスタを１つにまとめることで、Ｎ個の意味解析結果候補をｐ個のクラスタに分類するクラスタリング手段と、
クラスタリング手段により分類された各クラスタに含まれる意味解析結果候補について距離取得手段により求められる距離に基づいて、当該各クラスタに含まれる意味解析結果候補の中から代表を決定する代表決定手段と、
を備えたことを特徴とする意味解析結果の代表決定装置。
請求項８に記載の意味解析結果の代表決定装置において、
木表現手段は、意味解析結果候補をグラフ理論上の根があり順序がある木で表現する、
ことを特徴とする意味解析結果の代表決定装置。
請求項８に記載の意味解析結果の代表決定装置において、
木表現手段は、意味解析結果候補をグラフ理論上の根があり順序がない木で表現する、
ことを特徴とする意味解析結果の代表決定装置。
請求項８乃至請求項１０のいずれか１項に記載の意味解析結果の代表決定装置において、
木表現手段は、意味解析結果候補を各頂点に情報が付与されない木で表現する、
ことを特徴とする意味解析結果の代表決定装置。
請求項８乃至請求項１０のいずれか１項に記載の意味解析結果の代表決定装置において、
木表現手段は、意味解析結果候補を各頂点に単語情報が付与される木で表現する、
ことを特徴とする意味解析結果の代表決定装置。
請求項８乃至請求項１０のいずれか１項に記載の意味解析結果の代表決定装置において、
木表現手段は、意味解析結果候補を各頂点に単語情報及び格情報が付与される木で表現する、
ことを特徴とする意味解析結果の代表決定装置。
請求項８乃至請求項１０のいずれか１項に記載の意味解析結果の代表決定装置において、
木表現手段は、意味解析結果候補を各頂点に単語情報が付与されるとともに各辺に格情報が付与される木で表現する、
ことを特徴とする意味解析結果の代表決定装置。
請求項８乃至請求項１４のいずれか１項に記載の意味解析結果の代表決定装置において、
代表決定手段は、各クラスタに含まれる意味解析結果候補の中から、同一のクラスタに含まれる他の意味解析結果候補との距離の和が最小となる意味解析結果候補を代表として決定する、
ことを特徴とする意味解析結果の代表決定装置。
請求項８乃至請求項１４のいずれか１項に記載の意味解析結果の代表決定装置において、
代表決定手段は、各クラスタに含まれる意味解析結果候補の中から、他のクラスタに含まれる意味解析結果候補との距離の和が最大となる意味解析結果候補を代表として決定する、
ことを特徴とする意味解析結果の代表決定装置。
テキスト文について得られた複数であるＮ個の構文解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する構文解析結果の代表決定装置における構文解析結果の代表決定方法であって、
前記代表決定装置に備えられた木表現手段が、Ｎ個の構文解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、
前記代表決定装置に備えられた距離取得手段が、異なる構文解析結果候補を表現する木の間の距離を当該異なる構文解析結果候補の間の距離として求め、
前記代表決定装置に備えられたクラスタリング手段が、Ｎ個の構文解析結果候補をＮ個のクラスタとみなし、距離取得手段により求められる距離に基づいて複数のクラスタを１つにまとめることで、Ｎ個の構文解析結果候補をｐ個のクラスタに分類し、
前記代表決定装置に備えられた代表決定手段が、クラスタリング手段により分類された各クラスタに含まれる構文解析結果候補について距離取得手段により求められる距離に基づいて、当該各クラスタに含まれる構文解析結果候補の中から代表を決定する、
ことを特徴とする構文解析結果の代表決定方法。
テキスト文について得られた複数であるＮ個の意味解析結果候補から当該Ｎ個より少ないｐ個の代表を決定する意味解析結果の代表決定装置における意味解析結果の代表決定方法であって、
前記代表決定装置に備えられた木表現手段が、Ｎ個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、
前記代表決定装置に備えられた距離取得手段が、異なる意味解析結果候補を表現する木の間の距離を当該異なる意味解析結果候補の間の距離として求め、
前記代表決定装置に備えられたクラスタリング手段が、Ｎ個の意味解析結果候補をＮ個のクラスタとみなし、距離取得手段により求められる距離に基づいて複数のクラスタを１つにまとめることで、Ｎ個の意味解析結果候補をｐ個のクラスタに分類し、
前記代表決定装置に備えられた代表決定手段が、クラスタリング手段により分類された各クラスタに含まれる意味解析結果候補について距離取得手段により求められる距離に基づいて、当該各クラスタに含まれる意味解析結果候補の中から代表を決定する、
ことを特徴とする意味解析結果の代表決定方法。