JP4026480B2 - 構文解析結果の代表決定装置及び意味解析結果の代表決定装置 - Google Patents

構文解析結果の代表決定装置及び意味解析結果の代表決定装置 Download PDF

Info

Publication number
JP4026480B2
JP4026480B2 JP2002334934A JP2002334934A JP4026480B2 JP 4026480 B2 JP4026480 B2 JP 4026480B2 JP 2002334934 A JP2002334934 A JP 2002334934A JP 2002334934 A JP2002334934 A JP 2002334934A JP 4026480 B2 JP4026480 B2 JP 4026480B2
Authority
JP
Japan
Prior art keywords
analysis result
representative
semantic analysis
tree
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002334934A
Other languages
English (en)
Other versions
JP2004171185A (ja
Inventor
紹明 劉
博 増市
智子 大熊
一成 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2002334934A priority Critical patent/JP4026480B2/ja
Publication of JP2004171185A publication Critical patent/JP2004171185A/ja
Application granted granted Critical
Publication of JP4026480B2 publication Critical patent/JP4026480B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テキスト文について得られる複数の構文解析結果候補或いは複数の意味解析結果候補から代表を決定する装置や方法に関し、例えば、コンピュータを利用して構文解析や意味解析の近似的な解析結果を求める技術に関する。
【0002】
【従来の技術】
IT技術、特に高速インターネット・モバイル技術の飛躍的な発展により、大量の情報が誰でも、どこでも、いつでも利用可能になったが、逆に、情報洪水と言われる現象が起き、ユーザが真に必要な情報を取り出すことが困難になってきている。利用者がどのような状況にあっても常に適切な情報を得ることができる世界を実現するために、情報洪水の中からユーザにとって真に価値ある情報を抽出・再構成することが必要である。
【0003】
ここで、ドキュメントの意味内容の比較や、意味内容によるテキスト文書の分類や、ユーザの情報探索意図の理解に関する技術は重要である。また、ドキュメントの意味内容の比較や意味内容によるテキスト文書の分類やユーザの情報探索意図の理解を実現するためには、自然言語処理などを利用したテキスト文書の構文解析や、意味解析や、意味の類似性判定などが欠かせないものである。
【0004】
構文解析では、自然言語文を受け取り、文法規則に基づいて単語(文節)間の係り受け関係を決定する処理が行われる。構文解析結果は、依存構造と呼ばれる木構造(依存木)の形態で表現することができる。日本語の文である「先生は生徒に英語を教える」の構文解析結果として得られる依存木の例が図4及び図5に示されており、図4の例では木構造の頂点に情報が付与されておらず、図5の例では木構造の頂点に情報が付与されている。なお、依存木を生成する構文解析手法については、例えば非特許文献1に記載された方法などを用いることができる(非特許文献1参照。)。
【0005】
意味解析では、文中の格関係を決定する処理が行われる。格関係とは、文を構成する各要素が持つ主語(SUBJ)や目的語(OBJ)などといった文法上の役割のことである。また、意味解析の処理には、文の時制や様相や話法等を判定する処理が含まれる場合もある。日本語の文である「先生は生徒に英語を教える」の意味解析結果を木構造として表現した例が図4〜図7に示されている。図4の例では木構造の頂点に情報が付与されておらず、他の図5〜図7の例では木構造の頂点に情報が付与されている。図5の例では単語情報のみが木構造の頂点に付与されており、図6の例では格情報が木構造の頂点に単語情報と一緒に付与されている。図5及び図6の例では木構造の頂点の間の辺に格関係が付与されておらず、図7の例では木構造の頂点に単語情報が付与されており木構造の頂点の間の辺に格関係が付与されている。なお、意味解析方法としては、例えば非特許文献2に記載された方法などを用いることができる(非特許文献2参照。)。
【0006】
しかしながら、自然言語の性質である多義性があるため、上記のような構文解析や意味解析の解析結果は変化可能な部分に関する組み合わせによって解析されたものとなり、数千通りや数万通りなどの多数の解析結果が得られてしまう場合が多くある。このような解析結果の曖昧性をいかに解消するかは、従来技術における大きな課題であった。
【0007】
なお、構文解析結果や意味解析結果の曖昧性を解消するために、幾つかの方法が提案されている。
例えば、非特許文献3に述べられているように、構文解析及び意味解析の曖昧性を解消するための技術として、格フレーム辞書を利用する手法が提案されている(非特許文献3参照。)。また、特許文献1においても、ほぼ同様な提案がなされている(特許文献1参照。)。この提案では、構文解析や意味解析により得られる複数の解釈のもっともらしさを、単語ペアの共起の確率と構文構造の構文確率により求めることが行われている。
【0008】
具体的には、例えば、まず、図5に示されるような格フレーム辞書を作成しておく。ここで、格フレーム辞書は、「述語とその述語と係り受け関係を持つ構成要素、及び、述語−構成要素間の格関係」(格フレーム)を多数用意して、それぞれの格フレームに対して尤度(評価値)を付与したものである。次に、構文解析或いは意味解析によって得られた解析結果候補と格フレーム辞書中の格フレームとを比較し、解析結果候補中に含まれる格フレームに付与されている尤度を解析結果候補毎に加算する。そして、尤度の合計値が最も高い解析結果候補を最終解として選択する。
【0009】
以下に、従来の技術の例を示す。
【0010】
【特許文献1】
特開平6−195375号公報
【非特許文献1】
内元清貴、村田真樹、関根聡、井佐原均、論文“後方文脈を考慮した係り受けモデル”、「自然言語処理」、2000年、Vol.7、No.5、p.3−17
【非特許文献2】
原田、水野、論文“EDRを用いた日本語意味解析システムSAGE”、「人口知能学会論文誌」、2001年、16(1)、p.85−93
【非特許文献3】
長尾真著、「自然言語処理」、岩波書店、1996年
【非特許文献4】
田村秀行監修、「コンピュータ画像処理入門(日本工業技術センター編)」、総研出版、p.158−159
【0011】
【発明が解決しようとする課題】
しかしながら、構文解析結果や意味解析結果の曖昧性解消法に関する現段階の従来技術では、自然言語の豊富な表現力に対処仕切れず、すべての多義性の問題を解析することは困難であるため、高精度の解析結果を得ることができず、例えば、応用上で大きく不正解な解析結果が利用されてしまうと応用システムの性能に大きな影響を与えてしまうといった問題がある。そこで、このような問題を緩和する方法として、例えば、応用システムの性能を少し犠牲にして正解を含む全ての解析結果を応用システムに提供するような方法があるが、この方法では、応用システムにおいて全ての解析結果の候補について計算することが必要となるため、応用システムの計算コストが増大してしまい、場合によっては発散してしまうといった問題があった。
【0012】
本発明は、このような従来の事情に鑑みなされたもので、例えば、入力されるテキスト文についての構文解析の解析結果候補や或いは意味解析の解析結果候補が多数存在するような場合においても、複数の構文解析結果候補或いは複数の意味解析結果候補から代表を決定することにより、実用時間で実施可能で且つシステムの性能が大きく悪化しないような応用システムを実現することを可能とすることができる装置や方法を提供することを目的とする。
【0013】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る構文解析結果の代表決定装置では、次のようにして、テキスト文について得られた複数であるN個の構文解析結果候補から当該N個より少ないp個の代表を決定する。
すなわち、木表現手段がN個の構文解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、クラスタリング手段が異なる構文解析結果候補を表現する木の間の距離を頂点の間の対応関係に基づいて求めてN個の構文解析結果候補をp個のクラスタに分類し、代表決定手段が各クラスタに含まれる構文解析結果候補から代表を決定する。
【0014】
従って、N個の構文解析結果候補の中の1個が正解である場合、従来では1/Nの確率で正解が含まれるがNが大きい場合には実用上で利用することが困難であったのに対して、本発明で決定されるp個の構文解析結果候補の代表では1/p(>1/N)の確率で正解或いは正解に近似する解が含まれるため、例えば、決定された代表を応用システムにおいて実用上で有効に利用することが可能となる。
【0015】
具体的には、本発明では、従来における構文解析結果候補の数Nを代表の数pへ低減することができるため、応用システムにおける処理速度を高めることができ、処理負担を低減することができる。
また、本発明では、必ずしも決定されるp個の代表に正解が含まれるとは限らないが、例えば厳密な正解が含まれなくとも、正解に近い構文解析結果候補が代表として選択されることにより、従来と比べて精度が劣化するものではない。つまり、本発明では、1/pの確率で構文解析結果の正解或いは正解に近似するものを得ることができ、全体としては、従来と比べて、利用価値を高めることができる。
【0016】
また、本発明では、各クラスタから構文解析結果候補の代表を選択することにより、例えば、極端な誤差を有した構文解析結果候補を除く(つまり、代表として決定しない)ことが可能であるため、これにより精度を向上させることができる。
そして、応用システムでは、本発明により決定されるp個の代表を用いて、例えば、センテンス間の距離を計算することや、情報検索を実現することや、翻訳を行うことなど、種々な応用上の処理を実行することが可能となる。
【0017】
また、本発明に係る構文解析結果の代表決定装置では、木表現手段は、一構成例として、構文解析結果候補をグラフ理論上の根があり順序がある木で表現し、或いは、他の構成例として、構文解析結果候補をグラフ理論上の根があり順序がない木で表現する。
また、本発明に係る構文解析結果の代表決定装置では、木表現手段は、一構成例として、構文解析結果候補を各頂点に情報が付与されない木で表現し、或いは、他の構成例として、構文解析結果候補を各頂点に単語情報が付与される木で表現する。
【0018】
また、本発明に係る構文解析結果の代表決定装置では、代表決定手段は、一構成例として、各クラスタに含まれる構文解析結果候補の中から、同一のクラスタに含まれる他の構文解析結果候補との距離の和が最小となる構文解析結果候補を代表として決定し、或いは、他の構成例として、各クラスタに含まれる構文解析結果候補の中から、他のクラスタに含まれる構文解析結果候補との距離の和が最大となる構文解析結果候補を代表として決定する。
【0019】
また、本発明に係る意味解析結果の代表決定装置(以下で、説明の便宜上から、意味解析結果の代表決定装置Aと言う)では、次のようにして、テキスト文について得られた複数であるN個の意味解析結果候補から当該N個より少ないp個の代表を決定する。
すなわち、木表現手段がN個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、クラスタリング手段が異なる意味解析結果候補を表現する木の間の距離を頂点の間の対応関係に基づいて求めてN個の意味解析結果候補をp個のクラスタに分類し、代表決定手段が各クラスタに含まれる意味解析結果候補から代表を決定する。
【0020】
従って、N個の意味解析結果候補の中の1個が正解である場合、従来では1/Nの確率で正解が含まれるがNが大きい場合には実用上で利用することが困難であったのに対して、本発明で決定されるp個の意味解析結果候補の代表では1/p(>1/N)の確率で正解或いは正解に近似する解が含まれるため、例えば、決定された代表を応用システムにおいて実用上で有効に利用することが可能となる。
【0021】
また、本発明に係る意味解析結果の代表決定装置Aでは、木表現手段は、一構成例として、意味解析結果候補をグラフ理論上の根があり順序がある木で表現し、或いは、他の構成例として、意味解析結果候補をグラフ理論上の根があり順序がない木で表現する。
また、本発明に係る意味解析結果の代表決定装置Aでは、木表現手段は、一構成例として、意味解析結果候補を各頂点に情報が付与されない木で表現し、或いは、他の構成例として、意味解析結果候補を各頂点に単語情報が付与される木で表現し、或いは、他の構成例として、意味解析結果候補を各頂点に単語情報及び格情報が付与される木で表現する。
【0022】
また、本発明に係る意味解析結果の代表決定装置Aでは、代表決定手段は、一構成例として、各クラスタに含まれる意味解析結果候補の中から、同一のクラスタに含まれる他の意味解析結果候補との距離の和が最小となる意味解析結果候補を代表として決定し、或いは、他の構成例として、各クラスタに含まれる意味解析結果候補の中から、他のクラスタに含まれる意味解析結果候補との距離の和が最大となる意味解析結果候補を代表として決定する。
【0023】
また、本発明に係る意味解析結果の代表決定装置(以下で、説明の便宜上から、意味解析結果の代表決定装置Bと言う)では、次のようにして、テキスト文について得られた複数であるN個の意味解析結果候補から当該N個より少ないp個の代表を決定する。
すなわち、木表現手段がN個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、クラスタリング手段が異なる意味解析結果候補を表現する木の間の距離を頂点の間の対応関係及び辺の間の対応関係に基づいて求めてN個の意味解析結果候補をp個のクラスタに分類し、代表決定手段が各クラスタに含まれる意味解析結果候補から代表を決定する。
【0024】
従って、N個の意味解析結果候補の中の1個が正解である場合、従来では1/Nの確率で正解が含まれるがNが大きい場合には実用上で利用することが困難であったのに対して、本発明で決定されるp個の意味解析結果候補の代表では1/p(>1/N)の確率で正解或いは正解に近似する解が含まれるため、例えば、決定された代表を応用システムにおいて実用上で有効に利用することが可能となる。
【0025】
また、本発明に係る意味解析結果の代表決定装置Bでは、木表現手段は、一構成例として、意味解析結果候補をグラフ理論上の根があり順序がある木で表現し、或いは、他の構成例として、意味解析結果候補をグラフ理論上の根があり順序がない木で表現する。
また、本発明に係る意味解析結果の代表決定装置Bでは、木表現手段は、一構成例として、意味解析結果候補を各頂点に単語情報が付与されるとともに各辺に格情報が付与される木で表現する。
【0026】
また、本発明に係る意味解析結果の代表決定装置Bでは、代表決定手段は、一構成例として、各クラスタに含まれる意味解析結果候補の中から、同一のクラスタに含まれる他の意味解析結果候補との距離の和が最小となる意味解析結果候補を代表として決定し、或いは、他の構成例として、各クラスタに含まれる意味解析結果候補の中から、他のクラスタに含まれる意味解析結果候補との距離の和が最大となる意味解析結果候補を代表として決定する。
【0027】
また、本発明は、次のように、方法として提供することもできる。
本発明に係る構文解析結果の代表決定方法では、次のようにして、テキスト文について得られた複数であるN個の構文解析結果候補から当該N個より少ないp個の代表を決定する。
すなわち、N個の構文解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、異なる構文解析結果候補を表現する木の間の距離を頂点の間の対応関係に基づいて求めて、N個の構文解析結果候補をp個のクラスタに分類し、各クラスタに含まれる構文解析結果候補から代表を決定する。
【0028】
また、本発明に係る意味解析結果の代表決定方法では、次のようにして、テキスト文について得られた複数であるN個の意味解析結果候補から当該N個より少ないp個の代表を決定する。
すなわち、N個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、異なる意味解析結果候補を表現する木の間の距離を頂点の間の対応関係に基づいて求めて、N個の意味解析結果候補をp個のクラスタに分類し、各クラスタに含まれる意味解析結果候補から代表を決定する。
【0029】
また、本発明に係る意味解析結果の代表決定方法では、次のようにして、テキスト文について得られた複数であるN個の意味解析結果候補から当該N個より少ないp個の代表を決定する。
すなわち、N個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、異なる意味解析結果候補を表現する木の間の距離を頂点の間の対応関係及び辺の間の対応関係に基づいて求めて、N個の意味解析結果候補をp個のクラスタに分類し、各クラスタに含まれる意味解析結果候補から代表を決定する。
【0030】
ここで、構文解析結果候補或いは意味解析結果候補の数であるNとしては、種々な数が用いられてもよく、一般には非常に大きな数となる。
また、クラスタの数であって、代表の数となるpとしては、例えば1又は複数の種々な数が用いられてもよい。一構成例として、pをパラメータとしてユーザなどにより任意に指定することが可能な構成とすることができる。また、他の構成例として、解析結果候補(構文解析結果候補或いは意味解析結果候補)の数Nに関して1又は複数の閾値を設けておいてNと閾値との大小関係に基づいてpの値を決定するような構成とすることができ、具体的には、例えば、N=100ならp=5とし、N=1000ならp=50とし、N=10000ならp=500とするなどの構成とすることができる。
【0031】
また、テキスト文についてのN個の構文解析結果候補としては、例えば、構文解析手段により1つのテキスト文を構文解析して得られる多数の構文解析結果が用いられる。一般には構文解析手段においてもグラマー手法などにより候補となる構文解析結果がいったん絞られ、この場合、本発明では、当該絞られたN個の候補を更に絞ってp個の代表とする。
【0032】
同様に、テキスト文についてのN個の意味解析結果候補としては、例えば、意味解析手段により1つのテキスト文を意味解析して得られる多数の意味解析結果が用いられる。一般には意味解析手段においてもグラマー手法などにより候補となる意味解析結果がいったん絞られ、この場合、本発明では、当該絞られたN個の候補を更に絞ってp個の代表とする。
【0033】
また、クラスタリング手段は、例えば、異なる2つの解析結果候補(構文解析結果候補或いは意味解析結果候補)の全ての組について木の間の距離を求めて、当該距離に基づいて解析結果候補をクラスタに分類する。
また、異なる2つの解析結果候補について木の間の距離を求める計算方法としては、種々な方法が用いられてもよい。
【0034】
また、N個の解析結果候補をp個のクラスタに分類する仕方としては、一例として、N個の解析結果候補をN個のクラスタとみなして、まず、当該N個のクラスタ(この段階では、N個の解析結果候補)の中で距離が最も近い2つのクラスタを1つのクラスタにまとめ、次に、(N−1)個のクラスタの中で距離が最も近い2つのクラスタを1つのクラスタにまとめ、更にこれと同様な処理を繰り返して行うような仕方を用いることができる。
【0035】
この場合、2つのクラスタの間の距離を求める仕方としては、例えば、2つのクラスタ間の距離を一方のクラスタに含まれる要素(解析結果候補)と他方のクラスタに含まれる要素(解析結果候補)との距離の中の最大値とする最大距離法や、同様な距離の中の最小値とする最小距離法を用いることができ、また、例えば、K−平均法や、WARD法などを用いることも可能である。
【0036】
また、本明細書では、グラフ理論上の根があり順序がある木をRO(Rooted and Ordered)木と言い、グラフ理論上の根があり順序がない木をR(Rooted)木と言う。
また、RO木とR木とを比較すると、一般に、RO木の方がR木と比べて計算が簡易である一方、R木の方がRO木と比べて精度がよい。
【0037】
また、単語情報としては、種々な情報が用いられてもよく、例えば、単語属性の情報が含まれてもよい。単語属性の情報としては、例えば、形態素解析により得られる品詞の情報などを用いることができ、また、動詞の場合には変形の情報などを用いることができる。
また、単語間の係り受けの種類が格に相当する。
また、一般に、テキスト文を構文解析すると単語の情報が求められ、テキスト文を意味解析すると単語の情報及び格の情報が求められる。
【0038】
以下で、更に具体的に、本発明の構成例を示す。
(1)例えばテキストデータ入力や音声認識などにより自然言語を受け取って当該自然言語に対応するテキスト文に対して構文解析処理を施すことにより得られる、入力されたテキスト文の全体の構造情報や単語間の係り受け関係を表現する構文解析の多数の解析結果候補から、数少ない近似な解析結果を求める装置であって、入力されたテキスト文の全体の構造を解析して複数の解析結果候補を得る構文解析手段と、構文解析手段で得られた解析結果候補を頂点と辺に情報が付与されていないグラフ理論上の根があり順序がある木(RO木)或いは根があり順序がない木(R木)に変換する手段又は構文解析手段で得られた解析結果候補を頂点に単語(単語属性を含む)の情報を付与したRO木或いはR木に変換する手段と、頂点の対応関係に基づくRO木間或いはR木間の距離尺度を用いた構文解析結果候補間の相違を比較する距離尺度を用いて構文解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングするクラスタリング手段と、クラスタリング手段で求められた各クラスタの代表を求める手段とを備え、各クラスタの代表を用いて構文解析手段で得られた解析結果の近似的な解析結果(近似解析結果)とする。なお、近似的な解析結果の中には、正解が含まれる場合もある。
【0039】
この構成では、構文解析の解析結果候補に対して、解析結果をグラフ理論上のRO木或いはR木で表現し、RO木或いはR木の頂点と辺に任意の情報を付与せず又は入力文に出現した単語情報をRO木或いはR木の頂点に付与し、頂点の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた構文解析結果候補間の相違を測る距離尺度を用いて構文解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングし、クラスタリングされた各クラスタの代表を求め、求められた各クラスタの代表を構文解析手段で得られた解析結果の近似解析結果として用いる。
【0040】
また、クラスタの代表を求める手段は、一例として、各クラスタに属している全ての候補について、頂点の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた構文解析結果候補間の距離尺度を用いて各候補間の距離を計算し、当該各クラスタに属している他の全ての候補との距離の和が最小となる候補が当該各クラスタの代表となるようにし、又は、他の例として、各クラスタに属している全ての候補について、頂点の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた構文解析結果候補間の距離尺度を用いて、当該各クラスタに属していない解析結果候補との間の距離を計算し、当該各クラスタに属していない全ての候補との距離の和が最大となる候補が当該各クラスタの代表となるようにする。
【0041】
(2)例えばテキストデータ入力や音声認識などにより自然言語を受け取って当該自然言語に対応するテキスト文に対して意味解析処理を施すことにより得られる、入力されたテキスト文の全体の構造情報や単語間の格関係情報を表現する意味解析の多数の解析結果候補から、数少ない近似な解析結果を求める装置であって、入力されたテキスト文の構造情報と単語間の格情報を解析して複数の解析結果候補を得る意味解析手段と、意味解析手段で得られた解析結果候補を頂点と辺に情報が付与されていないRO木或いはR木に変換する手段又は意味解析手段で得られた解析結果候補を頂点に単語(単語属性を含む)の情報を付与したRO木或いはR木に変換する手段又は意味解析手段で得られた解析結果候補を頂点に単語(単語属性を含む)の情報及び格の情報を付与したRO木或いはR木に変換する手段と、頂点の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた意味解析結果候補間の相違を比較する距離尺度を用いて意味解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングするクラスタリング手段と、クラスタリング手段で求められた各クラスタの代表を求める手段とを備え、各クラスタの代表を用いて意味解析手段で得られた解析結果の近似的な解析結果(近似解析結果)とする。なお、近似的な解析結果の中には、正解が含まれる場合もある。
【0042】
この構成では、意味解析の解析結果候補に対して、意味解析の解析結果をRO木或いはR木で表現し、RO木或いはR木の頂点と辺に任意の情報を付与せず又は入力文に出現した単語情報をRO木或いはR木の頂点に付与し又は入力文に出現した単語情報及び単語間の格情報をRO木或いはR木の頂点に付与し、頂点の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた意味解析結果候補間の相違を比較する距離尺度を用いて意味解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングし、クラスタリングされた各クラスタの代表を求め、求められた各クラスタの代表を意味解析手段で得られた解析結果の近似解析結果として用いる。
【0043】
また、クラスタの代表を求める手段は、一例として、各クラスタに属している全ての候補について、頂点の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた意味解析結果候補間の距離尺度を用いて各候補間の距離を計算し、当該各クラスタに属している他の全ての候補との距離の和が最小となる候補が当該各クラスタの代表となるようにし、又は、他の例として、各クラスタに属している全ての候補について、頂点の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた意味解析結果候補間の距離尺度を用いて、当該各クラスタに属していない解析結果候補との間の距離を計算し、当該各クラスタに属していない全ての候補との距離の和が最大となる候補が当該各クラスタの代表となるようにする。
【0044】
(3)例えばテキストデータ入力や音声認識などにより自然言語を受け取って当該自然言語に対応するテキスト文に対して意味解析処理を施すことにより得られる、入力されたテキスト文の全体の構造情報や単語間の格情報を表現する意味解析の多数の解析結果候補から、数少ない近似な解析結果を求める装置であって、入力されたテキスト文の構造情報や単語間の格情報を解析して複数の解析結果候補を得る意味解析手段と、意味解析手段で得られた解析結果を頂点に単語(単語属性を含む)の情報を付与するとともに辺に格の情報を付与したRO木或いはR木に変換する手段と、頂点間及び辺間の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた意味解析結果候補間の相違を比較する距離尺度を用いて意味解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングするクラスタリング手段と、クラスタリング手段で求められた各クラスタの代表を求める手段とを備え、各クラスタの代表を用いてテキスト文の意味解析結果の近似的な解析結果(近似解析結果)とする。なお、近似的な解析結果の中には、正解が含まれる場合もある。
【0045】
この構成では、意味解析の解析結果候補に対して、意味解析の解析結果をRO木或いはR木で表現し、入力文に出現した単語情報及び単語間の格情報をそれぞれRO木或いはR木の頂点と辺に格納し、頂点間及び辺間の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた意味解析結果候補間の相違を比較する距離尺度を用いて、意味解析手段で得られた解析結果候補群を幾つかのクラスタにクラスタリングし、クラスタリングされた各クラスタの代表を求め、求められた各クラスタの代表を意味解析手段で得られた解析結果の近似解析結果として用いる。
【0046】
また、クラスタの代表を求める手段は、一例として、各クラスタに属している全ての候補について、頂点間及び辺間の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた意味解析結果候補間の距離尺度を用いて各候補間の距離を計算し、当該各クラスタに属している他の全ての候補との距離の和が最小となる候補が当該各クラスタの代表となるようにし、又は、他の例として、各クラスタに属している全ての候補について、頂点間及び辺間の対応関係に基づくRO木間或いはR木間の距離尺度に基づいた意味解析結果候補間の距離尺度を用いて、当該各クラスタに属していない解析結果候補との間の距離を計算し、当該各クラスタに属していない全ての候補との距離の和が最大となる候補が当該各クラスタの代表となるようにする。
【0047】
【発明の実施の形態】
本発明に係る一実施例を図面を参照して説明する。
図1には、本発明に係る構文・意味解析の近似解析結果を求める装置(以下で、解析結果代表決定装置と言う)の実施の一形態を示してある。
本例の解析結果代表決定装置には、外部記憶装置1と、テキスト文の形態素を求める形態素解析部2と、テキスト文の構文を解析する或いは意味を解析する構文意味解析部3と、構文意味解析部3で解析した結果をグラフ理論上のRO木或いはR木に変換する木構造変換部4と、RO木間或いはR木間の距離に基づいた解析結果候補間の距離を計算する距離計算部5と、解析結果候補群をクラスタリングするクラスタリング部6と、各クラスタの代表を求める代表決定部7と、例えばメモリから構成される記憶部8と、メモリ9〜13とが備えられている。
【0048】
外部記憶装置1には、テキスト文のデータが格納されている。メモリ9は外部記憶装置1から読み出したテキスト文のデータを記憶し、メモリ10は形態素解析部2によるテキスト文の解析結果を記憶し、メモリ11は構文解析或いは意味解析により得られる解析結果候補群を記憶し、メモリ12は木構造変換部4による変換結果を記憶し、メモリ13はクラスタリング部6で求められた解析結果候補群に関する各クラスタの情報を記憶する。なお、例えば、これらのメモリ9〜13を1つにまとめた構成や、或いは、このようなメモリ9〜13を設けないような構成が用いられてもよい。
【0049】
形態素解析部2は、メモリ9に格納されているテキスト文の形態素及び属性を求め、求められた結果をメモリ10に格納する。
構文意味解析部3は、メモリ10に格納された形態素解析の結果を入力し、テキスト文の構文を解析すること或いは意味を解析することを行い、当該解析の結果で得られる候補群をメモリ11に格納する。
【0050】
木構造変換部4は、メモリ11に格納された構文・意味解析の解析結果候補をRO木或いはR木で表現し、これに際して、RO木或いはR木の頂点に情報を記憶させないこと、又はRO木或いはR木の頂点に入力文に出現した単語(単語の属性を含む)の情報だけを記憶させること、又はRO木或いはR木の頂点に入力文に出現した単語(単語の属性を含む)の情報及び単語間の格の情報を記憶させること、又はRO木或いはR木の頂点と辺にそれぞれ入力文に出現した単語(単語の属性を含む)の情報と単語間の格の情報を記憶させること、を行う。そして、木構造変換部4は、木構造への変換結果をメモリ12に格納する。
【0051】
距離計算部5は、メモリ12に格納された解析結果候補間の距離を求め、距離の計算結果をクラスタリング部6に提供する。
クラスタリング部6は、距離計算部5で計算された候補間の距離を用いて、解析結果候補をクラスタリングし、その結果をメモリ13に格納する。
代表決定部7は、メモリ13に格納された情報に基づいて、各クラスタの代表(解析結果候補)を求め、求められた代表を記憶部8に格納する。
【0052】
次に、本発明に係る構文解析或いは意味解析の解析結果の代表を決定する装置及び方法の適用例として、情報端末装置に適用した場合の装置構成例を示す。
図2には、本発明を情報端末装置に適用した場合の装置構成例を示してある。
同図に示した情報端末装置20には、外部記憶装置21と、キーボート22と、ディスプレイ23と、プロセッサ部24が備えられている。また、プロセッサ部24には、例えば、テキスト文間の距離を求めるモジュール25が備えられている。
【0053】
外部記憶装置21は、入力されたテキスト文のデータや、解析結果候補間の距離を求めるときに必要な単語特徴量辞書やシソーラス辞書や格間の距離辞書などや、求められた候補間の距離の結果や、クラスタリングされたクラスタの情報や、ソフトウエアなどを格納し、また、計算に必要な記憶空間としても使用される。外部記憶装置21は、具体例として、ハードディスクなどで構成することができる。
【0054】
キーボート22は、ユーザが操作を指示するための入力装置である。なお、キーボード22以外の入力装置が付加されてもよい。
ディスプレイ23は、ユーザに対するメッセージや、入力文のデータや、解析結果候補のデータや、距離の計算結果や、クラスタリングの結果などを表示するための出力装置である。なお、ディスプレイ23以外の出力装置が付加されてもよい。
【0055】
プロセッサ部24は、外部記憶装置21に格納されているソフトウエアなどに従って、各種の処理を行う。プロセッサ部24は、具体例としては、マイクロプロセッサや、パーソナルコンピュータなどのコンピュータシステムで構成することができる。例えば、上記図1に示した形態素解析部2や構文意味解析部3や木構造変換部4や距離計算部5やクラスタリング部6や代表決定部7の機能は、プロセッサ部24の上で動作するソフトウエアにより構成することができる。
【0056】
次に、本例に係る解析結果代表決定装置の動作を更に詳細に説明する。
外部記憶装置1には、テキスト文のデータを格納している。外部記憶装置1からテキスト文のデータを読み出し、メモリ9に記憶させる。
形態素解析部2は、メモリ9に記憶しているテキスト文の形態素を求めて、その結果をメモリ10に格納させる。ここで、形態素解析ツールとしては、公表された任意のものを利用することができ、例えば、奈良先端技術大学院大学の松本研究室により公表された“茶筅”形態素解析ツールを用いることができる。図3には、「先生は生徒に英語を教える」というテキスト文についての形態素解析の解析結果の例を示してある。
【0057】
構文意味解析部3は、メモリ10に記憶された形態素解析の結果を入力し、テキスト文の構文や、係り受け関係や、テキスト文の深層構造(格の関係)などを解析し、解析した結果をメモリ11に記憶させる。ここで、依存木を生成する構文解析方法としては、任意に公表された方法を用いることができ、例えば、非特許文献1に記載された方法などを利用することができる(非特許文献1参照。)。図4及び図5には、「先生は生徒に英語を教える」というテキスト文についての構文解析結果として得られる依存木の例を示してあり、図4の例では木構造の頂点に情報が付与されておらず、図5の例では木構造の頂点に情報が付与されている。図4或いは図5に示されるような木構造の間の距離により、構文解析結果候補の間の距離を求めることができる。
【0058】
具体的には、図4には、テキスト文「先生は生徒に英語を教える」についての構文解析の解析結果を木構造の形に書き換えたものを示してある。
また、図5には、テキスト文「先生は生徒に英語を教える」についての構文解析の解析結果を木構造の形に書き換えたものを示してあり、単語情報として、「先生」、「英語」、「生徒」、「に」、「教える」が各頂点に格納されている。
【0059】
また、意味解析方法としては、任意に公表された意味解析方法を利用することができ、例えば、非特許文献2に記載された方法などを利用することができる(非特許文献2参照。)。「先生は生徒に英語を教える」というテキスト文についての意味解析の解析結果を木構造の形に変換すると、図6や図7に示されるような2種類の木構造となる。図6或いは図7に示されるような木構造の間の距離により、意味解析結果候補の間の距離を求めることができる。
【0060】
また、意味解析の解析結果を上記図4や上記図5に示されるような木構造で表現することもできる。この場合、図4或いは図5に示されるような木構造の間の距離により、意味解析結果候補の間の距離を求めることができる。なお、図4の例では木構造の頂点に情報が付与されておらず、他の図5〜7の例では木構造の頂点に情報が付与されている。図5の例では単語情報のみが木構造の頂点に付与されており、図6の例では格情報が木構造の頂点に単語情報と一緒に付与されている。図5及び図6の例では木構造の頂点の間の辺に格関係が付与されておらず、図7の例では木構造の頂点に単語情報が付与されており木構造の頂点の間の辺に格関係が付与されている。
【0061】
具体的には、図6には、テキスト文「先生は生徒に英語を教える」についての意味解析の解析結果を木構造の形に書き換えたものを示してあり、単語情報及び格情報として、「先生」及び「SUBJ」、「英語」及び「OBJ」、「生徒」及び「OBJ」、「に」及び「OBL」、「教える」及び「NULL」が各頂点に格納されている。
【0062】
上記図6において、格情報として、SUBJ(主格)、OBJ(目的格)、OBL(任意格)、NULL(空)を示してある。また、格情報として、ADJUNCT(付加格)などを用いることもできる。
なお、本例では、OBLについては、格助詞と、言い換え可能な格助詞の数だけ変数を用意している。例えば、「彼は京都[に/へ]行った。」の場合、「に」と「へ」が言い換え可能なので、この変数名をOBL_ni−heとする。
【0063】
また、図7には、テキスト文「先生は生徒に英語を教える」についての意味解析の解析結果を木構造の形に書き換えたものを示してあり、単語情報として、「先生」、「英語」、「生徒」、「に」、「教える」が各頂点に格納されており、格情報として、「先生」と「教える」の間の「SUBJ」、「英語」と「教える」の間の「OBJ」、「生徒」と「に」の間の「OBJ」、「に」と「教える」の間の「OBL」が各辺に格納されている。
【0064】
このように、木構造上の頂点や辺に情報を付与するか否かによって、構文解析の解析結果の木構造表現法は上記図4と上記図5に示す2種類に分けることができ、意味解析の解析結果の木構造表現法は上記図4〜上記図7に示す4種類に分けることができる。更に、木構造上の頂点の子供たちの間に左右関係が存在するか否かによってRO木とR木に分けることができ、RO木では子供たちの間に左右関係が存在し、R木では子供たちの間に左右関係が存在しない。
【0065】
上記をまとめると、構文解析の解析結果の木構造表現法は次に示す(M1)〜(M4)の4種類に分けることができ、意味解析の解析結果の木構造表現法は次に示す(M1)〜(M8)の8種類に分けることができる。これら8種類の木構造表現法に基づく解析結果候補間の距離としてはこれら8種類の中のいずれかを用いることとし、いずれが有用かについては例えばそれぞれの応用上の問題に応じて検討されればよい。一例として、計算速度と比較精度の要求に応じて、これら8種類の木構造表現法のいずれかを選択することができる。
【0066】
(M1)RO木であり、頂点と辺に任意の情報を付与しない。
(M2)R木であり、頂点と辺に任意の情報を付与しない。
(M3)RO木であり、頂点に入力文に出現している単語情報を付与する。
(M4)R木であり、頂点に入力文に出現している単語情報を付与する。
(M5)RO木であり、頂点に入力文に出現している単語情報及び単語間の格情報を同時に付与する。
(M6)R木であり、頂点に入力文に出現している単語情報及び単語間の格情報を同時に付与する。
(M7)RO木であり、頂点と辺にそれぞれ入力文に出現している単語情報と単語間の格情報を付与する。
(M8)R木であり、頂点と辺にそれぞれ入力文に出現している単語情報と単語間の格情報を付与する。
【0067】
木構造変換部4は、メモリ11に記憶された構文・意味解析の結果を入力し、各解析結果候補を木構造へ変換し、変換した結果をメモリ12に記憶させる。
距離計算部5は、メモリ12に記憶された解析結果候補の間の距離を求め、その結果をクラスタリング部6に提供する。このとき、距離計算部5は、例えば要求に応じて、上記した8種類の木構造表現法(M1)〜(M8)の中のいずれかに基づく解析結果候補間の距離を求める。
【0068】
ここで、上記した8種類の木構造表現法(M1)〜(M8)に基づく解析結果候補間の距離を求める方法を示す。
(M1)〜(M6)の木構造表現法に基づく解析結果候補間の距離を求める方法としては、例えば、本出願人による特願2002−268728号(以下で、関連出願1と言う)に記載されたような方法を用いることができる。なお、本例では、(M1)と(M2)の木構造表現法に基づく解析結果候補間の距離を求めるときには、木構造上の頂点の写像重みの設定として、頂点間の置換重み、脱落重み、挿入重みを全て定数と設定する。
【0069】
また、(M7)と(M8)の木構造表現法に基づく解析結果候補間の距離を求める方法としては、例えば、本出願人による特願2002−269193号(以下で、関連出願2と言う)に記載されたような方法を用いることができる。
【0070】
まず、上記した関連出願1及び関連出願2に共通な事項を示す。
すなわち、解析結果候補(構文解析結果候補或いは意味解析結果候補)であるCaとCbとの間の距離D(Ca,Cb)は、式1或いは式2により求められる。ここで、TaとTbはそれぞれ候補であるCaとCbの木構造を表し、記号|A|は集合Aの要素数を表す。また、D(Ta,Tb)は木Taと木Tbとの間の距離を表す。
【0071】
【数1】
Figure 0004026480
【0072】
【数2】
Figure 0004026480
【0073】
次に、上記した関連出願1に記載された(M1)〜(M6)に関する距離の計算公式を示す。
RO木間或いはR木間の距離の計算については、まず、RO木或いはR木の根から深さ優先順探索で頂点と辺に番号を付ける。大きい番号を根とするRO木或いはR木から小さい番号を根とする部分の順で部分木間の距離を求めて、最後に全体的なRO木間或いはR木間の距離を求める。
【0074】
図8に示されるような2つの木Ta(x)、Tb(y)の間の距離D(Ta(x),Tb(y))は、式3により求められる。
【0075】
【数3】
Figure 0004026480
【0076】
ここで、Ta(x)は木Taの頂点xを根とする部分木を表し、Va(x)は部分木Ta(x)の頂点の集合を表し、x、x、・・・、xは頂点xの子供を表し、Ch(x)は頂点xの子供の集合を表し、Fa(x)は部分木Ta(x)、Ta(x)、・・・、Ta(x)からなる森を表す。また、森間の距離D(Fa(x),Fb(y))と、全ての部分木間の距離D(Ta(x),Tb(y))、D(Ta(x),Tb(y))は、既に求められたものとする。また、関数S(x,y)は頂点xと頂点yとの間の置換重みを表し、関数R(k)は頂点kの脱落重みを表し、関数I(k)は頂点kの挿入重みを表す。また、記号“A−B”は集合Aから集合Bの全ての要素を取り除く関数を表す。
【0077】
なお、関数S(x,y)と関数R(k)と関数I(k)の定義は、上記した関連出願1の記載内容に従い、次のようになる。
すなわち、関数S(x,y)としては、S(x,y)=xy+xyを使用することや、S(x,y)=xy×xyを使用することができ、また、他の関数が使用されもよい。ここで、xyは頂点xに格納している単語と頂点yに格納している単語との間の置換重みを表し、xyは頂点xに格納している格と頂点yに格納している格との間の置換重みを表す。また、頂点に単語情報だけを格納している場合には、関数S(x,y)=xyを使用する。また、(M1)と(M2)の木構造表現法に基づく解析結果候補間の距離を求めるときには、頂点に情報が付与されないことから、関数S(x,y)=定数とする。
【0078】
関数R(x)としては、R(x)=x+xを使用することや、R(x)=x×xを使用することができ、また、他の関数が使用されてもよい。ここで、xは頂点xに格納している単語の脱落重みを表し、xは頂点xに格納している格の脱落重みを表す。また、頂点に単語情報だけを格納している場合には、関数R(x)=xを使用する。また、(M1)と(M2)の木構造表現法に基づく解析結果候補間の距離を求めるときには、頂点に情報が付与されないことから、関数R(x)=定数とする。
【0079】
関数I(y)としては、I(y)=y+yを使用することや、I(y)=y×yを使用することができ、また、他の関数が使用されてもよい。ここで、yは頂点yに格納している単語の挿入重みを表し、yは頂点yに格納している格の挿入重みを表す。また、頂点に単語情報だけを格納している場合には、関数I(y)=yを使用する。また、(M1)と(M2)の木構造表現法に基づく解析結果候補間の距離を求めるときには、頂点に情報が付与されないことから、関数I(y)=定数とする。
【0080】
ここで、木Taと木TbがRO木である場合には、つまり、子供間の左右関係が存在する場合には、図9に示されるような2つの順序がある森Fa(x)、Fb(y)の間の距離D(Fa(x),Fb(y))は式4により求められる。
【0081】
【数4】
Figure 0004026480
【0082】
また、木Taと木TbがR木である場合には、つまり、子供間の左右関係が存在しない場合には、図9に示されるような順序がない森Fa(x)、Fb(y)の間の距離D(Fa(x),Fb(y))は式5により求められる。
【0083】
【数5】
Figure 0004026480
【0084】
ここで、W(Mmax)は、図10に示されるような2部グラフG(A,B,E)の最大マッチングの重みである。2部グラフG(A,B,E)の頂点a(∈A)は順序がない森Fa(x)を構成する部分木Ta(x)を表し(x∈Ch(x))、2部グラフG(A,B,E)の頂点b(∈B)は順序がない森Fb(y)を構成する部分木Tb(y)を表す(y∈Ch(y))。また、2部グラフの頂点a(∈A)と頂点b(∈B)の間の辺e(a,b)の重みw(e(a,b))を式6のように設定する。2部グラフG(A,B,E)の最大マッチングの重みは、最大マッチングにあるマッチングした辺e(a,b)の重みw(e(a,b))の和の最大値に相当する。
【0085】
【数6】
Figure 0004026480
【0086】
次に、上記した関連出願2に記載された(M7)及び(M8)に関する距離の計算公式を示す。
上述のように、解析結果候補Caと解析結果候補Cbとの間の距離D(Ca,Cb)は、上記した式1或いは上記した式2で求めることができる。
RO木間或いはR木間の距離の計算については、まず、RO木或いはR木の根から深さ優先順探索で頂点と辺に番号を付ける。大きい番号を根とするRO木或いはR木から小さい番号を根とする部分の順で部分木間の距離を求めて、最後に全体的なRO木間或いはR木間の距離を求めることができる。
【0087】
【数7】
Figure 0004026480
【0088】
【数8】
Figure 0004026480
【0089】
【数9】
Figure 0004026480
【0090】
【数10】
Figure 0004026480
【0091】
【数11】
Figure 0004026480
【0092】
【数12】
Figure 0004026480
【0093】
【数13】
Figure 0004026480
【0094】
ここで、頂点間と辺間の写像重みについては、上記した関連出願2の記載内容に従い、次のようになる。
すなわち、関数δ(x,y)は頂点の置換重みを表し、これは単語の置換重みで求めることができる。また、q(x)は頂点xの挿入重みを表し、これは単語の挿入重みで求めることができる。また、r(x)は頂点xの脱落重みを表し、これは単語の脱落重みで求めることができる。
【0095】
【数14】
Figure 0004026480
【0096】
【数15】
Figure 0004026480
【0097】
【数16】
Figure 0004026480
【0098】
【数17】
Figure 0004026480
【0099】
ここで、W(Mmax)は、図10に示すような2部グラフG(A,B,E)の最大マッチングの重みである。
また、2部グラフG(A,B,E)の頂点a(∈A)と頂点b(∈B)の間の辺e(a,b)の重みw(e(a,e))を式13のように設定する。2部グラフG(A,B,E)の最大マッチングの重みは、辺e(a,b)の重みw(e(a,b))の和の最大値に相当する。
【0100】
【数18】
Figure 0004026480
【0101】
【数19】
Figure 0004026480
【0102】
次に、クラスタリング部6について説明する。
解析結果候補(構文解析結果候補或いは意味解析結果候補)のクラスタリング方法としては、例えば、一般に公表されているパターンの分類方法の中から、処理するパターンに対応する任意の分類方法を選択することができ、一例として、非特許文献4に記載された最長距離法を使用することができる(非特許文献4参照。)。
【0103】
最長距離法を用いたクラスタリング法では、クラスタ間の距離をそれぞれのクラスタ内に存在する任意の2つの要素間の距離の中で最長な距離によって定義し、そして、この距離が最小となる2つのクラスタを統合することが行われる。この場合、2つのクラスタPh、Pkの間の距離D(Ph,Pk)は式14により定義される。ここで、CiとCjは解析結果の候補を表し、D(Ci,Cj)は候補Ciと候補Cjとの間の距離を表す。
【0104】
【数20】
Figure 0004026480
【0105】
代表決定部7は、メモリ13に記憶された情報に基づいて、各クラスタの代表を求め、求められたクラスタと同数の代表(解析結果候補)を記憶部8に記憶させる。
ここで、クラスタ内の候補は比較的に固まっていて相互に似ている性質を持っているため、クラスタ内の全ての候補から構成された多次元空間の中心に最も近い候補がクラスタを代表するとみなすことは最も一般的な考え方である。一方、解析結果候補がなるべくバラエティに富んだものとなるのが良いという考え方、つまり、他の解析結果候補とのコントラストが大きい方が良いという考え方もある。
【0106】
このため、本例では、代表決定部7は、次の2種類の方法(方法1)、(方法2)を用いて各クラスタの代表を求める機能を有している。(方法1)と(方法2)としては、いずれが用いられてもよく、例えば、場合によっていずれか有用な方が用いられればよく、応用上の問題に応じて使い分けられるのが好ましい。
【0107】
(方法1)では、各クラスタ毎に、クラスタに属している全ての解析結果候補について、各候補間の距離を計算して、当該クラスタ内に存在する他の全ての候補との距離の和が最小になる候補を当該クラスタの代表とする。
(方法2)では、各クラスタ毎に、クラスタに属している全ての解析候補について、当該クラスタに属していない解析結果候補との間の距離を計算して、当該クラスタに属していない全ての候補との距離の和が最大になる候補を当該クラスタの代表とする。
【0108】
代表決定部7により求められた各クラスタの代表が対応している解析結果候補が、構文解析或いは意味解析の近似的な解析結果として、記憶部8に記憶され、必要に応じて出力などされる。このようにして求められる代表は、例えば、応用システムに渡されて種々な応用上の処理に利用される。
【0109】
ここで、本発明の構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。
また、本発明の適用分野としては、必ずしも以上に示したものに限られず、本発明は、種々な分野に適用することが可能なものである。
【0110】
また、本発明において行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがROM(Read Only Memory)に格納された制御プログラムを実行することにより制御される構成が用いられてもよく、また、例えば当該処理を実行するための各機能手段が独立したハードウエア回路として構成されてもよい。
また、本発明は上記の制御プログラムを格納したフロッピー(登録商標)ディスクやCD(Compact Disc)−ROM等のコンピュータにより読み取り可能な記録媒体や当該プログラム(自体)として把握することもでき、当該制御プログラムを記録媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【0111】
【発明の効果】
以上説明したように、本発明に係る構文解析結果或いは意味解析結果の代表決定装置や代表決定方法によると、構文解析の解析結果候補或いは意味解析の解析結果候補をグラフ理論上のRO木或いはR木で表現し、RO木間或いはR木間の距離尺度に基づいた候補間の相違を測る距離尺度を用いて解析された候補群を幾つかのクラスタにクラスタリングし、クラスタリングされた各クラスタの代表を求め、求められた代表を用いて構文解析或いは意味解析の近似的な解析結果とすることが行われるため、このようにして求められる構文解析或いは意味解析の近似的な解析結果を利用することにより、例えば、実時間で実施することができて且つ性能が大きく悪化することのない応用システムを実現することが可能となる。
【図面の簡単な説明】
【図1】 本発明の一実施例に係る構文・意味解析の近似解析結果を求める装置の構成例を示す図である。
【図2】 本発明に係る構文・意味解析の近似解析結果を求める装置及び方法を情報端末装置に適用した場合の構成例を示す図である。
【図3】 形態素解析部による解析結果の一例を示す図である。
【図4】 木構造の表現の一例を示す図である。
【図5】 木構造の表現の一例を示す図である。
【図6】 木構造の表現の一例を示す図である。
【図7】 木構造の表現の一例を示す図である。
【図8】 2つのRO木或いはR木の一例を示す図である。
【図9】 2つの森の一例を示す図である。
【図10】 2部グラフの一例を示す図である。
【図11】 2つのRO木或いはR木の一例を示す図である。
【図12】 2つの森の一例を示す図である。
【符号の説明】
1、21・・外部記憶装置、 2・・形態素解析部、 3・・構文意味解析部、
4・・木構造変換部、 5・・距離計算部、 6・・クラスタリング部、
7・・代表決定部、 8・・記憶部、 9〜13・・メモリ、
20・・情報端末装置、 22・・キーボード、 23・・ディスプレイ、
24・・プロセッサ部、 25・・モジュール、

Claims (18)

  1. テキスト文について得られた複数であるN個の構文解析結果候補から当該N個より少ないp個の代表を決定する構文解析結果の代表決定装置であって、
    N個の構文解析結果候補のそれぞれをグラフ理論上の根がある木で表現する木表現手段と、
    異なる構文解析結果候補を表現する木の間の距離を当該異なる構文解析結果候補の間の距離として求める距離取得手段と、
    N個の構文解析結果候補をN個のクラスタとみなし、距離取得手段により求められる距離に基づいて複数のクラスタを1つにまとめることで、N個の構文解析結果候補をp個のクラスタに分類するクラスタリング手段と、
    クラスタリング手段により分類された各クラスタに含まれる構文解析結果候補について距離取得手段により求められる距離に基づいて、当該各クラスタに含まれる構文解析結果候補の中から代表を決定する代表決定手段と、
    を備えたことを特徴とする構文解析結果の代表決定装置。
  2. 請求項1に記載の構文解析結果の代表決定装置において、
    木表現手段は、構文解析結果候補をグラフ理論上の根があり順序がある木で表現する、
    ことを特徴とする構文解析結果の代表決定装置。
  3. 請求項1に記載の構文解析結果の代表決定装置において、
    木表現手段は、構文解析結果候補をグラフ理論上の根があり順序がない木で表現する、
    ことを特徴とする構文解析結果の代表決定装置。
  4. 請求項1乃至請求項3のいずれか1項に記載の構文解析結果の代表決定装置において、
    木表現手段は、構文解析結果候補を各頂点に情報が付与されない木で表現する、
    ことを特徴とする構文解析結果の代表決定装置。
  5. 請求項1乃至請求項3のいずれか1項に記載の構文解析結果の代表決定装置において、
    木表現手段は、構文解析結果候補を各頂点に単語情報が付与される木で表現する、
    ことを特徴とする構文解析結果の代表決定装置。
  6. 請求項1乃至請求項5のいずれか1項に記載の構文解析結果の代表決定装置において、
    代表決定手段は、各クラスタに含まれる構文解析結果候補の中から、同一のクラスタに含まれる他の構文解析結果候補との距離の和が最小となる構文解析結果候補を代表として決定する、
    ことを特徴とする構文解析結果の代表決定装置。
  7. 請求項1乃至請求項5のいずれか1項に記載の構文解析結果の代表決定装置において、
    代表決定手段は、各クラスタに含まれる構文解析結果候補の中から、他のクラスタに含まれる構文解析結果候補との距離の和が最大となる構文解析結果候補を代表として決定する、
    ことを特徴とする構文解析結果の代表決定装置。
  8. テキスト文について得られた複数であるN個の意味解析結果候補から当該N個より少ないp個の代表を決定する意味解析結果の代表決定装置であって、
    N個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現する木表現手段と、
    異なる意味解析結果候補を表現する木の間の距離を当該異なる意味解析結果候補の間の距離として求める距離取得手段と、
    N個の意味解析結果候補をN個のクラスタとみなし、距離取得手段により求められる距離に基づいて複数のクラスタを1つにまとめることで、N個の意味解析結果候補をp個のクラスタに分類するクラスタリング手段と、
    クラスタリング手段により分類された各クラスタに含まれる意味解析結果候補について 距離取得手段により求められる距離に基づいて、当該各クラスタに含まれる意味解析結果候補の中から代表を決定する代表決定手段と、
    を備えたことを特徴とする意味解析結果の代表決定装置。
  9. 請求項8に記載の意味解析結果の代表決定装置において、
    木表現手段は、意味解析結果候補をグラフ理論上の根があり順序がある木で表現する、
    ことを特徴とする意味解析結果の代表決定装置。
  10. 請求項8に記載の意味解析結果の代表決定装置において、
    木表現手段は、意味解析結果候補をグラフ理論上の根があり順序がない木で表現する、
    ことを特徴とする意味解析結果の代表決定装置。
  11. 請求項8乃至請求項10のいずれか1項に記載の意味解析結果の代表決定装置において、
    木表現手段は、意味解析結果候補を各頂点に情報が付与されない木で表現する、
    ことを特徴とする意味解析結果の代表決定装置。
  12. 請求項8乃至請求項10のいずれか1項に記載の意味解析結果の代表決定装置において、
    木表現手段は、意味解析結果候補を各頂点に単語情報が付与される木で表現する、
    ことを特徴とする意味解析結果の代表決定装置。
  13. 請求項8乃至請求項10のいずれか1項に記載の意味解析結果の代表決定装置において、
    木表現手段は、意味解析結果候補を各頂点に単語情報及び格情報が付与される木で表現する、
    ことを特徴とする意味解析結果の代表決定装置。
  14. 請求項8乃至請求項10のいずれか1項に記載の意味解析結果の代表決定装置において、
    木表現手段は、意味解析結果候補を各頂点に単語情報が付与されるとともに各辺に格情報が付与される木で表現する、
    ことを特徴とする意味解析結果の代表決定装置。
  15. 請求項8乃至請求項14のいずれか1項に記載の意味解析結果の代表決定装置において、
    代表決定手段は、各クラスタに含まれる意味解析結果候補の中から、同一のクラスタに含まれる他の意味解析結果候補との距離の和が最小となる意味解析結果候補を代表として決定する、
    ことを特徴とする意味解析結果の代表決定装置。
  16. 請求項8乃至請求項14のいずれか1項に記載の意味解析結果の代表決定装置において、
    代表決定手段は、各クラスタに含まれる意味解析結果候補の中から、他のクラスタに含まれる意味解析結果候補との距離の和が最大となる意味解析結果候補を代表として決定する、
    ことを特徴とする意味解析結果の代表決定装置。
  17. テキスト文について得られた複数であるN個の構文解析結果候補から当該N個より少ないp個の代表を決定する構文解析結果の代表決定装置における構文解析結果の代表決定方法であって、
    前記代表決定装置に備えられた木表現手段が、N個の構文解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、
    前記代表決定装置に備えられた距離取得手段が、異なる構文解析結果候補を表現する木の間の距離を当該異なる構文解析結果候補の間の距離として求め、
    前記代表決定装置に備えられたクラスタリング手段が、N個の構文解析結果候補をN個のクラスタとみなし、距離取得手段により求められる距離に基づいて複数のクラスタを1つにまとめることで、N個の構文解析結果候補をp個のクラスタに分類し、
    前記代表決定装置に備えられた代表決定手段が、クラスタリング手段により分類された 各クラスタに含まれる構文解析結果候補について距離取得手段により求められる距離に基づいて、当該各クラスタに含まれる構文解析結果候補の中から代表を決定する、
    ことを特徴とする構文解析結果の代表決定方法。
  18. テキスト文について得られた複数であるN個の意味解析結果候補から当該N個より少ないp個の代表を決定する意味解析結果の代表決定装置における意味解析結果の代表決定方法であって、
    前記代表決定装置に備えられた木表現手段が、N個の意味解析結果候補のそれぞれをグラフ理論上の根がある木で表現し、
    前記代表決定装置に備えられた距離取得手段が、異なる意味解析結果候補を表現する木の間の距離を当該異なる意味解析結果候補の間の距離として求め、
    前記代表決定装置に備えられたクラスタリング手段が、N個の意味解析結果候補をN個のクラスタとみなし、距離取得手段により求められる距離に基づいて複数のクラスタを1つにまとめることで、N個の意味解析結果候補をp個のクラスタに分類し、
    前記代表決定装置に備えられた代表決定手段が、クラスタリング手段により分類された各クラスタに含まれる意味解析結果候補について距離取得手段により求められる距離に基づいて、当該各クラスタに含まれる意味解析結果候補の中から代表を決定する、
    ことを特徴とする意味解析結果の代表決定方法。
JP2002334934A 2002-11-19 2002-11-19 構文解析結果の代表決定装置及び意味解析結果の代表決定装置 Expired - Fee Related JP4026480B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002334934A JP4026480B2 (ja) 2002-11-19 2002-11-19 構文解析結果の代表決定装置及び意味解析結果の代表決定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002334934A JP4026480B2 (ja) 2002-11-19 2002-11-19 構文解析結果の代表決定装置及び意味解析結果の代表決定装置

Publications (2)

Publication Number Publication Date
JP2004171185A JP2004171185A (ja) 2004-06-17
JP4026480B2 true JP4026480B2 (ja) 2007-12-26

Family

ID=32699193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002334934A Expired - Fee Related JP4026480B2 (ja) 2002-11-19 2002-11-19 構文解析結果の代表決定装置及び意味解析結果の代表決定装置

Country Status (1)

Country Link
JP (1) JP4026480B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6994253B2 (ja) * 2018-10-18 2022-01-14 株式会社LIGHTz 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2004171185A (ja) 2004-06-17

Similar Documents

Publication Publication Date Title
JP4038717B2 (ja) テキスト文比較装置
CN107229610B (zh) 一种情感数据的分析方法及装置
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
US11210468B2 (en) System and method for comparing plurality of documents
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
JP2004110161A (ja) テキスト文比較装置
KR20180062321A (ko) 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램
JP2018190188A (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
Tkaczyk et al. Cermine--automatic extraction of metadata and references from scientific literature
CN117290489B (zh) 一种行业问答知识库快速构建方法与系统
JP5754019B2 (ja) 同義語抽出システム、方法およびプログラム
US11301639B2 (en) Methods and systems for generating a reference data structure for anonymization of text data
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
CN112417868A (zh) 一种基于情绪分数和主题模型的区块链新闻可视化方法
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP3765801B2 (ja) 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP6899973B2 (ja) 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
Revanth et al. Nl2sql: Natural language to sql query translator
JP4026480B2 (ja) 構文解析結果の代表決定装置及び意味解析結果の代表決定装置
JP2004272352A (ja) 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
Kunanets et al. Enhanced LSA Method with Ukraine Language Support.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070918

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071001

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees