JP4038717B2 - テキスト文比較装置 - Google Patents
テキスト文比較装置 Download PDFInfo
- Publication number
- JP4038717B2 JP4038717B2 JP2002269193A JP2002269193A JP4038717B2 JP 4038717 B2 JP4038717 B2 JP 4038717B2 JP 2002269193 A JP2002269193 A JP 2002269193A JP 2002269193 A JP2002269193 A JP 2002269193A JP 4038717 B2 JP4038717 B2 JP 4038717B2
- Authority
- JP
- Japan
- Prior art keywords
- mapping
- weight
- tree
- distance
- text sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、例えばコンピュータを利用して、テキスト文間の意味内容の相違を比較する装置及び方法に関し、特に、高精度に実時間で比較を行う装置及び方法に関する。
【0002】
【従来の技術】
IT技術、特に高速インターネット・モバイル技術の飛躍的な発展により、大量の情報が誰でも、どこでも、いつでも利用可能になったが、逆に、情報洪水と言われる現象が起き、ユーザが真に必要な情報を取り出すことが困難になってきている。利用者がどのような状況にあっても常に適切な情報を得ることができる世界を実現するために、情報洪水の中からユーザにとって真に価値ある情報を抽出・再構成することが必要である。
【0003】
ここで、ドキュメントの意味内容の比較や意味内容によるテキスト文書の分類やユーザの情報探索意図の理解に関する技術は重要である。また、ドキュメントの意味内容の比較や意味内容によるテキスト文書の分類やユーザの情報探索意図の理解を実現するためには、自然言語処理などを利用した意味の類似性判定が欠かせないものである。
【0004】
この分野では、テキスト文間の類似性を測る技術が幾つか提案されているが、文のローカルな情報、例えば、文に出現している単語情報や、単語間の係り受け情報を利用したものが主流であって、テキスト文の意味内容の評価尺度としては適用しにくく、ドキュメントの意味内容の比較及びユーザの情報探索意図の理解という目標の実現にはつながらなかった。
【0005】
最近、テキスト文を意味解析してグラフで表現し、グラフ表現の基に経験的類似度を測る手法が提案されたが、提案された類似度には、構造的な変化を考慮していないものもあるし、類似度の定義とテキスト文の意味内容の相違との関係が明確ではないものもあった。
【0006】
また、本発明と関連する従来技術の例として、以下のようなものがあった。
【0007】
【非特許文献1】
原田、水野、論文“EDRを用いた日本語意味解析システムSAGE”、「人口知能学会論文誌」、2001年、16(1)、p.85−93
【非特許文献2】
相澤彰子、論文“語と文書の共起に基づく特徴量の定義と適用”、「自然言語処理」、2000年3月、136−4
【非特許文献3】
馬青、論文“日本語名詞の意味マップの自己組織化”、「情報処理学会論文誌」、2001年、第42巻、第10号
【0008】
【発明が解決しようとする課題】
上記で述べたように、従来では、テキスト文間の意味内容の類似度を比較する性能は未だに不十分なものであり、従来提案された類似度はテキスト文間の意味内容の相違の説明につながりにくいといった問題があった。
【0009】
本発明は、上記のような従来の事情に鑑みなされたもので、テキスト文間の意味内容の相違を高精度に実時間で比較することができる装置や方法を提供することを目的とする。更に具体的には、本発明では、例えば、ドキュメントの意味内容の比較や、意味内容によるテキスト文書の分類や、ユーザの情報探索意図の理解を実現するために、テキスト文間の意味内容の相違を測ることができる距離尺度を数学的に定義して、当該距離尺度を実時間内で求めることを実現する。
【0010】
【課題を解決するための手段】
上記目的を達成するため、本発明に係るテキスト文比較装置では、次のようにして、テキスト文間の比較を行う。
すなわち、木表現手段が、比較対象となるテキスト文をグラフ理論上の根がある木で表現する。情報付与手段が、木表現手段により表現される木の各頂点に単語情報を付与するとともに各辺に単語間の係り受け関係情報である格情報を付与する。木間距離定義手段が、頂点の間の対応関係及び辺の間の対応関係に基づく木の間の距離を定義する。木間距離取得手段が、木間距離定義手段により定義される木の間の距離を求める。木間距離適用手段が、木間の距離をテキスト文間の相違(或いは、類似)を表す距離に適用する。テキスト文間距離取得手段が、木間距離適用手段による適用に基づいて、比較対象となるテキスト文間の距離を求める。
【0011】
従って、比較対象となる2つのテキスト文について、テキスト文全体の構造と意味をグラフ理論上の根がある木で表現し、2つの木の間の距離を適用して求められるこれら2つのテキスト文間の距離に基づいて、これら2つのテキスト文間の意味的な相違を検討することができるため、テキスト文間の比較を高精度に実時間で行うことができる。
【0012】
ここで、本発明では、グラフ理論上の木の間の距離をテキスト文の比較に適用しており、テキスト文に含まれる単語の情報や格の情報ばかりでなく、テキスト文の構造についても考慮している。また、本発明では、木の頂点に単語情報を付与するとともに、木の辺に格情報を付与している。
また、根があり順序がある木を用いるか或いは根があり順序がない木を用いるかによって、テキスト文間の距離を2種類に分けることができ、応用上で計算速度及び比較精度によって任意に選択することができる。
【0013】
なお、本明細書では、グラフ理論上の根があり順序がある木をRO木(Rooted and Ordered tree)と言い、グラフ理論上の根があり順序がない木をR木(Rooted tree)と言う。
また、RO木とR木とを比較すると、RO木の方がR木と比べて計算が簡易である一方、R木の方がRO木と比べて一般的に精度がよい。
【0014】
また、単語情報としては、種々な情報が用いられてもよく、例えば、単語属性の情報が含まれてもよい。単語属性の情報としては、例えば、形態素解析により得られる品詞の情報などを用いることができ、また、動詞の場合には変形の情報などを用いることができる。
また、単語間の係り受けの種類が格に相当する。
また、単語の情報及び格の情報は、例えば、テキスト文を意味解析して求められる。
【0015】
また、R木間の写像条件としては、例えば、頂点間の写像と辺間の写像に対して、「1対1写像であり、親子関係(上下関係)を保存し、構造を保存し、頂点間の写像と辺間の写像が交差しない」などの条件が用いられる。
また、RO木間の写像条件としては、例えば、頂点間の写像と辺間の写像に対して、「1対1写像であり、親子関係(上下関係)を保存し、兄弟間に左右の関係を保存し、構造を保存し、頂点間の写像と辺間の写像が交差しない」などの条件が用いられる。
【0016】
また、木Aから木Bへ写像するときに、例えば、木Aの頂点が木Bの頂点に写像する場合が頂点の置換に相当し、木Aにあって写像できない頂点が脱落に相当し、木Bにあって写像できない頂点が挿入に相当する。
また、木と木の間の距離としては、例えば、1本の木を他の1本の木へ変換するときの重みの和(写像重みの和)の最小値が用いられる。また、このような木と木の間の距離には、暗黙的に、森と森の間の距離が含まれる。
【0017】
また、RO木或いはR木の各頂点に番号を付ける仕方としては、例えば、深さ優先探索により各頂点に番号を増大順で付けて、番号が大きい頂点から順に計算を行う仕方が用いられる。具体的には、動的計画法を用いて、一番下側の部分木から上側の部分木へと順に計算を行っていく。
また、ラベルは、情報を記憶するためのものである。
【0018】
以下で、更に、本発明の構成例を示す。
(1)テキスト文間の意味内容を測る距離を求めるテキスト文間の意味内容比較装置において、テキスト文全体の構造と意味をグラフ理論上のRO木或いはR木で表現する手段と、RO木或いはR木の各頂点と各辺にそれぞれ単語情報と関連する単語間の係り受け関係(格)情報を付与する手段と、頂点間及び辺間の対応関係に基づくRO木間或いはR木間の距離を定義する手段と、定義したRO木間或いはR木間の距離を求める手段と、RO木間或いはR木間の距離をテキスト文間の意味的な相違を比較する距離に適用する手段と、テキスト文間の距離を求める手段を備える。
【0019】
(2)頂点間及び辺間の対応関係に基づくRO木間或いはR木間の距離を定義する手段は、RO木或いはR木の各頂点と各辺にそれぞれラベルを付けるラベル付け手段と、RO木或いはR木の各頂点と各辺にそれぞれ番号を付ける番号付け手段と、頂点間と辺間の対応関係に基づくRO木間の写像条件と、頂点間と辺間の対応関係に基づくR木間の写像条件と、頂点間と辺間の対応関係に基づくRO木間の写像手段と、頂点間と辺間の対応関係に基づくR木間の写像手段と、頂点間と辺間の対応関係に基づく順序がある森の間の写像を行う写像手段と、頂点間と辺間の対応関係に基づく順序がない森の間の写像を行う写像手段と、これらの写像手段による写像の重みを定義する写像重み設定手段と、順序がある森の間の写像手段と写像重み設定手段に基づく順序がある森の間の距離を定義する手段と、順序がない森の間の写像手段と写像重み設定手段に基づく順序がない森の間の距離を定義する手段と、RO木間の写像手段と写像重み設定手段に基づくRO木間の距離を定義する手段と、R木間の写像手段と写像重み設定手段に基づくR木間の距離を定義する手段を有する。
【0020】
(3)RO木間或いはR木間の距離をテキスト文間の意味的な相違を測る距離に適用する手段は、単語間の写像をRO木或いはR木の頂点間の写像に対応させる手段と、格間の写像をRO木或いはR木の辺間の写像に対応させる手段と、単語間の写像重みをRO木或いはR木の頂点間の写像重みに対応させる手段と、格間の写像重みをRO木或いはR木の辺間の写像重みに対応させる手段と、単語の写像重みを設定する手段と、格の写像重みを設定する手段を有する。
【0021】
(4)テキスト文間の距離を求める手段は、RO木間或いはR木間の距離を求める手段で求められた距離値をテキスト文間の距離とする。
(5)テキスト文間の距離を求める手段は、RO木間或いはR木間の距離を求める手段で求められた距離値と2つのRO木或いはR木の頂点数の和とを割り算した結果をテキスト文間の距離尺度とする。
【0022】
(6)単語間の写像重みを設定する手段は、RO木間或いはR木間の写像において、2つの頂点が写像した場合には、各頂点に格納されている単語間の置換重みを設定する手段と、頂点が写像できなく、脱落された場合には、頂点に格納されている単語の脱落重みを設定する手段と、頂点が写像できなく、挿入された場合には、頂点に格納されている単語の挿入重みを設定する手段と、単語置換重みと単語脱落重みと単語挿入重みとの間の関係を設ける手段を有する。
【0023】
(7)格の写像重みを設定する手段は、RO木間或いはR木間の写像において、2つの辺が写像した場合には、各辺に格納されている格間の格置換重みを設定する手段と、辺が写像できなく、脱落された場合には、辺に格納されている格の脱落重みを設定する手段と、辺が写像できなく、挿入された場合には、辺に格納されている格の挿入重みを設定する手段と、格置換重みと格脱落重みと格挿入重みとの間の関係を設ける手段を有する。
【0024】
(8)単語置換重みを設定する手段は、2つの単語が同一の単語である場合には単語の置換重みをゼロと設定する手段、2つの単語が異なる場合には単語の置換重みを正の定数と設定する手段を有する。
(9)単語置換重みを設定する手段は、単語の置換重みを単語間の距離と設定する。
【0025】
(10)単語脱落重みを設定する手段は、単語の脱落重みを定数と設定する。
(11)単語脱落重みを設定する手段は、単語の品詞によって単語の脱落重みを求める。
(12)単語挿入重みを設定する手段は、単語の挿入重みを定数と設定する。
(13)単語挿入重みを設定する手段は、単語の品詞によって単語の挿入重みを求める。
(14)単語の置換重み、脱落重み、挿入重みの間の関係を設ける手段は、「単語脱落重み+単語挿入重み>単語置換重み」を満たす関係を設ける。
【0026】
(15)格置換重みを設定する手段は、2つの格が同一の格である場合には格の置換重みをゼロと設定する手段と、2つの格が異なる場合には格の置換重みを正の定数と設定する手段を有する。
(16)格置換重みを設定する手段は、全ての格を複数であるN個のカテゴリに分類する手段と、格カテゴリ間の置換重みを設定する手段と、格間の置換重みを、2つの格が属しているカテゴリ間の置換重みとする手段を有する。
【0027】
(17)格脱落重みを設定する手段は、格の脱落重みを定数と設定する。
(18)格脱落重みを設定する手段は、格の種類によって格の脱落重みを求める。
(19)格挿入重みを設定する手段は、格の挿入重みを定数と設定する。
(20)格挿入重みを設定する手段は、格の種類によって格の挿入重みを求める。
(21)格の置換重み、脱落重み、挿入重みの間の関係を設ける手段は、「格脱落重み+格挿入重み>格置換重み」を満たす関係を設ける。
【0028】
(22)テキスト文間の意味内容を測る距離を求めるテキスト文間の意味内容比較方法において、テキスト文全体の構造と意味をグラフ理論上のRO木或いはR木で表現し、RO木或いはR木の各頂点と各辺にそれぞれ単語情報と単語間の係り受け関係(格)情報を格納し、頂点間及び辺間の対応関係に基づくRO木間或いはR木間の距離を定義した内容に基づいて、定義したRO木間或いはR木間の距離を求め、RO木間或いはR木間の距離をテキスト文間の意味的な相違を比較する距離に適用して、テキスト文間の距離を求める。
【0029】
【発明の実施の形態】
本発明に係る一実施例を図面を参照して説明する。
図1には、本発明の一実施例に係るテキスト文間の意味内容の比較装置(テキスト文比較装置)の実施の一形態を示してあり、当該装置は本発明の一実施例に係るテキスト文の意味内容の比較方法を実施する。
【0030】
同図に示したテキスト文比較装置には、外部記憶装置1と、テキスト文の形態素を抽出する形態素解析部2と、テキスト文の意味を解析する意味解析部3と、意味解析部3で解析した結果をグラフ理論上のRO木或いはR木に変換する木構造変換部4と、2つの単語を置換するときの単語置換重みと単語を脱落するときの単語脱落重みと単語を挿入するときの単語挿入重みを求める単語写像重み計算部5と、2つの格を置換するときの格置換重みと格を脱落するときの格脱落重みと格を挿入するときの格挿入重みを求める格写像重み計算部6と、RO木間或いはR木間の距離を計算する距離計算部7と、テキスト文間の意味内容の相違を求める意味内容比較部8と、例えばメモリから構成される記憶部9と、複数のメモリ10〜18が備えられている。
【0031】
なお、外部記録装置1には、テキスト文のデータが格納されている。
また、メモリ10とメモリ11は、外部記憶装置1から読み出した2つのテキスト文のデータをそれぞれ記憶する。メモリ12とメモリ13は、2つのテキスト文のそれぞれについて、形態素解析部2による解析結果を記憶する。メモリ14とメモリ15は、2つのテキスト文のそれぞれについて、意味解析部3による意味解析の結果を記憶する。メモリ16とメモリ17は、2つのテキスト文のそれぞれについて、木構造変換部4による変換結果を記憶する。メモリ18は、距離計算部8で求められたRO木間或いはR木間の距離を記憶する。
なお、これらのメモリ10〜18を1つにまとめた構成や、或いは、これらのメモリ10〜18を設けないような構成が用いられてもよい。
【0032】
形態素解析部2は、メモリ10とメモリ11に格納されている2つのテキスト文の形態素及び属性を抽出し、それぞれのテキスト文の解析結果をそれぞれのメモリ12、メモリ13に記憶させる。
意味解析部3は、メモリ12とメモリ13に記録されている形態素解析の結果を入力し、テキスト文の意味を解析することを行い、それぞれのテキスト文の解析結果をそれぞれのメモリ14、メモリ15に格納する。
【0033】
木構造変換部4は、メモリ14とメモリ15に格納されている意味解析の結果をRO木或いはR木に変換し、変換したRO木或いはR木の頂点にテキスト文に出現した単語(単語の属性を含む)情報を記憶させるとともに辺にテキスト文に出現した関連する格情報を記憶させる。
また、木構造変換部4は、それぞれのテキスト文について変換した結果をそれぞれのメモリ16、メモリ17に格納する。
【0034】
単語写像重み計算部5は、RO木間或いはR木間の距離を求めるときに必要となる単語置換重み、単語脱落重み、単語挿入重みを求めて、距離計算部7に提供する。
格写像重み計算部6は、RO木間或いはR木間の距離を求めるときに必要となる格置換重み、格脱落重み、格挿入重みを求めて、距離計算部7に提供する。
【0035】
距離計算部7は、メモリ16とメモリ17に格納されている2つのRO木間或いはR木間の距離を求め、その結果をメモリ18に記憶させる。
意味内容比較部8は、メモリ18に記憶されているRO木間或いはR木間の距離を利用して、テキスト文間の距離を求め、その結果を記憶部9に格納する。
【0036】
次に、本発明に係るテキスト文間の意味内容を比較する距離を計算する装置及び方法の適用例として、情報端末装置に適用した場合の装置構成例を示す。
図2には、本発明に係るテキスト文間の意味内容を比較する距離を計算する方法を情報端末装置に適用した場合の装置構成例を示してある。
同図に示した情報端末装置20は、外部記憶装置21と、キーボート22と、ディスプレイ23と、プロセッサ部24から構成されている。プロセッサ部24には、テキスト文間の距離を求めるモジュール25が備えられている。
【0037】
外部記憶装置21は、入力されたテキスト文のデータや、単語写像重みを求めるために用いられる単語特徴量辞書或いはシソーラス辞書や、格写像重みを求めるために用いられる重み辞書などや、求められたテキスト文間の距離の結果や、ソフトウエアなどを格納し、また、計算に用いられる記憶空間として機能する。ここで、単語特徴量辞書やシソーラス辞書や重み辞書などは、例えば、予め作成され或いは既存のものが用意される。また、具体的に、外部記憶装置21としては、例えばハードディスクなどで構成することができる。
【0038】
キーボート22は、ユーザが操作を指示するための入力装置である。なお、他の入力装置が付加されていてもよい。
ディスプレイ23は、ユーザに対するメッセージやテキスト文のデータや、解析結果や、距離の計算結果などを表示するための出力装置である。なお、他の出力装置が付加されてもよい。
【0039】
プロセッサ部24は、外部記憶装置21に格納されているソフトウエアなどに従って、実際の処理を行う。具体的に、プロセッサ部24としては、例えば、マイクロプロセッサや、パーソナルコンピュータなどのコンピュータシステムで構成することができる。そして、上記図1に示した形態素解析部2や、意味解析部3や、木構造変換部4や、単語写像重み計算部5や、格写像重み計算部6や、距離計算部7や、意味内容比較部8は、このプロセッサ部24の上で動作するソフトウエアによって構成することができる。
【0040】
次に、本発明の一実施例に係るテキスト文間の意味内容の相違を比較する装置の動作を更に詳細に説明する。
外部記憶装置1には、テキスト文のデータを格納している。外部記憶装置1から2つのテキスト文のデータを読み出し、メモリ10とメモリ11にそれぞれ記憶させる。形態素解析部2は、メモリ10とメモリ11に記憶しているテキスト文の形態素を抽出し、その結果をそれぞれメモリ12とメモリ13に格納させる。
【0041】
ここで、形態素解析ツールとしては、公表された任意のものを利用することができ、例えば、奈良先端技術大学院大学の松本研究室により公表された“茶筅”形態素解析ツールを用いることができる。
また、図3には、テキスト文「先生は生徒に英語を教える」についての形態素解析の解析結果を示してある。
【0042】
意味解析部3は、メモリ12とメモリ13に記憶された形態素解析の結果を入力し、テキスト文の構文や、係り受け関係(格)や、テキスト文の深層構造などを解析し、解析した結果をそれぞれメモリ14とメモリ15に格納する。
ここで、意味解析ツールとしては、公表された任意の意味解析ツールを利用することができ、例えば、非特許文献1に記載された方法を用いることができる(非特許文献1参照。)。
【0043】
木構造変換部4は、メモリ14とメモリ15に記憶された解析結果を入力し、テキスト文を木構造へ変換して、変換した木構造をそれぞれメモリ16とメモリ17に格納する。
図4には、テキスト文「先生は生徒に英語を教える」についての意味解析の解析結果を木構造の形に書き換えたものを示してある。単語情報として、「先生」、「英語」、「生徒」、「に」、「教える」が各頂点に格納されており、格情報として、「先生」と「教える」の間の「SUBJ」、「英語」と「教える」の間の「OBJ」、「生徒」と「に」の間の「OBJ」、「に」と「教える」の間の「OBL」が各辺に格納されている。
【0044】
上記図4において、格情報として、SUBJ(主格)、OBJ(目的格)、OBL(任意格)を示してある。また、格情報として、ADJUNCT(付加格)などを用いることもできる。
なお、本例では、OBLについては、格助詞と、言い換え可能な格助詞の数だけ変数を用意している。例えば、「彼は京都[に/へ]行った。」の場合、「に」と「へ」が言い換え可能なので、この変数名をOBL_ni−heとする。
【0045】
単語写像重み計算部5は、単語置換重み、単語脱落重み、単語挿入重みを求めて、距離計算部7に提供する。
単語置換重みとしては、定数と設定する態様や、単語間の距離を用いて設定する態様を用いることができる。前者の態様では、2つの単語が同じ単語である場合には単語置換重みをゼロと設定し、そうではない場合には単語置換重みを正の定数と設定する。後者の態様では、単語置換重み計算部5は、2つの単語間の距離を求め、その距離の値を単語置換重みとして、距離計算部7に提供する。
【0046】
ここで、単語間の距離を求める方法としては、公開された任意の方法を利用することができ、例えば、統計的な方法や、シソーラス辞書を用いた方法や、ニューラルネットを用いた方法がある。統計的な手法としては、例えば、非特許文献2に記載されたTF/IDF方法により求めることができる(非特許文献2参照。)。シソーラス辞書を用いた手法としては、例えば、2つの単語が属している概念間の最短道の長さを単語間の距離とすることができる。ニューラルネットワークを用いた手法としては、例えば、非特許文献3に記載された方法を利用することができる(非特許文献3参照。)。また、他の公開された方法を利用することもできる。
【0047】
単語脱落重みとしては、定数と設定する態様や、単語の品詞情報によって単語脱落重みを設定する態様を用いることができる。後者の態様では、単語の品詞に重みを付け、単語脱落重みを品詞重みと定数との積と設定する。品詞重みの設定としては、例えば、重要な役割を有する品詞に大きな重みを付与する仕方を用いることが好ましく、一例として、動詞の重みが一番重たく、形容動詞、名詞、副詞、形容詞などの順で品詞重みを軽くするように設定することができる。また、他の順番で品詞重みを設定することもできる。
【0048】
単語挿入重みとしては、定数と設定する態様や、単語の品詞情報によって単語挿入重みを設定する態様を用いることができる。後者の態様では、単語の品詞に重みを付け、単語挿入重みを品詞重みと定数との積と設定する。品詞重みの設定としては、上記した単語脱落重みに関して述べた品詞重みの設定方法と同様な方法で設定することができ、また、異なる方法で設定することもできる。
【0049】
格置換重み計算部6は、格置換重み、格脱落重み、格挿入重みを求めて、距離計算部7に提供する。
格置換重みとしては、定数と設定する態様や、格の間の距離を用いて設定する態様を用いることができる。前者の態様では、2つの格が同じ格である場合には格置換重みをゼロと設定し、そうではない場合には各置換重みを正の定数と設定する。後者の態様では、格置換重み計算部6は、2つの格間の距離を求め、その距離の値を格置換重みとして、距離計算部7に提供する。
【0050】
ここで、格間の距離を求める方法の一例を示す。
まず、全ての格をその内容によって幾つかのカテゴリに分類する。なお、カテゴリの要素数は1以上である。
また、図5に示されるような格カテゴリ間の距離の表を用意しておく。同図に示される表では、複数であるm個の格カテゴリの全ての組み合わせについて、格カテゴリ間の距離(距離11〜距離mm)が設定されている。
次に、与えられた2つの格情報により特定される2つの格が属している格カテゴリをそれぞれ求め、上記図5に示される格カテゴリ間の距離表を用いて当該求められた2つの格カテゴリ間の距離値を求め、当該求められた距離値を2つの格間の距離とする。
なお、格間の距離を求める方法として、他の方法が用いられてもよい。
【0051】
格脱落重みとしては、定数と設定する態様や、格の種類によって格脱落重みを設定する態様を用いることができる。後者の態様では、格に重みを付け、格脱落重みを格重みと定数との積と設定する。格重みの設定としては、例えば、SUBJの重みが一番重たく、OBJ、OBL、ADJUNCTなどの順で重みを軽くするように設定することができる。また、他の順番で格重みを設定することもできる。
【0052】
格挿入重みとしては、定数と設定する態様や、格の種類によって格挿入重みを設定する態様を用いることができる。後者の態様では、格に重みを付け、格挿入重みを格重みと定数との積と設定する。格重みの設定としては、上記した格脱落重みに関して述べた格重みの設定方法と同様な方法で設定することができ、また、異なる方法で設定することもできる。
【0053】
距離計算部7は、メモリ16とメモリ17に記憶されたRO木間或いはR木間の距離を求め、その結果をメモリ18に格納する。
ここで、頂点と辺の対応関係に基づくRO木間の距離は、例えば、特願2002−071273号に記載された方法で求めることができる。また、頂点と辺の対応関係に基づくR木間の距離は、例えば、特願2002−071274号に記載された方法で求めることができる。
【0054】
次に、上記した特願2002−071273号に記載されたRO木間の距離を求める方法や、上記した特願2002−071274号に記載されたR木間の距離を求める方法を示す。
まず、木の間の距離を記述するために、関連する記号を定義する。
RO木或いはR木Taの頂点xを根とする部分木をTa(x)で表す。
部分木Ta(x)の頂点の集合をVa(x)で表す。
部分木Ta(x)の辺の集合をEa(x)で表す。
頂点xの子供をx1、x2、・・・、xmとし、頂点xの子供の集合をCh(x)で表す。
また、本明細書では、次のように定義する。
【0055】
【数1】
【0056】
また、上述したテキスト文の木構造表現法と変換方法から分かるように、頂点x、yはテキスト文に出現している単語(単語の属性を含む)を表している。また、関数δ(x,y)は頂点の置換重みを表すとし、単語の置換重みで求めることができる。また、q(x)は頂点xの挿入重みを表すとし、単語の挿入重みで求めることができる。また、r(x)は頂点xの脱落重みを表すとし、単語の脱落重みで求めることができる。
また、辺に関して、次のように定義する。
【0057】
【数2】
【0058】
初めに、上記した特願2002−071273号に記載された頂点と辺の対応関係に基づくRO木間の距離を求める方法を示す。
まず、RO木の根から深さ優先順で頂点と辺に番号を付ける。大きい番号を根とするRO木の部分から小さい番号を根とするRO木の部分の順で部分木間の距離を求めて、最後に全体的なRO木間の距離を求める。
【0059】
図6(a)〜図6(d)には、例えばRO木である2つの部分木を4つの態様について示してある。
RO木である部分木間の距離及び順序がある森間の距離に関して、次のように定義する。
【0060】
【数3】
【0061】
式1〜式4を用いて、同図(a)〜同図(d)のそれぞれに示される2つのRO木の間の距離を求めることができる。ここで、式1〜式4中で記号“A−B”は集合Aから集合Bの全ての要素を取り除く関数を表す。
【0062】
【数4】
【0063】
【数5】
【0064】
【数6】
【0065】
【数7】
【0066】
図7には、例えば順序がある2つの森を示してある。式5を用いて、これら2つの森の間の距離を求めることができる。ここで、記号|A|は集合Aの要素数を表す。
【0067】
【数8】
【0068】
なお、上記式1について、頂点xが葉(Ch(x)=NULL:空集合)である場合には、明らかに、上記式1の右側の第2項を計算する必要がないため、式6を用いて距離D(Ta(x),Tb(y))を求めることができる。
また、上記式1について、頂点yが葉(Ch(y)=NULL:空集合)である場合には、明らかに、上記式1の右側の第3項を計算する必要がないため、式7を用いて距離D(Ta(x),Tb(y))を求めることができる。
【0069】
【数9】
【0070】
【数10】
【0071】
同様に、上記式2について、頂点xが葉(Ch(x)=NULL:空集合)である場合には、明らかに、上記式2の右側の第2項を計算する必要がないため、式8を用いて距離を求めることができる。
また、上記式2について、頂点yが葉(Ch(y)=NULL:空集合)である場合には、明らかに、上記式2の右側の第3項を計算する必要がないため、式9を用いて距離を求めることができる。
【0072】
【数11】
【0073】
【数12】
【0074】
同様に、上記式3について、頂点xが葉(Ch(x)=NULL:空集合)である場合には、明らかに、上記式3の右側の第2項を計算する必要がないため、式10を用いて距離を求めることができる。
また、上記式3について、頂点yが葉(Ch(y)=NULL:空集合)である場合には、明らかに、上記式3の右側の第3項を計算する必要がないため、式11を用いて距離を求めることができる。
【0075】
【数13】
【0076】
【数14】
【0077】
同様に、上記式4について、頂点xが葉(Ch(x)=NULL:空集合)である場合には、明らかに、上記式4の右側の第2項を計算する必要がないため、式12を用いて距離を求めることができる。
また、上記式4について、頂点yが葉(Ch(y)=NULL:空集合)である場合には、明らかに、上記式4の右側の第3項を計算する必要がないため、式13を用いて距離を求めることができる。
【0078】
【数15】
【0079】
【数16】
【0080】
次に、上記した特願2002−071274号に記載された頂点と辺の対応関係に基づくR木間の距離を求める方法を示す。
まず、R木の根から深さ優先順で頂点と辺に番号を付ける。大きい番号を根とするR木の部分から小さい番号を根とするR木の部分の順で部分木間の距離を求めて、最後に全体的なR木間の距離を求める。
【0081】
【数17】
【0082】
式14を用いて、上記図7に示されるような例えば順序がない2つの森の間の距離を求めることができる。
【0083】
【数18】
【0084】
ここで、上記式14中のW(Mmax)は、図8に示すような2部グラフG(X,Y,E)の最大マッチングの重みである。
また、2部グラフG(X,Y,E)の頂点xi(∈X)と頂点yj(∈Y)の間の辺e(xi,yj)の重みw(e(xi,yj))を式15のように設定する。2部グラフG(X,Y,E)の最大マッチングの重みは、辺e(xi,yj)の重みw(e(xi,yj))の和の最大値に相当する。
【0085】
【数19】
【0086】
以上のような方法により、RO木間或いはR木間の距離D(Ta,Tb)=D(Ta(x=1),Tb(y=1))を求めることができる。
次に、意味内容比較部8は、式16或いは式17を用いて、テキスト文間の距離を求める。
ここで、D(S1,S2)は文S1と文S2との間の距離を表し、木T1は文S1の木構造(RO木或いはR木)を表し、木T2は文S2の木構造(RO木或いはR木)を表し、D(T1,T2)は木T1と木T2との間の距離を表す。
【0087】
【数20】
【0088】
【数21】
【0089】
次に、具体的な例を用いて、本発明の一実施例に係るテキスト文の意味内容の比較装置及び比較方法の動作を説明する。
本発明の一実施例に係るテキスト文の意味内容の比較装置を用いて、文A「妻の花子は風邪を引きました」と文B「妻は風邪を引きました」の間の類似度(或いは、相違度)を求める過程と結果を示す。本例では、単語と格の脱落重み及び挿入重みを70と設定し、単語間の置換重みを100と設定し、格間の置換重みを100と設定する。
【0090】
まず、文Aと文Bを形態素解析した後に、構文意味解析を行い、これにより、これら2つの文A、Bがそれぞれ図9(a)、図9(b)に示すような例えば根があり順序がある木TA、TBに変換される。
次に、上記式1を用いて変換された2つのRO木間の距離を計算し、最後に、上記式16或いは上記式17を用いて2つのテキスト文A、テキスト文Bの間の距離を求める。
【0091】
上記式16を用いた場合には、テキスト文A、B間の距離はD(A,B)=140となり、上記式17を用いた場合には、テキスト文A、B間の距離はD(A,B)=20(=140/7)となる。ここで、2つのRO木TA、TB間の距離はD(TA,TB)=140であり、2つのRO木TA、TBの頂点の総数は7である。
【0092】
図10には、距離D(TA,TB)を与えるRO木間の写像の一つを示している。同図に示されるように、2つのRO木TA、TB間の距離は、単語「花子」を脱落するのに必要な脱落重みである70と、格「ADJUNCT」を脱落するのに必要な脱落重みである70との和となっている。
【0093】
以上のように、本発明に係るテキスト文比較装置及び比較方法では、テキスト文を形態素解析し、意味解析を行い、解析されたテキスト文の全体の構文構造と意味をグラフ理論上のRO木或いはR木で表現し、つまり、テキスト文の全体の構文構造と意味をRO木或いはR木に変換し、テキスト文に出現した単語情報(単語の属性を含む)と単語間の係り受け関係(格)情報をそれぞれRO木或いはR木の頂点と辺に格納し、頂点と辺の対応関係に基づくRO木間或いはR木間の距離をテキスト文間の意味内容の相違を測る距離に適用して、RO木間或いはR木間の距離を用いてテキスト文間の意味内容の相違を比較することにより、入力された2つのテキスト文間の意味内容を高精度に且つ実時間で求めることができる。
【0094】
具体的には、本発明では、テキスト文間の距離を、テキスト文間の単語情報の違い、格情報の違い、及び文全体の構造上の違いによって定義したため、本発明に係る距離関数は次の3つの良い性質を有している。(1)意味が似ている且つ構造が似ている2つの文間の距離が非常に小さく評価される。(2)意味が異なる且つ構造が似ていない2つの文間の距離が非常に大きく評価される。(3)意味が異なるが、構造が似ている2つの文間の距離が単語情報の違いと格情報の違いによって評価される。これにより、2つのテキスト文間の距離を高精度に求めることができる。
【0095】
また、本例では、RO木については、木の頂点の数nの2乗のオーダー(O(n2))で計算することが可能であり、また、R木については、木の頂点の数nの2乗と木の最大の子供の数mのオーダー(O(mn2))で計算することが可能である。このように実時間での計算が可能である。
【0096】
ここで、本発明の構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。なお、本発明は、例えば本発明に係る方法を実現するためのプログラムなどとして提供することも可能である。
また、本発明の適用分野としては、必ずしも以上に示したものに限られず、本発明は、種々な分野に適用することが可能なものである。
【0097】
また、本発明において行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがROM(Read Only Memory)に格納された制御プログラムを実行することにより制御される構成が用いられてもよく、また、例えば当該処理を実行するための各機能手段が独立したハードウエア回路として構成されてもよい。
また、本発明は上記の制御プログラムを格納したフロッピー(登録商標)ディスクやCD(Compact Disc)−ROM等のコンピュータにより読み取り可能な記録媒体や当該プログラム(自体)として把握することもでき、当該制御プログラムを記録媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【0098】
【発明の効果】
以上説明したように、本発明に係るテキスト文比較装置やテキスト文比較方法によると、テキスト文の全体の構文と意味をグラフ理論上のRO木或いはR木で表現し、頂点と辺の対応関係に基づくRO木間の距離或いは頂点と辺の対応関係に基づくR木間の距離を用いてテキスト文間の意味内容の相違を比較することにより、入力された2つのテキスト文間の意味内容を高精度に且つ実時間で求めることができる。本発明により、例えば、ドキュメントの意味内容の比較や、意味内容によるドキュメントの分類だけではなく、ユーザの情報探索意図の理解なども可能になる。つまり、自然言語で表現したユーザの要求を、事前に学習して構築されたデータベースの中の内容と比較して、ユーザの情報探索意図を推定することができる。
【図面の簡単な説明】
【図1】 本発明の一実施例に係るテキスト文間の意味内容の比較装置の構成例を示す図である。
【図2】 本発明に係るテキスト文間の意味内容の比較装置及び比較方法を情報端末装置に適用した場合の構成例を示す図である。
【図3】 形態素解析部による解析結果の一例を示す図である。
【図4】 木構造の表現の一例を示す図である。
【図5】 格カテゴリ間の距離の表(リスト)のデータ構造の一例を示す図である。
【図6】 RO木或いはR木からなる2つの部分木の一例を示す図である。
【図7】 RO木或いはR木からなる2つの森の一例を示す図である。
【図8】 2部グラフの一例を示す図である。
【図9】 文Aと文Bの木構造を示す図である。
【図10】 文Aと文BのRO木間の距離を与える写像の一例を示す図である。
【符号の説明】
1、21・・外部記憶装置、 2・・形態素解析部、 3・・意味解析部、
4・・木構造変換部、 5・・単語写像重み計算部、
6・・格写像重み計算部、 7・・距離計算部、 8・・意味内容比較部、
9・・記憶部、 10〜18・・メモリ、 20・・情報端末装置、
22・・キーボード、 23・・ディスプレイ、 24・・プロセッサ部、
25・・モジュール、
Claims (26)
- テキスト文間の比較を行うテキスト文比較装置において、
比較対象となるテキスト文の全体の構造と意味をグラフ理論上の根がある木で表現する木表現手段と、
木表現手段により表現される木の各頂点に単語情報を付与するとともに各辺に単語間の係り受け関係情報である格情報を付与する情報付与手段と、
1本の木を他の1本の木へ変換するときの写像重みの和の最小値を、頂点の間の対応関係及び辺の間の対応関係に基づく木の間の距離として、定義する木間距離定義手段と、
木間距離定義手段により定義される木の間の距離を求める木間距離取得手段と、
木の間の距離をテキスト文間の相違を表す距離へ変換する演算式として、木の間の距離に比例した値をテキスト文間の相違を表す距離とする演算式を定義する木間距離適用手段と、
木間距離適用手段により定義された演算式に基づいて、比較対象となるテキスト文間の距離を求めるテキスト文間距離取得手段と、を備え、
木間距離定義手段は、木の各頂点及び各辺に情報を記憶するラベルを付けて、木の各頂点及び各辺に関する情報を当該ラベルに記憶するようにするラベル付け手段と、
木の各頂点及び各辺に番号を付ける番号付け手段と、
R木間の写像条件としては、頂点間の写像と辺間の写像に対して、1対1写像であり、親子関係を保存し、構造を保存し、頂点間の写像と辺間の写像が交差しない、という条件を用い、また、RO木間の写像条件としては、頂点間の写像と辺間の写像に対して、1対1写像であり、親子関係を保存し、兄弟間に左右の関係を保存し、構造を保存し、頂点間の写像と辺間の写像が交差しない、という条件を用いて、頂点間の対応関係及び辺間の対応関係に基づく木の間の写像条件を設定する木間写像条件設定手段と、
木間写像条件設定手段により設定される木の間の写像条件に基づいて木の間の写像を行う木間写像手段と、
頂点の挿入及び頂点の脱落と辺の挿入及び辺の脱落を用いて頂点間の対応関係及び辺間の対応関係に基づく森の間の写像を行う森間写像手段と、
木の頂点の間の写像の重み及び木の辺の間の写像の重みを設定する写像重み設定手段と、
森間の写像と写像の重みに基づく森間の距離を定義する森間距離定義手段と、
木間の写像と写像の重みに基づく木間の距離を定義する距離定義手段と、を有する、
ことを特徴とするテキスト文比較装置。 - 請求項1に記載のテキスト文比較装置において、
木表現手段は、テキスト文全体の構造と意味をグラフ理論上の根があり順序がある木で表現する、
ことを特徴とするテキスト文比較装置。 - 請求項1に記載のテキスト文比較装置において、
木表現手段は、テキスト文全体の構造と意味をグラフ理論上の根があり順序がない木で表現する、
ことを特徴とするテキスト文比較装置。 - 請求項1に記載のテキスト文比較装置において、
木表現手段は、テキスト文全体の構造と意味をグラフ理論上の根があり順序がある木で表現し、
森間写像手段は、頂点間の対応関係及び辺間の対応関係に基づく順序がある森の間の写像を行い、
森間距離定義手段は、順序がある森の間の写像と写像の重みに基づく順序がある森の間の距離を定義する、
ことを特徴とするテキスト文比較装置。 - 請求項1に記載のテキスト文比較装置において、
木表現手段は、テキスト文全体の構造と意味をグラフ理論上の根があり順序がない木で 表現し、
森間写像手段は、頂点間の対応関係及び辺間の対応関係に基づく順序がない森の間の写像を行い、
森間距離定義手段は、順序がない森の間の写像と写像の重みに基づく順序がない森の間の距離を定義する、
ことを特徴とするテキスト文比較装置。 - 請求項1乃至請求項5のいずれか1項に記載のテキスト文比較装置において、
木間距離適用手段は、単語の写像と木の頂点の写像とを対応させる単語写像対応手段と、
格の写像と木の辺の写像とを対応させる格写像対応手段と、
単語の写像の重みを設定する単語写像重み設定手段と、
格の写像の重みを設定する格写像重み設定手段と、
単語写像重みと木の頂点の写像重みとを対応させる単語写像重み対応手段と、
格写像重みと木の辺の写像重みとを対応させる格写像重み対応手段と、を有する、
ことを特徴とするテキスト文比較装置。 - 請求項6に記載のテキスト文比較装置において、
単語写像重み設定手段は、置換と脱落と挿入について、単語の写像の重みを設定し、
格写像重み設定手段は、置換と脱落と挿入について、格の写像の重みを設定し、
単語写像重み対応手段は、単語置換重みと木の頂点間の置換重みとを対応させる単語置換重み対応手段と、単語脱落重みと木の頂点の脱落重みとを対応させる単語脱落重み対応手段と、単語挿入重みと木の頂点の挿入重みとを対応させる単語挿入重み対応手段と、を有し、
格写像重み対応手段は、格置換重みと木の辺の間の置換重みとを対応させる格置換重み対応手段と、格脱落重みと木の辺の脱落重みとを対応させる格脱落重み対応手段と、格挿入重みと木の辺の挿入重みとを対応させる格挿入重み対応手段と、を有する、
ことを特徴とするテキスト文比較装置。 - 請求項6又は請求項7に記載のテキスト文比較装置において、
単語写像重み設定手段は、木の間の写像において2つの頂点が写像した場合に各頂点に格納されている単語の間の置換重みを設定する単語置換重み設定手段と、
木の間の写像において頂点が写像できなく脱落された場合に頂点に格納されている単語の脱落重みを設定する単語脱落重み設定手段と、
木の間の写像において頂点が写像できなく挿入された場合に頂点に格納されている単語の挿入重みを設定する単語挿入重み設定手段と、
単語置換重みと単語脱落重みと単語挿入重みとの間の関係を設定する単語写像重み関係設定手段と、を有する、
ことを特徴とするテキスト文比較装置。 - 請求項6乃至請求項8のいずれか1項に記載のテキスト文比較装置において、
格写像重み設定手段は、木の間の写像において2つの辺が写像した場合に各辺に格納されている格の間の置換重みを設定する格置換重み設定手段と、
木の間の写像において辺が写像できなく脱落された場合に辺に格納されている格の脱落重みを設定する格脱落重み設定手段と、
木の間の写像において辺が写像できなく挿入された場合に辺に格納されている格の挿入重みを設定する格挿入重み設定手段と、
格置換重みと格脱落重みと格挿入重みとの間の関係を設定する格写像重み関係設定手段と、を有する、
ことを特徴とするテキスト文比較装置。 - 請求項8に記載のテキスト文比較装置において、
単語置換重み設定手段は、2つの単語が同一の単語である場合には単語置換重みをゼロ と設定し、2つの単語が異なる場合には単語置換重みを正の定数と設定する、
ことを特徴とするテキスト文比較装置。 - 請求項8に記載のテキスト文比較装置において、
単語置換重み設定手段は、単語置換重みを2つの単語の間の距離の値と設定する、
ことを特徴とするテキスト文比較装置。 - 請求項8、請求項10、又は請求項11のいずれか1項に記載のテキスト文比較装置において、
単語脱落重み設定手段は、単語の脱落重みを定数と設定する、
ことを特徴とするテキスト文比較装置。 - 請求項8、請求項10、又は請求項11のいずれか1項に記載のテキスト文比較装置において、
単語脱落重み設定手段は、単語の脱落重みを単語の品詞に基づいて設定する、
ことを特徴とするテキスト文比較装置。 - 請求項8又は請求項10乃至請求項13のいずれか1項に記載のテキスト文比較装置において、
単語挿入重み設定手段は、単語の挿入重みを定数と設定する、
ことを特徴とするテキスト文比較装置。 - 請求項8又は請求項10乃至請求項13のいずれか1項に記載のテキスト文比較装置において、
単語挿入重み設定手段は、単語の挿入重みを単語の品詞に基づいて設定する、
ことを特徴とするテキスト文比較装置。 - 請求項8又は請求項10乃至請求項15のいずれか1項に記載のテキスト文比較装置において、
単語写像重み関係設定手段は、「単語脱落重み+単語挿入重み>単語置換重み」という関係を設定する、
ことを特徴とするテキスト文比較装置。 - 請求項9に記載のテキスト文比較装置において、
格置換重み設定手段は、2つの格が同一の格である場合には格置換重みをゼロと設定し、2つの格が異なる場合には格置換重みを正の定数と設定する、
ことを特徴とするテキスト文比較装置。 - 請求項9に記載のテキスト文比較装置において、
格置換重み設定手段は、全ての格を複数のカテゴリに分類する格分類手段と、格のカテゴリ間の置換重みを設定する格カテゴリ間置換重み設定手段と、を有し、格置換重みを2つの格が属しているカテゴリ間の置換重みと設定する、
ことを特徴とするテキスト文比較装置。 - 請求項9、請求項17、又は請求項18のいずれか1項に記載のテキスト文比較装置において、
格脱落重み設定手段は、格脱落重みを定数と設定する、
ことを特徴とするテキスト文比較装置。 - 請求項9、請求項17、又は請求項18のいずれか1項に記載のテキスト文比較装置において、
格脱落重み設定手段は、格脱落重みを格の種類に基づいて設定する、
ことを特徴とするテキスト文比較装置。 - 請求項9又は請求項17乃至請求項20のいずれか1項に記載のテキスト文比較装置において、
格挿入重み設定手段は、格挿入重みを定数と設定する、
ことを特徴とするテキスト文比較装置。 - 請求項9又は請求項17乃至請求項20のいずれか1項に記載のテキスト文比較装置において、
格挿入重み設定手段は、格挿入重みを格の種類に基づいて設定する、
ことを特徴とするテキスト文比較装置。 - 請求項9又は請求項17乃至請求項22のいずれか1項に記載のテキスト文比較装置において、
格写像重み関係設定手段は、「格脱落重み+格挿入重み>格置換重み」という関係を設定する、
ことを特徴とするテキスト文比較装置。 - 請求項1乃至請求項23のいずれか1項に記載のテキスト文比較装置において、
テキスト文間距離取得手段は、木間距離取得手段により求められる距離の値をテキスト文間の距離とする、
ことを特徴とするテキスト文比較装置。 - 請求項1乃至請求項23のいずれか1項に記載のテキスト文比較装置において、
テキスト文間距離取得手段は、木間距離取得手段により求められる距離の値を比較対象となる木の頂点数の和で割り算した結果をテキスト文間の距離とする、
ことを特徴とするテキスト文比較装置。 - テキスト文間の比較を行うテキスト文比較装置におけるテキスト文比較方法において、
前記テキスト文比較装置に備えられた木表現手段が、比較対象となるテキスト文の全体の構造と意味をグラフ理論上の根がある木で表現し、
前記テキスト文比較装置に備えられた情報付与手段が、木表現手段により表現される木の各頂点に単語情報を付与するとともに各辺に単語間の係り受け関係情報である格情報を付与し、
前記テキスト文比較装置に備えられた木間距離定義手段が、1本の木を他の1本の木へ変換するときの写像重みの和の最小値を、頂点の間の対応関係及び辺の間の対応関係に基づく木の間の距離として、定義し、
前記テキスト文比較装置に備えられた木間距離取得手段が、木間距離定義手段により定義される木の間の距離を求め、
前記テキスト文比較装置に備えられた木間距離適用手段が、木の間の距離をテキスト文間の相違を表す距離へ変換する演算式として、木の間の距離に比例した値をテキスト文間の相違を表す距離とする演算式を定義し、
前記テキスト文比較装置に備えられたテキスト文間距離取得手段が、木間距離適用手段により定義された演算式に基づいて、比較対象となるテキスト文間の距離を求め、
木間距離定義手段は、ラベル付け手段、番号付け手段、木間写像条件設定手段、木間写像手段、森間写像手段、写像重み設定手段、森間距離定義手段及び距離定義手段を有しており、
ラベル付け手段は、木の各頂点及び各辺に情報を記憶するラベルを付けて、木の各頂点及び各辺に関する情報を当該ラベルに記憶するようにし、
番号付け手段は、木の各頂点及び各辺に番号を付け、
木間写像条件設定手段は、R木間の写像条件としては、頂点間の写像と辺間の写像に対して、1対1写像であり、親子関係を保存し、構造を保存し、頂点間の写像と辺間の写像が交差しない、という条件を用い、また、RO木間の写像条件としては、頂点間の写像と辺間の写像に対して、1対1写像であり、親子関係を保存し、兄弟間に左右の関係を保存し、構造を保存し、頂点間の写像と辺間の写像が交差しない、という条件を用いて、頂点間の対応関係及び辺間の対応関係に基づく木の間の写像条件を設定し、
木間写像手段は、木間写像条件設定手段により設定される木の間の写像条件に基づいて木の間の写像を行い、
森間写像手段は、頂点の挿入及び頂点の脱落と辺の挿入及び辺の脱落を用いて頂点間の対応関係及び辺間の対応関係に基づく森の間の写像を行い、
写像重み設定手段は、木の頂点の間の写像の重み及び木の辺の間の写像の重みを設定し 、
森間距離定義手段は、森間の写像と写像の重みに基づく森間の距離を定義し、
距離定義手段は、木間の写像と写像の重みに基づく木間の距離を定義する、
ことを特徴とするテキスト文比較方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002269193A JP4038717B2 (ja) | 2002-09-13 | 2002-09-13 | テキスト文比較装置 |
US10/658,812 US7337106B2 (en) | 2002-09-13 | 2003-09-10 | Text sentence comparing apparatus |
CNB031593658A CN100464326C (zh) | 2002-09-13 | 2003-09-12 | 文本语句比较装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002269193A JP4038717B2 (ja) | 2002-09-13 | 2002-09-13 | テキスト文比較装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004110200A JP2004110200A (ja) | 2004-04-08 |
JP4038717B2 true JP4038717B2 (ja) | 2008-01-30 |
Family
ID=31986808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002269193A Expired - Fee Related JP4038717B2 (ja) | 2002-09-13 | 2002-09-13 | テキスト文比較装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7337106B2 (ja) |
JP (1) | JP4038717B2 (ja) |
CN (1) | CN100464326C (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7194464B2 (en) | 2001-12-07 | 2007-03-20 | Websense, Inc. | System and method for adapting an internet filter |
US20040243531A1 (en) * | 2003-04-28 | 2004-12-02 | Dean Michael Anthony | Methods and systems for representing, using and displaying time-varying information on the Semantic Web |
US20050060140A1 (en) * | 2003-09-15 | 2005-03-17 | Maddox Paul Christopher | Using semantic feature structures for document comparisons |
US9143393B1 (en) | 2004-05-25 | 2015-09-22 | Red Lambda, Inc. | System, method and apparatus for classifying digital data |
US8280719B2 (en) * | 2005-05-05 | 2012-10-02 | Ramp, Inc. | Methods and systems relating to information extraction |
GB0512744D0 (en) * | 2005-06-22 | 2005-07-27 | Blackspider Technologies | Method and system for filtering electronic messages |
US8020206B2 (en) | 2006-07-10 | 2011-09-13 | Websense, Inc. | System and method of analyzing web content |
US8615800B2 (en) | 2006-07-10 | 2013-12-24 | Websense, Inc. | System and method for analyzing web content |
US9654495B2 (en) * | 2006-12-01 | 2017-05-16 | Websense, Llc | System and method of analyzing web addresses |
GB2458094A (en) * | 2007-01-09 | 2009-09-09 | Surfcontrol On Demand Ltd | URL interception and categorization in firewalls |
US8131536B2 (en) * | 2007-01-12 | 2012-03-06 | Raytheon Bbn Technologies Corp. | Extraction-empowered machine translation |
US9015047B1 (en) * | 2007-02-12 | 2015-04-21 | West Corporation | Automatic speech recognition reporting |
GB0709527D0 (en) | 2007-05-18 | 2007-06-27 | Surfcontrol Plc | Electronic messaging system, message processing apparatus and message processing method |
US8799285B1 (en) * | 2007-08-02 | 2014-08-05 | Google Inc. | Automatic advertising campaign structure suggestion |
US7890539B2 (en) * | 2007-10-10 | 2011-02-15 | Raytheon Bbn Technologies Corp. | Semantic matching using predicate-argument structure |
US9378282B2 (en) * | 2008-06-30 | 2016-06-28 | Raytheon Company | System and method for dynamic and real-time categorization of webpages |
EP2443580A1 (en) | 2009-05-26 | 2012-04-25 | Websense, Inc. | Systems and methods for efficeint detection of fingerprinted data and information |
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
US8694304B2 (en) | 2010-03-26 | 2014-04-08 | Virtuoz Sa | Semantic clustering and user interfaces |
US9378202B2 (en) | 2010-03-26 | 2016-06-28 | Virtuoz Sa | Semantic clustering |
US8725771B2 (en) * | 2010-04-30 | 2014-05-13 | Orbis Technologies, Inc. | Systems and methods for semantic search, content correlation and visualization |
US8380719B2 (en) * | 2010-06-18 | 2013-02-19 | Microsoft Corporation | Semantic content searching |
US11068657B2 (en) * | 2010-06-28 | 2021-07-20 | Skyscanner Limited | Natural language question answering system and method based on deep semantics |
US9524291B2 (en) * | 2010-10-06 | 2016-12-20 | Virtuoz Sa | Visual display of semantic information |
JP2013105321A (ja) * | 2011-11-14 | 2013-05-30 | Hitachi Ltd | 文書処理装置、文書構成要素間の関係解析方法およびプログラム |
CN103823838B (zh) * | 2013-12-18 | 2018-07-20 | 国网江苏省电力有限公司常州供电分公司 | 一种多格式文档录入并比对的方法 |
JP6638480B2 (ja) * | 2016-03-09 | 2020-01-29 | 富士通株式会社 | 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法 |
JP6555704B1 (ja) * | 2019-04-08 | 2019-08-07 | 株式会社AI Samurai | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム |
CN110069624B (zh) * | 2019-04-28 | 2021-05-04 | 北京小米智能科技有限公司 | 文本处理方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5146406A (en) * | 1989-08-16 | 1992-09-08 | International Business Machines Corporation | Computer method for identifying predicate-argument structures in natural language text |
US5966686A (en) * | 1996-06-28 | 1999-10-12 | Microsoft Corporation | Method and system for computing semantic logical forms from syntax trees |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6112168A (en) * | 1997-10-20 | 2000-08-29 | Microsoft Corporation | Automatically recognizing the discourse structure of a body of text |
JP3429184B2 (ja) * | 1998-03-19 | 2003-07-22 | シャープ株式会社 | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
US7016829B2 (en) * | 2001-05-04 | 2006-03-21 | Microsoft Corporation | Method and apparatus for unsupervised training of natural language processing units |
-
2002
- 2002-09-13 JP JP2002269193A patent/JP4038717B2/ja not_active Expired - Fee Related
-
2003
- 2003-09-10 US US10/658,812 patent/US7337106B2/en not_active Expired - Fee Related
- 2003-09-12 CN CNB031593658A patent/CN100464326C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN100464326C (zh) | 2009-02-25 |
CN1495639A (zh) | 2004-05-12 |
US7337106B2 (en) | 2008-02-26 |
US20040054521A1 (en) | 2004-03-18 |
JP2004110200A (ja) | 2004-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4038717B2 (ja) | テキスト文比較装置 | |
JP2004110161A (ja) | テキスト文比較装置 | |
US9613024B1 (en) | System and methods for creating datasets representing words and objects | |
CN104991891B (zh) | 一种短文本特征提取方法 | |
US9323741B2 (en) | System and method for searching functions having symbols | |
CA2886581C (en) | Method and system for analysing sentiments | |
US20160350288A1 (en) | Multilingual embeddings for natural language processing | |
Gómez-Adorno et al. | Automatic authorship detection using textual patterns extracted from integrated syntactic graphs | |
Broda et al. | Measuring Readability of Polish Texts: Baseline Experiments. | |
CN107180045A (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
JP5754019B2 (ja) | 同義語抽出システム、方法およびプログラム | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
Nassiri et al. | Modern standard Arabic readability prediction | |
CN108563635A (zh) | 一种基于情感轮模型的情感词典快速构建方法 | |
CN112417868A (zh) | 一种基于情绪分数和主题模型的区块链新闻可视化方法 | |
Aoumeur et al. | Improving the polarity of text through word2vec embedding for primary classical arabic sentiment analysis | |
Koltsova et al. | PolSentiLex: sentiment detection in socio-political discussions on Russian social media | |
Yadav et al. | Graph-based extractive text summarization based on single document | |
Elbarougy et al. | Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers. | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
Rizun et al. | Improving the accuracy in sentiment classification in the light of modelling the latent semantic relations | |
Ali et al. | Word embedding based new corpus for low-resourced language: Sindhi | |
Zurini | Stylometry metrics selection for creating a model for evaluating the writing style of authors according to their cultural orientation | |
JP4622272B2 (ja) | 言語処理装置、言語処理方法およびプログラム | |
JP4026480B2 (ja) | 構文解析結果の代表決定装置及び意味解析結果の代表決定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070724 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070921 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20071003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071024 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131116 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |