JP2004272352A

JP2004272352A - 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体

Info

Publication number: JP2004272352A
Application number: JP2003058542A
Authority: JP
Inventors: Jun Suzuki; 潤鈴木; Eisaku Maeda; 英作前田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-03-05
Filing date: 2003-03-05
Publication date: 2004-09-30
Anticipated expiration: 2023-03-05
Also published as: JP4073015B2

Abstract

【課題】テキストの構造を反映してテキスト間の類似度を簡単に算出できるようにする。
【解決手段】テキストを階層を許した非循環有向グラフで表現する。類似度計算装置は、テキストに対して形態素解析を行う形態素解析部１４と、文節へのまとめ上げを行う文節解析部１５と、文節に関して依存関係を決定する依存関係解析部１６と、形態素解析の結果、文節へのまとめ上げの結果および依存関係の解析結果に基づいて、処理対象のテキストに対応する階層を許した非循環有向グラフを生成する非循環有向グラフ生成部１７と、非循環有向グラフ間の類似度を計算してテキスト間の類似度として出力する類似度計算部１９と、を備える。非循環有向グラフにおける全部分パス中の一致する部分パス数の総和として、非循環有向グラフ間の類似度が定められる。再帰式によって類似度を計算することが好ましい。
【選択図】図４

Description

【０００１】
【発明の属する技術分野】
本発明は、入力されたテキスト間の類似度を計算する方法及び装置に関する。
【０００２】
【従来の技術】
あるテキストと別のあるテキストとが構造的、意味的、内容的に相互にどの程度類似性があるかを効率的に計算する手法に、関心が集まっている。例えば、テキスト分類タスクは、計算機を用いて、特徴が類似しているテキストを一つのカテゴリとしてまとめ上げることを目的としている。つまり、各テキストがどの程度「似ているか」という類似度指標がテキスト分類において重要な要素である、と考えることができる。また、テキストによる質問応答技術でも、被検索対象となるテキスト集合から質問との類似度が高いテキストを抽出することを目的としていることから、テキスト間の類似度の計算が重要な役割を果たす。このように、テキスト処理の分野では、テキスト間の類似度を必要とするアプリケーションは数多く存在する。
【０００３】
テキストの特徴を表現する方法として、テキスト中の各出現単語をベクトルの一つの要素と考え、単語の出現回数を値とし、与えられたテキストをｎ次元ベクトル（ｎ；単語数）に変換する方法がある。このような出現単語を要素として、テキストの特徴をベクトルで表わす方法は、「ｂｕｇｏｆｗｏｒｄｓ」と呼ばれる。つまり、テキストは単語の集合で特徴付けられると考える方法である。このような単語ベクトルでテキストを表現する方法は、テキスト分類などの類似度計算時に、現在、最もよく用いられている方法である（非特許文献１）。
【０００４】
また、テキスト間の類似度を計算する方法として、最も一般的かつ効率的な方法は、テキストから得られたｎ次元の単語ベクトルの内積あるいはコサイン（余弦）距離を計算する方法である。具体的な計算式を以下に示す。図１に単語ベクトルのコサイン距離による類似度計算方法を示す。また、具体的な計算式は次式で表わされる。
【０００５】
【数１】

【０００６】
図１に示したものは、それぞれ「私は車を買った」、「私の買った車」及び「私は家を買う」であるテキストＴ１〜Ｔ３に対し、各テキスト内の単語（表層）について原形と品詞とを求め、単語ベクトルによって類似度を計算したものである。ここで、原形だけを用いて単語ベクトルを作成した場合には、Ｔ１とＴ２との類似度（Ｔ１＊Ｔ２）は０．７３０であり、同様に、Ｔ２＊Ｔ３として０．４が、Ｔ１＊Ｔ３として０．７３０が得られている。また、原形と品詞とを用いて類似度を計算すると、Ｔ１＊Ｔ２＝０．８６６、Ｔ２＊Ｔ３＝０．６９４及びＴ１＊Ｔ３＝０．８６８が得られている。
【０００７】
一般的に、テキスト中には構造が存在すると考えられている。また、その構造がテキストの意味を形成すると考えられている。最も大きな構造としては、段落、文、文節、形態素といったテキスト内の文字の意味のあるまとまりが考えられ、それ以外にも、文節の依存関係や、照応関係、単語の出現順序などが考えられる。図２は、テキストの構造の一例を示している。
【０００８】
前述のように、単語ベクトルを用いた方法では、テキスト中の各出現単語単体に着目するが、単語がテキスト中でどのように出現したかは考慮されない。つまり、対象とする単語が、どの単語の前に出現したか、どの単語の後に出現したか、どの単語と係り受けの関係にあるか、といったテキスト内に含まれる意味的、構造的な特徴は考慮されない。このような方法では、テキストの特徴をよく反映したテキストの類似度とはいえない。単語が表わす性質は、語の依存関係や、意味的な構造から語自体の意味や性質が決定することが多い。具体的な例として、いわゆる多義語は、構造を無視した時点で、その語がどのような意味でテキスト中に出現したかを判定することは、困難になる。
【０００９】
テキスト中の構造をベクトル表現に置き換える方法も考えられるが、例えば、単語の組み合わせをベクトルの要素にする方法を考えた場合、単語数は数万語であり、かつ、その組み合わせ数は指数関数的に増加することから、数え上げるのは現実的とはいえない。以上の理由から、この方法は、実際に用いられることはない。また、部分的な構造として、限定した組み合わせのみをベクトル中の要素として扱う方法もあるが、結局、複雑なテキストの構造を的確に扱うことはできない。
【００１０】
このように、単語ベクトルを用いる方法、あるいはその拡張としてある程度の構造を考慮する方法は、非常に容易かつ効率的ではあるが、テキストの特徴を十分に反映した類似尺度であるとは言いがたい。
【００１１】
【非特許文献１】
Ｓａｌｔｏｎ，Ｇ．，Ｗｏｎｇ，Ａ．ａｎｄＹａｎｇ，Ｃ．： ”ＡＶｅｃｔｏｒＳｐａｃｅＭｏｄｅｌｆｏｒＡｕｔｏｍａｔｉｃＩｎｄｅｘｉｎｇ，” ＣｏｍｍｕｎｉｃａｔｉｏｎｏｆｔｈｅＡＣＭ，Ｖｏｌ．１１，Ｎｏ．１８，ｐｐ．６１３−６２０（１９７５）
【００１２】
【発明が解決しようとする課題】
以上説明したように、現状では、テキストの類似度の評価に際してテキストの構造そのものを計算機で扱うのは難しいという課題と、さらに、構造を考慮した類似度を計算するためには、計算が複雑かつ時間がかかるという課題がある。
【００１３】
そこで本発明の目的は、テキストの構造を反映してテキスト間の類似度を簡単に算出できる方法および装置を提供し、さらに、構造を考慮した類似度の計算における計算を簡単かつ計算量の少ないものとすることができる方法及び装置を提供することにある。
【００１４】
【課題を解決するための手段】
１点目の課題であるテキストの構造は扱いが困難であるという課題を解決するために、本発明は、テキストが持つ構造を非循環有向グラフとみなす方法を提案する。
【００１５】
すなわち本発明の類似度計算方法は、類似度計算対象のテキストを入力するステップと、入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現するステップと、非循環有向グラフの相互の類似度を計算するステップと、計算した類似度をテキスト間の類似度として出力するステップと、を有する。
【００１６】
また本発明の類似度計算装置は、テキストを入力するテキスト入力部と、入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現する非循環有向グラフ生成手段と、類似度計算対象である１対のテキストにそれぞれ対応する第１および第２の非循環有向グラフを格納するグラフ格納部と、グラフ格納部に格納された第１および第２の非循環有向グラフの相互の類似度を計算して計算した類似度をテキスト間の類似度として出力する類似度計算部と、を有する。
【００１７】
このような本発明においては、テキストの構造を考慮した類似度の計算を、非循環有向グラフ同士の類似度を計算することと等価であると考えることができる。また、テキストの構造は複雑であるが、非循環有向グラフの制約内で十分記述可能である。このように非循環有向グラフとして考えることにより、ノードを単語、リンクを構造というように、自然にテキストの構造を記述することができる。つまり、従来の手法のようにベクトル表現のような一次元の配列に置き換えるわけではないため、より直観的、直接的にテキストの構造を表現することができる。図２からも、テキストを、階層を許した非循環有向グラフで捉えることができることが分かる。
【００１８】
２点目のテキストの構造を考慮した類似度を計算しようとすると計算が複雑かつ時間がかかるという課題を解決するために、本発明では、テキスト間の類似度の計算式を再帰的に定義し、全部分を陽に計算することなく全体の類似度を計算する方法を提案する。本発明では、テキストを非循環有向グラフとみなすため、２つの非循環有向グラフ中の全部分パス中で一致する部分パス数の重み付き総和を、２つの非循環有向グラフの類似度として扱う。図３は、本発明で用いる階層を許した非循環有向グラフの部分パスの一例を示している。ここでは、部分パスとしてノード単体も含むことにする。また、パス同士の一致度を計算する際に、始点及び終点以外の中間ノードの差異、伸縮を許した一致も数え上げる。ただしこの場合は、ペナルティλを与えて類似度を計算する。このペナルティが類似度計算時の重みとなる。これにより、完全一致でない柔軟な類似度を計算することが可能になる。
【００１９】
このように、ラベルの差異なども許した全部分パスの一致数を陽に数え上げるのは、ノード数が多くなった場合には、非常に困難であると推測できる。しかし実際の計算では、全部分パスを陽に数え上げてその中から一致するパスを数え上げるのではなく、再帰計算式を定義することで、効率的に一致する部分パスの総和を計算することが可能である。また、類似度を計算する対象を２つに限定して計算することで、効率的な計算が可能となる。これは、カーネル法によるカーネルトリックと呼ばれている計算方法の一種と考えられるものであって、ある２つのテキスト間の内積形を定義することで、実際に全ての要素を陽に展開することなく高次元の計算を低次元の内積計算に置き換える方法である。この方法と同様に、本発明では、対象となるテキストの部分パスを陽に全展開することなく、再帰式で定義される計算式から、効率的に計算することが可能である。
【００２０】
階層を許した２つの非循環有向グラフの類似度は、以下の式で与えられる。
【００２１】
【数２】

【００２２】
つまり、各ノードの関数Ｋ（・，・）の値の総和で与えられる。関数Ｋ（・，・）は、以下の再帰式で定義することができる。
【００２３】
【数３】

【００２４】
次に、
【００２５】
【数４】

【００２６】
の定義を以下のように与える。
【００２７】
【数５】

【００２８】
ノード中にグラフを含んでいない場合には（６−１）式となり、グラフを含む場合には（６−２）式となる。
【００２９】
最後に、
【００３０】
【数６】

【００３１】
を計算するための関数Ｋ″（・，・）は、以下の式で定義される。
【００３２】
【数７】

【００３３】
これらの再帰式を計算することにより、結果的には階層を許した非循環有向グラフの全部分パスの一致した数を計算するとの等しい結果が得られる。また、計算量はＯ（｜Ｇ_１｜｜Ｇ_２｜）となり、各々のグラフに含まれるノード数の積に比例した計算量で計算することが可能である。
【００３４】
【発明の実施の形態】
次に、本発明の好ましい実施の形態について、図面を参照して説明する。
【００３５】
図４は、本発明の実施の一形態の類似度計算装置の構成を示すブロック図であり、図５は、本実施形態での類似度の計算手順を示すフローチャートである。
【００３６】
図４に示した装置は、入力テキストが入力するテキスト入力部１１と、入力テキストを格納するテキスト格納部１２と、テキスト格納部１２内のテキストに対して形態素解析を行う形態素解析部１４と、形態素解析部１４での形態素解析の結果に基づいて文節へのまとめ上げを行う文節解析部１５と、文節解析部１５で得られた文節に関して依存関係を決定する依存関係解析部１６と、形態素解析の結果、文節へのまとめ上げの結果および依存関係の解析結果に基づいて、処理対象のテキストに対応する階層を許した非循環有向グラフを生成する非循環有向グラフ生成部１７と、生成した非循環有向グラフを格納するグラフ格納部１８と、グラフ格納部１８に格納されたそれぞれ異なるテキストに対応する２つの非循環有向グラフを取り出して、これら２つの非循環有向グラフ間の類似度を計算して出力する類似度計算部１９と、を備えている。類似度計算部１９は、上述した再帰式を用いた計算手法によって類似度を計算するために、非循環有向グラフのノードを計算順序でソートするソート処理部２１と、ソートされた順序にしたがって再帰計算を行うための再帰計算部２２とを備えている。
【００３７】
次に、本実施形態におけるテキスト間の類似度を計算する手順について、説明する。本実施形態の計算手順は、大まかに言うと、
（１）比較対象となる２つのテキストを選択
（２）階層を許した非循環有向グラフにテキストを変換
（３）選択されたテキスト間の類似度を計算
（３．１）各非循環有向グラフを計算順序にソート
（３．２）ソートされた順序にしたがって再帰式を計算
の各手順からなっている。最も効率的に再帰的に計算するために、手順（３．１）において、階層を許した非循環有向グラフ中の各ノードの計算順序を決める必要がある。ただし、非循環有向グラフの性質として、既に半順序が決定している。半順序が保たれていれば、効率的に計算することができる。
【００３８】
ここで、２つの入力テキスト（テキストＡとテキストＢ）の間の類似度を計算するものとすると、図５に示すように、ステップ１０１においてテキスト入力部１１においてテキストＡ及びテキストＢを受け取ってテキスト格納部１２に格納し、各テキストごとに、ステップ１０２において形態素解析部１４によって形態素解析を行い、ステップ１０３において文節解析部１５によって形態素を文節にまとめ上げ、ステップ１０４において依存関係解析部１６によって文節間の依存関係を決定し、ステップ１０５において非循環有向グラフ生成部１７によってテキストから階層を許した非循環有向グラフへの変換を行って、生成した非循環有向グラフをグラフ格納部１８に格納する。このようにして、テキストＡ及びテキストＢにそれぞれ対応する非循環有向グラフＡ及び非循環有向グラフＢがグラフ格納部１８に格納されると、類似度計算部１９は、グラフ格納部１８からこれら非循環有向グラフＡ，Ｂを取り出して、両方の非循環有向グラフ間の類似度を計算する。この計算に際しては、ソート処理部２１が、非循環有向グラフＡ，Ｂのノードを計算順序でソートし、再帰計算部２２が、ソートされた順序にしたがって上述したように再帰計算を行う。
【００３９】
【実施例】
以下、実例を挙げて、本発明によるテキスト間類似度の計算を説明する。ここでは、「私は車を買った」、「私の買った車」、「私は家を買う」という３つの入力テキストＴ_１〜Ｔ_３について、任意の２者間の類似度を計算する場合を例に挙げて説明する。
【００４０】
最初に、「私は車を買った」、「私の買った車」、「私は家を買う」の各テキストＴ_１〜Ｔ_３を、階層を許した非循環有向グラフで記述する方法を説明する。ここで「階層を許した」とは、上述したように、（下位階層の）非循環有向グラフがグラフのノードとして許されることを意味する。
【００４１】
まず、これらの入力テキストに対して形態素解析を行い、品詞を付与する（図５のステップ１０２）。その結果、図６に示すような結果が得られる。なお、活用語はその終止形で示されている。例えば「私は車を買った」のテキストＴ_１は、「私（名詞）＋は（助詞）＋車（名詞）＋を（助詞）＋買う（動詞）＋た（助動詞）」のように品詞が付与される。
【００４２】
次に、これらの形態素を文節単位にまとめ上げる（図５のステップ１０３）。その結果、図７に示すような結果が得られる。文節も、テキスト内での意味的なまとまりである。文節を［・］で表わすものとすると、「私は車を買った」のテキストであれば、「［私（名詞）＋は（助詞）］＋［車（名詞）＋を（助詞）］＋［買う（動詞）＋た（助動詞）］」と文節にまとめあげられる。これらが、階層を許した非循環有向グラフのノード及びその属性を構成する。具体的には、各文節がそれぞれ非循環有向グラフのノードとなるとともに、文節ごとに、形態素（単語）をノードとする下位階層の非循環有向グラフが構成されることになる。
【００４３】
次に、ここで作成した形態素及び文節（ノード）間の依存関係を決定することによって（図５のステップ１０４）、入力テキストに対する階層を許した非循環有向グラフを生成する（図５のステップ１０５）。ここでは、文節間依存情報を用いた例を示す。上述した入力テキストに対応する、階層を許した非循環有向グラフとして、最終的に図８に示した非循環有向グラフＧ_１〜Ｇ_３が得られる。これらの各非循環有向グラフＧ_１〜Ｇ_３において、自己に対する類似度すなわち、Ｋ（Ｇ_１，Ｇ_１），Ｋ（Ｇ_２，Ｇ_２），Ｋ（Ｇ_３，Ｇ_３）は、それぞれ、９９，１０７．８７５，５０である。なお、形態素解析による品詞の付与と、文節へのまとめあげと、形態素及び文節間の依存関係の決定とは、この技術分野において周知の技術であるから、その詳細な手順については説明しない。
【００４４】
「私は車を買った」のテキストであれば、文節「［私（名詞）＋は（助詞）］がノードｎ１、その文節中の「私」、「は」がそれぞれノードｎ２，ｎ３、文節［車（名詞）＋を（助詞）］がノードｎ４、その文節中の「車」、「を」がそれぞれノードｎ５，ｎ６、文節［買う（動詞）＋た（助動詞）］がノードｎ７、その文節中の「買う」、「た」がそれぞれノードｎ８，ｎ９となっている。そして、これらノード間に、ｎ１はｎ７に係り、ｎ４もｎ７に係り、ｎ２はｎ３に係り、ｎ５はｎ６に係り、ｎ８はｎ９に係る、という文法的関係が存在し、それらが階層を許した非循環有向グラフとして表わされる。
【００４５】
次に、このようにして入力テキスト「私は車を買った」、「私の買った車」、「私は家を買う」のそれぞれに対する、階層を許した非循環有向グラフＧ_１〜Ｇ_３が得られたとして、これらの入力テキスト間の類似度を計算する例を説明する。ここで、表１〜表３は、各ノードの
【００４６】
【数８】

【００４７】
の値を示す。実際の計算では、ソートされたノード順に計算することで、効率的に、再帰式をすることが可能となる。また、ペナルティλ＝０．５として計算を行った。
【００４８】
【表１】

【００４９】
【表２】

【００５０】
【表３】

【００５１】
その結果、各入力テキスト間相互の類似度として、
【００５２】
【数９】

【００５３】
が得られる。
【００５４】
以上本発明の好ましい実施の形態について説明したが、本発明に基づく類似度計算装置は、一般には、コンピュータおよびその上で動作するソフトウェアによって実現される。すなわち、上述した類似度計算装置を実現するためのプログラムを、コンピュータに読込ませ、そのプログラムを実行させることによって、本発明による類似度計算装置が実現され、また本発明の類似度計算方法が実行される。これらのプログラムは、磁気テープやＣＤ−ＲＯＭなどの記録媒体によって、あるいはネットワークを介して、コンピュータに読込まれるものである。
【００５５】
以上説明した実施の形態では、狭義のテキスト、すなわち自然言語における単語の意味のあるつながりを、テキストとして扱っている。しかしながら本発明の適用先はこれに限られるものではない。すなわち本発明は、広義のテキスト、すなわち非循環有向グラフで記述可能な離散データに対して広く適用することが可能である。このような離散データで表現されるオブジェクトとは、例えば、文書、遺伝子配列、タンパク質におけるアミノ酸配列、量子化後の音声データ、画像、様々な形式のデータベースなど、そのものが何かの意味を持つ対象（オブジェクト）である。本発明は、これら一つ一つのオブジェクトを表わす情報を、階層を許した非循環有向グラフで記述可能であれば、適用することが可能である。逆に言えば、例で示したオブジェクト以外でも、階層を許した非循環有向グラフで記述可能な構造をもったオブジェクトであれば、どのようなオブジェクトに対しても類似度を計算することが可能である。
【００５６】
【発明の効果】
以上説明したように本発明は、階層を許した非循環有向グラフを用いることにより、これまで扱いが困難であるとされていた構造を考慮した対象の比較を容易に、かつ高速に計算することが可能となる。また、テキストの構造を非循環有向グラフで表わすことにより、自然な形でテキストの構造を記述することができる。本発明を用いることにより、構造を考慮したテキストの類似度計算を高速かつ実用的な時間で計測することが可能となり、実用システムへの応用が実質的に可能となる。
【図面の簡単な説明】
【図１】単語ベクトルのコサイン距離による類似度計算方法を説明する図である。
【図２】テキストにおける構造の一例を示す図である。
【図３】階層を許した非循環有向グラフの部分パスの一例を示す図である。
【図４】本発明の実施の一形態の類似度計算装置の構成を示すブロック図である。
【図５】テキスト間の類似度の計算手順を示すフローチャートである。
【図６】形態素解析の結果を示す図である。
【図７】文節単位へのまとめ上げの結果を示す図である。
【図８】得られた非循環有向グラフを示す図である。
【符号の説明】
１１テキスト入力部
１２テキスト格納部
１４形態素解析部
１５文節解析部
１６依存関係解析部
１７非循環有向グラフ生成部
１８グラフ格納部
１９類似度計算部
２１ソート処理部
２２再帰計算部
１０１〜１０７ステップ

Claims

テキスト間の類似度を計算する類似度計算方法であって、
類似度計算対象のテキストを入力するステップと、
入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現するステップと、
前記非循環有向グラフの相互の類似度を計算するステップと、
計算した類似度を前記テキスト間の類似度として出力するステップと、
を有する、類似度計算方法。
前記非循環有向グラフの相互の類似度は、各非循環有向グラフにおける全部分パス中の一致する部分パス数の重み付きの総和として与えられる、請求項１に記載の類似度計算方法。
再帰式を用いて前記非循環有向グラフの相互の類似度を算出する、請求項２に記載の類似度計算方法。
前記表現するステップは、入力したテキストに対して形態素解析を行うステップと、前記形態素解析の結果に基づいて文節のまとめ上げを行うステップと、まとめ上げられた前記文節間の依存関係を決定するステップとを有し、前記依存関係に基づいてそれぞれの非循環有向グラフが表現される、請求項１乃至３のいずれか１項に記載の類似度計算方法。
テキスト間の類似度を計算する類似度計算装置であって、
テキストを入力するテキスト入力部と、
入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現する非循環有向グラフ生成手段と、
類似度計算対象である１対のテキストにそれぞれ対応する第１および第２の非循環有向グラフを格納するグラフ格納部と、
前記グラフ格納部に格納された前記第１および第２の非循環有向グラフの相互の類似度を計算して計算した類似度を前記テキスト間の類似度として出力する類似度計算部と、
を有する、類似度計算装置。
前記類似度計算部は、前記各非循環有向グラフのノードを計算順序でソートするソート処理部と、ソートされた順番にしたがって再帰式を計算する再帰計算部とを有し、前記第１および第２の非循環有向グラフにおける全部分パス中の一致する部分パス数の総和として与えられる前記第１および第２の非循環有向グラフの相互の類似度を再帰計算によって計算する、請求項５に記載の類似度計算装置。
前記非循環有向グラフ生成手段は、入力したテキストに対して形態素解析を行う形態素解析部と、前記形態素解析部での解析結果に基づいて文節のまとめ上げを行う文節解析部と、前記文節解析部でまとめ上げられた前記文節間の依存関係を決定する依存関係解析部とを有し、前記依存関係に基づいて前記非循環有向グラフを表現する、請求項５または６に記載の類似度計算装置。
コンピュータを、
テキストを入力するテキスト入力手段と、
入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現する非循環有向グラフ生成手段と、
類似度計算対象である１対のテキストにそれぞれ対応する第１および第２の非循環有向グラフを格納するグラフ格納手段と、
前記グラフ格納部に格納された前記第１および第２の非循環有向グラフの相互の類似度を計算して計算した類似度を前記テキスト間の類似度として出力する類似度計算手段と、
として機能させるためのプログラム。
前記類似度計算手段は、前記各非循環有向グラフのノードを計算順序でソートするソート処理手段と、ソートされた順番にしたがって再帰式を計算する再帰計算手段とを備え、前記プログラムによって、前記コンピュータは、前記第１および第２の非循環有向グラフにおける全部分パス中の一致する部分パス数の総和として与えられる前記第１および第２の非循環有向グラフの相互の類似度を再帰計算によって計算する、請求項８に記載のプログラム。
前記非循環有向グラフ生成手段は、入力したテキストに対して形態素解析を行う形態素解析手段と、前記形態素解析部での解析結果に基づいて文節のまとめ上げを行う文節解析手段と、まとめ上げられた前記文節間の依存関係を決定する依存関係解析手段とを備え、前記プログラムによって、前記コンピュータは、前記依存関係に基づいて前記非循環有向グラフを表現する、請求項８または９に記載のプログラム。
コンピュータが読み取り可能な記録媒体であって、請求項８乃至１０のいずれか１項に記載のプログラムを格納した記録媒体。