JP2004272352A - 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 - Google Patents

類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 Download PDF

Info

Publication number
JP2004272352A
JP2004272352A JP2003058542A JP2003058542A JP2004272352A JP 2004272352 A JP2004272352 A JP 2004272352A JP 2003058542 A JP2003058542 A JP 2003058542A JP 2003058542 A JP2003058542 A JP 2003058542A JP 2004272352 A JP2004272352 A JP 2004272352A
Authority
JP
Japan
Prior art keywords
similarity
acyclic directed
text
calculation
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003058542A
Other languages
English (en)
Other versions
JP4073015B2 (ja
Inventor
Jun Suzuki
潤 鈴木
Eisaku Maeda
英作 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003058542A priority Critical patent/JP4073015B2/ja
Publication of JP2004272352A publication Critical patent/JP2004272352A/ja
Application granted granted Critical
Publication of JP4073015B2 publication Critical patent/JP4073015B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】テキストの構造を反映してテキスト間の類似度を簡単に算出できるようにする。
【解決手段】テキストを階層を許した非循環有向グラフで表現する。類似度計算装置は、テキストに対して形態素解析を行う形態素解析部14と、文節へのまとめ上げを行う文節解析部15と、文節に関して依存関係を決定する依存関係解析部16と、形態素解析の結果、文節へのまとめ上げの結果および依存関係の解析結果に基づいて、処理対象のテキストに対応する階層を許した非循環有向グラフを生成する非循環有向グラフ生成部17と、非循環有向グラフ間の類似度を計算してテキスト間の類似度として出力する類似度計算部19と、を備える。非循環有向グラフにおける全部分パス中の一致する部分パス数の総和として、非循環有向グラフ間の類似度が定められる。再帰式によって類似度を計算することが好ましい。
【選択図】 図4

Description

【0001】
【発明の属する技術分野】
本発明は、入力されたテキスト間の類似度を計算する方法及び装置に関する。
【0002】
【従来の技術】
あるテキストと別のあるテキストとが構造的、意味的、内容的に相互にどの程度類似性があるかを効率的に計算する手法に、関心が集まっている。例えば、テキスト分類タスクは、計算機を用いて、特徴が類似しているテキストを一つのカテゴリとしてまとめ上げることを目的としている。つまり、各テキストがどの程度「似ているか」という類似度指標がテキスト分類において重要な要素である、と考えることができる。また、テキストによる質問応答技術でも、被検索対象となるテキスト集合から質問との類似度が高いテキストを抽出することを目的としていることから、テキスト間の類似度の計算が重要な役割を果たす。このように、テキスト処理の分野では、テキスト間の類似度を必要とするアプリケーションは数多く存在する。
【0003】
テキストの特徴を表現する方法として、テキスト中の各出現単語をベクトルの一つの要素と考え、単語の出現回数を値とし、与えられたテキストをn次元ベクトル(n;単語数)に変換する方法がある。このような出現単語を要素として、テキストの特徴をベクトルで表わす方法は、「bug of words」と呼ばれる。つまり、テキストは単語の集合で特徴付けられると考える方法である。このような単語ベクトルでテキストを表現する方法は、テキスト分類などの類似度計算時に、現在、最もよく用いられている方法である(非特許文献1)。
【0004】
また、テキスト間の類似度を計算する方法として、最も一般的かつ効率的な方法は、テキストから得られたn次元の単語ベクトルの内積あるいはコサイン(余弦)距離を計算する方法である。具体的な計算式を以下に示す。図1に単語ベクトルのコサイン距離による類似度計算方法を示す。また、具体的な計算式は次式で表わされる。
【0005】
【数1】
Figure 2004272352
【0006】
図1に示したものは、それぞれ「私は車を買った」、「私の買った車」及び「私は家を買う」であるテキストT1〜T3に対し、各テキスト内の単語(表層)について原形と品詞とを求め、単語ベクトルによって類似度を計算したものである。ここで、原形だけを用いて単語ベクトルを作成した場合には、T1とT2との類似度(T1*T2)は0.730であり、同様に、T2*T3として0.4が、T1*T3として0.730が得られている。また、原形と品詞とを用いて類似度を計算すると、T1*T2=0.866、T2*T3=0.694及びT1*T3=0.868が得られている。
【0007】
一般的に、テキスト中には構造が存在すると考えられている。また、その構造がテキストの意味を形成すると考えられている。最も大きな構造としては、段落、文、文節、形態素といったテキスト内の文字の意味のあるまとまりが考えられ、それ以外にも、文節の依存関係や、照応関係、単語の出現順序などが考えられる。図2は、テキストの構造の一例を示している。
【0008】
前述のように、単語ベクトルを用いた方法では、テキスト中の各出現単語単体に着目するが、単語がテキスト中でどのように出現したかは考慮されない。つまり、対象とする単語が、どの単語の前に出現したか、どの単語の後に出現したか、どの単語と係り受けの関係にあるか、といったテキスト内に含まれる意味的、構造的な特徴は考慮されない。このような方法では、テキストの特徴をよく反映したテキストの類似度とはいえない。単語が表わす性質は、語の依存関係や、意味的な構造から語自体の意味や性質が決定することが多い。具体的な例として、いわゆる多義語は、構造を無視した時点で、その語がどのような意味でテキスト中に出現したかを判定することは、困難になる。
【0009】
テキスト中の構造をベクトル表現に置き換える方法も考えられるが、例えば、単語の組み合わせをベクトルの要素にする方法を考えた場合、単語数は数万語であり、かつ、その組み合わせ数は指数関数的に増加することから、数え上げるのは現実的とはいえない。以上の理由から、この方法は、実際に用いられることはない。また、部分的な構造として、限定した組み合わせのみをベクトル中の要素として扱う方法もあるが、結局、複雑なテキストの構造を的確に扱うことはできない。
【0010】
このように、単語ベクトルを用いる方法、あるいはその拡張としてある程度の構造を考慮する方法は、非常に容易かつ効率的ではあるが、テキストの特徴を十分に反映した類似尺度であるとは言いがたい。
【0011】
【非特許文献1】
Salton, G., Wong, A. and Yang, C.: ”A Vector Space Model for Automatic Indexing,” Communication of the ACM, Vol. 11, No. 18, pp. 613−620 (1975)
【0012】
【発明が解決しようとする課題】
以上説明したように、現状では、テキストの類似度の評価に際してテキストの構造そのものを計算機で扱うのは難しいという課題と、さらに、構造を考慮した類似度を計算するためには、計算が複雑かつ時間がかかるという課題がある。
【0013】
そこで本発明の目的は、テキストの構造を反映してテキスト間の類似度を簡単に算出できる方法および装置を提供し、さらに、構造を考慮した類似度の計算における計算を簡単かつ計算量の少ないものとすることができる方法及び装置を提供することにある。
【0014】
【課題を解決するための手段】
1点目の課題であるテキストの構造は扱いが困難であるという課題を解決するために、本発明は、テキストが持つ構造を非循環有向グラフとみなす方法を提案する。
【0015】
すなわち本発明の類似度計算方法は、類似度計算対象のテキストを入力するステップと、入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現するステップと、非循環有向グラフの相互の類似度を計算するステップと、計算した類似度をテキスト間の類似度として出力するステップと、を有する。
【0016】
また本発明の類似度計算装置は、テキストを入力するテキスト入力部と、入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現する非循環有向グラフ生成手段と、類似度計算対象である1対のテキストにそれぞれ対応する第1および第2の非循環有向グラフを格納するグラフ格納部と、グラフ格納部に格納された第1および第2の非循環有向グラフの相互の類似度を計算して計算した類似度をテキスト間の類似度として出力する類似度計算部と、を有する。
【0017】
このような本発明においては、テキストの構造を考慮した類似度の計算を、非循環有向グラフ同士の類似度を計算することと等価であると考えることができる。また、テキストの構造は複雑であるが、非循環有向グラフの制約内で十分記述可能である。このように非循環有向グラフとして考えることにより、ノードを単語、リンクを構造というように、自然にテキストの構造を記述することができる。つまり、従来の手法のようにベクトル表現のような一次元の配列に置き換えるわけではないため、より直観的、直接的にテキストの構造を表現することができる。図2からも、テキストを、階層を許した非循環有向グラフで捉えることができることが分かる。
【0018】
2点目のテキストの構造を考慮した類似度を計算しようとすると計算が複雑かつ時間がかかるという課題を解決するために、本発明では、テキスト間の類似度の計算式を再帰的に定義し、全部分を陽に計算することなく全体の類似度を計算する方法を提案する。本発明では、テキストを非循環有向グラフとみなすため、2つの非循環有向グラフ中の全部分パス中で一致する部分パス数の重み付き総和を、2つの非循環有向グラフの類似度として扱う。図3は、本発明で用いる階層を許した非循環有向グラフの部分パスの一例を示している。ここでは、部分パスとしてノード単体も含むことにする。また、パス同士の一致度を計算する際に、始点及び終点以外の中間ノードの差異、伸縮を許した一致も数え上げる。ただしこの場合は、ペナルティλを与えて類似度を計算する。このペナルティが類似度計算時の重みとなる。これにより、完全一致でない柔軟な類似度を計算することが可能になる。
【0019】
このように、ラベルの差異なども許した全部分パスの一致数を陽に数え上げるのは、ノード数が多くなった場合には、非常に困難であると推測できる。しかし実際の計算では、全部分パスを陽に数え上げてその中から一致するパスを数え上げるのではなく、再帰計算式を定義することで、効率的に一致する部分パスの総和を計算することが可能である。また、類似度を計算する対象を2つに限定して計算することで、効率的な計算が可能となる。これは、カーネル法によるカーネルトリックと呼ばれている計算方法の一種と考えられるものであって、ある2つのテキスト間の内積形を定義することで、実際に全ての要素を陽に展開することなく高次元の計算を低次元の内積計算に置き換える方法である。この方法と同様に、本発明では、対象となるテキストの部分パスを陽に全展開することなく、再帰式で定義される計算式から、効率的に計算することが可能である。
【0020】
階層を許した2つの非循環有向グラフの類似度は、以下の式で与えられる。
【0021】
【数2】
Figure 2004272352
【0022】
つまり、各ノードの関数K(・,・)の値の総和で与えられる。関数K(・,・)は、以下の再帰式で定義することができる。
【0023】
【数3】
Figure 2004272352
【0024】
次に、
【0025】
【数4】
Figure 2004272352
【0026】
の定義を以下のように与える。
【0027】
【数5】
Figure 2004272352
【0028】
ノード中にグラフを含んでいない場合には(6−1)式となり、グラフを含む場合には(6−2)式となる。
【0029】
最後に、
【0030】
【数6】
Figure 2004272352
【0031】
を計算するための関数K″(・,・)は、以下の式で定義される。
【0032】
【数7】
Figure 2004272352
【0033】
これらの再帰式を計算することにより、結果的には階層を許した非循環有向グラフの全部分パスの一致した数を計算するとの等しい結果が得られる。また、計算量はO(|G||G|)となり、各々のグラフに含まれるノード数の積に比例した計算量で計算することが可能である。
【0034】
【発明の実施の形態】
次に、本発明の好ましい実施の形態について、図面を参照して説明する。
【0035】
図4は、本発明の実施の一形態の類似度計算装置の構成を示すブロック図であり、図5は、本実施形態での類似度の計算手順を示すフローチャートである。
【0036】
図4に示した装置は、入力テキストが入力するテキスト入力部11と、入力テキストを格納するテキスト格納部12と、テキスト格納部12内のテキストに対して形態素解析を行う形態素解析部14と、形態素解析部14での形態素解析の結果に基づいて文節へのまとめ上げを行う文節解析部15と、文節解析部15で得られた文節に関して依存関係を決定する依存関係解析部16と、形態素解析の結果、文節へのまとめ上げの結果および依存関係の解析結果に基づいて、処理対象のテキストに対応する階層を許した非循環有向グラフを生成する非循環有向グラフ生成部17と、生成した非循環有向グラフを格納するグラフ格納部18と、グラフ格納部18に格納されたそれぞれ異なるテキストに対応する2つの非循環有向グラフを取り出して、これら2つの非循環有向グラフ間の類似度を計算して出力する類似度計算部19と、を備えている。類似度計算部19は、上述した再帰式を用いた計算手法によって類似度を計算するために、非循環有向グラフのノードを計算順序でソートするソート処理部21と、ソートされた順序にしたがって再帰計算を行うための再帰計算部22とを備えている。
【0037】
次に、本実施形態におけるテキスト間の類似度を計算する手順について、説明する。本実施形態の計算手順は、大まかに言うと、
(1) 比較対象となる2つのテキストを選択
(2) 階層を許した非循環有向グラフにテキストを変換
(3) 選択されたテキスト間の類似度を計算
(3.1)各非循環有向グラフを計算順序にソート
(3.2)ソートされた順序にしたがって再帰式を計算
の各手順からなっている。最も効率的に再帰的に計算するために、手順(3.1)において、階層を許した非循環有向グラフ中の各ノードの計算順序を決める必要がある。ただし、非循環有向グラフの性質として、既に半順序が決定している。半順序が保たれていれば、効率的に計算することができる。
【0038】
ここで、2つの入力テキスト(テキストAとテキストB)の間の類似度を計算するものとすると、図5に示すように、ステップ101においてテキスト入力部11においてテキストA及びテキストBを受け取ってテキスト格納部12に格納し、各テキストごとに、ステップ102において形態素解析部14によって形態素解析を行い、ステップ103において文節解析部15によって形態素を文節にまとめ上げ、ステップ104において依存関係解析部16によって文節間の依存関係を決定し、ステップ105において非循環有向グラフ生成部17によってテキストから階層を許した非循環有向グラフへの変換を行って、生成した非循環有向グラフをグラフ格納部18に格納する。このようにして、テキストA及びテキストBにそれぞれ対応する非循環有向グラフA及び非循環有向グラフBがグラフ格納部18に格納されると、類似度計算部19は、グラフ格納部18からこれら非循環有向グラフA,Bを取り出して、両方の非循環有向グラフ間の類似度を計算する。この計算に際しては、ソート処理部21が、非循環有向グラフA,Bのノードを計算順序でソートし、再帰計算部22が、ソートされた順序にしたがって上述したように再帰計算を行う。
【0039】
【実施例】
以下、実例を挙げて、本発明によるテキスト間類似度の計算を説明する。ここでは、「私は車を買った」、「私の買った車」、「私は家を買う」という3つの入力テキストT〜Tについて、任意の2者間の類似度を計算する場合を例に挙げて説明する。
【0040】
最初に、「私は車を買った」、「私の買った車」、「私は家を買う」の各テキストT〜Tを、階層を許した非循環有向グラフで記述する方法を説明する。ここで「階層を許した」とは、上述したように、(下位階層の)非循環有向グラフがグラフのノードとして許されることを意味する。
【0041】
まず、これらの入力テキストに対して形態素解析を行い、品詞を付与する(図5のステップ102)。その結果、図6に示すような結果が得られる。なお、活用語はその終止形で示されている。例えば「私は車を買った」のテキストTは、「私(名詞)+は(助詞)+車(名詞)+を(助詞)+買う(動詞)+た(助動詞)」のように品詞が付与される。
【0042】
次に、これらの形態素を文節単位にまとめ上げる(図5のステップ103)。その結果、図7に示すような結果が得られる。文節も、テキスト内での意味的なまとまりである。文節を[・]で表わすものとすると、「私は車を買った」のテキストであれば、「[私(名詞)+は(助詞)]+[車(名詞)+を(助詞)]+[買う(動詞)+た(助動詞)]」と文節にまとめあげられる。これらが、階層を許した非循環有向グラフのノード及びその属性を構成する。具体的には、各文節がそれぞれ非循環有向グラフのノードとなるとともに、文節ごとに、形態素(単語)をノードとする下位階層の非循環有向グラフが構成されることになる。
【0043】
次に、ここで作成した形態素及び文節(ノード)間の依存関係を決定することによって(図5のステップ104)、入力テキストに対する階層を許した非循環有向グラフを生成する(図5のステップ105)。ここでは、文節間依存情報を用いた例を示す。上述した入力テキストに対応する、階層を許した非循環有向グラフとして、最終的に図8に示した非循環有向グラフG〜Gが得られる。これらの各非循環有向グラフG〜Gにおいて、自己に対する類似度すなわち、K(G,G),K(G,G),K(G,G)は、それぞれ、99,107.875,50である。なお、形態素解析による品詞の付与と、文節へのまとめあげと、形態素及び文節間の依存関係の決定とは、この技術分野において周知の技術であるから、その詳細な手順については説明しない。
【0044】
「私は車を買った」のテキストであれば、文節「[私(名詞)+は(助詞)]がノードn1、その文節中の「私」、「は」がそれぞれノードn2,n3、文節[車(名詞)+を(助詞)]がノードn4、その文節中の「車」、「を」がそれぞれノードn5,n6、文節[買う(動詞)+た(助動詞)]がノードn7、その文節中の「買う」、「た」がそれぞれノードn8,n9となっている。そして、これらノード間に、n1はn7に係り、n4もn7に係り、n2はn3に係り、n5はn6に係り、n8はn9に係る、という文法的関係が存在し、それらが階層を許した非循環有向グラフとして表わされる。
【0045】
次に、このようにして入力テキスト「私は車を買った」、「私の買った車」、「私は家を買う」のそれぞれに対する、階層を許した非循環有向グラフG〜Gが得られたとして、これらの入力テキスト間の類似度を計算する例を説明する。ここで、表1〜表3は、各ノードの
【0046】
【数8】
Figure 2004272352
【0047】
の値を示す。実際の計算では、ソートされたノード順に計算することで、効率的に、再帰式をすることが可能となる。また、ペナルティλ=0.5として計算を行った。
【0048】
【表1】
Figure 2004272352
【0049】
【表2】
Figure 2004272352
【0050】
【表3】
Figure 2004272352
【0051】
その結果、各入力テキスト間相互の類似度として、
【0052】
【数9】
Figure 2004272352
【0053】
が得られる。
【0054】
以上本発明の好ましい実施の形態について説明したが、本発明に基づく類似度計算装置は、一般には、コンピュータおよびその上で動作するソフトウェアによって実現される。すなわち、上述した類似度計算装置を実現するためのプログラムを、コンピュータに読込ませ、そのプログラムを実行させることによって、本発明による類似度計算装置が実現され、また本発明の類似度計算方法が実行される。これらのプログラムは、磁気テープやCD−ROMなどの記録媒体によって、あるいはネットワークを介して、コンピュータに読込まれるものである。
【0055】
以上説明した実施の形態では、狭義のテキスト、すなわち自然言語における単語の意味のあるつながりを、テキストとして扱っている。しかしながら本発明の適用先はこれに限られるものではない。すなわち本発明は、広義のテキスト、すなわち非循環有向グラフで記述可能な離散データに対して広く適用することが可能である。このような離散データで表現されるオブジェクトとは、例えば、文書、遺伝子配列、タンパク質におけるアミノ酸配列、量子化後の音声データ、画像、様々な形式のデータベースなど、そのものが何かの意味を持つ対象(オブジェクト)である。本発明は、これら一つ一つのオブジェクトを表わす情報を、階層を許した非循環有向グラフで記述可能であれば、適用することが可能である。逆に言えば、例で示したオブジェクト以外でも、階層を許した非循環有向グラフで記述可能な構造をもったオブジェクトであれば、どのようなオブジェクトに対しても類似度を計算することが可能である。
【0056】
【発明の効果】
以上説明したように本発明は、階層を許した非循環有向グラフを用いることにより、これまで扱いが困難であるとされていた構造を考慮した対象の比較を容易に、かつ高速に計算することが可能となる。また、テキストの構造を非循環有向グラフで表わすことにより、自然な形でテキストの構造を記述することができる。本発明を用いることにより、構造を考慮したテキストの類似度計算を高速かつ実用的な時間で計測することが可能となり、実用システムへの応用が実質的に可能となる。
【図面の簡単な説明】
【図1】単語ベクトルのコサイン距離による類似度計算方法を説明する図である。
【図2】テキストにおける構造の一例を示す図である。
【図3】階層を許した非循環有向グラフの部分パスの一例を示す図である。
【図4】本発明の実施の一形態の類似度計算装置の構成を示すブロック図である。
【図5】テキスト間の類似度の計算手順を示すフローチャートである。
【図6】形態素解析の結果を示す図である。
【図7】文節単位へのまとめ上げの結果を示す図である。
【図8】得られた非循環有向グラフを示す図である。
【符号の説明】
11 テキスト入力部
12 テキスト格納部
14 形態素解析部
15 文節解析部
16 依存関係解析部
17 非循環有向グラフ生成部
18 グラフ格納部
19 類似度計算部
21 ソート処理部
22 再帰計算部
101〜107 ステップ

Claims (11)

  1. テキスト間の類似度を計算する類似度計算方法であって、
    類似度計算対象のテキストを入力するステップと、
    入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現するステップと、
    前記非循環有向グラフの相互の類似度を計算するステップと、
    計算した類似度を前記テキスト間の類似度として出力するステップと、
    を有する、類似度計算方法。
  2. 前記非循環有向グラフの相互の類似度は、各非循環有向グラフにおける全部分パス中の一致する部分パス数の重み付きの総和として与えられる、請求項1に記載の類似度計算方法。
  3. 再帰式を用いて前記非循環有向グラフの相互の類似度を算出する、請求項2に記載の類似度計算方法。
  4. 前記表現するステップは、入力したテキストに対して形態素解析を行うステップと、前記形態素解析の結果に基づいて文節のまとめ上げを行うステップと、まとめ上げられた前記文節間の依存関係を決定するステップとを有し、前記依存関係に基づいてそれぞれの非循環有向グラフが表現される、請求項1乃至3のいずれか1項に記載の類似度計算方法。
  5. テキスト間の類似度を計算する類似度計算装置であって、
    テキストを入力するテキスト入力部と、
    入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現する非循環有向グラフ生成手段と、
    類似度計算対象である1対のテキストにそれぞれ対応する第1および第2の非循環有向グラフを格納するグラフ格納部と、
    前記グラフ格納部に格納された前記第1および第2の非循環有向グラフの相互の類似度を計算して計算した類似度を前記テキスト間の類似度として出力する類似度計算部と、
    を有する、類似度計算装置。
  6. 前記類似度計算部は、前記各非循環有向グラフのノードを計算順序でソートするソート処理部と、ソートされた順番にしたがって再帰式を計算する再帰計算部とを有し、前記第1および第2の非循環有向グラフにおける全部分パス中の一致する部分パス数の総和として与えられる前記第1および第2の非循環有向グラフの相互の類似度を再帰計算によって計算する、請求項5に記載の類似度計算装置。
  7. 前記非循環有向グラフ生成手段は、入力したテキストに対して形態素解析を行う形態素解析部と、前記形態素解析部での解析結果に基づいて文節のまとめ上げを行う文節解析部と、前記文節解析部でまとめ上げられた前記文節間の依存関係を決定する依存関係解析部とを有し、前記依存関係に基づいて前記非循環有向グラフを表現する、請求項5または6に記載の類似度計算装置。
  8. コンピュータを、
    テキストを入力するテキスト入力手段と、
    入力したテキストをそれぞれ階層を許した非循環有向グラフとして表現する非循環有向グラフ生成手段と、
    類似度計算対象である1対のテキストにそれぞれ対応する第1および第2の非循環有向グラフを格納するグラフ格納手段と、
    前記グラフ格納部に格納された前記第1および第2の非循環有向グラフの相互の類似度を計算して計算した類似度を前記テキスト間の類似度として出力する類似度計算手段と、
    として機能させるためのプログラム。
  9. 前記類似度計算手段は、前記各非循環有向グラフのノードを計算順序でソートするソート処理手段と、ソートされた順番にしたがって再帰式を計算する再帰計算手段とを備え、前記プログラムによって、前記コンピュータは、前記第1および第2の非循環有向グラフにおける全部分パス中の一致する部分パス数の総和として与えられる前記第1および第2の非循環有向グラフの相互の類似度を再帰計算によって計算する、請求項8に記載のプログラム。
  10. 前記非循環有向グラフ生成手段は、入力したテキストに対して形態素解析を行う形態素解析手段と、前記形態素解析部での解析結果に基づいて文節のまとめ上げを行う文節解析手段と、まとめ上げられた前記文節間の依存関係を決定する依存関係解析手段とを備え、前記プログラムによって、前記コンピュータは、前記依存関係に基づいて前記非循環有向グラフを表現する、請求項8または9に記載のプログラム。
  11. コンピュータが読み取り可能な記録媒体であって、請求項8乃至10のいずれか1項に記載のプログラムを格納した記録媒体。
JP2003058542A 2003-03-05 2003-03-05 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 Expired - Fee Related JP4073015B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003058542A JP4073015B2 (ja) 2003-03-05 2003-03-05 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003058542A JP4073015B2 (ja) 2003-03-05 2003-03-05 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体

Publications (2)

Publication Number Publication Date
JP2004272352A true JP2004272352A (ja) 2004-09-30
JP4073015B2 JP4073015B2 (ja) 2008-04-09

Family

ID=33121630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003058542A Expired - Fee Related JP4073015B2 (ja) 2003-03-05 2003-03-05 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体

Country Status (1)

Country Link
JP (1) JP4073015B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1681645A1 (en) * 2005-01-14 2006-07-19 FatLens, Inc. Method and system to compare data objects
KR101033670B1 (ko) 2008-12-04 2011-05-12 (주)야긴스텍 문서 간 유사도 산출 시스템 및 방법
WO2013058118A1 (ja) * 2011-10-20 2013-04-25 日本電気株式会社 テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体
US8538169B2 (en) 2010-04-30 2013-09-17 International Business Machines Corporation Method, program, and system for calculating similarity between nodes in graph
JP2017041208A (ja) * 2015-08-21 2017-02-23 日本電信電話株式会社 グラフ変換装置、方法、及びプログラム
CN111261167A (zh) * 2020-01-16 2020-06-09 广州荔支网络技术有限公司 一种音频热点内容自动化标签生成方法
JP6982347B1 (ja) * 2020-10-27 2021-12-17 和直 恩田 コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置
WO2023112101A1 (ja) * 2021-12-13 2023-06-22 ジーエイピー株式会社 コンピュータ言語処理における文書抽出プログラムを記憶した非一時的記憶媒体、意味的に類似する文書抽出方法および言語処理装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577665B (zh) * 2017-09-11 2020-11-03 电子科技大学 文本情感倾向的判别方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1681645A1 (en) * 2005-01-14 2006-07-19 FatLens, Inc. Method and system to compare data objects
KR101033670B1 (ko) 2008-12-04 2011-05-12 (주)야긴스텍 문서 간 유사도 산출 시스템 및 방법
US8538169B2 (en) 2010-04-30 2013-09-17 International Business Machines Corporation Method, program, and system for calculating similarity between nodes in graph
CN103221947B (zh) * 2011-10-20 2016-05-25 日本电气株式会社 文本含意辨认装置、文本含意辨认方法和计算机可读记录介质
CN103221947A (zh) * 2011-10-20 2013-07-24 日本电气株式会社 文本含意辨认装置、文本含意辨认方法和计算机可读记录介质
US8762132B2 (en) 2011-10-20 2014-06-24 Nec Corporation Textual entailment recognition apparatus, textual entailment recognition method, and computer-readable recording medium
WO2013058118A1 (ja) * 2011-10-20 2013-04-25 日本電気株式会社 テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体
JP2017041208A (ja) * 2015-08-21 2017-02-23 日本電信電話株式会社 グラフ変換装置、方法、及びプログラム
CN111261167A (zh) * 2020-01-16 2020-06-09 广州荔支网络技术有限公司 一种音频热点内容自动化标签生成方法
CN111261167B (zh) * 2020-01-16 2023-05-30 广州荔支网络技术有限公司 一种音频热点内容自动化标签生成方法
JP6982347B1 (ja) * 2020-10-27 2021-12-17 和直 恩田 コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置
JP2022070720A (ja) * 2020-10-27 2022-05-13 和直 恩田 コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置
WO2023112101A1 (ja) * 2021-12-13 2023-06-22 ジーエイピー株式会社 コンピュータ言語処理における文書抽出プログラムを記憶した非一時的記憶媒体、意味的に類似する文書抽出方法および言語処理装置

Also Published As

Publication number Publication date
JP4073015B2 (ja) 2008-04-09

Similar Documents

Publication Publication Date Title
Bikel Intricacies of Collins' parsing model
Bouma et al. Alpino: Wide-coverage computational analysis of Dutch
US9495358B2 (en) Cross-language text clustering
KR101306667B1 (ko) 지식 그래프 정제 장치 및 방법
JP6675474B2 (ja) 文章解析システム及びプログラム
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP2004110161A (ja) テキスト文比較装置
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP2011118689A (ja) 検索方法及びシステム
Gamallo et al. Dependency parsing with finite state transducers and compression rules
JP4073015B2 (ja) 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
Vaishnavi et al. Paraphrase identification in short texts using grammar patterns
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
Sindhu et al. Text Summarization: A Technical Overview and Research Perspectives
Žitnik et al. SkipCor: Skip-mention coreference resolution using linear-chain conditional random fields
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
Yu et al. Machine translation evaluation metric based on dependency parsing model
JP6689466B1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
Ackermann et al. Model [nl] generation: natural language model extraction
Paroubek Evaluating Part-of-Speech Tagging and Parsing Patrick Paroubek: On the Evaluation of Automatic Parsing of Natural Language
Wu et al. Structured composition of semantic vectors
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041217

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110201

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130201

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees