JP2005122515A - 電子機器装置、テキスト間の類似度計算方法、およびプログラム - Google Patents

電子機器装置、テキスト間の類似度計算方法、およびプログラム Download PDF

Info

Publication number
JP2005122515A
JP2005122515A JP2003357463A JP2003357463A JP2005122515A JP 2005122515 A JP2005122515 A JP 2005122515A JP 2003357463 A JP2003357463 A JP 2003357463A JP 2003357463 A JP2003357463 A JP 2003357463A JP 2005122515 A JP2005122515 A JP 2005122515A
Authority
JP
Japan
Prior art keywords
text
vector
word
words
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003357463A
Other languages
English (en)
Inventor
Hirotaka Kondo
広隆 近藤
Daisuke Yano
大介 矢野
Toshio Nakao
利雄 中尾
Naomasa Takahashi
巨成 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003357463A priority Critical patent/JP2005122515A/ja
Publication of JP2005122515A publication Critical patent/JP2005122515A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】テキストの内容の意図を表現する単語を対象にして、2つのテキスト間の類似度を求められるとともに、テキストベクトルを蓄積するデータベースの更新を低コストに行うことのできる電子機器装置を提供する。
【解決手段】入力されたテキストを形態素解析によって単語に分割し、これらの単語の中から、単語の出現頻度と共起関係に基づいてキーワードを抽出する手法(KeyGraph)を用いてキーワードまたはキーワード候補の単語を絞り込み、これらの単語の重みを求め、求めた各単語の重みに基づいてテキストベクトルを生成する。生成されたテキストベクトルと、テキストベクトルDB4に蓄積されている別のテキストのテキストベクトルとの内積をとって2つのテキスト間の類似度を計算する。
【選択図】 図2

Description

本発明は、情報検索などで利用されるテキスト間の類似度計算に関する技術に係り、特にこの類似度計算を行うシステムを組み込んで構成された電子機器装置と、そのテキスト間の類似度計算方法、ならびにプログラムに関する。
従来から、テキスト間の類似度計算を行う手法は、例えば、多数のテキストのカテゴリ分類や、ウェブページなどの各種文献の検索などに利用されている。テキスト間の類似度を計算する方法としては、テキスト中の単語をベクトルで表現し、そのベクトルの内積をとる方法が存在する(たとえば特許文献1を参照)。また、ベクトルの要素としては、単語の出現頻度と共に単語のTFIDF値(単語の出現頻度TF(Term Frequency)と文書頻度の逆数IDF(Inverse Document Frequency)との積をとった値)が用いられることが多い。
特開2002−073680号公報
しかしながら、単語の出現頻度だけを用いてベクトルを表現する手法では、テキストの重要な単語が必ずしも抽出されるとは限らないという第一の問題があった。
また、単語のTFIDF値を用いてベクトルを表現する方法は、出現頻度を用いた方法より高い精度で重要単語を抽出できるものの、TFIDF値は、ある特定のテキスト集合における相対量であるため、類似度計算に使用するテキストベクトルのデータベースを更新するときに、そのデータベースに既に蓄積されている全テキストのベクトルを再計算する必要がある。このため、データベースの更新にコストがかかり、更新が頻繁に行われるようなシステムには不向きである、という第二の問題があった。
さらに、TFIDF値は、多数のテキストの中から類似性の高いテキストを相対的に評価する指標であるため、2つのテキスト間の類似度を求めることには利用できず、2つのテキスト間の類似度を求めたい場合には単語の出現頻度に基づく類似度計算を採用せざるをない、という第三の問題があった。
本発明は、このような事情を鑑み、テキストの内容の意図を表現する単語を対象にして、2つのテキスト間の類似度を求められるとともに、テキストベクトルを蓄積するデータベースの更新を低コストに行うことのできる電子機器装置、テキスト間の類似度計算方法およびプログラムを提供することを目的とするものである。
上記の課題を解決するために、本発明の電子機器装置は、テキストを入力するテキスト入力部と、前記テキスト入力部より入力されたテキストに含まれる単語の出現頻度と共起関係に基づいてキーワードまたはキーワード候補である単語とその重みを求め、求めた単語とその重みに基づいて前記テキストのベクトルを生成するテキストベクトル生成部と、前記テキストベクトル生成部により生成された2つのテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算する類似度計算部とを具備することを特徴とするものである。
この発明によれば、テキストの内容の意図を表現するキーワードやキーワード候補である単語を対象にして2つのテキスト間の類似度を算出することによって、単語の出現頻度を用いた類似度計算方法に比べ精度の向上を図れる。
また、本発明の電子機器装置において、テキストベクトル生成部は、少なくとも、他の単語との共起関係の強さを示す共起度の和の値に基づいて、キーワードまたはキーワード候補である単語の重みを求めるとする。これにより、キーワードまたはキーワード候補である単語の重みとして適当な値を得ることができる。
さらに、テキストベクトル生成部は、少なくとも、他の単語との共起関係の強さを示す共起度の和に1以上の所定値を加えた値に基づいて、キーワードまたはキーワード候補である単語の重みを求めるものとしてもよい。これにより、キーワードまたはキーワード候補である単語の重みとして適当な値を得ることができる。詳細には、キーワード候補である単語とその重みを求める場合に共起度の和が"0"の単語がベクトルの要素から除かれるのを防止して、ベクトル生成の精度を向上させることができる。
また、本発明の電子機器装置は、テキストベクトル生成部により生成されたテキストのベクトルを蓄積するデータベースをさらに有し、類似度計算部は、テキストベクトル生成部により生成された第1のテキストのベクトルと前記データベースに蓄積されている第2のテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算するものとしてもよい。これにより、入力されたテキストとデータベースのテキストたとえばユーザの嗜好を反映した単語群の記述されているテキストとの類似度を計算することができ、入力テキストがユーザの嗜好に合ったテキストであるかどうかを判定することができる。また、テキストベクトルを蓄積するデータベースの更新はデータを追加するだけで済むので、データベースの更新コストがTFIDF法に比べてかからない。
本発明の別の観点に基づくテキスト間の類似度計算方法は、テキストを入力するステップと、前記入力されたテキストに含まれる単語の出現頻度と共起関係に基づいてキーワードまたはキーワード候補である単語とその重みを求めるステップと、求めた単語とその重みに基づいて前記テキストのベクトルを生成するステップと、前記生成された2つのテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算するステップとを有するものである。
この発明によれば、テキストの内容の意図を表現するキーワードやキーワード候補である単語を対象にして2つのテキスト間の類似度を算出することによって、単語の出現頻度を用いた類似度計算方法に比べ精度の向上を図れる。
また、本発明のテキスト間の類似度計算方法は、少なくとも、他の単語との共起関係の強さを示す共起度の和の値に基づいて、キーワードまたはキーワード候補である単語の重みを求めることを特徴とする。これにより、キーワードまたはキーワード候補である単語の重みとして適当な値を得ることができる。
さらに、本発明のテキスト間の類似度計算方法は、少なくとも、他の単語との共起関係の強さを示す共起度の和に1以上の所定値を加えた値に基づいて、キーワードまたはキーワード候補である単語の重みを求めるようにしてもよい。これにより、キーワードまたはキーワード候補である単語の重みとして適当な値を得ることができる。詳細には、キーワード候補である単語とその重みを求める場合に共起度の和が"0"の単語がベクトルの要素から除かれるのを防止して、ベクトル生成の精度を向上させることができる。
また、本発明のテキスト間の類似度計算方法は、生成されたテキストのベクトルをデータベースに蓄積するステップをさらに有し、生成された第1のテキストのベクトルと前記データベースに蓄積されている第2のテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算するものであってもよい。これにより、入力されたテキストとデータベースのテキストたとえばユーザの嗜好を反映した単語群の記述されているテキストとの類似度を計算することができ、入力テキストがユーザの嗜好に合ったテキストであるかどうかを判定することができる。また、テキストベクトルを蓄積するデータベースの更新はデータを追加するだけで済むので、データベースの更新コストがTFIDF法に比べてかからない。
さらに、本発明の別の観点に基づくプログラムは、テキストを入力するテキスト入力部と、前記テキスト入力部より入力されたテキストに含まれる単語の出現頻度と共起関係に基づいてキーワードまたはキーワード候補である単語とその重みを求め、求めた単語とその重みに基づいて前記テキストのベクトルを生成するテキストベクトル生成部と、前記テキストベクトル生成部により生成された2つのテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算する類似度計算部としてコンピュータを機能させることを特徴とするものである。
この発明によれば、テキストの内容の意図を表現するキーワードやキーワード候補である単語を対象にして2つのテキスト間の類似度を算出することによって、単語の出現頻度を用いた類似度計算方法に比べ精度の向上を図れる。
また、このプログラムにおいて、テキストベクトル生成部は、少なくとも、他の単語との共起関係の強さを示す共起度の和の値に基づいて、キーワードまたはキーワード候補である単語の重みを求めるものとする。これにより、キーワードまたはキーワード候補である単語の重みとして適当な値を得ることができる。
あるいは、テキストベクトル生成部は、他の単語との共起関係の強さを示す共起度の和に1以上の所定値を加えた値に基づいて、キーワードまたはキーワード候補である単語の重みを求めるものとする。これにより、キーワードまたはキーワード候補である単語の重みとして適当な値を得ることができる。詳細には、キーワード候補である単語とその重みを求める場合に共起度の和が"0"の単語がベクトルの要素から除かれるのを防止して、ベクトル生成の精度を向上させることができる。
また、本発明のプログラムは、テキストベクトル生成部により生成されたテキストのベクトルをデータベースに蓄積する手段をさらに有し、前記類似度計算部は、前記テキストベクトル生成部により生成された第1のテキストのベクトルと前記データベースに蓄積されている第2のテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算するものとする。これにより、入力されたテキストとデータベースのテキストたとえばユーザの嗜好を反映した単語群の記述されているテキストとの類似度を計算することができ、入力テキストがユーザの嗜好に合ったテキストであるかどうかを判定することができる。また、テキストベクトルを蓄積するデータベースの更新はデータを追加するだけで済むので、データベースの更新コストがTFIDF法に比べてかからない。
本発明によれば、テキストの内容の意図を表現する単語を対象にして、2つのテキスト間の類似度を求められるとともに、テキストベクトルを蓄積するデータベースの更新を低コストに行うことができる。
以下、本発明の実施の形態を図面に基づき説明する。
図1は、本発明の一実施形態にかかるテキスト間の類似度計算システム1の構成を示すブロック図である。
同図に示すように、このテキスト間の類似度計算システム1は、入力されたテキスト2のベクトル化をKeyGraphの理論を用いて行うテキストベクトル生成エンジン3と、テキストベクトル生成エンジン3により生成されたテキストベクトルと、テキストベクトルデータベース(以下、「テキストベクトルDB」と呼ぶ。)4に蓄積されている別のテキストのテキストベクトルとの類似度を計算して、入力テキストに対して類似度の高い順にテキストベクトルDB内のテキストを並べたリスト5を出力する類似度計算エンジン6とを備えて構成されている。
ここで、テキストベクトル生成エンジン3は、KeyGraph(電子情報通信学会論文誌D-I Vol.J81-D-I No.2 pp.391-400 1999年2月)の理論を用いてテキストのベクトル化を次のように行う。KeyGraphとは、ある文書中に出現する単語の出現頻度と共起関係から関連グラフを作成し、この関連グラフにより文書の主張点を把握し、キーワードを抽出する手法である。
図2は、かかるKeyGraphの応用によるテキストのベクトル化の流れを示すフローチャートである。
まず、入力するテキスト2の読み込みが行われ(ステップ201)、入力テキスト2に対する形態素解析が行われることで入力テキスト2は単語に分割される(ステップ202)。分割された単語はKeyGraphによる解析によって入力文書の主張を表すキーワードにあたる単語に絞り込まれ、絞り込まれた単語の共起度の和をその単語の重みとして求める(ステップ203)。そして、その単語の重みに基づいてテキストベクトルの生成が行われる(ステップ204)。
なお、形態素解析は、入力テキスト2が、単語間に空白を入れる(分かち書きする)習慣のない日本語などの言語の場合に行われ、英語などの単語間に空白を入れる言語の場合は行われる必要がない。
次に、ステップ203のKeyGraphによる解析の詳細について説明する。
図3は関連グラフの例を示す図である。同図において、すべての丸印はキーワード候補を意味し、その中の二重丸は文書のキーワードである単語であることを意味する。単語間を接続する線は単語の共起を、線に付けられた値は共起度を示している。KeyGraphによる解析では、まず、入力テキスト中で出現頻度が高い単語(キーワード候補)の集合Xを抽出し、単語集合X中で共起度の高い単語対を線(図3の実線)で結ぶ。次に、出現頻度は高くないが単語集合Xとのつながりが強い(共起度が高い)単語(キーワード候補)の集合Yを抽出する。さらに、単語集合Xと単語集合Y間で共起度が高い単語対を線(図3の破線)で結ぶ。以上により最終的な関連グラフが完成し、この関連グラフからキーワードである単語を特定する。KeyGraphでは、関連グラフにおいて、破線でつながりをもつ他の全ての単語との共起度の和で、上位より所定の数の単語(図3の二重丸)をキーワードとして抽出する。
さらに、KeyGraphによる解析によってキーワードとして抽出された単語の中から、キーワードとしてふさわしくない単語を削除する。たとえば、キーワードとしてふさわしくない単語を集めた不要語リスト(stop word list)を予め用意しておき、KeyGraphによる解析によってキーワードとして抽出された単語の中から不要語リストの単語と同じものを除去する方法などがある。
他には、形態素解析の結果から特定の品詞の単語を除去してからKeyGraphの解析を行う方法、形態素解析の結果から特定の品詞たとえば固有名詞、未知語(辞書の未登録語)、カタカナ語などの単語を抽出してKeyGraphの解析を行う方法、形態素解析の結果から特定の規則で品詞を連結たとえば連続する固有名詞と接尾語を単語として抽出してKeyGraphの解析を行う方法などを採用することが可能である。
図3の関連グラフから、KeyGraphによる解析によって4つの単語y,c,f,hがキーワードとして抽出されたものとする。図4はこれら個々の単語y,c,f,hにつながる全ての共起度の和を示した一覧である。ここでは、破線でつながる共起度の和の上位4つを、キーワード抽出条件としている。このようにしてKeyGraphによる解析によって抽出された単語の共起度の和(重み)に基づいて、テキストベクトルの生成が行われる。
次に、テキストベクトルを生成する別の方法を説明する。
上記は、KeyGraphによる解析によってキーワードとして抽出された単語によりテキストベクトルを生成するものとしたが、キーワード候補として抽出された全ての単語(たとえば図3に示す全ての単語)の重みに基づいてテキストベクトルを生成してもよい。なお、図4は、キーワードとして抽出された単語を全ての共起度の和で表現しているが、キーワードとして抽出された単語によりテキストベクトルを生成する場合、KeyGraph解析のキーワード抽出で求める、破線でつながる共起度の和で、表現してもよい。
この場合、図3の関連グラフにおいて孤立したつまり共起する単語を持たない単語kについての扱いが問題となる。すなわち、関連グラフ上で孤立した単語の共起度の和は"0"であるためベクトルの要素とならないことなる。そこで、このような関連グラフ上で孤立した単語をベクトルの要素に含めるために、個々の単語についてKeyGraphによる解析で算出された共起度の和(重み)の値に1以上の所定値を加えるようにしている。
図5は、単語の共起度の和(重み)の値に所定値を加える方法を示したものである。ここで、a,b,c,dは単語、c(a,b),c(b,c),c(c,a)はそれぞれの単語間の共起度、Wa,Wb,Wc,Wdはそれぞれの単語の重みを示している。この例では、共起度の和に所定の値として"1"を加えている。なお、加える値は"1"以外であってもよい。図6は図3に示した関連グラフ上の全ての単語の重みに所定値"1"を加えた場合の結果を示している。
このようにしてキーワード候補として抽出された全ての単語の重みに基づいてテキストベクトルの生成が行われる。もちろん、この際、ある一定以上の重みが付いた単語のみを対象にベクトルを生成するようにしてもよい。
以上説明したKeyGraphによる解析によって絞り込まれた単語の重みからテキストベクトルを生成するか、キーワード候補として抽出された全ての単語の重みに基づいてテキストベクトルを生成するかは、類似判定の目的に依存する。たとえば、テキストのカテゴリといった大分類のレベルで類似度を計算する場合には、KeyGraphによって絞り込まれた単語の重みからテキストベクトルを生成する方法が好ましい。また、KeyGraphによって絞り込まれた単語の中から、さらに上位N個の単語に絞り込んでテキストベクトルを生成することも有効である。一方、詳細な類似判定を目的とする場合には、ベクトルの生成に用いる単語の数は多いほうが良く、したがって、キーワード候補として抽出された全ての単語の重みに基づいてテキストベクトルを生成する方法を採用することが好ましい。
また、単語の重みを生成する他の方法としては以下が挙げられる。
たとえば、品詞の種類、共起度の和の値の順位、他の単語との接続の種類などに応じて決められた係数を、単語の共起度の和の値に乗じて得た値を、単語の重みとする。より具体的な例を挙げると、図4に示した単語の共起度の和の値に対して、最上位の単語yの共起度の和の値に"3"を、2位以下の単語c,f,hの共起度の和の値に"2"をそれぞれ乗じた値を、各々の単語の最終的な重みとする。もしくは、図3の破線の値に"2"を乗じて共起度の和を求め、その値を各々の単語の最終的な重みとする。
さらに別の方法として、KeyGraphの計算過程で求まる単語の出現頻度の値と、その単語の共起度の和に所定値を加えた値との積を単語の重みとする、などがある。さらに、文書頻度の逆数IDF(Inverse Document Frequency)などの要素を単語の重みの生成に付加することも可能である。
また、このようにして生成されたテキストベクトルを用いて2つのテキスト間の類似度を計算する前に、ベクトルの要素の和が1になるように正規化を行うようにしてもよい。
次に、類似度計算エンジン6の処理について説明する。
以上のようにしてテキストベクトル生成エンジン3により生成された入力テキスト2のベクトルは類似度計算エンジン6に与えられる。類似度計算エンジン6は、テキストベクトル生成エンジン3により生成されたテキストベクトルと、テキストベクトルDB4に蓄積されている別のテキストのテキストベクトルとの類似度を計算し、入力テキスト2に対して類似度の高い順にテキストベクトルDB4のテキストを並べたリスト5を出力する。
次に、2つのテキスト間の類似度を計算する方法について説明する。
類似度の計算にはベクトルの内積をとる方法がある。類似度の計算例として、テキストベクトル生成エンジン3により生成された入力テキストであるテキストXと、テキストベクトルDB4内のテキストYと類似度を求める場合を説明する。図7はテキストベクトルDB4内のテキストYの単語の重みデータの例である。図8は図7のテキストYの単語の重みデータと入力テキストXの単語の重みデータ(図6)とを一つにまとめたものである。
類似度の計算式を以下に示す。
Figure 2005122515
この計算式(1)に図8に示した単語の重みデータを代入すると、
Figure 2005122515
となる。すなわち、入力テキストXとテキストYとの類似度cosθとして0.1876が算出される。
また、KeyGraphで求めたテキストのベクトルから、SVM(Support Vector Machine)の理論を適応して、テキスト間の類似度計算を行うことも可能である。
以上説明した本実施形態のテキスト間の類似度計算システム1は次のような効果を奏し得るものである。
テキストの内容の意図を表現するキーワードやキーワード候補である単語を対象にして、2つのテキスト間の類似度を算出することができ、単純に単語の出現頻度を用いた類似度計算方法に比べ精度の向上も図れる。
また、従来のTFIDF法により得られる、単語のベクトルを表現したTFIDF値は、ある特定のテキスト集合における相対量であるため、類似度計算に使用するテキストベクトルのデータベース(本実施形態の図1のテキストベクトルDB4に相当するもの)を更新する場合に、そのデータベースに含まれている全テキストのベクトルを再計算する必要がある。これに対し、本実施形態に係るKeyGraphを利用した方法では、テキスト単位で重要単語の抽出を行うこととなるため、テキストベクトルDB4の既存のテキストベクトルを変更する必要がない。このため、テキストベクトルDB4の更新に費やされるコストを大幅に低減でき、高速化を図れる。
次に、本実施形態のテキスト間の類似度計算システム1の具体的な実装例を説明する。
本実施形態のテキスト間の類似度計算システム1は、たとえば、PC(Personal Computer)、PDA(Personal Digital(Data) Assistants)、携帯電話、テレビジョンセット、デジタルカメラ、デジタルビデオカメラなどの様々な電子機器装置に組み込んで利用することが可能である。
図9は、本実施形態のテキスト間の類似度計算システム1を実装した電子機器装置100のハードウェア構成を示す図である。同図に示すように、この電子機器装置100は、処理演算部としてのCPU(Central Processing Unit)21、メインメモリ22、プログラム/データ記憶部23、インターネットなどのネットワーク24との接続を処理するネットワークインタフェース部25、ユーザに情報を視覚的に提供する表示デバイス26、VRAM(Video Random Access Memory)27を用いて表示デバイス26の画面への描画処理を行うグラフィックコントローラ28、ユーザに聴覚的に情報を提供するスピーカ29、ユーザの操作入力部30からの入力を処理するユーザインタフェースコントローラ31、そして以上の各部の間で信号を伝達するためのバス32を備える。
CPU21は、たとえばプログラム/データ記憶部23に記憶されたプログラムやデータ、ユーザによる操作入力部30からの入力などに基づき、メインメモリ22をワークエリアとして用いて各種の演算処理や制御を実行する。
メインメモリ22は、たとえば、RAM(Random Access Memory)などの、ランダムに読み取りと書き込みが可能な高速なメモリからなる。
プログラム/データ記憶部23は、読み取り専用あるいは読み書き可能な不揮発性の記憶装置であり、たとえばROM(Read Only Memory)、フラッシュROM、ディスクドライブなどである。このプログラム/データ記憶部23には、上述した類似度計算システム1などをコンピュータにおいて機能させるためのプログラムなど記憶されている。
表示デバイス26は、具体的には、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、OEL(Organic Electroluminescence)などである。
ユーザの操作入力部30は、具体的には、簡易キーボード、IR(Infrared)リモートコントローラ、ジョグダイヤル、プッシュボタン、ソフトウェアキーボードなどである。
ネットワークインタフェース部25は、たとえばアナログモデム、LAN(Local Area Network)、ISDN(Integrated Services Digital Network)、ADSL(Asymmetric Digital Subscriber Line)、FTTH(Fiber-To-The-Home)、Bluetooth、FOMA(W−CDMA)などである。
図10は、このような電子機器装置100に、上記のテキスト間の類似度計算システム1を、入力テキストとユーザプロファイルとの適合/不適合を判定するシステム101に適用した構成を示す図である。
この判定システム101は、入力されたテキスト102のベクトル化をKeyGraphの理論を用いて行うテキストベクトル生成エンジン103と、テキストベクトル生成エンジン103により生成されたテキストベクトルと、ユーザプロファイルのベクトルDB104に蓄積されているユーザプロファイルのテキストベクトルとの類似度を計算する類似度計算エンジン106と、類似度計算エンジン106によって計算された類似度に基づいて、入力テキスト102とユーザプロファイルとが互いに適合するものである不適合であるかを判定する類似度解析エンジン107とを備えて構成される。
図11はこの判定システム101のフローチャートである。
まず、テキストベクトル生成エンジン103にて、入力テキスト102の読み込みが行われ(ステップ1101)、入力テキスト102に対する形態素解析が行われることで入力テキスト102は単語に分割される(ステップ1102)。分割された単語はKeyGraphによる解析によって入力文書の主張を表すキーワードにあたる一部の単語に絞り込まれ(ステップ1103)、絞り込まれた単語についてテキストベクトルの生成が行われる(ステップ1104)。
次に、テキストベクトル生成エンジン103により生成されたテキストベクトルと、ユーザプロファイルのベクトルDB104に蓄積されているユーザプロファイルのテキストベクトルとの内積等による類似度の計算が、類似度計算エンジン106にて行われる(ステップ1105)。類似度の計算結果は類似度解析エンジン107に渡され、類似度解析エンジン107は類似度がしきい値以上であるかどうかを判定し(ステップ1106)、しきい値以上であれば、入力テキスト102とユーザプロファイルとが適合するものであることを解析結果として出力する(ステップ1107)。しきい値以上でなければ、入力テキスト102とユーザプロファイルとが不適合であることを解析結果として出力する(ステップ1108)。
ここで、ユーザプロファイルのベクトルDB104は、電子機器装置100でのユーザの操作等、ユーザの行動により発生した入力に基づいて生成される。具体的には、インターネットのクローリング時に収集されたウェブ上のコンテンツ(TV番組、ウェブページ、ストリーミング動画、ストリーミング音楽など)や、送信した電子メール等からテキストを抽出し、上記の手順によりベクトルを生成して、ユーザプロファイルのベクトルDB104に蓄積して行くようにする。このユーザプロファイルのベクトルDB104の内容はユーザ適応度を高めるべく、その更新が頻繁に繰り返されることが普通である。かかる事情に対して、本実施形態のKeyGraphを利用した類似時計算方法によれば、ユーザプロファイルのベクトルDB104の更新はベクトルデータを追加する形式となる(ユーザプロファイルのベクトルDB104の既存のベクトルデータを変更する必要がない)ので、ユーザプロファイルのベクトルDB104の更新に費やされるコストを大幅に低減でき、高速化を図れる。したがって、CPU21などのハードウェア資源に要求されるスペックを抑えることができ、PC、PDA、携帯電話、テレビジョンセット、デジタルカメラ、デジタルビデオカメラなどの民生機器へ組み込む際の障壁を引き下げることができる。
また、本実施形態のKeyGraphを利用した類似時計算方法によれば、2つのテキスト間の絶対的な評価値(類似度)を得ることができ、これらテキスト間の関連の強さの絶対的な指標値を得られる。具体的には、ユーザの嗜好を反映したコンテンツから抽出したテキストのベクトルを生成し、これをユーザプロファイルのテキストベクトルとしてベクトルDBに蓄積しておき、その後、ユーザがウェブなどから収集したコンテンツについて、これがユーザの嗜好にマッチしたものであるか否かや、どのくらいマッチしているかなどを判定するといった用途に好適に利用できる。
なお、本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
本発明の一実施形態にかかるテキスト間の類似度計算システムの構成を示すブロック図である。 KeyGraphの応用によるテキストのベクトル化の流れを示すフローチャートである。 KeyGraphによる解析にて用いられる関連グラフの例を示す図である。 図3の関連グラフから抽出された単語の共起度の和の一覧を示す図である。 単語の共起度の和(重み)の値に所定値を加える例を示す図である。 図3に示した関連グラフ上の全ての単語の重み付け結果を示す図である。 テキストベクトルDB内のテキストYの単語の重みデータの例を示す図である。 図7のテキストYの単語の重みデータと図6の入力テキストXの単語の重みデータとを一つにまとめて示す図である。 本実施形態のテキスト間の類似度計算システムを実装した電子機器装置のハードウェア構成を示す図である。 図9の電子機器装置に、図1の類似度計算システムを入力テキストとユーザプロファイルとの適合/不適合を判定するシステムに適用した場合の構成を示す図である。 図10の判定システムのフローチャートである。
符号の説明
1 類似度計算システム
2 入力テキスト
3 テキストベクトル生成エンジン
4 テキストベクトルDB
6 類似度計算エンジン
21 CPU
22 メインメモリ
23 プログラム/データ記憶部
100 電子機器装置
101 判定システム
102 入力テキスト
103 テキストベクトル生成エンジン
104 ユーザプロファイルのベクトルDB
106 類似度計算エンジン
107 類似度解析エンジン

Claims (12)

  1. テキストを入力するテキスト入力部と、
    前記テキスト入力部より入力されたテキストに含まれる単語の出現頻度と共起関係に基づいてキーワードまたはキーワード候補である単語とその重みを求め、求めた単語とその重みに基づいて前記テキストのベクトルを生成するテキストベクトル生成部と、
    前記テキストベクトル生成部により生成された2つのテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算する類似度計算部と
    を具備することを特徴とする電子機器装置。
  2. 前記テキストベクトル生成部は、少なくとも、他の単語との共起関係の強さを示す共起度の和の値に基づいて、前記キーワードまたは前記キーワード候補である単語の重みを求めることを特徴とする請求項1に記載の電子機器装置。
  3. 前記テキストベクトル生成部は、少なくとも、他の単語との共起関係の強さを示す共起度の和に1以上の所定値を加えた値に基づいて、キーワードまたはキーワード候補である単語の重みを求めることを特徴とする請求項1に記載の電子機器装置。
  4. 前記テキストベクトル生成部により生成されたテキストのベクトルを蓄積するデータベースをさらに有し、
    前記類似度計算部は、前記テキストベクトル生成部により生成された第1のテキストのベクトルと前記データベースに蓄積されている第2のテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算するものであることを特徴とする請求項1に記載の電子機器装置。
  5. テキストを入力するステップと、
    前記入力されたテキストに含まれる単語の出現頻度と共起関係に基づいてキーワードまたはキーワード候補である単語とその重みを求めるステップと、
    前記求めた単語とその重みに基づいて前記テキストのベクトルを生成するステップと、
    前記生成された2つのテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算するステップと
    を有することを特徴とするテキスト間の類似度計算方法。
  6. 少なくとも、他の単語との共起関係の強さを示す共起度の和の値に基づいて、キーワードまたはキーワード候補である単語の重みを求めることを特徴とする請求項5に記載のテキスト間の類似度計算方法。
  7. 少なくとも、他の単語との共起関係の強さを示す共起度の和に1以上の所定値を加えた値に基づいて、キーワードまたはキーワード候補である単語の重みを求めることを特徴とする請求項5に記載のテキスト間の類似度計算方法。
  8. 生成されたテキストのベクトルをデータベースに蓄積するステップをさらに有し、生成された第1のテキストのベクトルと前記データベースに蓄積されている第2のテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算することを特徴とする請求項5に記載のテキスト間の類似度計算方法。
  9. コンピュータを、
    テキストを入力するテキスト入力部と、
    前記テキスト入力部より入力されたテキストに含まれる単語の出現頻度と共起関係に基づいてキーワードまたはキーワード候補である単語とその重みを求め、求めた単語とその重みに基づいて前記テキストのベクトルを生成するテキストベクトル生成部と、
    前記テキストベクトル生成部により生成された2つのテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算する類似度計算部
    として機能させることを特徴とするプログラム。
  10. 前記テキストベクトル生成部は、少なくとも、他の単語との共起関係の強さを示す共起度の和の値に基づいて、前記キーワードまたは前記キーワード候補である単語の重みを求めることを特徴とする請求項9に記載のプログラム。
  11. 前記テキストベクトル生成部は、少なくとも、他の単語との共起関係の強さを示す共起度の和に1以上の所定値を加えた値に基づいて、キーワードまたはキーワード候補である単語の重みを求めることを特徴とする請求項9に記載のプログラム。
  12. 前記テキストベクトル生成部により生成されたテキストのベクトルをデータベースに蓄積する手段をさらに有し、
    前記類似度計算部は、前記テキストベクトル生成部により生成された第1のテキストのベクトルと前記データベースに蓄積されている第2のテキストのベクトルに基づいてこれら2つのテキスト間の類似度を計算するものであることを特徴とする請求項9に記載のプログラム。
JP2003357463A 2003-10-17 2003-10-17 電子機器装置、テキスト間の類似度計算方法、およびプログラム Pending JP2005122515A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003357463A JP2005122515A (ja) 2003-10-17 2003-10-17 電子機器装置、テキスト間の類似度計算方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003357463A JP2005122515A (ja) 2003-10-17 2003-10-17 電子機器装置、テキスト間の類似度計算方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2005122515A true JP2005122515A (ja) 2005-05-12

Family

ID=34614341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003357463A Pending JP2005122515A (ja) 2003-10-17 2003-10-17 電子機器装置、テキスト間の類似度計算方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2005122515A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011258184A (ja) * 2010-06-08 2011-12-22 International Business Maschines Corporation コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル
JP2018072983A (ja) * 2016-10-26 2018-05-10 ヤフー株式会社 検索装置、検索方法および検索プログラム
CN111373386A (zh) * 2017-11-07 2020-07-03 株式会社Fronteo 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
CN112163157A (zh) * 2020-09-30 2021-01-01 腾讯科技(深圳)有限公司 一种文本推荐方法、装置、服务器及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011258184A (ja) * 2010-06-08 2011-12-22 International Business Maschines Corporation コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル
JP2018072983A (ja) * 2016-10-26 2018-05-10 ヤフー株式会社 検索装置、検索方法および検索プログラム
CN111373386A (zh) * 2017-11-07 2020-07-03 株式会社Fronteo 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
CN112163157A (zh) * 2020-09-30 2021-01-01 腾讯科技(深圳)有限公司 一种文本推荐方法、装置、服务器及介质

Similar Documents

Publication Publication Date Title
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
JP6638480B2 (ja) 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
WO2009000103A1 (en) Word probability determination
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
US20040111404A1 (en) Method and system for searching text portions based upon occurrence in a specific area
CN107885717B (zh) 一种关键词提取方法及装置
JP2004070959A (ja) 適応型文脈依存解析
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
JP2009037420A (ja) 有害コンテンツの評価付与装置、プログラム及び方法
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
CN112905768A (zh) 一种数据交互方法、装置及存储介质
JP2005135113A (ja) 電子機器装置、関連語抽出方法及びプログラム
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
CN110569503A (zh) 一种基于词统计与WordNet的义项表示与消歧方法
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
CN111460177A (zh) 影视类表情搜索方法、装置、存储介质、计算机设备
US9104755B2 (en) Ontology enhancement method and system
JP5228451B2 (ja) 文書検索装置
JP2005122515A (ja) 電子機器装置、テキスト間の類似度計算方法、およびプログラム
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060424