JP3317341B2 - 類似度計算方法及び装置、類似文書検索方法及び装置 - Google Patents

類似度計算方法及び装置、類似文書検索方法及び装置

Info

Publication number
JP3317341B2
JP3317341B2 JP32992498A JP32992498A JP3317341B2 JP 3317341 B2 JP3317341 B2 JP 3317341B2 JP 32992498 A JP32992498 A JP 32992498A JP 32992498 A JP32992498 A JP 32992498A JP 3317341 B2 JP3317341 B2 JP 3317341B2
Authority
JP
Japan
Prior art keywords
document
channel
information amount
information
estimating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32992498A
Other languages
English (en)
Other versions
JP2000155762A (ja
Inventor
直毅 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP32992498A priority Critical patent/JP3317341B2/ja
Publication of JP2000155762A publication Critical patent/JP2000155762A/ja
Application granted granted Critical
Publication of JP3317341B2 publication Critical patent/JP3317341B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索分野にお
ける類似度計算方法及び装置、類似文書検索方法及び装
置に関するものである。
【0002】
【従来の技術】従来から情報検索の分野における類似文
書検索方法としては、例えば、文献(G.Salto
n, M.McGill, Introduction
toModern Information Ret
rieval, New York, McGraw−
Hill,1983)に記載されているように文書にお
ける単語の出現頻度をもとに、文書の距離あるいは類似
度を計算する方法が知られている。この方法では、各文
書における単語の頻度ベクトルを求め、各々のベクトル
にTF・IDFと呼ばれる重み付けを行ない、ベクトル
のなす角度のコサイン値を文書間の類似度とする。
【0003】また、特開平8−263510号公報に
は、単語の出現頻度を利用して確率分布を推定し、MD
L基準等により分類を行なう方法が記載されている。し
かしながら、特願平10−202575号公報で指摘さ
れているように、単語の出現頻度をそのまま確率分布の
推定に利用することには問題があり、実際には、不要語
の削除や同義語の設定などによって、基底となる単語集
合を適切に構成する必要がある。
【0004】
【発明が解決しようとする課題】従来の類似度計算方法
において、第1の問題点は文書の表現方法が単語等の頻
度ベクトルに限定されていたことである。つまり、デー
タベースのレコードにカテゴリ名を値とするフィールド
がある時や、数値のフィールドがある時は、これらを全
て統合する形で類似度計算を行なうことは統一的な枠組
の中ではできなかった。
【0005】また、第2の問題点は従来の類似度計算方
法が計算された類似度がどのような意味で最適なのかが
不明で、ベンチマークのみが善し悪しを決める基準にな
っていた。更に、第3の問題点は複数の観点からの類似
度が必要な時、統一的な枠組で類似度を管理することが
できず、加えて複数の文書が内容的に類似している時そ
の情報を利用して類似度計算の精度を上げることができ
なかった。
【0006】本発明の目的は、上述のような従来技術の
欠点を解消し、類似度の精度を高めることが可能な類似
度計算方法及び装置、類似文書検索方法及び装置を提供
することにある。
【0007】
【課題を解決するための手段】本発明の類似度計算方法
は、頻度ベクトル変換手段が、所定の文書をチャネル数
を次元数とする頻度ベクトルに変換する過程と、計数手
段が、チャネル数を次元数とする頻度ベクトルのチャネ
ル毎の値をカテゴリ毎に計数する過程と、情報量推定手
段が、前記計数手段の計数結果に基づいてチャネル毎の
情報量を推定する過程と、情報量比推定手段が、類似度
を計算すべき2つの文書のチャネル数を次元数とする頻
度ベクトルをそれぞれ計算し、計算結果と前記情報量推
定手段で推定されたチャネル毎の情報量に基づいて2つ
の文書の情報量とチャネル毎の情報量比を推定する過程
と、類似度計算手段が、得られた2つの文書の情報量と
チャネル毎の情報量比から2つの文書の類似度を計算す
る過程とを含むことを特徴としている。
【0008】また、本発明の類似度計算装置は、所定の
文書をチャネル数を次元数とする頻度ベクトルに変換す
る手段と、チャネル数を次元数とする頻度ベクトルのチ
ャネル毎の値をカテゴリ毎に計数する手段と、計数結果
に基づいてチャネル毎の情報量を推定する手段と、類似
度を計算すべき2つの文書のチャネル数を次元数とする
頻度ベクトルをそれぞれ計算し、計算結果と前記推定さ
れたチャネル毎の情報量に基づいて2つの文書の情報量
とチャネル毎の情報量比を推定する手段と、得られた2
つの文書の情報量とチャネル毎の情報量比から2つの文
書の類似度を計算する手段とを備えたことを特徴として
いる。
【0009】更に、本発明の類似文書検索方法は、頻度
ベクトル変換手段が、所定の文書をチャネル数を次元数
とする頻度ベクトルに変換する過程と、計数手段が、
ャネル数を次元数とする頻度ベクトルのチャネル毎の値
をカテゴリ毎に計数する過程と、情報量推定手段が、前
記計数手段の計数結果に基づいてチャネル毎の情報量を
推定する過程と、第1情報量比推定手段が、検索対象の
各文書のチャネル数を次元数とする頻度ベクトルをそれ
ぞれ計算し、計算結果と前記情報量推定手段で推定され
たチャネル毎の情報量に基づいて各々の文書の情報量と
チャネル毎の情報量比を推定する過程と、記憶手段が、
得られた各々の文書の情報量とチャネル毎の情報量比を
記憶する過程と、第2情報量比推定手段が、質問文書の
チャネル数を次元数とする頻度ベクトルを計算し、計算
結果と前記情報量推定手段で推定されたチャネル毎の情
報量に基づいて質問文書の情報量とチャネル毎の情報量
比を推定する過程と、類似度計算手段が、前記記憶手段
記憶された検索対象の各文書の情報量とチャネル毎の
情報量比と質問文書の情報量とチャネル毎の情報量比か
ら検索対象の各文書と質問文書との類似度を計算する過
程と、選択手段が、検索対象の文書の中から類似度の高
い順に所定数の文書を選択する過程とを含むことを特徴
としている。
【0010】また、本発明の類似文書検索装置は、所定
の文書をチャネル数を次元数とする頻度ベクトルに変換
する手段と、チャネル数を次元数とする頻度ベクトルの
チャネル毎の値をカテゴリ毎に計数する手段と、計数結
に基づいてチャネル毎の情報量を推定する手段と、検
索対象の各文書のチャネル数を次元数とする頻度ベクト
ルをそれぞれ計算し、計算結果と前記推定されたチャネ
ル毎の情報量に基づいて各々の文書の情報量とチャネル
毎の情報量比を推定する手段と、得られた各々の文書の
情報量とチャネル毎の情報量比を記憶する手段と、質問
文書のチャネル数を次元数とする頻度ベクトルを計算
し、計算結果と前記推定されたチャネル毎の情報量に基
づいて質問文書の情報量とチャネル毎の情報量比を推定
する手段と、前記記憶された検索対象の各文書の情報量
とチャネル毎の情報量比と質問文書の情報量とチャネル
毎の情報量比から検索対象の各文書と質問文書との類似
度を計算する手段と、検索対象の文書の中から類似度の
高い順に所定数の文書を選択する手段とを備えたことを
特徴としている。
【0011】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。図1は本発明の第1
の実施形態の構成を示すブロック図である。図1におい
て、1はヘルプデスクで蓄積されたQ&A文書データベ
ース(図示せず)からQ&A文書を入力する文書入力手
段、2はQ&A文書にカテゴリが定義されている場合に
そのカテゴリを入力するカテゴリ入力手段、3はQ&A
文書をチャネルに分配するチャネル分配手段である。ま
た、4は文書のチャネル毎の出現頻度をカテゴリ毎に計
数する頻度統計手段、5はカテゴリを推定する際のチャ
ネル毎の情報量を推定するチャネル情報量推定手段、6
は文書の特徴量として文書の情報量とチャネル毎の情報
量比を推定する文書特徴量推定手段、7は類似度を計算
する2つの文書の情報量とチャネル毎の情報量比から2
つの文書の類似度を計算する類似度計算手段である。
【0012】文書入力手段1はリレーショナルデータベ
ースの一レコードを一文書とし、データベースの全レコ
ードをスキャンすることにより全文書を入力する場合
と、レコードのIDを指定することにより指定IDの文
書のみを入力する場合がある。カテゴリ入力手段2はカ
テゴリ指定がなければ各文書を各々別カテゴリの文書と
みなし、カテゴリ指定があれば各文書に対応したカテゴ
リを入力する。全てのレコードにカテゴリが対応してい
なくても、一部のサンプル文書に対してだけカテゴリが
対応していればそれでも構わない。
【0013】チャネル分配手段3はカテゴリ名を値とす
るフィールドがある時、フィールドとカテゴリ名の組を
チャネルとし、数値のフィールドがある時は適宜閾値を
用いてフィールドと区間の組をチャネルとし、文章から
なるフィールドに形態素解析を行なう。また、Qに出現
する形態素を各々チャネルとみなし、Aに出現する形態
素を各々チャネルとみなし、Qに出現する意味のある連
語を各々チャネルとみなし、Aに出現する意味のある連
語を各々チャネルとみなし、連語を優先させてQ&A文
書をチャネルに分配する。
【0014】頻度統計手段4は、チャネル毎の出現頻度
をQ&A文書毎、及びカテゴリ毎に計数する。チャネル
情報量推定手段5は、チャネル間に相関がないとみな
し、文書を入力した際にあるチャネルが生起した場合、
入力文書がどのカテゴリに当てはまるかを推定するため
に得られる情報量を、カテゴリ上の確率分布のカルバッ
クダイバージェンス(Kullback−Leible
r情報量、相対エントロピーとも呼ばれる。)により推
定する。即ち、2つの確率分布をP(チャネル生起後)
及びQ(チャネル生起前)とすると、カテゴリIDを添
字jとして、 Σj Pj×log(Pj/Qj) が情報量となる。但し、記号Σは記号右下の添字につい
て和を取るものとし、Pj及びQjは確率分布Pのj番
目の要素及び確率分布Qのj番目の要素を各々表す。即
ち、これらの和を取ると1となる。
【0015】Σj Pj=1 Σj Qj=1 なお、対数logの底は2でも、自然対数eでも、10
でも良く、特に定めないものとする。
【0016】P及びQの推定方法としては、例えば、各
々の文書の出現確率をQ&A文書の利用頻度から推定
し、これらを集計して各々のカテゴリの出現確率Qを推
定し、あるチャネルが生起した場合の各々の文書の出現
確率を同様に推定し、これらを集計して各々のカテゴリ
の出現確率Pを推定する方法がある。また、他のP及び
Qの推定方法としては、例えば、全チャネルの合計頻度
数によるカテゴリの確率分布をQとして、あるチャネル
の頻度数によるカテゴリの確率分布をPとする方法があ
る。ベイズの定理を利用した推定法を利用する場合は、
適当な先験分布を利用することにより行う。
【0017】文書特徴量推定手段6は、チャネル情報量
とQ&A文書毎のチャネルの出現頻度から文書特徴量と
して、これらの積和により推定する文書の情報量と、総
和が1となるように正規化されたチャネル毎の情報量の
比、即ち確率分布とみなせるもの、の2つの特徴量を推
定する。微小な量は適宜量子化して計算時間の短縮を図
ることもある。類似度計算手段7は情報量の重みつけて
2文書の確率分布を混合した確率分布を計算し、この混
合した確率分布と各々の確率分布との距離をカルバック
ダイバージェンスにより計算し、それらの距離に情報量
の重みをつけて平均をとることによって距離を計算す
る。これは、インフォーメーションラディウスInfo
rmation Radius(Jardine Si
bson,Mathematical Taxonom
y,Weiley,Londonand New Yo
rk(1971))と呼ばれる距離の計算方法の重みを
文書の情報量とした場合に相当する。
【0018】即ち、2つのチャネル上の確率分布をU及
びVとし、チャネルIDを添字iとし、U及びVに対応
する情報量を各々IU及びIVとし、確率分布をU及び
Vを混合した確率分布Wとすると、W及び距離は以下の
ように書ける。
【0019】Wi=((IU×Ui)+(IV×V
i))/(IU+IV) 距離=(IU×(Σi Ui×log(Ui/Wi))
+IV×(Σi Vi×log(Vi/Wi))/(I
U+IV) この距離に負の符号をつけて類似度とする。
【0020】次に、図2〜図4を参照して第1の実施形
態をより詳細に説明する。まず、ヘルプデスクで蓄積さ
れたQ&A文書データベースには3件のQ&A文書が蓄
積されており、各々、ゴルフ、テニス、サッカーに関す
る文書であるとし、QとAは分離されていないものとす
る。Q&A文書にはカテゴリとして「ゴルフとテニス」
と「サッカー」の2つのカテゴリが定義されているとす
る。また、チャネルとして、ショット、ボール、キック
の3つが抽出されているとする。
【0021】ここで、文書入力手段1、カテゴリ入力手
段2、チャネル分配手段3、頻度統計手段4により、チ
ャネル毎の出現頻度をQ&A文書毎に計数すると、図2
に示すように、文書「ゴルフ」は、チャネルの、ショッ
ト、ボール、が頻度1で、それ以外は0となり、頻度ベ
クトル表現は、(1,1,0)となる。文書「テニス」
は、チャネルの、ショット、ボール、が頻度1で、それ
以外は0となり、頻度ベクトル表現は、(1,1,0)
となる。文書「サッカー」は、チャネルの、ボール、キ
ック、が頻度1で、それ以外は0となり、頻度ベクトル
表現は、(0,1,1)となる。
【0022】カテゴリ毎に計数すると、図2に示すよう
にカテゴリ「ゴルフとテニス」は、チャネルの、ショッ
ト、ボール、が頻度2で、それ以外は0となり、頻度ベ
クトル表現は、(2,2,0)となる。カテゴリ「サッ
カー」は、チャネルの、ボール、キック、が頻度1で、
それ以外は0となり、頻度ベクトル表現は、(0,1,
1)となる。また、全チャネルの合計頻度数によるカテ
ゴリの確率分布をQとして、あるチャネルの頻度数によ
るカテゴリの確率分布をPとする方法を採用すると、 Q=(2/3,1/3) P(ショット)=(1,0) P(ボール)=(2/3,1/3) P(キック)=(0,1) となる。
【0023】次に、チャネル情報量推定手段5によりP
とQとの間のカルバックダイバージェンスを計算する。
ここで計算される情報量は図2に示すようなチャネルと
カテゴリに関する頻度表から計算したチャネルとカテゴ
リ間の相互情報量と密接な関係がある。具体的には、チ
ャネル毎の情報量のチャネル頻度による重み付き平均が
その相互情報量となっている。
【0024】数式を用いて説明すると、図2に示す頻度
表からカテゴリとチャネルの同時分布p(i,j)を計
算する。但し、カテゴリの添字をjとし、チャネルの添
字をiとする。
【0025】p(j)=Σi p(i,j) p(i)=Σj p(i,j) を計算すると、チャネルとカテゴリ間の相互情報量は、
Σ(i,j)p(i,j)×log(p(i,j)/
(p(i)×p(j)))と計算できる。上式は、 Σi p(i)×(Σj((p(i,j)/p(i))
×log((p(i,j)/p(i))/p
(j)))) と変形できるが、チャネルiの生起前のカテゴリ上の確
率分布QをPj=p(j)とし、チャネルiの生起後の
カテゴリ上の確率分布PをPj=p(i,j)/p
(i)とした場合、チャネルiの情報量が、 I(i)=Σj Pj×log(Pj/Qj) と書けることを利用すると、チャネルとカテゴリ間の相
互情報量は、Σi p(i)×I(i)という形に書く
ことができる。
【0026】従って、チャネル「ショット」の情報量は
図3に示すようにlog(3/2)=0.405とな
り、チャネル「ボール」の情報量は0となり、チャネル
「キック」の情報量はlog(3)=1.099とな
る。また、文書特徴量推定手段6により文書「ゴルフ」
は、情報量が0.405で、情報量比のベクトル表現は
和が1となるように正規化すると、(1,0,0)とな
る。文書「テニス」は、情報量が0.405で、情報量
比のベクトル表現は和が1となるように正規化すると、
(1,0,0)となる。文書「サッカー」は、情報量
が、1.099で、情報量比のベクトル表現は和が1と
なるように正規化すると、(0,0,1)となる。この
正規化前の情報量比のベクトルを図4に示している。
【0027】また、類似度計算手段7によりインフォー
メーションラディウスの式を利用して、例えば、文書
「ゴルフ」と文書「テニス」との類似度を計算すると、
0となり、文書「ゴルフ」と文書「サッカー」との類似
度を計算すると、混合した確率分布が(0.405/
1.504,0,1.099/1.504)=(0.2
70,0,0.730)となるから、類似度は、−
(0.27×log(1/0.27)+0.73×lo
g(1/0.73))=−0.583となる。
【0028】図5は本実施形態による類似度計算方法の
処理の流れを示すフローチャートである。図1と併せて
本実施形態の動作について説明する。図5において、ま
ず、文書入力手段1により文書データベースからチャネ
ル分配手段2に文書を入力し(ステップ501)、カテ
ゴリ入力手段2からそのカテゴリを頻度統計手段4に入
力する(ステップ501)。チャネル分配手段3では入
力された文書をチャネルに分配し(ステップ502)、
頻度統計手段4ではチャネル毎の出現頻度をカテゴリ毎
に計数する(ステップ503)。次いで、文書データベ
ースに次の文書があるかどうかを判断し(ステップ50
4)、次の文書があればステップ501から同様の処理
を行い、各々の文書についてチャネル毎の出現頻度をカ
テゴリ毎に計数する。
【0029】文書データベースのすべての文書について
処理を終了すると(ステップ504がNo)、チャネル
情報量推定手段5では頻度統計手段4で得られたチャネ
ル毎の出現頻度に基づいてチャネル毎の情報量(カテゴ
リを推定する際の情報量)を推定する(ステップ50
5)。ステップ505のチャネル毎の情報量の推定は、
言い換えればチャネル(単語)の重要度の推定を行って
いる。なお、本実施形態では、ステップ501〜505
でデータベースの文書を用いているが、要はステップ5
05で単語(チャネル)の重要度を推定するのが目的で
あるので、データベース以外の文書(例えば、新聞等の
文書)を用いてもよい。
【0030】次に、ステップ506〜510で類似度を
計算するための2つの文書を読み込む処理を行う。ま
ず、ステップ506で文書を入力し、チャネル分配手段
3で文書をチャネルに分配する(ステップ507)。ま
た、頻度統計手段4ではチャネル毎の出現頻度を計数し
(ステップ508)、文書特徴量推定手段6ではステッ
プ505で得られたチャネル毎の情報量、ステップ50
8で得られたチャネル毎の出現頻度に基づいて文書の特
徴量として文書の情報量とチャネル毎の情報量比(その
文書におけるチャネルの重要度の度合)を推定する(ス
テップ509)。以上で1つ目の文書に対する処理を終
了する。
【0031】次いで、文書が1文書目であるかどうかを
判断し(ステップ510)、この時は1文書目の処理で
あるので、再度ステップ506に戻って2つ目の文書に
対して同様の処理を行う。即ち、2つ目の文書を入力し
(ステップ506)、チャネル分配手段3で入力された
文書をチャネルに分配し(ステップ507)、頻度統計
手段4でチャネル毎に出現頻度を計数する(ステップ5
08)。また、文書特徴量推定手段6ではステップ50
8で得られたチャネル毎の出現頻度、ステップ505で
得られたチャネル毎の情報量に基づいて2つ目の文書の
情報量とチャネル毎の情報量比を推定する(ステップ5
09)。
【0032】以上で2つ目の文書に対する処理を終了す
る。次に、ステップ510で1文書目であるかどうかを
判断し、この時は2つ目の文書であるのでステップ51
1に進む。ステップ511において類似度計算手段7に
よりステップ509で得られた1つ目と2つ目の文書の
情報量とチャネル毎の情報量比に基づいて2つの文書の
類似度を計算する。以上で2つの文書の類似度の計算を
終了し、一連の類似度計算処理を完了する。
【0033】図6は本発明の第2の実施形態の構成を示
すブロック図である。図6において、1はWWWサーバ
から検索対象となるHTMLに代表されるタグ付き文
書、あるいは質問となる文書を入力する文書入力手段、
2は文書にカテゴリが定義されている場合にそのカテゴ
リを入力するカテゴリ入力手段、3は文書をチャネルに
分配するチャネル分配手段、4はチャネル毎の出現頻度
をカテゴリ毎に計数する頻度統計手段、5は文書のチャ
ネル毎の情報量を推定するチャネル情報量推定手段であ
る。
【0034】また、6は文書の特徴量として文書の情報
量及びチャネル毎の情報量比を推定する文書特徴量推定
手段、8は検索対象文書として入力された文書の特徴量
を記憶する文書特徴量記憶手段である。更に、7は記憶
手段8に記憶された検索対象文書の特徴量と質問文書と
して入力された文書の特徴量から文書の類似度を計算す
る類似度計算手段、9は検索対象の文書の中から類似度
の高い順に一定数の文書を選択するソート手段である。
【0035】文書入力手段1はWWWサーバの一つのU
RLに対応する文書を一文書とし、WWWロボットを利
用することにより対象サイトの全文書を入力する場合
と、URLを指定することにより指定URLの文書のみ
を入力する場合と、利用者が直接質問となる文書を入力
する場合がある。カテゴリ入力手段2はカテゴリ指定が
なければ各文書を各々別カテゴリの文書とみなし、カテ
ゴリ指定があれば各文書に対応したカテゴリを入力す
る。
【0036】チャネル分配手段3は、文書からタグを利
用して必要部分のみを抽出し、得られたデータに対して
日本語の場合は形態素解析を行ない、英語の場合など空
白で区切られるデータに対しては空白で単語に分割し、
活用語尾変化したものを同一視する。次に、出現する単
語または形態素を各々チャネルとみなし、出現する意味
のある連語を各々チャネルとみなし、連語を優先させて
文書をチャネルに分配する。文書の構造がQ&A文書の
ように複数の部分に別れる場合は、タグを利用して各々
の部分を抽出し、Q&A文書で行なったのと同じように
複数部分の各々にチャネルを割り当てる。
【0037】頻度統計手段4は、チャネル毎の出現頻度
を文書毎、及びカテゴリ毎に計数する。チャネル情報量
推定手段5はチャネル間に相関がないとみなし、文書を
入力した際にあるチャネルが生起した場合、入力文書が
どのカテゴリに当てはまるかを推定するために得られる
情報量を、可能性のあるカテゴリが等確率で生起すると
みなし、可能性のあるカテゴリ数の変化の前後のエント
ロピーの変化量により推定する。変化前のカテゴリ数を
Nとし、変化後のカテゴリ数をnとすると、エントロピ
ーの変化量は、 log(N/n) と推定できる。
【0038】文書特徴量推定手段6はチャネル情報量と
Q&A文書毎のチャネルの出現頻度から文書特徴量とし
て、総和が1となるように正規化されたチャネル毎の情
報量の比、即ち確率分布とみなせるものを推定する。類
似度計算手段7は文書の特徴量である2つの確率分布間
の距離をヘリンガー距離により計算し、その距離にコサ
イン変換することによって類似度を計算する。即ち、2
つの確率分布をU及びVとすると、チャネルIDを添字
iとして、 Σi(√Ui)×(√Vi) が類似度となる。但し、記号√は記号右の1変数につい
て平方根を取るものとする。文書特徴量記憶手段8は検
索対象文書として入力された文書の特徴量をチャネルと
対応する数値のペアの集合として記憶する。ソート手段
9は類似度の高い順から一定数の文書を選択し、選択さ
れた文書を利用者に通知する。
【0039】図7は本実施形態の類似文書検索方法の処
理の流れを示すフローチャートである。図6と併せて本
実施形態の動作について説明する。まず、本実施形態で
は図7の処理を開始する前に第1の実施形態の図5のス
テップ501〜505の処理を行うものとする。図5の
ステップ501〜505の処理については説明を省略
し、図5のステップ505においてチャネル情報量推定
手段5によりチャネル毎の情報量を推定しているものと
する。このようにステップ505の処理を終了すると、
図7のステップ701において文書入力手段1は文書デ
ータベースから文書(検索対象文書とする)をチャネル
分配手段3に入力する。チャネル分配手段3では入力さ
れた文書をチャネルに分配し(ステップ702)、頻度
統計手段4ではチャネル毎の出現頻度を計数する(ステ
ップ703)。
【0040】次いで、文書特徴量推定手段6では、ステ
ップ505で得られた文書のチャネル毎の情報量と、ス
テップ703で得られたチャネル毎の出現頻度に基づい
て文書の特徴量として文書の情報量とチャネル毎の情報
量比を推定し(ステップ704)、得られた結果を文書
特徴量記憶手段8に記憶させる(ステップ705)。続
いて、文書データベースに次の文書があるかどうかを判
断し(ステップ706)、次の文書がある場合はステッ
プ701から同様の処理を行う。即ち、ステップ701
〜ステップ706の処理を繰り返し行い、検索対象の文
書毎に文書の特徴量として文書の情報量とチャネル毎の
情報量比を推定し、文書特徴量記憶手段8に記憶させて
いく。
【0041】データベースのすべての文書について処理
を終了すると(ステップ706がNo)、ステップ70
7で質問文書を文書入力手段1により入力する。即ち、
質問文書を入力し、それに類似した文書を文書データベ
ースの検索対象文書の中から検索する処理を行う。ま
ず、チャネル分配手段3により入力された質問文書をチ
ャネルに分配し(ステップ708)、頻度統計手段4で
はチャネル毎の出現頻度を計数する(ステップ70
9)。また、文書特徴量推定手段8ではステップ505
で得られた文書のチャネル毎の情報量とステップ709
で得られたチャネル毎の出現頻度に基づいて質問文書の
特徴量として文書の情報量とチャネル毎の情報量比を推
定する(ステップ710)。質問文書の特徴量を推定す
ると、類似度計算手段7では質問文書の特徴量と文書特
徴量記憶手段8に記憶されている検索対象文書の特徴
量、即ち両方の文書の情報量とチャネル毎の情報量比か
ら文書の類似度を計算する(ステップ711)。
【0042】次いで、文書特徴量記憶手段8に次の文書
の特徴量があるかどうかを判断し(ステップ712)。
次の文書があれば再度ステップ711で次の文書の特徴
量と質問文書の特徴量から両方の文書の類似度を計算す
る。このようにしてステップ711〜712の処理を繰
り返し行い、文書特徴量記憶手段8に記憶されている文
書の特徴量と質問文書の特徴量から各検索対象文書と質
問文書の類似度を計算していく。すべての文書について
類似度を計算すると、ソート手段9は検索対象文書の中
から類似度の高い順に一定数の文書を選択する(ステッ
プ713)。以上で質問文書に対して類似度の高い文書
が選択され、一連の類似文書検索処理を終了する。
【0043】次に、本発明の記録媒体としての実施形態
について図8を参照して説明する。図8において、10
0はクライアントコンピュータ、200はデータサーバ
コンピュータ200である。クライアントコンピュータ
100は、記憶装置101を含んでおり、記憶装置10
1は記録媒体102を含んでいる。また、データサーバ
コンピュータ200は、文書データベースが記憶された
記憶装置201を含んでいる。
【0044】記録媒体102にはクライアントコンピュ
ータ100を、第1、第2の実施形態の各手段として機
能させるためのプログラム103が機械読み取り可能に
記録されている。即ち、コンピュータ100を、図1の
実施形態の文書入力手段1、カテゴリ入力手段2、チャ
ネル分配手段3、頻度統計手段4、チャネル情報量推定
手段5、文書特徴量推定手段6、類似度計算手段7とし
て機能させるためのプログラム103が記録されてい
る。また、コンピュータ100を、図6の実施形態の文
書入力手段1、カテゴリ入力手段2、チャネル分配手段
3、頻度統計手段4、チャネル情報量推定手段5、文書
特徴量推定手段6、類似度計算手段7、文書特徴量記憶
手段8、ソート手段9として機能させるためのプログラ
ム103が記録されている。
【0045】なお、本発明は、文書の表現方法が単語等
の頻度ベクトルに限定されるものではなく、頻度に変換
できる情報であれば何でも構わない。例えば、データベ
ースのレコードにカテゴリ名を値とするフィールドがあ
る時、フィールドとカテゴリ名の組をチャネルとし、有
無のバイナリデータを頻度して扱うことができる。数値
のフィールドがある時は、適宜閾値を用いてフィールド
と区間の組をチャネルとし、頻度情報として扱うことが
できる。従来、これらを全て統合する形で類似度計算を
行なうことは統一的なモデルの枠組の中ではできなかっ
た。
【0046】
【発明の効果】以上説明したように本発明の類似度計算
方法によれば、統計的モデルに基づいたものとしたた
め、計算された類似度が、文書の統計モデル上での確率
分布間の類似度という意味を持ち、カテゴリ上の確率分
布間のカルバックダイバージェンスを利用したことで、
与えられたカテゴリに関する情報量の観点から最適な類
似度であるということができる。このため、ベンチマー
ク以外に、データとモデルの当てはまりの良さの基準と
して、MDL(Minimum Descriptio
n Length)やAIC(Akaike Info
rmation Criteria)を始めとする各種
の統計的基準が善し悪しを決める基準として利用でき
る。
【0047】また、カテゴリを推定する際の情報量を確
率分布推定に利用しているため、ある時点で複数の文書
が内容的に類似しているとわかった時、それらの文書が
同一カテゴリであるという情報を確率分布の推定に利用
して、対話的に類似度計算の精度を上げることができ
る。同時に、複数のカテゴリを用意することによって、
複数の観点における2つの文書間の類似度が統一的なモ
デルの枠組の中で計算できる。従って、文書の類似度を
従来に比べて大幅に高い精度で計算することができる。
また、本発明の類似文書検索方法によれば、同様に類似
度の精度が向上するため、類似文書を高い精度で検索す
ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の構成を示すブロック
図である。
【図2】本発明の第1の実施形態の原理を説明するため
の図である。
【図3】本発明の第1の実施形態の原理を説明するため
の図である。
【図4】本発明の第1の実施形態の原理を説明するため
の図である。
【図5】図1の実施形態の動作を説明するためのフロー
チャートである。
【図6】本発明の第2の実施形態の構成を示すブロック
図である。
【図7】図6の実施形態の動作を説明するためのフロー
チャートである。
【図8】本発明の記録媒体としての実施形態を示すブロ
ック図である。
【符号の説明】
1 文書入力手段 2 カテゴリ入力手段 3 チャネル分配手段 4 頻度統計手段 5 チャネル情報量推定手段 6 文書特徴量推定手段 7 類似度計算手段 8 文書特徴量記憶手段 9 ソート手段
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 頻度ベクトル変換手段が、所定の文書を
    チャネル数を次元数とする頻度ベクトルに変換する過程
    と、計数手段が、チャネル数を次元数とする頻度ベクト
    ルのチャネル毎の値をカテゴリ毎に計数する過程と、
    報量推定手段が、前記計数手段の計数結果に基づいてチ
    ャネル毎の情報量を推定する過程と、情報量比推定手段
    が、類似度を計算すべき2つの文書のチャネル数を次元
    数とする頻度ベクトルをそれぞれ計算し、計算結果と
    記情報量推定手段で推定されたチャネル毎の情報量に基
    づいて2つの文書の情報量とチャネル毎の情報量比を推
    定する過程と、類似度計算手段が、得られた2つの文書
    の情報量とチャネル毎の情報量比から2つの文書の類似
    度を計算する過程とを含むことを特徴とする類似度計算
    方法。
  2. 【請求項2】 所定の文書をチャネル数を次元数とする
    頻度ベクトルに変換する手段と、チャネル数を次元数と
    する頻度ベクトルのチャネル毎の値をカテゴリ毎に計数
    する手段と、計数結果に基づいてチャネル毎の情報量を
    推定する手段と、類似度を計算すべき2つの文書のチャ
    ネル数を次元数とする頻度ベクトルをそれぞれ計算し、
    計算結果と前記推定されたチャネル毎の情報量に基づい
    て2つの文書の情報量とチャネル毎の情報量比を推定す
    る手段と、得られた2つの文書の情報量とチャネル毎の
    情報量比から2つの文書の類似度を計算する手段とを備
    えたことを特徴とする類似度計算装置。
  3. 【請求項3】 頻度ベクトル変換手段が、所定の文書を
    チャネル数を次元数とする頻度ベクトルに変換する過程
    と、計数手段が、チャネル数を次元数とする頻度ベクト
    ルのチャネル毎の値をカテゴリ毎に計数する過程と、
    報量推定手段が、前記計数手段の計数結果に基づいてチ
    ャネル毎の情報量を推定する過程と、第1情報量比推定
    手段が、検索対象の各文書のチャネル数を次元数とする
    頻度ベクトルをそれぞれ計算し、計算結果と前記情報量
    推定手段で推定されたチャネル毎の情報量に基づいて各
    々の文書の情報量とチャネル毎の情報量比を推定する過
    程と、記憶手段が、得られた各々の文書の情報量とチャ
    ネル毎の情報量比を記憶する過程と、第2情報量比推定
    手段が、質問文書のチャネル数を次元数とする頻度ベク
    トルを計算し、計算結果と前記情報量推定手段で推定さ
    れたチャネル毎の情報量に基づいて質問文書の情報量と
    チャネル毎の情報量比を推定する過程と、類似度計算手
    段が、前記記憶手段に記憶された検索対象の各文書の情
    報量とチャネル毎の情報量比と質問文書の情報量とチャ
    ネル毎の情報量比から検索対象の各文書と質問文書との
    類似度を計算する過程と、選択手段が、検索対象の文書
    の中から類似度の高い順に所定数の文書を選択する過程
    とを含むことを特徴とする類似文書検索方法。
  4. 【請求項4】 所定の文書をチャネル数を次元数とする
    頻度ベクトルに変換する手段と、チャネル数を次元数と
    する頻度ベクトルのチャネル毎の値をカテゴリ毎に計数
    する手段と、計数結果に基づいてチャネル毎の情報量を
    推定する手段と、検索対象の各文書のチャネル数を次元
    数とする頻度ベクトルをそれぞれ計算し、計算結果と前
    記推定されたチャネル毎の情報量に基づいて各々の文書
    の情報量とチャネル毎の情報量比を推定する手段と、得
    られた各々の文書の情報量とチャネル毎の情報量比を記
    憶する手段と、質問文書のチャネル数を次元数とする頻
    度ベクトルを計算し、計算結果と前記推定されたチャネ
    ル毎の情報量に基づいて質問文書の情報量とチャネル毎
    の情報量比を推定する手段と、前記記憶された検索対象
    の各文書の情報量とチャネル毎の情報量比と質問文書の
    情報量とチャネル毎の情報量比から検索対象の各文書と
    質問文書との類似度を計算する手段と、検索対象の文書
    の中から類似度の高い順に所定数の文書を選択する手段
    とを備えたことを特徴とする類似文書検索装置。
  5. 【請求項5】 コンピュータを、所定の文書をチャネル
    数を次元数とする頻度ベクトルに変換する手段、チャネ
    ル数を次元数とする頻度ベクトルのチャネル毎の値をカ
    テゴリ毎に計数する手段、計数結果に基づいてチャネル
    毎の情報量を推定する手段、類似度を計算すべき2つの
    文書のチャネル数を次元数とする頻度ベクトルをそれぞ
    れ計算し、計算結果と前記推定されたチャネル毎の情報
    量に基づいて2つの文書の情報量とチャネル毎の情報量
    比を推定する手段、得られた2つの文書の情報量とチャ
    ネル毎の情報量比から2つの文書の類似度を計算する手
    段として機能させるためのプログラムを機械読み取り可
    能に記録した記録媒体。
  6. 【請求項6】 コンピュータを、所定の文書をチャネル
    数を次元数とする頻度ベクトルに変換する手段、チャネ
    ル数を次元数とする頻度ベクトルのチャネル毎の値をカ
    テゴリ毎に計数する手段、計数結果に基づいてチャネル
    毎の情報量を推定する手段、検索対象の各文書のチャネ
    ル数を次元数とする頻度ベクトルをそれぞれ計算し、計
    算結果と前記推定されたチャネル毎の情報量に基づいて
    各々の文書の情報量とチャネル毎の情報量比を推定する
    手段、得られた各々の文書の情報量とチャネル毎の情報
    量比を記憶する手段、質問文書のチャネル数を次元数と
    する頻度ベクトルを計算し、計算結果と前記推定された
    チャネル毎の情報量に基づいて質問文書の情報量とチャ
    ネル毎の情報量比を推定する手段、前記記憶された検索
    対象の各文書の情報量とチャネル毎の情報量比と質問文
    書の情報量とチャネル毎の情報量比から検索対象の各文
    書と質問文書との類似度を計算する手段、検索対象の文
    書の中から類似度の高い順に所定数の文書を選択する手
    段として機能させるためのプログラムを機械読み取り可
    能に記録した記録媒体。
JP32992498A 1998-11-19 1998-11-19 類似度計算方法及び装置、類似文書検索方法及び装置 Expired - Fee Related JP3317341B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32992498A JP3317341B2 (ja) 1998-11-19 1998-11-19 類似度計算方法及び装置、類似文書検索方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32992498A JP3317341B2 (ja) 1998-11-19 1998-11-19 類似度計算方法及び装置、類似文書検索方法及び装置

Publications (2)

Publication Number Publication Date
JP2000155762A JP2000155762A (ja) 2000-06-06
JP3317341B2 true JP3317341B2 (ja) 2002-08-26

Family

ID=18226800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32992498A Expired - Fee Related JP3317341B2 (ja) 1998-11-19 1998-11-19 類似度計算方法及び装置、類似文書検索方法及び装置

Country Status (1)

Country Link
JP (1) JP3317341B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031391A (ja) * 2004-07-15 2006-02-02 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム
US8560298B2 (en) * 2008-10-21 2013-10-15 Microsoft Corporation Named entity transliteration using comparable CORPRA
JP2010122823A (ja) * 2008-11-18 2010-06-03 Nec Corp テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3244005B2 (ja) * 1995-09-04 2002-01-07 松下電器産業株式会社 情報フィルタ装置及び情報フィルタリング方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
藤田直毅他,ベクトル空間法に基づく類似文書検索システムの一実現例,情報処理学会全国大会講演論文集,日本,VOL.54th No.3 PAGE,PAGE 3.35−3.36

Also Published As

Publication number Publication date
JP2000155762A (ja) 2000-06-06

Similar Documents

Publication Publication Date Title
US8005300B2 (en) Image search system, image search method, and storage medium
US7783629B2 (en) Training a ranking component
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
US8849787B2 (en) Two stage search
US8782061B2 (en) Scalable lookup-driven entity extraction from indexed document collections
US8266121B2 (en) Identifying related objects using quantum clustering
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
CN101226596B (zh) 文档图像处理装置以及文档图像处理方法
US7895205B2 (en) Using core words to extract key phrases from documents
US8171029B2 (en) Automatic generation of ontologies using word affinities
CN104199965B (zh) 一种语义信息检索方法
CN109885773A (zh) 一种文章个性化推荐方法、系统、介质及设备
US20100306214A1 (en) Identifying modifiers in web queries over structured data
CN107885717B (zh) 一种关键词提取方法及装置
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
JP3317341B2 (ja) 類似度計算方法及び装置、類似文書検索方法及び装置
JP2014102772A (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
JP3715413B2 (ja) 類似文書検索装置および類似文書検索方法
CN112015857A (zh) 用户感知评价方法、装置、电子设备及计算机存储介质
CN117648444B (zh) 基于图卷积属性聚合的专利聚类方法和系统
JP3880534B2 (ja) 文書分類方法及び文書分類プログラム
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법
KR100525616B1 (ko) 연관 검색 쿼리 추출 방법 및 시스템
JP2004287696A (ja) 検索システム及び検索プログラム
Xu Cross-Media Retrieval: Methodologies and Challenges

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080614

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090614

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees