JP3317341B2

JP3317341B2 - 類似度計算方法及び装置、類似文書検索方法及び装置

Info

Publication number: JP3317341B2
Application number: JP32992498A
Authority: JP
Inventors: 直毅藤田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-11-19
Filing date: 1998-11-19
Publication date: 2002-08-26
Anticipated expiration: 2018-11-19
Also published as: JP2000155762A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書検索分野にお
ける類似度計算方法及び装置、類似文書検索方法及び装
置に関するものである。

【０００２】

【従来の技術】従来から情報検索の分野における類似文
書検索方法としては、例えば、文献（Ｇ．Ｓａｌｔｏ
ｎ，Ｍ．ＭｃＧｉｌｌ，Ｉｎｔｒｏｄｕｃｔｉｏｎ
ｔｏＭｏｄｅｒｎＩｎｆｏｒｍａｔｉｏｎＲｅｔ
ｒｉｅｖａｌ，ＮｅｗＹｏｒｋ，ＭｃＧｒａｗ−
Ｈｉｌｌ，１９８３）に記載されているように文書にお
ける単語の出現頻度をもとに、文書の距離あるいは類似
度を計算する方法が知られている。この方法では、各文
書における単語の頻度ベクトルを求め、各々のベクトル
にＴＦ・ＩＤＦと呼ばれる重み付けを行ない、ベクトル
のなす角度のコサイン値を文書間の類似度とする。

【０００３】また、特開平８−２６３５１０号公報に
は、単語の出現頻度を利用して確率分布を推定し、ＭＤ
Ｌ基準等により分類を行なう方法が記載されている。し
かしながら、特願平１０−２０２５７５号公報で指摘さ
れているように、単語の出現頻度をそのまま確率分布の
推定に利用することには問題があり、実際には、不要語
の削除や同義語の設定などによって、基底となる単語集
合を適切に構成する必要がある。

【０００４】

【発明が解決しようとする課題】従来の類似度計算方法
において、第１の問題点は文書の表現方法が単語等の頻
度ベクトルに限定されていたことである。つまり、デー
タベースのレコードにカテゴリ名を値とするフィールド
がある時や、数値のフィールドがある時は、これらを全
て統合する形で類似度計算を行なうことは統一的な枠組
の中ではできなかった。

【０００５】また、第２の問題点は従来の類似度計算方
法が計算された類似度がどのような意味で最適なのかが
不明で、ベンチマークのみが善し悪しを決める基準にな
っていた。更に、第３の問題点は複数の観点からの類似
度が必要な時、統一的な枠組で類似度を管理することが
できず、加えて複数の文書が内容的に類似している時そ
の情報を利用して類似度計算の精度を上げることができ
なかった。

【０００６】本発明の目的は、上述のような従来技術の
欠点を解消し、類似度の精度を高めることが可能な類似
度計算方法及び装置、類似文書検索方法及び装置を提供
することにある。

【０００７】

【課題を解決するための手段】本発明の類似度計算方法
は、頻度ベクトル変換手段が、所定の文書をチャネル数
を次元数とする頻度ベクトルに変換する過程と、計数手
段が、チャネル数を次元数とする頻度ベクトルのチャネ
ル毎の値をカテゴリ毎に計数する過程と、情報量推定手
段が、前記計数手段の計数結果に基づいてチャネル毎の
情報量を推定する過程と、情報量比推定手段が、類似度
を計算すべき２つの文書のチャネル数を次元数とする頻
度ベクトルをそれぞれ計算し、計算結果と前記情報量推
定手段で推定されたチャネル毎の情報量に基づいて２つ
の文書の情報量とチャネル毎の情報量比を推定する過程
と、類似度計算手段が、得られた２つの文書の情報量と
チャネル毎の情報量比から２つの文書の類似度を計算す
る過程とを含むことを特徴としている。

【０００８】また、本発明の類似度計算装置は、所定の
文書をチャネル数を次元数とする頻度ベクトルに変換す
る手段と、チャネル数を次元数とする頻度ベクトルのチ
ャネル毎の値をカテゴリ毎に計数する手段と、計数結果
に基づいてチャネル毎の情報量を推定する手段と、類似
度を計算すべき２つの文書のチャネル数を次元数とする
頻度ベクトルをそれぞれ計算し、計算結果と前記推定さ
れたチャネル毎の情報量に基づいて２つの文書の情報量
とチャネル毎の情報量比を推定する手段と、得られた２
つの文書の情報量とチャネル毎の情報量比から２つの文
書の類似度を計算する手段とを備えたことを特徴として
いる。

【０００９】更に、本発明の類似文書検索方法は、頻度
ベクトル変換手段が、所定の文書をチャネル数を次元数
とする頻度ベクトルに変換する過程と、計数手段が、チ
ャネル数を次元数とする頻度ベクトルのチャネル毎の値
をカテゴリ毎に計数する過程と、情報量推定手段が、前
記計数手段の計数結果に基づいてチャネル毎の情報量を
推定する過程と、第１情報量比推定手段が、検索対象の
各文書のチャネル数を次元数とする頻度ベクトルをそれ
ぞれ計算し、計算結果と前記情報量推定手段で推定され
たチャネル毎の情報量に基づいて各々の文書の情報量と
チャネル毎の情報量比を推定する過程と、記憶手段が、
得られた各々の文書の情報量とチャネル毎の情報量比を
記憶する過程と、第２情報量比推定手段が、質問文書の
チャネル数を次元数とする頻度ベクトルを計算し、計算
結果と前記情報量推定手段で推定されたチャネル毎の情
報量に基づいて質問文書の情報量とチャネル毎の情報量
比を推定する過程と、類似度計算手段が、前記記憶手段
に記憶された検索対象の各文書の情報量とチャネル毎の
情報量比と質問文書の情報量とチャネル毎の情報量比か
ら検索対象の各文書と質問文書との類似度を計算する過
程と、選択手段が、検索対象の文書の中から類似度の高
い順に所定数の文書を選択する過程とを含むことを特徴
としている。

【００１０】また、本発明の類似文書検索装置は、所定
の文書をチャネル数を次元数とする頻度ベクトルに変換
する手段と、チャネル数を次元数とする頻度ベクトルの
チャネル毎の値をカテゴリ毎に計数する手段と、計数結
果に基づいてチャネル毎の情報量を推定する手段と、検
索対象の各文書のチャネル数を次元数とする頻度ベクト
ルをそれぞれ計算し、計算結果と前記推定されたチャネ
ル毎の情報量に基づいて各々の文書の情報量とチャネル
毎の情報量比を推定する手段と、得られた各々の文書の
情報量とチャネル毎の情報量比を記憶する手段と、質問
文書のチャネル数を次元数とする頻度ベクトルを計算
し、計算結果と前記推定されたチャネル毎の情報量に基
づいて質問文書の情報量とチャネル毎の情報量比を推定
する手段と、前記記憶された検索対象の各文書の情報量
とチャネル毎の情報量比と質問文書の情報量とチャネル
毎の情報量比から検索対象の各文書と質問文書との類似
度を計算する手段と、検索対象の文書の中から類似度の
高い順に所定数の文書を選択する手段とを備えたことを
特徴としている。

【００１１】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。図１は本発明の第１
の実施形態の構成を示すブロック図である。図１におい
て、１はヘルプデスクで蓄積されたＱ＆Ａ文書データベ
ース（図示せず）からＱ＆Ａ文書を入力する文書入力手
段、２はＱ＆Ａ文書にカテゴリが定義されている場合に
そのカテゴリを入力するカテゴリ入力手段、３はＱ＆Ａ
文書をチャネルに分配するチャネル分配手段である。ま
た、４は文書のチャネル毎の出現頻度をカテゴリ毎に計
数する頻度統計手段、５はカテゴリを推定する際のチャ
ネル毎の情報量を推定するチャネル情報量推定手段、６
は文書の特徴量として文書の情報量とチャネル毎の情報
量比を推定する文書特徴量推定手段、７は類似度を計算
する２つの文書の情報量とチャネル毎の情報量比から２
つの文書の類似度を計算する類似度計算手段である。

【００１２】文書入力手段１はリレーショナルデータベ
ースの一レコードを一文書とし、データベースの全レコ
ードをスキャンすることにより全文書を入力する場合
と、レコードのＩＤを指定することにより指定ＩＤの文
書のみを入力する場合がある。カテゴリ入力手段２はカ
テゴリ指定がなければ各文書を各々別カテゴリの文書と
みなし、カテゴリ指定があれば各文書に対応したカテゴ
リを入力する。全てのレコードにカテゴリが対応してい
なくても、一部のサンプル文書に対してだけカテゴリが
対応していればそれでも構わない。

【００１３】チャネル分配手段３はカテゴリ名を値とす
るフィールドがある時、フィールドとカテゴリ名の組を
チャネルとし、数値のフィールドがある時は適宜閾値を
用いてフィールドと区間の組をチャネルとし、文章から
なるフィールドに形態素解析を行なう。また、Ｑに出現
する形態素を各々チャネルとみなし、Ａに出現する形態
素を各々チャネルとみなし、Ｑに出現する意味のある連
語を各々チャネルとみなし、Ａに出現する意味のある連
語を各々チャネルとみなし、連語を優先させてＱ＆Ａ文
書をチャネルに分配する。

【００１４】頻度統計手段４は、チャネル毎の出現頻度
をＱ＆Ａ文書毎、及びカテゴリ毎に計数する。チャネル
情報量推定手段５は、チャネル間に相関がないとみな
し、文書を入力した際にあるチャネルが生起した場合、
入力文書がどのカテゴリに当てはまるかを推定するため
に得られる情報量を、カテゴリ上の確率分布のカルバッ
クダイバージェンス（Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅ
ｒ情報量、相対エントロピーとも呼ばれる。）により推
定する。即ち、２つの確率分布をＰ（チャネル生起後）
及びＱ（チャネル生起前）とすると、カテゴリＩＤを添
字ｊとして、 ΣｊＰｊ×ｌｏｇ（Ｐｊ／Ｑｊ）が情報量となる。但し、記号Σは記号右下の添字につい
て和を取るものとし、Ｐｊ及びＱｊは確率分布Ｐのｊ番
目の要素及び確率分布Ｑのｊ番目の要素を各々表す。即
ち、これらの和を取ると１となる。

【００１５】ΣｊＰｊ＝１ ΣｊＱｊ＝１なお、対数ｌｏｇの底は２でも、自然対数ｅでも、１０
でも良く、特に定めないものとする。

【００１６】Ｐ及びＱの推定方法としては、例えば、各
々の文書の出現確率をＱ＆Ａ文書の利用頻度から推定
し、これらを集計して各々のカテゴリの出現確率Ｑを推
定し、あるチャネルが生起した場合の各々の文書の出現
確率を同様に推定し、これらを集計して各々のカテゴリ
の出現確率Ｐを推定する方法がある。また、他のＰ及び
Ｑの推定方法としては、例えば、全チャネルの合計頻度
数によるカテゴリの確率分布をＱとして、あるチャネル
の頻度数によるカテゴリの確率分布をＰとする方法があ
る。ベイズの定理を利用した推定法を利用する場合は、
適当な先験分布を利用することにより行う。

【００１７】文書特徴量推定手段６は、チャネル情報量
とＱ＆Ａ文書毎のチャネルの出現頻度から文書特徴量と
して、これらの積和により推定する文書の情報量と、総
和が１となるように正規化されたチャネル毎の情報量の
比、即ち確率分布とみなせるもの、の２つの特徴量を推
定する。微小な量は適宜量子化して計算時間の短縮を図
ることもある。類似度計算手段７は情報量の重みつけて
２文書の確率分布を混合した確率分布を計算し、この混
合した確率分布と各々の確率分布との距離をカルバック
ダイバージェンスにより計算し、それらの距離に情報量
の重みをつけて平均をとることによって距離を計算す
る。これは、インフォーメーションラディウスＩｎｆｏ
ｒｍａｔｉｏｎＲａｄｉｕｓ（ＪａｒｄｉｎｅＳｉ
ｂｓｏｎ，ＭａｔｈｅｍａｔｉｃａｌＴａｘｏｎｏｍ
ｙ，Ｗｅｉｌｅｙ，ＬｏｎｄｏｎａｎｄＮｅｗＹｏ
ｒｋ（１９７１））と呼ばれる距離の計算方法の重みを
文書の情報量とした場合に相当する。

【００１８】即ち、２つのチャネル上の確率分布をＵ及
びＶとし、チャネルＩＤを添字ｉとし、Ｕ及びＶに対応
する情報量を各々ＩＵ及びＩＶとし、確率分布をＵ及び
Ｖを混合した確率分布Ｗとすると、Ｗ及び距離は以下の
ように書ける。

【００１９】Ｗｉ＝（（ＩＵ×Ｕｉ）＋（ＩＶ×Ｖ
ｉ））／（ＩＵ＋ＩＶ）距離＝（ＩＵ×（ΣｉＵｉ×ｌｏｇ（Ｕｉ／Ｗｉ））
＋ＩＶ×（ΣｉＶｉ×ｌｏｇ（Ｖｉ／Ｗｉ））／（Ｉ
Ｕ＋ＩＶ）この距離に負の符号をつけて類似度とする。

【００２０】次に、図２〜図４を参照して第１の実施形
態をより詳細に説明する。まず、ヘルプデスクで蓄積さ
れたＱ＆Ａ文書データベースには３件のＱ＆Ａ文書が蓄
積されており、各々、ゴルフ、テニス、サッカーに関す
る文書であるとし、ＱとＡは分離されていないものとす
る。Ｑ＆Ａ文書にはカテゴリとして「ゴルフとテニス」
と「サッカー」の２つのカテゴリが定義されているとす
る。また、チャネルとして、ショット、ボール、キック
の３つが抽出されているとする。

【００２１】ここで、文書入力手段１、カテゴリ入力手
段２、チャネル分配手段３、頻度統計手段４により、チ
ャネル毎の出現頻度をＱ＆Ａ文書毎に計数すると、図２
に示すように、文書「ゴルフ」は、チャネルの、ショッ
ト、ボール、が頻度１で、それ以外は０となり、頻度ベ
クトル表現は、（１，１，０）となる。文書「テニス」
は、チャネルの、ショット、ボール、が頻度１で、それ
以外は０となり、頻度ベクトル表現は、（１，１，０）
となる。文書「サッカー」は、チャネルの、ボール、キ
ック、が頻度１で、それ以外は０となり、頻度ベクトル
表現は、（０，１，１）となる。

【００２２】カテゴリ毎に計数すると、図２に示すよう
にカテゴリ「ゴルフとテニス」は、チャネルの、ショッ
ト、ボール、が頻度２で、それ以外は０となり、頻度ベ
クトル表現は、（２，２，０）となる。カテゴリ「サッ
カー」は、チャネルの、ボール、キック、が頻度１で、
それ以外は０となり、頻度ベクトル表現は、（０，１，
１）となる。また、全チャネルの合計頻度数によるカテ
ゴリの確率分布をＱとして、あるチャネルの頻度数によ
るカテゴリの確率分布をＰとする方法を採用すると、Ｑ＝（２／３，１／３）Ｐ（ショット）＝（１，０）Ｐ（ボール）＝（２／３，１／３）Ｐ（キック）＝（０，１）となる。

【００２３】次に、チャネル情報量推定手段５によりＰ
とＱとの間のカルバックダイバージェンスを計算する。
ここで計算される情報量は図２に示すようなチャネルと
カテゴリに関する頻度表から計算したチャネルとカテゴ
リ間の相互情報量と密接な関係がある。具体的には、チ
ャネル毎の情報量のチャネル頻度による重み付き平均が
その相互情報量となっている。

【００２４】数式を用いて説明すると、図２に示す頻度
表からカテゴリとチャネルの同時分布ｐ（ｉ，ｊ）を計
算する。但し、カテゴリの添字をｊとし、チャネルの添
字をｉとする。

【００２５】ｐ（ｊ）＝Σｉｐ（ｉ，ｊ）ｐ（ｉ）＝Σｊｐ（ｉ，ｊ）を計算すると、チャネルとカテゴリ間の相互情報量は、
Σ（ｉ，ｊ）ｐ（ｉ，ｊ）×ｌｏｇ（ｐ（ｉ，ｊ）／
（ｐ（ｉ）×ｐ（ｊ）））と計算できる。上式は、 Σｉｐ（ｉ）×（Σｊ（（ｐ（ｉ，ｊ）／ｐ（ｉ））
×ｌｏｇ（（ｐ（ｉ，ｊ）／ｐ（ｉ））／ｐ
（ｊ））））と変形できるが、チャネルｉの生起前のカテゴリ上の確
率分布ＱをＰｊ＝ｐ（ｊ）とし、チャネルｉの生起後の
カテゴリ上の確率分布ＰをＰｊ＝ｐ（ｉ，ｊ）／ｐ
（ｉ）とした場合、チャネルｉの情報量が、Ｉ（ｉ）＝ΣｊＰｊ×ｌｏｇ（Ｐｊ／Ｑｊ）と書けることを利用すると、チャネルとカテゴリ間の相
互情報量は、Σｉｐ（ｉ）×Ｉ（ｉ）という形に書く
ことができる。

【００２６】従って、チャネル「ショット」の情報量は
図３に示すようにｌｏｇ（３／２）＝０．４０５とな
り、チャネル「ボール」の情報量は０となり、チャネル
「キック」の情報量はｌｏｇ（３）＝１．０９９とな
る。また、文書特徴量推定手段６により文書「ゴルフ」
は、情報量が０．４０５で、情報量比のベクトル表現は
和が１となるように正規化すると、（１，０，０）とな
る。文書「テニス」は、情報量が０．４０５で、情報量
比のベクトル表現は和が１となるように正規化すると、
（１，０，０）となる。文書「サッカー」は、情報量
が、１．０９９で、情報量比のベクトル表現は和が１と
なるように正規化すると、（０，０，１）となる。この
正規化前の情報量比のベクトルを図４に示している。

【００２７】また、類似度計算手段７によりインフォー
メーションラディウスの式を利用して、例えば、文書
「ゴルフ」と文書「テニス」との類似度を計算すると、
０となり、文書「ゴルフ」と文書「サッカー」との類似
度を計算すると、混合した確率分布が（０．４０５／
１．５０４，０，１．０９９／１．５０４）＝（０．２
７０，０，０．７３０）となるから、類似度は、−
（０．２７×ｌｏｇ（１／０．２７）＋０．７３×ｌｏ
ｇ（１／０．７３））＝−０．５８３となる。

【００２８】図５は本実施形態による類似度計算方法の
処理の流れを示すフローチャートである。図１と併せて
本実施形態の動作について説明する。図５において、ま
ず、文書入力手段１により文書データベースからチャネ
ル分配手段２に文書を入力し（ステップ５０１）、カテ
ゴリ入力手段２からそのカテゴリを頻度統計手段４に入
力する（ステップ５０１）。チャネル分配手段３では入
力された文書をチャネルに分配し（ステップ５０２）、
頻度統計手段４ではチャネル毎の出現頻度をカテゴリ毎
に計数する（ステップ５０３）。次いで、文書データベ
ースに次の文書があるかどうかを判断し（ステップ５０
４）、次の文書があればステップ５０１から同様の処理
を行い、各々の文書についてチャネル毎の出現頻度をカ
テゴリ毎に計数する。

【００２９】文書データベースのすべての文書について
処理を終了すると（ステップ５０４がＮｏ）、チャネル
情報量推定手段５では頻度統計手段４で得られたチャネ
ル毎の出現頻度に基づいてチャネル毎の情報量（カテゴ
リを推定する際の情報量）を推定する（ステップ５０
５）。ステップ５０５のチャネル毎の情報量の推定は、
言い換えればチャネル（単語）の重要度の推定を行って
いる。なお、本実施形態では、ステップ５０１〜５０５
でデータベースの文書を用いているが、要はステップ５
０５で単語（チャネル）の重要度を推定するのが目的で
あるので、データベース以外の文書（例えば、新聞等の
文書）を用いてもよい。

【００３０】次に、ステップ５０６〜５１０で類似度を
計算するための２つの文書を読み込む処理を行う。ま
ず、ステップ５０６で文書を入力し、チャネル分配手段
３で文書をチャネルに分配する（ステップ５０７）。ま
た、頻度統計手段４ではチャネル毎の出現頻度を計数し
（ステップ５０８）、文書特徴量推定手段６ではステッ
プ５０５で得られたチャネル毎の情報量、ステップ５０
８で得られたチャネル毎の出現頻度に基づいて文書の特
徴量として文書の情報量とチャネル毎の情報量比（その
文書におけるチャネルの重要度の度合）を推定する（ス
テップ５０９）。以上で１つ目の文書に対する処理を終
了する。

【００３１】次いで、文書が１文書目であるかどうかを
判断し（ステップ５１０）、この時は１文書目の処理で
あるので、再度ステップ５０６に戻って２つ目の文書に
対して同様の処理を行う。即ち、２つ目の文書を入力し
（ステップ５０６）、チャネル分配手段３で入力された
文書をチャネルに分配し（ステップ５０７）、頻度統計
手段４でチャネル毎に出現頻度を計数する（ステップ５
０８）。また、文書特徴量推定手段６ではステップ５０
８で得られたチャネル毎の出現頻度、ステップ５０５で
得られたチャネル毎の情報量に基づいて２つ目の文書の
情報量とチャネル毎の情報量比を推定する（ステップ５
０９）。

【００３２】以上で２つ目の文書に対する処理を終了す
る。次に、ステップ５１０で１文書目であるかどうかを
判断し、この時は２つ目の文書であるのでステップ５１
１に進む。ステップ５１１において類似度計算手段７に
よりステップ５０９で得られた１つ目と２つ目の文書の
情報量とチャネル毎の情報量比に基づいて２つの文書の
類似度を計算する。以上で２つの文書の類似度の計算を
終了し、一連の類似度計算処理を完了する。

【００３３】図６は本発明の第２の実施形態の構成を示
すブロック図である。図６において、１はＷＷＷサーバ
から検索対象となるＨＴＭＬに代表されるタグ付き文
書、あるいは質問となる文書を入力する文書入力手段、
２は文書にカテゴリが定義されている場合にそのカテゴ
リを入力するカテゴリ入力手段、３は文書をチャネルに
分配するチャネル分配手段、４はチャネル毎の出現頻度
をカテゴリ毎に計数する頻度統計手段、５は文書のチャ
ネル毎の情報量を推定するチャネル情報量推定手段であ
る。

【００３４】また、６は文書の特徴量として文書の情報
量及びチャネル毎の情報量比を推定する文書特徴量推定
手段、８は検索対象文書として入力された文書の特徴量
を記憶する文書特徴量記憶手段である。更に、７は記憶
手段８に記憶された検索対象文書の特徴量と質問文書と
して入力された文書の特徴量から文書の類似度を計算す
る類似度計算手段、９は検索対象の文書の中から類似度
の高い順に一定数の文書を選択するソート手段である。

【００３５】文書入力手段１はＷＷＷサーバの一つのＵ
ＲＬに対応する文書を一文書とし、ＷＷＷロボットを利
用することにより対象サイトの全文書を入力する場合
と、ＵＲＬを指定することにより指定ＵＲＬの文書のみ
を入力する場合と、利用者が直接質問となる文書を入力
する場合がある。カテゴリ入力手段２はカテゴリ指定が
なければ各文書を各々別カテゴリの文書とみなし、カテ
ゴリ指定があれば各文書に対応したカテゴリを入力す
る。

【００３６】チャネル分配手段３は、文書からタグを利
用して必要部分のみを抽出し、得られたデータに対して
日本語の場合は形態素解析を行ない、英語の場合など空
白で区切られるデータに対しては空白で単語に分割し、
活用語尾変化したものを同一視する。次に、出現する単
語または形態素を各々チャネルとみなし、出現する意味
のある連語を各々チャネルとみなし、連語を優先させて
文書をチャネルに分配する。文書の構造がＱ＆Ａ文書の
ように複数の部分に別れる場合は、タグを利用して各々
の部分を抽出し、Ｑ＆Ａ文書で行なったのと同じように
複数部分の各々にチャネルを割り当てる。

【００３７】頻度統計手段４は、チャネル毎の出現頻度
を文書毎、及びカテゴリ毎に計数する。チャネル情報量
推定手段５はチャネル間に相関がないとみなし、文書を
入力した際にあるチャネルが生起した場合、入力文書が
どのカテゴリに当てはまるかを推定するために得られる
情報量を、可能性のあるカテゴリが等確率で生起すると
みなし、可能性のあるカテゴリ数の変化の前後のエント
ロピーの変化量により推定する。変化前のカテゴリ数を
Ｎとし、変化後のカテゴリ数をｎとすると、エントロピ
ーの変化量は、ｌｏｇ（Ｎ／ｎ）と推定できる。

【００３８】文書特徴量推定手段６はチャネル情報量と
Ｑ＆Ａ文書毎のチャネルの出現頻度から文書特徴量とし
て、総和が１となるように正規化されたチャネル毎の情
報量の比、即ち確率分布とみなせるものを推定する。類
似度計算手段７は文書の特徴量である２つの確率分布間
の距離をヘリンガー距離により計算し、その距離にコサ
イン変換することによって類似度を計算する。即ち、２
つの確率分布をＵ及びＶとすると、チャネルＩＤを添字
ｉとして、 Σｉ（√Ｕｉ）×（√Ｖｉ）が類似度となる。但し、記号√は記号右の１変数につい
て平方根を取るものとする。文書特徴量記憶手段８は検
索対象文書として入力された文書の特徴量をチャネルと
対応する数値のペアの集合として記憶する。ソート手段
９は類似度の高い順から一定数の文書を選択し、選択さ
れた文書を利用者に通知する。

【００３９】図７は本実施形態の類似文書検索方法の処
理の流れを示すフローチャートである。図６と併せて本
実施形態の動作について説明する。まず、本実施形態で
は図７の処理を開始する前に第１の実施形態の図５のス
テップ５０１〜５０５の処理を行うものとする。図５の
ステップ５０１〜５０５の処理については説明を省略
し、図５のステップ５０５においてチャネル情報量推定
手段５によりチャネル毎の情報量を推定しているものと
する。このようにステップ５０５の処理を終了すると、
図７のステップ７０１において文書入力手段１は文書デ
ータベースから文書（検索対象文書とする）をチャネル
分配手段３に入力する。チャネル分配手段３では入力さ
れた文書をチャネルに分配し（ステップ７０２）、頻度
統計手段４ではチャネル毎の出現頻度を計数する（ステ
ップ７０３）。

【００４０】次いで、文書特徴量推定手段６では、ステ
ップ５０５で得られた文書のチャネル毎の情報量と、ス
テップ７０３で得られたチャネル毎の出現頻度に基づい
て文書の特徴量として文書の情報量とチャネル毎の情報
量比を推定し（ステップ７０４）、得られた結果を文書
特徴量記憶手段８に記憶させる（ステップ７０５）。続
いて、文書データベースに次の文書があるかどうかを判
断し（ステップ７０６）、次の文書がある場合はステッ
プ７０１から同様の処理を行う。即ち、ステップ７０１
〜ステップ７０６の処理を繰り返し行い、検索対象の文
書毎に文書の特徴量として文書の情報量とチャネル毎の
情報量比を推定し、文書特徴量記憶手段８に記憶させて
いく。

【００４１】データベースのすべての文書について処理
を終了すると（ステップ７０６がＮｏ）、ステップ７０
７で質問文書を文書入力手段１により入力する。即ち、
質問文書を入力し、それに類似した文書を文書データベ
ースの検索対象文書の中から検索する処理を行う。ま
ず、チャネル分配手段３により入力された質問文書をチ
ャネルに分配し（ステップ７０８）、頻度統計手段４で
はチャネル毎の出現頻度を計数する（ステップ７０
９）。また、文書特徴量推定手段８ではステップ５０５
で得られた文書のチャネル毎の情報量とステップ７０９
で得られたチャネル毎の出現頻度に基づいて質問文書の
特徴量として文書の情報量とチャネル毎の情報量比を推
定する（ステップ７１０）。質問文書の特徴量を推定す
ると、類似度計算手段７では質問文書の特徴量と文書特
徴量記憶手段８に記憶されている検索対象文書の特徴
量、即ち両方の文書の情報量とチャネル毎の情報量比か
ら文書の類似度を計算する（ステップ７１１）。

【００４２】次いで、文書特徴量記憶手段８に次の文書
の特徴量があるかどうかを判断し（ステップ７１２）。
次の文書があれば再度ステップ７１１で次の文書の特徴
量と質問文書の特徴量から両方の文書の類似度を計算す
る。このようにしてステップ７１１〜７１２の処理を繰
り返し行い、文書特徴量記憶手段８に記憶されている文
書の特徴量と質問文書の特徴量から各検索対象文書と質
問文書の類似度を計算していく。すべての文書について
類似度を計算すると、ソート手段９は検索対象文書の中
から類似度の高い順に一定数の文書を選択する（ステッ
プ７１３）。以上で質問文書に対して類似度の高い文書
が選択され、一連の類似文書検索処理を終了する。

【００４３】次に、本発明の記録媒体としての実施形態
について図８を参照して説明する。図８において、１０
０はクライアントコンピュータ、２００はデータサーバ
コンピュータ２００である。クライアントコンピュータ
１００は、記憶装置１０１を含んでおり、記憶装置１０
１は記録媒体１０２を含んでいる。また、データサーバ
コンピュータ２００は、文書データベースが記憶された
記憶装置２０１を含んでいる。

【００４４】記録媒体１０２にはクライアントコンピュ
ータ１００を、第１、第２の実施形態の各手段として機
能させるためのプログラム１０３が機械読み取り可能に
記録されている。即ち、コンピュータ１００を、図１の
実施形態の文書入力手段１、カテゴリ入力手段２、チャ
ネル分配手段３、頻度統計手段４、チャネル情報量推定
手段５、文書特徴量推定手段６、類似度計算手段７とし
て機能させるためのプログラム１０３が記録されてい
る。また、コンピュータ１００を、図６の実施形態の文
書入力手段１、カテゴリ入力手段２、チャネル分配手段
３、頻度統計手段４、チャネル情報量推定手段５、文書
特徴量推定手段６、類似度計算手段７、文書特徴量記憶
手段８、ソート手段９として機能させるためのプログラ
ム１０３が記録されている。

【００４５】なお、本発明は、文書の表現方法が単語等
の頻度ベクトルに限定されるものではなく、頻度に変換
できる情報であれば何でも構わない。例えば、データベ
ースのレコードにカテゴリ名を値とするフィールドがあ
る時、フィールドとカテゴリ名の組をチャネルとし、有
無のバイナリデータを頻度して扱うことができる。数値
のフィールドがある時は、適宜閾値を用いてフィールド
と区間の組をチャネルとし、頻度情報として扱うことが
できる。従来、これらを全て統合する形で類似度計算を
行なうことは統一的なモデルの枠組の中ではできなかっ
た。

【００４６】

【発明の効果】以上説明したように本発明の類似度計算
方法によれば、統計的モデルに基づいたものとしたた
め、計算された類似度が、文書の統計モデル上での確率
分布間の類似度という意味を持ち、カテゴリ上の確率分
布間のカルバックダイバージェンスを利用したことで、
与えられたカテゴリに関する情報量の観点から最適な類
似度であるということができる。このため、ベンチマー
ク以外に、データとモデルの当てはまりの良さの基準と
して、ＭＤＬ（ＭｉｎｉｍｕｍＤｅｓｃｒｉｐｔｉｏ
ｎＬｅｎｇｔｈ）やＡＩＣ（ＡｋａｉｋｅＩｎｆｏ
ｒｍａｔｉｏｎＣｒｉｔｅｒｉａ）を始めとする各種
の統計的基準が善し悪しを決める基準として利用でき
る。

【００４７】また、カテゴリを推定する際の情報量を確
率分布推定に利用しているため、ある時点で複数の文書
が内容的に類似しているとわかった時、それらの文書が
同一カテゴリであるという情報を確率分布の推定に利用
して、対話的に類似度計算の精度を上げることができ
る。同時に、複数のカテゴリを用意することによって、
複数の観点における２つの文書間の類似度が統一的なモ
デルの枠組の中で計算できる。従って、文書の類似度を
従来に比べて大幅に高い精度で計算することができる。
また、本発明の類似文書検索方法によれば、同様に類似
度の精度が向上するため、類似文書を高い精度で検索す
ることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態の構成を示すブロック
図である。

【図２】本発明の第１の実施形態の原理を説明するため
の図である。

【図３】本発明の第１の実施形態の原理を説明するため
の図である。

【図４】本発明の第１の実施形態の原理を説明するため
の図である。

【図５】図１の実施形態の動作を説明するためのフロー
チャートである。

【図６】本発明の第２の実施形態の構成を示すブロック
図である。

【図７】図６の実施形態の動作を説明するためのフロー
チャートである。

【図８】本発明の記録媒体としての実施形態を示すブロ
ック図である。

【符号の説明】

１文書入力手段２カテゴリ入力手段３チャネル分配手段４頻度統計手段５チャネル情報量推定手段６文書特徴量推定手段７類似度計算手段８文書特徴量記憶手段９ソート手段

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】頻度ベクトル変換手段が、所定の文書を
チャネル数を次元数とする頻度ベクトルに変換する過程
と、計数手段が、チャネル数を次元数とする頻度ベクト
ルのチャネル毎の値をカテゴリ毎に計数する過程と、情
報量推定手段が、前記計数手段の計数結果に基づいてチ
ャネル毎の情報量を推定する過程と、情報量比推定手段
が、類似度を計算すべき２つの文書のチャネル数を次元
数とする頻度ベクトルをそれぞれ計算し、計算結果と前
記情報量推定手段で推定されたチャネル毎の情報量に基
づいて２つの文書の情報量とチャネル毎の情報量比を推
定する過程と、類似度計算手段が、得られた２つの文書
の情報量とチャネル毎の情報量比から２つの文書の類似
度を計算する過程とを含むことを特徴とする類似度計算
方法。
【請求項２】所定の文書をチャネル数を次元数とする
頻度ベクトルに変換する手段と、チャネル数を次元数と
する頻度ベクトルのチャネル毎の値をカテゴリ毎に計数
する手段と、計数結果に基づいてチャネル毎の情報量を
推定する手段と、類似度を計算すべき２つの文書のチャ
ネル数を次元数とする頻度ベクトルをそれぞれ計算し、
計算結果と前記推定されたチャネル毎の情報量に基づい
て２つの文書の情報量とチャネル毎の情報量比を推定す
る手段と、得られた２つの文書の情報量とチャネル毎の
情報量比から２つの文書の類似度を計算する手段とを備
えたことを特徴とする類似度計算装置。
【請求項３】頻度ベクトル変換手段が、所定の文書を
チャネル数を次元数とする頻度ベクトルに変換する過程
と、計数手段が、チャネル数を次元数とする頻度ベクト
ルのチャネル毎の値をカテゴリ毎に計数する過程と、情
報量推定手段が、前記計数手段の計数結果に基づいてチ
ャネル毎の情報量を推定する過程と、第１情報量比推定
手段が、検索対象の各文書のチャネル数を次元数とする
頻度ベクトルをそれぞれ計算し、計算結果と前記情報量
推定手段で推定されたチャネル毎の情報量に基づいて各
々の文書の情報量とチャネル毎の情報量比を推定する過
程と、記憶手段が、得られた各々の文書の情報量とチャ
ネル毎の情報量比を記憶する過程と、第２情報量比推定
手段が、質問文書のチャネル数を次元数とする頻度ベク
トルを計算し、計算結果と前記情報量推定手段で推定さ
れたチャネル毎の情報量に基づいて質問文書の情報量と
チャネル毎の情報量比を推定する過程と、類似度計算手
段が、前記記憶手段に記憶された検索対象の各文書の情
報量とチャネル毎の情報量比と質問文書の情報量とチャ
ネル毎の情報量比から検索対象の各文書と質問文書との
類似度を計算する過程と、選択手段が、検索対象の文書
の中から類似度の高い順に所定数の文書を選択する過程
とを含むことを特徴とする類似文書検索方法。
【請求項４】所定の文書をチャネル数を次元数とする
頻度ベクトルに変換する手段と、チャネル数を次元数と
する頻度ベクトルのチャネル毎の値をカテゴリ毎に計数
する手段と、計数結果に基づいてチャネル毎の情報量を
推定する手段と、検索対象の各文書のチャネル数を次元
数とする頻度ベクトルをそれぞれ計算し、計算結果と前
記推定されたチャネル毎の情報量に基づいて各々の文書
の情報量とチャネル毎の情報量比を推定する手段と、得
られた各々の文書の情報量とチャネル毎の情報量比を記
憶する手段と、質問文書のチャネル数を次元数とする頻
度ベクトルを計算し、計算結果と前記推定されたチャネ
ル毎の情報量に基づいて質問文書の情報量とチャネル毎
の情報量比を推定する手段と、前記記憶された検索対象
の各文書の情報量とチャネル毎の情報量比と質問文書の
情報量とチャネル毎の情報量比から検索対象の各文書と
質問文書との類似度を計算する手段と、検索対象の文書
の中から類似度の高い順に所定数の文書を選択する手段
とを備えたことを特徴とする類似文書検索装置。
【請求項５】コンピュータを、所定の文書をチャネル
数を次元数とする頻度ベクトルに変換する手段、チャネ
ル数を次元数とする頻度ベクトルのチャネル毎の値をカ
テゴリ毎に計数する手段、計数結果に基づいてチャネル
毎の情報量を推定する手段、類似度を計算すべき２つの
文書のチャネル数を次元数とする頻度ベクトルをそれぞ
れ計算し、計算結果と前記推定されたチャネル毎の情報
量に基づいて２つの文書の情報量とチャネル毎の情報量
比を推定する手段、得られた２つの文書の情報量とチャ
ネル毎の情報量比から２つの文書の類似度を計算する手
段として機能させるためのプログラムを機械読み取り可
能に記録した記録媒体。
【請求項６】コンピュータを、所定の文書をチャネル
数を次元数とする頻度ベクトルに変換する手段、チャネ
ル数を次元数とする頻度ベクトルのチャネル毎の値をカ
テゴリ毎に計数する手段、計数結果に基づいてチャネル
毎の情報量を推定する手段、検索対象の各文書のチャネ
ル数を次元数とする頻度ベクトルをそれぞれ計算し、計
算結果と前記推定されたチャネル毎の情報量に基づいて
各々の文書の情報量とチャネル毎の情報量比を推定する
手段、得られた各々の文書の情報量とチャネル毎の情報
量比を記憶する手段、質問文書のチャネル数を次元数と
する頻度ベクトルを計算し、計算結果と前記推定された
チャネル毎の情報量に基づいて質問文書の情報量とチャ
ネル毎の情報量比を推定する手段、前記記憶された検索
対象の各文書の情報量とチャネル毎の情報量比と質問文
書の情報量とチャネル毎の情報量比から検索対象の各文
書と質問文書との類似度を計算する手段、検索対象の文
書の中から類似度の高い順に所定数の文書を選択する手
段として機能させるためのプログラムを機械読み取り可
能に記録した記録媒体。