JPH09218879A

JPH09218879A - 文書間類似度データ計算装置

Info

Publication number: JPH09218879A
Application number: JP8045627A
Authority: JP
Inventors: Hiroshi Masuichi; 博増市
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1996-02-08
Filing date: 1996-02-08
Publication date: 1997-08-19

Abstract

(57)【要約】【課題】文書間類似度データの再計算を高速に行うこ
と。【解決手段】データ格納手段２は、弧（矢印）と状態
（丸印）からなる木構造で表現されるトライ構造を持
つ。このトライ構造では、単語の集合を前記弧のラベル
として保持し、１つの最終状態には１つの単語が対応す
る。また、最終状態は対応する単語を含む文書の格納位
置へ弧が張られている。その弧のラベルとして文書中に
その単語が出現した回数が保持される。さらに、各最終
状態には対応する単語の重要度を表す重みを表すデータ
が付与されている。類似度データ計算手段３は、類似度
データＳ（ｄｉ，ｄｊ）＝［Ｃｉｊ，Ｍｉｊ］を、前記
重みおよび前記出現回数を用いて次の計算により求め
る。Ｍｉｊ＝（文書ｄｉ中に存在する全ての単語の重みの合
計）＋（文書ｄｊ中に存在する全ての単語の重みの合
計）Ｃｉｊ＝（文書ｄｉと文書ｄｊに共通して存在する全て
の単語の重みの合計）

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、類似文書検索装置
や全文検索処理装置において用いる文書間類似度データ
計算装置に関する。

【０００２】

【従来の技術】数多くの文書の中から利用者の求める文
書を検索する際に、関連する文書をいかに見出すかが重
要である。そのために、文書間の類似度を設定しておく
ことにより、類似する文書を検索し、関連する文書をよ
り正確に求めることが可能である。即ち、キーワードな
どによる通常の検索による検索結果として得られた文書
に対して、設定された類似度をもとに、類似度検索を行
うことにより、類似する文書を検索結果に付加すること
ができ、求める文書をより正確に得ることができる。ま
た、類似する文献をまとめる際に、類似度を利用するこ
とにより文書の自動分類が可能となる。例えば、特許マ
ップの自動生成を行うことも可能となる。

【０００３】文書の類似度の設定は、従来の技術（例え
ば、Ｙ．Ｋａｎｂａｙａｓｈｉｅｔａｌ．：Ｄａｔ
ａｂａｓｅ−ＡＢｉｂｌｉｏｇｒａｐｈｙ，１９８
０，ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅＰｒｅｓｓ、
上林弥彦著、情報処理学会編、「巨大データの世
界」、（１９９４）Ｐ１０６〜１１０）では、文書中に
含まれる単語の重複数を数え挙げることが基本となる。
例えば、著者、キーワード、本文の３つの文書部品に構
造化されている２つの文書において、２つの文書の総著
者数がＭａｕｔｈｏｒであり、そのうち両文書に共通す
る単語の総数がＣａｕｔｈｏｒ、２つの文書の総キーワ
ード数がＭｋｅｙ、そのうち両文書に共通するキーワー
ドの総数がＣｋｅｙ、２つの文書本文の総単語数がＭｂ
ｏｄｙであり、そのうち両文書に共通する単語の総数が
Ｃｂｏｄｙである場合、その２文書間の類似度Ｓは以下
のように定義される。

【０００４】Ｓ＝（Ｗａｕｔｈｏｒ×Ｕａｕｔｈｏｒ＋
Ｗｋｅｙ×Ｕｋｅｙ＋Ｗｂｏｄｙ×Ｕｂｏｄｙ）／（Ｗ
ａｕｔｈｏｒ＋Ｗｋｅｙ＋Ｗｂｏｄｙ）Ｕａｕｔｈｏｒ＝Ｃａｕｔｈｏｒ／ＭａｕｔｈｏｒＵｋｅｙ＝Ｃｋｅｙ／ＭｋｅｙＵｗｏｒｄ＝Ｃｂｏｄｙ／Ｍｂｏｄｙただし、Ｗａｕｔｈｏｒ、Ｗｋｅｙ、Ｗｂｏｄｙは類似
度を決定する際の文書部品の重要度である。通常キーワ
ードや著者に対応する重みは、本文の重みよりも大きく
設定する。この例では、Ｓの値は０以上１以下となる。

【０００５】また、多数の文書の中から利用者の求める
文書を検索する際に、高速の全文検索は効果的な技術で
あると言える。全文検索は、文書内に存在するいかなる
単語についても、その単語を含む文書を検索可能とする
ものである。全文検索を高速に実現するための従来の方
式として、形態素解析を利用して単語を切り出し、イン
デックスファイルを生成する手法を挙げることができ
る。即ち、全検索対象文書に形態素解析処理を施す等す
ることにより、日本語のように分かち書きされない言葉
であっても自動的に全単語を切り出すことが可能とな
る。切り出した各単語について、予め単語とその単語の
存在位置（単語を含む文書名等）の対を別のファイル
（即ち、インデックスファイル）に記述する。検索時に
インデックスファイルを利用することにより、単語入力
に対して、その存在位置を直ちに出力することができ
る。

【０００６】

【発明が解決しようとする課題】前記文書の類似度を求
めるための従来技術では、各文書部品の類似度Ｕａｕｔ
ｈｏｒ等を求める際に単語単位の重み付けを考慮する。
例えば、「ます」や「た」といった助詞や助動詞等のあ
らゆる文書に共通して使用される語は、類似度計算の対
象とはしない（重みを０とする）。しかしながら、類似
度計算の対象としてどの語を使用すればよいかを決定す
ることは容易ではない。例えば間投詞や接続詞を対象と
するか否かの決定は容易ではない。また、本文中に「処
理」という単語が共通に現れる場合と、「有限オートマ
トン」といった専門的な単語が共通に現れる場合とで
は、後者の方がより類似度の高い文書である可能性が高
いと判断できる。したがって、単語単位に（０か１か以
外の）重み付けを行うことによって、より精度の高い文
書間類似度を決定することが可能となる。このような単
語単位の重み付けは、上記の類似度計算対象の決定と同
様に、容易に実現できるものではない。対象文書に精通
した人間が、重み付けと類似度計算を繰り返しながら試
行錯誤の結果得られるものである。したがって、類似度
計算を高速で実現できることは重要である。

【０００７】しかしながら従来の技術では、文書間類似
度データの再計算を高速に行なうための機構が存在せ
ず、単語単位の重み付けを試行錯誤的に決定することが
困難であった。

【０００８】本発明はかかる問題点を解決するためにな
されたものである。即ち、本発明は、文書間類似度デー
タの再計算を高速に行うことのできる文書間類似度デー
タ計算装置を提供することを目的とするものである。

【０００９】

【課題を解決するための手段】本発明は、文書に含まれ
る語と文書とを対応づけて格納するとともに、その各語
に類似度決定のための語の重要度を示す重みを対応付
け、かつ各文書に各語が出現する回数を対応付けて格納
するデータ格納手段と、前記データ格納手段に格納され
た語と文書との対応付け、前記重み、および前記出現回
数を参照して、文書間の類似度データを計算する類似度
データ計算手段と、前記類似度データ計算手段により得
られた文書間の類似度データを格納する類似度データ格
納手段とを有する文書間類似度データ計算装置である。

【００１０】また、本発明は、弧と状態からなる木構造
で表現されるトライ構造を持ち、単語の集合を前記弧の
ラベルとして保持し、１つの最終状態には１つの単語が
対応し、その単語の重みが対応する最終状態に対して付
加され、各最終状態からは、その最終状態に対応する単
語を含む文書の格納位置を示すデータへの結合を表す第
２の弧が張られ、これらの第２の弧のラベルとして、最
終状態に対応する単語が文書中に現れる回数を保持する
ように構成した全文検索用データを格納するデータ格納
手段と、検索対象のｎ個の文書における文書ｄｉと文書
ｄｊの間の類似度データＳ（ｄｉ，ｄｊ）（ｉ＝２，
３，・・・，ｎ；ｊ＝１，２，・・・，ｎ−１；ｉ＞
ｊ）を、文書ｄｉと文書ｄｊに共通して存在する全ての
単語重みの合計Ｃｉｊ、および文書ｄｉ中に存在する全
ての単語の重みの合計と文書ｄｊ中に存在する全ての単
語の重みの合計との和Ｍｉｊの組［Ｃｉｊ，Ｍｉｊ］に
よって表し、この類似度データＳ（ｄｉ，ｄｊ）＝［Ｃ
ｉｊ，Ｍｉｊ］を前記データ格納手段に格納されている
前記重みおよび前記出現回数を用いて計算する類似度デ
ータ計算手段と、前記類似度データ計算手段により得ら
れた文書間の類似度データを格納する類似度データ格納
手段とを有する文書間類似度データ計算装置である。

【００１１】

【作用】データ格納手段は、検索対象の文書とその文書
に含まれる単語を対応させた全文検索用のデータ（いわ
ゆるインデックスデータ）を格納する。このデータに
は、本発明では単語の重要度を示す重みが各単語に対し
て付加され、また、単語の文書中での出現回数が付加さ
れる。類似度データ計算手段は、データ格納手段に格納
された語と文書との対応付け、前記重み、および前記出
現回数を参照して、文書間の類似度データを計算し、計
算結果を類似度データ格納手段に格納する。本発明は、
前記のように、全文検索用のデータの構造に最低限の変
更を加えることにより、全文検索用データとして利用で
きるだけでなく、単語の重みを変更する際に高速に類似
度の再計算を行うことができるようになる。

【００１２】本発明の具体的態様では、データ格納手段
は、弧（矢印）と状態（丸印）からなる木構造で表現さ
れるトライ構造を持つ（図３参照）。このトライ構造で
は、単語の集合を前記弧のラベルとして保持し、１つの
最終状態（図３の２重丸◎）には１つの単語が対応す
る。最終状態は対応する単語を含む文書の格納位置と対
応づけられている。その対応を示すデータに文書中にそ
の単語が何度出現したかを示す出現回数が保持される。
さらに、各最終状態には対応する単語の重要度を表す重
みＡｇを表すデータが付与されている。類似度データ計
算手段は、類似度データＳ（ｄｉ，ｄｊ）＝［Ｃｉｊ，
Ｍｉｊ］を、前記データ格納手段に格納されている前記
重みおよび前記出現回数を用いて次の計算により求め
る。Ｍｉｊ＝（文書ｄｉ中に存在する全ての単語の重みの合
計）＋（文書ｄｊ中に存在する全ての単語の重みの合
計）Ｃｉｊ＝（文書ｄｉと文書ｄｊに共通して存在する全て
の単語の重みの合計）なお、全ての単語とは、出現回数が複数である同一の単
語の場合は複数の単語として数える。従って、その際に
は、重みに出現回数を乗ずることによりその単語に関す
る重みを計算することができる。また、指定された単語
の重みの変更に伴う文書間類似度データの再計算の際に
は、元の重みと新たに指定された重みとの差によつて、
関連するＭｉｊ、Ｃｉｊの変化分を求めることにより、
再計算を行うようにすればよい。本発明は、全文検索用
のデータとして構成されたトライ構造データに重みおよ
び出現回数を付加するという最低限のデータ構造の変更
を加えることにより、その付加データを用いて高速に類
似度の再計算を行うことができる。本発明の類似度デー
タ計算装置を文書検索装置へ利用する場合には、データ
格納手段のデータを用いて全文検索を行い、さらに類似
度データ格納手段の類似度データを用いて類似度検索を
も行うことができ、しかも類似度データの再計算を高速
に実行することができる。

【００１３】

【発明の実施の形態】

第１の実施形態図１は、本発明による文書間類似度データ計算を行う機
能を有し、かつ、得られた文書間類似度データを用いて
類似度の検索を行うことができ、また全文検索をも行う
ことのできる文書検索装置の実施形態の構成を示すもの
である。この文書検索装置は、以下に示すように、全文
検索手段１、形態素解析データ格納手段２、類似度デー
タ計算手段３、類似度データ格納手段４、類似度検索手
段５、全文検索文字列入力表示手段６、全文検索結果表
示手段７、類似度データ変更入力表示手段８、類似度検
索データ入力表示手段９、類似度検索結果表示手段１０
を備えている。

【００１４】全文検索手段１は、全文検索文字列入力表
示手段６から検索文字列を受け取り、形態素解析データ
格納手段２中のデータから全文検索を行うプログラムモ
ジュールである。

【００１５】形態素解析データ格納手段２は、全文検索
手段１および類似度データ計算手段３の両者によって利
用されるデータを保持する格納手段である。このデータ
は、検索対象となる文書について形態素解析により得ら
れた要素を後述する図３に例示するようなデータ構造
（即ちトライ構造）にして、全文検索用のインデックス
ファイルとしたものである。

【００１６】類似度データ計算手段３は、類似度データ
変更入力表示手段８から類似度データの変更のためのデ
ータ（単語の重みの変更内容）を受け取り、形態素解析
データ格納手段２中のデータを更新すると共に、更新さ
れたデータを基に類似度データを再計算するプログラム
モジュールである。再計算された新しい類似度データで
それまでの類似度データを更新する。なお、最初に類似
度データを構築する際には、すべての文書間類似度デー
タを基に計算を行う。

【００１７】類似度データ格納手段４は、類似度データ
計算手段３によって計算または再計算された類似度デー
タを保持する格納手段である。

【００１８】類似度検索手段５は、類似度検索データ入
力表示手段９から類似度検索条件を受け取り、類似度デ
ータ格納手段４中のデータから類似度検索を行うプログ
ラムモジュールである。

【００１９】全文検索文字列入力手段６は、全文検索を
行うための検索文字列を入力／表示するためのユーザー
インターフェースを持つプログラムモジュールである。

【００２０】全文検索結果表示手段７は、全文検索手段
１による検索結果を表示するためのユーザーインターフ
ェースを持つプログラムモジュールである。

【００２１】類似度データ変更入力表示手段８は、類似
度データを変更するための入力を受け取り、その内容お
よび変更前の内容を表示するためのユーザーインターフ
ェースを持つプログラムモジュールである。

【００２２】類似度検索データ入力表示手段９は、類似
度検索を行うための検索条件を受け取り、その内容を表
示するためのユーザーインターフェースを持つプログラ
ムモジュールである。

【００２３】類似度検索結果表示手段１０は、類似度検
索手段５による検索結果を表示するためのユーザーイン
ターフェースを持つプログラムモジュールである。

【００２４】これらの全文検索文字列入力手段６、全文
検索結果表示手段７、類似度データ変更入力表示手段
８、類似度検索データ入力表示手段９、および類似度検
索結果表示手段１０は、図４に示すような共通のユーザ
インタフェースの画面イメージで表示される。

【００２５】以上のように構成された本実施形態の処理
について説明する。この処理の流れは全文検索処理、類
似度データ変更処理、および類似度検索処理の３種に分
類できる。それぞれの流れは、利用者の指示に従って繰
り返し実行される。

【００２６】全文検索処理は、次のステップからなる。（ステップＡ１）全文検索文字列入力表示手段６は、
利用者からの全文検索を行うための検索文字列を受け取
る。（ステップＡ２）全文検索手段１は、全文検索文字列
入力表示手段６から受け取った検索文字列を用いて、形
態素解析データ格納手段２のデータに対して全文検索を
実行する。（ステップＡ３）全文検索結果表示手段７は、全文検
索手段１による検索結果を表示する。

【００２７】類似度データ変更処理は、次のステップか
らなる。（ステップＢ１）類似度データ変更入力表示手段８
は、利用者から類似度データを変更するための入力を受
け取る。（ステップＢ２）類似度データ計算手段３は、類似度
データ変更入力表示手段８により入力された類似度デー
タ変更データにより類似度データの再計算を行う。（ステップＢ３）類似度データ計算手段３は、計算結
果で類似度データ格納手段４中の類似度データを更新す
る。ただし、本装置を構築する初期段階において一度だ
け、利用者からの指示なしに類似度データを全て計算に
よって求めることが必要となる。

【００２８】類似度検索処理は、次のステップからな
る。（ステップＣ１）類似度検索データ入力表示手段９
は、利用者から類似度検索を行うための検索条件を受け
取る。（ステップＣ２）類似度検索手段５は、類似度検索デ
ータ入力表示手段９からの検索条件を用いて、類似度デ
ータ格納手段４中のデータに対して類似度検索を実行す
る。（ステップＣ３）類似度検索結果表示手段１０は、類
似度検索手段５による検索結果を表示する。

【００２９】次に、具体的なデータの例により、本実施
形態の処理を詳細に説明する。［形態素解析データ格納手段２に格納されるデータの構
造］図２は形態素解析データ格納手段２に格納されるデ
ータの例を示すもので、同図（ａ）は、文書ｄ１，ｄ
２，ｄ３とのそれらの文書のテキスト部を形態素解析し
た結果得られた語とを対応させたテーブルであり、同図
（ｂ）は各語の重みを示すデータである。図２のデータ
は、形態素解析データ格納手段２中に、図３に示すよう
なトライ構造をデータ構造として保持される。トライ構
造は弧（矢印）と状態（丸印）からなる木構造で表現さ
れるもので、文字列を比較的小容量で格納することが可
能で、かつ、高速に文字列を検索することができるデー
タ構造としてよく用いられるものである。図２中の単語
の集合は、図３に示すように木構造中に弧のラベルとし
て保持される。１つの最終状態には１つの単語が対応
し、単語の重みは対応する最終状態に対して付加され
る。単語の重みは０以上であるとする。各最終状態から
は、「その最終状態に対応する文字列を含む文書の格納
位置を示すデータ」への弧が張られる。これらの弧に付
加されるラベルは、最終状態に対応する文字列が文書中
に何度現れるかを示す。図３では、全ての単語が文書中
に一度だけ現れているものとして、全て「１」のラベル
が付加されている。

【００３０】［全文検索手段１による検索アルゴリズ
ム］全文検索手段１による上記トライ構造のデータを検
索対象とする検索のアルゴリズムは、一般に用いられる
方法と同様のものを用いることができる。全文検索手段
１は、全文検索文字列入力表示手段６から検索条件とな
る文字列を受け取り、トライ構造中のラベルとの照合を
行ないつつ木構造を辿ることによって検索を実行する。
文字列の最終文字までの照合が可能であり、かつ、照合
後の状態が最終状態（２重丸印）であれば、単語の出現
回数をラベルとして持つ弧を辿り、文書の格納位置を得
る。これにより、入力文字列を含む文書を高速に検索す
ることができる。

【００３１】［類似度データ格納手段４に格納されるデ
ータの構造］検索の対象となるｎ個の文書を、ｄ１，ｄ
２，・・・，ｄｎとした時、文書ｄｉと文書ｄｊの間の
類似度データを、Ｓ（ｄｉ，ｄｊ）（ｉ＝２，３，・・
・，ｎ；ｊ＝１，２，・・・，ｎ−１；ｉ＞ｊ）で表記
することにする。Ｓ（ｄｉ，ｄｊ）は以下に示す２つの
値Ｃｉｊ，Ｍｉｊの組（［Ｃｉｊ，Ｍｉｊ］）である。Ｍｉｊ＝（文書ｄｉ中に存在する全ての単語の重みの合
計）＋（文書ｄｊ中に存在する全ての単語の重みの合
計）Ｃｉｊ＝（文書ｄｉと文書ｄｊに共通して存在する全て
の単語重みの合計）

【００３２】［類似度データ計算手段３による類似度デ
ータの算出アルゴリズム］類似度データ計算手段３によ
る類似度データを求めるアルゴリズムは以下の通りであ
る。（ステップＣ１）全てのＳ（ｄｉ，ｄｊ）に関して、
Ｃｉｊ＝Ｍｉｊ＝０とする。また、カレントの状態を形
態素解析データ格納手段２に格納されるトライ構造の初
期状態とする。（ステップＣ２）トライ構造を、カレントの状態から
縦型探索し、最初に発見した最終状態Ａをカレントの状
態とする。状態Ａに付加された語の重みをＡｇとする。
最終状態が発見されなかった場合ステップＣ６へ。（ステップＣ３）ステップＣ２で得た最終状態Ａから
ｋ本の弧が張られている場合、以下の操作をｋ本の弧全
てについて行なう。１つの弧が指す格納位置に対応する
文書がｄｒであって、文書ｄｒの格納位置を指す弧に付
加されたラベル（最終状態Ａに対応する文字列が文書ｄ
ｒに出現する回数）をＬｒとすれば、Ｓ（ｄｒ，ｄｍ）（ｍ＝１，２，・・・，ｒ−１）Ｓ（ｄｍ，ｄｒ）（ｍ＝ｒ＋１，ｒ＋２，・・・，ｎ）を満たす全てのＳ（ｄｒ，ｄｍ）（またはＳ（ｄｍ，ｄ
ｒ））において、Ｍｒｍ＋Ａｇ×Ｌｒ（またはＭｍｒ＋
Ａｇ×Ｌｒ）を新たなＭｒｍ（またはＭｍｒ）の値とす
る。（ステップＣ４）ステップＣ２で得た最終状態Ａから
ｋ本の弧が張られている場合、以下の操作をｋ本の弧の
ｋ（ｋ−１）／２個の２項組全てについて行なう。２つ
の弧が指す格納位置に対応する文書がｄｕ，ｄｖであっ
て、文書ｄｕ，ｄｖの格納位置を指す弧に付加されたラ
ベル（最終状態Ａに対応する文字列が文書ｄｕ，ｄｖに
出現する回数）をＬｕ，Ｌｖとすれば、Ｓ（ｄｕ，ｄｖ）（ｕ＞ｖ）Ｓ（ｄｖ，ｄｕ）（ｕ＜ｖ）において、Ｃｕｖ＋Ａｇ×（Ｌｕ＋Ｌｖ）（またはＣｖ
ｕ＋Ａｇ×（Ｌｕ＋Ｌｖ））を新たなＣｕｖ（またはＣ
ｖｕ）の値とする。（ステップ５）ステップ２へ戻る。（ステップ６）終了。

【００３３】以上のアルゴリズムに従って、図３の形態
素解析データに対応する類似度データを計算した結果は
以下の通りである。Ｓ（ｄ２，ｄ１）＝［Ｃ２１＝１２，Ｍ２１＝１８］Ｓ（ｄ３，ｄ１）＝［Ｃ３１＝８，Ｍ３１＝１８］Ｓ（ｄ３，ｄ２）＝［Ｃ３２＝２，Ｍ３２＝１６］

【００３４】［類似度検索手段５による検索アルゴリズ
ム］類似度検索手段５による検索のアルゴリズムは以下
の通りである。類似度検索データ入力表示手段９から検
索の条件として、１つの文書を受け取る。受け取った文
書をｄｓとすると、Ｓ（ｄｓ，ｄｍ）（ｍ＝１，２，・・・，ｓ−１）Ｓ（ｄｍ，ｄｓ）（ｍ＝ｓ＋１，ｓ＋２，・・・，ｎ）を満たす全てのＳ（ｄｓ，ｄｍ）（またはＳ（ｄｍ，ｄ
ｓ））に対して類似度Ｕｓｍ（またはＵｍｓ）＝Ｃｓｍ／Ｍｓｍ（またはＣｍ
ｓ／Ｍｍｓ）を求め、Ｕｓｍ（またはＵｍｓ）の値が閾値Ｔよりも大
きい場合、ｄｍを検索結果として出力する。ここで、Ｕ
ｓｍ（またはＵｍｓ）の値は０以上１以下となるため、
閾値Ｔも０以上１以下の間の値を設定する必要がある。
以下の類似度データに基づいて、検索条件としてｄ２を
受け取った場合、Ｕ２１＝Ｃ２１／Ｍ２１＝０．６７，
Ｕ３２＝Ｃ３２／Ｍ３２＝０．１３となり、閾値が０．
５であれば、文書ｄ２と類似度の高い文書としてｄ１が
得られる。Ｓ（ｄ２，ｄ１）＝［Ｃ２１＝１２，Ｍ２１＝１８］Ｓ（ｄ３，ｄ１）＝［Ｃ３１＝８，Ｍ３１＝１８］Ｓ（ｄ３，ｄ２）＝［Ｃ３２＝２，Ｍ３２＝１６］

【００３５】［類似度データ計算手段３による類似度デ
ータの変更アルゴリズム］文字列（単語）ａの重みをｇ
（≧０）に変更する場合の、類似度データ計算手段３に
よる類似度データ変更のアルゴリズムは以下の通りであ
る。（ステップＤ１）文字列ａとトライ構造中のラベルと
の照合を行ないつつ木構造を辿り最終状態Ａを得る。最
終状態に到達しなかった場合はステップＤ５へ。（ステップＤ２）最終状態Ａに付加された文字列ａの
重みをＡｇとし、これをｇに変更する。ただし、Ａｇ＝
ｇであればステップＤ５へ。（ステップＤ３）ステップＤ２で得た最終状態Ａから
ｋ本の弧が張られている場合、以下の操作をｋ本の弧全
てについて行なう。１つの弧が指す格納位置に対応する
文書がｄｒであって、文書ｄｒの格納位置を指す弧に付
加されたラベル（最終状態Ａに対応する文字列が文書ｄ
ｒに出現する回数）をＬｒとすれば、Ｓ（ｄｒ，ｄｍ）（ｍ＝１，２，・・・，ｒ−１）Ｓ（ｄｍ，ｄｒ）（ｍ＝ｒ＋１，ｒ＋２，・・・，ｎ）を満たす全てのＳ（ｄｒ，ｄｍ）（またはＳ（ｄｍ，ｄ
ｒ））において、Ｍｒｍ＋（ｇ−Ａｇ）×Ｌｒ（または
Ｍｍｒ＋（ｇ−Ａｇ）×Ｌｒ）を新たなＭｒｍ（または
Ｍｍｒ）の値とする。（ステップＤ４）ステップＤ２で得た最終状態Ａから
ｋ本の弧が張られている場合、以下の操作をｋ本の弧の
ｋ（ｋ−１）／２個の２項組全てについて行なう。２つ
の弧が指す格納位置に対応する文書がｄｕ，ｄｖであっ
て、文書ｄｕ，ｄｖの格納位置を指す弧に付加されたラ
ベル（最終状態Ａに対応する文字列が文書ｄｕ，ｄｖに
出現する回数）をＬｕ，Ｌｖとすれば、Ｓ（ｄｕ，ｄｖ）（ｕ＞ｖ）Ｓ（ｄｖ，ｄｕ）（ｕ＜ｖ）において、Ｃｕｖ＋（ｇ−Ａｇ）×（Ｌｕ＋Ｌｖ）（ま
たはＣｖｕ＋（ｇ−Ａｇ）×（Ｌｕ＋Ｌｖ））を新たな
Ｃｕｖ（またはＣｖｕ）の値とする。（ステップＤ５）終了。

【００３６】図３の形態素解析データにおいて、文字列
「文体論」の重みを「３」から「２」へ変更した場合、
以上のアルゴリズムに従って類似度データを更新した結
果は以下の通りである。Ｓ（ｄ２，ｄ１）＝［Ｃ２１＝１０，Ｍ２１＝１６］Ｓ（ｄ３，ｄ１）＝［Ｃ３１＝８，Ｍ３１＝１７］Ｓ（ｄ３，ｄ２）＝［Ｃ３２＝２，Ｍ３２＝１５］

【００３７】次に、第１または第２の実施形態の装置に
おける全文検索文字列入力表示手段６、全文検索結果表
示手段７、類似度データ変更入力表示手段８、類似度検
索データ入力表示手段９および類似度検索結果表示手段
１０各機能によるユーザインタフェースの画面イメージ
を図４（ａ）から図７（ｂ）に示す。図４（ａ）に示す
ウィンドウの上部のポタン部４１の「重み変更」「全文
検索」「類似度検索」の各ボタン４１１、４１２、４１
３をクリックすることにより、それぞれ、類似度データ
変更処理、全文検索処理、類似度検索処理が実行され
る。

【００３８】ボタン下部のテキスト入力アイテム４２が
全文検索文字列入力表示手段６に対応し、リストアイテ
ム４３が全文検索結果表示手段７、類似度検索データ入
力表示手段９、類似度検索結果表示手段１０を兼ねてい
る。

【００３９】図４（ｂ）に示すように、テキスト入力ア
イテム４２に全文検索の検索条件となる文字列（「辺縁
系」）を入力し、「全文検索」ボタン４１２を押すこと
により、全文検索処理が実行される。その結果、図５
（ａ）に示すように、文字列「辺縁系」を含む文書の文
書名がリストアイテム４３上に表示される。なお、ウィ
ンドウの下部のメッセージ欄４４には、実行された機能
（例では「全文検索」とその機能の遂行結果に対するコ
メント（例では、「４件検索されました」）が表示され
る。

【００４０】全文検索の結果、リストアイテム４３上に
得られた文書名のリストから、ユーザが、図５（ｂ）に
示すように、マウスにより所望のリスト項目（例では
「海馬による記憶メカニズムの考察」）を選択すること
により、類似度検索処理の検索条件となる文書の指定が
行なわれる。そして、図６（ａ）に示すように、ユーザ
が「類似度検索」ボタン４１３をクリックすることによ
り、類似度検索手段５により類似度検索処理が実行され
る。検索結果として、指定された文書に類似する文書の
文書名が、図６（ｂ）に示すように、リストアイテム４
３上に表示される。

【００４１】図７（ａ）に示すように、ユーザがウィン
ドウ上の「重み変更」ボタン４１１をクリックすること
により、同図（ｂ）に示すように、類似度データ変更入
力表示手段８に対応する「重み変更」ウィンドウ７１が
表示される。ユーザが重みを変更する単語（例、「辺縁
系」）と新たに設定する重みの値（例、「９」）をそれ
ぞに対応する欄７１２および７１３に記入し、「実行」
ボタン７１１をクリックすることにより、類似度データ
計算手段３による類似度データ変更処理が実行される。

【００４２】続いて、全文検索および類似度検索を行な
うことにより、類似度データの変更の効果を確認するこ
とができる。

【００４３】なお、上記の例は、単語の重みを変更する
際に、利用者の指示によって１単語ずつの変更を行なう
ものであるが、他のファイル等から変更内容を受け取
り、一括して変更するものであってもよい。（例えば、
専門用語辞書に記載されている単語の重みを全て「５」
とする。）

【００４４】また、前記の例は、類似度を「単一の文書
を対象とする類似文書検索」に利用するものであるが、
「特許マップの作成」等の他の用途に利用するものであ
っても、同様の効果が得られるものである。

【００４５】第２の実施形態以上に説明した第１の実施形態に対して、データ構造お
よび検索／計算アルゴリズムを以下のように変更を加え
ることにより、構造化文書を検索対象とする第２の実施
形態となる。

【００４６】［形態素解析データ格納手段２に格納され
るデータの構造］対象文書が著者、キーワード、本文の
３つの文書部品に構造化されているとする。この場合、
形態素解析データ格納手段２に格納されるトライ構造は
以下の順序で構成される。（ステップＥ１）文書部品ごとに形態素解析を行な
い、第１の実施形態で説明したトライ構造と同様の構造
を文書部品に対応して３つ生成する。（ステップＥ２）初期状態から「３種の文書部品を特
定できる識別子をラベルとして持つ３本の弧」を張り、
それぞれの弧の指し示す先を、ステップＥ１で生成した
３つのトライ構造のうちの識別子に対応するトライ構造
の初期状態とする。

【００４７】［全文検索手段１による検索アルゴリズ
ム］上記で生成した構造化文書に対応するトライ構造を
利用することにより、文書部品の範囲内での全文検索が
可能となる。例えば、著者の文書部品の範囲内で「山田
太郎」を入力文字列として検索を行なう場合、「＜！著
者！＞山田太郎」を入力文字列とすることにより、第１
の実施形態と同様のアルゴリズムによって検索が可能で
ある。ただし、＜！著者！＞は著者の文書部品を特定す
るための識別子であるとする。

【００４８】［類似度データ格納手段４に格納されるデ
ータの構造］Ｓ（ｄｉ，ｄｊ）は以下のように３つのフ
ィールドから構成され、それぞれのフィールドには３種
の文書部品ごとに求められた２値組［Ｃｉｊ，Ｍｉｊ］
が格納される。（［Ｃａｕｔｈｏｒｉｊ，Ｍａｕｔｈｏ
ｒｉｊ］，［Ｃｋｅｙｉｊ，Ｍｋｅｙｉｊ］，［Ｃｂｏ
ｄｙｉｊ，Ｍｂｏｄｙｉｊ］）Ｍａｕｔｈｏｒｉｊ＝（文書ｄｉの著者の文書部品中に
存在する全ての単語の重みの合計）＋（文書ｄｊの著者
の文書部品中に存在する全ての単語の重みの合計）Ｃａｕｔｈｏｒｉｊ＝（文書ｄｉの著者の文書部品と文
書ｄｊの著者の文書部品に共通して存在する全ての単語
重みの合計）Ｍｋｅｙｉｊ＝（文書ｄｉのキーワードの文書部品中に
存在する全ての単語の重みの合計）＋（文書ｄｊのキー
ワードの文書部品中に存在する全ての単語の重みの合
計）Ｃｋｅｙｉｊ＝（文書ｄｉのキーワードの文書部品と文
書ｄｊのキーワードの文書部品に共通して存在する全て
の単語重みの合計）・・・・・・・・・・・・

【００４９】［類似度データ計算手段３による類似度デ
ータの算出アルゴリズム］類似度データ計算手段３によ
る類似度データ計算のアルゴリズムは、Ｓ（ｄｉ，ｄ
ｊ）の各フィールドごとに、第１の実施形態と同様のア
ルゴリズムを適用することによって実現できる。

【００５０】［類似度検索手段５による検索アルゴリズ
ム］類似度検索手段５による検索のアルゴリズムは、各
フィールドごとに第１の実施形態と同様のアルゴリズム
を適用することによって、Ｕａｕｔｈｏｒｓｍ（またはＵａｕｔｈｏｒｍｓ）Ｕｋｅｙｓｍ（またはＵｋｅｙｍｓ）Ｕｂｏｄｙｓｍ（またはＵｂｏｄｙｍｓ）を求め、以下の式から得られるＵｓｍ（またはＵｍｓ）
が閾値Ｔよりも大きい場合、ｄｍを検索結果として出力
する。

【００５１】Ｕｓｍ＝（Ｗａｕｔｈｏｒ×Ｕａｕｔｈｏ
ｒｓｍ＋Ｗｋｅｙ×Ｕｋｅｙｓｍ＋Ｗｂｏｄｙ×Ｕｂｏ
ｄｙｓｍ）／（Ｗａｕｔｈｏｒ＋Ｗｋｅｙ＋Ｗｂｏｄ
ｙ）

【００５２】Ｕｍｓ＝（Ｗａｕｔｈｏｒ×Ｕａｕｔｈｏ
ｒｍｓ＋Ｗｋｅｙ×Ｕｋｅｙｍｓ＋Ｗｂｏｄｙ×Ｕｂｏ
ｄｙｍｓ）／（Ｗａｕｔｈｏｒ＋Ｗｋｅｙ＋Ｗｂｏｄ
ｙ）ただし、Ｗａｕｔｈｏｒ、Ｗｋｅｙ、Ｗｂｏｄｙは定数
であって、類似度を決定する際の文書部品の重要度であ
る。

【００５３】［類似度データ計算手段３による類似度デ
ータの変更アルゴリズム］単語の重みを変更する文字列
とともに、どの文書部品に対して変更を行なうかを入力
として受け取り、Ｓ（ｄｉ，ｄｊ）の文書部品に対応す
るフィールドに対して、第１の実施形態と同様のアルゴ
リズムを適用することによって実現できる。

【００５４】

【発明の効果】以上のように本発明によれば、類似度デ
ータを計算するためのデータを、全文検索用データとし
ても利用可能であり、かつ、高速の類似度再計算に用い
ることができる。また、本発明の類似度データ計算装置
を検索装置として用い、全文検索および類似度を利用し
た検索をともに可能にすることにより、類似度データの
試行錯誤による調整を支援することができる。

【図面の簡単な説明】

【図１】本発明の実施形態の構成を示すブロック図

【図２】（ａ）は文書とそれに含まれる語との対応を
示すデータの一例、（ｂ）は、語とそれに対応する重み
のデータの一例を示す図

【図３】トライ構造データの一例を示す図

【図４】（ａ）および（ｂ）は本実施形態のユーザイ
ンタフェースの画面イメージの一例を示す図

【図５】本実施形態のユーザインタフェースの画面イ
メージの一例を示す図で、（ａ）は全文検索の結果が表
示されたところ、（ｂ）は検索結果の１つを選択したと
ころを示す図

【図６】本実施形態のユーザインタフェースの画面イ
メージの一例を示す図で、（ａ）は類似度検索を指示し
たところ、（ｂ）は類似度検索結果を表示したところを
示す図

【図７】本実施形態のユーザインタフェースの画面イ
メージの一例を示す図で、（ａ）は重み変更の指示をし
たところ、（ｂ）は重み変更のポップアップメニューが
表示されたところを示す図

【符号の説明】

１…全文検索手段、２…形態素解析データ格納手段、３
…類似度データ計算手段、４…類似度データ格納手段、
５…類似度検索手段、６…全文検索文字列入力表示手
段、７…全文検索結果表示手段、８…類似度データ変更
入力表示手段、９…類似度検索データ入力表示手段、１
０…類似度検索結果表示手段。

Claims

【特許請求の範囲】

【請求項１】文書に含まれる語と文書とを対応づけて
格納するとともに、その各語に類似度決定のための語の
重要度を示す重みを対応付け、かつ各文書に各語が出現
する回数を対応付けて格納するデータ格納手段と、前記データ格納手段に格納された語と文書との対応付
け、前記重み、および前記出現回数を参照して、文書間
の類似度データを計算する類似度データ計算手段と、前記類似度データ計算手段により得られた文書間の類似
度データを格納する類似度データ格納手段とを有するこ
とを特徴とする文書間類似度データ計算装置。
【請求項２】データ格納手段のデータが、文書部品か
らなる構造化された文書を対象とするものであり、類似度データ計算手段が、文書部品の種類毎に文書間の
類似度データを計算することを特徴とする請求項１記載
の文書間類似度データ計算装置。
【請求項３】弧と状態からなる木構造で表現されるト
ライ構造を持ち、単語の集合を前記弧のラベルとして保
持し、１つの最終状態には１つの単語が対応し、その単
語の重みが対応する最終状態に対して付加され、各最終
状態からは、その最終状態に対応する単語を含む文書の
格納位置を示すデータへの結合を表す第２の弧が張ら
れ、これらの第２の弧のラベルとして、最終状態に対応
する単語が文書中に現れる回数を保持するように構成し
た全文検索用データを格納するデータ格納手段と、検索対象のｎ個の文書における文書ｄｉと文書ｄｊの間
の類似度データＳ（ｄｉ，ｄｊ）を、文書ｄｉと文書ｄ
ｊに共通して存在する全ての単語重みの合計Ｃｉｊ、お
よび文書ｄｉ中に存在する全ての単語の重みの合計と文
書ｄｊ中に存在する全ての単語の重みの合計との和Ｍｉ
ｊの組［Ｃｉｊ，Ｍｉｊ］によって表し、この類似度デ
ータＳ（ｄｉ，ｄｊ）＝［Ｃｉｊ，Ｍｉｊ］を前記デー
タ格納手段に格納されている前記重みおよび前記回数を
用いて計算する類似度データ計算手段と、前記類似度データ計算手段により得られた文書間の類似
度データを格納する類似度データ格納手段とを有するこ
とを特徴とする文書間類似度データ計算装置。