JP2002073681A

JP2002073681A - 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体

Info

Publication number: JP2002073681A
Application number: JP2000263240A
Authority: JP
Inventors: Tadataka Matsubayashi; 忠孝松林; Shinya Yamamoto; 伸也山本; Katsumi Tada; 勝己多田; Natsuko Sugaya; 菅谷　　奈津子
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-08-28
Filing date: 2000-08-28
Publication date: 2002-03-12
Anticipated expiration: 2020-08-28
Also published as: JP4045728B2

Abstract

(57)【要約】【課題】文書登録時に登録文書の特徴ベクトルを作成
せずに、検索時に全文検索用インデクスを参照すること
により、種文書と登録文書の類似度を算出する類似文書
検索方法において、検索精度を極端に低下させることな
く高速な類似文書検索を提供すること。【解決手段】文書の登録処理として全文検索用インデ
クス作成処理を有し、類似文書の検索処理として種文書
特徴ベクトル作成処理と類似度算出処理を有する類似文
書検索方法において、種文書特徴ベクトル作成処理の後
に、検索用単語抽出処理を有することを特徴とする類似
文書検索方法。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザが指定した
文書に記述されている内容と類似する内容を含む文書
を、文書データベースの中から検索する方法に関する。

【０００２】

【従来の技術】近年、パーソナルコンピュータやインタ
ーネット等の普及に伴い、電子化文書が爆発的に増加し
ており、今後も加速度的に増大していくものと予想され
る。このような状況において、ユーザが所望する情報を
含んだ文書を高速かつ効率的に検索したいという要求が
高まってきている。

【０００３】このような要求に応える技術として、ユー
ザが自分の所望する内容を含んだ文書（以下、種文書と
呼ぶ）を例示し、その文書と類似する文書を検索する類
似文書検索技術が注目されている。

【０００４】類似文書検索の方法としては、例えば「特
開平１１−６６０８６」が開示されている（以下、従来
技術１と呼ぶ）。

【０００５】本従来技術１では、文書データベースに対
して文書を登録する際に、登録対象となる文書を全文検
索するために必要な情報（従来技術１では、転置インデ
ックスと呼んでいる。以下、全文検索用インデクスと呼
ぶ。）を作成しておき、類似文書の検索時に、本全文検
索用インデクスを参照することで登録済みの文書（以
下、登録文書と呼ぶ）に含まれる単語の出現頻度情報を
要素としてもつベクトル（以下、特徴ベクトルと呼ぶ）
を作成し、これと検索条件として指定された文書（以
下、種文書と呼ぶ）の特徴ベクトルとが、ベクトル空間
内においてなす角度の余弦を文書間の類似度として算出
する技術である。

【０００６】以下、従来技術１の処理手順を図２のＰＡ
Ｄ（Problem Analysis Diagram）図を用いて説明する。

【０００７】従来技術１では、まずステップ２００にお
いて、文書の登録処理か類似文書の検索処理かを判定
し、文書の登録処理と判定された場合には全文検索用イ
ンデクス作成ステップ２１０を実行し、全文検索用イン
デクスを作成する。

【０００８】また、ステップ２００において類似文書の
検索処理と判定された場合には、種文書特徴ベクトル生
成ステップ２２０を実行し、種文書に対して特徴ベクト
ルを作成する。そして、全文検索用インデクスを用いた
類似度算出ステップ２２１を実行し、該種文書の特徴ベ
クトルと登録文書の特徴ベクトルが、ベクトル空間内に
おいてなす角度の余弦を文書間の類似度として算出す
る。

【０００９】以上が、従来技術１の処理手順である。

【００１０】以下、図３を用いて本従来技術１の概要を
説明する。

【００１１】従来技術１の文書登録処理では、まず全文
検索用インデクス作成処理２１０で登録用文書１および
文書２中に含まれる単語および出現位置を抽出し、全文
検索用インデクス４０３を作成する。この結果、全文検
索用インデクス４０３には、"構築：（文書１，５）
（文書２，８）"のように記録される。ここで、"構築：
（文書１，５）（文書２，８）"は、文字列"構築"が文
書１の５文字目に、文書２の８文字目に出現しているこ
とを表している。

【００１２】そして、類似文書の検索処理では、検索条
件で指定された種文書を抽出し、種文書特徴ベクトル生
成処理２２０を通じて該種文書に対応する種文書特徴ベ
クトル４０６を生成する。

【００１３】次に、種文書特徴ベクトル４０６中に含ま
れる全ての単語に対して、前記文書登録処理で作成した
全文検索用インデクス４０３を参照することで、各登録
文書中の出現回数を取得する。

【００１４】ここで図４に示すように、二つのベクトル
ＸおよびＹの余弦は、ベクトルの対応する成分同士（例
えばx(i)とy(i)）の積和値をそれぞれのベクトルの大き
さで除算することにより得られることに着目する。すな
わち、特定のベクトル間の内積をベクトルの組ごとに算
出していくのではなく、ベクトルの要素ごとの内積成分
（以下、要素別類似度と呼ぶ）を計算した後に、全ての
要素における要素別類似度の総和を算出する。なお図４
では、ベクトルＸのi番目の要素を"x(i)"と表し、ベク
トルＸの大きさを"|Ｘ|"と表す。

【００１５】すなわち、図３において種文書特徴ベクト
ル４０６と登録文書の特徴ベクトルの余弦を算出するた
めには、種文書特徴ベクトル４０６中の全ての単語に対
して、種文書と各登録文書での出現回数の積和値を各登
録文書における単語毎の要素別類似度として算出し、全
ての登録文書について単語毎の要素別類似度の総和をと
ることで算出できる。

【００１６】以下、本類似度算出方法を図５を用いて具
体的に説明する。

【００１７】種文書特徴ベクトルをベクトルＸ、文書１
の特徴ベクトル（以下、特徴ベクトル１と呼ぶ）をベク
トルＹ、文書２の特徴ベクトル（以下、特徴ベクトル２
と呼ぶ）をベクトルＺと表すとき、種文書特徴ベクトル
と特徴ベクトル１および特徴ベクトル２の内積の第１成
分は、それぞれ"x(1)y(1)"および"x(1)z(1)"として算出
することができる。

【００１８】ここで、"x(1)"は単語１の種文書での出現
回数を表しており、"y(1)"および"z(1)"はそれぞれ単語
１の文書１および文書２での出現回数を表している。

【００１９】すなわち、単語１の各文書での出現回数６
００は、種文書内での単語１の出現回数を計数すると共
に、単語１に対応する全文検索用インデクスを参照する
ことで取得することができる。

【００２０】以下同様に、種文書中の全ての単語に対応
する全文検索用インデクスを参照することで、種文書に
対する登録文書の類似度を算出することができる。

【００２１】以上が、従来技術１における類似度算出方
法の具体的な説明である。

【００２２】最後に、各登録文書全体の類似度４０７を
出力する。

【００２３】以上が、従来技術１の概要である。

【００２４】以上説明したように従来技術１によれば、
登録文書中に含まれる単語用の全文検索用単語インデク
スを予め作成しておくことで、文書検索時に登録文書の
特徴ベクトルの生成を可能とし、検索条件として指定さ
れた種文書に対応する種文書特徴ベクトルとの余弦を類
似度として算出することで、文書データベース中から内
容の類似する文書を検索することができる。

【００２５】しかし従来技術１には、種文書から抽出さ
れた全ての単語に対して全文検索用インデクスを参照
し、類似度算出に使用しているため、種文書に含まれる
単語数が多いときには膨大な処理時間が必要になるとい
うことである。

【００２６】例えば、種文書中の1種類の単語に対する
全文検索用インデクスを0.5秒で参照可能としても、種
文書から100種類の単語が抽出されているとすると、50
秒もの処理時間を要してしまうことになる。

【００２７】一方、処理時間を低減するために単純に種
文書特徴ベクトルの単語を間引いてしまうと、単語の種
類数を削減してしまうため種文書で重要な意味を持つ単
語までもが排除される可能性があり、検索精度が極端に
低下してしまう恐れがある。

【００２８】

【発明が解決しようとする課題】このような問題に対
し、本発明では以下の課題を解決することを目的とす
る。

【００２９】すなわち本発明の課題は、文書データベー
スへの文書登録時に登録文書の特徴ベクトルを作成する
ことなく、類似文書の検索時に全登録文書の特徴ベクト
ルを作成し、最新の単語情報を用いた類似度算出を行な
う類似文書検索方法において、検索精度を確保すること
のできる最低限の単語数を使用することにより、高速な
類似文書検索方法を実現することである。

【００３０】

【課題を解決するための手段】上記課題を解決するため
の、本発明に示す類似文書検索の処理手順を図７に示す
ＰＡＤ図に示す。

【００３１】本発明に示す類似文書検索方法は、登録処
理か研作処理かを判定する処理種別判定処理２００と、
文書の登録処理として全文検索用インデクス作成処理２
１０と、類似文書の検索処理として、種文書特徴ベクト
ル生成処理２２０と全文検索用インデクスを用いた類似
度算出処理２２１を有する類似文書検索方法において、
種文書特徴ベクトル生成処理２２０と全文検索用インデ
クスを用いた類似度算出処理２２１の間に、検索用単語
抽出処理７０１を有することを特徴とする。

【００３２】すなわち、本発明による類似文書検索方法
は、文書データベースへの文書登録時の全文検索用イン
デクス作成処理２１００として、（ステップ１）登録対
象文書を読み込む登録文書読込みステップ、（ステップ
２）上記登録文書読込みステップで読み込まれた登録対
象文書のテキストから、全文検索用情報を抽出し、全文
検索用情報ファイルに格納する全文検索用情報ファイル
作成登録ステップ、と、類似文書の検索処理における種
文書特徴ベクトル生成処理２２０として、（ステップ
３）検索条件で指定された種文書を取得する種文書取得
ステップ、（ステップ４）前記種文書読込みステップで
読み込まれた種文書を解析し、種文書中に含まれる単語
を抽出する種文書解析単語抽出ステップ、（ステップ
５）上記種文書解析ステップで抽出された単語の出現回
数を計数する種文書内出現回数計数ステップと、検索用
単語抽出処理７０１として、（ステップ６）上記種文書
内出現回数計数ステップで計数された各単語の出現回数
に基づき、該単語の重要度を算出する単語重要度算出ス
テップ、（ステップ７）上記（ステップ６）で算出され
た各単語の重みの降順に単語を選択し、種文書自体に対
する該単語の要素別類似度を算出し、該要素別類似度が
所定の閾値を超える場合に、該単語を検索用単語として
抽出する検索用単語判定ステップと、全文検索用インデ
クスを用いた類似度算出処理２２１として、（ステップ
８）上記種文書特徴ベクトル生成処理２２０において、
種文書から抽出された検索用単語を用いて、以下の（ス
テップ９）〜（ステップ１０）を実行する類似度算出ス
テップ、（ステップ９）前記全文検索用情報ファイル作
成登録ステップで作成された全文検索用情報を参照し該
検索用単語の各登録文書での出現回数を取得する検索用
単語出現回数取得ステップ、（ステップ１０）前記検索
用単語選択ステップで選択された該検索用単語に関する
前記種文書内出現回数計数ステップで取得した種文書内
出現回数および前記単語出現回数取得ステップで取得し
た各登録文書における検索用単語出現回数を用いて種文
書と登録文書の要素別類似度を算出し、各登録文書の全
体の類似度に加算する要素別類似度算出ステップ、（ス
テップ１１）上記要素別類似度算出ステップで算出され
た類似度を出力する検索結果出力ステップを有する。

【００３３】上記類似文書検索方法を用いた本発明の原
理について図８〜図１０を用いて説明する。

【００３４】本発明の類似文書検索方法では、文書デー
タベースへの文書登録時に（ステップ１）および（ステ
ップ２）を実行する。

【００３５】以下、図８を用いて、文書の登録に際する
処理手順の概要を説明する。

【００３６】まず、（ステップ１）で登録対象となる文
書を読み込む。図８に示した例では、登録対象文書とし
て文書１「ＬＡＮの構築と運用・保守に必要な機器を提
供する。」および文書２「情報システムの構築や保守を
手がけるＳＩベンダと提携する。」が登録対象文書とし
て読み込まれる。

【００３７】次に、（ステップ２）において、上記（ス
テップ１）で読み込まれた登録対象文書のテキストか
ら、全文検索用情報を抽出し、全文検索用情報ファイル
に格納する。

【００３８】図８に示した例では、文書１中に含まれ
る"Ｌ"に対応する全文検索用情報として（文書１，１）
が抽出され、全文検索用情報ファイル８０３中に格納さ
れる。なお、Ｌ（文書１，１）は、"文書１"の文字位置
１に文字"Ｌ"が出現することを表す。

【００３９】また、ここで用いる全文検索用情報として
は、任意の単語あるいは文字列の各登録文書での出現回
数を取得することができれば、従来技術１に示したよう
に単語インデクス方式を用いるものとしてもよいし、
「特開平０８−１９４７１８」に開示されているn-gram
インデクス方式を用いるものとしてもよい。

【００４０】以上が、本発明の文書登録に際する処理手
順の概要である。

【００４１】次に、本発明に示した類似文書検索方法で
は、文書の検索時に（ステップ３）〜（ステップ１１）
を実行する。

【００４２】以下、図９を用いて文書の検索に際する処
理手順の概要を説明する。

【００４３】まず（ステップ３）で検索条件として指定
された種文書９０１「ＬＡＮシステムの構築ノウハウを
武器にソリューションを展開する・・・」を読み込む。

【００４４】そして、（ステップ４）において、種文書
を解析し、種文書中に含まれる単語を抽出する。ここで
用いる種文書解析処理としては、従来技術１に示される
ように単語辞書を参照し、単語辞書に含まれる単語を抽
出される方式でもよいし、「特開平１０−１４８７２
１」に開示されているように文書データベース中の統計
情報を用いた単語抽出方法を用いてもよいし、種文書中
に含まれるn-gramを機械的に抽出する方法であってもよ
いし、その他の単語抽出技術を使用しても構わない。

【００４５】図９に示した例では、この種文書解析処理
の結果として、単語列９０３（ＬＡＮ，構築，ノウハ
ウ，武器，ソリューション，展開，…）が抽出されてい
る。

【００４６】次に、（ステップ５）において、上記（ス
テップ４）で抽出された単語の種文書内での出現回数を
計数し、単語と出現回数の組９０４（［ＬＡＮ，４］
［構築，３］［ノウハウ，２］［武器，１］［ソリュー
ション，２］［展開，１］…）を出力する。

【００４７】ここで、［ＬＡＮ，３］は、単語"ＬＡＮ"
が３回出現しているということを表している。

【００４８】次に、（ステップ６）において、上記（ス
テップ５）で抽出された単語と出現回数の組９０４に対
して、重要度を算出し、単語と重要度の組を出力する。
この重要度の算出方法としては、例えば、種文書中の出
現回数としてもよいし、データベースに登録された文書
数に対する該単語の出現文書数の割合（以下、出現割合
と呼ぶ）等を用いてもよい。図９に示した例では、種文
書９０１中での出現回数を単語の重要度として算出し、
単語重要度列９０５「［ＬＡＮ，４］［構築，３］［ソ
リューション，２］…を出力している。ここで、［ＬＡ
Ｎ，４］は、単語"ＬＡＮ"が重要度"４"として種文書に
含まれていることを表す。

【００４９】そして、（ステップ７）において、上記
（ステップ８）において算出された各単語の重要度の降
順に種文書自体に対する要素別類似度を算出し、該要素
別類似度が所定の閾値を超えている場合、該単語を検索
用単語として抽出する。この結果として、検索用単語
［ＬＡＮ，４］［構築，３］が抽出される。

【００５０】次に、（ステップ８）〜（ステップ１０）
において、前記（ステップ７）で取得された各単語の種
文書内出現回数および前記（ステップ２）で作成された
全文検索用情報ファイル８０３を参照することで、種文
書に対する各登録文書の類似度を算出する。

【００５１】そして、（ステップ１１）において、類似
度算出結果９０６を出力する。

【００５２】以上が、本発明の文書検索に際する処理手
順の概要である。

【００５３】以下、上述した（ステップ７）により実行
される検索用単語の抽出処理手順について、図１０を用
いて説明する。

【００５４】まず、（ステップ７）において、前記（ス
テップ６）で出力された単語重要度列９０５を読み込
み、重要度の降順に単語を選択する。図１０では、単語
重要度列９０５「［ＬＡＮ，４］、［構築，３］、［ソ
リューション，２］…」から、まず［ＬＡＮ，４］を抽
出している。

【００５５】そして、検索用単語"ＬＡＮ"の種文書内出
現回数"４"を用いて、種文書に対する種文書の類似度の
該検索用単語の要素別類似度を計算する。すなわち、登
録文書として種文書と同一の文書が存在するもの（以
下、仮想登録文書と呼ぶ）と仮定し、種文書特徴ベクト
ルと該仮想登録文書の特徴ベクトル間における該検索用
単語の要素別類似度を算出し、総和を算出する。

【００５６】図１０では、検索用単語"ＬＡＮ"の種文書
内出現回数"４"と仮想登録文書内出現回数"４"の積を算
出し、要素別類似度"１６"を得る。

【００５７】この結果、検索用単語"ＬＡＮ"による種文
書自体に対する要素別類似度は所定の閾値（本図に示し
た例では、５とする）を超えているため、検索用単語と
してワークエリア１７０へ格納する。

【００５８】次に、［ＬＡＮ，４］の次に重要度の高い
［構築，３］を選択し、種文書に対する種文書の類似度
の該検索用単語の要素別類似度を計算する。この結果、
要素別類似度は９となり、所定の閾値５を超えているた
め、検索用単語としてワークエリア１７０へ格納する。

【００５９】そして、［構築，３］の次に重要度の高い
［ソリューション，２］を選択し、種文書に対する種文
書の類似度の該検索用単語の要素別類似度を計算する。
この結果、要素別類似度は４となり、所定の閾値を超え
ていないため、検索用単語として抽出せずに、終了す
る。

【００６０】以上が、検索用単語抽出処理手順の説明で
ある。

【００６１】以上説明したように、文書データベースへ
の文書登録時に、登録文書に対する登録特徴ベクトルを
作成する代わりに、全文検索用インデクスを作成してお
き、類似文書の検索時には、種文書における特徴ベクト
ルの要素のうち種文書内での重要度の順に検索用単語を
抽出し、種文書自体に対する類似度が収束するまで抽出
した単語を検索用単語として使用するため、全ての単語
を検索に使用する場合に比べて、検索精度を極端に落と
すことなく種文書と登録文書の類似度を高速に算出する
ことが可能となる。

【００６２】

【発明の実施の形態】以下、本発明の第一の実施例につ
いて図１を用いて説明する。

【００６３】本発明を適用した類似文書検索システムの
第一例は、ディスプレイ１００、キーボード１０１、中
央演算処理装置（ＣＰＵ）１０２、磁気ディスク装置１
０３、フロッピディスクドライブ（ＦＤＤ）１０４、主
メモリ１０５およびこれらを結ぶバス１０６から構成さ
れる。

【００６４】磁気ディスク装置１０３は二次記憶装置の
一つであり、全文検索用情報ファイル１８０が格納され
る。

【００６５】ＦＤＤ１０４を介してフロッピディスク１
０７に格納されている情報が、主メモリ１０５あるいは
磁気ディスク装置１０３へ読み込まれる。

【００６６】主メモリ１０５には、システム制御プログ
ラム１１０、登録制御プログラム１１１、検索制御プロ
グラム１１２、登録文書読込プログラム１２０、全文検
索用情報ファイル作成登録プログラム１２１、検索条件
解析プログラム１３０、検索用単語抽出プログラム１３
１、類似度算出プログラム１３２、検索結果出力プログ
ラム１３３が格納されると共にワークエリア１７０が確
保される。

【００６７】検索条件解析プログラム１３０は、種文書
取得プログラム１４０、単語抽出プログラム１４２およ
び種文書内出現回数計数プログラム１４３で構成され
る。

【００６８】検索用単語抽出プログラム１３１は、単語
重要度算出プログラム１５０および検索用単語抽出判定
プログラム１５１で構成される。

【００６９】類似度算出プログラム１３２は、検索用単
語出現回数取得プログラム１６１および要素別類似度算
出プログラム１６２で構成される。

【００７０】登録制御プログラム１１１および検索制御
プログラム１１２は、ユーザによるキーボード１０１か
らの指示に応じてシステム制御プログラム１１０によっ
て起動され、それぞれ登録文書読込プログラム１２０お
よび全文検索用情報ファイル作成登録プログラム１２１
の制御と、検索条件解析プログラム１３０、検索用単語
抽出プログラム１３１、類似度算出プログラム１３２お
よび検索結果出力プログラム１３３の制御を行なう。

【００７１】なお本実施例では、キーボード１０１から
入力されたコマンドにより、登録制御プログラム１１１
や検索制御プログラム１１２が起動されるものとした
が、他の入力装置を介して入力されたコマンドあるいは
イベントにより起動されるものであってもかまわない。

【００７２】また、これらのプログラムを磁気ディスク
装置１０３、フロッピディスク１０７、ＭＯ、ＣＤ−Ｒ
ＯＭ、ＤＶＤ（図１には示していない）等の記憶媒体に
格納し、駆動装置を介して主メモリ１０５に読み込み、
ＣＰＵ１０２によって実行することも可能である。

【００７３】以下、本実施例における類似文書検索シス
テムの処理手順について説明する。

【００７４】まず、システム制御プログラム１１０の処
理手順について図１１のＰＡＤ図を用いて説明する。

【００７５】システム制御プログラム１１０は、まずス
テップ１１００で、キーボード１０１から入力されたコ
マンドを解析する。

【００７６】そしてステップ１１０１で、この結果が登
録実行のコマンドであると解析された場合には、ステッ
プ１１０２で登録制御プログラム１１１を起動して、文
書の登録を行なう。

【００７７】またステップ１１０１で、検索実行のコマ
ンドであると解析された場合には、ステップ７０３で検
索制御プログラム１１２を起動して、類似文書の検索を
行なう。

【００７８】以上が、システム制御プログラム１１０の
処理手順である。

【００７９】次に、図１１に示したステップ１１０２で
システム制御プログラム１１０により起動される登録制
御プログラム１１１の処理手順について、図１２のＰＡ
Ｄ図を用いて説明する。

【００８０】登録制御プログラム１１１では、まずステ
ップ１２００において登録文書読込プログラム１２０を
起動し、登録対象として指定された文書（以下、登録対
象文書と呼ぶ）を読み込み、ワークエリア１７０に格納
する。

【００８１】次に、ステップ１２０１において、全文検
索用情報ファイル作成登録プログラム１２１を起動し、
ワークエリア１７０に格納されている登録文書に対応す
る全文検索用情報を作成し、全文検索用情報ファイル１
８０へ格納する。

【００８２】以上が、登録制御プログラム１１１の処理
手順である。

【００８３】次に、図１１に示したステップ１１０３で
システム制御プログラム１１０により起動される検索制
御プログラム１１２の処理手順について、図１３のＰＡ
Ｄ図を用いて説明する。

【００８４】検索制御プログラム１１２は、まずステッ
プ１３００において、検索条件解析プログラム１３０を
起動し、種文書から単語を抽出する。

【００８５】次にステップ１３０１において、検索用単
語抽出プログラム１３１を起動し、上記ステップ１３０
０において種文書から抽出された単語の重要度を算出
し、所定の条件に基づいて重要度の高い単語を検索用単
語として抽出する。

【００８６】そしてステップ１３０２において、類似度
算出プログラム１３２を起動し、上記ステップ１３０１
において種文書から抽出された検索用単語の出現情報を
用いて、種文書に対する各登録文書の類似度を算出す
る。

【００８７】そしてステップ１３０３において、検索結
果出力プログラム１３３を起動し、上記ステップ１３０
２で算出された類似度算出結果を検索結果として出力す
る。

【００８８】ここで、検索結果の出力先は、ディスプレ
イ１００に表示するものとしてもよいし、ワークエリア
１７０や磁気ディスク１０３上に格納するものとしても
よい。また、類似度算出結果をディスプレイ１００に出
力する場合には、類似度の降順に出力するものとしても
よいし、文書に付与された管理番号の昇順あるいは降順
に出力するものとしてもよい。

【００８９】以上が検索制御プログラム１１２の処理手
順である。

【００９０】次に、図１３に示したステップ１３００で
検索制御プログラム１１２により起動される検索条件解
析プログラム１３０の処理手順について、図１４のＰＡ
Ｄ図を用いて説明する。

【００９１】検索条件解析プログラム１３０は、まずス
テップ１４００において、種文書取得プログラム１４０
を起動し、検索条件で指定された種文書を抽出し、ワー
クエリア１７０に格納する。

【００９２】次にステップ１４０２において、単語抽出
プログラム１４２を起動し、ワークエリア１７０に格納
された種文書から単語を抽出する。

【００９３】そしてステップ１４０３において、種文書
内出現回数計数プログラム１４３を起動し、ステップ１
４０２で抽出された単語について、種文書内での出現回
数を計数し、ワークエリア１７０に格納する。

【００９４】以上が検索条件解析プログラム１３０の処
理手順である。

【００９５】次に、図１３に示したステップ１３０１で
検索制御プログラム１１２により起動される検索用単語
抽出プログラム１３１の処理手順について、図１５のＰ
ＡＤ図を用いて説明する。

【００９６】検索用単語抽出プログラム１３１は、まず
ステップ１５００において、単語重要度算出プログラム
１５１を起動し、所定の算出式に基づきワークエリア１
７０に格納された単語の重要度を算出し、ワークエリア
１７０に格納する。

【００９７】次に、前記ステップ１５００でワークエリ
ア１７０に格納された全ての単語に対して、ステップ１
５０２〜１５０５を繰り返し実行する（ステップ１５０
１）。

【００９８】まず、ステップ１５０２において、ワーク
エリア１７０に格納されている単語を重要度の降順に取
得する。

【００９９】次に、ステップ１５０３において、検索用
単語抽出判定プログラム１５１を起動し、種文書の要素
別類似度を算出する。

【０１００】そして、ステップ１５０４において、種文
書の要素別類似度が、所定の閾値を超えているかを判定
し、超えている場合にはステップ１５０５を、越えてい
ない場合には繰り返し処理を終了する。

【０１０１】そして、ステップ１５０５において、該単
語を検索用単語としてワークエリア１７０に格納する。

【０１０２】以上が検索用単語抽出プログラム１３１の
処理手順である。

【０１０３】なお、上述のステップ１５０２における各
単語の要素別類似度の算出方法は、従来技術１に示され
るように、各単語の種文書での出現回数を用いて算出し
てもよいし、後述するように、該単語の文書データベー
スでの出現文書数等の統計情報を用いるものでもよい
し、さらには、文書内での出現位置情報を考慮すること
もできる。

【０１０４】次に、図１３に示したステップ１３０２で
検索制御プログラム１１２により起動される類似度算出
プログラム１３２の処理手順について、図１６のＰＡＤ
図を用いて説明する。

【０１０５】類似度算出プログラム１３２は、ワークエ
リア１７０に格納された全ての検索用単語に対して、ス
テップ１６０２〜１６０３を繰り返し実行する（ステッ
プ１６０１）。

【０１０６】ステップ１６０２では、検索用単語出現回
数取得プログラム１６１を起動し、検索用単語に対応す
る全文検索用情報ファイル１８０を参照して、各登録文
書内での出現回数を取得し、ワークエリア１７０に格納
する。

【０１０７】次にステップ１６０３において、要素別類
似度算出プログラム１６２を起動し、ワークエリア１７
０に格納された検索用単語の種文書内出現回数および登
録文書内出現回数を用いて、所定の算出式により種文書
に対する登録文書の要素別類似度を算出し、登録文書全
体の類似度に加算する。

【０１０８】以上が類似度算出プログラム１３２の処理
手順である。

【０１０９】以上が、本発明の第一の実施形態である。

【０１１０】なお、本実施例では、検索条件解析プログ
ラム１３０により種文書から単語が抽出されるものとし
たが、単語の代わりにn-gramが抽出されるものとしても
よい。この場合、検索用単語抽出プログラム１３１によ
り処理される単位もn-gramとなる。

【０１１１】また、検索用単語抽出プログラム１３１の
ステップ１５０４では、ステップ１５０３で算出された
種文書の要素別類似度が所定の閾値を超えるか否かを判
定するものとしたが、要素別類似度ではなく類似度の総
和が所定の閾値を超えているかを判定するものとしても
よいし、さらには、種文書から抽出された全ての単語に
おける要素別類似度の総和に対する類似度の算出割合が
所定の閾値を超えているかを判定するものとしてもよ
い。

【０１１２】また、本実施例では種文書に対する各登録
文書の類似度の算出には、単語の出現回数を直接用いた
が、さらにこれを種文書や登録文書の文書の長さ等によ
り正規化してもよいことは明らかであろう。

【０１１３】以上説明したように、本発明の第一の実施
形態によれば、種文書に対する要素別類似度の値を目安
にして類似度算出に使用する検索用単語数を削減してい
るため、種文書に対する類似度算出結果が収束する必要
最低限の検索で処理を終了させることができる。

【０１１４】この結果として、検索精度を極端に低下さ
せることなく検索用単語数を削減することができ、高速
な類似文書検索を実現することができるようになる。

【０１１５】なお、本実施例では、登録対象文書や種文
書を文書としたが、文章あるいは文字列であっても構わ
ないことは明らかであろう。

【０１１６】また、以上説明した本発明の第一の実施例
における検索用単語抽出プログラム１３１では、種文書
の要素別類似度の値を目安にして検索用単語を削減する
ものとしたが、予め指定された数の検索用単語を抽出す
るものとしてもよい。この場合の検索用単語数の設定方
法としては、予め用意したテストパターンを用いて所定
の時間以内に検索が終了するように検索用単語数を決定
するものとしてもよい。

【０１１７】次に本発明の第二の実施例について図１７
を用いて説明する。

【０１１８】本発明を適用した類似文書検索システムの
第二の実施例は、種文書から抽出された単語の重要度を
算出する際に、文書データベースに蓄積された登録文書
の統計情報を利用するものである。

【０１１９】本方法によれば、第一の実施例における単
語重要度算出プログラム１５０による単語重要度算出の
際に、種文書内の出現情報だけでなく文書データベース
全体での出現情報を利用することができ、文書データベ
ース内で頻繁に出現する単語の重要度を調整することが
可能となり、第一の実施例に比べ高精度に単語重要度を
算出できるようになる。

【０１２０】本実施例は、第一の実施例（図１）とほぼ
同様の構成を取るが、単語重要度算出プログラム１５０
の構成が異なり、図１７に示すように統計情報参照プロ
グラム１７００が加わる。

【０１２１】以下、第一の実施例と異なる単語重要度算
出プログラム１５０ａの処理手順について図１８を用い
て説明する。

【０１２２】単語重要度算出プログラム１５０ａは、ま
ずステップ１８００において、統計情報参照プログラム
１７００を起動し、全文検索用情報ファイル１８０を参
照することにより、種文書から抽出された各単語の文書
データベースにおける出現文書数を該単語の統計情報と
して取得する。

【０１２３】なお、全文検索用情報ファイル１８０から
該単語の出現文書数の取得は、図８に示した全文検索用
情報ファイル８０３として示したように全文検索用情報
ファイル１８０には各単語の文書番号および出現位置が
格納されていることを利用し、該単語の異なる文書番号
を計数することで実現することができる。

【０１２４】そして、ステップ１８０１において、種文
書から抽出された各単語の重要度を、該単語の種文書内
出現回数および文書データベースにおける統計情報を用
いて算出し、ワークエリア１７０に格納する。

【０１２５】以上が、単語重要度算出プログラム１５０
ａの処理手順である。

【０１２６】なお、本実施例における単語重要度算出式
としては、例えばＴＦ・ＩＤＦ（Text Frequency, Inve
rted Documents Frequency）法を用いるものとしてもよ
い。

【０１２７】以上が本発明の第二の実施例である。

【０１２８】以上説明したように、本発明の第二の実施
例における類似文書検索システムを用いることにより、
文書データベース内で頻繁に出現する単語（以下、頻出
単語と呼ぶ）を考慮した単語重要度を算出できるように
なる。すなわち、頻出単語の単語重要度を低く、希少な
単語の単語重要度を高く設定することで、種文書の特徴
を表す単語を優先的に選択することが可能となり、高精
度な類似文書検索を実現することができるようになる。

【０１２９】次に、本発明の第三の実施例について図１
９を用いて説明する。

【０１３０】本発明を適用した類似文書検索システムの
第三の実施例は、第二の実施例と同様に種文書から抽出
された単語の重要度を算出する際に、文書データベース
に蓄積された登録文書の統計情報を利用するものである
が、統計情報の取得に統計情報ファイル１９００を利用
する点が異なる。

【０１３１】本方法によれば、第二の実施例における単
語重要度算出の際に参照する統計情報取得を高速に行な
うことができるようになる。

【０１３２】本実施例は、第二の実施例（図１７）とほ
ぼ同様の構成を取るが、登録制御プログラム１１１の構
成が異なり、図１９に示すように統計情報ファイル作成
登録プログラム１９００が加わる。また、磁気ディスク
装置１０３には統計情報ファイル１９１０が格納され
る。前記単語重要度算出プログラム１５０ａのステップ
１８００では、種文書から抽出された各単語の文書デー
タベースにおける統計情報を取得する際に、全文検索用
情報ファイル１８０を参照する代わりに、図１９に示す
統計情報ファイル１９１０を参照するようになる。

【０１３３】以下、第二の実施例と異なる登録制御プロ
グラム１１１ａの処理手順について図２０を用いて説明
する。

【０１３４】登録制御プログラム１１１ａでは、まずス
テップ１２００において登録文書読込プログラム１２０
を起動し、登録対象として指定された文書を読み込み、
ワークエリア１７０に格納する。

【０１３５】次に、ステップ１２０１において、全文検
索用情報ファイル作成登録プログラム１２１を起動し、
ワークエリア１７０に格納されている登録文書に対応す
る全文検索用情報を作成し、全文検索用情報ファイル１
８０へ格納する。

【０１３６】次に、ステップ２０００において、統計情
報ファイル作成登録プログラム１９００を起動し、ワー
クエリア１７０に格納されている登録文書に対応する統
計情報を作成し、統計情報ファイル１９１０へ格納す
る。

【０１３７】以上が、登録制御プログラム１１１の処理
手順である。

【０１３８】図２１に統計情報ファイル作成登録プログ
ラム１９００により作成される統計情報ファイル１９１
０の例を示す。

【０１３９】本図に示した統計情報ファイル１９１０に
は、管理番号２１００、単語２１０１および出現文書数
２１０２が格納される。

【０１４０】本図に示した例では、管理番号"０"の領域
に、単語"ＬＡ"が格納され、該単語の出現文書数が"１"
であるというように格納されることを示している。

【０１４１】なお、図２１に示した例では、統計情報フ
ァイル１９００を表形式で格納されるものとしたが、単
語と出現文書数が取得できる形式であればどのような形
式であってもかまわない。例えば、トライ形式で格納さ
れるものとしてもかまわないし、全文検索用情報ファイ
ル１８０の先頭領域に格納しておくものとしてもかまわ
ない。

【０１４２】以上が、本発明の第三の実施例である。

【０１４３】以上説明したように本発明の第三の実施例
によれば、種文書から抽出された各単語の統計情報を取
得に、文書登録処理時に予め作成された統計情報ファイ
ルを参照することにより、全文検索用情報を参照して異
なる出現文書番号の個数を計数する必要がなくなり、高
速に統計情報を取得することができるようになる。これ
により、第二の実施例に比べ高速な類似文書検索を実現
できるようになる。

【０１４４】次に本発明の第四の実施例について図２２
を用いて説明する。

【０１４５】本発明を適用した類似文書検索システムの
第四の実施例は、種文書から抽出された各単語の統計情
報を近似して利用するものである。

【０１４６】本方法によれば、統計情報の精度を極端に
低下させることなく、第三の実施例における統計情報フ
ァイル１９１０に格納される統計情報の容量を削減する
ことができるようになる。

【０１４７】本実施例は、第三の実施例（図１９）とほ
ぼ同様の構成を取るが、統計情報参照プログラム１７０
０の構成が異なり、近似統計情報算出プログラム２２０
０が加わる。

【０１４８】以下、第三の実施例と異なる統計情報参照
プログラム１７００ｂの処理手順について図２３を用い
て説明する。

【０１４９】統計情報参照プログラム１７００ｂは、種
文書から抽出された全ての単語についてステップ２３０
１〜２３０４を繰り返し実行する（ステップ２３０
０）。

【０１５０】ステップ２３０１では、統計情報ファイル
１９１０を参照し、該単語に対応する統計情報が格納さ
れているかを確認する。

【０１５１】そして、該単語が統計情報ファイル１９１
０中に格納されている場合にはステップ２３０３を実行
し、格納されていない場合にはステップ２３０４を実行
する（ステップ２３０２）。

【０１５２】ステップ２３０３では、統計情報ファイル
１９１０を参照し、該単語の統計情報を取得する。

【０１５３】また、ステップ２３０４では、近似統計情
報算出プログラム２２００を起動し、該単語の近似統計
情報を算出する。

【０１５４】以上が、統計情報参照プログラム１７００
ｂの処理手順である。

【０１５５】次に、近似統計情報算出プログラム２２０
０の処理手順について図２４を用いて具体的に説明す
る。

【０１５６】本図に示した例では、まずステップ２３０
１において、統計情報を取得する対象となる単語２４０
０"ＬＡＮ"対して、統計情報ファイル１９１０を参照す
る。

【０１５７】ここでは、統計情報ファイル１９１０に
は"ＬＡＮ"が格納されていないため、ステップ２３０４
を実行する。

【０１５８】ステップ２３０４では、単語２４００"Ｌ
ＡＮ"の構成要素である"ＬＡ"と"ＡＮ"の統計情報をそ
れぞれ取得し、これらの出現文書数のうち少ない値を"
ＬＡＮ"の統計情報として設定する。

【０１５９】本図に示した例では、"ＬＡ"の統計情報２
４０１に格納された出現文書数"８０７"と、"ＡＮ"の統
計情報２４０２に格納された出現文書数"１５１２"とを
比較し、この結果として"ＬＡＮ"の統計情報２４０３と
して値の小さい"ＬＡ"の出現文書数"８０７"を格納する
（２４１０）。

【０１６０】これは、単語"ＬＡＮ"の構成要素"ＬＡ"
と"ＡＮ"の出現文書数が異なる場合、"ＬＡＮ"の出現文
書数は各構成要素よりも多くなることはありえないとい
う性質を利用するものである。すなわち、単語"ＬＡＮ"
の出現文書数としては、本来"ＬＡＮ"そのものの出現文
書数を用いるべきであるが、単語"ＬＡＮ"の構成要素で
ある"ＬＡ"あるいは"ＡＮ"のうち、出現文書数の少ない
値を近似した出現文書数として参照するものである。

【０１６１】以上が近似統計情報算出プログラム２２０
０の具体的な処理手順である。

【０１６２】以上が本発明の第四の実施例である。

【０１６３】以上説明したように、本発明の第四の実施
例における類似文書検索システムを用いることにより、
全ての単語の出現文書数を統計情報ファイルへ格納する
必要がなくなるため、第三の実施例に比べ、統計情報フ
ァイルの容量を削減することができるようになる。

【０１６４】以上説明したように、本発明の第一の実施
例から第四の実施例における類似文書検索システムで
は、種文書の類似度を算出し、これに基づいて検索用単
語数を調整しているため、検索精度を確保しながら高速
に類似文書検索を実現することができる。

【０１６５】次に、本発明の第五の実施例について図２
５を用いて説明する。

【０１６６】本発明を適用した類似文書検索システムの
第五の実施例は、所定の検索時間で検索結果を出力する
ものである。

【０１６７】本方法によれば、ユーザは所定の検索時間
で検索結果を取得できるため、検索条件で指定した種文
書が検索目的に合致しているかをストレスなく判断でき
るようになる。

【０１６８】本実施例は、第一の実施例（図１）とほぼ
同様の構成を取るが、類似度算出プログラム１３２の構
成が異なり、検索処理時間計測プログラム２５００が加
わる。

【０１６９】以下、第一の実施例と異なる類似度算出プ
ログラム１３２ｂの処理手順を図２６のＰＡＤ図を用い
て説明する。

【０１７０】類似度算出プログラム１３２ｂは、ステッ
プ２６００において、検索処理時間計測プログラム２５
００を起動し、検索処理時間の計測を開始する。

【０１７１】次に、ワークエリア１７０に格納された全
ての検索用単語に対して、検索処理時間が所定の値（以
下、検索制限時間と呼ぶ）以下ならば、ステップ１６０
２、１６０３および２６０２を繰り返し実行する（ステ
ップ２６０１）。

【０１７２】ステップ１６０２では、検索用単語出現回
数取得プログラム１６１を起動し、検索用単語に対応す
る全文検索用情報ファイル１８０を参照して、各登録文
書内での出現回数を取得し、ワークエリア１７０に格納
する。

【０１７３】次にステップ１６０３において、要素別類
似度算出プログラム１６２を起動し、ワークエリア１７
０に格納された検索用単語の種文書内出現回数および登
録文書内出現回数を用いて、所定の算出式により種文書
に対する登録文書の要素別類似度を算出し、登録文書全
体の類似度に加算する。

【０１７４】そして、ステップ２６０２において、検索
処理時間計測プログラム２５００を起動し、検索処理時
間の経過時間を測定し、検索処理時間を算出する。

【０１７５】以上が類似度算出プログラム１３２ｂの処
理手順である。

【０１７６】以上が本発明の第五の実施形態である。

【０１７７】なお、本実施例のステップ２６０１におけ
る検索制限時間は、検索実行時に検索条件として指定す
るものとしてもよいし、システム設定値として予め設定
しておくものとしてもよい。

【０１７８】また、本実施例では、検索制限時間を設定
するものとしたが、設定値によっては少数の検索用単語
しか用いられない場合も考えられるため、検索精度を保
つための最小限の検索用単語数を設定できるようにして
もよい。この場合は、検索処理時間が検索制限時間を上
回ったとしても、指定された最小限の検索用単語数まで
は類似検索を繰り返すことになる。

【０１７９】さらに、本実施例では、検索処理時間計測
プログラム２５００を用いて類似度算出処理に要する時
間を計測するものとしたが、検索処理自体を計測するも
のとしてもよい。この場合、図２６に示したステップ２
６００で検索時間の計測を開始するのではなく、検索制
御プログラム１１２により検索条件解析プログラム１３
０が起動される前に、検索処理時間計測プログラム２５
００を起動し、検索処理時間の測定を開始すればよい。

【０１８０】以上説明したように本発明の第五の実施例
における類似文書検索システムでは、検索に要する時間
に基づいて検索用単語数を調整するため、所定の処理時
間で検索結果を取得することができるようになる。

【０１８１】この結果として、ユーザは検索終了時間を
予測することができるようになる。

【０１８２】なお、第一の実施例から第四の実施例で説
明した種文書の類似度を目安に検索を終了する類似文書
検索システムと第五の実施例で説明した検索時間を目安
に検索を終了する類似文書検索システムを検索実行時あ
るいはシステム定義で切り替えて使用することも可能で
ある。

【０１８３】次に、本発明の第六の実施例について図２
７を用いて説明する。

【０１８４】本発明を適用した類似文書検索システムの
第六の実施例は、種文書から抽出された単語から検索に
使用される検索用単語から、検索時間を推定し、長大な
時間を要する場合にはユーザに確認を求めるものであ
る。

【０１８５】本方法によれば、第一の実施例から第四の
実施例で説明した類似文書検索システムにおける検索用
単語抽出条件では検索に長大な時間を要する場合、事前
に検索を取りやめることができるため、ユーザは不用意
に待たされることがなくなる。

【０１８６】本実施例は、第一の実施例（図１）とほぼ
同様の構成を取るが、検索用単語抽出プログラム１３１
の構成が異なり、図２７に示すように検索時間推定確認
プログラム２７００が加わる。

【０１８７】以下、第一の実施例と異なる検索用単語抽
出プログラム１３１ｂの処理手順を図２８のＰＡＤ図を
用いて説明する。

【０１８８】検索用単語抽出プログラム１３１では、ま
ずステップ１５００において、単語重要度算出プログラ
ム１５１を起動し、所定の算出式に基づきワークエリア
１７０に格納された単語の重要度を算出し、ワークエリ
ア１７０に格納する。

【０１８９】次に、前記ステップ１５００でワークエリ
ア１７０に格納された全ての単語に対して、ステップ１
５０２〜１５０５を繰り返し実行する（ステップ１５０
１）。

【０１９０】まず、ステップ１５０２において、ワーク
エリア１７０に格納されている単語を重要度の降順に取
得する。

【０１９１】次に、ステップ１５０３において、検索用
単語抽出判定プログラム１５１を起動し、種文書の要素
別類似度を算出する。

【０１９２】そして、ステップ１５０４において、種文
書の要素別類似度が、所定の閾値を超えているかを判定
し、超えている場合にはステップ１５０５を、越えてい
ない場合には繰り返し処理を終了する。

【０１９３】そして、ステップ１５０５において、該単
語を検索用単語としてワークエリア１７０に格納する。

【０１９４】次に、ステップ２８００において、ワーク
エリア１７０に格納された検索用単語から検索時間を推
定し、推定された検索時間（以下、推定検索時間と呼
ぶ）が所定の値（指定検索時間）を超える場合には、検
索の継続を確認するメッセージを表示し、ユーザの確認
を受ける。この確認メッセージとしては、例えば図６に
示したように、継続ボタン２９０１およびキャンセルボ
タン２９０１を有するメッセージ２９００を表示するも
のであってもよい。

【０１９５】以上が検索用単語抽出プログラム１３１ｂ
の処理手順である。

【０１９６】なお、上記ステップ２８００における指定
検索時間としては、検索条件として指定するものとして
もよいし、システム定義として予め指定されるものとし
てもよいし、あるいはいくつかのテストパターンの結果
から自動的に設定されるものとしてもよい。

【０１９７】また、上記ステップ２８００における検索
時間の推定方法としては、該検索用単語の出現文書数か
ら推定するものとしてもよいし、該検索用単語に対応す
る全文検索用情報ファイル１８０のサイズから推定する
ものとしてもよい。あるいは、いくつかのテストパター
ンを用いてひとつの検索用単語に要する平均時間を計測
しておき、該平均時間を用いて検索時間を推定するもの
としてもよい。

【０１９８】以上説明したように、本実施例に示した類
似文書検索システムでは、抽出された検索用単語から検
索時間を推定し、推定検索時間が予め指定された時間を
超える場合には検索用単語の抽出条件を調整することが
可能となるため、ユーザは不用意に待たされることがな
くなる。

【０１９９】

【発明の効果】以上説明したように、本発明では、種文
書の類似度を目安に検索用単語数を設定しているため、
類似度算出に使用する検索用単語数を削減することがで
きる。これにより、検索精度を確保することのできる高
速な類似文書検索を実現することができる。

【図面の簡単な説明】

【図１】本発明の第一の実施例における類似文書検索シ
ステムの全体構成を示す図である。

【図２】従来技術１の処理手順を説明するＰＡＤ図であ
る。

【図３】従来技術１の概要を説明する図である。

【図４】従来技術１の類似度算出方式の考え方を説明す
る図である。

【図５】従来技術１の類似度算出方式の考え方を説明す
る図である。

【図６】本発明の第六の実施例における検索時間推定確
認プログラム２７００による確認メッセージの例であ
る。

【図７】本発明の処理手順を説明するＰＡＤ図である。

【図８】本発明の登録処理の概要を説明する図である。

【図９】本発明の検索処理の概要を説明する図である。

【図１０】本発明の検索用単語抽出処理の概要を説明す
る図である。

【図１１】本発明の第一の実施例におけるシステム制御
プログラム１１０の処理手順を説明する図である。

【図１２】本発明の第一の実施例における登録制御プロ
グラム１１１の処理手順を説明する図である。

【図１３】本発明の第一の実施例における検索制御プロ
グラム１１２の処理手順を説明するＰＡＤ図である。

【図１４】本発明の第一の実施例における検索条件解析
プログラム１３０の処理手順を説明するＰＡＤ図であ
る。

【図１５】本発明の第一の実施例における検索用単語抽
出プログラム１３１の処理手順を説明するＰＡＤ図であ
る。

【図１６】本発明の第一の実施例における類似度算出プ
ログラム１３２の処理手順を説明するＰＡＤ図である。

【図１７】本発明の第二の実施例における単語重要度算
出プログラム１５０ａの構成を示す図である。

【図１８】本発明の第三の実施例における単語重要度算
出プログラム１５０ａの処理手順を説明するＰＡＤ図で
ある。

【図１９】本発明の第三の実施例における登録制御プロ
グラム１１１ａの構成図である。

【図２０】本発明の第三の実施例における登録制御プロ
グラム１１１ａの処理手順を示すＰＡＤ図である。

【図２１】本発明の第三の実施例における統計情報ファ
イル１９１０の例である。

【図２２】本発明の第四の実施例における統計情報参照
プログラム１７００ｂの構成を示す図である。

【図２３】本発明の第四の実施例における統計情報参照
プログラム１７００ｂの処理手順を説明するＰＡＤ図で
ある。

【図２４】本発明の第四の実施例における近似統計情報
の算出方法を説明する図である。

【図２５】本発明の第五の実施例における類似度算出プ
ログラム１３２ｂの構成を示す図である。

【図２６】本発明の第五の実施例における類似度算出プ
ログラム１３２ｂの処理手順を説明するＰＡＤ図であ
る。

【図２７】本発明の第六の実施例における検索用単語抽
出プログラム１３１ｂの構成を示す図である。

【図２８】本発明の第六の実施例における検索用単語抽
出プログラム１３１ｂの処理手順を説明するＰＡＤ図で
ある。

【符号の説明】

１００…ディスプレイ、１０１…キーボード、１０２…
中央演算処理装置（ＣＰＵ）、１０３…磁気ディスク装
置、１０４…フロッピディスクドライブ（ＦＤＤ）、１
０５…主メモリ、１０６…バス、１０７…フロッピディ
スク、１１０…システム制御プログラム、１１１…登録
制御プログラム、１１２…検索制御プログラム、１２０
…登録文書読込プログラム、１２１…全文検索用情報フ
ァイル作成登録プログラム、１３０…検索条件解析プロ
グラム、１３１…検索用単語抽出プログラム、１３２…
類似度算出プログラム、１３３…検索結果出力プログラ
ム、１４０…種文書取得プログラム、１４２…単語抽出
プログラム、１４３…種文書内出現回数計数プログラ
ム、１５０…単語重要度算出プログラム、１５１…検索
用単語抽出判定プログラム、１６１…検索用単語出現回
数取得プログラム、１６２…要素別類似度算出プログラ
ム、１７０…ワークエリア、１８０…全文検索用情報フ
ァイル。

───────────────────────────────────────────────────── フロントページの続き (72)発明者多田勝己神奈川県川崎市幸区鹿島田890番地株式会社日立製作所ビジネスソリューション開発本部内 (72)発明者菅谷奈津子神奈川県川崎市幸区鹿島田890番地株式会社日立製作所ビジネスソリューション開発本部内Ｆターム(参考） 5B075 ND03 NK32 PP02 PQ02 PQ74 PR04 PR06 PR08 QM08

Claims

【特許請求の範囲】

【請求項１】文書データベースに登録された文書あるい
は文章や文字列（以下、まとめて文書と呼ぶ）から指定
された文書（以下、種文書と呼ぶ）に内容が類似する文
書を検索する類似文書検索方法において、文書データベ
ースへの文書の登録処理として、登録対象とする文書の
全文検索用インデクスを作成する全文検索用インデクス
作成ステップと、類似文書の検索処理として、指定され
た種文書に含まれる文字列毎の出現回数を要素としたベ
クトルデータ（以下、種文書特徴ベクトルと呼ぶ）を作
成する種文書特徴ベクトル作成ステップと、前記種文書
特徴ベクトルの要素である文字列に対して、該種文書の
中心的な内容を表す文字列をその程度（以下、文字列重
要度と呼ぶ）にしたがって抽出し、該文字列重要度の降
順に所定の抽出基準により類似度算出に使用する文字列
（以下、検索用文字列と呼ぶ）を抽出する検索用文字列
抽出ステップと、前記検索用文字列抽出ステップで抽出
された検索用文字列に関して、該検索用文字列の種文書
内での出現情報と、文書データベースに登録された文書
（以下、登録文書と呼ぶ）内での出現情報を用いて、種
文書に対する各登録文書の類似度を算出する類似度算出
ステップと、前記類似度算出ステップで算出された各登
録文書の種文書に対する類似度を出力する検索結果出力
ステップを有することを特徴とした類似文書検索方法。
【請求項２】請求項１記載の類似文書検索方法における
前記類似度算出ステップとして、前記検索用文字列抽出
ステップで抽出された検索用文字列に関して、該検索用
文字列の種文書内での出現回数と、登録文書内での出現
回数を用いて、種文書に対する各登録文書の類似度を算
出する類似度算出ステップを有することを特徴とした類
似文書検索方法。
【請求項３】請求項１記載の類似文書検索方法における
前記検索用文字列抽出ステップとして、前記種文書特徴
ベクトル作成ステップで作成された種文書特徴ベクトル
の要素である文字列について、該種文書内の出現回数を
該文字列の文字列重要度とする文字列重要度算出ステッ
プと、前記文字列重要度算出ステップで算出された文字
列重要度の降順に、予め指定された個数の検索用文字列
を抽出する検索用文字列判定ステップを有することを特
徴とした類似文書検索方法。
【請求項４】請求項３記載の類似文書検索方法における
前記検索用文字列判定ステップとして、予め指定された
個数の検索用文字列を抽出する代わりに、前記文字列重
要度算出ステップで算出された文字列重要度の降順に類
似度算出に用いる文字列を抽出し、該文字列により種文
書に対する類似度を算出し、該類似度が所定の値を超え
ている場合には、該文字列を検索用文字列として抽出す
る検索用文字列判定ステップを用いることを特徴とした
類似文書検索方法。
【請求項５】請求項１記載の類似文書検索方法におい
て、検索処理として、検索に要する時間を計測する検索
処理時間測定ステップを加えるとともに、前記類似度算
出ステップにおいて、上記検索処理時間測定ステップで
測定された検索処理時間が所定の値を超えた場合に類似
度算出処理を終了することを特徴とした類似文書検索方
法。