JPH1166086A

JPH1166086A - 類似文書検索装置および類似文書検索方法

Info

Publication number: JPH1166086A
Application number: JP9222301A
Authority: JP
Inventors: Isao Nanba; 功難波
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-08-19
Filing date: 1997-08-19
Publication date: 1999-03-09
Anticipated expiration: 2017-08-19
Also published as: JP3715413B2

Abstract

(57)【要約】【課題】類似文書の検索を高速化し、かつ、その検索
結果に要する記憶容量を小さく押さえられるようにする
ことを課題とする。【解決手段】キーワード分割部２では、質問入力部１
により入力された検索質問からキーワードが分割され、
キーワード別類似度算出部３では、キーワード別に、転
置インデックスの参照により文書毎の類似度が算出さ
れ、キーワード高類似文書判定部４では、その算出され
た文書毎の類似度からあらかじめ用意されたしきい値以
上の類似度をもつ文書が判定され、全類似度累計および
ソート部６では、その判定されたすべての文書に基づい
て文書毎の類似度が集計され、回答出力部７では、その
集計された文書毎の類似度が回答される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ユーザの検索質
問に従って類似文書を検索する類似文書検索装置および
類似文書検索方法に関する。

【０００２】

【従来の技術】類似文書検索では、一般に、Ｃｏｓｉｎ
ｅＭｅａｓｕｒｅもしくは確率モデルが使用されてい
る。例えば、ＣｏｓｉｎｅＭｅａｓｕｒｅでは、検索
要求をｑ、文書をｄ、全文書集合をＴ、文書の大きさを
Ｗｔ、文書中に含まれる単語をｗｉ，ｔとすると、検索
式の文書に対する類似度は次式（１）によって与えられ
る。

【０００３】

【数１】

【０００４】この式を忠実に実行すると、一般の転置フ
ァイル（ｉｎｖｅｒｔｅｄｆｉｌｅ）を使用した類似
検索では、最悪な場合、検索要求の単語がもつ文書数の
合計分だけワーク領域が用意され、そのワーク領域中に
文書番号に対する類似度が格納される。そして、最後に
類似度の大小関係で文書番号の順番についてソートが行
われ、その結果がユーザに提示される。ところが、この
文書毎の類似度の計算やソートにかなりの時間が必要と
なる。

【０００５】そこで、具体例を挙げる。図１７は従来の
類似文書検索装置による類似文書検索の原理を説明する
図である。従来、ユーザが検索質問として検索式である
文書を入力すると（図１７の）、その文書から文書中
に含まれるキーワードへの分割が行われる（図１７の
）。ここでは、キーワードＡ，Ｂ，Ｃの３つに分割さ
れた例を挙げる。

【０００６】例えば、文書が１０万件登録されていた場
合には、その１０万件の文書（文書番号Ｄ１〜Ｄ１００
０００）からなる転置インデックス（例えば文書番号と
頻度との対応関係）より、キーワードＡ，Ｂ，Ｃがどの
文書にどれだけの頻度で出現しているのかわかる（図１
７の）。キーワードＡ，Ｂ，Ｃについては、例えば、
文書番号Ｄ１の文書中で頻度がそれぞれ“２”，
“０”，“５”となり、文書番号Ｄ１０００００の文書
中で頻度がそれぞれ“０”，“８”，“２”となる。

【０００７】そして、頻度に対して重みなどを付加する
ことでキーワード別に各文書の類似度が算出され、その
後、キーワードＡ，Ｂ，Ｃ間の類似度が例えば論理和で
加算される（図１７の）。これにより、文書別の類似
度が総合得点として得られる。この段階では、得点に関
係なく文書が並んでいることから、さらに文書が得点順
に並ぶように、文書番号にソートがかけられる。その結
果、転置インデックスに登録されている文書番号は、例
えば、Ｄ１０，Ｄ９９９９８…のように得点順に並べら
れる（図１７の）。

【０００８】

【発明が解決しようとする課題】ところが、従来例によ
る類似文書検索装置では、キーワード別に求めたすべて
の文書から文書毎に類似度を集計し、その集計結果をさ
らに類似順にソートするようにしたので、検索対象とな
る文書数が多くなればなるほど、類似度の集計計算およ
びソートに時間を要することはもちろん、ソート量に応
じて膨大な記憶容量を要するという問題があった。

【０００９】この発明は、上述した従来例による問題を
解消するため、類似文書の検索を高速化し、かつ、その
検索結果に要する記憶容量を小さく押さえることが可能
な類似文書検索装置および類似文書検索方法を得ること
を目的とする。

【００１０】

【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項１の発明に係る類似文書検
索装置は、複数のキーワードを含んだ検索質問を入力す
る質問入力手段と、前記質問入力手段により入力された
検索質問のキーワード別に、あらかじめ用意された複数
の文書に基づいて文書毎の類似度を算出する類似度算出
手段と、前記キーワード別に、前記類似度算出手段によ
り算出された文書毎の類似度からあらかじめ用意された
しきい値以上の類似度をもつ文書を判定する判定手段
と、前記キーワード別に前記判定手段により判定された
すべての文書に基づいて文書毎の類似度を集計する集計
手段と、前記集計手段の集計結果を回答する回答手段
と、を備えたことを特徴とする。

【００１１】この請求項１の発明によれば、入力された
検索質問のキーワード別に、あらかじめ用意された複数
の文書に基づいて文書毎の類似度を算出して、その算出
された文書毎の類似度からあらかじめ用意されたしきい
値以上の類似度をもつ文書を判定し、その判定されたす
べての文書に基づいて文書毎の類似度を集計して回答す
るようにしたので、全文書が集計対象とはならず、検索
質問中のキーワード毎に集計対象を絞り込んだ状態で検
索結果を得ることができ、これによって、類似文書の検
索を高速化し、かつ、その検索結果に要する記憶容量を
小さく押さえることが可能が可能である。

【００１２】また、請求項２の発明に係る類似文書検索
装置は、請求項１の発明において、前記あらかじめ用意
された複数の文書から任意の文書数だけをサンプリング
するサンプリング手段と、前記サンプリング手段により
サンプリングされた文書に基づいて前記複数の文書に出
現するキーワード別に前記あらかじめ用意されたしきい
値を算出する算出手段と、前記算出手段により算出され
たしきい値を該当するキーワードに対応付けて登録する
しきい値登録手段とをさらに有したことを特徴とする。

【００１３】この請求項２の発明によれば、任意の文書
数だけをサンプリングした文書で事前にキーワード別の
しきい値を求めておくようにしたので、しきい値として
も精度を無視すれば、各キーワードについて全文書を対
象にしてしきい値を求めるような処理負担が軽減され
る。

【００１４】また、請求項３の発明に係る類似文書検索
装置は、あらかじめ用意された複数の文書から任意の文
書数だけをサンプリングするサンプリング手段と、前記
サンプリング手段によりサンプリングされた文書に基づ
いて前記複数の文書に出現するキーワード別に文書を絞
り込むための類似度で示すしきい値を算出する算出手段
と、キーワード別に前記算出手段により算出されたしき
い値以上の類似度をもつ文書を前記複数の文書から抽出
する第１抽出手段と、キーワード別に前記第１抽出手段
により抽出された文書について当該文書と類似度との関
係をインデックスとして登録するインデックス登録手段
と、複数のキーワードを含んだ検索質問を入力する質問
入力手段と、前記質問入力手段により入力された検索質
問のキーワード別に、前記インデックス登録手段に登録
されたインデックスを抽出する第２抽出手段と、前記第
２抽出手段により抽出されたすべてのインデックスに基
づいて文書毎の類似度を集計する集計手段と、前記集計
手段の集計結果を回答する回答手段と、を備えたことを
特徴とする。

【００１５】この請求項３の発明によれば、任意の文書
数だけをサンプリングした文書で事前にキーワード別の
しきい値を求め、そのしきい値以上の類似度をもつ文書
とその類似度との関係をインデックスとしてあらかじめ
用意しておき、入力された検索質問のキーワード別に、
インデックス中の文書だけで文書毎の類似度を集計して
回答するようにしたので、請求項１の発明と比べて、検
索時に、検索質問中のキーワード別に文書の絞り込みが
不要となり、インデックスから直接類似度の集計を行う
ことができ、これによって、膨大な文書数のデータベー
スを検索する場合であっても、類似検索を一層高速化す
ることが可能である。

【００１６】また、請求項４の発明に係る類似文書検索
装置は、請求項１〜３のいずれか一つの発明において、
前記集計手段は、集計のため、前記キーワード別に前記
判定手段により判定されたすべての文書に基づいて文書
毎の類似度を累計し、その累計された類似度をもつ文書
の順番を類似度の大きい方から並ぶようにソートするこ
とを特徴とする。

【００１７】この請求項４の発明によれば、集計の際
に、類似度をもつ文書の順番を類似度の大きい方から並
ぶようにソートするようにしたので、類似度の大小関係
を整理した状態で回答することが可能である。

【００１８】また、請求項５の発明に係る類似文書検索
装置は、請求項１〜４のいずれか一つの発明において、
前記類似文書検索装置はネットワークに接続され、前記
質問入力手段は前記ネットワークを介して前記検索質問
を入力し、前記回答手段は集計結果を前記ネットワーク
を介して回答することを特徴とする。

【００１９】この請求項５の発明によれば、ネットワー
クを介して検索質問の入力およびその回答を行うように
したので、スタンドアロンスタイルに限定されず、ネッ
トワークコンピュータとしての利用を図ることが可能で
ある。

【００２０】また、請求項６の発明に係る類似文書検索
装置は、請求項１又は２の発明において、前記判定手段
は任意の文書数分だけを判定結果として得ることを特徴
とする。

【００２１】この請求項６の発明によれば、各キーワー
ドについて任意の文書数だけを判定結果として得るよう
にしたので、検索の高速化、ならびに、検索結果に要す
る記憶容量の抑制のため、各キーワードについて、しき
い値以上の類似度をもつ文書が必要以上に多くなること
を事前に防止することが可能である。

【００２２】また、請求項７の発明に係る類似文書検索
方法は、複数のキーワードを含んだ検索質問を入力する
第１工程と、前記第１工程により入力された検索質問の
キーワード別に、あらかじめ用意された複数の文書に基
づいて文書毎の類似度を算出する第２工程と、前記キー
ワード別に、前記第２工程により算出された文書毎の類
似度からあらかじめ用意されたしきい値以上の類似度を
もつ文書を判定する第３工程と、前記キーワード別に前
記第３工程により判定されたすべての文書に基づいて文
書毎の類似度を集計する第４工程と、前記第４工程の集
計結果を回答する第５工程と、を含んだことを特徴とす
る。

【００２３】この請求項７の発明によれば、入力された
検索質問のキーワード別に、あらかじめ用意された複数
の文書に基づいて文書毎の類似度を算出して、その算出
された文書毎の類似度からあらかじめ用意されたしきい
値以上の類似度をもつ文書を判定し、その判定されたす
べての文書に基づいて文書毎の類似度を集計して回答す
る工程にしたので、全文書が集計対象とはならず、検索
質問中のキーワード毎に集計対象を絞り込んだ状態で検
索結果を得ることができ、これによって、類似文書の検
索を高速化し、かつ、その検索結果に要する記憶容量を
小さく押さえることが可能が可能である。

【００２４】また、請求項８の発明に係る類似文書検索
方法は、あらかじめ用意された複数の文書から任意の文
書数だけをサンプリングする第１工程と、前記第１工程
によりサンプリングされた文書に基づいて前記複数の文
書に出現するキーワード別に文書を絞り込むための類似
度で示すしきい値を算出する第２工程と、キーワード別
に前記第２工程により算出されたしきい値以上の類似度
をもつ文書を前記複数の文書から抽出する第３工程と、
キーワード別に前記第３工程により抽出された文書につ
いて当該文書と類似度との関係をインデックスとしてあ
らかじめ用意されたメモリに登録する第４工程と、複数
のキーワードを含んだ検索質問を入力する第５工程と、
前記第５工程により入力された検索質問のキーワード別
に、前記第４工程により前記あらかじめ用意されたメモ
リに登録されたインデックスを抽出する第６工程と、前
記第６工程により抽出されたすべてのインデックスに基
づいて文書毎の類似度を集計する第７工程と、前記第７
工程の集計結果を回答する第８工程と、を含んだことを
特徴とする。

【００２５】この請求項８の発明によれば、任意の文書
数だけサンプリングした文書で事前にキーワード別のし
きい値を求め、そのしきい値以上の類似度をもつ文書と
その類似度との関係をインデックスとしてあらかじめ用
意しておき、入力された検索質問のキーワード別に、イ
ンデックス中の文書だけで文書毎の類似度を集計して回
答する工程にしたので、請求項７の発明と比べて、検索
時に、検索質問中のキーワード別に文書の絞り込みが不
要となり、インデックスから直接類似度の集計を行うこ
とができ、これによって、膨大な文書数のデータベース
を検索する場合であっても、類似検索を一層高速化する
ことが可能である。

【００２６】

【発明の実施の形態】以下に添付図面を参照して、この
発明に係る類似文書検索装置および類似文書検索方法の
好適な実施の形態を詳細に説明する。

【００２７】（実施の形態１）まず、原理について説明
する。図１はこの発明の実施の形態１による類似文書検
索装置を機能的に示したブロック図である。図１に示し
た類似文書検索装置は、質問入力部１、キーワード分割
部２、キーワード類似度算出部３、キーワード別高類似
文書判定部４、しきい値設定部５、類似度集計部である
全類似度累計およびソート部６、および回答出力部７に
より構成される。

【００２８】質問入力部１は、図示せぬユーザインタフ
ェースにより検索質問を入力する。キーワード分割部２
は、入力された検索質問をキーワード列に分割してキー
ワードを得る。キーワード類似度算出部３は、あらかじ
め用意された転置インデックスを参照して分割されたキ
ーワード別に文書毎の類似度を算出する。なお、検索対
象としてあらかじめＴ（Ｔは自然数）個の文書が用意さ
れる。転置インデックスは、Ｔ個の文書中に出現するキ
ーワード別に各文書での出現頻度を対応付けたものであ
る。

【００２９】キーワード別高類似文書判定部４は、分割
されたキーワード別にしきい値設定部５で設定されたし
きい値以上の類似度をもつ文書を判定する。しきい値設
定部５は、キーワード別高類似文書判定部４に任意に設
定したしきい値を供給する。全類似度累計およびソート
部６は、各文書について文書番号および類似度から、し
きい値以上の類似度をもつ文書を累計するとともに、類
似度の高い順に文書番号の並びをソートする。回答出力
部７は、ソートされた文書番号を図示せぬユーザインタ
フェースなどを通じて表示出力，印刷出力，伝送出力な
どする。

【００３０】続いて、上記機能ブロックを用いて検索原
理について説明する。図２はこの実施の形態１による類
似文書検索の原理を説明する図である。まず、質問入力
部１では、ユーザにより検索質問（検索式としての文
書）が入力される（図２の）。続くキーワード分割部
２では、その文書からキーワードへの分割が行われる
（図２の）。ここでも、図１７の説明に合わせて、同
様の検索質問からキーワードＡ，Ｂ，Ｃの３つに分割さ
れる。

【００３１】そして、キーワード別類似度算出部３で
は、図１７に示した転置インデックスにより各キーワー
ドＡ，Ｂ，Ｃの文書中における頻度が参照され（図２の
）、各頻度に対して重みなどが付加され、キーワード
別に各文書の類似度が算出される。キーワード別高類似
文書判定部４は、キーワード別類似度算出部３で算出さ
れた類似度をしきい値設定部５から供給されるしきい値
と比較して、そのしきい値以上の類似度をもつ文書すな
わち文書番号を検索回答対象として判定する（図２の
）。この段階に入ると、各キーワードＡ，Ｂ，Ｃにつ
いて、もともと回答対象として１０万件あった文書を例
えば１万件まで絞り込むことができる。ここでは、全キ
ーワードＡ，Ｂ，Ｃがいずれも共通して１万件まで絞り
込めたものとする。

【００３２】そして、つぎの全類似度累計およびソート
部６では、キーワードＡ，Ｂ，Ｃ間で類似度（図２の
）が加算される（図２の）。このため、従来、３０
万件（文書数“１０万”×キーワード数“３”）で論理
演算が行われていたが、今回は絞り込みにより３万件
（文書数“１万”×キーワード数“３”）に絞り込まれ
ｔｑあ状態で論理演算が行われる。このため、論理演算
は高速化される。これにより、絞り込まれた文書別の類
似度が総合得点として得られる。この段階では、類似度
の得点に関係なく文書が並んでいることから、さらに文
書が得点順に並ぶように、文書番号にソートがかけられ
る。このソートでも、ソート数が従来と比べて１／１０
に絞り込まれていることから、処理の高速化が図られ
る。

【００３３】その結果、文書番号は、例えば、Ｄ１０，
Ｄ９９９９８…のように得点順に並べられる（図２の
）。この検索結果について、データ数（文書番号）が
最小で１万件、最大でも３万件となるので、従来に比べ
て格段にデータの記憶容量が削減される。このようにし
て得られた文書番号は、回答出力部７により表示された
り、印刷されたり、通信により外部に送出される。

【００３４】つぎに、上述した原理をハードウェア的に
実現した場合について説明する。図３はこの発明の実施
の形態１による類似文書検索装置をハードウェア的に示
したブロック図である。図３に示した類似文書検索装置
は、ＣＰＵ１０１，ＲＯＭ１０２，ＲＡＭ１０３，キー
ボード１０４，マウス１０５，ハードディスクドライブ
（ＨＤＤ）１０６，フロッピーディスクドライブ（ＦＤ
Ｄ）１０７，ディスプレイ１０８，通信ユニット１０
９，各部を接続してアドレス，データ，制御信号などを
伝送するバス１１０などにより構成される。

【００３５】ＣＰＵ１０１は、ＲＯＭ１０２に格納され
たプログラム，ＨＤＤ１０６のアプリケーション１０６
ａ，通信ユニット１０９を介して受信されるアプリケー
ションなどの各種プログラムに従って装置全体を制御す
る。このＣＰＵ１０１は、後述する図４および図５の各
フローチャートに従うアプリケーションプログラムに従
って、前述した質問入力部１，キーワード分割部２，キ
ーワード別類似度算出部３，キーワード別高類似文書判
定部４，全類似度累計およびソート部６および回答出力
部７による機能を実現する。ＲＯＭ１０２は、ＣＰＵ１
０１を各種プログラムに従って動作させるためのプログ
ラムを格納している。

【００３６】ＲＡＭ１０３は、ワークエリアの他に、検
索処理時にしきい値を格納するために使用するしきい値
レジスタ１０３ａ，検索質問が分割されたキーワードを
格納するためにキーワードレジスタ１０３ｂをそれぞれ
格納するバッファ１２ａ，１２ｂ，１２ｃなどを設けて
いる。

【００３７】キーボード１０４はユーザがしきい値を設
定したり、検索質問を入力する場合などで操作するキー
を備えている。マウス１０５は、ディスプレイ１０８上
の位置入力を行うポインティングデバイスである。この
マウス１０５については、しきい値の設定や検索質問の
入力時にキーボード１０４と合わせて操作する仕様にし
てもよい。ＨＤＤ１０６は、ハードディスクを内蔵し、
ＣＰＵ１０１の制御に従ってデータのリード／ライトを
行う大容量記憶装置である。

【００３８】このＨＤＤ１０６は、図示せぬＯＳ（オペ
レーティングシステム）の他に、図４および図５のフロ
ーチャートに従う動作を実現するためのアプリケーショ
ン１０６ａ，文書ファイル１０６ｂ，転置インデックス
１０６ｃ，ソートファイル１０６ｄなどをハードディス
クに記憶する。ＦＤＤ１０７は、ＣＰＵ１０１の制御に
従って着脱自在のフロッピーディスクに対してデータの
リード／ライトを行う。ディスプレイ１０８はＣＰＵ１
０１の制御に従って各種プログラムの実行で必要な表示
画面を形成する。通信ユニット１０９は、回線やケーブ
ルを介して外部装置と通信を行うためのユニットであ
る。

【００３９】つぎに、上記ハードウェア構成による動作
について説明する。図４および図５はこの実施の形態１
による動作を説明するフローチャート、図６はこの実施
の形態１において類似度を使用したインデックスの一例
を示す図、図７はこの実施の形態１によるキーワードと
しきい値との関係例を示す図、図８はこの実施の形態１
によるキーワードとしきい値以上の類似度をもつ文書と
の関係例を示す図、図９は図８の関係例をキーワード別
に文書番号順にソートした場合の一例を示す図、そし
て、図１０はこの実施の形態１による検索結果例を示す
図である。なお、転置インデックス１０６ｃに登録され
ている各キーワードには、あらかじめ類似度のしきい値
が設定されているものとする。各キーワードとしきい値
との関係はＲＡＭ１０３もしくはハードディスクにあら
かじめ格納されているものとする。

【００４０】まず、ディスプレイ１０８に検索質問の入
力画面（図示省略）が形成されると、その入力画面に対
してユーザはキーボード１０４やマウス１０５の操作に
より検索質問（文書）を入力する。その入力された検索
質問はＲＡＭ１０３に格納される（ステップＳ１）。こ
こで、入力された検索質問は複数のキーワード列より構
成されるものとする。その一例として、“日本の金メダ
ル”を検索質問とする。

【００４１】このようにして検索質問が入力されると、
その検索質問はその文書を構成する個々のキーワードに
分割される（ステップＳ２）。すなわち、検索質問“日
本の金メダル”は２つのキーワード“日本”，“金メダ
ル”に分割される。各キーワード“日本”，“金メダ
ル”には、例えば分割順に番号が１，２の昇順で付加さ
れる。このため、キーワード“日本”，“金メダル”は
それぞれ番号“１”、 “２”を対応付けてキーワードレ
ジスタ１０３ｂに格納される（ステップＳ３）。

【００４２】つぎに、昇順でまず１番目のキーワード
“日本”がキーワードレジスタ１０３ｂから読み出され
る（ステップＳ４）。このように、キーワードが読み出
せた場合にはキーワードの存在が確認され（ステップＳ
５）、処理はステップＳ９（図５参照）に移行する。と
ころが、キーワードをすべて読み出した場合には、キー
ワードの存在が確認されず、この場合には各キーワード
について文書の絞り込みが完了したことから（ステップ
Ｓ５）、続く全類似度の累計およびソート処理のため、
処理はステップＳ６に移行する。

【００４３】さて、処理がステップＳ９に移行した場合
には、まず、転置インデックス１０６ｃが参照され、そ
のキーワード“日本”が出現する文書に関して、［文書
番号，頻度］の組が取得される。この［文書番号，頻
度］の組に基づいて重み付けなどの処理を通じて［文書
番号，類似度］の組が求められる。このキーワード“日
本”に関する［文書番号，類似度］の組のインデックス
は、例えば図６に示したように、［１，１．３］，
［２，２．５］，［１０，１０．３］，［１４，３．
１］…のようになる。このインデックスはＲＡＭ１０３
に一時格納される。

【００４４】そして、キーワード“日本”のしきい値が
ＲＡＭ１０３もしくはハードディスクから読み出され、
そのしきい値が例えば５．３であれば、しきい値“５．
３”はキーワード“日本”に対応させてしきい値レジス
タ１０３ａに格納される（ステップＳ１０）。続くステ
ップＳ１１では、図６のインデックスが参照され、しき
い値レジスタ１０３ａに格納されたしきい値“５．３”
以上の類似度をもつ文書の存在が判定される。その際、
ＲＡＭ１０３には、ワーク領域として一定個数分（例え
ば１万個：全文書数の１／１０）の要素をとるヒープが
設けられ、そのヒープにしきい値以上の類似度をもつ文
書の文書番号がプッシュされる。

【００４５】このヒープへのプッシュでは、収容できる
個数が決められていることから、類似度の小さい組から
順にヒープからはじき出される。最終的には、類似度の
高い組から降順で１万個分の［類似度，文書番号］の組
が残る。ヒープにおいては、図８に示したように、類似
度の小さい組から［６．１，２４］，［６．１，２
０］，［６．１，１９］，［６．５，１００］…の順で
１万個分の［類似度，文書番号］の組が配列される。こ
のようにしてヒープに残った［類似度，文書番号］の組
は、今度はヒープ上で文書番号の昇順にソートされる
（ステップＳ１２）。そして、処理はステップＳ４に戻
る。

【００４６】処理がステップＳ４に戻ると、つぎ（２番
目）のキーワード“金メダル”がキーワードレジスタ１
０３ｂから読み出され、この場合にもキーワードが存在
していることから、処理はステップＳ９に移行する。処
理がステップＳ９に移行した場合には、まず、転置イン
デックス１０６ｃが参照され、そのキーワード“金メダ
ル”が出現する文書に関して、［文書番号，頻度］の組
が取得される。この［文書番号，頻度］の情報に基づい
て重み付けなどの処理を通じて［文書番号，類似度］が
求められる。

【００４７】このキーワード“金メダル”に関する［文
書番号，類似度］のインデックスは、例えば図６に示し
たように、［５，２．４］，［１０，３．５］，［１
５，１．４］，［３１，２．８］…のようになる。この
インデックスはＲＡＭ１０３に一時格納される。

【００４８】そして、キーワード“金メダル”のしきい
値がＲＡＭ１０３から読み出され、そのしきい値が例え
ば６．３であれば、しきい値“６．３”はキーワード
“金メダル”に対応させてしきい値レジスタ１０３ａに
格納される（ステップＳ１０）。続くステップＳ１１で
は、図６のインデックスが参照され、しきい値レジスタ
１０３ａに格納されたしきい値“６．３”以上の類似度
をもつ文書の存在が判定される。その際、ＲＡＭ１０３
には、キーワード“日本”の場合と同様にワーク領域と
して一定個数分（例えば１万個）の要素をとるヒープが
設けられる。

【００４９】キーワード“金メダル”の場合には、例え
ば、図８に示したヒープのように、類似度の小さい組か
ら［７．２，３５］，［７．２，３６］，［７．２，８
１］，［７．３，１９］…の順で１万個分の［類似度，
文書番号］の組が配列される。このようにしてヒープに
残ったキーワード“金メダル”の［類似度，文書番号］
の組は、今度はヒープ上で文書番号の昇順にソートされ
る（ステップＳ１２）。そして、処理はステップＳ４に
戻る。

【００５０】再びステップＳ４においてキーワードレジ
スタ１０３よりキーワードを読み出す処理が実行される
が、前述のキーワード“金メダル”の読み出してキーワ
ードがすべて読み出されたので、つぎのキーワードはな
し（空）として（ステップＳ５）、処理はステップＳ６
に移行する。

【００５１】続くステップＳ６では、ＲＡＭ１０３のヒ
ープに配列された全キーワードについて文書毎の類似度
が累計され、その累計結果が個々のキーワードについて
［類似度，文書番号］をプッシュした方法でヒープ（１
万個分）にプッシュされる。その結果、ヒープには、少
なくともキーワード“日本”とキーワード“金メダル”
とのいずれか一方が存在する文書の文書番号列が類似度
の降順に配列される。

【００５２】さらに、ステップＳ７において、ヒープに
配列された１万個の［類似度，文書番号］の組が、例え
ば、図１０に示したヒープのように、類似度の大きい組
から［１３．４，１９］，［１３．２，１０９］，［１
３．１，４９］…の順でソートされる。

【００５３】このソート結果はディスプレイ１０８に表
示され、これが検索質問に対する回答となる（ステップ
Ｓ８）。ただし、この回答では一度に１万個分の表示は
不可能なので、例えば２０個ずつ文書番号を表示するこ
とで対処する。また、このソート結果は、ソートファイ
ル１０６ｄとしてＨＤＤ１０６のハードディスクに保存
したり、容量に応じてフロッピーディスクに保存した
り、あるいは、通信ユニット１０９を介して外部に通知
するようにしてもよい。

【００５４】以上の説明では、キーボード１０４やマウ
ス１０５から検索質問を入力し、ディスプレイ１０８に
検索結果を表示するスタンドアロンスタイルの一例を挙
げているが、インターネットやＬＡＮ（ローカルエリア
ネットワーク）などのネットワーク上にこの類似文書検
索装置を接続させた場合には、その装置がネットワーク
コンピュータとなる。この場合には、通信ユニット１０
９を介して外部装置との間で、検索質問を入力し、その
検索結果（ソート結果）を回答することができる。

【００５５】以上説明したように、この実施の形態１に
よれば、入力された検索質問のキーワード別に、あらか
じめ用意された複数の文書に基づいて文書毎の類似度を
算出して、その算出された文書毎の類似度からあらかじ
め用意されたしきい値以上の類似度をもつ文書を判定
し、その判定されたすべての文書に基づいて文書毎の類
似度を集計して回答する。これにより、転置インデック
ス１０６ｃに登録された全文書が集計対象とはならず、
検索質問中のキーワード毎に集計対象を絞り込んだ状態
で検索結果を得ることができるので、類似文書の検索を
高速化し、かつ、その検索結果に要する記憶容量を小さ
く押さえることが可能である。

【００５６】また、集計の際に、類似度をもつ文書の順
番を類似度の大きい方から並ぶようにソートするように
したので、類似度の大小関係を整理した状態で回答する
ことが可能である。

【００５７】また、ネットワークを介して検索質問の入
力およびその回答を行うようにしたので、スタンドアロ
ンスタイルに限定されず、ネットワークコンピュータと
しての利用を図ることが可能である。

【００５８】また、各キーワードについて集計前に［文
書番号，類似度］の組の絞り込みを行うようにしたの
で、検索の高速化、ならびに、検索結果に要する記憶容
量の抑制のため、各キーワードについて、しきい値以上
の類似度をもつ文書が必要以上に多くなることを事前に
防止することが可能である。

【００５９】（実施の形態２）さて、前述の実施の形態
１では、各キーワードのしきい値を設定する場合につい
て述べていないが、以下に説明する実施の形態２では、
各キーワードのしきい値を設定する具体例について述べ
る。なお、この実施の形態１は、全体構成（機能的、ハ
ードウェア的）を前述した実施の形態１と同様のものと
するため、図示およびその説明を省略する。

【００６０】そこで、以下に構成，動作ともに要部につ
いてのみ説明する。まず、構成について説明する。図１
１はこの発明の実施の形態２による類似文書検索装置の
要部を機能的に示すブロック図である。この実施の形態
２では、機能的な構成の一部が前述した実施の形態１と
異なる。すなわち、図１１に示したように、図１のしき
い値設定部５に替わってしきい値設定部５０が設けられ
る。

【００６１】しきい値設定部５０は、サイズ設定部５
１，サンプリング部５２およびしきい値算出部５３によ
り構成される。サイズ設定部５１は、しきい値を設定す
る上で、キーワード別に最大候補数を設定する。この設
定は、ユーザインタフェースを通じて行われる。サンプ
リング部５２は、エントリされたキーワードの文書につ
いて転置インデックス１０６ｃの先頭から所定個数分の
文書をサンプリングして、類似度の分布を求める。しき
い値算出部５３は、サンプリングで求められた類似度の
分布とサイズ設定部５１で設定された最大候補数とから
しきい値を算出し、注目のキーワード（しきい値の設定
対象となるキーワードの意味）とそのしきい値とを対応
させてＲＡＭ１０３もしくはハードディスクに登録す
る。

【００６２】つぎに、動作について説明する。図１２は
この実施の形態２による動作の要部を説明するフローチ
ャートであり、図１３はこの実施の形態２によるキーワ
ード別の平均，分散およびしきい値の関係例を示す図で
ある。なお、以下に説明するしきい値設定部５０とこれ
に関連する各部の機能とは、ＨＤＤ１０６のアプリケー
ション１０６ａに付加されるものである。なお、しきい
値は転置インデックス１０６ｃと同じよう事前に準備さ
れるので、以下に説明するしきい値設定処理は転置イン
デックス１０６ｃの生成と同様に事前に実施されるもの
である。

【００６３】ここでは、転置インデックス１０６ｃの文
書中のあるキーワードに対してしきい値を設定する動作
について説明する。まず、転置インデックス１０６ｃの
参照により、注目のキーワードに対する［文書番号，頻
度］の組が取得され、ＲＡＭ１０３に格納される（ステ
ップＳ２１）。続いて、サイズ設定部５１の機能とし
て、注目のキーワードについて、しきい値以上の類似度
をもつ文書がいくつ取得されるのか、その理想とされる
数が最大候補数Ｊとして任意にＲＡＭ１０３に設定され
る（ステップＳ２２）。この最大候補数Ｊはユーザイン
タフェースにより任意に設定される数である。

【００６４】さらに、サンプリング部５２の機能とし
て、しきい値を求める際に使用する文書の数がサンプリ
ング数Ｓとして任意にＲＡＭ１０３に設定される（ステ
ップＳ２３）。このサンプリング数Ｓは、ユーザインタ
フェースにより任意に設定される数であり、サンプリン
グ対象の先頭からＳ番目までの範囲を意味する。

【００６５】ステップＳ２１で取得された［文書番号，
頻度］の組のうち、先頭からＳ個（サンプリング数Ｓ）
までの組に対して文書の類似度が算出され、さらに平
均，分散などの統計量が求められる（ステップＳ２
４）。ここで、平均をＭ、分散をσで表す。

【００６６】そして、類似度の分布が特定の統計モデル
に基づいている、すなわち正規分布をしていると仮定す
ると、先頭からＪ個（最大候補数Ｊ）が得られるような
類似度のしきい値が次式（２）により求められる（ステ
ップＳ２５）。

【００６７】Ｔｈ＝Ｍ＋σ＊Ｄ・・・（２）ここで、Ｔｈはしきい値であり、Ｄは距離値である。こ
の距離値Ｄは、正規分布中、上位のＪ／Ｓ（％）を満た
す平均の値である。以上のステップＳ２４およびステッ
プＳ２５は、しきい値算出部５３の機能を示している。

【００６８】このようにして求められたしきい値は、注
目のキーワードに対応させてＲＡＭ１０３もしくはハー
ドディスクに登録される（ステップＳ２６）。具体的に
は、キーワード“日本”，“金メダル”別に、平均，分
散，しきい値のデータが記憶される（図１３参照）。図
１３の例では、キーワード“日本”に関する平均，分
散，しきい値は、それぞれ３．３，１．４，５．３とな
り、キーワード“金メダル”に関する平均，分散，しき
い値は、それぞれ４．６，１．７，６．３となる。

【００６９】なお、このしきい値設定処理は、単語ひと
つよりなるキーワードに限らず、複合語，Ｎ−ｇｒａｍ
などの文字列についても適用可能とする。複合語，Ｎ−
ｇｒａｍなどの文字列を単語として認識させるには、キ
ーボード１０４やマウス１０５を操作して単語としての
登録を行っておけばよい。

【００７０】以上説明したように、この実施の形態２に
よれば、任意の文書数だけをサンプリングした文書で事
前にキーワード別のしきい値を求めておくようにしたの
で、しきい値の精度を無視すれば、各キーワードについ
て全文書を対象にしてしきい値を求めるような処理負担
を軽減することが可能である。

【００７１】（実施の形態３）さて、上述した実施の形
態２を前述の実施の形態１に適用したものを実施の形態
３として以下に説明する。実施の形態によるしきい値設
定方法は、前述した実施の形態１において、例えばしき
い値が設定されていないキーワードがあった場合にその
キーワードについて文書を絞り込む前に実施すればよ
い。

【００７２】図１４はこの発明の実施の形態３による動
作の要部を説明するフローチャートである。図５のステ
ップＳ９においてキーワードの［文書番号，類似度］が
取得されると、つぎに、注目のキーワードについてしき
い値がＲＡＭ１０３もしくはハードディスクに登録され
ているか否か判断する（ステップＳ４１）。ここで、キ
ーワードに対するしきい値があらかじめ登録されている
か否かは、キーワードが複合語か、それとも文字Ｎ−ｇ
ｒａｍかによって決まる。

【００７３】すなわち、キーワード“日本”のように、
単語ひとつで構成されるキーワードについては、あらか
じめしきい値を計算して対応付けておくことが可能であ
る。一方、複合語や文字Ｎ−ｇｒａｍの場合には、単語
の組み合わせなどの点から、すべてのケースについてあ
らかじめ計算しておくと、その記憶のために、転置イン
デックス１０６ｃとして膨大な記憶容量が必要となる。
そこで、この実施の形態３では、複合語や文字Ｎ−ｇｒ
ａｍを構成するキーワードについては、検索の時点でし
きい値を計算することにする。この複合語やＮ−ｇｒａ
ｍに該当するものを前述のキーワード“金メダル”とし
て以下に説明する。

【００７４】したがって、ステップＳ４１では、キーワ
ード“日本”については、しきい値は登録済みであると
判断されるが、キーワード“金メダル”については、し
きい値は未登録であると判断される。このため、キーワ
ード“日本”の場合には、処理は、前述した実施の形態
１の通りにステップＳ１０に移行するが、キーワード
“金メダル”の場合には、処理はステップＳ４２に移行
する。

【００７５】このステップＳ４２では、前述した実施の
形態２によるしきい値設定処理（図１２参照）が実施さ
れる。このように、ステップＳ４２で未登録のしきい値
が設定されると、その未登録のしきい値とこれに対応す
るキーワードとが対応付けてＲＡＭ１０３もしくはハー
ドディスクに登録される。この後、処理はステップＳ１
１に移行する。

【００７６】以上説明したように、この実施の形態３に
よれば、検索処理中であっても、任意の文書数だけをサ
ンプリングした文書で事前にキーワード別のしきい値を
求めておくようにしたので、しきい値の精度を無視すれ
ば、検索処理中において、各キーワードについて全文書
を対象にしてしきい値を求めるような処理負担を軽減す
ることが可能である。

【００７７】（実施の形態４）さて、この発明は、以下
に説明する実施の形態４のように、前述した実施の形態
１〜３で述べたしきい値以上の類似度をもつ文書につい
て、図９に示したごとく高類似文書順に並ぶインデック
スをあらかじめハードディスクなどの記憶装置に登録す
るように構成してもよい。以下に、動作についてのみ説
明する。

【００７８】図１５はこの発明の実施の形態４による動
作の要部を説明するフローチャートであり、図１６はこ
の実施の形態４によるインデックス例を示す図である。
前述した実施の形態２では、図１２のステップＳ２６に
よりしきい値を登録していたが、この実施の形態４で
は、ステップＳ２６はなく、ステップＳ２５の後にステ
ップＳ５１に移行する。

【００７９】ステップＳ５１では、ＲＡＭ１０３に設け
られた最大候補数Ｊ分のヒープに対して、ステップＳ２
５で求められたしきい値Ｔｈ以上の類似度をもつ文書す
なわち［文書番号，類似度］の組がプッシュされる。ヒ
ープにＪ個分の［文書番号，類似度］の組がプッシュさ
れた後は、さらにヒープへのプッシュが行われると、最
小の類似度をもつ組（要素）から捨てられる。このた
め、最終的には、類似度の大きい方からＪ個分の組が抽
出された形でヒープに残る。

【００８０】そして、より正確なしきい値を求める指示
の有無がユーザインタフェースを通じて確認され（ステ
ップＳ５２）、ステップＳ２５で求めたしきい値よりも
さらに正確なしきい値を求める場合には、処理はステッ
プＳ５３に移行し、一方、ステップＳ２５で求めたしき
い値で十分な場合には、処理はステップＳ５４に移行す
る。ステップＳ５３では、ステップＳ５１でヒープにプ
ッシュされた［文書番号，類似度］の組を類似度の小さ
い順にソートし、しきい値Ｔｈを最小の類似度で更新す
る処理が行われる。この後、処理はステップＳ５４に移
行する。

【００８１】ステップＳ５４において、ヒープ内の［文
書番号，類似度］の組は文書番号順に昇順にソートさ
れ、そのソート結果によりインデックスが構築される。
このインデックスは例えばハードディスク（ＨＤＤ１０
６）に登録される。インデックスの具体例としては、図
１６に示した構成となる。

【００８２】すなわち、インデックスは、キーワード
“日本”，“金メダル”のそれぞれに対してしきい値と
［文書番号，類似度］の組が対応付けた構成となる。図
１６に示したインデックスでは、エントリが上位Ｓ個の
みから構成され、さらにより正確なしきい値となったた
め、前述したしきい値とは異なる値をとっている。キー
ワード“日本”について、しきい値は２．９となり、
［文書番号，類似度］の組は、［１０，１０．３］，
［１４，３．１］，［３５，４．０］となる。また、キ
ーワード“金メダル”について、しきい値は３．５とな
り、［文書番号，類似度］の組は、［１０，３．５］，
［４１，３．９］，［４１，３．９］…となる。

【００８３】このようにして転置インデックス１０６ｃ
に登録されている各キーワードのインデックスをあらか
じめ用意しておけば、前述した実施の形態１におけるキ
ーワード別類似度算出部３およびキーワード別高類似文
書判定部４の機能が不要となる（図１参照）。すなわ
ち、実施の形態１による図４および図５のフローチャー
トのうち、図４のフローチャートで示される動作で足り
ることになる。この実施の形態４は、ステップＳ１〜ス
テップＳ７のうちでステップＳ５を除く動作で足り、ス
テップＳ６においては、キーワード別のインデックスを
ハードディスクから抽出し、インデックスに示されるソ
ート結果を累計して、一定個数分の文書番号を得るよう
にすればよい。

【００８４】以上説明したように、この実施の形態４に
よれば、キーワード別にしきい値以上の類似度をもつ文
書についてあらかじめインデックスとして形成しておけ
ば、転置インデックス１０６ｃの文書数が膨大になれば
なるほど、実施の形態１におけるしきい値と各文書の類
似度との比較処理が省けることによる時間短縮の効果が
大きくなる。これにより、前述した実施の形態１〜３に
くらべてさらに検索処理を高速化することが可能であ
る。

【００８５】

【発明の効果】以上説明したように、請求項１の発明に
よれば、入力された検索質問のキーワード別に、あらか
じめ用意された複数の文書に基づいて文書毎の類似度を
算出して、その算出された文書毎の類似度からあらかじ
め用意されたしきい値以上の類似度をもつ文書を判定
し、その判定されたすべての文書に基づいて文書毎の類
似度を集計して回答するようにしたので、全文書が集計
対象とはならず、検索質問中のキーワード毎に集計対象
を絞り込んだ状態で検索結果を得ることができ、これに
よって、類似文書の検索を高速化し、かつ、その検索結
果に要する記憶容量を小さく押さえることが可能が可能
な類似文書検索装置が得られるという効果を奏する。

【００８６】また、請求項２の発明によれば、請求項１
の発明において、任意の文書数だけをサンプリングした
文書で事前にキーワード別のしきい値を求めておくよう
にしたので、しきい値の精度を無視すれば、各キーワー
ドについて全文書を対象にしてしきい値を求めるような
処理負担を軽減することが可能な類似文書検索装置が得
られるという効果を奏する。

【００８７】また、請求項３の発明によれば、任意の文
書数だけをサンプリングした文書で事前にキーワード別
のしきい値を求め、そのしきい値以上の類似度をもつ文
書とその類似度との関係をインデックスとしてあらかじ
め用意しておき、入力された検索質問のキーワード別
に、インデックス中の文書だけで文書毎の類似度を集計
して回答するようにしたので、請求項１の発明と比べ
て、検索時に、検索質問中のキーワード別に文書の絞り
込みが不要となり、インデックスから直接類似度の集計
を行うことができ、これによって、膨大な文書数のデー
タベースを検索する場合であっても、類似検索を一層高
速化することが可能な類似文書検索装置が得られるとい
う効果を奏する。

【００８８】また、請求項４の発明によれば、請求項
１，２，３のいずれか一つの発明において、集計の際
に、類似度をもつ文書の順番を類似度の大きい方から並
ぶようにソートするようにしたので、類似度の大小関係
を整理した状態で回答することが可能な類似文書検索装
置が得られるという効果を奏する。

【００８９】また、請求項５の発明によれば、請求項１
〜４のいずれか一つの発明において、ネットワークを介
して検索質問の入力およびその回答を行うようにしたの
で、スタンドアロンスタイルに限定されず、ネットワー
クコンピュータとしての利用を図ることが可能な類似文
書検索装置が得られるという効果を奏する。

【００９０】また、請求項６の発明によれば、請求項１
又は２の発明において、各キーワードについて任意の文
書数だけを判定結果として得るようにしたので、検索の
高速化、ならびに、検索結果に要する記憶容量の抑制の
ため、各キーワードについて、しきい値以上の類似度を
もつ文書が必要以上に多くなることを事前に防止するこ
とが可能な類似文書検索装置が得られるという効果を奏
する。

【００９１】また、請求項７の発明によれば、入力され
た検索質問のキーワード別に、あらかじめ用意された複
数の文書に基づいて文書毎の類似度を算出して、その算
出された文書毎の類似度からあらかじめ用意されたしき
い値以上の類似度をもつ文書を判定し、その判定された
すべての文書に基づいて文書毎の類似度を集計して回答
する工程にしたので、全文書が集計対象とはならず、検
索質問中のキーワード毎に集計対象を絞り込んだ状態で
検索結果を得ることができ、これによって、類似文書の
検索を高速化し、かつ、その検索結果に要する記憶容量
を小さく押さえることが可能が可能な類似文書検索方法
が得られるという効果を奏する。

【００９２】また、請求項８の発明によれば、任意の文
書数だけサンプリングした文書で事前にキーワード別の
しきい値を求め、そのしきい値以上の類似度をもつ文書
とその類似度との関係をインデックスとしてあらかじめ
用意しておき、入力された検索質問のキーワード別に、
インデックス中の文書だけで文書毎の類似度を集計して
回答する工程にしたので、請求項７の発明と比べて、検
索時に、検索質問中のキーワード別に文書の絞り込みが
不要となり、インデックスから直接類似度の集計を行う
ことができ、これによって、膨大な文書数のデータベー
スを検索する場合であっても、類似検索を一層高速化す
ることが可能な類似文書検索方法が得られるという効果
を奏する。

【図面の簡単な説明】

【図１】この発明の実施の形態１による類似文書検索装
置を機能的に示したブロック図である。

【図２】この実施の形態１による類似文書検索の原理を
説明する図である。

【図３】この発明の実施の形態１による類似文書検索装
置をハードウェア的に示したブロック図である。

【図４】この実施の形態１による動作を説明するフロー
チャートである。

【図５】この実施の形態１による動作を説明するフロー
チャートである。

【図６】この実施の形態１において類似度を使用したイ
ンデックスの一例を示す図である。

【図７】この実施の形態１によるキーワードとしきい値
との関係例を示す図である。

【図８】この実施の形態１によるキーワードとしきい値
以上の類似度をもつ文書との関係例を示す図である。

【図９】図８の関係例をキーワード別に文書番号順にソ
ートした場合の一例を示す図である。

【図１０】この実施の形態１による検索結果を示す図で
ある。

【図１１】この発明の実施の形態２による類似文書検索
装置の要部を機能的に示すブロック図である。

【図１２】この実施の形態２による動作の要部を説明す
るフローチャートである。

【図１３】この実施の形態２によるキーワード別の平
均，分散およびしきい値の関係例を示す図である。

【図１４】この発明の実施の形態３による動作の要部を
説明するフローチャートである。

【図１５】この発明の実施の形態４による動作の要部を
説明するフローチャートである。

【図１６】この実施の形態４によるインデックス例を示
す図である。

【図１７】従来の類似文書検索装置による類似文書検索
の原理を説明する図である。

【符号の説明】

１質問入力部２キーワード分割部３キーワード別類似度算出部４キーワード別高類似度判定部５，５０しきい値設定部６全類似度累計およびソート部７回答出力部５１サイズ設定部５２サンプリング部５３しきい値算出部１０１ＣＰＵ１０２ＲＯＭ１０３ＲＡＭ１０４キーボード１０５マウス１０６ＨＤＤ１０７ＦＤＤ１０８ディスプレイ１０９通信ユニット

Claims

【特許請求の範囲】

【請求項１】複数のキーワードを含んだ検索質問を入
力する質問入力手段と、前記質問入力手段により入力された検索質問のキーワー
ド別に、あらかじめ用意された複数の文書に基づいて文
書毎の類似度を算出する類似度算出手段と、前記キーワード別に、前記類似度算出手段により算出さ
れた文書毎の類似度からあらかじめ用意されたしきい値
以上の類似度をもつ文書を判定する判定手段と、前記キーワード別に前記判定手段により判定された文書
だけで文書毎の類似度を集計する集計手段と、前記集計手段の集計結果を回答する回答手段と、を備えたことを特徴とする類似文書検索装置。
【請求項２】前記あらかじめ用意された複数の文書か
ら任意の文書数だけサンプリングするサンプリング手段
と、前記サンプリング手段によりサンプリングされた文
書に基づいて前記複数の文書に出現するキーワード別に
前記あらかじめ用意されたしきい値を算出する算出手段
と、前記算出手段により算出されたしきい値を該当する
キーワードに対応付けて登録するしきい値登録手段とを
さらに有したことを特徴とする請求項１に記載の類似文
書検索装置。
【請求項３】あらかじめ用意された複数の文書から任
意の文書数だけをサンプリングするサンプリング手段
と、前記サンプリング手段によりサンプリングされた文書に
基づいて前記複数の文書に出現するキーワード別に文書
を絞り込むための類似度で示すしきい値を算出する算出
手段と、キーワード別に前記算出手段により算出されたしきい値
以上の類似度をもつ文書を前記複数の文書から抽出する
第１抽出手段と、キーワード別に前記第１抽出手段により抽出された文書
の当該文書と類似度との関係をインデックスとして登録
するインデックス登録手段と、複数のキーワードを含んだ検索質問を入力する質問入力
手段と、前記質問入力手段により入力された検索質問のキーワー
ド別に、前記インデックス登録手段に登録されたインデ
ックスを抽出する第２抽出手段と、前記第２抽出手段により抽出されたすべてのインデック
スに基づいて文書毎の類似度を集計する集計手段と、前記集計手段の集計結果を回答する回答手段と、を備えたことを特徴とする類似文書検索装置。
【請求項４】前記集計手段は、集計のため、前記キー
ワード別に前記判定手段により判定されたすべての文書
に基づいて文書毎の類似度を累計し、その累計された類
似度をもつ文書を類似度の大きい方から並ぶようにソー
トすることを特徴とする請求項１〜３のいずれか一つに
記載の類似文書検索装置。
【請求項５】前記類似文書検索装置はネットワークに
接続され、前記質問入力手段は前記ネットワークを介し
て前記検索質問を入力し、前記回答手段は、集計結果を
前記ネットワークを介して回答することを特徴とする請
求項１〜４のいずれか一つに記載の類似文書検索装置。
【請求項６】前記判定手段は、任意の文書数分だけを
判定結果として得ることを特徴とする請求項１又は２に
記載の類似文書検索装置。
【請求項７】複数のキーワードを含んだ検索質問を入
力する第１工程と、前記第１工程により入力された検索質問のキーワード別
に、あらかじめ用意された複数の文書に基づいて文書毎
の類似度を算出する第２工程と、前記キーワード別に、前記第２工程により算出された文
書毎の類似度からあらかじめ用意されたしきい値以上の
類似度をもつ文書を判定する第３工程と、前記キーワード別に前記第３工程により判定されたすべ
ての文書に基づいて文書毎の類似度を集計する第４工程
と、前記第４工程の集計結果を回答する第５工程と、を含んだことを特徴とする類似文書検索方法。
【請求項８】あらかじめ用意された複数の文書から任
意の文書数だけをサンプリングする第１工程と、前記第１工程によりサンプリングされた文書に基づいて
前記複数の文書に出現するキーワード別に文書を絞り込
むための類似度で示すしきい値を算出する第２工程と、キーワード別に前記第２工程により算出されたしきい値
以上の類似度をもつ文書を前記複数の文書から抽出する
第３工程と、キーワード別に前記第３工程により抽出された文書につ
いて当該文書と類似度との関係をインデックスとしてあ
らかじめ用意されたメモリに登録する第４工程と、複数のキーワードを含んだ検索質問を入力する第５工程
と、前記第５工程により入力された検索質問のキーワード別
に、前記第４工程により前記あらかじめ用意されたメモ
リに登録されたインデックスを抽出する第６工程と、前記第６工程により抽出されたすべてのインデックスに
基づいて文書毎の類似度を集計する第７工程と、前記第７工程の集計結果を回答する第８工程と、を含んだことを特徴とする類似文書検索方法。