JPH1166086A - 類似文書検索装置および類似文書検索方法 - Google Patents

類似文書検索装置および類似文書検索方法

Info

Publication number
JPH1166086A
JPH1166086A JP9222301A JP22230197A JPH1166086A JP H1166086 A JPH1166086 A JP H1166086A JP 9222301 A JP9222301 A JP 9222301A JP 22230197 A JP22230197 A JP 22230197A JP H1166086 A JPH1166086 A JP H1166086A
Authority
JP
Japan
Prior art keywords
document
similarity
documents
keyword
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9222301A
Other languages
English (en)
Other versions
JP3715413B2 (ja
Inventor
Isao Nanba
功 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP22230197A priority Critical patent/JP3715413B2/ja
Publication of JPH1166086A publication Critical patent/JPH1166086A/ja
Application granted granted Critical
Publication of JP3715413B2 publication Critical patent/JP3715413B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 類似文書の検索を高速化し、かつ、その検索
結果に要する記憶容量を小さく押さえられるようにする
ことを課題とする。 【解決手段】 キーワード分割部2では、質問入力部1
により入力された検索質問からキーワードが分割され、
キーワード別類似度算出部3では、キーワード別に、転
置インデックスの参照により文書毎の類似度が算出さ
れ、キーワード高類似文書判定部4では、その算出され
た文書毎の類似度からあらかじめ用意されたしきい値以
上の類似度をもつ文書が判定され、全類似度累計および
ソート部6では、その判定されたすべての文書に基づい
て文書毎の類似度が集計され、回答出力部7では、その
集計された文書毎の類似度が回答される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ユーザの検索質
問に従って類似文書を検索する類似文書検索装置および
類似文書検索方法に関する。
【0002】
【従来の技術】類似文書検索では、一般に、Cosin
e Measureもしくは確率モデルが使用されてい
る。例えば、Cosine Measureでは、検索
要求をq、文書をd、全文書集合をT、文書の大きさを
Wt、文書中に含まれる単語をwi,tとすると、検索
式の文書に対する類似度は次式(1)によって与えられ
る。
【0003】
【数1】
【0004】この式を忠実に実行すると、一般の転置フ
ァイル(inverted file)を使用した類似
検索では、最悪な場合、検索要求の単語がもつ文書数の
合計分だけワーク領域が用意され、そのワーク領域中に
文書番号に対する類似度が格納される。そして、最後に
類似度の大小関係で文書番号の順番についてソートが行
われ、その結果がユーザに提示される。ところが、この
文書毎の類似度の計算やソートにかなりの時間が必要と
なる。
【0005】そこで、具体例を挙げる。図17は従来の
類似文書検索装置による類似文書検索の原理を説明する
図である。従来、ユーザが検索質問として検索式である
文書を入力すると(図17の)、その文書から文書中
に含まれるキーワードへの分割が行われる(図17の
)。ここでは、キーワードA,B,Cの3つに分割さ
れた例を挙げる。
【0006】例えば、文書が10万件登録されていた場
合には、その10万件の文書(文書番号D1〜D100
000)からなる転置インデックス(例えば文書番号と
頻度との対応関係)より、キーワードA,B,Cがどの
文書にどれだけの頻度で出現しているのかわかる(図1
7の)。キーワードA,B,Cについては、例えば、
文書番号D1の文書中で頻度がそれぞれ“2”,
“0”,“5”となり、文書番号D100000の文書
中で頻度がそれぞれ“0”,“8”,“2”となる。
【0007】そして、頻度に対して重みなどを付加する
ことでキーワード別に各文書の類似度が算出され、その
後、キーワードA,B,C間の類似度が例えば論理和で
加算される(図17の)。これにより、文書別の類似
度が総合得点として得られる。この段階では、得点に関
係なく文書が並んでいることから、さらに文書が得点順
に並ぶように、文書番号にソートがかけられる。その結
果、転置インデックスに登録されている文書番号は、例
えば、D10,D99998…のように得点順に並べら
れる(図17の)。
【0008】
【発明が解決しようとする課題】ところが、従来例によ
る類似文書検索装置では、キーワード別に求めたすべて
の文書から文書毎に類似度を集計し、その集計結果をさ
らに類似順にソートするようにしたので、検索対象とな
る文書数が多くなればなるほど、類似度の集計計算およ
びソートに時間を要することはもちろん、ソート量に応
じて膨大な記憶容量を要するという問題があった。
【0009】この発明は、上述した従来例による問題を
解消するため、類似文書の検索を高速化し、かつ、その
検索結果に要する記憶容量を小さく押さえることが可能
な類似文書検索装置および類似文書検索方法を得ること
を目的とする。
【0010】
【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項1の発明に係る類似文書検
索装置は、複数のキーワードを含んだ検索質問を入力す
る質問入力手段と、前記質問入力手段により入力された
検索質問のキーワード別に、あらかじめ用意された複数
の文書に基づいて文書毎の類似度を算出する類似度算出
手段と、前記キーワード別に、前記類似度算出手段によ
り算出された文書毎の類似度からあらかじめ用意された
しきい値以上の類似度をもつ文書を判定する判定手段
と、前記キーワード別に前記判定手段により判定された
すべての文書に基づいて文書毎の類似度を集計する集計
手段と、前記集計手段の集計結果を回答する回答手段
と、を備えたことを特徴とする。
【0011】この請求項1の発明によれば、入力された
検索質問のキーワード別に、あらかじめ用意された複数
の文書に基づいて文書毎の類似度を算出して、その算出
された文書毎の類似度からあらかじめ用意されたしきい
値以上の類似度をもつ文書を判定し、その判定されたす
べての文書に基づいて文書毎の類似度を集計して回答す
るようにしたので、全文書が集計対象とはならず、検索
質問中のキーワード毎に集計対象を絞り込んだ状態で検
索結果を得ることができ、これによって、類似文書の検
索を高速化し、かつ、その検索結果に要する記憶容量を
小さく押さえることが可能が可能である。
【0012】また、請求項2の発明に係る類似文書検索
装置は、請求項1の発明において、前記あらかじめ用意
された複数の文書から任意の文書数だけをサンプリング
するサンプリング手段と、前記サンプリング手段により
サンプリングされた文書に基づいて前記複数の文書に出
現するキーワード別に前記あらかじめ用意されたしきい
値を算出する算出手段と、前記算出手段により算出され
たしきい値を該当するキーワードに対応付けて登録する
しきい値登録手段とをさらに有したことを特徴とする。
【0013】この請求項2の発明によれば、任意の文書
数だけをサンプリングした文書で事前にキーワード別の
しきい値を求めておくようにしたので、しきい値として
も精度を無視すれば、各キーワードについて全文書を対
象にしてしきい値を求めるような処理負担が軽減され
る。
【0014】また、請求項3の発明に係る類似文書検索
装置は、あらかじめ用意された複数の文書から任意の文
書数だけをサンプリングするサンプリング手段と、前記
サンプリング手段によりサンプリングされた文書に基づ
いて前記複数の文書に出現するキーワード別に文書を絞
り込むための類似度で示すしきい値を算出する算出手段
と、キーワード別に前記算出手段により算出されたしき
い値以上の類似度をもつ文書を前記複数の文書から抽出
する第1抽出手段と、キーワード別に前記第1抽出手段
により抽出された文書について当該文書と類似度との関
係をインデックスとして登録するインデックス登録手段
と、複数のキーワードを含んだ検索質問を入力する質問
入力手段と、前記質問入力手段により入力された検索質
問のキーワード別に、前記インデックス登録手段に登録
されたインデックスを抽出する第2抽出手段と、前記第
2抽出手段により抽出されたすべてのインデックスに基
づいて文書毎の類似度を集計する集計手段と、前記集計
手段の集計結果を回答する回答手段と、を備えたことを
特徴とする。
【0015】この請求項3の発明によれば、任意の文書
数だけをサンプリングした文書で事前にキーワード別の
しきい値を求め、そのしきい値以上の類似度をもつ文書
とその類似度との関係をインデックスとしてあらかじめ
用意しておき、入力された検索質問のキーワード別に、
インデックス中の文書だけで文書毎の類似度を集計して
回答するようにしたので、請求項1の発明と比べて、検
索時に、検索質問中のキーワード別に文書の絞り込みが
不要となり、インデックスから直接類似度の集計を行う
ことができ、これによって、膨大な文書数のデータベー
スを検索する場合であっても、類似検索を一層高速化す
ることが可能である。
【0016】また、請求項4の発明に係る類似文書検索
装置は、請求項1〜3のいずれか一つの発明において、
前記集計手段は、集計のため、前記キーワード別に前記
判定手段により判定されたすべての文書に基づいて文書
毎の類似度を累計し、その累計された類似度をもつ文書
の順番を類似度の大きい方から並ぶようにソートするこ
とを特徴とする。
【0017】この請求項4の発明によれば、集計の際
に、類似度をもつ文書の順番を類似度の大きい方から並
ぶようにソートするようにしたので、類似度の大小関係
を整理した状態で回答することが可能である。
【0018】また、請求項5の発明に係る類似文書検索
装置は、請求項1〜4のいずれか一つの発明において、
前記類似文書検索装置はネットワークに接続され、前記
質問入力手段は前記ネットワークを介して前記検索質問
を入力し、前記回答手段は集計結果を前記ネットワーク
を介して回答することを特徴とする。
【0019】この請求項5の発明によれば、ネットワー
クを介して検索質問の入力およびその回答を行うように
したので、スタンドアロンスタイルに限定されず、ネッ
トワークコンピュータとしての利用を図ることが可能で
ある。
【0020】また、請求項6の発明に係る類似文書検索
装置は、請求項1又は2の発明において、前記判定手段
は任意の文書数分だけを判定結果として得ることを特徴
とする。
【0021】この請求項6の発明によれば、各キーワー
ドについて任意の文書数だけを判定結果として得るよう
にしたので、検索の高速化、ならびに、検索結果に要す
る記憶容量の抑制のため、各キーワードについて、しき
い値以上の類似度をもつ文書が必要以上に多くなること
を事前に防止することが可能である。
【0022】また、請求項7の発明に係る類似文書検索
方法は、複数のキーワードを含んだ検索質問を入力する
第1工程と、前記第1工程により入力された検索質問の
キーワード別に、あらかじめ用意された複数の文書に基
づいて文書毎の類似度を算出する第2工程と、前記キー
ワード別に、前記第2工程により算出された文書毎の類
似度からあらかじめ用意されたしきい値以上の類似度を
もつ文書を判定する第3工程と、前記キーワード別に前
記第3工程により判定されたすべての文書に基づいて文
書毎の類似度を集計する第4工程と、前記第4工程の集
計結果を回答する第5工程と、を含んだことを特徴とす
る。
【0023】この請求項7の発明によれば、入力された
検索質問のキーワード別に、あらかじめ用意された複数
の文書に基づいて文書毎の類似度を算出して、その算出
された文書毎の類似度からあらかじめ用意されたしきい
値以上の類似度をもつ文書を判定し、その判定されたす
べての文書に基づいて文書毎の類似度を集計して回答す
る工程にしたので、全文書が集計対象とはならず、検索
質問中のキーワード毎に集計対象を絞り込んだ状態で検
索結果を得ることができ、これによって、類似文書の検
索を高速化し、かつ、その検索結果に要する記憶容量を
小さく押さえることが可能が可能である。
【0024】また、請求項8の発明に係る類似文書検索
方法は、あらかじめ用意された複数の文書から任意の文
書数だけをサンプリングする第1工程と、前記第1工程
によりサンプリングされた文書に基づいて前記複数の文
書に出現するキーワード別に文書を絞り込むための類似
度で示すしきい値を算出する第2工程と、キーワード別
に前記第2工程により算出されたしきい値以上の類似度
をもつ文書を前記複数の文書から抽出する第3工程と、
キーワード別に前記第3工程により抽出された文書につ
いて当該文書と類似度との関係をインデックスとしてあ
らかじめ用意されたメモリに登録する第4工程と、複数
のキーワードを含んだ検索質問を入力する第5工程と、
前記第5工程により入力された検索質問のキーワード別
に、前記第4工程により前記あらかじめ用意されたメモ
リに登録されたインデックスを抽出する第6工程と、前
記第6工程により抽出されたすべてのインデックスに基
づいて文書毎の類似度を集計する第7工程と、前記第7
工程の集計結果を回答する第8工程と、を含んだことを
特徴とする。
【0025】この請求項8の発明によれば、任意の文書
数だけサンプリングした文書で事前にキーワード別のし
きい値を求め、そのしきい値以上の類似度をもつ文書と
その類似度との関係をインデックスとしてあらかじめ用
意しておき、入力された検索質問のキーワード別に、イ
ンデックス中の文書だけで文書毎の類似度を集計して回
答する工程にしたので、請求項7の発明と比べて、検索
時に、検索質問中のキーワード別に文書の絞り込みが不
要となり、インデックスから直接類似度の集計を行うこ
とができ、これによって、膨大な文書数のデータベース
を検索する場合であっても、類似検索を一層高速化する
ことが可能である。
【0026】
【発明の実施の形態】以下に添付図面を参照して、この
発明に係る類似文書検索装置および類似文書検索方法の
好適な実施の形態を詳細に説明する。
【0027】(実施の形態1)まず、原理について説明
する。図1はこの発明の実施の形態1による類似文書検
索装置を機能的に示したブロック図である。図1に示し
た類似文書検索装置は、質問入力部1、キーワード分割
部2、キーワード類似度算出部3、キーワード別高類似
文書判定部4、しきい値設定部5、類似度集計部である
全類似度累計およびソート部6、および回答出力部7に
より構成される。
【0028】質問入力部1は、図示せぬユーザインタフ
ェースにより検索質問を入力する。キーワード分割部2
は、入力された検索質問をキーワード列に分割してキー
ワードを得る。キーワード類似度算出部3は、あらかじ
め用意された転置インデックスを参照して分割されたキ
ーワード別に文書毎の類似度を算出する。なお、検索対
象としてあらかじめT(Tは自然数)個の文書が用意さ
れる。転置インデックスは、T個の文書中に出現するキ
ーワード別に各文書での出現頻度を対応付けたものであ
る。
【0029】キーワード別高類似文書判定部4は、分割
されたキーワード別にしきい値設定部5で設定されたし
きい値以上の類似度をもつ文書を判定する。しきい値設
定部5は、キーワード別高類似文書判定部4に任意に設
定したしきい値を供給する。全類似度累計およびソート
部6は、各文書について文書番号および類似度から、し
きい値以上の類似度をもつ文書を累計するとともに、類
似度の高い順に文書番号の並びをソートする。回答出力
部7は、ソートされた文書番号を図示せぬユーザインタ
フェースなどを通じて表示出力,印刷出力,伝送出力な
どする。
【0030】続いて、上記機能ブロックを用いて検索原
理について説明する。図2はこの実施の形態1による類
似文書検索の原理を説明する図である。まず、質問入力
部1では、ユーザにより検索質問(検索式としての文
書)が入力される(図2の)。続くキーワード分割部
2では、その文書からキーワードへの分割が行われる
(図2の)。ここでも、図17の説明に合わせて、同
様の検索質問からキーワードA,B,Cの3つに分割さ
れる。
【0031】そして、キーワード別類似度算出部3で
は、図17に示した転置インデックスにより各キーワー
ドA,B,Cの文書中における頻度が参照され(図2の
)、各頻度に対して重みなどが付加され、キーワード
別に各文書の類似度が算出される。キーワード別高類似
文書判定部4は、キーワード別類似度算出部3で算出さ
れた類似度をしきい値設定部5から供給されるしきい値
と比較して、そのしきい値以上の類似度をもつ文書すな
わち文書番号を検索回答対象として判定する(図2の
)。この段階に入ると、各キーワードA,B,Cにつ
いて、もともと回答対象として10万件あった文書を例
えば1万件まで絞り込むことができる。ここでは、全キ
ーワードA,B,Cがいずれも共通して1万件まで絞り
込めたものとする。
【0032】そして、つぎの全類似度累計およびソート
部6では、キーワードA,B,C間で類似度(図2の
)が加算される(図2の)。このため、従来、30
万件(文書数“10万”×キーワード数“3”)で論理
演算が行われていたが、今回は絞り込みにより3万件
(文書数“1万”×キーワード数“3”)に絞り込まれ
tqあ状態で論理演算が行われる。このため、論理演算
は高速化される。これにより、絞り込まれた文書別の類
似度が総合得点として得られる。この段階では、類似度
の得点に関係なく文書が並んでいることから、さらに文
書が得点順に並ぶように、文書番号にソートがかけられ
る。このソートでも、ソート数が従来と比べて1/10
に絞り込まれていることから、処理の高速化が図られ
る。
【0033】その結果、文書番号は、例えば、D10,
D99998…のように得点順に並べられる(図2の
)。この検索結果について、データ数(文書番号)が
最小で1万件、最大でも3万件となるので、従来に比べ
て格段にデータの記憶容量が削減される。このようにし
て得られた文書番号は、回答出力部7により表示された
り、印刷されたり、通信により外部に送出される。
【0034】つぎに、上述した原理をハードウェア的に
実現した場合について説明する。図3はこの発明の実施
の形態1による類似文書検索装置をハードウェア的に示
したブロック図である。図3に示した類似文書検索装置
は、CPU101,ROM102,RAM103,キー
ボード104,マウス105,ハードディスクドライブ
(HDD)106,フロッピーディスクドライブ(FD
D)107,ディスプレイ108,通信ユニット10
9,各部を接続してアドレス,データ,制御信号などを
伝送するバス110などにより構成される。
【0035】CPU101は、ROM102に格納され
たプログラム,HDD106のアプリケーション106
a,通信ユニット109を介して受信されるアプリケー
ションなどの各種プログラムに従って装置全体を制御す
る。このCPU101は、後述する図4および図5の各
フローチャートに従うアプリケーションプログラムに従
って、前述した質問入力部1,キーワード分割部2,キ
ーワード別類似度算出部3,キーワード別高類似文書判
定部4,全類似度累計およびソート部6および回答出力
部7による機能を実現する。ROM102は、CPU1
01を各種プログラムに従って動作させるためのプログ
ラムを格納している。
【0036】RAM103は、ワークエリアの他に、検
索処理時にしきい値を格納するために使用するしきい値
レジスタ103a,検索質問が分割されたキーワードを
格納するためにキーワードレジスタ103bをそれぞれ
格納するバッファ12a,12b,12cなどを設けて
いる。
【0037】キーボード104はユーザがしきい値を設
定したり、検索質問を入力する場合などで操作するキー
を備えている。マウス105は、ディスプレイ108上
の位置入力を行うポインティングデバイスである。この
マウス105については、しきい値の設定や検索質問の
入力時にキーボード104と合わせて操作する仕様にし
てもよい。HDD106は、ハードディスクを内蔵し、
CPU101の制御に従ってデータのリード/ライトを
行う大容量記憶装置である。
【0038】このHDD106は、図示せぬOS(オペ
レーティングシステム)の他に、図4および図5のフロ
ーチャートに従う動作を実現するためのアプリケーショ
ン106a,文書ファイル106b,転置インデックス
106c,ソートファイル106dなどをハードディス
クに記憶する。FDD107は、CPU101の制御に
従って着脱自在のフロッピーディスクに対してデータの
リード/ライトを行う。ディスプレイ108はCPU1
01の制御に従って各種プログラムの実行で必要な表示
画面を形成する。通信ユニット109は、回線やケーブ
ルを介して外部装置と通信を行うためのユニットであ
る。
【0039】つぎに、上記ハードウェア構成による動作
について説明する。図4および図5はこの実施の形態1
による動作を説明するフローチャート、図6はこの実施
の形態1において類似度を使用したインデックスの一例
を示す図、図7はこの実施の形態1によるキーワードと
しきい値との関係例を示す図、図8はこの実施の形態1
によるキーワードとしきい値以上の類似度をもつ文書と
の関係例を示す図、図9は図8の関係例をキーワード別
に文書番号順にソートした場合の一例を示す図、そし
て、図10はこの実施の形態1による検索結果例を示す
図である。なお、転置インデックス106cに登録され
ている各キーワードには、あらかじめ類似度のしきい値
が設定されているものとする。各キーワードとしきい値
との関係はRAM103もしくはハードディスクにあら
かじめ格納されているものとする。
【0040】まず、ディスプレイ108に検索質問の入
力画面(図示省略)が形成されると、その入力画面に対
してユーザはキーボード104やマウス105の操作に
より検索質問(文書)を入力する。その入力された検索
質問はRAM103に格納される(ステップS1)。こ
こで、入力された検索質問は複数のキーワード列より構
成されるものとする。その一例として、“日本の金メダ
ル”を検索質問とする。
【0041】このようにして検索質問が入力されると、
その検索質問はその文書を構成する個々のキーワードに
分割される(ステップS2)。すなわち、検索質問“日
本の金メダル”は2つのキーワード“日本”,“金メダ
ル”に分割される。各キーワード“日本”,“金メダ
ル”には、例えば分割順に番号が1,2の昇順で付加さ
れる。このため、キーワード“日本”,“金メダル”は
それぞれ番号“1”、 “2”を対応付けてキーワードレ
ジスタ103bに格納される(ステップS3)。
【0042】つぎに、昇順でまず1番目のキーワード
“日本”がキーワードレジスタ103bから読み出され
る(ステップS4)。このように、キーワードが読み出
せた場合にはキーワードの存在が確認され(ステップS
5)、処理はステップS9(図5参照)に移行する。と
ころが、キーワードをすべて読み出した場合には、キー
ワードの存在が確認されず、この場合には各キーワード
について文書の絞り込みが完了したことから(ステップ
S5)、続く全類似度の累計およびソート処理のため、
処理はステップS6に移行する。
【0043】さて、処理がステップS9に移行した場合
には、まず、転置インデックス106cが参照され、そ
のキーワード“日本”が出現する文書に関して、[文書
番号,頻度]の組が取得される。この[文書番号,頻
度]の組に基づいて重み付けなどの処理を通じて[文書
番号,類似度]の組が求められる。このキーワード“日
本”に関する[文書番号,類似度]の組のインデックス
は、例えば図6に示したように、[1,1.3],
[2,2.5],[10,10.3],[14,3.
1]…のようになる。このインデックスはRAM103
に一時格納される。
【0044】そして、キーワード“日本”のしきい値が
RAM103もしくはハードディスクから読み出され、
そのしきい値が例えば5.3であれば、しきい値“5.
3”はキーワード“日本”に対応させてしきい値レジス
タ103aに格納される(ステップS10)。続くステ
ップS11では、図6のインデックスが参照され、しき
い値レジスタ103aに格納されたしきい値“5.3”
以上の類似度をもつ文書の存在が判定される。その際、
RAM103には、ワーク領域として一定個数分(例え
ば1万個:全文書数の1/10)の要素をとるヒープが
設けられ、そのヒープにしきい値以上の類似度をもつ文
書の文書番号がプッシュされる。
【0045】このヒープへのプッシュでは、収容できる
個数が決められていることから、類似度の小さい組から
順にヒープからはじき出される。最終的には、類似度の
高い組から降順で1万個分の[類似度,文書番号]の組
が残る。ヒープにおいては、図8に示したように、類似
度の小さい組から[6.1,24],[6.1,2
0],[6.1,19],[6.5,100]…の順で
1万個分の[類似度,文書番号]の組が配列される。こ
のようにしてヒープに残った[類似度,文書番号]の組
は、今度はヒープ上で文書番号の昇順にソートされる
(ステップS12)。そして、処理はステップS4に戻
る。
【0046】処理がステップS4に戻ると、つぎ(2番
目)のキーワード“金メダル”がキーワードレジスタ1
03bから読み出され、この場合にもキーワードが存在
していることから、処理はステップS9に移行する。処
理がステップS9に移行した場合には、まず、転置イン
デックス106cが参照され、そのキーワード“金メダ
ル”が出現する文書に関して、[文書番号,頻度]の組
が取得される。この[文書番号,頻度]の情報に基づい
て重み付けなどの処理を通じて[文書番号,類似度]が
求められる。
【0047】このキーワード“金メダル”に関する[文
書番号,類似度]のインデックスは、例えば図6に示し
たように、[5,2.4],[10,3.5],[1
5,1.4],[31,2.8]…のようになる。この
インデックスはRAM103に一時格納される。
【0048】そして、キーワード“金メダル”のしきい
値がRAM103から読み出され、そのしきい値が例え
ば6.3であれば、しきい値“6.3”はキーワード
“金メダル”に対応させてしきい値レジスタ103aに
格納される(ステップS10)。続くステップS11で
は、図6のインデックスが参照され、しきい値レジスタ
103aに格納されたしきい値“6.3”以上の類似度
をもつ文書の存在が判定される。その際、RAM103
には、キーワード“日本”の場合と同様にワーク領域と
して一定個数分(例えば1万個)の要素をとるヒープが
設けられる。
【0049】キーワード“金メダル”の場合には、例え
ば、図8に示したヒープのように、類似度の小さい組か
ら[7.2,35],[7.2,36],[7.2,8
1],[7.3,19]…の順で1万個分の[類似度,
文書番号]の組が配列される。このようにしてヒープに
残ったキーワード“金メダル”の[類似度,文書番号]
の組は、今度はヒープ上で文書番号の昇順にソートされ
る(ステップS12)。そして、処理はステップS4に
戻る。
【0050】再びステップS4においてキーワードレジ
スタ103よりキーワードを読み出す処理が実行される
が、前述のキーワード“金メダル”の読み出してキーワ
ードがすべて読み出されたので、つぎのキーワードはな
し(空)として(ステップS5)、処理はステップS6
に移行する。
【0051】続くステップS6では、RAM103のヒ
ープに配列された全キーワードについて文書毎の類似度
が累計され、その累計結果が個々のキーワードについて
[類似度,文書番号]をプッシュした方法でヒープ(1
万個分)にプッシュされる。その結果、ヒープには、少
なくともキーワード“日本”とキーワード“金メダル”
とのいずれか一方が存在する文書の文書番号列が類似度
の降順に配列される。
【0052】さらに、ステップS7において、ヒープに
配列された1万個の[類似度,文書番号]の組が、例え
ば、図10に示したヒープのように、類似度の大きい組
から[13.4,19],[13.2,109],[1
3.1,49]…の順でソートされる。
【0053】このソート結果はディスプレイ108に表
示され、これが検索質問に対する回答となる(ステップ
S8)。ただし、この回答では一度に1万個分の表示は
不可能なので、例えば20個ずつ文書番号を表示するこ
とで対処する。また、このソート結果は、ソートファイ
ル106dとしてHDD106のハードディスクに保存
したり、容量に応じてフロッピーディスクに保存した
り、あるいは、通信ユニット109を介して外部に通知
するようにしてもよい。
【0054】以上の説明では、キーボード104やマウ
ス105から検索質問を入力し、ディスプレイ108に
検索結果を表示するスタンドアロンスタイルの一例を挙
げているが、インターネットやLAN(ローカルエリア
ネットワーク)などのネットワーク上にこの類似文書検
索装置を接続させた場合には、その装置がネットワーク
コンピュータとなる。この場合には、通信ユニット10
9を介して外部装置との間で、検索質問を入力し、その
検索結果(ソート結果)を回答することができる。
【0055】以上説明したように、この実施の形態1に
よれば、入力された検索質問のキーワード別に、あらか
じめ用意された複数の文書に基づいて文書毎の類似度を
算出して、その算出された文書毎の類似度からあらかじ
め用意されたしきい値以上の類似度をもつ文書を判定
し、その判定されたすべての文書に基づいて文書毎の類
似度を集計して回答する。これにより、転置インデック
ス106cに登録された全文書が集計対象とはならず、
検索質問中のキーワード毎に集計対象を絞り込んだ状態
で検索結果を得ることができるので、類似文書の検索を
高速化し、かつ、その検索結果に要する記憶容量を小さ
く押さえることが可能である。
【0056】また、集計の際に、類似度をもつ文書の順
番を類似度の大きい方から並ぶようにソートするように
したので、類似度の大小関係を整理した状態で回答する
ことが可能である。
【0057】また、ネットワークを介して検索質問の入
力およびその回答を行うようにしたので、スタンドアロ
ンスタイルに限定されず、ネットワークコンピュータと
しての利用を図ることが可能である。
【0058】また、各キーワードについて集計前に[文
書番号,類似度]の組の絞り込みを行うようにしたの
で、検索の高速化、ならびに、検索結果に要する記憶容
量の抑制のため、各キーワードについて、しきい値以上
の類似度をもつ文書が必要以上に多くなることを事前に
防止することが可能である。
【0059】(実施の形態2)さて、前述の実施の形態
1では、各キーワードのしきい値を設定する場合につい
て述べていないが、以下に説明する実施の形態2では、
各キーワードのしきい値を設定する具体例について述べ
る。なお、この実施の形態1は、全体構成(機能的、ハ
ードウェア的)を前述した実施の形態1と同様のものと
するため、図示およびその説明を省略する。
【0060】そこで、以下に構成,動作ともに要部につ
いてのみ説明する。まず、構成について説明する。図1
1はこの発明の実施の形態2による類似文書検索装置の
要部を機能的に示すブロック図である。この実施の形態
2では、機能的な構成の一部が前述した実施の形態1と
異なる。すなわち、図11に示したように、図1のしき
い値設定部5に替わってしきい値設定部50が設けられ
る。
【0061】しきい値設定部50は、サイズ設定部5
1,サンプリング部52およびしきい値算出部53によ
り構成される。サイズ設定部51は、しきい値を設定す
る上で、キーワード別に最大候補数を設定する。この設
定は、ユーザインタフェースを通じて行われる。サンプ
リング部52は、エントリされたキーワードの文書につ
いて転置インデックス106cの先頭から所定個数分の
文書をサンプリングして、類似度の分布を求める。しき
い値算出部53は、サンプリングで求められた類似度の
分布とサイズ設定部51で設定された最大候補数とから
しきい値を算出し、注目のキーワード(しきい値の設定
対象となるキーワードの意味)とそのしきい値とを対応
させてRAM103もしくはハードディスクに登録す
る。
【0062】つぎに、動作について説明する。図12は
この実施の形態2による動作の要部を説明するフローチ
ャートであり、図13はこの実施の形態2によるキーワ
ード別の平均,分散およびしきい値の関係例を示す図で
ある。なお、以下に説明するしきい値設定部50とこれ
に関連する各部の機能とは、HDD106のアプリケー
ション106aに付加されるものである。なお、しきい
値は転置インデックス106cと同じよう事前に準備さ
れるので、以下に説明するしきい値設定処理は転置イン
デックス106cの生成と同様に事前に実施されるもの
である。
【0063】ここでは、転置インデックス106cの文
書中のあるキーワードに対してしきい値を設定する動作
について説明する。まず、転置インデックス106cの
参照により、注目のキーワードに対する[文書番号,頻
度]の組が取得され、RAM103に格納される(ステ
ップS21)。続いて、サイズ設定部51の機能とし
て、注目のキーワードについて、しきい値以上の類似度
をもつ文書がいくつ取得されるのか、その理想とされる
数が最大候補数Jとして任意にRAM103に設定され
る(ステップS22)。この最大候補数Jはユーザイン
タフェースにより任意に設定される数である。
【0064】さらに、サンプリング部52の機能とし
て、しきい値を求める際に使用する文書の数がサンプリ
ング数Sとして任意にRAM103に設定される(ステ
ップS23)。このサンプリング数Sは、ユーザインタ
フェースにより任意に設定される数であり、サンプリン
グ対象の先頭からS番目までの範囲を意味する。
【0065】ステップS21で取得された[文書番号,
頻度]の組のうち、先頭からS個(サンプリング数S)
までの組に対して文書の類似度が算出され、さらに平
均,分散などの統計量が求められる(ステップS2
4)。ここで、平均をM、分散をσで表す。
【0066】そして、類似度の分布が特定の統計モデル
に基づいている、すなわち正規分布をしていると仮定す
ると、先頭からJ個(最大候補数J)が得られるような
類似度のしきい値が次式(2)により求められる(ステ
ップS25)。
【0067】Th=M+σ*D ・・・(2) ここで、Thはしきい値であり、Dは距離値である。こ
の距離値Dは、正規分布中、上位のJ/S(%)を満た
す平均の値である。以上のステップS24およびステッ
プS25は、しきい値算出部53の機能を示している。
【0068】このようにして求められたしきい値は、注
目のキーワードに対応させてRAM103もしくはハー
ドディスクに登録される(ステップS26)。具体的に
は、キーワード“日本”,“金メダル”別に、平均,分
散,しきい値のデータが記憶される(図13参照)。図
13の例では、キーワード“日本”に関する平均,分
散,しきい値は、それぞれ3.3,1.4,5.3とな
り、キーワード“金メダル”に関する平均,分散,しき
い値は、それぞれ4.6,1.7,6.3となる。
【0069】なお、このしきい値設定処理は、単語ひと
つよりなるキーワードに限らず、複合語,N−gram
などの文字列についても適用可能とする。複合語,N−
gramなどの文字列を単語として認識させるには、キ
ーボード104やマウス105を操作して単語としての
登録を行っておけばよい。
【0070】以上説明したように、この実施の形態2に
よれば、任意の文書数だけをサンプリングした文書で事
前にキーワード別のしきい値を求めておくようにしたの
で、しきい値の精度を無視すれば、各キーワードについ
て全文書を対象にしてしきい値を求めるような処理負担
を軽減することが可能である。
【0071】(実施の形態3)さて、上述した実施の形
態2を前述の実施の形態1に適用したものを実施の形態
3として以下に説明する。実施の形態によるしきい値設
定方法は、前述した実施の形態1において、例えばしき
い値が設定されていないキーワードがあった場合にその
キーワードについて文書を絞り込む前に実施すればよ
い。
【0072】図14はこの発明の実施の形態3による動
作の要部を説明するフローチャートである。図5のステ
ップS9においてキーワードの[文書番号,類似度]が
取得されると、つぎに、注目のキーワードについてしき
い値がRAM103もしくはハードディスクに登録され
ているか否か判断する(ステップS41)。ここで、キ
ーワードに対するしきい値があらかじめ登録されている
か否かは、キーワードが複合語か、それとも文字N−g
ramかによって決まる。
【0073】すなわち、キーワード“日本”のように、
単語ひとつで構成されるキーワードについては、あらか
じめしきい値を計算して対応付けておくことが可能であ
る。一方、複合語や文字N−gramの場合には、単語
の組み合わせなどの点から、すべてのケースについてあ
らかじめ計算しておくと、その記憶のために、転置イン
デックス106cとして膨大な記憶容量が必要となる。
そこで、この実施の形態3では、複合語や文字N−gr
amを構成するキーワードについては、検索の時点でし
きい値を計算することにする。この複合語やN−gra
mに該当するものを前述のキーワード“金メダル”とし
て以下に説明する。
【0074】したがって、ステップS41では、キーワ
ード“日本”については、しきい値は登録済みであると
判断されるが、キーワード“金メダル”については、し
きい値は未登録であると判断される。このため、キーワ
ード“日本”の場合には、処理は、前述した実施の形態
1の通りにステップS10に移行するが、キーワード
“金メダル”の場合には、処理はステップS42に移行
する。
【0075】このステップS42では、前述した実施の
形態2によるしきい値設定処理(図12参照)が実施さ
れる。このように、ステップS42で未登録のしきい値
が設定されると、その未登録のしきい値とこれに対応す
るキーワードとが対応付けてRAM103もしくはハー
ドディスクに登録される。この後、処理はステップS1
1に移行する。
【0076】以上説明したように、この実施の形態3に
よれば、検索処理中であっても、任意の文書数だけをサ
ンプリングした文書で事前にキーワード別のしきい値を
求めておくようにしたので、しきい値の精度を無視すれ
ば、検索処理中において、各キーワードについて全文書
を対象にしてしきい値を求めるような処理負担を軽減す
ることが可能である。
【0077】(実施の形態4)さて、この発明は、以下
に説明する実施の形態4のように、前述した実施の形態
1〜3で述べたしきい値以上の類似度をもつ文書につい
て、図9に示したごとく高類似文書順に並ぶインデック
スをあらかじめハードディスクなどの記憶装置に登録す
るように構成してもよい。以下に、動作についてのみ説
明する。
【0078】図15はこの発明の実施の形態4による動
作の要部を説明するフローチャートであり、図16はこ
の実施の形態4によるインデックス例を示す図である。
前述した実施の形態2では、図12のステップS26に
よりしきい値を登録していたが、この実施の形態4で
は、ステップS26はなく、ステップS25の後にステ
ップS51に移行する。
【0079】ステップS51では、RAM103に設け
られた最大候補数J分のヒープに対して、ステップS2
5で求められたしきい値Th以上の類似度をもつ文書す
なわち[文書番号,類似度]の組がプッシュされる。ヒ
ープにJ個分の[文書番号,類似度]の組がプッシュさ
れた後は、さらにヒープへのプッシュが行われると、最
小の類似度をもつ組(要素)から捨てられる。このた
め、最終的には、類似度の大きい方からJ個分の組が抽
出された形でヒープに残る。
【0080】そして、より正確なしきい値を求める指示
の有無がユーザインタフェースを通じて確認され(ステ
ップS52)、ステップS25で求めたしきい値よりも
さらに正確なしきい値を求める場合には、処理はステッ
プS53に移行し、一方、ステップS25で求めたしき
い値で十分な場合には、処理はステップS54に移行す
る。ステップS53では、ステップS51でヒープにプ
ッシュされた[文書番号,類似度]の組を類似度の小さ
い順にソートし、しきい値Thを最小の類似度で更新す
る処理が行われる。この後、処理はステップS54に移
行する。
【0081】ステップS54において、ヒープ内の[文
書番号,類似度]の組は文書番号順に昇順にソートさ
れ、そのソート結果によりインデックスが構築される。
このインデックスは例えばハードディスク(HDD10
6)に登録される。インデックスの具体例としては、図
16に示した構成となる。
【0082】すなわち、インデックスは、キーワード
“日本”,“金メダル”のそれぞれに対してしきい値と
[文書番号,類似度]の組が対応付けた構成となる。図
16に示したインデックスでは、エントリが上位S個の
みから構成され、さらにより正確なしきい値となったた
め、前述したしきい値とは異なる値をとっている。キー
ワード“日本”について、しきい値は2.9となり、
[文書番号,類似度]の組は、[10,10.3],
[14,3.1],[35,4.0]となる。また、キ
ーワード“金メダル”について、しきい値は3.5とな
り、[文書番号,類似度]の組は、[10,3.5],
[41,3.9],[41,3.9]…となる。
【0083】このようにして転置インデックス106c
に登録されている各キーワードのインデックスをあらか
じめ用意しておけば、前述した実施の形態1におけるキ
ーワード別類似度算出部3およびキーワード別高類似文
書判定部4の機能が不要となる(図1参照)。すなわ
ち、実施の形態1による図4および図5のフローチャー
トのうち、図4のフローチャートで示される動作で足り
ることになる。この実施の形態4は、ステップS1〜ス
テップS7のうちでステップS5を除く動作で足り、ス
テップS6においては、キーワード別のインデックスを
ハードディスクから抽出し、インデックスに示されるソ
ート結果を累計して、一定個数分の文書番号を得るよう
にすればよい。
【0084】以上説明したように、この実施の形態4に
よれば、キーワード別にしきい値以上の類似度をもつ文
書についてあらかじめインデックスとして形成しておけ
ば、転置インデックス106cの文書数が膨大になれば
なるほど、実施の形態1におけるしきい値と各文書の類
似度との比較処理が省けることによる時間短縮の効果が
大きくなる。これにより、前述した実施の形態1〜3に
くらべてさらに検索処理を高速化することが可能であ
る。
【0085】
【発明の効果】以上説明したように、請求項1の発明に
よれば、入力された検索質問のキーワード別に、あらか
じめ用意された複数の文書に基づいて文書毎の類似度を
算出して、その算出された文書毎の類似度からあらかじ
め用意されたしきい値以上の類似度をもつ文書を判定
し、その判定されたすべての文書に基づいて文書毎の類
似度を集計して回答するようにしたので、全文書が集計
対象とはならず、検索質問中のキーワード毎に集計対象
を絞り込んだ状態で検索結果を得ることができ、これに
よって、類似文書の検索を高速化し、かつ、その検索結
果に要する記憶容量を小さく押さえることが可能が可能
な類似文書検索装置が得られるという効果を奏する。
【0086】また、請求項2の発明によれば、請求項1
の発明において、任意の文書数だけをサンプリングした
文書で事前にキーワード別のしきい値を求めておくよう
にしたので、しきい値の精度を無視すれば、各キーワー
ドについて全文書を対象にしてしきい値を求めるような
処理負担を軽減することが可能な類似文書検索装置が得
られるという効果を奏する。
【0087】また、請求項3の発明によれば、任意の文
書数だけをサンプリングした文書で事前にキーワード別
のしきい値を求め、そのしきい値以上の類似度をもつ文
書とその類似度との関係をインデックスとしてあらかじ
め用意しておき、入力された検索質問のキーワード別
に、インデックス中の文書だけで文書毎の類似度を集計
して回答するようにしたので、請求項1の発明と比べ
て、検索時に、検索質問中のキーワード別に文書の絞り
込みが不要となり、インデックスから直接類似度の集計
を行うことができ、これによって、膨大な文書数のデー
タベースを検索する場合であっても、類似検索を一層高
速化することが可能な類似文書検索装置が得られるとい
う効果を奏する。
【0088】また、請求項4の発明によれば、請求項
1,2,3のいずれか一つの発明において、集計の際
に、類似度をもつ文書の順番を類似度の大きい方から並
ぶようにソートするようにしたので、類似度の大小関係
を整理した状態で回答することが可能な類似文書検索装
置が得られるという効果を奏する。
【0089】また、請求項5の発明によれば、請求項1
〜4のいずれか一つの発明において、ネットワークを介
して検索質問の入力およびその回答を行うようにしたの
で、スタンドアロンスタイルに限定されず、ネットワー
クコンピュータとしての利用を図ることが可能な類似文
書検索装置が得られるという効果を奏する。
【0090】また、請求項6の発明によれば、請求項1
又は2の発明において、各キーワードについて任意の文
書数だけを判定結果として得るようにしたので、検索の
高速化、ならびに、検索結果に要する記憶容量の抑制の
ため、各キーワードについて、しきい値以上の類似度を
もつ文書が必要以上に多くなることを事前に防止するこ
とが可能な類似文書検索装置が得られるという効果を奏
する。
【0091】また、請求項7の発明によれば、入力され
た検索質問のキーワード別に、あらかじめ用意された複
数の文書に基づいて文書毎の類似度を算出して、その算
出された文書毎の類似度からあらかじめ用意されたしき
い値以上の類似度をもつ文書を判定し、その判定された
すべての文書に基づいて文書毎の類似度を集計して回答
する工程にしたので、全文書が集計対象とはならず、検
索質問中のキーワード毎に集計対象を絞り込んだ状態で
検索結果を得ることができ、これによって、類似文書の
検索を高速化し、かつ、その検索結果に要する記憶容量
を小さく押さえることが可能が可能な類似文書検索方法
が得られるという効果を奏する。
【0092】また、請求項8の発明によれば、任意の文
書数だけサンプリングした文書で事前にキーワード別の
しきい値を求め、そのしきい値以上の類似度をもつ文書
とその類似度との関係をインデックスとしてあらかじめ
用意しておき、入力された検索質問のキーワード別に、
インデックス中の文書だけで文書毎の類似度を集計して
回答する工程にしたので、請求項7の発明と比べて、検
索時に、検索質問中のキーワード別に文書の絞り込みが
不要となり、インデックスから直接類似度の集計を行う
ことができ、これによって、膨大な文書数のデータベー
スを検索する場合であっても、類似検索を一層高速化す
ることが可能な類似文書検索方法が得られるという効果
を奏する。
【図面の簡単な説明】
【図1】この発明の実施の形態1による類似文書検索装
置を機能的に示したブロック図である。
【図2】この実施の形態1による類似文書検索の原理を
説明する図である。
【図3】この発明の実施の形態1による類似文書検索装
置をハードウェア的に示したブロック図である。
【図4】この実施の形態1による動作を説明するフロー
チャートである。
【図5】この実施の形態1による動作を説明するフロー
チャートである。
【図6】この実施の形態1において類似度を使用したイ
ンデックスの一例を示す図である。
【図7】この実施の形態1によるキーワードとしきい値
との関係例を示す図である。
【図8】この実施の形態1によるキーワードとしきい値
以上の類似度をもつ文書との関係例を示す図である。
【図9】図8の関係例をキーワード別に文書番号順にソ
ートした場合の一例を示す図である。
【図10】この実施の形態1による検索結果を示す図で
ある。
【図11】この発明の実施の形態2による類似文書検索
装置の要部を機能的に示すブロック図である。
【図12】この実施の形態2による動作の要部を説明す
るフローチャートである。
【図13】この実施の形態2によるキーワード別の平
均,分散およびしきい値の関係例を示す図である。
【図14】この発明の実施の形態3による動作の要部を
説明するフローチャートである。
【図15】この発明の実施の形態4による動作の要部を
説明するフローチャートである。
【図16】この実施の形態4によるインデックス例を示
す図である。
【図17】従来の類似文書検索装置による類似文書検索
の原理を説明する図である。
【符号の説明】
1 質問入力部 2 キーワード分割部 3 キーワード別類似度算出部 4 キーワード別高類似度判定部 5,50 しきい値設定部 6 全類似度累計およびソート部 7 回答出力部 51 サイズ設定部 52 サンプリング部 53 しきい値算出部 101 CPU 102 ROM 103 RAM 104 キーボード 105 マウス 106 HDD 107 FDD 108 ディスプレイ 109 通信ユニット

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数のキーワードを含んだ検索質問を入
    力する質問入力手段と、 前記質問入力手段により入力された検索質問のキーワー
    ド別に、あらかじめ用意された複数の文書に基づいて文
    書毎の類似度を算出する類似度算出手段と、 前記キーワード別に、前記類似度算出手段により算出さ
    れた文書毎の類似度からあらかじめ用意されたしきい値
    以上の類似度をもつ文書を判定する判定手段と、 前記キーワード別に前記判定手段により判定された文書
    だけで文書毎の類似度を集計する集計手段と、 前記集計手段の集計結果を回答する回答手段と、 を備えたことを特徴とする類似文書検索装置。
  2. 【請求項2】 前記あらかじめ用意された複数の文書か
    ら任意の文書数だけサンプリングするサンプリング手段
    と、前記サンプリング手段によりサンプリングされた文
    書に基づいて前記複数の文書に出現するキーワード別に
    前記あらかじめ用意されたしきい値を算出する算出手段
    と、前記算出手段により算出されたしきい値を該当する
    キーワードに対応付けて登録するしきい値登録手段とを
    さらに有したことを特徴とする請求項1に記載の類似文
    書検索装置。
  3. 【請求項3】 あらかじめ用意された複数の文書から任
    意の文書数だけをサンプリングするサンプリング手段
    と、 前記サンプリング手段によりサンプリングされた文書に
    基づいて前記複数の文書に出現するキーワード別に文書
    を絞り込むための類似度で示すしきい値を算出する算出
    手段と、 キーワード別に前記算出手段により算出されたしきい値
    以上の類似度をもつ文書を前記複数の文書から抽出する
    第1抽出手段と、 キーワード別に前記第1抽出手段により抽出された文書
    の当該文書と類似度との関係をインデックスとして登録
    するインデックス登録手段と、 複数のキーワードを含んだ検索質問を入力する質問入力
    手段と、 前記質問入力手段により入力された検索質問のキーワー
    ド別に、前記インデックス登録手段に登録されたインデ
    ックスを抽出する第2抽出手段と、 前記第2抽出手段により抽出されたすべてのインデック
    スに基づいて文書毎の類似度を集計する集計手段と、 前記集計手段の集計結果を回答する回答手段と、 を備えたことを特徴とする類似文書検索装置。
  4. 【請求項4】 前記集計手段は、集計のため、前記キー
    ワード別に前記判定手段により判定されたすべての文書
    に基づいて文書毎の類似度を累計し、その累計された類
    似度をもつ文書を類似度の大きい方から並ぶようにソー
    トすることを特徴とする請求項1〜3のいずれか一つに
    記載の類似文書検索装置。
  5. 【請求項5】 前記類似文書検索装置はネットワークに
    接続され、前記質問入力手段は前記ネットワークを介し
    て前記検索質問を入力し、前記回答手段は、集計結果を
    前記ネットワークを介して回答することを特徴とする請
    求項1〜4のいずれか一つに記載の類似文書検索装置。
  6. 【請求項6】 前記判定手段は、任意の文書数分だけを
    判定結果として得ることを特徴とする請求項1又は2に
    記載の類似文書検索装置。
  7. 【請求項7】 複数のキーワードを含んだ検索質問を入
    力する第1工程と、 前記第1工程により入力された検索質問のキーワード別
    に、あらかじめ用意された複数の文書に基づいて文書毎
    の類似度を算出する第2工程と、 前記キーワード別に、前記第2工程により算出された文
    書毎の類似度からあらかじめ用意されたしきい値以上の
    類似度をもつ文書を判定する第3工程と、 前記キーワード別に前記第3工程により判定されたすべ
    ての文書に基づいて文書毎の類似度を集計する第4工程
    と、 前記第4工程の集計結果を回答する第5工程と、 を含んだことを特徴とする類似文書検索方法。
  8. 【請求項8】 あらかじめ用意された複数の文書から任
    意の文書数だけをサンプリングする第1工程と、 前記第1工程によりサンプリングされた文書に基づいて
    前記複数の文書に出現するキーワード別に文書を絞り込
    むための類似度で示すしきい値を算出する第2工程と、 キーワード別に前記第2工程により算出されたしきい値
    以上の類似度をもつ文書を前記複数の文書から抽出する
    第3工程と、 キーワード別に前記第3工程により抽出された文書につ
    いて当該文書と類似度との関係をインデックスとしてあ
    らかじめ用意されたメモリに登録する第4工程と、 複数のキーワードを含んだ検索質問を入力する第5工程
    と、 前記第5工程により入力された検索質問のキーワード別
    に、前記第4工程により前記あらかじめ用意されたメモ
    リに登録されたインデックスを抽出する第6工程と、 前記第6工程により抽出されたすべてのインデックスに
    基づいて文書毎の類似度を集計する第7工程と、 前記第7工程の集計結果を回答する第8工程と、 を含んだことを特徴とする類似文書検索方法。
JP22230197A 1997-08-19 1997-08-19 類似文書検索装置および類似文書検索方法 Expired - Fee Related JP3715413B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22230197A JP3715413B2 (ja) 1997-08-19 1997-08-19 類似文書検索装置および類似文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22230197A JP3715413B2 (ja) 1997-08-19 1997-08-19 類似文書検索装置および類似文書検索方法

Publications (2)

Publication Number Publication Date
JPH1166086A true JPH1166086A (ja) 1999-03-09
JP3715413B2 JP3715413B2 (ja) 2005-11-09

Family

ID=16780224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22230197A Expired - Fee Related JP3715413B2 (ja) 1997-08-19 1997-08-19 類似文書検索装置および類似文書検索方法

Country Status (1)

Country Link
JP (1) JP3715413B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243247A (ja) * 2000-03-02 2001-09-07 Satake Corp 分散処理情報検索装置及びその方法
US7548845B2 (en) 2005-12-08 2009-06-16 International Business Machines Corporation Apparatus, method, and program product for translation and method of providing translation support service
JP2010198288A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 検索方法及び装置
JP2011085991A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法、文書検索装置、文書検索プログラム
US8983977B2 (en) 2006-03-01 2015-03-17 Nec Corporation Question answering device, question answering method, and question answering program
AU2015210456A1 (en) * 2015-03-10 2016-09-29 Fujifilm Business Innovation Corp. Access right estimation apparatus and access right estimation program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02130673A (ja) * 1988-11-10 1990-05-18 Chubu Nippon Denki Software Kk データ検索方式
JPH07146880A (ja) * 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02130673A (ja) * 1988-11-10 1990-05-18 Chubu Nippon Denki Software Kk データ検索方式
JPH07146880A (ja) * 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置及び方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243247A (ja) * 2000-03-02 2001-09-07 Satake Corp 分散処理情報検索装置及びその方法
US7548845B2 (en) 2005-12-08 2009-06-16 International Business Machines Corporation Apparatus, method, and program product for translation and method of providing translation support service
US8983977B2 (en) 2006-03-01 2015-03-17 Nec Corporation Question answering device, question answering method, and question answering program
JP2010198288A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 検索方法及び装置
JP2011085991A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法、文書検索装置、文書検索プログラム
AU2015210456A1 (en) * 2015-03-10 2016-09-29 Fujifilm Business Innovation Corp. Access right estimation apparatus and access right estimation program
US9779263B2 (en) 2015-03-10 2017-10-03 Fuji Xerox Co., Ltd. Access right estimation apparatus and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP3715413B2 (ja) 2005-11-09

Similar Documents

Publication Publication Date Title
JP3918531B2 (ja) 類似文書検索方法およびシステム
EP0510634B1 (en) Data base retrieval system
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
JP3225912B2 (ja) 情報検索装置、方法及び記録媒体
US20040230570A1 (en) Search processing method and apparatus
KR20010105241A (ko) 정보검색 시스템
JPH1074210A (ja) 文献検索支援方法及び装置およびこれを用いた文献検索サービス
US7440938B2 (en) Method and apparatus for calculating similarity among documents
JP3654850B2 (ja) 情報検索システム
CN105808739A (zh) 基于Borda算法的搜索结果排序方法
CN112905768A (zh) 一种数据交互方法、装置及存储介质
CN101248433B (zh) 具有签名产生及关联性检测的匹配引擎
JP3715413B2 (ja) 類似文書検索装置および類似文書検索方法
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
JPH05225238A (ja) データベース検索システム
JP3151730B2 (ja) データベース検索システム
CN110688559A (zh) 一种检索方法及装置
JPH064584A (ja) 文章検索装置
JP3249743B2 (ja) 文書検索システム
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JP2732661B2 (ja) テキスト型データベース装置
JP3317341B2 (ja) 類似度計算方法及び装置、類似文書検索方法及び装置
CN111858830A (zh) 基于自然语言处理的卫生监督执法数据检索系统及其方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040419

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040602

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050607

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050825

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080902

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090902

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090902

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100902

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100902

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110902

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120902

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120902

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130902

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees