JP2004334803A - 文書検索装置 - Google Patents

文書検索装置 Download PDF

Info

Publication number
JP2004334803A
JP2004334803A JP2003133629A JP2003133629A JP2004334803A JP 2004334803 A JP2004334803 A JP 2004334803A JP 2003133629 A JP2003133629 A JP 2003133629A JP 2003133629 A JP2003133629 A JP 2003133629A JP 2004334803 A JP2004334803 A JP 2004334803A
Authority
JP
Japan
Prior art keywords
document
search
similarity
logical
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003133629A
Other languages
English (en)
Inventor
Yosuke Kunishi
洋介 国司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shin Etsu Polymer Co Ltd
Shin Etsu Chemical Co Ltd
Original Assignee
Shin Etsu Polymer Co Ltd
Shin Etsu Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shin Etsu Polymer Co Ltd, Shin Etsu Chemical Co Ltd filed Critical Shin Etsu Polymer Co Ltd
Priority to JP2003133629A priority Critical patent/JP2004334803A/ja
Publication of JP2004334803A publication Critical patent/JP2004334803A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索結果に占めるノイズの割合が小さい文書検索装置を提供する。
【解決手段】文書検索装置1は、入力手段10、一次抽出手段30、類似度算出手段40、二次抽出手段50、及び出力手段60を備える。入力手段10は、論理検索条件及び基準文書を入力するためのものである。一次抽出手段30は、検索対象文書の中から、論理検索条件を満たすものを抽出する。類似度算出手段40は、一次抽出手段30により抽出された文書のそれぞれについて基準文書と類似する程度を表す類似度を算出する。二次抽出手段50は、一次抽出手段30により抽出された文書の中から、基準値以上の類似度をもつものを抽出する。出力手段60は、二次抽出手段50による抽出結果を出力する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、検索対象となる複数の検索対象文書の中から所望の文書を検索する文書検索装置に関する。
【0002】
【従来の技術】
多数の文書の中から特定の文書を検索する手法としては、論理検索が多用されている。この検索手法は、文書の分類及び著者等の書誌的事項、並びに文書中の文字列等からなるキーワードを、論理和、論理積及び否定等で組み合わせたものを検索条件とし、その条件を満たす文書を抽出するというものである。
【0003】
【特許文献1】
特開平2002−024280号公報
【0004】
【発明が解決しようとする課題】
しかしながら、論理検索においては、検索条件の決定に熟練を要し、それゆえ多数の文書の中から所望の文書を漏れなく検索することが困難である。また、適切な検索条件を決定できたとしても、文書中における同音異義語、同義語及び表記揺れの存在、並びに文脈による単語の意味の変化等のために、論理検索において漏れのない検索を行うことは事実上不可能である。
【0005】
そこで、検索漏れを少なくするためには、検索条件を緩めたり、或いは検索対象を広げたりすることが考えられる。しかし、この場合には、抽出された文書の中に含まれる意図しない文書の割合、すなわちノイズの割合が増大する。そして、ノイズの割合が大ければ大きいほど、抽出された文書の中から所望の文書だけを人手によって抜き出す作業負担も大きくなってしまうという問題がある。
【0006】
ところで、近年では、上述の論理検索に対して、概念検索、或いは類似文書検索という検索手法が存在する。概念検索においては、自然語の文章が検索条件とされ、その文章を構成する個々の単語の意味ベクトルに基づいて文書の検索が行われる。また、類似文書検索においては、所望の文書に近い内容を有する基準文書が予め用意され、その基準文書に基づいて文書の検索が行われる(例えば、特許文献1参照)。これらの検索手法は、論理検索に比べると、検索漏れが少ないという利点がある。
【0007】
しかしながら、概念検索及び類似文書検索の何れにおいても、検索結果におけるノイズの割合が大きく、それゆえ、所望の文書だけを得るには、やはり人手による甚大な抜出し作業が欠かせない。
【0008】
そこで、本発明は、上記課題に鑑みてなされたものであり、検索結果に占めるノイズの割合が小さい文書検索装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
上記課題を解決するために、本発明による文書検索装置は、検索対象となる複数の検索対象文書の中から、所望の文書を検索する文書検索装置であって、(1)一の検索キーワード又は論理演算子で結合された二以上の検索キーワードから構成される論理検索条件と、所望の文書と近い内容を有する基準文書とを入力する入力手段と、(2)入力手段により入力された論理検索条件に基づいて複数の検索対象文書のそれぞれに対して論理検索を行うことにより、複数の検索対象文書のうち論理検索条件を満たすものを抽出する一次抽出手段と、(3)一次抽出手段により抽出された検索対象文書のそれぞれに対し、入力手段により入力された基準文書との比較を行うことにより、基準文書と類似する程度を表す類似度を算出する類似度算出手段と、(4)一次抽出手段により抽出された検索対象文書のうち、類似度算出手段により算出された類似度が所定の基準値以上であるものを抽出する二次抽出手段と、(5)二次抽出手段における抽出結果を出力する出力手段と、を備えることを特徴とする。
【0010】
この文書検索装置においては、複数の検索対象文書に対し、先ず一次抽出手段による論理検索が行われる。次に、この論理検索に基づいて抽出された検索対象文書に対し、類似度算出手段による基準文書との比較が行われる。これにより、一次抽出により抽出された文書のそれぞれについて類似度が算出される。そして、一次抽出により抽出された文書の中から、基準値以上の類似度をもつ文書が二次抽出手段により抽出される。
【0011】
このように、検索対象文書に対して、論理検索による抽出と類似文書検索による抽出とを共に行うことにより、両検索において共通して抽出される文書のみが最終的に抽出される。ここで「類似文書検索」とは、類似度算出手段による類似度の算出動作と二次抽出手段による抽出動作とを併せたものをいう。ところで、論理検索と類似文書検索とでは、検索結果に含まれるノイズの性格が異なる。すなわち、両検索においてノイズとして抽出される文書のうち大部分が相異なる文書である。したがって、両検索において共通して抽出される文書のみを抽出すれば、必然的にノイズの低減を図ることができる。よって、検索結果に占めるノイズの割合が小さい文書検索装置が実現される。
【0012】
本発明による文書検索装置は、検索対象となる複数の検索対象文書の中から、所望の文書を検索する文書検索装置であって、(1)一の検索キーワード又は論理演算子で結合された二以上の検索キーワードから構成される論理検索条件と、所望の文書と近い内容を有する基準文書とを入力する入力手段と、(2)複数の検索対象文書のそれぞれに対し、入力手段により入力された基準文書との比較を行うことにより、基準文書と類似する程度を表す類似度を算出する類似度算出手段と、(3)複数の検索対象文書のうち、類似度算出手段により算出された類似度が所定の基準値以上であるものを抽出する一次抽出手段と、(4)入力手段により入力された論理検索条件に基づいて、一次抽出手段により抽出された検索対象文書のそれぞれに対して論理検索を行うことにより、一次抽出手段により抽出された検索対象文書のうち論理検索条件を満たすものを抽出する二次抽出手段と、(5)二次抽出手段における抽出結果を出力する出力手段と、を備えることを特徴としてもよい。
【0013】
この文書検索装置においては、複数の検索対象文書に対し、先ず類似度算出手段による基準文書との比較が行われる。これにより、検索対象文書のそれぞれについて類似度が算出される。そして、検索対象文書の中から、基準値以上の類似度をもつ文書が一次抽出手段により抽出される。次に、この類似度に基づいて抽出された検索対象文書に対し、二次抽出手段による論理検索が行われる。
【0014】
このように、検索対象文書に対して、論理検索による抽出と類似文書検索による抽出とを共に行うことにより、両検索において共通して抽出される文書のみが最終的に抽出される。ここで「類似文書検索」とは、類似度算出手段による類似度の算出動作と一次抽出手段による抽出動作とを併せたものをいう。よって、上述の通り、検索結果に占めるノイズの割合が小さい文書検索装置が実現される。
【0015】
本発明による文書検索装置は、検索対象となる複数の検索対象文書の中から、所望の文書を検索する文書検索装置であって、(1)一の検索キーワード又は論理演算子で結合された二以上の検索キーワードから構成される論理検索条件と、所望の文書と近い内容を有する基準文書とを入力する入力手段と、(2)入力手段により入力された論理検索条件に基づいて複数の検索対象文書のそれぞれに対して論理検索を行うことにより、複数の検索対象文書のうち論理検索条件を満たすものを抽出する第1の一次抽出手段と、(3)複数の検索対象文書のそれぞれに対し、入力手段により入力された基準文書との比較を行うことにより、基準文書と類似する程度を表す類似度を算出する類似度算出手段と、(4)複数の検索対象文書のうち、類似度算出手段により算出された類似度が所定の基準値以上であるものを抽出する第2の一次抽出手段と、(5)第1の一次抽出手段における抽出結果と第2の一次抽出手段における抽出結果とを比較することにより、複数の検索対象文書のうち第1抽出手段及び第2抽出手段の何れにおいても抽出されたものを更に抽出する二次抽出手段と、(6)二次抽出手段における抽出結果を出力する出力手段と、を備えることを特徴としてもよい。
【0016】
この文書検索装置においては、複数の検索対象文書に対し、第1の一次抽出手段による論理検索が行われる。また、この論理検索とは別に、複数の検索対象文書に対し、類似度算出手段による基準文書との比較が行われる。これにより、検索対象文書のそれぞれについて類似度が算出される。そして、検索対象文書の中から、基準値以上の類似度をもつ文書が第2の一次抽出手段により抽出される。さらに、第1及び第2の一次抽出手段において共通して抽出された文書が二次抽出手段により抽出される。
【0017】
このように、検索対象文書に対して、論理検索による抽出と類似文書検索による抽出とを共に行うことにより、両検索に共通して掛かる文書のみが最終的に抽出される。ここで「類似文書検索」とは、類似度算出手段による類似度の算出動作と第2の一次抽出手段による抽出動作とを併せたものをいう。よって、上述の通り、検索結果に占めるノイズの割合が小さい文書検索装置が実現される。
【0018】
本発明による文書検索装置は、検索対象となる複数の検索対象文書の中から、所望の文書を検索する文書検索装置であって、(1)一の検索キーワード又は論理演算子で結合された二以上の検索キーワードから構成される論理検索条件を入力する入力手段と、(2)入力手段により入力された論理検索条件に基づいて複数の検索対象文書のそれぞれに対して論理検索を行うことにより、複数の検索対象文書のうち論理検索条件を満たすものを抽出する一次抽出手段と、(3)一次抽出手段により抽出された検索対象文書の中から、所望の文書と近い内容を有する基準文書を選択する基準文書選択手段と、(4)一次抽出手段により抽出された検索対象文書のそれぞれに対し、選択手段により選択された基準文書との比較を行うことにより、基準文書と類似する程度を表す類似度を算出する類似度算出手段と、(5)一次抽出手段により抽出された検索対象文書のうち、類似度算出手段により算出された類似度が所定の基準値以上であるものを抽出する二次抽出手段と、(6)二次抽出手段における抽出結果を出力する出力手段と、を備えることを特徴としてもよい。
【0019】
この文書検索装置においては、複数の検索対象文書に対し、先ず一次抽出手段による論理検索が行われる。次に、基準文書選択手段によって、この論理検索に基づいて抽出された検索対象文書の中から基準文書が選択される。次に、論理検索に基づいて抽出された検索対象文書に対し、類似度算出手段による基準文書との比較が行われる。これにより、一次抽出により抽出された文書のそれぞれについて類似度が算出される。そして、一次抽出により抽出された文書の中から、基準値以上の類似度をもつ文書が二次抽出手段により抽出される。
【0020】
このように、検索対象文書に対して、論理検索による抽出と類似文書検索による抽出とを共に行うことにより、両検索に共通して掛かる文書のみが最終的に抽出される。よって、上述の通り、検索結果に占めるノイズの割合が小さい文書検索装置が実現される。また、特にこの文書検索装置によれば、一次抽出により抽出された文書の中から基準文書を選択することができるので、基準文書の入力の手間を省くことができる。
【0021】
出力手段は、類似度算出手段により算出された類似度に応じて、抽出結果をソートして表示することが好適である。この場合、文書検索装置によって最終的に抽出された文書の中から、ノイズとなる文書を除去して所望の文書を抜き出す作業が容易になる。
【0022】
【発明の実施の形態】
以下、図面と共に本発明に係る文書検索装置の好適な実施形態について詳細に説明する。なお、図面の説明においては同一の要素には同一の符号を付し、重複する説明を省略する。
【0023】
図1は、本発明による文書検索装置の一実施形態を示すブロック図である。文書検索装置1は、検索対象となる複数の検索対象文書の中から所望の文書を検索する装置である。文書検索装置1は、入力手段10、データベース20、一次抽出手段30、類似度算出手段40、及び二次抽出手段50を備えている。
【0024】
入力手段10は、論理検索条件入力手段12と基準文書入力手段14とを有している。論理検索条件入力手段12は、一次抽出手段30により行われる論理検索において用いられる論理検索条件を入力するためのものである。この論理検索条件は、1つの検索キーワード、又は論理和、論理積及び否定等の論理演算子で結合された2つ以上の検索キーワードから構成されるものである。検索キーワードとしては、例えば、文書中の自然語の文字列、文書に付与される分類、及び著者等の書誌的事項に含まれる文字列が該当する。検索対象文書が特許文献の場合であれば、例えば、各種特許分類、出願人等を検索キーワードすることができる。一方、基準文書入力手段14は、類似度算出手段40により行われる類似文書検索において用いられる基準文書を入力するためのものである。基準文書入力手段14としては、例えば、紙に記載された文書を読み込むスキャナやファイルに保存された文書を読み込むディスクドライブ等を用いることができる。
【0025】
データベース(DB)20は、検索対象文書DB22、一次抽出結果DB24、及び二次抽出結果DB26を有している。検索対象文書DB22は、文書検索装置1において検索対象となる多数の検索対象文書を格納する検索対象文書格納手段である。検索対象文書DB22に格納される検索対象文書は、適宜の入力手段により、必要に応じて文書検索装置1に入力することができる。また、検索対象文書DB22は、検索対象文書を、その検索対象文書を特定する検索対象文書コードに関連付けて格納している。例えば、検索対象文書が特許文献の場合であれば、検索対象文書コードとして各特許文献の特許番号等を用いることができる。
【0026】
また、一次抽出結果DB24は、一次抽出手段30における文書の抽出結果を格納する一次抽出結果格納手段である。同様に、二次抽出結果DB26は、二次抽出手段50における文書の抽出結果を格納する二次抽出結果格納手段である。
【0027】
一次抽出手段30は、論理検索条件入力手段12により入力された論理検索条件に基づいて、検索対象文書DB22に格納されている検索対象文書のそれぞれに対して論理検索を行う。論理検索の結果、一次抽出手段30は、多数の検索対象文書の中から論理検索条件を満たす文書のみを抽出する。また、一次抽出手段30は、この抽出結果を一次抽出結果DB24に格納させる。具体的には、抽出された文書の検索対象文書コードが一次抽出結果DB24に格納される。
【0028】
図2は、一次抽出結果DB24の一例を示す構成図である。図に示すように、一次抽出手段30により抽出された検索対象文書の検索対象文書コード(P0001,P0006等)が格納されている。
【0029】
図1に戻って、類似度算出手段40は、基準文書入力手段14により入力された基準文書と検索対象文書とを比較することにより、各検索対象文書について類似度を算出する。このとき、類似度算出手段40は、一次抽出結果DB24に格納されている検索対象文書コードを参照することにより、検索対象文書DB22に格納されている検索対象文書のうち一次抽出手段30により抽出された文書に対してのみ類似度の算出を行う。そして、類似度算出手段40は、算出した類似度を各文書の検索対象文書コードと関連付けたものを類似度算出結果として出力する。
【0030】
二次抽出手段50は、類似度算出手段40により出力された類似度算出結果を入力する。類似度算出結果を入力した二次抽出手段50は、各文書の類似度を予め設定された基準値と比較することにより、その基準値以上の類似度をもつ文書のみを抽出する。この基準値は、適宜の入力手段により文書検索装置1に入力することにより、必要に応じて変更することができる。また、二次抽出手段50は、この抽出結果を二次抽出結果DB26に格納させる。具体的には、抽出された文書の検索対象文書コードが二次抽出結果DB26に格納される。特に本実施形態においては、検索対象文書コードのみならず、検索対象文書コードに関連付けられた類似度も併せて二次抽出結果DB26に格納される。
【0031】
図3は、二次抽出結果DB26の一例を示す構成図である。図に示すように、二次抽出手段50により抽出された検索対象文書の検索対象文書コード、及び検索対象文書コードに関連付けられた類似度が格納されている。
【0032】
図1に戻って、文書検索装置1は、出力手段60を備えている。出力手段60は、二次抽出結果DB26に格納されている二次抽出手段50による抽出結果を出力する。具体的には、出力手段60は、表示手段(図示せず)を有しており、この表示手段により二次抽出結果DB26に格納されている検索対象文書コードを表示する。このとき、出力手段60は、各検索対象文書コードに関連付けられた類似度を参照することにより、類似度が高い文書の検索対象文書コードから順に、すなわち抽出結果を降順にソートして表示する。
【0033】
文書検索装置1の動作について説明する。
【0034】
図4は、文書検索装置1の動作を示すフローチャートである。先ず、入力手段10により論理検索条件及び基準文書が入力される(S10)。次に、一次抽出手段30によって、検索対象文書DB22内の検索対象文書の中から論理検索条件を満たすものだけが抽出される(S12)。ここで抽出された文書の検索対象文書コードは、一次抽出結果DB24によって格納される。次に、類似度算出手段40によって、一次抽出結果DB24内に検索対象文書コードが格納されている文書のそれぞれについて類似度が算出される(S14)。すると、二次抽出手段50によって、一次抽出結果DB24内に検索対象文書コードが格納されている文書の中から、基準値以上の類似度をもつものだけが抽出される(S16)。ここで抽出された文書の検索対象文書コード及び類似度は、二次抽出結果DB26によって格納される。最後に、出力手段60によって、二次抽出結果DB26に格納されている抽出結果が出力される(S18)。
【0035】
文書検索装置1の効果について説明する。
【0036】
文書検索装置1においては、検索対象文書に対して、論理検索による抽出と類似文書検索による抽出とを共に行うことにより、両検索において共通して抽出された文書のみが最終的に抽出されることになる。このため、検索結果に占めるノイズの割合が小さい文書検索装置1が実現されている。また、文書検索装置1においては、検索漏れを少なくすべく論理検索条件を緩めたとしても、類似文書検索においてノイズが低減される。したがって、文書検索装置1によれば、検索漏れが少なく、且つノイズの小さい検索結果を得ることが可能である。
【0037】
図5は、図1の類似度算出手段40の一構成例を示すブロック図である。類似度算出手段40は、各種文書からワードを抽出するワード抽出部70と、ワード抽出部70によって抽出されたワードを格納する各種データベース80とを備えている。
【0038】
ワード抽出部70は、基準文書からワードをキーワードとして抽出するキーワード抽出部71と、参照文書からワードを参照ワードとして抽出する参照ワード抽出部72と、検索対象文書からワードを検索ワードとして抽出する検索ワード抽出部73とを有している。ここで、参照文書とは、キーワードの評価値、すなわち各キーワードが基準文書に固有に含まれる程度を表す値を設定する際に参照される文書である。参照文書としては、例えば検索対象文書DB22(図1参照)内の全文書、或いは予めランダムに抽出した検索対象文書DB22内の一部の文書を用いることができる。また、検索の際に除外したい文書を参照文書として用いてもよい。参照文書は、適宜の入力手段により、必要に応じて類似度算出手段40に入力することができる。また、類似度算出手段40は、参照文書を格納する格納手段(図示せず)を備えている。
【0039】
抽出部71〜73はいずれも、ひらがな、句読点、特殊記号及びスペースを区切記号として文書内のワードを抽出する機能を有する。また、抽出部71〜73は、いずれも一の文書から重複してワードを抽出しないように、文書から切り出されたワードは、同じ文書から既に切り出されたワードと照合され、一致しないワードのみを抽出する機能を有する。
【0040】
データベース(DB)80は、キーワードDB81、全ワードDB82、評価値DB83、及び検索ワードDB84を有している。キーワードDB81は、基準文書から抽出したキーワードを格納する。キーワードは、抽出元である基準文書を特定する基準文書コードに関連付けて格納されている。全ワードDB82は、基準文書から抽出されたキーワードと参照文書から抽出された参照ワードとを格納する。キーワード及び参照ワードは、それぞれの抽出元である基準文書を特定する基準文書コード及び参照文書を特定する参照文書コードに関連付けて格納されている。評価値DB83は、後述する評価値計算部93により算出される評価値を格納する。検索ワードDB84は、検索対象文書から抽出される検索ワードを格納する。検索ワードは、抽出元である検索対象文書を特定する検索対象文書コードに関連付けて格納されている。
【0041】
なお、上記のキーワード、参照ワード、及び検索ワードは、それぞれ抽出対象となる文書の全体から抽出してもよいし、一部から抽出してもよい。例えば、抽出対象となる文書が特許文献であれば、書誌的事項、要約、請求項、又は実施例等に抽出範囲を限定してもよい。特に、データ量に制限がある場合には、抽出範囲を文書の一部に絞ることが有効となる。また、参照ワードは参照文書の一部から抽出し、キーワード及び検索ワードはそれぞれ基準文書及び検索対象文書の全体から抽出するというように、各ワード毎に適宜抽出範囲を変えることより、いわゆるノイズと漏れの関係を調整することができる。
【0042】
また、類似度算出手段40は、評価値を算出するための、基準文書内キーワード出現率計算部91と、全文書内キーワード出現率計算部92と、評価値計算部93とを備えている。
【0043】
基準文書内キーワード出現率計算部91は、複数の基準文書のそれぞれに共通のキーワードが出現する出現率を算出する機能を有する。基準文書がM個でそのうちのA個に共通のキーワードが存在する場合には、基準文書内キーワード出現率は、A/Mで算出される。基準文書内キーワード出現率計算部91は、キーワードDB81に格納されたキーワードを検索して、同一のキーワードが何個存在するか算出し、算出されたキーワード数を基準文書の数で除することによって、基準文書内キーワード出現率を算出する。なお、基準文書が1つである場合には、キーワードは重複なく抽出されることから、基準文書内キーワード出現率は、いずれのキーワードについても1となる。
【0044】
全文書内キーワード出現率計算部92は、基準文書と参照文書とを合わせた全文書に共通のキーワードが出現する出現率を算出する機能を有する。基準文書がM個、参照文書がN個で、その内のB個に共通のキーワードが存在する場合には、全文書内キーワード出現率は、B/(M+N)で算出される。全文書内キーワード出現率計算部92は、全文書DBに格納されたキーワード及び参照ワードを検索して、同一のキーワード及びキーワードと同一の参照ワードが何個存在するか算出する。ここで、「参照ワード」とは参照文書から抽出したワードに便宜的に付与した名称であるので、「キーワードと同一の参照ワード」とは、すなわち参照文書に含まれるキーワードを意味する。算出されたキーワード数を全文書の数で除することによって、全文書内キーワード出現率を算出する。
【0045】
評価値計算部93は、基準文書内キーワード出現率を全文書内キーワード出現率で除して、キーワードの評価値を算出する機能を有する。
【0046】
さらに、類似度算出手段40は、複数の検索対象文書から基準文書に近い内容を有する文書を検索するための、評価値集計部94と類似度計算部95とを有している。評価値集計部94は、一の検索対象文書に含まれるすべてのキーワードの評価値を加算して集計する機能を有する。そして、集計によって求められた集計値は、類似度計算部95に入力される。
【0047】
類似度計算部95は、検索対象文書の類似度、すなわち各検索対象文書の集計値を当該検索対象文書に含まれるキーワードの数で除した値を算出する機能を有する。また、類似度計算部95は、算出した類似度を図1の二次抽出手段50に出力する。
【0048】
図6は、本発明による文書検索装置の他の実施形態を示すブロック図である。文書検索装置2は、入力手段10、データベース20a、類似度算出手段42、一次抽出手段32、二次抽出手段52、及び出力手段60を備えている。これらのうち、入力手段10及び出力手段60については、図1の文書検索装置1におけるものと同様であるので説明を省略する。
【0049】
データベース(DB)20aは、検索対象文書DB22、一次抽出結果DB24a、及び二次抽出結果DB26aを有している。一次抽出結果DB24aは、一次抽出手段32における文書の抽出結果を格納する一次抽出結果格納手段である。同様に、二次抽出結果DB26aは、二次抽出手段52における文書の抽出結果を格納する二次抽出結果格納手段である。
【0050】
類似度算出手段42は、検索対象文書DB22に格納されている検索対象文書のそれぞれに対し、基準文書入力手段14により入力された基準文書との比較を行うことにより、各検索対象文書について類似度を算出する。そして、類似度算出手段42は、算出した類似度を各文書の検索対象文書コードと関連付けたものを類似度算出結果として出力する。
【0051】
一次抽出手段32は、類似度算出手段42により出力された類似度算出結果を入力する。類似度算出結果を入力した一次抽出手段32は、各文書の類似度を基準値と比較することにより、その基準値以上の類似度をもつ文書のみを抽出する。また、一次抽出手段32は、この抽出結果を一次抽出結果DB24aに格納させる。
【0052】
二次抽出手段52は、論理検索条件入力手段12により入力された論理検索条件に基づいて、検索対象文書に対して論理検索を行う。このとき、二次抽出手段52は、一次抽出結果DB24aに格納されている検索対象文書コードを参照することにより、検索対象文書DB22に格納されている検索対象文書のうち一次抽出手段32により抽出された文書に対してのみ論理検索を行う。論理検索の結果、二次抽出手段52は、一次抽出手段32により抽出された文書の中から論理検索条件を満たす文書のみを抽出する。また、二次抽出手段52は、この抽出結果を二次抽出結果DB26aに格納させる。
【0053】
文書検索装置2の動作について説明する。
【0054】
図7は、文書検索装置2の動作を示すフローチャートである。先ず、入力手段10により論理検索条件及び基準文書が入力される(S20)。次に、類似度算出手段42によって、検索対象文書DB22内の検索対象文書のそれぞれについて類似度が算出される(S22)。すると、一次抽出手段32によって、検索対象文書DB22内の検索対象文書の中から、基準値以上の類似度をもつものだけが抽出される(S24)。ここで抽出された文書の検索対象文書コード及び類似度は、一次抽出結果DB24aによって格納される。次に、二次抽出手段52によって、一次抽出結果DB24a内に検索対象文書コードが格納されている文書の中から論理検索条件を満たすものだけが抽出される(S26)。ここで抽出された文書の検索対象文書コードは、二次抽出結果DB26aによって格納される。最後に、出力手段60によって、二次抽出結果DB26aに格納されている抽出結果が出力される(S28)。
【0055】
文書検索装置2の効果について説明する。
【0056】
文書検索装置2においては、検索対象文書に対して、論理検索による抽出と類似文書検索による抽出とを共に行うことにより、両検索において共通して抽出された文書のみが最終的に抽出されることになる。このため、検索結果に占めるノイズの割合が小さい文書検索装置2が実現されている。
【0057】
図8は、本発明による文書検索装置の他の実施形態を示すブロック図である。文書検索装置3は、入力手段10、データベース20b、第1の一次抽出手段34a、類似度算出手段44、第2の一次抽出手段34b、二次抽出手段54、及び出力手段60を備えている。これらのうち、入力手段10及び出力手段60については、図1の文書検索装置1におけるものと同様であるので説明を省略する。
【0058】
データベース(DB)20bは、検索対象文書DB22、第1の一次抽出結果DB25a、及び第2の一次抽出結果DB25bを有している。第1の一次抽出結果DB25aは、第1の一次抽出手段34aにおける文書の抽出結果を格納する第1の一次抽出結果格納手段である。同様に、第2の一次抽出結果DB25bは、第2の一次抽出手段34bにおける文書の抽出結果を格納する第2の一次抽出結果格納手段である。
【0059】
第1の一次抽出手段34aは、論理検索条件入力手段12により入力された論理検索条件に基づいて、検索対象文書DB22に格納されている検索対象文書のそれぞれに対して論理検索を行う。論理検索の結果、第1の一次抽出手段34aは、多数の検索対象文書の中から論理検索条件を満たす文書のみを抽出する。また、第1の一次抽出手段34aは、この抽出結果を第1の一次抽出結果DB25aに格納させる。
【0060】
類似度算出手段44は、検索対象文書DB22に格納されている検索対象文書のそれぞれに対し、基準文書入力手段14により入力された基準文書との比較を行うことにより、各検索対象文書について類似度を算出する。そして、類似度算出手段44は、算出した類似度を各文書の検索対象文書コードと関連付けたものを類似度算出結果として出力する。
【0061】
第2の一次抽出手段34bは、類似度算出手段44により出力された類似度算出結果を入力する。類似度算出結果を入力した第2の一次抽出手段34bは、各文書の類似度を基準値と比較することにより、その基準値以上の類似度をもつ文書のみを抽出する。また、第2の一次抽出手段34bは、この抽出結果を第2の一次抽出結果DB25bに格納させる。
【0062】
二次抽出手段54は、第1の一次抽出結果DB25a及び第2の一次抽出結果DB25bを参照し、第1の一次抽出手段34aによる抽出結果と第2の一次抽出手段34bによる抽出結果との比較を行う。これにより、二次抽出手段54は、一次抽出手段34a,34bの何れにおいても抽出された文書を更に抽出する。また、二次抽出手段54は、この抽出結果を二次抽出結果DB26bに格納させる。
【0063】
文書検索装置3の動作について説明する。
【0064】
図9は、文書検索装置3の動作を示すフローチャートである。先ず、入力手段10により論理検索条件及び基準文書が入力される(S30)。次に、第1の一次抽出手段34aによって、検索対象文書DB22内の検索対象文書の中から論理検索条件を満たすものだけが抽出される(S31)。ここで抽出された文書の検索対象文書コードは、第1の一次抽出結果DB25aによって格納される。次に、類似度算出手段44によって、検索対象文書DB22内の検索対象文書のそれぞれについて類似度が算出される(S32)。すると、第2の一次抽出手段34bによって、検索対象文書DB22内の検索対象文書の中から、基準値以上の類似度をもつものだけが抽出される(S33)。ここで抽出された文書の検索対象文書コード及び類似度は、第2の一次抽出結果DB25bによって格納される。次に、二次抽出手段54によって、一次抽出手段34a,34bにおいて共通して抽出された文書が抽出される(S34)。ここで抽出された文書の検索対象文書コード及び類似度は、二次抽出結果DB26bによって格納される。最後に、出力手段60によって、二次抽出結果DB26bに格納されている抽出結果が出力される(S35)。
【0065】
なお、文書検索装置3においては、第1の一次抽出(S31)と、類似度の算出(S32)及び第2の一次抽出(S33)とが実行される順番は、逆であってもよい。すなわち、S30から始まって、S32、S33、S31、S34、S35の順に実行されてもよい。或いは、第1の一次抽出(S31)と、類似度の算出(S32)及び第2の一次抽出(S33)とは、同時に並行して実行されてもよい。
【0066】
文書検索装置3の効果について説明する。
【0067】
文書検索装置3においては、検索対象文書に対して、論理検索による抽出と類似文書検索による抽出とを共に行うことにより、両検索において共通して抽出された文書のみが最終的に抽出されることになる。このため、検索結果に占めるノイズの割合が小さい文書検索装置3が実現されている。
【0068】
図10は、本発明による文書検索装置の他の実施形態を示すブロック図である。文書検索装置4は、論理検索条件入力手段12、データベース20、一次抽出手段30、類似度算出手段40、二次抽出手段50、及び出力手段60を備えている。これらの各手段については、図1におけるものと同様であるので説明を省略する。文書検索装置4は、基準文書入力手段を備えていない点で図1の文書検索装置1と相違する。また、文書検索装置4は、基準文書選択手段100を備えている。
【0069】
基準文書選択手段100は、一次抽出手段30により抽出された文書の中から、基準文書を選択するためのものである。例えば、基準文書選択手段100は、一次抽出結果DB24に格納されている検索対象文書コードをGUIインターフェースに表示し、ユーザは、GUIインターフェース上に設けられたチェックボックスのオン/オフにより基準文書の選択を行うことができる。選択された基準文書は、図1の文書検索装置1と同様に、類似度算出手段40による類似度算出の際に用いられる。
【0070】
文書検索装置4の動作について説明する。
【0071】
図11は、文書検索装置4の動作を示すフローチャートである。先ず、論理検索条件入力手段12により論理検索条件が入力される(S40)。次に、一次抽出手段30によって、検索対象文書DB22内の検索対象文書の中から論理検索条件を満たすものだけが抽出される(S41)。ここで抽出された文書の検索対象文書コードは、一次抽出結果DB24によって格納される。次に、基準文書選択手段100によって、一次抽出手段30により抽出された文書の中から基準文書が選択される(S42)。次に、類似度算出手段40によって、一次抽出結果DB24内に検索対象文書コードが格納されている文書のそれぞれについて類似度が算出される(S43)。すると、二次抽出手段50によって、一次抽出結果DB24内に検索対象文書コードが格納されている文書の中から、基準値以上の類似度をもつものだけが抽出される(S44)。ここで抽出された文書の検索対象文書コード及び類似度は、二次抽出結果DB26によって格納される。最後に、出力手段60によって、二次抽出結果DB26に格納されている抽出結果が出力される(S45)。
【0072】
文書検索装置4の効果について説明する。
【0073】
文書検索装置4においては、検索対象文書に対して、論理検索による抽出と類似文書検索による抽出とを共に行うことにより、両検索において共通して抽出された文書のみが最終的に抽出されることになる。このため、検索結果に占めるノイズの割合が小さい文書検索装置4が実現されている。
【0074】
また、文書検索装置4は基準文書選択手段100を備えているため、一次抽出手段30により抽出された文書の中から基準文書を選択することができる。これにより、基準文書の入力の手間を省くことができる。
【0075】
【発明の効果】
検索結果に占めるノイズの割合が小さい文書検索装置が実現される。
【図面の簡単な説明】
【図1】本発明による文書検索装置の一実施形態を示すブロック図である。
【図2】図1の一次抽出結果DB24の一例を示す構成図である。
【図3】図1の二次抽出結果DB26の一例を示す構成図である。
【図4】図1の文書検索装置1の動作を示すフローチャートである。
【図5】図1の類似度算出手段40の一構成例を示すブロック図である。
【図6】本発明による文書検索装置の他の実施形態を示すブロック図である。
【図7】図6の文書検索装置2の動作を示すフローチャートである。
【図8】本発明による文書検索装置の他の実施形態を示すブロック図である。
【図9】図8の文書検索装置3の動作を示すフローチャートである。
【図10】本発明による文書検索装置の他の実施形態を示すブロック図である。
【図11】図10の文書検索装置4の動作を示すフローチャートである。
【符号の説明】
1〜4…文書検索装置、10…入力手段、20…データベース、30,32,34a,34b…一次抽出手段、40,42,44…類似度算出手段、50,52,54…二次抽出手段、60…出力手段、100…基準文書選択手段。

Claims (5)

  1. 検索対象となる複数の検索対象文書の中から、所望の文書を検索する文書検索装置であって、
    一の検索キーワード又は論理演算子で結合された二以上の検索キーワードから構成される論理検索条件と、前記所望の文書と近い内容を有する基準文書とを入力する入力手段と、
    前記入力手段により入力された前記論理検索条件に基づいて前記複数の検索対象文書のそれぞれに対して論理検索を行うことにより、前記複数の検索対象文書のうち前記論理検索条件を満たすものを抽出する一次抽出手段と、
    前記一次抽出手段により抽出された前記検索対象文書のそれぞれに対し、前記入力手段により入力された前記基準文書との比較を行うことにより、前記基準文書と類似する程度を表す類似度を算出する類似度算出手段と、
    前記一次抽出手段により抽出された前記検索対象文書のうち、前記類似度算出手段により算出された前記類似度が所定の基準値以上であるものを抽出する二次抽出手段と、
    前記二次抽出手段における抽出結果を出力する出力手段と、
    を備えることを特徴とする文書検索装置。
  2. 検索対象となる複数の検索対象文書の中から、所望の文書を検索する文書検索装置であって、
    一の検索キーワード又は論理演算子で結合された二以上の検索キーワードから構成される論理検索条件と、前記所望の文書と近い内容を有する基準文書とを入力する入力手段と、
    前記複数の検索対象文書のそれぞれに対し、前記入力手段により入力された前記基準文書との比較を行うことにより、前記基準文書と類似する程度を表す類似度を算出する類似度算出手段と、
    前記複数の検索対象文書のうち、前記類似度算出手段により算出された前記類似度が所定の基準値以上であるものを抽出する一次抽出手段と、
    前記入力手段により入力された前記論理検索条件に基づいて、前記一次抽出手段により抽出された前記検索対象文書のそれぞれに対して論理検索を行うことにより、前記一次抽出手段により抽出された前記検索対象文書のうち前記論理検索条件を満たすものを抽出する二次抽出手段と、
    前記二次抽出手段における抽出結果を出力する出力手段と、
    を備えることを特徴とする文書検索装置。
  3. 検索対象となる複数の検索対象文書の中から、所望の文書を検索する文書検索装置であって、
    一の検索キーワード又は論理演算子で結合された二以上の検索キーワードから構成される論理検索条件と、前記所望の文書と近い内容を有する基準文書とを入力する入力手段と、
    前記入力手段により入力された前記論理検索条件に基づいて前記複数の検索対象文書のそれぞれに対して論理検索を行うことにより、前記複数の検索対象文書のうち前記論理検索条件を満たすものを抽出する第1の一次抽出手段と、
    前記複数の検索対象文書のそれぞれに対し、前記入力手段により入力された前記基準文書との比較を行うことにより、前記基準文書と類似する程度を表す類似度を算出する類似度算出手段と、
    前記複数の検索対象文書のうち、前記類似度算出手段により算出された前記類似度が所定の基準値以上であるものを抽出する第2の一次抽出手段と、
    前記第1の一次抽出手段における抽出結果と前記第2の一次抽出手段における抽出結果とを比較することにより、前記複数の検索対象文書のうち前記第1抽出手段及び前記第2抽出手段の何れにおいても抽出されたものを更に抽出する二次抽出手段と、
    前記二次抽出手段における抽出結果を出力する出力手段と、
    を備えることを特徴とする文書検索装置。
  4. 検索対象となる複数の検索対象文書の中から、所望の文書を検索する文書検索装置であって、
    一の検索キーワード又は論理演算子で結合された二以上の検索キーワードから構成される論理検索条件を入力する入力手段と、
    前記入力手段により入力された前記論理検索条件に基づいて前記複数の検索対象文書のそれぞれに対して論理検索を行うことにより、前記複数の検索対象文書のうち前記論理検索条件を満たすものを抽出する一次抽出手段と、
    前記一次抽出手段により抽出された前記検索対象文書の中から、前記所望の文書と近い内容を有する基準文書を選択する基準文書選択手段と、
    前記一次抽出手段により抽出された前記検索対象文書のそれぞれに対し、前記選択手段により選択された前記基準文書との比較を行うことにより、前記基準文書と類似する程度を表す類似度を算出する類似度算出手段と、
    前記一次抽出手段により抽出された前記検索対象文書のうち、前記類似度算出手段により算出された前記類似度が所定の基準値以上であるものを抽出する二次抽出手段と、
    前記二次抽出手段における抽出結果を出力する出力手段と、
    を備えることを特徴とする文書検索装置。
  5. 前記出力手段は、前記類似度算出手段により算出された前記類似度に応じて、前記抽出結果をソートして表示することを特徴とする請求項1〜4のいずれか一項に記載の文書検索装置。
JP2003133629A 2003-05-12 2003-05-12 文書検索装置 Pending JP2004334803A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003133629A JP2004334803A (ja) 2003-05-12 2003-05-12 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003133629A JP2004334803A (ja) 2003-05-12 2003-05-12 文書検索装置

Publications (1)

Publication Number Publication Date
JP2004334803A true JP2004334803A (ja) 2004-11-25

Family

ID=33508105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003133629A Pending JP2004334803A (ja) 2003-05-12 2003-05-12 文書検索装置

Country Status (1)

Country Link
JP (1) JP2004334803A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272872A (ja) * 2006-03-08 2007-10-18 Ricoh Co Ltd 情報検索方法、情報検索装置、情報検索システム、及び情報検索プログラム
JP2008090396A (ja) * 2006-09-29 2008-04-17 Ntt Data Corp 電子文書検索方法、電子文書検索装置及びプログラム
JP2008250893A (ja) * 2007-03-30 2008-10-16 Fujitsu Ltd 情報検索装置、情報検索方法およびそのプログラム
JP2008269069A (ja) * 2007-04-17 2008-11-06 Hitachi Ltd 情報処理システム及び情報処理方法
WO2017221917A1 (ja) * 2016-06-22 2017-12-28 日本電気株式会社 難易度判定装置、難易度判定方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272872A (ja) * 2006-03-08 2007-10-18 Ricoh Co Ltd 情報検索方法、情報検索装置、情報検索システム、及び情報検索プログラム
JP2008090396A (ja) * 2006-09-29 2008-04-17 Ntt Data Corp 電子文書検索方法、電子文書検索装置及びプログラム
JP2008250893A (ja) * 2007-03-30 2008-10-16 Fujitsu Ltd 情報検索装置、情報検索方法およびそのプログラム
JP2008269069A (ja) * 2007-04-17 2008-11-06 Hitachi Ltd 情報処理システム及び情報処理方法
WO2017221917A1 (ja) * 2016-06-22 2017-12-28 日本電気株式会社 難易度判定装置、難易度判定方法、およびプログラム

Similar Documents

Publication Publication Date Title
US11222167B2 (en) Generating structured text summaries of digital documents using interactive collaboration
US6741959B1 (en) System and method to retrieving information with natural language queries
US7107263B2 (en) Multistage intelligent database search method
US11681717B2 (en) Algorithm for the non-exact matching of large datasets
JP5746426B2 (ja) インデックスドキュメントの発見
US9996742B2 (en) System and method for global identification in a collection of documents
US20090083255A1 (en) Query spelling correction
JP2010128677A (ja) テキスト要約装置、その方法およびプログラム
US9501559B2 (en) User-guided search query expansion
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
US20150261755A1 (en) Prior art search application using invention elements
US20120317141A1 (en) System and method for ordering of semantic sub-keys
Manaf et al. Comparison of carp rabin algorithm and Jaro-Winkler distance to determine the equality of Sunda languages
US20200192924A1 (en) Natural language query system
US20120323904A1 (en) Automatic generation of a search query
JP2004334803A (ja) 文書検索装置
US20120254209A1 (en) Searching method, searching device and recording medium recording a computer program
JPH0773197A (ja) 異表記語辞書作成支援装置
JP6843588B2 (ja) 文書検索方法及び装置
US11681732B2 (en) Tuning query generation patterns
JP2002032394A (ja) 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query
JP4024906B2 (ja) タグ付文書検索システム
JP2005128961A (ja) データベース検索装置、データベース検索方法およびプログラム
JP5633552B2 (ja) 文書検索方法、文書検索装置、文書検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090901