JP2009217406A - 文書検索装置及び方法、並びに、プログラム - Google Patents

文書検索装置及び方法、並びに、プログラム Download PDF

Info

Publication number
JP2009217406A
JP2009217406A JP2008058810A JP2008058810A JP2009217406A JP 2009217406 A JP2009217406 A JP 2009217406A JP 2008058810 A JP2008058810 A JP 2008058810A JP 2008058810 A JP2008058810 A JP 2008058810A JP 2009217406 A JP2009217406 A JP 2009217406A
Authority
JP
Japan
Prior art keywords
document
keyword
search
evaluation
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008058810A
Other languages
English (en)
Inventor
Toshihiko Orito
俊彦 折戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008058810A priority Critical patent/JP2009217406A/ja
Publication of JP2009217406A publication Critical patent/JP2009217406A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】関連辞書を参照することなく、かつ、テキストマイニング手法を用いることなく、簡素な手段で素早く関連キーワードを提示することである。
【解決手段】検索実行部と、キーワード抽出部と、キーワード評価部と、キーワード提示部とを具備する文書検索装置によって解決することができる。検索実行部は、文書データベースの検索を行う。キーワード抽出部は、検索実行部による検索結果として得られる文書中に含まれるキーワードを抽出する。キーワード評価部は、検索実行部による検索結果として得られる文書を第一のグループとし、第一のグループに属さない文書を第二のグループとして、グループ別に、キーワード抽出部によって抽出されたキーワードそれぞれについて、キーワードを含む文書数を取得すると共に、それらの文書数に基づいて、キーワードを評価する。キーワード提示部は、所定のキーワードを提示する。
【選択図】図1

Description

本発明は、文書検索装置及び方法、並びに、プログラムに関する。
検索文字列を入力してキーワード検索を行う場合、検索結果として得られる文書数が膨大になるケースがある。このようなときに表示される文書は、重要な文書が上位に表示されることは保証されていない。そのため、多くの場合、ユーザは検索文字列を追加し、絞り込み検索を実行する必要がある。検索の有効性を高める絞り込み検索を提供するために、検索文字列の関連キーワードを予め手作業で設定する手法や、関連キーワードを自動的に抽出する方法が研究されている。
それから、ユーザが適切な検索文字列を入力できずに、検索結果として探したい文書が得られないケースがある。このようなユーザに対して関連文書を提示することを目的として、関連キーワードを用いた文書検索や、テキストマイニング等を用いて文書間の関連性・類似度を算出する手法が用いられている。
関係文書や共起文書を提示することを目的とした、関連キーワード検索や類似文書検索が行われている。特開平11−025108号公報(特許文献1参照)には、関連キーワード抽出方法の一例が記載されている。特許文献1に記載された発明では、検索対象文書全体と特定された部分集合に対して、特定の文書に分布するキーワードの統計情報を各文書について求め、重要なキーワードを求める方法を提示している。統計情報を利用する方法には、長い文書やある特定の文書に高頻出するキーワードのみが重視される問題と、計算コストの問題と、重み付けの問題と、閾値などの問題とを持つことがある。
また、特開平10−003480号公報(特許文献2参照)には文書検索方法及び装置の発明が記載され、特開2005−149014号公報(特許文献3参照)には文書関連語彙獲得方法及び装置及びプログラムの発明が記載され、特開2002−014999号公報(特許文献4参照)には類似文書検索装置及び関連キーワード抽出装置の発明が記載されている。これらの発明のように、概念ベースなどの外部データベースを参照する方法では、関連キーワードの特徴が外部データベースに依存することになる。よって、企業内・組織内・部門内のデータ特性に応じてデータベースを設計する必要があり、設計コスト・維持コストが高くなる。
特開2005−056154号公報(特許文献5参照)には、文書検索装置の発明が記載されている。この文書検索装置のように、人手で関連キーワードを指定する方法では、関連キーワードの設定にノウハウが必要である。従って、設計コスト・維持コストが高くなり、また、一貫性、網羅性にかけるという問題が生じる。
関連キーワードを手作業で設定する方法、検索時に文書間の関連性・類似度を算出する方法、検索時に辞書データベースを参照する方法、文書構造を解析する方法などには、下記の問題点がある。
第1の問題点は次の通りである。候補となる関連キーワードを手動で事前に設定しておき、検索実行時に、設定した候補を、関連キーワードの抽出に利用する方法では、関連キーワードを抽出するためのデータベース構築や関連キーワードの追加作業を手作業で実施する必要がある。多くの場合、人による関連キーワードの設定は煩雑になり、網羅性に欠ける。また、ヒューリスティックな知見による関連キーワードの精度向上が期待できるが、人為的なミスや、人では気づきにくい関連性を列挙できないなどの問題がある。
第2の問題点は次の通りである。テキストマイニングなどの技術を用いて、出現頻度や統計情報などの特徴量を算出し、検索結果として得た文書と文書データベース内の文書の類似度を算出する類似文書検索では、高精度の検索が期待できる反面、計算コストが高く、結果の取得に一定の時間を要する。そのため、オンライン検索のようなリアルタイム性を求められるアプリケーションで利用する用途では問題となる。
第3の問題点は次の通りである。関連キーワード辞書や外部文書データベースなどの外部データベースを参照し、関連キーワードを抽出する方法では、データ特性を考慮した関連キーワードの抽出ができない、あるいは文書データベース独自のデータ特性を考慮した外部データベースの設計が必要になる、という問題がある。また、人名や組織名など、特定の母集団においては関連が強くても他の母集団では関連が弱いような属性は、外部データベースを事前に設計できないため、特別に費用をかけて設計を行う必要がある。さらに、外部の辞書やデータベースの維持コストを導入時に検討する必要がある。
第4の問題点は次の通りである。見出しなどの文書の構造に注目して重み付けを行い、関連キーワードを抽出する方法では、見出し自体に誤りが含まれる場合や、音声ファイルをテキスト化した文書などのように文書構造に特徴がない文書を検索対象とする場合、関連キーワード抽出のための個別の仕組みを導入する必要がある。加えて、重み付けや閾値設定のためのチューニングが煩雑になり、導入時の負担になる。
特開平11−025108号公報 特開平10−003480号公報 特開2005−149014号公報 特開2002−014999号公報 特開2005−056154号公報
本発明の課題は、入力される検索文字列に基づいて、その検索文字列に関連するキーワードを、関連辞書を参照することなく、かつ、テキストマイニング手法を用いることなく、簡素な手段で素早く提示することである。
本発明の一つ目のアスペクトによる文書検索装置は、検索実行部と、キーワード抽出部と、キーワード評価部と、キーワード提示部とを具備する。検索実行部は、入力される検索文字列を受け付けて、文書データベースの検索を行う。キーワード抽出部は、検索実行部による検索結果として得られる文書中に含まれるキーワードを抽出する。キーワード評価部は、検索実行部による検索結果として得られる文書を第一のグループとし、第一のグループに属さない文書を第二のグループとして、グループ別に、キーワード抽出部によって抽出されたキーワードそれぞれについて、キーワードを含む文書数を取得すると共に、それらの文書数に基づいて、キーワードを評価する。キーワード提示部は、キーワード評価部による評価結果に基づいて、所定のキーワードを提示する。
本発明の二つ目のアスペクトによる文書検索方法は、検索を行うことと、抽出することと、評価することと、提示することとを具備する。検索を行うことにおいては、入力される検索文字列を受け付けて、文書データベースの検索を行う。抽出することにおいて、検索結果として得られる文書中に含まれるキーワードを抽出する。評価することにおいては、検索することによる検索結果として得られる文書を第一のグループとし、第一のグループに属さない文書を第二のグループとして、グループ別に、抽出することによって抽出されたキーワードそれぞれについて、キーワードを含む文書数を取得すると共に、それらの文書数に基づいて、キーワードを評価する。提示することにおいては、評価することによる評価結果に基づいて、所定のキーワードを提示する。
本発明の三つ目のアスペクトによるプログラムは、検索を行う手順と、抽出する手順と、評価する手順と、提示する手順とをコンピュータに実行させる。検索を行う手順においては、入力される検索文字列を受け付けて、文書データベースの検索を行う。抽出する手順においては、検索結果として得られる文書中に含まれるキーワードを抽出する。評価する手順においては、検索する手順による検索結果として得られる文書を第一のグループとし、第一のグループに属さない文書を第二のグループとして、グループ別に、抽出する手順によって抽出されたキーワードそれぞれについて、キーワードを含む文書数を取得すると共に、それらの文書数に基づいて、キーワードを評価する。提示する手順においては、評価する手順による評価結果に基づいて、所定のキーワードを提示する。
本発明によれば、入力される検索文字列に基づいて、その検索文字列に関連するキーワードを、関連辞書を参照することなく、かつ、テキストマイニング手法を用いることなく、簡素な手段で素早く提示することができる。
本発明を実施するための最良の形態の一つについて、図面を参照して詳細に説明する。図1を参照すると、一つ目の実施の形態における文書検索装置150は、検索制御部110と、検索用インデックス部130と、文書検索クローラ140とを備え、検索条件入力装置100から検索文字列を受け付けて、文書データベース120の検索結果を提供する。第一の実施の形態における文書検索装置150は、コンピュータとプログラムとによって実現されている。
文書検索クローラ140は、文書収集部141と、文書をキーワードに分解する文書分解部142と、キーワード及び文書情報などを検索用インデックス部130に登録する登録部143とを含む。
これらの各ブロックはそれぞれ概略次のような機能を有する。文書収集部141は、新規文書を収集する。文書をキーワードに分解する文書分解部142は、例えば、辞書などを参照しながら、文書を名詞などの単語に分解する。新規文書に関する情報を検索用インデックス部130に登録する登録部143は、文書分解部142による分解によって得られた単語をキーワードとして、キーワード情報と文書情報とそれらの関係を示す情報とを検索用インデックス部130に登録する。
図2に、検索用インデックス部130の構成図を示す。図示するように、検索用インデックス部130は、ある特定のキーワードを含む文書数(リンク数)を保持或いは算出する文書数検索部131と、ある特定のキーワードを含む全ての文書情報を検索する文書情報検索部132と、ある特定の文書に含まれており、かつ検索用インデックス部130に登録されている全てのキーワードを検索するキーワード検索部133と、検索用インデックスを記憶する検索用インデックス記憶部134とを含む。
これらの各ブロックはそれぞれ概略次のような機能を有する。ある特定のキーワードを含む文書数を保持或いは算出する文書数検索部131は、キーワードと文書とによって一意に決まる情報を、検索用インデックス記憶部134に保持し、或いは算出する。このとき、ある特定の文書中に同一キーワードが複数存在する場合は、重複して数えないとすることができる。ある特定のキーワードを含む全ての文書を提示する文書情報検索部132は、ある特定のキーワードをキーにして検索用インデックスを検索し、キーワードを含む文書情報を得る。ある特定の文書に含まれており、かつ検索用インデックスに登録されている全てのキーワードを提示するキーワード検索部133は、ある特定の文書をキーにして検索用インデックスを検索し、文書中に含まれるキーワードを得る。検索用インデックス記憶部134は、検索用インデックスを記憶する。
図1において、検索制御部110は、入力される検索文字列を用いて文書データベース120を検索する検索実行部111と、検索用インデックス部130から関連キーワードを抽出するキーワード抽出部112と、抽出された関連キーワードを評価するキーワード評価部113と、検索結果をユーザに提示するキーワード提示部114とを含む。
これらの各ブロックはそれぞれ概略次のような機能を有する。検索文字列を用いて文書データベース120を検索する検索実行部111は、入力される検索文字列を用いて、文書の検索を実行する。検索用インデックス部130から関連キーワードを抽出するキーワード抽出部112は、検索用インデックス部130の文書情報検索部132を用いて、検索文字列を含む文書を特定し、特定した各文書に含まれているキーワードを、検索用インデックス部130のキーワード検索部133を用いて取得する。関連キーワードを評価するキーワード評価部113は、キーワード抽出部112が取得した各関連キーワードの抽出回数を算出する。また、文書数検索部131によって、文書データベース120内の全文書中で、各関連キーワードを含む文書数(リンク数)を取得する。そして、これらをもとに関連キーワードを評価する。キーワード提示部114は、検索実行部111によって得られた検索結果と、キーワード評価部113によって評価された関連キーワードとをユーザに提示する。
次に、図3及び図4を参照して、検索用インデックスの構造について詳細に説明する。文書データベース120に新規文書が追加されると、文書検索クローラ140が、検索用インデックスを更新する。文書検索クローラ140は、単語分割した新規文書から名詞をキーワードとして抽出し、抽出したキーワードと、新規文書への参照情報と、文書内に抽出したキーワードが含まれていることを示す情報とを、検索用インデックス部130に保管する。検索用インデックス部130は、キーワードをキーにして、キーワードを含む文書への参照及びその総数を算出することができ、また、文書情報をキーにして、その文書に含まれ、検索用インデックス記憶部134に存在するキーワードを得ることができる。
文書検索クローラ140は、例えば、図3のような検索用インデックスを作成する。図3において、キーワード1には、文書1への参照情報である〔文書参照1〕と、文書2への参照情報である〔文書参照2〕と、文書3への参照情報である〔文書参照3〕とが関連付けられている。これらの参照情報により、文書1、文書2、及び、文書3へのリンクを辿ることができる。また、キーワード1のリンク数は、”3”となっている。このリンク数により、キーワード1を含む文書数を取得することができる。
検索用インデックスを、リレーショナルデータベースを用いて実装するのであれば、例えば、図4のような構成の検索用インデックスを作成することができる。図4の検索用インデックスは、キーワードテーブルと、文書テーブルと、リンク情報テーブルとを含んでいる。キーワードテーブルには、キーワードごとに、キーワードIDと、キーワードとした単語と、文書へのリンク数とが格納される。文書テーブルには、文書ごとに、文書IDと、その文書への参照情報とが格納される。リンク情報テーブルには、文書にリンクされるキーワードと、キーワードにリンクされる文書とのペアが格納される。
次に、図5、図6、図7、図8、及び図9を参照して、検索用インデックスの使用方法について詳細に説明する。文書を検索するときには、まずはユーザによって検索条件が入力される(図5のステップA1)。検索実行部111は、入力された検索条件を満足する文書を検索し、その文書情報を、検索用インデックスから取得する(ステップA2)。検索条件式で使用されている検索文字列がキーワード1であったとする。図6は、検索用インデックスを利用することによって、検索文字列であるキーワード1が文書1、文書2、文書3に含まれていたことを示している。
その後、文書1、文書2、文書3のそれぞれの文書情報をキーにして、検索用インデックス記憶部134を参照し、文書1、文書2、又は文書3のいずれかに存在する全てのキーワードを取得する(ステップA3)。図7は、文書1にはキーワード1の他に、キーワード3、キーワード4、キーワード5等が含まれていたことを示す。同様に、文書2にはキーワード1の他に、キーワード2、キーワード4等が含まれていたことを示し、文書3にはキーワード1の他に、キーワード4、キーワード5等が含まれていたことを示す。
さらに、ステップA3で取得したキーワード群を集計し、キーワードごとに、出現回数M(検索文字列とキーワードを共に使用している文書数)を算出する(ステップA4)。また、抽出した各キーワードをキーにして、キーワードを含む文書数を取得することによって、キーワードごとに、検索文字列を含まずにキーワードのみを含む文書数Nを求める(ステップA5)。図8に、ステップA4によって得られる文書数Mと、ステップA5によって得られる文書数Nとの集計表を示す。図8に示すように、キーワードごとに、Mと、Nとを算出する。
ステップA4、ステップA5を元に、Mの数値が高いこと(基準1)、Nの数値が低いこと(基準2)を基準にキーワードを評価する(基準1では優れているが、基準2では劣っているなどの優劣が付けられないキーワードが存在する場合は全て選択するとしても良い。)(ステップA6)。例えば、図9のように、座標を用いて、キーワードを評価することができる。図9では、第一の座標軸にMの値を対応させ、第二の座標軸にNの値を対応させている。座標中にある黒丸のプロットは、基準1(Mの数値が高いこと)、及び、基準2(Nの数値が低いこと)に基づいてキーワードの評価を行ったところ、〔キーワード2〕、〔キーワード4〕、〔キーワード6〕、及び、〔キーワード8〕が選択されたことを示している。
最後に、検索結果および高い評価を受けた所定の関連キーワード群をユーザに提示する(ステップA7)。関連キーワード群の提示では、例えば、N/Mの値やM/Nの値などの評価指標を用いてランキング表示を行っても良い。
図10に、キーワード評価の説明図を示す。ある”検索文字列”を用いて文書を検索した結果、文書データベース120からその”検索文字列”を含む文書群が得られたとする。この文書群を、図10では、第1のグループ[1]に属する文書に分類している。また、第1のグループに属さない文書群を第2のグループ[2]に属する文書に分類している。
第2のグループ[2]に属する文書には、上記”検索文字列”が含まれていない。しかしながら、文書データベース120が音声データファイルをテキスト化して構築されたものであった場合や、紙媒体に印刷された文章を、OCR(Optical Character Reader)を用いてテキスト化して構築されたものであった場合には、テキスト化する過程における誤認識によって、”検索文字列”が失われた可能性がある。図10では、原データでは”検索文字列”を含んでいたが、データベース構築過程で”検索文字列”を失った文書を、誤認識文書と表示してある。
キーワード抽出部112は、第1のグループ[1]に属する文書で使用されているキーワードを抽出する。図10では、情報、統合、製品XX、製品YY、人物AA、コンテンツ管理、・・・といったキーワードが抽出されている。キーワード評価部113は、評価を行うため、これらのキーワードを使用している文書数を、グループごとに算出する。図示するように、第1のグループ[1]に属する文書では、情報というキーワードを含む文書が100文書あり、統合というキーワードを含む文書が80文書あり、製品XXというキーワードを含む文書が120文書あり、製品YYというキーワードを含む文書が50文書あり、人物AAというキーワードを含む文書が30文書あり、コンテンツ管理というキーワードを含む文書が70文書あるという結果が得られている。一方、第2のグループ[2]に属する文書では、情報というキーワードを含む文書が1000文書あり、統合というキーワードを含む文書が800文書あり、製品XXというキーワードを含む文書が50文書あり、製品YYというキーワードを含む文書数が10文書あり、人物AAというキーワードを含む文書数が30文書あり、コンテンツ管理というキーワードを含む文書数が30文書あるという結果が得られている。
これらの結果から、図8に示すようなマトリックス表が得られる。キーワード1を「情報」とすれば、M=100,N=1000となり、キーワード2を「統合」とすれば、M=80,N=800となり、キーワード3を「製品XX」とすれば、M=120,N=50となり、キーワード4を「製品YY」とすれば、M=50,N=10となり、キーワード5を「人物AA」とすれば、M=30,N=30となり、キーワード6を「コンテンツ管理」とすれば、M=70,N=30となる。
キーワード評価部113は、第1のグループ[1]に属する文書について算出された各M(k=1,2,・・・)の値に基づいて、Mの値がより大きいキーワードに対してより高い評価を与える。また、第2のグループ[2]に属する文書について算出された各N(k=1,2,・・・)の値に基づいて、Nの値がより小さいキーワードに対してより高い評価を与える。キーワード提示部114は、キーワード評価部113による評価に基づいて、所定の評価レベルを満足するキーワードを提示する。
キーワード評価部113は、N/M(k=1,2,・・・)の値を、一つの評価指標として評価を行うことができる。この評価指標の値が低いものほど、適切なキーワードであると評価することができる。このとき、第1のグループ[1]に属する文書で使用される確率が高く、第2のグループ[2]に属する文書で使用される確率が低いキーワードは、N/Mの値が小さいキーワードとなる。キーワード提示部114は、N/Mの値が、所定の閾値よりも低いキーワードを提示する。提示する際には、ランキングをつけて、N/Mの値がより小さいキーワードをより上位に、N/Mの値がより大きいキーワードをより下位に提示することができる。
第一の実施の形態の効果について説明する。第1の効果は、組織内のデータに対して、外部の参照データベースを利用せずに、数秒以下の検索時間で関連キーワードを抽出し、オンラインアプリケーションのバックエンドの検索として利用できることにある。その理由は、検索用インデックスの情報のみからデータ特性を考慮して関連キーワードの情報を抽出しているからである。
第2の効果は、組織名や人物名など、関連性の設計を手作業で実施し難いキーワードを関連キーワードとして抽出できることにある。その理由は、外部の参照データベースを利用せずに、検索用インデックスの情報のみからデータ特性を考慮して、関連キーワードの情報を抽出しているからである。
第3の効果は、「あの件」、「例の話」など検索したい文字列が省略されているような特有のデータ特性を持つ文書検索ができ、音声認識やOCRなどによってテキスト化された誤認識を含むテキストの検索ができることにある。その理由は、検索文字列と同時に使用される確率の高い単語を関連キーワードとして抽出し、検索を行うからである。
次に、本発明を実施するための最良の形態の別の一つについて、図面を参照して詳細に説明する。図11を参照すると、二つ目の実施の形態による文書検索装置160は、一つ目の実施の形態の構成に、関連キーワード指定除外用データベース210を加えた構成を有している。この関連キーワード指定除外用データベース210には、関連キーワードとして指定しないキーワードを示す情報が登録される。
第二の実施の形態において、文書データベース120に新規文書が追加されると、文書検索クローラ140aは、新規文書を単語分割して、名詞をキーワードとして抽出する。登録部143aは、抽出したキーワードと、文書情報と、文書内に抽出したキーワードが含まれていることを示す情報と、関連キーワードとして指定しない場合にはその旨を示す情報とを、検索用インデックス部130に保管する。
第二の実施の形態において、検索条件入力装置100から検索条件が入力されると、検索制御部110は、検索を実行する。キーワード抽出部112は、検索用インデックスを参照し、検索条件を満足する文書群に含まれている全てのキーワードを抽出する。このとき、キーワード検索部133は、検索条件を満足した文書をキーにして、検索用インデックスを検索し、文書中に含まれる全てのキーワードを得る。ただし、キーワード検索部133は、関連キーワードとして指定しないことを示す情報があるキーワードを除外し、キーワード抽出部112は、除外されたキーワードを抽出しない。
第二の実施の形態における文書検索装置160の動作は、第一の実施の形態における文書検索装置150の動作と基本的に同じである。そこで、第一の実施の形態の場合と同様に、図5を用いて、第二の実施の形態における文書検索装置160の動作について説明する。第二の実施の形態における文書検索装置160において、文書を検索するときには、まず、ユーザによって検索条件が入力される(図5のステップA1)。次に、入力された検索条件を満足する全ての文書情報を検索用インデックス部130から取得する(ステップA2)。その後、それぞれの文書情報をキーにして、検索用インデックス記憶部134に存在する複数のキーワードのうち、関連キーワードとして指定しないことを示す情報が無いキーワードを取得する(ステップA3)。その後は、第一の実施の形態の場合と同様の処理を行う(ステップA4〜ステップA7)。
第二の実施の形態の効果について説明する。第二の実施の形態では、検索用インデックスを作成する時に、関連キーワードとして指定されるキーワードを制限することができる。従って、検索時に、関連キーワードを抽出するためにかかる負荷を低減できるという効果がある。
本発明は、特に、次のような分野に有用であると考えられる。
・企業内、部門内などのある固有の特性をもっている関連文書の検索
・音声認識エンジンを用いて、音声をテキスト化した文書データベースの検索(コールセンター等)
〔説明〕コールセンター問い合せや内部統制の局面において、音声を保存し、必要なときに検索して活用するという用途がある。音声検索には音声認識エンジンを用いて音声をテキスト化し、テキスト検索を行う方法がある。しかし、テキスト化された文書には誤認識された単語が多く含まれている。
・OCRで読み取ったときの文字に誤りが含まれる文書に対する検索
〔説明〕音声と同様にOCRで読み取った文字には誤りが含まれる。
図1は、第一の実施の形態における文書検索装置150の構成図である。 図2は、検索用インデックス部130の構成図である。 図3は、検索用インデックスの説明図である。 図4は、別の検索用インデックスの説明図である。 図5は、文書検索装置の動作を説明する流れ図である。 図6は、検索文字列による検索結果の説明図である。 図7は、キーワードの抽出結果の説明図である。 図8は、キーワードの評価結果の説明図である。 図9は、キーワードの評価指標の説明図である。 図10は、キーワードの評価方法の説明図である。 図11は、第二の実施の形態における文書検索装置160の構成図である。
符号の説明
100 検索条件入力装置
110 検索制御部
111 検索実行部
112 キーワード抽出部
113 キーワード評価部
114 キーワード提示部
120 文書データベース
130 検索用インデックス部
131 文書数検索部
132 文書情報検索部
133 キーワード検索部
134 検索用インデックス記憶部
140,140a 文書検索クローラ
141 文書収集部
142 文書分解部
143,143a 登録部
150,160 文書検索装置
210 関連キーワード指定除外用データベース

Claims (15)

  1. 入力される検索文字列を受け付けて、文書データベースの検索を行う検索実行手段と、
    前記検索実行手段による検索結果として得られる文書中に含まれるキーワードを抽出するキーワード抽出手段と、
    前記検索実行手段による検索結果として得られる文書を第一のグループとし、前記第一のグループに属さない文書を第二のグループとして、グループ別に、前記キーワード抽出手段によって抽出されたキーワードそれぞれについて、キーワードを含む文書数を取得すると共に、前記文書数に基づいて、キーワードを評価するキーワード評価手段と、
    前記キーワード評価手段による評価結果に基づいて、所定のキーワードを提示するキーワード提示手段とを具備する
    文書検索装置。
  2. 前記キーワード評価手段は、
    前記第一のグループに属する文書であって、そのキーワードを含む文書の数を第一の文書数とし、前記第一の文書数がより多いキーワードに対して、より高い評価を与える
    請求項1記載の文書検索装置。
  3. 前記キーワード評価手段は、
    前記第二のグループに属する文書であって、そのキーワードを含む文書の数を第二の文書数とし、前記第二の文書数がより少ないキーワードに対して、より高い評価を与える
    請求項2記載の文書検索装置。
  4. 前記キーワード評価手段は、
    所定の評価指標を用いて、数値化した評価を行い、
    前記キーワード提示手段は、
    前記数値化した評価に基づいて、キーワードをランキングして提示する
    請求項3記載の文書検索装置。
  5. 前記キーワード評価手段は、
    キーワードごとに、前記第一の文書数と、前記第二の文書数との比を算出し、前記比を、前記所定の評価指標として用いる
    請求項4記載の文書検索装置。
  6. 前記文書データベースから作成される検索用インデックスを記憶する検索用インデックス手段を更に具備し、
    前記検索実行手段は、
    前記検索用インデックス手段から、前記検索文字列を含む文書の文書情報を取得し、
    前記キーワード抽出手段は、
    前記検索用インデックス手段から、文書中に含まれるキーワードを抽出し、
    前記キーワード評価手段は、
    前記検索用インデックス手段から、キーワードを含む文書数を取得する
    請求項5記載の文書検索装置。
  7. 前記検索用インデックス手段は、
    前記検索実行手段に対して、逆引きによって文書情報を提供する文書情報検索手段と、
    前記キーワード抽出手段に対して、逆引きによってキーワードを提供するキーワード検索手段と、
    前記キーワード評価手段に対して、逆引きによって文書数を提供する文書数検索手段とを備える
    請求項6記載の文書検索装置。
  8. 文書検索クローラを更に具備し、
    前記文書検索クローラは、
    前記文書データベースに登録される新規文書を自動的に収集する文書収集手段と、
    前記文書収集手段によって収集された新規文書を単語に分解する文書分解手段と、
    前記文書分解手段による分解によって得られた単語をキーワードとし、キーワード情報を前記検索用インデックス手段に登録する登録手段とを備える
    請求項7記載の文書検索装置。
  9. 指定除外のキーワードを示す情報を含む関連キーワード指定除外用データベースを更に具備し、
    前記キーワード提示手段は、
    前記関連キーワード指定除外用データベースによって指定除外されたキーワードを除くキーワードを提示する
    請求項8記載の文書検索装置。
  10. 前記検索用インデックス手段は、
    キーワードごとに、そのキーワードを含む文書への参照情報と、そのキーワードを含む文書へのリンク数とを記憶する
    請求項9記載の文書検索装置。
  11. 前記検索用インデックス手段は、
    リンクされるキーワードと、文書とのペアについて、キーワードIDと、文書IDとのペアを格納するリンク情報テーブルと、
    キーワードごとに、キーワードIDと、キーワードと、文書へのリンク数とを格納するキーワードテーブルと、
    文書ごとに、文書IDと、その文書への参照情報とを格納する文書テーブルとを備える
    請求項9記載の文書検索装置。
  12. 入力される検索文字列を受け付けて、文書データベースの検索を行うことと、
    検索結果として得られる文書中に含まれるキーワードを抽出することと、
    前記検索することによる検索結果として得られる文書を第一のグループとし、前記第一のグループに属さない文書を第二のグループとして、グループ別に、前記抽出することによって抽出されたキーワードそれぞれについて、キーワードを含む文書数を取得すると共に、前記文書数に基づいて、キーワードを評価することと、
    前記評価することによる評価結果に基づいて、所定のキーワードを提示することとを具備する
    文書検索方法。
  13. 前記評価することは、
    前記第一のグループに属する文書であって、そのキーワードを含む文書の数を第一の文書数とし、前記第一の文書数がより多いキーワードに対して、より高い評価を与えることを含む
    請求項12記載の文書検索方法。
  14. 前記評価することは、
    前記第二のグループに属する文書であって、そのキーワードを含む文書の数を第二の文書数とし、前記第二の文書数がより少ないキーワードに対して、より高い評価を与えることを更に含む
    請求項13記載の文書検索方法。
  15. 入力される検索文字列を受け付けて、文書データベースの検索を行う手順と、
    検索結果として得られる文書中に含まれるキーワードを抽出する手順と、
    前記検索する手順による検索結果として得られる文書を第一のグループとし、前記第一のグループに属さない文書を第二のグループとして、グループ別に、前記抽出する手順によって抽出されたキーワードそれぞれについて、キーワードを含む文書数を取得すると共に、前記文書数に基づいて、キーワードを評価する手順と、
    前記評価する手順による評価結果に基づいて、所定のキーワードを提示する手順とをコンピュータに実行させるための
    プログラム。
JP2008058810A 2008-03-07 2008-03-07 文書検索装置及び方法、並びに、プログラム Pending JP2009217406A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008058810A JP2009217406A (ja) 2008-03-07 2008-03-07 文書検索装置及び方法、並びに、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008058810A JP2009217406A (ja) 2008-03-07 2008-03-07 文書検索装置及び方法、並びに、プログラム

Publications (1)

Publication Number Publication Date
JP2009217406A true JP2009217406A (ja) 2009-09-24

Family

ID=41189209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008058810A Pending JP2009217406A (ja) 2008-03-07 2008-03-07 文書検索装置及び方法、並びに、プログラム

Country Status (1)

Country Link
JP (1) JP2009217406A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013210834A (ja) * 2012-03-30 2013-10-10 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
CN110727696A (zh) * 2019-09-27 2020-01-24 上海麦克风文化传媒有限公司 一种排序结果索引方法
CN113474767A (zh) * 2019-02-14 2021-10-01 昭和电工株式会社 文件检索装置、文件检索系统、文件检索程序及文件检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192010A (ja) * 1993-12-27 1995-07-28 Canon Inc 文書処理装置
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH10334105A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2001084255A (ja) * 1999-09-10 2001-03-30 Fuji Xerox Co Ltd 文書検索装置および方法
JP2002140355A (ja) * 2000-10-31 2002-05-17 Ricoh Co Ltd 文書検索装置、文書検索方法および記録媒体
JP2002288215A (ja) * 2001-03-26 2002-10-04 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192010A (ja) * 1993-12-27 1995-07-28 Canon Inc 文書処理装置
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH10334105A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2001084255A (ja) * 1999-09-10 2001-03-30 Fuji Xerox Co Ltd 文書検索装置および方法
JP2002140355A (ja) * 2000-10-31 2002-05-17 Ricoh Co Ltd 文書検索装置、文書検索方法および記録媒体
JP2002288215A (ja) * 2001-03-26 2002-10-04 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013210834A (ja) * 2012-03-30 2013-10-10 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
CN113474767A (zh) * 2019-02-14 2021-10-01 昭和电工株式会社 文件检索装置、文件检索系统、文件检索程序及文件检索方法
CN113474767B (zh) * 2019-02-14 2023-09-01 株式会社力森诺科 文件检索装置、文件检索系统、文件检索程序及文件检索方法
CN110727696A (zh) * 2019-09-27 2020-01-24 上海麦克风文化传媒有限公司 一种排序结果索引方法
CN110727696B (zh) * 2019-09-27 2023-09-01 上海麦克风文化传媒有限公司 一种排序结果索引方法

Similar Documents

Publication Publication Date Title
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
CN109670022B (zh) 一种基于语义相似度的Java应用程序接口使用模式推荐方法
US8346795B2 (en) System and method for guiding entity-based searching
US7424421B2 (en) Word collection method and system for use in word-breaking
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
JP5501967B2 (ja) 間接話法内の意味論的関係の識別
JPH10134075A (ja) 文書処理装置、単語抽出装置、単語抽出方法、及び単語抽出プログラムを記録した記録媒体
Ghanem et al. Stemming effectiveness in clustering of Arabic documents
JP2000331032A (ja) 文書処理装置、単語抽出装置及び単語抽出方法
Mahdi et al. A Citation-based approach to automatic topical indexing of scientific literature
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2009217406A (ja) 文書検索装置及び方法、並びに、プログラム
JPWO2016067396A1 (ja) 文の並び替え方法および計算機
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP2014102625A (ja) 情報検索システム、プログラム、および方法
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
Zhou et al. DoCQS: a prototype system for supporting data-oriented content query
TW200424874A (en) Automatic thesaurus construction method
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법
Vigneshwari et al. An ontological approach for effective knowledge engineering
CA2914398A1 (en) Identification of semantic relationships within reported speech
JP2008234557A (ja) 評判情報検索装置、その方法およびプログラム
Gope A Study on Knowledge Extraction from Official Bangla Documents
Kota Automated discovery of relevant features for text mining
Overell et al. GIR Experiments with Forostar at GeoCLEF 2007.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110707

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110810