JP5437219B2 - 文書検索装置および文書検索プログラム - Google Patents

文書検索装置および文書検索プログラム Download PDF

Info

Publication number
JP5437219B2
JP5437219B2 JP2010236653A JP2010236653A JP5437219B2 JP 5437219 B2 JP5437219 B2 JP 5437219B2 JP 2010236653 A JP2010236653 A JP 2010236653A JP 2010236653 A JP2010236653 A JP 2010236653A JP 5437219 B2 JP5437219 B2 JP 5437219B2
Authority
JP
Japan
Prior art keywords
document
search
cache
score
search word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010236653A
Other languages
English (en)
Other versions
JP2012089018A (ja
Inventor
宜仁 安田
義昌 小池
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010236653A priority Critical patent/JP5437219B2/ja
Publication of JP2012089018A publication Critical patent/JP2012089018A/ja
Application granted granted Critical
Publication of JP5437219B2 publication Critical patent/JP5437219B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書集合の中から利用者が入力した検索語を含むような文書を検索し出力する技術に関する。
大規模な文書集合を対象に、高速な検索を行うためには、従来より、転置インデクスと呼ばれる、単語をキーとしてその単語が出現するような文書の番号を記録した索引情報が広く利用されている(非特許文献1参照)。
さらに、連続して多数の検索要求が行われる場合の高速化のために、すべての検索要求を転置インデクスを用いて処理するのではなく、検索要求に対する処理結果を保存しておき、同一の、あるいは類似した検索要求が行われた場合に保存してあった処理結果を用いるキャッシュと呼ばれる方法が存在する(非特許文献2参照)。
特に、検索語に対して、利用者に提示する検索結果そのものをキャッシュする、リザルトキャッシュという方法が広く利用されている。これは、検索結果としてのタイトルや文書のURL、および概要文などもキャッシュに含めておくため、もし同一の検索語による検索が行われてキャッシュがヒットした場合に、処理を大幅に軽減できることが知られている。
尚、転置インデクスを変更する方法は、例えば非特許文献3に記載の方法が知られている。
竹野浩、井上孝史、「分散型高速情報収集/全文検索システムInfoBee/Evangelist」、NTT R&D、vol.52、No.2、2003、pp78−84 Baeza−Yates,R.,Gionis,A.,Junqueira,F.,Murdock,V.,Plachouras,V.,and Silvestri,F.、"The Impact of Caching on Search Engines",In Proceedings of the 30th Annual international ACM SIGIR Conference on Research and Development in information Retrieval(Amsterdam, The Netherlands,July 23−27,2007),pp183−190 Tomasic, A.,Garcia-Molina,H.,and Shoens,K.、"Incremental Updates of Inverted Lists for Text Document Retrieval",SIGMOD Rec. 23,2(Jun.1994),pp289−300
文書検索装置において、新しい文書を検索対象として追加したり、あるいは既存の検索対象文書が変更された場合には、転置インデクス自体を何らかの方法で変更する必要がある。この方法としては、転置インデクスを作り直す方法や、あるいは、非特許文献1や非特許文献3で示されている方法を使うことが考えられる。
転置インデクスが変更された場合、 単語に対する転置リストの内容も変わってしまい、結果として検索結果も変わってしまう。このため、従来のキャッシュ方式を用いた場合、転置インデクスが変更された場合にはキャッシュは無効となってしまう。このため、キャッシュの利用効率が下がり、結果として、 検索装置が単位時間あたりに処理することができる検索要求数が減少してしまうという問題があった。
これに対して、検索結果そのものをキャッシュに格納するのではなく、インデクスが更新された場合であっても未更新文書のスコアは基本的には変わらないという性質を利用して、スコアをキャッシュすることによって、未更新文書に対する処理を軽減する方法が考えられる。このような方法をスコアキャッシュと呼ぶ。スコアキャッシュはインデクスが更新された場合でもある程度の効果を発揮することに加えて、タイトルや文書のURL等を含める必要がないため、1エントリあたり必要なメモリ量がリザルトキャッシュに比べて格段に小さいというメリットもある。
しかし、このスコアキャッシュによる方法をとったとしても、以下のような問題が残るであろう。スコアキャッシュでは、どの文書が更新文書かどうかを確認するために、検索語中の各単語に対応する転置リストを一度展開して、その単語を含むような文書の一覧を取得し、各文書が更新されているかどうかを確認する必要がある。しかし、この展開の手間は無視できるものではない。特に多くの文書に出現するような一般的な単語では転置リストがとても長くなってしまい、展開には大変時間がかかる。このため、インデクス更新の間隔が長い場合や更新間隔間での検索回数が多い場合にあっては、転置リストの展開が不要なリザルトキャッシュを用いた方が効率が良いという問題がある。
本発明は、上記課題を解決するものであり、その目的は、単位時間あたりに処理できる検索要求数を向上させた文書検索装置、プログラムを提供することにある。
上記課題を解決するために本発明は、時刻情報つきのスコアのキャッシュとリザルトキャッシュを組み合わせることとし、さらに、リザルトキャッシュの格納件数が限定されていることに着目し、単純に組み合わせるのではなく、リザルトキャッシュに格納せずにスコアキャッシュのみに格納するエントリを、キャッシュに格納した場合の効用に基づいて算出するように構成した。
すなわち、請求項1に記載の文書検索装置は、文書集合の中から、利用者が入力した検索語を含む文書を検索し出力する文書検索装置であって、利用者から入力された検索語を受け取って、該検索語とその入力時刻を検索語履歴データベースに格納する検索語記録手段と、前記検索語のエントリが、キーとしての検索語とそれにより前記文書集合の文書を検索した結果とが格納されるリザルトキャッシュデータベースに格納されているか否かを確認するリザルトキャッシュ確認手段と、前記リザルトキャッシュ確認手段により、前記検索語エントリが格納されていないことが確認されたときに、前記検索語のエントリが、キーとしての検索語、その検索語エントリの最終格納時刻、前記検索語により前記文書集合を検索した結果の文書ID、当該文書のスコアおよび当該文書の更新時刻の対のリストが格納されるスコアキャッシュデータベースに格納されているか否かを確認して、当該スコアキャッシュデータベースの情報を取得するスコアキャッシュ確認手段と、前記文書集合中の各文書の単語の位置情報、前記各文書の文書IDおよび該文書IDが示す文書の更新時刻の情報を備えた転置インデクスと、前記スコアキャッシュ確認手段により取得された情報を入力とし、前記検索語中の各単語について、前記転置インデクスを参照して検索語を構成する各単語の文書IDの転置リストを取得し、該リストから前記スコアキャッシュデータベース内の検索語エントリの最終格納時刻よりも転置インデクス内の更新時刻が新しい文書について、検索語の種類に応じた検索条件を満たす文書リストを作成し、該文書リスト中の各文書について文書のスコアを計算し、該計算された文書のスコアによって前記スコアキャッシュデータベース内の該当する検索語リストを上書きし、該エントリの最終格納時刻を現在時刻に変更し、前記計算された文書のスコアおよび前記スコアキャッシュ確認手段から入力されたスコアキャッシュデータベースの情報を出力するクエリ処理手段と、前記クエリ処理手段の出力を入力とし、前記計算された文書のスコアが上位である予め決められた件数の文書を検索結果として出力するための、当該文書の内容についての情報を生成する出力内容生成手段と、前記出力内容生成手段により生成された各文書の内容についての情報を入力とし、前記転置インデクスが次回更新されるまでの前記検索語の予測入力回数ceと、前記リザルトキャッシュデータベースに当該検索語を格納せずにスコアキャッシュデータベースのみに格納した場合と比べて、リザルトキャッシュデータベースに格納した場合の処理の1検索あたりの予測軽減時間reとを求め、前記ceとreの積を、リザルトキャッシュデータベースへの検索語格納時の効用推定値として算出し、前記算出された効用推定値に応じて前記リザルトキャッシュデータベースへの検索語の格納を決定するキャッシュ効用推定手段と、前記リザルトキャッシュ確認手段により前記検索語エントリが格納されていると確認されたときは、前記リザルトキャッシュデータベース内に格納されている検索結果を外部に出力し、前記検索語エントリが格納されていないと確認されたときは、前記出力内容生成手段によって生成された情報を外部に出力する出力手段と、を備えたことを特徴としている。
本発明によれば、検索装置が単位時間あたりに処理できる検索要求数を向上することが可能となる。
本発明の一実施形態例を示す装置構成図。 図1の装置の処理の全体の流れを示すフローチャート。 本発明の一実施形態例におけるリザルトキャッシュデータベースの例を示す説明図。 本発明の一実施形態例におけるスコアキャッシュデータベースの例を示す説明図。 本発明の一実施形態例における転置インデクスが保持している各文書の最終更新時刻を示す説明図。 本発明の一実施形態例におけるキャッシュ効用推定部の処理の流れを示すフローチャート。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。本実施形態例では、上記のような問題を解決するため、リザルトキャッシュとスコアキャッシュの双方を保持し、何をリザルトキャッシュに格納するかどうかを決定するための「キャッシュ効用推定部」を設けた。
本実施形態例による文書検索装置は、利用者によって入力された検索語に最も関連している文書群、すなわちスコアが上位である文書群を出力する。
リザルトキャッシュは1エントリあたりに必要な記憶領域がスコアキャッシュよりも格段に大きいため、単純にリザルトキャッシュとスコアキャッシュに格納する要素を決定したのでは最善な効率は得られない。このため、本装置では、基本的にすべての検索語はスコアキャッシュに格納し、キャッシュに入りきらない場合はLRU(Least Recently Used)等のよく知られた方法によって既存のエントリを消去する。一方、リザルトキャッシュには無条件に最新の検索語を格納するのではなく、リザルトキャッシュに格納すべきかどうかを判断し、その結果に応じて格納する。
利用者から受け付ける検索語は、単一の単語、複数単語、句とする。これら検索語の種類に応じた検索条件は次のとおりである。すなわち、複数単語の場合には、それらの単語がすべて含まれている文書を検索対象とする(AND検索)。句の場合は、句を構成する複数の単語が、検索語中での順序と、文書中での出現順序が同一であるような文書を検索対象とする(フレーズ検索)。
図1は本発明の一実施形態例による文書検索装置100の構成を示し、図2は図1の装置の全体の処理の流れを示している。
図1において101は、ユーザから入力された検索語を受け取って、該検索語とその入力時刻を検索語履歴DB(データベース)102に格納する検索語記録手段としての検索語記録部である。
103は、キーとしての検索語と、それにより文書が格納された文書集合112の文書を検索した結果とが格納されるリザルトキャッシュDBである。
104は、前記入力された検索語のエントリがリザルトキャッシュDB103に格納されているか否かを確認するリザルトキャッシュ確認手段としてのリザルトキャッシュ確認部である。
105は、キーとしての検索語、その検索語エントリの最終格納時刻、前記検索語により前記文書集合を検索した結果の文書ID、当該文書のスコアおよび当該文書の更新時刻の対のリストが格納されるスコアキャッシュDBである。
106は、リザルトキャッシュ確認部104により、前記検索語エントリが格納されていないことが確認されたときに、前記検索語のエントリが、スコアキャッシュDB105に格納されているか否かを確認して、当該スコアキャッシュDB105の情報を取得するスコアキャッシュ確認手段としてのスコアキャッシュ確認部である。
107は、前記文書集合112中の各文書の単語の位置情報、前記各文書の文書IDおよび該文書IDが示す文書の更新時刻の情報を備えた転置インデクスである。
108は、クエリ処理手段としてのクエリ処理部であり、次のような処理を行う。すなわち、前記スコアキャッシュ確認部106により取得された情報を入力とし、前記検索語中の各単語について、前記転置インデクス107を参照して検索語を構成する各単語の文書IDの転置リストを取得し、該リストから前記スコアキャッシュDB105内の検索語エントリの最終格納時刻よりも転置インデクス107内の更新時刻が新しい文書について、検索語の種類に応じた検索条件を満たす文書リストを作成し、該文書リスト中の各文書について文書のスコアを計算し、該計算された文書のスコアによって前記スコアキャッシュDB105内の該当する検索語リストを上書きし、該エントリの最終格納時刻を現在時刻に変更し、前記計算された文書のスコアおよび前記スコアキャッシュ確認部106から入力されたスコアキャッシュDB105の情報を出力する。
109は、前記クエリ処理部108の出力を入力とし、前記計算された文書のスコアが上位である予め決められた件数の文書を検索結果として出力するための、当該文書の内容についての情報を生成する出力内容生成手段としての出力内容生成部である。
110は、前記出力内容生成部109により生成された各文書の内容についての情報を入力とし、前記転置インデクス107が次回更新されるまでの前記検索語の予測入力回数ceと、前記リザルトキャッシュDB103に当該検索語を格納せずにスコアキャッシュDB105のみに格納した場合と比べて、リザルトキャッシュDB103に格納した場合の処理の1検索あたりの予測軽減時間reとを求め、前記ceとreの積を、リザルトキャッシュDB103への検索語格納時の効用推定値として算出し、前記算出された効用推定値に応じて前記リザルトキャッシュDB103への検索語の格納を決定するキャッシュ効用推定手段としてのキャッシュ効用推定部である。
111は、前記リザルトキャッシュ確認部104により前記検索語エントリが格納されていると確認されたときは、前記リザルトキャッシュDB103内に格納されている検索結果を外部に出力し、前記検索語エントリが格納されていないと確認されたときは、前記出力内容生成部109によって生成された情報を外部に出力する出力手段としての出力部である。
前記文書検索装置100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、推定値高精度化システム100は、図1に示すように、検索語記録部101、検索語履歴DB102、リザルトキャッシュDB103、リザルトキャッシュ確認部104、スコアキャッシュDB105、スコアキャッシュ確認部106、転置インデクス107、クエリ処理部108、出力内容生成部109、キャッシュ効用推定部110、出力部111、文書集合112を実装する。
前記検索語履歴DB102、リザルトキャッシュDB103、スコアキャッシュDB105、転置インデクス107および文書集合112は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
次に上記のように構成された動作を具体的に説明する。
<検索語記録部101>
検索語記録部101ではユーザが入力した検索語を受取る。まず、検索語と入力された時刻とを、検索語履歴DB102に格納する(図2のステップS1)。次に、入力された検索語をそのまま出力する。
<リザルトキャッシュDB103>
リザルトキャッシュDB103は、検索語をキーとして、その検索語による検索結果を文字列として格納したものである。リザルトキャッシュDB103の例を図3に示す。
<リザルトキャッシュ確認部104>
リザルトキャッシュ確認部104では、入力された検索語のエントリがリザルトキャッシュDB103に格納されているかどうかを確認する(図2のステップS2)。
もし該当エントリがあればその内容を出力部111に対して出力する。もし該当エントリがなければ入力された検索語をそのままスコアキャッシュ確認部106に対して出力する。
<スコアキャッシュDB105>
スコアキャッシュDB105は、検索語をキーとして、そのキャッシュエントリの最終格納時刻、および検索結果の文書IDと文書のスコアと文書の更新時刻の対のリストを持つような表として構成される。スコアキャッシュDB105の例を図4に示す。
<スコアキャッシュ確認部106>
スコアキャッシュ確認部106では、入力された検索語のエントリがスコアキャッシュDB105に格納されているかどうかを確認する(図2のステップS3)。そしてスコアキャッシュDB105より得られた内容と、もとの検索語をクエリ処理部108に対して出力する。
<転置インデクス107>
転置インデクス107は、一般的な文書検索で用いられる転置インデクスである。ただし、スコアキャッシュがまだ有効かどうかを確認できるようにするために、各文書の最終更新時刻を高速に得られるようにする。これには一般的な転置インデクスに加えて、文書IDを番地として最終時刻を値として保持するような配列を別途保持することで可能である。
転置インデクス107における各文書の最終更新時刻を得るための配列の例を図5に示す。
<クエリ処理部108>
クエリ処理部108は、検索語とスコアキャッシュ確認部106から出力されたスコアキャッシュDB105の該当エントリを入力として受取る。
当該検索語に対するスコアキャッシュの最終格納時刻をtcとする。もし、スコアキャッシュDB105に当該検索語が含まれていない場合は、古い時刻として、tc=0とする。
次に、検索語中の各単語について、転置インデクス107を参照し、検索語を構成する各単語の文書IDのリスト(転置リスト)を取得する。
上記の各単語に対するリストより、tcよりも更新時刻が新しい文書について、AND条件やフレーズ条件(検索語の種類に応じた検索条件)を満たす文書のリストlpを作成する(図2のステップS4)。
そして前記リストlp中の各文書について、文書のスコアを計算する(図2のステップS5)。
スコアの計算はBM25やtfidf(term frequency inverse document frequency)といった、一般的に知られているスコア計算方法を用いることができる。
ただし、tfidfにおけるidf項のように、検索文書集合全体より得られる統計値を用いるスコア計算方法を利用する場合は、近似的に、現在の文書集合ではなく、過去のある時点での文書集合に基く統計値を用いる。
前記リストlp中の各文書は更新された文書であり、本発明ではこの更新された文書についてのみスコア計算を行なう(インデクスの更新があった場合でも未更新文書のスコアは基本的に変わらないので)。
上記手順によって得られた各文書のスコアと、入力として受けとったスコアキャッシュDB105の内容を出力内容生成部109に対して出力する。
また、同内容でスコアキャッシュDB105の該当エントリを上書きする。また、スコアキャッシュDB105の最終格納時刻を現在時刻とする(図2のステップS6)。
<出力内容生成部109>
出力内容生成部109では、クエリ処理部108から検索語、および、文書IDとスコアからなる対を複数個入力として受取る。
まず、スコアを基準にソート処理を行い、スコアが上位k件の文書を得る。kは最終的にユーザに提示する件数に応じて事前に決めた定数である。
このスコアが上位の文書について、タイトル、文書のURL、概要文等(文書の内容についての情報)を元文書を参照しながら生成する(図2のステップS7)。これらは従来の技術を用いることができる。
なお、元文書を参照するのではなく、タイトルや文書のURLについては、文書IDをキーとするような連想配列状のデータベースを用いても良い。
上記手順によって得られた上位k件の各文書のスコア、タイトル、文書のURL、概要文を、キャッシュ効用推定部110と出力部111に対して出力する。
<キャッシュ効用推定部110>
キャッシュ効用推定部110は検索語に対する検索結果上位の各文書(スコアが上位の文書)の提示内容を受け取り、リザルトキャッシュDB103へ格納する効用があると推定された場合には、リザルトキャッシュDB103への格納を行う(図2のステップS8〜S10)。
キャッシュ効用推定部110の処理の流れ図を図6に示す。まず、次回転置インデクス107の更新(例えば新たに文書を収集したことにより転置インデクス107の内容を更新するとき)までの当該検索語の予測入力回数を決定する(ステップS21)。
現在時刻をt、最終インデクス更新時刻をt0、次回インデクス更新時刻をt1とする。検索語履歴DB102を参照し、時刻t0よりtまでの期間に当該検索語が入力された回数をc0とする。このとき、次回インデクス更新までの当該検索語の予測入力回数ceを以下の式で定める。
ce=c0×(t1−t0)/(t−t0)…(1)
次に、リザルトキャッシュDB103に格納せず、スコアキャッシュDB105のみに格納した場合と比べて、リザルトキャッシュDB103に格納した場合の処理の1検索あたりの予測軽減時間reを決定する(ステップS22)。
リザルトキャッシュDB103にヒットした場合の処理時間は実質的に0だとみなすことができる。このため、reはスコアキャッシュDB105を用いた場合の処理時間とすることができる。この処理時間は、過去に同一クエリについてスコアキャッシュDB105を用いた処理をしたことがあればその実測時間を用いることができる。あるいは、スコアキャッシュDB105による処理のうち支配的な時間はAND検索の併合処理あるいはフレーズ処理とみなすことができ、これらは、検索語を構成する単語のうちもっとも文書出現頻度の少ない単語に支配される。このため、事前に定めた定数mを用いて、re=m×(検索語を構成する単語の最小転置リストの長さ)として求めることもできる。
これらより、当該検索語のリザルトキャッシュDB格納時の効用を、
ce×re…(2)
として算出する(ステップS23)。
この値が事前に定めた値よりも高い場合には、リザルトキャッシュDB103に格納する。
事前に定めた値を用いる以外に、現在リザルトキャッシュDB103に格納されているすべての語についての効用を算出し、それらよりも高い場合に格納するという方法を取ることも可能である(ステップS24、S25)。
<出力部111>
出力部111では、入力として受けとった各ユーザへの提示内容を(リザルトキャッシュ確認部104により前記検索語エントリが格納されていると確認されたときは該確認部104から出力されるリザルトキャッシュDB103内の検索結果を、前記検索語エントリが格納されていないと確認されたときは出力内容生成部109で生成された情報を)、画面あるいはネットワーク等ユーザに対して提示できるデバイスへ出力する(図2のステップS11)。
また、本実施形態の文書検索装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の文書検索方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
100…文書検索装置
101…検索語記録部
102…検索語履歴DB
103…リザルトキャッシュDB
104…リザルトキャッシュ確認部
105…スコアキャッシュDB
106…スコアキャッシュ確認部
107…転置インデクス
108…クエリ処理部
109…出力内容生成部
110…キャッシュ効用推定部
111…出力部
112…文書集合

Claims (4)

  1. 文書集合の中から、利用者が入力した検索語を含む文書を検索し出力する文書検索装置であって、
    利用者から入力された検索語を受け取って、該検索語とその入力時刻を検索語履歴データベースに格納する検索語記録手段と、
    前記検索語のエントリが、キーとしての検索語とそれにより前記文書集合の文書を検索した結果とが格納されるリザルトキャッシュデータベースに格納されているか否かを確認するリザルトキャッシュ確認手段と、
    前記リザルトキャッシュ確認手段により、前記検索語エントリが格納されていないことが確認されたときに、前記検索語のエントリが、キーとしての検索語、その検索語エントリの最終格納時刻、前記検索語により前記文書集合を検索した結果の文書ID、当該文書のスコアおよび当該文書の更新時刻の対のリストが格納されるスコアキャッシュデータベースに格納されているか否かを確認して、当該スコアキャッシュデータベースの情報を取得するスコアキャッシュ確認手段と、
    前記文書集合中の各文書の単語の位置情報、前記各文書の文書IDおよび該文書IDが示す文書の更新時刻の情報を備えた転置インデクスと、
    前記スコアキャッシュ確認手段により取得された情報を入力とし、前記検索語中の各単語について、前記転置インデクスを参照して検索語を構成する各単語の文書IDの転置リストを取得し、該リストから前記スコアキャッシュデータベース内の検索語エントリの最終格納時刻よりも転置インデクス内の更新時刻が新しい文書について、検索語の種類に応じた検索条件を満たす文書リストを作成し、該文書リスト中の各文書について文書のスコアを計算し、該計算された文書のスコアによって前記スコアキャッシュデータベース内の該当する検索語リストを上書きし、該エントリの最終格納時刻を現在時刻に変更し、前記計算された文書のスコアおよび前記スコアキャッシュ確認手段から入力されたスコアキャッシュデータベースの情報を出力するクエリ処理手段と、
    前記クエリ処理手段の出力を入力とし、前記計算された文書のスコアが上位である予め決められた件数の文書を検索結果として出力するための、当該文書の内容についての情報を生成する出力内容生成手段と、
    前記出力内容生成手段により生成された各文書の内容についての情報を入力とし、前記転置インデクスが次回更新されるまでの前記検索語の予測入力回数ceと、前記リザルトキャッシュデータベースに当該検索語を格納せずにスコアキャッシュデータベースのみに格納した場合と比べて、リザルトキャッシュデータベースに格納した場合の処理の1検索あたりの予測軽減時間reとを求め、前記ceとreの積を、リザルトキャッシュデータベースへの検索語格納時の効用推定値として算出し、前記算出された効用推定値に応じて前記リザルトキャッシュデータベースへの検索語の格納を決定するキャッシュ効用推定手段と、
    前記リザルトキャッシュ確認手段により前記検索語エントリが格納されていると確認されたときは、前記リザルトキャッシュデータベース内に格納されている検索結果を外部に出力し、前記検索語エントリが格納されていないと確認されたときは、前記出力内容生成手段によって生成された情報を外部に出力する出力手段と、
    を備えたことを特徴とする文書検索装置。
  2. 前記キャッシュ効用推定手段は、現在時刻をt、前記転置インデクスの最終更新時刻をt0、前記転置インデクスが次回更新される時刻をt1、前記t0よりtまでの期間に前記検索語履歴データベース内に前記検索語が入力された回数をc0とし、前記予測入力回数ceを、ce=c0×(t1−t0)/(t−t0)なる式を演算して求めることを特徴とする請求項1に記載の文書検索装置。
  3. 前記キャッシュ効用推定手段は、前記予測軽減時間reを、前記転置インデクス内の検索語を構成する単語の最小転置リストの長さと予め定めた定数との積によって求めることを特徴とする請求項1又は2に記載の文書検索装置。
  4. コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる文書検索プログラム。
JP2010236653A 2010-10-21 2010-10-21 文書検索装置および文書検索プログラム Expired - Fee Related JP5437219B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010236653A JP5437219B2 (ja) 2010-10-21 2010-10-21 文書検索装置および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010236653A JP5437219B2 (ja) 2010-10-21 2010-10-21 文書検索装置および文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2012089018A JP2012089018A (ja) 2012-05-10
JP5437219B2 true JP5437219B2 (ja) 2014-03-12

Family

ID=46260558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010236653A Expired - Fee Related JP5437219B2 (ja) 2010-10-21 2010-10-21 文書検索装置および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP5437219B2 (ja)

Also Published As

Publication number Publication date
JP2012089018A (ja) 2012-05-10

Similar Documents

Publication Publication Date Title
US10685017B1 (en) Methods and systems for efficient query rewriting
JP4708436B2 (ja) 信頼性のある文書の識別
Fagni et al. Boosting the performance of web search engines: Caching and prefetching query results by exploiting historical usage data
CN102542052B (zh) 优先散列索引
CN108920600B (zh) 一种基于数据关联性的分布式文件系统元数据预取方法
US20100318538A1 (en) Predictive searching and associated cache management
CN103870461B (zh) 主题推荐方法、装置和服务器
Skobeltsyn et al. ResIn: a combination of results caching and index pruning for high-performance web search engines
TWI663518B (zh) Search cache update method and device
US8301841B2 (en) Method and system for caching terminology data
Wan TimedTextRank: adding the temporal dimension to multi-document summarization
Kucukyilmaz et al. A machine learning approach for result caching in web search engines
JPH11102366A (ja) 検索方法および検索装置
CN103488638A (zh) 一种结果缓存替换的优化方法
Yafay et al. Caching scores for faster query processing with dynamic pruning in search engines
CN103064846B (zh) 检索装置和检索方法
JP5437219B2 (ja) 文書検索装置および文書検索プログラム
Levene et al. Search engine ability to cope with the changing web
JP4606548B2 (ja) 検索システムのメンテナンス方法及び検索システム
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP5303500B2 (ja) 文書検索装置及び方法及びプログラム
JP2010072909A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5585489B2 (ja) 検索支援装置、プログラム及び方法
JP5384884B2 (ja) 情報検索装置および情報検索プログラム
Li et al. A hybrid cache and prefetch mechanism for scientific literature search engines

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131211

R150 Certificate of patent or registration of utility model

Ref document number: 5437219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees