JP5437219B2 - 文書検索装置および文書検索プログラム - Google Patents
文書検索装置および文書検索プログラム Download PDFInfo
- Publication number
- JP5437219B2 JP5437219B2 JP2010236653A JP2010236653A JP5437219B2 JP 5437219 B2 JP5437219 B2 JP 5437219B2 JP 2010236653 A JP2010236653 A JP 2010236653A JP 2010236653 A JP2010236653 A JP 2010236653A JP 5437219 B2 JP5437219 B2 JP 5437219B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- cache
- score
- search word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
検索語記録部101ではユーザが入力した検索語を受取る。まず、検索語と入力された時刻とを、検索語履歴DB102に格納する(図2のステップS1)。次に、入力された検索語をそのまま出力する。
リザルトキャッシュDB103は、検索語をキーとして、その検索語による検索結果を文字列として格納したものである。リザルトキャッシュDB103の例を図3に示す。
リザルトキャッシュ確認部104では、入力された検索語のエントリがリザルトキャッシュDB103に格納されているかどうかを確認する(図2のステップS2)。
スコアキャッシュDB105は、検索語をキーとして、そのキャッシュエントリの最終格納時刻、および検索結果の文書IDと文書のスコアと文書の更新時刻の対のリストを持つような表として構成される。スコアキャッシュDB105の例を図4に示す。
スコアキャッシュ確認部106では、入力された検索語のエントリがスコアキャッシュDB105に格納されているかどうかを確認する(図2のステップS3)。そしてスコアキャッシュDB105より得られた内容と、もとの検索語をクエリ処理部108に対して出力する。
転置インデクス107は、一般的な文書検索で用いられる転置インデクスである。ただし、スコアキャッシュがまだ有効かどうかを確認できるようにするために、各文書の最終更新時刻を高速に得られるようにする。これには一般的な転置インデクスに加えて、文書IDを番地として最終時刻を値として保持するような配列を別途保持することで可能である。
クエリ処理部108は、検索語とスコアキャッシュ確認部106から出力されたスコアキャッシュDB105の該当エントリを入力として受取る。
出力内容生成部109では、クエリ処理部108から検索語、および、文書IDとスコアからなる対を複数個入力として受取る。
キャッシュ効用推定部110は検索語に対する検索結果上位の各文書(スコアが上位の文書)の提示内容を受け取り、リザルトキャッシュDB103へ格納する効用があると推定された場合には、リザルトキャッシュDB103への格納を行う(図2のステップS8〜S10)。
次に、リザルトキャッシュDB103に格納せず、スコアキャッシュDB105のみに格納した場合と比べて、リザルトキャッシュDB103に格納した場合の処理の1検索あたりの予測軽減時間reを決定する(ステップS22)。
ce×re…(2)
として算出する(ステップS23)。
出力部111では、入力として受けとった各ユーザへの提示内容を(リザルトキャッシュ確認部104により前記検索語エントリが格納されていると確認されたときは該確認部104から出力されるリザルトキャッシュDB103内の検索結果を、前記検索語エントリが格納されていないと確認されたときは出力内容生成部109で生成された情報を)、画面あるいはネットワーク等ユーザに対して提示できるデバイスへ出力する(図2のステップS11)。
101…検索語記録部
102…検索語履歴DB
103…リザルトキャッシュDB
104…リザルトキャッシュ確認部
105…スコアキャッシュDB
106…スコアキャッシュ確認部
107…転置インデクス
108…クエリ処理部
109…出力内容生成部
110…キャッシュ効用推定部
111…出力部
112…文書集合
Claims (4)
- 文書集合の中から、利用者が入力した検索語を含む文書を検索し出力する文書検索装置であって、
利用者から入力された検索語を受け取って、該検索語とその入力時刻を検索語履歴データベースに格納する検索語記録手段と、
前記検索語のエントリが、キーとしての検索語とそれにより前記文書集合の文書を検索した結果とが格納されるリザルトキャッシュデータベースに格納されているか否かを確認するリザルトキャッシュ確認手段と、
前記リザルトキャッシュ確認手段により、前記検索語エントリが格納されていないことが確認されたときに、前記検索語のエントリが、キーとしての検索語、その検索語エントリの最終格納時刻、前記検索語により前記文書集合を検索した結果の文書ID、当該文書のスコアおよび当該文書の更新時刻の対のリストが格納されるスコアキャッシュデータベースに格納されているか否かを確認して、当該スコアキャッシュデータベースの情報を取得するスコアキャッシュ確認手段と、
前記文書集合中の各文書の単語の位置情報、前記各文書の文書IDおよび該文書IDが示す文書の更新時刻の情報を備えた転置インデクスと、
前記スコアキャッシュ確認手段により取得された情報を入力とし、前記検索語中の各単語について、前記転置インデクスを参照して検索語を構成する各単語の文書IDの転置リストを取得し、該リストから前記スコアキャッシュデータベース内の検索語エントリの最終格納時刻よりも転置インデクス内の更新時刻が新しい文書について、検索語の種類に応じた検索条件を満たす文書リストを作成し、該文書リスト中の各文書について文書のスコアを計算し、該計算された文書のスコアによって前記スコアキャッシュデータベース内の該当する検索語リストを上書きし、該エントリの最終格納時刻を現在時刻に変更し、前記計算された文書のスコアおよび前記スコアキャッシュ確認手段から入力されたスコアキャッシュデータベースの情報を出力するクエリ処理手段と、
前記クエリ処理手段の出力を入力とし、前記計算された文書のスコアが上位である予め決められた件数の文書を検索結果として出力するための、当該文書の内容についての情報を生成する出力内容生成手段と、
前記出力内容生成手段により生成された各文書の内容についての情報を入力とし、前記転置インデクスが次回更新されるまでの前記検索語の予測入力回数ceと、前記リザルトキャッシュデータベースに当該検索語を格納せずにスコアキャッシュデータベースのみに格納した場合と比べて、リザルトキャッシュデータベースに格納した場合の処理の1検索あたりの予測軽減時間reとを求め、前記ceとreの積を、リザルトキャッシュデータベースへの検索語格納時の効用推定値として算出し、前記算出された効用推定値に応じて前記リザルトキャッシュデータベースへの検索語の格納を決定するキャッシュ効用推定手段と、
前記リザルトキャッシュ確認手段により前記検索語エントリが格納されていると確認されたときは、前記リザルトキャッシュデータベース内に格納されている検索結果を外部に出力し、前記検索語エントリが格納されていないと確認されたときは、前記出力内容生成手段によって生成された情報を外部に出力する出力手段と、
を備えたことを特徴とする文書検索装置。 - 前記キャッシュ効用推定手段は、現在時刻をt、前記転置インデクスの最終更新時刻をt0、前記転置インデクスが次回更新される時刻をt1、前記t0よりtまでの期間に前記検索語履歴データベース内に前記検索語が入力された回数をc0とし、前記予測入力回数ceを、ce=c0×(t1−t0)/(t−t0)なる式を演算して求めることを特徴とする請求項1に記載の文書検索装置。
- 前記キャッシュ効用推定手段は、前記予測軽減時間reを、前記転置インデクス内の検索語を構成する単語の最小転置リストの長さと予め定めた定数との積によって求めることを特徴とする請求項1又は2に記載の文書検索装置。
- コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010236653A JP5437219B2 (ja) | 2010-10-21 | 2010-10-21 | 文書検索装置および文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010236653A JP5437219B2 (ja) | 2010-10-21 | 2010-10-21 | 文書検索装置および文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012089018A JP2012089018A (ja) | 2012-05-10 |
JP5437219B2 true JP5437219B2 (ja) | 2014-03-12 |
Family
ID=46260558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010236653A Expired - Fee Related JP5437219B2 (ja) | 2010-10-21 | 2010-10-21 | 文書検索装置および文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5437219B2 (ja) |
-
2010
- 2010-10-21 JP JP2010236653A patent/JP5437219B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012089018A (ja) | 2012-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10685017B1 (en) | Methods and systems for efficient query rewriting | |
JP4708436B2 (ja) | 信頼性のある文書の識別 | |
Fagni et al. | Boosting the performance of web search engines: Caching and prefetching query results by exploiting historical usage data | |
CN102542052B (zh) | 优先散列索引 | |
CN108920600B (zh) | 一种基于数据关联性的分布式文件系统元数据预取方法 | |
US20100318538A1 (en) | Predictive searching and associated cache management | |
CN103870461B (zh) | 主题推荐方法、装置和服务器 | |
Skobeltsyn et al. | ResIn: a combination of results caching and index pruning for high-performance web search engines | |
TWI663518B (zh) | Search cache update method and device | |
US8301841B2 (en) | Method and system for caching terminology data | |
Wan | TimedTextRank: adding the temporal dimension to multi-document summarization | |
Kucukyilmaz et al. | A machine learning approach for result caching in web search engines | |
JPH11102366A (ja) | 検索方法および検索装置 | |
CN103488638A (zh) | 一种结果缓存替换的优化方法 | |
Yafay et al. | Caching scores for faster query processing with dynamic pruning in search engines | |
CN103064846B (zh) | 检索装置和检索方法 | |
JP5437219B2 (ja) | 文書検索装置および文書検索プログラム | |
Levene et al. | Search engine ability to cope with the changing web | |
JP4606548B2 (ja) | 検索システムのメンテナンス方法及び検索システム | |
JP5292336B2 (ja) | 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム | |
JP5303500B2 (ja) | 文書検索装置及び方法及びプログラム | |
JP2010072909A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5585489B2 (ja) | 検索支援装置、プログラム及び方法 | |
JP5384884B2 (ja) | 情報検索装置および情報検索プログラム | |
Li et al. | A hybrid cache and prefetch mechanism for scientific literature search engines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130313 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5437219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |