JP2012123566A - 文書検索装置、文書検索方法及び文書検索プログラム - Google Patents
文書検索装置、文書検索方法及び文書検索プログラム Download PDFInfo
- Publication number
- JP2012123566A JP2012123566A JP2010272993A JP2010272993A JP2012123566A JP 2012123566 A JP2012123566 A JP 2012123566A JP 2010272993 A JP2010272993 A JP 2010272993A JP 2010272993 A JP2010272993 A JP 2010272993A JP 2012123566 A JP2012123566 A JP 2012123566A
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- query
- list
- added
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書検索装置1において、類似度計算・ランキング手段121は修正または追加された検索クエリと前記ローカルストレージに保持された前記検索クエリの修正前または追加前の検索結果に基づく部分転置リストに対応した文書集合の各文書との類似度に基づき当該文書集合の各文書のランキングを行う。前記部分転置リストは検索クエリと高い頻度で共起するクエリ集合に適合した文書集合から選択された文書集合の部分転置リストである。また、ローカルキャッシュ更新判定手段111は前記ローカルストレージに保持されたローカルキャッシュを規定するクエリと前記修正または追加されたクエリとの差分と前記部分転置リストとに基づき抽出された文書集合が当該部分転置リストの更新の条件を満たしているか否かを判定する。
【選択図】図1
Description
図1に示された発明の実施形態の文書検索装置1は、大規模分散システム上に構築されたウェブ検索エンジンやイントラネット等の文書検索システム2へのアクセスの際、ローカルストレージを利用して検索のレスポンスを向上させる。特に、文書検索装置1は文書検索システム2にてクエリログから構築されたセッション情報に基づき得られた確率の高い文書集合をローカルストレージにキャッシュする。そして、文書検索システム2のサーバ側で予め前記キャッシュする文書集合に対して情報量を削減して作成された部分転置リストに基づき文書検索システム2から得られた検索結果のランキングを少ない情報量で効果的に近似して構成する。部分転置リストは前記ローカルストレージに格納された文書集合とクエリの類似度のしきい値等に規定された更新要件に基づき更新される。
本実施形態の説明にあたり当該実施形態に係る技術用語について説明する。
図1に例示された情報検索システムは本発明の実施形態に係る文書検索装置1と文書検索システム2とからなる。文書検索装置1はネットワーク3を介して文書検索システム2と通信可能となっている。
文書検索装置1は図1,図2に示されたようにローカルストレージ管理手段11と検索処理手段12とを備える。機能手段11,12はコンピュータのハードウェアリソースによって実現される。すなわち、文書検索装置1は図2に示された制御手段(例えばCPU)101、記憶手段(ROM、RAM、HDD、SSD等)102、通信手段103、ユーザインタフェース(入力部(キーボード、ポインティグデバイス)・表示部(モニタ装置))104等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより機能手段11,12が実装される。
文書検索システム2は、図1に示されたように、文書検索装置1から供された検索クエリに基づき検索処理を行う検索サーバ21と、前記検索処理に供される検索サービスを提供するアプリケーションサーバ22と、前記検索処理に用いられる設定情報やユーザ情報を管理するデータベースサーバ23とを備える。文書検索システム2は図1に例示された態様のように機能を複数のサーバに分散させた構成を採っているが単一のサーバ内で実現させてもよい。
(文書検索システム2の処理手順)
図3を参照しながら文書検索システム2の処理手順S1〜S7について説明する。
図5を参照しながら文書検索装置1の処理手順S11〜S15について説明する。
(1)AND検索(例えば、最初のクエリと二回目のクエリを組み合わせたAND検索)による得られた文書集合を構成する文書の数が0件であること。
(2)文書集合を構成する文書と追加または修正されたクエリとの近似類似度の最高値が閾値以下、例えば0.5以下であること。
(3)追加または修正されたクエリとの近似類似度がゼロでない文書の数が閾値以下、例えば5件以下であること。
(4)ユーザが明示的に検索リクエストの送信を指定したこと。
以上のように本実施形態の文書検索装置1はローカルキャッシュを文書検索のキャッシュとして利用することで図9に示したように検索インタフェースのレスポンスを向上させインタラクション回数を増加させることができる。したがって、図10に示したように追加または修正されたクエリの検索ボタンを明示的に押すことなく当該クエリに基づく文書検索を行うことができる。
本発明は上記の実施形態の文書検索装置1に係る各機能手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータによって実行して本発明を実現することができる。また、サーバ21〜23に係る各機能手段の一部もしくは全部の機能をコンピュータのプログラムで構成できる。さらに、コンピュータで前記機能手段を実現するためのプログラムをそのコンピュータが読み取り可能な記録媒体、例えば、FD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、SSD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
2…文書検索システム
111…ローカルキャッシュ更新判定手段
121…類似度計算・ランキング手段
Claims (10)
- 修正または追加された検索クエリに基づく検索によって得られた文書集合を提示する文書検索装置であって、
修正または追加された検索クエリとローカルストレージに保持された前記検索クエリの修正前または追加前の検索結果に基づく部分転置リストに対応した文書集合の各文書との類似度に基づき当該文書集合の各文書のランキングを行う類似度計算・ランキング手段を備えたこと
を特徴とする文書検索装置。 - 前記部分転置リストは検索クエリと高い頻度で共起するクエリ集合に適合した文書集合から選択された文書集合の部分転置リストであること
を特徴とする請求項1に記載の文書検索装置。 - 前記ローカルストレージに保持されたローカルキャッシュを規定するクエリと前記修正または追加されたクエリとの差分と前記部分転置リストとに基づき抽出された文書集合が当該部分転置リストの更新の条件を満たしているか否かを判定するローカルキャッシュ更新判定手段をさらに備えたこと
を特徴とする請求項1または2に記載の文書検索装置。 - 前記条件は前記抽出された文書集合において前記修正前または追加前の検索クエリと前記修正または追加された検索クエリとを組み合わせた検索による得られる文書の数がゼロであること
を特徴とする請求項3に記載の文書検索装置。 - 前記条件は前記抽出された文書集合を構成する文書と前記追加または修正されたクエリとの近似類似度の最高値が閾値以下であること
を特徴とする請求項3に記載の文書検索装置。 - 前記条件は追加または修正されたクエリとの近似類似度がゼロでない文書の数が閾値以下であること
を特徴とする請求項3に記載の文書検索装置。 - 修正または追加された検索クエリに基づく検索によって得られた文書集合を提示する文書検索方法であって、
類似度計算・ランキング手段が修正または追加された検索クエリとローカルストレージに保持された前記検索クエリの修正前または追加前の検索結果に基づく部分転置リストに対応した文書集合の各文書との類似度に基づき当該文書集合の各文書のランキングを行うステップを有すること
を特徴とする文書検索方法。 - 前記部分転置リストは検索クエリと高い頻度で共起するクエリ集合に適合した文書集合から選択された文書集合の部分転置リストであること
を特徴とする請求項7に記載の文書検索方法。 - ローカルキャッシュ更新判定手段が前記ローカルストレージに保持されたローカルキャッシュを規定するクエリと前記修正または追加されたクエリとの差分と前記部分転置リストとに基づき抽出された文書集合が当該部分転置リストの更新の条件を満たしているか否かを判定するステップを
さらに有すること
を特徴とする請求項7または8に記載の文書検索方法。 - 請求項1から6のいずれか1項に記載の文書検索装置を構成する各手段としてコンピュータを機能させることを特徴とする文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010272993A JP5525424B2 (ja) | 2010-12-07 | 2010-12-07 | 文書検索装置、文書検索方法及び文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010272993A JP5525424B2 (ja) | 2010-12-07 | 2010-12-07 | 文書検索装置、文書検索方法及び文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012123566A true JP2012123566A (ja) | 2012-06-28 |
JP5525424B2 JP5525424B2 (ja) | 2014-06-18 |
Family
ID=46504947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010272993A Active JP5525424B2 (ja) | 2010-12-07 | 2010-12-07 | 文書検索装置、文書検索方法及び文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5525424B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783154B2 (en) | 2017-09-29 | 2020-09-22 | International Business Machines Corporation | Transposing of ranking models |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117942A (ja) * | 1999-10-20 | 2001-04-27 | Just Syst Corp | 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2005346342A (ja) * | 2004-06-02 | 2005-12-15 | Matsushita Electric Ind Co Ltd | 部品検索システム |
JP2008234559A (ja) * | 2007-03-23 | 2008-10-02 | Yahoo Japan Corp | ドキュメント絞り込み検索装置、方法及びプログラム |
JP2009175896A (ja) * | 2008-01-22 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
-
2010
- 2010-12-07 JP JP2010272993A patent/JP5525424B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117942A (ja) * | 1999-10-20 | 2001-04-27 | Just Syst Corp | 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2005346342A (ja) * | 2004-06-02 | 2005-12-15 | Matsushita Electric Ind Co Ltd | 部品検索システム |
JP2008234559A (ja) * | 2007-03-23 | 2008-10-02 | Yahoo Japan Corp | ドキュメント絞り込み検索装置、方法及びプログラム |
JP2009175896A (ja) * | 2008-01-22 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783154B2 (en) | 2017-09-29 | 2020-09-22 | International Business Machines Corporation | Transposing of ranking models |
Also Published As
Publication number | Publication date |
---|---|
JP5525424B2 (ja) | 2014-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8276060B2 (en) | System and method for annotating documents using a viewer | |
US6615209B1 (en) | Detecting query-specific duplicate documents | |
US7890485B2 (en) | Knowledge management tool | |
US7930286B2 (en) | Federated searches implemented across multiple search engines | |
US8166056B2 (en) | System and method for searching annotated document collections | |
US9081861B2 (en) | Uniform resource locator canonicalization | |
US20070067304A1 (en) | Search using changes in prevalence of content items on the web | |
US20080201317A1 (en) | Ranking documents | |
US20120059822A1 (en) | Knowledge management tool | |
JP5084858B2 (ja) | サマリ作成装置、サマリ作成方法及びプログラム | |
WO2008097856A2 (en) | Search result delivery engine | |
US20150339387A1 (en) | Method of and system for furnishing a user of a client device with a network resource | |
Fatima et al. | New framework for semantic search engine | |
JP4769822B2 (ja) | ページグループを用いた情報検索サービス提供サーバー、方法及びシステム | |
Aggarwal et al. | Information retrieval and search engines | |
Jadidoleslamy | Search result merging and ranking strategies in meta-search engines: a survey | |
JP2004280569A (ja) | 情報監視装置 | |
JP5525424B2 (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
JP2004348607A (ja) | コンテンツ検索方法、コンテンツ検索システム、コンテンツ検索用プログラムおよびコンテンツ検索用プログラムが記録された記録媒体 | |
JP5286007B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2002049638A (ja) | 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体 | |
KR20140094994A (ko) | 비일시적 검색 제공 방법과 시스템 및 컴퓨터 디바이스 | |
JP2010122932A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
Saoud et al. | Exploiting social annotations to generate resource descriptions in a distributed environment: Cooperative multi-agent simulation on query-based sampling | |
Rani et al. | Getting Bulk Data Through Google: An empirical study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5525424 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |