JP2012043402A - 検索装置およびプログラム - Google Patents
検索装置およびプログラム Download PDFInfo
- Publication number
- JP2012043402A JP2012043402A JP2011017856A JP2011017856A JP2012043402A JP 2012043402 A JP2012043402 A JP 2012043402A JP 2011017856 A JP2011017856 A JP 2011017856A JP 2011017856 A JP2011017856 A JP 2011017856A JP 2012043402 A JP2012043402 A JP 2012043402A
- Authority
- JP
- Japan
- Prior art keywords
- search
- query
- search results
- processing unit
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明の検索装置は、クエリが入力される入力手段と、前記クエリを推測的クエリ拡張プロセスにより拡張して複数の拡張クエリを生成し、前記複数の拡張クエリを検索処理部で検索処理させて複数のサーチ結果を獲得し、前記複数のサーチ結果に含まれる複数のドキュメントのうちで、予め評価済みのドキュメントのみを用いて前記複数のサーチ結果毎の擬似指標スコアを計算する処理部と、前記複数のサーチ結果毎の前記擬似指標スコアに基づいて前記複数のサーチ結果から選択された1以上の前記サーチ結果を出力する出力手段と、を備える。
【選択図】図1
Description
推測的クエリ拡張の基本は、複数の可能性のある(推測的)クエリを実行し、(一般的には、以前行われた関連する判定によって、)システムがユーザから収集したすべての情報を用いて、もっともよいと思われるものをユーザにサーチ結果として戻す方法を含む。
以前の反復における上位M個のタームをクエリに加えることによって、クエリ拡張タームが反復的に選択される。「上位」であることは、当該技術分野で知られている任意の方法(たとえば、Kullback-Leiblerダイバージェンス、ロッキオ(Rocchio)、サポート・ベクター・マシンなど)を適用することによって、関連があると明示的に判断されたドキュメントのタームおよびコレクションの他のタームにもとづいて、判断される。しかしながら、この推測的クエリ拡張はこの方法で必ずしも行わなければならないものではない。たとえば、任意の推測的ステップにおいて、上位M個と下位M個のタームを加えるようにしてもよい。もしくは、拡張クエリ候補のランキングの上位所定個を除いた中位M個のタームを代わりに加えるようにしてもよい。拡張された推測的クエリは、次に、処理され、評価される。
推測的拡張クエリからの結果はドキュメントのセットであり、ドキュメントのいくつかは関連があるかないかが知られている。その他のドキュメントの関連は知られていない。擬似指標スコアは、現在の検索中もしくは全体としてのセッションのある時点で、検索結果としてユーザに戻され提示された、評価済みドキュメントの順位にもとづいて計算される。擬似指標スコアは既知の指標を利用し、既知の指標を(判定済みドキュメントにのみ)擬似的手法で適用することによって計算される。この例では、平均精度測定を擬似的手法で利用する。たとえば、NDCG、Precision@10、および当該技術分野で知られている他の指標を、判定済みの関連ドキュメントおよび非関連ドキュメントの順位にもとづいて擬似的手法で同様に使用してもよい。
推測的拡張クエリによって生成されるリストについて、擬似平均精度を計算する。ユーザによってまだ検討されていない(すなわち、関連するか関連しないか、まだ判定されておらず、マーク付けされていない)ドキュメントを無視することによって、システムはすでに判定されたすべての(関連する、および、関連しない)ドキュメントのこの新しいリストにおける相対位置を知ることができる。擬似平均精度は、以前に判定されなかった他の関連ドキュメントは無視し、以前に判定されたドキュメントの新しい相対順位により注目して、このサブセットだけに関して計算される平均精度である。既知の非関連ドキュメントの前に既知の関連ドキュメントを多く検出する新しいクエリが未知の非関連ドキュメントの前に未知の関連ドキュメントを多く検出するであろうことが、直感的に理解される。
クエリの推測的実行は、ステップの所定の数の後停止してもよいし、その他の事項(たとえば、プロセッサ利用可能性、もしくは、(ユーザが長時間の待機させられているとの体感を避けるための)経過時間合計など)によって割り込まれてもよい。状況に応じて、推測的クエリ拡張には必要な時にいつでも割り込むことができる。
図4〜図8は、本発明の実施形態によって生成される結果セットの評価例を示す。図4に示されているグラフ400は、x軸に計算された擬似平均精度スコア401を示し、y軸に実際の平均精度402を示す。データ・ポイントの各々は、推測的クエリ拡張の反復の一つ(ステップ103)に対応する。この例では、最初の拡張されていない結果から、上位30個の判定が関連にもとづいてユーザによって判定された。
901 コンピュータ/サーバ・プラットフォーム
902 プロセッサ
903 メモリ
904 入力手段
908 表示手段
Claims (6)
- クエリが入力される入力手段と、
前記クエリを推測的クエリ拡張プロセスにより拡張して複数の拡張クエリを生成し、前記複数の拡張クエリを検索処理部で検索処理させて複数のサーチ結果を獲得し、前記複数のサーチ結果に含まれる複数のドキュメントのうちで、予め評価済みのドキュメントのみを用いて前記複数のサーチ結果毎の擬似指標スコアを計算する処理部と、
前記複数のサーチ結果毎の前記擬似指標スコアに基づいて前記複数のサーチ結果から選択された1以上の前記サーチ結果を出力する出力手段と、
を備える検索装置。 - 前記処理部は、前記推測的クエリ拡張プロセスを所定の終了条件が満たされるまで繰り返し実行する、請求項1に記載の検索装置。
- 前記出力手段は、前記複数のサーチ結果のうちもっとも高い前記擬似指標スコアを有するサーチ結果を出力する、請求項1に記載の検索装置。
- 前記出力手段は、前記複数のサーチ結果のうちもっとも高い前記擬似指標スコアを有するサーチ結果に対応する前記拡張クエリをさらに出力することを特徴とする、請求項1に記載の検索装置。
- 前記検索処理部は、複数のサーバから構成され、前記処理部は前記複数の拡張クエリを前記複数のサーバに送信するとともに、前記複数のサーバから前記複数のサーチ結果を獲得することを特徴とする、請求項1に記載の検索装置。
- コンピュータを、
クエリが入力される入力手段と、
前記クエリを推測的クエリ拡張プロセスにより拡張して複数の拡張クエリを生成し、前記複数の拡張クエリを検索処理部で検索処理させて複数のサーチ結果を獲得し、前記複数のサーチ結果に含まれる複数のドキュメントのうちで、予め評価済みのドキュメントのみを用いて前記複数のサーチ結果毎の擬似指標スコアを計算する処理部と、
前記複数のサーチ結果毎の前記擬似指標スコアに基づいて前記複数のサーチ結果から選択された1以上の前記サーチ結果を出力する出力手段と、
として動作させるための検索装置用のコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/859,709 | 2010-08-19 | ||
US12/859,709 US8280900B2 (en) | 2010-08-19 | 2010-08-19 | Speculative query expansion for relevance feedback |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012043402A true JP2012043402A (ja) | 2012-03-01 |
JP5673152B2 JP5673152B2 (ja) | 2015-02-18 |
Family
ID=45594889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011017856A Active JP5673152B2 (ja) | 2010-08-19 | 2011-01-31 | 検索装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8280900B2 (ja) |
JP (1) | JP5673152B2 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8473503B2 (en) * | 2011-07-13 | 2013-06-25 | Linkedin Corporation | Method and system for semantic search against a document collection |
EP2786272A4 (en) * | 2011-12-02 | 2015-09-09 | Hewlett Packard Development Co | EXTRACTION OF SUBJECTS AND ASSOCIATION OF VIDEOS |
US8661049B2 (en) | 2012-07-09 | 2014-02-25 | ZenDesk, Inc. | Weight-based stemming for improving search quality |
US8756241B1 (en) | 2012-08-06 | 2014-06-17 | Google Inc. | Determining rewrite similarity scores |
US9449095B1 (en) * | 2012-12-31 | 2016-09-20 | Google Inc. | Revising search queries |
US9122681B2 (en) | 2013-03-15 | 2015-09-01 | Gordon Villy Cormack | Systems and methods for classifying electronic information using advanced active learning techniques |
US9405803B2 (en) * | 2013-04-23 | 2016-08-02 | Google Inc. | Ranking signals in mixed corpora environments |
US9582543B2 (en) | 2014-04-24 | 2017-02-28 | International Business Machines Corporation | Temporal proximity query expansion |
US9626455B2 (en) | 2014-05-01 | 2017-04-18 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for displaying estimated relevance indicators for result sets of documents and for displaying query visualizations |
CN103995880B (zh) * | 2014-05-27 | 2019-03-12 | 百度在线网络技术(北京)有限公司 | 交互式搜索方法和装置 |
CN104484360B (zh) * | 2014-12-02 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 参数信息的获取方法及装置 |
US10445374B2 (en) | 2015-06-19 | 2019-10-15 | Gordon V. Cormack | Systems and methods for conducting and terminating a technology-assisted review |
US10242112B2 (en) | 2015-07-15 | 2019-03-26 | Google Llc | Search result filters from resource content |
US11120351B2 (en) * | 2015-09-21 | 2021-09-14 | International Business Machines Corporation | Generic term weighting based on query performance prediction |
US9984160B2 (en) | 2015-09-30 | 2018-05-29 | International Business Machines Corporation | Determining a query answer selection |
CN108062355B (zh) * | 2017-11-23 | 2020-07-31 | 华南农业大学 | 基于伪反馈与tf-idf的查询词扩展方法 |
US11531858B2 (en) | 2018-01-02 | 2022-12-20 | International Business Machines Corporation | Cognitive conversational agent for providing personalized insights on-the-fly |
US10635679B2 (en) | 2018-04-13 | 2020-04-28 | RELX Inc. | Systems and methods for providing feedback for natural language queries |
US11720554B2 (en) | 2021-01-06 | 2023-08-08 | International Business Machines Corporation | Iterative query expansion for document discovery |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003228581A (ja) * | 2002-02-05 | 2003-08-15 | Hitachi Ltd | 適合性フィードバックによる類似検索方法 |
JP2008003721A (ja) * | 2006-06-20 | 2008-01-10 | Canon Software Inc | 情報検索システムおよび情報検索方法およびプログラムおよび記録媒体 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020065863A1 (en) * | 1999-08-13 | 2002-05-30 | Finn Ove Fruensgaard | Method and an apparatus for generically and transparently expanding and contracting a query |
US6587848B1 (en) * | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US7437349B2 (en) * | 2002-05-10 | 2008-10-14 | International Business Machines Corporation | Adaptive probabilistic query expansion |
US6941297B2 (en) * | 2002-07-31 | 2005-09-06 | International Business Machines Corporation | Automatic query refinement |
US7236923B1 (en) * | 2002-08-07 | 2007-06-26 | Itt Manufacturing Enterprises, Inc. | Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text |
US7617205B2 (en) * | 2005-03-30 | 2009-11-10 | Google Inc. | Estimating confidence for query revision models |
US8065316B1 (en) * | 2004-09-30 | 2011-11-22 | Google Inc. | Systems and methods for providing search query refinements |
US20060161520A1 (en) * | 2005-01-14 | 2006-07-20 | Microsoft Corporation | System and method for generating alternative search terms |
US7672932B2 (en) * | 2005-08-24 | 2010-03-02 | Yahoo! Inc. | Speculative search result based on a not-yet-submitted search query |
US8145660B2 (en) * | 2007-10-05 | 2012-03-27 | Fujitsu Limited | Implementing an expanded search and providing expanded search results |
US20110307504A1 (en) * | 2010-06-09 | 2011-12-15 | Microsoft Corporation | Combining attribute refinements and textual queries |
-
2010
- 2010-08-19 US US12/859,709 patent/US8280900B2/en active Active
-
2011
- 2011-01-31 JP JP2011017856A patent/JP5673152B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003228581A (ja) * | 2002-02-05 | 2003-08-15 | Hitachi Ltd | 適合性フィードバックによる類似検索方法 |
JP2008003721A (ja) * | 2006-06-20 | 2008-01-10 | Canon Software Inc | 情報検索システムおよび情報検索方法およびプログラムおよび記録媒体 |
Non-Patent Citations (1)
Title |
---|
金井明 他: "factoid型WebQAにおけるクエリ拡張に基づく複数情報源の組合せの効果", 言語処理学会第15回年次大会発表論文集, JPN6014021387, 2 March 2009 (2009-03-02), pages 48 - 51, ISSN: 0002817831 * |
Also Published As
Publication number | Publication date |
---|---|
US8280900B2 (en) | 2012-10-02 |
JP5673152B2 (ja) | 2015-02-18 |
US20120047159A1 (en) | 2012-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5673152B2 (ja) | 検索装置およびプログラム | |
JP6142727B2 (ja) | データアクセス分析プログラム、データアクセス分析方法、及びデータアクセス分析装置 | |
JP5185498B2 (ja) | エンティティ固有の調整された検索 | |
US8615514B1 (en) | Evaluating website properties by partitioning user feedback | |
KR101689314B1 (ko) | 교차-언어 이미지 검색 옵션을 위한 방법들, 시스템들 및 컴퓨터 판독가능 기록 매체 | |
RU2608886C2 (ru) | Ранжиратор результатов поиска | |
JP4848388B2 (ja) | 検索クエリに関するスコアを算出する方法 | |
US8290986B2 (en) | Determining quality measures for web objects based on searcher behavior | |
US20130124496A1 (en) | Contextual promotion of alternative search results | |
JP5329540B2 (ja) | ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム | |
KR102454954B1 (ko) | 검색 동작 출력 엘리먼트에 대한 액션 표시자 | |
US9135307B1 (en) | Selectively generating alternative queries | |
JPWO2010109581A1 (ja) | コンテンツ推奨方法、推奨情報作成方法、コンテンツ推奨プログラム、コンテンツ推奨サーバおよびコンテンツ提供システム | |
CN106447419B (zh) | 基于特征选择的拜访者标识 | |
JP2015501992A (ja) | リダイレクトの低減 | |
Jia et al. | Understanding big data analytics workloads on modern processors | |
JP2010097461A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
WO2019013833A1 (en) | CONTINUOUS STRIKE SENSITIVE TO MULTIPLE ENTITIES IN RESEARCH | |
JP5418493B2 (ja) | 検索システム、検索方法およびプログラム | |
JP6162134B2 (ja) | ソーシャルページのトリガー | |
JP4824070B2 (ja) | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム | |
JP4912384B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
US8782214B1 (en) | Limiting site latencies and page weights | |
JP5280349B2 (ja) | キャッシュを用いたウェブページの提供方法、システム及びコンピュータ読み取り可能な記録媒体 | |
JP2019148859A (ja) | フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5673152 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |