JP2012043402A - 検索装置およびプログラム - Google Patents

検索装置およびプログラム Download PDF

Info

Publication number
JP2012043402A
JP2012043402A JP2011017856A JP2011017856A JP2012043402A JP 2012043402 A JP2012043402 A JP 2012043402A JP 2011017856 A JP2011017856 A JP 2011017856A JP 2011017856 A JP2011017856 A JP 2011017856A JP 2012043402 A JP2012043402 A JP 2012043402A
Authority
JP
Japan
Prior art keywords
search
query
search results
processing unit
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011017856A
Other languages
English (en)
Other versions
JP5673152B2 (ja
Inventor
Jeremy Pickens
ピケンズ ジェレミー
Gene Golovchinsky
ゴロブチンスキー ジーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2012043402A publication Critical patent/JP2012043402A/ja
Application granted granted Critical
Publication of JP5673152B2 publication Critical patent/JP5673152B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】クエリ拡張において、いくつのタームをクエリに追加するか、という問題を解消する。
【解決手段】本発明の検索装置は、クエリが入力される入力手段と、前記クエリを推測的クエリ拡張プロセスにより拡張して複数の拡張クエリを生成し、前記複数の拡張クエリを検索処理部で検索処理させて複数のサーチ結果を獲得し、前記複数のサーチ結果に含まれる複数のドキュメントのうちで、予め評価済みのドキュメントのみを用いて前記複数のサーチ結果毎の擬似指標スコアを計算する処理部と、前記複数のサーチ結果毎の前記擬似指標スコアに基づいて前記複数のサーチ結果から選択された1以上の前記サーチ結果を出力する出力手段と、を備える。
【選択図】図1

Description

本発明は検索装置およびプログラムに関する。
クエリ拡張による関連フィードバック(およびクエリ拡張のために選択され、かつ、再び重み付けがされるターム(term))は、最初のクエリを大きく改良する結果を取得する方法としてよく知られている。従来のクエリ拡張は、関連ドキュメントのセットを識別し、該ドキュメントから目立つタームを選択し、該タームに適切かつ情報理論的な重みをつけて最初のクエリに加え、オリジナル・リストより高い精度を有する順位付けされたリストを生成するために、新しいクエリを実行する。
タウンゼンド(Taunsend)ら、「クエリ性能の予測(Predicting Query Performance)」、ACM SIGIR、(フィンランド)、2002年 バックレイ(Buckley)ら、「関連フィードバックの重み最適化(Optimization of Relevance Feedback Weights)」、SIGIR、(米国)、1995年、頁351〜357
従来のクエリ拡張の問題は、たとえ効果的かつ情報理論的な基準を用いてタームが重み付けされた場合であっても、実際にいくつのタームをクエリに追加するか、という疑問が残ることである。実際にいくつのクエリをタームに追加するか、ということは、最終的な結果の質に大きな影響を与える。
本発明の第1の態様は、検索装置であって、クエリが入力される入力手段と、前記クエリを推測的クエリ拡張プロセスにより拡張して複数の拡張クエリを生成し、前記複数の拡張クエリを検索処理部で検索処理させて複数のサーチ結果を獲得し、前記複数のサーチ結果に含まれる複数のドキュメントのうちで、予め評価済みのドキュメントのみを用いて前記複数のサーチ結果毎の擬似指標スコアを計算する処理部と、前記複数のサーチ結果毎の前記擬似指標スコアに基づいて前記複数のサーチ結果から選択された1以上の前記サーチ結果を出力する出力手段と、を備える。
本発明の第2の態様は、第1の態様の検索装置であって、前記処理部は、前記推測的クエリ拡張プロセスを所定の終了条件が満たされるまで繰り返し実行する。
本発明の第3の態様は、第1の態様の検索装置であって、前記出力手段は、前記複数のサーチ結果のうちもっとも高い前記擬似指標スコアを有するサーチ結果を出力する。
本発明の第4の態様は、第1の態様の検索装置であって、前記出力手段は、前記複数のサーチ結果のうちもっとも高い前記擬似指標スコアを有するサーチ結果に対応する前記拡張クエリをさらに出力することを特徴とする。
本発明の第5の態様は、第1の態様の検索装置であって、前記検索処理部は、複数のサーバから構成され、前記処理部は前記複数の拡張クエリを前記複数のサーバに送信するとともに、前記複数のサーバから前記複数のサーチ結果を獲得することを特徴とする。
本発明の第6の態様は、検索装置用のコンピュータプログラムであって、コンピュータを、クエリが入力される入力手段と、前記クエリを推測的クエリ拡張プロセスにより拡張して複数の拡張クエリを生成し、前記複数の拡張クエリを検索処理部で検索処理させて複数のサーチ結果を獲得し、前記複数のサーチ結果に含まれる複数のドキュメントのうちで、予め評価済みのドキュメントのみを用いて前記複数のサーチ結果毎の擬似指標スコアを計算する処理部と、前記複数のサーチ結果毎の前記擬似指標スコアに基づいて前記複数のサーチ結果から選択された1以上の前記サーチ結果を出力する出力手段と、として動作させる。
以上および以下の記載は例示のみを目的としており、本発明および本発明の応用を限定することを意図するものではない。
本発明において、クエリ拡張タームは一般的な情報理論的基準を用いて選択され重み付けされている。しかしながら、本発明では、いくつのタームを追加するかについては、推測的に複数のクエリを実行し、擬似指標スコアがもっとも大きいクエリを事後的に選択することによって、経験的に、かつ、迅速に、判断することができる。
本発明の実施形態による推測的クエリを処理する例示的フローチャートである。 本発明の実施形態による推測的クエリ拡張の例示的フローチャートである。 本発明の実施形態による反復を例示する。 本発明の実施形態によって生成される結果セットの評価を例示する。 本発明の実施形態によって生成される結果セットの評価を例示する。 本発明の実施形態によって生成される結果セットの評価を例示する。 本発明の実施形態によって生成される結果セットの評価を例示する。 本発明の実施形態によって生成される結果セットの評価を例示する。 本発明のシステムを実装することができるコンピュータ・システムの例示的ブロック図である。
添付の図面を参照して、本発明の詳細を説明する。添付の図面は例示のためのものであり、本発明を限定するものではない。実施形態は本発明の原理に添うものである。実施形態は当業者が本発明を実施することができる程度に十分に記載されている。また、本発明の範囲および思想から逸脱することなく、実施形態を変更することが可能であり、構成の変更、および/もしくは、構成要素の置き替えが可能である。したがって、以下の記載は限定的に解釈されるべきではない。さらに、本発明の様々な実施形態は、汎用目的コンピュータで稼働するソフトウェアの形態で実装されてもよいし、特定用途のためのハードウェアの形態で実装されてもよいし、ソフトウェアおよびハードウェアの組み合わせの形態で実装されてもよい。
本発明の実施形態のいくつかにおける方法は、例えば検索サービスプログラムを動作させる検索用サーバと、サーバにアクセスし、検索サービスから送信されたウェブページ等のユーザインターフェースを通じて検索クエリを送信することで検索リクエストを送り、サーバから検索結果を受信し閲覧するクライアントとを用いて構成される周知の検索システムとして実現することができる。また、近年の進展している並列的でクラウド・ベースの計算処理を活用して、各々が異なる数の拡張タームを含んだ複数のクエリを推測的に実行するシステム構成とすることもできる。検索結果の品質は予め評価されたドキュメントに対する擬似AP(平均精度)を用いて事後に計測され(ユーザの努力を追加的には必要としない技術である)、ユーザに提示するためにもっともよいリストが複数のクエリの検索結果のリストの中から検索結果の品質に基づいて選択される。
「推測的クエリ拡張の適用」
推測的クエリ拡張の基本は、複数の可能性のある(推測的)クエリを実行し、(一般的には、以前行われた関連する判定によって、)システムがユーザから収集したすべての情報を用いて、もっともよいと思われるものをユーザにサーチ結果として戻す方法を含む。
このプロセスを達成する多くの異なる方法がある。そのような方法の一つのアプローチを図1に示す。しかしながら、図1に示された方法は例示であり、本発明はこの方法に限定されるものではない。
ステップ100:ユーザが最初のクエリを入力する。(システムが最初のクエリを受信する。)
ステップ101:システムは当該クエリを実行し、サーチ結果を戻す。
ステップ102:k個のドキュメントの各々の(おそらく段階付けされている)関連度および非関連度を決定するために、ユーザは上位k個のドキュメントを判定する。
ステップ103:推測的クエリ拡張プロセスが開始され、一つ以上のリストを生成する。
ステップ104:最高の擬似指標スコアを有する結果リストを選択し、ユーザに戻す。たとえば、もっとも高い擬似指標スコアを有する結果リストがユーザのコンピュータ画面でユーザに対して表示されてもよい。
図1のステップ103の推測的クエリ拡張プロセスの詳細を図2に示す。
ステップ200:(推測的クエリを生成するためにクエリを拡張するタームである)候補拡張タームNの数が選択される。これらのタームは候補拡張ターム・プールを初期化するために使用される。候補拡張タームの選択および重み付けは、当該技術分野において知られている方法(たとえば、Kullback-Leiblerダイバージェンス、タームの出現頻度、など)によって行われる。推測的クエリはユーザのクエリ・タームによって初期化される(そして、場合によっては重み付けされる)。
ステップ201:重みを有する上位M個の拡張タームが推測的クエリに加えられる。ここで、MはNより小さい。M個の拡張タームは候補拡張ターム・プールから取り除かれる。
ステップ202:推測的クエリはこれらの拡張タームおよび重みを用いて実行され、このクエリの結果はキャッシュに入れられる。
ステップ203:この推測的クエリの質は擬似指標を用いて評価され、対応する結果リストとともにキャッシュに入れられる。
ステップ204:終了フラグが調べられ、このフラグがセットされていればステップ104に進む。フラグがセットされていなければ、ステップ201に戻る。ステップ201で、より多くの拡張タームが推測的クエリに加えられ、処理を反復する。
図1および図2に例示される推測的クエリは、3つの部分を含む。すなわち、(1)クエリ拡張タームをいくつ選択するか(201)、どのように結果リストを評価するか(203)、ユーザに結果を戻すためにどのようにシステムに割り込むか(204)、である。
「クエリ拡張タームの選択」
以前の反復における上位M個のタームをクエリに加えることによって、クエリ拡張タームが反復的に選択される。「上位」であることは、当該技術分野で知られている任意の方法(たとえば、Kullback-Leiblerダイバージェンス、ロッキオ(Rocchio)、サポート・ベクター・マシンなど)を適用することによって、関連があると明示的に判断されたドキュメントのタームおよびコレクションの他のタームにもとづいて、判断される。しかしながら、この推測的クエリ拡張はこの方法で必ずしも行わなければならないものではない。たとえば、任意の推測的ステップにおいて、上位M個と下位M個のタームを加えるようにしてもよい。もしくは、拡張クエリ候補のランキングの上位所定個を除いた中位M個のタームを代わりに加えるようにしてもよい。拡張された推測的クエリは、次に、処理され、評価される。
「結果リストの評価 擬似平均精度による例」
推測的拡張クエリからの結果はドキュメントのセットであり、ドキュメントのいくつかは関連があるかないかが知られている。その他のドキュメントの関連は知られていない。擬似指標スコアは、現在の検索中もしくは全体としてのセッションのある時点で、検索結果としてユーザに戻され提示された、評価済みドキュメントの順位にもとづいて計算される。擬似指標スコアは既知の指標を利用し、既知の指標を(判定済みドキュメントにのみ)擬似的手法で適用することによって計算される。この例では、平均精度測定を擬似的手法で利用する。たとえば、NDCG、Precision@10、および当該技術分野で知られている他の指標を、判定済みの関連ドキュメントおよび非関連ドキュメントの順位にもとづいて擬似的手法で同様に使用してもよい。
図3は、ドキュメントのいくつかの関連・非関連が既知である場合、どのように擬似平均精度(擬似指標の一例)をドキュメント・セットに適用することができるか、を示す本発明の実施形態を例示する。最初のクエリによってドキュメント・セット300が検索して取り出される。ドキュメントが関連か(関連であるとしてラベル付けされているドキュメントには例示の目的で矩形のマークを付してある)非関連か(マークを付していない)をマークによって示すことができる。たとえば、ユーザによって、もしくは、以前のブラウジング履歴の解析もしくは関連度をスコア付けする他の手段を通じシステムによって、ドキュメントに関連もしくは非関連を示すマークを付すことができる。
最初に判定されたセットのドキュメントから最後に判定されたドキュメントまでのドキュメントの総数を計算することによって、最初のドキュメント・セットから平均精度スコアを取得する(302)。スコアを計算するために、まず、順位付けされたリストの新しい関連ドキュメントが発見されるすべてのポイントで、(検索して取り出され、かつ、判断された)ドキュメントの数に対する(検索して取り出され、かつ、関連する)ドキュメントの数の割合の合計を決定する。次に、平均精度スコア(AP)を取得するために、利用可能な関連ドキュメントの総数によって、該合計を正規化する。この例では、全6個の関連ドキュメントを検索して取り出すために(「M」までの)13個のドキュメントを使用する。リストによれば、((1/1)+(2/2)+(3/5)+(4/9)+(5/12)+(6/13))/6であり、平均精度スコア(AP)は概ね0.654である。
「擬似平均精度」
推測的拡張クエリによって生成されるリストについて、擬似平均精度を計算する。ユーザによってまだ検討されていない(すなわち、関連するか関連しないか、まだ判定されておらず、マーク付けされていない)ドキュメントを無視することによって、システムはすでに判定されたすべての(関連する、および、関連しない)ドキュメントのこの新しいリストにおける相対位置を知ることができる。擬似平均精度は、以前に判定されなかった他の関連ドキュメントは無視し、以前に判定されたドキュメントの新しい相対順位により注目して、このサブセットだけに関して計算される平均精度である。既知の非関連ドキュメントの前に既知の関連ドキュメントを多く検出する新しいクエリが未知の非関連ドキュメントの前に未知の関連ドキュメントを多く検出するであろうことが、直感的に理解される。
図3は、本発明の実施形態のいくつかにおけるドキュメントに適用されている擬似平均精度を示す。上位に順位付けられたドキュメントのいくつかの関連は未知である(つまりユーザによって関連するかしないかが示されていない)。推測的拡張クエリを実行すると、結果は、関連が知られている(たとえば、B、L、M)ドキュメントが散りばめられた関連が未知であるドキュメント(たとえば、Q、S、R)を有するリスト303を含むかもしれない。しかしながら、擬似平均精度を計算するときは、関連が未知であるドキュメントは単に無視され、取り除かれる(304)。スコアは実際の平均精度が擬似平均精度を提供するために計算されているかのように計算される。
擬似平均精度スコアが計算されると、本発明の実施形態では、結果をキャッシュに入れ、さらに、推測的クエリを実行する。最終的に、もっとも高い擬似平均精度スコアを有する結果リストが戻される。この例において、推測的クエリを実行した場合の擬似平均精度スコア(概ね0.788)は最初のクエリの実平均精度スコアより高い。リスト305の関連が未知であるドキュメントの順番は、最初のリスト301の順番と比較すると、関連がないドキュメントの前に関連があるドキュメントを検出する傾向を有する。
本発明の実施の形態の基本的な構成は、(予め行われる関連判定もしくはその他の手段によって)システムがユーザから収集することができるすべての情報を用いることにより、複数の可能性のある(推測的)クエリを実行し、最良であると思われるクエリおよび結果をユーザに戻す。
「システムへの割り込み」
クエリの推測的実行は、ステップの所定の数の後停止してもよいし、その他の事項(たとえば、プロセッサ利用可能性、もしくは、(ユーザが長時間の待機させられているとの体感を避けるための)経過時間合計など)によって割り込まれてもよい。状況に応じて、推測的クエリ拡張には必要な時にいつでも割り込むことができる。
「結果の評価」
図4〜図8は、本発明の実施形態によって生成される結果セットの評価例を示す。図4に示されているグラフ400は、x軸に計算された擬似平均精度スコア401を示し、y軸に実際の平均精度402を示す。データ・ポイントの各々は、推測的クエリ拡張の反復の一つ(ステップ103)に対応する。この例では、最初の拡張されていない結果から、上位30個の判定が関連にもとづいてユーザによって判定された。
一般に擬似平均精度と実平均精度との間に正の相関があることをグラフは示している。したがって、推測的実行シナリオにおいては、最高の擬似平均精度スコア(AP)を有する結果リスト(x軸方向にもっとも右にあるグラフの各々のデータ・ポイント)を選択し、ユーザに戻すならば、このリストは、関連の観点から、もし、最良でないとしても、最良である可能性があるリストの中に含まれる。たとえば、もっとも大きな擬似平均精度スコア(0.9)を有する結果リストが約2.2の実平均精度スコアを有する。これは、高い実平均スコアに入る。図4のグラフに示されるように、高い擬似平均精度スコアを有する結果リストは高い実平均精度スコアを有するので、高い擬似平均精度スコアは高い実平均精度スコアを予測するためのよい判断材料である。図5〜8は同様に、擬似平均精度スコアおよび実平均精度スコアの間の相関を示す。
図9は本発明の実施形態を実装することができるコンピュータ/サーバ・システム900を例示するブロック図である。システム900は命令を実行するために稼働するプロセッサ902およびメモリ903を含むコンピュータ/サーバ・プラットフォーム901を含む。用語「コンピュータ可読記憶媒体」はプロセッサ902に実行するための指示を提供するために使用される任意の媒体であってよい。さらに、コンピュータ・プラットフォーム901は複数の入力手段904(たとえば、キーボード、マウス、タッチ・デバイス、音声入力手段など)から入力を受信する。コンピュータ・プラットフォーム901は、さらに、脱着可能な記憶手段905(たとえば、ポータブル・ハード・ディスク・ドライブ、光媒体(CDもしくはDVD)、ディスク媒体、もしくは、コンピュータが実行可能なコードを読み取ることができる任意のその他の媒体)に接続されていてもよい。コンピュータ・プラットフォーム901は、インターネットに接続されているネットワーク・リソース906もしくはローカル・パブリック・ネットワークもしくはローカル・プライベート・ネットワークのコンポーネントにさらに接続されていてもよい。ネットワーク・リソース906はネットワーク907上の離れた場所からコンピュータ・プラットフォーム901に命令およびデータを提供してもよい。ネットワーク・リソース906への接続はワイヤレス・プロトコル(たとえば、802.11標準、ブルートゥース、もしくは、セルラー・プロトコルなど)を介してもよいし、物理的な伝送媒体(たとえば、ケーブル、もしくは、光ファイバーなど)を介してもよい。ネットワーク・リソースはコンピュータ・プラットフォーム901と分離した場所にデータおよび実行可能な命令を記憶する記憶手段を含んでもよい。コンピュータは、ユーザに対して、データおよびその他の情報を出力し、ユーザからの追加命令および入力を要求するために、表示手段908と相互に通信を行う。表示手段908は、ユーザと相互に情報の授受を行うために、入力手段904として動作してもよい。
本発明のその他の実装も、当業者には自明である。上記実施形態の様々な態様および/もしくは構成要素は埋め込みメディア・バーコード・システムにおいて単一でもしくは組み合わされて使用されてもよい。上記実施形態の記載は例示を行うことだけを意図しており、本発明の真の範囲および思想は、特許請求の範囲の記載によって示される。
900 コンピュータ/サーバ・システム
901 コンピュータ/サーバ・プラットフォーム
902 プロセッサ
903 メモリ
904 入力手段
908 表示手段

Claims (6)

  1. クエリが入力される入力手段と、
    前記クエリを推測的クエリ拡張プロセスにより拡張して複数の拡張クエリを生成し、前記複数の拡張クエリを検索処理部で検索処理させて複数のサーチ結果を獲得し、前記複数のサーチ結果に含まれる複数のドキュメントのうちで、予め評価済みのドキュメントのみを用いて前記複数のサーチ結果毎の擬似指標スコアを計算する処理部と、
    前記複数のサーチ結果毎の前記擬似指標スコアに基づいて前記複数のサーチ結果から選択された1以上の前記サーチ結果を出力する出力手段と、
    を備える検索装置。
  2. 前記処理部は、前記推測的クエリ拡張プロセスを所定の終了条件が満たされるまで繰り返し実行する、請求項1に記載の検索装置。
  3. 前記出力手段は、前記複数のサーチ結果のうちもっとも高い前記擬似指標スコアを有するサーチ結果を出力する、請求項1に記載の検索装置。
  4. 前記出力手段は、前記複数のサーチ結果のうちもっとも高い前記擬似指標スコアを有するサーチ結果に対応する前記拡張クエリをさらに出力することを特徴とする、請求項1に記載の検索装置。
  5. 前記検索処理部は、複数のサーバから構成され、前記処理部は前記複数の拡張クエリを前記複数のサーバに送信するとともに、前記複数のサーバから前記複数のサーチ結果を獲得することを特徴とする、請求項1に記載の検索装置。
  6. コンピュータを、
    クエリが入力される入力手段と、
    前記クエリを推測的クエリ拡張プロセスにより拡張して複数の拡張クエリを生成し、前記複数の拡張クエリを検索処理部で検索処理させて複数のサーチ結果を獲得し、前記複数のサーチ結果に含まれる複数のドキュメントのうちで、予め評価済みのドキュメントのみを用いて前記複数のサーチ結果毎の擬似指標スコアを計算する処理部と、
    前記複数のサーチ結果毎の前記擬似指標スコアに基づいて前記複数のサーチ結果から選択された1以上の前記サーチ結果を出力する出力手段と、
    として動作させるための検索装置用のコンピュータプログラム。
JP2011017856A 2010-08-19 2011-01-31 検索装置およびプログラム Active JP5673152B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/859,709 2010-08-19
US12/859,709 US8280900B2 (en) 2010-08-19 2010-08-19 Speculative query expansion for relevance feedback

Publications (2)

Publication Number Publication Date
JP2012043402A true JP2012043402A (ja) 2012-03-01
JP5673152B2 JP5673152B2 (ja) 2015-02-18

Family

ID=45594889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011017856A Active JP5673152B2 (ja) 2010-08-19 2011-01-31 検索装置およびプログラム

Country Status (2)

Country Link
US (1) US8280900B2 (ja)
JP (1) JP5673152B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473503B2 (en) * 2011-07-13 2013-06-25 Linkedin Corporation Method and system for semantic search against a document collection
EP2786272A4 (en) * 2011-12-02 2015-09-09 Hewlett Packard Development Co EXTRACTION OF SUBJECTS AND ASSOCIATION OF VIDEOS
US8661049B2 (en) 2012-07-09 2014-02-25 ZenDesk, Inc. Weight-based stemming for improving search quality
US8756241B1 (en) 2012-08-06 2014-06-17 Google Inc. Determining rewrite similarity scores
US9449095B1 (en) * 2012-12-31 2016-09-20 Google Inc. Revising search queries
US9122681B2 (en) 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
US9405803B2 (en) * 2013-04-23 2016-08-02 Google Inc. Ranking signals in mixed corpora environments
US9582543B2 (en) 2014-04-24 2017-02-28 International Business Machines Corporation Temporal proximity query expansion
US9626455B2 (en) 2014-05-01 2017-04-18 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for displaying estimated relevance indicators for result sets of documents and for displaying query visualizations
CN103995880B (zh) * 2014-05-27 2019-03-12 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN104484360B (zh) * 2014-12-02 2017-08-18 百度在线网络技术(北京)有限公司 参数信息的获取方法及装置
US10445374B2 (en) 2015-06-19 2019-10-15 Gordon V. Cormack Systems and methods for conducting and terminating a technology-assisted review
US10242112B2 (en) 2015-07-15 2019-03-26 Google Llc Search result filters from resource content
US11120351B2 (en) * 2015-09-21 2021-09-14 International Business Machines Corporation Generic term weighting based on query performance prediction
US9984160B2 (en) 2015-09-30 2018-05-29 International Business Machines Corporation Determining a query answer selection
CN108062355B (zh) * 2017-11-23 2020-07-31 华南农业大学 基于伪反馈与tf-idf的查询词扩展方法
US11531858B2 (en) 2018-01-02 2022-12-20 International Business Machines Corporation Cognitive conversational agent for providing personalized insights on-the-fly
US10635679B2 (en) 2018-04-13 2020-04-28 RELX Inc. Systems and methods for providing feedback for natural language queries
US11720554B2 (en) 2021-01-06 2023-08-08 International Business Machines Corporation Iterative query expansion for document discovery

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228581A (ja) * 2002-02-05 2003-08-15 Hitachi Ltd 適合性フィードバックによる類似検索方法
JP2008003721A (ja) * 2006-06-20 2008-01-10 Canon Software Inc 情報検索システムおよび情報検索方法およびプログラムおよび記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020065863A1 (en) * 1999-08-13 2002-05-30 Finn Ove Fruensgaard Method and an apparatus for generically and transparently expanding and contracting a query
US6587848B1 (en) * 2000-03-08 2003-07-01 International Business Machines Corporation Methods and apparatus for performing an affinity based similarity search
US7437349B2 (en) * 2002-05-10 2008-10-14 International Business Machines Corporation Adaptive probabilistic query expansion
US6941297B2 (en) * 2002-07-31 2005-09-06 International Business Machines Corporation Automatic query refinement
US7236923B1 (en) * 2002-08-07 2007-06-26 Itt Manufacturing Enterprises, Inc. Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
US7617205B2 (en) * 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US8065316B1 (en) * 2004-09-30 2011-11-22 Google Inc. Systems and methods for providing search query refinements
US20060161520A1 (en) * 2005-01-14 2006-07-20 Microsoft Corporation System and method for generating alternative search terms
US7672932B2 (en) * 2005-08-24 2010-03-02 Yahoo! Inc. Speculative search result based on a not-yet-submitted search query
US8145660B2 (en) * 2007-10-05 2012-03-27 Fujitsu Limited Implementing an expanded search and providing expanded search results
US20110307504A1 (en) * 2010-06-09 2011-12-15 Microsoft Corporation Combining attribute refinements and textual queries

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228581A (ja) * 2002-02-05 2003-08-15 Hitachi Ltd 適合性フィードバックによる類似検索方法
JP2008003721A (ja) * 2006-06-20 2008-01-10 Canon Software Inc 情報検索システムおよび情報検索方法およびプログラムおよび記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
金井明 他: "factoid型WebQAにおけるクエリ拡張に基づく複数情報源の組合せの効果", 言語処理学会第15回年次大会発表論文集, JPN6014021387, 2 March 2009 (2009-03-02), pages 48 - 51, ISSN: 0002817831 *

Also Published As

Publication number Publication date
US8280900B2 (en) 2012-10-02
JP5673152B2 (ja) 2015-02-18
US20120047159A1 (en) 2012-02-23

Similar Documents

Publication Publication Date Title
JP5673152B2 (ja) 検索装置およびプログラム
JP6142727B2 (ja) データアクセス分析プログラム、データアクセス分析方法、及びデータアクセス分析装置
JP5185498B2 (ja) エンティティ固有の調整された検索
US8615514B1 (en) Evaluating website properties by partitioning user feedback
KR101689314B1 (ko) 교차-언어 이미지 검색 옵션을 위한 방법들, 시스템들 및 컴퓨터 판독가능 기록 매체
RU2608886C2 (ru) Ранжиратор результатов поиска
JP4848388B2 (ja) 検索クエリに関するスコアを算出する方法
US8290986B2 (en) Determining quality measures for web objects based on searcher behavior
US20130124496A1 (en) Contextual promotion of alternative search results
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
KR102454954B1 (ko) 검색 동작 출력 엘리먼트에 대한 액션 표시자
US9135307B1 (en) Selectively generating alternative queries
JPWO2010109581A1 (ja) コンテンツ推奨方法、推奨情報作成方法、コンテンツ推奨プログラム、コンテンツ推奨サーバおよびコンテンツ提供システム
CN106447419B (zh) 基于特征选择的拜访者标识
JP2015501992A (ja) リダイレクトの低減
Jia et al. Understanding big data analytics workloads on modern processors
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
WO2019013833A1 (en) CONTINUOUS STRIKE SENSITIVE TO MULTIPLE ENTITIES IN RESEARCH
JP5418493B2 (ja) 検索システム、検索方法およびプログラム
JP6162134B2 (ja) ソーシャルページのトリガー
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
US8782214B1 (en) Limiting site latencies and page weights
JP5280349B2 (ja) キャッシュを用いたウェブページの提供方法、システム及びコンピュータ読み取り可能な記録媒体
JP2019148859A (ja) フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141215

R150 Certificate of patent or registration of utility model

Ref document number: 5673152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350