JP2012003740A - 検索結果生成方法、検索結果生成プログラムおよび検索システム - Google Patents

検索結果生成方法、検索結果生成プログラムおよび検索システム Download PDF

Info

Publication number
JP2012003740A
JP2012003740A JP2010274129A JP2010274129A JP2012003740A JP 2012003740 A JP2012003740 A JP 2012003740A JP 2010274129 A JP2010274129 A JP 2010274129A JP 2010274129 A JP2010274129 A JP 2010274129A JP 2012003740 A JP2012003740 A JP 2012003740A
Authority
JP
Japan
Prior art keywords
document
pseudo
documents
query
representative information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010274129A
Other languages
English (en)
Other versions
JP5494454B2 (ja
Inventor
Jeremy Pickens
ピケンズ ジェレミー
Matthew Cooper
クーパー マシュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2012003740A publication Critical patent/JP2012003740A/ja
Application granted granted Critical
Publication of JP5494454B2 publication Critical patent/JP5494454B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 関連するドキュメントに類似するドキュメントを検索する。
【解決手段】
ドキュメント・セットの複数の擬似ドキュメントを生成し、擬似ドキュメントの各々は、ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出されるドキュメント・セットの少なくとも一つのドキュメントの代表情報を含み、ドキュメント・セットの複数のドキュメントの各々について該ドキュメントの各々の代表情報を含む擬似ドキュメントの索引を生成し、ドキュメント・セットの第1のドキュメントの代表情報を含む第1のドキュメント・クエリを受信し、第1のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第1のセットを識別し、少なくとも一つの擬似ドキュメントの第1のセットにもとづいて結果を生成する。
【選択図】 図1

Description

本発明は、ドキュメント・セットのための情報検索に関し、詳細には、ドキュメント・セットを検索するための索引生成に関する。
利用可能な情報の増加に伴い、情報を検索するための効率的かつ正確な方法の重要性はより高まっている。ドキュメント・セットを検索するための多くのアプローチが進展しているが、これらのアプローチは一般にドキュメントの内容に直接的に依存している。一般的なアプローチの一つでは、一つ以上のターム(term: 用語を含む)にもとづいて検索クエリを実行し、該検索クエリは該タームを含むドキュメントのリストを返す。しかしながら、これらは限定されたユーティリティについてのアプローチである。なぜならば、該アプローチの結果はクエリに無関係なドキュメントを含むかもしれないし、および/または、ユーザにとって有用だが、該ユーザによって提供された特定の検索クエリにマッチしないドキュメントを含むことができないかもしれない。さらに、情報検索の従来の方法は、ユーザによって特定される関連ドキュメントと類似するドキュメントを検索するシンプルな方法を提供することができない。
ブルース・クロフト(Bruce Croft)ら、「検索エンジン:実用における情報検索(Search Engines: Information Retrieval in Practice)」、アジソン・ウェスレイ(Addison Wesley)、2009年 クラスウェル(Craswell)ら、「クリック・グラフ上のランダム・ウォーク(Random Walks on the Click Graph)」、SIGIR、オランダ、2007年
上記に鑑みて、より効率的かつ正確に情報を検索するシステムおよび方法、および、関連するドキュメントに類似するドキュメントを検索するシステムおよび方法を提供するために、検索結果の正確さおよび関連度を向上する必要がある。
実施形態のいくつかにおいて、本発明の方法は一つ以上のプロセッサおよびメモリを有するコンピュータで実行される。コンピュータはドキュメント・セットから複数の擬似ドキュメントを生成する。擬似ドキュメントの各々には、ドキュメント・セットに対する基本クエリの各々の実行に応じて、検索されて取り出されるドキュメント・セットの一つ以上のドキュメントの代表情報が含まれる。コンピュータはこれらの複数の擬似ドキュメントの索引を生成する。この索引は、ドキュメント・セットの複数のドキュメントの各々について、各々のドキュメントの各々の代表情報を含んだ擬似ドキュメントを指し示す。索引を生成した後、コンピュータはドキュメント・セットに含まれる第1のドキュメントの代表情報を含む第1のドキュメント・クエリを受信する。コンピュータは第1のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む一つ以上の擬似ドキュメントの第1のセットを識別し、一つ以上の擬似ドキュメントの第1のセットにもとづいて検索結果を生成する。
実施形態のいくつかにおいて、検索結果には基本クエリが含まれ、追加されるべきドキュメントを検索して取り出せるようにするため、もしくは、クエリの設定、選択、フィードバックのためにユーザを支援するために、取得した基本クエリを使用することができるようにしてもよい。実施形態のいくつかにおいて、検索結果は基本クエリに関連するドキュメントを含む。実施形態のいくつかにおいて、検索結果には第1のドキュメントと関連する追加されるべきターム、および/もしくは、ドキュメントの提案を含む。多くの状況において、提案されるターム、および/もしくは、ドキュメントは、従来の情報検索アプローチを使用して検索される結果より関連度がかなり高い。したがって、クエリ・ベース索引を使用して情報を検索する本発明の方法を使用するコンピュータは、より正確な検索結果を生成する。これにより、情報を検索するための他のアプローチに付随する問題を低減するか、もしくは、取り除くことができる。本発明の方法は、情報検索のための従来の方法を補完するか、もしくは、従来の方法と置換することができる。
本発明の第1の態様は検索結果生成方法であって、少なくとも一つのプロセッサおよびメモリを備えた検索システムが、ドキュメント・セットの複数の擬似ドキュメントを生成し、前記擬似ドキュメントの各々は、前記ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出されるドキュメント・セットの少なくとも一つのドキュメントの代表情報を含み、前記ドキュメント・セットの前記複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む擬似ドキュメントの索引を生成し、前記索引を生成した後、前記ドキュメント・セットの第1のドキュメントの代表情報を含む第1のドキュメント・クエリを受信し、前記第1のドキュメント・クエリの受信に応じて、前記第1のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第1のセットを識別し、少なくとも一つの擬似ドキュメントの前記第1のセットにもとづいて結果を生成する。
本発明の第2の態様は、第1の態様の検索結果生成方法であって、ドキュメントが、前記第1のドキュメント、および、該第1のドキュメントの代替として識別されたドキュメント、の少なくとも一方である場合、該ドキュメントは該第1のドキュメントと前記所定の関係を有する。
本発明の第3の態様は、第1の態様の検索結果生成方法であって、少なくとも一つの擬似ドキュメントの前記第1のセットが、前記第1のドキュメントの代表情報を含む擬似ドキュメントと、前記第1のドキュメントの代替として識別された第2のドキュメントを含む擬似ドキュメントと、を含み、前記第2のドキュメントは前記第1のドキュメントとは異なる。
本発明の第4の態様は、第1の態様の検索結果生成方法であって、前記第1のドキュメントは、テキスト・コンテンツ、画像コンテンツ、ビデオ・コンテンツ、音声コンテンツの少なくとも一つを含む。
本発明の第5の態様は、第1の態様の検索結果生成方法であって、前記基本クエリの各々は前記ドキュメント・セットのドキュメントの少なくとも一つの識別可能な特徴を有する。
本発明の第6の態様は、第5の態様の検索結果生成方法であって、前記識別可能な特徴は、ターム、ドキュメント識別子、画像固有特徴、音声固有特徴、ビデオ固有特徴、タイムスタンプ、ハイパーリンク、GPS座標、の少なくとも一つを含む。
本発明の第7の態様は、第1の態様の検索結果生成方法であって、前記複数の擬似ドキュメントを生成する前に、前記ドキュメント・セットに複数の前記基本クエリを実行することをさらに含む。
本発明の第8の態様は、第1の態様の検索結果生成方法であって、前記擬似ドキュメントの各々を生成することは、該擬似ドキュメントの各々の主部を生成すること、および、該擬似ドキュメントの各々の識別子を生成すること、を含む。
本発明の第9の態様は、第8の態様の検索結果生成方法であって、前記擬似ドキュメントの各々の主部を生成することは、前記基本クエリにもとづいて前記ドキュメント・セットのドキュメントのスコアを生成するために順位付け機能を用いて該ドキュメント・セットに基本クエリの各々を実行し、前記スコアにもとづいて、前記擬似ドキュメントの各々の主部に示されるべきドキュメント・セットのドキュメントを少なくとも一つ選択し、選択された前記ドキュメントの各々のスコアにもとづいて、選択された該ドキュメントの各々の重要度を決定し、選択された前記ドキュメントの代表情報および選択された該ドキュメントの重要度にもとづいて前記擬似ドキュメントの各々の主部を生成する。
本発明の第10の態様は、第9の態様の検索結果生成方法であって、前記擬似ドキュメントの各々の識別子を生成することは、前記基本クエリの代表情報と前記順位付け機能の代表情報とを結合することを含む。
本発明の第11の態様は、第9の態様の検索結果生成方法であって、生成された前記結果は、前記第1のドキュメントの代表情報と関連付けられている擬似ドキュメントの前記第1のセットの擬似ドキュメントの識別子が順位付けされたリストを含み、擬似ドキュメントの前記識別子の各々の順位は、擬似ドキュメントの識別子の各々と関連付けられている擬似ドキュメントの各々の前記第1のドキュメントの重要度の各々に少なくとも部分的にもとづく。
本発明の第12の態様は、第1の態様の検索結果生成方法であって、前記結果を生成することは、表示するために、擬似ドキュメントの前記第1のセットの擬似ドキュメントの識別子のリストを生成することを含む。
本発明の第13の態様は、第12の態様の検索結果生成方法であって、擬似ドキュメントの識別子の前記リストの擬似ドキュメントの各々の識別子は、該擬似ドキュメントの各々を生成するために使用された基本クエリ、および、該擬似ドキュメントの各々を生成するために使用された順位付け機能、の少なくとも一方にもとづく。
本発明の第14の態様は、第1の態様の検索結果生成方法であって、前記結果を生成することは、擬似ドキュメントの前記第1のセットの少なくとも一つの擬似ドキュメントと関連付けられている少なくとも一つの基本クエリのセットを識別する、ことを含む、請求項1に記載の検索結果生成方法。
本発明の第15の態様は、第14の態様の検索結果生成方法であって、前記基本クエリの各々は少なくとも一つのタームを含み、前記結果は基本クエリの前記セットの基本クエリの各々の少なくとも一つのタームを含む。
本発明の第16の態様は、第15の態様の検索結果生成方法であって、前記少なくとも一つのタームはドキュメントの代表情報である。
本発明の第17の態様は、第14の態様の検索結果生成方法であって、前記結果は、前記ドキュメント・セットへ基本クエリの前記セットの基本クエリの各々を再実行することにより検索されて取り出される第2のドキュメントの代表情報を含み、前記第2のドキュメントは第1のドキュメントとは異なる。
本発明の第18の態様は、第17の態様の検索結果生成方法であって、前記基本クエリの各々は、擬似ドキュメントの前記第1のセットの擬似ドキュメントの各々を生成するために、順位付け機能の各々とともに使用され、前記基本クエリの各々を再実行することは、前記順位付け機能の各々を使用して擬似ドキュメントの前記第1のセットに前記基本クエリを再実行することを含む。
本発明の第19の態様は、第1の態様の検索結果生成方法であって、前記結果は、前記ドキュメント・セットの第2のドキュメントの代表情報を含む中間結果であり、前記中間結果を生成した後、前記第2のドキュメントの代表情報を含む第2のドキュメント・クエリを実行し、前記第2のドキュメント・クエリの実行に応じて、前記第2のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第2のセットを識別し、少なくとも一つの擬似ドキュメントの前記第2のセットにもとづいて結果を生成する、ことをさらに含む。
本発明の第20の態様は検索システムであって、少なくとも一つのプロセッサと、メモリと、少なくとも一つのプログラムと、を備える。少なくとも一つの前記プログラムは前記メモリに記憶され、少なくとも一つの前記プロセッサによって実行されるように構成されており、少なくとも一つの前記プログラムは、ドキュメント・セットの複数の擬似ドキュメントを生成する手順であって、該擬似ドキュメントの各々は該ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出される該ドキュメント・セットの少なくとも一つのドキュメントの代表情報を含む、手順と、複数の前記擬似ドキュメントの索引を生成する手順であって、前記ドキュメント・セットの複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む該擬似ドキュメントの索引を生成する、手順と、前記索引を生成した後、前記ドキュメント・セットの第1のドキュメントの代表情報を含む第1のドキュメント・クエリを受信する手順と、前記第1のドキュメント・クエリの受信に応じて、前記第1のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第1のセットを識別する手順と、少なくとも一つの擬似ドキュメントの前記第1のセットにもとづいて結果を生成する手順と、を、前記検索システムに実行させる。
本発明の第21の態様は検索結果生成プログラムであって、ドキュメント・セットの複数の擬似ドキュメントを生成する手順であって、該擬似ドキュメントの各々は該ドキュメント・セットへの基本クエリの各々の実行に応じて、検索されて取り出される該ドキュメント・セットの少なくとも一つのドキュメントの代表情報を含む、手順と、複数の前記擬似ドキュメントの索引を生成する手順であって、前記ドキュメント・セットの複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む該擬似ドキュメントの索引を生成する、手順と、前記索引を生成した後、前記ドキュメント・セットの第1のドキュメントの代表情報を含む第1のドキュメント・クエリを受信する手順と、前記第1のドキュメント・クエリの受信に応じて、前記第1のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第1のセットを識別する手順と、少なくとも一つの擬似ドキュメントの前記第1のセットにもとづいて結果を生成する手順と、を、コンピュータに実行させる。
本願発明によれば、本発明を使用しない場合と比べて、効率的におよび正確に情報を検索することができる。
本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索するための分散システムの外観を例示する。 本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索するための検索システムを例示する。 本発明の実施形態のいくつかにおける擬似ドキュメント・データベースのデータ構造を例示する。 本発明の実施形態のいくつかにおける擬似ドキュメント索引のデータ構造を例示する。 本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。 本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。 本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。 本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。 本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。 本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。
実施形態を添付の図に例示して説明する。図面全体にわたって同様の要素には同様の参照符号を付す。以下において、本発明の全体的な理解を容易にするために本発明を詳細に説明する。しかしながら、以下の詳細な説明は例示に過ぎず、該詳細な説明によらずに本発明を実施することもできる。さらに、実施形態の態様を不必要に不明瞭にしないために、周知の、方法、手続き、コンポーネント、回路、ネットワークについては、詳細には記述していない。
以下に、用語について説明する。
●「擬似ドキュメント」はクエリ・ベース索引付け可能オブジェクト(たとえば、順位付け機能を使用してドキュメント・セットに実行されるクエリの代表情報であるデータベースのエントリー)である。
●基本クエリは所定のクエリ・セット(たとえば、ドキュメント・セットに実行されるクエリ・セット)の中の一つのクエリである。
●擬似ドキュメント索引はクエリ・ベース索引付け可能オブジェクトの索引(たとえば、ドキュメント・セットのドキュメントを検索するクエリ/順位付け機能にドキュメントを関連付ける索引)である。
●ドキュメント・クエリは検索ターム(たとえば、擬似ドキュメント索引内を検索するための検索ターム)として少なくとも一つのドキュメントの代表情報(たとえば、ユニークなドキュメント識別子)を含むクエリである。
●擬似ドキュメント内のドキュメント代表情報の重要度値は、擬似ドキュメント内のドキュメントの重要度に対応する値(たとえば、ドキュメント・セットにクエリ/順位付け機能を実行することによって生成される結果のリスト内のドキュメントの順位)である。
●ドキュメントの代表情報はドキュメント・セット内のドキュメントを固有に特定する識別子(たとえば、ユニークなドキュメントID、ターム+出現頻度のベクトル、ドキュメントの内容、ドキュメントの未処理ビット)である。
図1は、本発明の実施形態のいくつかによるクライアント・サーバ分散システムのインフラを例示するブロック図である。分散システムは一つ以上のクライアント・システム102および少なくとも一つの検索システム106(たとえば、索引付けおよび/または検索オペレーションを実行する一つ以上のサーバを備えるサーバ・システム)を備える。様々な構成要素が互いに通信することができるように、一つ以上の通信ネットワーク105(たとえば、インターネット、その他のワイド・エリア・ネットワーク、ローカル・エリア・ネットワーク、など)によって分散システムの構成要素は結合されている。
クライアント・システム102はクライアント・アプリケーション103(たとえば、ウェブ・ブラウザ)を備える。クエリを送信し、検索システム106から一つ以上の結果セット104を受信するために、ユーザはクライアント・アプリケーション103を使用することができる。(「クライアント・デバイス」、「クライアント・コンピュータ」と記載されることもある)クライアント・システム102はクエリを送信し、検索システム106から結果セットを受信することが可能な任意のコンピュータもしくは類似のデバイスであってよい。クライアント・デバイスは、たとえば、携帯電話などのモバイル・デバイス、PDA(personal digital assistants)、セット・トップ・ボックスなどであってよいが、これらに限定されるものではない。結果セット104はドキュメントの代表情報セット(たとえば、ドキュメント識別子のリスト、ドキュメントへのリンクのリスト、ドキュメントのグループなど)を含む。本発明において、ドキュメントは、テキスト、画像、音声、ビデオなどを含む任意のドキュメントまたは任意の形式のコンテンツであってよいが、これらに限定されるものではない。
実施形態のいくつかにおいて、検索システム106は単一のサーバを備える。一方、他の実施形態において、検索システム106は複数のサーバを備える。検索システム106は、検索システム106内のオペレーションを実行するための複数のモジュールを備える。該モジュールは、基本クエリ生成手段110、基本クエリ検索モジュール112、重要度値生成手段114、擬似ドキュメント生成手段116、擬似ドキュメント索引生成手段118、検索インタフェース・モジュール(フロント・エンド・サーバ)119、索引検索モジュール120、および/もしくは、結果生成モジュール122の少なくとも一つを含む。これらのモジュールはローカル・エリア・ネットワーク(LAN)によって相互に接続されており、共通インタフェース(たとえば、一つ以上のウェブ・サーバ(フロント・エンド・サーバとも記載される))によってクライアント・システム102と情報を交換する。これらのモジュールが検索システム106内の複数のサーバに分散される実施形態のいくつかにおいては、該複数のサーバはローカル・エリア・ネットワーク(LAN)もしくはその他の通信ネットワークによって相互に接続されている。検索システム106は、索引生成や索引検索などの検索システム内のオペレーションを実行するために、検索システム106によって使用されるデータを記憶する複数のデータ構造を含む。該データ構造(たとえば、データベース、索引、ルックアップ・テーブルなど)はドキュメント・データベース124、順位付け機能データベース126、基本クエリ・データベース128、基本クエリ結果データベース130、擬似ドキュメント・データベース132、および/もしくは、擬似ドキュメント索引134の少なくとも一つを含む。
実施形態のいくつかにおいて、基本クエリ生成手段110は基本クエリ・データベース128に記憶される基本クエリを生成する。これらの実施形態のいくつかにおいて、基本クエリ検索モジュール112は、ドキュメント・データベース124のドキュメント・セットに検索オペレーションを実行するために、基本クエリ・データベース128の基本クエリおよび順位付け機能データベース126の一つ以上の順位付け機能を使用する。実施形態のいくつかにおいて、基本クエリ検索モジュール112は(たとえば、検索システムのデータベースもしくはキャッシュに記憶される)基本クエリ結果130を生成する。実施形態のいくつかにおいて、基本クエリ結果130は重要度値生成手段114によって受信され、擬似ドキュメント生成手段116は基本クエリ結果130および該基本クエリ結果のドキュメントの重要度値データを受信し、該データを使用して擬似ドキュメントを生成する。これらの実施形態のいくつかにおいて、擬似ドキュメントは擬似ドキュメント・データベース132に記憶されてもよい。擬似ドキュメント索引134を生成するために、擬似ドキュメント索引生成手段118は擬似ドキュメント・データベース132の擬似ドキュメントに索引を付ける。
実施形態のいくつかにおいて、検索システム106は検索クエリを受信する。実施形態のいくつかにおいて、検索クエリはクライアント102から受信される(たとえば、検索クエリはクライアント102のクライアント・アプリケーション103に入力される)。実施形態のいくつかにおいて、検索クエリは検索システム106のユーザ・インタフェースから受信される。実施形態のいくつかにおいて、検索クエリは検索インタフェース・モジュール119によって受信され、検索システム106内の索引検索モジュール120に送信される。索引検索モジュール120は擬似ドキュメント索引134で受信した検索クエリを実行し、結果生成モジュール122に実行した検索クエリの結果を送信する。実施形態のいくつかにおいて、結果はクライアント102に直接送信され、クライアント・アプリケーション103によってクライアントの表示端末上で表示するために処理される。実施形態のいくつかにおいて、結果生成モジュール122は表示のために結果を処理する(たとえば、ユーザに表示するために順位付けした擬似ドキュメント識別子のリストを生成する)。結果生成モジュール122によって処理された結果は検索インタフェース・モジュール119に送信される。実施形態のいくつかにおいて、検索インタフェース・モジュール119は検索システム106で結果を表示する。実施形態のいくつかにおいて、検索インタフェース・モジュール119は、クライアント102における表示のために、通信ネットワーク105を通じて、クライアント102に結果を送信する。実施形態のいくつかにおいて、検索インタフェース・モジュール119は結果にもとづいて新しい検索クエリを生成し、さらに処理するために、索引検索モジュール120に結果を戻すべく送信する。
図2は、以下に示す方法を実行する計算処理装置としての検索システム106の実施形態を示す。該検索システム106は、一つ以上の処理ユニット(CPU)202、一つ以上のネットワークもしくはその他の通信のインタフェース204、メモリ206、および、これらの構成要素を相互に接続するための一つ以上の通信バス208を含む。通信バス208は、システムの構成要素間を相互に接続し制御する回路(チップセットと記載されることもある)を含んでもよい。検索システム106はユーザ・インタフェース210を含んでもよいが、これは必須ではない。実施形態のいくつかにおいて、ユーザ・インタフェース210は、表示手段212および/もしくはキーボード/マウス214を含むが、その他の構成のユーザ・インタフェース手段が使用されてもよい。検索システム106のメモリ206は高速ランダム・アクセス・メモリを備えてもよいし、不揮発性メモリ(たとえば、一つ以上の磁気記憶ディスクもしくは光記憶ディスク、フラッシュ・メモリ・デバイス、その他の不揮発性ソリッド・ステート・ストレージ・デバイスなど)であってもよい。高速ランダム・アクセス・メモリはDRAM、SRAM、DDR RAM、もしくは、その他のランダム・アクセス・ソリッド・ステート・メモリ・デバイスなどのメモリ・デバイスであってもよい。メモリ206はCPU202と離隔して配置される大容量記憶手段を含んでもよいが、大容量記憶手段は必須ではない。メモリ206(もしくは、代替的に該メモリ206内の不揮発性メモリ・デバイス)は、コンピュータ可読記憶媒体を含んでもよい。メモリ206もしくは該メモリ206内のコンピュータ可読記憶媒体は、以下の要素、もしくは、該要素のサブセットを記憶し、さらに、その他の要素を含んでもよい。
●様々な基本システム・サービスを処理し、ハードウェア依存タスクを実行するための手続きを含むオペレーティング・システム216
●検索システム106を他の計算処理装置へ一つ以上の通信(ネットワーク・)インタフェース204および一つ以上の通信ネットワーク(たとえば、インターネット、その他のワイド・エリア・ネットワーク、ローカル・エリア・ネットワーク、メトロポリタン・エリア・ネットワークなど)によって接続するために使用されるネットワーク通信モジュール(もしくは命令)218
●以下の少なくとも一つを含むアプリケーション220
*擬似ドキュメントを生成する際に使用されるべき基本クエリを生成するための基本クエリ生成手段110
*生成した基本クエリをドキュメント・セットに実行するための基本クエリ検索モジュール112
*基本クエリの結果内のドキュメントの関連度にもとづいて、基本クエリのドキュメントの重要度値を生成するための重要度値生成手段114
*基本クエリ検索結果および生成した重要度値を使用して擬似ドキュメントを生成するための擬似ドキュメント生成手段116
*擬似ドキュメントの索引を生成するための擬似ドキュメント・索引生成手段118
*擬似ドキュメント索引134へ渡される検索クエリを受信するための検索インタフェース・モジュール119
*擬似ドキュメント索引134に受信した検索クエリを実行するための索引検索モジュール120
*索引検索モジュール120によって生成される結果を処理し、表示のために該結果をさらに処理する結果生成モジュール122
●以下の少なくとも一つを含むデータ222
*一つ以上のドキュメント・セットを記憶するためのドキュメント・データベース124
*基本クエリを実行する際に、基本クエリ検索モジュール112によって使用されるべき、および/もしくは、擬似ドキュメント索引134に検索クエリを実行する際に、索引検索モジュール120によって使用されるべき、順位付け機能を記憶するための順位付け機能データベース126
*基本クエリ(たとえば、基本クエリ生成手段110によって生成された基本クエリ)を記憶するための基本クエリ・データベース128
*ドキュメント・セットに基本クエリを実行する基本クエリ検索モジュール112によって生成される結果を記憶するための基本クエリ結果データベース130
*擬似ドキュメント生成手段116によって生成される擬似ドキュメントを記憶するための擬似ドキュメント・データベース132(図3Aを参照して以下で詳細に議論する)
*擬似ドキュメント生成手段116によって生成される擬似ドキュメントに索引を付けるための擬似ドキュメント索引134(図3Bを参照して以下で詳細に議論する)
*オペレーションもしくは処理のいずれかを実行するために必要な情報を一時的に記憶するキャッシュ224
上記した図2の要素の各々は、一つ以上の上記メモリ・デバイスに記憶されていてもよい。上記モジュールの各々は上記機能を実行するための命令セットに対応する。上記モジュールもしくはプログラム(すなわち、命令セット)は別個のソフトウェア・プログラム、手続き、もしくはモジュールとして実装される必要はないし、該モジュールの様々なサブセットは組み合わせられてもよいし、様々な実施の形態において再構成されてもよい。実施形態のいくつかにおいて、メモリ206は上記モジュールおよびデータ構造を記憶してもよい。さらに、メモリ206は上記以外のモジュールおよびデータ構造を記憶してもよい。さらに、検索システム106は単一の計算処理装置として実装されるものとして記述されているが、検索システム106の実施形態は相互に接続された複数の計算処理装置として実装されてもよく、様々な上記機能、モジュールおよびデータは相互に接続されている複数の計算処理装置に分割されていてもよい。
図3Aは、実施形態のいくつかにおける擬似ドキュメント・データベースのデータ構造を例示するブロック図である。実施形態のいくつかにおいて、擬似ドキュメント・データベース132は複数の擬似ドキュメントのエントリ(entry)を有する。エントリの各々は擬似ドキュメント識別子302および擬似ドキュメントの主部304を有する。実施形態のいくつかにおいて、擬似識別子302の各々は、擬似ドキュメントの主部304を生成するために使用された検索クエリ(たとえば、基本クエリ)306および/もしくは順位付け機能308にもとづいて生成される。たとえば、擬似ドキュメント1は、擬似ドキュメントの主部304−1を生成するために使用された検索クエリ306−1および順位付け機能308−1の代表情報を含む擬似ドキュメント識別子302−1を有する。さらに、実施形態のいくつかでは、他の擬似ドキュメント識別と同一の順位付け機能308もしくは同一の検索クエリ306にもとづいて、複数の擬似ドキュメント識別子302が生成されてもよい。しかしながら、これらの実施形態において、2つの擬似ドキュメント識別子が同一の検索クエリかつ同一の順位付け機能を用いて生成されることはない(たとえば、検索クエリおよび順位付け機能の組み合わせは固有の擬似ドキュメントを識別する)。実施形態のいくつかにおいて、擬似ドキュメントの主部(たとえば、擬似ドキュメント2の主部304−2)は複数のドキュメントの代表情報(DOC1ID310−1)および関連する重要度値(たとえば、DOC1重要度値312−1)を含む。実施形態のいくつかにおいて、ドキュメント重要度値の各々は、順位付け機能の各々を使用して、ドキュメント・セットに実行された基本クエリの各々にドキュメントの各々が関連する度合いを示している。これらの実施形態において、たとえ同一のドキュメントであったとしても、擬似ドキュメントを生成するために異なる検索クエリもしくは順位付け機能が使用されるならば、ドキュメント重要度値は通常異なることになる。
図3Bは、実施形態のいくつかの擬似ドキュメント索引のデータ構造を例示するブロック図である。実施形態のいくつかにおいて、擬似ドキュメント索引134はドキュメント・セットの一つ以上のドキュメントのエントリを含む。該エントリは、ドキュメント識別子の各々を含む擬似ドキュメントのリスト314とドキュメント識別子310とを関連付ける。たとえば、ドキュメント3について、ドキュメント3の代表情報(たとえば、DOC3ID310−3)は、ドキュメント3の代表情報を含む擬似ドキュメントのリスト(たとえば、図3Bの314−3)と関連付けられている。該索引を使用することによって、ドキュメント・クエリに含まれたドキュメントの代表情報(たとえば、ドキュメント識別子)のいずれかを含む擬似ドキュメントのいずれかを迅速に識別することができ、検索システム106はドキュメント・クエリを実行することができる。たとえば、ドキュメント・クエリがドキュメント3の代表情報(たとえば、DOC3ID310−3)を含むならば、検索システム106は、擬似ドキュメント1、擬似ドキュメント4、擬似ドキュメント9および擬似ドキュメントYを決定するために擬似ドキュメント索引134を使用する。擬似ドキュメント1、擬似ドキュメント4、擬似ドキュメント9および擬似ドキュメントYの各々はドキュメント3の代表情報を含む(たとえば、該擬似ドキュメントの各々のクエリ/順位付け機能の組み合わせがドキュメント・セットからドキュメント3の代表情報を取り出す)。
図4A〜図4Fは、クエリ・ベース索引(たとえば、図1、図2および図3Bの擬似ドキュメント索引134)を用いて情報を取り出す方法400を示す。
以下に記載する検索システムはドキュメント・セットにオペレーションを実行する。検索システムは複数のドキュメント・セットを記憶してもよいし、複数のドキュメント・セットに並行してオペレーションを実行してもよい。しかしながら、記述される実施形態のその他の態様を不必要に不明瞭にしないために、以下の実施形態では原則として単一のドキュメント・セットについて記載する。実施形態のいくつかでは、ドキュメントの各々がドキュメントの代表情報と関連付けられている(たとえば、ドキュメントの各々がユニークな識別子を与えられている)。実施形態のいくつかにおいて、ドキュメントの代表情報は割り当てられている(たとえば、ドキュメント識別子は数値の順番で割り当てられている、もしくは、タイムスタンプにもとづいて割り当てられている)。実施形態のいくつかにおいて、ドキュメントの代表情報はドキュメントの内容にもとづいて生成される(たとえば、ドキュメント識別子の各々はユニークなドキュメント・ハッシュもしくはドキュメント名である)。
実施形態のいくつかにおいて、検索システム106は複数の基本クエリを取得する(402)。実施形態のいくつかにおいて、基本クエリは検索システム106で受信され、図1および図2に示される基本クエリ・データベース128に記憶される。実施形態のいくつかにおいて、基本クエリは手動で生成される(たとえば、ユーザは基本クエリを手動で生成する)。実施形態のいくつかにおいて、基本クエリは自動的に(たとえば、図1および図2の基本クエリ生成手段110によって)生成される。自動的に生成される基本クエリの一例として、基本クエリはドキュメント・セットで発見されるすべてのシングルトン(ユニーク)・テキスト・ストリング、ドキュメント・セットで発見されるすべてのバイグラム(たとえば、2つの連続的なテキスト・ストリングを含むユニット)、ドキュメント・セットで発見されるすべてのトリグラム(たとえば、3つの連続的なテキスト・ストリングを含むユニット)、ドキュメント・セットで発見されるすべてのnグラム(たとえば、n個の連続的なテキスト・ストリングを含むユニット、nは任意の整数)、コレクションにおけるすべてのメタデータ特徴のセット(たとえば、ドキュメントの地理的な位置、生成日時、最終アクセス日時、など)、および/もしくは、テキスト・ストリングおよびメタデータの連結(conjunctions)および分離(disjunctions)(たとえば、地理的な位置と組み合わせられているシングルトン・テキスト・ストリング)を含んでもよい。他の例として、基本クエリ・セットはドキュメント・セットに以前に実行されたクエリから生成されてもよい(たとえば、既存のユーザ・ログから取り出された検索クエリから生成されてもよい)。さらに、基本クエリのログから基本クエリが生成される場合、結果選択データ(たとえば、結果がハイパーリンクのリストであるクリックスルー(広告などのリンクをクリックすることによってリンク先のページにジャンプした回数)統計)が基本クエリとドキュメント各々との関連性を判断するために使用されてもよい。すなわち、結果選択データが、どのドキュメントがもっとも基本クエリの各々に関連するか、を判断するために、順位付け機能による検索結果内のドキュメントの順位付けに加えて、もしくは、該順位付けに代えて、使用されてもよい。
実施形態のいくつかにおいて、基本クエリの各々はドキュメント・セットのドキュメントの一つ以上の識別可能な特徴を含む(404)。実施形態のいくつかにおいて、識別可能な特徴は、用語(term)、ドキュメント識別子、画像固有特徴(image fingerprint)、音声固有特徴(audio fingerprint)、ビデオ固有特徴(video fingerprint)、タイムスタンプ、ハイパーリンク、GPS(global positioning system)座標、の少なくとも一つを含む(406)。すなわち、上記例は特にテキストに関するが、ここで記述する基本クエリは他のタイプのドキュメント(画像、音声ファイル、ビデオ・ファイル、物理的オブジェクトの表示(たとえば、位置座標を使用した物理オブジェクトの表示など)など)にも適用することができる。
実施形態のいくつかにおいて、複数の擬似ドキュメントを生成する前に、検索システム106(たとえば、図1および図2の基本クエリ検索モジュール112)はドキュメント・セットに複数の基本クエリを実行する(408)。ドキュメント・セットに基本クエリを実行することは、順位付け機能を用いて、基本クエリとドキュメント・セットのドキュメントとの適合性を評価することを通常は含む。たとえば、テキスト・ストリングは類似のテキスト・ストリングを有するドキュメントを識別するために使用されてもよく、テキスト・ストリングはテキスト・ストリングと適合するメタデータを有する画像を識別するために使用されてもよく、画像は類似の画像を検出するために使用されてもよく、音声スニペット(音声の断片)は類似の聴覚特性を有する他の音声コンテンツを検出するために使用されてもよい。特定のタイプの結果を検索して取り出すために順位付け機能を用いてドキュメント・セットに実行されることができる基本クエリのタイプの例示的なリストを表1に示す。さらに、上記内容ベースの順位付け機能に加えて、基本クエリとドキュメントとの関連度を判断するために、結果選択データ(たとえば、ハイパーリンクのリストにおけるユーザのクリックスルー・レート)を使用することができる。
Figure 2012003740
実施形態のいくつかにおいて、基本クエリのすべては単一の順位付け機能を用いて実行される。たとえば、テキスト・ドキュメント・セットについて、TF.IDF(Term Frequency/Inverse Document Frequency)順位付け機能が、テキスト・ストリング(たとえば、ログの内よく使用される100,000個のテキスト・クエリ)を含む基本クエリ・セットとともに使用される。該クエリの各々の結果は擬似ドキュメントとして記憶される(詳細は、以下に記載する)。実施形態のいくつかにおいて、基本クエリは複数の異なる順位付け機能を用いて実行される。たとえば、混合タイプのドキュメント・セット(たとえば、テキスト・ドキュメント、画像、ビデオなどを含むドキュメント・セット)について、テキスト・クエリはTF.IDF順位付け機能および言語モデリング(Language Modeling)順位付け機能の双方を用いて実行されてもよい。一方、画像クエリはカラー・ヒストグラム順位付け機能のEMD(earth mover distance: 距離)を用いて実行される。基本クエリおよび順位付け機能の組み合わせの各々の結果は別個の擬似ドキュメントとして記憶される(詳細は、以下に記載する)。順位付け機能は、検索クエリの結果を著しく変更することができる(たとば、カラー・ヒストグラム順位付け機能は顔検出および類似度順位付け機能とはたいへん異なる)。したがって、同一の画像クエリが同一のドキュメント・セットに実行された場合であっても、第1の順位付け機能を用いて(たとえば、カラー・ヒストグラム順位付け機能を用いて)、同一の基本クエリ(たとえば、画像クエリ)を実行することは、第2の順位付け機能を用いる場合と比較して(たとえば、顔検出および類似度順位付け機能を用いる場合と比較して)、ある状況において、著しく異なる結果セットもしくは結果の著しく異なる順位を生成する。
さらに、基本クエリのタイプが戻される結果タイプを示す必要はない。たとえば、テキスト・ストリング・クエリはテキスト・ドキュメント、画像およびビデオを取り出すことができる。他の例として、画像クエリは、画像クエリに関連する同一の画像およびテキスト・ドキュメントを検索して取り出すことができる。さらに、タイムスタンプ・クエリ(たとえば、最近のタイムスタンプあるいは所定のタイムスタンプにもっとも近いタイプスタンプを有するドキュメントを検出するタイムスタンプ・クエリ)はドキュメント・セットから任意のタイプのドキュメントを含む結果を戻すことができる。
検索システム106はドキュメント・セットの複数の擬似ドキュメントを(たとえば、図1および図2に示される基本クエリ結果データベース130の基本クエリ結果データを処理することによって)生成する(410)。擬似ドキュメントの各々は、ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出されたドキュメント・セットの一つの以上ドキュメントの代表情報を含む。すなわち、基本クエリの各々はコレクションに個々に実行され、基本クエリの各々の結果セットは少なくとも一つの順位付け機能によって(たとえば、順位付け機能によって結果セットの各々の中でドキュメントの代表情報を順位付けすることによって)順位付けされる。しかしながら、実施形態のいくつかにおいて、単一の結果セットを生成するために、もしくは、複数の異なる結果セットを生成するために、単一の基本クエリが複数の順位付け機能を用いて実行されてもよい(たとえば、実施形態のいくつかにおいて、ユニークな基本クエリ/順位付け機能ペアの各々について一つの結果セットがある)。
擬似ドキュメントは索引付けされることができる検索結果セットの任意の代表情報であってよい。すなわち、擬似ドキュメントは、検索結果がドキュメント・ベース(per-document basis)で索引付けされることができるように、検索結果を表示する手段である。索引付け処理を単純化するために、ドキュメントとして扱われることができる検索クエリの各々および検索クエリの結果セットを表示する論理的エンティティを生成することに原則的に関して、次の例は記述される。しかしながら、異なる長所および短所を有する検索結果の他の代表情報が使用されてもよい。
実施形態のいくつかにおいて、(たとえば、擬似ドキュメントによって例示された図3Aに関して例示的に上記されたように、)擬似ドキュメントの各々を生成することは、擬似ドキュメントの各々の主部を生成すること、および、擬似ドキュメントの各々の識別子を生成することを含む(412)。すなわち、実施形態のいくつかにおいて、擬似ドキュメントは、擬似ドキュメントがより容易に索引付けされることができるように、現実のドキュメントをエミュレートする形式で生成される。
実施形態のいくつかにおいて、検索システム106はオペレーション412〜420を実行することによって擬似ドキュメントの各々の主部を生成する。検索システム106(すなわち、図1および図2に示される基本クエリ検索モジュール112)は、基本クエリにもとづいてドキュメント・セットのドキュメントのスコアを生成するために順位付け機能を用いてドキュメント・セットに基本クエリの各々を実行する(414)。検索システム106(すなわち、図1および図2に示される擬似ドキュメント生成手段116)は、擬似ドキュメントの各々の主部に示されるべきドキュメント・セットの一つ以上のドキュメントを、スコアにもとづいて選択する(416)。検索システム106(すなわち、図1および図2に示される重要度値生成手段114)は、選択されたドキュメントの各々のスコアにもとづいて、選択されたドキュメントの各々の重要度値を決定する(418)。検索システム106(すなわち、図1および図2に示される擬似ドキュメント生成手段116)は、選択ドキュメントの代表情報および選択ドキュメントの重要度値にもとづいて擬似ドキュメントの各々の主部を生成する(420)。
すなわち、検索システム106は、検索クエリに関連するドキュメントのリストを生成し、順位付け機能を用いてドキュメントにスコアを付けるために、基本クエリを実行する。実施形態のいくつかにおいて、スコアはドキュメントと検索クエリとの関連度を判断するために使用される。ドキュメントの代表情報(たとえば、ドキュメント識別子)が、順位付け機能によるスコアにしたがって、擬似ドキュメントに付加される。実施形態のいくつかにおいて、順位付け機能によって生成された未処理スコアがドキュメントの代表情報の各々の重要度値として使用される。実施形態のいくつかにおいて、ドキュメントの代表情報は、順位付け機能によって生成された未処理スコアにもとづいて順位付けされ、ドキュメントの該順位がドキュメントの重要度値として使用される。ドキュメントの代表情報およびドキュメントの重要度値は擬似ドキュメントの主部を構築するために使用される。一例として、(たとえば、順位付け機能のスコアによって決定される)検索結果セットの関連度が上位100に入るドキュメントのドキュメント識別子が擬似ドキュメントの主部に含められ、結果セット内のドキュメントの各々の順位がドキュメントのドキュメント識別子に関連付けられる重要度値としてドキュメントに含められる。その他の例として、(たとえば、順位付け機能のスコアによって決定される)検索結果セットの関連度が上位100に入るドキュメントのドキュメント識別子が擬似ドキュメントの主部に含められ、結果セット内のドキュメントの各々のスコアがドキュメントのドキュメント識別子と関連付けられる重要度値として擬似ドキュメントに含められる。他の方法で、擬似ドキュメントの主部を構築してもよい(たとえば、ドキュメント識別子の各々がドキュメントに関連する重要度値にもとづく回数繰り返される場合に、テキスト・ドキュメントを生成する、など)。重要度値は一般にドキュメント毎に、および、検索クエリ毎に生成される(たとえば、擬似ドキュメント内のドキュメント識別子の各々は、検索結果を生成するために使用されるドキュメント、検索クエリおよび順位付け機能に特有の重要度値を有する)。
実施形態のいくつかにおいて、ドキュメントの索引付けは、ドキュメントの長さやドキュメント内のタームの出現頻度などのドキュメント特徴を判断することを必要とする。しかしながら、実施形態のいくつかによれば、擬似ドキュメントは長さおよびタームの出現頻度を有さない。したがって、上記したように、重要度値によってこれらの値を特定することが必要となる。実施形態のいくつかにおいて、(たとえば、擬似ドキュメントが実際のドキュメントをエミュレートし、該エミュレートによって索引をより容易に付けることができるように、)タームの擬似出現頻度およびドキュメントの擬似長さが重要度値にもとづいて決定される。実施形態のいくつかにおいて、擬似ドキュメント内のドキュメントの代表情報の擬似出現頻度はドキュメントの代表情報の重要度値となるように決定される。実施形態のいくつかにおいて、擬似ドキュメントの擬似長さは擬似ドキュメント内のドキュメントの代表情報のすべての重要度値の合計となるように決定される。実施形態のいくつかにおいて、擬似ドキュメントの擬似長さは擬似ドキュメントの主部に含まれるドキュメントのユニークな代表情報の数となるように決定される。
実施形態のいくつかにおいて、ドキュメントの索引付けは擬似ドキュメントのユニークな識別子を必要とする。原則として、詳細に上記されたように任意のユニークな識別子が使用されるが、実施形態のいくつかにおいて、擬似ドキュメントの各々の識別子を生成することは基本クエリの代表情報および順位付け機能の代表情報を組み合わせることを含む(422)。たとえば、検索クエリがターム「elephant」を含み、順位付け機能がTF.IDFであれば、擬似ドキュメント識別子は「elephant_TF.IDF」のように検索タームと順位付け機能の名称とを単に組み合わせることによって生成される。同様に、擬似ドキュメントのすべてを生成するために単一の順位付けだけが使用されるのであれば、擬似ドキュメント識別子は検索クエリだけにもとづいてもよい(たとえば、上記の例では、擬似ドキュメント識別子は「elephant」であってもよい)。
実施形態のいくつかにおいて、(たとえば、図1、図2および図3Aの擬似ドキュメント・データベース132に一つ以上の擬似ドキュメントを追加する、もしくは、擬似ドキュメント・データベース132から一つ以上の擬似ドキュメントを削除する、ことによって、)複数の擬似ドキュメントが更新される。実施形態のいくつかにおいて、複数の擬似ドキュメントがドキュメントのコレクションの変更(たとえば、ドキュメントのコレクションへのドキュメントの追加もしくはドキュメントのコレクションからのドキュメントの削除)に応じて更新される。たとえば、一つ以上の新しいドキュメントが(たとえば、図1および図2の参照符号124で示される)ドキュメント・データベースに追加されると、該新しいドキュメントは、基本クエリの結果を変更するかもしれない。したがって、更新された擬似ドキュメントを生成するために、ドキュメント・データベースのドキュメントに基本クエリが再び実行される。実施形態のいくつかにおいて、ドキュメントがドキュメント・データベースに追加されると、計算処理資源を節約するために、(たとえば、詳細が上記されたように、擬似ドキュメントを生成するために、ドキュメント・データベースのドキュメントに基本クエリを再び実行することによって、)擬似ドキュメントのサブセットだけが更新される。同様に、実施形態のいくつかにおいて、計算処理資源を節約するために、擬似ドキュメント(もしくは、擬似ドキュメントのサブセット)は、ドキュメント・データベースで少なくとも所定の量の変更が生じるまで(たとえば、ドキュメントの5%がドキュメント・データベースに追加されるか、および/もしくは、ドキュメント・データベースから削除されるまで)は変更されない。
実施形態のいくつかにおいて、複数の擬似ドキュメントが、基本クエリへの変更(たとえば、複数の基本クエリへの基本クエリの追加、もしくは、複数の基本クエリからの基本クエリの削除)に応じて更新される。たとえば、(たとえば、図1および図2に示される参照符号128で示される)基本クエリ・データベースに新しい基本クエリが追加されると、図1および図2の基本クエリ生成手段110によって新しい基本クエリが生成されるので、もしくは、新しい基本クエリがユーザ・ログで識別されるので、ドキュメント・データベースのドキュメントに新しい基本クエリを実行することによって、新しい擬似ドキュメントが生成される(詳細は上記した)。実施形態のいくつかにおいて、基本クエリが複数の基本クエリから除去されると、基本クエリに関連する一つ以上の擬似ドキュメントが(たとえば、図1、図2、図3Aの参照符号132で示される)擬似ドキュメント・データベースおよび(たとえば、図1、図2、図3Bの参照符号134で示される)擬似ドキュメント索引から除去される。
検索システム106(すなわち、図1および図2の擬似ドキュメント索引生成手段118)は、複数の擬似ドキュメントの索引を生成する(423)。索引は、ドキュメント・セットの複数のドキュメントの各々について、ドキュメントの各々の代表情報を含む擬似ドキュメントの指示を提供する。すなわち、擬似ドキュメント索引はドキュメントの代表情報がドキュメントのタームに類似しているドキュメント索引に類似し、擬似ドキュメントはドキュメントに類似する。したがって、ドキュメントの代表情報の各々について(たとえば、ドキュメント識別子の各々について)、擬似ドキュメント索引はドキュメントの代表情報の各々を含む擬似ドキュメントの(たとえば、図3Bの例示的な擬似ドキュメント索引134に例示されるような、)リストを含む。
索引を生成した後、検索システム106はドキュメント・セットの第1のドキュメントの代表情報を含む第1のドキュメント・クエリを受信する(424)。ドキュメント・クエリは、検索タームとして一つ以上のドキュメントの代表情報(たとえば、ドキュメント識別子)を使用するクエリである。さらに、実施形態のいくつかにおいて、ドキュメント・クエリは、ドキュメントの代表情報ではないターム(たとえば、テキスト・ストリング、タイムスタンプ、位置座標など)を含む。
実際、ドキュメント・クエリに使用されるドキュメント・タイプに制限はない。すなわち、第1のドキュメントの代表情報はドキュメントの第1のセットにある任意のドキュメントの代表情報であってよい。実施形態のいくつかにおいて、第1のドキュメントはテキスト・コンテンツを含む(426)。実施形態のいくつかにおいて、第1のドキュメントは画像コンテンツを含む(428)。実施形態のいくつかにおいて、第1のドキュメントはビデオ・コンテンツを含む(430)。実施形態のいくつかにおいて、第1のドキュメントは音声コンテンツを含む(432)。
検索システム106(すなわち、図1の索引検索モジュール120)は、擬似ドキュメント索引にドキュメント・クエリを実行する。索引から結果を検索して取り出すために、任意の順位付け機能(たとえば、ベスト・マッチ、言語モデル、ベクトル空間モデルなどの標準的な順位付け機能)を使用して擬似ドキュメント索引にドキュメント・クエリを実行してもよい。詳細には、上記したドキュメントの特徴の多くを含む複数の擬似ドキュメントの生成およびそれに続く複数の擬似ドキュメントの索引付けによれば、ユーザは多くの異なる順位付け機能およびドキュメントに索引を付与することにより生成される標準的なドキュメント索引の検索に適用することもできる索引検索ストラテジーを使用することができる、という効果を有する。ここで記載したように、擬似ドキュメントに検索クエリを実行することに従来の検索アプローチを適用することによって従来の検索アプローチの多くを改良することができる。従来の検索アプローチの一例は、非特許文献1に記載されている。
さらに、ドキュメント・クエリは論理(boolean)であってもよく、同義語オペレータ(たとえば、SYN(cats, cat) => 「catsはcatの同義語」)および位置オペレータ(PHRASE-5(cat, dog) =>「dogから5ワード内のcat」)のような標準的なクエリ・オペレータが使用されてもよい。上記したドキュメントの特徴の多くを含む複数の擬似ドキュメントの生成およびそれに続く複数の擬似ドキュメントへの索引付けによれば、ユーザは、擬似ドキュメントを検索して取り出すために、従来のワード・ベース検索を用いて、ドキュメントを検索して取り出すために一般に使用されるクエリ・オペレータを使用することができる、という効果を有する。ドキュメント・クエリの一例は、(DOCID-1 AND DOCID-2) OR (DOCID-3 AND DOCID-4)である。これは、結果(たとえば、識別された擬似ドキュメント)が、ドキュメント1および2の双方の代表情報を含むか、もしくは、ドキュメント3および4の双方の代表情報を含むか、でなければならないことを必要とする。ドキュメント・クエリの他の例は、(DOCID-1 AND NOT DOCID-2)である。これは、結果(たとえば、識別された擬似ドキュメント)が、ドキュメント1の代表情報を含むがドキュメント2の代表情報を含まない、でなければならないことを必要とする。ドキュメント・クエリのその他の例は、SYN(DOCID-1, DOCID-2, DOCID-3) OR DOCID-4である。これは、ドキュメント1、2、もしくは、3の一つの代表情報もしくはドキュメント4の代表情報を有するドキュメントを必要とする。当該例において、ドキュメント1、2および3の代表情報は同義語として扱われる。これは順位付け機能のいくつかの結果と関係を有し、その結果、ドキュメント・クエリの結果の順位付けに影響する。ドキュメント・クエリの他の例は、PHRASE-K(DOCID-1, DOCID-2)である。これは、ドキュメント1および2の代表情報が互いのサイズKのウィンドウ内の擬似ドキュメント内に出現しなければならない、ことを必要とする。したがって、もっとも関連度の高い擬似ドキュメントは同様の相対位置でドキュメント1および2を取り出す基本クエリから生成される擬似ドキュメントである。当該(関連度を示す)位置は高くても(たとえば、1〜5)、中間でも(たとえば、50〜55)、低くても(たとえば、95〜100)よい。
オペレーション436〜466は第1のドキュメント・クエリを受信する(434)ことに応じて実行される。検索システム106(すなわち、図1および図2の索引検索モジュール120)は第1のドキュメントとの所定の関係を有する少なくとも一つのドキュメントの代表情報を含む一つ以上の擬似ドキュメントの第1のセットを(たとえば、図1、図2、図3Bの擬似ドキュメント索引134を使用して、)識別する。すなわち、検索システム106はドキュメント・クエリに応答することができる擬似ドキュメント(たとえば、ドキュメント・クエリの一つ以上のドキュメント識別子を含む擬似ドキュメント)を識別する。実施形態のいくつかにおいて、一つ以上の擬似ドキュメントの第1のセットは擬似ドキュメントとドキュメント・クエリとの関連度にもとづいて順位付けされる。
実施形態のいくつかにおいて、ドキュメントが第1のドキュメントである場合、ドキュメントは第1のドキュメントと所定の関係を有する(438)。実施形態のいくつかにおいて、ドキュメントが第1のドキュメントの代替として識別されるドキュメントであれば、該ドキュメントは第1のドキュメントと所定の関係を有する(440)。実施形態のいくつかよれば、第1のドキュメントの代替としてドキュメントを識別することは、代替ドキュメントが第1のドキュメントの代用ドキュメントであること、もしくは、代替ドキュメントが第1のドキュメントと何らかの意味で同等であることを判断することを含む。さらに、実施形態のいくつかにおいて、第1のドキュメントの代替としてドキュメントを識別することは、代替ドキュメントが第1のドキュメントのバージョンの一つであること、もしくは、代替ドキュメントが第1のドキュメントに他の意味で関連することを判断することを含む。ドキュメントが第1のドキュメントの代替ドキュメントとして識別されると、第1のドキュメントの検索は第1のドキュメントに関連する結果および代替ドキュメントに関連する結果を検索して取り出す。一方、代替ドキュメントの検索は代替ドキュメントに関連する結果および第1のドキュメントに関連する結果を検索して取り出す。
すなわち、実施形態のいくつかにおいて、2つ以上のドキュメントの代表情報は検索システム106によって同義であるものとして扱われる(たとえば、ユーザが第1のドキュメントのドキュメント識別子を入力すると、検索システム106は第1のドキュメントが代替ドキュメントと実質的に同様であると判断し、第1のドキュメントのドキュメント識別子と(該第1のドキュメントと同義であるとして)代替ドキュメントのドキュメント識別子とを用いて検索を実行する)。実施形態のいくつかにおいて、ドキュメント・クエリは、2つ以上のドキュメントの代表情報が同義であるとして扱われるべきであることを特定する。実施形態のいくつかにおいて、ドキュメント・クエリは第1のドキュメントの識別子を含むだけであるが、検索システム106は自動的に第1のドキュメントの代替である一つ以上のドキュメントを識別し、第1のドキュメントの識別子および(同義であるとして)代替ドキュメントの識別子を決定する。実施形態のいくつかにおいて、検索システム106は、(たとえば、検索システム106によって、もしくは、その他のコンピュータもしくは人間によって、)予め生成された、互いに実質的に同一であるドキュメントの情報を含む、同義データベースを含む。実施形態のいくつかにおいて、検索システム106は、2つのドキュメントが(互いに)代替ドキュメントであるか、を判断するために、統計的手段を使用する。検索の一例として、グレイトフル・デッド(Grateful Dead)の歌のライブ・コンサートの録音のドキュメント識別子を含むドキュメント・クエリをユーザが入力する。当該例において、検索システムはグレイトフル・デッドの同じ歌ではあるがスタジオ録音であるドキュメントを識別し、コンサート録音のドキュメント識別子および(同義であるとして)スタジオ録音のドキュメント識別子を用いて、擬似ドキュメント索引に検索を実行する。当該例において、検索システム106はコンサート録音のドキュメント識別子、および/もしくは、スタジオ録音のドキュメント識別子を含む擬似ドキュメントを検索して取り出す。
実施形態のいくつかにおいて、一つ以上の擬似ドキュメントの第1のセットは以下を含む(442)。
●第1のドキュメントの代表情報を含む擬似ドキュメント
●第1のドキュメントの代替として識別された第2のドキュメントを含む擬似ドキュメント(第2のドキュメントは第1のドキュメントとは異なる)
すなわち、上記例において、検索クエリに応答可能であるとして検索システム106によって識別された擬似ドキュメントのセットは、グレイトフル・デッドの歌のコンサート録音のドキュメント識別子とグレイトフル・デッドの歌のスタジオ録音のドキュメント識別子との双方を含む少なくとも一つの擬似ドキュメントを含む。
検索システム106(すなわち、図1および図2の結果生成モジュール122)は一つ以上の擬似ドキュメントの第1のセットにもとづいて結果を生成する(444)。すなわち、検索システム106はドキュメント・クエリに応答できる擬似ドキュメントのセットを採用し、擬似ドキュメントを用いて結果を生成する。実施形態のいくつかにおいて、一つ以上の擬似ドキュメントの第1のセットにもとづいて結果を生成することは、ユーザに擬似ドキュメントのセットを提示することを含む。実施形態のいくつかにおいて、擬似ドキュメントのセットはリストにまとめられ、順位付けされる。しかしながら、ドキュメント・クエリ、擬似ドキュメント、および/もしくは、基本クエリを用いて擬似ドキュメントのセットを検索して取り出すと、擬似ドキュメントによって示される順位付け機能を多くの手段で使用してもよい。実施形態のいくつかにおいて、擬似ドキュメントを生成するために使用された基本クエリはクエリ示唆、クエリ拡張などとして(たとえば、擬似ドキュメント・セットの上位10個の擬似ドキュメントの基本クエリを形成するために使用されたターム・リストをユーザに提供することによって、)使用される。実施形態のいくつかにおいて、擬似ドキュメントを生成するために使用された基本クエリは、ひき続いて、新しい擬似ドキュメント・セットを検索して取り出すために擬似ドキュメント索引に再び実行される新しいクエリを自動的に生成するために使用される。
実施形態のいくつかにおいて、結果を生成することは、擬似ドキュメントの第1セットの擬似ドキュメントの識別子のリストを、代表情報するために、生成することを含む(446)。すなわち、一つ以上のドキュメントの代表情報(たとえば、ドキュメント識別子)を含むドキュメント・クエリが擬似ドキュメント索引に実行され、擬似ドキュメント・セットが識別され、擬似ドキュメントのリストが生成される。実施形態のいくつかにおいて、該リストは、ドキュメント・クエリと擬似ドキュメントとの関連度にもとづいて順位が付与される。これによって、関連度の高い擬似ドキュメントほど、リストの最初の方に置かれる。
実施形態のいくつかにおいて、擬似ドキュメントの識別子のリストの擬似ドキュメントの各々の識別子は、擬似ドキュメントの各々を生成するために使用された基本クエリにもとづく(448)。したがって、実施形態のいくつかにおいて、表示するために擬似ドキュメントの識別子のリストを生成することは、受信したドキュメント・クエリに関連する検索クエリ(たとえば、そのドキュメント識別子が検索クエリの部分であるドキュメントを戻した検索クエリ)のリストを生成することを含む。たとえば、DOCID−1を含むドキュメント・クエリは、DOCID−1に関連するドキュメント内で検出されるタームを含む基本クエリのリストを戻す。実施形態のいくつかにおいて、擬似ドキュメントの識別子のリストにおける擬似ドキュメント各々の識別子は擬似ドキュメントの各々を生成するために使用された順位付け機能にもとづく(450)。詳細を上記したように、擬似ドキュメントを生成するために使用される順位付け機能は、基本クエリの実行結果に大きな影響を与える。実施形態のいくつかにおいて、擬似ドキュメントの識別子は順位付け機能の表示を含む。したがって、擬似ドキュメントの識別子のリストは該擬似ドキュメントを生成するために使用される順位付け機能の表示も含む。たとえば、DOCID−1を含むドキュメント・クエリは、DOCID−1と関連するドキュメントを検索して取り出すために、基本クエリとともに使用された順位付け機能のリストを戻す。さらに、実施形態のいくつかにおいて、擬似ドキュメントの各々の識別子が基本クエリと順位付け機能との双方に(たとえば、図3Aに関して上記例示したように、)もとづく。実施形態のいくつかにおいて、擬似ドキュメント各々の識別子は基本クエリもしくは順位付け機能のいずれかにもとづく。
実施形態のいくつかにおいて、生成される結果は、第1のドキュメントの代表情報と関連する擬似ドキュメントの第1のセットの擬似ドキュメントの識別子の順位付けされたリストを含み、擬似ドキュメントの識別子の各々の順位は擬似ドキュメントの識別子の各々と関連する擬似ドキュメントの各々の第1のドキュメントの重要度値(もしくは、たとえば、ドキュメントIDのような第1のドキュメントの代表情報)の各々の少なくとも部分にもとづく。すなわち、ドキュメント・クエリの受信に応じて生成される擬似ドキュメントのリストは、そのドキュメント識別子がドキュメント・クエリに含まれるドキュメントの重要度にもとづいて順位付けされる。たとえば、DOCID−1を含む単一のタームドキュメント・クエリについて、擬似ドキュメントを生成するために使用された基本クエリ検索結果内のDOCID−1の位置にもとづいて、リスト内の擬似ドキュメントが順位付けされる場合、検索システム106はDOCID−1を含む擬似ドキュメントのリストを生成する。したがって、1番にランク付けされた結果としてDOCID−1が提示された結果セットを有した基本クエリから生成された第1の擬似ドキュメントの識別子は、DOCID−1が50番にランク付けされた結果として提示された結果セットを有した基本クエリによって生成された第2の擬似ドキュメントの識別子よりも、擬似ドキュメントの識別子のランク付けされたリストでより上位に置かれる。実施形態のいくつかにおいて、重要度値が擬似ドキュメント内でドキュメントが発生する頻度の代用となる場合、IDF(inverse document frequency)アプローチを用いて結果を順位付けする。すなわち、実施形態のいくつかにおいて、擬似ドキュメント識別子のリストは、詳細を上記したように、擬似ドキュメントの各々の擬似長さおよび擬似ドキュメント内のドキュメントの代表情報の各々の擬似頻度を用いて、IDF順位付けにもとづいて、順位付けされる。ドキュメントの各々が頻度を有するタームおよびドキュメント長さを有する場合に、ドキュメント・セットにIDF技術を適用する処理は、当該技術分野においてよく知られている(たとえば、非特許文献1)。したがって、その他の実施形態の記載を不必要に不明瞭にすることを避けるために、IDF分析の実行の詳細は、記載しない。
実施形態のいくつかにおいて、結果を生成することは、擬似ドキュメントの第1セットの一つ以上の擬似ドキュメントと関連する一つ以上の基本クエリのセットを識別することを含む(454)。実施形態のいくつかにおいて、基本クエリの各々は一つ以上のタームを含み、結果は基本クエリのセットからの基本クエリの各々からの一つ以上のタームを含む(456)。すなわち、実施形態のいくつかにおいて、結果は擬似ドキュメント識別子のリストではなく、検索システム106はドキュメント・クエリに応じて識別された擬似ドキュメントに関連する一つ以上の基本クエリを識別する。該識別された基本クエリは、次に、ユーザに提供されるタームに分解されてもよい。実施形態のいくつかにおいて、タームの少なくとも一つはドキュメントの代表情報である(458)。したがって、これらのタームは、その他のドキュメント・クエリに追加するためにその他のタームについての示唆としてユーザに提供されてもよい。しかしながら、実施形態のいくつかにおいて、これらのタームは、テキスト・ストリング、タイムスタンプ、位置座標、もしくは、その他の基本クエリを生成するために使用されるタームである。これらのタームは、そのドキュメント識別子がドキュメント・クエリの部分であったドキュメントの記述として働いてもよいし、ドキュメント・セットもしくはその他のドキュメント・セットの標準的なクエリで使用されるべきその他のタームについての示唆として使用されてもよい。すなわち、擬似ドキュメントのリストの代わりに、ユーザにタームを戻すことは、手動で擬似ドキュメントのコンテンツを検討することをユーザに要求せずに、ドキュメント・クエリに関連するタームについての一般化された情報をユーザに提供する。
実施形態のいくつかにおいて、検索システム106は基本クエリのセットの基本クエリの各々を再度実行する(460)。すなわち、一つ以上の擬似ドキュメントの第1のセットを識別した後、検索システム106は擬似ドキュメントの一つを生成するために使用された基本クエリの各々を識別する。一例として、検索システム106はドキュメント・クエリに応じて生成された擬似ドキュメントのリストで一番目に順位付けされた擬似ドキュメントを識別し、一番目に順位付けされた擬似ドキュメントを生成するために使用された基本クエリを識別する。実施形態のいくつかにおいて、基本クエリの各々は、擬似ドキュメントの第1のセットにおいて擬似ドキュメントの各々を生成するために順位付け機能の各々とともに使用された(462)。基本クエリの各々を再度実行することは、順位付け機能の各々を用いてドキュメントの第1のセットに基本クエリを再度実行することを含む(たとえば、検索システム106は、基本クエリの各々を再度実行する場合、一番に順位付けされた擬似ドキュメントを生成するために使用されたものと同一の順位付け機能を使用する)。
基本クエリの各々を再度実行することに応じて、検索システム106は第2のドキュメント(たとえば、ドキュメント・セットに基本クエリ・セットの基本クエリの各々を再度実行することにより検索して取り出されたドキュメント)を検索して取り出す(464)。実施形態のいくつかにおいて、第2のドキュメントは第1のドキュメントとは異なる。すなわち、検索システム106は第1のドキュメントの代表情報を含むドキュメント・クエリを受信し、第1のドキュメントを検索して取り出した基本クエリを検索して取り出し、検索結果として第2のドキュメントの代表情報を生成するために基本クエリを再度実行する。結果的に、ユーザは、テキスト・タームやその他の従来の検索アプローチを用いて検索するのではなく、ドキュメントのドキュメント識別子を単に提供するだけで、あるドキュメントと類似するドキュメントを検索することができる。たとえば、ユーザが好きな歌(たとば、グレイトフル・デッドのスタジオ録音の歌)を有している場合、ユーザは該歌の識別子を使用する検索システム106にドキュメント・クエリを単に入力することによって、その他の類似する歌を検索することができ、検索システム106は該歌に関連する類似する歌、および/もしくは、ドキュメント(たとえば、グレイトフル・デッドの歌のライブ・コンサート録音、グレイトフル・デッドのその他の歌のスタジオ録音、音楽バンドAのディスコグラフィー、音楽バンドAのファン・サイト、該歌のスタジオ録音を含むアルバムのアルバム・カバー、など)を含む結果セット(たとえば、順位付けされたリスト)を出力する。
実施形態のいくつかにおいて、該結果はドキュメント・セットの第2のドキュメントの代表情報を含む中間結果である(466)。実施形態のいくつかにおいて、中間結果を生成した後、検索システム106は第2のドキュメントの代表情報を含む第2のドキュメント・クエリを実行する(468)。実施形態のいくつかにおいて、オペレーション472〜474が第2のドキュメント・クエリの実行に応じて実行される。実施形態のいくつかにおいて、検索システム106は第2のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む一つ以上の擬似ドキュメントの第2のセットを識別し(472)、一つ以上の擬似ドキュメントの第2のセットにもとづいて結果を生成する(474)。すなわち、実施形態のいくつかにおいて、検索システムはドキュメント・クエリの結果を採用し、新しいドキュメント・クエリを生成するために該結果を使用し、ひき続いて、新しいドキュメント・クエリを実行し、ユーザに新しいドキュメント・クエリの結果を提供することによって、上記の方法を繰り返す。たとえば、最初のドキュメント・クエリが音楽バンドAの歌のスタジオ録音の識別子であり、結果が音楽バンドAの歌のライブ・コンサート録音、音楽バンドAの異なる歌のスタジオ録音、音楽バンドAのディスコグラフィー、音楽バンドAのファン・ウェブサイト、該歌のスタジオ録音を含むアルバムのアルバム・カバーの識別子である場合、検索システム106はこれらのドキュメントの代表情報を含むあらゆる擬似ドキュメントを対象としてより広い検索を行う。これにより、ユーザによって入力されるドキュメント・クエリは自動的に知的に拡張され、より広い範囲の結果を提供し、しかも、その結果はユーザとの関連を損なわない。
以下に記載する例に示すように、上記の方法は従来の方法より優れた結果を一般に示す。この例について、ドキュメントの標準的なセットが、標準的な関連度フィードバック方法と(たとえば、上記擬似ドキュメント索引を用いた)クエリ・ベース索引付けとを比較するために使用される。この評価のために、TREC(Text REtrieval Conference)によって生成されたテスト用コレクションが使用される。このテスト用コレクションは、検索方法を正確に評価することができるように所定の関連度判定(すなわち、正答)を含む。第1の例において、トピック301のテスト用コレクション「国際組織犯罪(international organized crime)」が基準となる方法(たとえば、従来の関連度フィードバック・アルゴリズム)および上記クエリ・ベース索引付け方法の双方を用いて検索される。基準となる方法を用いた場合、生成される上位10個のタームは、順番に、犯罪(crime)、組織(organized)、犯罪者(criminal)、マフィア(mafia)、グループ(groups)、ダイヤモンド(dia)、ギャング(gangs)、ロシア人(russian)、中国国際放送局(cri)、武器(weapons)である。一方、(たとえば、上記擬似ドキュメント索引を用いた)クエリ・ベース索引付けによって生成された上位10個のタームは、(順番に)マフィア(mafia)、組織(organized)、犯罪(crime)、犯罪者(criminal)、強奪(extortion)、ギャング(gangs)、ボス(bosses)、売春(prostitution)、恐喝(blackmail)、ゆすり(racketeering)である。
このように、関連するドキュメントのまったく同一のテスト用コレクションから、基準となる方法および(たとえば、上記擬似ドキュメント索引を用いた)クエリ・ベース索引付けは同一の上位となるターム(すなわち、マフィア、組織、犯罪、犯罪者)を検索して取り出す。しかしながら、上記ターム以外の上位タームとして、基準となる方法はロシアや武器取引に関連するタームを取り出し、一方、(たとえば、上記擬似ドキュメント索引を用いた)クエリ・ベース索引付けアプローチは売春、強奪、恐喝に関連するタームを取り出した。すなわち、(たとえば、上記擬似ドキュメント索引を用いた)クエリ・ベース索引付けアプローチはドキュメントのコレクションを検索する従来の技術と比較して、より関連度の高い結果を出力する。
詳細を上記したように、クエリとしてドキュメントを用いて、クエリを検索して取り出すいくつかの手段がある。たとえば、手動によるクエリ選択もしくは拡張のためにユーザに検索して取り出したクエリを提示してもよいし、もしくは、検索して取り出したクエリを用いて(たとえば、ブール(boolean)もしくはその他の上記クエリ論理を用いて)、より正確な自動的拡張のために複雑なドキュメント・クエリをユーザが手動で構築することができるようにしてもよい。しかしながら、例を拡張する目的のために、TRECトピック301〜450および標準的なTREC関連度判定(すなわち、「正答」の標準セット)を用いて比較を行う単純なテストが実行された。基準方法として、標準関連度フィードバック・クエリ拡張が使用された。該基準方法において、クエリが実行され、該クエリによって戻される上位k個のドキュメントが関連度について判定され、検出された任意の関連ドキュメントのもっとも特徴的なタームが重み付けされ、オリジナル・クエリに足し戻される。オリジナル・クエリは、次に、2回目の検索で使用される。基準検索方法として、特徴的ターム選択および重み付けのために(たとえば、テリヤ・オープン・ソース検索プラットフォームで実行される)KLダイバージェンス・アルゴリズムが使用された。
この基準方法は以下のように(たとえば、上記擬似ドキュメント索引を用いた)クエリ・ベース索引付与アプローチに対してテストされた。上記k個の中で関連ドキュメントが検出されたターム・ベース・クエリの各々について、まったく同一の関連ドキュメントがベスト・マッチ(BM25)・ドキュメント・クエリ擬似ドキュメント索引として使用される。(この擬似ドキュメント索引はクエリとして自動的に抽出された1グラムを用いて構築された。)これらのドキュメント・ベース・クエリの上位結果は、次に、2回目の検索のために重みとして使用されるその重要度(たとえば、未処理検索スコア)とともにオリジナル・ターム・ベース・クエリに足し戻される。
2つの条件が一貫性を保つために制御される。基準方法において、拡張と認められるために、タームは少なくとも2のドキュメント頻度を有すべきである。(たとえば、上記擬似ドキュメント索引を用いた)クエリ・ベース索引付けアプローチにおいて、まったく同一のタームが索引付けの基礎を形成するために使用される。クエリ・タームの各々は少なくとも2つのドキュメントに出現すべきである。
以下の表(たとえば、表2および表3)において、第1(左)のコラムは基準方法であり、第2のコラムは(たとえば、上記擬似ドキュメント索引を用いた)クエリ・ベース索引付けであり、第3のコラムは基準方法に対するクエリ・ベース索引付け方法の変化(%)であり、第4のコラムはTテストによって計算された統計的有意性である。*は0.05レベルでの有意性を示す。クエリID(数)行は付与された値で使用される(平均化される)トピックの数を示す。判定されるk個のドキュメントにおいて少なくとも一つの関連ドキュメントが検出されたトピックだけが比較されたので、この数は使用される総計150個のトピックよりも通常少なく、判定が深くなるほど大きくなる。Rel_ret行は検索技術の各々によって戻された関連ドキュメントの総数を示す。適合率はドキュメントの数の関数として付与される(たとえば、5個のドキュメント、10個のドキュメント、など)。最後に、平均適合率が示される。
第1の実験において、表2に例示されるように、10個の拡張タームがクエリに加えられ、ユーザは関連度について上位10個のドキュメントを判定したと仮定する。この実験において、標準的TREC関連度判定セットが、ユーザの代わりに関連度を提供するために使用される。関連ドキュメントが上位10個に検出されないならば、基準方法もクエリ・ベース索引付けアプローチもそこで働く関連ドキュメントを有さないということなので、該トピックは使用されない。
Figure 2012003740
第2の実験において、10個の拡張タームだけが各方法からクエリに付加される。ユーザは関連度について上位20個のドキュメントを判定すると仮定される。該実験において、ユーザの代わりに標準TREC関連度判定セットが関連度を提供するために使用される。これは、より多くの関連情報を使用することができることを意味するが、この付加的な情報は基準方法でも(たとえば、上記擬似ドキュメント索引を用いた)新しいクエリ・ベース索引付け方法でも使用することができる。表3に例示するように、(たとえば、上記擬似ドキュメント索引を用いた)クエリ・ベース索引付け方法はより関連する結果を生成するためにこの付加的な情報を利用する点でよい。
Figure 2012003740
これらの結果は、判定されるドキュメントが10個であっても、(上記擬似ドキュメント索引を用いた)クエリ・ベース索引付けが基準方法をしのいでいることを示している。しかしながら、より多くの関連情報が使用できる場合、性能向上(および統計的有意性)はより大きく14.34%まで増加する。すなわち、平均適合率はより高くなる。
上記情報処理方法のステップは、汎用目的プロセッサもしくは用途特定チップのような情報処理装置の一つ以上の機能的モジュールで実行されてもよい。これらのモジュール、これらのモジュールの組み合わせ、および/もしくは、(たとえば、図2に関して上記したような)汎用的なハードウェアとこれらのモジュールの組み合わせはすべて本発明の保護の範囲内に含まれる。
説明のための以上の記載は、特定の実施形態に関している。しかしながら、上記例示的な議論は、本発明を網羅することも、開示された形態とおりに本発明を限定することも意図していない。多くの変更が上記開示に対して可能である。実施形態は、当業者が本発明を最適に実施することができるように、本発明の原理およびその実用的な応用を最適に説明するために選択され、記載された。様々な実施形態への様々な変更は意図される特定の使用に適する。
106 検索システム
110 基本クエリ生成手段
112 基本クエリ生成モジュール
114 重要度生成手段
116 擬似ドキュメント生成手段
120 索引検索モジュール
122 結果生成モジュール

Claims (21)

  1. 少なくとも一つのプロセッサおよびメモリを備えた検索システムが、
    ドキュメント・セットの複数の擬似ドキュメントを生成し、
    前記擬似ドキュメントの各々は、前記ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出されるドキュメント・セットの少なくとも一つのドキュメントの代表情報を含み、
    前記ドキュメント・セットの前記複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む擬似ドキュメントの索引を生成し、
    前記索引を生成した後、前記ドキュメント・セットの第1のドキュメントの代表情報を含む第1のドキュメント・クエリを受信し、
    前記第1のドキュメント・クエリの受信に応じて、
    前記第1のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第1のセットを識別し、
    少なくとも一つの擬似ドキュメントの前記第1のセットにもとづいて結果を生成する、
    検索結果生成方法。
  2. ドキュメントが、前記第1のドキュメント、および、該第1のドキュメントの代替として識別されたドキュメント、の少なくとも一方である場合、該ドキュメントは該第1のドキュメントと前記所定の関係を有する、請求項1に記載の検索結果生成方法。
  3. 少なくとも一つの擬似ドキュメントの前記第1のセットが、
    前記第1のドキュメントの代表情報を含む擬似ドキュメントと、
    前記第1のドキュメントの代替として識別された第2のドキュメントを含む擬似ドキュメントと、
    を含み、
    前記第2のドキュメントは前記第1のドキュメントとは異なる、
    請求項1に記載の検索結果生成方法。
  4. 前記第1のドキュメントは、テキスト・コンテンツ、画像コンテンツ、ビデオ・コンテンツ、音声コンテンツの少なくとも一つを含む、請求項1に記載の検索結果生成方法。
  5. 前記基本クエリの各々は前記ドキュメント・セットのドキュメントの少なくとも一つの識別可能な特徴を有する、請求項1に記載の検索結果生成方法。
  6. 前記識別可能な特徴は、ターム、ドキュメント識別子、画像固有特徴、音声固有特徴、ビデオ固有特徴、タイムスタンプ、ハイパーリンク、GPS座標、の少なくとも一つを含む、請求項5に記載の検索結果生成方法。
  7. 前記複数の擬似ドキュメントを生成する前に、前記ドキュメント・セットに複数の前記基本クエリを実行することをさらに含む、請求項1に記載の検索結果生成方法。
  8. 前記擬似ドキュメントの各々を生成することは、該擬似ドキュメントの各々の主部を生成すること、および、該擬似ドキュメントの各々の識別子を生成すること、を含む、請求項1に記載の検索結果生成方法。
  9. 前記擬似ドキュメントの各々の主部を生成することは、
    前記基本クエリにもとづいて前記ドキュメント・セットのドキュメントのスコアを生成するために順位付け機能を用いて該ドキュメント・セットに基本クエリの各々を実行し、
    前記スコアにもとづいて、前記擬似ドキュメントの各々の主部に示されるべきドキュメント・セットのドキュメントを少なくとも一つ選択し、
    選択された前記ドキュメントの各々のスコアにもとづいて、選択された該ドキュメントの各々の重要度を決定し、
    選択された前記ドキュメントの代表情報および選択された該ドキュメントの重要度にもとづいて前記擬似ドキュメントの各々の主部を生成する、
    請求項8に記載の検索結果生成方法。
  10. 前記擬似ドキュメントの各々の識別子を生成することは、前記基本クエリの代表情報と前記順位付け機能の代表情報とを結合することを含む、請求項9に記載の検索結果生成方法。
  11. 生成された前記結果は、前記第1のドキュメントの代表情報と関連付けられている擬似ドキュメントの前記第1のセットの擬似ドキュメントの識別子が順位付けされたリストを含み、
    擬似ドキュメントの前記識別子の各々の順位は、擬似ドキュメントの識別子の各々と関連付けられている擬似ドキュメントの各々の前記第1のドキュメントの重要度の各々に少なくとも部分的にもとづく、
    請求項9に記載の検索結果生成方法。
  12. 前記結果を生成することは、表示するために、擬似ドキュメントの前記第1のセットの擬似ドキュメントの識別子のリストを生成することを含む、請求項1に記載の検索結果生成方法。
  13. 擬似ドキュメントの識別子の前記リストの擬似ドキュメントの各々の識別子は、該擬似ドキュメントの各々を生成するために使用された基本クエリ、および、該擬似ドキュメントの各々を生成するために使用された順位付け機能、の少なくとも一方にもとづく、
    請求項12に記載の検索結果生成方法。
  14. 前記結果を生成することは、擬似ドキュメントの前記第1のセットの少なくとも一つの擬似ドキュメントと関連付けられている少なくとも一つの基本クエリのセットを識別する、ことを含む、請求項1に記載の検索結果生成方法。
  15. 前記基本クエリの各々は少なくとも一つのタームを含み、前記結果は基本クエリの前記セットの基本クエリの各々の少なくとも一つのタームを含む、請求項14に記載の検索結果生成方法。
  16. 前記少なくとも一つのタームはドキュメントの代表情報である、請求項15に記載の検索結果生成方法。
  17. 前記結果は、前記ドキュメント・セットへ基本クエリの前記セットの基本クエリの各々を再実行することにより検索されて取り出される第2のドキュメントの代表情報を含み、
    前記第2のドキュメントは第1のドキュメントとは異なる、
    請求項14に記載の検索結果生成方法。
  18. 前記基本クエリの各々は、擬似ドキュメントの前記第1のセットの擬似ドキュメントの各々を生成するために、順位付け機能の各々とともに使用され、
    前記基本クエリの各々を再実行することは、前記順位付け機能の各々を使用して擬似ドキュメントの前記第1のセットに前記基本クエリを再実行することを含む、
    請求項17に記載の検索結果生成方法。
  19. 前記結果は、前記ドキュメント・セットの第2のドキュメントの代表情報を含む中間結果であり、
    前記中間結果を生成した後、前記第2のドキュメントの代表情報を含む第2のドキュメント・クエリを実行し、
    前記第2のドキュメント・クエリの実行に応じて、
    前記第2のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第2のセットを識別し、
    少なくとも一つの擬似ドキュメントの前記第2のセットにもとづいて結果を生成する、
    ことをさらに含む、
    請求項1に記載の検索結果生成方法。
  20. 少なくとも一つのプロセッサと、
    メモリと、
    少なくとも一つのプログラムと、
    を備える検索システムであって、
    少なくとも一つの前記プログラムは前記メモリに記憶され、少なくとも一つの前記プロセッサによって実行されるように構成されており、
    少なくとも一つの前記プログラムは、
    ドキュメント・セットの複数の擬似ドキュメントを生成する手順であって、該擬似ドキュメントの各々は該ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出される該ドキュメント・セットの少なくとも一つのドキュメントの代表情報を含む、手順と、
    複数の前記擬似ドキュメントの索引を生成する手順であって、前記ドキュメント・セットの複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む該擬似ドキュメントの索引を生成する、手順と、
    前記索引を生成した後、前記ドキュメント・セットの第1のドキュメントの代表情報を含む第1のドキュメント・クエリを受信する手順と、
    前記第1のドキュメント・クエリの受信に応じて、
    前記第1のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第1のセットを識別する手順と、
    少なくとも一つの擬似ドキュメントの前記第1のセットにもとづいて結果を生成する手順と、
    を、前記検索システムに実行させる、
    検索システム。
  21. ドキュメント・セットの複数の擬似ドキュメントを生成する手順であって、該擬似ドキュメントの各々は該ドキュメント・セットへの基本クエリの各々の実行に応じて、検索されて取り出される該ドキュメント・セットの少なくとも一つのドキュメントの代表情報を含む、手順と、
    複数の前記擬似ドキュメントの索引を生成する手順であって、前記ドキュメント・セットの複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む該擬似ドキュメントの索引を提供する、手順と、
    前記索引を生成した後、前記ドキュメント・セットの第1のドキュメントの代表情報を含む第1のドキュメント・クエリを受信する手順と、
    前記第1のドキュメント・クエリの受信に応じて、
    前記第1のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第1のセットを識別する手順と、
    少なくとも一つの擬似ドキュメントの前記第1のセットにもとづいて結果を生成する手順と、
    を、コンピュータに実行させるための検索結果生成プログラム。
JP2010274129A 2010-06-16 2010-12-08 検索結果生成方法、検索結果生成プログラムおよび検索システム Expired - Fee Related JP5494454B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/816,943 2010-06-16
US12/816,943 US8352474B2 (en) 2010-06-16 2010-06-16 System and method for retrieving information using a query based index

Publications (2)

Publication Number Publication Date
JP2012003740A true JP2012003740A (ja) 2012-01-05
JP5494454B2 JP5494454B2 (ja) 2014-05-14

Family

ID=45329603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010274129A Expired - Fee Related JP5494454B2 (ja) 2010-06-16 2010-12-08 検索結果生成方法、検索結果生成プログラムおよび検索システム

Country Status (2)

Country Link
US (1) US8352474B2 (ja)
JP (1) JP5494454B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9147039B2 (en) * 2010-09-15 2015-09-29 Epic Systems Corporation Hybrid query system for electronic medical records
US20120150862A1 (en) * 2010-12-13 2012-06-14 Xerox Corporation System and method for augmenting an index entry with related words in a document and searching an index for related keywords
US8977625B2 (en) * 2010-12-15 2015-03-10 Microsoft Technology Licensing, Llc Inference indexing
WO2012154992A2 (en) 2011-05-10 2012-11-15 Decarta Systems and methods for performing search and retrieval of electronic documents using a big index
US9165074B2 (en) 2011-05-10 2015-10-20 Uber Technologies, Inc. Systems and methods for performing geo-search and retrieval of electronic point-of-interest records using a big index
US9864817B2 (en) * 2012-01-28 2018-01-09 Microsoft Technology Licensing, Llc Determination of relationships between collections of disparate media types
US9355140B1 (en) 2013-03-13 2016-05-31 Google Inc. Associating an entity with a search query
US9122681B2 (en) 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
US20150278358A1 (en) * 2014-04-01 2015-10-01 Microsoft Corporation Adjusting serp presentation based on query intent
US10229117B2 (en) 2015-06-19 2019-03-12 Gordon V. Cormack Systems and methods for conducting a highly autonomous technology-assisted review classification
RU2711104C2 (ru) 2017-12-27 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа
RU2693332C1 (ru) 2017-12-29 2019-07-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и компьютерное устройство для выбора текущего зависящего от контекста ответа для текущего пользовательского запроса
EP3696768B1 (en) 2019-02-12 2022-07-27 Ordnance Survey Limited Method and system for generating composite geospatial images
CN114385620A (zh) * 2020-10-19 2022-04-22 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及可读存储介质
KR20230016722A (ko) * 2021-07-26 2023-02-03 (주)제이앤피메디 임상 시험 전자 증례보고서 시스템의 연관 쿼리 표시 시스템 및 그 방법
US11989527B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11989507B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11977854B2 (en) * 2021-08-24 2024-05-07 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145790A (ja) * 2002-10-28 2004-05-20 Advanced Telecommunication Research Institute International 文書のセグメント化方法およびそのためのコンピュータプログラム
JP2006227823A (ja) * 2005-02-16 2006-08-31 Canon Inc 情報処理装置及びその制御方法
JP2008033927A (ja) * 2006-07-12 2008-02-14 Baidu.Com Inc 広告情報を検索するためのシステムおよび方法、広告情報を配信するためのシステムおよび方法、ならびに、情報が記録された機械可読媒体
JP2008529138A (ja) * 2005-01-25 2008-07-31 グーグル インク. 多重索引に基づく情報検索システム
JP2009187211A (ja) * 2008-02-05 2009-08-20 Nec Corp 情報検索システム、情報検索方法およびプログラム
JP2009217436A (ja) * 2008-03-10 2009-09-24 Nippon Telegr & Teleph Corp <Ntt> 協調的分類装置及びプログラム
JP2010170529A (ja) * 2008-10-30 2010-08-05 Nec (China) Co Ltd オブジェクト分類方法およびオブジェクト分類システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991751A (en) * 1997-06-02 1999-11-23 Smartpatents, Inc. System, method, and computer program product for patent-centric and group-oriented data processing
US20040133574A1 (en) * 2003-01-07 2004-07-08 Science Applications International Corporaton Vector space method for secure information sharing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145790A (ja) * 2002-10-28 2004-05-20 Advanced Telecommunication Research Institute International 文書のセグメント化方法およびそのためのコンピュータプログラム
JP2008529138A (ja) * 2005-01-25 2008-07-31 グーグル インク. 多重索引に基づく情報検索システム
JP2006227823A (ja) * 2005-02-16 2006-08-31 Canon Inc 情報処理装置及びその制御方法
JP2008033927A (ja) * 2006-07-12 2008-02-14 Baidu.Com Inc 広告情報を検索するためのシステムおよび方法、広告情報を配信するためのシステムおよび方法、ならびに、情報が記録された機械可読媒体
JP2009187211A (ja) * 2008-02-05 2009-08-20 Nec Corp 情報検索システム、情報検索方法およびプログラム
JP2009217436A (ja) * 2008-03-10 2009-09-24 Nippon Telegr & Teleph Corp <Ntt> 協調的分類装置及びプログラム
JP2010170529A (ja) * 2008-10-30 2010-08-05 Nec (China) Co Ltd オブジェクト分類方法およびオブジェクト分類システム

Also Published As

Publication number Publication date
JP5494454B2 (ja) 2014-05-14
US8352474B2 (en) 2013-01-08
US20110314026A1 (en) 2011-12-22

Similar Documents

Publication Publication Date Title
JP5494454B2 (ja) 検索結果生成方法、検索結果生成プログラムおよび検索システム
US8775410B2 (en) Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
Chirita et al. Summarizing local context to personalize global web search
US8090708B1 (en) Searching indexed and non-indexed resources for content
JP5513624B2 (ja) クエリの一般属性に基づく情報の検索
US20170255652A1 (en) Method for dynamically matching images with content items based on keywords in response to search queries
US7895195B2 (en) Method and apparatus for constructing a link structure between documents
AU2007324329B2 (en) Annotation index system and method
JP6299596B2 (ja) クエリ類似度評価システム、評価方法、及びプログラム
US20080162425A1 (en) Global anchor text processing
US8977625B2 (en) Inference indexing
JP2017220203A (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
WO2009086233A1 (en) Context-based document search
JP2006127529A (ja) 階層を考慮したウェブページのランク付け
US20110225163A1 (en) Assigning Tags to Digital Content
US8959093B1 (en) Ranking search results based on anchors
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US10235387B2 (en) Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
Fatima et al. New framework for semantic search engine
Davison et al. Finding Relevant Website Queries.
Zeraatkar et al. Improvement of Page Ranking Algorithm by Negative Score of Spam Pages.
Gurrin et al. Dublin City University experiments in connectivity analysis for TREC-9.
Joshi et al. An overview study of personalized web search
JP2011128669A (ja) 情報検索装置および情報検索プログラム
KR20120111215A (ko) 질의에 따른 정보 검색 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140217

R150 Certificate of patent or registration of utility model

Ref document number: 5494454

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees