JP2012003740A

JP2012003740A - 検索結果生成方法、検索結果生成プログラムおよび検索システム

Info

Publication number: JP2012003740A
Application number: JP2010274129A
Authority: JP
Inventors: Jeremy Pickens; ピケンズジェレミー; Matthew Cooper; クーパーマシュー
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2010-06-16
Filing date: 2010-12-08
Publication date: 2012-01-05
Anticipated expiration: 2030-12-08
Also published as: JP5494454B2; US8352474B2; US20110314026A1

Abstract

【課題】関連するドキュメントに類似するドキュメントを検索する。
【解決手段】
ドキュメント・セットの複数の擬似ドキュメントを生成し、擬似ドキュメントの各々は、ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出されるドキュメント・セットの少なくとも一つのドキュメントの代表情報を含み、ドキュメント・セットの複数のドキュメントの各々について該ドキュメントの各々の代表情報を含む擬似ドキュメントの索引を生成し、ドキュメント・セットの第１のドキュメントの代表情報を含む第１のドキュメント・クエリを受信し、第１のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第１のセットを識別し、少なくとも一つの擬似ドキュメントの第１のセットにもとづいて結果を生成する。
【選択図】図１

Description

本発明は、ドキュメント・セットのための情報検索に関し、詳細には、ドキュメント・セットを検索するための索引生成に関する。

利用可能な情報の増加に伴い、情報を検索するための効率的かつ正確な方法の重要性はより高まっている。ドキュメント・セットを検索するための多くのアプローチが進展しているが、これらのアプローチは一般にドキュメントの内容に直接的に依存している。一般的なアプローチの一つでは、一つ以上のターム（term: 用語を含む）にもとづいて検索クエリを実行し、該検索クエリは該タームを含むドキュメントのリストを返す。しかしながら、これらは限定されたユーティリティについてのアプローチである。なぜならば、該アプローチの結果はクエリに無関係なドキュメントを含むかもしれないし、および／または、ユーザにとって有用だが、該ユーザによって提供された特定の検索クエリにマッチしないドキュメントを含むことができないかもしれない。さらに、情報検索の従来の方法は、ユーザによって特定される関連ドキュメントと類似するドキュメントを検索するシンプルな方法を提供することができない。

ブルース・クロフト(Bruce Croft)ら、「検索エンジン：実用における情報検索(Search Engines: Information Retrieval in Practice)」、アジソン・ウェスレイ(Addison Wesley)、２００９年クラスウェル(Craswell)ら、「クリック・グラフ上のランダム・ウォーク(Random Walks on the Click Graph)」、SIGIR、オランダ、２００７年

上記に鑑みて、より効率的かつ正確に情報を検索するシステムおよび方法、および、関連するドキュメントに類似するドキュメントを検索するシステムおよび方法を提供するために、検索結果の正確さおよび関連度を向上する必要がある。

実施形態のいくつかにおいて、本発明の方法は一つ以上のプロセッサおよびメモリを有するコンピュータで実行される。コンピュータはドキュメント・セットから複数の擬似ドキュメントを生成する。擬似ドキュメントの各々には、ドキュメント・セットに対する基本クエリの各々の実行に応じて、検索されて取り出されるドキュメント・セットの一つ以上のドキュメントの代表情報が含まれる。コンピュータはこれらの複数の擬似ドキュメントの索引を生成する。この索引は、ドキュメント・セットの複数のドキュメントの各々について、各々のドキュメントの各々の代表情報を含んだ擬似ドキュメントを指し示す。索引を生成した後、コンピュータはドキュメント・セットに含まれる第１のドキュメントの代表情報を含む第１のドキュメント・クエリを受信する。コンピュータは第１のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む一つ以上の擬似ドキュメントの第１のセットを識別し、一つ以上の擬似ドキュメントの第１のセットにもとづいて検索結果を生成する。

実施形態のいくつかにおいて、検索結果には基本クエリが含まれ、追加されるべきドキュメントを検索して取り出せるようにするため、もしくは、クエリの設定、選択、フィードバックのためにユーザを支援するために、取得した基本クエリを使用することができるようにしてもよい。実施形態のいくつかにおいて、検索結果は基本クエリに関連するドキュメントを含む。実施形態のいくつかにおいて、検索結果には第１のドキュメントと関連する追加されるべきターム、および／もしくは、ドキュメントの提案を含む。多くの状況において、提案されるターム、および／もしくは、ドキュメントは、従来の情報検索アプローチを使用して検索される結果より関連度がかなり高い。したがって、クエリ・ベース索引を使用して情報を検索する本発明の方法を使用するコンピュータは、より正確な検索結果を生成する。これにより、情報を検索するための他のアプローチに付随する問題を低減するか、もしくは、取り除くことができる。本発明の方法は、情報検索のための従来の方法を補完するか、もしくは、従来の方法と置換することができる。

本発明の第１の態様は検索結果生成方法であって、少なくとも一つのプロセッサおよびメモリを備えた検索システムが、ドキュメント・セットの複数の擬似ドキュメントを生成し、前記擬似ドキュメントの各々は、前記ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出されるドキュメント・セットの少なくとも一つのドキュメントの代表情報を含み、前記ドキュメント・セットの前記複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む擬似ドキュメントの索引を生成し、前記索引を生成した後、前記ドキュメント・セットの第１のドキュメントの代表情報を含む第１のドキュメント・クエリを受信し、前記第１のドキュメント・クエリの受信に応じて、前記第１のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第１のセットを識別し、少なくとも一つの擬似ドキュメントの前記第１のセットにもとづいて結果を生成する。

本発明の第２の態様は、第１の態様の検索結果生成方法であって、ドキュメントが、前記第１のドキュメント、および、該第１のドキュメントの代替として識別されたドキュメント、の少なくとも一方である場合、該ドキュメントは該第１のドキュメントと前記所定の関係を有する。

本発明の第３の態様は、第１の態様の検索結果生成方法であって、少なくとも一つの擬似ドキュメントの前記第１のセットが、前記第１のドキュメントの代表情報を含む擬似ドキュメントと、前記第１のドキュメントの代替として識別された第２のドキュメントを含む擬似ドキュメントと、を含み、前記第２のドキュメントは前記第１のドキュメントとは異なる。

本発明の第４の態様は、第１の態様の検索結果生成方法であって、前記第１のドキュメントは、テキスト・コンテンツ、画像コンテンツ、ビデオ・コンテンツ、音声コンテンツの少なくとも一つを含む。

本発明の第５の態様は、第１の態様の検索結果生成方法であって、前記基本クエリの各々は前記ドキュメント・セットのドキュメントの少なくとも一つの識別可能な特徴を有する。

本発明の第６の態様は、第５の態様の検索結果生成方法であって、前記識別可能な特徴は、ターム、ドキュメント識別子、画像固有特徴、音声固有特徴、ビデオ固有特徴、タイムスタンプ、ハイパーリンク、ＧＰＳ座標、の少なくとも一つを含む。

本発明の第７の態様は、第１の態様の検索結果生成方法であって、前記複数の擬似ドキュメントを生成する前に、前記ドキュメント・セットに複数の前記基本クエリを実行することをさらに含む。

本発明の第８の態様は、第１の態様の検索結果生成方法であって、前記擬似ドキュメントの各々を生成することは、該擬似ドキュメントの各々の主部を生成すること、および、該擬似ドキュメントの各々の識別子を生成すること、を含む。

本発明の第９の態様は、第８の態様の検索結果生成方法であって、前記擬似ドキュメントの各々の主部を生成することは、前記基本クエリにもとづいて前記ドキュメント・セットのドキュメントのスコアを生成するために順位付け機能を用いて該ドキュメント・セットに基本クエリの各々を実行し、前記スコアにもとづいて、前記擬似ドキュメントの各々の主部に示されるべきドキュメント・セットのドキュメントを少なくとも一つ選択し、選択された前記ドキュメントの各々のスコアにもとづいて、選択された該ドキュメントの各々の重要度を決定し、選択された前記ドキュメントの代表情報および選択された該ドキュメントの重要度にもとづいて前記擬似ドキュメントの各々の主部を生成する。

本発明の第１０の態様は、第９の態様の検索結果生成方法であって、前記擬似ドキュメントの各々の識別子を生成することは、前記基本クエリの代表情報と前記順位付け機能の代表情報とを結合することを含む。

本発明の第１１の態様は、第９の態様の検索結果生成方法であって、生成された前記結果は、前記第１のドキュメントの代表情報と関連付けられている擬似ドキュメントの前記第１のセットの擬似ドキュメントの識別子が順位付けされたリストを含み、擬似ドキュメントの前記識別子の各々の順位は、擬似ドキュメントの識別子の各々と関連付けられている擬似ドキュメントの各々の前記第１のドキュメントの重要度の各々に少なくとも部分的にもとづく。

本発明の第１２の態様は、第１の態様の検索結果生成方法であって、前記結果を生成することは、表示するために、擬似ドキュメントの前記第１のセットの擬似ドキュメントの識別子のリストを生成することを含む。

本発明の第１３の態様は、第１２の態様の検索結果生成方法であって、擬似ドキュメントの識別子の前記リストの擬似ドキュメントの各々の識別子は、該擬似ドキュメントの各々を生成するために使用された基本クエリ、および、該擬似ドキュメントの各々を生成するために使用された順位付け機能、の少なくとも一方にもとづく。

本発明の第１４の態様は、第１の態様の検索結果生成方法であって、前記結果を生成することは、擬似ドキュメントの前記第１のセットの少なくとも一つの擬似ドキュメントと関連付けられている少なくとも一つの基本クエリのセットを識別する、ことを含む、請求項１に記載の検索結果生成方法。

本発明の第１５の態様は、第１４の態様の検索結果生成方法であって、前記基本クエリの各々は少なくとも一つのタームを含み、前記結果は基本クエリの前記セットの基本クエリの各々の少なくとも一つのタームを含む。

本発明の第１６の態様は、第１５の態様の検索結果生成方法であって、前記少なくとも一つのタームはドキュメントの代表情報である。

本発明の第１７の態様は、第１４の態様の検索結果生成方法であって、前記結果は、前記ドキュメント・セットへ基本クエリの前記セットの基本クエリの各々を再実行することにより検索されて取り出される第２のドキュメントの代表情報を含み、前記第２のドキュメントは第１のドキュメントとは異なる。

本発明の第１８の態様は、第１７の態様の検索結果生成方法であって、前記基本クエリの各々は、擬似ドキュメントの前記第１のセットの擬似ドキュメントの各々を生成するために、順位付け機能の各々とともに使用され、前記基本クエリの各々を再実行することは、前記順位付け機能の各々を使用して擬似ドキュメントの前記第１のセットに前記基本クエリを再実行することを含む。

本発明の第１９の態様は、第１の態様の検索結果生成方法であって、前記結果は、前記ドキュメント・セットの第２のドキュメントの代表情報を含む中間結果であり、前記中間結果を生成した後、前記第２のドキュメントの代表情報を含む第２のドキュメント・クエリを実行し、前記第２のドキュメント・クエリの実行に応じて、前記第２のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第２のセットを識別し、少なくとも一つの擬似ドキュメントの前記第２のセットにもとづいて結果を生成する、ことをさらに含む。

本発明の第２０の態様は検索システムであって、少なくとも一つのプロセッサと、メモリと、少なくとも一つのプログラムと、を備える。少なくとも一つの前記プログラムは前記メモリに記憶され、少なくとも一つの前記プロセッサによって実行されるように構成されており、少なくとも一つの前記プログラムは、ドキュメント・セットの複数の擬似ドキュメントを生成する手順であって、該擬似ドキュメントの各々は該ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出される該ドキュメント・セットの少なくとも一つのドキュメントの代表情報を含む、手順と、複数の前記擬似ドキュメントの索引を生成する手順であって、前記ドキュメント・セットの複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む該擬似ドキュメントの索引を生成する、手順と、前記索引を生成した後、前記ドキュメント・セットの第１のドキュメントの代表情報を含む第１のドキュメント・クエリを受信する手順と、前記第１のドキュメント・クエリの受信に応じて、前記第１のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第１のセットを識別する手順と、少なくとも一つの擬似ドキュメントの前記第１のセットにもとづいて結果を生成する手順と、を、前記検索システムに実行させる。

本発明の第２１の態様は検索結果生成プログラムであって、ドキュメント・セットの複数の擬似ドキュメントを生成する手順であって、該擬似ドキュメントの各々は該ドキュメント・セットへの基本クエリの各々の実行に応じて、検索されて取り出される該ドキュメント・セットの少なくとも一つのドキュメントの代表情報を含む、手順と、複数の前記擬似ドキュメントの索引を生成する手順であって、前記ドキュメント・セットの複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む該擬似ドキュメントの索引を生成する、手順と、前記索引を生成した後、前記ドキュメント・セットの第１のドキュメントの代表情報を含む第１のドキュメント・クエリを受信する手順と、前記第１のドキュメント・クエリの受信に応じて、前記第１のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第１のセットを識別する手順と、少なくとも一つの擬似ドキュメントの前記第１のセットにもとづいて結果を生成する手順と、を、コンピュータに実行させる。

本願発明によれば、本発明を使用しない場合と比べて、効率的におよび正確に情報を検索することができる。

本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索するための分散システムの外観を例示する。本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索するための検索システムを例示する。本発明の実施形態のいくつかにおける擬似ドキュメント・データベースのデータ構造を例示する。本発明の実施形態のいくつかにおける擬似ドキュメント索引のデータ構造を例示する。本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。本発明の実施形態のいくつかにおけるクエリ・ベース索引を用いて情報を検索する方法を例示するフローチャートの一部を例示する。

実施形態を添付の図に例示して説明する。図面全体にわたって同様の要素には同様の参照符号を付す。以下において、本発明の全体的な理解を容易にするために本発明を詳細に説明する。しかしながら、以下の詳細な説明は例示に過ぎず、該詳細な説明によらずに本発明を実施することもできる。さらに、実施形態の態様を不必要に不明瞭にしないために、周知の、方法、手続き、コンポーネント、回路、ネットワークについては、詳細には記述していない。

以下に、用語について説明する。
●「擬似ドキュメント」はクエリ・ベース索引付け可能オブジェクト（たとえば、順位付け機能を使用してドキュメント・セットに実行されるクエリの代表情報であるデータベースのエントリー）である。
●基本クエリは所定のクエリ・セット（たとえば、ドキュメント・セットに実行されるクエリ・セット）の中の一つのクエリである。
●擬似ドキュメント索引はクエリ・ベース索引付け可能オブジェクトの索引（たとえば、ドキュメント・セットのドキュメントを検索するクエリ／順位付け機能にドキュメントを関連付ける索引）である。
●ドキュメント・クエリは検索ターム（たとえば、擬似ドキュメント索引内を検索するための検索ターム）として少なくとも一つのドキュメントの代表情報（たとえば、ユニークなドキュメント識別子）を含むクエリである。
●擬似ドキュメント内のドキュメント代表情報の重要度値は、擬似ドキュメント内のドキュメントの重要度に対応する値（たとえば、ドキュメント・セットにクエリ／順位付け機能を実行することによって生成される結果のリスト内のドキュメントの順位）である。
●ドキュメントの代表情報はドキュメント・セット内のドキュメントを固有に特定する識別子（たとえば、ユニークなドキュメントＩＤ、ターム＋出現頻度のベクトル、ドキュメントの内容、ドキュメントの未処理ビット）である。

図１は、本発明の実施形態のいくつかによるクライアント・サーバ分散システムのインフラを例示するブロック図である。分散システムは一つ以上のクライアント・システム１０２および少なくとも一つの検索システム１０６（たとえば、索引付けおよび／または検索オペレーションを実行する一つ以上のサーバを備えるサーバ・システム）を備える。様々な構成要素が互いに通信することができるように、一つ以上の通信ネットワーク１０５（たとえば、インターネット、その他のワイド・エリア・ネットワーク、ローカル・エリア・ネットワーク、など）によって分散システムの構成要素は結合されている。

クライアント・システム１０２はクライアント・アプリケーション１０３（たとえば、ウェブ・ブラウザ）を備える。クエリを送信し、検索システム１０６から一つ以上の結果セット１０４を受信するために、ユーザはクライアント・アプリケーション１０３を使用することができる。（「クライアント・デバイス」、「クライアント・コンピュータ」と記載されることもある）クライアント・システム１０２はクエリを送信し、検索システム１０６から結果セットを受信することが可能な任意のコンピュータもしくは類似のデバイスであってよい。クライアント・デバイスは、たとえば、携帯電話などのモバイル・デバイス、ＰＤＡ(personal digital assistants)、セット・トップ・ボックスなどであってよいが、これらに限定されるものではない。結果セット１０４はドキュメントの代表情報セット（たとえば、ドキュメント識別子のリスト、ドキュメントへのリンクのリスト、ドキュメントのグループなど）を含む。本発明において、ドキュメントは、テキスト、画像、音声、ビデオなどを含む任意のドキュメントまたは任意の形式のコンテンツであってよいが、これらに限定されるものではない。

実施形態のいくつかにおいて、検索システム１０６は単一のサーバを備える。一方、他の実施形態において、検索システム１０６は複数のサーバを備える。検索システム１０６は、検索システム１０６内のオペレーションを実行するための複数のモジュールを備える。該モジュールは、基本クエリ生成手段１１０、基本クエリ検索モジュール１１２、重要度値生成手段１１４、擬似ドキュメント生成手段１１６、擬似ドキュメント索引生成手段１１８、検索インタフェース・モジュール（フロント・エンド・サーバ）１１９、索引検索モジュール１２０、および／もしくは、結果生成モジュール１２２の少なくとも一つを含む。これらのモジュールはローカル・エリア・ネットワーク(LAN)によって相互に接続されており、共通インタフェース（たとえば、一つ以上のウェブ・サーバ（フロント・エンド・サーバとも記載される））によってクライアント・システム１０２と情報を交換する。これらのモジュールが検索システム１０６内の複数のサーバに分散される実施形態のいくつかにおいては、該複数のサーバはローカル・エリア・ネットワーク(LAN)もしくはその他の通信ネットワークによって相互に接続されている。検索システム１０６は、索引生成や索引検索などの検索システム内のオペレーションを実行するために、検索システム１０６によって使用されるデータを記憶する複数のデータ構造を含む。該データ構造（たとえば、データベース、索引、ルックアップ・テーブルなど）はドキュメント・データベース１２４、順位付け機能データベース１２６、基本クエリ・データベース１２８、基本クエリ結果データベース１３０、擬似ドキュメント・データベース１３２、および／もしくは、擬似ドキュメント索引１３４の少なくとも一つを含む。

実施形態のいくつかにおいて、基本クエリ生成手段１１０は基本クエリ・データベース１２８に記憶される基本クエリを生成する。これらの実施形態のいくつかにおいて、基本クエリ検索モジュール１１２は、ドキュメント・データベース１２４のドキュメント・セットに検索オペレーションを実行するために、基本クエリ・データベース１２８の基本クエリおよび順位付け機能データベース１２６の一つ以上の順位付け機能を使用する。実施形態のいくつかにおいて、基本クエリ検索モジュール１１２は（たとえば、検索システムのデータベースもしくはキャッシュに記憶される）基本クエリ結果１３０を生成する。実施形態のいくつかにおいて、基本クエリ結果１３０は重要度値生成手段１１４によって受信され、擬似ドキュメント生成手段１１６は基本クエリ結果１３０および該基本クエリ結果のドキュメントの重要度値データを受信し、該データを使用して擬似ドキュメントを生成する。これらの実施形態のいくつかにおいて、擬似ドキュメントは擬似ドキュメント・データベース１３２に記憶されてもよい。擬似ドキュメント索引１３４を生成するために、擬似ドキュメント索引生成手段１１８は擬似ドキュメント・データベース１３２の擬似ドキュメントに索引を付ける。

実施形態のいくつかにおいて、検索システム１０６は検索クエリを受信する。実施形態のいくつかにおいて、検索クエリはクライアント１０２から受信される（たとえば、検索クエリはクライアント１０２のクライアント・アプリケーション１０３に入力される）。実施形態のいくつかにおいて、検索クエリは検索システム１０６のユーザ・インタフェースから受信される。実施形態のいくつかにおいて、検索クエリは検索インタフェース・モジュール１１９によって受信され、検索システム１０６内の索引検索モジュール１２０に送信される。索引検索モジュール１２０は擬似ドキュメント索引１３４で受信した検索クエリを実行し、結果生成モジュール１２２に実行した検索クエリの結果を送信する。実施形態のいくつかにおいて、結果はクライアント１０２に直接送信され、クライアント・アプリケーション１０３によってクライアントの表示端末上で表示するために処理される。実施形態のいくつかにおいて、結果生成モジュール１２２は表示のために結果を処理する（たとえば、ユーザに表示するために順位付けした擬似ドキュメント識別子のリストを生成する）。結果生成モジュール１２２によって処理された結果は検索インタフェース・モジュール１１９に送信される。実施形態のいくつかにおいて、検索インタフェース・モジュール１１９は検索システム１０６で結果を表示する。実施形態のいくつかにおいて、検索インタフェース・モジュール１１９は、クライアント１０２における表示のために、通信ネットワーク１０５を通じて、クライアント１０２に結果を送信する。実施形態のいくつかにおいて、検索インタフェース・モジュール１１９は結果にもとづいて新しい検索クエリを生成し、さらに処理するために、索引検索モジュール１２０に結果を戻すべく送信する。

図２は、以下に示す方法を実行する計算処理装置としての検索システム１０６の実施形態を示す。該検索システム１０６は、一つ以上の処理ユニット（ＣＰＵ）２０２、一つ以上のネットワークもしくはその他の通信のインタフェース２０４、メモリ２０６、および、これらの構成要素を相互に接続するための一つ以上の通信バス２０８を含む。通信バス２０８は、システムの構成要素間を相互に接続し制御する回路（チップセットと記載されることもある）を含んでもよい。検索システム１０６はユーザ・インタフェース２１０を含んでもよいが、これは必須ではない。実施形態のいくつかにおいて、ユーザ・インタフェース２１０は、表示手段２１２および／もしくはキーボード／マウス２１４を含むが、その他の構成のユーザ・インタフェース手段が使用されてもよい。検索システム１０６のメモリ２０６は高速ランダム・アクセス・メモリを備えてもよいし、不揮発性メモリ（たとえば、一つ以上の磁気記憶ディスクもしくは光記憶ディスク、フラッシュ・メモリ・デバイス、その他の不揮発性ソリッド・ステート・ストレージ・デバイスなど）であってもよい。高速ランダム・アクセス・メモリはＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、もしくは、その他のランダム・アクセス・ソリッド・ステート・メモリ・デバイスなどのメモリ・デバイスであってもよい。メモリ２０６はＣＰＵ２０２と離隔して配置される大容量記憶手段を含んでもよいが、大容量記憶手段は必須ではない。メモリ２０６（もしくは、代替的に該メモリ２０６内の不揮発性メモリ・デバイス）は、コンピュータ可読記憶媒体を含んでもよい。メモリ２０６もしくは該メモリ２０６内のコンピュータ可読記憶媒体は、以下の要素、もしくは、該要素のサブセットを記憶し、さらに、その他の要素を含んでもよい。
●様々な基本システム・サービスを処理し、ハードウェア依存タスクを実行するための手続きを含むオペレーティング・システム２１６
●検索システム１０６を他の計算処理装置へ一つ以上の通信（ネットワーク・）インタフェース２０４および一つ以上の通信ネットワーク（たとえば、インターネット、その他のワイド・エリア・ネットワーク、ローカル・エリア・ネットワーク、メトロポリタン・エリア・ネットワークなど）によって接続するために使用されるネットワーク通信モジュール（もしくは命令）２１８
●以下の少なくとも一つを含むアプリケーション２２０
＊擬似ドキュメントを生成する際に使用されるべき基本クエリを生成するための基本クエリ生成手段１１０
＊生成した基本クエリをドキュメント・セットに実行するための基本クエリ検索モジュール１１２
＊基本クエリの結果内のドキュメントの関連度にもとづいて、基本クエリのドキュメントの重要度値を生成するための重要度値生成手段１１４
＊基本クエリ検索結果および生成した重要度値を使用して擬似ドキュメントを生成するための擬似ドキュメント生成手段１１６
＊擬似ドキュメントの索引を生成するための擬似ドキュメント・索引生成手段１１８
＊擬似ドキュメント索引１３４へ渡される検索クエリを受信するための検索インタフェース・モジュール１１９
＊擬似ドキュメント索引１３４に受信した検索クエリを実行するための索引検索モジュール１２０
＊索引検索モジュール１２０によって生成される結果を処理し、表示のために該結果をさらに処理する結果生成モジュール１２２
●以下の少なくとも一つを含むデータ２２２
＊一つ以上のドキュメント・セットを記憶するためのドキュメント・データベース１２４
＊基本クエリを実行する際に、基本クエリ検索モジュール１１２によって使用されるべき、および／もしくは、擬似ドキュメント索引１３４に検索クエリを実行する際に、索引検索モジュール１２０によって使用されるべき、順位付け機能を記憶するための順位付け機能データベース１２６
＊基本クエリ（たとえば、基本クエリ生成手段１１０によって生成された基本クエリ）を記憶するための基本クエリ・データベース１２８
＊ドキュメント・セットに基本クエリを実行する基本クエリ検索モジュール１１２によって生成される結果を記憶するための基本クエリ結果データベース１３０
＊擬似ドキュメント生成手段１１６によって生成される擬似ドキュメントを記憶するための擬似ドキュメント・データベース１３２（図３Ａを参照して以下で詳細に議論する）
＊擬似ドキュメント生成手段１１６によって生成される擬似ドキュメントに索引を付けるための擬似ドキュメント索引１３４（図３Ｂを参照して以下で詳細に議論する）
＊オペレーションもしくは処理のいずれかを実行するために必要な情報を一時的に記憶するキャッシュ２２４

上記した図２の要素の各々は、一つ以上の上記メモリ・デバイスに記憶されていてもよい。上記モジュールの各々は上記機能を実行するための命令セットに対応する。上記モジュールもしくはプログラム（すなわち、命令セット）は別個のソフトウェア・プログラム、手続き、もしくはモジュールとして実装される必要はないし、該モジュールの様々なサブセットは組み合わせられてもよいし、様々な実施の形態において再構成されてもよい。実施形態のいくつかにおいて、メモリ２０６は上記モジュールおよびデータ構造を記憶してもよい。さらに、メモリ２０６は上記以外のモジュールおよびデータ構造を記憶してもよい。さらに、検索システム１０６は単一の計算処理装置として実装されるものとして記述されているが、検索システム１０６の実施形態は相互に接続された複数の計算処理装置として実装されてもよく、様々な上記機能、モジュールおよびデータは相互に接続されている複数の計算処理装置に分割されていてもよい。

図３Ａは、実施形態のいくつかにおける擬似ドキュメント・データベースのデータ構造を例示するブロック図である。実施形態のいくつかにおいて、擬似ドキュメント・データベース１３２は複数の擬似ドキュメントのエントリ(entry)を有する。エントリの各々は擬似ドキュメント識別子３０２および擬似ドキュメントの主部３０４を有する。実施形態のいくつかにおいて、擬似識別子３０２の各々は、擬似ドキュメントの主部３０４を生成するために使用された検索クエリ（たとえば、基本クエリ）３０６および／もしくは順位付け機能３０８にもとづいて生成される。たとえば、擬似ドキュメント１は、擬似ドキュメントの主部３０４−１を生成するために使用された検索クエリ３０６−１および順位付け機能３０８−１の代表情報を含む擬似ドキュメント識別子３０２−１を有する。さらに、実施形態のいくつかでは、他の擬似ドキュメント識別と同一の順位付け機能３０８もしくは同一の検索クエリ３０６にもとづいて、複数の擬似ドキュメント識別子３０２が生成されてもよい。しかしながら、これらの実施形態において、２つの擬似ドキュメント識別子が同一の検索クエリかつ同一の順位付け機能を用いて生成されることはない（たとえば、検索クエリおよび順位付け機能の組み合わせは固有の擬似ドキュメントを識別する）。実施形態のいくつかにおいて、擬似ドキュメントの主部（たとえば、擬似ドキュメント２の主部３０４−２）は複数のドキュメントの代表情報（ＤＯＣ１ＩＤ３１０−１）および関連する重要度値（たとえば、ＤＯＣ１重要度値３１２−１）を含む。実施形態のいくつかにおいて、ドキュメント重要度値の各々は、順位付け機能の各々を使用して、ドキュメント・セットに実行された基本クエリの各々にドキュメントの各々が関連する度合いを示している。これらの実施形態において、たとえ同一のドキュメントであったとしても、擬似ドキュメントを生成するために異なる検索クエリもしくは順位付け機能が使用されるならば、ドキュメント重要度値は通常異なることになる。

図３Ｂは、実施形態のいくつかの擬似ドキュメント索引のデータ構造を例示するブロック図である。実施形態のいくつかにおいて、擬似ドキュメント索引１３４はドキュメント・セットの一つ以上のドキュメントのエントリを含む。該エントリは、ドキュメント識別子の各々を含む擬似ドキュメントのリスト３１４とドキュメント識別子３１０とを関連付ける。たとえば、ドキュメント３について、ドキュメント３の代表情報（たとえば、ＤＯＣ３ＩＤ３１０−３）は、ドキュメント３の代表情報を含む擬似ドキュメントのリスト（たとえば、図３Ｂの３１４−３）と関連付けられている。該索引を使用することによって、ドキュメント・クエリに含まれたドキュメントの代表情報（たとえば、ドキュメント識別子）のいずれかを含む擬似ドキュメントのいずれかを迅速に識別することができ、検索システム１０６はドキュメント・クエリを実行することができる。たとえば、ドキュメント・クエリがドキュメント３の代表情報（たとえば、ＤＯＣ３ＩＤ３１０−３）を含むならば、検索システム１０６は、擬似ドキュメント１、擬似ドキュメント４、擬似ドキュメント９および擬似ドキュメントＹを決定するために擬似ドキュメント索引１３４を使用する。擬似ドキュメント１、擬似ドキュメント４、擬似ドキュメント９および擬似ドキュメントＹの各々はドキュメント３の代表情報を含む（たとえば、該擬似ドキュメントの各々のクエリ／順位付け機能の組み合わせがドキュメント・セットからドキュメント３の代表情報を取り出す）。

図４Ａ〜図４Ｆは、クエリ・ベース索引（たとえば、図１、図２および図３Ｂの擬似ドキュメント索引１３４）を用いて情報を取り出す方法４００を示す。

以下に記載する検索システムはドキュメント・セットにオペレーションを実行する。検索システムは複数のドキュメント・セットを記憶してもよいし、複数のドキュメント・セットに並行してオペレーションを実行してもよい。しかしながら、記述される実施形態のその他の態様を不必要に不明瞭にしないために、以下の実施形態では原則として単一のドキュメント・セットについて記載する。実施形態のいくつかでは、ドキュメントの各々がドキュメントの代表情報と関連付けられている（たとえば、ドキュメントの各々がユニークな識別子を与えられている）。実施形態のいくつかにおいて、ドキュメントの代表情報は割り当てられている（たとえば、ドキュメント識別子は数値の順番で割り当てられている、もしくは、タイムスタンプにもとづいて割り当てられている）。実施形態のいくつかにおいて、ドキュメントの代表情報はドキュメントの内容にもとづいて生成される（たとえば、ドキュメント識別子の各々はユニークなドキュメント・ハッシュもしくはドキュメント名である）。

実施形態のいくつかにおいて、検索システム１０６は複数の基本クエリを取得する（４０２）。実施形態のいくつかにおいて、基本クエリは検索システム１０６で受信され、図１および図２に示される基本クエリ・データベース１２８に記憶される。実施形態のいくつかにおいて、基本クエリは手動で生成される（たとえば、ユーザは基本クエリを手動で生成する）。実施形態のいくつかにおいて、基本クエリは自動的に（たとえば、図１および図２の基本クエリ生成手段１１０によって）生成される。自動的に生成される基本クエリの一例として、基本クエリはドキュメント・セットで発見されるすべてのシングルトン（ユニーク）・テキスト・ストリング、ドキュメント・セットで発見されるすべてのバイグラム（たとえば、２つの連続的なテキスト・ストリングを含むユニット）、ドキュメント・セットで発見されるすべてのトリグラム（たとえば、３つの連続的なテキスト・ストリングを含むユニット）、ドキュメント・セットで発見されるすべてのｎグラム（たとえば、ｎ個の連続的なテキスト・ストリングを含むユニット、ｎは任意の整数）、コレクションにおけるすべてのメタデータ特徴のセット（たとえば、ドキュメントの地理的な位置、生成日時、最終アクセス日時、など）、および／もしくは、テキスト・ストリングおよびメタデータの連結(conjunctions)および分離(disjunctions)（たとえば、地理的な位置と組み合わせられているシングルトン・テキスト・ストリング）を含んでもよい。他の例として、基本クエリ・セットはドキュメント・セットに以前に実行されたクエリから生成されてもよい（たとえば、既存のユーザ・ログから取り出された検索クエリから生成されてもよい）。さらに、基本クエリのログから基本クエリが生成される場合、結果選択データ（たとえば、結果がハイパーリンクのリストであるクリックスルー（広告などのリンクをクリックすることによってリンク先のページにジャンプした回数）統計）が基本クエリとドキュメント各々との関連性を判断するために使用されてもよい。すなわち、結果選択データが、どのドキュメントがもっとも基本クエリの各々に関連するか、を判断するために、順位付け機能による検索結果内のドキュメントの順位付けに加えて、もしくは、該順位付けに代えて、使用されてもよい。

実施形態のいくつかにおいて、基本クエリの各々はドキュメント・セットのドキュメントの一つ以上の識別可能な特徴を含む（４０４）。実施形態のいくつかにおいて、識別可能な特徴は、用語(term)、ドキュメント識別子、画像固有特徴(image fingerprint)、音声固有特徴(audio fingerprint)、ビデオ固有特徴(video fingerprint)、タイムスタンプ、ハイパーリンク、ＧＰＳ(global positioning system)座標、の少なくとも一つを含む（４０６）。すなわち、上記例は特にテキストに関するが、ここで記述する基本クエリは他のタイプのドキュメント（画像、音声ファイル、ビデオ・ファイル、物理的オブジェクトの表示（たとえば、位置座標を使用した物理オブジェクトの表示など）など）にも適用することができる。

実施形態のいくつかにおいて、複数の擬似ドキュメントを生成する前に、検索システム１０６（たとえば、図１および図２の基本クエリ検索モジュール１１２）はドキュメント・セットに複数の基本クエリを実行する（４０８）。ドキュメント・セットに基本クエリを実行することは、順位付け機能を用いて、基本クエリとドキュメント・セットのドキュメントとの適合性を評価することを通常は含む。たとえば、テキスト・ストリングは類似のテキスト・ストリングを有するドキュメントを識別するために使用されてもよく、テキスト・ストリングはテキスト・ストリングと適合するメタデータを有する画像を識別するために使用されてもよく、画像は類似の画像を検出するために使用されてもよく、音声スニペット（音声の断片）は類似の聴覚特性を有する他の音声コンテンツを検出するために使用されてもよい。特定のタイプの結果を検索して取り出すために順位付け機能を用いてドキュメント・セットに実行されることができる基本クエリのタイプの例示的なリストを表１に示す。さらに、上記内容ベースの順位付け機能に加えて、基本クエリとドキュメントとの関連度を判断するために、結果選択データ（たとえば、ハイパーリンクのリストにおけるユーザのクリックスルー・レート）を使用することができる。

実施形態のいくつかにおいて、基本クエリのすべては単一の順位付け機能を用いて実行される。たとえば、テキスト・ドキュメント・セットについて、ＴＦ．ＩＤＦ(Term Frequency/Inverse Document Frequency)順位付け機能が、テキスト・ストリング（たとえば、ログの内よく使用される１００，０００個のテキスト・クエリ）を含む基本クエリ・セットとともに使用される。該クエリの各々の結果は擬似ドキュメントとして記憶される（詳細は、以下に記載する）。実施形態のいくつかにおいて、基本クエリは複数の異なる順位付け機能を用いて実行される。たとえば、混合タイプのドキュメント・セット（たとえば、テキスト・ドキュメント、画像、ビデオなどを含むドキュメント・セット）について、テキスト・クエリはＴＦ．ＩＤＦ順位付け機能および言語モデリング(Language Modeling)順位付け機能の双方を用いて実行されてもよい。一方、画像クエリはカラー・ヒストグラム順位付け機能のＥＭＤ(earth mover distance: 距離)を用いて実行される。基本クエリおよび順位付け機能の組み合わせの各々の結果は別個の擬似ドキュメントとして記憶される（詳細は、以下に記載する）。順位付け機能は、検索クエリの結果を著しく変更することができる（たとば、カラー・ヒストグラム順位付け機能は顔検出および類似度順位付け機能とはたいへん異なる）。したがって、同一の画像クエリが同一のドキュメント・セットに実行された場合であっても、第１の順位付け機能を用いて（たとえば、カラー・ヒストグラム順位付け機能を用いて）、同一の基本クエリ（たとえば、画像クエリ）を実行することは、第２の順位付け機能を用いる場合と比較して（たとえば、顔検出および類似度順位付け機能を用いる場合と比較して）、ある状況において、著しく異なる結果セットもしくは結果の著しく異なる順位を生成する。

さらに、基本クエリのタイプが戻される結果タイプを示す必要はない。たとえば、テキスト・ストリング・クエリはテキスト・ドキュメント、画像およびビデオを取り出すことができる。他の例として、画像クエリは、画像クエリに関連する同一の画像およびテキスト・ドキュメントを検索して取り出すことができる。さらに、タイムスタンプ・クエリ（たとえば、最近のタイムスタンプあるいは所定のタイムスタンプにもっとも近いタイプスタンプを有するドキュメントを検出するタイムスタンプ・クエリ）はドキュメント・セットから任意のタイプのドキュメントを含む結果を戻すことができる。

検索システム１０６はドキュメント・セットの複数の擬似ドキュメントを（たとえば、図１および図２に示される基本クエリ結果データベース１３０の基本クエリ結果データを処理することによって）生成する（４１０）。擬似ドキュメントの各々は、ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出されたドキュメント・セットの一つの以上ドキュメントの代表情報を含む。すなわち、基本クエリの各々はコレクションに個々に実行され、基本クエリの各々の結果セットは少なくとも一つの順位付け機能によって（たとえば、順位付け機能によって結果セットの各々の中でドキュメントの代表情報を順位付けすることによって）順位付けされる。しかしながら、実施形態のいくつかにおいて、単一の結果セットを生成するために、もしくは、複数の異なる結果セットを生成するために、単一の基本クエリが複数の順位付け機能を用いて実行されてもよい（たとえば、実施形態のいくつかにおいて、ユニークな基本クエリ／順位付け機能ペアの各々について一つの結果セットがある）。

擬似ドキュメントは索引付けされることができる検索結果セットの任意の代表情報であってよい。すなわち、擬似ドキュメントは、検索結果がドキュメント・ベース(per-document basis)で索引付けされることができるように、検索結果を表示する手段である。索引付け処理を単純化するために、ドキュメントとして扱われることができる検索クエリの各々および検索クエリの結果セットを表示する論理的エンティティを生成することに原則的に関して、次の例は記述される。しかしながら、異なる長所および短所を有する検索結果の他の代表情報が使用されてもよい。

実施形態のいくつかにおいて、（たとえば、擬似ドキュメントによって例示された図３Ａに関して例示的に上記されたように、）擬似ドキュメントの各々を生成することは、擬似ドキュメントの各々の主部を生成すること、および、擬似ドキュメントの各々の識別子を生成することを含む（４１２）。すなわち、実施形態のいくつかにおいて、擬似ドキュメントは、擬似ドキュメントがより容易に索引付けされることができるように、現実のドキュメントをエミュレートする形式で生成される。

実施形態のいくつかにおいて、検索システム１０６はオペレーション４１２〜４２０を実行することによって擬似ドキュメントの各々の主部を生成する。検索システム１０６（すなわち、図１および図２に示される基本クエリ検索モジュール１１２）は、基本クエリにもとづいてドキュメント・セットのドキュメントのスコアを生成するために順位付け機能を用いてドキュメント・セットに基本クエリの各々を実行する（４１４）。検索システム１０６（すなわち、図１および図２に示される擬似ドキュメント生成手段１１６）は、擬似ドキュメントの各々の主部に示されるべきドキュメント・セットの一つ以上のドキュメントを、スコアにもとづいて選択する（４１６）。検索システム１０６（すなわち、図１および図２に示される重要度値生成手段１１４）は、選択されたドキュメントの各々のスコアにもとづいて、選択されたドキュメントの各々の重要度値を決定する（４１８）。検索システム１０６（すなわち、図１および図２に示される擬似ドキュメント生成手段１１６）は、選択ドキュメントの代表情報および選択ドキュメントの重要度値にもとづいて擬似ドキュメントの各々の主部を生成する（４２０）。

すなわち、検索システム１０６は、検索クエリに関連するドキュメントのリストを生成し、順位付け機能を用いてドキュメントにスコアを付けるために、基本クエリを実行する。実施形態のいくつかにおいて、スコアはドキュメントと検索クエリとの関連度を判断するために使用される。ドキュメントの代表情報（たとえば、ドキュメント識別子）が、順位付け機能によるスコアにしたがって、擬似ドキュメントに付加される。実施形態のいくつかにおいて、順位付け機能によって生成された未処理スコアがドキュメントの代表情報の各々の重要度値として使用される。実施形態のいくつかにおいて、ドキュメントの代表情報は、順位付け機能によって生成された未処理スコアにもとづいて順位付けされ、ドキュメントの該順位がドキュメントの重要度値として使用される。ドキュメントの代表情報およびドキュメントの重要度値は擬似ドキュメントの主部を構築するために使用される。一例として、（たとえば、順位付け機能のスコアによって決定される）検索結果セットの関連度が上位１００に入るドキュメントのドキュメント識別子が擬似ドキュメントの主部に含められ、結果セット内のドキュメントの各々の順位がドキュメントのドキュメント識別子に関連付けられる重要度値としてドキュメントに含められる。その他の例として、（たとえば、順位付け機能のスコアによって決定される）検索結果セットの関連度が上位１００に入るドキュメントのドキュメント識別子が擬似ドキュメントの主部に含められ、結果セット内のドキュメントの各々のスコアがドキュメントのドキュメント識別子と関連付けられる重要度値として擬似ドキュメントに含められる。他の方法で、擬似ドキュメントの主部を構築してもよい（たとえば、ドキュメント識別子の各々がドキュメントに関連する重要度値にもとづく回数繰り返される場合に、テキスト・ドキュメントを生成する、など）。重要度値は一般にドキュメント毎に、および、検索クエリ毎に生成される（たとえば、擬似ドキュメント内のドキュメント識別子の各々は、検索結果を生成するために使用されるドキュメント、検索クエリおよび順位付け機能に特有の重要度値を有する）。

実施形態のいくつかにおいて、ドキュメントの索引付けは、ドキュメントの長さやドキュメント内のタームの出現頻度などのドキュメント特徴を判断することを必要とする。しかしながら、実施形態のいくつかによれば、擬似ドキュメントは長さおよびタームの出現頻度を有さない。したがって、上記したように、重要度値によってこれらの値を特定することが必要となる。実施形態のいくつかにおいて、（たとえば、擬似ドキュメントが実際のドキュメントをエミュレートし、該エミュレートによって索引をより容易に付けることができるように、）タームの擬似出現頻度およびドキュメントの擬似長さが重要度値にもとづいて決定される。実施形態のいくつかにおいて、擬似ドキュメント内のドキュメントの代表情報の擬似出現頻度はドキュメントの代表情報の重要度値となるように決定される。実施形態のいくつかにおいて、擬似ドキュメントの擬似長さは擬似ドキュメント内のドキュメントの代表情報のすべての重要度値の合計となるように決定される。実施形態のいくつかにおいて、擬似ドキュメントの擬似長さは擬似ドキュメントの主部に含まれるドキュメントのユニークな代表情報の数となるように決定される。

実施形態のいくつかにおいて、ドキュメントの索引付けは擬似ドキュメントのユニークな識別子を必要とする。原則として、詳細に上記されたように任意のユニークな識別子が使用されるが、実施形態のいくつかにおいて、擬似ドキュメントの各々の識別子を生成することは基本クエリの代表情報および順位付け機能の代表情報を組み合わせることを含む（４２２）。たとえば、検索クエリがターム「ｅｌｅｐｈａｎｔ」を含み、順位付け機能がＴＦ．ＩＤＦであれば、擬似ドキュメント識別子は「ｅｌｅｐｈａｎｔ＿ＴＦ．ＩＤＦ」のように検索タームと順位付け機能の名称とを単に組み合わせることによって生成される。同様に、擬似ドキュメントのすべてを生成するために単一の順位付けだけが使用されるのであれば、擬似ドキュメント識別子は検索クエリだけにもとづいてもよい（たとえば、上記の例では、擬似ドキュメント識別子は「ｅｌｅｐｈａｎｔ」であってもよい）。

実施形態のいくつかにおいて、（たとえば、図１、図２および図３Ａの擬似ドキュメント・データベース１３２に一つ以上の擬似ドキュメントを追加する、もしくは、擬似ドキュメント・データベース１３２から一つ以上の擬似ドキュメントを削除する、ことによって、）複数の擬似ドキュメントが更新される。実施形態のいくつかにおいて、複数の擬似ドキュメントがドキュメントのコレクションの変更（たとえば、ドキュメントのコレクションへのドキュメントの追加もしくはドキュメントのコレクションからのドキュメントの削除）に応じて更新される。たとえば、一つ以上の新しいドキュメントが（たとえば、図１および図２の参照符号１２４で示される）ドキュメント・データベースに追加されると、該新しいドキュメントは、基本クエリの結果を変更するかもしれない。したがって、更新された擬似ドキュメントを生成するために、ドキュメント・データベースのドキュメントに基本クエリが再び実行される。実施形態のいくつかにおいて、ドキュメントがドキュメント・データベースに追加されると、計算処理資源を節約するために、（たとえば、詳細が上記されたように、擬似ドキュメントを生成するために、ドキュメント・データベースのドキュメントに基本クエリを再び実行することによって、）擬似ドキュメントのサブセットだけが更新される。同様に、実施形態のいくつかにおいて、計算処理資源を節約するために、擬似ドキュメント（もしくは、擬似ドキュメントのサブセット）は、ドキュメント・データベースで少なくとも所定の量の変更が生じるまで（たとえば、ドキュメントの５％がドキュメント・データベースに追加されるか、および／もしくは、ドキュメント・データベースから削除されるまで）は変更されない。

実施形態のいくつかにおいて、複数の擬似ドキュメントが、基本クエリへの変更（たとえば、複数の基本クエリへの基本クエリの追加、もしくは、複数の基本クエリからの基本クエリの削除）に応じて更新される。たとえば、（たとえば、図１および図２に示される参照符号１２８で示される）基本クエリ・データベースに新しい基本クエリが追加されると、図１および図２の基本クエリ生成手段１１０によって新しい基本クエリが生成されるので、もしくは、新しい基本クエリがユーザ・ログで識別されるので、ドキュメント・データベースのドキュメントに新しい基本クエリを実行することによって、新しい擬似ドキュメントが生成される（詳細は上記した）。実施形態のいくつかにおいて、基本クエリが複数の基本クエリから除去されると、基本クエリに関連する一つ以上の擬似ドキュメントが（たとえば、図１、図２、図３Ａの参照符号１３２で示される）擬似ドキュメント・データベースおよび（たとえば、図１、図２、図３Ｂの参照符号１３４で示される）擬似ドキュメント索引から除去される。

検索システム１０６（すなわち、図１および図２の擬似ドキュメント索引生成手段１１８）は、複数の擬似ドキュメントの索引を生成する（４２３）。索引は、ドキュメント・セットの複数のドキュメントの各々について、ドキュメントの各々の代表情報を含む擬似ドキュメントの指示を提供する。すなわち、擬似ドキュメント索引はドキュメントの代表情報がドキュメントのタームに類似しているドキュメント索引に類似し、擬似ドキュメントはドキュメントに類似する。したがって、ドキュメントの代表情報の各々について（たとえば、ドキュメント識別子の各々について）、擬似ドキュメント索引はドキュメントの代表情報の各々を含む擬似ドキュメントの（たとえば、図３Ｂの例示的な擬似ドキュメント索引１３４に例示されるような、）リストを含む。

索引を生成した後、検索システム１０６はドキュメント・セットの第１のドキュメントの代表情報を含む第１のドキュメント・クエリを受信する（４２４）。ドキュメント・クエリは、検索タームとして一つ以上のドキュメントの代表情報（たとえば、ドキュメント識別子）を使用するクエリである。さらに、実施形態のいくつかにおいて、ドキュメント・クエリは、ドキュメントの代表情報ではないターム（たとえば、テキスト・ストリング、タイムスタンプ、位置座標など）を含む。

実際、ドキュメント・クエリに使用されるドキュメント・タイプに制限はない。すなわち、第１のドキュメントの代表情報はドキュメントの第１のセットにある任意のドキュメントの代表情報であってよい。実施形態のいくつかにおいて、第１のドキュメントはテキスト・コンテンツを含む（４２６）。実施形態のいくつかにおいて、第１のドキュメントは画像コンテンツを含む（４２８）。実施形態のいくつかにおいて、第１のドキュメントはビデオ・コンテンツを含む（４３０）。実施形態のいくつかにおいて、第１のドキュメントは音声コンテンツを含む（４３２）。

検索システム１０６（すなわち、図１の索引検索モジュール１２０）は、擬似ドキュメント索引にドキュメント・クエリを実行する。索引から結果を検索して取り出すために、任意の順位付け機能（たとえば、ベスト・マッチ、言語モデル、ベクトル空間モデルなどの標準的な順位付け機能）を使用して擬似ドキュメント索引にドキュメント・クエリを実行してもよい。詳細には、上記したドキュメントの特徴の多くを含む複数の擬似ドキュメントの生成およびそれに続く複数の擬似ドキュメントの索引付けによれば、ユーザは多くの異なる順位付け機能およびドキュメントに索引を付与することにより生成される標準的なドキュメント索引の検索に適用することもできる索引検索ストラテジーを使用することができる、という効果を有する。ここで記載したように、擬似ドキュメントに検索クエリを実行することに従来の検索アプローチを適用することによって従来の検索アプローチの多くを改良することができる。従来の検索アプローチの一例は、非特許文献１に記載されている。

さらに、ドキュメント・クエリは論理(boolean)であってもよく、同義語オペレータ（たとえば、SYN(cats, cat) => 「catsはcatの同義語」）および位置オペレータ（PHRASE-5(cat, dog) =>「dogから５ワード内のcat」）のような標準的なクエリ・オペレータが使用されてもよい。上記したドキュメントの特徴の多くを含む複数の擬似ドキュメントの生成およびそれに続く複数の擬似ドキュメントへの索引付けによれば、ユーザは、擬似ドキュメントを検索して取り出すために、従来のワード・ベース検索を用いて、ドキュメントを検索して取り出すために一般に使用されるクエリ・オペレータを使用することができる、という効果を有する。ドキュメント・クエリの一例は、(DOCID-1 AND DOCID-2) OR (DOCID-3 AND DOCID-4)である。これは、結果（たとえば、識別された擬似ドキュメント）が、ドキュメント１および２の双方の代表情報を含むか、もしくは、ドキュメント３および４の双方の代表情報を含むか、でなければならないことを必要とする。ドキュメント・クエリの他の例は、(DOCID-1 AND NOT DOCID-2)である。これは、結果（たとえば、識別された擬似ドキュメント）が、ドキュメント１の代表情報を含むがドキュメント２の代表情報を含まない、でなければならないことを必要とする。ドキュメント・クエリのその他の例は、SYN(DOCID-1, DOCID-2, DOCID-3) OR DOCID-4である。これは、ドキュメント１、２、もしくは、３の一つの代表情報もしくはドキュメント４の代表情報を有するドキュメントを必要とする。当該例において、ドキュメント１、２および３の代表情報は同義語として扱われる。これは順位付け機能のいくつかの結果と関係を有し、その結果、ドキュメント・クエリの結果の順位付けに影響する。ドキュメント・クエリの他の例は、PHRASE-K(DOCID-1, DOCID-2)である。これは、ドキュメント１および２の代表情報が互いのサイズＫのウィンドウ内の擬似ドキュメント内に出現しなければならない、ことを必要とする。したがって、もっとも関連度の高い擬似ドキュメントは同様の相対位置でドキュメント１および２を取り出す基本クエリから生成される擬似ドキュメントである。当該（関連度を示す）位置は高くても（たとえば、１〜５）、中間でも（たとえば、５０〜５５）、低くても（たとえば、９５〜１００）よい。

オペレーション４３６〜４６６は第１のドキュメント・クエリを受信する（４３４）ことに応じて実行される。検索システム１０６（すなわち、図１および図２の索引検索モジュール１２０）は第１のドキュメントとの所定の関係を有する少なくとも一つのドキュメントの代表情報を含む一つ以上の擬似ドキュメントの第１のセットを（たとえば、図１、図２、図３Ｂの擬似ドキュメント索引１３４を使用して、）識別する。すなわち、検索システム１０６はドキュメント・クエリに応答することができる擬似ドキュメント（たとえば、ドキュメント・クエリの一つ以上のドキュメント識別子を含む擬似ドキュメント）を識別する。実施形態のいくつかにおいて、一つ以上の擬似ドキュメントの第１のセットは擬似ドキュメントとドキュメント・クエリとの関連度にもとづいて順位付けされる。

実施形態のいくつかにおいて、ドキュメントが第１のドキュメントである場合、ドキュメントは第１のドキュメントと所定の関係を有する（４３８）。実施形態のいくつかにおいて、ドキュメントが第１のドキュメントの代替として識別されるドキュメントであれば、該ドキュメントは第１のドキュメントと所定の関係を有する（４４０）。実施形態のいくつかよれば、第１のドキュメントの代替としてドキュメントを識別することは、代替ドキュメントが第１のドキュメントの代用ドキュメントであること、もしくは、代替ドキュメントが第１のドキュメントと何らかの意味で同等であることを判断することを含む。さらに、実施形態のいくつかにおいて、第１のドキュメントの代替としてドキュメントを識別することは、代替ドキュメントが第１のドキュメントのバージョンの一つであること、もしくは、代替ドキュメントが第１のドキュメントに他の意味で関連することを判断することを含む。ドキュメントが第１のドキュメントの代替ドキュメントとして識別されると、第１のドキュメントの検索は第１のドキュメントに関連する結果および代替ドキュメントに関連する結果を検索して取り出す。一方、代替ドキュメントの検索は代替ドキュメントに関連する結果および第１のドキュメントに関連する結果を検索して取り出す。

すなわち、実施形態のいくつかにおいて、２つ以上のドキュメントの代表情報は検索システム１０６によって同義であるものとして扱われる（たとえば、ユーザが第１のドキュメントのドキュメント識別子を入力すると、検索システム１０６は第１のドキュメントが代替ドキュメントと実質的に同様であると判断し、第１のドキュメントのドキュメント識別子と（該第１のドキュメントと同義であるとして）代替ドキュメントのドキュメント識別子とを用いて検索を実行する）。実施形態のいくつかにおいて、ドキュメント・クエリは、２つ以上のドキュメントの代表情報が同義であるとして扱われるべきであることを特定する。実施形態のいくつかにおいて、ドキュメント・クエリは第１のドキュメントの識別子を含むだけであるが、検索システム１０６は自動的に第１のドキュメントの代替である一つ以上のドキュメントを識別し、第１のドキュメントの識別子および（同義であるとして）代替ドキュメントの識別子を決定する。実施形態のいくつかにおいて、検索システム１０６は、（たとえば、検索システム１０６によって、もしくは、その他のコンピュータもしくは人間によって、）予め生成された、互いに実質的に同一であるドキュメントの情報を含む、同義データベースを含む。実施形態のいくつかにおいて、検索システム１０６は、２つのドキュメントが（互いに）代替ドキュメントであるか、を判断するために、統計的手段を使用する。検索の一例として、グレイトフル・デッド(Grateful Dead)の歌のライブ・コンサートの録音のドキュメント識別子を含むドキュメント・クエリをユーザが入力する。当該例において、検索システムはグレイトフル・デッドの同じ歌ではあるがスタジオ録音であるドキュメントを識別し、コンサート録音のドキュメント識別子および（同義であるとして）スタジオ録音のドキュメント識別子を用いて、擬似ドキュメント索引に検索を実行する。当該例において、検索システム１０６はコンサート録音のドキュメント識別子、および／もしくは、スタジオ録音のドキュメント識別子を含む擬似ドキュメントを検索して取り出す。

実施形態のいくつかにおいて、一つ以上の擬似ドキュメントの第１のセットは以下を含む（４４２）。
●第１のドキュメントの代表情報を含む擬似ドキュメント
●第１のドキュメントの代替として識別された第２のドキュメントを含む擬似ドキュメント（第２のドキュメントは第１のドキュメントとは異なる）
すなわち、上記例において、検索クエリに応答可能であるとして検索システム１０６によって識別された擬似ドキュメントのセットは、グレイトフル・デッドの歌のコンサート録音のドキュメント識別子とグレイトフル・デッドの歌のスタジオ録音のドキュメント識別子との双方を含む少なくとも一つの擬似ドキュメントを含む。

検索システム１０６（すなわち、図１および図２の結果生成モジュール１２２）は一つ以上の擬似ドキュメントの第１のセットにもとづいて結果を生成する（４４４）。すなわち、検索システム１０６はドキュメント・クエリに応答できる擬似ドキュメントのセットを採用し、擬似ドキュメントを用いて結果を生成する。実施形態のいくつかにおいて、一つ以上の擬似ドキュメントの第１のセットにもとづいて結果を生成することは、ユーザに擬似ドキュメントのセットを提示することを含む。実施形態のいくつかにおいて、擬似ドキュメントのセットはリストにまとめられ、順位付けされる。しかしながら、ドキュメント・クエリ、擬似ドキュメント、および／もしくは、基本クエリを用いて擬似ドキュメントのセットを検索して取り出すと、擬似ドキュメントによって示される順位付け機能を多くの手段で使用してもよい。実施形態のいくつかにおいて、擬似ドキュメントを生成するために使用された基本クエリはクエリ示唆、クエリ拡張などとして（たとえば、擬似ドキュメント・セットの上位１０個の擬似ドキュメントの基本クエリを形成するために使用されたターム・リストをユーザに提供することによって、）使用される。実施形態のいくつかにおいて、擬似ドキュメントを生成するために使用された基本クエリは、ひき続いて、新しい擬似ドキュメント・セットを検索して取り出すために擬似ドキュメント索引に再び実行される新しいクエリを自動的に生成するために使用される。

実施形態のいくつかにおいて、結果を生成することは、擬似ドキュメントの第１セットの擬似ドキュメントの識別子のリストを、代表情報するために、生成することを含む（４４６）。すなわち、一つ以上のドキュメントの代表情報（たとえば、ドキュメント識別子）を含むドキュメント・クエリが擬似ドキュメント索引に実行され、擬似ドキュメント・セットが識別され、擬似ドキュメントのリストが生成される。実施形態のいくつかにおいて、該リストは、ドキュメント・クエリと擬似ドキュメントとの関連度にもとづいて順位が付与される。これによって、関連度の高い擬似ドキュメントほど、リストの最初の方に置かれる。

実施形態のいくつかにおいて、擬似ドキュメントの識別子のリストの擬似ドキュメントの各々の識別子は、擬似ドキュメントの各々を生成するために使用された基本クエリにもとづく（４４８）。したがって、実施形態のいくつかにおいて、表示するために擬似ドキュメントの識別子のリストを生成することは、受信したドキュメント・クエリに関連する検索クエリ（たとえば、そのドキュメント識別子が検索クエリの部分であるドキュメントを戻した検索クエリ）のリストを生成することを含む。たとえば、ＤＯＣＩＤ−１を含むドキュメント・クエリは、ＤＯＣＩＤ−１に関連するドキュメント内で検出されるタームを含む基本クエリのリストを戻す。実施形態のいくつかにおいて、擬似ドキュメントの識別子のリストにおける擬似ドキュメント各々の識別子は擬似ドキュメントの各々を生成するために使用された順位付け機能にもとづく（４５０）。詳細を上記したように、擬似ドキュメントを生成するために使用される順位付け機能は、基本クエリの実行結果に大きな影響を与える。実施形態のいくつかにおいて、擬似ドキュメントの識別子は順位付け機能の表示を含む。したがって、擬似ドキュメントの識別子のリストは該擬似ドキュメントを生成するために使用される順位付け機能の表示も含む。たとえば、ＤＯＣＩＤ−１を含むドキュメント・クエリは、ＤＯＣＩＤ−１と関連するドキュメントを検索して取り出すために、基本クエリとともに使用された順位付け機能のリストを戻す。さらに、実施形態のいくつかにおいて、擬似ドキュメントの各々の識別子が基本クエリと順位付け機能との双方に（たとえば、図３Ａに関して上記例示したように、）もとづく。実施形態のいくつかにおいて、擬似ドキュメント各々の識別子は基本クエリもしくは順位付け機能のいずれかにもとづく。

実施形態のいくつかにおいて、生成される結果は、第１のドキュメントの代表情報と関連する擬似ドキュメントの第１のセットの擬似ドキュメントの識別子の順位付けされたリストを含み、擬似ドキュメントの識別子の各々の順位は擬似ドキュメントの識別子の各々と関連する擬似ドキュメントの各々の第１のドキュメントの重要度値（もしくは、たとえば、ドキュメントＩＤのような第１のドキュメントの代表情報）の各々の少なくとも部分にもとづく。すなわち、ドキュメント・クエリの受信に応じて生成される擬似ドキュメントのリストは、そのドキュメント識別子がドキュメント・クエリに含まれるドキュメントの重要度にもとづいて順位付けされる。たとえば、ＤＯＣＩＤ−１を含む単一のタームドキュメント・クエリについて、擬似ドキュメントを生成するために使用された基本クエリ検索結果内のＤＯＣＩＤ−１の位置にもとづいて、リスト内の擬似ドキュメントが順位付けされる場合、検索システム１０６はＤＯＣＩＤ−１を含む擬似ドキュメントのリストを生成する。したがって、１番にランク付けされた結果としてＤＯＣＩＤ−１が提示された結果セットを有した基本クエリから生成された第１の擬似ドキュメントの識別子は、ＤＯＣＩＤ−１が５０番にランク付けされた結果として提示された結果セットを有した基本クエリによって生成された第２の擬似ドキュメントの識別子よりも、擬似ドキュメントの識別子のランク付けされたリストでより上位に置かれる。実施形態のいくつかにおいて、重要度値が擬似ドキュメント内でドキュメントが発生する頻度の代用となる場合、ＩＤＦ(inverse document frequency)アプローチを用いて結果を順位付けする。すなわち、実施形態のいくつかにおいて、擬似ドキュメント識別子のリストは、詳細を上記したように、擬似ドキュメントの各々の擬似長さおよび擬似ドキュメント内のドキュメントの代表情報の各々の擬似頻度を用いて、ＩＤＦ順位付けにもとづいて、順位付けされる。ドキュメントの各々が頻度を有するタームおよびドキュメント長さを有する場合に、ドキュメント・セットにＩＤＦ技術を適用する処理は、当該技術分野においてよく知られている（たとえば、非特許文献１）。したがって、その他の実施形態の記載を不必要に不明瞭にすることを避けるために、ＩＤＦ分析の実行の詳細は、記載しない。

実施形態のいくつかにおいて、結果を生成することは、擬似ドキュメントの第１セットの一つ以上の擬似ドキュメントと関連する一つ以上の基本クエリのセットを識別することを含む（４５４）。実施形態のいくつかにおいて、基本クエリの各々は一つ以上のタームを含み、結果は基本クエリのセットからの基本クエリの各々からの一つ以上のタームを含む（４５６）。すなわち、実施形態のいくつかにおいて、結果は擬似ドキュメント識別子のリストではなく、検索システム１０６はドキュメント・クエリに応じて識別された擬似ドキュメントに関連する一つ以上の基本クエリを識別する。該識別された基本クエリは、次に、ユーザに提供されるタームに分解されてもよい。実施形態のいくつかにおいて、タームの少なくとも一つはドキュメントの代表情報である（４５８）。したがって、これらのタームは、その他のドキュメント・クエリに追加するためにその他のタームについての示唆としてユーザに提供されてもよい。しかしながら、実施形態のいくつかにおいて、これらのタームは、テキスト・ストリング、タイムスタンプ、位置座標、もしくは、その他の基本クエリを生成するために使用されるタームである。これらのタームは、そのドキュメント識別子がドキュメント・クエリの部分であったドキュメントの記述として働いてもよいし、ドキュメント・セットもしくはその他のドキュメント・セットの標準的なクエリで使用されるべきその他のタームについての示唆として使用されてもよい。すなわち、擬似ドキュメントのリストの代わりに、ユーザにタームを戻すことは、手動で擬似ドキュメントのコンテンツを検討することをユーザに要求せずに、ドキュメント・クエリに関連するタームについての一般化された情報をユーザに提供する。

実施形態のいくつかにおいて、検索システム１０６は基本クエリのセットの基本クエリの各々を再度実行する（４６０）。すなわち、一つ以上の擬似ドキュメントの第１のセットを識別した後、検索システム１０６は擬似ドキュメントの一つを生成するために使用された基本クエリの各々を識別する。一例として、検索システム１０６はドキュメント・クエリに応じて生成された擬似ドキュメントのリストで一番目に順位付けされた擬似ドキュメントを識別し、一番目に順位付けされた擬似ドキュメントを生成するために使用された基本クエリを識別する。実施形態のいくつかにおいて、基本クエリの各々は、擬似ドキュメントの第１のセットにおいて擬似ドキュメントの各々を生成するために順位付け機能の各々とともに使用された（４６２）。基本クエリの各々を再度実行することは、順位付け機能の各々を用いてドキュメントの第１のセットに基本クエリを再度実行することを含む（たとえば、検索システム１０６は、基本クエリの各々を再度実行する場合、一番に順位付けされた擬似ドキュメントを生成するために使用されたものと同一の順位付け機能を使用する）。

基本クエリの各々を再度実行することに応じて、検索システム１０６は第２のドキュメント（たとえば、ドキュメント・セットに基本クエリ・セットの基本クエリの各々を再度実行することにより検索して取り出されたドキュメント）を検索して取り出す（４６４）。実施形態のいくつかにおいて、第２のドキュメントは第１のドキュメントとは異なる。すなわち、検索システム１０６は第１のドキュメントの代表情報を含むドキュメント・クエリを受信し、第１のドキュメントを検索して取り出した基本クエリを検索して取り出し、検索結果として第２のドキュメントの代表情報を生成するために基本クエリを再度実行する。結果的に、ユーザは、テキスト・タームやその他の従来の検索アプローチを用いて検索するのではなく、ドキュメントのドキュメント識別子を単に提供するだけで、あるドキュメントと類似するドキュメントを検索することができる。たとえば、ユーザが好きな歌（たとば、グレイトフル・デッドのスタジオ録音の歌）を有している場合、ユーザは該歌の識別子を使用する検索システム１０６にドキュメント・クエリを単に入力することによって、その他の類似する歌を検索することができ、検索システム１０６は該歌に関連する類似する歌、および／もしくは、ドキュメント（たとえば、グレイトフル・デッドの歌のライブ・コンサート録音、グレイトフル・デッドのその他の歌のスタジオ録音、音楽バンドＡのディスコグラフィー、音楽バンドＡのファン・サイト、該歌のスタジオ録音を含むアルバムのアルバム・カバー、など）を含む結果セット（たとえば、順位付けされたリスト）を出力する。

実施形態のいくつかにおいて、該結果はドキュメント・セットの第２のドキュメントの代表情報を含む中間結果である（４６６）。実施形態のいくつかにおいて、中間結果を生成した後、検索システム１０６は第２のドキュメントの代表情報を含む第２のドキュメント・クエリを実行する（４６８）。実施形態のいくつかにおいて、オペレーション４７２〜４７４が第２のドキュメント・クエリの実行に応じて実行される。実施形態のいくつかにおいて、検索システム１０６は第２のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む一つ以上の擬似ドキュメントの第２のセットを識別し（４７２）、一つ以上の擬似ドキュメントの第２のセットにもとづいて結果を生成する（４７４）。すなわち、実施形態のいくつかにおいて、検索システムはドキュメント・クエリの結果を採用し、新しいドキュメント・クエリを生成するために該結果を使用し、ひき続いて、新しいドキュメント・クエリを実行し、ユーザに新しいドキュメント・クエリの結果を提供することによって、上記の方法を繰り返す。たとえば、最初のドキュメント・クエリが音楽バンドＡの歌のスタジオ録音の識別子であり、結果が音楽バンドＡの歌のライブ・コンサート録音、音楽バンドＡの異なる歌のスタジオ録音、音楽バンドＡのディスコグラフィー、音楽バンドＡのファン・ウェブサイト、該歌のスタジオ録音を含むアルバムのアルバム・カバーの識別子である場合、検索システム１０６はこれらのドキュメントの代表情報を含むあらゆる擬似ドキュメントを対象としてより広い検索を行う。これにより、ユーザによって入力されるドキュメント・クエリは自動的に知的に拡張され、より広い範囲の結果を提供し、しかも、その結果はユーザとの関連を損なわない。

以下に記載する例に示すように、上記の方法は従来の方法より優れた結果を一般に示す。この例について、ドキュメントの標準的なセットが、標準的な関連度フィードバック方法と（たとえば、上記擬似ドキュメント索引を用いた）クエリ・ベース索引付けとを比較するために使用される。この評価のために、ＴＲＥＣ(Text REtrieval Conference)によって生成されたテスト用コレクションが使用される。このテスト用コレクションは、検索方法を正確に評価することができるように所定の関連度判定（すなわち、正答）を含む。第１の例において、トピック３０１のテスト用コレクション「国際組織犯罪(international organized crime)」が基準となる方法（たとえば、従来の関連度フィードバック・アルゴリズム）および上記クエリ・ベース索引付け方法の双方を用いて検索される。基準となる方法を用いた場合、生成される上位１０個のタームは、順番に、犯罪(crime)、組織(organized)、犯罪者(criminal)、マフィア(mafia)、グループ(groups)、ダイヤモンド(dia)、ギャング(gangs)、ロシア人（russian）、中国国際放送局(cri)、武器(weapons)である。一方、（たとえば、上記擬似ドキュメント索引を用いた）クエリ・ベース索引付けによって生成された上位１０個のタームは、（順番に）マフィア(mafia)、組織(organized)、犯罪(crime)、犯罪者(criminal)、強奪(extortion)、ギャング(gangs)、ボス(bosses)、売春(prostitution)、恐喝(blackmail)、ゆすり(racketeering)である。

このように、関連するドキュメントのまったく同一のテスト用コレクションから、基準となる方法および（たとえば、上記擬似ドキュメント索引を用いた）クエリ・ベース索引付けは同一の上位となるターム（すなわち、マフィア、組織、犯罪、犯罪者）を検索して取り出す。しかしながら、上記ターム以外の上位タームとして、基準となる方法はロシアや武器取引に関連するタームを取り出し、一方、（たとえば、上記擬似ドキュメント索引を用いた）クエリ・ベース索引付けアプローチは売春、強奪、恐喝に関連するタームを取り出した。すなわち、（たとえば、上記擬似ドキュメント索引を用いた）クエリ・ベース索引付けアプローチはドキュメントのコレクションを検索する従来の技術と比較して、より関連度の高い結果を出力する。

詳細を上記したように、クエリとしてドキュメントを用いて、クエリを検索して取り出すいくつかの手段がある。たとえば、手動によるクエリ選択もしくは拡張のためにユーザに検索して取り出したクエリを提示してもよいし、もしくは、検索して取り出したクエリを用いて（たとえば、ブール(boolean)もしくはその他の上記クエリ論理を用いて）、より正確な自動的拡張のために複雑なドキュメント・クエリをユーザが手動で構築することができるようにしてもよい。しかしながら、例を拡張する目的のために、ＴＲＥＣトピック３０１〜４５０および標準的なＴＲＥＣ関連度判定（すなわち、「正答」の標準セット）を用いて比較を行う単純なテストが実行された。基準方法として、標準関連度フィードバック・クエリ拡張が使用された。該基準方法において、クエリが実行され、該クエリによって戻される上位ｋ個のドキュメントが関連度について判定され、検出された任意の関連ドキュメントのもっとも特徴的なタームが重み付けされ、オリジナル・クエリに足し戻される。オリジナル・クエリは、次に、２回目の検索で使用される。基準検索方法として、特徴的ターム選択および重み付けのために（たとえば、テリヤ・オープン・ソース検索プラットフォームで実行される）ＫＬダイバージェンス・アルゴリズムが使用された。

この基準方法は以下のように（たとえば、上記擬似ドキュメント索引を用いた）クエリ・ベース索引付与アプローチに対してテストされた。上記ｋ個の中で関連ドキュメントが検出されたターム・ベース・クエリの各々について、まったく同一の関連ドキュメントがベスト・マッチ（ＢＭ２５）・ドキュメント・クエリ擬似ドキュメント索引として使用される。（この擬似ドキュメント索引はクエリとして自動的に抽出された１グラムを用いて構築された。）これらのドキュメント・ベース・クエリの上位結果は、次に、２回目の検索のために重みとして使用されるその重要度（たとえば、未処理検索スコア）とともにオリジナル・ターム・ベース・クエリに足し戻される。

２つの条件が一貫性を保つために制御される。基準方法において、拡張と認められるために、タームは少なくとも２のドキュメント頻度を有すべきである。（たとえば、上記擬似ドキュメント索引を用いた）クエリ・ベース索引付けアプローチにおいて、まったく同一のタームが索引付けの基礎を形成するために使用される。クエリ・タームの各々は少なくとも２つのドキュメントに出現すべきである。

以下の表（たとえば、表２および表３）において、第１（左）のコラムは基準方法であり、第２のコラムは（たとえば、上記擬似ドキュメント索引を用いた）クエリ・ベース索引付けであり、第３のコラムは基準方法に対するクエリ・ベース索引付け方法の変化（％）であり、第４のコラムはＴテストによって計算された統計的有意性である。＊は０．０５レベルでの有意性を示す。クエリＩＤ（数）行は付与された値で使用される（平均化される）トピックの数を示す。判定されるｋ個のドキュメントにおいて少なくとも一つの関連ドキュメントが検出されたトピックだけが比較されたので、この数は使用される総計１５０個のトピックよりも通常少なく、判定が深くなるほど大きくなる。Ｒｅｌ＿ｒｅｔ行は検索技術の各々によって戻された関連ドキュメントの総数を示す。適合率はドキュメントの数の関数として付与される（たとえば、５個のドキュメント、１０個のドキュメント、など）。最後に、平均適合率が示される。

第１の実験において、表２に例示されるように、１０個の拡張タームがクエリに加えられ、ユーザは関連度について上位１０個のドキュメントを判定したと仮定する。この実験において、標準的ＴＲＥＣ関連度判定セットが、ユーザの代わりに関連度を提供するために使用される。関連ドキュメントが上位１０個に検出されないならば、基準方法もクエリ・ベース索引付けアプローチもそこで働く関連ドキュメントを有さないということなので、該トピックは使用されない。

第２の実験において、１０個の拡張タームだけが各方法からクエリに付加される。ユーザは関連度について上位２０個のドキュメントを判定すると仮定される。該実験において、ユーザの代わりに標準ＴＲＥＣ関連度判定セットが関連度を提供するために使用される。これは、より多くの関連情報を使用することができることを意味するが、この付加的な情報は基準方法でも（たとえば、上記擬似ドキュメント索引を用いた）新しいクエリ・ベース索引付け方法でも使用することができる。表３に例示するように、（たとえば、上記擬似ドキュメント索引を用いた）クエリ・ベース索引付け方法はより関連する結果を生成するためにこの付加的な情報を利用する点でよい。

これらの結果は、判定されるドキュメントが１０個であっても、（上記擬似ドキュメント索引を用いた）クエリ・ベース索引付けが基準方法をしのいでいることを示している。しかしながら、より多くの関連情報が使用できる場合、性能向上（および統計的有意性）はより大きく１４．３４％まで増加する。すなわち、平均適合率はより高くなる。

上記情報処理方法のステップは、汎用目的プロセッサもしくは用途特定チップのような情報処理装置の一つ以上の機能的モジュールで実行されてもよい。これらのモジュール、これらのモジュールの組み合わせ、および／もしくは、（たとえば、図２に関して上記したような）汎用的なハードウェアとこれらのモジュールの組み合わせはすべて本発明の保護の範囲内に含まれる。

説明のための以上の記載は、特定の実施形態に関している。しかしながら、上記例示的な議論は、本発明を網羅することも、開示された形態とおりに本発明を限定することも意図していない。多くの変更が上記開示に対して可能である。実施形態は、当業者が本発明を最適に実施することができるように、本発明の原理およびその実用的な応用を最適に説明するために選択され、記載された。様々な実施形態への様々な変更は意図される特定の使用に適する。

１０６検索システム
１１０基本クエリ生成手段
１１２基本クエリ生成モジュール
１１４重要度生成手段
１１６擬似ドキュメント生成手段
１２０索引検索モジュール
１２２結果生成モジュール

Claims

少なくとも一つのプロセッサおよびメモリを備えた検索システムが、
ドキュメント・セットの複数の擬似ドキュメントを生成し、
前記擬似ドキュメントの各々は、前記ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出されるドキュメント・セットの少なくとも一つのドキュメントの代表情報を含み、
前記ドキュメント・セットの前記複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む擬似ドキュメントの索引を生成し、
前記索引を生成した後、前記ドキュメント・セットの第１のドキュメントの代表情報を含む第１のドキュメント・クエリを受信し、
前記第１のドキュメント・クエリの受信に応じて、
前記第１のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第１のセットを識別し、
少なくとも一つの擬似ドキュメントの前記第１のセットにもとづいて結果を生成する、
検索結果生成方法。
ドキュメントが、前記第１のドキュメント、および、該第１のドキュメントの代替として識別されたドキュメント、の少なくとも一方である場合、該ドキュメントは該第１のドキュメントと前記所定の関係を有する、請求項１に記載の検索結果生成方法。
少なくとも一つの擬似ドキュメントの前記第１のセットが、
前記第１のドキュメントの代表情報を含む擬似ドキュメントと、
前記第１のドキュメントの代替として識別された第２のドキュメントを含む擬似ドキュメントと、
を含み、
前記第２のドキュメントは前記第１のドキュメントとは異なる、
請求項１に記載の検索結果生成方法。
前記第１のドキュメントは、テキスト・コンテンツ、画像コンテンツ、ビデオ・コンテンツ、音声コンテンツの少なくとも一つを含む、請求項１に記載の検索結果生成方法。
前記基本クエリの各々は前記ドキュメント・セットのドキュメントの少なくとも一つの識別可能な特徴を有する、請求項１に記載の検索結果生成方法。
前記識別可能な特徴は、ターム、ドキュメント識別子、画像固有特徴、音声固有特徴、ビデオ固有特徴、タイムスタンプ、ハイパーリンク、ＧＰＳ座標、の少なくとも一つを含む、請求項５に記載の検索結果生成方法。
前記複数の擬似ドキュメントを生成する前に、前記ドキュメント・セットに複数の前記基本クエリを実行することをさらに含む、請求項１に記載の検索結果生成方法。
前記擬似ドキュメントの各々を生成することは、該擬似ドキュメントの各々の主部を生成すること、および、該擬似ドキュメントの各々の識別子を生成すること、を含む、請求項１に記載の検索結果生成方法。
前記擬似ドキュメントの各々の主部を生成することは、
前記基本クエリにもとづいて前記ドキュメント・セットのドキュメントのスコアを生成するために順位付け機能を用いて該ドキュメント・セットに基本クエリの各々を実行し、
前記スコアにもとづいて、前記擬似ドキュメントの各々の主部に示されるべきドキュメント・セットのドキュメントを少なくとも一つ選択し、
選択された前記ドキュメントの各々のスコアにもとづいて、選択された該ドキュメントの各々の重要度を決定し、
選択された前記ドキュメントの代表情報および選択された該ドキュメントの重要度にもとづいて前記擬似ドキュメントの各々の主部を生成する、
請求項８に記載の検索結果生成方法。
前記擬似ドキュメントの各々の識別子を生成することは、前記基本クエリの代表情報と前記順位付け機能の代表情報とを結合することを含む、請求項９に記載の検索結果生成方法。
生成された前記結果は、前記第１のドキュメントの代表情報と関連付けられている擬似ドキュメントの前記第１のセットの擬似ドキュメントの識別子が順位付けされたリストを含み、
擬似ドキュメントの前記識別子の各々の順位は、擬似ドキュメントの識別子の各々と関連付けられている擬似ドキュメントの各々の前記第１のドキュメントの重要度の各々に少なくとも部分的にもとづく、
請求項９に記載の検索結果生成方法。
前記結果を生成することは、表示するために、擬似ドキュメントの前記第１のセットの擬似ドキュメントの識別子のリストを生成することを含む、請求項１に記載の検索結果生成方法。
擬似ドキュメントの識別子の前記リストの擬似ドキュメントの各々の識別子は、該擬似ドキュメントの各々を生成するために使用された基本クエリ、および、該擬似ドキュメントの各々を生成するために使用された順位付け機能、の少なくとも一方にもとづく、
請求項１２に記載の検索結果生成方法。
前記結果を生成することは、擬似ドキュメントの前記第１のセットの少なくとも一つの擬似ドキュメントと関連付けられている少なくとも一つの基本クエリのセットを識別する、ことを含む、請求項１に記載の検索結果生成方法。
前記基本クエリの各々は少なくとも一つのタームを含み、前記結果は基本クエリの前記セットの基本クエリの各々の少なくとも一つのタームを含む、請求項１４に記載の検索結果生成方法。
前記少なくとも一つのタームはドキュメントの代表情報である、請求項１５に記載の検索結果生成方法。
前記結果は、前記ドキュメント・セットへ基本クエリの前記セットの基本クエリの各々を再実行することにより検索されて取り出される第２のドキュメントの代表情報を含み、
前記第２のドキュメントは第１のドキュメントとは異なる、
請求項１４に記載の検索結果生成方法。
前記基本クエリの各々は、擬似ドキュメントの前記第１のセットの擬似ドキュメントの各々を生成するために、順位付け機能の各々とともに使用され、
前記基本クエリの各々を再実行することは、前記順位付け機能の各々を使用して擬似ドキュメントの前記第１のセットに前記基本クエリを再実行することを含む、
請求項１７に記載の検索結果生成方法。
前記結果は、前記ドキュメント・セットの第２のドキュメントの代表情報を含む中間結果であり、
前記中間結果を生成した後、前記第２のドキュメントの代表情報を含む第２のドキュメント・クエリを実行し、
前記第２のドキュメント・クエリの実行に応じて、
前記第２のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第２のセットを識別し、
少なくとも一つの擬似ドキュメントの前記第２のセットにもとづいて結果を生成する、
ことをさらに含む、
請求項１に記載の検索結果生成方法。
少なくとも一つのプロセッサと、
メモリと、
少なくとも一つのプログラムと、
を備える検索システムであって、
少なくとも一つの前記プログラムは前記メモリに記憶され、少なくとも一つの前記プロセッサによって実行されるように構成されており、
少なくとも一つの前記プログラムは、
ドキュメント・セットの複数の擬似ドキュメントを生成する手順であって、該擬似ドキュメントの各々は該ドキュメント・セットへの基本クエリの各々の実行に応じて検索されて取り出される該ドキュメント・セットの少なくとも一つのドキュメントの代表情報を含む、手順と、
複数の前記擬似ドキュメントの索引を生成する手順であって、前記ドキュメント・セットの複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む該擬似ドキュメントの索引を生成する、手順と、
前記索引を生成した後、前記ドキュメント・セットの第１のドキュメントの代表情報を含む第１のドキュメント・クエリを受信する手順と、
前記第１のドキュメント・クエリの受信に応じて、
前記第１のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第１のセットを識別する手順と、
少なくとも一つの擬似ドキュメントの前記第１のセットにもとづいて結果を生成する手順と、
を、前記検索システムに実行させる、
検索システム。
ドキュメント・セットの複数の擬似ドキュメントを生成する手順であって、該擬似ドキュメントの各々は該ドキュメント・セットへの基本クエリの各々の実行に応じて、検索されて取り出される該ドキュメント・セットの少なくとも一つのドキュメントの代表情報を含む、手順と、
複数の前記擬似ドキュメントの索引を生成する手順であって、前記ドキュメント・セットの複数のドキュメントの各々について、該ドキュメントの各々の代表情報を含む該擬似ドキュメントの索引を提供する、手順と、
前記索引を生成した後、前記ドキュメント・セットの第１のドキュメントの代表情報を含む第１のドキュメント・クエリを受信する手順と、
前記第１のドキュメント・クエリの受信に応じて、
前記第１のドキュメントと所定の関係を有する少なくとも一つのドキュメントの代表情報を含む少なくとも一つの擬似ドキュメントの第１のセットを識別する手順と、
少なくとも一つの擬似ドキュメントの前記第１のセットにもとづいて結果を生成する手順と、
を、コンピュータに実行させるための検索結果生成プログラム。