JP2006285982A

JP2006285982A - 検索エンジンの関連性を改良するデータマイニング技術

Info

Publication number: JP2006285982A
Application number: JP2006073363A
Authority: JP
Inventors: Zijian Zheng; チェンチーチャン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2005-03-31
Filing date: 2006-03-16
Publication date: 2006-10-19
Also published as: CN1841380A; CN1841380B; US20060224579A1; EP1708105A1; KR20060106642A

Abstract

【課題】過去の検索行動からデータの関連性を自動的に学習し、その学習を利用して将来の検索行動を助けるシステムおよび方法を提供する。
【解決手段】自動化された情報検索システムは、記憶された情報検索データを分析して、過去のユーザの情報検索行動から関連性のパターンを特定する学習コンポーネント１１０を含む。検索コンポーネントが学習コンポーネント１１０を用い、関連性パターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する。学習コンポーネント１１０に従って多数の変数が処理されて、絞り込まれ、優先順位がつけられ、関連性のある検索結果を効率的に生成することができる。
【選択図】図１

Description

本発明は、一般にはコンピュータシステムに関し、より詳細には、以前の検索結果のデータログに関連性分類技術を用いて、現在の検索エンジンの結果の品質を向上させるシステムおよび方法に関する。

ＷｏｒｌｄＷｉｄｅＷｅｂとインターネットの普及を受けて、ユーザは、大量の情報源からほぼどのような事柄に関連する情報でも入手することができる。情報を見つけるために、ユーザは一般に、情報検索の作業に各種の検索エンジンを利用する。検索エンジンは、ユーザが、特定の単語またはフレーズを含むウェブページ情報あるいはインターネット上の他の題材を見つけることを可能にする。例えば、合衆国初代大統領のジョージ・ワシントンについての情報を見つけたい場合、ユーザは、「初代大統領ジョージ・ワシントン」と入力し、検索ボタンをクリックする。すると、検索エンジンが、その著名な大統領に関する情報を含んでいるウェブページの一覧を返す。しかし、単に「ワシントン」という語を入力するなどのより一般化された検索が行われた場合は、同じ名前に関する地理的な地域や機関に関連する結果のようなより多くの結果が返される。

ウェブ上には多くの検索エンジンがある。例えば、ＡｌｌＴｈｅＷｅｂ（登録商標）、Ａｓｋｊｅｅｖｅｓ（登録商標）、Ｇｏｏｇｌｅ（登録商標）、ＨｏｔＢｏｔ（登録商標）、Ｌｙｃｏｓ（登録商標）、ＭＳＮＳｅａｒｃｈ（登録商標）、Ｔｅｏｍａ（登録商標）、Ｙａｈｏｏ（登録商標）は、多くの例のいくつかに過ぎない。これらのエンジンの大半は、ユーザがブラウズするようにトピック別に編成された独自のサイトの一覧を介するか、または、ブラウザのユーザインタフェースポータルを介して入力されるキーワード検索を行うかの少なくとも２つの情報検索方式を提供する。一般に、キーワード検索は、コンピュータの能力の及ぶ限り、指定されたどの単語およびフレーズにも関連する情報を含んでいるすべてのウェブサイトを見つける。検索エンジンサイトは、ユーザがキーワードを入力する欄と、検索を開始するために押すボタンを備える。多くの検索エンジンは、検索するキーワードを効果的に使用する方法についての参考情報を提供する。そうした参考情報は通例、無関係の情報あるいは関連のない情報が返されて情報検索プロセスをごちゃごちゃにしないようにするために、ユーザが検索語をより狭く定義することを助けるように提供される。したがって、語を手作業で絞ると、特定の情報を探す際に選別すべき何千ものサイトを受け取ることを軽減する助けとなるため、ユーザの手間を多いに省く。

現在の検索技術に伴う問題の１つは、求められる結果を短い時間で生成するために、検索語を手作業で絞り込む必要があることである。別の問題は、検索エンジンが、様々なユーザのニーズと状況に関係なく、すべてのユーザに対して同じように動作することである。そのため、２人のユーザが同じ検索クエリを入力した場合は、各ユーザの興味関心、以前の検索履歴、コンピューティングの状況、あるいは環境的な状況（所在地、使用マシン、時刻、曜日など）に関係なく同じ結果が得られる。不都合なことに、現在の検索プロセスは、ユーザの実際の情報検索の目的、あるいは求められる目的についての洞察を提供しうる上記のような他の個人別の要素を考慮せずに、検索に関して明示的な指令を受け取るように設計されている。

ウェブ上の検索エンジンからデスクトップアプリケーションのユーティリティ（ヘルプシステムなど）まで、ユーザは、関心のある事柄についての未知の情報を見つけるために絶えず情報検索システムを利用する。場合によっては、そうしたトピックは、トピックの部と下位トピックの部にあらかじめ構成されている。例えば、「Ｙａｈｏｏ（登録商標）」は、考えられるトピック（ビジネス、政府、科学等）を階層的に構成した、あらかじめ設定されたリストを提供し、ユーザは、トピックを選択し、次いでそのリスト内でさらに下位トピックを選択する。あらかじめ設定されたトピックのリストの別の例は、ヘルプトピックのリストとそれに関連する下位トピックがユーザに提供される、デスクトップパーソナルコンピュータのヘルプユーティリティで一般に見られる。このようなあらかじめ設定された階層は、状況によっては利便であるが、ユーザはしばしば、トピック構造を追うことでは見つけにくい情報、あるいはそのような規定されたリストの外側にある、かつ／またはリストに含まれない情報を検索する、あるいはそのような情報について尋ねる必要がある。そのため、ユーザが所望の情報を見つけるためにユーザが作成したクエリを指示できるように、しばしば、検索エンジンあるいは他の検索システムが用いられる。不都合な点として、ユーザは特定のクエリをどのように書く、あるいは作成すればよいか分からない場合があるので、関連のない多数のファイルが取得された時には、これはしばしばストレスとなる。その結果、多くの場合は、取得された検索結果を妥当な数のファイルに絞るために、ユーザに何度もクエリを修正させることになる。コンピュータ技術に精通していない者にとっては、これは非常に難しい可能性がある。その結果、そうした者は、必要とするものを得られない場合がある。

このジレンマの一例として、検索システムの入力クエリフィールドに単語またはフレーズを入力し、その結果、可能な候補として数千個のファイルあるいはインターネットの場合は、何百万個のウェブサイトが取得されることは珍しくない。取得された結果の多くは、共通の要素、語、あるいはフレーズを共有しているものの、対象とする事柄についてのコンテクスト上の類似性はほとんど、あるいは全くない場合があるため、取得された大量の候補を意味のあるものにするために、ユーザはしばしば、他の単語の組み合わせを試してリストをさらに絞り込む。この手法は、ユーザと、検索を行うシステムの両方にとって、不正確であり、時間がかかる。不正確であることは、ユーザが関心を持たない関連性のないファイル／サイトが何百万でなくとも何千個も取得されることに示される。大量のデータベースから可能であるが関連性のないファイルを探す際には、時間とシステムの処理速度も犠牲になる。

以下に、本発明の一部の態様の基本的な理解を提供するために本発明の要約を簡潔に述べる。この要約は、本発明の広範囲にわたる概要ではない。本発明の主要／不可欠な要素を明らかにするものでも、本発明の範囲を詳述するものでもない。その唯一の目的は、その後に述べるより詳細な説明の前置きとして、簡略化した形で本発明のいくつかの態様を示すことである。

本発明は、データマイニング技術と学習技術を用いて、情報の効率的な検索、取得、および分析を助けるシステムと方法に関する。一態様では、例えばベイズクラシファイアなどの学習コンポーネントが、複数の過去のユーザ検索行動からの情報を記憶したログからトレーニングされる。例えば、学習コンポーネントは、ログ中の黙示的または明示的なデータを分析することにより、ログ中の返された特定の結果が、ユーザにとってより関連性があるかないかを特定することができ、そのようなデータは、検索結果または結果のサブセットの関連性あるいは品質を示す。特定の一例では、返された検索結果のセットを考慮して、ユーザが特定のタイプの結果に滞在した（より多くの時間を費やしたなど）ことは、最初の検索クエリの性質を考慮して他のタイプの結果よりも高い関連性を示すものと判断することができ。継時的に過去の検索行動から学習コンポーネントがトレーニングされ、検索エンジンとともにランタイムクラシファイアとして用いられて、ユーザからエンジンに提出されたクエリから、最も関連性の高い結果をフィルタリングまたは特定することができる。このようにして、ユーザにとってより関連性が高いと思われる結果を自動的に分類することにより、ユーザが所望の情報を見つけるための時間を短縮することによって情報検索プロセスを向上させることができる。

各種の分析技術を用いて学習コンポーネントをトレーニングし、将来の情報検索プロセスを容易にすることができる。これは、ユーザが実際にある結果を選択した回数を分析して、所与のクエリに照らしたその結果の関連性を特定することを含むことができる。関連性に関して明示的なフィードバックを提供することをユーザに要求するよりもむしろ、特定の結果が開かれた回数や、ある結果にリンクされたファイルに費やされた時間、ユーザが特定のファイルをどれだけ掘り下げたか等の黙示的な要素を要求する。このようにして、どの結果が関連性があり、どの結果が関連性がないかに関してユーザから明示的にシステムに通知させることなく、関連性が自動的に特定される。以前にうまく行かなかったクエリに逐次分析技術を利用して、将来のクエリを自動的に向上させることができる。将来のクエリをリファインし、あいまいさを解消するための他の関連性ファクタには、オペレーティングシステムのバージョン、使用アプリケーションのタイプ、ハードウェア設定などの外的なデータあるいは状況データを分析することが含まれる。これは、季節や時間の影響を受ける情報などの変数の考慮をクエリに含めて、より関連性のある結果が返されることを促進することができる。

前述の目的および関連する目的を達成するために、以下の説明と添付図面との関係で本発明の幾つかの例示的態様を説明する。これら態様は、本発明が実施されることが可能な各種方式を示し、すべて本発明に包含されるものとする。本発明の他の利点および新規の特徴は、図面と併せて以下の本発明の詳細な説明を検討することで明らかになろう。

本発明は、過去に行われた検索行動から自動的にデータの関連性を学習し、その学習を利用して将来の検索行動を助けるシステムおよび方法に関する。一態様では、自動化された情報検索システムが提供される。このシステムは、記憶された情報検索データを分析して、過去のユーザの情報検索行動から関連性のパターンを特定する学習コンポーネントを含む。検索コンポーネント（例えば検索エンジン）が、学習コンポーネントを用いて、関連性パターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する。絞り込まれ、優先順位がつけられ、関連性のある検索結果を効率的に生成するために、検索失敗データ、関連性データ、黙示的なデータ、システムデータ、アプリケーションデータ、ハードウェアデータ、時間に固有の情報などの状況データ等を含む多数の変数が、学習コンポーネントに従って処理される。

本願で使用される用語「コンポーネント」「システム」「エンジン」「クエリ」等は、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、実行中のソフトウェアを問わず、コンピュータに関連するエンティティを指すものとする。例えば、コンポーネントは、これらに限定しないが、プロセッサで実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および／またはコンピュータである。例示として、サーバで実行されるアプリケーションとサーバの両方がコンポーネントとなることができる。プロセスおよび／または実行のスレッドに１つまたは複数のコンポーネントが存在することができ、コンポーネントは、１台のコンピュータに局所化しても、かつ／または２台以上のコンピュータに分散してもよい。また、こうしたコンポーネントは、各種のデータ構造が記憶された各種のコンピュータ可読媒体から実行することができる。コンポーネントは、１つまたは複数のデータパケットを有する信号に従うなどして、ローカルおよび／またはリモートのプロセスを介して通信することができる（例えば１つのコンポーネントのデータがローカルシステム、分散システムで別のコンポーネントと対話する、かつ／またはインターネットなどのネットワークを通じて信号を介して他のシステムと対話する）。

初めに図１を参照すると、本発明の一態様による自動化された情報検索システム１００が示される。システム１００は、データログ１２０からトレーニングされる学習コンポーネント１１０を含む。ログ１２０のデータは、ローカルおよびリモートのデータソースから集められることができ、複数のユーザによる以前の検索データあるいは行動１３０に関連する情報を含む。トレーニングの後、学習コンポーネント１１０は検索エンジン１４０とともに用いられて、関連性結果１５０として示す将来の検索結果を容易にする、あるいは向上させる。検索エンジン１４０の初期のバージョンをデータログ１２０の供給源とすることができる。例えば、１つまたは複数の新しい検索クエリ１６０が検索エンジン１４０によって処理される。クエリ１６０は、学習コンポーネント１１０に従って修正を加えることができ、または、以前の検索データ１３０からのトレーニングに部分的に基づいて、クエリによる結果がフィルタリングされる、あるいはサブセットとして特定される。一般に、システム１００は、検索エンジンの関連性を向上させるために各種のデータマイニング技術を用いる。そうした技術には、例えば、関連性結果１５０を生成するために検索エンジン１４０とともに用いられるランタイムクラシファイア用の高品質のトレーニングデータを生成するために、学習コンポーネント１１０で関連性クラシファイアを用いることが含まれる。逐次分析を利用して、クエリ１６０と、同じセッションにおける異なるクエリの要求される結果を対応付けることができ、これには、下記でより詳細に説明するように、季節／時間に左右されるコンテンツを扱うために、ランタイムクラシファイアとクエリの対応付けでシステム１００の状況機能を用いることが含まれる。

ナイーブベイズ（Naive Bayesian）モデルなどの機械学習技術をエンドユーザの検索データログ１２０に使用して生成されるクラシファイア（例えばランタイムクラシファイア）を、情報検索（ＩＲ）コンポーネントとともに用いて、高度に関連性の高い検索エンジンを形成することができる。一態様では、関連性データは、ユーザが満足した検索結果を識別してランタイムクラシファイアをトレーニングすることにより、ログ１２０から求められる。現在、一部のシステムは、検索結果に対するすべてのクリックまたは選択をユーザに満足された検索結果として処理している。実験の結果、ユーザが実際に選択に満足しているのは、ユーザが結果を選択した時の約３分の１であることが分かっている。したがって、「満足した」クリックまたは選択についてのトレーニングが、最適化されたクラシファイアにつながる。クリックが満足されているかどうかを知るために、明示的なフィードバックをユーザに要求することができる。しかし、多くの状況では、明示的なフィードバックを提供するのはわずかな割合のユーザに過ぎない。すべてのクリックについてのフィードバックを得るために、システム１００は、明示的なフィードバックと併せてクリックを使用して、ユーザの振る舞いのデータ（例えばユーザがある結果に費やした時間、その結果からユーザがどこに移動するか、結果自体についての何らかのメタデータ等）を明示的なフィードバックに対応付ける別のクラシファイアを構築することができる。このクラシファイアは、関連性クラシファイアと呼ばれる。そして、ユーザが明示的なフィードバックを提供しなかったクリック／結果にこの関連性クラシファイアを適用してユーザの満足度を推量する。この技術は、ランタイムクラシファイアをトレーニングするための高品質のデータを提供する。

検索の際にあるクエリ１６０で満足の行く結果が得られない場合、ユーザは、そのクエリを修正し、再提出することができる。ユーザは、満足する１つの結果が返されるまで、このプロセスを繰り返すことができる。逐次分析などの各種のデータマイニング技術を用いて、ユーザの検索ログデータ１２０を分析し、うまく行かなかったクエリ（満足される結果が出なかったクエリ）を、ユーザが修正したクエリによる満足の行く結果にリンクし、それらリンクされたデータを、学習コンポーネント１１０のランタイムクラシファイアのためのトレーニングデータに含めることができる。検索サーバに新しいランタイムクラシファイアが配置されると、例えば、ユーザは、そのクラシファイアを用いていなかった従来の検索エンジン、または以前のバージョンの検索サーバ（新しいランタイムクラシファイアを配置する前）で満足できなかったクエリで満足の行く結果１５０を受け取る。

他の検討事項（considerations）には、クエリ文字列中の語だけを使用してランタイムクラシファイアをトレーニングすることが含まれる。しかし、例えば、オペレーティングシステムのバージョン、使用されたアプリケーション、プリンタがつながれているか、あるいはデジタルカメラがつながれているか等のハードウェア設定などの追加的な入力変数を含めると、クラシファイアを強化することができる。この追加情報は、ランタイムクラシファイアが潜在的なあいまいさを解決し、それにより向上した結果予測を提供することを助ける。さらに他の予測には、例えば季節／時間に影響される状況などの状況データを扱うためにクエリの対応付けを提供することが含まれる。一例では、クエリの処理段階で、語彙サービスを使用して、季節／時間に影響されるクエリを時間情報とともにバージョンに対応付ける。例えば、時期が２００５年に近い時には、「カレンダー」を「カレンダー２００５年カレンダー」に対応付ける。これは、関連性結果１５０で２００５年のカレンダーが結果一覧の一番上に現れる確率を高める。

各種の機械学習技術またはモデルを学習コンポーネント１１０によって適用して、継時的にデータログ１２０を処理できることに留意されたい。学習モデルには、ベイズネットワークやナイーブベイズクラシファイアなどのベイズ依存関係モデルを生成できるベイズ学習の使用を含む、ユーザをモデル化し、結果を判定する統計／数学的モデルとプロセス、および／または、ＳＶＭ（サポートベクトルマシン）を含む他の統計的分類の方法論など、実質的にどのようなタイプのシステムも含まれることができる。他のタイプのモデルまたはシステムには、例えばニューラルネットワークや隠れマルコフモデルがある。本発明により精緻な推論モデルを用いることができるが、他の手法も利用できることは理解されたい。例えば、より徹底的な確率的手法ではなく、決定性の仮定を用いることもできる（特定のウェブサイトにＸ量の時間にわたって滞在しないことは、規則に従ってその結果は関連性がないことを示唆する等）。このように、不確実性のもとでの推論に加えて、ステータス、所在地、状況、関心、注目などに関して論理的な決定も行うことができる。

学習モデルは、複数の異なるデータソースから状況データを収集あるいは集約するユーザイベントデータストア（図示せず）からトレーニングされる。そのようなデータソースには、ユーザのイベントデータ（例えば携帯電話、マイクロフォンで録音された音行動、ＧＰＳ（全地球測位システム）、電子カレンダー、視覚監視機器、デスクトップアクティビティ、ウェブサイトとの対話など）を記録する各種のデータ取得コンポーネントが含まれることができる。システム１００は、個人別のクエリと結果の処理に対応する方式であれば、実質的にどのような方式で実施されてもよいことに留意されたい。例えば、システムは、サーバ、サーバファームとして、またはクライアントアプリケーション内に実施することができ、あるいは、検索エンジン１４０のユーザインタフェース（図示せず）などの検索機能と対話するウェブサービスや他の自動化されたアプリケーションを含むように、より一般化することができる。

図２に、本発明の一態様による例示的な情報検索最適化プロセス２００を示す。説明を簡潔にするために、この方法論は、行為の連続あるいはいくつかの行為として図示および説明するが、本発明は行為の順序によって限定されず、一部の行為は、本発明により、ここで図示し、説明する順序と異なる順序で行っても、他の行為と同時に行ってもよいことを理解されたい。例えば、当業者は、方法論は、これに代えて、状態図などのように、相互に関連する状態あるいはイベントの連続として表してもよいことを理解されよう。さらに、本発明による方法論を実施するために図示されるすべての行為が必要とは限らない。

図２の２１０に進むと、１つまたは複数のデータログから過去の情報検索行動データが分析される。このデータは、ローカルのデータソース、インターネットサイトなどのリモートのデータソース、またはデータソースの組み合わせから分析される。２２０で、データログから１つまたは複数のクラシファイアがトレーニングされる。このクラシファイアは、ユーザ（またはシステム）の応答を観察しながら時間をかけてトレーニングされるか、または、いくらか前の時点に蓄積または集約されているデータに適用される。２３０で、トレーニングされたクラシファイアが、１つまたは複数の検索エンジンまたはツールに関連付けられるか、または組み込まれる。この検索エンジンまたはツールには、ローカルのデスクトップ検索機能（ヘルプツールなど）や従来のウェブサイトエンジンなどのリモートの検索エンジンが含まれることができ、また、所与のアプリケーション内で検索機能を提供するなど、アプリケーションに固有に用いられることもできる。

２４０で、ユーザまたはシステムによって提出された新しいクエリが、検索ツールとともに動作するトレーニングされたクラシファイアを有する検索ツールによって分析される。この分析は、アプリケーションデータ、ハードウェアデータ、時間データ、季節データ、カレンダーデータ、システムデータ、ファイルメタデータなどの各種の状況ソースを分析して個々のクエリをさらにリファインして、関連性検索結果を生成することを含むことができる。２５０で、トレーニングされたクラシファイアおよび／または状況データの検討から特定された検索結果のサブセットが生成され、ユーザに提供される。これは、要求される場合はユーザインタフェースを介して出力表示を生成することを含むことができる。理解できるように、本発明により生成された関連性結果は、さらに分析されることができ（クラシファイアにさらなるトレーニングを提供するなど）、したがって、トレーニングあるいは関連性をリファインするための入れ子構造の機会として働くことができる。

図３〜８は、本発明によるクラシファイアの構築とトレーニングの詳細な例に関連する。図３および４はランタイムクラシファイアの構築とスキーマの検討事項に関連し、図５〜８はクラシファイアのモデル化ツールと検討事項に関連する。但し、本発明は、図示し、説明されるこれら特定の例に限定されず、他の実施も可能であることは理解されたい。

図３を参照すると、本発明の一態様による関連性クラシファイアの検討事項（relevance classifier considerations）３００が示される。関連性クラシファイア３００を使用して、システムとのユーザ対話（滞在時間（dwell times）や終了のタイプなど）や状況設定情報（エントリポイント、アプリケーション、ソフトウェア設定、ハードウェア設定など）を含むユーザの黙示的なフィードバックを利用することにより、検索資産に対するユーザの満足度（明示的なフィードバックなど）を予測することができる。何らかの黙示的なフィードバック情報がファクタに変換されて、関連性クラシファイア３００の生成を助ける。例えば、関連性クラシファイアへの入力は、ユーザの黙示的なフィードバックであり、出力は、ユーザが対話した結果（資産）に対するユーザの満足度である。

関連性クラシファイア３００をトレーニングするために、結果レベルで、黙示的なフィードバックと明示的なフィードバックの両方とともにデータのセットが用いられる（データセットの各項目が検索の結果に相当する）（１回の検索セッションにおけるユーザからの結果との複数回の対話、またはユーザのブラウジングからある資産への移動にリンクできる）。そして、例えば結果に対する明示的なフィードバックが得られない時に、クラシファイアを使用して、黙示的なフィードバックを使用した結果に対するユーザの明示的なフィードバックを推量する。一事例では関連性クラシファイア３００に決定木学習（desicion tree learning）を用いることができるが、他のタイプの学習も可能である。

３１０で、関連性クラシファイア３００を構築し、使用するコンポーネントが次のように説明される。

１．アプリケーションを用いて、関連性クラシファイアをトレーニングおよびテストするための結果署名データのファイルを作成する。
２．トレーニングセットとテストセットに決定木学習ツールを使用して、関連性クラシファイアをトレーニングおよびテストする。
３．テスト結果が満足の行くものである場合、システムに決定木クラシファイアをロードし、そのクラシファイアを使用して検索結果に対するユーザの満足度を推量する。決定木クラシファイアは、ファイルまたはデータベースに保存することができる。
４．テスト結果が満足の行かないものである場合、それを引き起こした問題（以下に限定しないがトレーニングセット／テストセットのサイズが小さすぎる、目標分布に偏りがある、新しい関連性ファクタを定義する必要がある等の理由）を調べ、必要な場合は、問題を調べた後にプロセスを繰り返す。

３２０に、関連性クラシファイアをデータベースに保存する場合には、関連性クラシファイアを処理するためのスキーマの検討事項が示される。例えば、生成された関連性クラシファイア３００は、データベース中のテーブルにロードされ、クラシファイアＩＤ（一意のＩＤ）、ＧＵＩＤ、クラシファイア名、説明、ステータス（アクティブまたは非アクティブ）、範囲（ソフトウェアバージョンなど）、他のバージョン情報、トレーニングセットのサイズ、クラシファイア（ＸＭＬストリング）などのスキーマ属性をとることができる。別のテーブルが、ＵｓｅｄＲｅｌｅｖａｎｃｅＦａｃｔｏｒＩＤ（一意のＩＤ）、クラシファイアＩＤ、ＦａｃｔｏｒＴｙｐｅＩＤを含む、クラシファイアによって使用されるファクタを記憶するユーザ関連性ファクタを保持することができる。

図４に、本発明の一態様による関連性トレーニングセットの検討事項４００を示す。関連性クラシファイアの生成を助けるために、上記のデータログからトレーニングセットまたはテストセットを作成するツールが提供される。４１０で、２つのデータファイルと１つのメタデータファイルとして出力データが生成される。例えば、各データファイルは、各結果（または資産との対話）についての１つの行と、各ファクタと明示的なフィードバックについての１つの列を含む。ファクタ値は、「，」または他の記号で区切ることができる。メタデータファイルは、一般に、各行につき、各ファクタと、ある者との明示的なフィードバックについての情報を含む。４２０で、トレーニングセットとテストセットのデータソースは、上記のデータログである。システムは、どのデータ項目がトレーニング用で、どの項目がテスト用であるかを判定する内蔵ロジックを有することができる。４３０で、クラシファイアを構築するパラメータが指定される。このパラメータには、トレーニング／テストセットとメタデータファイルを生成するために文字列で指定されたファイル名；データの開始点を定義する開始日；データの終了点を定義する終了日；サーバ名；データセットが作成されることが可能なエントリポイントが含まれうる。

図５に、本発明の一態様によるランタイムクラシファイアの作成処理５００を示す。一般には、以下の行為が、５００でランタイムクラシファイアを作成する際に作者によってとられることができる。５１０に進んで、カタログ名、日付の範囲、ランタイムクラシファイア名、説明（オプション）、対象バージョン、ユーザが注釈をつけたデータ、または作者が注釈をつけたデータ、またはそれら２つの組み合わせを含んでいるデータソースなどの情報を提供することにより、ランタイムクラシファイアをトレーニングする。システムは、工程の最後にランタイムクラシファイアのＩＤを返すか、エラーの場合はエラーメッセージを返す。５２０で、ランタイムクラシファイアＩＤ、および日付の範囲（デフォルト値はクラシファイアをトレーニングする時に使用した値にすべき）を提供することにより、モデルの評価（回帰テスト）を実行する。５３０で、評価レポートを読み、分析して、クラシファイアが評価に合格したかどうかを判断する。

５４０で、ランタイムクラシファイアが５３０の評価に合格しなかった場合は、それを示し、診断のために５５０に進む。合格した場合は、ランタイムクラシファイアへの満足を示す（システムが、トレーニングセット、回帰セット、内部の診断セットを組み合わせることにより、この時に公開する最終的なクラシファイアを作成する）。５４０で評価に合格しなかった場合は、５５０に進み、以下の情報を提供することによってクラシファイアを診断し、診断の報告が作成される。この情報には、ランタイムクラシファイアのＩＤが含まれる（トレーニングと同じ日付範囲をここで使用することができる）。５６０で、診断の報告を読み、トレーニングデータを変更する処置をとる。そして、５１０に戻って新しいランタイムクラシファイアを再作成する。この時にトレーニングデータを変更すべきことに留意されたい。５７０で、ランタイムクラシファイアが、配置するために検索エンジンに公開できる状態になる。５００では一部の行為を自動化できることに留意されたい。５００で、ランタイムクラシファイアとそのメタデータを、すべてのプロセスに共有されるデータベースに保存することができる。

図６に、本発明の一態様によるクラシファイアデータを混合する際の検討事項を示す。この態様では、検索エンジンのデータログから得られるユーザによって注釈がつけられたデータ６１０と、検索の作者から得られるユーザと作者によって注釈がつけられたデータ６２０を含む少なくとも２つの供給源から、クラシファイアをトレーニングするためのデータの注釈を得ることができる。一般には、これらのタイプのデータを次のように異なる組み合わせで混合することができる。

Ｗ_user ＊Ｕｓｅｒ＿ａｎｎｏｔａｔｅｄ＿ｄａｔａ ∪ Ｗ_author ＊Ａｕｔｈｏｒ＿ａｎｎｏｔａｔｅｄ＿ｄａｔａ。

Ｗ_userは、ユーザによって注釈がつけられたデータ６１０の各対に与えられる重みであり、Ｗ_authorは、作者によって注釈がつけられたデータ６２０の各対に与えられる重みである。

図７に、本発明の一態様によるクラシファイアのテストツール７００を示す。一態様では、ツール７００は、提供されたランタイムクラシファイアＩＤに基づいてデータベースからランタイムクラシファイアを抽出する。ツールは次いで、７１０で回帰データセットにテストを実行し、テスト結果の要約を生成する。要約は、上位１〜１０位の精度、上位１０位の平均ランク、テストセットの別個の未処理クエリの数、テストセットの処理された別個のクエリの数、テストセットの別個の資産の数、テストセットの処理されたクエリ／資産の別個の対の数、テストセットの合計頻度などを含むことができる。７２０で、１つまたは複数の診断テストをクラシファイアに行うことができる。ツール７００は、指定されたランタイムクラシファイアＩＤに基づいて、ランタイムクラシファイアとそれに関連するメタデータを抽出する。そして、内部の診断セットでランタイムクラシファイアが評価され、いくつかの診断結果を生成する。例えば、この診断事項には、合計イベント頻度、別個のイベントの数、別個の特徴ベクトルの数、資産の数、合計特徴数、イベントについての平均特徴数、認識された特徴の平均数、合計クエリ頻度、１つの特徴ベクトル当たりの最大、最少、および平均の資産数などが含まれる。他の診断事項７２０には、精度の予測、ランク付けの統計、資産レベルの基準、うまく行かなかったクエリの基準、クラシファイアの比較基準、予測の混乱の基準、およびトレーニングセットとテストセットの比較基準が含まれる。理解できるように、他の基準または診断の指示が提供される。

図８に、本発明の一態様による例示的なクラシファイアモデル化システム８００を示す。一般に、作者は、ツールあるいはシステム８００を用いて、８１０の関連性マートと称されるデータベースにあるクエリと資産データからランタイムクラシファイアを構築する。生成されたランタイムクラシファイアは、モデルストア８２０と称される別のデータベースに保存される。トレーニング／テストデータ分割のロジックは、関連性マート８１０に記憶される。モデルストア８２０に記憶されたランタイムクラシファイアは、回帰テストコンポーネント（図示せず）を通じて評価されることができ、評価に合格するとその後公開される。

システム８００は、ユーザインタフェース（ＵＩ）コンポーネント８４０とコマンドツール８５０が、指定されたトレーニングセットを使用してランタイムクラシファイアを構築し、生成されたモデルをモデルストア８２０に保存するためのＡＰＩ（アプリケーションプログラミングインタフェース）８３０を提供する。システム８００は、モデルビルダコンポーネント８６０内部の制御の流れおよびデータの流れと、コンポーネント８６０と他のコンポーネントの対話を示している。モデルビルダ８６０は、トレーニングデータの供給源を定義するパラメータのセットを処理し、トレーニングデータをどこからどのように抽出するかを決定する。関連性マート８１０のユーザによる注釈がつけられたクエリについては、マート８１０のデータリーダが未処理データを抽出し、イベントコンストラクタがその未処理データを、次のように、ナイーブベイズトレーナによって要求されるフォーマットのイベントに変換する：資産ＩＤ；頻度；特徴。

通例、特徴はクエリ文字列の語を含むが、他のタイプの特徴が追加される。イベントリスト８６４がナイーブベイズクラシファイアトレーナ８７０（ＳｐａｒｓｅＮＢ）に渡されてランタイムクラシファイアを生成する。データライタ８７４が、生成されたクラシファイアモデルをメタデータ情報とともにモデルストア８２０に記憶する。ＡＰＩ８３０は、データソース、可能な３つの値、ユーザが注釈をつけたクエリ、作者が注釈をつけたクエリ、またはその両方、カタログ、クラシファイアをトレーニングするためのカタログ、日付の範囲、トレーニングデータを選択するための開始日時間と終了日時間、最小限の予測の信頼性のパラメータを含む。イベントジェネレータ８８０は、データリーダ８９０からの未処理データを変換する。これには、例えば、クライアントサイドでの小文字への変換（一部の文化（cultures）のみ）とフレーズ一致、並びに、サーバサイドでの単語の区切り、ステミング（stemming）、クエリの拡大、統計的なスペルチェック、ノイズ語が含まれる。

図９を参照すると、本発明の各種態様を実施する例示的環境９１０は、コンピュータ９１２を含む。コンピュータ９１２は、処理装置９１４、システムメモリ９１６、システムバス９１８を含む。システムバス９１８は、これに限定しないがシステムメモリ９１６を含むシステム構成要素を処理装置９１４に結合する。処理装置９１４は、各種の利用可能プロセッサでよい。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャも処理装置９１４として用いることができる。

システムバス９１８は、これらに限定しないが１１ビットバス、ＩＳＡ（Industrial Standard Architecture）、ＭＳＡ（Micro-Channel Architecture）、ＥＩＳＡ（Extended ISA）、ＩＤＥ（Intelligent Drive Electronics）、ＶＬＢ（VESA Local Bus）、ＰＣＩ（Peripheral Component Interconnect）、ＵＳＢ（Universal Serial Bus）、ＡＧＰ（Advanced Graphics Port）、ＰＣＭＣＩＡ（Personal Computer Memory Card International Associationバス）、およびＳＣＳＩ（Small Computer Systems Interface）を含む各種の利用可能バスアーキテクチャを使用した、メモリバスあるいはメモリコントローラ、ペリフェラルバスあるいは外部バス、および／またはローカルバスを含む数種のバス構造のいずれでもよい。

システムメモリ９１６は、揮発性メモリ９２０と不揮発性メモリ９２２を含む。起動時などにコンピュータ９１２内の要素間の情報転送を助ける基本的ルーチンを含む基本入出力システム（ＢＩＯＳ）は、不揮発性メモリ９２２に記憶される。限定ではなく例示として、不揮発性メモリ９２２は、ＲＯＭ（読み取り専用メモリ）、ＰＲＯＭ（プログラマブルＲＯＭ）、ＥＰＲＯＭ（電気的にプログラム可能なＲＯＭ）、ＥＥＰＲＯＭ（電気的に消去可能なＲＯＭ）、またはフラッシュメモリを含むことができる。揮発性メモリ９２０は、外部キャッシュメモリとして機能するＲＡＭ（ランダムアクセスメモリ）を含む。制限ではなく例として、ＲＡＭは、ＳＲＡＭ（シンクロナスＲＡＭ）、ＤＲＡＭ（ダイナミックＲＡＭ）、ＳＤＲＡＭ（シンクロナスＤＲＡＭ）、ＤＤＲＳＤＲＡＭ（ダブルデータレートＳＤＲＡＭ）、ＥＳＤＲＡＭ（エンハンスドＳＤＲＡＭ）、ＳＬＤＲＡＭ（ＳｙｎｃｈｌｉｎｋＤＲＡＭ）、ＤＲＲＡＭ（ダイレクトＲａｍｂｕｓＲＡＭ）などの多数の形態のものを利用することができる。

コンピュータ９１２は、取り外し可能／取り外し不能な揮発性／不揮発性のコンピュータ記憶媒体も含む。図９には例えばディスク記憶装置９２４を示す。ディスク記憶装置９２４には、これらに限定しないが、磁気ディスクドライブ、フロッピー（登録商標）ディスクドライブ、テープドライブ、Ｊａｚドライブ、Ｚｉｐドライブ、ＬＳ−１００ドライブ、フラッシュメモリカード、メモリスティックのようなデバイスが含まれる。また、ディスク記憶装置９２４は、記憶媒体を独立して含んでも、これらに限定しないが、ＣＤ−ＲＯＭ（コンパクトディスクＲＯＭドライブ）、ＣＤ−Ｒドライブ（記録可能ＣＤドライブ）、ＣＤ−ＲＷドライブ（上書き可能ＣＤドライブ）、ＤＶＤ−ＲＯＭ（デジタル多用途ディスクＲＯＭドライブ）などの光ディスクドライブを含む他の記憶媒体と組み合わせて記憶媒体を含んでもよい。ディスク記憶装置９２４をシステムバス９１８に接続するのを助けるために、通例は、インタフェース９２６などの取り外し可能インタフェースまたは取り外し不能インタフェースが使用される。

図９は、ユーザと、適切な動作環境９１０に示す基本的なコンピュータリソースとの間の仲介役として機能するソフトウェアを示すことは理解されよう。そのようなソフトウェアには、オペレーティングシステム９２８が含まれる。オペレーティングシステム９２８は、ディスク記憶装置９２４に記憶することができ、コンピュータシステム９１２を制御し、システム９１２のリソースを割り当てる働きをする。システムアプリケーション９３０は、システムメモリ９１６またはディスク記憶装置９２４に記憶されたプログラムモジュール９３２とプログラムデータ９３４を通じて、オペレーティングシステム９２８によるリソース管理を利用する。本発明は、各種のオペレーティングシステムまたはオペレーティングシステムの組み合わせとともに実施できることは理解されたい。

ユーザは、入力装置９３６を通じてコンピュータ９１２にコマンドまたは情報を入力する。入力装置９３６には、これらに限定しないが、マウス、トラックボール、スタイラス、タッチパッドなどのポインティングデバイス、キーボード、マイクロフォン、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナ、ＴＶチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラなどがある。上記および他の入力装置は、インタフェースポート９３８を介してシステムバス９１８を通じて処理装置９１４に接続する。インタフェースポート９３８には、例えばシリアルポート、パラレルポート、ゲームポート、ＵＳＢ（ユニバーサルシリアルバス）がある。出力装置９４０が使用するポートの一部は、入力装置９３６と同じである。したがって、例えば、ＵＳＢポートを使用してコンピュータ９１２に入力を提供し、出力装置９４０にコンピュータ９１２からの情報を出力することができる。モニタやスピーカ、プリンタなど、出力装置９４０の中には特殊なアダプタを必要とするものがあることを示すために、出力アダプタ９４２が提供される。出力アダプタ９４２には、制限ではなく例示として、出力装置９４０とシステムバス９１８間の接続手段を提供するビデオカードおよびサウンドカードが含まれる。リモートコンピュータ９４４などの他のデバイスおよび／またはデバイスのシステムが、入力機能と出力機能の両方を備えることに留意されたい。

コンピュータ９１２は、リモートコンピュータ９４４などの１つまたは複数のリモートコンピュータとの論理接続を使用するネットワーク環境で動作することができる。リモートコンピュータ９４４は、パーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ワークステーション、マイクロプロセッサを利用した機器、ピアデバイス、あるいは他の一般的なネットワークノード等であり、通例は、コンピュータ９１２に関して上述した要素の多くまたはすべてを含む。図を簡潔にするため、リモートコンピュータ９４４にはメモリ記憶装置９４６のみを示す。リモートコンピュータ９４４はネットワークインタフェース９４８を通じて論理的にコンピュータ９１２に接続され、そして通信接続９５０を介して物理的に接続される。ネットワークインタフェース９４８は、ＬＡＮ（ローカルエリアネットワーク）とＷＡＮ（ワイドエリアネットワーク）等の通信ネットワークを包含する。ＬＡＮ技術には、ＦＤＤＩ（ファイバー分散データインタフェース）、ＣＤＤＩ（銅線分散データインタフェース）、Ｅｔｈｅｒｎｅｔ（登録商標）／ＩＥＥＥ８０２．３、ＴｏｋｅｎＲｉｎｇ／ＩＥＥＥ８０２．５などがある。ＷＡＮ技術には、これらに限らないが、２地点間リンク、ＩＳＤＮ（総合サービスデジタルネットワーク）やその変種のような回線交換ネットワーク、パケット交換ネットワーク、ＤＳＬ（デジタル加入者回線）がある。

通信接続９５０は、ネットワークインタフェース９４８をバス９１８に接続するために用いられるハードウェア／ソフトウェアを指す。図を簡潔にするために、通信接続９５０はコンピュータ９１２の中に示すが、コンピュータ９１２の外部にあってもよい。ネットワークインタフェース９４８に接続するために必要なハードウェア／ソフトウェアには、説明の目的のみで、標準的な電話グレードモデム、ケーブルモデム、ＤＳＬモデムを含むモデム、ＩＳＤＮアダプタ、イーサネット（登録商標）カードなどの内部技術および外部技術が含まれる。

図１０は、本発明が対話することが可能なコンピューティング環境１０００の例の概略ブロック図である。システム１０００は、１つまたは複数のクライアント１０１０を含む。クライアント１０１０は、ハードウェアおよび／またはソフトウェア（スレッド、プロセス、コンピューティングデバイスなど）である。システム１０００は、１つまたは複数のサーバ１０３０も含む。サーバ１０３０もハードウェアおよび／またはソフトウェア（スレッド、プロセス、コンピューティングデバイスなど）である。サーバ１０３０は、例えば本発明を用いることにより変換を行うスレッドを保持することができる。クライアント１０１０とサーバ１０３０間で可能な通信の１つは、２つ以上のコンピュータプロセス間で送信されるように適合されたデータパケットの形態である。システム１０００は、クライアント１０１０とサーバ１０３０間の通信を助けるために用いることができる通信フレームワーク１０５０を含む。クライアント１０１０は、クライアント１０１０にとってローカルな情報を記憶するために用いることができる１つまたは複数のクライアントデータストア１０６０に動作的に接続される。同様に、サーバ１０３０も、サーバ１０３０にとってローカルな情報を記憶するために用いることができる１つまたは複数のサーバデータストア１０４０に動作的に接続される。

上記の説明は本発明の例を含む。無論、本発明を説明する目的で構成要素あるいは方法論のあらゆる着想可能な組み合わせを記載することは可能でなく、当業者は、本発明のさらなる多数の組み合わせおよび置き換えが可能であることを認識されよう。したがって、本発明は、頭記の特許請求の範囲の主旨および範囲に該当するそのような変更、修正、変形をすべて包含するものとする。さらに、用語「〜を含む」が詳細な説明または特許請求の範囲で用いられる限りでは、この語は、用語「〜を備える」が請求項で接続語として用いられる際の解釈と同様に包含的な意味とする。

本発明の一態様による自動化された情報検索システムを示す概略ブロック図である。本発明の一態様による情報検索プロセスを説明する流れ図である。本発明の一態様による関連性クラシファイアの検討事項を示す図である。本発明の一態様による関連性トレーニングセットの検討事項を示す図である。本発明の一態様によるランタイムクラシファイアの作成処理を説明する図である。本発明の一態様によるデータ混合の検討事項を説明する図である。本発明の一態様によるクラシファイアのテストと診断の態様を説明する図である。本発明の一態様による例示的なモデル化システムを説明する図である。本発明の一態様による適切な動作環境を示す概略ブロック図である。本発明が対話することができるコンピューティング環境例の概略ブロック図である。

符号の説明

１１０学習コンポーネント
１２０データログ
１３０以前の検索データ
１４０検索エンジン
１５０関連性結果
１６０新しい検索クエリ
６００注釈がつけられたデータの混合の検討事項
６１０ユーザが注釈をつけたデータ
６２０作成が注釈をつけたデータ
７００テストツール
７２０回帰テスト
７３０クラシファイア診断テスト

Claims

自動化された情報検索システムであって、
記憶された情報検索データを分析して、過去の情報検索行動から関連性のパターンを特定する学習コンポーネントと、
該コンポーネントを用いて、前記関連性のパターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する検索コンポーネントと
を備えることを特徴とする情報検索システム。
前記学習コンポーネントは、前記検索コンポーネントの内部で使用されるランタイムクラシファイアを生成するために少なくとも１つの学習技術を用いることを特徴とする請求項１の情報検索システム。
前記学習技術はナイーブベイズ学習に関連することを特徴とする請求項２の情報検索システム。
前記検索コンポーネントは、少なくとも１つのローカルまたはリモートのデータソースに関連付けられた検索エンジンであることを特徴とする請求項１の情報検索システム。
前記記憶された情報検索データは、明示的または黙示的なフィードバックに関連付けられることを特徴とする請求項１の情報検索システム。
前記黙示的なフィードバックは、ユーザの選択、ユーザの滞在時間、ファイル取り扱い動作、コンピュータシステム情報、または状況データに関連することを特徴とする請求項５の情報検索システム。
前記コンピュータシステム情報は、システムバージョン情報、アプリケーション情報、ハードウェア設定情報、またはシステム周辺機器情報を含むことを特徴とする請求項６の情報検索システム。
前記状況データは、時間、カレンダー、または季節の情報を含むことを特徴とする請求項６の情報検索システム。
前記学習コンポーネントはさらに、適切なランタイムクラシファイアを作成するための品質データを識別する関連性クラシファイアを生成するための学習技術を用いることを特徴とする請求項１の情報検索システム。
前記関連性クラシファイアを生成するための学習技術は決定木学習に関連することを特徴とする請求項９の情報検索システム。
前記学習コンポーネントは、適切なランタイムクラシファイアを作成するために用いられる要求される結果に、以前にうまく行かなかったクエリを対応付けるための逐次分析技術を用いることを特徴とする請求項１の情報検索システム。
前記学習コンポーネントを構築するために用いられるスキーマをさらに備えることを特徴とする請求項１の情報検索システム。
前記スキーマは、クラシファイアＩＤ、ＧＵＩＤ（グローバル一意識別子）、クラシファイア名、記述、ステータス、範囲、バージョン、トレーニングセットのサイズ、クラシファイア文字列、または関連性ファクタを含むことを特徴とする請求項１２の情報検索システム。
少なくとも２つのソースからクラシファイアのためのデータを分析する混合コンポーネントをさらに備えることを特徴とする請求項１の情報検索システム。
前記混合コンポーネントは、ユーザが注釈をつけたデータと作者が注釈をつけたデータを処理することを特徴とする請求項１４の情報検索システム。
前記学習コンポーネントまたは前記検索コンポーネントと対話するためのユーザインタフェースとアプリケーションプログラミングインタフェースの少なくとも１つをさらに備えることを特徴とする請求項１の情報検索システム。
自動化された情報検索方法であって、
黙示的および明示的なユーザフィードバックを含む過去のクエリデータログを自動的に分析するステップと、
該データログから、検索結果に対するユーザの満足度を推量するための少なくとも第１のクラシファイアを構築するステップと、
該データログおよび前記第１のクラシファイアから生成された情報から、検索エンジンの内部で使用する少なくとも第２のクラシファイアを構築するステップと、
うまく行かなかったクエリを、要求される検索結果に自動的に対応付けるステップと、
前記クラシファイアに従って前記検索結果のサブセットを自動的に特定するステップと
を備えることを特徴とする方法。
システムデータまたは状況データを自動的に用いて、自動化された情報検索をリファインするステップをさらに備えることを特徴とする請求項１７の方法。
前記第１のクラシファイアによって生成されたデータから前記第２のクラシファイアを自動的にトレーニングするステップをさらに備えることを特徴とする請求項１７の方法。
コンピュータの検索動作を助けるシステムであって、
黙示的なユーザ行為のパターンを含むユーザ検索データを記録する手段と、
該検索データからクラシファイアを構築する手段と、
検索結果に対するユーザの満足度を推量する手段と、
以前にうまく行かなかったクエリを、要求される検索結果に対応付ける手段と、
前記クラシファイアをトレーニングする手段と、
現在の検索要求から検索結果のサブセットを自動的に特定する手段と
を備えることを特徴とするシステム。