JP2006285982A - 検索エンジンの関連性を改良するデータマイニング技術 - Google Patents

検索エンジンの関連性を改良するデータマイニング技術 Download PDF

Info

Publication number
JP2006285982A
JP2006285982A JP2006073363A JP2006073363A JP2006285982A JP 2006285982 A JP2006285982 A JP 2006285982A JP 2006073363 A JP2006073363 A JP 2006073363A JP 2006073363 A JP2006073363 A JP 2006073363A JP 2006285982 A JP2006285982 A JP 2006285982A
Authority
JP
Japan
Prior art keywords
search
data
classifier
information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006073363A
Other languages
English (en)
Inventor
Zijian Zheng
チェン チーチャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006285982A publication Critical patent/JP2006285982A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B09DISPOSAL OF SOLID WASTE; RECLAMATION OF CONTAMINATED SOIL
    • B09BDISPOSAL OF SOLID WASTE NOT OTHERWISE PROVIDED FOR
    • B09B3/00Destroying solid waste or transforming solid waste into something useful or harmless
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B09DISPOSAL OF SOLID WASTE; RECLAMATION OF CONTAMINATED SOIL
    • B09BDISPOSAL OF SOLID WASTE NOT OTHERWISE PROVIDED FOR
    • B09B2101/00Type of solid waste
    • B09B2101/02Gases or liquids enclosed in discarded articles, e.g. aerosol cans or cooling systems of refrigerators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B02CRUSHING, PULVERISING, OR DISINTEGRATING; PREPARATORY TREATMENT OF GRAIN FOR MILLING
    • B02CCRUSHING, PULVERISING, OR DISINTEGRATING IN GENERAL; MILLING GRAIN
    • B02C18/00Disintegrating by knives or other cutting or tearing members which chop material into fragments
    • B02C18/06Disintegrating by knives or other cutting or tearing members which chop material into fragments with rotating knives
    • B02C18/16Details
    • B02C18/18Knives; Mountings thereof
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B30PRESSES
    • B30BPRESSES IN GENERAL
    • B30B9/00Presses specially adapted for particular purposes
    • B30B9/02Presses specially adapted for particular purposes for squeezing-out liquid from liquid-containing material, e.g. juice from fruits, oil from oil-containing material
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65DCONTAINERS FOR STORAGE OR TRANSPORT OF ARTICLES OR MATERIALS, e.g. BAGS, BARRELS, BOTTLES, BOXES, CANS, CARTONS, CRATES, DRUMS, JARS, TANKS, HOPPERS, FORWARDING CONTAINERS; ACCESSORIES, CLOSURES, OR FITTINGS THEREFOR; PACKAGING ELEMENTS; PACKAGES
    • B65D88/00Large containers
    • B65D88/26Hoppers, i.e. containers having funnel-shaped discharge sections
    • CCHEMISTRY; METALLURGY
    • C05FERTILISERS; MANUFACTURE THEREOF
    • C05FORGANIC FERTILISERS NOT COVERED BY SUBCLASSES C05B, C05C, e.g. FERTILISERS FROM WASTE OR REFUSE
    • C05F9/00Fertilisers from household or town refuse
    • C05F9/02Apparatus for the manufacture

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mechanical Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Manufacturing & Machinery (AREA)
  • Food Science & Technology (AREA)
  • Dispersion Chemistry (AREA)
  • Thermal Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】過去の検索行動からデータの関連性を自動的に学習し、その学習を利用して将来の検索行動を助けるシステムおよび方法を提供する。
【解決手段】自動化された情報検索システムは、記憶された情報検索データを分析して、過去のユーザの情報検索行動から関連性のパターンを特定する学習コンポーネント110を含む。検索コンポーネントが学習コンポーネント110を用い、関連性パターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する。学習コンポーネント110に従って多数の変数が処理されて、絞り込まれ、優先順位がつけられ、関連性のある検索結果を効率的に生成することができる。
【選択図】図1

Description

本発明は、一般にはコンピュータシステムに関し、より詳細には、以前の検索結果のデータログに関連性分類技術を用いて、現在の検索エンジンの結果の品質を向上させるシステムおよび方法に関する。
World Wide Webとインターネットの普及を受けて、ユーザは、大量の情報源からほぼどのような事柄に関連する情報でも入手することができる。情報を見つけるために、ユーザは一般に、情報検索の作業に各種の検索エンジンを利用する。検索エンジンは、ユーザが、特定の単語またはフレーズを含むウェブページ情報あるいはインターネット上の他の題材を見つけることを可能にする。例えば、合衆国初代大統領のジョージ・ワシントンについての情報を見つけたい場合、ユーザは、「初代大統領ジョージ・ワシントン」と入力し、検索ボタンをクリックする。すると、検索エンジンが、その著名な大統領に関する情報を含んでいるウェブページの一覧を返す。しかし、単に「ワシントン」という語を入力するなどのより一般化された検索が行われた場合は、同じ名前に関する地理的な地域や機関に関連する結果のようなより多くの結果が返される。
ウェブ上には多くの検索エンジンがある。例えば、AllTheWeb(登録商標)、Askjeeves(登録商標)、Google(登録商標)、HotBot(登録商標)、Lycos(登録商標)、MSN Search(登録商標)、Teoma(登録商標)、Yahoo(登録商標)は、多くの例のいくつかに過ぎない。これらのエンジンの大半は、ユーザがブラウズするようにトピック別に編成された独自のサイトの一覧を介するか、または、ブラウザのユーザインタフェースポータルを介して入力されるキーワード検索を行うかの少なくとも2つの情報検索方式を提供する。一般に、キーワード検索は、コンピュータの能力の及ぶ限り、指定されたどの単語およびフレーズにも関連する情報を含んでいるすべてのウェブサイトを見つける。検索エンジンサイトは、ユーザがキーワードを入力する欄と、検索を開始するために押すボタンを備える。多くの検索エンジンは、検索するキーワードを効果的に使用する方法についての参考情報を提供する。そうした参考情報は通例、無関係の情報あるいは関連のない情報が返されて情報検索プロセスをごちゃごちゃにしないようにするために、ユーザが検索語をより狭く定義することを助けるように提供される。したがって、語を手作業で絞ると、特定の情報を探す際に選別すべき何千ものサイトを受け取ることを軽減する助けとなるため、ユーザの手間を多いに省く。
現在の検索技術に伴う問題の1つは、求められる結果を短い時間で生成するために、検索語を手作業で絞り込む必要があることである。別の問題は、検索エンジンが、様々なユーザのニーズと状況に関係なく、すべてのユーザに対して同じように動作することである。そのため、2人のユーザが同じ検索クエリを入力した場合は、各ユーザの興味関心、以前の検索履歴、コンピューティングの状況、あるいは環境的な状況(所在地、使用マシン、時刻、曜日など)に関係なく同じ結果が得られる。不都合なことに、現在の検索プロセスは、ユーザの実際の情報検索の目的、あるいは求められる目的についての洞察を提供しうる上記のような他の個人別の要素を考慮せずに、検索に関して明示的な指令を受け取るように設計されている。
ウェブ上の検索エンジンからデスクトップアプリケーションのユーティリティ(ヘルプシステムなど)まで、ユーザは、関心のある事柄についての未知の情報を見つけるために絶えず情報検索システムを利用する。場合によっては、そうしたトピックは、トピックの部と下位トピックの部にあらかじめ構成されている。例えば、「Yahoo(登録商標)」は、考えられるトピック(ビジネス、政府、科学等)を階層的に構成した、あらかじめ設定されたリストを提供し、ユーザは、トピックを選択し、次いでそのリスト内でさらに下位トピックを選択する。あらかじめ設定されたトピックのリストの別の例は、ヘルプトピックのリストとそれに関連する下位トピックがユーザに提供される、デスクトップパーソナルコンピュータのヘルプユーティリティで一般に見られる。このようなあらかじめ設定された階層は、状況によっては利便であるが、ユーザはしばしば、トピック構造を追うことでは見つけにくい情報、あるいはそのような規定されたリストの外側にある、かつ/またはリストに含まれない情報を検索する、あるいはそのような情報について尋ねる必要がある。そのため、ユーザが所望の情報を見つけるためにユーザが作成したクエリを指示できるように、しばしば、検索エンジンあるいは他の検索システムが用いられる。不都合な点として、ユーザは特定のクエリをどのように書く、あるいは作成すればよいか分からない場合があるので、関連のない多数のファイルが取得された時には、これはしばしばストレスとなる。その結果、多くの場合は、取得された検索結果を妥当な数のファイルに絞るために、ユーザに何度もクエリを修正させることになる。コンピュータ技術に精通していない者にとっては、これは非常に難しい可能性がある。その結果、そうした者は、必要とするものを得られない場合がある。
このジレンマの一例として、検索システムの入力クエリフィールドに単語またはフレーズを入力し、その結果、可能な候補として数千個のファイルあるいはインターネットの場合は、何百万個のウェブサイトが取得されることは珍しくない。取得された結果の多くは、共通の要素、語、あるいはフレーズを共有しているものの、対象とする事柄についてのコンテクスト上の類似性はほとんど、あるいは全くない場合があるため、取得された大量の候補を意味のあるものにするために、ユーザはしばしば、他の単語の組み合わせを試してリストをさらに絞り込む。この手法は、ユーザと、検索を行うシステムの両方にとって、不正確であり、時間がかかる。不正確であることは、ユーザが関心を持たない関連性のないファイル/サイトが何百万でなくとも何千個も取得されることに示される。大量のデータベースから可能であるが関連性のないファイルを探す際には、時間とシステムの処理速度も犠牲になる。
以下に、本発明の一部の態様の基本的な理解を提供するために本発明の要約を簡潔に述べる。この要約は、本発明の広範囲にわたる概要ではない。本発明の主要/不可欠な要素を明らかにするものでも、本発明の範囲を詳述するものでもない。その唯一の目的は、その後に述べるより詳細な説明の前置きとして、簡略化した形で本発明のいくつかの態様を示すことである。
本発明は、データマイニング技術と学習技術を用いて、情報の効率的な検索、取得、および分析を助けるシステムと方法に関する。一態様では、例えばベイズクラシファイアなどの学習コンポーネントが、複数の過去のユーザ検索行動からの情報を記憶したログからトレーニングされる。例えば、学習コンポーネントは、ログ中の黙示的または明示的なデータを分析することにより、ログ中の返された特定の結果が、ユーザにとってより関連性があるかないかを特定することができ、そのようなデータは、検索結果または結果のサブセットの関連性あるいは品質を示す。特定の一例では、返された検索結果のセットを考慮して、ユーザが特定のタイプの結果に滞在した(より多くの時間を費やしたなど)ことは、最初の検索クエリの性質を考慮して他のタイプの結果よりも高い関連性を示すものと判断することができ。継時的に過去の検索行動から学習コンポーネントがトレーニングされ、検索エンジンとともにランタイムクラシファイアとして用いられて、ユーザからエンジンに提出されたクエリから、最も関連性の高い結果をフィルタリングまたは特定することができる。このようにして、ユーザにとってより関連性が高いと思われる結果を自動的に分類することにより、ユーザが所望の情報を見つけるための時間を短縮することによって情報検索プロセスを向上させることができる。
各種の分析技術を用いて学習コンポーネントをトレーニングし、将来の情報検索プロセスを容易にすることができる。これは、ユーザが実際にある結果を選択した回数を分析して、所与のクエリに照らしたその結果の関連性を特定することを含むことができる。関連性に関して明示的なフィードバックを提供することをユーザに要求するよりもむしろ、特定の結果が開かれた回数や、ある結果にリンクされたファイルに費やされた時間、ユーザが特定のファイルをどれだけ掘り下げたか等の黙示的な要素を要求する。このようにして、どの結果が関連性があり、どの結果が関連性がないかに関してユーザから明示的にシステムに通知させることなく、関連性が自動的に特定される。以前にうまく行かなかったクエリに逐次分析技術を利用して、将来のクエリを自動的に向上させることができる。将来のクエリをリファインし、あいまいさを解消するための他の関連性ファクタには、オペレーティングシステムのバージョン、使用アプリケーションのタイプ、ハードウェア設定などの外的なデータあるいは状況データを分析することが含まれる。これは、季節や時間の影響を受ける情報などの変数の考慮をクエリに含めて、より関連性のある結果が返されることを促進することができる。
前述の目的および関連する目的を達成するために、以下の説明と添付図面との関係で本発明の幾つかの例示的態様を説明する。これら態様は、本発明が実施されることが可能な各種方式を示し、すべて本発明に包含されるものとする。本発明の他の利点および新規の特徴は、図面と併せて以下の本発明の詳細な説明を検討することで明らかになろう。
本発明は、過去に行われた検索行動から自動的にデータの関連性を学習し、その学習を利用して将来の検索行動を助けるシステムおよび方法に関する。一態様では、自動化された情報検索システムが提供される。このシステムは、記憶された情報検索データを分析して、過去のユーザの情報検索行動から関連性のパターンを特定する学習コンポーネントを含む。検索コンポーネント(例えば検索エンジン)が、学習コンポーネントを用いて、関連性パターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する。絞り込まれ、優先順位がつけられ、関連性のある検索結果を効率的に生成するために、検索失敗データ、関連性データ、黙示的なデータ、システムデータ、アプリケーションデータ、ハードウェアデータ、時間に固有の情報などの状況データ等を含む多数の変数が、学習コンポーネントに従って処理される。
本願で使用される用語「コンポーネント」「システム」「エンジン」「クエリ」等は、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、実行中のソフトウェアを問わず、コンピュータに関連するエンティティを指すものとする。例えば、コンポーネントは、これらに限定しないが、プロセッサで実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および/またはコンピュータである。例示として、サーバで実行されるアプリケーションとサーバの両方がコンポーネントとなることができる。プロセスおよび/または実行のスレッドに1つまたは複数のコンポーネントが存在することができ、コンポーネントは、1台のコンピュータに局所化しても、かつ/または2台以上のコンピュータに分散してもよい。また、こうしたコンポーネントは、各種のデータ構造が記憶された各種のコンピュータ可読媒体から実行することができる。コンポーネントは、1つまたは複数のデータパケットを有する信号に従うなどして、ローカルおよび/またはリモートのプロセスを介して通信することができる(例えば1つのコンポーネントのデータがローカルシステム、分散システムで別のコンポーネントと対話する、かつ/またはインターネットなどのネットワークを通じて信号を介して他のシステムと対話する)。
初めに図1を参照すると、本発明の一態様による自動化された情報検索システム100が示される。システム100は、データログ120からトレーニングされる学習コンポーネント110を含む。ログ120のデータは、ローカルおよびリモートのデータソースから集められることができ、複数のユーザによる以前の検索データあるいは行動130に関連する情報を含む。トレーニングの後、学習コンポーネント110は検索エンジン140とともに用いられて、関連性結果150として示す将来の検索結果を容易にする、あるいは向上させる。検索エンジン140の初期のバージョンをデータログ120の供給源とすることができる。例えば、1つまたは複数の新しい検索クエリ160が検索エンジン140によって処理される。クエリ160は、学習コンポーネント110に従って修正を加えることができ、または、以前の検索データ130からのトレーニングに部分的に基づいて、クエリによる結果がフィルタリングされる、あるいはサブセットとして特定される。一般に、システム100は、検索エンジンの関連性を向上させるために各種のデータマイニング技術を用いる。そうした技術には、例えば、関連性結果150を生成するために検索エンジン140とともに用いられるランタイムクラシファイア用の高品質のトレーニングデータを生成するために、学習コンポーネント110で関連性クラシファイアを用いることが含まれる。逐次分析を利用して、クエリ160と、同じセッションにおける異なるクエリの要求される結果を対応付けることができ、これには、下記でより詳細に説明するように、季節/時間に左右されるコンテンツを扱うために、ランタイムクラシファイアとクエリの対応付けでシステム100の状況機能を用いることが含まれる。
ナイーブベイズ(Naive Bayesian)モデルなどの機械学習技術をエンドユーザの検索データログ120に使用して生成されるクラシファイア(例えばランタイムクラシファイア)を、情報検索(IR)コンポーネントとともに用いて、高度に関連性の高い検索エンジンを形成することができる。一態様では、関連性データは、ユーザが満足した検索結果を識別してランタイムクラシファイアをトレーニングすることにより、ログ120から求められる。現在、一部のシステムは、検索結果に対するすべてのクリックまたは選択をユーザに満足された検索結果として処理している。実験の結果、ユーザが実際に選択に満足しているのは、ユーザが結果を選択した時の約3分の1であることが分かっている。したがって、「満足した」クリックまたは選択についてのトレーニングが、最適化されたクラシファイアにつながる。クリックが満足されているかどうかを知るために、明示的なフィードバックをユーザに要求することができる。しかし、多くの状況では、明示的なフィードバックを提供するのはわずかな割合のユーザに過ぎない。すべてのクリックについてのフィードバックを得るために、システム100は、明示的なフィードバックと併せてクリックを使用して、ユーザの振る舞いのデータ(例えばユーザがある結果に費やした時間、その結果からユーザがどこに移動するか、結果自体についての何らかのメタデータ等)を明示的なフィードバックに対応付ける別のクラシファイアを構築することができる。このクラシファイアは、関連性クラシファイアと呼ばれる。そして、ユーザが明示的なフィードバックを提供しなかったクリック/結果にこの関連性クラシファイアを適用してユーザの満足度を推量する。この技術は、ランタイムクラシファイアをトレーニングするための高品質のデータを提供する。
検索の際にあるクエリ160で満足の行く結果が得られない場合、ユーザは、そのクエリを修正し、再提出することができる。ユーザは、満足する1つの結果が返されるまで、このプロセスを繰り返すことができる。逐次分析などの各種のデータマイニング技術を用いて、ユーザの検索ログデータ120を分析し、うまく行かなかったクエリ(満足される結果が出なかったクエリ)を、ユーザが修正したクエリによる満足の行く結果にリンクし、それらリンクされたデータを、学習コンポーネント110のランタイムクラシファイアのためのトレーニングデータに含めることができる。検索サーバに新しいランタイムクラシファイアが配置されると、例えば、ユーザは、そのクラシファイアを用いていなかった従来の検索エンジン、または以前のバージョンの検索サーバ(新しいランタイムクラシファイアを配置する前)で満足できなかったクエリで満足の行く結果150を受け取る。
他の検討事項(considerations)には、クエリ文字列中の語だけを使用してランタイムクラシファイアをトレーニングすることが含まれる。しかし、例えば、オペレーティングシステムのバージョン、使用されたアプリケーション、プリンタがつながれているか、あるいはデジタルカメラがつながれているか等のハードウェア設定などの追加的な入力変数を含めると、クラシファイアを強化することができる。この追加情報は、ランタイムクラシファイアが潜在的なあいまいさを解決し、それにより向上した結果予測を提供することを助ける。さらに他の予測には、例えば季節/時間に影響される状況などの状況データを扱うためにクエリの対応付けを提供することが含まれる。一例では、クエリの処理段階で、語彙サービスを使用して、季節/時間に影響されるクエリを時間情報とともにバージョンに対応付ける。例えば、時期が2005年に近い時には、「カレンダー」を「カレンダー 2005年カレンダー」に対応付ける。これは、関連性結果150で2005年のカレンダーが結果一覧の一番上に現れる確率を高める。
各種の機械学習技術またはモデルを学習コンポーネント110によって適用して、継時的にデータログ120を処理できることに留意されたい。学習モデルには、ベイズネットワークやナイーブベイズクラシファイアなどのベイズ依存関係モデルを生成できるベイズ学習の使用を含む、ユーザをモデル化し、結果を判定する統計/数学的モデルとプロセス、および/または、SVM(サポートベクトルマシン)を含む他の統計的分類の方法論など、実質的にどのようなタイプのシステムも含まれることができる。他のタイプのモデルまたはシステムには、例えばニューラルネットワークや隠れマルコフモデルがある。本発明により精緻な推論モデルを用いることができるが、他の手法も利用できることは理解されたい。例えば、より徹底的な確率的手法ではなく、決定性の仮定を用いることもできる(特定のウェブサイトにX量の時間にわたって滞在しないことは、規則に従ってその結果は関連性がないことを示唆する等)。このように、不確実性のもとでの推論に加えて、ステータス、所在地、状況、関心、注目などに関して論理的な決定も行うことができる。
学習モデルは、複数の異なるデータソースから状況データを収集あるいは集約するユーザイベントデータストア(図示せず)からトレーニングされる。そのようなデータソースには、ユーザのイベントデータ(例えば携帯電話、マイクロフォンで録音された音行動、GPS(全地球測位システム)、電子カレンダー、視覚監視機器、デスクトップアクティビティ、ウェブサイトとの対話など)を記録する各種のデータ取得コンポーネントが含まれることができる。システム100は、個人別のクエリと結果の処理に対応する方式であれば、実質的にどのような方式で実施されてもよいことに留意されたい。例えば、システムは、サーバ、サーバファームとして、またはクライアントアプリケーション内に実施することができ、あるいは、検索エンジン140のユーザインタフェース(図示せず)などの検索機能と対話するウェブサービスや他の自動化されたアプリケーションを含むように、より一般化することができる。
図2に、本発明の一態様による例示的な情報検索最適化プロセス200を示す。説明を簡潔にするために、この方法論は、行為の連続あるいはいくつかの行為として図示および説明するが、本発明は行為の順序によって限定されず、一部の行為は、本発明により、ここで図示し、説明する順序と異なる順序で行っても、他の行為と同時に行ってもよいことを理解されたい。例えば、当業者は、方法論は、これに代えて、状態図などのように、相互に関連する状態あるいはイベントの連続として表してもよいことを理解されよう。さらに、本発明による方法論を実施するために図示されるすべての行為が必要とは限らない。
図2の210に進むと、1つまたは複数のデータログから過去の情報検索行動データが分析される。このデータは、ローカルのデータソース、インターネットサイトなどのリモートのデータソース、またはデータソースの組み合わせから分析される。220で、データログから1つまたは複数のクラシファイアがトレーニングされる。このクラシファイアは、ユーザ(またはシステム)の応答を観察しながら時間をかけてトレーニングされるか、または、いくらか前の時点に蓄積または集約されているデータに適用される。230で、トレーニングされたクラシファイアが、1つまたは複数の検索エンジンまたはツールに関連付けられるか、または組み込まれる。この検索エンジンまたはツールには、ローカルのデスクトップ検索機能(ヘルプツールなど)や従来のウェブサイトエンジンなどのリモートの検索エンジンが含まれることができ、また、所与のアプリケーション内で検索機能を提供するなど、アプリケーションに固有に用いられることもできる。
240で、ユーザまたはシステムによって提出された新しいクエリが、検索ツールとともに動作するトレーニングされたクラシファイアを有する検索ツールによって分析される。この分析は、アプリケーションデータ、ハードウェアデータ、時間データ、季節データ、カレンダーデータ、システムデータ、ファイルメタデータなどの各種の状況ソースを分析して個々のクエリをさらにリファインして、関連性検索結果を生成することを含むことができる。250で、トレーニングされたクラシファイアおよび/または状況データの検討から特定された検索結果のサブセットが生成され、ユーザに提供される。これは、要求される場合はユーザインタフェースを介して出力表示を生成することを含むことができる。理解できるように、本発明により生成された関連性結果は、さらに分析されることができ(クラシファイアにさらなるトレーニングを提供するなど)、したがって、トレーニングあるいは関連性をリファインするための入れ子構造の機会として働くことができる。
図3〜8は、本発明によるクラシファイアの構築とトレーニングの詳細な例に関連する。図3および4はランタイムクラシファイアの構築とスキーマの検討事項に関連し、図5〜8はクラシファイアのモデル化ツールと検討事項に関連する。但し、本発明は、図示し、説明されるこれら特定の例に限定されず、他の実施も可能であることは理解されたい。
図3を参照すると、本発明の一態様による関連性クラシファイアの検討事項(relevance classifier considerations)300が示される。関連性クラシファイア300を使用して、システムとのユーザ対話(滞在時間(dwell times)や終了のタイプなど)や状況設定情報(エントリポイント、アプリケーション、ソフトウェア設定、ハードウェア設定など)を含むユーザの黙示的なフィードバックを利用することにより、検索資産に対するユーザの満足度(明示的なフィードバックなど)を予測することができる。何らかの黙示的なフィードバック情報がファクタに変換されて、関連性クラシファイア300の生成を助ける。例えば、関連性クラシファイアへの入力は、ユーザの黙示的なフィードバックであり、出力は、ユーザが対話した結果(資産)に対するユーザの満足度である。
関連性クラシファイア300をトレーニングするために、結果レベルで、黙示的なフィードバックと明示的なフィードバックの両方とともにデータのセットが用いられる(データセットの各項目が検索の結果に相当する)(1回の検索セッションにおけるユーザからの結果との複数回の対話、またはユーザのブラウジングからある資産への移動にリンクできる)。そして、例えば結果に対する明示的なフィードバックが得られない時に、クラシファイアを使用して、黙示的なフィードバックを使用した結果に対するユーザの明示的なフィードバックを推量する。一事例では関連性クラシファイア300に決定木学習(desicion tree learning)を用いることができるが、他のタイプの学習も可能である。
310で、関連性クラシファイア300を構築し、使用するコンポーネントが次のように説明される。
1.アプリケーションを用いて、関連性クラシファイアをトレーニングおよびテストするための結果署名データのファイルを作成する。
2.トレーニングセットとテストセットに決定木学習ツールを使用して、関連性クラシファイアをトレーニングおよびテストする。
3.テスト結果が満足の行くものである場合、システムに決定木クラシファイアをロードし、そのクラシファイアを使用して検索結果に対するユーザの満足度を推量する。決定木クラシファイアは、ファイルまたはデータベースに保存することができる。
4.テスト結果が満足の行かないものである場合、それを引き起こした問題(以下に限定しないがトレーニングセット/テストセットのサイズが小さすぎる、目標分布に偏りがある、新しい関連性ファクタを定義する必要がある等の理由)を調べ、必要な場合は、問題を調べた後にプロセスを繰り返す。
320に、関連性クラシファイアをデータベースに保存する場合には、関連性クラシファイアを処理するためのスキーマの検討事項が示される。例えば、生成された関連性クラシファイア300は、データベース中のテーブルにロードされ、クラシファイアID(一意のID)、GUID、クラシファイア名、説明、ステータス(アクティブまたは非アクティブ)、範囲(ソフトウェアバージョンなど)、他のバージョン情報、トレーニングセットのサイズ、クラシファイア(XMLストリング)などのスキーマ属性をとることができる。別のテーブルが、UsedRelevanceFactorID(一意のID)、クラシファイアID、FactorTypeIDを含む、クラシファイアによって使用されるファクタを記憶するユーザ関連性ファクタを保持することができる。
図4に、本発明の一態様による関連性トレーニングセットの検討事項400を示す。関連性クラシファイアの生成を助けるために、上記のデータログからトレーニングセットまたはテストセットを作成するツールが提供される。410で、2つのデータファイルと1つのメタデータファイルとして出力データが生成される。例えば、各データファイルは、各結果(または資産との対話)についての1つの行と、各ファクタと明示的なフィードバックについての1つの列を含む。ファクタ値は、「,」または他の記号で区切ることができる。メタデータファイルは、一般に、各行につき、各ファクタと、ある者との明示的なフィードバックについての情報を含む。420で、トレーニングセットとテストセットのデータソースは、上記のデータログである。システムは、どのデータ項目がトレーニング用で、どの項目がテスト用であるかを判定する内蔵ロジックを有することができる。430で、クラシファイアを構築するパラメータが指定される。このパラメータには、トレーニング/テストセットとメタデータファイルを生成するために文字列で指定されたファイル名;データの開始点を定義する開始日;データの終了点を定義する終了日;サーバ名;データセットが作成されることが可能なエントリポイントが含まれうる。
図5に、本発明の一態様によるランタイムクラシファイアの作成処理500を示す。一般には、以下の行為が、500でランタイムクラシファイアを作成する際に作者によってとられることができる。510に進んで、カタログ名、日付の範囲、ランタイムクラシファイア名、説明(オプション)、対象バージョン、ユーザが注釈をつけたデータ、または作者が注釈をつけたデータ、またはそれら2つの組み合わせを含んでいるデータソースなどの情報を提供することにより、ランタイムクラシファイアをトレーニングする。システムは、工程の最後にランタイムクラシファイアのIDを返すか、エラーの場合はエラーメッセージを返す。520で、ランタイムクラシファイアID、および日付の範囲(デフォルト値はクラシファイアをトレーニングする時に使用した値にすべき)を提供することにより、モデルの評価(回帰テスト)を実行する。530で、評価レポートを読み、分析して、クラシファイアが評価に合格したかどうかを判断する。
540で、ランタイムクラシファイアが530の評価に合格しなかった場合は、それを示し、診断のために550に進む。合格した場合は、ランタイムクラシファイアへの満足を示す(システムが、トレーニングセット、回帰セット、内部の診断セットを組み合わせることにより、この時に公開する最終的なクラシファイアを作成する)。540で評価に合格しなかった場合は、550に進み、以下の情報を提供することによってクラシファイアを診断し、診断の報告が作成される。この情報には、ランタイムクラシファイアのIDが含まれる(トレーニングと同じ日付範囲をここで使用することができる)。560で、診断の報告を読み、トレーニングデータを変更する処置をとる。そして、510に戻って新しいランタイムクラシファイアを再作成する。この時にトレーニングデータを変更すべきことに留意されたい。570で、ランタイムクラシファイアが、配置するために検索エンジンに公開できる状態になる。500では一部の行為を自動化できることに留意されたい。500で、ランタイムクラシファイアとそのメタデータを、すべてのプロセスに共有されるデータベースに保存することができる。
図6に、本発明の一態様によるクラシファイアデータを混合する際の検討事項を示す。この態様では、検索エンジンのデータログから得られるユーザによって注釈がつけられたデータ610と、検索の作者から得られるユーザと作者によって注釈がつけられたデータ620を含む少なくとも2つの供給源から、クラシファイアをトレーニングするためのデータの注釈を得ることができる。一般には、これらのタイプのデータを次のように異なる組み合わせで混合することができる。
user * User_annotated_data ∪ Wauthor * Author_ annotated_data。
userは、ユーザによって注釈がつけられたデータ610の各対に与えられる重みであり、Wauthorは、作者によって注釈がつけられたデータ620の各対に与えられる重みである。
図7に、本発明の一態様によるクラシファイアのテストツール700を示す。一態様では、ツール700は、提供されたランタイムクラシファイアIDに基づいてデータベースからランタイムクラシファイアを抽出する。ツールは次いで、710で回帰データセットにテストを実行し、テスト結果の要約を生成する。要約は、上位1〜10位の精度、上位10位の平均ランク、テストセットの別個の未処理クエリの数、テストセットの処理された別個のクエリの数、テストセットの別個の資産の数、テストセットの処理されたクエリ/資産の別個の対の数、テストセットの合計頻度などを含むことができる。720で、1つまたは複数の診断テストをクラシファイアに行うことができる。ツール700は、指定されたランタイムクラシファイアIDに基づいて、ランタイムクラシファイアとそれに関連するメタデータを抽出する。そして、内部の診断セットでランタイムクラシファイアが評価され、いくつかの診断結果を生成する。例えば、この診断事項には、合計イベント頻度、別個のイベントの数、別個の特徴ベクトルの数、資産の数、合計特徴数、イベントについての平均特徴数、認識された特徴の平均数、合計クエリ頻度、1つの特徴ベクトル当たりの最大、最少、および平均の資産数などが含まれる。他の診断事項720には、精度の予測、ランク付けの統計、資産レベルの基準、うまく行かなかったクエリの基準、クラシファイアの比較基準、予測の混乱の基準、およびトレーニングセットとテストセットの比較基準が含まれる。理解できるように、他の基準または診断の指示が提供される。
図8に、本発明の一態様による例示的なクラシファイアモデル化システム800を示す。一般に、作者は、ツールあるいはシステム800を用いて、810の関連性マートと称されるデータベースにあるクエリと資産データからランタイムクラシファイアを構築する。生成されたランタイムクラシファイアは、モデルストア820と称される別のデータベースに保存される。トレーニング/テストデータ分割のロジックは、関連性マート810に記憶される。モデルストア820に記憶されたランタイムクラシファイアは、回帰テストコンポーネント(図示せず)を通じて評価されることができ、評価に合格するとその後公開される。
システム800は、ユーザインタフェース(UI)コンポーネント840とコマンドツール850が、指定されたトレーニングセットを使用してランタイムクラシファイアを構築し、生成されたモデルをモデルストア820に保存するためのAPI(アプリケーションプログラミングインタフェース)830を提供する。システム800は、モデルビルダコンポーネント860内部の制御の流れおよびデータの流れと、コンポーネント860と他のコンポーネントの対話を示している。モデルビルダ860は、トレーニングデータの供給源を定義するパラメータのセットを処理し、トレーニングデータをどこからどのように抽出するかを決定する。関連性マート810のユーザによる注釈がつけられたクエリについては、マート810のデータリーダが未処理データを抽出し、イベントコンストラクタがその未処理データを、次のように、ナイーブベイズトレーナによって要求されるフォーマットのイベントに変換する:資産ID;頻度;特徴。
通例、特徴はクエリ文字列の語を含むが、他のタイプの特徴が追加される。イベントリスト864がナイーブベイズクラシファイアトレーナ870(SparseNB)に渡されてランタイムクラシファイアを生成する。データライタ874が、生成されたクラシファイアモデルをメタデータ情報とともにモデルストア820に記憶する。API830は、データソース、可能な3つの値、ユーザが注釈をつけたクエリ、作者が注釈をつけたクエリ、またはその両方、カタログ、クラシファイアをトレーニングするためのカタログ、日付の範囲、トレーニングデータを選択するための開始日時間と終了日時間、最小限の予測の信頼性のパラメータを含む。イベントジェネレータ880は、データリーダ890からの未処理データを変換する。これには、例えば、クライアントサイドでの小文字への変換(一部の文化(cultures)のみ)とフレーズ一致、並びに、サーバサイドでの単語の区切り、ステミング(stemming)、クエリの拡大、統計的なスペルチェック、ノイズ語が含まれる。
図9を参照すると、本発明の各種態様を実施する例示的環境910は、コンピュータ912を含む。コンピュータ912は、処理装置914、システムメモリ916、システムバス918を含む。システムバス918は、これに限定しないがシステムメモリ916を含むシステム構成要素を処理装置914に結合する。処理装置914は、各種の利用可能プロセッサでよい。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャも処理装置914として用いることができる。
システムバス918は、これらに限定しないが11ビットバス、ISA(Industrial Standard Architecture)、MSA(Micro-Channel Architecture)、EISA(Extended ISA)、IDE(Intelligent Drive Electronics)、VLB(VESA Local Bus)、PCI(Peripheral Component Interconnect)、USB(Universal Serial Bus)、AGP(Advanced Graphics Port)、PCMCIA(Personal Computer Memory Card International Associationバス)、およびSCSI(Small Computer Systems Interface)を含む各種の利用可能バスアーキテクチャを使用した、メモリバスあるいはメモリコントローラ、ペリフェラルバスあるいは外部バス、および/またはローカルバスを含む数種のバス構造のいずれでもよい。
システムメモリ916は、揮発性メモリ920と不揮発性メモリ922を含む。起動時などにコンピュータ912内の要素間の情報転送を助ける基本的ルーチンを含む基本入出力システム(BIOS)は、不揮発性メモリ922に記憶される。限定ではなく例示として、不揮発性メモリ922は、ROM(読み取り専用メモリ)、PROM(プログラマブルROM)、EPROM(電気的にプログラム可能なROM)、EEPROM(電気的に消去可能なROM)、またはフラッシュメモリを含むことができる。揮発性メモリ920は、外部キャッシュメモリとして機能するRAM(ランダムアクセスメモリ)を含む。制限ではなく例として、RAMは、SRAM(シンクロナスRAM)、DRAM(ダイナミックRAM)、SDRAM(シンクロナスDRAM)、DDR SDRAM(ダブルデータレートSDRAM)、ESDRAM(エンハンスドSDRAM)、SLDRAM(Synchlink DRAM)、DRRAM(ダイレクトRambus RAM)などの多数の形態のものを利用することができる。
コンピュータ912は、取り外し可能/取り外し不能な揮発性/不揮発性のコンピュータ記憶媒体も含む。図9には例えばディスク記憶装置924を示す。ディスク記憶装置924には、これらに限定しないが、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、LS−100ドライブ、フラッシュメモリカード、メモリスティックのようなデバイスが含まれる。また、ディスク記憶装置924は、記憶媒体を独立して含んでも、これらに限定しないが、CD−ROM(コンパクトディスクROMドライブ)、CD−Rドライブ(記録可能CDドライブ)、CD−RWドライブ(上書き可能CDドライブ)、DVD−ROM(デジタル多用途ディスクROMドライブ)などの光ディスクドライブを含む他の記憶媒体と組み合わせて記憶媒体を含んでもよい。ディスク記憶装置924をシステムバス918に接続するのを助けるために、通例は、インタフェース926などの取り外し可能インタフェースまたは取り外し不能インタフェースが使用される。
図9は、ユーザと、適切な動作環境910に示す基本的なコンピュータリソースとの間の仲介役として機能するソフトウェアを示すことは理解されよう。そのようなソフトウェアには、オペレーティングシステム928が含まれる。オペレーティングシステム928は、ディスク記憶装置924に記憶することができ、コンピュータシステム912を制御し、システム912のリソースを割り当てる働きをする。システムアプリケーション930は、システムメモリ916またはディスク記憶装置924に記憶されたプログラムモジュール932とプログラムデータ934を通じて、オペレーティングシステム928によるリソース管理を利用する。本発明は、各種のオペレーティングシステムまたはオペレーティングシステムの組み合わせとともに実施できることは理解されたい。
ユーザは、入力装置936を通じてコンピュータ912にコマンドまたは情報を入力する。入力装置936には、これらに限定しないが、マウス、トラックボール、スタイラス、タッチパッドなどのポインティングデバイス、キーボード、マイクロフォン、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナ、TVチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラなどがある。上記および他の入力装置は、インタフェースポート938を介してシステムバス918を通じて処理装置914に接続する。インタフェースポート938には、例えばシリアルポート、パラレルポート、ゲームポート、USB(ユニバーサルシリアルバス)がある。出力装置940が使用するポートの一部は、入力装置936と同じである。したがって、例えば、USBポートを使用してコンピュータ912に入力を提供し、出力装置940にコンピュータ912からの情報を出力することができる。モニタやスピーカ、プリンタなど、出力装置940の中には特殊なアダプタを必要とするものがあることを示すために、出力アダプタ942が提供される。出力アダプタ942には、制限ではなく例示として、出力装置940とシステムバス918間の接続手段を提供するビデオカードおよびサウンドカードが含まれる。リモートコンピュータ944などの他のデバイスおよび/またはデバイスのシステムが、入力機能と出力機能の両方を備えることに留意されたい。
コンピュータ912は、リモートコンピュータ944などの1つまたは複数のリモートコンピュータとの論理接続を使用するネットワーク環境で動作することができる。リモートコンピュータ944は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサを利用した機器、ピアデバイス、あるいは他の一般的なネットワークノード等であり、通例は、コンピュータ912に関して上述した要素の多くまたはすべてを含む。図を簡潔にするため、リモートコンピュータ944にはメモリ記憶装置946のみを示す。リモートコンピュータ944はネットワークインタフェース948を通じて論理的にコンピュータ912に接続され、そして通信接続950を介して物理的に接続される。ネットワークインタフェース948は、LAN(ローカルエリアネットワーク)とWAN(ワイドエリアネットワーク)等の通信ネットワークを包含する。LAN技術には、FDDI(ファイバー分散データインタフェース)、CDDI(銅線分散データインタフェース)、Ethernet(登録商標)/IEEE802.3、Token Ring/IEEE802.5などがある。WAN技術には、これらに限らないが、2地点間リンク、ISDN(総合サービスデジタルネットワーク)やその変種のような回線交換ネットワーク、パケット交換ネットワーク、DSL(デジタル加入者回線)がある。
通信接続950は、ネットワークインタフェース948をバス918に接続するために用いられるハードウェア/ソフトウェアを指す。図を簡潔にするために、通信接続950はコンピュータ912の中に示すが、コンピュータ912の外部にあってもよい。ネットワークインタフェース948に接続するために必要なハードウェア/ソフトウェアには、説明の目的のみで、標準的な電話グレードモデム、ケーブルモデム、DSLモデムを含むモデム、ISDNアダプタ、イーサネット(登録商標)カードなどの内部技術および外部技術が含まれる。
図10は、本発明が対話することが可能なコンピューティング環境1000の例の概略ブロック図である。システム1000は、1つまたは複数のクライアント1010を含む。クライアント1010は、ハードウェアおよび/またはソフトウェア(スレッド、プロセス、コンピューティングデバイスなど)である。システム1000は、1つまたは複数のサーバ1030も含む。サーバ1030もハードウェアおよび/またはソフトウェア(スレッド、プロセス、コンピューティングデバイスなど)である。サーバ1030は、例えば本発明を用いることにより変換を行うスレッドを保持することができる。クライアント1010とサーバ1030間で可能な通信の1つは、2つ以上のコンピュータプロセス間で送信されるように適合されたデータパケットの形態である。システム1000は、クライアント1010とサーバ1030間の通信を助けるために用いることができる通信フレームワーク1050を含む。クライアント1010は、クライアント1010にとってローカルな情報を記憶するために用いることができる1つまたは複数のクライアントデータストア1060に動作的に接続される。同様に、サーバ1030も、サーバ1030にとってローカルな情報を記憶するために用いることができる1つまたは複数のサーバデータストア1040に動作的に接続される。
上記の説明は本発明の例を含む。無論、本発明を説明する目的で構成要素あるいは方法論のあらゆる着想可能な組み合わせを記載することは可能でなく、当業者は、本発明のさらなる多数の組み合わせおよび置き換えが可能であることを認識されよう。したがって、本発明は、頭記の特許請求の範囲の主旨および範囲に該当するそのような変更、修正、変形をすべて包含するものとする。さらに、用語「〜を含む」が詳細な説明または特許請求の範囲で用いられる限りでは、この語は、用語「〜を備える」が請求項で接続語として用いられる際の解釈と同様に包含的な意味とする。
本発明の一態様による自動化された情報検索システムを示す概略ブロック図である。 本発明の一態様による情報検索プロセスを説明する流れ図である。 本発明の一態様による関連性クラシファイアの検討事項を示す図である。 本発明の一態様による関連性トレーニングセットの検討事項を示す図である。 本発明の一態様によるランタイムクラシファイアの作成処理を説明する図である。 本発明の一態様によるデータ混合の検討事項を説明する図である。 本発明の一態様によるクラシファイアのテストと診断の態様を説明する図である。 本発明の一態様による例示的なモデル化システムを説明する図である。 本発明の一態様による適切な動作環境を示す概略ブロック図である。 本発明が対話することができるコンピューティング環境例の概略ブロック図である。
符号の説明
110 学習コンポーネント
120 データログ
130 以前の検索データ
140 検索エンジン
150 関連性結果
160 新しい検索クエリ
600 注釈がつけられたデータの混合の検討事項
610 ユーザが注釈をつけたデータ
620 作成が注釈をつけたデータ
700 テストツール
720 回帰テスト
730 クラシファイア診断テスト

Claims (20)

  1. 自動化された情報検索システムであって、
    記憶された情報検索データを分析して、過去の情報検索行動から関連性のパターンを特定する学習コンポーネントと、
    該コンポーネントを用いて、前記関連性のパターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する検索コンポーネントと
    を備えることを特徴とする情報検索システム。
  2. 前記学習コンポーネントは、前記検索コンポーネントの内部で使用されるランタイムクラシファイアを生成するために少なくとも1つの学習技術を用いることを特徴とする請求項1の情報検索システム。
  3. 前記学習技術はナイーブベイズ学習に関連することを特徴とする請求項2の情報検索システム。
  4. 前記検索コンポーネントは、少なくとも1つのローカルまたはリモートのデータソースに関連付けられた検索エンジンであることを特徴とする請求項1の情報検索システム。
  5. 前記記憶された情報検索データは、明示的または黙示的なフィードバックに関連付けられることを特徴とする請求項1の情報検索システム。
  6. 前記黙示的なフィードバックは、ユーザの選択、ユーザの滞在時間、ファイル取り扱い動作、コンピュータシステム情報、または状況データに関連することを特徴とする請求項5の情報検索システム。
  7. 前記コンピュータシステム情報は、システムバージョン情報、アプリケーション情報、ハードウェア設定情報、またはシステム周辺機器情報を含むことを特徴とする請求項6の情報検索システム。
  8. 前記状況データは、時間、カレンダー、または季節の情報を含むことを特徴とする請求項6の情報検索システム。
  9. 前記学習コンポーネントはさらに、適切なランタイムクラシファイアを作成するための品質データを識別する関連性クラシファイアを生成するための学習技術を用いることを特徴とする請求項1の情報検索システム。
  10. 前記関連性クラシファイアを生成するための学習技術は決定木学習に関連することを特徴とする請求項9の情報検索システム。
  11. 前記学習コンポーネントは、適切なランタイムクラシファイアを作成するために用いられる要求される結果に、以前にうまく行かなかったクエリを対応付けるための逐次分析技術を用いることを特徴とする請求項1の情報検索システム。
  12. 前記学習コンポーネントを構築するために用いられるスキーマをさらに備えることを特徴とする請求項1の情報検索システム。
  13. 前記スキーマは、クラシファイアID、GUID(グローバル一意識別子)、クラシファイア名、記述、ステータス、範囲、バージョン、トレーニングセットのサイズ、クラシファイア文字列、または関連性ファクタを含むことを特徴とする請求項12の情報検索システム。
  14. 少なくとも2つのソースからクラシファイアのためのデータを分析する混合コンポーネントをさらに備えることを特徴とする請求項1の情報検索システム。
  15. 前記混合コンポーネントは、ユーザが注釈をつけたデータと作者が注釈をつけたデータを処理することを特徴とする請求項14の情報検索システム。
  16. 前記学習コンポーネントまたは前記検索コンポーネントと対話するためのユーザインタフェースとアプリケーションプログラミングインタフェースの少なくとも1つをさらに備えることを特徴とする請求項1の情報検索システム。
  17. 自動化された情報検索方法であって、
    黙示的および明示的なユーザフィードバックを含む過去のクエリデータログを自動的に分析するステップと、
    該データログから、検索結果に対するユーザの満足度を推量するための少なくとも第1のクラシファイアを構築するステップと、
    該データログおよび前記第1のクラシファイアから生成された情報から、検索エンジンの内部で使用する少なくとも第2のクラシファイアを構築するステップと、
    うまく行かなかったクエリを、要求される検索結果に自動的に対応付けるステップと、
    前記クラシファイアに従って前記検索結果のサブセットを自動的に特定するステップと
    を備えることを特徴とする方法。
  18. システムデータまたは状況データを自動的に用いて、自動化された情報検索をリファインするステップをさらに備えることを特徴とする請求項17の方法。
  19. 前記第1のクラシファイアによって生成されたデータから前記第2のクラシファイアを自動的にトレーニングするステップをさらに備えることを特徴とする請求項17の方法。
  20. コンピュータの検索動作を助けるシステムであって、
    黙示的なユーザ行為のパターンを含むユーザ検索データを記録する手段と、
    該検索データからクラシファイアを構築する手段と、
    検索結果に対するユーザの満足度を推量する手段と、
    以前にうまく行かなかったクエリを、要求される検索結果に対応付ける手段と、
    前記クラシファイアをトレーニングする手段と、
    現在の検索要求から検索結果のサブセットを自動的に特定する手段と
    を備えることを特徴とするシステム。
JP2006073363A 2005-03-31 2006-03-16 検索エンジンの関連性を改良するデータマイニング技術 Pending JP2006285982A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/096,153 US20060224579A1 (en) 2005-03-31 2005-03-31 Data mining techniques for improving search engine relevance

Publications (1)

Publication Number Publication Date
JP2006285982A true JP2006285982A (ja) 2006-10-19

Family

ID=36683730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006073363A Pending JP2006285982A (ja) 2005-03-31 2006-03-16 検索エンジンの関連性を改良するデータマイニング技術

Country Status (5)

Country Link
US (1) US20060224579A1 (ja)
EP (1) EP1708105A1 (ja)
JP (1) JP2006285982A (ja)
KR (1) KR20060106642A (ja)
CN (1) CN1841380B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123564A (ja) * 2009-12-08 2011-06-23 Ntt Docomo Inc 情報処理装置、情報処理システムおよび情報処理方法
JP2011530108A (ja) * 2008-07-29 2011-12-15 ヤフー! インコーポレイテッド リサーチセッションの検出に基づくリサーチツールへのアクセス
JP2012014660A (ja) * 2010-07-05 2012-01-19 Ntt Communications Corp ノイズ除去条件決定装置、ノイズ除去条件決定方法、及びプログラム
JP2012527701A (ja) * 2009-05-22 2012-11-08 マイクロソフト コーポレーション 構造化されていないリソースからの句対のマイニング
JP2018514840A (ja) * 2015-03-02 2018-06-07 ブルヴェクター, インコーポレーテッドBluvector, Inc. 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム
WO2018142694A1 (ja) * 2017-02-02 2018-08-09 日本電信電話株式会社 特徴量生成装置、特徴量生成方法及びプログラム
JP2022078951A (ja) * 2020-11-13 2022-05-25 グーグル エルエルシー オンデバイスキャッシュを使用したハイブリッドフェッチング

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146409B1 (en) 2001-07-24 2006-12-05 Brightplanet Corporation System and method for efficient control and capture of dynamic database content
US7571161B2 (en) * 2005-05-13 2009-08-04 Microsoft Corporation System and method for auto-sensed search help
US7424472B2 (en) * 2005-05-27 2008-09-09 Microsoft Corporation Search query dominant location detection
US7627564B2 (en) * 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
US7577665B2 (en) * 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US20070255755A1 (en) * 2006-05-01 2007-11-01 Yahoo! Inc. Video search engine using joint categorization of video clips and queries based on multiple modalities
EP2049970A4 (en) * 2006-07-24 2014-12-31 Chacha Search Inc METHOD, SYSTEM AND COMPUTER-READABLE MEMORY FOR BALADODIFFUSION AND VIDEO FORMATION IN AN INFORMATION SEARCH SYSTEM
US20080033918A1 (en) * 2006-08-02 2008-02-07 Wilson Jeffrey L Systems, methods and computer program products for supplemental data communication and utilization
US8024308B2 (en) * 2006-08-07 2011-09-20 Chacha Search, Inc Electronic previous search results log
US8515912B2 (en) 2010-07-15 2013-08-20 Palantir Technologies, Inc. Sharing and deconflicting data changes in a multimaster database system
US8688749B1 (en) 2011-03-31 2014-04-01 Palantir Technologies, Inc. Cross-ontology multi-master replication
CA2571172C (en) 2006-12-14 2012-02-14 University Of Regina Interactive web information retrieval using graphical word indicators
US7908260B1 (en) * 2006-12-29 2011-03-15 BrightPlanet Corporation II, Inc. Source editing, internationalization, advanced configuration wizard, and summary page selection for information automation systems
US7693833B2 (en) * 2007-02-01 2010-04-06 John Nagle System and method for improving integrity of internet search
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US7752201B2 (en) * 2007-05-10 2010-07-06 Microsoft Corporation Recommendation of related electronic assets based on user search behavior
US8037042B2 (en) 2007-05-10 2011-10-11 Microsoft Corporation Automated analysis of user search behavior
US7644075B2 (en) * 2007-06-01 2010-01-05 Microsoft Corporation Keyword usage score based on frequency impulse and frequency weight
US20080319975A1 (en) * 2007-06-22 2008-12-25 Microsoft Corporation Exploratory Search Technique
US20090006324A1 (en) * 2007-06-27 2009-01-01 Microsoft Corporation Multiple monitor/multiple party searches
US20090006358A1 (en) * 2007-06-27 2009-01-01 Microsoft Corporation Search results
US20090100015A1 (en) * 2007-10-11 2009-04-16 Alon Golan Web-based workspace for enhancing internet search experience
US7984000B2 (en) 2007-10-31 2011-07-19 Microsoft Corporation Predicting and using search engine switching behavior
US8073861B2 (en) * 2007-11-15 2011-12-06 Target Brands, Inc. Identifying opportunities for effective expansion of the content of a collaboration application
US8281166B2 (en) * 2008-03-10 2012-10-02 Virdiem Corporation System and method for computer power control
US8126908B2 (en) * 2008-05-07 2012-02-28 Yahoo! Inc. Creation and enrichment of search based taxonomy for finding information from semistructured data
US7890516B2 (en) * 2008-05-30 2011-02-15 Microsoft Corporation Recommending queries when searching against keywords
US8126891B2 (en) * 2008-10-21 2012-02-28 Microsoft Corporation Future data event prediction using a generative model
CN101727454A (zh) * 2008-10-30 2010-06-09 日电(中国)有限公司 用于对象自动分类的方法和系统
US8041710B2 (en) * 2008-11-13 2011-10-18 Microsoft Corporation Automatic diagnosis of search relevance failures
GB2465773A (en) 2008-11-27 2010-06-02 Symbian Software Ltd Data Storage and Access
US8849790B2 (en) * 2008-12-24 2014-09-30 Yahoo! Inc. Rapid iterative development of classifiers
US8799279B2 (en) 2008-12-31 2014-08-05 At&T Intellectual Property I, L.P. Method and apparatus for using a discriminative classifier for processing a query
US9639609B2 (en) * 2009-02-24 2017-05-02 Microsoft Technology Licensing, Llc Enterprise search method and system
US8190647B1 (en) * 2009-09-15 2012-05-29 Symantec Corporation Decision tree induction that is sensitive to attribute computational complexity
CN102081625B (zh) * 2009-11-30 2012-12-26 中国移动通信集团北京有限公司 一种数据查询的方法及查询服务器
US9785987B2 (en) 2010-04-22 2017-10-10 Microsoft Technology Licensing, Llc User interface for information presentation system
US20110282861A1 (en) * 2010-05-11 2011-11-17 Microsoft Corporation Extracting higher-order knowledge from structured data
US8631030B1 (en) 2010-06-23 2014-01-14 Google Inc. Query suggestions with high diversity
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
US9069843B2 (en) 2010-09-30 2015-06-30 International Business Machines Corporation Iterative refinement of search results based on user feedback
CN102456019A (zh) * 2010-10-18 2012-05-16 腾讯科技(深圳)有限公司 检索方法及装置
US20120233140A1 (en) * 2011-03-09 2012-09-13 Microsoft Corporation Context-aware query alteration
US8918389B2 (en) * 2011-07-13 2014-12-23 Yahoo! Inc. Dynamically altered search assistance
CA2860322C (en) * 2011-12-23 2017-06-27 Amiato, Inc. Scalable analysis platform for semi-structured data
US8782004B2 (en) 2012-01-23 2014-07-15 Palantir Technologies, Inc. Cross-ACL multi-master replication
CN102622296B (zh) * 2012-02-21 2015-11-25 百度在线网络技术(北京)有限公司 搜索引擎模块的测试方法、系统及其装置
US9043248B2 (en) 2012-03-29 2015-05-26 International Business Machines Corporation Learning rewrite rules for search database systems using query logs
US10108704B2 (en) * 2012-09-06 2018-10-23 Microsoft Technology Licensing, Llc Identifying dissatisfaction segments in connection with improving search engine performance
US9081975B2 (en) * 2012-10-22 2015-07-14 Palantir Technologies, Inc. Sharing information between nexuses that use different classification schemes for information access control
US9501761B2 (en) 2012-11-05 2016-11-22 Palantir Technologies, Inc. System and method for sharing investigation results
US20140250116A1 (en) * 2013-03-01 2014-09-04 Yahoo! Inc. Identifying time sensitive ambiguous queries
US9715576B2 (en) 2013-03-15 2017-07-25 II Robert G. Hayter Method for searching a text (or alphanumeric string) database, restructuring and parsing text data (or alphanumeric string), creation/application of a natural language processing engine, and the creation/application of an automated analyzer for the creation of medical reports
CN103294800B (zh) 2013-05-27 2016-12-28 华为技术有限公司 一种信息推送方法及装置
US8886601B1 (en) 2013-06-20 2014-11-11 Palantir Technologies, Inc. System and method for incrementally replicating investigative analysis data
US9524510B2 (en) * 2013-10-02 2016-12-20 Turn Inc. Adaptive fuzzy fallback stratified sampling for fast reporting and forecasting
US9569070B1 (en) 2013-11-11 2017-02-14 Palantir Technologies, Inc. Assisting in deconflicting concurrency conflicts
US9009827B1 (en) 2014-02-20 2015-04-14 Palantir Technologies Inc. Security sharing system
US10642845B2 (en) * 2014-05-30 2020-05-05 Apple Inc. Multi-domain search on a computing device
US9703862B2 (en) 2014-06-12 2017-07-11 International Business Machines Corporation Engagement summary generation
US9547471B2 (en) * 2014-07-03 2017-01-17 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs
US10572496B1 (en) 2014-07-03 2020-02-25 Palantir Technologies Inc. Distributed workflow system and database with access controls for city resiliency
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
US9658938B2 (en) * 2015-03-30 2017-05-23 Fujtsu Limited Iterative test generation based on data source analysis
US10402469B2 (en) 2015-10-16 2019-09-03 Google Llc Systems and methods of distributed optimization
US10621198B1 (en) 2015-12-30 2020-04-14 Palantir Technologies Inc. System and method for secure database replication
CN105939323A (zh) * 2015-12-31 2016-09-14 杭州迪普科技有限公司 数据包过滤方法及装置
CN107103003B (zh) * 2016-02-23 2021-03-26 创新先进技术有限公司 获取链路中数据的方法、获取设备、处理设备和系统
US20180089587A1 (en) 2016-09-26 2018-03-29 Google Inc. Systems and Methods for Communication Efficient Distributed Mean Estimation
US11196800B2 (en) 2016-09-26 2021-12-07 Google Llc Systems and methods for communication efficient distributed mean estimation
US10769549B2 (en) * 2016-11-21 2020-09-08 Google Llc Management and evaluation of machine-learned models based on locally logged data
US10262053B2 (en) 2016-12-22 2019-04-16 Palantir Technologies Inc. Systems and methods for data replication synchronization
US10691751B2 (en) * 2017-01-23 2020-06-23 The Trade Desk, Inc. Data processing system and method of associating internet devices based upon device usage
WO2018176215A1 (en) * 2017-03-28 2018-10-04 Oracle International Corporation Systems and methods for intelligently providing supporting information using machine-learning
US10540683B2 (en) * 2017-04-24 2020-01-21 Microsoft Technology Licensing, Llc Machine-learned recommender system for performance optimization of network-transferred electronic content items
US10068002B1 (en) 2017-04-25 2018-09-04 Palantir Technologies Inc. Systems and methods for adaptive data replication
US10430062B2 (en) 2017-05-30 2019-10-01 Palantir Technologies Inc. Systems and methods for geo-fenced dynamic dissemination
US11030494B1 (en) 2017-06-15 2021-06-08 Palantir Technologies Inc. Systems and methods for managing data spills
CN107633051A (zh) * 2017-09-15 2018-01-26 努比亚技术有限公司 桌面搜索方法、移动终端及计算机可读存储介质
CN107808004B (zh) * 2017-11-15 2021-02-26 北京百度网讯科技有限公司 模型训练方法和系统、服务器、存储介质
US10380196B2 (en) 2017-12-08 2019-08-13 Palantir Technologies Inc. Systems and methods for using linked documents
US10915542B1 (en) 2017-12-19 2021-02-09 Palantir Technologies Inc. Contextual modification of data sharing constraints in a distributed database system that uses a multi-master replication scheme
US11042505B2 (en) 2018-04-16 2021-06-22 Microsoft Technology Licensing, Llc Identification, extraction and transformation of contextually relevant content
US11853713B2 (en) * 2018-04-17 2023-12-26 International Business Machines Corporation Graph similarity analytics
CN110427398A (zh) * 2018-04-28 2019-11-08 北京资采信息技术有限公司 一种基于数据挖掘与分析的模型管理工具
US10839164B1 (en) * 2018-10-01 2020-11-17 Iqvia Inc. Automated translation of clinical trial documents
US11253060B2 (en) 2018-10-31 2022-02-22 American Woodmark Corporation Modular enclosure system
US10579372B1 (en) * 2018-12-08 2020-03-03 Fujitsu Limited Metadata-based API attribute extraction
US11126666B2 (en) * 2019-03-20 2021-09-21 Verizon Media Inc. Temporal clustering of non-stationary data
US11170007B2 (en) 2019-04-11 2021-11-09 International Business Machines Corporation Headstart for data scientists
US20210334709A1 (en) * 2020-04-27 2021-10-28 International Business Machines Corporation Breadth-first, depth-next training of cognitive models based on decision trees
RU2760108C1 (ru) * 2021-03-22 2021-11-22 Роман Владимирович Постников Способ поиска данных для задач машинного обучения
US20240143482A1 (en) * 2022-10-31 2024-05-02 Bitdrift, Inc Systems and methods for providing a timeline view of log information for a client application

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002019167A2 (en) * 2000-08-30 2002-03-07 Richard Reisman Task/domain segmentation in applying feedback to command control

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
WO2002095534A2 (en) * 2001-05-18 2002-11-28 Biowulf Technologies, Llc Methods for feature selection in a learning machine
CA2281287C (en) * 1999-09-01 2003-03-11 Ibm Canada Limited-Ibm Canada Limitee Method and system for efficiently searching for free space in a table of a relational database having a clustering index
US6611881B1 (en) * 2000-03-15 2003-08-26 Personal Data Network Corporation Method and system of providing credit card user with barcode purchase data and recommendation automatically on their personal computer
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
US7089237B2 (en) * 2001-01-26 2006-08-08 Google, Inc. Interface and system for providing persistent contextual relevance for commerce activities in a networked environment
US6584470B2 (en) * 2001-03-01 2003-06-24 Intelliseek, Inc. Multi-layered semiotic mechanism for answering natural language questions using document retrieval combined with information extraction
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US7233931B2 (en) * 2003-12-26 2007-06-19 Lee Shih-Jong J Feature regulation for hierarchical decision learning
US7277884B2 (en) * 2004-02-17 2007-10-02 Microsoft Corporation Method and system for generating help files based on user queries
US20060069678A1 (en) * 2004-09-30 2006-03-30 Wu Chou Method and apparatus for text classification using minimum classification error to train generalized linear classifier

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002019167A2 (en) * 2000-08-30 2002-03-07 Richard Reisman Task/domain segmentation in applying feedback to command control

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011530108A (ja) * 2008-07-29 2011-12-15 ヤフー! インコーポレイテッド リサーチセッションの検出に基づくリサーチツールへのアクセス
US8832098B2 (en) 2008-07-29 2014-09-09 Yahoo! Inc. Research tool access based on research session detection
JP2012527701A (ja) * 2009-05-22 2012-11-08 マイクロソフト コーポレーション 構造化されていないリソースからの句対のマイニング
JP2011123564A (ja) * 2009-12-08 2011-06-23 Ntt Docomo Inc 情報処理装置、情報処理システムおよび情報処理方法
JP2012014660A (ja) * 2010-07-05 2012-01-19 Ntt Communications Corp ノイズ除去条件決定装置、ノイズ除去条件決定方法、及びプログラム
JP2018514840A (ja) * 2015-03-02 2018-06-07 ブルヴェクター, インコーポレーテッドBluvector, Inc. 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム
US10977571B2 (en) 2015-03-02 2021-04-13 Bluvector, Inc. System and method for training machine learning applications
WO2018142694A1 (ja) * 2017-02-02 2018-08-09 日本電信電話株式会社 特徴量生成装置、特徴量生成方法及びプログラム
JPWO2018142694A1 (ja) * 2017-02-02 2019-12-12 日本電信電話株式会社 特徴量生成装置、特徴量生成方法及びプログラム
US11829868B2 (en) 2017-02-02 2023-11-28 Nippon Telegraph And Telephone Corporation Feature value generation device, feature value generation method, and program
JP2022078951A (ja) * 2020-11-13 2022-05-25 グーグル エルエルシー オンデバイスキャッシュを使用したハイブリッドフェッチング
US11853381B2 (en) 2020-11-13 2023-12-26 Google Llc Hybrid fetching using a on-device cache

Also Published As

Publication number Publication date
CN1841380A (zh) 2006-10-04
CN1841380B (zh) 2010-11-03
US20060224579A1 (en) 2006-10-05
EP1708105A1 (en) 2006-10-04
KR20060106642A (ko) 2006-10-12

Similar Documents

Publication Publication Date Title
JP2006285982A (ja) 検索エンジンの関連性を改良するデータマイニング技術
JP5247475B2 (ja) ウェブ検索の適合性を高めるためにウェブ検索のユーザの振舞いをマイニングすること
US10942905B2 (en) Systems and methods for cleansing automated robotic traffic
US6304864B1 (en) System for retrieving multimedia information from the internet using multiple evolving intelligent agents
JP4731479B2 (ja) 検索システム及び検索方法
US7424488B2 (en) Context-aware, adaptive approach to information selection for interactive information analysis
Middleton et al. Ontological user profiling in recommender systems
CN1811685B (zh) 以文档为中心的软件应用程序的面向任务的用户界面模型
US7529736B2 (en) Performant relevance improvements in search query results
AU2005209586B2 (en) Systems, methods, and interfaces for providing personalized search and information access
US8799280B2 (en) Personalized navigation using a search engine
US8239380B2 (en) Systems and methods to tune a general-purpose search engine for a search entry point
US8005832B2 (en) Search document generation and use to provide recommendations
US20060287980A1 (en) Intelligent search results blending
US20070203869A1 (en) Adaptive semantic platform architecture
US20090006343A1 (en) Machine assisted query formulation
JP2013510343A (ja) 検索結果のランク付けのための静的な関連性の特性としてのドキュメント長
US8645352B2 (en) Focused search using network addresses
Vijaya et al. Metasearch engine: a technology for information extraction in knowledge computing
Srinivasan et al. Defining evaluation methodologies for topical crawlers
Htay et al. International Journal of Engineering Technology Research & Management

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120410