JP2006524869A - ドキュメントの関連性ファンクションをマシン学習する方法及び装置 - Google Patents

ドキュメントの関連性ファンクションをマシン学習する方法及び装置 Download PDF

Info

Publication number
JP2006524869A
JP2006524869A JP2006513331A JP2006513331A JP2006524869A JP 2006524869 A JP2006524869 A JP 2006524869A JP 2006513331 A JP2006513331 A JP 2006513331A JP 2006513331 A JP2006513331 A JP 2006513331A JP 2006524869 A JP2006524869 A JP 2006524869A
Authority
JP
Japan
Prior art keywords
relevance
document
query
documents
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2006513331A
Other languages
English (en)
Inventor
ディヴィッド コソック
Original Assignee
オーバーチュア サービシズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オーバーチュア サービシズ インコーポレイテッド filed Critical オーバーチュア サービシズ インコーポレイテッド
Publication of JP2006524869A publication Critical patent/JP2006524869A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Abstract

問合せに対しデータベース内のドキュメントの関連性スコアを推定するためのドキュメント関連性ファンクションを決定する方法及びコンピュータプログラム製品が提供される。複数のテスト問合せの各々に対し、結果ドキュメントの各セットが収集される。各テスト問合せに対し、各結果セット内のドキュメントのサブセットが選択され、そしてトレーニング関連性スコアのセットがサブセット内のドキュメントに指定される。一実施形態では、トレーニング関連性スコアの少なくとも幾つかが、対応する問合せに対して提示されたドキュメントの個々の関連性スコアを決定するヒューマンサブジェクトにより指定される。最終的に、複数のテスト問合せ、ドキュメントのサブセット、及びトレーニング関連性スコアのセットに基づいて関連性ファンクションが決定される。

Description

本発明は、インターネット又はイントラネットに結合されたサーバーに記憶されたドキュメントのインデックスのように、データベース内のドキュメントを探索するためのサーチエンジンの分野に係り、より詳細には、本発明は、問合せに対するデータベース内のドキュメントの関連性スコアを推定するためのドキュメント関連性ファンクションを決定する方法及び装置に係る。
ドキュメントの大規模で多様性のあるコレクションをインデックし、しかも、問合せに応答して結果ドキュメントの短い関連性リストをユーザに返送することのできるサーチエンジンの開発は、長年、困難な問題と認識されてきた。世界中のホストコンピュータに記憶された数十億のドキュメントを現在含んでいるインターネットは、特に多様性のある大規模なドキュメントコレクションを表わしている。サーチエンジンのユーザは、通常、短い問合せをサーチエンジンに供給し、この問合せは、「危険な廃棄物」又は「カントリーミュージック」等の幾つかの用語(term)のみを含み、サーチエンジンが関連性ドキュメントのリストを返送することを期待する。現実に、サーチエンジンは、数十又は数百のドキュメントを返送できるが、ほとんどのユーザは、サーチエンジンにより返送されたリストの最上位3つ又は2つのドキュメントしか見ないことが多い。従って、ユーザにとって有用であるために、サーチエンジンは、ユーザが提示した問合せが与えられると、数十億のドキュメントの中から、人間のユーザに最も関心のある2つ又は3つのドキュメントを決定できねばならない。過去において、サーチエンジンの設計者は、問合せ及びドキュメントを入力として得て関連値を返送する関連性(リラバンス(relevance))ファンクションを構成するよう試みていた。その関連値は、例えば、サーチエンジンによりインデックスされたドキュメントのリストを生成するのに使用でき、このリストは、この必要性に応じるために問合せに対する関連性の順序でドキュメントをランク付けする。このリストにおける最上位2つ又は3つのドキュメントがユーザにとって有用であるためには、その基礎となる関連性ファンクションが、問合せに対する所与のドキュメントの関連性を正確且つ迅速に決定できねばならない。
真の関連性のユーザ認識は、多数のファクタにより影響されるが、その多くは非常に主観的である。これらの好みは、一般に、関連性ファンクションを定義するルールのアルゴリズムセットにおいて捕えることが困難である。更に、これらの主観的ファクタは、時間と共に変化することがあり、例えば、現在事象が特定の問合せ用語に関連付けられたときに変化することがある。別の例として、インターネットで入手できるドキュメントの集合的コンテンツの時間的変化も、特定の問合せに対する所与のドキュメントの相対的関連性のユーザ認識を変化させ得る。強く関連していると認識しないドキュメントを含む返送リストをサーチエンジンから受け取るユーザは、直ちに苛立つ状態となり、サーチエンジンの使用を断念することになる。
上記背景に鑑み、問合せに対するドキュメント関連性の1つ以上の人間ユーザ認識を反映しながらも、コンピュータのアルゴリズムとして容易に実施することのできるドキュメントランク付けファンクションを決定する方法を案出することが要望される。更に、データベース内の基礎的なドキュメント及び時間に伴うユーザの関心の両方の変化に迅速に適応できる方法を案出することも要望される。
本発明は、問合せに対するデータベース内のドキュメントの関連性スコアを推定するためのドキュメント関連性ファンクションを決定する方法を提供する。第1に、複数のテスト問合せの各々に対して、結果ドキュメントの各セットがデータベースから収集される。次いで、各テスト問合せに対して、各結果セット内のドキュメントのサブセットが選択され、そしてトレーニング関連性スコアのセットがサブセット内のドキュメントに指定される。最終的に、複数のテスト問合せ、ドキュメントのサブセット、及びトレーニング関連性スコアのセットに基づいて、関連性ファンクションが決定される。
ある実施形態は、更に、各問合せに対してドキュメントの各結果セット内のドキュメントのサブセットを選択する方法を提供する。第1に、各結果セットからドキュメントが選択される。次いで、その選択されたドキュメントを現在問合せに関連付ける代用関連性スコアが決定される。次いで、この決定された代用関連性スコアに基づいて、その選択されたドキュメントが、複数の関連性ティア(段)の中の少なくとも1つの関連性ティアに指定される。次いで、終了条件に到達するまで、選択、決定及び指定が繰り返される。終了条件とは、各関連性ティアが少なくとも各所定数のドキュメントを含むことでもよいし、又は最も高い関連性ティアが少なくとも所定数のドキュメントを含むことでもよい。他の終了条件を使用してもよい。
これら実施形態のあるものは、更に、各問合せに対しドキュメントの各結果セットから選択されたドキュメントのサブセット内のドキュメントにトレーニング関連性スコアのセットを指定する方法を提供する。第1に、結果セットからのドキュメントのサブセット内の第1の複数のドキュメントの各々が、各複数のヒューマンサブジェクトに対して提示される。第1の複数のドキュメントにおけるドキュメントは、所定の範囲内の代用関連性スコアを有する。1つ以上のヒューマンサブジェクトは、問合せに対して提示されたドキュメントの個々の関連性スコアを決定する。次いで、問合せに対して提示された各ドキュメントに、ヒューマンサブジェクトにより決定された個々の関連性スコアに基づいて、トレーニング関連性スコアが指定される。
ある実施形態では、関連性ファンクションを決定するために、関連性ファンクションの構成に予想変数として使用されるべき特徴のセットが最初に構成される。このセットにおける特徴の各々は、各ドキュメント、各問合せ又はその両方の1つ以上のプロパティの関数でよい。従って、関連性ファンクションは、パラメータ(例えば、係数)及びベースファンクションの限定セットに関してパラメータ化される。関連性ファンクションは、特徴のセットをその入力として得て、関連値をその出力として返送する。同様に、各ベースファンクションは、特徴のサブセットをその入力として得て、値を出力する。次いで、特定の問合せに対する所与のドキュメントのトレーニング関連性スコアを、その特定の問合せに対する所与のドキュメントに適用されたドキュメントランク付けファンクションにより発生される値に関連付けるための部分エラーが定義される。複数の所与のドキュメント及び複数の特定の問合せに対してこの部分エラーの定義を繰り返して、部分エラーのセットが形成される。次いで、部分エラーのセットの関数である合計エラーを最小にするようにパラメータが選択される。最終的に、ドキュメント及び問合せが与えられたときに関連値を発生する関連性ファンクションが決定される。任意であるが、ドキュメントランク付けファンクションは、関連性ファンクションに基づいて決定される。ドキュメントランク付けファンクションは、問合せ及び複数のドキュメントが与えられると、リスト内のドキュメントの関連値が単調に減少するようなドキュメントの順序付けされたリストを発生する。
本発明の別の態様は、コンピュータシステムに関連して使用するためのコンピュータプログラム製品を提供する。このコンピュータプログラム製品は、コンピュータ読み取り可能な記憶媒体と、該媒体に記憶されたコンピュータプログラムメカニズムとを備えている。このコンピュータプログラムメカニズムは、次のものを含む。
(a)複数のテスト問合せの各々に対してデータベースからドキュメントの各結果セットを収集するための収集モジュール;
(b)複数のテスト問合せの各テスト問合せに対して各結果セット内のドキュメントのサブセットを選択するためのサンプリングモジュール;
(c)各選択されたサブセット内のドキュメントにトレーニング関連性スコアのセットを指定するためのスコア付けモジュール;及び
(d)複数のテスト問合せ、ドキュメントのサブセット、及びトレーニング関連性スコアのセットに基づいて、関連性ファンクションを決定するための関連性ファンクション発生モジュール。
本発明の上記特徴及び効果、並びにその付加的な特徴及び効果は、添付図面を参照した本発明の好ましい実施形態の以下の詳細な説明から明確に理解されよう。多数の図面全体にわたり対応する部分が同じ参照番号で示されている。
図1を参照すれば、コンピュータネットワーク100は、ネットワーク105に接続された1つ以上のクライアントコンピュータ104を備えている。ネットワーク105は、インターネットでよく、又は他の実施形態では、イントラネットでよい。ネットワーク105がインターネットである実施形態では、ワールドワイドウェブ102として知られたドキュメント103のコレクションが、クライアントコンピュータによりネットワーク105を経て検索するのに利用できる。インターネットでは、ドキュメントは、「http://www.av.com.」のようなユニフォームリソースロケータにより探索される。このURLをドキュメントサーバー(図示せず)に供給することにより、URLに対応するドキュメント103をアクセスすることができる。
ドキュメント及びクライアントコンピュータに加えて、コンピュータネットワーク100は、サーチエンジンを備えている。インターネットに使用できるサーチエンジンは、例えば、AltaVista(URLhttp://www.av.comにおける)、Google(URLhttp://www.google.comにおける)、及びYahoo!(URLhttp://www.yahoo.comにおける)を含むが、これらに限定されない。サーチエンジンは、通常、ワールドワイドウェブにおけるドキュメントをインデックスするデータベースを備えている。特定の話題に関連したドキュメントの検索を希望するが、そのようなドキュメントのURLに確信がもてないか又はそれを知らないクライアントコンピュータ104−1のユーザは、通常、ネットワーク105を経て、サーチエンジンへ問合せ112を提示する。サーチエンジン106は、問合せ112を受け取った後に、ドキュメントのデータベースを検査し、ユーザがその提示した問合せ112に強く関連しているとみなされるドキュメントを見出すよう試みる。
ある実施形態では、ドキュメント関連性ファンクションを決定する方法が提供され、この関連性ファンクションは、サーチエンジン106により使用されるもので、関連性ファンクション決定システム108により決定される。この関連性ファンクション決定システム108は、ある実施形態では、サーチエンジン106を実施するコンピュータシステムとは異なるコンピュータシステムにおいて実施されてもよい。他の実施形態では、単一のコンピュータシステムを使用して、サーチエンジンの機能と、関連性ファンクション決定システム108の機能とを実施してもよい。
関連性ファンクション決定システム108の実施形態では、複数のテスト問合せに対してドキュメントの結果セットが収集される。ある実施形態では、クライアントコンピュータ104のユーザによりサーチエンジン106へ提示された問合せのログに少なくとも一部分基づいて複数のテスト問合せが決定される。ある実施形態では、テスト問合せを1つ以上のサーチエンジン106へ提示し、そしてそこからの応答、通常、URLのリストを受け取ることにより、ドキュメントの結果セットが決定される。関連性ファンクション決定システムは、任意であるが、ネットワーク105に結合され、従って、結果セットにおける1つ以上のドキュメントを検索することができる。関連性ファンクション決定システムの典型的な実施形態は、1つ以上のヒューマンサブジェクト110へのアクセスを含む。このヒューマンサブジェクトを使用して、複数のテスト問合せにおける1つ以上の問合せに対して結果セットにおけるドキュメントのトレーニング関連性スコアのセットを与えることができる。
図2Aを参照すれば、典型的な問合せ112は、1つ以上の用語202を含む。例えば、図示された問合せは、3つの用語を含む。このような問合せは、「3用語」問合せと称される。同様に、1つの用語しか含まない問合せは、「1用語」問合せと称され、そして2つの用語を含む問合せは、「2用語」問合せと称される。個々の用語は、ユーザにより提示されたときに、ブランクスペース又はおそらく他の何らかの手段で境界定めされる。
図2Bを参照すれば、複数のテスト問合せ204は、1つ以上の問合せ112を含む。ある実施形態では、複数のテスト問合せ204は、少なくとも1つの1用語問合せ112−1と、少なくとも1つの2用語問合せ112−2とを含む。他の実施形態では、複数のテスト問合せ204は、1用語問合せのみ、2用語問合せのみ、3用語問合せのみ、或いはおそらく4つ以上の用語を有する問合せを含む問合せ形式の任意の組合せを含んでもよい。
一実施形態では、複数のテスト問合せ204は、サーチエンジンへユーザが提示した問合せ112をサーチエンジン106により記憶した1つ以上のログから問合せをサンプリングすることにより決定される。問合せストリングの予備的セットが最初にログからサンプリングされる。次いで、ユーザベースの知識範囲外であると決定された要旨に関する問合せが排除される。最終的に、その予備的セット内の残りの問合せが、複数のテスト問合せ204に指定される。
別の実施形態では、複数のテスト問合せは、1ワードエントリーの語彙集からワードをサンプリングし、そしてこのようにサンプリングされた各ワードを複数のテスト問合せに指定することにより、選択される。ワードをサンプリングできる語彙集は、例えば、Merriam−Webster’s Collegiate Dictionary、メリアン−ウェブスター・インク、第10版(1998年)のような辞書を含む。更に別の実施形態では、2つ以上のワードの組合せが語彙集からサンプリングされ、そしてそれらの組合せが複数のテスト問合せ204に指定される。
複数のテスト問合せ204が決定されると、データベースからのドキュメントの各結果セット304が複数個収集される(208)。ある実施形態では、複数のテスト問合せ204における各テスト問合せ112がサーチエンジン106に提示される。上述したように、ある実施形態では、データベースが、ワールドワイドウェブから検索されたドキュメントのインデックスである。これらの実施形態では、ドキュメントの結果セットは、時には、各テスト問合せをサーチエンジンに提示し、テスト問合せ内の1つ以上の用語を含むワールドワイドウェブのドキュメントのリストをサーチエンジンから受け取り、そしてそのドキュメントリストにおける1つ以上のドキュメントを各結果セットに追加することにより、収集される。サーチエンジンは、それに応答して、ドキュメント(通常、URLにより参照される)のリストを返送し、各ドキュメントは、テスト問合せ112における用語の少なくとも1つを含む。このようにして、各々の結果セット304は、1つ以上のドキュメント210を含み、そして各ドキュメント210は、1つ以上のテスト問合せ112に関連付けられる。各々の結果セット304は、ドキュメントの完全なコンテンツではなく、ドキュメント210に対する識別情報(例えば、各ドキュメントのURL、ドキュメントのタイトル又は部分タイトル、及び1つ以上の問合せ用語を含んでもよいドキュメントの小さな部分)のみを記憶するのが好ましい。
他の実施形態では、各テスト問合せ112の各結果セット304は、複数のテスト問合せ204からの各問合せ112を、ワールドワイドウェブのドキュメントをインデックスする2つ以上のサーチエンジンへ提示することにより収集される。例えば、ある実施形態では、テスト問合せが、AltaVistaのサーチエンジン(URLhttp://www.av.comにおける)及び第2のサーチエンジンの両方に提示される。ある実施形態では、第2のサーチエンジンがGoogleのサーチエンジン(URLhttp://www.google.comにおける)である。次いで、各サーチエンジンにより決定される200個の最高ランクドキュメント(ランキング1−200を有する)のURLが受け取られる。次いで、AltaVistaのサーチエンジンにより位置1−5にランク付けされた5つのドキュメント(提示された問合せに対して最高の関連性に対応する)が各結果セットに追加される。更に、ランキングにおいて位置6−200の中からランダムに選択された位置を有する5つのドキュメントが選択され、これらのドキュメントが各結果セットに追加される。次いで、第2のサーチエンジンにより位置1−5にランク付けされた5つのドキュメントが各結果セット208に追加される。更に、第2のサーチエンジンにより5つのランダムに選択された位置にランク付けされたドキュメントが各結果セットに追加される。第2のサーチエンジンにより返送されるURLのリストにおける各ドキュメントに対して、各結果セットが、第2のサーチエンジンにより返送されるURLのリストからドキュメントを追加する前に既にドキュメントを含む場合には、次に最も高い位置(現在位置の値に1をプラスしたものに等しいランクを有する位置)におけるドキュメントが検査され、そしてそれが各結果セットにまだない場合には、各結果セットに追加される。逆に、ドキュメントが各結果セットに既に見つかった場合には、ドキュメントのリストの終わりに到達するまで、次に最も高い位置のドキュメントが検査される。これは、もし可能であれば、第2のサーチエンジンにより返送されたURLのリストからの10個のドキュメントが各結果セットに追加されるまで繰り返される。従って、ある実施形態では、各結果セットは、可能であれば、20個のドキュメントを含む。
データベースからのドキュメントの結果セットを収集できる方法について述べたが、結果セットから又は1つ以上の各結果セットからドキュメントのサブセットを選択する方法について説明する。本明細書全体を通して、おそらくセットにおける全アイテムを含むセットの一部分を示すのに「サブセット」という述語を使用する。通常、複数の各結果セット304(208)におけるドキュメントの数が多く、これら全てのドキュメントに正確なトレーニング関連性スコアを経済的に指定するのを妨げる。更に、ある実施形態では、計算リソース(図1の関連性ファンクション決定システム108に対するメモリの量及び処理速度)に限度があるために、ドキュメントランク付けファンクションの決定は、比較的少数のドキュメントにトレーニング関連性スコアが指定された場合しか実施できない。この点について、比較的少数とは、全体の1%以下を意味する。例えば、好ましい実施形態では、複数の各結果セット304(208)は、4000個以上のドキュメントを含むが、トレーニング関連性スコアが指定されるドキュメントの選択されたサブセットは、40個のドキュメントしか含まない。別の実施形態では、トレーニング関連性スコアは、40から200の範囲の多数のドキュメントに指定される。
図3を参照すれば、1つ以上の各結果セット304の各々は、複数のテスト問合せの各々を参照して検索されるドキュメントを含む。ある実施形態では、各ドキュメントを、そのドキュメントを含む各結果セットの問合せに関連付ける代用関連性スコアが最初に決定される。この代用関連性スコアは、各結果セットの問合せをサーチエンジンに提示し、そしてサーチエンジンにより返送されるリストにおけるドキュメントの位置の関数としてドキュメントの代用関連性スコアを決定することにより、決定できる。例えば、図3の問合せ1がサーチエンジンに提示され、そして問合せ1の提示に応答してサーチエンジンにより与えられるリストにおけるドキュメント306−1の位置の関数としてドキュメント306−1に代用関連性スコアが指定される。
次いで、各々の結果セット304に対し、関連性ティア(tier)のセット308が確立される。関連性ティアの各セット308は、1つ以上の関連性ティア310を含む。ある実施形態では、各関連性ティア310には、最小の代用関連性スコア、及び任意であるが、最大の代用関連性スコアが関連付けされる。ある実施形態では、各結果セット304内の1つ以上のドキュメントは、そのドキュメントの代用関連性スコアが、関連性ティアに関連付けられた最小の代用関連性スコア以上となるように、各関連性ティア310に指定される。各結果セット304における1つ以上のドキュメントは、多数のやり方で選択することができ、例えば、各結果セット304内のドキュメントの中からランダムにサンプリングすることにより選択することができる。ドキュメントを指定する一例が、10の代用関連性スコアを有するドキュメント306−1により示されている。関連性ティア310−11に関連付けられた最小代用関連性スコアは、8でよい。従って、ドキュメント306−1は、ティア310−11に指定される。各結果セット304からドキュメントを選択して関連性ティア310に指定する他の方法も考えられる。関連性ティアは、通常、低い代用関連性スコアをもつ結果を表わすドキュメントを含む。
ある実施形態では、各関連性ティア310は、更に、それに関連した最大の代用関連性スコアを有する。例えば、ティア310−N2は、それに関連した最小関連性スコアが4でよく、そしてそれに関連した最大関連性スコアが8でよい。関連性ティア310−N1は、それに関連した最大関連性スコアが100でよく、そしてそれに関連した最小関連性スコアが8でよい。これらの実施形態では、ドキュメントの代用関連性スコアが、ティアに関連した最大代用関連性スコア未満であり且つティアに関連した最小代用関連性スコア以上である場合には、ドキュメントが所与の関連性ティアに指定される。例えば、ドキュメント306−2は、代用関連性スコアが5でよい。従って、ドキュメント306−2は、関連性ティア310−N2には指定されるが、関連性ティア310−N1には指定されない。これら実施形態の幾つかにおいて、各ティアの最大及び最小スコアに関連した関連性スコアの範囲は、それらの範囲が重畳しないように選択される。別の実施形態では、例えば、各ティアが指定の最小スコアを有するが、指定の最大スコアはもたない状態で、範囲が重畳する。
ある実施形態では、各結果セット304から関連性ティア310へドキュメントを指定するプロセスは、各関連性ティア310が少なくとも各所定数のドキュメントを含むまで繰り返される。例えば、ある実施形態では、指定を行うプロセスは、少なくとも10個のドキュメントが各関連性ティアに指定されるまで繰り返される。別の実施形態では、各ティアに必要とされるドキュメントの最小数が異なってもよい。例えば、ティア1、2及び3に必要とされるドキュメントの最小数は、各々、10、40及び100でよい。
ドキュメントのサブセットを選択する方法について説明したが、サブセット内のドキュメントにトレーニング関連性スコアを指定するための方法を説明する。ある実施形態では、関連性ティア310からの第1の複数のドキュメントが1つ以上のヒューマンサブジェクト(図1の要素110)に提示される。例えば、第1の複数のドキュメントは、複数のテスト問合せにおける各問合せに関連した第1の(即ち最も高い)関連性ティア310−11、・・・310−N1からのドキュメントだけを含む。ヒューマンサブジェクトは、それらに提示された各ドキュメントを、関連する問合せと共に検査し、そしてドキュメントを問合せに関連付ける個々の関連性スコアを決定する。ある実施形態では、非常に多数(例えば、50個)のヒューマンサブジェクトを使用して、各ドキュメントが評価され、個々の関連性スコアの統計学的に信頼性のあるセットが与えられる。
ある実施形態では、各ヒューマンサブジェクトは、多数のドキュメント−問合せの対と、次のステートメントを含む調査形態と共に与えられる。
−あなたは、お気に入りのサーチサイトにいることを想像する。あなたは、<問合せに関連したコンテクスト>であるので、<問合せ>をサーチする。例えば、あなたは、天の川の中の惑星の名前を見つけたいので、「天の川の中の惑星」をサーチする。
−あなたのお気に入りのサーチサイトにより配送される多数の問合せ結果の中には、次のURL:<ドキュメントのURL>がある。URLをクリックし、そこに存在するドキュメントを読み取り、そしてそのドキュメントを評価した後に、数字1、2、3、4、5、6、7、8、9&10の中からスコアをそれに指定することによりそれが問合せにどれほど関連しているが指示する。数字10を使用して、考えられる最も高い関連性を指示し、そして数字1を使用して、考えられる最も低い関連性を指示する。
従って、これらの実施形態では、ヒューマンサブジェクトは、数字1−10の1つから個々の関連性スコアを指定し、10は、最も高い関連性を指示し、そして1は、最も低い関連性を指示する。ある実施形態では、個々のスコアの演算平均が決定され、そしてこの平均は、ドキュメントのトレーニング関連性スコアとして使用される。ドキュメントのトレーニング関連性スコアを決定する他の方法も考えられ、これは、個々の関連性スコアの中間値を使用すると共に、所定スレッシュホールドより低いバリアンスをもつように選択された個々の関連性スコアのサンプルの演算平均を使用することを含むが、これらに限定されない。
ある実施形態では、トレーニングスコアは、サブセット内のドキュメントから選択された第2の複数のドキュメント内のドキュメントに指定される。第2の複数のドキュメントは、第1の複数のドキュメントの一部分として人間のユーザに提示されなかったサブセット内の全てのドキュメントを含んでもよい。ある実施形態では、第2のサブセット内のドキュメントには、所定の低い関連性トレーニングスコアが指定される。例えば、最も低い各関連性ティア310−M1、310−M2(図示されていない第2の問合せに対する)、・・・310−MNからのドキュメントには、0の所定関連性スコアが指定されてもよい。ある実施形態では、各問合せに対する次に最も低い各関連性ティアからのドキュメントには、1.5の所定関連性スコアが指定されてもよく、そして第2サブセットにおけるドキュメントを有する他のティアについても同様である。このように、関連性ティア310における全てのドキュメントには、全ドキュメントをヒューマンサブジェクトに提示せずに、トレーニング関連性スコアを指定することができる。関連性ティア310内の全ドキュメントに対してヒューマンサブジェクトから個々の関連性スコアを得るには、禁止的に経費がかかることになり得る。更に、ヒューマンサブジェクトによりドキュメントに指定された低い個々の関連性スコアからは、通常、あまり情報が得られない。
トレーニング関連性スコアをドキュメントに指定する方法について上述したが、ドキュメントのサブセット、指定されたトレーニング関連性スコア、及び複数のテスト問合せに基づいて関連性ファンクションを決定する方法を説明する。ある実施形態では、マシン学習技術がこの目的で使用される。マシン学習技術は、関連性ファンクションにより発生されたトレーニング関連性スコア及び関連性スコアに関連するエラーを最小にするのに加えて、関連性ファンクションを決定し、新たな問合せ(問合せのテストセットに含まれない)又は新たなドキュメント(関連性ティアにない)に対する関連性スコアが、ドキュメントが関連性ティアにあり且つ問合せがテストセットにあるときに、問合せに対しドキュメントについて決定されたトレーニング関連性スコアに近いものとなるようにする。ある実施形態では、論理的回帰が、関連性ファンクションを決定するためのマシン学習技術として使用される。論理的回帰は、情報検索の状況における関連性ランキングを改善するために回顧的実験により立証されている。例えば、参考としてここに援用するグレー、F.Cの「Inferring the Probability of Relevance Using the Method of Logistic Regression」、SIGIR1994:222−231を参照されたい。
図4を参照すれば、関連性ファンクションを決定する方法400において、ステップ402では、予想変数として使用されるべき特徴のセットが先ず決定される。これら特徴のセットは、関連性ファンクションの構成において予想変数として使用されるべきである。特徴とは、本明細書及び特許請求の範囲での意味としては、ドキュメントに対する問合せの関係の見地、又はドキュメント自体の見地を定量化する手段である。ドキュメント及びおそらく問合せが与えられると、特徴は、値を返送する。ドキュメント自体のコンテンツのみに基づいて値を返送する特徴は、問合せ独立の特徴と称される。問合せ独立の特徴は、ドキュメント自体のプロパティに依存してもよい。更に、問合せ独立の特徴は、ドキュメントが位置するサーバーのプロパティ、及びおそらくは、このサーバーとウェブ上の他のサーバーとの関係のプロパティに依存してもよい。1つ以上の値を返送するのにドキュメント及び問合せの両方を必要とする特徴は、問合せ従属の特徴と称される。本明細書全体にわたり、ドキュメントを問合せに関連付けるために選択されるi番目の特徴は、ziで表わす。1つ以上の個々の特徴と含む、選択された特徴のセットは、表示の便宜上、zで表わし、z={z1、z2、・・・zF}、そしてFは、このように選択された特徴の数である。
特徴のセットに含ませることのできる問合せ独立の特徴は、例えば、次のものを含むが、これらに限定されない。
−Eigenrank(ER):ウェブの入射マトリクスから導出された確率論的マトリクスの固有ベクトルのエレメントに関連した1つ以上の値であり、この場合、リンクが有向グラフのエッジと考えられる。参考としてここに援用するページL、ブリンS、モトワニR、及びウイノグラッドT著の「The PageRank citation ranking: Bringing order to the Web」を参照されたい。2003年4月10日に最後にアクセスしたウェブサイト、http://citeseer.nj.nec.com/page98pagerank.html
−HUB:ウェブの入射マトリクスの接続性に関する値、特に、グラフに対する単一値分解のいわゆるクレインベルグ応用。参考としてここに援用する、Proceedings of the Nineth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998におけるクレインベルグL著の「Authoritative sources in a hyperlinked environment」を参照されたい。
−URL深さ:ドキュメントを検索するのに必要なウェブサイトの横断深さを表わす値で、URLにおける「/」の数に少なくとも一部分基づいて決定された値。
−クオリティスコア:ドキュメントの権限を表わす値で、ドキュメントの他の特徴の関数として決定された値。
−スパムインデックス:ドキュメントがおそらく「スパムドキュメント」であるかどうか指示する値で、例えば、ドキュメントが用語の過剰な繰り返しを含み、ドキュメントが、用語を含む問合せに対して関連性を人為的に向上させるように設計されていることを指示するときには「1」の値。
−家族の馴染み易さ:ドキュメントが、おそらく家族向けユーザに反対されそうなことが分かるコンテンツを含むかどうか指示するのに使用される値で、例えば、ドキュメントが幾つかのポルノ的用語のリストの1つ以上を含むときには「1」の値であり、さもなければ、「0」の値である。
−ドキュメント長さ:ドキュメントにおける個々の用語の数を整数として表わしたもの。
特徴のセットに含まれることのある問合せ従属の特徴は、例えば、次のものを含むが、これらに限定されない。
−アンカーテキストスコア:現在ドキュメントへのリンク及び現在問合せ内の1つ以上の用語の両方を含むドキュメントの数を表わす値。
−一致位置:ドキュメント内において、問合せからの用語がドキュメントのタイトル又は本体に見つかるかどうか指示する値で、用語が本体には見つかるがタイトルには見つからない場合には、本体のどれほど深部で用語が見つかるか指示する値。
−一致頻度:問合せからの用語がドキュメントにどれほど多く見つかるか指示する値で、例えば、問合せからの用語がドキュメントに見つかる回数。
−用語の重み:情報検索(IR)の分野における標準的特徴で、例えば、問合せからの用語がドキュメントのデータベース内で見つかる回数の対数の逆数を、全データベースサイズの分数として表わしたもの。
−接近性:多用語問合せの場合に、問合せ内の用語がドキュメント内で互いに隣接して見つかるかどうか指示する値。
ある実施形態では、選択された特徴のセットは、上述した特徴の全部を含む。従って、これらの実施形態では、z={Eigenrank(ER)、Hub、URL深さ、クオリティスコア、スパムインデックス、家族の馴染み易さ、ドキュメント長さ、アンカーテキストスコア、一致位置、一致頻度、用語の重み、及び接近性}である。他の実施形態では、これら特徴のサブセットを選択することができる。更に別の実施形態では、上述したものに加えて特徴のセットに特徴を含ませることができ、例えば、それ自体上記特徴のサブセットの関数である派生特徴を含ませることができる。
再び、図4を参照すれば、ドキュメント関連性ファンクションを決定する方法400における次のステップは、ステップ404である。このステップ404において、関連性ファンクションは、係数及びベースファンクションの限定セットに関してパラメータ化される。ある実施形態では、ランク付けファンクションが特徴の一次関数としてパラメータ化される。
Figure 2006524869
但し、Rは、係数の数で、決定されると、関連性ファンクションp(z)をR特徴zに関して定義するものである。他の実施形態では、関連性ファンクションのパラメータ化は、特徴のより多くの複素数関数を含み、例えば、次のようになる。
Figure 2006524869
但し、各ベースファンクションar(z)は、おそらく特徴のセットを全て含む特徴のセットのサブセットを入力として受け取り、そして値を出力する。ベースファンクションは、特徴のセットの幾つかの二次関数を含んでもよく、例えば、a1(z)=z13、a2(z)=z2 2、又はa3(z)=z23を含んでもよい。又、これらの関数は、特徴のセットのあるものの、より一般的な非一次関数、例えば、a4(z)=√z1、a5(z)=|z2|、又はa6(z)=z3/z1を含んでもよい。
ある実施形態では、ベースファンクションそれ自身は、係数によりパラメータ化される。例えば、ベースファンクションは、ウェーブレット関数を含み、各ウェーブレット関数は、膨張、並進移動又は他の考えられるプロセスによりマザーウェーブレットに関連付けられ、その正確な関係は、付加的な係数により決定される。ある実施形態では、ベースファンクションは、神経ネットワークを含んでもよい。ベースファンクションそれ自体が係数に依存するような実施形態では、関連性ファンクションは、次のようにパラメータ化される。
Figure 2006524869
但し、各ベースファンクションarに関連した係数Jrの数は、ベースファンクションごとに異なってもよい。ある実施形態では、関連性ファンクションが、係数及びベースファンクションの一般的な非一次関数となる。
Figure 2006524869
ある実施形態では、ベースファンクションは判断ツリーを含む。例えば、ベース学習装置は、図5に示すように、2進分類ツリー500でよい。図5を参照すれば、2進分類ツリーは、ブロック502−1において、第1の「スプリット変数」x1を検査し、その値を「スプリット位置」b1と比較する。例えば、スプリット変数は、特徴の1つの値に等しい、x1=z1。別の例では、スプリット変数は、選択された特徴のセットにおける1つ以上の特徴の一次又は非一次関数である。ブロック502−1において実行される比較の結果に基づいて、ツリーの流れは、ブロック502−2又はブロック502−3のいずれかに進む。各ブロック502には、スプリット変数及びスプリット位置が関連される。従って、スプリット変数(例えば、508−1)及びスプリット位置(例えば、508−2)は、ツリー400で表わされるベースファンクションを決定するのに必要な係数508である。
最終的に、ブロック502で行われた比較に基づいて、ツリーの流れは、4つの終端ノード506の1つに進む。各終端ノードにおいて、終端値(例えば、508−3)がベースファンクションの値として指定される。図5において、ツリー400は、2進クラシファイヤであり、終端値は、ツリー400がドキュメントを分類する2つのクラスの一方に対応して「−1」又は「1」の値のみをとる。又、終端値(例えば、508−3)は、ツリー400で表わされるベースファンクションを決定するのに必要な係数508でもある。
更に別の実施形態では、ベースファンクションは、分類及び回帰(CART)ツリーを含む。CARTツリーは、関連性ファンクションそれ自体をパラメータ化するのに使用されてもよいし、或いはパラメータのサブセットに対する関連性ファンクションの勾配をパラメータ化するのに使用されてもよい。エラーを最小にするようにCARTツリーのパラメータを選択する方法を含むCARTの完全な説明については、参考としてここに援用する、L.ブレーマン、J.H.フリードマン、R.A.オルシェン、及びC.J.ストーン著の「Classification and Regression Tree」、カリフォルニア州ベルモント:ワズワース、1984年、を参照されたい。
ベースファンクションが2進分類ツリーである実施形態では、関連性ファンクションは、選択された特徴のセットに各ベースファンクションを適用することから返送される終端値の線形結合の関数として決定される。これらの実施形態において、関連性ファンクションを決定するために、マスタークラシファイヤが最初に構成される。このマスタークラシファイヤは、ベースファンクションの線形結合の結果の「投票(vote)」として表現することができる。
Figure 2006524869
但し、各ベースファンクション(ツリー)は、arと示され、ベースファンクションのパラメータ(スプリット変数、スプリット位置、及び終端値)は、d1、...dJrと示され、ベースファンクションの結合のパラメータは、crと示され、そしてsin(.)関数は、引数が正又はゼロであるときにマスタークラシファイヤに「1」の値を指定し、さもなければ、「−1」の値を指定することにより「投票」する。これらの実施形態では、関連性ファンクションは、ベースファンクションの重み付けされた和の逆論理変換である。
Figure 2006524869
但し、
Figure 2006524869
そしてexp(.)は、指数関数を表わす。表示y=1は、特徴が与えられると、確率は、値「1」に関連したクラスにドキュメントが属する見込みを測定することを指示する。ステップ406に関連して以下に述べるように、これらの実施形態では、値「1」に関連したクラスは、問合せに対して高い関連性があると考えられるドキュメントのクラスである。従って、この確率の値は、それ自体、問合せに対するドキュメントの関連性の推定値として使用される。
関連性ファンクションを決定する方法400(図4)における次のステップ406を詳細に説明する前に、決定された関連性ファンクションと、トレーニング関連性スコアとの間の関係について更に述べる。図3を参照すれば、関連性ティア310は、1つ以上のドキュメントを含み、各ドキュメントには、それが発生したところの各結果セット304に関連した問合せにそれを関係付けるトレーニング関連性スコアが指定される。表示の便宜上、n番目の問合せに関連したm番目の関連性ティアにおけるj番目のドキュメントのトレーニング関連性スコアは、ynmjと示される。又、特徴の値は、おそらく、問合せ及びドキュメントに依存し、従って、n番目の問合せに関連したm番目の関連性ティアにおけるj番目のドキュメントに関連した特徴の値も、同様に、znmjと示される。ここに開示するようなマシン学習技術は、トレーニング関連性スコアに関連した部分エラー及び関連性ティアにおける特徴の値に基づいてドキュメント関連性ファンクションを決定する。関連性ティアにおけるドキュメントは、例えば、問合せのテストセットにない問合せに対してウェブからのドキュメントを特徴付けるために関連性ファンクションを使用するときに遭遇するドキュメントの僅かな(一般的に1%未満)部分を表わす。従って、マシン学習技術は、「一般化エラー」、即ち関連性ファンクションにより発生される関連性スコアと、問合せのテストセットにない問合せ或いは関連性ティアにないドキュメントに対してユーザが決定する関連性スコアとに関連したエラー、を制御するように試みなければならない。
ある実施形態では、方法400のステップ406は、m番目の関連性ティアにおけるj番目のドキュメント及びn番目の問合せに関連した部分エラーenmjを、ドキュメント及び問合せに対するトレーニング関連性スコアと、関連性ファンクションにより発生された値との間の差の2乗の関数として定義することを含む。
nmj=(ynmj−p(znmj))2
他の実施形態では、このエラーは、トレーニング関連性スコアと、関連性ファンクションにより発生された値との間の差の絶対値の関数として定義される。
nmj=|ynmj−p(znmj)|
更に別の実施形態では、トレーニング分類ファンクションが最初に定義され、この分類ファンクションは、ドキュメントのトレーニング関連性スコアに少なくとも一部分基づいて多数のクラスの少なくとも1つにドキュメントを指定する。例えば、図3を再び参照すれば、トレーニング分類ファンクションは、各テスト問合せに関連した最も高い関連性ティア310−11、・・・及び310−N1からの全てのドキュメントが第1クラスに指定されるように定義されてもよい。このクラスのメンバーは、値「1」に関連付けることができる。この第1クラスのメンバーとして分類されない関連性ティア310のドキュメントは、第2クラスに指定されてもよい。第2クラスのメンバーは、値「−1」に関連付けることができる。ある実施形態では、3つ以上のクラスを同様に定義することができる。
トレーニング分類ファンクションが2進クラシファイヤで、2つのクラスの一方にドキュメントを指定するような実施形態では、部分エラーが次のように定義される。
Figure 2006524869
但し、
Figure 2006524869

Figure 2006524869
図4を参照すれば、関連性ファンクションを決定するための方法400は、部分エラーを定義するステップ406を1回以上繰り返す。ステップ408は、より多くの部分エラーを決定すべきかどうか決定する。ある実施形態では、各々の問合せに対して各々の関連性ティア(図3の310)における各ドキュメントについて部分エラーが定義されるまで、ステップ406により部分エラーが繰り返し定義される。次いで、方法400のステップ410は、全エラーを最小にするように関連性ファンクションの係数を選択する。ある実施形態では、全エラーは、複数のテスト問合せにおける各問合せに関連した各関連性ティア内の全ドキュメントに対する部分エラーの単なる和である。
Figure 2006524869
他の実施形態では、全エラーは、部分エラーのより複雑な関数でもよく、例えば、部分エラーの重み付けされた和、又は部分エラーの2乗の和でもよい。
関連性ファンクションのパラメータ化については、関連性ファンクションのパラメータ(例えば、係数)が、全エラーを最小にするように決定される。ある実施形態では、全エラーを最小にするパラメータの選択は、ブースト手順を介して行われてもよい。例えば、ブースト手順の1つのバージョン、AdaBoost(その擬似コードは、参考としてここに援用する、MSRI Workshop on Nonlinear Estimation and Classification, 2002におけるシャピアR.Eの「The Boosting Approach to Machine Learning: An Overview」から入手できる)を使用して、部分エラーの重み付けされた和として全エラーを決定するのに適用される一連の重みセットを決定することができる。重みの各セットに対する関連性ファンクションのパラメータは、重みのそのセットで決定される全エラーを最小にするように決定される。例えば、前記のシャピアを参照されたい。別の例として、勾配ブースティングアルゴリズムGradientBoostの実施を使用して、全エラーを最小にする関連性ファンクションのパラメータを選択することができる。例えば、参考としてここに援用する、2001年10月、The Annals of Statistics 29(5)に掲載されたフリードマンJ.Hの「Greedy Function Approximation: A Gradient Boosting Machine」を参照されたい。GradientBoostは、ベースファンクションが分類及び回帰(CART)ツリーであるときに、この目的で使用するのに特に魅力的な技術である。エラーを最小にするためにCARTツリーのパラメータを選択する方法を含むCARTツリーの完全な説明については、参考としてここに援用する、L.ブレーマン、J.H.フリードマン、R.A.オルシェン、及びC.J.ストーン著の「Classification and Regression Tree」、カリフォルニア州ベルモント:ワズワース、1984年、を参照されたい。全エラーを最小にするように関連性ファンクションの係数を決定する他の方法も考えられ、これは、ファンクションの一般化エラーを、そのファンクションに対する入力及び出力のサンプルに基づいて最小にするよう求めるアルゴリズムを含む。
関連性ファンクションが決定されると、ある実施形態では、それを使用して、ランク付けファンクションが更に決定される。第1に、ユーザは、サーチエンジンに問合せを提示する。次いで、問合せに対する関連性についてランク付けされるべきドキュメントのセットがデータベースから検索される。ある実施形態では、問合せに1つ以上の用語を含むドキュメントだけがこのセットに含まれる。他の実施形態では、他の基準を使用して、このセットを選択してもよい。次いで、各ドキュメントに対して、選択された特徴セットの値が、問合せと対にされたドキュメントに対して評価される。次いで、関連性ファンクションを使用して、問合せと対にされたドキュメントに対する関連値が決定される。セット内の各ドキュメントに対して関連値が決定されると、ドキュメントのセットの順序付けされたリストが形成される。この順序付けされたリストは、リストのドキュメントが一連の減少する関連性で順序付けされるように決定される。従って、順序付けされたリストに最初に現われるドキュメントは、そのセットの全ドキュメントの中で数値的に最大の関連値を有し、そして順序付けされたリストに最後に現われるドキュメントは、そのセットの全ドキュメントの中で数値的に最小の関連性スコアを有する。このようにリストを順序付けする方法は、データ構造の分野で良く知られている。
本発明は、コンピュータ読み取り可能な記憶媒体に埋め込まれるコンピュータプログラムメカニズムを備えたコンピュータプログラム製品として実施することができる。図6を参照すれば、ある実施形態において、関連性ファンクション決定システム(図1の108)は、次のものを備えている。
−1つ以上の中央処理ユニット604;
−ネットワーク上の他のコンピュータ(例えば、図1に示すサーチエンジン106)と通信するためのネットワークインターフェイス606;
−中央処理ユニット604により実行するための1つ以上のデータ構造体及び1つ以上のモジュールを記憶するコンピュータ読み取り可能な媒体で構成された一次及び二次記憶装置610;及び
−中央処理ユニット604、ネットワークインターフェイス606、並びに一次及び二次記憶媒体608の中で電子信号を送信及び受信するための内部バス608。
記憶装置610のプログラムモジュールは、CD−ROM、磁気ディスク記憶製品、或いは他のコンピュータ読み取り可能なデータ又はプログラム記憶製品に記憶することができる。又、コンピュータプログラム製品のソフトウェアモジュールは、電子的に、インターネットを経て、或いはさもなければ、搬送波におけるコンピュータデータ信号(ソフトウェアモジュールが埋め込まれた)の送信により、配布されてもよい。記憶装置610は、少なくとも次のものを備えてもよい。
−複数のテスト問合せを記憶するためのデータ構造体612;及び
−ドキュメントの結果セットを識別するか又は表わすデータを記憶するためのデータ構造体614。このデータ構造体614のデータは、通常、ドキュメントの結果セットにおけるドキュメントを参照するURLを含む。
記憶装置610は、更に、次のものを備えてもよい。
−複数のテスト問合せの各々に対してデータベースからドキュメントの各結果セットを収集するための収集モジュール616であって、通常、同じ又は異なるコンピュータシステムのサーチエンジンモジュールをコールして、ドキュメントの結果セットを発生するような収集モジュール616;
−複数のテスト問合せの各テスト問合せに対して各結果セットにおけるドキュメントのサブセットを選択するためのサンプリングモジュール618;
−トレーニング関連性スコアのセットを各選択されたサブセットにおけるドキュメントに指定するためのスコア付けモジュール620;及び
−複数のテスト問合せ、ドキュメントのサブセット、及びトレーニング関連性スコアのセットに基づいて関連性ファンクションを決定するための関連性ファンクション発生モジュール622。
上記で引用した各個々の出版物又は特許或いは特許出願は、あらゆる目的で、その全体をここに援用するものである。
本発明を完全に理解するために、上記説明では、特定の述語が使用された。しかしながら、当業者であれば、本発明を実施するために特定の細部は必要とされないことが明らかであろう。前記実施形態は、本発明の原理及びその実際の応用を最良に説明するために選択されたもので、当業者であれば、本発明及び種々の実施形態を、意図された特定の用途に適するように種々の変更を加えて、最良に利用することができよう。従って、以上の開示は、余すところのないものでもないし、又、本発明を、ここに開示する正確な形態に限定するものでもない。前記教示に鑑み、多数の変更や修正が考えられる。
本発明の範囲は、特許請求の範囲及びその等効物により限定されるものとする。
関連性ファンクション決定システムにより決定されたドキュメント関連性ファンクションを使用するサーチエンジンに問合せを提示するクライアントコンピュータを示す図である。 1つ以上の用語を含む問合せを例示する図である。 問合せのテストセットを示すと共に、問合せのテストセットをサーチエンジンに提示してドキュメントの結果セットを得るところを示す図である。 ドキュメントの結果セットと、ドキュメントのサブセットをそれに指定するための複数の関連性ティアとを示す図である。 関連性ファンクション決定方法を示すフローチャートである。 ベースファンクション、この場合は、2進分類ツリーを例示するブロック図である。 関連性ファンクション決定システムのブロック図である。

Claims (56)

  1. 問合せに対してデータベース内のドキュメントの関連性スコアを推定するためのドキュメント関連性ファンクションを決定する方法において、
    (a)複数のテスト問合せの各々に対し前記データベースからドキュメントの各結果セットを収集するステップと、
    (b)前記複数のテスト問合せの各テスト問合せに対し、
    前記各結果セット内のドキュメントのサブセットを選択し、そして
    前記サブセット内のドキュメントにトレーニング関連性スコアのセットを指定する、
    というようにするステップと、
    (c)前記複数のテスト問合せ、前記ドキュメントのサブセット及び前記トレーニング関連性スコアのセットに基づいて関連性ファンクションを決定するステップと、
    を備えた方法。
  2. 前記決定された関連性ファンクションに少なくとも一部分基づいてドキュメントランク付けファンクションを決定し、該ドキュメントランク付けファンクションは、
    前記データベースからドキュメントのセットを受け取り、
    問合せを受け取り、そして
    前記ドキュメントのセットの順序付けされたリストを出力し、このリストは、前記関連性ファンクションにより決定された最大の関連性スコアを有する前記セットにおけるドキュメントが該リストにおける第1のドキュメントとなるように順序付けされる、
    請求項1に記載の方法。
  3. 前記複数のテスト問合せは、
    ユーザによりサーチエンジンに提示される問合せのログから問合せストリングの予備的セットをサンプリングし、
    ユーザベースの知識の範囲外であると決定された問合せを前記予備的セットから排除し、そして
    前記予備的セット内の残りの問合せを前記複数のテスト問合せに指定する、
    ということにより選択される請求項1に記載の方法。
  4. 前記複数のテスト問合せは、
    1ワードエントリーの語彙集からワードをサンプリングし、そして
    このようにサンプリングされたワードの各々を前記複数のテスト問合せに指定する、
    ということにより選択される請求項1に記載の方法。
  5. 前記複数のテスト問合せを選択する段階は、更に、前記語彙集からサンプリングされた2つ以上のワードの結合を選択しそしてそれら結合を前記複数のテスト問合せに指定することを含む、請求項4に記載の方法。
  6. 前記サブセットを選択する段階は、
    各テスト問合せに対し、各結果セットからドキュメントを選択し、その選択されたドキュメントを現在問合せに関連付ける代用関連性スコアを決定し、そしてその決定された代用関連性スコアに基づいて前記選択されたドキュメントを複数の関連性ティアの少なくとも1つの関連性ティアに指定し、そして
    各関連性ティアが少なくとも各所定数のドキュメントを含むまで前記ドキュメント選択段階を繰り返す、
    ということを含む請求項1に記載の方法。
  7. 前記選択されたドキュメントを指定する段階は、前記代用関連性スコアがティアの各所定スレッシュホールド値より大きいところの前記複数の関連性ティア内の各ティアに前記選択されたドキュメントを指定することを含む、請求項6に記載の方法。
  8. 前記選択されたドキュメントを指定する段階は、前記代用関連性スコアが前記ティアに関連した関連性スコアの各所定範囲内に入るところの前記複数の関連性ティア内のティアに前記選択されたドキュメントを指定することを含む、請求項6に記載の方法。
  9. 前記複数のティアに関連した関連性スコアの各所定範囲は非重畳である、請求項8に記載の方法。
  10. 代用関連性スコアを決定する段階は、
    問合せをサーチエンジンに提示し、そして
    前記サーチエンジンにより与えられる結果ページのリストにおけるドキュメントの位置の関数として代用関連性スコアを決定する、
    ということを含む請求項6に記載の方法。
  11. トレーニング関連性スコアのセットを指定する段階は、
    前記サブセット内の第1の複数のドキュメントの各々を複数のヒューマンサブジェクトに提示し、前記第1の複数のドキュメントは、所定範囲内の代用関連性スコアを有し、1つ以上のヒューマンサブジェクトが、問合せに対して提示される各ドキュメントの個々の関連性スコアを決定し、そして
    前記ヒューマンサブジェクトにより決定された個々の関連性スコアに基づいて、問合せに対して提示された各ドキュメントにトレーニング関連性スコアを指定する、
    ということを含む請求項6に記載の方法。
  12. 前記個々の関連性スコアは、所定範囲から選択された数字であり、そして前記指定段階は、個々の関連性スコアの演算平均を計算することを含む、請求項11に記載の方法。
  13. 前記ドキュメントに対して決定された代用関連性スコアに基づいてトレーニング関連性スコアを前記サブセット内の第2の複数のドキュメントの各々に指定する段階を更に備えた、請求項11に記載の方法。
  14. 前記選択されたドキュメントに対する代用関連性スコアを決定する段階は、
    複数のサーチエンジンに問合せを提示し、各サーチエンジンは、データベースから結果ページの各リストを返送し、結果ページの各リストは、前記選択されたドキュメントを含み、そして
    前記結果ページのリストにおける前記選択されたドキュメントの平均的数値位置に基づいて前記代用関連性スコアを決定する、
    ということを含む請求項6に記載の方法。
  15. トレーニング関連性スコアのセットを指定する段階は、
    前記サブセット内の第1の複数のドキュメントの各々を各複数のヒューマンサブジェクトに提示し、各複数のヒューマンサブジェクトにおける各ヒューマンサブジェクトは、問合せに対して提示されたドキュメントの個々の関連性スコアを決定し、そして
    前記ヒューマンサブジェクトにより決定された個々の関連性スコアに基づいて、問合せに対して提示される各ドキュメントにトレーニング関連性スコアを指定する、
    ということを含む請求項1に記載の方法。
  16. 個々の関連性スコアは、所定範囲から選択された数字であり、そして前記指定段階は、個々の関連性スコアの演算平均を計算することを含む、請求項15に記載の方法。
  17. 前記サブセット内の第2の複数のドキュメントの各々に所定の低いトレーニング関連性スコアを指定する段階を更に含む、請求項15に記載の方法。
  18. 関連性ファンクションを決定する段階は、
    関連性ファンクションの構成に予想変数として使用されるべき特徴のセットを決定し、該セットにおける特徴の各々は、各ドキュメント、各問合せ、又はその両方の1つ以上のプロパティのファンクションを含み、
    パラメータ及びベースファンクションの限定セットに関して前記関連性ファンクションをパラメータ化し、各ベースファンクションは、前記特徴のサブセットを入力として得、そして値を出力し、
    特定の問合せに対する所与のドキュメントのトレーニング関連性スコアを、その特定の問合せに対する所与のドキュメントに適用されたドキュメント関連性ファンクションにより発生される値に関連付ける部分エラーを定義し、
    複数の所与のドキュメント及び複数の特定の問合せに対して部分エラーの定義を繰り返して、部分エラーのセットを発生し、そして
    前記部分エラーのセットの関数である全エラーを最小にするように前記パラメータを選択する、
    ということを含む請求項1に記載の方法。
  19. 前記特徴のセットは、少なくとも1つの問合せ従属特徴と、少なくとも1つの問合せ独立特徴とを含む、請求項18に記載の方法。
  20. 前記特徴のセットは、Eignenrank(ER)、Hub、URL深さ、クオリティスコア、スパムインデックス、家族の馴染みやすさ、ドキュメントの長さ、アンカーテキストスコア、一致位置、一致頻度、用語の重み、及び接近性の少なくとも1つを含む、請求項18に記載の方法。
  21. 前記特徴のセットは、Eignenrank(ER)、Hub、URL深さ、クオリティスコア、スパムインデックス、家族の馴染みやすさ、ドキュメントの長さ、アンカーテキストスコア、一致位置、一致頻度、用語の重み、及び接近性の少なくとも4つを含む、請求項18に記載の方法。
  22. 部分エラーを定義する段階は、
    クラスのセットを定義し、
    所与のドキュメントのトレーニング関連性スコアに少なくとも一部分基づいて前記クラスの1つ以上に所与のドキュメントを指定する、
    ということを含む請求項18に記載の方法。
  23. 前記部分エラーは、比によって少なくとも一部分決定され、この比は、関連性ファンクションと差との比であり、この差は、1と関連性ファンクションとの間の差である、請求項22に記載の方法。
  24. 前記部分エラーは、ドキュメントのトレーニング関連性スコアと、ドキュメント関連性ファンクションにより形成された値との間の差の2乗の関数となるように定義される、請求項18に記載の方法。
  25. 前記部分エラーは、ドキュメントのトレーニング関連性スコアと、ドキュメント関連性ファンクションにより形成された値との間の差の絶対値の関数となるように定義される、請求項18に記載の方法。
  26. 前記ベースファンクションの少なくとも1つは、ノード分類ツリーであり、そしてパラメータの限定セットは、それに関連したスプリット変数、スプリット位置、及び終端ノード値を含む、請求項18に記載の方法。
  27. 全エラーを最小にするようにパラメータを選択する段階はブースト手順により実行される、請求項18に記載の方法。
  28. 全エラーを最小にするようにパラメータを選択する段階は、GradientBoost手順により達成され、そして前記ベースファンクションは、少なくとも1つの分類及び回帰ツリー(CART)を含む、請求項18に記載の方法。
  29. コンピュータシステムに関連して使用するためのコンピュータプログラム製品であって、該コンピュータプログラム製品は、コンピュータ読み取り可能な記憶媒体と、該媒体におけるコンピュータプログラムメカニズムとを備え、該コンピュータプログラムメカニズムは、
    (a)複数のテスト問合せの各々に対してデータベースからドキュメントの各結果セットを収集するための収集モジュールと、
    (b)複数のテスト問合せの各テスト問合せに対して各結果セット内のドキュメントのサブセットを選択するためのサンプリングモジュールと、
    (c)各選択されたサブセット内のドキュメントにトレーニング関連性スコアのセットを指定するためのスコア付けモジュールと、
    (d)前記複数のテスト問合せ、前記ドキュメントのサブセット、及び前記トレーニング関連性スコアのセットに基づいて、関連性ファンクションを決定するための関連性ファンクション発生モジュールと、
    を備えているコンピュータプログラム製品。
  30. 前記関連性ファンクション発生モジュールは、更に、前記決定された関連性ファンクションに少なくとも一部分基づいてドキュメントランク付けファンクションを決定するための命令を含み、このドキュメントランク付けファンクションは、
    前記データベースからドキュメントのセットを受け取り、
    問合せを受け取り、そして
    前記ドキュメントのセットの順序付けされたリストを出力し、このリストは、前記関連性ファンクションにより決定される最も高い関連性スコアを有する前記セット内のドキュメントがこのリスト上の最初のドキュメントとなるように順序付けされる、
    請求項29に記載のコンピュータプログラム製品。
  31. 前記収集モジュールは、複数のテスト問合せを発生するための命令を含み、これは、
    ユーザによりサーチエンジンへ提示された問合せのログから問合せストリングの予備的なセットをサンプリングし、
    前記予備的なセットから、ユーザのベースの知識の範囲外であると決定された問合せを排除し、そして
    前記予備的なセットにおける残りの問合せを前記複数のテスト問合せに指定する、
    ことにより行う請求項29に記載のコンピュータプログラム製品。
  32. 前記収集モジュールは、複数のテスト問合せを発生するための命令を含み、これは、
    1ワードエントリーの語彙集からワードをサンプリングし、そして
    このようにサンプリングされたワードの各々を前記複数のテスト問合せに指定する、
    ことにより行う請求項29に記載のコンピュータプログラム製品。
  33. 前記収集モジュールは、更に、前記語彙集からサンプリングされた2つ以上のワードの結合を選択し、そしてその結合を前記複数のテスト問合せに指定するための命令を含む、請求項29に記載のコンピュータプログラム製品。
  34. 前記サンプリングモジュールは、
    各々のテスト問合せに対し、各々の結果セットからドキュメントを選択し、この選択されたドキュメントを現在問合せに関連付ける代用関連性スコアを決定し、そしてその決定された代用関連性スコアに基づいて前記選択されたドキュメントを複数の関連性ティアの少なくとも1つの関連性ティアに指定し、そして
    各関連性ティアが少なくとも各所定数のドキュメントを含むまで、前記ドキュメント選択段階を繰り返す、
    ための命令を含む請求項29に記載のコンピュータプログラム製品。
  35. 前記サンプリングモジュールは、更に、前記代用関連性スコアが前記ティアの各所定スレッシュホールド値より大きいところの前記複数の関連性ティア内の各ティアに前記選択されたドキュメントを指定するための命令を含む、請求項29に記載のコンピュータプログラム製品。
  36. 前記サンプリングモジュールは、更に、前記代用関連性スコアが、前記ティアに関連した各所定の関連性スコア範囲内に入るところの前記複数の関連性ティア内のティアに前記選択されたドキュメントを指定するための命令を含む、請求項35に記載のコンピュータプログラム製品。
  37. 前記複数のティアに関連した関連性スコアの各所定範囲は非重畳である、請求項35に記載のコンピュータプログラム製品。
  38. 前記サンプリングモジュールは、更に、
    各テスト問合せに対しサーチエンジンに問合せを提示し、そして
    前記サーチエンジンにより与えられた結果ページのリストにおけるドキュメントの位置の関数として前記サブセット内のドキュメントの代用関連性スコアを決定する、
    ための命令を含む請求項35に記載のコンピュータプログラム製品。
  39. 前記スコア付けモジュールは、
    前記サブセット内の第1の複数のドキュメントの各々を複数のヒューマンサブジェクトに提示し、第1の複数のドキュメントは所定範囲内の代用関連性スコアを有し、各ヒューマンサブジェクトは、問合せに対して提示されたドキュメントの個々の関連性スコアを決定するものであり、そして
    前記ヒューマンサブジェクトにより決定された個々の関連性スコアに基づいて、問合せに対して提示された各ドキュメントにトレーニング関連性スコアを指定する、
    ための命令を含む請求項35に記載のコンピュータプログラム製品。
  40. 前記個々の関連性スコアは、所定範囲から選択された数字であり、そして前記指定段階は、前記個々の関連性スコアの演算平均を計算することを含む、請求項39に記載のコンピュータプログラム製品。
  41. 前記スコア付けモジュールは、更に、前記サブセット内の第2の複数のドキュメントの各々に、前記ドキュメントに対して決定された代用関連性スコアに基づいてトレーニング関連性スコアを指定するための命令を含む、請求項39に記載のコンピュータプログラム製品。
  42. 前記サンプリングモジュールは、更に、前記選択されたドキュメントを現在の問合せに関連付ける代用関連性スコアを決定するための命令を含み、これは、
    複数のサーチエンジンに問合せを提示し、各サーチエンジンはデータベースから結果ページの各リストを返送し、結果ページの各リストは、選択されたドキュメントを含み、そして
    前記結果ページのリストにおける前記選択されたドキュメントの平均数値位置に基づいて代用関連性スコアを決定する、
    ことにより行う請求項35に記載のコンピュータプログラム製品。
  43. 前記スコア付けモジュールは、
    各々の選択されたサブセット内の第1の複数のドキュメントの各々を複数のヒューマンサブジェクトに提示し、各ヒューマンサブジェクトは、問合せに対して提示されたドキュメントの個々の関連性スコアを決定し、そして
    前記ヒューマンサブジェクトにより決定された個々の関連性スコアに基づいて、問合せに対して提示された各ドキュメントにトレーニング関連性スコアを指定する、
    ための命令を含む請求項29に記載のコンピュータプログラム製品。
  44. 個々の関連性スコアは、所定範囲から選択された数字であり、そして前記指定段階は、個々の関連性スコアの演算平均を計算することを含む、請求項43に記載のコンピュータプログラム製品。
  45. 前記スコア付けモジュールは、更に、各々の選択されたサブセット内の第2の複数のドキュメントの各々に所定の低いトレーニング関連性スコアを指定するための命令を含む、請求項44に記載のコンピュータプログラム製品。
  46. 前記決定モジュールは、
    パラメータ及びベースファンクションの固定セットに関して関連性ファンクションをパラメータ化し、各ベースファンクションは、特徴の各入力セットに対する値を出力し、各特徴は、各ドキュメント、各問合せ又はその両方の1つ以上のプロパティの関数を含み、
    特定の問合せに対する所与のドキュメントのトレーニング関連性スコアを、前記特定の問合せに対する所与のドキュメントに適用されるドキュメント関連性ファンクションにより発生された値に関連付ける部分エラーを定義し、
    複数の所与のドキュメント及び複数の特定の問合せに対して部分エラーの定義を繰り返して、部分エラーのセットを形成し、そして、
    部分セラーのセットの関数である全エラーを最小にするように前記パラメータを選択する、
    ための命令を含む請求項29に記載のコンピュータプログラム製品。
  47. 前記特徴のセットは、少なくとも1つの問合せ従属特徴と、少なくとも1つの問合せ独立特徴とを含む、請求項46に記載のコンピュータプログラム製品。
  48. 前記特徴のセットは、Eignenrank(ER)、Hub、URL深さ、クオリティスコア、スパムインデックス、家族の馴染み易さ、ドキュメントの長さ、アンカーテキストスコア、一致位置、一致頻度、用語の重み及び接近性の少なくとも1つを含む、請求項46に記載のコンピュータプログラム製品。
  49. 前記特徴のセットは、Eignenrank(ER)、Hub、URL深さ、クオリティスコア、スパムインデックス、家族の馴染み易さ、ドキュメントの長さ、アンカーテキストスコア、一致位置、一致頻度、用語の重み及び接近性の少なくとも4つを含む、請求項46に記載のコンピュータプログラム製品。
  50. 前記決定モジュールは、更に、
    クラスのセットを定義し、
    所与のドキュメントのトレーニング関連性スコアに少なくとも一部分基づいてクラスの1つ以上に所与のドキュメントを指定する、
    ための命令を含む請求項46に記載のコンピュータプログラム製品。
  51. 前記決定モジュールは、更に、部分エラーを定義するための命令を含み、この部分エラーは比によって少なくとも一部分定義され、この比は、関連性ファンクションと差との比であり、この差は、1と関連性ファンクションとの間の差である、請求項46に記載のコンピュータプログラム製品。
  52. 前記決定モジュールは、更に、ドキュメントのトレーニング関連性スコアと、ドキュメント関連性ファンクションにより形成された値との間の差の2乗の関数であるように前記部分エラーを定義するための命令を含む、請求項46に記載のコンピュータプログラム製品。
  53. 前記決定モジュールは、更に、ドキュメントのトレーニング関連性スコアと、前記ドキュメント関連性ファンクションにより形成された値との間の差の絶対値の関数であるように前記部分エラーを定義するための命令を含む、請求項46に記載のコンピュータプログラム製品。
  54. 前記ベースファンクションの少なくとも1つは、ノード分類ツリーであり、そして前記パラメータの限定セットは、関連するスプリット変数、スプリット位置、及び終端ノード値を含む、請求項46に記載のコンピュータプログラム製品。
  55. 前記決定モジュールは、更に、全エラーを最小にするパラメータの選択を、ブースト手順を経て行うようにするための命令を含む、請求項46に記載のコンピュータプログラム製品。
  56. 上記決定モジュールは、
    少なくとも1つの分類及び回帰ツリー(CART)に関して関連性ファンクションをパラメータ化し、そして
    全エラーを最小にするパラメータの選択を、GradientBoost手順を経て行うようにする、
    ための命令を含む請求項46に記載のコンピュータプログラム製品。
JP2006513331A 2003-04-25 2004-04-23 ドキュメントの関連性ファンクションをマシン学習する方法及び装置 Abandoned JP2006524869A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/424,170 US7197497B2 (en) 2003-04-25 2003-04-25 Method and apparatus for machine learning a document relevance function
PCT/US2004/012813 WO2004097568A2 (en) 2003-04-25 2004-04-23 Method and apparatus for machine learning a document relevance function

Publications (1)

Publication Number Publication Date
JP2006524869A true JP2006524869A (ja) 2006-11-02

Family

ID=33299288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006513331A Abandoned JP2006524869A (ja) 2003-04-25 2004-04-23 ドキュメントの関連性ファンクションをマシン学習する方法及び装置

Country Status (6)

Country Link
US (1) US7197497B2 (ja)
EP (1) EP1623298A2 (ja)
JP (1) JP2006524869A (ja)
KR (1) KR20060006945A (ja)
CN (1) CN1826597A (ja)
WO (1) WO2004097568A2 (ja)

Families Citing this family (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6883135B1 (en) * 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
AUPR605601A0 (en) * 2001-07-03 2001-07-26 Blackwood, Miles Pipeite of sandwich construction
US7792828B2 (en) 2003-06-25 2010-09-07 Jericho Systems Corporation Method and system for selecting content items to be presented to a viewer
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US8548995B1 (en) * 2003-09-10 2013-10-01 Google Inc. Ranking of documents based on analysis of related documents
US7424467B2 (en) * 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7293005B2 (en) 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US8296304B2 (en) 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7260573B1 (en) * 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine
US7461064B2 (en) 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7739277B2 (en) * 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7827181B2 (en) * 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7779001B2 (en) * 2004-10-29 2010-08-17 Microsoft Corporation Web page ranking with hierarchical considerations
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7698331B2 (en) * 2005-01-18 2010-04-13 Yahoo! Inc. Matching and ranking of sponsored search listings incorporating web search technology and web content
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7921365B2 (en) 2005-02-15 2011-04-05 Microsoft Corporation System and method for browsing tabbed-heterogeneous windows
US9092523B2 (en) 2005-02-28 2015-07-28 Search Engine Technologies, Llc Methods of and systems for searching by incorporating user-entered information
US7792833B2 (en) * 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US20060200460A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types
US7680772B2 (en) * 2005-03-09 2010-03-16 Intuit Inc. Search quality detection
WO2006102122A2 (en) 2005-03-18 2006-09-28 Wink Technologies, Inc. Search engine that applies feedback from users to improve search results
US7546294B2 (en) * 2005-03-31 2009-06-09 Microsoft Corporation Automated relevance tuning
WO2006133252A2 (en) * 2005-06-08 2006-12-14 The Regents Of The University Of California Doubly ranked information retrieval and area search
US7627564B2 (en) * 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
US8244722B1 (en) 2005-06-30 2012-08-14 Google Inc. Ranking documents
US20070005588A1 (en) * 2005-07-01 2007-01-04 Microsoft Corporation Determining relevance using queries as surrogate content
US8249344B2 (en) * 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US8195654B1 (en) * 2005-07-13 2012-06-05 Google Inc. Prediction of human ratings or rankings of information retrieval quality
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
CN101454776A (zh) * 2005-10-04 2009-06-10 汤姆森环球资源公司 用于识别相关法律文件的系统、方法、和软件
US7630964B2 (en) * 2005-11-14 2009-12-08 Microsoft Corporation Determining relevance of documents to a query based on identifier distance
US20070150477A1 (en) * 2005-12-22 2007-06-28 International Business Machines Corporation Validating a uniform resource locator ('URL') in a document
US8250061B2 (en) * 2006-01-30 2012-08-21 Yahoo! Inc. Learning retrieval functions incorporating query differentiation for information retrieval
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
US7451120B1 (en) 2006-03-20 2008-11-11 Google Inc. Detecting novel document content
US20070233679A1 (en) * 2006-04-03 2007-10-04 Microsoft Corporation Learning a document ranking function using query-level error measurements
US7647314B2 (en) * 2006-04-28 2010-01-12 Yahoo! Inc. System and method for indexing web content using click-through features
US7593934B2 (en) * 2006-07-28 2009-09-22 Microsoft Corporation Learning a document ranking using a loss function with a rank pair or a query parameter
US7647353B2 (en) * 2006-11-14 2010-01-12 Google Inc. Event searching
US8176055B1 (en) 2007-03-27 2012-05-08 Google Inc. Content entity management
US20080250008A1 (en) * 2007-04-04 2008-10-09 Microsoft Corporation Query Specialization
US8117137B2 (en) * 2007-04-19 2012-02-14 Microsoft Corporation Field-programmable gate array based accelerator system
US7853589B2 (en) * 2007-04-30 2010-12-14 Microsoft Corporation Web spam page classification using query-dependent data
US8073803B2 (en) * 2007-07-16 2011-12-06 Yahoo! Inc. Method for matching electronic advertisements to surrounding context based on their advertisement content
KR100899930B1 (ko) * 2007-07-24 2009-05-28 엔에이치엔(주) 연관 데이터 클래스 생성 방법 및 시스템
US20090055436A1 (en) * 2007-08-20 2009-02-26 Olakunle Olaniyi Ayeni System and Method for Integrating on Demand/Pull and Push Flow of Goods-and-Services Meta-Data, Including Coupon and Advertising, with Mobile and Wireless Applications
US8645390B1 (en) 2007-08-31 2014-02-04 Google Inc. Reordering search query results in accordance with search context specific predicted performance functions
US7895198B2 (en) * 2007-09-28 2011-02-22 Yahoo! Inc. Gradient based optimization of a ranking measure
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8375073B1 (en) 2007-11-12 2013-02-12 Google Inc. Identification and ranking of news stories of interest
US8005774B2 (en) * 2007-11-28 2011-08-23 Yahoo! Inc. Determining a relevance function based on a query error derived using a structured output learning technique
US8099417B2 (en) * 2007-12-12 2012-01-17 Microsoft Corporation Semi-supervised part-of-speech tagging
US8775416B2 (en) * 2008-01-09 2014-07-08 Yahoo!Inc. Adapting a context-independent relevance function for identifying relevant search results
US7984004B2 (en) * 2008-01-17 2011-07-19 Microsoft Corporation Query suggestion generation
US7996379B1 (en) 2008-02-01 2011-08-09 Google Inc. Document ranking using word relationships
US8650144B2 (en) * 2008-02-14 2014-02-11 Yahoo! Inc. Apparatus and methods for lossless compression of numerical attributes in rule based systems
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
KR100953488B1 (ko) * 2008-04-16 2010-04-19 엔에이치엔(주) 에러 최소화를 이용한 랭크 학습 모델 생성 방법 및 시스템
US8126839B2 (en) * 2008-06-19 2012-02-28 Yahoo! Inc. Methods and apparatuses for adapting a ranking function of a search engine for use with a specific domain
US8171021B2 (en) 2008-06-23 2012-05-01 Google Inc. Query identification and association
US8621424B2 (en) * 2008-06-30 2013-12-31 Yahoo! Inc. Compiler based code modification for use in document ranking
US8458170B2 (en) 2008-06-30 2013-06-04 Yahoo! Inc. Prefetching data for document ranking
US8131659B2 (en) * 2008-09-25 2012-03-06 Microsoft Corporation Field-programmable gate array based accelerator system
US8301638B2 (en) * 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
US8073727B2 (en) * 2008-10-23 2011-12-06 Sap Ag System and method for hierarchical weighting of model parameters
US8671093B2 (en) * 2008-11-18 2014-03-11 Yahoo! Inc. Click model for search rankings
CN101477542B (zh) * 2009-01-22 2013-02-13 阿里巴巴集团控股有限公司 一种抽样分析方法、系统和设备
US20100268709A1 (en) * 2009-04-21 2010-10-21 Yahoo! Inc., A Delaware Corporation System, method, or apparatus for calibrating a relevance score
US20100293175A1 (en) * 2009-05-12 2010-11-18 Srinivas Vadrevu Feature normalization and adaptation to build a universal ranking function
US20100332550A1 (en) * 2009-06-26 2010-12-30 Microsoft Corporation Platform For Configurable Logging Instrumentation
US20100332531A1 (en) * 2009-06-26 2010-12-30 Microsoft Corporation Batched Transfer of Arbitrarily Distributed Data
US8515957B2 (en) 2009-07-28 2013-08-20 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via injection
US8082247B2 (en) * 2009-07-30 2011-12-20 Microsoft Corporation Best-bet recommendations
US20110029516A1 (en) * 2009-07-30 2011-02-03 Microsoft Corporation Web-Used Pattern Insight Platform
EP2471009A1 (en) 2009-08-24 2012-07-04 FTI Technology LLC Generating a reference set for use during document review
US20110264609A1 (en) * 2010-04-22 2011-10-27 Microsoft Corporation Probabilistic gradient boosted machines
US8572496B2 (en) * 2010-04-27 2013-10-29 Go Daddy Operating Company, LLC Embedding variable fields in individual email messages sent via a web-based graphical user interface
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8375061B2 (en) * 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
US9002773B2 (en) 2010-09-24 2015-04-07 International Business Machines Corporation Decision-support application and system for problem solving using a question-answering system
US9208231B1 (en) * 2010-12-01 2015-12-08 Google Inc. Identifying languages relevant to resources
WO2012121729A1 (en) * 2011-03-10 2012-09-13 Textwise Llc Method and system for information modeling and applications thereof
US8666914B1 (en) * 2011-05-23 2014-03-04 A9.Com, Inc. Ranking non-product documents
US9477756B1 (en) * 2012-01-16 2016-10-25 Amazon Technologies, Inc. Classifying structured documents
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US8972328B2 (en) 2012-06-19 2015-03-03 Microsoft Corporation Determining document classification probabilistically through classification rule analysis
US9213770B1 (en) * 2012-08-14 2015-12-15 Amazon Technologies, Inc. De-biased estimated duplication rate
US9122681B2 (en) 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
US9996624B2 (en) * 2014-06-30 2018-06-12 Google Llc Surfacing in-depth articles in search results
US9565147B2 (en) 2014-06-30 2017-02-07 Go Daddy Operating Company, LLC System and methods for multiple email services having a common domain
US10764265B2 (en) * 2014-09-24 2020-09-01 Ent. Services Development Corporation Lp Assigning a document to partial membership in communities
US10621189B2 (en) 2015-06-05 2020-04-14 Apple Inc. In-application history search
US10509833B2 (en) 2015-06-05 2019-12-17 Apple Inc. Proximity search scoring
US10592572B2 (en) 2015-06-05 2020-03-17 Apple Inc. Application view index and search
US10755032B2 (en) 2015-06-05 2020-08-25 Apple Inc. Indexing web pages with deep links
US10509834B2 (en) 2015-06-05 2019-12-17 Apple Inc. Federated search results scoring
US10242001B2 (en) 2015-06-19 2019-03-26 Gordon V. Cormack Systems and methods for conducting and terminating a technology-assisted review
RU2632133C2 (ru) * 2015-09-29 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования
EP3188038B1 (en) * 2015-12-31 2020-11-04 Dassault Systèmes Evaluation of a training set
US10372714B2 (en) 2016-02-05 2019-08-06 International Business Machines Corporation Automated determination of document utility for a document corpus
US11068546B2 (en) 2016-06-02 2021-07-20 Nuix North America Inc. Computer-implemented system and method for analyzing clusters of coded documents
US10755182B2 (en) * 2016-08-11 2020-08-25 International Business Machines Corporation System and method for ground truth evaluation
US10621492B2 (en) * 2016-10-21 2020-04-14 International Business Machines Corporation Multiple record linkage algorithm selector
AU2018200643A1 (en) * 2017-03-09 2018-09-27 Accenture Global Solutions Limited Smart advisory for distributed and composite testing teams based on production data and analytics
CN108572900B (zh) * 2017-03-09 2021-07-13 北京京东尚科信息技术有限公司 一种空白坑位监控的方法、系统、电子设备和存储介质
US10372426B2 (en) * 2017-11-06 2019-08-06 International Business Machines Corporation Cognitive redundant coding corpus determination system
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
RU2693324C2 (ru) 2017-11-24 2019-07-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер преобразования значения категориального фактора в его числовое представление
US11341138B2 (en) * 2017-12-06 2022-05-24 International Business Machines Corporation Method and system for query performance prediction
US10831770B2 (en) * 2017-12-12 2020-11-10 International Business Machines Corporation System and method for estimating query performance in document retrieval
US10915538B2 (en) * 2018-03-23 2021-02-09 Home Depot Product Authority, Llc Ranking and presenting search engine results based on category-specific ranking models
US11093512B2 (en) * 2018-04-30 2021-08-17 International Business Machines Corporation Automated selection of search ranker
RU2721159C1 (ru) 2018-12-13 2020-05-18 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер генерирования мета-признака для ранжирования документов
RU2744028C2 (ru) * 2018-12-26 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для хранения множества документов
US11403300B2 (en) 2019-02-15 2022-08-02 Wipro Limited Method and system for improving relevancy and ranking of search result
US11429897B1 (en) 2019-04-26 2022-08-30 Bank Of America Corporation Identifying relationships between sentences using machine learning
US11783005B2 (en) 2019-04-26 2023-10-10 Bank Of America Corporation Classifying and mapping sentences using machine learning
US11205506B2 (en) 2019-05-22 2021-12-21 International Business Machines Corporation Verifying natural language processing in health care
CN110598272B (zh) * 2019-08-22 2022-11-22 合肥工业大学 多无人平台信息交互拓扑的启发式生成方法和装置
US11423231B2 (en) 2019-08-27 2022-08-23 Bank Of America Corporation Removing outliers from training data for machine learning
US11449559B2 (en) 2019-08-27 2022-09-20 Bank Of America Corporation Identifying similar sentences for machine learning
US11526804B2 (en) 2019-08-27 2022-12-13 Bank Of America Corporation Machine learning model training for reviewing documents
US11556711B2 (en) 2019-08-27 2023-01-17 Bank Of America Corporation Analyzing documents using machine learning
US11436235B2 (en) 2019-09-23 2022-09-06 Ntent Pipeline for document scoring
CN112231621B (zh) * 2020-10-13 2021-09-24 电子科技大学 基于BP-adaboost降低元素检出限的方法
US11893981B1 (en) 2023-07-11 2024-02-06 Seekr Technologies Inc. Search system and method having civility score

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6119114A (en) * 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
US5909510A (en) * 1997-05-19 1999-06-01 Xerox Corporation Method and apparatus for document classification from degraded images
US6651057B1 (en) * 1999-09-03 2003-11-18 Bbnt Solutions Llc Method and apparatus for score normalization for information retrieval applications
US6430559B1 (en) * 1999-11-02 2002-08-06 Claritech Corporation Method and apparatus for profile score threshold setting and updating
US7072398B2 (en) * 2000-12-06 2006-07-04 Kai-Kuang Ma System and method for motion vector generation and analysis of digital video clips
US20030074353A1 (en) * 1999-12-20 2003-04-17 Berkan Riza C. Answer retrieval technique
US7062485B1 (en) * 2000-09-01 2006-06-13 Huaichuan Hubert Jin Method and apparatus for score normalization for information retrieval applications
US6701317B1 (en) * 2000-09-19 2004-03-02 Overture Services, Inc. Web page connectivity server construction
US7010527B2 (en) * 2001-08-13 2006-03-07 Oracle International Corp. Linguistically aware link analysis method and system
US7158983B2 (en) * 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness

Also Published As

Publication number Publication date
WO2004097568A2 (en) 2004-11-11
KR20060006945A (ko) 2006-01-20
EP1623298A2 (en) 2006-02-08
US7197497B2 (en) 2007-03-27
WO2004097568A3 (en) 2006-01-05
US20040215606A1 (en) 2004-10-28
CN1826597A (zh) 2006-08-30

Similar Documents

Publication Publication Date Title
US7197497B2 (en) Method and apparatus for machine learning a document relevance function
US6560600B1 (en) Method and apparatus for ranking Web page search results
US7356530B2 (en) Systems and methods of retrieving relevant information
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
CA2618854C (en) Ranking search results using biased click distance
US8024326B2 (en) Methods and systems for improving a search ranking using related queries
US6112203A (en) Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
JP2008533596A (ja) 検索結果の関連性の再ランク付けおよびその増強
US20050060290A1 (en) Automatic query routing and rank configuration for search queries in an information retrieval system
US20060161543A1 (en) Systems and methods for providing search results based on linguistic analysis
US10754896B2 (en) Transforming a description of services for web services
CN1702654A (zh) 计算显示页面中块的重要度的方法和系统
WO2007127676A1 (en) System and method for indexing web content using click-through features
US20070219963A1 (en) Method and system for performing a search on a network
JP2004005668A (ja) 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法
JP2008097641A (ja) データベースのデータを検索するための方法と装置
US20090089274A1 (en) Gradient based optimization of a ranking measure
JP2003345812A (ja) 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法
US20030018617A1 (en) Information retrieval using enhanced document vectors
US8117205B2 (en) Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric
US20060059126A1 (en) System and method for network searching
Du A Web Meta-Search Engine
Rani et al. Web Search Result using the Rank Improvement
Wang Evaluation of web search engines
CA2786210A1 (en) Automated substitution of terms by compound expressions during indexing of information for computerized search

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070313

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20070724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070724