JP2009532766A

JP2009532766A - ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬

Info

Publication number: JP2009532766A
Application number: JP2009502850A
Authority: JP
Inventors: エグノア、ダニエル; ハール、ポール; ラッカー、ケビン; ランピング、ジョン; シンガル、アミタブ・ケー．; ヤン、ケ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2006-03-31
Filing date: 2007-03-19
Publication date: 2009-09-10
Anticipated expiration: 2027-03-19
Also published as: KR101225467B1; CN101454748A; AU2007243784B2; KR20080109061A; US8990210B2; JP5069285B2; WO2007126628A3; US8521717B2; US20070233808A1; CA2647864A1; EP2013703A4; US20140052735A1; CN101454748B; US20110196861A1; EP2013703A2; AU2007243784A1; US7933890B2; AU2011201819A1; WO2007126628A2; AU2011201819B2

Abstract

検索結果を改善するために、ウェブサイトのウェブページを処理してもよい。例えば、正に情報が直接関係付けられたウェブページよりも多くのページに適している見込のある情報を識別してもよい。また、このような情報が適している見込のある、他の１つ以上の関連するウェブページを識別してもよい。識別された情報を、他の識別されたウェブページに関係付けして、ウェブページの検索結果スコアに影響を及ぼすような方法で、この関係付けを保存する。
【選択図】図４

Description

発明の分野

本発明と一貫した実施形態は、情報検索（ＩＲ）に関する。特に、本発明と一貫した実施形態は、例えばウェブサイトのような複数の組のドキュメントの１つに属する、例えばウェブページのようなドキュメントのＩＲを改善することに関する。

発明の背景

人々がワールドワイドウェブ（“ウェブ”）上で、また、他のネットワーク上で、関心のある情報を見つけるのを支援するために、検索エンジンは非常に有用になってきた。例示的な検索エンジンは、S.Brin氏およびL.Page氏により、オーストラリア、ブリズベン、第７回国際ワールドワイドウェブ会議において発表された論文“大規模ハイパーテキストの検索エンジンに関する解剖”、および、米国特許第6,285,999号（これらの両方はここで参照によって組み込まれている）に説明されている。検索エンジンは、検索結果のためのクエリを受け取る。応答して、検索エンジンは（例えば、ウェブページのインデックスから）関連性のある検索結果を取得する。このような検索結果は、例えば、ウェブページタイトルのリスト、これらのウェブページから抽出されたテキストの断片、および、これらのウェブページに対するハイパーテキストリンクを含んでいてもよく、予め定められた数（例えば、１０）の検索結果へとグループ化されてもよい。

図１は、（例えば、インターネットのような）ネットワーク１６０を含んでもよい環境１００の高水準ブロック図であり、ここで、情報アクセス機構（クライアントデバイス）１１０を使用して、１つ以上のコンテンツプロバイダ（例えば、ウェブページサーバ）１８０からアクセスにより得られた情報をレンダリングする。情報アクセス機構１１０によって、検索機構（サーバ）１３０を使用して、関心のあるコンテンツを検索してもよい。

情報アクセス機構１１０は、ナビゲーション動作１１４と、ユーザインターフェース動作１１６とを含む、ブラウジング動作１１２を含んでもよい。ブラウジング動作１１２は、入力／出力インターフェース動作１１８により、ネットワーク１６０にアクセスしてもよい。例えば、パーソナルコンピュータの状況では、（モジラ(登録商標)によるファイアフォックス、ＡＯＬタイムワーナー(登録商標)によるネットスケープ、オペラソフトウェア(登録商標)によるオペラ、マイクロソフト(登録商標)によるエクスプローラ(登録商標)等のような）ブラウザによって、ブラウジング動作１１２を実行してもよく、そして、モデムまたはネットワークインターフェースカード（すなわちＮＩＣ）およびネットワーキングソフトウェアによって、入力／出力インターフェース動作を実行してもよい。情報アクセス機構１１０の、他の可能性ある例は、例えば、パーソナルデジタルアシスタント（“ＰＤＡ”）および移動体電話機のような、有線式でないデバイス、セットトップボックス、キオスク、メディアプレーヤ等を含む。

コンテンツプロバイダ１８０のそれぞれは、（コンテンツとしても呼ばれる）記憶されたリソース１３６と、要求に応答して、コンテンツにアクセスし、コンテンツを提供するリソース取得動作１８４と、入力／出力インターフェース動作１８２とを含んでもよい。コンテンツプロバイダ１８０のこれらの動作は、例えば、パーソナルコンピュータまたはサーバのようなコンピュータによって実施されてもよい。したがって、記憶されたリソース１８６は、磁気ディスク、光学ディスク等のような、任意のタイプの記憶媒体上に記憶されたデータとして実現されてもよい。この特定の環境１００において、例えばウェブページのようなアドレス指定可能なコンテンツを含むとして、用語“ドキュメント”を解釈してもよい。

検索機構１３０は、クローリング、インデックス付け／ソーティング、およびクエリ処理機能を実行してもよい。同じエンティティ、または個々のエンティティによって、これらの機能を実行してもよい。さらに、同じロケーションにおいて、または異なるロケーションにおいて、これらの機能を実行してもよい。何らかのイベントにおいて、クローリング機構１５０におけるクローリング動作１５２は、ネットワーク１６０を通してアクセス可能なさまざまな情報源からコンテンツを得て、１５４によって示したような、このようなコンテンツまたはこのようなコンテンツの形態を記憶する。次に、自動化インデックス付け／ソーティング機構１４０において、自動化インデックス付け／ソーティング動作１４２は、記憶されたコンテンツ１５４にアクセスしてもよく、コンテンツインデックス（例えば、以下で説明することになる転置インデックス）およびコンテンツレーティング（例えば、以下で説明することになるページランク）１４０を発生させてもよい。最後に、クエリ処理動作１３４は、コンテンツインデックス（およびコンテンツレーティング）１４０に基づいて、クエリを受け入れし、クエリ結果を戻す。クローリング、インデッス付け／ソーティングおよびクエリ処理機能を、１つ以上のコンピュータによって実行してもよい。

図２は、アドバンスト検索機構２００の処理データフロー図である。図２に図示したアドバンスト検索機構２００は、３つの主な機能、（ｉ）クローリング、（ｉｉ）インデックス付け／ソーティング、および（ｉｉｉ）検索を実行する。水平破線は、これらの３つの機能に対応する３つの部分に図２を分ける。より詳細には、第１の部分１５０’は、クローリング機能に対応し、第２の部分１４０’は、インデックス付け／ソーティング機能に対応し、第３の部分１３４’は、検索（または、クエリ処理）に対応する。（参照されたアイテムが、アポストロフィーのない番号により参照されたアイテムの単なる１つの例にすぎないことを示すために、参照番号の後のアポストロフィー「 ’」を使用することに留意すべきである。）これらの部分のそれぞれを、以下でより詳細に紹介する。しかしながら、その前に、このアドバンスト検索機構２００のいくつかの顕著な特徴を紹介する。アドバンスト検索機構は、他の技術とともにウェブのリンク構造を使用して、検索結果を改善する。

また図２を参照して、アドバンスト検索エンジン２００の３つの主な部分を以下でさらに説明する。クローリング部分１５０’は、多くの機械にわたって分散していてもよい。（示していない）単一のＵＲＬサーバが、多くのクローラーに対して、ユニフォームリソースロケーター（“ＵＲＬ”）のリスト２０６を供給する。このＵＲＬのリスト２０６に基づいて、クローリング動作２０２は、ネットワーク１６０’をクロールし、ウェブページ２０８を得る。次に、事前インデックス付け動作２１０は、これらのウェブページ２０８から、ページランキング２１２とともに、リポジトリ２１４を発生させる。ページランキング２１２は、たくさんのＵＲＬフィンガープリント（すなわち、一意的な値）、ページランク値を、対として含んでもよい。リポジトリ２１４は、ＵＲＬ、コンテンツタイプ、および、圧縮されたページの３つ組を含んでもよい。

インデックス付け／ソーティング部分１４０’に関して、インデックス付け／ソーティング動作２２０は、転置インデックス２２６を発生させてもよい。インデックス付け／ソーティング動作２２０はまた、引用ランキング２１２からページランク２２８を発生させてもよい。ページランク２２８は、ドキュメントＩＤ、ページランク値の対を含んでもよい。

クエリ処理部分１３４’に関して、検索動作２３０は、ウェブサーバによって実行されてもよく、転置インデックス２２６およびページランク２２８とともに辞書２３２を使用して、クエリに応答してクエリ結果を発生させてもよい。（ｉ）ページランク２２８から導出された情報と、（ｉｉ）特定のドキュメントが、どのくらい近く、クエリに含まれる用語に一致するか、ということから導出された情報と、の（情報検索（すなわち、“ＩＲ”）成分として呼んでもよい）組み合わせに、クエリ結果が基づいていてもよい。

ちょうど紹介してきた検索エンジンと同じくらい有用な検索エンジンには、改良の余地がある。例えば、以下の２つのシナリオを考察すべきである。

第１に、検索クエリ“ラマダシンシナティ”を考える。最もオーソリテイティブであり、有用な検索結果は、商業地区シンシナティにおけるラマダのホテルを説明する、ラマダウェブサイト上のウェブページに対するものであるだろうと本発明の発明者は考える。結果として、第１の検索結果として、このウェブページ（このウェブページについての情報、およびこのウェブページに対するリンク）を戻すことが望ましいだろう。残念なことに、ラマダウェブサイトのメインウェブページが、単語“ラマダ”に対してオーソリテイティブであるということを示す、たくさんの証拠がある一方で、商業地区シンシナティにおけるラマダの特定のホテルのためのウェブページが、単語“ラマダ”に対してオーソリテイティブであるということを示す証拠はほとんどないかもしれない。結果として、検索“ラマダシンシナティ”を処理する、少なくともいくつかの検索エンジンは、第１の検索結果として、商業地区シンシナティにおけるラマダのホテルのためのラマダウェブサイト上のウェブページと同程度には有用でないかもしれないのに、ラマダのウェブサイトのメインウェブページを戻すだろう。さらに悪いことには、少なくともいくつかの検索エンジンは、その上位検索結果のうちの１つとして、ラマダウェブサイト上の何のウェブページも戻さないかもしれない。

第２に、検索クエリ“スリーシーズンズパロアルト”を考察する。この例において、“スリーシーズンズ”レストランのためのウェブサイトのメインウェブページは、そのレストランの住所を含まない。したがって、そのレストランのウェブサイトのメインウェブページが、スリーシーズンズに対してオーソリテイティブであるというたくさんの証拠がある一方で、このメインウェブページ上には、このメインウェブページがパロアルトに適していることを示唆する何の証拠もない。このウェブサイト上の、他のウェブページは、そのレストランがパロアルトにあることを確かに示していることに留意すべきである。

以上の例が示すように、正に直接ウェブページについての情報（例えば、ウェブページ上の単語およびウェブページの構造、ウェブページをポイントするアンカー中の単語、および、ウェブページのページランク）を使用する自動化検索エンジンは、特定のクエリに対して最も有用であることになるウェブページを見つけることができないかもしれない。したがって、検索エンジンがよりよい検索結果を戻すように、検索エンジンを改良することが有用であるだろう。特に、検索エンジンが１つのウェブページに対するクエリの用語（例えば、単語および／またはフレーズ）の関連性をランク付けする一方で、検索エンジンが同じウェブサイト上の、他のウェブページに対するその用語の適性を斟酌してもよいように、検索エンジンを改良することが有用であるだろう。より一般的には、同じまたは類似のＩＲ技術を使用するアプリケーションを改良することが有用であるだろう。

発明の概要

本発明と一貫した実施形態を使用して、例えばウェブページ検索のような情報検索を改善してもよい。このような実施形態は、以下のことによってこれを行ってもよい。すなわち、（ａ）ウェブサイトに適している情報を受け入れることと、（ｂ）用語を含む検索クエリを処理する目的で、ウェブサイトの第１のウェブページに適しており、ウェブサイトの別のウェブページに適している見込のある用語を識別することと、（ｃ）第１のウェブページとの特定の関係を持つウェブサイトの第２のウェブページを決定することと、（ｄ）識別された用語を第２のウェブページに関係付けるべきか否かを決定することと、（ｅ）用語を第２のウェブページに関係付けるべきであるとして決定された場合に、識別された用語を含む検索クエリに対して、第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、識別された用語と第２のウェブページとの関係付けを保存することとである。本発明と一貫した少なくともいくつかの実施形態は、上記の技術を使用して、ウェブサイトのトポロジーの上に、ウェブサイトのトポロジーの下に、または、ウェブサイトのトポロジー中にわたって、情報を伝搬させることができる。

本発明と一貫した少なくともいくつかの実施形態では、用語を識別する動作は、ウェブサイトに強く関係付けられた用語を識別する。

本発明と一貫した少なくともいくつかの実施形態では、識別された用語は、例えば、ロケーション、住所、珍しい用語、製品カテゴリ等のような高度に記述的な情報である。

本発明と一貫した少なくともいくつかの実施形態は、次に、（ａ）識別された用語を含む検索クエリを受け取りし、（ｂ）識別された検索用語との保存された関係付けを持っている第２のウェブページの検索結果スコアを増加させる。本発明と一貫した少なくともいくつかの実施形態では、検索結果スコア増加の大きさは第２のウェブページの増加されていない検索結果スコアの関数である。

詳細な説明

本発明は、例えば、ウェブページ検索のような、情報検索を改善するための、新規な方法、装置、メッセージフォーマット、および／またはデータ構造に関する。以下の説明は、当業者が本発明を実施および使用できるように提示し、特定の応用と特定の応用の要求の状況で提供する。したがって、本発明と一貫した実施形態の以下の説明は、図示および説明を提供するが、網羅的なものであることを意図するものではなく、または、開示する正確な形態に本発明を制限することを意図するものではない。開示する実施形態に対するさまざまな修正が当業者に明らかになり、以下に述べる一般的原則は、他の実施形態および応用に適用されてもよい。例えば、フロー図を参照して一連の動作を説明するが、１つの動作の実行が他の動作の完了に依拠していないときは、他の実施では動作の順序が異なっていてもよい。さらに、従属していない動作は並列に実行されてもよい。また、ここで使用するように、冠詞“ａ”は１つ以上のアイテムを含むことを意図している。１つだけのアイテムを意図するところでは、用語“１つの（ｏｎｅ）”または類似の言葉を使用する。以下では、“情報”は、実際の情報、あるいは、このような情報に対するポインタ、このような情報の識別子、または、このような情報のロケーションを指してもよい。詳細な説明中で使用されるどのエレメント、動作、または命令も、そうであるとして明示的に示さない限り、本発明に対して重大または不可欠であるとして解釈すべきでない。したがって、本発明は示している実施形態に制限されることを意図しておらず、発明者は、何らかの特許可能な記述された主題を含むものとして本発明を考えている。

“ドキュメント”は、何らかの機械読取可能および機械記憶可能な作業生産物を含むものとして幅広く解釈すべきである。ドキュメントは、ファイル、ファイルの組み合わせ、他のファイルへのリンクが埋め込まれた１つ以上のファイル、ファイルの区別された部分、識別された部分等であってもよい。ファイルは、テキスト、オーディオ、画像、ビデオ等の任意のタイプのものであってもよい。エンドユーザにレンダリングされることになるドキュメントの一部は、ドキュメントの“コンテンツ”と見なすことができる。ドキュメントは、コンテンツ（単語、絵等）とそのコンテンツの意味の何らかの表示（例えば、ｅ−メールフィールドと関連データ、ＨＴＭＬタグと関連データ等）との両方を含む“構造化されたデータ”を含んでいてもよい。ドキュメント中の広告スポットは、埋め込まれた情報または命令で定義されてもよい。インターネットの状況において、普通のドキュメントはウェブページである。ウェブページはコンテンツを含むことが多く、（メタ情報、ハイパーリンク等のような）埋め込まれた情報、および／または（Ｊａｖａ(登録商標)スクリプト等のような）埋め込まれた命令を含んでいてもよい。多くのケースでは、ドキュメントはアドレス指定可能な記憶ロケーションを有し、したがってこのアドレス指定可能なロケーションによって一意的に特定できる。ユニバーサルリソースロケータ（ＵＲＬ）は、インターネット上の情報にアクセスするために使用されるアドレスである。

“ウェブドキュメント”はウェブ上で発行される任意のドキュメントを含む。ウェブドキュメントの例は、例えば、ウェブサイト、ウェブページ、ウェブキャスト等を含む。

“ホーム”ウェブページは、一般的にウェブサイトのルートウェブページ、または、（“デフォルト．ＨＴＭＬ”のような）そのウェブページがホームページであることを示唆するＵＲＬを有するウェブページであるだろう。

“用語”は、“単語”または“フレーズ”であってもよい。

以下において、本発明がその中で動作してよい、または本発明がそれを用いて動作してよい環境をセクション４．１において説明する。本発明の例示的な実施形態をセクション４．２において説明する。その後、本発明の例示的な実施形態の使用を図示する特定の例をセクション４．３において提供する。最後に、本発明に関するいくつかの結論をセクション４．４において述べる。

セクション４．１その中で本発明と一貫した実施形態を使用してもよい、または、それとともに本発明と一貫した実施形態を使用してもよい例示的環境
本発明と一貫した実施形態は、上で図１を参照して説明したもののような例示的な環境１００の中で使用されてもよく、または、例示的な環境１００とともに使用されてもよい。例えば、このような実施形態は、上で図２を参照して説明したもののような例示的な検索エンジンの中で使用されてもよく、または、例示的な検索エンジンとともに使用されてもよい。本発明と一貫した実施形態が、他の環境の中で使用されてもよく、または、他の環境とともに使用されてもよいことは当然である。

セクション４．２本発明と一貫した例示的な実施形態
図３は、本発明と一貫した実施形態で、実行してもよい動作と、このような動作によって、発生させてもよい、および／または、使用してもよい情報とのデータフロー図である。一般的に、線３４０より上の動作は事前に実行される一方で、線２３０より下の動作はリアルタイムで実行される。しかしながら、本発明と一貫した少なくともいくつかの実施形態では、このことは必須ではない。

ウェブサイト収集物情報３１０は、多数の組のウェブサイト情報３１５を含んでもよい。ウェブサイト内情報関係付け動作３２０を使用して、修正されたウェブサイトおよび／またはウェブページ情報３３５を発生させてもよい。例えばＩＲの目的で、このような情報を使用してもよい。したがって、多数のウェブサイト３１０からの情報を処理して、修正されたウェブサイトおよび／またはウェブページ情報３３５の組３３０を発生させることができる。

ウェブページ検索動作３６０は、ウェブページ情報３７０と、修正されたウェブサイトおよび／またはウェブページ情報の組３３０とを使用して、クエリ情報３５０に応答する１つ以上の検索結果の組３８０を発生させてもよい。

一般的に、ウェブサイト内情報関係付け動作３２０は、（ｉ）正に情報が直接関係付けられたウェブページよりも多くのページに適している見込のある情報を識別してもよく、（ｉｉ）このような情報が適している見込のある、他の１つ以上の関連するウェブページを識別してもよく、（ｉｉｉ）識別された情報を含む検索クエリに対して、ウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、識別された情報を他の識別されたウェブページに関係付けてもよい。このことは、ウェブページを取得およびスコア付けする際に使用してもよい、修正されたウェブサイトおよび／またはウェブページ情報をもたらす。検索スコアは検索結果のランキングに影響を及ぼしてもよく、したがって、他の検索結果に対するその検索結果の位置に影響を及ぼしてもよく、その検索結果がクエリに応答して戻されるか否かにさえも影響を及ぼしてもよい。

セクション４．２．１例示的な方法
図４は、本発明と一貫した方法で、ウェブサイト内情報を関係付ける例示的な方法４００のフロー図である。ウェブサイト情報（例えば、ウェブページ、ウェブページコンテンツ、ウェブページメタデータ、イエローページデータ、ドメイン登録データ等）を受け入れる（ブロック４１０）。正に情報が（直接）関係付けられたウェブページ以外の、そのウェブサイトのウェブページに適している見込のある情報を識別する（ブロック４２０）。識別された情報が適している見込のある、他の１つ以上の関連するウェブページを識別する（ブロック４３０）。次に、識別された情報を、識別されたページに関係付けする（ブロック４４０）。識別された情報を含む検索クエリに対して、修正されたウェブページが、オリジナルのウェブページが持つことになるものよりも高い検索スコアを持つことになるように、修正されたウェブサイト／ウェブページ（例えば、新しく関係付けられた情報を有するウェブページ）情報を記憶し（例えば、後で使用するために記憶デバイス上で保存し）（ブロック４５０）、その後、方法４００は終了する（ノード４６０）。

戻ってブロック４２０を参照して、識別された情報の例、または、識別された情報のタイプの例を以下で説明する。戻ってブロック４３０を参照して、識別された情報が適している見込のある１つ以上の関連するウェブページがどのようなものであるかの例を以下に説明する。以下の説明から理解されることになるように、さまざまな実施形態において、このような情報をウェブサイトの上に、ウェブサイトの下に、および／または、ウェブサイト中にわたって伝搬させてもよい。

図５は、本発明と一貫した方法で、ウェブ検索を実行する例示的な方法５００のフロー図である。検索クエリ情報が受け入れられる（ブロック５１０）。次に、受け入れられた検索クエリ情報、ウェブページ情報、ならびに、修正されたウェブサイトおよび／またはウェブページ情報を使用して、１つ以上の検索結果の組を発生させる（ブロック５２０）。次に、検索結果を要求者に供給して（ブロック５３０）、その後、方法５００は終了する（ノード５４０）。

セクション４．２．１．１その用語情報に対して、ウェブサイトがオーソリテイティブと考えられる用語情報を伝搬させる例示的な方法
図６は、本発明と一貫した方法で、オーソリテイティブなウェブサイト内情報を（例えば、ウェブサイトトポロジーの下に）伝搬させる例示的な方法６００のフロー図である。ウェブサイト情報を受け入れる（ブロック６１０）。その用語に対してウェブサイトがオーソリテイティブと考えられる、所定のウェブページ上で見つけられる用語を、ウェブサイトの所定のウェブページ（例えば、ホームページ）に対して決定する（ブロック６２０）。このような用語（例えば、単語および／またはフレーズ）は、妥当性検査手続を受けてもよい（ブロック６３０）。情報源ウェブページに関連するウェブサイトのウェブページ（例えば、ウェブサイトホームページまたはルートページ）を決定する（ブロック６４０）。１つ以上の例外に該当することに関連するとして決定されたページを除外してもよい（ブロック６５０）。次に、識別された情報（例えば、オーソリテイティブな用語）を、決定された（および除外されていない）ページに関係付けしてもよい（ブロック６６０）。次に、修正されたウェブサイトおよび／またはウェブページ情報を保存（例えば記憶）してもよく（ブロック６７０）、その後、方法６００は終了する（ノード６８０）。

戻ってブロック６２０を参照して、その用語に対してウェブサイトがオーソリテイティブと考えられる用語を決定するときに、１つ以上の証拠の情報源を考えてもよい。用語に対してウェブサイトがオーソリテイティブであることの１つの例示的な証拠の情報源は、ウェブサイトに対する１つ以上の参照（例えば、リンクまたはハイパーテキストリンク）におけるその用語の使用であってもよい。用語に対してウェブサイトがオーソリテイティブであることのさらに別の例示的な証拠の情報源は、そのウェブサイトのホームページをその企業のためのウェブサイトとしてリストアップするディレクトリ（例えば、イエローページ）エントリにおけるその用語（例えば、企業名）の使用であってもよい。用語に対してウェブサイトがオーソリテイティブであることのまた別の例示的な証拠の情報源は、ウェブサイトのドメイン名におけるその用語の使用であってもよい。用語に対してウェブサイトがオーソリテイティブであることのさらにまた別の例示的な証拠の情報源は、その用語が登録された商標である場合、商標登録が、そのウェブサイト（のホームページ）に関係付けられていることであってもよい。別の例示的な証拠の情報源は、検索クエリが用語を含む場合に、そのウェブサイトに対応する良好な検索結果（例えば、クリックされるものや、所定の時間（例えば、３分）内に、ユーザが前のウェブページに戻って異なる結果をクリックすることがない“ロングクリック”を受け取るもの等）がある確率であってもよい。確率は、証拠の強度に対応するかもしれない。

用語に対してウェブサイトがオーソリテイティブであることの、他の証拠の情報源が可能であることは当然である。証拠の統合性が、ウェブサイトがその用語に対してオーソリテイティブであるという決定を導いてもよい。反対の証拠も考慮してもよい。例えば、その用語が、他の１つ以上のウェブサイトの、他のウェブページに関連性があるという証拠がある場合、証拠の統合性においてこのような証拠を考慮してもよい。少なくともいくつかの実施形態では、決定された用語と、宛先（またはシンク）ウェブページとの（ＩＲの目的のために使用される）関係付けの強度を決定する際に、証拠の強度を使用してもよい。すなわち、証拠の強度を使用して、（ａ）関係付けを行うか否か、および／または（ｂ）関係付けの強度を決定してもよい。

戻ってブロック６４０を参照して、本発明と一貫した少なくともいくつかの実施形態では、決定された用語と、宛先（またはシンク）ウェブページとの（ＩＲの目的のために使用される）関係付けの強度を決定する際に、決定された用語のウェブページ情報源と、宛先（またはシンク）ウェブページとの間の関連性の程度を使用してもよい。

戻ってブロック６３０を参照すると、決定された用語は、１つ以上の妥当性検査テストを受けてもよい。例えば、検索クエリが用語を含む場合に、決定された用語に対して、考察されているそのウェブサイトに対する良好な結果がある確率が、他のすべての（このような情報が知られているまたは決定可能である）ウェブサイトの対応する確率よりも大きく（あるいは、予め定められた量および／またはパーセンテージ分、これらの確率よりも大きく）なる必要があるかもしれない。別の例として、決定された用語の数が予め定められた数より多い場合に、（例えば、確率、次位のウェブサイトからの確率較差等に関して）上位Ｎ個のクエリ用語だけを使用することが望ましいかもしれない。

戻ってブロック６５０を参照すると、決定されたクエリ情報（“識別された情報”）は、考察されているウェブサイトの、あるウェブページに対しては、（例えば、下に）伝搬されないかもしれない。例えば、低いスコア（例えば、低いページランク）を有するウェブページは、用語に関係付けられた識別された情報を得ないかもしれない。別の例として、識別された情報の伝搬は、ウェブサイト中の、情報源（例えば、ホームまたはルート）ウェブページと、宛先ウェブページと、の区切りの程度（例えば、情報源ウェブページからのバックスラッシュの数）の予め規定された数（例えば、２）に制限されてもよい。さらに別の例として、あるタイプのウェブページ（例えば、プレスリリース、メッセージボード、フォーラム、外国語ページ（例えば、情報源ページの言語以外の言語での宛先ページ）等）を除外してもよい。

用語がフレーズである場合、本発明と一貫した少なくともいくつかの実施形態では、ある問題を避けるために、全体のフレーズ（または、フレーズの少なくともすべての単語）がクエリ中に出現することを要求してもよい。例えば、“アメリカンセンチュリー投資”のようなウェブサイトを考える。このウェブサイトのホームページは、クエリ“アメリカンセンチュリー投資”に対してオーソリテイティブであるかもしれないが、このウェブサイトのホームページは、クエリの構成要素の単語“アメリカン”、“センチュリー”、および“投資”に対してオーソリテイティブではない。したがって、例えば、このウェブサイトのウェブページは、単語“投資”を含むが、“アメリカンセンチュリー”を含まない検索クエリに対して“増強”すべきでない。

情報を下に伝搬させることは、事実上、異なるウェブサイト上のそうでなければ同一のウェブページが異なるスコアを持つことを可能にするかもしれないことに留意すべきである。例えば、www.ramada.comのウェブサイト上のシンシナティラマダのウェブページは、www.hotels.comのウェブサイト上の同一のウェブページよりも（少なくとも用語“ラマダ”を含む検索クエリに対しては）より高いスコアを持っているかもしれない。検索クエリが用語“ラマダ”を含むとき、シンシナティにおけるラマダホテルを検索しているほとんどのユーザは、オーソリテイティブなウェブサイトからのウェブページを好むことが多いだろうから、このことは有用である。

セクション４．２．１．２高度に記述的な情報を伝搬する例示的な方法
ウェブサイトの高度に記述的な単語（および他の情報）は、ウェブサイトのホームページ上では見つからないことが多いことを、本発明の発明者は理解している。このような高度に記述的な情報を識別し、これをウェブサイトのホーム（またはルート）ページに関係付けることが有用であるだろう。

図７は、本発明と一貫した方法で、高度に記述的なウェブサイト内情報を（例えば、ウェブサイトトポロジーの上に）伝搬させる例示的な方法７００のフロー図である。ウェブサイト情報を受け入れる（ブロック７１０）。ウェブサイトのホーム（またはルート）ページ以外のウェブページに関係付けられた、ロケーション（例えば、住所）、または他の何らかの高度に記述的な情報を識別する（ブロック７２０）。識別された情報（例えば、ロケーション）は、ウェブページ毎にスコア付けされてもよい（ブロック７３０）。１つ以上の宛先ウェブページに対して（例えば、ウェブサイトトポロジーの上に）識別された情報（例えば、ロケーション）を伝搬させる（ブロック７４０）。宛先ページに対して識別された情報（例えば、ロケーション）の適性の信頼度を決定する（ブロック７５０）。信頼度が十分に高くない場合、方法７００は単に終了する（ブロック７６０およびノード７９０）。反対に、信頼度が十分に高い場合、識別された情報（例えば、ロケーション）を宛先ページに関係付けし（ブロック７６０および７７０）、この関係付けを記憶（例えば、保存）し（ブロック７８０）、その後、方法７００は終了する（ノード７９０）。

ブロック７６０−７８０は、１つ以上の宛先ウェブページのそれぞれに対して実行してもよいことに留意すべきである。信頼度が、ウェブサイトの１つのウェブページに対しては十分に高いが、別のウェブページに対しては十分に高くないことがあり得る。したがって、本発明と一貫した少なくともいくつかの実施形態では、それぞれのウェブページに対する証拠は、（以下で説明するものを除外して）個別に評価される。それぞれのウェブページにおいて、ウェブサイトトポロジー中の、そのウェブページより下のすべてのウェブページに対するすべての証拠が累積される。これらの累積された証拠を使用して、特定のウェブページに対する情報を評価する。例えば、サイトトポロジー中のより低い位置にあるウェブページは、正に１つの住所に対する情報を持っているかもしれず、このことは、その住所を伝搬させるための十分な証拠であるかもしれない。しかしながら、サイトトポロジー中のより高い位置にあるウェブページは、他の住所に対する証拠も持っているかもしれず、このことは、どの住所もウェブサイトに対して特に関連性がないという結論を導くかもしれず、このケースでは、サイトトポロジー中のより高い位置にある、このようなウェブページに対して、住所を上に伝搬させなくてもよい。代わりに、または、加えて、ウェブサイト上の第１のウェブページは、十分な信頼度になるための、十分な証拠を持っているかもしれないが、そのウェブサイト上のサイトトポロジー上で、第１のウェブページよりも上の位置にない、第２のウェブページは、何の証拠も持っていないかもしれず、不十分な証拠、および／または、反対の証拠しか持っていないかもしれない。

本発明と一貫した少なくともいくつかの実施形態では、情報を上方向に伝搬させた後、それに対して何らかのウェブページが決定的な証拠を持つ異なる住所の合計数が、そのウェブサイトのすべてのウェブページに関係付けられ（例えば、その上に記憶され）てもよい。住所情報をスコア付けするときに、ウェブサイトが多くの住所を持つ場合、そのウェブサイトは全体として、何の物理的な対象も持っていないと考えられるので、何らかの所定のページ上の住所情報は、より少ない重みが与えられるかもしれない。

戻ってブロック７２０を参照して、ウェブページに関係付けられたロケーションを識別してもよい。ロケーションを識別するために使用されてもよいさまざまなデータの情報源は、ウェブページ上の略していない住所、ウェブページ上でのロケーション名の出現、ウェブページに対して住所またはロケーションを与える（例えば、ホームページおよび／または電話番号を有する）イエローページデータ、ドメイン登録からのメタ情報、ドメインの国コード、他のページ上の、そのページに対するリンクの近くで出現する位置、ロケーション名である用語を含むデータベース等を含む。各情報源からのロケーション名は、ウェブページに関係付けられているかもしれない。加えて、それぞれの情報の断片を提供した情報源の種別と数を追跡してもよい。戻ってブロック７３０を参照して、このような情報を使用して、識別されたロケーション情報をスコア付けしてもよい。

戻ってブロック７２０を参照して、ロケーション情報の代わりの情報、またはロケーション情報に加えての情報を識別してもよい。１つの例として、珍しい用語（例えば、高い文献出現頻度逆数（ＩＤＦ）の用語等）を（例えば、ホーム（またはルート）ページに対して上に）伝搬させてもよい。別の例として、（例えば、予め規定されたリストからの、垂直型カテゴリからの、概念からの、トピックからの、ジャンルからの等の）ページカテゴリを（例えば、ホーム（またはルート）ページに対して上に）伝搬させてもよい。

戻ってブロック７４０を参照して、この情報をウェブサイトのＵＲＬ階層の上に伝搬させてもよい。例えば、ウェブサイトのＵＲＬ階層において言及されたすべてのロケーションを、または、そのウェブサイトのそのＵＲＬ階層より下において言及されたすべてのロケーションを、それぞれのウェブページにおいて累積してもよい。スコア、または、スコアに影響を及ぼす１つ以上の要因（例えば、ロケーションの情報源、ロケーションの頻度等）を累積してもよい。戻ってブロック７５０を参照して、累積されたスコアまたはスコア要因を使用して、それぞれのロケーションの信頼度の値を決定してもよい。すなわち、すべてのロケーション情報と、すべてのロケーション情報の情報源とを重み付けして、それぞれのロケーションの信頼度を決定してもよい。繰り返すと、それぞれのウェブページに対して、信頼度スコア付けを行ってもよく、ここで、信頼度スコアとは、ウェブサイトトポロジー中の特定のウェブページより下のウェブページ上だけにある情報の関数である。

戻ってブロック７６０を参照して、もしある場合は、どのロケーションがウェブページに信頼して関係付けられると思われるかを決定する。機械学習システムを使用して、異なる種類の“ロケーション信頼度”証拠を、どのように重み付けするかを決めてもよい。（使用してもよい機械学習技術を説明する、例えば、“大規模データセットに基づいたドキュメントランキング”と題され、２００３年１１月１３日に出願され、Jeremy Bern氏、 Georges Harik氏、 Noam Shazeer氏、 Simon Tong氏、およびJoshua Levenberg氏を発明者として記載する、（ここに参照により組み込まれ、“‘９９１出願”として呼ばれる）米国特許出願シリアル番号第10/706,991号；“大規模機械学習システムおよび方法”と題され、２００３年１２月１５日に出願され、Jeremy Bern氏、 Georges Harik氏、Noam Shazeer氏、Simon Tong氏、およびJoshua Levenberg氏を発明者として記載する、（ここに参照により組み込まれ、“‘５８４出願”として呼ばれる）米国特許出願シリアル番号第10/734,584号を参照すべきである。また、T. Hastie氏、 R. Tibshirani氏、およびJ. H. Friedman氏、統計的学習のエレメント、スプリンガー（２００３年７月３０日）を参照すべきである。）証拠の例は、証拠の情報源（例えば、ウェブページ上の住所、イエローページデータ、ドメインレジストリ、データ等）、現在のウェブページに対する証拠の（例えば、階層の上への）パス、大文字使用、コンテキスト等を含んでもよい。信頼できる証拠が存在するウェブページ（例えば、イエローページデータは一般的に非常に信頼できる）から得た例を使用して、機械学習システムを訓練してもよい。一度システムが訓練されると、システムを使用して、それぞれのウェブページにおいて、それぞれのロケーション名に対して累積された情報を重み付けすることができる。またブロック７６０を参照して、しきい値に信頼度を適用して、ロケーション情報を宛先（シンク）ウェブページに関係付けするか否かを確認するというよりは、むしろ、本発明と一貫した少なくともいくつかの実施形態では、ロケーションと、宛先（シンク）ウェブペー
ジとの（ＩＲ目的のために使用されるような）関係付けの強度を決定する際に、信頼度レベルを使用してもよい。すなわち、信頼度レベルを使用して、（ａ）関係付けを行うか否かと、（ｂ）関係付けの強度とを決定してもよい。

本発明と一貫した少なくともいくつかの実施形態では、あまりに多くのロケーションが関連すると考えられた場合、これらのどのロケーションもウェブサイト（のホームページに対して）上に伝搬させないことが望ましいかもしれない。したがって、証拠の重み付けにおいて、別個のロケーションの数を使用してもよい。例えば、所定のウェブページに対する、多くの異なる住所の証拠がある場合は、そのウェブページに対してどの住所も伝搬させないことが望ましいかもしれず、あるいは、このような住所を伝搬させるが、住所の１つ以上を含むクエリに対する関連する検索結果として考察されるときには、後のスコア付けの際に、より少ない重みを与えることが望ましいかもしれない。アメリカ中にわたってロケーションを持つマクドナルドのような全国規模のフランチャイズを考える。このようなシナリオでは、これらのロケーションのすべてをマクドナルドのウェブサイトのためのホームページに対して上に伝搬させることは、望ましくないかもしれない。これは、ロケーションの数が多いことは、マクドナルドのウェブサイトを高度に記述していないからである。さらに、前述のことは、ウェブページ毎のベースでの、証拠の解析または伝搬されたロケーション情報の重み付けに関しているが、あるウェブサイト全体にわたってテストを適用することが有用であってもよい。例えば、ウェブサイトが予め定められた数（例えば、２０）より多くの異なる住所を含むと考えられる場合、このウェブサイトの何らかのウェブページに対して、この住所のうちの何らかのものを伝搬しないことが望ましいかもしれない。

モデルの結論が、ウェブページがおそらくは１つ以上のロケーションに関係付けられているということである場合、このロケーションはこのウェブページに適している見込があるとして考えられる。戻って、ブロック７７０および７８０を参照して、次に、このロケーションをこのウェブページに関係付けしてもよく、この関係付けを記憶（例えば、保存）してもよい。

本発明と一貫した少なくともいくつかの実施形態では、ロケーション情報は、ウェブサイトのホーム（またはルート）ページに対してだけ、上に伝搬させてもよい。

クエリを処理するとき、本発明と一貫した少なくともいくつかの実施形態では、もし、ロケーションに加えて、他の重要な単語がクエリ中にあるならば、そのロケーションのすべての単語を持っているウェブページに信用を与えてもよい。すなわち、クエリが住所だけについてのものである場合、そのウェブページに対して、追加のロケーション信用を与えないことが望ましいかもしれない。一方、ロケーションでない、他の重要な単語がクエリ中にある場合、そのクエリのロケーションでない最も強度が高い重要な単語に対するものと同じだけの（または、そのクエリのロケーションでない最も強度が高い重要な単語に対するものよりも少ない）信用を、それぞれのロケーション単語に与えることが望ましいかもしれない。ウェブサイトに関係付けられたロケーションが多い場合、与えられる信用の量を減少させることが望ましいかもしれない。

上で説明したいくつかの実施形態は、高度に記述的な情報を、ウェブサイトのトポロジーの上に伝搬させることに関連するが、本発明と一貫した少なくともいくつかの実施形態は、このような情報をウェブサイトのトポロジーの下に、または、ウェブサイトのトポロジー中にわたって（例えば、最初に上に、次に下に）伝搬させてもよい。

セクション４．２．２例示的な装置
図１１は、本発明と一貫した方法で、少なくともいくつかの動作を実行し、少なくともいくつかの情報を記憶するのに使用してもよい装置１１００のブロック図である。装置１１００は、基本的に１つ以上のプロセッサ１１１０、１つ以上の入力／出力インターフェイスユニット１１３０、１つ以上の記憶デバイス１１２０、ならびに、結合されたエレメント間での情報の通信を容易にするための１つ以上のシステムバスおよび／またはネットワーク１１４０を含む。１つ以上の入力デバイス１１３２および１つ以上の出力デバイス１１３４が、１つ以上の入力／出力インターフェース１１３０と結合されていてもよい。

１つ以上のプロセッサ１１１０は、本発明の１つ以上の観点を実行するために機械実行可能命令（例えば、カリフォルニア州、パロアルトのサンマイクロシステムズ社から入手できるソラリスオペレーティングシステム上で、または、ノースカロライナ州、ダーハムのレッドハット社のような多くのベンダから幅広く入手できるリナックス (登録商標)オペレーティングシステム上で実行するＣまたはＣ＋＋）を実行してもよい。少なくとも一部の機械実行可能命令を、１つ以上の記憶デバイス１１２０に（一時的に、もしくは、より恒久的に）記憶してもよく、および／または、１つ以上の入力インターフェイスユニット１１３０により外部情報源から受け取ってもよい。

１つの実施形態では、機械１１００は１つ以上の従来のパーソナルコンピュータであってもよい。このケースでは、処理ユニット１１１０は１つ以上のマイクロプロセッサであってもよい。バス１１４０はシステムバスを含んでいてもよい。記憶デバイス１１２０は、リードオンリーメモリ（ＲＯＭ）および／またはランダムアクセスメモリ（ＲＡＭ）のようなシステムメモリを含んでいてもよい。記憶デバイス１１２０は、ハードディスクから読み取るための、またはハードディスクに書き込むためのハードディスクドライブや、（例えば、リムーバブル）磁気ディスクから読み取るための、または（例えば、リムーバブル）磁気ディスクに書き込むための磁気ディスクドライブ、および、コンパクトディスクもしくは他の（磁気）光学メディアのようなリムーバブル（磁気）光ディスクから読み取るための、またはコンパクトディスクもしくは他の（磁気）光学メディアのようなリムーバブル（磁気）光ディスクに書き込むための光ディスクドライブも含んでいてもよい。

ユーザは、例えばキーボードおよびポインティングデバイス（例えば、マウス）のような入力デバイス１１３２を通して、パーソナルコンピュータにコマンドと情報を入力してよい。これには、マイク、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナ、またはこれらの均等物のような他の入力デバイスも（または、代わりに）含まれてよい。これらの、および他の入力デバイスは、システムバス１１４０に結合される適切なインターフェース１１３０を通して処理ユニット１１１０に接続されることが多い。出力デバイス１１３４は、モニタ、または、適切なインターフェースによりシステムバス１１４０に接続され得る、他のタイプの表示デバイスを含んでよい。モニタに加えて（または、代わりに）、パーソナルコンピュータは、例えばスピーカとプリンタのような、他の（示していない）（周辺）出力デバイスを含んでよい。

１つ以上のコンピュータで、上で説明した動作を実行してもよい。このようなコンピュータは、例えば、インターネットのような１つ以上のネットワークにより互いに通信していてもよい。戻って、例えば、図１および２を参照して、１つ以上の機械１１００によって、クライアントデバイス１１０、検索機構１３０、コンテンツプロバイダ１８０等を実現してもよい。

セクション４．２．３改良および代替物
本発明と一貫した少なくともいくつかの実施形態は、ウェブサイトが用語に対して“オーソリテイティブ”であるか否かを決定するために、異なる技術を使用してもよい。例えば、検索用語が有名なもの（例えば、登録された商標）である場合、商標オーナのウェブサイトが商標用語に対して“オーソリテイティブ”であるとして考えられてもよい。上で説明したように、証拠のさまざまな情報源を考えてもよく、証拠の統合性を重み付けしてもよい。

戻って図４の４４０および４５０、図６の６６０および６７０、ならびに図７の７７０および７８０を参照して、さまざまな方法で、識別された情報を識別されたウェブページに関係付けしてもよい。例えば、図２に図示した２２６のような転置インデックスを修正して、識別された情報と識別されたウェブページとの関係付けを反映させてもよい。より詳細には、用語（例えば、単語またはフレーズ）は、さまざまな｛ウェブページ識別子、重み｝の対をポイントしてもよい。ヒットカウントとして重みを呼んでもよい。例えば、シンシナティにあるラマダホテルのためのウェブページ（ＩＤ＃＝１２３４）にマッピングされている単語“ラマダ”を考える。転置インデックスは、最初に、以下の情報を含んでもよい：
ラマダ−＞・・・，｛ＩＤ＃１２３４，５｝，・・・

ラマダのためのウェブサイトのホームページは、キーワード“ラマダ”に対してオーソリテイティブであるので、このウェブサイトの、他のウェブページに対して、下に“ラマダ”を伝搬させることが望ましいことをさらに仮定する。関係付けおよび保存動作の後、転置インデックスは、ここで、以下の情報を含んでもよい：
ラマダ−＞・・・，｛ＩＤ＃１２３４，２５｝，・・・
したがって、重みは増加されてもよい。

代わりに、（例えば、検索クエリに依拠して、）ある状況では選択的に使用されてもよいが、他の状況では使用されないように、特別なタイプの重み増強を適用してもよい。すなわち、（例えば、検索クエリに依拠して、）いくつかの状況では、特別なタイプの重み増強を使用して重みを増強してもよいが、他の状況ではそうではない。このような実施形態では、用語（例えば、単語またはフレーズ）は、さまざまな｛ウェブページ識別子、重み、重み増強｝の３つ組をポイントしてもよい。上の例と類似した例を使用して、転置インデックスは、最初に、以下の情報を含んでもよい：
ラマダ−＞・・・，｛ＩＤ＃１２３４，５，ヌル｝，・・・

関係付けおよび保存動作の後、転置インデックスは、以下の情報を含んでもよい：
ラマダ−＞・・・，｛ＩＤ＃１２３４，５，３｝，・・・
重み増強を変数として示したが、重み増強は、重みを増強させるか否かを示す単なるバイナリ値であってもよい。本発明と一貫した少なくともいくつかの実施形態では、バイナリ値が重みを増強させるべきことを示す場合でさえも、ある環境（例えば、クエリの要因）では、重みを増強させることを防いでもよく、または、減少させてもよい。

本発明と一貫した少なくともいくつかの実施形態では、ウェブページのスコア（例えば、ＩＲスコア、および／またはページランクスコア等）、あるいは、スコアの成分に対して“増強”を適用してもよい。高いスコアを有するウェブページが、より低い初期スコアを有するウェブページよりも大きい増強を最初に得るように、増強の量は、スコアの関数であってもよい。例えば、以下のように増強を適用してもよい：
スコア’＝スコア＊（１＋増強＊スコア）
ここで、増強とスコアは、１よりも大きい。

上で説明した実施形態は、ユーザ検索クエリの状況におけるものであったが、本発明と一貫した実施形態は、例えば、広告リード発生、または、ローカル広告ターゲット付けのような、他のアプリケーションに適用されてもよい。

本発明と一貫した少なくともいくつかの実施形態では、クエリを処理するときに、修正されたウェブページ情報を使用することが望ましいのか、または、オリジナルのウェブページ情報を使用することが望ましいのかに依拠して、クエリを処理できる。１つの例として、２つのフィルタをクエリに適用して、クエリが地理的用語情報を含むときに、どの修正されたページ情報を使用するかを決めてもよい。これらのフィルタのそれぞれを以下で説明する。

第１のフィルタでは、クエリ中で地理的用語が出現するような方法で用語が出現するか否かに基づいて、地理的用語である見込のある用語のリストを、オフラインで発生させてもよい。例えば、地理的用語は、クエリ中で“Ｘにあるホテル”のように出現することが多い。このようなクエリ中にある、潜在的な地理的用語のすべての出現の率が、ほとんどの地理的用語に対する対応する率よりもかなり低い場合に、用語は地理的でないとして考えられてもよい。例えば、“ＭＳ”（“ミシシッピ”の略語）は、地理的用語であるが、これは、“ＭＳカリフォルニア”のようなフレーズでは、他のことを意味する可能性がある。ルールとして、一般的に地理的なコンテキストで出現する“ジャクソンＭＳ”のようなクエリ中のフレーズで出現しない限り、“ＭＳ”を地理的用語として取り扱わないことが望ましいかもしれない。したがって、“Ｘにあるホテル”、および、地理を示す類似のクエリ形態のような、クエリ中での用語の出現の十分に高い率を有する用語に基づいて、地理的用語のリストを発生させてもよい。次に、クエリに対してウェブページをスコア付けするときに、修正された地理的ウェブページ情報だけを、地理的であるとして確認された用語に対して使用する。このようにすることは、“ＭＳカリフォルニア”のようなクエリに対する問題をなくす。

第２のフィルタでは、クエリ中で非常に頻繁に出現する、“ホテル”、“ピザ”等のような用語のリストをオフラインで発生させてもよい。次に、クエリのいくつかの用語が地理的であるとして識別される場合でさえも、そのクエリの少なくとも１つの他の単語が頻繁な単語である限りは、修正された情報を使用しなくてもよい。これは、“ロンドンホテル”のような、正に個々のホテルに対応するいくつかの検索結果というよりは、一般的なロンドンのホテルについてのウェブページに対応する検索結果を提供することが望ましいと思われるクエリに対する問題をなくす。

上で説明した少なくともいくつかの実施形態では、（その用語を含む検索クエリに対して、ウェブページが、そうでなければ持つことになるものよりも高いスコアを持つことになるように、）ウェブサイトのウェブページに関係付けて保存される情報（例えば、用語）は、同じウェブサイトの別のウェブページから由来するものである。しかしながら、本発明と一貫した少なくともいくつかの実施形態では、このような情報（例えば、用語）は、そのウェブサイトに属していないドキュメントから由来するものであるかもしれない。例えば、第１のウェブサイトの第１のウェブページが、住所と、その住所の近くに、第２のウェブサイトの第２のウェブページに対する参照（例えば、リンク）とを含むことを仮定する。このことは、第１のウェブサイトの第１のウェブページ上で見つかった住所が、第２のウェブサイトの第２のウェブページに適しているかもしれないことを示唆するかもしれない。したがって、住所（または、おそらくは住所の一部）を含む検索クエリに対して、第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、第２のウェブページに関係付けして、住所を保存してもよいかもしれない。

実際に、情報の源がウェブページである必要はなく、関係がリンクである必要はない。例えば、企業名と、企業の住所（例えば、企業法人の主要な事業所）を含む、ＳＥＣ申請書類、事業免許申請書類等を考える。ウェブサイトがその企業に対して登録されている場合、または、ウェブサイトがその企業名を含むＵＲＬを持っている場合、あるいは、ウェブサイトがその企業名を目立つように表示しているが、住所情報は持たない場合に、本発明と一貫した少なくともいくつかの実施形態は、ＳＥＣ申請書類、事業の記載等（第１のドキュメント）の住所（情報）を採用し、標榜された事業のウェブサイト（第１のドキュメントに関連する第２のドキュメント）を決定して、そして、住所（または、おそらくは住所の一部）を含む検索クエリに対して、第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、そのウェブサイトのホームページに関係付けして、その住所を保存してもよい。この第２の例は、情報が、あるタイプのものであることを妥当性検査するために、他の情報源を使用して証拠を得ることとは、少し異なることに留意すべきである。

上記の例が図示するように、情報の源は、同じウェブサイト上のウェブページである必要はなく、ウェブページである必要さえもない。

本発明と一貫した少なくともいくつかの実施形態では、情報（例えば、用語）は、他のドキュメントに適している見込のある情報（例えば、住所）のクラスに属する必要があってもよい。言い換えると、ウェブページに関連して情報を無分別に保存する必要はない。むしろ、情報は、あるクラスまたはタイプの情報に制限してもよい。情報のクラスの例は、住所、電話番号、事業のタイプ、ページのジャンル等を含んでもよい。

本発明と一貫した少なくともいくつかの実施形態では、情報の源が特定のドキュメントである必要は全くない。むしろ、情報の源は用語の間の関係であるかもしれない。関係は強いものである必要がある。例えば、ウェブページが用語“クリーヴランド”を含む場合、情報は“オハイオ”であってもよい。別の例として、ウェブページがシカゴのエリアコードを有する電話番号を含む場合、情報は“シカゴ”であってもよい。さらに別の例として、用語“ミケランジェロ”および“システィナ礼拝堂”は、強く関連している。したがって、検索クエリが“ミケランジェロ”を含む場合に、そのウェブページが、そうでなければ持つことになるものよりも高い検索スコアを受け取ることになるように、用語“システィナ礼拝堂”を有するウェブページを、用語“ミケランジェロ”に関係付けしてもよい。したがって、情報（例えば、オハイオ、シカゴ、ミケランジェロ等）は、情報が関係付けられることになる、ウェブページとの特定の関係を持っているドキュメントまたはウェブページを情報源としていなくてもよい。むしろ、ウェブページ上の情報との関係に基づいて、情報を決定してもよい。用語の関係の強度は、関係の向きに依拠しているかもしれない。例えば、用語“ウイルス”を、“コンピュータセキュリティ”に適しているウェブページに関係付けることが有用であるかもしれないが、用語“コンピュータセキュリティ”を“ウイルス”に適しているウェブページに関係付けることは有用でないかもしれない。さまざまな情報拡張技術を使用して、シード用語に関連する１つ以上の用語を決定してもよい。

セクション４．３例示的な実施形態では、形態の動作の例
セクション４．３．１例１:オーソリテイティブな情報を下に伝搬
図８は、ウェブサイトのウェブページに対して、オーソリテイティブなウェブサイト内情報を下に伝搬させる例を図示する。（図６の例示的な方法６００を想起すべきである。）ラマダのウェブサイト８００のホームページ８１０は、用語“ラマダ”に対してオーソリテイティブであるとして仮定する。例えば、テキスト“ラマダ”を含むリンクの大多数が、Ｒａｍａｄａ．ｃｏｍウェブサイト上のウェブページをポイントすることを仮定する。（図６のブロック６２０を想起すべきである。）ユーザがその用語を使用するとき、ユーザは実際に、通常はそのウェブサイトを本当に望むということを確認するために、追加的なチェックを使用して、そのクエリ中の用語を妥当性検査してもよい。

この例では、ウェブページwww.ramada.com/Ramada/control/press_releases_list ８２８およびその下の８３６を含むウェブページを除いた、このウェブサイト上の他のすべてのウェブページが、ホームページに“関連する”ことが仮定される。（図６のブロック６４０および６５０を想起すべきである。）すなわち、識別された情報“ラマダ”は、ウェブサイト８００の“プレスリリース”タイプのウェブページ８２８、８３６には関係付けられないだろう。

識別された情報“ラマダ”は、ホームページ８１０に関連するラマダのウェブサイト８００上の除外されていない、ウェブページ８２２およびその子孫８３１、８３２、８３３、８４２、８４４、８４６と、ウェブページ８２４およびその子孫８３４と、ウェブページ８２６およびその子孫８３５とに関係付けられてもよい。ｒａｍａｄａ．ｃｏｍ中の、除外されていないウェブページのそれぞれのコピーを、または、このような除外されていないウェブページから導出したＩＲのために使用される情報を、用語“ラマダ”に対してトピカル（topical）であるとして注釈することによって、このような関係付けを行ってもよい。（例えば、図２のリポジトリ２１４を想起すべきである。）検索エンジンによって使用される技術が、これらのウェブページが用語“ラマダ”に対してより関連性があると考えるように、これらの関係付けを行うべきである。例えば、クエリを処理しているときに、このクエリが用語全体を含む場合に、それぞれの注釈されたウェブページは、このフレーズをアンカーテキストとして使用して、そのウェブページをポイントしているＮ（例えば、６）個の追加的ウェブページを持つとして考えてもよく、これによって、グーグル（登録商標）検索技術が使用されるときに、そのウェブページのページランクスコアを増強させる。

セクション４．３．２例２：高度に記述的な情報を上に伝搬
図９は、ウェブサイト９００のウェブページ９１０に対して、高度に記述的なウェブサイト内情報を上に伝搬させる第１の例を図示する。ウェブサイト９００は、ヴェトナム料理レストラン“サイゴンＩＩ”のためのものである。ウェブサイト９００のホーム（またはルート）ウェブページ９１０は、このレストランの住所を含まないが、ウェブサイト９００のより低いウェブページ９２２は、住所カリフォルニア州（ＣＡ）、どこかの町、大通り１２３を含むことを仮定する。住所を識別してもよい。（図７の７２０を想起すべきである。）“カリフォルニア州（ＣＡ）、どこかの町、大通り１２３”は、（例えば、用語“通り”、州の短縮形“ＣＡ”、住所のシンタックス等によって、）望ましいレベルの信頼度を有する住所またはロケーションであるとして考えられてもよいことをさらに仮定する。そのホームページ９１０上にロケーションの名称が出現しないとしても、ウェブサイト９００のホームページ９１０は、（例えば、検索の目的で、）ロケーション“カリフォルニア州、どこかの町、大通り１２３”に対して信用が与えられてもよい（例えば、これを含むとして取り扱われてもよい）。

加えて、ウェブサイト９００のウェブページ９２４は、レストランのメニューアイテムを含む。メニューアイテムの１つは、“フォー”（牛肉風味麺スープ）である。“フォー”は、（例えば、フォーがウェブページの広い収集物において頻繁に使用されないために）高度に記述的な用語であるとして考えられることを仮定する。この用語はまた、識別され、ウェブサイト９００のホームページ９１０に対して上に伝搬されてもよい。したがって、ホームページ９１０上にこの用語が出現しないとしても、ウェブサイト９００のホームページ９１０は、（例えば、検索の目的で、）用語“フォー”に対して信用が与えられてもよい（例えば、これを含むとして取り扱われてもよい）。

カリフォルニア州、どこかの町に位置する（または、この近くに位置する）クライアントデバイスからのクエリが、“フォーレストラン”に対するクエリを出したとして、そして、そのクエリ情報がクライアントデバイスロケーションにより補足されたとして仮定する。ホームページ９１０はレストランに一致する。さらに、ホームページ９１０は、ウェブページ９２２からのロケーションと、ウェブページ９２４からの用語“フォー”とで補足されているので、ホームページ９１０はまた、そのクエリからの用語“フォー”と、そのクライアントデバイスの認識されたロケーションとにも一致する。したがって、ロケーションと、記述的用語“フォー”とで補足されたホームページ９１０は、そうでない場合よりもより多くこの検索に関連性があることが分かる。

セクション４．３．３例３：高度に記述的なカテゴリ情報を上に伝搬
図１０は、ウェブサイト１０００のウェブページ１０１０に対して、ウェブサイト内情報を上に伝搬させる第２の例を図示する。この例では、ウェブサイト１０００は電化製品小売業者ベストバイのためのものである。ホーム（またはルート）ページ１０１０は、さまざまな製品カテゴリに対応するさまざまなウェブページ１０２１−１０２５に対するリンクを含む。そしてまた、これらのウェブページ１０２１−１０２５は、特定の製品に対応するさまざまなウェブページ１０３１−１０３５に対するリンクを含む。

製品カテゴリは、高度に記述的であるとして考えられることを仮定する。この例では、このような製品カテゴリはウェブページ１０２１−１０２５において識別され、ウェブサイト１０００のホームページ１０１０に対して上に伝搬される。したがって、これらの用語がホームページ１０１０上に出現しない場合でさえも、（例えば、検索の目的で）ウェブサイト１０００のホームページ１０１０は、用語“テレビジョン”、“コンピュータ”、“ビデオゲーム”、“ＤＶＤ”、“ＣＤ”、“カメラ”、および“ビデオカメラ”に対して信用が与えられる（例えば、これらを含むとして取り扱われる）。（用語“ベストバイ”もまた、ウェブサイト１０００のウェブページ１０２１−１０２５および１０３１−１０３５に対して、下に伝搬されてもよいことに留意すべきである。）
“テレビジョンおよびビデオゲーム”に対する検索が受け取られたとして仮定する。この例では、ベストバイのためのホームページ１０１０は、そうでなければ持つことになるものよりも、このようなクエリに対して、より多く関連性があることになるだろう。

セクション４．４結論
上記のことから理解できるように、検索エンジンが、ウェブページについての正に直接の情報（例えば、そのウェブページとその構造上の単語、そのウェブページをポイントするアンカー中の単語、ウェブページのページランク等）を使用する自動化検索エンジンよりもよい検索結果を戻すように、検索エンジンを改善することが有用であるだろう。

図１は、本発明と一貫した実施形態がその中で使用されてもよい、または本発明と一貫した実施形態がそれを用いて使用されてもよい例示的な環境のデータフロー図である。図２は、本発明と一貫した実施形態がその中で使用されてもよい、または本発明と一貫した実施形態がそれを用いて使用されてもよい例示的な検索エンジンのデータフロー図である。図３は、本発明と一貫した実施形態で、実行してもよい動作と、このような動作によって、発生させてもよい、および／または、使用してもよい情報とのデータフロー図である。図４は、本発明と一貫した方法で、ウェブサイト内情報を関係付けする例示的な方法のフロー図である。図５は、本発明と一貫した方法で、ウェブ検索を実行する例示的な方法のフロー図である。図６は、本発明と一貫した方法で、オーソリテイティブなウェブサイト内情報（例えば、ウェブサイトトポロジーの下に）を伝搬させる例示的な方法のフロー図である。図７は、本発明と一貫した方法で、高度に記述的なウェブサイト内情報を（例えば、ウェブサイトトポロジーの上に）伝搬させる例示的な方法のフロー図である。図８は、ウェブサイトのウェブページに対して、ウェブサイト内情報を下に伝搬させる例を図示する。図９は、ウェブサイトのウェブページに対して、ウェブサイト内情報を上に伝搬させる第１の例を図示する。図１０は、ウェブサイトのウェブページに対して、ウェブサイト内情報を上に伝搬させる第２の例を図示する。図１１は、本発明と一貫した方法で、少なくともいくつかの動作を実行するのに使用してもよく、少なくともいくつかの情報を記憶してもよい装置のブロック図である。

Claims

コンピュータ実現される方法において、
ａ）ウェブサイトに適している情報を受け入れることと、
ｂ）用語を含む検索クエリを処理する目的で、前記ウェブサイトの第１のウェブページに適しており、前記ウェブサイトの別のウェブページに適している見込のある前記用語を識別することと、
ｃ）前記第１のウェブページとの特定の関係を持つ前記ウェブサイトの第２のウェブページを決定することと、
ｄ）前記識別された用語を前記第２のウェブページに関係付けるべきか否かを決定することと、
ｅ）前記用語を前記第２のウェブページに関係付けるべきであるとして決定された場合、前記識別された用語を含む検索クエリに対して、前記第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、前記識別された用語と前記第２のウェブページとの関係付けを保存することと
を含むコンピュータ実現される方法。
前記用語を前記第２のウェブページに関係付けるべきか否かを決定する動作は、
１）第１の組の情報上での第１のテストを使用して、前記用語が前記第２のウェブページに適しているかもしれないか否かを決定することと、
２）前記用語が前記第２のウェブページに適しているかもしれないとして決定された場合、第２の組の情報上での第２のテストを使用して、前記用語を前記第２のウェブページに関係付けるべきか否かを決定することと
を有する、請求項１記載のコンピュータ実現される方法。
前記用語を含む検索クエリを処理する目的で、前記ウェブサイトの第１のウェブページに適しており、前記ウェブサイトの別のウェブページに適している見込のある前記用語は、前記特定の関係以外の証拠を使用して識別される、請求項１記載のコンピュータ実現される方法。
前記特定の関係は２つのウェブページの間のリンクの存在である、請求項３記載のコンピュータ実現される方法。
前記用語を識別する動作は、前記ウェブサイトに強く関係付けられた用語を識別する、請求項１記載のコンピュータ実現される方法。
前記用語は検索クエリ用語であり、前記ウェブサイトに強く関係付けられた検索クエリ用語を識別する動作は、過去のユーザ検索クエリと、前記ウェブサイトに対応する検索結果を過去にユーザが選択したことと、を使用する、請求項５記載のコンピュータ実現される方法。
前記ウェブサイトに強く関係付けられた用語を識別する動作は、前記用語を含み、前記ウェブサイトの１つ以上のウェブページを参照する、アンカーテキストを使用する、請求項５記載のコンピュータ実現される方法。
前記ウェブサイトに強く関係付けられた用語を識別する動作は、（１）企業名としての前記用語と、（２）前記企業のためのホームページとしての前記ウェブサイトのウェブページと、をリストアップするイエローページエントリを使用する、請求項５記載のコンピュータ実現される方法。
前記ウェブサイトに強く関係付けられた用語を識別する動作は、（１）商標としての前記用語と、（２）ホームページとしての前記ウェブサイトのウェブページと、をリストアップする商標登録情報を使用する、請求項５記載のコンピュータ実現される方法。
前記ウェブサイトに強く関係付けられた用語を識別する動作は、（１）ドメイン名における前記用語と、（２）前記ウェブサイトのホームページと、をリストアップするドメイン名登録情報を使用する、請求項５記載のコンピュータ実現される方法。
前記用語が前記第２のウェブページに適しているかもしれないとして決定された場合に、第２の組の情報上での第２のテストを使用して、前記用語を前記第２のウェブページに関係付けるべきか否かを決定する動作は、
−前記第２のウェブページが、あるタイプのページであるか否か決定することと、
−前記第２のウェブページがあるタイプのページである場合、前記用語を前記第２のウェブページに関係付けるべきでないことを決定することと
を有する、請求項２記載のコンピュータ実現される方法。
前記あるタイプは、（Ａ）プレスリリースウェブページ、（Ｂ）メッセージボードウェブページ、（Ｃ）フォーラムウェブページ、および（Ｄ）外国語ウェブページからなるウェブページタイプのグループから選択される、請求項１１記載のコンピュータ実現される方法。
前記用語が前記第２のウェブページに適しているかもしれないとして決定された場合に、第２の組の情報上での第２のテストを使用して、前記用語を前記第２のウェブページに関係付けるべきか否かを決定する動作は、
−前記第２のウェブページと前記第１のウェブページとの間の最短のリンクの数を決定することと、
−前記決定された最短のリンクの数が、予め定められた値よりも多い場合、前記用語を前記第２のウェブページに関係付けるべきでないとして決定することと
を有する、請求項２記載のコンピュータ実現される方法。
前記識別された検索クエリ用語を含む検索クエリに対して、前記第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つように、前記識別された用語と前記第２のウェブページとの関係付けを保存する動作は、前記検索スコアの情報検索成分を増加させる、請求項５記載のコンピュータ実現される方法。
前記識別された検索クエリ用語を含む検索クエリに対して、前記第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、前記識別された用語と前記第２のウェブページとの関係付けを保存する動作は、前記検索スコアのページランク成分を増加させる、請求項５記載のコンピュータ実現される方法。
前記識別された用語はフレーズである、請求項１記載のコンピュータ実現される方法。
（ｆ）前記識別された用語を含む検索クエリを受け取ることと、
（ｇ）前記識別された検索用語との保存された関係付けを持っている前記第２のウェブページの前記検索結果スコアを増加させることと
をさらに含む、請求項１記載のコンピュータ実現される方法。
前記検索結果スコア増加の大きさは前記第２のウェブページの増加されていない検索結果スコアの関数である、請求項１７記載のコンピュータ実現される方法。
前記識別された用語は高度に記述的な情報である、請求項１記載のコンピュータ実現される方法。
前記高度に記述的な情報はロケーションである、請求項１９記載のコンピュータ実現される方法。
前記高度に記述的な情報は住所である、請求項１９記載のコンピュータ実現される方法。
前記高度に記述的な情報は珍しい用語である、請求項１９記載のコンピュータ実現される方法。
前記珍しい用語はウェブページおよびウェブサイトの収集物のうちで、予め定められた頻度より少なく出現する用語である、請求項２２記載のコンピュータ実現される方法。
前記高度に記述的な情報は製品カテゴリである、請求項１９記載のコンピュータ実現される方法。
前記高度に記述的な情報の少なくともいくつかを含む検索クエリに対して、前記第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つように、前記識別された高度に記述的な情報と前記第２のウェブページとの関係付けを保存する動作は、前記検索スコアの情報検索成分を増加させる、請求項１９記載のコンピュータ実現される方法。
前記高度に記述的な情報の少なくともいくつかを含む検索クエリに対して、前記第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つように、前記識別された高度に記述的な情報と前記第２のウェブページとの関係付けを保存する動作は、前記検索スコアのページランク成分を増加させる、請求項１９記載のコンピュータ実現される方法。
前記高度に記述的な情報は前記ウェブサイトのホームウェブページまたはルートウェブページ上では見つからないものであり、
前記第２のウェブページは前記ウェブサイトのホームウェブページまたはルートウェブページである、請求項１９記載のコンピュータ実現される方法。
前記識別された用語は高度に記述的な情報であり、前記第２の組の情報上での第２のテストは、
Ａ）前記候補の高度に記述的な情報において、信頼度レベルを決定することと、
Ｂ）前記決定された信頼度レベルが予め規定されたしきい値よりも大きいか否かを決定することと
を含み、
前記決定された信頼度が予め定められたしきい値よりも大きいとして決定された場合だけ、前記識別された候補の高度に記述的な情報を、前記第２のウェブページに関係付ける、請求項２記載のコンピュータ実現される方法。
前記候補の高度に記述的な情報において、信頼度レベルを決定する動作は、前記候補の高度に記述的な情報が、高度に記述的な情報であるという証拠を解析することを含む、請求項２８記載のコンピュータ実現される方法。
前記解析される証拠は前記ウェブサイトに適している受け入れられた情報以外の情報源からのものである、請求項２９記載のコンピュータ実現される方法。
前記候補の高度に記述的な情報が高度に記述的な情報であるという証拠を解析する動作は、訓練された機械学習選別器に対する入力として、前記証拠を適用することを含む、請求項２９記載のコンピュータ実現される方法。
前記ウェブサイトはトポロジーを持ち、前記第２のウェブページは前記ウェブサイトトポロジーにおいて、前記第１のウェブページよりも高い、請求項１記載のコンピュータ実現される方法。
前記第２のウェブページは前記ウェブサイトのルートページまたはホームページである、請求項３２記載のコンピュータ実現される方法。
前記ウェブサイトはトポロジーを持ち、前記第１のウェブページは前記ウェブサイトトポロジーにおいて、前記第２のウェブページよりも高い、請求項１記載のコンピュータ実現される方法。
前記第１のウェブページは前記ウェブサイトのルートページまたはホームページである、請求項３４記載のコンピュータ実現される方法。
コンピュータ実現される方法において、
ａ）第１のドキュメントに適している用語を識別することと、
ｂ）前記用語を含む検索クエリを処理する目的で、前記識別された用語が、１つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定することと、
ｃ）前記用語を含む検索クエリを処理する目的で、前記識別された用語が、１つ以上の他のドキュメントに適している見込のある情報のクラスに属しているとして決定された場合に、
１）前記情報のクラスが、関係を有するドキュメントに適している見込があるように、前記第１のドキュメントとの特定の関係を持つ第２のドキュメントを決定することと、
２）前記識別された用語を前記第２のドキュメントに関係付けるべきか否か決定することと、
３）前記用語を前記第２のドキュメントに関係付けるべきであるとして決定された場合、前記識別された用語を含む検索クエリに対して、前記第２のドキュメントが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、前記識別された用語と前記第２のドキュメントとの関係付けを保存することと
を含むコンピュータ実現される方法。
前記第１のドキュメントは第１のウェブサイトに属しているウェブページであり、前記第２のウェブページは前記第１のウェブサイト以外のウェブサイトに属している、請求項３６記載のコンピュータ実現される方法。
前記第１のドキュメントは第１のウェブページであり、前記第１のウェブページと前記第２のウェブページとの前記特定の関係は、前記第１のウェブページから前記第２のウェブページに対するリンクである、請求項３６記載のコンピュータ実現される方法。
前記第１のドキュメントは第１のウェブページであり、前記第１のウェブページと前記第２のウェブページとの前記特定の関係は、前記第２のウェブページから前記第１のウェブページに対するリンクである、請求項３６記載のコンピュータ実現される方法。
前記第１のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、１つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
前記第１のドキュメントが属するウェブサイトに強く関係付けられている用語を識別する、請求項３６記載のコンピュータ実現される方法。
前記用語は検索クエリ用語であり、前記第１のドキュメントはウェブサイトに属し、
前記第１のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、１つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
過去のユーザ検索クエリと、前記ウェブサイトに対応する検索結果を過去にユーザが選択したことと、を使用して、前記ウェブサイトに強く関係付けられている検索クエリ用語を識別する、請求項３６記載のコンピュータ実現される方法。
前記第１のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、１つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
（１）企業名としての前記用語と、（２）前記企業のためのホームページとしての前記ウェブサイトのウェブページと、をリストアップするイエローページエントリを使用して、前記ウェブサイトに強く関係付けられた用語を識別する、請求項３６記載のコンピュータ実現される方法。
前記第１のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、１つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
（１）商標としての前記用語と、（２）ホームページとしての前記ウェブサイトのウェブページと、をリストアップする商標登録情報を使用して、前記ウェブサイトに強く関係付けられた用語を識別する、請求項３６記載のコンピュータ実現される方法。
前記第１のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、１つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
（１）ドメイン名における前記用語と、（２）前記ウェブサイトのホームページと、をリストアップするドメイン名登録情報を使用して、前記ウェブサイトに強く関係付けられた用語を識別する、請求項３６記載のコンピュータ実現される方法。
（ｄ）前記識別された用語を含む検索クエリを受け取ることと、
（ｅ）前記識別された用語との保存された関係付けを持っている前記第２のドキュメントの前記検索結果スコアを増加させることと
をさらに含む、請求項３６記載のコンピュータ実現される方法。
前記識別された用語は高度に記述的な情報である、請求項３６記載のコンピュータ実現される方法。
前記高度に記述的な情報はロケーションである、請求項４６記載のコンピュータ実現される方法。
前記高度に記述的な情報は住所である、請求項４６記載のコンピュータ実現される方法。
前記高度に記述的な情報は珍しい用語である、請求項４６記載のコンピュータ実現される方法。
前記珍しい用語はウェブページおよびウェブサイトの収集物のうちで、予め定められた頻度より少なく出現する用語である、請求項４９記載のコンピュータ実現される方法。
前記高度に記述的な情報は製品カテゴリである、請求項４６記載のコンピュータ実現される方法。
前記高度に記述的な情報の少なくともいくつかを含む検索クエリに対して、前記第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つように、前記識別された高度に記述的な情報と前記第２のウェブページとの関係付けを保存する動作は、前記検索スコアの情報検索成分を増加させる、請求項４６記載のコンピュータ実現される方法。
装置において、
ａ）ウェブサイトに適している情報を受け入れる手段と、
ｂ）用語を含む検索クエリを処理する目的で、前記ウェブサイトの第１のウェブページに適しており、前記ウェブサイトの別のウェブページに適している見込のある前記用語を識別する手段と、
ｃ）前記第１のウェブページとの特定の関係を持つ前記ウェブサイトの第２のウェブページを決定する手段と、
ｄ）前記識別された用語と前記第２のウェブページとを関係付けるべきか否かを決定する手段と、
ｅ）前記用語を前記第２のウェブページに関係付けるべきであるとして決定された場合、前記識別された用語を含む検索クエリに対して、前記第２のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、前記識別された用語と前記第２のウェブページとの関係付けを保存する手段と
を具備する装置。
（ｆ）前記識別された用語を含む検索クエリを受け取る手段と、
（ｇ）前記識別された検索用語との保存された関係付けを持っている前記第２のウェブページの前記検索結果スコアを増加させる手段と
をさらに具備する請求項５３記載の装置。