JP2009532766A - ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬 - Google Patents

ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬 Download PDF

Info

Publication number
JP2009532766A
JP2009532766A JP2009502850A JP2009502850A JP2009532766A JP 2009532766 A JP2009532766 A JP 2009532766A JP 2009502850 A JP2009502850 A JP 2009502850A JP 2009502850 A JP2009502850 A JP 2009502850A JP 2009532766 A JP2009532766 A JP 2009532766A
Authority
JP
Japan
Prior art keywords
web page
term
website
computer
implemented method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009502850A
Other languages
English (en)
Other versions
JP5069285B2 (ja
Inventor
エグノア、ダニエル
ハール、ポール
ラッカー、ケビン
ランピング、ジョン
シンガル、アミタブ・ケー.
ヤン、ケ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2009532766A publication Critical patent/JP2009532766A/ja
Application granted granted Critical
Publication of JP5069285B2 publication Critical patent/JP5069285B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

検索結果を改善するために、ウェブサイトのウェブページを処理してもよい。例えば、正に情報が直接関係付けられたウェブページよりも多くのページに適している見込のある情報を識別してもよい。また、このような情報が適している見込のある、他の1つ以上の関連するウェブページを識別してもよい。識別された情報を、他の識別されたウェブページに関係付けして、ウェブページの検索結果スコアに影響を及ぼすような方法で、この関係付けを保存する。
【選択図】 図4

Description

発明の分野
本発明と一貫した実施形態は、情報検索(IR)に関する。特に、本発明と一貫した実施形態は、例えばウェブサイトのような複数の組のドキュメントの1つに属する、例えばウェブページのようなドキュメントのIRを改善することに関する。
発明の背景
人々がワールドワイドウェブ(“ウェブ”)上で、また、他のネットワーク上で、関心のある情報を見つけるのを支援するために、検索エンジンは非常に有用になってきた。例示的な検索エンジンは、S.Brin氏およびL.Page氏により、オーストラリア、ブリズベン、第7回国際ワールドワイドウェブ会議において発表された論文“大規模ハイパーテキストの検索エンジンに関する解剖”、および、米国特許第6,285,999号(これらの両方はここで参照によって組み込まれている)に説明されている。検索エンジンは、検索結果のためのクエリを受け取る。応答して、検索エンジンは(例えば、ウェブページのインデックスから)関連性のある検索結果を取得する。このような検索結果は、例えば、ウェブページタイトルのリスト、これらのウェブページから抽出されたテキストの断片、および、これらのウェブページに対するハイパーテキストリンクを含んでいてもよく、予め定められた数(例えば、10)の検索結果へとグループ化されてもよい。
図1は、(例えば、インターネットのような)ネットワーク160を含んでもよい環境100の高水準ブロック図であり、ここで、情報アクセス機構(クライアントデバイス)110を使用して、1つ以上のコンテンツプロバイダ(例えば、ウェブページサーバ)180からアクセスにより得られた情報をレンダリングする。情報アクセス機構110によって、検索機構(サーバ)130を使用して、関心のあるコンテンツを検索してもよい。
情報アクセス機構110は、ナビゲーション動作114と、ユーザインターフェース動作116とを含む、ブラウジング動作112を含んでもよい。ブラウジング動作112は、入力/出力インターフェース動作118により、ネットワーク160にアクセスしてもよい。例えば、パーソナルコンピュータの状況では、(モジラ(登録商標)によるファイアフォックス、AOLタイムワーナー(登録商標)によるネットスケープ、オペラソフトウェア(登録商標)によるオペラ、マイクロソフト(登録商標)によるエクスプローラ(登録商標)等のような)ブラウザによって、ブラウジング動作112を実行してもよく、そして、モデムまたはネットワークインターフェースカード(すなわちNIC)およびネットワーキングソフトウェアによって、入力/出力インターフェース動作を実行してもよい。情報アクセス機構110の、他の可能性ある例は、例えば、パーソナルデジタルアシスタント(“PDA”)および移動体電話機のような、有線式でないデバイス、セットトップボックス、キオスク、メディアプレーヤ等を含む。
コンテンツプロバイダ180のそれぞれは、(コンテンツとしても呼ばれる)記憶されたリソース136と、要求に応答して、コンテンツにアクセスし、コンテンツを提供するリソース取得動作184と、入力/出力インターフェース動作182とを含んでもよい。コンテンツプロバイダ180のこれらの動作は、例えば、パーソナルコンピュータまたはサーバのようなコンピュータによって実施されてもよい。したがって、記憶されたリソース186は、磁気ディスク、光学ディスク等のような、任意のタイプの記憶媒体上に記憶されたデータとして実現されてもよい。この特定の環境100において、例えばウェブページのようなアドレス指定可能なコンテンツを含むとして、用語“ドキュメント”を解釈してもよい。
検索機構130は、クローリング、インデックス付け/ソーティング、およびクエリ処理機能を実行してもよい。同じエンティティ、または個々のエンティティによって、これらの機能を実行してもよい。さらに、同じロケーションにおいて、または異なるロケーションにおいて、これらの機能を実行してもよい。何らかのイベントにおいて、クローリング機構150におけるクローリング動作152は、ネットワーク160を通してアクセス可能なさまざまな情報源からコンテンツを得て、154によって示したような、このようなコンテンツまたはこのようなコンテンツの形態を記憶する。次に、自動化インデックス付け/ソーティング機構140において、自動化インデックス付け/ソーティング動作142は、記憶されたコンテンツ154にアクセスしてもよく、コンテンツインデックス(例えば、以下で説明することになる転置インデックス)およびコンテンツレーティング(例えば、以下で説明することになるページランク)140を発生させてもよい。最後に、クエリ処理動作134は、コンテンツインデックス(およびコンテンツレーティング)140に基づいて、クエリを受け入れし、クエリ結果を戻す。クローリング、インデッス付け/ソーティングおよびクエリ処理機能を、1つ以上のコンピュータによって実行してもよい。
図2は、アドバンスト検索機構200の処理データフロー図である。図2に図示したアドバンスト検索機構200は、3つの主な機能、(i)クローリング、(ii)インデックス付け/ソーティング、および(iii)検索を実行する。水平破線は、これらの3つの機能に対応する3つの部分に図2を分ける。より詳細には、第1の部分150’は、クローリング機能に対応し、第2の部分140’は、インデックス付け/ソーティング機能に対応し、第3の部分134’は、検索(または、クエリ処理)に対応する。(参照されたアイテムが、アポストロフィーのない番号により参照されたアイテムの単なる1つの例にすぎないことを示すために、参照番号の後のアポストロフィー「 ’」を使用することに留意すべきである。)これらの部分のそれぞれを、以下でより詳細に紹介する。しかしながら、その前に、このアドバンスト検索機構200のいくつかの顕著な特徴を紹介する。アドバンスト検索機構は、他の技術とともにウェブのリンク構造を使用して、検索結果を改善する。
また図2を参照して、アドバンスト検索エンジン200の3つの主な部分を以下でさらに説明する。クローリング部分150’は、多くの機械にわたって分散していてもよい。(示していない)単一のURLサーバが、多くのクローラーに対して、ユニフォームリソースロケーター(“URL”)のリスト206を供給する。このURLのリスト206に基づいて、クローリング動作202は、ネットワーク160’をクロールし、ウェブページ208を得る。次に、事前インデックス付け動作210は、これらのウェブページ208から、ページランキング212とともに、リポジトリ214を発生させる。ページランキング212は、たくさんのURLフィンガープリント(すなわち、一意的な値)、ページランク値を、対として含んでもよい。リポジトリ214は、URL、コンテンツタイプ、および、圧縮されたページの3つ組を含んでもよい。
インデックス付け/ソーティング部分140’に関して、インデックス付け/ソーティング動作220は、転置インデックス226を発生させてもよい。インデックス付け/ソーティング動作220はまた、引用ランキング212からページランク228を発生させてもよい。ページランク228は、ドキュメントID、ページランク値の対を含んでもよい。
クエリ処理部分134’に関して、検索動作230は、ウェブサーバによって実行されてもよく、転置インデックス226およびページランク228とともに辞書232を使用して、クエリに応答してクエリ結果を発生させてもよい。(i)ページランク228から導出された情報と、(ii)特定のドキュメントが、どのくらい近く、クエリに含まれる用語に一致するか、ということから導出された情報と、の(情報検索(すなわち、“IR”)成分として呼んでもよい)組み合わせに、クエリ結果が基づいていてもよい。
ちょうど紹介してきた検索エンジンと同じくらい有用な検索エンジンには、改良の余地がある。例えば、以下の2つのシナリオを考察すべきである。
第1に、検索クエリ“ラマダ シンシナティ”を考える。最もオーソリテイティブであり、有用な検索結果は、商業地区シンシナティにおけるラマダのホテルを説明する、ラマダウェブサイト上のウェブページに対するものであるだろうと本発明の発明者は考える。結果として、第1の検索結果として、このウェブページ(このウェブページについての情報、およびこのウェブページに対するリンク)を戻すことが望ましいだろう。残念なことに、ラマダウェブサイトのメインウェブページが、単語“ラマダ”に対してオーソリテイティブであるということを示す、たくさんの証拠がある一方で、商業地区シンシナティにおけるラマダの特定のホテルのためのウェブページが、単語“ラマダ”に対してオーソリテイティブであるということを示す証拠はほとんどないかもしれない。結果として、検索“ラマダ シンシナティ”を処理する、少なくともいくつかの検索エンジンは、第1の検索結果として、商業地区シンシナティにおけるラマダのホテルのためのラマダウェブサイト上のウェブページと同程度には有用でないかもしれないのに、ラマダのウェブサイトのメインウェブページを戻すだろう。さらに悪いことには、少なくともいくつかの検索エンジンは、その上位検索結果のうちの1つとして、ラマダウェブサイト上の何のウェブページも戻さないかもしれない。
第2に、検索クエリ“スリーシーズンズ パロアルト”を考察する。この例において、“スリーシーズンズ”レストランのためのウェブサイトのメインウェブページは、そのレストランの住所を含まない。したがって、そのレストランのウェブサイトのメインウェブページが、スリーシーズンズに対してオーソリテイティブであるというたくさんの証拠がある一方で、このメインウェブページ上には、このメインウェブページがパロアルトに適していることを示唆する何の証拠もない。このウェブサイト上の、他のウェブページは、そのレストランがパロアルトにあることを確かに示していることに留意すべきである。
以上の例が示すように、正に直接ウェブページについての情報(例えば、ウェブページ上の単語およびウェブページの構造、ウェブページをポイントするアンカー中の単語、および、ウェブページのページランク)を使用する自動化検索エンジンは、特定のクエリに対して最も有用であることになるウェブページを見つけることができないかもしれない。したがって、検索エンジンがよりよい検索結果を戻すように、検索エンジンを改良することが有用であるだろう。特に、検索エンジンが1つのウェブページに対するクエリの用語(例えば、単語および/またはフレーズ)の関連性をランク付けする一方で、検索エンジンが同じウェブサイト上の、他のウェブページに対するその用語の適性を斟酌してもよいように、検索エンジンを改良することが有用であるだろう。より一般的には、同じまたは類似のIR技術を使用するアプリケーションを改良することが有用であるだろう。
発明の概要
本発明と一貫した実施形態を使用して、例えばウェブページ検索のような情報検索を改善してもよい。このような実施形態は、以下のことによってこれを行ってもよい。すなわち、(a)ウェブサイトに適している情報を受け入れることと、(b)用語を含む検索クエリを処理する目的で、ウェブサイトの第1のウェブページに適しており、ウェブサイトの別のウェブページに適している見込のある用語を識別することと、(c)第1のウェブページとの特定の関係を持つウェブサイトの第2のウェブページを決定することと、(d)識別された用語を第2のウェブページに関係付けるべきか否かを決定することと、(e)用語を第2のウェブページに関係付けるべきであるとして決定された場合に、識別された用語を含む検索クエリに対して、第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、識別された用語と第2のウェブページとの関係付けを保存することとである。本発明と一貫した少なくともいくつかの実施形態は、上記の技術を使用して、ウェブサイトのトポロジーの上に、ウェブサイトのトポロジーの下に、または、ウェブサイトのトポロジー中にわたって、情報を伝搬させることができる。
本発明と一貫した少なくともいくつかの実施形態では、用語を識別する動作は、ウェブサイトに強く関係付けられた用語を識別する。
本発明と一貫した少なくともいくつかの実施形態では、識別された用語は、例えば、ロケーション、住所、珍しい用語、製品カテゴリ等のような高度に記述的な情報である。
本発明と一貫した少なくともいくつかの実施形態は、次に、(a)識別された用語を含む検索クエリを受け取りし、(b)識別された検索用語との保存された関係付けを持っている第2のウェブページの検索結果スコアを増加させる。本発明と一貫した少なくともいくつかの実施形態では、検索結果スコア増加の大きさは第2のウェブページの増加されていない検索結果スコアの関数である。
詳細な説明
本発明は、例えば、ウェブページ検索のような、情報検索を改善するための、新規な方法、装置、メッセージフォーマット、および/またはデータ構造に関する。以下の説明は、当業者が本発明を実施および使用できるように提示し、特定の応用と特定の応用の要求の状況で提供する。したがって、本発明と一貫した実施形態の以下の説明は、図示および説明を提供するが、網羅的なものであることを意図するものではなく、または、開示する正確な形態に本発明を制限することを意図するものではない。開示する実施形態に対するさまざまな修正が当業者に明らかになり、以下に述べる一般的原則は、他の実施形態および応用に適用されてもよい。例えば、フロー図を参照して一連の動作を説明するが、1つの動作の実行が他の動作の完了に依拠していないときは、他の実施では動作の順序が異なっていてもよい。さらに、従属していない動作は並列に実行されてもよい。また、ここで使用するように、冠詞“a”は1つ以上のアイテムを含むことを意図している。1つだけのアイテムを意図するところでは、用語“1つの(one)”または類似の言葉を使用する。以下では、“情報”は、実際の情報、あるいは、このような情報に対するポインタ、このような情報の識別子、または、このような情報のロケーションを指してもよい。詳細な説明中で使用されるどのエレメント、動作、または命令も、そうであるとして明示的に示さない限り、本発明に対して重大または不可欠であるとして解釈すべきでない。したがって、本発明は示している実施形態に制限されることを意図しておらず、発明者は、何らかの特許可能な記述された主題を含むものとして本発明を考えている。
“ドキュメント”は、何らかの機械読取可能および機械記憶可能な作業生産物を含むものとして幅広く解釈すべきである。ドキュメントは、ファイル、ファイルの組み合わせ、他のファイルへのリンクが埋め込まれた1つ以上のファイル、ファイルの区別された部分、識別された部分等であってもよい。ファイルは、テキスト、オーディオ、画像、ビデオ等の任意のタイプのものであってもよい。エンドユーザにレンダリングされることになるドキュメントの一部は、ドキュメントの“コンテンツ”と見なすことができる。ドキュメントは、コンテンツ(単語、絵等)とそのコンテンツの意味の何らかの表示(例えば、e−メールフィールドと関連データ、HTMLタグと関連データ等)との両方を含む“構造化されたデータ”を含んでいてもよい。ドキュメント中の広告スポットは、埋め込まれた情報または命令で定義されてもよい。インターネットの状況において、普通のドキュメントはウェブページである。ウェブページはコンテンツを含むことが多く、(メタ情報、ハイパーリンク等のような)埋め込まれた情報、および/または(Java(登録商標)スクリプト等のような)埋め込まれた命令を含んでいてもよい。多くのケースでは、ドキュメントはアドレス指定可能な記憶ロケーションを有し、したがってこのアドレス指定可能なロケーションによって一意的に特定できる。ユニバーサルリソースロケータ(URL)は、インターネット上の情報にアクセスするために使用されるアドレスである。
“ウェブドキュメント”はウェブ上で発行される任意のドキュメントを含む。ウェブドキュメントの例は、例えば、ウェブサイト、ウェブページ、ウェブキャスト等を含む。
“ホーム”ウェブページは、一般的にウェブサイトのルートウェブページ、または、(“デフォルト.HTML”のような)そのウェブページがホームページであることを示唆するURLを有するウェブページであるだろう。
“用語”は、“単語”または“フレーズ”であってもよい。
以下において、本発明がその中で動作してよい、または本発明がそれを用いて動作してよい環境をセクション4.1において説明する。本発明の例示的な実施形態をセクション4.2において説明する。その後、本発明の例示的な実施形態の使用を図示する特定の例をセクション4.3において提供する。最後に、本発明に関するいくつかの結論をセクション4.4において述べる。
セクション4.1 その中で本発明と一貫した実施形態を使用してもよい、または、それとともに本発明と一貫した実施形態を使用してもよい例示的環境
本発明と一貫した実施形態は、上で図1を参照して説明したもののような例示的な環境100の中で使用されてもよく、または、例示的な環境100とともに使用されてもよい。例えば、このような実施形態は、上で図2を参照して説明したもののような例示的な検索エンジンの中で使用されてもよく、または、例示的な検索エンジンとともに使用されてもよい。本発明と一貫した実施形態が、他の環境の中で使用されてもよく、または、他の環境とともに使用されてもよいことは当然である。
セクション4.2 本発明と一貫した例示的な実施形態
図3は、本発明と一貫した実施形態で、実行してもよい動作と、このような動作によって、発生させてもよい、および/または、使用してもよい情報とのデータフロー図である。一般的に、線340より上の動作は事前に実行される一方で、線230より下の動作はリアルタイムで実行される。しかしながら、本発明と一貫した少なくともいくつかの実施形態では、このことは必須ではない。
ウェブサイト収集物情報310は、多数の組のウェブサイト情報315を含んでもよい。ウェブサイト内情報関係付け動作320を使用して、修正されたウェブサイトおよび/またはウェブページ情報335を発生させてもよい。例えばIRの目的で、このような情報を使用してもよい。したがって、多数のウェブサイト310からの情報を処理して、修正されたウェブサイトおよび/またはウェブページ情報335の組330を発生させることができる。
ウェブページ検索動作360は、ウェブページ情報370と、修正されたウェブサイトおよび/またはウェブページ情報の組330とを使用して、クエリ情報350に応答する1つ以上の検索結果の組380を発生させてもよい。
一般的に、ウェブサイト内情報関係付け動作320は、(i)正に情報が直接関係付けられたウェブページよりも多くのページに適している見込のある情報を識別してもよく、(ii)このような情報が適している見込のある、他の1つ以上の関連するウェブページを識別してもよく、(iii)識別された情報を含む検索クエリに対して、ウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、識別された情報を他の識別されたウェブページに関係付けてもよい。このことは、ウェブページを取得およびスコア付けする際に使用してもよい、修正されたウェブサイトおよび/またはウェブページ情報をもたらす。検索スコアは検索結果のランキングに影響を及ぼしてもよく、したがって、他の検索結果に対するその検索結果の位置に影響を及ぼしてもよく、その検索結果がクエリに応答して戻されるか否かにさえも影響を及ぼしてもよい。
セクション4.2.1 例示的な方法
図4は、本発明と一貫した方法で、ウェブサイト内情報を関係付ける例示的な方法400のフロー図である。ウェブサイト情報(例えば、ウェブページ、ウェブページコンテンツ、ウェブページメタデータ、イエローページデータ、ドメイン登録データ等)を受け入れる(ブロック410)。正に情報が(直接)関係付けられたウェブページ以外の、そのウェブサイトのウェブページに適している見込のある情報を識別する(ブロック420)。識別された情報が適している見込のある、他の1つ以上の関連するウェブページを識別する(ブロック430)。次に、識別された情報を、識別されたページに関係付けする(ブロック440)。識別された情報を含む検索クエリに対して、修正されたウェブページが、オリジナルのウェブページが持つことになるものよりも高い検索スコアを持つことになるように、修正されたウェブサイト/ウェブページ(例えば、新しく関係付けられた情報を有するウェブページ)情報を記憶し(例えば、後で使用するために記憶デバイス上で保存し)(ブロック450)、その後、方法400は終了する(ノード460)。
戻ってブロック420を参照して、識別された情報の例、または、識別された情報のタイプの例を以下で説明する。戻ってブロック430を参照して、識別された情報が適している見込のある1つ以上の関連するウェブページがどのようなものであるかの例を以下に説明する。以下の説明から理解されることになるように、さまざまな実施形態において、このような情報をウェブサイトの上に、ウェブサイトの下に、および/または、ウェブサイト中にわたって伝搬させてもよい。
図5は、本発明と一貫した方法で、ウェブ検索を実行する例示的な方法500のフロー図である。検索クエリ情報が受け入れられる(ブロック510)。次に、受け入れられた検索クエリ情報、ウェブページ情報、ならびに、修正されたウェブサイトおよび/またはウェブページ情報を使用して、1つ以上の検索結果の組を発生させる(ブロック520)。次に、検索結果を要求者に供給して(ブロック530)、その後、方法500は終了する(ノード540)。
セクション4.2.1.1 その用語情報に対して、ウェブサイトがオーソリテイティブと考えられる用語情報を伝搬させる例示的な方法
図6は、本発明と一貫した方法で、オーソリテイティブなウェブサイト内情報を(例えば、ウェブサイトトポロジーの下に)伝搬させる例示的な方法600のフロー図である。ウェブサイト情報を受け入れる(ブロック610)。その用語に対してウェブサイトがオーソリテイティブと考えられる、所定のウェブページ上で見つけられる用語を、ウェブサイトの所定のウェブページ(例えば、ホームページ)に対して決定する(ブロック620)。このような用語(例えば、単語および/またはフレーズ)は、妥当性検査手続を受けてもよい(ブロック630)。情報源ウェブページに関連するウェブサイトのウェブページ(例えば、ウェブサイトホームページまたはルートページ)を決定する(ブロック640)。1つ以上の例外に該当することに関連するとして決定されたページを除外してもよい(ブロック650)。次に、識別された情報(例えば、オーソリテイティブな用語)を、決定された(および除外されていない)ページに関係付けしてもよい(ブロック660)。次に、修正されたウェブサイトおよび/またはウェブページ情報を保存(例えば記憶)してもよく(ブロック670)、その後、方法600は終了する(ノード680)。
戻ってブロック620を参照して、その用語に対してウェブサイトがオーソリテイティブと考えられる用語を決定するときに、1つ以上の証拠の情報源を考えてもよい。用語に対してウェブサイトがオーソリテイティブであることの1つの例示的な証拠の情報源は、ウェブサイトに対する1つ以上の参照(例えば、リンクまたはハイパーテキストリンク)におけるその用語の使用であってもよい。用語に対してウェブサイトがオーソリテイティブであることのさらに別の例示的な証拠の情報源は、そのウェブサイトのホームページをその企業のためのウェブサイトとしてリストアップするディレクトリ(例えば、イエローページ)エントリにおけるその用語(例えば、企業名)の使用であってもよい。用語に対してウェブサイトがオーソリテイティブであることのまた別の例示的な証拠の情報源は、ウェブサイトのドメイン名におけるその用語の使用であってもよい。用語に対してウェブサイトがオーソリテイティブであることのさらにまた別の例示的な証拠の情報源は、その用語が登録された商標である場合、商標登録が、そのウェブサイト(のホームページ)に関係付けられていることであってもよい。別の例示的な証拠の情報源は、検索クエリが用語を含む場合に、そのウェブサイトに対応する良好な検索結果(例えば、クリックされるものや、所定の時間(例えば、3分)内に、ユーザが前のウェブページに戻って異なる結果をクリックすることがない“ロングクリック”を受け取るもの等)がある確率であってもよい。確率は、証拠の強度に対応するかもしれない。
用語に対してウェブサイトがオーソリテイティブであることの、他の証拠の情報源が可能であることは当然である。証拠の統合性が、ウェブサイトがその用語に対してオーソリテイティブであるという決定を導いてもよい。反対の証拠も考慮してもよい。例えば、その用語が、他の1つ以上のウェブサイトの、他のウェブページに関連性があるという証拠がある場合、証拠の統合性においてこのような証拠を考慮してもよい。少なくともいくつかの実施形態では、決定された用語と、宛先(またはシンク)ウェブページとの(IRの目的のために使用される)関係付けの強度を決定する際に、証拠の強度を使用してもよい。すなわち、証拠の強度を使用して、(a)関係付けを行うか否か、および/または(b)関係付けの強度を決定してもよい。
戻ってブロック640を参照して、本発明と一貫した少なくともいくつかの実施形態では、決定された用語と、宛先(またはシンク)ウェブページとの(IRの目的のために使用される)関係付けの強度を決定する際に、決定された用語のウェブページ情報源と、宛先(またはシンク)ウェブページとの間の関連性の程度を使用してもよい。
戻ってブロック630を参照すると、決定された用語は、1つ以上の妥当性検査テストを受けてもよい。例えば、検索クエリが用語を含む場合に、決定された用語に対して、考察されているそのウェブサイトに対する良好な結果がある確率が、他のすべての(このような情報が知られているまたは決定可能である)ウェブサイトの対応する確率よりも大きく(あるいは、予め定められた量および/またはパーセンテージ分、これらの確率よりも大きく)なる必要があるかもしれない。別の例として、決定された用語の数が予め定められた数より多い場合に、(例えば、確率、次位のウェブサイトからの確率較差等に関して)上位N個のクエリ用語だけを使用することが望ましいかもしれない。
戻ってブロック650を参照すると、決定されたクエリ情報(“識別された情報”)は、考察されているウェブサイトの、あるウェブページに対しては、(例えば、下に)伝搬されないかもしれない。例えば、低いスコア(例えば、低いページランク)を有するウェブページは、用語に関係付けられた識別された情報を得ないかもしれない。別の例として、識別された情報の伝搬は、ウェブサイト中の、情報源(例えば、ホームまたはルート)ウェブページと、宛先ウェブページと、の区切りの程度(例えば、情報源ウェブページからのバックスラッシュの数)の予め規定された数(例えば、2)に制限されてもよい。さらに別の例として、あるタイプのウェブページ(例えば、プレスリリース、メッセージボード、フォーラム、外国語ページ(例えば、情報源ページの言語以外の言語での宛先ページ)等)を除外してもよい。
用語がフレーズである場合、本発明と一貫した少なくともいくつかの実施形態では、ある問題を避けるために、全体のフレーズ(または、フレーズの少なくともすべての単語)がクエリ中に出現することを要求してもよい。例えば、“アメリカンセンチュリー投資”のようなウェブサイトを考える。このウェブサイトのホームページは、クエリ“アメリカンセンチュリー投資”に対してオーソリテイティブであるかもしれないが、このウェブサイトのホームページは、クエリの構成要素の単語“アメリカン”、“センチュリー”、および“投資”に対してオーソリテイティブではない。したがって、例えば、このウェブサイトのウェブページは、単語“投資”を含むが、“アメリカンセンチュリー”を含まない検索クエリに対して“増強”すべきでない。
情報を下に伝搬させることは、事実上、異なるウェブサイト上のそうでなければ同一のウェブページが異なるスコアを持つことを可能にするかもしれないことに留意すべきである。例えば、www.ramada.comのウェブサイト上のシンシナティ ラマダのウェブページは、www.hotels.comのウェブサイト上の同一のウェブページよりも(少なくとも用語“ラマダ”を含む検索クエリに対しては)より高いスコアを持っているかもしれない。検索クエリが用語“ラマダ”を含むとき、シンシナティにおけるラマダホテルを検索しているほとんどのユーザは、オーソリテイティブなウェブサイトからのウェブページを好むことが多いだろうから、このことは有用である。
セクション4.2.1.2 高度に記述的な情報を伝搬する例示的な方法
ウェブサイトの高度に記述的な単語(および他の情報)は、ウェブサイトのホームページ上では見つからないことが多いことを、本発明の発明者は理解している。このような高度に記述的な情報を識別し、これをウェブサイトのホーム(またはルート)ページに関係付けることが有用であるだろう。
図7は、本発明と一貫した方法で、高度に記述的なウェブサイト内情報を(例えば、ウェブサイトトポロジーの上に)伝搬させる例示的な方法700のフロー図である。ウェブサイト情報を受け入れる(ブロック710)。ウェブサイトのホーム(またはルート)ページ以外のウェブページに関係付けられた、ロケーション(例えば、住所)、または他の何らかの高度に記述的な情報を識別する(ブロック720)。識別された情報(例えば、ロケーション)は、ウェブページ毎にスコア付けされてもよい(ブロック730)。1つ以上の宛先ウェブページに対して(例えば、ウェブサイトトポロジーの上に)識別された情報(例えば、ロケーション)を伝搬させる(ブロック740)。宛先ページに対して識別された情報(例えば、ロケーション)の適性の信頼度を決定する(ブロック750)。信頼度が十分に高くない場合、方法700は単に終了する(ブロック760およびノード790)。反対に、信頼度が十分に高い場合、識別された情報(例えば、ロケーション)を宛先ページに関係付けし(ブロック760および770)、この関係付けを記憶(例えば、保存)し(ブロック780)、その後、方法700は終了する(ノード790)。
ブロック760−780は、1つ以上の宛先ウェブページのそれぞれに対して実行してもよいことに留意すべきである。信頼度が、ウェブサイトの1つのウェブページに対しては十分に高いが、別のウェブページに対しては十分に高くないことがあり得る。したがって、本発明と一貫した少なくともいくつかの実施形態では、それぞれのウェブページに対する証拠は、(以下で説明するものを除外して)個別に評価される。それぞれのウェブページにおいて、ウェブサイトトポロジー中の、そのウェブページより下のすべてのウェブページに対するすべての証拠が累積される。これらの累積された証拠を使用して、特定のウェブページに対する情報を評価する。例えば、サイトトポロジー中のより低い位置にあるウェブページは、正に1つの住所に対する情報を持っているかもしれず、このことは、その住所を伝搬させるための十分な証拠であるかもしれない。しかしながら、サイトトポロジー中のより高い位置にあるウェブページは、他の住所に対する証拠も持っているかもしれず、このことは、どの住所もウェブサイトに対して特に関連性がないという結論を導くかもしれず、このケースでは、サイトトポロジー中のより高い位置にある、このようなウェブページに対して、住所を上に伝搬させなくてもよい。代わりに、または、加えて、ウェブサイト上の第1のウェブページは、十分な信頼度になるための、十分な証拠を持っているかもしれないが、そのウェブサイト上のサイトトポロジー上で、第1のウェブページよりも上の位置にない、第2のウェブページは、何の証拠も持っていないかもしれず、不十分な証拠、および/または、反対の証拠しか持っていないかもしれない。
本発明と一貫した少なくともいくつかの実施形態では、情報を上方向に伝搬させた後、それに対して何らかのウェブページが決定的な証拠を持つ異なる住所の合計数が、そのウェブサイトのすべてのウェブページに関係付けられ(例えば、その上に記憶され)てもよい。住所情報をスコア付けするときに、ウェブサイトが多くの住所を持つ場合、そのウェブサイトは全体として、何の物理的な対象も持っていないと考えられるので、何らかの所定のページ上の住所情報は、より少ない重みが与えられるかもしれない。
戻ってブロック720を参照して、ウェブページに関係付けられたロケーションを識別してもよい。ロケーションを識別するために使用されてもよいさまざまなデータの情報源は、ウェブページ上の略していない住所、ウェブページ上でのロケーション名の出現、ウェブページに対して住所またはロケーションを与える(例えば、ホームページおよび/または電話番号を有する)イエローページデータ、ドメイン登録からのメタ情報、ドメインの国コード、他のページ上の、そのページに対するリンクの近くで出現する位置、ロケーション名である用語を含むデータベース等を含む。各情報源からのロケーション名は、ウェブページに関係付けられているかもしれない。加えて、それぞれの情報の断片を提供した情報源の種別と数を追跡してもよい。戻ってブロック730を参照して、このような情報を使用して、識別されたロケーション情報をスコア付けしてもよい。
戻ってブロック720を参照して、ロケーション情報の代わりの情報、またはロケーション情報に加えての情報を識別してもよい。1つの例として、珍しい用語(例えば、高い文献出現頻度逆数(IDF)の用語等)を(例えば、ホーム(またはルート)ページに対して上に)伝搬させてもよい。別の例として、(例えば、予め規定されたリストからの、垂直型カテゴリからの、概念からの、トピックからの、ジャンルからの等の)ページカテゴリを(例えば、ホーム(またはルート)ページに対して上に)伝搬させてもよい。
戻ってブロック740を参照して、この情報をウェブサイトのURL階層の上に伝搬させてもよい。例えば、ウェブサイトのURL階層において言及されたすべてのロケーションを、または、そのウェブサイトのそのURL階層より下において言及されたすべてのロケーションを、それぞれのウェブページにおいて累積してもよい。スコア、または、スコアに影響を及ぼす1つ以上の要因(例えば、ロケーションの情報源、ロケーションの頻度等)を累積してもよい。戻ってブロック750を参照して、累積されたスコアまたはスコア要因を使用して、それぞれのロケーションの信頼度の値を決定してもよい。すなわち、すべてのロケーション情報と、すべてのロケーション情報の情報源とを重み付けして、それぞれのロケーションの信頼度を決定してもよい。繰り返すと、それぞれのウェブページに対して、信頼度スコア付けを行ってもよく、ここで、信頼度スコアとは、ウェブサイトトポロジー中の特定のウェブページより下のウェブページ上だけにある情報の関数である。
戻ってブロック760を参照して、もしある場合は、どのロケーションがウェブページに信頼して関係付けられると思われるかを決定する。機械学習システムを使用して、異なる種類の“ロケーション信頼度”証拠を、どのように重み付けするかを決めてもよい。(使用してもよい機械学習技術を説明する、例えば、“大規模データセットに基づいたドキュメントランキング”と題され、2003年11月13日に出願され、Jeremy Bern氏、 Georges Harik氏、 Noam Shazeer氏、 Simon Tong氏、およびJoshua Levenberg氏を発明者として記載する、(ここに参照により組み込まれ、“‘991出願”として呼ばれる)米国特許出願シリアル番号第10/706,991号;“大規模機械学習システムおよび方法”と題され、2003年12月15日に出願され、Jeremy Bern氏、 Georges Harik氏、Noam Shazeer氏、Simon Tong氏、およびJoshua Levenberg氏を発明者として記載する、(ここに参照により組み込まれ、“‘584出願”として呼ばれる)米国特許出願シリアル番号第10/734,584号を参照すべきである。また、T. Hastie氏、 R. Tibshirani氏、およびJ. H. Friedman氏、統計的学習のエレメント、スプリンガー(2003年7月30日)を参照すべきである。)証拠の例は、証拠の情報源(例えば、ウェブページ上の住所、イエローページデータ、ドメインレジストリ、データ等)、現在のウェブページに対する証拠の(例えば、階層の上への)パス、大文字使用、コンテキスト等を含んでもよい。信頼できる証拠が存在するウェブページ(例えば、イエローページデータは一般的に非常に信頼できる)から得た例を使用して、機械学習システムを訓練してもよい。一度システムが訓練されると、システムを使用して、それぞれのウェブページにおいて、それぞれのロケーション名に対して累積された情報を重み付けすることができる。またブロック760を参照して、しきい値に信頼度を適用して、ロケーション情報を宛先(シンク)ウェブページに関係付けするか否かを確認するというよりは、むしろ、本発明と一貫した少なくともいくつかの実施形態では、ロケーションと、宛先(シンク)ウェブペー
ジとの(IR目的のために使用されるような)関係付けの強度を決定する際に、信頼度レベルを使用してもよい。すなわち、信頼度レベルを使用して、(a)関係付けを行うか否かと、(b)関係付けの強度とを決定してもよい。
本発明と一貫した少なくともいくつかの実施形態では、あまりに多くのロケーションが関連すると考えられた場合、これらのどのロケーションもウェブサイト(のホームページに対して)上に伝搬させないことが望ましいかもしれない。したがって、証拠の重み付けにおいて、別個のロケーションの数を使用してもよい。例えば、所定のウェブページに対する、多くの異なる住所の証拠がある場合は、そのウェブページに対してどの住所も伝搬させないことが望ましいかもしれず、あるいは、このような住所を伝搬させるが、住所の1つ以上を含むクエリに対する関連する検索結果として考察されるときには、後のスコア付けの際に、より少ない重みを与えることが望ましいかもしれない。アメリカ中にわたってロケーションを持つマクドナルドのような全国規模のフランチャイズを考える。このようなシナリオでは、これらのロケーションのすべてをマクドナルドのウェブサイトのためのホームページに対して上に伝搬させることは、望ましくないかもしれない。これは、ロケーションの数が多いことは、マクドナルドのウェブサイトを高度に記述していないからである。さらに、前述のことは、ウェブページ毎のベースでの、証拠の解析または伝搬されたロケーション情報の重み付けに関しているが、あるウェブサイト全体にわたってテストを適用することが有用であってもよい。例えば、ウェブサイトが予め定められた数(例えば、20)より多くの異なる住所を含むと考えられる場合、このウェブサイトの何らかのウェブページに対して、この住所のうちの何らかのものを伝搬しないことが望ましいかもしれない。
モデルの結論が、ウェブページがおそらくは1つ以上のロケーションに関係付けられているということである場合、このロケーションはこのウェブページに適している見込があるとして考えられる。戻って、ブロック770および780を参照して、次に、このロケーションをこのウェブページに関係付けしてもよく、この関係付けを記憶(例えば、保存)してもよい。
本発明と一貫した少なくともいくつかの実施形態では、ロケーション情報は、ウェブサイトのホーム(またはルート)ページに対してだけ、上に伝搬させてもよい。
クエリを処理するとき、本発明と一貫した少なくともいくつかの実施形態では、もし、ロケーションに加えて、他の重要な単語がクエリ中にあるならば、そのロケーションのすべての単語を持っているウェブページに信用を与えてもよい。すなわち、クエリが住所だけについてのものである場合、そのウェブページに対して、追加のロケーション信用を与えないことが望ましいかもしれない。一方、ロケーションでない、他の重要な単語がクエリ中にある場合、そのクエリのロケーションでない最も強度が高い重要な単語に対するものと同じだけの(または、そのクエリのロケーションでない最も強度が高い重要な単語に対するものよりも少ない)信用を、それぞれのロケーション単語に与えることが望ましいかもしれない。ウェブサイトに関係付けられたロケーションが多い場合、与えられる信用の量を減少させることが望ましいかもしれない。
上で説明したいくつかの実施形態は、高度に記述的な情報を、ウェブサイトのトポロジーの上に伝搬させることに関連するが、本発明と一貫した少なくともいくつかの実施形態は、このような情報をウェブサイトのトポロジーの下に、または、ウェブサイトのトポロジー中にわたって(例えば、最初に上に、次に下に)伝搬させてもよい。
セクション4.2.2 例示的な装置
図11は、本発明と一貫した方法で、少なくともいくつかの動作を実行し、少なくともいくつかの情報を記憶するのに使用してもよい装置1100のブロック図である。装置1100は、基本的に1つ以上のプロセッサ1110、1つ以上の入力/出力インターフェイスユニット1130、1つ以上の記憶デバイス1120、ならびに、結合されたエレメント間での情報の通信を容易にするための1つ以上のシステムバスおよび/またはネットワーク1140を含む。1つ以上の入力デバイス1132および1つ以上の出力デバイス1134が、1つ以上の入力/出力インターフェース1130と結合されていてもよい。
1つ以上のプロセッサ1110は、本発明の1つ以上の観点を実行するために機械実行可能命令(例えば、カリフォルニア州、パロアルトのサンマイクロシステムズ社から入手できるソラリスオペレーティングシステム上で、または、ノースカロライナ州、ダーハムのレッドハット社のような多くのベンダから幅広く入手できるリナックス (登録商標)オペレーティングシステム上で実行するCまたはC++)を実行してもよい。少なくとも一部の機械実行可能命令を、1つ以上の記憶デバイス1120に(一時的に、もしくは、より恒久的に)記憶してもよく、および/または、1つ以上の入力インターフェイスユニット1130により外部情報源から受け取ってもよい。
1つの実施形態では、機械1100は1つ以上の従来のパーソナルコンピュータであってもよい。このケースでは、処理ユニット1110は1つ以上のマイクロプロセッサであってもよい。バス1140はシステムバスを含んでいてもよい。記憶デバイス1120は、リードオンリーメモリ(ROM)および/またはランダムアクセスメモリ(RAM)のようなシステムメモリを含んでいてもよい。記憶デバイス1120は、ハードディスクから読み取るための、またはハードディスクに書き込むためのハードディスクドライブや、(例えば、リムーバブル)磁気ディスクから読み取るための、または(例えば、リムーバブル)磁気ディスクに書き込むための磁気ディスクドライブ、および、コンパクトディスクもしくは他の(磁気)光学メディアのようなリムーバブル(磁気)光ディスクから読み取るための、またはコンパクトディスクもしくは他の(磁気)光学メディアのようなリムーバブル(磁気)光ディスクに書き込むための光ディスクドライブも含んでいてもよい。
ユーザは、例えばキーボードおよびポインティングデバイス(例えば、マウス)のような入力デバイス1132を通して、パーソナルコンピュータにコマンドと情報を入力してよい。これには、マイク、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナ、またはこれらの均等物のような他の入力デバイスも(または、代わりに)含まれてよい。これらの、および他の入力デバイスは、システムバス1140に結合される適切なインターフェース1130を通して処理ユニット1110に接続されることが多い。出力デバイス1134は、モニタ、または、適切なインターフェースによりシステムバス1140に接続され得る、他のタイプの表示デバイスを含んでよい。モニタに加えて(または、代わりに)、パーソナルコンピュータは、例えばスピーカとプリンタのような、他の(示していない)(周辺)出力デバイスを含んでよい。
1つ以上のコンピュータで、上で説明した動作を実行してもよい。このようなコンピュータは、例えば、インターネットのような1つ以上のネットワークにより互いに通信していてもよい。戻って、例えば、図1および2を参照して、1つ以上の機械1100によって、クライアントデバイス110、検索機構130、コンテンツプロバイダ180等を実現してもよい。
セクション4.2.3 改良および代替物
本発明と一貫した少なくともいくつかの実施形態は、ウェブサイトが用語に対して“オーソリテイティブ”であるか否かを決定するために、異なる技術を使用してもよい。例えば、検索用語が有名なもの(例えば、登録された商標)である場合、商標オーナのウェブサイトが商標用語に対して“オーソリテイティブ”であるとして考えられてもよい。上で説明したように、証拠のさまざまな情報源を考えてもよく、証拠の統合性を重み付けしてもよい。
戻って図4の440および450、図6の660および670、ならびに図7の770および780を参照して、さまざまな方法で、識別された情報を識別されたウェブページに関係付けしてもよい。例えば、図2に図示した226のような転置インデックスを修正して、識別された情報と識別されたウェブページとの関係付けを反映させてもよい。より詳細には、用語(例えば、単語またはフレーズ)は、さまざまな{ウェブページ識別子、重み}の対をポイントしてもよい。ヒットカウントとして重みを呼んでもよい。例えば、シンシナティにあるラマダホテルのためのウェブページ(ID#=1234)にマッピングされている単語“ラマダ”を考える。転置インデックスは、最初に、以下の情報を含んでもよい:
ラマダ−>・・・,{ID#1234,5},・・・
ラマダのためのウェブサイトのホームページは、キーワード“ラマダ”に対してオーソリテイティブであるので、このウェブサイトの、他のウェブページに対して、下に“ラマダ”を伝搬させることが望ましいことをさらに仮定する。関係付けおよび保存動作の後、転置インデックスは、ここで、以下の情報を含んでもよい:
ラマダ−>・・・,{ID#1234,25},・・・
したがって、重みは増加されてもよい。
代わりに、(例えば、検索クエリに依拠して、)ある状況では選択的に使用されてもよいが、他の状況では使用されないように、特別なタイプの重み増強を適用してもよい。すなわち、(例えば、検索クエリに依拠して、)いくつかの状況では、特別なタイプの重み増強を使用して重みを増強してもよいが、他の状況ではそうではない。このような実施形態では、用語(例えば、単語またはフレーズ)は、さまざまな{ウェブページ識別子、重み、重み増強}の3つ組をポイントしてもよい。上の例と類似した例を使用して、転置インデックスは、最初に、以下の情報を含んでもよい:
ラマダ−>・・・,{ID#1234,5,ヌル},・・・
関係付けおよび保存動作の後、転置インデックスは、以下の情報を含んでもよい:
ラマダ−>・・・,{ID#1234,5,3},・・・
重み増強を変数として示したが、重み増強は、重みを増強させるか否かを示す単なるバイナリ値であってもよい。本発明と一貫した少なくともいくつかの実施形態では、バイナリ値が重みを増強させるべきことを示す場合でさえも、ある環境(例えば、クエリの要因)では、重みを増強させることを防いでもよく、または、減少させてもよい。
本発明と一貫した少なくともいくつかの実施形態では、ウェブページのスコア(例えば、IRスコア、および/またはページランクスコア等)、あるいは、スコアの成分に対して“増強”を適用してもよい。高いスコアを有するウェブページが、より低い初期スコアを有するウェブページよりも大きい増強を最初に得るように、増強の量は、スコアの関数であってもよい。例えば、以下のように増強を適用してもよい:
スコア’=スコア*(1+増強*スコア)
ここで、増強とスコアは、1よりも大きい。
上で説明した実施形態は、ユーザ検索クエリの状況におけるものであったが、本発明と一貫した実施形態は、例えば、広告リード発生、または、ローカル広告ターゲット付けのような、他のアプリケーションに適用されてもよい。
本発明と一貫した少なくともいくつかの実施形態では、クエリを処理するときに、修正されたウェブページ情報を使用することが望ましいのか、または、オリジナルのウェブページ情報を使用することが望ましいのかに依拠して、クエリを処理できる。1つの例として、2つのフィルタをクエリに適用して、クエリが地理的用語情報を含むときに、どの修正されたページ情報を使用するかを決めてもよい。これらのフィルタのそれぞれを以下で説明する。
第1のフィルタでは、クエリ中で地理的用語が出現するような方法で用語が出現するか否かに基づいて、地理的用語である見込のある用語のリストを、オフラインで発生させてもよい。例えば、地理的用語は、クエリ中で“Xにあるホテル”のように出現することが多い。このようなクエリ中にある、潜在的な地理的用語のすべての出現の率が、ほとんどの地理的用語に対する対応する率よりもかなり低い場合に、用語は地理的でないとして考えられてもよい。例えば、“MS”(“ミシシッピ”の略語)は、地理的用語であるが、これは、“MS カリフォルニア”のようなフレーズでは、他のことを意味する可能性がある。ルールとして、一般的に地理的なコンテキストで出現する“ジャクソン MS”のようなクエリ中のフレーズで出現しない限り、“MS”を地理的用語として取り扱わないことが望ましいかもしれない。したがって、“Xにあるホテル”、および、地理を示す類似のクエリ形態のような、クエリ中での用語の出現の十分に高い率を有する用語に基づいて、地理的用語のリストを発生させてもよい。次に、クエリに対してウェブページをスコア付けするときに、修正された地理的ウェブページ情報だけを、地理的であるとして確認された用語に対して使用する。このようにすることは、“MS カリフォルニア”のようなクエリに対する問題をなくす。
第2のフィルタでは、クエリ中で非常に頻繁に出現する、“ホテル”、“ピザ”等のような用語のリストをオフラインで発生させてもよい。次に、クエリのいくつかの用語が地理的であるとして識別される場合でさえも、そのクエリの少なくとも1つの他の単語が頻繁な単語である限りは、修正された情報を使用しなくてもよい。これは、“ロンドン ホテル”のような、正に個々のホテルに対応するいくつかの検索結果というよりは、一般的なロンドンのホテルについてのウェブページに対応する検索結果を提供することが望ましいと思われるクエリに対する問題をなくす。
上で説明した少なくともいくつかの実施形態では、(その用語を含む検索クエリに対して、ウェブページが、そうでなければ持つことになるものよりも高いスコアを持つことになるように、)ウェブサイトのウェブページに関係付けて保存される情報(例えば、用語)は、同じウェブサイトの別のウェブページから由来するものである。しかしながら、本発明と一貫した少なくともいくつかの実施形態では、このような情報(例えば、用語)は、そのウェブサイトに属していないドキュメントから由来するものであるかもしれない。例えば、第1のウェブサイトの第1のウェブページが、住所と、その住所の近くに、第2のウェブサイトの第2のウェブページに対する参照(例えば、リンク)とを含むことを仮定する。このことは、第1のウェブサイトの第1のウェブページ上で見つかった住所が、第2のウェブサイトの第2のウェブページに適しているかもしれないことを示唆するかもしれない。したがって、住所(または、おそらくは住所の一部)を含む検索クエリに対して、第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、第2のウェブページに関係付けして、住所を保存してもよいかもしれない。
実際に、情報の源がウェブページである必要はなく、関係がリンクである必要はない。例えば、企業名と、企業の住所(例えば、企業法人の主要な事業所)を含む、SEC申請書類、事業免許申請書類等を考える。ウェブサイトがその企業に対して登録されている場合、または、ウェブサイトがその企業名を含むURLを持っている場合、あるいは、ウェブサイトがその企業名を目立つように表示しているが、住所情報は持たない場合に、本発明と一貫した少なくともいくつかの実施形態は、SEC申請書類、事業の記載等(第1のドキュメント)の住所(情報)を採用し、標榜された事業のウェブサイト(第1のドキュメントに関連する第2のドキュメント)を決定して、そして、住所(または、おそらくは住所の一部)を含む検索クエリに対して、第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、そのウェブサイトのホームページに関係付けして、その住所を保存してもよい。この第2の例は、情報が、あるタイプのものであることを妥当性検査するために、他の情報源を使用して証拠を得ることとは、少し異なることに留意すべきである。
上記の例が図示するように、情報の源は、同じウェブサイト上のウェブページである必要はなく、ウェブページである必要さえもない。
本発明と一貫した少なくともいくつかの実施形態では、情報(例えば、用語)は、他のドキュメントに適している見込のある情報(例えば、住所)のクラスに属する必要があってもよい。言い換えると、ウェブページに関連して情報を無分別に保存する必要はない。むしろ、情報は、あるクラスまたはタイプの情報に制限してもよい。情報のクラスの例は、住所、電話番号、事業のタイプ、ページのジャンル等を含んでもよい。
本発明と一貫した少なくともいくつかの実施形態では、情報の源が特定のドキュメントである必要は全くない。むしろ、情報の源は用語の間の関係であるかもしれない。関係は強いものである必要がある。例えば、ウェブページが用語“クリーヴランド”を含む場合、情報は“オハイオ”であってもよい。別の例として、ウェブページがシカゴのエリアコードを有する電話番号を含む場合、情報は“シカゴ”であってもよい。さらに別の例として、用語“ミケランジェロ”および“システィナ礼拝堂”は、強く関連している。したがって、検索クエリが“ミケランジェロ”を含む場合に、そのウェブページが、そうでなければ持つことになるものよりも高い検索スコアを受け取ることになるように、用語“システィナ礼拝堂”を有するウェブページを、用語“ミケランジェロ”に関係付けしてもよい。したがって、情報(例えば、オハイオ、シカゴ、ミケランジェロ等)は、情報が関係付けられることになる、ウェブページとの特定の関係を持っているドキュメントまたはウェブページを情報源としていなくてもよい。むしろ、ウェブページ上の情報との関係に基づいて、情報を決定してもよい。用語の関係の強度は、関係の向きに依拠しているかもしれない。例えば、用語“ウイルス”を、“コンピュータセキュリティ”に適しているウェブページに関係付けることが有用であるかもしれないが、用語“コンピュータセキュリティ”を“ウイルス”に適しているウェブページに関係付けることは有用でないかもしれない。さまざまな情報拡張技術を使用して、シード用語に関連する1つ以上の用語を決定してもよい。
セクション4.3 例示的な実施形態では、形態の動作の例
セクション4.3.1 例1:オーソリテイティブな情報を下に伝搬
図8は、ウェブサイトのウェブページに対して、オーソリテイティブなウェブサイト内情報を下に伝搬させる例を図示する。(図6の例示的な方法600を想起すべきである。)ラマダのウェブサイト800のホームページ810は、用語“ラマダ”に対してオーソリテイティブであるとして仮定する。例えば、テキスト“ラマダ”を含むリンクの大多数が、Ramada.comウェブサイト上のウェブページをポイントすることを仮定する。(図6のブロック620を想起すべきである。)ユーザがその用語を使用するとき、ユーザは実際に、通常はそのウェブサイトを本当に望むということを確認するために、追加的なチェックを使用して、そのクエリ中の用語を妥当性検査してもよい。
この例では、ウェブページwww.ramada.com/Ramada/control/press_releases_list 828およびその下の836を含むウェブページを除いた、このウェブサイト上の他のすべてのウェブページが、ホームページに“関連する”ことが仮定される。(図6のブロック640および650を想起すべきである。)すなわち、識別された情報“ラマダ”は、ウェブサイト800の“プレスリリース”タイプのウェブページ828、836には関係付けられないだろう。
識別された情報“ラマダ”は、ホームページ810に関連するラマダのウェブサイト800上の除外されていない、ウェブページ822およびその子孫831、832、833、842、844、846と、ウェブページ824およびその子孫834と、ウェブページ826およびその子孫835とに関係付けられてもよい。ramada.com中の、除外されていないウェブページのそれぞれのコピーを、または、このような除外されていないウェブページから導出したIRのために使用される情報を、用語“ラマダ”に対してトピカル(topical)であるとして注釈することによって、このような関係付けを行ってもよい。(例えば、図2のリポジトリ214を想起すべきである。)検索エンジンによって使用される技術が、これらのウェブページが用語“ラマダ”に対してより関連性があると考えるように、これらの関係付けを行うべきである。例えば、クエリを処理しているときに、このクエリが用語全体を含む場合に、それぞれの注釈されたウェブページは、このフレーズをアンカーテキストとして使用して、そのウェブページをポイントしているN(例えば、6)個の追加的ウェブページを持つとして考えてもよく、これによって、グーグル(登録商標)検索技術が使用されるときに、そのウェブページのページランクスコアを増強させる。
セクション4.3.2 例2:高度に記述的な情報を上に伝搬
図9は、ウェブサイト900のウェブページ910に対して、高度に記述的なウェブサイト内情報を上に伝搬させる第1の例を図示する。ウェブサイト900は、ヴェトナム料理レストラン“サイゴンII”のためのものである。ウェブサイト900のホーム(またはルート)ウェブページ910は、このレストランの住所を含まないが、ウェブサイト900のより低いウェブページ922は、住所 カリフォルニア州(CA)、どこかの町、大通り123を含むことを仮定する。住所を識別してもよい。(図7の720を想起すべきである。)“カリフォルニア州(CA)、どこかの町、大通り123”は、(例えば、用語“通り”、州の短縮形“CA”、住所のシンタックス等によって、)望ましいレベルの信頼度を有する住所またはロケーションであるとして考えられてもよいことをさらに仮定する。そのホームページ910上にロケーションの名称が出現しないとしても、ウェブサイト900のホームページ910は、(例えば、検索の目的で、)ロケーション“カリフォルニア州、どこかの町、大通り123”に対して信用が与えられてもよい(例えば、これを含むとして取り扱われてもよい)。
加えて、ウェブサイト900のウェブページ924は、レストランのメニューアイテムを含む。メニューアイテムの1つは、“フォー”(牛肉風味麺スープ)である。“フォー”は、(例えば、フォーがウェブページの広い収集物において頻繁に使用されないために)高度に記述的な用語であるとして考えられることを仮定する。この用語はまた、識別され、ウェブサイト900のホームページ910に対して上に伝搬されてもよい。したがって、ホームページ910上にこの用語が出現しないとしても、ウェブサイト900のホームページ910は、(例えば、検索の目的で、)用語“フォー”に対して信用が与えられてもよい(例えば、これを含むとして取り扱われてもよい)。
カリフォルニア州、どこかの町に位置する(または、この近くに位置する)クライアントデバイスからのクエリが、“フォー レストラン”に対するクエリを出したとして、そして、そのクエリ情報がクライアントデバイスロケーションにより補足されたとして仮定する。ホームページ910はレストランに一致する。さらに、ホームページ910は、ウェブページ922からのロケーションと、ウェブページ924からの用語“フォー”とで補足されているので、ホームページ910はまた、そのクエリからの用語“フォー”と、そのクライアントデバイスの認識されたロケーションとにも一致する。したがって、ロケーションと、記述的用語“フォー”とで補足されたホームページ910は、そうでない場合よりもより多くこの検索に関連性があることが分かる。
セクション4.3.3 例3:高度に記述的なカテゴリ情報を上に伝搬
図10は、ウェブサイト1000のウェブページ1010に対して、ウェブサイト内情報を上に伝搬させる第2の例を図示する。この例では、ウェブサイト1000は電化製品小売業者ベストバイのためのものである。ホーム(またはルート)ページ1010は、さまざまな製品カテゴリに対応するさまざまなウェブページ1021−1025に対するリンクを含む。そしてまた、これらのウェブページ1021−1025は、特定の製品に対応するさまざまなウェブページ1031−1035に対するリンクを含む。
製品カテゴリは、高度に記述的であるとして考えられることを仮定する。この例では、このような製品カテゴリはウェブページ1021−1025において識別され、ウェブサイト1000のホームページ1010に対して上に伝搬される。したがって、これらの用語がホームページ1010上に出現しない場合でさえも、(例えば、検索の目的で)ウェブサイト1000のホームページ1010は、用語“テレビジョン”、“コンピュータ”、“ビデオゲーム”、“DVD”、“CD”、“カメラ”、および“ビデオカメラ”に対して信用が与えられる(例えば、これらを含むとして取り扱われる)。(用語“ベストバイ”もまた、ウェブサイト1000のウェブページ1021−1025および1031−1035に対して、下に伝搬されてもよいことに留意すべきである。)
“テレビジョンおよびビデオゲーム”に対する検索が受け取られたとして仮定する。この例では、ベストバイのためのホームページ1010は、そうでなければ持つことになるものよりも、このようなクエリに対して、より多く関連性があることになるだろう。
セクション4.4 結論
上記のことから理解できるように、検索エンジンが、ウェブページについての正に直接の情報(例えば、そのウェブページとその構造上の単語、そのウェブページをポイントするアンカー中の単語、ウェブページのページランク等)を使用する自動化検索エンジンよりもよい検索結果を戻すように、検索エンジンを改善することが有用であるだろう。
図1は、本発明と一貫した実施形態がその中で使用されてもよい、または本発明と一貫した実施形態がそれを用いて使用されてもよい例示的な環境のデータフロー図である。 図2は、本発明と一貫した実施形態がその中で使用されてもよい、または本発明と一貫した実施形態がそれを用いて使用されてもよい例示的な検索エンジンのデータフロー図である。 図3は、本発明と一貫した実施形態で、実行してもよい動作と、このような動作によって、発生させてもよい、および/または、使用してもよい情報とのデータフロー図である。 図4は、本発明と一貫した方法で、ウェブサイト内情報を関係付けする例示的な方法のフロー図である。 図5は、本発明と一貫した方法で、ウェブ検索を実行する例示的な方法のフロー図である。 図6は、本発明と一貫した方法で、オーソリテイティブなウェブサイト内情報(例えば、ウェブサイトトポロジーの下に)を伝搬させる例示的な方法のフロー図である。 図7は、本発明と一貫した方法で、高度に記述的なウェブサイト内情報を(例えば、ウェブサイトトポロジーの上に)伝搬させる例示的な方法のフロー図である。 図8は、ウェブサイトのウェブページに対して、ウェブサイト内情報を下に伝搬させる例を図示する。 図9は、ウェブサイトのウェブページに対して、ウェブサイト内情報を上に伝搬させる第1の例を図示する。 図10は、ウェブサイトのウェブページに対して、ウェブサイト内情報を上に伝搬させる第2の例を図示する。 図11は、本発明と一貫した方法で、少なくともいくつかの動作を実行するのに使用してもよく、少なくともいくつかの情報を記憶してもよい装置のブロック図である。

Claims (54)

  1. コンピュータ実現される方法において、
    a)ウェブサイトに適している情報を受け入れることと、
    b)用語を含む検索クエリを処理する目的で、前記ウェブサイトの第1のウェブページに適しており、前記ウェブサイトの別のウェブページに適している見込のある前記用語を識別することと、
    c)前記第1のウェブページとの特定の関係を持つ前記ウェブサイトの第2のウェブページを決定することと、
    d)前記識別された用語を前記第2のウェブページに関係付けるべきか否かを決定することと、
    e)前記用語を前記第2のウェブページに関係付けるべきであるとして決定された場合、前記識別された用語を含む検索クエリに対して、前記第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、前記識別された用語と前記第2のウェブページとの関係付けを保存することと
    を含むコンピュータ実現される方法。
  2. 前記用語を前記第2のウェブページに関係付けるべきか否かを決定する動作は、
    1)第1の組の情報上での第1のテストを使用して、前記用語が前記第2のウェブページに適しているかもしれないか否かを決定することと、
    2)前記用語が前記第2のウェブページに適しているかもしれないとして決定された場合、第2の組の情報上での第2のテストを使用して、前記用語を前記第2のウェブページに関係付けるべきか否かを決定することと
    を有する、請求項1記載のコンピュータ実現される方法。
  3. 前記用語を含む検索クエリを処理する目的で、前記ウェブサイトの第1のウェブページに適しており、前記ウェブサイトの別のウェブページに適している見込のある前記用語は、前記特定の関係以外の証拠を使用して識別される、請求項1記載のコンピュータ実現される方法。
  4. 前記特定の関係は2つのウェブページの間のリンクの存在である、請求項3記載のコンピュータ実現される方法。
  5. 前記用語を識別する動作は、前記ウェブサイトに強く関係付けられた用語を識別する、請求項1記載のコンピュータ実現される方法。
  6. 前記用語は検索クエリ用語であり、前記ウェブサイトに強く関係付けられた検索クエリ用語を識別する動作は、過去のユーザ検索クエリと、前記ウェブサイトに対応する検索結果を過去にユーザが選択したことと、を使用する、請求項5記載のコンピュータ実現される方法。
  7. 前記ウェブサイトに強く関係付けられた用語を識別する動作は、前記用語を含み、前記ウェブサイトの1つ以上のウェブページを参照する、アンカーテキストを使用する、請求項5記載のコンピュータ実現される方法。
  8. 前記ウェブサイトに強く関係付けられた用語を識別する動作は、(1)企業名としての前記用語と、(2)前記企業のためのホームページとしての前記ウェブサイトのウェブページと、をリストアップするイエローページエントリを使用する、請求項5記載のコンピュータ実現される方法。
  9. 前記ウェブサイトに強く関係付けられた用語を識別する動作は、(1)商標としての前記用語と、(2)ホームページとしての前記ウェブサイトのウェブページと、をリストアップする商標登録情報を使用する、請求項5記載のコンピュータ実現される方法。
  10. 前記ウェブサイトに強く関係付けられた用語を識別する動作は、(1)ドメイン名における前記用語と、(2)前記ウェブサイトのホームページと、をリストアップするドメイン名登録情報を使用する、請求項5記載のコンピュータ実現される方法。
  11. 前記用語が前記第2のウェブページに適しているかもしれないとして決定された場合に、第2の組の情報上での第2のテストを使用して、前記用語を前記第2のウェブページに関係付けるべきか否かを決定する動作は、
    −前記第2のウェブページが、あるタイプのページであるか否か決定することと、
    −前記第2のウェブページがあるタイプのページである場合、前記用語を前記第2のウェブページに関係付けるべきでないことを決定することと
    を有する、請求項2記載のコンピュータ実現される方法。
  12. 前記あるタイプは、(A)プレスリリースウェブページ、(B)メッセージボードウェブページ、(C)フォーラムウェブページ、および(D)外国語ウェブページからなるウェブページタイプのグループから選択される、請求項11記載のコンピュータ実現される方法。
  13. 前記用語が前記第2のウェブページに適しているかもしれないとして決定された場合に、第2の組の情報上での第2のテストを使用して、前記用語を前記第2のウェブページに関係付けるべきか否かを決定する動作は、
    −前記第2のウェブページと前記第1のウェブページとの間の最短のリンクの数を決定することと、
    −前記決定された最短のリンクの数が、予め定められた値よりも多い場合、前記用語を前記第2のウェブページに関係付けるべきでないとして決定することと
    を有する、請求項2記載のコンピュータ実現される方法。
  14. 前記識別された検索クエリ用語を含む検索クエリに対して、前記第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つように、前記識別された用語と前記第2のウェブページとの関係付けを保存する動作は、前記検索スコアの情報検索成分を増加させる、請求項5記載のコンピュータ実現される方法。
  15. 前記識別された検索クエリ用語を含む検索クエリに対して、前記第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、前記識別された用語と前記第2のウェブページとの関係付けを保存する動作は、前記検索スコアのページランク成分を増加させる、請求項5記載のコンピュータ実現される方法。
  16. 前記識別された用語はフレーズである、請求項1記載のコンピュータ実現される方法。
  17. (f)前記識別された用語を含む検索クエリを受け取ることと、
    (g)前記識別された検索用語との保存された関係付けを持っている前記第2のウェブページの前記検索結果スコアを増加させることと
    をさらに含む、請求項1記載のコンピュータ実現される方法。
  18. 前記検索結果スコア増加の大きさは前記第2のウェブページの増加されていない検索結果スコアの関数である、請求項17記載のコンピュータ実現される方法。
  19. 前記識別された用語は高度に記述的な情報である、請求項1記載のコンピュータ実現される方法。
  20. 前記高度に記述的な情報はロケーションである、請求項19記載のコンピュータ実現される方法。
  21. 前記高度に記述的な情報は住所である、請求項19記載のコンピュータ実現される方法。
  22. 前記高度に記述的な情報は珍しい用語である、請求項19記載のコンピュータ実現される方法。
  23. 前記珍しい用語はウェブページおよびウェブサイトの収集物のうちで、予め定められた頻度より少なく出現する用語である、請求項22記載のコンピュータ実現される方法。
  24. 前記高度に記述的な情報は製品カテゴリである、請求項19記載のコンピュータ実現される方法。
  25. 前記高度に記述的な情報の少なくともいくつかを含む検索クエリに対して、前記第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つように、前記識別された高度に記述的な情報と前記第2のウェブページとの関係付けを保存する動作は、前記検索スコアの情報検索成分を増加させる、請求項19記載のコンピュータ実現される方法。
  26. 前記高度に記述的な情報の少なくともいくつかを含む検索クエリに対して、前記第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つように、前記識別された高度に記述的な情報と前記第2のウェブページとの関係付けを保存する動作は、前記検索スコアのページランク成分を増加させる、請求項19記載のコンピュータ実現される方法。
  27. 前記高度に記述的な情報は前記ウェブサイトのホームウェブページまたはルートウェブページ上では見つからないものであり、
    前記第2のウェブページは前記ウェブサイトのホームウェブページまたはルートウェブページである、請求項19記載のコンピュータ実現される方法。
  28. 前記識別された用語は高度に記述的な情報であり、前記第2の組の情報上での第2のテストは、
    A)前記候補の高度に記述的な情報において、信頼度レベルを決定することと、
    B)前記決定された信頼度レベルが予め規定されたしきい値よりも大きいか否かを決定することと
    を含み、
    前記決定された信頼度が予め定められたしきい値よりも大きいとして決定された場合だけ、前記識別された候補の高度に記述的な情報を、前記第2のウェブページに関係付ける、請求項2記載のコンピュータ実現される方法。
  29. 前記候補の高度に記述的な情報において、信頼度レベルを決定する動作は、前記候補の高度に記述的な情報が、高度に記述的な情報であるという証拠を解析することを含む、請求項28記載のコンピュータ実現される方法。
  30. 前記解析される証拠は前記ウェブサイトに適している受け入れられた情報以外の情報源からのものである、請求項29記載のコンピュータ実現される方法。
  31. 前記候補の高度に記述的な情報が高度に記述的な情報であるという証拠を解析する動作は、訓練された機械学習選別器に対する入力として、前記証拠を適用することを含む、請求項29記載のコンピュータ実現される方法。
  32. 前記ウェブサイトはトポロジーを持ち、前記第2のウェブページは前記ウェブサイトトポロジーにおいて、前記第1のウェブページよりも高い、請求項1記載のコンピュータ実現される方法。
  33. 前記第2のウェブページは前記ウェブサイトのルートページまたはホームページである、請求項32記載のコンピュータ実現される方法。
  34. 前記ウェブサイトはトポロジーを持ち、前記第1のウェブページは前記ウェブサイトトポロジーにおいて、前記第2のウェブページよりも高い、請求項1記載のコンピュータ実現される方法。
  35. 前記第1のウェブページは前記ウェブサイトのルートページまたはホームページである、請求項34記載のコンピュータ実現される方法。
  36. コンピュータ実現される方法において、
    a)第1のドキュメントに適している用語を識別することと、
    b)前記用語を含む検索クエリを処理する目的で、前記識別された用語が、1つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定することと、
    c)前記用語を含む検索クエリを処理する目的で、前記識別された用語が、1つ以上の他のドキュメントに適している見込のある情報のクラスに属しているとして決定された場合に、
    1)前記情報のクラスが、関係を有するドキュメントに適している見込があるように、前記第1のドキュメントとの特定の関係を持つ第2のドキュメントを決定することと、
    2)前記識別された用語を前記第2のドキュメントに関係付けるべきか否か決定することと、
    3)前記用語を前記第2のドキュメントに関係付けるべきであるとして決定された場合、前記識別された用語を含む検索クエリに対して、前記第2のドキュメントが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、前記識別された用語と前記第2のドキュメントとの関係付けを保存することと
    を含むコンピュータ実現される方法。
  37. 前記第1のドキュメントは第1のウェブサイトに属しているウェブページであり、前記第2のウェブページは前記第1のウェブサイト以外のウェブサイトに属している、請求項36記載のコンピュータ実現される方法。
  38. 前記第1のドキュメントは第1のウェブページであり、前記第1のウェブページと前記第2のウェブページとの前記特定の関係は、前記第1のウェブページから前記第2のウェブページに対するリンクである、請求項36記載のコンピュータ実現される方法。
  39. 前記第1のドキュメントは第1のウェブページであり、前記第1のウェブページと前記第2のウェブページとの前記特定の関係は、前記第2のウェブページから前記第1のウェブページに対するリンクである、請求項36記載のコンピュータ実現される方法。
  40. 前記第1のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、1つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
    前記第1のドキュメントが属するウェブサイトに強く関係付けられている用語を識別する、請求項36記載のコンピュータ実現される方法。
  41. 前記用語は検索クエリ用語であり、前記第1のドキュメントはウェブサイトに属し、
    前記第1のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、1つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
    過去のユーザ検索クエリと、前記ウェブサイトに対応する検索結果を過去にユーザが選択したことと、を使用して、前記ウェブサイトに強く関係付けられている検索クエリ用語を識別する、請求項36記載のコンピュータ実現される方法。
  42. 前記第1のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、1つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
    (1)企業名としての前記用語と、(2)前記企業のためのホームページとしての前記ウェブサイトのウェブページと、をリストアップするイエローページエントリを使用して、前記ウェブサイトに強く関係付けられた用語を識別する、請求項36記載のコンピュータ実現される方法。
  43. 前記第1のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、1つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
    (1)商標としての前記用語と、(2)ホームページとしての前記ウェブサイトのウェブページと、をリストアップする商標登録情報を使用して、前記ウェブサイトに強く関係付けられた用語を識別する、請求項36記載のコンピュータ実現される方法。
  44. 前記第1のドキュメントに適している用語を識別する動作と、前記用語を含む検索クエリを処理する目的で、前記識別された用語が、1つ以上の他のドキュメントに適している見込のある情報のクラスに属しているか否かを決定する動作は、
    (1)ドメイン名における前記用語と、(2)前記ウェブサイトのホームページと、をリストアップするドメイン名登録情報を使用して、前記ウェブサイトに強く関係付けられた用語を識別する、請求項36記載のコンピュータ実現される方法。
  45. (d)前記識別された用語を含む検索クエリを受け取ることと、
    (e)前記識別された用語との保存された関係付けを持っている前記第2のドキュメントの前記検索結果スコアを増加させることと
    をさらに含む、請求項36記載のコンピュータ実現される方法。
  46. 前記識別された用語は高度に記述的な情報である、請求項36記載のコンピュータ実現される方法。
  47. 前記高度に記述的な情報はロケーションである、請求項46記載のコンピュータ実現される方法。
  48. 前記高度に記述的な情報は住所である、請求項46記載のコンピュータ実現される方法。
  49. 前記高度に記述的な情報は珍しい用語である、請求項46記載のコンピュータ実現される方法。
  50. 前記珍しい用語はウェブページおよびウェブサイトの収集物のうちで、予め定められた頻度より少なく出現する用語である、請求項49記載のコンピュータ実現される方法。
  51. 前記高度に記述的な情報は製品カテゴリである、請求項46記載のコンピュータ実現される方法。
  52. 前記高度に記述的な情報の少なくともいくつかを含む検索クエリに対して、前記第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つように、前記識別された高度に記述的な情報と前記第2のウェブページとの関係付けを保存する動作は、前記検索スコアの情報検索成分を増加させる、請求項46記載のコンピュータ実現される方法。
  53. 装置において、
    a)ウェブサイトに適している情報を受け入れる手段と、
    b)用語を含む検索クエリを処理する目的で、前記ウェブサイトの第1のウェブページに適しており、前記ウェブサイトの別のウェブページに適している見込のある前記用語を識別する手段と、
    c)前記第1のウェブページとの特定の関係を持つ前記ウェブサイトの第2のウェブページを決定する手段と、
    d)前記識別された用語と前記第2のウェブページとを関係付けるべきか否かを決定する手段と、
    e)前記用語を前記第2のウェブページに関係付けるべきであるとして決定された場合、前記識別された用語を含む検索クエリに対して、前記第2のウェブページが、そうでなければ持つことになるものよりも高い検索スコアを持つことになるように、前記識別された用語と前記第2のウェブページとの関係付けを保存する手段と
    を具備する装置。
  54. (f)前記識別された用語を含む検索クエリを受け取る手段と、
    (g)前記識別された検索用語との保存された関係付けを持っている前記第2のウェブページの前記検索結果スコアを増加させる手段と
    をさらに具備する請求項53記載の装置。
JP2009502850A 2006-03-31 2007-03-19 ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬 Active JP5069285B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/396,301 2006-03-31
US11/396,301 US7933890B2 (en) 2006-03-31 2006-03-31 Propagating useful information among related web pages, such as web pages of a website
PCT/US2007/006870 WO2007126628A2 (en) 2006-03-31 2007-03-19 Propagating useful information among related web pages, such as web pages of a website

Publications (2)

Publication Number Publication Date
JP2009532766A true JP2009532766A (ja) 2009-09-10
JP5069285B2 JP5069285B2 (ja) 2012-11-07

Family

ID=38560711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009502850A Active JP5069285B2 (ja) 2006-03-31 2007-03-19 ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬

Country Status (8)

Country Link
US (3) US7933890B2 (ja)
EP (1) EP2013703A4 (ja)
JP (1) JP5069285B2 (ja)
KR (1) KR101225467B1 (ja)
CN (1) CN101454748B (ja)
AU (2) AU2007243784B2 (ja)
CA (1) CA2647864C (ja)
WO (1) WO2007126628A2 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7966184B2 (en) * 2006-03-06 2011-06-21 Audioeye, Inc. System and method for audible web site navigation
US7480667B2 (en) * 2004-12-24 2009-01-20 Microsoft Corporation System and method for using anchor text as training data for classifier-based search systems
US7657523B2 (en) * 2006-03-09 2010-02-02 Customerforce.Com Ranking search results presented to on-line users as a function of perspectives of relationships trusted by the users
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US8219533B2 (en) * 2007-08-29 2012-07-10 Enpulz Llc Search engine feedback for developing reliable whois database reference for restricted search operation
CN101855631B (zh) * 2007-11-08 2016-06-29 上海惠普有限公司 用于聚焦爬行的导航排名
US7991760B2 (en) * 2008-02-08 2011-08-02 International Business Machines Corporation Constructing a domain-specific ontology by mining the web
WO2011024163A1 (en) * 2009-08-25 2011-03-03 Ben Gurion University Of The Negev Research And Development Authority Method and system for selecting, retrieving, visualizing and exploring time-oriented data in multiple subject records.
US8706717B2 (en) * 2009-11-13 2014-04-22 Oracle International Corporation Method and system for enterprise search navigation
US20120260160A1 (en) * 2009-12-24 2012-10-11 Samsung Electronics Co., Ltd. Display device for displaying a webpage and display method for same
US8788583B2 (en) * 2010-05-13 2014-07-22 International Business Machines Corporation Sharing form training result utilizing a social network
US8903800B2 (en) * 2010-06-02 2014-12-02 Yahoo!, Inc. System and method for indexing food providers and use of the index in search engines
US8635205B1 (en) * 2010-06-18 2014-01-21 Google Inc. Displaying local site name information with search results
US8489560B1 (en) * 2010-09-08 2013-07-16 Conductor, Inc. System and method for facilitating the management of keyword/universal resource locator (URL) data
US9135358B2 (en) 2010-10-20 2015-09-15 Microsoft Technology Licensing, Llc Result types for conditional data display
US20120158712A1 (en) * 2010-12-16 2012-06-21 Sushrut Karanjkar Inferring Geographic Locations for Entities Appearing in Search Queries
US8589408B2 (en) 2011-06-20 2013-11-19 Microsoft Corporation Iterative set expansion using samples
JP2013037624A (ja) * 2011-08-10 2013-02-21 Sony Computer Entertainment Inc 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
US9489345B1 (en) * 2011-09-28 2016-11-08 Harold T. Fogg System and method for providing products and locations
FR2989189B1 (fr) * 2012-04-04 2017-10-13 Qwant Procede et dispositif de fourniture rapide d'information
WO2013172821A1 (en) * 2012-05-15 2013-11-21 Hewlett-Packard Development Company, L.P. Query processing
US9626340B2 (en) 2012-08-28 2017-04-18 Dropbox, Inc. Bookmarking shared file and folder links
US9075860B2 (en) 2012-10-18 2015-07-07 Oracle International Corporation Data lineage system
US10810245B2 (en) * 2013-01-17 2020-10-20 Adobe Inc. Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
US9910860B2 (en) * 2014-02-06 2018-03-06 International Business Machines Corporation Split elimination in MapReduce systems
CN106203088A (zh) * 2016-06-24 2016-12-07 北京奇虎科技有限公司 信息获取的方法及装置
US11475212B2 (en) * 2017-04-06 2022-10-18 Otsuka Pharmaceutical Development & Commercialization, Inc. Systems and methods for generating and modifying documents describing scientific research
CN110598073B (zh) * 2018-05-25 2024-04-26 微软技术许可有限责任公司 基于拓扑关系图的实体网页链接的获取技术
US11372894B2 (en) * 2018-12-21 2022-06-28 Atlassian Pty Ltd. Associating product with document using document linkage data
CN111930750A (zh) * 2020-08-28 2020-11-13 支付宝(杭州)信息技术有限公司 一种对取证过程视频片段进行存证的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174132A1 (en) * 2001-05-04 2002-11-21 Allresearch, Inc. Method and system for detecting unauthorized trademark use on the internet
US20050120006A1 (en) * 2003-05-30 2005-06-02 Geosign Corporation Systems and methods for enhancing web-based searching

Family Cites Families (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4021780A (en) * 1975-09-24 1977-05-03 Narey James O Ballot tallying system including a digital programmable read only control memory, a digital ballot image memory and a digital totals memory
US5715208A (en) * 1995-09-29 1998-02-03 Micron Technology, Inc. Memory device and method for reading data therefrom
US6148289A (en) * 1996-05-10 2000-11-14 Localeyes Corporation System and method for geographically organizing and classifying businesses on the world-wide web
US6745194B2 (en) * 2000-08-07 2004-06-01 Alta Vista Company Technique for deleting duplicate records referenced in an index of a database
US5933827A (en) * 1996-09-25 1999-08-03 International Business Machines Corporation System for identifying new web pages of interest to a user
US5991758A (en) * 1997-06-06 1999-11-23 Madison Information Technologies, Inc. System and method for indexing information about entities from different information sources
US5991756A (en) * 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
WO1999030194A1 (fr) * 1997-12-05 1999-06-17 Sumitomo Electric Industries, Ltd. Fibre optique a dispersion decalee
US6735585B1 (en) * 1998-08-17 2004-05-11 Altavista Company Method for search engine generating supplemented search not included in conventional search result identifying entity data related to portion of located web page
US6336105B1 (en) * 1998-11-16 2002-01-01 Trade Access Inc. System and method for representing data and providing electronic non-repudiation in a negotiations system
CA2356947A1 (en) * 1998-12-23 2000-07-06 Nokia Wireless Routers, Inc. A unified routing scheme for ad-hoc internetworking
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US7275061B1 (en) * 2000-04-13 2007-09-25 Indraweb.Com, Inc. Systems and methods for employing an orthogonal corpus for document indexing
US6924828B1 (en) * 1999-04-27 2005-08-02 Surfnotes Method and apparatus for improved information representation
US6836768B1 (en) * 1999-04-27 2004-12-28 Surfnotes Method and apparatus for improved information representation
US7181459B2 (en) * 1999-05-04 2007-02-20 Iconfind, Inc. Method of coding, categorizing, and retrieving network pages and sites
US20050097160A1 (en) * 1999-05-21 2005-05-05 Stob James A. Method for providing information about a site to a network cataloger
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US6321228B1 (en) * 1999-08-31 2001-11-20 Powercast Media, Inc. Internet search system for retrieving selected results from a previous search
US8914361B2 (en) * 1999-09-22 2014-12-16 Google Inc. Methods and systems for determining a meaning of a document to match the document to content
US6675205B2 (en) * 1999-10-14 2004-01-06 Arcessa, Inc. Peer-to-peer automated anonymous asynchronous file sharing
US6651058B1 (en) * 1999-11-15 2003-11-18 International Business Machines Corporation System and method of automatic discovery of terms in a document that are relevant to a given target topic
US6434548B1 (en) * 1999-12-07 2002-08-13 International Business Machines Corporation Distributed metadata searching system and method
US6963867B2 (en) * 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US6691163B1 (en) * 1999-12-23 2004-02-10 Alexa Internet Use of web usage trail data to identify related links
US7058636B2 (en) * 2000-01-03 2006-06-06 Dirk Coldewey Method for prefetching recursive data structure traversals
US6886005B2 (en) * 2000-02-17 2005-04-26 E-Numerate Solutions, Inc. RDL search engine
US6865600B1 (en) * 2000-05-19 2005-03-08 Napster, Inc. System and method for selecting internet media channels
US7013323B1 (en) * 2000-05-23 2006-03-14 Cyveillance, Inc. System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US20020078014A1 (en) * 2000-05-31 2002-06-20 David Pallmann Network crawling with lateral link handling
DE10028842A1 (de) * 2000-06-15 2002-01-03 Ralf Mimoun Verfahren zur Erzeugung einer Bedienoberfläche für eine Standard-Applikation in einem Browser eines Computernetzwerkes
US7359951B2 (en) * 2000-08-08 2008-04-15 Aol Llc, A Delaware Limited Liability Company Displaying search results
US7047229B2 (en) * 2000-08-08 2006-05-16 America Online, Inc. Searching content on web pages
US7080073B1 (en) * 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
KR100455439B1 (ko) 2000-09-21 2004-11-08 (주)하우앤와이 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
US20020080187A1 (en) * 2000-10-02 2002-06-27 Lawton Scott S. Enhanced method and system for category selection
US20020065857A1 (en) * 2000-10-04 2002-05-30 Zbigniew Michalewicz System and method for analysis and clustering of documents for search engine
US20020103920A1 (en) * 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
CA2327175A1 (en) * 2000-11-30 2002-05-30 Ibm Canada Limited-Ibm Canada Limitee Lightweight user interactive administration framework
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
US6526440B1 (en) * 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US7047482B1 (en) * 2001-02-28 2006-05-16 Gary Odom Automatic directory supplementation
US20040205076A1 (en) * 2001-03-06 2004-10-14 International Business Machines Corporation System and method to automate the management of hypertext link information in a Web site
US20020129062A1 (en) * 2001-03-08 2002-09-12 Wood River Technologies, Inc. Apparatus and method for cataloging data
US6938025B1 (en) * 2001-05-07 2005-08-30 Microsoft Corporation Method and apparatus for automatically determining salient features for object classification
US6990494B2 (en) * 2001-07-27 2006-01-24 International Business Machines Corporation Identifying links of interest in a web page
US7096179B2 (en) * 2001-08-15 2006-08-22 Siemens Corporate Research, Inc. Text-based automatic content classification and grouping
US7076483B2 (en) * 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US20030043192A1 (en) * 2001-08-31 2003-03-06 Schlumberger Technology Corporation Dynamically modifiable user interface
US7266765B2 (en) * 2001-08-31 2007-09-04 Fuji Xerox Co., Ltd. Detection and processing of annotated anchors
US7089233B2 (en) * 2001-09-06 2006-08-08 International Business Machines Corporation Method and system for searching for web content
US20020156779A1 (en) * 2001-09-28 2002-10-24 Elliott Margaret E. Internet search engine
US20040205046A1 (en) * 2001-11-29 2004-10-14 International Business Machines Corporation Indexing and retrieval of textual collections on PDAS
US7536404B2 (en) * 2001-12-13 2009-05-19 Siemens Product Lifecycle Management Software, Inc. Electronic files preparation for storage in a server
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US20030115188A1 (en) * 2001-12-19 2003-06-19 Narayan Srinivasa Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
US7240330B2 (en) * 2002-02-01 2007-07-03 John Fairweather Use of ontologies for auto-generating and handling applications, their persistent storage, and user interfaces
US8229957B2 (en) * 2005-04-22 2012-07-24 Google, Inc. Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization
US20070038603A1 (en) * 2005-08-10 2007-02-15 Guha Ramanathan V Sharing context data across programmable search engines
US20030208578A1 (en) * 2002-05-01 2003-11-06 Steven Taraborelli Web marketing method and system for increasing volume of quality visitor traffic on a web site
US7231395B2 (en) * 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US7676452B2 (en) * 2002-07-23 2010-03-09 International Business Machines Corporation Method and apparatus for search optimization based on generation of context focused queries
AU2003265847A1 (en) * 2002-09-03 2004-03-29 X1 Technologies, Llc Apparatus and methods for locating data
US20040107365A1 (en) * 2002-09-04 2004-06-03 Hogg Jim R. System and method for remote website content management and administration
US7085755B2 (en) * 2002-11-07 2006-08-01 Thomson Global Resources Ag Electronic document repository management and access system
US7107520B2 (en) * 2002-11-18 2006-09-12 Hewlett-Packard Development Company, L.P. Automated propagation of document metadata
US20050149507A1 (en) * 2003-02-05 2005-07-07 Nye Timothy G. Systems and methods for identifying an internet resource address
US20040205242A1 (en) * 2003-03-12 2004-10-14 Zhichen Xu Querying a peer-to-peer network
US7028029B2 (en) * 2003-03-28 2006-04-11 Google Inc. Adaptive computation of ranking
GB0314782D0 (en) * 2003-06-25 2003-07-30 Ibm A searchable personal browsing history
US7346839B2 (en) 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US7281005B2 (en) * 2003-10-20 2007-10-09 Telenor Asa Backward and forward non-normalized link weight analysis method, system, and computer program product
WO2005055073A1 (en) * 2003-11-27 2005-06-16 Qinetiq Limited Automated anomaly detection
US7181447B2 (en) * 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US7392278B2 (en) * 2004-01-23 2008-06-24 Microsoft Corporation Building and using subwebs for focused search
US7716223B2 (en) * 2004-03-29 2010-05-11 Google Inc. Variable personalization of search results in a search engine
US7343374B2 (en) * 2004-03-29 2008-03-11 Yahoo! Inc. Computation of page authority weights using personalized bookmarks
US7849135B2 (en) * 2004-04-09 2010-12-07 At&T Mobility Ii Llc Sharing content on mobile devices
US7305389B2 (en) * 2004-04-15 2007-12-04 Microsoft Corporation Content propagation for enhanced document retrieval
US7231405B2 (en) * 2004-05-08 2007-06-12 Doug Norman, Interchange Corp. Method and apparatus of indexing web pages of a web site for geographical searchine based on user location
US7251654B2 (en) * 2004-05-15 2007-07-31 International Business Machines Corporation System and method for ranking nodes in a network
WO2007001247A2 (en) * 2004-06-02 2007-01-04 Yahoo! Inc. Content-management system for user behavior targeting
US7836411B2 (en) * 2004-06-10 2010-11-16 International Business Machines Corporation Search framework metadata
AU2005258080A1 (en) * 2004-06-18 2006-01-05 Pictothink Corporation Network content organization tool
WO2006011819A1 (en) * 2004-07-30 2006-02-02 Eurekster, Inc. Adaptive search engine
US20060036966A1 (en) * 2004-08-10 2006-02-16 Slava Yevdayev Method and system for presenting links associated with a requested website
US8078602B2 (en) * 2004-12-17 2011-12-13 Claria Innovations, Llc Search engine for a computer network
US7779001B2 (en) * 2004-10-29 2010-08-17 Microsoft Corporation Web page ranking with hierarchical considerations
US20060149800A1 (en) * 2004-12-30 2006-07-06 Daniel Egnor Authoritative document identification
US20060230039A1 (en) * 2005-01-25 2006-10-12 Markmonitor, Inc. Online identity tracking
US7685197B2 (en) * 2005-05-05 2010-03-23 Yahoo! Inc. System and methods for indentifying the potential advertising value of terms found on web pages
FR2886494B1 (fr) * 2005-05-24 2007-06-29 Canon Kk Procede et dispositif d'echange de donnees entre des stations mobiles dans un reseau pair a pair
US20060294071A1 (en) * 2005-06-28 2006-12-28 Microsoft Corporation Facet extraction and user feedback for ranking improvement and personalization
US7480652B2 (en) * 2005-10-26 2009-01-20 Microsoft Corporation Determining relevance of a document to a query based on spans of query terms
US7792870B2 (en) * 2005-11-08 2010-09-07 Yahoo! Inc. Identification and automatic propagation of geo-location associations to un-located documents
US20070112758A1 (en) * 2005-11-14 2007-05-17 Aol Llc Displaying User Feedback for Search Results From People Related to a User
US7890502B2 (en) * 2005-11-14 2011-02-15 Microsoft Corporation Hierarchy-based propagation of contribution of documents
NO325961B1 (no) * 2005-12-05 2008-08-25 Holte Bjoern System, prosess og softwarearrangement for å assistere i navigering på inernett
US20070192253A1 (en) * 2006-01-13 2007-08-16 Gogo Mobile, Inc. Digital content delivery assistance system and method
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
JP2007241451A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd 情報収集支援装置
US7933890B2 (en) 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US20070276862A1 (en) * 2006-04-27 2007-11-29 Toutonghi Michael J Organizing and sharing digital content
US8627335B2 (en) * 2006-11-13 2014-01-07 Oracle America, Inc. Method and apparatus for data space profiling of applications across a network
US7577550B2 (en) * 2007-04-30 2009-08-18 Hewlett-Packard Development Company, L.P. System and method for detecting performance anomalies in a computing system
US8140301B2 (en) * 2007-04-30 2012-03-20 International Business Machines Corporation Method and system for causal modeling and outlier detection
US7877642B2 (en) * 2008-10-22 2011-01-25 International Business Machines Corporation Automatic software fault diagnosis by exploiting application signatures
US8327443B2 (en) * 2008-10-29 2012-12-04 Lockheed Martin Corporation MDL compress system and method for signature inference and masquerade intrusion detection
JP2011034177A (ja) * 2009-07-30 2011-02-17 Sony Corp 情報処理装置および情報処理方法、並びにプログラム
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
US9292493B2 (en) * 2010-01-07 2016-03-22 The Trustees Of The Stevens Institute Of Technology Systems and methods for automatically detecting deception in human communications expressed in digital form
US8504876B2 (en) * 2010-04-30 2013-08-06 The Mitre Corporation Anomaly detection for database systems
US8244743B2 (en) * 2010-06-08 2012-08-14 Google Inc. Scalable rendering of large spatial databases
MX2013011129A (es) * 2011-03-28 2013-10-30 Ibm Sistema de deteccion de anomalias, metodo de deteccion de anomalias y programa para los mismos.
US8838510B2 (en) * 2011-09-16 2014-09-16 International Business Machines Corporation Choosing pattern recognition algorithms and data features using a genetic algorithm
US8856193B2 (en) * 2011-12-20 2014-10-07 Sap Se Merge monitor for table delta partitions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174132A1 (en) * 2001-05-04 2002-11-21 Allresearch, Inc. Method and system for detecting unauthorized trademark use on the internet
US20050120006A1 (en) * 2003-05-30 2005-06-02 Geosign Corporation Systems and methods for enhancing web-based searching

Also Published As

Publication number Publication date
KR101225467B1 (ko) 2013-01-24
CN101454748A (zh) 2009-06-10
AU2007243784B2 (en) 2011-01-20
KR20080109061A (ko) 2008-12-16
US8990210B2 (en) 2015-03-24
JP5069285B2 (ja) 2012-11-07
WO2007126628A3 (en) 2008-09-25
US8521717B2 (en) 2013-08-27
US20070233808A1 (en) 2007-10-04
CA2647864A1 (en) 2007-11-08
EP2013703A4 (en) 2012-05-23
US20140052735A1 (en) 2014-02-20
CN101454748B (zh) 2010-12-08
US20110196861A1 (en) 2011-08-11
EP2013703A2 (en) 2009-01-14
AU2007243784A1 (en) 2007-11-08
US7933890B2 (en) 2011-04-26
AU2011201819A1 (en) 2011-06-09
WO2007126628A2 (en) 2007-11-08
AU2011201819B2 (en) 2013-07-04
CA2647864C (en) 2013-06-25

Similar Documents

Publication Publication Date Title
JP5069285B2 (ja) ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬
US11860921B2 (en) Category-based search
JP4350744B2 (ja) 地域情報検索結果の提供方法およびシステム
US8949251B2 (en) System for and method of identifying closely matching textual identifiers, such as domain names
US10268641B1 (en) Search result ranking based on trust
Davison Recognizing nepotistic links on the web
US8972371B2 (en) Search engine and indexing technique
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
JP2011238273A (ja) サーチ結果を提供するためのシステムおよび方法
KR20060115488A (ko) 웹 브라우저의 즐겨찾기 리스트를 이용한 개인화 검색 방법및 검색 서버
Liu et al. Data cleansing for web information retrieval using query independent features
KR100909561B1 (ko) 지역 정보 검색 결과 제공 시스템
Hamdulay et al. Search engine visibility: the effect of generic top-level domain choice

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111019

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111026

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111121

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111219

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120816

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5069285

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250