JP2005092881A - 構造的に相互関係のある情報に基づいて文書をランク付けするための改善されたシステムおよび方法 - Google Patents

構造的に相互関係のある情報に基づいて文書をランク付けするための改善されたシステムおよび方法 Download PDF

Info

Publication number
JP2005092881A
JP2005092881A JP2004265877A JP2004265877A JP2005092881A JP 2005092881 A JP2005092881 A JP 2005092881A JP 2004265877 A JP2004265877 A JP 2004265877A JP 2004265877 A JP2004265877 A JP 2004265877A JP 2005092881 A JP2005092881 A JP 2005092881A
Authority
JP
Japan
Prior art keywords
score
document
web
assigning
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004265877A
Other languages
English (en)
Other versions
JP2005092881A5 (ja
Inventor
Marc A Najork
エー.ナジョーク マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005092881A publication Critical patent/JP2005092881A/ja
Publication of JP2005092881A5 publication Critical patent/JP2005092881A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 ネポティスティックリンクの影響を受け難いように、ハイパーリンク情報に基づいてウェブページをランク付けするシステムおよび方法を提供する。
【解決手段】 良質の問合せ結果を返すウェブ検索サービスが提供される。ターゲットページのスコアをつり上げるだけの目的で人為的に生成されるウェブページに対する、PageRank等の従来のランク付けアルゴリズムの脆弱性が解決される。直観的には、ランダムジャンプをすると、少数のページを有するウェブサーバ上で特定のページに到達するよりも多数のページを有するウェブサーバ上で特定のページに到達するほうが可能性が低い。即ち後者のようなページが他のページにリンク(他のページを推奨)することによって、当該他のページに及ぼす影響のほうが低い。そこで各ウェブページではなく各ウェブサーバに最低保証スコアを割り当て、そのウェブサーバ上のすべてのページ間で分配する。
【選択図】 図3G

Description

本発明は、構造的に相互関係のある情報に基づく文書のランク付けに関する。特に、本発明は、縁故主義的な(nepotistic)、つまり利己的な(self−serving)リンクに抵抗し、その影響を受け難くしたやり方での、ハイパーリンク情報に基づくウェブページのランク付けに関する。
ウェブ検索サービスは、例えばユーザまたはアプリケーションから問合せを受け付け、その問合せを満たす結果(例えば文書または文書へのリンク)のリストを返す。なお、本明細書で使用される場合の「文書」という用語は、検索することができる任意のコンテンツを指し、ワードプロセッサ文書やウェブページのようなファイルに限定されるものと解釈されてはならない。満足できる見聞を提供するため、この結果リストは、ユーザに最も関連性のある文書が最初に現れるべきであることを考慮して順序付けられるべきである。現在、文書をランク付けするための多数のアルゴリズムが存在し、ほとんどのウェブ検索エンジンは、このようなアルゴリズムのいくつかを使用して、さまざまなランク付けアルゴリズムによって割り当てられたランクの組合せに基づいて問合せの結果をランク付けしている。
従来の多数のランク付けアルゴリズムは、問合せ依存型(動的ともいう)または問合せ非依存型(静的ともいう)のいずれであるかに基づいて分類することができる。問合せ依存型ランク付けアルゴリズムは問合せ中の用語を使用するが、問合せ非依存型ランク付けアルゴリズムは問合せ中の用語を使用しない。すなわち、問合せ非依存型ランク付けアルゴリズムはウェブ上の各文書に品質スコア(得点)を割り当てる。したがって、問合せ非依存型ランク付けアルゴリズムは、前もって都合よく実行することができ、問合せが提出されるたびに再実行する必要がない。
ランク付けアルゴリズムは、コンテンツベース、使用量ベース、およびリンクベースの各ランク付けアルゴリズムに大別することもできる。コンテンツベースのランク付けアルゴリズムは、文書中の単語を用いて文書をランク付けする(例えば、問合せ依存型コンテンツベースランク付けアルゴリズムでは、文書の前の方に、または大きいフォントや太字のフォントで、問合せ用語を含む文書に、より高いスコアを与えるであろう)。使用量ベースのランク付けアルゴリズムは、ウェブページが何回閲覧されたかの見積値に基づいてウェブページをランク付けする。このような見積値は、ウェブプロキシログ(Web proxy logs)を調べることによって、または検索エンジンの結果ページでのクリックスルー(click-throughs)を監視することによって、生成することができる。最後に、リンクベースのランク付けアルゴリズムは、ウェブページ間のハイパーリンクを用いてウェブページをランク付けする。
例えば、非常に単純な静的リンクベースランク付けアルゴリズムでは、あるページを指している他のページからのリンクはそのページを「推奨(endorse)」していると考えて、各ウェブページに、そのページを指しているリンク(「バックリンク(backlink)」)の数に比例するスコアを割り当てるであろう。例えば、図1Aに示すように、ウェブページA、B、CおよびDがそれぞれ、ウェブページ内の黒い矩形で表されているように、他のウェブページへの3個のリンク(「アウトリンク(outlink)」)を含むとする。この例では、静的リンクベースランク付けアルゴリズムを用いると、ページDはページCよりも低いスコアを受ける。というのは、ページDにはバックリンクがないのに対して、ページCはページBからの1個のバックリンクL2およびページAからの1個のバックリンクL1を有するからである。なお、ページA、B、CおよびDをダウンロードしてしまえば、それぞれが何個のアウトリンクを有するか、およびそれらがどこへリンクしているかは、そのページを読むことができるので確定的であるが、アルゴリズムにおいて考慮に入れることができない未知のロケーション(記憶場所)からの、例えばバックリンクLUのような未知のバックリンクがまだ存在する可能性がある。この単純な手法の主たる欠点は、それぞれの「推奨(endorsement)」が同等に扱われることであるが、このことはこの手法を利用しやすいシステムにしている。
PageRank(ページランク)は、群を抜いて、最もよく知られている問合せ非依存リンクベースランク付けアルゴリズムであるので、その原理を本明細書に記載する。PageRankは、図1Aの素朴な静的リンクベースシステムの原理を基に、システムに再帰的レイヤを追加することによって作られている。図1Bに示すように、4個のウェブページが例示され、PageRankが直観的に示されている。PageRankでは、推奨される側のページ(被推奨側ページ)にスコアを割り当てる際に、推奨する側のページ(推奨側ページ)のスコアが考慮に入れられる。したがって、ウェブページGに与えられるスコアに対して、ウェブページE(そのスコアは100)からの推奨の重みのほうが、ウェブページF(そのスコアは9)からの推奨よりもはるかに大きい影響を及ぼす。直観的には、推奨側ページのスコアが、その被推奨側の間に分割されると考えることができる。
数学的には、PageRankアルゴリズムの直観的概念は次のように説明することができる。既知のウェブページの集合およびそれらの間のリンクが、頂点集合V(各頂点がウェブページに対応する)および辺集合E(各辺(u,v)がページuからページvへのハイパーリンクに対応する)を有するグラフを引き起こすと仮定する。|V|で集合Vのサイズを表し、O(u)で頂点uの出次数(すなわち、ウェブページuに埋め込まれているハイパーリンクの数)を表し、pで0と1の間の数(例えば0.15)を表す。ウェブページvのPageRank R(v)は次のように定義される。
Figure 2005092881
PageRank公式は、次のように説明されることが多い。ウェブ上でランダムウォーク(迷い歩き)しているウェブサーファを考える。ウォークにおける各ステップごとに、サーファは、次のアルゴリズムを用いて、あるウェブページから別のウェブページへ移動する:ある確率pで、サーファは一様ランダムにウェブページを選択してそこへジャンプする;それ以外の場合、サーファは現在のページ内の出ハイパーリンクのうちの1つを一様ランダムに選択してそれをたどる。この比喩のため、数pは「ジャンプ確率」(すなわち、サーファが完全にランダムなページにジャンプする確率)と呼ばれることがある。ウェブサーファが確率pでジャンプし、|V|個のウェブページがある場合、ある特定のページにジャンプする確率はp/|V|である。ジャンプによっていずれかのページに到達することができるので、各ページには少なくともp/|V|のスコアが保証される。
PageRankスコアは、問合せ結果をランク付けするために用いることができる。他のすべてのファクタが同一である場合、PageRankを用いた検索エンジンは、PageRankスコアの低いページよりもPageRankスコアの高いページの方を上位にランク付けする。検索エンジンのほとんどのユーザは最初のいくつかの結果しか調べないので、商用ウェブサイトの運営者は、自分のサイトへのリンクが結果リストの前のほうに現れること、すなわち自分のウェブページが高いPageRankスコアを受けることに利害関係がある。すなわち、商用ウェブサイト運営者には、自分のウェブサイト上のページのPageRankスコアを人為的に上げようとする動機付けがある。
PageRank公式を解析することにより、ウェブページvのPageRankスコアを上げる1つの方法として、多くの他のページをそのページにリンクさせればよいことが明らかとなる。この理由は、ウェブページが自分のアウトリンクを通じて他のウェブページを推奨することができるという考え方がPageRankの核心にあるからである。vにリンクしているすべてのページが低いPageRankスコアを有する場合、それぞれの個々のページはわずかしか寄与しないであろう。しかし、あらゆるページが最低限のPageRankスコアとしてp/|V|を有することが保証されているので、多くのこのような低品質のページからのリンクであっても、合計はかなりの寄与になることがある。これは、PageRankアルゴリズムの脆弱性を露呈する。
実際、PageRankのこの脆弱性は、自分のメインホームページを「推奨」することのみを目的とする非常に多数のページを含むウェブサイトによって活用されている。通常、これらの推奨側ページは、推奨されるページへのリンクと、別の推奨側ページへの別のリンクとを含む。すべての推奨側ページはオンザフライで自動的に作成される。したがって、ウェブクローラ(Webページ巡回プログラム)が、たまたまいずれかの推奨側ページに遭遇すると、(推奨側ページが他の推奨側ページにリンクしているので)さらに多くの推奨側ページをダウンロードし続けることにより、それらのページを多数蓄積することになる。この多数のページは、すべて単一のページを推奨しているので、推奨されているページのPageRankスコアを人為的につり上げる。PageRankスコアを人為的につり上げるために用いられる技法は、俗に「リンクスパミング(link spamming)」あるいは「リンクスパム(link spam)」と呼ばれている。
また、個別化(パーソナライズ)されたPageRankスコアが、特定の観点からのウェブの一覧(view)を作り出すことができることも知られている。例えば、ユーザのブックマークを取り、ユーザのブックマーク内にあるページのPageRankスコアをつり上げることにより、個別化されたPageRankスコアリングシステムが実現される。本質的に、あるウェブページをブックマークとして指定しているユーザは、そのウェブページを、スコアリングシステムが基準にしてほしいウェブページとして暗黙のうちに推奨している。ユーザが「リンクスパム」ページをブックマークとして選択することはまれであり、まして多数の「リンクスパム」ページを選択することはないが、個別化されたPageRankの考え方は、リンクスパミングの問題に明示的に対処するものではない。というのは、各リンクスパムウェブページに関連する最低スコアが依然として存在するからである。
したがって、その基本的考え方は正しいが、PageRankの結果は、ネポティスティックリンク(縁故主義のリンク)により導入される妨害を受けやすい。すなわち、推奨側や被推奨側の真の価値を考慮せずに、自己推奨および昇格の目的の一群のページを作成されてしまうことがあり得る。PageRankスコアに関してリンクスパムの問題が存在することは既知であるが、当技術分野においてその解決法はいまだ見出されていない。
したがって、問合せ非依存でリンクベースのランク付けアルゴリズムの改善が必要とされている。より具体的には、ネポティスティックリンクの影響を大幅に低減する改善されたランク付けのシステムおよび方法が必要とされている。さらに、ターゲットとなる被推奨側ウェブページに関連するPageRankスコアを人為的につり上げる目的で一群の自己推奨ウェブページを作成しようとするリンクスパマ(link spammer)のやる気を低減する改善されたランク付けのシステムおよび方法が必要とされている。
従来技術の上述の確認された短所に鑑みて、本発明は、文書の構造的相互関係に関する情報に基づいて文書をランク付けするシステムおよび方法を提供する。本発明のシステムおよび方法は、ネポティスティックリンクの影響を受けにくいように、ハイパーリンク情報に基づいてウェブページをランク付けするために用いることができる。種々の実施形態では、本発明は、良質の問合せ結果を返すためのウェブ検索サービスにおいて実施される。本発明は、ターゲットページのスコア(得点)をつり上げるだけの目的で人為的に生成されるウェブページに対する、PageRank等の従来のランク付けアルゴリズムの脆弱性を解決する。直観的には、本発明は、ランダムジャンプをすると、少数のページを有するウェブサーバ上で特定のページに到達するよりも、多数のページを有するウェブサーバ上で特定のページに到達するほうが、その可能性が低いということを認識している。このことは、そのようなページが他のページにリンクする(すなわち他のページを推奨する)ことによって当該他のページに及ぼす影響が低いことを意味する。したがって、種々の非限定的実施形態では、本発明は、各ウェブページではなく各ウェブサーバに最低保証スコア(guaranteed minimum score)を割り当てる。そして、サーバに割り当てられるこの最低スコアを、そのウェブサーバ上のすべてのページ間で分割することができる。
本発明の他の利点および特徴は以下に記載される。
本発明による改善されたランク付けアルゴリズムを提供するシステムおよび方法は、添付図面を参照してさらに説明される。
[概要]
前述のように、PageRankアルゴリズムは、ウェブ上のあらゆるページを一つの数字、すなわちそのページのPageRankに凝縮するという大胆な仕事を引き受けている。PageRankは、すべてのウェブページについて、それらの内容とは無関係に、ウェブのグラフ構造におけるその位置のみに基づいて決まるグローバル(広範囲)なランキングである。
PageRankを用いると、検索結果は、より重要で中心的なウェブページほど優先されるように順序付けられる。PageRankの背後にある直観的概念は、ウェブページ自体の外部にある情報、すなわちそれらのバックリンクを使用することである。バックリンクは、一種のピアレビューを提供する。さらに、再帰的定義により、「重要」なページからのバックリンクは、平均的リンクからのバックリンクよりも有意義であるとみなされる。
また、個別化されたPageRankスコアが、特定の観点からウェブの一覧を作り出すことができることも知られている。これは、例えば、ユーザのブックマークを取り、ユーザのブックマーク内にあるページのPageRankスコアをつり上げることにより行われる。しかし、個別化されたPageRankは、リンクスパミングの問題に明示的に対処するものではない。というのは、各リンクスパムウェブページに関連する最低スコアが依然として存在するからである。したがって、リンクスパマは依然として、単一のウェブサーバ上で、それぞれが自己の最低PageRankスコアを有する多数のウェブページを(必要であれば自動的に)作成することができ、それらのページが、互いを、およびターゲット被推奨側ウェブページを推奨することによって、ターゲット被推奨側ウェブページのスコアを人為的につり上げる。リンクスパマが作成する多数のウェブページは通常、(A)同じシンボリックホスト名を有するか、(B)同じドメインに関連付けられるか、または(C)同じIPアドレスに関連付けられるかのいずれか1つまたは複数である。
本発明は、次のことを認識することによって、この脆弱性を解決する。すなわち、ランダムジャンプをすると、少数のページを有するウェブサーバ上で特定のページに到達するよりも、多数のページを有するウェブサーバ上で特定のページに到達するほうが、可能性が低い。このことは、そのようなページが他のページにリンクする(すなわち他のページを推奨する)ことによって当該他のページに及ぼす影響が低いことを意味する。したがって、種々の非限定的実施形態では、本発明は、各ウェブページではなく各ウェブサーバに最低保証スコアを割り当てる。そして、この最低スコアを、そのウェブサーバ上のすべてのページ間で分割することができる。
[例示的なネットワーク環境および分散環境]
当業者には理解されるように、本発明は、任意のコンピュータまたは他のクライアントもしくはサーバデバイスとの関連において実施することができる。これらは、コンピュータネットワークの一部として配備されても、分散コンピューティング環境に配備されてもよい。この点で、本発明は、任意個数のメモリまたはストレージユニットを有する任意のコンピュータシステムまたは環境、ならびに任意個数のストレージユニットまたはボリュームにわたって生じる任意個数のアプリケーションおよびプロセスに関連し、これらを本発明による文書をランク付けするプロセスとの関連で用いることができる。本発明は、リモートまたはローカルストレージを有するネットワーク環境または分散コンピューティング環境に配備されたサーバコンピュータおよびクライアントコンピュータを有する環境に適用することができる。また、本発明は、リモートまたはローカルサービスとの関連で情報を生成、受信および送信するためのプログラミング言語機能、解釈および実行の能力を有する独立型コンピューティングデバイスにも適用することができる。ウェブページをダウンロードし解析することは、ネットワーク環境または分散コンピューティング環境で動作するコンピューティングデバイスにとって特に関連性があるため、本発明によるランク付けのアルゴリズムおよび技法は、そのような環境において特に有効に適用することができる。
分散コンピューティングは、コンピューティングデバイスおよびシステムの間の交換によって、コンピュータリソースおよびサービスの共有を行う。このようなリソースおよびサービスとしては、情報の交換、キャッシュストレージ、およびファイルのためのディスク記憶装置がある。分散コンピューティングは、ネットワーク接続を利用することにより、クライアントの集団的能力を活用して企業全体の利益となることを可能にする。この点で、さまざまなデバイスが、本発明のランク付けのアルゴリズムおよびプロセスに関わり得るアプリケーション、オブジェクトまたはリソースを有することができる。
図2Aは、例示的なネットワーク環境または分散コンピューティング環境の概略図を示している。分散コンピューティング環境は、コンピューティングオブジェクト10a、10b等およびコンピューティングオブジェクトまたはデバイス110a、110b、110c等を備える。これらのオブジェクトは、プログラム、メソッド、データストア、プログラム可能ロジック等を備えることができる。オブジェクトは、PDA(Personal Digital Assistant:携帯情報端末)、テレビ、MP3プレーヤ、パーソナルコンピュータ等の同じまたは異なるデバイスの各部分を含み得る。各オブジェクトは、通信ネットワーク14経由で他のオブジェクトと通信することができる。このネットワーク自体が、図2Aのシステムにサービスを提供する他のコンピューティングオブジェクトおよびコンピューティングデバイスを備えてもよく、ネットワーク自体は、複数の相互接続されたネットワークを表していてもよい。本発明の一態様によれば、各オブジェクト10a、10b等または110a、110b、110c等は、本発明によるランク付けプロセスの使用を要求するために、APIを利用し得るアプリケーション、または他のオブジェクト、ソフトウェア、ファームウェアおよび/またはハードウェアを含んでもよい。
また、理解されるように、110c等のオブジェクトは、別のコンピューティングデバイス10a、10b等または110a、110b等をホストとしてもよい。したがって、図示されている物理的環境は、接続されているデバイスをコンピュータとして示しているかもしれないが、このような図示は単なる例示であり、物理的環境は、別法として、PDA、テレビ、MP3プレーヤ等の種々のディジタルデバイスや、インタフェース、COMオブジェクト等のソフトウェアオブジェクトを備えて図示または記述されてもよい。
分散コンピューティング環境をサポートするさまざまなシステム、コンポーネント、およびネットワーク構成がある。例えば、コンピューティングシステムは、有線または無線システムによって、ローカルネットワークまたは広域分散ネットワークによってともに接続されてもよい。現在、ネットワークの多くはインターネットに接続されている。インターネットは、広域分散コンピューティングのためのインフラストラクチャを提供し、多くの異なるネットワークを包含する。いかなるインフラストラクチャも、本発明による相互関係のあるリンクを有する文書をランク付けすることに付随してなされる例示的通信のために用いることができる。
ホームネットワーキング環境では、電力線、データ(無線および有線の両方)、音声(例えば電話)および娯楽メディアのように、それぞれが独自のプロトコルをサポートし得る少なくとも4つの異種のネットワークトランスポート媒体がある。電灯のスイッチや家庭電化製品のようなほとんどのホーム制御デバイスは、接続のために電力線を用いることができる。データサービスは、ブロードバンド(例えば、DSL(デジタル加入者回線)またはケーブルモデムのいずれか)として家庭に入っている場合があり、無線(例えばHomeRFまたは802.11B)または有線(例えばHomePNA、Cat5、イーサネット(登録商標)、そして電力線さえも)のいずれかの接続を用いて家庭内でアクセス可能である。音声トラフィックは、有線(例えばCat3)または無線(例えば携帯電話)のいずれによって家庭に入るとしてもよく、Cat3配線を用いて家庭内で配信されてもよい。娯楽メディア等のグラフィックデータは、衛星またはケーブルのいずれを通じて家庭に入ることが可能であり、通常は同軸ケーブルを用いて家庭内に配信される。IEEE1394およびDVI(デジタルビジュアルインターフェース)もまた、メディアデバイスのクラスタのためのディジタル相互接続である。プロトコル標準として現れ得るこれらのネットワーク環境等のすべてが相互接続されてイントラネットのようなネットワークを形成し、これがインターネット経由で外部世界に接続されてもよい。要するに、データの記憶および伝送のためのさまざまな異種のソースが存在するため、先に進むと、コンピューティングデバイスは、本発明によるランク付け技法を利用するプログラムオブジェクトに付随してアクセスまたは利用されるデータ等のデータを共有する方法を必要とする。
インターネットは、一般的に、コンピュータネットワーキングの技術分野で周知のTCP/IPプロトコルスイートを利用するネットワークおよびゲートウェイの集まりを指す。TCP/IPとは、「Transmission Control Protocol/Internet Protocol」(通信制御プロトコル/インターネットプロトコル)の頭字語である。インターネットは、ユーザがネットワークを通じて情報をやりとりし共有することを可能にするネットワーキングプロトコルを実行するコンピュータによって相互接続された、地理的に分散したリモートコンピュータネットワークのシステムとして記述することができる。このような広範囲の情報共有のために、インターネットのようなリモートネットワークはこれまで、オープンシステムへと全般的に進化してきた。オープンシステムのために、開発者は、本質的に制限なしに、特殊なオペレーションやサービスを実行するためのソフトウェアアプリケーションを設計することができる。
こうして、ネットワークインフラストラクチャは、クライアント/サーバ、ピアツーピア(peer-to-peer)、またはハイブリッドアーキテクチャのような多数のネットワークトポロジーを可能にする。「クライアント」は、関係していない別のクラスまたはグループのサービスを使用するクラスまたはグループのメンバである。したがって、コンピューティングにおいては、クライアントは、別のプログラムによって提供されるサービスを要求するプロセス(すなわち、おおよそ命令またはタスクの集合)である。クライアントプロセスは、他のプログラムまたはサービス自体に関する作業の詳細を「知る」ことを必要とせずに、要求したサービスを利用する。クライアント/サーバ型アーキテクチャ、特にネットワークシステムでは、クライアントは通常、別のコンピュータ(例えばサーバ)によって提供される共有ネットワークリソースにアクセスするコンピュータである。図2Aの例では、コンピュータ110a、110b等はクライアントとみなすことができ、コンピュータ10a、10b等はサーバとみなすことができる。ここでサーバ10a、10b等はデータを維持管理し、そのデータがクライアントコンピュータ110a、110b等において複製される。ただし、いかなるコンピュータも、状況に応じてクライアント、サーバ、またはその両方とみなすことができる。これらのコンピューティングデバイスのいずれも、本発明のランク付け技法に関わり得るデータを処理し、またはサービスもしくはタスクを要求することができる。
サーバは通常、インターネットのようなリモートまたはローカルネットワークを通じてアクセス可能なリモートコンピュータシステムである。クライアントプロセスは第1のコンピュータシステムにおいてアクティブであり、サーバプロセスは第2のコンピュータシステムにおいてアクティブであるとしてよい。これらが互いに通信媒体を通じて通信することにより、分散された機能を提供し、複数のクライアントがサーバの情報収集能力を利用することが可能となる。本発明のランク付け技法に従って利用されるいかなるソフトウェアオブジェクトも、複数のコンピューティングデバイスまたはオブジェクトにわたって分散されてよい。
クライアントおよびサーバは、プロトコルレイヤによって提供される機能を利用して互いに通信する。例えば、HyperText Transfer Protocol(HTTP:ハイパーテキスト転送プロトコル)は、ワールドワイドウェブ(WWW)(あるいは単に「ウェブ」ともいう)と関連して使用される一般的なプロトコルである。通常、インターネットプロトコル(IP)アドレス等のコンピュータネットワークアドレスや、ユニバーサルリソースロケータ(URL)等の他の参照を用いて、サーバまたはクライアントコンピュータを互いに識別することができる。ネットワークアドレスは、URLアドレスとも呼ぶことができる。通信は、通信媒体を通じて提供することができる。例えば、クライアントおよびサーバは、大容量通信用のTCP/IPコネクション経由で互いに接続されることが可能である。
このように、図2Aは、サーバがネットワーク/バス経由でクライアントコンピュータと通信する、例示的なネットワーク環境または分散環境を示しており、本発明はこの環境において用いることができる。さらに詳細には、本発明によれば、いくつかのサーバ10a、10b等が、通信ネットワーク/バス14(これは、LAN、WAN、イントラネット、インターネット等でよい)経由で、いくつかのクライアントまたはリモートコンピューティングデバイス110a、110b、110c、110d、110e等(例えば、ポータブルコンピュータ、ハンドヘルドコンピュータ、シンクライアント、ネットワーク家庭電化製品、またはVCR、TV、オーブン、電灯、ヒータ等の他のデバイス)と相互接続される。このように、本発明は、構造的に相互関係のあるリンクを有する文書のランク付けを実施するのが望ましいいかなるコンピューティングデバイスにも適用することができると考えられる。
例えば、通信ネットワーク/バス14がインターネットであるネットワーク環境において、サーバ10a、10b等はウェブサーバであることが可能であり、クライアント110a、110b、110c、110d、110e等は、HTTP等のいくつかの既知のプロトコルのいずれかによりこのウェブサーバと通信する。サーバ10a、10b等は、分散コンピューティング環境に特徴的なように、クライアント110a、110b、110c、110d、110e等としての役割を果たすこともある。
通信は、適宜、有線でも無線でもよい。クライアントデバイス110a、110b、110c、110d、110e等が通信を行う場合、通信ネットワーク/バス14経由であってもそうでなくてもよく、それらに関連する独立の通信を有してもよい。例えば、TVまたはVCRの場合、その制御にネットワークの側面がある場合もない場合もある。各クライアントコンピュータ110a、110b、110c、110d、110e等およびサーバコンピュータ10a、10b等は、種々のアプリケーションプログラムモジュールまたはオブジェクト135および種々のタイプのストレージ要素またはオブジェクトへのコネクションまたはアクセスを備えてもよい。これらにより、ファイルまたはデータストリームが記憶され、あるいはファイルまたはデータストリームの一部がダウンロード、伝送または移動されてもよい。コンピュータ10a、10b、110a、110b等のいずれか1つまたは複数は、本発明により処理されるデータを記憶するためのデータベース20等の記憶要素(例えば、データベースまたはメモリ20)の維持および更新を担当してもよい。このように、本発明は、コンピュータネットワーク/バス14にアクセスしてやりとりすることができるクライアントコンピュータ110a、110b等と、クライアントコンピュータ110a、110b等のデバイスおよびデータベース20とやりとりすることができるサーバコンピュータ10a、10b等とを有するコンピュータネットワーク環境において利用することができる。
[例示的コンピューティングデバイス]
図2Bおよび以下の説明は、本発明を実施し得る好適なコンピューティング環境の簡単な概要を提供するためのものである。しかし、理解されるように、すべての種類のハンドヘルド型、ポータブル型等のコンピューティングデバイスおよびコンピューティングオブジェクトが、本発明との関連で使用するために、すなわち、コンピューティング環境においてウェブページ等の構造的に相互関係のある文書と接するいかなる場合にも、考えられる。以下では汎用コンピュータについて説明するが、これは単なる一例にすぎず、本発明は、ネットワーク/バス相互運用性および相互作用を有するシンクライアントを用いて実施してもよい。したがって、本発明は、わずかな、あるいは最小限のクライアントリソースしか関与しないネットワークホストサービスの環境において実施することができる。そのような環境は、例えば、家庭電化製品内にあるオブジェクトのように、クライアントデバイスが単にネットワーク/バスへのインタフェースとしてのみ働くようなネットワーク環境である。本質的に、データを記憶しておくことができる場所や、そこからデータを取り出すことができる場所、または別のコンピュータへデータを送信することができる場所はいずれも、本発明によるランク付け技法の動作にとって望ましい、あるいは好適な環境である。
必須要件ではないが、本発明は、デバイスまたはオブジェクトに対するサービスの開発者が使用するためにオペレーティングシステムを通じて実施されること、および/または本発明のランク付け技法との関連で動作するアプリケーションソフトウェア内に含まれることが可能である。ソフトウェアは、クライアントワークステーション、サーバ等のデバイスのような1つまたは複数のコンピュータによって実行されるプログラムモジュール等のコンピュータ実行可能命令との一般的関連で記述することができる。一般的に、プログラムモジュールは、特定のタスクを実行し、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。通常、プログラムモジュールの機能は、種々の実施形態において望み通りに組み合わせ、または分散させることができる。さらに、当業者には理解されるように、本発明は、他のコンピュータシステム構成およびプロトコルとともに実施してもよい。本発明とともに使用するのに好適であり得る他の周知のコンピューティングシステム、環境、および/または構成としては、以下のものに限定されないが、パーソナルコンピュータ(PC)、現金自動預け払い機(ATM)、サーバコンピュータ、ハンドヘルド型またはラップトップ型デバイス、マルチプロセッサシステム、マイクロプロセッサ方式のシステム、プログラム可能な家庭電化製品、ネットワークPC、電気器具、照明、環境制御要素、ミニコンピュータ、メインフレームコンピュータ(大型汎用コンピュータ)等がある。また、本発明は、通信ネットワーク/バス等のデータ伝送媒体を通じてリンクされたリモート処理デバイスによってタスクが実行されるような分散コンピューティング環境において実施してもよい。分散コンピューティング環境では、プログラムモジュールはメモリ記憶デバイスを含むローカルおよびリモートの両方のコンピュータ記憶媒体に配置されてもよく、その場合、クライアントノードはサーバノードとして動作してもよい。
このように、図2Bは、本発明を実施し得る好適なコンピューティングシステム環境100の一例を示しているが、上記で明らかなように、コンピューティングシステム環境100は好適なコンピューティング環境の単なる一例であり、本発明の使用および機能の範囲に関するいかなる限定を示唆することも意図していない。また、コンピューティング環境100は、例示的オペレーティング環境100に示されるいかなるコンポーネントまたはその組合せに関するいかなる従属性または要件を有するとも解釈されてはならない。
図2Bを参照すると、本発明を実施するための例示的システムは、コンピュータ110の形態の汎用コンピューティングデバイスを含む。コンピュータ110のコンポーネントとしては、処理ユニット120、システムメモリ130、およびシステムメモリを含む種々のシステムコンポーネントを処理ユニット120に接続するシステムバス121が挙げられるが、これらには限定されない。システムバス121は、さまざまなバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含む、いくつかのタイプのバス構造のいずれでもよい。例として、限定ではないが、このようなアーキテクチャとしては、Industry Standard Architecture(ISA)バス、Micro Channel Architecture(MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカルバス、および(Mezzanineバスとも呼ばれる)Peripheral Component Interconnect(PCI)バスがある。
コンピュータ110は通常、さまざまなコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110がアクセスすることができるいかなる利用可能な媒体であってもよく、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体の両方がある。例として、限定ではないが、コンピュータ可読媒体としては、コンピュータ記憶媒体および通信媒体が挙げられる。コンピュータ記憶媒体としては、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータのような情報の記憶のための任意の方法または技術で実現された揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体の両方がある。コンピュータ記憶媒体としては、以下のものに限定されないが、RAM、ROM、EEPROM、フラッシュメモリ等のメモリ技術、CDROM、ディジタル多用途ディスク(DVD)等の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置等の磁気記憶デバイス、または所望の情報を記憶するために使用可能でありコンピュータ110によりアクセス可能な任意の他の媒体がある。通信媒体は通常、キャリア波等の変調データ信号または他のトランスポートメカニズムでコンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを具現化し、いかなる情報配信媒体も含む。「変調データ信号」という用語は、信号中に情報を符号化するように1つまたは複数の信号の特性が設定または変更された信号を意味する。例として、限定ではないが、通信媒体としては、有線ネットワークまたは直接有線コネクションのような有線媒体、および音響、RF(無線周波数)、赤外線等の無線媒体のような無線媒体がある。上記のいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
システムメモリ130は、読み出し専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132のような揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動中等にコンピュータ110内の要素間で情報を転送するのに役立つ基本ルーチンを含む基本入出力システム133(BIOS)が通常ROM131に記憶されている。RAM132は通常、処理ユニット120から直ちにアクセス可能な、および/または処理ユニット120が現在作用しているデータおよび/またはプログラムモジュールを含む。例として、限定ではないが、図2Bは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示している。
また、コンピュータ110は、他のリムーバブル(取り外し可能)/非リムーバブル(取り外し不可能)、揮発性/不揮発性のコンピュータ記憶媒体を含んでもよい。単なる例として、図2Bは、非リムーバブル不揮発性磁気媒体の読み書きを行うハードディスクドライブ141、リムーバブル不揮発性磁気ディスク152の読み書きを行う磁気ディスクドライブ151、およびCD−ROM等の光媒体のようなリムーバブル不揮発性光ディスク156の読み書きを行う光ディスクドライブ155を示している。例示的オペレーティング環境で使用可能な他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体としては、以下のものに限定されないが、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、固体RAM、固体ROM等がある。ハードディスクドライブ141は通常、インタフェース140のような非リムーバブルメモリインタフェースを通じてシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は通常、インタフェース150のようなリムーバブルメモリインタフェースによりシステムバス121に接続される。
前述し図2Bに示したドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ110のためのコンピュータ可読命令、データ構造、プログラムモジュールおよび他のデータの記憶を行う。例えば図2Bにおいて、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146およびプログラムデータ147を記憶するように示されている。なお、これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136およびプログラムデータ137と同じでも異なってもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146およびプログラムデータ147は、少なくともそれらが別のコピーであることを示すためにここでは異なる番号が与えられている。ユーザは、キーボード162、およびマウス、トラックボールまたはタッチパッドと一般的に呼ばれるポインティングデバイス161のような入力デバイスを通じてコンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)としては、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等が挙げられる。これらおよび他の入力デバイスは、システムバス121に結合したユーザ入力インタフェース160を通じて処理ユニット120に接続されることが多いが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)等の他のインタフェースおよびバス構造により接続されてもよい。ノースブリッジ(Northbridge)等のグラフィクスインタフェース182もまたシステムバス121に接続されてもよい。ノースブリッジは、CPU、すなわちホスト処理ユニット120と通信するチップセットであり、アクセラレーテッドグラフィクスポート(AGP)通信を担当する。1つまたは複数のグラフィクス処理ユニット(GPU)184がグラフィクスインタフェース182と通信してもよい。この点で、GPU184は、一般的に、レジスタストレージ等のオンチップメモリストレージを含み、GPU184は、本発明のアプリケーション変数が影響を及ぼし得るビデオメモリ186と通信する。しかし、GPU184は、コプロセッサ(coprocessor)の単なる一例であり、さまざまなコプロセシングデバイスがコンピュータ110に含まれてもよく、また、ピクセルシェーダ(shader:陰影処理)や頂点シェーダ等のさまざまな手続き型シェーダを含んでもよい。モニタ191または他のタイプのディスプレイデバイスもまた、ビデオインタフェース190のようなインタフェースを通じてシステムバス121に接続され、このインタフェースがさらにビデオメモリ186と通信してもよい。モニタ191に加えて、コンピュータはスピーカ197やプリンタ196のような他の周辺出力デバイスを含んでもよく、これらは出力周辺インタフェース195を通じて接続され得る。
コンピュータ110は、リモートコンピュータ180のような1つまたは複数のリモートコンピュータへの論理結合を用いたネットワーク環境または分散環境で動作してもよい。リモートコンピュータ180は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイス(peer device)または他の普通のネットワークノードであってよく、通常、コンピュータ110に関して前述した要素の多くまたはすべてを含む。ただし、図2Bにはメモリ記憶デバイス181のみが示されている。図2Bに示す論理結合は、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、他のネットワーク/バスを含んでもよい。このようなネットワーキング環境は、家庭、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットで一般的である。
LANネットワーキング環境で使用される場合、コンピュータ110はネットワークインタフェースすなわちアダプタ170を通じてLAN171に接続される。WANネットワーキング環境で使用される場合、コンピュータ110は通常、インターネットのようなWAN173を通じて通信を確立するためのモデム172等の手段を含む。モデム172は、内蔵でも外付けでもよいが、ユーザ入力インタフェース160等の適当なメカニズムを通じてシステムバス121に接続され得る。ネットワーク環境では、コンピュータ110に関して図示したプログラムモジュールまたはその部分は、リモートメモリ記憶デバイスに記憶されてもよい。例として、限定ではないが、図2Bは、リモートアプリケーションプログラム185がメモリデバイス181上に存在するように示している。理解されるように、図示したネットワークコネクションは例示であり、コンピュータ間に通信リンクを確立する他の手段を使用してもよい。
[例示的分散コンピューティングフレームワークまたはアーキテクチャ]
パーソナルコンピューティングとインターネットの集中を考慮に入れて、種々の分散コンピューティングフレームワークがすでに開発され、現在も開発され続けている。個人ユーザにも企業ユーザにも区別なく、アプリケーションおよびコンピューティングデバイスのため、シームレスに相互運用可能な、ウェブ対応のインタフェースが提供されている。これにより、コンピューティング活動はますますウェブブラウザ指向あるいはネットワーク指向になっている。
例えば、MICROSOFT(登録商標)のマネージドコードプラットフォーム、すなわち、NETは、サーバと、ウェブベースのデータストレージやダウンロード可能なデバイスソフトウェアのようなビルディングブロックサービスを含む。一般的に言えば、.NETプラットフォームにより以下のことが実現される。(1)すべてのコンピューティングデバイスを協調動作させ、それらすべての上でユーザ情報を自動的に更新し同期させることができる。(2)HTMLではなくXMLのほうをより多く活用することによって、ウェブページのインタラクティブ(対話式)の能力を向上させる。(3)例えば電子メールのような種々のアプリケーションやOffice .NETのようなソフトウェアの管理のために、スターティングポイント(中央基点)からユーザへの製品およびサービスのカスタマイズされたアクセスおよび配布を特徴とするオンラインサービスを提供する。(4)集中化されたデータストレージにより、情報へのアクセスと、ユーザおよびデバイスの間の情報の同期を効率化し容易化する。(5)電子メール、ファックス、および電話のような種々の通信媒体を統合することができる。(6)開発者にとっては、再利用可能なモジュールを作成することができるため、生産性が向上しプログラミングエラーの数が減る。そして、(7)多くの他のクロスプラットフォーム機能および言語統合機能もある。
本明細書では、いくつかの例示的実施形態が、コンピューティングデバイス上に存在するソフトウェアとの関連で説明されるが、本発明の1つまたは複数の部分は、オペレーティングシステム、アプリケーションプログラミングインタフェース(API)または「仲介役(middle man)」オブジェクト、コントロールオブジェクト、ハードウェア、ファームウェア、中間言語命令またはオブジェクト等によって実施されてもよい。それによって、本方法は、.NETコードのようなマネージドコードにより可能となるすべての言語およびサービス、ならびに他の分散コンピューティングフレームワークに、含まれ、サポートされ、またはそれらによってアクセスされることが可能となる。
[ウェブページをランク付けするシステムおよび方法]
背景技術のところで既に述べたように、本発明は、ターゲットウェブページのスコアをつり上げるだけの目的で人為的に生成されるウェブページに対する、PageRank等の従来のランク付けアルゴリズムの脆弱性を解決する。本発明では、ウェブサーファが特定のサーバへランダムにジャンプしようとしていると仮定すると、少数のページを有するウェブサーバ上でサーファが特定のページに「着地」するよりも、多数のページを有するウェブサーバ上でサーファが特定のページに「着地」するほうが、可能性が低いであろう、と認識している。この原理を適用してランク付けアルゴリズムを適用すると、本発明は、複数の推奨が同一サーバから発している場合、それらの推奨の影響を低減する。この影響の低減を達成するために、種々の非限定的実施形態では、本発明は、各ウェブページではなく、各ウェブサーバに最低保証スコアを割り当てる。そして、そのウェブサーバに割り当てられるその最低スコアを、そのウェブサーバ上のすべてのページ間で分割することができる。従って、あるウェブサーバ上の複数のページにより任意多数個のネポティスティックリンクを作成しても、それにより達成される「推奨値」は、ウェブサーバ上の少数のページ上の比較的少数のネポティスティックリンクと同程度である。一般的に、任意多数個のネポティスティックリンクは、(A)同じシンボリックホスト名を有するか、(B)同じドメインに関連付けられるか、または(C)同じIPアドレスに関連付けられるかのいずれか1つまたは複数である。一実施形態では、本発明は、良質の問合せ結果をユーザに返すためにウェブ検索サービスにおいて実施される。
なお、何がウェブサーバを構成するかについて、いくつかの可能な定義が存在する。ウェブサーバは、シンボリックホスト名(例えば、www.google.com)によって定義されてもよく、共通ドメインによって定義されてもよく、あるいは、1つ(または複数)のIPアドレス(例えば、207.46.134.222)によって定義されてもよい。ウェブサーバのいずれの定義を利用する実施態様もリンクスパム(link spammers)問題を解決するが、本発明の目的上、後の2つの定義のほうが好適であり、リンクスパマに対して、より良い抑止力として働く。というのは、ほとんど無限個のホスト名を解決するようにDNS(ドメイン名システム)サーバを設定することが可能であって(RFC1035は、ホスト名の長さを高々255キャラクタに限定しており、各キャラクタは文字、数字、またはハイフンである。したがって、37255個の可能なホスト名が存在し、すべての実用上の目的にとっては「ほとんど無限」である)、無限個のウェブページをサービスするようにウェブサーバを設定することが可能であることとちょうど同じだからである。以下の説明では、2つの代替実施形態について順に各定義を使用する。
本発明によるランク付けメトリック(metric)の第1実施形態では、ウェブサーバはそのシンボリックホスト名によって定義される。h(u)でURL uのホスト名コンポーネントを表し、Hを全ホストの集合、すなわち
H={h(v):v∈V}
とする。V(h)を、ホストhによってサービスされるURLの集合、すなわち
(h)={v:v∈V∧h(v)=h}
とする。そして、これらの2つの定義を、本発明の第1実施形態による第1の新しいランク付けメトリックRの定義において用いる。これは次のように表される。
Figure 2005092881
本発明によるランク付けメトリックの第2実施形態では、ウェブサーバはそのドメイン名によって定義される。d(u)でURL uのドメイン名コンポーネントを表し、Dを全ドメインの集合、すなわち
D={d(v):v∈V}
とする。V(h)を、ドメインd内のウェブサーバによってサービスされるURLの集合、すなわち
(d)={v:v∈V∧d(v)=d}
とする。そして、これらの2つの定義を、本発明の第2実施形態による第2の新しいランク付けメトリックRの定義において用いる。これは次のように表される。
Figure 2005092881
本発明の第3実施形態では、ウェブサーバはそのIPアドレスの集合によって定義される。A(u)で、そこからURL uがサービスされ得るIPアドレスの集合(すなわち、h(u)が解決される先のIPアドレスの集合)を表す。Aを全IPアドレスの集合、すなわち、
Figure 2005092881
とする。V(a)をIPアドレスaによってサービスされるURLの集合、すなわち
(a)={v:v∈V∧a∈A(v)}
とする。そして、これらの2つの定義を、本発明の第3実施形態による第3の新しいランク付けメトリックRの定義において用いる。これは次のように表される。
Figure 2005092881
次に、本発明について、図3A〜図3Gを参照して説明する。図3Aは、第1ノードN1(例えば、文書またはウェブページ)を示しており、この第1ノードN1は第2ノードN2へのリンクを有する。PageRankの直観的概念は、N2のほうが、全く入リンク(incoming link)のないノードよりも優れているページであるということである。というのは、N1は、N2にリンクすることによって、N2を推奨している、すなわちN2の存在を「認証(validate)」しているからである。PageRankの直観的概念は、図3Bを図3Aと比較することによって、さらに説明することができる。図3AではN1はただ1つのノードN2にリンクしているのに対して、図3BではノードN1は9個のノードN2〜N10にリンクしているので、PageRankはN1の推奨の価値を低下させる。というのは、N1は、図3AのノードN1に比べて、他のウェブページを無差別に推奨しているように見えるからである。図3AのノードN1は他のノードをより選択的に推奨しているので、図3Aでは、対応するN2には、(すべての他のファクタは同一として)N2へのN1のリンクの結果として、より高いスコアが割り当てられる。PageRankの直観的概念は、図3Cを図3Aと対比することによって、さらに説明することができる。この対比では、図3Cの推奨側ノードN1に割り当てられるスコアは、図3Aの推奨側ノードN1に割り当てられるスコアの10倍である。したがって、推奨側ノードの品質(スコア)は図3Cのほうが高いため、図3AのノードN2に割り当てられるスコアに比べて、図3CのノードN2に割り当てられるスコアのほうが高い。これらの直観的概念を組み合わせることにより、PageRankアルゴリズムが得られる。
しかし、背景技術のところで注意したように、PageRankは図3Dに例示する状況に対して脆弱である。というのは、あらゆるノードは、それが他の何個のノードを推奨しているか、あるいは自分のPageRankスコアがどれほど小さいかにかかわらず、最低限のスコアを受けるからである。この最低スコアは小さいが、それが多数になると、小さいスコアが増倍されて相当の大きさになり得る。したがって、ノードN2のオーナは、多数の推奨側ページを手動または自動で作成し、例えば図3Dに示すような何らかの方法または構成で各推奨側ページがそれぞれノードN2および互いを推奨することによって、ノードN2のスコアを人為的につり上げることができる。一般的に言えば、費用対効果の高い方法でこれを行うために、リンクスパマは通常、リンクスパムノードLS1〜LS9等のそれぞれを同じホスト(例えば、www.foo.com)上に置く。というのは、同じホスト上に、www.foo.com/page1、www.foo.com/page2、www.foo.com/page3等の追加のウェブページを生成するのには、ほとんどまたは全くコストがかからないからである。したがって、利口なリンクスパマは、この技法によって、ウェブ上で、人気がないウェブページの露出を増大させることができる。ウェブサーバには無限個のページを動的に作成してサービスするものがあるので、ウェブページの数は無限である。明らかに、もう1つのウェブページを作成するための増分コストは低い。
これに応じて、本発明は、このようなリンクスパム技法の使用を不利にする。リンクスパムノードLS1〜LS9のそれぞれがすべて同じホストwww.foo.com上にある場合、LS1〜LS9のそれぞれに最低スコアを割り当てるのではなく、一実施形態では、本発明は、各ホストに最低スコアを割り当て、そのホスト上の各ノード間でその最低スコアを分配する。したがって、ホストwww.foo.com上に1000個のリンクスパムノードLS1〜LS1000が存在するか、それとも1個のリンクスパムノードLS1が存在するかにかかわらず、ノードN2に対する推奨への寄与は(他のすべてのファクタを同一と仮定すれば)同一である。こうして、図3Eに例示するように、本発明では、ホストwww.foo.comに最低スコアを割り当て、ページLS1〜LS9の間でその最低スコアを分割する。
しかし、確信的なリンクスパマは、本発明のこの改良型(variant)の裏をかくことができる。リンクスパマは、類似の品質スコアを有する他のウェブページよりも高いスコアを得るために、自分のウェブページに関連する品質スコアを比較的少量だけ増大させることに決めるかもしれない。例えば、ウェブページのランクが典型的な検索エンジン結果において上昇し、ランキングにおいて5番目にリストされていたのが最初にリストされるようになれば、比較的小さい品質スコアの変化でも、リンクスパマにとっては大きな利益となるであろう。現在の形態のインターネットドメインネーミングシステムでは、ユーザは各ドメイン名について年間利用料(約25ドル)を支払い、そのドメイン内に任意個数のシンボリックホスト名を作成することができる。したがって、リンクスパマは、少数のドメインを取得し、それらのドメイン内の任意の可能なホスト名を決定する(resolve)ようにDNSサーバを設定することができる。そして、スパマは、これらのドメイン内の多くの異なるホストから来ているように見えるリンクスパムページを設けることにより、非常に多数のページの最低スコアを累積することによって、ページを推奨する能力を取り戻すことができる。この状況を図3Fに示す。図3Fにおいて、複数のウェブページが確信的なリンクスパマによって生成されている。各ウェブページは、固有のシンボリックホスト名www1.foo.com、www2.foo.com、www3.foo.com等からもたらされる。しかし、各ウェブページは、共通ドメインfoo.comからももたらされる。したがって、本発明の第2実施形態では、最低スコアを、各ウェブページやそれぞれの異なるホスト名ではなく、それぞれの異なるドメイン名に割り当てる。
結局のところ、ドメイン名は金がかかるが、極端に高くつくわけではない。無限個のウェブページおよび潜在的に多数(37255)のドメイン名があるが、現実に存在するのは1500万個程度のドメイン名である。新しいホスト名を作成するのは、(ドメイン内の任意の可能なホスト名を決定する(resolve)ようにDNSサーバを設定することによって)、無料であるが、新しいドメイン名を作成するには25ドル程度かかる。したがって、約25ドルでドメイン名を取得することができるので、確信的リンクスパマにとっては、図3Gに例示するシステムを実装することは依然として実現可能である。図3Gにおいて、確信的リンクスパマはリンクスパムノードLS1〜LS9等を作成しているが、この場合、リンクスパマは、各ノードを、固有のシンボリックホスト名www.foo.com、www.goo.com、www.hoo.com等を有する固有のドメイン上に置いている。しかし、リンクスパマは、www.foo.com、www.goo.com、www.hoo.com等のそれぞれを同じIPアドレスに置いているであろう。IPアドレスには、約40億個の異なるIPアドレスがある。IPアドレスは比較的安価に取得できるが、リンクスパマはリンクスパムウェブページごとに異なるIPアドレスを割り当てるシステムを実装しないであろう。というのは、異なるIPアドレスを無限に供給することはできないからである。したがって、本発明の第3実施形態では、最低スコアを、各ウェブページ、各ホスト名、または各ドメインではなく、それぞれの異なるIPアドレスに割り当て、確信的リンクスパマから防護する。この理由は、リンクスパマがサーバ上にリンクスパムノードを有する100個の異なるドメインを置くか、リンクスパマがサーバ上に1個のリンクスパムノードを有する1個のドメインを置くかにかかわらず、ノードN2に対する推奨に関する効果は同一だからである(今度も、他のすべてのファクタは一定のままであるとする)。
本発明は、任意の構造的に相互関係のある文書をランク付けするために適用することができるが、図4A(システム図)、図4Bおよび図4C(流れ図)は、検索エンジンアプリケーションのためのウェブページのランク付けに対する本発明の例示的適用形態を示している。本発明のアルゴリズムは、問合せ非依存であるので、本発明による文書をランク付けするプロセスは、文書に割り当てられるスコアに基づいて、文書を要求する検索エンジン等のアプリケーションとは独立に行うことができる。例えば、図4Aに示すように、1つまたは複数のクローラ(crawler)410が、インターネット上のウェブページ等の構造的に相互関係のある文書のソース400をクロール(crawl:這い回って巡回)して、リポジトリ(repository:貯蔵所)420に格納するために文書または文書に関する関連情報を取り込むことができる。文書に関する関連情報は、他のソース415からもたらされることも可能である。
クローラとは、検索エンジンインデックスのエントリを作成するために、ウェブサイトを訪問してそれらのページその他の情報を読み出すプログラムである。クローラは、サーバからサーバへとハイパーテキストリンクをたどり、検索基準に基づいて情報をインデックス付けすることによって、新しい文書および新しいサイトを探索するために使用される。
ウェブ上の主要な検索エンジンはすべてこのようなプログラムを有し、それは「スパイダ(spider)」、「アント(ant)」、「ロボット(robot)」(「ボット(bot:検索ロボット)」)または「インテリジェントエージェント(intelligent agent)」とも呼ばれる。クローラは通常、サイトのオーナによって新規なサイトまたは更新されたサイトとして登録されたサイトを訪問するようにプログラムされる。サイト全体または特定のページを選択的に訪問しインデックス付けすることができる。クローラは、サイト内を一度に1ページずつ巡回(crawl)し、全ページを読み終えるまで、そのサイト上の他のページへのリンクをたどることから、その名前が付いたようである。通常、クローラは、同時に多くのウェブサイトをクロールする。一般的に、クローラは、Standard for Robot Exclusion(SRE)に規定されるウェブクローラの行儀作法(politeness)の規則に従う。
図4Bは、文書を収集するプロセスを流れ図により示している。450で、ウェブページを見つけ、ウェブページおよび/またはそのウェブページに関する情報をクローラにより収集する。これは、矢印で示されているように、反復的な、または進行中のプロセスとすることができる。460で、文書の集まりの構造が分かった任意の与えられた時点において、本発明を適用することにより、収集された各文書にスコアを割り当て、それにより、ウェブページ(またはそれへのリンク)のリポジトリがそれぞれ存在し、そのそれぞれがRメトリック、Rメトリック、またはRメトリックを用いて関連付けられた品質スコアを有するようにしている。オブジェクト430が、API432経由で、リポジトリ420内の各文書にスコアを割り当てるための計算を実行することができる。また、以下でさらに詳細に説明するが、理解されるように、R、R、および/またはRメトリックは、特定のアプリケーションまたはユーザに関して文書に割り当てられるスコアの品質を上げるために、他のメトリックと組み合わせることもできる。
文書およびスコアの初期リポジトリ420(これは、反復的に、連続的に、または定期的に更新することができる)が生成された後、検索エンジンの例示的アプリケーションを適用することができる。例えば、470で、検索エンジン(または他のアプリケーション)オブジェクト440は、ユーザから入力問合せを受け取ることができる。480で、その問合せに基づいて、問合せ基準に従って問合せ用語を含むウェブページを検索し、それらに関連するスコアに従ってランク付けすることができ、それにより、最も品質の高い文書を最初に、またはより目立つようにユーザに対して表示する。一例示的実施態様では、図4Aに示すように、問合せは検索エンジンサーバオブジェクト440から受け取られる。検索エンジンサーバオブジェクト440は、API434経由でオブジェクト430とインタフェースをとる。オブジェクト430は、問合せに基づいて、API432経由でリポジトリ420から関連するウェブページ(またはウェブページへのリンク)を検索して順序付ける。そして、オブジェクト430は、ユーザに対して表示するために、順序付けられた結果のリストをアプリケーションオブジェクト440に返す。別法として、オブジェクト440が、関連するスコアに基づいて結果の順序付けを実行することができる。
明らかなように、本発明のメトリックは、互いに組み合わせてもよく、全体的メトリックに対する他の改善と組み合わせてもよい。例えば、「信頼できる」文書の基本セットを用いて、任意のメトリックにより達成されるスコアの全体的品質を改善することができる。このような改善としては、ニールセン視聴率(Nielsen rating)を考慮に入れることがある。例えば、上位のニールセンウェブページは、他のスコアを評価するためのウェブページの信頼できる基礎として用いることができる。さらに、ニールセン視聴率は、重み付けされたスコアを割り当てるために、本発明のメトリックと組み合わせて用いることができる。あるいは、異常な結果を発見するために、本発明のメトリックの結果をニールセン視聴率と比較することができる。
基本的に、ウェブページ等の文書の信頼性に関する外部情報源は、本発明のメトリックの結果と組み合わせて、またはその結果を確認するために、用いることができる。他の例としては、ISPからのユーザ情報の集まりに基づく情報を用いるものがある。例えば、ISPは、ユーザがある特定のウェブページをどのくらいの頻度で訪問しているかに関して、ニールセン情報に類似の直接的情報を収集することができ、したがって、利用パターンに基づいて品質、人気、または信頼性のスコアを割り当てることができる。ISPプロキシログ(proxy logs)を、この目的のために調べることができる。もう1つの例は、検索エンジン上で人々を観察することを含む。ユーザがウェブページを選択する可能性が最も高い理由は、単にそのウェブページが最高スコアを取っていることだけではない。したがって、検索エンジン上でのユーザの挙動は、ウェブページの品質を検証するのに役立つ。また、例えば10,000件の優良なウェブページを認定する仕事を何人かの編集者に割り当てることもできる。職務の進行中に、それらのウェブページが信頼できるウェブページであるということが知られるため、これらの10,000件のスコアがつり上げられることにより、本発明のメトリックによるそれらの推奨能力がつり上げられる可能性がある。良質のウェブページに関するもう1つの情報源として、ユーザのブックマークのようなユーザの選好からもたらされるものがあり得る。要約すれば、本発明のメトリックは、最良のユーザ見聞が提供されることを保証するために、任意の他の既知の品質メトリックと組み合わせることができる。有利な点として、本発明のメトリックを含むいかなる組合せも、リンクスパマの努力を挫折させるであろう。
本発明を実施する方法としては、アプリケーションおよびサービスが本発明のランク付けのシステムおよび方法を使用することを可能にする適当なAPI、ツールキット、ドライバコード、オペレーティングシステム、コントロール、独立型の、あるいはダウンロード可能なソフトウェアオブジェクト等の多くの方法がある。本発明は、API(または他のソフトウェアオブジェクト)の観点からとともに、本発明によるランク付け技法の適用のためにウェブページまたはウェブページに関連する構造的情報を受け取るソフトウェアまたはハードウェアオブジェクトの観点からの本発明の使用を考慮している。したがって、本明細書に記載されている本発明の種々の実施態様は、完全にハードウェアによる態様、部分的にハードウェアで部分的にソフトウェアによる態様、およびソフトウェアによる態様を有し得る。
上記のように、本発明の例示的実施形態は種々のコンピューティングデバイスおよびネットワークアーキテクチャとの関連で説明されているが、基礎となる概念は、構造的に相互関係のある文書をランク付けすることが望ましいいかなるコンピューティングデバイスまたはシステムにも適用することができる。例えば、本発明のアルゴリズムおよびハードウェア実施態様は、コンピューティングデバイスのオペレーティングシステムに適用され、デバイス上の別個のオブジェクトとして、別のオブジェクトの一部として、再利用可能コントロールとして、サーバからダウンロード可能なオブジェクトとして、デバイスまたはオブジェクトとネットワークとの間の「仲介役」として、分散オブジェクトとして、ハードウェアとして、メモリ内に、あるいは以上のいずれかの組合せとして提供されてもよい。例示的なプログラミング言語、名前および例は、本明細書では、種々の選択肢を代表するものとして選択されているが、これらの言語、名前および例は限定的であることを意図していない。当業者には理解されるように、本発明の種々の実施形態によって達成されるのと同一、類似または等価な機能を達成するオブジェクトコードおよび命名法を提供する数多くの方法がある。
上記のように、本明細書に記載されている種々の技法は、ハードウェアもしくはソフトウェア、または適宜その両方の組合せとの関連で実施することができる。したがって、本発明の方法および装置、またはそのある特定の態様または部分は、フロッピー(登録商標)ディスケット、CD−ROM、ハードドライブ等のマシン可読記憶媒体のような有形媒体に具現化されたプログラムコード(すなわち命令)の形態をとってもよい。ここで、プログラムコードがコンピュータ等のマシンにロードされて実行される場合、そのマシンが本発明を実施する装置となる。プログラム可能なコンピュータ上でプログラムコードを実行する場合、コンピューティングデバイスは一般的に、プロセッサ、そのプロセッサが読むことができる記憶媒体(揮発性および不揮発性メモリおよび/または記憶要素を含む)、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスを含む。例えばデータ処理API、再利用可能コントロール等の使用を通じて本発明のランク付け技法を実施または利用することができる1つまたは複数のプログラムは、好ましくは、コンピュータシステムと通信する高レベルの手続き型またはオブジェクト指向プログラミング言語として実装される。しかし、プログラムは、必要であれば、アセンブリ言語またはマシン語で実装することができる。いずれの場合でも、言語は、コンパイルされた言語または解釈された言語であってもよく、ハードウェア実施態様と組み合わされてもよい。
本発明の方法および装置は、電気配線またはケーブル、光ファイバ、または任意の他の形態の伝送等の何らかの伝送媒体を通じて伝送されるプログラムコードの形態で具現化される通信により実施されてもよい。ここで、プログラムコードがEPROM、ゲートアレイ、プログラマブルロジックデバイス(PLD)、クライアントコンピュータ等のマシンに受信され、ロードされて実行される場合、そのマシンが本発明を実施する装置となる。汎用プロセッサ上で実施される場合、プログラムコードがプロセッサと組み合わされて、本発明の機能を呼び出すように動作する固有の装置を提供する。また、本発明との関連で使用される任意の記憶技法は必然的にハードウェアとソフトウェアの組合せとなるであろう。
本発明は、種々の図の好ましい実施形態との関連で説明されているが、理解されるように、本発明から逸脱することなく、本発明と同じ機能を実行するために、他の類似の実施形態を用いてもよく、記載されている実施形態に変更または追加をしてもよい。例えば、本発明の例示的ネットワーク環境は、ピアツーピアネットワーク環境等のネットワーク環境との関連で説明されているが、当業者には認識されるように、本発明はこれに限定されない。本明細書に記載の方法は、有線か無線かを問わず、ゲーム用コンソール、ハンドヘルドコンピュータ、ポータブルコンピュータ等のいかなるコンピューティングデバイスまたは環境に適用することもできるし、また、通信ネットワーク経由で接続され、ネットワーク越しにやりとりをする任意個数のこのようなコンピューティングデバイスに適用することもできる。さらに、強調しておかなければならないが、特に無線ネットワークデバイスの数が増大し続けるとともに、ハンドヘルドデバイス用オペレーティングシステム等のアプリケーション固有のオペレーティングシステムを含むさまざまなコンピュータプラットフォームが考えられる。
例示的実施形態は、ウェブ検索サービスの関連で本発明を利用することに関するものであるが、本発明は、ウェブ検索サービスの場合に限定されず、何らかの形で互いを参照する文書またはコンテンツの任意の集合にある種の品質メトリックを提供するために実施することができる。例えば、ユーザのコンピュータに(または複数のコンピューティングデバイスにわたって)、何らかの形で(人、場所、時、イベント、アーティスト、アルバム、タイトル、俳優等によって)構造的に相互関係のある画像、映画、歌等の集合が記憶されている場合、本発明のスコアリングを、コンテンツの構造的相互関係に基づいて画像に適用することができる。例えば、第1のコンテンツと第2のコンテンツの間の類似性等の関係を、第1のコンテンツから第2のコンテンツへのリンクとみなしてもよい。また、API432は上記ではスコアリングプロセスとの関連で説明されているが、その目的のために別個のAPIを実装してもよいことが注意される。すなわち、問合せに基づいて検索および順序付けを行うためのAPI432の使用は、必ずしもスコアリングプロセスに関連するものである必要はない。さらに、本明細書で用いられる場合の「〜に比例する(して)」という用語は、一方のエンティティが増大すると、すべての既知の数学的関係に従って他方が増大するような2つのエンティティ間の任意の数学的関係を指す。そのような数学的関係としては、以下のものに限定されないが、幾何、線形、指数、対数等の関係がある。同じことは「反比例する」または「〜に反比例する(して)」という用語、すなわち、一方のエンティティが増大すると他方が減少する場合にも当てはまる。また、サーバという用語はさまざまな文脈でさまざまなものを意味し得るが、本明細書で種々に用いられる場合の「ウェブサーバ」という用語は、(A)同じシンボリックホスト名を有する複数のウェブページ、(B)同じドメインに関連する複数のウェブページ、および(C)同じIPアドレスに関連する複数のウェブページ、のいずれか1つまたは複数を含むサーバコンピュータおよび/またはサーバオブジェクトを少なくとも指すことを意図している。さらに、本発明は、複数の処理チップまたはデバイスにおいて、またはそれら全体にわたって実施することができ、記憶(格納)も同様に複数のデバイスにわたって実行することができる。したがって、本発明は、いかなる単一の実施形態にも限定されてはならず、特許請求の範囲に基づく広さおよび範囲において解釈されなければならない。
静的リンクベースアルゴリズムによりウェブページをランク付けする従来技術の技法を示す概念図である。 PageRankアルゴリズムによりウェブページをランク付けする従来技術の技法を示す概念図である。 本発明を実装し得るさまざまなコンピューティングデバイスを有する例示的ネットワーク環境を表すブロック図である。 本発明を実装し得る例示的な非限定的コンピューティングデバイスを表すブロック図である。 本発明によるリンクスパムの防止の背後にある直観的概念を示す模式図である。 本発明によるリンクスパムの防止の背後にある直観的概念を示す模式図である。 本発明によるリンクスパムの防止の背後にある直観的概念を示す模式図である。 本発明によるリンクスパムの防止の背後にある直観的概念を示す模式図である。 本発明によるリンクスパムの防止の背後にある直観的概念を示す模式図である。 本発明によるリンクスパムの防止の背後にある直観的概念を示す模式図である。 本発明によるリンクスパムの防止の背後にある直観的概念を示す模式図である。 検索エンジンアプリケーションにおける本発明の種々の実施形態の例示的実施態様を示すシステム図である。 検索エンジンアプリケーションにおける本発明の種々の実施形態の例示的実施態様を示す流れ図である。 検索エンジンアプリケーションにおける本発明の種々の実施形態の例示的実施態様を示す流れ図である。
符号の説明
10a,10b コンピューティングオブジェクト(サーバ)
14 通信ネットワーク
20 データベース
100 コンピューティングシステム環境
110 コンピュータ
110a,110b,110c コンピューティングオブジェクト(クライアント)
110d,110e コンピューティングオブジェクト(クライアント)
120 処理ユニット
121 システムバス
130 システムメモリ
131 読み出し専用メモリ(ROM)
132 ランダムアクセスメモリ(RAM)
133 基本入出力システム(BIOS)
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140 非リムーバブルメモリインタフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
150 リムーバブルメモリインタフェース
151 磁気ディスクドライブ
152 磁気ディスク
155 光ディスクドライブ
156 光ディスク
160 ユーザ入力インタフェース
161 ポインティングデバイス
162 キーボード
170 ネットワークインタフェース
171 ローカルエリアネットワーク(LAN)
172 モデム
173 広域ネットワーク(WAN)
180 リモートコンピュータ
181 メモリ記憶デバイス
182 グラフィクスインタフェース
184 グラフィクス処理ユニット(GPU)
185 リモートアプリケーションプログラム
186 ビデオメモリ
190 ビデオインタフェース
191 モニタ
195 出力周辺インタフェース
196 プリンタ
197 スピーカ
400 構造的に相互関係のある文書のソース
410 クローラ
420 リポジトリ
430 オブジェクト
432,434 API
440 アプリケーションオブジェクト

Claims (40)

  1. 複数の構造的にリンクされた文書のうちの1つの文書にスコアを割り当てる方法において、該文書は、(A)同じシンボリックホスト名を有する複数のウェブページを含むサーバ、(B)同じドメインに関連する複数のウェブページを含むサーバ、および(C)同じIPアドレスに関連する複数のウェブページを有するサーバ、のうちの少なくとも1つによって定義されるウェブサーバ上に位置し、該文書は、いずれに位置する場合であれ、前記複数の構造的にリンクされた文書のうちの少なくとも1つの他の文書からの少なくとも1つのバックリンクを有し、
    前記ウェブサーバ上に位置する文書の数に反比例するスコアを前記文書に割り当てる
    ことを特徴とする文書にスコアを割り当てる方法。
  2. 前記少なくとも1つの他の文書の数に比例するスコアを前記文書に割り当てる
    ことをさらに含むことを特徴とする請求項1に記載の方法。
  3. 前記少なくとも1つの他の文書のうちの少なくとも1つに割り当てられた少なくとも1つのスコアに比例するスコアを割り当てる
    ことをさらに含むことを特徴とする請求項1に記載の方法。
  4. (A)前記少なくとも1つの他の文書の数、および(B)前記少なくとも1つの他の文書のうちの少なくとも1つに割り当てられた少なくとも1つのスコア、に比例するスコアを割り当てる
    ことをさらに含むことを特徴とする請求項1に記載の方法。
  5. 前記少なくとも1つの他の文書のうちの少なくとも1つの文書のアウトリンク(outlinks)の数に反比例するスコアを前記文書に割り当てる
    ことをさらに含むことを特徴とする請求項2に記載の方法。
  6. 前記割り当てることが、前記文書と同じドメインに位置する文書の数に反比例するスコアを前記文書に割り当てることを含むことを特徴とする請求項1に記載の方法。
  7. 前記割り当てることが、前記文書と同じシンボリックホスト名を有する文書の数に反比例するスコアを前記文書に割り当てることを含むことを特徴とする請求項1に記載の方法。
  8. 前記割り当てることが、前記文書と同じインターネットプロトコル(IP)アドレスに関連する文書の数に反比例するスコアを前記文書に割り当てることを含むことを特徴とする請求項1に記載の方法。
  9. 前記第1の文書にリンクしている前記少なくとも1つの他の文書のスコアの合計を取ることに基づくスコアを前記文書に割り当てる
    ことをさらに含むことを特徴とする請求項1に記載の方法。
  10. 前記複数の構造的にリンクされた文書が、ハイパーリンクを有するウェブページであり、前記文書がウェブページであることを特徴とする請求項1に記載の方法。
  11. ウェブ検索サービスのコンポーネントに前記文書のスコアを出力することをさらに含むことを特徴とする請求項1に記載の方法。
  12. 好ましい文書の集合に、平均最低スコアよりも高いスコアを割り当てることをさらに含むことを特徴とする請求項1に記載の方法。
  13. 前記好ましい文書の集合が、ニールセン視聴率、人間により割り当てられた格付け、ISPプロキシログから抽出されたウェブページ利用パターン、検索エンジンから抽出されたウェブページ利用パターン、およびユーザ選好に従って指定された文書の少なくとも1つに基づくことを特徴とする請求項12に記載の方法。
  14. 第2のスコアリング技法に基づいて前記文書のスコアを変更することをさらに含むことを特徴とする請求項1に記載の方法。
  15. 異常な結果を発見するために前記スコアを第2のスコアリング技法と比較することをさらに含むことを特徴とする請求項1に記載の方法。
  16. 請求項1に記載の方法を実施するためのコンピュータ実行可能命令を有するコンピュータ実行可能モジュールを備えたことを特徴とするアプリケーションプログラミングインタフェース。
  17. 請求項1に記載の方法を実施する手段を備えたことを特徴とするコンピューティングデバイス。
  18. 請求項1に記載の方法を実行するためのコンピュータ実行可能命令を伝えることを特徴とする変調データ信号。
  19. 複数の構造的にリンクされた文書のうちの1つの文書にスコアを割り当てる方法において、該文書は、(A)同じシンボリックホスト名を有する複数のウェブページを含むサーバ、(B)同じドメインに関連する複数のウェブページを含むサーバ、および(C)同じIPアドレスに関連する複数のウェブページを有するサーバ、のうちの少なくとも1つによって定義されるウェブサーバ上に位置し、該文書は、前記複数の構造的にリンクされた文書のうちの少なくとも1つのソース文書からの少なくとも1つのバックリンクを有し、前記文書のスコアが、前記少なくとも1つのソース文書のうちの少なくとも1つに関連する少なくとも1つのスコアに比例して計算され、前記スコアが、前記ウェブサーバ上に位置する前記少なくとも1つのソース文書の数に反比例して計算される
    ことを特徴とする文書にスコアを割り当てる方法。
  20. 前記スコアが、同じウェブサーバ上に位置する前記少なくとも1つのソース文書の数に反比例して計算されることを特徴とする請求項19に記載の方法。
  21. 前記スコアが、同じシンボリックホスト名を有する前記少なくとも1つのソース文書の数に反比例して計算されることを特徴とする請求項20に記載の方法。
  22. 前記スコアが、同じドメインに関連する前記少なくとも1つのソース文書の数に反比例して計算されることを特徴とする請求項20に記載の方法。
  23. 前記スコアが、同じインターネットプロトコル(IP)アドレスに関連する前記少なくとも1つのソース文書の数に反比例して計算されることを特徴とする請求項20に記載の方法。
  24. 前記複数の構造的にリンクされた文書が、ハイパーリンクを有するウェブページであり、前記文書がウェブページであることを特徴とする請求項19に記載の方法。
  25. 請求項19に記載の方法を実施するためのコンピュータ実行可能命令を有するコンピュータ実行可能モジュールを備えたことを特徴とするアプリケーションプログラミングインタフェース。
  26. 請求項19に記載の方法を実施する手段を備えたことを特徴とするコンピューティングデバイス。
  27. 請求項19に記載の方法を実行するためのコンピュータ実行可能命令を伝えることを特徴とする変調データ信号。
  28. 問合せ要求に基づいてウェブページ情報および関連するスコアのデータベースに問い合わせる問合せメカニズムを備えた検索エンジンとともに使用するためのアプリケーションプログラミングインタフェースであって、それによって、該データベースから取得された結果が各結果に関連するスコアによって順序付けられ、該スコアが前記問合せを満たすウェブページの品質を反映する、アプリケーションプログラミングインタフェースと、
    前記ウェブページ情報に関連するスコアを生成するスコアリングオブジェクトであって、少なくとも1つの対応するソースウェブページへの少なくとも1つのバックリンクを有するウェブページに対して、該スコアリングオブジェクトが、該少なくとも1つの対応するソースウェブページのうちの少なくとも1つに関連する少なくとも1つのスコアに比例するスコアを該ウェブページに割り当て、該スコアが、同じウェブサーバ上に位置する前記少なくとも1つの対応するソースウェブページの数に反比例して計算される、スコアリングオブジェクトと
    を備えたことを特徴とするサーバオブジェクト。
  29. 前記スコアリングオブジェクトが、前記問合せメカニズムとは独立に動作することを特徴とする請求項28に記載のサーバオブジェクト。
  30. ウェブサーバが、共通のシンボリックホスト名に基づいて定義されることを特徴とする請求項28に記載のサーバオブジェクト。
  31. ウェブサーバが、共通ドメインに基づいて定義されることを特徴とする請求項28に記載のサーバオブジェクト。
  32. ウェブサーバが、共通のインターネットプロトコル(IP)アドレスに基づいて定義されることを特徴とする請求項28に記載のサーバオブジェクト。
  33. 複数の構造的にリンクされた文書のうちの1つの文書にスコアを割り当てるためのコンピュータ実行可能命令を含むコンピュータ実行可能モジュールを備えたコンピュータ可読媒体において、該文書は、ウェブサーバ上に位置し、前記複数の構造的にリンクされた文書のうちの少なくとも1つの他の文書からの少なくとも1つのバックリンクを有し、該モジュールが、
    前記ウェブサーバ上に位置する文書の数に反比例するスコアを前記文書に割り当てる手段
    を備えたことを特徴とするコンピュータ可読媒体。
  34. 前記少なくとも1つの他の文書の数に比例するスコアを前記文書に割り当てる手段
    をさらに含むことを特徴とする請求項33に記載のコンピュータ可読媒体。
  35. 前記少なくとも1つの他の文書のうちの少なくとも1つに割り当てられた少なくとも1つのスコアに比例するスコアを割り当てる手段
    をさらに含むことを特徴とする請求項33に記載のコンピュータ可読媒体。
  36. (A)前記少なくとも1つの他の文書の数、および(B)前記少なくとも1つの他の文書のうちの少なくとも1つに割り当てられた少なくとも1つのスコア、に比例するスコアを割り当てる手段
    をさらに含むことを特徴とする請求項33に記載のコンピュータ可読媒体。
  37. 前記少なくとも1つの他の文書のうちの少なくとも1つの文書のアウトリンクの数に反比例するスコアを前記文書に割り当てる手段
    をさらに含むことを特徴とする請求項34に記載のコンピュータ可読媒体。
  38. 前記割り当てる手段が、前記文書と同じシンボリックホスト名を有するウェブサーバ上に位置する文書の数に反比例するスコアを前記文書に割り当てる手段を含むことを特徴とする請求項33に記載のコンピュータ可読媒体。
  39. 前記割り当てる手段が、前記文書と同じドメインに位置する文書の数に反比例するスコアを前記文書に割り当てる手段を含むことを特徴とする請求項33に記載のコンピュータ可読媒体。
  40. 前記割り当てる手段が、前記文書と同じインターネットプロトコル(IP)アドレスに関連する文書の数に反比例するスコアを前記文書に割り当てる手段を含むことを特徴とする請求項33に記載のコンピュータ可読媒体。
JP2004265877A 2003-09-16 2004-09-13 構造的に相互関係のある情報に基づいて文書をランク付けするための改善されたシステムおよび方法 Pending JP2005092881A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/663,933 US7739281B2 (en) 2003-09-16 2003-09-16 Systems and methods for ranking documents based upon structurally interrelated information

Publications (2)

Publication Number Publication Date
JP2005092881A true JP2005092881A (ja) 2005-04-07
JP2005092881A5 JP2005092881A5 (ja) 2007-11-01

Family

ID=34194737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004265877A Pending JP2005092881A (ja) 2003-09-16 2004-09-13 構造的に相互関係のある情報に基づいて文書をランク付けするための改善されたシステムおよび方法

Country Status (10)

Country Link
US (1) US7739281B2 (ja)
EP (1) EP1517250A1 (ja)
JP (1) JP2005092881A (ja)
KR (1) KR20050027944A (ja)
CN (1) CN1601532A (ja)
AU (1) AU2004205331A1 (ja)
BR (1) BRPI0403304A (ja)
CA (1) CA2475328A1 (ja)
MX (1) MXPA04008383A (ja)
RU (1) RU2367997C2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005135071A (ja) * 2003-10-29 2005-05-26 Hewlett-Packard Development Co Lp 商品購入における信頼値の算出方法及び装置
JP2010117893A (ja) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム
KR101119691B1 (ko) 2008-02-26 2012-06-12 주식회사 지식과지혜 개미군락시스템을 이용한 문서 스코어링 시스템 및 방법

Families Citing this family (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US8255514B2 (en) 2003-11-04 2012-08-28 Covenant Eyes, Inc. Internet use monitoring system and method
US20060294124A1 (en) * 2004-01-12 2006-12-28 Junghoo Cho Unbiased page ranking
US7761569B2 (en) * 2004-01-23 2010-07-20 Tiversa, Inc. Method for monitoring and providing information over a peer to peer network
US8156175B2 (en) * 2004-01-23 2012-04-10 Tiversa Inc. System and method for searching for specific types of people or information on a peer-to-peer network
US7539674B2 (en) * 2004-04-08 2009-05-26 Yahoo! Inc. Systems and methods for adaptive scheduling of references to documents
US20060010029A1 (en) * 2004-04-29 2006-01-12 Gross John N System & method for online advertising
US20050246358A1 (en) * 2004-04-29 2005-11-03 Gross John N System & method of identifying and predicting innovation dissemination
US20050246391A1 (en) * 2004-04-29 2005-11-03 Gross John N System & method for monitoring web pages
US7827176B2 (en) * 2004-06-30 2010-11-02 Google Inc. Methods and systems for endorsing local search results
US7774340B2 (en) * 2004-06-30 2010-08-10 Microsoft Corporation Method and system for calculating document importance using document classifications
US7475067B2 (en) 2004-07-09 2009-01-06 Aol Llc Web page performance scoring
US7493320B2 (en) * 2004-08-16 2009-02-17 Telenor Asa Method, system, and computer program product for ranking of documents using link analysis, with remedies for sinks
US20060074905A1 (en) * 2004-09-17 2006-04-06 Become, Inc. Systems and methods of retrieving topic specific information
US7779001B2 (en) * 2004-10-29 2010-08-17 Microsoft Corporation Web page ranking with hierarchical considerations
US8291065B2 (en) * 2004-12-02 2012-10-16 Microsoft Corporation Phishing detection, prevention, and notification
US20060123478A1 (en) * 2004-12-02 2006-06-08 Microsoft Corporation Phishing detection, prevention, and notification
US7634810B2 (en) * 2004-12-02 2009-12-15 Microsoft Corporation Phishing detection, prevention, and notification
JP2008525896A (ja) * 2004-12-23 2008-07-17 ビカム, インコーポレイテッド リンクされた文書の集合に相対的品質スコアを割り当てるための方法
US7668822B2 (en) * 2004-12-23 2010-02-23 Become, Inc. Method for assigning quality scores to documents in a linked database
US10402457B1 (en) 2004-12-31 2019-09-03 Google Llc Methods and systems for correlating connections between users and links between articles
US20060200461A1 (en) * 2005-03-01 2006-09-07 Lucas Marshall D Process for identifying weighted contextural relationships between unrelated documents
US7849090B2 (en) 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US20060224593A1 (en) * 2005-04-01 2006-10-05 Submitnet, Inc. Search engine desktop application tool
KR100952391B1 (ko) * 2005-04-14 2010-04-14 에스케이커뮤니케이션즈 주식회사 인터넷 네트워크에서 콘텐츠의 평가에 따른 가치 분석시스템, 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수있는 기록 매체
US7403767B2 (en) * 2005-04-29 2008-07-22 Siemens Aktiengesellschaft Cellular telephone network with record keeping for missed calls
US7962462B1 (en) 2005-05-31 2011-06-14 Google Inc. Deriving and using document and site quality signals from search query streams
US7627564B2 (en) * 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
US8244722B1 (en) 2005-06-30 2012-08-14 Google Inc. Ranking documents
US20070198486A1 (en) * 2005-08-29 2007-08-23 Daniel Abrams Internet search engine with browser tools
US8244720B2 (en) * 2005-09-13 2012-08-14 Google Inc. Ranking blog documents
US20070067282A1 (en) * 2005-09-20 2007-03-22 Microsoft Corporation Domain-based spam-resistant ranking
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
US7831685B2 (en) 2005-12-14 2010-11-09 Microsoft Corporation Automatic detection of online commercial intention
EP1920366A1 (en) * 2006-01-20 2008-05-14 Glenbrook Associates, Inc. System and method for context-rich database optimized for processing of concepts
IL174107A0 (en) * 2006-02-01 2006-08-01 Grois Dan Method and system for advertising by means of a search engine over a data network
US8429177B2 (en) * 2006-02-08 2013-04-23 Yahoo! Inc. Using exceptional changes in webgraph snapshots over time for internet entity marking
US20070203891A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Providing and using search index enabling searching based on a targeted content of documents
US8433712B2 (en) * 2006-03-01 2013-04-30 Oracle International Corporation Link analysis for enterprise environment
US8214394B2 (en) * 2006-03-01 2012-07-03 Oracle International Corporation Propagating user identities in a secure federated search system
US8332430B2 (en) * 2006-03-01 2012-12-11 Oracle International Corporation Secure search performance improvement
US8875249B2 (en) 2006-03-01 2014-10-28 Oracle International Corporation Minimum lifespan credentials for crawling data repositories
US8707451B2 (en) * 2006-03-01 2014-04-22 Oracle International Corporation Search hit URL modification for secure application integration
US8868540B2 (en) * 2006-03-01 2014-10-21 Oracle International Corporation Method for suggesting web links and alternate terms for matching search queries
US7941419B2 (en) 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
US9177124B2 (en) 2006-03-01 2015-11-03 Oracle International Corporation Flexible authentication framework
US20070214129A1 (en) * 2006-03-01 2007-09-13 Oracle International Corporation Flexible Authorization Model for Secure Search
US7580931B2 (en) * 2006-03-13 2009-08-25 Microsoft Corporation Topic distillation via subsite retrieval
US8117195B1 (en) 2006-03-22 2012-02-14 Google Inc. Providing blog posts relevant to search results
US8135662B2 (en) * 2006-05-09 2012-03-13 Los Alamos National Security, Llc Usage based indicators to assess the impact of scholarly works: architecture and method
US20070266025A1 (en) * 2006-05-12 2007-11-15 Microsoft Corporation Implicit tokenized result ranking
US20080033932A1 (en) * 2006-06-27 2008-02-07 Regents Of The University Of Minnesota Concept-aware ranking of electronic documents within a computer network
US7634476B2 (en) * 2006-07-25 2009-12-15 Microsoft Corporation Ranking of web sites by aggregating web page ranks
US9646089B2 (en) 2006-09-18 2017-05-09 John Nicholas and Kristin Gross Trust System and method of modifying ranking for internet accessible documents
WO2008057509A2 (en) * 2006-11-07 2008-05-15 Tiversa, Inc. System and method for enhanced experience with a peer to peer network
EP2126741A1 (en) * 2007-01-24 2009-12-02 Google Inc. Blending mobile search results
ITBG20070012A1 (it) * 2007-02-13 2008-08-14 Web Lion Sas Metodo di ricerca e selezione di siti web
US20080222725A1 (en) * 2007-03-05 2008-09-11 Microsoft Corporation Graph structures and web spam detection
US7886043B1 (en) * 2007-03-29 2011-02-08 Trend Micro Inc Hybrid method and apparatus for URL filtering
US8346763B2 (en) * 2007-03-30 2013-01-01 Microsoft Corporation Ranking method using hyperlinks in blogs
US7580945B2 (en) * 2007-03-30 2009-08-25 Microsoft Corporation Look-ahead document ranking system
US9922330B2 (en) * 2007-04-12 2018-03-20 Kroll Information Assurance, Llc System and method for advertising on a peer-to-peer network
IL182518A0 (en) * 2007-04-12 2007-09-20 Grois Dan Pay per relevance (ppr) advertising method and system
AU2008239682B2 (en) * 2007-04-12 2012-01-19 Kroll Information Assurance, Llc A system and method for creating a list of shared information on a peer-to-peer network
US8332209B2 (en) * 2007-04-24 2012-12-11 Zinovy D. Grinblat Method and system for text compression and decompression
US20080270549A1 (en) * 2007-04-26 2008-10-30 Microsoft Corporation Extracting link spam using random walks and spam seeds
US7930303B2 (en) * 2007-04-30 2011-04-19 Microsoft Corporation Calculating global importance of documents based on global hitting times
US7941391B2 (en) * 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
US7996392B2 (en) 2007-06-27 2011-08-09 Oracle International Corporation Changing ranking algorithms based on customer settings
US8316007B2 (en) * 2007-06-28 2012-11-20 Oracle International Corporation Automatically finding acronyms and synonyms in a corpus
JP5200699B2 (ja) * 2007-07-12 2013-06-05 株式会社リコー 情報処理装置、情報処理方法およびプログラム
US8438189B2 (en) * 2007-07-23 2013-05-07 Microsoft Corporation Local computation of rank contributions
US8041338B2 (en) * 2007-09-10 2011-10-18 Microsoft Corporation Mobile wallet and digital payment
US7899807B2 (en) * 2007-12-20 2011-03-01 Yahoo! Inc. System and method for crawl ordering by search impact
US11048765B1 (en) 2008-06-25 2021-06-29 Richard Paiz Search engine optimizer
US8538943B1 (en) 2008-07-24 2013-09-17 Google Inc. Providing images of named resources in response to a search query
US8368698B2 (en) * 2008-09-24 2013-02-05 Microsoft Corporation Calculating a webpage importance from a web browsing graph
US8301690B2 (en) * 2009-02-06 2012-10-30 International Business Machines Corporation Correlator system for web services
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
US20110029516A1 (en) * 2009-07-30 2011-02-03 Microsoft Corporation Web-Used Pattern Insight Platform
US9292855B2 (en) 2009-09-08 2016-03-22 Primal Fusion Inc. Synthesizing messaging using context provided by consumers
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
KR20110036463A (ko) * 2009-10-01 2011-04-07 엘지전자 주식회사 이동단말기 및 그의 브라우징 방법
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
US20110119250A1 (en) * 2009-11-16 2011-05-19 Cpa Global Patent Research Limited Forward Progress Search Platform
US10936687B1 (en) 2010-04-21 2021-03-02 Richard Paiz Codex search patterns virtual maestro
US11423018B1 (en) 2010-04-21 2022-08-23 Richard Paiz Multivariate analysis replica intelligent ambience evolving system
US11379473B1 (en) 2010-04-21 2022-07-05 Richard Paiz Site rank codex search patterns
US8706721B1 (en) * 2010-04-29 2014-04-22 Donald S. Eaves Method to optimally link information and humans using human referral signals
US20110270828A1 (en) * 2010-04-29 2011-11-03 Microsoft Corporation Providing search results in response to a search query
US8849807B2 (en) 2010-05-25 2014-09-30 Mark F. McLellan Active search results page ranking technology
US10713312B2 (en) 2010-06-11 2020-07-14 Doat Media Ltd. System and method for context-launching of applications
US9069443B2 (en) 2010-06-11 2015-06-30 Doat Media Ltd. Method for dynamically displaying a personalized home screen on a user device
US9323844B2 (en) 2010-06-11 2016-04-26 Doat Media Ltd. System and methods thereof for enhancing a user's search experience
US11294977B2 (en) 2011-06-20 2022-04-05 Primal Fusion Inc. Techniques for presenting content to a user based on the user's preferences
US20120226750A1 (en) * 2011-03-01 2012-09-06 Rex Gibson Online peer review of internet data
US9858342B2 (en) 2011-03-28 2018-01-02 Doat Media Ltd. Method and system for searching for applications respective of a connectivity mode of a user device
US9098575B2 (en) 2011-06-20 2015-08-04 Primal Fusion Inc. Preference-guided semantic processing
WO2012174632A1 (en) * 2011-06-20 2012-12-27 Primal Fusion Inc. Method and apparatus for preference guided data exploration
US9104751B2 (en) * 2011-10-12 2015-08-11 Microsoft Technology Licensing, Llc Supplemental search results having social connection endorsement data on a SERP
US20130097141A1 (en) * 2011-10-12 2013-04-18 Microsoft Corporation Presenting search results annotated with social network connection information
US11809506B1 (en) 2013-02-26 2023-11-07 Richard Paiz Multivariant analyzing replicating intelligent ambience evolving system
US11741090B1 (en) 2013-02-26 2023-08-29 Richard Paiz Site rank codex search patterns
RU2543315C2 (ru) 2013-03-22 2015-02-27 Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" Способ отбора эффективных вариантов в поисковых и рекомендательных системах (варианты)
US20140304261A1 (en) * 2013-04-08 2014-10-09 International Business Machines Corporation Web Page Ranking Method, Apparatus and Program Product
CN103491197B (zh) * 2013-10-12 2016-08-10 北京海联捷讯信息科技发展有限公司 分布式自动巡检系统及其资源收集方法
RU2565473C2 (ru) * 2013-11-01 2015-10-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Российский государственный гуманитарный университет" (РГГУ) Метод построения корпуса текстов на основе интернет-форумов
US9501647B2 (en) 2014-12-13 2016-11-22 Security Scorecard, Inc. Calculating and benchmarking an entity's cybersecurity risk score
CN110020154A (zh) * 2017-12-04 2019-07-16 北京京东尚科信息技术有限公司 用于确定用户影响力的方法及装置
CN108053256A (zh) * 2017-12-27 2018-05-18 上海银橙文化传媒股份有限公司 一种基于PageRank的反作弊方法
US11550937B2 (en) * 2019-06-13 2023-01-10 Fujitsu Limited Privacy trustworthiness based API access
US11314818B2 (en) * 2020-09-11 2022-04-26 Talend Sas Data set inventory and trust score determination
CN113791837B (zh) * 2021-08-12 2023-08-11 百度在线网络技术(北京)有限公司 页面处理方法、装置、设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL196972A (ja) * 1954-05-03
JPH04160540A (ja) * 1990-10-24 1992-06-03 Toshiba Corp データファイル管理方式
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6963867B2 (en) * 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
US20020078045A1 (en) * 2000-12-14 2002-06-20 Rabindranath Dutta System, method, and program for ranking search results using user category weighting
US20040034633A1 (en) * 2002-08-05 2004-02-19 Rickard John Terrell Data search system and method using mutual subsethood measures

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200100159002, ▲高▼野 元 他1名, "サイテーション・エンジン:リンク解析を用いたWWW検索ランキングシステム", 情報処理学会研究報告, 20000125, 第2000巻第10号, 9−16, JP, 社団法人情報処理学会 *
CSNG200300267034, 絹川 達也 他4名, "作成者責任の概念を用いたWebページ評価法のサイトへの適用実験", 情報処理学会研究報告, 20010718, 第2001巻第70号, 281−288, JP, 社団法人情報処理学会 *
CSNH200300218004, 高野 元 他5名, "インターネット検索サービス「BIGLOBEサーチAttayo」", NEC技報 第54巻 第12号, 20011225, 第54巻第12号, 25−31, JP, 日本電気株式会社 *
JPN6010025691, 絹川 達也 他4名, "作成者責任の概念を用いたWebページ評価法のサイトへの適用実験", 情報処理学会研究報告, 20010718, 第2001巻第70号, 281−288, JP, 社団法人情報処理学会 *
JPN6010025692, ▲高▼野 元 他1名, "サイテーション・エンジン:リンク解析を用いたWWW検索ランキングシステム", 情報処理学会研究報告, 20000125, 第2000巻第10号, 9−16, JP, 社団法人情報処理学会 *
JPN6010025693, 高野 元 他5名, "インターネット検索サービス「BIGLOBEサーチAttayo」", NEC技報 第54巻 第12号, 20011225, 第54巻第12号, 25−31, JP, 日本電気株式会社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005135071A (ja) * 2003-10-29 2005-05-26 Hewlett-Packard Development Co Lp 商品購入における信頼値の算出方法及び装置
KR101119691B1 (ko) 2008-02-26 2012-06-12 주식회사 지식과지혜 개미군락시스템을 이용한 문서 스코어링 시스템 및 방법
JP2010117893A (ja) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム

Also Published As

Publication number Publication date
CA2475328A1 (en) 2005-03-16
RU2004127646A (ru) 2006-02-20
RU2367997C2 (ru) 2009-09-20
MXPA04008383A (es) 2005-03-31
EP1517250A1 (en) 2005-03-23
BRPI0403304A (pt) 2005-05-31
CN1601532A (zh) 2005-03-30
AU2004205331A1 (en) 2005-04-07
US20050060297A1 (en) 2005-03-17
KR20050027944A (ko) 2005-03-21
US7739281B2 (en) 2010-06-15

Similar Documents

Publication Publication Date Title
US7739281B2 (en) Systems and methods for ranking documents based upon structurally interrelated information
US8346763B2 (en) Ranking method using hyperlinks in blogs
US8577881B2 (en) Content searching and configuration of search results
US6523021B1 (en) Business directory search engine
US9380022B2 (en) System and method for managing content variations in a content deliver cache
US20140136713A1 (en) Server directed client originated search aggregator
US20060242133A1 (en) Systems and methods for collaborative searching
WO2012142092A1 (en) Configurable web crawler
JP2004110774A (ja) ペアレンタル・コントロールのカスタマイズおよび通知
CN1705944A (zh) 使用对等网络执行自适应搜索的系统和方法
JP2007115244A (ja) インターネット・ファイル・システム
JP2011204260A (ja) 母集団情報を用いて探索ランク付けを改善する方法とシステム
EP1958119A2 (en) System and method for appending security information to search engine results
US7353534B2 (en) Methods, systems and computer program products for establishing a trusted network
US8756292B2 (en) Smart cache learning mechanism in enterprise portal navigation
RU2424565C2 (ru) Сфокусированный поиск с использованием сетевых адресов
US20090172567A1 (en) Dynamically added navigation widget for loose integration of web pages across different web applications
JP2005507527A (ja) 適応型ウェブ・ページ
JP2004500621A (ja) 分散コンピューティング環境において情報を提示するためのシステム及び方法
JP4922240B2 (ja) Web検索において選択的に擬似フィードバック処理を適用する検索処理装置、方法及びプログラム
JP6993913B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US8370365B1 (en) Tools for predicting improvement in website search engine rankings based upon website linking relationships
CN100531065C (zh) 用于管理包括动态受保护数据的网站的方法和系统
US20070043710A1 (en) Searchroll system
US20070067319A1 (en) System for building up hyperlinks of key words within text provided by content website

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070913

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101015