JP4268638B2 - バックワード及びフォワード非正規化リンク重み分析方法、システム、及びコンピュータ・プログラム製品 - Google Patents

バックワード及びフォワード非正規化リンク重み分析方法、システム、及びコンピュータ・プログラム製品 Download PDF

Info

Publication number
JP4268638B2
JP4268638B2 JP2006536634A JP2006536634A JP4268638B2 JP 4268638 B2 JP4268638 B2 JP 4268638B2 JP 2006536634 A JP2006536634 A JP 2006536634A JP 2006536634 A JP2006536634 A JP 2006536634A JP 4268638 B2 JP4268638 B2 JP 4268638B2
Authority
JP
Japan
Prior art keywords
vector
node
weights
weight
authority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006536634A
Other languages
English (en)
Other versions
JP2007511815A (ja
JP2007511815A5 (ja
Inventor
ジョフリー、キャンライト
ケンス、エンゴ‐モンセン
Original Assignee
テレノール アーアスアー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレノール アーアスアー filed Critical テレノール アーアスアー
Publication of JP2007511815A publication Critical patent/JP2007511815A/ja
Publication of JP2007511815A5 publication Critical patent/JP2007511815A5/ja
Application granted granted Critical
Publication of JP4268638B2 publication Critical patent/JP4268638B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ハイパーテキスト・リンクにより分散ネットワークで見い出される情報源を格付けするための方法、システム、及びコンピュータ・プログラム製品を含んでいる。方法のソフトウェア/ファームウェアの実施態様は、開示されるハイパーテキスト・リンク分析の方法に基づいてノードの格付けをもたらすことを目的とする分散情報システムを検索するシステムの1つのコンポーネントを構成する。完全なシステムはまた、テキスト関連性に基づいて格付けスコアをもたらすツール、索引付けシステム、クローラ、及びユーザー・インターフェイスを含むさまざまな他のコンポーネントも備えることができる。
多くの装置及びアルゴリズムによって対処される問題は、分散情報データベースにわたる検索の後のヒットの格付けに関している。つまり、検索が、特定のドキュメントの検索ではなくトピック(キーワード)によって導かれるような場合において、ユーザーが評価或いは眼を通すことができる以上の多数の検索基準の一致、つまり「ヒット」が生じることが頻繁に起こる可能性がある。ヒットは、数千、或いはそれを上回る数に及ぶことがある。従って、ヒットの格付けは極めて重要である。どのヒットが最も関連性又は価値が高いかに関して何らかの指針がない限り、優良なヒットはありふれたヒット又は不適切なヒットの海に埋もれてしまうおそれがある。
ハイパーリンクされているデータベースを通じてキーワード検索から得られたヒットを格付けする場合、テキスト関連性格付け、及びリンク分析に基づく格付けという、2つの一般的な格付けのタイプが可能である。通常の検索エンジンは両方のタイプを使用するが、多くの場合、単純可能リンク分析技法(simplest possible link analysis technique)、つまりリンクの人気(link popularity)が使用される。
テキスト関連性格付けは、格付けされるドキュメントの内容、つまり検索のキーワードに対するその内容の関連性に基づいている。従って、テキスト関連性格付けはほとんどの場合、ドキュメントの全セット(「全グラフ」、又はWG)を見るか、又はドキュメントのサブセットのみ(「サブグラフ」)を見るかどうかには影響を受けない。
対照的に、リンク分析はドキュメントを、ハイパーリンク・ネットワーク内のその位置、つまり「ドキュメントのコミュニティ」のタイプに基づいて格付けする。一部のドキュメントは、リンクされたネットワーク内の「高い」又は「中心の」位置を持ち、そのため高い格付けを与えられる。リンク分析格付けは(ナイーブな(naive)リンク人気技法を除いて)、ネットワークの構造全体(グラフ)の影響を受けるので、格付け結果は、グラフ全体を見るか、又はサブグラフのみを見るかどうかの影響を受ける。
図1〜4は、(i)グラフ全体に基づくリンク分析格付け(図1及び2)と(ii)サブグラフに基づくリンク分析格付け(図3及び4)という前述の2つの場合について、テキスト関連性格付け及びリンク分析格付けの間の関係を示している。図1及び3は、それぞれ、(i)及び(ii)の場合の簡略化された一般的な概要を示しているが、図2及び4は、それぞれの場合のシステム・アーキテクチャをさらに詳細に示している。
図1から説明する。図1〜4のすべての図と同様に、この図において、クローラ又は他の技法が、全グラフWGの内容及びリンク構造の両方を説明するデータベースを構築していると仮定する。図1において、リンク分析113は全グラフのデータベース103に適用されて、ドキュメントのリンク分析格付けがグラフ全体におけるこれらの位置に基づくようになっており、そのため検索項目から独立していることが分かる。次いで、検索項目101は、後にテキスト関連性格付け107を与えられるヒットのセット105を選び出すために使用される。最後に、全グラフ・リンク分析113からの格付け及びテキスト関連性格付け107は、各ドキュメントの優先付けヒット・リスト111順格付けスコアをもたらすために組み合わされる。
図2において、全グラフ・データベース103は、その2つの主要コンポーネントであるコンテンツ・データベース103aとリンク構造データベース103bに分割される。ここで、リンク分析格付け113aは、全グラフに基づいて行われ、リンク分析データベース113bを結果としてもたらす。この場合も、ヒット・リスト105bを選択するためにヒット・リスト・ジェネレータ105aによってキーワード101aが使用されることが分かる。次いで、このリスト105bは、テキスト関連性格付け107aを受け、コンテンツ・データベース103aからの情報を使用して、テキスト関連性格付け107bを与えられる。その後、2つの格付け113bと107bは、さまざまな任意の数の可能な規則を使用して統合され111a、ヒット・リスト内の各ドキュメントの順格付けスコアをもたらす。最後に、格付けされたリストは、あらかじめ定められているサイズ101bに切り詰められ、最高位に格付けされたドキュメント111bのみが格納されて提示されるようになっている。
図3は、リンク分析格付けがサブグラフのみに適用される場合の、リンク分析格付けとの組合せによる、テキスト関連性格付けの使用を概略的に示している。ヒット・リスト105は、テキスト関連性格付け107に従って格付けされ、その後、リンク分析格付け113が実行される前に切り詰められる。切り詰められたリスト(サブグラフ)は、リンク分析ルーチン113に供給されるが、そこではWGデータベース101からの情報も必要としている(点線)。結果として得られたサブグラフ・リンク分析格付けは、最後に、同じサブグラフのテキスト関連性格付けと組み合わされて、選択されたサブグラフの統合格付けスコア111をもたらす。
図4は、これをさらに詳細に示している。図2とは対照的に、ここでは検索項目101aでヒット・リスト・ジェネレータ105aによって生成されるヒット・リスト105bは、テキスト関連性格付け107a1を与えられ、リンク分析格付けが実行される前に、切り詰めサイズ101bで切り詰められる。切り詰められたリスト107b1は、サブグラフ・ジェネレータ113cに送信されるが、これは首尾一貫してリンクされたトピック関連ドキュメントの「コミュニティ」をもたらすような方法で、リストを拡張サブグラフ113dに拡大する。次いで、この拡大サブグラフ113dは、リンク分析格付け113a及びテキスト関連性格付け107a2の両方を受けて、拡大サブグラフ関連性格付け107b2及び拡大サブグラフ・リンク分析格付け113eを生成する。最後に、結果として得られた格付けスコアが統合され111a、サブグラフ内のすべてのドキュメントに対して単一の格付け111bをもたらす。
本発明は、リンク分析格付けのための新しい方法、装置、及びコンピュータ・プログラム製品を対象としている。図1〜4のいずれにおいてもリンク分析格付けの方法に関する詳細は示されていないため、図は本発明を説明するのではなく、本発明又はリンク分析格付けの他の方法が適用されうる状況を示すにとどまる。
現在、ヒットを格付けするための方法には2つの広範なクラスがある。第1は、テキスト関連性分析として知られる、見い出されたドキュメントにおけるテキストの分析に従ってヒットの関連性を評価する。例えば、検索キーワードが「Norwegian elkhounds」である場合、見い出されたドキュメントにおける検索項目の関連性の評価を試みるためにアルゴリズムが使用される。この種の格付けは効果的ではあるが、重要なキーワードを(人為的に)何度も繰り返すことによって高い格付けを得ようとするドキュメントの作成者によって「欺かれる」可能性もある。
アルゴリズムの第2のクラスは、ヒットをそれらの独自の内容ではなく、より大きい情報ネットワークでどのように位置付けられているかに基づいて、ヒットの「重み(weight)」又は「重要度(importance)」を評価する。つまり、このクラスのアルゴリズムは、ドキュメントのリンクされたネットワークにおいて所定のヒット(ドキュメント又はノード)がどの程度「主要」であるかを判別するためにリンク分析を採用する。本発明は、ハイパーテキスト・リンク分析の一種である。
ハイパーテキスト・リンク分析において、ハイパーテキスト・リンクは、あるドキュメントから別のドキュメントを指し示す有向矢印として簡単に見なされうる。ドキュメント及びハイパーテキスト・リンクのセットは共に、有向グラフを形成する。次いで、有向グラフのリンク構造(トポロジ)に基づいて、グラフ内の各ノード(ドキュメント)に重み又は重要度を割り当てるための規則を探し出す。
例えば、これを指し示す多数のノードを有するノードは、高い入次数を有するといわれる。各ノードに、その入次数のみに基づいて重みを割り当てることもできる。しかし、この重み付けの手法は「リンク人気」方法と呼ばれることが多いが、すべてが単一のドキュメントを指し示して、これに人為的に高い入次数を与えるような多数の偽造ドキュメントを作成することができるので、この手法は容易に欺かれる。それにもかかわらず、リンク人気格付けは、おそらくはその簡単さのゆえに多くの商用検索エンジンによって使用されている。
GoogleのPageRankアルゴリズム(参照によりその内容が本明細書に組み込まれている米国特許第6、285、999号)、及び検索エンジンWiseNut(参照によりその内容が本明細書に組み込まれている米国特許申請第2002−0129014号)によって使用されているもう1つの方法は、グラフ上を移動してノード間の有向リンクをたどるランダムウォーカが各ノードにおいて費やすほんのわずかな時間を見つけ出すことを含んでいる。明らかに、高い入次数は、このスコアに肯定的に寄与する。しかし、各ノードの近隣という他の側面もまた重要である。例えば、高い入次数を有するノードを指し示すノードはまた有意な重みを有する必要もある。そうでなければ、高い入次数は当該のノードにほとんど重みをもたらさない。従って、ランダムウォーカの手法は、グラフの全体的な位相構造により敏感である。
有向グラフにおけるランダムウォーカの1つの問題は、入口を有するが出口を有していないグラフの領域である「シンク」に容易に捕らわれてしまうことである。PageRankは、特定の確率を有する(リンクから独立した)完全にランダムなホップを追加することにより、シンクを補正するが、WiseNutは、グラフ内のすべての他のノードに双方向で接続されている架空のノードである「ページ重み貯蔵器(page weight reservoir)」を採用することによりシンクを補正する。シンクは一般に、分散ハイパーテキストシステム内に存在する。そのため、有向グラフのランダム・ウォークを伴うすべての方法は、何らかの形でこの問題に対処する必要がある。
異なる手法は、IBMのCLEVERプロジェクトで行われた研究に基づきCornell University(米国)のJon Kleinbergによって特許が取得されている(参照によりその内容が本明細書に組み込まれている米国特許第6、112、202号)。アルゴリズムは、多くの場合、HITS(「Hypertext Induced Topic Selection」)と呼ばれる。
HITSは、F(フォワード)及びB(バックワード)という2つの簡単な演算子を定義することによって極めて容易に説明される。ランダム・ウォークの精神において、有向グラフ上の各ノードに関連付けられている特定の重み(正の数)を推測することは可能である。F演算子は、各ノードiにおいて重みw(i)をとり、それをFowrard、つまりノードiによって指し示されているすべてのノードに送信する。B演算子は、矢印とはバックワード、つまりノードiの方向を指し示す各ノードにw(i)を送信する。
次に、複合演算子の使用について説明する。例えば、常に最初にF演算子を使用し、その後B演算子が続くようにしたいと仮定する。標準の行列表記を使用して、この複合演算子(B followed by F)はFBと示される(行列演算子は、右側のベクトルに作用する。従って、右端の演算子が最初に動作する)。B次いでFにより構成される複合演算子はFBと表記される。
これ以降、「非複合演算子」という用語を使用して、演算子F及びB(さらにf及びbと示されるそれらの正規化バージョン)を参照する。もちろん、演算子の積(複数の行列)は新しい演算子(行列)であり、グラフで重みを再分散するために使用されうる。しかし、複合演算子BF及びFBは、常に重み分散の「フロー」の方向を、ハイパーリンクの矢印に「従う」流れと、これらの矢印に「逆らう」流れとの間で交互に変えるという特殊な特性を有している。対照的に、非複合演算子B及びFは、それぞれ相互に分離して使用され、フローが決して逆転しないようにされうる。この相異が、ドキュメント格付けに対するこれらの演算子の適用の結果に多大な影響を及ぼす可能性があると考えられる。
HITSアルゴリズムは、複合演算子BF及びFBの反復適用を使用して、各ノードの2つの重要度スコアを取得する。例えば、FBの多数の繰り返しの後、各ノードにおける重みは安定した値に収束するが、これはそれらの「オーソリティスコア」と呼ばれる。同様に、BFによって繰り返された演算は、「ハブスコア」をもたらす。従って、「優良なオーソリティは優良なハブによって指し示される」と言うことができる。つまり、ノードは、多数の優良な(又は少数の非常に優良な)オーソリティ、すなわち関連コンテンツを有するノードを指し示す場合、高いハブスコアを有する。また、ノードは、多数の優良な(又は少数の非常に優良な)ハブによって指し示される場合、高いオーソリティスコアを有する。このようにして、2つのスコアは、相互に定義される。
矢印(有向弧)に従う流れと矢印に逆らう動きとの間を相互に変わるので、HITSの手法にはシンクに関連する知られた問題はない。この手法、及びその変形は、いくつかの特許(例えば、参照によりその内容が本明細書に組み込まれている米国特許第6,112,203号、6,321,220号、6,356,899号、及び6,560,600号)において記載され、HITSの変形は、商用検索エンジンのTeoma及びAltaVistaに使用されているとみられる。この記述は、これらに所有されている特許(特に、AltaVistaはHITS方法の変形に基づく米国特許をいくつか有している)を含む、既存の検索エンジンに関する公的に入手可能な文書の調査に基づいている。
HITS方法の重要な特徴は、演算子F及びBが「正規化」されないことである。正規化された演算子は、グラフ上に存在する「重み」の合計量を変えることはない。例えば、正規化されたF演算子(fと示すことにする)は、重みw(i)をとり、それをノードiの「ダウンストリーム」にあるすべてのノードに再分散する。つまり、f演算子に対して、ノードiから送出される合計重みは、ノードiにおいて見い出される重みと等しい。対照的に、(非正規化)F演算子は、重みw(i)の「コピー」を、iからのダウンストリームに見い出される各ノードに送信し、送出される合計重みが、iの出次数を乗じてw(i)となるようになっている。
この特徴は、わずかなものと思われるが、非常に大きな効果を有する可能性がある。SALSA(SALSA:Stochastic Approach for Link−Structure Analysis、参照によりその内容が本明細書に組み込まれている非特許文献1)と呼ばれるアルゴリズムがあるが、これは正規化された演算子fb及びbfを使用する点を除いては、本質的にHITSアルゴリズムと同一である。このわずかな変化が極めて重要なものとなる。SALSAアルゴリズムのハブ及びオーソリティスコアは、それぞれ単に各ノードの出次数及び入次数となる。従って、HITSアルゴリズムを正規化する(それを「重み保全」にする)ことは、全体としてグラフの構造への手法の感度を完全に除去し、その代わり、結果はナイーブなリンク人気の手法と同等となる。
同様の結果は、無向グラフ(ここでF及びBは同一となる)についても得られる。ここで正規化バージョンは単にノード次数をもたらすが、非正規化バージョンは、重要で、しかもグラフ構造全体に敏感なスコア(「固有ベクトル中心性」)をもたらす。
このことから、正規化された演算子はグラフのノードの格付けに有用な結果をもたらすことはできないと結論付けることができる。しかしながら、この結論は正しくはない。ランダム・ウォークとして前述されている、Googleによって使用されるPageRankアルゴリズムは、(シンクを逃れるために完全なランダム・ホップによって補足される)f演算子を使用することと同等である。Googleは今日のWebにおいて主流となる検索エンジンであり、有意かつ有用な格付け結果をもたらすそのPageRankアルゴリズムはその優位の重要な理由の1つである。
もう1つの正規化された演算子(b)は、Dingらによる研究論文(参照によりその内容が本明細書に組み込まれている非特許文献2)において簡単に言及されている。Dingらは、この演算子に基づくドキュメント格付けのパフォーマンスについて極めて短く(1文)説明し、これがHITSアルゴリズムのハブスコアに同様の結果をもたらすことを示唆している。この論文におけるb演算子の研究を参照するため、「DHHZS」(著者の姓の頭文字)を使用する。
以下において、ハイパーテキスト・リンク分析を使用して格付けする方法についての前述の説明を要約する。2つの方法(SALSA及びHITS)は、複合演算子を使用する。いずれの方法も、ドキュメントごとに2つのタイプのスコアをもたらす。ただし、SALSAはリンク人気と同等であるが、HITSは全リンク構造に依存する重要な結果をもたらす。PageRankは、正規化されたフォワード演算子のみを使用して、ナイーブなリンク計数よりもさらに有用でもある単一のスコアをもたらす。最後に、DHHZSの論文は、単一の重要なスコアをもたらす正規化されたバックワード演算子にも言及する。
前述のアルゴリズムの4つのカテゴリ(つまり、正規化複合フォワード/バックワード、正規化バックワードのみ、正規化フォワードのみ、非正規化複合バックワード/フォワード)の短所については、以下で説明される。
一部の方法は、それらの格付け手順においてリンク分析を全く使用しない。これらの方法は、テキスト関連性格付け(前述)、有料格付け、及び人的判断による格付けを含んでいる。
・有料格付けは、大きく異なるマーケティングの手法及び対象者を有する極めて簡単なシステムである。有料格付けを使用するエンジンは、最善の情報を見つけ出すこと以外の目的でユーザーに採用されている。
・人的判断による格付けは、ワールド・ワイド・ウェブなどの極めて大規模なシステムをカバーするために時間とコストがかかリ過ぎるという明らかな欠点を有している。
・テキスト格付けは、すべての商用検索エンジンによって使用されている。我々は、テキスト格付けがあらゆる優れた格付けシステムの重要なコンポーネントになると予想している。事実、最良の検索システムは、テキスト格付けシステム、及びリンク分析による格付けのシステムの両方を含むことになる(Google検索エンジン参照)。
使用中及び/又は特許取得のハイパーテキスト分析を採用するページ(つまりドキュメント)を格付けする方法のすべてではないとしても、そのほとんどは、以下の3つの方法のいずれかに基づいている。
・リンク人気。ここで、所定のページにリンクされているページの数(その「次数」)を単にカウントする。ハイパーリンクは方向を有する。そのため、各ノードは、入次数(所定のページを指し示すページの数)及び出次数(所定のページから生じるリンクの数)という2つのリンク人気の測度を有している。これらのリンク人気の2つの異なる測度は、それぞれHITS方法におけるオーソリティ及びハブスコアにおおむね対応する。
・PageRank。ここで、ページの格付けは、「ランダム・サーファー」がページを訪れるほんのわずかな時間におおむね等しい。ランダム・サーファーは、(かなりの確率で)アウトリンクのみをたどる。それ以外の場合、このサーファーは新しいページへのランダムなジャンプを行う。PageRankはアウトリンクのみをたどるので、その結果は、ハブスコアよりもオーソリティスコアに類似している。つまり、高いPageRankスコアは、多くの優良なページが所定のページを指し示していることを意味している。
・HITS。ここで、2つの「相互に補強し合う」スコアがある。事実、これらは、ページが(多数の)優良なハブによって指し示される場合は優良なオーソリティであり、ページが(多数の)優良なオーソリティを指し示す場合は優良なハブである、というように相互に定義される。優良なオーソリティは高い入次数を有する傾向があり、優良なハブは高い出次数を有する傾向があるという点において、基本的な概念はリンク人気と類似している。
ハイパーテキスト・リンク分析によって格付けするさまざまな既知の方法を比較することが可能である。リンク人気は、複数のインリンクをサイトに単に追加することにより各自のスコアを上昇させる人為的な手段の影響をあまりに受けやすいという、前述の明確な短所を有している。他の方法に優るリンク人気の唯一の利点は、その簡単さである。他の2つの手法であるHITS及びPageRankはいずれも、前途有望な技法である。Webのような膨大なネットワークのPageRankスコアを計算することは、オーソリティ及びハブスコアを計算することよりもはるかに理に適っている。HITS方法は、特に、全グラフのより小さいサブグラフにリンク分析を行うことにより、この問題を回避する。このサブグラフは、ヒットのセット、これらのイン及びアウトの隣接ノード、及びこれらのドキュメント間のリンクから成っている。
要約すると、PageRankリンク分析技法は、図1及び2におけるように、グラフ全体に適用される。対照的に、HITS及び関連する技法は、図3及び4に示されるように、トピック関連のサブグラフに適用される。HITS技法の2つのタイプのスコアの緊密な結合は、HITS方法をあいまいな利点の全グラフに適用させる。一方、PageRankは、我々の知る限りでは、サブグラフに適用されたことはなく、どのような結果が得られるかは明白ではない。
本発明の発明者によって発見された、必要とされるものは、(PageRankのような)全Webグラフに使用されうるアルゴリズム、及び(PageRankとは異なり)ドキュメントごとに2つの別個のスコアをもたらすもう1つのアルゴリズムである。つまり、新しいアルゴリズムは、複合演算子を使用すべきではなく(従ってHITS方法の既知の問題を回避し)、グラフ全体、又は単一のテーマに限定されるドキュメントのサブセットのいずれかに適用することが可能である必要がある。
ACM Transactions on Information Systems 19(2),PP.131−160,April 2001 LNBL Tech Report 49372,updated September 2002 "The PageRank Citation Ranking:Bringing Order to the Web",by Page,Brin,Motwani,and Winograd "PageRank Computation and the Structure of the Web:Experiments and Algorithms",by A.Arasu,J.Novak,A.Tomkins,and J.Tomlin.Technical Report,IBM Almaden Research Center,Nov.2001.http//citeseer.ni.nec.com/arasu02pagerank.html "Efficient Matrix Multiplication on SIMD Computers,"by P.Bjorstad,F.Manne;T.Sorevik,and M.Vajtersic;SIAM,J.Matrix Anal.Appl.,13(1992),pp.386−401 STALLINGS,W.,Computer Organization and Architecture,4th ed.,Upper Saddle River,NJ,Prentice Hall,1996
ハイパーテキスト・リンク分析に現在使用可能な方式の前述の短所を考慮して、本発明の1つの目的は、ハイパーリンク・ネットワークにおけるドキュメントを格付けするための、規則に基づいた方法と、対応するシステム及びコンピュータに基づいた製品を提供することである。
特に、本発明の目的は、有向グラフ上の各ノードに関連付けられている2つの別個の重み又はスコアを介してドキュメントを格付けすることができる方法、システム、及びコンピュータ・プログラム製品を提供することである。グラフのノードはドキュメントであり、有向リンクはハイパーテキスト・ポインタである。他のタイプのリンク分析アルゴリズムと同様に、本発明は有向グラフの構造を使用して、各ノード(ドキュメント)の重要度重みを取得する。ノードにおける重みは、演算子を繰り返し適用することにより取得される。演算子は、繰り返しごとに存在する重みを再分散する。多数の繰り返しの後、重みは変化することをやめ、安定した値に収束する。これらの収束した値は、ノードの重要度重みである。
具体的に、本発明の目的は、ノード格付け重みを見い出すための、非正規化フォワード演算子F及び非正規化バックワード演算子Bという2つの新しい演算子に対する方法、システム、及びコンピュータ・プログラム製品の開発である。従来の方法とは異なり、本発明の方法は、全グラフ又はトピック関連サブグラフの両方の事例において使用されるよう意図されている。方法は、重みの安定した分散が得られるまで、単一方向(フォワード又はバックワード)に繰り返し重みを伝搬するという点において、PageRankと類似している。しかし、PageRankとは異なり、方法は、全グラフにおけるすべてのページのハブ及びオーソリティスコア双方の計算を可能にする。本発明の方法を(HITSと対照的に)グラフ全体に適用可能にするのは、2つのスコアの分離である。しかし、我々の方法はさらに、トピック関連のサブグラフにも適用可能である。この場合、トピック関連のサブグラフ内を検索する際に最善の結果を得るために2つのタイプのスコア(ハブ及びオーソリティ)を有することが望ましい。
本発明及びその多くの付随する利点は、添付の図と併せて検討されれば以下の詳細な説明を参照することによって理解が深まり、さらに完全な理解が容易に得られるであろう。
本発明において、グラフ内のノードの重みの決定には、2つの非正規化演算子(これ以降F演算子及びB演算子と呼ぶ)の1つを繰り返し適用することが必要である。一般に、重みは各々の適用と共に変化するが、多数の繰り返しの後、重みは計算の結果である安定した値に落ち着く。
最初に、F演算子の実装について説明する。所定の繰り返しでノードiにおける重みをw(i)とする。F演算子は、iからjを指し示すリンクによってiにリンクされている各ノードjにおいて重みw(i)を設定する。Fはこれを、ネットワーク内のすべてのノードについて行う。従って、Fを一回適用した結果は以下のようになる。
Figure 0004268638
ここで
Figure 0004268638
は、ノードjを指し示しているノードiにわたる和である。
グラフ上の合計重みは各々の繰り返しと共に増大するので、計算を行うコンピュータによって処理できない数値まで重みが増大することのないように、重みはすべて一定の係数で定期的に減少させる必要がある。この減少は、重みの相対的な値には影響を与えない。これは格付けの目的で必要とされる相対的な値に過ぎない。この減少は、単なるスケール変更であるため、重みの「正規化」と呼ぶことができる。重みに作用している演算子自体は正規化されないので、重みが計算の過程で定期的に正規化される必要があることに留意されたい。
前述の内容は、符号で以下のように表すことができる。
Figure 0004268638
ここで、wは重みのベクトルであり、Fは非正規化フォワード演算子である。実際、これはグラフ隣接行列の転置である。
この手順は、正規化の場合と全く同様に、シンクの問題の影響を受ける。従って、同様の改善措置が適用されうる。Rを、任意のノードから任意の他のノードに等しい確率で重みを受け渡す「ランダム化」演算子とする。従って、Rは、対角線要素が0であることを除き、すべて1の行列である。一部のランダム・ジャンプの確率を追加することは、以下の式によって実施される。
Figure 0004268638
ここで、cは優良なパフォーマンスをもたらすように調整されうるフリーパラメータである。
重みの安定値は、ノードのすべてのペアに対して、相対値w(i)/w(j)が変化しなくなったときに見い出される。この状態は、長さは変化するが、方向は変化しないベクトルwと同等である。つまり、収束時に以下の式が得られる。
Figure 0004268638
ここで、λは、値が格付け手順にとって重要ではないもう1つの定数である。重みwが上記の式に従う場合、これらはハイパーリンク分析に従ってノードの相対的格付けをもたらす。
これ以降、B演算子について説明する。非正規化B演算子は、Fの単なる転置である。つまり、B=Fである。従って、Bは有向グラフの隣接行列である。その他の点では、手順及び説明は前節の場合と同様である。Bに関しては依然としてシンクがある。これらは矢印が指し示すが、指し示されることはないグラフの領域である。従って、R演算子も上記のように含まれる必要がある。
これらの2つの演算子を使用すれば、2つのスコアをドキュメントの格付けで採用することが可能である。さらに、2つのスコアをもたらす前述の従来の方法と同様に、本発明によって計算される2つのスコアは、「指し示されている」(入次数、又はオーソリティ)、及び「指し示す」(出次数、又はハブ)の従来のスコアと類似している。しかし、本発明によって計算される2つのスコアは、HITSによって計算されるスコアと類似してはいるが、少なくとも本発明の2つの格付け計算が数学的に分離されているという理由から、数学的にも機能的にも異なっている。このことが重要な効果を持ち得ることを以下で検討する。
さらに、(i)本発明は、矢印に続く「重み伝搬」のステップを繰り返す場合に、重みを出次数で除算しない、(ii)本発明は、フォワード伝搬(本明細書のF演算子)に基づくスコアと、バックワード伝搬(本明細書のB演算子)に基づくスコアという2つのスコアを計算する、という少なくとも2つの方法でPageRankとは異なっている。PageRankでは、フォワード伝搬のみを使用し、それを異なる方法で行う。
最後に、本発明は、リンク・ドキュメントの重みが、それらの数値のみにとどまらず重要な役割を果たすという点において、(PageRank及びHITSのような)リンク人気とは明らかに異なっている。これはつまり、本発明が、PageRank及びHITSと同様、ハイパーリンク・ドキュメントのネットワークの全体的な構造に敏感であることを意味している。
ここで、一部の簡単なハイパーリンク・グラフを使用して、これらのすべての方法の間の相異を一部示す。図5は、A、B、及びCの3つのノードから成る、小さなハイパーリンク・グラフを示している。このグラフは、非特許文献3に出現する(米国特許第6、285、999号も参照)。
以下の表1は、さまざまな方法を使用して取得される、図5の3つのノードの格付けスコアを示している。ここで(及び図6において)、すべてのスコアは、各列の合計が1となるように調整されている。
Figure 0004268638
ここで、いくつか新しい用語を導入した。これ以降、「オーソリティ類似(authority−like)重み」(大文字なし)は、所定の方法の一般的な「指し示される側の(being−pointed−to)」重みを意味し、同様に、「ハブ類似(hub−like)重み」は任意の方法の「指し示す側の(pointing−to)」重みである(大文字の「オーソリティ(Authority)」及び「ハブ(Hub)」は、具体的にHITS方法から取得されたスコアを示すことになる)。いずれの種類のスコア(つまりオーソリティ類似及びハブ類似の重み)も、検索側にとって関心の対象である。オーソリティ(権限)は検索の可能なエンドポイントであり、ハブは少数のさらなるホップの後に優良なエンドポイントを導く傾向のある場所である。前述のように、本発明は、オーソリティ類似スコアを取得するためにフォワード演算を使用し、ハブ類似スコアを取得するためにバックワード演算を使用する。
ナイーブな方法(リンク人気)は、ノードCに最高のオーソリティ類似階数(つまり、入次数=0.5)を与え、ノードAに最高のハブ類似階数(つまり出次数=0.5)を与える。PageRank方法は、AとC(すなわちPageRank=0.4)を区別することができない。HITS方法は強力に、最高のオーソリティ(つまり、オーソリティ=0.62)としてCを、最善のハブ(つまり、ハブ=0.62)としてAを選び出す。しかし、HITSは、例えばAにゼロのオーソリティを与えるような、かなり極端な修正をPageRankスコアに行うことが分かっている。
本発明は、オーソリティ及びハブのスコアの計算を分離することにより、つまり、フォワード及びバックワード演算を数学的に分離することにより、この過剰修正を改善する。フォワード計算は、適切ではあるがHITSとは異なっている最高のオーソリティ類似重み(つまり、0.43)としてCを与え、第2に高いオーソリティ類似重み(つまり、0.32)としてAを与える。このAのオーソリティ類似重みは、リンクC→A(CからAを指し示す)から生じる。
場合によってはタイ・スコアのために、表1に示されるすべての方法が、オーソリティ類似スコアの場合とハブ類似スコアの場合で異なる格付けを行うことに留意されたい。タイ・スコアは、もちろんWWWのような大規模なグラフでは、稀にしか発生しない。しかし、この数字からの指示は引き続き有効であり、本発明は一般に、他の方法から取得された格付けと異なる格付けをもたらす。
本発明が、(少なくともオーソリティ類似スコアに関して)PageRank結果とHITS結果の間の「中間」である結果をもたらすことも分かる。これは、2つの計算を分離した結果である。
図6において、A、B、C、及びDの4つのノードを有する第2のさらに複雑なグラフの例を検討する。さまざまな方法のスコアは、図6のノードごとに、表2に示されている。
Figure 0004268638
すべての他のノードはCを指し示すので、これは任意の方法による最高のオーソリティ類似である。しかしこの場合、ハブ類似スコアは、どのノードが優良なノードを指し示すのに最良であるか、さらに不明瞭である。4つのノードのうちの3つは、同じ出次数(つまり、0.29)を有している。たとえ大規模なグラフであっても、同値の出次数は稀なことではないことにさらに留意されたい。従って、ナイーブな手法を超える方法が必要であることは明らかである。
PageRankは、任意のノードのハブ類似格付けに関する情報はもたらさない。従って、HITSを本発明と比較することだけが可能である。HITSは、最善のハブとしてDを選択し、次善のハブとしてAを選択する。この結果は、オーソリティ計算への結合によって強く影響を受けている。D及びAは、高いオーソリティ Cとのそれらの「相互に補強し合う」関係(つまり、両方向へのリンク)により首位になる。本発明は、C及びDが共に2つの最善のハブであることを見い出して、(「バックワード」列を参照)異なる回答をもたらす。Aは、その2つのアウトリンクのうちの1つがかなり不十分なノードBを指し示すのに対して、C及びDは(本発明によって格付けされた)「優良な」ノードを指し示すので、第3位に格付けされる。従って、ユーザーは、本発明の方法により異なるパスに沿って方向付けられる。高いハブ類似スコアを持つノードは、例えば「Worth following further」として提示されうる。
この例は、この場合も同様に、さまざまな方法がさまざまな格付けをもたらすことを示している。各方法は、その独自の論理を有しているが、結果は異なっており、異なる方法によるユーザーエクスペリエンスは、多くの場合異なっている。さらに、例2ではハブ類似スコアの比較に重点を置いているが、すべての矢印の簡単な逆転がオーソリティスコアについて同じ指示を行うグラフをもたらすことが明らかである。同値の入次数は、WWWなどの大規模なグラフ又はそのサブグラフにおいてはいくぶん稀になる。しかし、単純な入次数を超える微妙な相異が重要な役割を果たす場合も依然としてある。そのような場合、本発明は、PageRank又はHITSによって得られるオーソリティ類似とは異なったオーソリティ類似の見解を提供する。
スコアの計算において、本発明は、PageRank及びHITSと同様に、行列の主固有ベクトルを見つける。行列の主固有ベクトルを見つける最も簡単かつ一般的な方法は、べき乗法(Power Method)である(参照によりその内容が本明細書に組み込まれている非特許文献4を参照)。この方法は、行列で重みのベクトルに乗算を繰り返すことを伴う。行列で重みベクトルに乗算を行うことは、上記で「重み伝搬」と呼んだものに相当する。これは、矢印に「従って」(フォワード)又は矢印に逆らって(バックワード)リンク上の矢印をたどり、規則に従って重みのセットを再分散する。重みの再分散の繰り返しは(本発明の場合及びHITSの場合、合計重みの全正規化と共に)、安定した分散をもたらすが、これが優性つまり主要の固有ベクトルである。これらは、(例えば)上記の表1及び2に示されている、格付けに使用されるスコアである。
明確にするため、フォワード演算子へのべき乗法の適用を図7に示す。ここで、前述の式を使用してプロセスが開始し、開始ベクトルwが選択される(S401)。各繰り返しにおいて、フォワード演算子の動作に従って重みを再分散し、確率論的にランダム・ジャンプを説明することにより、新しい重みwnewが計算される(S403)。その後、この新しい重みは正規化される(S405)。次いで、収束判定が実行される(S407)。重みが収束されている場合、プロセスは終了する。それ以外の場合、新しい重みが計算され、プロセスは重みが収束するまで繰り返す。バックワード演算子の流れ図は、FがBに置き換えられた後は同様である。
もちろん、主固有ベクトルを見つける他の方法もある(例えば、Arasuらによる以前確認された論文を参照)。これらの代替の方法はそれぞれ、本発明の範囲内に収まる。
単純さ、品質、及び他の問題への適用度という3つのカテゴリにおいて本発明の利点の一部を位置付けることが可能である。
単純さに関しては(最も単純であるナイーブなリンク人気の手法を無視して)、HITS方法は、(我々の表記で)2つの行列積BF及びFBの主固有ベクトルを探し出す。これらの行列積を計算することは、おそらく、大規模なグラフのこの問題を解決する最も効率的な方法ではない。2つの大きな行列の乗算は、時間を費やす操作であるからである(参照によりその内容が本明細書に組み込まれている非特許文献5を参照)。従って、HITS計算の効率的な手法は、B及びFによる重みベクトルの交互の乗算を繰り返すことを伴う。これは、この場合も同様に、べき乗法である。PageRankもまた、通常べき乗法を使用する。従って、3つの方法は(自明である次数カウントは除く)計算の複雑さにおいておおむね同等である。いずれも、疎なN×N行列(ここでNはグラフ内のドキュメント数)の適用の繰り返しを伴っている。
結果の品質に関して、本発明は、既知の方法から得られた方法とは質的に異なり、さらに有用な格付け結果をもたらすことができる。PageRankが、ドキュメントごとに単一のスコアしかもたらさず、それが「オーソリティ類似」つまり「優良なドキュメントによって指し示される」と呼ぶタイプのスコアであることを回想されたい。本発明は、複雑さをほとんど増大させずに2つのスコアをもたらし、そのため検索で見い出された関連ドキュメントに関する2つの種類の情報を提供する。
HITSもまた、ドキュメントに関する2種類の情報をもたらす。しかし、これらの2つのスコアの計算の結合は不利となる可能性がある。HITSは、HITS方法が発明されたときに想定されたように、検討されるグラフがすでに検索のトピックに従って注目されている場合には、この2つを結合することはおそらく最も有用である。すべてのドキュメントが単一のトピックに関連する場合、オーソリティに関してハブを判断すること、及びその逆は理に適っているとしてよい。大規模なグラフの場合、そのようにはならない傾向がある。
本発明は、ハブ類似スコア計算からオーソリティ類似スコア計算を分離する。前述のように、これは、小規模で集中したグラフの場合であっても、HITSと同等か、又はそれ以上の結果をもたらすことができる。本発明はさらに、大規模な集中していないグラフに有用に適用されうるという利点も備えている。
本発明の他の適用に関して、本発明は、本明細書において説明されている他の発明と同様に、有向リンクによって接続されたノードとして理論上表されうる任意のシステムに適用されてもよい。すべてのこれまでの説明で明示的又は黙示的に想定されている適用は、ノードが情報ドキュメントである場合のシステムを対象としており、目的はトピック検索によって見い出されたドキュメントを格付けすることである。
要約すれば、本発明は、ハイパーテキスト・リンクによって互いにリンクされているドキュメントを格付けするためにハイパーテキスト・リンク分析を使用する方法のセットから成る。以上の説明から、本発明が商用Web検索エンジンの重要なコンポーネントとして有用となりうることが明らかであり、それは疑いなく本発明の可能な実施形態の1つである。検索エンジンは通常、本発明によって達成されるように、リンク分析格付けをテキスト関連性格付けで補足する。しかし、原理上は、リンク分析格付けはテキスト関連性格付けとは無関係に行われてもよい。さらに、本発明の他の使用は多数に及ぶ。
例えば、本発明は、パーソナル・コンピュータ(PC)でコンテンツを編成する階層型のファイル−フォルダ方法を改善する際に有用である。今日の編成の階層化方法は、平均的なPCユーザーにとって急速に不十分なものになりつつある。問題は、階層ツリーの検索が必然的に非効率的であるという点である。つまり、今日のオペレーティング・システムは、特定のファイルを検索する、つまり全数検索による方法を提供する。ユーザーが、所定のファイル又は所定のトピックに関連付けられているすべてのファイルを必要とする場合を仮定してみる。すべてのファイルをリンクする階層ツリーは、解決策であるかのように見受けられる。しかし、これはあらゆる種類の情報を単一のツリーに編成する効果的な方法を要求し、いかなるユーザーにとっても実行可能な目標ではない。
代わりに、個人の各PCに格納されうる情報及び格納されている情報の急増を考慮すれば、近い将来さらに効率的な検索メカニズムが必要になると予想される。今日のWeb検索エンジンと酷似した統合メカニズムのセットは、PC上の個々のコンテンツを検索する極めて有用な方法となりうる。そのような技法が有効になるためには、PC上のドキュメント間のハイパーテキスト・リンクの確立に向けた規定が設けられる必要がある。これらのハイパーテキスト・リンクはおそらく、手動又は自動、好ましくは両方の方法で作成される。これらは、あらゆる種類のファイルをリンクすることが好ましい。その結果は、「プライベートWeb」となり、そこで各自のドキュメントがWeb形態の有向グラフで相互にリンクされている。プライベートWebを想定すれば、本発明は、ユーザー独自のドキュメントをユーザー起動で検索する際にヒットの格付けに役立つであろう。Web分析に関して先に明確に説明された利点もまた、ここで適用できよう。
さらに、本発明のさまざまな種類の適用を検討することも可能である。ファイル及びユーザーのシステムを実行する場合の重要な1つの側面は、セキュリティである。ユーザーは、ウィルスなどの破壊情報、又は機密情報漏洩からシステムを保護したいと望んでいる。保護には、(i)第一に、そのような有害情報の導入を防ぐこと、(ii)そのような有害情報がシステムに導入されてしまった場合は、その拡散を防ぐ、又は制限すること、という2つの目標を伴う。
このユーザー/ファイルシステムは、有向グラフとして表されうる。ファイルは、さまざまなユーザーのグループに対して読み取り及び書き込み許可を有している。書き込み許可は、ユーザーからファイルへの情報フローを可能にする有向リンクであり、読み取り許可は、反対向きに指し示す矢印である。さらに、ノード(ユーザー又はファイル)の格付けは、被害の拡散を防ぐという前述の目標(ii)に向けて非常に有用なツールになりうる。ユーザーは、拡散に果たしうる役割の大きさに従ってノードを格付けしたいと望む。わずかな役割しか果たさないもの(ネットワークの「エッジ」で接続が十分ではないノード)もあれば、大きな役割を果たすもの(高度に中心的なノード)もある。このように、ノードの格付けにより、システム管理者は、各自の労力を最高に位置付けられるノードを監視して保護することに集中できるようになる。前述のような重み伝搬の方法は、この問題に対して有効となりうる。次に、さまざまな方法を比較してみる。
拡散に関して有効な情報をほとんど提供しないので、ナイーブな次数カウントの手法を直ちに考慮から外すことは可能である。この方法は、完全にローカルな情報の範囲にとどめられ、そのためシステムから実際にはかなり分離されているノードに高いスコアを与える可能性もある。次に、PageRankについて考察する。破壊情報はリンクを介して渡されるたびに自身を複製することができるので、(PageRank方法によって行われるような)ノードの出次数で除算することは、ノードの格付けにおいて適切ではない。さらに、PageRank方法は、各ノードに関する1つのタイプの情報(スコア)しかもたらさない。つまり、ノードが重要なノードによってどの程度指し示されているかを定量化しようとする「オーソリティ類似」スコアしかもたらさない。しかし、被害の拡散を制限するため、ユーザーはさらにノードの「ハブ類似」スコアを知りたいと望む。明らかに、ハブは重要なノードを指し示すこと、ひいては被害をノードに拡散することが得意である。一方、権限ノードは、最も多く「指し示される」ために、最も被害にさらされている。従って、ユーザーは、システム保護の最善の備えのために、両方のタイプのスコアを必要とする。
HITS方法は、両方のタイプのスコアを提供する。しかし、ここで2つのスコアの計算の緊密な結合は深刻な不利となりうる。つまり、被害拡散のためには、ノードが優良な権限(公開度の高いノード)を指し示すという単純な理由で、ノードはそのハブ(スプレッダ)スコアで大きな後押しを受けてはならない。代わりに、高いハブスコアは、当該のノードが他の優良なハブ(スプレッダ)を指し示していることを示唆すべきである。この規定は、バックワード演算子を単に反復してハブスコアを評価する本発明によって完全に適合される。
従って、要約すると、本発明は、ユーザー/ファイル・ネットワーク上の被害の拡大を制限するという問題に適用される場合、(ノードの格付けにリンク分析を使用する)既知の方法に優る重要な利点を備えている。同様の論議は、被害拡大が重要な問題となる他のタイプのシステムに適用される可能性もある。本発明が適用可能となるために満たされなければならない唯一の基準は、ノード間のリンクが方向付けられることである。
図8は、本発明の実施形態が実装されうるコンピュータ・システム1201を示している。コンピュータ設計については、参照によりその全内容が本明細書に組み込まれている非特許文献6において詳細に説明されている。コンピュータ・システム1201は、バス1202又は情報を伝達する他の通信メカニズム、及び情報を処理するためにバス1202に結合されたプロセッサ1203を含んでいる。コンピュータ・システム1201はさらに、情報及びプロセッサ1203によって実行される命令を格納するためにバス1202に結合された、ランダムアクセスメモリ(RAM)又は他の動的記憶装置(例えば、ダイナミックRAM(DRAM)、スタティックRAM(SRAM)、及びシンクロナスDRAM(SDRAM))などのメイン・メモリ1204を含んでいる。さらに、メイン・メモリ1204は、プロセッサ1203による命令の実行中に一時変数又は他の中間情報を格納するために使用されてもよい。コンピュータ・システム1201は、静的情報及びプロセッサ1203の命令を格納するためにバス1202に結合された、読み取り専用メモリ(ROM)1205又は他の静的記憶装置(例えば、プログラマブルROM(PROM)、消去可能PROM(EPROM)、及び電気的消去可能PROM(EEPROM))をさらに含んでいる。
コンピュータ・システム1201はまた、磁気ハード・ディスク1207のような情報及び命令を格納する1つ又は複数の記憶装置を制御するためにバス1202に結合されたディスク・コントローラ1206と、取り外し可能メディア・ドライブ1208(例えば、フロッピー・ディスク・ドライブ、読み取り専用コンパクト・ディスク・ドライブ、読み取り/書き込みコンパクト・ディスク・ドライブ、コンパクト・ディスク・ジュークボックス、テープ・ドライブ、及び取り外し可能光磁気ディスク)を含んでいる。記憶装置は、適切なデバイス・インターフェイス(例えば、Small Computer System Interface(SCSI)、Integrated Device Electronics(IDE)、拡張IDE(E−IDE)、ダイレクト・メモリ・アクセス(DMA)、又はウルトラDMA)を使用してコンピュータ・システム1201に追加されてもよい。
コンピュータ・システム1201はまた、特殊用途論理回路(例えば、特定用途向け集積回路(ASIC))又は構成可能論理回路(例えば、単純プログラマブル論理回路(simple programmable logic device)(SPLD)、結合プログラマブル論理回路(complex programmable logic device)(CPLD)、及びフィールド・プログラマブル・ゲート・アレイ(field programmable gate array)(FPGA))を含めることもできる。
コンピュータ・システム1201はまた、情報をコンピュータ・ユーザーに表示するブラウン管(CRT)などのディスプレイ1210を制御するためにバス1202に結合されたディスプレイ・コントローラ1209を含むことができる。コンピュータ・システムは、コンピュータ・ユーザーと対話して情報をプロセッサ1203に提供するための、キーボード1211及びポインティング・デバイス1212などの入力装置を含んでいる。ポインティング・デバイス1212は、例えば、指示情報及びコマンド選択をプロセッサ1203に伝達し、ディスプレイ1210上のカーソルの移動を制御するための、マウス、トラックボール又はポインティング・スティックであってもよい。さらに、プリンタは、コンピュータ・システム1201によって格納及び/又は生成されたデータの印刷リストを提供することができる。
コンピュータ・システム1201は、メイン・メモリ1204などのメモリに収められている1つ又は複数の命令の1つ又は複数のシーケンスを実行するプロセッサ1203に応答して本発明の処理ステップの一部又は全体を実行する。そのような命令は、ハード・ディスク1207又は取り外し可能メディア・ドライブ1208などの別のコンピュータ可読媒体からメイン・メモリ1204に読み込まれてもよい。マルチプロセッシング配置における1つ又は複数のプロセッサはまた、メイン・メモリ1204に収められている命令のシーケンスを実行するために採用されてもよい。代替の実施形態において、ソフトウェア命令の代わりに、又はソフトウェア命令との組合せでハードワイヤード回路が使用されてもよい。従って、実施形態は、ハードウェア回路及びソフトウェアの特定の組合せに限定されない。
前述のように、コンピュータ・システム1201は、本発明の教示に従ってプログラムされた命令を保持し、データ構造、テーブル、レコード、又は本明細書に説明される他のデータを収容するための、少なくとも1つのコンピュータ可読媒体又はメモリを含んでいる。コンピュータ可読媒体の例としては、コンパクト・ディスク、ハード・ディスク、フロッピー・ディスク、テープ、光磁気ディスク、PROM(EPROM、EEPROM、フラッシュEPROM)、DRAM、SRAM、SDRAM又は他の磁気媒体、コンパクト・ディスク(例えば、CD−ROM)、又は他の光媒体、パンチカード、紙テープ、又は孔のパターンを持つ他の物理媒体、搬送波(以下で説明)、又はコンピュータが読み取ることのできる他の任意の媒体がある。
コンピュータ可読媒体の1つ又は組合せに格納されて、本発明は、コンピュータ・システム1201を制御し、本発明を実装する装置又は複数の装置を駆動し、コンピュータ・システム1201が人間のユーザー(例えば、印刷物制作担当者)と対話できるようにするためのソフトウェアを含んでいる。そのようなソフトウェアは、デバイス・ドライバ、オペレーティング・システム、開発ツール、及びアプリケーション・ソフトウェアを含むことができるが、これらに限定されることはない。そのようなコンピュータ可読媒体は、本発明を実装する際に実行される処理の全部又は一部(処理が分散される場合)を実行するための本発明のコンピュータ・プログラム製品をさらに含んでいる。
本発明のコンピュータ・コード・デバイスは、スクリプト、解釈可能プログラム、ダイナミック・リンク・ライブラリ(DLL)、Javaクラス、及び完全な実行可能プログラムを含む任意の解釈可能又は実行可能コードメカニズムであってもよいが、これらに限定されることはない。さらに、本発明の処理の一部は、パフォーマンス、信頼性、及び/又はコストの改善をめざして分散されてもよい。
本明細書において使用される「コンピュータ可読媒体」という用語は、実行のためにプロセッサ1203に命令を提供することに参加する任意の媒体を表している。コンピュータ可読媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含む多くの形態をとることができるが、これらに限定されることはない。不揮発性媒体は、例えば、ハード・ディスク1207又は取り外し可能メディア・ドライブ1208などの光ディスク、磁気ディスク、及び光磁気ディスクを含んでいる。揮発性媒体は、メイン・メモリ1204などのダイナミックメモリを含んでいる。伝送媒体は、バス1202を形成するワイヤーを始めとする、同軸ケーブル、銅線、及び光ファイバを含んでいる。伝送媒体はさらに、電波及び赤外線通信で生成されるような、音波又は光波の形態をとることもできる。
コンピュータ可読媒体のさまざまな形態は、実行のためのプロセッサ1203への1つ又は複数の命令の1つ又は複数のシーケンスを実施することに関与してもよい。例えば、命令は最初にリモート・コンピュータの磁気ディスクに伝達されてもよい。リモート・コンピュータは、本発明の全部又は一部を実装するための命令をダイナミックメモリにリモートにロードして、モデムを使用して命令を電話回線経由で送信することができる。コンピュータ・システム1201にローカルなモデムは、電話回線でデータを受信し、赤外線送信機を使用してデータを赤外線信号に変換することができる。バス1202に結合された赤外線検出器は、赤外線信号で搬送されたデータを受信して、バス1202上にデータを配置することができる。バス1202は、データをメイン・メモリ1204に搬送し、そこからプロセッサ1203は命令を取り出して実行する。メイン・メモリ1204によって受信された命令は、プロセッサ1203による実行の前又は後に、記憶装置1207又は1208にオプションで格納されてもよい。
コンピュータ・システム1201はまた、バス1202に結合された通信インターフェイス1213を含んでいる。通信インターフェイス1213は、例えばローカル・エリア・ネットワーク(LAN)1215、又はインターネットなど他の通信ネットワーク1216に接続されているネットワーク・リンク1214に結合する双方向データ通信を提供する。例えば、通信インターフェイス1213は、任意のパケット交換LANに接続するネットワークインターフェイスカードであってもよい。もう1つの例として、通信インターフェイス1213は、非対称デジタル加入者線(ADSL)カード、統合デジタル通信網(ISDN)カード、又は対応するタイプの通信回線にデータ通信接続を提供するモデムであってもよい。無線リンクが実装されてもよい。そのような任意の実装において、通信インターフェイス1213は、さまざまなタイプの情報を表すデジタル・データ・ストリームを搬送する電気、電磁、又は光信号を送受信する。
ネットワーク・リンク1214は通常、他のデータ装置への1つ又は複数のネットワークを経由してデータ通信を提供する。例えば、ネットワーク・リンク1214は、ローカル・ネットワーク1215(例えばLAN)経由、又は通信ネットワーク1216を介して通信サービスを提供するサービスプロバイダによって運営される装置経由で他のコンピュータに接続を提供することができる。ローカル・ネットワーク1214及び通信ネットワーク1216は、例えば、デジタル・データ・ストリームを搬送する電気、電磁、又は光信号、及び関連する物理層(例えば、CAT5ケーブル、同軸ケーブル、光ファイバなど)を使用する。コンピュータ・システム1201との間でデジタル・データを搬送する、さまざまなネットワークを経由する信号と、ネットワーク・リンク1214上及び通信インターフェイス1213経由の信号は、ベースバンド信号又は搬送波ベースの信号で実装されてもよい。ベースバンド信号は、デジタル・データビットのストリームを記述する無変調の電気パルスとしてデジタル・データを伝達する。ここで「ビット」という用語は、各シンボルが少なくとも1つ又は複数の情報ビットを搬送する場合のシンボルを意味するように広義に解釈される。デジタル・データはまた、導電媒体を介して伝搬されるか、又は伝搬媒体経由で電磁波として伝送される、振幅、位相及び/又は周波数偏移符号化信号などにより、搬送波を変調するために使用されてもよい。従って、デジタル・データは、「有線の」通信チャネル経由で無変調ベースバンドデータとして送信、及び/又は搬送波を変調することにより、ベースバンドとは異なる、あらかじめ定められた周波数帯域内で送信されてもよい。コンピュータ・システム1201は、ネットワーク1215及び1216、ネットワーク・リンク1214、及び通信インターフェイス1213を介して、プログラム・コードを含むデータを送受信することができる。さらに、ネットワーク・リンク1214は、携帯情報端末(PDA)、ラップトップ・コンピュータ、又は携帯電話などのモバイル装置1217に、LAN1215経由で接続を提供することができる。
要約すると、既存のアルゴリズムの説明から、非正規化フォワード演算子F及び非正規化バックワード演算子Bが極めて優良なリンク分析結果を提供できることが明らかである。さらに重要なことに、SALSA及びHITS技法の結果の間の大きな差異を回想し、PageRankf演算から正規化を除去することが、リンク分析結果に重要な効果をもたらすことになる。さらに、合成演算子BF又はFBではなく、単体のバックワード演算子を使用することで、他のいかなる結果とも異なる結果をもたらす。b演算子のこれまでの極めて限定されたテストは、結果が有意義であることを示唆している。非正規化B演算子は、同様に注目に値する。一般にバックワード演算子は、HITS方法のハブスコアの精神においてさらに多くスコアをもたらす傾向がある。
中央Web検索エンジンにおいてヒットを格付けするための本発明の実装では、他のいくつかのコンポーネントとの統合、テキスト格付けシステム、索引付けシステム、クローラ、及びユーザー・インターフェイスを必要とする。本発明は、この実施形態において、完全な実用的な検索エンジンの一部を表しており、システムなど他のコンポーネントから分離して実装されることは不可能である。
本発明はさらに、単一のPC上に保持されるコンテンツにわたり動作する検索エンジンの一部として実装されてもよい。この実装には、PC(つまり「プライベートWeb」)に格納されているすべてのドキュメント(メール、テキスト、プレゼンテーションなど)の間のハイパーリンクの導入を必要とする。この概念(単一PC上のドキュメント間のハイパーリンク)は、我々の知る限りでは、今日のオペレーティング・システムで非常に限定された範囲でしか実現されていない。従って、「プライベートWeb」の一部として本発明を実装することは、PCの多くのファイル処理アプリケーションの変更を必要とするであろう。さらに、索引付けシステム、ユーザー・インターフェイス、及び(おそらくは)テキスト関連性に基づく格付けシステムが必要とされるであろう。
前述の教示を考慮すれば、本発明の多くの変更及び変形が可能であることは明白である。従って、本明細書に具体的に説明されている以外の状況においても、本発明が添付の請求の範囲内で実施されうることが理解されよう。
リンクされたデータベース(グラフ)全体にリンク分析を適用する従来の方法を示している。 リンク分析が全グラフに適用される図1の方法に対応する格付けメカニズムのアーキテクチャを示している。 従来のトピック検索によって選択されたドキュメントのサブセットにリンク分析を適用する従来の方法を示している。 リンク分析がサブグラフに適用される図3の方法に対応する格付けメカニズムのアーキテクチャを示している。 本発明の第1のテスト・ケースを示している。 本発明の第2のテスト・ケースを示している。 本発明に関連する流れ図である。 本発明に関連するコンピュータ・システムのブロック図である。
符号の説明
1210 ディスプレイ
1211 キーボード
1212 ポインティング・デバイス
1209 ディスプレイ・コントローラ
1204 メイン・メモリ
1206 ディスク・コントローラ
1202 バス
1203 プロセッサ
1213 通信インターフェイス
1207 ハード・ディスク
1208 取り外し可能メディア・ドライブ
1216 通信ネットワーク
1217 モバイル装置

Claims (17)

  1. コンピュータを用いて、リンクされた複数のノードのセットにおいて該ノードの関連性を格付けする方法であって、
    前記ノード間の逆方向のリンク関係を行列で表現した非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した非複合の非正規化フォワード演算子を使用して前記複数のノードのオーソリティ重みのベクトルを、前記コンピュータによって決定するステップであって、
    前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを選択し、
    前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第1の更新ベクトルを決定し、
    ノード重みの前記決定された第1の更新ベクトルを正規化し、および、
    ノード重みの第1の更新ベクトルを決定する前記ステップとノード重みの前記決定された第1の更新ベクトルを正規化する前記ステップとを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストすることを含む、オーソリティ重みのベクトル決定ステップと、
    前記オーソリティ重みのベクトル決定ステップと数学的に分離されるように、前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を使用して前記ノードのハブ重みのベクトルを、前記コンピュータによって決定するステップであって、
    前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを選択し、
    前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を適用してノード重みの第2の更新ベクトルを決定し、
    ノード重みの前記決定された第2の更新ベクトルを正規化し、
    ノード重みの第2の更新ベクトルを決定する前記ステップとノード重みの前記決定された第2の更新ベクトルを正規化する前記ステップとを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストすることを含むステップとを含む、ハブ重みのベクトル決定ステップと、
    前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードの関連性を、前記コンピュータによって格付けするステップと、
    電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成するステップとを備えた方法。
  2. 前記関連性を格付けするステップは、
    検索項目を選択するステップと、
    格付け結果を表示するステップをさらに備える請求項1記載の方法。
  3. 前記関連性を格付けするステップは、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を、前記コンピュータによって格付けするステップを備える請求項1記載の方法。
  4. リンクされた複数のノードのセットにおいて該ノードの関連性を格付けするシステムであって、
    前記ノード間の逆方向のリンク関係を行列で表現した非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した非複合の非正規化フォワード演算子を用いて前記複数のノードのオーソリティ重みのベクトルを計算し、
    該オーソリティ重みのベクトルの計算において、
    前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを選択し、
    前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第1の更新ベクトルを決定し、
    ノード重みの前記決定された第1の更新ベクトルを正規化し、
    ノード重みの前記第1の更新ベクトルの決定とノード重みの前記決定された第1の更新ベクトルの正規化とを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストし、
    前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を用いて前記ノードのハブ重みのベクトルを計算し、それにより、前記オーソリティ重みのベクトルの計算と前記ハブ重みのベクトルの計算とが数学的に分離されるように構成され、
    該ハブ重みのベクトルの計算において、
    前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを選択し、
    前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を適用してノード重みの第2の更新ベクトルを決定し、
    ノード重みの前記決定された第2の更新ベクトルを正規化し、
    ノード重みの第2の更新ベクトルの決定とノード重みの前記決定された第2の更新ベクトルの正規化とを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストし、
    さらに前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードの関連性を格付けするように構成された計算器と、
    電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成するように構成されたコンピュータベースのサーチエンジンとを備えたシステム。
  5. 前記計算器に接続された検索項目選択装置と、
    前記計算器に接続され、前記格付け結果を表示するディスプレイをさらに備える請求項4記載のシステム。
  6. 前記計算器に接続され、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を格付けするテキスト内容格付けメカニズムをさらに備える請求項4記載のシステム。
  7. コンピュータを用いて、リンクされた複数のノードのセットにおいて該ノードの関連性を格付けする方法であって、
    前記ノード間の逆方向のリンク関係を行列で表現した演算子である非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した演算子である非複合の非正規化フォワード演算子を使用して前記複数のノードのオーソリティ重みのベクトルを、前記コンピュータによって決定し、あるいは、前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を使用して前記ノードのハブ重みのベクトルを、前記コンピュータによって決定するステップであって、
    前記オーソリティ重みのベクトルを決定する場合には、前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを選択し、
    前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第1の更新ベクトルを決定し、
    ノード重みの前記決定された第1の更新ベクトルを正規化し、および、
    ノード重みの第1の更新ベクトルを決定する前記ステップとノード重みの前記決定された第1の更新ベクトルを正規化する前記ステップとを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストし、
    前記ハブ重みのベクトルを決定する場合には、
    前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを選択し、
    前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を適用してノード重みの第2の更新ベクトルを決定し、
    ノード重みの前記決定された第2の更新ベクトルを正規化し、
    ノード重みの第2の更新ベクトルを決定する前記ステップとノード重みの前記決定された第2の更新ベクトルを正規化する前記ステップとを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストするステップと、
    前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルのいずれか一方に基づいて、前記各ノードの関連性を、前記コンピュータによって格付けするステップと、
    電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成するステップとを備えた方法。
  8. 前記関連性を格付けするステップは、検索項目を選択するステップを備える請求項7記載の方法。
  9. 前記関連性を格付けするステップは、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を、前記コンピュータによって格付けするステップを備える請求項7記載の方法。
  10. 前記コンピュータベースのサーチエンジンを備えたシステムのプロセッサに接続され、対応する計算されたオーソリティ重み及びハブ重みをディスプレイに中継するように構成されたディスプレイコントローラをさらに備えた請求項4に記載のシステム。
  11. 請求項1乃至3あるいは請求項7乃至9のいずれか1項に記載のステップをプロセッサベースの装置に実行させる命令が含まれたコンピュータ・プログラムを格納したコンピュータ読出し可能な記憶媒体。
  12. リンクされた複数のノードのセットにおいて該ノードの関連性を格付けするシステムであって、
    前記ノード間の逆方向のリンク関係を行列で表現した非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した非複合の非正規化フォワード演算子を使用して前記複数のノードのオーソリティ重みのベクトルを決定する手段であって、
    該オーソリティ重みのベクトルの決定において、
    前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを入力として受け取り、
    前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第1の更新ベクトルを決定し、
    ノード重みの前記決定された第1の更新ベクトルを正規化し、
    ノード重みの前記第1の更新ベクトルの決定とノード重みの前記決定された第1の更新ベクトルの正規化とを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストする手段と、
    前記オーソリティ重みのベクトルを決定する手段と数学的に分離されるように、前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を使用して前記ノードのハブ重みのベクトルを決定する手段であって、
    該ハブ重みのベクトルの計算において、
    前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを入力として受け取り、
    前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を適用してノード重みの第2の更新ベクトルを決定し、
    ノード重みの前記決定された第2の更新ベクトルを正規化し、
    ノード重みの第2の更新ベクトルの決定とノード重みの前記決定された第2の更新ベクトルの正規化とを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストする手段と、
    前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードの関連性を格付けする手段と、
    電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成する手段とを備えたシステム。
  13. 前記格付けする手段は、
    検索項目を選択する手段と、
    格付け結果を表示する手段とをさらに備える請求項12記載のシステム。
  14. 前記格付けする手段は、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を格付けする手段を備える請求項12記載のシステム。
  15. リンクされた複数のノードのセットにおいて該ノードの関連性を格付けするシステムにおいて、
    前記ノード間の逆方向のリンク関係を行列で表現した非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した非複合の非正規化フォワード演算子を使用して前記複数のノードのオーソリティ重みのベクトルを、前記コンピュータによって決定し、あるいは、前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を使用して前記ノードのハブ重みのベクトルを、前記コンピュータによって決定する手段であって、
    該オーソリティ重みのベクトルを決定する場合、
    前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを選択し、
    前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第1の更新ベクトルを決定し、
    前記ノード重みの前記決定された第1の更新ベクトルを正規化し、
    前記ノード重みの前記第1の更新ベクトルの決定とノード重みの前記決定された第1の更新ベクトルの正規化とを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストし、
    前記ハブ重みのベクトルを決定する場合、
    前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを選択し、
    前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を使用してノード重みの第2の更新ベクトルを決定し、
    ノード重みの前記決定された第2の更新ベクトルを正規化し、
    ノード重みの第2の更新ベクトルの決定とノード重みの前記決定された第2の更新ベクトルの正規化とを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで収束を判定する手段と、
    前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルいずれか一方に基づいて前記各ノードの関連性を格付けする手段と、
    電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成する手段とを備えるシステム。
  16. 前記格付けする手段は、検索項目を選択する手段を備える請求項15記載のシステム。
  17. 前記格付けする手段は、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を格付けする手段を備える請求項15記載のシステム。
JP2006536634A 2003-10-20 2004-10-07 バックワード及びフォワード非正規化リンク重み分析方法、システム、及びコンピュータ・プログラム製品 Expired - Fee Related JP4268638B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/687,602 US7281005B2 (en) 2003-10-20 2003-10-20 Backward and forward non-normalized link weight analysis method, system, and computer program product
PCT/US2004/030908 WO2005043284A2 (en) 2003-10-20 2004-10-07 Backward and forward on-normalized link weight analysis method, system, and computer program product

Publications (3)

Publication Number Publication Date
JP2007511815A JP2007511815A (ja) 2007-05-10
JP2007511815A5 JP2007511815A5 (ja) 2008-01-24
JP4268638B2 true JP4268638B2 (ja) 2009-05-27

Family

ID=34521005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006536634A Expired - Fee Related JP4268638B2 (ja) 2003-10-20 2004-10-07 バックワード及びフォワード非正規化リンク重み分析方法、システム、及びコンピュータ・プログラム製品

Country Status (10)

Country Link
US (1) US7281005B2 (ja)
EP (1) EP1690152A4 (ja)
JP (1) JP4268638B2 (ja)
KR (1) KR20060085916A (ja)
CN (1) CN1930545A (ja)
AR (1) AR046125A1 (ja)
MY (1) MY138887A (ja)
NO (1) NO20062242L (ja)
RU (1) RU2006117359A (ja)
WO (1) WO2005043284A2 (ja)

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792827B2 (en) * 2002-12-31 2010-09-07 International Business Machines Corporation Temporal link analysis of linked entities
JP2005135071A (ja) * 2003-10-29 2005-05-26 Hewlett-Packard Development Co Lp 商品購入における信頼値の算出方法及び装置
US7464075B2 (en) * 2004-01-05 2008-12-09 Microsoft Corporation Personalization of web page search rankings
US20060294124A1 (en) * 2004-01-12 2006-12-28 Junghoo Cho Unbiased page ranking
US7673253B1 (en) * 2004-06-30 2010-03-02 Google Inc. Systems and methods for inferring concepts for association with content
US7493320B2 (en) * 2004-08-16 2009-02-17 Telenor Asa Method, system, and computer program product for ranking of documents using link analysis, with remedies for sinks
US7328136B2 (en) * 2004-09-15 2008-02-05 Council Of Scientific & Industrial Research Computer based method for finding the effect of an element in a domain of N-dimensional function with a provision for N+1 dimensions
US20060074910A1 (en) * 2004-09-17 2006-04-06 Become, Inc. Systems and methods of retrieving topic specific information
US20060069675A1 (en) * 2004-09-30 2006-03-30 Ogilvie John W Search tools and techniques
US8595225B1 (en) * 2004-09-30 2013-11-26 Google Inc. Systems and methods for correlating document topicality and popularity
US7779001B2 (en) * 2004-10-29 2010-08-17 Microsoft Corporation Web page ranking with hierarchical considerations
US7991755B2 (en) * 2004-12-17 2011-08-02 International Business Machines Corporation Dynamically ranking nodes and labels in a hyperlinked database
JP2008525896A (ja) * 2004-12-23 2008-07-17 ビカム, インコーポレイテッド リンクされた文書の集合に相対的品質スコアを割り当てるための方法
US7668822B2 (en) * 2004-12-23 2010-02-23 Become, Inc. Method for assigning quality scores to documents in a linked database
US8122030B1 (en) 2005-01-14 2012-02-21 Wal-Mart Stores, Inc. Dual web graph
US9286387B1 (en) * 2005-01-14 2016-03-15 Wal-Mart Stores, Inc. Double iterative flavored rank
KR100952391B1 (ko) * 2005-04-14 2010-04-14 에스케이커뮤니케이션즈 주식회사 인터넷 네트워크에서 콘텐츠의 평가에 따른 가치 분석시스템, 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수있는 기록 매체
US7958120B2 (en) 2005-05-10 2011-06-07 Netseer, Inc. Method and apparatus for distributed community finding
US9110985B2 (en) * 2005-05-10 2015-08-18 Neetseer, Inc. Generating a conceptual association graph from large-scale loosely-grouped content
JP2006330880A (ja) * 2005-05-24 2006-12-07 Hewlett-Packard Development Co Lp 信頼ネットワークにおける矢の重み値の算出方法及び装置
US7962462B1 (en) * 2005-05-31 2011-06-14 Google Inc. Deriving and using document and site quality signals from search query streams
US8583627B1 (en) * 2005-07-01 2013-11-12 Google Inc. Display-content alteration for user interface devices
EP1746521A1 (fr) * 2005-07-22 2007-01-24 France Telecom Procédé de classement d'un ensemble de documents électroniques du type pouvant contenir des liens hypertextes vers d'autres documents électroniques
US7565358B2 (en) * 2005-08-08 2009-07-21 Google Inc. Agent rank
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
US8583628B2 (en) * 2005-12-22 2013-11-12 Oracle International Corporation Recursive document network searching system having manual and learned component structures
US8380721B2 (en) 2006-01-18 2013-02-19 Netseer, Inc. System and method for context-based knowledge search, tagging, collaboration, management, and advertisement
WO2007084778A2 (en) 2006-01-19 2007-07-26 Llial, Inc. Systems and methods for creating, navigating and searching informational web neighborhoods
US7584183B2 (en) * 2006-02-01 2009-09-01 Yahoo! Inc. Method for node classification and scoring by combining parallel iterative scoring calculation
IL174107A0 (en) * 2006-02-01 2006-08-01 Grois Dan Method and system for advertising by means of a search engine over a data network
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
WO2007100923A2 (en) * 2006-02-28 2007-09-07 Ilial, Inc. Methods and apparatus for visualizing, managing, monetizing and personalizing knowledge search results on a user interface
JP2007241459A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd ドキュメントデータ分析装置
CN100495398C (zh) * 2006-03-30 2009-06-03 国际商业机器公司 文件系统中搜索排序的方法及相关搜索引擎
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
EP2016510A1 (en) * 2006-04-24 2009-01-21 Telenor ASA Method and device for efficiently ranking documents in a similarity graph
US7603350B1 (en) 2006-05-09 2009-10-13 Google Inc. Search result ranking based on trust
US7949661B2 (en) * 2006-08-24 2011-05-24 Yahoo! Inc. System and method for identifying web communities from seed sets of web pages
US7912831B2 (en) * 2006-10-03 2011-03-22 Yahoo! Inc. System and method for characterizing a web page using multiple anchor sets of web pages
US9817902B2 (en) * 2006-10-27 2017-11-14 Netseer Acquisition, Inc. Methods and apparatus for matching relevant content to user intention
TWI337712B (en) * 2006-10-30 2011-02-21 Inst Information Industry Systems and methods for measuring behavior characteristics, and machine readable medium thereof
US7809705B2 (en) * 2007-02-13 2010-10-05 Yahoo! Inc. System and method for determining web page quality using collective inference based on local and global information
JP2008217637A (ja) * 2007-03-07 2008-09-18 Fuji Xerox Co Ltd 情報分析装置及びプログラム
US7844609B2 (en) 2007-03-16 2010-11-30 Expanse Networks, Inc. Attribute combination discovery
IL182518A0 (en) * 2007-04-12 2007-09-20 Grois Dan Pay per relevance (ppr) advertising method and system
US8161040B2 (en) 2007-04-30 2012-04-17 Piffany, Inc. Criteria-specific authority ranking
KR100898462B1 (ko) * 2007-05-16 2009-05-21 엔에이치엔(주) 문서 순위 결정 방법 및 이를 이용한 문서 순위 결정시스템
US20090043752A1 (en) 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
US7792854B2 (en) 2007-10-22 2010-09-07 Microsoft Corporation Query dependent link-based ranking
US20090234829A1 (en) * 2008-03-11 2009-09-17 Microsoft Corporation Link based ranking of search results using summaries of result neighborhoods
US10387892B2 (en) * 2008-05-06 2019-08-20 Netseer, Inc. Discovering relevant concept and context for content node
US20090300009A1 (en) * 2008-05-30 2009-12-03 Netseer, Inc. Behavioral Targeting For Tracking, Aggregating, And Predicting Online Behavior
US20100063830A1 (en) * 2008-09-10 2010-03-11 Expanse Networks, Inc. Masked Data Provider Selection
US7917438B2 (en) 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US8200509B2 (en) * 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US20100076950A1 (en) * 2008-09-10 2010-03-25 Expanse Networks, Inc. Masked Data Service Selection
US8417695B2 (en) * 2008-10-30 2013-04-09 Netseer, Inc. Identifying related concepts of URLs and domain names
US20100169338A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Search System
US8386519B2 (en) * 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US8255403B2 (en) * 2008-12-30 2012-08-28 Expanse Networks, Inc. Pangenetic web satisfaction prediction system
US8166072B2 (en) * 2009-04-17 2012-04-24 International Business Machines Corporation System and method for normalizing and merging credential stores
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
EP2337280A1 (en) 2009-12-21 2011-06-22 Thomson Licensing Method to manage an opportunistic communication network
US8606792B1 (en) 2010-02-08 2013-12-10 Google Inc. Scoring authors of posts
US8533319B2 (en) * 2010-06-02 2013-09-10 Lockheed Martin Corporation Methods and systems for prioritizing network assets
US8954425B2 (en) * 2010-06-08 2015-02-10 Microsoft Corporation Snippet extraction and ranking
US8458115B2 (en) 2010-06-08 2013-06-04 Microsoft Corporation Mining topic-related aspects from user generated content
GB201011062D0 (en) * 2010-07-01 2010-08-18 Univ Antwerpen Method and system for using an information system
AU2010202901B2 (en) * 2010-07-08 2016-04-14 Patent Analytics Holding Pty Ltd A system, method and computer program for preparing data for analysis
US8285728B1 (en) * 2010-08-24 2012-10-09 The United States Of America As Represented By The Secretary Of The Navy Knowledge discovery and dissemination of text by mining with words
US9251123B2 (en) * 2010-11-29 2016-02-02 Hewlett-Packard Development Company, L.P. Systems and methods for converting a PDF file
CN102546230B (zh) * 2010-12-08 2014-05-07 中国科学院声学研究所 一种p2p流媒体系统覆盖网拓扑优化方法
JP5928248B2 (ja) * 2012-08-27 2016-06-01 富士通株式会社 評価方法、情報処理装置およびプログラム
US10311085B2 (en) 2012-08-31 2019-06-04 Netseer, Inc. Concept-level user intent profile extraction and applications
JP6242707B2 (ja) * 2014-02-07 2017-12-06 富士通株式会社 管理プログラム、管理方法、及び管理システム
CN104317807B (zh) * 2014-09-24 2017-05-31 中国人民武装警察部队工程大学 一种基于网络科学的微博用户关系网络演化模型构造方法
US9892210B2 (en) * 2014-10-31 2018-02-13 Microsoft Technology Licensing, Llc Partial graph incremental update in a social network
US20170262521A1 (en) 2016-03-11 2017-09-14 Linkedin Corporation Partitioning and replicating data in scalable distributed data stores
CN108055346B (zh) * 2017-12-26 2020-12-22 广东睿江云计算股份有限公司 一种优化邮件终端链接的方法
CN110598073B (zh) 2018-05-25 2024-04-26 微软技术许可有限责任公司 基于拓扑关系图的实体网页链接的获取技术
WO2021124933A1 (ja) * 2019-12-20 2021-06-24 桂太 杉原 情報処理システム及び情報処理方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2331166B (en) * 1997-11-06 2002-09-11 Ibm Database search engine
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6112202A (en) * 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US6555465B2 (en) 1997-12-05 2003-04-29 Yamaha Corp. Multi-layer wiring structure of integrated circuit and manufacture of multi-layer wiring
US6738678B1 (en) * 1998-01-15 2004-05-18 Krishna Asur Bharat Method for ranking hyperlinked pages using content and connectivity analysis
US6457028B1 (en) 1998-03-18 2002-09-24 Xerox Corporation Method and apparatus for finding related collections of linked documents using co-citation analysis
US6112203A (en) * 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US6334131B2 (en) * 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6356899B1 (en) * 1998-08-29 2002-03-12 International Business Machines Corporation Method for interactively creating an information database including preferred information elements, such as preferred-authority, world wide web pages
US6321220B1 (en) * 1998-12-07 2001-11-20 Altavista Company Method and apparatus for preventing topic drift in queries in hyperlinked environments
US6591261B1 (en) * 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6353825B1 (en) * 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
US7260774B2 (en) * 2000-04-28 2007-08-21 Inceptor, Inc. Method & system for enhanced web page delivery
JP2001319129A (ja) 2000-05-04 2001-11-16 Apex Interactive Inc インターネットウェブサイトのサーチエンジンランキングを向上させるためのシステム、方法、およびコンピュータプログラム製品
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6526440B1 (en) * 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US6795820B2 (en) * 2001-06-20 2004-09-21 Nextpage, Inc. Metasearch technique that ranks documents obtained from multiple collections
US7076483B2 (en) * 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US6701312B2 (en) * 2001-09-12 2004-03-02 Science Applications International Corporation Data ranking with a Lorentzian fuzzy score
AU2003214311A1 (en) * 2002-01-11 2003-07-24 Enrico Maim Methods and systems for searching and associating information resources such as web pages
MXPA04011507A (es) * 2002-05-20 2005-09-30 Tata Infotech Ltd Identificador de estructura de documento.

Also Published As

Publication number Publication date
RU2006117359A (ru) 2007-12-20
AR046125A1 (es) 2005-11-23
US7281005B2 (en) 2007-10-09
JP2007511815A (ja) 2007-05-10
KR20060085916A (ko) 2006-07-28
WO2005043284A2 (en) 2005-05-12
NO20062242L (no) 2006-05-18
CN1930545A (zh) 2007-03-14
MY138887A (en) 2009-08-28
WO2005043284A3 (en) 2006-07-20
EP1690152A2 (en) 2006-08-16
EP1690152A4 (en) 2007-09-19
US20050086260A1 (en) 2005-04-21

Similar Documents

Publication Publication Date Title
JP4268638B2 (ja) バックワード及びフォワード非正規化リンク重み分析方法、システム、及びコンピュータ・プログラム製品
US9195744B2 (en) Protecting information in search queries
Kraft et al. Y! q: contextual search at the point of inspiration
US7895195B2 (en) Method and apparatus for constructing a link structure between documents
CN102203769B (zh) 用于选项卡式文档界面的可组合的选项卡
US6112202A (en) Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US7194454B2 (en) Method for organizing records of database search activity by topical relevance
US20080313117A1 (en) Methods and Systems for Creating a Behavioral WEB Graph
CA2682051C (en) Look-ahead document ranking system
KR101498396B1 (ko) 문자열 생성 방법, 프로그램 및 시스템
US20110106793A1 (en) System for User Driven Ranking of Web Pages
Rawat et al. Efficient focused crawling based on best first search
Wu et al. Mining compact high utility itemsets without candidate generation
Yang et al. Lightweight composite re-ranking for efficient keyword search with BERT
Suri et al. Comparative study of ranking algorithms
Yang et al. Topic-level random walk through probabilistic model
Cule et al. Efficient discovery of sets of co-occurring items in event sequences
Baeza-Yates et al. An effective and efficient algorithm for ranking web documents via genetic programming
Sharma et al. A survey: Static and dynamic ranking
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
Plachouras et al. The Static Absorbing Model for the Web.
Miao et al. From Paragraph Networks to Document Networks.
Yang et al. Composite re-ranking for efficient document search with bert
Hussein et al. An Effective Web Mining Algorithm using Link Analysis
Shah et al. Understanding Focused Crawler

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071130

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071130

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20071218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080104

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080404

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081003

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081010

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081204

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090123

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees