JP4268638B2

JP4268638B2 - バックワード及びフォワード非正規化リンク重み分析方法、システム、及びコンピュータ・プログラム製品

Info

Publication number: JP4268638B2
Application number: JP2006536634A
Authority: JP
Inventors: ジョフリー、キャンライト; ケンス、エンゴ‐モンセン
Original assignee: テレノールアーアスアー
Priority date: 2003-10-20
Filing date: 2004-10-07
Publication date: 2009-05-27
Anticipated expiration: 2024-10-07
Also published as: RU2006117359A; AR046125A1; US7281005B2; JP2007511815A; KR20060085916A; WO2005043284A2; NO20062242L; CN1930545A; MY138887A; WO2005043284A3; EP1690152A2; EP1690152A4; US20050086260A1

Description

本発明は、ハイパーテキスト・リンクにより分散ネットワークで見い出される情報源を格付けするための方法、システム、及びコンピュータ・プログラム製品を含んでいる。方法のソフトウェア／ファームウェアの実施態様は、開示されるハイパーテキスト・リンク分析の方法に基づいてノードの格付けをもたらすことを目的とする分散情報システムを検索するシステムの１つのコンポーネントを構成する。完全なシステムはまた、テキスト関連性に基づいて格付けスコアをもたらすツール、索引付けシステム、クローラ、及びユーザー・インターフェイスを含むさまざまな他のコンポーネントも備えることができる。

多くの装置及びアルゴリズムによって対処される問題は、分散情報データベースにわたる検索の後のヒットの格付けに関している。つまり、検索が、特定のドキュメントの検索ではなくトピック（キーワード）によって導かれるような場合において、ユーザーが評価或いは眼を通すことができる以上の多数の検索基準の一致、つまり「ヒット」が生じることが頻繁に起こる可能性がある。ヒットは、数千、或いはそれを上回る数に及ぶことがある。従って、ヒットの格付けは極めて重要である。どのヒットが最も関連性又は価値が高いかに関して何らかの指針がない限り、優良なヒットはありふれたヒット又は不適切なヒットの海に埋もれてしまうおそれがある。

ハイパーリンクされているデータベースを通じてキーワード検索から得られたヒットを格付けする場合、テキスト関連性格付け、及びリンク分析に基づく格付けという、２つの一般的な格付けのタイプが可能である。通常の検索エンジンは両方のタイプを使用するが、多くの場合、単純可能リンク分析技法（ｓｉｍｐｌｅｓｔｐｏｓｓｉｂｌｅｌｉｎｋａｎａｌｙｓｉｓｔｅｃｈｎｉｑｕｅ）、つまりリンクの人気（ｌｉｎｋｐｏｐｕｌａｒｉｔｙ）が使用される。

テキスト関連性格付けは、格付けされるドキュメントの内容、つまり検索のキーワードに対するその内容の関連性に基づいている。従って、テキスト関連性格付けはほとんどの場合、ドキュメントの全セット（「全グラフ」、又はＷＧ）を見るか、又はドキュメントのサブセットのみ（「サブグラフ」）を見るかどうかには影響を受けない。

対照的に、リンク分析はドキュメントを、ハイパーリンク・ネットワーク内のその位置、つまり「ドキュメントのコミュニティ」のタイプに基づいて格付けする。一部のドキュメントは、リンクされたネットワーク内の「高い」又は「中心の」位置を持ち、そのため高い格付けを与えられる。リンク分析格付けは（ナイーブな（ｎａｉｖｅ）リンク人気技法を除いて）、ネットワークの構造全体（グラフ）の影響を受けるので、格付け結果は、グラフ全体を見るか、又はサブグラフのみを見るかどうかの影響を受ける。

図１〜４は、（ｉ）グラフ全体に基づくリンク分析格付け（図１及び２）と（ｉｉ）サブグラフに基づくリンク分析格付け（図３及び４）という前述の２つの場合について、テキスト関連性格付け及びリンク分析格付けの間の関係を示している。図１及び３は、それぞれ、（ｉ）及び（ｉｉ）の場合の簡略化された一般的な概要を示しているが、図２及び４は、それぞれの場合のシステム・アーキテクチャをさらに詳細に示している。

図１から説明する。図１〜４のすべての図と同様に、この図において、クローラ又は他の技法が、全グラフＷＧの内容及びリンク構造の両方を説明するデータベースを構築していると仮定する。図１において、リンク分析１１３は全グラフのデータベース１０３に適用されて、ドキュメントのリンク分析格付けがグラフ全体におけるこれらの位置に基づくようになっており、そのため検索項目から独立していることが分かる。次いで、検索項目１０１は、後にテキスト関連性格付け１０７を与えられるヒットのセット１０５を選び出すために使用される。最後に、全グラフ・リンク分析１１３からの格付け及びテキスト関連性格付け１０７は、各ドキュメントの優先付けヒット・リスト１１１順格付けスコアをもたらすために組み合わされる。

図２において、全グラフ・データベース１０３は、その２つの主要コンポーネントであるコンテンツ・データベース１０３ａとリンク構造データベース１０３ｂに分割される。ここで、リンク分析格付け１１３ａは、全グラフに基づいて行われ、リンク分析データベース１１３ｂを結果としてもたらす。この場合も、ヒット・リスト１０５ｂを選択するためにヒット・リスト・ジェネレータ１０５ａによってキーワード１０１ａが使用されることが分かる。次いで、このリスト１０５ｂは、テキスト関連性格付け１０７ａを受け、コンテンツ・データベース１０３ａからの情報を使用して、テキスト関連性格付け１０７ｂを与えられる。その後、２つの格付け１１３ｂと１０７ｂは、さまざまな任意の数の可能な規則を使用して統合され１１１ａ、ヒット・リスト内の各ドキュメントの順格付けスコアをもたらす。最後に、格付けされたリストは、あらかじめ定められているサイズ１０１ｂに切り詰められ、最高位に格付けされたドキュメント１１１ｂのみが格納されて提示されるようになっている。

図３は、リンク分析格付けがサブグラフのみに適用される場合の、リンク分析格付けとの組合せによる、テキスト関連性格付けの使用を概略的に示している。ヒット・リスト１０５は、テキスト関連性格付け１０７に従って格付けされ、その後、リンク分析格付け１１３が実行される前に切り詰められる。切り詰められたリスト（サブグラフ）は、リンク分析ルーチン１１３に供給されるが、そこではＷＧデータベース１０１からの情報も必要としている（点線）。結果として得られたサブグラフ・リンク分析格付けは、最後に、同じサブグラフのテキスト関連性格付けと組み合わされて、選択されたサブグラフの統合格付けスコア１１１をもたらす。

図４は、これをさらに詳細に示している。図２とは対照的に、ここでは検索項目１０１ａでヒット・リスト・ジェネレータ１０５ａによって生成されるヒット・リスト１０５ｂは、テキスト関連性格付け１０７ａ１を与えられ、リンク分析格付けが実行される前に、切り詰めサイズ１０１ｂで切り詰められる。切り詰められたリスト１０７ｂ１は、サブグラフ・ジェネレータ１１３ｃに送信されるが、これは首尾一貫してリンクされたトピック関連ドキュメントの「コミュニティ」をもたらすような方法で、リストを拡張サブグラフ１１３ｄに拡大する。次いで、この拡大サブグラフ１１３ｄは、リンク分析格付け１１３ａ及びテキスト関連性格付け１０７ａ２の両方を受けて、拡大サブグラフ関連性格付け１０７ｂ２及び拡大サブグラフ・リンク分析格付け１１３ｅを生成する。最後に、結果として得られた格付けスコアが統合され１１１ａ、サブグラフ内のすべてのドキュメントに対して単一の格付け１１１ｂをもたらす。

本発明は、リンク分析格付けのための新しい方法、装置、及びコンピュータ・プログラム製品を対象としている。図１〜４のいずれにおいてもリンク分析格付けの方法に関する詳細は示されていないため、図は本発明を説明するのではなく、本発明又はリンク分析格付けの他の方法が適用されうる状況を示すにとどまる。

現在、ヒットを格付けするための方法には２つの広範なクラスがある。第１は、テキスト関連性分析として知られる、見い出されたドキュメントにおけるテキストの分析に従ってヒットの関連性を評価する。例えば、検索キーワードが「Ｎｏｒｗｅｇｉａｎｅｌｋｈｏｕｎｄｓ」である場合、見い出されたドキュメントにおける検索項目の関連性の評価を試みるためにアルゴリズムが使用される。この種の格付けは効果的ではあるが、重要なキーワードを（人為的に）何度も繰り返すことによって高い格付けを得ようとするドキュメントの作成者によって「欺かれる」可能性もある。

アルゴリズムの第２のクラスは、ヒットをそれらの独自の内容ではなく、より大きい情報ネットワークでどのように位置付けられているかに基づいて、ヒットの「重み（ｗｅｉｇｈｔ）」又は「重要度（ｉｍｐｏｒｔａｎｃｅ）」を評価する。つまり、このクラスのアルゴリズムは、ドキュメントのリンクされたネットワークにおいて所定のヒット（ドキュメント又はノード）がどの程度「主要」であるかを判別するためにリンク分析を採用する。本発明は、ハイパーテキスト・リンク分析の一種である。

ハイパーテキスト・リンク分析において、ハイパーテキスト・リンクは、あるドキュメントから別のドキュメントを指し示す有向矢印として簡単に見なされうる。ドキュメント及びハイパーテキスト・リンクのセットは共に、有向グラフを形成する。次いで、有向グラフのリンク構造（トポロジ）に基づいて、グラフ内の各ノード（ドキュメント）に重み又は重要度を割り当てるための規則を探し出す。

例えば、これを指し示す多数のノードを有するノードは、高い入次数を有するといわれる。各ノードに、その入次数のみに基づいて重みを割り当てることもできる。しかし、この重み付けの手法は「リンク人気」方法と呼ばれることが多いが、すべてが単一のドキュメントを指し示して、これに人為的に高い入次数を与えるような多数の偽造ドキュメントを作成することができるので、この手法は容易に欺かれる。それにもかかわらず、リンク人気格付けは、おそらくはその簡単さのゆえに多くの商用検索エンジンによって使用されている。

ＧｏｏｇｌｅのＰａｇｅＲａｎｋアルゴリズム（参照によりその内容が本明細書に組み込まれている米国特許第６、２８５、９９９号）、及び検索エンジンＷｉｓｅＮｕｔ（参照によりその内容が本明細書に組み込まれている米国特許申請第２００２−０１２９０１４号）によって使用されているもう１つの方法は、グラフ上を移動してノード間の有向リンクをたどるランダムウォーカが各ノードにおいて費やすほんのわずかな時間を見つけ出すことを含んでいる。明らかに、高い入次数は、このスコアに肯定的に寄与する。しかし、各ノードの近隣という他の側面もまた重要である。例えば、高い入次数を有するノードを指し示すノードはまた有意な重みを有する必要もある。そうでなければ、高い入次数は当該のノードにほとんど重みをもたらさない。従って、ランダムウォーカの手法は、グラフの全体的な位相構造により敏感である。

有向グラフにおけるランダムウォーカの１つの問題は、入口を有するが出口を有していないグラフの領域である「シンク」に容易に捕らわれてしまうことである。ＰａｇｅＲａｎｋは、特定の確率を有する（リンクから独立した）完全にランダムなホップを追加することにより、シンクを補正するが、ＷｉｓｅＮｕｔは、グラフ内のすべての他のノードに双方向で接続されている架空のノードである「ページ重み貯蔵器（ｐａｇｅｗｅｉｇｈｔｒｅｓｅｒｖｏｉｒ）」を採用することによりシンクを補正する。シンクは一般に、分散ハイパーテキストシステム内に存在する。そのため、有向グラフのランダム・ウォークを伴うすべての方法は、何らかの形でこの問題に対処する必要がある。

異なる手法は、ＩＢＭのＣＬＥＶＥＲプロジェクトで行われた研究に基づきＣｏｒｎｅｌｌＵｎｉｖｅｒｓｉｔｙ（米国）のＪｏｎＫｌｅｉｎｂｅｒｇによって特許が取得されている（参照によりその内容が本明細書に組み込まれている米国特許第６、１１２、２０２号）。アルゴリズムは、多くの場合、ＨＩＴＳ（「ＨｙｐｅｒｔｅｘｔＩｎｄｕｃｅｄＴｏｐｉｃＳｅｌｅｃｔｉｏｎ」）と呼ばれる。

ＨＩＴＳは、Ｆ（フォワード）及びＢ（バックワード）という２つの簡単な演算子を定義することによって極めて容易に説明される。ランダム・ウォークの精神において、有向グラフ上の各ノードに関連付けられている特定の重み（正の数）を推測することは可能である。Ｆ演算子は、各ノードｉにおいて重みｗ（ｉ）をとり、それをＦｏｗｒａｒｄ、つまりノードｉによって指し示されているすべてのノードに送信する。Ｂ演算子は、矢印とはバックワード、つまりノードｉの方向を指し示す各ノードにｗ（ｉ）を送信する。

次に、複合演算子の使用について説明する。例えば、常に最初にＦ演算子を使用し、その後Ｂ演算子が続くようにしたいと仮定する。標準の行列表記を使用して、この複合演算子（ＢｆｏｌｌｏｗｅｄｂｙＦ）はＦＢと示される（行列演算子は、右側のベクトルに作用する。従って、右端の演算子が最初に動作する）。Ｂ次いでＦにより構成される複合演算子はＦＢと表記される。

これ以降、「非複合演算子」という用語を使用して、演算子Ｆ及びＢ（さらにｆ及びｂと示されるそれらの正規化バージョン）を参照する。もちろん、演算子の積（複数の行列）は新しい演算子（行列）であり、グラフで重みを再分散するために使用されうる。しかし、複合演算子ＢＦ及びＦＢは、常に重み分散の「フロー」の方向を、ハイパーリンクの矢印に「従う」流れと、これらの矢印に「逆らう」流れとの間で交互に変えるという特殊な特性を有している。対照的に、非複合演算子Ｂ及びＦは、それぞれ相互に分離して使用され、フローが決して逆転しないようにされうる。この相異が、ドキュメント格付けに対するこれらの演算子の適用の結果に多大な影響を及ぼす可能性があると考えられる。

ＨＩＴＳアルゴリズムは、複合演算子ＢＦ及びＦＢの反復適用を使用して、各ノードの２つの重要度スコアを取得する。例えば、ＦＢの多数の繰り返しの後、各ノードにおける重みは安定した値に収束するが、これはそれらの「オーソリティスコア」と呼ばれる。同様に、ＢＦによって繰り返された演算は、「ハブスコア」をもたらす。従って、「優良なオーソリティは優良なハブによって指し示される」と言うことができる。つまり、ノードは、多数の優良な（又は少数の非常に優良な）オーソリティ、すなわち関連コンテンツを有するノードを指し示す場合、高いハブスコアを有する。また、ノードは、多数の優良な（又は少数の非常に優良な）ハブによって指し示される場合、高いオーソリティスコアを有する。このようにして、２つのスコアは、相互に定義される。

矢印（有向弧）に従う流れと矢印に逆らう動きとの間を相互に変わるので、ＨＩＴＳの手法にはシンクに関連する知られた問題はない。この手法、及びその変形は、いくつかの特許（例えば、参照によりその内容が本明細書に組み込まれている米国特許第６，１１２，２０３号、６，３２１，２２０号、６，３５６，８９９号、及び６，５６０，６００号）において記載され、ＨＩＴＳの変形は、商用検索エンジンのＴｅｏｍａ及びＡｌｔａＶｉｓｔａに使用されているとみられる。この記述は、これらに所有されている特許（特に、ＡｌｔａＶｉｓｔａはＨＩＴＳ方法の変形に基づく米国特許をいくつか有している）を含む、既存の検索エンジンに関する公的に入手可能な文書の調査に基づいている。

ＨＩＴＳ方法の重要な特徴は、演算子Ｆ及びＢが「正規化」されないことである。正規化された演算子は、グラフ上に存在する「重み」の合計量を変えることはない。例えば、正規化されたＦ演算子（ｆと示すことにする）は、重みｗ（ｉ）をとり、それをノードｉの「ダウンストリーム」にあるすべてのノードに再分散する。つまり、ｆ演算子に対して、ノードｉから送出される合計重みは、ノードｉにおいて見い出される重みと等しい。対照的に、（非正規化）Ｆ演算子は、重みｗ（ｉ）の「コピー」を、ｉからのダウンストリームに見い出される各ノードに送信し、送出される合計重みが、ｉの出次数を乗じてｗ（ｉ）となるようになっている。

この特徴は、わずかなものと思われるが、非常に大きな効果を有する可能性がある。ＳＡＬＳＡ（ＳＡＬＳＡ：ＳｔｏｃｈａｓｔｉｃＡｐｐｒｏａｃｈｆｏｒＬｉｎｋ−ＳｔｒｕｃｔｕｒｅＡｎａｌｙｓｉｓ、参照によりその内容が本明細書に組み込まれている非特許文献１）と呼ばれるアルゴリズムがあるが、これは正規化された演算子ｆｂ及びｂｆを使用する点を除いては、本質的にＨＩＴＳアルゴリズムと同一である。このわずかな変化が極めて重要なものとなる。ＳＡＬＳＡアルゴリズムのハブ及びオーソリティスコアは、それぞれ単に各ノードの出次数及び入次数となる。従って、ＨＩＴＳアルゴリズムを正規化する（それを「重み保全」にする）ことは、全体としてグラフの構造への手法の感度を完全に除去し、その代わり、結果はナイーブなリンク人気の手法と同等となる。

同様の結果は、無向グラフ（ここでＦ及びＢは同一となる）についても得られる。ここで正規化バージョンは単にノード次数をもたらすが、非正規化バージョンは、重要で、しかもグラフ構造全体に敏感なスコア（「固有ベクトル中心性」）をもたらす。

このことから、正規化された演算子はグラフのノードの格付けに有用な結果をもたらすことはできないと結論付けることができる。しかしながら、この結論は正しくはない。ランダム・ウォークとして前述されている、Ｇｏｏｇｌｅによって使用されるＰａｇｅＲａｎｋアルゴリズムは、（シンクを逃れるために完全なランダム・ホップによって補足される）ｆ演算子を使用することと同等である。Ｇｏｏｇｌｅは今日のＷｅｂにおいて主流となる検索エンジンであり、有意かつ有用な格付け結果をもたらすそのＰａｇｅＲａｎｋアルゴリズムはその優位の重要な理由の１つである。

もう１つの正規化された演算子（ｂ）は、Ｄｉｎｇらによる研究論文（参照によりその内容が本明細書に組み込まれている非特許文献２）において簡単に言及されている。Ｄｉｎｇらは、この演算子に基づくドキュメント格付けのパフォーマンスについて極めて短く（１文）説明し、これがＨＩＴＳアルゴリズムのハブスコアに同様の結果をもたらすことを示唆している。この論文におけるｂ演算子の研究を参照するため、「ＤＨＨＺＳ」（著者の姓の頭文字）を使用する。

以下において、ハイパーテキスト・リンク分析を使用して格付けする方法についての前述の説明を要約する。２つの方法（ＳＡＬＳＡ及びＨＩＴＳ）は、複合演算子を使用する。いずれの方法も、ドキュメントごとに２つのタイプのスコアをもたらす。ただし、ＳＡＬＳＡはリンク人気と同等であるが、ＨＩＴＳは全リンク構造に依存する重要な結果をもたらす。ＰａｇｅＲａｎｋは、正規化されたフォワード演算子のみを使用して、ナイーブなリンク計数よりもさらに有用でもある単一のスコアをもたらす。最後に、ＤＨＨＺＳの論文は、単一の重要なスコアをもたらす正規化されたバックワード演算子にも言及する。

前述のアルゴリズムの４つのカテゴリ（つまり、正規化複合フォワード／バックワード、正規化バックワードのみ、正規化フォワードのみ、非正規化複合バックワード／フォワード）の短所については、以下で説明される。

一部の方法は、それらの格付け手順においてリンク分析を全く使用しない。これらの方法は、テキスト関連性格付け（前述）、有料格付け、及び人的判断による格付けを含んでいる。
・有料格付けは、大きく異なるマーケティングの手法及び対象者を有する極めて簡単なシステムである。有料格付けを使用するエンジンは、最善の情報を見つけ出すこと以外の目的でユーザーに採用されている。
・人的判断による格付けは、ワールド・ワイド・ウェブなどの極めて大規模なシステムをカバーするために時間とコストがかかリ過ぎるという明らかな欠点を有している。
・テキスト格付けは、すべての商用検索エンジンによって使用されている。我々は、テキスト格付けがあらゆる優れた格付けシステムの重要なコンポーネントになると予想している。事実、最良の検索システムは、テキスト格付けシステム、及びリンク分析による格付けのシステムの両方を含むことになる（Ｇｏｏｇｌｅ検索エンジン参照）。

使用中及び／又は特許取得のハイパーテキスト分析を採用するページ（つまりドキュメント）を格付けする方法のすべてではないとしても、そのほとんどは、以下の３つの方法のいずれかに基づいている。
・リンク人気。ここで、所定のページにリンクされているページの数（その「次数」）を単にカウントする。ハイパーリンクは方向を有する。そのため、各ノードは、入次数（所定のページを指し示すページの数）及び出次数（所定のページから生じるリンクの数）という２つのリンク人気の測度を有している。これらのリンク人気の２つの異なる測度は、それぞれＨＩＴＳ方法におけるオーソリティ及びハブスコアにおおむね対応する。
・ＰａｇｅＲａｎｋ。ここで、ページの格付けは、「ランダム・サーファー」がページを訪れるほんのわずかな時間におおむね等しい。ランダム・サーファーは、（かなりの確率で）アウトリンクのみをたどる。それ以外の場合、このサーファーは新しいページへのランダムなジャンプを行う。ＰａｇｅＲａｎｋはアウトリンクのみをたどるので、その結果は、ハブスコアよりもオーソリティスコアに類似している。つまり、高いＰａｇｅＲａｎｋスコアは、多くの優良なページが所定のページを指し示していることを意味している。
・ＨＩＴＳ。ここで、２つの「相互に補強し合う」スコアがある。事実、これらは、ページが（多数の）優良なハブによって指し示される場合は優良なオーソリティであり、ページが（多数の）優良なオーソリティを指し示す場合は優良なハブである、というように相互に定義される。優良なオーソリティは高い入次数を有する傾向があり、優良なハブは高い出次数を有する傾向があるという点において、基本的な概念はリンク人気と類似している。

ハイパーテキスト・リンク分析によって格付けするさまざまな既知の方法を比較することが可能である。リンク人気は、複数のインリンクをサイトに単に追加することにより各自のスコアを上昇させる人為的な手段の影響をあまりに受けやすいという、前述の明確な短所を有している。他の方法に優るリンク人気の唯一の利点は、その簡単さである。他の２つの手法であるＨＩＴＳ及びＰａｇｅＲａｎｋはいずれも、前途有望な技法である。Ｗｅｂのような膨大なネットワークのＰａｇｅＲａｎｋスコアを計算することは、オーソリティ及びハブスコアを計算することよりもはるかに理に適っている。ＨＩＴＳ方法は、特に、全グラフのより小さいサブグラフにリンク分析を行うことにより、この問題を回避する。このサブグラフは、ヒットのセット、これらのイン及びアウトの隣接ノード、及びこれらのドキュメント間のリンクから成っている。

要約すると、ＰａｇｅＲａｎｋリンク分析技法は、図１及び２におけるように、グラフ全体に適用される。対照的に、ＨＩＴＳ及び関連する技法は、図３及び４に示されるように、トピック関連のサブグラフに適用される。ＨＩＴＳ技法の２つのタイプのスコアの緊密な結合は、ＨＩＴＳ方法をあいまいな利点の全グラフに適用させる。一方、ＰａｇｅＲａｎｋは、我々の知る限りでは、サブグラフに適用されたことはなく、どのような結果が得られるかは明白ではない。

本発明の発明者によって発見された、必要とされるものは、（ＰａｇｅＲａｎｋのような）全Ｗｅｂグラフに使用されうるアルゴリズム、及び（ＰａｇｅＲａｎｋとは異なり）ドキュメントごとに２つの別個のスコアをもたらすもう１つのアルゴリズムである。つまり、新しいアルゴリズムは、複合演算子を使用すべきではなく（従ってＨＩＴＳ方法の既知の問題を回避し）、グラフ全体、又は単一のテーマに限定されるドキュメントのサブセットのいずれかに適用することが可能である必要がある。
ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ１９（２），ＰＰ．１３１−１６０，Ａｐｒｉｌ２００１ＬＮＢＬＴｅｃｈＲｅｐｏｒｔ４９３７２，ｕｐｄａｔｅｄＳｅｐｔｅｍｂｅｒ２００２ "ＴｈｅＰａｇｅＲａｎｋＣｉｔａｔｉｏｎＲａｎｋｉｎｇ：ＢｒｉｎｇｉｎｇＯｒｄｅｒｔｏｔｈｅＷｅｂ"，ｂｙＰａｇｅ，Ｂｒｉｎ，Ｍｏｔｗａｎｉ，ａｎｄＷｉｎｏｇｒａｄ "ＰａｇｅＲａｎｋＣｏｍｐｕｔａｔｉｏｎａｎｄｔｈｅＳｔｒｕｃｔｕｒｅｏｆｔｈｅＷｅｂ：ＥｘｐｅｒｉｍｅｎｔｓａｎｄＡｌｇｏｒｉｔｈｍｓ"，ｂｙＡ．Ａｒａｓｕ，Ｊ．Ｎｏｖａｋ，Ａ．Ｔｏｍｋｉｎｓ，ａｎｄＪ．Ｔｏｍｌｉｎ．ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ＩＢＭＡｌｍａｄｅｎＲｅｓｅａｒｃｈＣｅｎｔｅｒ，Ｎｏｖ．２００１．ｈｔｔｐ／／ｃｉｔｅｓｅｅｒ．ｎｉ．ｎｅｃ．ｃｏｍ／ａｒａｓｕ０２ｐａｇｅｒａｎｋ．ｈｔｍｌ "ＥｆｆｉｃｉｅｎｔＭａｔｒｉｘＭｕｌｔｉｐｌｉｃａｔｉｏｎｏｎＳＩＭＤＣｏｍｐｕｔｅｒｓ，"ｂｙＰ．Ｂｊｏｒｓｔａｄ，Ｆ．Ｍａｎｎｅ；Ｔ．Ｓｏｒｅｖｉｋ，ａｎｄＭ．Ｖａｊｔｅｒｓｉｃ；ＳＩＡＭ，Ｊ．ＭａｔｒｉｘＡｎａｌ．Ａｐｐｌ．，１３（１９９２），ｐｐ．３８６−４０１ＳＴＡＬＬＩＮＧＳ，Ｗ．，ＣｏｍｐｕｔｅｒＯｒｇａｎｉｚａｔｉｏｎａｎｄＡｒｃｈｉｔｅｃｔｕｒｅ，４ｔｈｅｄ．，ＵｐｐｅｒＳａｄｄｌｅＲｉｖｅｒ，ＮＪ，ＰｒｅｎｔｉｃｅＨａｌｌ，１９９６

ハイパーテキスト・リンク分析に現在使用可能な方式の前述の短所を考慮して、本発明の１つの目的は、ハイパーリンク・ネットワークにおけるドキュメントを格付けするための、規則に基づいた方法と、対応するシステム及びコンピュータに基づいた製品を提供することである。

特に、本発明の目的は、有向グラフ上の各ノードに関連付けられている２つの別個の重み又はスコアを介してドキュメントを格付けすることができる方法、システム、及びコンピュータ・プログラム製品を提供することである。グラフのノードはドキュメントであり、有向リンクはハイパーテキスト・ポインタである。他のタイプのリンク分析アルゴリズムと同様に、本発明は有向グラフの構造を使用して、各ノード（ドキュメント）の重要度重みを取得する。ノードにおける重みは、演算子を繰り返し適用することにより取得される。演算子は、繰り返しごとに存在する重みを再分散する。多数の繰り返しの後、重みは変化することをやめ、安定した値に収束する。これらの収束した値は、ノードの重要度重みである。

具体的に、本発明の目的は、ノード格付け重みを見い出すための、非正規化フォワード演算子Ｆ及び非正規化バックワード演算子Ｂという２つの新しい演算子に対する方法、システム、及びコンピュータ・プログラム製品の開発である。従来の方法とは異なり、本発明の方法は、全グラフ又はトピック関連サブグラフの両方の事例において使用されるよう意図されている。方法は、重みの安定した分散が得られるまで、単一方向（フォワード又はバックワード）に繰り返し重みを伝搬するという点において、ＰａｇｅＲａｎｋと類似している。しかし、ＰａｇｅＲａｎｋとは異なり、方法は、全グラフにおけるすべてのページのハブ及びオーソリティスコア双方の計算を可能にする。本発明の方法を（ＨＩＴＳと対照的に）グラフ全体に適用可能にするのは、２つのスコアの分離である。しかし、我々の方法はさらに、トピック関連のサブグラフにも適用可能である。この場合、トピック関連のサブグラフ内を検索する際に最善の結果を得るために２つのタイプのスコア（ハブ及びオーソリティ）を有することが望ましい。

本発明及びその多くの付随する利点は、添付の図と併せて検討されれば以下の詳細な説明を参照することによって理解が深まり、さらに完全な理解が容易に得られるであろう。

本発明において、グラフ内のノードの重みの決定には、２つの非正規化演算子（これ以降Ｆ演算子及びＢ演算子と呼ぶ）の１つを繰り返し適用することが必要である。一般に、重みは各々の適用と共に変化するが、多数の繰り返しの後、重みは計算の結果である安定した値に落ち着く。

最初に、Ｆ演算子の実装について説明する。所定の繰り返しでノードｉにおける重みをｗ（ｉ）とする。Ｆ演算子は、ｉからｊを指し示すリンクによってｉにリンクされている各ノードｊにおいて重みｗ（ｉ）を設定する。Ｆはこれを、ネットワーク内のすべてのノードについて行う。従って、Ｆを一回適用した結果は以下のようになる。

ここで

は、ノードｊを指し示しているノードｉにわたる和である。

グラフ上の合計重みは各々の繰り返しと共に増大するので、計算を行うコンピュータによって処理できない数値まで重みが増大することのないように、重みはすべて一定の係数で定期的に減少させる必要がある。この減少は、重みの相対的な値には影響を与えない。これは格付けの目的で必要とされる相対的な値に過ぎない。この減少は、単なるスケール変更であるため、重みの「正規化」と呼ぶことができる。重みに作用している演算子自体は正規化されないので、重みが計算の過程で定期的に正規化される必要があることに留意されたい。

前述の内容は、符号で以下のように表すことができる。

ここで、ｗは重みのベクトルであり、Ｆは非正規化フォワード演算子である。実際、これはグラフ隣接行列の転置である。

この手順は、正規化の場合と全く同様に、シンクの問題の影響を受ける。従って、同様の改善措置が適用されうる。Ｒを、任意のノードから任意の他のノードに等しい確率で重みを受け渡す「ランダム化」演算子とする。従って、Ｒは、対角線要素が０であることを除き、すべて１の行列である。一部のランダム・ジャンプの確率を追加することは、以下の式によって実施される。

ここで、ｃは優良なパフォーマンスをもたらすように調整されうるフリーパラメータである。

重みの安定値は、ノードのすべてのペアに対して、相対値ｗ（ｉ）／ｗ（ｊ）が変化しなくなったときに見い出される。この状態は、長さは変化するが、方向は変化しないベクトルｗと同等である。つまり、収束時に以下の式が得られる。

ここで、λは、値が格付け手順にとって重要ではないもう１つの定数である。重みｗが上記の式に従う場合、これらはハイパーリンク分析に従ってノードの相対的格付けをもたらす。

これ以降、Ｂ演算子について説明する。非正規化Ｂ演算子は、Ｆの単なる転置である。つまり、Ｂ＝Ｆ^Ｔである。従って、Ｂは有向グラフの隣接行列である。その他の点では、手順及び説明は前節の場合と同様である。Ｂに関しては依然としてシンクがある。これらは矢印が指し示すが、指し示されることはないグラフの領域である。従って、Ｒ演算子も上記のように含まれる必要がある。

これらの２つの演算子を使用すれば、２つのスコアをドキュメントの格付けで採用することが可能である。さらに、２つのスコアをもたらす前述の従来の方法と同様に、本発明によって計算される２つのスコアは、「指し示されている」（入次数、又はオーソリティ）、及び「指し示す」（出次数、又はハブ）の従来のスコアと類似している。しかし、本発明によって計算される２つのスコアは、ＨＩＴＳによって計算されるスコアと類似してはいるが、少なくとも本発明の２つの格付け計算が数学的に分離されているという理由から、数学的にも機能的にも異なっている。このことが重要な効果を持ち得ることを以下で検討する。

さらに、（ｉ）本発明は、矢印に続く「重み伝搬」のステップを繰り返す場合に、重みを出次数で除算しない、（ｉｉ）本発明は、フォワード伝搬（本明細書のＦ演算子）に基づくスコアと、バックワード伝搬（本明細書のＢ演算子）に基づくスコアという２つのスコアを計算する、という少なくとも２つの方法でＰａｇｅＲａｎｋとは異なっている。ＰａｇｅＲａｎｋでは、フォワード伝搬のみを使用し、それを異なる方法で行う。

最後に、本発明は、リンク・ドキュメントの重みが、それらの数値のみにとどまらず重要な役割を果たすという点において、（ＰａｇｅＲａｎｋ及びＨＩＴＳのような）リンク人気とは明らかに異なっている。これはつまり、本発明が、ＰａｇｅＲａｎｋ及びＨＩＴＳと同様、ハイパーリンク・ドキュメントのネットワークの全体的な構造に敏感であることを意味している。

ここで、一部の簡単なハイパーリンク・グラフを使用して、これらのすべての方法の間の相異を一部示す。図５は、Ａ、Ｂ、及びＣの３つのノードから成る、小さなハイパーリンク・グラフを示している。このグラフは、非特許文献３に出現する（米国特許第６、２８５、９９９号も参照）。

以下の表１は、さまざまな方法を使用して取得される、図５の３つのノードの格付けスコアを示している。ここで（及び図６において）、すべてのスコアは、各列の合計が１となるように調整されている。

ここで、いくつか新しい用語を導入した。これ以降、「オーソリティ類似（ａｕｔｈｏｒｉｔｙ−ｌｉｋｅ）重み」（大文字なし）は、所定の方法の一般的な「指し示される側の（ｂｅｉｎｇ−ｐｏｉｎｔｅｄ−ｔｏ）」重みを意味し、同様に、「ハブ類似（ｈｕｂ−ｌｉｋｅ）重み」は任意の方法の「指し示す側の（ｐｏｉｎｔｉｎｇ−ｔｏ）」重みである（大文字の「オーソリティ（Ａｕｔｈｏｒｉｔｙ）」及び「ハブ（Ｈｕｂ）」は、具体的にＨＩＴＳ方法から取得されたスコアを示すことになる）。いずれの種類のスコア（つまりオーソリティ類似及びハブ類似の重み）も、検索側にとって関心の対象である。オーソリティ（権限）は検索の可能なエンドポイントであり、ハブは少数のさらなるホップの後に優良なエンドポイントを導く傾向のある場所である。前述のように、本発明は、オーソリティ類似スコアを取得するためにフォワード演算を使用し、ハブ類似スコアを取得するためにバックワード演算を使用する。

ナイーブな方法（リンク人気）は、ノードＣに最高のオーソリティ類似階数（つまり、入次数＝０．５）を与え、ノードＡに最高のハブ類似階数（つまり出次数＝０．５）を与える。ＰａｇｅＲａｎｋ方法は、ＡとＣ（すなわちＰａｇｅＲａｎｋ＝０．４）を区別することができない。ＨＩＴＳ方法は強力に、最高のオーソリティ（つまり、オーソリティ＝０．６２）としてＣを、最善のハブ（つまり、ハブ＝０．６２）としてＡを選び出す。しかし、ＨＩＴＳは、例えばＡにゼロのオーソリティを与えるような、かなり極端な修正をＰａｇｅＲａｎｋスコアに行うことが分かっている。

本発明は、オーソリティ及びハブのスコアの計算を分離することにより、つまり、フォワード及びバックワード演算を数学的に分離することにより、この過剰修正を改善する。フォワード計算は、適切ではあるがＨＩＴＳとは異なっている最高のオーソリティ類似重み（つまり、０．４３）としてＣを与え、第２に高いオーソリティ類似重み（つまり、０．３２）としてＡを与える。このＡのオーソリティ類似重みは、リンクＣ→Ａ（ＣからＡを指し示す）から生じる。

場合によってはタイ・スコアのために、表１に示されるすべての方法が、オーソリティ類似スコアの場合とハブ類似スコアの場合で異なる格付けを行うことに留意されたい。タイ・スコアは、もちろんＷＷＷのような大規模なグラフでは、稀にしか発生しない。しかし、この数字からの指示は引き続き有効であり、本発明は一般に、他の方法から取得された格付けと異なる格付けをもたらす。

本発明が、（少なくともオーソリティ類似スコアに関して）ＰａｇｅＲａｎｋ結果とＨＩＴＳ結果の間の「中間」である結果をもたらすことも分かる。これは、２つの計算を分離した結果である。

図６において、Ａ、Ｂ、Ｃ、及びＤの４つのノードを有する第２のさらに複雑なグラフの例を検討する。さまざまな方法のスコアは、図６のノードごとに、表２に示されている。

すべての他のノードはＣを指し示すので、これは任意の方法による最高のオーソリティ類似である。しかしこの場合、ハブ類似スコアは、どのノードが優良なノードを指し示すのに最良であるか、さらに不明瞭である。４つのノードのうちの３つは、同じ出次数（つまり、０．２９）を有している。たとえ大規模なグラフであっても、同値の出次数は稀なことではないことにさらに留意されたい。従って、ナイーブな手法を超える方法が必要であることは明らかである。

ＰａｇｅＲａｎｋは、任意のノードのハブ類似格付けに関する情報はもたらさない。従って、ＨＩＴＳを本発明と比較することだけが可能である。ＨＩＴＳは、最善のハブとしてＤを選択し、次善のハブとしてＡを選択する。この結果は、オーソリティ計算への結合によって強く影響を受けている。Ｄ及びＡは、高いオーソリティＣとのそれらの「相互に補強し合う」関係（つまり、両方向へのリンク）により首位になる。本発明は、Ｃ及びＤが共に２つの最善のハブであることを見い出して、（「バックワード」列を参照）異なる回答をもたらす。Ａは、その２つのアウトリンクのうちの１つがかなり不十分なノードＢを指し示すのに対して、Ｃ及びＤは（本発明によって格付けされた）「優良な」ノードを指し示すので、第３位に格付けされる。従って、ユーザーは、本発明の方法により異なるパスに沿って方向付けられる。高いハブ類似スコアを持つノードは、例えば「Ｗｏｒｔｈｆｏｌｌｏｗｉｎｇｆｕｒｔｈｅｒ」として提示されうる。

この例は、この場合も同様に、さまざまな方法がさまざまな格付けをもたらすことを示している。各方法は、その独自の論理を有しているが、結果は異なっており、異なる方法によるユーザーエクスペリエンスは、多くの場合異なっている。さらに、例２ではハブ類似スコアの比較に重点を置いているが、すべての矢印の簡単な逆転がオーソリティスコアについて同じ指示を行うグラフをもたらすことが明らかである。同値の入次数は、ＷＷＷなどの大規模なグラフ又はそのサブグラフにおいてはいくぶん稀になる。しかし、単純な入次数を超える微妙な相異が重要な役割を果たす場合も依然としてある。そのような場合、本発明は、ＰａｇｅＲａｎｋ又はＨＩＴＳによって得られるオーソリティ類似とは異なったオーソリティ類似の見解を提供する。

スコアの計算において、本発明は、ＰａｇｅＲａｎｋ及びＨＩＴＳと同様に、行列の主固有ベクトルを見つける。行列の主固有ベクトルを見つける最も簡単かつ一般的な方法は、べき乗法（ＰｏｗｅｒＭｅｔｈｏｄ）である（参照によりその内容が本明細書に組み込まれている非特許文献４を参照）。この方法は、行列で重みのベクトルに乗算を繰り返すことを伴う。行列で重みベクトルに乗算を行うことは、上記で「重み伝搬」と呼んだものに相当する。これは、矢印に「従って」（フォワード）又は矢印に逆らって（バックワード）リンク上の矢印をたどり、規則に従って重みのセットを再分散する。重みの再分散の繰り返しは（本発明の場合及びＨＩＴＳの場合、合計重みの全正規化と共に）、安定した分散をもたらすが、これが優性つまり主要の固有ベクトルである。これらは、（例えば）上記の表１及び２に示されている、格付けに使用されるスコアである。

明確にするため、フォワード演算子へのべき乗法の適用を図７に示す。ここで、前述の式を使用してプロセスが開始し、開始ベクトルｗ_０が選択される（Ｓ４０１）。各繰り返しにおいて、フォワード演算子の動作に従って重みを再分散し、確率論的にランダム・ジャンプを説明することにより、新しい重みｗ_ｎｅｗが計算される（Ｓ４０３）。その後、この新しい重みは正規化される（Ｓ４０５）。次いで、収束判定が実行される（Ｓ４０７）。重みが収束されている場合、プロセスは終了する。それ以外の場合、新しい重みが計算され、プロセスは重みが収束するまで繰り返す。バックワード演算子の流れ図は、ＦがＢに置き換えられた後は同様である。

もちろん、主固有ベクトルを見つける他の方法もある（例えば、Ａｒａｓｕらによる以前確認された論文を参照）。これらの代替の方法はそれぞれ、本発明の範囲内に収まる。

単純さ、品質、及び他の問題への適用度という３つのカテゴリにおいて本発明の利点の一部を位置付けることが可能である。

単純さに関しては（最も単純であるナイーブなリンク人気の手法を無視して）、ＨＩＴＳ方法は、（我々の表記で）２つの行列積ＢＦ及びＦＢの主固有ベクトルを探し出す。これらの行列積を計算することは、おそらく、大規模なグラフのこの問題を解決する最も効率的な方法ではない。２つの大きな行列の乗算は、時間を費やす操作であるからである（参照によりその内容が本明細書に組み込まれている非特許文献５を参照）。従って、ＨＩＴＳ計算の効率的な手法は、Ｂ及びＦによる重みベクトルの交互の乗算を繰り返すことを伴う。これは、この場合も同様に、べき乗法である。ＰａｇｅＲａｎｋもまた、通常べき乗法を使用する。従って、３つの方法は（自明である次数カウントは除く）計算の複雑さにおいておおむね同等である。いずれも、疎なＮ×Ｎ行列（ここでＮはグラフ内のドキュメント数）の適用の繰り返しを伴っている。

結果の品質に関して、本発明は、既知の方法から得られた方法とは質的に異なり、さらに有用な格付け結果をもたらすことができる。ＰａｇｅＲａｎｋが、ドキュメントごとに単一のスコアしかもたらさず、それが「オーソリティ類似」つまり「優良なドキュメントによって指し示される」と呼ぶタイプのスコアであることを回想されたい。本発明は、複雑さをほとんど増大させずに２つのスコアをもたらし、そのため検索で見い出された関連ドキュメントに関する２つの種類の情報を提供する。

ＨＩＴＳもまた、ドキュメントに関する２種類の情報をもたらす。しかし、これらの２つのスコアの計算の結合は不利となる可能性がある。ＨＩＴＳは、ＨＩＴＳ方法が発明されたときに想定されたように、検討されるグラフがすでに検索のトピックに従って注目されている場合には、この２つを結合することはおそらく最も有用である。すべてのドキュメントが単一のトピックに関連する場合、オーソリティに関してハブを判断すること、及びその逆は理に適っているとしてよい。大規模なグラフの場合、そのようにはならない傾向がある。

本発明は、ハブ類似スコア計算からオーソリティ類似スコア計算を分離する。前述のように、これは、小規模で集中したグラフの場合であっても、ＨＩＴＳと同等か、又はそれ以上の結果をもたらすことができる。本発明はさらに、大規模な集中していないグラフに有用に適用されうるという利点も備えている。

本発明の他の適用に関して、本発明は、本明細書において説明されている他の発明と同様に、有向リンクによって接続されたノードとして理論上表されうる任意のシステムに適用されてもよい。すべてのこれまでの説明で明示的又は黙示的に想定されている適用は、ノードが情報ドキュメントである場合のシステムを対象としており、目的はトピック検索によって見い出されたドキュメントを格付けすることである。

要約すれば、本発明は、ハイパーテキスト・リンクによって互いにリンクされているドキュメントを格付けするためにハイパーテキスト・リンク分析を使用する方法のセットから成る。以上の説明から、本発明が商用Ｗｅｂ検索エンジンの重要なコンポーネントとして有用となりうることが明らかであり、それは疑いなく本発明の可能な実施形態の１つである。検索エンジンは通常、本発明によって達成されるように、リンク分析格付けをテキスト関連性格付けで補足する。しかし、原理上は、リンク分析格付けはテキスト関連性格付けとは無関係に行われてもよい。さらに、本発明の他の使用は多数に及ぶ。

例えば、本発明は、パーソナル・コンピュータ（ＰＣ）でコンテンツを編成する階層型のファイル−フォルダ方法を改善する際に有用である。今日の編成の階層化方法は、平均的なＰＣユーザーにとって急速に不十分なものになりつつある。問題は、階層ツリーの検索が必然的に非効率的であるという点である。つまり、今日のオペレーティング・システムは、特定のファイルを検索する、つまり全数検索による方法を提供する。ユーザーが、所定のファイル又は所定のトピックに関連付けられているすべてのファイルを必要とする場合を仮定してみる。すべてのファイルをリンクする階層ツリーは、解決策であるかのように見受けられる。しかし、これはあらゆる種類の情報を単一のツリーに編成する効果的な方法を要求し、いかなるユーザーにとっても実行可能な目標ではない。

代わりに、個人の各ＰＣに格納されうる情報及び格納されている情報の急増を考慮すれば、近い将来さらに効率的な検索メカニズムが必要になると予想される。今日のＷｅｂ検索エンジンと酷似した統合メカニズムのセットは、ＰＣ上の個々のコンテンツを検索する極めて有用な方法となりうる。そのような技法が有効になるためには、ＰＣ上のドキュメント間のハイパーテキスト・リンクの確立に向けた規定が設けられる必要がある。これらのハイパーテキスト・リンクはおそらく、手動又は自動、好ましくは両方の方法で作成される。これらは、あらゆる種類のファイルをリンクすることが好ましい。その結果は、「プライベートＷｅｂ」となり、そこで各自のドキュメントがＷｅｂ形態の有向グラフで相互にリンクされている。プライベートＷｅｂを想定すれば、本発明は、ユーザー独自のドキュメントをユーザー起動で検索する際にヒットの格付けに役立つであろう。Ｗｅｂ分析に関して先に明確に説明された利点もまた、ここで適用できよう。

さらに、本発明のさまざまな種類の適用を検討することも可能である。ファイル及びユーザーのシステムを実行する場合の重要な１つの側面は、セキュリティである。ユーザーは、ウィルスなどの破壊情報、又は機密情報漏洩からシステムを保護したいと望んでいる。保護には、（ｉ）第一に、そのような有害情報の導入を防ぐこと、（ｉｉ）そのような有害情報がシステムに導入されてしまった場合は、その拡散を防ぐ、又は制限すること、という２つの目標を伴う。

このユーザー／ファイルシステムは、有向グラフとして表されうる。ファイルは、さまざまなユーザーのグループに対して読み取り及び書き込み許可を有している。書き込み許可は、ユーザーからファイルへの情報フローを可能にする有向リンクであり、読み取り許可は、反対向きに指し示す矢印である。さらに、ノード（ユーザー又はファイル）の格付けは、被害の拡散を防ぐという前述の目標（ｉｉ）に向けて非常に有用なツールになりうる。ユーザーは、拡散に果たしうる役割の大きさに従ってノードを格付けしたいと望む。わずかな役割しか果たさないもの（ネットワークの「エッジ」で接続が十分ではないノード）もあれば、大きな役割を果たすもの（高度に中心的なノード）もある。このように、ノードの格付けにより、システム管理者は、各自の労力を最高に位置付けられるノードを監視して保護することに集中できるようになる。前述のような重み伝搬の方法は、この問題に対して有効となりうる。次に、さまざまな方法を比較してみる。

拡散に関して有効な情報をほとんど提供しないので、ナイーブな次数カウントの手法を直ちに考慮から外すことは可能である。この方法は、完全にローカルな情報の範囲にとどめられ、そのためシステムから実際にはかなり分離されているノードに高いスコアを与える可能性もある。次に、ＰａｇｅＲａｎｋについて考察する。破壊情報はリンクを介して渡されるたびに自身を複製することができるので、（ＰａｇｅＲａｎｋ方法によって行われるような）ノードの出次数で除算することは、ノードの格付けにおいて適切ではない。さらに、ＰａｇｅＲａｎｋ方法は、各ノードに関する１つのタイプの情報（スコア）しかもたらさない。つまり、ノードが重要なノードによってどの程度指し示されているかを定量化しようとする「オーソリティ類似」スコアしかもたらさない。しかし、被害の拡散を制限するため、ユーザーはさらにノードの「ハブ類似」スコアを知りたいと望む。明らかに、ハブは重要なノードを指し示すこと、ひいては被害をノードに拡散することが得意である。一方、権限ノードは、最も多く「指し示される」ために、最も被害にさらされている。従って、ユーザーは、システム保護の最善の備えのために、両方のタイプのスコアを必要とする。

ＨＩＴＳ方法は、両方のタイプのスコアを提供する。しかし、ここで２つのスコアの計算の緊密な結合は深刻な不利となりうる。つまり、被害拡散のためには、ノードが優良な権限（公開度の高いノード）を指し示すという単純な理由で、ノードはそのハブ（スプレッダ）スコアで大きな後押しを受けてはならない。代わりに、高いハブスコアは、当該のノードが他の優良なハブ（スプレッダ）を指し示していることを示唆すべきである。この規定は、バックワード演算子を単に反復してハブスコアを評価する本発明によって完全に適合される。

従って、要約すると、本発明は、ユーザー／ファイル・ネットワーク上の被害の拡大を制限するという問題に適用される場合、（ノードの格付けにリンク分析を使用する）既知の方法に優る重要な利点を備えている。同様の論議は、被害拡大が重要な問題となる他のタイプのシステムに適用される可能性もある。本発明が適用可能となるために満たされなければならない唯一の基準は、ノード間のリンクが方向付けられることである。

図８は、本発明の実施形態が実装されうるコンピュータ・システム１２０１を示している。コンピュータ設計については、参照によりその全内容が本明細書に組み込まれている非特許文献６において詳細に説明されている。コンピュータ・システム１２０１は、バス１２０２又は情報を伝達する他の通信メカニズム、及び情報を処理するためにバス１２０２に結合されたプロセッサ１２０３を含んでいる。コンピュータ・システム１２０１はさらに、情報及びプロセッサ１２０３によって実行される命令を格納するためにバス１２０２に結合された、ランダムアクセスメモリ（ＲＡＭ）又は他の動的記憶装置（例えば、ダイナミックＲＡＭ（ＤＲＡＭ）、スタティックＲＡＭ（ＳＲＡＭ）、及びシンクロナスＤＲＡＭ（ＳＤＲＡＭ））などのメイン・メモリ１２０４を含んでいる。さらに、メイン・メモリ１２０４は、プロセッサ１２０３による命令の実行中に一時変数又は他の中間情報を格納するために使用されてもよい。コンピュータ・システム１２０１は、静的情報及びプロセッサ１２０３の命令を格納するためにバス１２０２に結合された、読み取り専用メモリ（ＲＯＭ）１２０５又は他の静的記憶装置（例えば、プログラマブルＲＯＭ（ＰＲＯＭ）、消去可能ＰＲＯＭ（ＥＰＲＯＭ）、及び電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ））をさらに含んでいる。

コンピュータ・システム１２０１はまた、磁気ハード・ディスク１２０７のような情報及び命令を格納する１つ又は複数の記憶装置を制御するためにバス１２０２に結合されたディスク・コントローラ１２０６と、取り外し可能メディア・ドライブ１２０８（例えば、フロッピー・ディスク・ドライブ、読み取り専用コンパクト・ディスク・ドライブ、読み取り／書き込みコンパクト・ディスク・ドライブ、コンパクト・ディスク・ジュークボックス、テープ・ドライブ、及び取り外し可能光磁気ディスク）を含んでいる。記憶装置は、適切なデバイス・インターフェイス（例えば、ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ（ＳＣＳＩ）、ＩｎｔｅｇｒａｔｅｄＤｅｖｉｃｅＥｌｅｃｔｒｏｎｉｃｓ（ＩＤＥ）、拡張ＩＤＥ（Ｅ−ＩＤＥ）、ダイレクト・メモリ・アクセス（ＤＭＡ）、又はウルトラＤＭＡ）を使用してコンピュータ・システム１２０１に追加されてもよい。

コンピュータ・システム１２０１はまた、特殊用途論理回路（例えば、特定用途向け集積回路（ＡＳＩＣ））又は構成可能論理回路（例えば、単純プログラマブル論理回路（ｓｉｍｐｌｅｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ）（ＳＰＬＤ）、結合プログラマブル論理回路（ｃｏｍｐｌｅｘｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ）（ＣＰＬＤ）、及びフィールド・プログラマブル・ゲート・アレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）（ＦＰＧＡ））を含めることもできる。

コンピュータ・システム１２０１はまた、情報をコンピュータ・ユーザーに表示するブラウン管（ＣＲＴ）などのディスプレイ１２１０を制御するためにバス１２０２に結合されたディスプレイ・コントローラ１２０９を含むことができる。コンピュータ・システムは、コンピュータ・ユーザーと対話して情報をプロセッサ１２０３に提供するための、キーボード１２１１及びポインティング・デバイス１２１２などの入力装置を含んでいる。ポインティング・デバイス１２１２は、例えば、指示情報及びコマンド選択をプロセッサ１２０３に伝達し、ディスプレイ１２１０上のカーソルの移動を制御するための、マウス、トラックボール又はポインティング・スティックであってもよい。さらに、プリンタは、コンピュータ・システム１２０１によって格納及び／又は生成されたデータの印刷リストを提供することができる。

コンピュータ・システム１２０１は、メイン・メモリ１２０４などのメモリに収められている１つ又は複数の命令の１つ又は複数のシーケンスを実行するプロセッサ１２０３に応答して本発明の処理ステップの一部又は全体を実行する。そのような命令は、ハード・ディスク１２０７又は取り外し可能メディア・ドライブ１２０８などの別のコンピュータ可読媒体からメイン・メモリ１２０４に読み込まれてもよい。マルチプロセッシング配置における１つ又は複数のプロセッサはまた、メイン・メモリ１２０４に収められている命令のシーケンスを実行するために採用されてもよい。代替の実施形態において、ソフトウェア命令の代わりに、又はソフトウェア命令との組合せでハードワイヤード回路が使用されてもよい。従って、実施形態は、ハードウェア回路及びソフトウェアの特定の組合せに限定されない。

前述のように、コンピュータ・システム１２０１は、本発明の教示に従ってプログラムされた命令を保持し、データ構造、テーブル、レコード、又は本明細書に説明される他のデータを収容するための、少なくとも１つのコンピュータ可読媒体又はメモリを含んでいる。コンピュータ可読媒体の例としては、コンパクト・ディスク、ハード・ディスク、フロッピー・ディスク、テープ、光磁気ディスク、ＰＲＯＭ（ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュＥＰＲＯＭ）、ＤＲＡＭ、ＳＲＡＭ、ＳＤＲＡＭ又は他の磁気媒体、コンパクト・ディスク（例えば、ＣＤ−ＲＯＭ）、又は他の光媒体、パンチカード、紙テープ、又は孔のパターンを持つ他の物理媒体、搬送波（以下で説明）、又はコンピュータが読み取ることのできる他の任意の媒体がある。

コンピュータ可読媒体の１つ又は組合せに格納されて、本発明は、コンピュータ・システム１２０１を制御し、本発明を実装する装置又は複数の装置を駆動し、コンピュータ・システム１２０１が人間のユーザー（例えば、印刷物制作担当者）と対話できるようにするためのソフトウェアを含んでいる。そのようなソフトウェアは、デバイス・ドライバ、オペレーティング・システム、開発ツール、及びアプリケーション・ソフトウェアを含むことができるが、これらに限定されることはない。そのようなコンピュータ可読媒体は、本発明を実装する際に実行される処理の全部又は一部（処理が分散される場合）を実行するための本発明のコンピュータ・プログラム製品をさらに含んでいる。

本発明のコンピュータ・コード・デバイスは、スクリプト、解釈可能プログラム、ダイナミック・リンク・ライブラリ（ＤＬＬ）、Ｊａｖａクラス、及び完全な実行可能プログラムを含む任意の解釈可能又は実行可能コードメカニズムであってもよいが、これらに限定されることはない。さらに、本発明の処理の一部は、パフォーマンス、信頼性、及び／又はコストの改善をめざして分散されてもよい。

本明細書において使用される「コンピュータ可読媒体」という用語は、実行のためにプロセッサ１２０３に命令を提供することに参加する任意の媒体を表している。コンピュータ可読媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含む多くの形態をとることができるが、これらに限定されることはない。不揮発性媒体は、例えば、ハード・ディスク１２０７又は取り外し可能メディア・ドライブ１２０８などの光ディスク、磁気ディスク、及び光磁気ディスクを含んでいる。揮発性媒体は、メイン・メモリ１２０４などのダイナミックメモリを含んでいる。伝送媒体は、バス１２０２を形成するワイヤーを始めとする、同軸ケーブル、銅線、及び光ファイバを含んでいる。伝送媒体はさらに、電波及び赤外線通信で生成されるような、音波又は光波の形態をとることもできる。

コンピュータ可読媒体のさまざまな形態は、実行のためのプロセッサ１２０３への１つ又は複数の命令の１つ又は複数のシーケンスを実施することに関与してもよい。例えば、命令は最初にリモート・コンピュータの磁気ディスクに伝達されてもよい。リモート・コンピュータは、本発明の全部又は一部を実装するための命令をダイナミックメモリにリモートにロードして、モデムを使用して命令を電話回線経由で送信することができる。コンピュータ・システム１２０１にローカルなモデムは、電話回線でデータを受信し、赤外線送信機を使用してデータを赤外線信号に変換することができる。バス１２０２に結合された赤外線検出器は、赤外線信号で搬送されたデータを受信して、バス１２０２上にデータを配置することができる。バス１２０２は、データをメイン・メモリ１２０４に搬送し、そこからプロセッサ１２０３は命令を取り出して実行する。メイン・メモリ１２０４によって受信された命令は、プロセッサ１２０３による実行の前又は後に、記憶装置１２０７又は１２０８にオプションで格納されてもよい。

コンピュータ・システム１２０１はまた、バス１２０２に結合された通信インターフェイス１２１３を含んでいる。通信インターフェイス１２１３は、例えばローカル・エリア・ネットワーク（ＬＡＮ）１２１５、又はインターネットなど他の通信ネットワーク１２１６に接続されているネットワーク・リンク１２１４に結合する双方向データ通信を提供する。例えば、通信インターフェイス１２１３は、任意のパケット交換ＬＡＮに接続するネットワークインターフェイスカードであってもよい。もう１つの例として、通信インターフェイス１２１３は、非対称デジタル加入者線（ＡＤＳＬ）カード、統合デジタル通信網（ＩＳＤＮ）カード、又は対応するタイプの通信回線にデータ通信接続を提供するモデムであってもよい。無線リンクが実装されてもよい。そのような任意の実装において、通信インターフェイス１２１３は、さまざまなタイプの情報を表すデジタル・データ・ストリームを搬送する電気、電磁、又は光信号を送受信する。

ネットワーク・リンク１２１４は通常、他のデータ装置への１つ又は複数のネットワークを経由してデータ通信を提供する。例えば、ネットワーク・リンク１２１４は、ローカル・ネットワーク１２１５（例えばＬＡＮ）経由、又は通信ネットワーク１２１６を介して通信サービスを提供するサービスプロバイダによって運営される装置経由で他のコンピュータに接続を提供することができる。ローカル・ネットワーク１２１４及び通信ネットワーク１２１６は、例えば、デジタル・データ・ストリームを搬送する電気、電磁、又は光信号、及び関連する物理層（例えば、ＣＡＴ５ケーブル、同軸ケーブル、光ファイバなど）を使用する。コンピュータ・システム１２０１との間でデジタル・データを搬送する、さまざまなネットワークを経由する信号と、ネットワーク・リンク１２１４上及び通信インターフェイス１２１３経由の信号は、ベースバンド信号又は搬送波ベースの信号で実装されてもよい。ベースバンド信号は、デジタル・データビットのストリームを記述する無変調の電気パルスとしてデジタル・データを伝達する。ここで「ビット」という用語は、各シンボルが少なくとも１つ又は複数の情報ビットを搬送する場合のシンボルを意味するように広義に解釈される。デジタル・データはまた、導電媒体を介して伝搬されるか、又は伝搬媒体経由で電磁波として伝送される、振幅、位相及び／又は周波数偏移符号化信号などにより、搬送波を変調するために使用されてもよい。従って、デジタル・データは、「有線の」通信チャネル経由で無変調ベースバンドデータとして送信、及び／又は搬送波を変調することにより、ベースバンドとは異なる、あらかじめ定められた周波数帯域内で送信されてもよい。コンピュータ・システム１２０１は、ネットワーク１２１５及び１２１６、ネットワーク・リンク１２１４、及び通信インターフェイス１２１３を介して、プログラム・コードを含むデータを送受信することができる。さらに、ネットワーク・リンク１２１４は、携帯情報端末（ＰＤＡ）、ラップトップ・コンピュータ、又は携帯電話などのモバイル装置１２１７に、ＬＡＮ１２１５経由で接続を提供することができる。

要約すると、既存のアルゴリズムの説明から、非正規化フォワード演算子Ｆ及び非正規化バックワード演算子Ｂが極めて優良なリンク分析結果を提供できることが明らかである。さらに重要なことに、ＳＡＬＳＡ及びＨＩＴＳ技法の結果の間の大きな差異を回想し、ＰａｇｅＲａｎｋｆ演算から正規化を除去することが、リンク分析結果に重要な効果をもたらすことになる。さらに、合成演算子ＢＦ又はＦＢではなく、単体のバックワード演算子を使用することで、他のいかなる結果とも異なる結果をもたらす。ｂ演算子のこれまでの極めて限定されたテストは、結果が有意義であることを示唆している。非正規化Ｂ演算子は、同様に注目に値する。一般にバックワード演算子は、ＨＩＴＳ方法のハブスコアの精神においてさらに多くスコアをもたらす傾向がある。

中央Ｗｅｂ検索エンジンにおいてヒットを格付けするための本発明の実装では、他のいくつかのコンポーネントとの統合、テキスト格付けシステム、索引付けシステム、クローラ、及びユーザー・インターフェイスを必要とする。本発明は、この実施形態において、完全な実用的な検索エンジンの一部を表しており、システムなど他のコンポーネントから分離して実装されることは不可能である。

本発明はさらに、単一のＰＣ上に保持されるコンテンツにわたり動作する検索エンジンの一部として実装されてもよい。この実装には、ＰＣ（つまり「プライベートＷｅｂ」）に格納されているすべてのドキュメント（メール、テキスト、プレゼンテーションなど）の間のハイパーリンクの導入を必要とする。この概念（単一ＰＣ上のドキュメント間のハイパーリンク）は、我々の知る限りでは、今日のオペレーティング・システムで非常に限定された範囲でしか実現されていない。従って、「プライベートＷｅｂ」の一部として本発明を実装することは、ＰＣの多くのファイル処理アプリケーションの変更を必要とするであろう。さらに、索引付けシステム、ユーザー・インターフェイス、及び（おそらくは）テキスト関連性に基づく格付けシステムが必要とされるであろう。

前述の教示を考慮すれば、本発明の多くの変更及び変形が可能であることは明白である。従って、本明細書に具体的に説明されている以外の状況においても、本発明が添付の請求の範囲内で実施されうることが理解されよう。

リンクされたデータベース（グラフ）全体にリンク分析を適用する従来の方法を示している。リンク分析が全グラフに適用される図１の方法に対応する格付けメカニズムのアーキテクチャを示している。従来のトピック検索によって選択されたドキュメントのサブセットにリンク分析を適用する従来の方法を示している。リンク分析がサブグラフに適用される図３の方法に対応する格付けメカニズムのアーキテクチャを示している。本発明の第１のテスト・ケースを示している。本発明の第２のテスト・ケースを示している。本発明に関連する流れ図である。本発明に関連するコンピュータ・システムのブロック図である。

符号の説明

１２１０ディスプレイ
１２１１キーボード
１２１２ポインティング・デバイス
１２０９ディスプレイ・コントローラ
１２０４メイン・メモリ
１２０６ディスク・コントローラ
１２０２バス
１２０３プロセッサ
１２１３通信インターフェイス
１２０７ハード・ディスク
１２０８取り外し可能メディア・ドライブ
１２１６通信ネットワーク
１２１７モバイル装置

Claims

コンピュータを用いて、リンクされた複数のノードのセットにおいて該ノードの関連性を格付けする方法であって、
前記ノード間の逆方向のリンク関係を行列で表現した非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した非複合の非正規化フォワード演算子を使用して前記複数のノードのオーソリティ重みのベクトルを、前記コンピュータによって決定するステップであって、
前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを選択し、
前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第１の更新ベクトルを決定し、
ノード重みの前記決定された第１の更新ベクトルを正規化し、および、
ノード重みの第１の更新ベクトルを決定する前記ステップとノード重みの前記決定された第１の更新ベクトルを正規化する前記ステップとを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストすることを含む、オーソリティ重みのベクトル決定ステップと、
前記オーソリティ重みのベクトル決定ステップと数学的に分離されるように、前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を使用して前記ノードのハブ重みのベクトルを、前記コンピュータによって決定するステップであって、
前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを選択し、
前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を適用してノード重みの第２の更新ベクトルを決定し、
ノード重みの前記決定された第２の更新ベクトルを正規化し、
ノード重みの第２の更新ベクトルを決定する前記ステップとノード重みの前記決定された第２の更新ベクトルを正規化する前記ステップとを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストすることを含むステップとを含む、ハブ重みのベクトル決定ステップと、
前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードの関連性を、前記コンピュータによって格付けするステップと、
電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成するステップとを備えた方法。
前記関連性を格付けするステップは、
検索項目を選択するステップと、
格付け結果を表示するステップをさらに備える請求項１記載の方法。
前記関連性を格付けするステップは、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を、前記コンピュータによって格付けするステップを備える請求項１記載の方法。
リンクされた複数のノードのセットにおいて該ノードの関連性を格付けするシステムであって、
前記ノード間の逆方向のリンク関係を行列で表現した非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した非複合の非正規化フォワード演算子を用いて前記複数のノードのオーソリティ重みのベクトルを計算し、
該オーソリティ重みのベクトルの計算において、
前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを選択し、
前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第１の更新ベクトルを決定し、
ノード重みの前記決定された第１の更新ベクトルを正規化し、
ノード重みの前記第１の更新ベクトルの決定とノード重みの前記決定された第１の更新ベクトルの正規化とを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストし、
前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を用いて前記ノードのハブ重みのベクトルを計算し、それにより、前記オーソリティ重みのベクトルの計算と前記ハブ重みのベクトルの計算とが数学的に分離されるように構成され、
該ハブ重みのベクトルの計算において、
前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを選択し、
前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を適用してノード重みの第２の更新ベクトルを決定し、
ノード重みの前記決定された第２の更新ベクトルを正規化し、
ノード重みの第２の更新ベクトルの決定とノード重みの前記決定された第２の更新ベクトルの正規化とを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストし、
さらに前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードの関連性を格付けするように構成された計算器と、
電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成するように構成されたコンピュータベースのサーチエンジンとを備えたシステム。
前記計算器に接続された検索項目選択装置と、
前記計算器に接続され、前記格付け結果を表示するディスプレイをさらに備える請求項４記載のシステム。
前記計算器に接続され、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を格付けするテキスト内容格付けメカニズムをさらに備える請求項４記載のシステム。
コンピュータを用いて、リンクされた複数のノードのセットにおいて該ノードの関連性を格付けする方法であって、
前記ノード間の逆方向のリンク関係を行列で表現した演算子である非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した演算子である非複合の非正規化フォワード演算子を使用して前記複数のノードのオーソリティ重みのベクトルを、前記コンピュータによって決定し、あるいは、前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を使用して前記ノードのハブ重みのベクトルを、前記コンピュータによって決定するステップであって、
前記オーソリティ重みのベクトルを決定する場合には、前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを選択し、
前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第１の更新ベクトルを決定し、
ノード重みの前記決定された第１の更新ベクトルを正規化し、および、
ノード重みの第１の更新ベクトルを決定する前記ステップとノード重みの前記決定された第１の更新ベクトルを正規化する前記ステップとを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストし、
前記ハブ重みのベクトルを決定する場合には、
前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを選択し、
前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を適用してノード重みの第２の更新ベクトルを決定し、
ノード重みの前記決定された第２の更新ベクトルを正規化し、
ノード重みの第２の更新ベクトルを決定する前記ステップとノード重みの前記決定された第２の更新ベクトルを正規化する前記ステップとを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストするステップと、
前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルのいずれか一方に基づいて、前記各ノードの関連性を、前記コンピュータによって格付けするステップと、
電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成するステップとを備えた方法。
前記関連性を格付けするステップは、検索項目を選択するステップを備える請求項７記載の方法。
前記関連性を格付けするステップは、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を、前記コンピュータによって格付けするステップを備える請求項７記載の方法。
前記コンピュータベースのサーチエンジンを備えたシステムのプロセッサに接続され、対応する計算されたオーソリティ重み及びハブ重みをディスプレイに中継するように構成されたディスプレイコントローラをさらに備えた請求項４に記載のシステム。
請求項１乃至３あるいは請求項７乃至９のいずれか１項に記載のステップをプロセッサベースの装置に実行させる命令が含まれたコンピュータ・プログラムを格納したコンピュータ読出し可能な記憶媒体。
リンクされた複数のノードのセットにおいて該ノードの関連性を格付けするシステムであって、
前記ノード間の逆方向のリンク関係を行列で表現した非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した非複合の非正規化フォワード演算子を使用して前記複数のノードのオーソリティ重みのベクトルを決定する手段であって、
該オーソリティ重みのベクトルの決定において、
前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを入力として受け取り、
前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第１の更新ベクトルを決定し、
ノード重みの前記決定された第１の更新ベクトルを正規化し、
ノード重みの前記第１の更新ベクトルの決定とノード重みの前記決定された第１の更新ベクトルの正規化とを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストする手段と、
前記オーソリティ重みのベクトルを決定する手段と数学的に分離されるように、前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を使用して前記ノードのハブ重みのベクトルを決定する手段であって、
該ハブ重みのベクトルの計算において、
前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを入力として受け取り、
前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を適用してノード重みの第２の更新ベクトルを決定し、
ノード重みの前記決定された第２の更新ベクトルを正規化し、
ノード重みの第２の更新ベクトルの決定とノード重みの前記決定された第２の更新ベクトルの正規化とを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストする手段と、
前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードの関連性を格付けする手段と、
電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成する手段とを備えたシステム。
前記格付けする手段は、
検索項目を選択する手段と、
格付け結果を表示する手段とをさらに備える請求項１２記載のシステム。
前記格付けする手段は、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を格付けする手段を備える請求項１２記載のシステム。
リンクされた複数のノードのセットにおいて該ノードの関連性を格付けするシステムにおいて、
前記ノード間の逆方向のリンク関係を行列で表現した非複合の非正規化バックワード演算子を用いることなく、前記ノード間の順方向のリンク関係を行列で表現した非複合の非正規化フォワード演算子を使用して前記複数のノードのオーソリティ重みのベクトルを、前記コンピュータによって決定し、あるいは、前記フォワード演算子を用いることなく、前記非複合の非正規化バックワード演算子を使用して前記ノードのハブ重みのベクトルを、前記コンピュータによって決定する手段であって、
該オーソリティ重みのベクトルを決定する場合、
前記リンクされた複数のノードのセットにおいて各ノードの最初のオーソリティ重みのフォワード開始ベクトルを選択し、
前記フォワード開始ベクトルに前記非複合の非正規化フォワード演算子を適用してノード重みの第１の更新ベクトルを決定し、
前記ノード重みの前記決定された第１の更新ベクトルを正規化し、
前記ノード重みの前記第１の更新ベクトルの決定とノード重みの前記決定された第１の更新ベクトルの正規化とを、前記ノード重みがオーソリティ重みの決定されるベクトルに収束するまで繰り返すことで、収束をテストし、
前記ハブ重みのベクトルを決定する場合、
前記リンクされたノードのセットにおいて各ノードの最初のハブ重みのバックワード開始ベクトルを選択し、
前記バックワード開始ベクトルに前記非複合の非正規化バックワード演算子を使用してノード重みの第２の更新ベクトルを決定し、
ノード重みの前記決定された第２の更新ベクトルを正規化し、
ノード重みの第２の更新ベクトルの決定とノード重みの前記決定された第２の更新ベクトルの正規化とを、前記ノード重みがハブ重みの決定されるベクトルに収束するまで繰り返すことで収束を判定する手段と、
前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルいずれか一方に基づいて前記各ノードの関連性を格付けする手段と、
電子的アーカイブにおける情報オブジェクトを検索する際に、前記格付けの結果に基づいて、検索結果を前記コンピュータによって生成する手段とを備えるシステム。
前記格付けする手段は、検索項目を選択する手段を備える請求項１５記載のシステム。
前記格付けする手段は、前記オーソリティ重みのベクトルおよび前記ハブ重みのベクトルに基づいて、前記各ノードのテキスト内容の関連性を格付けする手段を備える請求項１５記載のシステム。