JP4746712B2 - 履歴重要度のファクタリングによるドキュメントの重要度の計算 - Google Patents

履歴重要度のファクタリングによるドキュメントの重要度の計算 Download PDF

Info

Publication number
JP4746712B2
JP4746712B2 JP2010503259A JP2010503259A JP4746712B2 JP 4746712 B2 JP4746712 B2 JP 4746712B2 JP 2010503259 A JP2010503259 A JP 2010503259A JP 2010503259 A JP2010503259 A JP 2010503259A JP 4746712 B2 JP4746712 B2 JP 4746712B2
Authority
JP
Japan
Prior art keywords
snapshot
importance
importance score
web page
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010503259A
Other languages
English (en)
Other versions
JP2010524141A5 (ja
JP2010524141A (ja
Inventor
リュウ ティエ−ヤン
リー ハン
チィー レイ
ガオ ビン
ヤン レイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2010524141A publication Critical patent/JP2010524141A/ja
Publication of JP2010524141A5 publication Critical patent/JP2010524141A5/ja
Application granted granted Critical
Publication of JP4746712B2 publication Critical patent/JP4746712B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ドキュメントの重要度を判定する方法およびシステムに関する。
GoogleやOvertureなどの多くの検索エンジンサービスは、インターネット経由でアクセス可能な情報の検索を提供する。これらの検索エンジンサービスにより、ユーザは、ユーザにとって興味があるかもしれないウェブページなどの表示ページの検索を行うことができる。ユーザが検索語を含む検索要求(すなわち、クエリ)を提示した後、検索エンジンサービスはそれらの検索語に関連する可能性のあるウェブページを識別する。関連するウェブページを迅速に識別するために、検索エンジンサービスはウェブページへのキーワードのマッピングを維持することができる。このマッピングは、ウェブ(すなわち、World Wide Web)を「クロール」して各ウェブページのキーワードを識別することにより生成することができる。ウェブをクロールするために、検索エンジンサービスはルートウェブページのリストを使用して、それらのルートウェブページを介してアクセス可能な全てのウェブページを識別することができる。任意の特定のウェブページのキーワードは、ヘッドラインの語、ウェブページのメタデータ内に含まれる語、強調表示されている語などを識別するような種々の周知の情報検索技術を使用して識別することができる。検索エンジンサービスは、ウェブページのキーワードがクエリの語にどれほどよくマッチするかに基づき、検索要求に関連する可能性のあるウェブページを識別する。次に検索エンジンサービスは、クエリに対する関連性、人気度、重要度、および/またはいくつかの他の測定値により判定されるランク付けに基づいた順序で、識別されたウェブページへのリンクをユーザに表示する。
ページのランク付けには、PageRank、HITS(「Hyperlink−induced Topic Search」)、および、DirectHITという3つの周知の技術がある。PageRankは、ウェブページが重要なウェブページへのリンク(すなわち、「アウトリンク(out links)」)を有することになるという原理に基づいている。したがって、ウェブページの重要度は、そのウェブページへリンク(すなわち、「インリンク(in links)」)する他のウェブページの数および重要度によって決まる。簡単な形式では、ウェブページ間のリンクは、隣接行列Aで表すことができる。この場合、Aijはウェブページiからウェブページjへのアウトリンクの数を表す。ウェブページjの重要度スコアWjは、以下の数式で表すことができる。
Figure 0004746712
この数式は、以下の数式に基づいた反復計算で解くことができる。
Figure 0004746712
ここで、wはウェブページの重要度スコアのベクトルであり、ATの主固有ベクトル(principal eigenvector)である。
また、HITS技術は、他の重要なウェブページへのリンクが多いウェブページは、それ自体が重要である可能性があるという原理に基づいている。したがって、HITSは、ウェブページの「重要度」を2つの関連属性、すなはち「ハブ」および「オーソリティ」に分割する。「ハブ」は、あるウェブページのリンク先の複数のウェブページの「オーソリティ」スコアにより測定され、「オーソリティ」は、上記ウェブページにリンクする複数のウェブページの「ハブ」スコアにより測定される。クエリとは無関係にウェブページの重要度を計算するPageRankとは対照的に、HITSは、インリンクおよびアウトリンク後の結果のウェブページおよび結果のウェブページに関連するウェブページに基づいて重要度を計算するものである。HITSは、検索エンジンサービスにクエリを提示し、ウェブページの初期セットとして結果のウェブページを使用する。HITSはそのセットに、インリンク先であるウェブページおよび結果のウェブページのアウトリンク元であるウェブページを追加する。次に、HITSは反復アルゴリズムを使用して、各ウェブページのオーソリティスコアおよびハブスコアを計算する。オーソリティスコアおよびハブスコアは、以下の数式で表すことができる。
Figure 0004746712
ここで、a(p)はウェブページpのオーソリティスコアを表し、h(p)はウェブページpのハブスコアを表す。HITSは、隣接行列Aを使用してリンクを表す。隣接行列は以下の数式で表される。
Figure 0004746712
ベクトルaおよびhは、それぞれセット内の全てのウェブページのオーソリティスコアおよびハブスコアに相当し、これらのベクトルは以下の数式で表すことができる。
Figure 0004746712
したがって、aおよびhは行列ATAおよびAATの固有ベクトルである。HITSは、訪問の数で評価されるようなウェブページの人気度をファクタリングするように変更してもよい。クリックスルーの分析に基づいて、ユーザがウェブページiからウェブページjに移動するときはいつでも隣接行列のbijを増やすることができる。
リンクの分析に基づいてウェブページをランク付けするこれらの技術は、非常に有用でありうるが、「リンクスパミング(link spamming)」の影響を受けやすい。一般に、「スパミング」とは、ウェブページまたはウェブサイトの人気度または重要度を不当に上げるようにする故意の行為のことを言う。リンクスパミングの場合、スパム送信者はリンクを操作して、ウェブページの重要度を不当に上げることができる。例えば、スパム送信者は、スパム送信者のウェブページにアウトリンクを追加することによって、ウェブページのハブスコアを増加させる場合がある。アウトリンクを追加する一般的な技術は、既存のリンクディレクトリのコピーを作成して、非常に大規模のアウトリンク構造を迅速に作成するものである。別の例として、スパム送信者は、有用な情報のウェブページに隠しリンクを配置して、ウェブページをスパミングする場合がある。多くのウェブページが有用な情報を提示するとき、スパムウェブページの重要度は間接的に上がる。別の例として、ブログやウェブディレクトリなどの多くのウェブサイトにより訪問者がリンクを掲載することができる。スパム送信者は、自身のウェブページにリンクを掲載して、直接的または間接的にスパムウェブページの重要度を上げることができる。別の例として、スパム送信者のグループが各々の自身のウェブサイトが互いを提示し合うリンク交換機構を設定して、スパム送信者のウェブサイトのウェブページの重要度を上げる場合がある。
ウェブスパム、特にリンクスパミングは、ウェブデータに依存する種々の技術に問題を提起する。例えば、ある程度ウェブページの人気度または重要度に基づいて検索結果を順序付けする検索エンジンサービスは、スパミングのためにスパムウェブページを不当に高くランク付けしてしまう場合がある。検索結果のウェブページの正確なランク付けは、検索エンジンサービスにとって非常に重要である。検索エンジンサービスのユーザが、何がしかの理由で(例えば、リンクスパム)、検索結果のウェブページのランク付けが重要度または関連性についての自分の考えと一致しないと気付いた場合、ユーザは異なる検索エンジンサービスを参照してもよい。検索エンジンサービスの利益は、ユーザの数に密接に相関するので、検索結果のウェブページのランク付けの性能が劣ると検索エンジンサービスの利益の損失につながる可能性がある。
本発明の目的とするところは、ドキュメント間のリンクを有するドキュメントの時間重要度を、リンクの時間分析に基づいて判定する方法およびシステムを提供することにある。
ドキュメント間のリンクを有するドキュメントの時間重要度(temporal importance)を、リンクの時間分析(temporal analysis)に基づいて判定する方法およびシステムを提供する。時間ランク付けシステム(temporal ranking system)は、種々のスナップショット時におけるドキュメント間のリンクを示すリンク情報またはスナップショットを収集する。時間ランク付けシステムは、現在のスナップショットから導出される(すなわち、直近のスナップ時間を有する)ドキュメントの現在の重要度および過去のスナップショットから導出されるドキュメントの履歴重要度(historical importance)をファクタリング(factoring)することにより、ドキュメントの現在の時間重要度を計算する。ウェブページの現在の時間重要度を計算するために、時間ランク付けシステムは各スナップショットのウェブページの重要度を集約する。時間ランク付けシステムは、少なくとも一部がドキュメントの時間重要度に基づいてドキュメントをランク付けできるように、検索エンジンサービスにドキュメントの時間重要度を提供することができる。
この概要は、以下の詳細な説明でさらに説明する概念を選択して簡略化した形で紹介するためのものである。この概要は、本発明の重要な特徴または不可欠な特徴を特定することを意図してはおらず、また、本発明の範囲を決定するのを助けるものとして使用されることも意図してはいない。
ウェブグラフの一部を示す図である。 一実施形態において経時的に取得したウェブグラフのスナップショットに基づいてウェブページをランク付けする時間ランク付けシステムのコンポーネントを示すブロック図である。 いくつかの実施形態における時間ランク付けシステムの時間重要度計算コンポーネントの高レベル処理を示すフロー図である。 いくつかの実施形態における時間ランク付けシステムの時間重要度計算コンポーネントの低レベル処理を示すフロー図である。
リンクの時間分析に基づいて、ドキュメント間のリンクを有するドキュメントの時間重要度を判定する方法およびシステムを提供する。いくつかの実施形態では、時間ランク付けシステムは、さまざまなスナップショット時におけるドキュメント間(または一般的にはオブジェクト間)のリンクを示すリンク情報またはスナップショットを収集する。例えば、ドキュメントがウェブページである場合、ウェブクローラ(web crawler)はウェブをクロールして、ウェブページおよびウェブページ間のリンクを識別することができる。ウェブクローラは、ウェブページおよびリンクを、頂点およびエッジを有するウェブグラフ(web graph)として表すことができる。ウェブグラフは、スナップショット時間と呼ぶ、ウェブがクロールされた時点のウェブのスナップショットに対応する。時間ランク付けシステムは、現在のスナップショット(すなわち、直近のスナップ時間を有する)から導出されるドキュメントの現在の重要度および過去のスナップショットから導出されるドキュメントの履歴重要度をファクタリングすることにより、ドキュメントの現在の時間重要度を計算する。例えば、時間ランク付けシステムは、ページランク付けアルゴリズムを使用して、各スナップショットのウェブページの重要度を計算することができる。用語「時間重要度(temporal importance)」は、複数のスナップショットに基づく重要度スコアのことであり、用語「重要度」は、単一のスナップショットに基づく重要度スコアのことである。ウェブページの現在の時間重要度を計算するために、時間ランク付けシステムは、各スナップショットのウェブページの重要度を集約する。時間ランク付けシステムは、現在のスナップショットおよび1つまたは複数の過去のスナップショットに基づいてドキュメントの現在の時間重要度を計算するので、現在のスナップショットに取り込まれたリンクスパムのために上げられた現在の重要度を持つドキュメントは、(過去のスナップショットに基づくと)履歴から見て全体の重要度は低いので、より低い現在の時間重要度を持つことになる。
いくつかの実施形態では、時間ランク付けシステムは、現在のスナップショットから導出される現在の重要度および過去のスナップショットから導出される履歴重要度の、現在の時間重要度に対する相対寄与(relative contribution)を指定するのに使用されうる重み付けファクタ(weighting factor)を提供する。例えば、重み付けファクタは、0と1との間の値に設定することができる。0の値は、現在の重要度が現在の時間重要度に少しも寄与していないこと、および現在の時間重要度が履歴重要度であることを示している。0.5の値は、現在の重要度および履歴重要度が現在の時間重要度に等しく寄与していることを示している。1の値は、履歴重要度が現在の時間重要度に少しも寄与していないこと、および現在の時間重要度が現在の重要度に縮退(degenerate)していることを示している。重み付けファクタは、現在のスナップショットから導出される現在の重要度が、ウェブページの実際の重要度をどの程度正確に反映しているかに基づいて設定することができる。
いくつかの実施形態では、時間ランク付けシステムは、経時的にウェブページの現在の時間重要度に対するスナップショットの相対寄与を低減するのに使用される減衰ファクタ(decay factor)を提供する。減衰ファクタを適用したとき、追加のスナップショットが収集されると、スナップショットからの寄与は減少する。例えば、減衰ファクタは、1スナップショット時間から次のスナップショット時間までスナップショットの寄与が50%減少することを示してもよい。第2の最新のスナップショットの寄与はその重要度の50%であり、第3の最新のスナップショットの寄与はその重要度の25%であり、第4の最新のスナップショットの寄与はその重要度の12.5%などのようにすることができる。
いくつかの実施形態では、時間ランク付けシステムは、各スナップショットに対する適切な減衰ファクタを判定する際に力学モデル(mechanic model)を適用する。力学モデルを使用して、時間ランク付けシステムは、現在のスナップショットの現在の重要度が駆動力(driving force)を有し、過去のスナップショットの履歴重要度が抵抗力(resisting force)を有するものと考える。全てのスナップショットから得られる合計の力は、エンハンスメントファクタにより調整された駆動力から、ダンピングファクタにより調整された抵抗力を差し引いた力となる。力学モデルは、駆動力が印加される物体は抵抗力も有するという物理的動作の力学に類似している。物体上にかかる力の合計は、駆動力から抵抗力を差し引いたものである。物理的動作に関するニュートンの第2法則によれば、物体の力は、質量×加速度(例えば、速度の導関数)である。時間重要度の計算に類似の法則を適用すると、全ての過去のスナップショットから導出される力の合計は、ウェブページの「質量」×ウェブページの履歴重要度の「加速度」である。したがって、履歴重要度は「速度」であると考えることができる。ウェブページの「質量」はウェブページの固有の品質を表すことができる。いくつかの実施形態では、全てのウェブページは同じ質量を有するものと仮定される。ウェブページの「加速度」は、履歴重要度の変化率である。以下でより詳細に説明するように、ウェブページの力の合計(すなわち、エンハンスメントファクタにより調整される駆動力およびダンピングファクタにより調整される抵抗力)をウェブページの質量×加速度に設定することにより、ウェブページの速度または時間重要度の解を得ることができる。その解は、重み付けファクタおよび減衰ファクタをエンハンスメントファクタおよびダンピングファクタから導出することができる数式を提供する。概念的に、ダンピングファクタは、どの程度の大きさの履歴重要度が現在の時間重要度に寄与するかを表し、エンハンスメントファクタは、ウェブページの相対的な時間重要度に影響を与えない定数である。ダンピングファクタは、全てのスナップショットに対して同じであってもよく、時間ランク付けシステムを制御するパラメータを理解するための直観的モデルを提供することができる。
時間ランク付けシステムは、現在のウェブグラフ(すなわち、スナップショット)および以前のウェブグラフ内に含まれる履歴情報の両方に基づいて、ウェブページの時間重要度スコアを計算する。時間ランク付けシステムは、以下の数式によりウェブページの現在の時間重要度を表す。
Figure 0004746712
ここで、kはウェブグラフGのスナップショットの番号を表し、TRk(i)はスナップショット時間kのドキュメントiの現在の時間重要度スコアを表し、PRk(i)はウェブグラフGkから導出されるスナップショット時間kにおけるドキュメントiの現在の重要度スコアを表し、Hk(i)はウェブグラフG1,G2,...,Gk-1から導出されるドキュメントiの履歴重要度スコアを表し、βはスナップショット時間kの現在の重要度スコアに対する重み付けファクタを表し、1−βはスナップショット時間1〜k−1の履歴重要度スコアに対する重み付けファクタを表す。重み付けファクタβを現在のスナップショットの認知された信頼度に基づいて設定することができる。βが1に等しい場合、現在のスナップショットは完全に信頼できると考えられ、過去のスナップショットは無視される。時間ランク付けシステムは、以下のように履歴重要度スコアを表す。
Figure 0004746712
ここで、γtは各スナップショットからのどの程度の大きさの重要度が履歴重要度スコアに寄与するかを示す減衰ファクタを表す。一般に、早いスナップショットであるほど、履歴重要度スコアに寄与すべき重要度の大きさは小さくなる。時間ランク付けシステムは、数式1および数式2を以下のように結合することができる。
Figure 0004746712
時間ランク付けシステムは、「力学モデル」を使用して減衰ファクタおよび重み付けファクタを制御するためのパラメータを導出することができる。時間ランク付けシステムは、重要度が物体の速度に対応すると仮定する。ページiが現在のスナップショットtの重要度スコアPRt(i)を得る場合、時間ランク付けシステムは対応する駆動力をこのページの仮想力Ft(i)に追加することになる。時間ランク付けシステムは、時間重要度スコアTRt(i)の減衰が仮想力にマイナスの影響を与える抵抗力であると仮定する。時間ランク付けシステムは、以下のようなモデルを表す。
Figure 0004746712
ここで、η(η>0)は駆動力のエンハンスメントファクタを表し、λ(λ≧0)は減衰ファクタを表す。時間ランク付けシステムは、以下のように仮想力を表す。
Figure 0004746712
ここで、m(i)は質量と同じ意味を有するウェブページiの固有の品質である。概念的に、仮想力は質量×加速度として表される。時間ランク付けシステムは、以下のように数式4および数式5を一次常微分方程式として結合する。
Figure 0004746712
数式6の一般解は、以下のとおりである。
Figure 0004746712
ここで、C0は積分定数である。全てのウェブページが開始時点(t=0)で同じ初期重要度スコアを有するものと仮定するならば、このとき
Figure 0004746712
であり、Nはウェブグラフにおけるウェブページの番号である。このこのように仮定すると、解は以下のように表すことができる。
Figure 0004746712
ウェブグラフデータは時間に対する離散スナップショットであるので、時間ランク付けシステムは数式8を以下のような離散形に変換する。
Figure 0004746712
数式9を再定式化して、以下のように、初期重要度スコア、履歴重要度スコア、現在の重要度スコアに分けることができる。
Figure 0004746712
数式10の右辺の最初の項はウェブページiに関する定数を表し、初期重要スコアを表す。第2の項はHk(i)で表される過去のウェブグラフにおけるウェブページiの重要度スコアの線形結合を表し、第3の項は現在のウェブグラフにおけるウェブページiの現在の重要度スコアを表す。定数が無視される場合、減衰ファクタおよび重み付けファクタは以下のように表すことができる。
Figure 0004746712
重み付けファクタβは、履歴重要度スコアが現在の時間重要度スコアに寄与する重みを表す。ファクタm(i)は各ウェブページの固有の品質である。一実施形態では、時間ランク付けシステムは、m(i)を全てのウェブページに対して同じに設定することができる。λおよびm(i)が一定である場合、エンハンスメントファクタηはページのランク付けに影響を与えない。確実に重み付けファクタが0と1との間になるように、時間ランク付けシステムは、ηを0より大きく、m(i)より小さい値に設定する。
図1は、ウェブグラフの一部を示す図である。ウェブグラフは、ウェブをクロールして、出会うウェブサイトのウェブページのアウトリンクを識別することにより生成される。この例では、ウェブグラフ100の一部は、5個のウェブサイトを表す頂点101〜105、およびアウトリンクを表す頂点間のエッジを含む。例えば、頂点101と103との間のエッジは、頂点101で表されるウェブサイトの、頂点103で表されるウェブサイトへのアウトリンクを表す。したがって、頂点103で表されるウェブサイトは、エッジで表されるアウトリンクのターゲットである。また、該エッジは、頂点103で表されるウェブサイトへのインリンクでもある。したがって、頂点101で表されるウェブサイトは、エッジで表されるインリンクのリンク元である。時間ランク付けシステムは、各ウェブサイトを行列の行および列として表した隣接行列を使用して、ウェブグラフを表すことができる。行および列のゼロ以外のエントリは、行で表されたウェブサイトが列で表されたウェブサイトへアウトリンクすることを示すことができる。時間ランク付けシステムは、スパース行列記憶技術を含むウェブグラフを表す種々の技術を使用することができる。さらに、時間ランク付けシステムは、ウェブグラフの複数の時間全部を記憶するのではなく、1スナップショット時間から次のスナップショット時間までの差を記憶することもできる。
新規のウェブページが頻繁に追加され、古いウェブページが頻繁にウェブから削除されるので、各スナップショットは異なる数のウェブページを持つことになる。時間ランク付けシステムは、全てのスナップショットにおける全てのウェブページの集約リストを維持することにより、異なるスナップショットにおける異なる数のウェブページに責任を持つことができる。スナップショットのウェブページの重要度スコアを計算するとき、時間ランク付けシステムは、スナップショットにない集約リストのウェブページに対して0の重要度スコアを付ける。このようにして、各スナップショットの重要度スコアを表すベクトルは同じ長さを有することになる。
図2は、一実施形態において経時的に取得したウェブグラフのスナップショットに基づいてウェブページをランク付けする時間ランク付けシステムのコンポーネントを示すブロック図である。時間ランク付けシステム210は、通信リンク240を介してウェブサイトサーバ220およびユーザコンピューティング装置230に接続される。時間ランク付けシステムは、ウェブクローラ211、ウェブグラフ作成コンポーネント212、ウェブグラフストア213、および検索インデックスストア214を含むことができる。ウェブクローラは、ウェブサイトサーバのウェブページをクロールして、ウェブページおよびウェブページ間のリンクを識別する。ウェブクローラは、キーワードのウェブページへのマッピングを生成し、検索インデックスストア内にそのマッピングを記憶することができる。また、ウェブクローラは、ウェブのスナップショットに対応するウェブグラフ表現を生成するウェブグラフ作成コンポーネントへ、ウェブページおよびリンクの指示を提供表示することもできる。ウェブグラフ作成コンポーネントは、ウェブグラフストア内に記憶されている隣接行列によりウェブグラフを表すことができる。ウェブクローラは、定期的に、またはアドホックベースでウェブページをクロールするようにスケジュールを組むことができる。いずれの場合も、ウェブクローラは、スナップショット時間を各スナップショットに関連付ける。いくつかの実施形態における時間ランク付けシステムは、スナップショット時間が等しい間隔であると仮定するけれども、当業者であればスナップショット時間は等しい間隔にしなくてもよいことは理解するだろう。このような場合、スナップショットのダンピングファクタおよび減衰ファクタの計算は、現在のスナップショット時間に対する実際のスナップショット時間を考慮に入れることができる。
時間ランク付けシステムは、時間重要度計算コンポーネント215、重要度計算コンポーネント216、時間重要度ストア250、および重要度ストア251を含む。時間重要度計算コンポーネントは、現在のスナップショットから導出された重要度スコアおよび過去のスナップショットから導出された履歴重要度に基づいて、各ウェブサイトの現在の時間重要度スコアを計算する。時間重要度計算コンポーネントは、重要度計算コンポーネントを呼び出して、単一のスナップショットに基づいてウェブページの重要度スコアを計算する。重要度計算コンポーネントは、ページランク付けアルゴリズムまたはハブ・オーソリティアルゴリズム(hub and authority algorithm)などの従来のアルゴリズムを実装して、重要度ストア内に各スナップショットの重要度スコアを記憶することができる。時間重要度計算コンポーネントは、ウェブページのランク付けに使用するために、時間重要度ストア内に時間重要度スコアを記憶することができる。
さらに、時間ランク付けシステムは、検索エンジンコンポーネント217、一致ウェブページ発見コンポーネント218、および結果ランク付けコンポーネント219を含むことができる。ユーザコンピューティング装置のユーザは、検索要求を検索エンジンコンポーネントに提示することができる。検索エンジンコンポーネントは、一致ウェブページ発見コンポーネントを呼び出して、検索要求と一致するウェブページを発見する。一致ウェブページ発見コンポーネントは、検索インデックスを使用して一致するウェブページを識別することができる。次に、検索エンジンコンポーネントは、結果ランク付けコンポーネントを呼び出して、検索結果のウェブページの時間重要度ストアの時間重要度スコアに基づいて結果のウェブページをランク付けする。例えば、結果ランク付けコンポーネントは、検索要求に対するウェブページの関連性に基づいた関連性スコアを、時間ランク付けシステムにより生成された現在の時間重要度スコアと結合して、総合ランク付けスコアを提供することができる。次に、検索エンジンコンポーネントは、そのランク付けスコアに基づいて、検索結果のウェブページをランク付けすることができる。
時間ランク付けシステムを実装するコンピューティング装置は、中央処理装置、メモリ、入力装置(例えば、キーボード、およびポインティングデバイス)、出力装置(例えば、表示装置)、および記憶装置(例えば、ディスクドライブ)を含むことができる。メモリおよび記憶装置は、該システムを実装するコンピュータ実行可能命令を使用して符号化されるコンピュータ可読媒体であり、つまり、コンピュータ実行可能命令を含むコンピュータ可読媒体である。さらに、命令、データ構造、およびメッセージ構造を記憶して、通信リンク上の信号などのデータ伝送媒体を介して伝送することができる。インターネット、ローカルエリアネットワーク、広域ネットワーク、ポイントツーポイント・ダイアルアップ接続、携帯電話ネットワークなどといった種々の通信リンクを使用することができる。
時間ランク付けシステムの実施形態は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラム可能家庭用電化製品、デジタルカメラ、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話、携帯端末、スマートフォン、パーソナルコンピュータ、プログラム可能家庭用電化製品、任意の上述のシステムまたは装置を含む分散コンピューティング環境などを含む、種々の動作環境で実装することもでき、または種々の動作環境とともに使用することもできる。
時間ランク付けシステムは、1つまたは複数のコンピュータもしくはその他の装置により実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明することができる。一般的に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。一般に、プログラムモジュールの機能は、種々の実施形態において、望みどおりに組み合わせたり、分散させたりすることができる。例えば、個別のコンピューティングシステムが、ウェブをクロールして、ウェブグラフを生成することができる。別のコンピューティングシステムは、時間重要度スコアを使用して検索結果をランク付けする検索エンジンを提供することができる。
図3は、いくつかの実施形態における時間ランク付けシステムの時間重要度計算コンポーネントの高レベル処理を示すフロー図である。該コンポーネントを呼び出して、ウェブの複数のスナップショットの分析に基づいて時間重要度スコアを計算する。ブロック301において、該コンポーネントは、各スナップショットのウェブページの重要度スコアを計算する。例えば、該コンポーネントは、ページランク付けアルゴリズムまたはハブ・オーソリティアルゴリズムを使用することができる。上述したように、該コンポーネントは、各スナップショットの重要度スコアを重要度ストア内に保存して、新規のスナップショットが収集されるたびに重要度スコアを再計算するのを避けることができる。ブロック302〜305において、該コンポーネントは、過去の重要度スコアの寄与を、各ウェブページの履歴重要度スコアに集約することを繰り返す(loop)。ブロック302において、該コンポーネントは、変数を初期化してスナップショットを追跡する。ブロック303において、該コンポーネントは、変数をインクリメントして次のスナップショットを選択する。決定ブロック304において、全てのスナップショットがすでに選択されている場合、該コンポーネントはブロック306で処理を継続し、そうでない場合は、ブロック305で処理を継続する。ブロック305において、該コンポーネントは、重み付けファクタに基づいて選択したスナップショットのウェブページの重要度スコアを、履歴重要度スコア内に累積する。次に、該コンポーネントは、ブロック303にループして、次のスナップショットを選択する。ブロック306において、該コンポーネントは、各ウェブページの現在の時間重要度スコアを、ウェブページの履歴重要度スコアおよびウェブページの現在の重要度スコアの重み付け結合として生成する。その後、該コンポーネントは処理を終了する。
図4は、いくつかの実施形態における時間ランク付けシステムの時間重要度計算コンポーネントの低レベル処理を示すフロー図である。ブロック401において、該コンポーネントは、現在のスナップショットのウェブページの重要度スコアを計算する。ブロック402において、該コンポーネントは、数式10の第1項に従って各ウェブページの時間重要度スコアを初期化する。ブロック403〜409において、該コンポーネントは、数式10の第2項に従って過去のスナップショットに基づき履歴重要度スコアを計算することを繰り返す。ブロック403において、該コンポーネントは、最も古いスナップショットから見て次のスナップショットを選択する。決定ブロック404において、全ての過去のスナップショットがすでに選択されている場合、該コンポーネントはブロック410で処理を継続し、そうでない場合は、該コンポーネントはブロック405で処理を継続する。ブロック405〜409において、該コンポーネントは、各ウェブページの履歴重要度スコアを計算することを繰り返す。ブロック405において、該コンポーネントはウェブページのインデックスを初期化する。ブロック406において、該コンポーネントは選択したスナップショットの次のウェブページを選択する。決定ブロック407において、全てのウェブページがすでに選択されている場合、該コンポーネントはブロック403にループして、次のスナップショットを選択し、そうでない場合、該コンポーネントはブロック408で処理を継続する。ブロック408において、該コンポーネントは、選択したスナップショット内のウェブページの重要度スコアから、選択したウェブページの重み付け重要度スコアを計算する。ブロック409において、該コンポーネントは、重み付け重要度スコアを直前のスナップショットの履歴重要度スコアと結合して、選択したスナップショットの選択したウェブページの履歴重要度スコアを提供する。次に、該コンポーネントはブロック406にループして、選択したスナップショットの次のウェブページを選択する。ブロック410〜414において、該コンポーネントは、現在のスナップショットの各ウェブページの重み付け重要度スコアを計算し、これを数式10の第3項に従ってウェブページの履歴重要度スコアに加えることを繰り返す。ブロック410において、該コンポーネントはウェブページのインデックスを初期化する。ブロック411において、該コンポーネントはインデックスをインクリメントして、次のウェブページを選択する。決定ブロック412において、現在のスナップショットの全てのウェブページがすでに選択されている場合、該コンポーネントは処理を終了し、そうでない場合には、該コンポーネントはブロック413で処理を継続する。ブロック413において、該コンポーネントは、ブロック401で計算した、選択したウェブページの重要度スコアに基づいて、選択したウェブページの重み付け重要度スコアを計算する。ブロック414において、該コンポーネントは、ブロック409で計算した、選択したウェブページの履歴重要度スコアおよび重み付け重要度スコアを結合して、選択したウェブページの現在の時間重要度スコアにする。次に、該コンポーネントはブロック411にループして、現在のスナップショットの次のウェブページを選択する。
本発明を、構造的特徴および/または方法動作に固有の用語で説明してきたが、当然のことながら、本発明は、必ずしも上述の固有の特徴または動作に限定されるとは限らない。むしろ、上述した固有の特徴および動作は、本発明を実装する形の例として開示されている。当業者は、時間重要度スコアを、ドキュメントの重要度を使用する任意の用途で使用できることは理解するであろう。例えば、ドキュメントを特許文献とし、リンクを他の特許文献への引用文献としてもよいし、またはドキュメントを学術論文とし、リンクを他の学術論文への引用論文としてもよい。さらに、時間重要度スコアを使用して、著者を彼らの文章の重要度に基づいて評価してもよい。したがって、本発明は、添付の請求項による場合を除いて限定されるものではない。

Claims (22)

  1. コンピューティング装置において、ドキュメント間のリンクを有するドキュメントのコレクション中のドキュメントの時間重要度を判定する方法であって、前記コレクション中の前記ドキュメント、および、前記コレクション中の前記ドキュメント間の前記リンクは経時的に変化し、前記方法は、前記コンピューティング装置に記憶されたプログラムを前記コンピューティング装置が実行することによって実施され、
    ドキュメントの前記コレクションの種々のスナップショットのリンク情報を収集するステップであって、各スナップショットは、ある時点の前記コレクション中の前記ドキュメントおよび前記コレクション中の前記ドキュメント間の前記リンクを示し、スナップショットの前記リンク情報は、前記スナップショットの前記コレクションの前記ドキュメント間のリンクを示すステップと、
    各スナップショットについて、前記スナップショットの前記リンク情報に基づいて前記ドキュメントの重要度スコアを計算するステップと、
    ドキュメントのために前記スナップショットの前記計算された重要度スコアを集約して、前記コレクション中のドキュメント、および前記コレクション中の前記ドキュメント間の前記リンクの経時的な変化をファクタリングする前記ドキュメントの時間重要度スコアを提供するステップと
    を含むことを特徴とする方法。
  2. 前記計算された重要度スコアを集約するステップは、より直近のスナップショットの重要度スコアを、それよりも直近でないスナップショットの重要度スコアよりも重く重み付けすることを特徴とする請求項1に記載の方法。
  3. ドキュメント間のリンクを有するドキュメントの時間重要度を判定する、コンピューティング装置における方法であって、該方法は、前記コンピューティング装置に記憶されたプログラムを前記コンピューティング装置が実行することによって実施され、
    種々のスナップショットのリンク情報を収集するステップであって、前記リンク情報は、前記ドキュメント間のリンクを示すステップと、
    各スナップショットについて、前記スナップショットの前記リンク情報に基づいて前記ドキュメントの重要度スコアを計算するステップと、
    ドキュメントのために前記スナップショットの前記計算された重要度スコアを集約して、前記ドキュメントの時間重要度スコアを提供するステップとを含み
    前記集約するステップは、以下の数式に従って行われ、
    Figure 0004746712
    ここで、kはスナップショットの番号を表し、TRk(i)はスナップショットkのドキュメントiの前記時間重要度スコアを表し、PRt(i)はスナップショットtのドキュメントiの前記重要度スコアを表し、PRk(i)はスナップショットkのドキュメントiの前記重要度スコアを表し、βはスナップショットkの現在の重要度スコアに対する重み付けファクタを表し、1−βはスナップショット1〜k−1の過去の重要度スコアに対する重み付けファクタを表し、γtは過去の重要度スコアに対する減衰ファクタを表すことを特徴とする方法。
  4. ドキュメント間のリンクを有するドキュメントの時間重要度を判定する、コンピューティング装置における方法であって、該方法は、前記コンピューティング装置に記憶されたプログラムを前記コンピューティング装置が実行することによって実施され、
    種々のスナップショットのリンク情報を収集するステップであって、前記リンク情報は、前記ドキュメント間のリンクを示すステップと、
    各スナップショットについて、前記スナップショットの前記リンク情報に基づいて前記ドキュメントの重要度スコアを計算するステップと、
    ドキュメントのために前記スナップショットの前記計算された重要度スコアを集約して、前記ドキュメントの時間重要度スコアを提供するステップとを含み
    前記集約するステップは、以下の数式に従って行われ、
    Figure 0004746712
    ここで、kはスナップショットの番号を表し、TRk(i)はスナップショットkのドキュメントiの前記時間重要度スコアを表し、PRt(i)はスナップショットtのドキュメントiの計算された重要度スコアを表し、PRk(i)はスナップショットkのドキュメントiの前記重要度スコアを表し、m(i)はドキュメントiの固有の品質を表し、Nはドキュメントの番号を表し、λおよびηはパラメータを表すことを特徴とする方法。
  5. 前記ドキュメントはウェブページであり、前記リンクは前記ドキュメント間のハイパーリンクであり、前記リンク情報はウェブグラフ表現であることを特徴とする請求項1に記載の方法。
  6. 前記ウェブグラフは、隣接行列で表されることを特徴とする請求項5に記載の方法。
  7. 前記重要度スコアを計算するステップは、ページランク付けアルゴリズムを適用することを特徴とする請求項1に記載の方法。
  8. 前記重要度スコアを計算するステップは、ハブ・オーソリティアルゴリズムを適用することを特徴とする請求項1に記載の方法。
  9. 検索結果のドキュメントの指示を受信するステップ、および前記検索結果のドキュメントを前記ドキュメントの前記時間重要度スコアに基づいてランク付けするステップを含むことを特徴とする請求項1に記載の方法。
  10. ウェブページおよび前記ウェブページ間のリンクを示すウェブのスナップショットを、種々の時間に収集するステップであって、各スナップショットは、ある時点の前記ウェブのウェブページおよび前記ウェブページ間のリンクを示すステップと、
    各スナップショットについて、前記リンク情報に基づいて、前記スナップショットのウェブページの重要度スコアを計算するステップと、
    前記ウェブページのスナップショットの前記重要度スコアを集約して、前記ウェブページの時間重要度スコアを提供するステップであって、ウェブページの前記時間重要度スコアは、複数のスナップショットについて計算された前記ウェブページの前記重要度スコアから導出されるステップと、
    前記ウェブページの前記時間重要度スコアをファクタリングすることにより、検索要求の検索結果のウェブページのランク付けを生成するステップと
    を含む方法を実行するように、検索結果のウェブページをランク付けするコンピューティング装置を制御するためのプログラム記録したコンピュータ可読記憶媒体。
  11. 前記ウェブページのランク付けを生成するステップは、前記検索要求に対する前記ウェブページの関連性をファクタリングすることを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
  12. 前記重要度スコアを集約するステップは、減衰ファクタを適用することを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
  13. ウェブページおよび前記ウェブページ間のリンクを示す前記ウェブのスナップショットを収集するステップと、
    前記リンク情報に基づいて、前記スナップショットの前記ウェブページの重要度スコアを計算するステップと、
    前記ウェブページの前記スナップショットの前記重要度スコアを集約して、前記ウェブページの時間重要度スコアを提供するステップと、
    前記ウェブページの前記時間重要度スコアをファクタリングすることにより、検索要求に対する検索結果のウェブページのランキングを生成するステップと
    を含む方法を実行するように、検索結果のウェブページをランク付けするコンピューティング装置を制御するためのプログラム記録したコンピュータ可読記憶媒体であって、
    前記集約するステップは、以下の数式に従って行われ、
    Figure 0004746712
    ここで、kはスナップショットの番号を表し、TRk(i)はスナップショットkのドキュメントiの前記時間重要度スコアを表し、PRt(i)はスナップショットtのドキュメントiの前記重要度スコアを表し、PRk(i)はスナップショットkのドキュメントiの前記重要度スコアを表し、βはスナップショットkの現在の重要度スコアに対する重み付けファクタを表し、1−βはスナップショット1〜k−1の過去の重要度スコアに対する重み付けファクタを表し、γtは過去の重要度スコアに対する減衰ファクタを表すことを特徴とするコンピュータ可読記憶媒体。
  14. ウェブページおよび前記ウェブページ間のリンクを示す前記ウェブのスナップショットを収集するステップと、
    前記リンク情報に基づいて、前記スナップショットの前記ウェブページの重要度スコアを計算するステップと、
    前記ウェブページの前記スナップショットの前記重要度スコアを集約して、前記ウェブページの時間重要度スコアを提供するステップと、
    前記ウェブページの前記時間重要度スコアをファクタリングすることにより、検索要求に対する検索結果のウェブページのランキングを生成するステップと
    を含む方法を実行するように、検索結果のウェブページをランク付けするコンピューティング装置を制御するためのプログラム記録したコンピュータ可読記憶媒体であって、
    前記集約するステップは、以下の数式に従って行われ、
    Figure 0004746712
    ここで、kはスナップショットの番号を表し、TRk(i)はスナップショットkのドキュメントiの前記時間重要度スコアを表し、PRt(i)はスナップショットtのドキュメントiの前記計算された重要度スコアを表し、PRk(i)はスナップショットkのドキュメントiの前記重要度スコアを表し、m(i)はドキュメントiの固有の品質を表し、Nはドキュメントの番号を表し、λおよびηはパラメータを表すことを特徴とするコンピュータ可読記憶媒体。
  15. 前記スナップショットは、前記ウェブページおよび前記リンクのウェブグラフを表すことを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
  16. 前記重要度スコアを計算するステップは、ページランク付けアルゴリズムを適用することを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
  17. 前記重要度スコアを計算するステップは、ハブ・オーソリティアルゴリズムを適用することを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
  18. ハイパーリンクの分析に基づいて、ウェブページの時間重要度を判定するコンピューティングシステムであって、
    種々のスナップショット時間において収集されたウェブページおよび前記ウェブページのハイパーリンクを表すリンク情報のスナップショットを含むスナップショットストアと、
    メモリであって、
    複数のスナップショットのそれぞれについて、前記スナップショットのリンク情報に基づいて、前記ウェブページのそれぞれの前記スナップショットの重要度スコアを計算するコンポーネントと、
    ウェブページのために異なるスナップショットの前記ウェブページの前記重要度スコアを集約して、前記ウェブページの時間重要度スコアを提供するコンポーネントであって、前記時間重要度スコアはウェブページの重要度の経時的な変化に基くコンポーネントと
    のコンピュータ実行可能命令を記憶したメモリと、
    前記メモリに記憶された前記コンピュータ実行可能命令を実行するプロセッサと
    を備えることを特徴とするコンピューティングシステム。
  19. 前記計算された重要度スコアを集約するステップは、より直近のスナップショットの重要度スコアを、それよりも直近でないスナップショットの重要度スコアよりも重く重み付けすることを特徴とする請求項18に記載のコンピューティングシステム。
  20. 少なくとも前記ウェブページの前記時間重要度スコアに基づいて、検索結果のウェブページをランク付けするコンポーネントを含むことを特徴とする請求項18に記載のコンピューティングシステム。
  21. ハイパーリンクの分析に基づいて、ウェブページの時間重要度を判定するコンピューティングシステムであって、
    種々のスナップショット時間において収集されたウェブページおよび前記ウェブページのハイパーリンクを表すリンク情報のスナップショットを含むスナップショットストアと、
    メモリであって、
    スナップショットのリンク情報に基づいて、ウェブページの重要度スコアを計算するコンポーネントと、
    ウェブページのために異なるスナップショットの前記ウェブページの前記重要度スコアを集約して、前記ウェブページの時間重要度スコアを提供するコンポーネントと
    のコンピュータ実行可能命令を記憶したメモリと、
    前記メモリに記憶された前記コンピュータ実行可能命令を実行するプロセッサと
    を備え、
    前記集約は、以下の数式に従って行われ、
    Figure 0004746712
    ここで、kはスナップショットの番号を表し、TRk(i)はスナップショットkのドキュメントiの前記時間重要度スコアを表し、PRt(i)はスナップショットtのドキュメントiの前記重要度スコアを表し、PRk(i)はスナップショットkのドキュメントiの前記重要度スコアを表し、βはスナップショットkの現在の重要度スコアに対する重み付けファクタを表し、1−βはスナップショット1〜k−1の過去の重要度スコアに対する重み付けファクタを表し、γtは過去の重要度スコアに対する減衰ファクタを表すことを特徴とするコンピューティングシステム。
  22. ハイパーリンクの分析に基づいて、ウェブページの時間重要度を判定するコンピューティングシステムであって、
    種々のスナップショット時間において収集されたウェブページおよび前記ウェブページのハイパーリンクを表すリンク情報のスナップショットを含むスナップショットストアと、
    メモリであって、
    スナップショットのリンク情報に基づいて、ウェブページの重要度スコアを計算するコンポーネントと、
    ウェブページのために異なるスナップショットの前記ウェブページの前記重要度スコアを集約して、前記ウェブページの時間重要度スコアを提供するコンポーネントと
    のコンピュータ実行可能命令を記憶したメモリと、
    前記メモリに記憶された前記コンピュータ実行可能命令を実行するプロセッサと
    を備え、
    前記集約は、以下の数式に従って行われ、
    Figure 0004746712
    ここで、kはスナップショットの番号を表し、TRk(i)はスナップショットkのドキュメントiの前記時間重要度スコアを表し、PRt(i)はスナップショットtのドキュメントiの前記計算された重要度スコアを表し、PRk(i)はスナップショットkのドキュメントiの前記重要度スコアを表し、m(i)はドキュメントiの固有の品質を表し、Nはドキュメントの番号を表し、λおよびηはパラメータを表すことを特徴とするコンピューティングシステム。
JP2010503259A 2007-04-12 2008-04-11 履歴重要度のファクタリングによるドキュメントの重要度の計算 Active JP4746712B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/734,336 2007-04-12
US11/734,336 US7676520B2 (en) 2007-04-12 2007-04-12 Calculating importance of documents factoring historical importance
PCT/US2008/060144 WO2008128124A1 (en) 2007-04-12 2008-04-11 Calculating importance of documents factoring historical importance

Publications (3)

Publication Number Publication Date
JP2010524141A JP2010524141A (ja) 2010-07-15
JP2010524141A5 JP2010524141A5 (ja) 2010-12-02
JP4746712B2 true JP4746712B2 (ja) 2011-08-10

Family

ID=39854673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010503259A Active JP4746712B2 (ja) 2007-04-12 2008-04-11 履歴重要度のファクタリングによるドキュメントの重要度の計算

Country Status (5)

Country Link
US (1) US7676520B2 (ja)
EP (1) EP2145264B1 (ja)
JP (1) JP4746712B2 (ja)
CN (1) CN101652771B (ja)
WO (1) WO2008128124A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244722B1 (en) * 2005-06-30 2012-08-14 Google Inc. Ranking documents
WO2008126184A1 (ja) * 2007-03-16 2008-10-23 Fujitsu Limited 文書重要度算出プログラム
US7873635B2 (en) * 2007-05-31 2011-01-18 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US8667117B2 (en) * 2007-05-31 2014-03-04 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US9430577B2 (en) * 2007-05-31 2016-08-30 Microsoft Technology Licensing, Llc Search ranger system and double-funnel model for search spam analyses and browser protection
US9342551B2 (en) * 2007-08-14 2016-05-17 John Nicholas and Kristin Gross Trust User based document verifier and method
US7949643B2 (en) * 2008-04-29 2011-05-24 Yahoo! Inc. Method and apparatus for rating user generated content in search results
CN101499098B (zh) * 2009-03-04 2012-07-11 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、系统
US10353967B2 (en) * 2009-06-22 2019-07-16 Microsoft Technology Licensing, Llc Assigning relevance weights based on temporal dynamics
US8150841B2 (en) * 2010-01-20 2012-04-03 Microsoft Corporation Detecting spiking queries
JP5357804B2 (ja) * 2010-02-24 2013-12-04 日本電信電話株式会社 関心度処理装置、関心度処理方法、および、関心度処理プログラム
US8700642B2 (en) * 2010-03-22 2014-04-15 Microsoft Corporation Software agent for monitoring content relevance
US9324112B2 (en) * 2010-11-09 2016-04-26 Microsoft Technology Licensing, Llc Ranking authors in social media systems
US9286619B2 (en) 2010-12-27 2016-03-15 Microsoft Technology Licensing, Llc System and method for generating social summaries
US9529926B2 (en) * 2012-04-23 2016-12-27 Excalibur Ip, Llc Snapshot refreshment for search results page preview
US9218419B2 (en) * 2012-04-23 2015-12-22 Yahoo! Inc. Snapshot generation for search results page preview
US9569413B2 (en) * 2012-05-07 2017-02-14 Sap Se Document text processing using edge detection
US9348846B2 (en) 2012-07-02 2016-05-24 Google Inc. User-navigable resource representations
US9294576B2 (en) 2013-01-02 2016-03-22 Microsoft Technology Licensing, Llc Social media impact assessment
US9519686B2 (en) 2014-04-09 2016-12-13 International Business Machines Corporation Confidence ranking of answers based on temporal semantics
US9646247B2 (en) 2014-04-09 2017-05-09 International Business Machines Corporation Utilizing temporal indicators to weight semantic values
CN104063504B (zh) * 2014-07-08 2018-07-13 百度在线网络技术(北京)有限公司 网页的综合访问权值的确定方法及访问记录的排序方法
US10331673B2 (en) 2014-11-24 2019-06-25 International Business Machines Corporation Applying level of permanence to statements to influence confidence ranking
US10824659B2 (en) 2018-08-28 2020-11-03 International Business Machines Corporation Predicting the temporal stability of answers in a deep question answering system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290843A (ja) * 2000-02-04 2001-10-19 Fujitsu Ltd 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
JP2005332385A (ja) * 2004-04-29 2005-12-02 Microsoft Corp リンクおよびページレイアウトの分析を利用することによりイメージ関連性を識別する方法およびシステム
JP2007507798A (ja) * 2003-09-30 2007-03-29 グーグル・インク ドキュメントをスコア付けするための方法、ドキュメントをランク付けするための方法及びドキュメントをスコア付けするためのシステム
JP2008511057A (ja) * 2004-08-19 2008-04-10 クラリア コーポレイション エンドユーザの情報要求に応答するための方法及び装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
AU2251300A (en) * 1998-09-03 2000-03-27 Ownx, Inc. System for automatically calculating consumer earned equity
JP3698242B2 (ja) 1999-08-20 2005-09-21 日本電気株式会社 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
US7225181B2 (en) * 2000-02-04 2007-05-29 Fujitsu Limited Document searching apparatus, method thereof, and record medium thereof
US7080073B1 (en) 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
US6560600B1 (en) 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7076483B2 (en) 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US7089252B2 (en) 2002-04-25 2006-08-08 International Business Machines Corporation System and method for rapid computation of PageRank
US20060294124A1 (en) 2004-01-12 2006-12-28 Junghoo Cho Unbiased page ranking
US9104689B2 (en) * 2004-03-17 2015-08-11 International Business Machines Corporation Method for synchronizing documents for disconnected operation
US20060036598A1 (en) 2004-08-09 2006-02-16 Jie Wu Computerized method for ranking linked information items in distributed sources
US7779001B2 (en) 2004-10-29 2010-08-17 Microsoft Corporation Web page ranking with hierarchical considerations
US7516123B2 (en) 2005-04-14 2009-04-07 International Business Machines Corporation Page rank for the semantic web query
US8140559B2 (en) 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290843A (ja) * 2000-02-04 2001-10-19 Fujitsu Ltd 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
JP2007507798A (ja) * 2003-09-30 2007-03-29 グーグル・インク ドキュメントをスコア付けするための方法、ドキュメントをランク付けするための方法及びドキュメントをスコア付けするためのシステム
JP2005332385A (ja) * 2004-04-29 2005-12-02 Microsoft Corp リンクおよびページレイアウトの分析を利用することによりイメージ関連性を識別する方法およびシステム
JP2008511057A (ja) * 2004-08-19 2008-04-10 クラリア コーポレイション エンドユーザの情報要求に応答するための方法及び装置

Also Published As

Publication number Publication date
EP2145264A4 (en) 2011-10-26
CN101652771B (zh) 2013-11-20
US20080256051A1 (en) 2008-10-16
WO2008128124A1 (en) 2008-10-23
US7676520B2 (en) 2010-03-09
EP2145264A1 (en) 2010-01-20
JP2010524141A (ja) 2010-07-15
CN101652771A (zh) 2010-02-17
EP2145264B1 (en) 2018-07-25

Similar Documents

Publication Publication Date Title
JP4746712B2 (ja) 履歴重要度のファクタリングによるドキュメントの重要度の計算
US8244737B2 (en) Ranking documents based on a series of document graphs
JP4950444B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
KR101130533B1 (ko) 이종 관계에 기초하여 객체들의 유사성을 결정하기 위한방법 및 시스템
US7624104B2 (en) User-sensitive pagerank
KR101793240B1 (ko) 사용자 탐색 이벤트의 예측
US7502789B2 (en) Identifying important news reports from news home pages
US20070005588A1 (en) Determining relevance using queries as surrogate content
US6272507B1 (en) System for ranking search results from a collection of documents using spreading activation techniques
JP5328896B2 (ja) ソーシャルネットワークを活用したクエリーの絞込みおよび提案
US8290986B2 (en) Determining quality measures for web objects based on searcher behavior
US8612453B2 (en) Topic distillation via subsite retrieval
US8069167B2 (en) Calculating web page importance
US20110161330A1 (en) Calculating global importance of documents based on global hitting times
US7660791B2 (en) System and method for determining initial relevance of a document with respect to a given category
US20100235389A1 (en) Context based networking
KR20080073289A (ko) 계층 구조 기반의 문서의 기여도의 전달
US20060004809A1 (en) Method and system for calculating document importance using document classifications
Bordogna et al. A flexible multi criteria information filtering model
Liu et al. A framework to compute page importance based on user behaviors
Lee et al. Utilizing local evidence for blog feed search
Li et al. An Improved Website Structure Optimizing Algorithm
Sowmiya et al. Enhancement in Weighted Page Rank Algorithm for Ranking Web Pages

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101014

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101014

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20101014

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20101125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110513

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4746712

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250