JP2005322244A

JP2005322244A - 情報の多様性および豊富さを向上させるよう検索結果のドキュメントを順位付ける方法およびシステム

Info

Publication number: JP2005322244A
Application number: JP2005134488A
Authority: JP
Inventors: Benyu Zhang; チャンベンユー; Hua-Jun Zeng; チュンホア−ジュン; Wei-Ying Ma; マウェイ−イン; Zheng Chen; チェンチョン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-04-30
Filing date: 2005-05-02
Publication date: 2005-11-17
Anticipated expiration: 2025-05-02
Also published as: US7664735B2; JP4845420B2; KR101130535B1; KR20060047664A; CN1758244A; EP1591923A1; CN100573513C; MXPA05004681A; RU2383922C2; CA2505904A1; RU2005113189A; BRPI0502189A; US20050246328A1; CA2505904C; AU2005201824A1

Abstract

【課題】情報の豊富さおよび話題の多様性に基づいて、検索結果のドキュメントを順位付けるための方法およびシステムを提供すること。
【解決手段】順位付けのシステムは、検索結果に含まれる各ドキュメントの情報の豊富さを決定する。順位付けのシステムは、ドキュメントの関係性に基づき検索結果のドキュメントをグループ化し、各グループのドキュメントを同一の話題に方向付ける。順位付けのシステムは、最も高い順位のドキュメントが、各話題に及ぶ少なくとも１つのドキュメント、すなわちグループの各々からの１つのドキュメントをを含み得る。順位付けのシステムは、各グループからグループ内の最も高い情報の豊富さを有するドキュメントを選択する。ドキュメントを順位の順序でユーザに提示すると、ユーザは、検索結果の最初のページで人気のある単一の話題だけではなく、様々な話題に及ぶドキュメントを見つける。
【選択図】図３

Description

本発明は、一般には、検索エンジンサービスに送信された検索要求により識別される検索結果のドキュメントを順位付ける技術に関する。

ＧｏｏｇｌｅやＯｖｅｒｔｕｒｅなど多数の検索エンジンサービスにより、インターネットを介してアクセス可能な情報検索が提供されている。これらの検索エンジンは、ユーザに、ユーザが関心を持つであろうウェブページなどの表示ページを検索することを可能にする。ユーザが、検索語を含む検索要求を送信した後、検索エンジンサービスは、これらの検索語に関連する可能性があるウェブページを識別する。関連するウェブページを速やかに識別するために、検索エンジンサービスは、キーワードのウェブページへのマッピングを保持する。このマッピングは、各ウェブページのキーワードを抽出するために、ウェブ（すなわちワールドワイドウェブ）を「クロール（ｃｒａｗｌｉｎｇ）」することによって作成される。ウェブをクロールするために、検索エンジンサービスは、ルートウェブページ（ｒｏｏｔｗｅｂｐａｇｅ）のリストを使用して、ルートウェブページを介してアクセス可能なすべてのウェブページの識別を行うことができる。様々な周知の情報検索技術、例えば、ヘッドラインの単語、ウェブページのメタデータに与えられている単語、およびハイライトされている単語などを識別することなどを用いて、あらゆる特定のウェブページのキーワードを抽出する。検索エンジンサービスは、各ウェブページが検索要求にどの程度関連しているかを示す適合度の得点を、各組合せの緊密性、およびウェブページの人気度（例えば、ＧｏｏｇｌｅのＰａｇｅＲａｎｋ）などに基づいて計算することができる。次いで、検索エンジンサービスは、ユーザに、この適合度に基づいた順序で、各ウェブページへのリンクを表示する。より一般的には、検索エンジンは、あらゆるドキュメントの集まりにおける情報検索を可能にする。例えば、ドキュメントの集まりには、すべての米国特許、すべての連邦の法廷意見、会社のすべての保管文書などが含まれる。

ウェブベースの検索エンジンサービスによって提供される検索結果のうちで、最も高い順位のウェブページを、人気のある同一の話題にすべて方向付けることがある。例えば、ユーザが「スピルバーグ（Ｓｐｉｅｌｂｅｒｇ）」という検索語で検索要求を送信する場合、検索結果のうちで最も高い順位のウェブページは、おそらくスティーブン・スピルバーグ（ＳｔｅｖｅｎＳｐｉｅｌｂｅｒｇ）に関係するはずである。しかし、ユーザが、スティーブン・スピルバーグに関心が無く、代わりに、同姓の数学の教授のホームページの所在位置を突き止めることに関心がある場合、ウェブページの順位は、ユーザの役には立たない。教授のホームページは、検索結果に含まれているかも知れないが、ユーザは、教授のホームページへのリンクの所在位置を突き止めるために、検索結果のウェブページへのリンクからなるページを何ページも綿密に見る必要がある場合がある。一般に、所望のドキュメントを検索結果の最初のページ上で識別しない場合、ユーザが、所望のドキュメントの所在位置を突き止めることは困難になることがある。さらに、ユーザは、関心のあるドキュメントを探すために、検索結果を複数のページにわたり見る必要がある場合、挫折することがある。

米国特許出願第＿＿＿号明細書、"Method and System for Calculating Importance of a Block Within a Display Page"、＿＿日出願

最も高い順位のドキュメントのうちで、より多様な話題を提供する、ドキュメントを順位付けるための技術を有することが望ましく、さらに、このような最も高い順位の各ドキュメントは、その話題に関係する情報内容を非常に豊富に有することが望ましい。

システムは、情報の豊富さおよび話題の多様性に基づいて検索結果のドキュメントを順位付ける。順位付けのシステムにより、検索結果のドキュメントをそれらの関連性に基づいてグループ化し、ドキュメントを同様な話題に関連付けることを意味する。順位付けのシステムにより、最も高い順位のドキュメントには、各トピックに及ぶ少なくとも１つのドキュメントを含み得るように、ドキュメントを順位付ける。次いで、順位付けのシステムにより、最も高い順位のドキュメントのうちの１つとして、グループ内で最も豊富な情報を有するドキュメントを、各グループから選択する。

情報の豊富さおよび話題の多様性に基づいて検索結果のドキュメントを順位付ける方法およびシステムを提供する。一実施形態では、順位付けのシステムは、検索結果に含まれる各ドキュメントの情報の豊富さを決定する。情報の豊富さは、ドキュメントがその話題に関係する情報をどの程度含むのかを示す尺度である。情報の豊富さが高いドキュメント（例えばウェブページ）は、同一の話題に関係し、情報の豊富さがより低いドキュメントの情報を含む情報を含むことがありそうであろう。順位付けのシステムは、検索結果のドキュメントをそれらの関連性に基づいてグループ化し、ドキュメントは同様な話題に関連付けられることを意味する。順位付けのシステムにより、最も高い順位のドキュメントには、各話題に及ぶ少なくとも１つのドキュメントを含むことができ、すなわち、各グループから１つのドキュメントを含むことができ得るように、ドキュメントを順位付ける。順位付けのシステムは、グループ内でドキュメントに属する情報の豊富さが最も高いドキュメントを、各グループから選択する。ドキュメントを順位付けの順序でユーザに提示する場合、ユーザは、おそらく、検索結果の最初のページで、人気のある単一の話題だけよりもむしろ、様々な話題に及ぶドキュメントを見つけるであろう。例えば、検索要求が、検索語の「スピルバーグ」を含む場合、検索結果の最初のページ上のある１つのドキュメントは、スティーブン・スピルバーグに関係しているとともに、最初のページ上の別のドキュメントは、スピルバーグ教授に関係していることが可能である。このようにして、検索結果の最初のページで多様性のある話題に及ぶドキュメントをユーザに提示する可能性は高くなり、また、関心のある話題が検索要求に関係する最も人気のある話題ではない場合でも、ユーザが挫折する可能性は低くなる。さらに、順位付けのシステムは、情報の豊富さがより低いドキュメントよりも、情報の豊富さがより高いドキュメントを順位付けるので、ユーザは、検索結果の最初のページで提示されるドキュメントのうちから所望の情報を見つける可能性が高くなる。

一実施形態では、順位付けのシステムは、類似度の図式に基づいて、検索結果のドキュメントの情報の豊富さを計算する。類似度は、１つのドキュメントの情報が、別のドキュメントの情報に、どの程度含まれているかを示す尺度である。例えば、スピルバーグの映画のうちの１つを表面的に説明したドキュメントは、スピルバーグの映画のすべてについて詳しく説明したドキュメントに対して、高い類似度を有することがある。反対に、スピルバーグの映画のすべてについて詳しく説明したドキュメントは、スピルバーグの映画のうちの１つを表面的に説明したドキュメントに対して、比較的低い類似度を有する可能性がある。大きく異なる話題に関係するドキュメントは、互いに類似度を有していないはずである。他のすべてのドキュメントに対する各ドキュメントの類似度の集まりにより、類似度の図式を表現する。ドキュメントに対して高い類似度を有する他の多数のドキュメントがあるドキュメントは、高い情報の豊富さを有することがありそうであろう。理由は、そのドキュメントの情報は他の多数のドキュメントの情報を含むからである。さらに、高い類似度を有するこれらの他のドキュメントが、ドキュメント自体に比較的高い情報の豊富さをも有する場合、ドキュメントの情報の豊富さは、さらに高い。

一実施形態では、順位付けのシステムは、類似度の図式をやはり使用して、検索結果で高い順位のドキュメントの多様性を得る助けとなる。順位付けのシステムは、従来技術の順位付けの技術（例えば適合度）、情報の豊富さの技術、または他のいくつかの順位付けの技術に基づいたドキュメントの初期の順位の得点を有することができる。初めに、順位付けのシステムは、最も高い初期の順位の得点を有するドキュメントを、最も高い最終順位の得点を有するドキュメントとして選択する。次いで、順位付けのシステムは、選択したドキュメントに対して高い類似度を有する各ドキュメントの順位の得点を減少させる。それらのドキュメントの内容は、選択したドキュメントにおそらく含まれている冗長な情報であるので、順位付けのシステムは、順位の得点を減少させる。次いで、順位付けのシステムは、次に最も高い順位の得点を有するドキュメントを残りのドキュメントから選択する。順位付けのシステムは、新しく選択したドキュメントに対して高い類似度を有する各ドキュメントの順位の得点を減少させる。順位付けのシステムは、所望の個数のドキュメントが最終順位の得点を得る、すべてのドキュメントが最終順位の得点を得る、または、他の何らかの終了条件が満たされるまで、このプロセスを繰り返す。一実施形態では、多様性とは、ドキュメントの集まりにおける異なる話題の数を表現し、集まりにおけるドキュメントの情報の豊富さは、集まり全体に対するドキュメントの情報を提供する度合いを意味している。

情報の豊富さと多様性との組合せではなくて、情報の豊富さのみまたは多様性のみに基づいて、検索結果のドキュメントを順位付けることができることは当事業者には理解されよう。検索エンジンサービスは、例えば、同様の話題に関係するドキュメントのグループを識別し、そのグループ内の各ドキュメントの情報の豊富さを決定することにより、情報の豊富さのみを用いることがある。次いで、検索エンジンサービスは、決定した情報の豊富さをドキュメントの順位付けの計算に入れ、グループで最も高い情報の豊富さを有するドキュメントを、グループ内の他のドキュメントよりも高く順位付けることがありそうにすることがある。検索エンジンサービスは、例えば、同様の話題に関係するドキュメントのグループを識別し、各グループからの少なくとも１つのドキュメントを、その情報の豊富さに関わらず、検索結果として高く順位付け得ることによって、多様性のみを用いることがある。例えば、検索エンジンサービスは、検索結果の最初のページに、各グループから、グループのうちで最も高い適合度を有するドキュメントを表示するように選択することができる。

類似度の図式では、ドキュメントをノードとして表現し、類似度の値を、ノードの間の有向のエッジの重みとして表現する。順位付けのシステムでは、各ドキュメントを、ドキュメントの集まり内の他のすべてのドキュメントにマッピングする正方行列によって、類似度の図式を表現する。順位付けのシステムは、行列の要素の値を、対応するドキュメントの類似度に設定する。Ｍを行列とする場合、Ｍ_ｉｊは、ドキュメントｊに対するドキュメントｉの類似度を表現する。順位付けのシステムは、各ドキュメントをベクトルとして表現することにより、ドキュメントの類似度を計算する。ベクトルは、ドキュメントの情報内容を表現する。例えば、各ベクトルは、ドキュメントの最も重要な２５個のキーワードを含むことができる。順位付けのシステムは、次の式に従って、類似度を計算することができる。

ただし、ａｆｆ（ｄ_ｉ，ｄ_ｊ）は、ドキュメントｄ_ｊに対するドキュメントｄ_ｉの類似度であり、ｄ_ｉは、ドキュメントｄ_ｉのベクトルを表現し、ｄ_ｊは、ドキュメントｄ_ｊのベクトルを表現し、

は、ベクトルｄ_ｉの長さを表現する。式１では、類似度を、ｄ_ｊからｄ_ｉへの射影の長さに設定する。類似度は、異なる多くの方法で定義することができることは、当事業者には理解されよう。例えば、別のドキュメントに対するひとつのドキュメントの類似度を、その他のドキュメントのキーワードにおいて、そのひとつのドキュメントのキーワードが占める割合に基づいて定義することができる。他のドキュメントに対するひとつのドキュメントの類似度は、集合論の用語では、２つのドキュメントの積集合のキーワード数を、その他のドキュメント内のキーワード数で割ったものとして表現することができる。行列Ｍの各要素は、類似度の図式において、ひとつのドキュメントのノードからその他のドキュメントのノードへの有向のエッジを表現する。一実施形態では、順位付けのシステムは、類似度の閾値（例えば、２）未満の類似度の値を零に設定する。概念上、類似度が低い場合、類似度の図式において、ひとつのドキュメントのノードからその他のドキュメントのノードへの有向のエッジが存在しないことを意味する。類似度の行列は、次の式で表現する。

ただし、Ｍ_ｉｊは、行列の要素であり、ａｆｆ_ｔは、類似度の閾値である。ノードの間に多数のエッジを有するノードのグループは、単一の話題を表現する可能性がある。理由は、グループ内のドキュメントの多くが、互いに閾値の類似度よりも大きい類似度を有するからである。対照的に、ノードの間にリンクを有していないノードは、異なる話題に方向付けられたドキュメントを表現する。

順位付けのシステムは、類似度の図式に対して、エッジ（ｅｄｇｅ）解析のアルゴリズムを適用することによって、各ドキュメントの情報の豊富さを計算する。順位付けのシステムは、各行の値の合計が１になるよう類似度の行列を正規化する。正規化された類似度の行列は、次の式で表現する。

ただし、

は、正規化された類似度の行列の要素である。順位付けのシステムは、次の式に従って情報の豊富さを計算する。

ただし、ＩｎｆｏＲｉｃｈ（ｄ_ｉ）は、ドキュメントｄ_ｉの情報の豊富さである。したがって、情報の豊富さは、帰納的に定義される。式４は、次の式により行列の形式で表現することができる。

ただし、λ＝［ＩｎｆｏＲｉｃｈ（ｄ_ｉ）］_ｎ×ｌは、正規化された類似度の行列

の固有ベクトルである。正規化された類似度の行列

は、通常、疎行列であるので、場合によっては、すべてが零である行が、行列の中に現れることがあり、いくつかのドキュメントは、いくつかのドキュメントに対して重要な類似度を有する他のドキュメントがないことを意味する。順位付けのシステムは、意味のある固有ベクトルを計算するために、ドキュメントの人気度に基づくドキュメントの順位とすることができる、ダンピング因子（ｄｕｍｐｉｎｇｆａｃｔｏｒ）（例えば、８５）を使用する。ダンピング因子を用いた情報の豊富さは、次の式で表現する。

ただし、ｃは、ダンピング因子であり、ｎは、集まりの中のドキュメントの数である。式６は、次のように行列の形式で表現することができる。

ただし、

は、すべての成分が１に等しい単位ベクトルである。情報の豊富さの計算は、情報のフローおよびシンク（ｓｉｎｋ）モデルから類推することができる。このモデルでは、情報が、各反復でノードの間を流れる。ドキュメントｄ_ｉには、次によって表現される類似度を有するドキュメントの集合Ａ（ｄ_ｉ）がある。

Ａ（ｄ_ｉ）＝｛ｄ_ｊ｜∀ｊ≠ｉ，ａｆｆ（ｄ_ｉ，ｄ_ｊ）＞ａｆｆ_ｔ｝（８）
各反復において、情報を、以下の規則のうち１つに従って流すことができる。
１．確率ｃ（すなわち、ダンピング因子）で、情報は、Ａ（ｄ_ｉ）のうちの１つのドキュメントに流れ込み、ドキュメントｄ_ｊに流れ込む確率は、ａｆｆ（ｄ_ｉ，ｄ_ｊ）に比例する。
２．１−ｃの確率で、情報は、集まり内のあらゆるドキュメントに無作為に流れ込む。

上述のプロセスからマルコフ連鎖を帰納することができ、状態はドキュメントによって与えられ、推移（すなわち、フロー）行列は、

によって与えられる。ただし、

である。各状態の定常確率分布は、推移行列の主固有ベクトルによって与えられる。

一実施形態では、順位付けのシステムは、同一の話題に方向付けられる複数のドキュメントが、他の話題に方向付けられるドキュメントを排除して、すべてが高く順位付けられないよう、情報の豊富さと類似性のペナルティを組合せることによって、類似度の順位を計算する。類似性のペナルティの使用により、最も高い順位の複数のドキュメントの間における話題の多様性が増大する。順位付けのシステムは、切望の反復アルゴリズムを使用して、類似性のペナルティを計算することができ、ドキュメントの初期の類似度の順位を、ドキュメントの情報の豊富さに設定する。各反復では、アルゴリズムは、その次に最も高い類似度の順位を有するドキュメントを選択し、同一の話題に方向付けられるドキュメントの類似度の順位を、類似性のペナルティによって減少させる。したがって、ドキュメントを選択した後、同一の話題に方向付けられる他のすべてのドキュメントが減少された類似度の順位を有することにより、最も高い順位のドキュメントが様々な話題を表す機会を向上させるであろう。順位付けのシステムは、次の式に従って、ドキュメントの類似度の順位を減少させることができる。

ただし、ＡＲ_ｊはドキュメントｊの類似度の順位を表現し、ｉは選択されたドキュメントである。類似性のペナルティは、類似度の行列に基づくので、ドキュメントが選択したドキュメントに類似しているほど、ドキュメントの類似性のペナルティは大きくなる。

一実施形態では、順位付けのシステムは、全体の順位を生成するために、類似度の順位と、テキストベースの順位（例えば、従来技術の適合度）とを組合せることができる。順位付けを、得点または順位に基づいて組合せることができる。組合せた得点に関して、ドキュメントの最終得点を表現する全体的な得点を得るために、テキストベースの得点を類似度の順位と組合せる。組合せた得点は、テキストベースの得点と類似度の順位との線形結合に基づくことができる。得点は異なるオーダの大きさを有するので、順位付けのシステムは得点を正規化する。組合せた得点は、次の式で表現することができる。

ただし、α＋β＝１であり、Θは検索要求ｑに対する検索結果を表現し、Ｓｉｍ（ｑ，ｄ_ｉ）は検索要求ｑに対するドキュメントｄ_ｉの類似性を表現し、

であり、

である。

組合せた順位に関して、ドキュメントの最終順位を得るために、テキストベースの順位を、類似度の順位と組合せる。組合せた順位は、テキストベースの順位と類似度の順位との線形結合に基づくことができる。組合せた順位は、次の式で表現することができる。

ただし、Ｓｃｏｒｅは、検索要求ｑに対するドキュメントｄ_ｉの最終順位を表現し、

は、テキストベースの順位を表現し、

は、類似度の順位を表現する。結合のアルゴリズムの中のαおよびβの両方は、調整可能なパラメータである。α＝１かつβ＝０の場合、再順位付けは実行されず、検索結果は、テキストベースの検索に基づいて順位付けされる。β＞αの場合、再順位付けを行う際に、類似度の順位付けに、より重みがかけられる。β＝１かつα＝０の場合、類似度の順位付けだけに基づいて、再順位付けが行われる。

図１は、一実施形態における類似度の図式を例示する図である。類似度の図式１００には、ノード１１１〜１１５、ノード１２１〜１２４、およびノード１３１を含み、各々はドキュメントを表現する。ノードの間の有向のエッジは、別のノードに対するひとつのノードの類似度を示す。例えば、ノード１１１は、ノード１１５に対する類似度を有するが、ノード１１５は、ノード１１１に対する類似度を有していない（または閾値のレベルを下回る類似度を有する）。この例では、ノードグループ１１０は、同一の話題に方向付けられたノード１１１〜１１５を含む。理由は、このノードグループのノードの間には多数のエッジが存在するからである。同様に、ノードグループ１２０は、同一の話題に方向付けられたノード１２１〜１２４を含む。ノードグループ１３０には、１つのノードしかないのは、このノードが、他のどのノードに対しても類似度を有しておらず、このノードに対する類似度を有するノードもないからである。ノード１１５は、おそらくノードグループ１１０のすべてのノードのうちで最も高い情報の豊富さを有し、ノード１２４は、おそらくノードグループ１２０のすべてのノードのうちで最も高い情報の豊富さを有する。理由はは、各ノードは、ノードに対する類似度を有するノードの数が最も多いからである。

図２は、一実施形態における順位付けのシステムのコンポーネントを例示するブロック図である。順位付けのシステム２００は、データストア２０１〜２０４、およびコンポーネント２１１〜２１６を含む。ドキュメントストア２０１は、ドキュメントの集まりを収容するが、このストアは、インターネットを介して利用可能なすべてのウェブページを表現する場合もある。類似度の図式を生成するコンポーネント２１１は、ドキュメントストアのドキュメントに基づいて類似度の図式を生成する。類似度の図式を生成するコンポーネントは、類似度の図式ストア２０２内に類似度を格納する。情報の豊富さを計算するコンポーネント２１２は、類似度の図式ストアからの類似度の図式を入力し、各ドキュメントの情報の豊富さの得点を計算する。このコンポーネントは、計算した情報の豊富さの得点を、情報の豊富さストア２０３に格納する。一実施形態では、類似度の図式を生成するコンポーネント、および情報の豊富さを計算するコンポーネントは、検索を実施するのに先立って、類似度の図式および情報の豊富さの得点を生成するためにオフラインで実行することができる。検索を実施するコンポーネント２１３は、ユーザからの検索要求を受信し、ドキュメントストアのドキュメントから検索結果を識別する。検索を実施するコンポーネントは、検索結果を、検索要求に対する検索結果の各ドキュメントの適合度の表示と共に検索結果ストア２０４に格納する。類似性のペナルティを計算するコンポーネント２１４は、類似性ペナルティを計算して、検索結果ストア、類似度の図式ストア、および情報の豊富さストアの情報に基づく類似度の順位に適用する。類似度の順位を計算するコンポーネント２１５は、検索結果の中にある各ドキュメントの類似度の順位を生成する。類似度の順位を計算するコンポーネントは、ドキュメントの情報の豊富さ、類似度の図式ストア、および検索結果を計算に入れる。最終得点を計算するコンポーネント２１６は、類似度の順位と適合度の得点とを組合せて、最終得点を計算する。

順位付けのシステムが実装されるコンピューティングデバイスには、中央処理装置、メモリ、入力装置（例えば、キーボード、ポインティングデバイス）、出力装置（例えば、表示装置）、および記憶装置（例えば、ディスク装置）が含まれる。メモリおよび記憶装置は、順位付けのシステムを実装する命令を含むことができるコンピュータ可読媒体である。さらに、データ構造およびメッセージ構造は、通信リンク上の信号などのデータ伝送媒体を介して格納または伝送することができる。様々な通信リンク、例えば、インターネット、ＬＡＮ、ＷＡＮ、または、ポイントツーポイントのダイヤルアップ接続などを使用することができる。

順位付けのシステムは、様々な動作環境で実装することができる。使用するのに適切となり得る、周知の様々なコンピューティングシステム、環境、および構成には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラム可能家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、および、あらゆる上述のシステムまたは装置を含む分散コンピューティング環境などが含まれる。

１つまたは複数のコンピュータまたは他の装置によって実行される、プログラムモジュールなどコンピュータ実行可能命令の一般的コンテキストにおいて、順位付けのシステムを説明することができる。一般に、プログラムモジュールには、特定のタスクを実行または特定の抽象データ型などを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、およびデータ構造などが含まれる。一般に、様々な実施形態において、プログラムモジュールの諸機能を、所望に応じて、結合または分散することができる。

図３は、一実施形態における順位付けのシステムの全体的な処理を例示する流れ図である。順位付けのシステムには、検索結果を表現することができるドキュメントの集まりが提供される。ブロック３０１では、コンポーネントが、ドキュメントの集まりについての類似度の図式を構成する。コンポーネントは、オフラインでドキュメントの集成の中にあるすべてのドキュメント（例えば、すべてのウェブページ）に及ぶ、またはリアルタイムで集まりのドキュメントのみに及ぶ類似度の図式を構成することができる。ブロック３０２では、コンポーネントは、集まりの各ドキュメントの情報の豊富さを計算する。ブロック３０３では、コンポーネントは、集まりのドキュメントを順位付けし、次いで完了となる。

図４は、一実施形態における類似度の図式を構成するコンポーネントの処理を例示する流れ図である。コンポーネントは、ドキュメントの集まりが伝わり、これらのドキュメントについての類似度の図式を構成する。ブロック４０１〜４０３では、コンポーネントは、ドキュメント集まりの中にある各ドキュメントについてのドキュメントベクトルを生成するループを実行する。ブロック４０１では、コンポーネントは、集まり内の次のドキュメントを選択する。決定ブロック４０２では、集まり内のすべてのドキュメントを既に選択した場合、ブロック４０４に進み、そうでなければ、ブロック４０３に進む。ブロック４０３では、コンポーネントは、選択されたドキュメントに対するドキュメントベクトルを生成し、次いで、集まり内の次のドキュメントを選択するためにブロック４０１へのループを実行する。ブロック４０４〜４０８では、コンポーネントは、集まり内のドキュメントの各組についての類似度を計算する。ブロック４０４では、コンポーネントは、第１のドキュメントから開始し、集まりの中にある次のドキュメントを選択する。決定ブロック４０５では、すべてのドキュメントが既に選択された場合、コンポーネントは、類似度の図式を返し、そうでない場合、ブロック４０６に進む。ブロック４０６〜４０８では、コンポーネントは、集まりの各ドキュメントを選ぶループを実行する。ブロック４０６では、コンポーネントは、第１のドキュメントから開始し、集まりの中にある次のドキュメントを選択する。決定ブロック４０７では、集まり内のすべてのドキュメントが既に選ばれた場合、コンポーネントは、集まり内の次のドキュメントを選択するためにブロック４０４へのループを実行し、そうでない場合、ブロック４０８に進む。ブロック４０８では、コンポーネントは、式１に従って（ブロック４０６で）選んだドキュメントに対する（ブロック４０４で）選択されたドキュメントの類似度を計算し、次いで、集まり内の次のドキュメントを選ぶブロック４０６へのループを実行する。

図５は、一実施形態におけるドキュメントを順位付けるコンポーネントの処理を例示する流れ図である。コンポーネントには、類似度の図式が生成され、各ドキュメントの情報の豊富さが計算されたドキュメントの集まりを伝える。ブロック５０１〜５０３では、コンポーネントは、集まり内の各ドキュメントの類似度の順位を、その情報の豊富さに初期設定するループを実行する。ブロック５０１では、コンポーネントは、集まり内の次のドキュメントを選択する。決定ブロック５０２では、すべてのドキュメントを既に選択した場合、ブロック５０４に進み、そうでない場合、ブロック５０３に進む。ブロック５０３では、コンポーネントは、選択したドキュメントの類似度の順位を、選択したドキュメントの情報の豊富さに設定し、集まり内の次のドキュメントを選択するブロック５０１へのループを実行する。ブロック５０４〜５０８では、コンポーネントは、ドキュメントの組を識別し、類似性のペナルティによって類似度の順位を調整するループを実行する。ブロック５０４では、コンポーネントは、次に最も高い類似度の順位を有するドキュメントを選択する。決定ブロック５０５では、終了条件に到達した場合、コンポーネントは、順位付けしたドキュメントを返し、そうでない場合、ブロック５０６に進む。ブロック５０６〜５０８では、コンポーネントは、ドキュメントを選び、類似性のペナルティにより類似度を調整するループを実行する。ブロック５０６では、コンポーネントは、選ばれたドキュメントから選択されたドキュメントへの類似度についての類似度の図式において、零以外の値で指示されるように、選択されたドキュメントに対する類似度を有する、次のドキュメントを選ぶ。決定ブロック５０７では、このようなドキュメントがすべて既に選ばれた場合、コンポーネントは、次に最も高い類似度の順位を有するドキュメントを選択するブロック５０４へのループを実行する。ブロック５０８では、コンポーネントは、式１０に従って、類似性のペナルティによって選ばれたドキュメントに対する類似度の順位を調整する。次いで、コンポーネントは、選択されたドキュメントに対する類似度を有する次のドキュメントを選ぶブロック５０６へのループを実行する。

本明細書では、例示の目的のために、順位付けのシステムの特定の実施形態について説明したが、本発明の精神および範囲から逸脱することなく様々な変形形態を構成することができることは当事業者には理解されよう。一実施形態では、順位付けのシステムは、ドキュメントごとではなくブロックごとを基礎にして類似度および情報の豊富さを計算することができる。ブロックは、単一の話題に一般的に関係するウェブページの情報を表現する。ウェブページの順位付けは、そのウェブページに対するブロックの重要度に部分的に基づくことができる。ブロックの重要度に関しては文献に記載されている（例えば、特許文献１参照。この文献を参照により本明細書に援用する。）。したがって、本発明は添付の特許請求の範囲を除いて限定されるものではない。

一実施形態における類似度の図式を例示する図である。一実施形態における順位付けのシステムのコンポーネントを例示するブロック図である。一実施形態における順位付けのシステムの全体的な処理を例示する流れ図である。一実施形態における類似度の図式を構成するコンポーネントの処理を例示する流れ図である。一実施形態におけるドキュメントを順位付けるコンポーネントの処理を例示する流れ図である。

Claims

コンピュータシステムにおいて、検索結果のドキュメントを順位付ける方法であって、
前記検索結果の各ドキュメントについて、前記ドキュメントの情報の豊富さにより類似度の順位を初期化するステップと、
類似するドキュメントの各グループについて、最も高い類似度の順位を除く前記類似度の順位が、前記グループ内のドキュメントの最も高い類似度の順位と比較して低いよう、前記グループ内のドキュメントの前記類似度の順位を調整するステップと
を備えたことを特徴とする方法。
前記グループ内のドキュメントの前記類似度の順位を調整する前記ステップは、前記グループ内の最も高い類似度の順位を有する前記ドキュメントの前記類似度の順位を除いて、前記グループ内の各ドキュメントの前記類似度の順位を減少させるステップを含むことを特徴とする請求項１に記載の方法。
最も高い類似度の順位を有する前記ドキュメントに、より類似するドキュメントは、最も高い類似度の順位を有する前記ドキュメントに、より類似しないドキュメントよりも非常に減少させた類似度の順位を有することを特徴とする請求項２に記載の方法。
前記グループ内のドキュメントの前記類似度の順位を調整する前記ステップは、
前記グループから最も高い類似度の順位を有する前記ドキュメントを除去するステップと、
前記グループの残りのドキュメントの前記類似度の順位を減少させるステップと
を含み、前記ドキュメントを除去する順序が前記検索結果の前記ドキュメントの前記順位を表すことを特徴とする請求項１に記載の方法。
各ドキュメントについて、前記調整された類似度の順位および検索ベースの適合度により、前記ドキュメントの適合度を計算するステップを含むことを特徴とする請求項１に記載の方法。
コンピュータシステムにおいて、検索結果のドキュメントの順序付けを行い、高い順序のドキュメントの話題の多様性を増大させる方法であって、
前記検索結果に類似するドキュメントのグループを識別するステップと、
前記識別されたグループの各々から１つのドキュメントを選択するステップと、
前記検索結果の他のドキュメントの上位に前記選択されたドキュメントを順位付けるステップと
を備えたことを特徴とする方法。
各ドキュメントが初期の順位を有し、および前記順位は、より高い初期の順位を有する別のドキュメントより高く、選択したドキュメントを順位付けるステップを含むことを特徴とする請求項６に記載の方法。
各ドキュメントが初期の順位を有し、および前記識別されたグループの各々から前記選択されたドキュメントは、最も高い初期の順位を有する前記ドキュメントであることを特徴とする請求項６に記載の方法。
グループの選択されないドキュメントを、前記グループの前記選択されたドキュメントの類似性により、再度順位付けるステップを含むことを特徴とする請求項６に記載の方法。
前記再度順位付けるステップは、グループの前記選択されたドキュメントに最も類似する、前記グループの前記選択されないドキュメントに、を、前記グループの前記ドキュメントの順位において最も大きい減少を与えることを特徴とする請求項９に記載の方法。
前記グループの前記選択されないドキュメントは、再度順位付けるステップに従って順位付けされることを特徴とする請求項１０に記載の方法。
再度順位付けるステップの後に前記識別されたグループの各々から１つのドキュメントを選択するステップと、
前記ドキュメントを、まだ選択されていない他のドキュメントの上位に順位付けるステップと
を含むことを特徴とする請求項１０に記載の方法。
前記再度順位付けるステップは、類似性のペナルティを適用することを特徴とする請求項９に記載の方法。
前記グループの各々から前記選択されたドキュメントは、前記グループ内の前記ドキュメントで最も高い情報の豊富さを有することを特徴とする請求項６に記載の方法。
前記グループは、類似度の図式を使用して識別されることを特徴とする請求項６に記載の方法。
コンピュータシステムにおいて、ドキュメントの集まり内のドキュメントの情報の豊富さを計算する方法であって、
前記集まり内の各ドキュメントが有する、前記ドキュメントの類似度を識別するステップと、
前記集まり内の他のドキュメントが有する、前記ドキュメントの前記類似度のにより、前記ドキュメントの情報の豊富さを決定するステップと
を備えたことを特徴とする方法。
前記各ドキュメントの類似度を識別するステップは、類似度の図式を生成するステップを含むことを特徴とする請求項１６に記載の方法。
前記類似度は、１つのドキュメントの情報内容が別のドキュメントに含まれる程度の尺度であることを特徴とする請求項１６に記載の方法。
前記類似度は、

として定義されることを特徴とする請求項１６に記載の方法。
前記情報の豊富さは、１つのドキュメントの情報内容が、他のドキュメントの情報内容を含む程度の尺度となることを特徴とする請求項１６に記載の方法。
前記情報の豊富さは、

として定義されることを特徴とする請求項１６に記載の方法。
方法によりコンピュータシステムにドキュメントの順位付けを行わせる命令を含む、コンピュータ可読媒体であって、前記方法は、
各ドキュメントについて、前記ドキュメントの情報の豊富さにより、類似度の順位を初期化することと、
ドキュメントが高い類似度の順位を有する場合、関連するドキュメントの前記類似度の順位を減少させることと
を備え、前記類似度の順位が前記ドキュメントの前記順位付けを表すことを特徴とするコンピュータ可読媒体。
前記ドキュメントの情報の豊富さは、ドキュメントの組の類似度により計算されることを特徴とする請求項２２に記載のコンピュータ可読媒体。
前記情報の豊富さは、

として定義されることを特徴とする請求項２３に記載のコンピュータ可読媒体。
前記類似度は、

として定義されることを特徴とする請求項２３に記載のコンピュータ可読媒体。
前記高い類似度の順位を有するドキュメントに、より類似する関連ドキュメントは、前記高い類似度の順位を有する前記ドキュメントに、より類似しないドキュメントよりも非常に減少させた類似度の順位を有することを特徴とする請求項２２に記載のコンピュータ可読媒体。
各ドキュメントについて、前記ドキュメントの類似度の順位および前記ドキュメントの検索ベースの適合度により、前記ドキュメントの適合度を計算することを含むことを特徴とする請求項２２に記載のコンピュータ可読媒体。
ドキュメントの集まり内のドキュメントの情報の豊富さを計算するためのコンピュータシステムであって、
前記ドキュメントに対する、前記集まり内の各ドキュメントが有する類似度を識別するコンポーネントと、
前記ドキュメントに対する、前記集まり内の他のドキュメントが有する前記類似度により、前記ドキュメントの情報の豊富さを決定するコンポーネントと
を備えたことを特徴とするコンピュータシステム。
前記識別するコンポーネントは、類似度の図式を生成することを特徴とする請求項２８に記載のコンピュータシステム。
前記類似度は、１つのドキュメントの情報内容が別のドキュメントに含まれる程度の尺度であることを特徴とする請求項２８に記載のコンピュータシステム。
前記情報の豊富さは、１つのドキュメントの情報内容が他のドキュメントの情報内容を含む程度の尺度となることを特徴とする請求項２８に記載のコンピュータシステム。