JP2005322244A - 情報の多様性および豊富さを向上させるよう検索結果のドキュメントを順位付ける方法およびシステム - Google Patents

情報の多様性および豊富さを向上させるよう検索結果のドキュメントを順位付ける方法およびシステム Download PDF

Info

Publication number
JP2005322244A
JP2005322244A JP2005134488A JP2005134488A JP2005322244A JP 2005322244 A JP2005322244 A JP 2005322244A JP 2005134488 A JP2005134488 A JP 2005134488A JP 2005134488 A JP2005134488 A JP 2005134488A JP 2005322244 A JP2005322244 A JP 2005322244A
Authority
JP
Japan
Prior art keywords
document
similarity
documents
ranking
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005134488A
Other languages
English (en)
Other versions
JP4845420B2 (ja
JP2005322244A5 (ja
Inventor
Benyu Zhang
チャン ベンユー
Hua-Jun Zeng
チュン ホア−ジュン
Wei-Ying Ma
マ ウェイ−イン
Zheng Chen
チェン チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005322244A publication Critical patent/JP2005322244A/ja
Publication of JP2005322244A5 publication Critical patent/JP2005322244A5/ja
Application granted granted Critical
Publication of JP4845420B2 publication Critical patent/JP4845420B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 情報の豊富さおよび話題の多様性に基づいて、検索結果のドキュメントを順位付けるための方法およびシステムを提供すること。
【解決手段】 順位付けのシステムは、検索結果に含まれる各ドキュメントの情報の豊富さを決定する。順位付けのシステムは、ドキュメントの関係性に基づき検索結果のドキュメントをグループ化し、各グループのドキュメントを同一の話題に方向付ける。順位付けのシステムは、最も高い順位のドキュメントが、各話題に及ぶ少なくとも1つのドキュメント、すなわちグループの各々からの1つのドキュメントをを含み得る。順位付けのシステムは、各グループからグループ内の最も高い情報の豊富さを有するドキュメントを選択する。ドキュメントを順位の順序でユーザに提示すると、ユーザは、検索結果の最初のページで人気のある単一の話題だけではなく、様々な話題に及ぶドキュメントを見つける。
【選択図】 図3

Description

本発明は、一般には、検索エンジンサービスに送信された検索要求により識別される検索結果のドキュメントを順位付ける技術に関する。
GoogleやOvertureなど多数の検索エンジンサービスにより、インターネットを介してアクセス可能な情報検索が提供されている。これらの検索エンジンは、ユーザに、ユーザが関心を持つであろうウェブページなどの表示ページを検索することを可能にする。ユーザが、検索語を含む検索要求を送信した後、検索エンジンサービスは、これらの検索語に関連する可能性があるウェブページを識別する。関連するウェブページを速やかに識別するために、検索エンジンサービスは、キーワードのウェブページへのマッピングを保持する。このマッピングは、各ウェブページのキーワードを抽出するために、ウェブ(すなわちワールドワイドウェブ)を「クロール(crawling)」することによって作成される。ウェブをクロールするために、検索エンジンサービスは、ルートウェブページ(root web page)のリストを使用して、ルートウェブページを介してアクセス可能なすべてのウェブページの識別を行うことができる。様々な周知の情報検索技術、例えば、ヘッドラインの単語、ウェブページのメタデータに与えられている単語、およびハイライトされている単語などを識別することなどを用いて、あらゆる特定のウェブページのキーワードを抽出する。検索エンジンサービスは、各ウェブページが検索要求にどの程度関連しているかを示す適合度の得点を、各組合せの緊密性、およびウェブページの人気度(例えば、GoogleのPageRank)などに基づいて計算することができる。次いで、検索エンジンサービスは、ユーザに、この適合度に基づいた順序で、各ウェブページへのリンクを表示する。より一般的には、検索エンジンは、あらゆるドキュメントの集まりにおける情報検索を可能にする。例えば、ドキュメントの集まりには、すべての米国特許、すべての連邦の法廷意見、会社のすべての保管文書などが含まれる。
ウェブベースの検索エンジンサービスによって提供される検索結果のうちで、最も高い順位のウェブページを、人気のある同一の話題にすべて方向付けることがある。例えば、ユーザが「スピルバーグ(Spielberg)」という検索語で検索要求を送信する場合、検索結果のうちで最も高い順位のウェブページは、おそらくスティーブン・スピルバーグ(Steven Spielberg)に関係するはずである。しかし、ユーザが、スティーブン・スピルバーグに関心が無く、代わりに、同姓の数学の教授のホームページの所在位置を突き止めることに関心がある場合、ウェブページの順位は、ユーザの役には立たない。教授のホームページは、検索結果に含まれているかも知れないが、ユーザは、教授のホームページへのリンクの所在位置を突き止めるために、検索結果のウェブページへのリンクからなるページを何ページも綿密に見る必要がある場合がある。一般に、所望のドキュメントを検索結果の最初のページ上で識別しない場合、ユーザが、所望のドキュメントの所在位置を突き止めることは困難になることがある。さらに、ユーザは、関心のあるドキュメントを探すために、検索結果を複数のページにわたり見る必要がある場合、挫折することがある。
米国特許出願第___号明細書、"Method and System for Calculating Importance of a Block Within a Display Page"、__日出願
最も高い順位のドキュメントのうちで、より多様な話題を提供する、ドキュメントを順位付けるための技術を有することが望ましく、さらに、このような最も高い順位の各ドキュメントは、その話題に関係する情報内容を非常に豊富に有することが望ましい。
システムは、情報の豊富さおよび話題の多様性に基づいて検索結果のドキュメントを順位付ける。順位付けのシステムにより、検索結果のドキュメントをそれらの関連性に基づいてグループ化し、ドキュメントを同様な話題に関連付けることを意味する。順位付けのシステムにより、最も高い順位のドキュメントには、各トピックに及ぶ少なくとも1つのドキュメントを含み得るように、ドキュメントを順位付ける。次いで、順位付けのシステムにより、最も高い順位のドキュメントのうちの1つとして、グループ内で最も豊富な情報を有するドキュメントを、各グループから選択する。
情報の豊富さおよび話題の多様性に基づいて検索結果のドキュメントを順位付ける方法およびシステムを提供する。一実施形態では、順位付けのシステムは、検索結果に含まれる各ドキュメントの情報の豊富さを決定する。情報の豊富さは、ドキュメントがその話題に関係する情報をどの程度含むのかを示す尺度である。情報の豊富さが高いドキュメント(例えばウェブページ)は、同一の話題に関係し、情報の豊富さがより低いドキュメントの情報を含む情報を含むことがありそうであろう。順位付けのシステムは、検索結果のドキュメントをそれらの関連性に基づいてグループ化し、ドキュメントは同様な話題に関連付けられることを意味する。順位付けのシステムにより、最も高い順位のドキュメントには、各話題に及ぶ少なくとも1つのドキュメントを含むことができ、すなわち、各グループから1つのドキュメントを含むことができ得るように、ドキュメントを順位付ける。順位付けのシステムは、グループ内でドキュメントに属する情報の豊富さが最も高いドキュメントを、各グループから選択する。ドキュメントを順位付けの順序でユーザに提示する場合、ユーザは、おそらく、検索結果の最初のページで、人気のある単一の話題だけよりもむしろ、様々な話題に及ぶドキュメントを見つけるであろう。例えば、検索要求が、検索語の「スピルバーグ」を含む場合、検索結果の最初のページ上のある1つのドキュメントは、スティーブン・スピルバーグに関係しているとともに、最初のページ上の別のドキュメントは、スピルバーグ教授に関係していることが可能である。このようにして、検索結果の最初のページで多様性のある話題に及ぶドキュメントをユーザに提示する可能性は高くなり、また、関心のある話題が検索要求に関係する最も人気のある話題ではない場合でも、ユーザが挫折する可能性は低くなる。さらに、順位付けのシステムは、情報の豊富さがより低いドキュメントよりも、情報の豊富さがより高いドキュメントを順位付けるので、ユーザは、検索結果の最初のページで提示されるドキュメントのうちから所望の情報を見つける可能性が高くなる。
一実施形態では、順位付けのシステムは、類似度の図式に基づいて、検索結果のドキュメントの情報の豊富さを計算する。類似度は、1つのドキュメントの情報が、別のドキュメントの情報に、どの程度含まれているかを示す尺度である。例えば、スピルバーグの映画のうちの1つを表面的に説明したドキュメントは、スピルバーグの映画のすべてについて詳しく説明したドキュメントに対して、高い類似度を有することがある。反対に、スピルバーグの映画のすべてについて詳しく説明したドキュメントは、スピルバーグの映画のうちの1つを表面的に説明したドキュメントに対して、比較的低い類似度を有する可能性がある。大きく異なる話題に関係するドキュメントは、互いに類似度を有していないはずである。他のすべてのドキュメントに対する各ドキュメントの類似度の集まりにより、類似度の図式を表現する。ドキュメントに対して高い類似度を有する他の多数のドキュメントがあるドキュメントは、高い情報の豊富さを有することがありそうであろう。理由は、そのドキュメントの情報は他の多数のドキュメントの情報を含むからである。さらに、高い類似度を有するこれらの他のドキュメントが、ドキュメント自体に比較的高い情報の豊富さをも有する場合、ドキュメントの情報の豊富さは、さらに高い。
一実施形態では、順位付けのシステムは、類似度の図式をやはり使用して、検索結果で高い順位のドキュメントの多様性を得る助けとなる。順位付けのシステムは、従来技術の順位付けの技術(例えば適合度)、情報の豊富さの技術、または他のいくつかの順位付けの技術に基づいたドキュメントの初期の順位の得点を有することができる。初めに、順位付けのシステムは、最も高い初期の順位の得点を有するドキュメントを、最も高い最終順位の得点を有するドキュメントとして選択する。次いで、順位付けのシステムは、選択したドキュメントに対して高い類似度を有する各ドキュメントの順位の得点を減少させる。それらのドキュメントの内容は、選択したドキュメントにおそらく含まれている冗長な情報であるので、順位付けのシステムは、順位の得点を減少させる。次いで、順位付けのシステムは、次に最も高い順位の得点を有するドキュメントを残りのドキュメントから選択する。順位付けのシステムは、新しく選択したドキュメントに対して高い類似度を有する各ドキュメントの順位の得点を減少させる。順位付けのシステムは、所望の個数のドキュメントが最終順位の得点を得る、すべてのドキュメントが最終順位の得点を得る、または、他の何らかの終了条件が満たされるまで、このプロセスを繰り返す。一実施形態では、多様性とは、ドキュメントの集まりにおける異なる話題の数を表現し、集まりにおけるドキュメントの情報の豊富さは、集まり全体に対するドキュメントの情報を提供する度合いを意味している。
情報の豊富さと多様性との組合せではなくて、情報の豊富さのみまたは多様性のみに基づいて、検索結果のドキュメントを順位付けることができることは当事業者には理解されよう。検索エンジンサービスは、例えば、同様の話題に関係するドキュメントのグループを識別し、そのグループ内の各ドキュメントの情報の豊富さを決定することにより、情報の豊富さのみを用いることがある。次いで、検索エンジンサービスは、決定した情報の豊富さをドキュメントの順位付けの計算に入れ、グループで最も高い情報の豊富さを有するドキュメントを、グループ内の他のドキュメントよりも高く順位付けることがありそうにすることがある。検索エンジンサービスは、例えば、同様の話題に関係するドキュメントのグループを識別し、各グループからの少なくとも1つのドキュメントを、その情報の豊富さに関わらず、検索結果として高く順位付け得ることによって、多様性のみを用いることがある。例えば、検索エンジンサービスは、検索結果の最初のページに、各グループから、グループのうちで最も高い適合度を有するドキュメントを表示するように選択することができる。
類似度の図式では、ドキュメントをノードとして表現し、類似度の値を、ノードの間の有向のエッジの重みとして表現する。順位付けのシステムでは、各ドキュメントを、ドキュメントの集まり内の他のすべてのドキュメントにマッピングする正方行列によって、類似度の図式を表現する。順位付けのシステムは、行列の要素の値を、対応するドキュメントの類似度に設定する。Mを行列とする場合、Mijは、ドキュメントjに対するドキュメントiの類似度を表現する。順位付けのシステムは、各ドキュメントをベクトルとして表現することにより、ドキュメントの類似度を計算する。ベクトルは、ドキュメントの情報内容を表現する。例えば、各ベクトルは、ドキュメントの最も重要な25個のキーワードを含むことができる。順位付けのシステムは、次の式に従って、類似度を計算することができる。
Figure 2005322244
ただし、aff(d,d)は、ドキュメントdに対するドキュメントdの類似度であり、dは、ドキュメントdのベクトルを表現し、dは、ドキュメントdのベクトルを表現し、
Figure 2005322244
は、ベクトルdの長さを表現する。式1では、類似度を、dからdへの射影の長さに設定する。類似度は、異なる多くの方法で定義することができることは、当事業者には理解されよう。例えば、別のドキュメントに対するひとつのドキュメントの類似度を、その他のドキュメントのキーワードにおいて、そのひとつのドキュメントのキーワードが占める割合に基づいて定義することができる。他のドキュメントに対するひとつのドキュメントの類似度は、集合論の用語では、2つのドキュメントの積集合のキーワード数を、その他のドキュメント内のキーワード数で割ったものとして表現することができる。行列Mの各要素は、類似度の図式において、ひとつのドキュメントのノードからその他のドキュメントのノードへの有向のエッジを表現する。一実施形態では、順位付けのシステムは、類似度の閾値(例えば、2)未満の類似度の値を零に設定する。概念上、類似度が低い場合、類似度の図式において、ひとつのドキュメントのノードからその他のドキュメントのノードへの有向のエッジが存在しないことを意味する。類似度の行列は、次の式で表現する。
Figure 2005322244
ただし、Mijは、行列の要素であり、affは、類似度の閾値である。ノードの間に多数のエッジを有するノードのグループは、単一の話題を表現する可能性がある。理由は、グループ内のドキュメントの多くが、互いに閾値の類似度よりも大きい類似度を有するからである。対照的に、ノードの間にリンクを有していないノードは、異なる話題に方向付けられたドキュメントを表現する。
順位付けのシステムは、類似度の図式に対して、エッジ(edge)解析のアルゴリズムを適用することによって、各ドキュメントの情報の豊富さを計算する。順位付けのシステムは、各行の値の合計が1になるよう類似度の行列を正規化する。正規化された類似度の行列は、次の式で表現する。
Figure 2005322244
ただし、
Figure 2005322244
は、正規化された類似度の行列の要素である。順位付けのシステムは、次の式に従って情報の豊富さを計算する。
Figure 2005322244
ただし、InfoRich(d)は、ドキュメントdの情報の豊富さである。したがって、情報の豊富さは、帰納的に定義される。式4は、次の式により行列の形式で表現することができる。
Figure 2005322244
ただし、λ=[InfoRich(d)]n×lは、正規化された類似度の行列
Figure 2005322244
の固有ベクトルである。正規化された類似度の行列
Figure 2005322244
は、通常、疎行列であるので、場合によっては、すべてが零である行が、行列の中に現れることがあり、いくつかのドキュメントは、いくつかのドキュメントに対して重要な類似度を有する他のドキュメントがないことを意味する。順位付けのシステムは、意味のある固有ベクトルを計算するために、ドキュメントの人気度に基づくドキュメントの順位とすることができる、ダンピング因子(dumping factor)(例えば、85)を使用する。ダンピング因子を用いた情報の豊富さは、次の式で表現する。
Figure 2005322244
ただし、cは、ダンピング因子であり、nは、集まりの中のドキュメントの数である。式6は、次のように行列の形式で表現することができる。
Figure 2005322244
ただし、
Figure 2005322244
は、すべての成分が1に等しい単位ベクトルである。情報の豊富さの計算は、情報のフローおよびシンク(sink)モデルから類推することができる。このモデルでは、情報が、各反復でノードの間を流れる。ドキュメントdには、次によって表現される類似度を有するドキュメントの集合A(d)がある。
A(d)={d|∀j≠i,aff(d,d)>aff} (8)
各反復において、情報を、以下の規則のうち1つに従って流すことができる。
1. 確率c(すなわち、ダンピング因子)で、情報は、A(d)のうちの1つのドキュメントに流れ込み、ドキュメントdに流れ込む確率は、aff(d,d)に比例する。
2. 1−cの確率で、情報は、集まり内のあらゆるドキュメントに無作為に流れ込む。
上述のプロセスからマルコフ連鎖を帰納することができ、状態はドキュメントによって与えられ、推移(すなわち、フロー)行列は、
Figure 2005322244
によって与えられる。ただし、
Figure 2005322244
である。各状態の定常確率分布は、推移行列の主固有ベクトルによって与えられる。
一実施形態では、順位付けのシステムは、同一の話題に方向付けられる複数のドキュメントが、他の話題に方向付けられるドキュメントを排除して、すべてが高く順位付けられないよう、情報の豊富さと類似性のペナルティを組合せることによって、類似度の順位を計算する。類似性のペナルティの使用により、最も高い順位の複数のドキュメントの間における話題の多様性が増大する。順位付けのシステムは、切望の反復アルゴリズムを使用して、類似性のペナルティを計算することができ、ドキュメントの初期の類似度の順位を、ドキュメントの情報の豊富さに設定する。各反復では、アルゴリズムは、その次に最も高い類似度の順位を有するドキュメントを選択し、同一の話題に方向付けられるドキュメントの類似度の順位を、類似性のペナルティによって減少させる。したがって、ドキュメントを選択した後、同一の話題に方向付けられる他のすべてのドキュメントが減少された類似度の順位を有することにより、最も高い順位のドキュメントが様々な話題を表す機会を向上させるであろう。順位付けのシステムは、次の式に従って、ドキュメントの類似度の順位を減少させることができる。
Figure 2005322244
ただし、ARはドキュメントjの類似度の順位を表現し、iは選択されたドキュメントである。類似性のペナルティは、類似度の行列に基づくので、ドキュメントが選択したドキュメントに類似しているほど、ドキュメントの類似性のペナルティは大きくなる。
一実施形態では、順位付けのシステムは、全体の順位を生成するために、類似度の順位と、テキストベースの順位(例えば、従来技術の適合度)とを組合せることができる。順位付けを、得点または順位に基づいて組合せることができる。組合せた得点に関して、ドキュメントの最終得点を表現する全体的な得点を得るために、テキストベースの得点を類似度の順位と組合せる。組合せた得点は、テキストベースの得点と類似度の順位との線形結合に基づくことができる。得点は異なるオーダの大きさを有するので、順位付けのシステムは得点を正規化する。組合せた得点は、次の式で表現することができる。
Figure 2005322244
ただし、α+β=1であり、Θは検索要求qに対する検索結果を表現し、Sim(q,d)は検索要求qに対するドキュメントdの類似性を表現し、
Figure 2005322244
であり、
Figure 2005322244
である。
組合せた順位に関して、ドキュメントの最終順位を得るために、テキストベースの順位を、類似度の順位と組合せる。組合せた順位は、テキストベースの順位と類似度の順位との線形結合に基づくことができる。組合せた順位は、次の式で表現することができる。
Figure 2005322244
ただし、Scoreは、検索要求qに対するドキュメントdの最終順位を表現し、
Figure 2005322244
は、テキストベースの順位を表現し、
Figure 2005322244
は、類似度の順位を表現する。結合のアルゴリズムの中のαおよびβの両方は、調整可能なパラメータである。α=1かつβ=0の場合、再順位付けは実行されず、検索結果は、テキストベースの検索に基づいて順位付けされる。β>αの場合、再順位付けを行う際に、類似度の順位付けに、より重みがかけられる。β=1かつα=0の場合、類似度の順位付けだけに基づいて、再順位付けが行われる。
図1は、一実施形態における類似度の図式を例示する図である。類似度の図式100には、ノード111〜115、ノード121〜124、およびノード131を含み、各々はドキュメントを表現する。ノードの間の有向のエッジは、別のノードに対するひとつのノードの類似度を示す。例えば、ノード111は、ノード115に対する類似度を有するが、ノード115は、ノード111に対する類似度を有していない(または閾値のレベルを下回る類似度を有する)。この例では、ノードグループ110は、同一の話題に方向付けられたノード111〜115を含む。理由は、このノードグループのノードの間には多数のエッジが存在するからである。同様に、ノードグループ120は、同一の話題に方向付けられたノード121〜124を含む。ノードグループ130には、1つのノードしかないのは、このノードが、他のどのノードに対しても類似度を有しておらず、このノードに対する類似度を有するノードもないからである。ノード115は、おそらくノードグループ110のすべてのノードのうちで最も高い情報の豊富さを有し、ノード124は、おそらくノードグループ120のすべてのノードのうちで最も高い情報の豊富さを有する。理由はは、各ノードは、ノードに対する類似度を有するノードの数が最も多いからである。
図2は、一実施形態における順位付けのシステムのコンポーネントを例示するブロック図である。順位付けのシステム200は、データストア201〜204、およびコンポーネント211〜216を含む。ドキュメントストア201は、ドキュメントの集まりを収容するが、このストアは、インターネットを介して利用可能なすべてのウェブページを表現する場合もある。類似度の図式を生成するコンポーネント211は、ドキュメントストアのドキュメントに基づいて類似度の図式を生成する。類似度の図式を生成するコンポーネントは、類似度の図式ストア202内に類似度を格納する。情報の豊富さを計算するコンポーネント212は、類似度の図式ストアからの類似度の図式を入力し、各ドキュメントの情報の豊富さの得点を計算する。このコンポーネントは、計算した情報の豊富さの得点を、情報の豊富さストア203に格納する。一実施形態では、類似度の図式を生成するコンポーネント、および情報の豊富さを計算するコンポーネントは、検索を実施するのに先立って、類似度の図式および情報の豊富さの得点を生成するためにオフラインで実行することができる。検索を実施するコンポーネント213は、ユーザからの検索要求を受信し、ドキュメントストアのドキュメントから検索結果を識別する。検索を実施するコンポーネントは、検索結果を、検索要求に対する検索結果の各ドキュメントの適合度の表示と共に検索結果ストア204に格納する。類似性のペナルティを計算するコンポーネント214は、類似性ペナルティを計算して、検索結果ストア、類似度の図式ストア、および情報の豊富さストアの情報に基づく類似度の順位に適用する。類似度の順位を計算するコンポーネント215は、検索結果の中にある各ドキュメントの類似度の順位を生成する。類似度の順位を計算するコンポーネントは、ドキュメントの情報の豊富さ、類似度の図式ストア、および検索結果を計算に入れる。最終得点を計算するコンポーネント216は、類似度の順位と適合度の得点とを組合せて、最終得点を計算する。
順位付けのシステムが実装されるコンピューティングデバイスには、中央処理装置、メモリ、入力装置(例えば、キーボード、ポインティングデバイス)、出力装置(例えば、表示装置)、および記憶装置(例えば、ディスク装置)が含まれる。メモリおよび記憶装置は、順位付けのシステムを実装する命令を含むことができるコンピュータ可読媒体である。さらに、データ構造およびメッセージ構造は、通信リンク上の信号などのデータ伝送媒体を介して格納または伝送することができる。様々な通信リンク、例えば、インターネット、LAN、WAN、または、ポイントツーポイントのダイヤルアップ接続などを使用することができる。
順位付けのシステムは、様々な動作環境で実装することができる。使用するのに適切となり得る、周知の様々なコンピューティングシステム、環境、および構成には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、および、あらゆる上述のシステムまたは装置を含む分散コンピューティング環境などが含まれる。
1つまたは複数のコンピュータまたは他の装置によって実行される、プログラムモジュールなどコンピュータ実行可能命令の一般的コンテキストにおいて、順位付けのシステムを説明することができる。一般に、プログラムモジュールには、特定のタスクを実行または特定の抽象データ型などを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、およびデータ構造などが含まれる。一般に、様々な実施形態において、プログラムモジュールの諸機能を、所望に応じて、結合または分散することができる。
図3は、一実施形態における順位付けのシステムの全体的な処理を例示する流れ図である。順位付けのシステムには、検索結果を表現することができるドキュメントの集まりが提供される。ブロック301では、コンポーネントが、ドキュメントの集まりについての類似度の図式を構成する。コンポーネントは、オフラインでドキュメントの集成の中にあるすべてのドキュメント(例えば、すべてのウェブページ)に及ぶ、またはリアルタイムで集まりのドキュメントのみに及ぶ類似度の図式を構成することができる。ブロック302では、コンポーネントは、集まりの各ドキュメントの情報の豊富さを計算する。ブロック303では、コンポーネントは、集まりのドキュメントを順位付けし、次いで完了となる。
図4は、一実施形態における類似度の図式を構成するコンポーネントの処理を例示する流れ図である。コンポーネントは、ドキュメントの集まりが伝わり、これらのドキュメントについての類似度の図式を構成する。ブロック401〜403では、コンポーネントは、ドキュメント集まりの中にある各ドキュメントについてのドキュメントベクトルを生成するループを実行する。ブロック401では、コンポーネントは、集まり内の次のドキュメントを選択する。決定ブロック402では、集まり内のすべてのドキュメントを既に選択した場合、ブロック404に進み、そうでなければ、ブロック403に進む。ブロック403では、コンポーネントは、選択されたドキュメントに対するドキュメントベクトルを生成し、次いで、集まり内の次のドキュメントを選択するためにブロック401へのループを実行する。ブロック404〜408では、コンポーネントは、集まり内のドキュメントの各組についての類似度を計算する。ブロック404では、コンポーネントは、第1のドキュメントから開始し、集まりの中にある次のドキュメントを選択する。決定ブロック405では、すべてのドキュメントが既に選択された場合、コンポーネントは、類似度の図式を返し、そうでない場合、ブロック406に進む。ブロック406〜408では、コンポーネントは、集まりの各ドキュメントを選ぶループを実行する。ブロック406では、コンポーネントは、第1のドキュメントから開始し、集まりの中にある次のドキュメントを選択する。決定ブロック407では、集まり内のすべてのドキュメントが既に選ばれた場合、コンポーネントは、集まり内の次のドキュメントを選択するためにブロック404へのループを実行し、そうでない場合、ブロック408に進む。ブロック408では、コンポーネントは、式1に従って(ブロック406で)選んだドキュメントに対する(ブロック404で)選択されたドキュメントの類似度を計算し、次いで、集まり内の次のドキュメントを選ぶブロック406へのループを実行する。
図5は、一実施形態におけるドキュメントを順位付けるコンポーネントの処理を例示する流れ図である。コンポーネントには、類似度の図式が生成され、各ドキュメントの情報の豊富さが計算されたドキュメントの集まりを伝える。ブロック501〜503では、コンポーネントは、集まり内の各ドキュメントの類似度の順位を、その情報の豊富さに初期設定するループを実行する。ブロック501では、コンポーネントは、集まり内の次のドキュメントを選択する。決定ブロック502では、すべてのドキュメントを既に選択した場合、ブロック504に進み、そうでない場合、ブロック503に進む。ブロック503では、コンポーネントは、選択したドキュメントの類似度の順位を、選択したドキュメントの情報の豊富さに設定し、集まり内の次のドキュメントを選択するブロック501へのループを実行する。ブロック504〜508では、コンポーネントは、ドキュメントの組を識別し、類似性のペナルティによって類似度の順位を調整するループを実行する。ブロック504では、コンポーネントは、次に最も高い類似度の順位を有するドキュメントを選択する。決定ブロック505では、終了条件に到達した場合、コンポーネントは、順位付けしたドキュメントを返し、そうでない場合、ブロック506に進む。ブロック506〜508では、コンポーネントは、ドキュメントを選び、類似性のペナルティにより類似度を調整するループを実行する。ブロック506では、コンポーネントは、選ばれたドキュメントから選択されたドキュメントへの類似度についての類似度の図式において、零以外の値で指示されるように、選択されたドキュメントに対する類似度を有する、次のドキュメントを選ぶ。決定ブロック507では、このようなドキュメントがすべて既に選ばれた場合、コンポーネントは、次に最も高い類似度の順位を有するドキュメントを選択するブロック504へのループを実行する。ブロック508では、コンポーネントは、式10に従って、類似性のペナルティによって選ばれたドキュメントに対する類似度の順位を調整する。次いで、コンポーネントは、選択されたドキュメントに対する類似度を有する次のドキュメントを選ぶブロック506へのループを実行する。
本明細書では、例示の目的のために、順位付けのシステムの特定の実施形態について説明したが、本発明の精神および範囲から逸脱することなく様々な変形形態を構成することができることは当事業者には理解されよう。一実施形態では、順位付けのシステムは、ドキュメントごとではなくブロックごとを基礎にして類似度および情報の豊富さを計算することができる。ブロックは、単一の話題に一般的に関係するウェブページの情報を表現する。ウェブページの順位付けは、そのウェブページに対するブロックの重要度に部分的に基づくことができる。ブロックの重要度に関しては文献に記載されている(例えば、特許文献1参照。この文献を参照により本明細書に援用する。)。したがって、本発明は添付の特許請求の範囲を除いて限定されるものではない。
一実施形態における類似度の図式を例示する図である。 一実施形態における順位付けのシステムのコンポーネントを例示するブロック図である。 一実施形態における順位付けのシステムの全体的な処理を例示する流れ図である。 一実施形態における類似度の図式を構成するコンポーネントの処理を例示する流れ図である。 一実施形態におけるドキュメントを順位付けるコンポーネントの処理を例示する流れ図である。

Claims (31)

  1. コンピュータシステムにおいて、検索結果のドキュメントを順位付ける方法であって、
    前記検索結果の各ドキュメントについて、前記ドキュメントの情報の豊富さにより類似度の順位を初期化するステップと、
    類似するドキュメントの各グループについて 、最も高い類似度の順位を除く前記類似度の順位が、前記グループ内のドキュメントの最も高い類似度の順位と比較して低いよう、前記グループ内のドキュメントの前記類似度の順位を調整するステップと
    を備えたことを特徴とする方法。
  2. 前記グループ内のドキュメントの前記類似度の順位を調整する前記ステップは、前記グループ内の最も高い類似度の順位を有する前記ドキュメントの前記類似度の順位を除いて、前記グループ内の各ドキュメントの前記類似度の順位を減少させるステップを含むことを特徴とする請求項1に記載の方法。
  3. 最も高い類似度の順位を有する前記ドキュメントに、より類似するドキュメントは、最も高い類似度の順位を有する前記ドキュメントに、より類似しないドキュメントよりも非常に減少させた類似度の順位を有することを特徴とする請求項2に記載の方法。
  4. 前記グループ内のドキュメントの前記類似度の順位を調整する前記ステップは、
    前記グループから最も高い類似度の順位を有する前記ドキュメントを除去するステップと、
    前記グループの残りのドキュメントの前記類似度の順位を減少させるステップと
    を含み、前記ドキュメントを除去する順序が前記検索結果の前記ドキュメントの前記順位を表すことを特徴とする請求項1に記載の方法。
  5. 各ドキュメントについて、前記調整された類似度の順位および検索ベースの適合度により、前記ドキュメントの適合度を計算するステップを含むことを特徴とする請求項1に記載の方法。
  6. コンピュータシステムにおいて、検索結果のドキュメントの順序付けを行い、高い順序のドキュメントの話題の多様性を増大させる方法であって、
    前記検索結果に類似するドキュメントのグループを識別するステップと、
    前記識別されたグループの各々から1つのドキュメントを選択するステップと、
    前記検索結果の他のドキュメントの上位に前記選択されたドキュメントを順位付けるステップと
    を備えたことを特徴とする方法。
  7. 各ドキュメントが初期の順位を有し、および前記順位は、より高い初期の順位を有する別のドキュメントより高く、選択したドキュメントを順位付けるステップを含むことを特徴とする請求項6に記載の方法。
  8. 各ドキュメントが初期の順位を有し、および前記識別されたグループの各々から前記選択されたドキュメントは、最も高い初期の順位を有する前記ドキュメントであることを特徴とする請求項6に記載の方法。
  9. グループの選択されないドキュメントを、前記グループの前記選択されたドキュメントの類似性により、再度順位付けるステップを含むことを特徴とする請求項6に記載の方法。
  10. 前記再度順位付けるステップは、グループの前記選択されたドキュメントに最も類似する、前記グループの前記選択されないドキュメントに、を、前記グループの前記ドキュメントの順位において最も大きい減少を与えることを特徴とする請求項9に記載の方法。
  11. 前記グループの前記選択されないドキュメントは、再度順位付けるステップに従って順位付けされることを特徴とする請求項10に記載の方法。
  12. 再度順位付けるステップの後に前記識別されたグループの各々から1つのドキュメントを選択するステップと、
    前記ドキュメントを、まだ選択されていない他のドキュメントの上位に順位付けるステップと
    を含むことを特徴とする請求項10に記載の方法。
  13. 前記再度順位付けるステップは、類似性のペナルティを適用することを特徴とする請求項9に記載の方法。
  14. 前記グループの各々から前記選択されたドキュメントは、前記グループ内の前記ドキュメントで最も高い情報の豊富さを有することを特徴とする請求項6に記載の方法。
  15. 前記グループは、類似度の図式を使用して識別されることを特徴とする請求項6に記載の方法。
  16. コンピュータシステムにおいて、ドキュメントの集まり内のドキュメントの情報の豊富さを計算する方法であって、
    前記集まり内の各ドキュメントが有する、前記ドキュメントの類似度を識別するステップと、
    前記集まり内の他のドキュメントが有する、前記ドキュメントの前記類似度のにより、前記ドキュメントの情報の豊富さを決定するステップと
    を備えたことを特徴とする方法。
  17. 前記各ドキュメントの類似度を識別するステップは、類似度の図式を生成するステップを含むことを特徴とする請求項16に記載の方法。
  18. 前記類似度は、1つのドキュメントの情報内容が別のドキュメントに含まれる程度の尺度であることを特徴とする請求項16に記載の方法。
  19. 前記類似度は、
    Figure 2005322244
    として定義されることを特徴とする請求項16に記載の方法。
  20. 前記情報の豊富さは、1つのドキュメントの情報内容が、他のドキュメントの情報内容を含む程度の尺度となることを特徴とする請求項16に記載の方法。
  21. 前記情報の豊富さは、
    Figure 2005322244
    として定義されることを特徴とする請求項16に記載の方法。
  22. 方法によりコンピュータシステムにドキュメントの順位付けを行わせる命令を含む、コンピュータ可読媒体であって、前記方法は、
    各ドキュメントについて、前記ドキュメントの情報の豊富さにより、類似度の順位を初期化することと、
    ドキュメントが高い類似度の順位を有する場合、関連するドキュメントの前記類似度の順位を減少させることと
    を備え、前記類似度の順位が前記ドキュメントの前記順位付けを表すことを特徴とするコンピュータ可読媒体。
  23. 前記ドキュメントの情報の豊富さは、ドキュメントの組の類似度により計算されることを特徴とする請求項22に記載のコンピュータ可読媒体。
  24. 前記情報の豊富さは、
    Figure 2005322244
    として定義されることを特徴とする請求項23に記載のコンピュータ可読媒体。
  25. 前記類似度は、
    Figure 2005322244
    として定義されることを特徴とする請求項23に記載のコンピュータ可読媒体。
  26. 前記高い類似度の順位を有するドキュメントに、より類似する関連ドキュメントは、前記高い類似度の順位を有する前記ドキュメントに、より類似しないドキュメントよりも非常に減少させた類似度の順位を有することを特徴とする請求項22に記載のコンピュータ可読媒体。
  27. 各ドキュメントについて、前記ドキュメントの類似度の順位および前記ドキュメントの検索ベースの適合度により、前記ドキュメントの適合度を計算することを含むことを特徴とする請求項22に記載のコンピュータ可読媒体。
  28. ドキュメントの集まり内のドキュメントの情報の豊富さを計算するためのコンピュータシステムであって、
    前記ドキュメントに対する、前記集まり内の各ドキュメントが有する類似度を識別するコンポーネントと、
    前記ドキュメントに対する、前記集まり内の他のドキュメントが有する前記類似度により、前記ドキュメントの情報の豊富さを決定するコンポーネントと
    を備えたことを特徴とするコンピュータシステム。
  29. 前記識別するコンポーネントは、類似度の図式を生成することを特徴とする請求項28に記載のコンピュータシステム。
  30. 前記類似度は、1つのドキュメントの情報内容が別のドキュメントに含まれる程度の尺度であることを特徴とする請求項28に記載のコンピュータシステム。
  31. 前記情報の豊富さは、1つのドキュメントの情報内容が他のドキュメントの情報内容を含む程度の尺度となることを特徴とする請求項28に記載のコンピュータシステム。
JP2005134488A 2004-04-30 2005-05-02 情報の多様性および豊富さを向上させるよう検索結果のドキュメントを順位付ける方法およびシステム Expired - Fee Related JP4845420B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/837,540 2004-04-30
US10/837,540 US7664735B2 (en) 2004-04-30 2004-04-30 Method and system for ranking documents of a search result to improve diversity and information richness

Publications (3)

Publication Number Publication Date
JP2005322244A true JP2005322244A (ja) 2005-11-17
JP2005322244A5 JP2005322244A5 (ja) 2008-06-19
JP4845420B2 JP4845420B2 (ja) 2011-12-28

Family

ID=34939598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005134488A Expired - Fee Related JP4845420B2 (ja) 2004-04-30 2005-05-02 情報の多様性および豊富さを向上させるよう検索結果のドキュメントを順位付ける方法およびシステム

Country Status (10)

Country Link
US (1) US7664735B2 (ja)
EP (1) EP1591923A1 (ja)
JP (1) JP4845420B2 (ja)
KR (1) KR101130535B1 (ja)
CN (1) CN100573513C (ja)
AU (1) AU2005201824A1 (ja)
BR (1) BRPI0502189A (ja)
CA (1) CA2505904C (ja)
MX (1) MXPA05004681A (ja)
RU (1) RU2383922C2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093647A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd ワードと文書の深さの決定
JP2009288870A (ja) * 2008-05-27 2009-12-10 Nec Corp 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2011516976A (ja) * 2008-03-31 2011-05-26 グーグル・インコーポレーテッド メディアオブジェクト照会の送信および反応
JP2016517110A (ja) * 2014-03-14 2016-06-09 シャオミ・インコーポレイテッド クラスタリング方法及び関連装置

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7809548B2 (en) * 2004-06-14 2010-10-05 University Of North Texas Graph-based ranking algorithms for text processing
US20070073708A1 (en) * 2005-09-28 2007-03-29 Smith Adam D Generation of topical subjects from alert search terms
US20070094242A1 (en) * 2005-10-26 2007-04-26 John Dove System and method for returning search results
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering
US20070112867A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for rank-based response set clustering
US7827208B2 (en) * 2006-08-11 2010-11-02 Facebook, Inc. Generating a feed of stories personalized for members of a social network
US8171128B2 (en) 2006-08-11 2012-05-01 Facebook, Inc. Communicating a newsfeed of media content based on a member's interactions in a social network environment
US7644074B2 (en) * 2005-12-22 2010-01-05 Microsoft Corporation Search by document type and relevance
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US7818315B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Re-ranking search results based on query log
US20080005137A1 (en) * 2006-06-29 2008-01-03 Microsoft Corporation Incrementally building aspect models
US9779441B1 (en) * 2006-08-04 2017-10-03 Facebook, Inc. Method for relevancy ranking of products in online shopping
US20080109435A1 (en) * 2006-11-07 2008-05-08 Bellsouth Intellectual Property Corporation Determining Sort Order by Traffic Volume
US8156112B2 (en) 2006-11-07 2012-04-10 At&T Intellectual Property I, L.P. Determining sort order by distance
US8301621B2 (en) 2006-11-07 2012-10-30 At&T Intellectual Property I, L.P. Topic map for navigational control
US20080114750A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity
US7958126B2 (en) * 2006-12-19 2011-06-07 Yahoo! Inc. Techniques for including collection items in search results
US20080154878A1 (en) * 2006-12-20 2008-06-26 Rose Daniel E Diversifying a set of items
US20080215571A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Product review search
US8117137B2 (en) 2007-04-19 2012-02-14 Microsoft Corporation Field-programmable gate array based accelerator system
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
WO2009003050A2 (en) 2007-06-26 2008-12-31 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US8543380B2 (en) * 2007-10-05 2013-09-24 Fujitsu Limited Determining a document specificity
WO2009059481A1 (en) * 2007-11-08 2009-05-14 Shanghai Hewlett-Packard Co., Ltd Navigational ranking for focused crawling
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
US20090287668A1 (en) * 2008-05-16 2009-11-19 Justsystems Evans Research, Inc. Methods and apparatus for interactive document clustering
CN101625680B (zh) * 2008-07-09 2012-08-29 东北大学 面向专利领域的文档检索方法
US8131659B2 (en) * 2008-09-25 2012-03-06 Microsoft Corporation Field-programmable gate array based accelerator system
US8301638B2 (en) * 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
US9135396B1 (en) * 2008-12-22 2015-09-15 Amazon Technologies, Inc. Method and system for determining sets of variant items
US8458171B2 (en) * 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
US8533202B2 (en) * 2009-07-07 2013-09-10 Yahoo! Inc. Entropy-based mixing and personalization
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
CN101650746B (zh) * 2009-09-27 2011-06-29 中国电信股份有限公司 一种对排序结果进行验证的方法和系统
CA2836700C (en) 2010-05-25 2017-05-30 Mark F. Mclellan Active search results page ranking technology
US9240020B2 (en) 2010-08-24 2016-01-19 Yahoo! Inc. Method of recommending content via social signals
EP2568396A1 (en) * 2011-09-08 2013-03-13 Axel Springer Digital TV Guide GmbH Method and apparatus for generating a sorted list of items
US8838583B1 (en) 2011-10-05 2014-09-16 Amazon Technologies, Inc Diversity within search results
US9075498B1 (en) * 2011-12-22 2015-07-07 Symantec Corporation User interface for finding similar documents
US9501566B1 (en) 2012-01-17 2016-11-22 Veritas Technologies Llc User interface for transparent concept search
JP6149434B2 (ja) * 2012-04-10 2017-06-21 株式会社リコー 情報処理装置、文書管理サーバ、プログラム、ファイルシステム
US20140075282A1 (en) * 2012-06-26 2014-03-13 Rediff.Com India Limited Method and apparatus for composing a representative description for a cluster of digital documents
US9400789B2 (en) * 2012-07-20 2016-07-26 Google Inc. Associating resources with entities
US9536001B2 (en) * 2012-11-13 2017-01-03 Microsoft Technology Licensing, Llc Intent-based presentation of search results
US9129020B2 (en) 2012-12-21 2015-09-08 Microsoft Technology Licensing, Llc Search results through interest circles
US9355227B2 (en) 2014-06-30 2016-05-31 Konica Minolta Laboratory U.S.A., Inc. Dynamic document display personalization implemented in a digital rights management system
US9992262B2 (en) * 2014-07-29 2018-06-05 Konica Minolta Laboratory U.S.A., Inc. Personalized document content aggregation and document association implemented in a digital rights management system
US9858251B2 (en) 2014-08-14 2018-01-02 Rakuten Kobo Inc. Automatically generating customized annotation document from query search results and user interface thereof
KR102243286B1 (ko) * 2014-09-18 2021-04-22 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
CN104881798A (zh) * 2015-06-05 2015-09-02 北京京东尚科信息技术有限公司 基于商品图像特征的个性化搜索装置及方法
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US10467215B2 (en) * 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10685029B2 (en) 2015-11-23 2020-06-16 Google Llc Information ranking based on properties of a computing device
GB2545931A (en) * 2015-12-31 2017-07-05 Francis Murphy Dominic Defining edges and their weights between nodes in a network
CN105955990A (zh) * 2016-04-15 2016-09-21 北京理工大学 一种兼顾多样性和有效性的评论排序和筛选方法
RU2630427C2 (ru) * 2016-08-12 2017-09-07 Дмитрий Владимирович Мительков Способ и система семантической обработки текстовых документов
US10733359B2 (en) * 2016-08-26 2020-08-04 Adobe Inc. Expanding input content utilizing previously-generated content
GB2570447A (en) * 2018-01-23 2019-07-31 Canon Kk Method and system for improving construction of regions of interest
US11699094B2 (en) * 2018-10-31 2023-07-11 Salesforce, Inc. Automatic feature selection and model generation for linear models
US11328238B2 (en) * 2019-04-01 2022-05-10 Microsoft Technology Licensing, Llc Preemptively surfacing relevant content within email
CN110516062B (zh) * 2019-08-26 2022-11-04 腾讯科技(深圳)有限公司 一种文档的搜索处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318528A (ja) * 2003-04-16 2004-11-11 Seiko Epson Corp 情報抽出システム、文書抽出システム、情報抽出プログラム及び文書抽出プログラム、並びに情報抽出方法及び文書抽出方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US6601075B1 (en) * 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US20020194161A1 (en) * 2001-04-12 2002-12-19 Mcnamee J. Paul Directed web crawler with machine learning
WO2004025490A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318528A (ja) * 2003-04-16 2004-11-11 Seiko Epson Corp 情報抽出システム、文書抽出システム、情報抽出プログラム及び文書抽出プログラム、並びに情報抽出方法及び文書抽出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CSNB200400085001, Inderjeet Mani, 自動要約, 20030620, 初版, pp.181−183, JP, 共立出版株式会社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093647A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd ワードと文書の深さの決定
JP2011516976A (ja) * 2008-03-31 2011-05-26 グーグル・インコーポレーテッド メディアオブジェクト照会の送信および反応
JP2009288870A (ja) * 2008-05-27 2009-12-10 Nec Corp 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2016517110A (ja) * 2014-03-14 2016-06-09 シャオミ・インコーポレイテッド クラスタリング方法及び関連装置

Also Published As

Publication number Publication date
US7664735B2 (en) 2010-02-16
JP4845420B2 (ja) 2011-12-28
KR101130535B1 (ko) 2012-04-12
KR20060047664A (ko) 2006-05-18
CN1758244A (zh) 2006-04-12
EP1591923A1 (en) 2005-11-02
CN100573513C (zh) 2009-12-23
MXPA05004681A (es) 2006-03-08
RU2383922C2 (ru) 2010-03-10
CA2505904A1 (en) 2005-10-30
RU2005113189A (ru) 2006-11-10
BRPI0502189A (pt) 2006-01-10
US20050246328A1 (en) 2005-11-03
CA2505904C (en) 2013-09-03
AU2005201824A1 (en) 2005-11-17

Similar Documents

Publication Publication Date Title
JP4845420B2 (ja) 情報の多様性および豊富さを向上させるよう検索結果のドキュメントを順位付ける方法およびシステム
US7577650B2 (en) Method and system for ranking objects of different object types
US7363279B2 (en) Method and system for calculating importance of a block within a display page
CA2507309C (en) Method and system for schema matching of web databases
US9058382B2 (en) Augmenting a training set for document categorization
JP5147162B2 (ja) オブジェクトの類似性を異種の関係に基づいて判定するための方法およびシステム
US7529735B2 (en) Method and system for mining information based on relationships
US20070005588A1 (en) Determining relevance using queries as surrogate content
AU2005201771A1 (en) Method and system for identifying image relatedness using link and page layout analysis
WO2008157595A1 (en) Ranking documents based on a series of document graphs
CA2640230A1 (en) Training a ranking function using propagated document relevance
AU2005202017A1 (en) Method and system for ranking objects based on intra-type and inter-type relationships
US20080114753A1 (en) Method and a device for ranking linked documents
JP2002215659A (ja) 情報検索支援方法および情報検索支援システム
Mukhopadhyay et al. A syntactic classification based web page ranking algorithm
CA2682051A1 (en) Look-ahead document ranking system
US7774340B2 (en) Method and system for calculating document importance using document classifications
Prasath et al. Finding potential seeds through rank aggregation of web searches
Gurrin et al. Dublin City University experiments in connectivity analysis for TREC-9.
Ali et al. Dataset creation framework for personalized type-based facet ranking tasks evaluation
Miao et al. From Paragraph Networks to Document Networks.
Choi et al. Ranking web pages relevant to search keywords
Lee et al. Cluster based personalized Search
Devi A Novel Approach on Focused Crawling With Anchor Text
Lee et al. Criteria for cluster-based personalized search

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080430

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111011

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371