CN1758244A - 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统 - Google Patents

用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统 Download PDF

Info

Publication number
CN1758244A
CN1758244A CNA2005100896477A CN200510089647A CN1758244A CN 1758244 A CN1758244 A CN 1758244A CN A2005100896477 A CNA2005100896477 A CN A2005100896477A CN 200510089647 A CN200510089647 A CN 200510089647A CN 1758244 A CN1758244 A CN 1758244A
Authority
CN
China
Prior art keywords
document
correlativity
piece
group
arrangement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100896477A
Other languages
English (en)
Other versions
CN100573513C (zh
Inventor
B·章
H-J·曾
马维英
陈正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1758244A publication Critical patent/CN1758244A/zh
Application granted granted Critical
Publication of CN100573513C publication Critical patent/CN100573513C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于主题的信息丰富度和多样性来排列搜索结果的文档的方法和系统。该排列系统决定在搜索结果中的每一个文档的信息丰富度。该排列系统基于它们的关联性而将搜索结果的文档分组,意味着它们被指向相似的主题。该排列系统将文档排序以保证最高排列文档可以包含覆盖每一个主题的至少一篇文档,那就是说,来自每一个组的一篇文档。该排列系统从在该组中具有最高信息丰富度的文档的每一组中选择文档。当这些文档以某个排列顺序提供给用户时,用户将在搜索结果的第一页中发现覆盖各种类型的主题的文档,而不仅仅是单一的受欢迎的主题。

Description

用于排列搜索结果的文档以 改进多样性和信息丰富度的方法和系统
技术领域
所述的技术一般涉及由提交给一个搜索引擎装置的一个搜索请求所识别的一个搜索结果的文档的排列。
背景技术
许多搜索引擎装置,例如Google和Overture,提供用来搜索经由Internet可以被访问的信息。这些搜索引擎装置允许用户搜索用户关心的显示页,例如web页。在用户提交一个包含搜索条件的搜索请求后,该搜索引擎装置识别可能与这些条件相关联的web页。为了快速地识别相关的web页,该搜索引擎装置可以保持一个web页的关键词映射。该映射依靠“爬行”该web(即,环球信息网)以提取每一个web页的关键词来产生。为了爬行该web,一个搜索引擎装置可以利用根web页的列表来识别所有的可以通过这些根web页而被访问的web页。任何特定web页的关键词可以使用各种公知的信息检索技术被提取,例如识别一个标题的词、在web页的元数据中所提供的词、突出显示的词,等等。该搜索引擎装置可以计算一个关联性分数,该关联性分数指出每一个web页与基于每一个匹配的接近性、web页普及性(例如,Google的PageRank)等等的搜索请求在多大程度上相关联。该搜索引擎装置然后用基于这些web页的关联性的一个顺序显示给用户这些web页的链接。搜索引擎可能更普遍地提供用于任何文档的集合中的信息的搜索。例如,该文档的集合可以包括所有的美国专利、所有的联邦法庭的意见、一个公司的所有存档文档等等。
由一个基于web的搜索引擎装置提供的搜索结果的最高排列的web页可能被全部指向相同的受欢迎的主题。例如,如果一个用户利用搜索条件“Spielberg”提出一个搜索请求,然后该搜索结果的最高排列的web页将可能与StevenSpielberg相关。然而,如果用户对Steven Spielberg不感兴趣,而是对定位于一个具有同姓的数学教授的主页感兴趣的话,则该web页的排列对用户是没有帮助的。尽管该教授的主页可能被包含在搜索结果中,但该用户仍然需要去浏览链接于该搜索结果的web页的许多页,以定位该教授的主页的链接。通常,当没有被识别为搜索结果的第一页时,对于用户来说定位一个期望的文档是困难的。此外,当用户不得不翻阅多页搜索结果以找到感兴趣的文档时,他们会感到很灰心。
人们会期望一种用于排列文档的技术,它可以提供更多样化的存在于最高排列文档中的主题,人们会更进一步地期望每个这样的最高排列文档具有与它的主题相关的丰富的信息内容。
发明概述
一种基于主题的信息的丰富度和多样性而排列搜索结果的文档的系统。一种排列系统基于它们的关联性而将搜索结果的文档分组,意味着它们被指向类似的主题。该排列系统为文档排序以保证最高排列文档包含覆盖每一个主题的至少一篇文档。该排列系统然后从在该组中具有文档的最高信息丰富度的每一组中选择文档,作为最高排列文档中的一篇。
附图的简要说明
图1是说明在一个实施例中的一个相关性曲线图的图表。
图2是说明在一个实施例中的排列系统的部件的方块图。
图3是说明在一个实施例中的排列系统的全部处理的流程图。
图4是说明在一个实施例中的一个构造相关性曲线图部件的处理的流程图。
图5是说明在一个实施例中的一个排列文档部件的处理的流程图。
详细说明
一种用于基于主题的信息的丰富度和多样性来排列搜索结果的文档的方法和系统被提供。在一个实施例中,一个排列系统决定在搜索结果中的每一个文档的信息的丰富度。信息的丰富度是一个文档包含有多少与它的主题相关的信息的尺度。具有高信息丰富度的文档(例如,web页)可能包含包含有与同一主题相关但却具有更低的信息丰富度的文档信息的信息。该排列系统基于它们的关联性而将搜索结果的文档分组,意味着它们被指向类似的主题。该排列系统将文档排序以保证最高排列文档可以包含覆盖每一个主题的至少一篇文档,也就是说,来自于每一个组的一篇文档。该排列系统从在该组中具有文档的最高信息丰富度的每一组中选择文档。当这些文档以排列顺序被提供给用户时,用户可能将在搜索结果的第一页中发现覆盖各种主题的文档,而不仅仅是单一的受欢迎主题。例如,如果搜索请求包含搜索条件“Spielberg”,则在搜索结果的第一页中的一篇文档可能与Steven Spielberg相关,而在搜索结果的第一页中的另一篇文档可能与spielberg教授相关。这样,用户很可能在搜索结果的第一页被呈现覆盖多样化主题的文档,且当感兴趣的主题不是与搜索请求关联的最受欢迎的主题时,用户将不会太沮丧。此外,因为该排列系统排列具有更高信息丰富度的文档高于具有更低信息丰富度的文档,因此用户将很可能在搜索结果的第一页给出的文档中找到期望的信息。
在一个实施例中,该排列系统根据一个相关性曲线图计算搜索结果的文档的信息丰富度。相关性是衡量一篇文档中的信息被包含在另一篇文档的信息中的程度。例如,一篇描述Spielberg的电影中的一部电影的文档与所有详细描述Spielberg的电影的文档表面上可能具有一个高的相关性。相反地,所有详细描述Spielberg的电影的文档对这篇表面上描述Spielberg的电影中的一部电影的文档可能具有一个相对低的相关性。与不同主题相关联的文档彼此之间没有相关性。每一篇文档与每一篇其他文档的相关性的汇集表示为相关性曲线图。一篇具有许多其他的与它具有高相关性的文档的文档将可能具有高的信息丰富度,因为它的信息包含许多其他文档的信息。此外,如果那些具有高的相关性的其他文档自身也有相对高的信息丰富度的话,则该文档的信息丰富度也将很高。
在一个实施例中,该排列系统还利用一个相关似性曲线图来帮助保证该搜索结果的高排列文档的多样性。该排列系统根据一个传统的排列技术(例如,关联性)、一种信息丰富度技术或者一些其他的排列技术可以具有文档的初始排列分数。该排列系统最初选择具有最高初始排列分数的文档作为具有最高最终排列分数的文档。该排列系统然后减少具有与已选择的文档高相关性的每一篇文档的排列分数。因为那些文档的内容可能被已选择的文档所包含且代表了多余的信息,所以该排列系统减少该排列分数。该排列系统然后选择余下的具有其后更高排列分数的文档中的文档。该排列系统减少具有与新的已选择的文档高相关性的每一篇文档的排列分数。该排列系统重复这样的处理直到期望数目的文档具有一个最终的排列分数、所有的文档都有一个最终的排列分数或者一些其他的中止条件被满足。在一个实施例中,多样性代表了在文档的集合中的不同的主题的数目,在集合中的文档的信息丰富度表示与整个集合相关的文档的信息度。
本领域的普通技术人员能够理解该搜索结果的文档可以基于单独的信息丰富度或单独的多样性而被排列,而不是根据信息丰富度和多样性的结合。例如,一个搜索引擎装置可以单独利用信息丰富度,通过识别与相似的主题相关的多组文档并确定在它的组中的每一篇文档的信息丰富度。该搜索引擎装置然后将已确定的信息丰富度分解为该文档的排列,因而它们组的具有最高的信息丰富度的文档将比他们组中的其他的文档排列得更高。例如,该搜索引擎装置可能单独利用多样性,通过识别与相似主题相关的多组文档并保证来自每一组的至少一篇文档在与它的信息丰富度无关的搜索结果中被排列得很高。例如,该搜索引擎装置可以选择在搜索结果的第一页显示来自于在组中具有最高关联性的每一组中的文档。
相关性曲线图表示作为结点的文档和作为在结点之间的有向边的权的相关性值。该排列系统代表一个相关性曲线图,它通过一个将每一篇文档映射到在文档集合中的每一个其他文档的矩形矩阵表示。该排列系统将该矩阵元素的值设置为相应文档的相关性。如果M是该矩阵,那么Mij代表文档i到文档j的相关性。该排列系统依靠将每一篇文档表示为一个向量来计算文档的相关性。该向量表示文档的信息化内容。例如,每一个向量可以包含该文档的最重要的25个关键词。该排列系统可以根据下述公式计算相关性:
aff ( d i , d j ) = d → i · d → j | | d ‾ i | | - - - ( 1 )
其中aff(di,dj)是文档di到文档dj的相关性,di代表文档di的向量,dj代表文档dj的向量,同时 代表向量di的长度。公式1设定了从dj到di的投影的长度的相关性。本领域的技术人员可以理解该相关性可以以许多种方式来定义。例如,一篇文档对另一篇文档的相关性可以基于这一篇文档中的关键词存在于其他文档的关键词之中的百分比而被定义。在设置理论条件时,一篇文档对另一篇文档的相关性可以被表示成存在于被其他文档中的关键词的数目所分割的两篇文档的交集中的关键词的数目。矩阵M的每一个元素代表从一篇文档的结点到另一篇文档的结点的相关性曲线图中的有向边。在一个实施例中,该排列系统设定一个低于一个相关性门限值(例如,.2)到0的相关性值。概念地,这意味着在相关性为低时,在相关性曲线图中没有从一篇文档的结点到另一篇文档的结点的有向边。该相关性矩阵可以表示如下:
其中,Mij是矩阵的一个元素,afft是相关性门限值。在它们之间具有许多边的一组结点可以代表一个单独的主题,因为在该组中的许多文档具有一个大于它们彼此之间的门限相关性的相关性。相反地,在他们之间没有链接的结点代表指向不同的主题的文档。
通过将边分析算法应用到相关性曲线图该排列系统为每一篇文档计算信息的丰富度。该排列系统规格化该相关性矩阵,从而在每一行中值被增加到1。该规格化相关性矩阵可以表示为如下:
其中,
Figure A20051008964700093
是该规格化矩阵的一个元素。该排列系统根据如下公式计算信息的丰富度:
Figure A20051008964700094
其中InfoRich(di)是文档di的信息丰富度。因此,信息丰富度被递归定义。公式4可以按如下表示为矩阵形式:
λ = M ~ T λ - - - ( 5 )
其中λ=[InfoRich(di)]n×1是该规范化相关性矩阵
Figure A20051008964700096
的特征向量。由于该规范化相关性矩阵
Figure A20051008964700097
典型地为一个稀疏矩阵,所以全0的行可能在它里面出现,这意味着一些文档没有其他的文档与它们有有意义的相关性。为了计算一个有意义的特征向量,该排列系统使用一个卸载因子(例如,.85),它可以是基于文档普及性的一个文档排列。使用卸载因子的该信息丰富度可以表示如下:
其中,c是卸载因子,n是在集合中的文档的数目。公式6可以用矩阵形式表示如下:
λ = c M ~ T λ + ( 1 - c ) n e → - - - ( 7 )
其中, 是一个具有所有元素都为1的单位向量。该信息丰富度的计算可以被类推为一个信息流程和接收器模型。根据该模型,在每一次迭代时,信息在结点间流动。文档di具有一组与它具有相关性的文档A(di),文档A(di)可以如下表示:
A(di)={dj|j≠i,aff(di,dj)>afft}               (8)
在每一次迭代中,信息可以按照下列的一种规则流动:
1.根据概率c(即,该卸载因子),该信息可以流入A(di)中的一篇文档,同时,流入文档dj的概率与aff(di,dj)成比例。
2.根据概率1-c,该信息可以随机地流入该集合中的任何文档。
从上述的处理中能够推导出一个马尔可夫链,其中,状态由文档给出,而转换(或者流动)矩阵由下式给出
c M ~ T + ( 1 - c ) n U - - - ( 9 )
其中 U = [ 1 n ] n × n . 每一种状态的固定概率分布由该转换矩阵的首要的特征向量给出。
在一个实施例中,该排列系统通过将信息丰富度与相似性惩罚相组合,来计算一个相关性排列,从而指向相同主题的多篇文档没有全部被很高地排列而排斥指向其他主题的文档。该相似性惩罚的使用导致了在大多数高排列文档中的主题的多样性的增加。该排列系统可以在一篇文档的初始相关性排列被设置为它的信息丰富度时,利用一个迭代贪婪算法来计算该相似性惩罚。在每一次迭代中,该算法选择具有次高相关性排列的文档,并通过一个相似性惩罚减少该指向相同主题的文档的相关性排列。因此,一旦一个文档被选择,所有的其他的指向该相同主题的文档将使它们自己的相关性排列减少,以改进代表不同主题的最高排列文档的机会。该排列系统可以根据下式减少文档的相关性排列:
AR j = AR j - M ~ ij · InfoRich ( d i ) - - - ( 10 )
其中,ARj表示文档j的相关性排列,i是被选择的文档。因为相似性惩罚是基于相关性矩阵的,一个文档与选择的文档越相似,它的相似性惩罚就越大。
在一个实施例中,该排列系统将一个基于文本的排列(例如,传统的关联性)与一个相关性排列相结合,以产生一个全排列。该排列可以基于分数或者排列而被结合。对于该组合的分数,该基于文本的分数被与相关性排列组合,以给出一个代表该文档的最终分数的全分数。该组合的分数可基于一个基于文本的分数和该相关性排列的线性组合。因为该分数可能具有不同等级的顺序,该排列系统规格化该分数。该组合的分数可以表示如下:
Score ( q , d i ) = α · Sim ( q , d i ) Sim ‾ Θ ( q ) + β · log AR ‾ Θ log AR i , ∀ d i ∈ Θ - - - ( 11 )
其中,α+β=1,Θ代表用于搜索请求q的搜索结果,Sim(q,di)代表搜索请求q的文档di的相似性,和
Sim ‾ Θ ( q ) = Max ∀ d i ∈ Θ Sim ( q , d i ) - - - ( 12 )
AR ‾ Θ = Max ∀ d i ∈ Θ AR i - - - ( 13 )
利用组合排列,该基于文本的排列与该相关性排列相结合,以提供一个文档的最终排列。该组合排列可以基于一个基于文本的排列和该相关性排列的线性组合。该组合排列可以表示如下:
Score ( q , d i ) = α · Rank Sim ( q , d i ) + β · Rank ∀ R i , ∀ d i ∈ Θ - - - ( 14 )
其中,Score代表用于搜索请求q的文档di的最终排列。RankSim(q,d1)代表该基于文本的排列,RankARi代表该相关性排列。在两个组合算法中的α和β都是可以被调整的参数。当α=1和β=0时,没有再排列被执行,而该搜索结果根据基于文本的搜索而被排列。当β>α时,在再排列时,更多的权被增加给该相关性排列。当β=1和α=0时,该再排列单独地基于该相关性排列而被执行。
图1是说明在一个实施例中的一个相关性曲线图的图表。该相关性曲线图100包括结点111-115、结点121-124和结点131,它们每一个代表一篇文档。在结点之间的有向边表示一个结点与另一个结点的相关性。例如,结点111与结点115具有一个相关性,但是结点115与结点111没有相关性(或者有一个低于门限水平的相关性)。在这个例子中,结点组110包括指向同样的主题的结点111-115,因为在该结点组中的结点之间有许多边。类似地,结点组120包括指向同一的主题的结点121-124。结点组130只有一个结点,因为那个结点与其他任何结点都没有相关性,也没有结点与它有相关性。结点115可能具有在结点组110中的所有结点的最高信息丰富度,而结点124也可能具有在结点组120中的所有结点的最高的信息丰富度,因为每一个结点都有最大数目的与它有相关性的结点。
图2是说明在一个实施例中的排列系统的部件的方块图。该排列系统200包括数据存储器201-204和部件211-216。该文档存储器201包含文档的集合且可代表所有经由Internet的可用的web页。该产生相关性曲线图部件211基于文档存储器中的文档产生一个相关性曲线图。该产生相关性曲线图部件在相关性曲线图存储器202中存储该相关性。该计算信息丰富度部件212输入来自相关性曲线图存储器的相关性曲线图,并为每一篇文档计算一个信息丰富度分数。该部件将已计算的信息丰富度分数存储在信息丰富度存储器203中。在一个实施例中,该产生相关性曲线图部件和该计算信息丰富度部件可以在一个搜索进行之前脱机执行以产生该相关性曲线图和信息丰富度分数。进行搜索部件213从用户接收一个搜索请求并从文档存储器的文档中识别搜索结果。该进行搜索部件在搜索结果存储器204中存储该搜索结果以及搜索结果的每一篇文档与搜索请求的关联性的一个表示。该计算相似性惩罚部件214基于该搜索结果存储器、相关性曲线图存储器和信息丰富度存储器的信息计算一个相似性惩罚以提供给该相关性排列。该计算相关性排列部件215为搜索结果中的每一篇文档产生一个相关性排列。该计算相关性排列部件在文档的信息丰富度、相关性曲线图分数和搜索结果中分解。该计算最终分数部件216结合该相关性排列和关联性分数来计算最终分数。
在其上该排列系统被执行的该计算装置可以包括一个中央处理单元、存储器、输入装置(例如,键盘和指示装置)、输出装置(例如,显示装置)和存储装置(例如,磁盘驱动器)。该存储器和存储装置是包括执行该排列系统的指令的计算机可读介质。此外,该数据结构和信息结构可以被存储或者经由一个数据传输介质例如一个在通讯链路上的信号而被传送。各种各样的通讯链路可以被使用,例如Internet局域网、广域网或者点对点拨号上网连接器。
该排列系统可以在各种各样的操作环境中被执行。各种公知的适合于使用的计算系统、环境和配置包括个人计算机、服务器计算机、手提式或者膝上型装置、多处理机系统、基于微处理器的系统、可编程消费电子装置、网络PC、小型计算机、大型计算机,包含任何上述系统和装置的分布式计算环境等等。
该排列系统可以被描述为普通的计算机可执行指令的内容,例如,由一个或多个计算机或者其他装置执行的程序模块。通常,程序模块包括执行特定任务或者执行特定的抽象数据类型的常规程序、程序、对象、组件、数据结构等等。典型地,该程序模块的功能可以是在各种实施例中期望的组合式或者分布式的。
图3是说明在一个实施例中的排列系统的全部处理的流程图。该排列系统被提供了一个可以代表一个搜索结果的文档的集合。在块301中,该部件为该文档的集合构造了一个相关性曲线图。该部分还可以构造覆盖一个在脱机的文档的语言资料库中(例如,所有的web页)的所有文档或者仅仅覆盖实时采集的文档的相关性曲线图。在块302中,该部件计算该集合的每一篇文档的信息丰富度。在块303中,该部件排列该集合的文档,而后结束。
图4是说明在一个实施例中的一个构造相关性曲线图部件的处理的流程图。该部件通过了一个文档的集合并构造一个用于那些文档的相关性曲线图。在块401-403中,该部件为文档的集合中的每一篇文档循环产生文档向量。在块401中,该部件选择在集合中的下一篇文档。在决定块402中,如果在集合中的所有的文档已经被选择,然后,该部件继续到块404,否则该部件继续到块403。在块403中,该部件为已选择的文档产生文档向量,然后循环到块401以选择集合中的下一篇文档。在块404-408中,该部件为集合中的每一对文档计算相关性。在块404中,该部件从第一篇文档开始选择在集合中的下一篇文档。在决定块405中,如果所有的文档都已经被选择,则该部件返回该相关性曲线图,否则该部件继续到块406。在块406-408中,该部件循环挑选集合中的每一篇文档。在块406中,该部件从第一篇文档开始挑选在集合中的下一篇文档。在决定块407中,如果在集合中的所有的文档已经被挑选,则该部件循环到块404以选择集合中的下一篇文档,否则该部件继续到块408。在块408中,该部件根据公式1计算从选择的文档到已挑选的文档的相关性,然后循环到块406以挑选集合中的下一篇文档。
图5是说明在一个实施例中的一个排列文档部件的处理的流程图。该部件通过了一个已经具有它的已产生的相关性曲线图和已计算过的每一篇文档的信息丰富度的文档的集合。在块501-503中,该部件循环初始化集合中的每个文档的相关性排列到它的信息丰富度。在块501中,该部件选择集合中的下一篇文档。在决定块502中,如果所有的文档都已经被选择,则该部件继续到块504,否则该部件继续到块503。在块503中,该部件设置已选择的文档的相关性排列到已选择的文档的信息丰富度,然后循环到块501以选择在集合中的下一篇文档。在块504-508中,该部件循环识别多对文档并通过一个相似性惩罚调整相关性排列。在块504中,该部分件选择具有最高相关性排列的下一篇文档。在决定块505中,如果一个中止条件被达到,则该部件返回已排列的文档,否则该部件继续到块506。在块506-508中,该部件循环挑选文档并用一个相似性惩罚调整相关性排列。在块506中,该部件挑选在相关性曲线图中,具有相对已选择的文档的相关性被指示为非0值的下一篇文档,用于从已挑选的文档到已选择的文档的相关性。在决定块507中,如果所有的文档已经被挑选,则该部件循环到块504以选择具有最高相关性排列的下一篇文档。在块508中,该部件根据公式10用一个相似性惩罚为已挑选的文档调整相关性排列。该部件然后循环到块506以挑选具有与已选择的文档的相关性的下一篇文档。
本领域的技术人员可以理解尽管在这里已经被描述的本排列系统的特定实施例是用于说明的目的,但在不脱离本发明的精神和范围的前提下,可以做各种各样的改变。在一个实施例中,该排列系统可以在一块接一块的基础上计算相关性和信息丰富度而不是在文档接文档的基础上。一个块代表通常与一个单一主题相关的web页的信息。该web页的排列可以部分基于一个块对它的web页的重要性。该块的重要性被描述在美国专利申请号____题目为“用于计算在显示页中的块的重要性的方法和系统”并在____公开,在这里仅结合作为参考。因此,除了附加的权利要求之外,本发明没有被限制。

Claims (31)

1.一种在计算机系统中用于排列一个搜索结果的文档的方法,该方法包括:
为该搜索结果的每一篇文档,基于用于该文档的信息丰富度初始化一个相关性排列;和
对于每一组相似的文档,调整该组中的文档的相关性排列以使除最高相关性排列之外的相关性排列低于相关的在该组中的一篇文档的最高相关性排列。
2.如权利要求1所述的方法,其中,用于该组中的文档的相关性排列的调整包括:减少该组中的每一篇文档的相关性排列,除了在该组中具有最高相关性排列的文档的相关性排列。
3.如权利要求2所述的方法,其中与具有最高相关性排列的文档更相似的一篇文档,它的相关性排列由多于一篇的与具有最高相关性排列的文档不太相似的文档来减少。
4.如权利要求1所述的方法,其中用于该组中的文档的相关性排列的调整包括:从该组中移走该具有最高相关性排列的文档,并减少该组中剩余的文档的相关性排列,其中文档的移走顺序代表了该搜索结果的文档的排列。
5.如权利要求1所述的方法,包括用于每一篇文档的,基于该已调整的相关性排列和一个基于搜索的相关性来计算文档的一个相关性。
6.一种在计算机系统中用来排序一个搜索结果的文档以增加高排序文档的主题的多样性的方法,该方法包括:
识别搜索结果的相似的文档的组;
从已识别的每一组中选择一篇文档;和
将已选择的文档排列在搜索结果的其它文档之上。
7.如权利要求6所述的方法,其中每一篇文档有一个初始化排列,且该排列包括排列已选择的文档高于另一篇具有更高的初始化排列的文档。
8.如权利要求6所述的方法,其中每一篇文档有一个初始化排列,且来自每个已识别的组中的该选择的文档是具有最高初始化排列的文档。
9.如权利要求6所述的方法,包括基于它们与该组的已选择的文档的相似性再排列该组中没有被选择的文档。
10.如权利要求9所述的方法,其中该再排列给予与该组中的已选择的文档最相似的该组中的还没有选择的文档最大的在该组文档的排列中的减少。
11.如权利要求10所述的方法,其中该组中还没有被选择的文档根据它们的再排列而被排列。
12.如权利要求10所述的方法,包括在再排列之后从已被识别的组中的每一组中选择一篇文档,且将那些文档排列在还没有被选择的其他文档之上。
13.如权利要求9所述的方法,其中该再排列应用一个相似性惩罚。
14.如权利要求6所述的方法,其中从每一组中选择出的文档具有在该组中的文档的最高信息丰富度。
15.如权利要求6所述的方法,其中该组是利用一个相关性曲线图来识别的。
16.一种在计算机系统中用于计算一个文档的集合中的一篇文档的信息丰富度的方法,该方法包括:
识别在集合中的每一篇文档与该文档的相关性;和
基于在该集合中其他的文档与该文档的相关性决定该文档的信息丰富度。
17.如权利要求16所述的方法,其中每一篇文档的相关性的识别包括产生一个相关性曲线图。
18.如权利要求16所述的方法,其中相关性是衡量一篇文档中的信息内容被包含在另一篇文档中的程度。
19.如权利要求16所述的方法,其中相关性被定义为:
aff ( d i , d j ) = d → i · d → j | | d → i | | .
20.如权利要求16所述的方法,其中信息丰富度是衡量一篇文档中的信息内容包含其它文档的信息内容的程度。
21.如权利要求16所述的方法,其中的信息丰富度被定义为:
Figure A2005100896470003C2
22.一种包含使一个计算机系统通过一个方法排列文档的指令的计算机可读介质,包括:
对于每一篇文档,基于文档的信息丰富度初始化一个相关性排列;和
当一篇文档具有一个高相关性排列时,减少与其相关的文档的相关似性排列,
其中该相关性排列代表该文档的排列。
23.如权利要求22所述的计算机可读介质,其中一篇文档的信息丰富度是基于每一对文档的相关性而被计算的。
24.如权利要求23所述的计算机可读介质,其中信息丰富度被定义为:
Figure A2005100896470004C1
25.如权利要求23所述的计算机可读介质,其中,该相关性被定义为:
aff ( d i , d j ) = d → i · d → j | | d → i | | .
26.如权利要求22所述的计算机可读介质,其中与具有高相关性排列的该文档更相似的一篇相关文档,它的相关性排列由多于一篇的与具有最高相关性排列的文档不太相似的文档来减少。
27.如权利要求22所述的计算机可读介质,包括为每一篇文档,基于该文档的相关性排列和用于该文档的基于搜索的相关性计算用于该文档的一个相关性。
28.一种用于计算存在于一个文档的集合中的一篇文档的信息丰富度的计算机系统,包括:
识别每一篇在集合中的文档与该文档的相关性的部件;和
基于在该集合中的其他的文档与该文档的相关性确定该文档的信息丰富度的部件。
29.如权利要求28所述的系统,其中该用于识别的部件产生一个相关性曲线图。
30.如权利要求28所述的系统,其中相关性是衡量一篇文档中的信息内容被包含在另一篇文档中的程度。
31.如权利要求28所述的系统,其中信息丰富度是衡量一篇文档中的信息内容包含其它文档的信息内容的程度。
CNB2005100896477A 2004-04-30 2005-04-30 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统 Expired - Fee Related CN100573513C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/837,540 2004-04-30
US10/837,540 US7664735B2 (en) 2004-04-30 2004-04-30 Method and system for ranking documents of a search result to improve diversity and information richness

Publications (2)

Publication Number Publication Date
CN1758244A true CN1758244A (zh) 2006-04-12
CN100573513C CN100573513C (zh) 2009-12-23

Family

ID=34939598

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100896477A Expired - Fee Related CN100573513C (zh) 2004-04-30 2005-04-30 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统

Country Status (10)

Country Link
US (1) US7664735B2 (zh)
EP (1) EP1591923A1 (zh)
JP (1) JP4845420B2 (zh)
KR (1) KR101130535B1 (zh)
CN (1) CN100573513C (zh)
AU (1) AU2005201824A1 (zh)
BR (1) BRPI0502189A (zh)
CA (1) CA2505904C (zh)
MX (1) MXPA05004681A (zh)
RU (1) RU2383922C2 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650746B (zh) * 2009-09-27 2011-06-29 中国电信股份有限公司 一种对排序结果进行验证的方法和系统
CN101625680B (zh) * 2008-07-09 2012-08-29 东北大学 面向专利领域的文档检索方法
CN101313302B (zh) * 2005-09-28 2014-11-12 谷歌公司 从提醒搜索词来生成热门主题
CN105955990A (zh) * 2016-04-15 2016-09-21 北京理工大学 一种兼顾多样性和有效性的评论排序和筛选方法
CN103678482B (zh) * 2006-12-19 2018-02-16 飞扬管理有限公司 用于在搜索结果中包括集合项目的技术
CN107851108A (zh) * 2015-06-23 2018-03-27 微软技术许可有限责任公司 使用位向量搜索索引的匹配文档
CN110516062A (zh) * 2019-08-26 2019-11-29 腾讯科技(深圳)有限公司 一种文档的搜索处理方法及装置
US11030201B2 (en) 2015-06-23 2021-06-08 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7809548B2 (en) * 2004-06-14 2010-10-05 University Of North Texas Graph-based ranking algorithms for text processing
US20070094242A1 (en) * 2005-10-26 2007-04-26 John Dove System and method for returning search results
US20070112867A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for rank-based response set clustering
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering
US7827208B2 (en) * 2006-08-11 2010-11-02 Facebook, Inc. Generating a feed of stories personalized for members of a social network
US8171128B2 (en) 2006-08-11 2012-05-01 Facebook, Inc. Communicating a newsfeed of media content based on a member's interactions in a social network environment
US7644074B2 (en) * 2005-12-22 2010-01-05 Microsoft Corporation Search by document type and relevance
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US7818315B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Re-ranking search results based on query log
US20080005137A1 (en) * 2006-06-29 2008-01-03 Microsoft Corporation Incrementally building aspect models
US9779441B1 (en) 2006-08-04 2017-10-03 Facebook, Inc. Method for relevancy ranking of products in online shopping
US8301621B2 (en) 2006-11-07 2012-10-30 At&T Intellectual Property I, L.P. Topic map for navigational control
US8156112B2 (en) 2006-11-07 2012-04-10 At&T Intellectual Property I, L.P. Determining sort order by distance
US20080109435A1 (en) * 2006-11-07 2008-05-08 Bellsouth Intellectual Property Corporation Determining Sort Order by Traffic Volume
US20080114750A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity
US20080154878A1 (en) * 2006-12-20 2008-06-26 Rose Daniel E Diversifying a set of items
US20080215571A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Product review search
US8117137B2 (en) 2007-04-19 2012-02-14 Microsoft Corporation Field-programmable gate array based accelerator system
US8005643B2 (en) * 2007-06-26 2011-08-23 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8543380B2 (en) * 2007-10-05 2013-09-24 Fujitsu Limited Determining a document specificity
US20090094209A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Determining The Depths Of Words And Documents
WO2009059481A1 (en) * 2007-11-08 2009-05-14 Shanghai Hewlett-Packard Co., Ltd Navigational ranking for focused crawling
US8321406B2 (en) * 2008-03-31 2012-11-27 Google Inc. Media object query submission and response
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
US20090287668A1 (en) * 2008-05-16 2009-11-19 Justsystems Evans Research, Inc. Methods and apparatus for interactive document clustering
JP5146108B2 (ja) * 2008-05-27 2013-02-20 日本電気株式会社 文書重要度算出システム、文書重要度算出方法およびプログラム
US8131659B2 (en) * 2008-09-25 2012-03-06 Microsoft Corporation Field-programmable gate array based accelerator system
US8301638B2 (en) * 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
US9135396B1 (en) * 2008-12-22 2015-09-15 Amazon Technologies, Inc. Method and system for determining sets of variant items
US8458171B2 (en) * 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
US8533202B2 (en) * 2009-07-07 2013-09-10 Yahoo! Inc. Entropy-based mixing and personalization
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
US8849807B2 (en) 2010-05-25 2014-09-30 Mark F. McLellan Active search results page ranking technology
US9240020B2 (en) 2010-08-24 2016-01-19 Yahoo! Inc. Method of recommending content via social signals
EP2568396A1 (en) * 2011-09-08 2013-03-13 Axel Springer Digital TV Guide GmbH Method and apparatus for generating a sorted list of items
US8838583B1 (en) 2011-10-05 2014-09-16 Amazon Technologies, Inc Diversity within search results
US9075498B1 (en) 2011-12-22 2015-07-07 Symantec Corporation User interface for finding similar documents
US9501566B1 (en) 2012-01-17 2016-11-22 Veritas Technologies Llc User interface for transparent concept search
JP6149434B2 (ja) * 2012-04-10 2017-06-21 株式会社リコー 情報処理装置、文書管理サーバ、プログラム、ファイルシステム
US20140075282A1 (en) * 2012-06-26 2014-03-13 Rediff.Com India Limited Method and apparatus for composing a representative description for a cluster of digital documents
US9400789B2 (en) * 2012-07-20 2016-07-26 Google Inc. Associating resources with entities
US9536001B2 (en) * 2012-11-13 2017-01-03 Microsoft Technology Licensing, Llc Intent-based presentation of search results
US9129020B2 (en) 2012-12-21 2015-09-08 Microsoft Technology Licensing, Llc Search results through interest circles
CN103927545B (zh) * 2014-03-14 2017-10-17 小米科技有限责任公司 聚类方法及相关装置
US9355227B2 (en) 2014-06-30 2016-05-31 Konica Minolta Laboratory U.S.A., Inc. Dynamic document display personalization implemented in a digital rights management system
US9992262B2 (en) * 2014-07-29 2018-06-05 Konica Minolta Laboratory U.S.A., Inc. Personalized document content aggregation and document association implemented in a digital rights management system
US9858251B2 (en) 2014-08-14 2018-01-02 Rakuten Kobo Inc. Automatically generating customized annotation document from query search results and user interface thereof
KR102243286B1 (ko) * 2014-09-18 2021-04-22 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
CN104881798A (zh) * 2015-06-05 2015-09-02 北京京东尚科信息技术有限公司 基于商品图像特征的个性化搜索装置及方法
US10685029B2 (en) 2015-11-23 2020-06-16 Google Llc Information ranking based on properties of a computing device
GB2545931A (en) * 2015-12-31 2017-07-05 Francis Murphy Dominic Defining edges and their weights between nodes in a network
RU2630427C2 (ru) * 2016-08-12 2017-09-07 Дмитрий Владимирович Мительков Способ и система семантической обработки текстовых документов
US10733359B2 (en) * 2016-08-26 2020-08-04 Adobe Inc. Expanding input content utilizing previously-generated content
GB2570447A (en) * 2018-01-23 2019-07-31 Canon Kk Method and system for improving construction of regions of interest
US11699094B2 (en) * 2018-10-31 2023-07-11 Salesforce, Inc. Automatic feature selection and model generation for linear models
US11328238B2 (en) * 2019-04-01 2022-05-10 Microsoft Technology Licensing, Llc Preemptively surfacing relevant content within email

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US6601075B1 (en) * 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US20020194161A1 (en) * 2001-04-12 2002-12-19 Mcnamee J. Paul Directed web crawler with machine learning
CA2496567A1 (en) 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
JP4356347B2 (ja) * 2003-04-16 2009-11-04 セイコーエプソン株式会社 文書抽出システム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101313302B (zh) * 2005-09-28 2014-11-12 谷歌公司 从提醒搜索词来生成热门主题
CN103678482B (zh) * 2006-12-19 2018-02-16 飞扬管理有限公司 用于在搜索结果中包括集合项目的技术
CN101625680B (zh) * 2008-07-09 2012-08-29 东北大学 面向专利领域的文档检索方法
CN101650746B (zh) * 2009-09-27 2011-06-29 中国电信股份有限公司 一种对排序结果进行验证的方法和系统
CN107851108A (zh) * 2015-06-23 2018-03-27 微软技术许可有限责任公司 使用位向量搜索索引的匹配文档
CN107851108B (zh) * 2015-06-23 2021-06-04 微软技术许可有限责任公司 使用位向量搜索索引的匹配文档
US11030201B2 (en) 2015-06-23 2021-06-08 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
CN105955990A (zh) * 2016-04-15 2016-09-21 北京理工大学 一种兼顾多样性和有效性的评论排序和筛选方法
CN110516062A (zh) * 2019-08-26 2019-11-29 腾讯科技(深圳)有限公司 一种文档的搜索处理方法及装置
CN110516062B (zh) * 2019-08-26 2022-11-04 腾讯科技(深圳)有限公司 一种文档的搜索处理方法及装置

Also Published As

Publication number Publication date
US7664735B2 (en) 2010-02-16
EP1591923A1 (en) 2005-11-02
CN100573513C (zh) 2009-12-23
RU2005113189A (ru) 2006-11-10
CA2505904A1 (en) 2005-10-30
AU2005201824A1 (en) 2005-11-17
JP2005322244A (ja) 2005-11-17
BRPI0502189A (pt) 2006-01-10
JP4845420B2 (ja) 2011-12-28
KR20060047664A (ko) 2006-05-18
MXPA05004681A (es) 2006-03-08
US20050246328A1 (en) 2005-11-03
CA2505904C (en) 2013-09-03
RU2383922C2 (ru) 2010-03-10
KR101130535B1 (ko) 2012-04-12

Similar Documents

Publication Publication Date Title
CN1758244A (zh) 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统
Haveliwala et al. Evaluating strategies for similarity search on the web
Eirinaki et al. Web path recommendations based on page ranking and markov models
US7577650B2 (en) Method and system for ranking objects of different object types
Raghavan et al. Representing web graphs
Li et al. Retrieving and organizing web pages by “information unit”
US7584221B2 (en) Field weighting in text searching
US7636714B1 (en) Determining query term synonyms within query context
Kolda et al. Higher-order web link analysis using multilinear algebra
US7779001B2 (en) Web page ranking with hierarchical considerations
US6560600B1 (en) Method and apparatus for ranking Web page search results
US7739270B2 (en) Entity-specific tuned searching
US7797344B2 (en) Method for assigning relative quality scores to a collection of linked documents
US20070150473A1 (en) Search By Document Type And Relevance
US20080033932A1 (en) Concept-aware ranking of electronic documents within a computer network
CN1996316A (zh) 基于网页相关性的搜索引擎搜索方法
CN100435145C (zh) 一种基于句子关系图的多文档摘要方法
Li et al. Query relaxation by structure and semantics for retrieval of logical web documents
Chen et al. A unified framework for web link analysis
Broder et al. Exploiting site-level information to improve web search
Kushwaha et al. A Comparative study of Algorithms in SEO & approach for Optimizing the search engine results using Hybrid of Query Recommendation and Document clustering, Genetic algorithm
Lei et al. Improved relevance ranking in WebGather
Liu et al. Data cleansing for web information retrieval using query independent features
Chen et al. FEATURES: Real‐time adaptive feature and document learning for web search
Pawar et al. Effective utilization of page ranking and HITS in significant information retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091223

Termination date: 20140430