CN1677393A

CN1677393A - 用于副本的检测和抑制的方法

Info

Publication number: CN1677393A
Application number: CNA2005100561878A
Authority: CN
Inventors: M·S·马纳塞
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-03-22
Filing date: 2005-03-22
Publication date: 2005-10-05
Anticipated expiration: 2025-03-22
Also published as: EP1585073A1; KR101153033B1; US20050210043A1; ATE432515T1; EP1585073B1; KR20060044563A; US7603370B2; CN100447782C; JP2005276205A; DE602005014582D1

Abstract

本发明提供一种方法，它通过对现有方法的这样一种更改：降低对每个对象存储器的要求而避免错误的检测却与现有方法几乎一样好，来在对象集合中检测相似对象。该更改包括(i)把特征的k个样本组合成s个超样本，k值从现有方法中使用的相应值减少而来；(ii)以b比特精确度记录每个超样本，b值从现有方法中使用的相应值减少而来；以及(iii)需要1个匹配超样本以便作出两个对象足够相似的结论，1值比现有方法中所需相应值大。本发明的一个应用与网络搜索引擎查询服务相关联以确定是相近副本文档的查询结果聚类。

Description

用于副本的检测和抑制的方法

技术领域

本发明涉及在大型集合中标识类似数据对象，尤其涉及在诸如万维网的极大文档全集中标识相近副本。

背景技术

大型文档集合通常包括许多彼此相同或者几乎相同的文档。确定两个数字编码的文档是否逐比特地都相同是容易的(例如使用散列技术)。然而，快速标识几乎或有效相同的文档则更具挑战性，并且在许多环境中是更为有用的任务。万维网是一个极大的文档集合。自诞生以来Web呈级数增长，目前Web索引约包括约50亿网页(据估计静态网页达200亿网页)，其中很大一部分是副本或相近副本。诸如网络爬虫和搜索引擎的应用程序受益于检测相近副本的能力。例如，需要使这种应用程序忽略大部分的副本和相近副本，或者过滤查询结果从而把相似的文档组合在一起。

已经开发了“shingling”(搭迭法)或“shingleprinting”(搭迭拓印法)技术以解决在大型集合中找出相似对象的问题。这种技术的各个方面在以下专利文献中描述：Broder等人在1996年6月18日提交的专利号为5,909,677的美国专利“用于确定文档相似性的方法”(“Method for Determining the Resemblance ofDocuments”)；Broder在1997年9月15日提交的专利号为5,974,481的美国专利“用于估算指纹冲突概率的方法”(“Method for Estimating the Probability of Collisions ofFingerprints”)；Broder等人在1997年12月19日提交的专利号为6,269,362的美国专利“用于通过比较生成摘要来监视网页的系统和方法”(“System and Method forMonitoring Web Pages by Comparing Generated Abstracts”)，其中本申请的发明人是共同发明人；Broder等人在1998年3月26日提交的专利号为6,119,124的美国专利“用于聚类较为相像数据对象的方法”(“Method for Clustering Closely ResemblingData Objects”)，其中本申请的发明人是共同发明人；Broder等人在2000年8月21日提交的专利号为6,349,296的美国专利“用于聚类较为相像数据对象的方法”(“Method for Clustering Closely Resembling Data Otjects”)，其中本申请的发明人是共同发明人；以及Manasse等人在2001年9月21日提交2003年3月27日发表的专利申请号为09/960,583的美国专利申请“用于在生物统计数据库中确定相似身份的系统和方法”(“System and Method for Determining Likely Identity in a BiometricDatabase”)，其中本申请的发明人是共同发明人。还可参见Broder在1997 Proc.Compression&Complexity of Sequences 21-29(IEEE 1998)中的文章“关于文档的相似性和包容性”(“On the Resemblance and Containment of Documents”)；Broder、Glassman、Manasse、和Zweig，在Proc.6th Intl.World Wide Web Conf.391-404(1997年7月)中的“Web的综合聚类”(“Syntactic Clustering of the Web，”)；Manasse的“在大集合中快速找到相似物”(“Finding Similar Things Quickly in LargeCollections”)<http：//research.microsoft.com/research/sv/PageTumer/similarity.htm>(2004)。这些专利和非专利文献的每一篇都在此引入作为参考。

在“搭迭”方法中，文档被缩减为足以代表文档的特征集从而两个极相似的文档将共享大量特征。对于文本内容文档，已证明把重叠的连续w个字的分段(其“w个沙砾”)集合提取为特征是有用的，其中w是固定的数字。设D₁和D₂为文档，且F₁和F₂为其相应的特征集，我们定义D₁和D₂的相似度为特征集的Jaccard系数(即，两个文档中共同特征的数量除以两个文档中特征的总数量)：

Sim (D_{1}, D_{2}) = \frac{| F_{1} \cap F_{2} |}{{| F}_{1} \cup F_{2} |}

这给出了0与1之间的数字；两个基本上相等的文档的相似度将是接近于1的数字，而大多数不相似文档对的相似度则是接近于零的数字。应当注意，用于在大型集合中检测有效相同条目的搭迭法技术不受文本全集的限制。可把搭迭法应用到任何类型的诸如录音或视频图像等的数据对象集合中，对于它们提取一个代表特征集是可能的。

从每个文档中提取的特征数量可能相当多(像文档中的字数一样多)。如果假设文档集本身很大(可能象Web情形中达数十亿)，精确计算相似度值并执行成对比较是该集合大小的平方，那就过于昂贵。因此将把相似度加以近似以便把问题减少到可管理大小。

近似涉及以保留文档相似性的方式来采样每个文档的特征集。从原理而言，可使用从特征空间到比所有特征集更大的良好排序的集合的随机一一对应函数。根据良好排序性，在随机函数下有特征集映像的最小元素。最小元素的预先映像被取作选定的样本特征。因为所有函数的概率是相等的，这是可行的。任何集的元素都同样可能被映射成最小元素，而且当从这两个集中选择时，最小元素均匀地在并集中选取。

必须改动前述方案以便它可在实践中实现。首先，为了统一地进行选取，使映像集成为有限的整数集是方便的。如果特征集是无界的，就难以得到对有限集的一一对应函数。使用优选的散列函数(最好是Rabin指纹)以使每个特征形成固定比特数的散列，可选择足够大的集合从而该集合中的冲突概率小到难以察觉。其次，不选择真正的随机函数，而是从较小的、易参数化的函数集中选择该函数，其中选定函数被证明能足够接近正确概率。通常，使用线性同余置换以及Rabin指纹的组合，即使它并未证明是正确的。

该技术提供了用于从每个特征组F_i中选择一个特征f_i的机制，从而Prob(f_i＝f_j)＝Sim(D_i，D_j)。该选择机制提供了相似性的无偏点估计量。选择了某些数量的选择器r。对于每个文档D_i，使用D_i上每个选择器一次来计算f_i ^l，...，f_i ^r。以某些预处理为代价，这使每个条目的数据存储降为一常数，并使集的比较降为与向量中的条目相匹配。

通过运行多个独立的选择机制，两个文档相似性比率的估算可通过对选择向量中的匹配进行计数来获取。如果p＝Sim(D，E)则D和E向量中的每个条目以概率p相匹配。在一行中匹配k个条目的概率为p^k。通过对k个条目的非交叠游长进行散列以形成从足够大空间中选取的单个整数可以压缩向量，其中在散列值中冲突的概率可忽略而存储需要按系数k来减少。如果有s个长度为k的组(“超样本”)，则有一个或多个超样本相匹配的概率为1-(1-p^k)^s，而有两个或多个超样本相匹配的概率为1-(1-p^k)^s-s(1-p^k)^s-1。

在有关Alta Vista搜索引擎的现有技术中，提取每个文档文本的归一化版本的“6搭迭”(6-shingling)为特征集。特征被表示为64比特的整数。把使用线性同余置换的计数应用到每个64比特的整数中，产生一个新的64比特整数集，并选择该新集中最小值的预映像为样本。取84个样本，分成6个超样本(其中每个由14个样本组成)。因而，对于参数k和s，使用的值为k＝14和s＝6。之所以选择这些参数是因为相近副本文档的期望相似度阈值为.95。两个文档之间14个样本匹配的概率等于文档相似度的14次方，从而如果文档为相近副本，其概率为.9514，即约为1/2。有了6组14个样本，6组中至少2组匹配是可能的，6组中少于2组匹配是不可能的。因而，为了确定文档可能是相近副本，要求6个超样本中的2个必须匹配。根据期望阈值，在标识相近副本条目中现有技术在实践中是有效的。

在现有技术中发现匹配过程可被简化为对每个条目的少量散列表查找。组中k个样本被压缩成64比特的整数。如下所述，每个超样本以64比特的精确度进行记录以避免非相似文档的意外巧合。然后把s个64比特整数的所有可能对插入散列表。如果例如s＝6，找出匹配至少两次运行的条目只需要

(\begin{matrix} s \\ 2 \end{matrix}) = 15

查找，所以使用15个散列表。

现有技术集中在离线过程的使用上，因此节约主存储器不是关注重点。例如在前面段落中描述的散列优化很适于离线处理。然而，该技术对每个文档都存储的要求对于所有文档都在运行时执行的搜索引擎而言是不可接受的。在50亿文档的集合中，存储6个值就需要240兆比特的存储器覆盖区以及存储散列表的另外520兆比特。这在搜索执行中是不实用的，并限制了索引的构建。例如，搜索引擎可不在全文档集合中执行预处理过程，并可递增地建立其索引。搜索引擎希望的是在在线过程中确定要报告的哪些查询结果是相近副本，从而使报告缩减为每个相近副本聚类一个文档，其中使用排序函数来选择该文档，并且使反应最迅速的文档能被动态选择。

发明内容

根据某些实施例，本发明提供用于在这种对象集合中检测相似对象的方法。该方法包括对现有方法的这样一种更改：降低了对每个对象存储器的要求而避免错误的检测却与现有方法几乎一样好。该更改包括(i)把特征的k个样本合并成s个超样本，k值从现有方法中使用的相应值减小；(ii)以b比特精确度记录每个超样本，b值从现有方法中使用的相应值减小；以及(iii)需要1个匹配超样本以便作出两个对象足够相似的结论，1值比现有方法中所需相应值大。现有方法中的1值可以是例如s、s-1、或者s-2。

根据一实施例，k＝4，从现有方法的k＝14减小而来。根据一实施例，b＝16，从现有方法的b＝64减小而来，且6个超样本中的4个需要匹配，从现有方法6个中的2个增大而来。在另一实施例中，7个超样本中的5个需要匹配，替换现有方法6个中的2个。在又一实施例中，所有超样本以及因而所有样本都需要匹配。

在本发明的某些实施例中，此方法结合网络搜索引擎查询服务使用，以确定相近副本文档的查询结果聚类。一旦使用该方法找到了这些聚类，例如根据排序排序函数从每个聚类中选择一个文档，并向查询提交者报告这个文档(以及相似文档的指针)而不是这个聚类。

可以预期，通过软件在计算机上的执行本发明可整个或部分地实现。

参阅附图阅读以下说明书，本发明的其它特征将变得显然。

附图说明

图1是显示使用搭迭拓印法根据对若干不同参数，包括在本发明诸实施例中可用参数的选择来接受文档的概率的图表；

图2是错误接受率的图表(基于对图1所绘的值取对数)；

图3是显示在本发明实施例中由web搜索引擎查询服务所执行的步骤的流程图；

图4显示根据本发明实施例用于确定文档是否是相近副本的方法的示例性步骤。

具体实施方式

在以下说明书中，将描述本发明的某些实施例。为了进行解释，陈述特定的配置和细节以便提供对诸实施例的理解。然而，对本领域技术人员显而易见的是，没有这些特定细节也可实践本发明。此外，作为本发明固有部分并对本领域技术人员是基础的众所周知的特征，一般被略去或简化以便不混肴所描述的实施例。

本发明提供了一种标识大集合中相近副本条目的技术，该技术与现有技术方法相似但降低了每个文档的存储器要求。这使该技术在这些情景中能够实践并有用：不想或不能用离线处理、或者存在特定的存储器限制，如背景技术章节最后所描述的搜索引擎示例。

图1是显示当以不同参数值应用搭迭拓印法时接受文档101的概率的图表，其中可能相似度103显示在x轴上。图例105中的标记指示可用的超样本总数量中需要匹配的超样本数量。Lk标记指示每个超样本组合k个样本。最右边的曲线107(标为“6个中的2个，L14”)绘出了应用在现有技术中参数的结果，如上在背景技术章节中所述。该曲线较为接近地近似了阶跃函数，示出了现有方法在标识95％相似度的相近副本的可能性的优点。

如上在背景技术章节所述，在web搜索引擎查询结果中关于相近副本的现有技术中，需要其中2个匹配的6个超文本中的每一个，长度为64比特。对于组合所需的匹配需要128比特的精确度，以便确保防止由生日悖论引起的错误冲突，而根据生日悖论，在n个条目的集合中可能发生的冲突在

个条目之后。如果仅有64比特精确度，在检查了2³²对条目的相似性之后，过程将易受生日悖论的影响。对于一个象整个Web(如上所述数十亿的文档)一样大的文档集合中，实际上错误冲突将是必然的。因此，有了64比特的超样本，6个中的2个匹配是必须的，且所有6个超样本的存储也是必须的。对于50亿个文档，显然这种存储要求在许多web搜索相关应用程序中是巨大并不实用的。

本发明体现了一种洞察力，即现有技术中鉴别的积累幂数以存储要求的大幅缩减来充分近似。将更少的样本组合为每个超样本，并需要超样本集中更大量的匹配。在某些实施例中，仅有一个或两个超样本需要匹配。在另一实施例中，所有超样本因而所有样本都需要匹配。在比特精确度上每个超样本都缩减，然而仍然避免生日悖论冲突。除了提供用于大集合的新的特定技术以外，本发明提供一种更改现有特定技术的方法，用于在特定的大集合中检测相似性以便获取存储器使用的节约。

在一实施例中，用于确定文档相近副本的技术结合处理用户查询结果的web搜索引擎查询服务使用，使得每个相近副本集中仅有一个向用户报告。图3显示用于这种查询服务的示例性过程。在步骤301处理该查询并产生结果集。在步骤303应用用于确定是相近副本的结果聚类的方法。在步骤305，对于每个相近副本的聚类，应用排序排序函数以确定经估算结果。在步骤307，向用户报告经过滤的查询结果。

在此实施例中，6个超样本中的4个需要匹配而不是现有技术中6个中的2个。每个超样本长度仅有16比特。16比特是足够的，因为有了4个必须的匹配，其中每一个超样本的比特数都为避免错误冲突的概率作贡献。此外，在此实施例中，通常不搜索整个web；在特定时间仅有一查询的结果处于竞争中，更可能涉及的是数万或数十万、而不是数十亿的众多文档。因此，为了避免生日悖论的影响应该不需要128比特(除非搜索引擎用户请求一空查询)；64比特可能就足够了。每个超样本组合压缩为16比特数字的4个样本，而不是压缩成64比特数字的14个样本，因为6个中(每个概率为1/2)4个匹配的概率相对较小。比特精确度的减小使存储器要求以约为4倍降低。进一步的降低是可能的，因为存储器上散列表为查询的返回文档集而构建，所以对于文档全集仅需要6个值而不是15个。

图4显示了根据以上所述本发明实施例用于确定文档是否是相近副本的方法的代表性步骤。在步骤401，文档或其它对象被缩减为一特征集。对于诸如Web上可搜索文档的基于文本文档，可使用搭迭法。在步骤403，把文档按词汇分解成一个语言符号序列，其中忽略类似标点符号和大小写的特征。在步骤405，确定连续的固定字大小的分段集。

在步骤407，把特征转换成64比特的整数。在步骤409，把伪随机函数应用到经转换的特征集中，而在步骤411，通过取映像集最小元素的预映像选择样本。执行步骤409和411 k＝4次。在步骤413，使结果选择向量形成以16比特精确度记录的超样本散列。重复该子过程从而产生6个超样本。在步骤415，构建用于匹配的6个存储器中表格。如果6个超样本的4个匹配(步骤417)，确定比较中的文档为相近副本(步骤419)，否则不是相近副本(步骤421)。步骤415和417的有效实现更适合用存储4个超样本组合的15个散列表完成。

请求s中1个匹配的假阳性率是其中每个超样本的比特长度为b。在2³³个文档的集合中假阳性的期望数量是：

2^{66 - bl} (\begin{matrix} s \\ l \end{matrix})

对于1＝4，s＝6和b＝16，这导致整个集合中60个文档聚类被错误标识为副本；这仅在一次查询的结果集中有两个这样的聚类时才能看到。假设没有一次查询返回210以上的聚类，则在遇到一次错误冲突前可望处理约一万亿次查询。如果搜索引擎所支持的查询率假定约每年2³⁵次，则将发生的错误冲突将是每个世纪2到3次，假设查询服务一直全速运行并假设所有查询都有最大的结果集。

再看图1，曲线109(示为“6个中的4个，L4 16比特”)对应于上述实施例。“16比特”标识每个超样本以16比特精确度记录。可以看到曲线109不象曲线107那样陡峭。对曲线107的一稍好近似由曲线111获得(示为“7个中的5个，L4”)(标识7个中的5个匹配超样本，每个超样本组合4个样本)。在前面段落中所述的搜索引擎的可选实施例使用该7个中的5个方案。尽管未在图中画出，6个中的4个，L5也是一种好的近似。

参看图2，所示的是错误接受率201的图表。基于取图1中所绘值的对数，所绘曲线在此反映了嵌入每个样本中的底层组合学和精确度。该图表一般显示当相似度下降，把一文档对错误标识为相近副本的可能性变得较小。“6个中的4个，L4 16比特”的曲线203的左端在10^-18变平(锤线205)，表示与16比特精确度相关联的对样本的限制。然而，对于上述实施例，具有可忽略的错误冲突概率是令人满意的。

其它变化在本发明的精神内。然而，尽管本发明可接受各种各样的变化和可选构建，其中某说明性实施例在附图中示出并已在说明进行了描述。然而，可以理解并非旨在把本发明限制在所揭示的特定形式中，相反，旨在包括如在所附权利要求书中定义的本发明精神和范围内的所有变化、可选构建和等效实施方案。

本发明的优选实施例在此进行描述，包括发明者所知用于实践本发明的最佳模式。对于本领域技术人员而言，在阅读了前面的说明书之后，那些优选实施例的变化变得显然。发明者期望本领域技术人员能适当地采用这些变化，且发明者希望本发明能以不同于在此特别描述的其它方式来实践。因此，本发明包括适用于法律所允许的在所附权利要求书中引用的本发明的所有变化和等效方案。此外，本发明包含以上所述所有可能变化的元素的任何组合，除非以其它方式指明或明显与上下文相矛盾。

Claims

1.一种用于在等效集合中检测相似对象的方法，其特征在于，包括，对于两个对象中的每一个：

更改现有的用于检测相似对象的方法，使对存储器的需要减少并和所述现有方法几乎一样好地避免错误检测，其中所述更改包括：

把一些特征样本组合成所有超样本中的每一个，其中所述样本的数量从所述现有方法使用的数量中减少而来；

以一定比特精确度记录所述所有超样本的每一个，其中所述精确度比特数从所述现有方法中使用的精确度比特数中减少而来；以及

需要总的超样本数量中的一些超样本数量匹配以便得出结论所述两个对象足够相似，其中所述匹配超样本的数量比所述现有方法中所需的匹配超样本数量更多。

2.如权利要求1所述的方法，其特征在于，需要所述匹配超样本的数量包括只需要所述超样本总数量中的一个匹配。

3.如权利要求1所述的方法，其特征在于，需要所述匹配超样本的数量包括只需要所述超样本总数量中的两个匹配。

4.如权利要求1所述的方法，其特征在于，需要所述匹配超样本的数量包括需要所述所有超样本都匹配。

5.如权利要求1所述的方法，其特征在于，把所述特征样本数量组合成超样本总数量中的每一个包括把4个样本组合成所述超样本总数量中的每一个，其中在所述现有方法中使用的样本数量为14。

6.如权利要求5所述的方法，其特征在于：

以所述第一比特数精确度记录每个超样本包括以16比特精确度记录每个超样本，其中在所述现有方法中使用的第二比特精确度为64；以及

需要所述匹配超样本的数量包括需要6个超样本中的4个匹配，其中在所述现有方法中所需的所述匹配超样本数量是6个超样本中的2个。

7.如权利要求5所述的方法，其特征在于，需要所述匹配超样本的数量包括需要7个超样本中的5个匹配，其中在所述现有方法中所需的所述匹配超样本数量是6个超样本中的2个。

8.如权利要求1所述的方法，其特征在于，所述对象是文档，且所述方法结合搜索引擎查询服务使用以确定是相近副本文档的查询结果聚类。

9.如权利要求8所述的方法，其特征在于，还包括在每个聚类中选择一单个文档报告。

10.如权利要求9所述的方法，其特征在于，选择所述一个文档是通过排序函数。

11.一种用于确定搜索引擎查询结果中相近副本条目的分组的方法，其特征在于，包括，对于进行比较的两个条目中的每一个：

把4个特征样本组合成6个超样本之一；

以16比特精确度记录每个超样本；以及

需要所述6个超样本中的4个匹配。

12.如权利要求11所述的方法，其特征在于，还包括在每个聚类中选择一单个文档报告。

13.如权利要求12所述的方法，其特征在于，选择所述一单个文档是通过排序函数。

14.一种用于确定搜索引擎查询结果中相近副本条目的分组的方法，其特征在于，包括，对于进行比较的两个条目中的每一个：

把4个特征样本组合成7个超样本之一；

以16比特精确度记录每个超样本；以及

需要所述7个超样本中的5个匹配。

15.如权利要求14所述的方法，其特征在于，还包括在每个聚类中选择一个文档报告。

16.如权利要求15所述的方法，其特征在于，选择所述一单个文档是通过排序函数。

17.一种包含机器指令的计算机可读介质，所述指令实现一种当前用于在相似对象集合中检测相似对象的方法，其中所述当前方法包括更改现有的用于检测相似对象的方法，从而使对存储器的需要减少并和所述现有方法几乎一样好地避免错误检测，其中所述当前方法包括：

把一定数目的特征样本组合成超样本总数量中的每一个，其中所述样本的数量从所述现有方法使用的数量中减少而来；

以一定数目的比特精确度记录所述超样本总数量的每一个，其中所述精确度比特数从所述现有方法中使用的精确度比特数中减少而来；以及

需要所有超样本中的一些超样本匹配以便得出结论所述两个对象足够相似，其中所述匹配超样本的数量比所述现有方法中所需的匹配超样本数量更多。

18.如权利要求17所述的计算机可读介质，其特征在于，需要所述匹配超样本的数量包括只需要所述超样本总数量中的一个匹配。

19.如权利要求17所述的计算机可读介质，其特征在于，需要所述匹配超样本的数量包括只需要所述超样本总数量中的两个匹配。

20.如权利要求17所述的计算机可读介质，其特征在于，需要所述匹配超样本的数量包括需要所述所有超样本都匹配。

21.一种包含机器指令的计算机可读介质，所述指令实现一种用于确定搜索引擎查询结果中相近副本条目的分组的方法，其特征在于，包括，对于进行比较的两个条目中的每一个：

把4个特征样本组合成6个超样本之一；

以16比特精确度记录每个超样本；以及

需要所述6个超样本中的4个匹配。

22.一种包含机器指令的计算机可读介质，所述指令实现一种用于确定搜索引擎查询结果中相近副本条目的分组的方法，其特征在于，包括，对于进行比较的两个条目中的每一个：

把4个特征样本组合成7个超样本之一；

以16比特精确度记录每个超样本；以及

需要所述7个超样本中的5个匹配。