CN1677393A - 用于副本的检测和抑制的方法 - Google Patents

用于副本的检测和抑制的方法 Download PDF

Info

Publication number
CN1677393A
CN1677393A CNA2005100561878A CN200510056187A CN1677393A CN 1677393 A CN1677393 A CN 1677393A CN A2005100561878 A CNA2005100561878 A CN A2005100561878A CN 200510056187 A CN200510056187 A CN 200510056187A CN 1677393 A CN1677393 A CN 1677393A
Authority
CN
China
Prior art keywords
super
sample
samples
needs
coupling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100561878A
Other languages
English (en)
Other versions
CN100447782C (zh
Inventor
M·S·马纳塞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1677393A publication Critical patent/CN1677393A/zh
Application granted granted Critical
Publication of CN100447782C publication Critical patent/CN100447782C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/51Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers
    • A61F13/511Topsheet, i.e. the permeable cover or layer facing the skin
    • A61F13/51121Topsheet, i.e. the permeable cover or layer facing the skin characterised by the material
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/51Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers
    • A61F2013/51002Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers with special fibres
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/51Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers
    • A61F2013/51059Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers being sprayed with chemicals
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/51Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers
    • A61F2013/5109Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers with odour control
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/53Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the absorbing medium
    • A61F2013/530481Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the absorbing medium having superabsorbent materials, i.e. highly absorbent polymer gel materials
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Vascular Medicine (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Epidemiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Separation Using Semi-Permeable Membranes (AREA)
  • Steering-Linkage Mechanisms And Four-Wheel Steering (AREA)

Abstract

本发明提供一种方法,它通过对现有方法的这样一种更改:降低对每个对象存储器的要求而避免错误的检测却与现有方法几乎一样好,来在对象集合中检测相似对象。该更改包括(i)把特征的k个样本组合成s个超样本,k值从现有方法中使用的相应值减少而来;(ii)以b比特精确度记录每个超样本,b值从现有方法中使用的相应值减少而来;以及(iii)需要1个匹配超样本以便作出两个对象足够相似的结论,1值比现有方法中所需相应值大。本发明的一个应用与网络搜索引擎查询服务相关联以确定是相近副本文档的查询结果聚类。

Description

用于副本的检测和抑制的方法
技术领域
本发明涉及在大型集合中标识类似数据对象,尤其涉及在诸如万维网的极大文档全集中标识相近副本。
背景技术
大型文档集合通常包括许多彼此相同或者几乎相同的文档。确定两个数字编码的文档是否逐比特地都相同是容易的(例如使用散列技术)。然而,快速标识几乎或有效相同的文档则更具挑战性,并且在许多环境中是更为有用的任务。万维网是一个极大的文档集合。自诞生以来Web呈级数增长,目前Web索引约包括约50亿网页(据估计静态网页达200亿网页),其中很大一部分是副本或相近副本。诸如网络爬虫和搜索引擎的应用程序受益于检测相近副本的能力。例如,需要使这种应用程序忽略大部分的副本和相近副本,或者过滤查询结果从而把相似的文档组合在一起。
已经开发了“shingling”(搭迭法)或“shingleprinting”(搭迭拓印法)技术以解决在大型集合中找出相似对象的问题。这种技术的各个方面在以下专利文献中描述:Broder等人在1996年6月18日提交的专利号为5,909,677的美国专利“用于确定文档相似性的方法”(“Method for Determining the Resemblance ofDocuments”);Broder在1997年9月15日提交的专利号为5,974,481的美国专利“用于估算指纹冲突概率的方法”(“Method for Estimating the Probability of Collisions ofFingerprints”);Broder等人在1997年12月19日提交的专利号为6,269,362的美国专利“用于通过比较生成摘要来监视网页的系统和方法”(“System and Method forMonitoring Web Pages by Comparing Generated Abstracts”),其中本申请的发明人是共同发明人;Broder等人在1998年3月26日提交的专利号为6,119,124的美国专利“用于聚类较为相像数据对象的方法”(“Method for Clustering Closely ResemblingData Objects”),其中本申请的发明人是共同发明人;Broder等人在2000年8月21日提交的专利号为6,349,296的美国专利“用于聚类较为相像数据对象的方法”(“Method for Clustering Closely Resembling Data Otjects”),其中本申请的发明人是共同发明人;以及Manasse等人在2001年9月21日提交2003年3月27日发表的专利申请号为09/960,583的美国专利申请“用于在生物统计数据库中确定相似身份的系统和方法”(“System and Method for Determining Likely Identity in a BiometricDatabase”),其中本申请的发明人是共同发明人。还可参见Broder在1997 Proc.Compression&Complexity of Sequences 21-29(IEEE 1998)中的文章“关于文档的相似性和包容性”(“On the Resemblance and Containment of Documents”);Broder、Glassman、Manasse、和Zweig,在Proc.6th Intl.World Wide Web Conf.391-404(1997年7月)中的“Web的综合聚类”(“Syntactic Clustering of the Web,”);Manasse的“在大集合中快速找到相似物”(“Finding Similar Things Quickly in LargeCollections”)<http://research.microsoft.com/research/sv/PageTumer/similarity.htm>(2004)。这些专利和非专利文献的每一篇都在此引入作为参考。
在“搭迭”方法中,文档被缩减为足以代表文档的特征集从而两个极相似的文档将共享大量特征。对于文本内容文档,已证明把重叠的连续w个字的分段(其“w个沙砾”)集合提取为特征是有用的,其中w是固定的数字。设D1和D2为文档,且F1和F2为其相应的特征集,我们定义D1和D2的相似度为特征集的Jaccard系数(即,两个文档中共同特征的数量除以两个文档中特征的总数量):
Sim ( D 1 , D 2 ) = | F 1 &cap; F 2 | | F 1 &cup; F 2 |
这给出了0与1之间的数字;两个基本上相等的文档的相似度将是接近于1的数字,而大多数不相似文档对的相似度则是接近于零的数字。应当注意,用于在大型集合中检测有效相同条目的搭迭法技术不受文本全集的限制。可把搭迭法应用到任何类型的诸如录音或视频图像等的数据对象集合中,对于它们提取一个代表特征集是可能的。
从每个文档中提取的特征数量可能相当多(像文档中的字数一样多)。如果假设文档集本身很大(可能象Web情形中达数十亿),精确计算相似度值并执行成对比较是该集合大小的平方,那就过于昂贵。因此将把相似度加以近似以便把问题减少到可管理大小。
近似涉及以保留文档相似性的方式来采样每个文档的特征集。从原理而言,可使用从特征空间到比所有特征集更大的良好排序的集合的随机一一对应函数。根据良好排序性,在随机函数下有特征集映像的最小元素。最小元素的预先映像被取作选定的样本特征。因为所有函数的概率是相等的,这是可行的。任何集的元素都同样可能被映射成最小元素,而且当从这两个集中选择时,最小元素均匀地在并集中选取。
必须改动前述方案以便它可在实践中实现。首先,为了统一地进行选取,使映像集成为有限的整数集是方便的。如果特征集是无界的,就难以得到对有限集的一一对应函数。使用优选的散列函数(最好是Rabin指纹)以使每个特征形成固定比特数的散列,可选择足够大的集合从而该集合中的冲突概率小到难以察觉。其次,不选择真正的随机函数,而是从较小的、易参数化的函数集中选择该函数,其中选定函数被证明能足够接近正确概率。通常,使用线性同余置换以及Rabin指纹的组合,即使它并未证明是正确的。
该技术提供了用于从每个特征组Fi中选择一个特征fi的机制,从而Prob(fi=fj)=Sim(Di,Dj)。该选择机制提供了相似性的无偏点估计量。选择了某些数量的选择器r。对于每个文档Di,使用Di上每个选择器一次来计算fi l,...,fi r。以某些预处理为代价,这使每个条目的数据存储降为一常数,并使集的比较降为与向量中的条目相匹配。
通过运行多个独立的选择机制,两个文档相似性比率的估算可通过对选择向量中的匹配进行计数来获取。如果p=Sim(D,E)则D和E向量中的每个条目以概率p相匹配。在一行中匹配k个条目的概率为pk。通过对k个条目的非交叠游长进行散列以形成从足够大空间中选取的单个整数可以压缩向量,其中在散列值中冲突的概率可忽略而存储需要按系数k来减少。如果有s个长度为k的组(“超样本”),则有一个或多个超样本相匹配的概率为1-(1-pk)s,而有两个或多个超样本相匹配的概率为1-(1-pk)s-s(1-pk)s-1
在有关Alta Vista搜索引擎的现有技术中,提取每个文档文本的归一化版本的“6搭迭”(6-shingling)为特征集。特征被表示为64比特的整数。把使用线性同余置换的计数应用到每个64比特的整数中,产生一个新的64比特整数集,并选择该新集中最小值的预映像为样本。取84个样本,分成6个超样本(其中每个由14个样本组成)。因而,对于参数k和s,使用的值为k=14和s=6。之所以选择这些参数是因为相近副本文档的期望相似度阈值为.95。两个文档之间14个样本匹配的概率等于文档相似度的14次方,从而如果文档为相近副本,其概率为.9514,即约为1/2。有了6组14个样本,6组中至少2组匹配是可能的,6组中少于2组匹配是不可能的。因而,为了确定文档可能是相近副本,要求6个超样本中的2个必须匹配。根据期望阈值,在标识相近副本条目中现有技术在实践中是有效的。
在现有技术中发现匹配过程可被简化为对每个条目的少量散列表查找。组中k个样本被压缩成64比特的整数。如下所述,每个超样本以64比特的精确度进行记录以避免非相似文档的意外巧合。然后把s个64比特整数的所有可能对插入散列表。如果例如s=6,找出匹配至少两次运行的条目只需要 s 2 = 15 查找,所以使用15个散列表。
现有技术集中在离线过程的使用上,因此节约主存储器不是关注重点。例如在前面段落中描述的散列优化很适于离线处理。然而,该技术对每个文档都存储的要求对于所有文档都在运行时执行的搜索引擎而言是不可接受的。在50亿文档的集合中,存储6个值就需要240兆比特的存储器覆盖区以及存储散列表的另外520兆比特。这在搜索执行中是不实用的,并限制了索引的构建。例如,搜索引擎可不在全文档集合中执行预处理过程,并可递增地建立其索引。搜索引擎希望的是在在线过程中确定要报告的哪些查询结果是相近副本,从而使报告缩减为每个相近副本聚类一个文档,其中使用排序函数来选择该文档,并且使反应最迅速的文档能被动态选择。
发明内容
根据某些实施例,本发明提供用于在这种对象集合中检测相似对象的方法。该方法包括对现有方法的这样一种更改:降低了对每个对象存储器的要求而避免错误的检测却与现有方法几乎一样好。该更改包括(i)把特征的k个样本合并成s个超样本,k值从现有方法中使用的相应值减小;(ii)以b比特精确度记录每个超样本,b值从现有方法中使用的相应值减小;以及(iii)需要1个匹配超样本以便作出两个对象足够相似的结论,1值比现有方法中所需相应值大。现有方法中的1值可以是例如s、s-1、或者s-2。
根据一实施例,k=4,从现有方法的k=14减小而来。根据一实施例,b=16,从现有方法的b=64减小而来,且6个超样本中的4个需要匹配,从现有方法6个中的2个增大而来。在另一实施例中,7个超样本中的5个需要匹配,替换现有方法6个中的2个。在又一实施例中,所有超样本以及因而所有样本都需要匹配。
在本发明的某些实施例中,此方法结合网络搜索引擎查询服务使用,以确定相近副本文档的查询结果聚类。一旦使用该方法找到了这些聚类,例如根据排序排序函数从每个聚类中选择一个文档,并向查询提交者报告这个文档(以及相似文档的指针)而不是这个聚类。
可以预期,通过软件在计算机上的执行本发明可整个或部分地实现。
参阅附图阅读以下说明书,本发明的其它特征将变得显然。
附图说明
图1是显示使用搭迭拓印法根据对若干不同参数,包括在本发明诸实施例中可用参数的选择来接受文档的概率的图表;
图2是错误接受率的图表(基于对图1所绘的值取对数);
图3是显示在本发明实施例中由web搜索引擎查询服务所执行的步骤的流程图;
图4显示根据本发明实施例用于确定文档是否是相近副本的方法的示例性步骤。
具体实施方式
在以下说明书中,将描述本发明的某些实施例。为了进行解释,陈述特定的配置和细节以便提供对诸实施例的理解。然而,对本领域技术人员显而易见的是,没有这些特定细节也可实践本发明。此外,作为本发明固有部分并对本领域技术人员是基础的众所周知的特征,一般被略去或简化以便不混肴所描述的实施例。
本发明提供了一种标识大集合中相近副本条目的技术,该技术与现有技术方法相似但降低了每个文档的存储器要求。这使该技术在这些情景中能够实践并有用:不想或不能用离线处理、或者存在特定的存储器限制,如背景技术章节最后所描述的搜索引擎示例。
图1是显示当以不同参数值应用搭迭拓印法时接受文档101的概率的图表,其中可能相似度103显示在x轴上。图例105中的标记指示可用的超样本总数量中需要匹配的超样本数量。Lk标记指示每个超样本组合k个样本。最右边的曲线107(标为“6个中的2个,L14”)绘出了应用在现有技术中参数的结果,如上在背景技术章节中所述。该曲线较为接近地近似了阶跃函数,示出了现有方法在标识95%相似度的相近副本的可能性的优点。
如上在背景技术章节所述,在web搜索引擎查询结果中关于相近副本的现有技术中,需要其中2个匹配的6个超文本中的每一个,长度为64比特。对于组合所需的匹配需要128比特的精确度,以便确保防止由生日悖论引起的错误冲突,而根据生日悖论,在n个条目的集合中可能发生的冲突在
Figure A20051005618700091
个条目之后。如果仅有64比特精确度,在检查了232对条目的相似性之后,过程将易受生日悖论的影响。对于一个象整个Web(如上所述数十亿的文档)一样大的文档集合中,实际上错误冲突将是必然的。因此,有了64比特的超样本,6个中的2个匹配是必须的,且所有6个超样本的存储也是必须的。对于50亿个文档,显然这种存储要求在许多web搜索相关应用程序中是巨大并不实用的。
本发明体现了一种洞察力,即现有技术中鉴别的积累幂数以存储要求的大幅缩减来充分近似。将更少的样本组合为每个超样本,并需要超样本集中更大量的匹配。在某些实施例中,仅有一个或两个超样本需要匹配。在另一实施例中,所有超样本因而所有样本都需要匹配。在比特精确度上每个超样本都缩减,然而仍然避免生日悖论冲突。除了提供用于大集合的新的特定技术以外,本发明提供一种更改现有特定技术的方法,用于在特定的大集合中检测相似性以便获取存储器使用的节约。
在一实施例中,用于确定文档相近副本的技术结合处理用户查询结果的web搜索引擎查询服务使用,使得每个相近副本集中仅有一个向用户报告。图3显示用于这种查询服务的示例性过程。在步骤301处理该查询并产生结果集。在步骤303应用用于确定是相近副本的结果聚类的方法。在步骤305,对于每个相近副本的聚类,应用排序排序函数以确定经估算结果。在步骤307,向用户报告经过滤的查询结果。
在此实施例中,6个超样本中的4个需要匹配而不是现有技术中6个中的2个。每个超样本长度仅有16比特。16比特是足够的,因为有了4个必须的匹配,其中每一个超样本的比特数都为避免错误冲突的概率作贡献。此外,在此实施例中,通常不搜索整个web;在特定时间仅有一查询的结果处于竞争中,更可能涉及的是数万或数十万、而不是数十亿的众多文档。因此,为了避免生日悖论的影响应该不需要128比特(除非搜索引擎用户请求一空查询);64比特可能就足够了。每个超样本组合压缩为16比特数字的4个样本,而不是压缩成64比特数字的14个样本,因为6个中(每个概率为1/2)4个匹配的概率相对较小。比特精确度的减小使存储器要求以约为4倍降低。进一步的降低是可能的,因为存储器上散列表为查询的返回文档集而构建,所以对于文档全集仅需要6个值而不是15个。
图4显示了根据以上所述本发明实施例用于确定文档是否是相近副本的方法的代表性步骤。在步骤401,文档或其它对象被缩减为一特征集。对于诸如Web上可搜索文档的基于文本文档,可使用搭迭法。在步骤403,把文档按词汇分解成一个语言符号序列,其中忽略类似标点符号和大小写的特征。在步骤405,确定连续的固定字大小的分段集。
在步骤407,把特征转换成64比特的整数。在步骤409,把伪随机函数应用到经转换的特征集中,而在步骤411,通过取映像集最小元素的预映像选择样本。执行步骤409和411 k=4次。在步骤413,使结果选择向量形成以16比特精确度记录的超样本散列。重复该子过程从而产生6个超样本。在步骤415,构建用于匹配的6个存储器中表格。如果6个超样本的4个匹配(步骤417),确定比较中的文档为相近副本(步骤419),否则不是相近副本(步骤421)。步骤415和417的有效实现更适合用存储4个超样本组合的15个散列表完成。
请求s中1个匹配的假阳性率是 其中每个超样本的比特长度为b。在233个文档的集合中假阳性的期望数量是:
2 66 - bl s l
对于1=4,s=6和b=16,这导致整个集合中60个文档聚类被错误标识为副本;这仅在一次查询的结果集中有两个这样的聚类时才能看到。假设没有一次查询返回210以上的聚类,则在遇到一次错误冲突前可望处理约一万亿次查询。如果搜索引擎所支持的查询率假定约每年235次,则将发生的错误冲突将是每个世纪2到3次,假设查询服务一直全速运行并假设所有查询都有最大的结果集。
再看图1,曲线109(示为“6个中的4个,L4 16比特”)对应于上述实施例。“16比特”标识每个超样本以16比特精确度记录。可以看到曲线109不象曲线107那样陡峭。对曲线107的一稍好近似由曲线111获得(示为“7个中的5个,L4”)(标识7个中的5个匹配超样本,每个超样本组合4个样本)。在前面段落中所述的搜索引擎的可选实施例使用该7个中的5个方案。尽管未在图中画出,6个中的4个,L5也是一种好的近似。
参看图2,所示的是错误接受率201的图表。基于取图1中所绘值的对数,所绘曲线在此反映了嵌入每个样本中的底层组合学和精确度。该图表一般显示当相似度下降,把一文档对错误标识为相近副本的可能性变得较小。“6个中的4个,L4 16比特”的曲线203的左端在10-18变平(锤线205),表示与16比特精确度相关联的对样本的限制。然而,对于上述实施例,具有可忽略的错误冲突概率是令人满意的。
其它变化在本发明的精神内。然而,尽管本发明可接受各种各样的变化和可选构建,其中某说明性实施例在附图中示出并已在说明进行了描述。然而,可以理解并非旨在把本发明限制在所揭示的特定形式中,相反,旨在包括如在所附权利要求书中定义的本发明精神和范围内的所有变化、可选构建和等效实施方案。
本发明的优选实施例在此进行描述,包括发明者所知用于实践本发明的最佳模式。对于本领域技术人员而言,在阅读了前面的说明书之后,那些优选实施例的变化变得显然。发明者期望本领域技术人员能适当地采用这些变化,且发明者希望本发明能以不同于在此特别描述的其它方式来实践。因此,本发明包括适用于法律所允许的在所附权利要求书中引用的本发明的所有变化和等效方案。此外,本发明包含以上所述所有可能变化的元素的任何组合,除非以其它方式指明或明显与上下文相矛盾。

Claims (22)

1.一种用于在等效集合中检测相似对象的方法,其特征在于,包括,对于两个对象中的每一个:
更改现有的用于检测相似对象的方法,使对存储器的需要减少并和所述现有方法几乎一样好地避免错误检测,其中所述更改包括:
把一些特征样本组合成所有超样本中的每一个,其中所述样本的数量从所述现有方法使用的数量中减少而来;
以一定比特精确度记录所述所有超样本的每一个,其中所述精确度比特数从所述现有方法中使用的精确度比特数中减少而来;以及
需要总的超样本数量中的一些超样本数量匹配以便得出结论所述两个对象足够相似,其中所述匹配超样本的数量比所述现有方法中所需的匹配超样本数量更多。
2.如权利要求1所述的方法,其特征在于,需要所述匹配超样本的数量包括只需要所述超样本总数量中的一个匹配。
3.如权利要求1所述的方法,其特征在于,需要所述匹配超样本的数量包括只需要所述超样本总数量中的两个匹配。
4.如权利要求1所述的方法,其特征在于,需要所述匹配超样本的数量包括需要所述所有超样本都匹配。
5.如权利要求1所述的方法,其特征在于,把所述特征样本数量组合成超样本总数量中的每一个包括把4个样本组合成所述超样本总数量中的每一个,其中在所述现有方法中使用的样本数量为14。
6.如权利要求5所述的方法,其特征在于:
以所述第一比特数精确度记录每个超样本包括以16比特精确度记录每个超样本,其中在所述现有方法中使用的第二比特精确度为64;以及
需要所述匹配超样本的数量包括需要6个超样本中的4个匹配,其中在所述现有方法中所需的所述匹配超样本数量是6个超样本中的2个。
7.如权利要求5所述的方法,其特征在于,需要所述匹配超样本的数量包括需要7个超样本中的5个匹配,其中在所述现有方法中所需的所述匹配超样本数量是6个超样本中的2个。
8.如权利要求1所述的方法,其特征在于,所述对象是文档,且所述方法结合搜索引擎查询服务使用以确定是相近副本文档的查询结果聚类。
9.如权利要求8所述的方法,其特征在于,还包括在每个聚类中选择一单个文档报告。
10.如权利要求9所述的方法,其特征在于,选择所述一个文档是通过排序函数。
11.一种用于确定搜索引擎查询结果中相近副本条目的分组的方法,其特征在于,包括,对于进行比较的两个条目中的每一个:
把4个特征样本组合成6个超样本之一;
以16比特精确度记录每个超样本;以及
需要所述6个超样本中的4个匹配。
12.如权利要求11所述的方法,其特征在于,还包括在每个聚类中选择一单个文档报告。
13.如权利要求12所述的方法,其特征在于,选择所述一单个文档是通过排序函数。
14.一种用于确定搜索引擎查询结果中相近副本条目的分组的方法,其特征在于,包括,对于进行比较的两个条目中的每一个:
把4个特征样本组合成7个超样本之一;
以16比特精确度记录每个超样本;以及
需要所述7个超样本中的5个匹配。
15.如权利要求14所述的方法,其特征在于,还包括在每个聚类中选择一个文档报告。
16.如权利要求15所述的方法,其特征在于,选择所述一单个文档是通过排序函数。
17.一种包含机器指令的计算机可读介质,所述指令实现一种当前用于在相似对象集合中检测相似对象的方法,其中所述当前方法包括更改现有的用于检测相似对象的方法,从而使对存储器的需要减少并和所述现有方法几乎一样好地避免错误检测,其中所述当前方法包括:
把一定数目的特征样本组合成超样本总数量中的每一个,其中所述样本的数量从所述现有方法使用的数量中减少而来;
以一定数目的比特精确度记录所述超样本总数量的每一个,其中所述精确度比特数从所述现有方法中使用的精确度比特数中减少而来;以及
需要所有超样本中的一些超样本匹配以便得出结论所述两个对象足够相似,其中所述匹配超样本的数量比所述现有方法中所需的匹配超样本数量更多。
18.如权利要求17所述的计算机可读介质,其特征在于,需要所述匹配超样本的数量包括只需要所述超样本总数量中的一个匹配。
19.如权利要求17所述的计算机可读介质,其特征在于,需要所述匹配超样本的数量包括只需要所述超样本总数量中的两个匹配。
20.如权利要求17所述的计算机可读介质,其特征在于,需要所述匹配超样本的数量包括需要所述所有超样本都匹配。
21.一种包含机器指令的计算机可读介质,所述指令实现一种用于确定搜索引擎查询结果中相近副本条目的分组的方法,其特征在于,包括,对于进行比较的两个条目中的每一个:
把4个特征样本组合成6个超样本之一;
以16比特精确度记录每个超样本;以及
需要所述6个超样本中的4个匹配。
22.一种包含机器指令的计算机可读介质,所述指令实现一种用于确定搜索引擎查询结果中相近副本条目的分组的方法,其特征在于,包括,对于进行比较的两个条目中的每一个:
把4个特征样本组合成7个超样本之一;
以16比特精确度记录每个超样本;以及
需要所述7个超样本中的5个匹配。
CNB2005100561878A 2004-03-22 2005-03-22 用于确定搜索引擎查询结果中相近副本条目的分组方法 Expired - Fee Related CN100447782C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/805,805 2004-03-22
US10/805,805 US7603370B2 (en) 2004-03-22 2004-03-22 Method for duplicate detection and suppression

Publications (2)

Publication Number Publication Date
CN1677393A true CN1677393A (zh) 2005-10-05
CN100447782C CN100447782C (zh) 2008-12-31

Family

ID=34912641

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100561878A Expired - Fee Related CN100447782C (zh) 2004-03-22 2005-03-22 用于确定搜索引擎查询结果中相近副本条目的分组方法

Country Status (7)

Country Link
US (1) US7603370B2 (zh)
EP (1) EP1585073B1 (zh)
JP (1) JP2005276205A (zh)
KR (1) KR101153033B1 (zh)
CN (1) CN100447782C (zh)
AT (1) ATE432515T1 (zh)
DE (1) DE602005014582D1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
WO2003051031A2 (en) 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
US7707157B1 (en) 2004-03-25 2010-04-27 Google Inc. Document near-duplicate detection
US7680798B2 (en) * 2004-11-20 2010-03-16 International Business Machines Corporation Method, device and system for automatic retrieval of similar objects in a network of devices
US7630987B1 (en) * 2004-11-24 2009-12-08 Bank Of America Corporation System and method for detecting phishers by analyzing website referrals
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
US8140505B1 (en) 2005-03-31 2012-03-20 Google Inc. Near-duplicate document detection for web crawling
US7472131B2 (en) * 2005-12-12 2008-12-30 Justsystems Evans Research, Inc. Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
US8280782B1 (en) * 2006-05-31 2012-10-02 Amazon Technologies, Inc. System and method for managing a listing of offers between buyers and sellers
US20080219495A1 (en) * 2007-03-09 2008-09-11 Microsoft Corporation Image Comparison
US20080244428A1 (en) * 2007-03-30 2008-10-02 Yahoo! Inc. Visually Emphasizing Query Results Based on Relevance Feedback
US8204866B2 (en) * 2007-05-18 2012-06-19 Microsoft Corporation Leveraging constraints for deduplication
US20090089326A1 (en) * 2007-09-28 2009-04-02 Yahoo!, Inc. Method and apparatus for providing multimedia content optimization
WO2009126785A2 (en) * 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8370309B1 (en) 2008-07-03 2013-02-05 Infineta Systems, Inc. Revision-tolerant data de-duplication
US8832034B1 (en) 2008-07-03 2014-09-09 Riverbed Technology, Inc. Space-efficient, revision-tolerant data de-duplication
US8078593B1 (en) 2008-08-28 2011-12-13 Infineta Systems, Inc. Dictionary architecture and methodology for revision-tolerant data de-duplication
US20100070511A1 (en) * 2008-09-17 2010-03-18 Microsoft Corporation Reducing use of randomness in consistent uniform hashing
KR20100066920A (ko) * 2008-12-10 2010-06-18 한국전자통신연구원 전자 문서 처리 장치 및 그 방법
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US8825641B2 (en) 2010-11-09 2014-09-02 Microsoft Corporation Measuring duplication in search results
US8594239B2 (en) 2011-02-21 2013-11-26 Microsoft Corporation Estimating document similarity using bit-strings
US20150254342A1 (en) * 2011-05-30 2015-09-10 Lei Yu Video dna (vdna) method and system for multi-dimensional content matching
US8909625B1 (en) 2011-06-02 2014-12-09 Google Inc. Image search
US9058469B2 (en) 2012-01-18 2015-06-16 International Business Machines Corporation End user license agreement detection and monitoring
US20130290232A1 (en) * 2012-04-30 2013-10-31 Mikalai Tsytsarau Identifying news events that cause a shift in sentiment
JP6209492B2 (ja) * 2014-06-11 2017-10-04 日本電信電話株式会社 イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム
US10762156B2 (en) 2015-07-07 2020-09-01 Yext, Inc. Suppressing duplicate listings on multiple search engine web sites from a single source system triggered by a user
US9443025B1 (en) * 2015-07-07 2016-09-13 Yext, Inc. Suppressing duplicate listings on multiple search engine web sites from a single source system given a known synchronized listing
US10203953B2 (en) * 2017-02-24 2019-02-12 Microsoft Technology Licensing, Llc Identification of duplicate function implementations
US11934568B2 (en) 2019-12-12 2024-03-19 Mellanox Technologies, Ltd. Cable security
JP7410099B2 (ja) 2021-09-01 2024-01-09 Lineヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721788A (en) * 1992-07-31 1998-02-24 Corbis Corporation Method and system for digital image signatures
US5909677A (en) * 1996-06-18 1999-06-01 Digital Equipment Corporation Method for determining the resemblance of documents
US6058410A (en) * 1996-12-02 2000-05-02 Intel Corporation Method and apparatus for selecting a rounding mode for a numeric operation
US5974481A (en) * 1997-09-15 1999-10-26 Digital Equipment Corporation Method for estimating the probability of collisions of fingerprints
US6269362B1 (en) * 1997-12-19 2001-07-31 Alta Vista Company System and method for monitoring web pages by comparing generated abstracts
US6119124A (en) * 1998-03-26 2000-09-12 Digital Equipment Corporation Method for clustering closely resembling data objects
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
CN1206847C (zh) * 2003-06-30 2005-06-15 北京大学计算机科学技术研究所 一种基于内容的视频片段检索方法

Also Published As

Publication number Publication date
EP1585073A1 (en) 2005-10-12
KR101153033B1 (ko) 2012-06-04
US20050210043A1 (en) 2005-09-22
ATE432515T1 (de) 2009-06-15
EP1585073B1 (en) 2009-05-27
KR20060044563A (ko) 2006-05-16
US7603370B2 (en) 2009-10-13
CN100447782C (zh) 2008-12-31
JP2005276205A (ja) 2005-10-06
DE602005014582D1 (de) 2009-07-09

Similar Documents

Publication Publication Date Title
CN100447782C (zh) 用于确定搜索引擎查询结果中相近副本条目的分组方法
US10452718B1 (en) Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems
JP4908214B2 (ja) サーチクエリのリファインメントを提供するシステム及び方法。
US9342582B2 (en) Selection of atoms for search engine retrieval
US20100185691A1 (en) Scalable semi-structured named entity detection
WO2008106667A1 (en) Searching heterogeneous interrelated entities
US8510312B1 (en) Automatic metadata identification
JP2004501424A (ja) 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法
US7657513B2 (en) Adaptive help system and user interface
CN101246484A (zh) 一种便于查询的电子文本的相似性处理方法和系统
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
Monz Minimal span weighting retrieval for question answering
CN102915381A (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
JP4426041B2 (ja) カテゴリ因子による情報検索方法
Trabelsi et al. A hybrid deep model for learning to rank data tables
CN113190692A (zh) 一种知识图谱的自适应检索方法、系统及装置
Dimitrovski et al. Fast and scalable image retrieval using predictive clustering trees
Ladhake Promising large scale image retrieval by using intelligent semantic binary code generation technique
CN109753655B (zh) 基于语义概念关联的文献检索方法、系统、存储介质及终端
CN116414939B (zh) 基于多维度数据的文章生成方法
JP2013536519A (ja) 多数のデータレコードをサーチする方法及びサーチエンジン
KR100986404B1 (ko) 블로그 환경에서 중복포스트의 검출 방법 및 그 장치
Hamroun et al. An efficient multi-language Video Search Engine to facilitate the HADJ and the UMRA
Takasu Document filtering for fast approximate string matching of erroneous text
Chen et al. A Subtopic Taxonomy-Aware Framework for Diversity Evaluation.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081231

Termination date: 20130322