CN101702179A - 在数据挖掘中去除重复的方法和设备 - Google Patents

在数据挖掘中去除重复的方法和设备 Download PDF

Info

Publication number
CN101702179A
CN101702179A CN200910246673A CN200910246673A CN101702179A CN 101702179 A CN101702179 A CN 101702179A CN 200910246673 A CN200910246673 A CN 200910246673A CN 200910246673 A CN200910246673 A CN 200910246673A CN 101702179 A CN101702179 A CN 101702179A
Authority
CN
China
Prior art keywords
identification information
pattern
eigenwert
feature field
repetition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910246673A
Other languages
English (en)
Other versions
CN101702179B (zh
Inventor
张岩
马飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2009102466734A priority Critical patent/CN101702179B/zh
Publication of CN101702179A publication Critical patent/CN101702179A/zh
Application granted granted Critical
Publication of CN101702179B publication Critical patent/CN101702179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在数据挖掘中去除重复的方法、设备和系统。所述方法包括:接收两个或者更多标识信息的特征值;当两个或者更多标识信息的特征值相同时,确定所述两个或者更多标识信息是重复的;以及选取重复的标识信息中的一个作为重复标识信息的代表。

Description

在数据挖掘中去除重复的方法和设备
技术领域
本发明涉及数据处理技术领域,更具体地,本发明涉及一种用于在数据挖掘中去除重复的方法和设备。
背景技术
随着计算机技术的不断发展,数据处理技术已经日益渗透到人们工作和生活的各个方面。尤其是,随着互联网技术的飞速发展,在每个人的日常生活中需要面对各种各样的数据资源。当面对纷繁复杂的数据资源时,如何识别其中的重复性便成为了一个亟待解决的问题。
对于互联网上存在的各种数据资源而言,数据资源的重复性问题尤其严重。在互联网上经常存在重复的网页内容,即,两个或者多个URL(统一资源定位符)指向内容完全相同的网页。不同URL对应相同的网页内容是互联网上非常普遍的现象,在此将这一现象称为重复。
根据网页内容的提供者是否相同,可以将重复区分为“相同资源重复”和“不同资源的重复”。通常,相同资源的重复对于搜索引擎来说是无价值的。对于搜索引擎而言,收录多个相同资源将带来抓取、存储资源的浪费;只需收录重复资源其中的一个即可。这样,去除重复成为一项亟待解决的重要课题。
目前总结重复规律和预判重复所应用的方法均是首先根据观察到的重复现象来人工定义重复分类。例如,这些人工定义的重复可以包括:站点级重复、路径重复等等。然后根据重复分类,基于重复组去挖掘不同类型的重复规律,应用规律去预判重复。
在附图1中示出了根据现有技术的一种挖掘重复的方法的流程图100。如图所示,对于在步骤S102中接收的URL,需要针对不同重复分类分别执行多个挖掘处理,例如,在步骤S104中执行站点级挖掘重复、在步骤S106中执行路径级挖掘重复、在步骤S108中执行无效参数挖掘重复,等等。如果人工定义了其他重复分类,则还需要在其他步骤中执行额外的处理。
人工分类挖掘重复规律的方法的主要缺陷在于:首先,重复分类无法枚举,尽管目前已经定义了多种重复分类,但随着研究的深入,仍然会出现未定义的重复分类;其次,针对每一种重复分类进行一次挖掘和应用(即,如上文中针对图1的处理过程所述),使得面临的工作中心过于分散,难以集中力量进行研发。
发明内容
本发明的一个目的在于提供改进的在数据挖掘中去除重复的技术。
根据本发明的一个方面,公开了一种用于提取挖掘重复规则的方法,包括:
接收多个标识信息的模式和特征字段,其中所述模式是所述标识信息的共性部分,以及所述特征字段是所述标识信息的特性部分;
对得到的模式进行分组,以得到重复模式组,其中所述重复模式组中的各个模式对应的标识信息相关联的数据资源的内容相一致。
根据本发明的另一方面,公开了一种用于在数据挖掘中去除重复的方法,包括:
接收两个或者更多标识信息的特征值;
当两个或者更多标识信息的特征值相同时,确定所述两个或者更多标识信息是重复的;以及
选取重复的标识信息中的一个作为重复标识信息的代表。
根据本发明的另一方面,公开了一种从标识信息提取模式和特征字段的方法,其中所述模式标识所述标识信息的共性部分,而所述特征字段标识所述标识信息的特性部分,该方法包括:
利用分隔字符将所述标识信息划分为一个或者多个分段;
提取所述一个或者多个分段中的数字部分作为特征字段;
利用替换字符来替换所述一个或者多个分段中的数字部分,以便得到一个或者多个替换后的分段;以及
将所述一个或者多个替换后的分段连同所述分隔字符,按原顺序连接以作为所述模式。
根据本发明的另一方面,公开了一种用于提取挖掘重复的规则的设备,包括:
用于接收多个标识信息的模式和特征字段的装置,其中所述模式是所述标识信息的共性部分,以及所述特征字段是所述标识信息的特性部分;
用于对得到的模式进行分组以得到重复模式组的装置,其中所述重复模式组中的各个模式对应的标识信息相关联的数据资源的内容相一致。
根据本发明的另一方面,公开了一种用于在数据挖掘中去除重复的设备,包括:
用于接收两个或者更多标识信息的特征值的装置;
用于当两个或者更多标识信息的特征值相同时,确定所述两个或者更多标识信息是重复的装置,以及
用于选取重复的标识信息中的一个作为重复标识信息的代表的装置。
根据本发明的另一方面,公开了一种从标识信息提取模式和特征字段的设备,其中所述模式标识所述标识信息的共性部分,而所述特征字段标识所述标识信息的特性部分,该设备包括:
用于利用分隔字符将所述标识信息划分为一个或者多个分段的装置;
用于提取所述一个或者多个分段中的数字部分作为特征字段的装置;
用于利用替换字符来替换所述一个或者多个分段中的数字部分,以便得到一个或者多个替换后的分段的装置;以及
用于将所述一个或者多个替换后的分段连同所述分隔字符,按原顺序连接以作为所述模式的装置。
相对于现有技术而言,根据本发明实施方式的方法并不针对数据资源的重复进行分类,而是采用统一的、基于特征值的方式来处理全部种类的数据资源的标识信息。即,在处理过程中,并不直接针对数据资源的标识信息进行处理,而是按照预定规则,首先提取出标识信息的特征值,进而通过比较特征值来判断标识信息所对应的数据资源是否一致,来实现去除重复。与现有技术相比,本发明的方法可以有效地解决数据挖掘中的重复问题。
附图说明
结合附图并参考以下详细说明,本发明的特征、优点及其他方面将变得更加明显,在附图中:
图1示出了现有技术中的挖掘重复的方法的流程图;
图2示出了根据本发明一个实施方式的对标识信息进行处理的方法流程图;
图3示出了根据本发明一个实施方式的提取挖掘重复的规则的方法流程图;
图4示出了根据本发明另一实施方式的提取挖掘重复是规则的方法流程图;
图5示出了根据本发明一个实施方式的提取标识信息特征值的方法流程图;
图6示出了根据本发明一个实施方式的用于挖掘重复的方法的流程图;以及
图7示出了根据本发明另一实施方式的用于挖掘重复的方法的流程图。
具体实施方式
通常,可以将重复划分为“不可总结规律的重复”和“可总结规律的重复”两类。例如,对于“不可总结规律的重复”,尽管两个或者更多网页的内容相同,然而并不能通过分析其URL来找到规律,例如,所述两个或者更多网页的URL很可能仅仅是各种字母和数字的乱序组合。因而对于“可总结规律的重复”而言,则可以进行去除重复的处理。在本申请中,仅针对可总结规律的重复进行处理。
本发明采取重复预判的方法来去除重复,所谓的重复预判即在读取数据资源的内容之前,通过标识信息来判断数据资源是否重复,这可以大大提高挖掘重复的效率。
为方便描述起见,在下文中仅以互联网中的各种资源作为数据资源的示例、并且以网页资源的URL作为数据资源的标识信息的示例,来描述根据本发明的方法。应该理解,本发明的方法还可以应用于具有标识信息的任何其他数据资源。还应该注意,所述的标识信息与数据资源在逻辑上具有关联关系,其可以处于所述数据资源本身之外,但不限于诸如URL、数据资源的路径和文件名等的标识信息,而且所述标识信息还可以在逻辑上与所述数据资源相结合,包括但不限于作为数据资源的一部分,例如包括在数据资源的文件头、文件体等部分之中。所述标识信息还可以包括上述数据资源外的标识信息、以及数据资源内的标识信息的结合。
例如,存在网页内容相同(即,URL所指向的web页面的内容相同)的如下URL:
www.shufa.com/product/view.asp?id=112404
www.shufa.com/product/view.asp?id=112404&p=112404
www.shufa.com/product/view.asp?id=112404&n=112404
上述URL虽然表面上是三个不同的URL,然而通过观察可以发现,其中存在相同的字符串“www.shufa.com/product/view.asp?id=”和相同的数字串“112404”。通过总结可知,指向相同内容的网页的多个URL,其中可以具有一些相同的字符串和数字串。
在此基础上,可以通过提取每个URL的特征值(唯一性标识),并利用特征值的唯一性来挖掘重复。与人工分类挖掘重复规律的方法对比,本发明基于URL特征值的挖掘重复的方法是挖掘重复规律的通用方法,能够覆盖绝大多数的重复问题(包括近乎全部的已有分类的重复和部分尚未定义分类的重复)。由于URL特征值覆盖面更广,在开发、维护、挖掘中仅需维护单一的应用,因而应用更加方便和高效。
在下文中,将参考图2至图7,详细描述根据本发明的多个实施方式的具体实现。
根据本发明,通过判断重复的资源之间是否存在特定的关联关系,来判断是否是相同资源的重复。所述关联关系例如是否具有相同的提供者等。在实践中通常在当所述重复资源满足具有相同主域、相同IP、以及有规律等特征中的至少一个时,可认为相同资源重复。
为解决现有技术中针对人工定义的每个重复分类分别挖掘重复的问题,根据本发明的一个实施方式,提出了一种基于特征值的挖掘重复的方法,由此实现减小处理时间且提高挖掘重复的效率的目的。此方法的基础在于,首先对标识信息进行划分,即,划分为模式(pattern)和特征字段两部分。注意:利用标识信息的模式和特征字段的来挖掘重复,实际上是对重复分类挖掘的取代。挖掘仍然是以“识别页面内容的重复”为基础的。
在下文中,将详细描述根据本发明实施方式的方法。在下文中,首先仅以URL作为标识信息的典型示例来描述如何从标识信息中提取模式和特征字段。但本发明并不局限于此。
通过分析现有URL可知,在URL中通常包括“/”、“.”、“_”、“-”、“=”、“?”等字符,而通常这些字符是作为分隔符来划分URL的各种组成成分。提取URL的模式和特征字段的原理在于,以“/”、“.”、“_”、“-”、“=”、“?”来分割URL,从而得到一系列字段,并选择其中的一部分字段作为特征字段。选取特征字段的标准可以是,例如路径中的由纯数字组成的字段、除字母外还包含其他特殊字符的字段等。然后将原URL中的这些字段代以特殊的符号表示,来得到URL的模式。
在下文中,将参考附图2中所示的方法,来具体解释从URL中提取模式和特征字段的具体过程。
图2示出了根据本发明一个实施方式的对标识信息进行处理的方法流程图200。
首先,在步骤S202,接收标识信息。
接着,分别在步骤S204和S206中提取特征字段和模式。在此,提取特征字段和模式的过程可以在时间上存在相互重叠,因而在执行时并不局限于附图2中所示出的顺序。
根据本发明的一个实施方式,从标识信息提取模式和特征字段的详细流程如下:根据分隔符将URL切分为各个部分,依次判断每个字段是否保留,将需要保留的字段加入模式,将不需要保留的字段以特殊符号代替。
应该注意,在提取模式和特征字段的过程中,并不限于上述方法,而是可以采取其他方式。例如,在划分标识信息的过程中,通过分析标识信息的成分来选择分隔符,并且可以选择包括但不限于“/”、“.”、“_”、“-”、“=”、“?”的任意字符来作为分隔符,只要能够实现划分标识信息的成分即可。另外,在生成模式时,还可以采用任何其他的字符作为替换字符,只要该字符能够在模式中替代被提取的特征字段即可。
此外,在从标识信息提取模式和特征字段时,还可以采取其他的标准。而所述标准针对不同的标识信息和资源数据可以具有不同的形式,本领域技术人员可以在具体分析标识信息与资源数据的情况下,针对重复资源数据所对应的标识信息中的共同特点来总结规律,并由此制定相应的标准。
应该理解,上述将标识信息提取为模式和特征字段的原理在于,提取标识信息中的“共性部分”和“特性部分”,即将“共性部分”加入模式,而将标识信息中的“特性部分”作为特征字段,其中,利用替换字符来替换所述“特性部分”在原始标识信息中的出现。
在下文中,将以具体示例的形式阐明如何从URL中提取模式和特征字段。
示例1:
提取以下URL的模式和特征字段:
www.gouwo.com/service/View.aspx?SubjectID=8040&page=3
通过上文所述的处理过程,可以执行步骤1-5中的过程,沿从左到右的顺序扫描该URL中的各个成分并执行处理。
首先,使用分隔符分割将URL划分为站点名、路径名和文件名等部分,并将站点名(即,www.gouwo.com)加入模式。
继而,针对目录路径和文件名来进行处理,即将“/service/View.aspx?SubjectID”中的各个部分逐个加入模式中;对于纯粹数字形式的字段“8040”,利用替换字符“*”进行替换;针对该URL中的其他未处理部分,同样利用上述规则进行提取。最终得出的模式为:
www.gouwo.com/service/View.aspx?SubjectID=*&page=*
应该注意,在上述提取过程中,由于纯粹数字形式的字段“8040”和“3”均为从文件名部分提取出的特征字段。因而得出的特征字段可以表示为:
8040 3。
示例2:
提取以下URL的模式和特征字段:
istock.jrj.com.cn/forum456/mtopic789.html
通过上文的提取过程可以得出:
模式:istock.jrj.com.cn/forum#/mtopic#.html
其中存在两个特征字段,特征字段1的值为456,特征字段2的值为789。
根据本发明的实施方式,基于特征值来挖掘重复的原理在于,首先从与数据资源相关联的标识信息中提取模式和特征字段,接着根据一定的挖掘重复的规则进行处理以便得到特征值,其后通过比较特征值来判断该特征值是否对应于重复的数据资源,来实现挖掘重复的目的。
因而,在下文中将详细阐述如何从标识信息中提取特征值;而在提取特征值之前,首先阐述提取挖掘重复规则的方法。
图3示出了根据本发明一个实施方式的提取挖掘重复规则的方法流程图300。
如图3所示,首先,在步骤S310处,接收已经从标识信息中提取的模式和特征字段的二元组。应该注意,根据本发明的其他实施方式,还可以直接接收标识信息,并对所接收的标识信息应用如图2中所示的提取方法。即,在步骤S310中接收的可以是多个标识信息的集合,或者可以是对应于上述集合中多个标识信息的已提取模式和特征字段的二元组。另外,所述多个标识信息可以是经过对其所关联的数据资源的内容进行比较后,所得出的对应于重复内容的标识信息,也即,与所接收的集合中的多个标识信息相对应的数据资源的内容是重复的。在现有技术中已经公开了判断数据资源是否重复的方法(例如,计算签名等),在此不再赘述。
在步骤S320中,根据所接收的模式和特征字段的二元组来进行分组,以便形成一个或者多个重复模式组,其中使得与同一模式分组中的各模式对应的标识信息相关联的数据资源的内容相一致。
下面参考附图4来详细描述提取挖掘重复的规则的方法。在步骤S310中,接收多个模式和特征字段的二元组。应该注意,根据本发明的其他实施方式,还可以直接接收标识信息,并对所接收的标识信息应用如图2中所示的提取方法。
接着,在步骤S322中,从上述多个模式和特征字段的二元组中获取公共的特征字段,并记录公共特征字段的位置,并将公共特征字段的位置记录于模式之后以形成模式特征位置串。下面将以示例方式阐明如何形成模式特征位置串。
示例3:
从以下URL中提取模式和特征字段,并且计算其中的公共特征字段:
URL1:www.shufa.com/product/view.asp?id=112404
URL2:www.shufa.com/product/view.asp?id=112404&p=112404
URL3:www.shufa.com/product/view.asp?id=112404&n=112404
首先,分别提取上述多个URL的模式和特征字段,可以得出与URL1、URL2和URL3分别对应的模式P1、P2和P3分别为:
P1:www.shufa.com/product/view.asp?id=*
P2:www.shufa.com/product/view.asp?id=*&p=*
P3:www.shufa.com/product/view.asp?id=*&n=*
通过分析可知,公共特征字段为“112404”。接着,记录公共特征字段在上述URL中的位置,并将该位置添加至相应模式之后而得出3个模式特征位置串:
PS1:www.shufa.com/product/view.asp?id=*1
PS2:www.shufa.com/product/view.asp?id=*&p=*1
PS3:www.shufa.com/product/view.asp?id=*&n=*1
应该注意:在上述示例的URL中公共特征字段的位置为“1”;然而,还可以存在包括多个特征字段的情况。例如URL:istock.jrj.com.cn/forum10/mtopic20.html而言,则可以存在两个特征字段,在这两个特征字段均为公共特征字段的情况下,可以得出的模式特征位置串为:
PS:istock.jrj.com.cn/forum#/mtopic#.html 12
根据本发明的一个实施方式,利用得到的模式特征位置串来构造模式对。在构造模式对的过程中,可以将多个模式特征位置串中的每一个与其余的各个模式特征位置串进行组合,以形成重复模式对。根据本发明的另一实施方式,在构造重复模式的步骤S322之后,还可以包括针对重复模式对验证重复的可靠性的步骤S324。
例如对于上文形成的三个模式特征位置串PS1、PS2和PS3,在组合之后可以形成三个重复模式对,即(PS1、PS2)、(PS1、PS3)和(PS2、PS3):
PS1:www.shufa.com/product/view.asp?id=*1
PS2:www.shufa.com/product/view.asp?id=*&n1
PS1:www.shufa.com/product/view.asp?id=*1
PS3:www.shufa.com/product/view.asp?id=*&p1
PS2:www.shufa.com/product/view.asp?id=*&n1
PS3:www.shufa.com/product/view.asp?id=*&p1
根据本发明的一个实施方式,为了保证准确率,可以仅保留达到了一定重复次数的重复模式对,并通过重复检验找出可信的重复模式对。在验证重复模式的重复进行可靠性验证时,例如可以采用记录重复次数的方式。具体而言,在重复模式对(PS1、PS2)中,PS1可以对应于多个URL,同样,PS2也可以对应于多个URL,当PS1所对应的一个URL所指向的网页内容与PS2所对应的一个URL指向的网页内容相一致时,则可以将PS1与PS2的重复次数增加1。针对多个URL进行计数,当累计重复次数达到预定阈值(例如,10)时,可以认为该重复模式对(PS1、PS2)是重复的。否则,可以认为该重复模式对的重复可靠性较低而将其删除,或者采取其他方式,例如对该重复模式对赋予较低的权重,并将其作为候补重复模式对。
其后,如图4中的步骤S326所示,利用步骤S322中得出的重复模式对构造重复模式组。由于重复具有传递性,因而可以将含有相同模式特征位置串的可信重复模式对合并为模式组。
根据本发明的一个实施方式,在构造重复模式组之后还可以包括对重复模式组的重复进行可靠性验证的步骤S328以便最终形成的规则。规则例如可以是以下形式:
组标识符(1)模式1特征字段1,特征字段2
组标识符(1)模式2特征字段1,特征字段2
组标识符(1)模式3特征字段2,特征字段4
下文将采用具体示例阐明如何形成重复模式组。
由于重复模式对之间存在传递关系,因而可以将重复模式对(PS1、PS2)、(PS1、PS3)和(PS2、PS3)形成一个重复模式组(PS1、PS2、PS3)。
根据本发明的一个实施方式,为验证与同一重复模式组中的模式对应的标识信息相关联的数据资源的内容相一致,还可以对重复模式组的重复进行可靠性验证。例如,可以采用抽样验证的方式。从形成模式特征字段串的过程中可知,每个模式特征字段串可以对应于多个URL。此时,可以选择与重复模式组中的每个模式特征字段串相对应的多个URL进行比较,以验证与该重复模式组相关联的URL指向的网页内容是否重复。例如,可以从重复模式组中删除重复次数或者重复比例低于预定阈值(例如,重复次数的阈值为10次,重复比例的阈值为70%)的模式特征位置串。上述验证可靠性的过程,是利用真实的网页内容来验证所总结的规律是否可靠的过程。
具体而言,对于形成的重复模式组(PS1、PS2、PS3),例如可以选择下述URL,来抽样验证与该重复模式组相关联的URL指向的网页内容是否重复:
www.shufa.com/product/view.asp?id=115827
www.shufa.com/product/view.asp?id=115827&p=115827
另外,根据本发明的一个实施方式,还可以包括对重复模式组赋予标识符的过程S330,以便采用该标识符来唯一地标识该重复模式组。例如,对于重复模式组(PS1、PS2、PS3)赋予如下组标识符(即,采用标识符“A”来标识该重复模式组):
A GOOD 3304www.shufa.com/product/view.asp?id=*1
A GOOD 3200www.shufa.com/product/view.asp?id=*&n=*1
A GOOD 3200www.shufa.com/product/view.asp?id=*&p=*1
类似地,还可以针对以下重复模式组赋予标识符“B”:
B GOOD 3200child.sh.kebeke.com/ke_know_view_id_#.html 1
B GOOD 3200en.school.kebeke.com/ke_know_view_id_#.html 1
B GOOD 3200ger.sh.kebeke.com/ke_know_view_id_#.html 1
B GOOD 3200gfeedu.px.kebeke.com/ke_know_view_id_#.html 1
根据本发明的一个实施方式,还公开了一种用于提取标识信息的特征值的方法。在已经实现了上文所公开的重复模式组的情况下,可以利用重复模式组的标识符和该标识信息的特征字段,来提取标识信息的特征值。如图5所示,其中示出了根据本发明一个实施方式的提取标识信息特征值的方法流程图500。
如流程图500所示,首先在步骤S502中接收与数据资源相对应的标识信息。继而,在步骤S504中,按照上文公开的方法将所述标识信息划分为模式和特征字段两部分,并记录特征字段在标识信息中的出现位置。在步骤S506中,利用模式所处的重复模式组的标识符和特征字段来作为标识信息的特征值。
根据本发明的一个实施方式,公开了一种用于挖掘重复的方法。如图6所示,示出了根据本发明一个实施方式的用于挖掘重复的方法的流程图。该方法开始于步骤S602,即接收两个或者更多标识信息的特征值。应该理解,根据本发明的一个实施方式,接收的信息还可以是标识信息的集合、或者从标识信息中已经提取的模式和特征字段的二元组,还可以是能够转换成特征值的任何其他信息。
在步骤S604中,判断所述两个或者更多标识信息的特征值是否相同。如果相同,则在步骤S606中选择其中的一个标识信息作为重复标识信息的代表。
例如,存在以下URL4和URL5:
URL4:www.shufa.com/product/view.asp?id=100009
URL5:www.shufa.com/product/view.asp?id=100009&p=100009
如果两者的特征值相同,则可以选择保留URL4和URL5其中之一作为代表。
根据本发明的一个实施方式,可以选择保留多个重复的标识信息之一,并删除所述作为代表的标识信息以外的其他重复的标识信息;例如,保留URL4而删除URL5。
在根据本发明的一个实施方式中,针对每个特征值相同的组,还可以设置权重信息,即在初始时对每个特征值赋予一个权重。当组中存在多个特征值相同的重复时,还可以对择优保留的URL以外的其他的URL的权重进行降低,或者直接将其他URL降低为最低权重,或者可以采用其他策略来在维护重复的URL;例如,可以保留URL4,而将URL5设置为较低权重。
根据本发明的一个实施方式,可以构造挖掘重复的规则库,并应用上述方法来实现去除规则库中的重复URL。在具体实现时,例如可以读入全部URL,对于每个URL,首先将URL转换为模式和特征字段,然后根据挖掘到的规则提取出URL的特征值,其中所述特征值可以包括组标识符和特征字段。然后按特征值哈希,将特征值相同的URL聚类在一起,特征值相同的URL即为重复,对于每个特征值相同的组,择优保留一条URL,而删除其他URL,或者将其他URL的权重降低。
在本发明的另一实施方式中,还可以对作为代表的所述标识信息的特征值建立字典。建立字典的目的在于可以方便快速地查找新的标识信息的特征值是否与已建立字典的特征值相重复。
例如,在图7中示出了根据本发明另一实施方式的用于挖掘重复的方法的流程图。具体而言,方法开始于在步骤S702中接收新的标识信息的特征值。应该理解,根据本发明的一个实施方式,接收的信息还可以是新的标识信息、或者从新的标识信息中已经提取的模式和特征字段的二元组,等等。继而,在步骤S704中,对作为代表的特征值建立字典。可以采用任何现有技术来实现上述建立字典的过程。
继而,在步骤S706中,在字典中查找新的标识信息的所述特征值,并且判断是否命中。如果命中,则在步骤S708中,则认为所述新的标识信息是重复的。而如果没有命中,则认为所述新的标识信息不是重复的。
根据本发明的一个实施方式,当判断得到新的标识信息不是重复的时,还可以接收与新的标识信息有关的URL集合,采用上文中公开的方法来提取挖掘重复的规则,并建立新的重复组,并将新的重复组相关的URL加入标识信息库中,继而针对新增后的特征值建立字典。
本发明可以以硬件、软件、固件以及它们的组合来实现。本领域技术人员应该认识到,也可以在供任何合适数据处理系统使用的信号承载介质上所设置的计算机程序产品中体现本发明。这种信号承载介质可以是传输介质或用于机器可读信息的可记录介质,包括磁介质、光介质或其他合适介质。可记录介质的例子包括:硬盘驱动器中的磁盘或软盘、用于光驱的光盘、磁带,以及本领域技术人员所能想到的其他介质。传输介质的例子包括用于语音通信的电话网以及数字数据通信网络,例如以太网TM以及与网际协议和环球网进行通信的网络。本领域技术人员应该认识到,具有合适编程装置的任何通信终端都将能够执行如程序产品中体现的本发明方法的步骤。本领域技术人员应该认识到,虽然本说明书中所描述的某些示范性实施方式是面向安装在通信终端上并在通信终端上执行的软件,然而,被实现为固件或硬件的备选实施方式也在本发明的范围内。
从上述描述应该理解,在不脱离本发明真实精神的情况下,可以对本发明各实施方式进行修改和变更。本说明书中的描述仅仅是用于说明性的,而不应被认为是限制性的。本发明的范围仅受所附权利要求书的限制。

Claims (20)

1.一种用于提取挖掘重复规则的方法,包括:
接收多个标识信息的模式和特征字段,其中所述模式是所述标识信息的共性部分,以及所述特征字段是所述标识信息的特性部分;
对得到的模式进行分组,以得到重复模式组,其中所述重复模式组中的各个模式对应的标识信息相关联的数据资源的内容相一致。
2.根据权利要求1所述的方法,其中对得到的模式进行分组包括:
从所述特征字段中获取公共的特征字段;
将所述公共的特征字段的位置记录在相应模式之后,以形成模式特征位置串;
验证每两个模式特征位置串所对应的标识信息相关联的数据资源的内容是否相一致;
当数据资源的内容相一致时,将对应的两个模式特征位置串确定为重复模式对。
3.根据权利要求2所述的方法,进一步包括:
利用重复模式对之间的传递关系,构造重复模式组。
4.根据权利要求3所述的方法,进一步包括:
在所述重复模式组中,验证与各模式特征位置串所对应的标识信息相关联的数据资源的内容相一致的置信度。
5.根据权利要求4所述的方法,其中验证与各模式特征位置串所对应的标识信息相关联的数据资源的内容相一致的置信度进一步包括:
获取与各模式特征位置串所对应的标识信息的各个列表,并抽样验证与所述列表中的标识信息相关联的数据资源的内容是否相一致。
6.根据权利要求1所述的方法,其中所述标识信息是统一资源定位符URL。
7.一种用于在数据挖掘中去除重复的方法,包括:
接收两个或者更多标识信息的特征值;
当两个或者更多标识信息的特征值相同时,确定所述两个或者更多标识信息是重复的;以及
选取重复的标识信息中的一个作为重复标识信息的代表。
8.根据权利要求7的方法,其中所述特征值是通过以下操作得到的:
将所述标识信息划分为模式和特征字段,其中所述模式是所述标识信息的共性部分,以及所述特征字段是所述标识信息的特性部分;以及
将所述模式所处的重复模式组的标识以及所述特征字段确定为所述标识信息的特征值;
其中,与同一重复模式组中的各模式对应的标识信息相关联的数据资源的内容相一致。
9.根据权利要求7所述的方法,进一步包括:
将所述作为代表的标识信息以外的其他重复的标识信息进行删除。
10.根据权利要求7所述的方法,进一步包括:
将作为代表的所述标识信息以外的其他重复的标识信息设置为较低权重。
11.根据权利要求7所述的方法,进一步包括:
对作为代表的所述标识信息的特征值建立字典。
12.根据权利要求11所述的方法,进一步包括:
提取新的标识信息的特征值;
在所述字典中查找所述特征值,如果所述特征值命中字典,则认为所述新的标识信息是重复的。
13.根据权利要求11所述的方法,进一步包括:
提取新的标识信息的特征值;
在所述字典中查找所述特征值,如果所述特征值没有命中字典,则认为所述新的标识信息不是重复的。
14.根据权利要求13所述的方法,进一步包括:
构建与所述新的标识信息相关联的新的重复模式组;以及
利用与所述新的重复模式组相关联的标识信息更新所述字典。
15.根据权利要求7所述的方法,其中所述标识信息是统一资源定位符URL。
16.一种从标识信息提取模式和特征字段的方法,其中所述模式标识所述标识信息的共性部分,而所述特征字段标识所述标识信息的特性部分,该方法包括:
利用分隔字符将所述标识信息划分为一个或者多个分段;
提取所述一个或者多个分段中的数字部分作为特征字段;
利用替换字符来替换所述一个或者多个分段中的数字部分,以便得到一个或者多个替换后的分段;以及
将所述一个或者多个替换后的分段连同所述分隔字符,按原顺序连接以作为所述模式。
17.根据权利要求16所述的方法,其中所述标识信息是统一资源定位符URL。
18.一种用于提取挖掘重复的规则的设备,包括:
用于接收多个标识信息的模式和特征字段的装置,其中所述模式是所述标识信息的共性部分,以及所述特征字段是所述标识信息的特性部分;
用于对得到的模式进行分组以得到重复模式组的装置,其中所述重复模式组中的各个模式对应的标识信息相关联的数据资源的内容相一致。
19.一种用于在数据挖掘中去除重复的设备,包括:
用于接收两个或者更多标识信息的特征值的装置;
用于当两个或者更多标识信息的特征值相同时,确定所述两个或者更多标识信息是重复的装置,以及
用于选取重复的标识信息中的一个作为重复标识信息的代表的装置。
20.一种从标识信息提取模式和特征字段的设备,其中所述模式标识所述标识信息的共性部分,而所述特征字段标识所述标识信息的特性部分,该设备包括:
用于利用分隔字符将所述标识信息划分为一个或者多个分段的装置;
用于提取所述一个或者多个分段中的数字部分作为特征字段的装置;
用于利用替换字符来替换所述一个或者多个分段中的数字部分,以便得到一个或者多个替换后的分段的装置;以及
用于将所述一个或者多个替换后的分段连同所述分隔字符,按原顺序连接以作为所述模式的装置。
CN2009102466734A 2009-12-01 2009-12-01 在数据挖掘中去除重复的方法和设备 Active CN101702179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102466734A CN101702179B (zh) 2009-12-01 2009-12-01 在数据挖掘中去除重复的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102466734A CN101702179B (zh) 2009-12-01 2009-12-01 在数据挖掘中去除重复的方法和设备

Publications (2)

Publication Number Publication Date
CN101702179A true CN101702179A (zh) 2010-05-05
CN101702179B CN101702179B (zh) 2012-07-25

Family

ID=42157094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102466734A Active CN101702179B (zh) 2009-12-01 2009-12-01 在数据挖掘中去除重复的方法和设备

Country Status (1)

Country Link
CN (1) CN101702179B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101977251A (zh) * 2010-11-19 2011-02-16 苏州言诺信息科技有限公司 服务器端网址资源优化装置及其优化方法
CN103077250A (zh) * 2013-01-28 2013-05-01 人民搜索网络股份公司 一种网页内容抓取方法及装置
CN103530336A (zh) * 2013-09-30 2014-01-22 北京奇虎科技有限公司 统一资源定位符url中无效参数的识别设备及方法
CN103530337A (zh) * 2013-09-30 2014-01-22 北京奇虎科技有限公司 识别统一资源定位符url中无效参数的设备及方法
CN103530090A (zh) * 2013-10-15 2014-01-22 福建榕基软件股份有限公司 数据重命名方法及其装置
CN103559255A (zh) * 2013-11-01 2014-02-05 北京理工大学 一种分布式液压系统的可视化数据处理方法
CN104036003A (zh) * 2014-06-16 2014-09-10 北京奇虎科技有限公司 搜索结果整合方法和装置
CN104424202A (zh) * 2013-08-21 2015-03-18 北大方正集团有限公司 对crm系统中的客户信息进行查重的方法及系统
WO2015043308A1 (zh) * 2013-09-30 2015-04-02 北京奇虎科技有限公司 Url中无效参数的识别设备、识别无效参数的设备及方法
CN106294815A (zh) * 2016-08-16 2017-01-04 晶赞广告(上海)有限公司 一种url的聚类方法及装置
CN106776616A (zh) * 2015-11-20 2017-05-31 北京国双科技有限公司 合并对称实体组的方法及装置
CN107517140A (zh) * 2016-06-16 2017-12-26 中国移动通信集团广东有限公司 移动互联网的业务识别方法及装置
WO2018165960A1 (zh) * 2017-03-17 2018-09-20 深圳市秀趣品牌文化传播有限公司 基于哈希值的电商数据处理系统及方法
CN109803022A (zh) * 2019-01-30 2019-05-24 浙江蓝鸽科技有限公司 一种数字化资源共享系统及其服务方法
CN112199361A (zh) * 2020-09-27 2021-01-08 富璟科技(深圳)有限公司 数据库冗余信息处理方法
CN112527787A (zh) * 2020-12-18 2021-03-19 深圳市洞见智慧科技有限公司 一种安全可靠的多方数据去重系统、方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US7185088B1 (en) * 2003-03-31 2007-02-27 Microsoft Corporation Systems and methods for removing duplicate search engine results

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101977251A (zh) * 2010-11-19 2011-02-16 苏州言诺信息科技有限公司 服务器端网址资源优化装置及其优化方法
CN103077250A (zh) * 2013-01-28 2013-05-01 人民搜索网络股份公司 一种网页内容抓取方法及装置
CN103077250B (zh) * 2013-01-28 2016-06-29 人民搜索网络股份公司 一种网页内容抓取方法及装置
CN104424202B (zh) * 2013-08-21 2018-11-06 北大方正集团有限公司 对crm系统中的客户信息进行查重的方法及系统
CN104424202A (zh) * 2013-08-21 2015-03-18 北大方正集团有限公司 对crm系统中的客户信息进行查重的方法及系统
CN103530337A (zh) * 2013-09-30 2014-01-22 北京奇虎科技有限公司 识别统一资源定位符url中无效参数的设备及方法
WO2015043308A1 (zh) * 2013-09-30 2015-04-02 北京奇虎科技有限公司 Url中无效参数的识别设备、识别无效参数的设备及方法
CN103530336B (zh) * 2013-09-30 2017-09-15 北京奇虎科技有限公司 统一资源定位符url中无效参数的识别设备及方法
CN103530336A (zh) * 2013-09-30 2014-01-22 北京奇虎科技有限公司 统一资源定位符url中无效参数的识别设备及方法
CN103530090A (zh) * 2013-10-15 2014-01-22 福建榕基软件股份有限公司 数据重命名方法及其装置
CN103530090B (zh) * 2013-10-15 2016-02-03 福建榕基软件股份有限公司 数据重命名方法及其装置
CN103559255A (zh) * 2013-11-01 2014-02-05 北京理工大学 一种分布式液压系统的可视化数据处理方法
CN103559255B (zh) * 2013-11-01 2017-01-04 北京理工大学 一种分布式液压系统的可视化数据处理方法
CN104036003B (zh) * 2014-06-16 2018-12-14 北京奇虎科技有限公司 搜索结果整合方法和装置
CN104036003A (zh) * 2014-06-16 2014-09-10 北京奇虎科技有限公司 搜索结果整合方法和装置
CN106776616A (zh) * 2015-11-20 2017-05-31 北京国双科技有限公司 合并对称实体组的方法及装置
CN106776616B (zh) * 2015-11-20 2020-03-06 北京国双科技有限公司 合并对称实体组的方法及装置
CN107517140A (zh) * 2016-06-16 2017-12-26 中国移动通信集团广东有限公司 移动互联网的业务识别方法及装置
CN106294815A (zh) * 2016-08-16 2017-01-04 晶赞广告(上海)有限公司 一种url的聚类方法及装置
WO2018165960A1 (zh) * 2017-03-17 2018-09-20 深圳市秀趣品牌文化传播有限公司 基于哈希值的电商数据处理系统及方法
CN109803022A (zh) * 2019-01-30 2019-05-24 浙江蓝鸽科技有限公司 一种数字化资源共享系统及其服务方法
CN109803022B (zh) * 2019-01-30 2022-02-18 浙江蓝鸽科技有限公司 一种数字化资源共享系统及其服务方法
CN112199361A (zh) * 2020-09-27 2021-01-08 富璟科技(深圳)有限公司 数据库冗余信息处理方法
CN112527787A (zh) * 2020-12-18 2021-03-19 深圳市洞见智慧科技有限公司 一种安全可靠的多方数据去重系统、方法及装置
CN112527787B (zh) * 2020-12-18 2024-03-15 深圳市洞见智慧科技有限公司 一种安全可靠的多方数据去重系统、方法及装置

Also Published As

Publication number Publication date
CN101702179B (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN101702179B (zh) 在数据挖掘中去除重复的方法和设备
CN101454748B (zh) 用于改进对网页的信息检索的系统和方法
CN108712403B (zh) 基于域名构造相似性的非法域名挖掘方法
KR101130357B1 (ko) 외부 데이터를 사용하는 검색 엔진 스팸 검출
CN102841920B (zh) 一种页面信息提取方法及装置
CN103873601B (zh) 一种寻址类查询词的挖掘方法及系统
Garg A novel text steganography technique based on html documents
CN1770158A (zh) 内容评估
CN102722709A (zh) 一种垃圾图片识别方法和装置
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
CN1955952A (zh) 用于自动提取副标题信息的系统和方法
CN103514234A (zh) 一种页面信息提取方法和装置
CN108111526A (zh) 一种基于异常whois信息的非法网站挖掘方法
CN105786800A (zh) 一种警用标准地址获取方法及系统
CN104572957A (zh) 一种基于聚类的poi名称确定系统及方法
CN101894109A (zh) 一种数据库建立方法和装置
KR102124935B1 (ko) 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램
CN101630315A (zh) 一种快速检索方法及系统
CN103455572B (zh) 获取网页中影视主体的方法及装置
CN101169783A (zh) 用于多媒体对象的数字水印搜索引擎
CN102571922A (zh) 一种数据流处理方法及装置
CN112667875A (zh) 一种数据获取、数据分析方法、装置、设备及存储介质
CN103942332A (zh) 一种Web页面逻辑链接块的识别方法
CN108153860A (zh) 一种基于多语言新闻的地理位置分析方法
CN115314271A (zh) 一种访问请求的检测方法、系统及计算机存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant