CN104063506A - 重复网页识别方法和装置 - Google Patents

重复网页识别方法和装置 Download PDF

Info

Publication number
CN104063506A
CN104063506A CN201410324553.2A CN201410324553A CN104063506A CN 104063506 A CN104063506 A CN 104063506A CN 201410324553 A CN201410324553 A CN 201410324553A CN 104063506 A CN104063506 A CN 104063506A
Authority
CN
China
Prior art keywords
repeated pages
repeated
pages
webpage
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410324553.2A
Other languages
English (en)
Other versions
CN104063506B (zh
Inventor
李羽
颜俊伟
李�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410324553.2A priority Critical patent/CN104063506B/zh
Publication of CN104063506A publication Critical patent/CN104063506A/zh
Application granted granted Critical
Publication of CN104063506B publication Critical patent/CN104063506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种重复网页识别方法和装置。所述重复网页识别方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。本发明实施例公开的重复网页识别方法和装置利用互联网网页之间的相互链接关系提高了重复网页的识别效率。

Description

重复网页识别方法和装置
技术领域
本发明实施例涉及网络数据通信技术领域,尤其涉及一种重复网页识别方法和装置。
背景技术
在互联网为广大民众普遍使用的今天,新的网站、网页层出不穷。在众多的网页中,有相当一部分是重复网页。重复网页是指实质内容相同的网页,例如,显示内容完全相同的网页;正文内容相同,但标题不同的网页;正文内容相同,但辅助内容不同的网页等。有研究显示,重复网页占据当今互联网上网页总数的70%。有数量如此之大的重复性的数据,对于任何一个搜索引擎来说,都不得不说是相当大的处理障碍。
现有的重复网页识别方案都是对互联网上的网页独立的进行重复网页识别,并没有利用网页之间的相互关系进行识别。因此,造成了重复网页的识别效率低下。
发明内容
有鉴于此,本发明实施例提出一种重复网页识别方法和装置,以提高重复网页的识别效率。
第一方面,本发明实施例提供了一种重复网页识别方法,所述方法包括:
从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;
依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
第二方面,本发明实施例提供了一种重复网页识别装置,所述装置包括:
原始重复网页识别模块,用于从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;
候选重复网页识别模块,用于依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
本发明实施例提供的重复网页识别方法和装置,通过从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合,依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合,从而利用网页之间的相互链接关系搜索重复网页,提高了重复网页的识别效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明第一实施例提供的重复网页识别方法的流程图;
图2是本发明第二实施例提供的重复网页识别方法中原始重复网页识别的流程图;
图3是本发明第三实施例提供的重复网页识别方法中候选重复网页识别的流程图;
图4是本发明第四实施例提供的重复网页识别方法的流程图;
图5是本发明第四实施例提供的重复网页识别方法的流程示意图;
图6是本发明第五实施例提供的重复网页识别方法中重复网页验证的流程图;
图7是本发明第六实施例提供的重复网页识别装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图1示出了本发明的第一实施例。
图1是本发明第一实施例提供的重复网页识别方法的流程图。所述重复网页识别方法由重复网页识别装置执行,并且,所述重复网页识别装置集成在用于识别重复网页的服务器中。
参见图1,所述重复网页识别方法包括:
S110,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合。
在互联网大为流行的今天,互联网上有数量规模巨大的网页。在这些不同的网页中,重复网页占据了其中相当的比重。所谓重复网页,就是指网页的内容代码完全相同,或者差异非常小的网页。由于重复网页的存在,搜索引擎在进行网页内容抓取的过程中就需要对重复的网页进行剔除,以便提供给用户唯一的网页信息。
通常情况下,在两个重复网页的相同位置的链接所指向的网页也是重复网页。本实施例通过网页之间的这种链接关系,迭代的识别互联网上的重复网页,从而提高重复网页识别的效率。
由于是根据网页之间的链接关系迭代的识别重复网页,所以首先需要从互联网网页中识别出至少一组原始重复网页,以作为后续进行迭代的基础。每组原始重复网页包括至少两个代码相同或者差异很小的重复网页。优选的,可以通过相同反向链接数量以及锚文本相似度识别出一组原始重复网页。
对于一个网络文档来说,所有指向该文档的链接都是它的反向链接。网页上将文本作为一个超链接,指向其他网页,则这样的链接被称为锚文本链接,而锚文本链接所对应的呈现给用户的文本被称为锚文本。所述锚文本相似度是锚文本代码中相同代码占全部锚文本代码的比率。
所述重复网页集合是由不同的重复网页组成的集合。在识别出原始重复网页以后,将识别得出的原始重复网页存储到所述重复网页集合。优选的,可以将所述原始重复网页的统一资源定位符(Uniform resource locator,URL)存储至所述重复网页集合,以记录所述原始重复网页。
S120,依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
针对每组原始重复网页,从互联网网页中识别到原始重复网页以后,可以从所述原始重复网页的链接所指向的网页中识别出另外一组重复网页。识别出的该组重复网页称为一级重复网页。类似的,可以从所述一级重复网页的链接所指向的网页中识别出二级重复网页。以此类推,可以依据互联网网页的链接关系,从互联网网页中识别出多级候选重复网页,添加到一个重复网页集合中。
优选的,可以利用XPATH以及锚文本从已识别的重复网页中识别重复链接,再计算所述重复链接所指向的网页的相似度,最后根据网页的相似度识别互联网网页是否有重复网页。其中,XPATH是可扩展标记语言(Extensible markuplanguage,XML)路径语言,是万维网联盟(World wide web consortium,W3C)关于查询部分XML文档的通用语言标准。
需要说明的是,本实施例提供的重复网页识别方法不仅适用于使用超文本标记语言(Hypertext markup language,HTML)写成的静态网页,而且对于使用动态服务器页面(Active server page,ASP)、Java服务器页面(Java serverpage,JSP)等语言写成的动态网页同样适用。
本实施例通过从互联网网页中识别至少一组原始重复网页,将所述至少一组原始重复网页存储至重复网页集合,再依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合,实现了通过互联网网页之间的链接关系迭代的识别候选重复网页,提高了重复网页的识别效率。
图2示出了本发明的第二实施例。
图2是本发明第二实施例提供的重复网页识别方法中原始重复网页识别的流程图。参见图2,所述重复网页识别方法以本发明第一实施例为基础,进一步的,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合包括:
S111,根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的锚文本以及链接地址。
所述互联网网页链接关系库是一个预先建立的数据库。该数据库中存储着预先收集的互联网上不同网页之间的链接关系。比如网页A的页面有一个链接指向了网页B,那么,在所述互联网网页链接关系库中就会存储网页A指向网页B的链接关系。所述互联网网页链接关系库是获取原始重复网页的依据。
所述设定网页资源是指互联网网页中的某个或某些网页,其作为识别重复网页的起始网页。可以从任意一个网页开始识别其重复网页。设定网页资源优选采用互联网上设定网页的统一资源定位符(Uniform resource locator,URL)来表示该网页。通过所述设定网页资源,可以获取所述设定网页资源所表示的设定网页的至少两个反向链接网页。所述反向链接网页,就是网页上有链接指向所述设定网页资源的网页。例如,A网页中存在一个链接,该链接指向B网页,B网页是设定网页资源对应的网页,则A网页即是B网页的反向链接网页。
本实施例是通过对所述至少两个反向链接网页的锚文本以及链接地址进行比较而识别重复网页的。因此,在获取设定网页资源的至少两个反向链接网页以后,获取所述至少两个反向链接网页的锚文本以及链接地址。
假设获取到了设定网页资源的两个反向链接网页:A网页及B网页。A网页和B网页上否有它们各自的反向链接,而每个反向链接都对应有它们各自的锚文本。分别获取A网页以及B网页的所有反向链接,以及每个反向链接对应的锚文本,以便对A网页同B网页是否可以组成重复网页组进行识别。
S112,将反向链接网页中相同反向链接数量超过预定相同反向链接数量阈值,并且锚文本相似度超过锚文本相似度阈值的反向链接网页作为重复网页组。
获取所述至少两个反向链接网页的锚文本以及链接地址之后,计算反向链接网页中相同反向链接的数量,以及反向链接网页的锚文本相似度。其中,反向链接是否相同可以通过比对反向链接地址来识别,也就是将链接地址完全相同的反向链接作为相同反向链接。假设设定网页资源有两个反向链接网页,A网页及B网页,并且相同反向链接数量阈值是45,那么当A网页与B网页上的链接地址完全相同的反向链接的数量超过45个的时候,A网页与B网页中相同反向链接数量就超过了预定相同反向链接数量阈值。
所述锚文本相似度可以通过计算相同锚文本在所有锚文本代码中所占的比率而计算得到。计算所述反向链接网页的相同反向链接数量以及锚文本相似度以后,将相同反向链接数量超过预定的相同反向链接数量阈值,且锚文本相似度超过锚文本相似度阈值的反向链接网页作为重复网页组。
S113,计算所述重复网页组中网页的网页相似度,并将相似度满足设定阈值的网页作为一组原始重复网页。
通过计算相同反向链接数量及锚文本相似度确定重复网页组之后,计算所述重复网页组中网页的网页相似度。所述网页相似度是不同网页之间相同代码占网页所有代码的比率。计算所述重复网页组中网页的网页相似度之后,将所述网页的网页相似度与设定阈值进行比较,并将网页相似度大于设定阈值的网页作为一组原始重复网页。
本实施例通过根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的锚文本以及链接地址,根据相同反向链接数量以及锚文本相似度确定重复网页组,并根据重复网页组中网页的网页相似度确定原始重复网页,使得能够根据设定网页资源获取原始重复网页,为迭代计算重复网页提供了基础。
图3示出了本发明的第三实施例。
图3是本发明第三实施例提供的重复网页识别方法中候选重复网页识别的流程图。参见图3,所述重复网页识别方法以本发明第一实施例为基础,进一步的,依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合包括:
S121,将所述至少一组原始重复网页作为当前网页,根据当前网页上的锚文本识别无效链接,并将所述无效链接从当前网页上去除。
所述原始重复网页中包括若干网页链接,其中的一部分网页链接有其对应的锚文本。
有一些锚文本对应的网页链接对于识别重复网页是无效的。比如锚文本“首页”,其对应的网页链接一般都指向同一个网站的一个固定页面,因此,该锚文本对应的网页链接对于识别重复网页是无效的。将这类锚文本对应的链接定义为无效链接。此外,其他对识别重复网页无帮助的链接也可以视为无效链接,可以根据需求设置关键词、模板等,从而在网页中按需清除掉无效链接,以免干扰后续识别工作。
在识别重复网页的过程中,首先将所述原始重复网页作为当前网页,识别当前网页上的锚文本来识别无效链接,然后将无效链接从当前网页中去除,以避免对候选重复网页的误识别。
S122,获取当前网页中XPATH相同、锚文本相同或相近的重复链接。
XPATH是可扩展标记语言(Extensible markup language,XML)路径语言,是万维网联盟(World wide web consortium,W3C)关于查询部分XML文档的通用语言标准。XPATH给出从某个节点起的查询路径,搜索文档。使用XPATH可以在XML层次结构中快速定位和提取信息,它的内建函数提供了全面的功能,可以方便的处理数值及文本数据。XPATH本质上是与具有层次结构的XML数据模型相匹配的查询语言,它可以通过任何方向浏览树来选择节点,并根据节点的值和位置应用谓词。
由于HTML与XML语言的相似性,而大部分的网页都是使用HTML语言编写而成的,所以,可以使用XPATH对网页中不同链接对应的节点进行定位。如果两个链接在当前网页中的XPATH相同,则说明这两个链接在当前网页中所在的位置相同。利用这一点,本实施例通过XPATH来选择重复链接。
选择重复链接还需要参考链接的锚文本。如果两个链接在当前网页上的XPATH相同,并且其对应的锚文本相同,那么这两个链接是重复链接;另外,如果两个链接在当前网页上的XPATH相同,而且其对应的锚文本相近,则这两个链接也被认为是重复链接。而链接对应的锚文本是否相近可以通过预先配置的锚文本近义词词典来进行辨认。
S123,将所述重复链接指向的网页作为候选重复网页存储至重复网页集合。
所述重复网页集合是用来存储重复网页的集合。在通过XPATH以及锚文本识别出重复链接以后,将所述重复链接指向的网页作为候选重复网页存储至所述重复网页集合。
S124,将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操作,直至获取到的新的候选重复网页的数量小于或等于设定稳定值。
在根据XPATH以及锚文本识别出所述原始重复网页所直接链接的候选重复网页以后,再将所述候选重复网页作为当前网页,迭代的获取当前网页所直接连接的候选重复网页,也就是下一级候选重复网页。
在不断迭代获取下一级候选重复网页的过程中,所述重复网页集合中存储的网页的数量会不断增长。由于互联网网页的总量虽然庞大,但毕竟有限,所以不断迭代获取下一级候选重复网页的过程中,所述重复网页集合中的网页数量会逐渐稳定在一个数量上,也就是获取到的信息候选重复网页的数量小于或等于设定稳定值。此时,停止对所述候选重复网页的迭代获取,并以所述重复网页集合中存储的候选重复网页作为最终获取重复网页的结果。
本实施例通过迭代的执行从网页上去除无效链接,利用锚文本以及XPATH识别重复链接,以及将所述重复链接所指向的网页存储至重复网页集合,实现了根据互联网上网页之间的相互连接关系获取重复网页,进一步的提高了重复网页的识别效率。
图4及图5示出了本发明的第四实施例。
图4是本发明第四实施例提供的重复网页识别方法的流程图。所述重复网页识别方法以本发明第一实施例为基础,进一步的,在依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合之后,还包括:对所述重复网页集合中的重复网页是否重复进行验证。
参见图4,所述重复网页识别方法包括:
S410,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合。
S420,依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
S430,对所述重复网页集合中的重复网页是否重复进行验证。
通过XATH以及锚文本相似度对重复网页进行识别已经具有很好的识别率,因此,所述重复网页集合中存储的候选重复网页大部分就是重复网页。但是,不能排除通过XPATH以及锚文本相似度识别出的候选重复网页实际上内容完全不同。所以需要对所述重复网页集合中的重复网页是否重复进行验证。
对重复网页的验证可以通过读取所述重复网页的内容,再计算重复网页之间的网页相似度,最后认定网页相似度高于预定阈值的网页为重复网页。
图5是本发明第四实施例提供的重复网页识别方法的流程示意图。参见图5,执行所述重复网页识别方法的服务器首先从互联网中进行原始重复网页的获取501,然后对获取到的原始重复网页进行重复特征提取502。提取到所述原始重复网页的重复特征以后,根据预先建立的互联网网页链接关系库511迭代的进行候选重复网页获取503,并将获取的候选重复网页存入重复页面集合512。最后,对所述重复页面集合512中存储的重复页面进行页面抓取504和结果验证505。
本实施例通过在迭代获取重复网页后,通过页面读取对所述重复网页集合中的重复网页进行验证,进一步的提高了对重复网页进行识别的准确率。
图6示出了本发明的第五实施例。
图6是本发明第五实施例提供的重复网页识别方法中重复网页验证的流程图。参见图6,所述重复网页识别方法以本发明第四实施例为基础,进一步的,对所述重复网页集合中的重复网页是否重复进行验证包括:
S431,抓取所述重复网页集合中重复网页的代码。
在进行重复网页验证之前,所述重复网页集合中存储有原始重复网页以及候选重复网页。将所述原始重复网页以及候选重复网页统称为重复网页。
对所述重复网页集合中的重复网页是否重复进行验证,可以是比对所述重复网页集合中重复网页的网页内容,并将网页内容完全相同或者基本相同的网页确认为实际重复网页。
由于需要对重复网页的网页内容进行比对,所以首先需要抓取所述重复网页集合中重复网页的代码。
S432,根据所述重复网页的代码计算重复网页的网页相似度。
所述网页相似度是网页代码中相同代码占全部网页代码的比率。在抓取重复网页的代码以后,根据所抓取的重复网页的代码计算所述重复网页的相似度。计算的过程可以是,首先统计所述重复网页中相同代码的代码量,再统计所述重复网页的总代码量,最后依据相同代码的代码量与总代码量的比值确定所述网页相似度。
S433,确认网页相似度高于相似度阈值的重复网页作为实际重复网页。
计算所述重复网页的网页相似度以后,将所述网页相似度高于相似度阈值的重复网页作为实际重复网页。
本实施例通过抓取重复网页的网页代码,计算重复网页的网页相似度,以及确认网页相似度高于相似度阈值的重复网页为实际重复网页,实现了对重复网页的验证,提高了对重复网页进行识别的准确率。
图7示出了本发明的第六实施例。
图7是本发明第六实施例提供的重复网页识别装置的结构图。参见图7,所述重复网页识别装置包括:原始重复网页识别模块710以及候选重复网页识别模块720。
所述原始重复网页识别模块710用于从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合。
所述候选重复网页识别模块720用于依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
优选的,所述重复网页识别装置还包括:重复网页验证模块730。
所述重复网页验证模块730用于在从与所述至少一组原始重复网页有链接关系的网页中识别重复网页,并将该重复网页存储至重复网页集合之后,对所述重复网页集合中的重复网页是否重复进行验证。
优选的,所述原始重复网页识别模块710包括:特征提取单元711、重复网页组确定单元712以及重复网页确定单元713。
所述特征提取单元711用于根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的锚文本以及链接地址。
所述重复网页组确定单元712用于将反向链接网页中相同反向链接数量超过预定相同反向链接数量阈值,并且锚文本相似度超过锚文本相似度阈值的反向链接网页作为重复网页组。
所述重复网页确定单元713用于计算所述重复网页组中网页的网页相似度,并将相似度满足设定阈值的网页作为一组原始重复网页。
优选的,所述锚文本相似度是锚文本代码中相同代码占全部锚文本代码的比率。
优选的,所述候选重复网页识别模块720包括:无效链接去除单元721、候选链接获取单元722、重复网页集合存储单元723以及执行单元724。
所述无效链接去除单元721用于将所述至少一组原始重复网页作为当前网页,根据当前网页上的锚文本识别无效链接,并将所述无效链接从当前网页上去除。
所述候选链接获取单元722用于获取当前网页中XPATH相同、锚文本相同或相近的重复链接。
所述重复网页集合存储单元723用于将所述重复链接指向的网页作为候选重复网页存储至重复网页集合。
所述执行单元724用于将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操作,直至获取到的新的候选重复网页的数量小于或等于设定稳定值。
优选的,所述重复网页验证模块730包括:代码抓取单元731、网页相似度计算单元732以及重复网页确定单元733。
所述代码抓取单元731用于抓取所述重复网页集合中重复网页的代码。
所述网页相似度计算单元732用于根据所述重复网页的代码计算重复网页的网页相似度。
所述重复网页确定单元733用于确认网页相似度高于相似度阈值的重复网页作为实际重复网页。
优选的,所述网页相似度是网页代码中相同代码占全部网页代码的比率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种重复网页识别方法,其特征在于,包括:
从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;
依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
2.根据权利要求1所述的方法,其特征在于,在依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合之后,还包括:
对所述重复网页集合中的重复网页是否重复进行验证。
3.根据权利要求1或2所述的方法,其特征在于,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合包括:
根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的锚文本以及链接地址;
将反向链接网页中相同反向链接数量超过预定相同反向链接数量阈值,并且锚文本相似度超过锚文本相似度阈值的反向链接网页作为重复网页组;
计算所述重复网页组中网页的网页相似度,并将相似度满足设定阈值的网页作为一组原始重复网页。
4.根据权利要求3所述的方法,其特征在于,所述锚文本相似度是锚文本代码中相同代码占全部锚文本代码的比率。
5.根据权利要求1或2所述的方法,其特征在于,从与所述至少一组原始重复网页有链接关系的网页中识别候选重复网页,并将所述候选重复网页存储至重复网页集合包括:
将所述至少一组原始重复网页作为当前网页,根据当前网页上的锚文本识别无效链接,并将所述无效链接从当前网页上去除;
获取当前网页中XPATH相同、锚文本相同或相近的重复链接;
将所述重复链接指向的网页作为候选重复网页存储至重复网页集合;
将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操作,直至获取到的新的候选重复网页的数量小于或等于设定稳定值。
6.根据权利要求2所述的方法,其特征在于,对所述重复网页集合中的重复网页是否重复进行验证包括:
抓取所述重复网页集合中重复网页的代码;
根据所述重复网页的代码计算重复网页的网页相似度;
确认网页相似度高于相似度阈值的重复网页作为实际重复网页。
7.根据权利要求6所述的方法,其特征在于,所述网页相似度是网页代码中相同代码占全部网页代码的比率。
8.一种重复网页识别装置,其特征在于,包括:
原始重复网页识别模块,用于从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;
候选重复网页识别模块,用于依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
9.根据权利要求8所述的装置,其特征在于,还包括:
重复网页验证模块,用于在从与所述至少一组原始重复网页有链接关系的网页中识别重复网页,并将该重复网页存储至重复网页集合之后,对所述重复网页集合中的重复网页是否重复进行验证。
10.根据权利要求8或9所述的装置,其特征在于,所述原始重复网页识别模块包括:
特征提取单元,用于根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的锚文本以及链接地址;
重复网页组确定单元,用于将反向链接网页中相同反向链接数量超过预定相同反向链接数量阈值,并且锚文本相似度超过锚文本相似度阈值的反向链接网页作为重复网页组;
重复网页确定单元,用于计算所述重复网页组中网页的网页相似度,并将相似度满足设定阈值的网页作为一组原始重复网页。
11.根据权利要求10所述的装置,其特征在于,所述锚文本相似度是锚文本代码中相同代码占全部锚文本代码的比率。
12.根据权利要求8或9所述的装置,其特征在于,所述候选重复网页识别模块包括:
无效链接去除单元,用于将所述至少一组原始重复网页作为当前网页,根据当前网页上的锚文本识别无效链接,并将所述无效链接从当前网页上去除;
候选链接获取单元,用于获取当前网页中XPATH相同、锚文本相同或相近的重复链接;
重复网页集合存储单元,用于将所述重复链接指向的网页作为候选重复网页存储至重复网页集合;
执行单元,用于将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操作,直至获取到的新的候选重复网页的数量小于或等于设定稳定值。
13.根据权利要求9所述的装置,其特征在于,所述重复网页验证模块包括:
代码抓取单元,用于抓取所述重复网页集合中重复网页的代码;
网页相似度计算单元,用于根据所述重复网页的代码计算重复网页的网页相似度;
重复网页确定单元,用于确认网页相似度高于相似度阈值的重复网页作为实际重复网页。
14.根据权利要求13所述的装置,其特征在于,所述网页相似度是网页代码中相同代码占全部网页代码的比率。
CN201410324553.2A 2014-07-08 2014-07-08 重复网页识别方法和装置 Active CN104063506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410324553.2A CN104063506B (zh) 2014-07-08 2014-07-08 重复网页识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410324553.2A CN104063506B (zh) 2014-07-08 2014-07-08 重复网页识别方法和装置

Publications (2)

Publication Number Publication Date
CN104063506A true CN104063506A (zh) 2014-09-24
CN104063506B CN104063506B (zh) 2017-04-12

Family

ID=51551220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410324553.2A Active CN104063506B (zh) 2014-07-08 2014-07-08 重复网页识别方法和装置

Country Status (1)

Country Link
CN (1) CN104063506B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965902A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种富集化url的识别方法和装置
CN105069169A (zh) * 2015-08-31 2015-11-18 国家计算机网络与信息安全管理中心 一种网站镜像的检测方法及装置
CN105095386A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 确定网页质量的装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226533A (zh) * 2007-12-28 2008-07-23 腾讯科技(北京)有限公司 一种网页的排重方法及排重系统
US20080263026A1 (en) * 2007-04-20 2008-10-23 Amit Sasturkar Techniques for detecting duplicate web pages
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080263026A1 (en) * 2007-04-20 2008-10-23 Amit Sasturkar Techniques for detecting duplicate web pages
CN101226533A (zh) * 2007-12-28 2008-07-23 腾讯科技(北京)有限公司 一种网页的排重方法及排重系统
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965902A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种富集化url的识别方法和装置
CN105095386A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 确定网页质量的装置及方法
WO2017000659A1 (zh) * 2015-06-30 2017-01-05 北京奇虎科技有限公司 一种富集化url的识别方法和装置
CN105069169A (zh) * 2015-08-31 2015-11-18 国家计算机网络与信息安全管理中心 一种网站镜像的检测方法及装置
CN105069169B (zh) * 2015-08-31 2019-03-05 国家计算机网络与信息安全管理中心 一种网站镜像的检测方法及装置

Also Published As

Publication number Publication date
CN104063506B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
US8185530B2 (en) Method and system for web document clustering
US9489401B1 (en) Methods and systems for object recognition
CN106126648B (zh) 一种基于重做日志的分布式商品信息爬虫方法
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN102171689B (zh) 用于提供搜索结果的方法、系统
US7680858B2 (en) Techniques for clustering structurally similar web pages
US7676465B2 (en) Techniques for clustering structurally similar web pages based on page features
US9141697B2 (en) Method, system and computer-readable storage medium for detecting trap of web-based perpetual calendar and building retrieval database using the same
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
CN102945244A (zh) 基于句号特征字串的中文网页重复文档检测和过滤方法
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN103136360A (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN114417197A (zh) 一种访问记录处理方法、装置及存储介质
US9514113B1 (en) Methods for automatic footnote generation
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN102236696A (zh) 从非结构化文本提取可伸缩增量语义实体和相关性
US11263062B2 (en) API mashup exploration and recommendation
JP2017157193A (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
Chen et al. Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors
US20170235835A1 (en) Information identification and extraction
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN104063506A (zh) 重复网页识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant