CN111274467A

CN111274467A - 面向大规模数据采集的三层分布式去重架构和方法

Info

Publication number: CN111274467A
Application number: CN201911413796.2A
Authority: CN
Inventors: 杨文超; 苏雪阳
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-12

Abstract

本发明公开了一种针对大规模数据采集的三层分布式去重架构和方法，架构包括本地缓存层、分布式缓存层、分布式索引层，本地缓存层用于对采集过的URL和网页内容分别进行MD5值计算，使用Hash表结构保存在本地；进行去重判断时，首先从本地缓存中进行；分布式缓存层使用memcached保存所有爬虫近期爬取的网页信息的MD5值；分布式索引层使用SolrCloud服务器，存储全量的主键MD5值，独立于采集结果实体数据索引，并与之一一对应，确保了采集数据去重的完备性，并分担了实体数据索引的性能压力。本发明结合本地缓存、分布式缓存及分布式索引来高效地判断重复网页，特别适于网页规模庞大、内容更新频繁需要反复爬取的应用场景。

Description

面向大规模数据采集的三层分布式去重架构和方法

技术领域

本发明涉及分布式网络数据处理技术领域，具体涉及一种面向大规模数据采集的三层分布式去重架构和方法。

背景技术

随着互联网规模的快速增长，互联网数据的价值越来越受到重视。互联网数据具有数据量巨大、更新频率快、价值密度低等特点，需要进行大规模、分布式的数据采集。各个爬虫服务器之间高效的网页去重工作是分布式数据采集的重点和难点。

目前已有的网页去重方法主要分为两类，研究最多的一类是对相似网页去重的研究，这种方法的一个主要功能是可以发现网页的镜像；另外一类认为URL完全相同的网页称为重复网页。

针对相似网页去重方法中，比较典型的是基于聚类和特征码的方法。基于聚类的方法时间复杂度过高，不适合大规模数据采集；基于特征码的精确匹配不能抵抗网页转载时产生的噪音。排除相同URL方法易于实现，但未利用网页文本内容结构信息，不能对转载造成的重复网页去重。

发明内容

本发明的目的在于提供一种面向大规模数据采集的三层分布式去重架构和方法。

实现本发明目的的技术解决方案为：一种面向大规模数据采集的分布式去重架构，包括：

本地缓存层，用于对网页URL和网页内容进行MD5值计算，采用Hash表结构保存在本地，供本地爬虫程序进行去重；

分布式缓存层，使用memcached服务器，存储所有爬虫程序在近期采集的网页内容的MD5值，为分布式爬虫提供高速主键缓存与读取查重能力；

分布式索引层，使用SolrCloud服务器，存储全量的主键MD5值，独立于采集结果实体数据索引，并与之一一对应。

进一步的，所述架构用于新闻类网站数据采集去重时，保存对新闻正文MD5值的同时，对新闻内容的标题、发布时间、URL进行MD5值计算和存储。

进一步的，所述架构用于网站评论类数据采集去重时，对评论所在页面URL、评论编号、日期、内容进行MD5值计算和存储。

进一步的，所述架构用于社交网站数据采集去重时，对目标社交媒体用户ID、内容、发布日期、内容编号进行MD5值计算和存储。

进一步的，所述架构用于智库类网站数据采集去重时，对目标智库网站发布的页面URL、文档URL、页面内容、文档内容进行MD5值计算和存储。

一种面向大规模数据采集的三层分布式去重方法，该方法包括：

本地缓存层去重，对网页URL和网页内容进行MD5值计算和本地缓存对比去重；

分布式缓存去重，对网页URL和网页内容进行MD5值计算和分布式缓存对比去重；

分布式索引去重，对网页URL和网页内容进行MD5值计算和分布式索引对比去重；

进一步的，所述的本地缓存层执行去重步骤为：

数据采集程序抓去URL内容，分别生成URL的MD5值和URL对应内容的MD5值，然后从本地缓存中查询URL的MD5值是否存在，如果不存在则从分布式缓存层查询，如果存在则从本地缓存中获取URL对应内容的MD5值对比，如果值相等的抛弃，如果不相等则更新入库。

进一步的，分布式缓存层执行去重步骤为：

从分布式缓存中查询URL的MD5值是否存在，如果不存在则从分布式索引查询，如果存在则从分布式缓存中获取URL对应内容的MD5值对比，如果值相等的抛弃，如果不相等则将目标URL的MD5值和URL对应内容的MD5值加入分布式缓存中。

进一步的，所述分布式缓存层新增或更新记录时，需要判断缓存中累计增加和更新的记录数量是否大于阈值K，若大于则将所有增加和更新记录写入分布式索引中。

进一步的，分布式索引层执行去重步骤为：

从分布式索引中查询网页URL和网页内容对应的MD5值是否存在，如果存在，则从分布式索引中获取该URL对应的网页内容的MD5值，与待查询网页MD5值对比；如果值相等则抛弃待查询网页，如果值不相等则将待查询URL和网页内容写入本地缓存和分布式缓存中。

与现有技术相比，本发明的技术效果为：本发明提出了一种三层分布式网页去重架构，结合本地缓存、分布式缓存及分布式索引来高效地判断重复网页，特别适于网页规模庞大、内容更新频繁需要反复爬取的应用场景。该架构可以支持分布式网络爬虫环境下大规模的网页去重需求，并且具有较好的可扩展性。

附图说明

图1是本发明三层分布式去重架构结构图。

图2是本发明面向大规模数据采集的三层分布式去重方法流程图。

具体实施方式

一种面向大规模数据采集的分布式去重架构，其特征在于，包括：

本地缓存层，用于对网页URL和网页内容进行MD5值计算，采用Hash表结构保存在本地，供本地爬虫程序进行快速去重；

分布式缓存层：使用memcached服务器，存储所有爬虫程序在近期采集的网页内容的MD5值，为分布式爬虫提供高速主键缓存与读取查重能力；

分布式索引层：使用SolrCloud服务器，存储全量的主键MD5值，独立于采集结果实体数据索引，并与之一一对应，确保了采集数据去重的完备性，并分担了实体数据索引的性能压力。

分布式去重架构，还用于：新闻类网站数据采集去重，保存对新闻正文MD5值的同时，对新闻内容的标题、发布时间、URL进行MD5值计算和存储。

分布式去重架构，还用于：网站评论类数据采集去重，对评论所在页面URL、评论编号、日期、内容等信息进行MD5值计算和存储。

分布式去重架构，还用于：社交网站数据采集去重，对目标社交媒体用户ID、内容、发布日期、内容编号等信息进行MD5值计算和存储。

分布式去重架构，其特征在于，还用于：智库类网站数据采集去重，对目标智库网站发布的页面URL、文档URL、页面内容、文档内容等信息进行MD5值计算和存储。

所述的本地缓存层执行去重步骤为：数据采集程序抓去URL内容，分别生成URL的MD5值和URL对应内容的MD5值，然后从本地缓存中查询URL的MD5值是否存在，如果不存在则从分布式缓存层查询，如果存在则从本地缓存中获取URL对应内容的MD5值对比，如果值相等的抛弃，如果不相等则更新入库。

分布式缓存层执行去重步骤为：从分布式缓存中查询URL的MD5值是否存在，如果不存在则从分布式索引查询，如果存在则从分布式缓存中获取URL对应内容的MD5值对比，如果值相等的抛弃，如果不相等则将目标URL的MD5值和URL对应内容的MD5值加入分布式缓存中。

分布式索引层执行去重步骤为：从分布式索引中查询网页URL和网页内容对应的MD5值是否存在，如果存在，则从分布式索引中获取该URL对应的网页内容的MD5值，与待查询网页MD5值对比；如果值相等则抛弃待查询网页，如果值不相等则将待查询URL和网页内容写入本地缓存和分布式缓存中。

所述分布式缓存层新增或更新记录时，需要判断缓存中累计增加和更新的记录数量是否大于阈值K，若大于则将所有增加和更新记录写入分布式索引中。

下面结合实施例对本发明进行详细说明。

实施例

图1示出了本发明的面向大规模数据采集的三层分布式去重架构，第一层为爬虫程序本地缓存，采集的网页首先会保存在本地缓存中，在进行去重判断时，首先会从本地缓存中进行。第二层为分布式缓存，其作为一个全局的去重缓存，缓存了所有爬虫最近一段时间内爬取的网页信息，分布式缓存既能够保证去重的高效性，也能够解决各个爬虫本地缓存信息不能在爬虫间共享的问题，通过访问分布式缓存，单台爬虫就能获取其它爬虫最近一段时间的爬取记录，从而判断网页是否已经被其它爬虫爬取过。第三层分布式索引存储所有爬取过的网页信息，爬虫爬取过的所有网页信息均保留在分布式索引中。

图2示出了本发明的面向大规模数据采集的三层分布式去重方法，该方法包括：

步骤1，爬取URL内容，分别生成URL的MD5值和URL对应内容的MD5值。

步骤2，从本地缓存中查询步骤1生成的URL的MD5是否存在；如果存在，则执行步骤3，如果不存在，则执行步骤7；

步骤3，从本地缓存中获取该URL对应的HTMl内容的MD5值，与步骤1中的HTMl内容的MD5值进行比较；如果值相等则抛弃，如果值不等则执行步骤4；

步骤4，爬取URL内容入库；

步骤5，更新当前URL的MD5值及HTMl内容的MD5值至本地缓存以及分布式缓存中；

步骤6，判断本地缓存累计增加和更新的记录数量是否大于阈值K，若大于则将所有增加和更新的记录写入分布式索引中，当前URL去重流程结束，执行队列中下一条URL去重；

步骤7，从分布式缓存中查询步骤1生成的URL的MD5是否存在；如果存在，则执行步骤8，如果不存在，则执行步骤9；

步骤8，从分布式缓存中获取该URL对应的HTMl内容的MD5值，与步骤1中的HTMl内容的MD5值进行比较；如果值相等则抛弃，如果值不等则执行步骤4；

步骤9，从分布式索引中查询步骤1生成的URL的MD5是否存在；如果存在，则执行步骤10，如果不存在，则执行步骤11；

步骤10，从分布式索引中获取该URL对应的HTMl内容的MD5值，与步骤1中的HTMl内容的MD5值进行比较；如果值相等则抛弃，如果值不等则执行步骤4；

步骤11，先执行步骤4，并将URL的MD5及对应HTMl内容MD5值分别写入本地缓存和分布式缓存中，再执行步骤6。

Claims

1.一种面向大规模数据采集的分布式去重架构，其特征在于，包括：

2.根据权利要求1所述的面向大规模数据采集的分布式去重架构，其特征在于，所述架构用于新闻类网站数据采集去重时，保存对新闻正文MD5值的同时，对新闻内容的标题、发布时间、URL进行MD5值计算和存储。

3.根据权利要求1所述的面向大规模数据采集的分布式去重架构，其特征在于，所述架构用于网站评论类数据采集去重时，对评论所在页面URL、评论编号、日期、内容进行MD5值计算和存储。

4.根据权利要求1所述的面向大规模数据采集的分布式去重架构，其特征在于，所述架构用于社交网站数据采集去重时，对目标社交媒体用户ID、内容、发布日期、内容编号进行MD5值计算和存储。

5.根据权利要求1所述的面向大规模数据采集的分布式去重架构，其特征在于，所述架构用于智库类网站数据采集去重时，对目标智库网站发布的页面URL、文档URL、页面内容、文档内容进行MD5值计算和存储。

6.一种面向大规模数据采集的三层分布式去重方法，其特征在于，该方法包括：

分布式索引去重，对网页URL和网页内容进行MD5值计算和分布式索引对比去重。

7.根据权利要求6所述的面向大规模数据采集的三层分布式去重方法，其特征在于，所述的本地缓存层执行去重步骤为：

数据采集程序抓去URL内容，分别生成URL的MD5值和URL对应内容的MD5 值，然后从本地缓存中查询URL的MD5值是否存在，如果不存在则从分布式缓存层查询，如果存在则从本地缓存中获取URL对应内容的MD5值对比，如果值相等的抛弃，如果不相等则更新入库。

8.根据权利要求6所述的面向大规模数据采集的三层分布式去重方法，其特征在于，分布式缓存层执行去重步骤为：

9.根据权利要求8所述的分布式缓存层，其特征在于，所述分布式缓存层新增或更新记录时，需要判断缓存中累计增加和更新的记录数量是否大于阈值K，若大于则将所有增加和更新记录写入分布式索引中。

10.根据权利要求6所述的面向大规模数据采集的三层分布式去重方法，其特征在于，分布式索引层执行去重步骤为：