CN114443927A

CN114443927A - 一种高效网络爬取方法及装置

Info

Publication number: CN114443927A
Application number: CN202210061069.XA
Authority: CN
Inventors: 付圣峰; 楚立鹏; 成霄; 范强; 孙慧; 刘俊荣; 王亮亮; 张仁群; 张博; 王永皎; 尤晓艳
Original assignee: Qingdao Zhihui Taiding Technology Development Co ltd; China Academy of Electronic and Information Technology of CETC
Current assignee: Qingdao Zhihui Taiding Technology Development Co ltd; China Academy of Electronic and Information Technology of CETC
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-05-06

Abstract

本发明公开了一种高效网络爬取方法及装置，本发明基于预设关键词和初检的种子URL来设置分布式爬虫框架，通过该分布式爬虫框架来对排名后的种子URL排名进行数据爬取，然后在对所爬取的URL重新进行URL排名，再基于该新URL排名再次进行数据爬取，重复执行这一步骤，直到重复执行爬取数据的次数达到预设的数据爬取次数阈值时候结束数据爬取，最后将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。也即本发明是不断对所爬取到的URL进行排名，然后按照排名来进行数据爬取，从而实现高效地对快速扩张的网络资源规模进行有效爬取。

Description

一种高效网络爬取方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种高效网络爬取方法及装置。

背景技术

在互联网高速发展下，信息技术的完善与优化，使得人们能够了解各类信息，所以互联网成了海量信息的载体，因此互联网目前是分析行业趋势、监视竞争对手或者获取销售线索的最佳场所，数据采集以及分析能力已成为驱动业务决策的关键技能。网络爬虫技术是实现上述情况的最好手段。但常规的网络爬虫技术并不能很好地应对现在快速扩张的网络资源规模进行有效爬取。

发明内容

本发明提供了一种高效网络爬取方法及装置，以解决现有技术中不能高效对快速扩张的网络资源规模进行爬取的问题。

第一方面，本发明提供了一种高效网络爬取方法，该方法包括：步骤一、基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架，通过所述分布式爬虫框架来基于所述种子URL排名进行数据爬取，其中，所述初步检索的网站为基于所述预设关键词检索到的网站；步骤二、根据所爬取的URL重新进行URL排名，并基于该新URL排名再次进行数据爬取；步骤三、重复执行步骤二，直到重复执行爬取数据的次数达到预设的数据爬取次数阈值，则结束数据爬取；步骤四、将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。

可选地，所述基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架，包括：基于预设的网络爬虫时间要求、所述预设关键词数量、当前可利用资源规模以及预设的数据爬取次数阈值来综合设置分布式爬虫框架。

可选地，所述方法还包括：通过所设置的分布式爬虫框架进行多线程并行的数据爬取，并通过多向链接数据库的方式，将分布式并发爬取到的URL并发存储到资源库中。

可选地，所述数据爬取次数阈值是根据预设的网络爬虫时间要求以及当前所爬取到的URL进行设定的。

可选地，所述方法还包括：根据当前所爬取到的URL调整所述数据爬取次数阈值。

可选地，所述预设匹配度阈值为根据最终爬取的URL量以及预设关键词的爬取力度进行确定。

可选地，所述基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架，包括：基于预设关键词和初步检索到的出现频次超过预设次数的种子URL来设置分布式爬虫框架。

可选地，所述方法还包括：构建动态IP池，并在监测到当前爬取数据的IP受限时，则采用新IP的方式以规避反爬机制。

第二方面，本发明提供了一种用于实现上述任一种所述高效网络爬取方法的装置，装置包括：

控制器，用于基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架，并根据所述分布式爬虫框架进行线程的合理分配，同时通过触发所述解析器来控制所有线程启动数据爬取；

解析器，用于通过所述控制器设置的分布式爬虫框架来基于所述种子URL排名进行数据爬取，其中，所述初步检索的网站为基于所述预设关键词检索到的网站，并根据所爬取的URL重新进行URL排名，并基于该新URL排名再次进行数据爬取，重复执行根据所爬取的URL重新进行URL排名，并基于该新URL排名再次进行数据爬取的步骤，直到重复执行爬取数据的次数达到预设的数据爬取次数阈值，则结束数据爬取，然后将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果；

资源库，用于通过多向链接数据库的方式，将所述最终爬取结果存储到资源库中。

第三方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现上述任一种所述的高效网络爬取方法。

本发明有益效果如下：

本发明基于预设关键词和初检的种子URL来设置分布式爬虫框架，通过该分布式爬虫框架来对排名后的种子URL排名进行数据爬取，然后在对所爬取的URL重新进行URL排名，再基于该新URL排名再次进行数据爬取，重复执行这一步骤，直到重复执行爬取数据的次数达到预设的数据爬取次数阈值时候结束数据爬取，最后将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。也即本发明是不断对所爬取到的URL进行排名，然后按照排名来进行数据爬取，从而实现高效地对快速扩张的网络资源规模进行有效爬取。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明第一实施例提供的一种高效网络爬取方法的流程示意图；

图2是本发明第一实施例提供的分布式网页爬取示意图。

具体实施方式

以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本发明第一实施例提供了一种高效网络爬取方法，参见图1，该方法包括：

S101、基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架，通过所述分布式爬虫框架来基于所述种子URL排名分布式并行数据爬取，其中，所述初步检索的网站为基于所述预设关键词检索到的网站；

该预设关键词可以是技术人员根据需要进行设定的，给预设关键词的个数也可以根据需要进行设定，然后基于该预设关键词进行初步检索得到一定数量的网站，综合考虑该初步检索到的网站以及上述所设的关键词，来整体设置分布式爬虫框架，再通过分布式爬虫框架来基于种子URL排名并行进行数据爬取；

具体实施时，本发明实施例是基于预设关键词和初步检索到的出现频次超过预设次数的种子URL来设置分布式爬虫框架。

也即，在具体实施时，本发明可以根据实际情况来选择种子URL，可以是根据出现频次，当然也可以基于其他条件来筛选种子URL。

S102、根据所爬取的URL重新进行URL排名，并基于该新URL排名再次进行数据爬取；

S103、重复执行步骤二，直到重复执行爬取数据的次数达到预设的数据爬取次数阈值，则结束数据爬取；

S104、将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。

也即，本发明实施例是在进行数据爬取过程中，会不断根据所爬取的数据重新进行URL排名，然后再进一步进行数据爬取，通过这种调整URL排名的方式能够高效地对网络资源进行爬取，最后将超过预设匹配度阈值的URL作为最终爬取结果作为输出。

具体实施时，本发明实施例所述基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架，包括：基于预设的网络爬虫时间要求、所述预设关键词数量、当前可利用资源规模以及预设的数据爬取次数阈值来综合设置分布式爬虫框架。

也就是说，本发明实施例是通过控制来综合根据网络爬虫时间要求、预设关键词数量、当前可利用资源规模以及预设的数据爬取次数阈值来设置分布式爬虫框架的。

如图2所示，本发明实施例是通过所设置的分布式爬虫框架进行多线程并行的数据爬取，并通过多向链接数据库的方式，将分布式并发爬取到的URL并发存储到资源库中，通过该并行的处理方式能够大大提高对网络资源的爬取效率。

其中，本发明实施例所述数据爬取次数阈值是根据预设的网络爬虫时间要求以及当前所爬取到的URL进行设定的。具体实施时，本领域技术人员可以根据实际需要进行任意设定，本发明对此不作具体限定。

需要说明的是，本发明实施例中预设匹配度阈值是根据最终爬取的URL量以及预设关键词的爬取力度进行确定的。当然在具体实施时，还可以根据当前所爬取到的URL调整所述数据爬取次数阈值，如在爬取时间缩小的情况下，就可能需要调整数据爬取次数阈值，以确保完成爬取任务。

具体实施时，本发明所述方法还包括：构建动态IP池，并在监测到当前爬取数据的IP受限时，则采用新IP的方式以规避反爬机制。

简单来说，为了防止网站反爬机制的中断限制，本发明通过建立动态IP池的方式，动态IP池采用大规模IP管理，当监测到IP限制时，这个IP将被废止，采用新IP的方式规避反爬机制。在保证大量IP的情况下，这种方式可以有效的避免因为IP问题造成的爬取内容的中断，提高爬取系统的稳定性。

总体来说，本发明克服了单机爬取效率问题，采用分布式并发爬取技术，不但提高了内容获取效率，还保证了爬取系统的稳定性。针对海量的URL，采用了本发明的管理策略，提升了关键内容分离效率。同时针对网站的反爬机制，在中断时采用动态优化IP池及自动续传的方式，防止系统爬取中断问题。

下面将通过一个具体的例子来对本发明所述的方法进行详细的解释和说明：

在本发明的网络爬虫的系统框架中，主过程由控制器、解析器及资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页(即上述的初步检索的网站)，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源，一般都采用大型的数据库存储，如MySQL数据库，并对其建立索引。

具体来说，本发明实施例的控制器是网络爬虫的中央控制器，它主要负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的文本进行处理，如过滤功能、抽取特殊HTML标签的功能及分析数据功能等。资源库主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。

网络爬虫系统一般会选择一些比较重要的、出现频次高较大的网站的URL作为种子URL集合。网络爬虫系统以这些种子集合作为初始URL开始数据的抓取。因为网页中含有链接信息，通过已有网页的URL会得到一些新的URL，可以把网页之间的指向结构视为一个森林，每个种子URL对应的网页是森林中的一棵树的根节点。

这样，网络爬虫系统就可以根据广度优先算法或者深度优先算法遍历所有的网页。由于深度优先搜索算法可能会使爬虫系统陷入一个网站内部，不利于搜索比较靠近网站首页的网页信息，因此本发明设计了一种新型网页排序方法；

为了提高爬取系统的效率，采用分布式的爬取结构，主要涉及三个方面：

一是爬取策略：如果采用广度优先搜索算法采集网页，Web网络爬虫系统首先将种子URL放入下载队列，然后简单地从队首取出一个URL下载其对应的网页。得到网页的内容将其存储后，再经过解析网页中的链接信息可以得到一些新的URL，将这些URL加入下载队列。然后再取出一个URL，对其对应的网页进行下载，然后再解析，如此反复进行，直到遍历了整个网络或者满足某种条件后才会停止下来。这样势必导致系统效率下降。

本发明爬取算法借鉴了网页排名算法的思想，即对于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的网页排名值，计算完之后，将待抓取URL队列中的URL按照网页排名值的大小排列，并按照该顺序抓取页面。

具体来说，本发明可以是每抓取预设数量N的页面后，重新计算一次网页排名值。

二是海量URL管理：本发明分布式爬虫的选择策略是关键所在，主要需要在以下几个方面考虑。

本发明重新设计了一种分布式爬虫框架，可以更好的适应按照关键词精确抽取内容。

首先选取一部分精心挑选的种子URL，将这些URL放入任务队列，在之后于队列中从顺次取出待抓取的URL，解析DNS，得到主机的IP，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

搜索引擎设计的爬虫大多依赖类似HADOOP运行，HADOOP本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机爬虫快。本发明为了提高分布式爬取效率，采用多机多线程的方式，来实现分布式的系统构想。同时，通过多向链接数据库的方式，实现分布式并发内容存储，由此实现了分布式的高效。

利用反射的机制来加载和调用插件，使得程序的编写和调试都变得简单，在此基础上开发一套复杂的精抽取系统。为精抽取提供相应的插件挂载点。精抽取插件需要挂载在“页面解析”(parser)这个挂载点上，该挂载点作用是解析链接(为后续爬取提供URL)，以及为爬虫提供一些易抽取的网页信息(网页的meta信息、text文本等)。

系统通过集成的设计模块，将持久化数据存储到数据库。持久化数据的作用，不但能将URL信息(URL管理所需要的数据)存放到数据库，而且还可以进一步抽取结构化数据和非结构化数据。URL信息存取为进一步提取精细化数据提供了基础。

在版本管理方面，在SVN中的不断更新可以保持系统的稳定性，并用来开发精抽取的爬取系统，有利于保证相关项目的进度。

三是爬取过程的中断管理：本发明通过建立IP池的方式，防止网站反爬机制的中断限制。动态IP池采用大规模IP管理，当监测到IP限制时，这个IP将被废止，采用新IP的方式规避反爬机制。在保证大量IP的情况下，这种方式可以有效的避免因为IP问题造成的爬取内容的中断，提高爬取系统的稳定性。

本发明第二实施例提供了一种用于实现本发明第一实施例所述高效网络爬取方法的装置，该装置包括：

本发明实施例的相关内容可参见本发明第一实施例进行理解，在此不做详细论述。

本发明第三实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现本发明第一实施例中任一种所述的高效网络爬取方法。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种高效网络爬取方法，其特征在于，包括：

步骤一、基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架，通过所述分布式爬虫框架来基于所述种子URL排名进行分布式并行数据爬取，其中，所述初步检索的网站为基于所述预设关键词检索到的网站；

步骤二、根据所爬取的URL重新进行URL排名，并基于该新URL排名再次进行数据爬取；

步骤三、重复执行步骤二，直到重复执行爬取数据的次数达到预设的数据爬取次数阈值，则结束数据爬取；

步骤四、将所爬取到的所有URL中与预设关键词的匹配度超过预设匹配度阈值的URL作为最终爬取结果。

2.根据权利要求1所述的方法，其特征在于，所述基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架，包括：

基于预设的网络爬虫时间要求、所述预设关键词数量、当前可利用资源规模以及预设的数据爬取次数阈值来综合设置分布式爬虫框架。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所设置的分布式爬虫框架进行多线程并行的数据爬取，并通过多向链接数据库的方式，将分布式并发爬取到的URL并发存储到资源库中。

4.根据权利要求1-3中任意一项所述的方法，其特征在于，

所述数据爬取次数阈值是根据预设的网络爬虫时间要求以及当前所爬取到的URL进行设定的。

5.根据权利要求1-3中任意一项所述的方法，其特征在于，所述方法还包括：

根据当前所爬取到的URL调整所述数据爬取次数阈值。

6.根据权利要求1-3中任意一项所述的方法，其特征在于，

所述预设匹配度阈值为根据最终爬取的URL量以及预设关键词的爬取力度进行确定。

7.根据权利要求1-3中任意一项所述的方法，其特征在于，所述基于预设关键词和初步检索的网站得到种子URL来设置分布式爬虫框架，包括：

基于预设关键词和初步检索到的出现频次超过预设次数的种子URL来设置分布式爬虫框架。

8.根据权利要求1-3中任意一项所述的方法，其特征在于，所述方法还包括：

构建动态IP池，并在监测到当前爬取数据的IP受限时，则采用新IP的方式以规避反爬机制。

9.一种用于实现权利要求1-8中任意一项所述高效网络爬取方法的装置，其特征在于，该装置包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现权利要求1-8中任意一项所述的高效网络爬取方法。