CN106055619A

CN106055619A - 一种基于动态的网页抓取方法及装置

Info

Publication number: CN106055619A
Application number: CN201610361699.3A
Authority: CN
Inventors: 文辉
Original assignee: Information Technology (shanghai) Co Ltd
Current assignee: Information Technology (shanghai) Co Ltd
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2016-10-26

Abstract

本发明公开了一种基于动态的网页抓取方法，包括如下步骤：设置至少两个队列，爬取待抓取网页的url及其优先级并存储至所述至少两个队列，根据所述至少两个队列存储的url的优先权进行调度；接收调度的所述至少两个队列中的元素，获取待解析的所述元素的url；根据调度的所述队列元素的url进行解析获取网页内容。本发明可以同时对抓取解析的流程和link库的url按照优先级进行调度，保证优先级高的网页优先爬取；通过至少两个队列的调度提高网页出队和入队效率，时间复杂度为logN，大大提高网页的爬取效率。

Description

一种基于动态的网页抓取方法及装置

技术领域

本发明属于互联网技术领域，具体而言，涉及一种基于动态的网页抓取方法及装置。

背景技术

网络爬虫对海量的互联网网页爬取的过程中面临的一个重要问题就是网页的重复抓取问题。为避免网页重复抓取目标不同，在面对一些需要重复抓取的网页(例如快速更新的新闻资讯类网页、定时更新的网页及需实时抓取需求的网页)信息时，需要根据网页的优先级进行网页的抓取。例如，聚焦爬虫是一种面向特定主题的爬虫系统，爬取过程中会过滤与主题无关的url，并调度待执行url的抓取。由于是面对特定主题(视频、新闻)，可能存在大量的网页重复抓取需求。比如一个新闻聚合类网页，可能就需要每隔4个小时重复爬取一次，对于一个网络小说详情页，需要每天重复爬取一次，以便较快的获取更新内容。可以看出，重复爬取网页的时间频率不同，优先级也不同，需要根据网页优先级调度抓取。

现有的网页抓取过程中存在如下难点：1、需要快速的调度网页并抓取，充分利用抓取能力爬虫的通用调度策略是利用网页数据库(link库)存储待抓取url，抓取过程中需要从link库选择出优先级较高的url并执行抓取，并依次进行。当网页数量巨大达到百万级别时，每次选择待抓取url列表的步骤耗时，且此过程中无法抓取只能等待，浪费了抓取能力；2、需要动态的调度网页的重复抓取网页的重复抓取需求不仅来源于link库，也有抓取解析过程中提取的url。当动态产生的url优先级较高时，如果采用上述从link库选择url的静态调度策略时，无法满足按优先级抓取的需求。

发明内容

为解决现有网页抓取过程面临的网页重复抓取、抓取时间复杂度高，且无法按照解析过程中获取的网页的优先级高进行抓取的技术问题，本发明通过预设的优先级不同的队列实现调度网页数据库，并同时实现根据解析过程中获取的网页的优先级进行抓取，从而提高网页抓取的效率的目的。

本发明提供了一种基于动态的网页抓取方法，包括如下步骤：

设置至少两个队列，爬取待抓取网页的url及其优先级并存储至所述至少两个队列，根据所述至少两个队列存储的url的优先权进行调度；

接收调度的所述至少两个队列中的元素，获取待解析的所述元素的url；

根据调度的所述队列元素的url进行解析获取网页内容。

进一步，所述设置至少两个队列，加载网页数据库获取待抓取网页的url和优先级并存储至所述队列包括

将所述队列的数量设为2，并设置每个队列的最大堆和最小堆，每个队列包括N个元素，每个元素包括网页的url及其优先权，每个队列的优先级不同；

加载网页数据库获取待抓取网页的url和优先级，根据所述最大堆和所述最小堆获取每个队列中元素的最大优先级和最小优先级；

将待抓取网页的优先级与每个队列的最大优先级和最小优先级进行比较，将所述待抓取网页的url及其优先级存储至最大优先级不小于所述待抓取网页的优先级且最小优先级不大于所述待抓取网页的优先级的队列。

更进一步，所述待抓取网页的优先级与每个队列的最大优先级和最小优先级进行比较，将所述待抓取网页的url及其优先级存储至最大优先级不小于所述待抓取网页的优先级且最小优先级不大于所述待抓取网页的优先级的队列还包括

判断所述两个队列中元素数量是否均为0；

如果所述至少两个队列中元素数量均为0，则将待抓取网页的url及其优先级存储至优先级最高的队列。

更进一步，

判断优先级较高的队列中元素的数量是否为0，且优先级较低的队列中元素的数量不为0；

如果优先级较高的队列中元素的数量为0，且优先级较低的队列中元素的数量不为0，判断所述待抓取网页的优先级是否大于优先级较低的队列中优先级最大的元素；

所述待抓取网页的优先级是否不大于优先级较低的队列中优先级最大的元素，则将所述待抓取网页的url及其优先级存储至优先级较高的队列。

更进一步，

判断优先级较高的队列中元素的数量是否不为0，且优先级较低的队列中元素的数量为0；

如果判断优先级较高的队列中元素的数量为0，且优先级交底的队列中元素的数量不为0，则将所述所述待抓取网页的url及其优先级存储至优先级较高的队列；

判断将所述待抓取网页的url及其优先级存储至优先级较高的队列后，返回值是否不为空，是则将所述待抓取网页的url及其优先级存储至优先级较低的队列。

更进一步，

判断优先级较高的队列中元素的数量是否不为0，且优先级较低的队列中元素的数量不为0；

如果判断优先级较高的队列中元素的数量不为0，且优先级较低的队列中元素的数量不为0，则将所述待抓取网页的url及其优先级存储至优先级较高的队列；

判断将所述待抓取网页的url及其优先级存储至优先级较高的队列后，返回值是否不为空，是则将所述待抓取网页的url及其优先级存储至优先级较低的队列；

如果将所述待抓取网页的url及其优先级存储至优先级较低的队列后，返回值是否不为空，是则将返回值写入所述网页数据库。

进一步，所述方法还包括

计算解析获取网页内容的网页的url的优先级，将解析获取网页内容的网页的url及其优先级存储至预设的队列。

本发明还提供了一种基于动态的网页抓取装置，包括调度器、抓起器、解析器，其中

所述调度器，用于设置至少两个队列，加载网页数据库获取待抓取网页的url和优先级并存储至所述队列；

所述抓取器，用于接收调度的所述至少两个队列中的元素，获取待解析的所述元素的url；

所述解析器，用于根据调度的所述队列元素的url进行解析获取网页内容。

进一步，所述调度器包括队列设置模块、查询模块、处理模块，其中，

所述队列设置模块，用于将所述队列的数量设为2，并设置每个队列的最大堆和最小堆，每个队列包括N个元素，每个元素包括网页的url及其优先权，每个队列的优先级不同；

所述查询模块，用于加载网页数据库获取待抓取网页的url和优先级，根据所述最大堆和所述最小堆获取每个队列中元素的最大优先级和最小优先级；

所述处理模块，用于将待抓取网页的优先级与每个队列的最大优先级和最小优先级进行比较，将所述待抓取网页的url及其优先级存储至最大优先级不小于所述待抓取网页的优先级且最小优先级不大于所述待抓取网页的优先级的队列。

进一步，所述解析器，还用于计算所述解析获取网页内容的网页的url的优先级，将解析获取网页内容的网页的url及其优先级存储至预设的队列。

综上，本发明可以同时对抓取解析流程和link库的url按照优先级进行调度，保证优先级高的网页优先爬取；通过至少两个队列的调度提高网页出队和入队效率，时间复杂度都为O，大大提高网页的爬取效率。

附图说明

图1为本发明所述的基于动态的网页抓取方法一个实施例的流程示意图；

图2为本发明所述的基于动态的网页抓取方法中入队的一个实施例的的流程示意图；

图3为本发明所述的基于动态的网页抓取方法中出队的一个实施例的的流程示意图；

图4为本发明所述的基于动态的网页抓取方法另一个实施例的流程示意图；

图5为本发明所述的基于动态的网页抓取装置的框图结构示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

现有的网页抓取一般是通过调度策略实现对link库的抓取，抓取过程按照所述网页数据库中网页的优先级进行，然而当网页数量巨大达到百万级别时，每次选择待抓取url列表的步骤过程中抓取器只能等待，浪费了抓取器的抓取能力。

为了解决上述问题，本发明提供了一种基于动态的网页抓取方法。如图1所示，所述方法包括如下步骤：

S101、设置至少两个队列，爬取待抓取网页的url及其优先级并存储至所述至少两个队列，根据所述至少两个队列存储的url的优先权进行调度。

S102、接收调度的所述至少两个队列中的元素，获取待解析的所述元素的url；

S103、根据调度的所述队列元素的url进行解析获取网页内容。

本发明通过所述至少两个队列的设置实现对待抓取网页的url及其优先级的存储，并对存储的元素进行调度。本发明设置队列的目的在于对url的调度，即每次从队列出队一个url时，该url都是优先级最高的。

其中，S101具体包括

S1011、将所述队列的数量设为2，并设置每个队列的最大堆和最小堆，每个队列包括N个元素，每个元素包括网页的url及其优先权，每个队列的优先级不同。

最大堆和最小堆的设置方便了获取该队列中优先级最高以及优先级最低的元素，通过将新入队元素的优先权与该队列中优先级的最大值及优先级的最小值进行比较即可，缩短了新入队元素的入队的时间，降低了时间复杂度。

具体实施时，最小堆元素至少包括url、priority及max_heap_pointer，最大堆元素至少包括url、priority及min_heap_pointer，其中，max_heap_pointer指向最大堆中的元素，min_heap_pointer指向最小堆中的元素。

S1012、爬取待抓取网页的url及其优先级，根据所述最大堆和所述最小堆获取每个队列中元素的最大优先级和最小优先级。

S1013、将待抓取网页的优先级与每个队列的最大优先级和最小优先级进行比较，将所述待抓取网页的url及其优先级存储至最大优先级不小于所述待抓取网页的优先级且最小优先级不大于所述待抓取网页的优先级的队列。

进一步，S1013包括

判断所述两个队列中元素数量是否均为0；

进一步，S1013还包括

如果将所述待抓取网页的url及其优先级存储至优先级较低的队列后，返回值是否不为空，是则将返回值写入预设的link库。

link库存储的内容必须包括链接url、该url的优先级。

具体实施时，本发明可选的设置两个队列、三个队列或其他数量的多个队列。现以两个队列queue_1及queue_2为例说明本发明，其中，queue_1中优先级高于queue_2。本发明中将每个队列的元素的数量均设为N。每个队列中至少包括一个最大堆一个最小堆。

队列是一种特殊的线性表，其操作受到限制，只允许在表的前端(front)进行删除操作，而在表的后端(rear)进行插入操作。而最大堆和最小堆为二叉堆，是完全二元树(二叉树)或者是近似完全二元树(二叉树)。其中，最大堆：父结点的键值总是大于或等于任何一个子节点的键值；最小堆：父结点的键值总是小于或等于任何一个子节点的键值。传统的网页抓取每次选择待抓取url列表的步骤不仅耗时，且此过程中无法抓取只能等待，浪费了抓取能力，为了解决这种问题，本发明通过预设的至少两个队列实现存储待抓取的url,每个队列的优先级不同，即queue_1中所有元素的优先级大于queue_2中每个元素的优先级。为了提高抓取待存储的url本发明通过在每个队列中设置最大堆及最小堆实现对队列中的元素进行管理，通过将待存储的url与最大堆及最小堆中元素的优先级的比较，实现快速选择入队的url。

具体实施时，本发明假设priority数值越低，其优先级越高，反之同理。每个排序队列包含一个最小堆和一个最大堆，保存优先级的最大值和最小值，最小堆元素为<url，priority，max_heap_pointer>，最大堆元素为<url，priority，min_heap_pointer>，max_heap_pointer指向最大堆中该调度元素，min_heap_pointer指向最小堆中该调度元素，最小堆和最大堆中的元素个数相等。

定义排序队列入队操作为queue_push(url,priority)，对于待入队元素<url，priority>的操作步骤如图2所示如下：

步骤1：判断最小堆的元素数目是否为n，是则转向步骤2，否则转向步骤3；

步骤2：判断待入队元素的priority是否大于或等于该队列中最小堆的priority_max，是则返回<url，priority>，否则转向步骤4；

步骤3：将<url，priority，null>元素分别加入最大堆和最小堆，同时设置max_heap_pointer和min_heap_pointer，返回空；

步骤4：删除最大堆的堆顶元素e_max，将<url，priority>元素入最大堆，调整最大堆；更改e_max.min_heap_pointer指向元素的url和priority为输入值，调整最小堆；设置两堆中<url，priority>元素的max_heap_pointer和min_heap_pointer，返回e_max。

定义排序队列出队操作为queue_pop(),具体实施时如图3所示，出队包括如下步骤：

(1)、当queue_1和queue_2元素个数都大于0：执行e_ret＝queue_1.queue_pop()，执行后如果queue_1元素个数为0，

则切换queue_1<->queue_2，返回e_ret；

(2)、当queue_1元素个数大于0，queue_2元素个数等于0：

执行e_ret＝queue_1.queue_pop()，返回e_ret；

(3)、当queue_1元素个数等于0，queue_2元素个数大于0：

切换queue_1<->queue_2，转向步骤2；

(4)、当queue_1和queue_2元素个数都等于0：

从link库选择n个最高优先级的<url，priority>入queue_1，如果queue_1元素个数大于0，转向步骤2，否则等待循环执行下一次出队操作。

如图4所示，所述方法还包括

与传统的网页抓取方法相比较，本发明既能实现选择link库中存储的网页url及其优先级，还实现了将解析获取的网页的url及其优先级，将解析获取的网页的url及其优先级与预设的队列中的元素进行比较，实现根据网页优先级调度抓取提高抓取的效率，降低重复抓取的时间复杂度。

本发明还提供了一种基于动态的网页抓取装置。如图4所示所述装置包括调度器10、抓起器20、解析器30。

其中，

抓取器设置实现了输入为一个url，输出为这个url对应的网页内容。具体实施时，为了提高效率，可选的采用多进程(多线程)或者分布式系统来并行抓取。

本发明中调度器加载link库时，可选的根据link库中所有url的优先级按照从高到低排序，筛选出优先级最高的N*N个url，分别存储至N个队列中。具体实施时，N可选的设为2，即从link库筛选出优先级最高的2N个url按照优先权由高至低可选分别存储至两个队列中。具体实施时，可选的以所述link库的优先级(priority)字段建立索引，通过以下数据查询sql语句，即可以得到优先级最高的N个url。

例如可选的按照如下进行方式筛选：

SELECT url，priority FROM link ORDER BY priority ASC LIMIT n

其中，priority字段值越低，优先级越高。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于动态的网页抓取方法，其特征在于，包括如下步骤：

根据调度的所述队列元素的url进行解析获取网页内容。

2.根据权利要求1所述的基于动态的网页抓取方法，其特征在于，所述设置至少两个队列，加载网页数据库获取待抓取网页的url和优先级并存储至所述队列包括

3.根据权利要求2所述的基于动态的网页抓取方法，其特征在于，所述待抓取网页的优先级与每个队列的最大优先级和最小优先级进行比较，将所述待抓取网页的url及其优先级存储至最大优先级不小于所述待抓取网页的优先级且最小优先级不大于所述待抓取网页的优先级的队列还包括

判断所述两个队列中元素数量是否均为0；

4.根据权利要求2所述的基于动态的网页抓取方法，其特征在于，

5.根据权利要求2所述的基于动态的网页抓取方法，其特征在于，

6.根据权利要求2所述的基于动态的网页抓取方法，其特征在于，

7.根据权利要求1至6中任一项所述的基于动态的网页抓取方法，其特征在于，所述方法还包括

8.一种基于动态的网页抓取装置，其特征在于，包括调度器、抓起器、解析器，其中

9.根据权利要求8所述的基于动态的网页抓取装置，其特征在于，所述调度器包括队列设置模块、查询模块、处理模块，其中，

10.根据权利要求8所述的基于动态的网页抓取装置，其特征在于，

所述解析器，还用于计算所述解析获取网页内容的网页的url的优先级，将解析获取网页内容的网页的url及其优先级存储至预设的队列。