CN107180050A

CN107180050A - 一种数据抓取系统及方法

Info

Publication number: CN107180050A
Application number: CN201610139981.7A
Authority: CN
Inventors: 杨博; 宋兵强; 张�成; 白荣东
Original assignee: Jing Shuo Technology (beijing) Ltd By Share Ltd
Current assignee: Jing Shuo Technology (beijing) Ltd By Share Ltd
Priority date: 2016-03-11
Filing date: 2016-03-11
Publication date: 2017-09-19

Abstract

本发明涉及一种数据抓取系统，包括：任务去重模块、任务队列模块、任务调度模块、数据抓取模块、和结果队列模块。本发明还涉及一种数据抓取方法，包括接收各业务线发送的抓取数据任务并去重；将去重后的任务形成任务队列；基于双重轮询算法计算任务优先级，并基于优先级调度任务，发放给爬虫节点；利用爬虫在互联网中抓取数据；和将抓取到的数据返回形成结果队列发回业务线。本发明还涉及一种数据抓取的方法。

Description

一种数据抓取系统及方法

技术领域

本发明涉及计算机应用领域和信息技术领域。具体地说，是涉及一种数据抓取的系统及方法。

背景技术

随着社交网络、移动互联网的大规模发展，人们能更方便的通过手机获取资讯、发表言论、沟通交流。特别是在社交网络繁荣之后，每个网民都可以创造信息，使得网络中的信息量出现爆发式的增长，这其中的文本信息有多种来源：微博、新闻、论坛、博客、问答、评论(又包含视频、电商、O2O的评论)等，可以统称为舆情数据。品牌广告主、政府部门都希望了解网民的舆论，对于品牌广告主，他们希望从这些信息中获取用户对品牌的态度，以及用户的兴趣偏好，而且希望及时的获取到网络中对本品牌的负面信息，从而做出快速的处理。

为了对海量的文本进行深入精细的分析，需要快速全面的抓取信息，并且能覆盖多种来源。目前业内抓取海量数据的方法，存在业务不明晰，并未针对性的解决实时性、高频调用、高可用性的问题。

发明内容

有鉴于此，本发明提供了一种数据抓取系统及方法，提供一种支持多业务、实时、高频调用、高可用性的数据抓取系统，低延迟的对多种业务的不同数据抓取需求进行处理，满足处理数据抓取请求量达10亿级的能力，保证数据抓取请求不会被轻易抛弃，确保服务的可靠性。

根据本发明的第一方面，本发明提供一种数据抓取系统，其包括：

任务去重模块，接收业务线发来的抓取数据任务，判断并清除重复任务；

任务队列模块，接收去重后的抓取数据任务，形成待抓取任务队列；

任务调度模块，根据优先级将任务队列中的任务发给数据抓取模块；

数据抓取模块，将任务下发给各个爬虫节点，通过爬虫在互联网中抓取数据；

结果队列模块，缓存抓取到的数据，将抓取数据结果返回给业务线。

优选地，所述任务去重模块，接收多个业务线发来的抓取数据任务。

在本发明的一些实施方式中，所述结果队列模块将抓取到的数据也发给任务去重模块，以供所述任务去重模块判断并清除重复任务。

优选地，所述任务去重模块具有历史任务库，存储结果队列模块发来的抓取到的数据。

优选地，所述任务队列模块利用Redis形成待抓取任务队列。

优选地，本发明的数据抓取系统还包括系统监控模块，用于监控各模块的工作状态。在本发明的一些实施方式中，所述系统监控模块监控各个任务队列的长度、每个爬虫节点的负载，从而确保装置的高可用性。

在本发明的一些实施方式中，所述结果队列模块利用Kafka队列，流式返回结果。如此，可以减少多次建立连接的开销，同时能保证数据的实时性。

优选地，所述数据抓取模块包括对外交互模块和爬虫模块，所述爬虫模块负责控制爬虫节点，所述对外交互模块用于连接服务器系统与外网。

优选地，所述对外交互模块为HTTP API。

在本发明的一些实施方式中，所述数据抓取模块将抓取到的数据返回任务调度模块，再由任务调度模块发给结果队列模块。

在本发明的另一些实施方式中，所述数据抓取模块将抓取到的数据发给结果队列模块，并通知任务调度模块。

在本发明的一些实施方式中，所述任务调度模块对请求返回错误的任务进行后续处理，在所述后续处理中，当出现数据抓取错误时，对该请求返回错误的任务进行多次抓取，超过预设次数后，储存该请求返回错误的任务记录，从而减少漏抓数据，保证抓取数据的全面。

在本发明的一些实施方式中，所述任务调度模块利用双重加权轮询算法确定调度优先级。

优选地，所述双重加权轮询算法基于业务线和任务种类进行。

优选地，所述任务调度模块根据业务线和任务种类赋予任务不同的优先级和权重并进行调度。

根据本发明的第二方面，本发明提供一种数据抓取的方法，其包括：

接收各业务线发送的抓取数据任务并去重；

将去重后的任务形成任务队列；

基于双重轮询算法计算任务优先级，并基于优先级调度任务，发放给爬虫节点；

利用爬虫在互联网中抓取数据；

将抓取到的数据返回形成结果队列发回业务线。

优选地，调度任务通过HTTP API发放给爬虫节点。HTTP API起到隔离外网与服务器的作用，从而可以保护服务器的安全。

在本发明的一些实施方式中，在做任务去重时，将接收到的任务与历史任务库中的任务进行比较。

可选地，当发现与历史任务库中任务相同时，与历史任务库中相同的任务被丢弃。

可选地，当发现与历史任务库中任务相同时，向业务线返回历史任务的数据。

可选地，当在历史任务库中没有发现相同任务时，将该任务发送给任务队列。

在本发明的一些实施方式中，所述结果队列将抓取到的数据存储在历史任务库。

优选地，所述结果队列将抓取到的数据缓存在历史任务库。

优选地，利用Redis形成所述任务队列。

在本发明的一些实施方式中，使用双重轮询算法计算任务优先级时，基于业务线和任务类型赋予任务不同的优先级和权重。

在本发明的一些实施方式中，所述结果队列利用Kafka队列，流式返回结果。

根据本发明，数据抓取系统各模块划分明确，每个模块处理简单的任务，从而保证数据抓取低延时、抓取规模方便扩展，支持多业务、实时、高频调用、高可用性的数据抓取。数据延迟不超过5min，支持每天抓取10亿条数据，抓取任务不轻易丢弃。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述，用来解释本发明的原理。在附图中，

图1是示意地表示本发明一些实施方式的系统构成的框图。

图2是示意地表示本发明一些实施方式的方法的流程图。

图3是示意地表示本发明又一些实施方式的系统的示意图。

图4是示意地表示本发明又一些实施方式的方法的流程图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员来说显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

本文中所用的术语

数据抓取(又称网络爬虫)：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。

Redis：Redis是一个开源、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。

API：Application Programming Interface,应用程序编程接口，是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节。

以下结合附图1说明本发明的一种数据抓取系统的构成。

图1是示意地表示本发明涉及的一种实施方式的系统构成的框图。

如图1所示，数据抓取系统1(以下简称系统1)处理各业务线的抓取数据任务，抓取数据并返回给请求业务源。

所述系统构成包括：任务去重模块100，任务队列模块200，任务调度模块300，数据抓取模块400，结果队列模块500。

任务去重模块100接收各业务线通过API发送的抓取数据任务，判断是否存在重复任务，将未发现重复的任务发送到任务队列模块200。所述任务去重模块100中包括历史任务库，其中存储了已抓取的任务的数据。当接收到的任务与历史任务库中的任务相同时，根据不同业务线的设定，任务去重模块100可以直接向业务线返回存储的历史数据，也可以仅删除重复任务。

相同的任务可以来自相同或不同的业务线，在判断的时候，首先考虑任务的实质内容，例如网址和网页内容等。

判断是否为重复任务的方法已为本领域技术人员所熟知，在此不再赘述。在本发明中，可以使用任何可以实现本功能的技术手段。

任务队列模块200接收任务去重模块100进行去重处理后的抓取数据任务，应用Redis形成待抓取任务列表。所述待抓取任务列表包括具体任务和抽象任务，所述抽象任务通过数据抓取模块400变成具体任务。

任务调度模块300从任务队列模块200中读取任务，利用双重加权轮询算法确定调度优先级，并根据任务优先级将任务推送给数据抓取模块400。其中抽象任务的优先级高于具体任务的优先级。当出现数据抓取错误时，任务调度模块300对该请求返回错误的任务进行多次抓取，超过预设次数后，储存该请求返回错误的任务记录，保证抓取数据的全面。

利用双重加权轮询算法，可以支持多条业务线不同要求的数据抓取工作。例如，微博的内容传播很快，普遍要求数据抓取快，数据入库延迟小，而论坛的内容传播相对较慢，抓取延迟要求不高，但是数据量大。当微博业务线和论坛业务线都发来抓取任务时，优先抓取微博。

例如有业务线A、B、C，都发起一批网页抓取请求的任务，它们的抓取优先级分别是：3、2、1(3级为最高)，权重系数分别是：5、2、1。假设每次从任务队列中抽取8条任务，则每次从业务线A中取5条，业务线B取2条，业务线C取1条。

对于同一业务线发来抓取任务，根据不同的网站分类、网页类型优先级也有不同。例如对于论坛业务线，一般先抓取网站首页和帖子列表页(抽象任务)，从这些页面，去获取到大量的帖子地址，再进一步抓取帖子的内容(具体任务)。因此，网站首页和帖子列表页的优先级比帖子具体内容的优先级高。

假设业务线A内分x、y两种类型的数据，抓取优先级分别为：2、1，权重系数分别是：3、2，则每次从业务线A中取的5条任务中，x类型任务取3条，y型任务取2条。

这样在各业务线之间和同一业务线内均考虑优先级和权重即为双重加权轮询。在实际应用中，可以根据需要而设定或调整优先级和权重。在本发明中，由于任务的头部都带有来自业务线的信息，因此任务调度模块300根据这些信息，即可计算出该任务的值，并依据该值进行调度。

本发明所述的双重加权轮询方法并不仅限于上述说明的具体方式，本领域的技术人员应当知晓实现这种功能的其他具体方案。

数据抓取模块400接收任务调度模块300向其推送的数据抓取任务，数据抓取模块400在公网分布式部署大量爬虫节点，并将抓取任务发给爬虫节点进行数据抓取，抓取节点布置在微软Azure或者Ucloud的低配服务器，每个服务器可以配置多个IP地址，保证数据抓取的稳定性，对于抓取出现错误的任务，返回给任务调度模块300进行处理。

为了保证服务器的安全，数据抓取模块400还可以包括对外交互模块410和爬虫模块420，从而避免服务器与外网的爬虫节点直接链接。

在本发明的一些实施方式中，对外交互模块410为HTTP API服务接口，爬虫模块420为公网上的爬虫节点，系统(服务器)通过对外交互模块与爬虫节点进行数据交互。此外，通过尽可能多地布设爬虫节点，提高抓取速度。数据抓取模块400也可以配置防DDoS的子模块，以进一步保障抓取安全。

结果队列模块500缓存抓取到的数据，爬虫将抓取到的数据，通过数据抓取模块400返回给任务调度模块300，任务调度模块300将结果发送给结果队列模块500，结果队列模块500将抓取到的数据结果，利用Kafka流式返回给发起任务的API请求，同时结果队列模块500将抓取到的数据结果发送一份给任务去重模块100。去重任务模块100将未抓取的任务发送到任务队列模块200，对于已抓取的任务，可以直接返回抓取结果或丢弃任务。

在本发明的一些实施方式中，数据抓取模块400也可以向任务调度模块300返回任务完成通知，并将抓取的数据直接发给结果队列模块500。

接下来，参照图2说明本发明一些实施方式的方法的流程图。

首先，对数据抓取任务去重，即在任务去重步骤S101，各业务线通过API将抓取数据任务发送到任务去重模块100进行去重处理。

接下来，获取数据抓取任务，即在任务获取步骤S102，任务队列模块200接收经过任务去重模块100处理过的已去重的抓取数据任务，应用Redis形成待抓取任务列表。

然后，在任务调度步骤S103中，任务调度模块300从任务队列模块200中读取任务，利用双重加权轮询算法确定调度优先级，将带优先级的数据抓取任务推送给数据抓取模块400。

接着，数据抓取步骤S104通过数据抓取模块400接收任务调度步骤S103推送过来的数据抓取任务，通过大量公网节点进入公网进行数据抓取，将抓取结果通过任务调度模块300发送到结果队列模块500中。

然后，在数据返回步骤S105中，结果队列模块500将缓存的数据抓取结果利用Kafka队列流式返回给发起任务的API请求。

图3是本发明系统另一些实施方式的示意图，其中所述系统还包括系统监控模块600。所述系统监控模块600用于监控各个模块的工作状态、各个队列的长度、每个抓取节点的负载等，记录各模块工作状态，对异常状况进行报警和处理反馈等，从而确保装置的高可用性。

图4是本发明方法的另一些实施方式的示意图，其中被判定与历史任务库中相同的任务不是被丢弃，而是将历史任务的数据直接返回业务线。

实施例1

视频业务通过API发来任务抓取网页A1(网站首页)、A2，舆情业务通过API发来任务抓取网页B1(网站首页)、B2、B3、B4。去重模块接收到任务A1、A2、B1、B2、B3和B4，在历史任务库中查询，发现与B4相同的任务，遂丢弃任务B4，剩下的任务进入任务队列模块。

在任务队列模块中，应用Redis形成待抓取任务列表。

任务调度模块读取待抓取任务列表，根据任务头部信息中所携带的业务线信息和网页类型信息，利用双重加权轮询算法计算优先级。

舆情业务比视频业务的权重高，所以任务B1、B2、B3会更快地被调度模块取走。视频业务中由于A1为网站首页，因此A1比A2更快地被调取模块取走。

A1与B2或B3被取走的顺序取决于业务线优先级和任务种类优先级的权重。这个根据整体业务需要是可调的。

任务调度模块利用双重加权轮询算法计算优先级并调取任务之后，发送给数据抓取模块。通过对外交互模块(例如，HTTP API)，任务A1、A2、B1、B2、B3最终都会被分配到爬虫节点，进行数据抓取。数据抓取到之后，通过任务调度模块的调度，传给结果队列模块。结果队列模块将新抓取到得数据传一份给去重模块，同时将结果利用Kafka队列流式返回给发起任务请求的视频业务和舆情业务，最终，视频业务得到网页A1、A2的结果，舆情业务得到网页B1、B2、B3的结果。

实施例2

与实施例1的流程基本相同，不同在于当发现与B4相同的历史任务时，直接向舆情业务返回该历史任务的结果。

实施例3

与实施例1的流程基本相同，不同在于数据抓去到之后，数据抓取模块将抓取到的数据发给结果队列模块，同时通知任务调度模块抓取任务完成。

实施例4

与实施例1的流程基本相同，不同在于任务网页B1(网站首页)抓取到的数据为网页列表B1’。网页列表B1’被结果列表发给去重模块之后被识别出包含大量链接，且未发现相同的历史任务。于是网页列表B1’被拆解成新的任务b1，b2，b3…。新的任务b1，b2，b3继续通过任务去重模块，任务队列模块等进行处理。

实施例5

与实施例1的流程基本相同，不同在于任务B2在抓取时发生错误。爬虫模块通过对外交互模块将错误信息发送给任务调度模块。任务调度模块通过对外交互模块回应继续尝试抓取。当错误超过预设条件时(例如5次，或延迟3min)，保存错误记录，丢弃任务B2。

本发明的方案能够支持多业务、实时、高频调用、高可用性的数据抓取。数据延迟不超过5min，支持每天抓取10亿条数据，抓取任务不轻易丢弃。

本发明不限于上述实施方式，在本发明思想的范围内可以进行各种变更。本发明已通过上述实施例进行了说明，但应当理解的是，上述实施例只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是，本发明并不局限于上述实施例，根据本发明教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims

1.一种数据抓取系统，其特征在于，包括：任务去重模块、任务队列模块、任务调度模块、数据抓取模块及结果队列模块，其中，

2.如权利要求1所述的数据抓取系统，其特征在于，所述结果队列模块将抓取到的数据也发给任务去重模块，所述任务去重模块具有历史任务库，存储结果队列模块发来的抓取到的数据。

3.如权利要求1所述的数据抓取系统，其特征在于，所述任务队列模块利用Redis形成待抓取任务队列。

4.如权利要求1所述的数据抓取系统，其特征在于，还包括系统监控模块，所述系统监控模块，用于监控各模块的工作状态。

5.如权利要求4所述的数据抓取系统，其特征在于，所述系统监控模块监控各个任务队列的长度和每个爬虫节点的负载。

6.如权利要求1所述的数据抓取系统，其特征在于，所述结果队列模块利用Kafka队列，流式返回结果。

7.如权利要求1所述的数据抓取系统，其特征在于，所述数据抓取模块包括对外交互模块和爬虫模块，所述爬虫模块负责控制爬虫节点，所述对外交互模块用于连接服务器系统与外网。

8.如权利要求1所述的数据抓取系统，其特征在于，所述任务调度模块利用双重加权轮询算法确定调度优先级。

9.一种数据抓取方法，其特征在于，包括如下步骤：

接收各业务线发送的抓取数据任务并去重；

将去重后的任务形成任务队列；

利用爬虫在互联网中抓取数据；和

将抓取到的数据返回形成结果队列发回业务线。

10.如权利要求9所述的数据抓取方法，其特征在于，所述结果队列将抓取到的数据存储在历史任务库；在做任务去重时，将接收到的任务与历史任务库中的任务进行比较。