CN112597371A

CN112597371A - 一种基于消息中间件的数据采集系统、方法及装置

Info

Publication number: CN112597371A
Application number: CN202011568126.0A
Authority: CN
Inventors: 张玉良; 陈烨; 彭佳勇; 屠宏伟; 任丽娜; 聂鑫; 王平
Original assignee: Muyuan Foods Co Ltd
Current assignee: Muyuan Foods Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-02

Abstract

本申请公开了一种基于消息中间件的数据采集系统，包括主节点、消息中间件、多个子节点和数据库，其中，主节点用于获取数据源URL列表，并将数据源URL列表中的URL通过消息中间件分发给各个子节点；子节点基于Scrapy采集框架实现，用于根据接收到的URL进行数据采集，并将数据采集结果通过数据库连接池存储至数据库。可见，该系统通过对Scrapy采集框架进行扩展，实现了一种高效的分布式环境下的数据采集方案，且各个节点和消息中间件稳定性较高，能够保证整个数据采集系统的可靠性。此外，本申请还提供了一种基于消息中间件的数据采集方法及装置，其技术效果与上述系统相对应。

Description

一种基于消息中间件的数据采集系统、方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种基于消息中间件的数据采集系统、方法及装置。

背景技术

随着互联网技术的发展，数据激增，在分布式环境下，数据监控是十分有必要的。数据监控的前提是数据采集，然而，目前在分布式环境中缺少可靠的数据采集方案，为数据监控的实施带来困难。

发明内容

本申请的目的是提供一种基于消息中间件的数据采集系统、方法及装置，用以解决目前在分布式环境中缺少可靠的数据采集方案的问题。其具体方案如下：

第一方面，本申请提供了一种基于消息中间件的数据采集系统，包括：主节点、消息中间件、多个子节点和数据库；

其中，所述主节点用于获取数据源URL列表，并将所述数据源URL列表中的URL通过所述消息中间件分发给各个所述子节点；

所述子节点基于Scrapy采集框架实现，用于根据接收到的URL进行数据采集，并将数据采集结果通过数据库连接池存储至所述数据库。

优选的，所述子节点用于：

根据接收到的URL对目标页面进行解析，得到数据采集结果，其中所述目标页面为以下任意类型：xpath，css，lxml。

优选的，所述子节点用于：

根据接收到的URL进行数据采集，将采集得到的数据存储至缓存中；在所述缓存中的数据满足目标条件时，将所述缓存中的数据作为数据采集结果通过数据库连接池存储至所述数据库，其中所述目标条件为数据量大于第一阈值或数据抓取深度大于第二阈值。

优选的，所述子节点用于：

每隔预设时间间隔根据接收到的URL进行数据采集。

优选的，所述子节点还用于：

根据所述数据采集结果的数据类型对所述数据采集结果进行数据清洗。

优选的，所述消息中间件为rabbitMQ。

优选的，所述数据库连接池用于：

在接收到所述子节点发送的数据采集结果之后，判断所述数据采集结果是否为重复数据，若不是，则将所述数据采集结果存储至所述数据库。

优选的，所述数据库连接池用于：

在接收到所述子节点发送的数据采集结果之后，计算所述数据采集结果的MD5值，将所述数据采集结果的MD5值与所述数据库中每条数据的MD5值做对此，若相同，则判定所述数据采集结果为重复数据，否则判定所述数据采集结果不为重复数据。

第二方面，本申请提供了一种基于消息中间件的数据采集方法，包括：

主节点获取数据源URL列表；

所述主节点将所述数据源URL列表中的URL通过消息中间件分发给多个子节点，所述子节点基于Scrapy采集框架实现；

所述子节点根据接收到的URL进行数据采集；

所述子节点将数据采集结果通过数据库连接池存储至数据库。

第三方面，本申请提供了一种基于消息中间件的数据采集装置，包括：

列表获取模块：用于主节点获取数据源URL列表；

URL分发模块：用于所述主节点将所述数据源URL列表中的URL通过消息中间件分发给多个子节点，所述子节点基于Scrapy采集框架实现；

数据采集模块：用于所述子节点根据接收到的URL进行数据采集；

数据存储模块：用于所述子节点将数据采集结果通过数据库连接池存储至数据库。

本申请所提供的一种基于消息中间件的数据采集系统，包括：主节点、消息中间件、多个子节点和数据库，其中，主节点用于获取数据源URL列表，并将数据源URL列表中的URL通过消息中间件分发给各个子节点；子节点基于Scrapy采集框架实现，用于根据接收到的URL进行数据采集，并将数据采集结果通过数据库连接池存储至数据库。可见，该系统通过对Scrapy采集框架进行扩展，实现了一种高效的分布式环境下的数据采集方案，且各个节点和消息中间件稳定性较高，能够保证整个数据采集系统的可靠性。

此外，本申请还提供了一种基于消息中间件的数据采集方法及装置，其技术效果与上述系统相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种基于消息中间件的数据采集系统实施例一的架构示意图；

图2为本申请所提供的一种基于消息中间件的数据采集系统实施例二的Scrapy采集框架扩展示意图；

图3为本申请所提供的一种基于消息中间件的数据采集系统实施例二中子节点数据采集过程的流程图；

图4为本申请所提供的一种基于消息中间件的数据采集方法实施例的流程图；

图5为本申请所提供的一种基于消息中间件的数据采集装置实施例的功能框图。

具体实施方式

本申请的核心是提供一种基于消息中间件的数据采集系统、方法及装置，实现在分布式环境下高效的数据采集过程。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请提供的一种基于消息中间件的数据采集系统实施例一进行介绍。

Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架，由Twisted写的一个Python事件驱动网络框架，它使用的是非堵塞的异步处理，具备高效快速的优点。Scrapy应用在广泛领域，包括数据挖掘，信息处理或存储历史数据等。一般通过Scrapy框架实现爬虫，能够抓取指定网站的内容或图片。

针对实际数据需求，本实施例基于Scrapy采集框架开发数据采集系统的主节点和子节点。即，对Scrapy采集框架进行扩展，将消息中间件作为不同节点之间的调度者，使得主节点能够通过消息中间件将采集请求分配给不同的子节点，保证系统稳定性，提升数据采集效率。

之后部署整个数据采集系统，如图1所示，本实施例的数据采集系统包括：主节点、消息中间件、多个子节点和数据库。

其中，主节点用于获取数据源URL列表，并将数据源URL列表中的URL通过消息中间件分发给各个子节点；子节点用于根据接收到的URL进行数据采集，并将数据采集结果通过数据库连接池存储至数据库。

为避免持续的数据采集对目标网站服务器造成过大压力，作为一种优选的实施方式，本实施例预先设置时间间隔，之后子节点按照预设时间间隔周期性地对URL进行数据采集。

本实施例中子节点能够实现深度抓取，具体的，子节点根据接收到的URL对目标页面进行解析，从而得到数据采集结果，其中目标页面为以下任意类型：xpath，css，lxml。

除此之外，子节点能够在得到数据采集结果之后对其进行数据清洗，不同的数据类型采用不同的清洗方式。具体的，子节点根据数据采集结果的数据类型对数据采集结果进行数据清洗。

作为一种具体的实施方式，可以使用rabbitMQ作为消息中间件，从而避免解决重复获取URL的问题，且支持ACID。

本实施例中，数据库连接池起到连接子节点和数据的作用。在实际应用中，通过自定义数据库连接池，可以赋予数据库连接池以下功能：异步写入，根据目的数据调整字段，避免数据重复写入等。

具体的，当数据库连接池具备避免数据重复写入的功能时，数据库连接池用于在接收到子节点发送的数据采集结果之后，先判断数据采集结果是否为重复数据，若是，则不将数据采集结果写入数据库；若不是，则将数据采集结果写入数据库。

本实施例所提供一种基于消息中间件的数据采集系统，包括：主节点、消息中间件、多个子节点和数据库，其中，主节点用于获取数据源URL列表，并将数据源URL列表中的URL通过消息中间件分发给各个子节点；子节点基于Scrapy采集框架实现，用于根据接收到的URL进行数据采集，并将数据采集结果通过数据库连接池存储至数据库。可见，该系统通过对Scrapy采集框架进行扩展，实现了一种高效的分布式环境下的数据采集方案，且各个节点和消息中间件稳定性较高，具有事务性，能够保证整个数据采集系统的可靠性。

下面开始详细介绍本申请提供的一种基于消息中间件的数据采集系统实施例二，实施例二基于前述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。

具体的，本实施例使用Python作为系统编程语言，主要包括四部分：主节点，子节点，消息中间件，数据库。

其中，主节点和子节点是基于Scrapy采集框架开发得到的，具体的，在Scrapy采集框架的基础上扩展出消息中间件，使得主节点能够通过消息中间件将数据采集任务调度给各个子节点。

在系统部署过程中，本实施例使用docker部署数据采集系统，每个容器作为一个独立的节点，根据数需求横向扩展。通过docker，将不同的子节点部署在不同的服务器上。

基于Scrapy采集框架开发的节点如图2所示，其中，Scrapy引擎用来处理整个系统的数据流处理，作为框架核心触发事务。调度器用来接受Scrapy引擎发过来的请求，压入队列中，并在Scrapy引擎再次请求的时候返回，可以理解成一个URL(抓取网页的网址或者链接)的优先队列，由它来决定下一个要抓取的网址是什么,同时去除重复的网址。下载器用于下载网页内容,并将网页内容返回给爬虫。爬虫用于从特定的网页中提取自己需要的信息，即所谓的实体(item)，用户也可以从中提取出链接，让爬虫继续抓取下一个页面。

因此，本系统中数据流向如下：主节点请求数据源URL列表，将各个URL作为采集任务通过消息中间件分发给子节点，子节点执行采集任务，采集数据，将采集得到的数据通过数据库连接池存储至数据库。

本实施例的子节点支持深度抓取，能够解析xpath，css，lxml页面。此外，通过设置时间间隔，让子节点周期性的采集数据，能够降低目标网站服务器的压力。

子节点的数据采集流程如图3所示，包括：启动数据采集线程；从消息中间件读取URL；根据该URL进行数据采集，将采集得到的数据存储至缓存中；判断缓存中的数据的数据量是否大于第一阈值，若是，则将缓存中的数据写入数据库，否则，继续判断缓存中数据的抓取深度是否大于第二阈值，若是，则将缓存中的数据写入数据库，否则不写入。其中，第一阈值和第二阈值可以根据实际需求自行设定和调整，本实施例不做限定。

作为一种具体的实施方式，本实施例使用rabbitMQ作为消息中间件。

在数据库连接池中，本实施例自定义封装入库组件，能够兼容mysql和redis，能够将数据采集结果的数据类型转换为mysql支持的类型，并反馈不符合的数据类型。此外，通过自定义数据库连接池，还能够识别重复数据避免数据重复写入，实现异步写入，实现字段调整等。

作为一种具体的实施方式，本实施例中，数据库连接池根据MD5值判断待写入数据库的数据是否为重复数据。具体过程如下：数据库连接池在接收到子节点发送的数据采集结果之后，计算数据采集结果的MD5值，将数据采集结果的MD5值与数据库中每条数据的MD5值做对此，若相同，则判定数据采集结果为重复数据，不将其写入数据库，否则判定数据采集结果不为重复数据，并将数据采集结果写入数据库。

综上，基于本实施例的数据采集系统，数据采集过程如下：子节点获取目标数据所在的URL，得到数据源URL列表，将URL缓存至消息中间键并分配给多个子节点，子节点根据分配得到的URL进行数据采集，将数据采集完成之后，进行数据的清洗和处理，根据数据类型不同，使用不同的清洗方式，将清洗完成之后的items传递给自定义的数据库连接池，并入库。

可见，本实施例提供的一种基于消息中间件的数据采集系统，至少具备以下优点：

1、对scrapy采集框架进行扩展，扩展消息中间键作为不同节点之间的请求调度，通过消息中间键将请求分配给不同的采集节点，提升稳定性，提升效率。

2、使用rabbitMQ作为消息中间件，解决重复读取URL的问题，支持ACID。

3、子节点支持深度抓取，能够解析xpath，css，lxml页面。

4、通过设置子节点的采集时间间隔，降低目的网站服务器的压力。

5、自定义数据库连接池，具有识别重复数据避免重复写入，异步写入，根据目的数据调整字段等功能。

下面对本申请实施例提供的一种基于消息中间件的数据采集方法进行介绍，下文描述的基于消息中间件的数据采集方法基于上文描述的基于消息中间件的数据采集系统实现。

如图4所示，本实施例的基于消息中间件的数据采集方法，包括：

S401、主节点获取数据源URL列表；

S402、主节点将数据源URL列表中的URL通过消息中间件分发给多个子节点，子节点基于Scrapy采集框架实现；

S403、子节点根据接收到的URL进行数据采集；

S404、子节点将数据采集结果通过数据库连接池存储至数据库。

本实施例的基于消息中间件的数据采集方法基于上文描述的基于消息中间件的数据采集系统实现，因此该方法的具体实施方式可见前文中的基于消息中间件的数据采集系统的实施例部分，在此不再展开介绍。

最后，本申请还提供了一种基于消息中间件的数据采集装置，如图5所示，包括：

列表获取模块501：用于主节点获取数据源URL列表；

URL分发模块502：用于主节点将数据源URL列表中的URL通过消息中间件分发给多个子节点，子节点基于Scrapy采集框架实现；

数据采集模块503：用于子节点根据接收到的URL进行数据采集；

数据存储模块504：用于子节点将数据采集结果通过数据库连接池存储至数据库。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于消息中间件的数据采集系统，其特征在于，包括：主节点、消息中间件、多个子节点和数据库；

2.如权利要求1所述的基于消息中间件的数据采集系统，其特征在于，所述子节点用于：

3.如权利要求2所述的基于消息中间件的数据采集系统，其特征在于，所述子节点用于：

4.如权利要求3所述的基于消息中间件的数据采集系统，其特征在于，所述子节点用于：

每隔预设时间间隔根据接收到的URL进行数据采集。

5.如权利要求4所述的基于消息中间件的数据采集系统，其特征在于，所述子节点还用于：

6.如权利要求1所述的基于消息中间件的数据采集系统，其特征在于，所述消息中间件为rabbitMQ。

7.如权利要求1-6任意一项所述的基于消息中间件的数据采集系统，其特征在于，所述数据库连接池用于：

8.如权利要求7所述的基于消息中间件的数据采集系统，其特征在于，所述数据库连接池用于：

9.一种基于消息中间件的数据采集方法，其特征在于，包括：

主节点获取数据源URL列表；

所述子节点根据接收到的URL进行数据采集；

10.一种基于消息中间件的数据采集装置，其特征在于，包括：

列表获取模块：用于主节点获取数据源URL列表；