CN110147475B

CN110147475B - 一种分布式部署的网络数据采集系统

Info

Publication number: CN110147475B
Application number: CN201910246570.1A
Authority: CN
Inventors: 钟证业
Original assignee: Huitongda Network Co ltd
Current assignee: Huitongda Network Co ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2023-07-21
Anticipated expiration: 2039-03-29
Also published as: CN110147475A

Abstract

本发明公开了一种分布式部署的网络数据采集系统，包括任务管理模块、爬虫模块、分布式存储模块、监测报警模块和主控节点模块；其中，所述任务管理模块负责存储URL库、维护网页采集任务状态、管理采集任务的进队与出队、URL种子定时调度、缓存已采集URL和商品SKU；所述爬虫模块用于完成采集和解析网页，以两个以上独立的实例进程分布到不同节点机器上运行，以多线程的模式采集并解析网页；所述监测报警模块能够主动发现爬虫节点宕机的情况，并通知系统运维人员。

Description

一种分布式部署的网络数据采集系统

技术领域

本发明涉及计算机互联网数据采集技术，尤其涉及一种分布式部署的网络数据采集系统。

背景技术

自动获取网页内容，解析网页链接，并按照指定规则提取相应数据的程序，就是爬虫。

传统的爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，同时按照给定规则提取网页上的有用数据，在抓取网页的过程中，不断从当前页面上抽取新的URL并放入队列，直到满足系统给定的停止条件。

随着互联网在人类经济社会中的应用日益广泛，其所涵盖的信息规模呈指数增长，信息的形式和分布具有多样化、全球化特征，通用爬虫已经不适用于指定方向的海量数据持续采集的需求，传统的通用爬虫存在一些不足：

1、通用爬虫采集全站数据，不能指定领域定向采集；

2、传统爬虫只单机采集数据，采集速度慢；

3、传统爬虫采集回来的数据存储在单节点的关系型数据库，数据量小。

发明内容

本发明所要解决的技术问题是建立爬虫集群，分布式部署，持续并且并行地采集网络定向数据，以分布式存储系统组织海量数据，提供数据服务的系统。

为解决上述技术问题，本发明提供了一种分布式部署的网络数据采集系统，包括任务管理模块、爬虫模块、分布式存储模块、监测报警模块和主控节点模块；

其中，所述任务管理模块负责存储URL库、维护网页采集任务状态、管理采集任务的进队与出队、URL种子定时调度、缓存已采集URL和所采集特定商品的SKU(Stock KeepingUnit，库存量单位)，特定商品是指电商平台的商品或者品牌官方网站的商品，例如：家电、厨具、3c数码、酒水、等，具体在URL种子中设定；

所述爬虫模块用于完成采集和解析网页，并以两个以上独立的实例进程分布到不同节点机器上运行，以多线程的模式采集并解析网页；

所述监测报警模块能够主动发现爬虫进程宕机的情况，并通知系统运维人员。

所述任务管理模块包括任务状态库、任务管理器和URL种子定时器；

所述爬虫模块包括动态IP代理器、网页下载器、网页解析器和日志记录器；

所述分布式存储模块包括数据存储器、Kudu存储引擎和Impala查询引擎；

所述监测报警模块包括监控报警器、Zookeeper注册器和Zookeeper服务器；

所述主控节点模块包括RPC通信、速度控制、任务队列管理和爬虫启停。

所述任务状态库用于任务状态存储，以及URL和商品SKU缓存，任务状态库存储任务状态信息到MySQL数据库中，利用MySQL的行级事务确保单个任务的原子性操作；

所述任务管理器负责维护任务的生命周期，更新任务的不同状态，实现任务的出队与入队功能，确保任务队列操作的隔离安全，即同一个任务只分派给一个爬虫的一个线程；在采集最初始阶段时，URL种子定时器把预先配置的种子URL注入任务队列中，其中种子URL即为最初始的商品列表页URL；任务出队时，优先选择采集商品列表页的任务出队，通过爬虫模块下载此URL网页并解析出该网页中出现的商品列表页URL和商品详情页URL，然后将这些新解析出的URL放入任务队列中，当未开始任务队列中已没有商品列表页的任务时，才选择采集商品详情页的任务出队；任务入队时，把网页解析器解析出来的所有商品列表页和商品详情页的任务加入到队列中。

当所有商品列表页和商品详情页都采集完后，系统就一直处于空闲状态，URL种子定时器负责定时把所有种子URL注入到任务队列中，激活系统运转，URL种子定时器是一个独立的进程。

所述任务管理器具备断点恢复的功能，爬虫实例进程记录下当前正在处理的所有任务，当爬虫实例进程从失效状态恢复时，从断点开始继续任务。

所述动态IP代理器具备创建并维护IP库功能和代理IP失败统计功能，当一个代理IP失败次数达到预设的阈值时，把该代理IP从IP库中剔除，并以日志的方式记录下来；

所述网页下载器从任务中获得网页URL，通过HTTP请求下载相应的网页，爬虫实例进程创建Page对象，将下载的网页HTML脚本以文本的方式注入到Page对象中，把此Page对象传递给网页解析器；

所述网页解析器用于完成两个功能：从商品列表页里解析出所有商品详情页的URL、以及下一张商品列表页URL，并注入到Page对象的对应数据项中；

从商品详情页里提取出商品属性相关的信息数据，并注入到Page对象的对应数据项中；爬虫进程将解析出来的URL构建任务并加入到任务队列中，并把Page对象传递给分布式存储模块的数据存储器做数据入库；

所述日志记录器提供爬虫进程在关键运行位置记录重要日志信息的功能。

所述数据存储器用于把Page对象的数据存储到数据库中；

所述Kudu存储引擎和Impala查询引擎提供了基于SQL的即时数据查询功能。

所述监测报警模块通过如下方式实现报警功能：

在Zookeeper服务器上创建项目节点，每个爬虫启动时，Zookeeper注册器在Zookeeper的项目节点下以爬虫主机IP注册一个临时节点目录，当爬虫宕机时，该临时节点目录会被Zookeeper删除，监控报警器运行监控程序对项目节点目录进行监听，当节点下有目录数量改变时，Zookeeper会给监控程序发送通知，回调程序执行报警动作发送邮件给系统运维人员，从而完成监控报警的功能。

所述系统通过任务管理器结合MySQL数据库的行级锁机制来管理任务队列，MySQL数据库实现任务的安全隔离功能。

所述系统还能够通过主控节点模块管理所有爬虫的启动、暂停和故障恢复，通过RPC协议进行主控节点模块和爬虫实例进程之间的通信。

本发明具有以下控制优点：

1、多线程、多节点分布式爬虫：同一程序包部署到多个节点，多个爬虫实例并行运行，分别随机采集多个网站数据，提高采集的速度；

2、任务管理模块随机调度任务和URL：根据网站的顶级域名随机分派网页URL，形成客户端爬虫需要完成的任务，爬虫任务包括全量网页数据采集、新品发现与采集、每天商品价格采集、等；定时向URL库添加种子URL；

3、动态IP代理库：每次网页下载前都动态构造代理IP，以应对网站对固定IP的流量限制；

4、可扩展的网页解析器：整合多个网站的网页解析器，根据网站顶级域名选择相应解析器定向提取有用的URL和商品详情数据；

5、分布式存储系统：采用线性扩容的分布式存储系统保存历史的、新增的网页原始数据和解析网页后提取的结构化数据；

6、爬虫节点监测报警模块：监测所有爬虫的运行状态，并发送邮件报告异常情况。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明系统架构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本发明公开了一种分布式部署的网络数据采集系统，该系统是一种分布式爬虫系统，包括任务管理模块、爬虫模块、分布式存储模块、监测报警模块和主控节点模块；

任务管理模块：任务状态库、任务管理器、URL种子定时器；

爬虫模块：动态IP代理器、网页下载器、网页解析器、日志记录器；

分布式存储模块：数据存储器、Kudu存储引擎、Impala查询引擎；

监测报警模块：监控报警器、Zookeeper注册器、Zookeeper服务器；

主控节点模块：RPC通信、速度控制、任务队列管理、爬虫启停。

1、任务管理模块

负责存储URL库、维护网页采集任务状态、管理采集任务的进队与出队、URL种子定时调度、缓存已采集URL和商品SKU。

1.1任务状态库

任务状态库由两部分组成：任务状态存储、URL及商品SKU缓存，是实现分布式爬虫的关键技术。

存储任务状态信息到MySQL数据库中，利用MySQL的行级事务确保单个任务的原子性操作，任务状态表(tasks)的表结构如表1所示：

表1

注：Unique Index：task_date,url_md5

Redis库里缓存所有已采集商品SKU，用于帮助新品发现；

1.2任务管理器

任务管理器负责维护任务的生命周期，更新任务的不同状态，实现任务的出队与入队功能，确保任务队列操作的隔离安全，即同一个任务只分派给一个爬虫的某一线程。

任务的调度策略体现在任务的出队与入队策略中：

出队：

优先选择采集商品详情页的任务出队，当未开始任务队列中已没有采集商品详情页的任务时，才选择采集商品列表页的任务出队；

入队：当网页解析器解析完商品列表页时，把所有采集商品详情页的任务加入到队列中；

任务管理器要具备断点恢复的功能，每只爬虫都记录下当前正在处理的所有任务，当爬虫从失效状态恢复时，从断点开始继续任务。

1.3 URL种子定时器

当所有商品列表页和商品详情页都采集完后，爬虫系统就一直处于空闲状态。URL种子定时器负责定时把所有种子URL注入到任务队列中，激活爬虫系统运转。URL种子定时器是一个独立的进程。

2、爬虫模块

爬虫模块主要完成采集和解析网页，以多个独立的实例进程分布到不同节点机器上运行，以多线程的模式采集并解析网页，提高整体的采集速度。

2.1动态IP代理器

应对IP流量限制这种反爬虫策略，其中一种有效的办法是建立动态IP代理库。购买一批稳定的代理IP，以配置文件的方式保存到程序包中，当爬虫启动时，一次性加载到内存，每次构建http客户端请求时，都从IP代理库中随机获取一个代理IP，发送http请求。这是动态IP代理器的基本功能。

动态IP代理器需要具备代理IP失败统计功能，当一个代理IP失败次数达到预设的阈值时，把该代理IP从IP库中剔除，并以日志的方式记录下来，以方便系统维护。

2.2网页下载器

一个爬虫任务中包括的信息有：网页URL、任务的类型。网页下载器从任务中获得URL，通过http get请求下载相应的网页。将下载的网页html脚本以文本的方式注入到Page对象中，把此Page对象传递给网页解析器做进一步处理。

Page类抽象了一个任务生命周期内所要处理的数据结构，包括：网页html脚本、商品详情信息、从商品列表页解析出来的商品详情页URL。

2.3网页解析器

网页解析器需要完成两个功能：

从商品列表页里解析出所有商品详情页的URL、以及下一张商品列表页URL，并注入到Page对象的对应数据项中。

从商品详情页里提取出商品属性相关的信息数据，并注入到Page对象的对应数据项中。

爬虫进程将解析出来的URL构建任务并加入到任务队列中，并把Page对象传递给数据存储器做数据入库。

由于每个网站的网页技术细节都相差巨大，所以每个网站的网页解析器都需要遵循给定的编程接口，采取特定的URL解析策略、特定的商品信息提取技术，实现各自的解析逻辑，处理各个网站的特有问题。

2.4日志记录器

日志记录器提供爬虫进程在关键运行位置方便地记录重要日志信息的功能。做到日志按等级分类并可配置。

3分布式存储模块

3.1数据存储器

数据存储器把Page对象的数据存储到数据库中，可根据多种数据库实现不同的存储器，如：MySQL、HBase和Kudu等。HBase作为网页原始数据的对象存储数据库，Kudu作为解析后的商品详情结构化数据快速读写数据库，HBase和Kudu整合Impala对外提供SQL快速查询能力。

存储网页html脚本的表结构如下所示：

CREATE TABLE`page`(

`md5`char(32)NOT NULL COMMENT'商品详情页面的url的MD5Hex值',

`url`varchar(767)CHARACTER SET armscii8NOT NULL COMMENT'商品详情页面的url地址',

`content`mediumtext COMMENT'网页HTML脚本',

PRIMARY KEY(`md5`),

UNIQUE INDEX`ui_url`(`url`)

)ENGINE＝InnoDB DEFAULT CHARSET＝utf8；

存储商品属性数据的表结构如下所示：

CREATE TABLE`item`(

`source`varchar(30)NOT NULL COMMENT'商品来源，如电平台域名',

`id`varchar(30)CHARACTER SET armscii8NOT NULL COMMENT'商品id(sku)',

`brand`varchar(30)DEFAULT NULL COMMENT'商品品牌',

`category`varchar(100)DEFAULT NULL COMMENT'商品品类',

`model`varchar(100)DEFAULT NULL COMMENT'商品型号',

`price`decimal(10,2)DEFAULT NULL COMMENT'商品价格',

`title`varchar(255)DEFAULT NULL COMMENT'商品详情页面的商品标题',

`comment_count`int DEFAULT NULL COMMENT'商品评论数',

`img_url`varchar(767)CHARACTER SET armscii8DEFAULT NULL COMMENT'商品图片的url地址',

`params`text COMMENT'JSON格式的商品规格参数',

PRIMARY KEY(`source`,`id`)

)ENGINE＝InnoDB DEFAULT CHARSET＝utf8；

存储商品历史价格的表结构如下所示：

CREATE TABLE`price`(

`source`varchar(30)NOT NULL COMMENT'商品来源，如电商平台域名',

`id`varchar(30)CHARACTER SET armscii8NOT NULL COMMENT'商品id(sku)',

`collect_date`date DEFAULT CURRENT_DATE COMMENT'采集日期',

`price`decimal(10,2)DEFAULT NULL COMMENT'商品价格',

PRIMARY KEY(`source`,`id`,`collect_date`)

)ENGINE＝InnoDB DEFAULT CHARSET＝utf8；

3.2 Kudu存储引擎

Kudu是一款分布式存储系统，具备存储海量结构化数据的能力、线性扩容的功能、对快速数据进行快速分析的能力。选择Kudu作为数据存储引擎的原因：

每天千万级数据增量；

对快速数据做快速响应，数据一旦入库就能快速分析；

满足数据挖掘层的数据频繁更新的需求；

跟Spark和Impala等开源大数据组件无缝结合。

3.3 Impala查询引擎

Impala整合Kudu提供了基于SQL的即时数据查询能力。商品属性数据通过SQL查询就能快速进行即时分析。

4监测报警模块

监测报警模块是为了主动发现爬虫节点宕机的情况，并通过邮件通知系统运维人员。

4.1 Zookeeper服务器

在Zookeeper服务器上创建项目节点/taranbula(taranbula是项目代号)。

4.2 Zookeeper注册器

每个爬虫启动时，Zookeeper注册器在Zookeeper的/taranbula节点下以爬虫主机IP注册一个临时节点目录，当爬虫宕机时，该临时节点目录会被Zookeeper删除。

4.3监控报警器

监控报警器依赖Zookeeper实现，监控程序对项目节点目录/taranbula进行监听，当节点下有目录数量改变时，Zookeeper会给监控程序发送通知，回调程序执行报警动作发送邮件，从而完成监控报警的功能。监控报警器是一个独立运行的进程。

5主控节点模块

分布式爬虫系统主要有两种实现方式：

通过任务管理器结合数据库管理任务队列，数据库实现任务的安全隔离功能；

通过主控节点结合数据库管理任务队列，主控节点管理所有爬虫的启动、暂停和故障恢复，通过RPC协议(RPC，Remote Procedure Call，远程过程调用)进行主控节点和客户端爬虫之间的通信。

本实施例中，开发部署环境如下：

开发环境：

Python发行版：Anaconda3Windows x86_64

Python版本：3.6.6

Kudu、Impala复用现有CDH的组件

IDE：PyCharm

Python虚拟环境：Conda Environment

部署环境：

Python发行版：Anaconda3Linux x86_64

Python版本：3.6.6

Kudu版本：1.2.0

Impala版本：2.7.0

Zookeeper版本：3.4.5

Redis版本：3.2.1

MySQL版本：8.0.13

Python虚拟环境：Conda Environment

爬虫系统的各个模块的具体部署位置见下表2：

表2

本发明提供了一种分布式部署的网络数据采集系统，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种分布式部署的网络数据采集系统，其特征在于，包括任务管理模块、爬虫模块、分布式存储模块、监测报警模块和主控节点模块；

其中，所述任务管理模块负责存储URL库、维护网页采集任务状态、管理采集任务的进队与出队、URL种子定时调度、缓存已采集URL和所采集特定商品的库存量单位SKU；

所述监测报警模块能够主动发现爬虫进程宕机的情况，并通知系统运维人员；

所述主控节点模块包括RPC通信、速度控制、任务队列管理和爬虫启停；

所述任务管理器负责维护任务的生命周期，更新任务的不同状态，实现任务的出队与入队功能，确保任务队列操作的隔离安全，即同一个任务只分派给一个爬虫的一个线程；在采集最初始阶段时，URL种子定时器把预先配置的种子URL注入任务队列中，其中种子URL即为最初始的商品列表页URL；任务出队时，优先选择采集商品列表页的任务出队，通过爬虫模块下载此URL网页并解析出该网页中出现的商品列表页URL和商品详情页URL，然后将这些新解析出的URL放入任务队列中，当未开始任务队列中已没有商品列表页的任务时，才选择采集商品详情页的任务出队；任务入队时，把网页解析器解析出来的所有商品列表页和商品详情页的任务加入到队列中；

当所有商品列表页和商品详情页都采集完后，系统就一直处于空闲状态，URL种子定时器负责定时把所有种子URL注入到任务队列中，激活系统运转，URL种子定时器是一个独立的进程；

所述任务管理器具备断点恢复的功能，爬虫实例进程记录下当前正在处理的所有任务，当爬虫实例进程从失效状态恢复时，从断点开始继续任务；

所述日志记录器提供爬虫进程在关键运行位置记录重要日志信息的功能；

所述数据存储器用于把Page对象的数据存储到数据库中；

所述Kudu存储引擎和Impala查询引擎提供了基于SQL的即时数据查询功能；

所述监测报警模块通过如下方式实现报警功能：

在Zookeeper服务器上创建项目节点，每个爬虫启动时，Zookeeper注册器在Zookeeper的项目节点下以爬虫主机IP注册一个临时节点目录，当爬虫宕机时，该临时节点目录会被Zookeeper删除，监控报警器运行监控程序对项目节点目录进行监听，当节点下有目录数量改变时，Zookeeper会给监控程序发送通知，回调程序执行报警动作发送邮件给系统运维人员，从而完成监控报警的功能；

所述系统通过任务管理器结合MySQL数据库的行级锁机制来管理任务队列，MySQL数据库实现任务的安全隔离功能；

所述系统通过主控节点模块管理所有爬虫的启动、暂停和故障恢复，通过RPC协议进行主控节点模块和爬虫实例进程之间的通信。