CN110297960A

CN110297960A - 一种基于配置的分布式公文数据采集系统

Info

Publication number: CN110297960A
Application number: CN201910523201.2A
Authority: CN
Inventors: 马新凡; 刁烽; 宋旻雨; 李泽松; 刘福强; 孙俊杰; 熊志豪
Original assignee: Division Big Data Research Institute Co Ltd
Current assignee: Division Big Data Research Institute Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-10-01

Abstract

本发明提供了一种基于配置的分布式公文数据采集系统，包括配置校验器、爬虫任务处理器、数据存储器；所述配置校验器、爬虫任务处理器、数据存储器由上至下逐层部署。本发明具备高效性，通过配置化实现数据实时获取，无需编码，有效提高了公文数据的获取效率；具备可管理性，通过可视化界面对公文模板和获取结果进行展示、统一操作管理，可通过邮件推送功能获取数据结果增量统计，可通过报警监控功能进行问题追踪，便于维护；具备可扩展性，可以根据需要进行水平扩展，实现分布式数据采集；具备数据异构性，爬取海量多数据源的公文数据时，通过Redis作为中间件，屏蔽了数据源和数据存储系统的异构性。

Description

一种基于配置的分布式公文数据采集系统

技术领域

本发明涉及一种基于配置的分布式公文数据采集系统，属于大数据技术领域。

背景技术

21世纪是一个大数据时代，数据无处不在，存在于生活的方方面面。无论是出于数据分析还是产品需求，我们都需要从某些网站提取出我们感兴趣，有价值的内容。但由于收集数据是一个重复性工作，且人力有穷尽，所以爬虫应运而生，并且迅速的发展壮大。

爬虫是通过编写一段代码，来获取目标网站上我们感兴趣的数据，减少人为工作量。爬虫的主要流程：获取一个初始网页的URL，获得初始URL上的所有信息，再次在获得的信息中抓取我们感兴趣的内容，并对该内容进行解析匹配，最终保存到数据库。对所有URL分别执行上述流程，直到遍历完所有的URL。一般而言，爬虫总体可分为网络请求模块、爬取流程控制模块和内容分析提取模块三个模块.

如今市面上的爬虫功能一般分为数据采集(下载相关的网页),数据处理(对相关网页的数据进行分析)和数据存储(将所需要爬取的内容进行保存)三个部分的内容,而高级的爬虫则使用了分布式技术以及并发编程用于相关数据爬取以及分析。在过去爬虫所爬取的网站页面主要是html文档本身，所以爬虫所抓取的内容大部分都是html中包含的内容，但是随着前端技术的发展，动态网页的概率越来越大，这些动态网站中使用了ajax技术，相比起传统的html文档，如今很多网页的信息都是通过javascript动态生成的。网页的多样性导致了常见的爬虫程序无法适用不同格式的网页，在针对不同格式的网站爬取时后端程序员需要在原有代码上进行修改，这极大的降低了工作效率和代码维护性。

发明内容

为解决上述技术问题，本发明提供了一种基于配置的分布式公文数据采集系统，该基于配置的分布式公文数据采集系统通过以配置文件为核心的方式，可提供在线配置的方式以替代现有的编写执行代码的方式，从而极大的提高工作效率。

本发明通过以下技术方案得以实现。

本发明提供的一种基于配置的分布式公文数据采集系统，包括配置校验器、爬虫任务处理器、数据存储器；所述配置校验器、爬虫任务处理器、数据存储器由上至下逐层部署，其中：

配置校验器读取配置文件，对读取到的配置文件进行校验，校验通过则根据配置文件的配置项调用爬虫任务处理器执行；

爬虫任务处理器根据配置项生成任务列表，以预设周期对任务列表中的任务逐项执行，每项任务根据配置项的内容爬取数据并将爬取到的数据通过数据存储器进行存储，爬取数据过程中对爬取的数据进行模板匹配，爬取数据和模板匹配的过程与结果信息保存于详情列表；

数据存储器对所爬取的数据的数据格式进行解析，将文本数据以结构化方式存储，将图片数据和附件以非结构化方式存储。

还包括任务监控模块，任务监控模块对任务列表的生成过程以及任务列表中每项任务的执行状态进行监控。

还部署有REST服务模块，REST服务模块提供一次性的任务生成及调度。

所述数据存储器中，对于非结构化方式存储的数据，将指向数据路径的字段以json方式存储于文本数据。

所述数据存储器为Redis。

所述配置文件的配置项至少包括待爬取网站信息、数据爬取任务信息和需要获取的字段。

所述需要获取的字段以xpath的方式进行配置。

所述配置校验器进行校验时，分别对待爬取网站信息和数据爬取任务信息进行校验。

所述预设周期为20分钟。

本发明的有益效果在于：具备高效性，通过配置化实现数据实时获取，无需编码，有效提高了公文数据的获取效率；具备可管理性，通过可视化界面对公文模板和获取结果进行展示、统一操作管理，可通过邮件推送功能获取数据结果增量统计，可通过报警监控功能进行问题追踪，便于维护；具备可扩展性，可以根据需要进行水平扩展，实现分布式数据采集；具备数据异构性，爬取海量多数据源的公文数据时，通过Redis作为中间件，屏蔽了数据源和数据存储系统的异构性。

附图说明

图1是本发明的架构图；

图2是本发明的数据流图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

如图1所示的一种基于配置的分布式公文数据采集系统，包括配置校验器、爬虫任务处理器、数据存储器；所述配置校验器、爬虫任务处理器、数据存储器由上至下逐层部署，其中：

所述数据存储器为Redis。

所述需要获取的字段以xpath的方式进行配置。

所述预设周期为20分钟。

具体的，本发明在实施时应当注意如下：

1.网站信息配置和任务配置

(1)爬取网站基本信息配置。主要包括，网站地址，名称等基本信息配置，获取功能列表信息的配置，采用什么类型工具进行抓取等作为爬虫对于该网站的基本配置输入项。

(2)任务配置，爬虫任务作为可配置化爬虫应用系统的对于任务进行管理的基本单元，主要将目标网站作为一个基本任务单元进行管理，对任务基本信息进行配置，比如任务的启动暂停。

(3)公文中需要获取的字段的xpath配置在页面详情页进行配置，如公文的标题，公文正文部分，公文落款，公文发布日期，发文字号，附件，图片等属性。

2.配置校验器

配置校验器负责检查配置项的字段配置参数是否准确，主要功能是通过获取目标站点相应字段是否准确，

(1)验证公文列表。通过列表校验器可以校验目标站点公文列表xpath是否准确，验证准确后方可保存在公文列表信息配置。

(2)验证公文详情。通过公文详情校验器可以校验目标站点公文详情中需要获取的字段抓取结果是否准确，验证准确后方可保存公文详情获取的配置。

3.任务处理器

(1)公文列表任务。公文列表任务定时启动，可通过配置化指定执行周期，默认每20分钟执行一次。公文列表任务通过读取数据库中网站基本信息配置和任务配置参数，开始执行公文列表抓取，以获得具体的公文详情页地址。获得公文详情页地址和标题后，将其以json对象形式保存在Redis的List数据结构中，其key值为由任务Id和列表Id组装而成。

(2)公文详情任务。上一步已经将需要抓取的公文详情地址存储在Redis中，通过遍历Redis中的key，再依次弹出每一条目标公文地址，使用webclient或者webdriver进行公文详情页的抓取和字段解析任务。任务解析使用多线程执行，对公文解析通过任务id进行分组，按照任务id向线程池提交任务。提交解析任务到线程池，线程实现对公文详情页进行字段解析，并将解析结果作为对象传递到任务解析类，任务解析类通过判定关键字段是否获取到，决定是否需要再次重试抓取。当重试次数达到阈值后，直接丢弃掉该公文详情地址。

4.数据存储器

获取到公文详情数据后需要将其存储，由于公文中较为普遍的数据格式有文本数据，图片数据，附件等文件数据。数据种类繁杂，本系统采用将文本数据解析后以结构化数据库方式存储，将图片和附件等数据通过下载后，指向其路径在结构化数据库中对标文本数据中的字段，以json的方式存储，在该字段中同时描述了由于网络原因或者网站权限问题造成下载失败的状态。

5.任务监控

整个爬虫系统在运行中由于需要执行列表抓取和详情抓取，难免因为网络原因或者网站发生部分或者全部变化导致抓取失败，这种情况需要得到有效的监控，以保证在大量目标站点中查找失败的并进行修改。任务监控模块主要针对列表抓取失败或者未通过配置获取到数据，将其记录在监控模块；任务监控模块也会针对公文详情页抓取失败或者由于其他原因导致的异常将其记录在监控模块中。

6.Rest服务

Rest服务主要用来提供一些本系统外涉及到的通过某一公文地址获取公文详情，修改某些公文里面的节点或者属性等。

由此，本发明的使用及执行过程如图2所示，在对待爬取网站信息(即网站基本信息配置)、数据爬取任务信息(即公文列表解析模板配置)和需要获取的字段进行配置后，系统根据配置的内容执行爬取、分析及存储，整个过程不需要编写执行代码，从而实现高效性、可管理性、可扩展性，而基于数据存储器的设置，则有效实现数据异构性。

由于本发明主要针对公文数据，而公文数据的内容较为统一，格式也较为规范和固定，所以对传统的爬虫进行了优化，提出一种基于配置化的爬虫应用系统，由此可提供一个在线配置平台，将Java应用程序和xpath结合，通过对不同政府单位网站的各个信息模块进行参数配置能有效的爬取公文信息，极大的提高工作效率。

Claims

1.一种基于配置的分布式公文数据采集系统，包括配置校验器、爬虫任务处理器、数据存储器，其特征在于：所述配置校验器、爬虫任务处理器、数据存储器由上至下逐层部署，其中：

2.如权利要求1所述的基于配置的分布式公文数据采集系统，其特征在于：还包括任务监控模块，任务监控模块对任务列表的生成过程以及任务列表中每项任务的执行状态进行监控。

3.如权利要求1所述的基于配置的分布式公文数据采集系统，其特征在于：还部署有REST服务模块，REST服务模块提供一次性的任务生成及调度。

4.如权利要求1所述的基于配置的分布式公文数据采集系统，其特征在于：所述数据存储器中，对于非结构化方式存储的数据，将指向数据路径的字段以json方式存储于文本数据。

5.如权利要求1所述的基于配置的分布式公文数据采集系统，其特征在于：所述数据存储器为Redis。

6.如权利要求1所述的基于配置的分布式公文数据采集系统，其特征在于：所述配置文件的配置项至少包括待爬取网站信息、数据爬取任务信息和需要获取的字段。

7.如权利要求6所述的基于配置的分布式公文数据采集系统，其特征在于：所述需要获取的字段以xpath的方式进行配置。

8.如权利要求1所述的基于配置的分布式公文数据采集系统，其特征在于：所述配置校验器进行校验时，分别对待爬取网站信息和数据爬取任务信息进行校验。

9.如权利要求1所述的基于配置的分布式公文数据采集系统，其特征在于：所述预设周期为20分钟。