CN112307006A

CN112307006A - 一种政策数据采集、清洗及自动发布的方法及装置

Info

Publication number: CN112307006A
Application number: CN202011320063.7A
Authority: CN
Inventors: 刘玉鹏; 朱涛; 张庆文; 赵西法
Original assignee: Zhenghe Technology Co ltd
Current assignee: Zhenghe Technology Co ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-02

Abstract

本发明涉及一种政策数据采集、清洗及自动发布的方法及装置，属于政策数据提取技术领域，包括以下步骤：采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中；利用分布式爬虫抓取程序从redis数据库获取种子进行抓取，并将抓取的页面源码存储到MongoDB数据库中；数据清洗程序根据抓取的页面源码对该页面进行清洗；爬虫采集程序将清洗的数据通过政策自动发布模型验证，判断是否发布，如果验证为可以发布，则直接发布，若不能发布，则隐藏该数据。本发明可以有效抓取政策，抓取效率高、政策处理质量高，且能够自动发布，无需人工审核发布。

Description

一种政策数据采集、清洗及自动发布的方法及装置

技术领域

本发明涉及一种政策数据采集、清洗及自动发布的方法及装置，属于政策数据提取技术领域。

背景技术

随着国家综合国力的日益增强、经济的快速发展，为了提升企业自主研发水平、科技创新能力，各级职能部门每年都会出台大量支持企业科研创新、技术成果转化、创新创业的政策，最新政策通知的快速收集、解读、汇编以及申报书的制作已为企业的发展提供了强大的助力。但是目前发布政策没有统一的渠道，相关政策数量巨大，且制定部门不同，需要花费大量的人力资源来对政策数据进行收集、筛选、分析，大大加大了企业的人力成本，也加大了政策落地的难度。目前政策抓取系统普遍存在抓取规则配置不灵活，采集数据质量不高，不能有效对政策进行分类、打标签等操作，采集的政策还需要人工进一步审核、发布，不能自动发布，政策的时效性严重滞后。

发明内容

针对现有技术的不足，本发明提供了一种政策数据采集、清洗及自动发布的方法及装置，可以有效抓取政策，抓取效率高、政策处理质量高，且能够自动发布，无需人工审核发布。

本发明采用以下技术方案：

一种政策数据采集、清洗及自动发布的方法，包括以下步骤：

(1)采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中；

(2)利用分布式爬虫抓取程序从redis数据库获取种子进行抓取，并将抓取的页面源码存储到MongoDB数据库中；

(3)数据清洗程序根据抓取的页面源码对该页面进行清洗；

(4)爬虫采集程序将清洗的数据通过政策自动发布模型验证，判断是否发布，如果验证为可以发布，则直接发布，若不能发布，则隐藏该数据。

优选的，步骤(1)进一步为：

(1.1)收集全国各地方政府网站网址，如国务院、工信部、科技部、各省份科技厅网站等；

(1.2)人工将网站网址录入到渠道配置系统中,渠道配置系统用来配置各个网站抓取规则；

优选的，抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则、附件规则等，这些抓取规则一般是Xpath格式，表示某一个抓取内容在网页中的位置，形式如//*[@id＝"detaiText"]/div[1]/h3,通过该规则可从源码中提取出该内容；

抓取规则需要人工一个一个录入，为了方便管理，本发明优选还开发了渠道配置系统，运营人员可以方便的进行规则配置录入，并且可以检测规则是否正确。

(1.3)种子导入过程采用种子导入程序实现，种子导入程序从渠道配置系统中获取全部的地址链接，将链接作为种子导入到redis数据库中；

此处的种子是网站地址链接的一种别称，优选的，种子导入程序是一个实时监测redis数据库种子是否清空的程序，每一种类型的数据在redis中都是通过一个key来存储，若检测到key对应的数据为空，那么说明种子消耗完了，则迅速从配置系统中获取导入到redis数据库中，本发明所使用的redis数据库是较为常见的数据库，单线程、读取写入速度快，并且可以方便的做判重处理，防止资源被重复抓取。

优选的，分布式爬虫抓取程序是一套抓取程序，分布式体现在可以运行到多台服务器上，能够实现分布式是因为各个爬虫程序都是从redis数据库中读取种子，彼此之间没有关联，且种子不会重复，分布式爬虫抓取程序根据种子来下载源码；MongoDB数据库是通用的非关系型数据库，是一种常用的大数据存储数据库，读写速度快，由于是非关系型数据库，对于数据存储格式没有要求，存储过程中不会存在数据格式问题导致数据存储失败的情况。

优选的，步骤(3)中，数据清洗程序根据已获取的页面源码，基于种子从配置系统中获取抓取规则，通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号等信息。

本发明中，基于政策标题、正文信息，采用采用文本分析模型自动提取政策中所包含的标签、关键，此模型的实现方式是，人工设定好标签、关键词，然后人工分析出每个标签、关键词可以覆盖的关键词，然后该模型搜索政策原文、标题是否包含某个关键词，如果包含就给该政策设置之前约定好的标签或关键词。

优选的，自动发布模型是通过政策标题判断政策是否发布的模型，自动发布模型为一个二分分类模型，结果只有0和1，自动发布模型的实现具体为：

(4.1)认定政策是否发布的依据是该政策的重要性是否有意义，如某部门发布关于组织申报自然科学基金重点项目的通知，则认为该政策通知是重要的，是可以发布的；如某部门发布推进中心公开招聘进入考察范围人员公示的通知，则认为这样的政策通知是不重要的，不可以发布，判断依据是此政策是否有助于企业发展、对企业是否有帮助；

(4.2)关于数据来源，本发明预先已经采集了大量的政策数据，通过人工审核发布的政策标记为1，人工审核不需要发布的政策标记为0，将已经人工审核处理后的数据提取出来进行预处理，通过jieba分词并编码后得到文本数据集，将该数据集分为训练集和测试集；

(4.3)在嵌入层读入训练集中的一批政策数据，通过embedding方式将每个词映射成一个n维的词向量，构建完词向量后，将所有的词向量拼接起来构成一个m*n的二维矩阵，作为最初的输入；

(4.4)在卷积层对词嵌入层进行卷积；

(4.5)在池化层对卷积得到的结果进行最大化池得到最终的特征向量；

(4.6)在全连接层先对池化层的输出进行平坦化，再输入全连接层，为了防止过拟合，在输出层之前加上dropout防止过拟合，得到结果就是预测的最后分类；

(4.7)重复训练多次后，采用测试集中的政策数据进行测试，根据测试得出的结果调整TextCNN模型；

(4.8)继续步骤(6.3)，多次读入训练集数据，继续进行训练，得到最终的分类模型。

一种政策数据采集、清洗及自动发布的装置，包括导入模块、抓取模块、清洗模块和自动发布模块；

所述导入模块，用于采用爬虫采集程序将全国各地政府网站的地址链接作为种子导入到redis数据库中；

所述抓取模块，用于利用分布式爬虫抓取程序从redis数据库获取种子进行抓取，并将抓取的页面源码存储到MongoDB数据库中；

所述清洗模块，用于采用数据清洗程序根据抓取的页面源码对该页面进行清洗；

所述自动发布模块，用于采用爬虫采集程序将清洗的数据通过政策自动发布模型验证，判断是否发布，如果验证为可以发布，则直接发布，若不能发布，则隐藏该数据。

优选的，所述导入模块中，包括：

收集全国各地方政府网站网址，如国务院、工信部、科技部、各省份科技厅网站等；

人工将网站网址录入到渠道配置系统中,渠道配置系统用来配置各个网站抓取规则；

种子导入过程采用种子导入程序实现，种子导入程序从渠道配置系统中获取全部的地址链接，将链接作为种子导入到redis数据库中。

优选的，抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则、附件规则等，这些抓取规则一般是Xpath格式，表示某一个抓取内容在网页中的位置，形式如//*[@id＝"detaiText"]/div[1]/h3,通过该规则可从源码中提取出该内容。

优选的，种子导入程序是一个实时监测redis数据库种子是否清空的程序，每一种类型的数据在redis中都是通过一个key来存储，若检测到key对应的数据为空，那么说明种子消耗完了，则迅速从配置系统中获取导入到redis数据库中，本发明所使用的redis数据库是较为常见的数据库，单线程、读取写入速度快，并且可以方便的做判重处理，防止资源被重复抓取。

优选的，所述清洗模块，利用数据清洗程序根据已获取的页面源码，基于种子从配置系统中获取抓取规则，通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号等信息。

本发明中未详尽之处，均可采用现有技术进行。

本发明的有益效果为：

本发明的优点在于解决了政策采集发布中的两个问题，一个是采集的政策自动清洗，另一个是政策自动发布的问题，两个问题都是采用自然语言处理TextCNN文本分类的方式来处理，要想得到精准的结果需要有大量的数据作为支撑，一方面本发明已经有一批高质量的政策数据，先通过训练这一批数据得出一个初步模型，基于训练集和测试集反馈到原始数据库(初步模型)中，经过不断的训练、验证，可达到99.5％的准确率，自动发布模型正式使用后，一直在不断的训练、验证。

附图说明：

图1为本发明的方法流程图。

具体实施方式：

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述，但不仅限于此，本发明未详尽说明的，均按本领域常规技术。

实施例1：

一种政策数据采集、清洗及自动发布的方法，如图1所述，包括以下步骤：

(3)数据清洗程序根据抓取的页面源码对该页面进行清洗；

实施例2：

一种政策数据采集、清洗及自动发布的方法，如实施例1所示，所不同的是，步骤(1)进一步为：

实施例3：

一种政策数据采集、清洗及自动发布的方法，如实施例1所示，所不同的是，步骤(3)中，数据清洗程序根据已获取的页面源码，基于种子从配置系统中获取抓取规则，通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号等信息。

实施例4：

一种政策数据采集、清洗及自动发布的方法，如实施例1所示，所不同的是，自动发布模型是通过政策标题判断政策是否发布的模型，自动发布模型为一个二分分类模型，结果只有0和1，自动发布模型的实现具体为：

(4.4)在卷积层对词嵌入层进行卷积；

实施例5：

实施例6：

一种政策数据采集、清洗及自动发布的装置，如实施例5所示，所不同的是，导入模块中，包括：

抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则、附件规则等，这些抓取规则一般是Xpath格式，表示某一个抓取内容在网页中的位置，形式如//*[@id＝"detaiText"]/div[1]/h3,通过该规则可从源码中提取出该内容。

种子导入程序是一个实时监测redis数据库种子是否清空的程序，每一种类型的数据在redis中都是通过一个key来存储，若检测到key对应的数据为空，那么说明种子消耗完了，则迅速从配置系统中获取导入到redis数据库中，本发明所使用的redis数据库是较为常见的数据库，单线程、读取写入速度快，并且可以方便的做判重处理，防止资源被重复抓取。

分布式爬虫抓取程序是一套抓取程序，分布式体现在可以运行到多台服务器上，能够实现分布式是因为各个爬虫程序都是从redis数据库中读取种子，彼此之间没有关联，且种子不会重复，分布式爬虫抓取程序根据种子来下载源码；MongoDB数据库是通用的非关系型数据库，是一种常用的大数据存储数据库，读写速度快，由于是非关系型数据库，对于数据存储格式没有要求，存储过程中不会存在数据格式问题导致数据存储失败的情况。

实施例7：

一种政策数据采集、清洗及自动发布的装置，如实施例5所示，所不同的是，清洗模块，利用数据清洗程序根据已获取的页面源码，基于种子从配置系统中获取抓取规则，通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号等信息。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种政策数据采集、清洗及自动发布的方法，其特征在于，包括以下步骤：

(3)数据清洗程序根据抓取的页面源码对该页面进行清洗；

2.根据权利要求1所述的政策数据采集、清洗及自动发布的方法，其特征在于，步骤(1)进一步为：

(1.1)收集全国各地方政府网站网址；

(1.3)种子导入过程采用种子导入程序实现，种子导入程序从渠道配置系统中获取全部的地址链接，将链接作为种子导入到redis数据库中。

3.根据权利要求2所述的政策数据采集、清洗及自动发布的方法，其特征在于，所述抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则和附件规则，抓取规则采用Xpath格式，表示某一个抓取内容在网页中的位置。

4.根据权利要求2所述的政策数据采集、清洗及自动发布的方法，其特征在于，所述种子导入程序是一个实时监测redis数据库种子是否清空的程序，每一种类型的数据在redis中都是通过一个key来存储，若检测到key对应的数据为空，那么说明种子消耗完了，则迅速从配置系统中获取导入到redis数据库中。

5.根据权利要求1所述的政策数据采集、清洗及自动发布的方法，其特征在于，步骤(3)中，数据清洗程序根据已获取的页面源码，基于种子从配置系统中获取抓取规则，通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号信息。

6.根据权利要求1所述的政策数据采集、清洗及自动发布的方法，其特征在于，自动发布模型是通过政策标题判断政策是否发布的模型，自动发布模型为一个二分分类模型，结果只有0和1，自动发布模型的实现具体为：

(4.1)认定政策是否发布的依据是该政策的重要性是否有意义，判断依据是此政策是否有助于企业发展、对企业是否有帮助；

(4.4)在卷积层对词嵌入层进行卷积；

(4.6)在全连接层先对池化层的输出进行平坦化，再输入全连接层，在输出层之前加上dropout防止过拟合，得到结果就是预测的最后分类；

7.一种基于权利要求1方法的政策数据采集、清洗及自动发布的装置，其特征在于，包括导入模块、抓取模块、清洗模块和自动发布模块；

8.根据权利要求7所述的政策数据采集、清洗及自动发布的装置，其特征在于，所述导入模块中，包括：

收集全国各地方政府网站网址；

9.根据权利要求8所述的政策数据采集、清洗及自动发布的装置，其特征在于，抓取规则包括列表规则、标题规则、时间规则、正文规则、文号规则和附件规则，抓取规则采用Xpath格式，表示某一个抓取内容在网页中的位置。

10.根据权利要求8所述的政策数据采集、清洗及自动发布的装置，其特征在于，种子导入程序是一个实时监测redis数据库种子是否清空的程序，每一种类型的数据在redis中都是通过一个key来存储，若检测到key对应的数据为空，那么说明种子消耗完了，则迅速从配置系统中获取导入到redis数据库中；

优选的，所述清洗模块，利用数据清洗程序根据已获取的页面源码，基于种子从配置系统中获取抓取规则，通过抓取规则从页面源码中提取需要的政策标题、时间、正文、附件信息、文号信息。