CN110442768A

CN110442768A - 一种智能的政策信息采集和查询方法及其系统

Info

Publication number: CN110442768A
Application number: CN201910708022.6A
Authority: CN
Inventors: 费红琳; 肖巧巧; 丁杰; 倪向东
Original assignee: Guangzhou High Qiyun Mdt Infotech Ltd
Current assignee: Guangzhou High Qiyun Mdt Infotech Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2019-11-12

Abstract

本发明涉及计算机人工智能数据处理技术领域，公开了一种智能的政策信息采集和查询方法，包括了S1：网络爬虫工具抓取全国各地政府网站上与科技政策有关的网页内容和附件，并将抓取到的网页内容和附件存储到Elasticsearch服务器中；S2：政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库；S3：文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取，并整合到Solr服务器中；S4：用户使用高企云搜索从Solr服务器中获取政策内容，本发明还公开了一种智能的政策信息采集和查询系统，本发明通过设置内容提取模块使得系统可以对政策信息附件的内容进行提取，便于用户对科技政策的快速查询。

Description

一种智能的政策信息采集和查询方法及其系统

技术领域

本发明涉及计算机人工智能数据处理技术领域，特别是一种智能的政策信息采集和查询方法及其系统。

背景技术

近几年，为增强企业自主创新能力，提高科技创新水平，国家、省、市区政府先后出台了一系列支持企业科技创新、成果转化、创新创业的政策。为打破政府部门之间存在的信息孤岛和数据分割的局面，方便用户快速了解最新的、所有的政策通知，国内一些科技政策服务平台把这些分布在各区域政府网站上的政策采集整理到一个平台上，并按区域、文件类型进行分类展示，这样可以省去用户到不同网站查看政策的麻烦，节省不少时间。

当前的科技政策服务平台可以满足基本的一站式政策查询，但是对于想要快速系统性地了解某个行业或产业政策以及企业已获政策扶持信息的功能还有待完善。因为当前的科技政策服务平台只是对各政府网站政策通知正文内容进行采集和对所附附件进行直接转发，并未对所附附件内容进行相关的文字处理，而多数有效详细的政策信息和公示信息又均在附件中列出，导致实际使用中输入关键词不能有效识别筛选出所有有用的政策文件，仍需要逐个下载附件打开进行查看，这样比较费时费力，不便于为各类用户提供不同视角的政策分析统计和快速了解企业已获政策扶持信息等。此外，有些政务网站发布的政策通知为加密文档，不可直接复制粘贴使用，这也给用户带来了一定麻烦。

发明内容

本发明的目的在于提供一种智能的政策信息采集和查询方法及其系统，以解决现有技术不能对政策附件进行有效提取的问题。

为实现上述技术目的，达到上述技术效果，本发明公开了一种智能的政策信息采集和查询方法，包括以下步骤：

S1：网络爬虫模块抓取全国各地政府网站上与科技政策有关的网页内容和附件，并将抓取到的网页内容和附件存储到Elasticsearch服务器中；

S2：政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库；

S3：文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取，并整合到Solr服务器中；

S4：用户使用高企云搜索从Solr服务器中获取政策内容。

进一步，所述的网络爬虫模块爬取网页内容过程S1流程如下：

S11：爬虫获取初始的URL，从初始的URL开始爬取网页内容；

S12：爬取的网页内容和附件存储到Elasticsearch服务器中，爬取到URL放入任务调度服务器的优先级队列中；

S13：然后再对优先级队列中的URL进行再一次的爬取并重复上述步骤；

S14：当满足系统设置的条件停止爬虫。

进一步，所述的网页附件内容的提取过程S3流程如下：

S21：下载中心单元从高企云政策库下载网页内容和附件；

S22：文件检查单元对网页附件类型进行检测，并将附件传给相应文件格式的解析器；

S23：Word文件解析器、Pdf文件解析器、Excel文件解析器和OCR图片提取器分别提前相应格式文件的内容；

S24：压缩文件解压器解压压缩文件并重复S22和S23步骤；

S25：内容整合单元将各种文件解析器提取的文件内容整合并存储到Solr服务器。

进一步，所述的OCR图片提取器提取图片内容前使用图片预处理模块对图片进行二值化和降噪处理。

本发明还公开了一种智能政策信息采集和查询系统，采用上述信息采集和查询方法，包括以下模块：

政策采集模块：设有网络爬虫模块，用于采集全国各地政府网站上与科技政策有关的网页内容和附件，并存放到Elasticsearch服务器中；

Elasticsearch服务器：用于存储政策采集模块抓取的网页内容和附件；

政策定时调度模块：用于根据查询的时间段从Elasticsearch服务器获取网页内容和附件并传送给高企云政策库；

高企云政策库：用于存储政策定时调度模块传送的网页内容和附件；

文件内容提取模块：用于高企云政策库的网页附件内容的提取和整合；

Solr服务器：用于存储文件内容提取模块整合的网页附件内容；

高企云搜索：用于根据查询关键字从Solr服务器中获取政策内容。

进一步，所述的网络爬虫模块为定时爬虫工作服务器，所述的网络爬虫模块为WebMagic 爬虫工具。

进一步，所述的文件内容提取模块包括以下单元：

下载中心单元：用于从高企云政策库下载网页内容的和附件；

文件检查单元：用于对网页附件格式进行检测，并将附件传给相应文件格式的解析器；

Word文件解析器：用于对Word文件内容的提取；

Pdf文件解析器：用于对Pdf文件内容的提取；

Excel文件解析器：用于对Excel文件内容的提取；

OCR图片提取器：用于对图片内容的提取；

压缩文件解压器：用于压缩文件的解压，并将解压的文件传给文件检查单元；

内容整合单元：用于将各种文件解析器提取文件内容的整合并存储到Solr服务器。

进一步，OCR图片内容提取器设有图片预处理模块，所述的图片预处理模块用于对图片进行二值化、降噪处理。

本发明具有以下有益效果：

1.本发明通过设置内容提取模块使得本发明可以对政策信息的附件进行提取，有助于用户对政策的查询。

2.经过合理的设置内容提取模块内文件提取器的类型，本发明不仅可以对常规工作文件类型进行提取，还可以对图片类型的文件进行文字类容进行提取。

附图说明

图1为本发明的政策信息采集和查询系统的运行流程图。

图2为本发明文件内容提取模块的运行流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。

实施例1

如图1、2所示，本发明公开了本发明公开了一种智能的政策信息采集和查询方法，包括以下步骤：

S1：网络爬虫模块抓取全国各地政府网站上与科技政策有关的网页内容和附件，并将抓取到的网页内容和附件存储到Elasticsearch服务器中，网络爬虫模块的类型为WebMagic 爬虫工具；

S4：用户使用高企云搜索从Solr服务器中获取政策内容。

S11：爬虫获取初始的URL，从初始的URL开始爬取网页内容；

S14：当满足系统设置的条件停止爬虫。

进一步，所述的网页附件内容的提取过程S3流程如下：

S21：下载中心单元从高企云政策库下载网页内容和附件；

S24：压缩文件解压器解压压缩文件并重复S22和S23步骤；

一种智能政策信息采集和查询系统，包括以下模块：

政策采集模块：设有网络爬虫模块，用于采集全国各地政府网站上与科技政策有关的网页内容和附件，并存放到Elasticsearch服务器中，网络爬虫模块的类型为WebMagic 爬虫工具，网络爬虫模块为定时爬虫工作服务器；

高企云政策库：用于存储政策定时调度模块传送的网页内容和附件，高企云政策库使用NoSQL数据库存储数据；

高企云搜索：用于根据查询关键字从Solr服务器中获取政策内容，高企云搜索具有基于Solr服务器的Lucene全文检索功能。

文件内容提取模块包括以下单元：

文件检查单元：用于对网页附件格式进行检测，并将附件传给相应文件格式的解析器，文件检查单元使用文件的头信息进行文件类型的识别，检测的文件类型和头信息分别为：

格式：JPEG，文件头：FFD8FFE1；

格式：PNG，文件头：89504E47；

格式：Word/Excel，文件头：D0CF11E0；

格式：PDF，文件头：255044462D312E；

格式：ZIP，文件头：504B0304；

格式：RAR，文件头：52617221；

Word文件解析器：使用Apache POI工具对Word文件的内容进行提取；

Pdf文件解析器：使用Apache PDFbox工具对Pdf文件的内容进行提取；

Excel文件解析器：使用Apache POI工具对Excel文件的内容进行提取；

OCR图片提取器：用于对图片内容的提取；

压缩文件解压器：使用unrar、unzip工具对压缩文件进行解压，并将解压的文件传给文件检查单元；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种智能的政策信息采集和查询方法，其特征在于，包括以下步骤：

S4：用户使用高企云搜索从Solr服务器中获取政策内容。

2.如权利要求1所述的一种智能的政策信息采集和查询的方法，其特征在于：所述的网络爬虫模块爬取网页内容过程S1流程如下：

S11：爬虫获取初始的URL，从初始的URL开始爬取网页内容；

S14：当满足系统设置的条件停止爬虫。

3.如权利要求2所述的一种智能的政策信息采集和查询的方法，其特征在于：所述的网页附件内容的提取过程S3流程如下：

S21：下载中心单元从高企云政策库下载网页内容和附件；

S24：压缩文件解压器解压压缩文件并重复S22和S23步骤；

4.如权利要求3所述的一种智能的政策信息采集和查询的方法，其特征在于：所述的OCR图片提取器提取图片内容前使用图片预处理模块对图片进行二值化和降噪处理。

5.一种智能政策信息采集和查询系统，采用权利要求1-4所述的任意种采集和查询方法，其特征在于，包括以下模块：

6.如权利要求5所述的一种智能的政策信息采集和查询系统，其特征在于：所述的网络爬虫模块为定时爬虫工作服务器，所述的网络爬虫模块为WebMagic 爬虫工具。

7.如权利要求6所述的一种智能的政策信息采集和查询系统，其特征在于：所述的文件内容提取模块包括以下单元：

Word文件解析器：用于对Word文件内容的提取；

Pdf文件解析器：用于对Pdf文件内容的提取；

Excel文件解析器：用于对Excel文件内容的提取；

OCR图片提取器：用于对图片内容的提取；

8.如权利要求7所述的一种智能的政策信息采集和查询系统，其特征在于：OCR图片内容提取器设有图片预处理模块，所述的图片预处理模块用于对图片进行二值化、降噪处理。