CN110297961A

CN110297961A - 一种政策信息的快速采集与优化提取方法

Info

Publication number: CN110297961A
Application number: CN201910560464.0A
Authority: CN
Inventors: 倪向东; 徐旭峰; 胡建敏; 钟国华; 黎进杰; 何善海; 龚增辉
Original assignee: Guangzhou Doctor Information Technology Research Institute Co Ltd
Current assignee: Guangzhou Doctor Information Technology Research Institute Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-01

Abstract

本发明涉及信息提取领域，公开了一种政策信息的快速采集与优化提取方法，包括以下步骤：S1、建立维度分类规则；S2、筛选符合目标数据的URL，并且通过维度分类规则进行维度处理，获取列表URL；S3、将列表URL通过正则表达式规则获取详情URL；S4、构建关键词库；S5、对详情URL进行特征信息采集，获取特征信息；S6、基于关键词库对特征信息的相关度分数进行判定，将相关度分数与特征信息一一对应组合，获取相关度信息，将相关度信息存储到数据库中；S7、对相关度信息进行分词，得到第二分词结果，并基于第二分词结果对相关度信息进行索引。本发明的采集与优化提取方法可以快速获取政策信息，并且获取的政策信息更契合需求，且可以快速获取运用。

Description

一种政策信息的快速采集与优化提取方法

技术领域

本发明涉及信息提取领域，特别是涉及一种政策信息的快速采集与优化提取方法。

背景技术

随着国家经济的快速发展，中央及各级政府每年发布大量的扶持政策，政策的收集、解读、申报及有效利用已成为企业快速发展一大助力。然而政策发布缺乏统一渠道，省级发布平台相对稳定，市级及区级发布平台变动性较大。大中型企业往往人工收集自身相关政策，浪费大量人力资源、时间资源，小型企业更缺乏收集自身相关政策的能力，与众多助力政策擦肩而过。政策落实难，首先需要解决企业对政策的收集难问题。

现有大部分爬虫系统中信息提取规则都是硬编码实现，灵活性不足。提取规则无法动态配置，一旦信息源变更或内容结构发生变化，则需要修改编码，严重影响工作效率。提取后的信息缺乏分类处理，没有去粗取精，信息海量但难以被企业快捷获取、高效使用。

发明内容

本发明的目的是提供一种政策信息的快速采集与优化提取方法，能够在海量数据中精准、快捷、高效地查找或利用政策。

为了解决上述技术问题，本发明提供一种政策信息的快速采集与优化提取方法，包括以下步骤：

S1、建立维度分类规则；其中维度分类包括等级分类、区域分类、关注权重分类和时间分类；

S2、筛选符合目标数据的URL，并且通过维度分类规则进行维度处理，获取列表URL；

S3、将列表URL通过正则表达式规则获取详情URL；

S4、构建关键词库；构建资源库具体包括：筛选相关文档，对相关文档进行分词，得到第一分词结果，基于第一分词结果，得到相关文档的关键词库；

S5、对详情URL进行特征信息采集，获取特征信息；特征信息至少包括标题、发布时间、发布机构、发布内容和附件文件；

S6、基于关键词库对特征信息的相关度分数进行判定，将相关度分数与特征信息一一对应组合，获取相关度信息，将相关度信息存储到数据库中；

S7、对相关度信息进行分词，得到第二分词结果，并基于第二分词结果对相关度信息进行索引。

作为优选方案，所述等级分类包括国家级政策、省级政策、市级政策和区级政策。

作为优选方案，所述区域分类包括国家、省、市和区。

作为优选方案，所述关注权重分为1～10级，级别越高代表关注权重越高。

作为优选方案，所述步骤S4中构建关键词库满足以下条件：

(1)

(2)

(3) Kw＝TFw*IDFw；

Kw为词w的相关度分数，TFw为词w在文档中出现的频率，IDFw为逆文本频率指数；

基于第一分词结果对所有词都进行相关度分数判定，并进行分数排名，分数前n位组成关键词库。

作为优选方案，所述相关度分数判定步骤为：判断特征信息内是否包括关键词库中某个关键词，若有则获得该词相对应的相关度分数，若无则不得分，将得分全部累加，得到特征信息的相关度分数。

作为优选方案，所述步骤S4在数据采集时还进行异常处理和数据修复，将无法访问的列表URL列入异常网络数据，将无法采集数据的详情URL列入为异常数据；将采集到的无法显示的数据进行修复。

作为优选方案，所述步骤S4进行数据采集前，进行采集定时。

本发明具有以下有益效果：

本发明的政策信息的快速采集与优化提取方法，可以先进行维度处理，使采集的信息更加有针对性和准确性，而且通过构建关键词库，通过将采集到的信息与关键词库进行匹配，对信息进行打分，分数越高代表相关度越高，从而进行信息的相关度排序，可以快速获取相关政策信息。

附图说明

图1是本实施例的政策信息的快速采集与优化提取方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明优选实施例中一种政策信息的快速采集与优化提取方法，包括以下步骤：

例如:禅城区人民政府门户网，区域维度为广东省/佛山市/禅城区，等级维度为区级，关注权重为5(一般关注)，标题为禅城区人民政府门户网。

S3、将列表URL通过正则表达式规则获取详情URL；本发明实施例的正则表达式，又称规则表达式(英语：Regular Expression)，是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑；

例如：

提取禅城区人民政府门户网的详情连接表达式为：http://www.chancheng.gov.cn/jkj/[0-9]{6}/[0-9a-zA-Z]{32}.shtml；

[0-9]{6}表示数字每一位中0到9之间的6位数，如201903；

[0-9a-zA-Z]{32}表示每一位可以为数字或大小写字母的长度为32个字符的字符串，如E10adc3949BA59ABBE56E057f20f883e。

S4、构建关键词库；构建资源库具体包括：筛选相关文档，对相关文档进行分词，得到第一分词结果，基于第一分词结果，得到相关文档的关键词库；本发明实施例中的分词采用HanLP分词，再计算TF-IDF，按得分排名取得前n位词，形成关注关键词库，如需要更为准确，则需加入人工确认词操作。

HanLP是由一系列模型与算法组成的工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点；提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为StopWords(停用词)。

TF-IDF是一种常见统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

S5、对详情URL进行特征信息采集，获取特征信息；特征信息至少包括标题、发布时间、发布机构、发布内容和附件文件；本发明实施例中在进行特征信息采集之前，需要对详情URL进行设置，定义动态采集规则；本发明实施例的动态采集规则采用Jsoup+Javascript来实现；Jsoup是HTML解析器，可解析某个URL地址、HTML文本内容。它提供了一套API，通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。对详情提取规则逐一读取，实现数据提取；JavaScript一种直译式脚本语言，是一种动态类型、弱类型、基于原型的语言，内置支持类型。它的解释器被称为JavaScript引擎，为浏览器的一部分，广泛用于客户端的脚本语言，最早是在HTML(标准通用标记语言下的一个应用)网页上使用，用来给HTML网页增加动态功能。

本发明实施例将JavaScript应用于提取操作中，Jsoup负责在html中提取节点下的数据，JavaScript负责加工提取的数据，JavaScript操作按需使用。

例如：标题的Jsoup规则为:div[class＝title_cen mar-t2text],提取后发现数据为:“人民网-科技生产力政策”，希望只提取”科技生产力政策”这些文字，则通过JavaScript实现:

Function(data){

return data.subString(4)；

}

参数data为Jsoup过程提取的数据，函数subString(4)是指获取data数据第4位以后的数据，即：”科技生产力政策”。return是指函数返回数据。

而且，不同的组合方式实现政策信息的灵活提取；

例如：详情连接(http://www.gz.gov.cn/gzgov/s2812/201905/b85f6542e7724da09d8eb5ed261ef155.shtml)标题规则div[class＝title_cen mar-t2text]提取标题。时间规则span[class＝date]提取时间相关文字，再通过几种通用的内置时间过渡器提取具体的时间。如定义其它属性，可自定义提取规则及过滤规则。信息提取不再需要编码实现，大大提高工作效率，降低开发成本。

本发明实施例的政策信息的快速采集与优化提取方法，可以先进行维度处理，使采集的信息更加有针对性和准确性，而且通过构建关键词库，通过将采集到的信息与关键词库进行匹配，对信息进行打分，分数越高代表相关度越高，从而进行信息的相关度排序，可以快速获取相关政策信息。

在本发明优选实施例中，所述等级分类包括国家级政策、省级政策、市级政策和区级政策。

在本发明优选实施例中，所述区域分类包括国家、省、市和区。

在本发明优选实施例中，所述关注权重分为1～10级，级别越高代表关注权重越高。

在本发明优选实施例中，所述步骤S4中构建关键词库满足以下条件：

(1)

(2)

(3) Kw＝TFw*IDFw；

在本发明优选实施例中，所述相关度分数判定步骤为：判断特征信息内是否包括关键词库中某个关键词，若有则获得该词相对应的相关度分数，若无则不得分，将得分全部累加，得到特征信息的相关度分数。

在本发明优选实施例中，所述步骤S4在数据采集时还进行异常处理和数据修复，将无法访问的列表URL列入异常网络数据，将无法采集数据的详情URL列入为异常数据；将采集到的无法显示的数据进行修复。

例如：信息中存在图片标签<img src＝”/public/word.png”/>，内容在原网站上可以正常显示，但爬取回到本地服务后则无法显示了，因为本在服务中没有”/public/word.png”,所有需要修复此类连接，只需通下正则表达式找出所有此类连接，让其更改为：原网站/public/word.png，如:http://www.xxx.gov.cn/public/word.png，达到修复目的。

在本发明优选实施例中，所述步骤S4进行数据采集前，进行采集定时；所述的采集定时利用quartz(功能丰富的开源的任务调用系统)实现计划调功能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种政策信息的快速采集与优化提取方法，其特征在于，包括以下步骤：

S3、将列表URL通过正则表达式规则获取详情URL；

2.如权利要求1所述的政策信息的快速采集与优化提取方法，其特征在于:所述等级分类包括国家级政策、省级政策、市级政策和区级政策。

3.如权利要求1所述的政策信息的快速采集与优化提取方法，其特征在于:所述区域分类包括国家、省、市和区。

4.如权利要求1所述的政策信息的快速采集与优化提取方法，其特征在于:所述关注权重分为1～10级，级别越高代表关注权重越高。

5.如权利要求1所述的政策信息的快速采集与优化提取方法，其特征在于:所述步骤S4中构建关键词库满足以下条件：

(1)

(2)

(3) Kw＝TFw*IDFw；

6.如权利要求5所述的政策信息的快速采集与优化提取方法，其特征在于:所述相关度分数判定步骤为：判断特征信息内是否包括关键词库中某个关键词，若有则获得该词相对应的相关度分数，若无则不得分，将得分全部累加，得到特征信息的相关度分数。

7.如权利要求1所述的政策信息的快速采集与优化提取方法，其特征在于：所述步骤S4在数据采集时还进行异常处理和数据修复，将无法访问的列表URL列入异常网络数据，将无法采集数据的详情URL列入为异常数据；将采集到的无法显示的数据进行修复。

8.如权利要求1所述的政策信息的快速采集与优化提取方法，其特征在于：所述步骤S4进行数据采集前，进行采集定时。