CN110297961A - 一种政策信息的快速采集与优化提取方法 - Google Patents

一种政策信息的快速采集与优化提取方法 Download PDF

Info

Publication number
CN110297961A
CN110297961A CN201910560464.0A CN201910560464A CN110297961A CN 110297961 A CN110297961 A CN 110297961A CN 201910560464 A CN201910560464 A CN 201910560464A CN 110297961 A CN110297961 A CN 110297961A
Authority
CN
China
Prior art keywords
information
policy
acquisition
extracting method
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910560464.0A
Other languages
English (en)
Inventor
倪向东
徐旭峰
胡建敏
钟国华
黎进杰
何善海
龚增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Doctor Information Technology Research Institute Co Ltd
Original Assignee
Guangzhou Doctor Information Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Doctor Information Technology Research Institute Co Ltd filed Critical Guangzhou Doctor Information Technology Research Institute Co Ltd
Priority to CN201910560464.0A priority Critical patent/CN110297961A/zh
Publication of CN110297961A publication Critical patent/CN110297961A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息提取领域,公开了一种政策信息的快速采集与优化提取方法,包括以下步骤:S1、建立维度分类规则;S2、筛选符合目标数据的URL,并且通过维度分类规则进行维度处理,获取列表URL;S3、将列表URL通过正则表达式规则获取详情URL;S4、构建关键词库;S5、对详情URL进行特征信息采集,获取特征信息;S6、基于关键词库对特征信息的相关度分数进行判定,将相关度分数与特征信息一一对应组合,获取相关度信息,将相关度信息存储到数据库中;S7、对相关度信息进行分词,得到第二分词结果,并基于第二分词结果对相关度信息进行索引。本发明的采集与优化提取方法可以快速获取政策信息,并且获取的政策信息更契合需求,且可以快速获取运用。

Description

一种政策信息的快速采集与优化提取方法
技术领域
本发明涉及信息提取领域,特别是涉及一种政策信息的快速采集与优化提取方法。
背景技术
随着国家经济的快速发展,中央及各级政府每年发布大量的扶持政策,政策的收集、解读、申报及有效利用已成为企业快速发展一大助力。然而政策发布缺乏统一渠道,省级发布平台相对稳定,市级及区级发布平台变动性较大。大中型企业往往人工收集自身相关政策,浪费大量人力资源、时间资源,小型企业更缺乏收集自身相关政策的能力,与众多助力政策擦肩而过。政策落实难,首先需要解决企业对政策的收集难问题。
现有大部分爬虫系统中信息提取规则都是硬编码实现,灵活性不足。提取规则无法动态配置,一旦信息源变更或内容结构发生变化,则需要修改编码,严重影响工作效率。提取后的信息缺乏分类处理,没有去粗取精,信息海量但难以被企业快捷获取、高效使用。
发明内容
本发明的目的是提供一种政策信息的快速采集与优化提取方法,能够在海量数据中精准、快捷、高效地查找或利用政策。
为了解决上述技术问题,本发明提供一种政策信息的快速采集与优化提取方法,包括以下步骤:
S1、建立维度分类规则;其中维度分类包括等级分类、区域分类、关注权重分类和时间分类;
S2、筛选符合目标数据的URL,并且通过维度分类规则进行维度处理,获取列表URL;
S3、将列表URL通过正则表达式规则获取详情URL;
S4、构建关键词库;构建资源库具体包括:筛选相关文档,对相关文档进行分词,得到第一分词结果,基于第一分词结果,得到相关文档的关键词库;
S5、对详情URL进行特征信息采集,获取特征信息;特征信息至少包括标题、发布时间、发布机构、发布内容和附件文件;
S6、基于关键词库对特征信息的相关度分数进行判定,将相关度分数与特征信息一一对应组合,获取相关度信息,将相关度信息存储到数据库中;
S7、对相关度信息进行分词,得到第二分词结果,并基于第二分词结果对相关度信息进行索引。
作为优选方案,所述等级分类包括国家级政策、省级政策、市级政策和区级政策。
作为优选方案,所述区域分类包括国家、省、市和区。
作为优选方案,所述关注权重分为1~10级,级别越高代表关注权重越高。
作为优选方案,所述步骤S4中构建关键词库满足以下条件:
(1)
(2)
(3) Kw=TFw*IDFw;
Kw为词w的相关度分数,TFw为词w在文档中出现的频率,IDFw为逆文本频率指数;
基于第一分词结果对所有词都进行相关度分数判定,并进行分数排名,分数前n位组成关键词库。
作为优选方案,所述相关度分数判定步骤为:判断特征信息内是否包括关键词库中某个关键词,若有则获得该词相对应的相关度分数,若无则不得分,将得分全部累加,得到特征信息的相关度分数。
作为优选方案,所述步骤S4在数据采集时还进行异常处理和数据修复,将无法访问的列表URL列入异常网络数据,将无法采集数据的详情URL列入为异常数据;将采集到的无法显示的数据进行修复。
作为优选方案,所述步骤S4进行数据采集前,进行采集定时。
本发明具有以下有益效果:
本发明的政策信息的快速采集与优化提取方法,可以先进行维度处理,使采集的信息更加有针对性和准确性,而且通过构建关键词库,通过将采集到的信息与关键词库进行匹配,对信息进行打分,分数越高代表相关度越高,从而进行信息的相关度排序,可以快速获取相关政策信息。
附图说明
图1是本实施例的政策信息的快速采集与优化提取方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明优选实施例中一种政策信息的快速采集与优化提取方法,包括以下步骤:
S1、建立维度分类规则;其中维度分类包括等级分类、区域分类、关注权重分类和时间分类;
S2、筛选符合目标数据的URL,并且通过维度分类规则进行维度处理,获取列表URL;
例如:禅城区人民政府门户网,区域维度为广东省/佛山市/禅城区,等级维度为区级,关注权重为5(一般关注),标题为禅城区人民政府门户网。
S3、将列表URL通过正则表达式规则获取详情URL;本发明实施例的正则表达式,又称规则表达式(英语:Regular Expression),是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑;
例如:
提取禅城区人民政府门户网的详情连接表达式为:http://www.chancheng.gov.cn/jkj/[0-9]{6}/[0-9a-zA-Z]{32}.shtml;
[0-9]{6}表示数字每一位中0到9之间的6位数,如201903;
[0-9a-zA-Z]{32}表示每一位可以为数字或大小写字母的长度为32个字符的字符串,如E10adc3949BA59ABBE56E057f20f883e。
S4、构建关键词库;构建资源库具体包括:筛选相关文档,对相关文档进行分词,得到第一分词结果,基于第一分词结果,得到相关文档的关键词库;本发明实施例中的分词采用HanLP分词,再计算TF-IDF,按得分排名取得前n位词,形成关注关键词库,如需要更为准确,则需加入人工确认词操作。
HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。
TF-IDF是一种常见统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
S5、对详情URL进行特征信息采集,获取特征信息;特征信息至少包括标题、发布时间、发布机构、发布内容和附件文件;本发明实施例中在进行特征信息采集之前,需要对详情URL进行设置,定义动态采集规则;本发明实施例的动态采集规则采用Jsoup+Javascript来实现;Jsoup是HTML解析器,可解析某个URL地址、HTML文本内容。它提供了一套API,通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。对详情提取规则逐一读取,实现数据提取;JavaScript一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在HTML(标准通用标记语言下的一个应用)网页上使用,用来给HTML网页增加动态功能。
本发明实施例将JavaScript应用于提取操作中,Jsoup负责在html中提取节点下的数据,JavaScript负责加工提取的数据,JavaScript操作按需使用。
例如:标题的Jsoup规则为:div[class=title_cen mar-t2text],提取后发现数据为:“人民网-科技生产力政策”,希望只提取”科技生产力政策”这些文字,则通过JavaScript实现:
Function(data){
return data.subString(4);
}
参数data为Jsoup过程提取的数据,函数subString(4)是指获取data数据第4位以后的数据,即:”科技生产力政策”。return是指函数返回数据。
而且,不同的组合方式实现政策信息的灵活提取;
例如:详情连接(http://www.gz.gov.cn/gzgov/s2812/201905/b85f6542e7724da09d8eb5ed261ef155.shtml)标题规则div[class=title_cen mar-t2text]提取标题。时间规则span[class=date]提取时间相关文字,再通过几种通用的内置时间过渡器提取具体的时间。如定义其它属性,可自定义提取规则及过滤规则。信息提取不再需要编码实现,大大提高工作效率,降低开发成本。
S6、基于关键词库对特征信息的相关度分数进行判定,将相关度分数与特征信息一一对应组合,获取相关度信息,将相关度信息存储到数据库中;
S7、对相关度信息进行分词,得到第二分词结果,并基于第二分词结果对相关度信息进行索引。
本发明实施例的政策信息的快速采集与优化提取方法,可以先进行维度处理,使采集的信息更加有针对性和准确性,而且通过构建关键词库,通过将采集到的信息与关键词库进行匹配,对信息进行打分,分数越高代表相关度越高,从而进行信息的相关度排序,可以快速获取相关政策信息。
在本发明优选实施例中,所述等级分类包括国家级政策、省级政策、市级政策和区级政策。
在本发明优选实施例中,所述区域分类包括国家、省、市和区。
在本发明优选实施例中,所述关注权重分为1~10级,级别越高代表关注权重越高。
在本发明优选实施例中,所述步骤S4中构建关键词库满足以下条件:
(1)
(2)
(3) Kw=TFw*IDFw;
Kw为词w的相关度分数,TFw为词w在文档中出现的频率,IDFw为逆文本频率指数;
基于第一分词结果对所有词都进行相关度分数判定,并进行分数排名,分数前n位组成关键词库。
在本发明优选实施例中,所述相关度分数判定步骤为:判断特征信息内是否包括关键词库中某个关键词,若有则获得该词相对应的相关度分数,若无则不得分,将得分全部累加,得到特征信息的相关度分数。
在本发明优选实施例中,所述步骤S4在数据采集时还进行异常处理和数据修复,将无法访问的列表URL列入异常网络数据,将无法采集数据的详情URL列入为异常数据;将采集到的无法显示的数据进行修复。
例如:信息中存在图片标签<img src=”/public/word.png”/>,内容在原网站上可以正常显示,但爬取回到本地服务后则无法显示了,因为本在服务中没有”/public/word.png”,所有需要修复此类连接,只需通下正则表达式找出所有此类连接,让其更改为:原网站/public/word.png,如:http://www.xxx.gov.cn/public/word.png,达到修复目的。
在本发明优选实施例中,所述步骤S4进行数据采集前,进行采集定时;所述的采集定时利用quartz(功能丰富的开源的任务调用系统)实现计划调功能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (8)

1.一种政策信息的快速采集与优化提取方法,其特征在于,包括以下步骤:
S1、建立维度分类规则;其中维度分类包括等级分类、区域分类、关注权重分类和时间分类;
S2、筛选符合目标数据的URL,并且通过维度分类规则进行维度处理,获取列表URL;
S3、将列表URL通过正则表达式规则获取详情URL;
S4、构建关键词库;构建资源库具体包括:筛选相关文档,对相关文档进行分词,得到第一分词结果,基于第一分词结果,得到相关文档的关键词库;
S5、对详情URL进行特征信息采集,获取特征信息;特征信息至少包括标题、发布时间、发布机构、发布内容和附件文件;
S6、基于关键词库对特征信息的相关度分数进行判定,将相关度分数与特征信息一一对应组合,获取相关度信息,将相关度信息存储到数据库中;
S7、对相关度信息进行分词,得到第二分词结果,并基于第二分词结果对相关度信息进行索引。
2.如权利要求1所述的政策信息的快速采集与优化提取方法,其特征在于:所述等级分类包括国家级政策、省级政策、市级政策和区级政策。
3.如权利要求1所述的政策信息的快速采集与优化提取方法,其特征在于:所述区域分类包括国家、省、市和区。
4.如权利要求1所述的政策信息的快速采集与优化提取方法,其特征在于:所述关注权重分为1~10级,级别越高代表关注权重越高。
5.如权利要求1所述的政策信息的快速采集与优化提取方法,其特征在于:所述步骤S4中构建关键词库满足以下条件:
(1)
(2)
(3) Kw=TFw*IDFw;
Kw为词w的相关度分数,TFw为词w在文档中出现的频率,IDFw为逆文本频率指数;
基于第一分词结果对所有词都进行相关度分数判定,并进行分数排名,分数前n位组成关键词库。
6.如权利要求5所述的政策信息的快速采集与优化提取方法,其特征在于:所述相关度分数判定步骤为:判断特征信息内是否包括关键词库中某个关键词,若有则获得该词相对应的相关度分数,若无则不得分,将得分全部累加,得到特征信息的相关度分数。
7.如权利要求1所述的政策信息的快速采集与优化提取方法,其特征在于:所述步骤S4在数据采集时还进行异常处理和数据修复,将无法访问的列表URL列入异常网络数据,将无法采集数据的详情URL列入为异常数据;将采集到的无法显示的数据进行修复。
8.如权利要求1所述的政策信息的快速采集与优化提取方法,其特征在于:所述步骤S4进行数据采集前,进行采集定时。
CN201910560464.0A 2019-06-26 2019-06-26 一种政策信息的快速采集与优化提取方法 Pending CN110297961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910560464.0A CN110297961A (zh) 2019-06-26 2019-06-26 一种政策信息的快速采集与优化提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910560464.0A CN110297961A (zh) 2019-06-26 2019-06-26 一种政策信息的快速采集与优化提取方法

Publications (1)

Publication Number Publication Date
CN110297961A true CN110297961A (zh) 2019-10-01

Family

ID=68028943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910560464.0A Pending CN110297961A (zh) 2019-06-26 2019-06-26 一种政策信息的快速采集与优化提取方法

Country Status (1)

Country Link
CN (1) CN110297961A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
CN111241152A (zh) * 2019-12-30 2020-06-05 广州高企云信息科技有限公司 政策信息挖掘方法、装置及云服务器
CN112148750A (zh) * 2020-10-20 2020-12-29 成都中科大旗软件股份有限公司 一种数据集成方法及系统
CN112395485A (zh) * 2021-01-19 2021-02-23 广州博士信息技术研究院有限公司 一种政策大数据挖掘方法、装置、计算机设备及存储介质
CN112800246A (zh) * 2021-04-09 2021-05-14 北京智源人工智能研究院 一种政策谱系构建方法、装置和电子设备
CN113282955A (zh) * 2021-06-01 2021-08-20 上海交通大学 隐私政策中隐私信息提取方法、系统、终端及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334591A (zh) * 2018-01-30 2018-07-27 天津中科智能识别产业技术研究院有限公司 基于聚焦爬虫技术的行业分析方法及系统
CN108491438A (zh) * 2018-02-12 2018-09-04 陆夏根 一种科技政策检索分析方法
CN109902225A (zh) * 2019-01-22 2019-06-18 广州高企云信息科技有限公司 一种基于大数据的政策信息查询推送系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334591A (zh) * 2018-01-30 2018-07-27 天津中科智能识别产业技术研究院有限公司 基于聚焦爬虫技术的行业分析方法及系统
CN108491438A (zh) * 2018-02-12 2018-09-04 陆夏根 一种科技政策检索分析方法
CN109902225A (zh) * 2019-01-22 2019-06-18 广州高企云信息科技有限公司 一种基于大数据的政策信息查询推送系统及方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
CN110909122B (zh) * 2019-10-10 2023-10-03 湖北华中电力科技开发有限责任公司 一种信息处理方法及相关设备
CN111241152A (zh) * 2019-12-30 2020-06-05 广州高企云信息科技有限公司 政策信息挖掘方法、装置及云服务器
CN111241152B (zh) * 2019-12-30 2020-09-15 广州高企云信息科技有限公司 政策信息挖掘方法、装置及云服务器
CN112148750A (zh) * 2020-10-20 2020-12-29 成都中科大旗软件股份有限公司 一种数据集成方法及系统
CN112148750B (zh) * 2020-10-20 2023-04-25 成都中科大旗软件股份有限公司 一种数据集成方法及系统
CN112395485A (zh) * 2021-01-19 2021-02-23 广州博士信息技术研究院有限公司 一种政策大数据挖掘方法、装置、计算机设备及存储介质
CN112800246A (zh) * 2021-04-09 2021-05-14 北京智源人工智能研究院 一种政策谱系构建方法、装置和电子设备
CN113282955A (zh) * 2021-06-01 2021-08-20 上海交通大学 隐私政策中隐私信息提取方法、系统、终端及介质

Similar Documents

Publication Publication Date Title
CN110297961A (zh) 一种政策信息的快速采集与优化提取方法
Ravikumar et al. Mapping the intellectual structure of scientometrics: A co-word analysis of the journal Scientometrics (2005–2010)
Marine-Roig et al. A detailed method for destination image analysis using user-generated content
KR101911466B1 (ko) 미래위험 변화예측 분석 시스템
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN103514234A (zh) 一种页面信息提取方法和装置
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN106502991B (zh) 出版物处理方法和装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN105893611A (zh) 一种构建面向社交网络的兴趣主题语义网络的方法
CN105740227A (zh) 一种求解中文分词中新词的遗传模拟退火方法
CN101751439A (zh) 基于层次聚类的图像检索方法
CN110012122A (zh) 一种基于词嵌入技术的域名相似性分析方法
CN103440315A (zh) 一种基于主题的Web页面清洗方法
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
CN111460173B (zh) 一种甲状腺癌的疾病本体模型的构建方法
Karsvall et al. SDHK meets NER: Linking Place Names with Medieval Charters and Historical Maps.
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification
KR100479346B1 (ko) 문서분류기법을 이용한 정답문서집합 자동 구축 방법
Gao et al. Topic detection based on group average hierarchical clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191001