CN109726393A - 一种基于自然语言处理技术的政策分析系统及方法 - Google Patents

一种基于自然语言处理技术的政策分析系统及方法 Download PDF

Info

Publication number
CN109726393A
CN109726393A CN201811539610.3A CN201811539610A CN109726393A CN 109726393 A CN109726393 A CN 109726393A CN 201811539610 A CN201811539610 A CN 201811539610A CN 109726393 A CN109726393 A CN 109726393A
Authority
CN
China
Prior art keywords
information
policy
natural language
module
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811539610.3A
Other languages
English (en)
Other versions
CN109726393B (zh
Inventor
王乐
张辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201811539610.3A priority Critical patent/CN109726393B/zh
Publication of CN109726393A publication Critical patent/CN109726393A/zh
Application granted granted Critical
Publication of CN109726393B publication Critical patent/CN109726393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明特别涉及一种基于自然语言处理技术的政策分析系统及方法。该实基于自然语言处理技术的政策分析系统,包括信息采集模块,信息处理模块,信息存储模块和推荐与搜索模块,所述信息采集模块通过信息处理模块连接到信息存储模块,所述推荐与搜索模块与信息存储模块相连。该基于自然语言处理技术的政策分析系统及方法,以自然语言处理技术为核心,通过配置人工参与定义关键摘要词汇,逐步提高数据分析精度,实现了政策类离散数据的摘要分析,利用互联网数据采集功能、领域及标签处理功能、自然语言处理功能及人工标签校核功能,构建半自动化的政策分析系统,有效实现了各类离散格式数据的挖掘分析与处理,提高了政策信息的价值阅读与精准获取。

Description

一种基于自然语言处理技术的政策分析系统及方法
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于自然语言处理技术的政策分析系统及方法。
背景技术
现有的政策分析系统,一般侧重数据采集与结构化统计分析,利用多源的数据多样性的汇聚与分析,为政策分析提供技术支持与辅助。
但是现有的政策分析系统不能实现非结构化的数据分析,系统需依靠较好的数据规范与标准完成数据的采集,对于数据价值比较低的数据分析能力不足,无法实现互联网上政策资讯类离散数据的数据价值挖掘分析与使用。
针对国家及各级政府的政策类信息,本发明提出了一种基于自然语言处理技术的政策分析系统及方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于自然语言处理技术的政策分析系统及方法。
本发明是通过如下技术方案实现的:
一种基于自然语言处理技术的政策分析系统,其特征在于:包括信息采集模块,信息处理模块,信息存储模块和推荐与搜索模块,所述信息采集模块通过信息处理模块连接到信息存储模块,所述推荐与搜索模块与信息存储模块相连;所述信息处理模块包括标签处理单元,自然语言处理单元和校核单元,所述标签处理单元和自然语言处理单元分别与信息采集模块相连,所述自然语言处理单元通过校核单元连接到信息存储模块,所述标签处理单元直接连接到信息存储模块,所述信息存储模块包括结构化存储单元,非结构化存储单元和索引库单元。
本发明基于自然语言处理技术的政策分析系统的分析方法,其特征在于,包括以下步骤:
(1)信息采集模块采集互联网政策信息,对采集到的信息进行分类管理,并将采集到的信息发送到信息处理模块;
(2)信息处理模块的标签处理单元接收到信息后,根据预设的领域和学科预设标签,实现各类政策信息的标签处理及映射,然后将标签标注及其与各类政策信息的映射关系发送到信息存储模块保存备用;
(3)信息处理模块的自然语言处理单元接收到信息后,利用自然语言技术对各类政策精要信息进行计算和提取,然后将计算和提取结果发送到信息存储模块保存备用;
(4)推荐与搜索模块通过各类政策信息的标签标注,关联信息结合用户的特征信息,实现政策信息的推荐功能;通过提取的各类政策信息的精要信息及分词技术实现对各类政策信息的搜索功能;用户通过推荐与搜索模块输入搜索关键词,推荐与搜索模块根据搜索关键词从信息存储模块中搜索并读取相关信息,实现政策信息的快速分类阅读,同时根据用户输入的搜索关键词推荐相关关键词信息和政策信息,供用户进行延伸阅读。
所述步骤(1)中,对互联网政策信息进行采集配置和分类管理,包括分类管理采集信息,配置信息采集规则,配置管理采集任务以及监控配置采集任务。
所述步骤(1)具体包括以下步骤:
(a)通过分类管理对采集的信息进行分组,方便政策信息的管理;
(b)通过可视化的流程配置信息采集规则,并对信息采集规则效验调整;
(c)对采集任务进行调度管理,包括对采集任务进行编辑,删除及启停操作;
(d)对采集任务进行监控,监控内容包括采集任务的运行状态,采集到的结果数据及预警通知。
所述步骤(2)中,标签处理单元利用预设的标签标注信息,对采集入库的各类政策数据的进行实体标注,属性标注,事件标注和关联关系标注,并将标注的数据关联关系存储到信息存储模块,以实现各类政策数据的标签处理及映射。
所述步骤(3)中,通过校核单元人工定义关键摘要词汇,对关键摘要词汇进行管理,并将定义的关键摘要词汇信息与基本语料库相结合,利用自然语言技术完成关键词提取,然后将关键词发送到信息存储模块保存备用。
所述步骤(3)中,自然语言处理单元用于利用自然语言技术对采集到的各类政策精要信息进行计算和提取,以句法依存分析技术为基础提取关键词并自动生成摘要,然后将关键词和摘要发送到信息存储模块保存备用。
所述句法依存分析技术基于TFIDF(term frequency–inverse documentfrequency,信息检索数据挖掘的常用加权技术)算法模型,统计政策信息中词语的频率并提取高频信息,进而生成关键词。
所述句法依存分析技术基于TextRank构建拓图模型,对信息进行分析,并提取出简洁、精炼的信息,进而生成自动摘要。
本发明的有益效果是:该基于自然语言处理技术的政策分析系统及方法,以自然语言处理技术为核心,通过配置人工参与定义关键摘要词汇,逐步提高数据分析精度,实现了各政策类离散数据的摘要分析,利用一系列的互联网数据采集功能、领域及标签处理功能、自然语言处理功能及人工标签校核功能,构建半自动化的政策分析系统,有效实现了各类离散格式数据的挖掘分析与处理,提高了政策信息的价值阅读与精准获取。
附图说明
附图1为本发明实基于自然语言处理技术的政策分析系统的分析方法示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于自然语言处理技术的政策分析系统,包括信息采集模块,信息处理模块,信息存储模块和推荐与搜索模块,所述信息采集模块通过信息处理模块连接到信息存储模块,所述推荐与搜索模块与信息存储模块相连;所述信息处理模块包括标签处理单元,自然语言处理单元和校核单元,所述标签处理单元和自然语言处理单元分别与信息采集模块相连,所述自然语言处理单元通过校核单元连接到信息存储模块,所述标签处理单元直接连接到信息存储模块,所述信息存储模块包括结构化存储单元,非结构化存储单元和索引库单元。
本发明基于自然语言处理技术的政策分析系统的分析方法,其特征在于,包括以下步骤:
(1)信息采集模块采集互联网政策信息,对采集到的信息进行分类管理,并将采集到的信息发送到信息处理模块;
(2)信息处理模块的标签处理单元接收到信息后,根据预设的领域和学科预设标签,实现各类政策信息的标签处理及映射,然后将标签标注及其与各类政策信息的映射关系发送到信息存储模块保存备用;
(3)信息处理模块的自然语言处理单元接收到信息后,利用自然语言技术对各类政策精要信息进行计算和提取,然后将计算和提取结果发送到信息存储模块保存备用;
(4)推荐与搜索模块通过各类政策信息的标签标注,关联信息结合用户的特征信息,实现政策信息的推荐功能;通过提取的各类政策信息的精要信息及分词技术实现对各类政策信息的搜索功能;用户通过推荐与搜索模块输入搜索关键词,推荐与搜索模块根据搜索关键词从信息存储模块中搜索并读取相关信息,实现政策信息的快速分类阅读,同时根据用户输入的搜索关键词推荐相关关键词信息和政策信息,供用户进行延伸阅读。
所述步骤(1)中,对互联网政策信息进行采集配置和分类管理,包括分类管理采集信息,配置信息采集规则,配置管理采集任务以及监控配置采集任务。
所述步骤(1)具体包括以下步骤:
(a)通过分类管理对采集的信息进行分组,方便政策信息的管理;
(b)通过可视化的流程配置信息采集规则,并对信息采集规则效验调整;
(c)对采集任务进行调度管理,包括对采集任务进行编辑,删除及启停操作;
(d)对采集任务进行监控,监控内容包括采集任务的运行状态,采集到的结果数据及预警通知。
所述步骤(2)中,标签处理单元利用预设的标签标注信息,对采集入库的各类政策数据的进行实体标注,属性标注,事件标注和关联关系标注,并将标注的数据关联关系存储到信息存储模块,以实现各类政策数据的标签处理及映射。
所述步骤(3)中,通过校核单元人工定义关键摘要词汇,对关键摘要词汇进行管理,并将定义的关键摘要词汇信息与基本语料库相结合,利用自然语言技术完成关键词提取,然后将关键词发送到信息存储模块保存备用。
所述步骤(3)中,自然语言处理单元用于利用自然语言技术对采集到的各类政策精要信息进行计算和提取,以句法依存分析技术为基础提取关键词并自动生成摘要,然后将关键词和摘要发送到信息存储模块保存备用。
所述句法依存分析技术基于TFIDF(term frequency–inverse documentfrequency,信息检索数据挖掘的常用加权技术)算法模型,统计政策信息中词语的频率并提取高频信息,进而生成关键词。
所述句法依存分析技术基于TextRank构建拓图模型,对信息进行分析,并提取出简洁、精炼的信息,进而生成自动摘要。
该基于自然语言处理技术的政策分析系统及方法,是一种以自然语言处理技术为核心的数据分析与挖掘方法,通过配置人工参与定义关键摘要词汇,逐步提高数据分析精度,实现了互联网离散数据格式的分析挖掘,尤其是针对国家及各级政府的政策类信息,实现了高效的分析处理,提高了政策信息的价值阅读与精准获取。

Claims (9)

1.一种基于自然语言处理技术的政策分析系统,其特征在于:包括信息采集模块,信息处理模块,信息存储模块和推荐与搜索模块,所述信息采集模块通过信息处理模块连接到信息存储模块,所述推荐与搜索模块与信息存储模块相连;所述信息处理模块包括标签处理单元,自然语言处理单元和校核单元,所述标签处理单元和自然语言处理单元分别与信息采集模块相连,所述自然语言处理单元通过校核单元连接到信息存储模块,所述标签处理单元直接连接到信息存储模块,所述信息存储模块包括结构化存储单元,非结构化存储单元和索引库单元。
2.根据权利要求1所述的基于自然语言处理技术的政策分析系统的分析方法,其特征在于,包括以下步骤:
(1)信息采集模块采集互联网政策信息,对采集到的信息进行分类管理,并将采集到的信息发送到信息处理模块;
(2)信息处理模块的标签处理单元接收到信息后,根据预设的领域和学科预设标签,实现各类政策信息的标签处理及映射,然后将标签标注及其与各类政策信息的映射关系发送到信息存储模块保存备用;
(3)信息处理模块的自然语言处理单元接收到信息后,利用自然语言技术对各类政策精要信息进行计算和提取,然后将计算和提取结果发送到信息存储模块保存备用;
(4)推荐与搜索模块通过各类政策信息的标签标注,关联信息结合用户的特征信息,实现政策信息的推荐功能;通过提取的各类政策信息的精要信息及分词技术实现对各类政策信息的搜索功能;用户通过推荐与搜索模块输入搜索关键词,推荐与搜索模块根据搜索关键词从信息存储模块中搜索并读取相关信息,实现政策信息的快速分类阅读,同时根据用户输入的搜索关键词推荐相关关键词信息和政策信息,供用户进行延伸阅读。
3.根据权利要求2所述的基于自然语言处理技术的政策分析系统的分析方法,其特征在于:所述步骤(1)中,对互联网政策信息进行采集配置和分类管理,包括分类管理采集信息,配置信息采集规则,配置管理采集任务以及监控配置采集任务。
4.根据权利要求3所述的基于自然语言处理技术的政策分析系统的分析方法,其特征在于,所述步骤(1)具体包括以下步骤:
(a)通过分类管理对采集的信息进行分组,方便政策信息的管理;
(b)通过可视化的流程配置信息采集规则,并对信息采集规则效验调整;
(c)对采集任务进行调度管理,包括对采集任务进行编辑,删除及启停操作;
(d)对采集任务进行监控,监控内容包括采集任务的运行状态,采集到的结果数据及预警通知。
5.根据权利要求2所述的基于自然语言处理技术的政策分析系统的分析方法,其特征在于:所述步骤(2)中,标签处理单元利用预设的标签标注信息,对采集入库的各类政策数据的进行实体标注,属性标注,事件标注和关联关系标注,并将标注的数据关联关系存储到信息存储模块,以实现各类政策数据的标签处理及映射。
6.根据权利要求2所述的基于自然语言处理技术的政策分析系统的分析方法,其特征在于:所述步骤(3)中,通过校核单元人工定义关键摘要词汇,对关键摘要词汇进行管理,并将定义的关键摘要词汇信息与基本语料库相结合,利用自然语言技术完成关键词提取,然后将关键词发送到信息存储模块保存备用。
7.根据权利要求6所述的基于自然语言处理技术的政策分析系统的分析方法,其特征在于:所述步骤(3)中,自然语言处理单元用于利用自然语言技术对采集到的各类政策精要信息进行计算和提取,以句法依存分析技术为基础提取关键词并自动生成摘要,然后将关键词和摘要发送到信息存储模块保存备用。
8.根据权利要求7所述的基于自然语言处理技术的政策分析系统的分析方法,其特征在于:所述句法依存分析技术基于TFIDF算法模型,统计政策信息中词语的频率并提取高频信息,进而生成关键词。
9.根据权利要求7所述的基于自然语言处理技术的政策分析系统的分析方法,其特征在于:所述句法依存分析技术基于TextRank构建拓图模型,对信息进行分析,并提取出简洁、精炼的信息,进而生成自动摘要。
CN201811539610.3A 2018-12-17 2018-12-17 一种基于自然语言处理技术的政策分析系统及方法 Active CN109726393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811539610.3A CN109726393B (zh) 2018-12-17 2018-12-17 一种基于自然语言处理技术的政策分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811539610.3A CN109726393B (zh) 2018-12-17 2018-12-17 一种基于自然语言处理技术的政策分析系统及方法

Publications (2)

Publication Number Publication Date
CN109726393A true CN109726393A (zh) 2019-05-07
CN109726393B CN109726393B (zh) 2023-06-13

Family

ID=66296123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811539610.3A Active CN109726393B (zh) 2018-12-17 2018-12-17 一种基于自然语言处理技术的政策分析系统及方法

Country Status (1)

Country Link
CN (1) CN109726393B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245832A (zh) * 2019-05-08 2019-09-17 上海市第十人民医院 一种基于经济运营数据中心的数据优化方法及系统
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN110874414A (zh) * 2020-01-19 2020-03-10 北京同方软件有限公司 一种基于数据联勤服务的政策解读方法
CN112184525A (zh) * 2020-09-28 2021-01-05 上海市浦东新区行政服务中心(上海市浦东新区市民中心) 通过自然语义分析实现智能匹配推荐的系统及方法
CN112380318A (zh) * 2020-11-12 2021-02-19 中国科学技术大学智慧城市研究院(芜湖) 基于标签相似度的企业政策匹配方法
CN112632235A (zh) * 2020-11-03 2021-04-09 招商银行股份有限公司佛山分行 一种扶持信息匹配方法、匹配系统及存储介质
CN113065994A (zh) * 2021-03-29 2021-07-02 南京莱科智能工程研究院有限公司 一种政策演化分析系统和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015165381A1 (zh) * 2014-05-01 2015-11-05 刘莎 一种通用型互联网信息数据挖掘方法
CN108170826A (zh) * 2018-01-08 2018-06-15 北京国信宏数科技有限责任公司 一种基于互联网大数据的宏观经济分析方法及系统
CN108491438A (zh) * 2018-02-12 2018-09-04 陆夏根 一种科技政策检索分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015165381A1 (zh) * 2014-05-01 2015-11-05 刘莎 一种通用型互联网信息数据挖掘方法
CN108170826A (zh) * 2018-01-08 2018-06-15 北京国信宏数科技有限责任公司 一种基于互联网大数据的宏观经济分析方法及系统
CN108491438A (zh) * 2018-02-12 2018-09-04 陆夏根 一种科技政策检索分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张越等: "科技成果转化政策文本中的领域关键词汇提取研究", 《中国科技资源导刊》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245832A (zh) * 2019-05-08 2019-09-17 上海市第十人民医院 一种基于经济运营数据中心的数据优化方法及系统
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN110532451B (zh) * 2019-06-26 2023-08-29 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN110874414A (zh) * 2020-01-19 2020-03-10 北京同方软件有限公司 一种基于数据联勤服务的政策解读方法
CN112184525A (zh) * 2020-09-28 2021-01-05 上海市浦东新区行政服务中心(上海市浦东新区市民中心) 通过自然语义分析实现智能匹配推荐的系统及方法
CN112184525B (zh) * 2020-09-28 2021-11-26 上海市浦东新区行政服务中心(上海市浦东新区市民中心) 通过自然语义分析实现智能匹配推荐的系统及方法
CN112632235A (zh) * 2020-11-03 2021-04-09 招商银行股份有限公司佛山分行 一种扶持信息匹配方法、匹配系统及存储介质
CN112380318A (zh) * 2020-11-12 2021-02-19 中国科学技术大学智慧城市研究院(芜湖) 基于标签相似度的企业政策匹配方法
CN113065994A (zh) * 2021-03-29 2021-07-02 南京莱科智能工程研究院有限公司 一种政策演化分析系统和方法

Also Published As

Publication number Publication date
CN109726393B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN109726393A (zh) 一种基于自然语言处理技术的政策分析系统及方法
US9864741B2 (en) Automated collective term and phrase index
CN106934069B (zh) 数据检索方法及系统
WO2017092337A1 (zh) 评论标签提取方法和装置
CN105243129A (zh) 商品属性特征词聚类方法
CN109947897B (zh) 司法案件事件树构建方法
CN105608232A (zh) 一种基于图形数据库的bug知识建模方法
CN104182465A (zh) 一种基于网络的大数据处理方法
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN114003791A (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
CN115344666A (zh) 政策匹配方法、装置、设备与计算机可读存储介质
CN114186533A (zh) 模型训练方法及装置、知识抽取方法及装置、设备和介质
CN116821376B (zh) 煤矿安全生产领域的知识图谱构建方法及系统
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
Di Pietro et al. Semantic crawling: an approach based on named entity recognition
CN110515926A (zh) 基于分词和语义依存分析的异构数据源海量数据梳理方法
CN112989827B (zh) 一种基于多源异构特征的文本数据集质量评估方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN115098585A (zh) 一种基于大数据的法律法规数据自动处理方法及系统
CN115017271A (zh) 用于智能生成rpa流程组件块的方法及系统
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN113807102A (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN110377845A (zh) 基于区间半监督lda的协同过滤推荐方法
CN113515522B (zh) 一种基于数据挖掘技术的标签自动分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant