CN112035653B

CN112035653B - 一种政策关键信息提取方法和装置、存储介质、电子设备

Info

Publication number: CN112035653B
Application number: CN202011221208.8A
Authority: CN
Inventors: 孙会峰; 邢婷; 冷小萱; 李健诚
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-03-02
Anticipated expiration: 2040-11-05
Also published as: CN112035653A

Abstract

本发明公开了一种政策关键信息提取方法和装置、存储介质、电子设备。方法包括以下步骤：从多个数据来源获取政策信息；根据基于优惠政策的关键词对所述政策信息进行分类，得到所述政策信息中的申报类政策文本；对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取政策关键信息，所述政策关键信息包含：政策支持的申报条件、支持金额以及申报时间。采用本发明的技术方案，能够实现对政策进行类别标注，并提取申报类政策文本中的支持条件、支持资金数额、申报时间关键信息；标注解析后的政策信息可用于多维数据分析和对企业的定向推送。

Description

一种政策关键信息提取方法和装置、存储介质、电子设备

技术领域

本发明属于信息检索技术领域，尤其涉及一种政策关键信息提取方法和装置、存储介质、电子设备。

背景技术

产业政策是国家用来发展产业的必要工具，对优化产业结构和推动经济发展具有重要价值。目前，我国政策文件大多分布于中央和地方各级政府部门网站。现有的产业政策网站主要对不同来源的政策文件进行汇总，但并未对政策文本包含的关键信息进行解析。汇总后的政策数量庞大，不具有针对性，难以为用户提供更加多维和精准的政策分析。

少数政策分析平台采用人工标注的方式对政策文本内容进行解析，但此种方式人工成本高，能分析的政策数量有限，难以利用大量政策信息进行全面的数据分析。

发明内容

为了解决现有技术中存在的技术问题，本发明提供了如下技术方案。

本发明提供了一种政策关键信息提取方法，包括以下步骤：

从多个数据来源获取政策信息；

根据基于优惠政策的关键词对所述政策信息进行分类，得到所述政策信息中的申报类政策文本；

对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取政策关键信息，所述政策关键信息包含：政策支持的申报条件、支持金额以及申报时间。

本发明中，所述基于优惠政策的关键词包含：申报单位、申报材料、申报方式和/或资金支持方式。

本发明中，所述根据基于优惠政策的关键词对所述政策信息进行分类，得到所述政策信息中的申报类政策文本，包括：

根据所述关键词对所述政策信息进行全量匹配，得到第一组申报类政策集合；

将所述第一组申报类政策集合之外的政策信息输入预先训练得到的文本分类模型，得到第二组申报类政策集合；

根据所述第一组申报类政策集合和第二组申报类政策集合得到所述申报类政策文本。

本发明中，按照下述方式训练得到所述文本分类模型：

从所述第一组申报类政策集合中抽取政策信息，构造正样本；

从所述第一组申报类政策集合之外的政策信息中抽取非申报类的政策信息，构造负样本，所述负样本和正样本的数量相同；

基于所述正样本和负样本训练得到所述文本分类模型。

本发明中，所述对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取所述政策关键信息，包括：

对所述申报类政策文本进行第一次分句处理，得到多个句子及其在所述申报类政策文本中的第一位置信息；

对所述句子进行第二次分句处理，得到多个子句以及所述子句在所述句子中的第二位置信息；

将所述子句与预定义的正则表达式进行匹配；

提取成功匹配的子句中的数字和时间分别作为所述支持金额和申报时间；

将未成功匹配的子句与成功匹配的子句进行语义相似度计算，提取计算结果不小于预设阈值的未成功匹配的子句中的数字和时间分别作为支持金额和申报时间；

根据所述第一位置信息和第二位置信息，提取与识别为包含支持金额的子句的距离满足预设标准的句子作为申报类政策的申报条件。

本发明中，所述与识别为包含支持金额的子句的距离满足预设标准的句子包括以下的一种或多种：

所述包含支持金额的子句所在的句子；

与所述包含支持金额的子句位于同一段落的句子；

所述包含支持金额的子句所在的句子前后预设范围内的句子。

本发明中，政策关键信息提取方法还包括：

对获取的政策信息标注政策标签；

获取企业的企业标签；

在提取政策关键信息后，依据预先标注的企业标签和所述政策标签进行匹配度计算，依据计算结果为所述企业生成包括所述政策关键信息的推荐列表。

本发明还提供一种政策关键信息提取装置，包括：

获取模块，用于从多个数据来源获取政策信息；

分类模块，用于根据基于优惠政策的关键词对所述政策信息进行分类，得到所述政策信息中的申报类政策文本；

提取模块，用于对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取政策关键信息，所述政策关键信息包含：政策支持的申报条件、支持金额以及申报时间。

本发明还提供一种电子设备，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现上述政策关键信息提取方法。

本发明还提供一种存储介质，用于存储计算机程序，当所述计算机程序被执行时，实现上述政策关键信息提取方法。

本发明的有益效果是：

本发明的政策关键信息提取方法和系统，能够依据不同政策关键词对各政府部门发布的全量政策进行分类和关键信息提取，极大降低了人工标注的成本。与目前人工提取的政策关键信息相比，本申请对政策信息提取的维度更广，粒度更细，为后续的定向推送和数据分析功能提供了更全面的数据支撑。

附图说明

图1为本发明所述政策关键信息提取方法的流程图；

图2为本发明所述政策关键信息提取装置的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本发明提供了一种政策关键信息提取方法，包括以下步骤：

S102、从多个数据来源获取政策信息；

S104、根据基于优惠政策的关键词对所述政策信息进行分类，得到所述政策信息中的申报类政策文本；

S106、对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取政策关键信息，所述政策关键信息包含：政策支持的申报条件、支持金额以及申报时间。

本发明根据基于优惠政策的关键词对所述政策信息进行分类，同时对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取政策关键信息，所述政策关键信息包含：政策支持的申报条件、支持金额以及申报时间。采用本发明技术方案，能够依据不同政策关键词对各政府部门发布的全量政策进行分类和关键信息提取，极大降低了人工标注的成本。与目前人工提取的政策关键信息相比，本申请对政策信息提取的维度更广，粒度更细，为后续的定向推送和数据分析功能提供了更全面的数据支撑。本发明政策关键信息的提取也可用于从地区、产业等不同维度对政策进行多维度数据分析。

在步骤S102中，所述政策信息为在指定时间内指定政府部门发布的政策文件信息，包括：政策名称、政策正文、发文机构、发布时间等信息。可选地，将政策信息以政策ID、政策名称、政策正文、发文机构、发布时间、政策网址等字段的形式存入关系型数据库。所述数据来源包括政府部门网站，通过传入参数的方式，可以抓取指定时间内指定政府部门的全部政策信息。

在步骤S104中，依据预先构建的关键词列表，使用正则匹配的方式对政策信息进行自动分类标注，得到申报类政策文本。为能够准确且全面的对所述政策信息进行标注和提取关键信息，本申请实施例依据专家知识预先构建了基于产业政策的关键词列表。作为一个示例，关键词列表中包括多级标签，主要从政策大类、政策支持要素、政策支持方面、政策面向的行业、政策面向的企业类型、政策等级方面构建。政策大类为政策信息的一级标签，分为引导规划、规范条例、优惠政策和其他政策。政策支持要素分为土地政策、人才政策、资金补贴政策、税收政策、数据政策、融资政策和其他金融政策。政策方面分为知识产权、科技研发、进出口、创新创业、市场准入、数字化转型和区域合作。政策面向的行业依据国民经济行业分类归为共计38个行业。政策面向的企业类型分为中小企业、事业单位、政府部门。政策等级分为国家级、省级政策、市级政策、区级政策和园区政策。“优惠政策”类别中为基于优惠政策的关键词，其包含申报单位、申报材料、申报方式和/或资金支持方式。

进一步，所述根据基于优惠政策的关键词对所述政策信息进行分类，得到所述政策信息中的申报类政策文本，包括：

S1041、根据所述关键词对所述政策信息进行全量匹配，得到第一组申报类政策集合；

其中，由于申报类优惠政策主要用于为符合申报条件的企业或项目提供资金、办公场地、税收等补助或奖励，使用申报单位、申报材料、申报方式和/或资金支持方式的关键词，与全量的政策信息进行匹配，进行政策信息的初次标注，得到第一组申报类政策集合。

S1042、将所述第一组申报类政策集合之外的政策信息输入预先训练得到的文本分类模型，得到第二组申报类政策集合；

其中，按照下述方式训练得到所述文本分类模型：

基于所述正样本和负样本训练得到所述文本分类模型。

使用上述正样本和负样本构成的训练数据集，可基于多种深度学习算法训练得到文本分类模型。可选地，所述文本分类模型为BERT模型。

S1043、根据所述第一组申报类政策集合和第二组申报类政策集合得到所述申报类政策文本。

可选地，将第一组申报类政策集合和第二组申报类政策集合组合，作为所述申报类政策文本。

本实例中，由于关键词范围有限导致的低召回率问题以及由于关键词概括性高导致的低准确率问题，通过基于文本分类模型的二次标注解决。为解决初次标注中存在的问题，使用第一组申报类政策集合构建训练数据集，进行基于文本分类模型的二次标注。从已标注的第一组申报类政策集合中抽取例如20%构造正样本，从第一组申报类政策集合之外的政策信息中抽取与正样本同等数量的政策语料构造负样本。由于抽取的正负样本中存在一定的错误率，可选地对训练数据集进行人工校验，使用此种方式构造训练集极大降低了标注成本，提高了标注效率。基于训练好的文本分类模型，可对训练集之外的政策文本进行“是否属于申报类政策”的二次分类标注，得到第二组申报类政策集合。

此外，还可以利用上述文本分类模型对全部政策信息进行分类，得到第三组申报类政策集合。将第一组申报类政策集合和第三组申报类政策集合进行比对，不同的标注结果进行人工修正，再次添加至上述训练集，进行文本分类模型的迭代和优化。

进一步，步骤S106中，由于申报类政策文本具有相对独特的文本特性，本申请依据其文本特性提出了一种基于关键词正则表达匹配和语义相似度计算的关键信息提取方法。依据此方法可分别提取政策中的具体支持金额、申报时间以及政策支持对应的申报条件。所述对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取所述政策关键信息，包括：

S1061、对所述申报类政策文本进行第一次分句处理，得到多个句子及其在所述申报类政策文本中的第一位置信息；

可选地，使用pyltp以句号和分号为分隔符，对政策文本进行一次分句，并记录句子在政策文本中的位置编号。

S1062、对所述句子进行第二次分句处理，得到多个子句以及所述子句在所述句子中的第二位置信息；

可选地，使用逗号和顿号作为分隔符对每个句子进行二次分句，得到句子的子句，并记录子句在句子中的位置编号。

S1063、将所述子句与预定义的正则表达式进行匹配；

所述政策支持金额、申报时间信息具有相对规律的表达形式，依据其表达形式可预先定义用于匹配的正则表达式。预定义的表达式通过同义替换的方式进行扩充。

S1064、提取成功匹配的子句中的数字和时间分别作为所述支持金额和申报时间；

其中，所述语义相似度为余弦相似度。

S1065、根据所述第一位置信息和第二位置信息，提取与识别为包含支持金额的子句的距离满足预设标准的句子作为申报类政策的申报条件。

其中，所述与识别为包含支持金额和申报时间的子句的距离满足预设标准的句子包括以下的一种或多种：

所述包含支持金额的子句所在的句子；

与所述包含支持金额的子句位于同一段落的句子，其中子句所在的段落信息是通过对所述申报类政策文本进行文本分析得到的；

所述包含支持金额的子句所在的句子前后预设范围内的句子，例如前后各3个句子。

申报类政策的支持条件与支持金额具有同句、同段出现的特征，因此与包含支持金额的子句的距离应满足预设的标准。在一次分句和二次分句时均保留了其在原文中的位置编号，为尽可能提升召回率，在政策支持条件提取时依据上述特征进行提取。

进一步，本发明的政策关键信息提取方法还包括：

对获取的政策信息标注政策标签；

获取企业的企业标签；

本实施例中，将推荐列表的政策定向推送给企业，推荐企业浏览。并将其中的申报时间、申报条件、支持金额等关键信息做重点展示，提醒企业重点关注。

实施例二

如图2所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了装置，包括：

获取模块10，用于从多个数据来源获取政策信息；

分类模块20，用于根据基于优惠政策的关键词对所述政策信息进行分类，得到所述政策信息中的申报类政策文本；

提取模块30，用于对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取政策关键信息，所述政策关键信息包含：政策支持的申报条件、支持金额以及申报时间。

本发明根据基于优惠政策的关键词对所述政策信息进行分类，同时对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取政策关键信息，所述政策关键信息包含：政策支持的申报条件、支持金额以及申报时间。采用本发明技术方案，能够依据不同政策关键词对各政府部门发布的全量政策进行分类和关键信息提取，极大降低了人工标注的成本。与目前人工提取的政策关键信息相比，本申请对政策信息提取的维度更广，粒度更细，为后续的定向推送和数据分析功能提供了更全面的数据支撑。

该装置可通过上述实施例一提供的方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

本发明还提供一种电子设备，包括：存储器，用于存储一个或多个程序；处理器；当所述一个或多个程序被所述处理器执行时，实现上述政策关键信息提取方法。

本发明还提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述政策关键信息提取方法。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明能够在较低人工成本下获取训练数据集，实现政策进行类别标注，并提取申报类政策文本中的支持条件、支持资金数额、申报时间等关键信息；标注解析后的政策信息可用于多维数据分析和对企业的定向推送。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种政策关键信息提取方法，其特征在于，包括以下步骤：

从多个数据来源获取政策信息；

对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取政策关键信息，所述政策关键信息包含：政策支持的申报条件、支持金额以及申报时间；

所述根据基于优惠政策的关键词对所述政策信息进行分类，得到所述政策信息中的申报类政策文本，包括：

根据所述基于优惠政策的关键词对所述政策信息进行全量匹配，得到第一组申报类政策集合，所述基于优惠政策的关键词为依据专家知识预先构建的基于产业政策的关键词，包含：申报单位、申报材料、申报方式和/或资金支持方式；

根据所述第一组申报类政策集合和第二组申报类政策集合得到所述申报类政策文本；

其中，按照下述方式训练得到所述文本分类模型：

从所述第一组申报类政策集合中抽取预定比例数量的政策信息，构造正样本；

基于所述正样本和负样本训练得到所述文本分类模型；

所述对所述申报类政策文本进行正则表达匹配和语义相似度计算，提取所述政策关键信息，包括：

将所述子句与预定义的正则表达式进行匹配；

2.如权利要求1所述的政策关键信息提取方法，其特征在于，所述与识别为包含支持金额的子句的距离满足预设标准的句子包括以下的一种或多种：

所述包含支持金额的子句所在的句子；

与所述包含支持金额的子句位于同一段落的句子；

3.如权利要求2所述的政策关键信息提取方法，其特征在于，还包括：

对获取的政策信息标注政策标签；

获取企业的企业标签；

4.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-3中任一项所述的方法。

5.一种存储介质，其特征在于，用于存储计算机程序，当所述计算机程序被执行时，实现如权利要求1-3中任一项所述的方法。