CN112580348B

CN112580348B - 政策文本关联性分析方法及系统

Info

Publication number: CN112580348B
Application number: CN202011469998.1A
Authority: CN
Inventors: 孙璐; 李向前; 刘巍; 雷吉成; 许卡; 巢文涵; 郝雅琦; 张金言
Original assignee: Glabal Tone Communication Technology Co ltd; China Industrial Control Systems Cyber Emergency Response Team; CETC Big Data Research Institute Co Ltd
Current assignee: Glabal Tone Communication Technology Co ltd; China Industrial Control Systems Cyber Emergency Response Team; CETC Big Data Research Institute Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-05-28
Anticipated expiration: 2040-12-15
Also published as: CN112580348A

Abstract

本发明实施例提供一种政策文本关联性分析方法及系统。其中，方法包括：获取待进行关联性分析的两个政策文本；判断两个政策文本之间是否具有上下级关系，若是，则将不同的政策文本中的任意两个属性相同的单句组成一个单句对，得到若干单句对；对于每一单句对，判断单句对中的两个单句是否相似，若是，则根据两个单句所属的政策文本类别，确定两个单句之间的关联关系并作为单句对对应的关联关系；根据若干单句对对应的若干关联关系，确定两个政策文本之间的关联关系。本发明实施例提供的方法及系统，通过自然语言处理技术，实现政策文本之间的关联性的自动分析，填补了政策文本之间关联性分析的空白。

Description

政策文本关联性分析方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种政策文本关联性分析方法及系统。

背景技术

随着互联网、人工智能和大数据等计算机技术在各行各业的快速发展，越来越多的计算机领域的政策文本被颁布，以规范和促进计算机技术的发展。

目前对政策文本的研究更多地关注在单篇政策文本上，其仅仅是对政策文本提取主题和关键词以分析政策文本的情感倾向和应用领域等，忽略了政策文本之间的关联性以及政策文本在制定上存在着继承和补充等特点。然而，分析政策文本之间的关联性有利于帮助政策制定者更好地制定新一轮的政策文本，有利于政策研究者科学的分析政策文本的发展脉络变化，有利于政策应用者更好地学习政策文本。

由于政策文本之间的关联性当前并没有被研究，因此亟需提供一种能够分析政策文本之间的关联性的方法。

发明内容

针对现有技术存在的问题，本发明实施例提供一种政策文本关联性分析方法及系统。

第一方面，本发明实施例提供一种政策文本关联性分析方法，包括：

获取待进行关联性分析的两个政策文本；

判断两个所述政策文本之间是否具有上下级关系，若是，则将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对，得到若干所述单句对；

对于每一所述单句对，判断所述单句对中的两个所述单句是否相似，若是，则根据两个所述单句所属的政策文本类别，确定两个所述单句之间的关联关系并作为所述单句对对应的关联关系；

根据若干所述单句对对应的若干关联关系，确定两个所述政策文本之间的关联关系。

在一些实施例中，判断两个所述政策文本之间是否具有上下级关系，包括：

判断两个所述政策文本是否属于同一领域；

若是，则判断两个所述政策文本是否由相同的机构发布；

若是，则判断两个所述政策文本具有上下级关系；若否，则判断两个所述政策文本是否分别由中央发布和由地方发布；

若是，则判断两个所述政策文本具有上下级关系；若否，则判断两个所述政策文本是否分别由上级机构发布和由下级机构发布；

若是，则判断两个所述政策文本具有上下级关系。

在一些实施例中，将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对，之前还包括：

对于两个所述政策文本中的每一所述单句，将所述单句输入至训练后的神经网络模型，获取训练后的所述神经网络模型输出的所述单句所属的政策文本类别和所述单句的属性；

其中，训练后的所述神经网络模型基于训练集训练得到，所述训练集包括若干样本单句和每一所述样本单句所属的样本政策文本类别和每一所述样本单句的样本属性。

在一些实施例中，所述神经网络模型为BERT模型。

在一些实施例中，判断所述单句对中的两个所述单句是否相似，包括：

对所述单句对中的两个所述单句分别进行句法分析，提取每一所述单句中的动词和对应的名词，若两个所述单句的所述动词匹配且所述名词匹配，则判断两个所述单句相似。

采用bleu1或word2vec句向量计算两个所述单句之间的相似度，若所述相似度大于预设阈值，则判断两个所述单句相似。

在一些实施例中，根据若干所述单句对对应的若干关联关系，确定两个所述政策文本之间的关联关系，包括：

将若干所述单句对对应的若干关联关系进行类别划分，得到若干关联关系组；其中，同一所述关联关系组中的关联关系均相同，不同的所述关联关系组中的关联关系均不同；

统计每一所述关联关系组中的关联关系的数量，将关联关系的数量最多的所述关联关系组中的任一关联关系作为两个所述政策文本之间的关联关系。

第二方面，本发明实施例提供一种政策文本关联性分析系统，包括：

政策文本获取模块，用于获取待进行关联性分析的两个政策文本；

单句对获取模块，用于判断两个所述政策文本之间是否具有上下级关系，若是，则将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对，得到若干所述单句对；

单句关联关系获取模块，用于对于每一所述单句对，判断所述单句对中的两个所述单句是否相似，若是，则根据两个所述单句所属的政策文本类别，确定两个所述单句之间的关联关系并作为所述单句对对应的关联关系；

政策文本关联关系获取模块，用于根据若干所述单句对对应的若干关联关系，确定两个所述政策文本之间的关联关系。

第三方面，本发明实施例提供一种电子设备，包括存储器和处理器；其中，所述存储器中存储有计算机程序；所述处理器，用于执行所述计算机程序以实现如上所述的政策文本关联性分析方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的政策文本关联性分析方法。

本发明实施例提供的政策文本的政策文本关联性分析方法及系统，通过最先进的自然语言处理技术，对政策文本进行建模，实现政策文本之间关系的自动分析，实现政策文本之间关系的自动判别，有助于帮助政策制定者制定更加合理的政策文本，填补了政策文本之间关联分析的空白。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的政策文本关联性分析方法流程图；

图2为本发明实施例提供的判断两个政策文本之间是否具有上下级关系的流程图；

图3为本发明实施例提供的政策文本关联性分析系统的结构示意图；

图4为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通过对当前互联网、人工智能和大数据等计算机领域的政策文本进行分析，从政策制定者的角度出发，对政策文本之间的关联关系进行定义，表1为政策文本的关联关系定义表，请参阅表1，政策文本之间的关联关系包括理论指导、规范管理、体系培育和支撑服务四种关系。其中，理论指导是指从产业发展、各种规划等角度从理论上对政策文本进行指导；规范管理是指行业管理、各种管理、规定、标准的制定等对行业进行规范；体系培育是指科技创新、各种创新工程、科技创新支撑计划；支撑服务是指减免/优惠/扶植政策文本对领域的发展进行支撑培育。

表1政策文本的关联关系定义表

关联关系	作用解析	关系定义
			理论指导	产业发展、各种规划等从理论上对政策文本进行指导	上级对下级
规范管理	行业管理、各种管理、规定、标准的制定等对行业进行规范	上级对下级
			体系培育	科技创新、各种创新工程、科技创新支撑计划	下级对上级
支撑服务	减免/优惠/扶植政策文本对领域的发展进行支撑培育	下级对上级

图1为本发明实施例提供的政策文本关联性分析方法流程图，如图1所示，该分析方法包括：

步骤101，获取待进行关联性分析的两个政策文本。

具体地，随着互联网、人工智能和大数据等计算机技术在各行各业中的快速发展，大量关于互联网、人工智能和大数据等计算机领域的政策文本层出不穷，以规范和促进互联网、人工智能和大数据等计算机技术的发展。本发明实施例中的政策文本即是指互联网、人工智能和大数据等计算机领域的政策文本。为了便于后文描述，将此处获取的两个政策文本分别称为政策文本A和政策文本B。

步骤102，判断两个政策文本之间是否具有上下级关系，若是，则将不同的政策文本中的任意两个属性相同的单句组成一个单句对，得到若干单句对。

具体地，判断政策文本A和政策文本B之间是否具有上下级关系。

例如，若两者属于同一领域，且两者为相同的机构发布，则确定两者之间存在上下级关系，并根据发布时间的早晚，将发布时间早的政策文本作为上级，将发布时间晚的政策文本作为下级。

再例如，若两者属于同一领域，且两者分别为中央发布和地方发布，则确定两者之间存在上下级关系，并将中央发布的政策文本作为上级，将地方发布的政策文本作为下级。

又例如，若两者属于同一领域，且两者分别为上级机构发布和下级机构发布，则确定两者之间存在上下级关系，并将上级机构发布的政策文本的作为上级，将下级机构发布的政策文本的作为下级。

需要说明的是，若两者不属于同一领域，则确定两者之间不存在上下级关系，不进行后续操作。

单句的属性是对单句所描述的政策文本进行总结概括，为了全面概括政策文本的细粒度信息，单句的属性划分为管理、服务、应用、主体和技术五个类别。

为了便于后文描述，假定政策文本A为上级，政策文本B为下级。

获取政策文本A和政策文本B中的若干单句，并确定每一单句的属性。

例如，政策文本A包括单句1、单句2和单句3，政策文本B包括单句4、单句5和单句6，其中，单句1和单句4的属性相同，单句2和单句5的属性相同，单句3和单句6的属性相同。此时将单句1和单句4组成为一个单句对并将其称为单句对1，将单句2和单句5组成为一个单句对并将其称为单句对2，单句3和单句6组成为一个单句对并将其称为单句对3，从而得到上述3个单句对。

步骤103，对于每一单句对，判断单句对中的两个单句是否相似，若是，则根据两个单句所属的政策文本类别，确定两个单句之间的关联关系并作为单句对对应的关联关系。

具体地，单句所属的政策文本类别是描述单句在政策文本中具有的作用，单句所属的政策文本类别划分为理论指导、规范管理、体系培育和支撑服务四个类别。

对于单句对1，若单句1和单句2相似，则根据单句1所属的政策文本类别和单句2所属的政策文本类别，确定单句1和单句2之间的关联关系并作为单句对1对应的关联关系1。对于单句对2，若单句3和单句4相似，则根据单句3所属的政策文本类别和单句4所属的政策文本类别，确定单句3和单句4之间的关联关系并作为单句对2对应的关联关系2。对于单句对3，若单句5和单句6相似，则根据单句5所属的政策文本类别和单句6所属的政策文本类别，确定单句5和单句6之间的关联关系并作为单句对3对应的关联关系3。

例如，对于单句对1，单句1所属的政策文本类别是理论指导，单句4所属的政策文本类别是支撑服务，那么单句1对单句4之间的关联关系是理论指导关系(或支撑服务关系)，将理论指导关系作为单句对1对应的关联关系。

步骤104，根据若干单句对对应的若干关联关系，确定两个政策文本之间的关联关系。

具体地，根据关联关系1、关联关系2和关联关系3，确定政策文本A和政策文本B之间的关联关系。例如，关联关系1为理论指导、关联关系2为理论指导、关联关系3为规范管理，根据少数服从多数的原则，确定政策文本A和政策文本B之间的关联关系为理论指导。

本发明实施例提供的政策文本关联性分析方法，通过最先进的自然语言处理技术，对政策文本进行建模，实现政策文本之间关系的自动分析，实现政策文本之间关系的自动判别，有助于帮助政策制定者制定更加合理的政策文本，填补了政策文本之间关联分析的空白。

在一些实施例中，判断两个政策文本之间是否具有上下级关系，包括：

判断两个政策文本是否属于同一领域。

若是，则判断两个政策文本是否由相同的机构发布。

若是，则判断两个政策文本具有上下级关系；若否，则判断两个政策文本是否分别由中央发布和由地方发布。

若是，则判断两个政策文本具有上下级关系；若否，则判断两个政策文本是否分别由上级机构发布和由下级机构发布。

若是，则判断两个政策文本具有上下级关系。

具体地，图2详细示出了判断两个政策文本之间是否具有上下级关系的流程，此处不再赘述。

在一些实施例中，将不同的政策文本中的任意两个属性相同的单句组成一个单句对，之前还包括：

对于两个政策文本中的每一单句，将单句输入至训练后的神经网络模型，获取训练后的神经网络模型输出的单句所属的政策文本类别和单句的属性。其中，训练后的神经网络模型基于训练集训练得到，训练集包括若干样本单句和每一样本单句所属的样本政策文本类别和每一样本单句的样本属性。

具体地，从政策文本数据库中挑选十篇政策文本以覆盖互联网、人工智能和大数据等计算机领域，然后对每篇政策文本进行分句。

为了将挑选出的政策文本转化为神经网络模型能够进行有监督训练的数据，对部分数据进行人工标注。此处具体为对分好句的单句进行所属政策文本类别的标注和单句属性标注。这些标注好的数据用于之后的单句所属政策文本类别分类和单句属性识别等任务中进行有监督训练。

为了使政策文本数据能够输入到神经网络模型中进行训练，基于中文文本数据，训练Bpe词典，代替传统的结巴分词方法，使用Bpe算法对政策文本进行分词，作为神经网络模型的输入。

需要说明的是，此处将神经网络模型优选为BERT模型，基于训练后的BERT模型在多项自然语言处理任务中能够达到很好的效果，在此次任务中对比了传统的神经网络模型如TextCnn模型和Lstm模型等的效果，BERT模型能够更好的从深层次提取文本的语义内涵，对于政策文本内容的理解有着重要作用。

在训练后的BERT模型的基础上，在上层搭建全连接网络和Softmax，采用交叉熵损失函数计算模型的损失。

训练时将政策文本以及标注好的结果同时输入到BERT模型中，供到BERT模型学习并调整参数。在训练完成后，将到BERT模型保存到本地，并采用十折交叉验证对训练模型结果进行评估。

在一些实施例中，判断单句对中的两个单句是否相似，包括：

对单句对中的两个单句分别进行句法分析，提取每一单句中的动词和对应的名词，若两个单句的动词匹配且名词匹配，则判断两个单句相似。

采用bleu1或word2vec句向量计算两个单句之间的相似度，若相似度大于预设阈值，则判断两个单句相似。其中，预设阈值优选为0.3。

在一些实施例中，根据若干单句对对应的若干关联关系，确定两个政策文本之间的关联关系，包括：

将若干单句对对应的若干关联关系进行类别划分，得到若干关联关系组；其中，同一关联关系组中的关联关系均相同，不同的关联关系组中的关联关系均不同。

统计每一关联关系组中的关联关系的数量，将关联关系的数量最多的关联关系组中的任一关联关系作为两个政策文本之间的关联关系。

具体地，若上述单句对1对应的关联关系1是理论指导，上述单句对2对应的关联关系2是理论指导，上述单句对3对应的关联关系3是规范管理，则将上述三个关联关系进行类别划分，得到2个关联关系组，第1个关联关系组中的关联关系分别为理论指导和理论指导，第2个关联关系组中的关联关系为规范管理。第1个关联关系组中的关联关系的数量为2，第2个关联关系组中的关联关系的数量为1，2大于1，因此将第1个关联关系组中的理论指导作为政策文本1与政策文本2之间的关联关系，即作为上级的政策文本1对作为下级的政策文本2起到理论指导作用。

图3为本发明实施例提供的政策文本关联性分析系统的结构示意图，如图3所示，该系统包括：

政策文本获取模块301，用于获取待进行关联性分析的两个政策文本；单句对获取模块302，用于判断两个政策文本之间是否具有上下级关系，若是，则将不同的政策文本中的任意两个属性相同的单句组成一个单句对，得到若干单句对；单句关联关系获取模块303，用于对于每一单句对，判断单句对中的两个单句是否相似，若是，则根据两个单句所属的政策文本类别，确定两个单句之间的关联关系并作为单句对对应的关联关系；政策文本关联关系获取模块304，用于根据若干单句对对应的若干关联关系，确定两个政策文本之间的关联关系。

具体地，本发明实施例提供的系统具体用于执行上述政策文本关联性分析方法实施例，本发明实施例对此不再进行赘述。本发明实施例提供的系统，通过最先进的自然语言处理技术，对政策文本进行建模，实现政策文本之间关系的自动分析，实现政策文本之间关系的自动判别，有助于帮助政策制定者制定更加合理的政策文本，填补了政策文本之间关联分析的空白。

图4为本发明实施例提供的电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储在存储器403上并可在处理器401上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：获取待进行关联性分析的两个政策文本；判断两个政策文本之间是否具有上下级关系，若是，则将不同的政策文本中的任意两个属性相同的单句组成一个单句对，得到若干单句对；对于每一单句对，判断单句对中的两个单句是否相似，若是，则根据两个单句所属的政策文本类别，确定两个单句之间的关联关系并作为单句对对应的关联关系；根据若干单句对对应的若干关联关系，确定两个政策文本之间的关联关系。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：获取待进行关联性分析的两个政策文本；判断两个政策文本之间是否具有上下级关系，若是，则将不同的政策文本中的任意两个属性相同的单句组成一个单句对，得到若干单句对；对于每一单句对，判断单句对中的两个单句是否相似，若是，则根据两个单句所属的政策文本类别，确定两个单句之间的关联关系并作为单句对对应的关联关系；根据若干单句对对应的若干关联关系，确定两个政策文本之间的关联关系。

以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种政策文本关联性分析方法，其特征在于，包括：

获取待进行关联性分析的两个政策文本；

判断两个所述政策文本之间是否具有上下级关系，若是，则将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对，得到若干所述单句对；所述单句的属性是对单句所描述的政策文本进行总结概括，所述单句的属性划分为管理、服务、应用、主体和技术五个类别；

对于每一所述单句对，判断所述单句对中的两个所述单句是否相似，若是，则根据两个所述单句所属的政策文本类别，确定两个所述单句之间的关联关系并作为所述单句对对应的关联关系；所述单句所属的政策文本类别是描述单句在政策文本中具有的作用，所述单句所属的政策文本类别划分为理论指导、规范管理、体系培育和支撑服务四个类别；两个所述单句之间的关联关系为其中一个所述单句所属的政策文本类别；

2.根据权利要求1所述的政策文本关联性分析方法，其特征在于，判断两个所述政策文本之间是否具有上下级关系，包括：

判断两个所述政策文本是否属于同一领域；

若是，则判断两个所述政策文本是否由相同的机构发布；

若是，则判断两个所述政策文本具有上下级关系。

3.根据权利要求1所述的政策文本关联性分析方法，其特征在于，将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对，之前还包括：

4.根据权利要求3所述的政策文本关联性分析方法，其特征在于，所述神经网络模型为BERT模型。

5.根据权利要求1所述的政策文本关联性分析方法，其特征在于，判断所述单句对中的两个所述单句是否相似，包括：

6.根据权利要求1所述的政策文本关联性分析方法，其特征在于，判断所述单句对中的两个所述单句是否相似，包括：

7.根据权利要求1所述的政策文本关联性分析方法，其特征在于，根据若干所述单句对对应的若干关联关系，确定两个所述政策文本之间的关联关系，包括：

8.一种政策文本关联性分析系统，其特征在于，包括：

单句对获取模块，用于判断两个所述政策文本之间是否具有上下级关系，若是，则将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对，得到若干所述单句对；所述单句的属性是对单句所描述的政策文本进行总结概括，所述单句的属性划分为管理、服务、应用、主体和技术五个类别；

单句关联关系获取模块，用于对于每一所述单句对，判断所述单句对中的两个所述单句是否相似，若是，则根据两个所述单句所属的政策文本类别，确定两个所述单句之间的关联关系并作为所述单句对对应的关联关系；所述单句所属的政策文本类别是描述单句在政策文本中具有的作用，所述单句所属的政策文本类别划分为理论指导、规范管理、体系培育和支撑服务四个类别；两个所述单句之间的关联关系为其中一个所述单句所属的政策文本类别；

9.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器中存储有计算机程序；所述处理器，用于执行所述计算机程序以实现如权利要求1-7中任意一项所述的政策文本关联性分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的政策文本关联性分析方法。