CN117235206A

CN117235206A - 一种基于深度学习的政策匹配方法

Info

Publication number: CN117235206A
Application number: CN202311111293.6A
Authority: CN
Inventors: 郭大勇; 兰永
Original assignee: Shanghai Tongban Information Service Co ltd
Current assignee: Shanghai Tongban Information Service Co ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-12-15
Anticipated expiration: 2043-08-30
Also published as: CN117235206B

Abstract

本发明提供了一种基于深度学习的政策匹配方法，包括：S1、创建第一政策条件集；S2、收集政策文件N份，获取每一份政策文件的多个语句；S3、利用第一政策条件集，对N份政策文件进行标注；S4、训练M个政策分析模型；S5、获取待分析文件的多个语句，输入M个政策分析模型，输出第二政策条件；S6、生成第二政策条件集；S7、获取企业信息数据和第二政策条件集，计算每个第二政策条件的偏差值；S8、对每个第二政策条件的偏差值进行截取，利用截取后的每个第二政策条件的偏差值，计算企业信息数据与政策文件的符合度。本发明通过深度学习模型分析政策文件，计算信息数据与政策文件的符合程度，让相关企业即时享受到相应政策。

Description

一种基于深度学习的政策匹配方法

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种基于深度学习的政策匹配方法。

背景技术

政府部门经常通过多种渠道发布多种企业相关的政策文件，但企业经常因为信息了解的不及时或对相应政策文件理解的不准确而错过了相应政策，导致企业利益受到损失，企业为了减少这方便的损失常见的做法是雇用相应的人员或相应的咨询公司帮助企业即时了解与分析相应政策，这增加企业的负担。

发明内容

本发明提供了一种基于深度学习的政策匹配方法，以解决现有技术中企业无法及时了解政策文件，无法及时准确匹配政策条件的技术问题。

本发明的一个方面在于提供一种基于深度学习的政策匹配方法，所述政策匹配方法包括如下方法步骤：

S1、创建第一政策条件集，其中，第一政策条件集中包括多个第一政策条件；

S2、收集不同行业、不同政府部门的政策文件N份，并对收集的N份政策文件进行语句提取，获取每一份政策文件的多个语句；

S3、利用第一政策条件集，对N份政策文件进行多分类标注，以及对每一份政策文件的多个语句进行命名实体标注，以及对每一份政策文件的多个语句进行序列到序列标注；

S4、利用标注好的N份政策文件，以及每一份政策文件命名实体标注的多个语句，以及每一份政策文件序列到序列标注的多个语句，训练M个政策分析模型；

S5、对待分析的政策文件进行语句提取，获取待分析文件的多个语句，将待分析文件，以及待分析文件的多个语句输入M个政策分析模型，输出待分析文件，以及待分析文件的多个语句对应的第二政策条件；

S6、将M个政策分析模型输出的待分析文件，以及待分析文件的多个语句对应的第二政策条件，合并成第二政策条件集，并对第二政策条件集进行数据标准化处理；

S7、获取企业信息数据和第二政策条件集，将企业信息数据和第二政策条件集匹配，并计算每个第二政策条件的偏差值；

S8、对每个第二政策条件的偏差值进行截取，利用截取后的每个第二政策条件的偏差值，计算企业信息数据与政策文件的符合度，并显示企业信息数据与政策文件的符合度。

在一个优选的实施例中，在步骤S2中，对收集的N份政策文件进行语句提取包括：

S201、去除每一份政策文件中不可见的字符、空格、空行、emoji等字符；

S202、每一份政策文件中无句号分隔的段落、章节内容之间添加句号；

S203、对每一份政策文件的内容按顺序合并为单行内容；

S204、对单行内容切分为多个语句。

在一个优选的实施例中，在步骤S4中，利用标注好的N份政策文件，通过transformer-xl类的长文本编码模型，训练政策分析模型。

在一个优选的实施例中，在步骤S4中，利用每一份政策文件命名实体标注的多个语句，通过BERT+BILSTM+CRF类的模型，训练政策分析模型；

在一个优选的实施例中，在步骤S4中，利用每一份政策文件序列到序列标注的多个语句，通过seq2seq类的序列到序列的翻译模型，训练政策分析模型。

在一个优选的实施例中，在步骤S5中，对待分析的政策文件进行语句提取包括：

S501、去除待分析的政策文件中不可见的字符、空格、空行、emoji等字符；

S502、待分析的政策文件中无句号分隔的段落、章节内容之间添加句号；

S503、对待分析的政策文件的内容按顺序合并为单行内容；

S504、对单行内容切分为多个待分析文件的语句。

在一个优选的实施例中，在步骤S7中，每个第二政策条件的偏差值通过如下方法计算：

对于数值类第二政策条件，其条件偏差＝(Vkey-Vtarget)/Vtarget；

对于文本类第二政策条件，

其中，VECkey和VECtarget表示经过BERT类的模型计算后的第二政策条件，与企业信息数据的语义向量。

在一个优选的实施例中，在步骤S8中，每个第二政策条件的偏差值的截取规则为：

当第二政策条件的偏差值大于0，则第二政策条件的偏差值取0；

当第二政策条件的偏差值小于-1，则第二政策条件的偏差值取-1；

当第二政策条件的偏差值范围在[-1，0]，则第二政策条件的偏差值不进行截取。

在一个优选的实施例中，在步骤S8中，企业信息数据与政策文件的符合度通过如下方法计算：

其中，S表示对第二政策条件集中第二政策条件的数量；Ri表示截取后的第二政策条件偏差值，Wi表示每个第二政策条件的权重。

在一个优选的实施例中，企业信息数据与政策文件的符合度取值范围在[0，100]，当企业信息数据与政策文件的符合度＝100时，则企业信息数据与政策文件完全符合。

与现有技术相比，本发明具有以下有益效果：

本发明提供的一种基于深度学习的政策匹配方法，通过深度学习模型分析政策文件，计算信息数据与政策文件的符合程度，用于主动提醒或自动办理相关业务等场景，让相关企业即时享受到相应政策，帮助企业减少损失、减轻负担，帮助政务服务需求侧改革落地，提升政务主动服务的能力。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于深度学习的政策匹配方法的流程图。

图2是本发明一个实施例中一个第二政策条件分解为表达式树的示意图。

具体实施方式

为了使本发明的上述以及其他特征和优点更加清楚，下面结合附图进一步描述本发明。应当理解，本文给出的具体实施例是出于向本领域技术人员解释的目的，仅是示例性的，而非限制性的。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

如图1所示本发明一种基于深度学习的政策匹配方法的流程图，根据本发明的实施例，提供一种基于深度学习的政策匹配方法，用于将企业信息数据与政策文件进行符合度计算，将企业信息数据与政策文件进行匹配。本发明一种基于深度学习的政策匹配方法包括如下方法步骤：

步骤S1、创建第一政策条件集，第一政策条件集中包括多个第一政策条件。

通过梳理常见的政策文件，创建第一政策条件集，第一政策条件集中包括多个第一政策条件。

每个第一政策条件包括条件名称、英文标签、数据类型、匹配算法、常用语句等信息。

例如在一个实施例中，第一政策条件为：成立时间，则该第一政策条件包括如下信息：

条件名称	英文标签	数据类型	匹配算法	常用语句
					成立时间	EST	int	年限、时间戳	成立一年以上、2012年以后注册

例如在另一个实施例中，第一政策条件为：所属行业，则该第一政策条件包括如下信息：

条件名称	英文标签	数据类型	匹配算法	常用语句
					所属行业		int		林木培育

例如在又一个实施例中，第一政策条件为：营业收入，则该第一政策条件包括如下信息：

条件名称	英文标签	数据类型	匹配算法	常用语句
					营业收入		int		营业收入超过5000万元(含)

通过梳理常见的政策文件，创建包含多个第一政策条件的第一政策条件集。

步骤S2、收集政策文件。

收集不同行业、不同政府部门的政策文件N份，并对收集的N份政策文件进行语句提取，获取每一份政策文件的多个语句。

根据本发明的实施例，对收集的N份政策文件进行语句提取(数据清洗)，包括如下方法步骤：

步骤S201、去除每一份政策文件中不可见的字符、空格、空行、emoji等字符。

步骤S202、每一份政策文件中无句号分隔的段落、章节内容之间添加句号。

步骤S203、对每一份政策文件的内容按顺序合并为单行内容。

步骤S204、对单行内容切分为多个语句。

在一个优选的实施例中，步骤S204中单行内容切分为多个语句，每个语句长度不大于L1(L1＜＝540)。

步骤S3、政策文件标注。

根据本发明的实施例，利用第一政策条件集，对N份政策文件进行多分类标注，以及对每一份政策文件的多个语句进行命名实体标注，以及对每一份政策文件的多个语句进行序列到序列标注。

对N份政策文件进行多分类标注。

标注形式为：政策文件：第一政策条件：政策文件标签值。

例如，某一份政策文件对应的第一政策条件集中的第一政策条件的所属行业为畜牧业，则将该份政策文件标注为：政策文件1：所属行业：林木培育或种植或海洋渔业。

又例如，某一份政策文件对应的第一政策条件集中的第一政策条件的所属行业为制造业，则将该份政策文件标注为：政策文件2：所属行业：机械设备或五金或元器件加工。

依次类推，将N份政策文件进行多分类标注。

根据本发明的实施例，对每一份政策文件的多个语句进行命名实体标注，具体采用BIO方式进行标注。

标注形式为：政策文件1：语句1：start：length。

政策文件1：语句2：start：length。

其中，start表示政策文件1的语句的起始位置，length政策文件1的语句的长度。

例如，以政策文件1为畜牧业为例，在政策文件1中的某个语句1对应的第一政策条件集中的第一政策条件为成立时间，则该语句标注为：

政策文件1：成立一年以上、2012年以后注册：start：length。

又例如，以政策文件1为畜牧业为例，在政策文件1中的某个语句2对应的第一政策条件集中的第一政策条件为营业收入，则该语句标注为：

政策文件1：营业收入超过5000万元(含)：start：length。

依次类推，将政策文件1、政策文件2、政策文件3、…、政策文件N中的所有语句利用第一政策条件集进行标注。

根据本发明的实施例，对每一份政策文件的多个语句进行序列到序列标注。

标注形式为：政策文件1：语句1：语句表达式。

政策文件1：成立一年以上：成立时间＞1年。

政策文件1：营业收入超过5000万元(含)：营业收入＞＝5000万元。

步骤S4、利用标注好的N份政策文件，以及每一份政策文件命名实体标注的多个语句，以及每一份政策文件序列到序列标注的多个语句，训练M个政策分析模型。

在步骤S3中通过对N份政策文件，以及N份政策文件的多个语句进行标注，将N份政策文件，以及N份政策文件的多个语句与第一政策条件集中的多个第一政策条件进行关联。通过标注好的N份政策文件，以及N份政策文件的多个语句进行政策分析模型训练。

具体地，根据本发明的实施例，利用标注好的N份政策文件，通过transformer-xl类的长文本编码模型，训练政策分析模型。

在训练时，将整个政策文件输入transformer-xl类的长文本编码模型，利用该类模型的递归机制和相对位置编码特性使训练的模型能更完整的获取整个政策的语义信息，对整个政策对应的政策条件内容进行更准确的预测。

根据本发明的实施例，利用每一份政策文件命名实体标注的多个语句，通过BERT+BILSTM+CRF类的模型，训练政策分析模型。

在训练时，将每一份政策文件的每一个语句输入BERT+BILSTM+CRF类的模型，利用该类模型的端到端的特性、transformer强大的特征抽取能力，可以快速的在政策文件中提取类似：XXXX年XX月XX日起施行、成立X年以上的企业的政策条件。

根据本发明的实施例，利用每一份政策文件序列到序列标注的多个语句，通过seq2seq类的序列到序列的翻译模型，训练政策分析模型。

在训练时，将每一份政策文件的每一个语句输入seq2seq类的序列到序列的翻译模型，该类模型用以将需要从政策文件中总结出、概括出的政策条件，以及对原自然语言描述的是一个复杂的条件表达式的情况进行进行智能提。

例如：营业收入规模超过5000万元(含)，且较上一年度研发投入增量超过1000万元(含)此类政策条件提取为：营业收入>＝5000万元and营业收入年增量>＝1000万元。

步骤S5、对待分析的政策文件进行语句提取，获取待分析文件的多个语句，将待分析文件，以及待分析文件的多个语句输入M个政策分析模型，输出待分析文件，以及待分析文件的多个语句对应的第二政策条件。

获取待分析的政策文件，将待分析的政策文件进行语句提取，获取待分析文件的多个语句。

根据本发明的实施例，对待分析的政策文件进行语句提取(数据清洗)，包括如下方法步骤：

步骤S501、去除待分析的政策文件中不可见的字符、空格、空行、emoji等字符。

步骤S502、待分析的政策文件中无句号分隔的段落、章节内容之间添加句号。

步骤S503、对待分析的政策文件的内容按顺序合并为单行内容。

步骤S504、对单行内容切分为多个待分析文件的语句。

经过步骤S4训练已经得到M个政策分析模型，将待分析文件，以及待分析文件的多个语句输入M个政策分析模型，输出待分析文件，以及待分析文件的多个语句对应的第二政策条件。

例如在一个实施例中，第二政策条件为：成立时间，则该第二政策条件包括如下信息：

条件名称	英文标签	数据类型	匹配算法	语句
					成立时间	EST	int	年限、时间戳	成立一年以上、2012年以后注册

例如在另一个实施例中，第二政策条件为：所属行业，则该第二政策条件包括如下信息：

条件名称	英文标签	数据类型	匹配算法	语句
					所属行业		int		林木培育

例如在又一个实施例中，第二政策条件为：营业收入，则该第二政策条件包括如下信息：

条件名称	英文标签	数据类型	匹配算法	语句
					营业收入		int		营业收入超过5000万元(含)

步骤S6、将M个政策分析模型输出的待分析文件，以及待分析文件的多个语句对应的第二政策条件，合并成第二政策条件集，并对第二政策条件集进行数据标准化处理。

将得到的待分析文件，以及待分析文件的多个语句对应的多个第二政策条件，合并生成第二政策条件集，第二政策条件集中包括多个第二政策条件。

根据本发明的实施例，对生成的第二政策条件集进行数据标准化处理，包括如下处理方法：

步骤S601：第二政策条件为日期类条件，标准化为时间戳。

步骤S602：第二政策条件为数值类条件，根据第二政策条件集中的数据类型信息标准化为对应的整型、浮点型等数据。

步骤S603：将所有带有中文表述语句对应的第二政策条件，标准化为表达式，如：大于5年标准化为>5年。

步骤S604：将所有带有单位语句对应的第二政策条件，值标准化为使用最小单位表示的不带单位数值，如：5000万元标准化为50000000。

步骤S605：将所有需要从企业信息数据中获取的数据，标准化为带格式的企业信息相应的字段键值，如：营业收入标准化为${income}。

步骤S606：将所有包含复杂表达式的语句对应的第二政策条件分解为表达式树，如图2所示本发明一个实施例中一个第二政策条件分解为表达式树的示意图，树的左子树表示KEY，右子树表示第二政策条件的值。

步骤S607：将所有包含非表达式类的语句对应的第二政策条件转换为表达式树，转换方式为通过第二政策条件的匹配算法字段进行表达式转换。

例如，文本类的匹配算法转换为相等、正则匹配、相似度匹配等操作符，左子树为KEY，右子树为政策中识别出的条件值。

步骤S7、获取企业信息数据和第二政策条件集，将企业信息数据和第二政策条件集匹配，并计算每个第二政策条件的偏差值。

获取企业信息数据和经过数据标准化处理的第二政策条件集，将企业信息数据和第二政策条件集匹配。

通过如下方法获取企业信息数据：

通过企业标识调用API等方式从政务集约化平台中获取本企业所有相关数据，并向企业用户展示已经获取到的企业相关信息。企业用户确认相关信息，补充缺失的数据及修正未及时更新的旧数据。

根据本发明的实施例，企业信息数据和第二政策条件集匹配按照如下方法匹配：

步骤S701、遍历每个第二政策条件表达式树的每节点；

步骤S702、如果左子树为KEY，则从企业信息数据中取出相应的值；

步骤S703、计算对应父节点的操作结果；

步骤S704，重复步骤S701至步骤S703，计算出整个表达式树的结果，整个结果为匹配则表示企业信息数据和第二政策条件集匹配成功。

根据本发明的实施例，查找出所有左子树为KEY的节点，用该节点中取出的企业信息数据和右子树代表的第二政策条件进行偏差值计算。

每个第二政策条件的偏差值通过如下方法计算：

对于数值类第二政策条件，其条件偏差＝(Vkey-Vtarget)/Vtarget；

对于文本类第二政策条件，

步骤S8、对每个第二政策条件的偏差值进行截取，利用截取后的每个第二政策条件的偏差值，计算企业信息数据与政策文件的符合度，并显示企业信息数据与政策文件的符合度。

根据本发明的实施例，每个第二政策条件的偏差值的截取规则为：

当第二政策条件的偏差值范围在[-1，0]，则第二政策条件的偏差值不进行截取，按照实际计算得到的第二政策条件的偏差值计算符合度。

根据本发明的实施例，企业信息数据与政策文件的符合度通过如下方法计算：

企业信息数据与政策文件的符合度取值范围在[0，100]，当企业信息数据与政策文件的符合度越接近100，则企业信息数据与政策文件的政策条件越符合。当企业信息数据与政策文件的符合度＝100时，则企业信息数据与政策文件完全符合。

最后将计算得到的企业信息数据与政策文件的符合度向企业用户展示。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的政策匹配方法，其特征在于，所述政策匹配方法包括如下方法步骤；

2.根据权利要求1所述的政策匹配方法，其特征在于，在步骤S2中，对收集的N份政策文件进行语句提取包括：

S203、对每一份政策文件的内容按顺序合并为单行内容；

S204、对单行内容切分为多个语句。

3.根据权利要求1所述的政策匹配方法，其特征在于，在步骤S4中，利用标注好的N份政策文件，通过transformer-xl类的长文本编码模型，训练政策分析模型。

4.根据权利要求1所述的政策匹配方法，其特征在于，在步骤S4中，利用每一份政策文件命名实体标注的多个语句，通过BERT+BILSTM+CRF类的模型，训练政策分析模型。

5.根据权利要求1所述的政策匹配方法，其特征在于，在步骤S4中，利用每一份政策文件序列到序列标注的多个语句，通过seq2seq类的序列到序列的翻译模型，训练政策分析模型。

6.根据权利要求1所述的政策匹配方法，其特征在于，在步骤S5中，对待分析的政策文件进行语句提取包括：

S503、对待分析的政策文件的内容按顺序合并为单行内容；

S504、对单行内容切分为多个待分析文件的语句。

7.根据权利要求1所述的政策匹配方法，其特征在于，在步骤S7中，每个第二政策条件的偏差值通过如下方法计算：

对于数值类第二政策条件，其条件偏差＝(Vkey-Vtarget)/Vtarget；

对于文本类第二政策条件，其

其中，VECkey和VECtarget表示经过BERT类的模型计算后的与第二政策条件，与企业信息数据的语义向量。

8.根据权利要求1所述的政策匹配方法，其特征在于，在步骤S8中，每个第二政策条件的偏差值的截取规则为：

9.根据权利要求1所述的政策匹配方法，其特征在于，在步骤S8中，企业信息数据与政策文件的符合度通过如下方法计算：

10.根据权利要求9所述的政策匹配方法，其特征在于，企业信息数据与政策文件的符合度取值范围在[0，100]，当企业信息数据与政策文件的符合度＝100时，则企业信息数据与政策文件完全符合。