CN116304062B

CN116304062B - 一种基于级联深度学习模型的公平竞争审查方法

Info

Publication number: CN116304062B
Application number: CN202310552806.0A
Authority: CN
Inventors: 汪洵; 高永伟
Original assignee: Nanjing Wupu Big Data Co ltd
Current assignee: Nanjing Wupu Big Data Co ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-07-21
Anticipated expiration: 2043-05-17
Also published as: CN116304062A

Abstract

本发明公开了一种基于级联深度学习模型的公平竞争审查方法，采集大量措施方案文本，针对措施方案文本进行数据预处理，对措施方案文本内部标记的相关词汇进行替换，构建Bert语言模型，提取Bert语言模型预训练的措施方案文本特征，采用深度学习算法设计市场主体判断模型、文件类型模型、违规判断模型，将市场主体判断模型、文件类型模型、违规判断模型级联组合形成完整的措施方案文本公平竞争审查模型，旨在采用多任务级联的深度学习算法应用于措施方案文本公平竞争审查任务，将多个模型级联使用，提高措施方案文件的公平竞争审查整体性能，有效地解决了措施方案文件的公平竞争审查问题，有助于保障市场经济的健康发展。

Description

一种基于级联深度学习模型的公平竞争审查方法

技术领域

本发明涉及公平审查领域，具体是一种基于级联深度学习模型的公平竞争审查方法。

背景技术

市场措施方案文件的公平竞争审查旨在促进市场对各种市场主体的平等对待，防止地方保护主义等不公平的市场行为，已有多种方法用于市场措施文件的分析，现有的审查方法对市场环境下不同措施的市场措施文本进行逐一审查，存在人工审查较为繁琐、效果不明显等缺点；

深度学习算法具有在大规模数据上自动学习特征的能力，广泛应用于文本分类、分析、关系筛查等任务。

但目前采用的文本审查算法学习模型存在以下几个缺点：（1）不同类型文件适用条款的不同，不能单一使用一个文件判断模型来进行审查，比如招投标文件和产业发展文件，公平竞争审查对于参与企业的注册地是有不同要求的；（2）对审查文本判断不准确的问题，没有对待审查文本进行多层过滤，当市场主体判断有误时，依旧进行文本审查违规判断，降低了审查效率速度；（3）单个模型独立训练效果的不足，文本审查模型的整体审查效果低下，无法逐句拆分进行特征上比对，难以做出合理的判断。

本申请旨在采用多任务级联的深度学习算法应用于市场措施方案文本公平竞争审查任务，将多个模型级联使用，在训练过程中可以用多任务模型进行训练，多个任务共享同一神经网络层以提高模型学习效果，提高市场措施方案文件的公平竞争审查整体性能，有效地解决了市场措施方案文件的公平竞争审查问题，有助于保障市场经济的健康发展。

发明内容

本发明的目的在于提供一种基于级联深度学习模型的公平竞争审查方法，以解决现有技术中的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于级联深度学习模型的公平竞争审查方法：

S1：采集大量措施方案文本，针对措施方案文本进行数据预处理，提取措施方案文本内部的相关词汇进行标记，对标记词汇进行分析处理；

S2：对措施方案文本内部标记的相关词汇进行替换，构建Bert语言模型，利用大量的措施方案文本替换词汇进行预测，预训练Bert语言模型；

S3：提取Bert语言模型预训练的措施方案文本特征，采用深度学习算法设计市场主体判断模型，采用卷积神经网络对Bert语言模型输出的措施方案文本特征进行分类处理；

S4：提取Bert语言模型预训练的措施方案文本特征，采用深度学习算法设计文件类型模型，使用长短期记忆神经网络结构对Bert语言模型输出的措施方案文本特征判断措施方案文本的类型；

S5：对标记的措施方案文本逐句拆分，通过Bert语言模型预训措施方案文本各语句的特征，采用深度学习算法设计违规判断模型，利用注意力机制和递归神经网络模型实现对措施方案文本的违规语句判断和提取；

S6：将市场主体判断模型、文件类型模型、违规判断模型级联组合形成完整的措施方案文本公平竞争审查模型，对输入的措施方案文件逐层分析、判断和筛选，对措施方案文本进行公平竞争审查，得出措施方案文本是否具有公平竞争性质。

进一步设置：S1中，采集大量措施方案文本，针对措施方案文本进行数据预处理，提取措施方案文本内部的相关词汇进行标记，对标记词汇进行分析处理，还包括以下步骤：

S11：对上传采集的大量措施方案文本根据不同政策措施进行筛查分类，对分类后的措施方案文本内部相关词汇进行标记，对标记后的措施方案文件内部的相关词汇进行数据预处理，数据预处理包括分词、停用词过滤、词向量编码；

S12：将措施方案文本内部标记的词汇进行重复率审查，当不同措施方案文本内部标记的词汇重复率大于设定阈值，且该不同措施方案文本同属于同一政策措施分类，对该措施方案文本进行全部二次标记，进行删除预警。

进一步设置：S2中，对措施方案文本内部标记的相关词汇进行替换，构建Bert语言模型，利用大量的措施方案文本替换词汇进行预测，预训练Bert语言模型，还包括以下步骤：

S21：随机采用MASK标记替换不同措施方案文本内部的标记词汇，利用构建的Bert语言模型将不同MASK标记表征为向量；

S22：将表征的向量依次通过全连接层，进行预测MASK标记替换的原来的标记词汇字符；

S23：直至Bert语言模型预测准确率大于设定阈值，保存当前Bert模型的参数，将当前Bert模型的参数作为措施方案文本公平竞争审查模型的共享层参数。

进一步设置：S3中，提取Bert语言模型预训练的措施方案文本特征，采用深度学习算法设计市场主体判断模型，采用卷积神经网络对Bert语言模型输出的措施方案文本特征进行分类处理，还包括以下步骤：

S31：对采集筛查的措施方案文本输入Bert语言模型，通过Bert模型共享层提取措施方案文本特征；

S32：将提取措施方案文本特征输入至卷积神经网络全连接层中进行分类，得到最终措施方案文本的分类结果；

S33：根据不同措施方案文本最终分类结果，采用深度学习算法构建市场主体判断模型，分析市场主体判断模型的损失函数，计算市场主体判断模型内部输入的措施方案文本分类数据的损失值，根据公式：

其中，是指级联模型的多个任务中的市场主体判断任务，表示市场主体判断模型的loss函数，n表示样本数量，表示样本的市场主体标签，表示样本的预测值，表示交叉熵损失函数，表示正则化项系数，表示模型参数。

进一步设置：S4中，提取Bert语言模型预训练的措施方案文本特征，采用深度学习算法设计文件类型模型，使用长短期记忆神经网络结构对Bert语言模型输出的措施方案文本特征判断措施方案文本的类型，还包括以下步骤：

S41：对采集筛查的措施方案文本输入Bert语言模型，通过Bert模型共享层提取措施方案文本特征向量；

S42：对措施方案文本特征向量，使用长短期记忆神经网络进行学习，进一步得到特征编码；

S43：采用卷积神经网络全连接层将进一步编码后的特征进行分类，得出输入的措施方案文本的类型；

S44：根据不同措施方案文本的类型，采用深度学习算法构建文件类型模型，分析文件类型模型的损失函数，计算文件类型模型内部输入的措施方案文本类型数据的损失值，根据公式：

其中，是指级联模型的多个子任务中的文件类型判断任务，表示文件类型模型的loss函数，n表示样本数量，表示样本的文件类型标签，表示样本的预测值，表示交叉熵损失函数，表示正则化项系数，表示模型参数。

进一步设置：S5中，对标记的措施方案文本逐句拆分，通过Bert语言模型预训措施方案文本各语句的特征，采用深度学习算法设计违规判断模型，利用注意力机制和递归神经网络模型实现对措施方案文本的违规语句判断和提取，还包括以下步骤：

S51：对采集筛查的大量措施方案文本进行逐句拆分，逐句输入至Bert语言模型，通过Bert模型共享层提取措施方案文本各语句的特征向量；

S52：利用注意力机制提取措施方案文本各语句特征向量中的关键信息，采用递归神经网络学习措施方案文本的依赖关系，得到措施方案文本的语义特征；

S53：采用卷积神经网络全连接层对语义特征进行分类，根据不同措施方案文本的语义特征判断措施方案文本是否涉及违规行为，若发现违规行为，输出违规信息以及违反的规律；

S54：根据输出的措施方案文本违规信息以及违反的规律，采用深度学习算法设计违规判断模型，分析违规判断模型的损失函数，计算违规判断模型内部输入的措施方案文本违规信息以及违反的规律的损失值，根据公式：

其中，是指级联模型的多个子任务中的违规判断任务，表示违规判断模型的loss函数，n表示样本数量，表示样本的违反的规定标签，表示样本的预测值，表示交叉熵损失函数，表示正则化项系数，表示模型参数。

与现有技术相比，本发明的有益效果是：旨在采用多任务级联的深度学习算法应用于措施方案文本公平竞争审查任务，将多个模型级联使用，在训练过程中可以用多任务模型进行训练，多个任务共享同一神经网络层以提高模型学习效果，提高措施方案文件的公平竞争审查整体性能，有效地解决了措施方案文件的公平竞争审查问题，有助于保障市场经济的健康发展。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明一种基于级联深度学习模型的公平竞争审查方法的总体步骤示意图；

图2为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S1具体步骤示意图；

图3为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S2具体步骤示意图；

图4为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S3具体步骤示意图；

图5为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S4具体步骤示意图；

图6为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S5具体步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～6，本发明实施例中，一种基于级联深度学习模型的公平竞争审查方法：

如图2所示，需要具体说明的是，S1还包括以下步骤：

如图3所示，需要具体说明的是，S2还包括以下步骤：

如图4所示，需要具体说明的是，S3还包括以下步骤：

如图5所示，需要具体说明的是，S4还包括以下步骤：

如图6所示，需要具体说明的是，S5还包括以下步骤：

其中，是指级联模型的多个子任务中的违规判断任务，表示违规判断模型的loss函数，n表示样本数量，表示样本的违反的规定标签（完全合规作为一种特例标签），表示样本的预测值，表示交叉熵损失函数，表示正则化项系数，表示模型参数。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于级联深度学习模型的公平竞争审查方法，其特征在于：

2.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法，其特征在于:所述S1中，采集大量措施方案文本，针对措施方案文本进行数据预处理，提取措施方案文本内部的相关词汇进行标记，对标记词汇进行分析处理，还包括以下步骤：

3.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法，其特征在于:所述S2中，对措施方案文本内部标记的相关词汇进行替换，构建Bert语言模型，利用大量的措施方案文本替换词汇进行预测，预训练Bert语言模型，还包括以下步骤：

4.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法，其特征在于:所述S3中，提取Bert语言模型预训练的措施方案文本特征，采用深度学习算法设计市场主体判断模型，采用卷积神经网络对Bert语言模型输出的措施方案文本特征进行分类处理，还包括以下步骤：

；

其中，是指级联模型的多个任务中的市场主体判断任务，/>表示市场主体判断模型的loss函数，n表示样本数量，/>表示样本/>的市场主体标签，/>表示样本/>的预测值，/>表示交叉熵损失函数，/>表示正则化项系数，/>表示模型参数。

5.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法，其特征在于:所述S4中，提取Bert语言模型预训练的措施方案文本特征，采用深度学习算法设计文件类型模型，使用长短期记忆神经网络结构对Bert语言模型输出的措施方案文本特征判断措施方案文本的类型，还包括以下步骤：

；

其中，是指级联模型的多个子任务中的文件类型判断任务，/>表示文件类型模型的loss函数，n表示样本数量，/>表示样本/>的文件类型标签，/>表示样本/>的预测值，/>表示交叉熵损失函数，/>表示正则化项系数，/>表示模型参数。

6.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法，其特征在于:所述S5中，对标记的措施方案文本逐句拆分，通过Bert语言模型预训措施方案文本各语句的特征，采用深度学习算法设计违规判断模型，利用注意力机制和递归神经网络模型实现对措施方案文本的违规语句判断和提取，还包括以下步骤：

；

其中，是指级联模型的多个子任务中的违规判断任务，/>表示违规判断模型的loss函数，n表示样本数量，/>表示样本/>的违反的规定标签，/>表示样本/>的预测值，/>表示交叉熵损失函数，/>表示正则化项系数，/>表示模型参数。