CN116304062B - 一种基于级联深度学习模型的公平竞争审查方法 - Google Patents
一种基于级联深度学习模型的公平竞争审查方法 Download PDFInfo
- Publication number
- CN116304062B CN116304062B CN202310552806.0A CN202310552806A CN116304062B CN 116304062 B CN116304062 B CN 116304062B CN 202310552806 A CN202310552806 A CN 202310552806A CN 116304062 B CN116304062 B CN 116304062B
- Authority
- CN
- China
- Prior art keywords
- model
- measure scheme
- text
- measure
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013136 deep learning model Methods 0.000 title claims abstract description 19
- 238000013135 deep learning Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于级联深度学习模型的公平竞争审查方法,采集大量措施方案文本,针对措施方案文本进行数据预处理,对措施方案文本内部标记的相关词汇进行替换,构建Bert语言模型,提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计市场主体判断模型、文件类型模型、违规判断模型,将市场主体判断模型、文件类型模型、违规判断模型级联组合形成完整的措施方案文本公平竞争审查模型,旨在采用多任务级联的深度学习算法应用于措施方案文本公平竞争审查任务,将多个模型级联使用,提高措施方案文件的公平竞争审查整体性能,有效地解决了措施方案文件的公平竞争审查问题,有助于保障市场经济的健康发展。
Description
技术领域
本发明涉及公平审查领域,具体是一种基于级联深度学习模型的公平竞争审查方法。
背景技术
市场措施方案文件的公平竞争审查旨在促进市场对各种市场主体的平等对待,防止地方保护主义等不公平的市场行为,已有多种方法用于市场措施文件的分析,现有的审查方法对市场环境下不同措施的市场措施文本进行逐一审查,存在人工审查较为繁琐、效果不明显等缺点;
深度学习算法具有在大规模数据上自动学习特征的能力,广泛应用于文本分类、分析、关系筛查等任务。
但目前采用的文本审查算法学习模型存在以下几个缺点:(1)不同类型文件适用条款的不同,不能单一使用一个文件判断模型来进行审查,比如招投标文件和产业发展文件,公平竞争审查对于参与企业的注册地是有不同要求的;(2)对审查文本判断不准确的问题,没有对待审查文本进行多层过滤,当市场主体判断有误时,依旧进行文本审查违规判断,降低了审查效率速度;(3)单个模型独立训练效果的不足,文本审查模型的整体审查效果低下,无法逐句拆分进行特征上比对,难以做出合理的判断。
本申请旨在采用多任务级联的深度学习算法应用于市场措施方案文本公平竞争审查任务,将多个模型级联使用,在训练过程中可以用多任务模型进行训练,多个任务共享同一神经网络层以提高模型学习效果,提高市场措施方案文件的公平竞争审查整体性能,有效地解决了市场措施方案文件的公平竞争审查问题,有助于保障市场经济的健康发展。
发明内容
本发明的目的在于提供一种基于级联深度学习模型的公平竞争审查方法,以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于级联深度学习模型的公平竞争审查方法:
S1:采集大量措施方案文本,针对措施方案文本进行数据预处理,提取措施方案文本内部的相关词汇进行标记,对标记词汇进行分析处理;
S2:对措施方案文本内部标记的相关词汇进行替换,构建Bert语言模型,利用大量的措施方案文本替换词汇进行预测,预训练Bert语言模型;
S3:提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计市场主体判断模型,采用卷积神经网络对Bert语言模型输出的措施方案文本特征进行分类处理;
S4:提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计文件类型模型,使用长短期记忆神经网络结构对Bert语言模型输出的措施方案文本特征判断措施方案文本的类型;
S5:对标记的措施方案文本逐句拆分,通过Bert语言模型预训措施方案文本各语句的特征,采用深度学习算法设计违规判断模型,利用注意力机制和递归神经网络模型实现对措施方案文本的违规语句判断和提取;
S6:将市场主体判断模型、文件类型模型、违规判断模型级联组合形成完整的措施方案文本公平竞争审查模型,对输入的措施方案文件逐层分析、判断和筛选,对措施方案文本进行公平竞争审查,得出措施方案文本是否具有公平竞争性质。
进一步设置:S1中,采集大量措施方案文本,针对措施方案文本进行数据预处理,提取措施方案文本内部的相关词汇进行标记,对标记词汇进行分析处理,还包括以下步骤:
S11:对上传采集的大量措施方案文本根据不同政策措施进行筛查分类,对分类后的措施方案文本内部相关词汇进行标记,对标记后的措施方案文件内部的相关词汇进行数据预处理,数据预处理包括分词、停用词过滤、词向量编码;
S12:将措施方案文本内部标记的词汇进行重复率审查,当不同措施方案文本内部标记的词汇重复率大于设定阈值,且该不同措施方案文本同属于同一政策措施分类,对该措施方案文本进行全部二次标记,进行删除预警。
进一步设置:S2中,对措施方案文本内部标记的相关词汇进行替换,构建Bert语言模型,利用大量的措施方案文本替换词汇进行预测,预训练Bert语言模型,还包括以下步骤:
S21:随机采用MASK标记替换不同措施方案文本内部的标记词汇,利用构建的Bert语言模型将不同MASK标记表征为向量;
S22:将表征的向量依次通过全连接层,进行预测MASK标记替换的原来的标记词汇字符;
S23:直至Bert语言模型预测准确率大于设定阈值,保存当前Bert模型的参数,将当前Bert模型的参数作为措施方案文本公平竞争审查模型的共享层参数。
进一步设置:S3中,提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计市场主体判断模型,采用卷积神经网络对Bert语言模型输出的措施方案文本特征进行分类处理,还包括以下步骤:
S31:对采集筛查的措施方案文本输入Bert语言模型,通过Bert模型共享层提取措施方案文本特征;
S32:将提取措施方案文本特征输入至卷积神经网络全连接层中进行分类,得到最终措施方案文本的分类结果;
S33:根据不同措施方案文本最终分类结果,采用深度学习算法构建市场主体判断模型,分析市场主体判断模型的损失函数,计算市场主体判断模型内部输入的措施方案文本分类数据的损失值,根据公式:
其中,是指级联模型的多个任务中的市场主体判断任务,表
示市场主体判断模型的loss函数,n表示样本数量,表示样本的市场主体标签,表示样
本的预测值,表示交叉熵损失函数,表示正则化项系数,表示模型参数。
进一步设置:S4中,提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计文件类型模型,使用长短期记忆神经网络结构对Bert语言模型输出的措施方案文本特征判断措施方案文本的类型,还包括以下步骤:
S41:对采集筛查的措施方案文本输入Bert语言模型,通过Bert模型共享层提取措施方案文本特征向量;
S42:对措施方案文本特征向量,使用长短期记忆神经网络进行学习,进一步得到特征编码;
S43:采用卷积神经网络全连接层将进一步编码后的特征进行分类,得出输入的措施方案文本的类型;
S44:根据不同措施方案文本的类型,采用深度学习算法构建文件类型模型,分析文件类型模型的损失函数,计算文件类型模型内部输入的措施方案文本类型数据的损失值,根据公式:
其中,是指级联模型的多个子任务中的文件类型判断任务,
表示文件类型模型的loss函数,n表示样本数量,表示样本的文件类型标签,表示样本的预测值,表示交叉熵损失函数,表示正则化项系数,表示模型参数。
进一步设置:S5中,对标记的措施方案文本逐句拆分,通过Bert语言模型预训措施方案文本各语句的特征,采用深度学习算法设计违规判断模型,利用注意力机制和递归神经网络模型实现对措施方案文本的违规语句判断和提取,还包括以下步骤:
S51:对采集筛查的大量措施方案文本进行逐句拆分,逐句输入至Bert语言模型,通过Bert模型共享层提取措施方案文本各语句的特征向量;
S52:利用注意力机制提取措施方案文本各语句特征向量中的关键信息,采用递归神经网络学习措施方案文本的依赖关系,得到措施方案文本的语义特征;
S53:采用卷积神经网络全连接层对语义特征进行分类,根据不同措施方案文本的语义特征判断措施方案文本是否涉及违规行为,若发现违规行为,输出违规信息以及违反的规律;
S54:根据输出的措施方案文本违规信息以及违反的规律,采用深度学习算法设计违规判断模型,分析违规判断模型的损失函数,计算违规判断模型内部输入的措施方案文本违规信息以及违反的规律的损失值,根据公式:
其中,是指级联模型的多个子任务中的违规判断任务,表示
违规判断模型的loss函数,n表示样本数量,表示样本的违反的规定标签,表示样本
的预测值,表示交叉熵损失函数,表示正则化项系数,表示模型参数。
与现有技术相比,本发明的有益效果是:旨在采用多任务级联的深度学习算法应用于措施方案文本公平竞争审查任务,将多个模型级联使用,在训练过程中可以用多任务模型进行训练,多个任务共享同一神经网络层以提高模型学习效果,提高措施方案文件的公平竞争审查整体性能,有效地解决了措施方案文件的公平竞争审查问题,有助于保障市场经济的健康发展。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1为本发明一种基于级联深度学习模型的公平竞争审查方法的总体步骤示意图;
图2为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S1具体步骤示意图;
图3为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S2具体步骤示意图;
图4为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S3具体步骤示意图;
图5为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S4具体步骤示意图;
图6为本发明一种基于级联深度学习模型的公平竞争审查方法的步骤S5具体步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~6,本发明实施例中,一种基于级联深度学习模型的公平竞争审查方法:
S1:采集大量措施方案文本,针对措施方案文本进行数据预处理,提取措施方案文本内部的相关词汇进行标记,对标记词汇进行分析处理;
如图2所示,需要具体说明的是,S1还包括以下步骤:
S11:对上传采集的大量措施方案文本根据不同政策措施进行筛查分类,对分类后的措施方案文本内部相关词汇进行标记,对标记后的措施方案文件内部的相关词汇进行数据预处理,数据预处理包括分词、停用词过滤、词向量编码;
S12:将措施方案文本内部标记的词汇进行重复率审查,当不同措施方案文本内部标记的词汇重复率大于设定阈值,且该不同措施方案文本同属于同一政策措施分类,对该措施方案文本进行全部二次标记,进行删除预警。
S2:对措施方案文本内部标记的相关词汇进行替换,构建Bert语言模型,利用大量的措施方案文本替换词汇进行预测,预训练Bert语言模型;
如图3所示,需要具体说明的是,S2还包括以下步骤:
S21:随机采用MASK标记替换不同措施方案文本内部的标记词汇,利用构建的Bert语言模型将不同MASK标记表征为向量;
S22:将表征的向量依次通过全连接层,进行预测MASK标记替换的原来的标记词汇字符;
S23:直至Bert语言模型预测准确率大于设定阈值,保存当前Bert模型的参数,将当前Bert模型的参数作为措施方案文本公平竞争审查模型的共享层参数。
S3:提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计市场主体判断模型,采用卷积神经网络对Bert语言模型输出的措施方案文本特征进行分类处理;
如图4所示,需要具体说明的是,S3还包括以下步骤:
S31:对采集筛查的措施方案文本输入Bert语言模型,通过Bert模型共享层提取措施方案文本特征;
S32:将提取措施方案文本特征输入至卷积神经网络全连接层中进行分类,得到最终措施方案文本的分类结果;
S33:根据不同措施方案文本最终分类结果,采用深度学习算法构建市场主体判断模型,分析市场主体判断模型的损失函数,计算市场主体判断模型内部输入的措施方案文本分类数据的损失值,根据公式:
其中,是指级联模型的多个任务中的市场主体判断任务,表
示市场主体判断模型的loss函数,n表示样本数量,表示样本的市场主体标签,表示样
本的预测值,表示交叉熵损失函数,表示正则化项系数,表示模型参数。
S4:提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计文件类型模型,使用长短期记忆神经网络结构对Bert语言模型输出的措施方案文本特征判断措施方案文本的类型;
如图5所示,需要具体说明的是,S4还包括以下步骤:
S41:对采集筛查的措施方案文本输入Bert语言模型,通过Bert模型共享层提取措施方案文本特征向量;
S42:对措施方案文本特征向量,使用长短期记忆神经网络进行学习,进一步得到特征编码;
S43:采用卷积神经网络全连接层将进一步编码后的特征进行分类,得出输入的措施方案文本的类型;
S44:根据不同措施方案文本的类型,采用深度学习算法构建文件类型模型,分析文件类型模型的损失函数,计算文件类型模型内部输入的措施方案文本类型数据的损失值,根据公式:
其中,是指级联模型的多个子任务中的文件类型判断任务,
表示文件类型模型的loss函数,n表示样本数量,表示样本的文件类型标签,表示样本的预测值,表示交叉熵损失函数,表示正则化项系数,表示模型参数。
S5:对标记的措施方案文本逐句拆分,通过Bert语言模型预训措施方案文本各语句的特征,采用深度学习算法设计违规判断模型,利用注意力机制和递归神经网络模型实现对措施方案文本的违规语句判断和提取;
如图6所示,需要具体说明的是,S5还包括以下步骤:
S51:对采集筛查的大量措施方案文本进行逐句拆分,逐句输入至Bert语言模型,通过Bert模型共享层提取措施方案文本各语句的特征向量;
S52:利用注意力机制提取措施方案文本各语句特征向量中的关键信息,采用递归神经网络学习措施方案文本的依赖关系,得到措施方案文本的语义特征;
S53:采用卷积神经网络全连接层对语义特征进行分类,根据不同措施方案文本的语义特征判断措施方案文本是否涉及违规行为,若发现违规行为,输出违规信息以及违反的规律;
S54:根据输出的措施方案文本违规信息以及违反的规律,采用深度学习算法设计违规判断模型,分析违规判断模型的损失函数,计算违规判断模型内部输入的措施方案文本违规信息以及违反的规律的损失值,根据公式:
其中,是指级联模型的多个子任务中的违规判断任务,表示
违规判断模型的loss函数,n表示样本数量,表示样本的违反的规定标签(完全合规作为
一种特例标签),表示样本的预测值,表示交叉熵损失函数,表示正则化项系数,表示模型参数。
S6:将市场主体判断模型、文件类型模型、违规判断模型级联组合形成完整的措施方案文本公平竞争审查模型,对输入的措施方案文件逐层分析、判断和筛选,对措施方案文本进行公平竞争审查,得出措施方案文本是否具有公平竞争性质。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (6)
1.一种基于级联深度学习模型的公平竞争审查方法,其特征在于:
S1:采集大量措施方案文本,针对措施方案文本进行数据预处理,提取措施方案文本内部的相关词汇进行标记,对标记词汇进行分析处理;
S2:对措施方案文本内部标记的相关词汇进行替换,构建Bert语言模型,利用大量的措施方案文本替换词汇进行预测,预训练Bert语言模型;
S3:提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计市场主体判断模型,采用卷积神经网络对Bert语言模型输出的措施方案文本特征进行分类处理;
S4:提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计文件类型模型,使用长短期记忆神经网络结构对Bert语言模型输出的措施方案文本特征判断措施方案文本的类型;
S5:对标记的措施方案文本逐句拆分,通过Bert语言模型预训措施方案文本各语句的特征,采用深度学习算法设计违规判断模型,利用注意力机制和递归神经网络模型实现对措施方案文本的违规语句判断和提取;
S6:将市场主体判断模型、文件类型模型、违规判断模型级联组合形成完整的措施方案文本公平竞争审查模型,对输入的措施方案文件逐层分析、判断和筛选,对措施方案文本进行公平竞争审查,得出措施方案文本是否具有公平竞争性质。
2.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法,其特征在于:所述S1中,采集大量措施方案文本,针对措施方案文本进行数据预处理,提取措施方案文本内部的相关词汇进行标记,对标记词汇进行分析处理,还包括以下步骤:
S11:对上传采集的大量措施方案文本根据不同政策措施进行筛查分类,对分类后的措施方案文本内部相关词汇进行标记,对标记后的措施方案文件内部的相关词汇进行数据预处理,数据预处理包括分词、停用词过滤、词向量编码;
S12:将措施方案文本内部标记的词汇进行重复率审查,当不同措施方案文本内部标记的词汇重复率大于设定阈值,且该不同措施方案文本同属于同一政策措施分类,对该措施方案文本进行全部二次标记,进行删除预警。
3.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法,其特征在于:所述S2中,对措施方案文本内部标记的相关词汇进行替换,构建Bert语言模型,利用大量的措施方案文本替换词汇进行预测,预训练Bert语言模型,还包括以下步骤:
S21:随机采用MASK标记替换不同措施方案文本内部的标记词汇,利用构建的Bert语言模型将不同MASK标记表征为向量;
S22:将表征的向量依次通过全连接层,进行预测MASK标记替换的原来的标记词汇字符;
S23:直至Bert语言模型预测准确率大于设定阈值,保存当前Bert模型的参数,将当前Bert模型的参数作为措施方案文本公平竞争审查模型的共享层参数。
4.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法,其特征在于:所述S3中,提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计市场主体判断模型,采用卷积神经网络对Bert语言模型输出的措施方案文本特征进行分类处理,还包括以下步骤:
S31:对采集筛查的措施方案文本输入Bert语言模型,通过Bert模型共享层提取措施方案文本特征;
S32:将提取措施方案文本特征输入至卷积神经网络全连接层中进行分类,得到最终措施方案文本的分类结果;
S33:根据不同措施方案文本最终分类结果,采用深度学习算法构建市场主体判断模型,分析市场主体判断模型的损失函数,计算市场主体判断模型内部输入的措施方案文本分类数据的损失值,根据公式:
;
其中,是指级联模型的多个任务中的市场主体判断任务,/>表示市场主体判断模型的loss函数,n表示样本数量,/>表示样本/>的市场主体标签,/>表示样本/>的预测值,/>表示交叉熵损失函数,/>表示正则化项系数,/>表示模型参数。
5.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法,其特征在于:所述S4中,提取Bert语言模型预训练的措施方案文本特征,采用深度学习算法设计文件类型模型,使用长短期记忆神经网络结构对Bert语言模型输出的措施方案文本特征判断措施方案文本的类型,还包括以下步骤:
S41:对采集筛查的措施方案文本输入Bert语言模型,通过Bert模型共享层提取措施方案文本特征向量;
S42:对措施方案文本特征向量,使用长短期记忆神经网络进行学习,进一步得到特征编码;
S43:采用卷积神经网络全连接层将进一步编码后的特征进行分类,得出输入的措施方案文本的类型;
S44:根据不同措施方案文本的类型,采用深度学习算法构建文件类型模型,分析文件类型模型的损失函数,计算文件类型模型内部输入的措施方案文本类型数据的损失值,根据公式:
;
其中,是指级联模型的多个子任务中的文件类型判断任务,/>表示文件类型模型的loss函数,n表示样本数量,/>表示样本/>的文件类型标签,/>表示样本/>的预测值,/>表示交叉熵损失函数,/>表示正则化项系数,/>表示模型参数。
6.根据权利要求1所述的一种基于级联深度学习模型的公平竞争审查方法,其特征在于:所述S5中,对标记的措施方案文本逐句拆分,通过Bert语言模型预训措施方案文本各语句的特征,采用深度学习算法设计违规判断模型,利用注意力机制和递归神经网络模型实现对措施方案文本的违规语句判断和提取,还包括以下步骤:
S51:对采集筛查的大量措施方案文本进行逐句拆分,逐句输入至Bert语言模型,通过Bert模型共享层提取措施方案文本各语句的特征向量;
S52:利用注意力机制提取措施方案文本各语句特征向量中的关键信息,采用递归神经网络学习措施方案文本的依赖关系,得到措施方案文本的语义特征;
S53:采用卷积神经网络全连接层对语义特征进行分类,根据不同措施方案文本的语义特征判断措施方案文本是否涉及违规行为,若发现违规行为,输出违规信息以及违反的规律;
S54:根据输出的措施方案文本违规信息以及违反的规律,采用深度学习算法设计违规判断模型,分析违规判断模型的损失函数,计算违规判断模型内部输入的措施方案文本违规信息以及违反的规律的损失值,根据公式:
;
其中,是指级联模型的多个子任务中的违规判断任务,/>表示违规判断模型的loss函数,n表示样本数量,/>表示样本/>的违反的规定标签,/>表示样本/>的预测值,/>表示交叉熵损失函数,/>表示正则化项系数,/>表示模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310552806.0A CN116304062B (zh) | 2023-05-17 | 2023-05-17 | 一种基于级联深度学习模型的公平竞争审查方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310552806.0A CN116304062B (zh) | 2023-05-17 | 2023-05-17 | 一种基于级联深度学习模型的公平竞争审查方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116304062A CN116304062A (zh) | 2023-06-23 |
CN116304062B true CN116304062B (zh) | 2023-07-21 |
Family
ID=86790927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310552806.0A Active CN116304062B (zh) | 2023-05-17 | 2023-05-17 | 一种基于级联深度学习模型的公平竞争审查方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304062B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056518B (zh) * | 2023-08-17 | 2024-07-02 | 天津大学 | 基于任务难度评估和级联优化的立法意见审查系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178718A (zh) * | 2019-12-19 | 2020-05-19 | 海南大学 | 公平竞争审查方法、服务器、系统及存储介质 |
CN111506708A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种文本审核方法、装置、设备和介质 |
CN114548090A (zh) * | 2022-04-26 | 2022-05-27 | 东南大学 | 基于卷积神经网络和改进级联标注的快速关系抽取方法 |
CN114860882A (zh) * | 2022-05-18 | 2022-08-05 | 南京物浦大数据有限公司 | 一种基于文本分类模型的公平竞争审查辅助方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210183484A1 (en) * | 2019-12-06 | 2021-06-17 | Surgical Safety Technologies Inc. | Hierarchical cnn-transformer based machine learning |
-
2023
- 2023-05-17 CN CN202310552806.0A patent/CN116304062B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178718A (zh) * | 2019-12-19 | 2020-05-19 | 海南大学 | 公平竞争审查方法、服务器、系统及存储介质 |
CN111506708A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种文本审核方法、装置、设备和介质 |
CN114548090A (zh) * | 2022-04-26 | 2022-05-27 | 东南大学 | 基于卷积神经网络和改进级联标注的快速关系抽取方法 |
CN114860882A (zh) * | 2022-05-18 | 2022-08-05 | 南京物浦大数据有限公司 | 一种基于文本分类模型的公平竞争审查辅助方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116304062A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN111782807B (zh) | 一种基于多方法集成学习的自承认技术债务检测分类方法 | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN108614855A (zh) | 一种谣言识别方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113282713B (zh) | 基于差异性神经表示模型的事件触发词检测方法 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN116304062B (zh) | 一种基于级联深度学习模型的公平竞争审查方法 | |
CN116187163A (zh) | 一种用于专利文件处理的预训练模型的构建方法及系统 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN115659974A (zh) | 一种基于开源软件供应链的软件安全舆情事件抽取方法与装置 | |
CN114372470B (zh) | 基于边界检测和提示学习的中文法律文本实体识别方法 | |
CN114860882A (zh) | 一种基于文本分类模型的公平竞争审查辅助方法 | |
CN118332138B (zh) | 一种航行通告文本处理方法、计算机程序产品及终端 | |
Garlapati et al. | Classification of Toxicity in Comments using NLP and LSTM | |
CN117333146A (zh) | 基于人工智能的人力资源管理系统及方法 | |
CN114925687B (zh) | 一种基于动态词向量表征的中文作文评分方法及系统 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
Cordell et al. | Disaggregating repression: Identifying physical integrity rights allegations in human rights reports | |
CN112667819A (zh) | 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置 | |
CN112527866A (zh) | 基于文本摘要情感挖掘的股票趋势预测方法和系统 | |
CN115496630A (zh) | 一种基于自然语言算法的专利撰写质量核检方法以及系统 | |
CN112163423B (zh) | 一种检察案件办理工作量计算方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |