CN113139609B - 基于闭环反馈的模型校正方法、装置和计算机设备 - Google Patents
基于闭环反馈的模型校正方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113139609B CN113139609B CN202110475175.8A CN202110475175A CN113139609B CN 113139609 B CN113139609 B CN 113139609B CN 202110475175 A CN202110475175 A CN 202110475175A CN 113139609 B CN113139609 B CN 113139609B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- layer
- feature
- detection model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 234
- 238000001514 detection method Methods 0.000 claims abstract description 163
- 238000000605 extraction Methods 0.000 claims abstract description 97
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 71
- 238000013527 convolutional neural network Methods 0.000 claims description 70
- 239000000284 extract Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及人工智能技术领域,提供一种基于闭环反馈的模型校正方法、装置、计算机设备和存储介质,基于检测模型的特征提取层提取校正样本的第一特征向量,以及基于所述检测模型的隐藏层提取第二特征向量;基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量;进而将所述检测模型特征提取层提取的第一特征向量替换为所述第三特征向量,以及将所述检测模型的隐藏层提取的第二特征向量替换为所述第三特征向量,并基于反向传播算法,对所述检测模型进行校正。本申请从从模型的特征空间和概率空间进行修正,从而反向传播,对模型进行校正。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种基于闭环反馈的模型校正方法、装置、计算机设备和存储介质。
背景技术
目前,人工智能领域的翘楚非深度学习模型莫属,例如视觉中的卷积神经网络,自然语言处理领域的BERT、GPT等。对于这些深度学习模型,以统计概率分布为数理基础,通过矩阵计算实现,完成输入样本空间到特征空间再到概率空间的转换映射。但整个端到端过程往往如同“黑盒子”,对于具体的业务场景不可控,往往在训练完毕之后才可以结合具体场景评测。
及时快速低成本地完成模型校正,让深度学习模型参数尽快收敛到合适的统计分布,这是深度学习算法的本质追求,能更有效提高模型的精度。现阶段,深度学习的在线学习是对模型进行实时训练,其研究和应用也越来越热,但在线学习依然是从端到端角度喂入模型新的样本数据,更多的是让模型自己从新的输入样本中学习如何调节样本空间、特征空间和概率空间,无法在特征空间和概率空间进行模型校正。这对模型的校正效果不是十分明显,端到端深度学习模型的可控性也不足。
发明内容
本申请的主要目的为提供一种基于闭环反馈的模型校正方法、装置、计算机设备和存储介质,旨在从模型的特征空间和概率空间对模型进行校正。
为实现上述目的,本申请提供了一种基于闭环反馈的模型校正方法,包括以下步骤:
将校正样本输入至离线训练好的检测模型;所述检测模型用于检测文本中的敏感语句,所述检测模型包括提取特征向量的特征提取层以及隐藏层;
基于所述检测模型的特征提取层提取第一特征向量,以及基于所述检测模型的隐藏层提取第二特征向量;
基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量;
将所述检测模型特征提取层提取的第一特征向量替换为所述第三特征向量,以及将所述检测模型的隐藏层提取的第二特征向量替换为所述第三特征向量,并基于反向传播算法,对所述检测模型进行校正。
进一步地,所述将校正样本输入至离线训练好的检测模型的步骤之前,还包括:
获取待过滤敏感语句的数据;其中,所述待过滤敏感语句的数据为初始样本数据;
将所述待过滤敏感语句的数据输入至离线训练好的所述检测模型中,得到第一检测结果;其中,所述检测模型用于检测待过滤敏感语句的数据中的敏感词句;
将所述第一检测结果输入至规则库中进行检测,得到第二检测结果;
基于启发式算法,对所述第二检测结果进行扩充,得到所述校正样本。
进一步地,所述将校正样本输入至离线训练好的检测模型的步骤之前,还包括:
获取训练样本;
将所述训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第四特征向量,以及基于所述卷积神经网络的隐藏层提取第五特征向量;
将所述第四特征向量以及第五特征向量分别输入至解码网络中,得到对应的第一解码训练样本与第二解码训练样本;
将所述第一解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第六特征向量,以及基于所述卷积神经网络的隐藏层提取第七特征向量;
将所述第二解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第八特征向量,以及基于所述卷积神经网络的隐藏层提取第九特征向量;
将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述卷积神经网络的分类层中,并基于反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,训练得到所述检测模型;其中,所述监测模型由特征提取层、隐藏层与分类层构成。
进一步地,所述分类层包括全连接层,所述分类层所使用的损失函数是交叉熵损失函数。
进一步地,所述将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述卷积神经网络的分类层中,并基于反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,训练得到所述检测模型的步骤,包括:
将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的检测模型。
进一步地,所述基于所述检测模型的特征提取层提取第一特征向量的步骤,包括:
分别提取所述校正样本中每一个字的字向量,并将所有字的字向量进行拼接得到第一字向量;
分别提取所述校正样本中每一个句子的向量特征,并将所有句子的向量特征进行拼接得到第一句向量;
将所述第一字向量与所述第一句向量组合,得到所述第一特征向量。
本申请还提供了一种基于闭环反馈的模型校正装置,包括:
输入单元,用于将校正样本输入至离线训练好的检测模型;所述检测模型用于检测文本中的敏感语句,所述检测模型包括提取特征向量的特征提取层以及隐藏层;
第一提取单元,用于基于所述检测模型的特征提取层提取第一特征向量,以及基于所述检测模型的隐藏层提取第二特征向量;
第二提取单元,用于基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量;
校正单元,用于将所述检测模型特征提取层提取的第一特征向量替换为所述第三特征向量,以及将所述检测模型的隐藏层提取的第二特征向量替换为所述第三特征向量,并基于反向传播算法,对所述检测模型进行校正。
进一步地,还包括:
第一获取单元,用于获取待过滤敏感语句的数据;其中,所述待过滤敏感语句的数据为初始样本数据;
第一检测单元,用于将所述待过滤敏感语句的数据输入至离线训练好的所述检测模型中,得到第一检测结果;其中,所述检测模型用于检测待过滤敏感语句的数据中的敏感词句;
第二检测单元,用于将所述第一检测结果输入至规则库中进行检测,得到第二检测结果;
扩充单元,用于基于启发式算法,对所述第二检测结果进行扩充,得到所述校正样本。
进一步地,还包括:
第二获取单元,用于获取训练样本;
第三提取单元,用于将所述训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第四特征向量,以及基于所述卷积神经网络的隐藏层提取第五特征向量;
解码单元,用于将所述第四特征向量以及第五特征向量分别输入至解码网络中,得到对应的第一解码训练样本与第二解码训练样本;
第四提取单元,用于将所述第一解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第六特征向量,以及基于所述卷积神经网络的隐藏层提取第七特征向量;
第五提取单元,用于将所述第二解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第八特征向量,以及基于所述卷积神经网络的隐藏层提取第九特征向量;
训练单元,用于将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述卷积神经网络的分类层中,并基于反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,训练得到所述检测模型;其中,所述监测模型由特征提取层、隐藏层与分类层构成。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的基于闭环反馈的模型校正方法、装置、计算机设备和存储介质,基于检测模型的特征提取层提取校正样本的第一特征向量,以及基于所述检测模型的隐藏层提取第二特征向量;基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量;进而将所述检测模型特征提取层提取的第一特征向量替换为所述第三特征向量,以及将所述检测模型的隐藏层提取的第二特征向量替换为所述第三特征向量,并基于反向传播算法,对所述检测模型进行校正。本申请对特征提取层提取的第一特征向量以及隐藏层提取的第二特征向量进行了校正,实现从模型的特征空间和概率空间进行修正,从而反向传播,对模型进行校正。
附图说明
图1是本申请一实施例中基于闭环反馈的模型校正方法步骤示意图;
图2是本申请一实施例中基于闭环反馈的模型校正装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种基于闭环反馈的模型校正方法,包括以下步骤:
步骤S1,将校正样本输入至离线训练好的检测模型;所述检测模型用于检测文本中的敏感语句,所述检测模型包括提取特征向量的特征提取层以及隐藏层;
步骤S2,基于所述检测模型的特征提取层提取第一特征向量,以及基于所述检测模型的隐藏层提取第二特征向量;
步骤S3,基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量;
步骤S4,将所述检测模型特征提取层提取的第一特征向量替换为所述第三特征向量,以及将所述检测模型的隐藏层提取的第二特征向量替换为所述第三特征向量,并基于反向传播算法,对所述检测模型进行校正。
在本实施例中,上述方法应用于从模型的特征向量空间以及概率空间对模型进行校正。在一具体实施例中,上述检测模型应用于敏感语句过滤的场景中,在对文本数据中的敏感语句进行过滤时,需要先识别出文本数据中的敏感语句,上述预先训练完成的检测模型即是用于从文本数据中检测出敏感语句。而为了提升上述检测模型检测敏感语句的检测准确度,需要对上述检测模型进行校正。
具体地,如上述步骤S1-S2所述的,对于一个校正样本,将其输入到离线训练好的检测模型中,该检测模型至少包括特征提取层以及隐藏层,其分别用于提取特征向量,即由检测模型的特征提取层提取第一特征向量,以及由所述检测模型的隐藏层提取第二特征向量。
但是由于检测模型的效果不同,其检测出的特征向量也会有所不同,因此,可以对上述检测模型的特征提取层以及隐藏层提取层的特征向量进行修正,从而实现对检测模型的校正。
具体地,如上述步骤S3-S4所述的,基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量,该第三特征向量是一个较为准确的特征向量,其具有较高的参考意义。因此,可以将其作为一个参考标准,将其替换上述检测模型特征提取层提取的第一特征向量,以及检测模型的隐藏层提取的第二特征向量;最后,再基于反向传播算法,重新调整上述检测模型的模型参数,从而实现对检测模型的校正。
在本实施例中,通过从模型的特征向量空间以及概率空间对模型进行校正,相对端到端的在线增量训练,能及时快速低成本地完成模型校正,让深度学习模型参数尽快收敛到合适的统计分布,能更有效提高模型的精度。
在一实施例中,所述将校正样本输入至离线训练好的检测模型的步骤S1之前,还包括:
步骤S11,获取待过滤敏感语句的数据;其中,所述待过滤敏感语句的数据为初始样本数据;
步骤S12,将所述待过滤敏感语句的数据输入至离线训练好的所述检测模型中,得到第一检测结果;其中,所述检测模型用于检测待过滤敏感语句的数据中的敏感词句;
步骤S13,将所述第一检测结果输入至规则库中进行检测,得到第二检测结果;
步骤S14,基于启发式算法,对所述第二检测结果进行扩充,得到所述校正样本。
在本实施例中,还可以从样本空间进行校正,具体地,在过滤敏感语句的业务场景中,所使用的初始样本数据为待过滤敏感语句的数据,在该场景中,上述数据可能存在样本数量少、样本不准确的缺陷,因此可以从样本空间对样本进行校正。
具体地,针对一个待过滤敏感语句的数据的初始样本数据,同样可以通过上述检测模型对其进行检测获取第一检测结果;进而再通过规则库对第一检测结果进行检测,该规则库可以采用正则匹配,或是预先设定好的逻辑控制的规则漏斗,其检测效果好。检测结果好,其得到的第二检测结果较为准确,可靠性高。由于上述初始样本数据已经经过上述检测模型的计算,因此,其不再适合进行校正,因此需要得到新的数据样本对上述检测模型进行校正。而采用新的数据样本进行检测模型的校正,其校正效果会更好。
因此,基于上述启发式算法,对所述第二检测结果进行扩充,得到所述校正样本。上述启发式算法即是在一个语料库中,采用近似度算法以及HowNet词典,匹配出与上述第二检测结果最为近似的词语作为上述样本。最后,采用扩充得到的校正样本进行检测模型的校正,实现样本空间的校正,对检测模型的校正效果进一步得到提升。
在一实施例中,所述将校正样本输入至离线训练好的检测模型的步骤S1之前,还包括:
步骤S101,获取训练样本;
步骤S102,将所述训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第四特征向量,以及基于所述卷积神经网络的隐藏层提取第五特征向量;
步骤S103,将所述第四特征向量以及第五特征向量分别输入至解码网络中,得到对应的第一解码训练样本与第二解码训练样本;
步骤S104,将所述第一解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第六特征向量,以及基于所述卷积神经网络的隐藏层提取第七特征向量;
步骤S105,将所述第二解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第八特征向量,以及基于所述卷积神经网络的隐藏层提取第九特征向量;
步骤S106,将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述卷积神经网络的分类层中,并基于反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,训练得到所述检测模型;其中,所述监测模型由特征提取层、隐藏层与分类层构成。
在本实施例中,提出一种训练得到上述检测模型的过程。当训练样本的数据量不足时,训练卷积神经网络的效果得不到保障。因此,应当增加训练数据量。在本实施例中,训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第四特征向量,以及基于所述卷积神经网络的隐藏层提取第五特征向量;进而再基于一个预设的解码网络对上述第四特征向量以及第五特征向量进行解码处理;可以理解的是,上述卷积神经网络的特征提取层以及隐藏层的特征提取过程实际上为一个编码过程,而上述解码网络的解码处理过程即是逆向处理。上述解码网络得到对应的第一解码训练样本与第二解码训练样本,即可以作为两个新的训练样本,重新输入到上述卷积神经网络中进行训练,通过上述方式,使得上述检测模型的训练样本的数据量增加了两倍,有益于提升检测模型的训练效果。
在本实施例中,所述分类层包括全连接层,所述分类层所使用的损失函数是交叉熵损失函数。
所述将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述卷积神经网络的分类层中,并基于反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,训练得到所述检测模型的步骤S106,具体包括:
将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的检测模型。
在本实施例的迭代训练过程中,通过分类层预测出分类结果,并通过损失函数计算预测出的分类结果与真实分类结果之间的交叉熵损失值。进而,采用梯度下降的反向传播算法,不断调整分类层、特征提取层、隐藏层以及解码网络的网络参数,即网络权值,以使得最后通过损失函数计算的交叉熵损失值最小化,当该交叉熵损失值不再下降时,模型收敛,此时得到训练完成的所述检测模型。
在一实施例中,上述方法,还包括:
将检测模型、校正样本存储于区块链中。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
在一实施例中,所述基于所述检测模型的特征提取层提取第一特征向量的步骤,包括:
分别提取所述校正样本中每一个字的字向量,并将所有字的字向量进行拼接得到第一字向量;
分别提取所述校正样本中每一个句子的向量特征,并将所有句子的向量特征进行拼接得到第一句向量;
将所述第一字向量与所述第一句向量组合,得到所述第一特征向量。
在本实施例中,分别提取每个字的字向量得到第一字向量,以及提取每个句子的句向量得到第一句向量,并将提取出的第一字向量与所述第一句向量组合,得到所述第一特征向量,不仅使得上述第一特征向量从每个字的维度进行字向量的提取,进一步还在每一个句子的整体维度上向量特征的提取;因此,不仅可以考虑到单个字的敏感程度,还会综合考虑整个句子的敏感程度,提高了特征提取的复杂度以及深度,便于后续的敏感语句检测,有益于提升检测效果。
参照图2,本申请一实施例中还提供了一种基于闭环反馈的模型校正装置,包括:
输入单元10,用于将校正样本输入至离线训练好的检测模型;所述检测模型用于检测文本中的敏感语句,所述检测模型包括提取特征向量的特征提取层以及隐藏层;
第一提取单元20,用于基于所述检测模型的特征提取层提取第一特征向量,以及基于所述检测模型的隐藏层提取第二特征向量;
第二提取单元30,用于基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量;
校正单元40,用于将所述检测模型特征提取层提取的第一特征向量替换为所述第三特征向量,以及将所述检测模型的隐藏层提取的第二特征向量替换为所述第三特征向量,并基于反向传播算法,对所述检测模型进行校正。
在一实施例中,上述装置还包括:
第一获取单元,用于获取待过滤敏感语句的数据;其中,所述待过滤敏感语句的数据为初始样本数据;
第一检测单元,用于将所述待过滤敏感语句的数据输入至离线训练好的所述检测模型中,得到第一检测结果;其中,所述检测模型用于检测待过滤敏感语句的数据中的敏感词句;
第二检测单元,用于将所述第一检测结果输入至规则库中进行检测,得到第二检测结果;
扩充单元,用于基于启发式算法,对所述第二检测结果进行扩充,得到所述校正样本。
在一实施例中,上述装置还包括:
第二获取单元,用于获取训练样本;
第三提取单元,用于将所述训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第四特征向量,以及基于所述卷积神经网络的隐藏层提取第五特征向量;
解码单元,用于将所述第四特征向量以及第五特征向量分别输入至解码网络中,得到对应的第一解码训练样本与第二解码训练样本;
第四提取单元,用于将所述第一解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第六特征向量,以及基于所述卷积神经网络的隐藏层提取第七特征向量;
第五提取单元,用于将所述第二解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第八特征向量,以及基于所述卷积神经网络的隐藏层提取第九特征向量;
训练单元,用于将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述卷积神经网络的分类层中,并基于反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,训练得到所述检测模型;其中,所述监测模型由特征提取层、隐藏层与分类层构成。
在一实施例中,所述分类层包括全连接层,所述分类层所使用的损失函数是交叉熵损失函数。
所述训练单元具体用于:
将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的检测模型。
在本实施例中,上述装置实施例中的各个单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储校正样本等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于闭环反馈的模型校正方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于闭环反馈的模型校正方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的基于闭环反馈的模型校正方法、装置、计算机设备和存储介质,基于检测模型的特征提取层提取校正样本的第一特征向量,以及基于所述检测模型的隐藏层提取第二特征向量;基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量;进而将所述检测模型特征提取层提取的第一特征向量替换为所述第三特征向量,以及将所述检测模型的隐藏层提取的第二特征向量替换为所述第三特征向量,并基于反向传播算法,对所述检测模型进行校正。本申请对特征提取层提取的第一特征向量以及隐藏层提取的第二特征向量进行了校正,实现从模型的特征空间和概率空间进行修正,从而反向传播,对模型进行校正。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种基于闭环反馈的模型校正方法,其特征在于,包括以下步骤:
将校正样本输入至离线训练好的检测模型;所述检测模型用于检测文本中的敏感语句,所述检测模型包括提取特征向量的特征提取层以及隐藏层;
基于所述检测模型的特征提取层提取第一特征向量,以及基于所述检测模型的隐藏层提取第二特征向量;
基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量;
将所述检测模型特征提取层提取的第一特征向量替换为所述第三特征向量,以及将所述检测模型的隐藏层提取的第二特征向量替换为所述第三特征向量,并基于反向传播算法,对所述检测模型进行校正;
所述将校正样本输入至离线训练好的检测模型的步骤之前,还包括:
获取待过滤敏感语句的数据;其中,所述待过滤敏感语句的数据为初始样本数据;
将所述待过滤敏感语句的数据输入至离线训练好的所述检测模型中,得到第一检测结果;其中,所述检测模型用于检测待过滤敏感语句的数据中的敏感词句;
将所述第一检测结果输入至规则库中进行检测,得到第二检测结果;
基于启发式算法,对所述第二检测结果进行扩充,得到所述校正样本。
2.根据权利要求1所述的基于闭环反馈的模型校正方法,其特征在于,所述将校正样本输入至离线训练好的检测模型的步骤之前,还包括:
获取训练样本;
将所述训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第四特征向量,以及基于所述卷积神经网络的隐藏层提取第五特征向量;
将所述第四特征向量以及第五特征向量分别输入至解码网络中,得到对应的第一解码训练样本与第二解码训练样本;
将所述第一解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第六特征向量,以及基于所述卷积神经网络的隐藏层提取第七特征向量;
将所述第二解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第八特征向量,以及基于所述卷积神经网络的隐藏层提取第九特征向量;
将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述卷积神经网络的分类层中,并基于反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,训练得到所述检测模型;其中,所述检测模型由特征提取层、隐藏层与分类层构成。
3.根据权利要求2所述的基于闭环反馈的模型校正方法,其特征在于,所述分类层包括全连接层,所述分类层所使用的损失函数是交叉熵损失函数;
所述将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述卷积神经网络的分类层中,并基于反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,训练得到所述检测模型的步骤,包括:
将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的检测模型。
4.根据权利要求1所述的基于闭环反馈的模型校正方法,其特征在于,所述基于所述检测模型的特征提取层提取第一特征向量的步骤,包括:
分别提取所述校正样本中每一个字的字向量,并将所有字的字向量进行拼接得到第一字向量;
分别提取所述校正样本中每一个句子的向量特征,并将所有句子的向量特征进行拼接得到第一句向量;
将所述第一字向量与所述第一句向量组合,得到所述第一特征向量。
5.一种基于闭环反馈的模型校正装置,其特征在于,包括:
输入单元,用于将校正样本输入至离线训练好的检测模型;所述检测模型用于检测文本中的敏感语句,所述检测模型包括提取特征向量的特征提取层以及隐藏层;
第一提取单元,用于基于所述检测模型的特征提取层提取第一特征向量,以及基于所述检测模型的隐藏层提取第二特征向量;
第二提取单元,用于基于相似度计算模型对所述校正样本进行特征提取,得到第三特征向量;
校正单元,用于将所述检测模型特征提取层提取的第一特征向量替换为所述第三特征向量,以及将所述检测模型的隐藏层提取的第二特征向量替换为所述第三特征向量,并基于反向传播算法,对所述检测模型进行校正;
第一获取单元,用于获取待过滤敏感语句的数据;其中,所述待过滤敏感语句的数据为初始样本数据;
第一检测单元,用于将所述待过滤敏感语句的数据输入至离线训练好的所述检测模型中,得到第一检测结果;其中,所述检测模型用于检测待过滤敏感语句的数据中的敏感词句;
第二检测单元,用于将所述第一检测结果输入至规则库中进行检测,得到第二检测结果;
扩充单元,用于基于启发式算法,对所述第二检测结果进行扩充,得到所述校正样本。
6.根据权利要求5所述的基于闭环反馈的模型校正装置,其特征在于,还包括:
第二获取单元,用于获取训练样本;
第三提取单元,用于将所述训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第四特征向量,以及基于所述卷积神经网络的隐藏层提取第五特征向量;
解码单元,用于将所述第四特征向量以及第五特征向量分别输入至解码网络中,得到对应的第一解码训练样本与第二解码训练样本;
第四提取单元,用于将所述第一解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第六特征向量,以及基于所述卷积神经网络的隐藏层提取第七特征向量;
第五提取单元,用于将所述第二解码训练样本输入至预设的卷积神经网络中,基于所述卷积神经网络的特征提取层提取第八特征向量,以及基于所述卷积神经网络的隐藏层提取第九特征向量;
训练单元,用于将所述第四特征向量、第五特征向量、第六特征向量、第七特征向量、第八特征向量、第九特征向量输入至所述卷积神经网络的分类层中,并基于反向传播算法,调整所述分类层、特征提取层、隐藏层以及解码网络的网络参数,训练得到所述检测模型;其中,所述检测模型由特征提取层、隐藏层与分类层构成。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475175.8A CN113139609B (zh) | 2021-04-29 | 2021-04-29 | 基于闭环反馈的模型校正方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475175.8A CN113139609B (zh) | 2021-04-29 | 2021-04-29 | 基于闭环反馈的模型校正方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139609A CN113139609A (zh) | 2021-07-20 |
CN113139609B true CN113139609B (zh) | 2023-12-29 |
Family
ID=76816408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110475175.8A Active CN113139609B (zh) | 2021-04-29 | 2021-04-29 | 基于闭环反馈的模型校正方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139609B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614989A (zh) * | 2018-11-13 | 2019-04-12 | 平安科技(深圳)有限公司 | 快速模型的训练方法、装置、计算机设备及存储介质 |
WO2019105157A1 (zh) * | 2017-11-30 | 2019-06-06 | 腾讯科技(深圳)有限公司 | 摘要描述生成方法、摘要描述模型训练方法和计算机设备 |
WO2020140377A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 神经网络模型训练方法、装置、计算机设备及存储介质 |
CN111898682A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
-
2021
- 2021-04-29 CN CN202110475175.8A patent/CN113139609B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019105157A1 (zh) * | 2017-11-30 | 2019-06-06 | 腾讯科技(深圳)有限公司 | 摘要描述生成方法、摘要描述模型训练方法和计算机设备 |
CN109614989A (zh) * | 2018-11-13 | 2019-04-12 | 平安科技(深圳)有限公司 | 快速模型的训练方法、装置、计算机设备及存储介质 |
WO2020140377A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 神经网络模型训练方法、装置、计算机设备及存储介质 |
CN111898682A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
Non-Patent Citations (1)
Title |
---|
基于支持向量机的模型传递方法研究;熊宇虹;温志渝;梁玉前;陈勤;张波;刘妤;向贤毅;;光谱学与光谱分析(01);第149-152页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113139609A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN112380840B (zh) | 文本纠错方法、装置、设备及介质 | |
CN109783655B (zh) | 一种跨模态检索方法、装置、计算机设备和存储介质 | |
CN109446514B (zh) | 新闻实体识别模型的构建方法、装置和计算机设备 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110263348B (zh) | 翻译方法、装置、计算机设备和存储介质 | |
CN111651992A (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN107844481B (zh) | 识别文本检错方法及装置 | |
CN112651238A (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN111931490B (zh) | 文本纠错方法、装置及存储介质 | |
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN109256216A (zh) | 医学数据处理方法、装置、计算机设备和存储介质 | |
CN113326379B (zh) | 文本分类预测方法、装置、设备及存储介质 | |
CN113849648B (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN111859916B (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN111223476A (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN112084301A (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
CN113449489A (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN112633423A (zh) | 文本识别模型的训练方法、文本识别方法、装置及设备 | |
CN115495553A (zh) | 查询文本排序方法、装置、计算机设备及存储介质 | |
CN114429635A (zh) | 书本管理方法 | |
CN113486140A (zh) | 知识问答的匹配方法、装置、设备及存储介质 | |
CN112395857A (zh) | 基于对话系统的语音文本处理方法、装置、设备及介质 | |
CN114881169A (zh) | 使用随机特征损坏的自监督对比学习 | |
CN113139609B (zh) | 基于闭环反馈的模型校正方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231128 Address after: 730900 6 Renmin Road, Baiyin District, Baiyin City, Gansu Province Applicant after: BAIYIN POWER SUPPLY COMPANY, STATE GRID GANSU ELECTRIC POWER Co. Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant before: PING AN PUHUI ENTERPRISE MANAGEMENT Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |