CN110502976B - 文本识别模型的训练方法及相关产品 - Google Patents

文本识别模型的训练方法及相关产品 Download PDF

Info

Publication number
CN110502976B
CN110502976B CN201910620062.5A CN201910620062A CN110502976B CN 110502976 B CN110502976 B CN 110502976B CN 201910620062 A CN201910620062 A CN 201910620062A CN 110502976 B CN110502976 B CN 110502976B
Authority
CN
China
Prior art keywords
training sample
original training
sample set
disturbance
classification loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910620062.5A
Other languages
English (en)
Other versions
CN110502976A (zh
Inventor
张文泽
张竞尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN201910620062.5A priority Critical patent/CN110502976B/zh
Publication of CN110502976A publication Critical patent/CN110502976A/zh
Application granted granted Critical
Publication of CN110502976B publication Critical patent/CN110502976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种文本识别模型的训练方法及相关产品,该方法包括:对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集;对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集;根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练。本申请实施例有利于提高文本识别模型的鲁棒性。

Description

文本识别模型的训练方法及相关产品
技术领域
本申请涉及人工智能技术领域,具体涉及一种文本识别模型的训练方法及相关产品。
背景技术
随着人工智能技术的发展,人工智能产品应用到生活的各个场景中。例如,SIRI语音、人脸识别、文本识别等等。目前,在应用人工智能技术时,首先对神经网络模型进行训练,将训练后的神经网络模型应用到人工智能设备中,以实现智能识别。但是,在对神经网络模型进行训练时,对训练数据进行微小的扰动就足以改变模型最终的预测结果,从而导致训练出的训练神经网络模型的鲁棒性差,为了提升神经网络模型的稳定性,通常在训练过程中自动对训练样本添加扰动,构建新的训练样本以提升模型精度,但是,目前对训练样本添加扰动都是通过人工标注的方式进行添加,导致整个过程繁琐,而且,人工扰动得到的新训练样本数量有限,优化训练后的神经网络模型的鲁棒性仍然很差。
发明内容
本申请实施例提供了一种文本识别模型的训练方法及相关产品,以期在训练过程中自动生成扰动训练样本,以提升训练后的文本识别模型的鲁棒性。
第一方面,本申请实施例提供一种文本识别模型的训练方法,包括:
对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集;
对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集;
根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练。
第二方面,本申请实施例提供一种文本识别模型的训练装置,包括:
第一扰动单元,用于对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集;
第二扰动单元,用于对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集;
训练单元,用于根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,首先对样本进行扰动,得到扰动样本,利用扰动后的样本和原训练样本对文本识别模型进行优化训练,使训练后的文本识别模型具有适应扰动能力,从而提升文本识别模型的鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本识别模型的训练方法的流程示意图;
图2为本申请实施例提供的另一种文本识别模型的训练方法的流程示意图;
图3为本申请实施例提供的一种文本识别模型的训练装置结构示意图;
图4为本申请实施例提供的一种文本识别模型的训练装置的功能单元组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请中的训练装置可以包括智能手机(如Android手机、iOS手机、WindowsPhone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile InternetDevices,简称:MID)或穿戴式设备等,上述电子设备仅是举例,而非穷举,包含但不限于上述训练装置,当然在实际应用中,上述训练装置还可以包括:智能车载终端、计算机设备等等。
参阅图1,图1为本申请实施例提供的一种文本识别模型的训练方法,该方法应用于训练装置,该方法包括:
101:训练装置对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集。
其中,基于生成对抗样本的原理,对原训练样本进行第一扰动,从而得到对抗样本,对每个原训练样本进行第一扰动后,即可得到第一扰动样本集。
102:训练装置对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集。
其中,基于生成虚拟对抗训练的过程,对原训练样本进行第二扰动,从而得到虚拟对抗样本,对每个原训练样本进行第二扰动后,即可得到第二扰动样本集。
103:训练装置根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练。
可选的,训练装置在得到第一扰动样本集和第二扰动样本集后,扩充了训练样本,得到更加丰富的训练样本集,采用扩充后的训练样本集对文本识别模型进行优化训练,从而提高文本识别模型的鲁棒性。
可以看出,在上述实施例中,首先对样本进行扰动,得到扰动样本,利用扰动后的样本和原训练样本对文本识别模型进行优化训练,使训练后的文本识别模型具有适应扰动能力,从而提升文本识别模型的鲁棒性。
在一些可能的实施方式中,对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集的实现过程可以为:将原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一分类损失;计算所述第一分类损失相对于所述原训练样本的第一偏导数;对所述第一偏导数进行处理,得到第一扰动向量;将所述原训练样本与所述第一扰动向量进行叠加,得到第一扰动样本集。
可选的,原训练样本的表形式为词向量,在每个原训练样本具有监督信息的情况下,通过文本识别模型得到原训练样本的预测结果,并基于原训练样本的监督信息得到第一分类损失,该预测结果为该词向量落入预设词典中每个文本的概率值。
其中,对所述第一偏导数进行处理,得到第一扰动向量的实现过程可以为:对第一偏导数进行归一化处理或者非线性激活处理,将归一化处理或者非线性激活处理后的第一偏导数乘以预设超参数,即可得到第一扰动向量。
具体来讲,假定文本识别模型的损失函数为J(θ;x;y),其中,x为训练样本,y为训练样本x的监督标签,θ为文本识别模型的模型参数,已知沿损失函数的负梯度方向,即
Figure GDA0002777729290000041
是文本识别模型的损失下降最快的方向,也就是说负梯度方向上文本识别模型优化最快,故沿负梯度方向上文本识别模型会往loss减小的方向收敛,但是,扰动是为了增大文本识别模型的损失loss,故为了使扰动对文本识别模型的识别结果产生最大的扰动,则可将正梯度方向(即损失函数相对于原训练样本的偏导数),也就是模型梯度下降最慢的方向定为扰动方向,故可对第一分类损失的偏导数(即正梯度方向)作为扰动方向,基于扰动方向得到第一扰动样本
Figure GDA0002777729290000051
具体参见公式(1);
Figure GDA0002777729290000052
其中,ε为预设超参数,sign为非线性激活函数,即符号函数,x为原训练样本。
可选的,上述公式(1)得到第一扰动样本集的过程主要依赖于原训练样本具有监督信息,如原训练样本不具有监督信息,则无法基于公式(1)得到扰动样本集,下面提供一种在无监督信息得到扰动样本集的过程。
在一些可能的实施方式中,对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集的实现过程可以为:将所述原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一识别结果;对所述原训练样本叠加背景噪声,得到中间训练样本;将所述中间训练样本输入到所述文本识别模型,得到第二识别结果;计算所述第一识别结果和所述第二识别结果的KL散度;确定所述KL散度相对于所述中间训练样本的第二偏导数;对所述第二偏导数进行处理,得到第二扰动向量;将所述原训练样本与所述第二扰动向量进行叠加,得到第二扰动样本集。在本实施例中,如该文本识别模型用于进行无监督学习时,通过对无监督训练样本进行扰动,从而得到扰动,通过扰动样本进行训练,则提高该文本识别模型文本识别的鲁棒性。
其中,上述识别结果为原训练样本落入预设词典中每个文本的概率值。
其中,对所述第二偏导数进行处理,得到第二扰动向量的实现过程可以为:对所述第二偏导数进行归一化处理或者非线性激活处理,将归一化处理或者非线性激活处理的第二偏导数乘以预设超参数,得到第二扰动向量,其非线性激活的激活函数可以为sign、Relu函数,等等。
可选的,由于原训练样本原本不存在监督信息,故可通过文本分类模型对原训练样本进行预测,得到第一识别结果,将该第一识别结果作为该原训练样本的虚拟监督信息,即真实分布。为了对原训练样本进行扰动,先对原训练样本叠加背景噪声,例如,可以叠加一个正态分布的序列,该正态分布用于模拟背景噪声(一般为高斯噪声)对训练样本的干扰,当然,正态分布序列仅为示例说明,还可采用其他添加干扰的方式,不做唯一限定。
然后,将加入干扰后的中间训练样本输入到文本识别模型,得到对中间训练样本的第二识别结果,由于将第一识别结果作为监督信息,所以,可计算第一识别结果和第二识别结果之间的KL散度,具体通过公式(2)计算KL散度:
Figure GDA0002777729290000061
其中,Ladv为KL散度,D为KL散度计算操作,x为原训练样本,
Figure GDA0002777729290000062
为添加正态序列扰动后的中间训练样本,
Figure GDA0002777729290000067
为原训练样本x的预测结果,
Figure GDA0002777729290000063
为中间训练样本
Figure GDA0002777729290000064
的预测结果。
由于,该L散度反映了真实分布和预测分布之间的差值,故可将该KL散度作为中间训练样本对应的损失函数,从而得到文本识别模型对无监督扰动样本进行识别时的分类损失,在有了分类损失后,可对原训练样本进行第二扰动。
基于公式(2)中得到的KL散度,通过公式(3)可得到第二扰动样本集;
Figure GDA0002777729290000065
其中,
Figure GDA0002777729290000066
为第二扰动样本集中的任意一个扰动样本,sign为符号函数,ε为预设超参数。
在一些可能的实施方式中,根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练的实现过程可以为:将所述原训练样本集中的任意一个原训练样本输入到所述文本识别模型,得到第一识别结果和第一分类损失;对所述第一识别结果进行熵值计算,得到第二分类损失,其中,该熵值可以为交叉熵、条件熵或者其他值熵值;将所述第一扰动样本集中的任意一个训练样本输入到所述文本识别模型,得到第三分类损失;将所述第二扰动样本集中的任意一个第二扰动样本输入到所述文本识别模型,得到第三识别结果,计算所述第一识别结果和所述第三识别结果的KL散度,得到第四分类损失;根据预设超参数对所述第一分类损失、所述第二分类损失、所述第三分类损失和所述第四分类损失进行加权计算,得到目标分类损失;基于梯度下降法和所述目标分类损失对所述文本识别模型进行优化训练。
其中,目标分类损失可以通过如下公式(4)计算得到:
Loss=A1*Loss1+A2*Loss2+A3*Loss3+A4*loss4 (4);
其中,Loss为目标分类损失,Loss1、Loss2、Loss3和loss4分别为第一分类损失、第二分类损失、第三分类损失和第四分类损失,A1、A2、A3和A4为分别与第一分类损失、第二分类损失、第三分类损失和第四分类损失对应的预设超参数。
可选的,在使用原训练样本集、第一扰动样本集以及第二扰动本集对文本识别模型进行第一次优化训练优化训练时,设定A1、A2、A3和A4相等均为0.25,则后续优化训练过程中动态调整A1、A2、A3和A4的值,根据每次优化训练得到的分类损失调整,具体为:如分类损失较低的话,则适当调高一点A3和A4的值,如果分类损失较高就调低A3和A4的值,因为如果分类损失较低,即说明文本识别模型的分类精度很高,有可能是过拟合了,所以需要增加他对扰动的鲁棒性,故需要放大对扰动样本的分类损失,如果分类损失较高,即说明文本识别模型的分类精度较低,说明模型不收敛,需训练模型,让模型首先收敛,即需要放大原训练样本的分类损失。
在一些可能的实施方式中,根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练的实现过程可以为:
将所述原训练样本集中的任意一个原训练样本输入到所述文本识别模型,得到第一识别结果和第一分类损失,基于所述第一分类损失对文本识别模型进行更新;对所述第一识别结果进行熵值计算,得到第二分类损失,其中,该熵值可以为交叉熵、条件熵或者其他值熵值,再利用第二分类损失更新当前最新的文本识别模型;将所述第一扰动样本集中的任意一个训练样本输入到所述文本识别模型,得到第三分类损失,使用第三分类损失更新当前最新的文本识别模型;将所述第二扰动样本集中的任意一个第二扰动样本输入到所述文本识别模型,得到第三识别结果,计算所述第一识别结果和所述第三识别结果的KL散度,得到第四分类损失,最后再用第四分类损失更新当前最新的文本识别模型,从而使用四种不同的训练样本对文本识别进行优化训练,以使训练后的文本识别模型可适应多种不同的输入样本,提高文本识别模型的鲁棒性。
应该说明的是,不对训练样本的输入顺序进行限定,例如可先得到第四分类损失,进行优化训练,最后再得到第一分类损失,进行优化训练,上述得到分类损失的顺序仅为举例说明。
在一些可能的实施方式中,所述方法还包括:对所述原训练样本集进行第三扰动,得到第三扰动样本集。
其中,在所述原训练样本集为带有标签的图像集时,该第三扰动可以为:对所述原训练样本集中的任意一个训练样本进行灰度转换、样本剪切,等等,以得到不同环境背景下的原训练,以在训练时,保证文本识别模型,仅提取与文本相关的特征,而忽略与文本无关的特征,例如环境亮度特征。
举例来说,文本识别模型仅提取与文本相关的特征可以为,如在第一环境亮度下得到一张图像,该图像上包含有文本A和B,如在第二环境亮度下又得到该第张图像,可知该图像上仍然包含有文本A和B,在将两个环境亮度下对应的两张图片分别输入到文本识别模型,文本识别模型都能精确地识别出两张图像上的文本都是A和B,从而提高文本识别模型的适应能力和鲁棒性。
参阅图2,图2为本申请实施例提供的另一种文本识别模型的训练方法,该方法应用于训练装置,该方法包括:
201:训练装置对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集。
其中,基于生成对抗样本的原理,对原训练样本进行第一扰动,从而得到对抗样本,对每个原训练样本进行第一扰动后,即可得到第一扰动样本集。
202:训练装置对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集。
其中,基于生成虚拟对抗训练的过程,对原训练样本进行第二扰动,从而得到虚拟对抗样本,对每个原训练样本进行第二扰动后,即可得到第二扰动样本集。
203:训练装置根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练。
204:训练装置使用最新优化训练后的文本识别模型进行文本识别。
可以看出,在上述实施例中,首先对样本进行扰动,得到扰动样本,利用扰动后的样本和原训练样本对文本识别模型进行优化训练,使训练后的文本识别模型具有适应扰动能力,从而提升文本识别模型的鲁棒性;使用多样本训练后的文本识别识别模型进行文本识别,提高文本识别的精度,并且再出现干扰时,该文本识别模型可适应干扰,避免误识别。
需要说明的是,图2所示的方法的各个步骤的具体实现过程可参见上述图1所述方法的具体实现过程,在此不再叙述。
与上述图1和图2所示的实施例一致的,请参阅图3,图3为本申请实施例提供的一种文本识别模型的训练装置300的结构示意图,如图3所示,训练装置300包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序不同于上述一个或多个应用程序,且上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:
对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集;
对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集;
根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练。
在一些可能的实施方式中,在对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集方面,上述程序具体用于执行以下步骤的指令:
将原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一分类损失;
计算所述第一分类损失相对于所述原训练样本的第一偏导数;
对所述第一偏导数进行处理,得到第一扰动向量;
将所述原训练样本与所述第一扰动向量进行叠加,得到第一扰动样本集。
在一些可能的实施方式中,在对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集方面,上述程序具体用于执行以下步骤的指令:
将所述原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一识别结果;
对所述原训练样本叠加背景噪声,得到中间训练样本;
将所述中间训练样本输入到所述文本识别模型,得到第二识别结果;
计算所述第一识别结果和所述第二识别结果的KL散度;
确定所述KL散度相对于所述中间训练样本的第二偏导数;
对所述第二偏导数进行处理,得到第二扰动向量;
将所述原训练样本与所述第二扰动向量进行叠加,得到第二扰动样本集。
在一些可能的实施方式中,在根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练方面,上述程序具体用于执行以下步骤的指令:
将所述原训练样本集中的任意一个原训练样本输入到所述文本识别模型,得到第一识别结果和第一分类损失;
对所述第一识别结果进行熵值计算,得到第二分类损失;
将所述第一扰动样本集中的任意一个训练样本输入到所述文本识别模型,得到第三分类损失;
将所述第二扰动样本集中的任意一个第二扰动样本输入到所述文本识别模型,得到第三识别结果,计算所述第一识别结果和所述第三识别结果的KL散度,得到第四分类损失;
根据预设超参数对所述第一分类损失、所述第二分类损失、所述第三分类损失和所述第四分类损失进行加权计算,得到目标分类损失;
基于梯度下降法和所述目标分类损失对所述文本识别模型进行优化训练。
在一些可能的实施方式中,上述程序还用于执行以下步骤的指令:
使用最新优化训练后的文本识别模型进行文本识别。
参阅图4,图4示出了上述实施例中所涉及的文本识别模型的训练装置400的一种可能的功能单元组成框图,训练装置400包括:第一扰动单元410、第二扰动单元420和训练单元430,其中:
第一扰动单元410,用于对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集;
第二扰动单元420,用于对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集;
训练单元430,用于根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练。
在一些可能的实施方式中,在对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集方面,训练单元430,具体用于:
将原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一分类损失;
计算所述第一分类损失相对于所述原训练样本的第一偏导数;
对所述第一偏导数进行处理,得到第一扰动向量;
将所述原训练样本与所述第一扰动向量进行叠加,得到第一扰动样本集。
在一些可能的实施方式中,在对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集方面,训练单元430,具体用于:
将所述原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一识别结果;
对所述原训练样本叠加背景噪声,得到中间训练样本;
将所述中间训练样本输入到所述文本识别模型,得到第二识别结果;
计算所述第一识别结果和所述第二识别结果的KL散度;
确定所述KL散度相对于所述中间训练样本的第二偏导数;
对所述第二偏导数进行处理,得到第二扰动向量;
将所述原训练样本与所述第二扰动向量进行叠加,得到第二扰动样本集。
在一些可能的实施方式中,在根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练方面,训练单元430,具体用于:
将所述原训练样本集中的任意一个原训练样本输入到所述文本识别模型,得到第一识别结果和第一分类损失;
对所述第一识别结果进行熵值计算,得到第二分类损失;
将所述第一扰动样本集中的任意一个训练样本输入到所述文本识别模型,得到第三分类损失;
将所述第二扰动样本集中的任意一个第二扰动样本输入到所述文本识别模型,得到第三识别结果,计算所述第一识别结果和所述第三识别结果的KL散度,得到第四分类损失;
根据预设超参数对所述第一分类损失、所述第二分类损失、所述第三分类损失和所述第四分类损失进行加权计算,得到目标分类损失;
基于梯度下降法和所述目标分类损失对所述文本识别模型进行优化训练。
在一些可能的实施方式中,训练装置还包括识别单元440:
识别单元440,用于使用最新优化训练后的文本识别模型进行文本识别。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种文本识别模型的训练方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种文本识别模型的训练方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种文本识别模型的训练方法,其特征在于,包括:
对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集;
对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集;
根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练,具体包括:将所述原训练样本集中的任意一个原训练样本输入到所述文本识别模型,得到第一识别结果和第一分类损失;对所述第一识别结果进行熵值计算,得到第二分类损失;将所述第一扰动样本集中的任意一个训练样本输入到所述文本识别模型,得到第三分类损失;将所述第二扰动样本集中的任意一个第二扰动样本输入到所述文本识别模型,得到第三识别结果,计算所述第一识别结果和所述第三识别结果的KL散度,得到第四分类损失;根据预设超参数对所述第一分类损失、所述第二分类损失、所述第三分类损失和所述第四分类损失进行加权计算,得到目标分类损失;基于梯度下降法和所述目标分类损失对所述文本识别模型进行优化训练。
2.根据权利要求1所述的方法,其特征在于,所述对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集,包括:
将原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一分类损失;
计算所述第一分类损失相对于所述原训练样本的第一偏导数;
对所述第一偏导数进行处理,得到第一扰动向量;
将所述原训练样本与所述第一扰动向量进行叠加,得到第一扰动样本集。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集,包括:
将所述原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一识别结果;
对所述原训练样本叠加背景噪声,得到中间训练样本;
将所述中间训练样本输入到所述文本识别模型,得到第二识别结果;
计算所述第一识别结果和所述第二识别结果的KL散度;
确定所述KL散度相对于所述中间训练样本的第二偏导数;
对所述第二偏导数进行处理,得到第二扰动向量;
将所述原训练样本与所述第二扰动向量进行叠加,得到第二扰动样本集。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
使用最新优化训练后的文本识别模型进行文本识别。
5.一种文本识别模型的训练装置,其特征在于,包括:
第一扰动单元,用于对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集;
第二扰动单元,用于对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集;
训练单元,用于根据所述原训练样本集、所述第一扰动样本集以及所述第二扰动本集对文本识别模型进行优化训练,具体用于:将所述原训练样本集中的任意一个原训练样本输入到所述文本识别模型,得到第一识别结果和第一分类损失;对所述第一识别结果进行熵值计算,得到第二分类损失;将所述第一扰动样本集中的任意一个训练样本输入到所述文本识别模型,得到第三分类损失;将所述第二扰动样本集中的任意一个第二扰动样本输入到所述文本识别模型,得到第三识别结果,计算所述第一识别结果和所述第三识别结果的KL散度,得到第四分类损失;根据预设超参数对所述第一分类损失、所述第二分类损失、所述第三分类损失和所述第四分类损失进行加权计算,得到目标分类损失;基于梯度下降法和所述目标分类损失对所述文本识别模型进行优化训练。
6.根据权利要求5所述的装置,其特征在于,
在对原训练样本集中的每个原训练样本进行第一扰动,得到第一扰动样本集方面,所述第一扰动单元,具体用于:
将原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一分类损失;
计算所述第一分类损失相对于所述原训练样本的第一偏导数;
对所述第一偏导数进行处理,得到第一扰动向量;
将所述原训练样本与所述第一扰动向量进行叠加,得到第一扰动样本集。
7.根据权利要求5或6所述的装置,其特征在于,
在对所述原训练样本集中的每个原训练样本进行第二扰动,得到第二扰动样本集方面,所述第二扰动单元,具体用于:
将所述原训练样本集中的任意一个原训练样本输入到文本分类模型,得到与所述原训练样本对应的第一识别结果;
对所述原训练样本叠加背景噪声,得到中间训练样本;
将所述中间训练样本输入到所述文本识别模型,得到第二识别结果;
计算所述第一识别结果和所述第二识别结果的KL散度;
确定所述KL散度相对于所述中间训练样本的第二偏导数;
对所述第二偏导数进行处理,得到第二扰动向量;
将所述原训练样本与所述第二扰动向量进行叠加,得到第二扰动样本集。
8.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-4任一项方法中的步骤的指令。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-4任一项所述的方法。
CN201910620062.5A 2019-07-10 2019-07-10 文本识别模型的训练方法及相关产品 Active CN110502976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910620062.5A CN110502976B (zh) 2019-07-10 2019-07-10 文本识别模型的训练方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910620062.5A CN110502976B (zh) 2019-07-10 2019-07-10 文本识别模型的训练方法及相关产品

Publications (2)

Publication Number Publication Date
CN110502976A CN110502976A (zh) 2019-11-26
CN110502976B true CN110502976B (zh) 2021-02-26

Family

ID=68585598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910620062.5A Active CN110502976B (zh) 2019-07-10 2019-07-10 文本识别模型的训练方法及相关产品

Country Status (1)

Country Link
CN (1) CN110502976B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941824B (zh) * 2019-12-12 2022-01-28 支付宝(杭州)信息技术有限公司 一种基于对抗样本增强模型抗攻击能力的方法和系统
CN111401415A (zh) * 2020-03-02 2020-07-10 北京三快在线科技有限公司 计算机视觉任务模型的训练方法、装置、设备和存储介质
CN113408558B (zh) * 2020-03-17 2024-03-08 百度在线网络技术(北京)有限公司 用于模型验证的方法、装置、设备和介质
CN111767405B (zh) * 2020-07-30 2023-12-08 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN112199479A (zh) * 2020-09-15 2021-01-08 北京捷通华声科技股份有限公司 优化语言语义理解模型方法、装置、设备及存储介质
CN113807337B (zh) * 2021-08-17 2022-09-06 厦门市美亚柏科信息股份有限公司 一种基于图连通的文本检测方法、终端设备及存储介质
CN114091577B (zh) * 2021-11-02 2022-12-16 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品
CN114896986B (zh) * 2022-06-07 2024-04-05 北京百度网讯科技有限公司 增强语义识别模型的训练数据的方法和装置
CN116913259B (zh) * 2023-09-08 2023-12-15 中国电子科技集团公司第十五研究所 结合梯度引导的语音识别对抗防御方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805185A (zh) * 2018-05-29 2018-11-13 腾讯科技(深圳)有限公司 模型的训练方法、装置、存储介质及计算机设备
CN109471944A (zh) * 2018-11-12 2019-03-15 中山大学 文本分类模型的训练方法、装置及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805185A (zh) * 2018-05-29 2018-11-13 腾讯科技(深圳)有限公司 模型的训练方法、装置、存储介质及计算机设备
CN109471944A (zh) * 2018-11-12 2019-03-15 中山大学 文本分类模型的训练方法、装置及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Explaining and Harnessing Adversarial Examples";Ian J. Goodfellow等;《ICLR2015》;20150320;第4节 *
"VAT(虚拟对抗训练)论文解读";TwistedW;《http://www.twistedwg.com/2018/12/04/VAT.html》;20181204;第1页第1-6行、倒数第1-10行,第2页第1-4行 *
"Virtual Adversarial Training:A Regularization Method for Supervised and Semi-Supervised Learning";Takeru Miyato等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20180723;第41卷(第8期);第3.1、3.2节 *

Also Published As

Publication number Publication date
CN110502976A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110502976B (zh) 文本识别模型的训练方法及相关产品
CN105426356B (zh) 一种目标信息识别方法和装置
CN112016553B (zh) 光学字符识别(ocr)系统、自动ocr更正系统、方法
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111241287A (zh) 用于生成对抗文本的生成模型的训练方法及装置
CN110362814B (zh) 一种基于改进损失函数的命名实体识别方法及装置
CN114462489A (zh) 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质
CN111324810A (zh) 一种信息过滤方法、装置及电子设备
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN110598869A (zh) 基于序列模型的分类方法、装置、电子设备
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN113378826B (zh) 一种数据处理方法、装置、设备及存储介质
CN113434630B (zh) 客服服务评估方法、装置、终端设备及介质
CN112016281B (zh) 错误医疗文本的生成方法、装置及存储介质
CN115131600A (zh) 检测模型训练方法、检测方法、装置、设备及存储介质
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
CN115204381A (zh) 弱监督模型训练方法及装置、电子设备
CN112183631A (zh) 一种意图分类模型建立的方法和终端
CN114020922B (zh) 文本分类方法、装置及存储介质
CN113705244B (zh) 对抗文本样本生成方法、装置与存储介质
CN114942980B (zh) 一种确定文本匹配方法及装置
CN113806542B (zh) 文本分析方法及系统
CN117951294A (zh) 文本分类模型的训练方法、文本分类方法及相关装置
CN116975579A (zh) 文本分类模型的训练方法、文本分类方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant