CN111401374A - 基于多任务的模型训练方法、字符识别方法及装置 - Google Patents
基于多任务的模型训练方法、字符识别方法及装置 Download PDFInfo
- Publication number
- CN111401374A CN111401374A CN202010151852.6A CN202010151852A CN111401374A CN 111401374 A CN111401374 A CN 111401374A CN 202010151852 A CN202010151852 A CN 202010151852A CN 111401374 A CN111401374 A CN 111401374A
- Authority
- CN
- China
- Prior art keywords
- model
- loss
- neural network
- training
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims description 60
- 238000013145 classification model Methods 0.000 claims description 56
- 238000012795 verification Methods 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 14
- 238000011478 gradient descent method Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 201000006352 oculocerebrorenal syndrome Diseases 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例公开了一种字符模型的训练方法,包括:获取训练样本;所述训练样本为包含字符的图片;对训练样本进行预处理;采用编码器提取训练样本中字符的特征;将提取到的训练样本的字符特征分别输入到CTC模型和注意力模型中进行解码操作,并获取CT模型的损失以及注意力模型的损失;基于CT模型的损失以及注意力模型的损失,计算联合损失;基于联合损失对编码器、CTC模型和注意力模型进行训练。这样,结合CTC模型的优势和注意力模型的优势对字符识别模型进行训练,由此不仅可以缩短字符识别模型的训练时间,并且可以得到识别结果更加准确的字符识别模型。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及基于多任务的模型训练方法、字符识别方法及装置。
背景技术
当前,在很多场景下得到的图片都包含字符,例如车牌、从视频中获取到的包含弹幕或者字幕的图片、包含特殊信息的图片等。OCR识别技术的发展,使得从图片中识别出字符变成了可能。
现有技术中,通常采用统计模式识别、结构模式识别和神经网络识别的方法,其中统计模式识别统计字符的整体规律并将统计信息作为字符特征,输入到分类网络中通过判决函数识别,该法对外部条件的鲁棒性不强且计算量过大;结构模式识别方法鲁棒性差且算法复杂而无实用性;神经网络作为一种机器学习的方法,需要经过充足的训练和参数调整后得到的,相对于前两种方式神经网络可以具备很好地泛化能力和正确率。
但是,当前对于神经网络的训练,通常会出现训练费时或者准确度不高的问题。
发明内容
有鉴于此,本发明公开了一种字符识别模型的训练方法、字符识别方法,通过CTC模型和注意力模型作为字符识别模型的解码器,同时执行解码任务,这样提高训练效率、缩短训练时间,并且得到准确率更高的字符识别模型。
本发明实施例公开了一种字符识别模型的训练方法,包括:
获取训练样本;所述训练样本为包含字符的图片;
对所述训练样本进行预处理;
采用编码器提取训练样本中字符的特征;
将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作,并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失;
基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失;
基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。
可选的,所述预设的编码器包括:深度卷积神经网络模型和双向长短记忆网络模型;
所述采用预设的编码器提取训练样本中字符的特征信息,包括:
采用卷积神经网络模型提取所述训练样本中第一特征;
将所述第一特征信息输入到双向长短记忆网络模型中,提取第二特征;所述第二特征为保证各字符之间关联关系的特征。
可选的,所述基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失,包括:
获取CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重;基于CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重,计算CTC神经网络的时序分类模型的损失以及注意力模型的损失的加权和。
可选的,所述基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练,包括:
应用梯度下降方法回传联合损失更新编码器各层的参数;
应用梯度下降方法回传联合损失更新CTC神经网络的时序分类模型各层的参数;
应用梯度下降方法回传联合损失更新注意力模型各层的参数。
可选的,还包括:
获取验证样本;所述验证样本与所述待识别的图片类型一致;
将所述验证样本输入到预先训练的初始的字符识别模型中,得到第一预测结果和第二预测结果;所述第一预测结果是基于CTC神经网络的时序分类模型输出的结果,所述第二预测结果是基于注意力模型输出的结果;所述初始的字符识别模型是通过上述所述的字符识别模型的训练方法得到的;
基于第一预测结果和第二预测结果的准确度,确定执行对待识别的图片进行识别操作的任务模型。
本发明实施例公开了一种字符识别方法,包括:
获取待识别的图片;
将所述待识别的图片进行预处理;
通过预先训练的字符识别模型识别所述预处理后的图片中的字符;所述字符识别模型是通过上述所述的字符识别模型的训练方法得到的。
本发明实施例还公开了一种字符识别模型的训练装置,包括:
第一获取单元,用于获取训练样本;所述训练样本为包含字符的图片;
第一预处理单元,用于对所述训练样本进行预处理;
特征提取单元,用于采用编码器提取训练样本中字符的特征;
多任务解码单元,用于将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作,并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失;
计算单元,用于基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失;
训练单元,用于基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。
可选的,所述预设的编码器包括:深度卷积神经网络模型和双向长短记忆网络模型;
所述特征提取单元,包括:
第一特征提取子单元,用于采用卷积神经网络模型提取所述训练样本中第一特征;
第二特征提取子单元,用于将所述第一特征信息输入到双向长短记忆网络模型中,提取第二特征;所述第二特征为保证各字符之间关联关系的特征。
可选的,还包括:
验证模块,用于:
获取验证样本;所述验证样本与所述待识别的图片类型一致;
将所述验证样本输入到预先训练的初始的字符识别模型中,得到第一预测结果和第二预测结果;所述第一预测结果是基于CTC神经网络的时序分类模型输出的结果,所述第二预测结果是基于注意力模型输出的结果;所述初始的字符识别模型是通过上述所述的字符识别模型的训练方法得到的;
基于第一预测结果和第二预测结果的准确度,确定执行对待识别的图片进行识别操作的任务模型。
本发明实施例公开了一种字符识别装置,包括:
第二获取单元,用于获取待识别的图片;
第二预处理单元,用于将所述待识别的图片进行预处理;
字符识别单元,用于通过预先训练的字符识别模型识别所述预处理后的图片中的字符;所述字符识别模型是通过上述所述字符识别模型的训练方法得到的。
本发明实施例公开了一种字符模型的训练方法、字符识别方法及装置,该训练方法包括:获取训练样本;所述训练样本为包含字符的图片;对训练样本进行预处理;采用编码器提取训练样本中字符的特征;将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作,并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失;基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失;基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。这样,结合CTC模型的优势和注意力模型的优势对字符识别模型进行训练,由此不仅可以缩短字符识别模型的训练时间,并且可以得到识别结果更加准确的字符识别模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的一种基于多任务的模型训练方法的流程示意图;
图2示出了训练过程中字符识别模型的结构示意图;
图3示出了字符识别模型中编码器和解码器的架构;
图4示出了本发明实施例提供的一种识别模型验证方法的流程示意图;
图5示出了本发明实施例提供的一种字符识别方法的流程示意图;
图6示出了本发明实施例提供的一种字符识别模型的训练装置的结构示意图;
图7示出了本发明实施例提供了一种字符识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,示出了本发明实施例提供的一种基于多任务的模型训练方法的流程示意图,在本实施例中,该方法包括:
S101:获取训练样本;所述训练样本为包含字符的图片;
本实施例中,字符可以包括多种形式,本实施例中不进行限定,例如包括文字、字母、数字等。
S102:对所述训练样本进行预处理;
本实施例中,训练样本中的图像,可能存在尺寸不一,或者图像质量不佳等问题,这些问题会对后续图像处理造成影响。因此,为了提高图像处理的效率,可以预先对训练样本进行预处理。
其中,预处理的方法包括很多,本实施例中不进行限定。
例如可以包括如下的步骤:
对训练样本的图像进行尺寸归一化;
将归一化后的图像转换成灰度图像。
本实施例中,归一化后的尺寸可以基于用户的需要进行设置,本实施例中不进行限定。
S103:采用编码器提取训练样本中字符的特征信息;
本实施例中,可以采用多种方式对训练样本中图片的特征进行提取,本实施例中不进行限定,本实施例中由于是识别图片中的字符,需要提取图片中字符的特征。
并且,编码器的形式包括多种,本实施例中不进行限定。
本实施例中,优选的,编码器包括:深度卷积神经网络和BiLSTM双向长短记忆网络模型。
进而,通过编码器可以采用如下的方法进行特征提取,包括:
采用深度卷积神经网络模型提取所述训练样本中第一特征;
将所述第一特征输入到BiLSTM双向长短记忆网络模型中,提取第二特征;所述第二特征用于表征字符之间的关联关系;
其中,通过深度卷积神经网络提取到的字符的第一特征,为与识别字符相关的特征,也可以理解为每个单独字符的特征,例如可以为字符的纹理特征等。
其中,通过BiLSTM模型提取到的第二特征是表征字符之间关联关系的特征。
由此可知,通过深度卷积神经网络提取与字符识别相关的特征,能够抑制与识别不相关的特征以提升泛化能力(如字体,大小,颜色,背景等);并且,通过BiLSTM模型提取字符间的关联关系的特征,这样增强了模型对字符识别的鲁棒性。
除此之外,还编码器可以只包含深度卷积神经网络模型,或者编码器还可以为其它任何一种可以进行字符特征提取的模型。
S103:将提取到的训练样本的字符特征分别输入到CTC神经网络时序分类模型和注意力模型中进行解码操作,并获取CTC模型的损失以及注意力模型的损失;
本实施例中,CTC模型对字符特征进行解码的原理为,通过选择预测结果中每个位置最大的概率输出对应的字符,最终输出图像中的预测字符序列结果。
并且,在预测的过程中,基于图像中实际的字符序列与预测结果的字符序列的差异,计算预测的损失。
本实施例中,CTC模型的优点是训练收敛速度快,适用于较长的序列,但是训练的模型精度欠佳。
本实施例中,注意力模型使得模型具有关注某些局部特征的能力,通过选择预测结果中每个位置最大的概率输出对应的字符,最终输出图像中的预测字符序列结果。
并且,在注意力模型对结果预测的过程中,可以基于图像中实际的字符序列与预测结果中的字符序列的差异,计算预测的损失。
本实施例中,注意力模型对短序列的效果更好,对模型的训练精度较高,但是收敛速度慢。
S104:基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失;
本实施例中,联合损失的计算方法包括多种,本实施例中不进行限定。优选的,可以采用如下的方式计算联合损失:
计算CTC神经网络时序分类模型的损失和注意力模型的损失的加权和;
举例说明:联合损失可以通过如下的公式1)进行计算:
其中λ∈[0,1],λ为加权权重,是一个超参数,取值在0-1之间。
或者,计算CTC神经网络时序分类模型的损失和注意力模型的损失的和。
S105:基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。
本实施例中,在对字符模型训练的过程中,需要基于得到的联合损失对字符模型中编码器和解码器进行训练,本实施例中,解码器包括CTC神经网络的时序分类模型和注意力模型。
其中,基于联合损失对编码器和解码器进行训练的方式包括多种,本实施例中不进行限定。
例如,可以通过梯度下降的方式对编码器和解码器进行训练:
应用梯度下降方法回传联合损失更新编码器各层的参数;
应用梯度下降方法回传联合损失更新CTC神经网络的时序分类模型各层的参数;
应用梯度下降方法回传联合损失更新注意力模型各层的参数。
本实施例中,当编码器包括卷积神经网络和双向长短记忆网络模型时,需要基于联合损失对卷积神经网络和双向长短记忆网络模型进行训练:
应用梯度下降方法回传联合损失更新卷积神经网络的各层参数;
应用梯度下降方法回传联合损失更新长短记忆网络模型的各层参数。
本实施例中,通过多任务学习的方式对字符识别模型进行训练,即在训练的过程中,分别采用CTC模型和注意力模型对字符的特征进行解码操作,并基于这两个并行任务得到的损失确定联合损失,基于联合损失对字符识别模型中的编码器和、CTC模型和注意力模型进行训练,从而得到训练好的字符识别模型。
通过上述的介绍可知,在对字符识别模型进行训练的过程中,字符识别模型如图2所示,可以包括:编码器201和解码器202;
其中,编码器包括:卷积神经网络模型和双向长短记忆网络模型;
解码器包括:CTC模型和注意力模型。
举例说明:字符识别模型中编码器和解码器的架构可以通过图3表示,其中,Shaered Encoder为CTC模型和注意力模型共享的编码器,并将编码器的输出结果分别输出到CTC模型和注意力模型中。
本实施例中,基于上述的方式得到的字符识别模型包括两个解码器,由此会输出两个预测结果,为了进一步得到更加准确的识别结果,在将字符识别模型应用于实际的字符识别之前,需要执行下属的步骤,确定解码器,即确定一个完整的字符识别模型,参考图4,示出了本发明实施例提供的一种识别模型验证方法的流程示意图,包括:
S401:获取验证样本;验证样本为包含字符的图片;
本实施例中,验证样本为包含字符的图片,其中,验证样本可以是训练样本中的图片,也可以与训练样本中不同的图片。
其中,为了得到识别准确率更高的字符识别模型用于实际应用中,在对初始的字符识别模型进行训练时,可以采用与实际识别时类别相同的图片对字符识别模型进行验证。
S402:将所述验证样本输入到预先训练的初始字符识别模型中,得到第一预测结果和第二预测结果;所述第一预测结果是CTC神经网络的时序分类模型输出的结果,所述第二预测结果是所述注意力模型输出的结果;
本实施例中,初始字符识别模型是通过上述S101-S105训练得到的。
需要知道的是,初始字符识别模型的解码器部分包括两部分,分别为CTC神经网络的时序分类模型和注意力模型,在对字符识别的过程中,CTC神经网络的时序分类模型和注意力模型分别输出字符的预测结果。本实施例中,将CTC模型输出的预测结果表示为第一预测结果,注意力模型输出的预测结果表示为第二预测结果。
S403:基于第一预测结果和第二预测结果的准确度,确定最终的字符识别模型;所述最终的字符识别模型中包含CTC神经网络的时序分类模型或者注意力模型。
本实施例中,为了在实际的字符识别时,得到识别准确率较高的结果,可以选取准确度较高的预测结果对应的解码器,即最终的字符识别模型中包含CTC神经网络的时序分类模型或者注意力模型。
其中,当第一预测结果的准确度高于第二预测结果的准确度时,则切断注意力模型的执行,即字符识别模型只保留CTC模型;
当第二预测结果的准确度高于第一预测结果的准确度时,则切断CTC模型的执行,即字符识别模型只保留注意力模型。
本实施例中,通过验证样本对训练的字符识别模型进行验证,并基于CTC模型和注意力模型的预测结果的准确度,从而选用准确度更高的预测结果对应的模型作为字符识别模型的解码器。这样,可以得到识别准确度更高的字符识别模型。
参考图5,示出了本发明实施例提供的一种字符识别方法的流程示意图,在本实施例中,该方法包括:
S501:获取待识别的图片;
本实施例中,待识别的图片可以为包含字符的图片也可以是不包含字符的图片。
S502:将所述待识别的图片进行预处理;
本实施例中,为了提高图像处理的效率,可以预先对训练样本进行预处理。
其中,预处理的方法包括很多,本实施例中不进行限定。
例如可以通过如下的步骤对待识别的图片进行预处理:
对待识别的图像进行尺寸归一化;
将归一化后的图像转换成灰度图像。
本实施例中,归一化后的尺寸可以基于用户的需要进行设置,本实施例中不进行限定。
S503:通过预先训练的字符识别模型识别所述预处理后的图片中的字符;所述字符识别模型是通过上述字符识别模型训练方法得到的;
本实施例中,预先训练的字符识别模型的解码部分为:CTC模型或者注意力模型。
以注意力模型为例,对字符的识别过程进行举例说明:
通过深度卷积神经网络提取待识别的图片中的第一字符特征;
将第一字符特征输入到双向长短记忆网络中,得到第二字符特征;所述第二字符特征表征不同字符之间的关联关系;
基于Attention模块将BiLSTM输出特征解码,得到转码后的预测序列;
将预测序列中的值,每个位置的预测值基于softmax函数计算转化为0到1间的概率分布值;
举例说明:假设字符表共有6000个字符,图片中的字符序列预测有10个字符,则概率分布值结果为10*6000的矩阵。
遍历序列的预测概率,每个位置预测的概率分布选择概率最大的字符即为该位置预测的字符。
举例说明:假设预测序列含10个字符,则遍历10*6000的矩阵,每次选择6000个概率值中最大的那个概率对应的字符,即为该位置预测的结果字符。
本实施例中,基于上述训练好的字符识别模型对图片中的字符进行识别,可以较快的得到处理结果,并且得到的处理结果更加的准确。
参考图6,示出了本发明实施例提供的一种字符识别模型的训练装置的结构示意图,在本实施例中,该装置包括:
第一获取单元601,用于获取训练样本;所述训练样本为包含字符的图片;
第一预处理单元602,用于对所述训练样本进行预处理;
特征提取单元603,用于采用编码器提取训练样本中字符的特征;
多任务解码单元604,用于将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作,并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失;
计算单元605,用于基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失;
训练单元606,用于基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。
可选的,所述预设的编码器包括:深度卷积神经网络模型和双向长短记忆网络模型;
所述特征提取单元,包括:
第一特征提取子单元,用于采用卷积神经网络模型提取所述训练样本中第一特征;
第二特征提取子单元,用于将所述第一特征信息输入到双向长短记忆网络模型中,提取第二特征;所述第二特征为保证各字符之间关联关系的特征。
可选的,所述计算单元包括:
获取子单元,用于获取CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重;
计算子单元,用于基于CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重,计算CTC神经网络的时序分类模型的损失以及注意力模型的损失的加权和。
可选的,训练单元包括:
编码器训练子单元,用于应用梯度下降方法回传联合损失更新编码器各层的参数;
CTC模型训练子单元,用于应用梯度下降方法回传联合损失更新CTC神经网络的时序分类模型各层的参数;
注意力模型训练子单元,用于应用梯度下降方法回传联合损失更新注意力模型各层的参数。
可选的,还包括:
验证模块,用于:
获取验证样本;所述验证样本与所述待识别的图片类型一致;
将所述验证样本输入到预先训练的初始的字符识别模型中,得到第一预测结果和第二预测结果;所述第一预测结果是基于CTC神经网络的时序分类模型输出的结果,所述第二预测结果是基于注意力模型输出的结果;所述初始的字符识别模型是通过上述权利要求1-4所述的方法训练得到的;
基于第一预测结果和第二预测结果的准确度,确定执行对待识别的图片进行识别操作的任务模型。
本实施例的装置,通过多任务学习的方式对字符识别模型进行训练,即在训练的过程中,分别采用CTC模型和注意力模型对字符的特征进行解码操作,并基于这两个并行任务得到的损失确定联合损失,基于联合损失对字符识别模型中的编码器和、CTC模型和注意力模型进行训练,从而得到训练好的字符识别模型。
参考图7,示出了本发明实施例提供了一种字符识别装置的结构示意图,在本实施例中,该装置包括:
第二获取单元701,用于获取待识别的图片;
第二预处理单元702,用于将所述待识别的图片进行预处理;
字符识别单元703,用于通过预先训练的字符识别模型识别所述预处理后的图片中的字符;所述字符识别模型是通过上述所述的字符识别模型的训练方法得到的。
本实施例的装置,基于上述训练好的字符识别模型对图片中的字符进行识别,可以较快的得到处理结果,并且得到的处理结果更加的准确。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种字符识别模型的训练方法,其特征在于,包括:
获取训练样本;所述训练样本为包含字符的图片;
对所述训练样本进行预处理;
采用编码器提取训练样本中字符的特征;
将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作,并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失;
基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失;
基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述预设的编码器包括:深度卷积神经网络模型和双向长短记忆网络模型;
所述采用预设的编码器提取训练样本中字符的特征信息,包括:
采用卷积神经网络模型提取所述训练样本中第一特征;
将所述第一特征信息输入到双向长短记忆网络模型中,提取第二特征;所述第二特征为保证各字符之间关联关系的特征。
3.根据权利要求1所述的方法,其特征在于,所述基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失,包括:
获取CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重;
基于CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重,计算CTC神经网络的时序分类模型的损失以及注意力模型的损失的加权和。
4.根据权利要求1所述的方法,其特征在于,所述基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练,包括:
应用梯度下降方法回传联合损失更新编码器各层的参数;
应用梯度下降方法回传联合损失更新CTC神经网络的时序分类模型各层的参数;
应用梯度下降方法回传联合损失更新注意力模型各层的参数。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取验证样本;所述验证样本与所述待识别的图片类型一致;
将所述验证样本输入到预先训练的初始的字符识别模型中,得到第一预测结果和第二预测结果;所述第一预测结果是基于CTC神经网络的时序分类模型输出的结果,所述第二预测结果是基于注意力模型输出的结果;所述初始的字符识别模型是通过上述权利要求1-5所述的方法训练得到的;
基于第一预测结果和第二预测结果的准确度,确定执行对待识别的图片进行识别操作的任务模型。
6.一种字符识别方法,其特征在于,包括:
获取待识别的图片;
将所述待识别的图片进行预处理;
通过预先训练的字符识别模型识别所述预处理后的图片中的字符;所述字符识别模型是通过上述权利要求1-5所述的方法进行训练得到的。
7.一种字符识别模型的训练装置,其特征在于,包括:
第一获取单元,用于获取训练样本;所述训练样本为包含字符的图片;
第一预处理单元,用于对所述训练样本进行预处理;
特征提取单元,用于采用编码器提取训练样本中字符的特征;
多任务解码单元,用于将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作,并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失;
计算单元,用于基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失;
训练单元,用于基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。
8.根据权利要求1所述的方法,其特征在于,所述预设的编码器包括:深度卷积神经网络模型和双向长短记忆网络模型;
所述特征提取单元,包括:
第一特征提取子单元,用于采用卷积神经网络模型提取所述训练样本中第一特征;
第二特征提取子单元,用于将所述第一特征信息输入到双向长短记忆网络模型中,提取第二特征;所述第二特征为保证各字符之间关联关系的特征。
9.根据权利要求7所述的装置,其特征在于,还包括:
验证模块,用于:
获取验证样本;所述验证样本与所述待识别的图片类型一致;
将所述验证样本输入到预先训练的初始的字符识别模型中,得到第一预测结果和第二预测结果;所述第一预测结果是基于CTC神经网络的时序分类模型输出的结果,所述第二预测结果是基于注意力模型输出的结果;所述初始的字符识别模型是通过上述权利要求1-4所述的方法训练得到的;
基于第一预测结果和第二预测结果的准确度,确定执行对待识别的图片进行识别操作的任务模型。
10.一种字符识别装置,其特征在于,包括:
第二获取单元,用于获取待识别的图片;
第二预处理单元,用于将所述待识别的图片进行预处理;
字符识别单元,用于通过预先训练的字符识别模型识别所述预处理后的图片中的字符;所述字符识别模型是通过上述权利要求1-5所述的方法进行训练得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151852.6A CN111401374A (zh) | 2020-03-06 | 2020-03-06 | 基于多任务的模型训练方法、字符识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151852.6A CN111401374A (zh) | 2020-03-06 | 2020-03-06 | 基于多任务的模型训练方法、字符识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111401374A true CN111401374A (zh) | 2020-07-10 |
Family
ID=71432288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010151852.6A Pending CN111401374A (zh) | 2020-03-06 | 2020-03-06 | 基于多任务的模型训练方法、字符识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401374A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084953A (zh) * | 2020-09-10 | 2020-12-15 | 济南博观智能科技有限公司 | 一种人脸属性识别的方法、系统、设备及可读存储介质 |
CN112288018A (zh) * | 2020-10-30 | 2021-01-29 | 北京市商汤科技开发有限公司 | 文字识别网络的训练方法、文字识别方法和装置 |
CN112560848A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 兴趣点poi预训练模型的训练方法、装置及电子设备 |
CN112749639A (zh) * | 2020-12-29 | 2021-05-04 | 中电金信软件有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN113221959A (zh) * | 2021-04-20 | 2021-08-06 | 上海济辰水数字科技有限公司 | 智能水表图像识别训练方法、智能水表识别系统及方法 |
CN113657391A (zh) * | 2021-08-13 | 2021-11-16 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法、识别文字的方法和装置 |
CN113688822A (zh) * | 2021-09-07 | 2021-11-23 | 河南工业大学 | 一种时序注意力机制场景图像识别方法 |
CN116524521A (zh) * | 2023-06-30 | 2023-08-01 | 武汉纺织大学 | 一种基于深度学习的英文字符识别方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215662A (zh) * | 2018-09-18 | 2019-01-15 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
CN109543681A (zh) * | 2018-11-20 | 2019-03-29 | 中国石油大学(华东) | 一种基于注意力机制的自然场景下文字识别方法 |
CN110276351A (zh) * | 2019-06-28 | 2019-09-24 | 中国科学技术大学 | 多语言场景文本检测与识别方法 |
CN110321755A (zh) * | 2018-03-28 | 2019-10-11 | 中移(苏州)软件技术有限公司 | 一种识别方法及装置 |
CN110390326A (zh) * | 2019-06-14 | 2019-10-29 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN110706690A (zh) * | 2019-09-16 | 2020-01-17 | 平安科技(深圳)有限公司 | 语音识别方法及其装置 |
US20200026951A1 (en) * | 2018-07-19 | 2020-01-23 | Tata Consultancy Services Limited | Systems and methods for end-to-end handwritten text recognition using neural networks |
CN110738262A (zh) * | 2019-10-16 | 2020-01-31 | 北京市商汤科技开发有限公司 | 文本识别方法和相关产品 |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
-
2020
- 2020-03-06 CN CN202010151852.6A patent/CN111401374A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321755A (zh) * | 2018-03-28 | 2019-10-11 | 中移(苏州)软件技术有限公司 | 一种识别方法及装置 |
US20200026951A1 (en) * | 2018-07-19 | 2020-01-23 | Tata Consultancy Services Limited | Systems and methods for end-to-end handwritten text recognition using neural networks |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN109215662A (zh) * | 2018-09-18 | 2019-01-15 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
CN109543681A (zh) * | 2018-11-20 | 2019-03-29 | 中国石油大学(华东) | 一种基于注意力机制的自然场景下文字识别方法 |
CN110390326A (zh) * | 2019-06-14 | 2019-10-29 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN110276351A (zh) * | 2019-06-28 | 2019-09-24 | 中国科学技术大学 | 多语言场景文本检测与识别方法 |
CN110706690A (zh) * | 2019-09-16 | 2020-01-17 | 平安科技(深圳)有限公司 | 语音识别方法及其装置 |
CN110738262A (zh) * | 2019-10-16 | 2020-01-31 | 北京市商汤科技开发有限公司 | 文本识别方法和相关产品 |
Non-Patent Citations (5)
Title |
---|
SUYOUN KIM: "Joint CTC-attention based end-to-end speech recognition using multi-task learning" * |
和文杰: "基于深度神经网络的自然场景文本检测与识别算法研究" * |
朱向前;: "基于混合注意力机制和CTC语音识别模型技术研究" * |
武阳;余综;: "基于CNN的扩展混合端到端中文语音识别模型" * |
王孝男: "复杂场景文本段识别" * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084953A (zh) * | 2020-09-10 | 2020-12-15 | 济南博观智能科技有限公司 | 一种人脸属性识别的方法、系统、设备及可读存储介质 |
CN112084953B (zh) * | 2020-09-10 | 2024-05-10 | 济南博观智能科技有限公司 | 一种人脸属性识别的方法、系统、设备及可读存储介质 |
CN112288018A (zh) * | 2020-10-30 | 2021-01-29 | 北京市商汤科技开发有限公司 | 文字识别网络的训练方法、文字识别方法和装置 |
CN112560848A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 兴趣点poi预训练模型的训练方法、装置及电子设备 |
CN112560848B (zh) * | 2020-12-25 | 2024-03-29 | 北京百度网讯科技有限公司 | 兴趣点poi预训练模型的训练方法、装置及电子设备 |
CN112749639A (zh) * | 2020-12-29 | 2021-05-04 | 中电金信软件有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN113221959A (zh) * | 2021-04-20 | 2021-08-06 | 上海济辰水数字科技有限公司 | 智能水表图像识别训练方法、智能水表识别系统及方法 |
CN113657391A (zh) * | 2021-08-13 | 2021-11-16 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法、识别文字的方法和装置 |
CN113688822A (zh) * | 2021-09-07 | 2021-11-23 | 河南工业大学 | 一种时序注意力机制场景图像识别方法 |
CN116524521A (zh) * | 2023-06-30 | 2023-08-01 | 武汉纺织大学 | 一种基于深度学习的英文字符识别方法和系统 |
CN116524521B (zh) * | 2023-06-30 | 2023-09-15 | 武汉纺织大学 | 一种基于深度学习的英文字符识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401374A (zh) | 基于多任务的模型训练方法、字符识别方法及装置 | |
KR102385463B1 (ko) | 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
US11657602B2 (en) | Font identification from imagery | |
Zhang et al. | Too far to see? Not really!—Pedestrian detection with scale-aware localization policy | |
US20220230420A1 (en) | Artificial intelligence-based object detection method and apparatus, device, and storage medium | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN112329760B (zh) | 基于空间变换网络端到端印刷体蒙古文识别翻译的方法 | |
CN112784810B (zh) | 手势识别方法、装置、计算机设备和存储介质 | |
CN108230291B (zh) | 物体识别系统训练方法、物体识别方法、装置和电子设备 | |
CN111368636B (zh) | 目标分类方法、装置、计算机设备和存储介质 | |
CN112528961A (zh) | 一种基于Jetson Nano的视频分析方法 | |
CN113762326A (zh) | 一种数据识别方法、装置、设备及可读存储介质 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN115187456A (zh) | 基于图像强化处理的文本识别方法、装置、设备及介质 | |
Liu et al. | Attentive semantic and perceptual faces completion using self-attention generative adversarial networks | |
CN110503090A (zh) | 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 | |
JP2011170890A (ja) | 顔検出方法および装置並びにプログラム | |
CN116994049A (zh) | 全自动针织横机及其方法 | |
CN114387524B (zh) | 基于多层级二阶表征的小样本学习的图像识别方法和系统 | |
CN116452472A (zh) | 基于语义知识引导的低照度图像增强方法 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN116129417A (zh) | 一种基于低质量图像的数字仪表读数检测方法 | |
CN115587994A (zh) | 基于多视角特征的模型融合图像篡改检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200710 |
|
RJ01 | Rejection of invention patent application after publication |