CN111401374A

CN111401374A - 基于多任务的模型训练方法、字符识别方法及装置

Info

Publication number: CN111401374A
Application number: CN202010151852.6A
Authority: CN
Inventors: 吴红; 欧阳潘义; 向钊豫
Original assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Current assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-10

Abstract

本发明实施例公开了一种字符模型的训练方法，包括：获取训练样本；所述训练样本为包含字符的图片；对训练样本进行预处理；采用编码器提取训练样本中字符的特征；将提取到的训练样本的字符特征分别输入到CTC模型和注意力模型中进行解码操作，并获取CT模型的损失以及注意力模型的损失；基于CT模型的损失以及注意力模型的损失，计算联合损失；基于联合损失对编码器、CTC模型和注意力模型进行训练。这样，结合CTC模型的优势和注意力模型的优势对字符识别模型进行训练，由此不仅可以缩短字符识别模型的训练时间，并且可以得到识别结果更加准确的字符识别模型。

Description

基于多任务的模型训练方法、字符识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及基于多任务的模型训练方法、字符识别方法及装置。

背景技术

当前，在很多场景下得到的图片都包含字符，例如车牌、从视频中获取到的包含弹幕或者字幕的图片、包含特殊信息的图片等。OCR识别技术的发展，使得从图片中识别出字符变成了可能。

现有技术中，通常采用统计模式识别、结构模式识别和神经网络识别的方法，其中统计模式识别统计字符的整体规律并将统计信息作为字符特征，输入到分类网络中通过判决函数识别，该法对外部条件的鲁棒性不强且计算量过大；结构模式识别方法鲁棒性差且算法复杂而无实用性；神经网络作为一种机器学习的方法，需要经过充足的训练和参数调整后得到的，相对于前两种方式神经网络可以具备很好地泛化能力和正确率。

但是，当前对于神经网络的训练，通常会出现训练费时或者准确度不高的问题。

发明内容

有鉴于此，本发明公开了一种字符识别模型的训练方法、字符识别方法，通过CTC模型和注意力模型作为字符识别模型的解码器，同时执行解码任务，这样提高训练效率、缩短训练时间，并且得到准确率更高的字符识别模型。

本发明实施例公开了一种字符识别模型的训练方法，包括：

获取训练样本；所述训练样本为包含字符的图片；

对所述训练样本进行预处理；

采用编码器提取训练样本中字符的特征；

将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作，并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失；

基于CTC神经网络的时序分类模型的损失以及注意力模型的损失，计算联合损失；

基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。

可选的，所述预设的编码器包括：深度卷积神经网络模型和双向长短记忆网络模型；

所述采用预设的编码器提取训练样本中字符的特征信息，包括：

采用卷积神经网络模型提取所述训练样本中第一特征；

将所述第一特征信息输入到双向长短记忆网络模型中，提取第二特征；所述第二特征为保证各字符之间关联关系的特征。

可选的，所述基于CTC神经网络的时序分类模型的损失以及注意力模型的损失，计算联合损失，包括：

获取CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重；基于CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重，计算CTC神经网络的时序分类模型的损失以及注意力模型的损失的加权和。

可选的，所述基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练，包括：

应用梯度下降方法回传联合损失更新编码器各层的参数；

应用梯度下降方法回传联合损失更新CTC神经网络的时序分类模型各层的参数；

应用梯度下降方法回传联合损失更新注意力模型各层的参数。

可选的，还包括：

获取验证样本；所述验证样本与所述待识别的图片类型一致；

将所述验证样本输入到预先训练的初始的字符识别模型中，得到第一预测结果和第二预测结果；所述第一预测结果是基于CTC神经网络的时序分类模型输出的结果，所述第二预测结果是基于注意力模型输出的结果；所述初始的字符识别模型是通过上述所述的字符识别模型的训练方法得到的；

基于第一预测结果和第二预测结果的准确度，确定执行对待识别的图片进行识别操作的任务模型。

本发明实施例公开了一种字符识别方法，包括：

获取待识别的图片；

将所述待识别的图片进行预处理；

通过预先训练的字符识别模型识别所述预处理后的图片中的字符；所述字符识别模型是通过上述所述的字符识别模型的训练方法得到的。

本发明实施例还公开了一种字符识别模型的训练装置，包括：

第一获取单元，用于获取训练样本；所述训练样本为包含字符的图片；

第一预处理单元，用于对所述训练样本进行预处理；

特征提取单元，用于采用编码器提取训练样本中字符的特征；

多任务解码单元，用于将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作，并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失；

计算单元，用于基于CTC神经网络的时序分类模型的损失以及注意力模型的损失，计算联合损失；

训练单元，用于基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。

所述特征提取单元，包括：

第一特征提取子单元，用于采用卷积神经网络模型提取所述训练样本中第一特征；

第二特征提取子单元，用于将所述第一特征信息输入到双向长短记忆网络模型中，提取第二特征；所述第二特征为保证各字符之间关联关系的特征。

可选的，还包括：

验证模块，用于：

本发明实施例公开了一种字符识别装置，包括：

第二获取单元，用于获取待识别的图片；

第二预处理单元，用于将所述待识别的图片进行预处理；

字符识别单元，用于通过预先训练的字符识别模型识别所述预处理后的图片中的字符；所述字符识别模型是通过上述所述字符识别模型的训练方法得到的。

本发明实施例公开了一种字符模型的训练方法、字符识别方法及装置，该训练方法包括：获取训练样本；所述训练样本为包含字符的图片；对训练样本进行预处理；采用编码器提取训练样本中字符的特征；将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作，并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失；基于CTC神经网络的时序分类模型的损失以及注意力模型的损失，计算联合损失；基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。这样，结合CTC模型的优势和注意力模型的优势对字符识别模型进行训练，由此不仅可以缩短字符识别模型的训练时间，并且可以得到识别结果更加准确的字符识别模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种基于多任务的模型训练方法的流程示意图；

图2示出了训练过程中字符识别模型的结构示意图；

图3示出了字符识别模型中编码器和解码器的架构；

图4示出了本发明实施例提供的一种识别模型验证方法的流程示意图；

图5示出了本发明实施例提供的一种字符识别方法的流程示意图；

图6示出了本发明实施例提供的一种字符识别模型的训练装置的结构示意图；

图7示出了本发明实施例提供了一种字符识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，示出了本发明实施例提供的一种基于多任务的模型训练方法的流程示意图，在本实施例中，该方法包括：

S101：获取训练样本；所述训练样本为包含字符的图片；

本实施例中，字符可以包括多种形式，本实施例中不进行限定，例如包括文字、字母、数字等。

S102：对所述训练样本进行预处理；

本实施例中，训练样本中的图像，可能存在尺寸不一，或者图像质量不佳等问题，这些问题会对后续图像处理造成影响。因此，为了提高图像处理的效率，可以预先对训练样本进行预处理。

其中，预处理的方法包括很多，本实施例中不进行限定。

例如可以包括如下的步骤：

对训练样本的图像进行尺寸归一化；

将归一化后的图像转换成灰度图像。

本实施例中，归一化后的尺寸可以基于用户的需要进行设置，本实施例中不进行限定。

S103:采用编码器提取训练样本中字符的特征信息；

本实施例中，可以采用多种方式对训练样本中图片的特征进行提取，本实施例中不进行限定，本实施例中由于是识别图片中的字符，需要提取图片中字符的特征。

并且，编码器的形式包括多种，本实施例中不进行限定。

本实施例中，优选的，编码器包括：深度卷积神经网络和BiLSTM双向长短记忆网络模型。

进而，通过编码器可以采用如下的方法进行特征提取，包括：

采用深度卷积神经网络模型提取所述训练样本中第一特征；

将所述第一特征输入到BiLSTM双向长短记忆网络模型中，提取第二特征；所述第二特征用于表征字符之间的关联关系；

其中，通过深度卷积神经网络提取到的字符的第一特征，为与识别字符相关的特征，也可以理解为每个单独字符的特征，例如可以为字符的纹理特征等。

其中，通过BiLSTM模型提取到的第二特征是表征字符之间关联关系的特征。

由此可知，通过深度卷积神经网络提取与字符识别相关的特征，能够抑制与识别不相关的特征以提升泛化能力(如字体，大小，颜色，背景等)；并且，通过BiLSTM模型提取字符间的关联关系的特征，这样增强了模型对字符识别的鲁棒性。

除此之外，还编码器可以只包含深度卷积神经网络模型，或者编码器还可以为其它任何一种可以进行字符特征提取的模型。

S103：将提取到的训练样本的字符特征分别输入到CTC神经网络时序分类模型和注意力模型中进行解码操作，并获取CTC模型的损失以及注意力模型的损失；

本实施例中，CTC模型对字符特征进行解码的原理为，通过选择预测结果中每个位置最大的概率输出对应的字符，最终输出图像中的预测字符序列结果。

并且，在预测的过程中，基于图像中实际的字符序列与预测结果的字符序列的差异，计算预测的损失。

本实施例中，CTC模型的优点是训练收敛速度快，适用于较长的序列，但是训练的模型精度欠佳。

本实施例中，注意力模型使得模型具有关注某些局部特征的能力，通过选择预测结果中每个位置最大的概率输出对应的字符，最终输出图像中的预测字符序列结果。

并且，在注意力模型对结果预测的过程中，可以基于图像中实际的字符序列与预测结果中的字符序列的差异，计算预测的损失。

本实施例中，注意力模型对短序列的效果更好，对模型的训练精度较高，但是收敛速度慢。

S104：基于CTC神经网络的时序分类模型的损失以及注意力模型的损失，计算联合损失；

本实施例中，联合损失的计算方法包括多种，本实施例中不进行限定。优选的，可以采用如下的方式计算联合损失：

计算CTC神经网络时序分类模型的损失和注意力模型的损失的加权和；

举例说明：联合损失可以通过如下的公式1)进行计算：

其中λ∈[0,1]，λ为加权权重，是一个超参数，取值在0-1之间。

其中

表示多任务学习模型的损失函数，

与

分别为CTC与Attention子任务的学习损失。

或者，计算CTC神经网络时序分类模型的损失和注意力模型的损失的和。

S105：基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。

本实施例中，在对字符模型训练的过程中，需要基于得到的联合损失对字符模型中编码器和解码器进行训练，本实施例中，解码器包括CTC神经网络的时序分类模型和注意力模型。

其中，基于联合损失对编码器和解码器进行训练的方式包括多种，本实施例中不进行限定。

例如，可以通过梯度下降的方式对编码器和解码器进行训练：

应用梯度下降方法回传联合损失更新编码器各层的参数；

本实施例中，当编码器包括卷积神经网络和双向长短记忆网络模型时，需要基于联合损失对卷积神经网络和双向长短记忆网络模型进行训练：

应用梯度下降方法回传联合损失更新卷积神经网络的各层参数；

应用梯度下降方法回传联合损失更新长短记忆网络模型的各层参数。

本实施例中，通过多任务学习的方式对字符识别模型进行训练，即在训练的过程中，分别采用CTC模型和注意力模型对字符的特征进行解码操作，并基于这两个并行任务得到的损失确定联合损失，基于联合损失对字符识别模型中的编码器和、CTC模型和注意力模型进行训练，从而得到训练好的字符识别模型。

通过上述的介绍可知，在对字符识别模型进行训练的过程中，字符识别模型如图2所示，可以包括：编码器201和解码器202；

其中，编码器包括：卷积神经网络模型和双向长短记忆网络模型；

解码器包括：CTC模型和注意力模型。

举例说明：字符识别模型中编码器和解码器的架构可以通过图3表示，其中，Shaered Encoder为CTC模型和注意力模型共享的编码器，并将编码器的输出结果分别输出到CTC模型和注意力模型中。

本实施例中，基于上述的方式得到的字符识别模型包括两个解码器，由此会输出两个预测结果，为了进一步得到更加准确的识别结果，在将字符识别模型应用于实际的字符识别之前，需要执行下属的步骤，确定解码器，即确定一个完整的字符识别模型，参考图4，示出了本发明实施例提供的一种识别模型验证方法的流程示意图，包括：

S401:获取验证样本；验证样本为包含字符的图片；

本实施例中，验证样本为包含字符的图片，其中，验证样本可以是训练样本中的图片，也可以与训练样本中不同的图片。

其中，为了得到识别准确率更高的字符识别模型用于实际应用中，在对初始的字符识别模型进行训练时，可以采用与实际识别时类别相同的图片对字符识别模型进行验证。

S402:将所述验证样本输入到预先训练的初始字符识别模型中，得到第一预测结果和第二预测结果；所述第一预测结果是CTC神经网络的时序分类模型输出的结果，所述第二预测结果是所述注意力模型输出的结果；

本实施例中，初始字符识别模型是通过上述S101-S105训练得到的。

需要知道的是，初始字符识别模型的解码器部分包括两部分，分别为CTC神经网络的时序分类模型和注意力模型，在对字符识别的过程中，CTC神经网络的时序分类模型和注意力模型分别输出字符的预测结果。本实施例中，将CTC模型输出的预测结果表示为第一预测结果，注意力模型输出的预测结果表示为第二预测结果。

S403:基于第一预测结果和第二预测结果的准确度，确定最终的字符识别模型；所述最终的字符识别模型中包含CTC神经网络的时序分类模型或者注意力模型。

本实施例中，为了在实际的字符识别时，得到识别准确率较高的结果，可以选取准确度较高的预测结果对应的解码器，即最终的字符识别模型中包含CTC神经网络的时序分类模型或者注意力模型。

其中，当第一预测结果的准确度高于第二预测结果的准确度时，则切断注意力模型的执行，即字符识别模型只保留CTC模型；

当第二预测结果的准确度高于第一预测结果的准确度时，则切断CTC模型的执行，即字符识别模型只保留注意力模型。

本实施例中，通过验证样本对训练的字符识别模型进行验证，并基于CTC模型和注意力模型的预测结果的准确度，从而选用准确度更高的预测结果对应的模型作为字符识别模型的解码器。这样，可以得到识别准确度更高的字符识别模型。

参考图5，示出了本发明实施例提供的一种字符识别方法的流程示意图，在本实施例中，该方法包括:

S501:获取待识别的图片；

本实施例中，待识别的图片可以为包含字符的图片也可以是不包含字符的图片。

S502：将所述待识别的图片进行预处理；

本实施例中，为了提高图像处理的效率，可以预先对训练样本进行预处理。

其中，预处理的方法包括很多，本实施例中不进行限定。

例如可以通过如下的步骤对待识别的图片进行预处理：

对待识别的图像进行尺寸归一化；

将归一化后的图像转换成灰度图像。

S503：通过预先训练的字符识别模型识别所述预处理后的图片中的字符；所述字符识别模型是通过上述字符识别模型训练方法得到的；

本实施例中，预先训练的字符识别模型的解码部分为：CTC模型或者注意力模型。

以注意力模型为例，对字符的识别过程进行举例说明：

通过深度卷积神经网络提取待识别的图片中的第一字符特征；

将第一字符特征输入到双向长短记忆网络中，得到第二字符特征；所述第二字符特征表征不同字符之间的关联关系；

基于Attention模块将BiLSTM输出特征解码，得到转码后的预测序列；

将预测序列中的值，每个位置的预测值基于softmax函数计算转化为0到1间的概率分布值；

举例说明：假设字符表共有6000个字符，图片中的字符序列预测有10个字符，则概率分布值结果为10*6000的矩阵。

遍历序列的预测概率，每个位置预测的概率分布选择概率最大的字符即为该位置预测的字符。

举例说明：假设预测序列含10个字符，则遍历10*6000的矩阵，每次选择6000个概率值中最大的那个概率对应的字符，即为该位置预测的结果字符。

本实施例中，基于上述训练好的字符识别模型对图片中的字符进行识别，可以较快的得到处理结果，并且得到的处理结果更加的准确。

参考图6，示出了本发明实施例提供的一种字符识别模型的训练装置的结构示意图，在本实施例中，该装置包括：

第一获取单元601，用于获取训练样本；所述训练样本为包含字符的图片；

第一预处理单元602，用于对所述训练样本进行预处理；

特征提取单元603，用于采用编码器提取训练样本中字符的特征；

多任务解码单元604，用于将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作，并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失；

计算单元605，用于基于CTC神经网络的时序分类模型的损失以及注意力模型的损失，计算联合损失；

训练单元606，用于基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。

所述特征提取单元，包括：

可选的，所述计算单元包括：

获取子单元，用于获取CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重；

计算子单元，用于基于CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重，计算CTC神经网络的时序分类模型的损失以及注意力模型的损失的加权和。

可选的，训练单元包括：

编码器训练子单元，用于应用梯度下降方法回传联合损失更新编码器各层的参数；

CTC模型训练子单元，用于应用梯度下降方法回传联合损失更新CTC神经网络的时序分类模型各层的参数；

注意力模型训练子单元，用于应用梯度下降方法回传联合损失更新注意力模型各层的参数。

可选的，还包括：

验证模块，用于：

将所述验证样本输入到预先训练的初始的字符识别模型中，得到第一预测结果和第二预测结果；所述第一预测结果是基于CTC神经网络的时序分类模型输出的结果，所述第二预测结果是基于注意力模型输出的结果；所述初始的字符识别模型是通过上述权利要求1-4所述的方法训练得到的；

本实施例的装置，通过多任务学习的方式对字符识别模型进行训练，即在训练的过程中，分别采用CTC模型和注意力模型对字符的特征进行解码操作，并基于这两个并行任务得到的损失确定联合损失，基于联合损失对字符识别模型中的编码器和、CTC模型和注意力模型进行训练，从而得到训练好的字符识别模型。

参考图7，示出了本发明实施例提供了一种字符识别装置的结构示意图，在本实施例中，该装置包括：

第二获取单元701，用于获取待识别的图片；

第二预处理单元702，用于将所述待识别的图片进行预处理；

字符识别单元703，用于通过预先训练的字符识别模型识别所述预处理后的图片中的字符；所述字符识别模型是通过上述所述的字符识别模型的训练方法得到的。

本实施例的装置，基于上述训练好的字符识别模型对图片中的字符进行识别，可以较快的得到处理结果，并且得到的处理结果更加的准确。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种字符识别模型的训练方法，其特征在于，包括：

获取训练样本；所述训练样本为包含字符的图片；

对所述训练样本进行预处理；

采用编码器提取训练样本中字符的特征；

2.根据权利要求1所述的方法，其特征在于，所述预设的编码器包括：深度卷积神经网络模型和双向长短记忆网络模型；

采用卷积神经网络模型提取所述训练样本中第一特征；

3.根据权利要求1所述的方法，其特征在于，所述基于CTC神经网络的时序分类模型的损失以及注意力模型的损失，计算联合损失，包括：

获取CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重；

基于CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重，计算CTC神经网络的时序分类模型的损失以及注意力模型的损失的加权和。

4.根据权利要求1所述的方法，其特征在于，所述基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练，包括：

应用梯度下降方法回传联合损失更新编码器各层的参数；

5.根据权利要求1所述的方法，其特征在于，还包括：

将所述验证样本输入到预先训练的初始的字符识别模型中，得到第一预测结果和第二预测结果；所述第一预测结果是基于CTC神经网络的时序分类模型输出的结果，所述第二预测结果是基于注意力模型输出的结果；所述初始的字符识别模型是通过上述权利要求1-5所述的方法训练得到的；

6.一种字符识别方法，其特征在于，包括：

获取待识别的图片；

将所述待识别的图片进行预处理；

通过预先训练的字符识别模型识别所述预处理后的图片中的字符；所述字符识别模型是通过上述权利要求1-5所述的方法进行训练得到的。

7.一种字符识别模型的训练装置，其特征在于，包括：

第一预处理单元，用于对所述训练样本进行预处理；

8.根据权利要求1所述的方法，其特征在于，所述预设的编码器包括：深度卷积神经网络模型和双向长短记忆网络模型；

所述特征提取单元，包括：

9.根据权利要求7所述的装置，其特征在于，还包括：

验证模块，用于：

10.一种字符识别装置，其特征在于，包括：

第二获取单元，用于获取待识别的图片；

第二预处理单元，用于将所述待识别的图片进行预处理；

字符识别单元，用于通过预先训练的字符识别模型识别所述预处理后的图片中的字符；所述字符识别模型是通过上述权利要求1-5所述的方法进行训练得到的。