CN111461238A

CN111461238A - 模型训练方法、字符识别方法、装置、设备及存储介质

Info

Publication number: CN111461238A
Application number: CN202010260100.3A
Authority: CN
Inventors: 韩涛; 李梓赫; 谭昶
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2020-07-28
Anticipated expiration: 2040-04-03
Also published as: CN111461238B

Abstract

本申请实施例公开了一种模型训练方法、字符识别方法、装置、设备及存储介质，通过至少部分网络层输出的特征图的辨识度越高时，迁移网络层输出的特征图越趋近于上述至少部分网络层输出的特征图，使得目标字符识别模型能够学习初始字符识别模型中好的特征提取行为，而对于初始字符识别模型中不好的特征提取行为，则进行更新迭代，结合训练目标字符识别模型的样本是从大数据集中挑选出来的字符出现频率相对均匀的样本，使得目标字符识别模型朝各个样本方向收敛，而不是朝高频字方向收敛，克服了现有技术容易将偏僻字识别成常见字的问题。

Description

模型训练方法、字符识别方法、装置、设备及存储介质

技术领域

本申请涉及信息处理技术领域，更具体地说，涉及一种模型训练方法、字符识别方法、装置、设备及存储介质。

背景技术

光学字符识别(Optical Character Recognition，简称OCR)是计算机视觉的子方向，目标是从图像数据中识别出文字，并保存为计算机文本数据。

目前，较常用的字符识别方法是利用神经网络模型进行字符识别，然而，目前的神经网络模型在进行字符识别时易出现将偏僻字被识别成常见字的情况。

发明内容

有鉴于此，本申请提供了一种模型训练方法、字符识别方法、装置、设备及存储介质，以克服现有技术容易将偏僻字识别成常见字的问题。

为了实现上述目的，现提出的方案如下：

一种字符识别模型训练方法，包括：

利用目标字符识别模型对目标图像样本进行处理，得到所述目标图像样本对应的第一字符识别结果；所述目标字符识别模型至少包括由初始字符识别模型的部分或全部网络层组成的迁移网络层，所述初始字符识别模型通过初始图像样本集训练得到，所述目标图像样本为所述初始图像样本集中字符出现频率满足预设均匀分布条件的图像样本；

根据由第一目标和第二目标构成的训练目标对所述目标字符识别模型的参数进行更新；其中，所述第一目标为所述第一字符识别结果趋近于所述目标图像样本对应的字符标签，所述第二目标为所述部分或全部网络层在所述初始字符识别模型处理所述目标图像样本时输出的特征图对所述初始字符识别模型输出的第二字符识别结果的影响越大，所述迁移网络层输出的特征图越趋近于所述部分或全部网络层输出的特征图。

上述方法，优选的，所述根据由第一目标和第二目标构成的训练目标对所述目标字符识别模型的参数进行更新，包括：

根据所述目标字符识别模型的正则化损失函数，对所述目标字符识别模型的参数进行更新，以实现所述第一目标和所述第二目标；

其中，所述正则化损失函数的误差部分为所述第一字符识别结果与所述目标图像样本对应的字符标签的差异，所述正则化损失函数的正则化部分至少包括由所述迁移网络层与所述部分或全部网络层中的对应特征图的差异的加权和构成的第一正则项；其中，每一个差异的权重表征所述部分或全部网络层输出的与所述目标图像样本对应的特征图对所述第二字符识别结果的影响程度。

上述方法，优选的，所述第一正则项通过如下方式获得：

对应所述迁移网络层中的至少部分迁移网络层中的每一个特征提取模块，计算该特征提取模块基于所述目标图像样本输出的特征图与目标网络层中与该特征提取模块对应的目标特征提取模块基于所述目标图像样本输出的特征图之间的距离；其中，所述目标网络层为所述初始字符识别模型中与所述至少部分迁移网络层对应的网络层；

计算该特征提取模块基于所述目标图像样本输出的特征图与所述目标特征提取模块基于所述目标图像样本输出的特征图的距离的权重；

利用各个距离的权重，将所述至少部分迁移网络层中的各个特征提取模块基于所述目标图像样本输出的特征图对应的距离加权求和，得到与所述目标图像样本对应的第一正则项。

上述方法，优选的，所述计算该特征提取模块输出的特征图与所述目标特征提取模块输出的特征图的距离的权重，包括：

获取所述第二字符识别结果与所述目标图像样本对应的字符标签的第一差异；

获取所述目标特征提取模块的参数的取值为目标取值时，所述初始字符识别模型对所述目标图像样本进行处理得到的字符识别结果与所述目标图像样本对应的字符标签的第二差异；所述目标取值使得所述第二差异大于所述第一差异；

对所述第一差异和所述第二差异的差值进行标准化处理，得到该特征提取模块输出的特征图与所述目标特征提取模块输出的特征图的距离的权重。

上述方法，优选的，所述目标字符识别模型由所述迁移网络层和新增网络层构成；其中，所述新增网络层的参数随机初始化；

所述正则化损失函数的正则化部分还包括：由所述新增网络层的参数构成的，用于对所述新增网络层的参数进行正则化的第二正则项。

上述方法，优选的，所述目标图像样本为具有一排字符的条状图像；所述利用目标字符识别模型对目标图像样本进行处理，得到所述目标图像样本对应的第一字符识别结果，包括：

利用所述目标字符识别模型对所述条状图像进行特征提取，得到大小为H/b×W/a的特征图；所述H为所述条状图像沿字符排列方向的长度，所述W为所述条状图像垂直于所述字符排列方向的长度，所述a和b均为大于1的正整数，且W/a>1；

利用所述目标字符识别模型将所述大小为H/a×W/a的特征图中的各个(W/a)*(W/a)大小的像素块变形为像素沿所述字符排列方向排列的像素块，得到变形后的特征图；根据变形后的特征图进行字符识别得到所述第一字符识别结果。

一种字符识别方法，包括：

获取待识别的字符图像数据；

将所述待识别的图像数据输入如上任意一项所述的字符识别模型训练方法得到的字符识别模型，得到字符识别结果。

一种字符识别模型训练装置，包括：

第一识别模块，用于通过目标字符识别模型对目标图像样本进行处理，得到所述目标图像样本对应的第一字符识别结果；所述目标字符识别模型至少包括由初始字符识别模型的部分或全部网络层组成的迁移网络层，所述初始字符识别模型通过初始图像样本集训练得到，所述目标图像样本为所述初始图像样本集中字符出现频率满足预设均匀分布条件的图像样本；

更新模块，用于通过所述目标字符识别模型根据由第一目标和第二目标构成的训练目标对所述目标字符识别模型的参数进行更新；其中，所述第一目标为所述第一字符识别结果趋近于所述目标图像样本对应的字符标签，所述第二目标为所述部分或全部网络层在所述初始字符识别模型处理所述目标图像样本时输出的特征图对所述初始字符识别模型输出的第二字符识别结果的影响越大，所述迁移网络层输出的特征图越趋近于所述部分或全部网络层输出的特征图。

一种字符识别装置，包括：

数据获取模块，用于获取待识别的字符图像数据；

第二识别模块，用于将所述待识别的图像数据输入如上任意一项所述的字符识别模型训练方法得到的字符识别模型，得到字符识别结果。

一种字符识别模型训练设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上任一项所述的字符识别模型训练方法的各个步骤。

一种字符识别设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的字符识别方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上任一项所述的字符识别模型训练方法的各个步骤，或者，执行如上所述的字符识别方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的模型训练方法、字符识别方法、装置、设备及存储介质，在利用大数据集(即初始图像样本集)训练得到初始字符识别模型后，将初始字符识别模型中的至少部分网络层用于目标字符识别模型，然后利用小数据集(即大数据集中字符出现频率满足预设均匀分布条件的目标图像样本)对目标字符识别模型进行训练。在对目标字符识别模型进行训练的过程中，以第一字符识别结果趋近于目标图像样本对应的字符标签，以及，上述至少部分网络层在初始字符识别模型处理目标图像样本时输出的特征图对初始字符识别模型输出的第二字符识别结果的影响越大，迁移网络层输出的特征图越趋近于上述至少部分网络层输出的特征图为目标，对目标字符识别模型的参数进行更新。

其中，上述至少部分网络层在初始字符识别模型处理目标图像样本时输出的特征图对初始字符识别模型输出的第二字符识别结果的影响越大，说明上述至少部分网络层输出的特征图的辨识度越高，因而能够更加准确的识别出字符，否则，说明上述至少部分网络层输出的特征图的辨识度越低，容易出现字符识别错误。通过上述至少部分网络层输出的特征图的辨识度越高时，迁移网络层输出的特征图越趋近于上述至少部分网络层输出的特征图，使得目标字符识别模型能够学习初始字符识别模型中好的特征提取行为，而对于初始字符识别模型中不好的特征提取行为，则进行更新迭代，结合训练目标字符识别模型的样本是从大数据集中挑选出来的字符出现频率相对均匀的样本，使得目标字符识别模型朝各个样本方向收敛，而不是只朝高频字方向收敛，克服了现有技术容易将偏僻字识别成常见字的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的字符识别模型训练方法的一种实现流程图；

图2为本申请实施例公开的对特征图进行变形处理的一种示意图；

图3-a为本申请实施例公开的字符识别模型的一种结构示意图；

图3-b为本申请实施例公开的第一正则项的获取原理的示例图；

图4为本申请实施例公开的字符识别模型训练装置的一种结构示意图；

图5为本申请实施例公开的字符识别装置的一种结构示意图；

图6为本申请实施例公开的字符识别模型训练设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人研究发现，在对用于字符识别的神经网络模型进行训练时，收集的训练数据都是现实场景中经常出现的文字，那么，在一份数据中会经常出现汉字分布不均的情况，比如，经常出现的汉字的频率和不经常出现的汉字的频率可能差几十倍，甚至更多，尤其是古文字数据，汉字分布不均的情况更加严重，这就很容易造成在模型测试的时候偏僻字被识别成经常出现的字。

为了克服现有技术容易将偏僻字识别成常见字的问题，本申请的基本思想是：从原始的训练数据集中挑选出出现频率相对均匀的数据，先用原始的训练数据训练字符识别网络，得到初始字符识别模型，然后，利用挑选出来的出现频率相对均匀的数据，对初始字符识别模型做进一步的训练，在训练过程中，采用迁移学习策略，即学习初始字符识别模型中对字符识别结果影响大的参数，这部分参数可以保留，不更新，而对字符识别结果影响小的参数，则进行更新学习，从而克服现有技术容易将偏僻字识别成常见字的问题。

基于上述基本思想，本申请实施例提供的字符识别模型训练方法的一种实现流程图如图1所示，可以包括：

步骤S11：利用目标字符识别模型对目标图像样本进行处理，得到目标图像样本对应的第一字符识别结果。

其中，目标字符识别模型至少包括由初始字符识别模型的部分或全部网络层组成的迁移网络层，初始字符识别模型通过初始图像样本集训练得到，目标图像样本为初始图像样本集中字符出现频率满足预设均匀分布条件的图像样本。

初始图像样本集即前述收集的训练数据，利用初始图像样本集训练得到初始字符识别模型的过程可以参看已有的方法，这里不再赘述。在训练得到初始字符识别模型后，

可以直接将初始字符识别模型作为目标字符识别模型；

或者，

可以对初始字符识别模型进行网络层删减，得到目标字符识别模型。可以将初始字符识别模型中的某个层或某几个层删除，具体删除哪个层可以根据经验确定，或，可以根据一定的规则进行删除。

或者，

在初始字符识别模型中增加新的网络层，得到目标字符识别模型。可以增加一层或多层卷积层，或者，增加其它用于特征提取的层。

或者，

将初始字符识别模型中的部分网络层替换为新的网络层。可以进行一对一替换(即用一个新的网络层替换初始字符识别模型中的一个网络层)，或者一对多替换(即，用一个新的网络层替换初始字符识别模型中依次连接的多个层，或者，用于多个依次连接的多个新的网络层替换初始字符识别模型中的一个网络层)。

或者，

在初始字符识别模型中增加新的网络层，并将初始字符识别模型中的部分网络层替换为新的网络层，得到目标字符识别模型。这种情况下，新增加的网络层与替换的新的网络层通常是不相邻的，比如，在初始字符识别模型的第3层网络层和第4层网络层之间新增加一个网络层，将第6个网络层替换为新的网络层。

目标图像样本具体可以为：所包含的字符在整个初始图像样本集中出现的频数在预置频数以上的比率小于或等于比率阈值的图像样本。比如，假设预置次数为N，比率阈值为R，则对于任意一个图像样本Y，统计该图像样本Y中各个字符在整个初始图像样本集中出现的频数，然后统计图像样本Y中频数在预置频数以上的字符在图像样本Y中所占的比率，若该比率小于或等于比率阈值R，则该图像样本Y可以作为目标图像样本，否则，该图像样本Y不可以作为目标图像样本。例如，如果一句话中的字符，在整个初始图像样本集中出现的频数在500次以上的比率不超过50％，则可以将这句话作为目标图像样本，即满足预设均匀分布条件的图像样本。

步骤S12：根据由第一目标和第二目标构成的训练目标对目标字符识别模型的参数进行更新；

其中，第一目标为第一字符识别结果趋近于目标图像样本对应的字符标签，第二目标为上述部分或全部网络层在初始字符识别模型处理目标图像样本时输出的特征图对初始字符识别模型输出的第二字符识别结果的影响越大，迁移网络层输出的特征图越趋近于上述部分或全部网络层输出的特征图。

本申请实施例中，可以预先获取上述部分或全部网络层在初始字符识别模型处理目标图像样本时输出的特征图对初始字符识别模型输出的第二字符识别结果的影响程度，然后基于该影响程度，根据由第一目标和第二目标构成的训练目标对目标字符识别模型的参数进行更新。

其中，上述部分或全部网络层在初始字符识别模型处理目标图像样本时输出的特征图对初始字符识别模型输出的第二字符识别结果的影响，可以是上述部分或全部网络层在初始字符识别模型处理目标图像样本时输出的全部特征图对初始字符识别模型输出的第二字符识别结果的影响，或者，可以是上述部分或全部网络层在初始字符识别模型处理目标图像样本时输出的部分特征图对初始字符识别模型输出的第二字符识别结果的影响。

本申请实施例公开的字符识别模型训练方法，初始字符识别模型在处理目标图像样本时，初始字符识别模型中的至少部分网络层输出的特征图对初始字符识别模型输出的第二字符识别结果的影响越大，说明上述至少部分网络层输出的特征图的辨识度越高，因而能够更加准确的识别出字符，否则，说明上述至少部分网络层输出的特征图的辨识度越低，容易出现字符识别错误。通过上述至少部分网络层输出的特征图的辨识度越高时，迁移网络层输出的特征图越趋近于上述至少部分网络层输出的特征图，使得目标字符识别模型能够学习初始字符识别模型中好的特征提取行为，而对于初始字符识别模型中不好的特征提取行为，则进行更新迭代，结合训练目标字符识别模型的样本是从大数据集中挑选出来的字符出现频率相对均匀的样本，使得目标字符识别模型朝所有样本方向收敛，而不是朝高频字方向收敛，克服了现有技术容易将偏僻字识别成常见字的问题。

在一可选的实施例中，上述根据由第一目标和第二目标构成的训练目标对目标字符识别模型的参数进行更新，包括：

根据目标字符识别模型的正则化损失函数，对目标字符识别模型的参数进行更新，以实现第一目标和第二目标。

其中，正则化损失函数的误差部分为第一字符识别结果与目标图像样本对应的字符标签的差异，正则化损失函数的正则化部分至少包括由迁移网络层与上述部分或全部网络层中的对应特征图的差异的加权和构成的第一正则项；其中，每一个差异的权重表征上述部分或全部网络层输出的与目标图像样本对应的特征图对第二字符识别结果的影响程度。

可选的，上述正则化损失函数用公式可以表示为：

其中，

为正则化损失函数Loss的误差部分，

为正则化损失函数Loss的正则化部分，即第一正则项。

X_i表示第i个样本；y_i表示样本X_i对应的标签；w表示目标字符识别模型中的参数；w^*表示初始字符识别模型中的参数；z(X_i,w)表示目标字符识别模型输入样本X_i时，目标字符识别模型的输出；L(z(X_i,w),y_i)表示用于计算目标字符识别模型输入样本X_i时，目标字符识别模型的输出与标签y_i之间的差异程度的损失函数，比如交叉熵损失函数等；n表示输入目标字符识别模型或初始字符识别模型中的一批目标图像样本中的样本的数量；Ω(w,w^*,X_i,y_i,z)表示与样本X_i对应的，迁移网络层与上述部分或全部网络层中的对应特征图的差异的加权和。

体现的是目标字符识别模型在输入的一批目标图像样本上的聚合损失，

体现的是目标字符识别模型和初始字识别模型在输入的同一批目标图像样本上的聚合差异。

具体在利用公式(1)所示的正则化损失函数对目标字符识别模型的参数进行更新时，以

最小化为目标对目标字符识别模型的参数w进行更新，以实现上述第一目标和第二目标。

在一可选的实施例中，第一正则项通过如下方式获得：

对应迁移网络层中的至少部分迁移网络层中的每一个特征提取模块(通常为卷积核，为便于叙述，记为K_j，j＝1，2，3，…，M，M为上述至少部分迁移网络层中的特征模块的数量)，计算该特征提取模块K_j基于目标图像样本(为便于叙述，记为X_i)输出的特征图与目标网络层中与该特征提取模块K_j对应的目标特征提取模块(为便于叙述，记为K′_j)基于目标图像样本X_i输出的特征图之间的距离(为便于叙述，记为D_ij)；其中，目标网络层为初始字符识别模型中与至少部分迁移网络层对应的网络层。特征提取模块K_j的初始参数与目标特征提取模块K′_j的参数相同。

该特征提取模块K_j基于目标图像样本X_i输出的特征图与目标网络层中与该特征提取模块K_j对应的目标特征提取模块K′_j基于目标图像样本X_i输出的特征图之间的距离D_ij用公式可以表示为：

其中，FM_j(z，w，X_i)表示特征提取模块K_j基于目标图像样本X_i输出的特征图；表示FM_j(z，w^*,X_i)表示目标特征提取模块K′_j基于目标图像样本X_i输出的特征图。

本申请实施例中，距离D_ij可以采用欧式距离衡量，如公式(2)所示，当然，也可以采用其它距离衡量，比如，曼哈顿距离等。本申请不做具体限定。

计算该特征提取模块K_j基于目标图像样本X_i输出的特征图与目标特征提取模块K′_j基于目标图像样本X_i输出的特征图的距离D_ij的权重。可以根据目标特征图提取模块K′_j输出的特征图，计算该特征提取模块K_j基于目标图像样本输出的特征图与目标特征提取模块K′_j基于目标图像样本输出的特征图的距离的权重(为便于叙述，记为W_j(z,w^*,X_i,y_i))。

利用各个距离的权重，将至少部分迁移网络层中的各个特征提取模块基于目标图像样本输出的特征图对应的距离加权求和，得到与目标图像样本X_i对应的第一正则项。

与目标图像样本X_i对应的第一正则项Ω(w,w^*,X_i,y_i,z)用公式可以表示为：

为了得到距离的权重，本申请实施例中提出了一种基于后向变量选择的监督注意方法，该方法的原理是当从网络中删除这些特征时，将导致网络的性能损失。基于该思想，在一可选的实施例中，该特征提取模块K_j基于目标图像样本输出的特征图与目标特征提取模块K′_j基于目标图像样本输出的特征图的距离的权重W_j(z,w^*,X_i,y_i)可以通过如下方式计算得到：

获取第二字符识别结果与目标图像样本X_i对应的字符标签的第一差异。

获取目标特征提取模块K′_j的参数的取值为目标取值时，初始字符识别模型对目标图像样本X_i进行处理得到的字符识别结果与目标图像样本X_i对应的字符标签的第二差异。上述目标取值使得第二差异大于第一差异，比如，目标取之可以为0，或者，可以为其它使得第二差异大于第一差异的值，比如，与0的差值小于差值阈值的取值。

对第一差异和第二差异的差值进行标准化处理，得到该特征提取模块输出的特征图与目标特征提取模块输出的特征图的距离的权重。比如，可以采用softmax函数对第一差异和第二差异的差值进行标准化处理，以确保所有的权重都是非负的。

需要说明的是，这里的第一差异和第二差异的差值可以是第一差异减去第二差异得到的差值，或者，可以是第二差异减去第一差异得到的差值，但对应同一目标图像样本，特征提取模块K_j对应的第一差异与目标特征提取模块K′_j对应的第二差异的差值的计算方式，与特征提取模块K_q对应的第一差异与目标特征提取模块K′_q对应的第二差异的差值的计算方式相同；同理，对应不同的目标图像样本，特征提取模块K_j对应的第一差异与目标特征提取模块K′_j对应的第二差异的差值的计算方式也相同。

以采用softmax函数对第一差异和第二差异的差值进行标准化处理为例，权重W_j(z,w^*,X_i,y_i)用公式可以表示为：

W_j(z,w^*,X_i,y_i)＝softmax(l(z(X_i,w^*\j),y_i)-l(z(X_i,w^*),y_i)) (4)

其中，w^*\j表示目标特征提取模块K′_j的参数的取值为目标取值；l(z(X_i,w^*\j),y_i)表示目标特征提取模块K′_j的参数的取值为目标取值时，初始字符识别模型对目标图像样本X_i进行处理得到的字符识别结果z(X_i,w^*\j)与目标图像样本X_i对应的字符标签y_i的第二差异，也就是目标特征提取模块K′_j的参数的取值为目标取值时，初始字符识别模型对目标图像样本X_i进行处理得到的字符识别结果z(X_i,w^*\j)与目标图像样本X_i对应的字符标签y_i的损失值；l(z(X_i,w^*),y_i)表示第二字符识别结果z(X_i,w^*)与目标图像样本X_i对应的字符标签y_i的第一差异，也就是第二字符识别结果z(X_i,w^*)与目标图像样本X_i对应的字符标签y_i的损失值。

如前所示，目标字符识别网络中可能只包含迁移网络层，也可能既包括迁移网络层，也包括新增的网络层，该新增的网络层即为初始字符识别模型中没有的网络层，因而，新增的网络层中的参数通常都是随机初始化的。基于此，在一可选的实施例中，上述正则化损失函数除了包括误差部分和第一正则项外，还包括第二正则项，其中，该第二正则项由新增网络层的参数构成，用于对新增网络层的参数进行正则化。也就是说，上述正则化损失函数的正则化部分由第一正则项和第二正则项构成，从而提高目标字符识别模型中的参数估计的一致性。

具体的，正则化部分为第一正则项和第二正则项的加权和。其中，第一正则项的权重和第二正则项的权重均为非负超参数。正则化部分用公式可以表示为：

Ω(w,w^*,X_i,y_i,z)＝αΩ′(w1,w^*,X_i,y_i,z)+βΩ”(w2\w^*) (5)

其中，α是第一正则项Ω′(w1,w^*,X_i,y_i,z)的权重，β是第二正则项Ω”(w2\w^*)的权重。

为了便于区分，这里将目标字符识别模型中的参数w中，属于迁移网络层中的参数记为w1，属于新增网络层中的参数记为w2，也就是说，w包含w1和w2。w2\w^*表示不属于w^*(初始字符识别网络中的参数)的参数w2。w2可以视为目标字符识别模型的私有参数。

根据公式(3)的记载，第一正则项Ω′(w1，w^*，X_i，y_i，z)用公式可以表示为：

显然，若目标字符识别模型中没有新增网络层，则w仅包含w1，则Ω(w,w^*,X_i，y_i，z)＝Ω′(w1，w^*,X_i,y_i,z)

公式(5)中，第二正则项Ω”(w2\w^*)可以是对目标网络私有参数w2的L2范式约束，即Ω”(w2\w^*)具体是计算目标网络私有参数w2的L2范数。

另外，汉字不同于英文或阿拉伯文等，汉字是具有自己独特的属性的，即汉字是有偏旁部首的结构信息的，这个在汉字的识别过程中很重要，能够很好的区分形近字。

目前常用的文本识别方法均是将文本识别作为一个序列识别问题，比如，基于循环神经网络(LSTM或双向LSTM)的字符识别方法，或者，基于全卷积神经网络的字符识别方法等。这些字符识别方法是将具有待识别的字符的图像，按照字符的排列方向，将图像裁剪为若干条状图像，每个条状图像中具有一排字符；然后对各个条状图像进行识别。对于每一个条状图像，在提取条状图像的特征图的时候，通常是将垂直于字符排列方向的长度提取为1(即从条状图像中提取的特征图在垂直于字符排列方向的长度为1)，此时默认特征图在条状图像排列方向的长度默认为条状图像的长度(也就是最后解码出的汉字(包括空格)的个数)。

然而，本申请的发明人研究发现，目前的字符识别方法可以保留汉字的横向信息，比如汉字的左右结构能够学习到，但是汉字的上下结构在高度池化到1的时候会丢失，导致容易出现形近字错误的问题。基于此，本申请实施例中，在提取特征时，不再将特征图的垂直于字符排列方向的长度提取为1，而是将特征图的垂直于字符排列方向的长度提取为2或更大的值(比如，4等)(为便于叙述，将特征图在字符排列方向的长度记为H’，将特征图在垂直于字符排列方向的长度记为W’，则，W’>2)。但是将垂直于字符排列方向的长度提取为2已经能够保留汉字的上下结构，将垂直于字符排列方向的长度提取为大于2的值虽然也可以，但会增加解码计算量，所以优选方案是W’＝2。

虽然特征图在垂直于字符排列方向的长度W’>2，但在解码时，还需要将特征图进行变形，使其在垂直于字符排列方向的长度为1的特征图。以W’＝2为例，请参看图2，图2为本申请实施例提供的对特征图进行变形处理的一种示意图，其中，图2-a为变形前特征图的示例图，图2-b为采用传统的变形方法对特征图进行变形的一种示例图，图2-c为本申请实施例提供的对特征图进行变形的一种示例图。

如图2-a所示，图中的一个小方块为一个像素，也就是一个特征点，则本示例中，变形前特征图的大小为W’＝2，H’＝8。

如图2-b所示，传统的变形方法是将特征图的不同行进行拼接。但本申请的发明人发现，相邻的四个特征点会体现一个字符的上下结构和左右结构(比如，特征点11、12、21、22这四个特征点体现一个字的左右结构和上下结构；特征点13、14、23、24这四个特征点体现一个字的左右结构和上下结构…)，图2-b所示变形方法会将属于同一个字符的特征点分离，对解码造成干扰，虽然可以在一定程度上降低形近字错误问题，但仍有进一步提高的空间。

如图2-c所示，本申请实施例中，将属于同一个字符的特征点进行变形为在垂直于字符排列方向的长度为1的子特征图，然后再将各个子特征图进行拼接，得到在垂直于字符排列方向的长度为1的特征图。这种变形方法使得属于同一个字符的特征点仍然是连续的，从而进一步降低形近字错误问题出现的概率。

此外，假设条状图像沿字符排列方向的长度为H，在垂直于字符排列方向的长度为W，则H’＝H/b，W’＝W/a；其中，a和b均为大于1的正整数，且W/a>1。

a和b可以相同，也可以不同。由于现实中的文字的排列方向可能存在不同，比如，现代文本中的文字通常是横向排列，而古文字通常是竖向排列，如果a和b不相同，则训练好的目标识别模型可能仅能适用于一种排列方向的字符识别，适应性较差。因此，在本申请的一优选的实施例中，a和b是相同的，这些训练好的目标识别模型可以适用于两种排列方向的字符识别，适应性增强。

综上所述，本申请实施例中，目标图像样本为具有一排字符的条状图像；上述利用目标字符识别模型对目标图像样本进行处理，得到目标图像样本对应的第一字符识别结果，包括：

利用目标字符识别模型对条状图像进行特征提取，得到大小为H/b×W/a的特征图；H为条状图像沿字符排列方向的长度，W为条状图像垂直于字符排列方向的长度，a和b均为大于1的正整数，且W/a>1；

利用目标字符识别模型将大小为H/a×W/a的特征图中的各个(W/a)*(W/a)大小的像素块变形为像素沿字符排列方向排列的像素块，得到变形后的特征图；根据变形后的特征图进行字符识别得到第一字符识别结果。

下面结合一具体的字符识别模型对上述字符识别模型的训练过程中第一正则项的获取过程进行解释说明。请参看图3，图3-a为本申请实施例提供的字符识别模型的一种结构示意图，图3-b为本申请实施例提供的第一正则项的获取原理的示例图。该字符识别模型可以包括：特征提取模块和字符识别模块；在此基础上，还可以包括结构识别模块。

如图3-a所示，特征提取模块由一个或多个卷积层、三个稠密卷积块和三个残差注意力块组成，三个稠密卷积块和三个残差注意力块依次交叉连接，特征提取模块提取得到的特征图(即最后一个残差注意力块输出的特征图)用于字符识别模块进行解码，得到字符识别结果，如果字符识别模型还包括结构识别模块，则特征提取模块提取得到的特征图除了用于字符识别模块进行解码外，还用于结构识别模块识别字符的结构。

卷积层用于对输入的条状图像进行卷积处理，得到初始特征图；稠密卷积块主要用于对卷积层输出的初始特征图进行稠密卷积处理，得到第一中间特征图；而残差注意力块则主要用于对稠密卷积块输出的第一中间特征图进行前景增强处理，得到第二中间特征图，最后一级残差注意力块输出的第二中间特征图即为条状图像的特征图。

字符识别结果在利用条状图像的特征图(为便于叙述，记为特征图T)进行字符识别时，先对特征图T进行变形处理，以获得条状图像的携带上下文信息的特征序列，并根据该特征序列预测条状图像中的各个字符；该特征序列中的不同元素为条状图像中不同区域的特征表示。具体变形处理过程可以包括：

将特征图T变形为初始特征序列，该初始特征序列中元素的个数为特征图T的高度和宽度的乘积，该初始特征序列中每个元素是长度为特征图T的通道数的向量；

将初始特征序列中的各个元素组合得到第四中间特征图，该第四中间特征图的通道数为1，高度为特征图T的通道数，宽度为初始特征序列中元素的个数；

对第四中间特征图进行卷积处理，得到第五中间特征图；

将第五中间特征图变形，得到条状图像的携带上下文信息的特征序列，条状图像的特征序列中元素的个数为第五中间特征图的宽度，条状图像的特征序列中每个元素是长度为第五中间特征图的高度的向量。根据条状图像的特征序列可以解码得到字符。

图3-b所示示例中，目标字符识别模型中的特征提取模块与初始字符识别模型中的特征提取模块的结构相同，也就是说，该示例中，在得到初始字符识别模型侯，直接将初始字符模型作为目标字符识别模型做进一步的训练。另外，图3-b所示示例中，示出的是利用两个模型中对应的一组稠密卷积块输出的特征图计算第一正则项，根据前述实施例可知，也可以利用两个模型中其它组对应的稠密卷积块输出的特征计算第一正则项，或者，利用两个模型中的所有对应的稠密卷积块输出的特征计算第一正则项。当然，也可以利用两个模型中对应的一组或更多组残差注意力块输出的特征图计算第一正则项，或者，同时利用两个模型中对应的稠密卷积块输出的特征图和对应的残差注意力块输出的特征图计算第一正则项。

在通过如上方法对目标字符识别模型训练结束后，就可以利用训练好的字符识别模型进行字符识别了，基于此，本申请实施例还提供一种字符识别方法，具体可以包括：

获取待识别的字符图像数据；

将该字符图像数据输入通过上述训练方法训练好的字符识别模型，得到字符识别结果。

通过该方法得到的字符识别结果，不会将低频字识别为高频字，或者，将低频字识别为高频字的概率较低，而且，降低形近字错误问题出现的概率。

与方法实施例相对应，本申请实施例还提供一种字符识别模型训练装置和字符识别装置。如图4所示，为本申请实施例提供的字符识别模型训练装置的一种结构示意图，可以包括：

第一识别模块41和更新模块42；其中，

第一识别模块41用于通过目标字符识别模型对目标图像样本进行处理，得到所述目标图像样本对应的第一字符识别结果；所述目标字符识别模型至少包括由初始字符识别模型的部分或全部网络层组成的迁移网络层，所述初始字符识别模型通过初始图像样本集训练得到，所述目标图像样本为所述初始图像样本集中字符出现频率满足预设均匀分布条件的图像样本；

更新模块42用于通过所述目标字符识别模型根据由第一目标和第二目标构成的训练目标对所述目标字符识别模型的参数进行更新；其中，所述第一目标为所述第一字符识别结果趋近于所述目标图像样本对应的字符标签，所述第二目标为所述部分或全部网络层在所述初始字符识别模型处理所述目标图像样本时输出的特征图对所述初始字符识别模型输出的第二字符识别结果的影响越大，所述迁移网络层输出的特征图越趋近于所述部分或全部网络层输出的特征图。

本申请实施例提供的字符识别模型训练装置，初始字符识别模型在处理目标图像样本时，初始字符识别模型中的至少部分网络层输出的特征图对初始字符识别模型输出的第二字符识别结果的影响越大，说明上述至少部分网络层输出的特征图的辨识度越高，因而能够更加准确的识别出字符，否则，说明上述至少部分网络层输出的特征图的辨识度越低，容易出现字符识别错误。通过上述至少部分网络层输出的特征图的辨识度越高时，迁移网络层输出的特征图越趋近于上述至少部分网络层输出的特征图，使得目标字符识别模型能够学习初始字符识别模型中好的特征提取行为，而对于初始字符识别模型中不好的特征提取行为，则进行更新迭代，结合训练目标字符识别模型的样本是从大数据集中挑选出来的字符出现频率相对均匀的样本，使得目标字符识别模型朝所有样本方向收敛，而不是朝高频字方向收敛，克服了现有技术容易将偏僻字识别成常见字的问题。

在一可选的实施例中，更新模块42具体可以用于：

在一可选的实施例中，所述更新模块42包括：

距离计算模块，用于对应所述迁移网络层中的至少部分迁移网络层中的每一个特征提取模块，计算该特征提取模块基于所述目标图像样本输出的特征图与目标网络层中与该特征提取模块对应的目标特征提取模块基于所述目标图像样本输出的特征图之间的距离；其中，所述目标网络层为所述初始字符识别模型中与所述至少部分迁移网络层对应的网络层；

权重计算模块，用于计算该特征提取模块基于所述目标图像样本输出的特征图与所述目标特征提取模块基于所述目标图像样本输出的特征图的距离的权重；

第一正则项获取模块，用于利用各个距离的权重，将所述至少部分迁移网络层中的各个特征提取模块基于所述目标图像样本输出的特征图对应的距离加权求和，得到与所述目标图像样本对应的第一正则项。

在一可选的实施例中，所述所示权重计算模块包括：

第一差异获取模块，用于获取所述第二字符识别结果与所述目标图像样本对应的字符标签的第一差异；

第二差异获取模块，用于获取所述目标特征提取模块的参数的取值为目标取值时，所述初始字符识别模型对所述目标图像样本进行处理得到的字符识别结果与所述目标图像样本对应的字符标签的第二差异；所述目标取值使得所述第二差异大于所述第一差异；

权重获取模块，用于对所述第一差异和所述第二差异的差值进行标准化处理，得到该特征提取模块输出的特征图与所述目标特征提取模块输出的特征图的距离的权重。

在一可选的实施例中，所述目标字符识别模型由所述迁移网络层和新增网络层构成；其中，所述新增网络层的参数随机初始化；

在一可选的实施例中，所述正则化损失函数的正则化部分为所述第一正则项和所述第二正则项的加权和；其中，

所述第一正则项的权重和所述第二正则项的权重均为非负超参数。

在一可选的实施例中，所述目标图像样本为具有一排字符的条状图像；所示第一识别模块41包括：

特征提取模块，用于利用所述目标字符识别模型对所述条状图像进行特征提取，得到大小为H/b×W/a的特征图；所述H为所述条状图像沿字符排列方向的长度，所述W为所述条状图像垂直于所述字符排列方向的长度，所述a和b均为大于1的正整数，且W/a>1；

识别结果获取模块，用于利用所述目标字符识别模型将所述大小为H/a×W/a的特征图中的各个(W/a)*(W/a)大小的像素块变形为像素沿所述字符排列方向排列的像素块，得到变形后的特征图；根据变形后的特征图进行字符识别得到所述第一字符识别结果。

本申请实施例提供的字符识别装置的一种结构示意图如图5所示，可以包括：数据获取模块51和第二识别模块52；其中，

数据获取模块51用于获取待识别的字符图像数据；该字符图像数据为具有一排字符的条状图像。

第二识别模块52用于将所述待识别的图像数据输入如上述字符识别模型训练方法得到的字符识别模型，得到字符识别结果。

本申请实施例提供的字符识别模型训练装置可应用于字符识别模型训练设备，如PC终端、云平台、服务器及服务器集群等。可选的，图6示出了字符识别模型训练设备的硬件结构框图，参照图6，字符识别模型训练设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例提供的字符识别装置可应用于字符识别设备，如PC终端、云平台、服务器及服务器集群等。可选的，字符识别设备的硬件结构框图与图6所示硬件结构框图相同，不同之处在于，处理器调用存储器存储的程序时，所述程序用于：

获取待识别的字符图像数据；

将所述待识别的图像数据输入如上所述的字符识别模型训练方法得到的字符识别模型，得到字符识别结果。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

获取待识别的字符图像数据；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统(若存在)、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种字符识别模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据由第一目标和第二目标构成的训练目标对所述目标字符识别模型的参数进行更新，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一正则项通过如下方式获得：

4.根据权利要求3所述的方法，其特征在于，所述计算该特征提取模块输出的特征图与所述目标特征提取模块输出的特征图的距离的权重，包括：

5.根据权利要求2所述的方法，其特征在于，所述目标字符识别模型由所述迁移网络层和新增网络层构成；其中，所述新增网络层的参数随机初始化；

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述目标图像样本为具有一排字符的条状图像；所述利用目标字符识别模型对目标图像样本进行处理，得到所述目标图像样本对应的第一字符识别结果，包括：

7.一种字符识别方法，其特征在于，包括：

获取待识别的字符图像数据；

将所述待识别的图像数据输入如权利要求1-6任意一项所述的字符识别模型训练方法得到的字符识别模型，得到字符识别结果。

8.一种字符识别模型训练装置，其特征在于，包括：

9.一种字符识别装置，其特征在于，包括：

数据获取模块，用于获取待识别的字符图像数据；

第二识别模块，用于将所述待识别的图像数据输入如权利要求1-6任意一项所述的字符识别模型训练方法得到的字符识别模型，得到字符识别结果。

10.一种字符识别模型训练设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-6中任一项所述的字符识别模型训练方法的各个步骤。

11.一种字符识别设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求7所述的字符识别方法的各个步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6中任一项所述的字符识别模型训练方法的各个步骤，或者，执行如权利要求7所述的字符识别方法的各个步骤。