CN112200216A

CN112200216A - 汉字识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112200216A
Application number: CN202010916543.3A
Authority: CN
Inventors: 肖尧
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2021-01-08

Abstract

本申请涉及一种汉字识别方法、装置、计算机设备和存储介质。所述方法包括：获取待识别汉字图像；将待识别汉字图像输入预设的识别网络，通过识别网络对待识别汉字图像中的待识别汉字进行识别，得到待识别汉字的类别；其中，识别网络为根据样本图像和自适应边距损失函数进行训练所得到的，不同类别的汉字在自适应边距损失函数中所占的权重不同。采用本方法提高了对待识别汉字所属类别的识别准确度。

Description

汉字识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像识别分类技术领域，特别是涉及一种汉字识别方法、装置、计算机设备和存储介质。

背景技术

由于汉字种类繁多，笔画结构相似，手写中文汉字的识别一直以来是被广泛研究和关注的问题，手写中文汉字的识别在日常生活中也得到了广泛地应用，例如，邮件自动分拣，银行票据的识别等多个领域，都需要对手写中文汉字进行识别。

传统技术中，手写中文汉字的识别方法主要是通过对包括手写中文汉字的图像进行特征提取，根据提取出的图像特征，进行手写中文汉字的识别。

然而，传统的手写中文汉字的识别方法，存在识别不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高手写中文汉字的识别准确度的汉字识别方法、装置、计算机设备和存储介质。

一种汉字识别方法，所述方法包括：

获取待识别汉字图像；

将所述待识别汉字图像输入预设的识别网络，通过所述识别网络对所述待识别汉字图像中的待识别汉字进行识别，得到所述待识别汉字的类别；其中，所述识别网络为根据样本图像和自适应边距损失函数进行训练所得到的，不同类别的汉字在所述自适应边距损失函数中所占的权重不同。

在其中一个实施例中，所述识别网络包括第一卷积子网络、第二卷积子网络、第三卷积子网络和膨胀子网络；所述将所述待识别汉字图像输入预设的识别网络，通过所述识别网络对所述待识别汉字图像中的待识别汉字进行识别，得到所述待识别汉字的类别，包括：

将所述待识别汉字图像输入所述第一卷积子网络，通过所述第一卷积子网络对所述待识别汉字图像进行特征提取，得到所述待识别汉字图像的第一特征图；

将所述第一特征图输入所述第二卷积子网络，通过所述第二卷积子网络对所述第一特征图进行特征提取，得到第二特征图；

将所述第二特征图输入所述第三卷积子网络，通过所述第三卷积子网络对所述第二特征图进行特征提取，得到第三特征图；

将所述第三特征图输入所述膨胀子网络，通过所述膨胀子网络对所述第三特征图进行特征提取并分类，得到所述待识别汉字的类别。

在其中一个实施例中，所述膨胀子网络包括第一膨胀卷积层、第二膨胀卷积层、第三膨胀卷积层、第四膨胀卷积层和分类层；其中，所述第一膨胀卷积层、所述第二膨胀卷积层、所述第三膨胀卷积层、所述第四膨胀卷积层中各膨胀卷积层的膨胀系数均不相同。

在其中一个实施例中，所述将所述第三特征图输入所述膨胀子网络，通过所述膨胀子网络对所述第三特征图进行特征提取并分类，得到所述待识别汉字的类别，包括：

将所述第三特征图输入所述第一膨胀卷积层，得到第四特征图；

将所述第三特征图输入所述第二膨胀卷积层，得到第五特征图；

将所述第三特征图输入所述第三膨胀卷积层，得到第六特征图；

将所述第三特征图输入所述第四膨胀卷积层，得到第七特征图；

将所述第四特征图、所述第五特征图、所述第六特征图和所述第七特征图输入所述分类层，得到所述待识别汉字的类别。

在其中一个实施例中，所述将所述第四特征图、所述第五特征图、所述第六特征图和所述第七特征图输入所述分类层，得到所述待识别汉字的类别，包括：

将所述第四特征图、所述第五特征图、所述第六特征图和所述第七特征图输入所述分类层进行特征融合，根据融合后的特征得到所述待识别汉字的类别。

在其中一个实施例中，所述第一卷积子网络、第二卷积子网络、第三卷积子网络中每个卷积子网络的网络结构均包括卷积层、批归一化层和激活层。

在其中一个实施例中，所述识别网络的训练过程包括：

获取样本待识别汉字图像和所述样本待识别汉字图像中的样本待识别汉字的标签；

将所述样本待识别汉字图像输入预设的初始识别网络，通过所述初始识别网络对所述样本待识别汉字进行识别，得到所述样本待识别汉字的样本类别；

根据所述样本类别和所述样本待识别汉字的标签，得到所述自适应边距损失函数的值，根据所述自适应边距损失函数的值，对所述初始识别网络进行训练，得到所述识别网络。

一种汉字识别装置，所述装置包括：

第一获取模块，用于获取待识别汉字图像；

识别模块，用于将所述待识别汉字图像输入预设的识别网络，通过所述识别网络对所述待识别汉字图像中的待识别汉字进行识别，得到所述待识别汉字的类别；其中，所述识别网络为根据样本图像和自适应边距损失函数进行训练所得到的，不同类别的汉字在所述自适应边距损失函数中所占的权重不同。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别汉字图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别汉字图像；

上述汉字识别方法、装置、计算机设备和存储介质，计算机设备将获取的待识别汉字图像输入预设的识别网络，由于识别网络是根据样本图像和自适应边距损失函数进行训练所得到的，并且不同类别的汉字在自适应边距损失函数中所占的权重不同，这样在对识别网络进行训练的过程中，可以使识别网络对比较难以区分的汉字增加更多的关注，这样能够使识别网络在一定程度上缓解汉字结构相似和手写汉字模糊导致的难以识别的问题，因此，通过得到的识别网络能够对待识别汉字图像中的待识别汉字进行准确地识别，提高了对待识别汉字所属类别的识别准确度。

附图说明

图1为一个实施例中汉字识别方法的应用环境图；

图1a为一个实施例中提供的手写汉字示意图；

图2为一个实施例中汉字识别方法的流程示意图；

图3为另一个实施例中汉字识别方法的流程示意图；

图4为一个实施例中识别网络的结构示意图；

图5为另一个实施例中汉字识别方法的流程示意图；

图6为一个实施例中汉字识别装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的汉字识别方法，可以适用于如图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器，该存储器中存储有计算机程序，处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选的，该计算机设备还可以包括网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。可选的，该计算机设备可以是服务器，可以是个人计算机，还可以是个人数字助理，还可以是其他的终端设备，例如平板电脑、手机等等，还可以是云端或者远程服务器，本申请实施例对计算机设备的具体形式并不做限定。

汉字种类繁多，笔画结构相似，难以识别，一直以来，手写汉字的识别是被广泛关注和研究的课题。目前已有的汉字字符集编码包括：GB2312编码、BIG5编码、GBK编码和GB18030编码；其中，GB2312编码包含了6763个汉字；BIG5编码收录了13053个汉字；GBK编码收录了21003个汉字；GB18030编码收录了27484个汉字。目前手写汉字识别面临的两个主要挑战是：1、由于汉字固有的偏旁部首结构许多汉字拥有相同的偏旁或部首，例如，“大”、“太”、“犬”三个字只相差一点，“译”、“泽”、“绎”有共同的部首，而且庞大的字符集导致相似的汉字非常多；2、不同人的手写风格相差迥异，很多情况下连笔会带来识别上的困难，如图1a所示，手写的连笔导致“芝”和“芒”难以区分。

在一个实施例中，如图2所示，提供了一种汉字识别方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S201，获取待识别汉字图像。

其中，待识别汉字图像为包括单个待识别汉字的图像。可选的，计算机设备可以首先获取包含有手写汉字的图像，然后对该图像中的手写汉字进行分割，得到待识别汉字图像，可以理解的是，获取的包含有手写汉字的图像中包括多少个汉字，计算机设备就可以得到对应个数的待识别汉字图像。可选的，计算机设备可以从汉字数据库中获取包含有手写汉字的图像。可选的，计算机设备可以根据预设的分割模板对包含有手写汉字的图像中的汉字进行分割，得到上述待识别汉字图像，也可以将包含有手写汉字的图像输入预设的分割模型中，对包含有手写汉字的图像中的汉字进行分割，得到上述待识别汉字图像。

S202，将待识别汉字图像输入预设的识别网络，通过识别网络对待识别汉字图像中的待识别汉字进行识别，得到待识别汉字的类别；其中，识别网络为根据样本图像和自适应边距损失函数进行训练所得到的，不同类别的汉字在自适应边距损失函数中所占的权重不同。

具体地，计算机设备将上述获取的待识别汉字图像输入预设的识别网络，通过该识别网络对上述待识别汉字图像中的待识别汉字进行识别，从而得到该待识别汉字的类别。其中，上述识别网络为根据样本图像和自适应边距损失函数进行训练所得到的，且不同类别的汉字在该自适应边距损失函数中所占的权重不同。可以理解的是，汉字的识别本质上是一个分类问题，每种汉字都为一个类别，在常见的分类网络中所采用的损失函数多为softmax损失函数，然而面对巨大的类别数量，以及各种类内的差异性和类间的相似性，softmax损失函数往往不能起到很好的作用。在分类问题中，分类平面距两边数据样本的间隔距离称为边距(Margin)，支持向量机(Support Vector Machine，SVM)的原理即为寻找一个最大边距分类器，使得分类平面到两个类别样本的距离相等。因此，在分类问题中为了提高分类的能力，提出了基于边距的损失函数，例如，大边距损失函数、附加边距损失函数和大边距余弦损失函数等，这些损失函数基本上都是将原始的softmax损失通过特征归一化而变成余弦损失，并在余弦空间中添加一个边距，这个边距的作用是在分类器训练中使得决策边界到训练样本的距离最大化，从而提高分类能力。然而现有的基于边距的损失函数都是固定边距，即分类平面到两侧的样本距离相同，然而汉字的种类繁多，笔画结构相似，为了提高汉字的识别准确度，若可以取消固定边距的约束，并使得边距能够根据训练样本的难度自适应调整，这样就可以对较难区分的汉字类别增加更多的关注，提高其在损失函数中的比重，故在本申请中提出的自适应边距损失函数，使得边距能够根据不同的汉字类别做出对应调整，使得识别难度较高的汉字类别得到更高的权重，在一定程度上缓解汉字结构相似和手写汉字模糊难以识别的问题。

下面将对本申请实施例提出的自适应边距损失函数进行详细说明：

Softmax损失函数是在深度学习多分类任务中使用最为广泛的损失函数，Softmax损失函数其是由Softmax函数和交叉熵(cross-entropy)损失组合而成，两者放在一起数值计算更加稳定，且求导简单。Softmax函数，或称归一化指数函数，可以将输入映射到(0,1)区间中，从而得到待分类对象属于某个类别的概率。Softmax函数的定义为，令z为Softmax层的输入，f(z)为Softmax层的输出，则待分类对象属于第k类的概率为：

式中，j为所有的类别，因此，得到Softmax损失函数的定义为：L＝-∑_ky_klog f(z_k)，式中，y＝(y₀,y₁,L,y_n),y_i∈{0,1}为类别标签，通常的多分类问题中y只有一个元素值为1，其他都是0，所以假设i为真实类别，则z_i标签中只有y_i＝1，据此得到原始的softmax损失函数的定义为：

在神经网络中，损失函数层之前通常连接一个全连接层，即Softmax损失的输入一般为全连接层的输出。令X为全连接层的输入，W为全连接层的系数矩阵，则Softmax损失函数中的z_j可表示为

式中，

为W的第j列，θ_j(0≤θ_j≤π)为向量W_j与X之间的夹角。为了对问题进行简化，对系数和特征进行归一化，即||W_j||＝1,||X||＝1，同时，为了提高模型分类能力，cos(θ_j)被替换成了cos(θ_j)-m，即在余弦空间中附加了一个边距m(m>0)，据此，得到附加边距损失函数为：

式中，s为尺度系数，边距m的作用是使训练的特征更加紧凑和中心化，然而在很多分类问题中，存在着简单样本和复杂样本，一些相近类别的分类难度也会比其他的更大，此外，复杂样本在总数里所占的比例较小，大部分样本属于简单样本，这样会造成复杂样本的损失会掩没在简单样本中的问题，使得最终的损失函数完全被简单样本统治，因此，为了衡量样本的分类难度，使用softmax输出的归一化指数概率来作为指标：

式中，p代表的是样本被正确分类的概率，则自适应边距(adaptive margin)函数被定义为：m^A＝α(1-P)^γ,γ>0，式中，α为边距上限。可以理解的是，自适应边距函数具有两个性质：(1)若一个复杂样本距离类别中心较远并被错分类，那么p则较小，使得边距m趋近于最大最大值α，导致分类正确条件更加严苛，并对错分产生一个更大的惩罚，反之，对于简单样本，p趋近于1，则边距趋近于0，使得损失等价于softmax损失；(2)参数γ可以平滑地控制简单样本和复杂样本之间的边距效应，当γ＝0，m^A变成了固定边距，γ若增长则边距效应随之增长。值得注意的是m^A是由p来决定的，对于不同的样本m^A各不相同，即样本间的自适应性各不相同，这样将附加边距替换为自适应边距得到的损失函数为：

这里需要说明的是，在实际训练中α并不是一个固定的值，而是随着迭代次数增加而递增的sigmoid函数，也就是说，在训练的开始阶段，损失函数近似等于原始softmax损失。而随着训练的进行，迭代次数增加，边距效应影响逐渐增大，这样可以保证训练的稳定性，加速收敛。

在本实施例中，计算机设备将获取的待识别汉字图像输入预设的识别网络，由于识别网络是根据样本图像和自适应边距损失函数进行训练所得到的，并且不同类别的汉字在自适应边距损失函数中所占的权重不同，这样在对识别网络进行训练的过程中，可以使识别网络对比较难以区分的汉字增加更多的关注，这样能够使识别网络在一定程度上缓解汉字结构相似和手写汉字模糊导致的难以识别的问题，因此，通过得到的识别网络能够对待识别汉字图像中的待识别汉字进行准确地识别，提高了对待识别汉字所属类别的识别准确度。

在上述将待识别汉字图像输入预设的识别网络，通过识别网络对待识别汉字图像中的待识别汉字进行识别的场景中，识别网络是通过对待识别汉字图像进行特征提取，根据提取的特征对待识别汉字进行的识别。在一个实施例中，如图3所示，在上述实施例的基础上，作为一种可选的实施方式，识别网络包括第一卷积子网络、第二卷积子网络、第三卷积子网络和膨胀子网络；上述S203包括：

S301，将待识别汉字图像输入第一卷积子网络，通过第一卷积子网络对待识别汉字图像进行特征提取，得到待识别汉字图像的第一特征图。

具体地，计算机设备将上述待识别汉字图像输入识别网络的第一卷积子网络，通过第一卷积子网络对待识别汉字图像进行特征提取，得到待识别汉字图像的第一特征图。可选的，计算机设备将待识别汉字图像输入识别网络之前可以将待识别汉字图像转换为灰度图像并减去待识别汉字图像的均值，得到处理后的待识别汉字图像，将处理后的待识别汉字图像输入识别网络中。可选的，输入识别网络的待识别汉字图像的尺寸大小可以为96*96，也可以为其他尺寸，本实施例在此不做限制。可选的，第一卷积子网络可以包括卷积层和池化层，卷积层用于提取待识别汉字图像的特征，池化层用于对卷积层提取出的特征做更进一步地降维以减少计算量，并加强图像特征的不变性，使之增加图像的偏移、旋转等方面的鲁棒性。

S302，将第一特征图输入第二卷积子网络，通过第二卷积子网络对第一特征图进行特征提取，得到第二特征图。

具体地，计算机设备将上述得到的第一特征图输入识别网络的第二卷积子网络，通过第二卷积子网络对第一特征图进行特征提取，得到第二特征图。可选的，第二卷积子网络也可以包括卷积层和池化层，卷积层的个数可以为一个，也可以为两个或多个，同样地，卷积层用于提取第二特征图的特征，池化层用于对卷积层提取出的特征做更进一步地降维以减少计算量，并加强图像特征的不变性，使之增加图像的偏移、旋转等方面的鲁棒性。可选的，第二卷积子网络中可以为包括两个相同的卷积网络结构的卷积子网络，也可以为包括多个相同的卷积网络结构的卷积子网络。

S303，将第二特征图输入第三卷积子网络，通过第三卷积子网络对第二特征图进行特征提取，得到第三特征图。

具体地，计算机设备将上述得到的第二特征图输入识别网络的第三卷积子网络，通过第三卷积子网络对第二特征图进行特征提取，得到第三特征图。可选的，第三卷积子网络也可以包括卷积层和池化层，卷积层的个数可以为一个，也可以为两个或多个，同样地，卷积层用于提取第三特征图的特征，池化层用于对卷积层提取出的特征做更进一步地降维以减少计算量，并加强图像特征的不变性，使之增加图像的偏移、旋转等方面的鲁棒性。

S304，将第三特征图输入膨胀子网络，通过膨胀子网络对第三特征图进行特征提取并分类，得到待识别汉字的类别。

具体地，计算机将得到的第三特征图输入识别网络的膨胀子网络，通过膨胀子网络对第三特征图进行特征提取并分类，得到待识别汉字的类别。可选的，膨胀子网络第一膨胀卷积层、第二膨胀卷积层、第三膨胀卷积层、第四膨胀卷积层和分类层；其中，第一膨胀卷积层、第二膨胀卷积层、第三膨胀卷积层、第四膨胀卷积层中各膨胀卷积层的膨胀系数均不相同，需要说明的是，各膨胀卷积层的膨胀操作能够使卷积核的大小从k×k扩大为r×(k-1)+1，其中，r为膨胀系数。可选的，计算机设备可以将第三特征图输入第一膨胀卷积层，通过第一膨胀卷积层得到第四特征图，将第三特征图输入第二膨胀卷积层，通过第二膨胀卷积层得到第五特征图，将第三特征图输入第三膨胀卷积层，通过第三膨胀卷积层得到第六特征图，将第三特征图输入第四膨胀卷积层，通过第四膨胀卷积层得到第七特征图，然后将得到的第四特征图、第五特征图、第六特征图和第七特征图输入分类层，得到待识别汉字的类别。可选的，将第四特征图、第五特征图、第六特征图和第七特征图输入分类层后，分类层可以对第四特征图、第五特征图、第六特征图和第七特征图进行特征融合，根据融合后的特征得到待识别汉字的类别。可以理解的是，由于第一膨胀卷积层、第二膨胀卷积层、第三膨胀卷积层、第四膨胀卷积层中各膨胀卷积层的膨胀系数均不相同，这样通过各膨胀卷积层能够对第三特征图从不同维度进行特征提取，这样从不同维度对第三特征图进行特征提取，能够使提取出的特征信息更加地丰富，并且，从不同维度对第三特征图进行特征提取，能够增大识别网络的感受野，因此，可以根据提取出的不同维度的特征信息，对待识别汉字进行准确地分类，从而准确地得到待识别汉字的类别。

在本实施例中，计算机设备将待识别汉字图像输入第一卷积子网络，通过第一卷积子网络能够对待识别汉字图像进行准确地特征提取，这样可以准确地得到待识别汉字图像的第一特征图，进而可以将准确度较高地第一特征图输入第二卷积子网络，通过第二卷积子网络对第一特征图进行准确地特征提取，得到准确度较高地第二特征图，进而可以将准确度较高地第二特征图输入第三卷积子网络，通过第三卷积子网络对第二特征图进行准确地特征提取，得到准确度较高地第三特征图，由于第三特征图的准确度得到了提高，进而可以将第三特征图输入膨胀子网络，通过膨胀子网络对第三特征图进行准确地特征提取并分类，从而提高了对待识别汉字所属类别的识别准确度。

在一个实施例中，在上述实施例的基础上，作为一种可选的实施方式，第一卷积子网络、第二卷积子网络、第三卷积子网络中每个卷积子网络的网络结构均包括卷积层、批归一化层和激活层。

具体地，上述识别网络包括的第一卷积子网络、第二卷积子网络、第三卷积子网络中每个卷积子网络的网络结构均包括卷积层、批归一化层和激活层。其中，激活层采用的激活函数为PReLu激活函数，需要说明的是，激活层采用的PReLu激活函数可以使识别网络的收敛速度更快。可选的，卷积层的卷积核的大小可以为3×3，步长可以为1，填充大小可以为1。

在本实施例中，识别网络包括的第一卷积子网络、第二卷积子网络、第三卷积子网络中每个卷积子网络的网络结构均包括卷积层、批归一化层和激活层，这样通过各卷积子网络能够进行准确地特征提取，提高了提取的特征的准确度，进而可以根据各卷积子网络提取出的特征，对待识别汉字的类别进行准确地识别；另外，每个卷积子网络的网络结构包括的激活层能够加快网络的收敛速度，使网络收敛的更快。

为了便于本领域技术人员的理解，以下对本申请提供的识别网络进行详细介绍，如图4所示，该网络包括：一个第一卷积子网络(Block A)、三个第二卷积子网络(Block B)、一个第三卷积子网络(Block C)和一个膨胀子网络(Block D)。其中，第一卷积子网络包括一个卷积层(conv1)和一个池化层(pool1)，第二卷积子网络包括两个卷积层(conv2和conv3)和一个池化层(pool2)，第三卷积子网络包括三个卷积层(conv8、conv9和conv10)和一个池化层(pool5)，这里需要说明的是，卷积层conv1、conv2……conv10的结构均包括一个卷积层(Conv)、一个批归一化层(BN)和激活层(PReLU)，即Conv-BN-PReLU结构；膨胀子网络包括第一膨胀卷积层(dilate_conv1)、第二膨胀卷积层(dilate_conv2)、第三膨胀卷积层(dilate_conv3)、第四膨胀卷积层(dilate_conv4)和分类层(sum_dilate)，更进一步地，分类层(sum_dilate)包括三个全连接层(fc1、fc2和output)，由此，可以看出识别网络的网络总体包括10个Conv-BN-PReLU结构、4个相同的膨胀卷积层和3个全连接层，故可以将该识别网络命名为HCCR(Handwritten Chinese Character Recognition，手写中文字符识别)14网络。示例性地，请参照图4，图4以输入的待识别汉字图像的大小为96*96，对识别网络对待识别汉字图像中的待识别汉字所属的类别的识别过程进行了说明。

在上述将待识别汉字图像输入预设的识别网络的场景中，识别网络为预先训练好的网络，在一个实施例中，如图5所示，在上述实施例的基础上，作为一种可选的实施方式，上述识别网络的训练过程包括：

S501，获取样本待识别汉字图像和样本待识别汉字图像中的样本待识别汉字的标签。

具体地，计算机设备首先获取样本待识别汉字图像和样本待识别汉字图像中的样本待识别汉字的标签。可选的，计算机设备可以首先获取包含有手写汉字的样本图像，然后对该样本图像中的手写汉字进行分割，得到样本待识别汉字图像，可以理解的是，获取的包含有手写汉字的样本图像中包括多少个汉字，计算机设备就可以得到对应个数的样本待识别汉字图像。可选的，计算机设备可以从汉字数据库中获取包含有手写汉字的样本图像。可选的，计算机设备可以根据预设的分割模板对包含有手写汉字的样本图像中的汉字进行分割，得到上述样本待识别汉字图像，也可以将包含有手写汉字的样本图像输入预设的分割模型中，对包含有手写汉字的样本图像中的汉字进行分割，得到上述样本待识别汉字图像。可选的，计算机设备可以从上述汉字数据库中获取样本待识别汉字图像中的样本待识别汉字的标签。示例性地，计算机设备可以从CASIA-HWDB1.0和CASIA-HWDB1.1手写汉字数据集中获取样本待识别汉字图像和样本待识别汉字图像中的样本待识别汉字的标签。

S502，将样本待识别汉字图像输入预设的初始识别网络，通过初始识别网络对样本待识别汉字进行识别，得到样本待识别汉字的样本类别。

具体地，计算机设备将获取的样本待识别汉字图像输入预设的初始识别网络，通过该初始识别网络对样本待识别汉字进行识别，得到样本待识别汉字的样本类别。这里需要说明的是，预设的初始识别网络的网络结构与上述实施例中描述的识别网络的网络结构相同，本实施例在此不再赘述。以计算机设备采用的训练集为CASIA-HWDB1.0和CASIA-HWDB1.1为例，该训练集中包括267万个训练样本，分为3755类，每一类代表一个汉字，计算机设备在对初始识别网络进行训练时，得到的样本待识别汉字的样本类别可以为这3755类中任一类。

S503，根据样本类别和样本待识别汉字的标签，得到自适应边距损失函数的值，根据自适应边距损失函数的值，对初始识别网络进行训练，得到识别网络。

具体地，计算机设备根据得到的样本待识别汉字的样本类别和获取的样本待识别汉字的标签，得到自适应边距损失函数的值，根据自适应边距损失函数的值，对初始识别网络进行训练，直至自适应边距损失函数的值达到稳定值时，得到上述识别网络。其中，计算机设备可以根据得到的样本待识别汉字的样本类别和获取的样本待识别汉字的标签，以及上述S202中的自适应边距损失函数的公式，得到自适应边距损失函数的值。需要说明的是，在实际测试中，以测试集包括22个样本为例，训练好的识别网络在该测试集上获得了97.45％的识别准确率。

在本实施例中，计算机设备通过将获取的样本待识别汉字图像输入预设的初始识别网络，通过初始识别网络能够对样本待识别汉字进行识别，得到样本待识别汉字的样本类别，这样计算机设备可以根据数据量较多的样本待识别汉字图像中的样本待识别汉字的标签和得到的样本待识别汉字的样本类别，得到自适应边距损失函数的值，进而可以根据得到的自适应边距损失函数的值，对初始识别网络进行准确地训练，从而提高了得到的识别网络的准确度。

为了便于本领域技术人员的理解，以下对本申请提供的汉字识别方法进行详细介绍，该方法可以包括：

S601，根据Softmax损失函数，得到自适应边距损失函数。

S602，构建初始识别网络；其中，初始识别网络包括一个第一卷积子网络、三个第二卷积子网络、一个第三卷积子网络和一个膨胀子网络；第一卷积子网络包括一个卷积层和一个池化层；第二卷积子网络包括两个卷积层和一个池化层，第三卷积子网络包括三个卷积层和一个池化层，且各卷积层的结构为Conv-BN-PReLU结构；膨胀子网络包括第一膨胀卷积层、第二膨胀卷积层、第三膨胀卷积层、第四膨胀卷积层和分类层；且第一膨胀卷积层、第二膨胀卷积层、第三膨胀卷积层、第四膨胀卷积层中各膨胀卷积层的膨胀系数均不相同。

S603，获取样本待识别汉字图像和样本待识别汉字图像中的样本待识别汉字的标签。

S604，将样本待识别汉字图像输入预设的初始识别网络，通过初始识别网络对样本待识别汉字进行识别，得到样本待识别汉字的样本类别。

S605，根据样本类别和样本待识别汉字的标签，得到自适应边距损失函数的值，根据自适应边距损失函数的值，对初始识别网络进行训练，得到识别网络。

S606，获取待识别汉字图像。

S607，将待识别汉字图像输入预设的识别网络，通过识别网络对待识别汉字图像中的待识别汉字进行识别，得到待识别汉字的类别。

需要说明的是，针对上述S601-S607中的描述可以参见上述实施例中相关的描述，且其效果类似，本实施例在此不再赘述。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种汉字识别装置，包括：第一获取模块和识别模块，其中：

第一获取模块，用于获取待识别汉字图像。

识别模块，用于将待识别汉字图像输入预设的识别网络，通过识别网络对待识别汉字图像中的待识别汉字进行识别，得到待识别汉字的类别；其中，识别网络为根据样本图像和自适应边距损失函数进行训练所得到的，不同类别的汉字在自适应边距损失函数中所占的权重不同。

本实施例提供的汉字识别装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在上述实施例的基础上，可选的，上述识别网络包括第一卷积子网络、第二卷积子网络、第三卷积子网络和膨胀子网络；识别模块包括：第一获取单元、第二获取单元、第三获取单元和识别单元，其中：

第一获取单元，用于将待识别汉字图像输入第一卷积子网络，通过第一卷积子网络对待识别汉字图像进行特征提取，得到待识别汉字图像的第一特征图。

第二获取单元，用于将第一特征图输入第二卷积子网络，通过第二卷积子网络对第一特征图进行特征提取，得到第二特征图。

第三获取单元，用于将第二特征图输入第三卷积子网络，通过第三卷积子网络对第二特征图进行特征提取，得到第三特征图。

识别单元，用于将第三特征图输入膨胀子网络，通过膨胀子网络对第三特征图进行特征提取并分类，得到待识别汉字的类别。

可选的，膨胀子网络包括第一膨胀卷积层、第二膨胀卷积层、第三膨胀卷积层、第四膨胀卷积层和分类层；其中，第一膨胀卷积层、第二膨胀卷积层、第三膨胀卷积层、第四膨胀卷积层中各膨胀卷积层的膨胀系数均不相同。

可选的，第一卷积子网络、第二卷积子网络、第三卷积子网络中每个卷积子网络的网络结构均包括卷积层、批归一化层和激活层。

在上述实施例的基础上，可选的，识别单元，具体用于将第三特征图输入第一膨胀卷积层，得到第四特征图；将第三特征图输入第二膨胀卷积层，得到第五特征图；将第三特征图输入第三膨胀卷积层，得到第六特征图；将第三特征图输入第四膨胀卷积层，得到第七特征图；将第四特征图、第五特征图、第六特征图和第七特征图输入分类层，得到待识别汉字的类别。

在上述实施例的基础上，可选的，识别单元，具体用于将第四特征图、第五特征图、第六特征图和第七特征图输入分类层进行特征融合，根据融合后的特征得到待识别汉字的类别。

在上述实施例的基础上，可选的，上述装置还包括：第二获取模块、第三获取模块和训练模块，其中：

第二获取模块，用于获取样本待识别汉字图像和样本待识别汉字图像中的样本待识别汉字的标签。

第三获取模块，用于将样本待识别汉字图像输入预设的初始识别网络，通过初始识别网络对样本待识别汉字进行识别，得到样本待识别汉字的样本类别。

训练模块，用于根据样本类别和样本待识别汉字的标签，得到自适应边距损失函数的值，根据自适应边距损失函数的值，对初始识别网络进行训练，得到识别网络。

关于汉字识别装置的具体限定可以参见上文中对于汉字识别方法的限定，在此不再赘述。上述汉字识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别汉字图像；

将待识别汉字图像输入预设的识别网络，通过识别网络对待识别汉字图像中的待识别汉字进行识别，得到待识别汉字的类别；其中，识别网络为根据样本图像和自适应边距损失函数进行训练所得到的，不同类别的汉字在自适应边距损失函数中所占的权重不同。

上述实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别汉字图像；

上述实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种汉字识别方法，其特征在于，所述方法包括：

获取待识别汉字图像；

2.根据权利要求1所述的方法，其特征在于，所述识别网络包括第一卷积子网络、第二卷积子网络、第三卷积子网络和膨胀子网络；所述将所述待识别汉字图像输入预设的识别网络，通过所述识别网络对所述待识别汉字图像中的待识别汉字进行识别，得到所述待识别汉字的类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述膨胀子网络包括第一膨胀卷积层、第二膨胀卷积层、第三膨胀卷积层、第四膨胀卷积层和分类层；其中，所述第一膨胀卷积层、所述第二膨胀卷积层、所述第三膨胀卷积层、所述第四膨胀卷积层中各膨胀卷积层的膨胀系数均不相同。

4.根据权利要求3所述的方法，其特征在于，所述将所述第三特征图输入所述膨胀子网络，通过所述膨胀子网络对所述第三特征图进行特征提取并分类，得到所述待识别汉字的类别，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第四特征图、所述第五特征图、所述第六特征图和所述第七特征图输入所述分类层，得到所述待识别汉字的类别，包括：

6.根据权利要求2所述的方法，其特征在于，所述第一卷积子网络、第二卷积子网络、第三卷积子网络中每个卷积子网络的网络结构均包括卷积层、批归一化层和激活层。

7.根据权利要求1所述的方法，其特征在于，所述识别网络的训练过程包括：

8.一种汉字识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取待识别汉字图像；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。