CN108710866A

CN108710866A - 汉字模型训练方法、汉字识别方法、装置、设备及介质

Info

Publication number: CN108710866A
Application number: CN201810563512.7A
Authority: CN
Inventors: 吴启; 周罡
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-10-26
Anticipated expiration: 2038-06-04
Also published as: CN108710866B; WO2019232874A1

Abstract

本发明公开了一种汉字模型训练方法、汉字识别方法、装置、设备及介质，该汉字模型训练方法，包括：获取字体图像训练样本，采用中文二级字库对字体图像训练样本中的手写字图像进行标注，并按预设分配规则将字体图像训练样本分为训练集和测试集；将训练集输入到卷积循环神经网络模型中，采用基于连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型；将测试集输入到初始手写字识别模型中，获取识别准确率，若识别准确率大于预设准确率，则确定初始手写字识别模型为目标手写字识别模型。该目标手写字识别模型可以较准确地识别手写字。

Description

汉字模型训练方法、汉字识别方法、装置、设备及介质

技术领域

本发明涉及手写字识别领域，尤其涉及一种汉字模型训练方法、汉字识别方法、装置、设备及介质。

背景技术

传统汉字的识别方法大多会采用OCR(Optical Character Recognition，光学字符识别)技术进行识别。由于汉字的类别繁多，比如“宋体、楷体、姚体和仿宋”，而且部分汉字的结构比较复杂，比如“魑、魅”，并且汉字中存在着较多的结构相似的字，比如“受和爱”，使得汉字识别准确性无法保证。对标准的、书写简单且规范的句子，采用OCR(光学字符识别)技术可以识别，但是对于手写的字组成的句子，由于每个人的书写习惯不相同且不是标准的横竖撇捺组成的汉字，采用OCR技术识别时，会存在识别不准确的情况，极大限制了识别系统的性能，造成识别的精确度不高，使得识别效果不理想。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提高识别准确度的汉字模型训练方法、装置、设备及介质。

一种汉字模型训练方法，包括：

初始化卷积循环神经网络模型的权值和偏置；

获取字体图像训练样本，采用中文二级字库对所述字体图像训练样本中的手写字图像进行标注，并按预设分配规则将所述字体图像训练样本分为训练集和测试集；

将所述训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出和后向输出，根据所述卷积循环神经网络模型的前向输出和后向输出，采用基于连续时间分类算法的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型；

将所述测试集输入到所述初始手写字识别模型中，获取识别准确率，若所述识别准确率大于预设准确率，则确定所述初始手写字识别模型为目标手写字识别模型。

一种汉字模型训练装置，包括：

模型初始化模块，用于初始化卷积循环神经网络模型的权值和偏置；

训练样本处理模块，用于获取字体图像训练样本，采用中文二级字库对所述字体图像训练样本中的手写字图像进行标注，并按预设分配规则将所述字体图像训练样本分为训练集和测试集；

初始模型获取模块，用于将所述训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出和后向输出，根据所述卷积循环神经网络模型的前向输出和后向输出，采用基于连续时间分类算法的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型；

目标模型获取模块，用于将所述测试集输入到所述初始手写字识别模型中，获取识别准确率，若所述识别准确率大于预设准确率，则确定所述初始手写字识别模型为目标手写字识别模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述汉字模型训练方法的步骤。

一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述汉字模型训练方法的步骤。

基于此，有必要针对上述技术问题，提供一种识别准确度较高的汉字识别方法、装置、设备及介质。

一种汉字识别方法，包括：

获取原始图像，所述原始图像包括手写字和背景图像；

对所述原始图像进行预处理，获取有效图像；

采用核密度估计算法和腐蚀方法对所述有效图像进行处理，去除背景图像，获取包括所述手写字的目标图像；

采用文字定位技术对所述目标图像进行文字定位，获取文本行图像；

将所述文本行图像输入到目标手写字识别模型中进行识别，获取所述文本行图像对应的识别结果，所述目标手写字识别模型是采用上述汉字模型训练方法获取到的。

一种汉字识别装置，包括：

原始图像获取模块，用于获取原始图像，所述原始图像包括手写字和背景图像；

有效图像获取模块，用于对所述原始图像进行预处理，获取有效图像；

目标图像获取模块，用于采用核密度估计算法和腐蚀方法对所述有效图像进行处理，去除背景图像，获取包括所述手写字的目标图像；

文本行图像获取模块，用于采用文字定位技术对所述目标图像进行文字定位，获取文本行图像；

识别结果获取模块，用于将所述文本行图像输入到目标手写字识别模型中进行识别，获取所述文本行图像对应的识别结果，所述目标手写字识别模型是采用上述汉字模型训练方法获取到的。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述汉字识别方法的步骤。

一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述汉字识别方法的步骤。

上述汉字模型训练方法、装置、设备及介质，首先对卷积循环神经网络模型进行初始化设置，然后按照预设分配规则将字体图像训练样本分为训练集和测试集，使用训练集对卷积循环神经网络模型进行训练，并采用基于连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型，保证了初始手写字识别模型是根据时间序列在进行训练的，提高了模型训练的准确性。为了进一步验证初始手写字识别模型对手写字识别的准确性，最后将测试集输入到初始手写字识别模型中进行测试，若初始手写字识别模型对字体图像训练样本的识别准确率大于预设准确率，则表示初始手写字识别模型对字体图像训练样本的识别准确率达到了要求，将该初始手写字识别模型确定为用于识别手写字图像的目标手写字识别模型，使用目标手写字识别模型对手写字进行识别，识别准确性更高。

上述汉字识别方法、装置、设备及介质，通过对原始图像进行放大和灰度化处理，获取灰度图像，然后对灰度图像进行价差标准化处理，获取有效图像。方便后续步骤采用高斯核密度估计算法对有效图像进行分层、二值化、腐蚀和叠加处理，去除背景图像，保留只含有手写字的目标图像。采用文字定位技术对目标图像进行文字定位，获取文本行图像，将获取的文本行图像输入到目标手写字识别模型中识别，通过目标手写字识别模型可以提高手写字识别的精准度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中汉字模型训练方法的一应用场景图；

图2是本发明一实施例中汉字模型训练方法的一流程图；

图3是图2中步骤S30的一具体流程图；

图4是本发明一实施例中汉字模型训练装置的一示意图；

图5是本发明一实施例中汉字识别方法的一流程图；

图6是图5中步骤S52的一具体流程图；

图7是图5中步骤S53的一具体流程图；

图8是图7中步骤S534的一具体流程图；

图9是本发明一实施例汉字识别装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的部分其他实施例，都属于本发明保护的范围。

本发明实施例提供的汉字模型训练方法，可应用在如图1的应用环境中。该汉字模型训练方法的应用环境包括服务器和客户端，其中，客户端通过网络与服务器进行通信，客户端是可与用户进行人机交互的设备，包括但不限于电脑、智能手机和平板等设备。本发明实施例提供的汉字模型训练方法应用于服务器。

在一实施例中，如图2所示，提供一种汉字模型训练方法，该汉字模型训练方法包括如下步骤：

S10：初始化卷积循环神经网络模型的权值和偏置。

其中，卷积循环神经网络(Convolutional-Recurrent Neural Networks，简称C-RNN)模型是由卷积神经网络(Convolutional Neural Networks，简称CNN)模型和循环神经网络(Recurrent Neural Networks，简称RNN)模型组成的一种神经网络模型。卷积循环神经网络模型的前向输出即就是循环神经网络模型的前向输出。卷积循环神经网络模型的输入层、隐藏层和输出层之间存在有对应的权值和偏置，在模型训练时，首先需要对卷积循环神经网络模型中的权值和偏置进行初始化设置，即给卷积循环神经网络中的输入层与隐藏层之间的权值和偏置设置初始值，并给隐藏层和输出层之间的权值和偏置设置初始值。初始化卷积循环神经网络模型的权值和偏置是进行模型训练的一个必要步骤，对卷积循环神经网络模型的权值和偏置进行合理的初始化设置，有利于提高模型训练速度。

S20：获取字体图像训练样本，采用中文二级字库对字体图像训练样本中的手写字图像进行标注，并按预设分配规则将字体图像训练样本分为训练集和测试集。

具体地，服务器从数据库中获取字体图像训练样本，为后续模型训练提供数据来源。其中，字体图像训练样本指用于训练神经网络模型的手写字样本，包括多个手写字图像，手写字图像指携带有不同人手写的汉字的图像。获取字体图像训练样本后，采用中文二级字库中的标准字体对字体图像训练样本中的手写字图像进行标注，获取与手写字图像关联的标签汉字。标签汉字指从二级中文字库获取的与手写字图像匹配的标准字体的汉字，标准字体包括但不限于宋体、楷体和仿宋。如字体图像训练样本中的手写字图像为不同人写的手写字“忍”“饥”“挨”“饿”，采用中文二级字库中的标准字体对字体图像训练样本中不同人写的“忍”“饥”“挨”“饿”，进行标注，中文二级字库中的宋体、楷体或者仿宋对应的“忍”“饥”“挨”“饿”则为各手写字图像对应的标签汉字。

其中，训练集(training set)是用于调整卷积循环神经网络模型中的参数的数据。测试集(test set)是用于测试训练好的卷积循环神经网络模型的识别准确率的数据。具体地，采用十折交叉验证方法将字体图像训练样本划分成训练集和测试集。其中，十折交叉验证方法是一种常用的测试算法准确性的方法。本实施例中，采用十折交叉验证方法将字体图像训练样本按照9：1的比例对进行分类，即将字体图像训练样本分为10组，其中的9组字体图像训练样本作为训练集，用于训练卷积循环神经网络模型，剩余的1组字体图像训练样本作为测试集，用于验证训练好的卷积循环神经网络模型的准确率。

S30：将训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出和后向输出，根据卷积循环神经网络模型的前向输出和后向输出，采用基于连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型。

其中，连续时间分类(Connectionist temporal classification，以下简称CTC)算法指用于解决输入特征和输出标签之间对齐关系不确定的时间序列问题，CTC可以端到端同时优化模型参数和对齐切分的边界的算法。初始手写字识别模型指将训练集中的字体图像训练样本输入到卷积循环神经网络模型中进行训练后的模型。反向传播(BackPropagation)算法是指按照时序状态的反向顺序调整隐藏层与输出层之间的权值和偏置、以及输入层与隐藏层之间的权值和偏置的算法。

具体地，服务器在获取训练集后，对训练集中的手写字图像进行顺序标注，使得手写字图像中的每个手写字都携带有对应的顺序标签。如训练集中手写字图像包含“北京欢迎你”等手写字，对每个手写字进行顺序标注，使得“北”携带有顺序标签“110”，“京”携带有顺序标签“111”，“欢”携带有顺序标签“112”，“迎”携带有顺序标签“113”，“你”携带有顺序标签“114”。然后，将训练集中的手写字图像输入到循环神经网络模型中进行训练，隐藏层通过计算获取对应的前向输出和后向输出，其中，前向输出指按照时间顺序输出的第u个手写字的概率。后向输出是按照时间逆顺序输出的第u个手写字的概率。如“北京欢迎你”假设第u个手写字为“欢”，t-1时刻输出为“京”，根据t-1时刻的输出“京”和t时刻的输入“欢”计算t时刻的输出，该t时刻的输出可能包括“欢、坎和双”，则前向输出指t时刻输出为“欢”概率。假设t+1时刻输出为“迎”，根据t+1时刻的输出“迎”和t时刻的输入“欢”计算t时刻的输出，该t时刻的输出可能包括“欢、坎和双”，则后向输出是指t时刻输出为“欢”概率。

本实施例中，由于采用的是CTC算法更新卷积循环神经网络模型中的权值和偏置，因此，训练集中的手写字图像具体指三个或三个以上手写字形成的单行手写字对应的图像。在卷积循环神经网络模型中，手写字图像的前向输出和后向输出输入到卷积循环神经网络模型中的循环神经网络模型的输出层后，该循环神经网络模型的输出层对前向输出和后向输出进行计算，获取目标输出。其中，目标输出的计算公式为o＝ln(a+b)＝lna+ln(1+e^lnb-lna)，a指前向输出，b指后向输出，o表示目标输出。

获取训练集的目标输出后，卷积循环神经网络模型基于该目标输出和标签汉字构建误差函数，利用误差函数求偏导更新卷积循环神经网络模型中的权值和偏置，从而获取初始手写字识别模型。采用连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，使得权值和偏置的更新是根据训练集中单行手写字对应的手写字图像构建的误差函数进行的更新，解决了输入和输出对齐关系不确定的时间序列问题，保证了初始手写字识别模型是根据时间序列在进行训练的，提高了模型训练的准确性。

S40：将测试集输入到初始手写字识别模型中，获取识别准确率，若识别准确率大于预设准确率，则确定初始手写字识别模型为目标手写字识别模型。

其中，目标手写字识别模型指经过测试集对初始手写字识别模型进行测试后确定的识别准确率符合预设准确率的模型，该目标手写字识别模型可用于识别手写字图像的模型。在初始手写字识别模型训练完成后，将测试集中每一手写字训练样本的手写字图像依次输入到初始手写字识别模型中，获取该初始手写字识别模型的识别准确率。

步骤S40具体包括如下步骤：首先，将测试集中每一手写字训练样本的手写字图像依次输入到初始手写字识别模型中，获取每个手写字图像对应的识别汉字，本实施例中的识别汉字具体指手写字图像经过初始手写字识别模型识别得到的汉字。然后，根据手写字图像对应的识别汉字和标签汉字判断该初始手写字识别模型对手写字图像的识别是否准确，若准确，则将识别准确数量加1，然后根据公式：识别准确率＝识别准确数量/测试集手写字图像的数量，计算该初始手写字识别模型的识别准确率。若该初始手写字识别模型的识别准确率大于预设准确率，则确定该初始手写字识别模型为目标手写字识别模型；反之，若该初始手写字识别模型的识别准确率不大于预设准确率，则需重新进行初始手写字识别模型训练，直至初始手写字识别模型的识别准确率符合要求。其中，预设准确率是预先设置的用于评价初始手写字识别模型的准确率符合预设要求的阈值。例如，预设准确率为82％，测试集在经过初始手写字识别模型的识别后，得到的识别准确率大于82％(如85％或者90％等)，则表示该初始手写字识别模型对手写字训练样本的识别准确率达到了要求，该初始手写字识别模型可以确定为目标手写字识别模型。

本实施例所提供的汉字模型训练方法中，将训练集输入到卷积循环神经网络模型中，获取前向输出和后向输出，然后基于前向输出和后向输出计算目标输出，采用基于连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，获取手写字训练模型，可以有效提高模型训练的准确性。最后将测试集输入到手写字训练模型中进行测试，若手写字训练模型对手写字训练样本的识别准确率大于预设准确率，则表示手写字训练模型对手写字训练样本的识别准确率达到了要求，将该手写字训练模型确定为用于识别手写字图像的目标手写字识别模型，以使获得的目标手写字识别模型对手写字进行识别，具有较高的识别准确性。

在一实施例中，由于卷积循环神经网络模型是由卷积神经网络模型和循环神经网络模型组成的一种神经网络模型，因此在基于卷积循环神经网络模型训练初始手写字识别模型时，需采用卷积神经网络模型和循环神经网络模型进行模型训练。如图3所示，步骤S30，将训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出和后向输出，根据卷积循环神经网络模型的前向输出和后向输出，采用基于连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型，具体包括如下步骤：

S31：将训练集中手写字图像输入到卷积神经网络模型中，获取训练集中手写字图像对应的手写字图像特征。

具体地，卷积神经网络模型包括多层卷积层和池化层。服务器在将训练集中的字体图像训练样本中的手写字图像输入卷积神经网络模型中进行训练，通过每一层卷积层的计算，获取每一层的卷积层的输出，卷积层的输出可以通过公式a_m ^l＝σ(z_m ^l)＝σ(a_m ^l-1*W^l+b^l)计算，其中，a_m ^l表示第l层卷积层的第m个顺序标签的输出，即就是要获取手写字图像对应的手写字图像特征，z_m ^l表示未采用激活函数处理前的第m个顺序标签的输出，a_m ^l-1表示l-1层卷积层的第m个顺序标签输出(即上一层的输出)，σ表示激活函数，对于卷积层采用的激活函数σ为ReLU(Rectified Linear Unit,线性整流函数)，相比其他激活函数的效果会更好，*表示卷积运算，W^l表示第l层的卷积核(权值)，b^l表示第l层卷积层的偏置。若第l层是池化层,则在池化层采用最大池化的下样采样对卷积层的输出进行降维处理，具体公式为a_m ^l＝pool(a_m ^l-1)，其中pool是指下采样计算，该下采样计算可以选择最大池化的方法，最大池化实际上就是在m*m的样本中取最大值。最后通过公式获取输出层的输出，T^(m)表示卷积神经网络模型输出层的输出，该输出即是要获取第m个顺序标签所对应的手写字图像的手写字图像特征，该手写字图像特征携带有顺序标签，该手写字图像特征的顺序标签与该图像标签对应的手写字图像的顺序标签一致。

S32：将训练集中手写字图像对应的手写字图像特征输入到循环神经网络模型中进行训练，获取循环神经网络模型的前向输出和后向输出，循环神经网络模型的前向输出的公式为其中，a(t,u)表示第t时刻第u个手写字图像特征对应的前向输出，表示t时刻输出为空格的概率，l'_u表示手写字图像和空格的总长度，a(t-1,i)表示t-1时刻第i个汉字的前向输出；循环神经网络模型的后向输出的公式为其中，b(t,u)表示第t时刻第u个手写字图像特征对应的后向输出表示t+1时刻输出为空格的概率，a(t+1,i)表示t+1时刻第i个汉字的后向输出。

其中，空格指相邻汉字之间的空白的地方。具体地，将卷积神经网络模型输出的手写字图像特征输入到循环神经网络模型的隐藏层中，根据公式h^(m)＝σ'(U'T^(m-1)+W'T^(m)+b')获取该循环神经网络模型的隐藏层的输出，其中，h^(m)表示第m个顺序标签在循环神经网络模型中的隐藏层的输出，σ'表示循环神经网络模型的隐藏层的激活函数，U'表示卷积神经网络模型的卷积层和循环神经网络模型的隐藏层之间的权值，若第l层是池化层，则U'表示卷积神经网络模型的池化层和循环神经网络模型的隐藏层之间的权值。W'表示隐藏层和隐藏层之间的权值，b'表示输入层和隐藏层之间的偏置，T^(m)表示循环神经网络模型的输入层获取的第m个顺序标签所对应的手写字图像的手写字图像特征。

然后，将循环神经网络模型的隐藏层的输出h^(m)通过公式o^(m)＝V'h^(m)+c'计算输入到循环神经网络模型中的输出层的输入，其中，o^(m)表示循环神经网络模型中输入给输出层的输入，V'表示循环神经网络模型的隐藏层和输出层之间的权值，c'表示隐藏层和输出层之间的偏置。在输出层中根据公式和分别获取循环神经网络模型的前向输出和后向输出，其中，a(t,u)表示第t时刻第u个汉字对应的前向输出，b(t,u)表示第t时刻第u个汉字对应的后向输出。

S33：根据循环神经网络模型的前向输出和后向输出，构建损失函数，并根据损失函数，采用基于连续时间分类算法的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置，获取初始手写字识别模型，损失函数的具体表达式为：其中，x表示输入的汉字，z表示输入的汉字x对应的输出，u表示第u个汉字，z'表示汉字的长度，a(t,u)表示第t时刻第u个汉字对应的前向输出，b(t,u)表示第t时刻第u个汉字对应的后向输出。

具体地，卷积神经网络模型将手写字图像特征输入到循环神经网络模型隐藏层中，根据公式获取手写字图像在隐藏层的前向输出，根据公式获取手写字图像在隐藏层后向输出，然后将前向输出和后向输出输入到输出层，根据公式o＝ln(ab)＝lna+ln(1+e^lnb-lna)获取该手写字图像在循环神经网络模型的输出层的目标输出。

获取目标输出后，将目标输出和标签汉字输入到损失函数中，损失函数的具体表达式为然后根据损失函数获取单行手写字对应的手写字图像的误差E_loss(x,z)。在获取E_loss(x,z)后，通过对E_loss(x,z)求偏导，更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置，获取初始手写字识别模型。其中，求偏导的公式为其中θ表示卷积循环神经网络模型中的权值和偏置的集合。

步骤S31-S33，通过卷积神经网络模型获取训练集中手写字图像对应的手写字图像特征，然后将手写字图像特征输入到循环神经网络模型中进行训练，获取前向输出和后向输出，并根据前向输出和后向输出与标签汉字构建损失函数。最后根据损失函数，采用基于连续时间分类算法的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置，获取初始手写字识别模型，保证模型训练的准确性和速度。

本实施例所提供的汉字模型训练方法中，将训练集输入到卷积循环神经网络模型中，通过卷积神经网络模型，获取手写字图像对应的手写字图像特征，然后将手写字图像特征输入到循环神经网络模型中，采用基于连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，使得卷积循环神经网络模型中的权值和偏置是根据时间序列的手写字图像进行更新的，通过各手写字与前后相邻的手写字之间的关系识别手写字，有效提高了初始手写字识别模型的准确性。为了进一步验证初始手写字识别模型的准确性，将测试集输入到初始手写字识别模型中进行测试，若初始手写字识别模型对字体图像训练样本的识别准确率大于预设准确率，则表示初始手写字识别模型对字体图像训练样本的识别准确率达到了要求，该初始手写字识别模型确定为用于识别手写字图像的目标手写字识别模型，该目标手写字识别模型具有较高的识别准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种汉字模型训练装置，该汉字模型训练装置与上述实施例中汉字模型训练方法一一对应。如图4所示，该汉字模型训练装置包括模型初始化模块10、训练样本处理模块20、初始模型获取模块30和目标模型获取模块40，各功能模块详细说明如下：

模型初始化模块10，用于初始化卷积循环神经网络模型的权值和偏置。

训练样本处理模块20，用于获取字体图像训练样本，采用中文二级字库对字体图像训练样本中的手写字图像进行标注，并按预设分配规则将字体图像训练样本分为训练集和测试集。

初始模型获取模块30，用于将训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出和后向输出，根据卷积循环神经网络模型的前向输出和后向输出，采用基于连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型。

目标模型获取模块40，用于将测试集输入到初始手写字识别模型中，获取识别准确率，若识别准确率大于预设准确率，则确定初始手写字识别模型为目标手写字识别模型。

具体地，卷积循环神经网络模型包括卷积神经网络模型及循环神经网络模型。

训练模型获取模块30包括图像特征获取单元31、模型输出获取单元32和初始模型获取单元33。

图像特征获取单元31，用于将训练集中手写字图像输入到卷积神经网络模型中，获取训练集中手写字图像对应的手写字图像特征。

模型输出获取单元32，用于将训练集中手写字图像对应的手写字图像特征输入到循环神经网络模型中进行训练，获取循环神经网络模型的前向输出和后向输出，循环神经网络模型的前向输出的公式为其中，其中，a(t,u)表示第t时刻第u个手写字图像特征对应的前向输出，表示t时刻输出为空格的概率，l'_u表示手写字图像和空格的总长度，a(t-1,i)表示t-1时刻第i个汉字的前向输出；循环神经网络模型的后向输出的公式为其中，b(t,u)表示第t时刻第u个手写字图像特征对应的后向输出表示t+1时刻输出为空格的概率，a(t+1,i)表示t+1时刻第i个汉字的后向输出。

初始模型获取单元33，用于根据循环神经网络模型的前向输出和后向输出，构建损失函数，并根据损失函数，采用基于连续时间分类算法的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置，获取初始手写字识别模型，损失函数的具体表达式为：其中，x表示输入的汉字，z表示输入的汉字x对应的输出，u表示第u个汉字，z'表示汉字的长度，a(t,u)表示第t时刻第u个汉字对应的前向输出，b(t,u)表示第t时刻第u个汉字对应的后向输出。

在一实施例中，如图5所示，提供一种汉字识别方法，该汉字识别方法具体包括如下步骤：

S51：获取原始图像，原始图像包括手写字和背景图像。

其中，原始图像指没有经过任何处理的特定图像，该特定图像是指需要包括手写字的图像。本实施例中的原始图像包括手写字和背景图像。其中，背景图像是指原始图像上的背景图案对应的图像。该原始图像的获取方式包括但不限于从网页上爬取或者通过访问与服务器相连的数据库上获取，该数据库上的原始图像可以是终端设备预先上传的图像。

S52：对原始图像进行预处理，获取有效图像。

其中，有效图像指原始图像经过预处理后的图像。服务器获取有效图像的具体步骤为：(1)判断原始图像是否为彩色图像，若原始图像为彩色图像，则对原始图像进行灰度化处理，获取灰度图像，使得彩色图像中每个像素对应的三个分量R(红色)、G(绿色)和B(蓝色)可以用一个值替代，有助于简化后续进行极差标准化处理的复杂度。可以理解地，若原始图像不为彩色图像，则原始图像为灰度图像，无需再进行灰度化处理。(2)对灰度图像对应的像素矩阵进行极差标准化处理，获取有效图像。对灰度图像对应的像素矩阵进行极差标准化处理可以在保留像素矩阵中相对关系，同时又可以提高计算速度。

S53：采用核密度估计算法和腐蚀方法对有效图像进行处理，去除背景图像，获取包括手写字的目标图像。

目标图像指仅包含手写字部分的图像。核密度估计算法是一种从数据样本本身出发研究数据分布特征，用于估计概率密度函数的非参数方法。核密度估计算法的具体公式为表示像素的估计概率密度，K(.)为核函数，h为像素范围，x为要估计概率密度的像素，x_i为h范围内的第i个像素，n为h范围内像素为x的个数。腐蚀方法指对图像进行腐蚀处理的方法，其中，腐蚀指去除图像中背景图像的部分，仅保留手写字的部分。

本实施例中，采用核密度估计算法的公式对有效图像对应的频率分布直方图进行处理，获取频率分布直方图对应的平滑曲线，根据平滑曲线上的极小值和极大值，获取极小值和极大值对应的像素，然后根据极大值和极小值对应的像素对有效图像进行分层处理，在分层处理后，对分层处理后的图像进行腐蚀处理，去除背景图像，保留手写字部分。最后将经过分层和腐蚀处理的图像进行叠加处理，获取包括手写字的目标图像。其中，叠加处理指将分层后的仅保留有手写字部分的图像叠加成一个图像的处理过程，从而实现获取包括手写字的目标图像的目的。

S54：采用文字定位技术对目标图像进行文字定位，获取文本行图像。

其中，文字定位技术指对文字区域进行定位的技术。文字定位技术包括但不限于文本检测(Connectionist Text Proposal Network，以下简称CTPN)技术和光学字符识别(Optical Character Recognition,OCR)技术。其中，CPTN指用于进行图像文字检测的常用网络技术。OCR技术是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的技术。一般分为两个步骤：1.文字定位，即找到文字在图片中的位置；2.文字识别，即识别出找到的文字。本实施例中，采用OCR技术中文字定位的步骤。

具体地，以OCR技术为例进行文字定位的步骤如下：

(1)先采用邻近搜索方法从步骤S5342中获取的连通区域中，任意选取一个连通区域作为起始连通区域，计算剩余连通区域(除其实区域外的其他连通区域)与该起始连通区域之间的距离，选取区域距离小于预设阈值的连通区域作为目标连通区域，以便确定膨胀操作的方向(即上、下、左和右)。其中，预设阈值是预先设定好的用于判断两个连通区域之间的距离的阈值。邻近搜索方法是指从一个起始连通区域出发，可以找到该起始连通区域的水平外切矩形，将连通区域扩展到整个矩形，当该起始连通区域与最邻近区域的距离小于预设阈值时，对这个矩形进行膨胀操作，其膨胀的方向是最邻近区域的所在方向的方法。只有当膨胀方向为水平方向时，进行膨胀操作。其中，区域距离是指两个连通区域的距离，若按照临近边界进行计算时，还需要减去区域长度，即通过公式计算得出x'_c，通过公式计算得出y'_c，即得到在获取(x'_c,y'_c)后，根据区域距离的计算公式获取区域距离，其中，S为起始连通区域，S'为剩余连通区域，(x_c,y_c)为两个连通区域间的中心向量差，(x',y')表示剩余连通区域S'所在矩形的左上角的坐标点，(w',z')表示剩余连通区域S'所在矩形的右下角的坐标点，(x,y)表示起始连通区域S所在矩形的左上角的坐标点，(w,z)表示起始连通区域S所在矩形的右下角的坐标点，本实施例中将(x,y)对应的点(即起始连通区域S所在矩形的左上角的坐标点)作为原点。

(2)基于目标连通区域的方向确定膨胀操作的方向，按照确定的膨胀方向对起始连通区域进行膨胀处理，获取文本行图像。其中，膨胀处理是腐蚀处理是用于形态学中将图像进行扩大的处理。采用MATLAB中内置的imdilate函数对二值化图像的连通区域进行腐蚀处理。文本行图像指采用文字定位技术获取的单行手写字对应的图像。具体地，对起始连通区域进行膨胀处理包括如下步骤：选取一个n×n的结构元素，本实施例中是以像素矩阵中每个元素相邻的8个元素值作为该元素的连通区域的，因此，选取的结构元素为3×3的像素矩阵。结构元素是一个n×n的像素矩阵，其中的矩阵元素包括0或1，按照目标连通区域的方向，对连通区域进行扫描，将结构元素与目标连通区域方向上被结构元素覆盖的连通区域进行逻辑与运算，若结果都为0，则保持不变；若不全为0，则将结构元素覆盖的像素矩阵都变为1，该变为1的部分则为起始连通区域被膨胀的部分。逻辑与运算的运算规则为0&&0＝0，0&&1＝0，1&&0＝0，1&&1＝1。其中，&&为逻辑与运算符号。对目标图像进行文字定位，获取文本行图像，可以节省模型的识别时间，同时可以提高识别结果的准确性。

S55：将文本行图像输入到目标手写字识别模型中进行识别，获取文本行图像对应的识别结果，目标手写字识别模型是采用上述汉字模型训练方法获取到的。

其中，目标手写字识别模型是预先训练好的用于识别手写字的模型。识别结果指识别概率大于预设概率的手写字图像经过卷积循环神经网络模型识别获取的结果。具体地，将文本行图像输入到目标手写字识别模型中，获取每一文本行图像对应的识别概率，该识别概率是指经过目标手写字模型识别获取的该文本行图像对应的汉字的概率。将识别概率和预设概率进行比较，若识别概率大于预设概率，则获取对应的识别结果，有助于提高识别结果的准确性。

如预设概率为85％，将“北京欢迎你”对应的文本行图像输入到目标手写字识别模型中，获取的识别结果可能可能为“北京欢迎你”、“北京坎迎你”和“北京双迎你”，其中，“北京欢迎你”对应的识别概率为99％，“北京坎迎你”和“北京双迎你”的识别概率分别为50％和60％，将识别概率和预设概率进行比较，99％大于85％，对应的识别结果则为“北京欢迎你”。

本实施例所提供的汉字识别方法，通过对原始图像进行预处理，获取有效图像，并采用核密度估计算法和腐蚀方法对有效图像进行处理，去除背景图像的部分，保留仅含有手写字的目标图像，可以节省模型的识别时间。采用文字定位技术对目标图像进文字定位，获取文本行图像，将获取的文本行图像输入到目标手写字识别模型中识别，基于文本行图像对应的识别概率值，获取识别结果。采用目标手写字识别模型对文本行图像进行识别，可以提高识别准确率。

在一实施例中，如图6所示，步骤S52，对原始图像进行预处理，获取有效图像，具体包括如下步骤：

S521：对原始图像进行放大和灰度化处理，获取灰度图像。

由于在原始图像中，手写字本身的尺寸相对于背景图像而言较小，在对原始图像进行灰度化处理时，手写字容易被误处理掉，因此，为了保证手写字不会再灰度化处理时被误清除，需要对原始图像对应的每个像素进行放大处理，如原始图像中第n个像素的大小为x_n，对原始图像中的每个像素进行幂次放大处理，使得x_n变为x_n ²。本实施例中，将原始图像中的像素进行放大处理，可以有效避免在对原始图像进行灰度化处理时，手写字被误处理掉。

在原始图像进行放大处理后，若原始图像不是灰度图像而是彩色图像时，则需要对原始图像进行灰度化处理，获取灰度图像。可以理解地，若原始图像为灰度图像，则不需要进行灰度化处理。当原始图像为彩色图像时，对原始图像进行灰度化处理的具体步骤为：采用公式Y＝0.299R+0.587G+0.114B对原始图像中的每个像素进行处理，获取每个像素对应的采样像素，依据该采样像素形成灰度图像；其中，R(红色)、G(绿色)和B(蓝色)是原始图像中的三个分量，采样像素是灰度图像中用于替换彩色图像中R、G和B三个分量对应的像素。

对原始图像为彩色图像进行灰度化处理，有效减少了后续步骤获取有效图像时需要处理的数据量和计算的复杂度。

S522：对灰度图像对应的像素矩阵进行极差标准化处理，获取有效图像，其中，极差标准化处理的公式为x是标准化前有效图像的像素，x'是标准化后有效图像的像素，M_min是灰度图像对应的像素矩阵M中最小的像素，M_max是灰度图像对应的像素矩阵M中最大的像素。

其中，极差标准化处理是对数据进行处理，使数据压缩在(0，1)范围内的处理方法。对灰度图像对应的像素矩阵进行价差标准化处理并乘上255，可以方便对像素矩阵中的数据进行处理，同时保留像素矩阵中各像素的相互关系。灰度图像中，背景图像和每个手写字都有各自对应的像素矩阵。在获取灰度图像中的背景图像和每个手写字对应的像素矩阵后，对像素矩阵进行极差标准化处理，获取极差标准化处理后的像素矩阵对应的有效图像。对像素矩阵进行极差标准化处理，能够提高获取包括手写字的目标图像的处理速度。

步骤S521-S522，通过对原始图像进行放大处理，可以有效避免在对原始图像在下一个步骤中对原始图像进行灰度化处理时，将手写字误处理掉的情况发生。对原始图像进行灰度化处理，获取灰度图像可以减少后续步骤中需要处理的数据量。对灰度图像进行极差标准化处理，能够提高获取包括手写字的目标图像的处理速度。

在一实施例中，如图7所示，步骤S53，采用核密度估计算法和腐蚀方法对有效图像进行处理，去除背景图像，获取包括手写字的目标图像，具体包括如下步骤：

S531：对有效图像中的像素出现的次数进行统计，获取有效图像对应的频率分布直方图。

其中，频率分布直方图的横轴表示样本数据的连续值，横轴上的每个小区间对应一个组的组距，作为小矩形的底边；纵轴表示频率与组距的比值，并用该比值作为小矩形的高，以多个小矩形构成的一组图称为频率直方图。具体地，获取有效图像后，在频率直方图的横轴表示像素为(0，255)之间的连续值，横轴上每个小矩形对应的组距为1，纵轴表示小矩形对应的像素出现的频率与组距的比值，该比值即为对应的小矩形的高。该频率分布直方图可以形象地将有效图像中的像素出现的次数展示出来，使得数据的分布情况一目了然地反映出来。

S532：采用高斯核密度估算方法对频率分布直方图进行处理，获取频率分布直方图对应的频率极大值和频率极小值，并根据频率极大值和频率极小值获取对应的像素。

高斯核密度估算方法指核函数为高斯核的核密度估算方法。其中，高斯核对应的函数为其中，K_(x)指像素(自变量)为x的高斯核函数，x指像素，e和π为常数。频率极大值指在频率分布直方图中，频率值大小为极大值的频率值；频率极小值指在频率分布直方图中，频率值大小为极小值的频率值。具体地，采用高斯核密度函数估算方法对获取的有效图像对应的频率分布直方图进行高斯平滑处理，获取该频率分布直方图对应的高斯平滑曲线。基于该高斯平滑曲线上的频率极大值和频率极小值，获取频率极大值和频率极小值对应横轴上的像素。本实施例中，获取频率极大值和频率极小值对应的像素，便于后续对有效图像进行分层区分，获取分层图像。

S533：基于频率极大值和频率极小值对应的像素对有效图像进行分层处理，获取分层图像。

分层图像指基于频率极大值和频率极小值对有效图像进行分层处理得到的图像。获取频率极大值和频率极小值对应的像素，根据频率极大值对应的像素对有效图像进行分层处理，有效图像中有多少个频率极大值，对应的有效图像的像素就被聚类为多少类，该有效图像就会被分为几层。然后以频率极小值对应的像素作为类之间的边界值,根据类之间的边界则可以每一层分层图像对应的像素。

如有效图像中的频率极大值对应的像素分别为12、54、97、113、159、172，频率极小值对应的像素分别为26、69、104、139和163，根据有效图像中的频率极大值的个数可以确定该有效图像的像素可以被分为6类，该有效图像可以被分为6层，频率极小值对应的像素作为类之间的边界值，由于最小的像素为0，最大的像素为255，因此，根据类之间的边界值则可以确定以像素为12的分层图像，该分层图像对应的像素范围为[0,26)；以像素为54的分层图像，该分层图像对应的像素范围为[26,69)；以像素为97的分层图像，该分层图像对应的像素范围为[69,104)；以像素为113的分层图像，该分层图像对应的像素范围为[104,139)；以像素为159的分层图像，该分层图像对应的像素范围为[139,163)；以像素为172的分层图像，该分层图像对应的像素范围为[163,255]。

S534：对分层图像进行腐蚀和叠加处理，获取包括手写字的目标图像。

获取分层图像后，对分层图像进行二值化处理。其中，二值化处理是指将图像上的像素设置为0(黑色)或1(白色)，将整个图像呈现出明显的黑白效果的处理。对分层图像进行二值化处理后，对二值化处理后的分层图像进行腐蚀处理，去除背景图像部分，保留分层图像上的手写字部分。其中，腐蚀处理是用于形态学中去除图像的某部分的内容的操作。由于每个分层图像上的像素是属于不同范围的像素，因此，对分层图像进行腐蚀处理后，还需要将每个分层图像叠加，生成仅含有手写字的目标图像。

步骤S531-S534，通过获取有效图像对应的频率分布直方图，并根据频率分布直方图获取频率极大值和频率极小值对应的像素，从而获取分层图像。最后对分层图像进行二值化、腐蚀和叠加处理，完成对原始图像中手写字和背景图像的识别，去除背景图像，获取包括手写字的目标图像。

在一实施例中，如图8所示，步骤S534中，对分层图像进行腐蚀和叠加处理，获取包括手写字的目标图像，具体包括如下步骤：

S5341：对分层图像进行二值化处理，获取分层二值化图像。

分层二值化图像指对分层图像进行二值化处理获取的图像。具体地，获取分层图像后，基于分层图像的采样像素和预先选取的阈值进行比较，将采样大于等于阈值的像素设置为1，小于阈值的像素设置为0的过程。本实施例中，0代表背景像素，1代表目标像素(手写字像素)。该阈值可以通过计算分层图像的类间方差获取，也可以根据经验值获取。阈值的大小会影响分层图像二值化处理的效果，若阈值选取合适，则对分层图像进行二值化处理的效果就比较好，相应地，若阈值选取不合适，则影响分层图像二值化处理的效果。为了方便操作，简化计算过程，本实施例中的阈值根据经验值确定。

S5342：对分层二值化图像中的像素进行检测标记，获取分层二值化图像对应的连通区域。

其中，连通区域是指某一特定像素周围的邻接像素所围成的区域。如某特定像素为0，其周围的邻接像素为1，则将邻接像素所围成的区域作为连通区域。

获取每个分层图像对应的分层二值化图像后，对分层二值化图像对应的像素矩阵进行逐行扫描，将符合连通规则(4邻域连通或者8邻域连通)的像素向相同的标号标记出来。4邻域连通指一个特定像素与上、下、左、右四个方向相邻的像素相同的情况；8邻域连通指一个特定像素上、下、左、右、左上、左下、右上、右下八个方向相邻的像素相同的情况。

具体地，像素矩阵包括行和列。对二值化图像中的像素进行检测标记的具体过程为：(1)逐行扫描像素矩阵，把每行中连续为1的像素(目标像素)组成一个序列，该序列称为团，标记好该团的起点、终点以及所在的行号。团的起点指团的第一个像素，团的终点指团的最后一个像素。(2)对像素矩阵中除了第行外的剩余行里的团，比较某一特定剩余行中的团与前行中的所有团是否有重合区域，若没有重合区域，则给该特定剩余行中的团一个新的标号；如果该特定剩余行中的团仅与上行中一个团有重合区域，则将上行的该团的标号赋给它；如果该特定剩余行与上行中有两个以上的团有重合区域，则给对应的团赋一个相关联团的最小标号，并将上行的这几个团中的标记写入等价对，说明它们属于一类。其中，相关联团指与特定剩余行的团有重合区域的上行的团；等价对指相互连通的团上的标号。

例如，一像素矩阵中的特定剩余行为第三行，该第三行中有两个团(A,B)，其中A团与第二行中的两个团(该两个团的标号为1，2)有重合区域，则将第二行中的两个团的最小标号1赋给该A团，A团的标号为1，并将A团、1团和2团对应的标号记为等价对，即将(1，2)记为等价对。标号为1和标号为2的团则称为一个连通区域。

S5343：对分层二值化图像对应的连通区域进行腐蚀和叠加处理，获取包括手写字的目标图像。

采用MATLAB中的imerode函数或者Open CV中的cvErode函数对分层二值化图像的连通区域进行腐蚀处理。具体地，选取一个结构像素，本实施例是以像素矩阵中某个特征像素相邻的8个像素作为该特征像素的连通区域的，因此，选取的结构像素3×3的像素矩阵。使用结构像素对分层二值化图像的像素矩阵进行扫描，比较分层二值化图像中的像素矩阵与结构像素是否完全一致，若完全一致时，则像素矩阵中对应的9个像素为都变为1；若不完全一致，则像素矩阵中对应的9个像素都变为0，其中，0(黑色)则为分层二值化图像被腐蚀的部分。

基于预先设置的手写字区域抗腐蚀能力范围对分层二值化图像进行筛选，对于不在手写字区域抗腐蚀能力范围内的分层二值化图像部分删除，获取分层二值化图像中在手写字区域抗腐蚀能力范围内的部分。对筛选出的符合手写字区域抗腐蚀能力范围的每个分层二值化图像部分对应的像素矩阵进行叠加，就可以获取到仅含有手写字的目标图像。其中，手写字区域抗腐蚀能力可以采用公式：计算，s₁表示分层二值化图像中被腐蚀后的总面积，s₂表示分层二值化图像中被腐蚀前的总面积。

如预先设置的手写字区域抗腐蚀能力范围为[0.05,0.8]，根据公式计算每个分层二值化图像被腐蚀后的总面积和分层二值化图像被腐蚀前的总面积的比值。通过计算，分层二值化图像中某区域腐蚀后的总面积和腐蚀前的总面积的比值不在预先设置的手写字区域抗腐蚀能力范围内，则表示该区域的分层二值化图像是手写字，需要保留。分层二值化图像中的某区域腐蚀后的总面积和腐蚀前的总面积的比值在[0.05,0.8]范围内，则表示该区域的分层二值化图像是手写字，需要保留。采用imadd函数对每个分层二值化图像对应的像素矩阵进行叠加，获取含有手写字的目标图像。imadd函数是计算机语言中的一个函数，用于对分层图像进行叠加

步骤S5341-S5343，对分层图像进行二值化处理，获取分层二值化图像，然后对分层二值化图像中的像素进行检测标记，获取分层二值化图像对应的像素矩阵中每个像素的连通区域，采用结构像素对每个像素的连通区域进行检测，对与结构像素不完全一致的像素矩阵中的像素都变为0，像素为0的分层二值化图像为黑色，该黑色部分则是分层二值化图像被腐蚀的部分，通过计算分层二值化图像被腐蚀后的总面积和分层二值化图像被腐蚀前的总面积的比值，判断该比值是否在预先设置的手写字区域抗腐蚀能力范围，去除背景图像，保留手写字，达到获取包括手写字的目标图像的目的。

该汉字识别方法通过对原始图像进行放大和灰度化处理，获取灰度图像，然后对灰度图像进行价差标准化处理，获取有效图像。方便后续步骤采用高斯核密度估计算法对有效图像进行分层、二值化、腐蚀和叠加处理，去除背景图像，保留只含有手写字的目标图像。采用文字定位技术对目标图像进行文字定位，获取文本行图像，将获取的文本行图像输入到目标手写字识别模型中识别，基于文本行图像对应的识别概率值，获取识别结果，可以提高手写字识别的精准度。

在一实施例中，提供一种汉字识别装置，该汉字识别装置与上述实施例中汉字识别方法一一对应。如图9所示，该汉字识别装置包括原始图像获取模块51、有效图像获取模块52、目标图像获取模块53、文本行图像获取模块54和识别结果获取模块55。各功能模块详细说明如下：

原始图像获取模块51，用于获取原始图像，原始图像包括手写字和背景图像。

有效图像获取模块52，用于对原始图像进行预处理，获取有效图像。

目标图像获取模块53，用于采用核密度估计算法和腐蚀方法对有效图像进行处理，去除背景图像，获取包括手写字的目标图像。

文本行图像获取模块54，用于采用文字定位技术对目标图像进行文字定位，获取文本行图像。

识别结果获取模块55，用于将文本行图像输入到目标手写字识别模型中进行识别，获取文本行图像对应的识别结果，目标手写字识别模型是采用上述汉字模型训练方法获取到的。

具体地，有效图像获取模块52包括灰度图像获取单元521和极差标准化处理单元522。

灰度图像获取单元521，用于对原始图像进行放大和灰度化处理，获取灰度图像。

极差标准化处理单元522，用于对灰度图像对应的像素矩阵进行极差标准化处理，获取有效图像，其中，极差标准化处理的公式为x是标准化前有效图像的像素，x'是标准化后有效图像的像素，M_min是灰度图像对应的像素矩阵M中最小的像素，M_max是灰度图像对应的像素矩阵M中最大的像素。

具体地，目标图像获取模块53包括第一处理单元531、第二处理单元532、分层图像获取单元533和分层图像处理单元534。

第一处理单元531，用于对有效图像中的像素出现的次数进行统计，获取有效图像对应的频率分布直方图。

第二处理单元532，用于采用高斯核密度估算方法对频率分布直方图进行处理，获取频率分布直方图对应的频率极大值和频率极小值，并根据频率极大值和频率极小值获取对应的像素。

分层图像获取单元533，用于基于频率极大值和频率极小值对应的像素对有效图像进行分层处理，获取分层图像。

分层图像处理单元534，用于对分层图像进行腐蚀和叠加处理，获取包括手写字的目标图像。

具体地，分层图像处理单元534包括二值化处理单元5341、连通区域获取单元5342和连通区域处理单元5343。

二值化处理单元5341，用于对分层图像进行二值化处理，获取分层二值化图像。

连通区域获取单元5342，用于对分层二值化图像中的像素进行检测标记，获取分层二值化图像对应的连通区域。

连通区域处理单元5343，用于对分层二值化图像对应的连通区域进行腐蚀和叠加处理，获取包括手写字的目标图像。

在一实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标手写字识别模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种汉字模型训练方法。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：初始化卷积循环神经网络模型的权值和偏置；获取字体图像训练样本，采用中文二级字库对字体图像训练样本中的手写字图像进行标注，并按预设分配规则将字体图像训练样本分为训练集和测试集；将训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出和后向输出，根据卷积循环神经网络模型的前向输出和后向输出，采用基于连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型；将测试集输入到初始手写字识别模型中，获取识别准确率，若识别准确率大于预设准确率，则确定初始手写字识别模型为目标手写字识别模型。

在一实施例中，处理器执行计算机程序时还实现以下步骤：将训练集中手写字图像输入到卷积神经网络模型中，获取训练集中手写字图像对应的手写字图像特征；将训练集中手写字图像对应的手写字图像特征输入到循环神经网络模型中进行训练，获取循环神经网络模型的前向输出和后向输出，前向输出的公式为其中，a(t,u)表示第t时刻第u个手写字图像特征对应的前向输出，表示t时刻输出为空格的概率，l'_u表示手写字图像和空格的总长度，a(t-1,i)表示t-1时刻第i个汉字的前向输出；循环神经网络模型的后向输出的公式为其中，b(t,u)表示第t时刻第u个手写字图像特征对应的后向输出表示t+1时刻输出为空格的概率，a(t+1,i)表示t+1时刻第i个汉字的后向输出；根据循环神经网络模型的前向输出和后向输出，构建损失函数，并根据损失函数，采用基于连续时间分类算法的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置，获取初始手写字识别模型，损失函数的具体表达式为：其中，x表示输入的汉字，z表示输入的汉字x对应的输出，u表示第u个汉字，z'表示汉字的长度，a(t,u)表示第t时刻第u个汉字对应的前向输出，b(t,u)表示第t时刻第u个汉字对应的后向输出。

在一实施例中，提供了一种非易失性存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：初始化卷积循环神经网络模型的权值和偏置；获取字体图像训练样本，采用中文二级字库对字体图像训练样本中的手写字图像进行标注，并按预设分配规则将字体图像训练样本分为训练集和测试集；将训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出和后向输出，根据卷积循环神经网络模型的前向输出和后向输出，采用基于连续时间分类算法的反向传播算法更新卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型；将测试集输入到初始手写字识别模型中，获取识别准确率，若识别准确率大于预设准确率，则确定初始手写字识别模型为目标手写字识别模型。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：将训练集中手写字图像输入到卷积神经网络模型中，获取训练集中手写字图像对应的手写字图像特征；将训练集中手写字图像对应的手写字图像特征输入到循环神经网络模型中进行训练，获取循环神经网络模型的前向输出和后向输出，前向输出的公式为其中，a(t,u)表示第t时刻第u个手写字图像特征对应的前向输出，表示t时刻输出为空格的概率，l'_u表示手写字图像和空格的总长度，a(t-1,i)表示t-1时刻第i个汉字的前向输出；循环神经网络模型的后向输出的公式为其中，b(t,u)表示第t时刻第u个手写字图像特征对应的后向输出表示t+1时刻输出为空格的概率，a(t+1,i)表示t+1时刻第i个汉字的后向输出；根据循环神经网络模型的前向输出和后向输出，构建损失函数，并根据损失函数，采用基于连续时间分类算法的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置，获取初始手写字识别模型，损失函数的具体表达式为：其中，x表示输入的汉字，z表示输入的汉字x对应的输出，u表示第u个汉字，z'表示汉字的长度，a(t,u)表示第t时刻第u个汉字对应的前向输出，b(t,u)表示第t时刻第u个汉字对应的后向输出。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取原始图像，原始图像包括手写字和背景图像；对原始图像进行预处理，获取有效图像；采用核密度估计算法和腐蚀方法对有效图像进行处理，去除背景图像，获取包括手写字的目标图像；采用文字定位技术对目标图像进行文字定位，获取文本行图像；将文本行图像输入到目标手写字识别模型中进行识别，获取文本行图像对应的识别结果，目标手写字识别模型是采用上述汉字模型训练方法获取到的。

在一实施例中，处理器执行计算机程序时还实现以下步骤：对原始图像进行放大和灰度化处理，获取灰度图像；对灰度图像对应的像素矩阵进行极差标准化处理，获取有效图像，其中，极差标准化处理的公式为x是标准化前有效图像的像素，x'是标准化后有效图像的像素，M_min是灰度图像对应的像素矩阵M中最小的像素，M_max是灰度图像对应的像素矩阵M中最大的像素。

在一实施例中，处理器执行计算机程序时还实现以下步骤：对有效图像中的像素出现的次数进行统计，获取有效图像对应的频率分布直方图；采用高斯核密度估算方法对频率分布直方图进行处理，获取频率分布直方图对应的频率极大值和频率极小值，并根据频率极大值和频率极小值获取对应的像素；基于频率极大值和频率极小值对应的像素对有效图像进行分层切分，获取分层图像；对分层图像进行腐蚀和叠加处理，获取包括手写字的目标图像。

在一实施例中，处理器执行计算机程序时还实现以下步骤：对分层图像进行二值化处理，获取分层二值化图像；对分层二值化图像中的像素进行检测标记，获取分层二值化图像对应的连通区域；对分层二值化图像对应的连通区域进行腐蚀和叠加处理，获取包括手写字的目标图像。

在一实施例中，提供了一种非易失性存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取原始图像，原始图像包括手写字和背景图像；对原始图像进行预处理，获取有效图像；采用核密度估计算法和腐蚀方法对有效图像进行处理，去除背景图像，获取包括手写字的目标图像；采用文字定位技术对目标图像进行文字定位，获取文本行图像；将文本行图像输入到目标手写字识别模型中进行识别，获取文本行图像对应的识别结果，目标手写字识别模型是采用上述汉字模型训练方法获取到的。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：对原始图像进行放大和灰度化处理，获取灰度图像；对灰度图像对应的像素矩阵进行极差标准化处理，获取有效图像，其中，极差标准化处理的公式为x是标准化前有效图像的像素，x'是标准化后有效图像的像素，M_min是灰度图像对应的像素矩阵M中最小的像素，M_max是灰度图像对应的像素矩阵M中最大的像素。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：对有效图像中的像素出现的次数进行统计，获取有效图像对应的频率分布直方图；采用高斯核密度估算方法对频率分布直方图进行处理，获取频率分布直方图对应的频率极大值和频率极小值，并根据频率极大值和频率极小值获取对应的像素；基于频率极大值和频率极小值对应的像素对有效图像进行分层切分，获取分层图像；对分层图像进行腐蚀和叠加处理，获取包括手写字的目标图像。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：对分层图像进行二值化处理，获取分层二值化图像；对分层二值化图像中的像素进行检测标记，获取分层二值化图像对应的连通区域；对分层二值化图像对应的连通区域进行腐蚀和叠加处理，获取包括手写字的目标图像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种汉字模型训练方法，其特征在于，包括：

初始化卷积循环神经网络模型的权值和偏置；

2.如权利要求1所述的汉字模型训练方法，其特征在于，所述卷积循环神经网络模型包括卷积神经网络模型及循环神经网络模型；

所述将所述训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出和后向输出，根据所述卷积循环神经网络模型的前向输出和后向输出，采用基于连续时间分类算法的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型，包括：

将训练集中手写字图像输入到卷积神经网络模型中，获取训练集中手写字图像对应的手写字图像特征；

将所述训练集中手写字图像对应的手写字图像特征输入到循环神经网络模型中进行训练，获取所述循环神经网络模型的前向输出和后向输出，所述循环神经网络模型的前向输出的公式为其中，a(t,u)表示第t时刻第u个所述手写字图像特征对应的前向输出，表示t时刻输出为空格的概率，l'_u表示手写字图像和空格的总长度，a(t-1,i)表示t-1时刻第i个汉字的前向输出；所述循环神经网络模型的后向输出的公式为其中，b(t,u)表示第t时刻第u个所述手写字图像特征对应的后向输出表示t+1时刻输出为空格的概率，a(t+1,i)表示t+1时刻第i个汉字的后向输出；

根据所述循环神经网络模型的前向输出和后向输出，构建损失函数，并根据所述损失函数，采用基于连续时间分类算法的反向传播算法更新调整所述循环神经网络模型和所述卷积神经网络模型中的权值和偏置，获取初始手写字识别模型，所述损失函数的具体表达式为：其中，x表示输入的汉字，z表示输入的汉字x对应的输出，u表示第u个汉字，z'表示汉字的长度，a(t,u)表示第t时刻第u个汉字对应的前向输出，b(t,u)表示第t时刻第u个汉字对应的后向输出。

3.一种汉字识别方法，其特征在于，包括：

获取原始图像，所述原始图像包括手写字和背景图像；

对所述原始图像进行预处理，获取有效图像；

将所述文本行图像输入到目标手写字识别模型中进行识别，获取所述文本行图像对应的识别结果，所述目标手写字识别模型是采用权利要求1或2所述汉字模型训练方法获取到的。

4.如权利要求3所述的汉字识别方法，其特征在于，所述对所述原始图像进行预处理，获取有效图像，包括：

对所述原始图像进行放大和灰度化处理，获取灰度图像；

对所述灰度图像对应的像素矩阵进行极差标准化处理，获取有效图像，其中，所述极差标准化处理的公式为x是标准化前有效图像的像素，x'是标准化后有效图像的像素，M_min是所述灰度图像对应的像素矩阵M中最小的像素，M_max是所述灰度图像对应的像素矩阵M中最大的像素。

5.如权利要求3所述的汉字识别方法，其特征在于，所述采用核密度估计算法和腐蚀方法对所述有效图像进行处理，去除背景图像，获取包括所述手写字的目标图像，包括：

对所述有效图像中的像素出现的次数进行统计，获取所述有效图像对应的频率分布直方图；

采用高斯核密度估算方法对所述频率分布直方图进行处理，获取所述频率分布直方图对应的频率极大值和频率极小值，并根据所述频率极大值和频率极小值获取对应的像素；

基于所述频率极大值和所述频率极小值对应的像素对有效图像进行分层切分，获取分层图像；

对所述分层图像进行腐蚀和叠加处理，获取包括所述手写字的目标图像。

6.如权利要求5所述的汉字识别方法，其特征在于，所述对所述分层图像进行腐蚀和叠加处理，获取包括所述手写字的目标图像，包括：

对所述分层图像进行二值化处理，获取分层二值化图像；

对所述分层二值化图像中的像素进行检测标记，获取所述分层二值化图像对应的连通区域；

对所述分层二值化图像对应的连通区域进行腐蚀和叠加处理，获取包括所述手写字的目标图像。

7.一种汉字模型训练装置，其特征在于，包括：

8.一种汉字识别装置，其特征在于，包括：

识别结果获取模块，用于将所述文本行图像输入到目标手写字识别模型中进行识别，获取所述文本行图像对应的识别结果，所述目标手写字识别模型是采用权利要求1或2所述汉字模型训练方法获取到的。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1或2所述汉字模型训练方法的步骤，或者，所述处理器执行所述计算机程序时实现如权利要求3至6任一项所述汉字识别方法的步骤。

10.一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1或2所述汉字模型训练方法的步骤，或者，所述计算机程序被处理器执行时实现如权利要求3至6任一项所述汉字识别方法的步骤。