CN109102037A

CN109102037A - 中文模型训练、中文图像识别方法、装置、设备及介质

Info

Publication number: CN109102037A
Application number: CN201810563508.0A
Authority: CN
Inventors: 高梁梁; 周罡
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-12-28
Anticipated expiration: 2038-06-04
Also published as: CN109102037B; WO2019232853A1

Abstract

本发明公开一种中文模型训练、中文图像识别方法、装置、设备及介质，该中文模型训练方法包括：获取训练手写中文图像；将训练手写中文图像按预设比例划分成训练集和测试集；对训练集中的训练手写中文图像进行顺序标注，并将标注好的训练手写中文图像输入到卷积神经网络‑长短时记忆神经网络中进行训练，采用时序分类算法对卷积神经网络‑长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型；采用测试集中的训练手写中文图像对原始手写字识别模型进行测试，在测试准确率大于预设准确率时，获取目标手写字识别模型。该中文模型训练方法具有训练效率高且识别精度高的优点。

Description

中文模型训练、中文图像识别方法、装置、设备及介质

技术领域

本发明涉及图像识别领域，尤其涉及一种中文模型训练、中文图像识别方法、装置、设备及介质。

背景技术

随着信息时代的发展，人工智能技术作为核心技术越来越多的被用来解决人们生活中的具体问题。目前，在对手写汉字图像进行识别时，由于传统的卷积神经网络或者循环神经网络的输出是固定长度的，并不能满足端到端的手写字识别，需要预先对训练图片中的文字进行定位分割，获取单个字体图像，再对单个字体图像进行训练，训练效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种解决目前手写字识别模型的训练效率低的中文模型训练方法、装置、设备及介质。

一种中文模型训练方法，包括：

获取训练手写中文图像；

将所述训练手写中文图像按预设比例划分成训练集和测试集；

对所述训练集中的训练手写中文图像进行顺序标注，并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，采用时序分类算法对所述卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型；

采用所述测试集中的训练手写中文图像对所述原始手写字识别模型进行测试，在测试准确率大于预设准确率时，获取目标手写字识别模型。

一种中文模型训练装置，包括：

训练手写中文图像获取模块，用于获取训练手写中文图像；

训练手写中文图像划分模块，用于将所述训练手写中文图像按预设比例划分成训练集和测试集；

原始手写字识别模型获取模块，用于对所述训练集中的训练手写中文图像进行顺序标注，并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，采用时序分类算法对所述卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型；

目标手写字识别模型获取模块，用于采用所述测试集中的训练手写中文图像对所述原始手写字识别模型进行测试，在测试准确率大于预设准确率时，获取目标手写字识别模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述中文模型训练方法的步骤。

一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述中文模型训练方法的步骤。

基于此，有必要针对上述技术问题，提供一种解决目前手写字识别不能端到端输出的中文图像识别方法、装置、设备及介质。

一种中文图像识别方法，包括：

获取待识别中文图像，所述待识别中文图像包括手写汉字和背景图片；

对所述待识别中文图像进行预处理，获取原始图像；

采用核密度估计算法对所述原始图像进行处理，去除所述背景图片，获取包括所述手写汉字的目标图像；

采用文字定位技术对所述目标图像进行文字定位，获取待识别文字区域；

将待识别文字区域输入到目标手写字识别模型中进行识别，获取每一所述待识别文字区域对应的手写汉字；其中，目标手写字识别模型是采用所述中文模型训练方法获取的。

一种中文图像识别装置，包括：

待识别中文图像获取模块，用于获取待识别中文图像，所述待识别中文图像包括手写汉字和背景图片；

原始图像获取模块，用于对所述待识别中文图像进行预处理，获取原始图像；

目标图像获取模块，用于采用核密度估计算法对所述原始图像进行处理，去除背景图片，获取包括所述手写汉字的目标图像；

待识别文字区域获取模块，用于采用文字定位技术对所述目标图像进行文字定位，获取待识别文字区域；

手写汉字获取模块，用于将待识别文字区域输入到目标手写字识别模型中进行识别，获取每一所述待识别文字区域对应的手写汉字；其中，目标手写字识别模型是采用所述中文模型训练方法获取的。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述中文图像识别方法的步骤。

一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述中文图像识别方法的步骤。

上述中文模型训练方法、装置、设备及介质，先获取训练手写中文图像并按预设比例将训练手写中文图像划分成训练集和测试集，以便对训练集中的训练手写中文图像进行顺序标注，以使训练手写中文图像具备时序性。将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型，以使模型的输出更加准确。最后，采用测试集中的训练手写中文图像对原始手写字识别模型进行测试，在测试准确率大于预设准确率时，获取目标手写字识别模型，进一步提高了目标手写字识别模型的准确率。

上述中文图像识别方法、装置、设备及介质，服务器获取待识别中文图像，并对待识别中文图像进行预处理，以获取排除干扰因素的原始图像。采用核密度估计算法对原始图像进行处理，去除背景图片，获取只包含手写汉字的目标图像，进一步排除干扰。采用文字定位技术对所述目标图像进行文字定位，获取待识别文字区域，排除干扰。服务器将待识别文字区域输入到目标手写字识别模型中进行识别，使得目标手写字识别模型能够联系上下文进行识别，获取每一待识别文字区域对应的手写汉字，实现端到端的输出，提高识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中中文模型训练方法或中文图像识别方法的一应用场景图；

图2是本发明一实施例中中文模型训练方法的一流程图；

图3是图2中步骤S13的一具体流程图；

图4是本发明一实施例中中文模型训练装置的一示意图；

图5是本发明一实施例中中文图像识别方法的一流程图；

图6是图5中步骤S22的一具体流程图；

图7是图5中步骤S23的一具体流程图；

图8是图7中步骤S234的一具体流程图；

图9是本发明一实施例中中文图像识别装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的中文模型训练方法，可应用在如图1的应用环境中。该中文模型训练方法的应用环境包括服务器和计算机设备，其中，计算机设备通过网络与服务器进行通信，计算机设备是可与用户进行人机交互的设备，包括但不限于电脑、智能手机和平板等设备。本发明实施例提供的中文模型训练方法应用于服务器。

在一实施例中，如图2所示，提供一种中文模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S11：获取训练手写中文图像。

其中，训练手写中文图像是预先从开源库中采集的用于进行模型训练的样本图像。该训练手写中文图像包括中文二级字库中每一中文对应的N(N为正整数)张手写字样本。中文二级字库是按汉字的部首笔划顺序编码的非常用汉字库。具体地，采集开源库中的不同人手写的N张手写字样本，以使服务器获取训练手写中文图像，由于不同用户的书写习惯不同，因此采用N张手写字样本(即训练手写中文图像)进行训练，极大的提高了模型的泛化性。

S12：将训练手写中文图像按预设比例划分成训练集和测试集。

其中，训练集(training set)是学习样本数据集，是通过匹配一些参数来建立分类器，即采用训练集中的目标训练文本数据来训练机器学习模型，以确定机器学习模型的参数。测试集(test set)是用于测试训练好的机器学习模型的分辨能力，如准确率。预设比例是预先设置的用于对训练手写中文图像进行划分的比例。本实施例中，可按照9:1的比例对训练手写中文图像进行划分，即可将90％的训练手写中文图像作为训练集，剩余10％的训练手写中文图像作为测试集。

S13：对训练集中的训练手写中文图像进行顺序标注，并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型。

其中，原始手写字识别模型是经过长短时记忆神经网络多次迭代所得到的模型。长短时记忆神经(long-short term memory，简称LSTM)网络是一种时间递归神经网络，适合于处理和预测具有时间序列，且时间序列间隔和延迟相对较长的重要事件。卷积神经网络(Convolutional Neural Network，CNN))是局部连接网络，相对于全连接网络其最大的特点就是局部连接性和权值共享性。对于一副图像中的某个像素p来说，离像素p越近的像素对其影响也就越大，即局部连接性越大。另外，根据自然图像的统计特性，某个区域的权值也可以用于另一个区域，即权值共享性。权值共享可以理解为卷积核共享，在卷积神经网络(CNN)中，将一个卷积核对给定的图像做卷积运算就可以提取一种中文图像特征，不同的卷积核可以提取不同的中文图像特征。由于卷积神经网络的局部连接性，使得模型的复杂度降低，提高模型训练的效率；并且，由于卷积神经网络的权值共享性，因此卷积神经网络可以并行学习，进一步提高模型训练效率。时序分类算法(Connectionist temporalclassification，简称CTC)，用于解决输入特征和输出标签之间对齐关系不确定的时间序列问题，是一种可以端到端同时优化模型参数和对齐切分的边界的算法。

具体地，服务器按照训练手写中文图像的时间顺序进行标注，并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，获取原始手写字识别模型。可以理解地，每个训练手写中文图像都是按顺序排列的，例如训练手写中文图像为“今天很开心”，则可按照从左到右以阿拉伯数字对每个训练手写中文图像进行标注，即“今(1)天(2)很(3)开(4)心(5)”，以使训练手写中文图像具备时序性，使得原始手写字识别模型能够联系上下文进行训练，提高模型的准确率。其中，(1)、(2)、(3)、(4)和(5)为顺序标签。

长短时记忆神经网络具有输入层、隐藏层和输出层这三层网络结构。其中，输入层是长短时记忆神经网络的第一层，用于接收外界信号，即负责接收训练手写中文图像。输出层是长短时记忆神经网络的最后一层，用于向外界输出信号，即负责输出长短时记忆神经网络的计算结果。隐藏层是长短时记忆神经网络中除输入层和输出层之外的各层，用于对卷积神经网络提取的中文图像特征进行处理，获取长短时记忆神经网络的计算结果。可以理解地，采用长短时记忆神经网络进行模型训练增加了训练手写中文图像的时序性，以便根据上下文对训练手写中文图像进行训练，从而提高了目标手写字识别模型的准确率。

在一实施例中，如图3所示，步骤S13中，即对训练集中的训练手写中文图像进行顺序标注，并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型，具体包括如下步骤：

S131：在卷积神经网络中对训练手写中文图像进行特征提取，获取中文图像特征。

中文图像特征是采用卷积神经网络对训练手写中文图像进行特征提取所获取到的训练手写中文图像对应的图像特征。卷积神经网络模型包括卷积层和池化层。将训练手写中文图像输入卷积神经网络模型中进行训练，通过每一层卷积层的计算，获取每一层的卷积层的输出，卷积层的输出可以通过公式a_m ^l＝σ(z_m ^l)＝σ(a_m ^l-1*W^l+b^l)计算，其中，a_m ^l表示第l层卷积层的第m个顺序标签的输出，即中文图像特征，z_m ^l表示未采用激活函数处理前的第m个顺序标签的输出，a_m ^l-1表示l-1层的第m个顺序标签输出(即第m个顺序标签所对应的训练手写中文图像的中文图像特征)，σ表示激活函数，对于卷积层采用的激活函数σ为ReLu(Rectified Linear Unit,线性整流函数)，相比其他激活函数的效果会更好)，*表示卷积运算，W^l表示第l层的卷积核(权值)，b^l表示第l层的偏置。若第l层是池化层,则在池化层采用最大池化的下样采样对卷积层的输出进行降维处理，具体降维公式为a_m ^l＝pool(a _m ^l-1)，其中，pool是指下采样计算，该下采样计算可以选择最大池化的方法，最大池化实际上就是在m*m的样本中取最大值。可以理解地，该中文图像特征携带有顺序标签，该中文图像特征的顺序标签与该中文图像特征对应的训练手写中文图像的顺序标签一致。

S132：在长短时记忆神经网络的隐藏层采用第一激活函数对中文图像特征进行处理，获取携带激活状态标识的神经元。

其中，长短时记忆神经网络的隐藏层中的每个神经元包括三个门，其分别为输入门、遗忘门和输出门。遗忘门决定了在神经元中所要丢弃的过去的信息。输入门决定了在神经元中所要增加的信息。输出门决定了在神经元中所要输出的信息。第一激活函数是用于激活神经元状态的函数。神经元状态决定了各个门(即输入门、遗忘门和输出门)的丢弃、增加和输出的信息。激活状态标识包括通过标识和不通过标识。本实施例中的输入门、遗忘门和输出门对应的标识分别为i、f和o。

本实施例中，具体选用Sigmoid(S型生长曲线)函数作为第一激活函数，Sigmoid函数是一个在生物学中常见的S型的函数，在信息科学中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0-1之间。其激活函数的计算公式为其中，z表示遗忘门的输出值。

具体地，遗忘门中包括遗忘门限，通过计算每一神经元(中文图像特征)的激活状态，以获取携带激活状态标识为通过标识的神经元。其中，采用遗忘门的计算公式f_t＝σ(W_f·[h_t-1,x_t]+b_f)计算遗忘门哪些信息被接收(即只接收携带激活状态标识为通过标识的神经元)，f_t表示遗忘门限(即激活状态)，W_f表示遗忘门的权重矩阵，b_f表示遗忘门的权值偏置项，h_t-1表示上一时刻神经元的输出，x_t表示t时刻的输入数据(即中文图像特征)，t表示当前时刻，t-1表示上一时刻。遗忘门中还包括遗忘门限，通过遗忘门的计算公式对中文图像特征进行计算会得到一个0-1区间的标量，此标量决定了神经元根据当前状态和过去状态的综合判断所接收过去信息的比例，以达到数据的降维，减少计算量，提高训练效率。

S133：在长短时记忆神经网络的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理，获取长短时记忆神经网络输出层的输出。

具体地，在长短时记忆神经网络的隐藏层中的输入门中，采用第二激活函数携带激活状态标识为通过标识的神经元进行计算，获取隐藏层的输出。本实施例中，由于线性模型的表达能力不够，因此采用tanh(双曲正切)函数作为输入门的激活函数(即第二激活函数)，可加入非线性因素使得训练出的目标手写字识别模型能够解决更复杂的问题。并且，激活函数tanh(双曲正切)具有收敛速度快的优点，可以节省训练时间，提高训练效率。

具体地，通过输入门的计算公式计算输入门的输出。其中，输入门中还包括输入门限，输入门的计算公式为i_t＝σ(W_i·[h_t-1,x_t]+b_i)，W_i为输入门的权值矩阵，i_t表示输入门限，b_i表示输入门的偏置项，通过输入门的计算公式对中文图像特征进行计算会得到一个0-1区间的标量(即输入门限)，此标量控制了神经元根据当前状态和过去状态的综合判断所接收当前信息的比例，即接收新输入的信息的比例，以减少计算量，提高训练效率。

然后，采用神经元状态的计算公式和计算当前神经元状态；其中，W_i为输入门的权值矩阵，W_c表示计算单元状态的权重矩阵，i_t表示输入门限，b_i表示输入门的偏置项，b_c表示单元状态的偏置项，表示上一时刻的神经元状态，C_t表示t时刻神经元状态。通过将神经元状态和遗忘门限(输入门限)进行点乘操作，以便模型只输出所需的信息，提高模型学习的效率。

最后，采用输出门的计算公式o_t＝σ(W_o[h_t-1,x_t]+b_o)计算输出门中哪些信息被输出，再采用公式h_t＝o_t*tanh(C_t)计算t时刻神经元的输出，其中，o_t表示输出门限，W_o表示输出门的权重矩阵，b_o表示输出门的偏置项，h_t表示t时刻神经元的输出(即长短时记忆神经网络输出层的输出)。在隐藏层将长短时记忆神经网络隐藏层的前向输出和长短时记忆神经网络隐藏层的后向输出输入到长短时记忆神经网络的输出层后，在长短时记忆神经网络的输出层采用公式ln(a+b)＝lna+ln(1+e^lnb-lna)对长短时记忆神经网络隐藏层的前向输出和长短时记忆神经网络隐藏层的后向输出进行对数计算，获取目标输出，以便构造损失函数。其中，目标输出即为长短时记忆神经网络输出层的输出，a为长短时记忆神经网络隐藏层的前向输出，b为长短时记忆神经网络隐藏层的后向输出。

其中，长短时记忆神经网络隐藏层的前向输出是指在长短时记忆神经网络隐藏层按照时间顺序输出的第u个顺序标签对应的中文图像特征的概率。后向输出是指在长短时记忆神经网络隐藏层按照时间逆顺序输出的第u个顺序标签对应的中文图像特征的概率。如“我今天心情很好”假设第u个顺序标签对应的中文图像特征为“天”，t-1时刻长短时记忆神经网络隐藏层的输出为“今”，根据t-1时刻长短时记忆神经网络隐藏层的输出“今”和t时刻的长短时记忆神经网络输入层的输入“天”计算t时刻长短时记忆神经网络隐藏层的输出，该t时刻的输出可能包括“天、大和木”，则长短时记忆神经网络隐藏层的前向输出指t时刻长短时记忆神经网络隐藏层的输出为“天”概率。假设t+1时刻长短时记忆神经网络隐藏层的输出为“心”，根据t+1时刻长短时记忆神经网络隐藏层的输出“心”和t时刻的长短时记忆神经网络输入层的输入“天”计算t时刻长短时记忆神经网络隐藏层的的输出，该t时刻长短时记忆神经网络隐藏层的的输出可能包括“天、大和木”，则长短时记忆神经网络隐藏层的后向输出指t时刻输出为“天”概率。

S134：根据长短时记忆神经网络输出层的输出，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取目标手写字识别模型。

卷积神经网络-长短时记忆神经网络的网络参数即为权值和偏置。首先，根据长短时记忆神经网络隐藏层的前向输出公式计算t时刻第u个顺序标签对应的中文图像特征在长短时记忆神经网络隐藏层的前向输出。其中，表示t时刻输出为空格的概率，a(t-1,i)表示t-1时刻第i个中文图像特征的前向输出，l'表示顺序标签的数量。根据长短时记忆神经网络隐藏层的后向输出的公式计算t时刻第u个顺序标签对应的中文图像特征在长短时记忆神经网络隐藏层的后向输出，其中，表示(t+1)时刻输出为空格的概率，a(t+1,i)表示t+1时刻第i个顺序标签对应的中文图像特征在长短时记忆神经网络隐藏层的后向输出。空格表示长短时记忆神经网络输出层的输出中的空白字符。

具体地，根据长短时记忆神经网络输出层的输出采用时序分类算法的公式构建损失函数_。该时序分类算法的公式具体为：E_loss＝-ln∑_(x,z)∈Sp(z|x)，p(z|x)＝a(t,u)b(t,u)，其中，p(z|x)表示输入中文图像特征x在长短时记忆神经网络输出层的输出为z的概率，a(t,u)表示第t时刻第u个顺序标签对应的中文图像特征在长短时记忆神经网络隐藏层的前向输出，b(t,u)表示第t时刻第u个顺序标签对应的中文图像特征在长短时记忆神经网络隐藏层的后向输出。最后，在获取E_loss后，通过对E_loss求偏导，更新长短时记忆神经网络和卷积神经网络中的网络参数，获取原始手写字识别模型。其中，求偏导的公式为θ为网络参数，具体为卷积神经网络和长短时记忆神经网络的网络中的权值和偏置。

S14：采用测试集中的训练手写中文图像对原始手写字识别模型进行测试，在测试准确率大于预设准确率时，获取目标手写字识别模型。

具体地，步骤S14中，将测试集中所有训练手写中文图像输入原始手写字识别模型进行测试，获取测试准确率(即将所有预测结果准确的数量除以训练集中所有训练手写中文图像的数量)。再判断测试准确率是否大于预设准确率，若测试准确率大于预设准确率，则认定该原始手写字识别模型较准确，以将该原始手写字识别模型作为目标手写字识别模型；反之，若测试准确率不大于预设准确率，则认定该原始手写字识别模型的预测结果不够准确，仍需再采用步骤S11-S13进行训练后，再次进行测试，直至测试准确率达到预设准确率，停止训练，进一步提高目标手写字识别模型准确率。

本实施例中，先获取训练手写中文图像，并按预设比例将训练手写中文图像划分成训练集和测试集，以便对训练集中的训练手写中文图像进行顺序标注，以使训练手写中文图像具备时序性。将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，根据训练手写中文图像的时序性，以便卷积神经网络-长短时记忆神经网络根据上下文对训练手写中文图像进行训练，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型，解决了输入特征和输出标签之间对齐关系不确定的时间序列问题，实现端到端的输出，提高原始手写字识别模型的泛化性。最后，采用测试集中的训练手写中文图像对原始手写字识别模型进行测试，在测试准确率大于预设准确率时，获取目标手写字识别模型，进一步提高了目标手写字识别模型的准确率。

在一实施例中，提供一种中文模型训练装置，该中文模型训练装置与上述实施例中中文模型训练方法一一对应。如图4所示，该中文模型训练装置包括训练手写中文图像获取模块11、训练手写中文图像划分模块12、原始手写字识别模型获取模块13和目标手写字识别模型获取模块14，各功能模块详细说明如下：

训练手写中文图像获取模块11，用于获取训练手写中文图像。

训练手写中文图像划分模块12，用于将训练手写中文图像按预设比例划分成训练集和测试集。

原始手写字识别模型获取模块13，用于对训练集中的训练手写中文图像进行顺序标注，并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型。

具体地，原始手写字识别模型获取模块13包括中文图像特征获取单元131、激活状态神经元获取单元132、输出层输出获取单元133和目标识别模型获取单元134。

中文图像特征获取单元131，用于在卷积神经网络中对训练手写中文图像进行特征提取，获取中文图像特征。

激活状态神经元获取单元132，用于在长短时记忆神经网络的隐藏层采用第一激活函数对中文图像特征进行处理，获取携带激活状态标识的神经元。

输出层输出获取单元133，用于在长短时记忆神经网络的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理，获取长短时记忆神经网络输出层的输出。

目标识别模型获取单元134，用于根据长短时记忆神经网络输出层的输出，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取目标手写字识别模型。

目标手写字识别模型获取模块14，用于采用测试集中的训练手写中文图像对原始手写字识别模型进行测试，在测试准确率大于预设准确率时，获取目标手写字识别模型。

具体地，时序分类算法的公式为：E_loss＝-ln∏_(x,z)∈Sp(z|x)，p(z|x)＝a(t,u)b(t,u)，其中，p(z|x)表示输入所述中文图像特征x，在所述长短时记忆神经网络输出层的输出为z的概率，a(t,u)表示第t时刻第u个顺序标签对应的所述中文图像特征在长短时记忆神经网络隐藏层的前向输出，b(t,u)表示第t时刻第u个顺序标签对应的所述中文图像特征在长短时记忆神经网络隐藏层的后向输出。

关于中文模型训练装置的具体限定可以参见上文中对于中文模型训练方法的限定，在此不再赘述。上述中文模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于用于存储执行中文模型训练方法过程中生成或获取的数据，如目标手写字识别模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中文模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取训练手写中文图像；将训练手写中文图像按预设比例划分成训练集和测试集；对训练集中的训练手写中文图像进行顺序标注，并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型；采用测试集中的训练手写中文图像对原始手写字识别模型进行测试，在测试准确率大于预设准确率时，获取目标手写字识别模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在卷积神经网络中对训练手写中文图像进行特征提取，获取中文图像特征；在长短时记忆神经网络的隐藏层采用第一激活函数对中文图像特征进行处理，获取携带激活状态标识的神经元；在长短时记忆神经网络的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理，获取长短时记忆神经网络输出层的输出；根据长短时记忆神经网络输出层的输出，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取目标手写字识别模型。

具体地，时序分类算法的公式为：E_loss＝-ln∏_(x,z)∈Sp(z|x)，p(z|x)＝a(t,u)b(t,u)，其中，p(z|x)表示输入中文图像特征x，在长短时记忆神经网络输出层的输出为z的概率，a(t,u)表示第t时刻第u个顺序标签对应的所述中文图像特征在长短时记忆神经网络隐藏层的前向输出，b(t,u)表示第t时刻第u个顺序标签对应的中文图像特征在长短时记忆神经网络隐藏层的后向输出。

在一个实施例中，提供了一种非易失性存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取训练手写中文图像；将训练手写中文图像按预设比例划分成训练集和测试集；对训练集中的训练手写中文图像进行顺序标注，并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型；采用测试集中的训练手写中文图像对原始手写字识别模型进行测试，在测试准确率大于预设准确率时，获取目标手写字识别模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在卷积神经网络中对训练手写中文图像进行特征提取，获取中文图像特征；在长短时记忆神经网络的隐藏层采用第一激活函数对中文图像特征进行处理，获取携带激活状态标识的神经元；在长短时记忆神经网络的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理，获取长短时记忆神经网络输出层的输出；根据长短时记忆神经网络输出层的输出，采用时序分类算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取目标手写字识别模型。

在一实施例中，如图5所示，提供一种中文图像识别方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S21：获取待识别中文图像，待识别中文图像包括手写汉字和背景图片。

其中，待识别中文图像是由计算机设备上的采集模块采集到的未经处理的包含手写汉字的图像。该待识别中文图像包括手写汉字和背景图片。背景图片是待识别中文图像中除手写汉字之外的噪声图片。噪声图片是对手写汉字造成干扰的图片。本实施例中，用户可通过计算机设备上的采集模块采集包含手写汉字的待识别中文图像上传到服务器，以使服务器获取待识别中文图像。该采集模块包括但不限于相机拍摄和本地上传。

S22：对待识别中文图像进行预处理，获取原始图像。

其中，原始图像是对待识别中文图像进行预处理后得到的排除干扰因素的图像。具体地，由于待识别中文图像中可能包含多种干扰因素，如色彩繁多，不利于后续的识别。因此需要对待识别中文图像进行预处理，以获取排除干扰因素的原始图像，该原始图像可以理解为待识别中文图像排除背景图片后获取的图片。

在一实施例中，如图6所示，步骤S22中，即对待识别中文图像进行预处理，获取原始图像，具体包括如下步骤：

S221：对待识别中文图像进行放大和灰度化处理，获取灰度化图像。

其中，灰度化图像是对待识别中文图像进行放大和灰度化处理后获取的灰度化图像。该灰度化图像包括一像素值矩阵。像素值矩阵是指包含待识别中文图像中每个像素对应的像素值的矩阵。本实施例中，服务器采用imread函数读取待识别中文图像中每个像素的像素值，并对待识别中文图像进行放大和灰度化处理，获取灰度化图像。imread函数是计算机语言中的一个函数，用于读取图像文件中的像素值。像素值是原始图像被数字化时由计算机赋予的值。

由于待识别中文图像中可能包含多种颜色，而颜色本身，非常容易受到光照等因素的影响，同类的物体颜色有很多变化，所以颜色本身难以提供关键信息，因此需要对待识别中文图像进行灰度化处理，以排除干扰，减少图像的复杂度和信息处理量。但由于待识别中文图像中的手写汉字的尺寸较小时，若直接进行灰度化处理，会导致手写汉字的笔画的厚度过小，会被当成干扰项排除，因此为了增加文字笔画的厚度，需先将待识别中文图像进行放大处理，再进行灰度化处理，以避免直接进行灰度化处理，导致手写汉字的笔画的厚度过小被当成干扰项排除的问题。

具体地，服务器按照如下公式对原始图像进行放大处理：x→x^r，其中，x代表矩阵M中的元素，r为次数，将变化后的元素x^r替换像素值矩阵M中x。

灰度化处理是将待识别中文图像呈现出明显的黑白效果的处理。具体地，对放大后的图像进行灰度化处理包括：待识别中文图像中的每个像素的颜色都是通过R(红)、G(绿)和B(蓝)三个分量决定的，而每个分量有0-255这256种值可取(0最暗表示黑色，255最亮表示白色)。而灰度化图像是R、G和B三个分量相同的一种特殊的彩色图像。本实施例中，服务器可直接采用imread函数读取待识别中文图像，即可获取灰度化图像中每个像素对应的R、G和B三个分量的具体数值。

S222：对灰度化图像进行标准化处理，获取原始图像。

其中，标准化处理是指对灰度化图像进行标准的变换处理，使之变换为一固定标准形式的处理。具体地，由于灰度化图像中每个像素的像素值比较分散，导致数据的数量级不统一，会影响后续模型识别的准确率，因此需要将灰度化图像进行标准化处理，以统一数据的数量级。

具体地，服务器采用标准化处理的公式对灰度化图像进行标准化处理，以避免灰度化图像中像素值较分散，导致数据的数量级不统一的问题。其中，标准化处理的公式为X是灰度化图像M的像素值，X′是原始图像的像素值，M_min是灰度化图像M中最小的像素值，M_max是灰度化图像M中最大的像素值。

S23：采用核密度估计算法对原始图像进行处理，去除背景图片，获取包括手写汉字的目标图像。

其中，核密度估计算法(kernel density estimation)是一种从数据样本本身出发研究数据分布特征，用于估计概率密度函数的非参数方法。目标图像是指采用核密度估计算法对原始图像进行处理获取只包含手写汉字的图像。具体地，服务器采用核密度估计算法对原始图像进行处理，以排除背景图片干扰，获取包括手写汉字的目标图像。

具体地，核密度估计算法的计算公式为其中，K(.)为核函数，h为像素值范围，x为要估计概率密度的像素的像素值，x_i为h范围内的第i个像素值，n为h范围内的像素值x的个数，表示像素的估计概率密度。

在一实施例中，如图7所示，步骤S23中，即采用核密度估计算法对原始图像进行处理，去除背景图片，获取包括手写汉字的目标图像，具体包括如下步骤：

S231：对原始图像中的像素值进行统计，获取原始图像直方图。

其中，原始图像直方图是对原始图像中的像素值进行统计所获取的直方图。直方图(Histogram)是由一系列高度不等的纵向条纹或线段表示数据分布的情况的一种统计报告图。本实施例中，原始图像直方图的横轴表示像素值，纵轴表示像素值对应的出现频率。服务器通过对原始图像中的像素值进行统计，获取原始图像直方图，以便能够直观的看到原始图像中像素值的分布情况，为后续高斯核密度估计算法进行估计提供技术支持。

S232：采用高斯核密度估计算法对原始图像直方图进行处理，获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极小值。

其中，高斯核密度估计算法是指核密度估计算法中的核函数为高斯核函数的核密度估计方法。高斯核函数的公式为其中，K_(x)指像素(自变量)为x的高斯核函数，x指有效图像中的像素值，e和π为常数。频率极大值指在频率分布直方图中，不同频率区间上的极大值。频率极小值指在频率分布直方图中，在同一频率区间上与频率极大值相对应的极小值。

具体地，采用高斯核密度函数估算方法对原始图像对应的频率分布直方图进行高斯平滑处理，获取该频率分布直方图对应的高斯平滑曲线。基于该高斯平滑曲线上的频率极大值和频率极小值，获取频率极大值和频率极小值对应横轴上的像素值，以便后续基于获取到的频率极大值和频率极小值对应的像素值便于对原始图像进行分层切分处理，获取分层图像。

S233：基于频率极大值和频率极小值对原始图像进行分层切分处理，获取分层图像。

其中，分层图像是基于极大值和极小值对原始图像进行分层切分处理所获取的图像。服务器先获取频率极大值和频率极小值对应的像素值，根据频率极大值对应的像素值对原始图像进行分层处理，原始图像中有多少个频率极大值，则对应的原始图像的像素值就被划分为多少类；然后以频率极小值对应的像素值作为类之间的边界值,根据类及类之间的边界，对该原始图像进行分层处理，以获取分层图像。

如原始图像中的频率极大值对应的像素值分别为11、53、95、116和158，频率极小值对应的像素值分别为21、63、105和135。根据原始图像中的频率极大值的个数可以确定该原始图像的像素值可以被分为5类，该原始图像可以被分为5层，频率极小值对应的像素值作为类之间的边界值，由于最小的像素值为0，最大的像素值为255，因此，根据类之间的边界值则可以确定以像素值为11的分层图像，该分层图像对应的像素值为[0,21)；以像素值为53的分层图像，该分层图像对应的像素值为[21,63)；以像素值为95的分层图像，该分层图像对应的像素值为[63,105)；以像素值为116的分层图像，该分层图像对应的像素值为[105,135)；以像素值为158的分层图像，该分层图像对应的像素值为[135,255]。

S234：基于分层图像，获取包括手写汉字的目标图像。

服务器在获取分层图像后，对分层图像进行二值化、腐蚀和叠加处理，以获取包括手写汉字的目标图像。其中，二值化处理是指将分层图像上的像素点的像素值设置为0(黑色)或1(白色)，将整个分层图像呈现出明显的黑白效果的处理。对分层图像进行二值化处理后，对二值化处理后的分层图像进行腐蚀处理，去除背景图片部分，保留分层图像上的手写汉字部分。由于每个分层图像上的像素值是属于不同范围的像素值，因此，对分层图像进行腐蚀处理后，还需要将每个分层图像叠加，生成仅含有手写汉字的目标图像。其中，叠加处理指将分层后的仅保留有手写字部分的图像叠加成一个图像的处理过程，从而实现获取只包含手写汉字的目标图像的目的。本实施例中，采用imadd函数对分层图像进行叠加处理，以获取只包含手写汉字的目标图像。imadd函数是计算机语言中的一个函数，用于对分层图像进行叠加。

在一个实施例中，如图8所示，步骤S234中，即基于分层图像，获取包括手写汉字的目标图像，具体包括如下步骤：

S2341：对分层图像进行二值化处理，获取二值化图像。

二值化图像指对分图像进行二值化处理获取的图像。具体地，服务器获取分层图像后，基于分层图像的采样像素值和预先选取的阈值进行比较，将采样像素值大于或等于阈值的像素值设置为1，小于阈值的像素值设置为0的过程。采样像素值是分层图像中每一像素点对应的像素值。阈值的大小会影响分层图像二值化处理的效果，阈值选取合适时，对分层图像进行二值化处理的效果较好；阈值选取不合适时，会影响分层图像二值化处理的效果。为了方便操作，简化计算过程，本实施例中的阈值是由开发人员根据经验确定。对分层图像进行二值化处理，方便后续进行腐蚀处理。

S2342：对二值化图像中的像素进行检测标记，获取二值化图像对应的连通区域。

其中，连通区域是指某一特定像素周围的邻接像素所围成的区域。在二值化图像中连通区域是指其周围的邻接像素均为0，某一特定像素与邻接像素为1，例如某特定像素为0，其周围的邻接像素为1，则将邻接像素所围成的区域作为连通区域。

具体地，二值化图像对应一像素矩阵，其中包含行和列。对二值化图像中的像素进行检测标记具体包括如下过程：(1)对像素矩阵进行逐行扫描，把每一行中连续的白色像素组成一个序列称为一个团，并记下它的起点、终点以及所在的行号。(2)对于除了第一行外的所有行里的团，如果它与前一行中的所有团都没有重合区域，则给它一个新的标号；如果它仅与上一行中一个团有重合区域，则将上一行的那个团的标号赋给它；如果它与上一行的2个以上的团有重合区域，则给当前团赋一个相关联团的最小标号，并将上一行的这几个团中的标记写入等价对，说明它们属于一类。例如，若第二行中与上一行有2个团(1和2)有重合区域，则赋予该团上一行的2个团中的最小标号即1，并将上一行的这几个团中的标记写入等价对即将(1，2)记为等价对。等价对是指互相连通的两个团的标记，例如(1，2)表示标记1的团与标记2的团互相连通即为一个连通区域。本实施例中是以像素矩阵中某个特定像素相邻的8个邻接像素作为该元素的连通区域。

S2343：对二值化图像对应的连通区域进行腐蚀和叠加处理，获取包括手写汉字的目标图像。

其中，腐蚀处理是用于形态学中去除图像的某部分的内容的操作。采用MATLAB中内置的imerode函数对二值化图像的连通区域进行腐蚀处理。具体地，对二值化图像对应的连通区域进行腐蚀处理包括如下步骤：首先，选取一个n×n的结构元素，本实施例中是以像素矩阵中每个元素相邻的8个元素值作为该元素的连通区域的，因此，选取的结构元素为3×3的像素矩阵。结构元素是一个n×n的像素矩阵，其中的矩阵元素包括0或1。对分层二值化图像的像素矩阵进行扫描，获取像素值为1的像素点即连通区域内的像素点，比较该像素点相邻的8个邻接像素是否全为1，若全为1，则保持不变；若不全为1，则像素矩阵中该像素点相邻的8个邻接像素都变为0(黑色)。该变为0部分则为分层二值化图像被腐蚀的部分。Matlab是在数学科技应用领域中数值计算方面的应用软件。

基于预先设置的手写字区域抗腐蚀能力范围对二值化图像进行筛选，对于不在手写字区域抗腐蚀能力范围内的二值化图像部分删除，获取二值化图像中在手写字区域抗腐蚀能力范围内的部分。对筛选出的符合手写字区域抗腐蚀能力范围的每个二值化图像部分对应的像素矩阵进行叠加，就可以获取到仅含有手写汉字的目标图像。其中，手写字区域抗腐蚀能力可以采用公式：计算，s₁表示二值化图像中被腐蚀后的总面积，s₂表示二值化图像中被腐蚀前的总面积，p为手写字区域抗腐蚀能力。

例如，预先设置的手写字区域抗腐蚀能力范围为[0.01,0.5]，根据公式计算每个二值化图像被腐蚀后的总面积和二值化图像被腐蚀前的总面积的比值p。通过计算二值化图像中某区域腐蚀后的总面积和腐蚀前的总面积的比值p不在预先设置的手写字区域抗腐蚀能力范围内，则表示该区域的二值化图像是背景图像而不是手写字，需进行腐蚀处理，以去除该背景图像。若二值化图像中的某区域腐蚀后的总面积和腐蚀前的总面积的比值p在[0.01,0.5]范围内，则表示该区域的二值化图像是手写汉字，需保留。对保留下的二值化图像对应的像素矩阵进行叠加处理，获取含有手写汉字的目标图像。

步骤S2341-S2343中，对分层图像进行二值化处理，获取二值化图像，然后对二值化图像中的像素进行检测标记，获取二值化图像对应的连通区域，对与结构元素不完全一致的像素矩阵中的元素都变为0，元素为0的二值化图像为黑色，该黑色部分则是二值化图像被腐蚀的部分，通过计算二值化图像被腐蚀后的总面积和二值化图像被腐蚀前的总面积的比值p，判断该比值是否在预先设置的手写字区域抗腐蚀能力范围，以便去除每一分层图像中的背景图像，保留手写汉字，最后将每一分层图像进行叠加，达到获取目标图像的目的。

S24：采用文字定位技术对目标图像进行文字定位，获取待识别文字区域。

其中，待识别文字区域是指目标图像中只包含文字的区域。由于目标图像中还包括非汉字区域即目标图像中的被腐蚀的部分，为了使识别结果更加准确且节省模型的识别时间，需要对目标图像进行文字定位。文字定位技术包括但不限于采用OCR技术和ctpn网络(Connectionist Text Proposal Network，文本检测网络)进行文字定位。其中，ctpn网络是用于进行图像文字检测的常用网络。OCR(Optical Character Recognition,光学字符识别)技术是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。一般分为两个步骤：文字定位，即找到文字在图片中的位置和文字识别，即识别出找到的文字。本实施例中，仅采用OCR技术中文字定位的步骤。

具体地，以OCR技术为例进行文字定位的步骤如下：

1、先采用邻近搜索方法从步骤S2342中获取的连通区域中，任意选取一个连通区域作为起始连通区域，计算剩余连通区域(除其实区域外的其他连通区域)与该起始连通区域之间的距离，选取区域距离小于预设阈值的连通区域作为目标连通区域，以便确定膨胀操作的方向(即上、下、左和右)。其中，预设阈值是预先设定好的用于判断两个连通区域之间的距离的阈值。邻近搜索方法是指从一个起始连通区域出发，可以找到该起始连通区域的水平外切矩形，将连通区域扩展到整个矩形，当该起始连通区域与最邻近区域的距离小于预设阈值时，对这个矩形进行膨胀操作，其膨胀方向是最邻近区域的所在方向的方法。只有当膨胀方向为水平方向时，进行膨胀操作。其中，区域距离的计算公式具体为S为起始连通区域，S’为剩余连通区域，(x_c,y_c)为两个连通区域间的中心向量差，由于两个连通区域的距离是按照临近边界进行计算，因此需要减去区域长度，得到(x_c',y_c')，其中，(w’,z’)表示剩余连通区域右下角的坐标点，(x’,y’)表示剩余连通区域左上角的坐标点，(w,z)表示起始连通区域右下角的坐标点，(x,y)表示起始连通区域左上角的坐标点，本实施例中将该点作为原点坐标。

2、基于目标连通区域的方向确定膨胀操作的方向，按照确定的膨胀方向对起始连通区域进行膨胀处理，获取待识别文字区域。膨胀处理是腐蚀处理是用于形态学中将图像进行扩大的处理。采用MATLAB中内置的imdilate函数对二值化图像的连通区域进行腐蚀处理。具体地，对起始连通区域进行膨胀处理包括如下步骤：选取一个n×n的结构元素，本实施例中是以像素矩阵中每个元素相邻的8个元素值作为该元素的连通区域的，因此，选取的结构元素为3×3的像素矩阵。结构元素是一个n×n的像素矩阵，其中的矩阵元素包括0或1，按照目标连通区域的方向，对连通区域进行扫描，将结构元素与目标连通区域方向上被结构元素覆盖的连通区域进行逻辑与运算，若结果都为0，则保持不变；若不全为0，则将结构元素覆盖的像素矩阵都变为1，该变为1的部分则为起始连通区域被膨胀的部分。逻辑与运算的运算规则为0&&0＝0，0&&1＝0，1&&0＝0，1&&1＝1，其中，&&为逻辑与运算符号。

S25：将待识别文字区域输入到目标手写字识别模型中进行识别，获取每一待识别文字区域对应的手写汉字。

其中，目标手写字识别模型是采用中文模型训练方法获取的。具体地，服务器将待识别文字区域输入到目标手写字识别模型中进行识别，使得目标手写字识别模型能够联系上下文进行识别，获取每一待识别文字区域对应的手写汉字，提高识别的准确率。

本实施例中，用户可通过计算机设备上的采集模块采集包含手写汉字的待识别中文图像上传到服务器，以使服务器获取待识别中文图像。然后，服务器对待识别中文图像进行预处理，获取排除干扰因素的原始图像。采用核密度估计算法对原始图像进行处理，去除背景图片，获取只包含手写汉字的目标图像，进一步排除干扰。采用文字定位技术对目标图像进行文字定位，获取待识别文字区域，以排除非汉字区域的干扰。服务器将待识别文字区域输入到目标手写字识别模型中进行识别，以使目标手写字识别模型能够联系上下文进行识别，获取每一待识别文字区域对应的手写汉字，提高识别的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种中文图像识别装置，该中文图像识别装置与上述实施例中中文图像识别方法一一对应。如图9所示，该中文图像识别装置包括待识别中文图像获取模块21、原始图像获取模块22、目标图像获取模块23、待识别文字区域获取模块24和手写汉字获取模块25。各功能模块详细说明如下：

待识别中文图像获取模块21，用于获取待识别中文图像，待识别中文图像包括手写汉字和背景图片。

原始图像获取模块22，用于对待识别中文图像进行预处理，获取原始图像。

目标图像获取模块23，用于采用核密度估计算法对原始图像进行处理，去除背景图片，获取包括手写汉字的目标图像。

待识别文字区域获取模块24，用于采用文字定位技术对目标图像进行文字定位，获取待识别文字区域。

手写汉字获取模块25，用于将待识别文字区域输入到目标手写字识别模型中进行识别，获取每一待识别文字区域对应的手写汉字。其中，目标手写字识别模型是采用上述实施例中中文模型训练方法获取的。

具体地，原始图像获取模块22包括灰度化图像获取单元221和原始图像获取单元222。

灰度化图像获取单元221，用于对原始图像进行放大和灰度化处理，获取灰度化图像。

原始图像获取单元222，用于对灰度化图像进行标准化处理，获取原始图像，其中，标准化处理的公式为X是灰度化图像M的像素值，X′是原始图像的像素值，M_min是灰度化图像M中最小的像素值，M_max是灰度化图像M中最大的像素值。

具体地，目标图像获取模块23包括原始图像直方图获取单元231、频率极值获取单元232、分层图像获取单元233和目标图像获取单元234。

原始图像直方图获取单元231，用于对原始图像中的像素值进行统计，获取原始图像直方图。

频率极值获取单元232，用于采用高斯核密度估计算法对原始图像直方图进行处理，获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极值获取单元，用于频率极小值。

分层图像获取单元233，用于基于频率极大值和频率极小值对原始图像进行分层切分处理，获取分层图像。

目标图像获取单元234，用于基于分层图像，获取包括手写汉字的目标图像。

具体地，目标图像获取单元234包括二值化图像获取子单元2341、连通区域获取子单元2342和目标图像获取子单元2343。

二值化图像获取子单元2341，用于对分层图像进行二值化处理，获取二值化图像。

连通区域获取子单元2342，用于对二值化图像中的像素进行检测标记，获取二值化图像对应的连通区域。

目标图像获取子单元2343，用于对二值化图像对应的连通区域进行腐蚀和叠加处理，获取包括手写汉字的目标图像。

关于中文图像识别装置的具体限定可以参见上文中对于中文图像识别方法的限定，在此不再赘述。上述中文图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于用于存储执行中文模型训练方法或中文图像识别方法过程中生成或获取的数据，如目标手写字识别模型或手写汉字。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中文图像识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待识别中文图像，待识别中文图像包括手写汉字和背景图片；对待识别中文图像进行预处理，获取原始图像；采用核密度估计算法对原始图像进行处理，去除背景图片，获取包括手写汉字的目标图像；采用文字定位技术对目标图像进行文字定位，获取待识别文字区域；将待识别文字区域输入到目标手写字识别模型中进行识别，获取每一待识别文字区域对应的手写汉字；其中，目标手写字识别模型是采用中文模型训练方法获取的。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对原始图像中的像素值进行统计，获取原始图像直方图；采用高斯核密度估算方法对原始图像直方图进行处理，获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极小值；基于频率极大值和频率极小值对原始图像进行分层切分处理，获取分层图像；基于分层图像，获取包括手写汉字的目标图像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对分层图像进行二值化处理，获取二值化图像；对二值化图像中的像素进行检测标记，获取核密度估计算法二值化图像对应的连通区域；对二值化图像对应的连通区域进行腐蚀和叠加处理，获取包括手写汉字的目标图像。

在一个实施例中，提供了一种非易失性存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待识别中文图像，待识别中文图像包括手写汉字和背景图片；对待识别中文图像进行预处理，获取原始图像；采用核密度估计算法对原始图像进行处理，去除背景图片，获取包括手写汉字的目标图像；采用文字定位技术对目标图像进行文字定位，获取待识别文字区域；将待识别文字区域输入到目标手写字识别模型中进行识别，获取每一待识别文字区域对应的手写汉字；其中，目标手写字识别模型是采用中文模型训练方法获取的。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对原始图像中的像素值进行统计，获取原始图像直方图；采用高斯核密度估算方法对原始图像直方图进行处理，获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极小值；基于频率极大值和频率极小值对原始图像进行分层切分处理，获取分层图像；基于分层图像，获取包括手写汉字的目标图像。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对分层图像进行二值化处理，获取二值化图像；对二值化图像中的像素进行检测标记，获取核密度估计算法二值化图像对应的连通区域；对二值化图像对应的连通区域进行腐蚀和叠加处理，获取包括手写汉字的目标图像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种中文模型训练方法，其特征在于，包括：

获取训练手写中文图像；

2.如权利要求1所述的中文模型训练方法，其特征在于，所述将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练，采用时序分类算法对所述卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取原始手写字识别模型，包括：

在卷积神经网络中对所述训练手写中文图像进行特征提取，获取中文图像特征；

在长短时记忆神经网络的隐藏层采用第一激活函数对所述中文图像特征进行处理，获取携带激活状态标识的神经元；

在所述长短时记忆神经网络的隐藏层采用第二激活函数对所述携带激活状态标识的神经元进行处理，获取长短时记忆神经网络输出层的输出；

根据所述长短时记忆神经网络输出层的输出，采用时序分类算法对所述卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取所述目标手写字识别模型。

3.如权利要求2所述的中文模型训练方法，其特征在于，所述时序分类算法的公式具体为：E_loss＝-ln∏_(x,z)∈Sp(z|x)，p(z|x)＝a(t,u)b(t,u)，其中，p(z|x)表示输入所述中文图像特征x，在所述长短时记忆神经网络输出层的输出为z的概率，a(t,u)表示第t时刻第u个顺序标签对应的所述中文图像特征在长短时记忆神经网络隐藏层的前向输出，b(t,u)表示第t时刻第u个顺序标签对应的所述中文图像特征在长短时记忆神经网络隐藏层的后向输出。

4.一种中文图像识别方法，其特征在于，包括

对所述待识别中文图像进行预处理，获取原始图像；

将待识别文字区域输入到目标手写字识别模型中进行识别，获取每一所述待识别文字区域对应的手写汉字；其中，目标手写字识别模型是采用权利要求1-3任意一项所述中文模型训练方法获取的。

5.如权利要求4所述的中文图像识别方法，其特征在于，采用核密度估计算法对所述原始图像进行处理，获取保留所述手写汉字的目标图像，包括：

对所述原始图像中的像素值进行统计，获取原始图像直方图；

采用高斯核密度估算方法对所述原始图像直方图进行处理，获取与原始图像直方图对应的至少一个频率极大值和至少一个频率极小值；

基于所述频率极大值和频率极小值对所述原始图像进行分层切分处理，获取分层图像；

基于所述分层图像，获取包括所述手写汉字的目标图像。

6.如权利要求5所述的中文图像识别方法，其特征在于，所述基于所述分层图像，获取包括所述手写汉字的目标图像，包括：

对所述分层图像进行二值化处理，获取二值化图像；

对所述二值化图像中的像素进行检测标记，获取所述二值化图像对应的连通区域；

对所述二值化图像对应的连通区域进行腐蚀和叠加处理，获取所述包括手写汉字的目标图像。

7.一种中文模型训练装置，其特征在于，包括：

训练手写中文图像获取模块，用于获取训练手写中文图像；

8.一种中文图像识别装置，其特征在于，包括：

目标图像获取模块，用于采用核密度估计算法对所述原始图像进行处理，去除所述背景图片，获取包括所述手写汉字的目标图像；

手写汉字获取模块，用于将待识别文字区域输入到目标手写字识别模型中进行识别，获取每一所述待识别文字区域对应的手写汉字。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述中文模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求4至6任一项所述中文图像识别方法的步骤。

10.一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述中文模型训练方法的步骤；或者，所述计算机程序被处理器执行时实现如权利要求4至6任一项所述中文图像识别方法的步骤。