CN109800763A

CN109800763A - 一种基于深度学习的手写中文识别方法

Info

Publication number: CN109800763A
Application number: CN201910109354.2A
Authority: CN
Inventors: 周树森; 邹海林; 柳婵娟; 臧睦君; 刘通
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2019-02-09
Filing date: 2019-02-09
Publication date: 2019-05-24

Abstract

本发明涉及一种基于深度学习的手写中文识别方法，使用深层架构基于提取出的手写文字的特征向量和训练好的参数对手写文字进行粗分类，使用MQDF分类器基于训练好的参数和每个手写字符对应的100个候选类别对手写文字进行细分类。在深层架构粗分类过程中，使用无监督学习将深层架构的隐藏层一层层的构建起来，然后使用监督学习进一步提升深层架构的特征提取能力。

Description

一种基于深度学习的手写中文识别方法

技术领域

本发明涉及一种基于深度学习的手写中文识别方法，其中包括深度置信网络和手写中文识别等技术。

背景技术

用机器进行手写文字识别，具有现实意义，并且多年来被作为一个比较流行的课题进行研究。近年来，随着触摸屏移动终端设备的普及，人们越来越需要一种能够快速有效的将书写在触摸屏、手写板等设备的汉字转换成汉字编码的方法。基于笔画移动轨迹的联机手写识别，已经得到了越来越多人的关注。许多方法已经被提出来解决这个问题，但是现有的无约束手写字符识别结果仍然不能满足现实应用的需要。

联机手写中文识别是一种联机的中文识别手段，在各种自动识别输入的方法中，它是能够代替或部分代替人工编码输入的惟一可行的方法。联机手写中文识别的研究开始于上世纪70年代，从上世纪80年代开始，得到了越来越多的关注。从20世纪90年代开始，对于联机手写中文识别的研究，主要集中在减少为了正确识别中文而强加给用户的约束。例如，字与字之间不能有衔接，必须写正楷字等等。对于联机手写中文识别，最重要的问题还是在于，对于不同的用户，所写的字的笔顺和笔画数不同。从90年代开始，联机手写中文识别的对象由楷书转变为行书。行书在我们日常生活中经常出现，它的笔顺和笔画数因用户的不同而变动性很大。现在的手写识别系统对楷书的识别率已经很高，但是对行书的识别仍是一个亟待解决的问题。对行书的识别是现在大多数联机手写中文识别系统的目标，因为大多数人都是以行书方式书写。现在，对于正规的中文书写，识别的正确率可以达到98％。但是，对于行书，正确率很难达到90％。虽然市场上已经存在很多手写输入软件，但是效果并不好，不管是识别的正确率还是用户体验都比较差。现在的技术现状与市场需求之间的差距表明，联机手写中文输入的问题并没有解决，并且留给我们很大的研究空间。

深层架构由许多层非线性运算组成，例如在神经网络中由许多隐藏层组成，或在复杂架构中重复使用许多子模块。深度学习指的是对深层架构进行训练并调整里面的参数来完成机器学习任务。深度学习方法可以用来进行数据分类、数据压缩等，已经应用到图像和文本处理等多个领域。深度置信网络(deep belief networks,DBN)是一个包括很多隐藏层的神经网络模型。在DBN等深层架构中我们很难优化权值，Hinton等人提出了一种贪心无监督训练方法来解决这个问题并取得了很好的结果。DBN的学习过程分为两步：一层层抽取输入信息的无监督学习和用固定标签微调整个网络的监督学习。这种分两步学习的方法降低了学习深层架构多个隐藏层参数的难度。

发明内容

本发明解决的技术问题是：传统手写识别方法的识别效果不能满足日常应用需求。本发明提供了一种基于深度学习的手写中文识别方法，来提升现实中手写中文识别的正确率。该方法将深层架构的抽象能力和指数损失函数的分类能力相结合，利用深层架构进行粗分类，然后使用改进的二次分类函数(modified quadratic discriminantfunction，MQDF)进行细分类，进一步提高手写识别正确率。

本发明解决现有技术中存在的问题所采用的技术方案为：提供一种基于深度学习的手写中文识别方法，包括如下步骤：

P2DMN归一化：使用P2DNM(pseudo 2D moment normalization)方法将在线手写字符归一化； NCFE特征提取：使用NCFE(normalization-cooperated feature extraction)方法将归一化后的手写字符的特征提取出来；

ADBN粗分类：ADBN(adaptive deep belief networks)使用深层架构基于提取出的手写字符的特征向量和训练好的参数对手写文字进行粗分类，对于每一个手写字符都输出对应的100个候选类别；

MQDF细分类：使用MQDF(modified quadratic discriminant function)分类器基于训练好的参数和每个手写字符对应的100个候选类别对手写文字进行细分类。使用Fisher-LDA方法来首先降低特征向量的维数。

本发明的进一步技术方案是：在ADBN粗分类中，分为无监督学习和监督学习方法，包括如下步骤：

无监督学习：ADBN使用RBM(restricted Boltzmann machines)为基本模块，将深层架构的隐藏层一层层的构建起来，然后使用线性RBM把输出层构建起来。数据集中所有的训练数据和测试数据都被用来初始化N层网络的参数空间W；

监督学习：使用梯度下降方法在指数损失函数的引导下对深层架构进一步优化。数据集中所有的训练数据，都被用来优化参数空间W，使其具有更好的分类性能。

本发明的技术效果是：本发明涉及一种基于深度学习的手写中文识别方法，使用深层架构基于提取出的手写文字的特征向量和训练好的参数对手写文字进行粗分类，使用MQDF 分类器基于训练好的参数和每个手写字符对应的100个候选类别对手写文字进行细分类。系统可以自动完成手写中文字符识别，解决了传统识别方法准确率低的问题。在深层架构粗分类过程中，使用无监督学习将深层架构的隐藏层一层层的构建起来，然后使用监督学习进一步提升深层架构的特征提取能力。

附图说明

图1为本发明的流程图。

图2为本发明的ADBN结构图。

图3为本发明的ADBN训练方法。

具体实施方式

下面结合具体实施例，对本发明技术方案进一步说明。

如图1所示，本发明的具体实施方式是：提供一种基于深度学习的手写中文识别方法，包括如下步骤：

步骤100：P2DMN归一化，使用P2DMN方法将在线手写字符归一化。P2DMN方法是刘成林等人2005年提出来的一种用于手写中文识别的归一化方法。

步骤200：NCFE特征提取，使用NCFE方法将归一化后的手写字符的特征提取出来。NCFE方法是刘成林等人2004年提出来的一种用于手写中文识别的特征提取方法。

步骤300：ADBN粗分类，使用深层架构(ADBN)基于提取出的手写字符的特征向量和训练好的参数对手写文字进行粗分类，对于每一个手写字符都输出对应的100个候选类别。

手写中文字符识别包括几千类，为了提高精度，需要将分类过程分解为粗分类和细分类两步：(1)使用深层架构来选择前面C个最可能是输入的手写字符标签的类别。在本发明中，C＝100。(2)使用MQDF分类器从C个候选类别中选择一个最可能是输入的手写字符标签的类别(步骤400)，MQDF方法是Kimura等人1987年提出的用于中文字符识别的方法。粗分类用到的深层架构的输入为经NCFE方法提取出来的手写字符的特征，输出为手写字符所属的类别。一个手写字符数据集可以表示为：

其中L是手写字符的个数，D是手写字符的特征个数。X的每一列是一个手写字符x。一个手写字符可以看作是空间中的一个向量，其中第j个坐标对应第j个特征。

Y是与L个手写字符对应的标签数据集，可以表示为：

其中C是数据集中候选类别个数。在本发明中，C＝100。Y的每一列是一个在空间中的向量，其中第j个坐标对应第j个类别。

本发明将用深层架构使用L个手写字符训练构建X→Y的映射函数。训练后，当一个新的手写字符x输入时，深层架构可以使用映射函数确定x对应的标签y。

ADBN的结构如图2所示，它是一个全连接定向的多层神经网络，包括一个输入层h⁰， N个隐藏层h¹,h²,...,h^N和一个输出层f。输入层h⁰有D个单元，等同于数据x中特征的个数。输出层有C个单元，等同于标签数据集中的类别数。W＝{w¹,w²,...,w^N+1}是深层架构中需要学习的参数。隐藏层的个数和每个隐藏层中的结点数需要根据经验设置。

ADBN的训练过程可以分为两步：

步骤310：ADBN使用RBM为基本模块，将深层架构的隐藏层一层层的构建起来，然后使用线性RBM把输出层构建起来。数据集中所有的训练数据和测试数据都被用来初始化N层网络的参数空间W。

在深层架构中，定义能量状态(h^k-1,h^k)为：

其中θ＝(w,b,c)是模型参数：是隐藏层h^k-1中的单元s和隐藏层h^k中的单元t之间的对称连接参数，k＝1,...,N-1。b_s是隐藏层h^k-1中第s个偏置，c_t是隐藏层h^k中第t个偏置。 D_k是第k层的结点个数。

h^k-1发生的概率是：

其中Z(θ)表示归一化常数。

h^k和h^k-1的条件概率是：

第t个单元为1的概率是包含h^k-1和的逻辑函数：

第s个单元为1的概率是包含h^k和的逻辑函数：

其中逻辑函数为：

sigm(η)＝1/(1+exp(-η))

对隐藏层产生的概率的对数相对于模型参数w^k进行求导，通过CD方法得到：

其中表示对于数据分布的期望，表示从输入数据开始，运行Gibbs采样M次后的数据分布。

然后参数w^k可以通过以下步骤调整：

其中是动量，η是学习率。

线性RBM的输出层是以随机实数状态建模的，从服从高斯分布的随机数中采样获取，高斯分布的均值为通过输入层h^N和参数w^N+1计算得到的每个单元的实数值。

f的第j个单元的值是h^N和的线性函数：

其中数字0表示这个数值的计算没有经过迭代。

f的状态值是f的值加上一个服从正态分布的随机产生的数：

s_j,0＝f_j,0+r

h^N的第i个单元新的值是包含f的状态值s_j,0和的逻辑函数：

其中是深层网络第N个隐藏层第i个单元的偏置。数字1表示这个值是经过一次迭代计算得到的。

f的第j个单元的新的值是h^N和的线性函数：

与RBM方法相同，关于参数w^N+1的求导公式可以通过CD方法获得：

利用线性RBM训练后，w^N+1被初始化。从而可以计算得到输出层f：

以上的讨论都是基于一个样例数据x。在ADBN方法中，所有的标注数据都被一个个的输入到输入层h⁰，通过训练参数W来将深层架构一层层的构建起来。

步骤320：ADBN使用梯度下降方法在指数损失函数的引导下对深层架构进一步优化。数据集中所有的训练数据，都被用来优化参数空间W，使其具有更好的分类性能。

为了全局调整ADBN，我们添加了一个指数函数到输出层f。这个损失函数可以引导ADBN将属于不同类的样点映射到不同的区域。指数损失函数为： E(z)＝exp(-z)

这个优化问题可以用公式表示为：

其中

监督学习阶段使用梯度下降方法来优化整个深层架构的所有参数，无监督学习阶段的随机产生的数被确定的实数概率值所代替。

ADBN训练方法如图3所示。在网络初始化阶段，RBM和线性RBM被用来一层层的构建ADBN，L个训练数据被用来初始化参数空间W。RBM的输入层拥有实数值，取值范围是[0,1]，输入的训练数据都是归一化后的实数。当训练高层的RBM时，输入值是来自前一层RBM输出的实数值，这个值是激活所在隐藏层单元的概率。所有的隐藏层单元的值都是二进制的数字，若这个单元被激活，则是1，否则为0。线性RBM的输出层单元的值是实数，这些数值是服从高斯分布的随机数，均值由输入层数据和权值经过运算得到。在利用监督学习全局优化阶段，随机激活机制被确定性的概率实数值所替代，共轭梯度算法被用来全局优化整个网络。

训练完成后，当一个新的手写字符的特征输入到深层架构后，深层架构经过运算输出属于每个类别可能的权值，可以从中选择C个权值比较大的候选类别作为粗分类结果。

步骤400：MQDF细分类：粗分类后，使用MQDF分类器基于LDA(Linear DiscriminantAnalysis)方法降维后的特征值对手写字符进行细分类，它从粗分类输出的C个候选中选择一个类别作为系统输出的最终分类结果。

本发明提出一种基于深度学习的手写中文识别方法，利用深层架构基于贪心无监督训练方法有效提取手写字符的信息，然后使用反向传播算法基于指数损失函数进一步优化深层架构。ADBN被用来对手写字符进行粗分类，MQDF分类器被用来对手写字符进行细分类。本发明提出的方法的性能优于经典手写中文字符识别方法。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的手写中文识别方法，包括如下步骤：

P2DMN归一化：使用P2DNM（pseudo 2D moment normalization）方法将在线手写字符归一化；

NCFE特征提取：使用NCFE（normalization-cooperated feature extraction）方法将归一化后的手写字符的特征提取出来；

ADBN粗分类：ADBN（adaptive deep belief networks）使用深层架构基于提取出的手写字符的特征向量和训练好的参数对手写文字进行粗分类，对于每一个手写字符都输出对应的100个候选类别；

MQDF细分类：使用MQDF（modified quadratic discriminant function）分类器基于训练好的参数和每个手写字符对应的100个候选类别对手写文字进行细分类；使用Fisher-LDA方法来首先降低特征向量的维数。

2.根据权利要求1所述的ADBN粗分类方法，分为无监督学习和监督学习方法，包括如下步骤：

无监督学习：ADBN使用RBM（restricted Boltzmann machines）为基本模块，将深层架构的隐藏层一层层的构建起来，然后使用线性RBM把输出层构建起来；数据集中所有的训练数据和测试数据都被用来初始化层网络的参数空间；

监督学习：使用梯度下降方法在指数损失函数的引导下对深层架构进一步优化；数据集中所有的训练数据，都被用来优化参数空间，使其具有更好的分类性能。