CN109800763A - 一种基于深度学习的手写中文识别方法 - Google Patents
一种基于深度学习的手写中文识别方法 Download PDFInfo
- Publication number
- CN109800763A CN109800763A CN201910109354.2A CN201910109354A CN109800763A CN 109800763 A CN109800763 A CN 109800763A CN 201910109354 A CN201910109354 A CN 201910109354A CN 109800763 A CN109800763 A CN 109800763A
- Authority
- CN
- China
- Prior art keywords
- hand
- deep
- handwriting
- adbn
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于深度学习的手写中文识别方法,使用深层架构基于提取出的手写文字的特征向量和训练好的参数对手写文字进行粗分类,使用MQDF分类器基于训练好的参数和每个手写字符对应的100个候选类别对手写文字进行细分类。在深层架构粗分类过程中,使用无监督学习将深层架构的隐藏层一层层的构建起来,然后使用监督学习进一步提升深层架构的特征提取能力。
Description
技术领域
本发明涉及一种基于深度学习的手写中文识别方法,其中包括深度置信网络和手写中文识别等技术。
背景技术
用机器进行手写文字识别,具有现实意义,并且多年来被作为一个比较流行的课题进行研究。近年来,随着触摸屏移动终端设备的普及,人们越来越需要一种能够快速有效的将书写在触摸屏、手写板等设备的汉字转换成汉字编码的方法。基于笔画移动轨迹的联机手写识别,已经得到了越来越多人的关注。许多方法已经被提出来解决这个问题,但是现有的无约束手写字符识别结果仍然不能满足现实应用的需要。
联机手写中文识别是一种联机的中文识别手段,在各种自动识别输入的方法中,它是能够代替或部分代替人工编码输入的惟一可行的方法。联机手写中文识别的研究开始于上世纪70年代,从上世纪80年代开始,得到了越来越多的关注。从20世纪90年代开始,对于联机手写中文识别的研究,主要集中在减少为了正确识别中文而强加给用户的约束。例如,字与字之间不能有衔接,必须写正楷字等等。对于联机手写中文识别,最重要的问题还是在于,对于不同的用户,所写的字的笔顺和笔画数不同。从90年代开始,联机手写中文识别的对象由楷书转变为行书。行书在我们日常生活中经常出现,它的笔顺和笔画数因用户的不同而变动性很大。现在的手写识别系统对楷书的识别率已经很高,但是对行书的识别仍是一个亟待解决的问题。对行书的识别是现在大多数联机手写中文识别系统的目标,因为大多数人都是以行书方式书写。现在,对于正规的中文书写,识别的正确率可以达到98%。但是,对于行书,正确率很难达到90%。虽然市场上已经存在很多手写输入软件,但是效果并不好,不管是识别的正确率还是用户体验都比较差。现在的技术现状与市场需求之间的差距表明,联机手写中文输入的问题并没有解决,并且留给我们很大的研究空间。
深层架构由许多层非线性运算组成,例如在神经网络中由许多隐藏层组成,或在复杂架构中重复使用许多子模块。深度学习指的是对深层架构进行训练并调整里面的参数来完成机器学习任务。深度学习方法可以用来进行数据分类、数据压缩等,已经应用到图像和文本处理等多个领域。深度置信网络(deep belief networks,DBN)是一个包括很多隐藏层的神经网络模型。在DBN等深层架构中我们很难优化权值,Hinton等人提出了一种贪心无监督训练方法来解决这个问题并取得了很好的结果。DBN的学习过程分为两步:一层层抽取输入信息的无监督学习和用固定标签微调整个网络的监督学习。这种分两步学习的方法降低了学习深层架构多个隐藏层参数的难度。
发明内容
本发明解决的技术问题是:传统手写识别方法的识别效果不能满足日常应用需求。本发明提供了一种基于深度学习的手写中文识别方法,来提升现实中手写中文识别的正确率。该方法将深层架构的抽象能力和指数损失函数的分类能力相结合,利用深层架构进行粗分类,然后使用改进的二次分类函数(modified quadratic discriminantfunction,MQDF)进行细分类,进一步提高手写识别正确率。
本发明解决现有技术中存在的问题所采用的技术方案为:提供一种基于深度学习的手写中文识别方法,包括如下步骤:
P2DMN归一化:使用P2DNM(pseudo 2D moment normalization)方法将在线手写字符归一化; NCFE特征提取:使用NCFE(normalization-cooperated feature extraction)方法将归一化后的手写字符的特征提取出来;
ADBN粗分类:ADBN(adaptive deep belief networks)使用深层架构基于提取出的手写字符的特征向量和训练好的参数对手写文字进行粗分类,对于每一个手写字符都输出对应的100个候选类别;
MQDF细分类:使用MQDF(modified quadratic discriminant function)分类器基于训练好的参数和每个手写字符对应的100个候选类别对手写文字进行细分类。使用Fisher-LDA方法来首先降低特征向量的维数。
本发明的进一步技术方案是:在ADBN粗分类中,分为无监督学习和监督学习方法,包括如下步骤:
无监督学习:ADBN使用RBM(restricted Boltzmann machines)为基本模块,将深层架构的隐藏层一层层的构建起来,然后使用线性RBM把输出层构建起来。数据集中所有的训练数据和测试数据都被用来初始化N层网络的参数空间W;
监督学习:使用梯度下降方法在指数损失函数的引导下对深层架构进一步优化。数据集中所有的训练数据,都被用来优化参数空间W,使其具有更好的分类性能。
本发明的技术效果是:本发明涉及一种基于深度学习的手写中文识别方法,使用深层架构基于提取出的手写文字的特征向量和训练好的参数对手写文字进行粗分类,使用MQDF 分类器基于训练好的参数和每个手写字符对应的100个候选类别对手写文字进行细分类。系统可以自动完成手写中文字符识别,解决了传统识别方法准确率低的问题。在深层架构粗分类过程中,使用无监督学习将深层架构的隐藏层一层层的构建起来,然后使用监督学习进一步提升深层架构的特征提取能力。
附图说明
图1为本发明的流程图。
图2为本发明的ADBN结构图。
图3为本发明的ADBN训练方法。
具体实施方式
下面结合具体实施例,对本发明技术方案进一步说明。
如图1所示,本发明的具体实施方式是:提供一种基于深度学习的手写中文识别方法,包括如下步骤:
步骤100:P2DMN归一化,使用P2DMN方法将在线手写字符归一化。P2DMN方法是刘成林等人2005年提出来的一种用于手写中文识别的归一化方法。
步骤200:NCFE特征提取,使用NCFE方法将归一化后的手写字符的特征提取出来。NCFE方法是刘成林等人2004年提出来的一种用于手写中文识别的特征提取方法。
步骤300:ADBN粗分类,使用深层架构(ADBN)基于提取出的手写字符的特征向量和训练好的参数对手写文字进行粗分类,对于每一个手写字符都输出对应的100个候选类别。
手写中文字符识别包括几千类,为了提高精度,需要将分类过程分解为粗分类和细分类两步:(1)使用深层架构来选择前面C个最可能是输入的手写字符标签的类别。在本发明中,C=100。(2)使用MQDF分类器从C个候选类别中选择一个最可能是输入的手写字符标签的类别(步骤400),MQDF方法是Kimura等人1987年提出的用于中文字符识别的方法。粗分类用到的深层架构的输入为经NCFE方法提取出来的手写字符的特征,输出为手写字符所属的类别。一个手写字符数据集可以表示为:
其中L是手写字符的个数,D是手写字符的特征个数。X的每一列是一个手写字符x。一个手写字符可以看作是空间中的一个向量,其中第j个坐标对应第j个特征。
Y是与L个手写字符对应的标签数据集,可以表示为:
其中C是数据集中候选类别个数。在本发明中,C=100。Y的每一列是一个在空间中的向量,其中第j个坐标对应第j个类别。
本发明将用深层架构使用L个手写字符训练构建X→Y的映射函数。训练后,当一个新的手写字符x输入时,深层架构可以使用映射函数确定x对应的标签y。
ADBN的结构如图2所示,它是一个全连接定向的多层神经网络,包括一个输入层h0, N个隐藏层h1,h2,...,hN和一个输出层f。输入层h0有D个单元,等同于数据x中特征的个数。输出层有C个单元,等同于标签数据集中的类别数。W={w1,w2,...,wN+1}是深层架构中需要学习的参数。隐藏层的个数和每个隐藏层中的结点数需要根据经验设置。
ADBN的训练过程可以分为两步:
步骤310:ADBN使用RBM为基本模块,将深层架构的隐藏层一层层的构建起来,然后使用线性RBM把输出层构建起来。数据集中所有的训练数据和测试数据都被用来初始化N层网络的参数空间W。
在深层架构中,定义能量状态(hk-1,hk)为:
其中θ=(w,b,c)是模型参数:是隐藏层hk-1中的单元s和隐藏层hk中的单元t之间的对称连接参数,k=1,...,N-1。bs是隐藏层hk-1中第s个偏置,ct是隐藏层hk中第t个偏置。 Dk是第k层的结点个数。
hk-1发生的概率是:
其中Z(θ)表示归一化常数。
hk和hk-1的条件概率是:
第t个单元为1的概率是包含hk-1和的逻辑函数:
第s个单元为1的概率是包含hk和的逻辑函数:
其中逻辑函数为:
sigm(η)=1/(1+exp(-η))
对隐藏层产生的概率的对数相对于模型参数wk进行求导,通过CD方法得到:
其中表示对于数据分布的期望,表示从输入数据开始,运行Gibbs采样M次后的数据分布。
然后参数wk可以通过以下步骤调整:
其中是动量,η是学习率。
线性RBM的输出层是以随机实数状态建模的,从服从高斯分布的随机数中采样获取,高斯分布的均值为通过输入层hN和参数wN+1计算得到的每个单元的实数值。
f的第j个单元的值是hN和的线性函数:
其中数字0表示这个数值的计算没有经过迭代。
f的状态值是f的值加上一个服从正态分布的随机产生的数:
sj,0=fj,0+r
hN的第i个单元新的值是包含f的状态值sj,0和的逻辑函数:
其中是深层网络第N个隐藏层第i个单元的偏置。数字1表示这个值是经过一次迭代计算得到的。
f的第j个单元的新的值是hN和的线性函数:
与RBM方法相同,关于参数wN+1的求导公式可以通过CD方法获得:
利用线性RBM训练后,wN+1被初始化。从而可以计算得到输出层f:
以上的讨论都是基于一个样例数据x。在ADBN方法中,所有的标注数据都被一个个的输入到输入层h0,通过训练参数W来将深层架构一层层的构建起来。
步骤320:ADBN使用梯度下降方法在指数损失函数的引导下对深层架构进一步优化。数据集中所有的训练数据,都被用来优化参数空间W,使其具有更好的分类性能。
为了全局调整ADBN,我们添加了一个指数函数到输出层f。这个损失函数可以引导ADBN将属于不同类的样点映射到不同的区域。指数损失函数为: E(z)=exp(-z)
这个优化问题可以用公式表示为:
其中
监督学习阶段使用梯度下降方法来优化整个深层架构的所有参数,无监督学习阶段的随机产生的数被确定的实数概率值所代替。
ADBN训练方法如图3所示。在网络初始化阶段,RBM和线性RBM被用来一层层的构建ADBN,L个训练数据被用来初始化参数空间W。RBM的输入层拥有实数值,取值范围是[0,1],输入的训练数据都是归一化后的实数。当训练高层的RBM时,输入值是来自前一层RBM输出的实数值,这个值是激活所在隐藏层单元的概率。所有的隐藏层单元的值都是二进制的数字,若这个单元被激活,则是1,否则为0。线性RBM的输出层单元的值是实数,这些数值是服从高斯分布的随机数,均值由输入层数据和权值经过运算得到。在利用监督学习全局优化阶段,随机激活机制被确定性的概率实数值所替代,共轭梯度算法被用来全局优化整个网络。
训练完成后,当一个新的手写字符的特征输入到深层架构后,深层架构经过运算输出属于每个类别可能的权值,可以从中选择C个权值比较大的候选类别作为粗分类结果。
步骤400:MQDF细分类:粗分类后,使用MQDF分类器基于LDA(Linear DiscriminantAnalysis)方法降维后的特征值对手写字符进行细分类,它从粗分类输出的C个候选中选择一个类别作为系统输出的最终分类结果。
本发明提出一种基于深度学习的手写中文识别方法,利用深层架构基于贪心无监督训练方法有效提取手写字符的信息,然后使用反向传播算法基于指数损失函数进一步优化深层架构。ADBN被用来对手写字符进行粗分类,MQDF分类器被用来对手写字符进行细分类。本发明提出的方法的性能优于经典手写中文字符识别方法。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (2)
1.一种基于深度学习的手写中文识别方法,包括如下步骤:
P2DMN归一化:使用P2DNM(pseudo 2D moment normalization)方法将在线手写字符归一化;
NCFE特征提取:使用NCFE(normalization-cooperated feature extraction)方法将归一化后的手写字符的特征提取出来;
ADBN粗分类:ADBN(adaptive deep belief networks)使用深层架构基于提取出的手写字符的特征向量和训练好的参数对手写文字进行粗分类,对于每一个手写字符都输出对应的100个候选类别;
MQDF细分类:使用MQDF(modified quadratic discriminant function)分类器基于训练好的参数和每个手写字符对应的100个候选类别对手写文字进行细分类;使用Fisher-LDA方法来首先降低特征向量的维数。
2.根据权利要求1所述的ADBN粗分类方法,分为无监督学习和监督学习方法,包括如下步骤:
无监督学习:ADBN使用RBM(restricted Boltzmann machines)为基本模块,将深层架
构的隐藏层一层层的构建起来,然后使用线性RBM把输出层构建起来;数据集中所有的训练
数据和测试数据都被用来初始化层网络的参数空间;
监督学习:使用梯度下降方法在指数损失函数的引导下对深层架构进一步优化;数据
集中所有的训练数据,都被用来优化参数空间,使其具有更好的分类性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910109354.2A CN109800763A (zh) | 2019-02-09 | 2019-02-09 | 一种基于深度学习的手写中文识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910109354.2A CN109800763A (zh) | 2019-02-09 | 2019-02-09 | 一种基于深度学习的手写中文识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109800763A true CN109800763A (zh) | 2019-05-24 |
Family
ID=66562003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910109354.2A Pending CN109800763A (zh) | 2019-02-09 | 2019-02-09 | 一种基于深度学习的手写中文识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800763A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363149A (zh) * | 2019-07-16 | 2019-10-22 | 广州视源电子科技股份有限公司 | 笔迹的处理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622610A (zh) * | 2012-03-05 | 2012-08-01 | 西安电子科技大学 | 一种基于分类器集成的手写维文字符识别方法 |
CN105184329A (zh) * | 2015-08-27 | 2015-12-23 | 鲁东大学 | 一种基于云平台的脱机手写识别方法 |
CN106529525A (zh) * | 2016-10-14 | 2017-03-22 | 上海新同惠自动化系统有限公司 | 一种中日文手写字符的识别方法 |
CN106897744A (zh) * | 2017-02-27 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种自适应设置深度置信网络参数的方法及系统 |
-
2019
- 2019-02-09 CN CN201910109354.2A patent/CN109800763A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622610A (zh) * | 2012-03-05 | 2012-08-01 | 西安电子科技大学 | 一种基于分类器集成的手写维文字符识别方法 |
CN105184329A (zh) * | 2015-08-27 | 2015-12-23 | 鲁东大学 | 一种基于云平台的脱机手写识别方法 |
CN106529525A (zh) * | 2016-10-14 | 2017-03-22 | 上海新同惠自动化系统有限公司 | 一种中日文手写字符的识别方法 |
CN106897744A (zh) * | 2017-02-27 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种自适应设置深度置信网络参数的方法及系统 |
Non-Patent Citations (1)
Title |
---|
周树森: "《万方数据博士学位论文全文数据库》", 31 March 2014 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363149A (zh) * | 2019-07-16 | 2019-10-22 | 广州视源电子科技股份有限公司 | 笔迹的处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Discovering new intents via constrained deep adaptive clustering with cluster refinement | |
Al-Ayyoub et al. | Deep learning for Arabic NLP: A survey | |
CN109766277B (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN109635280A (zh) | 一种基于标注的事件抽取方法 | |
CN107608956A (zh) | 一种基于cnn‑grnn的读者情绪分布预测算法 | |
CN110717431A (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN109977199B (zh) | 一种基于注意力池化机制的阅读理解方法 | |
Xiao et al. | History-based attention in Seq2Seq model for multi-label text classification | |
Sadr et al. | Convolutional neural network equipped with attention mechanism and transfer learning for enhancing performance of sentiment analysis | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
Cheng et al. | Multi-label few-shot learning for sound event recognition | |
Das et al. | Determining attention mechanism for visual sentiment analysis of an image using svm classifier in deep learning based architecture | |
Wang et al. | Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network | |
Jia et al. | S 2-ver: Semi-supervised visual emotion recognition | |
CN110019796A (zh) | 一种用户文本信息分析方法及装置 | |
CN107423697A (zh) | 基于非线性融合深度3d卷积描述子的行为识别方法 | |
Chen et al. | STRAN: Student expression recognition based on spatio-temporal residual attention network in classroom teaching videos | |
CN113449103B (zh) | 融入标签与文本交互机制的银行交易流水分类方法及系统 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
Xu et al. | Neural topic modeling with deep mutual information estimation | |
CN110222737A (zh) | 一种基于长短时记忆网络的搜索引擎用户满意度评估方法 | |
Zhan et al. | DenseNet-CTC: An end-to-end RNN-free architecture for context-free string recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190524 |