CN106529525A - 一种中日文手写字符的识别方法 - Google Patents
一种中日文手写字符的识别方法 Download PDFInfo
- Publication number
- CN106529525A CN106529525A CN201610895680.7A CN201610895680A CN106529525A CN 106529525 A CN106529525 A CN 106529525A CN 201610895680 A CN201610895680 A CN 201610895680A CN 106529525 A CN106529525 A CN 106529525A
- Authority
- CN
- China
- Prior art keywords
- character
- recognition
- identification
- candidate
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
- G06V30/1423—Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及手写字符识别领域,特别涉及一种应用于中日文字符的识别方法。通过分别采用离线识别、在线识别、语言环境上下文关系识别和深度学习识别的四种识别方法对手写字符进行识别后构成多种候选集,然后根据设定权重比例对所有候选集进行排序并将识别结果输出,提高中日文手写字符的识别准确率,用深度学习和既存的文字识别方法揉合在一起,互相补短,互取优势。实验结果表明本发明能够很大的提高手写中日文字符的识别准确率,相比于现有技术,具有较好的有益效果。
Description
技术领域
本发明涉及手写字符识别领域,特别涉及一种应用于中日文字符的识别方法。
背景技术
随着笔记本电脑、移动电话、个人数据助理(PDA)、平板电脑、智能设备、虚拟现实等被广泛使用,越来越多人在日常生活中都会使用这些智能设备进行娱乐、办公、信息获取等。在进行人机交互的过程中,常常需要输入相关信息,由于输入文字是通过相应的输入法进行,例如中文采用拼音输入法,但是由于中文汉字众多,有些不认识的生僻字无法通过拼音输入法进行。另外,较多便携式设备是缺乏全键盘的,这时基于笔的输入在缺少全键盘的装置中是特别有用的。
为了将手写字符准确翻译成数字字符,各种各样的手写字符识别方法已经被研究和使用,快速、高效和准确的手写字符识别己成为未来的发展方向。人们己经开发出了多种手写字符识别技术,其中两类主要的技术分别为在线识别和离线识别。
在线识别通常是基于手写字符的在线信息(还可被称为在线特征),诸如字符的手写轨迹中的笔划的数量/顺序以及轨迹点等。基于在线信息,可获得一组候选字符作为在线识别结果,用户将从该在线识别结果中选择可能适当的一个字符。在线识别通常较快。但是,当于写字符轨迹模糊、不流畅时,笔划顺序以及笔划数量不能被精确地确定,并且在这样的情况下,在线识别的识别结果通常不精确,甚至是错误的。
离线识别方法通常基于从手写字符的图像获得的离线信息(还可被称为离线特征),诸如字符形状(笔划区段的空间分布以及方向)等,并且从离线候选字符源中选择预定数量的候选字符作为识别结果,该离线候选字符源通常根据要被识别的字符的语言被设定,并且通常包含非常大量的字符。更具体而言,离线识别类似于手写字符与非常大的识别候选字符源中的每个字符的图像匹配,这意味着离线识别将对该源中的每个字符进行选择和处理。
在线识别的优点在于识别速度较快,对字符形状变化具有较好的鲁棒性,但是其收集全局字符模型信息较弱。离线识别的优点在于抗噪性较好,但是其识别速度较慢、对字符形状的变化识别较差。
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是被发现的一种最有效力的识别方法,在各个领域都有突破和应用。
为了提高手写字符的识别准确率,本发明提供了一种新手写字符的识别方法,其包括了将深度学习识别与离线识别、在线识别、语言环境上下文关系识别的手写字符识别方法揉合在一起,互相补短,互取优势。目前国内外没有此类的尝试和研究。
发明内容
本发明提供一种手写字符识别方法,其主要步骤包括以下步骤:
步骤200,手写字符输入,包括在输入装置的输入界面通过手写输入相应的字符;
步骤202,在线识别,包括对输入的字符进行在线识别;
步骤204,将手写输入的字符转化为图像;
步骤206,离线识别,包括对转化的图像进行离线识别;
步骤208,深度学习识别,包括对转化的图像进行深度学习识别;
步骤210,语言环境上下文关系识别,包括对离线识别结果再进行语言环境上下文关系识别;
步骤212,筛选出最佳候选识别集,包括从在线识别、离线识别、语言环境上下文关系识别、深度学习识别的候选集中筛选出最佳候选识别集;
步骤214,识别结果输出,包括根据步骤212的候选识别集进行排序并将识别结果输出,
所述步骤214中,还包括对不同候选集中所识别出的相同的候选字符进行合并后再进行最终排序。
或者所述步骤212还可以为:
通过最小分类误差方法对在线识别结果和离线识别结果进行优化识别形成优选候选识别集;
从在线识别与离线识别的优先识别候选集、语言环境上下文关系识别的候选集、深度学习识别的候选集中筛选出最佳候选识别集。
手写识别的装置可以为计算机、手机、平板、移动设备、工业监控设备等任何具有手写输入端的设备,手写字符识别方法存入手写装置的存储模块中并可以通过CPU运行程序。
在线识别方法:
一种产生用于在线字符识别模式的方法可以包括:对第一字符样本执行各种操作。可以对第一字符样本执行一个或多个预处理操作。例如,可以从该第一字符样本中去除噪声点。对该第一字符样本执行线性尺寸规范化。可以对该第一字符样本执行非线性形态规范化,然后进行对规范化的字符进行特征提取,如可以采用ramner方法,将手写的初始点和终结点进行连线,然后找出在图像中住处与连线距离最远的点,将选出点与初始点和终结点进行连线,然后在以此方法找出最近的点。
线性地MRF多路径转化,包括将字符类型表示的状态进行多路径转化;
将输入字符的特征点与字符类的状态标签进行对比,找出最优的匹配;
形成候选识别集;
所生成的候选识别可被存储在存储器中,例如在任何种类的存储介质上。这些模式可以存储为简单的或复杂的数据结构;例如,在一个实施例中,所生成的模式可以存储在模式数据库中。
离线识别方法:
对转化为字符的图片的字符特征进行归一化,归一化的方法具有多种,优选的采用P2DBMN;
方向特征提取。通过将字符分解为8个不同的方向,然后在每个方向上提取8x8向量;
降低方向特征向量的维度。由于提取后字符的方向特征向量维度较多,为8x8x8,因此提高识速度、降低存储容量,采用了FLDA方法进行降低维度。可以将为一个维度或者多个维度;
将降维后的方向向量与离线数据库中的字符模版进行匹配。可以采用QDF、MQDF2等方法,优选的,采用MQDF2方法实现匹配;
根据匹配的得分形成候选集。
深度学习识别方法主要包括以下步骤:
步骤700,构建多层卷积神经网络;所述多层卷积神经网络包括多个卷积层和全连接层;其输入为字符经过离线后转化为图像,输出为预测的多个字符分类结果;
步骤702,采用误差反向传播算法训练所述多层卷积神经网络,从而得到字符识别模型,其中训练过程中使用的目标函数为输入图像的真实标签与所述字符识别模型预测结果的交叉熵;
步骤704,增加卷积层层数得到新的网络结构,用步骤704得到的模型初始化网络权重;
步骤706,重复步骤702与704,即逐渐增加卷积层层数并训练,直到识别正确率不再提高为止,得到最终的字符识别模型;
步骤708,通过维特比(Viterbi)或DP匹配(Dynamic Programming Matching)或beam search(束搜索)等算法,找出匹配识别路径,求出每个词语对应的分数,后根据词语的分数进行排序;
步骤710,将排序的结果作为候选识别集。
或者另外一种深度识别方法:
步骤800,构建多层卷积神经网络;所述多层卷积神经网络包括多个卷积层和全连接层;其输入为图像,输出为预测的多个字符分类结果;
步骤802,采用误差反向传播算法训练所述多层卷积神经网络,从而得到字符识别模型,其中训练过程中使用的目标函数为输入图像的真实标签与所述字符识别模型预测结果的交叉熵;
步骤804,将步骤800中建立的多层卷积神经网络的输出层节点修改为2,并利用训练好的所述字符识别模型的权重初始化修改后的多层卷积神经网络的权重;
步骤806,反向传播算法训练得到字符-非字符分类器。利用字符-非字符数据集对修改后的多层卷积神经网络进行训练,得到字符-非字符二分类模型;
步骤808,将所述字符-非字符二分类模型中的所有全连接层修改成卷积层;
步骤808,利用步骤806中修改后的所述字符-非字符二分类模型对测试图像采用多尺度扫描窗口进行测试,得到文字区域的概率图,并对所述概率图进行非极大值抑制得到。
步骤810,形成候选识别集。
深度学习的方法比较多,除了采用上述方法还可以采用其它现有技术的方法。
语言环境上下文识别:
字符串识别不仅应用于字符识别,而且还需要语言上下文处理。如图9a,通过离线识别或者在线识别的结果,每个待识别的字符串都有一系列的候选字符并且每种字符都具有相应的分数。每一个候选字符识别网格都代表所有字符类型的组合的一种。语言上下文方法用来评估从字符到字符之间的组合。通过维比特(Viterbi)算法,可以搜索出具有最大分数的最优路径,也就是最终的识别结果,形成候选识别集。
最终识别结果:
将在线识别、离线识别方法相结合,根据离线识别、在线识别所占的权重,计算出联合识别的结果的置信度,如可以通过采用最小分类误差(MCE,Minimum ClassificationError)方法,优化权重的参数,形成候选识别集。
在在线识别与离线识别的形成的候选集、语言环境上下文识别候选集和深度学习识别候选集的相结合,通过设置相应的权重参数,筛选出与手写输入字符匹配结果并将结果根据打分进行排序,将相同的识别结果进行合并最后将排序的结果进行输出。
或者将在线识别候选集、离线识别的候选集、语言环境上下文识别候选集、深度学习识别候选集的相结合,通过设置相应的权重参数,筛选出与手写输入字符匹配结果并将结果根据打分进行排序,将相同的识别结果进行合并最后将排序的结果进行输出。
附图说明
图1执行手写识别的装置,主要包括手写程序、显示装置、手写输入、处理器。
图2手写识别流程,综合在线识别、离线识别、语言环境上文识别和深度学习识别各个阶段的一个示意图。
图3在线识别流程,涉及在线识别流程各个阶段的一个示意图。
图4在线识别流程步骤图,(a)特征点提取,(b)线性的马尔科夫随机场(MRF)链,(c),将位点S与标签L进行比较,获得识别结果。
图5离线识别流程图,涉及离线识别流程各个阶段的一个示意图。
图6字符特征向量的分解示意图,描述了根据本发明的一个实施例对字符特征向量的分解和提取。
图7深度学习识别流程图,涉及深度学习识别流程各个阶段的一个示意图。
图8深度学习识别流程图,涉及深度学习识别流程各个阶段的另一个示意图。
图9语言环境上下文关系方法示意图,(a)候选字符的评分网格,(b)概率评分。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。
实施例1.
图1是依据一个实施例,执行手写识别的装置的系统图。该装置可以包括手写输入模块,可以用电子笔、人手等进行书写。显示装置,例如屏幕102,其被配置为接收手写输入的字符,例如,在线手写字符。将手写输入字符通过手写装置输入到输入到手写识别程序104,该识别程序可以采用离线识别、在线识别、深度学习识别或者语言环境上下文识别的方式的一种或者几种的模式来对手写字符进行识别。该手写识别程序104可以在处理器106上运行例如来自存储在存储介质108上的程序指令。该写识别程序104也可以利用匹配数据库110 和语境上下文关系数据库112进行匹配识别。该手写识别程序104可以为在线手写字符返回结果114,比如对应于该在线手写字符的数字字符。该结果114(例如,该数字字符)随后可以显示在屏幕200上;例如,产生的数字字符的图像可以代替该数字字符所基于的在线手写字符的图像。
所生成的候选识别集可被存储在存储器中,例如在任何种类的存储介质上。这些模式可以存储为简单的或复杂的数据结构;例如,在一个实施例中,所生成的模式可以存储在模式数据库中。
识别程序可以采用离线识别、在线识别、深度学习识别或者语言环境上下文识别的方式的一种或者几种,参见图2。
图2为识别识别所采用的方法,其主要步骤包括:
步骤200,手写字符输入,包括在输入装置的输入界面通过手写输入相应的字符;
步骤202,在线识别,包括对输入的字符进行在线识别;
步骤204,将手写输入的字符转化为图像;
步骤206,离线识别,包括对转化的图像进行离线识别;
步骤208,深度学习识别,包括对转化的图像进行深度学习识别;
步骤210,语言环境上下文关系识别,包括对离线识别结果再进行语言环境上下文关系识别;
步骤212,筛选出最佳候选识别集,包括从在线识别、离线识别、语言环境上下文关系识别、深度学习识别的候选集中筛选出最佳候选识别集;
步骤214,识别结果输出,包括根据步骤212的候选识别集进行排序并将识别结果输出,
所述步骤214中,还包括对不同候选集中所识别出的相同的候选字符进行合并后再进行最终排序。
所述步骤212可以替换为:
通过最小分类误差方法对在线识别结果和离线识别结果进行优化识别形成优选候选识别集;
从在线识别与离线识别的优先识别候选集、语言环境上下文关系识别的候选集、深度学习识别的候选集中筛选出最佳候选识别集。
所述步骤202为对输入的字符进行在线识别方法,参见图3,其主要包括以下步骤:
步骤300,预处理。对第一字符样本执行各种操作,可以对第一字符样本执行一个或多个预处理操作。
步骤302,对预处理后的字符样本去除噪声点。可以从该第一字符样本中去除噪声点,噪声点可包括具有一个、两个或少量点的笔。移除噪声笔划和噪声点可以减少来自用户的疏忽或意外输入的干扰。
步骤304,规范化字符至特定的尺寸。可以对该第一字符样本执行非线性形态规范化,字符可以被规范化到特定的尺度,这种规范化可以利用保留纵横比的线性映射。也就是说,字符的尺寸可以被重新调整为标准的图片尺寸,而不改变原始的纵横比。字符映射到的特定尺度可以例如是64x64的位图,别的尺度也是可以的。
步骤306,对规范化的字符进行特征提取,如可以采用ramner方法,将手写的初始点和终结点进行连线,然后找出在图像中与连线距离最远的点,如图4a中的a图,将选出点与初始点和终结点进行连线,如图4a中的b图,然后在以此方法找出最近的点,如图4a所示,重复上述步骤直至获取所需的特征点数,如图4a中的有“开始”至“结束”所示。
步骤308,线性地MRF多路径转化,括将字符类型表示的状态进行多路径转化。具体的S={s1,s2,…,sl}作为输入字符的位点,字符类型C的状态作为标签L={l1,l2,…,ll}。参见图4b,采用了直线MRF(Markov Random Field)链作为每一个字符类型,每个字符类型都有一个状态,每个状态都有3种转化形式,如图4b中l1,l2,l3,l4,其中每个带有箭头的线代表一种转化形式,通过MRF找出一系列的路径候选。
步骤310,将MRF找出的字符类状态标签与输入字符的特征的位点进行对比,获得识别结果。具体的可以通过Viterbi算法找出匹配路径。具体的,设S代表输入字符的特征点的位点,L代表采用马尔科夫随机场(MRF)方法算出的候选路径。F代表S与L的匹配程度,设F={s1=li,s2=lj,…,sl=lk},通过求出S与L的联合概率密度,F数值越大,匹配程度越好,如图4c所示,将将位点S与标签L进行比较,获得识别结果。
步骤312,形成候选识别集。
所述步骤206为对输入的字符进行离线识别方法,参见图5,其主要包括以下步骤:
步骤502,字符特征归一化。对转化为字符的图片的字符特征进行归一化,归一化的方法具有多种,优选的采用伪二维双矩正规化(pseudo 2D bi-moment normalization,P2DBMN);
步骤504,方向特征提取。基于字符中每个点的所确定的方向获取方向特征,方向特征可以是给定方向空间中的向量,该向量具有该方向空间的一个或多个方向的分量。该方向空间可以是8方向的。也就是说,对于该方向特征向量可以有8种可能的方向分量。例如,该8个方向可以对应于指南针的方向:北,东北,东,东南,南,西南,因,和西北。因此,一个点的方向特征可以是包括例如西北和北的分量的两个方向。其他方向空间也是可以的,例如,4方向空间,继续比喻成指南针的指向,北,东,南和西。其它的方向空间也是可以的。通过生成己提取的特征的方向模式图像。每个点可基于它的方向特征被分配给一个或多个方向模式图像。例如,方向特征为西北和北的点被分配给西北模式图像和西模式图像。一般地,如果使用n方向空间,则可以生成n方向模式图像;因此,如果使用8方向空间,可以生成8方向模式图像。每个方向模式图像可以包括基于点的方向特征被分配给它的点。也就是说,西北模式图像可以包括所有包含西北方向特征的点,而南模式图像可以包括所有包含南方向特征的点。应注意,每个点可以包含于两个方向模式图像中,例如,每个方向模式图像对应于给定点的方向特征。参见图6,生成一个特征向量,该特征向量可以基于以上描述的步骤。例如,基于原始的8方向64x64像素图像,可以产生8方向模式图像,接着图像可被划分成为64(8x8)个8x8像素网格,每个都用Gabor滤波器进行滤波。因而,可以产生8x 8x8=512尺寸的特征向量。换句话说,64x64的像素中的64(8x8)个网格中的每个可以具有8方向的模式图像。在一个实施例中,这些方向模式图像可以表示为浮点数,因而每个网格可以具有一个或多个浮点,并且因此特征向量可以由这些浮点组成,从而这可利用分类(例如统计学分类)方法处理。
步骤506,降低方向特征向量的维度。由于提取后字符的方向特征向量维度较多,每个字符为具有512尺寸的特征向量,因此为了提高识速度、降低存储容量,采用了FLDA方法进行降低维度,将维度降低为一个维度或者几个维度。具体的,假设字符类型C表示ω1,ω2,ω3,……,ωc。Ni为N的训练样本空间的一个样本。X为具有n维向量的第j个样本。每个字符的平均矢量和所有字符的平均矢量可以分别表示 字符类型之间的和字符内部的分散矩阵分别用Sb和Sw表示,可以分别定义为
其降为矩阵Wopt可以写为:
通过方程(3)将方向特征向量从n为降低为m维(n>m>0)
步骤508,将降维后的方向向量与离线数据库中的字符模版进行匹配。可以采用QDF、MQDF、MQDF2等方法,优选的,采用MQDF2方法实现匹配;
深度学习是被发现的一种最有效力的识别方法,在各个领域都有突破和应用。深度学习用于文字识别也不算新,已有人在用。本方法,用深度学习和既存的文字识别方法揉合在一起,互相补短,互取优势。
所述步骤208为对转成图像的字符进行深度学习识别方法,参见图7,其主要包括以下步骤:
步骤700,构建多层卷积神经网络;所述多层卷积神经网络包括多个卷积层和全连接层;其输入为字符经过离线后转化为图像,输出为预测的多个字符分类结果;
步骤702,采用误差反向传播算法训练所述多层卷积神经网络,从而得到字符识别模型,其中训练过程中使用的目标函数为输入图像的真实标签与所述字符识别模型预测结果的交叉熵;
步骤704,增加卷积层层数得到新的网络结构,用步骤704得到的模型初始化网络权重。
步骤706,重复步骤702与704,即逐渐增加卷积层层数并训练,直到识别正确率不再提高为止,得到最终的字符识别模型。
步骤708,通过维特比(Viterbi)或DP匹配(Dynamic Programming Matching)或beam search(束搜索)等算法,找出匹配识别路径,求出每个词语对应的分数,后根据词语的分数进行排序。
步骤710,将排序的结果作为候选识别集。
另一深度学习识别方法的实施例2为:
参见图8,其主要包括以下步骤:
步骤800,构建多层卷积神经网络,包括包括定义构成网络的层数、卷积窗大小和节点数等。一般来说,网络越深效果越好,但同时计算量增加。如包含2层卷积层+3层全连接层,输入为28×28减去均值的灰度图像的像素值,输出层的每个输出节点代表一类字符,对于英文来说共62类(26个大写字母+26个小写字母+10个数字);所述多层卷积神经网络包括多个卷积层和全连接层;其输入为图像,输出为预测的多个字符分类结果;
步骤802,采用误差反向传播算法训练所述多层卷积神经网络,从而得到字符识别模型,其中训练过程中使用的目标函数为输入图像的真实标签与所述字符识别模型预测结果的交叉熵;
步骤804,将步骤800中建立的多层卷积神经网络的输出层节点修改为2,并利用训练好的所述字符识别模型的权重初始化修改后的多层卷积神经网络的权重;
步骤806,反向传播算法训练得到字符-非字符分类器。利用字符-非字符数据集对修改后的多层卷积神经网络进行训练,得到字符-非字符二分类模型;
步骤808,将所述字符-非字符二分类模型中的所有全连接层修改成卷积层,包括,二分类模型训练好后,将所述二分类模型中的全连接层改为卷积层,但权重值保持不变。这是因为训练时固定了输入为28×28的图像,而测试时的图像大小不固定。直接用扫描窗口法对测试图像的每一个28×28的图像块进行测试,会有很多重叠部分,浪费了计算量。利用卷积操作的平移不变性,将全连接层改为卷积层,可以对任意大小的图像进行一次测试,大大节省了计算量;
步骤808,利用步骤806中修改后的所述字符-非字符二分类模型对测试图像采用多尺度扫描窗口进行测试,得到文字区域的概率图,并对所述概率图进行非极大值抑制得到;
步骤810,形成候选识别集。
所述步骤210为对离线识别结果进行语言环境上下文关系识别,参见图9。字符串识别不仅应用于字符识别,而且还需要根据语言环境对上下文进行处理。如图9(a),包括候选字符和相应字符的评分,输入仲字,显示仲为900分,件为874分等。通过离线识别或者在线识别的结果,每个待识别的字符串都有一系列的候选字符并且每种字符都具有相应的分数。每一个候选字符识别网格都代表所有字符类型的组合的一种。语言上下文方法用来评估从字符到字符之间的组合。通过Viterbi算法,可以搜索出具有最大分数的最优路径,也就是最终的识别结果。
语言内容处理方法可大致分为两类:使用单词的组合和词组的组合。如图9(b)所示,语言环境上下文关系内容处理估计概率P(C)包括一序列的字符组合{C1,C2,...} 或一序列词组的{W1,W2,...}。使用字符组合的方法评估每个候选字符的组合的概率。我们可以只用一个字符(单gram)、两个字符(2-gram)、三个字符(3-gram)、一直到n个字符一般称为n-gram。使用词组组合的方法首先根据形态学分析将字符串分成词组,然后评估每个候选词组的组合概率。我们也可以只用一个词组(单字)、两个词组,三个词组和n个词组的出现概率。有限的词汇的识别,如地址,人名,日期和部门等是字符串识别是非常重要。
使用字符语言环境上下文关系的评估概率公式为:
P(C)=P(c1)P(c2|c1)P(c3|c2)P(c4|c3)P(c5|c4)P(c6|c5) 式(4)
式中,C1,C2,C3,C4,C5,C5分别表示候选字符集相应的评分,P(C1),P(C2│C1),P(C3│C2),P(C4│C3),P(C5│C4),P(C6│C5)分别为对应的条件概率,参见图9(b)。
使用词组语言环境上下文关系的评估概率公式为:
P(C)=P(w1)P(w2|w1)P(w3|w2) 式(5)
式中,W1,W2,W3,分别表示候选词组相应的评分,P(W1),P(W2│W1),P(W3│W2)分别为对应词组的条件概率,参见图9(b)。
将离线识别的候选字符与语言环境上下文关系数据库进行匹配,根据上式方程(4)和(5)计算出相应的置信度,形成候选识别集。
所述步骤212,筛选最佳候选识别集,包括在线识别、离线识别、语言环境上下文关系识别、深度学习识别所形成的四个候选集中筛选出最佳的候选集。
首先将在线识别与离线识别方法相结合,根据离线识别、在线识别所占的权重,计算出联合识别结果的置信度。通过采用MCE(Minimum Classification Error)方法,优化权重的参数(参见公式6),形成候选结果并输出。
其中,表示经过在线识别和离线识别后的手写字符的评分,和分别表示线识别和离线识别方法对手写字符的评分,λ1和λ2分别表示在线识别和离线识别所占的权重参数。
然后依据在线识别与离线识别结果形成的候选集、语言环境上下文识别候选集和深度学习识别候选集的相结合,通过设置相应的权重参数,筛选出与手写输入字符匹配结果并将结果根据打分进行排序,将不同候选集中所识别出的相同的候选字符进行合并后在进行最终排序将最终排序后的结果进行输出。
不同候选集中所识别出的相同的候选字符进行合并,具体为是指对不同识别方法的产生的候选集,如果多个识别结果的候选集中出现相同的字符,那么将相同的字符进行合并,取评分最大的参与排序,如表1所示:
表1识别候选集表
假设每种识别方法对每个输入字符选取三个不同的字符作为候选集,从表1可以看出,“在”出现了四次,因此需要“在”进行合并,由于每种模式对应“在”的评分不相同,因此我们取评分最大参与其余候选集的排序。“龙”字在表1中不同的候选集中并没有相同的识别字符,因此无须合并而直接参与排序。
另一种实施例3为:
将在线识别的候选集、离线识别的候选集、语言环境上下文识别的候选集、深度学习识别的候选集相结合,通过设置相应的权重参数,筛选出与手写输入字符匹配结果并将结果根据打分进行排序,将不同候选集中所识别出的相同的候选字符进行合并后在进行最终排序将最终排序后的结果进行输出
此处的权重参数可以为选取候选字符的个数,如可以从四种不同模式中各选4个参与排序或者个数不等的候选字符。
或权重参数可以按照一定的权重比例,将权重参数乘以不同候选集中的候选字符的评分,最后计算出相应的评分。权重参数可以根据经验确定,也可以根据所输语言种类进行调整权重参数,还可以根据其它方法确定。
具体实验结果为,我们进行了以下实验,实验分为两部分,一个在采区深度学习识别的方法,即本发明实施例1的方法,综合四种识别模式的方法,另一个为在不采用的深度学习识别方法,只结合了在线识别、离线识别和语言环境上下文关系识别的方法。分别比较这两种识别方法的识别时间、所需要耗费的内存容量和识别准确率。
采用了intel的CPU型号为Intel(R)Xeom(R)CPU W5590@3.36GHz 3.36GHz(2processers),12GB的内存。对于日本的识别,采用了VQ(vector quantization(VQ)techniques)方法对识别内容进行了压缩,对于中的日本,并未使用VQ压缩方法。其识别的结果为表2所示。
表2手写中日文识别实验
深度学习是被发现的一种最有效力的识别方法,在各个领域都有突破和应用。本方法,用深度学习和既存的文字识别方法揉合在一起,互相补短,互取优势。从实验结果中可以得出,当综合采用了四种方法,即具有深度学习识别方法存在时,手写字符的准确率相对于没有采用深度学习时别的方法,有较大的提高,中文从原来的90.00%提升到92.00%,日本从原来的92.99%提升到94.33%。在在识别时间和识别时所耗内存基本无变化。可见采用本发明将深度学习识别与离线识别、在线识别、语言环境上下文关系识别的手写字符识别方法揉合在一起,互相补短,互取优势,实验结果表明很大的提高手写中日文字符的识别准确率,相比于现有技术,具有突出的实质性特点和有益效果。
Claims (10)
1.一种中日文手写字符的识别方法,其特征在于,主要包括以下步骤:
步骤200,手写字符输入,包括在输入装置的输入界面通过手写输入相应的字符;
步骤202,在线识别,包括对输入的字符进行在线识别;
步骤204,将手写输入的字符转化为图像;
步骤206,离线识别,包括对转化的图像进行离线识别;
步骤208,深度学习识别,包括对转化的图像进行深度学习识别;
步骤210,语言环境上下文关系识别,包括对离线识别结果再进行语言环境上下文关系识别;
步骤212,筛选出最佳候选识别集,包括从在线识别、离线识别、语言环境上下文关系识别、深度学习识别的候选集中筛选出最佳候选识别集;
步骤214,识别结果输出,包括根据步骤212的候选识别集进行排序并将识别结果输出;
所述步骤214中,还包括对不同候选集中所识别出的相同的候选字符进行合并后再进行最终排序。
2.根据权利要求1所述的一种中日文手写字符的识别方法,其特征在于,所述步骤212替换为:
通过最小分类误差方法对在线识别结果和离线识别结果进行优化识别形成优选候选识别集;
从在线识别与离线识别的优选识别候选集、语言环境上下文关系识别的候选集、深度学习识别的候选集中筛选出最佳候选识别集。
3.根据权利要求1所述的一种中日文手写字符的识别方法,其特征在于,所述在线识别主要包括以下步骤:
步骤300,预处理,包括可以对字符样本执行一个或多个预处理操作;
步骤302,从原始字符中去除噪声点,包括对字符样本中去除噪声点;
步骤304,规范化字符至特定的尺寸,包括对字符执行线性形态规范化或非线性规范化;
步骤306,特征提取,包括对规范化的字符进行特征提取;
步骤308,线性地马尔科夫随机场链多路径转化,包括将字符类型表示的状态进行多路径转化;
步骤310,将输入字符的特征点与字符类的状态标签进行对比,找出最优的匹配;
步骤312,形成候选识别集。
4.根据权利要求3所述的一种中日文手写字符的识别方法,其特征在于,所述步骤304规范化至特定的尺寸包括:字符被规范化到特定的尺度,保留字符纵横比。
5.根据权利要求3所述的一种中日文手写字符的识别方法,其特征在于,所述步骤306特征提取包括:将规范化的字符的初始点和终结点进行连线,然后找出在图像中与连线距离最远的点,将选出点与初始点与终结点分别进行连线,然后重复上述步骤直至获取所需的特征点数。
6.根据权利要求3所述的一种中日文手写字符的识别方法,其特征在于,所述步骤310采用了维比特算法计算出匹配路径。
7.根据权利要求1所述的一种中日文手写字符的识别方法,其特征在于,所述离线识别主要包括以下步骤:
步骤502,字符特征归一化,包括伪二维双矩正规化;
步骤504,方向特征提取,包括基于字符中每个点所确定的方向获取方向特征,方向特征可以是给定方向空间中的向量;
步骤506,降低方向特征向量的维度,包括将具有较多维度的字符的特征向量降低为低维度的特征向量;
步骤508,将减小的方向特征向量与离线数据中的字符模版进行匹配,包括
步骤510,根据匹配的得分对候选字符进行排序,包括根据步骤508所得出的匹配分数,按照分数高低进行排序;
步骤512,形成候选识别集。
所述步骤510将减小的方向特征向量与离线数据中的字符模版进行匹配的方法选自QDF、MQDF或MQDF2中一种。
8.根据权利要求7所述的一种中日文手写字符的识别方法,其特征在于,所述步骤506降低方向特征向量的维度包括运用Fisher线性鉴别分析方法,其降维的方程式为:
。
9.根据权利要求1所述的一种中日文手写字符的识别方法,其特征在于,所深度学习识别主要包括以下步骤:
步骤700,构建多层卷积神经网络;所述多层卷积神经网络包括多个卷积层和全连接层;其输入为字符经过离线后转化为图像,输出为预测的多个字符分类结果;
步骤702,采用误差反向传播算法训练所述多层卷积神经网络,从而得到字符识别模型,其中训练过程中使用的目标函数为输入图像的真实标签与所述字符识别模型预测结果的交叉熵;
步骤704,增加卷积层层数得到新的网络结构,用步骤704得到的模型初始化网络权重;
步骤706,重复步骤702与704,即逐渐增加卷积层层数并训练,直到识别正确率不再提高为止,得到最终的字符识别模型;
步骤708,通过维特比或动态编程匹配或束搜索算法,找出匹配识别路径,求出每个字符或词组对应的评分,后根据每个字符或词组的分数进行排序;
步骤710,将排序的结果作为候选识别集。
10.根据权利要求1所述的一种中日文手写字符的识别方法,其特征在于,所语言环境上下文识别包括使用单词的组合或词组的组合;所述单词或词组的组合概率评估方法包括N-gram方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610895680.7A CN106529525A (zh) | 2016-10-14 | 2016-10-14 | 一种中日文手写字符的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610895680.7A CN106529525A (zh) | 2016-10-14 | 2016-10-14 | 一种中日文手写字符的识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106529525A true CN106529525A (zh) | 2017-03-22 |
Family
ID=58331709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610895680.7A Pending CN106529525A (zh) | 2016-10-14 | 2016-10-14 | 一种中日文手写字符的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106529525A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239733A (zh) * | 2017-04-19 | 2017-10-10 | 上海嵩恒网络科技有限公司 | 连续手写字识别方法及系统 |
CN107451559A (zh) * | 2017-07-31 | 2017-12-08 | 邱宇轩 | 基于机器学习的帕金森病人手写文字自动识别方法 |
CN107967475A (zh) * | 2017-11-16 | 2018-04-27 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
CN108805223A (zh) * | 2018-05-18 | 2018-11-13 | 厦门大学 | 一种基于Incep-CapsNet网络的篆文识别方法及系统 |
CN109214386A (zh) * | 2018-09-14 | 2019-01-15 | 北京京东金融科技控股有限公司 | 用于生成图像识别模型的方法和装置 |
CN109657739A (zh) * | 2019-01-09 | 2019-04-19 | 西北大学 | 一种基于高频声波短时傅里叶变换的手写字母识别方法 |
CN109800763A (zh) * | 2019-02-09 | 2019-05-24 | 鲁东大学 | 一种基于深度学习的手写中文识别方法 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
WO2022016649A1 (zh) * | 2020-07-21 | 2022-01-27 | 深圳市鹰硕教育服务有限公司 | 智能笔图像处理方法、装置及电子设备 |
-
2016
- 2016-10-14 CN CN201610895680.7A patent/CN106529525A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239733A (zh) * | 2017-04-19 | 2017-10-10 | 上海嵩恒网络科技有限公司 | 连续手写字识别方法及系统 |
CN107451559A (zh) * | 2017-07-31 | 2017-12-08 | 邱宇轩 | 基于机器学习的帕金森病人手写文字自动识别方法 |
CN107967475B (zh) * | 2017-11-16 | 2020-04-14 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
CN107967475A (zh) * | 2017-11-16 | 2018-04-27 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
CN108805223B (zh) * | 2018-05-18 | 2021-03-23 | 厦门大学 | 一种基于Incep-CapsNet网络的篆文识别方法及系统 |
CN108805223A (zh) * | 2018-05-18 | 2018-11-13 | 厦门大学 | 一种基于Incep-CapsNet网络的篆文识别方法及系统 |
CN109214386A (zh) * | 2018-09-14 | 2019-01-15 | 北京京东金融科技控股有限公司 | 用于生成图像识别模型的方法和装置 |
CN109657739A (zh) * | 2019-01-09 | 2019-04-19 | 西北大学 | 一种基于高频声波短时傅里叶变换的手写字母识别方法 |
CN109657739B (zh) * | 2019-01-09 | 2023-03-24 | 西北大学 | 一种基于高频声波短时傅里叶变换的手写字母识别方法 |
CN109800763A (zh) * | 2019-02-09 | 2019-05-24 | 鲁东大学 | 一种基于深度学习的手写中文识别方法 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111340006B (zh) * | 2020-04-16 | 2024-06-11 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
WO2022016649A1 (zh) * | 2020-07-21 | 2022-01-27 | 深圳市鹰硕教育服务有限公司 | 智能笔图像处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN106529525A (zh) | 一种中日文手写字符的识别方法 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN110232439B (zh) | 一种基于深度学习网络的意图识别方法 | |
CN110413783B (zh) | 一种基于注意力机制的司法文本分类方法及系统 | |
CN106599933A (zh) | 一种基于联合深度学习模型的文本情感分类方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN111177326A (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN107577662A (zh) | 面向中文文本的语义理解系统及方法 | |
CN111325323A (zh) | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 | |
CN115146057B (zh) | 基于交互注意力的供应链生态区图文融合情感识别方法 | |
CN110781672A (zh) | 基于机器智能的题库生产方法及系统 | |
CN112287090A (zh) | 一种基于知识图谱的金融问题反问方法及系统 | |
US11756244B1 (en) | System and method for handwriting generation | |
CN110851601A (zh) | 基于分层注意力机制的跨领域情感分类系统及方法 | |
CN114065848A (zh) | 一种基于预训练情感嵌入的中文方面级别情感分类方法 | |
CN117236338B (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
Wang | Research on handwritten note recognition in digital music classroom based on deep learning | |
CN112347780B (zh) | 基于深度神经网络的司法事实查明生成方法、装置、介质 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN112651241A (zh) | 一种基于半监督学习的汉语并列结构自动识别方法 | |
CN116629266A (zh) | 面向小样本的文本命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170322 |