CN101853126B - 一种联机手写句子实时识别方法 - Google Patents

一种联机手写句子实时识别方法 Download PDF

Info

Publication number
CN101853126B
CN101853126B CN2010101756272A CN201010175627A CN101853126B CN 101853126 B CN101853126 B CN 101853126B CN 2010101756272 A CN2010101756272 A CN 2010101756272A CN 201010175627 A CN201010175627 A CN 201010175627A CN 101853126 B CN101853126 B CN 101853126B
Authority
CN
China
Prior art keywords
stroke
character
identification
candidate
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010101756272A
Other languages
English (en)
Other versions
CN101853126A (zh
Inventor
刘成林
王大寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Yueshen Technology Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2010101756272A priority Critical patent/CN101853126B/zh
Publication of CN101853126A publication Critical patent/CN101853126A/zh
Application granted granted Critical
Publication of CN101853126B publication Critical patent/CN101853126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明是一种联机手写句子实时识别方法,该方法是:输入开始模块启动笔划输入;笔划采集模块记录笔尖在输入平面上移动的笔划轨迹;实时识别模块对提笔后得到的笔划轨迹进行实时识别;提笔时间判断模块计算提笔时间是否够长;启动字符串识别模块,字符串识别模块根据路径评价准则计算候选切分识别网格中各切分识别路径的分数,并用动态规划算法搜索分数最优的路径得到字符串识别结果;编辑修改模块对字符串识别结果进行编辑修改,对错误的字符切分和字符识别部分通过用户操作进行编辑修改;语言联想模块在字符串识别和编辑修改的基础上,根据最后的字符类别,通过语言联想给出后续的字或词供用户选择,以提高句子输入速度。

Description

一种联机手写句子实时识别方法
技术领域
本发明属于计算机应用技术和模式识别领域,具体的说,涉及联机手写字符识别技术和手写中文输入方法。
背景技术
近几年来,随着笔式电脑、PDA和手机等移动终端设备的出现和越来越多地得到应用,联机手写字符输入方法得到越来越多的关注。联机手写输入,就是在书写过程中用一个电子板或电子笔采集文字的笔划轨迹(又称数字墨水),然后对轨迹进行识别,将识别结果作为文本利用或保存起来。与常见的屏幕与键盘的输入方式相比,笔输入技术使用户不必切换输入设备、输入模式或输入软件,仅仅用一支笔就可以实现输入,与传统的纸和笔的输入方式更接近。手写输入方式对不会使用输入法的人和不习惯使用键盘的人(比如老人),以及没有键盘或键盘很小的情况(如手持式移动终端)提供了一种更方便有效的途径。
联机手写输入的核心是联机手写字符识别,字符识别准确率和速度直接决定了书写的速度和效率。当前常用的方式是单个字的输入,即输入一个字,给出结束标志(提笔等待时间超过一定时间或者点击按钮),然后识别给出候选识别结果供用户选择,这使得输入速度受到了很大的限制。手写板、笔式电脑和大屏幕移动终端允许连续书写多个字符,但是系统常常是在所有的笔划写完后才开始识别,这也使得识别速度受到限制,同时,现在的多字符识别技术切分错误较多、识别精度较低,影响了手写输入的效率。
手写字符串(句子)识别是对一行字符或者一句话进行识别的,手写句子识别在集成切分识别的框架下,可以有效融合字符识别器输出、语言模型和几何上下文信息,能提高字符切分和识别的准确率。在联机手写中文句子实时识别方面,即在句子书写过程当中,系统对句子中已书写的部分字符进行自动识别,并在句子书写完成之后实时地给出整句识别结果,这方面的技术还没有相关文献或者专利的报道。
发明内容
为了解决现有技术的问题,本发明的目的是提供一种联机手写句子实时识别方法,该方法是基于联机手写字符串(句子)识别,在书写过程当中对已书写的部分字符进行自动识别,并在句子书写完成之后实时地给出整句识别结果,解决了快速手写中文输入的问题。同时,本发明的联机手写句子识别方法,融合了字符识别置信度、几何特征和语言模型,能提高手写字符识别的精度;而基于与候选字符模式个数无关的路径评价准则,使得利用动态规划算法能快速搜索最优切分识别路径得到识别结果;该方法的基本特征,还包括:利用统计语言模型和词典进行词语联想,提高输入速度;允许用户对识别结果进行部分编辑修改。
为达成所述目的,本发明提供一种联机手写句子实时识别方法,是采用手写句子实时识别、人工编辑修改和语言联想相结合的方法,该方法主要有以下几个模块:实时识别、字符串识别(句子识别)、编辑修改和语言联想,该识别方法的步骤包括:
步骤S1:输入开始模块启动笔划输入,笔尖接触输入平面表明输入开始;
步骤S2:笔划采集模块记录笔尖在输入平面上移动的笔划轨迹;所述笔划轨迹用xn,yn点坐标序列表示:(x1,y1),(x2,y2),...,(xn,yn),其中n是笔划轨迹的采样点数;
步骤S3:实时识别模块对提笔后得到的笔划轨迹进行处理,生成候选字符模式并对每一个候选字符模式进行识别给出候选字符类别,将生成的候选字符模式及其候选字符类别保存在候选切分识别网格;
步骤S4:提笔时间判断模块计算提笔时间是否够长,如果提笔时间够长表明提笔可能是一个字符的结束,执行步骤S5;如果提笔时间不够长,表明提笔只是一个笔划的结束,执行步骤S2,继续采集下一个笔划并进行实时识别;
步骤S5:启动字符串识别模块,字符串识别模块根据路径评价准则计算候选切分识别网格中各切分识别路径的分数,并用动态规划算法搜索分数最优的路径得到字符串识别结果;字符串识别结果包括字符切分结果和字符识别结果;
步骤S6:编辑修改模块对字符串识别结果进行编辑修改,对错误的字符切分和字符识别部分通过用户操作进行编辑修改。
步骤S7:语言联想模块在字符串识别和编辑修改的基础上,根据最后的字符类别,通过语言联想给出后续的字或词供用户选择,以提高句子输入速度。
步骤S8:继续输入判断模块用于在联想结束后判断是否继续输入,如果继续在输入平面上书写,则回到步骤S2采集下一个笔划;否则,结束输入。
其中,所述实时识别模块包括以下步骤:
步骤S201:提笔表明一个笔划书写结束,得到笔划轨迹或称为点序列;
步骤S202:在笔划轨迹中笔划弯折点或可能的连笔处断开笔划,得到笔划段;
步骤S203:判断一个笔划段是否一个新的笔划块的开始,判断的条件是该笔划段与前面已经形成的笔划块相比是否有足够的水平位移;
步骤S204;如果一个笔划段是一个新的笔划块的开始,将该笔划段作为一个新的笔划块;
步骤S205:否则,将该笔划段合并到前面与之重叠度最大的笔划块;
步骤S206:顺序判断每一个笔划段直至所有的笔划段处理完毕,所述每一个笔划段构成新的笔划块或与前面的笔划块合并;
步骤S207:在所有笔划段处理完毕形成笔划块后,将每一个新生成的或者合并后的笔划块当作候选字符模式,或者将该笔划块与前面相邻的笔划块合并构成候选字符模式;对于新生成的候选字符模式,用字符识别器对其进行识别,给出置信度最高或匹配距离最小的一个或多个字符类别作为候选识别结果,将新生成的候选字符模式及其候选类别存入候选切分识别网格。
其中,所述笔划块是在水平方向上重叠度较大的一个或多个笔划、一个或多个笔划段构成的集合。
其中,所述断开笔划的步骤如下:
步骤S2021:通过计算笔划轨迹上每一点的弯折角度,判断弯折点,在弯折点处将笔划断开;
步骤S2022:设弯折角度为笔划轨迹上一点(xi,yi)与之前一点(xik,yik)连线和与之后一点(xi+k,yi+k)连线的夹角;
步骤S2023:对弯折角度进行判断,若该角度在30度到150度之间而且大于(xi1,yi1)和(xi+1,yi+1)的角度,则认为该点是一个可能的连笔处,则将笔划在可能的连笔处的该点处断开;断开连笔的目的是将相邻字符之间的连笔断开,得到一个或多个笔划段,表示为s1,s2,...,sm
其中,判断新的笔划块的条件是:根据笔划段与前面已经形成的笔划块相比是否有足够的水平位移进行判断,如果该笔划段与前面某个笔划块的水平重叠度大于0.4或笔划段与笔划块中的某个笔划相互交叉且水平重叠度大于0.2,则断定该笔划段不是一个新的笔划块的开始;如果该笔划段与前面所有笔划块的水平重叠度小于0.2或在没有交叉的情况下水平重叠度小于0.4,则断定该笔划段是一个新的笔划块的开始;所述水平重叠度的计算方式如下:设笔划段外框和笔划块外框的宽度分别为w1和w2,外框区域重叠部分宽度为wo,则重叠度计算为
Figure GSA00000122936400041
其中,所述候选字符模式生成的条件是:
(1)合并的笔划块个数最多不超过8个,也就是一个候选字符模式由1到8个笔划块组成;
(2)候选字符模式的宽度不超过估计的字符高度的2.5倍。
其中,用于候选字符模式识别的字符识别器采用具有存储量小、计算速度快、排斥非字符模式特点的最近原型分类器;在经过字符模式归一化、特征提取将字符模式表示为一个特征矢量后,计算该特征矢量与预先训练得到的字符集中每个字符类别的原型矢量之间的匹配距离,距离最小的类别以及距离与最小距离之差小于一个阈值的类别作为候选字符模式的候选类别。
其中,所述路径评价准则融合了字符识别置信度、几何特征和语言模型,并对字符识别置信度和几何特征分数用候选字符模式的笔划块个数进行加权,这样就克服路径长度的影响,从而能用动态规划算法搜索得到最优识别结果,或用集束搜索(Beam Search)算法搜索得到多个最优识别结果,所述路径长度是路径上候选字符模式的个数。
其中,编辑修改模块使得用户在书写过程中,当字符串识别给出字符切分和字符识别结果后,能及时对切分和识别结果进行修改校正:对于字符切分的合并错误,用笔在合并的地方画一竖线将两字分开;对于分裂错误,用笔将分裂后的两字圈起来将他们合并成一个字;切分错误修正后,系统自动地重新对切分后的字符进行识别,从而得到新的字符串识别结果;如果切分正确后有些字符模式有识别错误,则对这些字符模式个别进行修正:选择识别错误的字符模式,系统给出这个字符模式的多个候选类别,用户从中点击选择正确的类别,如果候选类别中没有正确的类别,用户重新书写这个字符,系统自动地重新识别这个字符。
其中,所述语言联想模块,其语言联想包括字联想和词联想两种方式:字联想方式利用2元语法(Bigram)模型根据前面一个字快速找出概率较大的几个后续字供用户选择;词联想建立在一个词库基础上:检查句子最后一个字或几个字是否构成一个词的开头,若是则将完整的词显示出来供用户选择;字联想得到的后续字如果构成词的开头,则将联想到的词也显示出来;用户接受联想的字/词之后,输入句子得到扩展,系统由此可以继续联想,直到联想不被接受为止。
本发明提供的联机手写句子实时识别方法的有益效果:
(1)本发明基于联机手写句子识别,并能实时地对手写句子进行识别,从而提供了一种快速手写输入的方法。与基于单字识别的中文输入方式相比,连续书写的速度更快,也更加自然和符合人们的习惯;
(2)本发明的联机手写句子识别方法在书写过程中对已书写的部分字符实时地进行识别,并在句子书写完成时,快速得到整句识别结果,而不是在句子书写完成之后才开始识别,从而充分利用了机器的计算资源;
(3)本发明的联机手写句子识别方法,在过切分阶段,将所有可能的连笔断开,既不影响识别又能断开连笔,克服了连笔书写的问题;
(4)本发明的字符识别器,采用了同时具有识别率高、存储量小、计算速度快、对非字符模式拒绝能力强的最近原型分类器。分类器存储量小和计算量小的优点,使本发明能适应各种手写输入设备的需求;其对非字符模式的拒绝能力使其适合基于候选切分的句子识别方法;
(5)本发明的路径评价准则有效地融合了字符识别置信度、几何特征和语言模型,利用了更多的上下文信息,使识别率比单字识别率更高;用笔划块个数对识别分数加权使路径评价准则中相加总项数(语言模型除外)与切分路径上候选字符模式个数无关,使得可以采用动态规划方法快速搜索得到最优路径,这也使得句子识别速度较快,能满足实时识别的需求;
(6)本发明的联机手写句子识别中文输入方法,允许用户对识别结果进行部分编辑修改,提供更加方便的编辑修改功能以修正字符切分和识别错误,更加人性化,丰富了手写输入的功能;
(7)本发明的联机手写句子识别中文输入方法,给出了多个候选的字符切分和识别结果,并利用语言模型给出了语言联想供用户选择,进一步提高了输入速度;
综合说来,本发明的联机手写句子实时识别方法,识别精度高、速度快、占用内存小,提供了一种书写速度更快、书写更自然、更加符合人们习惯的手写输入方法,可以适用于各种手写输入设备,比如手写板、笔式电脑、电纸书、PDA和手机等移动终端。
附图说明
图1是本发明的系统结构框图
图2是本发明的实时识别模块的流程框图
图3是一个句子的部分笔迹和实时的候选切分识别结果示例
图4是图3的句子延长后新生成的候选字符
图5是一个句子的字符切分和识别结果(三个候选)示例
具体实施方式
为使本发明的特点和优点得到进一步的阐释,下面结合附图和实施方式对本发明做进一步阐释。本发明可在笔式电脑、PDA和移动终端等手写输入设备上实现。
参考图1,是本发明的系统结构框图。本发明主要包括以下四个模块:实时识别模块103、字符串识别模块105、编辑修改模块106和语言联想模块107。其他模块是辅助的输入/输出或控制模块。
输入开始模块101,用于启动笔划输入:下笔(笔尖接触输入平面)表明输入开始。
笔划采集模块102,用于记录笔尖在输入平面上移动的笔划轨迹。笔划轨迹用xn,yn点坐标序列表示:(x1,y1),(x2,y2),...,(xn,yn),其中n是一个笔划的采样点数。
实时识别模块103,用于对提笔后得到的笔划轨迹进行实时识别。实时识别的详细流程见图2,步骤包括笔划断开连笔成笔划段、形成笔划块和候选字符模式(由一个或多个相邻的笔划块组成)、候选字符模式识别得到候选字符类别等步骤,得到更新的候选切分识别网格。实时识别模块只对最新笔划构成的候选字符模式进行实时识别,并更新和保存候选切分识别网格,前面的书写部分不需要重新识别。候选切分识别网格如图3的子图303所示。图中每个圆角方框中的笔划轨迹表示一个候选字符模式,候选字符模式下面的字符表示识别后得到的候选类别(可以有多个)。从最左边的起始节点到最右边的终止节点有多条路径,每一条路径表示一个候选切分方式,路径上每个候选字符模式选择一个字符类别构成一个候选切分识别结果。由于一个候选字符模式可以有多个候选字符类别,一个候选切分方式可以给出多个候选切分识别结果(切分识别路径)。实时识别模块的详细流程在附图2给出,将在后面详细说明。
提笔时间判断模块104,计算提笔时间是否够长,如果够长表明提笔可能是一个字符的结束,启动字符串识别模块105;如果提笔时间不够长,表明提笔只是一个笔划的结束,回到笔划采集模块102,继续采集下一个笔划并进行实时识别。判断等待时间是否够长的阈值根据需要或者根据书写者习惯进行设置,比如如果书写速度较快,则设置为0.3秒,若书写速度较慢,则设置为0.5秒,等等。
字符串识别模块105,用于根据路径评价准则计算候选切分识别网格中各切分识别路径的分数,并用动态规划算法搜索分数最优的路径得到字符串识别结果。字符串识别结果包括字符切分结果和字符识别结果。字符串识别的详细步骤如下:
在候选切分识别网格上,根据路径评价准则计算各切分识别路径的分数,用动态规划算法搜索得到字符串识别结果。路径评价准则融合了字符识别置信度、几何特征和语言模型,并对字符识别置信度和几何特征分数用候选字符模式的笔划块个数进行加权,从而使路径评价准则与路径上候选字符模式的个数无关,使得动态规划算法能搜索得到最优切分识别结果。若想得到多个切分识别结果,则采用集束搜索(BeamSearch)算法进行搜索得到多条最优的切分识别路径;
路径评价准则设计如下:令字符串的每一种切分方式对应一个候选字符模式序列X=x1…xn(每个候选字符用一个特征矢量表示),每个候选字符模式xi被字符识别器(分类器)分配几个候选类别(表示为ci),则C=c1…cn表示一个字符串识别结果,(X,C)表示一个候选切分识别结果(对应一条候选切分识别路径)。语言模型用2元语法(Bi-gram)表示:P(ci|ci-1)表示相邻两个字符类别的转移概率(具体值从文本语料库统计得到,并事先存在系统中),令P(xi|ci)表示候选字符模式xi属于类别ci的条件概率(由字符识别器给出),g1 i和g2 i分别表示一元(单个候选字符模式)和二元(两个候选字符模式之间)几何特征,P(g1 i|ci)和P(g2 i|ci,ci-1)分别表示它们的几何特征模型分数,则候选切分识别路径(X,C)的评价准则设计为:
f ( X , C ) = Σ i = 1 n { λ 1 log P ( c i | c i - 1 ) + k i [ λ 2 log P ( x i | c i ) + λ 3 log P ( g 1 i | c i ) + λ 4 log P ( g 2 i | c i , c i - 1 ) ] } ,
其中,{λ1,λ2,λ3,λ4}是四个权值,通过经验设定:首先设λ2=1,λ1,λ3,λ4=0,然后在一个字符串数据集上依次调试λ1,λ3,λ4,每次试一个权值的不同值,使得字符串识别精度达到最高,固定该权值后接着调试下一个。ki是构成候选字符xi的笔划块个数,用笔划块个数对字符识别分数和几何特征分数加权使得路径评价准则中相加总项数(语言模型除外)与切分路径上候选字符模式个数(上式中的n)无关,使得利用动态规划算法能快速搜索得到最优切分识别路径;
候选字符模式的字符识别置信度由字符识别器在实时识别模块中给出。字符识别器为具有存储量小、计算速度快、排斥非字符模式特点的最近原型分类器。在实时识别模块中,字符识别器对每一个候选字符模式进行识别并将置信度最高(或距离最小)的一个或多个候选字符类别保存在候选切分识别网格中。候选字符模式的候选类别距离值要转化成概率置信度,以便与几何特征和语言上下文融合。距离通过sigmoid公式转化为概率置信度:
P ( c | x ) = 1 1 + e - ξ [ T - d ( x , c ) ] ,
其参数T估计为手写字符训练样本集上每类的样本到本类别距离d(x,c)的均值,ξ经验性地设为2/T;
路径评价准则中的几何特征的建模,采用高斯混合模型。几何特征包括一元几何特征和二元几何特征。高斯混合模型的参数在手写字符串数据集上通过最大似然估计得到:对一元几何特征,提取单个候选字符模式的高度、宽度、长宽比等特征,再用期望最大化(ExpectationMaximization,EM)算法估计得到高斯混合模型参数;对二元几何特征,提取相邻候选字符模式之间的特征,包括中心之间的水平和垂直距离、边框距离等特征,然后用期望最大化算法估计得到高斯混合模型的参数。
编辑修改模块106,用于对字符串识别结果进行编辑修改。对错误的字符切分和字符识别部分,使得用户能通过操作进行编辑修改。字符切分错误又分合并错误和分裂错误。对于合并错误,用笔在合并的地方画一竖线(不一定画很准,系统可以自动调整)将两字分开。对于分裂错误,用笔将分裂后的两字圈起来将他们合并成一个字。切分错误修正后,系统自动地重新对切分后的字符进行识别,得到新的字符串识别结果。如果切分正确后有些字符模式有识别错误,则对这些字符模式个别进行修正。首先,选择识别错误的字符模式,系统给出这个字符模式的多个候选类别,用户从中点击选择正确的类别。如果候选类别中没有正确的类别,用户重新书写这个字符,系统自动地重新识别这个字符。
语言联想模块107,用于在字符串识别和编辑修改的基础上,根据最后的字符类别,通过语言联想给出后续的字或词供用户选择,以提高句子输入速度。联想包括字联想和词联想两种方式。字联想是利用2元语法(Bi-gram)模型,根据前面一个字快速找出概率较大的几个后续字供用户选择。根据2元语法P(ci+1|ci),当从一个字ci开始联想时,系统给出P(ci+1|ci)较高(比如,大于0.1)的多个字ci+1显示出来供用户选择。比如,从“人”字联想,得到“生、们、民、类、种、人”等字;
词联想建立在一个词库基础上。检查句子最后一个字或几个字是否构成一个词的开头,若是则将完整的词显示出来供用户选择。字联想得到的后续字如果构成词的开头,则将联想到的词也显示出来。例如,“中国”由字联想可得到“家”、“人”等后续字,后续字由词联想又得到“家庭”、“人民”、“人生”等词。当由当前汉字(字符串识别结果的最后一个字)可从词典中找到联想词,就显示联想词供用户选择。在找不到联想词的情况下,由2元语法模型给出转移概率最大的一个或几个字供用户选择,若选择的字又可以在词典中找到联想词,则自动切换到词联想方式。用户接受联想的字/词之后,输入句子得到扩展,系统由此可以继续联想,直到联想不被接受为止。
继续输入判断模块108,用于在联想结束后判断是否继续输入。如果继续在输入平面上书写,则回到笔划采集模块102采集下一个笔划;否则,结束输入。
参考图2,是图1所示的系统结构图中实时识别模块的详细流程图。实时识别模块对一个新采集到的笔划进行处理,并实时识别新生成的候选字符模式,更新候选切分识别网格。
实时识别模块要用到字符的高度值。字符的高度值通过计算所有笔划块的平均高度获得,在刚开始书写的时候,以第一个笔划(宽度,高度)的最大值近似,在继续书写的过程中,再用多个笔划块的平均高度来近似。
实时识别模块具体包括以下步骤:
步骤201,提笔表明一个笔划书写结束,得到笔划轨迹或称为点序列;
步骤202,在笔划轨迹中笔划弯折点或可能的连笔处断开笔划,得到笔划段,断开笔划方法如下:通过计算笔划轨迹上每一点的弯折角度,判断弯折点,在弯折点处将笔划断开。弯折角度为笔划轨迹上一点(xi,yi)与之前一点(xik,yik)连线和与之后一点(xi+k,yi+k)连线的夹角(k一般设为3到5之间),若该角度在30度到150度之间而且大于前一点(xi1,yi1)和后一点(xi+1,yi+1)的角度,则认为该点是一个可能的连笔处,将笔划在该点断开。断开连笔的目的是将相邻字符之间的连笔断开,虽然一个字符内的笔划也会断开,后面在合并笔划块构成候选字符模式时会将一个字符的多个笔划或笔划段合并恢复成完整的字符。一个笔划在可能的连笔处断开后,得到一个或多个笔划段,表示为s1,s2,...,sm。笔划块定义为水平方向上重叠度较大的一个或多个笔划/笔划段构成的集合。不同的笔划块之间有明显的水平位移或重叠度较小。下面从步骤203到步骤206依次将每个笔划段构成新的笔划块或与前面的笔划块合并。
步骤203,判断一个笔划段是否一个新的笔划块的开始。判断的条件是该笔划段与前面已经形成的笔划块相比是否有足够的水平位移。如果该笔划段与前面某个笔划块的水平重叠度大于0.4或相互交叉且水平重叠度大于0.2,则断定该笔划段不是一个新的笔划块的开始;如果该笔划段与前面所有笔划块的水平重叠度小于0.2或在没有交叉的情况下水平重叠度小于0.4,则断定该笔划段是一个新的笔划块的开始。相互交叉指笔划段与笔划块中的某个笔划交叉。水平重叠度的计算方式如下:设笔划段外框和笔划块外框的宽度分别为w1和w2,外框区域重叠部分宽度为wo,则重叠度计算为
Figure GSA00000122936400111
步骤204:如果一个笔划段是一个新的笔划块的开始,将该笔划段作为一个新的笔划块;
步骤205:否则,将该笔划段合并到前面与之重叠度最大的笔划块。
步骤206:顺序判断每一个笔划段直至所有的笔划段处理完毕;所述每一个笔划段是构成新的笔划块或与前面的笔划块合并。
步骤207,在所有笔划段处理完毕形成笔划块后,将每一个新生成的或者合并后的笔划块当作候选字符模式,或者将该笔划块与前面相邻的笔划块合并构成候选字符模式。构成候选字符模式要同时满足两个条件:
(1)合并的笔划块个数最多不超过8个,也就是一个候选字符模式由1到8个笔划块组成;
(2)候选字符模式的宽度不超过前面估计的字符高度的2.5倍。不满足这两个条件的笔划块或笔划块组合被认为是非字符模式,不予识别,也不保存在候选切分识别网格中。对于新生成的候选字符模式,用字符识别器对其进行识别,给出置信度最高(或匹配距离最小)的一个或多个字符类别作为候选识别结果。将新生成的候选字符模式及其候选类别存入候选切分识别网格;
字符识别器的步骤包括候选字符模式归一化、特征提取和原型匹配。候选字符模式通过归一化变为标准的大小并部分地校正形变,特征提取将模式表示为一个特征矢量。在原型学习得到常用字符类别(比如10000个汉字加常用的英文字母、数字、符号等)特征矢量原型。在识别过程中,将候选字符模式的特征矢量与每个字符类别的原型比较,计算匹配距离(比如欧式距离),距离最小的类别以及距离与最小距离之差小于一个阈值的类别作为候选字符模式的候选类别。一个候选字符模式的候选类别可能是一个或多个。关于候选字符模式归一化和特征提取、原型学习、候选类别选择,这些具体技术不是本发明的内容,这里不作详细介绍,可查阅以下文献:
C.-L.Liu,X.-D.Zhou,Online Japanese character recognition using trajectory-basednormalization and direction feature extraction,Proc.10th International Workshop onFrontiers in Handwriting Recognition,La Baule,France,2006,pp.217-222.
C.-L.Liu,M.Nakagawa,Evaluation of prototype learning algorithms for nearestneighbor classifier in application to handwritten character recognition,PatternRecognition,34(3):601-615,2001.
C.-L.Liu,M.Nakagawa,Precise candidate selection for large character setrecognition by confidence evaluation,IEEE Trans.Pattern Analysis and MachineIntelligence,22(6):636-642,2000.
本发明的具体实施效果示例如附图3到附图4所示。参考附图3的一个句子的部分笔迹和实时的候选切分识别结果示例,301是书写出来的完整句子,302是书写的部分句子,303是对302中所示的部分句子实时识别时构建的候选切分识别网格示例。
参考附图4,401是302的部分句子增加笔划后的部分句子,402是对401中所示的部分句子实时识别时更新的候选切分识别网格示例,其中最右边的两个候选字符模式是新生成的,两个新生成的候选字符模式经字符识别器分别给出两个候选类别:“日月”和“明朋”。
参考附图5,是附图301所示的完整句子的字符切分和识别结果示例,包括三个切分识别结果,其中第一个结果是正确的。可以看出,本发明可以边书写边实时识别并更新候选切分识别网格,从而能在句子书写完成后快速得到整句识别结果,提高输入速度。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内。

Claims (6)

1.一种联机手写句子实时识别方法,其特征在于,该识别方法包括:
步骤S1:输入开始模块启动笔划输入,笔尖接触输入平面表明输入开始;
步骤S2:笔划采集模块记录笔尖在输入平面上移动的笔划轨迹;所述笔划轨迹用xn,yn点坐标序列表示:(x1,y1),(x2,y2)),...,(xn,yn),其中n是笔划轨迹的采样点数;
步骤S3:实时识别模块对提笔后得到的笔划轨迹进行处理,生成候选字符模式并对每一个候选字符模式进行识别给出候选字符类别,将生成的候选字符模式及其候选字符类别保存在候选切分识别网格;所述候选字符模式是由一个笔划块或相邻笔划块合并构成的手写字符;所述候选字符类别是手写字符被识别后得到的置信度最高或匹配距离最小的一个或多个字符类别;候选切分识别网格是用每个圆角方框中的笔划轨迹表示一个候选字符模式,候选字符模式下面的字符表示识别后得到的候选类别;从最左边的起始节点到最右边的终止节点有多条路径,每一条路径表示一个候选切分方式,路径上每个候选字符模式选择一个字符类别构成一个候选切分识别结果;由于一个候选字符模式能有多个候选字符类别,一个候选切分方式能给出多个候选切分识别结果,候选切分识别结果即为切分识别路径;
所述生成候选字符模式的条件是:(1)合并的笔划块个数最多不超过8个,(2)候选字符模式的宽度不超过估计的字符高度的2.5倍;
步骤S4:提笔时间判断模块计算提笔时间是否够长,如果提笔时间够长表明提笔可能是一个字符的结束,执行步骤S5;如果提笔时间不够长,表明提笔只是一个笔划的结束,执行步骤S2,继续采集下一个笔划并进行实时识别;
步骤S5:启动字符串识别模块,字符串识别模块根据路径评价准则计算候选切分识别网格中各切分识别路径的分数,并用动态规划算法搜索分数最优的路径得到字符串识别结果;字符串识别结果包括字符切分结果和字符识别结果;
步骤S6:编辑修改模块对字符串识别结果进行编辑修改,对错误的字符切分和字符识别部分通过用户操作进行编辑修改;
步骤S7:语言联想模块在字符串识别和编辑修改的基础上,根据最后的字符类别,通过语言联想给出后续的字或词供用户选择,以提高句子输入速度;
步骤S8:继续输入判断模块用于在联想结束后判断是否继续输入,如果继续在输入平面上书写,则回到步骤S2采集下一个笔划;否则,结束输入。
2.如权利要求1所述的联机手写句子实时识别方法,其特征在于,所述实时识别模块包括以下步骤:
步骤S201:提笔表明一个笔划书写结束,得到笔划轨迹或称为点序列;
步骤S202:在笔划轨迹中笔划弯折点或可能的连笔处断开笔划,得到笔划段;断开笔划的步骤为:计算笔划轨迹上每一点(xi,yi)的弯折角度,对弯折角度进行判断,若该角度在30度到150度之间而且大于前一点(xi-1,yi-1)和后一点(xi+1,yi+1)的弯折角度,则认为该点是一个可能的连笔处,则将笔划在可能的连笔处的该点处断开,断开笔划后得到一个或多个笔划段;所述弯折角度为笔划轨迹上一点(xi,yi)与之前一点(xi-k,yi-k)连线和与之后一点(xi+k,yi-+k)连线的夹角;其中i为轨迹坐标点的序号,k为3到5之间的一个数;
步骤S203:判断一个笔划段是否一个新的笔划块的开始,判断的条件是该笔划段与前面已经形成的笔划块相比是否有足够的水平位移;如果该笔划段与前面某个笔划块的水平重叠度大于0.4或笔划段与笔划块中的某个笔划相互交叉且水平重叠度大于0.2,则断定该笔划段不是一个新的笔划块的开始;如果该笔划段与前面所有笔划块的水平重叠度小于0.2或在没有交叉的情况下水平重叠度小于0.4,则断定该笔划段是一个新的笔划块的开始;所述水平重叠度的计算方式如下:设笔划段外框和笔划块外框的宽度分别为w1和w2,外框区域重叠部分宽度为wo,则重叠度计算为
Figure FSB00000677727900021
步骤S204;如果一个笔划段是一个新的笔划块的开始,将该笔划段作为一个新的笔划块;
步骤S205:否则,将该笔划段合并到前面与之水平重叠度最大的笔划块;
步骤S206:顺序判断每一个笔划段直至所有的笔划段处理完毕,所述每一个笔划段构成新的笔划块或与前面的笔划块合并;
步骤S207:在所有笔划段处理完毕形成笔划块后,将每一个新生成的或者合并后的笔划块当作候选字符模式,或者将该笔划块与前面相邻的笔划块合并构成候选字符模式;对于新生成的候选字符模式,用字符识别器对其进行识别,给出置信度最高或匹配距离最小的一个或多个字符类别作为候选识别结果,将新生成的候选字符模式及其候选类别存入候选切分识别网格。
3.如权利要求2所述的联机手写句子实时识别方法,其特征在于,用于候选字符模式识别的字符识别器采用具有存储量小、计算速度快、排斥非字符模式特点的最近原型分类器;在经过字符模式归一化、特征提取将字符模式表示为一个特征矢量后,计算该特征矢量与预先训练得到的字符集中每个字符类别的原型矢量之间的匹配距离,距离最小的类别以及距离与最小距离之差小于一个阈值的类别作为候选字符模式的候选类别。
4.如权利要求1所述的联机手写句子实时识别方法,其特征在于,所述路径评价准则融合了字符识别置信度、几何特征和语言模型,并对字符识别置信度和几何特征分数用候选字符模式的笔划块个数进行加权,这样就克服路径长度的影响,从而能用动态规划算法搜索得到最优识别结果,或用集束搜索(Beam Search)算法搜索得到多个最优识别结果,所述路径长度是路径上候选字符模式的个数。
5.如权利要求1所述的联机手写句子实时识别方法,其特征在于,编辑修改模块使得用户在书写过程中,当字符串识别给出字符切分和字符识别结果后,能及时对切分和识别结果进行修改校正:对于字符切分的合并错误,用笔在合并的地方画一竖线将两字分开;对于分裂错误,用笔将分裂后的两字圈起来将他们合并成一个字;
切分错误修正后,系统自动地重新对切分后的字符进行识别,从而得到新的字符串识别结果;
如果切分正确后有些字符模式有识别错误,则对这些字符模式个别进行修正:选择识别错误的字符模式,系统给出这个字符模式的多个候选类别,用户从中点击选择正确的类别,如果候选类别中没有正确的类别,用户重新书写这个字符,系统自动地重新识别这个字符。
6.如权利要求1所述的联机手写句子实时识别方法,其特征在于,所述语言联想模块,其语言联想包括字联想和词联想两种方式:
字联想方式利用2元语法(Bigram)模型根据前面一个字快速找出概率较大的几个后续字供用户选择:根据2元语法P(ci+1|ci),当从一个字ci开始联想时,系统给出P(ci+1|ci)较高的多个字ci+1显示出来供用户选择;
词联想建立在一个词库基础上:检查句子最后一个字或几个字是否构成一个词的开头,若是则将完整的词显示出来供用户选择;
字联想得到的后续字如果构成词的开头,则将联想到的词也显示出来;用户接受联想的字/词之后,输入句子得到扩展,系统由此可以继续联想,直到联想不被接受为止。
CN2010101756272A 2010-05-12 2010-05-12 一种联机手写句子实时识别方法 Active CN101853126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101756272A CN101853126B (zh) 2010-05-12 2010-05-12 一种联机手写句子实时识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101756272A CN101853126B (zh) 2010-05-12 2010-05-12 一种联机手写句子实时识别方法

Publications (2)

Publication Number Publication Date
CN101853126A CN101853126A (zh) 2010-10-06
CN101853126B true CN101853126B (zh) 2012-02-15

Family

ID=42804641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101756272A Active CN101853126B (zh) 2010-05-12 2010-05-12 一种联机手写句子实时识别方法

Country Status (1)

Country Link
CN (1) CN101853126B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073884A (zh) * 2010-12-31 2011-05-25 北京捷通华声语音技术有限公司 一种手写识别方法、系统及手写识别终端
JP5305545B2 (ja) * 2011-01-06 2013-10-02 パナソニック株式会社 手書き文字入力装置および携帯端末
CN102053756A (zh) * 2011-01-26 2011-05-11 宇龙计算机通信科技(深圳)有限公司 一种手写装置及方法
CN102736830A (zh) * 2011-04-13 2012-10-17 联想移动通信科技有限公司 一种手写输入法和终端设备
CN102768583B (zh) * 2011-05-03 2016-01-20 中国移动通信集团公司 智能便携设备及其整句输入的候选词过滤方法和装置
CN102208039B (zh) * 2011-06-01 2013-02-20 汉王科技股份有限公司 一种多语言混合手写文本行的识别方法及装置
US8094941B1 (en) 2011-06-13 2012-01-10 Google Inc. Character recognition for overlapping textual user input
CN102929534A (zh) * 2011-09-30 2013-02-13 北京大学深圳研究生院 一种盲写信息输入系统和方法
CN102436349A (zh) * 2011-11-15 2012-05-02 汉王科技股份有限公司 手写输入刷新方法及其装置
US9081500B2 (en) 2013-05-03 2015-07-14 Google Inc. Alternative hypothesis error correction for gesture typing
CN105393194B (zh) * 2013-06-13 2019-08-09 诺基亚技术有限公司 用于区分部分和完整的手写符号的方法和装置
CN104573683B (zh) * 2013-10-21 2018-02-16 富士通株式会社 字符串识别方法和装置
CN103577843B (zh) * 2013-11-22 2016-06-22 中国科学院自动化研究所 一种空中手写字符串识别方法
CN103984943B (zh) * 2014-05-30 2018-06-19 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法
CN104598937B (zh) * 2015-01-22 2019-03-12 百度在线网络技术(北京)有限公司 文字信息的识别方法和装置
CN105094544B (zh) * 2015-07-16 2020-03-03 百度在线网络技术(北京)有限公司 一种颜文字的获取方法及装置
CN107092902B (zh) * 2016-02-18 2021-04-06 富士通株式会社 字符串的识别方法和系统
CN107169496A (zh) * 2017-04-19 2017-09-15 北京三快在线科技有限公司 一种文字识别方法和装置
CN110069143A (zh) * 2018-01-22 2019-07-30 北京搜狗科技发展有限公司 一种信息防误纠方法、装置和电子设备
CN108874240B (zh) * 2018-06-05 2020-05-15 掌阅科技股份有限公司 基于墨水屏设备的字符输入方法、墨水屏设备和存储介质
CN110232337B (zh) * 2019-05-29 2021-02-02 中国科学院自动化研究所 基于全卷积神经网络的中文字符图像笔划提取方法、系统
CN112257820A (zh) * 2019-07-22 2021-01-22 珠海金山办公软件有限公司 一种信息修正方法及装置
CN110737364B (zh) * 2019-11-06 2023-12-12 广州炫视智能科技有限公司 一种安卓系统下触摸书写加速的控制方法
US11823474B2 (en) 2020-10-27 2023-11-21 Boe Technology Group Co., Ltd. Handwritten text recognition method, apparatus and system, handwritten text search method and system, and computer-readable storage medium
CN113095171A (zh) * 2021-03-29 2021-07-09 Oppo广东移动通信有限公司 书写字符识别方法及装置、电子设备、存储介质
CN117523578B (zh) * 2024-01-04 2024-04-05 广东光大信息科技股份有限公司 一种基于人工智能的课堂纸笔互动方法及装置

Also Published As

Publication number Publication date
CN101853126A (zh) 2010-10-06

Similar Documents

Publication Publication Date Title
CN101853126B (zh) 一种联机手写句子实时识别方法
JP5405586B2 (ja) 手書き文字認識方法および手書き文字認識装置
Liu et al. 'Online recognition of Chinese characters: the state-of-the-art
CN103577843B (zh) 一种空中手写字符串识别方法
US6556712B1 (en) Methods and apparatus for handwriting recognition
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
US8559723B2 (en) Letter model and character bigram based language model for handwriting recognition
KR950013127B1 (ko) 영어 문자 인식 방법 및 시스템
CN101398902B (zh) 一种自然手写阿拉伯字母联机识别方法
US7903877B2 (en) Radical-based HMM modeling for handwritten East Asian characters
CN101866417A (zh) 一种手写体维吾尔字符识别方法
CN102750552B (zh) 一种手写识别方法、系统及手写识别终端
Zhu et al. On-line handwritten Japanese characters recognition using a MRF model with parameter optimization by CRF
Montazer et al. A neuro-fuzzy inference engine for Farsi numeral characters recognition
CN101354749B (zh) 字典制作方法、手写输入方法和设备
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN101452531B (zh) 一种自由手写拉丁字母识别方法
Lv et al. Learning-based candidate segmentation scoring for real-time recognition of online overlaid Chinese handwriting
Sundaram et al. Bigram language models and reevaluation strategy for improved recognition of online handwritten Tamil words
Zhu et al. A MRF model with parameter optimization by CRF for on-line recognition of handwritten Japanese characters
JP3216800B2 (ja) 手書き文字認識方法
Wan et al. On-line Chinese character recognition system for overlapping samples
Kasem et al. Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey
CN115311674A (zh) 手写处理方法、装置、电子设备和可读存储介质
CN106570457A (zh) 一种中日文字识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190424

Address after: 100080 Floor 11104-2, Building 1, 66 Zhongguancun East Road, Haidian District, Beijing

Patentee after: Beijing Zhongke Yueshen Technology Co., Ltd.

Address before: 100080 No. 95 East Zhongguancun Road, Beijing, Haidian District

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right