CN102542264A - 基于数字手写设备的汉字书写正误自动评测方法和装置 - Google Patents

基于数字手写设备的汉字书写正误自动评测方法和装置 Download PDF

Info

Publication number
CN102542264A
CN102542264A CN2011104359626A CN201110435962A CN102542264A CN 102542264 A CN102542264 A CN 102542264A CN 2011104359626 A CN2011104359626 A CN 2011104359626A CN 201110435962 A CN201110435962 A CN 201110435962A CN 102542264 A CN102542264 A CN 102542264A
Authority
CN
China
Prior art keywords
chinese character
coupling
stroke
pen
pen section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104359626A
Other languages
English (en)
Other versions
CN102542264B (zh
Inventor
安维华
李超
荀恩东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN2011104359626A priority Critical patent/CN102542264B/zh
Publication of CN102542264A publication Critical patent/CN102542264A/zh
Application granted granted Critical
Publication of CN102542264B publication Critical patent/CN102542264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供一种基于数字手写设备的汉字书写正误自动评测方法和装置,该方法包括:建立模板汉字,模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的二级索引结构,结构信息是各个笔段之间的相对位置关系;采集手写汉字;计算手写汉字的书写信息和结构信息;根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;根据匹配结果识别所述手写汉字的错误信息。该方法能够精确的将学习者的手写汉字与模板汉字最大限度的匹配起来,并且精确识别出手写汉字中多笔、少笔、连笔、断笔、笔向、笔序等多种错误类型。

Description

基于数字手写设备的汉字书写正误自动评测方法和装置
技术领域
本发明属于汉字书写的信息处理技术领域,具体地涉及一种基于数字手写设备的汉字书写正误自动评测方法和装置。
背景技术
汉字书写正误评测的应用目标在于:辅助汉语学习者在无人值守的情况下进行自主的汉字书写学习。因此,其思路是,实时采集学习者书写汉字的位置、时间等信息并进行特征提取,然后将学习者书写的汉字与标准汉字在笔画、部件、整字等层面上进行自动的比对,并进行汉字书写错误点的自动识别和反馈。
汉字书写评测与汉字识别具有本质区别。汉字书写评测的根本任务是评价用户书写的规范程度,而汉字识别则主要关心未知手写体样本与现有样本库中哪一个最相似的问题;汉字评测侧重于对汉字细微差别的评判和反馈,而汉字识别往往只关心总体上的近似性;汉字书写评测只是将一个待测汉字与一个已知的标准汉字进行特征匹配,而汉字识别是将一个待识别的汉字与汉字库中所有汉字(通常是成千上万)进行特征匹配,从而找出一个或多个与其最相近的汉字。
在当今汉语国际推广的背景下,汉语学习越来越受到人们的重视,国外的学习者也逐渐增多。汉字的学习是汉语学习的一个重要组成部分。由于中国汉字(表意文字)与西方文字(表音文字)在书写形式上的本质差别,使得汉字的书写能力成为制约学习者提高汉语水平的一个重要因素。
传统的汉字书写教学方法,存在着各种局限性。例如:教师的手工评判工作量巨大,学生不能在无人值守的情况下完成汉字书写练习和自我评判。随着信息技术的不断发展,人们提出了很多计算机辅助的汉字书写教学系统,来弥补传统教学方式的不足。
早期的汉字书写教学系统[1]只是将正确汉字(这里称为模板汉字)的书写过程以动画的形式演示给用户。这种以演示为主的系统只能让用户进行被动的记忆,并不能主动的发现用户的书写错误,因此也不能检验用户的学习效果,并给出针对性的改进意见。
为了加强学生的学习和记忆效果,后续的教学系统开始逐渐增加交互功能。例如,有些系统[2]要求用户以描红的方式完成汉字书写;有些系统[3,4]要求用户以笔画选择的方式拼写汉字。这些简单的交互功能只能发现极少的书写错误,例如笔顺的书写错误,不能暴露出多笔、少笔、连笔、断笔等错误。
为了能够给用户更多的书写指导,人们也设计出一些汉字书写评价系统,然而这些系统只是对汉字的整体布局进行评价,在书写错误方面的反馈非常有限。例如文献[5,6]所实现的系统,要求用户书写的汉字与模板字在笔画上是严格对应的,也就是说默认用户知道汉字的正确书写过程,系统最终反馈汉字整体布局的美观性;文献[7,8]设计的系统也只是考查手写汉字的静态图像特征,并不关注笔序、笔向等时间相关特征。
此外,有些系统采用联机的方式进行汉字书写教学[9,10]。每当用户书写完一个笔画,系统就立即反馈结果。这种交互形式不停的打断用户的书写过程,显得不够友好。另外,它们仅仅重视笔顺错误的识别。
上述系统在交互形式、错误识别等方面都具有一定的局限性,也限制了系统的应用范围。为了达到智能化的教学效果,最近的汉字书写教学系统开始加入了汉字笔画的自动匹配算法。这些系统让用户一次性写完汉字,然后与模板汉字进行笔画匹配。Chen等人[11]根据斜率将基本笔画分为6种类型,首先将手写汉字的笔画进行归类,然后进行笔画的匹配。胡智慧[12]分别将模板汉字和手写汉字的笔画位置关系表示为两个ARG图[13],然后通过边的插入和删除操作建立起两个图之间的匹配关系,最后根据边操作顺序得到匹配关系。Tang等人[14]将模板汉字和手写汉字的笔画匹配问题理解为线性分配问题。
上述方法全部应用于以抄写为主的汉字书写教学系统中,因此不能有效的检查用户记字、认字的能力;它们要求汉字本身的复杂程度不能太高,也就是说只能应用到简单汉字的书写教学中;另外,上述方法要求用户的书写结果不能与模板汉字相差太大。如果让用户默写汉字,那么用户可能会出现各种各样的书写错误,从而使得现有的系统不能胜任。另外,西方国家的学习者只是将汉字简单的理解为图形并随意的描画,因此在书写过程中也会出现各种意想不到的错误。针对他们书写的汉字,目前的系统也是很难处理的。
参考文献:
[1]唐棠,陆兵,一种汉字书写模拟练习软件的设计,中文信息学报,vol.10,No.3,10-17页,1996年。
[2]V.Tam,K.W.Yeung,“Learning to write Chinese characters with correctstroke sequences on mobile devices,”Proceedings of ICETC2010,pp.395-399,2010。
[3]赵希武,吕生荣,小学汉字书写笔画顺序练习系统的设计,内蒙古农业大学学报(自然科学版),vol.31,No.1,236-240页,2010年。
[4]余海涛,汉字笔顺书写学习系统的设计与实现,内蒙古师范大学,硕士学位论文,2010年。
[5]夏伟平,金连文,一种基于模板的联机手写体汉字布局评价方法,2008年全国模式识别学术会议,354-359页,2008年。
[6]祁亨年,陈丰农,庄立,陈频,一种无大小约束的汉字书写结构评测方法,郑州大学学报(理学版),Vol.40 No.3,59-62页,2008年。
[7]王丁,汉字书法练习装置:中国,专利号:971047421[P],1998-10-07。
[8]王丁,闫瑶,张廷宇,梁海滨,手持练字系统的设计与实现,控制工程,Vol.16 No.6,2009年。
[9]庄崇彪,金连文,在线汉字书写正误及工整的智能评判算法.第十二届全国信号处理学术年会论文集,2005年。
[10]G.Chen,H.Yao,Y.Jheng,“On-line Assessment for the Stroke Order ofChinese Characters Writing,”Workshop Proceedings of ICCE2008,pp.132-138,2008。
[11]G.S.Chen,Y.D.Jheng,L.F.Lin,“Computer-based Assessment for theStroke Order of Chinese Characters Writing,”proceedings of ICICIC2007,pp.160-163,2007。
[12]胡智慧,“汉字智能工具中的书写错误识别技术研究与应用,”中国科学技术大学,博士学位论文,2010年。
[13]W.-H.Tsai,K.-S.Fu,“Error-Correcting Isomorphisms of AttributedRelational Graphs for Pattern Analysis,”IEEE Transactions on Systems,Man,andCybernetics,vol.9,No.12,pp.757-768,1979。
[14]K.Tang,K.Li,H.Leung,”A Web-Based Chinese HandwritingEducation System with Automatic Feedback and Analysis,”Lecture Notes inComputer Science(LNCS)4181,pp.176-188,2006。
发明内容
本发明的目的在于,为了改进现有汉字书写教学系统的种种局限性,提供一种汉字书写正误的自动评测方法。它能够精确的将学习者的手写汉字与模板汉字最大限度的匹配起来,并且精确识别出手写汉字中多笔、少笔、连笔、断笔、笔向、笔序等多种错误类型。将这些错误类型自动反馈给学习者,便可以实现无人值守的汉字书写学习的目的。
一方面,为达上述目的,本发明实施例提供了一种基于数字手写设备的汉字书写正误自动评测方法,所述方法包括:
建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的二级索引结构,所述结构信息是各个笔段之间的相对位置关系;
采集手写汉字;
计算所述手写汉字的书写信息和结构信息;
根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;
根据所述匹配结果识别所述手写汉字的错误信息。
另一方面,为达上述目的,本发明实施例提供了一种基于数字手写设备的汉字书写正误自动评测装置,所述装置包括:
模板汉字建立单元,用于建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的二级索引结构,所述结构信息是各个笔段之间的相对位置关系;
手写汉字采集单元,用于采集手写汉字;
书写信息和结构信息计算单元,用于计算所述手写汉字的书写信息和结构信息;
匹配单元,用于根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;
错误信息识别单元,用于根据所述匹配结果识别所述手写汉字的错误信息。
本发明实施例的优点为:本发明实施例的方法能够处理各种文化背景的学习者所书写的汉字,对各种书写错误都具有较好的识别效果。与不同的数字手写设备相结合,本发明实施例的方法能够应用到不同的场合中。例如,与压感显示器或数字手写板相结合,本方法可以应用于信息化机房中的汉字书写教学,汉字书写考试;与具有手写功能的移动电脑、手机相结合,本方法可以用于无人值守的移动式汉字书写学习。
上述技术方案将汉字分为“笔画-笔段”的二级表达形式,并且最终计算出笔段的匹配结果,这种更加细致的匹配结果不但能够帮助更加精确的定位书写错误的具体位置,而且能够帮助发现更多的书写错误类型,这是前人工作所不能达到的。另外,本方法还为汉字的结构特征引入了笔段位置关系的概念,大大提高了汉字匹配的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的整体流程图;
图2为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的具体流程图;
图3A为本发明实施例的模板汉字的手工标注过程示意图;
图3B为本发明实施例的模板汉字的手工标注结果示意图;
图3C为本发明实施例的模板汉字手工标注结果的包围盒以及坐标系示意图;
图4为本发明实施例的模板汉字的笔画-笔段二级索引结构示意图;
图5为本发明实施例的模板汉字的笔段位置关系示意图;
图6A为本发明实施例的手写汉字的采集结果示意图;
图6B为本发明实施例的手写汉字重采样和计算拐点的示意图;
图6C为本发明实施例的删除手写汉字中抖笔信息的示意图;
图7A为本发明实施例的将手写汉字某笔画和模板汉字某笔画置于同一局部坐标系中的示意图;
图7B为本发明实施例的在局部坐标系中将手写汉字某笔画旋转到最佳角度的示意图;
图8A为本发明实施例的模板汉字和手写汉字经过笔画匹配后的示意图;
图8B为本发明实施例的模板汉字和手写汉字经过笔画和笔段两步匹配后的示意图;
图9A为本发明实施例的模板汉字和手写汉字在笔段合并之前的匹配效果示意图;
图9B为本发明实施例的模板汉字和手写汉字在笔段合并之后的匹配效果示意图;
图10为本发明实施例的识别各种不同书写错误的效果示意图;
图11为本发明实施例的识别复杂连笔错误的效果示意图;
图12为本发明实施例的一种基于数字手写设备的汉字书写正误自动评测装置的整体功能框图;
图13为本发明实施例的书写信息和结构信息计算单元330的具体功能框图;
图14为本发明实施例的另一种基于数字手写设备的汉字书写正误自动评测装置的功能框图;
图15为本发明实施例的匹配单元340的具体功能框图;
图16为本发明实施例的错误信息识别单元350的具体功能框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了改进现有汉字书写教学系统的种种局限性,本发明实施例提出一种汉字书写正误的自动评测方法。它能够精确的将学习者的手写汉字与模板汉字最大限度的匹配起来,并且精确识别出手写汉字中多笔、少笔、连笔、断笔、笔向、笔序等多种错误类型。将这些错误类型自动反馈给学习者,便可以实现无人值守的汉字书写学习的目的。
该方法基于的硬件设备是数字手写交互设备,具体可以体现为,支持手写的手机、压感显示器、绘图板、数码笔等。这些手写交互设备能够反映用户真实的书写状态,这是鼠标设备所不能实现的。
在交互方式上,用户可以使用数字手写设备随意书写汉字,并且一次性将汉字写完。本方法仅仅将用户书写的汉字理解为由一系列离散点组成的线条图形,通过优化算法快速的、最大限度的将手写汉字与模板汉字匹配起来,从而为书写错误的识别提供基础。
本发明实施例的方法将汉字分为“笔画-笔段”的二级表达形式,并且最终计算出笔段的匹配结果,这种更加细致的匹配结果不但能够帮助更加精确的定位书写错误的具体位置,而且能够帮助发现更多的书写错误类型,这是前人工作所不能达到的。另外,本发明实施例的方法还为汉字的结构特征引入了笔段位置关系的概念,大大提高了汉字匹配的准确性。
图1为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的整体流程图;该方法包括:
110、建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的二级索引结构,所述结构信息是各个笔段之间的相对位置关系;
120、采集手写汉字;
130、计算所述手写汉字的书写信息和结构信息;
140、根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;
150、根据所述匹配结果识别所述手写汉字的错误信息。
以下进行更为详细的说明,图2为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的具体流程图。如图2所示,该方法具体包括:“建立模板字,采集测试字,预处理,笔画匹配,笔段匹配,合法性纠正,笔段合并,错误识别”等过程。其中,上述步骤130包含于预处理过程内,步骤140对应于“笔画匹配,笔段匹配,合法性纠正,笔段合并”的处理过程。下面结合图示对本发明实施例的具体实施方式作进一步详细地描述,该方法具体包括如下步骤:
210、建立模板汉字
具体地,该步骤可以是建立模板汉字库。模板汉字库中的每个汉字包括书写信息和结构信息。书写信息是指汉字书写的时间信息和坐标信息。本发明实施例的方法将书写信息分为笔画和笔段的二级索引结构。笔画是指汉字书写时不间断地一次连续写成的线条。如果这个线条包含拐点,那么将其分解为一系列笔段。因此,笔段是指不包含拐点的连续平滑的线段。一个笔画可以包含一个或多个笔段。结构信息是指各个笔段之间的相对位置关系。在一个模板汉字中,任意两个笔段的相对位置关系包括水平和竖直两种情况,每种情况的取值包括“大于、小于、大小关系不影响字形正确性”三种可能。
在一实施例中,可以借助微软的windows操作系统中truetype字库获取模板汉字。由于truetype字库中存储的是汉字的轮廓,因此需要提取出每个笔画中心线上的采样点。为此,本发明实施例设计了一个手工标注工具,利用手工方式获得每个笔画中心线上的采样点,并标注出笔段之间的位置关系。图3A显示了模板字“他”的标注过程,黑色轮廓为truetype字库提供的汉字轮廓,其他图画为手工标注信息。
根据手工标注的信息,可以计算并存储模板汉字的书写信息。图3B显示了模板汉字“他”的最终标注效果,黑色点表示笔画上的采样点,空心点表示拐点,浅灰色线表示书写过程,u1至u9的标号表示笔段的编号。图4显示了该汉字的“笔画-笔段”二级索引的存储结构。笔画和笔段的存储顺序与该汉字的书写顺序一致。如果某个笔段是直线段,那么该笔段中可以只存储首尾两个端点,例如图3B中的u2;如果某个笔段是曲线段,那么为了保证曲线的平滑效果,该笔段中需要存储多个采样点,例如图3B中的u1。
在结构信息方面,任意两个笔段u和v的位置关系可以表示为(Rx(u,v),Ry(u,v))。其中,Rx(u,v)和Ry(u,v)分别表示二者在水平方向(x轴)和竖直方向(y轴)上的位置关系。公式(1)说明了它们的取值方式,其中,
Figure BDA0000123529310000101
Figure BDA0000123529310000102
分别表示笔段u和v的中心坐标。
Figure BDA0000123529310000103
Figure BDA0000123529310000104
在公式(1)中,Rx(u,v)的具体含义如下。对某个模板汉字中的两个笔段u、v来讲,如果Cux和Cvx具有明确的大小关系,这种关系会影响到字形的正确性,则Rx(u,v)的取值为“L”或“S”。如果Cux和Cvx的大小关系不影响字形的正确性,则Rx(u,v)的取值为“N”。其中,“L”、“S”、“N”分别对应于“大于”、“小于”、“大小关系不影响字形正确性”。
在公式(1)中,Ry(u,v)的具体含义如下。对某个模板汉字中的两个笔段u、v来讲,如果Cuy和Cvy具有明确的大小关系,这种关系会影响到字形的正确性,则Ry(u,v)的取值为“L”或“S”。如果Cuy和Cvy的大小关系不影响字形的正确性,则Ry(u,v)的取值为“N”。图5显示了模板汉字“他”的笔段位置关系存储效果,该图是将汉字包围盒的左上角作为坐标原点标注的。包围盒是指包围汉字的最小矩形,汉字“他”的包围盒以及坐标系效果如图3C所示。以上只是本发明实施例的一种存储方案。
220、采集手写汉字
本发明实施例的方法支持用户采用各种数字手写交互设备采集手写汉字。数字手写设备采集到的是一系列书写笔画,也就是一次落笔和提笔之间笔迹上的一系列采样点。笔画上采样点的密度依赖于用户的书写速度,所以每个笔画的采样点分布都是不均匀的。图6A显示了手写汉字“年”的采集结果示意图。
230、预处理
具体地,该步骤是对手写汉字进行预处理,包括计算手写汉字的书写信息和结构信息,并剔除冗余的噪声。在一较佳实施例中,预处理工作具体可以包括如下步骤:计算手写汉字中每个笔画中的拐点位置,根据拐点位置将每个笔画分解为一系列的笔段;计算手写汉字的结构信息,即笔段之间的相对位置关系。在手写汉字中,任意两个笔段的相对位置关系包括水平和竖直两种情况,每种情况的取值包括“大于、小于”两种可能。根据两个笔段的中心点在水平方向(x轴)和竖直方向(y轴)上的坐标值确定“大于、小于”的取值。识别并删除汉字书写过程中的冗余信息。冗余信息包括抖笔和描笔。抖笔是由于用户在写字时采用不同的笔锋习惯造成的,它体现为在某个笔画的起始或者末尾产生多余的笔段。描笔是指用户对某个笔画反复描绘的现象。以下为进一步的详细说明:
首先对手写汉字中每个笔画进行均匀的重采样,使得相邻采样点的距离是相同的;然后根据相邻线段之间的夹角计算笔画上的拐点。图6B显示了对手写汉字“年”进行均匀重采样以及计算拐点之后的效果(拐点已经标出)。在计算出拐点后,就可以将手写汉字表示为笔画和笔段的二级索引结构了。
在结构信息方面,对于某一个手写汉字来讲,笔段之间的位置关系是无二义性的。因此,手写汉字中的笔段位置关系只有公式(1)中的“L”和“S”两种情况。
抖笔往往体现为在某个笔画的起始或者末尾产生多余的小笔段,这些冗余噪声需要被删除。在本实施例中可以给定一个第一阈值,如果某个笔画包含不止一个笔段,那么本实施例分别对它的起始笔段和末尾笔段的长度与该第一阈值进行比较,并删除长度小于该第一阈值的笔段,图6C显示了删除抖笔后的效果。
用户书写汉字时可能对某个笔画反复描画,它属于冗余信息,同样需要删除。本发明实施例的删除方法是,将任意两个笔画s和t均匀的重采样为H个点,然后根据公式(2)计算它们的路径距离。如果距离小于某个第二阈值,则删除其中的任意一个笔画。
d ( s , t ) = 1 H Σ i = 1 H | P s [ i ] - P t [ i ] | - - - ( 2 )
其中,P表示笔画上的采样点。
作为举例,抖笔的阈值(第一阈值)可以为:手写字包围盒边长的1/10到1/13。描笔的阈值(第二阈值)可以为:手写字包围盒边长的1/20到1/25。
240、笔画匹配
笔画匹配步骤在于计算手写汉字和模板汉字的笔画匹配集合。该笔画匹配集合中存储的是手写汉字和模板汉字之间的笔画映射关系,该映射关系是一对一的。
为了找到最优的手写汉字与模板汉字中笔画的一一映射关系,首先需要计算手写汉字中的任意笔画si(1<=i<=N)与模板汉字中的任意笔画tj(1<=j<=M)的匹配权重C(si,tj);然后找到一个最优的匹配集合R={(si,tj)|1<=i<=N,1<=j<=M},该集合中的映射是一对一的,并且使得下面的代价函数最小:
Cost=∑C(si,tj)        (3)
其中,(si,tj)∈R,i、j、M、N均为正整数。
在匹配集合R中,(si,tj)表示:笔画si和tj之间产生映射关系,也就是说这两个笔画是对应的,或者说是匹配的。
下面首先说明笔画匹配权重的计算方法。考虑到笔画的空间布局等因素,本发明实施例提供如下的计算方法:
首先,将模板汉字和手写汉字置于同一坐标系下,并缩放到同一参考正方形中。然后,对于手写汉字中的任意笔画si和模板字中的任意笔画tj,按照如下方法计算匹配权重C(si,tj):
1、对si和tj进行均匀的重采样,使其采样点数量均为H。
2、如果si和tj的首尾采样点方向向量的夹角大于90度,则翻转si采样点序列。
3、如果si和tj所包含的笔段数不一致,则认为它们完全不匹配,并返回。
4、根据公式(4)-(6)分别计算si和tj的质心距离
Figure BDA0000123529310000131
长度差异
Figure BDA0000123529310000132
包围盒的差异判断它们是否分别小于相应的阈值。如果有任何一项不满足条件,则认为这两个笔画完全不匹配,并返回。
d ( C s i , C t j ) = ( C s i x - C t j x ) 2 + ( C s i y - C t j y ) 2 - - - ( 4 )
其中,
Figure BDA0000123529310000135
Figure BDA0000123529310000136
分别表示两个笔画的质心。
d ( L s i , L t j ) = | L s i - L t j | - - - ( 5 )
其中,
Figure BDA0000123529310000138
分别表示两个笔画的路径长度。
d ( R s i , R t j ) = max ( R s i , R t j ) / min ( R s i , R t j ) - - - ( 6 )
其中,
Figure BDA00001235293100001310
Figure BDA00001235293100001311
分别表示两个笔画包围盒的纵横比。
作为举例地,质心距离的阈值可以是汉字包围盒边长的1/5到1/6。长度差异的阈值可以是汉字包围盒边长的1/4到1/5。包围盒差异的阈值可以是3到5。
5、如果si和tj满足上述所有条件,则按照公式(7)计算它们的匹配权重C(si,tj):
C ( s i , t j ) = E min θ { d ( f ( s i , θ ) , t j ) } × ( α × E θ + β × E d ( C s i , C t j ) + γ × E d ( L s i , L t j ) ) - - - ( 7 )
其中,f(si,θ)表示将笔画si旋转θ角度。d(f(si,θ),tj)表示旋转之后的笔画s′i和tj的路径距离。这里需要注意的是,s′i和tj的路径距离的计算是在它们的局部坐标系中进行的,而不是在整个汉字的坐标系中。
因此,公式(7)的整体含义是,在si和tj的局部坐标系下,找到一个旋转角度,使得二者的路径距离最小。此时,将它们在局部坐标系中的旋转角度、整字坐标系中的质心距离和长度差异进行加权求和,并作为最终的匹配权重。公式(7)中的α、β、γ分别表示求和的权重。
图7A显示了将手写汉字的某个笔画410和模板汉字的某个笔画420置于同一局部坐标系中的效果。图7B显示了将手写汉字笔画410旋转到最佳角度的效果。
根据上述匹配权重的定义,可以求解公式(3)。目标匹配集合需要满足两个条件:第一是笔画匹配数量最大,第二是公式(3)所表示的代价函数最小。我们认为手写汉字是尽可能接近模板汉字的,所以第一个条件的优先级大于第二个条件。为此,本发明实施例可以采用分支限界法求解公式(3)。
250、笔段匹配
笔段匹配步骤对手写汉字和模板汉字中未匹配的笔段进行匹配计算,得到一个笔段匹配集合。该集合中存储的是手写汉字和模板汉字之间的笔段映射关系,该映射关系是一对一的,并且使某个匹配代价函数(公式3)最小。
如果手写汉字中存在连笔或断笔问题,那么上一步的操作就无法将这些笔画匹配起来。这一步的操作就是为了解决这些问题。我们分别将手写汉字和模板汉字中未匹配的笔画分解为笔段集合U和V,然后对这两个集合进行匹配计算。具体计算方法与上一步类似,同样需要定义匹配权重,并计算最小的代价函数。
这里需要说明的是,本发明实施例没有直接处理笔段,而是采用了笔画和笔段的两步策略。这是因为连笔和断笔是小概率事件,而一个笔画中又往往包含多个笔段。这样,两步策略能够减小问题规模,提高算法效率。
图8A显示了经过上一步的处理后,模板汉字(左边)和手写汉字(右边)的笔画匹配结果,图中匹配的笔画用相同的序号标出。在图8A中,只有一个笔画匹配成功。这是因为,在笔画匹配阶段,需要计算手写汉字中笔画si和模板汉字中笔画tj的匹配权重。在计算匹配权重的时候有一条原则:如果si和tj包含的笔段数不一致,则认为它们完全不匹配。所以在图8A中,手写字左边的“绞丝旁”是连笔写成的,也就是说该笔画包含4个笔段,而在模板汉字中没有包含4个笔段的笔画,所以它无法与模板汉字中的任何笔画匹配。再有,手写汉字中,右边的“工”字也是连笔写成的,也就是说该笔画包含3个笔段,而在模板汉字中没有包含3个笔段的笔画,所以它也无法与模板汉字中的任何笔画匹配。这就最终导致了图8A中只有一个笔画匹配成功。
图8B显示了经过本步骤处理后,模板汉字(左边)和手写汉字(右边)的笔段匹配结果,图中匹配的笔段用相同的序号标出,并以深浅不一的颜色显示各个笔段①-⑧。在图8B中,所有笔段匹配均成功。
260、合法性纠正
合法性纠正步骤是将上述两步中的笔画匹配集合和笔段匹配集合合并为一个集合。根据手写汉字和模板汉字中的结构信息(即笔段之间的相对位置关系)对该集合中的元素(笔段映射关系)进行纠正,最终获得一个结构信息一致的匹配集合。具体过程如下:
首先将上面两步的匹配结果合并,形成一个完整的笔段匹配集合。在这个集合中,模板汉字的结构信息(各个笔段之间的位置关系)不一定与手写汉字的结构信息(相应笔段之间的位置关系)一致。因此,本实施例需要对该集合中的非法元素(结构信息不一致的元素)进行纠正。具体方法如下:
对于集合中的任意两个笔段映射元素(ui,vi)和(uj,vj)。如果手写汉字中ui和uj之间的位置关系与模板汉字中vi和vj之间的位置关系满足公式(8)和(9)中的任何一个,则从集合中删除匹配代价较大的元素。
Rx(vi,vj)≠N &&(Rx(vi,vj)≠Rx(ui,uj))   (8)
Ry(vi,vj)≠N &&(Ry(vi,vj)≠Ry(ui,uj))    (9)
经过上述删除操作,得到一个合法的映射集合Rl。接下来,继续在模板汉字和手写汉字的未匹配笔段中找出尽可能多的合法匹配笔段,插入到Rl中。具体方法是,采用步骤240类似的优化算法找到一个最优的笔段匹配集合Ro,并将其插入到集合Rl中。这里需要注意,Ro需满足如下条件:
1.Ro中手写汉字和模板汉字的笔段映射是一对一的;
2.Ro中任意两个元素的笔段位置关系是合法的;
3.Ro中的笔段位置关系不能与Rl产生冲突;
4.在上面三个条件的基础上,Ro中的元素是最多的;
5.在上面四个条件的基础上,Ro中元素的代价之和是最小的。
270、笔段合并
笔段合并步骤为,对模板汉字中的未匹配笔段进行可能的合并;同样的,对测试字中的未匹配笔段进行可能的合并。然后针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算,并将结构信息一致的匹配结果插入到上一步的匹配集合Rl中。具体过程如下:
将手写汉字中的多个未匹配笔段进行合并,方法为:假设为ui和uj是手写汉字中的两个未匹配笔段,如果它们能够拟合为一条直线,则将它们合并为一个笔段u(i,j)
将模板汉字中的多个未匹配笔段进行合并,方法为:假设为vi和vj是模板汉字中的两个未匹配笔段,如果它们能够拟合为一条直线,则将它们合并为一个笔段v(i,j)
将手写汉字中的未匹配笔段与已匹配笔段进行合并,方法为:假设匹配集合中存在映射元素(uj,vj),对于手写汉字中的未匹配笔段ui,如果ui与uj满足如下三个条件,则将(uj,vj)从匹配集合中删除,将((ui,uj),vj)插入到匹配集合中;所述的三个条件包括:ui和uj中的所有采样点能够拟合为一条直线;合并后的笔段u(i,j)与vj更匹配,满足C(u(i,j),vj)<C(uj,vj);以及,元素((ui,uj),vj)与匹配集合中其他元素的笔段位置关系一致。
将模板汉字中的未匹配笔段与已匹配笔段进行合并,方法为:假设匹配集合中存在映射元素(uj,vj),对于模板汉字中的未匹配笔段vi,如果vi与vj满足如下三个条件,则将(uj,vj)从匹配集合中删除,将(uj,(vi,vj))插入到匹配集合中;所述的三个条件包括:vi和vj中的所有采样点能够拟合为一条直线;合并后的笔段v(i,j)与uj更匹配,满足C(uj,v(i,j))<C(uj,vj);以及,元素(uj,(vi,vj))与匹配集合中其他元素的笔段位置关系一致。
经过上述笔段合并的操作后,继续在模板汉字和手写汉字的未匹配笔段中找出尽可能多的合法匹配笔段,插入到Rl中。具体方法是,采用步骤240类似的优化算法找到一个最优的笔段匹配集合Ro,并将其插入到集合Rl中。Ro需满足的条件类似于步骤260。
图9A和图9B共同说明了本步骤的计算效果。在这两幅图中,模板汉字(左边)中的最长竖线是一笔完成的,而手写汉字(右边)将其分为了两段。图9A显示了本步骤处理之前的匹配效果,其中相匹配的笔段用相同的序号标出,并用深浅不一的颜色表示各个笔段①至⑤。图9B显示了本步骤处理之后的匹配效果,其中相匹配的笔段用相同的序号标出,并用深浅不一的颜色表示各个笔段。可见,标号为①的笔段是一种一对多的映射关系。
280、错误识别
经过上述处理,获得了一个结构信息一致的、最大数量的笔段匹配集合,也即最终匹配结果。根据这个匹配集合中的映射关系,以及模板汉字和手写汉字的书写信息,就可以识别手写汉字的错误了。
例如:如果模板汉字中存在未匹配的笔段,那么手写汉字中存在缺少该笔段的问题;如果手写汉字中存在未匹配的笔段,那么该笔段属于多笔问题;如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符,那么手写汉字中存在笔顺错误、笔向错误。根据最终匹配结果,如果模板汉字与手写汉字的“笔画-笔段”二级索引结构不同构,那么手写汉字中存在连笔或断笔问题。如果最终匹配结果中存在一对多的映射关系,那么手写汉字中相应的笔段存在连笔或断笔问题。
本发明实施例的上述技术方案带来的有益效果:
本发明实施例采集了大量外国学生的手写汉字,并进行了反复实验。实验表明,无论手写汉字中存在何种书写错误,本方法都能够最大限度的将手写汉字和模板汉字匹配起来。图10显示了模板汉字“爪”与不同手写汉字的匹配结果,其中相匹配的笔段用相同的序号标出,并用深浅不一的颜色表示不同的笔段。图中,第一个字为模板汉字,第二个字为正确手写汉字,第三个字为连笔手写汉字,其笔段①和笔段②连成了一笔,第四和第五个字为多笔手写汉字。根据匹配结果,我们都能识别出它们的错误。
本发明实施例的方法能够发现各种复杂的连笔错误。图11显示了模板汉字(左边)与手写汉字(右边)的匹配结果,其中相匹配的笔段用相同的序号标出,并用深浅不一的颜色表示各个笔段。由图可知,模板汉字有12画,测试字只有7画,本方法的匹配结果能够将各个笔段正确匹配起来,从而识别出连笔的位置。具体地,图11中,模板汉字中有一个笔段510没有匹配,其它笔段①至笔段
Figure BDA0000123529310000181
均已匹配,说明手写字中缺失该笔段。根据模板子的书写信息(笔画和笔段的二级索引结构)和测试字(手写汉字)的书写信息(笔画和笔段的二级索引结构)可以识别出来:测试字中笔段③和笔段④发生连笔;笔段④和笔段⑤发生连笔;笔段⑥和笔段⑦发生连笔;笔段⑨和笔段⑩发生连笔;笔段
Figure BDA0000123529310000191
和笔段
Figure BDA0000123529310000192
发生连笔。
本发明实施例的方法能够处理各种文化背景的学习者所书写的汉字,对各种书写错误都具有较好的识别效果。与不同的数字手写设备相结合,本发明实施例的方法能够应用到不同的场合中。例如,与压感显示器或数字手写板相结合,本方法可以应用于信息化机房中的汉字书写教学,汉字书写考试;与具有手写功能的移动电脑、手机相结合,本方法可以用于无人值守的移动式汉字书写学习。
图12为本发明实施例的一种基于数字手写设备的汉字书写正误自动评测装置的整体功能框图。如图12所示,该装置300包括:
模板汉字建立单元310,用于建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的二级索引结构,所述结构信息是各个笔段之间的相对位置关系;
手写汉字采集单元320,用于采集手写汉字;
书写信息和结构信息计算单元330,用于计算所述手写汉字的书写信息和结构信息;
匹配单元340,用于根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;
错误信息识别单元350,用于根据所述匹配结果识别所述手写汉字的错误信息。
可选地,在一实施例中,如图13示出的本发明实施例的书写信息和结构信息计算单元330的具体功能框图,所述书写信息和结构信息计算单元330包括:
均匀重采样模块331,用于对所述手写汉字中每个笔画进行均匀的重采样,使得相邻采样点间的距离相同;
笔画分解模块332,用于计算所述手写汉字中每个笔画中的拐点位置,根据拐点位置将每个笔画分解为多个笔段;
笔段位置关系计算模块333,用于根据任意两个笔段的中心点在水平方向和竖直方向上的坐标值,计算所述任意两个笔段在水平方向和竖直方向上的相对位置关系。
在另一实施例中,如图14示出的本发明实施例的另一种基于数字手写设备的汉字书写正误自动评测装置的功能框图,所述装置300还包括:
冗余信息删除模块360,用于识别并删除所述手写汉字在书写过程中的冗余信息,所述冗余信息包括抖笔和/或描笔。
在一个实施例中,所述冗余信息删除模块360包括:抖笔删除子模块361,用于确定所述手写汉字中包含一个以上笔段的笔画;将所述包含一个以上笔段的笔画的起始笔段和末尾笔段的长度分别与预设的第一阈值进行比较,并删除长度小于所述第二阈值的笔段。
在又一个实施例中,所述冗余信息删除模块360包括:描笔删除子模块362,用于将所述手写汉字中任意两个笔画s和t均匀地重采样为H个采样点;根据关系式
Figure BDA0000123529310000201
计算所述任意两个笔画s和t之间的路径距离d(s,t);如果所述路径距离d(s,t)小于预设的第二阈值,则删除笔画s和t中的任意一个笔画;其中,Ps[i]为笔画s上的第i个采样点,Pt[i]为笔画t上的第i个采样点,i、H为正整数。
可选地,在一个实施例中,如图15示出的本发明实施例的匹配单元340的具体功能框图,所述匹配单元340包括:
笔画匹配模块341,用于计算手写汉字和模板汉字的笔画匹配集合,所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系,所述笔画映射关系是一对一的,并且使得匹配代价函数最小;
笔段匹配模块342,用于对手写汉字和模板汉字中未匹配的笔段进行匹配计算,获得笔段匹配集合,所述笔段匹配集合包含手写汉字和模板汉字之间的笔段映射关系,所述笔段映射关系是一对一的,并且使得匹配代价函数最小;
合法性纠正模块343,用于将所述笔画匹配集合和所述笔段匹配集合合并为一个集合,根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正,获得一个结构信息一致的匹配集合Rl;其中,所述的结构信息一致是指:对于Rl中的任意两个笔段映射元素(ui,vi)和(uj,vj),手写汉字中ui和uj的相对位置关系与模板汉字中vi和vj的相对位置关系一致;
笔段合并模块344,用于对模板汉字中的未匹配笔段进行合并处理;对手写汉字中的未匹配笔段进行合并处理;针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算,并将结构信息一致的匹配结果Ro插入到所述匹配集合Rl中,获得手写汉字和模板汉字之间最大数量的、结构信息一致的匹配集合。
在一个实施例中,如图16示出的本发明实施例的错误信息识别单元350的具体功能框图,所述错误信息识别单元350包括:
第一错误信息识别模块351,用于如果模板汉字中存在未匹配的笔段,则判定手写汉字中存在缺少所述未匹配的笔段;或者,
第二错误信息识别模块352,用于如果手写汉字中存在未匹配的笔段,则判定所述未匹配的笔段属于多余的笔段;或者,
第三错误信息识别模块353,用于根据所述匹配结果,如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符,则判定手写汉字中存在笔顺错误、笔向错误;或者,
第四错误信息识别模块354,用于根据所述匹配结果,如果模板汉字与手写汉字的“笔画-笔段”二级索引结构不同构,则判定手写汉字中存在连笔或断笔问题;或者,
第五错误信息识别模块355,用于如果所述匹配结果中存在一对多的映射关系,则判定手写汉字中相应的笔段存在连笔或断笔问题。
该装置的工作方法已在前述的方法实施例中详述,故在此不再赘述。
本发明实施例的装置能够处理各种文化背景的学习者所书写的汉字,对各种书写错误都具有较好的识别效果。与不同的数字手写设备相结合,本发明实施例的方法能够应用到不同的场合中。例如,与压感显示器或数字手写板相结合,本方法可以应用于信息化机房中的汉字书写教学,汉字书写考试;与具有手写功能的移动电脑、手机相结合,本方法可以用于无人值守的移动式汉字书写学习。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,或者二者的结合来实施。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件模块或计算机软件产品可以存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。存储介质可以是随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims (21)

1.一种基于数字手写设备的汉字书写正误自动评测方法,其特征在于,所述方法包括:
建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的二级索引结构,所述结构信息是各个笔段之间的相对位置关系;
采集手写汉字;
计算所述手写汉字的书写信息和结构信息;
根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;
根据所述匹配结果识别所述手写汉字的错误信息。
2.根据权利要求1所述的方法,其特征在于,所述笔画是汉字书写时不间断地一次连续写成的包含0个或至少一个拐点的线条,所述笔段是不包含拐点的连续平滑的线段。
3.根据权利要求1所述的方法,其特征在于,所述采集手写汉字包括:通过数字手写交互设备采集手写汉字,通过所述数字手写交互设备采集到的信息是所采集汉字的多个笔画,所述多个笔画中的任一个笔画包括落笔和提笔之间笔迹上的多个采样点。
4.根据权利要求1所述的方法,其特征在于,所述计算所述手写汉字的书写信息和结构信息包括:
对所述手写汉字中每个笔画进行均匀的重采样,使得相邻采样点间的距离相同;
计算所述手写汉字中每个笔画中的拐点位置,根据拐点位置将每个笔画分解为多个笔段;
根据任意两个笔段的中心点在水平方向和竖直方向上的坐标值,计算所述任意两个笔段在水平方向和竖直方向上的相对位置关系。
5.根据权利要求1或4所述的方法,其特征在于,在计算所述手写汉字的书写信息和结构信息之后,所述方法还包括:
识别并删除所述手写汉字在书写过程中的冗余信息,所述冗余信息包括抖笔和/或描笔。
6.根据权利要求5所述的方法,其特征在于,识别并删除所述手写汉字在书写过程中抖笔包括:
确定所述手写汉字中包含一个以上笔段的笔画;
将所述包含一个以上笔段的笔画的起始笔段和末尾笔段的长度分别与预设的第一阈值进行比较,并删除长度小于所述第一阈值的笔段。
7.根据权利要求5所述的方法,其特征在于,识别并删除所述手写汉字在书写过程中描笔包括:
将所述手写汉字中任意两个笔画s和t均匀地重采样为H个采样点;
根据关系式
Figure FDA0000123529300000021
计算所述任意两个笔画s和t之间的路径距离d(s,t)
如果所述路径距离d(s,t)小于预设的第二阈值,则删除笔画s和t中的任意一个笔画;其中,Ps[i]为笔画s上的第i个采样点,Pt[i]为笔画t上的第i个采样点,i、H为正整数。
8.根据权利要求1所述的方法,其特征在于,所述根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果包括:
计算手写汉字和模板汉字的笔画匹配集合,所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系,所述笔画映射关系是一对一的,并且使得匹配代价函数最小;
对手写汉字和模板汉字中未匹配的笔段进行匹配计算,获得笔段匹配集合,所述笔段匹配集合包含手写汉字和模板汉字之间的笔段映射关系,所述笔段映射关系是一对一的,并且使得匹配代价函数最小;
将所述笔画匹配集合和所述笔段匹配集合合并为一个集合,根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正,获得一个结构信息一致的匹配集合Rl;其中,所述的结构信息一致是指:对于Rl中的任意两个笔段映射元素(ui,vi)和(uj,vj),手写汉字中笔段ui和uj的相对位置关系与模板汉字中笔段vi和vj的相对位置关系一致;
对模板汉字中的未匹配笔段进行合并处理;对手写汉字中的未匹配笔段进行合并处理;针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算,并将结构信息一致的匹配结果Ro插入到所述匹配集合Rl中,获得手写汉字和模板汉字之间最大数量的、结构信息一致的匹配集合。
9.根据权利要求1所述的方法,其特征在于,所述根据所述匹配结果识别所述手写汉字的错误信息包括:
如果模板汉字中存在未匹配的笔段,则判定手写汉字中存在缺少所述未匹配的笔段;或者,
如果手写汉字中存在未匹配的笔段,则判定所述未匹配的笔段属于多余的笔段;或者,
根据所述匹配结果,如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符,则判定手写汉字中存在笔顺错误、笔向错误;或者,
根据所述匹配结果,如果模板汉字与手写汉字的“笔画-笔段”二级索引结构不同构,则判定手写汉字中存在连笔或断笔问题;或者,
如果所述匹配结果中存在一对多的映射关系,则判定手写汉字中相应的笔段存在连笔或断笔问题。
10.根据权利要求8所述的方法,其特征在于,所述计算手写汉字和模板汉字的笔画匹配集合,所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系,所述笔画映射关系是一对一的,并且使得匹配代价函数最小包括:
计算手写汉字中的任意笔画si(1<=i<=N)与模板汉字中的任意笔画tj(1<=j<=M)的匹配权重C(si,tj);
找到一个匹配集合R={(si,tj)|1<=i<=N,1<=j<=M},所述匹配集合R中的映射是一对一的,并且使得代价函数Cost=∑C(si,tj)最小,其中(si,tj)∈R,且i、j、M、N均为正整数。
11.根据权利要求10所述的方法,其特征在于,所述计算手写汉字中的任意笔画si(1<=i<=N)与模板汉字中的任意笔画tj(1<=j<=M)的匹配权重C(si,tj)包括:
对si和tj进行均匀的重采样,使采样点数量均为H;
如果si和tj的首尾采样点方向向量的夹角大于90度,则翻转si采样点序列;
如果si和tj所包含的笔段数不一致,则认为si和tj完全不匹配;
分别计算si和tj的质心距离
Figure FDA0000123529300000041
长度差异包围盒的差异
Figure FDA0000123529300000043
判断它们是否分别小于相应的阈值,如果有任何一项不满足条件,则认为笔画si和tj完全不匹配;其中,质心距离
Figure FDA0000123529300000044
长度差异
Figure FDA0000123529300000045
包围盒的差异
Figure FDA0000123529300000046
的计算过程是依据如下关系式:
d ( C s i , C t j ) = ( C s i x - C t j x ) 2 + ( C s i y - C t j y ) 2 , 其中,
Figure FDA0000123529300000048
Figure FDA0000123529300000049
分别表示笔画si和tj的质心;以及,
Figure FDA00001235293000000410
其中,分别表示笔画si和tj的路径长度;以及,
Figure FDA00001235293000000412
其中,
Figure FDA00001235293000000413
Figure FDA00001235293000000414
分别表示笔画si和tj的包围盒的纵横比;
如果si和tj满足质心距离
Figure FDA0000123529300000051
长度差异
Figure FDA0000123529300000052
包围盒的差异
Figure FDA0000123529300000053
均小于相应的阈值,则计算si和tj的匹配权重C(si,tj);所述匹配权重C(si,tj)的计算过程是依据如下关系式:
C ( s i , t j ) = E min θ { d ( f ( s i , θ ) , t j ) } × ( α × E θ + β × E d ( C s i , C t j ) + γ × E d ( L s i , L t j ) )
其中,f(si,θ)表示将笔画si旋转θ角度,d(f(si,θ),tj)表示旋转之后的笔画s′i和tj的路径距离,α、β、γ分别表示角度差异权重、位置差异权重、长度差异权重。
12.根据权利要求8所述的方法,其特征在于,所述将所述笔画匹配集合和所述笔段匹配集合合并为一个集合,根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正,获得一个结构信息一致的匹配集合Rl包括:
对于合并后集合中的任意两个笔段映射元素(ui,vi)和(uj,vj),如果ui和uj之间的位置关系与vi和vj之间的位置关系不一致,则从集合中删除匹配代价较大的元素;
经过上述删除操作,得到一个结构信息一致的集合Rl
在模板汉字和手写汉字的未匹配笔段中找出合法匹配笔段,构成笔段匹配集合Ro,并将Ro插入到Rl中。
13.根据权利要求12所述的方法,其特征在于,Ro需满足如下条件:
Ro中手写汉字和模板汉字的笔段映射关系是一对一的;
Ro中任意两个元素的笔段位置关系是一致的;
Ro中的笔段位置关系不与Rl中的笔段位置关系产生冲突;
在前面三个条件基础上,Ro中的元素是最多的;以及,
Ro中元素的代价之和是最小的。
14.根据权利要求8所述的方法,其特征在于,所述对模板汉字中的未匹配笔段进行合并处理包括:将模板汉字中的多个未匹配笔段进行合并处理,和/或,将模板汉字中的未匹配笔段与已匹配笔段进行合并处理;所述对手写汉字中的未匹配笔段进行合并处理包括:将手写汉字中的多个未匹配笔段进行合并处理,和/或,将手写汉字中的未匹配笔段与已匹配笔段进行合并处理;
所述将模板汉字中的多个未匹配笔段进行合并处理包括:假设为vi和vj是模板汉字中的两个未匹配笔段,如果它们能够拟合为一条直线,则将它们合并为一个笔段v(i,j)
所述将模板汉字中的未匹配笔段与已匹配笔段进行合并处理包括:假设匹配集合中存在映射元素(uj,vj),对于模板汉字中的未匹配笔段vi,如果vi与vj满足如下三个条件,则将(uj,vj)从匹配集合中删除,将(uj,(vi,vj))插入到匹配集合中;所述的三个条件包括:vi和vj中的所有采样点能够拟合为一条直线;合并后的笔段v(i,j)与uj更匹配,满足C(uj,v(i,j))<C(uj,vj);以及,元素(uj,(vi,vj))与匹配集合中其他元素的笔段位置关系一致;
所述将手写汉字中的多个未匹配笔段进行合并处理包括:假设为ui和uj是手写汉字中的两个未匹配笔段,如果它们能够拟合为一条直线,则将它们合并为一个笔段u(i,j)
所述将手写汉字中的未匹配笔段与已匹配笔段进行合并处理包括:假设匹配集合中存在映射元素(uj,vj),对于手写汉字中的未匹配笔段ui,如果ui与uj满足如下三个条件,则将(uj,vj)从匹配集合中删除,将((ui,uj),vj)插入到匹配集合中;所述的三个条件包括:ui和uj中的所有采样点能够拟合为一条直线;合并后的笔段u(i,j)与vj更匹配,满足C(u(i,j),vj)<C(uj,vj);以及,元素((ui,uj),vj)与匹配集合中其他元素的笔段位置关系一致。
15.一种基于数字手写设备的汉字书写正误自动评测装置,其特征在于,所述装置包括:
模板汉字建立单元,用于建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的二级索引结构,所述结构信息是各个笔段之间的相对位置关系;
手写汉字采集单元,用于采集手写汉字;
书写信息和结构信息计算单元,用于计算所述手写汉字的书写信息和结构信息;
匹配单元,用于根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;
错误信息识别单元,用于根据所述匹配结果识别所述手写汉字的错误信息。
16.根据权利要求15所述的装置,其特征在于,所述书写信息和结构信息计算单元包括:
均匀重采样模块,用于对所述手写汉字中每个笔画进行均匀的重采样,使得相邻采样点间的距离相同;
笔画分解模块,用于计算所述手写汉字中每个笔画中的拐点位置,根据拐点位置将每个笔画分解为多个笔段;
笔段位置关系计算模块,用于根据任意两个笔段的中心点在水平方向和竖直方向上的坐标值,计算所述任意两个笔段在水平方向和竖直方向上的相对位置关系。
17.根据权利要求15或16所述的装置,其特征在于,所述装置还包括:
冗余信息删除模块,用于识别并删除所述手写汉字在书写过程中的冗余信息,所述冗余信息包括抖笔和/或描笔。
18.根据权利要求17所述的装置,其特征在于,所述冗余信息删除模块包括:抖笔删除子模块,用于确定所述手写汉字中包含一个以上笔段的笔画;将所述包含一个以上笔段的笔画的起始笔段和末尾笔段的长度分别与预设的第一阈值进行比较,并删除长度小于所述第一阈值的笔段。
19.根据权利要求17所述的装置,其特征在于,所述冗余信息删除模块包括:描笔删除子模块,用于将所述手写汉字中任意两个笔画s和t均匀地重采样为H个采样点;根据关系式
Figure FDA0000123529300000081
计算所述任意两个笔画s和t之间的路径距离d(s,t);如果所述路径距离d(s,t)小于预设的第二阈值,则删除笔画s和t中的任意一个笔画;其中,Ps[i]为笔画s上的第i个采样点,Pt[i]为笔画t上的第i个采样点,i、H为正整数。
20.根据权利要求15所述的装置,其特征在于,所述匹配单元包括:
笔画匹配模块,用于计算手写汉字和模板汉字的笔画匹配集合,所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系,所述笔画映射关系是一对一的,并且使得匹配代价函数最小;
笔段匹配模块,用于对手写汉字和模板汉字中未匹配的笔段进行匹配计算,获得笔段匹配集合,所述笔段匹配集合包含手写汉字和模板汉字之间的笔段映射关系,所述笔段映射关系是一对一的,并且使得匹配代价函数最小;
合法性纠正模块,用于将所述笔画匹配集合和所述笔段匹配集合合并为一个集合,根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正,获得一个结构信息一致的匹配集合Rl;其中,所述的结构信息一致是指:对于Rl中的任意两个笔段映射元素(ui,vi)和(uj,vj),手写汉字中ui和uj的相对位置关系与模板汉字中vi和vj的相对位置关系一致;
笔段合并模块,用于对模板汉字中的未匹配笔段进行合并处理;对手写汉字中的未匹配笔段进行合并处理;针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算,并将结构信息一致的匹配结果Ro插入到所述匹配集合Rl中,获得手写汉字和模板汉字之间最大数量的、结构信息一致的匹配集合。
21.根据权利要求15所述的装置,其特征在于,所述错误信息识别单元包括:
第一错误信息识别模块,用于如果模板汉字中存在未匹配的笔段,则判定手写汉字中存在缺少所述未匹配的笔段;或者,
第二错误信息识别模块,用于如果手写汉字中存在未匹配的笔段,则判定所述未匹配的笔段属于多余的笔段;或者,
第三错误信息识别模块,用于根据所述匹配结果,如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符,则判定手写汉字中存在笔顺错误、笔向错误;或者,
第四错误信息识别模块,用于根据所述匹配结果,如果模板汉字与手写汉字的“笔画-笔段”二级索引结构不同构,则判定手写汉字中存在连笔或断笔问题;或者,
第五错误信息识别模块,用于如果所述匹配结果中存在一对多的映射关系,则判定手写汉字中相应的笔段存在连笔或断笔问题。
CN2011104359626A 2011-12-22 2011-12-22 基于数字手写设备的汉字书写正误自动评测方法和装置 Active CN102542264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104359626A CN102542264B (zh) 2011-12-22 2011-12-22 基于数字手写设备的汉字书写正误自动评测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104359626A CN102542264B (zh) 2011-12-22 2011-12-22 基于数字手写设备的汉字书写正误自动评测方法和装置

Publications (2)

Publication Number Publication Date
CN102542264A true CN102542264A (zh) 2012-07-04
CN102542264B CN102542264B (zh) 2013-11-27

Family

ID=46349119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104359626A Active CN102542264B (zh) 2011-12-22 2011-12-22 基于数字手写设备的汉字书写正误自动评测方法和装置

Country Status (1)

Country Link
CN (1) CN102542264B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968619A (zh) * 2012-11-13 2013-03-13 北京航空航天大学 一种汉字图片的部件识别方法
CN103390358A (zh) * 2013-07-03 2013-11-13 广东小天才科技有限公司 对电子设备的字符书写操作进行规范性判断的方法及装置
CN103514779A (zh) * 2013-10-14 2014-01-15 广东小天才科技有限公司 一种点线练字方法和设备
CN103679217A (zh) * 2012-09-04 2014-03-26 西安曲江出版传媒股份有限公司 在新媒体上对手写汉字正确性的判断方法
CN103810507A (zh) * 2014-02-13 2014-05-21 步步高教育电子有限公司 一种文字书写自动纠错设备和方法
CN103903491A (zh) * 2014-02-14 2014-07-02 广东小天才科技有限公司 一种实现书写检查的方法及装置
CN104573747A (zh) * 2013-10-17 2015-04-29 北大方正集团有限公司 文字评价方法及装置
CN105488476A (zh) * 2015-11-30 2016-04-13 广东小天才科技有限公司 一种汉字听写的方法、系统
CN105574553A (zh) * 2014-10-15 2016-05-11 北大方正集团有限公司 文字处理方法和文字处理装置
CN105718965A (zh) * 2014-12-02 2016-06-29 北京汉仪科印信息技术有限公司 一种汉字书写字形识别方法及装置
CN103761535B (zh) * 2014-01-23 2017-01-04 浙江工业大学 一种智能的儿童简笔画线条自动补齐方法
CN108319896A (zh) * 2017-12-29 2018-07-24 上海义启信息科技有限公司 一种汉字书写的识别方法
CN108491520A (zh) * 2018-03-26 2018-09-04 魏培琳 英文书写字体纠错方法
CN108846367A (zh) * 2018-06-25 2018-11-20 掌阅科技股份有限公司 生僻字处理方法、计算设备及计算机存储介质
CN109774353A (zh) * 2019-03-07 2019-05-21 赵木琦 面向高中生考试辅助书写装置的固定板及方法
CN109858383A (zh) * 2019-01-04 2019-06-07 广东智媒云图科技股份有限公司 笔画识别方法及装置
CN110880252A (zh) * 2019-11-09 2020-03-13 伊克劳德教育科技(深圳)有限公司 一体化智能教学一体机及信息交互系统
CN111078025A (zh) * 2019-07-29 2020-04-28 广东小天才科技有限公司 一种确定输入汉字正确与否的方法及终端设备
CN111169201A (zh) * 2020-03-04 2020-05-19 黑龙江大学 练字监测器及监测方法
CN111310548A (zh) * 2019-12-04 2020-06-19 武汉汉德瑞庭科技有限公司 一种在线手写笔迹中笔画类型的识别方法
CN113034649A (zh) * 2021-05-24 2021-06-25 北京易真学思教育科技有限公司 一种汉字绘制展示方法、装置、电子设备及介质
CN113642543A (zh) * 2021-10-14 2021-11-12 北京许先网科技发展有限公司 一种基于ai技术的多方位字体智能测评系统
CN114093220A (zh) * 2020-05-07 2022-02-25 天津洪恩完美未来教育科技有限公司 一种书写学习实现方法、装置、存储介质以及计算设备
WO2023065397A1 (zh) * 2021-10-22 2023-04-27 华中师范大学 一种手写汉字图像的笔顺识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320422A (zh) * 2008-06-06 2008-12-10 东莞市开心信息技术服务有限公司 手写汉字笔画交接离的规范性判定方法和装置
CN101344918A (zh) * 2008-06-06 2009-01-14 东莞市开心信息技术服务有限公司 手写汉字笔画位置规范性的判断方法和装置
CN101465074A (zh) * 2008-10-21 2009-06-24 华南理工大学 一种手写汉字布局评价方法
CN101976354A (zh) * 2010-11-10 2011-02-16 广东开心信息技术有限公司 一种书写汉字规范性评判的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320422A (zh) * 2008-06-06 2008-12-10 东莞市开心信息技术服务有限公司 手写汉字笔画交接离的规范性判定方法和装置
CN101344918A (zh) * 2008-06-06 2009-01-14 东莞市开心信息技术服务有限公司 手写汉字笔画位置规范性的判断方法和装置
CN101465074A (zh) * 2008-10-21 2009-06-24 华南理工大学 一种手写汉字布局评价方法
CN101976354A (zh) * 2010-11-10 2011-02-16 广东开心信息技术有限公司 一种书写汉字规范性评判的方法和装置

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679217A (zh) * 2012-09-04 2014-03-26 西安曲江出版传媒股份有限公司 在新媒体上对手写汉字正确性的判断方法
CN102968619A (zh) * 2012-11-13 2013-03-13 北京航空航天大学 一种汉字图片的部件识别方法
CN102968619B (zh) * 2012-11-13 2015-06-17 北京航空航天大学 一种汉字图片的部件识别方法
CN103390358A (zh) * 2013-07-03 2013-11-13 广东小天才科技有限公司 对电子设备的字符书写操作进行规范性判断的方法及装置
CN103390358B (zh) * 2013-07-03 2015-08-19 广东小天才科技有限公司 对电子设备的字符书写操作进行规范性判断的方法及装置
CN103514779A (zh) * 2013-10-14 2014-01-15 广东小天才科技有限公司 一种点线练字方法和设备
CN103514779B (zh) * 2013-10-14 2016-04-13 广东小天才科技有限公司 一种点线练字方法和设备
CN104573747B (zh) * 2013-10-17 2019-03-08 北大方正集团有限公司 文字评价方法及装置
CN104573747A (zh) * 2013-10-17 2015-04-29 北大方正集团有限公司 文字评价方法及装置
CN103761535B (zh) * 2014-01-23 2017-01-04 浙江工业大学 一种智能的儿童简笔画线条自动补齐方法
CN103810507A (zh) * 2014-02-13 2014-05-21 步步高教育电子有限公司 一种文字书写自动纠错设备和方法
CN103903491A (zh) * 2014-02-14 2014-07-02 广东小天才科技有限公司 一种实现书写检查的方法及装置
CN105574553A (zh) * 2014-10-15 2016-05-11 北大方正集团有限公司 文字处理方法和文字处理装置
CN105718965A (zh) * 2014-12-02 2016-06-29 北京汉仪科印信息技术有限公司 一种汉字书写字形识别方法及装置
CN105488476A (zh) * 2015-11-30 2016-04-13 广东小天才科技有限公司 一种汉字听写的方法、系统
CN108319896A (zh) * 2017-12-29 2018-07-24 上海义启信息科技有限公司 一种汉字书写的识别方法
CN108491520A (zh) * 2018-03-26 2018-09-04 魏培琳 英文书写字体纠错方法
CN108846367A (zh) * 2018-06-25 2018-11-20 掌阅科技股份有限公司 生僻字处理方法、计算设备及计算机存储介质
CN108846367B (zh) * 2018-06-25 2019-08-30 掌阅科技股份有限公司 生僻字处理方法、计算设备及计算机存储介质
CN109858383A (zh) * 2019-01-04 2019-06-07 广东智媒云图科技股份有限公司 笔画识别方法及装置
CN109774353A (zh) * 2019-03-07 2019-05-21 赵木琦 面向高中生考试辅助书写装置的固定板及方法
CN111078025A (zh) * 2019-07-29 2020-04-28 广东小天才科技有限公司 一种确定输入汉字正确与否的方法及终端设备
CN110880252A (zh) * 2019-11-09 2020-03-13 伊克劳德教育科技(深圳)有限公司 一体化智能教学一体机及信息交互系统
CN111310548A (zh) * 2019-12-04 2020-06-19 武汉汉德瑞庭科技有限公司 一种在线手写笔迹中笔画类型的识别方法
CN111310548B (zh) * 2019-12-04 2023-09-19 武汉汉德瑞庭科技有限公司 一种在线手写笔迹中笔画类型的识别方法
CN111169201A (zh) * 2020-03-04 2020-05-19 黑龙江大学 练字监测器及监测方法
CN111169201B (zh) * 2020-03-04 2024-03-26 黑龙江大学 练字监测器及监测方法
CN114093220A (zh) * 2020-05-07 2022-02-25 天津洪恩完美未来教育科技有限公司 一种书写学习实现方法、装置、存储介质以及计算设备
CN113034649A (zh) * 2021-05-24 2021-06-25 北京易真学思教育科技有限公司 一种汉字绘制展示方法、装置、电子设备及介质
CN113034649B (zh) * 2021-05-24 2021-09-10 北京易真学思教育科技有限公司 一种汉字绘制展示方法、装置、电子设备及介质
CN113642543A (zh) * 2021-10-14 2021-11-12 北京许先网科技发展有限公司 一种基于ai技术的多方位字体智能测评系统
WO2023065397A1 (zh) * 2021-10-22 2023-04-27 华中师范大学 一种手写汉字图像的笔顺识别方法及系统

Also Published As

Publication number Publication date
CN102542264B (zh) 2013-11-27

Similar Documents

Publication Publication Date Title
CN102542264B (zh) 基于数字手写设备的汉字书写正误自动评测方法和装置
US11508251B2 (en) Method and system for intelligent identification and correction of questions
CN107273002B (zh) 手写输入答题方法、终端及计算机可读存储介质
CN107798321A (zh) 一种试卷分析方法和计算设备
Cheema et al. QuickDraw: improving drawing experience for geometric diagrams
Anthony et al. A paradigm for handwriting-based intelligent tutors
CN110110581B (zh) 一种基于人工智能的试卷批改方法和系统
Lee et al. Newton's Pen: A pen-based tutoring system for statics
CN101465074A (zh) 一种手写汉字布局评价方法
US8768241B2 (en) System and method for representing digital assessments
JP2010152480A (ja) デジタル採点システム
CN106598920A (zh) 一种笔画编码结合汉字点阵的形近字分类方法
CN109902683A (zh) 试卷核分和成绩录入方法及系统
Taele et al. BopoNoto: An Intelligent Sketch Education Application for Learning Zhuyin Phonetic Script.
Wang et al. Combining dynamic and static analysis for automated grading sql statements
CN113903045A (zh) 一种手写汉字图像的笔顺识别方法及系统
MacLean et al. Is the iPad useful for sketch input? A comparison with the Tablet PC
CN210038810U (zh) 智能评测设备及系统
CN107430824B (zh) 用于评价响应的半自动系统和方法
CN104951810A (zh) 一种信号处理装置
Chu et al. Supporting Chinese Character Educational Interfaces with Richer Assessment Feedback through Sketch Recognition.
CN115294573A (zh) 作业批改方法、装置、设备及介质
Borah et al. Direct observation of tactile geometric drawing by visually impaired and blind students
Alyahya et al. Intelligent ResNet-18 based Approach for Recognizing and Assessing Arabic Children's Handwriting
Lin et al. Automatic handwritten statics solution classification and its applications in predicting student performance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant