CN102542264A

CN102542264A - 基于数字手写设备的汉字书写正误自动评测方法和装置

Info

Publication number: CN102542264A
Application number: CN2011104359626A
Authority: CN
Inventors: 安维华; 李超; 荀恩东
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2012-07-04
Anticipated expiration: 2031-12-22
Also published as: CN102542264B

Abstract

本发明实施例提供一种基于数字手写设备的汉字书写正误自动评测方法和装置，该方法包括：建立模板汉字，模板汉字包括书写信息和结构信息，所述书写信息是包括笔画和笔段的二级索引结构，结构信息是各个笔段之间的相对位置关系；采集手写汉字；计算手写汉字的书写信息和结构信息；根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息，将手写汉字与所述模板汉字进行匹配，以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果；根据匹配结果识别所述手写汉字的错误信息。该方法能够精确的将学习者的手写汉字与模板汉字最大限度的匹配起来，并且精确识别出手写汉字中多笔、少笔、连笔、断笔、笔向、笔序等多种错误类型。

Description

基于数字手写设备的汉字书写正误自动评测方法和装置

技术领域

本发明属于汉字书写的信息处理技术领域，具体地涉及一种基于数字手写设备的汉字书写正误自动评测方法和装置。

背景技术

汉字书写正误评测的应用目标在于：辅助汉语学习者在无人值守的情况下进行自主的汉字书写学习。因此，其思路是，实时采集学习者书写汉字的位置、时间等信息并进行特征提取，然后将学习者书写的汉字与标准汉字在笔画、部件、整字等层面上进行自动的比对，并进行汉字书写错误点的自动识别和反馈。

汉字书写评测与汉字识别具有本质区别。汉字书写评测的根本任务是评价用户书写的规范程度，而汉字识别则主要关心未知手写体样本与现有样本库中哪一个最相似的问题；汉字评测侧重于对汉字细微差别的评判和反馈，而汉字识别往往只关心总体上的近似性；汉字书写评测只是将一个待测汉字与一个已知的标准汉字进行特征匹配，而汉字识别是将一个待识别的汉字与汉字库中所有汉字(通常是成千上万)进行特征匹配，从而找出一个或多个与其最相近的汉字。

在当今汉语国际推广的背景下，汉语学习越来越受到人们的重视，国外的学习者也逐渐增多。汉字的学习是汉语学习的一个重要组成部分。由于中国汉字(表意文字)与西方文字(表音文字)在书写形式上的本质差别，使得汉字的书写能力成为制约学习者提高汉语水平的一个重要因素。

传统的汉字书写教学方法，存在着各种局限性。例如：教师的手工评判工作量巨大，学生不能在无人值守的情况下完成汉字书写练习和自我评判。随着信息技术的不断发展，人们提出了很多计算机辅助的汉字书写教学系统，来弥补传统教学方式的不足。

早期的汉字书写教学系统[1]只是将正确汉字(这里称为模板汉字)的书写过程以动画的形式演示给用户。这种以演示为主的系统只能让用户进行被动的记忆，并不能主动的发现用户的书写错误，因此也不能检验用户的学习效果，并给出针对性的改进意见。

为了加强学生的学习和记忆效果，后续的教学系统开始逐渐增加交互功能。例如，有些系统[2]要求用户以描红的方式完成汉字书写；有些系统[3，4]要求用户以笔画选择的方式拼写汉字。这些简单的交互功能只能发现极少的书写错误，例如笔顺的书写错误，不能暴露出多笔、少笔、连笔、断笔等错误。

为了能够给用户更多的书写指导，人们也设计出一些汉字书写评价系统，然而这些系统只是对汉字的整体布局进行评价，在书写错误方面的反馈非常有限。例如文献[5，6]所实现的系统，要求用户书写的汉字与模板字在笔画上是严格对应的，也就是说默认用户知道汉字的正确书写过程，系统最终反馈汉字整体布局的美观性；文献[7，8]设计的系统也只是考查手写汉字的静态图像特征，并不关注笔序、笔向等时间相关特征。

此外，有些系统采用联机的方式进行汉字书写教学[9，10]。每当用户书写完一个笔画，系统就立即反馈结果。这种交互形式不停的打断用户的书写过程，显得不够友好。另外，它们仅仅重视笔顺错误的识别。

上述系统在交互形式、错误识别等方面都具有一定的局限性，也限制了系统的应用范围。为了达到智能化的教学效果，最近的汉字书写教学系统开始加入了汉字笔画的自动匹配算法。这些系统让用户一次性写完汉字，然后与模板汉字进行笔画匹配。Chen等人[11]根据斜率将基本笔画分为6种类型，首先将手写汉字的笔画进行归类，然后进行笔画的匹配。胡智慧[12]分别将模板汉字和手写汉字的笔画位置关系表示为两个ARG图[13]，然后通过边的插入和删除操作建立起两个图之间的匹配关系，最后根据边操作顺序得到匹配关系。Tang等人[14]将模板汉字和手写汉字的笔画匹配问题理解为线性分配问题。

上述方法全部应用于以抄写为主的汉字书写教学系统中，因此不能有效的检查用户记字、认字的能力；它们要求汉字本身的复杂程度不能太高，也就是说只能应用到简单汉字的书写教学中；另外，上述方法要求用户的书写结果不能与模板汉字相差太大。如果让用户默写汉字，那么用户可能会出现各种各样的书写错误，从而使得现有的系统不能胜任。另外，西方国家的学习者只是将汉字简单的理解为图形并随意的描画，因此在书写过程中也会出现各种意想不到的错误。针对他们书写的汉字，目前的系统也是很难处理的。

参考文献：

[1]唐棠，陆兵，一种汉字书写模拟练习软件的设计，中文信息学报，vol.10，No.3，10-17页，1996年。

[2]V.Tam，K.W.Yeung，“Learning to write Chinese characters with correctstroke sequences on mobile devices，”Proceedings of ICETC2010，pp.395-399，2010。

[3]赵希武，吕生荣，小学汉字书写笔画顺序练习系统的设计，内蒙古农业大学学报(自然科学版)，vol.31，No.1，236-240页，2010年。

[4]余海涛，汉字笔顺书写学习系统的设计与实现，内蒙古师范大学，硕士学位论文，2010年。

[5]夏伟平，金连文，一种基于模板的联机手写体汉字布局评价方法，2008年全国模式识别学术会议，354-359页，2008年。

[6]祁亨年，陈丰农，庄立，陈频，一种无大小约束的汉字书写结构评测方法，郑州大学学报(理学版)，Vol.40 No.3，59-62页，2008年。

[7]王丁，汉字书法练习装置：中国，专利号：971047421[P]，1998-10-07。

[8]王丁，闫瑶，张廷宇，梁海滨，手持练字系统的设计与实现，控制工程，Vol.16 No.6，2009年。

[9]庄崇彪，金连文，在线汉字书写正误及工整的智能评判算法.第十二届全国信号处理学术年会论文集，2005年。

[10]G.Chen，H.Yao，Y.Jheng，“On-line Assessment for the Stroke Order ofChinese Characters Writing，”Workshop Proceedings of ICCE2008，pp.132-138，2008。

[11]G.S.Chen，Y.D.Jheng，L.F.Lin，“Computer-based Assessment for theStroke Order of Chinese Characters Writing，”proceedings of ICICIC2007，pp.160-163，2007。

[12]胡智慧，“汉字智能工具中的书写错误识别技术研究与应用，”中国科学技术大学，博士学位论文，2010年。

[13]W.-H.Tsai，K.-S.Fu，“Error-Correcting Isomorphisms of AttributedRelational Graphs for Pattern Analysis，”IEEE Transactions on Systems，Man，andCybernetics，vol.9，No.12，pp.757-768，1979。

[14]K.Tang，K.Li，H.Leung，”A Web-Based Chinese HandwritingEducation System with Automatic Feedback and Analysis，”Lecture Notes inComputer Science(LNCS)4181，pp.176-188，2006。

发明内容

本发明的目的在于，为了改进现有汉字书写教学系统的种种局限性，提供一种汉字书写正误的自动评测方法。它能够精确的将学习者的手写汉字与模板汉字最大限度的匹配起来，并且精确识别出手写汉字中多笔、少笔、连笔、断笔、笔向、笔序等多种错误类型。将这些错误类型自动反馈给学习者，便可以实现无人值守的汉字书写学习的目的。

一方面，为达上述目的，本发明实施例提供了一种基于数字手写设备的汉字书写正误自动评测方法，所述方法包括：

建立模板汉字，所述模板汉字包括书写信息和结构信息，所述书写信息是包括笔画和笔段的二级索引结构，所述结构信息是各个笔段之间的相对位置关系；

采集手写汉字；

计算所述手写汉字的书写信息和结构信息；

根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息，将所述手写汉字与所述模板汉字进行匹配，以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果；

根据所述匹配结果识别所述手写汉字的错误信息。

另一方面，为达上述目的，本发明实施例提供了一种基于数字手写设备的汉字书写正误自动评测装置，所述装置包括：

模板汉字建立单元，用于建立模板汉字，所述模板汉字包括书写信息和结构信息，所述书写信息是包括笔画和笔段的二级索引结构，所述结构信息是各个笔段之间的相对位置关系；

手写汉字采集单元，用于采集手写汉字；

书写信息和结构信息计算单元，用于计算所述手写汉字的书写信息和结构信息；

匹配单元，用于根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息，将所述手写汉字与所述模板汉字进行匹配，以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果；

错误信息识别单元，用于根据所述匹配结果识别所述手写汉字的错误信息。

本发明实施例的优点为：本发明实施例的方法能够处理各种文化背景的学习者所书写的汉字，对各种书写错误都具有较好的识别效果。与不同的数字手写设备相结合，本发明实施例的方法能够应用到不同的场合中。例如，与压感显示器或数字手写板相结合，本方法可以应用于信息化机房中的汉字书写教学，汉字书写考试；与具有手写功能的移动电脑、手机相结合，本方法可以用于无人值守的移动式汉字书写学习。

上述技术方案将汉字分为“笔画-笔段”的二级表达形式，并且最终计算出笔段的匹配结果，这种更加细致的匹配结果不但能够帮助更加精确的定位书写错误的具体位置，而且能够帮助发现更多的书写错误类型，这是前人工作所不能达到的。另外，本方法还为汉字的结构特征引入了笔段位置关系的概念，大大提高了汉字匹配的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的整体流程图；

图2为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的具体流程图；

图3A为本发明实施例的模板汉字的手工标注过程示意图；

图3B为本发明实施例的模板汉字的手工标注结果示意图；

图3C为本发明实施例的模板汉字手工标注结果的包围盒以及坐标系示意图；

图4为本发明实施例的模板汉字的笔画-笔段二级索引结构示意图；

图5为本发明实施例的模板汉字的笔段位置关系示意图；

图6A为本发明实施例的手写汉字的采集结果示意图；

图6B为本发明实施例的手写汉字重采样和计算拐点的示意图；

图6C为本发明实施例的删除手写汉字中抖笔信息的示意图；

图7A为本发明实施例的将手写汉字某笔画和模板汉字某笔画置于同一局部坐标系中的示意图；

图7B为本发明实施例的在局部坐标系中将手写汉字某笔画旋转到最佳角度的示意图；

图8A为本发明实施例的模板汉字和手写汉字经过笔画匹配后的示意图；

图8B为本发明实施例的模板汉字和手写汉字经过笔画和笔段两步匹配后的示意图；

图9A为本发明实施例的模板汉字和手写汉字在笔段合并之前的匹配效果示意图；

图9B为本发明实施例的模板汉字和手写汉字在笔段合并之后的匹配效果示意图；

图10为本发明实施例的识别各种不同书写错误的效果示意图；

图11为本发明实施例的识别复杂连笔错误的效果示意图；

图12为本发明实施例的一种基于数字手写设备的汉字书写正误自动评测装置的整体功能框图；

图13为本发明实施例的书写信息和结构信息计算单元330的具体功能框图；

图14为本发明实施例的另一种基于数字手写设备的汉字书写正误自动评测装置的功能框图；

图15为本发明实施例的匹配单元340的具体功能框图；

图16为本发明实施例的错误信息识别单元350的具体功能框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了改进现有汉字书写教学系统的种种局限性，本发明实施例提出一种汉字书写正误的自动评测方法。它能够精确的将学习者的手写汉字与模板汉字最大限度的匹配起来，并且精确识别出手写汉字中多笔、少笔、连笔、断笔、笔向、笔序等多种错误类型。将这些错误类型自动反馈给学习者，便可以实现无人值守的汉字书写学习的目的。

该方法基于的硬件设备是数字手写交互设备，具体可以体现为，支持手写的手机、压感显示器、绘图板、数码笔等。这些手写交互设备能够反映用户真实的书写状态，这是鼠标设备所不能实现的。

在交互方式上，用户可以使用数字手写设备随意书写汉字，并且一次性将汉字写完。本方法仅仅将用户书写的汉字理解为由一系列离散点组成的线条图形，通过优化算法快速的、最大限度的将手写汉字与模板汉字匹配起来，从而为书写错误的识别提供基础。

本发明实施例的方法将汉字分为“笔画-笔段”的二级表达形式，并且最终计算出笔段的匹配结果，这种更加细致的匹配结果不但能够帮助更加精确的定位书写错误的具体位置，而且能够帮助发现更多的书写错误类型，这是前人工作所不能达到的。另外，本发明实施例的方法还为汉字的结构特征引入了笔段位置关系的概念，大大提高了汉字匹配的准确性。

图1为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的整体流程图；该方法包括：

110、建立模板汉字，所述模板汉字包括书写信息和结构信息，所述书写信息是包括笔画和笔段的二级索引结构，所述结构信息是各个笔段之间的相对位置关系；

120、采集手写汉字；

130、计算所述手写汉字的书写信息和结构信息；

140、根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息，将所述手写汉字与所述模板汉字进行匹配，以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果；

150、根据所述匹配结果识别所述手写汉字的错误信息。

以下进行更为详细的说明，图2为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的具体流程图。如图2所示，该方法具体包括：“建立模板字，采集测试字，预处理，笔画匹配，笔段匹配，合法性纠正，笔段合并，错误识别”等过程。其中，上述步骤130包含于预处理过程内，步骤140对应于“笔画匹配，笔段匹配，合法性纠正，笔段合并”的处理过程。下面结合图示对本发明实施例的具体实施方式作进一步详细地描述，该方法具体包括如下步骤：

210、建立模板汉字

具体地，该步骤可以是建立模板汉字库。模板汉字库中的每个汉字包括书写信息和结构信息。书写信息是指汉字书写的时间信息和坐标信息。本发明实施例的方法将书写信息分为笔画和笔段的二级索引结构。笔画是指汉字书写时不间断地一次连续写成的线条。如果这个线条包含拐点，那么将其分解为一系列笔段。因此，笔段是指不包含拐点的连续平滑的线段。一个笔画可以包含一个或多个笔段。结构信息是指各个笔段之间的相对位置关系。在一个模板汉字中，任意两个笔段的相对位置关系包括水平和竖直两种情况，每种情况的取值包括“大于、小于、大小关系不影响字形正确性”三种可能。

在一实施例中，可以借助微软的windows操作系统中truetype字库获取模板汉字。由于truetype字库中存储的是汉字的轮廓，因此需要提取出每个笔画中心线上的采样点。为此，本发明实施例设计了一个手工标注工具，利用手工方式获得每个笔画中心线上的采样点，并标注出笔段之间的位置关系。图3A显示了模板字“他”的标注过程，黑色轮廓为truetype字库提供的汉字轮廓，其他图画为手工标注信息。

根据手工标注的信息，可以计算并存储模板汉字的书写信息。图3B显示了模板汉字“他”的最终标注效果，黑色点表示笔画上的采样点，空心点表示拐点，浅灰色线表示书写过程，u1至u9的标号表示笔段的编号。图4显示了该汉字的“笔画-笔段”二级索引的存储结构。笔画和笔段的存储顺序与该汉字的书写顺序一致。如果某个笔段是直线段，那么该笔段中可以只存储首尾两个端点，例如图3B中的u2；如果某个笔段是曲线段，那么为了保证曲线的平滑效果，该笔段中需要存储多个采样点，例如图3B中的u1。

在结构信息方面，任意两个笔段u和v的位置关系可以表示为(R_x(u，v)，R_y(u，v))。其中，R_x(u，v)和R_y(u，v)分别表示二者在水平方向(x轴)和竖直方向(y轴)上的位置关系。公式(1)说明了它们的取值方式，其中，

和

分别表示笔段u和v的中心坐标。

在公式(1)中，R_x(u，v)的具体含义如下。对某个模板汉字中的两个笔段u、v来讲，如果Cu_x和Cv_x具有明确的大小关系，这种关系会影响到字形的正确性，则R_x(u，v)的取值为“L”或“S”。如果Cu_x和Cv_x的大小关系不影响字形的正确性，则R_x(u，v)的取值为“N”。其中，“L”、“S”、“N”分别对应于“大于”、“小于”、“大小关系不影响字形正确性”。

在公式(1)中，R_y(u，v)的具体含义如下。对某个模板汉字中的两个笔段u、v来讲，如果Cu_y和Cv_y具有明确的大小关系，这种关系会影响到字形的正确性，则R_y(u，v)的取值为“L”或“S”。如果Cu_y和Cv_y的大小关系不影响字形的正确性，则R_y(u，v)的取值为“N”。图5显示了模板汉字“他”的笔段位置关系存储效果，该图是将汉字包围盒的左上角作为坐标原点标注的。包围盒是指包围汉字的最小矩形，汉字“他”的包围盒以及坐标系效果如图3C所示。以上只是本发明实施例的一种存储方案。

220、采集手写汉字

本发明实施例的方法支持用户采用各种数字手写交互设备采集手写汉字。数字手写设备采集到的是一系列书写笔画，也就是一次落笔和提笔之间笔迹上的一系列采样点。笔画上采样点的密度依赖于用户的书写速度，所以每个笔画的采样点分布都是不均匀的。图6A显示了手写汉字“年”的采集结果示意图。

230、预处理

具体地，该步骤是对手写汉字进行预处理，包括计算手写汉字的书写信息和结构信息，并剔除冗余的噪声。在一较佳实施例中，预处理工作具体可以包括如下步骤：计算手写汉字中每个笔画中的拐点位置，根据拐点位置将每个笔画分解为一系列的笔段；计算手写汉字的结构信息，即笔段之间的相对位置关系。在手写汉字中，任意两个笔段的相对位置关系包括水平和竖直两种情况，每种情况的取值包括“大于、小于”两种可能。根据两个笔段的中心点在水平方向(x轴)和竖直方向(y轴)上的坐标值确定“大于、小于”的取值。识别并删除汉字书写过程中的冗余信息。冗余信息包括抖笔和描笔。抖笔是由于用户在写字时采用不同的笔锋习惯造成的，它体现为在某个笔画的起始或者末尾产生多余的笔段。描笔是指用户对某个笔画反复描绘的现象。以下为进一步的详细说明：

首先对手写汉字中每个笔画进行均匀的重采样，使得相邻采样点的距离是相同的；然后根据相邻线段之间的夹角计算笔画上的拐点。图6B显示了对手写汉字“年”进行均匀重采样以及计算拐点之后的效果(拐点已经标出)。在计算出拐点后，就可以将手写汉字表示为笔画和笔段的二级索引结构了。

在结构信息方面，对于某一个手写汉字来讲，笔段之间的位置关系是无二义性的。因此，手写汉字中的笔段位置关系只有公式(1)中的“L”和“S”两种情况。

抖笔往往体现为在某个笔画的起始或者末尾产生多余的小笔段，这些冗余噪声需要被删除。在本实施例中可以给定一个第一阈值，如果某个笔画包含不止一个笔段，那么本实施例分别对它的起始笔段和末尾笔段的长度与该第一阈值进行比较，并删除长度小于该第一阈值的笔段，图6C显示了删除抖笔后的效果。

用户书写汉字时可能对某个笔画反复描画，它属于冗余信息，同样需要删除。本发明实施例的删除方法是，将任意两个笔画s和t均匀的重采样为H个点，然后根据公式(2)计算它们的路径距离。如果距离小于某个第二阈值，则删除其中的任意一个笔画。

d_{(s, t)} = \frac{1}{H} Σ_{i = 1}^{H} | P_{s} [i] - P_{t} [i] | - - - (2)

其中，P表示笔画上的采样点。

作为举例，抖笔的阈值(第一阈值)可以为：手写字包围盒边长的1/10到1/13。描笔的阈值(第二阈值)可以为：手写字包围盒边长的1/20到1/25。

240、笔画匹配

笔画匹配步骤在于计算手写汉字和模板汉字的笔画匹配集合。该笔画匹配集合中存储的是手写汉字和模板汉字之间的笔画映射关系，该映射关系是一对一的。

为了找到最优的手写汉字与模板汉字中笔画的一一映射关系，首先需要计算手写汉字中的任意笔画s_i(1＜＝i＜＝N)与模板汉字中的任意笔画t_j(1＜＝j＜＝M)的匹配权重C(s_i，t_j)；然后找到一个最优的匹配集合R＝{(s_i，t_j)|1＜＝i＜＝N，1＜＝j＜＝M}，该集合中的映射是一对一的，并且使得下面的代价函数最小：

Cost＝∑C(s_i，t_j) (3)

其中，(s_i，t_j)∈R，i、j、M、N均为正整数。

在匹配集合R中，(s_i，t_j)表示：笔画s_i和t_j之间产生映射关系，也就是说这两个笔画是对应的，或者说是匹配的。

下面首先说明笔画匹配权重的计算方法。考虑到笔画的空间布局等因素，本发明实施例提供如下的计算方法：

首先，将模板汉字和手写汉字置于同一坐标系下，并缩放到同一参考正方形中。然后，对于手写汉字中的任意笔画s_i和模板字中的任意笔画t_j，按照如下方法计算匹配权重C(s_i，t_j)：

1、对s_i和t_j进行均匀的重采样，使其采样点数量均为H。

2、如果s_i和t_j的首尾采样点方向向量的夹角大于90度，则翻转s_i采样点序列。

3、如果s_i和t_j所包含的笔段数不一致，则认为它们完全不匹配，并返回。

4、根据公式(4)-(6)分别计算s_i和t_j的质心距离

长度差异

包围盒的差异判断它们是否分别小于相应的阈值。如果有任何一项不满足条件，则认为这两个笔画完全不匹配，并返回。

d (C_{s_{i}}, C_{t_{j}}) = \sqrt{{({C_{s_{i}}}^{x} - {C_{t_{j}}}^{x})}^{2} + {({C_{s_{i}}}^{y} - {C_{t_{j}}}^{y})}^{2}} - - - (4)

其中，

和

分别表示两个笔画的质心。

d (L_{s_{i}}, L_{t_{j}}) = | L_{s_{i}} - L_{t_{j}} | - - - (5)

其中，

分别表示两个笔画的路径长度。

d (R_{s_{i}}, R_{t_{j}}) = \max (R_{s_{i}}, R_{t_{j}}) / \min (R_{s_{i}}, R_{t_{j}}) - - - (6)

其中，

和

分别表示两个笔画包围盒的纵横比。

作为举例地，质心距离的阈值可以是汉字包围盒边长的1/5到1/6。长度差异的阈值可以是汉字包围盒边长的1/4到1/5。包围盒差异的阈值可以是3到5。

5、如果s_i和t_j满足上述所有条件，则按照公式(7)计算它们的匹配权重C(s_i，t_j)：

C (s_{i}, t_{j}) = E^{\min_{θ} {d (f (s_{i}, θ), t_{j})}} \times (α \times E^{θ} + β \times E^{d (C_{s_{i}}, C_{t_{j}})} + γ \times E^{d (L_{s_{i}}, L_{t_{j}})}) - - - (7)

其中，f(s_i，θ)表示将笔画s_i旋转θ角度。d(f(s_i，θ)，t_j)表示旋转之后的笔画s′_i和t_j的路径距离。这里需要注意的是，s′_i和t_j的路径距离的计算是在它们的局部坐标系中进行的，而不是在整个汉字的坐标系中。

因此，公式(7)的整体含义是，在s_i和t_j的局部坐标系下，找到一个旋转角度，使得二者的路径距离最小。此时，将它们在局部坐标系中的旋转角度、整字坐标系中的质心距离和长度差异进行加权求和，并作为最终的匹配权重。公式(7)中的α、β、γ分别表示求和的权重。

图7A显示了将手写汉字的某个笔画410和模板汉字的某个笔画420置于同一局部坐标系中的效果。图7B显示了将手写汉字笔画410旋转到最佳角度的效果。

根据上述匹配权重的定义，可以求解公式(3)。目标匹配集合需要满足两个条件：第一是笔画匹配数量最大，第二是公式(3)所表示的代价函数最小。我们认为手写汉字是尽可能接近模板汉字的，所以第一个条件的优先级大于第二个条件。为此，本发明实施例可以采用分支限界法求解公式(3)。

250、笔段匹配

笔段匹配步骤对手写汉字和模板汉字中未匹配的笔段进行匹配计算，得到一个笔段匹配集合。该集合中存储的是手写汉字和模板汉字之间的笔段映射关系，该映射关系是一对一的，并且使某个匹配代价函数(公式3)最小。

如果手写汉字中存在连笔或断笔问题，那么上一步的操作就无法将这些笔画匹配起来。这一步的操作就是为了解决这些问题。我们分别将手写汉字和模板汉字中未匹配的笔画分解为笔段集合U和V，然后对这两个集合进行匹配计算。具体计算方法与上一步类似，同样需要定义匹配权重，并计算最小的代价函数。

这里需要说明的是，本发明实施例没有直接处理笔段，而是采用了笔画和笔段的两步策略。这是因为连笔和断笔是小概率事件，而一个笔画中又往往包含多个笔段。这样，两步策略能够减小问题规模，提高算法效率。

图8A显示了经过上一步的处理后，模板汉字(左边)和手写汉字(右边)的笔画匹配结果，图中匹配的笔画用相同的序号标出。在图8A中，只有一个笔画匹配成功。这是因为，在笔画匹配阶段，需要计算手写汉字中笔画si和模板汉字中笔画tj的匹配权重。在计算匹配权重的时候有一条原则：如果si和tj包含的笔段数不一致，则认为它们完全不匹配。所以在图8A中，手写字左边的“绞丝旁”是连笔写成的，也就是说该笔画包含4个笔段，而在模板汉字中没有包含4个笔段的笔画，所以它无法与模板汉字中的任何笔画匹配。再有，手写汉字中，右边的“工”字也是连笔写成的，也就是说该笔画包含3个笔段，而在模板汉字中没有包含3个笔段的笔画，所以它也无法与模板汉字中的任何笔画匹配。这就最终导致了图8A中只有一个笔画匹配成功。

图8B显示了经过本步骤处理后，模板汉字(左边)和手写汉字(右边)的笔段匹配结果，图中匹配的笔段用相同的序号标出，并以深浅不一的颜色显示各个笔段①-⑧。在图8B中，所有笔段匹配均成功。

260、合法性纠正

合法性纠正步骤是将上述两步中的笔画匹配集合和笔段匹配集合合并为一个集合。根据手写汉字和模板汉字中的结构信息(即笔段之间的相对位置关系)对该集合中的元素(笔段映射关系)进行纠正，最终获得一个结构信息一致的匹配集合。具体过程如下：

首先将上面两步的匹配结果合并，形成一个完整的笔段匹配集合。在这个集合中，模板汉字的结构信息(各个笔段之间的位置关系)不一定与手写汉字的结构信息(相应笔段之间的位置关系)一致。因此，本实施例需要对该集合中的非法元素(结构信息不一致的元素)进行纠正。具体方法如下：

对于集合中的任意两个笔段映射元素(u_i，v_i)和(u_j，v_j)。如果手写汉字中u_i和u_j之间的位置关系与模板汉字中v_i和v_j之间的位置关系满足公式(8)和(9)中的任何一个，则从集合中删除匹配代价较大的元素。

R_x(v_i，v_j)≠N &&(R_x(v_i，v_j)≠R_x(u_i，u_j)) (8)

R_y(v_i，v_j)≠N &&(R_y(v_i，v_j)≠R_y(u_i，u_j)) (9)

经过上述删除操作，得到一个合法的映射集合R_l。接下来，继续在模板汉字和手写汉字的未匹配笔段中找出尽可能多的合法匹配笔段，插入到R_l中。具体方法是，采用步骤240类似的优化算法找到一个最优的笔段匹配集合Ro，并将其插入到集合R_l中。这里需要注意，Ro需满足如下条件：

1.Ro中手写汉字和模板汉字的笔段映射是一对一的；

2.Ro中任意两个元素的笔段位置关系是合法的；

3.Ro中的笔段位置关系不能与R_l产生冲突；

4.在上面三个条件的基础上，Ro中的元素是最多的；

5.在上面四个条件的基础上，Ro中元素的代价之和是最小的。

270、笔段合并

笔段合并步骤为，对模板汉字中的未匹配笔段进行可能的合并；同样的，对测试字中的未匹配笔段进行可能的合并。然后针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算，并将结构信息一致的匹配结果插入到上一步的匹配集合R_l中。具体过程如下：

将手写汉字中的多个未匹配笔段进行合并，方法为：假设为u_i和u_j是手写汉字中的两个未匹配笔段，如果它们能够拟合为一条直线，则将它们合并为一个笔段u_(i，j)；

将模板汉字中的多个未匹配笔段进行合并，方法为：假设为v_i和v_j是模板汉字中的两个未匹配笔段，如果它们能够拟合为一条直线，则将它们合并为一个笔段v_(i，j)。

将手写汉字中的未匹配笔段与已匹配笔段进行合并，方法为：假设匹配集合中存在映射元素(u_j，v_j)，对于手写汉字中的未匹配笔段u_i，如果u_i与u_j满足如下三个条件，则将(u_j，v_j)从匹配集合中删除，将((u_i，u_j)，v_j)插入到匹配集合中；所述的三个条件包括：u_i和u_j中的所有采样点能够拟合为一条直线；合并后的笔段u_(i，j)与v_j更匹配，满足C(u_(i，j)，v_j)＜C(u_j，v_j)；以及，元素((u_i，u_j)，v_j)与匹配集合中其他元素的笔段位置关系一致。

将模板汉字中的未匹配笔段与已匹配笔段进行合并，方法为：假设匹配集合中存在映射元素(u_j，v_j)，对于模板汉字中的未匹配笔段v_i，如果v_i与v_j满足如下三个条件，则将(u_j，v_j)从匹配集合中删除，将(u_j，(v_i，v_j))插入到匹配集合中；所述的三个条件包括：v_i和v_j中的所有采样点能够拟合为一条直线；合并后的笔段v_(i，j)与u_j更匹配，满足C(u_j，v_(i，j))＜C(u_j，v_j)；以及，元素(u_j，(v_i，v_j))与匹配集合中其他元素的笔段位置关系一致。

经过上述笔段合并的操作后，继续在模板汉字和手写汉字的未匹配笔段中找出尽可能多的合法匹配笔段，插入到R_l中。具体方法是，采用步骤240类似的优化算法找到一个最优的笔段匹配集合Ro，并将其插入到集合R_l中。Ro需满足的条件类似于步骤260。

图9A和图9B共同说明了本步骤的计算效果。在这两幅图中，模板汉字(左边)中的最长竖线是一笔完成的，而手写汉字(右边)将其分为了两段。图9A显示了本步骤处理之前的匹配效果，其中相匹配的笔段用相同的序号标出，并用深浅不一的颜色表示各个笔段①至⑤。图9B显示了本步骤处理之后的匹配效果，其中相匹配的笔段用相同的序号标出，并用深浅不一的颜色表示各个笔段。可见，标号为①的笔段是一种一对多的映射关系。

280、错误识别

经过上述处理，获得了一个结构信息一致的、最大数量的笔段匹配集合，也即最终匹配结果。根据这个匹配集合中的映射关系，以及模板汉字和手写汉字的书写信息，就可以识别手写汉字的错误了。

例如：如果模板汉字中存在未匹配的笔段，那么手写汉字中存在缺少该笔段的问题；如果手写汉字中存在未匹配的笔段，那么该笔段属于多笔问题；如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符，那么手写汉字中存在笔顺错误、笔向错误。根据最终匹配结果，如果模板汉字与手写汉字的“笔画-笔段”二级索引结构不同构，那么手写汉字中存在连笔或断笔问题。如果最终匹配结果中存在一对多的映射关系，那么手写汉字中相应的笔段存在连笔或断笔问题。

本发明实施例的上述技术方案带来的有益效果：

本发明实施例采集了大量外国学生的手写汉字，并进行了反复实验。实验表明，无论手写汉字中存在何种书写错误，本方法都能够最大限度的将手写汉字和模板汉字匹配起来。图10显示了模板汉字“爪”与不同手写汉字的匹配结果，其中相匹配的笔段用相同的序号标出，并用深浅不一的颜色表示不同的笔段。图中，第一个字为模板汉字，第二个字为正确手写汉字，第三个字为连笔手写汉字，其笔段①和笔段②连成了一笔，第四和第五个字为多笔手写汉字。根据匹配结果，我们都能识别出它们的错误。

本发明实施例的方法能够发现各种复杂的连笔错误。图11显示了模板汉字(左边)与手写汉字(右边)的匹配结果，其中相匹配的笔段用相同的序号标出，并用深浅不一的颜色表示各个笔段。由图可知，模板汉字有12画，测试字只有7画，本方法的匹配结果能够将各个笔段正确匹配起来，从而识别出连笔的位置。具体地，图11中，模板汉字中有一个笔段510没有匹配，其它笔段①至笔段

均已匹配，说明手写字中缺失该笔段。根据模板子的书写信息(笔画和笔段的二级索引结构)和测试字(手写汉字)的书写信息(笔画和笔段的二级索引结构)可以识别出来：测试字中笔段③和笔段④发生连笔；笔段④和笔段⑤发生连笔；笔段⑥和笔段⑦发生连笔；笔段⑨和笔段⑩发生连笔；笔段

和笔段

发生连笔。

本发明实施例的方法能够处理各种文化背景的学习者所书写的汉字，对各种书写错误都具有较好的识别效果。与不同的数字手写设备相结合，本发明实施例的方法能够应用到不同的场合中。例如，与压感显示器或数字手写板相结合，本方法可以应用于信息化机房中的汉字书写教学，汉字书写考试；与具有手写功能的移动电脑、手机相结合，本方法可以用于无人值守的移动式汉字书写学习。

图12为本发明实施例的一种基于数字手写设备的汉字书写正误自动评测装置的整体功能框图。如图12所示，该装置300包括：

模板汉字建立单元310，用于建立模板汉字，所述模板汉字包括书写信息和结构信息，所述书写信息是包括笔画和笔段的二级索引结构，所述结构信息是各个笔段之间的相对位置关系；

手写汉字采集单元320，用于采集手写汉字；

书写信息和结构信息计算单元330，用于计算所述手写汉字的书写信息和结构信息；

匹配单元340，用于根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息，将所述手写汉字与所述模板汉字进行匹配，以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果；

错误信息识别单元350，用于根据所述匹配结果识别所述手写汉字的错误信息。

可选地，在一实施例中，如图13示出的本发明实施例的书写信息和结构信息计算单元330的具体功能框图，所述书写信息和结构信息计算单元330包括：

均匀重采样模块331，用于对所述手写汉字中每个笔画进行均匀的重采样，使得相邻采样点间的距离相同；

笔画分解模块332，用于计算所述手写汉字中每个笔画中的拐点位置，根据拐点位置将每个笔画分解为多个笔段；

笔段位置关系计算模块333，用于根据任意两个笔段的中心点在水平方向和竖直方向上的坐标值，计算所述任意两个笔段在水平方向和竖直方向上的相对位置关系。

在另一实施例中，如图14示出的本发明实施例的另一种基于数字手写设备的汉字书写正误自动评测装置的功能框图，所述装置300还包括：

冗余信息删除模块360，用于识别并删除所述手写汉字在书写过程中的冗余信息，所述冗余信息包括抖笔和/或描笔。

在一个实施例中，所述冗余信息删除模块360包括：抖笔删除子模块361，用于确定所述手写汉字中包含一个以上笔段的笔画；将所述包含一个以上笔段的笔画的起始笔段和末尾笔段的长度分别与预设的第一阈值进行比较，并删除长度小于所述第二阈值的笔段。

在又一个实施例中，所述冗余信息删除模块360包括：描笔删除子模块362，用于将所述手写汉字中任意两个笔画s和t均匀地重采样为H个采样点；根据关系式

计算所述任意两个笔画s和t之间的路径距离d_(s，t)；如果所述路径距离d_(s，t)小于预设的第二阈值，则删除笔画s和t中的任意一个笔画；其中，P_s[i]为笔画s上的第i个采样点，P_t[i]为笔画t上的第i个采样点，i、H为正整数。

可选地，在一个实施例中，如图15示出的本发明实施例的匹配单元340的具体功能框图，所述匹配单元340包括：

笔画匹配模块341，用于计算手写汉字和模板汉字的笔画匹配集合，所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系，所述笔画映射关系是一对一的，并且使得匹配代价函数最小；

笔段匹配模块342，用于对手写汉字和模板汉字中未匹配的笔段进行匹配计算，获得笔段匹配集合，所述笔段匹配集合包含手写汉字和模板汉字之间的笔段映射关系，所述笔段映射关系是一对一的，并且使得匹配代价函数最小；

合法性纠正模块343，用于将所述笔画匹配集合和所述笔段匹配集合合并为一个集合，根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正，获得一个结构信息一致的匹配集合R_l；其中，所述的结构信息一致是指：对于R_l中的任意两个笔段映射元素(u_i，v_i)和(u_j，v_j)，手写汉字中u_i和u_j的相对位置关系与模板汉字中v_i和v_j的相对位置关系一致；

笔段合并模块344，用于对模板汉字中的未匹配笔段进行合并处理；对手写汉字中的未匹配笔段进行合并处理；针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算，并将结构信息一致的匹配结果R_o插入到所述匹配集合R_l中，获得手写汉字和模板汉字之间最大数量的、结构信息一致的匹配集合。

在一个实施例中，如图16示出的本发明实施例的错误信息识别单元350的具体功能框图，所述错误信息识别单元350包括：

第一错误信息识别模块351，用于如果模板汉字中存在未匹配的笔段，则判定手写汉字中存在缺少所述未匹配的笔段；或者，

第二错误信息识别模块352，用于如果手写汉字中存在未匹配的笔段，则判定所述未匹配的笔段属于多余的笔段；或者，

第三错误信息识别模块353，用于根据所述匹配结果，如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符，则判定手写汉字中存在笔顺错误、笔向错误；或者，

第四错误信息识别模块354，用于根据所述匹配结果，如果模板汉字与手写汉字的“笔画-笔段”二级索引结构不同构，则判定手写汉字中存在连笔或断笔问题；或者，

第五错误信息识别模块355，用于如果所述匹配结果中存在一对多的映射关系，则判定手写汉字中相应的笔段存在连笔或断笔问题。

该装置的工作方法已在前述的方法实施例中详述，故在此不再赘述。

本发明实施例的装置能够处理各种文化背景的学习者所书写的汉字，对各种书写错误都具有较好的识别效果。与不同的数字手写设备相结合，本发明实施例的方法能够应用到不同的场合中。例如，与压感显示器或数字手写板相结合，本方法可以应用于信息化机房中的汉字书写教学，汉字书写考试；与具有手写功能的移动电脑、手机相结合，本方法可以用于无人值守的移动式汉字书写学习。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，或者二者的结合来实施。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件模块或计算机软件产品可以存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。存储介质可以是随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

以上实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种基于数字手写设备的汉字书写正误自动评测方法，其特征在于，所述方法包括：

采集手写汉字；

计算所述手写汉字的书写信息和结构信息；

根据所述匹配结果识别所述手写汉字的错误信息。

2.根据权利要求1所述的方法，其特征在于，所述笔画是汉字书写时不间断地一次连续写成的包含0个或至少一个拐点的线条，所述笔段是不包含拐点的连续平滑的线段。

3.根据权利要求1所述的方法，其特征在于，所述采集手写汉字包括：通过数字手写交互设备采集手写汉字，通过所述数字手写交互设备采集到的信息是所采集汉字的多个笔画，所述多个笔画中的任一个笔画包括落笔和提笔之间笔迹上的多个采样点。

4.根据权利要求1所述的方法，其特征在于，所述计算所述手写汉字的书写信息和结构信息包括：

对所述手写汉字中每个笔画进行均匀的重采样，使得相邻采样点间的距离相同；

计算所述手写汉字中每个笔画中的拐点位置，根据拐点位置将每个笔画分解为多个笔段；

根据任意两个笔段的中心点在水平方向和竖直方向上的坐标值，计算所述任意两个笔段在水平方向和竖直方向上的相对位置关系。

5.根据权利要求1或4所述的方法，其特征在于，在计算所述手写汉字的书写信息和结构信息之后，所述方法还包括：

识别并删除所述手写汉字在书写过程中的冗余信息，所述冗余信息包括抖笔和/或描笔。

6.根据权利要求5所述的方法，其特征在于，识别并删除所述手写汉字在书写过程中抖笔包括：

确定所述手写汉字中包含一个以上笔段的笔画；

将所述包含一个以上笔段的笔画的起始笔段和末尾笔段的长度分别与预设的第一阈值进行比较，并删除长度小于所述第一阈值的笔段。

7.根据权利要求5所述的方法，其特征在于，识别并删除所述手写汉字在书写过程中描笔包括：

将所述手写汉字中任意两个笔画s和t均匀地重采样为H个采样点；

根据关系式

计算所述任意两个笔画s和t之间的路径距离d_(s，t)；

如果所述路径距离d_(s，t)小于预设的第二阈值，则删除笔画s和t中的任意一个笔画；其中，P_s[i]为笔画s上的第i个采样点，P_t[i]为笔画t上的第i个采样点，i、H为正整数。

8.根据权利要求1所述的方法，其特征在于，所述根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息，将所述手写汉字与所述模板汉字进行匹配，以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果包括：

计算手写汉字和模板汉字的笔画匹配集合，所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系，所述笔画映射关系是一对一的，并且使得匹配代价函数最小；

对手写汉字和模板汉字中未匹配的笔段进行匹配计算，获得笔段匹配集合，所述笔段匹配集合包含手写汉字和模板汉字之间的笔段映射关系，所述笔段映射关系是一对一的，并且使得匹配代价函数最小；

将所述笔画匹配集合和所述笔段匹配集合合并为一个集合，根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正，获得一个结构信息一致的匹配集合R_l；其中，所述的结构信息一致是指：对于R_l中的任意两个笔段映射元素(u_i，v_i)和(u_j，v_j)，手写汉字中笔段u_i和u_j的相对位置关系与模板汉字中笔段v_i和v_j的相对位置关系一致；

对模板汉字中的未匹配笔段进行合并处理；对手写汉字中的未匹配笔段进行合并处理；针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算，并将结构信息一致的匹配结果R_o插入到所述匹配集合R_l中，获得手写汉字和模板汉字之间最大数量的、结构信息一致的匹配集合。

9.根据权利要求1所述的方法，其特征在于，所述根据所述匹配结果识别所述手写汉字的错误信息包括：

如果模板汉字中存在未匹配的笔段，则判定手写汉字中存在缺少所述未匹配的笔段；或者，

如果手写汉字中存在未匹配的笔段，则判定所述未匹配的笔段属于多余的笔段；或者，

根据所述匹配结果，如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符，则判定手写汉字中存在笔顺错误、笔向错误；或者，

根据所述匹配结果，如果模板汉字与手写汉字的“笔画-笔段”二级索引结构不同构，则判定手写汉字中存在连笔或断笔问题；或者，

如果所述匹配结果中存在一对多的映射关系，则判定手写汉字中相应的笔段存在连笔或断笔问题。

10.根据权利要求8所述的方法，其特征在于，所述计算手写汉字和模板汉字的笔画匹配集合，所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系，所述笔画映射关系是一对一的，并且使得匹配代价函数最小包括：

计算手写汉字中的任意笔画s_i(1＜＝i＜＝N)与模板汉字中的任意笔画t_j(1＜＝j＜＝M)的匹配权重C(s_i，t_j)；

找到一个匹配集合R＝{(s_i，t_j)|1＜＝i＜＝N，1＜＝j＜＝M}，所述匹配集合R中的映射是一对一的，并且使得代价函数Cost＝∑C(s_i，t_j)最小，其中(s_i，t_j)∈R，且i、j、M、N均为正整数。

11.根据权利要求10所述的方法，其特征在于，所述计算手写汉字中的任意笔画s_i(1＜＝i＜＝N)与模板汉字中的任意笔画t_j(1＜＝j＜＝M)的匹配权重C(s_i，t_j)包括：

对s_i和t_j进行均匀的重采样，使采样点数量均为H；

如果s_i和t_j的首尾采样点方向向量的夹角大于90度，则翻转s_i采样点序列；

如果s_i和t_j所包含的笔段数不一致，则认为s_i和t_j完全不匹配；

分别计算s_i和t_j的质心距离

长度差异包围盒的差异

判断它们是否分别小于相应的阈值，如果有任何一项不满足条件，则认为笔画s_i和t_j完全不匹配；其中，质心距离

长度差异

包围盒的差异

的计算过程是依据如下关系式：

d (C_{s_{i}}, C_{t_{j}}) = \sqrt{{({C_{s_{i}}}^{x} - {C_{t_{j}}}^{x})}^{2} + {({C_{s_{i}}}^{y} - {C_{t_{j}}}^{y})}^{2}},

其中，

和

分别表示笔画s_i和t_j的质心；以及，

其中，分别表示笔画s_i和t_j的路径长度；以及，

其中，

和

分别表示笔画s_i和t_j的包围盒的纵横比；

如果s_i和t_j满足质心距离

长度差异

包围盒的差异

均小于相应的阈值，则计算s_i和t_j的匹配权重C(s_i，t_j)；所述匹配权重C(s_i，t_j)的计算过程是依据如下关系式：

C (s_{i}, t_{j}) = E^{\min_{θ} {d (f (s_{i}, θ), t_{j})}} \times (α \times E^{θ} + β \times E^{d (C_{s_{i}}, C_{t_{j}})} + γ \times E^{d (L_{s_{i}}, L_{t_{j}})})

其中，f(s_i，θ)表示将笔画s_i旋转θ角度，d(f(s_i，θ)，t_j)表示旋转之后的笔画s′_i和t_j的路径距离，α、β、γ分别表示角度差异权重、位置差异权重、长度差异权重。

12.根据权利要求8所述的方法，其特征在于，所述将所述笔画匹配集合和所述笔段匹配集合合并为一个集合，根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正，获得一个结构信息一致的匹配集合R_l包括：

对于合并后集合中的任意两个笔段映射元素(u_i，v_i)和(u_j，v_j)，如果u_i和u_j之间的位置关系与v_i和v_j之间的位置关系不一致，则从集合中删除匹配代价较大的元素；

经过上述删除操作，得到一个结构信息一致的集合R_l；

在模板汉字和手写汉字的未匹配笔段中找出合法匹配笔段，构成笔段匹配集合Ro，并将Ro插入到R_l中。

13.根据权利要求12所述的方法，其特征在于，Ro需满足如下条件：

Ro中手写汉字和模板汉字的笔段映射关系是一对一的；

Ro中任意两个元素的笔段位置关系是一致的；

Ro中的笔段位置关系不与R_l中的笔段位置关系产生冲突；

在前面三个条件基础上，Ro中的元素是最多的；以及，

Ro中元素的代价之和是最小的。

14.根据权利要求8所述的方法，其特征在于，所述对模板汉字中的未匹配笔段进行合并处理包括：将模板汉字中的多个未匹配笔段进行合并处理，和/或，将模板汉字中的未匹配笔段与已匹配笔段进行合并处理；所述对手写汉字中的未匹配笔段进行合并处理包括：将手写汉字中的多个未匹配笔段进行合并处理，和/或，将手写汉字中的未匹配笔段与已匹配笔段进行合并处理；

所述将模板汉字中的多个未匹配笔段进行合并处理包括：假设为v_i和v_j是模板汉字中的两个未匹配笔段，如果它们能够拟合为一条直线，则将它们合并为一个笔段v_(i，j)；

所述将模板汉字中的未匹配笔段与已匹配笔段进行合并处理包括：假设匹配集合中存在映射元素(u_j，v_j)，对于模板汉字中的未匹配笔段v_i，如果v_i与v_j满足如下三个条件，则将(u_j，v_j)从匹配集合中删除，将(u_j，(v_i，v_j))插入到匹配集合中；所述的三个条件包括：v_i和v_j中的所有采样点能够拟合为一条直线；合并后的笔段v_(i，j)与u_j更匹配，满足C(u_j，v_(i，j))＜C(u_j，v_j)；以及，元素(u_j，(v_i，v_j))与匹配集合中其他元素的笔段位置关系一致；

所述将手写汉字中的多个未匹配笔段进行合并处理包括：假设为u_i和u_j是手写汉字中的两个未匹配笔段，如果它们能够拟合为一条直线，则将它们合并为一个笔段u_(i，j)；

所述将手写汉字中的未匹配笔段与已匹配笔段进行合并处理包括：假设匹配集合中存在映射元素(u_j，v_j)，对于手写汉字中的未匹配笔段u_i，如果u_i与u_j满足如下三个条件，则将(u_j，v_j)从匹配集合中删除，将((u_i，u_j)，v_j)插入到匹配集合中；所述的三个条件包括：u_i和u_j中的所有采样点能够拟合为一条直线；合并后的笔段u_(i，j)与v_j更匹配，满足C(u_(i，j)，v_j)＜C(u_j，v_j)；以及，元素((u_i，u_j)，v_j)与匹配集合中其他元素的笔段位置关系一致。

15.一种基于数字手写设备的汉字书写正误自动评测装置，其特征在于，所述装置包括：

手写汉字采集单元，用于采集手写汉字；

16.根据权利要求15所述的装置，其特征在于，所述书写信息和结构信息计算单元包括：

均匀重采样模块，用于对所述手写汉字中每个笔画进行均匀的重采样，使得相邻采样点间的距离相同；

笔画分解模块，用于计算所述手写汉字中每个笔画中的拐点位置，根据拐点位置将每个笔画分解为多个笔段；

笔段位置关系计算模块，用于根据任意两个笔段的中心点在水平方向和竖直方向上的坐标值，计算所述任意两个笔段在水平方向和竖直方向上的相对位置关系。

17.根据权利要求15或16所述的装置，其特征在于，所述装置还包括：

冗余信息删除模块，用于识别并删除所述手写汉字在书写过程中的冗余信息，所述冗余信息包括抖笔和/或描笔。

18.根据权利要求17所述的装置，其特征在于，所述冗余信息删除模块包括：抖笔删除子模块，用于确定所述手写汉字中包含一个以上笔段的笔画；将所述包含一个以上笔段的笔画的起始笔段和末尾笔段的长度分别与预设的第一阈值进行比较，并删除长度小于所述第一阈值的笔段。

19.根据权利要求17所述的装置，其特征在于，所述冗余信息删除模块包括：描笔删除子模块，用于将所述手写汉字中任意两个笔画s和t均匀地重采样为H个采样点；根据关系式

20.根据权利要求15所述的装置，其特征在于，所述匹配单元包括：

笔画匹配模块，用于计算手写汉字和模板汉字的笔画匹配集合，所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系，所述笔画映射关系是一对一的，并且使得匹配代价函数最小；

笔段匹配模块，用于对手写汉字和模板汉字中未匹配的笔段进行匹配计算，获得笔段匹配集合，所述笔段匹配集合包含手写汉字和模板汉字之间的笔段映射关系，所述笔段映射关系是一对一的，并且使得匹配代价函数最小；

合法性纠正模块，用于将所述笔画匹配集合和所述笔段匹配集合合并为一个集合，根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正，获得一个结构信息一致的匹配集合R_l；其中，所述的结构信息一致是指：对于R_l中的任意两个笔段映射元素(u_i，v_i)和(u_j，v_j)，手写汉字中u_i和u_j的相对位置关系与模板汉字中v_i和v_j的相对位置关系一致；

笔段合并模块，用于对模板汉字中的未匹配笔段进行合并处理；对手写汉字中的未匹配笔段进行合并处理；针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算，并将结构信息一致的匹配结果R_o插入到所述匹配集合R_l中，获得手写汉字和模板汉字之间最大数量的、结构信息一致的匹配集合。

21.根据权利要求15所述的装置，其特征在于，所述错误信息识别单元包括：

第一错误信息识别模块，用于如果模板汉字中存在未匹配的笔段，则判定手写汉字中存在缺少所述未匹配的笔段；或者，

第二错误信息识别模块，用于如果手写汉字中存在未匹配的笔段，则判定所述未匹配的笔段属于多余的笔段；或者，

第三错误信息识别模块，用于根据所述匹配结果，如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符，则判定手写汉字中存在笔顺错误、笔向错误；或者，

第四错误信息识别模块，用于根据所述匹配结果，如果模板汉字与手写汉字的“笔画-笔段”二级索引结构不同构，则判定手写汉字中存在连笔或断笔问题；或者，

第五错误信息识别模块，用于如果所述匹配结果中存在一对多的映射关系，则判定手写汉字中相应的笔段存在连笔或断笔问题。