CN101627398A

CN101627398A - 用于手写东亚字符的基于偏旁的hmm建模

Info

Publication number: CN101627398A
Application number: CN200880007303A
Authority: CN
Inventors: S·韩; Y·邹; M·张; P·刘; Y-J·吴; L·马; F·宋; D·张; J·王
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2007-03-06
Filing date: 2008-03-05
Publication date: 2010-01-13
Anticipated expiration: 2028-03-05
Also published as: TWI437448B; TW200844771A; WO2008109714A1; US7903877B2; US20080219556A1; CN101627398B

Abstract

描述了用于开发、训练和/或使用用于字符的在线手写识别的模型的示例性方法、系统和计算机可读介质。用于构建可训练的基于偏旁的HMM以用于字符识别的示例性方法包括定义偏旁节点以及定义连接节点，其中偏旁节点表示字符的结构元素，连接节点表示两个或多个偏旁之间的空间关系。这种方法可以包括使用子序列方向直方图向量(SDHV)聚类来确定基于偏旁的HMM中路径数，以及使用基于曲率尺度空间(CSS)的转角方向来确定基于偏旁的HMM中的状态数。

Description

用于手写东亚字符的基于偏旁的HMM建模

背景

包括数千个字符的东亚(EA)书面语(例如汉语、日语、韩语等)是非常复杂的。例如，汉语书面语可以包括超过20000到50000个单个字符以及10,000个常用字符。

这个巨大且复杂的字符集使得通过典型的键盘来将字符输入到计算机或电子设备中非常缓慢且麻烦。虽然在字符集键盘上难以输入东亚字符，但是该问题转当移到通常配备有较少键的输入机构的手持式设备时加剧。例如，个人数字助理通常仅使用八个键来输入信息。结果，试图在个人数字助理上用几个按键来输入10000-20000个汉字会是非常耗时且困难的。

一种用于将字符输入到计算设备中的实际方式是通过结合基于图形输入板的个人计算设备来使用指示笔或电子笔。这种输入方法被称为在线手写识别。因此，该方法可用于输入东亚字符，但是可能在过程中面临问题。

有了在线手写识别，在识别在线东亚手写时出现了诸如缺乏速度、准确度、不同的书写风格以及不同的书写次序等问题。隐马尔可夫模型(HMM)已经被应用到在线手写识别上。HMM可以自动地从训练模式中提取知识，并具有对临时信息建模的能力。通过使用HMM的固有特征来进行在线手写识别，可以对EA字符的基础(underlining)结构建模并且可以根据时间来对顺序信息建模。例如，在线手写识别是供输入到计算机的时间顺序数据的主流。因此，HMM可以对东亚字符手写数据的可变性和时间信息建模。

概述

此处描述了开发、训练和使用用于东亚字符的在线手写识别的HMM的各种示例性方法、计算机程序产品和系统。一种示例性方法使用偏旁和连接来确定对每一个东亚字符的表示。EA字符的这一表示定义了使用哪些特定偏旁和连接来构建任何特定EA字符。

一方面，本发明描述了使用偏旁和连接的对每一个东亚字符的表示以便使用基于偏旁的HMM建模方法来对东亚字符建模。一种示例性基于偏旁的HMM是根据用于路径和/或状态确定的一种或多种算法来开发的多路径拓扑结构。对于给定的东亚字符，基于偏旁的HMM包括拼接的偏旁HMM和连接HMM。在适当的训练之后，基于偏旁的HMM可以提供在线手写东亚字符。

另一方面，用于识别东亚字符的在线手写的系统包括输入、处理器、存储器和输出。输入可用于接收所有东亚字符的墨水数据，存储器存储处理系统指令，处理器分析笔迹数据以便进行在线手写识别，而输出可以显示经识别的东亚字符或采取其它适当的动作。虽然上述系统涉及使用基于偏旁的HMM，但是示例性系统可以包括用于例如通过实现此处所描述的各种示例性算法(例如，收敛度量算法、SDHV聚类算法、CSS算法等)来开发基于偏旁的HMM的各种特征。这些技术可以协助基于偏旁的HMM的开发(包括细化)和训练。

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图简述

参考附图阐述详细描述。参考附图描述了教导。附图标记的最左边的数字标识首先出现该附图标记的附图。在不同的附图中使用相同的附图标记指示相似或相同的项目。

图1是依照一个实施例的具有笔画指示和笔画次序的东亚(EA)字符的图示。

图2是依照一个实施例的用于用在一个或多个计算设备上实现的概率模型来识别字符的技术的图示，该概率模型可以是基于偏旁的隐马尔可夫模型。

图3是依照一个实施例的用于字符识别的示例性技术的图示。

图4是依照一个实施例的用于对东亚字符建模的示例性方法的流程图。

图5是依照一个实施例的用于开发和训练基于偏旁的HMM的示例性过程的流程图。

图6是依照一个实施例的用于使用偏旁和连接来表示东亚字符的示例性过程的框图。

图7是依照一实施例的由偏旁节点和连接节点来表示的示例性拓扑结构的示意图。

图8是依照一个实施例的包括持续状态和转折状态的示例性状态序列的示意图。

图9是依照一个实施例的用于开发、训练或实现示例性基于偏旁的HMM的的示例性通用操作环境的示意图。

详细描述

概览

更高效的字符识别系统对于各种应用程序，尤其对于东亚(AE)字符(例如汉语、日语、韩语等)的识别会是有用的。此处描述了用于提高字符识别的效率的示例性方法，并且该方法包括使用基于偏旁的HMM来对东亚字符建模以及用训练数据来训练基于偏旁的HMM。

如此处所描述的，示例性字符识别系统可以使用算法来确定可表示EA字符集的最优偏旁集。

如此处所描述的，对东亚字符建模包括使用偏旁和连接确定每一个东亚字符的表示。在HMM拓扑结构设计算法中可使用偏旁和连接以便更好地对东亚字符的在线手写识别建模。如下文中更详细描述的，东亚字符的HMM可以从拼接的偏旁HMM和连接HMM中形成。更具体地，示例性HMM可以包括偏旁节点和连接节点，其中连接节点涉及两个或多个偏旁之间的关系。因此，字符的可见线可由偏旁节点来表示，而线之间的关系可由连接节点来表示。

训练示例性基于偏旁的HMM包括提供初始HMM以及使用该初始HMM来自动地将东亚字符的墨水数据拆分成偏旁墨水数据和连接墨水数据。给定偏旁墨水数据和连接墨水数据，训练可以使用偏旁墨水数据来训练偏旁HMM并且使用连接墨水数据来训练连接HMM。一旦生成了经训练的偏旁HMM和经训练的连接HMM，训练方法可以将偏旁HMM和连接HMM收集在一起以构建基于偏旁的HMM。对所得的基于偏旁的HMM的附加训练可以通过使用基于偏旁的HMM来拆分东亚字符的墨水数据并迭代地细化基于偏旁的HMM来进行。

另一方面，示例性基于偏旁的HMM可以通过可持续状态和转折状态的序列来对每一个偏旁和每一个连接建模。转折状态用于对转折的可变性建模，而持续状态用于对子笔画的可变性建模。

EA字符的笔画和笔画次序

图1示出了具有笔画指示100和笔画次序110的东亚(EA)字符的图示。从1到6标记了各个笔画的各个端点。在绘制该字符时，一个人可能形成转角或制造虚构笔画。EA字符的最简单的基本元素是笔画集，因为所有EA字符都由笔画组成。然而，笔画通常太简单以至于无法形成对于EA字符的稳定的识别模型。

另一种元素被称为偏旁，其是通常由若干笔画组成的稳定结构单元。EA字符是最复杂的偏旁类型，而简单的单个笔画是最基本的偏旁类型。从语言和字符识别两者的观点来看，使用该范围的复杂和基本端之间的某一类型的偏旁的方法比只使用基本笔画的方法更加有效。然而，存在可完整地表示整个EA字符集的众多偏旁集。最简单的偏旁集是基本笔画集，其具有最小模型大小但具有最差的描述精度。相反，最复杂的偏旁集是整个字符集，其具有最佳描述精度但也具有最大模型大小。适当的偏旁集应平衡模型大小和描述精度。

此处描述了使用偏旁和连接信息的用于EA字符识别的示例性模型。连接信息涉及偏旁之间的空间关系(即，关于一偏旁如何相对于另一偏旁来定位的信息)。由于偏旁可以假设相对于一个或多个其他偏旁的不同的位置关系，因此这一连接信息对于改进字符识别(例如，提高的速度、准确度、改进的模型大小等)是有价值的。

用于EA字符识别的示例性HMM模型包括偏旁HMM和连接HMM两者。例如，对于每一个EA字符，示例性HMM可以包括拼接的偏旁HMM和连接HMM。

用于选择偏旁集的技术在2007年2月28日提交的标题为“Radical SetDetermination for HMM Based East Asian Character Recognition”(用于基于HMM的东亚字符识别的偏旁集确定)、代理案卷号为MS1-3437US的共同待审的美国专利申请序列号11/680,566中公开，该专利申请结合于此。具体地，上述申请公开了用于偏旁集选择的两种方法，被称为：(i)渐进拆分图(PSG)技术和(ii)通用性/复杂性(G/C)技术。一般地，示例性字符识别系统将总会使用一种或另一种技术来确定可以表示EA字符集的最优偏旁集。

用于字符识别的技术

图2示出了用于使用概率模型来识别字符的通用技术200以及可实现这一技术的全部或部分的计算设备的某些示例。该通用技术包括选择概率模型(例如，贝叶斯模型、HMM或其他类型的概率模型)210、使用数据来训练该模型220以及实现经训练的模型230。训练数据可以是来自已经绘制各种字符的个人，或者该训练数据可以是基于常用于绘制各种字符的规则来生成的数据。

图2示出了计算设备201和205，它们可分别是膝上型计算机和手持式计算机。计算设备201包括显示器202、键盘203和鼠标204。计算设备205包括显示器206、用户输入功能部件207和指示笔208。在任一示例中，用户可绘制EA字符并且所实现的经训练的模型230可将该绘制(例如，笔画)识别为特定EA字符。进而，该计算设备可采取各种动作(例如，听觉响应、字符选择和显示响应等)中的任一种。如此处所描述的，示例性基于偏旁的HMM可以是如框210中的概率模型，并且分别可如在框220和230中训练和/或实现。以下讨论了用于训练的示例性技术的细节。

用于字符识别的示例性技术

图3示出了使用基于偏旁的HMM来进行字符识别的示例性技术300的近似图示，该基于偏旁的HMM包括拼接字符的偏旁HMM和字符的连接HMM。如已经参考图1所提及的，一个人可以绘制字符“C2”，其中该字符的“墨水数据”由字符识别系统接收。虽然这个人知道他或她绘制了字符“C2”，但是出于一个或多个后续动作的目的，通常需要某种类型的基于机器的字符识别。为了实现该识别，在某种概率程度上，EA字符集的示例性基于偏旁的HMM 320接收C2的墨水数据。

基于偏旁的HMM 320包括对于感兴趣的EA字符集中的每一个字符的经训练的HMM。在图3中，这些HMM是拼接字符的偏旁HMM和字符的连接HMM，如框C₁、C₂，...，C_N所示。如图3的示例中所示，基于偏旁的HMM 320将由用户提供的整个字符墨水数据与每一个字符的HMM进行匹配以计算分数。分数框330指示对应的偏旁HMM和连接HMM的一系列分数，其中最高的分数被选作对应于用户的整个字符墨水数据的EA字符(例如，S2)。

如所描述的，对于包括偏旁HMM和连接HMM的基于偏旁的HMM而言，分数可以是对应的偏旁HMM和连接HMM的分数之和。因此，EA字符由多个偏旁和这些偏旁中的至少两个之间的连接组成。

因此，依照图3的示例，用于字符识别的示例性方法(例如，至少部分地由计算设备实现)可以包括接收字符的墨水数据以及使用基于字符的隐马尔可夫模型(HMM)来将字符识别为与所接收到的墨水数据相关联，其中该基于偏旁的HMM包括偏旁节点(其中偏旁节点表示字符的结构元素)和连接节点(其中连接节点表示两个或多个偏旁之间的空间关系)。在这一方法中，基于偏旁的HMM可以包括多路径拓扑结构，其中该多路径拓扑结构中的至少某些路径遍历一个或多个偏旁节点以及一个或多个连接节点。一般地，这一基于偏旁的HMM是有限状态机，该有限状态机可以包括持续状态和/或转折状态，其中持续状态表示在形成字符时的笔画形成动作，而转折状态表示在形成字符时的转折动作(参见例如，以下进一步的描述)。上述的示例性方法可以包括表示上下文偏旁集中的偏旁的偏旁节点，其中该上下文偏旁集解释偏旁相对于字符的形状变化(参见例如，以下进一步的描述)。

对东亚字符建模

图4是用于对东亚字符建模的示例性过程的流程图。如此处所描述的，偏旁可用于对多个东亚字符建模，这会导致较少的存储空间，因为仅需要偏旁的一个参数副本。例如，大约1,000个偏旁的集合可以对20,000个EA字符建模。因此，基于偏旁的HMM可以用于使用公共偏旁集来识别整个EA字符集。有了公共偏旁集，仅需要在数据库、存储、存储器等中保存每一个偏旁的一个副本。此外，基于偏旁的方法可以提供可扩展性。例如，可以通过使用现有偏旁来构造新字符，或者可以将新偏旁添加到公共集合中。另外，在使用基于偏旁的方法的情况下，与在字符层相比在偏旁层存在较少的书写次序问题，这可以减少单个多路径HMM中所需的路径数量。

如已经提及的，示例性基于偏旁的HMM使用偏旁和偏旁之间的连接。更具体地，基于偏旁的HMM使用拼接偏旁HMM(偏旁作为节点)以及连接HMM(连接作为节点)来形成用于东亚字符识别的多路径HMM。

对东亚字符的建模从判定框402开始，使用偏旁和连接确定每一个东亚字符的表示方案。为所有感兴趣的东亚字符(例如为所选东亚字符集)确定偏旁集和连接集。本质上，依照方法400，东亚字符由各种技术中的任一种来分析以便被表示为偏旁和偏旁之间的连接。如此处所描述的，为了形成字符识别模型，HMM方法使用表示偏旁的节点和表示连接的节点。

设计框404示出了对表示方案的偏旁和连接的建模如何使用HMM拓扑结构设计算法。使用系统性和数据驱动的算法来开发该拓扑结构以便更好地对东亚字符的在线手写建模，从而得到更准确且更可靠的字符识别系统。

示例性系统性多路径拓扑结构设计算法包括(i)基于子序列方向直方图向量(SDHV)的聚类，其用于确定最优路径数；(ii)基于曲率尺度空间(CSS)的子笔画分割，其用于为每一条路径确定最优状态数；和/或(iii)状态连接设计，其用于解决真实笔画和虚构笔画连接的不确定性。这三种技术(i、ii和iii)可以提供优化的基于偏旁的HMM拓扑结构。示例性设计算法可应用这三种技术中的一种或多种以提供优化的HMM拓扑结构。

如此处所描述的，示例性基于偏旁的HMM是有限状态机，其中路径(以及因此状态索引)以从左到右的次序前进(即，从左到右的HMM)。示例性数据驱动方法确定HMM中的路径数。这产生多路径的总体HMM拓扑结构，其中每一条经训练的路径表示东亚字符的主要书写模式，诸如一种书写笔画次序或一种书写风格。

如先前参考图3所解释的，拼接框406提供了在基于偏旁的HMM中偏旁HMM和连接HMM的适当的拼接。为了对偏旁的不同书写次序和各种书写风格建模，基于偏旁的多路径HMM可以解释相同字符的不同书写次序和风格以便进行在线手写字符识别。

在方法400中，训练框410提供了对基于偏旁HMM的训练。用于EA字符识别的经训练的、基于偏旁的HMM包括对于感兴趣的EA字符集中的每一个字符的经训练的偏旁HMM和经训练的连接HMM。下文中描述了示例性训练技术。

基于偏旁的HMM的开发和训练

此处所讨论的技术涉及用于手写EA字符的在线识别的基于偏旁的HMM。虽然已参考图4的方法400讨论了一般设计考虑事项，但更具体地，设计可以被表示为拓扑结构τ，其可以被分解成三个问题：τ＝τ_Pοτ_P，Sοτ_P，S，G

在上述公式中，P＝{P_i}是路径集，且P_i单个从左到右的路径，S_p是状态集，而R_Sp和G_Sp分别表示状态连接和高斯混合模型。一旦确定了P、S_P、R_Sp和G_Sp，就完整地确定了HMM拓扑结构。

各种数据驱动的算法可以帮助开发和/和训练这一HMM。例如，算法可充分利用训练数据(例如，墨水数据)，通过使用例如基于子序列方向直方图向量(SDHV)的技术来确定HMM中的路径数。算法也可以经由基于曲率尺度空间(CSS)的转角方向(参见例如，图1中的转角)来确定各条HMM路径上的状态数。另外，可以使用自轮转受限转角状态(也被称为转折状态)来增强状态对准。一般地，这种技术可用于为EA字符集构造大小高效且可扩展的基于偏旁的HMM，并且在训练时实现高识别准确度。

开发和/或训练示例性基于偏旁的HMM可包括使用一种或多种数据驱动算法来(i)确定HMM路径数(例如，被公式化为聚类问题并且使用迭代路径拆分和基于SDHV的聚类来解)，(ii)计算最优状态数和初始状态参数(例如，使用基于CSS的子笔画分割)，和/或(iii)确定状态连接和高斯混合数以便实现更好的状态对准(例如，使用自轮转受限转角状态和虚构笔画状态)。

图5是用于示例性基于偏旁的HMM的开发和训练过程的流程图。如已经参考图2所提及的，在使用之前，概率模型需要使用训练数据来训练。一般地，训练是借此为模型的参数确定值的迭代过程。更具体地，训练寻求优化这些值以使得所得的经训练的模型能够以高准确度来使用。

由于找出HMM的众多参数的准确值的问题(例如，使得参数适合训练数据)通常不服从任何确切的解决技术，因此已开发了多种迭代解算机或解决技术。一般地，迭代技术需要对未经训练的基于偏旁的HMM的参数值的某种初始估计或猜测。

训练依赖数据并且通常期望高质量数据。换而言之，无论是在范围还是在量上受限的较差的数据通常导致使用或准确度受限的经训练的模型。在某些情况下，数据可能需要在训练之前或作为训练的一部分来处理。如所述的，示例性方法以解释要训练的模型的特性的方式来处理训练数据。

在讨论某些细节之前，一般地，可以使用初始或粗略HMM(如框506所示)来将墨水数据拆分成偏旁数据和连接数据，如由偏旁数据框514和连接数据框516所示。在使用初始(或粗略)HMM的情况下，HMM解码器(例如基于维特比(Viterbi)算法的解码器)可以将墨水框与HMM状态对准。在将墨水框与状态对准后，知道偏旁并因此连接边界。有了这一边界信息，可将字符墨水数据拆分成偏旁数据514和连接数据516。

如以下更详细讨论的，基于偏旁的HMM具有相关联的拓扑结构。对于迭代训练过程(如框540所示)，在每一次迭代中，拓扑结构不在应用拓扑结构设计算法之后改变。示例性HMM的拓扑结构由墨水数据和设计算法来确定，因此拓扑结构在不同的迭代之间可能有所不同。

如在图5中所示，示例性方法500开始于提供框502，在那里提供例如参考图4讨论的未经训练的基于偏旁的HMM(例如，它包括其中偏旁是HMM的节点的偏旁HMM)。在开始训练之前，评估字符可以由特定偏旁和特定连接来表示的方式。可使用某些手动标记工作来获取这种类型的信息，或者如已提及的，可使用用于选择偏旁集的各种技术。如已描述的，一旦已选择了偏旁集，就可以通过观察或其他技术来理解对于偏旁的特定连接(例如，在逐个字符的基础上)。

数据和路径的自动生成：路径拆分算法

开发和训练方法500在初始化框506中继续，框506包括初始化或提供基于偏旁的HMM。如此处所描述的，初始化步骤包括数据的偏旁标记，这可以通过在墨水数据的对准边界处切割墨水数据以获取偏旁来自动生成。偏旁数据的自动生成有赖于由设计良好的HMM拓扑结构提供的准确对准，然而在偏旁数据的自动生成中出现循环依赖性，其中该自动生成有赖于要训练的底层模型。为了打破该循环依赖性，使用迭代路径拆分算法。

路径拆分算法通过用单个路径(例如，n＝1)初始化HMM来开始。该算法考虑现有路径数“n”(表示路径P₁、P₂，...，P_n)并为这些路径中的每一条计算收敛度量值(表示为收敛度量C(P₁)、C(P₂)，...，C(P_n))。该算法然后选择具有最大收敛度量值的路径P_j。当然，这一算法需要定义被称为C(P)的适当的收敛度量。注意，可以使用各个收敛度量中的任一个，如此处所讨论的，示例性收敛度量解释轮转和转换。例如，示例性收敛度量可如下定义：

C (P) = \frac{\underset{s &Subset; P}{Σ} {Cov}_{s} \cdot (1 + \frac{{Rotate}_{s}}{{Trans}_{s}})}{\underset{s &Subset; P}{Σ} (1 + \frac{{Rotate}_{s}}{{Trans}_{s}})}

对于该收敛度量，Cov_s是状态s的协方差，而Rotate_s和Trans_s分别是自轮转概率和离开转换概率。由于基于路径P_i上每一个墨水框的协方差期望值，因此可以直观地考虑示例性收敛度量。

给定C(P_j)，算法如下应用收敛阈值T：如果C(P_j)＜T，则停止路径拆分。当满足该条件时，该算法克隆P_j并添加噪声以构造新路径。该过程继续用例如n+1条路径来训练基于偏旁的HMM，直至无法提高识别准确度或其他准则。

尽管对于每一个偏旁的训练数据以及HMM使用上述算法来获取，但是所得HMM由于两个原因而仍未优化：(i)在这当口，路径数通常很大；以及(ii)不同书写次序和风格的某些偏旁样本仍可由相同的路径来建模。因此，发生路径数减少到例如对于准确的偏旁对准足够的数量。为了减少路径数，使用另一数据驱动的算法来确定路径数。

路径数确定：SDHV聚类

初始化框506包括由粗略基于偏旁的HMM来自动地将墨水数据拆分成偏旁墨水数据(偏旁数据514)和连接墨水数据(连接数据516)。该墨水数据拆分提供用于细化和训练偏旁HMM和连接HMM的墨水数据，并解决了非常昂贵且是劳动密集型的从整个字符数据中手动标记对于偏旁和连接的墨水数据的问题。然而，上述自动生成技术通常产生不规则的路径数。因此，示例性方法使用聚类算法将墨水数据聚合成“m”个聚类，且“m”是最优HMM路径数。因此，目标是选择很好地表示相同偏旁的形状和时间信息两者的特征以便基于书写风格和次序来实现最优聚类。如此处所描述的，可使用被称为子序列方向直方图向量(SDHV)的统计特征来实现该目标。

该SDHV方法可使用经排序的SDH列表来描述偏旁墨水样本的书写次序和风格，其中样本的所有笔画可统一地被分割成“M”个子序列。这“M”个子序列的SDH的时间拼接得出维数为M*N的子序列方向直方图向量(SDHV)。该SDHV可以用离散帽函数

(例如，高斯函数)来卷积(convolute)以使其对于分隔时的移位更为稳健：

SDHV＝(SDH₁，SDH₂，...，SDH_M)

可以此方式确定适当的路径数。

状态设计：曲率尺度空间(CSS)

初始化的另一方面是状态设计。状态设计包括两个任务：(i)确定每一条路径中状态数；以及(ii)状态的初始参数值。一般地，应该设置用于模型训练的适当的初始值以便避免陷入较差的局部最小值(例如，这将提供准确度小于与全局最小值相关联的值的所提供的准确度的局部“最佳状态”)。基于偏旁的HMM的另一个任务是设计状态连接并确定混合数以便经由使用EA字符的结果特性来实现墨水框和状态之间的准确对准。

对于每一条HMM状态路径的状态数的判定，可以使用数据驱动方法。具体地，可以使用由SDHV聚类算法生成的同一聚类中的偏旁样本数据。

例如，每一个偏旁墨水样本在连续的墨水笔画与虚构笔画连接后提供笔尖轨迹的曲线。该曲线由由高曲率转角点分割的低曲率子笔画组成。状态数是子笔画和转角的数量之和。因为子比划和转角交替地出现，所以状态数N_状态是2*N_子笔画-1。可使用曲率尺度空间(CSS)中的稳健的粗略到精细的算法来进行转角点检测。因为同一聚类中的偏旁墨水样本具有相同的书写次序和相似的书写风格，所以在每一个笔尖曲线上检测到的子笔画数应该具有较小的变化。可使用投票机制来获取具有大多数选票的状态数。然后可以使用为大多数选票作出贡献的墨水样本来确定状态的初始参数值。

状态连接设计：转折状态

对于状态连接设计，子笔画状态对同一子笔画中的若干墨水框建模，使其自轮转并且转换到后续转折状态。另一方面，转折状态不能自轮转。因此，两个连续的子笔画的墨水框仅由与转折状态对准的墨水框来在最合适的位置分隔。自轮转受限转折状态是结构特性以及虚构笔画，注意，后者与真实墨水笔画不同之处在于它没有墨水样本点，而虚构笔划始终被假设为直的。虚构墨水框应该永远不与真实子笔划状态对准。实际笔划框可以在流畅和草书手写时与虚构子笔划状态对准。为了利用这些特征来实现更好的对准，模型可以使用混合数为2的高斯混合模型(GMM)来解释虚构笔画以区分真实和虚构的子笔画墨水框。

训练基于偏旁的HMM

给定偏旁数据514和连接数据516，可以开始对偏旁HMM的训练和对连接HMM的训练。如框518、520所示，训练用其对应的墨水数据来训练偏旁HMM和连接HMM以产生经训练的偏旁HMM 522和经训练的连接HMM 524。在第一轮训练之后，收集框530收集经训练的偏旁HMM 522和经训练的连接HMM 524以构建细化的基于偏旁的HMM。

一般而言，该细化的基于偏旁的HMM可用于后续迭代，如细化框540所示，在那里细化的基于偏旁的HMM进一步训练基于偏旁的HMM。更具体地，该训练过程可使用更细化的HMM模型，通过重新炒粉墨水数据来获取更好的偏旁数据。由此，该训练过程可迭代地前进以细化模型并由此提高字符识别准确度。一旦实现特定准确度水平，在特定迭代数之后或者在满足差错或其他准则时，就可以终止迭代过程。一旦已训练并细化模型，基于偏旁的HMM就准备好在用于EA字符的在线手写识别的系统中使用。

依照图5的示例，用于训练用于字符识别的基于偏旁的HMM的示例性方法(例如，至少部分第由计算设备实现)可以包括提供包括偏旁节点和连接节点的初始基于偏旁的HMM，使用初始基于偏旁的HMM将字符墨水数据拆分成偏旁数据和连接数据，用偏旁数据来训练偏旁HMM并且用连接数据来训练连接HMM，以及通过拼接经训练的偏旁HMM和经训练的连接HMM来生成经训练的基于偏旁的HMM。在这一方法中，生成过程可以包括例如使用子序列方向直方图向量(SDHV)聚类来确定经训练的基于偏旁的HMM的路径数和/或生成过程可以包括例如使用基于曲率尺度空间(CSS)的转角检测来确定基于偏旁的HMM的状态数。训练可以使用字符墨水数据来迭代地进行。例如，方法可以包括使用可能未完全训练或细化的来自中间迭代的经训练的基于偏旁的HMM来将字符墨水数据拆分成偏旁数据和连接数据。以此方式，更细化的经训练的基于偏旁的HMM可使用用来自较早迭代的经训练的基于偏旁的HMM来拆分的偏旁数据和连接数据来生成。

对于初始基于偏旁的HMM，用于生成初始基于偏旁的HMM的示例性方法可包括选择字符集，提供可以表示字符的偏旁集，提供表示该偏旁集中的两个或多个偏旁之间的关系的连接类型，以及通过使用应用收敛度量的路径拆分算法来构造通过表示偏旁的节点和表示连接类型的节点的路径来生成初始的基于偏旁的HMM。这一方法可以使用取决于自轮转概率和离开转换概率的收敛度量。

被配置成执行字符识别的示例性系统包括处理器、用于接收字符信息的输入以及控制逻辑(例如，至少部分地由该处理器实现)，该控制逻辑用于使用基于偏旁的隐马尔可夫模型(HMM)来将字符识别为与所接收到的字符信息相关联并且执行与字符识别相关的一个或多个动作(例如，到存储器的存储、听觉信号、视觉显示等)，其中该基于偏旁的HMM包括偏旁节点和连接节点。

对东亚字符的偏旁表示的过程

图6是用于用偏旁和连接来表示EA字符的示例性过程600的流程图。框602示出依照一个或多个准则来设计偏旁集以使得这些偏旁能够表示东亚字符集并且能够在一个或多个大小高效的模型中使用。所设计或所选的偏旁集此处被标识为“公共偏旁集”。这通过标识用于表示东亚字符的公共偏旁集(或扩展的上下文偏旁集)和连接而是可能的。这一过程可以将具有不同形状的偏旁中的子笔画长度标识为形状变化的(shape-variant)。如此处所描述的，示例性模型包括使用形状不同的偏旁，其中这些偏旁包括扩展的上下文偏旁集。之后在对图7的描述中更多地讨论这些偏旁。

用偏旁来表示EA字符通常导致比EA语言中的EA字符数目少得多的偏旁数。给定成员比其对应的EA字符集少的偏旁集，需要较少的偏旁来执行动作，然而可以改进字符识别系统的可扩展性、准确度等。此外，在较少的表示数量的情况下，可以在得到更细化且准确的模型的同时减少对偏旁建模和训练所需的步骤数。

在框604，用选自公共偏旁集的某些公共偏旁来描述每一个东亚字符。然后将为给定字符选择的偏旁标识为该字符的“代表性偏旁”。

由于示例性基于偏旁的HMM依赖偏旁和连接两者，因此给定用于表示字符的偏旁集，必须定义提供对如何组织两个或多个偏旁以表示字符的理解的连接。如此处所描述的，可以集成并且在统计上分析偏旁和连接以表示东亚字符。

在框606，在两个或多个公共偏旁之间定义连接类型。如上所述，连接主要涉及偏旁之间的空间关系。偏旁可以假设彼此之间不同的位置关系，诸如在另一偏旁之上、之下或与之相邻。将参考图7更详细地讨论这些关系和对应的连接。

给定框604的偏旁和框606的连接，形成框608形成偏旁和连接之间的适当关联，从而理解某些偏旁与一个或多个其他偏旁可能没有关系，并因此不与特定连接相关联。更具体地，形成框608旨在为每一个东亚字符从公共偏旁集中选择偏旁并选择用于在两个或多个偏旁之间建立关系的连接类型。

存储框610之后存储连接和公共偏旁之间的关联。这一存储的关联信息可按需检索。方法600可以被认为为EA字符集中的每一个EA字符提供偏旁结构。这种表示字符的方式可以被输出到可由训练过程或其他过程使用的字典。

用于表示东亚字符的偏旁和连接

如全文中所提到的，基于偏旁的HMM包括串接偏旁HMM和连接HMM。虽然可以在数学上描述这一HMM，但是图7将示例性基于偏旁的HMM置于图形上下文中。的确，某些人认为HMM是用于对顺序数据建模的图形模型。图7是用于在基于偏旁的HMM中表示东亚字符的示例性偏旁和连接700的框图。同样，单独的偏旁可被认为是一个或多个HMM的“节点”，而单独的连接可被认为是是一个或多个HMM的“节点”。一般而言，对于HMM，节点表示状态并且可被称为“状态节点”。HMM的参数包括状态到状态转换的概率。同样，这些概率的值通常通过依赖“真实世界”数据的训练来获取，该训练用于提供可以在给定某一输入数据的情况下预测可能的结果的经训练模型。如此处所描述的，输入数据通常是整个字符墨水数据，而可能的结果是对应于该输入墨水数据的字符，即，字符识别。由于示例性的基于偏旁的HMM是多路径的，因此这提供了其中不同的墨水数据(输入)可以产生相同的字符(输出)的灵活性，例如其中，字符可带有某种程度的可变性来绘制。

如参考图7所描述的，表意字符可以被分解成四种基本偏旁类别。例如，示例性方法可使用以下类别：(i)垂直划分、(ii)水平划分、(iii)封装以及(iv)叠置。

如上所述，可使用连接来描述对于特定EA字符的偏旁的空间排列。空间信息可以被认为是用于帮助将多个偏旁形成为EA字符。同样，这一偏旁和连接排列允许使用某一公共偏旁集和某些类型的连接来呈现字符。由此，可以定义两个或多个偏旁之间连接类型。

在图7中，在矩形框(例如，702、706、708、710、714)中示出了某些偏旁和字符，而在圆圈(例如，704(a)、704(b)、712)中示出了某些连接。在图7的示例中，EA字符中常用的偏旁是偏旁“木”，其被标识为偏旁702。位于偏旁702“木”的右侧的连接具有相似的类型并且被标识为704(a)和704(b)。被示为在连接704(a)的右侧的第二偏旁是偏旁“土”，其被标识为偏旁706。在该示例中，将偏旁702“木”、连接704(a)以及偏旁706“土”适当地相关联以表示汉字“杜”，其被标识为字符708。

例如，偏旁“木”702在垂直类别中，诸如被定位在相关联的偏旁的右侧或左侧。在该示例中，偏旁“木”702在用于标识东亚字符“杜”708时位于相关联的偏旁“土”706的左侧。由此，偏旁“土”706也可以被认为在垂直类别中，在东亚字符“杜”708中位于偏旁“木”702的右侧。

在另一示例中，标识为偏旁710的偏旁“此”被示为与被标识为连接712的连接相邻。连接712指向下(例如，相比于指向上的其他类型的连接704(a)、704(b))。该指向关系指示分配给连接712的连接类型，该连接类型可用于适当地关联两个偏旁。因此，当发生对于偏旁“此”710、连接712和偏旁“木”702的关联时，标识对应的字符“柴”(字符714)。

在上述示例中，偏旁“木”702在水平类别中，其中该偏旁在空间上位于该字符的另一相关联的偏旁之上方或下方。偏旁“木”702位于被标识为偏旁710的偏旁“此”的下方以形成被标识为字符714的EA字符“柴”。此外，偏旁“此”710会被认为是在水平类别中，因为它位于另一偏旁“木”702的上方。

这些不同的偏旁组合可使得这些偏旁中的一个或多个被水平地或垂直地组合，且具体地，被“挤压”以形成字符。为了解释该现象，可分配或变换偏旁“木”702中的子笔画的一个或多个长度，即，具有不同的形状以及由此是形状变化的。如上所述，子笔画是基本笔画的线段。基于这些观察，可以分别对待具有不同形状的偏旁。结果，存在扩展的“上下文”偏旁集，即，偏旁出现在其中的上下文通过使用上下文偏旁集来解释。由此，如参考图7描述的上下文偏旁集解释了偏旁相对于该偏旁的上下文的形状变化。

如此处所描述的，，用于EA字符的公共偏旁集中的偏旁可以根据由任何特定偏旁表示的字符而具有不同的形状。换而言之，图6的设计框602中所设计的偏旁集(公共偏旁集)中的偏旁可以是形状变化的，并且该偏旁集可以是上下文偏旁集，其有时被称为扩展的上下文偏旁集。上下文偏旁集的某些优点包括对于使用基于偏旁的HMM的系统的改进的识别准确度以及基于偏旁的HMM的降低的复杂性。

图7示出了形状变化，即，字符714“柴”中的偏旁702“木”的形状以及字符708“相”中的偏旁702“木”的形状是不同的。在某种程度上，形状变化增加了对于偏旁702“木”的偏旁HMM的复杂性。如此处所描述的，示例性技术降低了对于形状变化偏旁的偏旁HMM的附随复杂性。

示例性技术基于公共偏旁集中偏旁的形状定义了扩展的上下文偏旁集。例如，字符714“柴”中的偏旁702“木”被标识为偏旁“木-1”，而字符716“相”中的偏旁702“木”被标识为偏旁“木-2”。虽然扩展的上下文偏旁集的大小大于对应的无形状变化的公共偏旁集，但使用扩展的上下文偏旁集具有关于识别准确度的优点。

转折和子笔画的状态序列

图8是转折和子笔画的东亚字符状态序列800的示例性过程的示意图。如此处所描述的，示例性HMM可以包括转折状态和持续状态，如参考图8所解释的。图8示出了绘制810和相关联的动作820及动作描述830以及状态序列840。HMM是每一个递增单元(通常称为时间单元)改变一次其状态的有限状态机。状态是HMM的基本元素。偏旁和连接的基础结构在引导建模过程时是有用的，诸如设计适合用于识别EA字符的HMM方法的状态序列。

给定绘制810，同一子笔画中除了起始点和结束点之外的所有点的方向始终是相似的，并且起始点和结束点处的方向始终与字符的其他点有很大的空间差异。因此，用于EA字符识别的示例性框架将EA字符定义为轮流出现的子笔画和转折的序列。给定该框架，转折状态可用于对转折的可变性建模，而稳定或持续状态可用于对子笔画的可变性建模。此外，每一个偏旁和每一个连接都可由持续状态和转折状态的序列来建模(参见例如，状态序列840)。

图8示出了真实笔画(例如，动作1)、虚构笔画(例如，动作7)和转角或转折(例如，动作6)的概念。基本上，东亚字符由这些基本笔画组成。子笔画是用于对东亚字符建模的偏旁和连接方法的基本元素。每一个子笔画都由点序列组成。这些点可由笛卡儿坐标(x，y)、极坐标(r，Θ)或其他坐标系来表示。通常，笔画由具有时间戳的一系列点(x，y，时间)来描述(例如，在数据由计算设备来收集时)。真实笔画是落笔动作和提笔动作之间笔尖迹线，而虚构笔画是用于在提笔动作和下一落笔动作之间连接的虚构线。

当一个人书写字符时，发生一系列动作。这些动作在图8的框820中按顺序从0到10地标记。动作1示出了指向下方的真实笔画。动作3是虚构笔画，它是东亚字符的结构特性。该虚构笔画(动作3)不同于真实笔画(动作1)，因为不存在墨水样本点且该虚构笔画(动作3)往往是直的或被假设为直的。虚构墨水框可以不与真实子笔画状态对准。真实墨水框可在流畅和草书手写时与虚构子笔画状态对准。

如已经提及的，观察指示同一子笔画中的所有点(除了起始点和结束点)的方向是相似的，并且起始点和结束点处的方向变化与其他点有很大的差异。

在图8中，动作2和4表示转折(例如，转折状态)。如已经提到的，东亚字符可以被描述为子笔画和转折的序列，其中可以单独考虑对应于子笔画和转折的状态。具体地，转折状态可以被定义为对应于转折的状态并可用于对转折的可变性建模，而持续状态可用于对子笔画的可变性建模。在示例性模型中，每一个偏旁和连接都可由持续状态和转折状态的序列来建模。在图8中，持续状态1、3、5、7、9和转折状态2、4、6在框840中被标识为与绘制810相对应。

子笔画或持续状态能够对同一子笔画中的若干墨水框建模，因此，子笔画是自轮转的并且具有到后续转折状态的转换。然而，转折状态被设置为非自轮转以获取更好的状态对准。两个连续子笔画的墨水框仅由与转折状态对准的一个墨水框来在最合适的位置分隔。但是，如此处所描述的，转折状态不限于非自轮转类型的状态，例如，自轮转状态也可用于对笔画转角建模。

在示例性HMM模型中，矩阵A＝{a_ij}表示字符的HMM的状态转换概率，π＝{π_i}表示初始状态概率，而“N”表示字符的HMM的状态数。

在一个受约束的从左到右的HMM中，可以分配以下特性：

a.如果状态i是持续状态，则a_ij＝0，除非j＝i或j＝i+1，1≤i＜N；

b.如果状态i是转折状态，则a_ij＝0，除非j＝i+1，1≤i＜N；

c.状态序列必须以状态N结束：a_iN＝0，1≤i＜N；以及

d.状态序列必须以状态1开始，π＝(1，0，...，0)。

在该示例中，约束(a)要求持续状态S_i只能跳转到下一状态并被允许自转换，而约束(b)要求转折状态S_i只能跳转到下一状态并不被允许自转换。注意，约束(c)指示最后一个状态S_N无法由除S_N-1之外的任何其他状态转换，而约束(d)要求初始状态必须始终是S₁。给定这些约束，定义了受约束的从左到右的HMM。

示例性计算环境

图9是适用于生成初始基于偏旁的HMM、训练基于偏旁的HMM和/或实现基于偏旁的HMM的示例性计算环境900的示意性框图。该环境可以被配置为能够实现示例性基于偏旁的HMM、实现示例性开发方法、实现示例性训练方法等的任何合适的计算环境。在一个示例性配置中，计算设备902包括至少一个处理器904和存储器906。取决于计算设备的配置和类型，存储器906可以是易失性的(诸如RAM)和/或非易失性的(诸如ROM、闪存等)。

存储器906可以存储能够由处理器904执行程序(例如，指令)，而存储器906可以存储诸如在程序执行期间生成的数据等数据。存储器906可以存储任何数量的程序、数据对象、其他数据结构，包括操作系统、一个或多个应用程序、其他程序模块和程序数据。

存储器906可以包括操作系统908、用于实现示例性基于偏旁的HMM的一个或多个应用程序910以及各种其他数据、程序、媒体等。在一个实现中，存储器906包括用于示例性基于偏旁的HMM 911的指令。如图所示，存储器906包括用于用户界面模块912的指令、数据管理模块914的指令以及用于搜索模块916的指令。存储器906可以存储用于一个或多个应用程序910的数据。

用户界面模块912可以向用户呈现可以使用示例性基于偏旁的HMM的图形用户界面(GUI)。例如，这一模块可使得显示提示用户输入字符的笔画(例如，字符数据)的界面。进而，这一模块能够显示与字符识别或使用字符识别的应用程序有密切关系的信息。数据管理模块914管理信息的存储，诸如数据库、偏旁、连接类型等，并能够与一个或多个本地和/或远程数据库进行通信。在图9的示例中，搜索模块916能够与用户界面模块912和数据存储模块914交互以执行搜索功能，诸如使用文本搜索方法来执行文本搜索等。

存储器906可以是一种类型的计算机可读存储介质。易失性存储器可以包括诸如随机存取存储器(RAM)等介质，而非易失性存储器可以包括只读存储器(ROM)。计算环境900还可包括其他可移动/不可移动、易失性和/或非易失性计算机存储介质。例如，计算环境900可包括对不可移动、非易失性磁介质进行读写的硬盘驱动器、对可移动、非易失性磁盘(例如，软盘)进行读写的磁盘驱动器以及对诸如CD-ROM、DVD-ROM或其它光学介质等可移动、非易失性光盘进行读写的光盘驱动器。盘驱动器或其它计算机可读介质可以为计算设备902提供对计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。

计算设备902还可包含通信连接918，其允许计算设备902与数据库、用户终端和/或其它设备进行通信(例如，可经由网络来访问)。作为示例而非限制，通信可以经由有线网络或直接线连接和/或经由无线网络(例如，声学、RF、红外线和其它无线技术)来发生。

计算设备902还可包括诸如基于指示笔的设备等一个或多个输入设备920以及诸如显示器、扬声器、打印机等一个或多个输出设备922。各种这样的设备在本领域内是众所周知的。

上述主题可以用硬件或软件或用硬件和软件两者来实现。尽管用对结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，具体特征和动作作为实现所要求保护的主题的示例性形式而公开的。例如，方法动作无需按照此处所描述的顺序或组合来执行，而是能够以一个或多个动作的任何组合来执行。

Claims

1.一种至少部分地由计算设备实现的用于字符识别的方法，所述方法包括：

接收字符的墨水数据；以及

使用基于偏旁的隐马尔可夫模型(HMM)来将字符识别为与所接收到的墨水数据相关联，所述基于偏旁的HMM包括偏旁节点和连接节点，其中所述偏旁节点表示字符的结构元素，所述连接节点表示两个或多个偏旁之间的空间关系。

2.如权利要求1所述的方法，其特征在于，其中所述基于偏旁的HMM包括多路径拓扑结构，其中所述多路径拓扑结构中的至少某些路径遍历一个或多个偏旁节点以及一个或多个连接节点。

3.如权利要求1所述的方法，其特征在于，其中所述基于偏旁的HMM包括有限状态机，所述有限状态机包括选自由持续状态和转折状态组成的组的至少一个状态。

4.如权利要求3所述的方法，其特征在于，持续状态表示在形成字符时的笔画形成动作。

5.如权利要求3所述的方法，其特征在于，转折状态表示在形成字符时的转折动作。

6.如权利要求1所述的方法，其特征在于，所述偏旁节点表示上下文偏旁集中的偏旁。

7.如权利要求6所述的方法，其特征在于，所述上下文偏旁集解释偏旁相对于字符的形状变化。

8.如权利要求1所述的方法，其特征在于，所述字符包括东亚字符。

9.一种至少部分地由计算设备实现的用于训练用于字符识别的基于偏旁的HMM的方法，所述方法包括：

提供包括偏旁节点和连接节点的初始基于偏旁的HMM；

使用所述初始基于偏旁的HMM来将字符墨水数据拆分成偏旁数据和连接数据；

用所述偏旁数据来训练偏旁HMM并用所述连接数据来训练连接HMM；以及

通过拼接经训练的偏旁HMM和经训练的连接HMM来生成经训练的基于偏旁的HMM。

10.如权利要求9所述的方法，其特征在于，所述生成包括确定所述经训练的基于偏旁的HMM的路径数。

11.如权利要求10所述的方法，其特征在于，所述确定所述经训练的基于偏旁的HMM的路径数包括使用子序列方向直方图向量(SDHV)聚类。

12.如权利要求9所述的方法，其特征在于，所述生成包括确定所述基于偏旁的HMM的状态数。

13.如权利要求12所述的方法，其特征在于，所述确定所述基于偏旁的HMM的状态数包括使用基于曲率尺度空间(CSS)的转角检测。

14.如权利要求9所述的方法，其特征在于，还包括使用所述字符墨水数据来迭代地训练所述基于偏旁的HMM。

15.如权利要求9所述的方法，其特征在于，还包括使用所述经训练的基于偏旁的HMM来将字符墨水数据拆分成偏旁数据和连接数据。

16.如权利要求15所述的方法，其特征在于，还包括使用用所述经训练的基于偏旁的HMM来拆分的偏旁数据和连接数据来生成细化的经训练的基于偏旁的HMM。

17.如权利要求9所述的方法，其特征在于，所述字符包括东亚字符。

18.如权利要求9所述的方法，其特征在于，所述提供初始基于偏旁的HMM包括：

选择字符集；

提供可以表示所述字符的偏旁集；

提供表示所述偏旁集中的两个或多个偏旁之间的关系的连接类型；以及

通过使用应用收敛度量的路径拆分算法来构造通过表示偏旁的节点和表示连接类型的节点的路径来生成初始基于偏旁的HMM。

19.如权利要求18所述的方法，其特征在于，所述收敛度量度量包括自轮转概率和离开转换概率。

20.一种用于识别字符的系统，所述系统包括：

处理器；

用于接收字符信息的输入；以及

至少部分地由所述处理器实现的控制逻辑，所述控制逻辑用于使用基于偏旁的隐马尔可夫模型(HMM)来将字符识别为与所接收到的字符信息相关联并且执行与所述字符的识别相关的一个或多个动作，其中所述基于偏旁的HMM包括偏旁节点和连接节点，其中所述偏旁节点表示字符的结构元素，所述连接节点表示两个或多个偏旁之间的空间关系。