CN100405389C

CN100405389C - 从划线标记识别字符的方法和装置

Info

Publication number: CN100405389C
Application number: CNB2004100565126A
Authority: CN
Inventors: 葛勇; 镇立新
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2004-08-06
Filing date: 2004-08-06
Publication date: 2008-07-23
Anticipated expiration: 2024-08-06
Also published as: SG119356A1; JP4335185B2; KR20060050275A; JP2006048708A; CN1731415A; KR100733740B1

Abstract

一种为代表字符的划线标记分配适配模板的方法，该方法包括从划线标记中提取多个的笔划段向量(方框602)；在存储的多个的各个参考笔划段向量的概率分布函数(PDF)中，为每一个提取的笔划段向量确定一个最接近的PDF(方框604)，并为划线标记分配适配模板，其中适配模板包括识别器，用于为每一个提取的笔划段向量识别存储的最接近的PDF，并将划线标记连接至它代表的字符(方框605)，以便在适配字典中存储。

Description

从划线标记识别字符的方法和装置

技术领域

本发明总的来说涉及一种为代表字符的划线标记分配适配模板的方法，和涉及一种识别代表字符的划线标记的方法，以及一种电子装置。

背景技术

从依赖用户的划线标记中识别字符是现代人机接口技术中的一项突出难题。例如，随着手持设备越来越流行，对于一种输入文本(比如短的文本信息)的简单方法的需求变得更加紧要。当触摸屏可用时，划线字符(标记)的手写识别提供了一种最自然的文字输入界面，尤其(但不限于)对东方的表意字符集，比如汉字。

手写划线字符的在线识别被认为是一项困难的图案识别问题。一个困难来自于一个字符具有很大的形状可变性。不同的书写者在他们的日常生活中可以写出不同的墨水形状。图1例举了汉字字符的两种形状变化。在图1(a)和(b)中，字符100、102是各自的标准形状，而字符104、106分别表示依赖用户的变体。通过应用一种统计的图案识别方法，识别器能够大致正确地识别那些在训练样本中出现过的字符形状。但实际上，收集覆盖所有变化的足够的训练样本几乎是不可能的。

因此，需要一种灵活的识别器技术，其可以适于识别依赖用户的划线字符，比如代表相对复杂字符的简写划线标记。

发明内容

根据本发明的第一个方面，提供了一种为代表字符的划线标记分配适配模板的方法，该方法包括：从划线标记中提取多个笔划段向量；在存储的各个参考笔划段向量的多个概率分布函数(PDF)中，为每一个提取的笔划段向量确定一个最接近的PDF，并为划线标记分配适配模板，其中适配模板包括多个识别符，用于为每一个提取的笔划段向量识别存储的最接近的PDF，并将划线标记连接至它代表的字符，以便在适配字典中存储。

多个存储的PDF可被以一个PDF字典和一个PDF密码本的形式存储；其中，存储在PDF密码本中的PDF的数目小于存储在PDF字典中的PDF数目，而且PDF字典中的每一个PDF与一个在PDF密码本中识别最相似PDF的指针相关联。

PDF密码本中的PDF可以基于利用相对熵(Kullback-Leiblerdivergence)计算失真测量对PDF字典中PDF进行的量化来选择。

存储的各个参考笔划段向量的PDF可以与不同的参考字符相关联。

该方法可能还包括为适配模板分配一个年龄值ToL，和在适配字典中存储适配模板和分配的ToL。

存储适配模板的步骤可能还包括替换适配字典中具有最大ToL的现存项目(existing entry)，并且将其它现存项目的ToL值增加一预定量。

根据本发明的第二个方面，提供了一种识别代表字符的划线标记的方法，该方法包括：从划线标记中提取多个笔划段向量；在存储的各个参考笔划段向量的多个PDF中，为每一个提取的笔划段向量确定一个最接近的PDF，并基于确定的最接近的PDF搜索适配模板字典以确定划线标记的识别匹配，其中每一个适配模板都含有多个识别符，用于为参考字符的每一个笔划段向量识别一个存储的PDF。

该方法可能还包括根据本发明的第一个方面分配一个新的适配模板。

根据本发明的第三个方面，提供了一种电子装置，包括：一个用户界面，用于输入代表字符的划线标记；一个存储单元；和一个处理器。其中处理器从划线标记中提取多个笔划段向量；在存储单元存储的多个各个参考笔划段向量的PDF中，为每一个提取的笔划段向量确定一个最接近的PDF，并为划线标记分配一个适配模板，适配模板含有多个识别符，用于为每一个提取的笔划段向量识别存储的最接近的PDF，并将划线标记连接至它代表的字符，以便在存储单元的适配字典中存储。

多个存储的PDF可以被以一个PDF字典和一个PDF密码本的形式存储在存储单元中；其中存储在PDF密码本中的PDF的数目小于存储在PDF字典中的PDF数目，而且PDF字典中的每一个PDF与一个在PDF密码本中识别最相似PDF的指针相关联。

PDF字典和PDF密码本可以存储在存储单元的只读存储元件中。

PDF密码本中的PDF可以基于利用相对熵计算失真测量对PDF字典中PDF进行的量化来选择。

处理器还可以为适配模板分配一个年龄值ToL，并在存储单元的适配字典中存储适配模板和分配的ToL。

处理器可以替换适配字典中具有最大ToL的现存项目，并将其它现存项目的ToL值增加一预定量。

适配字典可以存储在存储单元的随机存取存储元件或闪存元件中。

根据本发明的第四个方面，提供了一种电子装置，包括：一个用户界面，用于输入代表字符的划线标记；一个存储单元；和一个处理器。其中，处理器从划线标记中提取多个笔划段向量；在存储单元存储的各个参考笔划段向量的多个PDF中，为每一个提取的笔划段向量确定一个最接近的PDF，并基于确定的最接近的PDF在存储单元中搜索适配字典以确定划线标记的识别匹配，适配字典中的每一个适配模板都含有多个识别符，用于为参考字符的每一个笔划段向量识别一个存储的PDF。

处理器可以为输入字符分配一个新的适配模板，该适配模板含有一个识别符数组，用于为每一个笔划段向量识别存储的最接近的PDF，以便在适配字典中存储。

附图说明

从以下书面说明中，通过例子并结合附图，本发明的实施例对本领域的一名普通技术人员来说是非常明显的，会为他更好地理解。

图1显示了字符形状可变性的例子。

图2是说明用于实施根据一个示范实施例的方法和系统的电子装置的示意图。

图3显示了根据本发明的一个实施例的具有用户适配功能性的字符识别分类器的流程图。

图4是说明基于分类的笔划匹配的示意图。

图5表示划线标记段的高斯概率密度函数密码本选择的示意图。

图6显示了根据一个示范实施例的产生一个新的适配模板的流程图。

图7显示了根据一个示范实施例的添加一个新的适配模板的流程图。

发明优选实施例的详细说明

图2说明了一种电子装置201。所述装置201是一种手持PDA电话机，包括：一个射频通信单元202，其与一个处理器203相连并通信；一个触摸屏205形式(典型的是液晶显示器)的用户界面和一个可选的键盘206也与处理器203相连通信。

处理器203包括一个编码器/解码器211，该编码器/解码器具有一个存储数据的相关联的代码只读存储器(ROM)212，用于对被电子装置201发送和接收的语音和其它信号进行编码和解码。处理器203还包括一个微处理器213，通过公用总线218与编码器/解码器211和相关联的字符只读存储器(ROM)214相连。微处理器213还通过公用总线218与一个随机存储器(RAM)204和一个静态可编程存储器216相连。除了其它的特征和功能，该静态可编程存储器216存储用于字符识别的适配模板、一个带有电话号码以及相关联的识别符(与每一个号码相关联的人的名字)数据库。

微处理器213的辅助输出与一个报警模块215相连，该报警模块典型地包括扬声器、振动器及相关驱动装置。字符只读存储器214存储用于对文本消息进行解码或编码的代码，该文本消息在触摸屏205或可选键盘206输入、并由通信单元202接收。在该实施例中，字符只读存储器214还存储微处理器213的操作码(OC)，和用于字符识别的固定识别字典。操作码(OC)用于在电子装置201上运行应用程序。

射频通信单元202是一个具有天线207的接收器和发送器的组合装置。通信单元202有一个收发器208，经射频放大器209与天线207相连。收发器208还与一个将通信单元202连接至处理器203的调制器/解调器组合装置210相连。

图3显示了根据本发明的一个示范实施例的具有用户适配功能性的分类器的流程图。在框301中，输入一个代表字符的划线标记，例如利用手持设备如PDA电话机201(图2)的触摸屏来输入。

对于划线标记，方框302执行平滑、除噪、尺寸归一化并提取笔划段向量。平滑是这样进行：通过对一个点与它的相邻点的坐标(x，y)取平均值，并用计算出的平均值替换该点的坐标值(x，y)来完成。经过平滑处理后，由高频噪声产生的冗余的点被除去了。这些冗余的点是坐标值(x，y)与它们替换的点(predecessor)相同的那些点。然后，该标记被缩放到适合一个标准矩形大小，比如本发明的实施例的180×180。

在示范实施例中的一个笔划段是在划线标记的局部最大方向角变化之间的线段。笔划段向量是得自每一段的二维向量o_t＝(d_x，d_y)，其中d_x和d_y是在线段的起始点和结束点之间的坐标的差值。依赖于划线标记的复杂性，笔划段向量的数量可能会变化。

方框303和304组成示范实施例的流程图300的搜索阶段308。在搜索阶段308，在方框302提取的每一个笔划段由一个概率分布函数(PDF)进行模型化，例如，概率分布函数的形式为

b_{j} (.) = Σ_{k = 1}^{k} ω_{jk} N (.; μ_{jk}, σ_{jk})

的高斯混合PDF。如图4所示，在固定识别字典中的每一个字符模型是一个高斯混合PDF序列(b₁，b₂，...b_N)，例如402，N是字符的平均笔划数。动态程序设计(DP)过程用于根据提取的笔划段如406，以模型化了的笔划段去匹配存储的每一个字符模型如402(固定字典中的PDF序列)。具有最大匹配得分的字符模型就是划线标记404的识别结果。

本领域的一名技术人员会认识到，存储在固定识别字典中的字符模型，比如402，源自于以前收集的训练样本的库。对于每个训练样本，代表一个给定字符的划线标记的笔划段被提取出来。一个字符模型，即各个提取的笔划段的高斯混合PDF的一个序列，被模型化并连接至样本划线标记所代表的字符。

回到图3，在示范实施例中，方框304执行在适配字典中的搜索。适配字典的详情会在下面进行说明。在方框305中，如果一个输入的字符在搜索过程308之后没有被正确地识别，就会产生一个新的字符模型(在方框306中)并进行适配字典的更新(在方框307中)。示范实施例中，方框306和307的详情会在下面进行说明。

一个表意字符集，比如汉字字符集，具有多个的词汇，而且每一个字符可能有许多笔划(见图4，字符404和线段如406)。因为每一个笔划段都被诸如高斯混合PDF模型化，在方框403中所用的固定识别字典可能会占用非常大的存储空间。在示范实施例中，方框303中的所有高斯PDF在密码本中都被量化成一定数量(比如256)的高斯PDF。在示范实施例的高斯PDF群集中，两个高斯PDF N(·；μ_i，∑_i)和N(·；μ_j，∑_j)之间的失真测量被作为相对熵(Kullback-Leibler(KL)divergence)计算。两个高斯PDF N(·；μ_i，∑_i)和N(·；μ_j，∑_j)的相对熵被定义为：

J_{KL} (i, j) = \frac{1}{2} tr [(Σ_{i} - Σ_{j}) (Σ^{{- 1}_{j}} - Σ^{{- 1}_{i}})] + \frac{1}{2} tr [(Σ^{{- 1}_{i}} + Σ^{{- 1}_{j}}) (μ_{i} - μ_{j}) {(μ_{i} - μ_{j})}^{t}]

其中“tr[]”表示矩阵的迹。

作为进一步参考，读者可直接查阅“S.Kullback Information Theoryand Statistics.New York：Wiley，1959”，换言之，该书被以引用方式融入本说明书。

如图5所示出的，在示范实施例中，一个用户创建的(即简写符或个人化字符)划线标记501被分割为线段模型序列。线段模型序列中的每一个具有一个高斯PDF，而且为固定识别字典502中的每一个高斯PDF，比如500，在密码本506中找到一个称为代码字504的最相似的PDF。因而，在示例的实施例中，方框203(图2)中所用的每一个PDF如500，实际上是一个索引：该索引指向密码本中256个代码字中的一个，比如504。

图6说明了示范实施例中产生一个新的适配模板的方法。在示范实施例中，对于在方框601中输入的代表字符的划线标记，经过对标记的预处理后，在方框602中提取出一个具有T个笔划段向量的笔划段向量序列{o₁，o₂，o₃，...o_T}。设定计数器i＝0(方框603)，并为每一个笔划段向量o_i确定最接近的高斯代码字N(·；μ_j，∑_j)，其中

j = \underset{1 \leq k \leq 256}{\arg \max} N (o_{i}; μ_{k}, Σ_{k})

(方框604)。设定A[i]＝j(方框605)，识别为第i个笔划向量确定的最接近的高斯代码字。重复方框604和605，直到i＝T(方框606)。在示例实施例中，识别符A[0..N-1]被作为将划线标记连接至其代表的字符的适配模板分配。

划线标记代表的字符可能被确定为该划线标记的初始输入的一部分，例如，通过从显示在PDA电话机(图2)201的、处于学习模式的触摸屏205(图2)中的多个字符中得到的选择集。不过，应该认识到，在不同的示范实施例中，划线标记代表的字符可能在产生新的适配模板的不同的点被确定，包括在向适配字典中添加适配模板的过程中确定索引数组A[0..T-1]之后(方框607)。

图3的方框303中提到的固定识别字典能够存储在ROM214中，同时适配字典(图3的方框304)存储在存储器216中并在加电时装载到RAM 204中。一个手写引擎的可用的RAM 204可能是非常有限的，比如，仅可存储100个适配模板。在示范实施例中，如参考图7的介绍，提供了一种更新适配字典(图3的方框307)的方法。

每一个现存的适配模板有一个越来越大的整数用来记录它的年龄值(ToL)，这个数字实质上标识了每一个适配模板在适配字典中存储的顺序。对于在方框701中输入的每一个字符的划线标记，笔划段向量序列被提取出来(方框702)，并与固定识别字典和适配字典中的适配模板匹配(方框703)。与适配模板的匹配过程包括：在多个存储的各个参考笔划段向量的PDF中，为每一个提取的笔划段向量确定最接近的PDF；和搜索一个适配模板，该适配模板识别与为提取的笔划段向量确定的PDF相同的PDF。

从方框703有两路输出给方框704和708。考虑从方框703给方框708的输入，如果顶部的侯选者(C1)来自于适配字典(方框708)，那么该模板的ToL值被置为0(方框709)；或者，如果在方框708确定顶部的侯选者(C1)不是来自于适配字典，那么绕过方框710，ToL值不变。

考虑从方框703给方框704的输入，在方框704中，如果侯选字符需要添加到适配字典中，即侯选者C1(方框703)不是所输入字符的正确识别，如上所述根据图6，就产生一个新的适配模板。否则程序终止。

如果在步骤704中，确定侯选字符需要添加到适配字典中，那么在方框705中检测是否适配字典已满。如果适配字典不满，就添加一个新的模板到字典中(方框710)并将该模板的ToL值置为0。如果适配字典是满的，那么找到具有最大ToL值的模板，用新的模板将其替换掉(方框706)。该新模板的ToL值同样被置为0。最后，增加所有现存适配模板的ToL值(例如：ToL＝ToL+1)(方框707)。应当注意，由于在方框707中所有的ToL值都增大了，有些字符的ToL值的计数可能会变得过大，因此对这些计数值进行规一化处理可能是适当的，例如，通过对全部ToL值运用整数除法。

示范实施例提供了识别依赖用户的字符的方法。基于随机线段匹配分类和高斯PDF群集方法，示范实施例提供了一种适配模板生成方法和一种字典更新方法以提高手写识别(HWR)产品对特定用户的可用性。从而，用户能够书写对相对复杂的字符简写的个人化标记。该划线标记通过密码本与复杂的字符相关联并能够用于向设备中输入字符。

本领域的一名技术人员会认识到，在特定实施例中所示的本发明的许多变型和更改可以做出，而不脱离本发明所宽泛描述的要旨或范围。因此，无论在哪方面，这些实施例都应被认为是说明性的而不是限制性的。

Claims

1.一种为代表字符的划线标记分配适配模板的方法，该方法包括：

从所述划线标记中提取多个笔划段向量；

在存储的各个参考笔划段向量的多个概率分布函数PDF中，为每一个提取的笔划段向量确定一个最接近的PDF，和

为所述划线标记分配适配模板，其中，所述适配模板含有多个识别符，用于为每一个提取的笔划段向量识别所述存储的最接近的PDF，并且该适配模板将所述划线标记连接至它代表的字符，以便在适配字典中存储。

2.如权利要求1所述的方法，其中，所述多个存储的PDF以一个PDF字典和一个PDF密码本的形式存储；其中，存储在所述PDF密码本中的PDF的数目小于在所述PDF字典中的PDF数目，而且，所述PDF字典中的每一个PDF与一个在PDF密码本中识别最相似PDF的指针相关联。

3.如权利要求2所述的方法，其中，所述PDF密码本中的PDF是基于利用相对熵来计算失真测量对PDF字典中PDF进行的量化来选择。

4.如权利要求1-3中任一项所述的方法，其中，所述存储的各个参考笔划段向量的PDF与不同的参考字符相关联。

5.如权利要求1的方法，还包括为所述适配模板分配一个年龄值ToL，并在适配字典中存储所述适配模板和分配的ToL。

6.如权利要求5所述的方法，其中，存储所述适配模板的步骤包括：替换适配字典中具有最大ToL的现存项目，和将其它现存项目的ToL值增加预定量。

7.一种用于识别代表字符的划线标记的方法，该方法包括：

从所述划线标记中提取多个笔划段向量；

在所述存储的各个参考笔划段向量的多个概率分布函数中，为每一个提取的笔划段向量确定一个最接近的概率分布函数，和

基于所述确定的最接近的概率分布函数，搜索适配模板字典以确定所述划线标记的识别匹配，其中，每一个适配模板都含有识别符，用于为参考字符的每一个笔划段向量识别一个存储的概率分布函数。

8.如权利要求7所述的方法，还包括：当找不到匹配项时，根据权利要求1所述的方法来分配一个新的适配模板。

9.一种电子装置，其包括：

用户界面，用于输入代表字符的划线标记；

存储单元；和

处理器；

其中，所述处理器从所述划线标记中提取多个笔划段向量；在存储单元中的各个参考笔划段向量的多个概率分布函数中，为每一个提取的笔划段向量确定一个最接近的概率分布函数，并为所述划线标记分配一个适配模板，和

其中，所述适配模板含有多个识别符，用于为每一个提取的笔划段向量识别所述存储的最接近的概率分布函数，并将所述划线标记连接至它代表的字符，以便在所述存储单元的适配字典中存储。

10.如权利要求9所述的电子装置，其中，所述多个存储的概率分布函数以概率分布函数字典和概率分布函数密码本的形式存储在所述存储单元中；存储在所述概率分布函数密码本中的概率分布函数的数目小于存储在所述概率分布函数字典中的概率分布函数数目，而且所述概率分布函数字典中的每一个概率分布函数与在所述概率分布函数密码本中识别最相似概率分布函数的一指针相关联。

11.如权利要求10所述的电子装置，其中，所述概率分布函数字典和概率分布函数密码本存储在所述存储单元的只读存储元件中。

12.如权利要求10或11所述的电子装置，其中，概率分布函数密码本中的概率分布函数是基于利用相对熵计算失真测量对概率分布函数字典中概率分布函数进行的量化来选择。

13.如权利要求9中任一项所述的电子装置，其中，所述存储的各个参考笔划段向量的概率分布函数与不同的参考字符相关联。

14.如权利要求9中任一项所述的电子装置，其中，所述处理器还为所述适配模板分配一个年龄值ToL，并在所述存储单元的适配字典中存储所述适配模板和分配的ToL。

15.如权利要求14所述的电子装置，其中，所述处理器替换所述适配字典中具有最大ToL的现存项目，并将其它现存项目的ToL值增加一预定量。

16.如权利要求9中任一项所述的电子装置，其中，所述适配字典存储在所述存储单元的随机存取存储元件或闪存元件中。

17.一种电子装置，其包括：

用户界面，用于输入代表字符的划线标记；

存储单元；和

处理器；

其中，所述处理器从所述划线标记中提取多个笔划段向量；在所述存储单元中存储的多个概率分布函数中，为每一个提取的笔划段向量确定一个最接近的概率分布函数，并基于所述确定的最接近的概率分布函数，在所述存储单元中搜索适配字典以确定所述划线标记的识别匹配，其中，所述适配字典中的每一个适配模板都含有多个识别符，用于为参考字符的每一个笔划段向量识别一个存储的概率分布函数。

18.如权利要求17所述的电子装置，其中，如果找不到匹配项，所述处理器就为所述输入字符分配一个新的适配模板，该适配模板包括一个识别符数组，用于为每一个笔划段向量识别存储的最接近的概率分布函数，以便在所述适配字典中存储。