CN102360436B

CN102360436B - 一种基于部件的联机手写藏文字符的识别方法

Info

Publication number: CN102360436B
Application number: CN2011103262708A
Authority: CN
Inventors: 马龙龙; 吴健; 刘汇丹
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2011-10-24
Filing date: 2011-10-24
Publication date: 2012-11-07
Anticipated expiration: 2031-10-24
Also published as: CN102360436A

Abstract

本发明属于少数民族语言文字信息处理领域，具体涉及一种基于部件的联机手写藏文字符的识别方法。本发明突破传统的基于统计的识别方法，以部件为基本识别对象，首先对输入字符进行部件分割，得到按一定规则排列的子结构序列，然后利用基于条件随机场的集成识别方法，从子结构序列中获取正确的部件串分割点及部件串的识别结果，基于此识别结果最终确定字符的类别。本发明用于基于笔式交互的移动设备的手写识别输入，识别方法的存储量小、识别精度较高，能够满足笔式移动设备的高需求。

Description

一种基于部件的联机手写藏文字符的识别方法

技术领域

本发明属于少数民族语言文字信息处理的联机手写字符识别领域，涉及一种藏文字符的识别方法，尤其涉及一种基于部件的联机手写藏文字符的识别方法。

背景技术

基于笔的联机手写字符识别技术是一种易被用户使用的、有效的实时工具，已广泛应用在计算机和手持移动设备(如手机、PDA等)中。笔输入设备的普及和应用的扩展，给手写字符识别技术的应用带来了新的机遇，同时又对识别性能提出了更高的要求。进一步提高识别精度、减少计算量和存储空间是下一步的研究目标。藏文字符识别技术是少数民族语言文字信息处理中的重要部分，但目前国内外在联机手写藏文字符识别上的研究相对较少，因而，研究联机手写藏文字符的识别方法在理论和应用上都具有重要的意义。

传统的字符识别方法包括统计方法和结构方法。统计方法通常用特征向量表示整个字符形状信息，用统计分类器进行字符分类，这种方法能够克服笔划顺序和笔划数的变化，识别精度较高；但由于字符的类别数大，分类器参数的存储量也很大。结构方法是将字符分解为简单的子结构(部件、笔划等)，用相对简单的方法对子结构进行识别。这种方法的优点是结构基元的模型复杂度低，而缺点是子结构提取的难度大，准确性低。目前联机手写藏文字符识别的研究均是采用基于统计的方法，藏文字符的类别数大，导致分类器参数的存储量大；另一方面，相似字符的类别数多，影响了分类器的识别精度；这两个主要原因导致藏文字符的识别性能尚未达到笔式移动设备对手写识别技术的较高需求。

发明内容

本发明的目的是为满足目前笔式移动设备对手写藏文识别技术的较高需求，提出一种基于部件的联机手写藏文字符的识别方法。

本发明的基于部件的联机手写藏文字符的识别方法，其步骤包括：

1)对输入字符的点轨迹进行预处理；

2)对预处理后的字符进行部件分割，得到一系列子结构块；

3)将子结构块按其边界框的上边界重新排列，得到子结构块序列；

4)采用基于条件随机场的集成识别方法，从子结构块序列中识别出正确的部件串；所述基于条件随机场的集成识别方法通过不同的权值将字符-部件的组成规则模型、部件分类模型、字符的拼写规则模型及几何模型集成在一起；

5)根据识别出的部件串确定输入的字符。

步骤1)所述的预处理包括去除孤立点、等距离重采样及高斯平滑。

步骤2)所述的部件分割包括垂直方向的迭代归并和基于规则的归并。

步骤4)所述的字符-部件的组成规则模型采用部件自学习方法确定某类字符的部件类别，采用层次聚类算法对所有类字符的部件类别进行聚类。

步骤4)所述的部件分类模型采用统计分类方法，包括修正的二次判别函数和学习向量量化方法。

步骤4)所述的字符的拼写规则模型是一种基于部件的拼写规则模型。

对于每一类字符，步骤4)中所述几何模型为每一个部件建立一元几何特征，为每两个连续部件之间建立二元几何特征，并分别用不同的概率密度函数模型化一元和二元几何特征。

步骤4)所述的连接字符-部件的组成规则模型、部件分类模型、字符的拼写规则模型及几何模型的权值基于最小分类错误率的准则训练得到。

与现有的采用统计模型的联机手写藏文字符的识别方法相比，本发明采用的基于部件的联机手写藏文字符的识别方法，将基于字符-部件的结构方法和基于部件的统计模型的方法相融合，在部件过分割的子结构序列中寻找最优的部件分割路径和识别结果，提高了部件分割的精度；本发明采用的基于部件的识别方法中，部件的类别总数远小于字符的类别数，这使得部件分类器的词典存储量较小，可以满足移动设备的存储需求；此外，较小的部件类别中相似的部件也大大减少，有助于提高最终的字符识别精度。

附图说明

图1是本发明的基于部件的识别方法的流程框图

图2是藏文字符的结构组成示意图

图3是藏文字符的部件分割的示例图

图4是藏文字符的部件串的表示示例图

图5是提取某一类字符的部件的人工交互界面示意图

具体实施方式

下面通过实施例，并结合附图，对本发明的基于部件的联机手写藏文字符的识别方法详细的说明。

本实施例采用了中国科学院软件研究所基础软件国家工程研究中心的多语言处理研究组的MRG-OHTC样本数据库。该数据库包括了130位不同书写者的藏文字符样本，每位书写者完成910个常用字符(基本集和扩充A集)的书写。实验选取其中的562类藏文字符进行测试，每个类别有130套样本，剔除了不能正确标记部件分割点的样本。选择其中105套进行训练，剩余的25套样本进行测试。此外，130套样本中字符的部件分割点的位置标记借助了字符-部件的组成规则模型中的部件自学习方法。

本实施例的具体实施过程按如图1所示，具体说明如下：

1)点轨迹预处理

将一个联机手写藏文字符的输入表示为手写轨迹的点序列：(x₁，y₁)，(x₂，y₂)，…(x_n，y_n)，其中n表示输入字符轨迹中的点数，轨迹中点的顺序按书写的时间先后排列，笔划之间用结束标志点断开。首先去除孤立点，即由单个噪声点组成的笔划，以消除孤立噪声点对部件分割及部件识别的影响，然后对字符的轨迹进行等距离重采样，最后用高斯滤波进行点的平滑，以克服轨迹中点的波动。在等距离重采样中，点的距离设置为0.7，在高斯平滑中，方差设置为1.5。

2)部件分割

部件分割模块将经过预处理的字符过分割成一系列子结构块，子结构块是完整的部件或部件的一部分。藏文字符是由一个或多个部件在垂直方向按上下叠加的纵向形式组合而成，如图2所示。所述的部件是指字符的子笔划序列，是易被计算机分割算法提取、比字符结构更稳定的结构基元。由于字符由部件组成，不同的字符共用相同的部件，因而部件的类别数远小于字符的类别数。结合藏文字符的一般书写顺序，部件分割的具体步骤如下：

a)垂直方向的迭代归并：

初始假定每一个笔划为一个子结构块，迭代归并任意两个在垂直方向的交叉度较大的子结构块，直到没有可归并的为止。通常书写藏文字符时，一般部件之间在垂直方向存在空白间隔或部件之间的重叠较小。假定最初每个笔划是一个子结构块，基于这个信息，如果两个子结构块(笔划序列)在垂直方向有间隔或两个子结构块在垂直方向交叉且交叉度小于0.2，就将这两个子结构块分割；如果两个子结构块在垂直方向交叉且交叉度大于0.2，就将这两个子结构块归并。

所述的交叉度是指两个子结构块在垂直方向的交叉程度的度量，其度量模型表示为两个子结构块的交叉区域的面积与两个子结构块的边界框区域面积和的比值。

b)基于规则的归并：

基于交叉度的迭代归并后，可能会出现一些小的子结构块位于相邻子结构块的左下方位、左上方位、右下方位、右上方位，引入一些基于结构位置关系的规则信息，将这些小子结构块归并到相邻的大子结构块中，最终字符被过分割成一些子结构块序列，分割实例如图3所示。

3)子结构块序列

由于书写的随意性，经过步骤2)后得到的子结构块的排列没有固定的次序，而我们的字符部件串的表示如图4所示，为确保与字符的部件串表示词典(在后文将对此词典的创建进行说明)一致而不影响识别的结果，将子结构块按其边界框的上边界重新排列，得到子结构块序列。

4)集成的部件串分割与识别

将字符识别看成是部件串的识别，关键问题是如何从经过步骤3)所得的子结构块序列中得到正确的部件串分割点及识别结果。本发明采用了基于条件随机场(J.Lafferty，A.McCallum，F.Pereira，Conditional random fields：probabilistic models for segmenting andlabeling sequence data，Proceedings of the 18th International Conference on Machine Learning，Morgan Kaufmann，San Francisco，CA，2001，pp.282-289)的集成识别方法，将字符-部件的组成规则模型、部件分类模型、字符的拼写规则模型及几何模型集成到一个识别框架下，对不同的分割方式进行评价，获得最优的分割路径及部件串的识别结果。对上述各模型分别说明如下：

a)字符-部件的组成规则模型

该模型根据字符包括的字符类别以及部件串的排列规则建立。首先针对某一类字符，设计一个人工交互的界面，利用部件自学习方法确定所包括的部件类别及部件数；然后对于其它类别的字符，均按照前面的方法来确定每一个类包含的部件类别及部件数；最后采用层次聚类算法对所有类别的字符提取到的部件类进行聚类，并监控聚类过程来确定最终的部件类别总数，同时对每个字符类包含的部件给予一个类别标号。其中字符中包含的部件串的顺序按照部件边界框的上边界排列，与步骤3)中子结构块的排序保持一致。基于所有字符类所包含的部件数和部件类别，建立树结构的部件串表示词典。该部件串表示词典用一个树结构表示，从根节点到叶子节点的一条路径对应一个字符的部件串表示。由于部件被不同的字符类所共享，所以不同的部件串可能共享树中的一个或多个节点。

所述的部件自学习方法为：首先选取某一类字符中的一个样本，用步骤2)的部件分割算法对该样本进行过分割，基于过分割的结果确定一个参考部件模板；然后该字符类中的其它样本也采用步骤2)的部件分割算法得到过分割结果，并用动态规划算法将过分割结果与该字符类的参考部件模板进行匹配，最终获得该字符类的所有样本包括的部件及部件数。

b)部件分类模型

部件分类模型采用传统的统计分类方法，如修正的二次判别函数、学习向量量化等分类模型，该部件分类模型的训练所需的样本，采用字符-部件的组成规则模型中的部件自学习方法得到的部件样本。

c)字符的拼写规则模型

藏文字符的结构特点是，每一字符的特定位置(基字、上加字、下加字、上元音、下元音)的结构块只能对应特定类别的子结构。结合字符-部件的组成规则模型中的部件类别的确定，这里的拼写规则模型不完全同于常规的拼写规则模型(仅基于30个辅音字字母和4个元音字母)，采用了一种基于部件的拼写规则模型。利用该模型，在识别中可以拒绝不正确的候选部件，同时可以加快分割与识别的速度。

该模型建立的步骤为：首先，对每一类的字符，基于字符-部件的组成规则模型中确定的部件类别，统计该字符类包含的部件所出现的位置(基字、上加字等)；然后，对所有的字符类进行部件位置的统计，最终确定字符的特定位置(基字、上加字、下加字、上元音、下元音)出现的部件类别。

d)几何模型

针对每一类字符，分别为字符内的每一个部件建立一元几何特征，并为字符内的每两个连续部件(按上边界排列)之间建立二元几何特征，分别用不同的概率密度函数来模型化一元和二元几何特征。

上述四个模型的建模与部件样本的获取和部件类别的确定有很大关系。

部件样本的获取属于字符-部件的组成规则模型中的一部分，由于部件样本获取的重要性，在此对其做具体的说明。获取部件样本的流程界面如图5所示，图中给出了某一类藏文字符的部件样本的提取过程。如图5右上侧，首先选择该类别字符中的一个样本进行过分割，然后选择正确的分割点获得参考部件模板。该类别的其他样本进行过分割后利用动态规划算法与参考部件模板进行匹配，获得该类别的字符的部件样本(图5左侧)，同时得到部件的均值模板。对所有类别的藏文字符按照同样的流程来提取样本，最后对所有类别字符的部件的均值模板进行聚类，确定部件的类别数。基于所有字符类别包含的部件数和部件类别，建立树结构的部件串表示词典。从562类字符中共提取120类部件，并对字符的部件数进行统计，如表1所示，字符由1-3个部件组成。

表1部件数与字符类数的关系

部件数	1	2	3
				字符类数	110	311	141
比例(％)	19.57	55.34	25.09

选择修正的二次判别函数作为部件分类模型，基于提取到的部件样本进行该模型的训练，同时几何模型也是基于这些样本进行建模，分别用不同的高斯概率密度函数来模型化一元和二元特征。实验中一共使用了四个一元几何特征，包括：单个候选部件的宽度、高度、边界框的中心的横坐标和纵坐标，这四个特征用候选部件所在字符的大小进行归一化。二元几何特征包括四个：相邻候选部件的边界框的宽度、高度、中心横坐标和纵坐标的差。字符的拼写规则模型则更多依赖于部件的类别，不同于通常的基于字母的拼写规则。字符-部件的组成规则模型根据字符包括的字符类别以及部件串的排列规则建立。

各个子模型建立后，利用基于条件随机场的集成识别方法，对步骤3)得到的子结构块序列进行部件分割点的确定和相应的部件串的识别。其中基于条件随机场的集成识别方法通过权值将各个子模型集成到一个识别框架下，权值用基于最小分类错误率的准则训练得到。

集成各个子模型的函数表示如下：

Σ_{t = 1}^{T_{0}} [λ_{1} \log P (S_{t - 1}, S_{t}, S_{t + 1}) + λ_{2} \log P (S_{t}^{c} | r_{t}) + λ_{3} \log P (S_{t}) + λ_{4} (\log P (S_{t}^{g_{1}} | r_{t}) + \log P (S_{t}^{g_{2}} | r_{t - 1}, r_{t}))]

其中，r₁r₂...r_T0表示某一类字符的部件模型串序列，S₁S₂...S_T0表示基元(块)序列可能的候选部件模式序列，λ₁+λ₂+λ₃+λ₄＝1，T₀表示候选部件串路径的长度，P(S_t-1，S_t，S_t+1)表示相邻的候选部件的组成规则模型的概率，表示在类r_t下部件模式

的条件概率，P(S_t)表示该候选部件在拼写规则下的概率，

和

分别度量一元和二元几何特征概率。

和

分别对应部首形状特征、一元特征和二元特征。

通过训练，连接字符-部件的组成规则模型、部件分类模型、字符的拼写规则模型及几何模型的最佳权值分别是：0.1，0.7，0.05，0.15。

5)识别输出

基于步骤4)得到的部件串的分割和识别结果，查看字符的部件串表示词典，可以得到字符所属的类别以及包括的部件信息，从而确定输入的字符。

在实验中测试了传统的统计分类方法(整字识别方法)的识别率，分类过程中的预处理、特征提取和分类模型均和部件基元的处理相同，表2列出了两种方法的识别率的比较。

表2两种识别方法的识别率比较

方法	类别数	识别率(％)
			整字识别	562	93.62％
基于部件的识别	120	97.58％

从表2可以看出基于部件的识别方法的识别率要高于整字识别方法大约4个百分点。另外，部件分类模型词典的存储量仅为字符分类模型词典的大约1/5。因而基于部件的识别方法取得了较好的识别效果，能更好的满足移动设备对识别技术的高需求。

以上所述仅为本发明的具体实施方式，并不用以限制本发明，凡在本发明的精神和原则之内所作的同等变化与修改，均应包含在本发明的保护范围之内。

Claims

1.一种基于部件的联机手写藏文字符的识别方法，其步骤包括：

1）对输入字符的点轨迹进行预处理；

2）对预处理后的字符进行部件分割，得到一系列子结构块；所述的部件是指字符的子笔划序列，是易被计算机分割算法提取、比字符结构更稳定的结构基元；

3）将子结构块按其边界框的上边界重新排列，得到子结构块序列；

4）采用基于条件随机场的集成识别方法，从子结构块序列中识别出正确的部件串；所述基于条件随机场的集成识别方法通过不同的权值将字符-部件的组成规则模型、部件分类模型、字符的拼写规则模型及几何模型集成在一起；

所述字符-部件的组成规则模型采用部件自学习方法确定某类字符的部件类别，采用层次聚类算法对所有类字符的部件类别进行聚类；所述的部件自学习方法为：首先选取某一类字符中的一个样本，用步骤2）的部件分割方法对该样本进行过分割，基于过分割的结果确定一个参考部件模板；然后该字符类中的其它样本也采用步骤2）的部件分割方法得到过分割结果，并用动态规划算法将过分割结果与该字符类的参考部件模板进行匹配，最终获得该字符类的所有样本包括的部件及部件数；

所述部件分类模型采用统计分类方法对部件进行分类；

所述字符的拼写规则模型是基于部件的拼写规则模型，其建立步骤为：首先，对每一类的字符，基于字符-部件的组成规则模型中确定的部件类别，统计该字符类包含的部件所出现的位置；然后，对所有的字符类进行部件位置的统计，最终确定字符的特定位置出现的部件类别；

所述几何模型针对每一类字符为每一个部件建立一元几何特征，为每两个连续部件之间建立二元几何特征，并分别用不同的概率密度函数模型化一元和二元几何特征；

5）根据识别出的部件串确定输入的字符。

2.如权利要求1所述的基于部件的联机手写藏文字符的识别方法，其特征在于，所述预处理包括去除孤立点、等距离重采样及高斯平滑。

3.如权利要求2所述的基于部件的联机手写藏文字符的识别方法，其特征在于，所述等距离重采样采用的点的距离值为0.7，所述高斯平滑采用的方差值为1.5。

4.如权利要求1所述的基于部件的联机手写藏文字符的识别方法，其特征在于，所述部件分割包括垂直方向的迭代归并和基于规则的归并。

5.如权利要求4所述的基于部件的联机手写藏文字符的识别方法，其特征在于，所述迭代归并将在垂直方向有间隔或交叉度小于0.2的两个子结构块分割，将在垂直方向交叉度大于0.2的两个子结构块归并。

6.如权利要求1所述的基于部件的联机手写藏文字符的识别方法，其特征在于，步骤4）所述统计分类方法包括修正的二次判别函数和学习向量量化方法。

7.如权利要求1所述的基于部件的联机手写藏文字符的识别方法，其特征在于，连接字符-部件的组成规则模型、部件分类模型、字符的拼写规则模型及几何模型的权值基于最小分类错误率的准则训练得到，各权值分别是：0.1，0.7，0.05，0.15。