CN101751569B

CN101751569B - 用于脱机手写维吾尔文单词的字符切分方法

Info

Publication number: CN101751569B
Application number: CN2010100137275A
Authority: CN
Inventors: 李静; 卢朝阳; 阿地力·依米提; 曹琎; 谭福秀
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2010-01-15
Filing date: 2010-01-15
Publication date: 2012-01-04
Anticipated expiration: 2030-01-15
Also published as: CN101751569A

Abstract

本发明公开了一种用于脱机手写维吾尔文单词的字符切分方法，属于光学字符识别中的字符切分领域。其实现步骤是：采用多特征分析方法，提取单词的连通特征、归属特征、位置特征和局部顶峰特征；根据连通特征将单词分为字段集合Ф，并将所有字段分为主字段和从字段；根据归属特征进行字段聚类，获得多个子字段集；针对每个子字段集，由多特征联合引导切分，根据局部顶峰及连通特征提取潜在主从切分点，再联合位置特征，确定采用独立或联合切分模式；最终根据连通和位置特征优化切分线，获得整体最优字符切分效果。本发明具有对手写维文字符切分效果好，操作步骤简洁易实现，计算复杂度低的优点，可移植到手机移动平台上完成字符切分。

Description

用于脱机手写维吾尔文单词的字符切分方法

技术领域

本发明涉及一种数字图像处理方法，属于字符切分方法，可用于光学字符识别中脱机手写维吾尔文单词的字符切分。

背景技术

随着手写字符识别应用领域不断扩展以及分类器识别能力的提高，字符分割技术已经成为光学字符识别研究领域中的关键问题。实践表明，字符切分不准确是产生误识别的主要原因之一，单字符正确识别率的提高在很大程度上依赖于字符分割的准确性。

维吾尔文是我国一种重要的少数民族文字，属于阿尔泰语系突厥语族西匈语支，仅在新疆地区就有900多万人使用维吾尔语进行交流和沟通。开展维吾尔文识别的研究具有很高的理论价值和广阔的市场应用前景。该技术的突破，对促进少数民族地区的信息化建设、促进民族和谐发展，让少数民族群众共享信息化时代的丰硕成果等方面有重要意义。

目前，相对于中文、拉丁文、日文等主要文字识别系统的快速发展，维吾尔文识别领域的发展明显滞后，尤其针对脱机手写维吾尔文识别研究尚未见成熟报道。相比较与单字符识别，单词识别具有以下优势：(1)更自然连贯的手写输入方式。人们在手写文字时，大部分都是以词为单位在脑海中出现，如果将一个词中的字符逐个书写逐个识别，则很容易影响思维的连贯性，因此，多字词的连续输入相对于单个字符逐个逐框地输入更显得自然和人性化；(2)更快速的手写输入及识别方式。直接对词进行书写识别，可以不用间断的将一个词输入，并进行单词整体识别。目前，对于维吾尔文字符的识别已经有了一些研究成果，因此，如何将单词中的字符正确切分出来，输入字符识别模块，是必须要解决的瓶颈问题。由于包含了上下文信息，只要切分问题能处理的较好，则整词的识别效果将优于字符的识别。

但是，由于维吾尔文单词无统一的高度、宽度，单词中存在字母间前连、后连和前后连等情况，同时，连接方式不同的字母书写形式也不同，这就造成一个单词中经常存在多个连通的伪词汇的现象，这种情况在手写维吾尔文中更为突出。以上特点使得维吾尔单词的字符切分问题变得很复杂，作为维吾尔文单词识别中关键步骤的字符切分，其目标就是把含有手写单词的二值图像，切分为多个正确的二值化单字符图像。

目前，普遍采用的字符切分方法有：投影分析法、基于边缘跟踪的方法、基于识别的方法、基于细化字符的方法、基于神经网络的方法、基于形态学算子的方法等。其中：

投影分析法主要是利用字符串的垂直投影来检测切分点位置。如果字符之间分离性比较好，字符间空隙的投影值将为零，在处理字体排列整齐，规范，且质量较好的印刷体图像时，该方法简单、实用而且有效，但是当手写文字书写复杂起来时，由于字符串之间互相搭粘，因而这种简单的方法往往效果较差，无法解决问题。

基于边缘跟踪的方法，通过寻找轮廓线相对应的局部凹点来确定分割路径，这是一类较有潜力的切分方法，但是如何有效地提取笔划信息仍然有待于进一步研究。该类方法的缺点是计算复杂，效率较低，而且对于字迹潦草的手写体，它们的笔划类别和边界往往难以准确定义，因此取得的切分效果不理想。

基于识别的方法，这类方法主要的特点是利用识别结果来决定切分结果，认为字符的切分应与字符识别紧密结合。但是，对于字符集较大的识别，用该方法是一个很耗时的过程。如果用识别的结果来验证切分的有效性，则取得速度和性能都比较好的切分效果将是相当困难的。

针对手写维吾尔文字符切分，上述几类方法同样存在以下困难，具体表现在：

投影分析法的基本原理是利用字符串的垂直投影来检测切分点位置，但是手写维吾尔文字往往出现笔画互相搭粘，附加字符位置偏移等问题，无法准确定位出字符串垂直投影的局部极小点，或者会对字符产生割裂切分等现象。

基于边缘跟踪的方法其缺点在于需要跟踪文字的轮廓线，手写维文单词一般包含较多字符，书写不规范，采用此方法对笔画进行跟踪，计算较复杂，相对于投影分析法效率偏低。

基于识别的方法需要根据识别结果确定切分结果，维文字符共32个，具有128种变化形式，字符之间相似程度较高，如果将两者耦合，用识别结果来验证切分的有效性，要取得速度和性能都比较好的切分效果是比较困难的。

总之，上述几种字符切分技术对脱机手写维吾尔文字符切分还存在着诸多不足，因此，如何研制一种鲁棒的用于脱机手写维吾尔文下是单词的字符切分方法，就成为业内科技人员关注的新课题。

发明内容

本发明的目的在于克服上述已有技术的不足，提供一种用于脱机手写维吾尔文单词的字符切分方法，通过多特征的联合应用引导切分，使得复杂的手写维吾尔文单词能够变成清晰、完整的单字符图像，送入字符识别模块，实现对整个维吾尔文单词的鲁棒识别。

为了达到上述目的，本发明用于脱机手写维吾尔文单词的字符切分方法，包括下列操作步骤：

(1)分别提取对脱机维吾尔文单词的连通特征、归属特征、位置特征和局部顶峰特征；

(2)根据连通特征，将单词中所有相互独立的区域作为各字段，获得字段集合Φ，并根据字段集合Φ中连通特征的面积属性寻找最长字段，通过水平投影寻找字段基线L；判断字段集合Φ中每一个字段是否穿越基线L，如果穿越，且该字段的面积属性超过整个单词宽度的十分之一，则确定该字段为主字段，否则，根据该字段的重心位置属性与基线的位置关系进一步判断，如果字段在基线L的上部，确定为上部从字段，如果字段位于基线下部，则确定为下部从字段；

(3)根据所有主字段数目M，确定相同数目的子字段集合，并根据归属特征将从字段分配到各个子字段集合中，如果从字段与某个主字段之间的归属特征为包含或者只与一个主字段相交，则将该从字段分配到主字段所在子字段集合；如果该从字段与多个主字段相交，则分配到字段间重心距离最短的子字段集合；如果该从字段与所有主字段的归属关系都为独立，则取字段间重心距离最小值进行分配，最后所有字段被聚类为M个子字段集合；

(4)针对每一个子字段集合，根据提取的局部顶峰、连通特征和位置特征获得潜在的主从切分点，并据此判断每一个子字段集采用的切分模式；如果所属主字段的位置特征为首位或者尾位，且潜在主从切分点数目都小于或等于设定阈值，则采用独立切分模式，否则采用联合切分模式；如果所属主字段的位置特征为中位，则直接采用联合切分模式；如果采用独立切分模式，则将该子字段集中所有主从字段作为一个维吾尔文字符输出，切分线的位置为子字段集合外接矩形框的左边界；如果采用联合切分模式，则根据潜在主从切分点的信息引导，进行垂直投影切分，将局部极小值作为切分线位置；

(5)根据连通和位置特征进行切分线的调整优化，获得整体最优的切分位置，并将两两切分线之间的图像作为维吾尔文字符子图像输出，送入字符识别模块识别。

本发明与现有技术相比存在以下优势：

本发明提供的字符切分方法，针对手写维吾尔文字中书写比较自由，单字符宽度不一致，字符间存在搭裢等复杂情况，通过提取连通特征、归属特征、位置特征和局部顶峰特征，分层次将单词切分成字段及子字段集合，并针对每一个子字段集独立选择切分模式进行字符切分，其优势体现在如下几方面：

1)手写维吾尔文尽管书写比较自由，但是仍然具有在基线处连书写，以及在字符间插入水平线的方式调整宽度的特点，同时，32个维文字符中，有20个维文字符包含附加部分，且附加部分的形式多样，位置可在主体部分的上方、下方及内部，这些附加部分对切分线的定位会产生较大影响，根据这些特点，本发明首先通过连通特征的提取，将所有字段分为主字段和从字段两部分，切分点只在主字段的基线上选择，从字段的信息作为切分引导，但避免了对切分线定位的干扰；

2)本发明对每一个子字段集合独立选择切分模式，既可以避免字段之间的搭裢现象，也使每个子字段集合的基线定位更加准确，切分线的选择更加准确；

3)维文字符根据在单词中出现的位置不同，可以具有不同的书写形式，其中位于单词首位和尾位的字符常出现过切分现象，本发明通过位置特征的提取，在后继的字符切分模式选择中，可将首尾处的字符送入独立切分模式，减少了过切分现象的出现，在最后的切分线优化调整中，也根据位置特征，将靠近单词边缘的切分线进行调整，保证字符的完整性；

4)本发明通过提取主字段上的潜在主切分点，在联合切分模式中，每两个潜在主切分点之间分段垂直投影，可以避免全局垂直投影中过切分或欠切分现象，较准确的找到切分线的位置；

5)比较轮廓跟踪或者基于识别的切分方法，本发明操作步骤简洁，容易实现，计算复杂度也不高，能够适应实时处理需求，对于后期在手机等移动终端上的开发有非常大的帮助，具有很好的推广应用前景。

附图说明

图1是本发明总体流程图；

图2是本发明的主从字段提取操作子流程图；

图3是本发明字符切分的操作子流程图；

图4是用本发明方法的实施效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参照图1，本发明字符切分方法包括如下步骤：

步骤1、分别提取对脱机维吾尔文单词的连通特征、归属特征、位置特征和局部顶峰特征。

(1.1)对输入的二值图像，利用连通域分析方法提取所有独立字段，在二值图像的像素中存在4邻接和8邻接两种邻接方式，本发明采用8邻接方式进行连通域分析，获得所有的字段集合Φ，并将每一个字段的前景点数作为连通特征的面积属性，将字段的外接矩形框位置以及字段的重心位置都作为该字段的连通特征保留；

(1.2)计算字段之间外接矩形框的位置关系，作为归属特征进行保留，归属特征分为包含、相交和独立三种状态。如果第i个字段的四个端点都在第j个字段的外接矩形框内，则定义i和j的归属特征为包含状态；如果第i个字段端点有的分布在第j个字段的外接矩形框内，有的分布在第j个字段的外接矩形框外，则定义i和j的归属特征为相交状态；如果第i个字段的所有端点都在第j个字段的外接矩形框外，则定义i和j的归属特征为独立状态。

(1.3)提取每一个字段在整个单词的位置特征，包含首、中、末三种状态，由于维吾尔文的书写顺序是自右往左，因此，按照字段的连通特征就能给出每个字段在整个单词的位置特征；

(1.4)对每一个字段进行角点特征提取，并采用局部顶峰与距离抑制原则，提取主字段上的局部顶峰特征点。局部顶峰的提取是；采用Harris角点特征，提取字段的角点特征，根据空间距离抑制，设置一个3×3模板，仅保留模板内Harris角点响应最强的特征点；然后，对每一个特征点判断是否为局部顶峰点，即根据所在列的左右三列，判定该特征点上部是否存在其它特征点，如果有则判断为局部顶峰点，否则丢弃该特征点。一个字段上存在多个局部顶峰特征点或一个局部顶峰特征，或者不存在局部顶峰特征。

步骤2、根据连通特征，将单词中所有相互独立的区域作为各字段，获得字段集合Φ，并将其划分为主字段或者从字段。

参照图2，主从字段的提取是：首先通过连通域提取的面积信息提取面积最大的连通字段；然后，对该字段进行水平方向投影，提取字段的基线L，并根据上下冗余量，一般设为3至5个像素，给出基线区域；接着，对所有字段进行判别，是否穿越基线区域，如果穿越且字段面积大于阈值TH1，则判断为主字段，TH1设值只要满足基本面积大小即可，可取30至50。如果不穿越基线区域，则认为是属于从字段，根据字段的重心位置与基线区域的上下关系进一步判断，如果字段的重心位置在基线区域的上方，则判断该字段属于上部从字段，如果在基线区域的下方，则判断为下部从字段，最后获得所有主从字段组成的字段集合Φ。

步骤3、根据所有主字段数目M，确定相同数目的子字段集合，并根据归属特征将从字段分配到各个子字段集合中。

本步骤的具体实现如下：

(3.1)对步骤2所获得的所有主从字段，首先给每个主字段分配一个子字段集，如果存在M个主字段，则生成M个子字段集{Ω₁，Ω₂，…Ω_M}，每个子字段集只包含一个主字段；

(3.2)根据每一个从字段的归属特征进行分配；如果第i个从字段与第j个主字段的归属特征为包含或者只与一个主字段相交，则将该从字段分配到主字段所在子字段集合；如果第i个从字段与多个主字段相交，则分配到字段间重心距离最短的子字段集合；如果第i个从字段与所有主字段的归属特征都为独立，则计算第i个从字段与所有主字段集的重心位置距离，取字段间重心距离最小值进行分配；最后，将所有字段聚类为M个子字段集合{Ω₁，Ω₂，…Ω_M}，每一个子字段集合包含一个主字段和一个从字段，或者包含一个主字段和多个从字段，或者只包含一个主字段。

步骤4、针对每一个子字段集合，根据提取的局部顶峰、连通特征和位置特征获得潜在的主从切分点，并据此判断每一个子字段集采用独立或者联合切分模式进行字符切分。

参照图3，本步骤的具体实现如下：

(4.1)根据获得的所有子字段集{Ω₁，Ω₂，…Ω_M}，针对每一个子字段集，先将所有主字段上的局部顶峰特征点作为潜在主切分点，一个主字段上存在多个潜在主切分点，或者不存在潜在主切分点；

(4.2)根据每一个子字段集合中所有从字段的连通特征，提取潜在从切分点，如果该子字段集合中不包含从字段，则该子字段集不存在潜在从切分点；如果该子字段集合中只包含一个从字段，则采用该从字段的重心位置作为潜在从切分点位置；如果该子字段集合中包含多个从字段，则采用距离聚类将小于设定阈值的从字段合并，并更新合并从字段的外接矩形框位置，将重心位置作为潜在从字段切分点；

(4.3)根据每一个子字段集合包含的潜在主从切分点以及字段位置特征，判断该子字段集合采用独立切分模式还是联合切分模式，独立切分模式是指子字段集合中的所有主从字段属于一个维吾尔文字符，联合切分模式是指字段集合中的主字段需要进一步切分；如果是单词的首个或者最末子字段集，潜在主字段切分点数目小于等于设定的主切分点阈值T1，且潜在从字段切分点数目小于等于设定的从切分点阈值T2，则选择独立切分模式，否则选择联合切分模式；如果是单词的中间子字段集，则直接采用联合切分模式；如果采用独立切分模式进入步骤(4.4)，否则进入联合切分模式步骤(4.5)，主切分点阈值T1取3至5，从切分点阈值T2取1至3；

(4.4)独立切分模式将子字段集合中的所有字段作为一个维吾尔文单字符整体输出，切分线的位置为子字段集合外接矩形框的左边界；

(4.5)联合切分模式对该子字段集中的主字段进一步切分，如果主字段存在多个潜在切分点，则在每两个切分点之间进行局部垂直投影，将投影局部最小值的两倍作为切分线阈值，所有小于切分线阈值的列作为切分线，并且只有切分线连续出现3至5列，才判定该位置存在切分线；

步骤5、根据连通和位置特征进行切分线的调整优化，如果切分线与单词的交点位置不在基线范围内，则该条切分线丢弃，同时，将每一个子字段集的第一条和最后一条切分线位置与该子字段集合的外接矩形框左右边框位置进行比较，如果距离小于合并阈值，则切分线被更新为外接矩形框左右边框的位置，以有效的将首尾被过切分现象消除。整个单词的切分位置确定后，将两两切分线之间的图像作为维吾尔文字符子图像输出，送入字符识别模块识别，合并阈值取子字段集合外接矩形框宽度的十分之一。

本发明的效果可通过以下实验进一步说明：

实验时输入一幅如图4(A)所示的含有手写维吾尔文单词的数字二值图像；经过本发明特征提取、主从字段提取、子字段集合聚类的处理后，获得如图4(B)所示的子字段集合及相应的特征，其中，图5(B)中的实线、虚线和点线分别包含了三个不同的子字段集合，每个子字段集合中十字架位置是提取的潜在主从切分点位置，实心圆点位置是字段的重心位置；针对每一个子字段集合单独进行字符切分，并对切分线进行优化调整，输出如图4(C)所示的字符切分线定位结果。图4(D)中虚线为人工标定的字符正确切分位置，根据图4(C)和图5(D)的比较得出，通过本发明方法的处理，可以获得准确的字符切分位置，根据图4(C)所示切分线位置，将输出多个维吾尔文单字符子图像，送入字符识别进行后期字符识别。

Claims

1.一种用于脱机手写维吾尔文单词的字符切分方法，包括输入维吾尔文单词的二值图像，其实现步骤包括如下：

(2)根据连通特征，将单词中所有相互独立的区域作为各字段，获得字段集合Φ，并根据字段集合Φ中连通特征的面积属性寻找最长字段，通过水平投影寻找字段基线L；判断字段集合Φ中每一个字段是否穿越基线L，如果穿越，且该字段的面积属性超过整个单词宽度的十分之一，则确定该字段为主字段，否则，根据该字段的重心位置属性与基线的位置关系进一步判断，如果字段的重心位置在基线L的上部，确定为上部从字段，如果字段位于基线下部，则确定为下部从字段；

(3)根据所有主字段数目M，确定相同数目的子字段集合，并根据归属特征将从字段分配到每一个子字段集合中，如果从字段与某个主字段之间的归属特征为包含或者只与一个主字段相交，则将该从字段分配到主字段所在子字段集合；如果该从字段与多个主字段相交，则分配到字段间重心距离最短的子字段集合；如果该从字段与所有主字段的归属关系都为独立，则取字段间重心距离最小值进行分配，最后所有字段被聚类为M个子字段集合；

(4)针对每一个子字段集合，根据提取的局部顶峰、连通特征和位置特征获得潜在的主从切分点，并据此判断每一个子字段集合采用的切分模式；如果所属主字段的位置特征为首位或者尾位，且潜在主从切分点数目都小于或等于设定阈值Ts，则采用独立切分模式，否则采用联合切分模式；如果所属主字段的位置特征为中位，则直接采用联合切分模式；如果采用独立切分模式，则将该子字段集合中所有主从字段作为一个维吾尔文字符输出，切分线的位置为子字段集合外接矩形框的左边界；如果采用联合切分模式，则根据潜在主从切分点的信息引导，进行垂直投影切分，将局部极小值作为切分线位置，

所述的根据提取的局部顶峰、连通特征和位置特征获得潜在的主从切分点，是先将所有主字段上的局部顶峰特征点作为潜在主切分点；然后，根据每一个子字段集合中所有从字段的连通特征提取潜在从切分点，如果该子字段集合中不包含从字段，则该子字段集合不存在潜在从切分点；如果该子字段集合中只包含一个从字段，则采用该从字段的重心位置作为潜在从切分点位置；如果该子字段集中合包含多个从字段，则采用距离聚类将小于设定阈值的从字段合并，并更新合并从字段的外接矩形框位置，其重心位置作为潜在从字段切分点；

2.根据权利要求1所述的字符切分方法，其中步骤(1)所述的提取连通特征，是提取字段之间的连通性及相应的面积，字段之外接矩形框位置及重心位置。

3.根据权利要求1所述的字符切分方法，其中步骤(1)所述的提取归属特征，是提取两两字段之间的外接矩形框的位置关系，分为包含、相交和独立三种状态。

4.根据权利要求1所述的字符切分方法，其中步骤(1)所述的提取位置特征，是提取字段在整个单词的首，末，中三种位置状态。

5.根据权利要求1所述的字符切分方法，其中步骤(1)所述的提取局部顶峰特征，是提取呈现局部顶峰位置的点。

6.根据权利要求1所述的字符切分方法，其中步骤(3)所述的每一个子字段集合，包含一个主字段和一个从字段，或者包含一个主字段和多个从字段，或者只包含一个主字段。