CN108764155B

CN108764155B - 一种手写维吾尔文单词切分识别方法

Info

Publication number: CN108764155B
Application number: CN201810538114.XA
Authority: CN
Inventors: 艾斯卡尔·艾木都拉; 吾加合买提·司马义; 玛依热·依布拉音
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2021-10-12
Anticipated expiration: 2038-05-30
Also published as: CN108764155A

Abstract

本发明的一种手写维吾尔文单词切分识别方法属于手写体识别领域，特别适用于在移动终端上手写维吾尔文单词的单词切分的识别方法。本发明所要解决的技术问题是提供一种不做预先探测延迟笔画的利用手写轨迹局部信息的单词切分方法，包括以下步骤：预处理；轨迹局部信息点探测；检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等信息点；基于轨迹局部信息点的单词过切分；切分块合并；组合切分块，形成字母。本发明的手写维吾尔文单词切分方法，由于不需要进行预先延迟笔画处理，因此处理更加快捷，具有较高的通用性，适合自然手写单词的切分问题。

Description

一种手写维吾尔文单词切分识别方法

技术领域

本发明属于手写体识别领域，特别适用于在移动终端上手写维吾尔文单词的单词切分的识别方法。

背景技术

手写识别是模式识别领域中应用广泛的分支之一。手写识别有两大类，一是对于实时记录的手写轨迹上进行识别的联机手写识别技术，另一种是对于手写样式图像的识别技术，即脱机手写识别技术。对不同文种或文字的手写识别实现方法有所不同。有些文字中字母是表示意义的单元，比如中文。对于字母为意义单元的手写识别主要对其包含的所有字母进行识别，而且常用字母的数量有限，完全可能开发出能分辨这些常用字母的分类器。在拼音文字中，单词是基本意义单元。所以对拼音文字而言，单词是其手写识别的主要对象。拼音文字中词汇量一般很大，导致对拼音文字的手写单词识别技术难以实现符合所有单词的水平。拼音文字中的单词由字母连接而成。根据拼音文字的这种属性，可以用多种方法来实现其手写识别技术。

对拼音文字的手写识别可以用两种识别策略。一，把整个单词作为直接识别单元进行识别，叫做整体单词识别。与其相反，另一种策略首先要把单词中的字母分割出来，然后用已经训练好的字母识别器对各分割出来的字母进行识别，最后形成单词识别结果。从单词中把个字母分割叫做字母分割或单词切分，用这种单词切分和字母识别的结合来实现单词识别的方法叫做基于切分的单词识别或简称切分单词识别。整体单词识别和切分单词识别都有其长短之处。整体单词识别在单词类别数据不是很大的情况下可以获得很高的准确率。它的这种属性让它非常适合应用于特定场合的手写识别任务，比如手写登录等。切分单词识别的优势在于它要识别的单词类别数据可以无穷大，是解决拼音文字单词识别问题的最终方案，也是开发公用手写输入法的必经之路。

维吾尔文有32个基本字母类型，每个字母类型有2-8个字母形式。在单词中该用哪个字母形式由字母在单词中的位置决定。除了126种字母形式之外，还有一个特殊字符和一个复合字符在实际书写中十分常用。这个特殊字符和复合字符各有两种形式，还是由单词中的位置来选用。所以维吾尔文中我们应该考虑的字母形式总共有130种。

中国专利CN104899601A，发明名称为：一种手写维吾尔文单词识别方法，公开了一种涉及手写维吾尔文单词识别方法，该方法首先对手写维文单词预处理，接着分别提取了维文单词的笔画结构特征和梯度特征，笔画结构特征是直接在时间坐标序列上提取的，而梯度特征是把预处理后手写维吾尔文单词的时间坐标序列映射为二维图像，在二维的图像中提取的，然后将两者特征进行串行融合，最后采用欧式距离分类器进行分类识别，得到识别结果。

《计算机与信息科学通讯》2012,321(6)：530-538，一种有效的联机手写维吾尔文手写字符分离方法，公开了一种识别维吾尔文手写字符的方法，主要包括以下步骤，第一步：分离附加笔画(延迟笔画)：首先从单词整体中把延附加画分离出来形成延迟笔画组。根据大多数附加笔画尺寸偏小，用简单的笔画尺寸阈值作为分离标准。首先分离延迟笔画会减轻正确字母切分点被遮盖儿被抛弃的错误，还有在最后字母重构的时候提高方便；第二步：预切分：把轨迹中的平点作为最初候选切分点，如果从轨迹中每一点到其下一个点的倾斜角度小于阈值并且书写方向为从右到左，则该坐标点被作为平点即最初候选切分点，(a)检查候选点是否被遮盖，遮盖检查范围是在此候选点上方左右某个角度范围之内，按照书写规则，正确切分点一般不应该被其它点遮盖；(b)把距离相近的候选切分点形成多个候选切分选段；(c)把每个候选切分线段的中点作为最后的预切分点；第三步：基于规则的切分过滤：过滤条件是两种：(a)里主笔画基线的距离大于阈值的切分点被抛弃；(b)相邻距离小于阈值的切分点中只保留一个，另一个被抛弃；第四步：附加笔画与主笔画的切分块重组形成字母；从主笔画中切分出来的切分块与附加笔画的重组是根据他们横向的位置关系来实现的。如果某附加笔画归属于跟它块重叠率最大的切分块。

上述方法中，都需要很多高效的预处理操作，包括去燥和重复点、轨迹点插入、平滑滤波、等距离轨迹点采样。这些预处理操作可以用常用的方法来进行。手写单词切分/字母分割任务一般还需要特殊的预处理方法，比如，基线位置探测和倾斜矫正、延迟笔画探测等，其目的把附加笔画(延迟笔画)分离出来，用候选切分点上方某个范围之内判断他是否被遮盖的情况等步骤和方法。

倾斜矫正，基线位置探测和附加笔画探测等特殊预处理技术不容易得到最佳效果，因而影响切分效果。所以，上述方法只在手写样本十分规范的情况下才能发挥较好的切分效果。基于局部轨迹信息点的切分方法则不需要倾斜矫正和基线位置他侧等操作，有效提高了切分系统的性能，具有更好的通用性。

发明内容

本发明所要解决的技术问题是提供一种不做预先探测延迟笔画的利用手写轨迹局部信息的单词切分方法。

本发明解决其技术问题所采用的一种手写维吾尔文单词切分识别方法，包括以下步骤：

步骤1：预处理：

1.1去燥和重复点，

1.2轨迹点插入，

1.3平滑滤波，

1.4等距离轨迹点采样，

步骤2：轨迹局部信息点探测：

检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等信息点,

2.1笔画起点和终点：笔画起点和笔画终点指的是笔画的第一点和笔画的最后点；

2.2平点检测：从笔画的第二点开始，在笔画轨迹中的每一点(x_i,y_i)与其前一点(x_i-1,y_i-1)形成一个线段，计算该线段对于横轴的倾斜度θ。如果线段的倾斜度小于平点检测阈值，则该点被记为平点；如果线段倾斜度大于平点检测阈值，则该点被记为非平点；

由相邻点构成的线段倾斜度计算公式：

2.3峰点和谷点检测：

2.3.1将笔画轨迹的笔画起点同时设定为初始峰点和谷点：峰点＝谷点＝笔画起点(x_i,y_i)；

2.3.2在笔画轨迹上逐点寻找真实的峰点和谷点：

对笔画轨迹中的每一点(x_i,y_i)与其前一点(x_i-1,y_i-1)的坐标进行比较，如果该点位置高于前一点，则前一点暂时被认为谷点，直到遇到纵向位置比谷点低的轨迹点，这时更新谷点；

对笔画轨迹中的每一点(x_i,y_i)与其前一点(x_i-1,y_i-1)的坐标进行比较，如果该点位置低于前一点，则前一点暂时被认为峰点，直到遇到纵向位置比峰点高的轨迹点，这时更新峰点；

以上轨迹点比较操作可简单描述为：

若y_i>y_i-1：谷点＝(x_i-1，y_i-1),访问下一点

若y_i<y_i-1：峰点＝(x_i-1,y_i-1),访问下一点

2.3.3确定笔画轨迹的峰点和谷点；

2.4最右和最左点检测，

2.4.1笔画轨迹的笔画起点同时作为初始最右点和最左点，

2.4.2在笔画轨迹上逐点寻找真实的最右点和最左点：

对笔画轨迹中的每一点(x_i,y_i)与其前一点(x_i-1,y_i-1)的坐标进行比较。如果该点位于前一点的左边，则前一点暂时被认为最右点，直到遇到横向位置比最右点更右的轨迹点，这时更新最右点；

对笔画轨迹中的每一点(x_i，y_i)与其前一点(x_i-1，y_i-1)的坐标进行比较，如果该点位于前一点的右边，则前一点暂时被认为最左点，直到遇到横向位置比最左点更左的轨迹点，这时更新最左点；

2.4.3确定笔画轨迹的最右点和最左点；

2.5交叉点检测:

2.5.1用笔画轨迹中最初两个点作为两个相邻监测点P1和P2，并可连接形成线段，命名为检测线段；然后，剩下的笔画轨迹被逐点访问。其中每一点被命名为访问点；

2.5.2对每一个访问点P3与其前一个访问点P4形成第二个线段，命名为访问线段；

2.5.3用下列公式计算相邻监测点和相邻访问点构成的两条直线的交叉点，

其中，k1，b1是由相邻监测点P1和P2构成的直线倾斜度和截距；k2，b2是由相邻访问点P3和P4构成的直线倾斜度和截距；θ和(x0,y0)是两条直线夹角和交叉点P0的坐标；

2.5.4如果交叉点位于相邻检测点和相邻访问点纵横坐标所形成的矩形之中，同时夹角θ小于设定的夹角阈值T_cross_angle，则第一个检测点P1被记为交叉点；

2.5.5访问所有访问点以后，回到步骤2.5.1,用笔画轨迹中的第二个点与其后一点新的相邻监测点，重复步骤2.5.2、2.5.3、2.5.4访问此相邻监测点之后的笔画轨迹；

步骤3：基于轨迹局部信息点的单词过切分，

3.1横向过切分：

用笔画轨迹中落于环形外的谷点作为初始切分点，形成初始切分块；

3.2用交叉点对初始切分点进行优化：访问每一个的初始切分块，并按如下方式处理，

3.2.1如果，初始切分块包含交叉点，并且交叉点的时间顺序优先于初始切分点，该初始切分点被认为重叠在环形结构里面，需丢弃；交叉点作为正确的切分点；

3.2.2如果初始切分点的时间顺序优先于交叉点，则初始切分点被保留；

3.3纵向过切分：对以上步骤得到的每一个的初始切分块，用局部最右点和局部最左点进行再次切分分析；

3.3.1如果切分块中最左点之前有步骤3.2确定的切分点，该切分点被保留；

3.3.2如果切分块中最左点之前有步骤3.2确定的交叉点，该切分块不做处理；

3.3.3如果切分块中最左点之前没有总轨迹中记录的初始切分点或交叉点，该最左点之前应该加一个切分点；

步骤4：切分块合并，

4.1合并笔画起段和终段的切分块：

用切分块轨迹长度阈值来判断笔画起段和笔画终段的多余切分块；如果，切分块中轨迹序列长度小于切分块轨迹长度阈值，该切分块被作为多余切分块并进行其相邻的切分块合并；笔画起段的多余切分块与其后面的切分块合并，笔画终段的多余切分块则与其前面的切分块合并；

4.2合并横向平段：用如下条件来判断切分块是否为多余的平段切分块，并进行合并，

4.2.1切分块不包含峰、谷、右、左或相交点，则该切分块为多余平段，

4.2.2多余平段不包含笔画起点和终点；

多余平段切分块以其中点分为两部分，分别与其相邻的前后切分进行合并；具体把多余切分块的前半部分被归属于前面的切分块，后半部分则被归属于后面的切分块；

步骤5：组合切分块，形成字母，

切分块组合实现步骤如下：

5.1获取每个切分块的形状特性包括上下左右边界，然后判断切分是否包含峰点；

5.2把第一个切分块当做检测段，判断该切分块与其它切分块有没有重叠的现象；跟检测段比较的另一个切分块命名为访问段，访问段中落在于检测段左右边界之内的轨迹点当重叠段；

两个切分块的重叠程度用重叠度和被重叠度来衡量；

5.3如果检测段和访问段没有重叠，则用下一个切分块作为新的访问段判断与该检测段有没有重叠段；

如果有重叠，并且重叠度和被重叠度同时大于重叠度阈值，则该检测段和访问段被认为属于同一个字母；

如果检测段与任何其它访问段都没有重叠，则该检测段做为独立字母来处理。

更进一步的，所述预处理为，

1.1去燥和重复点：如果前后相邻两个轨迹点之间的欧式距离小于指定的重复点距离阈值，则后面的信息点被认为重复点移除；如果相邻轨迹点之间的欧式距离大于指定的噪声点距离阈值，则后面的信息点被认为噪声点移除；

计算相邻两个信息点的欧式距离公式如(3-1)，

其中(x_i,y_i)和(x_i-1,y_i-1)为原单词轨迹点上的相邻两个信息点的坐标，d表示相邻信息点之间的欧式距离；

1.2轨迹点插入：在轨迹中各相邻点之间的欧式距离如果大于特定阈值，则对其中间进行插入新点。需要插入的点数N可以用原始近邻点距离的整数来确定，具体由公式(3-1)计算欧式距离，然后取其整数值为需要插入的点数N；

新插入的新点的坐标用一下公式(3-2)来得到，

Δx＝x2-x1，Δy＝y2-y1

其中，P1(x1,x2)和P2(x2,y2)是原始轨迹中的近邻点，Δx和Δy分别是两个近邻点的横向和纵向距离，

是第j个新插入点的坐标；

1.3平滑滤波

1.4等距离轨迹点采样：如果一个轨迹点与前一个相邻轨迹点的欧式距离小于采样距离阈值，则该点被丢弃；否则，它被选择并保持为采样点；

手写等距离轨迹点采样计算方法：

(a)把笔画的第一点的作为起点，第二轨迹点作为当前点；

(b)计算起点和当前点的轨迹点欧式距离；

(c)如果轨迹点欧式距离小于采样距离阈值，当前点被丢弃；

(d)如果轨迹点欧式距离大于采样距离阈值，当前点作为采样点保留；当前点作为新的起点，回到步骤(b)，重复计算下一轨迹点的轨迹点欧式距离并确认是否丢弃和保留，直至完成所有轨迹点的计算和确认。

所述的平滑滤波为在一次平滑得到的轨迹上进行再次或多次平滑，

用重复两次5点移动平均平滑算法，对原始的手写轨迹进行轨迹点平滑滤波。

噪声点距离阈值为重复点距离阈值的3倍。

在步骤2.5.5后用多个检测点来形成检测线段和访问线段，并产生一些连续的多个交叉点，交叉点检测完成之后，对顺序连续的交叉点进行合并。

检测段和访问段的长度在3-5个点之间，欧式距离阈值设为1-3。

步骤3.3.3中最左点之前增加的一个切分点为该局部最左点之前的第n各点作为新增切分点，n为3-5，或者以该最左点和笔画起点的中点。

对新增的切分点进行再次优化，即用新增的切分点之前的第n个点，n可以在1-5。

在步骤5中还包括步骤5.4，重复对剩余切分块进行的重叠探测；被处理后的切分块不再参加切分块组合。

本发明的手写维吾尔文单词切分方法，首先对原始手写轨迹进行去噪、去重复点、多层平滑、轨迹点插入、等距离采样等预处理操作，为探索轨迹中局部信息点提供了有利条件。然后，检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等局部信息点，提出的交叉点检测方法也是一个具有较高的通用性和准确性。根据维吾尔文手写文字属性，把谷点选为初始切分点。用谷点作为切分点会得到很高的切分点检测召回率。为进一步提高切分点检测准确率用其它信息点综合考虑确定最后切分点对初始切分点进行优化。得到的切分块根据他们的轨迹长度来判断时候需要合并。最后，根据各切分快的横向重叠情况来进行切分块组合形成切分出来的独立字母，由于不需要进行预先延迟笔画处理，因此处理更加快捷，具有较高的通用性，适合自然手写单词的切分问题。

附图说明

图1：手写单词样本；

图2：统一单词的不同书写样本；

图3：预处理前后的手写词样本；

图4：本发明单词切分处理步骤流程图；

图5：交叉点检测示意图；

图6：单词过切分效果示意图；

图7：手写单词样本的单词切分案例示意图。

具体实施方式

如果一个维吾尔文单词的总体形状及其包含的个别字母都按规则写，那么通过实现显式切分方法可以很方便地处理单词切分。但手写过程往往不服从各种书写规则，同一个字母或单词用多种多样的样式和书写顺序来完成。因此，动态搜索切分点的隐式切分方法是手写体单词切分研究的自然选择。尽管手写样本的形状各不相同，但应该有一些共同的属性，使它们具有正确性和可读性。手写单词中的个别字母总可以用一些信息点来分割出来。维吾尔文单词手写过程中连写不同字母的情况常见，增加单词切分任务的难度。

尽管维吾尔文和阿拉伯文有很多相似字母，维吾尔文的元音字母和延迟笔画数目多，形状多变等特点使维吾尔字符分割比往常阿拉伯语字符分割更有挑战性。根据维吾尔文单词手写特征，本发明提出了一种基于规则的隐式切分方法把维吾尔文中的单词分割出来，也就是实现单词切分。本发明采用的单词切分总体框架如图4所示。

本发明提出的单词切分方法根据手写轨迹中各种信息点进行横向和纵向过切分，然后通过各种规则对预切分进行优化和合并。最后，把各切分块利用位置信息进行组合形成完整字母并从单词轨迹中分割出来。下面对单词切分中的各步骤进行简便描述。

本发明的一种手写维吾尔文单词切分识别方法，包括以下步骤：

步骤1：预处理，

原始的联机手写样本避免不了带一些噪声和轨迹不均匀等情况。影响笔迹的因素包括客观和主观的因素，比如手写体的物理质量和书写者的心理、生理状况等。手写时由于抖动产生的多余的点和重叠现象，由于书写形式随意并且书写者之间习惯不同，导致手写单词的样式如附图1出现大小不同，形状多样，即使是同一单词也会出现不同如附图2的书写样式。预处理的目的就是优化原始手写轨迹，为下一步的单词切分提供较好的手写单词样本。预处理操作包括去燥和重复点，点插入，多层平滑，去重复，均距离采样。

1.1去燥和重复点：如果前后相邻两个轨迹点之间的欧式距离小于指定的重复点距离阈值，如重复点距离阈值设定为1，则后面的信息点被认为重复点移除。如果相邻轨迹点之间的欧式距离大于指定的噪声点距离阈值，如噪声点距离阈值设定为3，则后面的信息点被认为噪声点移除；

计算相邻两个信息点的欧式距离公式如(3-1)，

其中(x_i，y_i)和(x_i-1，y_i-1)为原单词轨迹点上的相邻两个信息点的坐标，d表示相邻信息点之距离。

新插入的新点的坐标用一下公式(3-2)来得到，

Δx＝x2-x1，Δy＝y2-y1

是第j个新插入点的坐标；

1.3平滑滤波

虽然点插入均匀了手写单词原始轨迹点序列，但是单词原始轨迹上有抖动使轨迹不光滑，总是导致局部信息的判断错误。因此需要进行平滑滤波处理。假设采样得到的单词轨迹点序列化坐标(x₁,y₁),(x₂,y₂)…(x_n,y_n)则常用的移动平均平滑处理计算公式具体如下：

x_i ^′＝(x_i-2+x_i-1+x_i+x_i+1+x_i+2)/5 (3-4)

y_i ^′＝(y_i-2+y_i-1+y_i+y_i+1+y_i+2)/5 (3-5)

在(3-4)和(3-5)中为单词第一个点的新坐标，采用的5点移动平均平滑算法。在每个原轨迹点上进行计算在该点前后几个点的坐标平均值，作为该点的新坐标。

为了提高平滑效果，平滑处理可以重复两次甚至更多次重复进行，将这个操作命名为多层平滑。通过多次平滑得到的轨迹会更加光滑，有利于局部信息的正确检测。

1.4等距离轨迹点采样：

经过上面的处理后，手写轨迹的点分布仍然有不均匀情况。再加上点插入操作已经增加了手写轨迹中的点数，这样会导致以后的计算量会很高。本发明采用等距离采样方法，对手写轨迹进行均匀化，同时实现了轨迹中点数的降低。维吾尔文单词对延迟笔画非常敏感，因为延迟笔画的丢失或增加导致字母归属类别的变化，有时还会改变单词类别。因此，本发明实施了基于笔划轨迹的点采样。具体而言，如果一个轨迹点与前一个相邻点的欧式距离小于采样距离阈值，则该点被丢弃；否则，它被选择并保持为采样点；

手写等距离轨迹点采样计算方法：

(a)把笔画的第一点的作为起点，第二轨迹点作为当前点；

(b)计算起点和当前点的轨迹点欧式距离；

(c)如果轨迹点欧式距离小于采样距离阈值，当前点被丢弃；

图3比较了预处理前后的手写词样本。图3(a)为最初的原始样本轨迹，在点分布上是不均匀的，一些长笔画只有几个点，而一些笔画点分布是密集的。图3(b)为点插入和平滑后的样本轨迹，轨迹在点插入和平滑后得到均匀。图3(c)为等距离采样后的样本轨迹，在保持均匀分布的情况下，采样大大减少了轨迹长度(点数)。

步骤2：轨迹局部信息点探测：

在单词切分中借鉴的手写轨迹局部信息点包括横向平直点、局部最大、最小、最左和最右点，笔画中的交叉点，以及各笔画的起点和终点等。为方便起见，本发明在以后的内容中将横向平直点、局部最大点和局部最小点分别用平点、峰点和谷点来表示。正确切分点只会在单词轨迹中的主体笔画上。但本发明不做预先探测延迟笔画，搜索局部信息点和过切分操作在每一个笔画上进行。

检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点等信息点。

2.1笔画起点和终点：

笔画起点和终点是把各笔画从单词中分割出来的重要信息点，笔画起点和笔画终点指的是笔画的第一点和笔画的最后点。

2.2平点检测：

从笔画的第二点开始，在笔画轨迹中的每一点(x_i，y_i)与其前一点(x_i-1，y_i-1)形成一个线段，计算该线段对于横轴的倾斜度θ。如果线段的倾斜度小于平点检测阈值，则该点被记为平点；如果线段倾斜度大于平点检测阈值，则该点被记为非平点；

由相邻点构成的线段倾斜度计算公式(3-6)：

2.3峰点和谷点检测：

首先，笔画轨迹的第一点同时设定为初始峰点和谷点。然后在笔画轨迹上逐点寻找真实的峰点和谷点。如果当前点(x_i，y_i)的位置高于其前一点(x_i-1，y_i-1)的位置，初始设定的谷点用前一点来更新。如果当前点的位置低于前一点，则把前一点被视为峰点，如下面描述：

2.3.1将笔画轨迹的笔画起点同时设定为初始峰点和谷点：峰点＝谷点＝笔画起点(x₁，y₁)，

2.3.2在笔画轨迹上逐点寻找真实的峰点和谷点：

对笔画轨迹中的每一点(x_i，y_i)与其前一点(x_i-1，y_i-1)的坐标进行比较。如果该点位置高于前一点，则前一点暂时被认为谷点，直到遇到纵向位置比谷点低的轨迹点，这时更新谷点。

对笔画轨迹中的每一点(x_i，y_i)与其前一点(x_i-1,y_i-1)的坐标进行比较。如果该点位置低于前一点，则前一点暂时被认为峰点，直到遇到纵向位置比峰点高的轨迹点，这时更新峰点。

以上轨迹点比较操作可简单描述为：

若y_i>y_i-1:谷点＝(x_i-1,y_i-1),访问下一点

若y_i<y_i-1：峰点＝(x_i-1，y_i-1),访问下一点

2.3.3确定笔画轨迹的峰点和谷点。

2.4最右和最左点检测：

笔画轨迹中的局部最右和最左点也跟3.2相似的方法来探测。同样，笔画轨迹的第一点同时作为初始最右点和最左点。然后，笔画轨迹中逐点笔画各相邻点的横向位置。如果，当前点(x_i，y_i)在其前一点(x_i-1,y_i-1)的左边，则前一点暂时被认为最右点，否则被认为最左点。详细步骤如下描述：

2.4.1笔画轨迹的笔画起点同时作为初始最右点和最左点：最右点＝最左点＝笔画起点(x₁，y₁)，

2.4.2在笔画轨迹上逐点寻找真实的最右点和最左点：

对笔画轨迹中的每一点(x_i，y_i)与其前一点(x_i-1,y_i-1)的坐标进行比较。如果该点位于前一点的左边，则前一点暂时被认为最右点，直到遇到横向位置比最右点更右的轨迹点，这时更新最右点。

对笔画轨迹中的每一点(x_i,y_i)与其前一点(x_i-1，y_i-1)的坐标进行比较。如果该点位于前一点的右边，则前一点暂时被认为最左点，直到遇到横向位置比最左点更左的轨迹点，这时更新最左点。

以上轨迹点比较操作可简单描述为：

若x_i<x_i-1且x_i<x₁:最右点＝(x_i-1，y_i-1),访问下一点

若x_i>x_i-1且x_i>x₁:最左点＝(x_i-1，y_i-1),访问下一点

2.4.3确定笔画轨迹的最右点和最左点；

2.5交叉点检测:

笔画轨迹中的交叉点总意味着该笔画中有环形结构。交叉点有助于判断切分点的正确性，因为单词切分中正确的切分点不应该从环形结构里面寻找。由于手写过程的随便性，避免不了形成一些不应该形成的环形结构。正如图5(a)中所示的笔画轨迹交叉点和环，环形1是正确的，应该的，并且其相关的交叉点可以借鉴于为切分点优化；环形2在其位置中不应该出现，而且已经在一定程度上破坏了原始字母的形状。包含环形2的字母独立出现的话，很难被正确识别。所以，环形2中的交叉点不能为切分点优化使用。下面结合图5(b)的交叉点与其相邻点，描述检测笔画轨迹中的交叉点规则：

其中，k1，b1是由相邻监测点P1和P2构成的直线倾斜度和载值；k2，b2是由相邻访问点P3和P4构成的直线倾斜度和载值；θ和(x0,y0)是两条直线夹角和交叉点P0的坐标；

如果，被记录的交叉点是笔画起始点，该交叉点的这两种信息都被记录下来，为以后的切分点处理中参考。一个轨迹点含多种信息是常见的。

min(x1,x2)≤x0≤max(x1，x2)∩min(x3,x4)≤x0≤max(x3,x4)

min(y1，y2)≤y0≤max(y1,y2)∩min(y3，y4)≤y0≤max(y3，y4)

θ<T_cross_angle

2.5.5访问所有访问点以后，回到步骤2.5.1,用笔画轨迹中的第二个点与其后一点新的相邻监测点，重复步骤2.5.2、2.5.3、2.5.4访问此相邻监测点之后的笔画轨迹。

2.5.6用以上步骤(2.5.1-2.5.5)初步完成交叉点检测以后，用多个检测点来形成检测线段和访问线段，并产生一些连续的多个交叉点，交叉点检测完成之后，对顺序连续的交叉点进行合并。

这个步骤是属于选择性的操作。用多个点来做检测段和访问段减少计算量，提高交叉点检测的性能和召回率。由于检测段和访问段都比较长，在检测段中的多各点被判断为交叉点，所以检测段和访问段的长度也不能太长，可以在3-5个点之间控制为好。产生的连续交叉点简单的可以用相邻交叉点之间的欧式距离阈值来进行合并。这里的欧式距离阈值设为1-3就行，因为真正的相邻交叉点离得远。

步骤3：基于轨迹局部信息点的单词过切分

手写单词中的正确切分点通过过切分方法很方便的找出来。谷点是过切分中首先考虑的切分点候选，也非常适合维吾尔文单词切分。手写维吾尔文单词中有些字母还可能以纵向连接，仅采用谷点来过切分会忽略这些字母。所以，本发明在基于谷点的横向过切分基础上又做了基于最右和最左点的纵向过切分。

3.1横向过切分：

横向过切分就是用笔画轨迹中的谷点作为初始切分点。维吾尔文单词中的字母往往有一个峰点，而笔画轨迹中两个相邻峰点之间总有一个谷点，恰恰这个谷点很可能是正确切分点。不是所有的谷点是正确切分点，比如落于环形结果里的谷点应该被排除，因此用笔画轨迹中落于环形外的谷点作为初始切分点，形成初始切分块；

3.2用交叉点对初始切分点进行优化：

有些初始切分点被上方或下方的轨迹重叠的。尽管如此，有些被重叠的初始切分点还是有效而正确，只是在环形轨迹里面的初始切分点被过滤掉。

访问每一个的初始切分块，并按如下方式处理，

3.2.1如果，初始切分块包含交叉点，并且交叉的时间顺序优先于初始切分点，该初始切分点被认为重叠在环形结构里面，需丢弃；交叉点作为正确的切分点；

3.2.2如果初始切分点的时间顺序优先于环形结构，则初始切分点被保留；

3.3纵向过切分：

在维吾尔文手写单词中有些字母以纵向连接的形式出现，经常是倾向于向上的字母和倾向于向下的字母连接的时候。这些字母一般难以分割检测和分割。有些字符是垂直方向写入或连接的。这种情况发生在顶部定向字符与向下定向字符形状连接时很难发现和区别单词中的字母。观察维吾尔手写单词形状发现，在一个笔划的开头总有一个局部最右点，且在第一个最右点之前的切分块往往是一个笔画的主体。还有，在第一个最左点之前的切分块往往也是一个笔画的主体。有时候，在手写单词其它分也有纵向连接的字母。基于这一特性，可以利用最左点在垂直方向上再次过切分。具体地说，如果一个初始切分块包含最左点，那么在这个最左点之前应该有一个字母，用如下规则：

对以上步骤得到的每一个的初始切分块，用局部最右点和局部最左点进行再次切分分析。

因为第一个局部最右点在第一个最左点前面，所以在纵向过切分的时候用局部最左点为主要参考。

3.3.1如果切分块中最左点之前有切分点(在步骤3.2确定的总轨迹中记录的切分点)，该切分点被保留；

3.3.2如果切分块中最左点之前有交叉点(在步骤3.2确定的总轨迹中记录的交叉点)，该切分块不做处理；

3.3.3如果切分块中最左点之前没有总轨迹中记录的初始切分点或交叉点，该最左点之前应该加一个切分点。

3.3.4在最左点之前增加的一个切分点为该局部最左点之前的第n各点作为新增切分点，n为3-5，或者以该最左点和笔画起点的中点。

3.3.5为了保留字母结构的完整性，对新增的切分点进行再次优化，即使用新切分点之前的第m个点，m为1-5。

步骤4：切分块合并

过切分有助于找到所有可能的分割点，同时总是产生更多的多余的切分点。虽然通过过切分找出来的许多切分点都被认为正确切分点而使用，它们产生的多余的切分块会影响以后的识别效果。合并多余的切分块是提高单词切分精度的有效方法。

4.1合并笔画起段和终段的切分块：

过切分可能在笔画的起段和终段部分产生多余的切分块。合并这些多余的切分块首先需要正确判断某一个切分块是不是多余的切分块或者是一个独立字母或字母的主体。笔画起段的切分块根据起轨迹长度来容易判断。因为笔画起段的多余切分块往往是很短的。判断笔画终段的切分块是否多余是比较难，需要更多考虑和研究。本发明简单地用切分块轨迹长度阈值来判断笔画起段和终点的多余切分块。笔画起段的多余切分块与其后面的切分块合并，笔画终段的多余切分块则与其前面的切分块合并。

用切分块轨迹长度阈值来判断笔画起段和笔画终段的多余切分块。如果，切分块中轨迹序列长度(轨迹点数)小于切分块轨迹长度阈值，该切分块被作为多余切分块并进行其相邻的切分块合并。笔画起段的多余切分块与其后面的切分块合并，笔画终段的多余切分块则与其前面的切分块合并；

4.2合并横向平段：位置特别靠近的初始切分点会产生多余的切分块。这些多余的切分块根据其总体倾斜度和轨迹点方向连续性来判断。用如下条件来判断切分块是否为多余的平段切分块，并进行合并，

4.2.1切分块不包含峰、谷、右、左或相交点，则该切分块为多余平段。

4.2.2多余平段不包含笔画起点和终点；

多余平段切分块以其中点分为两部分，分别与其相邻的前后切分进行合并。具体把多余切分块的前半部分被归属于前面的切分块，后半部分则被归属于后面的切分块。

步骤5：组合切分块，形成字母，

通过以上过切分生成的切分块仍需分组形成完整有效的字母。因在过切分之前没有进行延迟笔画检测，组合切分块形成字母将更加困难。针对这种情况，本发明提出了一种基于切分块形状信息的切分块组合算法。该算法不要求预先探测延迟笔画。

切分块组合实现步骤如下：

5.1获取每个切分块的形状特性包括上下左右边界。然后判断切分是否包含峰点；

两个切分块的重叠程度用重叠度和被重叠度来衡量；

如果检测段与任何其它访问段都没有重叠并且检测段的形状较大，则该检测段做为独立字母来处理；

5.4并重复对剩余切分块进行的重叠探测；被处理后的切分块不再参加切分块组合。

通过重叠度和被重叠度计算形成和提取手写单词中的个别字母。

本发明利用Matlab实现单词切分和其切分效果的可视化。表1列出了一种用于预处理和单词切分算法的参数和阈值的实施例。联机手写维吾尔文单词数据是以二进制形式保存的手写笔尖轨迹，被记录的信息包括手写单词中的总笔画数，每笔画的分解点标志，以及各点的坐标等。

表1预处理和单词切分采用的参数值

参数	参数值
		归一化窗口大小(x,y坐标的最大值)	500,500
去噪相邻点距离阈值	笔画轨迹中平均相邻点距离的3倍
		去重复点相邻点距离阈值	笔画轨迹中平均相邻点距离的0.5倍
移动平均平滑相邻点个数	5
		平滑级数	2
点采样相邻点距离阈值	2
		判断平直点倾斜角度阈值	20°
判断交叉点夹角阈值	30°
		笔画起段和终段多余切分块长度阈值	5points
切分块组合中判读独立笔画的长度阈值	10points

图6为单词过切分效果示意图，显示了本发明在单词切分中一些步骤的切分效果，其中，图(a)原始样本、图(b)横向过切分、图(c)用交叉点优化、图(d)多余切分块合并、图(e)组合切分块形成字母。使用谷点做初始切分点横向过切分确实很有效。它很方便的找到尽量多的真实切分点。

如图6(b)所示，用谷点很容易找到真实的切分点。但是，使用谷点过切分不能避免产生影响或破坏字母结构。

如图6(c)所示，用交叉点或环形结构后的初始切分点优化效果。使用切分点优化以后，可以避免一些多余的切分点，这有助于提高精度。

如图6(c)所示，纵向书写或连接的字母通过利用局部最左点重新做纵向过切分。但是，再次过切分之后多余的切分块会更多。

如图6(d)所示，在笔画其段和终段以及笔画轨迹中多余的切分点根据各种规则合并，减少多余切分块的数量，让单词切分更加准确。

如图6(e)所示，用垂直虚线来分割组合后的各笔画。

图7为手写单词样本的单词切分案例示意图，显示了一些不同的手写单词样本的单词切分案例。在图7(a)-(c)中给出了正确切分的单词。有一些没能正确切分的单词放在图7(d)-(f)中，其中没能够正确分割出来字母或笔画用圆圈表示。

根据维吾尔文书写特征，本发明用横向和纵向过切分结合的方法来减少了有些正确切分点容易被忽略的情况。通过过切分生成的多余切分块用各种规则逐渐合并，提高了单词切分的准确性。根据各初始切分块的互相重叠情况来进行切分块组合，形成有效字母形状。

Claims

1.一种手写维吾尔文单词切分识别方法，其特征在于，包括以下步骤：

步骤1：预处理：

1.1去燥和重复点，

1.2轨迹点插入，

1.3平滑滤波，

1.4等距离轨迹点采样；

步骤2：轨迹局部信息点探测：

检测手写轨迹中的平直点、局部最大点/峰点、局部最小点/谷点、局部最右点、局部最左点、交叉点以及各笔画的起点和终点信息点，

2.2平点检测：从笔画的第二点开始，在笔画轨迹中的每一点(x_i，y_i)与其前一点(x_i-1，y_i-1)形成一个线段，计算该线段对于横轴的倾斜度θ；如果线段的倾斜度小于平点检测阈值，则该点被记为平点；如果线段倾斜度大于平点检测阈值，则该点被记为非平点；

由相邻点构成的线段倾斜度计算公式：

2.3峰点和谷点检测：

2.3.1将笔画轨迹的笔画起点同时设定为初始峰点和谷点：峰点＝谷点＝笔画起点(x₁，y₁)；

2.3.2在笔画轨迹上逐点寻找真实的峰点和谷点：

对笔画轨迹中的每一点(x_i，y_i)与其前一点(x_i-1，y_i-1)的坐标进行比较，如果该点位置高于前一点，则前一点暂时被认为谷点，直到遇到纵向位置比谷点低的轨迹点，这时更新谷点；

对笔画轨迹中的每一点(x_i，y_i)与其前一点(x_i-1，y_i-1)的坐标进行比较，如果该点位置低于前一点，则前一点暂时被认为峰点，直到遇到纵向位置比峰点高的轨迹点，这时更新峰点；

以上轨迹点比较操作可简单描述为：

若y_i＞y_i-1：谷点＝(x_i-1，y_i-1)，访问下一点

若y_i＜y_i-1：峰点＝(x_i-1，y_i-1)，访问下一点

2.3.3确定笔画轨迹的峰点和谷点；

2.4最右和最左点检测，

2.4.1笔画轨迹的笔画起点同时作为初始最右点和最左点，

2.4.2在笔画轨迹上逐点寻找真实的最右点和最左点：

对笔画轨迹中的每一点(x_i，y_i)与其前一点(x_i-1，y_i-1)的坐标进行比较，如果该点位于前一点的左边，则前一点暂时被认为最右点，直到遇到横向位置比最右点更右的轨迹点，这时更新最右点；

2.4.3确定笔画轨迹的最右点和最左点；

2.5交叉点检测：

2.5.1用笔画轨迹中最初两个点作为两个相邻监测点P1和P2，并可连接形成线段，命名为检测线段；然后，剩下的笔画轨迹被逐点访问；其中每一点被命名为访问点；

k1，b1是由相邻监测点P1和P2构成的直线倾斜度和截距；k2，b2是由相邻访问点P3和P4构成的直线倾斜度和截距；θ和(x0,y0)是两条直线夹角和交叉点P0的坐标；

步骤3：基于轨迹局部信息点的单词过切分，

3.1横向过切分：

3.3.3如果切分块中最左点之前没有轨迹中记录的初始切分点或交叉点，该最左点之前应该加一个切分点；

步骤4：切分块合并，

4.1合并笔画起段和终段的切分块：

4.2.2多余平段不包含笔画起点和终点；

多余平段切分块以其中点分为两部分，分别与其相邻的前后切分进行合并；具体把多余切分块的前半部分归属于前面的切分块，后半部分则归属于后面的切分块；

步骤5：组合切分块，形成字母，

切分块组合实现步骤如下：

5.1获取每个切分块的形状特性包括上下左右边界；然后判断切分是否包含峰点；

两个切分块的重叠程度用重叠度和被重叠度来衡量；

重叠度＝重叠段宽度/访问段宽度,

被重叠度＝重叠段宽度/检测段宽度

2.如权利要求1所述的一种手写维吾尔文单词切分识别方法，其特征在于，所述预处理为，

计算相邻两个信息点的欧式距离公式如(3-1)，

1.2轨迹点插入：在轨迹中各相邻点之间的欧式距离如果大于特定阈值，则对其中间进行插入新点；需要插入的点数N可以用原始近邻点距离的整数来确定，具体由公式(3-1)计算欧式距离，然后取其整数值为需要插入的点数N；

新插入的新点的坐标用一下公式(3-2)来得到，

Δx＝x2-x1,Δy＝y2-y1

是第j个新插入点的坐标；

1.3平滑滤波，

手写等距离轨迹点采样计算方法：

(a)把笔画的第一点作为起点，第二轨迹点作为当前点；

(b)计算起点和当前点的轨迹点欧式距离；

(c)如果轨迹点欧式距离小于采样距离阈值，当前点被丢弃；

3.如权利要求1或2所述的一种手写维吾尔文单词切分识别方法，其特征在于，所述的平滑滤波为在一次平滑得到的轨迹上进行再次或多次平滑。

4.如权利要求3所述的一种手写维吾尔文单词切分识别方法，其特征在于，用重复两次5点移动平均平滑算法，对原始的手写轨迹进行轨迹点平滑滤波。

5.如权利要求2所述的一种手写维吾尔文单词切分识别方法，其特征在于，噪声点距离阈值为重复点距离阈值的3倍。

6.如权利要求1所述的一种手写维吾尔文单词切分识别方法，其特征在于，在步骤2.5.5后用多个检测点来形成检测线段和访问线段，并产生一些连续的多个交叉点，交叉点检测完成之后，对顺序连续的交叉点进行合并。

7.如权利要求6所述的一种手写维吾尔文单词切分识别方法，其特征在于，检测段和访问段的长度在3-5个点之间，欧式距离阈值设为1-3。

8.如权利要求1所述的一种手写维吾尔文单词切分识别方法，其特征在于，步骤3.3.3中最左点之前增加的一个切分点为该局部最左点之前的第n个点作为新增切分点，n为3-5，或者以该最左点和笔画起点的中点。

9.如权利要求8所述的一种手写维吾尔文单词切分识别方法，其特征在于，对新增的切分点进行再次优化，即用新增的切分点之前的第m个点，m为1-5。

10.如权利要求1所述的一种手写维吾尔文单词切分识别方法，其特征在于，在步骤5中还包括步骤5.4，重复对剩余切分块进行的重叠探测；被处理后的切分块不再参加切分块组合。