CN104408455B

CN104408455B - 粘连字符分割方法

Info

Publication number: CN104408455B
Application number: CN201410707078.7A
Authority: CN
Inventors: 曹树建; 刘雯雯; 简献忠; 尹征
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2017-09-12
Anticipated expiration: 2034-11-27
Also published as: CN104408455A

Abstract

本发明提供一种粘连字符分割方法，首先将粘连字符的图像骨架化处理，选择骨架特征点，接着，对粘连字符图像像素点的坐标进行SOM神经网络聚类分析，得到神经元的拓扑分布；然后能够确定字符分割点，字符分割点为邻域范围内含有SOM神经元的骨架特征点，最后根据字符分割点分割粘连字符的骨架图像，复原被分割的字符骨架，从而能得到分割好的字符。本发明的粘连字符分割方法，相对于滴水分割法和利用隐型马尔科夫链的分割法，分割字符的准确率大大提高。

Description

粘连字符分割方法

技术领域

本发明涉及一种粘连字符分割方法，属于字符识别技术领域。

背景技术

光学字符识别(OCR)是模式识别学科的一个重要研究领域。近年来，OCR技术在许多领域中得到广泛的运用，例如手写支票的识别、邮政编码自动分检、车牌和集装箱自动识别、验证码的识别等。目前，大多数字符识别是针对单字进行识别的，在这些应用系统中通常先对字符图像进行二值化等预处理操作，把待识别字符从图像中提取出来，然后把提取的字符串分割成一系列的单个字符，再送入分类器进行单字识别。因此，字符分割是OCR系统中一个必不可缺的关键步骤，占有极其重要的位置。

连通分量提取法是一种被广泛应用字符分割方法，但是这种方法不能分割粘连字符，只能分割没有粘连的字符。粘连字符的分割目前主要应用滴水分割法和利用隐型马尔科夫链的分割法。

滴水分割法主要是模仿水滴从高处向低处滴落的过程来对粘连字符进行切分。水滴从字符串顶部在重力的作用下，只能沿字符轮廓向下滴落或水平滚动，当水滴陷在轮廓的凹处时，将渗漏到字符笔画中，经穿透笔画后继续滴落，最终水滴所经过的轨迹就构成了字符的分割路径。利用隐型马尔科夫链的分割法采用人工分割的样本作为训练集合，采用固定大小的小块学习字符之间的可分割概率作为先验知识，对输入图像使用马尔科夫网络，从先验知识中得到一个概率图，表示图像中各个位置可能成为分割点的概率，对概率图使用图像分割算法进行分割，得到字符串的分割位置。

滴水分割法在处理有多个“凹处”和字符扭曲倾斜的验证码时，无法确定准确的滴水渗漏处，错误判断分割位置，造成分割字符笔画的断裂。利用隐型马尔科夫链的分割法的实施过度依赖先验知识，适用于固定格式的验证码。对字符大小和字符间距变化较大的验证码，则无法准确分割。因此，滴水分割法和利用隐型马尔科夫链的分割法分割字符的准确率很差。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种能够准确分割字符的粘连字符分割方法。

本发明为了实现上述目的，采用了以下技术方案：

本发明提供一种粘连字符分割方法，其特征在于，包括以下步骤：

步骤一、采集字符图像，提取字符图像像素点的坐标，确定字符粘连区域；

步骤二、将粘连字符的图像骨架化处理，得到粘连字符的骨架图像，提取骨架图像中的骨架分支点，根据约束条件，选择相应的骨架分支点为骨架特征点；

步骤三、对粘连字符图像像素点的坐标进行SOM神经网络聚类分析，使得SOM神经元逼近像素点密集区域，得到SOM神经元的拓扑分布；

步骤四、确定字符分割点，字符分割点为邻域范围内含有SOM神经元的骨架特征点；

步骤五、根据字符分割点分割粘连字符的骨架图像，复原被分割的字符骨架，得到分割好的字符。

另外，在本发明的粘连字符分割方法中，还可以具有这样的特征：其中，步骤一中，字符粘连区域通过连通分量提取法确定。

另外，在本发明的粘连字符分割方法中，还可以具有这样的特征：其中，步骤二中，粘连字符的图像采用基于Voronoi图的骨架化算法进行骨架化处理。

另外，在本发明的粘连字符分割方法中，还可以具有这样的特征：其中，骨架分支点为八邻域内至少存在三个骨架像素点的骨架像素点。

另外，在本发明的粘连字符分割方法中，还可以具有这样的特征：其中，骨架特征点为候选分割点区域内的骨架分支点，候选分割区域的边界为cr＝mc±ωf，mc-ωf为候选分割区域的左边界，mc+ωf为候选分割区域的右边界，mc为粘连字符图像的中轴，ωf为窗口因子。

另外，在本发明的粘连字符分割方法中，还可以具有这样的特征：其中，窗口因子t为粘连字符的笔画宽度。

另外，在本发明的粘连字符分割方法中，还可以具有这样的特征：其中，步骤四中，骨架特征点与SOM神经元之间的邻域范围定义为阈值Dt，Dt为：Dt＝(t/2+2)，t为粘连字符的笔画宽度。

发明作用与效果

根据本发明的粘连字符分割方法，由于首先将粘连字符的图像骨架化处理，根据约束条件，选择相应的骨架分支点为骨架特征点，接着，对粘连字符图像像素点的坐标进行SOM神经网络聚类分析，得到SOM神经元的拓扑分布，然后能够确定字符分割点，字符分割点为邻域范围内含有SOM神经元的骨架特征点，因此根据字符分割点分割粘连字符的骨架图像，复原被分割的字符骨架，从而能得到分割好的字符；而且本发明的分割方法，只要出现邻域范围内含有SOM神经元的骨架特征点，就能完成分割，而不用考虑字符凹处和扭曲、以及字符大小和字符间距变化，因此相对于滴水分割法和利用隐型马尔科夫链的分割法，本发明的方法分割字符的准确率大大提高。

附图说明

图1是本发明的粘连字符分割方法的流程图；

图2是本发明的粘连字符分割方法中连通区域的特征垂直投影图；

图3是本发明的粘连字符分割方法中骨架化处理的过程示意图；

图4是本发明的粘连字符分割方法中骨架特征点的选择过程示意图；

图5是本发明的粘连字符分割方法中确定中轴的过程示意图；

图6是本发明的粘连字符分割方法中字符笔画宽度计算的过程示意图；

图7是本发明的粘连字符分割方法中训练次数与试验分割成功率关系曲线图；

图8是本发明的粘连字符分割方法中SOM聚类拓扑结构示意图；

图9是本发明的粘连字符分割方法中分割字符的过程示意图；

图10是本发明的粘连字符分割方法分割得到的字符的示意图；

图11是本发明的粘连字符分割方法与现有方法的结果对比示意图；以及

图12是滴水分割方法错误分割粘连字符的示意图。

具体实施方式

以下参照附图对本发明所涉及的粘连字符分割方法做详细阐述。

图1是本发明的粘连字符分割方法的流程图。

如图1所示，本发明的粘连字符分割方法具体包括以下步骤：

步骤S-1：采集字符图像，提取字符图像像素点的坐标，确定字符粘连区域。

预处理后的字符图像可以定义为：

P(m,n):{1,...,M}×{1,...,N}→{0,1}

式中M、N代表了字符图像的维数，(m，n)为图像中像素的坐标。

经过连通分量提取法的初步分割，字符序列被划分到L个连通区域：P_i(m,n):{1,...,M}×{1,...,N}→{0,1}i＝1…L，

粘连的字符处在同一个连通区域内。接着，分别对L个连通区域做特征垂直投影，得到如图2所示的垂直投影图。

计算各连通区域的投影区域宽度Wi，其中i＝1～L。通过对大量单个字符和粘连字符宽度的观察，定义经验阈值Width找出粘连字符连通区域。

如果连通区域P_i(m,n)的投影区域宽度W_i大于经验阈值Width，则认为是粘连字符，否则认为是成功分割的单个字符。也即，当Wi<Width，连通区域P_i(m,n)为单个字符的图像；当Wi>Width，连通区域P_i(m,n)为粘连字符的图像。

步骤S-2：将粘连字符的图像骨架化处理，得到粘连字符的骨架图像，提取骨架图像中的骨架分支点，根据约束条件，选择相应的骨架分支点为骨架特征点。

步骤S-2-1：骨架化处理

骨架化的主要作用是去除图像的冗余信息，保留图像的几何拓扑结构信息，以便字符特征的提取与处理。目前字符骨架化的算法主要有多边形主曲线算法、Delaunay三角化化法和Voronoi图法等。鉴于Voronoi图的骨架化算法能够有效地减少了冗余特征和骨架毛刺，更加准确地反映字符整体拓扑结构，故本实施例采用基于Voronoi图的骨架化算法。该算法处理过程如下：

取字符图像P_i(m,n)上任一像素p_i，由像素点p_i确定的离散Voronoi区域Vor(p_i)：Vor(p_i)＝{p|d(p_i,p)＜d(p_j,p)}i，j＝1,…,k,且i≠j，d(p_i,p)表示点p_i和点p的欧式距离，k为图像特征维数，对于i≠j，满足Vor(p_i)∩Vor(p_j)＝Φ。

利用canny算子对图像边缘检测，标记离散生成元Q＝{q₁,q₂,…,q_n}满足构造出各生成元的Voronoi区域Vor(q_n)＝{V(q₁),...,V(q_n)}，离散Voronoi区域对字符图像的边界图形进行了适当的划分，生成边界图形内部的Voronoi边即字符图像的骨架。

图3(a)本实施例所选取的粘连字符二值化后的粘连字符图片；图3(b)为canny边缘检测后的实验结果；图3(c)为基于离散Voronoi图的骨架化方法的实验结果。从图3(c)可以看出采用Voronoi图的骨架化方法最大化的抑制冗余骨架枝，具有很好的鲁棒性。

步骤S-2-2：分支点检测

在骨架图像中，若一个骨架像素点的八邻域内存在至少三个骨架像素点，则称之为分支点。在像素点构成的九方格中，位于正中间的像素点A，它四周的八个方格中共有八个像素点，这八个像素点就是像素点A的八邻域。

骨架图像中粘连字符的分割点具有分支点特性，故分割前需提取粘连字符骨架形态的分支点，本实施例确定的分支点为如图4(a)中圆圈内的像素点。

步骤S-2-3：特征点选择

粘连字符的粘连部分通常出现在粘连字符的中部区域，根据这一特性，在粘连字符连通域P_L(m,n)中建立一个候选分割点区域ROI，将在ROI中的骨架分支点提炼为特征点。本实施例确定的骨架特征点为如图4(b)中圆圈内的像素点。

为了确定ROI的边界，首先定义一个窗口因子：其中，ωf为窗口因子；mc为字符图像的中轴；t为笔画宽度。

ROI区域的大小完全取决于字符笔画宽度和字符图像的宽度。笔画宽度和粘连字符宽度越大，ROI区域自然也应该越大。基于这一点，窗口因子的计算公式中采用中轴mc和笔画宽度t的对数估算窗口因子ωf。字符笔画宽度直接影响中轴的位置。笔画宽度越大，t的对数也越大，对t取对数是为了使ωf的变化更平滑，最后整体除以系数4，将ωf值调整到一个合适的范围。

如图5所示，中轴mc的确定方法为，首先把粘连字符宽度算出来(假设为w)，然后从左往右，一列一列的找，找到字符“p”的第一个像素点(图中用黑圈标记出来了)，并记下这点的横坐标x。最后用x加上w/2，得到的值就是中轴的位置。

其中，窗口因子的计算公式中笔画宽度t的计算过程如下：

(1)运用canny算子图像边缘检测，得到字符笔画的内边缘像素点{q₁,q₂,…,q_k}以及该点的梯度。

(2)任取一个边缘像素点q_i，d_q是其梯度方向。如图6(a)为截取的字符笔画轮廓，按照梯度方向沿着路线如图6(b)所示L:r＝q_i+n·d_q(n≥0)，寻找到另一个边缘像素点p，d_p为其梯度方向，并且d_p与d_q方向满足：-d_p-π/6≤d_q≤-d_p+π/6。

(3)如果没有找到相匹配的像素点p，则该路线L被废弃，需要重新建立新的边缘像素点，并重复以上步骤。如果找到相匹配的像素点p，则两个像素点之间的欧氏距离||p-q_i||即为笔画宽度t，两像素所构成的路径上的任一像素点将被指定该宽度值t。

由窗口因子的计算公式可以看出，窗口因子ωf随着不同的字符笔画宽度而自适应变化，简单的说，字符的笔画越宽，相应的ROI范围就越大，候选分割点的搜索范围也就越大。从而ROI的大小(cr)由此可定义为

cr＝mc±ωf

mc-ωf为ROI左边界；mc+ωf为ROI右边界，如图4(b)两条竖线之间的区域即为ROI，将位于ROI区域内的骨架分支点提炼为骨架特征点。

若初次计算出的ROI边界内不包含骨架分支点，则将ROI边界cr扩大百分之二十，直到中ROI区域内出现至少一个目标分支点为止。

步骤S-3：对粘连字符图像像素点的坐标进行SOM神经网络聚类分析，使得SOM神经元逼近像素点密集区域，得到SOM神经元的拓扑分布。

在实际应用中，提取图片特征向量

P_i(m,n):{1,...,M}×{1,...,N}→{0,1}

令Φ表示为特征映射的分线性变化，它映射输入空间P_i到输出神经元空间ξ，表示为Φ:P_i→ξ。

根据字符像素点空间分布，定义输出神经元空间ξ为拓扑结构为3*3的网络，即3行3列，经过本实施例论证，3*3型网络结构能够准确的映射出粘连字符对的拓扑结构。初始化连接权值为(0，1)之间的随机数，学习率参数η(0)＝1，邻域半径初始为1，最佳匹配神经元满足更新连接权值邻域函数与学习速率η(n)。

SOM聚类原理要求SOM网络对同一样本反复训练。参照字符样本输入维数，且保证SOM网络收敛，同时防止过多的训练次数降低了分割效率，经反复实验，当训练次数为50时，效果最好，效率最高。图7为样本训练次数与试验分割成功率关系曲线，其中X轴代表对同一样本的训练次数，Y轴表示试验的分割成功率。

SOM训练后的拓扑网络映射出字符的结构特征，从而实现对字符间的分割点粗定位。图8中的实心点为训练后连接权值的坐标分布的实验结果，也即得到的SOM聚类拓扑结构中SOM神经元的分布示意图。

步骤S-4：确定字符分割点，字符分割点为邻域范围内含有SOM神经元的骨架特征点。

通过字符骨架得到的骨架特征点和SOM网络训练得出的SOM神经元拓扑结构，可以确定最终的字符分割点。

SOM网络的聚类特性驱使SOM神经元映射在前景像素密集的区域，而字符粘连部分前景像素点分布密集。这样，SOM网络神经元的聚类特性完成对粘连字符的粘连部分粗定位。

骨架特征点则是粘连部分的具体分割点。骨架特征点的本质是骨架分支点，但若仅使用特征点分割字符，无法准确判断特征点是否位于粘连区域，导致错误分割。

最终的准确分割点即为邻域范围内含有SOM神经元的骨架特征点，骨架特征点与SOM神经元之间的邻域范围定义为阈值Dt。阈值Dt的大小与字符笔画宽度t同样密不可分，字符骨架宽度只有一个像素，但考虑到骨架位于原图字符笔画的中心，可以相信笔画越宽，该阈值Dt应该越大，反之亦然。为了保证该阈值的通用性，考虑到神经元可能不会准确分布于原图字符笔画上，故在原先的基础上加上一个补偿系数。经过试验，Dt过大导致出现多个满足条件的分割点，而当Dt值太小又无法定位到符合条件的分割点，最终将2设为该补偿系数。综合上述考量，定义Dt为：Dt＝(t/2+2)。t为字符的笔画宽度，图9左下方的图中用三角形标出满足公式的神经元；图9中间的图中用圆圈出了符合要求的特征点所在位置，该特征点就是最后的分割点。

步骤S-5：根据字符分割点分割粘连字符的骨架图像，复原被分割的字符骨架，得到分割好的字符。

如图9所示，字符分割的过程为，首先确定骨架特征点和粘连字符的SOM网络映射；接着，确定最终的分割点；然后，去除分割点以及其四邻域内所有有效像素点，对字符骨架连通分量提取，就能获得两个独立的字符。最后，利用形态学运算中的腐蚀膨胀操作完成字符骨架图像的复原，复原后的图像更能体现原始字符的特征结构，如图10所示。

以建设银行网上银行和太平洋文本验证码为例，实验数据1000张样本均为带有明显的字符粘连块的验证码图片，其中有交错粘连情况的350张，有简单粘连情况的310张，有重叠粘连情况的246张，有复杂粘连情况的85张，有无粘连情况的373张(同一张验证码图片中可能出现两种粘连类型，故各种类型的验证码图片数量总和会大于1000)。借助VC和MATLAB混合编程，首先对采集图像进行灰度对数变换、高提升滤波和最大类间方差二值化等预处理操作，提取出验证码字符序列图像，然后进行预定算法的字符分割。

选取经典的连通分量提取法、滴水算法与本实施例的方法进行结果对比。连通分量提取法误把粘连区域当成一个连通区域，无法分割除交叉粘连以外的三种类型的粘连字符，在此不进行举例说明。图11中分别给出了滴水分割法与本实施例的字符分割方法在分割粘连字符时的实验结果(第一列为原图，第二例为滴水算法分割结果，第三列为本实施例的字符分割方法结果)。图11(a)为交叉粘连，由于字符间没有明显的粘连部分，三种方法均能取得很好的效果。图11(b)中为简单粘连的粘连字符块，滴水分割法水滴渗漏点明显且单一，故分割效果与本文相差无几。图11(c)为重叠粘连的字符对，字符倾斜同时图像特征复杂导致水滴渗漏点选择偏差，且水滴采取垂直渗漏的策略，造成断裂分割。图11(d)，当字符同时出现复杂重叠粘连时，分割难度增大，滴水分割法几乎无法处理，本实施例的字符分割方法则同样表现出很好的分割性能。图11(e)为字体扭曲的粘连字符，实验结果看出，字体变形扭曲不会影响本实施例的字符分割方法对粘连字符的分割结果。

表1不同分割方法结果对比

表1给出了三种方法的分割结果对比统计。三种算法都是经过了同样的预处理过程，从分割结果看，连通分量提取法与滴水算法的准确率都不及本实施例的分割方法。滴水分割法分割率优于连通分量提取法。

滴水分割法就是一个雨滴一样，哪儿“凹”往哪儿流(也可以说成哪儿低往哪儿流)。对于图12(a)中的重叠粘连的字符，雨滴就会在黑圈标记的地方直接分割下去。而本发明的分割方法是根本不考虑凹处，重叠粘连反而更好分割，因为重叠部分的像素点比正常粘连的更多，在骨架特征点的邻域范围更容易分布神经元，所以分割的准确性很高。对于图12(b)中的重叠粘连的字符，雨滴从最高点往下落，无法分割该图像，因为雨滴只可能在圆圈标记处的地方下落。因此，雨滴分割法对多处粘连字符的分割也很差。滴水分割法用于分割扭曲字符的分割准确率也非常低，如图12(c)，“E”的最上面的横杆是扭曲的，滴水法就会在横杆的凹处进行分割，而这显然是不对的。

不管针对哪种类型的字符，滴水法分割失败的原因，主要就是找不到合适的雨滴下落点。“复杂粘连”和“多处粘连”字符特征比正常的粘连还复杂，找下落点的难度增加，所以就更导致分割率低了。而本实施例的分割方法就不管字符特征复杂不复杂，只要具有在邻域范围内出现神经元的骨架特征点，就能完成分割。

综上看来，在处理粘连字符的情况下，本实施例的分割方法相对于滴水分割法明显提高了分割正确率与普适性。

另外，由于利用隐型马尔科夫链的分割法的实施过度依赖先验知识，适用于固定格式的验证码。对字符大小和字符间距变化较大的验证码，则无法准确分割。而本实施例的分割方法在分割粘连字符的过程中不用考虑字符大小和字符间距变化，因此相对于利用隐型马尔科夫链的分割法，本实施例的分割方法分割字符的正确率更高。

因此，相对于现有技术中的滴水分割法和利用隐型马尔科夫链的分割法，本发明的粘连字符分割方法对粘连字符分割的准确率大大提高。

实施例作用与效果

根据本实施例所涉及的粘连字符分割方法，由于首先将粘连字符的图像骨架化处理，根据约束条件，选择相应的骨架分支点为骨架特征点，接着，对粘连字符图像像素点的坐标进行SOM神经网络聚类分析，得到SOM神经元的拓扑分布，然后能够确定字符分割点，字符分割点为邻域范围内含有SOM神经元的骨架特征点，因此根据字符分割点分割粘连字符的骨架图像，复原被分割的字符骨架，从而能得到分割好的字符；而且本发明的分割方法，只要出现邻域范围内含有SOM神经元的骨架特征点，就能完成分割，而不用考虑字符凹处和扭曲、以及字符大小和字符间距变化，因此相对于滴水分割法和利用隐型马尔科夫链的分割法，本实施例的方法分割字符的准确率大大提高。

当然，本发明涉及的粘连字符分割方法并不仅仅限定于以上实施例中的描述。

Claims

1.一种粘连字符分割方法，其特征在于，包括以下步骤：

步骤一、采集字符图像，提取所述字符图像像素点的坐标，确定字符粘连区域；

步骤二、将所述粘连字符的图像骨架化处理，得到所述粘连字符的骨架图像，提取所述骨架图像中的骨架分支点，根据约束条件，选择相应的骨架分支点为骨架特征点；

步骤三、对粘连字符图像像素点的坐标进行SOM神经网络聚类分析，使得SOM神经元逼近像素点密集区域，得到所述SOM神经元的拓扑分布；

步骤四、确定字符分割点，所述字符分割点为邻域范围内含有所述SOM神经元的所述骨架特征点；

步骤五、根据所述字符分割点分割所述粘连字符的骨架图像，复原被分割的字符骨架，得到分割好的字符，

其中，所述骨架特征点为候选分割点区域内的所述骨架分支点，所述候选分割区域的边界为cr＝mc±ωf，mc-ωf为所述候选分割区域的左边界，mc+ωf为所述候选分割区域的右边界，mc为粘连字符图像的中轴，ωf为窗口因子。

2.根据权利要求1所述的粘连字符分割方法，其特征在于：

其中，所述步骤一中，所述字符粘连区域通过连通分量提取法确定。

3.根据权利要求1所述的粘连字符分割方法，其特征在于：

其中，所述步骤二中，所述粘连字符的图像采用基于Voronoi图的骨架化算法进行骨架化处理。

4.根据权利要求1所述的粘连字符分割方法，其特征在于：

其中，所述骨架分支点为八邻域内至少存在三个骨架像素点的骨架像素点。

5.根据权利要求1所述的粘连字符分割方法，其特征在于：

其中，所述窗口因子t为粘连字符的笔画宽度。

6.根据权利要求1所述的粘连字符分割方法，其特征在于：

其中，所述步骤四中，所述骨架特征点与所述SOM神经元之间的邻域范围定义为阈值Dt，所述Dt为：Dt＝(t/2+2)，t为粘连字符的笔画宽度。