CN102496013B - 用于脱机手写汉字识别的汉字字符切分方法 - Google Patents

用于脱机手写汉字识别的汉字字符切分方法 Download PDF

Info

Publication number
CN102496013B
CN102496013B CN 201110357395 CN201110357395A CN102496013B CN 102496013 B CN102496013 B CN 102496013B CN 201110357395 CN201110357395 CN 201110357395 CN 201110357395 A CN201110357395 A CN 201110357395A CN 102496013 B CN102496013 B CN 102496013B
Authority
CN
China
Prior art keywords
character
adhesion
segmentation
chinese
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110357395
Other languages
English (en)
Other versions
CN102496013A (zh
Inventor
刘纯平
周双飞
王朝晖
季怡
龚声蓉
蒋德茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN 201110357395 priority Critical patent/CN102496013B/zh
Publication of CN102496013A publication Critical patent/CN102496013A/zh
Application granted granted Critical
Publication of CN102496013B publication Critical patent/CN102496013B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明公开了一种用于脱机手写汉字识别的汉字字符切分方法,其特征在于,包括下列步骤:(1)对待识别的汉字图像进行预处理,所述预处理包括对图像进行二值化处理;(2)基于投影分析对汉字图像进行粗分割,将非粘连的字符分割成单个字符,将粘连的字符整体分割;(3)获得非粘连字符的平均高度;(4)根据步骤(3)获得的非粘连字符的平均高度,对步骤(2)分割后的字符进行判断,得到粘连字符串集;(5)对于粘连字符串集中的每一粘连字符串,基于最小加权分割路径进行细切分,实现粘连字符的切分。本发明可以有效地自适应分割粘连汉字字符和非粘连汉字字符,具有较高的分割准确率和分割效率。

Description

用于脱机手写汉字识别的汉字字符切分方法
技术领域
本发明涉及汉字识别领域,具体涉及脱机手写体汉字识别中的汉字分割问题,尤其是粘连字符串的分割。
背景技术
汉字字符分割技术作为预处理中的一个难点,一直以来都是脱机汉字识别系统应用的障碍。只有将单个汉字正确地从文档图像中分割出来,才有可能进行正确的汉字识别。然而,由于手写体汉字书写随意性和相邻汉字之间的位置关系复杂性,造成手写体汉字要比印刷体汉字难分割得多,尤其是粘连字符的切分。目前,常用的切分技术有基于统计的切分方法、基于结构的切分方法、基于识别的切分方法和基于词的整体切分方法。
(1)基于统计的切分方法
基于统计的切分方法是根据字符的总体统计分布特征,确定字符之间的界线,判别时以字符的平均字宽作辅助判别,统计分布特征的代表性和稳定性对切分的正确性及收敛性起很重要作用,如投影法和连通域法,该方法适合汉字字符间距较宽,无粘连字符的切分,算法效率高。该方法无法用于粘连或交叉字符串的切分。
(2)基于笔划结构的切分方法
近年来,针对粘连手写汉字提出了多种切分方法。采用基于笔划结构切分是一种很有潜力的切分方法,可以从另一个角度解决笔画粘连问题。常见的笔画分割方法有笔画连接盒的动态算法和黑游程跟踪提取笔画算法两种。有学者提出采用先提取笔画再合并的方法,但该方法对汉字切分的好坏很大程度上依赖于笔画提取的好坏,如何有效地提取笔划信息仍有待进一步研究,此外笔画先提取后合并使算法过于复杂。即该方法的主要应用障碍在于准确提取笔划难度较大。
(3)基于汉字识别的切分方法
在模仿人类视觉感知机理的基础上,基于识别的汉字统计切分方法为汉字切分提供了新思路,但由于该方法与后期识别密切相关,算法复杂且汉字识别正确率有限,还有待进一步改善。
(4)基于词整体分割的方法
基于词的整体切分方法是为了绕开粘连汉字分割难度大这一难题,直接将粘连汉字做整体分割进行识别,可较好应用于有限字符集。但对大字符集汉字识别而言,汉字集本身就很大,由单字组成的词语更多,需要的模式库更大,系统效率会更低。并且词只是粘连汉字中的一部分,如何解决非词语的粘连识别问题,都需要进一步研究。
对于粘连或交叉的汉字切分,单单采用一种方法是难以获得高的准确分割率的,于是人们开始寻找将多种方法结合起来进行汉字切分。最初,有学者提出了一种粗切分和细切分相结合的技术方案,首先通过某种方法得到粗切分结果,再对粘连字符串的背景图像作细化处理,找出特征点,利用模糊决策准则求出合理的分割路径,然而这种评价分割路径的模糊决策标准不易被确定。而且这种方法采用了直线作为分割路径。随着研究的深入,直线作为粘连字符的分割路径已逐渐不被学者采用,人们逐渐开始采用曲线或分线段作为粘连字符的分割路径。有学者提出了利用Viterbi算法将原字符串切分成互不连通的分割块,对于其中宽度较大且存在粘连字符的分割块,从候选分割点入手,用非线性分割路径将粘连部分分开;最后再应用A*算法找到全局最佳分割位置。该方法对于交错、单处笔划粘连等字符能够得到较好的分割效果,但并未从根本上解决多种粘连方式的分割问题。最近几年人们开始将遗传算法引入到字符分割技术中,遗传算法被用来寻找最优分割路径,由于遗传算法是一种典型的随机算法,其算法可适应于多种情况,具有很好的鲁棒性,此类方法较好的解决了多处粘连或交叉的情况,但正是由于算法本身的随机性,使算法的效率较低。作为实际应用的技术而言,效率是一个主要的影响因素。
总之,现有的多步切分技术都具有以下共同的特点:基本都是先通过某种方法获取候选分割路径,然后采用某种判优方法选取最佳的分割路径。这种串行模式不足是,如果在两个粘连字符之间没有获得候选分割路径,则准确地进行分割则无从谈起。另外,即使获取了候选分割路径,如果候选分割路径中没有合适的分割路径,即使通过判优规则获取一个相对较好的分割路径,但最终结果仍无法获得准确的分割。再则,如果获取的多个候选路径中,存在一个合适的分割路径,但判优规则的判优准确性亦不是百分之百。因此,需要寻找新的技术思路来解决这种串行模式的不足。
发明内容
本发明的发明目的是提供一种用于脱机手写汉字识别的汉字字符切分方法,以解决非粘连汉字和粘连汉字的分割问题,而且具有较高的效率。
为达到上述发明目的,本发明采用的技术方案是:一种用于脱机手写汉字识别的汉字字符切分方法,用于对粘连和非粘连的汉字字符进行切分以识别汉字,包括下列步骤:
(1)对待识别的汉字图像进行预处理,所述预处理包括对图像进行二值化处理;
(2)基于投影分析对汉字图像进行粗分割,将非粘连的字符分割成单个字符,将粘连的字符整体分割;
(3)获得非粘连字符的平均高度;
(4)根据步骤(3)获得的非粘连字符的平均高度,对步骤(2)分割后的字符进行判断,得到粘连字符串集;
(5)对于粘连字符串集中的每一粘连字符串,基于最小加权分割路径进行细切分,实现粘连字符的切分。
上文中,步骤(1)的预处理有利于减少干扰信息,提高分割效率。通常,首先利用图像获取设备(如扫描仪、照相机或其它图像输入装置)取得彩色或灰度图像,该彩色或灰度图像中具有待识别的汉字信息,图像先进行二值化处理,将前景(汉字)和背景分开;为提高字符分割的准确性,可以对二值化后的图像进行滤波去噪处理,以降低噪音对汉字分割的影响。步骤(2)中的粗分割将经过预处理的二值化图像进行初始分割,采用投影分析算法,利用波谷和波峰进行汉字字符的粗分割,即可将非粘连的字符准确地分割成单个字符,而将粘连的字符作为一个整体分割成粘连字符串。对步骤(2)分割后的字符应当进行判定分类,分成非粘连字符和粘连字符两类,以便作进一步处理。最后,基于最小加权分割路径在初始分割路径的局部邻域内搜索并修正,获得最佳分割路径,实现粘连字符的切分。
上述技术方案中,步骤(2)中,所述基于投影分析对汉字图像进行粗分割的方法是,通过对二值化的图像前景点的计数,获得前景点的Y轴方向的投影直方图,用不存在任何前景点投影的波谷作为字符的分割空隙,实现字符的粗分割。
步骤(3)中,非粘连字符的平均高度的获得方法是,统计分割后每个字符的高度,获得字符高度集H=(h1,h2,h3,h4,ΛΛ,hn),式中hn为第n个字符的高度,对H进行归一化处理,令
Figure BDA0000107838310000041
其中j为1至n的整数,σ为整数且1≤σ≤hmin,hmin=min(h1,h2,h3,h4,ΛΛ,hn),h′i取表达式计算后的整数部分,归一化后的高度按从小到大排列的集合为H′=(h1′,h2′,h3′,h4′,ΛΛ,hm′),其中任何两个元素的值都不相等,C=(c1,c2,c3,c4,ΛΛ,cm)记录H’中不同高度出现的频数,取频数最大值对应的归一化高度为h′k,则非粘连字符的平均高度是 Δ h ‾ = Σ i = h k ′ - δ h k ′ + δ c i × h i ′ ( c h k ′ - δ + c h k ′ - δ + 1 + ΛΛ + c h k ′ + δ ) , 其中,(hk′-δ,hk′+δ)表示hk′的局部邻域, δ = h min 2 σ .
步骤(4)中,判断的方法为,逐一计算分割出来的字符的高度与非粘连字符的平均高度的比值E,若E≤ε,则该字符为非粘连字符,若E>ε,则该字符为非粘连字符,其中,ε为预先设定的阈值,其设定范围为0<ε<2。
优选的技术方案,1.5<ε<2。
步骤(5)中,所述细切分的方法为,
定义粘连字符的分割路径SPL为:
SPL = ( x i , y i ) 0 < x i &le; characterwidth , x i + 1 = x i + 1 , Y upper < y i &le; Y lower - - - ( 5 )
式中,characterwidth是粘连字符串的宽度,i表示最优分割路径搜索范围中的第i个像素,xi是第i个像素x方向坐标,yi是第i个像素y方向坐标,
Y upper = Y center - 1 10 &times; characterheight - - - ( 6 )
Y lower = Y center - 1 10 &times; characterheight - - - ( 7 )
characterheight是粘连字符串的高度,Ycenter是粘连字符中心点的纵坐标,定义带权值的分割路径SPLW为:
SPLW=((x1,y1,w1),(x2,y2,w2),(x3,y3,w3),Λ(xn,yn,wn))    (8)
其中,
Figure BDA0000107838310000053
将两个粘连字符的中线作为初始分割路径,获得初始化的SPLW,将SPLW中一段连续的前景区域元素集合定义为CFR,CFR为SPLW的子集,CFR中的元素权值都是1;其定义如下:
CFR = ( x i , y i , w i ) w i = 1 w j - 1 = 0 w k + 1 = 0 x i + 1 = x i + 1 y i + 1 = y i 0 < j &le; i &le; k &le; n ( x i , y i , w i ) &Element; SPLW - - - ( 10 )
对初始化的SPLW进行扫描,如果找到连续的前景区域CFR,则以该CFR的起点横坐标为起点,终点横坐标为终点,扫描从Ylower到Yupper的每一行的对应横坐标区间,获得每一行的元素权值和,以权值和最小的行对应的点代替该CFR,更新SPLW,重复上述过程,直至完成对SPLW的扫描,由此获得对应的最佳分割路径。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.本发明提出了一种针对含粘连字符的多步切分方法,可以有效地自适应分割粘连汉字字符和非粘连汉字字符,且可以适应不同情况的粘连汉字,有效地解决了分割不足和多处粘连的问题。
2.发明人通过对原型系统的开发证实,本发明的方法具有较高的分割准确率和分割效率,对提高脱机汉字识别系统的识别率具有重要意义。可有效用于自动邮件分拣系统、支票处理系统和自动阅卷识别系统。
附图说明
图1是本发明实施例的手写汉字字符切分系统框架图;
图2是实施例中字符粗分割的示意图;
图3是实施例中字符高度的直方图;
图4是实施例中粘连字符的邻域示意图;
图5是实施例中基于最小权值算法求出的最佳分割路径示意图;
图6是实施例中字符串分割的整个过程示意图;
图7是实施例中交叉无粘连字符分割示意图;
图8是实施例中交叉有粘连字符分割示意图;
图9是实施例中单处粘连无交叉字符分割示意图;
图10是实施例中多处粘连字符分割示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例:参见图1所示,是采用本发明的切分方法的一种手写汉字字符切分系统框架图。各模块详细介绍如下:
(1)二值化模块
对于彩色或灰度图像,需要进行二值化处理,将前景(汉字)和背景分开。以便减少干扰信息,提高分割的效率,是系统必要的模块。
(2)滤波去噪模块
滤波去噪模块是对于二值图像中影响字符分割准确性的噪音进行过滤,降低噪音对汉字分割的影响。
(3)基于投影分析的粗分割模块
粗分割模块是对于预处理后的二值图像进行初始的分割过程。该模块采用投影分析算法,利用波谷和波峰进行汉字字符的粗分割,即将非粘连的字符可以准确的分割成单个字符。而对于粘连的字符,则将作为整体被分割。
(4)粘连字符与非粘连字符的判定规则
该模块是根据判定规则对粗分割结果完成了分类过程。即将其分为非粘连字符和粘连字符两类,对于粘连的字符串,将通过下一个模块进行进一步细切分。
(5)基于最小权值的细切分模块
该模块是对粘连的字符串进行细切分的过程,主要采用最小加权分割路径在初始分割路径的局部邻域内搜索并修正最佳分割路径。最后获得粘连字符的分割结果。
为实现上述系统,采用了基于最小加权分割路径的汉字多步切分算法。本算法主要分为两个阶段:第一阶段是非粘连字符的分割和粘连字符的检测;第二个阶段是基于最小加权分割路径的粘连字符细分割。
下表1给出了本发明的汉字多步切分算法。
表1基于最小加权分割路径的汉字多步切分算法
Figure BDA0000107838310000071
Figure BDA0000107838310000081
具体的算法步骤介绍如下:
(1)基于投影分析的字符分割
本方法采用分而治之的策略,对非粘连字符和粘连字符采取不同的切分方法。利用对二值图像前景点(字符点)点阵区域进行Y轴方向上的投影的方法将粘连字符检测出来,同时对非粘连的字符利用投影直方图的方法进行直接分割。图2是字符粗分割的示意图,其中图2(a)是二值化后的汉字图像;图2(b)是(a)通过在Y轴方向上的投影,得到的前景点的投影直方图。从图2(b)中可以发现字符的点阵区域在直方图中呈现出波峰状,而字符间的空隙在直方图上呈现出波谷状。因此,可以利用两个波谷,对字符进行切分。由于分割时选取的波谷是不存在任何前景点投影的波谷,对于非粘连的字符就可以得到准确的单字符分割结果,对于其中粘连的字符则将作为一个整体被分割出来。图2(c)是分割结果示意图,从图2(c)可以看出,非粘连字符“张”、“成”、“幹”获得准确的分割,而“新陽”由于发生粘连,作为整体被分割出来。
(2)获得非粘连字符的平均高度
根据投影直方图分割的结果,统计分割后每个字符的高度H=(h1,h2,h3,h4,ΛΛ,hn),其中H中的元素按从小到大的顺序排列。由于粘连字符是作为一个整体被切分出来的,其高度分布在一个值较大的局部区间内。而非粘连字符是以单个字符被准确的分割出来,其高度分布在一个值相对小的区间内。为了更好地统计这些高度数据,使区间内的数据更加集中,区间之间的距离更加离散,需要对H进行归一化处理,归一化公式如下:
h i &prime; = h j &sigma; (hi′≠hk′且i∈m,k∈m,j∈n)    (1)
其中h′i只取表达式计算后的整数部分,σ是任意的大于1的整数。可根据情况选取,σ的值越大,则归一化程度越高。但并不是越高越好,归一化程度过高会影响非粘连字符平均高度的准确性。例如,当σ的值大于两个粘连字符的高度时,会将非粘连字符和两个字符粘连的字符串归一化到同一个值区间内。因此,为了获得更好的归一化效果,σ的值不能过大,亦不能过小。为了能自适应地进行归一化处理。推荐σ取值范围的上限值为hmin,其中,hmin=min(h1,h2,h3,h4,ΛΛ,hn),本实施例试验时采用σ=hmin。归一化后的高度集合记作H′=(h1′,h2′,h3′,h4′,ΛΛ,hm′),其中H′中任何两个元素的值都不相等,C=(c1,c2,c3,c4,ΛΛ,cm)记录H′中高度出现频数,即c1是h′1出现的频数。图3是对图2(c)统计后,获得的字符高度的直方图。
通过对C中每个元素的遍历,获得最大的频数,记作MC;其计算公式如下:
MC=max(c1,c2,c3,c4,ΛΛ,cm)    (2)
通过下标的对应关系,可以找到其对应高度,记作hk′。经过大量的实验验证,对于一组由同一个人书写的且只有部分字符发生粘连的字符串图像,频数最大时对应的字符高度是最接近单个字符的平均高度。因此,可以将hk′的局部邻域内字符的平均高度近似作为非粘连字符的平均高度。计算字符平均高度的公式如下:
&Delta; h &OverBar; = &Sigma; i = h k &prime; - &delta; h k &prime; + &delta; c i &times; h i &prime; ( c h k &prime; - &delta; + c h k &prime; - &delta; + 1 + &Lambda;&Lambda; + c h k &prime; + &delta; ) - - - ( 3 )
其中,hk′的局部邻域为(hk′-δ,hk′+δ),根据归一化的程度来确定取值范围。δ是局部邻域的偏移量,是反映归一化程度的变量,计算公式如下:
&delta; = h min 2 &sigma; - - - ( 4 )
(3)字符粘连的判定规则
根据非粘连字符平均高度
Figure BDA0000107838310000102
逐一比较已分割出来的每个字符高度hi′与平均高度
Figure BDA0000107838310000103
的比值E,若E在一定的误差范围内E≤ε(ε>0),则判定为正确分割;若E>ε,则认为没有获得正确的分割结果,而是将粘连字符作为整体分割出来。其中,对于阈值ε的取值,由于同一个人书写的字符高度差异不是特别大,所以如果有两个或更多字符发生粘连,ε的取值应接近于2。在实际的系统中,为保证所有的粘连字符串都能被准确地划分到粘连字符串集合中,ε的取值适当的小于2即可。
(4)SPL和SPLW定义
对于粘连字符的分割路径,可以认为它是由一组坐标点构成的集合。此集合中的元素基本分布在两粘连字符中线的局部邻域内,以图4中的情况为例。中间的曲线是获得的最佳分割路径,其集合元素分布在中线的邻域大小为h/5的区间内。h为粘连字符的高度。
在本发明中粘连字符的分割路径SPL(segmentation path line)定义为:
SPL = ( x i , y i ) 0 < x i &le; characterwidth , x i + 1 = x i + 1 , Y upper < y i &le; Y lower - - - ( 5 )
Y upper = Y center - 1 10 &times; characterheight - - - ( 6 )
Y lower = Y center - 1 10 &times; characterheight - - - ( 7 )
其中,characterwidth是粘连字符串的宽度,characterheight是粘连字符串的高度。Ycenter是粘连字符中心点的纵坐标。
由于分割路径被定义为一组点的集合,因此SPL中每组点都可以被认为是一个分割路径。对于粘连字符而言,由于集合中不同点对粘连字符最佳分割路径的贡献不同,没有完美的分割路径,只有最佳的分割结果。因此,为了更好地求解最佳分割路径,在SPL的基础上利用每个点的权值,将SPL定义扩展为带权值的SPLW,其定义如下:
SPLW=((x1,y1,w1),(x2,y2,w2),(x3,y3,w3),Λ(xn,yn,wn))    (8)
对于权值的计算,本章统一将字符点约定为前景点,其余点为背景点,则计算权值公式如下:
Figure BDA0000107838310000111
(5)求取最小权值路径
根据前面的SPL和SPLW的定义,在寻找基于最小权值的最佳分割路径中,邻域的确定是影响分割准确率的关键因素。大量实验证明,在小于某个值的范围内,邻域大小与分割的准确性成正比。因此,存在一个相对最佳邻域,使分割准确率在其它条件相同情况下获得一个最值。本系统中采用的邻域偏移量,是通过测试大量实验样本获取的一个相对最佳邻域偏移量,其值在SPL的定义中已给出。
根据人们的书写习惯,同一个人书写的字符,其高度相差不大。因此,对于两个字符粘连的情况,采用粘连字符中线上的点完成SPL和SPLW的初始化。即将两个粘连字符的中线作为初始分割路径,对初始化的SPLW进行统计,统计出字符粘连区域元素。在本实施例中,将SPLW中一段连通的前景区域元素集合(即初始分割路径上的字符粘连连通区)定义为CFR(connected foreground region)。因此,CFR为SPLW的子集,CFR中的元素权值都是1,其定义如下:
CFR = ( x i , y i , w i ) w i = 1 w j - 1 = 0 w k + 1 = 0 x i + 1 = x i + 1 y i + 1 = y i 0 < j &le; i &le; k &le; n ( x i , y i , w i ) &Element; SPLW - - - ( 10 )
由于CFR实际是前景区域范围的一个描述,因此,如果能够获得邻域范围内一个最小的CFR权值和,则在该区域中的此扫描线就是要找的最佳分割路径。
基于最小权值的最佳分割路径算法的具体步骤如下:
Step 1:扫描已经初始化的SPLW中每个元素,如果找到连通的前景区域CFR,则跳到Step2。否则,跳到Step6;
Step 2:根据获取的CFR,得到CFR的起点横坐标xj和终点的横坐标xk,然后,扫描从Ylower到Yupper的每一行,获得每一行的CFR;
Step 3:计算每行CFR元素权值和,获得权值和最小的CFR,将其行的纵坐标记作Ymw
Step 4:用权值和最小的CFR中的元素更新SPL中的部分元素,更新条件如下:if(xi==xj),yi=ymv其中(xi,xj)∈SPL,(xj,ymv)∈CFR;
Step 5:跳到Step1,继续扫描SPLW中的剩余元素;
Step 6:结束。
图5是基于最小权值算法求出的最佳分割路径的实验结果。其中,图5(a)是原始粘连字符串图像;图5(b)是初始分割路径;图5(c)是采用基于最小权值获得最佳分割路径。从图5(c)中可以看出基于最小权值的分割路径方法能很好地保留待分割字符结构的完整性。
(6)字符的整个分割过程
图6是采用本算法对一个字符串的分割全过程。图6(a)是原始字符串图像;图6(b)是利用基于直方图投影方法对字符串进行粗分割的分割结果。对于非粘连字符,获得“张”、“成”、“幹”三个字符,而粘连字符“新陽”作为一个整体被分割出来;图6(c~e)是针对粘连字符进行的细分割,其中图6(c)是根据粗分割提供的信息获得的初始分割路径;图6(d)是利用基于最小权值的方法获得的最佳分割路径;图6(e)是根据分割路径将字符串图像中的每个字符分割出来的结果。
采用本实施例的方法构建的系统可以处理不同情况下的粘连字符,可以较好分割单处粘连和多处粘连字符。同时也能较好分割交叉字符,且效率较高,对提高脱机汉字识别系统的识别率具有重要意义。可有效用于自动邮件分拣系统、支票处理系统和自动阅卷识别系统。以下是不同情况下粘连字符分割的实例。
图7是交叉无粘连字符分割;图8是交叉有粘连字符分割;图9是单处粘连无交叉字符分割;图10是多处粘连字符分割。

Claims (5)

1.一种用于脱机手写汉字识别的汉字字符切分方法,用于对粘连和非粘连的汉字字符进行切分以识别汉字,其特征在于,包括下列步骤:
(1)对待识别的汉字图像进行预处理,所述预处理包括对图像进行二值化处理;
(2)基于投影分析对汉字图像进行粗分割,将非粘连的字符分割成单个字符,将粘连的字符整体分割;
(3)获得非粘连字符的平均高度;
(4)根据步骤(3)获得的非粘连字符的平均高度,对步骤(2)分割后的字符进行判断,得到粘连字符串集;
(5)对于粘连字符串集中的每一粘连字符串,基于最小加权分割路径进行细切分,实现粘连字符的切分;
步骤(3)中,非粘连字符的平均高度的获得方法是,统计分割后每个字符的高度,获得字符高度集H=(h1,h2,h3,h4,……,hn),式中hn为第n个字符的高度,对H进行归一化处理,令
Figure FDA00002914695900011
其中j为1至n的整数,σ为整数且1≤σ≤hmin,hmin=min(h1,h2,h3,h4,……,hn),h'i取表达式计算后的整数部分,归一化后的高度按从小到大排列的集合为H'=(h1',h2',h3',h4',……,hm'),其中任何两个元素的值都不相等,C=(c1,c2,c3,c4,……,cm)记录H’中不同高度出现的频数,取频数最大值对应的归一化高度为h'k,则非粘连字符的平均高度是
Figure FDA00002914695900012
其中,(hk'-δ,hk'+δ)表示hk'的局部邻域, &delta; = h min 2 &sigma; .
2.根据权利要求1所述的用于脱机手写汉字识别的汉字字符切分方法,其特征在于:步骤(2)中,所述基于投影分析对汉字图像进行粗分割的方法是,通过对二值化的图像前景点的计数,获得前景点的Y轴方向的投影直方图,用不存在任何前景点投影的波谷作为字符的分割空隙,实现字符的粗分割。
3.根据权利要求1所述的用于脱机手写汉字识别的汉字字符切分方法,其特征在于:步骤(4)中,判断的方法为,逐一计算分割出来的字符的高度与非粘连字符的平均高度的比值E,若E≤ε,则该字符为非粘连字符,若E>ε,则该字符为非粘连字符,其中,ε为预先设定的阈值,其设定范围为0<ε<2。
4.根据权利要求3所述的用于脱机手写汉字识别的汉字字符切分方法,其特征在于:1.5<ε<2。
5.根据权利要求1所述的用于脱机手写汉字识别的汉字字符切分方法,其特征在于:步骤(5)中,所述细切分的方法为,
定义粘连字符的分割路径SPL为:
SPL = { ( x i , y i ) | 0 < x i &le; characterwidth , x i + 1 = x i + 1 , Y upper < y i &le; Y lower } - - - ( 5 )
式中,characterwidth是粘连字符串的宽度,i表示最优分割路径搜索范围中的第i个像素,xi是第i个像素x方向坐标,yi是第i个像素y方向坐标,
Y upper = Y center - 1 10 &times; characterheight - - - ( 6 )
Y lower = Y center + 1 10 &times; characterheight - - - ( 7 )
characterheight是粘连字符串的高度,Ycenter是粘连字符中心点的纵坐标,定义带权值的分割路径SPLW为:
SPLW=((x1,y1,w1),(x2,y2,w2),(x3,y3,w3),…(xn,yn,wn))    (8)
其中,
将两个粘连字符的中线作为初始分割路径,获得初始化的SPLW,将SPLW中一段连续的前景区域元素集合定义为CFR,CFR为SPLW的子集,CFR中的元素权值都是1;其定义如下:
CFR = { ( x i , y i , w i ) w i = 1 w j - 1 = 0 w k + 1 = 0 x i + 1 = x i + 1 y i + 1 = y i 0 < j &le; i &le; k &le; n ( x i , y i , w i ) &Element; SPLW - - - ( 10 )
对初始化的SPLW进行扫描,如果找到连续的前景区域CFR,则以该CFR的起点横坐标为起点,终点横坐标为终点,扫描从Ylower到Yupper的每一行的对应横坐标区间,获得每一行的元素权值和,以权值和最小的行对应的点代替该CFR,更新SPLW,重复上述过程,直至完成对SPLW的扫描,由此获得对应的最佳分割路径。
CN 201110357395 2011-11-11 2011-11-11 用于脱机手写汉字识别的汉字字符切分方法 Expired - Fee Related CN102496013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110357395 CN102496013B (zh) 2011-11-11 2011-11-11 用于脱机手写汉字识别的汉字字符切分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110357395 CN102496013B (zh) 2011-11-11 2011-11-11 用于脱机手写汉字识别的汉字字符切分方法

Publications (2)

Publication Number Publication Date
CN102496013A CN102496013A (zh) 2012-06-13
CN102496013B true CN102496013B (zh) 2013-08-21

Family

ID=46187838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110357395 Expired - Fee Related CN102496013B (zh) 2011-11-11 2011-11-11 用于脱机手写汉字识别的汉字字符切分方法

Country Status (1)

Country Link
CN (1) CN102496013B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064946B (zh) * 2012-12-26 2015-10-28 天津三星通信技术研究有限公司 手写原笔迹保存方法及装置、手写原笔迹检索方法及装置
CN104636744A (zh) * 2013-11-11 2015-05-20 方正国际软件(北京)有限公司 一种数字切分方法及系统
CN103927533B (zh) * 2014-04-11 2017-03-01 北京工业大学 一种针对早期专利文档扫描件中图文信息的智能处理方法
CN105095890B (zh) * 2014-04-25 2019-02-26 广州市动景计算机科技有限公司 图像中字符分割方法及装置
CN104252620B (zh) * 2014-09-25 2017-06-06 同程网络科技股份有限公司 字符粘连的图形验证码识别方法
CN108121988B (zh) * 2016-11-30 2021-09-24 富士通株式会社 信息处理方法和装置以及信息检测方法和装置
CN106611174A (zh) * 2016-12-29 2017-05-03 成都数联铭品科技有限公司 一种非常见字体的ocr识别方法
CN108805128B (zh) * 2017-05-05 2023-11-07 京东科技控股股份有限公司 一种字符分割方法和装置
CN107437084B (zh) * 2017-07-24 2020-12-08 南京晓庄学院 一种脱机手写体文本识别的字符重心定位方法
CN107766854B (zh) * 2017-09-28 2021-07-06 电子科技大学 一种基于模板匹配实现快速页码识别的方法
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN109727363B (zh) * 2018-11-16 2022-03-29 恒银金融科技股份有限公司 一种在票据中识别大写金额的方法
CN110751024A (zh) * 2019-09-06 2020-02-04 平安科技(深圳)有限公司 基于手写签名的用户身份识别方法、装置及终端设备
CN110866501B (zh) * 2019-11-19 2022-04-29 中国建设银行股份有限公司 一种训练数据生成方法、数据识别方法和计算机存储介质
CN112016566B (zh) * 2020-10-27 2021-03-16 恒银金融科技股份有限公司 一种金融票据大写金额处手写汉字的分割方法
CN113723413B (zh) * 2021-08-01 2024-03-08 北京工业大学 一种基于贪吃蛇的手写中文文本切分方法
CN113936181B (zh) * 2021-08-01 2024-03-26 北京工业大学 一种粘连手写英文字符的识别方法
CN115171124B (zh) * 2022-09-07 2022-11-11 江苏巨信众汇数字科技有限公司 用于手写汉字识别的文本分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251892B (zh) * 2008-03-07 2010-06-09 北大方正集团有限公司 一种字符切分方法和装置
CN102169542B (zh) * 2010-02-25 2012-11-28 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置

Also Published As

Publication number Publication date
CN102496013A (zh) 2012-06-13

Similar Documents

Publication Publication Date Title
CN102496013B (zh) 用于脱机手写汉字识别的汉字字符切分方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN104751187B (zh) 抄表图像自动识别方法
Zhang et al. A multilevel point-cluster-based discriminative feature for ALS point cloud classification
CN100361138C (zh) 视频序列中人脸的实时检测与持续跟踪的方法及系统
CN102722712B (zh) 基于连续度的多尺度高分辨图像目标检测方法
Louloudis et al. Text line and word segmentation of handwritten documents
CN102609686B (zh) 一种行人检测方法
CN102663382B (zh) 基于子网格特征自适应加权的视频图像文字识别方法
CN109919159A (zh) 一种针对边缘图像的语义分割优化方法及装置
CN110619327A (zh) 一种复杂场景下基于深度学习的实时车牌识别方法
CN103258203B (zh) 遥感影像的道路中线自动提取方法
CN104537673B (zh) 基于多阈值和自适应模糊聚类的红外图像分割方法
CN103473786B (zh) 基于多目标模糊聚类的灰度图像分割方法
CN106529532A (zh) 一种基于积分特征通道与灰度投影的车牌识别系统
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN109063619A (zh) 一种基于自适应背景抑制滤波器和组合方向梯度直方图的交通信号灯检测方法和系统
CN101359365A (zh) 一种基于最大类间方差和灰度信息的虹膜定位方法
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN101266654A (zh) 基于连通分量和支持向量机的图像文本定位方法和装置
CN107633226A (zh) 一种人体动作跟踪识别方法及系统
CN109410238A (zh) 一种基于PointNet++网络的枸杞识别计数方法
CN106373146A (zh) 一种基于模糊学习的目标跟踪方法
CN104680154B (zh) 一种基于人脸特征和掌纹特征融合的身份识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: Suzhou City, Jiangsu province 215137 Xiangcheng District Ji Road No. 8

Patentee after: Soochow University

Address before: 215123 Suzhou City, Suzhou Province Industrial Park, No. love road, No. 199

Patentee before: Soochow University

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130821

Termination date: 20171111

CF01 Termination of patent right due to non-payment of annual fee