CN113723413A

CN113723413A - 一种基于贪吃蛇的手写中文文本切分方法

Info

Publication number: CN113723413A
Application number: CN202110877660.8A
Authority: CN
Inventors: 付鹏斌; 董澳静; 杨惠荣
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-01
Filing date: 2021-08-01
Publication date: 2021-11-30
Anticipated expiration: 2041-08-01
Also published as: CN113723413B

Abstract

本发明公开了一种基于贪吃蛇的手写中文文本切分方法，该方法用于图像文本的切分。首先，根据文本行的垂直投影直方图和字符笔画宽度自适应计算字符间笔画薄弱位置，利用贪吃蛇算法在该区域内建立初始切分轨迹，并制定多重约束规则优化切分路径，实现手写文本的粗切分；然后，根据字符宽度和宽高比阈值筛选粘连字符，从粘连字符的轮廓曲线和骨架特征入手，选取粘连切分点，并利用贪吃蛇算法进行二次切分；最后，结合汉字的结构特征和汉字识别置信度完成过切分字符的合并，得到最终正确的文本切分结果。

Description

一种基于贪吃蛇的手写中文文本切分方法

技术领域

本发明涉及图像处理、文字识别以及深度学习领域，涉及一种基于贪吃蛇的手写中文文本切分方法。

背景技术

手写文本切分是文本识别的基础和关键，由于手写文本篇幅较长，汉字本身结构相对英文、数字较为复杂，种类繁多，另外书写过程无约束，易受书写方式、书写环境等影响，造成字符粘连、重叠、交错、字符内部间距过大以及多种状态混合等现象，导致文本难切分或切分错误，严重影响识别准确率。

传统的切分方法主要有投影法、连通域搜索法、滴水算法。基于垂直投影的切分算法主要是根据投影值找到波谷位置进行竖直切分，但是对于倾斜汉字较为敏感；基于连通域搜索的切分方法并不适合汉字切分，因为汉字的组成部件较多，搜索连通域时计算量较大，而真正粘连的笔画也不会被检测出来；滴水算法在粘连字符切分时可以形成非线性路径，但由于其滴落规则一直向下，常常造成错误的切分，改进的滴水算法在英文和数字粘连切分方面要好于汉字。

单一的切分方法难以解决切分过程中出现的复杂问题，因此目前研究较多的是采用粗切分与细切分结合的方法或是基于识别反馈的切分方法。粗切分一般采用垂直投影、背景骨架分析、Viterbi等方法。细切分主要是针对粘连字符，常用的方法有细化法，从而找出候选笔画和特征点，利用模糊决策规则或定义滤波器筛选粘连点，然而模糊决策的标准不易被确定，滤波器对于无约束手写数据的适应性也不高；有研究者提出基于结构聚类和笔画分析的方法，但是仅能处理两个汉字粘连的情况。对于切分后需要合并的字符块，有研究者依照字距和宽高特征进行合并，实现较简单，但准确性不高；可利用识别置信度指导合并，效果较好，但由于将整个文本切分序列作为搜索全集，合并计算量较大。近年，有学者提出基于无切分的端到端场景文本识别方法，但由于中文文本行的语义关联性不够强，效果不算很好，同时该方法要求海量数据和高硬件性能。

发明内容

手写中文文本切分的难点在于粘连字符切分和过切分字符的合并。针对上述问题，本发明通过研究手写中文文本的特点，从非粘连字符切分、粘连字符切分、过切分字符合并几个方面，实现了手写文本切分方法，提高了非粘连字符的切分完整性、粘连字符的切分准确性以及过切分字符合并的正确性，为手写文本识别提供了良好基础。

实现本发明方法的主要步骤如下：首先，通过模拟贪吃蛇在文本行中爬行来生成初始切分路径，定义多重路径约束规则进行优化；之后根据平均宽度和宽高比阈值筛选粘连字符，从字符的轮廓曲线极值点和骨架点中选取粘连切分点，利用贪吃蛇算法进行二次切分；最后根据宽高比阈值筛选过切分字符，结合汉字的几何置信度和识别置信度确定字符最优合并方式，实现文本行的字切分。

基于贪吃蛇的手写中文文本切分方法，包括如下步骤：

步骤一，训练手写汉字识别模型，具体为：扩充基础数据集；在LeNet-5模型基础上，加深网络结构，调整网络参数，并加入批量归一化操作，采用softmax层计算输出概率，训练得到手写汉字识别模型，为后续字符合并过程提供识别功能；

步骤二，计算粗切分起点，首先水平和竖直扫描文本行图像，统计连续字符像素个数及其出现的频率，计算笔画宽度；然后对文本行进行垂直投影，得到投影直方图；最后结合笔画宽度和垂直投影计算笔画薄弱位置作为粗切分起点；

步骤三，文本行粗切分，首先在粗切分起点处应用贪吃蛇算法，在文本行图像中建立原始爬行轨迹，然后应用多重约束规则优化切分路径；

步骤四，粘连点提取，具体分为三个步骤：首先提取粘连字符的简单粘连点，通过提取上下轮廓曲线，计算上轮廓曲线的波峰和下轮廓曲线的波谷得到局部极值点，加入候选粘连点集合；然后提取粘连字符的复杂粘连点，通过细化字符图像，检测骨架特征点并筛选，加入候选粘连点集合；最后对于候选粘连点，应用过滤规则，删除冗余粘连点；

步骤五，粘连字符二次切分，在候选粘连点处应用贪吃蛇算法进行二次切分，若该点为上轮廓点，则向上形成垂直路径，向下形成蛇形路径；若该点为下轮廓点，则向下形成垂直路径，向上形成蛇形路径；若该点为骨架点，则形成双向蛇形路径；最终将多段路径合并，应用多重约束规则优化切分路径；

步骤六，过切分字符合并，根据宽高比阈值筛选过切分字符，在其邻域内判断不同组合的几何置信度和识别置信度，选概率最高的作为最优合并组合，完成过切分字符的合并。

与现有技术相比，本发明的方法具有以下优点：

与传统单一切分方法相比，通过将切分分为三个过程，能够更加精确地处理汉字之间的复杂情况，贪吃蛇切分算法可以形成非线性切分路径，减少字符笔画的损伤，有利于识别工作；粘连字符的切分不再限制字符个数，可以有效提取候选粘连点并进一步切分；在过切分字符合并过程中，通过训练汉字识别模型，输出识别准确率，指导合并过程，实现文本的正确切分。

附图说明

图1为本发明所涉及方法的流程图；

图2为CASIA-HWDB1.1手写汉字数据集部分样本图；

图3为添加随机形变后的手写数据图；

图4为本发明改进后的网络结构图；

图5为二值化的手写文本行原图；

图6为贪吃蛇爬行规则图；

图7为贪吃蛇初始爬行轨迹示例图；

图8为应用路径优化规则a后的结果示例图；

图9为应用路径优化规则b后的结果示例图；

图10为应用路径优化规则c后的结果示例图；

图11为应用路径优化规则d后的结果示例图；

图12为粘连字符的轮廓曲线和局部极值点图；

图13为粘连字符细化图；

图14为提取粘连字符骨架点图；

图15为四方向笔段表示图；

图16为候选粘连点图；

图17为粘连字符二次切分过程图；

图18为文本行二次切分示例图；

图19为过切分字符合并过程图；

图20为文本行过切分字符合并示例图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

本发明所涉及方法的流程包括以下步骤：

(1)训练手写汉字识别模型

基础数据集为中科院的CASIA-HWDB1.1手写汉字数据集，其中包含3755类一级汉字，共1,121,749个汉字图像，部分手写样本如图2所示；通过添加随机形变的方式来扩充现有数据集，添加随机形变后的手写数据如图3所示，扩充后的数据集共包含3,468,543个汉字图像；在LeNet-5模型基础上，加深网络结构，调整网络参数，改进后的网络结构如图4所示，主体网络设置为10层卷积+5层池化+2层全连接，输入尺寸为64×64，卷积核的尺寸设置为3×3，步长均为1，每两个卷积层后设置一个池化层，采用最大池化操作，对数据进行降维运算，在卷积层和全连接层后加入批量归一化操作，将上一层的输出归一化到正态分布，采用softmax层计算输出概率，训练手写汉字识别模型。

(2)计算粗切分起点

文本行图像为预处理后的二值图像，如图5所示，为一个文本行原图。文本行图像用img表示，其高用H表示，宽用W表示，img(x,y)表示点(x,y)处的像素值，其中x为横坐标，范围是[1,W]，y为纵坐标，范围是[1,H]，img(x,y)＝1表示字符像素，img(x,y)＝0表示背景像素。

水平和竖直扫描文本行图像，统计连续字符像素的个数sw以及出现的频率n(sw),为了减少笔画宽度的异常值，规定1<sw<1/3W_I，其中W_I为当前文本行图像的宽度，然后对n(sw)进行降序排序，取前三个频率较高的笔画宽度值，计算其加权平均值，最终向上取整得到笔画宽度的估计值，计算方式如下：

对文本行图像进行垂直投影，并将投影值记录到列表VP＝[P₁,P₂,…,P_w]中，粗切分起点选择在字符之间投影薄弱的位置，计算方式如下：

其中，P_x是垂直投影值，ξ是调节参数，ξ越大，得到的爬行起点越多，蛇的初始爬行路径也越多，实验验证取ξ＝3的情况下，能够覆盖绝大多数切分点所在的区域，最后将得到的坐标记录到起点集合Sp＝{(x,y)|x∈[1,W],y＝1}中。

(3)文本行粗切分

遍历起点集合Sp，在每一点处应用贪吃蛇切分算法，得到初始的爬行轨迹，然后通过多重规则筛选路径，删除冗余路径。

如图6所示，为贪吃蛇爬行规则，以向下爬行为例，在贪吃蛇爬行过程中，每一步方向的选择都与当前点下面三个像素和左右两个像素的值有关，只要当前点正下方为背景像素，则优先向下爬行；否则，依次按照c)-f)判断下一步爬行方向，g)为蛇进入字符凹陷区域，无法向下行进，则回溯到前一点，同时将该点标记为字符像素点，表示此处无法向下搜索。如图7所示，为初始爬行轨迹，并记录到路径列表Path＝[Path₁,Path₂,…,Path_n]中，其中Path_i＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)|x∈[1,W],y∈[1,H]}表示一条路径的坐标点集合，i＝1,2,…,n。。由于路径中存在冗余，定义以下路径优化规则进行筛选：

a、若Path_i到Path_i+k(0<k≤n-i)之间无字符像素且终点相同，则从该终点向起点回溯，与向下爬行规则相反，最终得到一条长度较短的路径，应用路径优化规则a后的结果如图8所示。

b、若Path_i左右两侧字符块的水平重叠率大于等于0.5，则删除Path_i，应用路径优化规则b后的结果如图9所示。

c、若Path_i为非线性路径，其中在一坐标点处可以形成垂直路径，则使用该垂直路径代替原Path_i，应用路径优化规则c后的结果如图10所示。

d、若连续路径之间无有效字符，则只保留靠近中间位置的一条，应用路径优化规则d后的结果如图11所示。

(4)粘连点提取

首先根据汉字内部笔画紧凑、汉字之间笔画稀疏的特点，通过轮廓曲线局部极值提取简单粘连点，对于水平文本行，其上轮廓的曲线计算如下：

TP(x)＝min{y|img(x,y)＝1,x＝1,2,...,W}

其中TP(x)为x对应列中最小的字符y值，x＝1,2,...,W，y＝1,2,...,H。

下轮廓的曲线计算如下：

BP(x)＝max{y|img(x,y)＝1,x＝1,2,...,W}

其中BP(x)为x对应列中最大的字符y值，x＝1,2,...,W，y＝1,2,...,H。

采用差分遍历向量法分别计算上轮廓曲线的波峰和下轮廓曲线的波谷，首先计算一阶差分向量D(i)，计算方式如下：

D(i)＝TP(i+1)-TP(i),i＝1,2,...,W-1

遍历向量D(i)，判断其符号，得到D(s)：

差分遍历D(s)判定波峰波谷，判断方式如下：

如图12所示，为粘连字符提取的上下轮廓和局部极值点，将其加入候选粘连点集合adhesion＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)|x∈[1,W],y∈[1,H]}中。

根据复杂粘连的结构与汉字内部结构相似，通过提取字符骨架点来获取复杂粘连点，首先采用基于Z-S改进的细化算法提取字符骨架，细化效果如图13所示。提取字符骨架之后，扫描字符像素点，若其八邻域内有三个及以上字符像素，则认为该点为骨架点，由于骨架提取过程中存在一定程度的畸变，导致提取到冗余骨架点，如图14所示。定义粘连点过滤规则：

a、若骨架点所在的四方向笔段长度均小于笔画宽度SW，则删除该点，其中四方向笔段长度的表示如图15所示。

b、保留[1/3W_avg,curW-1/3W_avg]范围内的粘连点，其中W_avg为当前阶段的文本行的字符平均宽度，curW为当前粘连字符的宽度。

c、保留相邻SW范围内邻域像素个数最小的粘连点。

d、若两个骨架点距离较近，满足D_S<μSW，则保留所属笔段方向更多、笔段长度更大的一点，其中D_S为两点间距离，μ为调节参数，可以控制两点之间距离的阈值，μ越大，阈值越大，本文取μ＝2。

e、保留距离轮廓粘连点2SW范围内的骨架点。

如图16所示，为过滤后的候选粘连点，将其加入候选粘连点集合adhesion中。

(5)粘连字符二次切分，

根据汉字的方块字特点，其宽度、宽高比一般在一定范围内，首先通过设置宽度、宽高比阈值筛选粘连字符，然后利用贪吃蛇算法进行二次切分，并利用路径优化规则筛选分割路径，具体方法为：

a、遍历路径列表Path，计算相邻路径之间的字符宽度EW_j到列表EW，计算宽高比WHR_j到列表WHR，其中，0≤j≤i-1。

b、遍历列表EW和WHR，计算平均宽度avgW_c和平均宽高比avgWHR，若EW_j>avgW_c&&WHR_j>avgWHR，则判定其为粘连字符。

c、对于粘连字符，计算其轮廓曲线局部极值点、提取骨架点并应用粘连点过滤规则，加入到粘连点集合adhesion中。

d、遍历粘连点集合adhesion，检测粘连点四方向的最短笔段，并进行像素反转，令贪吃蛇在该粘连点处双向爬行，对于一个粘连区域，可能形成多段路径，因此Path_i＝P₁∪P₂∪…∪P_i∪…∪P_k，P_i表示从粘连点出发的一段路径1≤i≤k，之后对Path_i中的坐标点按纵坐标升序排序。

e、对于粘连字符形成的切分路径，应用路径优化规则。

如图17所示，为粘连字符二次切分过程。

如图18所示，为文本行二次切分示例图。

(6)过切分字符合并

根据汉字结构特征，一般情况下，过切分字符在宽高比方面小于单字，设置宽高比阈值T_WH，对过切分字符和单字分类，

其中，WHR_i为每个待分类字符的宽高比，取T_WH＝0.5。

设C_i,j为连续路径Path_i，Path_i+1，...，Path_j之间的组件，其宽度和高度分别为CW_i,j和CH_i,j。几何置信度计算方式如下：

其中，P_i,j表示组件C_i,j为一个汉字的几何置信度，由几何特征p_k及权重因子w_k(k＝1,2,3)共同决定：

其中，p₁为组件C_i,j的平均宽度差异度，计算方式如下：

其中，avgW_c为当前阶段文本行的字符平均宽度，CW_i,j为当前组件的宽度。

p₂为组件C_i,j的平均宽高差异度，计算方式如下：

其中，CW_i,j为当前组件的宽度，CH_i,j为当前组件的高度。

p₃为组件C_i,j的字内密集度，计算方式如下：

其中，d_s,s+1表示相邻组件最小外接矩形之间的水平距离，取w₁＝0.3，w₂＝0.4，w₃＝0.3。

识别置信度通过将待识别的字符图像输入到预先训练好的识别模型中得到。将组件C_i,j的识别置信度记为R_i,j，则组件C_i,j的合并置信度merge_i,j计算方式如下：

merge_i,j＝ηP_i,j+(1-η)R_i,j

其中，η为调节参数，用来分配几何置信度和识别置信度的权重，取η＝0.4，最终根据合并置信度输出概率最高的一组作为最优合并组合。

如图19所示，为过切分字符合并过程。

如图20所示，为文本行过切分字符合并示例图。

(7)手写文本切分正确率实验

实验数据为某高中期末考试语文答题卡中1000张大段手写文本图像，共包含5140行文本，91247个汉字字符，测试结果如表1所示。

表1测试结果

Claims

1.基于贪吃蛇的手写中文文本切分方法，其特征在于，包括如下步骤：

步骤六，过切分字符合并，根据宽高比阈值筛选过切分字符，在其邻域内判断不同组合的几何置信度和识别置信度，选概率最高的作为合并组合，完成过切分字符的合并。

2.根据权利要求1所述的基于贪吃蛇的手写中文文本切分方法，其特征在于，步骤一中所述网络结构具体如下：

在LeNet-5网络模型基础上进行改进，改进后的网络包含10个卷积层、5个池化层、2个全连接层，输入层尺寸规定为64×64，为了使字符处于图像正中，便于后续识别，训练和识别时先将图像归一化到56×56，然后在四周补上4个背景像素，卷积核的尺寸为为3×3，步长为1，每两个卷积层后设置一个池化层，采用最大池化操作，池化核大小为2×2，步长为2，在卷积层和全连接层后加入批量归一化操作，将上一层的输出归一化到正态分布，使训练更易收敛，采用softmax层计算输出概率。

3.根据权利要求1所述的基于贪吃蛇的手写中文文本切分方法，其特征在于，步骤二中所述的计算粗切分起点的方法具体如下：

文本行图像用img表示，其高用H表示，宽用W表示，img(x,y)表示点(x,y)处的像素值，其中x为横坐标，范围是[1,W]，y为纵坐标，范围是[1,H]，img(x,y)＝1表示字符像素，img(x,y)＝0表示背景像素；

a、水平和竖直扫描字符图像，统计连续字符像素的个数sw以及出现的频率n(sw)，为了减少笔画宽度的异常值，规定1<sw<1/3W_I，其中W_I为图像宽度；

b、对n(sw)进行降序排序，取前三个频率较高的笔画宽度值，计算其加权平均值，最终向上取整得到笔画宽度的估计值；

c、对文本行进行垂直投影，并将投影值记录到列表VP＝[P₁,P₂,…,P_w]；

d、计算字符之间投影薄弱的位置，记录到起点集合Sp＝{(x,y)|x∈[1,W],y＝1}中。

4.根据权利要求1所述的基于贪吃蛇的手写中文文本切分方法，其特征在于，步骤三中所述的文本行粗切分方法具体如下：贪吃蛇爬行规则设置如下：向下爬行时，在贪吃蛇爬行过程中，每一步方向的选择都与当前点下面三个像素和左右两个像素的值有关，只要当前点正下方为背景像素，则优先向下爬行；否则，依次判断右下、左下、右、左方向是否为背景像素，若是则继续爬行；若五个方向均不能行进，表示蛇进入字符凹陷区域，无法向下行进，则回溯到前一点，同时将当前点标记为字符像素点，表示此处无法向下搜索；路径列表为Path＝[Path₁,Path₂,…,Path_n]，其中Path_i＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)|x∈[1,W],y∈[1,H]}表示一条路径的坐标点集合，i＝1,2,…,n；；由于路径中存在冗余，应用路径优化规则进行筛选：

a、若Path_i到Path_i+k之间无字符像素且终点相同，0<k≤n-i，则从该终点向起点回溯，与向下爬行规则相反，最终得到一条长度较短的路径；

b、若Path_i左右两侧字符块的水平重叠率大于等于0.5，则删除Path_i；

c、若Path_i为非线性路径，其中在一坐标点处可以形成垂直路径，则使用该垂直路径代替原Path_i；

d、若连续路径之间无有效字符，则只保留靠近中间位置的一条。

5.根据权利要求1所述的基于贪吃蛇的手写中文文本切分方法，其特征在于，步骤四中所述的粘连点提取方法，根据汉字内部笔画紧凑、汉字之间笔画稀疏的特点，通过轮廓曲线局部极值提取简单粘连点；根据复杂粘连的结构与汉字内部结构相似，通过提取字符骨架点来获取复杂粘连点。

6.根据权利要求1所述的基于贪吃蛇的手写中文文本切分方法，其特征在于，步骤五中所述的粘连字符二次切分方法具体如下：

a、遍历路径列表Path，计算相邻路径之间的字符宽度EW_j到列表EW，计算宽高比WHR_j到列表WHR，其中，0≤j≤i-1；

b、遍历列表EW和WHR，计算平均宽度avgW_c和平均宽高比avgWHR，若EW_j>avgW_c&&WHR_j>avgWHR，则判定其为粘连字符；

c、对于粘连字符，计算其轮廓曲线局部极值点、提取骨架点并应用粘连点过滤规则，加入到粘连点集合adhesion中；

d、遍历粘连点集合adhesion，检测粘连点四方向的最短笔段，并进行像素反转，令贪吃蛇在该粘连点处双向爬行，对于一个粘连区域，形成多段路径，Path_i＝P₁∪P₂∪…∪P_i∪…∪P_k，P_i表示从粘连点出发的一段路径1≤i≤k，之后对Path_i中的坐标点按纵坐标升序排序；

e、对粘连字符形成的切分路径，应用路径优化规则。

7.根据权利要求1所述的基于贪吃蛇的手写中文文本切分方法，其特征在于，步骤六中所述的过切分字符合并方法具体如下：

a、遍历Path，计算相邻路径之间的字符宽度EW_j到列表EW，计算宽高比WHR_j到列表WHR，其中，0≤j≤i-1；

b、遍历列表EW和WHR，计算平均宽度avgW_c和平均宽高比avgWHR.

c、若WHR_i小于等于宽高比阈值T_WH，则计算其邻域内不同组合方式的几何置信度和识别置信度：

识别置信度通过将待识别的字符图像输入到预先训练好的识别模型中得到；最终根据合并置信度输出概率最高的一组作为最优合并组合。