CN110516674B

CN110516674B - 一种文本图像的手写汉字分割方法及系统

Info

Publication number: CN110516674B
Application number: CN201910832751.2A
Authority: CN
Inventors: 魏东琦; 赛琳伟; 王占昌; 唐亚明; 杨博
Original assignee: XI'AN CENTER OF GEOLOGICAL SURVEY CGS
Current assignee: XI'AN CENTER OF GEOLOGICAL SURVEY CGS
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2023-04-18
Anticipated expiration: 2039-09-04
Also published as: CN110516674A

Abstract

本申请公开了一种文本图像的手写汉字分割方法及系统，所述方法包括：将文本图像进行二值化和去除背景网格线操作，获得预处理文档；采用大小为2×128的区域对所述预处理文档做平均池化，得到每行区域；对所述每行区域分割成一块或多块，再进行合并，得到每个字的区域，使得一个汉字的偏旁和部首能正确地合并在一起。本发明的优点是：实现简单，能完美地去除图像中的横竖线条，能处理倾斜行和汉字间的连笔情况，有效找到连笔应该断开的位置；列分割精度高，采用了动态规划算法，结合深度神经网络汉字识别，确保了一个汉字的偏旁部首能正确的合并到一起；综合采用了机械分割、深度学习、统计自然语言处理多种手段，达到了理想的分割效果。

Description

一种文本图像的手写汉字分割方法及系统

技术领域

本发明涉及一种文本图像的手写汉字分割方法及系统。

背景技术

纸张依然是保存信息的重要介质，打印印刷的文稿也不能完全取代手写。实际情况是，往往会存在大量的印刷体和手写体混合的文稿。随着智能手机等设备的普及，使得纸质文稿可被便捷的电子化，但以图像格式保存。获取此类图像文本内容的主要技术是文字识别，其中脱机手写汉字识别难度最大。伴随近几年人工智能技术的发展，脱机手写汉字识别技术产生了质的飞越，单字识别已经达到商业应用水准。但是，成段文本的手写文字的整体识别效果依然欠佳，并不能保证文字总是被正确的分割是影响识别效果的一个重要的因素。因此，解决汉字分割问题是将脱机手写汉字识别技术推向实用的重要环节。

人们对脱机汉字分割做过大量的工作。印刷体分割已经存在成熟的技术方案。而在文字字分割问题中，手写汉字分割颇有难度。针对手写汉字分割问题，在有约束场景下目前确实存在很多解决方案。但是，开放场景下的自由手写汉字分割依然存在很多技术难点，离真正实用化还有一定的差距。首先汉字的结构是复杂的，再由于个人书写习惯，自由书写的随意性等因素的影响，很容易出现汉字之间间距疏密不等、偏旁部首分离、字体变形、汉字之间笔画粘连、行列倾斜等现象。此外，书写纸张一般会有背景格线，最常见的就是水平行分割线。人们在书写时，汉字的某些笔画往往有会和这些背景格线相交，强行去除背景格线会对汉字本身造成破坏。总而言之，诸多实际情况，都增加了脱机自由书写汉字的分割难度。现有的手写汉字分割方法应用到此种情况，效果会变差甚至失效。

发明内容

本发明的目的在于克服上述不足，提供一种文本图像的手写汉字分割方法，其具有准确可靠的分割效果。

为了实现上述目的，本发明采用的技术本发明为：一种文本图像的手写汉字分割方法，其特征在于，包括：

将文本图像进行二值化和去除背景网格线操作，获得预处理文档；

采用大小为2×128的区域对所述预处理文档做平均池化，得到每行区域；

对所述每行区域分割成一块或多块，再进行合并，得到每个字的区域，使得一个汉字的偏旁和部首能正确地合并在一起。

本发明的另一目的在于提供一种文本图像的手写汉字分割系统，其特征在于，包括：

预处理单元，用于将文本图像进行二值化和去除背景网格线操作，获得预处理文档；

行处理单元，用于采用大小为2×128的区域对所述预处理文档做平均池化，得到每行区域；

列处理单元，用于对所述每行区域分割成一块或多块，再进行合并，得到每个字的区域，使得一个汉字的偏旁和部首能正确地合并在一起。

本发明的有益效果为：

实现简单，包括：将文本图像进行二值化和去除背景网格线操作，获得预处理文档；采用大小为2×128的区域对所述预处理文档做平均池化，得到每行区域；对所述每行区域分割成一块或多块，再进行合并，得到每个字的区域，使得一个汉字的偏旁和部首能正确地合并在一起。能完美地去除图像中的横竖线条，而不会对汉字形体造成破坏；能处理倾斜行，采用大小为2×128的区域对整个文档做平均池化，而局部几个字可以认为几乎没有倾斜，因此同一行的字将落入同一个连通集里；能很好地处理汉字间的连笔情况，有效找到连笔应该断开的位置；列分割精度高，采用多步分割，将每个字分割成了一块或多块，其次采用了动态规划算法，结合深度神经网络汉字识别，对列分割的块做合并，确保了一个汉字的偏旁部首能正确的合并到一起；综合采用了机械分割、深度学习、统计自然语言处理多种手段，达到了理想的分割效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明的文本图像的手写汉字分割方法的结构示意图；

图2是本发明的实施例原始图像示意图；

图3是图2所示实施例中的一行示意图；

图4是图3所示实施例去除横线后的图像示意图；

图5是图2所示实施例预处理后的图像示意图；

图6为四种笔画变化类型示意图；

图7为列连笔断开效果图；

图8为本发明的动态规划调整示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

请参照图1至图4，本发明的一种文本图像的手写汉字分割方法，包括：步骤S101，将文本图像进行二值化和去除背景网格线操作，获得预处理文档；步骤S102，采用大小为2×128的区域对所述预处理文档做平均池化，得到每行区域；步骤S103，对所述每行区域分割成一块或多块，再进行合并，得到每个字的区域，使得一个汉字的偏旁和部首能正确地合并在一起。

在一个实施例中，所述二值化操作采用k均值聚类算法将所述文本图像地所有像素聚类为两类，对两类分别赋值，对应背景颜色和字符颜色，获得二值图像。

在一个实施例中，所述去除背景网格线操作包括：先搜索所述文本图像中的横线条，保存为横线条图像；再将所述文本图像旋转90°，搜索所述文本图像中的竖线条，保存为竖线条图像；检测所述横线条图像或竖线条图像每处是否有穿过的笔画，如果没有，直接删除所述横线条图像或竖线条图像，如果有，则通过构造四种横竖撇捺线条的卷积核进行去除操作。

在一个实施例中，所述通过构造四种横竖撇捺线条的卷积核进行去除操作的步骤包括：

先找到所述文本图像中长度超过15像素的横竖撇捺线条，即倾角为0°、45°、90°、135°的线条，分别构造这四种大小为15×15的卷积核K₁、K₂ 、K₃、K₄：

用它们去卷积预处理后的二值图像，记卷积后的图像分别为C₁,C₂,C₃,C₄；

若横线条图像某位置不为0，而C₂,C₃,C₄中对应位置至少有一个不为0，将横线条图像中该像素置0；同样，若竖线条上某处有横撇捺线条的至少一个，则将竖线条图像中该像素置0；最后将横线条图像和竖线条图像做或操作，再取非，与所述二值图像做与操作。

在一个实施例中，所述池化操作包括：先使用核为2×128的全1矩阵，步长为1×32对预处理文档进行卷积，使同一行的字将落入同一个连通集里。

在一个实施例中，对所述每行区域分割成一块或多块，包括粗分割的步骤。

在一个实施例中，对所述每行区域分割成一块或多块，进一步包括字间连笔分割的步骤。

在一个实施例中，对所述每行区域分割成一块或多块，进一步包括重叠区域合并的步骤。

在一个实施例中，所述合并采用动态规划算法或统计自然语言处理方法。

本发明还提供一种文本图像的手写汉字分割系统，包括：预处理单元，用于将文本图像进行二值化和去除背景网格线操作，获得预处理文档；行处理单元，用于采用大小为2×128的区域对所述预处理文档做平均池化，得到每行区域；列处理单元，用于对所述每行区域分割成一块或多块，再进行合并，得到每个字的区域，使得一个汉字的偏旁和部首能正确地合并在一起。

作为具体的实施例，本发明先对图像做预处理。图2为原始图像。首先将图像二值化。用k均值聚类算法将所有像素聚类为2类，对两类分别赋值0和255，即背景颜色和字符颜色。聚类的结果并不知道哪个类是背景类，根据图像4个角的5×5图像的平均所属类别，将该类别视为背景，赋值为0，另一个类别赋值为255，这样就将图像改为黑底白字。记二值化后的数组为A₁。

作为具体的实施例，先找到图像中的横线。遍历数组A₁的所有行。对第i行，令last_pos=-1，用来标记上一个横线点的出现位置。从左到右遍历每列，对于第j列，若A[i-1,j]+A[i,j]+A[i+1,j] != 0，则该位置可能有横线，将last_pos赋值为j，表示从j位置开始出现横线的点。若A[i-1,j]+A[i,j]+A[i+1,j] == 0，即该位置为空白，若此时还有last_pos!=-1且j-last_pos>120，即之前一直为横线的点，且横线长度超过120，则认为找到了一条横线。将找到的横线画到一个单独的图像h_img中。遇到空白点，则将last_pos赋值为-1。将图像旋转90°，再次使用以上方法，就找到了图像中的竖线。将竖线保存在单独的图像v_img中。

若直接将这些横竖线删除，将会切断有笔画跟它们相交的汉字。为此，需要判断横竖线条每处是否有笔画穿过。先找到图像中长度超过15像素的横竖撇捺线条，即倾角为0°、45°、90°、135°的线。方法是分别构造这4种大小为15×15的卷积核K₁、K₂ 、K₃、K₄：

用它们去卷积预处理后的二值图像A₁。记卷积后的图像分别为C₁,C₂,C₃,C₄。若h_img某位置不为0，而C₂,C₃,C₄中对应位置至少有一个不为0，说明有汉字笔画（竖撇捺）穿过横线。那么该像素不应该作为横线的一部分，而是字符的一部分，将h_img图像中该像素置0。同样，若竖线条上某处有横撇捺线条的至少一个，则将v_img图像中该像素置0。最后将h_img和v_img做或操作，再取非，跟二值图像做与操作，就将图像中的横竖线条去掉了。效果见下图，图3为原始图像中的某行，图4为去除横线后的结果。很好的去掉了横线，又基本不干扰文字图像。

最终预处理后的图像如图5所示。预处理后的二值数组记为A。

作为具体的实施例，行分割的目的是得到图像的每行区域。先使用核为2×128的全1矩阵，步长为1×32对预处理后的整个图片进行卷积。用阈值32×255将池化后的图像二值化，即小于该值，像素点为0，大于等于该值为255。记得到的数组为B₁。由于相邻两行的粘连往往是一条“竖”或“捺”，不超过阈值，因此二值化后行之间的区域为空白，实现了分割。核的宽度为128，大约2个字的宽度，这样做的好处是一行若有倾斜，那么相邻两个字还近似可以看做在一条线上，即用多条短折线实现分割相邻两行。宽度步长32，将图像的宽度缩小为32倍，减少了计算量，后面再将图像大小复原。卷积核宽度和步长共同实现了将一行文字变为一个连通区域。用一个二维数组R记录所有行区域，R中同一个行区域的点用相同的值标记。

作为具体的实施例，计算图像M中像素(x,y)处的连通集方法为：设R为与图像大小相同的数组，用来记录图像的连通集，R的初始值全为0；设连通集的标记值为c，即需要将与(x,y)连通的所有点在数组R中标记为c；定义像素(x,y)所在连通集的矩形边界的左上右下初始值为(l,t,r,b)=(y,x,y,x)；定义一个队列q，初始时将点(x,y)放入队列。每次从队列中取出一个点，遍历以该点为中心的九宫格的8个点。记8个点中的某个为(x₁,y₁)，若M[x₁,y₁]!=0且R[x₁,y₁]!=c，即点(x₁,y₁)与点(x,y)连通，且没被遍历过，则将点(x₁,y₁)放入队列；更新数组R[x₁,y₁]=c；更新该连通集的上下左右边界。直到队列q为空，结束循环。返回点(x,y)所在区域的矩形边界。

作为具体的实施例，对行池化后的数组B₁用上述方法计算连通集。定义连通区域标记数组R₁，大小与数组B₁相同，初始为0。遍历数组B₁中的每个像素点(x,y)。若B₁[x,y]!=0且R₁[x,y]==0，即该点不是背景，且目前不属于任何一行，则对该点计算连通集。第i行的类别标记值c=65536*i。再将B₁和R₁扩充成图像原来大小，令B[i,j*32~(j+1)*32]=B₁[i,j]，R[i,j*32~(j+1)*32]=R₁[i,j]。数组B和R与图像大小相同。

作为具体的实施例，该步操作得到的每个连通集大体上是所在的一个行区域，边界不一定正确，行之间的连笔也只给出了大概的分割，具体分割点将在后面给出。另外，由于池化操作的核很大，对于孤立汉字，可能会被阈值截断为0，导致识别不出来它的区域，分割后的区域没有“标本描述”4个字。这也在列分割中解决。

请参照图6至图8，下面对上一步得到的每行区域做列分割，得到每个字的区域。

作为具体的实施例，首先做粗分割。该步利用根据连通集将一行字分割成若干个字符区域。这不分割能解决字符不连笔的情况，包括区域重叠情况。遍历行分割得到的每行区域，利用前述方法计算第i个连通区域的连通集，并在数组R中将第j个连通集标记为i*65536+j。计算数组B的连通集：遍历第i个行区域的每个像素，若数组B在该位置不为0，且数组R在该位置为0，即该位置未被标记过，则将该像素放入队列，调用前述计算连通集的算法。得到该汉字块的区域。

作为具体的实施例，将分割得到的区域中宽×高<16的区域视为噪声点删除。

作为具体的实施例，行连笔分割，先考虑不连笔的情况。有些分割出来的区域跨上下两行，从书写习惯来讲大部分应该划为上一行，若该区域大部分在下一行的上边界以下，则将其划到下一行。判断标准是(区域上边界-该行下边界)/区域高<0.2。

作为具体的实施例，分割行之间的连笔包括：输入笔画上的一个点P₀和笔画前进方向r，输出沿该方向笔画的变化类型。类型分别为1笔画结束、2笔画拐弯、3被其他线条阻挡、4与其他线条交叉，即笔画线条的度。度超过4都视为十字交叉。图6为四种笔画变化类型示意图。

作为具体的实施例，从P₀点出发，沿r方向前进1个像素，设为Q₁点，该点可能偏离了笔画的中心，需要修正轨迹。沿r的垂直方向，即(-ry, rx)方向和(ry, -rx)分别，前进直到遇到笔画边界，即图像在该点为0。记两个边界点为E₁, E₂，令P₁=(E₁+E₂)/2，则P₁位于笔画中心线上。循环使用该算法依次得到笔画中心线轨迹点P₂,P₃,…。若某个Q_i点在笔画外面，说明遇到了笔画终点，返回1。若沿r垂直方向计算边界点E₁和E₂时，超过9个像素仍未到达边界点，说明遇到了笔画分叉。再计算r方向以及r的两个垂直方向是否都超过9个像素来决定分叉点的度，即返回值。若向量P_n-2,P_n与向量P_n, P_n+2构成的角度超过30°，则认为遇到的笔画拐弯，返回2。

作为具体的实施例，遍历一行区域的每列j，设该列位置该行下边界与下一行上边界的中点为i，点(i,j)属于该行某个字区域，从该点出发，以向下为方向，利于上述方法判断连笔变化类型。在返回的连笔位置处断开。例如：“却”的竖笔画与下面的“晶”连笔，从中间竖笔画的像素点开始，向下寻找连笔点。笔画分叉位置在“晶”字的“日”部分，该算法可以精确的找到该连笔分割位置。

作为具体的实施例，列连笔分割，下面处理列之间的连笔。列分割的原则是粒度要细，可以将一个汉字分成多个区域，但务必要将连笔汉字分割开。对于宽度>32的区域都将尝试分割。对一个汉字区域的某一列j，寻找只与竖线有一个笔画线条相交的。记录相交位置p，初始为0，从上到下扫描，对第i行，若数组A[i,j]!=0，碰到了笔画，且p=0则p值更新为i；若A[i,j]==0且p!=0，则p=-p，表示笔画与竖线交叉结束；若再次遇到A[i,j]!=0，此时p<0，则遇到了第二条与竖线交叉的笔画，退出循环。对于只与一条笔画相交的竖线，在相交位置左右尝试断开笔画。方法是以该位置为出发点，分别向左和向右采用前述笔画变化类型判断算法。根据人们书写习惯，若左边的返回类型<右边，则从左边停止处断开，否则从右边断开。

作为具体的实施例，有些字分为上下两个或多个连通区域。例如“晶”。这里将矩形左右边界重叠超过40%的区域合并。

作为具体的实施例，孤立汉字，行分割中可能有的孤立汉字没有找到。采用行池化的方法，用4×4的核对图像做池化，以32×255作为阈值将池化后的结果二值化。这样每个孤立汉字将是一个连通集。采用计算行区域的方法，再次计算每个连通集，这些不在行区域里的连通集就是孤立汉字。孤立汉字也标记在数组R，但孤立汉字不参与下面的动态规划调整和统计合并步骤。

作为具体的实施例，上一步列分割可能会将一个汉字分成多个区域。例如“冫令去阝”，显然应该合并成“冷却”二字，因为“冫”不是个字，“冷”才是，“却”也一样。

下面用动态规划算法将分割开的一行汉字区域合并，设该行有m个区域。实践发现，初步列分割最多将一个汉字分割成3部分。通过输入一个汉字图片，输出该图片对应的汉字。网络的最后一层是一个向量，表示该图片属于每个汉字的概率，最大分量对应的下标即类别。这里取最大分量，若该分量接近1，说明它是一个字的概率很大；反之，若接近0，说明它是一个字的概率很小。利用该网络，计算一行的每个区域是一个字的概率、每个区域与前一个区域、每个区域与前两个区域是一个字的概率。将结果存在一个m×3的数组P中（P₁₂=P₁₃=P₂₃=0）。之后利用动态规划算法计算最优合并方案。如图8所示，设该行区域被分割成m块（图中为5块）。每步有3种走法（合并方式），第i块单独成块、跟前一块合并、跟前两块合并。从左走到右，最多走m步。例如一种可能的走法为12-3-45。计算每种路径的汉字平均识别率(P₂₂+P₁₃+P₂₅)/3，取平均识别率最大的走法，以该路径作为合并方案。详细算法为：i跑遍i~m，记第i步3个块的概率和分别为Q_i1, Q_i2, Q_i3，这3个块平均概率最大的块为Mi，下面计算这几个值：

通过该步骤，被分割成多个区域的汉字大部分都能成功合并。但有个别汉字，组成它的几个区域也是汉字。例如“较”，它由“车”、“交”组成。这2个都是合法的汉字，因此该动态规划算法无法将它们合并。下面再通过统计自然语言处理来解决这种情况。

考虑一行中两个相邻区域z₁和z₂是否需要合并。记合并后的区域为z。调用卷积神经网络对该区域识别，设识别为汉字c。z₁和z₂的宽高比分别为r₁和r₂。若r₁+r₂>1.5，且z₁和z₂的宽度均>10，或者合并后识别为c的概率p<0.15，则不合并。设z₁的前一个区域识别为汉字a，后一个区域识别为汉字b，z₁和z₂的间隙为g。定义指标

从语料库中统计所有两个汉字共现的频率。若ac和cb共现的频率均>10，且g<15，且指标I>0.01，或者I>0.06，则将区域z₁和z₂合并。该方法综合考虑了多种因素，尤其是统计自然语言信息。

i从m到1遍历，对第i个和i-1个区域执行上述算法。若可以合并，则将第i-1个区域更改为这两个区域的合并，同时删除第i个区域。

本发明的有益效果为：

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种文本图像的手写汉字分割方法，其特征在于，包括：

对所述每行区域分割成一块或多块，再进行合并，得到每个字的区域，使得一个汉字的偏旁和部首能正确地合并在一起；

所述二值化操作采用k均值聚类算法将所述文本图像地所有像素聚类为两类，对两类分别赋值，对应背景颜色和字符颜色，获得二值图像；

所述去除背景网格线操作包括：

先搜索所述文本图像中的横线条，保存为横线条图像；

再将所述文本图像旋转90°，搜索所述文本图像中的竖线条，保存为竖线条图像；

检测所述横线条图像或竖线条图像每处是否有穿过的笔画，如果没有，直接删除所述横线条图像或竖线条图像，如果有，则通过构造四种横竖撇捺线条的卷积核进行去除操作；

所述通过构造四种横竖撇捺线条的卷积核进行去除操作的步骤包括：

先找到所述文本图像中长度超过15像素的横竖撇捺线条，即倾角为0°、90°、45°、135°的线条，分别构造这4种大小为15×15的卷积核K₁、K₂、K₃、K₄：

这4种卷积核将分别提取横、竖、撇、捺线条，用它们去卷积预处理后的二值图像，记卷积后的图像分别为C₁,C₂,C₃,C₄；

若横线条图像某位置不为0，而C₂,C₃,C₄中对应位置至少有一个不为0，将横线条图像中该像素置0；

同样，若竖线条图像某位置不为0，而C₁,C₃,C₄中对应位置至少有一个不为0，将竖线条图像中该像素置0；

最后将横线条图像和竖线条图像做或操作，再取非，与所述二值图像做与操作。

2.根据权利要求1所述的文本图像的手写汉字分割方法，其特征在于，所述池化操作包括：

先使用核为2×128的全1矩阵，步长为1×32对预处理文档进行卷积，使同一行的字落入同一个连通集里。

3.根据权利要求2所述的文本图像的手写汉字分割方法，其特征在于，对所述每行区域分割成一块或多块，包括粗分割的步骤。

4.根据权利要求3所述的文本图像的手写汉字分割方法，其特征在于，对所述每行区域分割成一块或多块，进一步包括字间连笔分割的步骤。

5.根据权利要求4所述的文本图像的手写汉字分割方法，其特征在于，对所述每行区域分割成一块或多块，进一步包括重叠区域合并的步骤。

6.根据权利要求5所述的文本图像的手写汉字分割方法，其特征在于，所述合并采用动态规划算法或统计自然语言处理方法。

7.一种文本图像的手写汉字分割系统，其特征在于，包括：

列处理单元，用于对所述每行区域分割成一块或多块，再进行合并，得到每个字的区域，使得一个汉字的偏旁和部首能正确地合并在一起；

所述去除背景网格线操作包括：

先搜索所述文本图像中的横线条，保存为横线条图像；