CN112633289A

CN112633289A - 一种粘连字符分割方法和系统

Info

Publication number: CN112633289A
Application number: CN202011628516.2A
Authority: CN
Inventors: 马树志; 包振健; 赵严; 姚毅; 杨艺
Original assignee: Luster LightTech Co Ltd
Current assignee: Luster LightTech Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-09
Anticipated expiration: 2040-12-30
Also published as: CN112633289B

Abstract

本申请公开了一种粘连字符分割方法，包括：采用二值化算法提取待识别图像中的字符区域；对提取的字符区域进行连通区域分析；基于进行连通区域分析后的字符区域，根据预设策略识别出粘连区域；提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点；将所述粘连区域输入分类器进行评价，当所述分割候选点的评分满足预设阈值时，则作为粘连字符的分割确认点。该分割方法能够准确有效完成粘连字符的分割，从而有效避免过分分割和欠分割情况的发生。此外，本申请还公开了一种粘连字符的分割系统。

Description

一种粘连字符分割方法和系统

技术领域

本申请涉及可变信息检测技术领域，特别涉及一种粘连字符分割方法。此外，本申请还涉及一种粘连字符分割系统。

背景技术

随着信息技术的发展，可变信息如条码、二维码以及验证码等被广泛应用在食品、药品包装或者防伪标识等印刷领域。可变信息的检测变成了印刷质量检测的一个难点，验证码或者说可变字符检测便是其中之一。可变字符的检测一般情况下使用OCR识别技术进行检测，这个过程需要进行粘连字符的分割，如图1所示，图1为一种粘连字符示意图。

当下常用的字符分割方法多基于投影分析、字符宽度或者两者结合的方式进行分割。基于上述方法进行粘连分割，在粘连较多字符形态多样且无规律，字符宽度差异较大时，效果并不理想，易出现过分割或者欠分割的情况。这是因为使用投影方法分割字符的是基于粘连位置图像投影值比正常字符区域的投影值低的假设，而当字符集扩展到数字和大写字母的情况，投影低的位置不一定就是分割点，如字母“W”、“V”，而且字符的宽度也存在较大差异如数字“1”和字母“W”等，无法凭借宽度特征来判断当前分割位置是否正确。

发明内容

本申请要解决的技术问题为提供一种粘连字符的分割方法，该分割方法能够准确有效完成粘连字符的分割，从而有效避免过分分割和欠分割情况的发生。此外，本申请另一个要解决的技术问题为提供一种粘连字符的分割系统。

为解决上述技术问题，本申请提供一种粘连字符分割方法，包括：

采用二值化算法提取待识别图像中的字符区域；

对提取的字符区域进行连通区域分析；

基于进行连通区域分析后的字符区域，根据预设策略识别出粘连区域；

提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点；

将所述粘连区域输入分类器进行评价，当所述分割候选点的评分满足预设阈值时，则作为粘连字符的分割确认点。

在一种具体实施方式中，

所述“将所述粘连区域输入分类器进行评价，当所述分割候选点的评分满足预设第一阈值时，则作为粘连字符的分割确认点”之后，还包括：

根据所述粘连字符的个数及所述分割确认点，确认最终的分割点位置。

在一种具体实施方式中，

所述“对提取的字符区域进行连通区域分析”，包括：

对提取的字符区域，基于面积属性和位置属性进行连通区域分析，并过滤噪声和背景区域。

在一种具体实施方式中，

所述“基于进行连通区域分析后的字符区域，根据预设策略识别出粘连区域”，包括：

获知待识别图像中字符区域中的字符的最大宽度；

获得提取字符中连通区域的宽度；

判断所述连通区域的宽度是否大于所述字符的最大宽度；

如果是，该连通区域为粘连区域。

在一种具体实施方式中，

判断所述连通区域的宽度是否大于所述字符的最大宽度；

如果否，则将该连通区域输入分类器进行评分，如果评分小于预设的第二阈值时，则该连通区域为疑似粘连区域。

在一种具体实施方式中，

所述“提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点”，包括：

使用边缘提前算法提取所述粘连区域的边缘轮廓；

根据所述边缘轮廓的嵌套关系，确定外轮廓；

满足如下公式的(x,y)点为所述边缘轮廓的凹点：

(f(x-1)＞f(x)&&f(x+1)＞f(x))||(f(x-1)＜f(x)&&f(x+1)＜f(x))。

在一种具体实施方式中，

所述“提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点”之后，还包括：

从所述分割候选点中筛选掉不符合字符最小宽度信息的点。

此外，为解决上述技术问题，本申请还提供一种粘连字符分割系统，包括：

二值化模块，用于采用二值化算法提取待识别图像中的字符区域；

连通区域分析模块，用于对提取的字符区域进行连通区域分析；

粘连区域识别模块，用于基于进行连通区域分析后的字符区域，根据预设策略识别出粘连区域；

边缘轮廓计算模块，用于提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点；

分类器模块，用于将所述粘连区域输入分类器进行评价，当所述分割候选点的评分满足预设阈值时，则作为粘连字符的分割确认点。

在一种具体实施方式中，

还包括：

分割点确认模块，用于根据所述粘连字符的个数及所述分割确认点，确认最终的分割点位置。

在一种具体实施方式中，

所述“对提取的字符区域进行连通区域分析”，包括：

在一种具体实施方式中，

所述粘连区域识别模块包括：

字符最大宽度获取子模块，用于获知待识别图像中字符区域中的字符的最大宽度；

连通区域宽度提取子模块，用于获得提取字符中连通区域的宽度；

判断模块，用于判断所述连通区域的宽度是否大于所述字符的最大宽度；

如果是，该连通区域为粘连区域。

在一种具体实施方式中，

判断所述连通区域的宽度是否大于所述字符的最大宽度；

在一种具体实施方式中，

所述边缘轮廓计算模块包括：

边缘轮廓提取子模块，用于使用边缘提前算法提取所述粘连区域的边缘轮廓；

外轮廓确定子模块，用于根据所述边缘轮廓的嵌套关系，确定外轮廓；

计算子模块，满足如下公式的(x,y)点为所述边缘轮廓的凹点：

(f(x-1)＞f(x)&&f(x+1)＞f(x))||(f(x-1)＜f(x)&&f(x+1)＜f(x))。

在一种具体实施方式中，

从所述分割候选点中筛选掉不符合字符最小宽度信息的点。

以下介绍本申请实施例的技术效果：

在一种实施例中，如图2所示，一种粘连字符分割方法，包括：

采用二值化算法提取待识别图像中的字符区域；

对提取的字符区域进行连通区域分析；

具体的，在该步骤中，所述“对提取的字符区域进行连通区域分析”，包括：

具体的，在该步骤中，所述“基于进行连通区域分析后的字符区域，根据预设策略识别出粘连区域”，包括：

获知待识别图像中字符区域中的字符的最大宽度；

获得提取字符中连通区域的宽度；

判断所述连通区域的宽度是否大于所述字符的最大宽度；

如果是，该连通区域为粘连区域。

具体的，在该步骤中，所述“提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点”，包括：

使用边缘提前算法提取所述粘连区域的边缘轮廓；

根据所述边缘轮廓的嵌套关系，确定外轮廓；

满足如下公式的(x,y)点为所述边缘轮廓的凹点：

(f(x-1)＞f(x)&&f(x+1)＞f(x))||(f(x-1)＜f(x)&&f(x+1)＜f(x))。

现有技术中常用的字符分割方法多基于投影分析、字符宽度或者两者结合的方式进行分割。基于上述方法进行粘连分割，在粘连较多字符形态多样且无规律，字符宽度差异较大时，效果并不理想，易出现过分割或者欠分割的情况。印刷品上的印刷字符都是标准字体，不会出现类似于验证码那种非自然的粘连，所以在印刷产品上的字符粘连所表现的模式是存在固定的特征的。经过我们实验发现，粘连的区域必定存在凹点(上凸、下凹)，而有些粘连严重的，通过投影分析未必能够找到正确的分割点。

而在本申请中，主要原理是通过对字符外围边界进行遍历，找到外围边界的凹点作为分割候选点，根据字符宽度，对候选点进行筛选，筛选完之后，按分割点分割图像，将图像送入分类器，如果没有提高分类器输出，则认为此处不是正确的分割点，使用下一个分割点进行分割直至所有分割点遍历结束。该分割方法能够准确有效完成粘连字符的分割，从而有效避免过分分割和欠分割情况的发生。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种粘连字符示意图；

图2为本申请一种实施例中一种粘连字符的分割方法的逻辑流程图；

图3为图1中的粘连字符经过二值化处理后的示意图；

图4为图3中的字符图形经过连通分析后的示意图；

图5为图4中的字符图形经过边缘轮廓提取后的示意图；

图6为图5中的字符图形的外轮廓的示意图；

图7为图6中的外轮廓提取凹点后的示意图；

图8为本申请另一种实施例中一种粘连字符的分割方法的逻辑流程图；

图9为本申请一种实施例中一种粘连字符的分割系统的功能框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图2，图2为本申请一种实施例中一种粘连字符的分割方法的逻辑流程图。

步骤S101：采用二值化算法提取待识别图像中的字符区域；

步骤S102：对提取的字符区域进行连通区域分析；

步骤S103：基于进行连通区域分析后的字符区域，根据预设策略识别出粘连区域；

获知待识别图像中字符区域中的字符的最大宽度；

获得提取字符中连通区域的宽度；

判断所述连通区域的宽度是否大于所述字符的最大宽度；

如果是，该连通区域为粘连区域。

步骤S104：提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点；

使用边缘提前算法提取所述粘连区域的边缘轮廓；

根据所述边缘轮廓的嵌套关系，确定外轮廓；

满足如下公式的(x,y)点为所述边缘轮廓的凹点：

(f(x-1)＞f(x)&&f(x+1)＞f(x))||(f(x-1)＜f(x)&&f(x+1)＜f(x))。

步骤S105：将所述粘连区域输入分类器进行评价，当所述分割候选点的评分满足预设阈值时，则作为粘连字符的分割确认点。

在本申请上述实施例中，相对于现有技术中常用的字符分割方法多基于投影分析、字符宽度或者两者结合的方式进行分割。基于上述方法进行粘连分割，在粘连较多字符形态多样且无规律，字符宽度差异较大时，效果并不理想，易出现过分割或者欠分割的情况。印刷品上的印刷字符都是标准字体，不会出现类似于验证码那种非自然的粘连，所以在印刷产品上的字符粘连所表现的模式是存在固定的特征的。经过我们实验发现，粘连的区域必定存在凹点(上凸、下凹)，而有些粘连严重的，通过投影分析未必能够找到正确的分割点。

在上述实施例中，可以做出进一步改进。比如，所述“将所述粘连区域输入分类器进行评价，当所述分割候选点的评分满足预设第一阈值时，则作为粘连字符的分割确认点”之后，还包括：

此外，所述“提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点”之后，还包括：

从所述分割候选点中筛选掉不符合字符最小宽度信息的点。

下边结合具体应用举例，做出详细介绍，请参考图3至图8，图3为图1中的粘连字符经过二值化处理后的示意图；图4为图3中的字符图形经过连通分析后的示意图；图5为图4中的字符图形经过边缘轮廓提取后的示意图；图6为图5中的字符图形的外轮廓的示意图；图7为图6中的外轮廓提取凹点后的示意图；图8为本申请另一种实施例中一种粘连字符的分割方法的逻辑流程图。

如图8所示，本申请算法的主要原理是通过对字符外围边界进行遍历，找到外围边界的凹点作为分割候选点，根据字符宽度，对候选点进行筛选，筛选完之后，按分割点分割图像，将图像送入分类器，如果没有提高分类器输出，则认为此处不是正确的分割点，使用下一个分割点进行分割直至所有分割点遍历结束。以下分步骤介绍如下：

1、图像二值化和联通区域分析

通过二值化算法提取图像中的字符区域。二值化算法可以使用全局阈值或者自适应阈值算法如OTSU(最大类间方差法)。

图像二值化(Image Binarization)就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中，二值图像占有非常重要的地位，图像的二值化使图像中数据量大为减少，从而能凸显出目标的轮廓。

具体的，将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像。在数字图像处理中，二值图像占有非常重要的地位，首先，图像的二值化有利于图像的进一步处理，使图像变得简单，而且数据量减小，能凸显出感兴趣的目标的轮廓。其次，要进行二值图像的处理与分析，首先要把灰度图像二值化，得到二值化图像。

所有灰度大于或等于阈值的像素被判定为属于特定物体，其灰度值为255表示，否则这些像素点被排除在物体区域以外，灰度值为0，表示背景或者例外的物体区域。

经过二值化得到的图像请参考图3。

2、联通区域分析

对提取到的区域进行联通区域分析，并根据面积、位置等属性对联通区域进行筛选，过滤一些噪声和背景区域，找到符合条件的字符区域，经过连通分析后的图像，请参考图4。

需要说明的是，连通域分析是非常常见的图像处理操作。连通区域分析一般是针对二值图像，将具有相同像素值且相邻的像素找出来并标记。例如针对上面的同心圆图像，将每个圆环完整的找出来并比标记上不同的颜色。具体概念阐述如下：

连通区域(connected component)：图像中具有相同的像素值且相邻的区域

连通区域分析(connected component analysis)：将图像中的联通区域找出来并标记，也称为联通区域标记。

一般会先将图像二值化，将图像分为前景区域和背景区域。相当于是已经知道如何区提取有效像素值，然后进行连通域分析，而如何提取感兴趣的区域是一个非常的问题，这里不做讨论。有两种经典的连通区域分析算法：1、Two-Pass(两次遍历),2、Seed Filling(种子填充)。

3、对每个字符区域根据宽度以及分类器输出结果进行分类，筛选出粘连区域。

图4中每个颜色对应一个联通区域，先根据连通区域的宽度以及字符的最大宽度(预先可以收集到)筛选出来粘连的字符区域(宽度>字符最大宽度)，如图4中粉色、紫色两个连通区域。其余的区域送入分类器中进行分类，如果分类器的评分大于设定阈值则认为是正确的，小于设定阈值则认为是疑似粘连区域。

4、提取粘连区域的外部轮廓，计算轮廓上的凹点，作为分割的候选点，提前轮廓后的图像如图5所示。

取粉色粘连字符区域为例使用边缘提取算法如Canny、Sobel等提取字符图像边缘，根据轮廓的嵌套关系，只选取外轮廓进行计算，如图6所示。

遍历每个边缘点，假设上述图像左下角为原点，则每个边缘点坐标为(x,y)，记y＝f(x)，则凹点为坐标满足如下条件的点：

(f(x-1)>f(x)&&f(x+1)>f(x))||(f(x-1)<f(x)&&f(x+1)<f(x))

则图6中的轮廓可以提取到如下图所示凹点。

5、根据字符的宽度等约束信息，筛选一些不符合条件的候选点。

如图7所示，提取到的凹点中存在离得很近的情况，或者像字母“W”、“V”等拐点处，这些位置可以通过一些约束条件如字符最小宽度等过滤掉，保留有效的候选点。

6、对粘连区域进行分割，并送入分类器，如果分类器的输出得到提高，则认为该点可以作为分割点；如果分类器结果没有得到提高，则认为该点不是分割点。

7、最后根据字符个数，以及第6步中得到的分类器结果，确认最终的分割点位置。

此外，与上述方法实施例相对应，本申请还提供一套产品实施例。具体的，请参考图9，图9为本申请一种实施例中一种粘连字符的分割系统的功能框图。

在一种实施例中，如图9所示，一种粘连字符的分割系统包括：

在一种实施例中，

还包括：

在一种实施例中，所述“对提取的字符区域进行连通区域分析”，包括：

在一种实施例中，所述粘连区域识别模块包括：

如果是，该连通区域为粘连区域。

在一种实施例中，判断所述连通区域的宽度是否大于所述字符的最大宽度；

在一种实施例中，所述边缘轮廓计算模块包括：

(f(x-1)＞f(x)&&f(x+1)＞f(x))||(f(x-1)＜f(x)&&f(x+1)＜f(x))。

在一种实施例中，所述“提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点”之后，还包括：

从所述分割候选点中筛选掉不符合字符最小宽度信息的点。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程和技术效果，可以参考前述方法实施例中的对应过程和技术效果，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本说明书通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征、部件或特性包括在至少一个实施例中。因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、部件或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“终端”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种粘连字符分割方法，其特征在于，包括：

采用二值化算法提取待识别图像中的字符区域；

对提取的字符区域进行连通区域分析；

2.如权利要求1所述的一种粘连字符分割方法，其特征在于，所述“将所述粘连区域输入分类器进行评价，当所述分割候选点的评分满足预设第一阈值时，则作为粘连字符的分割确认点”之后，还包括：

3.如权利要求1所述的一种粘连字符分割方法，其特征在于，

所述“对提取的字符区域进行连通区域分析”，包括：

4.如权利要求1-3任一项所述的一种粘连字符分割方法，其特征在于，所述“基于进行连通区域分析后的字符区域，根据预设策略识别出粘连区域”，包括：

获知待识别图像中字符区域中的字符的最大宽度；

获得提取字符中连通区域的宽度；

判断所述连通区域的宽度是否大于所述字符的最大宽度；

如果是，该连通区域为粘连区域。

5.如权利要求4所述的一种粘连字符分割方法，其特征在于，

判断所述连通区域的宽度是否大于所述字符的最大宽度；

6.如权利要求1-3任一项所述的一种粘连字符分割方法，其特征在于，所述“提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点”，包括：

使用边缘提前算法提取所述粘连区域的边缘轮廓；

根据所述边缘轮廓的嵌套关系，确定外轮廓；

满足如下公式的(x,y)点为所述边缘轮廓的凹点：

(f(x-1)＞f(x)&&f(x+1)＞f(x))||(f(x-1)＜f(x)&&f(x+1)＜f(x)。

7.如权利要求1-3任一项所述的一种粘连字符分割方法，其特征在于，所述“提取所述粘连区域的边缘轮廓，计算所述边缘轮廓的凹点，作为分割候选点”之后，还包括：

从所述分割候选点中筛选掉不符合字符最小宽度信息的点。

8.一种粘连字符分割系统，其特征在于，包括：

9.如权利要求8所述的一种粘连字符分割系统，其特征在于，还包括：

10.如权利要求9或10所述的一种粘连字符分割系统，其特征在于，所述粘连区域识别模块包括：

如果是，该连通区域为粘连区域。