CN104182750A

CN104182750A - 一种在自然场景图像中基于极值连通域的中文检测方法

Info

Publication number: CN104182750A
Application number: CN201410334436.4A
Authority: CN
Inventors: 陈凯; 周异; 周曲; 任逍航
Original assignee: Shanghai Jiaotong University
Current assignee: SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD; Xiamen Shang Ji Network Technology Co., Ltd.
Priority date: 2014-07-14
Filing date: 2014-07-14
Publication date: 2014-12-03
Anticipated expiration: 2034-07-14
Also published as: CN104182750B

Abstract

本发明公开一种在自然场景图像中基于极值连通域的文字检测方法，该方法首先获取自然场景图像，将自然场景图像进行分离的最大稳定极值区域提取；分离的最大稳定极值区域输出是一系列互不交叠的区域，每一个区域都是一个连通分量；在获得连通分量之后，提取连通分量的各种特征，这些特征组合能很好的表达连通分量；从文字结构出发，首先执行字内合并，接着执行字间合并，字内合并方法检测单个的文字，字间合并方法检测文本行；最后分析文本行的角点分布，筛选得到文字区域，并用矩形框对文本区域加以标定。本发明方法以文字的边缘特征为出发点，在文字检测方面具有更好的针对性，因此具有更高的主动性和精确性。

Description

一种在自然场景图像中基于极值连通域的中文检测方法

技术领域

本发明涉及一种图像处理技术领域，具体地说，涉及的是一种在自然场景图像中基于极值连通域的文字检测方法。

背景技术

文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息，对视觉内容理解和获取至关重要。文本提取的主要目的是将文本图像转化为符号形式，从而利于修改、检索、利用及传输。文本定位是文本提取的一个重要步骤。

文本定位是对图像中文本位置的精确定位。基于极值连通域的文本定位方法首先将图像表示为一个个的连通域，然后从结构分析出发，通过合并方法将文本行标示，输出结果。

传统的合并方法在处理一些结构复杂的汉字时效果不甚理想。外语如最常见的英语单词字符之间一般水平排列。对于中文文字，情况更加复杂。

经检索，本申请人申请的公开号为103093228A、申请号为201310017804.8的发明专利申请，该发明公开了一种在自然场景图像中基于极值连通域的中文检测方法，该方法首先获取自然场景图像，将自然场景图像进行笔划宽度变换预处理；笔划宽度变换的输出是一个图像，该图像的每一个像素值代表原始图像相应位置的像素的最大可能笔划宽度，在这一步中进行图像像素的连通域标定；在获得连通分量之后，提取连通分量的各种特征，这些特征组合能很好的表达连通分量；从中文结构出发，首先执行字内合并，接着执行字间合并，字内合并方法检测单个的汉字，字间合并方法检测文本行，并用矩形框对文本区域加以标定。该发明使用笔划宽度变换提取连通域的方法在部分中文字体的识别上效果不佳，原因是此类字体字内笔画宽度变化较大。

发明内容

本发明的目的在于针对目前图像文本定位上的定位不甚理想的情况，提出一种在自然场景图像中基于极值连通域的中文检测方法，采用基于最大稳定极值区域的提取方法，可以克服上述问题，提高识别效果。

为实现上述目的，本发明采用以下技术方案：本发明抓住文字区域边缘表现的特征，利用分离的最大稳定极值区域提取连通区域，并利用文字的结构信息来进行连通区域的合并，提高对字内对比度变化较大的文字的检测，同时实现文字区域定位和分割，方法简单有效。这种方法以文字在图像中的特殊表现为出发点，在文字检测方面具有更好的针对性，因此具有更高的主动性和精确性。

具体的，本发明所述的基于极值连通域的文字检测的方法，包括以下步骤：

第一步，进行分离的最大稳定极值区域提取，分离的最大稳定极值区域输出是一系列互不交叠的区域，在这一步中将进行图像像素的连通域标定。

第二步，在获得连通分量之后，提取连通分量的各种特征，这些特征组合必须能很好的表达连通分量。

第三步，得到连通分量的各种特征之后，从文字结构出发，首先执行字内合并，接着执行字间合并，字内合并方法检测单个的文字，字间合并方法检测文本行。

第四步，分析文本行的角点分布，筛选得到文字区域，并用矩形框对文本区域加以标定。

上述第一步中，需要对原始图像进行分离的最大稳定极值区域提取，具体过程如下：

(1)在进行分离的最大稳定极值区域提取之前，将彩色图像转化为灰度图像；

(2)利用稳定极值区域算法提取图像的极值区域；

(3)获取(2)中极值区域的生长树，生长树包含的区域以及区域间关系由它们在图像中的位置和重叠情况确定；

(4)分离的最大稳定极值区域，将极值区域生长树上的相邻区域进行合并或分离操作后得到的最大稳定极值区域；

(5)合并操作：若相邻区域在大小上符合设定条件，则将它们进行合并，视为同一个区域；

(6)分离操作：若相邻区域在大小上不符合设定条件，则将它们进行分离，分离后的子区域视为一个分离的最大稳定极值区域。

上述第二步中，对连通区域进行特征提取，具体特征如下：

(1)连通区域的宽度；

(2)连通区域的高度；

(3)连通区域的宽高比；

(4)连通区域包含的像素点数；

(5)连通区域的平均颜色。

上述第三步中，所述字内合并方法是指：每一个连通域被认为是一个文字或文字的一部分，如果连通域上下相接并且满足定义的限制条件，执行字内合并方法，将两个连通域合并为一个，所述限制条件如下：

1)两个连通域的平均颜色欧式距离小于0.1；

2)两个连通域像素点数之差小于其中较小连通域点数的5倍；

3)两个连通域宽度之差小于其中较宽连通域宽度1/2。

上述第三步中，所述字间合并方法用来检测文本行，在执行完字内合并方法之后，接着执行字间合并方法，将连通域合并以形成文本行，字间合并方法限制条件如下：

1)属于一个文本行里的文字的宽度比值该在0.25和4之间；

2)属于一个文本行里的文字的高度比值该在0.5和2之间；

3)两个汉字的连通域外接矩形的中心点y坐标差值不大于两个连通域之间最高的高度值的1/2；

4)两个汉字的连通域外接矩形的中心点x坐标差值不大于两个连通域之间最宽的宽度值的2倍。

上述第四步中，利用步骤3得到的文本行，执行基于交点分布的文本行筛选算法，具体过程如下：

(1)使用Harris角点算法提取图像中的角点；

(2)对文本行中包含的角点进行水平和垂直方向上的统计；

(3)根据均值、方差统计信息筛选文本行。

与现有技术相比，本发明具有如下的有益效果：

本发明利用分离的最大极值区域获得候选文字连通域，然后使用字内和字间合并方法利用连通域的特征进行文本行提取，最后使用基于角点分布的文本行筛选方法检测图像中的文本。传统的区域提取方法在处理一些字内亮度变化的文字时效果不甚理想，比如最常见的闪光灯下的文字，传统方法会将一个文字的不同部分和背景连成一体，成为混合了背景的多个区域。本发明的分离的最大极值区域提取方法可以将文字从背景中独立出来，同时使背景区域分化为多个明显非文字区域，因此在处理复杂亮度变化文字具有更高的准确性。综上，本发明基于极值连通域的文字检测方法相比于传统的文本检测等方法，拥有更高的主动性和精确性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明的流程图。

图2是本发明一实施例分离的最大稳定极值区域提取的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本实施例提供一种基于极值连通域的文字检测方法，流程可以分为以下几个步骤：

步骤1：得到输入图像，对图像进行分离的最大极值区域提取，获得连通域；

步骤2：针对每一个连通域，提取连通域特征信息；

步骤3：根据得到的连通域特征信息，将连通域合并，执行字内合并过程；

步骤4：执行字间合并过程；

步骤5：针对每一个文本行，提取文本行角点信息。

步骤6：筛选出的文本行，检测结束。

步骤1的过程如图2所示，需要注意的是，分离的最大极值区域提取只是区域提取的一种可能方式，也可以采取其它方式得到连通域信息。分离的最大极值区域提取的思路如下：首先对输入图像进行极值区域检测，得到区域信息；然后构建极值区域的生长树，生长树包含的区域以及区域间关系由它们在图像中的位置和重叠情况确定；将极值区域生长树上的相邻区域根据它们的重叠度关系，对他们进行合并或分离操作后得到的最大稳定极值区域。利用分离的最大极值区域信息可以获取可能的文本信息，因为分离的最大极值区域很有可能是文本区域。具体过程如下：

(2)利用稳定极值区域算法提取图像的极值区域；

上述设定条件为相邻区域的大小之比小于预设值，若相邻区域的大小分别为m和n，其比例m/n(假设m小于n)若小于预设值r，则其符合设定条件，反之则不符合。本实施例中，预设值r一般取0.15，也可以根据需要选择其他数值。

步骤2使用连通域特征信息用于判断连通域是否是文字，或者两个连通域是否属于同一个字。作此判断的依据条件有5个：

(1)连通区域的宽度

(2)连通区域的高度

(3)连通区域的宽高比

(4)连通区域包含的像素点数

(5)连通区域的平均颜色

在提取到连通域信息之后，可以通过连通域信息判断连通域是否是文本区域。具体过程如下：

①字内合并方法合并条件：

1)两个连通域的平均颜色欧式距离小于0.1；

2)两个连通域像素点数之差小于较小连通域点数的5倍；

3)两个连通域宽度之差小于较宽连通域宽度1/2；

②字间合并方法合并条件：

1)属于一个文本行里的文字的宽度比值该在0.25和4之间；

2)属于一个文本行里的文字的高度比值该在0.5和2之间；

3)两个汉字的连通域外接矩形的中心点y坐标差值不大于两个连通域之间最高的高度值的1/2。

③首先执行字内合并，过程如下：

1)遍历所有连通域，如果两个连通域满足字内合并条件，合并，形成一个连通域对；

2)遍历所有连通域对，如果两个连通域对共有一个连通域，各并成一个新的连通域组，去除原来的连通域对。

3)将2)中得到的连通域组更新位新的连通域。

④执行字间合并，各并条件如②所示，合并过程与字内合并相同。

⑤得到字间合并的连通域。

步骤5使用角点提取算法提取候选文本行中的角点信息，并使用角点分布算法对其进行分布信息提取，根据角点分布信息筛选出文字文本行。具体过程如下：

(1)使用Harris角点算法提取图像中的角点；

(2)对文本行中包含的角点进行水平和垂直方向上的统计；

(3)根据均值、方差统计信息筛选文本行。

常用的区域提取方法在处理一些字内亮度变化的文字时效果不甚理想，比如最常见的闪光灯下的文字，传统方法会将一个文字的不同部分和背景连成一体，成为混合了背景的多个区域。本发明的分离的最大极值区域提取方法可以将文字从背景中独立出来，同时使背景区域分化为多个明显非文字区域，因此在处理复杂亮度变化文字具有更高的准确性，方法简单有效，而且对复杂背景图像文字检测有非常好的效果。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种在自然场景图像中基于极值连通域的中文检测方法，其特征在于包括以下具体步骤：

第一步，进行分离的最大稳定极值区域提取，分离的最大稳定极值区域输出是一系列互不交叠的区域，每一个区域都是一个连通分量；

第二步，在获得连通分量之后，提取连通分量的各种特征，这些特征组合能很好的表达连通分量；

第三步，从文字结构出发，首先执行字内合并，接着执行字间合并，字内合并方法检测单个的文字，字间合并方法检测文本行；

2.根据权利要求1所述的在自然场景图像中基于极值连通域的中文检测方法，其特征在于所述第一步，具体过程如下：

(2)利用稳定极值区域算法提取图像的极值区域；

3.根据权利要求1所述的在自然场景图像中基于极值连通域的中文检测方法，其特征在于第二步中，所述提取连通分量的各种特征具体如下：

(1)连通区域的宽度；

(2)连通区域的高度；

(3)连通区域的宽高比；

(4)连通区域包含的像素点数；

(5)连通区域的平均颜色。

4.根据权利要求1-3任一项所述的在自然场景图像中基于极值连通域的中文检测方法，其特征在于第三步中，所述字内合并方法是指：每一个连通域被认为是一个文字或文字的一部分，如果连通域上下相接并且满足定义的限制条件，执行字内合并方法，将两个连通域合并为一个，所述限制条件如下：

1)两个连通域的平均颜色欧式距离小于0.1；

2)两个连通域像素点数之差小于其中较小连通域点数的5倍；

3)两个连通域宽度之差小于其中较宽连通域宽度1/2。

5.根据权利要求1-3任一项所述的在自然场景图像中基于极值连通域的中文检测方法，其特征在于第三步中，所述字间合并方法用来检测文本行，在执行完字内合并方法之后，接着执行字间合并方法，将连通域合并以形成文本行，字间合并方法限制条件如下：

1)属于一个文本行里的文字的宽度比值该在0.25和4之间；

2)属于一个文本行里的文字的高度比值该在0.5和2之间；

6.根据权利要求1-3任一项所述的在自然场景图像中基于极值连通域的中文检测方法，其特征在于第四步中，所述角点分布方法用来筛选文本行，具体过程如下：

(1)使用Harris角点算法提取图像中的角点；

(2)对文本行中包含的角点进行水平和垂直方向上的统计；

(3)根据均值、方差统计信息筛选文本行。