CN101593277A

CN101593277A - 一种复杂彩色图像中文本区域自动定位方法及装置

Info

Publication number: CN101593277A
Application number: CNA2008100444878A
Authority: CN
Inventors: 秦志光; 程红蓉; 万明成; 周俊怡; 肖正宇; 邓蔚
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2008-05-30
Filing date: 2008-05-30
Publication date: 2009-12-02

Abstract

本发明涉及图像处理技术和模式识别算法，公开了一种结合机器学习算法的智能的复杂彩色图像中文本区域自动定位的方法与装置。首先利用一种改进的彩色图像边缘检测算子获取图像的边缘图；其次利用一种新的基于圆形模板的角点检测算法定位图像中的角点并同时获取角点处张角的大小；再次结合各条边缘的角点信息和边缘的其它特征，用一种机器学习算法对边缘进行筛选以过滤掉大量的非文字边缘；最后利用一些形态学算法对筛选后的图像进行处理并形成连通区域，通过霍夫变换获取文本区域的倾斜角以获取文字区域的准确方向，结合一些规则去除虚假文字区域而最终获得真实的文字区域。

Description

一种复杂彩色图像中文本区域自动定位方法及装置

技术领域

本发明涉及图像处理技术与模式识别算法。首先获取图像边缘，然后结合机器学习算法并利用边缘的一些特征如角点信息等对边缘进行筛选以去除非文字边缘，再结合形态学操作与霍夫变换形成候选文本区域并利用一些规则去除虚假文本区域以确定最终文本区域。

背景技术

图像往往比文字有更强的表现能力，随着计算机软硬件技术的发展及网络技术的成熟，图像开始成为信息的载体。这些含有大量信息的图像一方面极大的丰富了多媒体资源，另一方面也带来了一些问题和挑战。与文字不同，图像更加抽象，其语义更难于计算机理解。面对海量的图像资源，图像的自动检索、分类和内容监管成了较难解决的问题。尤其是一些非法分子利用图像的特性，将一些垃圾信息嵌入到图像中以逃避常规的基于文本内容的监控系统的监控。快速理解图像的高级语义是我们面临的一个巨大挑战。

幸运的是，许多图像中均含有大量的文字，这些文字往往可以为图像语义的理解提供非常有力的依据和丰富的信息。提取这些文字信息成为准确理解图像语义的一条捷径，文字信息提取的先决条件是准确定位图像中的文本区域。目前，对于文本区域定位技术的相关研究较多，包括对自然场景中文本区域定位、汽车牌照中文本区域定位、视频帧中文本区域定位等。这些文本区域定位算法大致可以分成以下几类：基于连通区域的方法、基于纹理特征的方法、基于文字边缘的方法以及这些方法的组合算法。

基于连通区域的文本区域定位算法：基于区域的方法是利用同一行字符的颜色相似这一特性来进行定位的。这类方法通常是用颜色聚类或图像分割的技术把图像中的连通区域分割出来，再对连通区域进行大小、宽高比等启发性知识的限制以及投影分析等来获得文本区域。在该类算法中，可以将一个字符作为单个连通模块和其它目标区分，其效率依赖于分割算法的效率。另外，该类算法仅适用于高对比和高分辨率的图像，邻近模块的颜色值相近则可能导致错误分割。

基于纹理特征的方法：在图像处理领域中，尽管纹理是一个很重要的图像特性，并且被广泛应用于图像分类、识别、文本区域定位等领域。但是由于它的变化范围很宽泛，因而并没有统一且精确的定义。一些学者认为纹理的标志主要有三要素：一是某种局部的序列性，在该序列更大的区域内不断重复；二是序列是由基本部分非随机排列组成的；三是各部分大致都是均匀的统一体，纹理区域内任何地方都有大致相同的结构尺寸。纹理可以简单的认为是在图像中反复出现的局部模式和它们的排列规则。显然，文本区域是具有一定的纹理特征的，例如汉字，它都是由一些笔画组成，这些笔画的重复出现就形成了一些模式。因此，基于纹理特征的文本定位技术在文本区域提取领域中占有一定的分量。但是许多图像中的文字大小不一样，甚至同一幅图像中不同文字区域的文字大小也有差别。使得文字区域所表现出的纹理特征不一样，导致基于纹理的文本区域定位算法的通用性很差。

基于文字边缘的方法：文字与背景的对比通常较大，因此进行边缘检测之后，文字边缘一般较清晰。典型的基于文字边缘的文本区域定位算法一般包含三步：第一步是利用边缘检测算子提取出图像的边缘；第二步通常利用膨胀等一些简单的形态学方法将相邻的边缘线连通形成连通区域，第三步则利用一些基于经验的规则对区域进行筛选以获取最终的文字区域。显然，该类算法可能会受到背景影响，如果背景中其它干扰边缘较多，则容易导致文字区域漏检或者误检。

现存的文本区域定位算法都或多或少的有一些缺点，本发明结合机器学习算法，最大程度地去除干扰边缘，较好的实现了一个在含有干扰的复杂背景图像中的文字区域自动定位方法及装置。

发明内容

本专利主要提出一种复杂图像中文本区域的自动定位方法及装置。该装置可以准确定位含有强干扰的、背景复杂的彩色图像中的文字区域。并且，该装置能够有效的应对文字大小、方向、颜色的变化，具有较好的鲁棒性。

该装置主要包括五个部分：改进的彩色边缘检测算子，基于圆形模板的角点信息提取算法，结合机器学习算法的边缘筛选算法，候选区域标定算法和候选文本区域筛选。

1改进的彩色边缘检测算子

边缘检测算法的选取至关重要，文字边缘是否清晰、完整、以及定位是否精确将直接影响到文本区域定位的准确度。基于灰度图像的边缘检测算子需要对彩色图像做灰度转换，这样可能导致颜色信息丢失，不利于边缘检测。为此，选用彩色边缘检测算子——ColorRoberts进行边缘检测。该算子首先利用扩展的Roberts算子将彩色图像转换至灰度边缘图像I₁，然后利用log算子作二次边缘提取以获得最终的单像素边缘图像I₂。

复杂彩色图像通常含有大量的干扰背景，利用log算子进行二次边缘提取可能会强化干扰背景的边缘，从而影响文本区域定位。通过对大量复杂图像的深入分析后发现，经扩展Roberts算子变换后获得的灰度边缘图像中，干扰背景点的灰度值通常较低，而文字边缘点的灰度值较高，一般不低于80。另外，Roberts算子是一种利用局部差分算子寻找边缘的算子。利用扩展的Roberts算子获得彩色图像的灰度边缘图像以后，在边缘的拐角处，灰度值通常较低。其它边缘点的灰度值大约是拐角处边缘点灰度值的

倍。

为此，本文首先对灰度边缘图像I₁做阈值分割来去除大量干扰背景的边缘点和一些非文字边缘点，然后利用非极大值抑制来获取文字边缘。在非最大值抑制时，需要对边缘点灰度值与局部区域极大值形成近似

倍关系的点予以保留以确保不出现边缘断裂。

2基于圆形模板的角点信息提取算法

文字边缘上不同角度大小的角点的分布具有一定的规律，这些角点信息有助于区分文字边缘与非文字边缘。为准确定位文字边缘上的角点并获取角点处角度的大小，设计出一种新的圆形模板。该模板为一个半径约为5的圆形区域，提取角点信息时，将边缘点映射到圆形模板中，即可通过计算边缘之间的非边缘点数量而获得夹角的大小。最后通过对角点角度的非极大值抑制来获取最终的角点。算法获取的角点角度均限制在(0，180)以内，因为在不考虑文字方向的情况下，X度与360-X所代表的弯曲程度一致。

3结合机器学习算法的边缘筛选算法

边缘检测之后，获得了复杂彩色图像的边缘图，该边缘图像中同时含有文字边缘和背景边缘以及一些干扰对象的边缘。在复杂彩色图像中，文字的大小，方向，位置等都在变化，但是文字边缘的角点数量和大小却不会发生大的变化。文字边缘中的角点密度一般较大，角度值分布也有一定的规律。将角度大小按每5度分段，180度共分为36段，将每一段的角点数量作为一维特征以及总的角点数作为一维特征共可以获得37维特征。另外，文字边缘所占据的一个矩形区域不会特别大，也不会特别小，边缘密度也通常在一定的范围之内。因此选取边缘区域的长、宽、面积、对角线长度、及它们之间的比例。经过筛选，与37维角点特征一起共获得47维特征。

利用这47维特征可以有效区分文字边缘和非文字边缘，选用一种机器学习算法以训练一个分类器就可以剔出图像中大量的非文字边缘。已证明有效的机器学习算法包括支持向量机、C4.5决策树算法。

4候选文本区域标定算法

经过边缘筛选以后，图像中剩余文字边缘以及少量的非文字边缘。首先对边缘筛选后的图像做两次膨胀运算，使得相邻的边缘连通起来形成较大的连通区域。然后对连通区域进行标记，并求去这些连通区域的轮廓。对轮廓进行霍夫变换求取这些区域的方向。根据方向标定这些连通区域的最小外接矩形，形成候选文本区域。

5候选文本区域筛选

候选区域中有少量的虚假文本区域，为精确定位文本区域，需要对文本区域进行一些筛选工作。利用文本区域的一些特征，去除存在的虚假文本区域以进一步提高文本区域的定位精度。

最后，实施本发明具有以下有益效果：

从以上技术方案可以看出，本发明首先就利用改进的彩色边缘检测算子在获取边缘的同时去除一部分干扰背景，然后利用鲁棒性强的圆形模板获取文字的角点信息以为边缘筛选提供有力依据。在边缘筛选时，所选择的机器学习分类算法较多，甚至可以多种组合以提高精确率。利用霍夫变换获得文字的大致方向使得文字区域最接近真实的文字区域，使得其定位精度较高。最后，利用规则对候选文本区域进行筛选以进一步提高定位准确度。综上所述，本发明提供的方案具有较强的灵活性和较高的实用价值。

附图说明

图1为本发明中整个装置的具体流程图；

图2为本发明中改进的彩色边缘检测算法的具体流程图；

图3为本发明为提取文字角点而设计的模板示意图；

图4为本发明提取角点信息的流程图；

图5为本发明标定候选文本区域的具体流程图。

具体实施方式

为使本发明的目的、技术方案、及优点更加清楚明白，以下参照附图对本发明进一步详细说明。

请参阅图1，该图为整个装置的总流程图，整个装置主要包含7步：

步骤101、获取输入图像

所输入的图像指我们要进行文本区域定位的各种图像，例如含强烈人为干扰的垃圾邮件图像等。当我们的装置作为其它系统的一个模块时，可以通过参数传递的方式获得输入图像。当我们的装置独立运行时可获取指定位置的图像。

步骤102、彩色边缘检测

为减少颜色信息的丢失，本装置使用改进的边缘检测算子来提取图像边缘。首先使用扩展的Roberts算子将彩色图像转换到灰度边缘图像中，然后利用自动阈值分割去除灰度边缘图像中的大量干扰背景，再次利用非极大值抑制获取边缘。在非极大值抑制时需要保留那些不是局部极大值，但局部极大值是其灰度值的

倍的像素点。

步骤103、角点检测

为精确定位图像中的角点和准确提取出角点处角度的大小，本装置采用一个圆形模板来提取角点信息。圆形模板使得角点检测算法对文字方向变化不敏感，使得整个装置的适用性得到增强。

步骤104、边缘筛选

文字边缘与其它背景或物体边缘有许多不同的特征。尤其是文字边缘上的角点分布密集，并且这些角点的角度也有一定的规律。结合边缘的其它特征，如边缘长度，高度等，选取一种机器学习算法一训练一个智能的分类器。为提高精度，也可以融合多种机器学习算法对边缘进行分类。这一步的目的是尽量多的去处非文字边缘。

步骤105、候选区域标定

经过边缘筛选以后，图像中包含文字边缘和少量的非文字边缘。利用一些形态学操作将这些边缘连通起来形成一些连通区域，然后利用一些规则进行处理可以确定最终的文字区域。这些形态学操作包括膨胀，区域标记，轮廓提取。为精确求取连通区域的最小外接矩形需要利用霍夫变换求取文字的排列方向。

步骤106、候选区域筛选

上一步骤中所形成的候选区域中存在少量的虚假文本区域，需要对候选文本区域作进一步筛选以提高文本区域定位的正确率。装置中使用以下规则对文本区域进行限制：

·图像中的文字需要能便于阅读，所以，文字不能太小。另外，受制于图像的大小，文字不能太大，否则图像中能嵌入的文字就会变少。因此文字区域的高度应该在大于5个像素而小于48个像素；

·文字区域一般由多个文字连接而成，本装置中设定文字区域的宽度应该大于15个像素；

·文本区域内的边缘分布较密集，因此边缘密度较高。因此，文本区域内所包含的边缘像素点数量与区域内总的像素点数量之比应该在0.178到0.88之内；

·另外，图像中许多小区域都是由一些较小的噪声点或干扰线构成。而真正的文字区域一般大于75个像素点。因此，本装置将低于75个像素点的文本区域视为虚假文本区域。

步骤107、输出文本区域

本装置既可以输出各文本区域矩形的四个坐标，也可以直接标定彩色图像的文本区域矩形。

图2为改进的彩色边缘检测算法的流程图，主要包括三个步骤：获取灰度边缘图像，阈值分割和非极大值抑制。

步骤201、获取灰度边缘图像

本装置通过扩展的Roberts算子对彩色图像进行处理以获取灰度边缘图像。已知输入彩色图像I，其中像素点(i，j)的R，G，B彩色分量分别为R(i，j)，G(i，j)，B(i，j)。则定义如下彩色梯度算子来将彩色图像I转换到灰度图像I₁：

I_{1} = \sqrt{Eud (i + n, j + n; i, j) + Eud (i, j + n; i + n, j)} - - - (1)

其中式(1)中：

Eud (i_{1}, j_{1}; i_{2}, j_{2}) = \sqrt{{[R (i_{1}, j_{1}) - R (i_{2}, j_{2})]}^{2} + {[G (i_{1}, j_{1}) - G (i_{2} {, j}_{2})]}^{2} + {[B (i_{1}, j_{1}) - B (i_{2}, j_{2})]}^{2}} - - - (2)

并且在具体实施时，式(1)中一般n取1，获得的图像I₁就是我们需要的灰度边缘图像。

步骤202、阈值分割

得到边缘灰度图像I₁后，对图像作阈值分割以去除大量的干扰背景。分割阈值选取算法的描述如下：

int Th0＝N*0.12；//获得图像中文字边缘灰度像素数int count＝0；

int Th＝80；//存放分割阈值

for(int i＝255；i＞80；i++)

{

count+＝h(i)；

if(count＞Th0)

{

Th＝i；//获得分割阈值

break；

}

算法中N为灰度图像I₁中的像素点总数，h(i)中存放的是I₁中灰度值为i的像素点数量，Th为最后获得的分割阈值。阈值分割公式如式(3)所示：

I_{2} (i, j) = \{\begin{matrix} 1 & I_{1} (i, j) &GreaterEqual; Th \\ 0 & I_{1} (i, j) < Th \end{matrix} - - - (3)

分割后获得边缘图像I₂。

步骤203、非极大值抑制

通过步骤202去除灰度图像I₁中的大部分干扰背景点以后，采用局部区域非极大值抑制以进一步去除非边缘像素点。一个点是局部区域极大值时，对该点予以保留。为防止出现边缘断裂，当一个点不是局部区域极大值，但是局部区域极大值与该点的灰度值形成近似

倍关系，即该值的T₁倍小于局部区域的极大值，该值的T₂倍大于局部区域极大值时，对这些点予以保留。在实现时，取3×3的窗口作为局部区域，T₁取为1.35，T₂取为1.5。

图3为本装置为提取角点信息而设计的圆形模板，该模板以点A为圆心，围绕点A有四个圆环，分别为B环、C环和D环。角点信息提取时首先应将要求去的点与圆心对起。具体求取步骤如图4所示。

图4为本装置提取角点信息的流程图，共包含7个步骤：读取一个像素点、判断该点是否为边缘点、获取边缘点在圆形模板内的分布图、判断该边缘点是否为可能的角点、计算角点处近似值角度值、判断是否处理完毕所有像素点、非极大值抑制。

步骤401、读取边缘图像中的一个像素点

依次读取图像中的一个像素点的值。

步骤402、判断该点是否为边缘像素点

即判断该点的像素值是否为255，如果不是则跳至步骤406。

步骤403、获取边缘点在圆形模板内的分布图

为了不受邻近文字边缘影响，要求圆形模板内的所有像素点均与圆心像素点属于同一个文字。因此只将与像素点属于同一个连通区域的边缘点加入到圆形模板内，将边缘点标记为“1”，非边缘点标记为“0”。

步骤404、判断该点是否是为可能的角点

为加快计算速度，该步骤利用一些简单规则来去除一些明显不是角点的边缘点。以下两类点肯定不是角点：

·圆心点周围8个点都是边缘点时，该点不是边缘点；

·在圆形模板上，像素点的分布图中，B环上出现序列1、0、0、0、1时该圆心像素点不是角点；

当满足以下两个条件之一时直接跳过该点，转到步骤406。

步骤405、计算圆心处的近似角度值

在圆形模板的像素点分布图中，将由全“0”组成的连通区域称为“0”域，将与圆心连通的“0”域称为有效“0”域。这样对有效“0”域内各圆环上标记为“0”的像素点数量进行统计就可以求出圆心点处的近似角度值。角度值的具体计算方式如下：

B_d(n)＝45×[N_b(n)+1] (4)

C_d(n)＝30×[N_c(n)+1] (5)

D_d(n)＝22.5×[N_d(n)+1] (6)

E_d(n)＝11.25×[N_e(n)+1] (7)

{ZA}_{d} (n) = \frac{B_{d} (n) + C_{d} (n) + D_{d} (n) + E_{d} (n)}{4} - - - (8)

D₀(i，j)＝max(ZA_d(n))n＝1，2，3...(9)

D (i, j) = \{\begin{matrix} 360 - D_{0} (i, j) & D_{0} (i, j) &GreaterEqual; 180 \\ D_{0} (i, j) & D_{0} (i, j) < 180 \end{matrix} - - - (10)

式(4)-(7)中Nb(n)，Nc(n)，Nd(n)，Ne(n)分别代表第n个有效“0”域在B，C，D，E四环上灰度值为“0”的像素点数量，Bd(n)，Cd(n)，Dd(n)，Ed(n)分别代表第n个有效“0”域在B，C，D，E四环上计算所得到的夹角度数。式(8)中，ZVd(n)为第n个有效“0”域上4环所得角度值的平均值，并以此作为该有效“0”域的近似角度值。利用公式(9)取圆心点周围所有有效“0”域所获得的最大角度值作为该点的近似角度值。许多图像中，文字排列方向变化较大，因此角点方向对文本区域定位意义不大。在不考虑角点方向时，X度和360-X度所代表的弯曲程度相同。所以算法通过式(10)将所有角点角度值D(i，j)都限定在(0，180)以内。

步骤406、判断是否处理完图像中所有的像素点

如果已经处理完毕则转向步骤407，否则转向步骤401继续处理下一个像素点。

步骤407、非极大值抑制

对局部区域内角度值变化非极大值的点进行抑制来筛选出最终的角点。所选择的局部区域为与图3所示的圆形模板同样大小的一个圆形区域。

图5为本装置标定候选文本区域的流程图，该部分共包含6个步骤：输入边缘图像、图像膨胀、区域标记、轮廓提取、霍夫变换、候选文本区域标定。

步骤501、获得经过边缘筛选的边缘图像

获得已经去除大量非文字边缘的图像，便于对图像做进一步处理。

步骤502、图像膨胀

选用一条水平线段作为结构元素，进行水平膨胀，使得相邻的各边缘连通起来形成连通区域。

步骤503、区域标记

利用区域标记算法，给每个连通区域一个标记以便于后面的处理。

步骤504、轮廓提取

提取连通区域的轮廓，可以降低霍夫变换的处理量。

步骤505、霍夫变换

将区域的轮廓作为霍夫变换的输入，这样可以确定文字的排列方向。

步骤506、候选文本区域标定

步骤505获得了文字区域的排列方向，可以在该方向上做出个连通区域的最小外接矩形以标定候选文本区域。

以上对本发明实所提供的在复杂背景的彩色图像中自动定位文本区域的方法及系统进行了详细介绍，以上说明只是用于帮助理解本发明的方法及其思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1一种复杂图像中文本区域的自动定位方法及装置。

首先获取图像边缘；然后结合机器学习算法并利用边缘的一些特征如角点信息等对边缘进行筛选以去除非文字边缘；再结合形态学操作与霍夫变换形成候选文本区域；最后利用一些规则去除虚假文本区域以实现文本区域的精确定位。

2如权利要求1所述，本装置使用改进的边缘检测算子来提取图像边缘。

首先使用扩展的Roberts算子将彩色图像转换到灰度边缘图像中；然后利用自动阈值分割去除灰度边缘图像中的大量干扰背景；最后利用非极大值抑制获取边缘。

3本装置采用一个圆形模板来提取角点信息，该方法可以精确定位图像中的角点并能同时计算出角点处角度的近似大小。

4如权利要求1所述，利用边缘的角点信息和其它特征，如边缘长度、高度等，选取一种机器学习算法以训练一个智能的分类器对边缘进行筛选来去除非文字边缘。为提高精度，也可以融合多种机器学习算法对边缘进行分类。

5如权利要求1所述，利用一些形态学操作将这些边缘连通起来形成一些连通区域，然后利用一些规则进行处理可以确定最终的文字区域。为精确求取连通区域的最小外接矩形需要利用霍夫变换求取文字的排列方向。

6如权利要求1所述，为进一步去除图像中存在的虚假文本区域，本发明使用一些经验规则对文本区域进行限制，例如文本区域的宽、高、边缘密度等。

7权利要求3中提取角点信息的步骤包括：读取一个像素点并判断该点是否为边缘点；获取边缘点在圆形模板内的分布图；判断该边缘点是否为可能的角点；计算角点处近似值角度值；处理完所有像素点后对候选角点实施非极大值抑制。

8本装置既可以输出各文本区域矩形的四个坐标，也可以直接标定彩色图像的文本区域矩形。

9本装置中标定候选文本区域的步骤包括：输入边缘图像、图像膨胀以形成连通区域、区域标记、轮廓提取、霍夫变换求取文本区域倾斜角度、候选文本区域标定。