CN102163284B

CN102163284B - 面向中文环境的复杂场景文本定位方法

Info

Publication number: CN102163284B
Application number: CN 201110088320
Authority: CN
Inventors: 卢朝阳; 刘晓佩; 李静; 汪文芳; 王伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2011-04-11
Filing date: 2011-04-11
Publication date: 2013-02-27
Anticipated expiration: 2031-04-11
Also published as: CN102163284A

Abstract

本发明公开了一种面向中文环境的复杂场景文本定位方法，主要解决现有技术在复杂背景下场景文本定位虚警率较高的问题。该方法结合基于边缘的文本定位方法和基于纹理的文本定位方法的优点，将边缘和纹理特征进行分阶段组合。首先利用边缘特征进行文本区域的检测，即对下采样后彩色图像进行边缘提取、二值化处理，采用形态学运算将字符边缘连接成块，对每个连通域进行特征提取，通过级联阈值分类器排除大量的非字符连通域，得到备选的字符连通域；然后提取备选字符连通域的纹理特征，通过BP网络分类器进一步确认是否为字符连通域。本发明具有在复杂光照和背景情况下文本定位准确率高、速度快的优点，可用于复杂场景中的文本自动提取与识别。

Description

面向中文环境的复杂场景文本定位方法

技术领域

本发明属于图像处理技术领域，涉及图像文本定位方法，可用于文本自动提取与识别。

背景技术

自然场景中包含着丰富的文字信息，如商店招牌、道路指示牌和各种警告或提示牌等，如果人们能够将这些信息提取出来，并做进一步处理后将具有很广阔的应用前景。例如可以通过光学字符识别OCR模块对文字进行识别，这样可以实现对图像或视频的检索；或者使用文本-语音转换TTS模块将文字用声音的方式恢复出来，将会给国际游客和盲人带来很大的方便。在各种不同的需求下，从图像中对文本信息进行提取就成为了一个非常具有实际意义的课题。而文本定位是的文字信息正确提取的前提，是整个文本信息提取系统的关键部分。所以，研究一种具有高可靠性、高鲁棒性的场景文本定位方法具有十分重要的实际意义。

根据所采用的特征，现有文本定位方法可分为两类：基于区域的定位方法和基于纹理的定位方法。其中：

基于区域的定位方法，可进一步分为基于连通域的定位方法和基于边缘的定位方法。这两种方法均采用自下而上的方式，首先检测出子结构，比如连通域或字符边缘，然后合并这些子结构形成文本区域。基于连通域的定位方法定位比较准确，特别是对较大的字符，速度也较快，但是当文本背景较复杂时，一些类似文本的物体很难被分类；同时如何选取合适的阈值进行字符连通域的确认也是一个难点。基于边缘检测的定位方法，对文本背景比较清晰或文本比较密集的图像具有很好的定位，计算速度比较快；但是当图像中存在较多强边缘对象时，往往会产生较高的虚警率，准确率较低。

基于纹理的定位方法，认为文本是一种特殊的纹理，该方法可以提取不同分辨率图像中不同尺寸、不同语言和不同字体的文本，具有一定的通用性，但是，它存在计算量大和定位精度不高的缺点。

从上面的分析可知，单独采用上述方法中的任意一种，都不能取得满意的结果。针对自然场景的复杂性，各国研究者进行了各种各样的尝试和研究，虽然取得了一定的成果，但是大多数方法都是针对视频文本或背景复杂度较低的场景图像，不能适应光照不均匀、对比度低和复杂背景等情况，定位方法的鲁棒性较差。

发明内容

本发明的目的在于克服上述已有方法的不足，提出了一种面向中文环境的复杂场景文本定位方法以实现在复杂背景情况下减小定位虚警率，提高定位准确率的目的。

实现本发明目的的技术方案是：结合基于边缘的文本定位方法和基于纹理的文本定位方法的优点，采用边缘特征实现快速有效的文本区域检测，对备选的文本区域进行纹理分析，采用机器学习的方法对其进行验证，其具体步骤包括如下：

(1)对分辨率为1600*1200的原始图像进行下采样，将其转换为分辨率为400*300的图像；

(2)对分辨率为400*300的图像进行彩色边缘提取，并进行灰度化，得到灰度边缘图像E；

(3)对灰度边缘图像E进行自适应二值化，得到二值边缘图像I：

3a)将灰度边缘图像E进行分块，块的大小为10*10；

3b)采用局部阈值T对每一分块进行二值化，T的计算公式为：

T＝k₁*m+k₂*s

其中，m为灰度边缘图像E的全局灰度均值，s为局部灰度方差，k₁和k₂分别为全局均值和局部灰度方差的加权系数；

(4)去除二值边缘图像I中长度大于该图像宽度一半的直线、长度小于50的孤立短线和背景中的噪声点，然后对其进行形态学处理，将保留下来的边缘连接成块，得到二值图像C；

(5)对二值图像C进行连通区域标记，得到每个连通区域的位置、长度和宽度信息；然后提取连通域的几何特征，对几何特征建立级联阈值分类器，去除一部分明显为非字符的连通区域，得到备选字符连通区域集合；

(6)提取每个备选字符连通区域的纹理特征，将其作为BP分类器的输入，通过该分类器验证连通区域是否为字符连通区域，如果是字符连通区域则保留下来，否则就去除，这样，保留下来的文字区域即为定位的文字区域。

为实现上述目的，本发明面向中文环境的复杂场景文本定位系统，包括：

下采样模块，用于对分辨率为1600*1200的原始图像进行下采样，将其转换为分辨率为400*300的图像；

边缘提取模块，用于对分辨率为400*300的图像进行彩色边缘提取，并进行灰度化，得到灰度边缘图像E；

二值化模块，用于对灰度边缘图像E进行自适应二值化，得到二值边缘图像，即首先将灰度边缘图像E进行分块，块的大小为10*10，然后采用局部阈值T对每一分块进行二值化，T的计算公式为：

T＝k₁*m+k₂*s

二值图像处理模块，用于去除二值边缘图像I中长度大于该图像宽度一半的直线、长度小于50的孤立短线和背景中的噪声点，然后对其进行形态学处理，将保留下来的边缘连接成块，得到二值图像C；

连通分量特征提取及阈值确认模块，用于对二值图像C进行连通区域标记，得到每个连通区域的位置、长度和宽度信息；然后提取连通域的几何特征，对几何特征建立级联阈值分类器，去除一部分明显为非字符的连通区域，得到备选字符连通区域集合；

验证模块，用于提取每个备选字符连通区域的纹理特征，将其作为BP分类器的输入，通过该分类器验证连通区域是否为字符连通区域，如果是字符连通区域则保留并作为定位的文字区域，否则去除。

本发明与现有技术相比具有如下优点：

(1)本发明由于将边缘和纹理特征进行了分阶段组合，采用边缘特征实现了对所有可能文字区域的快速检测；充分利用字符连通分量的各种特征，以及通过BP网络分类器对备选字符连通分量进行验证，不仅提高了在复杂背景情况下文本定位的准确率，而且减少了BP网络分类器的负担，节省了时间开销；

(2)本发明由于考虑图像的光照不均匀、对比度较低的因素，对边缘灰度图像采用局部阈值进行二值化，保证了在光照较差情况下的文字区域检测，增强了本发明对光照条件的鲁棒性。

附图说明

图1为本发明定位方法的总流程图；

图2为本发明中建立级联阈值分类器的子流程图；

图3为本发明定位系统的组成框图；

图4为本发明实施方式中使用的测试原始图像；

图5为本发明对图4进行边缘提取后的图像；

图6为本发明对图5进行二值化后的图像；

图7为本发明对图6进行连通域分析后的图像；

图8为本发明对图7经过阈值分类器后的图像；

图9为本发明对图8经过分类器确认后的定位结果图。

具体实施方式

下面将结合附图对本发明加以详细说明。

本发明中，其输入的图像可以是各种图像获取设备获取的图像，例如：数码相机DC、带摄像功能的手机、带摄像功能的PDA或者可以是来自于数码摄像机DV的视频序列中的一帧等。本发明方法处理的图像可以是针对各种图像编码格式，例如：JPEG、BMP等。在以下的叙述中，本发明涉及的参数学习使用的库为自建数据库。由于目前没有一个公开的面向中文环境的场景文本数据库，所以本发明致力于建立一个具有5000～10000张图片的数据库，其中涵盖了各种类型的复杂场景文本图像，图像中的文字包含中文和英文字符，所以本实施例是针对中英文字符进行训练得到的参数，但是本发明方法同样适合与中文字符具有相似结构的其他各种语言，比如日文，韩文等。

下面将参考附图详细介绍本发明的实施例。

参照图1，本发明定位方法包括步骤如下：

步骤1，对分辨率为1600*1200的原始图像进行下采样，将其转换为分辨率为400*300的图像，如图4所示。

步骤2，文本图像彩色边缘提取。

通过有效的文本图像边缘提取，能很好的保留文字边缘，而淡化非文字边缘，本实施例中，采用基于文字笔画方向的彩色图像边缘检测算子进行边缘提取，其步骤如下：

(2a)将任意像素p的边缘值分别在红色R、绿色G和蓝色B三个通道中，沿着0、π/4、π/2和3π/4的四个笔画方向进行计算，即：

E_pR＝max{|p₃-p₇|，|p₅-p₁|，|p₄-p₀|，|p₆-p₂|}

E_pG＝max{|p₃-p₇|，|p₅-p₁|，|p₄-p₀|，|p₆-p₂|}

E_pB＝max{|p₃-p₇|，|p₅-p₁|，|p₄-p₀|，|p₆-p₂|}

其中，E_pR、E_pG和E_pB分别为像素p在R、G和B通道中的边缘值，p_i(i＝0，1，...，7)表示像素p的8邻域像素，排列方式为从p的左上角p₀开始，按照顺时针方向依次排列；

(2b)按照下式计算像素p的灰度边缘值E_p：

E_p＝0.30E_pR+0.59E_pG+0.11E_pB

按照上述步骤得到的灰度边缘图像如图5所示。

步骤3，对灰度边缘图像的二值化。

对灰度图像的二值化，关键部分就在于阈值的选取。全局阈值法在图像和背景灰度相差较明显时效果比较突出，但是这种方法往往容易忽略细节，当图像中存在较多的阴影或者图像对比度比较复杂时往往很难得到理想的效果。本实施例中采用局部阈值法，其中Niblack算法是一种比较常用的且简单有效的局部动态阈值方法，该方法能有效克服全局阈值法的缺陷，但是，它却过分夸大了图像的细节，没有注意到图像的整体效果。为了兼顾全局与局部信息，本实施例将图像的全局灰度均值和局部邻域方差进行加权求和得到阈值，其步骤如下：

(3a)将灰度边缘图像进行分块，块的大小为10*10；

(3b)采用局部阈值T对每一分块进行二值化，T的计算公式为：

T＝k₁*m+k₂*s

其中，m为灰度边缘图像的全局灰度均值，s为局部灰度方差，k₁和k₂分别为全局均值和局部灰度方差的加权系数；对灰度边缘图像进行二值化的结果如图6所示。

步骤4，对二值边缘图像进行处理。

在复杂背景情况下，二值边缘图像中通常存在大量的非文本边缘，诸如水平、垂直直线和孤立噪声等连通部件，这对准确定位文本区域及后续处理速度具有较大的影响，本发明首先去除二值边缘图像中长度大于该图像宽度一半的直线、长度小于50的孤立短线及背景噪声，然后采用形态学处理将保留下来的边缘连接成块，如图7所示，其中红色矩形框为检测到的可能文字区域，蓝色矩形框为真值。

步骤5，连通域标记及确认阈值。

对二值图像采用像素标记法先进行8连通的区域分析，得到每个连通区域的位置、长度和宽度信息；然后提取连通域的面积、长宽比、黑白像素比、边缘密度和连通域方差5个几何特征，对几何特征建立级联阈值分类器，参照图2，其步骤如下：

(5a)通过对200幅场景文本图片的文字区域和非文字区域进行分割，建立字符样本集和非字符样本集；

(5b)对字符样本集和非字符样本集的每个特征值进行统计，获得可用于区分字符区域和非字符区域的相应阈值；根据所获得的阈值，采用简单的阈值判定规则构建相应的阈值分类器，即输入连通域的特征值在特定的阈值范围内，则认为是字符连通域，否则就认为是非字符连通域；

(5c)根据各个特征的计算时间和排除非字符连通分量的能力，按照连通域的面积、连通域的长宽比、黑白像素比、边缘密度和连通域方差的顺序将各阈值分类器依次连接组成级联阈值分类器。

采用上述级联阈值分类器后，大量的非文本区域被去除，如附图8所示。

步骤6，验证备选文本区域。

文字可看作为一种特殊的纹理，对纹理的提取可采用FFT、DCT、小波变换、和Gabor滤波器等，其中Gabor滤波器能够针对人眼视觉更加有效的刻画纹理信息，所以本实施例提取每个备选字符连通区域的Gabor纹理特征，即将每个备选字符连通域归一化为32×32，然后进行Gabor滤波，获得4个方向和3个尺度共12个子图，对每幅子图提取6个统计特征作为其纹理特征。将其作为BP分类器的输入，通过该分类器验证连通区域是否为字符连通区域，如果是字符连通区域则保留并作为定位的文字区域，否则去除，定位结果如图9所示。

参照图3，本发明的定位系统包括：

下采样模块、边缘提取模块、二值化模块、二值图像处理模块、连通分量特征提取及阈值确认模块和验证模块，其中

下采样模块，用于对1600×1200的原始图像进行下采样为400×300的图像；

边缘提取模块，用于对下采样后的图像进行彩色边缘提取：先将任意像素p的边缘值分别在红色R、绿色G和蓝色B三个通道中，沿着0、π/4、π/2和3π/4的四个笔画方向进行计算，即：

E_pR＝max{|p₃-p₇|，|p₅-p₁|，|p₄-p₀|，|p₆-p₂|}

E_pG＝max{|p₃-p₇|，|p₅-p₁|，|p₄-p₀|，|p₆-p₂|}

E_pB＝max{|p₃-p₇|，|p₅-p₁|，|p₄-p₀|，|p₆-p₂|}

再计算像素p的灰度边缘值：E_p＝0.30E_pR+0.59E_pG+0.11E_pB。

二值化模块，将灰度边缘图像先分为10×10小块，再采用阈值T＝k₁*m+k₂*s对二值边缘图像进行二值化，其中m为图像的全局均值，s为局部方差，k₁和k₂为加权系数；

二值图像处理模块，用于对二值边缘图像进行处理，即将背景中长度大于的该图像宽度一半的直线、长度小于50的孤立短线和背景中的噪声点去除，然后对其进行形态学处理，将保留下来的边缘连接成块，形成字符连通集。

连通分量特征提取及阈值确认模块，对二值图像处理后的二值图像采用像素标记法进行八连通的区域分析，在标记各个连通分量的同时，获得各连通分量的连通区域的位置、长度和宽度信息。本实施例中把连通域标记的所有连通分量称为字符连通分量集合。然后采用一个级联阈值分类器的方法，首先，获取连通分量的第一个特征，然后该特征量与阈值相比较判断是否是字符连通域，如果是，该连通分量被送入下一个特征获取器获取第二个特征；如果不是，则丢弃，且不计算后续特征。如果级联的阈值分类器都判断连通分量为字符连通分量，则该连通分量就被级联阈值分类器确认为字符连通分量。级联的分类器结构有助于提高系统的速度，在提取一个特征之后，如果其不满足特定的阈值，则将该连通分量排除，这样可避免计算该连通分量级联分类器后面的特征。本实施例中主要包括的特征有：连通区域的面积、连通区域的长宽比、黑白像素比、边缘密度、连通域方差。以上特征都是在连通域分析时获得的，根据各个特征的计算时间和排除非字符连通分量的能力，排列各个特征在级联阈值分类器中的先后顺序。在本实施例中其先后顺序为：连通区域面积、连通区域的长宽比、黑白像素比、边缘密度、连通域方差。各个分类器的阈值确定是通过对样本数据库中的特征值进行统计得到。通过这些分类器，可以在测试库上达到81％的召回率，但是准确率相对较低。可以通过调整这些阈值来平衡准确率和召回率。在经过级联阈值分类器之后，大量的非字符分量被排除，但是仍有一些比较类似字符的非字符连通分量没有被排除，所以仅仅使用字符连通分量特征不足以获得较好的定位效果。

验证模块，采用3个尺度4个方向的Gabor滤波器组，将输入的大小为32*32的备选文本块与Gabor函数进行卷积可得不同方向和尺度的子带，对每个子带提取6个特征，它们分别是均值、方差、能量、熵、惯量和局部统一性。这样就可得72个特征，进行归一化后将其作为BP网络的输入。其中，BP网络为包含输入层、隐含层和输出层的三层结构，输入层包含72个输入神经元，隐含层包含54个神经元，输出层包含1个神经元。在实施例训练神经网络时使用的参数为：学习率为0.3，动量因子为0.4，训练的正样本为备选文本区中的字符连通区域，负样本为样本库中手工获取的非字符区域，整个训练过程使用的正负样本数均为1000，通过训练后的分类器对备选文本区进行确认，如果是字符区域则保留并作为定位的文字区域，否则去除。

Claims

1.一种面向中文环境的复杂场景文本定位方法，其步骤包括如下：

（1）对分辨率为1600*1200的原始图像进行下采样，将其转换为分辨率为400*300的图像；

（2）对分辨率为400*300的图像进行彩色边缘提取，并进行灰度化，得到灰度边缘图像E；

（3）对灰度边缘图像E进行自适应二值化，得到二值边缘图像I：

3a）将灰度边缘图像E进行分块，块的大小为10*10；

3b）采用局部阈值T对每一分块进行二值化，T的计算公式为：

T＝k₁*m+k₂*s

（4）去除二值边缘图像I中长度大于该图像宽度一半的直线、长度小于50的孤立短线和背景中的噪声点，然后对其进行形态学处理，将保留下来的边缘连接成块，得到二值图像C；

（5）对二值图像C进行连通区域标记，得到每个连通区域的位置、长度和宽度信息；然后提取连通域的几何特征，对几何特征建立级联阈值分类器，去除一部分明显为非字符的连通区域，得到备选字符连通区域集合；

（6）提取每个备选字符连通区域的纹理特征，将其作为BP分类器的输入，通过该分类器验证连通区域是否为字符连通区域，如果是字符连通区域则保留并作为定位的文字区域，否则去除。

2.如权利要求1所述的方法，其特征在于，步骤（1）所述的将源图像转换为低分辨率的图像，是通过对原始图像进行下采样，以减少存储空间及计算量。

3.如权利要求1所述的方法，其特征在于，步骤（2）所述的彩色边缘提取，采用如下步骤进行：

（1）将任意像素p的边缘值分别在红色R、绿色G和蓝色B三个通道中，沿着0、π/4、π/2和3π/4四个笔画方向进行计算，即：

E_pR＝max{|p₃-p₇|,|p₅-p₁|,|p₄-p₀|,|p₆-p₂|}

E_pG＝max{|p₃-p₇|,|p₅-p₁|,|p₄-p₀|,|p₆-p₂|}

E_pB＝max{|p₃-p₇|,|p₅-p₁|,|p₄-p₀|,|p₆-p₂|}

其中，E_pR、E_pG和E_pB分别为像素p在R、G和B通道中的边缘值，p_i，i=0，1，…，7表示像素p的8邻域像素，排列方式为从p的左上角p₀开始，按照顺时针方向依次排列；

（2）按照下式可得到像素p的灰度边缘值E_p：

E_p＝0.30E_pR+0.59E_pG+0.11E_pB。

4.如权利要求1所述方法，其特征在于，步骤（5）所述的连通域的几何特征，包括连通域的面积、连通域的长宽比、黑白像素比、边缘密度和连通域方差5种几何特征。

5.如权利要求1所述方法，其特征在于，步骤（5）所述的对几何特征建立级联阈值分类器，按如下步骤进行：

（5a）通过对200幅场景文本图片的文字区域和非文字区域进行分割建立字符样本集和非字符样本集；

（5b）对字符样本集和非字符样本集的每个特征值进行统计，获得可用于区分字符区域和非字符区域的相应阈值；根据所获得的阈值，采用简单的阈值判定规则构建相应的阈值分类器，即输入连通域的特征值在特定的阈值范围内，则认为是字符连通域，否则就认为是非字符连通域；

（5c）根据各个特征的计算时间和排除非字符连通分量的能力，按照连通域的面积、连通域的长宽比、黑白像素比、边缘密度和连通域方差的顺序将各阈值分类器依次连接组成级联阈值分类器。

6.如权利要求1所述方法，其特征在于，步骤（6）所述的提取每个备选字符连通区域的纹理特征，是将每个备选字符连通域归一化为32×32，然后进行Gabor滤波，获得4个方向和3个尺度共12个子图，对每幅子图提取6个统计特征作为其纹理特征。

7.一种面向中文环境的复杂场景文本定位系统，包括：

二值化模块，用于对灰度边缘图像E进行自适应二值化，得到二值边缘图像I，即首先将灰度边缘图像E进行分块，块的大小为10*10，然后采用局部阈值T对每一分块进行二值化，T的计算公式为：

T＝k₁*m+k₂*s

8.如权利要求7所述系统，其特征在于，验证模块所述的BP分类器，包含输入层、隐含层和输出层的3层网络结构，其中输入层包含72个输入神经元，隐含层包含54个神经元，输出层包含1个神经元。