CN104050471A

CN104050471A - 一种自然场景文字检测方法及系统

Info

Publication number: CN104050471A
Application number: CN201410228539.2A
Authority: CN
Inventors: 桑农; 王润民; 高常鑫; 罗思慧; 陈梦; 况小琴
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2014-09-17
Anticipated expiration: 2034-05-27
Also published as: CN104050471B

Abstract

本发明公开了一种自然场景文字检测方法及系统，属于模式识别技术领域。本发明首先对图像进行二值化处理以获取文字初步候选区域，然后基于判决规则和置信度图像建立两层滤波机制以剔除伪文字区域。为弥补前期处理所可能导致的文字丢失问题，将已获得的文字候选区域形成种子区域，然后在其邻近区域根据上下文信息恢复已丢失的文字候选区域。将沿水平方向排列的相邻的文字区域形成文字行并采用分类器进行判决以剔除伪文字行。最后，将文字行中的文字以单词为单元分割开来。本发明根据上下文信息有效地对复杂自然场景中的文字进行提取，对加快实现自然场景理解与分析的自动化、智能化具有很高的实用价值。

Description

一种自然场景文字检测方法及系统

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种自然场景文字检测方法及系统。

背景技术

随着数码摄像设备的成熟和普及，人们已经能够非常方便快捷地记录现实世界在不同视角下的方方面面。而作为人类语言的可视化文本，在人类活动中具有特殊而不可替代的地位。自然场景文字检测是计算机视觉与模式识别技术在目标检测与识别领域中的重要研究课题之一。该技术目的在于在所拍摄的自然场景图像中准确地检测出文字信息，其在自然场景理解与分析、机器人辅助导航、视频检索、盲人辅助阅读及文字翻译等方面有广泛的应用前景。

对自然场景中的文字进行检测，其最终目的是为后续的文字识别与语义理解提供帮助。作为文字识别系统中的重要组成部分，自然场景文字检测技术可以辅助人们理解自然场景内容。自然场景文字检测作为自然场景文字识别系统完成图像采集后处理的第一步，其检测性能的好坏直接关系到整个系统识别率的高低。因此，如何快速、准确地检测出文字是自然场景文字识别技术中一个非常关键的问题。

目前国内外许多学者对自然场景文字检测技术进行了大量的研究，并取得了一些成果。现有的自然场景文字检测算法主要沿用三条技术路线，一条技术路线是基于连通域方法对文字进行提取；另一条技术路线则根据文字区域具有与其他非文字区域不同的纹理特征，采用分类器方法提取文字区域；另外一条技术路线则综合利用了连通域方法和分类器方法提取文字区域。

尽管印刷文档光学字符识别(Optical Character Recognition，OCR)技术已经较为成熟，但对自然场景中的文字进行检测与识别却远未达到实用水平。在现实中，由于自然场景图像背景复杂，图像中的文字字体、大小及颜色等变化繁多。再加上拍摄视角的变化，以及不同光照的影响等诸多因素，使得快速、准确地检测出自然场景图像中的文字区域难度较大。在现有的技术方案中，基于连通域分析的方法具有速度较快的优点，但很难有效地应对复杂背景的情况；而采用分类器方法能有效应对复杂背景的情形，但由于需要多尺度地遍历图像并对每一个检测窗口进行判断，从而导致速度较慢。因此，如何快速、准确地在复杂自然场景中提取出文字目标是现有文字检测技术中有待进一步解决的问题。

发明内容

为了解决现有技术中存在的上述技术问题，按照本发明的一个方面，提供一种自然场景文字检测方法，包括：

(1)将输入的自然场景彩色图像转换为灰度图像；

(2)对所述灰度图像进行中值滤波，得到中值滤波后灰度图像；

(3)对所述中值滤波后灰度图像进行二值化处理得到二值图像，对所述二值图像中的所有连通分量进行标记，并将各连通区域作为文字初步候选区域，其中所述连通区域为各连通分量最小外接矩形所包含的区域；

(4)根据所述自然场景彩色图像中文字的先验知识设置剔除判决条件，分别判断每个文字初步候选区域是否符合所述剔除判决条件，是则作为文字候选区域保留，否则作为伪文字区域剔除；

(5)分别计算每一文字候选区域的文字相似度，同时计算所述文字候选区域所对应的连通分量与其水平方向的相邻连通分量的高度相似度、笔画宽度相似度，以及所述文字候选区域所对应的连通分量所对应的所述自然场景彩色图像部分与所述相邻连通分量所对应的所述自然场景彩色图像部分的颜色相似度，对所述四个相似度值加权计算以获得该文字候选区域的置信度，分别用各文字候选区域的所述置信度表示其前景像素值，从而形成置信度图像，对所述置信度图像中的每一文字候选区域判断其所述置信度是否小于设定的置信度阈值，是则判定对应的文字候选区域为所述伪文字区域并剔除，否则作为所述文字候选区域保留；

(6)将经过所述步骤(3)～(5)处理后保留的所有文字候选区域判断为文字区域，并形成种子区域，根据上下文信息设置的恢复判决条件，恢复经所述步骤(3)～(5)处理后丢失的文字候选区域；

(7)对经所述步骤(3)～(6)处理后保留下来的所有文字候选区域所对应的连通分量进行形态学闭处理，从而获取多个文字行候选区域；

(8)利用卷积神经网络训练好的分类器对所述步骤(7)获得的每一文字行候选区域进行识别，并获得各文字行候选区域的置信度，判断所述文字行候选区域的置信度是否小于所设定的文字行置信度阈值，是则将所述文字行候选区域判定为伪文字行区域并剔除，否则作为文字行区域并保留；

(9)对经所述步骤(8)处理后所得到的所述文字行区域中的文字间距进行统计，若相邻文字间距大于单词间距分割阈值，则表明所述相邻文字分别归属不同的单词，将所述相邻文字分割开以实现所述文字行区域中以单词为单元的文字分割。

按照本发明的另一方面，提供一种自然场景文字检测系统，包括以下模块：

灰度转换模块，将输入的自然场景彩色图像转换为灰度图像；

中值滤波模块，对所述灰度图像进行中值滤波，得到中值滤波后灰度图像；

二值处理模块，对所述中值滤波后灰度图像进行二值化处理得到二值图像，对所述二值图像中的所有连通分量进行标记，并将各连通区域作为文字初步候选区域，其中所述连通区域为各连通分量最小外接矩形所包含的区域；

判断文字候选区域模块，根据所述自然场景彩色图像中文字的先验知识设置剔除判决条件，分别判断每个文字初步候选区域是否符合所述剔除判决条件，是则作为文字候选区域保留，否则作为伪文字区域剔除；

置信度模块，分别计算每一文字候选区域的文字相似度，同时计算所述文字候选区域所对应的连通分量与其水平方向的相邻连通分量的高度相似度、笔画宽度相似度，以及所述文字候选区域所对应的连通分量所对应的所述自然场景彩色图像部分与所述相邻连通分量所对应的所述自然场景彩色图像部分的颜色相似度，对所述四个相似度值加权计算以获得该文字候选区域的置信度，分别用各文字候选区域的所述置信度表示其前景像素值，从而形成置信度图像，对所述置信度图像中的每一文字候选区域判断其所述置信度是否小于设定的置信度阈值，是则判定对应的文字候选区域为所述伪文字区域并剔除，否则作为所述文字候选区域保留；

恢复模块，将经过所述二值处理模块、所述判断文字候选区域模块和所述置信度模块处理后保留的所有文字候选区域判断为文字区域，并形成种子区域，根据上下文信息设置的恢复判决条件，恢复经所述二值处理模块、所述判断文字候选区域模块和所述置信度模块处理后丢失的文字候选区域；

文字行获取模块，对经所述二值处理模块、所述判断文字候选区域模块、所述置信度模块和所述恢复模块处理后保留下来的所有文字候选区域所对应的连通分量进行形态学闭处理，从而获取多个文字行候选区域；

文字行判断模块，利用卷积神经网络训练好的分类器对所述文字行获取模块获得的每一文字行候选区域进行识别，并获得各文字行候选区域的置信度，判断所述文字行候选区域的置信度是否小于所设定的文字行置信度阈值，是则将所述文字行候选区域判定为伪文字行区域并剔除，否则作为文字行区域并保留；

单词分割模块，对经所述文字行判断模块处理后所得到的所述文字行区域中的文字间距进行统计，若相邻文字间距大于单词间距分割阈值，则表明所述相邻文字分别归属不同的单词，将所述相邻文字分割开以实现所述文字行区域中以单词为单元的文字分割。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

1.本发明主要包含了提取文字初步候选区域、剔除伪文字区域、恢复丢失的文字候选区域、形成文字行候选区域、剔除伪文字行区域及文字行区域中单词分割六个部分，利用连通域方法和分类器方法，能速度较快且有效地处理复杂自然场景情况；引入待处理文字候选区域与其水平方向邻近文字候选区域之间的相似关系，从而增强了连通域方法的鲁棒性，进而提高了本发明的检测能力；

2.本发明利用上下文信息对由于多次滤波而丢失的文字候选区域进行恢复，从而提高了文字检测的召回率；

3.本发明可以为自然场景文字识别系统提供良好的文字检测结果，从而提高自然场景文字识别系统的识别性能，对加快实现自然场景理解与分析的自动化、智能化具有很高的实用价值，且在视频检索、盲人辅助阅读等方面有广泛的应用前景。

附图说明

图1是本发明自然场景文字检测方法的流程图；

图2是本发明实施例的待检测自然场景彩色图像样例对应的灰度图像；

图3是本发明实施例的待检测自然场景彩色图像样例对应的最终检测结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1所示为本发明自然场景文字检测方法的流程图。本发明实施例的处理步骤主要包含了提取文字初步候选区域、剔除伪文字区域、恢复丢失的文字候选区域、形成文字行候选区域、剔除伪文字行区域及文字行区域中单词分割六个部分。具体包括如下步骤：

步骤1：将输入的自然场景彩色图像转换为灰度图像，在本发明实施例中，灰度图像的大小为1280×960。对于自然场景彩色图像中坐标位置为(i,j)的像素点，其红色分量值为R(i,j)、绿色分量值为G(i,j)、蓝色分量值为B(i,j)，转换后该像素点所对应的灰度值为Gray(i,j)。本发明实施例采用的转换公式为：

Gray(i,j)＝0.2989×R(i,j)+0.5870×G(i,j)+0.1140×B(i,j)。

步骤2：为了减少经过步骤1处理后所得到的灰度图像中的噪声，本发明实施例采用了3×3邻域模板中值滤波方法对灰度图像进行中值滤波，得到经过中值滤波后的灰度图像，以下简称为中值滤波后灰度图像。中值滤波法是一种非线性平滑技术，将图像中每一个像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。

步骤3：对上述中值滤波后灰度图像进行二值化处理得到二值图像，对二值图像中的所有连通分量进行标记，得到文字初步候选区域，具体包括如下子步骤：

3.1采用Niblack方法对中值滤波后灰度图像进行局部二值化处理，得到二值化初始结果，本发明实施例中所选择的局部窗口尺寸为10×10。

3.2对中值滤波后灰度图像进行拉普拉斯变换并对变换后图像中各像素点拉普拉斯值取绝对值，然后对各绝对值进行归一化处理。本发明实施例所采用的归一化公式为：

Lap_{_aft}(i,j)＝(Lap_{_bef}(i,j)-Minvalue)/(Maxvalue-Minvalue) (1)

其中，Lap_{_bef}(i,j)、Lap_{_aft}(i,j)分别为上述拉普拉斯变换后图像中坐标位置为(i,j)的像素值进行归一化处理前、后的值；Maxvalue、Minvalue分别为上述拉普拉斯变换后图像像素值的最大值和最小值。

通过对中值滤波后灰度图像进行拉普拉斯变换，可以在其图像边缘部分获得较大的拉普拉斯值，相反在文字之间的平坦区域获得较小的拉普拉斯值。事实上，在采用Niblack方法对灰度图像进行局部二值化处理时，通常可以在其边缘部分获得正确的二值化结果。因此在本发明实施例中，将对中值滤波后灰度图像进行拉普拉斯变换所获得的拉普拉斯值作为Niblack局部二值化处理结果的置信度。

3.3根据同一目标区域内相邻像素具有相似性的特点，建立能量函数并对该能量函数求解全局最优解以调整Niblack局部二值化初始结果。在本发明实施例中，能量函数按照公式E(f|I,n)＝E_local(f|I,n)+E_smooth(f|I)进行构建，并采用graph cut方法求解能量函数最小值以确保获得最小割。其中，I表示输入图像，即中值滤波后灰度图像；f＝{f₁,f₂,...,f_N}表示中值滤波后灰度图像中各像素的二值化结果；n＝{n₁,n₂,...,n_N}表示二值图像的初始标签；N表示中值滤波后灰度图像中的像素数目。

E_local(f|I,n)＝Σ_ie_local(i)用来评价中值滤波后灰度图像的最终二值化结果与局部二值化初始结果之间的差异，其中：

e_{local} (i) = \{\begin{matrix} 1 - (0.5 + {&dtri;}^{2} I_{i}^{'} / 2), & f_{i} = n_{i} \\ 0.5 + {&dtri;}^{2} I_{i}^{'} / 2, & f_{i} &NotEqual; n_{i} \end{matrix}

其中，▽²I'_i表示中值滤波后灰度图像进行拉普拉斯变换并取绝对值后的归一化值，即为上述公式(1)计算得到的Lap_{_aft}(i,j)。

E_smooth(f|I)＝λΣ_(i,j)∈Me_smooth(i,j)根据相邻像素的相似度来表示平滑程度，其中：

e_{smooth} (i, j) = \{\begin{matrix} \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{2 σ_{g}^{2}} - \frac{{| | c_{i} - c_{j} | |}^{2}}{2 σ_{c}^{2}}), & f_{i} &NotEqual; f_{j} \\ 0, & f_{i} = f_{j} \end{matrix}

其中，M表示邻域数，本发明实施例中采用了8邻域方式；x表示像素坐标位置；c表示RGB颜色；σ_g和σ_c表示归一化常数；λ表示平滑系数。

由于在实际的自然场景彩色图像中的文字区域可能存在浅底暗字及暗底浅字模式，则其中值滤波后灰度图像也可能存在浅底暗字及暗底浅字模式，因此在本发明实施例中需要对每一张中值滤波后灰度图像针对上述两种模式分别进行二值化处理。具体实施方法就是首先对中值滤波后灰度图像进行上述二值化处理获得相应的二值图像，然后对中值滤波后灰度图像进行反转变换获得反转后中值滤波后灰度图像，进而对该反转后中值滤波后灰度图像进行上述二值化处理获得相应的二值图像。对中值滤波后灰度图像进行二值化后，分别针对浅底暗字及暗底浅字模式所获得的二值图像中的所有连通分量进行标记，并将各个连通分量最小外接矩形所包含的区域视为初步文字候选区域。为方便表述，在本发明实施例后续表述中将“连通分量最小外接矩形所包含的区域”简称为“连通区域”

步骤4：经过上述步骤3处理后，根据自然场景彩色图像中文字的先验知识建立剔除判断条件，并分别对每一个初步候选区域进行判断。如果不满足剔除判断条件，则判断该文字初步候选区域为伪文字区域并剔除；反之，则判断为文字候选区域保留。在本发明实施例中，判断条件按照表1所述条件进行定义：

表1

在本发明实施例中，表1中各个变量定义如下述：定义第i个连通分量x_i的像素总数与其连通区域的面积之比为Rab(x_i)，其面积之比最小阈值和最大阈值分别为Rab_min＝0.1、Rab_max＝0.7；连通分量x_i所在连通区域的高度、宽度分别为H(x_i)、W(x_i)，其高度、宽度的最小阈值和最大阈值分别为H_min＝10、H_max＝0.9×img_H、W_min＝6、W_max＝0.8×img_W，其中，img_H、img_W分别表示为输入图像的高度与宽度；连通分量x_i所在连通区域内含其他连通分量数目为CCCN(x_i)，其内含连通分量数目最大阈值为CCCN_T＝4；连通分量x_i所在连通区域宽高比和高宽比的最大值为AR(x_i)，该比值的最大阈值为AR_max＝10；连通分量x_i所在连通区域的面积为)其最小阈值和最大阈值分别为CCA_min＝50、CCA_max＝0.85×(img_H×img_W)；连通分量x_i所在连通区域内的孔洞数目为CCHN(x_i)，其最大阈值为CCHN_T＝15；连通分量x_i的边缘到其连通区域的平均距离为Ead(x_i)，其最小阈值为Ead_T＝min(0.1×CC_H,0.1×CC_W)，其中，CC_H、CC_W分别表示当前连通分量所在连通区域的高度与宽度。在本发明实施例中，上述参数阈值均为根据经验进行设定的。

步骤5：分别计算每一个文字候选区域的文字相似度，同时计算该文字候选区域对应连通分量与其水平方向的相邻连通分量的高度相似度、笔画宽度相似度，以及该文字候选区域对应连通分量所对应的自然场景彩色图像部分与其相邻连通分量所对应的自然场景彩色图像部分的颜色相似度，并对上述四个特征进行加权计算以获得该文字候选区域的置信度。需要指出的是，在本发明实施例中，定义某个连通分量水平方向的相邻连通分量可采用如下方式实现：为了方便描述，将某个连通分量称为种子连通分量，在二值图像中首先保留与该种子连通分量高度相近的连通分量，然后在水平方向对各个连通分量进行形态学闭处理，进一步对形态学闭处理后所得到的图像进行分析，将满足与种子连通分量位于同一个连通区域的连通分量视为该种子连通分量的相邻连通分量。

对于上述每一个文字候选区域，其前景像素值用该文字候选区域的置信度来表示，从而形成置信度图像。根据前述文字候选区域置信度定义(即由上述四个特征进行加权计算得到的置信度)，文字区域往往获得较高的置信度，而非文字区域的置信度较低，据此可以剔除一些非文字区域。对置信度图像中的每一个文字候选区域进行分析，判断其置信度是否小于设定的阈值MinConfidence_T，是则判定该文字候选区域为伪文字区域并剔除，否则作为文字候选区域保留。在本发明实施例中也可采用下述方法获得相同的技术效果：首先对每一个文字候选区域进行分析，若该候选区域的置信度小于阈值MinConfidence_T，则将该文字候选区域判定为伪文字区域并剔除，然后将每一个保留下来的文字候选区域的前景像素值用该区域的置信度来表示，从而形成整体置信度图像。

在本发明实施例中，置信度图像按照如下方式实现：

Char_tc(i)＝α×Char_hogc(i)+β×Char_hc(i,j)+γ×Char_swc(i,j)+ψ×Char_rgbc(i,j)

其中，Char_tc(i)表示对应于二值图像中的第i个文字候选区域的置信度；Char_hogc(i)表示第i个文字候选区域的文字相似度；Char_hc(i,j)表示第i个文字候选区域对应的连通分量与其水平方向的第j个相邻连通分量的高度相似度；Char_swc(i,j)表示对应第i个文字候选区域的连通分量与其水平方向的第j个相邻连通分量的笔画宽度相似度；Char_rgbc(i,j)表示对应第i个文字候选区域的连通分量所对应的自然场景彩色图像部分与其水平方向的第j个相邻连通分量所对应的自然场景彩色图像部分的颜色相似度；α、β、γ、ψ表示权重，在本发明实施例中，α＝1、β＝2、γ＝1、ψ＝1；i∈M，M表示二值图像中文字候选区域的总数；j∈N，N表示第i个文字候选区域在水平方向高度近似相等的邻近文字候选区域总数。在本发明实施例中，若文字候选区域间的高度满足如下条件，则表示文字候选区域高度近似相同：

min(ch_i,ch_j)/max(ch_i,ch_j)＜T₀

其中，ch_i,ch_j分别表示第i个和第j个文字候选区域的高度，T₀表示高度比阈值，在本发明实施例中，T₀＝0.75。

第i个文字候选区域的文字相似度Char_hogc(i)值可以采用分类器输出的置信度值进行度量。在本发明实施例中，首先提取该文字候选区域所对应的中值滤波后灰度图像部分的方向梯度直方图(Histogram ofOriented Gradient，HOG)特征，然后利用支持向量机(Support VectorMachine，SVM)训练好的分类器对其进行评价，文字相似度Char_hogc(i)值即为分类器输出的置信度值。

第i个文字候选区域对应的连通分量与其水平方向的第j个相邻连通分量的高度相似度定义为：

Char_hc (i, j) = (\frac{1}{N}) Σ_{j = 1}^{N} (1 - \frac{| Char_hc (i) - Char_hc (j) |}{\max (Char_hc (i), Char_hc (j))})

其中，Char_hc(i)和Char_hc(j)分别为第i个文字候选区域对应的连通分量及其水平方向的第j个相邻连通分量的高度。

第i个文字候选区域对应的连通分量与其水平方向的第j个相邻连通分量的笔画宽度相似度定义为：

Char_swc (i, j) = (\frac{1}{N}) Σ_{j = 1}^{N} (1 - \frac{| Char_swc (i) - Char_swc (j) |}{\max (Char_swc (i), Char_swc (j))})

其中，Char_swc(i)和Char_swc(j)分别为第i个文字候选区域对应的连通分量及其水平方向的第j个相邻连通分量的笔画宽度。

第i个文字候选区域对应的连通分量所对应的自然场景彩色图像部分与其水平方向的第j个相邻连通分量所对应的自然场景彩色图像部分的颜色相似度定义为：

Char_rgbc (i, j) = (\frac{1}{N}) Σ_{j = 1}^{N} (1 - \underset{R, G, B}{Σ} Σ_{k = 1}^{b} (\frac{| h (i, k) - h (j, k) |}{\max (h (i, k), h (j, k))})

其中，R、G、B分别表示彩色图像的红色通道图像、绿色通道图像以及蓝色通道图像,h(i,k)、h(j,k)分别表示为对第i个文字候选区域对应的连通分量所对应的颜色通道图像部分和第j个相邻连通分量所对应的颜色通道图像部分进行直方图统计后所得到的像素值为k的像素数目；b为颜色量化数目，在本发明实施例中，b＝256；

本发明技术方案利用了分类器方法，从而能有效地处理复杂场景情况。引入待处理文字候选区域与其水平方向邻近文字候选区域之间的相似关系，从而增强了连通域方法的鲁棒性，进而提高了本发明的检测能力。

步骤6：由于在自然场景彩色图像中，文字行内的文字通常沿水平方向排列，而且文字行中各个文字宽度、高度以及笔画宽度近似相等。根据文字行邻近区域出现文字概率较高的先验知识，通过引入上下文信息恢复由于多次滤波而导致丢失的文字区域。将上述没有被剔除的所有文字候选区域判断为文字区域，并形成种子区域。在本发明实施例中，根据上下文信息所引入的判断条件如下述定义：

其中第i个连通分量与种子区域之间的公共部分约束条件为：

在本发明实施例中，搜索区域是通过对种子区域沿水平、垂直方向进行拓展而获得的。

第i个连通分量与种子区域的文字平均笔画宽度约束条件为：

min(cs_i,ks_ave)/max(cs_i,ks_ave)＜T₃

第i个连通分量与种子区域的文字平均宽度约束条件为：

min(cw_i,kw_ave)/max(cw_i,kw_ave)＜T₄

第i个连通分量与种子区域的文字平均高度约束条件为：

min(ch_i,kh_ave)/max(ch_i,kh_ave)＜T₅

其中，cc_i表示第i个连通分量与种子区域之间的公共部分；cs_i表示第i个连通分量的文字笔画宽度；cw_i表示第i个连通分量的宽度，即为其所在连通区域的宽度；ch_i表示第i个连通分量的高度，即为其所在连通区域的高度；ks_ave表示种子区域的文字平均笔画宽度；kw_ave表示种子区域的文字平均宽度；kh_ave表示种子区域的文字平均高度，其中种子区域的文字平均宽度和平均高度均可由对各连通分量所在连通区域进行计算得到；T₁、T₂、T₃、T₄、T₅分别为所述约束条件的阈值，在本发明实施例中，T₁＝T₂＝0.5、T₃＝T₄＝T₅＝0.75。对满足上述所有判断条件的连通区域判断为文字候选区域，并在检测结果中恢复该连通区域为文字候选区域。

本发明技术方案所产生的有益效果是：利用上下文信息对丢失的文字候选区域进行了恢复，从而提高了文字检测的召回率。

步骤7：对经过上述步骤4～5保留下来的及经过上述步骤6恢复的所有文字候选区域所对应的连通分量，根据同一个文字行中各个文字高度近似相等的先验知识，对沿水平方向排列的连通分量进行形态学闭处理，从而获取文字行候选区域。

形态学闭处理的目的是弥合二值图像中较窄的间断和细长的沟壑，消除小的孔洞，填补轮廓线中的断裂。形态学闭处理定义是：

用结构元素B对集合A的闭处理，表示为：A·B，则：

A \cdot B = (A &CirclePlus; B) ΘB

上式说明，结构元素B对集合A的闭处理就是简单地用结构元素B对集合A膨胀，紧接着用结构元素B对结果进行腐蚀。在本发明实施例中，A表示二值图像；B表示形态学闭处理的结构元素，所选用的形态学结构元素大小根据当前连通分量的高度h(即为其所在连通区域的高度)进行选取，其选取原则为

步骤8：采用训练好的分类器对步骤7获取的各文字行候选区域进行识别，并获得该文字行候选区域的置信度。判断该文字行候选区域的置信度是否小于一定阈值，是则将该文字行候选区域判定为伪文字行区域并剔除，否则作为文字行区域保留。在本发明实施例中，对分类器进行训练时，首先采用无监督学习方法获得文字行候选区域的特征向量，然后采用卷积神经网络(Convolutional Neural Networks，CNN)基于该特征向量进行训练。

步骤9：为了便于后续对单词语义的理解，对步骤8所得到的文字行区域中的文字按照单词为单元进行分割。在本发明实施例中按照下述方式进行实施：统计文字行区域中各文字间距，并获得该文字行区域中的文字间距平均值，若相邻文字间距大于单词间距分割阈值MinDistance_T，则表明上述相邻文字分别归属不同的单词，从而将上述相邻文字分割开。

单词间距分割阈值MinDistance_T所采用的计算方法为：

MinDistance_T＝μ×D_ave+ξ

其中，D_ave表示文字行区域中的文字间距平均值；μ表示文字间距平均值的权值；ξ表示偏移值。在本发明实施例中，μ＝1.75，ξ＝3。

上述步骤9完成后，将按照以单词为分割单元的原则，将文字从自然场景彩色图像中分割出来并输出结果。

图2所示为本发明实施例的待检测自然场景彩色图像样例对应的中值滤波后灰度图像。如图2所示，中值滤波后灰度图像中包含了少量文字区域与大量的非文字区域，本发明所提出的技术方案旨在从自然场景图像中检测出文字所在的区域。

图3所示为本发明实施例的待检测自然场景彩色图像样例对应的最终检测结果。如图3所示，对中值滤波后灰度图像中所检测到的文字区域采用矩形框进行标记。由图3检测结果可知，采用本发明所提出的技术方案可提供良好的文字检测结果，从而提高自然场景文字识别系统的识别性能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自然场景文字检测方法，其特征在于，包括以下步骤：

(1)将输入的自然场景彩色图像转换为灰度图像；

2.如权利要求1所述的方法，其特征在于，所述步骤(3)包括下述子步骤：

(3-1)采用Niblack方法对所述中值滤波后灰度图像进行局部二值化处理得到所述二值图像及二值化初始结果；

(3-2)对所述中值滤波后灰度图像进行拉普拉斯变换并对变换后图像中各像素点的拉普拉斯值取绝对值，然后对所述绝对值进行归一化处理，将所获得的所述拉普拉斯值作为所述二值化初始结果的置信度，其中所述归一化处理的公式为：

Lap_{_aft}(i,j)＝(Lap_{_bef}(i,j)-Minvalue)/(Maxvalue-Minvalue)

其中，Lap_{_bef}(i,j)、Lap_{_aft}(i,j)分别为所述拉普拉斯变换后图像中坐标位置为(i,j)的像素值进行所述归一化处理前、后的值，Maxvalue、Minvalue分别为所述拉普拉斯变换后图像像素值的最大值和最小值；

(3-3)建立能量函数并对所述能量函数采用graphcut方法求解全局最优解以调整所述二值化初始结果，其中所述能量函数的构建公式为：

E(f|I,n)＝E_local(f|I,n)+E_smooth(f|I)

其中，I表示输入图像，即所述中值滤波后灰度图像，f＝{f₁,f₂,...,f_N}表示所述中值滤波后灰度图像中像素的二值化结果，n＝{n₁,n₂,...,n_N}表示所述二值图像的初始标签，N表示所述中值滤波后灰度图像中的像素数目；

其中，E_local(f|I,n)＝Σ_ie_local(i)用来评价所述中值滤波后灰度图像的最终二值化结果与所述二值化初始结果之间的差异，其中：

e_{local} (i) = \{\begin{matrix} 1 - (0.5 + {&dtri;}^{2} I_{i}^{'} / 2), & f_{i} = n_{i} \\ 0.5 + {&dtri;}^{2} I_{i}^{'} / 2, & f_{i} &NotEqual; n_{i} \end{matrix}

其中，▽²I'_i表示所述中值滤波后灰度图像进行所述拉普拉斯变换并取绝对值后的归一化值；

其中，E_smooth(f|I)＝λΣ_(i,j)∈Me_smooth(i,j)根据相邻像素的相似度来表示平滑程度，其中：

e_{smooth} (i, j) = \{\begin{matrix} \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{2 σ_{g}^{2}} - \frac{{| | c_{i} - c_{j} | |}^{2}}{2 σ_{c}^{2}}), & f_{i} &NotEqual; f_{j} \\ 0, & f_{i} = f_{j} \end{matrix}

其中，M表示邻域数，x表示像素坐标位置，c表示RGB颜色，σ_g和σ_c表示归一化常数，λ表示平滑系数；

(3-4)对每一中值滤波后灰度图像针对浅底暗字及暗底浅字两种模式分别进行如所述步骤(3-1)～(3-3)的二值化处理；

(3-5)对经所述步骤(3-1)～(3-4)处理后得到的二值图像中的所有连通分量进行标记，并将各连通分量最小外接矩形区域作为文字初步候选区域。

3.如权利要求1所述的方法，其特征在于，所述步骤(4)中采用的剔除判决条件具体包括：

Rab (x_{i}) = (a_{x_{i}} / CCA (x_{i})) &Element; (Rab_\min, Rab_\max),

其中，第i个连通分量x_i的像素总数与其所述连通区域面积CCA(x_i)之比为Rab(x_i)，其比值的最小阈值与最大阈值分别为Rab_min、Rab_max；

H(x_i)∈(H_min,H_max)&W(x_i)∈(W_min,W_max)，其中，所述连通分量x_i所在连通区域的高度、宽度分别为H(x_i)、W(x_i)，其高度、宽度的最小阈值和最大阈值分别为H_min、H_max、W_min、W_max；

CCCN(x_i)＜CCCN_T，其中，所述连通分量x_i所在连通区域内含其他连通分量数目为CCCN(x_i)，其内含连通分量数目最大阈值为CCCN_T；

(AR(x_i)＝max(w_i/h_i,h_i/w_i))＜AR_max，其中，所述连通分量x_i所在连通区域宽高比和高宽比的最大值为AR(x_i)，其最大阈值为AR_max；

CCA(x_i)∈(CCA_min,CCA_max)，其中，所述连通分量x_i所在连通区域面积为CCA(x_i)，其最小阈值和最大阈值分别为CCA_min、CCA_max；

CCHN(x_i)＜CCHN_T，其中，所述连通分量x_i所在连通区域内的孔洞数目为CCHN(x_i)，其最大阈值为CCHN_T；

Ead(x_i)＞Ead_T，其中，所述连通分量x_i的边缘到其连通区域的平均距离为Ead(x_i)，其最小阈值为Ead_T。

4.如权利要求1所述的方法，其特征在于，所述步骤(5)中获取所述置信度图像具体按照如下方式实现：

其中，Char_tc(i)表示对应于所述二值图像中的第i个文字候选区域的置信度；

Char_hogc(i)表示所述第i个文字候选区域的文字相似度，提取所述第i个文字候选区域所对应的所述中值滤波后灰度图像部分的方向梯度直方图特征，利用支持向量机训练好的分类器对其进行评价，进而获得所述文字相似度值；

Char_hc(i,j)表示所述第i个文字候选区域对应的连通分量与其水平方向的第j个相邻连通分量的高度相似度：

Char_hc (i, j) = (\frac{1}{N}) Σ_{j = 1}^{N} (1 - \frac{| Char_hc (i) - Char_hc (j) |}{\max (Char_hc (i), Char_hc (j))})

其中，Char_hc(i)和Char_hc(j)分别为所述第i个文字候选区域对应的连通分量以及与其水平方向的所述第j个相邻连通分量的高度；

Char_swc(i,j)表示所述第i个文字候选区域对应的连通分量与其水平方向的所述第j个相邻连通分量的笔画宽度相似度：

Char_swc (i, j) = (\frac{1}{N}) Σ_{j = 1}^{N} (1 - \frac{| Char_swc (i) - Char_swc (j) |}{\max (Char_swc (i), Char_swc (j))})

其中，Char_swc(i)和Char_swc(j)分别为所述第i个文字候选区域对应的连通分量与其水平方向的所述第j个相邻连通分量的笔画宽度；

Char_rgbc(i,j)表示所述第i个文字候选区域对应的连通分量所对应的所述自然场景彩色图像部分与其水平方向的所述第j个相邻连通分量所对应的所述自然场景彩色图像部分的颜色相似度：

Char_rgbc (i, j) = (\frac{1}{N}) Σ_{j = 1}^{N} (1 - \underset{R, G, B}{Σ} Σ_{k = 1}^{b} (\frac{| h (i, k) - h (j, k) |}{\max (h (i, k), h (j, k))})

其中，R、G、B分别表示所述自然场景彩色图像的红色通道图像、绿色通道图像以及蓝色通道图像；h(i,k)、h(j,k)分别表示为对所述第i个文字候选区域对应的连通分量所对应的所述颜色通道图像部分和所述第j个相邻连通分量所对应的所述颜色通道图像部分进行直方图统计后所得到的像素值为k的像素数目；b为颜色量化数目；

α、β、γ、ψ分别为所述四个相似度值的权重；i∈M，M表示所述二值图像中文字候选区域的总数；j∈N，N表示所述第i个文字候选区域在水平方向高度近似相同的邻近文字候选区域总数，其中，若文字候选区域间的高度满足如下条件，则表示所述文字候选区域在水平方向高度近似相同：

min(ch_i,ch_j)/max(ch_i,ch_j)＜T₀

其中，ch_i,ch_j分别表示所述第i个文字候选区域和所述第j个文字候选区域的高度，T₀表示高度比阈值。

5.如权利要求1所述的方法，其特征在于，所述步骤(6)设置的恢复判决条件具体包括：

第i个连通分量与所述种子区域的公共部分约束条件为：

所述第i个连通分量与所述种子区域的文字平均笔画宽度约束条件为：

min(cs_i,ks_ave)/max(cs_i,ks_ave)＜T₃

所述第i个连通分量与所述种子区域的文字平均宽度约束条件为：

min(cw_i,kw_ave)/max(cw_i,kw_ave)＜T₄

所述第i个连通分量与所述种子区域的文字平均高度约束条件为：

min(ch_i,kh_ave)/max(ch_i,kh_ave)＜T₅

其中，cc_i表示所述第i个连通分量与所述种子区域之间的公共部分；cs_i表示所述第i个连通分量的笔画宽度；cw_i表示所述第i个连通分量所在连通区域的宽度；ch_i表示所述第i个连通分量所在连通区域的高度；ks_ave表示所述种子区域的文字平均笔画宽度；kw_ave表示所述种子区域的文字平均宽度；kh_ave表示所述种子区域的文字平均高度；T₁、T₂、T₃、T₄、T₅分别为所述约束条件的阈值。

6.如权利要求1所述的方法，其特征在于，所述步骤(7)中进行所述形态学闭处理所选用的形态学结构元素大小根据当前连通分量所在连通区域的高度进行选取。

7.如权利要求1所述的方法，其特征在于，所述步骤(8)中对所述分类器进行训练时，首先采用无监督学习方法获得文字行候选区域的特征向量，然后采用卷积神经网络基于所述特征向量进行训练。

8.如权利要求1所述的方法，其特征在于，所述步骤(9)中所述单词间距分割阈值MinDistance_T为：

MinDistance_T＝μ×D_ave+ξ

其中，D_ave表示所述文字行区域中的文字间距平均值；μ表示所述文字间距平均值的权值；ξ表示偏移值。

9.一种自然场景文字检测系统，其特征在于，包括以下模块：