CN102054271A

CN102054271A - 文本行检测方法和装置

Info

Publication number: CN102054271A
Application number: CN2009102211631A
Authority: CN
Inventors: 范伟; 孙俊; 皆川明洋; 堀田悦伸; 直井聪; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-11-02
Filing date: 2009-11-02
Publication date: 2011-05-11
Anticipated expiration: 2029-11-02
Also published as: CN102054271B

Abstract

本发明公开了一种文本行检测方法和装置。所述文本行检测方法包括：灰度分解步骤：对灰度图像进行灰度分解，以获得所述灰度图像的文本层；笔划提取步骤：对所述灰度图像进行笔划提取，以获得所述灰度图像的笔划层；一致性验证步骤：验证所述文本层和所述笔划层中的连通域的一致性，并且基于验证结果从所述文本层中去除属于所述灰度图像的背景区域的连通域；以及文本行生成步骤：将去除了属于所述灰度图像的背景区域的连通域的所述文本层中的连通域组织成文本行。本发明的文本行检测方法和装置能够有效和高效地检测出呈现在图像或视频帧中的具有相对复杂的背景的文本行。

Description

文本行检测方法和装置

技术领域

本发明总体上涉及图像和视频处理领域，更具体而言，涉及一种文本行检测方法和装置。

背景技术

在基于内容的图像和视频检索中，文本是非常有力的索引。例如，在web图像检索中，很多传统图像检索技术使用网页中的图像的周围文本作为图像的索引。而嵌入图像中的文本则能够比传统图像检索技术所使用的图像的周围文本更有效和准确地代表图像内容。因此，检测、分割、识别出图像或视频帧中的文本将极大方便基于内容的图像和视频检索。

目前已有的文本区域检测方法通常可以分为两类：基于纹理的图像文本检测方法和基于区域的文本区域检测方法。基于区域的文本区域检测方法可以利用文本区域的颜色或灰度特征，或者文本区域与背景区域的差别，并且可以进一步分为基于连通域(connected component，CC)的方式和基于边缘的两种方式。这两种方式都以自底向上的方式工作：首先，识别图像中的子结构，比如连通域或边缘；然后将这些子结构合并，以便利用启发式规则或学习式规则来标记出文本区域的边界框。基于纹理的文本区域检测方法将文本作为一种纹理来处理。基于纹理的文本区域检测方法通常将整个图像划分成多个块，并使用各种方式例如Gabor滤波器、空间变化或小波变换等来计算各个块的纹理特征；然后采用适当的分类器，例如神经网络或支持向量机(support vector machine，SVM)，将文本块和非文本块分类。

然而，由于图像或视频帧中的文本通常具有较为复杂的背景，同时，受光线和文本的字体、颜色、位置等因素影响较大，往往很难被检测、分割和识别出来，因此有效和高效地检测出呈现在图像或视频帧中的具有相对复杂的背景的文本区域甚至文本区域中的文本行仍是一项具有挑战性的工作。

发明内容

本发明提出了一种文本行检测方法和装置，其基于图像灰度分解和字符笔划提取结果的组合，能够有效和高效地检测出呈现在图像或视频帧中的具有相对复杂的背景的文本行。

根据本发明的一个方面，提供了一种文本行检测方法。所述文本行检测方法包括：灰度分解步骤，对灰度图像进行灰度分解，以获得所述灰度图像的文本层；笔划提取步骤，对所述灰度图像进行笔划提取，以获得所述灰度图像的笔划层；一致性验证步骤，验证所述文本层和所述笔划层中的连通域的一致性，并且基于验证结果从所述文本层中去除属于所述灰度图像的背景区域的连通域；以及文本行生成步骤，将去除了属于所述灰度图像的背景区域的连通域的所述文本层中的连通域组织成文本行。

根据本发明的另一方面，提供了一种文本行检测装置。所述文本行检测装置包括：灰度分解单元，被配置为对灰度图像进行灰度分解，以获得所述灰度图像的文本层；笔划提取单元，被配置为对所述灰度图像进行笔划提取，以获得所述灰度图像的笔划层；一致性验证单元，被配置为验证所述文本层和所述笔划层中的连通域的一致性，并且基于验证结果从所述文本层中去除属于所述灰度图像的背景区域的连通域；以及文本行生成单元，被配置用于将去除了属于所述灰度图像的背景区域的连通域的所述文本层中的连通域组织成文本行。

根据本发明的另一方面，提供了一种文本行检测方法。所述文本行检测方法包括：灰度分解步骤：对灰度图像进行灰度分解，以获得所述灰度图像的正色文本层和反色文本层；笔划提取步骤：从所述灰度图像中提取出分别包含所述灰度图像中的正色笔划和反色笔划的正色笔划层和反色笔划层；一致性验证步骤：验证所述正色文本层和正色笔划层中的连通域的一致性或者所述反色文本层和反色笔划层中的连通域的一致性，并且基于验证结果从所述正色文本层或反色文本层中去除属于所述灰度图像的背景区域的连通域；以及文本行生成步骤：将去除了属于所述灰度图像的背景区域的连通域的所述正色文本层或反色文本层中的连通域组织成正色文本行或反色文本行。

根据本发明的文本行检测方法和装置对灰度图像的文本层和笔划层进行组合，以进行一致性验证。将文本层和笔划层中除了属于背景区域的连通域之外的连通域组织在一起，形成文本行。本发明的文本行检测方法和装置能够有效和高效地检测出呈现在图像或视频帧中的具有相对复杂的背景的文本行。

根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的文本行检测方法。

根据本发明的另一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的文本行检测方法。

附图说明

本发明的以上和其它目的、特征和优点将通过参考下文中结合附图所给出的描述而得到更好的理解。在所有附图中，相同或相似的附图标记表示相同或者相似的部件。在所述附图中：

图1是根据本发明的实施例的文本行检测方法的流程图；

图2是根据本发明的另一实施例的文本行检测方法的流程图；

图3是一个示例笔划的三维轮廓图；

图4(a)示例性地示出经过灰度分解步骤得到的一个示例图像的文本层；

图4(b)示例性地示出经过笔划提取步骤得到的所述示例图像的笔划层；

图4(c)示例性地示出经过一致性验证步骤处理后的所述文本层；

图5(a)至5(c)示例性地示出根据本发明的实施例的对文本行进行后处理的过程；

图6(a)至6(c)示例性地示出根据本发明的另一实施例的对文本行进行后处理的过程；

图7(a)至7(c)示例性地示出根据本发明的又一实施例的对文本行进行后处理的过程；

图8是根据本发明的实施例的文本行检测装置的示意性框图；

图9是可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图像或视频中的文本与背景区域中的其它对象相比，具有一些不同的特征。如果文本与图像内容密切相关，则文本一定是以容易阅读的方式呈现在图像或视频中。这样的文本通常相对于其背景具有高对比度、均匀的颜色、合理的尺寸以及近似水平或竖直的取向。考虑到这些特征，本发明提出了一种混合文本行检测方法和装置，其组合了图像的灰度和笔划特征，并且其中可以针对文本行设计一些几何约束以进一步优化检测到的文本行的边界。

图1是根据本发明的一个实施例的文本行检测方法的流程图。该文本行检测方法包括灰度分解步骤S110、笔划提取步骤S120、一致性验证步骤S130、文本行生成步骤S140，并且优选地还可以包括后处理步骤S150。

通常，为了取得较好的检测效果，可以使用灰度图像作为本方法的输入图像。如果原图像或视频帧是彩色图像，则可以将其转换为灰度图像后再使用本方法进行处理。

在灰度分解步骤S110中，对灰度图像进行灰度分解，以获得所述灰度图像的文本层。图像或视频帧中的文本通常相对于其背景以高对比度呈现为暗(正色)文本或亮(反色)文本。因此，通过灰度分解步骤S110所获得的文本层可以是包含正色文本的图像层，也可以是包含反色文本的图像层。

本领域技术人员应当清楚，可以以各种已知的技术来对灰度图像进行灰度分解，以得到正色或反色文本层。根据本发明的一个实施例，使用Niblack算法对灰度图像进行分解，以获得灰度图像的正色文本层和反色文本层。

Niblack算法是一种比较有效的自适应二值化算法，其具体介绍可以参考例如W.Niblack.An introduction to digital image processing，第115-116页，Prentice-Hall，Englewood Cliffs(NJ)，1986。该算法使用以下公式来将灰度图像划分为两层，即(亮)前景层和(暗)背景层。

T(x，y)＝μ(x，y，Win)+k*σ(x，y，Win) (公式1)

在公式1中，J(x，y)表示具有2种值的输出图像，其等于+1时表示输入的灰度图像的(亮)前景层，等于0时表示灰度图像的(暗)背景层。I(x，y)是灰度图像的像素点(x，y)的灰度值。μ(x，y，Win)和σ(x，y，Win)分别是像素(x，y)的周围区域中的像素的灰度平均值和标准差，也称为像素(x，y)的邻域局部平均值和邻域局部标准差。Win是像素(x，y)的邻域窗口的宽度，所述窗口是以像素(x，y)为中心向上、下、左、右各Win/2个像素所得到的窗口。k是常数，可以根据经验设定。

然而，上述原有的Niblack算法只能将图像分为两层。而如果文本存在于背景层中，则由于背景与文本均被二值化为0，因此无法从背景层中提取出文本。因此，在事先并不知道输入的灰度图像的文本为反色文本还是正色文本的情况下，需要应用至少两次Niblack算法来得到图像的正色文本层和反色文本层。也就是说，需要先对输入的灰度图像应用一次Niblack算法以得到前景层作为反色文本层，然后将灰度图像反色，对反色后的灰度图像再应用一次Nibalck算法以得到前景层作为正色文本层。

鉴于以上情况，在本发明的另一实施例中，使用一种改进的Niblack算法来对输入的灰度图像进行灰度分解。所述改进的Niblack算法基于以下公式将该灰度图像划分为三层，即正色文本层、反色文本层和背景层。在后续处理过程中使用正色文本层和/或反色文本层。

T_±(x，y)＝μ(x，y，Win)±k*σ(x，y，Win) (公式2)

在公式2中，J’(x，y)表示具有3种值的输出图像，其等于+1时表示输入的灰度图像的反色文本层，等于-1时表示灰度图像的正色文本层，等于0时表示灰度图像的背景层。I(x，y)、μ(x，y，Win)和σ(x，y，Win)、Win、k具有与公式1中的相应参数相同的含义。

这样，可以仅利用一次公式2的改进的Niblack算法，就得到灰度图像的三个层。

然而，应用上述改进的Niblack算法所得到的正色文本层和反色文本层中包含背景区域中的很多由于图像噪声引起的小的连通域。这些背景区域中的连通域将严重增加后续连通域分析和验证的计算负担。

鉴于以上情况，根据本发明的另一实施例，使用另一种改进的Niblack算法来对输入的灰度图像进行灰度分解。所述改进的Niblack算法基于以下公式将该灰度图像划分为三层。

T_±(x，y)＝μ(x，y，Win)±k*σ(x，y，Win) (公式3)

这里，公式3对公式2的主要改进在于，除了根据灰度图像中的像素值I(x，y)与该像素的邻域局部平均值和标准差μ(x，y，Win)和σ(x，y，Win)之间的关系之外，还根据该像素的邻域局部标准差σ(x，y，Win)是否大于预定阈值T_σ来判断所述像素是否属于正色文本层或反色文本层。其中，预定阈值T_σ可以根据经验设定。

通过上述改进的Niblack算法，去除了灰度图像中由于图像噪声引起的小的连通域，减轻了后续处理的计算负担。

在笔划提取步骤S120中，对所述灰度图像进行笔划提取，以获得所述灰度图像的笔划层。

本领域技术人员应当清楚，可以以各种已知的技术来对灰度图像进行笔划分解，以得到灰度图像的笔划层。不同的笔划提取方法考虑笔划定义的不同方面，将文字笔划模型化是文字特征提取方法中的常用方法。为了说明的目的，以下描述采用双边缘模型进行笔划提取的示例。所述双边缘模型的具体介绍可以参考例如X.Y.Ye，M.Cheriet，C.Y.Suen，Stroke-Model-Based Character Extraction from Gray-Level DocumentImages，IEEE Trans.Image Process.，Vol.10，No.8，第1152-1161页。双边缘模型将笔划描述为小于预定宽度上限的双边缘结构。在具体实现时，属于细连通域的像素形成笔划。所述细连通域的宽度小于预定上限，并且具有比其局部邻域低(在暗笔划的情况下)或高(在亮笔划的情况下)的灰度等级值。

在双边缘模型中，可以使用二元组(w，d)来描述笔划，其中w指笔划的宽度，而d指笔划在灰度级方面的深度，如图3所示。在图3中，坐标x表示笔划的宽度，坐标y表示笔划的走向，而坐标z表示笔划的灰度等级。在图3中，笔划显示为背景表面中的沟槽，背景表面指沟槽两翼(两侧)较高的平面。笔划提取方法搜索在某个预定范围W中出现的双边缘结构，W为预先设定的笔划宽度上限。

在亮背景暗笔划的情况下，通过以下公式来度量一维笔划中的像素x符合双边缘模型的程度：

{DE}_{W} (x) = {Max}_{i = 1}^{W - 1} {Min (f (x - i), f (x + W - i))} - f (x)

(公式4)

其中f(x)表示在x轴方向上的任一像素点x的灰度值，f(x-i)表示在x轴负方向上与像素点x距离i的像素的灰度值，f(x+W-i)为在x轴正方向上与像素点x距离(W-i)的像素的灰度值，W为笔划的宽度上限。

在二维的情况下，文字的笔划以

这四个方向为主。笔划中的像素符合双边缘模型的程度可以通过在这四个方向上的一维估计来获得。其中像素(x，y)在0、

和

方向上的双边缘模型符合程度可以分别由以下的公式5-8来表示：

{DE}_{W 0} (x, y) = {Max}_{i = 1}^{W - 1} {Min (f (x - i, y), f (x + W - i, y)} - f (x, y)

(公式5)

{DE}_{W 1} (x, y) = {Max}_{i = 1}^{W - 1} {Min (f (x - i, y - i), f (x + W - i, y + W - i)} - f (x, y)

(公式6)

{DE}_{W 2} (x, y) = {Max}_{i = 1}^{W - 1} {Min (f (x, y - i), f (x, y + W - i)} - f (x, y)

(公式7)

{DE}_{W 3} (x, y) = {Max}_{i = 1}^{W - 1} {Min (f (x - i, y + W - i), f (x + W - i, y - i)} - f (x, y)

(公式8)

二维笔划中的像素(x，y)符合双边缘模型的程度被表示为其中DE_Wd，d＝0，1，2，3指的是沿上述四个方向的一维估计。所述符合程度DE_W的正值表示暗笔划。因此，通过以下规则获得笔划的双边缘模型特征DE_W+，如公式9所示：

(公式9)

最后，将Otsu的全局二值化算法应用于笔划特征图DE_W+，以获得二值化的笔划层。图4(b)示例性地示出一个二值化的笔划层。

在上述的笔划提取示例中，是正色文本为例，获得正色笔划层。对于反色文本，本领域技术人员可以根据上述双边缘模型的原理容易地对上述笔划提取方法进行变更以获得反色笔划层，或者可以简单地先将灰度图像进行反转以使反色文本变为正色文本。

应理解，上述的灰度分解步骤S110和笔划提取步骤S120的执行并无先后顺序的要求，可以以任意次序串行执行，也可以并行执行。

继续参考图1，在一致性验证步骤S130中，验证灰度分解步骤中获得的文本层和笔划提取步骤中获得的笔划层中的连通域的一致性，并且基于验证结果从文本层中去除属于灰度图像的背景区域的连通域。

根据本发明的一个实施例，在一致性验证步骤中，首先，分别对通过灰度分解步骤所获得的灰度图像的文本层和通过笔划提取步骤所获得的笔划层执行连通域分析，以得到文本层和笔划层的各自的连通域。本领域技术人员应当理解，可以使用各种已知的技术来进行连通域分析。

然后，对于文本层中的每个连通域C_niblack_i，找到其在笔划层中的对应连通域。计算所述文本层中的连通域和所述笔划层中的对应连通域所共有的像素的数目number_of_common_foreground_pixels与所述文本层中的连通域的像素数目number_of_foreground_pixels_in_C_niblack_i的比率R₁，作为一致性比率，参见以下公式10。如果所述一致性比率R₁低于预定阈值T_R1，则判断所述文本层中的所述连通域属于灰度图像的背景区域。所述预定阈值T_R1可以根据经验值设定。

R 1 = \frac{number_of_common_forgeground_pixels}{number_of_forgeground_pixels_in_C_niblack_i}

(公式10)

最后，从文本层中去除属于灰度图像的背景区域的连通域。

为了尽可能从文本层中去除属于灰度图像的背景区域的连通域，根据本发明的其它实施例，还可以进一步通过以下方法中的一种或几种来判断哪些连通域属于灰度图像的背景区域。

根据本发明的一个实施例，可以计算文本层中的连通域的长宽比。如果所述长宽比低于预定阈值，则判断该连通域属于灰度图像的背景区域。例如，可以使用以下公式11来计算连通域的长宽比R₂：

R₂＝max(CC_Width/CC_Height，CC_Height/CC_Width)，(公式11)

其中，CC_Width表示连通域的宽度，CC_Height表示连通域的高度。

根据本发明的另一实施例，可以计算文本层中的连通域的实心比率。如果所述实心比率低于预定阈值，则判断该连通域属于灰度图像的背景区域。例如，可以使用以下公式12来计算连通域的实心比率R₃：

R_{3} = \frac{CC_Area}{BoundingBox_Area},

(公式12)

其中，CC_Area表示所述连通域的面积，BoundingBox_Area表示所述连通域的外接矩形的面积。

根据本发明的另一实施例，可以计算文本层中的连通域的直径，如果所述直径低于预定阈值，则判断该连通域属于灰度图像的背景区域。例如，连通域的直径R₄可以由以下公式13表示：

R₄＝max(CC_Width，CC_Height)，(公式13)

上述实施例中的连通域的长宽比、实心比率、直径的预定阈值均可以根据经验设定。

通过上述一致性验证方法，可以从文本层中去除背景区域中的很多错误检测到的连通域，提高文本行检测的准确性。图4(a)至4(c)示出一致性验证结果的一个示例。其中图4(a)示例性地示出经过灰度分解步骤得到的一个示例图像的文本层，图4(b)示例性地示出经过笔划提取步骤得到的所述示例图像的笔划层，而图4(c)示例性地示出经过一致性验证步骤处理后的所述文本层。

继续参考图1，在文本行生成步骤S140中，将去除了属于灰度图像的背景区域的连通域的文本层中的连通域组织成文本行。

从图4(c)中可以看到，经过一致性验证后的文本层中仍然包含一些外观上很象笔划的背景连通域。因此，在根据本发明的实施例的文本行生成步骤中，可以利用相邻连通域的几何关系例如共线性来去除由噪声引起的孤立的连通域，并且可以利用连通域之间的颜色一致性来去除在文本连通域周围的背景连通域。

根据本发明的一个实施例，根据以下过程来将文本层中的连通域组织成文本行。

(1)构造连接图

对于经过一致性验证的文本层中的连通域，计算任意两个连通域之间的距离(或相似度)图。所述距离图为二值矩阵R＝{r(i，j)＝isConnected(C_i，C_j)|0＜i，j＜n}，其中n是文本层中的连通域的数目，isConnected(C_i，C_j)是反映连通域C_i和C_j是否连接的二值函数。根据本发明的不同实施例，isConnected(C_i，C_j)可以使用以下规则中的一种或几种来反映连通域C_i和C_j是否连接。

i.如果连通域C_i和C_j的水平(文本行是水平的)或竖直(文本行是竖直的)方向上的距离大于预定阈值T₁，则判断这两个连通域未连接。其中预定阈值T₁可以根据经验设定。例如可将预定阈值T₁设定为1.25*max(Ci_Diameter，Cj_Diameter)，其中Ci_Diameter是连通域C_i的直径，而Cj_Diameter是连通域C_j的直径。

ii.如果连通域C_i和C_j在水平(文本行是水平的)或竖直(文本行是竖直的)方向上的重叠比率小于预定阈值T₂，则判断它们未连接。本领域技术人员可以理解，连通域C_i和C_j在水平方向上的重叠比率可以例如由Overlap_Height/Ci_Height和Overlap_Height/Cj_Height表示，其中Ci_Height是连通域C_i的高度，Cj_Height是连通域C_j的高度，Overlap_Height是这两个连通域的重叠部分的高度。连通域C_i和C_j在竖直方向上的重叠比率可以例如由Overlap_Width/Ci_Width和Overlap_Width/Ci_Width表示，其中Ci_Width是连通域C_i的宽度，Ci_Width是连通域C_j的宽度，Overlap_Width是这两个连通域的重叠部分的宽度。预定阈值T₂可以根据经验设定，例如设定为0.75。

iii.如果连通域C_i和C_j在例如RGB空间中的平均颜色大于预定阈值T₃，则判断它们未连接。T₃可以根据经验设定。

(2)组织连通域

基于所构造的连接图，将两个判断为连接的连通域标记为属于同一个连通域组。一个连通域组就形成一个文本行。

另外，为了消除孤立的连通域，根据本发明的一个实施例，如果相连接的一组连通域的数目低于预定阈值，则从文本层中去除该组连通域。所述预定阈值可以根据经验设定。

通过笔划提取步骤、一致性验证步骤和文本生成步骤而得到了灰度图像中的文本行。

为了对所得到的文本行进行进一步优化，精确定位每个文本行的边界，本发明的文本行检测方法还可以包括后处理步骤S150，如图1所示。在后处理步骤S150中，基于所生成的文本行中的每个连通域在所述文本行方向上的投影，或所述文本行中的每个连通域的高度的一致性，来确定所述文本行的边界。

图5(a)至5(c)示例性地示出根据本发明的实施例的对文本行进行后处理的过程。在该实施例中，利用文本行中的每个连通域在文本行方向上的竖直投影来确定文本行的边界。如图所示，在图5(a)中，示出了在文本行生成步骤中生成的一个连接的连通域组。在图5(b)中，示出了由该连通域组形成的一个文本行，如图中的边界框所示。在图5(c)中，示出了利用对文本行中的每个连通域在文本行方向上的投影，从文本行中去除其投影与其它连通域的重叠率低于预定阈值的连通域，从而得到更为精确的文本行边界。

图6(a)至6(c)示例性地示出根据本发明的另一实施例的对文本行进行后处理的过程。该实施例是图5所示的实施例的一个变型。在该实施例中，彼此靠近的共线文本行被合并为一个文本行。在图6(a)中，示出了在文本行生成步骤中生成的几个连接的连通域组。在图6(b)中，示出了由这些连通域组形成的三个文本行，其中图像中的第一行是两个相邻的文本行，如图中的文本行边界框所示。在图6(c)中，示出了第一行的相邻两个文本行由于共线而被合并为一个文本行。

图7(a)至7(c)示例性地示出根据本发明的又一实施例的对文本行进行后处理的过程。在该实施例中，利用文本行中的每个连通域的高度一致性来确定文本行的边界。在背景区域中，不同连通域的高度具有很大变化，而在真正的文本行中，大多数连通域的高度与文本行的高度类似。据此，如果文本行中高度一致的连通域的百分比大于预定阈值，则确定该文本行为真正的文本行，由此给出该文本行的边界。如图所示，图7(a)示出了在文本行生成步骤中生成的几个连接的连通域组。图7(b)示出了由这些连通域组形成的几个文本行。图7(c)示出了根据高度一致性检查结果保留的真正的文本行。

在图1所示的文本行检测方法中，灰度图像的文本层可以是正色文本层或是反色文本层，并且灰度图像的笔划层可以是正色笔划层或者是反色笔划层。对灰度图像的正色文本层和正色笔划层或者反色文本层和反色笔划层进行组合，以进行一致性验证。文本层和笔划层中除了属于背景区域的连通域之外的连通域被组织在一起，形成文本行。这样，通过图1所示的文本行检测方法，可以生成灰度图像中的正色文本行或者反色文本行。

然而，也可以在文本检测方法中同时将正色文本层和正色笔划层进行组合，并且将反色文本层和反色笔划层进行组合，并分别进行一致性验证、文本行生成等步骤，以便提高所述方法的并行处理能力。图2是根据本发明的另一实施例的文本行检测方法的流程图。图2中的文本行检测方法的各个步骤与图1中的文本行检测方法的各个对应步骤的处理基本上相同，除了在图2中，是既将正色文本层和正色笔划层组合以进行一致性验证，又将反色文本层和反色笔划层组合以进行一致性验证。应理解，根据在图2所示的实施例的文本检测方法中，在步骤S210进行灰度分解时，如果使用原始的Niblack算法，如上所述，可能需要应用至少两次该算法以分别得到正色文本层和反色文本层；如果使用改进的Niblack算法，则应用一次该算法就可以得到正色文本层和反色文本层。通过图2所示的文本行检测方法，可以一次性得到灰度图像中的正色文本行和反色文本行。

以下结合附图和具体实施例来描述文本行检测装置。

图8是根据本发明的实施例的文本行检测装置的示意性框图。如图8所示，文本行检测装置800包括灰度分解单元810、笔划提取单元820、一致性验证单元830、文本行生成单元840。为了精确定位每个文本行的边界，文本行检测装置800还可以包括后处理单元850。

根据本发明的一个实施例，灰度分解单元810被配置为对输入的灰度图像进行灰度分解，以获得所述灰度图像的文本层。笔划提取单元820被配置为对输入的灰度图像进行笔划提取，以获得所述灰度图像的笔划层。一致性验证单元830被配置为验证文本层和笔划层中的连通域的一致性，并且基于验证结果从文本层中去除属于灰度图像的背景区域的连通域。文本行生成单元840被配置用于将去除了属于灰度图像的背景区域的连通域的文本层中的连通域组织成文本行。

根据本发明的另一实施例，所述灰度分解单元810被进一步配置为使用Niblack算法对灰度图像进行分解，以获得所述灰度图像的正色文本层和反色文本层。

根据本发明的另一实施例，所述灰度分解单元810被进一步配置为使用改进的Niblack算法对灰度图像进行分解，以获得所述灰度图像的正色文本层和反色文本层。所述改进的Niblack算法根据灰度图像中的像素值与所述像素的邻域局部平均值和标准差之间的关系，以及所述像素的邻域局部标准差是否大于预定阈值来判断所述像素是否属于正色文本层或反色文本层。

根据本发明的另一实施例，所述一致性验证单元830被进一步配置为：对于文本层中的连通域，确定其在笔划层中的对应连通域；计算文本层中的连通域和笔划层中的对应连通域所共有的像素的数目与文本层中的连通域的像素数目的比率作为一致性比率；以及如果所述一致性比率低于预定阈值，则判断文本层中的所述连通域属于灰度图像的背景区域。

根据本发明的另一实施例，所述一致性验证单元830被进一步配置为：计算文本层中的连通域的长宽比，如果长宽比低于预定阈值，则判断文本层中的所述连通域属于灰度图像的背景区域；计算文本层中的连通域的实心比率，如果所述实心比率低于预定阈值，则判断文本层中的所述连通域属于灰度图像的背景区域；以及计算文本层中的连通域的直径，如果所述直径低于预定阈值，则判断文本层中的所述连通域属于灰度图像的背景区域。

根据本发明的另一实施例，所述文本行生成单元840被进一步配置为：计算文本层中的两个连通域在水平或竖直方向上的距离，如果所述距离大于预定阈值，则判断所述两个连通域未连接；计算文本层中的两个连通域在水平或竖直方向上的重叠比率，如果重叠比率低于预定阈值，则判断所述两个连通域未连接；以及计算文本层中的两个连通域在RGB空间中的平均颜色，如果所述平均颜色大于预定阈值，则判断所述两个连通域未连接；以及以连接的一组连通域形成文本行。

根据本发明的另一实施例，所述文本行生成单元840还被配置为：如果相连接的一组连通域的数目低于预定阈值，则从文本层中去除该组连通域。

根据本发明的另一实施例，所述后处理单元850被配置为基于所生成的文本行中的每个连通域在所述文本行方向上的投影，或所述文本行中的每个连通域的高度的一致性，来确定所述文本行的边界。

关于文本行检测装置的各个单元的操作的进一步细节，可以参考以上所述的文本行检测方法的各个实施例，这里不再详细描述。

上述装置中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图9所示的通用计算机900)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图9中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中，还根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件连接到输入/输出接口905：输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡比如LAN卡、调制解调器等)。通信部分909经由网络比如因特网执行通信处理。根据需要，驱动器910也可连接到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上，使得从中读出的计算机程序根据需要被安装到存储部分908中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 902、存储部分908中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

附记1.一种文本行检测方法，包括：

灰度分解步骤：对灰度图像进行灰度分解，以获得所述灰度图像的文本层；

笔划提取步骤：对所述灰度图像进行笔划提取，以获得所述灰度图像的笔划层；

一致性验证步骤：验证所述文本层和所述笔划层中的连通域的一致性，并且基于验证结果从所述文本层中去除属于所述灰度图像的背景区域的连通域；以及

文本行生成步骤：将去除了属于所述灰度图像的背景区域的连通域的所述文本层中的连通域组织成文本行。

附记2.根据附记1所述的方法，其中所述灰度分解步骤进一步包括：

使用Niblack算法对灰度图像进行分解，以获得所述灰度图像的正色文本层和反色文本层。

附记3.根据附记2所述的方法，其中所述Niblack算法为改进的Niblack算法，其根据所述灰度图像中的像素值与所述像素的邻域局部平均值和标准差之间的关系，以及所述像素的邻域局部标准差是否大于预定阈值来判断所述像素是否属于所述正色文本层或所述反色文本层。

附记4.根据附记1所述的方法，其中所述验证所述文本层和所述笔划层中的连通域的一致性的步骤包括：

对于所述文本层中的连通域，确定其在所述笔划层中的对应连通域；

计算所述文本层中的连通域和所述笔划层中的对应连通域所共有的像素的数目与所述文本层中的连通域的像素数目的比率作为一致性比率；以及

如果所述一致性比率低于预定阈值，则判断所述文本层中的所述连通域属于所述灰度图像的背景区域。

附记5.根据附记4所述的方法，其中所述验证所述文本层和所述笔划层中的连通域的一致性的步骤还包括以下步骤中的至少一个：

计算所述文本层中的连通域的长宽比，如果所述长宽比低于预定阈值，则判断所述文本层中的所述连通域属于所述灰度图像的背景区域；

计算所述文本层中的连通域的实心比率，如果所述实心比率低于预定阈值，则判断所述文本层中的所述连通域属于所述灰度图像的背景区域；以及

计算所述文本层中的连通域的直径，如果所述直径低于预定阈值，则判断所述文本层中的所述连通域属于所述灰度图像的背景区域。

附记6.根据附记1所述的方法，其中所述文本行生成步骤进一步包括：

通过以下步骤中的至少一个来判断所述文本层中的两个连通域是否连接：

计算两个连通域在水平或竖直方向上的距离，如果所述距离大于

预定阈值，则判断所述两个连通域未连接；

计算两个连通域在水平或竖直方向上的重叠比率，如果所述重叠

比率低于预定阈值，则判断所述两个连通域未连接；以及

计算两个连通域在RGB空间中的平均颜色，如果所述平均颜色

大于预定阈值，则判断所述两个连通域未连接；以及

以连接的一组连通域形成文本行。

附记7.根据附记6所述的方法，还包括：如果相连接的一组连通域的数目低于预定阈值，则从所述文本层中去除该组连通域。

附记8.根据附记1所述的方法，还包括后处理步骤：基于所生成的文本行中的每个连通域在所述文本行方向上的投影，或所述文本行中的每个连通域的高度的一致性，来确定所述文本行的边界。

附记9.一种文本行检测装置，包括：

灰度分解单元，被配置为对灰度图像进行灰度分解，以获得所述灰度图像的文本层；

笔划提取单元，被配置为对所述灰度图像进行笔划提取，以获得所述灰度图像的笔划层；

一致性验证单元，被配置为验证所述文本层和所述笔划层中的连通域的一致性，并且基于验证结果从所述文本层中去除属于所述灰度图像的背景区域的连通域；以及

文本行生成单元，被配置用于将去除了属于所述灰度图像的背景区域的连通域的所述文本层中的连通域组织成文本行。

附记10.根据附记9所述的装置，其中所述灰度分解单元被进一步配置为使用Niblack算法对灰度图像进行分解，以获得所述灰度图像的正色文本层和反色文本层。

附记11.根据附记10所述的装置，其中所述Niblack算法为改进的Niblack算法，其根据所述灰度图像中的像素值与所述像素的邻域局部平均值和标准差之间的关系，以及所述像素的邻域局部标准差是否大于预定阈值来判断所述像素是否属于所述正色文本层或所述反色文本层。

附记12.根据附记9所述的装置，其中所述一致性验证单元被进一步配置为：

附记13.根据附记12所述的装置，其中所述一致性验证单元被进一步配置为：

附记14.根据附记9所述的装置，其中所述文本行生成单元被进一步配置为：

计算所述文本层中的两个连通域在水平或竖直方向上的距离，如果所述距离大于预定阈值，则判断所述两个连通域未连接；

计算所述文本层中的两个连通域在水平或竖直方向上的重叠比率，如果所述重叠比率低于预定阈值，则判断所述两个连通域未连接；以及

计算所述文本层中的两个连通域在RGB空间中的平均颜色，如果所述平均颜色大于预定阈值，则判断所述两个连通域未连接；以及

以连接的一组连通域形成文本行。

附记15.根据附记14所述的装置，所述文本行生成单元还被配置为：如果相连接的一组连通域的数目低于预定阈值，则所述文本行生成单元从所述文本层中去除该组连通域。

附记16.根据附记9所述的装置，还包括后处理单元，其中所述后处理单元被配置为基于所生成的文本行中的每个连通域在所述文本行方向上的投影，或所述文本行中的每个连通域的高度的一致性，来确定所述文本行的边界。

附记17.一种文本行检测方法，包括：

灰度分解步骤：对灰度图像进行灰度分解，以获得所述灰度图像的正色文本层和反色文本层；

笔划提取步骤：从所述灰度图像中提取出分别包含所述灰度图像中的正色笔划和反色笔划的正色笔划层和反色笔划层；

一致性验证步骤：验证所述正色文本层和正色笔划层中的连通域的一致性或者所述反色文本层和反色笔划层中的连通域的一致性，并且基于验证结果从所述正色文本层或反色文本层中去除属于所述灰度图像的背景区域的连通域；以及

文本行生成步骤：将去除了属于所述灰度图像的背景区域的连通域的所述正色文本层或反色文本层中的连通域组织成正色文本行或反色文本行。

Claims

1.一种文本行检测方法，包括：

2.根据权利要求1所述的方法，其中所述灰度分解步骤进一步包括：

3.根据权利要求2所述的方法，其中所述Niblack算法为改进的Niblack算法，其根据所述灰度图像中的像素值与所述像素的邻域局部平均值和标准差之间的关系，以及所述像素的邻域局部标准差是否大于预定阈值来判断所述像素是否属于所述正色文本层或所述反色文本层。

4.根据权利要求1所述的方法，其中所述验证所述文本层和所述笔划层中的连通域的一致性的步骤包括：

5.根据权利要求4所述的方法，其中所述验证所述文本层和所述笔划层中的连通域的一致性的步骤还包括以下步骤中的至少一个：

6.根据权利要求1所述的方法，其中所述文本行生成步骤进一步包括：

计算两个连通域在水平或竖直方向上的距离，如果所述距离大于预定阈值，则判断所述两个连通域未连接；

计算两个连通域在水平或竖直方向上的重叠比率，如果所述重叠比率低于预定阈值，则判断所述两个连通域未连接；以及

计算两个连通域在RGB空间中的平均颜色，如果所述平均颜色大于预定阈值，则判断所述两个连通域未连接；以及

以连接的一组连通域形成文本行。

7.根据权利要求6所述的方法，还包括：如果相连接的一组连通域的数目低于预定阈值，则从所述文本层中去除该组连通域。

8.根据权利要求1所述的方法，还包括后处理步骤：基于所生成的文本行中的每个连通域在所述文本行方向上的投影，或所述文本行中的每个连通域的高度的一致性，来确定所述文本行的边界。

9.一种文本行检测装置，包括：

10.一种文本行检测方法，包括：