CN103377379A

CN103377379A - 文本检测设备、文本信息提取系统及其方法

Info

Publication number: CN103377379A
Application number: CN2012101285485A
Authority: CN
Inventors: 麻文华; 姜涌
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-04-27
Filing date: 2012-04-27
Publication date: 2013-10-30

Abstract

本发明公开了文本检测设备、文本信息提取系统及其方法。文本检测方法包括：子结构生成和过滤步骤，用于从输入图像生成多个子结构，并基于形状特征从所述多个子结构过滤掉非文本子结构以获得候选子结构；种子子结构选择步骤，用于从候选子结构选择种子子结构，种子子结构具有输入图像中的字符的完整形状；子结构组生成和过滤步骤，用于通过基于候选子结构的空间关系将它们分组在一起来生成子结构组，并基于种子子结构的性质对子结构组进行过滤；以及文本区域生成和整合步骤，用于基于子结构组生成文本区域，并基于文本区域的空间关系对文本区域进行整合。本发明可以至少改善现有技术的基于分组的文本检测方法的精确率。

Description

文本检测设备、文本信息提取系统及其方法

技术领域

本发明涉及文本检测设备、文本信息提取系统及其方法。

背景技术

检测自然图像中的文本对于许多计算机视觉应用(诸如用于视觉受损者和外国人的计算机辅助、图像和视频的自动检索以及城市环境中的机器人导航)是至关重要的。

然而，检测自然图像中的文本也是一个艰巨的课题。相比于打印页、传真和商业卡的扫描，主要的挑战在于文本的多样性：字体、尺寸、倾斜角度、畸变等。另外，诸如不均匀照明和反射以及复杂背景的环境因素使它更加复杂。

可以将自然图像中的文本划分为字幕(caption)文本(其被人工地覆盖在图像上)和场景(scene)文本(其自然地存在于图像中)。众所周知，场景文本更难于检测，因为它可具有任何取向，它可通过透视投影而畸变，并且它常常受到诸如照明、焦点、运动等的照相机参数和场景变化的影响。

用于自然图像中的文本的现有文本检测方法主要有两类：基于学习的方法和基于分组的方法。

基于学习的方法以自上而下的方式工作，其是模型驱动的。图1示意性地示出现有技术的基于学习的文本检测方法的流程图。如图1所示，在预处理(步骤110)之后，通过使用滑动窗口和经训练的文本分类器来扫描输入图像以得到文本区域(步骤120)。更具体地，该方法利用如下事实：图像中的文本具有将其与背景相区分的截然不同的纹理(textural)性质。基于文本和非文本的训练样本来训练分类器，然后将分类器应用到输入图像，并基于经训练的分类器的输出来将每个窗口判断为文本或非文本。最后，对文本区域进行整合(integrate)(步骤130)。

另一方面，基于分组的方法以自下而上的方式工作，其是数据驱动的。图2示意性地示出现有技术的基于分组的文本检测方法的流程图。如图2所示，在预处理(步骤210)之后，基于几何特征和/或纹理特征来生成和过滤子结构(步骤220)。然后，通过基于布局信息将子结构分组在一起来生成子结构组，并对子结构组进行过滤(步骤230)。最后，基于子结构组生成文本区域，并对文本区域进行整合(步骤240)。

然而，基于学习的方法在分类阶段具有高计算复杂度，这占据了大部分处理时间。特别地，它们要求对输入图像进行详尽的和多尺度(multi-scale)的扫描，以检测并定位文本区域，这使得卷积操作计算代价高昂。另外，由于用于文本定位的纹理信息的利用对于字符的字体、尺寸和样式敏感，因此难以对于每种可能的情形手工生成纹理过滤器集。因此，基于学习的方法被限于检测特定的文本，或者需要大量的训练样本来确保一般化性能。

相反，基于分组的方法实现起来相对简单，并在字符的字体、尺寸和样式方面具有较少的限制。然而，基于分组的方法的性能严重地受子结构生成和分组中使用的参数的影响。而且，用于识别文本的可用信息在子结构级受限，这使得难以将文本与非文本区分开。因此，基于分组的方法遭受到许多的由于复杂的非文本区域而会导致的假肯定误检(false positives)、以及由于子结构可能不保留字符的完整形状这一事实而会导致的假否定漏检(false negatives)。为了改善基于分组的方法的性能，要求更复杂的文本信息。

因此，需要有能够至少改善现有技术的基于分组的文本检测方法的精确率的文本检测设备、文本信息提取系统及其方法。

发明内容

鉴于以上问题中的至少一个提出本发明。

本发明的目的之一是提供能够至少改善现有技术的基于分组的文本检测方法的精确率的文本检测设备、文本信息提取系统及其方法。

根据本发明的第一方面，提供一种文本检测方法，包括：子结构生成和过滤步骤，用于从输入图像生成多个子结构，并基于形状特征从所述多个子结构过滤掉非文本子结构以获得候选子结构；种子子结构选择步骤，用于从所述候选子结构选择种子子结构，所述种子子结构具有所述输入图像中的字符的完整形状；子结构组生成和过滤步骤，用于通过基于所述候选子结构的空间关系将它们分组在一起来生成子结构组，并基于所述种子子结构的性质对所述子结构组进行过滤；以及文本区域生成和整合步骤，用于基于所述子结构组生成文本区域，并基于所述文本区域的空间关系对所述文本区域进行整合。

根据本发明的第二方面，提供一种文本信息提取方法，包括：文本检测步骤，用于通过使用如上所述的文本检测方法来检测输入图像中的文本区域；文本提取步骤，用于从检测到的文本区域提取文本；以及文本识别步骤，用于对提取的文本进行识别以获得文本信息。

根据本发明的第三方面，提供一种文本检测设备，包括：子结构生成和过滤装置，用于从输入图像生成多个子结构，并基于形状特征从所述多个子结构过滤掉非文本子结构以获得候选子结构；种子子结构选择装置，用于从所述候选子结构选择种子子结构，所述种子子结构具有所述输入图像中的字符的完整形状；子结构组生成和过滤装置，用于通过基于所述候选子结构的空间关系将它们分组在一起来生成子结构组，并基于所述种子子结构的性质对所述子结构组进行过滤；以及文本区域生成和整合装置，用于基于所述子结构组生成文本区域，并基于所述文本区域的空间关系对所述文本区域进行整合。

根据本发明的第四方面，提供一种文本信息提取系统，包括：如上所述的文本检测设备，用于检测输入图像中的文本区域；文本提取设备，用于从检测到的文本区域提取文本；以及文本识别设备，用于对提取的文本进行识别以获得文本信息。

由于以上特征，本发明的文本检测设备、文本信息提取系统及其方法能够至少改善现有技术的基于分组的文本检测方法的精确率。

从参照附图对示例性实施例的以下详细描述，本发明的进一步的目的、特征和优点将变得明显。

附图说明

被包含于说明书中并构成其一部分的附图示出本发明的实施例，并与描述一起用于解释本发明的原理。

图1示意性地示出现有技术的基于学习的文本检测方法的流程图；

图2示意性地示出现有技术的基于分组的文本检测方法的流程图；

图3示意性地示出根据本发明的可以实现文本检测处理的计算设备的硬件配置的框图；

图4示意性地示出根据本发明的文本检测方法的总体流程图；

图5A和5B示意性地示出根据本发明的文本检测方法的预处理步骤的两种可替代流程图；

图6示意性地示出根据本发明的文本检测方法的子结构生成和过滤步骤的流程图；

图7示意性地示出根据本发明的文件检测方法的子结构生成和过滤步骤中的提取步骤的流程图；

图8示意性地示出根据本发明的文本检测方法的种子子结构选择步骤的流程图；

图9示意性地示出根据本发明的文本检测方法的种子子结构选择步骤中的评估步骤的流程图；

图10示意性地示出根据本发明的文本检测方法的子结构组生成和过滤步骤的流程图；

图11示意性地示出根据本发明的文本检测方法的子结构组生成和过滤步骤中的过滤步骤的流程图；

图12示意性地示出根据本发明的文本检测方法中获得预学习的文本模型的流程图；

图13示意性地示出根据本发明的文本信息提取方法的总体流程图；

图14示意性地示出根据本发明的文本检测设备的总体框图；

图15示意性地示出根据本发明的文本信息提取系统的总体框图；

图16A和16B示意性地示出在根据本发明的文本检测方法的预处理步骤中的转换步骤之后的结果；

图17A至17D示意性地示出在根据本发明的文本检测方法的子结构生成和过滤步骤中使用的结构元件；

图18示意性地示出在根据本发明的文本检测方法的种子子结构选择步骤之后的结果；

图19A至19C分别示意性示出在根据本发明的文本检测方法的子结构组生成和过滤步骤中的生成步骤、过滤步骤和精选(refining)步骤之后的结果；

图20A和20B示意性地示出根据本发明的文本检测方法的文本区域生成和整合步骤中的文本区域整合；以及

图21A至21D示意性地示出在现有技术的基于分组的文本检测方法和根据本发明的文本检测方法之间的比较结果。

具体实施方式

下面将参照附图详细描述本发明的示例性实施例。应注意，以下的描述在本质上仅是解释性和示例性的，决不意在限制本发明及其应用或使用。除非另外特别说明，否则，在实施例中阐述的组件和步骤的相对布置以及数字表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和装置可能不被详细讨论，但在适当的情况下意在成为说明书的一部分。

首先，将参照图3描述可以实施根据本发明的文本检测处理的计算设备3000的示意性硬件配置。为了简化，仅仅示出了一个计算设备。然而，在需要时也可以使用多个计算设备。

如图3所示，计算设备3000可包括CPU 3110、芯片集3120、RAM3130、存储控制器3140、显示控制器3150、硬盘驱动器3160、CD-ROM驱动器3170以及显示器3180。计算设备3000还可包括连接在CPU3110和芯片集3120之间的信号线3210、连接在芯片集3120和RAM3130之间的信号线3220、连接在芯片集3120和各种外围设备之间的外围设备总线3230、连接在存储控制器3140和硬盘驱动器3160之间的信号线3240、连接在存储控制器3140和CD-ROM驱动器3170之间的信号线3250、以及连接在显示控制器3150和显示器3180之间的信号线3260。

客户机3300可直接地或经由网络3400而被连接到计算设备3000。客户机3300可发送文本检测任务给计算设备3000，且计算设备3000可返回文本检测结果给客户机3300。

接下来，将详细描述根据本发明的文本检测方法。

图4示意性地示出根据本发明的文本检测方法的总体流程图。

在步骤410(预处理步骤)处，对输入图像进行预处理。顺便提及，步骤410不是必需的，可在希望时将其省略。

然后，在步骤420(子结构生成和过滤步骤)处，从(预处理或未预处理的)输入图像生成多个子结构，并基于形状特征从所述多个子结构过滤掉非文本子结构以获得候选子结构。顺便提及，子结构可以包括字符的连通域(connected component)、字符的边缘等。在下文中，将以字符的连通域为例子来进行描述，但明显的是，本发明也可以被应用于诸如字符的边缘的其它子结构。

接下来，在步骤430(种子子结构选择步骤)处，从候选子结构选择种子子结构。这里，种子子结构代表展示局部区域中的文本的典型性质(诸如笔划宽度、颜色和尺寸)的子结构，其具有文本的字符的完整形状。

随后，在步骤440(子结构组生成和过滤步骤)处，通过基于候选子结构的空间关系将它们分组在一起来生成子结构组，并基于种子子结构的性质对子结构组进行过滤。

最后，在步骤450(文本区域生成和整合步骤)处，基于子结构组生成文本区域，并基于文本区域的空间关系对文本区域进行整合。

通过以上的处理流程，在输入图像中检测了文本区域。通常，检测出的文本区域被表示为一组矩形(即，文本区域的外接框(boundingbox))。

在本发明的以上文本检测方法(参见图4)中，与现有技术的基于分组的文本检测方法(参见图2)相比，在生成和过滤子结构之后额外地选择种子子结构，并在后面生成和过滤子结构组时将种子子结构用作参考。如前所述，种子子结构具有输入图像中的字符的完整形状。由于以上特征，本发明的文本检测方法可以至少改善现有技术的基于分组的文本检测方法的子结构组生成和过滤处理，从而可以至少改善现有技术的基于分组的文本检测方法的精确率。

图4的流程图简要地示出了根据本发明的文本检测方法的基本步骤。在下文中，将对以上各种步骤的示例性处理进行更详细的描述。

根据本发明的文本检测方法的预处理步骤410用于在从输入图像生成多个子结构之前基于颜色和/或尺度将输入图像变换为一套或更多套输入图像，并且图5A和5B示意性地示出其两种可替代流程图。

如图5A所示，首先，在步骤412(转换步骤)处，将输入图像转换成展示亮度信息的灰度通道图像和展示颜色色调信息的S通道图像。更具体地，灰度通道图像突显与背景在亮度方面不同的文本，而S通道图像突显与背景在颜色色调方面不同的文本，即使它们的灰度通道值相同。下式(1)和(2)给出了转换公式。

g＝0.299×R+0.587×G+0.114×B (1)

S＝max(R，G，B)-min(R，G，B)(2)

这里，R、G、B、g和S分别表示像素的R通道值、G通道值、B通道值、灰度通道值和S通道值。

然后，在步骤414(缩放步骤)处，分别将灰度通道图像和S通道图像缩放至数个尺度，以获得一套或更多套输入图像。步骤414用于检测不同尺寸的文本，并且缩放量取决于输入图像的原始尺寸。作为例子，可以将双线性插值方法用于图像缩放。

图5A和5B的流程图之间的唯一区别在于转换步骤和缩放步骤的顺序。更具体地，在图5B中，首先执行用于将输入图像缩放至数个尺度的缩放步骤(步骤412’)，然后执行将缩放后的图像中的每一个转换成展示亮度信息的灰度通道图像和展示颜色色调信息的S通道图像的转换步骤(步骤414’)，以获得一套或更多套输入图像。

顺便提及，在输入图像是单色图像的情况下，以上的转换步骤不是必需的。

顺便提及，对于所获得的一套或更多套输入图像，它们中的每一个单独受到子结构生成和过滤步骤420、种子子结构选择步骤430、子结构组生成和过滤步骤440以及文本区域生成和整合步骤450的处理，并且最终在文本区域生成和整合步骤450中将从所述一套或更多套输入图像生成的文本区域整合在一起。

由上可见，在根据本发明的文本检测方法的预处理步骤410中，将输入图像转换为展示亮度信息的灰度通道图像和展示颜色色调信息的S通道图像。与将输入图像仅仅转换为灰度通道图像的情况相比，步骤410可以保留关于颜色色调的有价值信息以改善文本检测性能。并且，与分别在三个通道(即R、G和B通道)中处理输入图像的情况相比，步骤410可以节省计算成本。也就是说，本发明的预处理步骤410可以在保留有用的颜色色调信息的同时减少颜色通道的冗余，这有助于更正确且更有效的文本检测。

图16A和16B示意性地示出预处理步骤410的结果。输入的彩色图像被转换为突显与背景在亮度方面不同的文本的灰度通道图像(参见图16A)和突显与背景在颜色色调方面不同的文本的S通道图像(参见图16B)。在图16A和16B分别受到根据本发明的文本检测处理之后，在图16A中将更可能正确检测到与背景在亮度方面不同的文本区域，而在图16B中将更可能正确检测到与背景在颜色色调方面不同的文本区域。最后，将整合这两者的结果，使得对于输入的彩色图像将正确检测到所有文本区域。

接下来，将参照图6至7和图17A至17D更详细地描述根据本发明的文本检测方法的子结构生成和过滤步骤420。

图6示意性地示出根据本发明的文本检测方法的子结构生成和过滤步骤的流程图。

如图6所示，首先，在步骤422(提取步骤)处，从输入图像提取二值特征图以突显文本的线状特征。

线状特征(诸如字符的双边缘结构)是文本的最重要特征之一，从而对于从背景区分文本是至关重要的。在图7中示出提取步骤的示例性处理，其中采用了形态处理“底帽(Bottom-hat)和顶帽(Top-hat)的方向算子”(DOBT)。顺便提及，图7中示出的提取步骤只是例子，本发明并不限于此。

如图7所示，在步骤422a(变换步骤)处，基于结构元件对输入图像分别应用顶帽和底帽形态变换。

形态变换通常通过使用结构元件来执行计算。在本发明中，作为例子，采用四个正方形结构元件，每个正方形结构元件突显两个方向上的文本特征。更具体地，优选地，构建四个13×13结构元件来评估八个方向上的文本特征(参见图17A至17D)。应注意，还可以使用除了图17A至17D中的结构元件之外的结构元件。

另外，顶帽变换和底帽变换是两种灰度级形态算法，并且有利于寻找高色差背景周围的像素簇。前者用于处理暗背景上的亮对象，而后者用于处理亮背景上的暗对象。在步骤422a之后，存在顶帽变换的四个结果图像和底帽变换的四个结果图像。

然后，在步骤422b(合成步骤)处，通过分别合成顶帽形态变换的结果和底帽形态变换的结果来获得能量图。

以上的顶帽变换的四个结果图像和底帽变换的四个结果图像代表八个不同方向上的线状特征，并在输入图像的每个像素处通过使用下式(3)来分别合成：

\{\begin{matrix} E_{tophat} = \sqrt{V_{tophat 1}^{2} + V_{tophat 2}^{2} + V_{tophat 3}^{2} + V_{tophat 4}^{2}} \\ E_{bottomhat} = \sqrt{V_{bottomhat 1}^{2} + V_{bottomhat 2}^{2} + V_{bottomhat 3}^{2} + V_{bottomhat 4}^{2}} \end{matrix} - - - (3)

这里，V_tophat1、V_tophat2、V_tophat3和V_tophat4分别表示顶帽变换的结果图像中的像素值，V_bottomhat1、V_bottomhat2、V_bottomhat3和V_bottomhat4分别表示底帽变换的结果图像中的像素值，以及E_tophat和E_bottomhat分别表示顶帽变换的结果图像的合成像素值和底帽变换的结果图像的合成像素值。也就是说，在步骤422b之后，分别获得顶帽变换的能量图和底帽变换的能量图。

接下来，在步骤422c(增强和二值化步骤)处，能量图被增强并被转换成二值特征图。

以上的能量图仍然是灰度级图像，从而被转换为二值图像。另外，也可以在二值化之前执行增强处理，以得到关于特征的更好结果。例如，通过使用下式(4)和(5)来执行步骤422c：

{Enhance}_{i} = \{\begin{matrix} 0 & {Energy}_{i} < iMin & iMin = 60 \\ 255 \times \exp (\frac{{Energy}_{i} - iMax}{f}) & iMin \leq {Energy}_{i} \leq iMax & f = 80 \\ 255 & {Energy}_{i} > iMax & iMax = 255 \end{matrix} - - - (4)

{Binarization}_{i} = \{\begin{matrix} 0 & {Enhance}_{i} < th \\ 255 & {Enhance}_{i} &GreaterEqual; th \end{matrix} th = 40 - - - (5)

这里，iMin、iMax、f和th分别是经验值(它们不限于式(4)和(5)中示出的值)，Energy_i是能量图中的第i元素(其对应于式(3)中的E_tophat或E_bottomhat)，Enhance_i和Binarization_i是在增强和二值化之后的对应元素。

至此，从输入图像获得二值特征图。如从本发明的以上示例性例子可以看到的那样，可以采用形态变换(顶帽和底帽变换)来生成二值特征图以突显文本的线状特征，这相比于现有技术将有助于改善文本检测性能。

现在返回图6。在步骤424(生成步骤)处，通过在二值特征图中执行域标记(component labelling)来生成多个子结构。

作为示例性例子，通过在二值特征图中对4连通和/或8连通的连通域进行标记来生成所述多个子结构。例如，当图像的宽度大于800像素时，可以使用8连通来得到更准确的域，而当图像的宽度小于或等于800像素时，可以使用4连通来捕获与其它域接触的域。不用说，在希望时还可以同时使用4连通和8连通。

最后，在步骤426(过滤步骤)处，基于形状特征从多个子结构过滤掉非文本子结构以获得候选子结构。

在该步骤中，可以基于形状特征来对所生成的多个子结构进行分类。作为示例性例子，可以将以下的过滤器用于具有外接框宽度W、外接框高度H、其中的所有像素量AAP、其中的边缘像素量AEP、平均笔划宽度ASW、笔划宽度的方差VSW的子结构(例如连通域)：

子结构的长边：MAX(W，H)

子结构的短边：MIN(W，H)

子结构的边长比：MIN(W，H)/MAX(W，H)

子结构的密度：AAP/(W×H)

子结构的边缘比：AEP/AAP

子结构的笔划宽度统计：VSW/ASW

应注意，过滤器不限于以上描述的过滤器，也可以使用任何其它合适的过滤器。

通过使用过滤器，可以将所生成的多个子结构分为三类：文本子结构、非文本子结构和可能的文本子结构(即，可能是文本子结构的子结构)。在步骤426中，从多个子结构过滤掉非文本子结构，以获得包括文本子结构和可能的文本子结构的候选子结构。

接下来，将参照图8至9、12和18更详细地描述根据本发明的文本检测方法的种子子结构选择步骤430。如前所述，种子子结构代表展示局部区域中的文本的典型性质(诸如笔划宽度、颜色和尺寸)的子结构，其具有文本的字符的完整形状。

图8示意性地示出根据本发明的文本检测方法的种子子结构选择步骤的流程图。

如图8所示，在步骤432(评估步骤)处，基于预学习的文本模型评估每个候选子结构的文本置信度值。

图9中示出评估步骤的示例性处理。顺便提及，图9中示出的评估步骤仅仅是例子，本发明并不限于此。

如图9所示，在步骤432a(提取步骤)处，从与每个候选子结构的外接框对应的输入图像中的区域提取纹理特征。

在该步骤中，对于每个候选子结构，从与每个候选子结构的外接框对应的输入图像中的区域中的子块提取其纹理特征，诸如边缘取向直方图(EOH，Edge Orientation Histogram)特征和/或均匀局部二值图案(ULBP，Uniform Local Binary Pattern)特征等。可以进一步使所提取的纹理特征相联系以形成特征向量。

然后，在步骤432b(计算步骤)处，基于预学习的文本模型的输出计算每个候选子结构的文本置信度值，该预学习的文本模型被输入有其纹理特征。

图12示意性地示出获得预学习的文本模型的流程图，其中基于从一套训练图像获得的候选子结构样本来训练预学习的文本模型。

在图12中，步骤461(预处理步骤)和步骤462(子结构生成和过滤步骤)的处理分别与图4中的步骤410和420的处理相同，在这里省略它们的描述。顺便提及，与步骤410同样，步骤461也不是必需的，并可以在希望时将其省略。在步骤462之后，从该套训练图像提取出候选子结构。

在步骤463处，通过将从该套训练图像提取的候选子结构手工标记为肯定样本和否定样本来获得候选子结构样本。在标记之前，可以首先获得来自与候选子结构的外接框对应的训练图像中的区域的子图像。这里，肯定样本是保留字符的完整形状的样本，而否定样本主要来自背景。

接下来，在步骤464处，从与每个候选子结构样本的外接框对应的训练图像中的区域提取诸如EOH和/或ULBP等的纹理特征。步骤464的处理与图9中的步骤432a的处理相同，并在这里省略其描述。

然后，在步骤465处，通过使用所提取的纹理特征来训练文本模型，以获得预学习的文本模型。作为示例性例子，将所提取的纹理特征输入到支持向量机(SVM)训练模型。SVM是用于区分文本和非文本的二值分类器。这里，例如，libSVM被用于SVM训练，并且为了效率，在SVM训练中使用线性内核(linear kernel)。

至此，获得预学习的文本模型，并可以将它用在图9的步骤432b中。

现在返回图9的步骤432b。在步骤432b处，将所提取的纹理特征(或所形成的特征向量)输入到预学习的文本模型，并基于预学习的文本模型的输出计算每个候选子结构的文本置信度值。

更具体地，在本发明中，通过使用例如下式(6)(这里，y＝1用于文本类，y＝-1用于背景，从而y＝1用于文本置信度值计算)，来将预学习的文本模型的输入分数f(x)变换为条件后验概率P(y|x)：

p (y | x) = \frac{1}{1 + \exp (- y \cdot f (x))} - - - (6)

所获得的条件后验概率P(y|x)代表候选子结构属于文本类的概率，并且它的值分散于0至1。它的值越大，则候选子结构更可能是文本域(text component)。从而，可以将条件后验概率P(y|x)用作候选子结构的文本置信度值。

顺便提及，上式(6)仅仅是示例性的，在需要时也可以使用任何其它合适的式子。

在本发明的一些例子中，评估步骤432可以进一步包括步骤432c。在步骤432c(修改步骤)处，减小候选子结构中的除文本子结构外的子结构的文本置信度值(即，可能的文本子结构的文本置信度值)。

例如，可以将它们的置信度值砍掉一半。然而，应注意，步骤432c不是必需的，可以如希望的那样执行或不执行它。

现在返回图8。在步骤434(选择步骤)处，基于文本置信度值选择种子子结构。更具体地，例如，可以将文本置信度值高于预定阈值的候选子结构选择为种子子结构，而文本置信度值不高于该预定阈值的候选子结构是非种子子结构。可以基于一套训练图像来调节预定阈值。

如从本发明的以上示例性例子可见的那样，基于预学习的文本模型给每个候选子结构赋以文本置信度值，而不是将每个候选子结构绝对地划分为文本候选子结构或非文本候选子结构。该软分类(softclassification)将使文本检测结果更可信。此外，如在后面将看到的那样，子结构组的文本置信度值可以基于其候选子结构成员的文本置信度值被进一步定义，并且可以在需要时被用于过滤子结构组。

图18示意性地示出根据本发明的文本检测方法的种子子结构选择步骤之后的结果，这里用亮框示出种子子结构，而用暗框示出非种子子结构。

接下来，将参照图10至11和图19A至19C更详细地描述根据本发明的文本检测方法的子结构组生成和过滤步骤440。在子结构组生成和过滤步骤440中，可以基于种子子结构的性质来过滤子结构组，因为种子子结构展示局部区域中的文本的典型性质，并且这些性质可以用作子结构组过滤的重要线索。

图10示意性地示出根据本发明的文本检测方法的子结构组生成和过滤步骤的流程图。

如图10所示，在步骤442(生成步骤)处，通过将其中心点位于或靠近同一条直线的候选子结构分组在一起来生成子结构组。这例如可以通过Hough变换来实现。

然后，在步骤444(过滤步骤)处，基于种子子结构的性质对子结构组进行过滤。

在图11中示出过滤步骤的示例性处理。顺便提及，图11中示出的过滤步骤仅仅是例子，本发明并不限于此。

如图11所示，在步骤444a(第一过滤步骤)处，过滤掉在其中不具有种子子结构的子结构组。这例如可以通过如下实现：基于组中的候选子结构的文本置信度值来对该组中的候选子结构进行排序，并且，如果在其中不存在种子子结构则去除该组。

然后，在步骤444b(第二过滤步骤)处，过滤掉其性质与同一子结构组中的种子子结构偏离的非种子子结构。在本说明书中，“偏离”意味着其间的差大于预定值。并且，这里，性质可以包括子结构的尺寸、平均笔划宽度和/或平均灰度级值等。在步骤444a之后，组中的所有候选子结构被排序，其中，例如，顶部的n个候选子结构为种子子结构，剩余的m个候选子结构为非种子子结构(这里，m和n为正整数)。因此，例如，可以通过如下来实现步骤444b：将剩余的m个非种子子结构的性质与顶部的n个种子子结构的性质进行比较，并去除其性质与种子子结构偏离的非种子子结构。

在本发明的一些例子中，过滤步骤444可以进一步包括步骤444c。在步骤444c(第三过滤步骤)处，在每个子结构组中，过滤掉其尺寸和间隙与所述每个子结构组的对应的标准值偏离的候选子结构。这里，候选子结构的间隙意味着该候选子结构与其相邻的候选子结构之间的距离，并假设一个串内的文本在其间具有均匀间隙。并且，这里，组中的候选子结构的间隙和尺寸的标准值例如可以被分别设为其中间值。例如，步骤444c可以通过如下实现：对每个组中的剩下的候选子结构根据其尺寸进行排序，并去除其尺寸与标准值偏离的候选子结构(其可被视为噪声候选子结构)，然后对该每个组中的剩下的候选子结构根据其位置进行排序，并去除其间隙与标准值偏离(例如，不小于标准值的1.2倍)的候选子结构(其也可以被视为噪声候选子结构)。

另外，在本发明的一些例子中，过滤步骤444可以进一步包括步骤444d。在步骤444d(第四过滤步骤)处，过滤掉其候选子结构的数量低于预定值的子结构组(其可以被视为噪声子结构组)。

顺便提及，步骤444a和444b用于基于种子子结构的性质来过滤子结构组，而步骤444c和444d用于基于组中的候选子结构成员的性质来进一步过滤子结构组。应注意，步骤444c和444d不是必需的，它们中的每一个可以如希望的那样被执行或不被执行。

现在返回图10。在本发明的一些例子中，子结构组生成和过滤步骤440可以进一步包括步骤446。在步骤446(精选步骤)处，基于子结构组的文本置信度值去除子结构组。

该步骤用于去除具有低文本置信度值的子结构组(例如，具有比预定值低的文本置信度值的子结构组)。在本发明中，子结构组的文本置信度值是该子结构组中的所有候选子结构的平均文本置信度值，这通过下式(7)表示：

TCG = Σ_{i = 1}^{n} {TC}_{i} / n - - - (7)

这里，n是子结构组中的候选子结构的数量，TC_i是该组中的第i候选子结构的文本置信度值，并且TCG是该组的文本置信度值。

顺便提及，步骤446也不是必需的，它可以如希望的那样被执行或不被执行。

图19A至19C分别示意性地示出在根据本发明的文本检测方法的子结构组生成和过滤步骤中的生成步骤、过滤步骤和精选步骤之后的结果。如图19A至19C所示，通过基于种子子结构的性质来过滤子结构组，可以获得非常好的文本检测结果(参见图19B)，并且通过额外采用精选步骤，可以获得甚至更好的文本检测结果(参见图19C)。

如从本发明的以上示例性例子可见的那样，与现有技术的基于分组的文本检测方法相比，在生成和过滤子结构之后额外选择种子子结构，并在后来过滤子结构组时将种子子结构用作参考。而且，并入了预学习的文本模型以用于种子子结构的选择。也就是说，本发明在一定程度上结合了基于学习的文本检测方法和基于分组的文本检测方法。由于以上特征，本发明的文本检测方法的至少一些文本检测性能(例如精确率)可以相比于现有技术(例如现有技术的基于分组的文本检测方法)而被改善。

另外，在本发明的以上示例性例子中，如前所述，基于候选子结构的文本置信度值来对候选子结构执行软分类，以选择种子子结构。而且，候选子结构的文本置信度值可以用于计算子结构组的文本置信度值，以可选地对子结构组进行精选。由于以上特征，本发明的文本检测方法的至少一些文本检测性能(例如精确率)可以相比于现有技术(例如现有技术的基于分组的文本检测方法)而被进一步改善。

接下来，将参照图20A和20B更详细地描述根据本发明的文本检测方法的文本区域生成和整合步骤450。

在该步骤中，首先，基于获得的子结构组的外接框来生成文本区域。例如，可以计算子结构组的方向，然后可以基于组中的最大候选子结构来获得顶外接线和底外接线。文本区域被设计为覆盖组中的所有候选子结构。

接下来，基于生成的文本区域的空间关系来对它们进行整合。图20A和20B示意性地示出空间关系。如图20A所示，当两个生成的文本区域(TR1和TR2)处于基本上相同的方向上并具有重叠部分时，所述两个生成的文本区域可被合成为一个文本区域(TR3)。另外，如图20B所示，当一个生成的文本区域(TR1)在另一个生成的文本区域(TR2)之内时，所述一个生成的文本区域(TR1)可被去除。

顺便提及，当执行预处理步骤以获得不同通道和/或尺度的一套或更多套输入图像时，也在该步骤中将来自不同通道和尺度的文本区域整合在一起。

至此，已示意性地描述了本发明的文本检测方法。接下来，将评估本发明的文本检测方法的效果。

例如，用于评估的数据集是ICDAR 2003/2005鲁棒阅读竞争(robust reading competition)数据集。

例如，用于评估的度量如下。将匹配比用作该度量。当(真区域∩检测到的区域)/(真区域∪检测到的区域)＞0.5时，检测到的区域被视为正确检测到的区域。这里，文本行被采用为基本评估单位。基于匹配比，可以通过使用下式(8)至(10)来计算精确率、召回(recall)率和F分数：

F = \frac{1}{α \cdot Precision + (1 - α) \cdot Recall} - - - (10)

这里，#代表变量的数量，a是例如可以被设为0.5的经验值，并且Precision、Recall和F分别代表精确率、召回率和F分数。

例如，用于评估的软件和硬件配置可以是表1所示的配置。

表1

表2中示出评估结果。

表2

方法	精确率	召回率	F分数	时间(秒)
					1	0.40	0.63	0.49	0.41
2	0.71	0.53	0.61	0.73
					3	0.74	0.59	0.66	1.42

在表2中，方法1代表现有技术的基于分组的文本检测方法，方法2代表使用预学习的文本模型的本发明的文本检测方法，并且方法3代表使用预学习的文本模型和S通道信息的本发明的文本检测方法。

如从表2可见的那样，相比于方法1，方法2的性能显著得到改善(特别是其精确率)，这指示着结合数据驱动的方法和模型驱动的方法在自然图像中的文本的检测(包括字幕文本和场景文本的检测)方面是有效的。并且，相比于方法2，方法3的性能进一步得到改善，例如其F分数提高了0.05。这指示着颜色色调信息在自然图像中的文本的检测方面非常有用。可以从示意性地示出方法1和方法3之间的比较结果的图21A至21D得到类似的结论。在图21A至21D中，用外接框示出检测到的文本区域，其中图21A和21C示出方法1的结果，而图21B和21D示出方法3的对应结果。

不必说，本发明的文本检测方法可以具有许多应用，诸如从照相机捕获的图像或视频提取文本信息。接下来，将参照图13简要描述根据本发明的文本信息提取方法的示意性处理。

如图13所示，在步骤1310(文本检测步骤)处，通过使用如上所述的文本检测方法来检测输入图像中的文本区域。

然后，在步骤1320(文本提取步骤)处，从检测到的文本区域提取文本。

最后，在步骤1330(文本识别步骤)处，对提取的文本进行识别以获得文本信息。

至此，已经示意性地描述了本发明的文本检测方法和文本信息提取方法。在下文中，将分别参照图14和15简要描述根据本发明的文本检测设备和文本信息提取系统。

如图14所示，根据本发明的文本检测设备1400可以包括：子结构生成和过滤装置1420，用于从输入图像生成多个子结构，并基于形状特征从所述多个子结构过滤掉非文本子结构以获得候选子结构；种子子结构选择装置1430，用于从所述候选子结构选择种子子结构，所述种子子结构具有所述输入图像中的字符的完整形状；子结构组生成和过滤装置1440，用于通过基于所述候选子结构的空间关系将它们分组在一起来生成子结构组，并基于所述种子子结构的性质对所述子结构组进行过滤；以及文本区域生成和整合装置1450，用于基于所述子结构组生成文本区域，并基于所述文本区域的空间关系对所述文本区域进行整合。

可选地，文本检测设备1400可以进一步包括：预处理装置1410，用于在从输入图像生成多个子结构之前基于颜色和/或尺度将所述输入图像变换为一套或更多套输入图像。

可选地，预处理装置1410可以进一步包括：转换装置，用于将输入图像转换成展示亮度信息的灰度通道图像和展示颜色色调信息的S通道图像；以及缩放装置，用于分别将灰度通道图像和S通道图像缩放至数个尺度，以获得一套或更多套输入图像。可替代地，预处理装置1410可以进一步包括：缩放装置，用于将输入图像缩放至数个尺度；以及转换装置，用于将缩放后的图像中的每一个转换成展示亮度信息的灰度通道图像和展示颜色色调信息的S通道图像，以获得一套或更多套输入图像。

可选地，使所述一套或更多套输入图像中的每一个单独受到子结构生成和过滤装置1420、种子子结构选择装置1430、子结构组生成和过滤装置1440以及文本区域生成和整合装置1450的处理；以及在文本区域生成和整合装置1450中将从所述一套或更多套输入图像生成的文本区域整合在一起。

可选地，种子子结构选择装置1430可以进一步包括：评估装置，用于基于预学习的文本模型评估每个候选子结构的文本置信度值；以及选择装置，用于基于文本置信度值选择种子子结构。

可选地，评估装置可以进一步包括：提取装置，用于从与每个候选子结构的外接框对应的输入图像中的区域提取纹理特征；以及计算装置，用于基于预学习的文本模型的输出计算所述每个候选子结构的文本置信度值，所述预学习的文本模型被输入有其纹理特征。

可选地，评估装置可以进一步包括：修改装置，用于减小候选子结构中的除文本子结构外的子结构的文本置信度值。

可选地，基于从一套训练图像获得的候选子结构样本对预学习的文本模型进行训练；以及，通过将通过使用与子结构生成和过滤装置1420相同的处理而从所述一套训练图像提取的候选子结构手工标记为肯定样本和否定样本，来获得候选子结构样本。

可选地，子结构组生成和过滤装置1440可以进一步包括：生成装置，用于通过将其中心点位于或靠近同一条直线的候选子结构分组在一起来生成子结构组；以及过滤装置，用于基于种子子结构的性质对所述子结构组进行过滤。

可选地，过滤装置可以进一步包括：第一过滤装置，用于过滤掉在其中不具有种子子结构的子结构组；以及第二过滤装置，用于过滤掉其性质与同一子结构组中的种子子结构偏离的非种子子结构。

可选地，过滤装置可以进一步包括：第三过滤装置，用于在每个子结构组中过滤掉其尺寸和间隙与所述每个子结构组的对应的标准值偏离的候选子结构；以及第四过滤装置，用于过滤掉其候选子结构的数量低于预定值的子结构组。

可选地，子结构组生成和过滤装置1440可以进一步包括：生成装置，用于通过将其中心点位于或靠近同一条直线的候选子结构分组在一起来生成子结构组；过滤装置，用于基于种子子结构的性质对子结构组进行过滤；以及精选装置，用于基于子结构组的文本置信度值去除子结构组，其中，子结构组的文本置信度值是所述子结构组中的所有候选子结构的平均文本置信度值。

可选地，子结构生成和过滤装置1420可以进一步包括：提取装置，用于从输入图像提取二值特征图以突显文本的线状特征；生成装置，用于通过在二值特征图中执行域标记来生成多个子结构；以及过滤装置，用于基于形状特征从所述多个子结构过滤掉非文本子结构以获得候选子结构。

可选地，提取装置可以进一步包括：变换装置，用于基于结构元件对输入图像分别应用顶帽和底帽形态变换；合成装置，用于通过分别合成顶帽形态变换的结果和底帽形态变换的结果来获得能量图；以及增强和二值化装置，用于增强能量图并将它们转换成二值特征图。

可选地，生成装置通过在二值特征图中对4连通和/或8连通的连通域进行标记来生成所述多个子结构。

可选地，在文本区域生成和整合装置1450中，当两个生成的文本区域处于基本上相同的方向上并具有重叠部分时，所述两个生成的文本区域被合成为一个文本区域；以及当一个生成的文本区域在另一个生成的文本区域之内时，所述一个生成的文本区域被去除。

如图15所示，根据本发明的文本信息提取系统1500可以包括：文本检测设备1510，用于检测输入图像中的文本区域(例如，它可以是文本检测设备1400)；文本提取设备1520，用于从检测到的文本区域提取文本；以及文本识别设备1530，用于对提取的文本进行识别以获得文本信息。

至此，已经示意性地描述了根据本发明的文本检测设备和文本信息提取系统。应注意，以上的所有装置是用于实施本发明的文本检测方法和文本信息提取方法的示例性优选模块。然而，并未在上面穷尽地描述用于实施各种步骤的模块。通常，当存在执行某一处理的步骤时，则存在用于实施该相同处理的对应功能模块或装置。

另外，应注意，可以将两个或多个装置合并为一个装置，只要可以实现它们的功能即可；另一方面，可以将任何一个装置划分为多个装置，只要可以实现类似的功能即可。

可以以许多方式来实施本发明的方法和设备。例如，可以通过软件、硬件、固件或其任何组合来实现本发明的方法和设备。上面所描述的方法的步骤顺序仅仅意在是说明性的，本发明的方法的步骤并不必限于上面具体描述的顺序，除非另外特别说明。另外，在一些实施例中，本发明也可以被实现为记录在记录介质中的程序，包括用于实施根据本发明的方法的机器可读指令。从而，本发明也涵盖了存储有用于实施根据本发明的方法的程序的记录介质。

虽然已参照示例性实施例描述了本发明，但要理解，本发明不限于所公开的示例性实施例。对于本领域技术人员显然的是，可以在不背离本发明的范围和精神的情况下修改以上的示例性实施例。所附的权利要求的范围要被赋予最宽的解释，以包含所有这样的修改以及等同的结构和功能。

Claims

1.一种文本检测方法，包括：

子结构生成和过滤步骤，用于从输入图像生成多个子结构，并基于形状特征从所述多个子结构过滤掉非文本子结构以获得候选子结构；

种子子结构选择步骤，用于从所述候选子结构选择种子子结构，所述种子子结构具有所述输入图像中的字符的完整形状；

子结构组生成和过滤步骤，用于通过基于所述候选子结构的空间关系将它们分组在一起来生成子结构组，并基于所述种子子结构的性质对所述子结构组进行过滤；以及

文本区域生成和整合步骤，用于基于所述子结构组生成文本区域，并基于所述文本区域的空间关系对所述文本区域进行整合。

2.如权利要求1所述的方法，其中，所述子结构包括所述字符的连通域或所述字符的边缘。

3.如权利要求1所述的方法，进一步包括：预处理步骤，用于在从所述输入图像生成所述多个子结构之前基于颜色和/或尺度将所述输入图像变换为一套或更多套输入图像。

4.如权利要求3所述的方法，其中，所述预处理步骤进一步包括：

转换步骤，用于将所述输入图像转换成展示亮度信息的灰度通道图像和展示颜色色调信息的S通道图像；以及

缩放步骤，用于分别将所述灰度通道图像和所述S通道图像缩放至数个尺度，以获得所述一套或更多套输入图像，

或者，所述预处理步骤进一步包括：

缩放步骤，用于将所述输入图像缩放至数个尺度；以及

转换步骤，用于将缩放后的图像中的每一个转换成展示亮度信息的灰度通道图像和展示颜色色调信息的S通道图像，以获得所述一套或更多套输入图像。

5.如权利要求4所述的方法，其中，在输入图像的每个像素处通过从其R、G和B通道值中的最大值减去其R、G和B通道值中的最小值来计算所述S通道图像。

6.如权利要求3所述的方法，其中，使所述一套或更多套输入图像中的每一个单独受到所述子结构生成和过滤步骤、所述种子子结构选择步骤、所述子结构组生成和过滤步骤以及所述文本区域生成和整合步骤的处理；以及

其中，在所述文本区域生成和整合步骤中将从所述一套或更多套输入图像生成的文本区域整合在一起。

7.如权利要求1至6中任一项所述的方法，其中，所述种子子结构选择步骤进一步包括：

评估步骤，用于基于预学习的文本模型评估每个候选子结构的文本置信度值；以及

选择步骤，用于基于所述文本置信度值选择所述种子子结构。

8.如权利要求7所述的方法，其中，所述评估步骤进一步包括：

提取步骤，用于从与每个候选子结构的外接框对应的输入图像中的区域提取纹理特征；以及

计算步骤，用于基于所述预学习的文本模型的输出计算所述每个候选子结构的文本置信度值，所述预学习的文本模型被输入有其纹理特征。

9.如权利要求8所述的方法，其中，所述评估步骤进一步包括：

修改步骤，用于减小所述候选子结构中的除文本子结构外的子结构的文本置信度值。

10.如权利要求7所述的方法，其中，基于从一套训练图像获得的候选子结构样本对所述预学习的文本模型进行训练；以及

其中，通过将通过使用与所述子结构生成和过滤步骤相同的处理而从所述一套训练图像提取的候选子结构手工标记为肯定样本和否定样本，来获得所述候选子结构样本。

11.如权利要求1至6中任一项所述的方法，其中，所述子结构组生成和过滤步骤进一步包括：

生成步骤，用于通过将其中心点位于或靠近同一条直线的候选子结构分组在一起来生成所述子结构组；以及

过滤步骤，用于基于所述种子子结构的性质对所述子结构组进行过滤。

12.如权利要求11所述的方法，其中，所述性质包括平均笔划宽度、平均灰度级值和/或尺寸。

13.如权利要求11所述的方法，其中，所述过滤步骤进一步包括：

第一过滤步骤，用于过滤掉在其中不具有种子子结构的子结构组；以及

第三过滤步骤，用于过滤掉其性质与同一子结构组中的种子子结构偏离的非种子子结构。

14.如权利要求13所述的方法，其中，所述过滤步骤进一步包括：

第三过滤步骤，用于在每个子结构组中过滤掉其尺寸和间隙与所述每个子结构组的对应的标准值偏离的候选子结构；以及

第四过滤步骤，用于过滤掉其候选子结构的数量低于预定值的子结构组。

15.如权利要求9所述的方法，其中，所述子结构组生成和过滤步骤进一步包括：

生成步骤，用于通过将其中心点位于或靠近同一条直线的候选子结构分组在一起来生成所述子结构组；

过滤步骤，用于基于所述种子子结构的性质对所述子结构组进行过滤；以及

精选步骤，用于基于子结构组的文本置信度值去除子结构组，

其中，子结构组的文本置信度值是所述子结构组中的所有候选子结构的平均文本置信度值。

16.如权利要求1至6中任一项所述的方法，其中，所述子结构生成和过滤步骤进一步包括：

提取步骤，用于从所述输入图像提取二值特征图以突显文本的线状特征；

生成步骤，用于通过在所述二值特征图中执行域标记来生成所述多个子结构；以及

过滤步骤，用于基于形状特征从所述多个子结构过滤掉非文本子结构来获得所述候选子结构。

17.如权利要求16所述的方法，其中，所述线状特征包括所述字符的双边缘结构。

18.如权利要求16所述的方法，其中，所述提取步骤进一步包括：

变换步骤，用于基于结构元件对所述输入图像分别应用顶帽和底帽形态变换；

合成步骤，用于通过分别合成所述顶帽形态变换的结果和所述底帽形态变换的结果来获得能量图；以及

增强和二值化步骤，用于增强能量图并将它们转换成所述二值特

征图。

19.如权利要求18所述的方法，其中，所述结构元件是四个正方形结构元件，每个正方形结构元件突显两个方向上的文本特征。

20.如权利要求16所述的方法，其中，所述生成步骤通过在所述二值特征图中对4连通和/或8连通的连通域进行标记来生成所述多个子结构。

21.如权利要求1至6中任一项所述的方法，其中，在所述文本区域生成和整合步骤中，

当两个生成的文本区域处于基本上相同的方向上并具有重叠部分时，所述两个生成的文本区域被合成为一个文本区域；以及

当一个生成的文本区域在另一个生成的文本区域之内时，所述一个生成的文本区域被去除。

22.一种文本信息提取方法，包括：

文本检测步骤，用于通过使用如权利要求1至21中任一项所述的文本检测方法来检测输入图像中的文本区域；

文本提取步骤，用于从检测到的文本区域提取文本；以及

文本识别步骤，用于对提取的文本进行识别以获得文本信息。

23.一种文本检测设备，包括：

子结构生成和过滤装置，用于从输入图像生成多个子结构，并基于形状特征从所述多个子结构过滤掉非文本子结构以获得候选子结构；

种子子结构选择装置，用于从所述候选子结构选择种子子结构，

所述种子子结构具有所述输入图像中的字符的完整形状；

子结构组生成和过滤装置，用于通过基于所述候选子结构的空间关系将它们分组在一起来生成子结构组，并基于所述种子子结构的性质对所述子结构组进行过滤；以及

文本区域生成和整合装置，用于基于所述子结构组生成文本区域，并基于所述文本区域的空间关系对所述文本区域进行整合。

24.一种文本信息提取系统，包括：

如权利要求23所述的文本检测设备，用于检测输入图像中的文本区域；

文本提取设备，用于从检测到的文本区域提取文本；以及

文本识别设备，用于对提取的文本进行识别以获得文本信息。