CN104182722A

CN104182722A - 文本检测方法和装置以及文本信息提取方法和系统

Info

Publication number: CN104182722A
Application number: CN201310196300.7A
Authority: CN
Inventors: 麻文华; 罗兆海
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-05-24
Filing date: 2013-05-24
Publication date: 2014-12-03
Anticipated expiration: 2033-05-24
Also published as: CN104182722B

Abstract

本发明涉及文本检测方法和装置以及文本信息提取方法和系统。提供了用于检测包括至少一个连通体（CC）的图像中的文本区域的方法。该方法包括：文本背景区域（TBR）检测步骤，用于从图像中检测至少一个TBR；CC过滤步骤，用于基于检测到的TBR对所述至少一个CC进行过滤以保留至少一个候选文本CC；和CC组合步骤，将所述至少一个候选文本CC进行组合以得到文本区域。根据本发明的方法可以快速地和/或精确地指出图像中的文本位置，从而改进文本检测的性能。

Description

文本检测方法和装置以及文本信息提取方法和系统

技术领域

本公开涉及文本检测，更具体地说，本公开涉及文本检测方法和装置以及文本信息提取方法和系统。

背景技术

检测图像中的文本，尤其是自然图像中的文本，对于一些计算机视觉应用，比如对于视觉受损人员和外国人的计算机辅助、图像和视频的自动检索，以及都市环境中的机器导航来说至关重要。

但是，自然场景中的文本检测是个困难的主题。与打印的页面、传真、名片的扫描不同，主要的挑战在于文本的多样性：字体、字号、斜角、由于倾斜造成的失真等。比如不均匀的照明和反光、较差光照条件以及复杂的背景之类的环境因素增加了更多复杂情况。

在相关文献中，用于检测自然场景中的文本区域的文本检测方法通常遵循图1所示出的流程。图1中的方法100开始于框110，从图像生成分量。这里，分量例如可以是连通体（CC），连通体是具有相似颜色或灰度或笔划宽度的像素集合。

然后，在框120，从每个分量提取各种特征，并且基于这些特征滤除非文本分量，留下候选文本分量。

然后，在框130，留下的候选文本分量被组合在一起以形成文本行或单词，并且按照文本行或单词的最小外接框（包含文本的最小多边形）输出文本区域。

现有技术的一个普遍问题是它们试图仅通过文本区域的特征，比如边缘、角、笔划、颜色和纹理，来检测文本。但是忽略了文本周围的上下文信息，而上下文信息在大多数情况下可能是有帮助的。结果，现有技术由于复杂的非文本区域而出现误检，并且由于自然场景中文本的较大差异性而出现漏检。

因此，需要一种改进的利用文本区域周围的上下文信息在图像中进行文本检测的方式。

一篇已发表论文“Scenery character detection with environmentalcontext”，作者Yasuhiro Kunishige,Feng Yaokai,Seiichi Uchida，发表于International Conference on Document Analysis and Recognition(ICDAR),pp1049–1053,2011，提出了一种使用上下文信息的理念的文本检测方法。具体而言，该篇论文从目标分量的扩展区域提取上下文特征，其中扩展区域是通过在目标分量周围增加10个像素的裕量而形成的。此外，该方法将分量分类到六种场景分量类别之一中：“天空”、“绿地”、“招牌”、“地面”、“建筑物”和“其它”。此方法的一个问题是，比如“天空”、“绿地”的普通类别与文本检测无关，而“招牌”不覆盖文本背景区域的所有种类，比如标志、标签、名册、海报等。此方法的另一问题是，上下文信息是从具有固定大小的裕量区域中提取的，这无法适应场景变化。

发明内容

需要解决以上问题中的至少一个。

发明人发现，为了易于被看到，自然场景中的大多数文本被印在与文本形成高对比度的相对均匀的背景区域上。这可以有助于文本检测。

因此，在本公开中提出了一种新的文本检测方法和装置，以改进图像中的文本检测的性能，尤其是自然场景图像中文本检测的性能。在本发明中引入一个新的概念，即文本背景区域（TBR），以定义文本周围的这种典型背景区域。在自然场景图像中，TBR通常作为招牌、标志、标签、名册、海报等存在，但是不限于这些形式。本发明不仅利用表示字符的特征，而且利用表示字符周围的背景区域的特征。而且，不是直接寻找文本区域，而是通过首先寻找TBR并且将图像中的分量标识为位于TBR内的分量或位于所有TBR外的分量，来搜索文本。假设比起TBR外部，文本更有可能出现在TBR中。基于该假设，可以使用TBR信息来帮助文本检测。

根据本发明的第一方面，提供了一种用于检测包括至少一个连通体（CC）的图像中的文本区域的文本检测方法。该方法包括：文本背景区域（TBR）检测步骤，用于从图像中检测至少一个TBR；CC过滤步骤，用于基于检测到的TBR对该至少一个CC进行过滤以保留至少一个候选文本CC；以及连通体组合步骤，用于组合该至少一个候选文本CC以得到文本区域。

根据本发明的第二方面，提供了一种用于检测包括至少一个连通体（CC）的图像中的文本区域的文本检测装置。该装置包括：文本背景区域（TBR）检测单元，被配置为从该图像中检测至少一个TBR；CC过滤单元，被配置为基于检测到的TBR对该至少一个CC进行过滤以保留至少一个候选文本CC；CC组合单元，被配置为组合该至少一个候选文本CC以得到文本区域。

根据本发明的第三方面，提供了一种文本信息提取方法。该方法包括：使用根据本发明的第一方面的文本检测方法检测输入图像或输入视频中的文本区域；从所检测到的文本区域中提取文本；以及识别所提取的文本以得到文本信息。

根据本发明的第四方面，提供了一种文本信息提取系统。该系统包括：根据本发明的第二方面的文本检测装置，被配置用于检测输入图像或输入视频中的文本区域；被配置用于从所检测到的文本区域中提取文本的提取装置；以及被配置用于识别所提取的文本以得到文本信息的识别装置。

通过利用这些特征，根据本发明的方法、装置和系统可以快速地和/或准确地指出图像中的文本位置，从而改进文本检测的性能。

本发明的进一步的特征和优点将通过参考附图的以下描述而明确。

附图说明

并入说明书并且构成说明书的一部分的附图图示了本发明的实施例，并且与描述一起用于说明本发明的原理。

图1是示出用于检测图像中的文本区域的现有技术方法的流程图。

图2是示出能够执行本发明的实施例的计算机系统的示例性硬件配置的框图。

图3是示出根据本发明的实施例的用于检测图像中的文本区域的文本检测方法的流程图。

图4示出根据本发明的实施例的用于基于CC和其它TBR之间的关系确定CC是否是一个TBR的示例性过程。

图5是示出在一个特定示例中的图3中的CC过滤步骤的流程图。

图6是示出在另一个特定示例中的图3中的CC过滤步骤的流程图。

图7示出根据本发明的实施例使用经训练的分类器的图3中的CC过滤步骤的示例性过程。

图8A-8F是指示使用根据本发明的文本检测方法的各个处理结果的示例性图像。

图9是说明根据本发明的实施例的用于检测图像中的文本区域的文本检测装置的框图。

图10是根据本发明的一个实施例的图9中的CC过滤单元的框图。

图11是说明根据本发明的另一个实施例的图9中的CC过滤单元的框图。

图12是示出根据本发明的实施例的文本信息提取方法的流程图。

图13是示出根据本发明的实施例的文本信息提取系统的框图。

具体实施方式

以下将参考附图描述本发明的实施例。

请注意，类似的参考数字和字母指的是图中的类似的项目，因而一旦在一幅图中定义了一个项目，就不需要在之后的图中讨论了。

还请注意，在本发明中，术语“第一”、“第二”等仅用于区分元件或步骤，而不旨在指示时间顺序、偏好或重要性。

图2是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。

如图2中所示，计算机系统包括计算机1110。例如，计算机1110可以是数字照相机或智能电话。计算机1100包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM（只读存储器）1131和RAM（随机存取存储器）1132。BIOS（基本输入输出系统）1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如闪存驱动器1151和CD-ROM驱动器1155之类的一个或多个可移动非易失性存储器驱动器连接到可移动非易失性存储器接口1150。例如，诸如SD卡的闪存1152可以被插入到闪存驱动器1151中，以及CD（压缩盘）1156可以被插入到CD-ROM驱动器1155中。要处理的图像可以存储在非易失性存储器中。

诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以经由局域网1171连接到远程计算机1180。或者，网络接口1170可以连接到调制解调器（调制器－解调器）1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191，该监视器可以用于显示根据本发明的实施例的一个或多个处理结果。

输出外围接口1195连接到打印机1196和扬声器1197。

图2所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。

图2所示的计算机系统可以被实施于任何实施例，可作为独立计算机，或者也可作为设备中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

图3是示出根据本发明的实施例的用于检测图像中的文本区域的文本检测方法300的流程图。还将参考图8A-8F进行描述以示出使用根据本发明的文本检测方法的示例性处理结果。

根据一个实施例，图像包括至少一个连通体（CC）。CC是具有相似的颜色或灰度值的像素群。一个群中的像素可以在空间中以4邻域方式或8邻域方式相连。CC可以在TBR检测步骤之前通过例如颜色聚类、自适应二值化、形态学处理等从图像生成。在其中一个实施例中，CC可以基于MSER方法从灰度图像生成，MSER方法在J.Matas,O.Chum,M.Urban,和T.Pajdla的“Robust wide baselinestereo from maximally stable extremal regions”,Proc.of BritishMachine Vision Conference,pp.384-396,2002中描述，该篇文献通过引用被包括在此。在一个实施例中，为了检测暗背景上的亮文本以及亮背景上的暗文本，CC生成可以应用于两个通道，一个通道用于原始图像，另一个用于反色图像。但是这不是必须的。

作为一个例子，图8A和图8B分别示出一幅灰度图像和该图像中生成的CC。在图8B中，每个黑线框指示一个CC，即，黑线框是CC的最小外接框。

在框310中，执行文本背景区域（TBR）检测步骤以从输入图像检测至少一个TBR。

根据一个实施例，TBR检测步骤可以基于该图像中包括的CC来执行。TBR可以是具有特殊性质的一种CC。根据一个实施例，TBR可以是该图像中文本的周围区域，具有规则的边界和均匀的颜色或灰度。在自然场景图像中，TBR通常作为招牌、标志、标签、名册、海报等存在，但是不限于这些形式。

根据一个实施例，TBR可以从图像中包含的CC中选择。可以检查每个CC以确定它是否是TBR。在进行确定时可以考虑三个方面的性质：该CC的特征、该CC中的成员CC的统计信息，以及该CC和其它TBR之间的关系。这些方面可以单独地或以任何组合地使用以用于TBR检测。这里，当前CC中的成员CC是位于当前CC的边界内的CC并且具有与当前CC的高对比度。成员CC可以从当前CC的相反通道提取。例如，暗CC的成员CC可以是该暗CC的区域中的亮CC，反之亦然。

图8C示出具有两个检测出的TBR的图像，两个检测出的TBR以白线框表示。

下文将更详细地讨论在上述确定过程中所考虑的三个方面的性质。

CC的特征

可以基于CC的特征来检查CC以确定它是否是TBR。CC的特征可以包括例如以下中的至少一项：CC的颜色或灰度均匀性；CC的大小；CC的形状；CC的边界规则度；CC在图像中的位置；CC的平均灰度值；以及CC的灰度值分布。

注意到，TBR的尺寸通常相对较大。因此根据一个实施例，所有CC可以按照大小排序，而TBR可以从最大的n个CC中选择。

还注意到，TBR通常位于图像中显著的位置，而不是图像的边缘区域。因此，根据另一个实施例，位于边缘区域中的CC可以作为非TBR区域被过滤掉。例如，边缘区域可以定义为图像的外环区域，其具有特定的宽度，比如图像宽度的1/m或图像高度的1/m。

根据另一个实施例，由于TBR通常具有规则边界，因此可以在确定TBR时考虑CC的边界规则度。可以通过CC密度（CC在最小外接框中所占的比例）、边界比（边界像素与CC像素的量的比），以及边界对称性（在四个象限中边界的相似性，可以通过四个象限中的密度差来估计），来衡量边界规则度。

根据另一个实施例，可以使用多个特征来区分TBR与高曝光区，因为TBR不应是由高曝光造成的。注意到，高曝光区通常具有较高的平均灰度值，中心的灰度值甚至比平均值更高。因此CC的平均灰度值和灰度值分布可以用于区分TBR和高曝光区。

CC中的成员CC的统计信息

可以基于CC中成员CC的统计信息检查CC以确定它是否是TBR。这里，当前CC的成员CC是位于当前CC的边界内的CC并且具有相对于当前CC的高对比度。成员CC的区域完全在当前CC的边界内。成员CC可以从当前CC的相反通道提取。例如，暗CC的成员CC可以是该暗CC的边界内的亮CC，反之亦然。

成员CC的统计信息可以包括例如以下各项中的至少一个：CC中的成员CC的数量；成员CC中的种子CC数量；CC中成员CC的平均文本置信度；以及CC中成员CC的总面积与CC的面积的比。

这里，种子CC是指很有可能是文本分量的CC。例如，种子CC可以是具有高于预定阈值的文本置信度的CC。为了选择种子CC，可以从CC中提取一组特征以用于计算CC的文本置信度。

作为实例，图8D在白线框中示出一些种子CC。

通常使用的用于种子CC选择的特征可以包括：CC大小、CC宽度/高度比、CC密度（即，CC像素在其最小外接框内的占比）、CC笔划宽度的统计特征、从CC区域提取的纹理特征。在一个实施例中，这些特征可以用作调整文本置信度的规则。在另一个实施例中，可以基于包括文本CC和非文本CC的训练集学习文本分类器。该分类器使用CC的特征作为输入，并且输出CC的文本置信度值。

CC和其它TBR之间的关系

可以基于CC与其它TBR的关系来检查该CC以确定它是否是TBR。根据一个实施例，基于至少一个CC和其它TBR之间的关系来从CC中选择TBR可以包括，如果CC不是任何先前确定的TBR中的成员CC并且与先前确定的TBR不具有相同的成员CC，则将该CC确定为TBR。换言之，TBR通常彼此不重叠或包含。

作为实例，图4示出用于基于CC与其它TBR之间的关系确定CC是否是TBR的过程400。

在框410中，确定当前CC是否是先前确定的TBR的成员CC。如果当前CC是先前确定的TBR的成员CC，则将其标识为不是TBR。否则，过程400前进到框420，确定当前CC是否与先前确定的TBR具有相同的成员CC。如果当前CC与先前确定的TBR没有任何相同的成员CC，则当前CC被标识为TBR。否则，过程400前进到框430，确定当前CC和该先前确定的TBR中的哪一个更有可能是TBR。如果当前CC更有可能是TBR，则将先前确定的TBR从TBR集合中移除（框440）并且当前CC被标识为TBR。否则，当前CC被标识为不是TBR。

在框430中可以存在各种方式来确定哪一个更有可能是TBR。例如，可以使用以上描述的一个或多个准则，比如边界规则度、CC密度、成员CC的平均文本置信度等。

参考回图3，已经从图像中检测出TBR后，过程300前进到框320。在框320，执行CC过滤步骤，基于检测到的TBR对CC进行过滤，以保留至少一个候选文本CC。具体地，可以对除检测出的TBR以外的非TBR CC进行过滤，以移除非文本CC并保留候选文本CC。

注意到文本更有可能出现在TBR内而不是TBR外。因此，TBR可以被用在CC过滤步骤中。特别地，在CC过滤步骤中，对于不在任何TBR边界内的CC（用CC_OR表示）的过滤可以比对于TBR边界内的CC（用CC_IR表示）的过滤更为严格。

例如，用于过滤CC_OR的阈值可以比用于过滤CC_IR的阈值更为严格。作为另一个示例，对CC_OR进行过滤的过滤器可以与用于CC_IR的过滤器不同并且具有更严格的标准。作为再一个示例，CC_OR可以比CC_IR用更多的规则来过滤。

图8D示出了过滤的结果。保留的候选文本CC用白线或黑线绘制的其最小外接框来表示。这里，白线最小外接框表示种子CC，而黑线最小外接框表示非种子CC。与图8B相比，一部分CC已经被滤除，尤其是位于TBR之外的那些。

下面将描述示出执行CC过滤的示例性方式的实施例。

一个具体实施例是对于每个非TBR CC，基于该CC是否位于任何TBR边界内来计算其文本置信度。图5是示出这一实施例的流程图。

在框510中，基于TBR信息来计算每个非TBR CC的文本置信度。在计算中，向CC_IR赋予比CC_OR更高的权重。

在框520中，确定该CC的文本置信度是否高于预定阈值T。如果文本置信度高于该阈值，则该CC被确定为候选文本CC。否则，该CC被确定为非文本CC。

下面提供该实施例的一个具体示例。可以用贝叶斯定理定义当前CC的文本置信度：

P (A | B) = \frac{P (B | A) P (A)}{P (B)}

这里，P(A)是先验概率，P(B|A)是条件概率，并且P(A|B)是后验概率。

考虑CC过滤这一具体情况，A是随机变量，表示特定CC（文本或非文本）。P(A)表示当前CC的文本存在性的先验概率。它可以由TBR确定。CC_IR可以比CC_OR被赋予更高的P(A)。

P(B|A)是文本存在性的条件概率。它描述文本区域应当具备的属性。因此这个值是基于从文本区域自身所提取的文本特征来计算的。P(B)是当前CC的存在概率。当CC固定时，它为常数。

P(A|B)是当前CC的文本置信度。它受到CC本身的文本特征以及与该CC有关的TBR信息二者的影响。P(A|B)值高于预定阈值的CC被保留作为候选文本CC。

在这个示例中，CC_IR的P(A)/P(B)可以被设置为1，而CC_OR的P(A)/P(B)可以被设置为在范围[0,1)内的值。

另一个具体实施例是基于TBR信息，对非TBR CC以若干阶段，比如两个阶段，执行过滤。例如，两个阶段包括粗过滤和细过滤。所有非TBR CC都经历粗过滤，而只有不在任何TBR边界之内的CC才经历细过滤。可以在粗过滤中使用简单的特征，而可以在细过滤中使用更复杂的特征。如此，经历细过滤的CC的量减少，从而该方法的效率将改进。

图6是示出这一实施例的流程图。

在框610中，将非TBR CC分成两组：CC_IR，即，在TBR边界内的CC，和CC_OR，即不在任何TBR边界内的CC。

在框620中，对所有非TBR CC执行第一过滤步骤，比如粗过滤。具体而言，每个非TBR CC被确定为候选文本CC或非文本CC。

可以基于每个非TBR CC的一个或多个第一特征执行第一过滤步骤，以确定该CC是否是候选文本CC。第一特征是从CC提取的并且可以是相对简单的特征，包括但不限于：CC的大小、CC的形状、CC的最小外接框的宽高比、CC密度（CC与其最小外接框的面积比）、CC的周长与面积之比，以及CC的纹理特征。作为实例，文本特征可以包括但不限于：局部二元模式、边缘方向直方图、梯度方向直方图。

第一特征可以用作级联规则或被组合作为特征向量输入到经训练的分类器。级联规则或分类器的阈值可以从文本和非文本样本学习。当级联规则用于过滤时，每个输入的CC可以按照预定义的规则进行检查，并且不满足至少一个规则的CC将被滤除。

在框630中，对每个候选文本CC_OR，即由第一过滤步骤确定为候选文本CC的CC_OR，执行比如细过滤的第二过滤步骤，以进一步确定该候选文本CC_OR是否是候选文本CC。因为CC_OR即使在框620中被确定为候选文本CC，它也倾向于是噪声，因此第二过滤可以进一步去除非文本CC。

在第二过滤步骤中，可以对框620中使用的特征采用更严格的条件，和/或可使用一些其他特征用于过滤。其他特征可包括笔划宽度统计信息（例如，笔划宽度方差与平均笔划宽度之比）和/或边界像素数量与CC像素数量之比。

类似于第一过滤步骤，用于第二过滤的特征可以用作级联规则或被组合作为特征向量输入到经训练的分类器。级联规则或分类器的阈值可以从文本和非文本样本学习。当级联规则用于过滤时，每个输入的CC可以由预定义的规则检查，并且将滤除不满足至少一个规则的CC。

图7示出使用经训练的分类器进行CC过滤的流程图。图7中的方法既可应用于第一过滤步骤，也可应用于第二过滤步骤。在图7中，包括文本和非文本样本在内的训练样本被用来训练分类器。并且CC通过经训练的分类器被分类以得到候选文本CC。被提取用于训练和分类的特征可以是上面针对第一过滤和第二过滤所讨论的那些特征。未对该流程图的进一步细节进行描述，以避免不必要地模糊本发明的主旨。

返回图3。在基于TBR得到候选文本CC之后，过程300前进到框330。在框330，执行CC组合步骤以组合该至少一个候选文本CC并得到文本区域。

通常，候选文本CC可以被组合为文本行/单词，并且基于这些文本行/单词的最小外接框来形成文本区域。

在CC组合步骤中可以使用各种方法，包括但不限于聚类、种子生长等等。在一个特定实施例中，其中心在一条线上或接近一条线的候选文本CC通过霍夫变换被组合在一起。在一个实施例中，其中没有种子CC的CC组可以被视为噪声并且被直接去除。进一步地，其中具有种子CC的CC组可以基于种子CC被提纯。具体而言，其性质大大偏离种子CC的非种子CC可以从该组中被移除。然后，利用组级别的特征对CC组进行过滤，组级别的特征诸如CC数量、大小一致性、间隙一致性、以及平均文本置信值。最后，基于CC组的最小外接框生成文本区域。

图8E示出将候选文本CC组合为文本行/单词的结果，其中属于相同字符串的CC使用白线连接。

图8F示出基于文本行/单词的最小外接框形成文本区域的结果。最终检测出的文本区域由白线框指示。

然而，所描述的特定组合方法仅仅是示意性的，并且本发明不限于此。而是，任何现有的或待开发的组合方法都可以用于组合候选文本CC以得到文本区域。

现在将参考图9说明用于根据本发明的实施例的用于检测图像中的文本区域的文本检测装置900的框图。装置900可以用于实现参考图3-7描述的方法。为了简洁，在此省略与参考图3-7所描述的细节相似的一些细节。然而，应意识到这些细节也可适用于装置900。

如图9所示，文本检测装置900可包括文本背景区域（TBR）检测单元910、CC过滤单元920和CC组合单元930，其中，TBR检测单元910被配置为从输入图像中检测至少一个TBR，CC过滤单元920被配置为基于检测到的TBR对至少一个CC进行过滤以保留至少一个候选文本CC，CC组合单元930被配置为组合该至少一个候选文本CC以得到文本区域。

根据一个实施例，在CC过滤单元920中，对于不在任何TBR边界内的CC的过滤可以比在TBR边界内的CC的过滤更严格。

如图10所示，根据一个实施例，CC过滤单元920可以包括计算单元1010和确定单元1020，其中，计算单元1010被配置为计算所述至少一个CC中除TBR以外的每一个CC的文本置信度，并且在计算中，向位于任何TBR边界内的CC赋予比其它CC更高的权重；确定单元1020被配置为将文本置信度高于预定义阈值的CC确定为候选文本CC。

如图11所示，根据一个另选实施例，CC过滤单元920可以包括：标识单元1102，被配置为对于所述至少一个CC中除TBR以外的每一个CC，响应于该CC位于任何TBR的边界内，将其标识为第一CC，否则将其标识为第二CC；第一过滤单元1104，被配置为对于第一CC和第二CC中的每个CC执行第一过滤步骤，以确定该CC是否为候选文本CC；以及第二过滤单元1106，被配置为对于被第一过滤步骤确定为候选文本CC的每个第二CC，执行第二过滤步骤以进一步确定该第二CC是否为候选文本CC。

根据一个实施例，第一过滤单元1104可被进一步配置为：基于CC的一个或多个第一特征执行第一过滤步骤，以确定该CC是否为候选文本CC。

根据一个实施例，第二过滤单元1106可被进一步配置为：基于CC的一个或多个第二特征执行第二过滤步骤，以进一步确定该CC是否为候选文本CC。

根据本发明的文本检测方法和装置具有多种用途。例如，其可以用于从照相机拍摄的图像或视频中自动提取文本信息。

图12示出根据本发明的实施例的文本信息提取方法。

如图12中所示，在框1210中，使用根据参考图3-7描述的文本检测方法的文本检测方法检测来自输入图像或输入视频的文本区域。

在框1220中，可以从检测出的文本区域提取文本。根据一个实施例，当从输入视频中检测文本区域时，输入视频中的文本可以被跟踪，如框1240中所示。

在框1230中，可以对提取的文本执行文本识别以获取文本信息。

现在参考图13说明根据本发明的实施例的文本信息提取系统1300的框图。系统1300可以用于实现参考图12描述的方法。

如图13中所示，系统1300可以包括文本检测装置1310、提取装置1320，和识别装置1330，其中文本检测装置1310被配置用于从输入图像或输入视频中检测文本区域并且可以与参考图9描述的装置910相同；提取装置1320被配置用于从检测出的文本区域提取文本；并且识别装置1330被配置用于识别所提取的文本以获取文本信息。

可选地，系统1300可以进一步包括跟踪装置1340。当文本检测装置1310被配置为从输入视频中检测文本区域时，跟踪装置1340被配置为跟踪输入视频中的文本。

将意识到，关于图9-11和图13描述的单元和装置是示例性的和/或优选的模块以用于实现各种步骤。这些模块可以是硬件单元（比如处理器、专用集成电路等）和/或软件模块（比如计算机程序）。用于实现各种步骤的模块未在以上穷尽地描述。然而，当存在执行特定处理的步骤时，可能存在对应的功能性模块或单元（由硬件和/或软件实现）用于实现该处理。以上和以下描述的所有步骤组合和对应于这些步骤的单元的技术方案包括在本申请的公开范围中，只要它们构成的技术方案是完整的并且可应用的。

此外，构成各种单元的以上装置和系统可以包括在比如计算机的硬件设备中作为功能性模块。当然，该计算机除了这些功能性模块之外具有其他硬件或软件组件。

可以通过许多方式来实施本发明的方法、装置和系统。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和装置。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其他方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解，上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种文本检测方法，用于检测具有至少一个连通体的图像中的文本区域，所述方法包括：

文本背景区域检测步骤，用于从所述图像中检测至少一个文本背景区域；

连通体过滤步骤，用于基于检测到的文本背景区域对所述至少一个连通体进行过滤，以保留至少一个候选文本连通体；和

连通体组合步骤，用于将所述至少一个候选文本连通体进行组合以得到文本区域。

2.如权利要求1所述的方法，其中，文本背景区域是图像中的文本周围的区域，并且具有规则的边界以及均匀的颜色或灰度。

3.如权利要求1或2所述的方法，其中文本背景区域检测步骤包括基于以下至少之一从所述至少一个连通体中选择文本背景区域：

所述至少一个连通体的特征；

所述至少一个连通体内的成员连通体的统计信息，其中成员连通体是位于所述至少一个连通体的边界内、且相对于所述至少一个连通体具有高对比度的连通体；和

所述至少一个连通体与其它文本背景区域之间的关系。

4.如权利要求3所述的方法，其中所述至少一个连通体的特征包括以下至少一项：连通体的颜色或灰度均匀性、连通体的大小、连通体的形状、连通体的边界规则度、连通体在图像中的位置、连通体的平均灰度值、和连通体的灰度值分布。

5.如权利要求3所述的方法，其中，所述成员连通体的统计信息包括以下至少一项：

所述连通体内的成员连通体的数量；

所述成员连通体中文本置信度高于第一预定义阈值的种子连通体的数量；

所述连通体内的成员连通体的平均文本置信度；和

所述连通体内的成员连通体的总面积与所述连通体的面积之比。

6.如权利要求3所述的方法，其中，基于所述至少一个连通体与其它文本背景区域之间的关系来从所述至少一个连通体中选择文本背景区域包括：

响应于连通体不是先前已确定的文本背景区域内的成员连通体并且与该先前已确定的文本背景区域不包含相同的成员连通体，将该连通体确定为文本背景区域。

7.如权利要求1或2所述的方法，其中，在连通体过滤步骤中，对不处于任何文本背景区域的边界内的连通体的过滤比对处于文本背景区域的边界内的连通体的过滤更为严格。

8.如权利要求1所述的方法，其中，连通体过滤步骤包括：

计算所述至少一个连通体中除文本背景区域以外的每一个连通体的文本置信度，其中，在计算文本置信度时，对位于任何文本背景区域的边界内的连通体赋予比其它连通体更高的权重；以及

将文本置信度高于第二预定义阈值的连通体确定为候选文本连通体。

9.如权利要求1所述的方法，其中，连通体过滤步骤包括：

对于所述至少一个连通体中除文本背景区域以外的每一个连通体，响应于该连通体位于任何文本背景区域的边界内，将其标识为第一连通体，否则，将其标识为第二连通体；

对于第一连通体和第二连通体中的每个连通体执行第一过滤步骤，以确定该连通体是否为候选文本连通体；以及

对于被第一过滤步骤确定为候选文本连通体的每个第二连通体执行第二过滤步骤，以进一步确定该第二连通体是否为候选文本连通体。

10.如权利要求9所述的方法，其中，对于第一连通体和第二连通体中的每个连通体执行第一过滤步骤包括：

基于该连通体的一个或多个第一特征执行第一过滤步骤，以确定该连通体是否为候选文本连通体。

11.如权利要求9所述的方法，其中，对于被第一过滤步骤确定为候选文本连通体的每个第二连通体执行第二过滤步骤包括：

基于该第二连通体的一个或多个第二特征执行第二过滤步骤，以进一步确定该第二连通体是否为候选文本连通体。

12.如权利要求10所述的方法，其中，第一特征包括以下至少之一：连通体的大小、连通体的形状、连通体的最小外接框的宽高比、连通体与其最小外接框的面积比、连通体的周长与面积之比、和连通体的纹理特征。

13.如权利要求11所述的方法，其中，第二特征包括以下至少之一：笔划宽度统计信息、和连通体边界的像素数与该连通体的像素数之比。

14.如权利要求12所述的方法，其中纹理特征包括以下至少之一：局部二元模式、边缘方向直方图、和梯度方向直方图。

15.如权利要求10所述的方法，其中，在所述第一过滤步骤中，各个第一特征被级联使用，或者组合作为特征向量输入到经训练的分类器中。

16.如权利要求11所述的方法，其中，在所述第二过滤步骤中，各个第二特征被级联使用，或者组合作为特征向量输入到经训练的分类器中。

17.一种文本检测装置，用于检测具有至少一个连通体的图像中的文本区域，所述装置包括：

文本背景区域检测单元，被配置为从所述图像中检测至少一个文本背景区域；

连通体过滤单元，被配置为基于检测到的文本背景区域对所述至少一个连通体进行过滤，以保留至少一个候选文本连通体；和

连通体组合单元，被配置为将所述至少一个候选文本连通体进行组合以得到文本区域。

18.如权利要求17所述的装置，其中，文本背景区域是图像中的文本周围的区域，并且具有规则的边界以及均匀的颜色或灰度。

19.如权利要求17或18所述的装置，其中文本背景区域检测单元基于以下至少之一从所述至少一个连通体中选择文本背景区域：

所述至少一个连通体的特征；

所述至少一个连通体与其它文本背景区域之间的关系。

20.如权利要求19所述的装置，其中所述至少一个连通体的特征包括以下至少一项：连通体的颜色或灰度均匀性、连通体的大小、连通体的形状、连通体的边界规则度、连通体在图像中的位置、连通体的平均灰度值、和连通体的灰度值分布。

21.如权利要求19所述的装置，其中，所述成员连通体的统计信息包括以下至少一项：

所述连通体内的成员连通体的数量；

所述连通体内的成员连通体的平均文本置信度；和

22.如权利要求19所述的装置，其中，基于所述至少一个连通体与其它文本背景区域之间的关系来从所述至少一个连通体中选择文本背景区域包括：

23.如权利要求17或18所述的装置，其中，在连通体过滤单元中，对不处于任何文本背景区域边界内的连通体的过滤比对处于文本背景区域边界内的连通体的过滤更为严格。

24.如权利要求17所述的装置，其中，连通体过滤单元包括：

计算单元，被配置为计算所述至少一个连通体中除文本背景区域以外的每一个连通体的文本置信度，其中，在计算文本置信度时，对位于任何文本背景区域的边界内的连通体赋予比其它连通体更高的权重；以及

确定单元，被配置为将文本置信度高于第二预定义阈值的连通体确定为候选文本连通体。

25.如权利要求17所述的装置，其中，连通体过滤单元包括：

标识单元，被配置为对于所述至少一个连通体中除文本背景区域以外的每一个连通体，响应于该连通体位于任何文本背景区域的边界内，将其标识为第一连通体，否则，将其标识为第二连通体；

第一过滤单元，被配置为对于第一连通体和第二连通体中的每个连通体执行第一过滤步骤，以确定该连通体是否为候选文本连通体；以及

第二过滤单元，被配置为对于被第一过滤单元确定为候选文本连通体的每个第二连通体执行第二过滤步骤，以进一步确定该第二连通体是否为候选文本连通体。

26.如权利要求25所述的装置，其中，第一过滤单元还被配置为：

27.如权利要求25所述的装置，其中，第二过滤单元还被配置为：

基于每个第二连通体的一个或多个第二特征执行第二过滤步骤，以进一步确定该第二连通体是否为候选文本连通体。

28.如权利要求26所述的装置，其中，第一特征包括以下至少之一：连通体的大小、连通体的形状、连通体的最小外接框的宽高比、连通体与其最小外接框的面积比、连通体的周长与面积之比、和连通体的纹理特征。

29.如权利要求27所述的装置，其中，第二特征包括以下至少之一：笔划宽度统计信息、和连通体边界的像素数与该连通体的像素数之比。

30.如权利要求28所述的装置，其中纹理特征包括以下至少之一：局部二元模式、边缘方向直方图、梯度方向直方图。

31.如权利要求26所述的装置，其中，在所述第一过滤步骤中，各个第一特征被级联使用，或者组合作为特征向量输入到经训练的分类器中。

32.如权利要求27所述的装置，其中，在所述第二过滤步骤中，各个第二特征被级联使用，或者组合作为特征向量输入到经训练的分类器中。

33.一种文本信息提取方法，包括：

使用如权利要求1－16中任一项所述的文本检测方法检测输入图像或输入视频中的文本区域；

从所检测到的文本区域中提取文本；以及

识别所提取的文本以得到文本信息。

34.如权利要求33所述的方法，还包括：当检测输入视频中的文本区域时，跟踪所述输入视频中的文本。

35.一种文本信息提取系统，包括：

如权利要求17－32中任一项所述的文本检测装置，被配置为检测输入图像或输入视频中的文本区域；

提取装置，被配置为从所检测到的文本区域中提取文本；以及

识别装置，被配置为识别所提取的文本以得到文本信息。

36.如权利要求35所述的系统，其中，所述系统还包括跟踪装置，其被配置为当文本检测装置被配置为检测输入视频中的文本区域时，跟踪所述输入视频中的文本。