CN104182744B

CN104182744B - 文本检测方法和装置以及文本信息提取方法和系统

Info

Publication number: CN104182744B
Application number: CN201310196315.3A
Authority: CN
Inventors: 麻文华; 罗兆海
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-05-24
Filing date: 2013-05-24
Publication date: 2018-09-04
Anticipated expiration: 2033-05-24
Also published as: CN104182744A

Abstract

本发明涉及一种文本检测方法和装置以及文本信息提取方法和系统。提供了一种用于检测包括至少一个连通体（CC）的图像中的文本区域的方法。该方法包括：文本背景区域检测（TBR）步骤，用于从所述图像中检测至少一个TBR；CC过滤步骤，用于对所述至少一个CC进行过滤以保留至少一个候选文本CC；和CC组合步骤，用于基于TBR检测步骤中检测出的TBR，组合所述至少一个候选文本CC以形成至少一个CC组，并且基于所述至少一个CC组生成至少一个文本区域。根据本发明的方法可以快速地和/或精确地指出图像中的文本位置，从而改进文本检测的性能。

Description

文本检测方法和装置以及文本信息提取方法和系统

技术领域

本公开涉及文本检测，更具体地说，本公开涉及文本检测方法和装置以及文本信息提取方法和系统。

背景技术

检测图像中的文本，尤其是自然图像中的文本，对于一些计算机视觉应用，比如对于视觉受损人员和外国人的计算机辅助、图像和视频的自动检索，以及都市环境中的机器导航来说至关重要。

但是，自然场景中的文本检测是个困难的主题。与打印的页面、传真、名片的扫描不同，主要的挑战在于文本的多样性：字体、字号、斜角、由于倾斜造成的失真等。比如不均匀的照明和反光、较差光照条件以及复杂的背景之类的环境因素增加了更多复杂情况。

在相关文献中，用于检测自然场景中的文本区域的文本检测方法通常遵循图1所示出的流程。图1中的方法100开始于框110，从图像生成分量。这里，分量例如可以是连通体（CC），连通体是具有相似颜色或灰度或笔划宽度的像素集合。

然后，在框120，从每个分量提取各种特征，并且基于这些特征滤除非文本分量，留下候选文本分量。

然后，在框130，留下的候选文本分量被组合在一起以形成文本行或单词，并且按照文本行或单词的最小外接框（包含文本的最小多边形，例如矩形）输出文本区域。

现有技术的一个普遍问题是它们试图仅通过文本区域的特征，比如边缘、角、笔划、颜色和纹理，来检测文本。但是忽略了文本周围的上下文信息，而上下文信息在大多数情况下可能是有帮助的。结果，现有技术由于复杂的非文本区域而出现误检，并且由于自然场景中文本的较大差异性而出现漏检。

因此，需要一种改进的利用文本区域周围的上下文信息在图像中进行文本检测的方式。

一篇已发表论文“Scenery character detection with environmentalcontext”，作者Yasuhiro Kunishige,Feng Yaokai,Seiichi Uchida，发表于International Conference on Document Analysis and Recognition(ICDAR),pp1049–1053,2011，提出了一种使用上下文信息的理念的文本检测方法。具体而言，该篇论文从目标分量的扩展区域提取上下文特征，其中扩展区域是通过在目标分量周围增加10个像素的裕量而形成的。此外，该方法将分量分类到六种场景分量类别之一中：“天空”、“绿地”、“招牌”、“地面”、“建筑物”和“其它”。此方法的一个问题是，比如“天空”、“绿地”的普通类别与文本检测无关，而“招牌”不覆盖文本背景区域的所有种类，比如标志、标签、名册、海报等。此方法的另一问题是，上下文信息是从具有固定大小的裕量区域中提取的，这无法适应场景变化。另一问题是，此方法不能获得CC在空间中的关系，例如，哪些CC属于一个招牌，而这种信息在CC组合中是有价值的。

发明内容

需要解决以上问题中的至少一个。

发明人发现，为了易于被看到，自然场景中的大多数文本被印在与文本形成高对比度的相对均匀的背景区域上。这可以有助于文本检测。

因此，在本公开中提出了一种新的文本检测方法和装置，以改进图像中的文本检测的性能，尤其是自然场景图像中文本检测的性能。在本公开中引入一个新的概念，即文本背景区域（TBR），以定义文本周围的此典型背景区域。在自然场景图像中，TBR通常作为招牌、标志、标签、名册、海报等存在，但是不限于这些形式。不是直接寻找文本区域，而是通过首先寻找TBR并且将分量分类为TBR内的分量和所有TBR外即外部区域（OR）中的分量，来搜索文本。假设比起TBR外部，文本更有可能出现在TBR中。并且一个文本行/单词很少跨越两个区域（两个TBR或TBR和OR）。基于该假设，可以在连通体过滤和/或连通体组合中使用TBR信息。

根据本发明的第一方面，提供了一种用于检测包括至少一个连通体（CC）的图像中的文本区域的方法。该方法包括：文本背景区域（TBR）检测步骤，用于从图像中检测至少一个TBR；CC过滤步骤，用于过滤该至少一个CC以保留至少一个候选文本CC；以及连通体组合步骤，用于基于TBR检测步骤中检测出的TBR，组合该至少一个候选文本CC以形成至少一个CC组，并且基于该至少一个CC组生成至少一个文本区域。

根据本发明的第二方面，提供了一种用于检测包括至少一个连通体（CC）的图像中的文本区域的文本检测装置。该装置包括：文本背景区域（TBR）检测单元，被配置为从该图像中检测TBR；CC过滤单元，被配置为过滤该至少一个CC以保留至少一个候选文本CC；CC组合单元，被配置为基于TBR检测单元中检测出的TBR，组合该至少一个候选文本CC以形成至少一个CC组，并且基于该至少一个CC组生成至少一个文本区域。

根据本发明的第三方面，提供了一种文本信息提取方法。该方法包括：使用根据本发明的第一方面的文本检测方法检测来自输入图像或输入视频的文本区域；从所检测到的文本区域提取文本；以及识别所提取的文本以得到文本信息。

根据本发明的第四方面，提供了一种文本信息提取系统。该系统包括：根据本发明的第二方面的文本检测装置，被配置用于检测来自输入图像或输入视频的文本区域；被配置用于从所检测到的文本区域提取文本的提取装置；以及被配置用于识别所提取的文本以获得文本信息的识别装置。

通过利用这些特征，根据本发明的方法、装置和系统可以快速地和/或准确地指出图像中的文本位置，从而改进文本检测的性能。

本发明的进一步的特征和优点将通过参考附图的以下描述而明确。

附图说明

并入说明书并且构成说明书的一部分的附图图示了本发明的实施例，并且与描述一起用于说明本发明的原理。

图1是示出用于检测图像中的文本区域的现有技术方法的流程图。

图2是示出能够执行本发明的实施例的计算机系统的示例性硬件配置的框图。

图3是示出根据本发明的实施例的用于检测图像中的文本区域的文本检测方法的流程图。

图4示出根据本发明的实施例的用于基于CC和其它TBR之间的关系确定CC是否是一个TBR的示例性过程。

图5是示出根据本发明的实施例的图3中的CC过滤步骤的流程图。

图6示出用于执行图3的CC组合步骤的示例性流程图。

图7示出用于执行图6的组合步骤的示例性流程图。

图8A-8F是指示使用根据本发明的文本检测方法的各个处理结果的示例性图像。

图9示出说明根据本发明的实施例的用于检测图像中的文本区域的文本检测装置的框图。

图10示出说明根据本发明的实施例的图9中的CC组合单元的框图。

图11示出说明根据本发明的实施例的图10中的组合单元的框图。

图12是示出根据本发明的实施例的文本信息提取方法的流程图。

图13是示出根据本发明的实施例的文本信息提取系统的框图。

具体实施方式

以下将参考附图描述本发明的实施例。被包括到说明书中构成说明书一部分的附图示出了本发明的实施例并且与描述部分一起用于解释本发明的原理。

请注意，类似的参考数字和字母指的是图中的类似的项目，因而一旦在一幅图中定义了一个项目，就不需要在之后的图中讨论了。

还请注意，在本发明中，术语“第一”、“第二”等仅用于区分元件或步骤，而不旨在指示时间顺序、偏好或重要性。

图2是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。

如图2中所示，计算机系统包括计算机1110。例如，计算机1110可以是数字照相机或智能电话。计算机1100包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM（只读存储器）1131和RAM（随机存取存储器）1132。BIOS（基本输入输出系统）1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如闪存驱动器1151和CD-ROM驱动器1155之类的一个或多个可移动非易失性存储器驱动器连接到可移动非易失性存储器接口1150。例如，诸如SD卡的闪存1152可以被插入到闪存驱动器1151中，以及CD（压缩盘）1156可以被插入到CD-ROM驱动器1155中。要处理的图像可以存储在非易失性存储器中。

诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以经由局域网1171连接到远程计算机1180。或者，网络接口1170可以连接到调制解调器（调制器－解调器）1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191，该监视器可以用于显示根据本发明的实施例的一个或多个处理结果。

输出外围接口1195连接到打印机1196和扬声器1197。

图2所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。

图2所示的计算机系统可以被实施于任何实施例，可作为独立计算机，或者也可作为设备中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

图3是示出根据本发明的实施例的用于检测图像中的文本区域的文本检测方法300的流程图。还将参考图8A-8F进行描述以示出使用根据本发明的文本检测方法的处理结果。

根据一个实施例，图像包括至少一个连通体（CC）。CC是具有相似的颜色或灰度值的像素群。一个群中的像素可以在空间中以4邻域方式或8邻域方式相连。CC可以在TBR检测步骤之前通过例如颜色聚类、自适应二值化、形态学处理等从图像生成。在其中一个实施例中，CC可以基于MSER方法从灰度图像生成，MSER方法在J.Matas,O.Chum,M.Urban,和T.Pajdla的“Robust wide baseline stereo from maximally stable extremalregions”,Proc.of British Machine Vision Conference,pp.384-396,2002中描述，该篇文献通过引用被包括在此。在一个实施例中，为了检测暗背景上的亮文本以及亮背景上的暗文本，CC生成可以应用于两个通道，一个通道用于原始图像，另一个用于反色图像。但是这不是必须的。

作为一个例子，图8A和图8B分别示出一幅灰度图像和该图像中生成的CC。在图8B中，每个黑线框指示一个CC，即，黑线框是CC的最小外接框（包含该CC的最小四边形）。

在框310中，执行文本背景区域（TBR）检测步骤以从输入图像检测至少一个TBR。

根据一个实施例，TBR检测步骤可以基于该图像中包括的CC来执行。TBR可以是具有特殊性质的一种CC。根据一个实施例，TBR可以是该图像中文本的周围区域，具有规则的边界和均匀的颜色或灰度。在自然场景图像中，TBR通常作为招牌、标志、标签、名册、海报等存在，但是不限于这些形式。

根据一个实施例，TBR可以从图像中包含的CC中选择。可以检查每个CC以确定它是否是TBR。在进行确定时可以考虑三个方面的性质：该CC的特征、该CC中的成员CC的统计特征，以及该CC和其它TBR之间的关系。这些方面可以单独地或以任何组合地使用以用于TBR检测。这里，当前CC中的成员CC是位于当前CC的边界内的CC并且具有与当前CC的高对比度。成员CC可以从当前CC的相反通道提取。例如，暗CC的成员CC可以是该暗CC的区域中的亮CC，反之亦然。

图8C示出具有两个检测出的TBR的图像，两个检测出的TBR以白线框表示。

CC的特征

可以基于CC的特征来检查CC以确定它是否是TBR。CC的特征可以包括例如以下中的至少一项：CC的颜色或灰度均匀性；CC的大小；CC的形状；CC的边界规则度；CC在图像中的位置；CC的平均灰度值；以及CC的灰度值分布。

注意到，TBR的尺寸通常相对较大。因此根据一个实施例，所有CC可以按照大小排序，而TBR可以从最大的前n个CC中选择。

还注意到，TBR通常位于图像中显著的位置，而不是图像的边缘区域。因此，根据另一个实施例，位于边缘区域中的CC可以作为非TBR区域被过滤掉。例如，边缘区域可以定义为图像的外环区域，其具有特定的宽度，比如图像宽度的1/m或图像高度的1/m。

根据另一个实施例，由于TBR通常具有规则边界，因此可以在确定TBR时考虑CC的边界规则度。可以通过CC密度（CC在最小外接框中所占的比例）、边界比（边界像素与CC像素的量的比），以及边界对称性（在四个象限中边界的相似性，可以通过四个象限中的密度差来估计），来衡量边界规则度。

根据另一个实施例，可以使用多个特征来区分TBR与高曝光区，因为TBR不应是由高曝光造成的。注意到，高曝光通常具有较高的平均灰度值，中心的灰度值甚至比平均值更高。因此CC的平均灰度值和灰度值分布可以用于区分TBR和高曝光区。

CC中的成员CC的统计信息

可以基于CC中成员CC的统计信息检查CC以确定它是否是TBR。这里，当前CC的成员CC是位于当前CC的边界内的CC并且具有相对于当前CC的高对比度。成员CC的区域完全在当前CC的边界内。成员CC可以从当前CC的相反通道提取。例如，暗CC的成员CC可以是该暗CC的边界内的亮CC，反之亦然。

成员CC的统计信息可以包括例如以下各项中的至少一个：CC中的成员CC的数量；成员CC中的种子CC数量；CC中成员CC的平均文本置信度；以及CC中成员CC的总面积与CC的面积的比。

为了说明，CC中的成员CC的数量优选地高于一阈值。

成员CC之中的种子CC的数量优选地高于一阈值。这里，种子CC是指很有可能是文本分量的CC。例如，种子CC可以是具有高于预定阈值的文本置信度的CC。为了选择种子CC，可以从CC中提取一组特征以用于计算CC的文本置信度。

作为实例，图8D在白线框中示出一些种子CC。

通常使用的用于种子CC选择的特征可以包括：CC大小、CC宽度/高度比、CC密度（即，CC像素在其最小外接框内的占比）、CC笔划宽度的统计特征、从CC区域提取的纹理特征。在一个实施例中，这些特征可以用作调整文本置信度的规则。在另一个实施例中，可以基于包括文本CC和非文本CC的训练集学习文本分类器。该分类器使用CC的特征作为输入，并且输出CC的文本置信度值。

CC和其它TBR之间的关系

可以基于CC与其它TBR的关系来检查该CC以确定它是否是TBR。根据一个实施例，基于至少一个CC和其它TBR之间的关系来从CC中选择TBR可以包括，如果CC不是任何先前确定的TBR中的成员CC并且与先前确定的TBR不具有相同的成员CC，则将该CC确定为TBR。换言之，TBR通常彼此不重叠或包含。

作为实例，图4示出用于基于CC和其它TBR之间的关系确定CC是否是TBR的过程400。

在框410中，确定当前CC是否是先前确定的TBR的成员CC。如果当前CC是先前确定的TBR的成员CC，则将其标识为不是TBR。否则，过程400前进到框420，确定当前CC是否与先前确定的TBR具有相同的成员CC。如果当前CC与先前确定的TBR没有任何相同的成员CC，则当前CC被标识为TBR。否则，过程400前进到框430，确定当前CC和该先前确定的TBR中的哪一个更有可能是TBR。如果当前CC更有可能是TBR，则将先前确定的TBR从TBR集合中移除（框440）并且当前CC被标识为TBR。否则，当前CC被标识为不是TBR。

在框430中可以存在各种方式来确定哪一个更有可能是TBR。例如，可以使用以上描述的一个或多个准则，比如边界规则度、CC密度、成员CC的平均文本置信度等。

参考回图3，已经从图像中检测出TBR后，过程300前进到框320。在框320，执行CC过滤步骤以过滤至少一个CC，以保留至少一个候选文本CC。

具体而言并且优选地，在从CC选择TBR之后，剩下的CC是非TBR CC，包括候选文本CC和非文本CC。在此步骤之后，候选文本CC被保留，而非文本CC被去除。

根据一个实施例，使用TBR信息过滤CC。优选地，TBR边界内的CC和不在任何TBR边界内的CC都基于相同的规则过滤。例如，TBR边界内的CC和不在任何TBR边界内的CC基于以下各项中的至少一项被过滤：CC的大小、CC的形状；CC的最小外接框的宽高比；CC和其最小外接框的面积比；CC的周长和面积的比；以及CC的纹理特征。

优选地，当过滤CC时，CC的大小可以基于经验值在预先确定的范围内选择。CC的最小外接框的宽高比可以被选为小于预定阈值，因为文本CC的宽高比通常不会太大。CC和其最小外接框的面积比不应该太低并且应该被选为高于根据经验值的预定阈值。CC的周长和面积比可以低于预定阈值。这是为了去除噪声CC，因为噪声CC的周长和面积比通常相对较大。从CC提取的纹理特征，比如小波、Gabor、LBP，可以用于计算文本置信度并因此可以在过滤CC时包括进来。

注意到文本更有可能出现在TBR中而不是TBR外。因此根据另一个实施例，可以在过滤CC时使用TBR信息以便进一步改进过滤的效率和精度。

具体而言，例如，在CC过滤步骤中，对于不在任何TBR边界内的CC的过滤可以比对于在TBR边界内的CC的过滤更严格。例如，相比于在TBR边界内的CC，可以通过更多规则过滤不在任何TBR边界内的CC。

这是由于，被确定为不在任何TBR边界内的CC具有相对较低的计算出的文本置信度并且因此倾向于是噪声。因此可以执行细过滤以去除非文本CC。

优选地，可以进一步基于笔划宽度统计信息和/或CC的边界像素数量与CC的像素数量的比来过滤不在任何TBR边界内的CC。例如，笔划宽度统计信息可以包括笔划宽度的变化和平均笔划宽度的比。

作为实例，图5是示出根据本发明的实施例的CC过滤步骤的流程图。

在图5中，基于TBR信息以若干阶段，比如两个阶段，执行过滤。例如，两个阶段包括粗过滤和细过滤。所有非TBR CC都经历粗过滤，而仅仅不在任何TBR边界内的CC可经历细过滤。可以在粗过滤中使用简单的特征，而可以在细过滤中使用更复杂的特征。因此，对于不在任何TBR边界内的CC的过滤比对于TBR边界内的CC的过滤严格。如此，经历细过滤的CC的量减少，从而该方法的效率将改进。

在框510中，将非TBR CC分成两组：CC_IR，即，在TBR边界内的CC，和CC_OR，即不在任何TBR边界内的CC。

在框520中，对所有非TBR CC执行第一过滤步骤，比如粗过滤。具体而言，每个非TBR CC被确定为候选文本CC或非文本CC。

可以基于每个非TBR CC的一个或多个第一特征执行第一过滤步骤，以确定该CC是否是候选文本CC。第一特征是从CC提取的并且可以是相对简单的特征，包括但不限于：CC的大小、CC的形状、CC的最小外接框的宽高比、CC密度（CC与其最小外接框的面积比）、CC的周长与面积之比，以及CC的纹理特征。作为实例，文本特征可以包括但不限于：局部二元模式、边缘方向直方图、梯度方向直方图。

第一特征可以用作级联规则或被组合作为特征向量输入到经训练的分类器。级联规则或分类器的阈值可以从文本和非文本样本学习。当级联规则用于过滤时，每个输入CC可以按照预定义的规则进行检查，并且不满足规则中的至少一个的CC将被滤除。

在框530中，对每个候选文本CC_OR，即由第一过滤步骤确定为候选文本CC的CC_OR，执行比如细过滤的第二过滤步骤，以进一步确定候选文本CC_OR是否是候选文本CC。因为CC_OR即使在框520中被确定为候选文本CC，也倾向于是噪声，因此第二过滤可以进一步去除非文本CC。

在第二过滤步骤中，可以对框520中使用的特征采用更严格的条件，和/或可使用一些其他特征用于过滤。其他特征可包括笔划宽度统计信息（例如，笔划宽度变化与平均笔划宽度的比）和/或边界像素数量与CC像素数量的比。

类似于第一过滤步骤，用于第二过滤的特征可以用作级联规则或被组合作为特征向量输入到经训练的分类器。级联规则或分类器的阈值可以从文本和非文本样本学习。当级联规则用于过滤时，每个输入的CC可以由预定规则检查，并且将滤除不满足规则中的至少一个的CC。

返回参见图3，在获得候选文本CC之后，过程300前进到框330。在框330，执行CC组合步骤以基于在TBR检测步骤中检测的TBR组合该至少一个候选文本CC，以形成至少一个CC组，并且基于该至少一个CC组生成至少一个文本区域。

用于执行CC组合步骤330的示例性流程图示于图6中。如图6中所示，CC组合步骤330可以包括步骤610-630。

CC组合步骤的输入是候选文本CC。

在步骤610中，候选文本CC被分配到各个文本背景区域中。不能分配到TBR中的候选文本CC被分配到外部区域中。

步骤610类似于如图5的框510中示出的步骤。因此省略对于步骤610的描述。应注意，如果在步骤310中没有检测到TBR，则所有CC都在外部区域中。在分配候选文本CC之后，流程前进到步骤620.

在步骤620，每个TBR和外部区域中的CC分别被组合以形成CC组。

在此步骤中，一个区域中的CC是基于它们的空间关系和外观相似度而被组合的。在图7中示出了用于执行图6的组合步骤620的示例性流程图。

如图7中所示，组合步骤620可以包括步骤6201-6203。

在步骤6201中，每个TBR和外部区域中的CC被划分为暗区域中的亮CC集合和亮区域中的暗CC集合。

在步骤6202中，分别在该亮CC集合和该暗CC集合内生成CC组。

根据优选实施例，通过CC聚类生成CC组。CC聚类使用以下限制条件中的一个或多个：符合特定方向的CC中心的排列；CC大小的相似度；CC形状的相似度；CC颜色或灰度的相似度；CC笔划宽度的相似度；和CC之间的距离。

根据另一实施例，CC组首先通过霍夫变换生成。作为霍夫变换的结果，中心在一条线上的CC被组合在一起。然后，使用以上限制条件过滤所生成的CC组中包含的CC。

在步骤6203中，在亮CC和暗CC在步骤6202中被分别组合之后，该亮CC集合和该暗CC集合基于它们的空间关系和/或外观相似度被结合。

在步骤6203中通常使用的用于结合CC组的特征包括例如：两个特定组的最小外接框的重叠比例、大小相似度（大小差异优选地小于两个组的高度最大值），以及行方向相似度（方向差异优选小于30度）。在实践中可以使用以上特征中的一个或任何组合。

在完成步骤6203之后，分别形成了每个TBR和外部区域中的CC组。流程前进到图6中的步骤630。

在步骤630中，来自每个TBR和外部区域中不同区域的CC组被结合以生成文本区域。

在此步骤中，来自不同区域的CC组基于以下中的至少一项被结合：行方向的一致性；CC的平均大小的相似度；CC的平均笔划宽度的相似度；和CC的平均颜色或灰度的相似度。

优选地，用于结合来自不同区域的CC组的规则可以比用于组合来自一个区域的CC组的规则严格。由于来自不同区域的CC组不彼此重叠，可不使用最小外接框的重叠比。

CC组合步骤330在步骤630完成时完成。

图8E示出CC组合步骤330的结果。可从图8E中看出，候选文本CC已经被组合为文本行/单词，其中属于相同字符串的CC使用白线连接。

文本检测方法300在CC组合步骤330完成时结束。

图8F示出文本检测方法300的结果。可以看出已经从输入图像检测出基于文本行/单词的最小外接框的文本区域。最终检测的文本区域由白线框指示。

现在将参考图9说明用于根据本发明的实施例的用于检测图像中的文本区域的文本检测装置900的框图。装置900可以用于实现参考图3-7描述的方法。为了简洁，在此省略与参考图3-7所描述的细节相似的一些细节。然而，应意识到这些细节也可适用于装置900。

根据图9中示出的实施例，文本检测装置900可包括文本背景区域（TBR）检测单元910、CC过滤单元920和CC组合单元930。

文本背景区域（TBR）检测单元910可以被配置为从图像中检测TBR。

CC过滤单元920可以被配置为过滤至少一个CC以保留至少一个候选文本CC。

CC组合单元930可以被配置为基于在TBR检测单元中检测的TBR组合该至少一个候选文本CC以形成至少一个CC组，并且基于该至少一个CC组生成至少一个文本区域。

在此，TBR可以定义为图像中文本的周围区域，并且具有规则的边界和均匀的颜色或灰度。

根据一个实施例，TBR检测单元910可以被配置为基于以下各项中的至少一项从至少一个CC中选择TBR：该至少一个CC的特征；该至少一个CC中的成员CC的统计信息，其中成员CC是位于该至少一个CC的边界内的CC并且具有与该至少一个CC的高对比度；以及该至少一个CC和其它TBR之间的关系。

例如，该至少一个CC的特征可以包括以下中的至少一项：CC的颜色或灰度均匀性；CC的大小；CC的形状；CC的边界规则度；CC在图像中的位置；CC的平均灰度值；以及CC的灰度值分布。

例如，成员CC的统计信息可以包括以下中的至少一项：CC中的成员CC的数量；成员CC的种子CC的数量，其中种子CC具有比第一预定阈值高的文本置信度；CC中成员CC的平均文本置信度；以及CC中成员CC的总面积与CC的面积的比。

例如，基于该至少一个CC和其它TBR之间的关系来从该至少一个CC中选择TBR可以包括响应于CC不是任何先前确定的TBR中的成员CC以及不具有与先前确定的TBR相同的成员CC来将该CC确定为TBR。这可以通过由TBR检测单元910执行图4中示出的流程图来实现。

根据一个实施例，在CC过滤单元920中，对于不在任何TBR边界内的CC的过滤可以比在TBR边界内的CC的过滤严格。

根据一个实施例，CC过滤单元920被配置为基于以下各项中的至少一项过滤TBR边界内的CC和不在任何TBR边界内的CC：CC的大小、CC的形状；CC的最小外接框的宽高比；CC和其最小外接框的面积比；CC的周长和面积的比；以及CC的纹理特征。优选地，CC过滤单元920被配置为进一步基于以下条件中的至少一项来过滤不在任何TBR内的CC：笔划宽度统计信息；和CC的边界像素数量与CC的像素数量的比。

图10示出说明根据本发明的实施例的图9中的CC组合单元930的框图。

根据一个实施例，CC组合单元930可以进一步包括分配单元9301、组合单元9302，以及第一结合单元9303。

分配单元9301可以被配置为将候选文本CC分配到各个文本背景区域中，并且将不能被分配到TBR中的候选文本CC分配到外部区域中。

组合单元9302可以被配置为将每个TBR和外部区域中的CC分别组合形成CC组。

第一结合单元9303可以被配置为结合来自每个TBR和外部区域中的不同区域的CC组以生成所述至少一个文本区域。

根据一个实施例，第一结合单元9303可以被配置为基于以下条件中的至少一项结合来自不同区域的CC组：行方向的一致性；CC组的组最小外接框的重叠比；CC的平均大小的相似度；CC的平均笔划宽度的相似度；和CC的平均颜色或灰度的相似度。

图11示出说明根据本发明的实施例的图10中的组合单元9302的框图。

根据一个实施例，组合单元9302可以进一步包括划分单元9302-1、生成单元9302-2，以及第二结合单元9302-3。

划分单元9302-1可以被配置为将每个TBR和外部区域中的CC划分为暗区域中的亮CC集合和亮区域中的暗CC集合。

生成单元9302-2可以被配置为分别在该亮CC集合和该暗CC集合内生成CC组。

第二结合单元9302-3可以被配置为将该亮CC集合和该暗CC集合基于它们的空间关系和外观相似度中的至少一项结合。

根据一个实施例，在生成单元9302-2中，可以通过CC聚类生成CC组。CC聚类可以使用以下限制条件中的至少一项：符合特定方向的CC中心的排列；CC大小的相似度；CC形状的相似度；CC颜色或灰度的相似度；CC笔划宽度的相似度；和CC之间的距离。

根据一个实施例，生成单元9302-2可以进一步被配置为：通过霍夫变换生成CC组；以及使用以下限制条件中的至少一项过滤所生成的CC组中包含的CC：符合特定方向的CC中心的排列；CC大小的相似度；CC形状的相似度；CC颜色或灰度的相似度；CC笔划宽度的相似度；和CC之间的距离。

根据一个实施例，用于在第一结合单元9303中的结合的规则可以比用于在组合单元9302中的组合的规则严格。

根据本发明的文本检测方法和装置具有多种用途。例如，其可以用在从照相机拍摄的图像或视频中自动提取文本信息。

图12示出根据本发明的实施例的文本信息提取方法。

如图12中所示，在框1210中，使用根据参考图3-7描述的文本检测方法的文本检测方法检测来自输入图像或输入视频的文本区域。

在框1220中，可以从检测出的文本区域提取文本。可选地，当从输入视频中检测文本区域时，输入视频中的文本可以被跟踪，如框1240中所示。

在框1230中，可以对提取的文本执行文本识别以获取文本信息。

现在参考图13说明根据本发明的实施例的文本信息提取系统1300的框图。系统1300可以用于实现参考图12描述的方法。

如图13中所示，系统1300可以包括文本检测装置1310、提取装置1320，和识别装置1330.

文本检测装置1310可以被配置用于从输入图像或输入视频中检测文本区域并且可以与参考图9描述的装置910相同。

提取装置1320可以被配置用于从检测出的文本区域提取文本。

识别装置1330可以被配置用于识别所提取的文本以获取文本信息。

可选地，系统1300可以进一步包括跟踪装置1340。当文本检测装置1310被配置为从输入视频中检测文本区域时，跟踪装置1340可以被配置为跟踪输入视频中的文本。

将意识到，关于图9-11和图13描述的单元和装置是示例性的和/或优选的模块以用于实现各种步骤。这些模块可以是硬件单元（比如处理器、专用集成电路等）和/或软件模块（比如计算机程序）。用于实现各种步骤的模块未在以上穷尽地描述。然而，当存在执行特定处理的步骤时，可能存在对应的功能性模块或单元（由硬件和/或软件实现）用于实现该处理。以上和以下描述的所有步骤组合和对应于这些步骤的单元的技术方案包括在本申请的公开范围中，只要它们构成的技术方案是完整的并且可应用的。

此外，构成各种单元的以上装置和系统可以包括在比如计算机的硬件设备中作为功能性模块。当然，该计算机除了这些功能性模块之外具有其他硬件或软件组件。

可以通过许多方式来实施本发明的方法、装置和系统。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和装置。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其他方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解，上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种文本检测方法，所述文本检测方法用于检测包括至少一个连通体的图像中的文本区域，所述方法包括：

文本背景区域检测步骤(310)，用于从所述图像中检测包括文本的背景区域的特征的文本背景区域，其中文本背景区域是图像中的文本的周围区域，并且具有均匀颜色或灰度；

连通体过滤步骤(320)，用于对所述至少一个连通体进行过滤，以保留至少一个候选文本连通体；和

连通体组合步骤(330)，用于基于文本背景区域检测步骤中检测出的文本背景区域，组合所述至少一个候选文本连通体以形成至少一个连通体组，并且基于所述至少一个连通体组生成至少一个文本区域，

其中，在所述连通体组合步骤中，所述至少一个文本区域是通过结合文本背景区域中的连通体组和文本背景区域之外的区域中的连通体组而生成的。

2.如权利要求1所述的方法，其中所述文本背景区域具有规则的边界。

3.如权利要求1或2所述的方法，其中文本背景区域检测步骤(310)包括基于以下至少之一从所述至少一个连通体中选择文本背景区域：

所述至少一个连通体的特征；

所述至少一个连通体内的成员连通体的统计信息，其中成员连通体是位于所述至少一个连通体的边界内、且相对于所述至少一个连通体具有高对比度的连通体；和

所述至少一个连通体与其它文本背景区域之间的关系。

4.如权利要求3所述的方法，其中所述至少一个连通体的特征包括以下至少一项：连通体的颜色或灰度均匀性、连通体的大小、连通体的形状、连通体的边界规则度、连通体在图像中的位置、连通体的平均灰度值，和连通体的灰度值分布。

5.如权利要求3所述的方法，其中，所述成员连通体的统计信息包括以下至少一项：

所述连通体内的成员连通体的数量；

所述成员连通体中文本置信度高于第一预定义阈值的种子连通体的数量；

所述连通体内的成员连通体的平均文本置信度；和

所述连通体内的成员连通体的总面积与所述连通体的面积之比。

6.如权利要求3所述的方法，其中，基于所述至少一个连通体与其它文本背景区域之间的关系来从所述至少一个连通体中选择文本背景区域包括：

响应于该连通体不是先前已确定的文本背景区域内的成员连通体并且与该先前已确定的文本背景区域不包含相同的成员连通体，将该连通体确定为文本背景区域。

7.如权利要求1或2所述的方法，其中，在所述连通体过滤步骤(320)中，对不处于任何文本背景区域的边界内的连通体的过滤比对处于任何文本背景区域的边界内的连通体的过滤更严格，其中与对处于任何文本背景区域的边界内的连通体的过滤相比，对不处于任何文本背景区域的边界内的连通体的过滤使用较复杂的特征。

8.如权利要求1所述的方法，其中，在所述连通体过滤步骤(320)中，基于以下各项中的至少一项对处于任何文本背景区域的边界内的连通体和不处于任何文本背景区域的边界内的连通体进行过滤：

连通体的大小；

连通体的形状；

连通体的最小外接框的宽高比；

连通体与其最小外接框的面积比；

连通体的周长与面积之比；以及

连通体的纹理特征。

9.如权利要求8所述的方法，其中进一步基于以下各项中的至少一项对不处于任何文本背景区域内的连通体进行过滤：

笔划宽度统计信息；以及

边界像素数与连通体像素数之比。

10.如权利要求1或2所述的方法，所述连通体组合步骤(330)进一步包括：

a)将所述候选文本连通体分配到各个文本背景区域中并且将不能分配到文本背景区域中的连通体分配到外部区域中(610)；

b)将每个文本背景区域和所述外部区域中的连通体各自组合在一起以形成连通体组(620)；和

c)将来自每个文本背景区域和所述外部区域中的不同区域的连通体组结合在一起以生成所述至少一个文本区域(630)。

11.如权利要求10所述的方法，所述步骤b)进一步包括：

b1)将每个文本背景区域和所述外部区域中的连通体分为暗区域中的亮连通体集合和亮区域中的暗连通体集合(6201)；

b2)在所述亮连通体集合和所述暗连通体集合内分别生成连通体组(6202)；和

b3)基于所述亮连通体集合和所述暗连通体集合的空间关系和外观相似度中的至少一个将它们结合(6203)。

12.如权利要求10所述的方法，其中，在所述步骤c)中，基于以下各项中的至少一项结合来自所述不同区域的连通体组：

行方向的一致性；

平均连通体大小的相似度；

平均连通体笔划宽度的相似度；以及

平均连通体颜色或灰度的相似度。

13.如权利要求11所述的方法，其中在所述步骤b2)中，所述连通体组是通过连通体聚类生成的，所述连通体聚类使用以下限制条件中的至少一项：

符合特定方向的连通体中心的对齐；

连通体的大小的相似度；

连通体的形状的相似度；

连通体的颜色或灰度的相似度；

连通体的笔划宽度的相似度；和

连通体之间的距离。

14.如权利要求11所述的方法，所述步骤b2)进一步包括：

通过霍夫变换生成连通体组；以及

使用以下限制条件中的至少一项对生成的连通体组内包含的连通体进行过滤：

符合特定方向的连通体中心的对齐；

连通体的大小的相似度；

连通体的形状的相似度；

连通体的颜色或灰度的相似度；

连通体的笔划宽度的相似度；和

连通体之间的距离。

15.如权利要求10所述的方法，其中，在步骤c)中用于所述结合的规则比在步骤b)中用于所述组合的规则更多。

16.一种文本检测装置，所述文本检测装置用于检测包括至少一个连通体的图像中的文本区域，所述装置包括：

文本背景区域检测单元，被配置为从所述图像中检测包括文本的背景区域的特征的文本背景区域(910)，其中所述文本背景区域是图像中的文本的周围区域，并且具有均匀的颜色或灰度；

连通体过滤单元，被配置为对所述至少一个连通体进行过滤，以保留至少一个候选文本连通体(920)；和

连通体组合单元，被配置为基于文本背景区域检测单元中检测出的文本背景区域，组合所述至少一个候选文本连通体以形成至少一个连通体组，并且基于所述至少一个连通体组生成至少一个文本区域(930)，

其中，所述至少一个文本区域是通过结合文本背景区域中的连通体组和文本背景区域之外的区域中的连通体组而生成的。

17.如权利要求16所述的装置，其中所述文本背景区域具有规则的边界。

18.如权利要求16或17所述的装置，其中文本背景区域检测单元(910)被配置为基于以下至少之一从所述至少一个连通体中选择文本背景区域：

所述至少一个连通体的特征；

所述至少一个连通体与其它文本背景区域之间的关系。

19.如权利要求18所述的装置，其中所述至少一个连通体的特征包括以下至少一项：连通体的颜色或灰度均匀性、连通体的大小、连通体的形状、连通体的边界规则度、连通体在图像中的位置、连通体的平均灰度值，和连通体的灰度值分布。

20.如权利要求18所述的装置，其中，所述成员连通体的统计信息包括以下至少一项：

所述连通体内的成员连通体的数量；

所述连通体内的成员连通体的平均文本置信度；和

21.如权利要求18所述的装置，其中，基于所述至少一个连通体与其它文本背景区域之间的关系来从所述至少一个连通体中选择文本背景区域包括：

响应于该连通体不是任何先前已确定的文本背景区域内的成员连通体并且与该先前已确定的文本背景区域不包含相同的成员连通体，将该连通体确定为文本背景区域。

22.如权利要求16或17所述的装置，其中，在所述连通体过滤单元(920)中，对不处于任何文本背景区域的边界内的连通体的过滤比对处于任何文本背景区域的边界内的连通体的过滤更严格，其中与对处于任何文本背景区域的边界内的连通体的过滤相比，对不处于任何文本背景区域的边界内的连通体的过滤使用较复杂的特征。

23.如权利要求16所述的装置，所述连通体过滤单元(920)被配置为基于以下各项中的至少一项对处于任何文本背景区域的边界内的连通体和不处于任何文本背景区域的边界内的连通体进行过滤：

连通体的大小；

连通体的形状；

连通体的最小外接框的宽高比；

连通体与其最小外接框的面积比；

连通体的周长与面积之比；以及

连通体的纹理特征。

24.如权利要求23所述的装置，其中所述连通体过滤单元(920)被配置为进一步基于以下各项中的至少一项对不处于任何文本背景区域内的连通体进行过滤：

笔划宽度统计信息；以及

边界像素数与连通体像素数之比。

25.如权利要求16或17所述的装置，所述连通体组合单元(930)进一步包括：

分配单元(9301)，被配置为将所述候选文本连通体分配到各个文本背景区域中并且将不能分配到文本背景区域中的候选文本连通体分配到外部区域中；

组合单元(9302)，被配置为将每个文本背景区域和所述外部区域中的连通体各自组合在一起以形成连通体组；和

第一结合单元(9303)，被配置为将来自每个文本背景区域和所述外部区域中的不同区域的连通体组结合在一起以生成所述至少一个文本区域。

26.如权利要求25所述的装置，所述组合单元(9302)进一步包括：

划分单元(9302-1)，被配置为将每个文本背景区域和所述外部区域中的连通体分为暗区域中的亮连通体集合和亮区域中的暗连通体集合；

生成单元(9302-2)，被配置为在所述亮连通体集合和所述暗连通体集合内分别生成连通体组；和

第二结合单元(9302-3)，被配置为基于所述亮连通体集合和所述暗连通体集合的空间关系和外观相似度中的至少一个将它们结合。

27.如权利要求25所述的装置，所述第一结合单元(9303)被配置为基于以下各项中的至少一项结合来自不同区域的连通体组：

行方向的一致性；

平均连通体大小的相似度；

平均连通体笔划宽度的相似度；以及

平均连通体颜色或灰度的相似度。

28.如权利要求26所述的装置，其中，在所述生成单元(9302-2)中，所述连通体组是通过连通体聚类生成的，所述连通体聚类使用以下限制条件中的至少一项：

符合特定方向的连通体中心的对齐；

连通体的大小的相似度；

连通体的形状的相似度；

连通体的颜色或灰度的相似度；

连通体的笔划宽度的相似度；和

连通体之间的距离。

29.如权利要求26所述的装置，所述生成单元(9302-2)进一步被配置为：

通过霍夫变换生成连通体组；以及

使用以下各项限制条件中的至少一项对生成的连通体组内包含的连通体进行过滤：

符合特定方向的连通体中心的对齐；

连通体的大小的相似度；

连通体的形状的相似度；

连通体的颜色或灰度的相似度；

连通体的笔划宽度的相似度；和

连通体之间的距离。

30.如权利要求25所述的装置，其中，在所述第一结合单元(9303)中用于所述结合的规则比在所述组合单元(9302)中用于所述组合的规则更多。

31.一种文本信息提取方法，包括：

使用如权利要求1-15中任意一项所述的文本检测方法检测输入图像或输入视频中的文本区域(1210)；

从所检测到的文本区域提取文本(1220)；以及

识别所提取的文本以得到文本信息(1230)。

32.如权利要求31所述的方法，进一步包括：

在使用如权利要求1-15中任意一项所述的文本检测方法检测输入视频中的文本区域时，跟踪所述输入视频中的文本(1240)。

33.一种文本信息提取系统，包括：

如权利要求16-30中任意一项所述的文本检测装置(1310)，被配置为检测输入图像或输入视频中的文本区域；

提取装置(1320)，被配置为从所检测到的文本区域提取文本；以及

识别装置(1330)，被配置为识别所提取的文本以得到文本信息。

34.如权利要求33所述的系统，其中在所述文本检测装置被配置为检测输入视频中的文本区域时，所述系统还包括：

跟踪装置(1340)，被配置为跟踪所述输入视频中的文本。