CN107545261A

CN107545261A - 文本检测的方法及装置

Info

Publication number: CN107545261A
Application number: CN201610465718.7A
Authority: CN
Inventors: 麻文华
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2018-01-05
Also published as: JP2017228297A; JP6377214B2

Abstract

本发明提供文本检测的方法及装置。本发明用于定位自然场景图像中的文本区域。其公开涉及文本检测方法和装置，以及文本信息提取方法和系统。用于检测图像中的文本区域的方法包括：由输入的图像生成组件；将组件分组以形成组件组；使用由组件连接的分布获得的特征，将组件组分类成文本组和非文本组；基于文本组生成文本区域。与现有技术相比较，通过相当的时间成本，本发明提高了精度和召回率。

Description

文本检测的方法及装置

技术领域

本发明一般涉及但不仅限于计算机视觉、图像处理和理解，并且更具体地涉及文本检测方法及装置。

背景技术

自然场景图像和视频帧中的文本携带用于视觉内容理解和检索的重要信息。在图像中，特别是在自然图像或视频帧中检测文本，对许多计算机视觉应用(例如，对视觉障碍人士或外国人的计算机化援助、对图像或视频的自动检索以及城市环境中的机器人导航等)来说是至关重要的。

然而，自然场景中的文本检测是个棘手的课题，主要的挑战在于具有不同字体、大小、歪斜角度或失真等的文本的多样化。诸如不均匀照明及反射、不良的采光条件以及复杂的背景等的环境因素，增加了更多复杂性。

在相关文献中，用于检测自然场景中的文本区域的文本检测方法，通常遵循以下主要步骤：由图像生成孤立的组件，并且基于某些规则将这些组件分组以生成组件组，然后，验证这些组件组以移除非文本组，并且通过使用剩余的文本组来恢复文本区域(例如文本行、文字)。

组件分组的结果通常需要进一步验证，有两个主要原因。首先，存在由凑巧保持有与文本组类似的感知组织的非文本组件构成的噪声组件组。例如，在空间上靠近并且在外观上相似的非文本组件也可能被分组在一起并被保留。其次，多行或多方向文本常见于自然场景中，如何正确地将文本组件分组，对文本区域检测性能是至关重要的。在组件分组步骤期间，针对较少的判断布局模式的证据，保留多个假设。基于上述分析，在公开的文献中的一些文本检测方法还包括组验证步骤，即，对组件组进行分析并将组件组分类为文本组和非文本组，仅文本组被用来恢复文本区域(例如文本行、文字)，而非文本组将被移除。

例如，中国专利申请CN103077389和专利申请CN10418274429两者都公开了如何基于组等级(group-level)特征和分类器来验证组件组。组等级特征通常从两个方面来描述组：规律性和字符相似度(likeness)。前者包括属于组的组件在大小、颜色、间隙和笔划宽度以及组中的组件的空间布置方面的差异。通常由字符分类器来测量组中的组件的字符相似度，然后将值合成在组内。这些组等级特征，能够被用作文本分类器的输入特征向量或级联(cascade)规则。基于特征来计算组的文本置信度值，并且保留高文本置信度的组。但是性能取决于分类器中使用的特征和训练样本。难以以高规律性来拒绝非文本组，或者接受与训练样本不同的文本组。

进一步的示例，美国专利US8320674和US6563949两者都公开了如何基于识别结果来验证组件组。通过OCR引擎来识别组件组，并拒绝具有低识别置信度的组。对于诸如多行或多方向文本等的复杂布局情况，保留满足语言模型的组。但是性能在很大程度上与识别引擎和语言模型有关，并且识别组中的所有组件耗时，尤其当组件的量大时。

事实上，如果将识别结果视为组的一个特殊特征，则能够将两种现有技术统一。它们的一个共同缺点是各个组被孤立地评价；而图像中的全局信息被忽略。

参考文献

在下面的详细描述中参考了下列文献：

[1]L.Neumann and J.Matas,“On combining multiple segmentations inscene text recognition”,International Conference on Document Analysis andRecognition(ICDAR),pp 523–527,2013。

[2]Xu-cheng Yin,Xuwang Y.,Kaizhu H.,Hongwei Hao,“Robust textdetection in natural scene images”,IEEE Trans.on Pattern Analysis and MachineIntellignece,Vol.36,No.5,2014。

[3]Boris Epshtein,Eyal Ofek,Yonatan Wexler,“Detecting text in naturalscenes with stroke width transform”,Computer Vision and Pattern Recognition,IEEE Computer Society Conference on,pp.2963-2970,2010。

[4]J.Matas,O.Chum,M.Urban and T.Pajdla,"Robust wide baseline stereofrom maximally stable extremal regions",Proc.of British Machine VisionConference,pp.384-396,2002。

[5]Chang C C,Lin.CJ.LIBSVM:A library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology(TIST,2003,2(3):389-396。

术语解释

下列术语在本文中频繁出现，并且以下面的详细描述来定义：

组件是指具有相似颜色、笔画宽度或灰度并且在空间上连接的、图像中的像素的集。

文本组件是指字符的基本元素。

组件组是指具有相似外观并且线性对齐的组件的集。

组件连接是指至少包括一个组件组中的两个邻近组件的组件集。

文本组是指由文本组件组成的组件组。

文本区域是指文本组的边界框或四边形，文本检测的输出。

全局主模式特征是指由一个图像中的文本组的大部分组件连接共享的共同特征。通常，为所选择的语境信息；例如，约90度的方向。

发明内容

由此，在本公开中，提出了一种新颖的文本检测方法及装置，以提高图像中、特别是自然场景图像中的文本检测的性能。根据本发明的一个方面，提供一种文本检测方法，所述文本检测方法包括：组件生成步骤，用于由输入的图像生成组件；组件分组步骤，用于将符合相似性(similarity)要求的组件分组，以形成组件组；组件连接提取步骤，用于提取组件连接，所述组件连接包括一个组件组中的至少两个邻近组件；特征获得步骤，用于获得所有组件连接的特征；组件组分类步骤，用于基于在所述特征获得步骤中获得的所述特征，将所述组件组分类成文本组和非文本组；文本区域生成步骤，用于基于所述文本组，生成文本区域。

本发明的主要创新在于组件组分类。一个图像中的文本的全局主模式特征被提取并用于组件组分类中。单独地或与组等级特征合并使用的全局信息，以期提高文本检测的准确度。全局主模式特征是从几个特征中自动选择的，因此可适应于不同的场景。

本发明用于定位自然场景图像中的文本区域。取原始图像文件作为输入，并产生一系列四边形(poly-rectangles)(文本组的边界框)的集作为输出。与现有技术相比，通过相当的时间成本，本发明提高了精度和召回率。

附图说明

图1是示出进行本发明的实施例的计算机系统的硬件构造的框图。

图2是示出文本检测装置的构造的框图。

图3是示出由文本检测装置进行的文本检测方法的流程图。

图4是示出根据本发明的实施例的用于将组件组分类的方法的流程图。

图5A至图5C示出了根据本发明的实施例的生成候选文本组件的说明性示例。

图6示出了根据本发明的实施例的组件分组结果的说明性示例。

图7是示出根据本发明的实施例的用于获得全局主模式特征的方法的流程图。

图8是示出根据本发明的实施例的用于获得组件连接的方向的全局分布的方法的流程图。

图9示出了组件连接的方向的全局分布的说明性示例。

图10示出了获得全局主模式特征的说明性示例。

图11是示出在全局主模式特征提取中用于选择特征的方法的流程图。

图12是示出用于基于预定义特征来获得全局主模式特征的方法的流程图。

图13A至图13B示出了根据本发明的实施例的生成文本区域的说明性示例。

图14是示出根据本发明的实施例的文本信息提取方法的流程图。

图15是示出根据本发明的实施例的文本信息提取系统的框图。

具体实施方式

参照上面所列的附图，本部分描述特定实施例及它们的详细结构和操作。注意，在下文中将描述的实施例，通过仅举例说明而非限制的方式来阐述，因此它们不限制本发明的范围，并且能够在本发明的范围内被改变为各种形式。本领域技术人员在本文的教导下将认识到，存在等同于在此描述的示例实施例的范围。

如图1中所示，系统至少包括计算机100，计算机100包括CPU 101、RAM 102、ROM103、系统总线104、输入设备105、输出设备106及驱动器107。例如，计算机100可以是图像识别设备。注意，计算机100能够包括一个或多个计算机，并且多个计算机能够单独地实现计算机100的各个功能。

CPU 101根据RAM 102或ROM 103中存储的程序，进行整个处理。当CPU 101进行例如本发明的实施例等的各种处理时，RAM 102被用作临时存储区域。

输入设备105包括摄像设备(例如扫描仪、数字照相机)，或用户输入界面或网络接口，其使得用户能够向计算机100发出各种指令。

输出设备106包括输出外围接口、显示设备(例如监视器、CRT、液晶显示器或图形控制器)或打印机，其使得用户能够输出本发明的文本检测等。

驱动器107用于驱动存储介质，诸如硬盘、存储卡或光盘(例如CD-ROM或DVD-ROM)等。例如，用于进行文本检测处理的图像数据或程序被存储在存储介质中，并且由驱动器107驱动。

系统总线104将CPU 101、RAM 102、ROM 103、输入设备105、输出设备106和驱动器107连接。数据在系统总线104上进行通信。如在此所使用的，术语“连接”是指通过一个或多个中介，逻辑地或物理地直接或间接连接。

一般而言，用于本发明的文本检测的输入是各种类型的图像。例如，能够通过诸如数字照相机、数字摄像机、传感器或扫描设备(例如扫描仪或多功能设备)等的摄像设备，来获得图像。

图1中所示的系统仅仅是说明性的并且决不意在限制本发明(包括其应用或使用)。例如，当启动用于进行文本检测处理的程序时，CPU 101通过执行本发明中公开的所有步骤，例如图3至图4、图7至图8、图11至图12以及图14中例示的步骤，从输入设备105获得输入图像、提取组件、验证组件并且生成文本区域。之后，CPU 101通过系统总线104将结果发送到输出设备106。也可以将结果存储在RAM 102中。经由网络接口，也可以将结果发送到远程计算机，用于其他应用。

此外，能够通过软件、硬件、固件或它们的任意组合，来实施本发明的装置(例如图2和图15中例示的、被构造为进行文本检测的装置)的各个单元、设备、组件和/或部件。

图2是示出文本检测装置的构造的框图。图3是示出由图2中所示的文本检测装置进行的文本检测方法的流程图。CPU 101使用存储在RAM 102或ROM 103中的程序和图像数据，来进行本发明的方法。

如图2中所示，在此，文本检测装置200包括：图像输入单元201、组件生成单元202、组件分组单元203、组件组分类单元204、文本区域生成单元205以及文本区域输出单元206。

图像输入单元201被构造为获取由图像捕获设备207拍摄的自然场景图像，或者获取在用于文本检测装置200的存储设备(例如，硬盘)中存储的自然场景图像。获取的图像被看作输入图像，例如，如图5A中所示。

组件生成单元202被构造为由输入图像生成候选文本组件的集，这将在图3的步骤S301中描述。

在步骤S301中，组件生成单元202生成候选文本组件的集。组件通常是具有相似颜色[1]或灰度[2]或笔画宽度[3]、或在空间上连接的像素的集。在组件生成中能够使用几种方法，诸如颜色聚类(colour clustering)、自适应二值化或形态处理等。根据本发明的示例性实施例，基于最大稳定极值区域(MSER)[4]，由灰度图像生成组件。如图5B中所示，组件被标记为暗灰色矩形，例如，组件501和502被标记为暗灰色矩形。

为了获得更好的结果，在组件生成之后实施组件滤波，以移除一些明显的非文本组件。在组件滤波中通常使用的特征包括：组件大小、组件长宽比、组件密度(组件像素在其边界框内的占比)、组件笔划宽度的统计特征以及从组件区域提取的纹理特征(例如，小波、Gabor、LBP)。这些特征能够被用作层级滤波器或被输入到习得的分类器。根据本发明的示例性实施例，支持向量机(以下简称“SVM”)分类器[5]被用来将文本组件与非文本组件区分开来。如图5C中所示，在组件滤波之后，一些非文本组件被移除。例如，组件501和502被移除，因为它们是非文本组件。

组件分组单元203被构造为对组件进行分组，这将在图3的步骤S302中描述。

在步骤S302中，组件分组单元203将满足相似性要求的候选文本组件连接在一起，以构建组件组。描述两个组件之间的相似性的特征值包括距离特征、差特征和比特征，诸如空间距离、灰度差、色差、边界对比度差、边界框高度比、宽度比、笔划宽度比。通过组件中心之间的归一化欧氏距离来计算距离特征的值。通过将差的绝对值除以平均值，来计算所有的差特征的值。通过将指定属性的最大值除以指定属性的最小值，来计算所有的比特征的值。如果组件不属于任何组，则它们被判断为噪声组件并被移除。

图6示出了根据本发明的实施例的组件分组结果的说明性示例。能够看出，图6中所示的文本组件由线连接，并构建文本组件组。然而，除了期望的真文本组，还存在与真文本组交叉的组，例如图6所示的由不同文本行中的字符构成的组。而且，仍存在一些由非文本组件构成的组，例如由线连接并构建非文本组件组的非文本组件(图6所示的窗户)；又例如，由线连接并构建另一非文本组件组的非文本组件(图6中所示的窗户和交通灯)。由此，组件组分类是必要的。

组件组分类单元204被构造为基于由所有组件连接的至少一个候选特征的值的分布而获得的特征，对组件组进行分类。根据本发明的示例性实施例，由所有组件连接的至少一个候选特征的值的分布而获得的特征，可以是在图3的步骤S303中描述的全局主模式特征。在此，全局主模式特征指由文本组的大部分组件连接共享的共同特征。通常，为所选择的语境信息；例如，约90度的方向。

在步骤S303中，组件组分类单元204首先获得全局主模式特征，然后使用全局主模式特征将组件组分类成文本组和非文本组，这将在图4中描述。

现在转到图4，图4是示出在步骤S303实施的、根据本发明的实施例用于将组件组分类的方法的流程图。

在步骤S401中，组件组分类单元204从组件组提取组件连接。在该步骤中，组件组被视为组件连接的集，因此，根据本发明的示例性实施例，一个组件组中的两个邻近组件被提取为组件连接。在此，组件连接指包括一个组件组中的至少两个邻近组件的组件集。

在步骤S402中，组件组分类单元204针对各个组件连接计算文本置信度。通过从组件连接提取的特征的集，例如颜色相似性(例如灰度差、色差)、大小相似性、方向、空间距离、边界对比度差、边界框高度比、宽度比、笔画宽度比，来针对各个组件连接计算文本置信度值。

根据本发明的示例性实施例，能够通过文本组件和非文本组件的预训练分类器，来获取组件连接的文本置信度值。预训练分类器是基于正样品和负样品来训练的。正样品是由一个组件组中的两个邻近组件构成的组件连接。负样品是由组中的一个组件和组外的一个组件(例如其他组中的组件或噪声组件)构成的组件连接。二分类分类器(例如SVM)用来将组件连接分类，然后输出的分数被进一步转换成文本置信度值。

在步骤S403中，组件组分类单元204获得所有组件连接的全局主模式特征。基于组件连接及其文本置信度值，根据从图7所示的特征的集自动选择的特征，或如图12所示的预定义特征，获得全局主模式特征。

现在转到图7，其中例示的是示出在步骤S403中实施的、用于获得全局主模式特征的方法的流程图。

在步骤S701中，在得到组件连接及其文本置信度值以及组件连接的候选特征的集之后，组件组分类单元204获得候选特征的集中的特征i的值的分布。在本实施例中，特征i的值的分布被称为全局分布。候选特征i包括组件连接的方向、组件的平均前景颜色、组件的平均背景颜色、平均边界对比度或组件连接中的两个组件之间的距离等。在此，以取组件连接的方向作为特征i为例，来获得图8中描述的方向的全局分布。

现在转到图8，其中例示的是示出在步骤S701中实施的、用于获得组件连接的方向的全局分布的方法的流程图。

在步骤S801中，组件组分类单元204从组件连接提取方向特征，以获得组件连接的方向。

在步骤S802中，组件组分类单元204基于一个图像中的所有组件连接，获得方向特征的文本置信度加权直方图。根据本发明的示例性实施例，在各个方向上，直方图值(y轴)表达通过在步骤S402中计算出的文本置信度值而加权的组件连接的特征i的各个值的频率。各个方向上的直方图值例如如图9所示，并且方向范围为[0,180]度。

在步骤S803中，组件组分类单元204使用滑动窗口来寻找如图9所示的最高直方图柱(bin)。分布被进一步量化成具有宽度“D”的“N”个柱。为了将量化误差对全局主模式特征的影响最小化，根据本发明的示例性实施例，使用宽度为“D”的滑动窗口。在滑动期间，窗口内的直方图值(y轴)相加并被记录，具有最高值的窗口被分配为如图9所示的最高直方图柱，并且相应地确定其他柱。

在步骤S804中，组件组分类单元204基于最高直方图柱，将直方图量化。将直方图归一化，使得分布的所有柱的直方图值(y轴)和为1。一个图像的组中的组件连接的特征i的所有值，构成一个全局分布。

在步骤S702中，组件组分类单元204基于全局分布，选择全局主模式特征。例如如图10中所示，在此，将全局分布表示为H＝{h_i,i＝0,1,…N}，其中，

“N”为分布中的柱的数量。

h_top为分布的最高直方图柱。

h_sec为分布的第二直方图柱。

f_top为最高柱在x轴上的中心值。

“CL”为组件的字符相似度的缩写。由字符分类器(例如SVM分类器)来获得单个组件的CL，而柱的“CL”被定义为在柱的组件连接中涉及的所有组件的平均分数。

如果组件连接的分布的集中度大于预定义阈值，则选择从组件连接的分布获得的特征。根据本发明的示例性实施例，如果组件连接的全局分布满足下列条件中的一个，则选择该全局主模式特征：

1.分布的最高直方图柱h_top大于第一预定义阈值。

2.分布的最高直方图柱中的组件连接的平均字符相似度CL(h_top)大于任何其他柱的

3.分布的最高直方图柱与分布的第二直方图柱的比值h_top/h_sec大于第二预定义阈值。

图10示出了根据本发明的实施例的获得全局主模式特征的示例。如果分布满足上述要求中的一个，则f_top为全局主模式特征。

在步骤S703中，组件组分类单元204判断是否对所有特征进行了处理。如果剩余其他特征，则处理将返回到步骤S701，以获得候选特征集中的其他特征的全局分布。否则，处理可以转到步骤S704。

在步骤S704中，组件组分类单元204选择具有最显著的全局主模式特征的特征。对不同特征的全局主模式特征进行比较，并选择具有最显著的全局主模式特征的特征。

根据本发明的示例性实施例，图11是示出用于在步骤S704中实施的全局主模式特征提取中选择特征的方法的流程图。

在步骤S1101中，应当注意的是，全局主模式特征是相关的特征，因为不同特征的全局分布可能有所不同。根据本发明的示例性实施例，用于获得全局主模式特征的特征可以是以下特征中的至少一者：方向、组件颜色(例如平均前景颜色、平均背景颜色)、组件连接中的两个组件之间的距离、平均边界对比度。

在步骤S1102中，组件组分类单元204基于不同特征的全局分布，选择全局主模式特征。如果如在步骤S1103中所示、存在全局主模式特征，则在此，用于选择特征的方法是基于h_top/h_sec的值。比越大，则全局主模式特征越显著。所以，具有最大比h_top/h_sec的特征将被选择为全局主模式特征。也就是说，如在步骤S1104中所示，组件组分类单元204选择具有h_top/h_sec的最大值的全局分布。

在逐个处理候选特征之后，对根据不同特征的全局主模式特征进行比较，并且如在步骤S704中所示，选择具有最显著的全局主模式特征的特征。所以，步骤S403的输出是根据所选择的特征的全局主模式特征。

图12是示出用于基于预定义特征获得全局主模式特征的另一方法的流程图。

现在转到图12，在得到预定义特征之后，例如，在车牌识别中，文本组基本上沿水平方向，所以组件连接的方向被用作预定义特征。对于另一示例，在道路标志识别中，用作预定义特征的文本和周围的颜色通常是一致的。如果预定义特征是组件连接的方向，则组件组分类单元204获得特征的全局分布，并使用与在步骤S701和步骤S702中描述的方法相同的方法，如在步骤S1201和步骤S1202中所示，基于全局分布，选择全局主模式特征。

所以，步骤S403的输出是根据预定义特征的全局主模式特征。

对于具体图像，全局主模式特征的示例如下：文本组中的大部分组件连接沿类似的方向，并且方向属于[-15，15]度；或者，文本组中的大部分组件连接处于类似的颜色/灰度，并且黑色颜色值属于或灰度值属于[0，30]。

在步骤S404中，组件组分类单元204调整组件连接的文本置信度。基于在步骤S403中提取的全局主模式特征，调整组件连接的文本置信度值。增加遵循全局主模式特征的组件连接，而减少不遵循全局主模式特征的组件连接。通过调整组件连接的文本置信度值，来执行调整处理。

由于在步骤S701或步骤S1201中获得的全局分布已被归一化，因此全局分布被视为特定特征的概率分布，然后基于概率推理来调整组件连接的文本置信度值。

如果遵循全局主模式特征的组件连接的概率为h_top，则应当根据其与全局主模式特征的偏差，来调整组件连接的文本置信度值。归一化的偏差被表示为：其中，

f_cur为当前组件连接的特征值。

“D”为特征分布的柱宽度。

例如，如果全局主模式特征为大约方向，f_top为最高柱在x轴上的中心，如90度，f_cur为当前组件连接的方向，如10度，那么两者之间的偏差为80度。

如果不遵循全局主模式特征的组件连接的概率为1-h_top，则组件连接的文本置信度值应当不变。

总结上述两种情况，如下调整组件连接的文本置信度值。

TC_adj＝w·TC_org

其中，

TC_org为由在步骤S402中的组件连接分类器提供的、当前组件连接的原始文本置信度值。

TC_adj为当前组件连接的调整后的文本置信度值。

“w”是综合上述两种情况的调整因子。

β为调整参数。

c为补偿参数。

可以看出，图像中的组件连接的全局主模式特征被提取，并且在组件组分类中，与本地信息(组等级特征)合并。

在步骤S405中，组件组分类单元204将组件组分类成文本或非文本组。基于组的文本置信度值，将组件组分类成文本组和非文本组。非文本组被移除，而文本组被留下以恢复文本区域。一方面，组件组的文本置信度值TC_g为其中的组件连接的平均文本置信度值。为在步骤S404中获取的、组中的第i个组件连接的调整后的文本置信度值。

其中，M为组中的组件连接的数量。

同时，另一方面，提取组等级特征，诸如组中的组件在大小、颜色及笔划宽度方面的差异以及组中的组件的空间布置等，来测量组的另一文本置信度值，并表示为TC_f。所以，组的最终文本置信度值，被定义为以下两者的加权和：

TC＝ωTC_g+(1-ω)TC_f

此处，0≤ω≤1。

当ω＝0时，在组分类中仅使用组等级特征，这与现有技术是相同的，现有技术公开了如何基于组等级特征和分类器来验证组件组。

当ω＝1时，仅使用全局主模式特征信息，这是上面的第一示例。当0＜ω＜1时，在组分类中，将全局主模式特征与组等级特征合并，这是上面的另一示例。

具有高于预定义值的文本置信度的组件组，被判断为文本组，并且其他剩余的组件组被移除。

图13A至图13B示出了根据本发明的实施例的生成文本区域的示例。

如图13A所示，在组件组分类之后，在步骤S303之后移除噪声组件组(例如图6所示的、由窗户和交通灯构建的非文本组件组)和假组件组(例如图6所示的、由不同文本行中的字符构成的文本组件组)。可以看出，文本组与非文本组之间的区别通过全局主模式特征放大。因此，组件组分类的最终结果具有良好的效果。

文本区域生成单元205被构造为基于剩余的文本组，生成文本区域，这将在图3的步骤S304中描述。

在步骤S304中，文本区域生成单元205将剩余的组件组转换为文本区域。通常基于组中的组件的矩形以及组的文本行，来生成文本区域。该步骤的一个示例性实施方式如下：

首先，通过组中的所有组件的中心的最小二乘回归，来获得文本行。

然后，通过将文本行平行移位以覆盖组中的组件的极高点，来确定上边界线。并且，以类似方式来确定下边界线。

最后，通过组中的最左边组件和最右边组件的矩形，来确定左边界线和右边界线。

如在图13B中所示，检测到的文本区域是生成的文本区域的示例。

文本区域输出单元206被构造为将文本区域的结果输出到输出设备106(例如图像识别设备)，用于例如信息提取或识别等的进一步的图像处理。

图像中的文本的全局主模式特征被提取，并在组分类中，与本地信息(组等级特征)合并。基于特征分布来选择全局主模式特征。因此本发明能够适应于不同的场景。

图14示出了根据本发明的实施例的文本信息提取方法。

本发明能够用于对来自照相机抓取的图像或视频的文本信息的自动提取。如图14所示，在块1401中，根据参照图3至图13描述的文本检测方法，使用该文本检测方法，来从输入的图像或输入的视频中检测文本区域。

在块1402中，从检测到的文本区域中提取文本。可选地，当从输入的视频中检测到文本区域时，跟踪输入的视频中的文本，如块1404所示。

在块1403中，对所提取的文本进行文本识别，以获得文本信息。

现在将参照图15，例示根据本发明的实施例的文本信息提取系统1500的框图。系统1500用来实施参照图14描述的方法。

如图15所示，系统1500包括文本检测装置1501、提取装置1502以及识别装置1503。

文本检测装置1501用于从输入的图像或输入的视频中检测文本区域，并且与参照图2描述的装置200相同。

提取装置1502用于从检测到的文本区域中提取文本。

识别装置1503用于识别所提取的文本，以获得文本信息。

可选地，系统1500还包括跟踪装置1504。当文本检测装置1501被构造为从输入的视频中检测文本区域时，跟踪装置1504被构造为跟踪输入的视频中的文本。

可理解的是，上面参照图2和图15所描述的单元和装置是示例性的，并且/或者是用于实施各步骤的优选模块。模块是硬件单元(诸如处理器、专用集成电路等)和/或软件模块(例如计算机程序)。上面非穷尽地描述了用于实施各步骤的模块。然而，当存在进行特定处理的步骤时，存在用于实施同一处理的对应的功能模块或单元(由硬件和/或软件来实现)。通过上述和下述的步骤以及与这些步骤相对应的单元的所有组合而构成的技术方案，都包括在本申请的公开内容中，只要它们构成的技术方案完整且可适用即可。

Claims

1.一种用于检测图像中的文本区域的文本检测方法，所述文本检测方法包括：

组件生成步骤，用于由输入的图像生成组件；

组件分组步骤，用于将符合相似性要求的组件分组，以形成组件组；

组件连接提取步骤，用于提取组件连接，所述组件连接包括一个组件组中的至少两个邻近组件；

特征获得步骤，用于获得所有组件连接的特征；

组件组分类步骤，用于基于在所述特征获得步骤中获得的所述特征，将所述组件组分类成文本组和非文本组；

文本区域生成步骤，用于基于所述文本组，生成文本区域。

2.根据权利要求1所述的文本检测方法，其中，由所述所有组件连接的至少一个候选特征的值的分布，获得所述特征。

3.根据权利要求1或2所述的文本检测方法，其中，所述组件组分类步骤还包括文本置信度值计算步骤，用于针对各个组件连接计算文本置信度值，其中，所述组件组分类步骤基于所述文本置信度值，将所述组件组分类成文本组或非文本组。

4.根据权利要求3所述的文本检测方法，其中，所述组件组分类步骤还包括：

文本置信度调整步骤，用于根据在所述特征获得步骤中获得的所述特征，调整组件连接的所述文本置信度值；

其中，所述组件组分类步骤基于由所述组中的所有组件连接的调整后的文本置信度值而获得的组件组的文本置信度值，将所述组件组分类成文本组或非文本组。

5.根据权利要求2所述的文本检测方法，其中，在所述分布的直方图柱的值大于预定义阈值的情况下，在所述特征获得步骤中获得所述特征。

6.根据权利要求2所述的文本检测方法，其中，在所述分布的最高直方图柱中的组件连接的平均字符相似度大于任何其他直方图柱中的组件连接的平均字符相似度的情况下，在所述特征获得步骤中获得所述特征。

7.根据权利要求2所述的文本检测方法，其中，在所述分布的最高直方图柱与所述分布的第二直方图柱的比值大于预定义阈值的情况下，在所述特征获得步骤中获得所述特征。

8.根据权利要求2所述的文本检测方法，其中，所述所有组件连接的候选特征为预定义特征或所选择的特征的集。

9.根据权利要求2所述的文本检测方法，其中，所述所有组件连接的候选特征是下列中的至少一者：

(1)组件连接的方向，

(2)组件的平均前景颜色，

(3)组件的平均背景颜色，

(4)平均边界对比度，以及

(5)所述组件连接中的两个组件之间的距离。

10.根据权利要求8所述的文本检测方法，其中，所选择的特征是具有最高直方图柱与第二直方图柱的最大比值的特征。

11.根据权利要求3所述的文本检测方法，其中，所述组件连接的所述文本置信度值通过从所述组件连接提取的特征的集来计算，并且通过文本组件和非文本组件的预训练的分类器来获取。

12.根据权利要求4所述的文本检测方法，其中，组件组的所述文本置信度值，被计算为所述组件组中的所有组件连接的平均文本置信度值。

13.根据权利要求4所述的文本检测方法，其中，组件组的所述文本置信度值，被计算为所述组件组中的所有组件连接的平均文本置信度值、与基于组等级特征而确定的文本置信度值的加权值。

14.根据权利要求13所述的文本检测方法，其中，所述组等级特征是下列中的至少一者：

(1)组中的组件的差异，

(2)组件的大小、颜色或笔划宽度，

(3)组中的组件的空间布置。

15.一种用于检测图像中的文本区域的文本检测装置，所述文本检测装置包括：

组件生成单元，被构造为由输入的图像生成组件；

组件分组单元，被构造为将符合相似性要求的组件分组，以形成组件组；

组件组分类单元，被构造为提取组件连接；获得所有组件连接的特征；并且基于所获得的特征，将所述组件组分类成文本组和非文本组，所述组件连接包括一个组件组中的至少两个邻近组件；

文本区域生成单元，被构造为基于所述文本组，生成文本区域。

16.根据权利要求15所述的文本检测装置，其中，由所述所有组件连接的至少一个候选特征的值的分布，获得所述特征。

17.根据权利要求15或16所述的文本检测装置，其中，所述组件组分类单元还被构造为针对各个组件连接计算文本置信度值，其中，所述组件组分类单元基于所述文本置信度值，将所述组件组分类成文本组或非文本组。

18.根据权利要求17所述的文本检测装置，其中，所述组件组分类单元还被构造为：

根据所获得的特征，调整组件连接的所述文本置信度值；

其中，基于由所述组中的所有组件连接的调整后的文本置信度值而获得的组件组的文本置信度值，将所述组件组分类成文本组或非文本组。

19.一种文本信息提取方法，所述文本信息提取方法包括：

使用根据权利要求1-14中任一项所述的文本检测方法，来从输入的图像或输入的视频中检测文本区域；

从检测到的文本区域中提取文本；以及

识别所提取的文本，以获得文本信息。

20.根据权利要求19所述的文本信息提取方法，所述文本信息提取方法还包括：

在使用根据权利要求1-14中任一项所述的文本检测方法，从所述输入的视频中检测到所述文本区域的情况下，跟踪所述输入的视频中的文本。

21.一种文本信息提取系统，所述文本信息提取系统包括：

根据权利要求15-18中任一项所述的文本检测装置，所述文本检测装置被构造为从输入的图像或输入的视频中检测文本区域；

提取装置，被构造为从检测到的文本区域中提取文本；以及

识别装置，被构造为识别所提取的文本，以获得文本信息。

22.根据权利要求21所述的文本信息提取系统，其中，在所述文本检测装置被构造为从所述输入的视频中检测到所述文本区域的情况下，所述文本信息提取系统还包括：

跟踪装置，被构造为用于跟踪所述输入的视频中的文本。