CN107368830A

CN107368830A - 文本检测方法和装置以及文本识别系统

Info

Publication number: CN107368830A
Application number: CN201610319960.3A
Authority: CN
Inventors: 马彬
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-05-13
Filing date: 2016-05-13
Publication date: 2017-11-21
Anticipated expiration: 2036-05-13
Also published as: CN107368830B

Abstract

本发明提供一种文本检测方法和装置以及文本识别系统。本发明的一个方面公开了一种文本检测方法。该文本检测方法包括：获得获取的图像中的文本组件；基于特征相似性测度，获得针对各个文本组件的连接候选；基于该文本组件的连接候选的方向分布，计算针对各个文本组件的主方向；基于种子文本组件的主方向，由所述文本组件来确定至少一个种子文本组件；通过基于所述文本组件的主方向，将对应的文本组件附加到所述种子文本组件，来生成至少一个文本组件组；以及基于所述文本组件组，生成所获取的图像中的文本区域。根据本发明，将提高文本检测的精确度。

Description

文本检测方法和装置以及文本识别系统

技术领域

本发明涉及图像处理，尤其涉及例如文本检测方法和装置以及文本识别系统。

背景技术

自然场景图像和视频帧中的文本(例如布告牌中的文本、海报中的文本)通常携带用于视觉内容理解应用(诸如智能翻译、人机交互等等)的重要信息。文本检测技术是用于视觉内容理解应用的关键技术。然而，因为自然场景图像中的文本几乎没有任何固定的布局模式，所以在自然场景图像中的文本的布局复杂(例如在自然场景图像中，文本具有任意或多个方向)的情况下，容易得到错误的文本检测结果(即，属于不同文本的文本组件(component)将容易被检测为属于一个相同文本)。在“Robust Text Detection in Natural Scene Images”(Yin,X.-C.；Yin,X.；Huang,K.&Hao,H.-W.,IEEE Transactions on Pattern Analysis and MachineIntelligence,2013,36,970-983)(下文中简称为文档1)以及中国专利申请CN201210506072.4(下文中简称为文档2)中，公开了为解决上述多方向文本检测问题的两个示例性技术。

文档1和文档2中公开的主要操作包括：首先，通过使用两个或三个种子文本组件，初始化文本组件组，其中，基于文本组件之间的特征相似性测度(例如空间距离)和/或线性对准关系，来确定种子文本组件；第二，针对不在当前文本组件组内的一个文本组件，基于该文本组件与当前文本组件组中的末端文本组件之间的特征相似性测度，并且基于当前文本组件组的方向(例如当前文本组件组中的最后两个末端文本组件之间的连接的扩展方向，或者当前文本组件组内的文本组件之间的连接的平均方向)，来判断是否将该文本组件附加到当前文本组件组；第三，重复上述两个操作，直到所有的文本组件被处理。然后，最终获得的文本组件组将被用来生成对应的文本区域。

如上所述，首先将由所确定的种子文本组件来初始化文本组件组，然后将通过附加满足预定义的条件的其他对应的文本组件，来扩大文本组件组。因此，是否能够正确地确定种子文本组件，将直接影响文本检测结果。如文档1中所公开的，在两个文本组件之间的空间距离为最小的情况下，这两个文本组件将被确定为种子文本组件。如文档2中所公开的，在三个文本组件之间的空间距离满足空间距离限制，并且这三个文本组件满足线性对准关系的情况下，这三个文本组件将被确定为种子文本组件。然而，在某些情形中，与属于一个相同文本的文本组件相比，属于两个不同文本的两个文本组件可以具有最小的空间距离，例如如图1A所示的虚线框中的两个文本组件“禁”和“喫”。在某些情形中，例如文本被紧密布置，可能存在满足线性对准关系和空间距离限制的三个文本组件，例如图1B中所示的虚线框中的三个文本组件“江”、“禁”和“上”。因此，这些文本组件将被视为属于一个相同文本，并且将被错误地确定为种子文本组件。因此，最终的文本检测结果将是错误的。

发明内容

因此，鉴于上述背景技术中的陈述，本公开的目的是解决上述问题。

根据本发明的一个方面，提供了一种文本检测方法，所述文本检测方法包括：文本组件获得步骤，获得获取的图像中的文本组件；连接候选获得步骤，针对各个文本组件，基于该文本组件与该文本组件周围的文本组件之间的特征相似性测度，从该文本组件到该文本组件周围的文本组件的连接中，获得连接候选；主方向计算步骤，针对各个文本组件，基于该文本组件的连接候选的方向分布，计算该文本组件的主方向；种子文本组件确定步骤，基于种子文本组件的主方向和所述种子文本组件的连接候选的方向，由所述文本组件确定至少一个种子文本组件；文本组件组生成步骤，针对至少一个种子文本组件，通过基于所述文本组件的主方向，将对应的文本组件附加到所述种子文本组件，生成至少一个文本组件组；以及文本区域生成步骤，基于所述文本组件组，生成所述获取的图像中的文本区域。

利用本发明，将提高文本检测的精确度。

通过以下参照附图的描述，本发明的其他特征和优点将变得清楚。

附图说明

并入说明书中并构成说明书的一部分的附图，例示了本发明的实施例，并且与文字描述一起，用来解释本发明的原理。

图1A和图1B示意性示出了根据现有技术错误地确定种子文本组件的示例性自然场景图像。

图2是示意性示出能够实现根据本发明的实施例的技术的硬件构造的框图。

图3是例示根据本发明的实施例的文本检测装置的构造的框图。

图4示意性示出了根据本发明的实施例的文本检测处理的流程图。

图5是示意性示出图4中所示的步骤S430的处理的详细过程的流程图。

图6A示意性示出了一个文本组件到该文本组件周围的其他文本组件的示例性连接。

图6B示意性示出了在欧氏空间(Euclidean Space)中表示图6A中所示的连接的示例。

图6C示意性示出了极坐标空间(Polar Space)中表示图6A中所示的连接的示例。

图6D示意性示出了针对图6A中所示的连接而生成的示例性直方图。

图6E示出了针对图6A中所示的文本组件610而计算出的示例性主方向。

图6F示意性示出了图6D中所示的直方图的示例性加权直方图。

图7是示意性示出图4中所示的步骤S460的处理的详细过程的流程图。

图8是示意性示出图7中所示的步骤S4610的处理的详细过程的流程图。

图9A至图9F示意性示出了对应的文本组件的方向一致性测度的一些示例。

图10是示意性示出图4中所示的步骤S470的处理的详细过程的流程图。

图11示意性示出了沿一个种子文本组件的第一主方向的区域。

图12是示意性示出图10中所示的步骤S4720的处理的详细过程的流程图。

图13示意性示出了沿当前文本组件组的末端文本组件的第一主方向的区域。

图14是示意性示出图10中所示的步骤S4720的处理的另一详细过程的流程图。

图15示意性示出了沿一个种子文本组件的第二主方向的区域。

图16是示意性示出图10中所示的步骤S4730的处理的详细过程的流程图。

图17是示意性示出图10中所示的步骤S4730的处理的另一详细过程的流程图。

图18A至图18E示意性示出了根据本发明的一个自然场景图像的示例性文本检测处理。

图19例示了根据本发明的示例性文本识别系统的布置。

具体实施方式

下面，将参照附图详细描述本发明的示例性实施例。应当注意，以下描述在本质上仅仅是说明性的和示例性的，并且决不旨在限制本发明及其应用或用途。在实施例中阐述的组件和步骤的相对布置、数值表达式和数值不限制本发明的范围，除非另外具体说明。另外，本领域技术人员已知的技术、方法和设备可以不被详细讨论，但是在适当的情况下旨在作为本说明书的一部分。

请注意，在附图中，类似的附图标记和字母是指类似的项目，因此一旦在一个图中定义了项目，则不必针对后面的图进行讨论。

如上所述，在自然场景图像中，文本具有多个方向的情况下，容易确定错误的种子文本组件，并且通过使用该错误的种子文本组件得到错误的文本检测结果。经过分析，发明人发现不管自然场景图像中的文本的布局多么复杂，总是存在一些邻近结构清晰的文本组件，也就是说，总是存在一些到其邻近的文本组件的连接的方向一致的文本组件。并且本发明人还发现，通过使用这些各个文本组件作为种子文本组件来生成文本组件组，将改善文本检测结果(即，文本检测的精确度)。

因此，本发明提出了表示一个文本组件的连接的方向的主方向(即，第一主方向和第二主方向)。一个文本组件的主方向，是该文本组件的连接候选的大多数方向所集中的方向。其中，由一个文本组件到该文本组件周围的文本组件(即，邻近的文本组件)的连接，来确定该文本组件的连接候选，并且在下文中将描述详细处理。本发明还提出了估计一个文本组件的连接候选的方向的一致性的方向一致性测度。其中，一个文本组件的方向一致性测度越高，则该文本组件的邻近结构越清晰。

此外，本发明使用文本组件的方向一致性测度，来确定对应的种子文本组件。并且对于各个种子文本组件，本发明使用对应的文本组件的主方向之间的关系，来确定是否将对应的文本组件附加到该种子文本组件，以生成文本组件组。因此，通过使用本发明，针对文本的布局复杂的自然场景图像，将有效地提高文本检测精确度。

其中，本发明中描述的术语“组件”，是自然场景图像中的字符或噪声的基本元素，它通常表示具有相似的颜色和/或相似的笔划宽度并且在空间上彼此连接的一组像素。本发明中描述的术语“文本组件”是字符的基本元素，并且本发明中描述的术语“非文本组件”(即“噪声组件”)是噪声的基本元素。本发明中描述的术语“文本”或“文本组件组”表示具有相似的外观并且线性地对准(即具有线性对准关系)的一组文本组件。

(硬件构造)

首先，将参照图2描述能够实现下文中描述的技术的硬件构造。图2是示意性示出能够实现根据本发明的实施例的技术的硬件构造200的框图。

硬件构造200例如包括中央处理单元(CPU)210、随机存取存储器(RAM)220、只读存储器(ROM)230、硬盘240、输入设备250、输出设备260、网络接口270以及系统总线280。此外，可以通过例如个人数字助理(PDA)、移动电话、照相机、笔记本电脑、台式机、平板电脑或其他合适的电子设备，来实现硬件构造200。

CPU 210是任何合适的可编程控制设备(诸如处理器等)，并且通过执行在ROM 230或硬盘240(诸如存储器等)中存储的各种应用程序，来执行要在下文中描述的各种功能。RAM 220被用来暂时存储从ROM230或硬盘240加载的程序或数据，并且还用作CPU 210执行各种程序(例如实施通过参照图4至图18A至18E在下文中将详细描述的所公开的技术)以及其他可用的功能的空间。硬盘240存储多种信息，例如操作系统(OS)、各种应用、通过制造预先存储或预先生成的控制程序和数据，其中，数据可以是例如将在下文中描述的阈值(TH)。

在一个实施方式中，输入设备250是输入接口，并且例如接收从图像获取装置输出的自然场景图像，其中，图像获取装置可以是，例如照相机、数字照相机或其他合适的电子设备。并且输出设备260是输出接口，并且向将在下文中描述的后续操作，输出文本检测结果。

在另一实施例中，输入设备250使得用户能够与硬件构造200交互，例如使得用户能够通过输入设备250输入自然场景图像。并且输入设备250能够采取各种形式，诸如按钮、键盘或触摸屏等。输出设备260向用户显示文本检测结果。并且输出设备能够采取各种形式，诸如阴极射线管(CRT)或液晶显示器等。此外，如果硬件构造200是所谓的诸如智能移动电话、PDA、数字照相机、平板计算机或其他合适的电子设备等的设备，则可以一体地并入输入设备250和输出设备260。此外，如果硬件构造200是所谓的诸如普通的移动电话、笔记本电脑、台式机或其他合适的电子设备等的设备，则可以分离地并入输入设备250和输出设备260。

网络接口270提供用于将硬件构造200连接到网络(未示出)的接口。例如，硬件构造200经由网络接口270，进行与经由网络连接的其他电子设备的数据通信。作为选择，可以针对硬件构造200配设无线接口以进行无线数据通信。系统总线280提供了用于在CPU 210、RAM 220、ROM 230、硬盘240、输入设备250、输出设备260以及网络接口270等之间彼此传送数据的数据传送路径。虽然被称为总线，但是系统总线280并不限于任何特定的数据传送技术。

上述硬件构造200仅仅是说明性的，并且决不旨在限制本发明及其应用或用途。为简单起见，在图2中仅示出了一个硬件构造。然而，根据需要也能够使用多个硬件构造。

(文本检测装置的构造)

接下来，将参照图3描述本发明的文本检测的构造。图3是例示根据本发明的实施例的文本检测装置300的构造的框图。图3中所示的模块被实现为上面参照图2描述的CPU 210，并且用于执行加载到RAM 220的程序以及用于与图2中示出的各个硬件协作。可以通过专用硬件来实现一些块或所有块。

如图3中所示，根据本发明的实施例的文本检测装置300包括：文本组件获得单元310、连接候选获得单元320、主方向计算单元330、种子文本组件确定单元340、文本组件组生成单元350以及文本区域生成单元360。

首先，如上所述，图2中所示的输入设备250将获取从图像获取装置(诸如数字照相机等)输出的或者由用户输入的一个自然场景图像(诸如灰度图像或彩色图像等)。其次，输入设备250将经由系统总线280，将所获取的图像传送到文本组件获得单元310。

然后，如图3所示，文本组件获得单元310将通过系统总线280，从输入设备250获取所获取的图像，并且获得所获取的图像中的文本组件(对应于将在下文中详细描述的图4中所示的步骤S410)。

针对各个文本组件，连接候选获得单元320将基于该文本组件与该文本组件周围的文本组件之间的特征相似性测度，从该文本组件到该文本组件周围的文本组件的连接获得连接候选(对应于将在下文中详细描述的图4中所示的步骤S420)。

在一个实施方式中，连接候选获得单元320包括特征相似性测度计算单元321和连接候选确定单元322。其中，特征相似性测度计算单元321被构造为针对各个文本组件计算该文本组件与该文本组件周围的文本组件之间的特征相似性测度。并且连接候选确定单元322被构造为针对各个文本组件确定该文本组件到计算出的特征相似性测度大于或等于第一阈值的文本组件的连接，作为连接候选。

针对各个文本组件，主方向计算单元330将基于该文本组件的连接候选的方向分布，计算该文本组件的主方向(对应于将在下文中详细描述的图4中所示的步骤S430)。

种子文本组件确定单元340将基于种子文本组件的主方向以及种子文本组件的连接候选的方向，从文本组件中确定至少一个种子文本组件(对应于将在下文中详细描述的图4中所示的步骤S460)。

在一个实施方式中，种子文本组件确定单元340包括方向一致性测度计算单元341和种子文本组件选择单元342。其中，方向一致性测度计算单元341被构造为针对各个文本组件，基于该文本组件的主方向，计算该文本组件的连接候选的方向的方向一致性测度(对应于将在下文中详细描述的图7中所示的步骤S4610)。并且种子文本组件选择单元342被构造为选择具有最大的方向一致性测度的文本组件，作为种子文本组件(对应于将在下文中详细描述的图7中所示的步骤S4640)，其中，一个文本组件的方向一致性测度，表示该文本组件的连接候选的方向的一致性。

针对至少一个种子文本组件，文本组件组生成单元350将通过基于文本组件的主方向，将对应的文本组件附加到种子文本组件，来生成至少一个文本组件组(对应于将在下文中详细描述的图4中所示的步骤S470)。

在一个实施例中，文本组件组生成单元350包括第一生成单元351和/或第二生成单元352。其中，针对一个文本组件组，第一生成单元351被构造为通过基于文本组件的主方向，将沿种子文本组件的第一主方向的区域内的对应的文本组件，附加到该文本组件组，来生成该文本组件组(对应于将在下文中详细描述的图10中所示的步骤S4720)。并且第二生成单元352被构造为通过基于文本组件的主方向，将沿种子文本组件的第二主方向的区域内的对应的文本组件，附加到该文本组件组，来更新该文本组件组(对应于将在下文中详细描述的图10中所示的步骤S4730)。

然后，在生成所有的文本组件组之后，文本区域生成单元360将基于文本组件组，生成所获取的图像中的文本区域(对应于将在下文中详细描述的图4中所示的步骤S490)。

最后，文本区域生成单元360将经由系统总线280，将所生成的文本区域传送到图2中所示的输出设备260，用于向用户显示文本检测结果，或者用于将在下文中描述的后续操作(诸如文本识别)。

文本检测装置300中的各个单元能够被构造为进行将在下文中详细描述的图4至图17中的流程图中所示的各个步骤。

(文本检测处理)

将参照图4描述由图3中所示的构造(即文本检测装置300)执行的文本检测处理。图4示意性示出了根据本发明的实施例的文本检测处理的流程图400。

图4的流程图中例示的文本检测所需的程序与将在下文中详细描述的其他程序(诸如图5的流程图中例示的计算一个文本组件的主方向所需的程序、或图7的流程图中例示的确定种子文本组件所需的程序、或图10的流程图中例示的生成一个文本组件组所需的程序)一起被存储在硬盘240中。当文本检测装置300需要实施图4的流程图时，硬盘240中存储的程序将被展开到RAM 220中。稍后将描述的流程图的处理也被加载到RAM 220中，并由文本检测装置300以相同的方式实施。

如上所述，首先，图2中所示的输入设备250将获取从图像获取装置(诸如数字照相机等)输出的或者由用户输入的一个自然场景图像(诸如灰度图像或彩色图像等)。其次，输入设备250将经由系统总线280，将所获取的图像传送到文本组件获得单元310。

然后，如图4所示，在文本组件获得步骤S410中，文本组件获得单元310将通过系统总线280，从输入设备250获取所获取的图像，并且获得所获取的图像中的文本组件。

在一个实施方式中，文本组件获得步骤S410包括组件提取步骤和组件分类步骤(图4中未示出)。也就是说，首先，在组件提取步骤中，文本组件获得单元310将通过使用组件分析方法(诸如基于最大稳定极值区域(Maximally Stable Extremal Regions，MSER)的方法、基于颜色聚类(color clustering)的方法、基于二值化的方法等)，来提取所获取的图像中的组件。例如，在该实施例中，使用基于MSER的方法来提取组件。

然后，为了确保在后续的操作中不会对将影响文本检测的精确度的非文本组件(即噪声组件)进行处理，在组件分类步骤中，文本组件获得单元310将所提取的组件分类成文本组件和非文本组件。在一个实例中，首先，文本组件获得单元310将从组件中提取以下特征中的至少一者，其中，所述特征是例如从包含该组件的区域提取的组件的大小、组件的纵横比、组件的笔划宽度以及纹理特征(诸如局部二值模式(LocalBinary Pattern，LBP))。然后，文本组件获得单元310将使用所提取的特征作为分级滤波器，或者将所提取的特征输入到经过训练的(learned)分类器，以对所提取的组件进行分类。例如，在该实施例中，使用支持向量机(Support Vector Machine，SVM)分类器来区分文本组件和非文本组件。

现在返回到图4，在连接候选获得步骤S420中，连接候选获得单元320将基于第t个文本组件与第t个文本组件周围的文本组件之间的特征相似性测度，从第t个文本组件(例如第1个文本组件)到第t个文本组件周围的文本组件的连接中，获得连接候选。其中，t是自然数。

在一个实施方式中，连接候选获得步骤S420包括特征相似性测度计算步骤和连接候选确定步骤(图4中未示出)。也就是说，针对第t个文本组件(例如第1个文本组件)，首先，在特征相似性测度计算步骤中，特征相似性测度计算单元321将计算第t个文本组件与第t个文本组件周围的文本组件之间的特征相似性测度。其中，基于以下特征中的至少一者，来计算两个文本组件之间的特征相似性测度：这两个文本组件之间的空间距离、这两个文本组件之间的灰度/颜色差、这两个文本组件的边界框的高度/宽度比、这两个文本组件的笔画宽度比等。在一个实例中，通过使用下面的等式(1)和等式(2)，来计算文本组件A与文本组件B之间的特征相似性测度：

Sim(A,B)＝1-Dist(A,B)………(1)

其中，Sim(A,B)表示文本组件A与文本组件B之间的特征相似性测度，并且Dist(A,B)表示文本组件A与文本组件B之间的特征距离。Dist(A,B)是文本组件A与文本组件B之间的特征的特征值的加权和，N为特征的总数量，w为加权因子。此外，在该实施例中，w被统一设置为1/N，使得特征值被归一化到[0，1]的范围。因此，根据上述等式(1)和等式(2)，可以发现，越高的特征值表示越大的特征距离(即Dist(A,B))，并且越大的特征距离表示越低的特征相似性测度(即Sim(A,B))。

然后，在连接候选确定步骤中，连接候选确定单元322将确定第t个文本组件到计算出的特征相似性测度大于或等于预定阈值(例如TH1)的文本组件的连接，为第t个文本组件的连接候选。以一个计算出的特征相似性测度为例，首先，连接候选确定单元322将该特征相似性测度与TH1进行比较。然后，在该特征相似性测度大于或等于TH1的情况下，连接候选确定单元322将确定与该特征相似性测度相对应的两个文本组件之间的连接，作为一个连接候选。否则，在该特征相似性测度小于TH1的情况下，在图4中所示的步骤S430至S490的对应的操作中，将不使用与该特征相似性测度相对应的两个文本组件之间的连接。

现在返回到图4，在连接候选获得单元320获得第t个文本组件的连接候选之后，在主方向计算步骤S430中，主方向计算单元330将基于第t个文本组件的连接候选的方向分布，计算第t个文本组件的主方向。将参照图5至图6F，在下文中描述用于计算一个文本组件的主方向的详细处理。

在主方向计算单元330计算第t个文本组件的主方向之后，在步骤S440中，主方向计算单元330将判断所有的文本组件是否被处理。也就是说，主方向计算单元330将判断针对各个文本组件是否获得对应的连接候选和对应的主方向。在判定出并非所有的文本组件被处理的情况下，主方向计算单元330将在步骤S450中设置t＝t+1，并且处理将重复执行上述步骤S420至S430中的对应的操作。否则，处理将进行到图4中所示的种子文本组件确定步骤S460。

在种子文本组件确定步骤S460中，种子文本组件确定单元340将基于种子文本组件的主方向以及种子文本组件的连接候选的方向，由文本组件，确定种子文本组件。将参照图7至图9A至图9F，在下文中描述用于确定一个种子文本组件的详细处理。

然后，在种子文本组件确定单元340确定种子文本组件之后，在文本组件组生成步骤S470中，文本组件组生成单元350将通过基于文本组件的主方向，将对应的文本组件附加到该种子文本组件，来生成文本组件组。其中，将参照图10至图17，在下文中描述用于生成一个文本组件组的详细处理。

然后，在文本组件组生成单元350完成用于生成该文本组件组的对应的操作之后，在步骤S480中，文本组件组生成单元350将判断在文本组件获得步骤S410中获得的所有的文本组件是否被处理。在判定出并非所有的文本组件被处理的情况下，处理将重复执行上述步骤S460至S470中的对应的操作。否则，处理将进行到图4中所示的文本区域生成步骤S490。

在文本区域生成步骤S490中，文本区域生成单元360将基于文本组件组，生成所获取的图像中的文本区域。例如，文本区域可以是文本的边界框或文本的四边形，其中，一个文本对应于一个文本组件组，并且一个文本由该文本组件组中的对应的文本组件构成，一个边界框是包含一个文本的最小四边形。

以一个文本为例，文本区域生成单元360将基于该文本中的文本组件的矩形和该文本的串线(string line)，来生成对应的文本区域。在一个实例中，首先，文本区域生成单元360将通过该文本中的所有文本组件的中心的最小二乘回归，来获得串线。然后，文本区域生成单元360将通过平行移位该串线以覆盖该文本中的文本组件的最高点，来确定该文本的上边界线，并且以类似的方式确定该文本的下边界线。最后，文本区域生成单元360将基于该文本中的最左的文本组件的矩形和最右的文本组件的矩形，来确定该文本的左边界线和右边界线。由上边界线、下边界线、左边界线和右边界线构成的区域，将被视为该文本的文本区域。

(用于计算一个文本组件的主方向的详细处理)

在一个实施方式中，将参照图5来计算一个文本组件的主方向。图5是示意性示出图4中所示的步骤S430的处理的详细过程的流程图。

如图5所示，首先，在步骤S4310中，主方向计算单元330将计算该文本组件的连接候选的方向的角度值。

一个文本组件到另一个文本组件的连接是这两个文本组件之间的逻辑连接。如上所述，在这两个文本组件之间的特征相似性测度大于或等于TH1的情况下，这两个文本组件之间的连接是连接候选。换言之，连接候选是彼此相似的两个文本组件之间的逻辑连接。如图6A中所示，具有较大尺寸的黑色圆块610表示一个文本组件，而具有较小尺寸的五个黑色圆块620表示文本组件610的对应的相似文本组件，其中，图6A中所示的五个线段①-⑤表示例如文本组件610到各个文本组件620的连接，并且连接①-⑤是连接候选。

在图6B中示出了如下的一个示例，即，在欧氏空间中表示文本组件610的连接候选①-⑤。并且在图6C中示出了如下的另一示例，即，在极坐标空间中表示文本组件610的连接候选①-⑤。如图6B中所示，在欧氏空间中，连接候选②由其两个端点(x1,y1)和(x2,y2)的坐标来表示，其中，两个端点即两个文本组件。在如图6C所示欧氏空间被变换为极坐标空间的情况下，连接候选②被表示为具有极坐标(o,r)的点。也可以在图6B中所示的欧氏空间中说明“o”和“r”的物理意义，其中，“o”表示连接候选②的方向，“r”表示连接候选②的长度。由对应的角度值来表示一个连接候选的方向，其中，角度值可以是例如表示对应的连接候选的线段的角度或线段的弧度。在一个实例中，主方向计算单元330基于(x1,y1)和(x2,y2)通过下面的等式(3)来计算“o”和“r”：

其中，基于等式(3)计算出的角度值“o”是角度。

在另一实例中，主方向计算单元330基于(x1,y1)和(x2,y2)通过下面的等式(4)来计算“o”和“r”：

其中，基于等式(4)计算出的角度值“o”是弧度。

在该实施例中，角度范围[0,360]中的角度值被用作角度值的单位。因此，如图6C中所示，连接候选①-⑤的方向的角度值如下：连接候选①为225度；连接候选②为45度；连接候选③为240度；连接候选④为135度；并且连接候选⑤为340度。

在主方向计算单元330在图5中所示的步骤S4310中计算角度值之后，在步骤S4320中，主方向计算单元330将使该文本组件的连接候选的方向的角度值归一化到预定范围。例如，预定范围被设置为角度范围[0,180]。

如上所述，在该实施方式中，角度范围[0，360]中的角度值被用作角度值的单位。因此，角度值是角度范围[0，360]中的实数。然而，角度值中的一些应当被视为相对于方向对称的相同的值。例如，角度值为0度的连接候选和角度值为180度的连接候选，将被视为这两个连接候选二者具有同一方向(即水平方向)。因此，在该实施例中，主方向计算单元330将使角度值归一化如下：θ＝360–θ(如果θ≧180)；否则，θ＝θ。例如，针对图6C中所示的连接候选①-⑤的方向的角度值，归一化后的角度值如下：连接候选①为45度；连接候选②为45度；连接候选③为60度；连接候选④为135度；并且连接候选⑤为160度。

然后，在步骤S4330中，主方向计算单元330将基于归一化后的角度值和该文本组件的连接候选的数量，来生成直方图。在一个实例中，归一化后的角度值的整个范围(即，角度范围[0,180])，被划分成一系列小间隔(x轴)，并且各个小间隔对应于直方图柱(histogram bin)。基于实际应用和/或经验来设置各个直方图柱的宽度。在该实施例中，例如，各个直方图柱的宽度被设置为10度，并且直方图值(y轴)是归一化后的角度值属于对应的直方图柱的连接候选的数量。

图6D示出了针对图6A中所示的连接候选①-⑤生成的示例性直方图。如上所述，可以发现连接候选①和连接候选②具有相同的归一化后的角度值(即45度)，因此，它们二者均属于角度范围为[40，50)的直方图柱，并且对应的直方图值为2。另外，其他各个连接候选③-⑤具有不同的归一化后的角度值，因此，它们分别属于不同的直方图柱，并且各个直方图柱的对应的直方图值为1。

在主方向计算单元330在图5中所示的步骤S4330中生成对应的直方图之后，在步骤S4340中，主方向计算单元330将分配与最高的直方图柱相对应的角度值，作为该文本组件的第一主方向的角度值。在一个实例中，主方向计算单元330分配与最高的直方图柱相对应的角度值中的任何一个，作为该文本组件的第一主方向的角度值。例如，如图6D中所示，最高的直方图柱是直方图值为2并且对应的角度范围为[40，50)的直方图柱，因此角度范围[40，50)内的角度值(诸如42度、44度等)中的任何一个，被分配为该文本组件的第一主方向的角度值。在另一实例中，为了减少计算该文本组件的主方向期间的平均量化误差，主方向计算单元330分配与最高的直方图柱相对应的角度值的中间值或平均值，作为该文本组件的第一主方向的角度值。以图6D中所示的最高的直方图柱为例，角度范围[40，50)内的角度值的平均值(即45度)，被分配为该文本组件的第一主方向的角度值。

然后，在步骤S4350中，主方向计算单元330将分配与该文本组件的第一主方向相反的方向的角度值，作为该文本组件的第二主方向的角度值。如上所述，在该实施例中，主方向计算单元330分配与最高的直方图柱相对应的角度值的平均值，作为该文本组件的第一主方向的角度值。因此，如图6D中所示，图6A中所示的文本组件610的第一主方向的角度值(例如θ_m1)为45度。并且文本组件610的第二主方向的角度值(例如θ_m2)为225度，也就是说，θ_m2＝180+θ_m1。图6E示出了针对图6A中所示的文本组件610计算出的示例性主方向。其中，文本组件610中的一个箭头的方向表示第一主方向，并且文本组件610中的另一箭头的方向表示第二主方向。

另外，为了生成区分度更高的直方图并获得更精确的主方向，当在图5中所示的步骤S4330中生成直方图时，主方向计算单元330还将通过由该连接候选连接的两个文本组件之间的特征相似性测度，对该文本组件的各个连接候选的数量进行加权，其中，能够基于图4中所示的上述步骤S420中描述的说明，来计算在此使用的特征相似性测度。也就是说，所生成的直方图可以是加权直方图。

以图6A中所示的五个连接候选①-⑤为例，假设针对各个连接候选①-⑤的对应的特征相似性测度分别为2.5、2.3、1.8、3、1.2。因此，在由对应的特征相似性测度对各个连接候选①-⑤的数量进行加权之后，图6D中所示的最高的直方图柱的加权直方图值将为4.8，也就是说，加权直方图值＝连接候选①的数量(即1)*连接候选①的特性相似性测度(即2.5)+连接候选②的数量(即1)*连接候选②的特性相似性测度(即2.3)。图6F示出了图6D中所示的直方图的示例性加权直方图。如图6D中所示，最高的直方图柱的直方图值为2，并且最低的直方图柱的直方图值为1。然而，如图6F中所示，最高的直方图柱的加权直方图值为4.8，而最低的直方图柱的加权直方图值为1.2。因此，加权直方图区分度更高。

此外，在某些特殊情形下，通过使用如图5中描述的上述处理，无法获得特定文本组件的主方向。例如，一个文本组件的连接候选的方向分布是均匀的，因此，在所生成的直方图中无法找到最高的直方图柱，并且无法计算该文本组件的主方向。在这种情形下，这些文本组件的主方向将被暂时记录为待确定(TBD)。

(确定一个种子文本组件的详细处理)

如上所述，无论能否正确地确定种子文本组件，都将直接影响文本检测结果。因此，为了确定正确的种子文本组件，使得能够提高文本检测的精确度，本发明使用邻近结构清晰的文本组件(即这些文本组件的连接候选的方向是一致的)，作为种子文本组件。将参照图7，由当前未被附加到任何文本组件组的文本组件，来确定这种种子文本组件。

图7是示意性示出图4中所示的步骤S460的处理的详细过程的流程图。其中，基于图7中所示的过程而确定的种子文本组件，将被用来在图4中所示的文本组件组生成步骤S470中生成文本组件组。

如图7中所示，针对当前未被附加到任何文本组件组的文本组件，在方向一致性测度计算步骤S4610中，方向一致性测度计算单元341将基于第t个文本组件的主方向，计算第t个文本组件(例如第1个文本组件)的连接候选的方向的方向一致性测度。其中，一个文本组件的方向一致性测度，表示该文本组件的连接候选的方向的一致性。

在一个实施方式中，参照图8，计算一个文本组件的连接候选的方向的方向一致性测度。图8是示意性示出图7中所示的步骤S4610的处理的详细过程的流程图。

如图8中所示，首先，在步骤S4611中，方向一致性测度计算单元341将确定该文本组件的第一或第二主方向的角度值(例如θ_m1或θ_m2)与该文本组件的连接候选的方向的角度值(例如θ(n))之间的差值。在一个实例中，针对该文本组件的一个连接候选，将基于下面的步骤来确定对应的差值：

首先，方向一致性测度计算单元341将计算该文本组件的第一主方向的角度值与该连接候选的方向的角度值之间的第一差值。例如，第一差值＝|θ(n)-θ_m1|。

第二，方向一致性测度计算单元341将计算该文本组件的第二主方向的角度值与该连接候选的方向的角度值之间的第二差值。例如，第二差值＝|θ(n)-θ_m2|。

然后，方向一致性测度计算单元341将选择第一差值与第二差值之间的较小的一个，作为所确定的差值。

以图6E中所示的文本组件610的第一主方向和第二主方向以及对应的连接候选①-⑤为例，针对连接候选①和连接候选③，所确定的差值对应于第二差值。针对连接候选②和连接候选⑤，所确定的差值对应于第一差值。针对连接候选④，因为第一差值等于第二差值，所以所确定的差值对应于第一差值或第二差值。

在方向一致性测度计算单元341在图8中所示的步骤S4611中确定对应的差值之后，在步骤S4612中，方向一致性测度计算单元341将各个所确定的差值与预定阈值(例如TH2)进行比较，其中，可以基于实际应用和/或经验，来预先定义TH2。在一个所确定的差值小于或等于TH2的情况下，在步骤S4613中，方向一致性测度计算单元341将对应的连接分类为第一类连接。其中，第一类连接例如被表示为L1＝{n|min{|θ(n)-θ_m1|,|θ(n)-θ_m2|}≤TH2}，并且L1中的一个连接表示该连接的方向与该文本组件的主方向彼此一致。并且在一个所确定的差值大于TH2的情况下，在步骤S4614中，方向一致性测度计算单元341将对应的连接分类为第二类连接。其中，第二类连接例如被表示为L2＝{n|min{|θ(n)-θ_m1|,|θ(n)-θ_m2|}＞TH2}，并且L2中的一个连接表示该连接的方向与该文本组件的主方向存在大的差异。

以图6E中所示的连接候选①-⑤为例，由虚线和弧线构成的两个区域表示这些区域中的连接是所确定的差值为小于或等于TH2的连接。如图6E中所示，连接候选①-③属于L1，并且连接候选④-⑤属于L2。

然后，在步骤S4615中，方向一致性测度计算单元341将基于第一类连接L1的尺寸测度和第二类连接L2的尺寸测度，来计算方向一致性测度。

首先，针对尺寸测度，假设例如由算子|·|来表示尺寸测度。因此，可以由|L1|来表示L1的尺寸测度，并且可以由|L2|来表示L2的尺寸测度。在一个实例中，由L1的数量来表示|L1|，并且由L2的数量来表示|L2|。以图6E中所示的连接候选①-⑤为例，如上所述，连接候选①-③属于L1且连接候选④-⑤属于L2，因此，|L1|＝3且|L2|＝2。另外，在某些情形下，L1的数量和L2的数量将彼此非常接近，例如L1的数量与L2的数量相同。为了区别|L1|和|L2|，并且为了获得更精确的方向一致性测度，在另一实例中，|L1|是指该文本组件与对应于L1中的连接的文本组件之间的特征相似性测度，并且|L2|是指该文本组件与对应于L2中的连接的文本组件之间的特征相似度测度，其中，可以基于图4中所示的上述步骤S420中描述的说明，来计算在此使用的特征相似性测度。以图6E中所示的连接候选①-⑤为例，如上所述，针对各个连接候选①-⑤的对应的特征相似性测度分别为2.5、2.3、1.8、3、1.2，因此，|L1|＝2.5+2.3+1.8＝6.6且|L2|＝3+1.2＝4.2，也就是说，由对应的特征相似性测度的和来表示|L1|和|L2|。

第二，针对方向一致性测度，如上所述，一个文本组件的方向一致性测度越高，则该文本组件的邻近结构越清晰。也就是说，|L1|越大(即，连接候选的大部分被分类为第一类连接)，则该文本组件的方向一致性测度越高。因此，例如，可以基于|L1|和|L2|由下面的等式之一来计算方向一致性测度：

基于差的等式：方向一致性测度＝|L1|-|L2|；或

基于比的等式：或

基于百分比的等式：

图9A至图9F中示出了针对对应的文本组件的方向一致性测度的一些示例。如图9A至图9F中所示，一个圆圈表示一个文本组件，一个圆圈中的带双箭头的一条线表示对应的文本组件的主方向，一条实线表示L1中的一个连接，一条虚线表示L2中的一个连接。其中，图9D至图9F中所示的一条实线或一条虚线旁边的一个值，表示对应于连接的两个文本组件之间的特征相似性测度。在图9A至图9C中，分别由L1的数量和L2的数量来表示|L1|和|L2|，并且通过使用上述基于百分比的等式来计算对应的方向一致性测度。在图9D至图9F中，分别由对应的特征相似性测度的和来表示|L1|和|L2|，并且也通过使用上述的基于百分比的等式来计算对应的方向一致性测度。

如图9A和图9D中所示，可以发现，一个文本组件的方向一致性测度越高，则该文本组件的邻近结构越清晰，这意味着该文本组件到其邻近的文本组件的连接的方向(即该文本组件的上述的连接候选)更为一致。如图9C和图9F中所示，可以发现，一个文本组件的方向一致性测度越低，则该文本组件的邻近结构越复杂，这意味着该文本组件到其邻近的文本组件的连接的方向(即该文本组件的上述的连接候选)更为杂乱。如图9B和图9E中所示，可以发现，通过使用特征相似性测度，|L1|和|L2|将彼此更有区别，并且方向一致性测度将更为精确(即方向一致性测度可以更为精确地反映该文本组件的连接候选的方向是否一致)。

因此，在该实施例中，由第一和与第二和的比来表示方向一致性测度，其中，第一和(即，|L1|)是该文本组件与对应于第一类连接的文本组件之间的特征相似性测度的和，第二和(即，|L1|+|L2|)是该文本组件与对应于第一类连接的文本组件之间的特征相似性测度、与该文本组件与对应于第二类连接的文本组件之间的特征相似性测度的和。也就是说，在该实施例中，由上述基于百分比的等式来计算方向一致性测度，并且分别由对应的特征相似性测度的和来表示|L1|和|L2|。

现在返回到图7，在方向一致性测度计算单元341计算第t个文本组件的连接候选的方向的方向一致性测度之后，在步骤S4620中，方向一致性测度计算单元341将判断所有的文本组件是否被处理。也就是说，方向一致性测度计算单元341将判断针对各个文本组件是否计算了出对应的方向一致性测度。在判断出并非所有的文本组件被处理的情况下，方向一致性测度计算单元341将在步骤S4630中设置t＝t+1，并且将重复执行上述的步骤S4610至S4620中的对应的操作。否则，处理将进行到图7中所示的种子文本组件选择步骤S4640。

在种子文本组件选择步骤S4640中，种子文本组件选择单元342将选择具有最大的方向一致性测度的文本组件，作为种子文本组件。在一个实例中，种子文本组件选择单元342首先将根据所有文本组件的方向一致性测度以降序对所有文本组件排序，然后将选择具有最大的方向一致性测度的第一个文本组件作为种子文本组件。另外，在种子文本组件选择步骤S4640中，在存在多于一个对应于最大的方向一致性测度的文本组件的情况下，在一个实例中，种子文本组件选择单元342将从这些文本组件中随机选择一个文本组件，作为种子文本组件。在另一实例中，鉴于人的阅读习惯，种子文本组件选择单元342将选择这些文本组件中的最靠近所获取的图像的边界的一个文本组件，作为种子文本组件。

(生成一个文本组件组的详细处理)

如上所述，在确定种子文本组件之后，在图4所示的文本组件组生成步骤S470中，基于文本组件的主方向，将对应的文本组件附加到该种子文本组件，来生成一个文本组件组。参照图10，当前未被附加到任何文本组件组并满足一定条件的文本组件，将被附加到一个文本组件组。

如图10中所示，针对一个当前文本组件组，在步骤S4710中，文本组件组生成单元350将判断当前文本组件组的末端文本组件，是在沿种子文本组件的第一主方向的区域内，还是在沿种子文本组件的第二主方向的区域内。在当前文本组件组的末端文本组件是在沿种子文本组件的第一主方向的区域内的情况下，过程将转到第一生成步骤S4720。而在当前文本组件组的末端文本组件是在沿种子文本组件的第二主方向的区域内的情况下，过程将进行到第二生成步骤S4730。其中，在当前文本组件组仅包括种子文本组件(即当前文本组件组的末端文本组件是种子文本组件)的情况下，文本组件组生成单元350将判断出当前文本组件组的末端文本组件是在沿种子文本组件的第一主方向的区域内并且在沿种子文本组件的第二主方向的区域内。因此，在这种情形下，过程将分别执行第一生成步骤S4720和第二生成步骤S4730。

在一个实施方式中，沿种子文本组件的第一主方向的区域是扇形区域，并且基于种子文本组件的几何特征由下面的等式(5)来定义：

R＝(o,m,w,r)………(5)

图11示意性示出了沿一个种子文本组件的第一主方向的区域。如图11中所示，黑色圆块表示一个种子文本组件，并且灰色扇形区域表示上述沿种子文本组件的第一主方向的区域。

等式(5)中的参数o表示扇形区域的原点位置。在该实施例中，它被设置为种子文本组件的中心位置。

等式(5)中的参数m表示扇形区域的中间线的角度值，其中，参数m可以确定扇形区域的大致方向。在该实施例中，它被设置为种子文本组件的第一主方向。

等式(5)中的参数w表示扇形区域的宽度。在一个实例中，参数w被设置为预定值(例如TH_w)，其中，基于实际应用来设置TH_w。例如，在所获取的图像包含多个卷曲文本的情况下，将TH_w设置为高值以确定宽的扇形区域，使得将会增加文本组件组生成处理的灵活性。针对另一示例，在所获取的图像包含多个直文本的情况下，将TH_w设置为低值以确定窄的扇形区域，使得可以沿严格直线方向来执行文本组件组生成处理。在另一实例中，基于种子文本组件的方向一致性测度来确定参数w。例如，参数w被确定为w＝TH_w*(1–方向一致性测度)，其中，由上述基于百分比的等式来计算方向一致性测度。因此，在种子文本组件的方向一致性测度为高的情况下，扇形区域的宽度将自动缩小，以降低将错误的文本组件附加到当前文本组件组的可能性。

等式(5)中的参数r表示扇形区域的半径。在一个实例下，参数r被设置为预定值(例如TH_r)，其中，基于实际应用来设置TH_r。在另一实例中，基于种子文本组件的方向一致性测度来确定参数r。例如，参数r被确定为r＝TH_r*方向一致性测度。因此，在种子文本组件的方向一致性测度为高的情况下，扇形区域的半径将自动扩大以增加找到可以附加到当前文本组件组的正确的文本组件的可能性。

另外，可以与如上所述确定沿种子文本组件的第一主方向的区域类似地，来确定沿种子文本组件的第二主方向的区域。因此，在此将不重复详细描述。

现在返回到图10，在第一生成步骤S4720中，文本组件组生成单元350(即第一生成单元351)将基于文本组件的主方向，将沿种子文本组件的第一主方向的区域内的对应的文本组件，附加到当前文本组件组。其中，将参照图12和图14在下文中描述步骤S4720的详细处理。

在第二生成步骤S4730中，文本组件组生成单元350(即第二生成单元352)将基于文本组件的主方向，将沿种子文本组件的第二主方向的区域内的对应的文本组件，附加到当前文本组件组。其中，将参照图15和图17在下文中描述步骤S4730的详细处理。

然后，在步骤S4740中，文本组件组生成单元350将判断步骤S4720和步骤S4730中的生成操作二者是否终止。在步骤S4720或步骤S4730中的生成操作未终止的情况下，也就是说，存在仍可能被附加到当前文本组件组的其他文本组件，因此，过程将返回到步骤S4710，并重复步骤S4710至S4730中的操作。否则，用于生成该当前文本组件组的过程将终止。

在一个实施方式中，将参照图12描述第一生成步骤S4720的详细处理。图12是示意性示出图10中所示的步骤S4720的处理的详细过程的流程图。

如图12中所示，针对沿种子文本组件的第一主方向的区域内的当前文本组件组的末端文本组件，在距离计算步骤S4721中，第一生成单元351将计算末端文本组件与末端文本组件周围且未被附加到任何文本组件组的文本组件之间的距离。在一个实例中，距离是空间上的距离，并且由欧氏距离表示。

在文本组件候选确定步骤S4722中，第一生成单元351将确定具有最小距离的文本组件，作为文本组件候选。

在确定文本组件候选之后，在步骤S4723中，第一生成单元351将计算末端文本组件的第一主方向的角度值与文本组件候选的第一主方向的角度值之间的差值。并且在步骤S4724中，第一生成单元351将判断计算出的差值是否小于预定阈值(例如TH3)，其中，可以基于实际应用和/或经验来预先定义TH3。在计算出的差值大于或等于TH3的情况下，第一生成步骤S4720的处理将终止。否则，在计算出的差值小于TH3的情况下，也就是说，在末端文本组件的第一主方向与文本组件候选的第一主方向彼此一致的情况下，在附加步骤S4725中，第一生成单元351将文本组件候选附加到当前文本组件组。并且在附加步骤S4725之后，因为第一生成步骤S4720的处理未终止，所以文本组件组生成单元350将在图10中所示的步骤S4740中，判断出步骤S4720中的生成操作未终止。

如上所述，由末端文本组件周围且未被附加到任何文本组件组的文本组件，来确定文本组件候选。为了降低计算复杂性并且防止错误的文本组件被附加到当前文本组件组，在第一生成单元351在图12中所示的距离计算步骤S4721中计算距离之前，第一生成步骤S4720的处理还包括区域确定步骤(例如图14中所示的区域确定步骤S1401)。在区域确定步骤S1401中，第一生成单元351将基于末端文本组件的几何特征，来确定沿当前文本组件组的末端文本组件的第一主方向的区域。与如上所述确定沿种子文本组件的第一主方向的区域类似地，确定沿当前文本组件组的末端文本组件的第一主方向的区域。因此，在此将不重复详细描述。图13示意性示出了沿当前文本组件组的末端文本组件的第一主方向的区域。如图13中所示，黑色圆块和圆圈分别表示种子文本组件和当前文本组件组的末端文本组件，灰色扇形区域表示沿末端文本组件的第一主方向的区域。然后，在图12中所示的距离计算步骤S4721中，第一生成单元351将计算末端文本组件与区域内的且未被附加到任何文本组件组的文本组件之间的距离。

此外，为了防止与末端文本组件不相似的文本组件(例如末端文本组件为黑色字符，白色字符的文本组件与末端文本组件不相似)被附加到当前文本组件组，在另一实施例中，将参照图14描述第一生成步骤S4720的详细处理。图14是示意性示出图10中所示的步骤S4720的处理的另一详细过程的流程图。

如图14中所示，如上所述，首先，在区域确定步骤S1401中，第一生成单元351将基于末端文本组件的几何特征，确定沿当前文本组件组的末端文本组件的第一主方向的区域。

然后，在特征相似性测度计算步骤S1402中，第一生成单元351将计算末端文本组件与区域内的且未被附加到任何文本组件组的文本组件之间的特征相似性测度。其中，可以基于例如图4中所示的S420中描述的说明，来计算在该实施例中使用的特征相似性测度。

在文本组件去除步骤S1403中，第一生成单元351将去除计算出的特征相似性测度小于预定阈值(例如TH4)的、区域内的且未被附加到任何文本组件组的文本组件，其中，可以基于实际应用和/或经验来预先定义TH4。

然后，在距离计算步骤S4721中，第一生成单元351将计算末端文本组件与在文本组件去除步骤S1403中未去除的文本组件之间的距离。由于图14中所示的步骤S4721至S4725与图12中所示的步骤S4721至S4725相同，因此，在此将不重复详细描述。

针对沿种子文本组件的第二主方向的区域(例如图15中所示的灰色扇形区域)内的当前文本组件组的末端文本组件，在一个实施方式中，在图16中示出了图10中所示的第二生成步骤S4730的详细处理。此外，在另一实施例中，在图17中示出了第二生成步骤S4730的详细处理。

如图15中所示，黑色圆块表示当前文本组件组的种子文本组件，灰色扇形区域表示上述沿种子文本组件的第二主方向的区域。其中，图15中所示的最右边的圆圈，表示例如基于上述的第一生成步骤S4720而附加到当前文本组件组的最终文本组件。

比较图16与图12，除了第二生成步骤S4730与第一生成步骤S4720之间的主要区别之外，图16中所示的第二生成步骤S4730的详细处理与图12中所示的第一生成步骤S4720的处理基本相同，所述主要区别为：将第一生成步骤S4720中使用的第一主方向改变成第二主方向(例如将沿种子文本组件的第一主方向的区域改变成沿种子文本组件的第二主方向的区域，将末端文本组件的第一主方向改变成末端文本组件的第二主方向，以及将文本组件候选的第一主方向改变成文本组件候选的第二主方向)。因此，在此将不重复针对图16中所示的第二生成步骤S4730的处理的详细描述。另外，与图12和图16类似，图17中所示的第二生成步骤S4730的详细处理与图14中所示的第一生成步骤S4720的处理也基本相同，因此，在此也将不重复针对图17中所示的第二生成步骤S4730的处理的详细描述。另外，可以基于实际应用和/或经验来预先定义预定阈值(例如步骤S4734中使用的TH5以及步骤S1703中使用的TH6)。

如上所述，在某些特殊情形下，在图4中所示的主方向计算步骤S430中，特定文本组件的主方向将被记录为TBD。针对这种文本组件，在一个实施方式中，在生成文本组件组期间，这种文本组件将不参与对应的处理。在生成了所有的文本组件组之后，文本组件组生成单元350将评价这种文本组件与文本组件组中的文本组件之间的特征相似性测度。其中，基于例如图4中所示的S420中描述的说明，来计算该实施例中使用的特征相似性测度。然后，文本组件生成单元350将基于所评价的特性相似性测度，将这种各个文本组件附加到对应的文本组件组。例如，这种文本组件中的一个将被附加到一个文本组件组，其中，该文本组件与该文本组件组的末端文本组件之间的空间上的距离最小。

图18A至图18E示意性示出了根据本发明的用于一个自然场景图像的示例性文本检测处理。图18A示出了示例性自然场景图像。图18B中所示的各个圆圈，表示从图18A中所示的自然场景图像中的矩形获得的文本组件。如图18C中所示，对应的圆圈中的带双箭头的一条线表示该文本组件的主方向，一条实线表示L1中的一个连接，一条虚线表示L2中的一个连接。一个圆圈旁边的一个值表示该文本组件的对应的方向一致性测度。一个虚线圆圈表示主方向为TBD的文本组件。其中，黑色圆块表示一个确定的种子文本组件。如图18D中所示，针对一个文本组件组，在一个方向上的单箭头表示例如该文本组件组的第一生成处理。并且在另一方向上的单箭头表示例如该文本组件组的第二生成处理。其中，由于文本组件1801的主方向与文本组件1802的主方向显著不同，因此在文本组件1801被附加到该文本组件组之后，针对该文本组件组的第二生成处理将终止。图18E示出了该自然场景图像的最终文本检测结果。

如上所述，本发明使用文本组件的方向一致性测度，来确定对应的种子组件，并且使用对应的文本组件的主方向之间的关系，来确定是否将对应的文本组件附加到对应于种子文本组件的一个文本组件组。因此，通过使用本发明，针对文本的布局复杂的自然场景图像，将有效地提高文本检测精确度。

(文本识别系统)

如上所述，从图3中所示的文本检测装置300输出的文本检测结果(即所生成的文本区域)，可以用于文本识别。因此，接下来将参照图19描述示例性文本识别系统作为上述文本检测的示例性应用。图19示出了根据本发明的示例性文本识别系统1900的布置。

如图19中所示，根据本发明的文本识别系统1900包括图像获取装置1910、上述文本检测装置300、文本提取装置1920以及文本识别装置1930。

如上所述，首先，图像获取装置1910将拍摄自然场景图像。图像获取装置1910可以例如与文本检测装置300直接或经由网络(未示出)连接。并且图像获取装置1910可以是任何类型的电子设备，只要它们能够拍摄图像即可，例如摄像机、网络摄像机、数字照相机、移动电话、PDA、笔记本电脑或其他合适的电子设备等。

第二，由图像获取装置1910拍摄的图像将被发送到文本检测装置300的输入设备250。并且文本检测装置300将根据上述参照图3至图18的描述，生成所获取的图像中的文本区域。

第三，文本提取装置1920将从所生成的文本区域提取文本。在一个实例中，文本提取装置1920可以从所生成的文本区域的背景，分离文本的前景。然后，文本识别装置1930将识别所提取的文本。

最后，文本识别结果将被发送到文本识别系统1900的输出设备(未示出)，其中，文本识别系统1900的输出设备可以是扬声器和/或显示器，并且输出设备可以例如与文本识别系统1900直接或经由网络(未示出)连接。在输出设备是扬声器的情况下，文本识别结果将被转换成对应的语音，并且扬声器将向用户输出对应的语音。在输出设备是显示器的情况下，显示器将直接向用户显示文本识别结果。

如上所述，通过使用本发明可以提高文本检测的精确度，因此，通过使用本发明，也可以提高文本识别系统1900的文本识别精确度。

上述的所有单元是用于实现本公开中描述的处理的示例性和/或优选模块。这些单元能够是硬件单元(诸如现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如计算机可读程序等)。上面未穷尽地描述用于实现各种步骤的单元。然而，存在进行特定处理的步骤，可以是用于实现相同处理的对应的功能模块或单元(由硬件和/或软件来实现)。所描述的步骤以及对应于这些步骤的单元的所有组合的技术方案都包括在本申请的公开中，只要它们构成的技术方案是完整的且可应用的。

此外，在由各种单元构成的图3中所示的文本检测装置300部分地或全部地由软件构成的情况下，其可以被存储在图2中所示的硬盘240中。在另一方面，在图3中所示的文本检测装置300部分地或全部地由硬件或固件构成的情况下，其也可以作为功能模块被并入电子设备，只要在电子设备中存在对文本检测处理的需要即可。

能够以多种方式实施本发明的方法和装置。例如，能够通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。上述的方法的步骤的顺序仅仅意在说明，并且本发明的方法的步骤不限于上面具体描述的顺序，除非另有具体声明。此外，在一些实施例中，本发明还可以体现为记录在记录介质中的程序，包括用于实现根据本发明的方法的机器可读指令。因此，本发明还涵盖存储用于实现根据本发明的方法的程序的记录介质。

虽然利用示例详细论证了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅仅意在说明而不限制本发明的范围。本领域技术人员应当理解，在不脱离本发明的范围和精神的情况下能够对上述实施例变型。本发明的范围由所附的权利要求限定。

Claims

1.一种文本检测方法，所述文本检测方法包括：

文本组件获得步骤，获得获取的图像中的文本组件；

连接候选获得步骤，针对各个文本组件，基于该文本组件与该文本组件周围的文本组件之间的特征相似性测度，从该文本组件到该文本组件周围的文本组件的连接中，获得连接候选；

主方向计算步骤，针对各个文本组件，基于该文本组件的连接候选的方向分布，计算该文本组件的主方向；

种子文本组件确定步骤，基于种子文本组件的主方向和所述种子文本组件的连接候选的方向，由所述文本组件确定至少一个种子文本组件；

文本组件组生成步骤，针对至少一个种子文本组件，通过基于所述文本组件的主方向，将对应的文本组件附加到所述种子文本组件，生成至少一个文本组件组；以及

文本区域生成步骤，基于所述文本组件组，生成所述获取的图像中的文本区域。

2.根据权利要求1所述的文本检测方法，其中，针对各个文本组件，所述连接候选获得步骤包括：

第一特征相似性测度计算步骤，计算该文本组件与该文本组件周围的文本组件之间的特征相似性测度；以及

连接候选确定步骤，确定该文本组件到计算出的特征相似性测度大于或等于第一阈值的文本组件的连接，作为连接候选。

3.根据权利要求1所述的文本检测方法，其中，所述主方向计算步骤包括：

将所述连接候选的方向的角度值归一化到预定范围；

基于所归一化的角度值和所述连接候选的数量，生成直方图；

分配与最高的直方图柱相对应的角度值，作为该文本组件的第一主方向的角度值；以及

分配与该文本组件的第一主方向相反的方向的角度值，作为该文本组件的第二主方向的角度值。

4.根据权利要求3所述的文本检测方法，其中，通过由该连接候选连接的两个文本组件之间的特征相似性测度，对各个连接候选的数量进行加权。

5.根据权利要求3所述的文本检测方法，其中，所述种子文本组件确定步骤包括：

方向一致性测度计算步骤，针对各个文本组件，基于该文本组件的主方向，计算该文本组件的连接候选的方向的方向一致性测度；以及

种子文本组件选择步骤，选择具有最大的方向一致性测度的文本组件，作为所述种子文本组件；

其中，一个文本组件的方向一致性测度表示该文本组件的连接候选的方向的一致性。

6.根据权利要求5所述的文本检测方法，其中，所述方向一致性测度计算步骤包括：

确定该文本组件的第一主方向或第二主方向的角度值、与所述连接候选的方向的角度值之间的差值；

将所确定的差值小于或等于第二阈值的连接候选分类为第一类连接，并且将其他连接候选分类为第二类连接；以及

基于所述第一类连接的尺寸测度和所述第二类连接的尺寸测度，计算所述方向一致性测度。

7.根据权利要求6所述的文本检测方法，其中，针对一个连接候选，差值的确定步骤包括：

计算该文本组件的第一主方向的角度值与该连接候选的方向的角度值之间的第一差值；

计算该文本组件的第二主方向的角度值与该连接候选的方向的角度值之间的第二差值；以及

选择所述第一差值与所述第二差值之间较小的一个，作为所确定的差值。

8.根据权利要求6所述的文本检测方法，其中，所述第一类连接的尺寸测度和所述第二类连接的尺寸测度至少包括：

所述第一类连接的数量和所述第二类连接的数量；或

该文本组件与对应于所述第一类连接的文本组件之间的特征相似性测度，以及该文本组件与对应于所述第二类连接的文本组件之间的特征相似性测度。

9.根据权利要求8所述的文本检测方法，其中，所述方向一致性测度是第一和与第二和的比，其中，所述第一和是该文本组件与对应于所述第一类连接的文本组件之间的特征相似性测度的和，所述第二和是该文本组件与对应于所述第一类连接的文本组件之间的特征相似性测度、与该文本组件与对应于所述第二类连接的文本组件之间的特征相似性测度的和。

10.根据权利要求3所述的文本检测方法，其中，针对一个文本组件组，所述文本组件组生成步骤包括：

第一生成步骤，通过基于所述文本组件的主方向，将沿所述种子文本组件的第一主方向的区域内的对应的文本组件附加入该文本组件组，生成该文本组件组；和/或

第二生成步骤，通过基于所述文本组件的主方向，将沿所述种子文本组件的第二主方向的区域内的对应的文本组件附加入该文本组件组，生成该文本组件组。

11.根据权利要求10所述的文本检测方法，其中，针对沿所述种子文本组件的第一主方向的区域内的当前文本组件组的末端文本组件，所述第一生成步骤包括：

第一距离计算步骤，计算所述末端文本组件、与所述末端文本组件周围且未被附加到任何文本组件组的文本组件之间的距离；

第一文本组件候选确定步骤，确定具有最小距离的文本组件，作为所述文本组件候选；

第一附加步骤，在所述末端文本组件的第一主方向的角度值与所述文本组件候选的第一主方向的角度值之间的差值小于第三阈值的情况下，将所述文本组件候选附加到所述当前文本组件组；否则，终止所述第一生成步骤。

12.根据权利要求11所述的文本检测方法，其中，所述第一生成步骤还包括：

区域确定步骤，基于所述末端文本组件的几何特征，确定沿所述末端文本组件的第一主方向的区域，

其中，在所述第一距离计算步骤中，计算所述末端文本组件、与所述区域内的且未被附加到任何文本组件组的文本组件之间的距离。

13.根据权利要求12所述的文本检测方法，其中，所述第一生成步骤还包括：

第二特征相似性测度计算步骤，计算所述末端文本组件、与所述区域内的且未被附加到任何文本组件组的文本组件之间的特征相似性测度；

文本组件去除步骤，去除计算出的特征相似性测度小于第四阈值的、所述区域内的且未被附加到文本组件组的文本组件，

其中，在所述第一距离计算步骤中，计算所述末端文本组件、与在所述文本组件去除步骤中未去除的文本组件之间的距离。

14.根据权利要求10所述的文本检测方法，其中，针对沿所述种子文本组件的第二主方向的区域内的当前文本组件组的末端文本组件，所述第二生成步骤包括：

第二距离计算步骤，计算所述末端文本组件、与所述末端文本组件周围且未被附加到任何文本组件组的文本组件之间的距离；

第二文本组件候选确定步骤，确定具有最小距离的文本组件，作为所述文本组件候选；

第二附加步骤，在所述末端文本组件的第二主方向的角度值与所述文本组件候选的第二主方向的角度值之间的差值小于第五阈值的情况下，将所述文本组件候选附加到所述当前文本组件组；否则，终止所述第二生成步骤。

15.一种文本检测装置，所述文本检测装置包括：

文本组件获得单元，其被构造为获得获取的图像中的文本组件；

连接候选获得单元，其被构造为针对各个文本组件，基于该文本组件与该文本组件周围的文本组件之间的特征相似性测度，从该文本组件到该文本组件周围的文本组件的连接中，获得连接候选；

主方向计算单元，其被构造为针对各个文本组件，基于该文本组件的连接候选的方向分布，计算该文本组件的主方向；

种子文本组件确定单元，其被构造为基于种子文本组件的主方向和所述种子文本组件的连接候选的方向，由所述文本组件确定至少一个种子文本组件；

文本组件组生成单元，其被构造为针对至少一个种子文本组件，通过基于所述文本组件的主方向，将对应的文本组件附加到所述种子文本组件，生成至少一个文本组件组；以及

文本区域生成单元，其被构造为基于所述文本组件组，生成所述获取的图像中的文本区域。

16.根据权利要求15所述的文本检测装置，其中，所述连接候选获得单元包括：

第一特征相似性测度计算单元，其被构造为针对各个文本组件，计算该文本组件与该文本组件周围的文本组件之间的特征相似性测度；以及

连接候选确定单元，其被构造为针对各个文本组件，确定该文本组件到计算出的特征相似性测度大于或等于第一阈值的文本组件的连接，作为连接候选。

17.根据权利要求15所述的文本检测装置，其中，所述主方向计算单元包括：

被构造为将所述连接候选的方向的角度值归一化到预定范围的单元；

被构造为基于所归一化的角度值和所述连接候选的数量来生成直方图的单元；以及

被构造为分配与最高的直方图柱相对应的角度值作为该文本组件的第一主方向的角度值的单元；以及

被构造为分配与该文本组件的第一主方向相反的方向的角度值作为该文本组件的第二主方向的角度值的单元。

18.根据权利要求17所述的文本检测装置，其中，所述种子文本组件确定单元包括：

方向一致性测度计算单元，其被构造为针对各个文本组件，基于该文本组件的主方向，计算该文本组件的连接候选的方向的方向一致性测度；以及

种子文本组件选择单元，其被构造为选择具有最大的方向一致性测度的文本组件，作为所述种子文本组件，

19.根据权利要求18所述的文本检测装置，其中，所述方向一致性测度计算单元包括：

被构造为确定该文本组件的第一主方向或第二主方向的角度值、与所述连接候选的方向的角度值之间的差值的单元；

被构造为将所确定的差值小于或等于第二阈值的连接候选分类为第一类连接，并且将其他连接候选分类为第二类连接的单元；以及

被构造为基于所述第一类连接的尺寸测度和所述第二类连接的尺寸测度来计算所述方向一致性测度的单元。

20.根据权利要求17所述的文本检测装置，其中，所述文本组件组生成单元包括：

第一生成单元，其被构造为针对一个文本组件组，通过基于所述文本组件的主方向，将沿所述种子文本组件的第一主方向的区域内的对应的文本组件附加到该文本组件组，生成该文本组件组；和/或

第二生成单元，其被构造为针对一个文本组件组，通过基于所述文本组件的主方向，将沿所述种子文本组件的第二主方向的区域内的对应的文本组件附加到该文本组件组，生成该文本组件组。

21.一种文本识别系统，所述文本识别系统包括：

图像获取装置，其被构造为获取图像；

根据权利要求15至20中任一项所述的文本检测装置，其被构造为生成所获取的图像中的文本区域；

文本提取装置，其被构造为从所生成的文本区域中提取文本；以及

文本识别装置，其被构造为识别所提取的文本。