CN108734052A

CN108734052A - 文字检测方法、装置和系统

Info

Publication number: CN108734052A
Application number: CN201710241094.5A
Authority: CN
Inventors: 周昕宇; 姚聪; 周舒畅; 何蔚然
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2017-04-13
Filing date: 2017-04-13
Publication date: 2018-11-02

Abstract

本发明提供了一种文字检测方法、装置和系统，所述文字检测方法包括：接收输入图像；经由训练好的神经网络直接检测所述输入图像中的文本区域，并输出初步检测结果；以及根据预定规则筛选所述初步检测结果，并对筛选后的结果实施非最大值抑制处理，以获得最终的检测结果。根据本发明实施例的文字检测方法、装置和系统基于训练好的神经网络直接检测输入图像中的文本区域，并基于非最大值抑制算法得到最终的检测结果，消除了不必要的中间步骤，可有效提高文字检测的效率，同时还提高了文字检测的准确度。

Description

文字检测方法、装置和系统

技术领域

本发明涉及图像处理技术领域，更具体地涉及一种文字检测方法、装置和系统。

背景技术

文字检测作为一项重要的基础技术，具有巨大的应用价值和广阔的应用前景，特别是自然场景图像的文字检测。例如，自然场景图像的文字检测技术可直接应用于增强现实、地理定位、人机交互、机器人导航、自动驾驶汽车和工业自动化等领域。

现有的文字检测方法多使用自底向上逐步聚合或分类讨论的方法。例如，利用字体笔画宽度比较一致的观察检测笔画片段，再合并为文本行；利用神经网络检测单个文字或单词，再合并为文本行；或者利用神经网络根据单词的大小、长宽比、方向等分别检测，再合并为文本行。然而，这些方法需要较长的流程，存在很多不可微分的步骤，计算量大，非常耗时。

发明内容

为了解决上述问题而提出了本发明。根据本发明一方面，提供了一种文字检测方法，所述文字检测方法包括：接收输入图像；经由训练好的神经网络直接检测所述输入图像中的文本区域，并输出初步检测结果；以及根据预定规则筛选所述初步检测结果，并对筛选后的结果实施非最大值抑制处理，以获得最终的检测结果。

在本发明的一个实施例中，所述初步检测结果包括检测到的文本区域的分数图和几何表示。

在本发明的一个实施例中，所述根据预定规则筛选所述初步检测结果包括：筛选出分数大于预定阈值的文本区域的几何表示，以用于对筛选出的几何表示实施所述非最大值抑制处理。

在本发明的一个实施例中，在对筛选出的几何表示实施所述非最大值抑制处理之前，基于临近像素的相关性合并所述筛选出的几何表示。

在本发明的一个实施例中，所述几何表示包括以下中的至少一种：轴对齐的长方形、带旋转的长方形、简单多边形以及贝塞尔曲线。

在本发明的一个实施例中，所述神经网络为全卷积网络，或者为全卷积网络与循环神经网络的组合。

在本发明的一个实施例中，所述神经网络包括特征提取层、特征合并层和输出层。

在本发明的一个实施例中，所述特征提取层包括多层卷积神经网络，用于提取不同层次的图像特征。

在本发明的一个实施例中，所述特征合并层以级联的方式逐层合并所述不同层次的图像特征。

在本发明的一个实施例中，所述输出层将多通道的特征图映射为1通道的分数图和多通道的几何表示图。

根据本发明另一方面，提供了一种文字检测装置，所述文字检测装置包括：检测模块，用于接收输入图像，经由训练好的神经网络直接检测所述输入图像中的文本区域，并输出初步检测结果；以及处理模块，用于根据预定规则筛选所述初步检测结果，并对筛选后的结果实施非最大值抑制处理，以获得最终的检测结果。

在本发明的一个实施例中，所述处理模块进一步用于：筛选出分数大于预定阈值的文本区域的几何表示，以用于对筛选出的几何表示实施所述非最大值抑制处理。

在本发明的一个实施例中，所述处理模块进一步用于：在对筛选出的几何表示实施所述非最大值抑制处理之前，基于临近像素的相关性合并所述筛选出的几何表示。

根据本发明又一方面，提供了一种文字检测系统，所述文字检测系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如上述任一项所述的文字检测方法。

根据本发明再一方面，提供了一种计算机可读介质，所述计算机可读介质上存储有计算机程序，所述计算机程序在运行时执行如上述任一项所述的文字检测方法。

根据本发明实施例的文字检测方法、装置和系统基于训练好的神经网络直接检测输入图像中的文本区域，并基于非最大值抑制算法得到最终的检测结果，消除了不必要的中间步骤，可有效提高文字检测的效率，同时还提高了文字检测的准确度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的文字检测方法、装置和系统的示例电子设备的示意性框图；

图2示出根据本发明实施例的文字检测方法的示意性流程图；

图3示出根据本发明实施例的神经网络的示意性结构图；

图4示出根据本发明实施例的神经网络的操作过程示例；

图5示出根据本发明实施例的文字检测装置的示意性框图；以及

图6示出根据本发明实施例的文字检测系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的文字检测方法、装置和系统的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像传感器110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。电子设备100也可以不包括图像传感器110。在这种情况下，可以利用其他图像采集装置采集待检测图像，并将采集的待检测图像作为输入图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的文字检测方法、装置和系统的示例电子设备可以被实现为诸如智能手机、平板电脑等。

下面，将参考图2描述根据本发明实施例的文字检测方法200。

在步骤S210，接收输入图像。

在一个实施例中，所接收的输入图像可以为包括文字的图像。其中，文字可以为单个文字或文本行。此外，文字可以为任何语种、任何字体的文字。进一步地，文字可以为曲线文字(curved text)等。

在一个示例中，所接收的输入图像可以为实时采集的图像。在其他示例中，所接收的输入图像也可以为来自任何源的图像。此处，所接收的输入图像可以为视频数据，也可以为图片数据。

在步骤S220，经由训练好的神经网络直接检测所述输入图像中的文本区域，并输出初步检测结果。

在步骤S220中，可采用经过端到端文字检测训练的神经网络直接检测输入图像中的文本区域，即直接针对文本检测的最终目标进行检测，也就是直接对输入图像实施文字或文本行级别的检测。基于此，可除去很多不必要的、耗时的中间组件和中间步骤，可提高检测速度和性能。

在一个实施例中，神经网络输出的关于输入图像的文本区域的初步检测结果可以包括检测到的文本区域的分数图(或称为文本分数图)和几何表示。其中，文本区域的分数图可以是像素级别的，分数图的像素值的范围可以在0到1之间。文本区域的几何表示可以是从每个像素的角度包围文字或文本行的几何形状。分数可以代表在同一位置预测到的几何形状的置信度。

在一个示例中，可以采用两个不同的张量S和G来分别表示检测到的文本区域的分数图和几何表示。例如，输入图像可以为编码为3×H×W的张量(其中，3表示图像的通道数，H和W表示图像的大小)，其输入到神经网络后，由神经网络输出两个不同的张量S和G。其中，S为1×H×W的张量，表示图像某位置输入某个文本行的概率；G为C×H×W的张量，每个位置上C个通道上的数表示该位置所在文本行的几何表示。

在本发明的实施例中，文本区域的几何表示可以包括以下中的至少一种：轴对齐的长方形、带旋转的长方形、简单多边形以及贝塞尔曲线。例如，在一个示例中，几何表示可以采用旋转盒(RBOX)。在另一个示例中，几何表示可以采用四边形(QUAD)。在又一个示例中，几何表示可以采用旋转盒和四边形的组合。在其他示例中，几何表示可以采用任何其他合适的几何形状。

在一个实施例中，对于分数图和几何表示的损失函数(loss functions)，可以基于自然场景图像中文本大小的多样性为分数图和几何表示设计合适的损失函数。在一个示例中，对于分数图，可以采用平衡交叉熵损失函数。在一个示例中，对于RBOX几何表示，可以采用IoU损失函数。在一个示例中，对于QUAD几何表示，可以采用尺度归一化的平滑L1损失函数。在其他示例中，也可以采用任何其他合适的损失函数用于分数图和几何表示。

在一个实施例中，步骤S220所采用的神经网络可以为全卷积网络(FCN)。在另一个实施例中，步骤S220所采用的神经网络可以为全卷积网络与循环神经网络(RNN)的组合。在其他实施例中，步骤S220所采用的神经网络可以为能够直接检测所述输入图像中的文本区域并输出关于输入图像中文本区域的初步检测结果的任何其他合适的神经网络。下面结合图3示例性地描述根据本发明实施例的神经网络。

图3示例性地示出根据本发明实施例的神经网络300的示意性结构图。如图3所示，根据本发明实施例的神经网络300可以包括特征提取层310、特征合并层320和输出层330。其中，特征提取层310用于提取输入图像的图像特征。特征合并层320用于对特征提取层310所提取的图像特征进行合并。输出层330用于将经合并的图像特征映射为神经网络300的输出，即对输入图像文字区域的初步检测结果，例如上述的文本分数图和几何表示。

在一个实施例中，特征提取层310可以包括多层卷积神经网络，用于提取不同层次的图像特征。由于输入图像中的文本区域的大小可能是各种各样的，因此包括多层卷积神经网络的特征提取层310可以用于提取多个层次的图像特征，不同层次的图像特征可以具有不同的大小。例如如图3所示，示例性地示出特征提取层310(卷积核的大小示例性地示出为7×7)对输入图像提取4个层次的图像特征，表示为f_i(其中i＝1～4)，其大小分别为输入图像的1/32、1/16、1/8和1/4。相应地，在图3中将特征提取层310示例性地示出为包括4层卷积神经网络(卷积阶段(stage)1～4)。应当理解，特征提取层310可以包括任意数目的卷积神经网络，提取任意大小的图像特征，这取决于具体的应用场景。

在一个实施例中，特征合并层320可以以级联的方式逐层合并特征提取层310所提取的不同层次的图像特征。如图3所示，特征合并层320先合并图像特征f₁和f₂，生成图像特征h₂，再与图像特征f₃合并，生成图像特征h₃，再与图像特征f₄合并，生成图像特征h₄。合并多通道的较大的图像特征将需要很大的计算开销，特征合并层320以级联方式逐层合并图像特征可有效减小计算开销。在图3所示的示例中，特征合并层320通过如下式子合并图像特征：

其中，g_i为合并基础，h_i为经合并的特征图，且运算符[·；·]表示沿通道轴线的级联。在每一个合并阶段，上一阶段的特征图首先输入到上采样层(unpooling layer)以使其尺寸加倍，之后与当前特征图级联；然后，通过1×1卷积减少其通道数目并减少计算量；接着，通过3×3卷积融合信息以产生该阶段的输出。在最后的合并阶段之后，3×3卷积层生成特征合并层320的最终输出的特征图。每个卷积层输出通道的数目可以如图3所示。可以在特征合并层320采用较小数目的通道用于卷积，使得整体的计算更为高效。以上描述了特征合并层320的操作，应当理解，其仅是示例性的，特征合并层320还可以通过其他合适的方式合并图像特征。

在一个实施例中，输出层330将多通道的特征图映射为1通道的分数图和多通道的几何表示图。如图3所示，输出层330可以包括若干1×1卷积操作以将多通道(在图3中的示例中为32通道)的特征图合并为1通道的分数图F_s和多通道的几何表示图F_g。几何表示可以为RBOX，也可以为QUAD，或任何其他合适的几何形状，如前面所述的。如果几何表示采用RBOX，则输出层330输出4通道的轴向包围盒参数R(如图3中所示的文本盒)和1通道的旋转角度θ(如图3中所示的文本旋转角度)，即输出的几何表示可通过4通道的轴向包围盒参数R和1通道的旋转角度θ来表示，其中4通道的各通道分别表示从像素位置到四边形的上边边界、右边边界、下边边界以及左边边界的各自的距离。如果几何表示采用QUAD，则输出层330输出四边形的四个角的顶点到像素位置的坐标偏移(△x_i,△y_i)，因此输出为8通道(如图3中所示的文本四边形坐标)。

以上示例性地描述了根据本发明实施例的文字检测方法所采用的神经结构的组成部分及各组成部分的操作，可以结合图4来进一步理解经由神经网络对输入图像中的文本区域生成初步检测结果的过程，其中，图4中的(a)示出了(虚线框出的)文本四边形和(实线框出的)缩放的四边形；图4中的(b)示出了所生成的文本分数图；图4中的(c)示出了RBOX几何表示图的生成；图4中的(d)示出了每个像素到四边形边界的4通道的距离；图4中的(e)示出了文本旋转角度。

基于神经网络所输出的初步检测结果，可实施后续的操作以得到最终的检测结果。

现在返回参考图2，继续描述根据本发明实施例的文字检测方法200的后续步骤。

在步骤S230，根据预定规则筛选所述初步检测结果，并对筛选后的结果实施非最大值抑制(NMS)处理，以获得最终的检测结果。

在一个实施例中，可以对步骤S220所输出的初步检测结果进行筛选，例如可设置预定阈值T(该预定阈值可根据具体应用场景而设置)，筛选出分数大于预定阈值T的文本区域的几何表示，并对筛选出的几何表示实施基于位置感知的非最大值抑制处理，以获得最终的检测结果。

在一个实施例中，在对筛选出的几何表示实施非最大值抑制处理之前，可以先基于临近像素的相关性合并所述筛选出的几何表示，例如可以逐行逐列地合并所述筛选出的几何表示，然后再对合并后的结果进行标准的非最大值抑制，以获得最终的检测结果。这样可以显著降低将被实施非最大值抑制处理的几何表示的数量，从而进一步减少计算量，提高计算效率。

经过基于预定阈值的筛选以及筛选后的非最大值抑制算法处理，可得到对输入图像的最终的文字检测结果，即可得到多方向的文本行盒或文字盒。

基于上面的描述，根据本发明实施例的文字检测方法基于训练好的神经网络直接检测输入图像中的文本区域，并基于非最大值抑制算法得到最终的检测结果，消除了不必要的中间步骤，可有效提高文字检测的效率，同时还提高了文字检测的准确度。

示例性地，根据本发明实施例的文字检测方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的文字检测方法可以部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的文字检测方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的文字检测方法还可以分布地部署在服务器端(或云端)和个人终端处。

进一步地，根据本发明实施例的文字检测方法可以与文字识别方法相结合，以用于在检测到图像中的文字后识别图像中的文字。进一步地，基于根据本发明实施例的文字检测方法的教导，可以采用类似的思路来检测图像中的任意的对象，而不仅仅用于文字检测。

下面结合图5描述本发明另一方面提供的文字检测装置。图5示出了根据本发明实施例的文字检测装置500的示意性框图。

如图5所示，根据本发明实施例的文字检测装置500包括检测模块510和处理模块520，它们可分别执行上文中结合图2描述的文字检测方法的各个步骤/功能。以下仅对文字检测装置500的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

检测模块510用于接收输入图像，经由训练好的神经网络直接检测所述输入图像中的文本区域，并输出初步检测结果。处理模块520用于根据预定规则筛选所述初步检测结果，并对筛选后的结果实施非最大值抑制处理，以获得最终的检测结果。检测模块510和处理模块520均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

在一个实施例中，检测模块510所接收的输入图像可以为包括文字的图像。其中，文字可以为单个文字或文本行。此外，文字可以为任何语种、任何字体的文字。进一步地，文字可以为曲线文字等。

在一个示例中，检测模块510所接收的输入图像可以为实时采集的图像。在其他示例中，检测模块510所接收的输入图像也可以为来自任何源的图像。此处，检测模块510所接收的输入图像可以为视频数据，也可以为图片数据。

在一个实施例中，检测模块510可采用经过端到端文字检测训练的神经网络直接检测输入图像中的文本区域，即直接针对文本检测的最终目标进行检测，也就是直接对输入图像实施文字或文本行级别的检测。基于此，可除去很多不必要的、耗时的中间组件和中间步骤，可提高检测速度和性能。

在一个实施例中，神经网络输出的关于输入图像的文本区域的初步检测结果可以包括检测到的文本区域的分数图和几何表示。其中，文本区域的分数图可以是像素级别的，分数图的像素值的范围可以在0到1之间。文本区域的几何表示可以是从每个像素的角度包围文字或文本行的几何形状。分数可以代表在同一位置预测到的几何形状的置信度。

在一个实施例中，对于分数图和几何表示的损失函数，可以基于自然场景图像中文本大小的多样性为分数图和几何表示设计合适的损失函数。

在一个实施例中，检测模块510所采用的神经网络可以为全卷积网络(FCN)。在另一个实施例中，检测模块510所采用的神经网络可以为全卷积网络与循环神经网络(RNN)的组合。在其他实施例中，检测模块510所采用的神经网络可以为能够直接检测所述输入图像中的文本区域并输出关于输入图像中文本区域的初步检测结果的任何其他合适的神经网络。

在一个实施例中，检测模块510所利用的神经网络的可以包括特征提取层、特征合并层和输出层。其中，特征提取层可以包括多层卷积神经网络，用于提取不同层次的图像特征。特征合并层可以以级联的方式逐层合并特征提取层所提取的不同层次的图像特征。输出层可以将多通道的特征图映射为1通道的分数图和多通道的几何表示图。检测模块510所利用的神经网络的结构及其操作过程可以参照上述结合图3和图4所描述的内容，为了简洁，此处不再赘述。

在一个实施例中，处理模块520可设置预定阈值T(根据具体应用场景而设置)，筛选出分数大于预定阈值T的文本区域的几何表示，并对筛选出的几何表示实施非最大值抑制处理，以获得最终的检测结果。

在一个实施例中，在对筛选出的几何表示实施非最大值抑制处理之前，处理模块520可以先基于临近像素的相关性合并所述筛选出的几何表示，例如可以逐行逐列地合并所述筛选出的几何表示，然后再对合并后的结果进行标准的非最大值抑制，以获得最终的检测结果。这样可以显著降低将被实施非最大值抑制处理的几何表示的数量，从而进一步减少计算量，提高计算效率。

处理模块520经过基于预定阈值的筛选以及筛选后的非最大值抑制算法处理，可得到对输入图像的最终的文字检测结果，即可得到多方向的文本行盒或文字盒。

基于上面的描述，根据本发明实施例的文字检测装置基于训练好的神经网络直接检测输入图像中的文本区域，并基于非最大值抑制算法得到最终的检测结果，消除了不必要的中间步骤，可有效提高文字检测的效率，同时还提高了文字检测的准确度。

如前所述，根据本发明实施例的文字检测方法可以与文字识别方法相结合，以用于在检测到图像中的文字后识别图像中的文字。类似地，根据本发明实施例的文字检测装置可以与文字识别装置相结合，例如可将根据本发明实施例的文字检测装置与任意的合适的文字识别装置集成在一起，形成文字检测识别装置，以用于在检测到图像中的文字后识别图像中的文字。进一步地，基于根据本发明实施例的文字检测装置的教导，可以采用类似的思路来实现对图像中的任意对象进行检测的装置，并将其与相应对象的识别装置集成在一起，以用于在检测到图像中的文字后识别图像中的任意对象。

下面结合图6描述本发明又一方面提供的文字检测系统。图6示出了根据本发明实施例的文字检测系统600的示意性框图。文字检测系统600包括存储装置610以及处理器620。

其中，存储装置610存储用于实现根据本发明实施例的文字检测方法中的相应步骤的程序代码。处理器620用于运行存储装置610中存储的程序代码，以执行根据本发明实施例的文字检测方法的相应步骤，并且用于实现根据本发明实施例的文字检测装置中的相应模块。此外，文字检测系统600还可以包括图像采集装置(未在图6中示出)，其可以用于采集输入图像。当然，图像采集装置不是必需的，可直接接收来自其他源的输入图像的输入。

在一个实施例中，在所述程序代码被处理器620运行时使得文字检测系统600执行以下步骤：接收输入图像；经由训练好的神经网络直接检测所述输入图像中的文本区域，并输出初步检测结果；以及根据预定规则筛选所述初步检测结果，并对筛选后的结果实施非最大值抑制处理，以获得最终的检测结果。

在一个实施例中，所述初步检测结果包括检测到的文本区域的分数图和几何表示。

在一个实施例中，在所述程序代码被处理器620运行时使得文字检测系统600执行的所述根据预定规则筛选所述初步检测结果的步骤包括：筛选出分数大于预定阈值的文本区域的几何表示，以用于对筛选出的几何表示实施所述非最大值抑制处理。

在一个实施例中，在所述程序代码被处理器620运行时还使得文字检测系统600执行以下步骤：在对筛选出的几何表示实施所述非最大值抑制处理的步骤之前，基于临近像素的相关性合并所述筛选出的几何表示。

在一个实施例中，所述几何表示包括以下中的至少一种：轴对齐的长方形、带旋转的长方形、简单多边形以及贝塞尔曲线。

在一个实施例中，所述神经网络为全卷积网络，或者为全卷积网络与循环神经网络的组合。

在一个实施例中，所述神经网络包括特征提取层、特征合并层和输出层。

在一个实施例中，所述特征提取层包括多层卷积神经网络，用于提取不同层次的图像特征。

在一个实施例中，所述特征合并层以级联的方式逐层合并所述不同层次的图像特征。

在一个实施例中，所述输出层将多通道的特征图映射为1通道的分数图和多通道的几何表示图。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的文字检测方法的相应步骤，并且用于实现根据本发明实施例的文字检测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含接收输入图像的计算机可读的程序代码，另一个计算机可读存储介质包含检测输入图像中的文本区域并输出初步检测结果的计算机可读的程序代码，又一个计算机可读存储介质包含筛选初步检测结果并对筛选后的结果实施非最大值抑制处理的计算机可读的程序代码。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的文字检测装置的各个功能模块，并且/或者可以执行根据本发明实施例的文字检测方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：接收输入图像；经由训练好的神经网络直接检测所述输入图像中的文本区域，并输出初步检测结果；以及根据预定规则筛选所述初步检测结果，并对筛选后的结果实施非最大值抑制处理，以获得最终的检测结果。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述根据预定规则筛选所述初步检测结果的步骤包括：筛选出分数大于预定阈值的文本区域的几何表示，以用于对筛选出的几何表示实施所述非最大值抑制处理。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行以下步骤：在对筛选出的几何表示实施所述非最大值抑制处理之前，基于临近像素的相关性合并所述筛选出的几何表示。

根据本发明实施例的文字检测装置中的各模块可以通过根据本发明实施例的用于文字检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的文字检测方法、装置、系统以及存储介质基于训练好的神经网络直接检测输入图像中的文本区域，并基于非最大值抑制算法得到最终的检测结果，消除了不必要的中间步骤，可有效提高文字检测的效率，同时还提高了文字检测的准确度。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文字检测方法，其特征在于，所述文字检测方法包括：

接收输入图像；

经由训练好的神经网络直接检测所述输入图像中的文本区域，并输出初步检测结果；以及

根据预定规则筛选所述初步检测结果，并对筛选后的结果实施非最大值抑制处理，以获得最终的检测结果。

2.根据权利要求1所述的文字检测方法，其特征在于，所述初步检测结果包括检测到的文本区域的分数图和几何表示。

3.根据权利要求2所述的文字检测方法，其特征在于，所述根据预定规则筛选所述初步检测结果包括：

筛选出分数大于预定阈值的文本区域的几何表示，以用于对筛选出的几何表示实施所述非最大值抑制处理。

4.根据权利要求3所述的文字检测方法，其特征在于，在对筛选出的几何表示实施所述非最大值抑制处理之前，基于临近像素的相关性合并所述筛选出的几何表示。

5.根据权利要求2所述的文字检测方法，其特征在于，所述几何表示包括以下中的至少一种：轴对齐的长方形、带旋转的长方形、简单多边形以及贝塞尔曲线。

6.根据权利要求1-5中的任一项所述的文字检测方法，其特征在于，所述神经网络为全卷积网络，或者为全卷积网络与循环神经网络的组合。

7.根据权利要求6所述的文字检测方法，其特征在于，所述神经网络包括特征提取层、特征合并层和输出层。

8.根据权利要求7所述的文字检测方法，其特征在于，所述特征提取层包括多层卷积神经网络，用于提取不同层次的图像特征。

9.根据权利要求8所述的文字检测方法，其特征在于，所述特征合并层以级联的方式逐层合并所述不同层次的图像特征。

10.根据权利要求9所述的文字检测方法，其特征在于，所述输出层将多通道的特征图映射为1通道的分数图和多通道的几何表示图。

11.一种文字检测装置，其特征在于，所述文字检测装置包括：

检测模块，用于接收输入图像，经由训练好的神经网络直接检测所述输入图像中的文本区域，并输出初步检测结果；以及

处理模块，用于根据预定规则筛选所述初步检测结果，并对筛选后的结果实施非最大值抑制处理，以获得最终的检测结果。

12.根据权利要求11所述的文字检测装置，其特征在于，所述初步检测结果包括检测到的文本区域的分数图和几何表示。

13.根据权利要求12所述的文字检测装置，其特征在于，所述处理模块进一步用于：

14.根据权利要求13所述的文字检测装置，其特征在于，所述处理模块进一步用于：

在对筛选出的几何表示实施所述非最大值抑制处理之前，基于临近像素的相关性合并所述筛选出的几何表示。

15.根据权利要求12所述的文字检测装置，其特征在于，所述几何表示包括以下中的至少一种：轴对齐的长方形、带旋转的长方形、简单多边形以及贝塞尔曲线。

16.根据权利要求11-15中的任一项所述的文字检测装置，其特征在于，所述神经网络为全卷积网络，或者为全卷积网络与循环神经网络的组合。

17.根据权利要求16所述的文字检测装置，其特征在于，所述神经网络包括特征提取层、特征合并层和输出层。

18.根据权利要求17所述的文字检测装置，其特征在于，所述特征提取层包括多层卷积神经网络，用于提取不同层次的图像特征。

19.根据权利要求18所述的文字检测装置，其特征在于，所述特征合并层以级联的方式逐层合并所述不同层次的图像特征。

20.根据权利要求19所述的文字检测装置，其特征在于，所述输出层将多通道的特征图映射为1通道的分数图和多通道的几何表示图。

21.一种文字检测系统，其特征在于，所述文字检测系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-10中的任一项所述的文字检测方法。

22.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-10中的任一项所述的文字检测方法。