CN105631426B

CN105631426B - 对图片进行文本检测的方法及装置

Info

Publication number: CN105631426B
Application number: CN201511016818.3A
Authority: CN
Inventors: 乔宇; 黄韡林; 贺通
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2019-05-07
Anticipated expiration: 2035-12-29
Also published as: CN105631426A

Abstract

本发明适用于计算机技术领域，提供了对图片进行文本检测的方法及装置，包括：获取进行文本检测的图片；将所述图片输入全卷积网络的第一层，在所述第一层中基于文本区域的序列特征，检测出所述图片中的文本区域；将所述文本区域输入到所述全卷积网络的第二层，在所述第二层中基于文本中间线的监督分类器，将所述文本区域分解为独立的文本行区域输出，所述文本中间线的区域由高斯分布的函数定义。本发明基于两层级联式的全卷积网络，对图片中的文本行进行提取，不仅充分节省了重叠区域之间的计算资源，而且利用了文本更高层的序列特征作为监督信息，提高了文本检测算法的鲁棒性。

Description

对图片进行文本检测的方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及对图片进行文本检测的方法及装置。

背景技术

目前，对图片进行文本检测的算法主要分为两类：基于滑动窗口的方法和基于连通区域的方法。基于滑动窗口的方法是通过一个大小可变的滑动子窗口扫描一张图片所有可能的位置，来检测文本信息，其利用一个训练好的分类器来判别窗口内是否有文本信息；基于连通区域的方法首先通过一个底层的滤波器快速分割文本和非文本像素，然后把具有相似属性的文本像素连通起来构成文本成分，笔画宽度转化(SWT)算法和最稳定极值区域(MSREs)算法是此类方法的代表。然而，上述方法的分类网络采用全连接层，丢失了文本区域的位置信息。

发明内容

有鉴于此，本发明实施例提供了对图片进行文本检测的方法及装置，以解决现有技术会丢失文本区域的位置信息的问题。

第一方面，提供了一种对图片进行文本检测的方法，包括：

获取进行文本检测的图片；

将所述图片输入全卷积网络的第一层，在所述第一层中基于文本区域的序列特征，检测出所述图片中的文本区域；

将所述文本区域输入到所述全卷积网络的第二层，在所述第二层中基于文本中间线的监督分类器，将所述文本区域分解为独立的文本行区域输出，所述文本中间线的区域由高斯分布的函数定义。

另一方面，提供了一种对图片进行文本检测的装置，包括：

获取单元，用于获取进行文本检测的图片；

第一处理单元，用于将所述图片输入全卷积网络的第一层，在所述第一层中基于文本区域的序列特征，检测出所述图片中的文本区域；

第二处理单元，用于将所述文本区域输入到所述全卷积网络的第二层，在所述第二层中基于文本中间线的监督分类器，将所述文本区域分解为独立的文本行区域输出，所述文本中间线的区域由高斯分布的函数定义。

本发明实施例基于两层级联式的全卷积网络，对图片中的文本行进行提取，不仅充分节省了重叠区域之间的计算资源，而且利用了文本更高层的序列特征作为监督信息，提高了文本检测算法的鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的对图片进行文本检测的网络结构图；

图2是本发明实施例提供的对图片进行文本检测的方法的实现流程图；

图3是本发明实施例提供的文本中间线的检测示意图；

图4是本发明实施例提供的对图片进行文本检测的检测效果示意图；

图5是本发明实施例提供的对图片进行文本检测装置的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透切理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

图1示出了本发明实施例提供的对图片进行文本检测的网络结构，如图1所示，输入图像首先经过VGG-16网络的特征提取层，到达池化层-4，然后将池化层-4的特征图填充不同大小的边界，同时用三种不同大小的卷积核进行卷积，将郑积得到的三种特征图像进行融合并通过全卷积网络，将得到的特征上采样并与池化层-4得到的特征进行融合。参照该网络结构，接下来通过图2对本发明实施例提供的对图片进行文本检测的方法的实现流程进行详细阐述。在本发明实施例中，采用的卷积网络是以被广泛使用的VGG-16N et图像分类模型为基本框架，结合场景文本的具体特征所改进得到的：

在S201中，获取进行文本检测的图片。

在S202中，将所述图片输入全卷积网络的第一层，在所述第一层中基于文本区域的序列特征，检测出所述图片中的文本区域。

在本实施例中，用1*1的卷积代替全连接层，使得输入的图片可以为任意大小，且能够保留粗糙的空间位置信息。在该级网络的检测中，主要利用了文本区域的监督信息，强调了文本行矩形的序列结构，为了更好地突出这个序列特征，在本发明实施例中，将文本区域和非文本区域的二分类函数softmax作为误差函数，这样将直接输出一个和原图同样大小的热点图，简单地设置一个阈值就可以将粗糙的文本区域从图片中分割开来。

在网络设计上，本发明实施例设计了一种针对文本特征的卷积和，并进行了特征整合：由于文本在自然场景中的表现形式一般为矩形序列，因此，设计了3*7、7*3以及3*3的卷积核，以分别针对不同方向的文本区域的序列特征，解决了在文本检测中多语言多方向的问题，减少了人为的干预以及启发式参数的设定，省去了复杂的后处理过程。

同时，为了使不同的卷积和能够以同样大小进行融合，在本发明实施例中，如图1所示，对特征图像进行了不同方式的填补(padding)，使得输出的特征图大小相同。

此外，为了更加精细地定位文本区域，提高特征图像的分辨率，在本发明实施例中，进行了pool-4和pool-5的特征融合，将pool-5特征上采样到的和pool-4同样大小的特征进行逐元素求和，这样不仅保留了pool-4更为细节的特征，同时也保留了pool-5的高层语义信息。

在S203中，将所述文本区域输入到所述全卷积网络的第二层，在所述第二层中基于文本中间线的监督分类器，将所述文本区域分解为独立的文本行区域输出，所述文本中间线的区域由高斯分布的函数定义。

在S102中，第一层网络的输出无法精确地分开文本行，得到的文本区域是由很多文本行连接在一起的，而文本检测的最终目的是输出独立的文本行区域，因此，为了实现这一目的，在本发明实施例中，在第二层网络设计了一种基于文本中间线的监督分类器，如图3所示，文本中间线的区域是由一个高斯分布的函数定义的，由区域的中间逐渐向两边递减，函数最大值为1，最小值为0，高斯分布的半径为0.25*H，所述H为文本区域最小面积文本框的高度。在第二级网络中，采用的误差函数为sigmoid交叉熵。

由第二层网络的设计可知，这样的设计不仅能够让文本区域有重叠的文本行分离，并且可以根据文本行的高度推算出整个文本框的高度，高效地利用了重叠区域的计算资源，利用全卷积网络保留了文本区域的位置信息。

进一步地，为了更加准确地找到文本框，本发明实施例中，在第二层网络添加了局部的文本区域约束，即，将文本区域的局部区域送入第一层网络重新进行文本区域检测。

在本发明实施例中，设计了一种两步级联的由粗糙到细致的神经网络，其第一级网络用于在整张图中检测粗糙的文本区域，输出一个像素级别的显著性图，以表征某区域是否为文本区域的概率；第二级网络用于精确的定位文本行的位置，并产生两个显著性图：一张基于文本区域的显著性图，一张基于文本中间线的显著性图。上述设计利用神经网络直接输出文本区域，且无需设计基于字符的分类器，同时解决了多语言多方向的问题。

图4示出了本发明实施例提供的对图片进行文本检测的方法的实现示例图，其中，第一列为输入图像，第二列为粗检测的结果，第三列为根据粗检测结果得到的精细局部区域图像，第四列为局部中间线的检测结果，第五列为第二步局部区域检测，第六列为得到的文本检测结果。

对应于上文所述的对图片进行文本检测的方法，图5示出了本发明实施例提供的对图片进行文本检测的装置的结构框图，为了便于说明，仅示出了与本实施例相关的部分。

参照图5，该装置包括：

获取单元51，获取进行文本检测的图片；

第一处理单元52，将所述图片输入全卷积网络的第一层，在所述第一层中基于文本区域的序列特征，检测出所述图片中的文本区域；

第二处理单元53，将所述文本区域输入到所述全卷积网络的第二层，在所述第二层中基于文本中间线的监督分类器，将所述文本区域分解为独立的文本行区域输出，所述文本中间线的区域由高斯分布的函数定义。

可选地，所述第一处理单元52具体用于：

采用3*7、7*3以及3*3的卷积核分别对应不同方向的所述序列特征。

可选地，所述第一处理单元52还用于：

对特征图像进行多种填补。

可选地，所述第一处理单元52具体用于：

将pool-5特征上采样到的和pool-4同样大小的特征进行逐元素求和。

可选地，所述装置还包括：

约束单元，用于对所述卷积网络的第二层添加局部的文本区域约束。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对图片进行文本检测的方法，其特征在于，包括：

获取进行文本检测的图片；

将所述图片输入全卷积网络的第一层，在所述第一层中基于文本区域的序列特征，将文本区域和非文本区域的二分类函数作为误差函数输出一个和所述图片同样大小的热点图，通过设置阈值将文本区域从热点图中分割开来，检测出所述图片中的文本区域；

将所述文本区域输入到所述全卷积网络的第二层，在所述第二层中基于文本中间线的监督分类器，将所述文本区域分解为独立的文本行区域输出，所述文本中间线的区域由高斯分布的函数定义，由区域的中间逐渐向两边递减，高斯分布的半径为0.25*H，所述H为文本区域最小面积文本框的高度；

对所述卷积网络的第二层添加局部的文本区域约束，将文本区域的局部区域送入第一层网络重新进行文本区域检测。

2.如权利要求1所述的方法，其特征在于，所述在所述第一层中基于文本区域的序列特征，将文本区域和非文本区域的二分类函数作为误差函数，检测出所述图片中的文本区域包括：

3.如权利要求2所述的方法，其特征在于，所述在所述第一层中基于文本区域的序列特征，将文本区域和非文本区域的二分类函数作为误差函数，检测出所述图片中的文本区域还包括：

对特征图像进行多种填补。

4.如权利要求1所述的方法，其特征在于，所述在所述第一层中基于文本区域的序列特征，将文本区域和非文本区域的二分类函数作为误差函数，检测出所述图片中的文本区域包括：

5.一种对图片进行文本检测的装置，其特征在于，包括：

获取单元，用于获取进行文本检测的图片；

第一处理单元，用于将所述图片输入全卷积网络的第一层，在所述第一层中基于文本区域的序列特征，将文本区域和非文本区域的二分类函数作为误差函数输出一个和所述图片同样大小的热点图，通过设置阈值将文本区域从热点图中分割开来，检测出所述图片中的文本区域；

第二处理单元，用于将所述文本区域输入到所述全卷积网络的第二层，在所述第二层中基于文本中间线的监督分类器，将所述文本区域分解为独立的文本行区域输出，所述文本中间线的区域由高斯分布的函数定义，由区域的中间逐渐向两边递减，高斯分布的半径为0.25*H，所述H为文本区域最小面积文本框的高度；

约束单元，用于对所述卷积网络的第二层添加局部的文本区域约束，将文本区域的局部区域送入第一层网络重新进行文本区域检测。

6.如权利要求5所述的装置，其特征在于，所述第一处理单元具体用于：

7.如权利要求6所述的装置，其特征在于，所述第一处理单元还用于：

对特征图像进行多种填补。

8.如权利要求5所述的装置，其特征在于，所述第一处理单元具体用于：