CN110020676A

CN110020676A - 基于多感受野深度特征的文本检测方法、系统、设备及介质

Info

Publication number: CN110020676A
Application number: CN201910201552.1A
Authority: CN
Inventors: 高学; 杨雯
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-07-16

Abstract

本发明公开了一种基于多感受野深度特征的文本检测方法、系统、设备及介质，所述方法包括：获取文本检测数据库，将其作为网络训练数据库；搭建多感受野深度网络模型；将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练；通过已训练的多感受野深度网络模型计算出分割用的图像掩码，得到分割结果，将分割区域转化为回归的文本框坐标；统计网络训练数据库的文本框尺寸，设计文本框过滤条件，根据文本框过滤条件，筛选出目标文本框。本发明充分利用深度网络模型的特征学习能力和分类性能，结合了图像分割的特点，具有检测准确率高、召回率高、鲁棒性强等特点，具有较好的自然场景下文本检测效果。

Description

基于多感受野深度特征的文本检测方法、系统、设备及介质

技术领域

本发明涉及一种基于多感受野深度特征的文本检测方法、系统、设备及介质，属于图像文本分析领域。

背景技术

随着计算机视觉技术的发展，图像理解技术的应用越来越广泛。文字信息作为图像的一个信息稠密点，是图像理解的关键。而文本定位则是图像中提取关键信息的重要一步。而自然场景图像中文文本定位由于背景的多样性，大小、方向的不确定性，面临着如下的挑战：1)文本格式的变化，以及文本行的高宽比的变化；2)文本框方向多变；3)文本框大小尺寸变化悬殊；4)文字和背景相似导致的混淆。

目前利用深度学习进行文本框检测的方法主要有两种：

(1)基于图像分割实现文本框的检测；

(2)基于回归的文本框检测方法，其中回归的方法分为直接回归和间接回归的方法。

目前，基于图像分割方法实现文本框的不足在于，通过单一维度的卷积特征的使用，将导致文本框回归存在位置偏差，或者文本框无法完全覆盖文本区域等问题，对于自然场景下多变多方向多尺度和复杂背景的文本框检测准确率和召回率低的问题。近年来，卷积神经网络技术得到了迅速发展，通过并行的多尺寸的卷积核和空洞卷积计算方法实现多尺度和多感受野卷积特征的提取，并在文本检测中取得了较好的性能。

发明内容

有鉴于此，本发明提供了一种基于多感受野深度特征的文本检测方法、系统、计算机设备设备及存储介质，其充分利用深度网络模型的特征学习能力和分类性能，结合了图像分割的特点，一方面使用并行的多尺度的卷积核和空洞卷积的方法提取文本的多尺度和多感受野的特征，另一方面基于分割实现了多尺度和多方向的文本框的检测，具有检测准确率高、召回率高、鲁棒性强等特点，具有较好的自然场景下文本检测效果，可以广泛应用于多方向、多尺度以及面积差距悬殊的文本检测。

本发明的第一个目的在于提供一种基于多感受野深度特征的文本检测方法。

本发明的第二个目的在于提供一种基于多感受野深度特征的文本检测系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于多感受野深度特征的文本检测方法，所述方法包括：

获取文本检测数据库，将该文本检测数据库作为网络训练数据库；

搭建多感受野深度网络模型；

将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练；

通过已训练的多感受野深度网络模型计算出分割用的图像掩码，得到分割结果，将分割区域转化为回归的文本框坐标；

统计网络训练数据库的文本框尺寸，设计文本框过滤条件，根据文本框过滤条件，筛选出目标文本框。

进一步的，所述多感受野深度网络模型包括多感受野深度特征图提取模块、基于分割的损失计算模块以及转化模块；

所述多感受野深度特征图提取模块，用于从自然场景图像中提取文本特征信息，通过多通道全卷积，得到多感受野深度特征图；

所述基于分割的损失计算模块，用于根据多感受野深度特征图，计算每个像素八邻域连通度的损失以及是否为文本的分类损失，联合这两类损失计算出对于每个预测文本框生成可形成分割结果的掩码，用于形成最终的文本框预测结果；

所述转化模块，用于将分割区域转化为回归的文本框坐标。

进一步的，所述多感受野深度特征图提取模块包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层、第七卷积层、第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和输出层；其中，所述第一卷积层为三通道卷积层，所述第六卷积层为空洞卷积层；

所述第一特征融合层用于将经过第五卷积层卷积的特征与第七卷积层的特征进行融合；

所述第二特征融合层用于将经过第四卷积层卷积的特征与经过上采样的第一特征融合层的特征进行融合；

所述第三特征融合层用于将经过第三卷积层卷积的特征与经过上采样的第二特征融合层的特征进行融合；

所述第四特征融合层用于将经过第二卷积层卷积的特征与经过上采样的第三特征融合层的特征进行融合。

进一步的，所述基于分割的损失计算模块中，每个像素八邻域连通度的损失如下式：

其中，rsum表示将张量转化为标量的运算方式；

其中，表示预测结果和真值的交叉熵，分别表示每个像素八邻域像素相连与否的平衡权重矩阵；

其中，k＝[1,2,3,4,5,6,7,8],Y表示像素的邻域是否相连的标记矩阵，k(i,j)∈K表示图片内每个像素点的平衡权重矩阵。

进一步的，所述基于分割的损失计算模块中，每个像素是否为文本的分类损失如下式：

其中，表示图片内判定为文本框区域的像素的交叉熵；r＝3，K表示图片内每个像素点的平衡权重矩阵。

进一步的，所述基于分割的损失计算模块，每个像素八邻域连通度的损失以及是否为文本的分类损失的平衡权重矩阵的算法如下：

对于一张图片中的第i个文本框，定义为B_i，B_i的面积为S_i，那么每一个预测文本框内的像素有权重系数:

其中，S_i表示文本框按面积正序排列。

进一步的，所述多感受野深度网络模型的训练采用如下的参数设定：

迭代次数：150000；

优化器：采用随机梯度下降法；

学习率：1e^-3；

学习率更新策略：训练迭代到1000步时学习率变化为5e^-3。

本发明的第二个目的可以通过采取如下技术方案达到：

一种基于多感受野深度特征的文本检测系统，所述系统包括：

获取单元，用于获取文本检测数据库，将该文本检测数据库作为网络训练数据库；

搭建单元，用于搭建多感受野深度网络模型；

训练单元，用于将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练；

计算单元，用于通过已训练的多感受野深度网络模型计算出分割用的图像掩码，得到分割结果，将分割区域转化为回归的文本框坐标；

处理单元，用于统计网络训练数据库的文本框尺寸，设计文本框过滤条件，根据文本框过滤条件，筛选出目标文本框。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的文本检测方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的文本检测方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明通过多感受野深度网络模型提取文本特征，计算出分割用的图像掩码，得到分割结果，将分割区域转化为回归的文本框坐标，通过提取多感受野的深度特征，分割出文本框区域，自动生成多尺度、多方向的预测文本框，来适应由于文本高宽比变化大、背景相似、光照变化和运动模糊引入噪声等而导致的准确率低问题，其测试结果显示，相比于单一维度卷积特征的文本分割检测方法，检测准确率、召回率和F值均得到了提升，具有较好的文本检测性能。

2、本发明的多感受野深度特征图提取模块采用了三通道卷积层和空洞卷积层，三通道卷积层融合了三种尺度的卷积特征的网络，能够提取到图片中不同尺度的文本信息，因而对尺寸变化很大的文本框有更强的适配性，解决了分辨率高的图片内，由于文本框尺寸变化大造成分辨率变化很大造成的检测问题；空洞卷积层使得网络在避免了过去增大感受野的池化操作下信息丢失的问题，通过稀疏化卷积核的分布，使得在进行卷积运算的时候能够在更大范围内学习特征，解决了特大尺寸的文本框的特征提取和检测的问题，同时在最小化信息损耗的情况下，扩大网络的感受野，加强了对于大尺寸的文本框检测效果，提高网络性能。

3、本发明与已有的使用一般卷积神经网络提取深层特征的基于回归的文本框检测的方法相比，采用分割的方法预测文本框，不需要根据文本框的长宽比、方向和大小提前生成候选文本框，节省了计算量，而且是对于多方向的文本有更强的适应性，具有更高的检测准确率、召回率和F值，并且使用了多通道卷积核和空洞卷积提取多感受野的深度特征，能够提取图片内从全局到局部细节的特征，对于对于图片内文本框大小悬殊的特点有更强的适配性，能够应对模糊、透视变换等复杂的实际应用场景。

4、本发明使用多感受野的深度学习特征，能够学习多尺度、包含全局到局部的文本框信息，与传统的基于分割的方法作文本框回归的方法相比，具有更强的鲁棒性，具有明显优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的基于多感受野深度特征的文本检测方法的流程图。

图2为本发明实施例1的多感受野深度网络模型的结构图。

图3a为本发明实施例1的第一个示例的检测结果图。

图3b为本发明实施例1的第二个示例的检测结果图。

图3c为本发明实施例1的第三个示例的检测结果图。

图4为本发明实施例2的基于多感受野深度特征的文本检测系统的结构框图。

图5为本发明实施例2的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供了一种基于多感受野深度特征的文本检测方法，该方法包括以下步骤：

S101、数据获取

具体地，获取自然场景下文本检测领域被学术界广泛使用的的文本检测数据库之一，将该文本检测数据库作为网络训练数据库。

本实施例中，文本检测数据库采用RCTW17比赛数据库，数据集的名字叫做CTW-12k，由12263张包含中文的自然场景图片组成，其中大部分是直接由摄像头或手机拍摄，少部分为生成图像，并且每张图像至少包含一行中文。

数据的标注均通过标注工具手工标注完成，通过绘制四边形来标注一个文本行，而不是以单词为单位进行标注，每个文本行的内容以UTF-8字符串进行标注，在数据集中存在字体、布局和语言等多样性。

S102、多感受野深度网络模型搭建

具体地，多感受野深度网络模型的结构如图2所示，其包括多感受野深度特征图提取模块、基于分割的损失计算模块以及转化模块。

多感受野深度特征图提取模块，用于从自然场景图像中提取文本特征信息，通过多通道全卷积，得到多感受野深度特征图。

基于分割的损失计算模块，用于根据多感受野深度特征图，计算每个像素八邻域连通度的损失以及是否为文本的分类损失，联合这两类损失计算出对于每个预测文本框生成可形成分割结果的掩码，用于形成最终的文本框预测结果。

转化模块，用于将分割区域转化为回归的文本框坐标。

本实施例的多感受野深度特征图提取模块包括输入层、第一卷积层conv1、第一池化层pooling1、第二卷积层conv2、第二池化层pooling2、第三卷积层conv3、第三池化层pooling3、第四卷积层conv4、第四池化层pooling4、第五卷积层conv5、第五池化层pooling5、第六卷积层conv6、第七卷积层conv7、第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和输出层。

第一卷积层为三通道卷积层，该三通道卷积层通过使用三种尺度的卷积核：3*3、5*5、7*7，每种尺度的卷积核数量均有64个，取步长为1，获得三种尺度的卷积特征；三种尺度的卷积进行融合后输入第二卷积层进行训练，融合了三种尺度的卷积特征的网络，能够提取到图片中不同尺度的文本信息，因而对尺寸变化很大的文本框有更强的适配性，解决了分辨率高的图片内，由于文本框尺寸变化大造成分辨率变化很大造成的检测问题。

第六卷积层为空洞卷积层(dilation conv)，该空洞卷积层使得网络在避免了过去增大感受野的池化操作下信息丢失的问题，通过稀疏化卷积核的分布，使得在进行卷积运算的时候能够在更大范围内学习特征，解决了特大尺寸的文本框的特征提取和检测的问题。同时在最小化信息损耗的情况下，扩大网络的感受野，加强了对于大尺寸的文本框检测效果，提高网络性能。

第一特征融合层用于将经过第五卷积层卷积的特征与第七卷积层的特征进行融合。

第二特征融合层用于将经过第四卷积层卷积的特征与经过上采样的第一特征融合层的特征进行融合。

第三特征融合层用于将经过第三卷积层卷积的特征与经过上采样的第二特征融合层的特征进行融合。

第四特征融合层用于将经过第二卷积层卷积的特征与经过上采样的第三特征融合层的特征进行融合。

多感受野深度特征图提取模块中各个网络层的具体说明如下表1所示。

表1多感受野深度特征图提取模块的结构

本实施例的基于分割的损失计算模块中，对于每个像素点将计算两类损失：

L＝λL_pixel+L_link

其中，λ＝2。

(1)每个像素八邻域连通度的损失如下式：

其中，rsum表示将张量转化为标量的运算方式；

(2)每个像素是否为文本的分类损失如下式：

(3)每个像素八邻域连通度的损失以及是否为文本的分类损失的平衡权重矩阵的算法如下：

其中，S_i表示文本框按面积正序排列。

S103、多感受野深度网络模型训练

具体地，将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练。

本实施例中，多感受野深度网络模型的训练采用如下的参数设定：

迭代次数：150000；

优化器：采用随机梯度下降法(Stochastic Gradient Descent，简称SGD)；

学习率：1e^-3；

学习率更新策略：训练迭代到1000步时学习率变化为5e^-3。

S104、文本框生成及文本框坐标输出

具体地，通过已训练的多感受野深度网络模型计算出分割用的图像掩码，得到分割结果，将分割区域转化为回归的文本框坐标。

本实施例中，通过已训练的多感受野深度网络模型计算出分割用的图像掩码，得到分割结果，通过minAreaRect算法把分割区域转化为回归的文本框坐标；其中，minAreaRect函数将loss计算完毕后得到的图像的掩码转化为坐标输出，使用的是Opencv库里的minAreaRect函数。

对于多感受野深度特征图的每个像素点，输出的预测结果为每张图片内所有文本框的x、y坐标：x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄。

S105、检测结果后处理

具体地，统计网络训练数据库的文本框尺寸，设计文本框过滤条件，根据文本框过滤条件，筛选出目标文本框。

本实施例的文本框尺寸包括文本框面积和文本框高度，统计网络训练数据库的文本框尺寸，设计文本框过滤条件，根据文本框过滤条件，筛选出目标文本框，具体为：统计训练数据库里面的文本框的面积和文本框高度分布，统计出最小面积阈值min_area和最小高度阈值min_height，使得95％的文本框可以采用这个文本框过滤条件筛选出目标文本框。

在图3a～3c所示的三个示例中，显示了本实施例的中文文本检测方法的检测结果。

实施例2：

如图4所示，本实施例提供了一种基于多感受野深度特征的文本检测系统，该系统包括获取单元401、搭建单元402、训练单元403、计算单元404和处理单元405，各个单元的具体功能如下：

所述获取单元401，用于获取文本检测数据库，将该文本检测数据库作为网络训练数据库。

所述搭建单元402，用于搭建多感受野深度网络模型。

所述训练单元403，用于将网络训练数据库中的自然场景文本图片和相应的文本框坐标真值数据输入多感受野深度网络模型进行训练。

所述计算单元404，用于通过已训练的多感受野深度网络模型计算出分割用的图像掩码，得到分割结果，将分割区域转化为回归的文本框坐标；

所述处理单元405，用于统计网络训练数据库的文本框尺寸，设计文本框过滤条件，根据文本框过滤条件，筛选出目标文本框。

本实施例中各个单元的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的装置仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以是计算机，如图5所示，其包括通过系统总线501连接的处理器502、存储器、输入装置503、显示器504和网络接口505，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质506和内存储器507，该非易失性存储介质506存储有操作系统、计算机程序和数据库，该内存储器507为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器502执行存储器存储的计算机程序时，实现上述实施例1的文本检测方法，如下：

搭建多感受野深度网络模型；

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时，处理器执行存储器存储的计算机程序时，实现上述实施例1的文本检测方法，如下：

搭建多感受野深度网络模型；

本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

综上所述，本发明通过多感受野深度网络模型提取文本特征，计算出分割用的图像掩码，得到分割结果，将分割区域转化为回归的文本框坐标，通过提取多感受野的深度特征，分割出文本框区域，自动生成多尺度、多方向的预测文本框，来适应由于文本高宽比变化大、背景相似、光照变化和运动模糊引入噪声等而导致的准确率低问题，其测试结果显示，相比于单一维度卷积特征的文本分割检测方法，检测准确率、召回率和F值均得到了提升，具有较好的文本检测性能。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于多感受野深度特征的文本检测方法，其特征在于，所述方法包括：

搭建多感受野深度网络模型；

2.根据权利要求1所述的文本检测方法，其特征在于，所述多感受野深度网络模型包括多感受野深度特征图提取模块、基于分割的损失计算模块以及转化模块；

所述转化模块，用于将分割区域转化为回归的文本框坐标。

3.根据权利要求2所述的文本检测方法，其特征在于，所述多感受野深度特征图提取模块包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层、第七卷积层、第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和输出层；其中，所述第一卷积层为三通道卷积层，所述第六卷积层为空洞卷积层；

4.根据权利要求2所述的文本检测方法，其特征在于，所述基于分割的损失计算模块中，每个像素八邻域连通度的损失如下式：

其中，rsum表示将张量转化为标量的运算方式；

其中，k＝[1，2，3，4，5，6，7，8]，Y表示像素的邻域是否相连的标记矩阵，K(i，j)∈K表示图片内每个像素点的平衡权重矩阵。

5.根据权利要求2所述的文本检测方法，其特征在于，所述基于分割的损失计算模块中，每个像素是否为文本的分类损失如下式：

6.根据权利要求2-5任一项所述的文本检测方法，其特征在于，所述基于分割的损失计算模块，每个像素八邻域连通度的损失以及是否为文本的分类损失的平衡权重矩阵的算法如下：

对于一张图片中的第i个文本框，定义为B_i，B_i的面积为S_i，那么每一个预测文本框内的像素有权重系数：

其中，S_i表示文本框按面积正序排列。

7.根据权利要求1-5任一项所述的文本检测方法，其特征在于，所述多感受野深度网络模型的训练采用如下的参数设定：

迭代次数：150000；

优化器：采用随机梯度下降法；

学习率：1e^-3；

学习率更新策略：训练迭代到1000步时学习率变化为5e^-3。

8.一种基于多感受野深度特征的文本检测系统，其特征在于，所述系统包括：

搭建单元，用于搭建多感受野深度网络模型；

9.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-7任一项所述的文本检测方法。

10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的文本检测方法。