CN109299274A

CN109299274A - 一种基于全卷积神经网络的自然场景文本检测方法

Info

Publication number: CN109299274A
Application number: CN201811319968.5A
Authority: CN
Inventors: 汪洋; 苏丰
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-02-01
Anticipated expiration: 2038-11-07
Also published as: CN109299274B

Abstract

本发明公开了一种基于全卷积神经网络的自然场景文本检测方法，该方法使用CNN网络提取文本的特征表示，通过特征融合模块调整特征表示，同时融合特征图高层的语义特征和低层的位置信息，使得提取的特征具有更强的表示能力，并结合文本预测模块直接预测出候选的文本对象。该方法采用了端到端的训练和预测过程，处理流程简单，无需多步骤分级处理，最后通过简单的NMS操作得到最终的检测结果，其准确度高，鲁棒性强，对于复杂背景的自然场景图像中的多方向、多尺寸的文本对象也能很好地予以检测，具有优良的自然场景文本检测性能。

Description

一种基于全卷积神经网络的自然场景文本检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于全卷积神经网络的自然场景文本检测方法。

背景技术

自然场景文本通常携带了关于场景和图像内容的丰富语义信息，在图像的检索、标注、内容分析等许多应用领域具有十分重要的作用。相较于扫描文档中的文本而言，自然场景文本的字体、尺寸、方向、颜色等外观属性和图像背景、光照等因素更为复杂多变，同时自然场景图像采集时可能发生模糊、分辨率过低等情况，使得自然场景文本检测成为一件具有挑战性的任务。

传统的自然场景文本检测方法可分为两类，分别是基于连通组件的文本检测方法和基于滑动窗口的文本检测方法。基于连通组件的文本检测方法通常首先提取图像中的连通组件，接着使用特定文本特征、规则或分类器对连通组件进行过滤得到候选字符，最后将候选字符拼接成文本行作为最终的文本检测结果。该类方法的文本检测性能依赖于所提取的连通组件的质量和人工选择的特征，在处理复杂的场景图像时往往难以取得令人满意的结果。基于滑动窗口的文本检测方法首先在输入图像上进行滑动窗口扫描，提取每个滑动窗口中局部图像块的特定特征，基于这些特征使用分类器确定每个滑动窗口是否对应文本区域，最后将属于同一文本对象的文本区域组合起来得到最终的文本检测结果。该类方法的性能同样依赖于所选择的特征以及分类器的能力，并且滑动窗口可能只包含整体文本对象的一个局部区域或者包含不属于文本的图像背景区域，从而影响最终文本检测的精度，需要后续处理加以精化。此外，从一幅输入图像中提取的滑动窗口数量往往很多，对每个滑动窗口进行处理使得总的计算量较大。

近年来，随着深度神经网络例如卷积神经网络(Convolutional Neural Network，CNN)在各种计算机视觉任务中的广泛应用并且取得了不错的效果，基于深度神经网络的文本检测方法已经成为主流。在面对复杂场景中的文本检测任务时，相对于传统方法中人工设计的特征，该类方法能够自动从图像数据中学习并提取更加鲁棒和表示能力更强的特征，从而获得泛化能力更强的文本检测模型，并且模型的训练和预测是端到端的，不需要复杂处理流程的同时能够取得更好的文本检测效果。常见的基于深度神经网络的文本检测模型一般借鉴计算机视觉研究中提出的各类目标检测模型，例如Faster-RCNN，SSD等。这些模型一般包含多个卷积层和池化层，通过不断卷积及池化操作实现不同层次特征的提取，一方面提高了特征语义表达的能力，但另一方面也损失了精确的位置信息，一定程度上影响了文本对象的准确检测。

发明内容

传统的自然场景文本检测方法依赖于人工设计的特征并且采取多步骤的检测流程，很难获得针对复杂自然场景图像中令人满意的文本检测性能。当前主流的基于深度学习的文本检测模型一般通过多个卷积和池化操作提取不同抽象级别的文本特征表示，提高了特征的语义表达能力，但在降低特征图分辨率的同时损失了精确的位置信息，影响了最终的文本检测性能。为了解决上述问题，本发明提供了一种基于全卷积神经网络的自然场景文本检测方法。

本发明具体采用如下技术方案：

一种基于全卷积神经网络的自然场景文本检测方法，其特征在于包括以下步骤：

(1)训练基于全卷积神经网络的自然场景文本检测模型，包括以下子步骤：

(1.1)获取带有标注文本框的图像数据集作为训练数据集，其中标注框的表示形式为文本框的四个顶点坐标C＝{(x_i,y_i)}，1≤i≤4，并按照顺时针方向排列。

(1.2)构建基于全卷积神经网络的自然场景文本检测模型，并设计损失函数，根据步骤(1.1)中带标注文本框的数据集生成训练标签，进而基于训练数据集及其训练标签利用反向传播(Back Propagation，BP)算法训练该文本检测模型，得到训练好的自然场景文本检测模型，包括以下子步骤：

(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型，具体由特征抽取模块、特征融合模块和文本预测模块组成；所述特征抽取模块用于逐级提取输入图像的特征图，所述特征融合模块用于对特征抽取模块逐级提取的特征图进行精细化调整并加以融合，所述文本预测模块用于对特征融合模块融合操作后输出的特征图进行文本类别得分预测和坐标偏移量回归预测；

(1.2.2)根据训练数据集生成训练标签，包括标注文本框的文本/非文本类别以及四个顶点坐标偏移量Q＝{(Δx_i,Δy_i)}，1≤i≤4；

(1.2.3)将带标注文本框的训练数据集图像作为检测模型的输入，经过特征抽取模块和特征融合模块的处理，得到精细化调整并结合高层语义信息和低层位置信息的特征；

(1.2.4)将提取的特征输入到文本预测模块，计算得到文本框的文本类别得分和四个顶点坐标偏移量

(1.2.5)根据训练标签和文本检测模型的预测输出，基于所设计检测模型的目标损失函数，利用反向传播算法训练检测模型。

(2)使用上述训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测，具体包括以下子步骤：

(2.1)将测试图像输入文本检测模型，从模型的文本预测模块的输出中得到候选文本框的类别得分和坐标偏移量回归结果；

(2.2)对预测得到的候选文本框进行非极大值抑制操作以去除部分冗余或无效的文本框，得到最终的文本检测结果。

本发明公开的一种基于全卷积神经网络的自然场景文本检测方法，该方法使用CNN网络提取文本的特征表示，通过特征融合模块调整特征表示，同时融合特征图高层的语义特征和低层的位置信息，使得提取的特征具有更强的表示能力，并结合文本预测模块直接预测出候选的文本对象。该方法采用了端到端的训练和预测过程，处理流程简单，无需多步骤分级处理，最后通过简单的非极大值抑制(Non-Maximum Suppression，NMS)操作得到最终的检测结果，其准确度高，鲁棒性强，对于复杂背景的自然场景图像中的多方向、多尺寸的文本对象也能很好地予以检测，具有优良的自然场景文本检测性能。

附图说明

图1.本发明基于深度全卷积网络的自然场景文本检测方法的流程图；

图2.本发明自然场景文本检测模型的网络结构图；

图3.本发明精细化模块(Refine Block)结构图；

图4.本发明实施例中使用自然场景文本检测模型对测试图像进行检测获得的文本框结果图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本发明中的术语进行解释和说明：

ResNet-50：ResNet是何凯明等人提出的用于目标检测的网络模型架构，根据所采用网络层数的不同命名为ResNet-34、ResNet-50、ResNet-152等。ResNet一般包含5个部分，其中第1个部分由采用7*7卷积核的卷积层组成，然后通过卷积核为3*3、步长为2的池化层，后4个部分每个由数量不等的卷积核为3*3的卷积层和一个池化层组成。ResNet具有强大的特征表示能力，常在不同计算机视觉任务中用作基础网络。

残差块(residual unit)：残差块是ResNet中的一种基础模块，它采用残差学习的思想，将输入的特征图通过残差学习分支(由2个卷积操作和Relu(Rectified LinearUnit)函数组成)得到残差特征图，并将其和输入的特征图进行相加操作，得到最终的模块输出结果。

Inception模块：Inception模块是GoogLeNet中的一种组合多种卷积操作的模块，分别利用不同大小的卷积核对输入特征图进行卷积操作，同时进行最大池化操作，再将卷积结果和池化结果拼接在一起作为模块的输出。Inception模块可以增加网络的宽度，同时可以获取不同大小感受野的特征。

非极大值抑制(NMS)：非极大值抑制操作通过排序、遍历和比较操作循环迭代实现对重叠检测框进行过滤，去除冗余的检测框以得到最终的检测结果，是一种广泛应用于计算机检测领域中的算法。

如图(1)所示，本发明中基于全卷积神经网络的自然场景文本检测方法包括以下步骤：

(1.2)构建基于全卷积神经网络的自然场景文本检测模型，并设计损失函数，根据步骤(1.1)中带标注文本框的训练数据集生成训练标签，进而基于训练数据集及其训练标签利用反向传播算法训练该文本检测模型，得到训练好的自然场景文本检测模型，包括以下子步骤：

(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型，如图(2)所示，该模型由特征抽取模块、特征融合模块和文本预测模块组成：特征抽取模块以ResNet-50为基本骨架网络，由5个部分组成，分别为conv1，conv2_x，conv3_x，conv4_x，conv5_x，用于逐级提取图像的高层语义特征，每个部分包含数量不等的卷积层和一个池化层，对于输入的图像，经过ResNet-50的每个部分处理后，其输出特征图的分辨率缩小2倍，其中“n×n,m,/2”表示卷积核大小为n*n，卷积核个数为m，输出特征图的分辨率缩小为输入特征图的1/2。特征融合模块将特征抽取模块中后4个部分(conv2_x，conv3_x，conv4_x，conv5_x)输出的特征图通过精细化调整模块(Refine Block)加以融合，共有4个Refine Block，分别记为RefineBlock-i,1≤i≤4。Refine Block-4的输入为ResNet-50第5个部分输出的特征图，经过Refine Block中多分辨率融合模块时直接通过该模块，其余Refine Block的输入为前一个Refine Block输出的低分辨率的特征图和ResNet-50当前部分输出的高分辨率的特征图，这里的高、低分辨率是相比较而言，ResNet-50后四个部分中的每一个提取的特征图的分辨率均比对应的前一个Refine Block输出的特征图的分辨率高。如图(3)所示，Refine Block的网络结构包含多个输入分支，对于每个分支输入的特征图，首先通过残差块(residualunit)，应用2次Relu函数和卷积核为3*3的卷积操作(Conv)后，与输入的特征图相加(Sum)，作为残差块的输出结果输入到多分辨率融合模块，用这样的方式对特征图进行调整，使其适应文本检测任务；接着多分辨率融合模块对每个输入特征图进行卷积核为3*3的卷积操作，并对低分辨率的特征图(来自前一个Refine Block)进行转置卷积(Deconv)得到和高分辨率的特征图(来自ResNet-50当前部分)同样分辨率的特征图，将其和卷积后的高分辨率特征图进行拼接(Concat)并通过卷积核为3*3的卷积层及Relu函数后输入到Inception模块中，得到Refine Block的输出特征图。其中Inception模块包含卷积核为1*1、3*3、5*5的卷积层和3*3的最大池化层，池化结果需要通过卷积核为1*1的卷积层，最后将卷积结果拼接，通过卷积核为3*3的卷积操作后，输出的特征图作为Refine Block的输出结果。文本检测模型对最后一个Refine Block的输出特征图进行卷积核为3*3的卷积操作，得到最终经过精细化调整并且融合了高层语义信息和低层位置信息的特征图，进而输入到文本预测模块。文本预测模块包含分类分支和回归分支，分别用于类别得分预测和坐标偏移量回归预测，其中分类分支对输入的特征图进行卷积核为1*1的卷积操作，得到1个特征图，表示预测的候选文本框的类别得分，回归分支对输入的特征图进行卷积核为1*1的卷积操作，得到8个特征图，分别表示预测的候选文本框的坐标偏移量。其中“n×n,m”表示卷积核大小为n*n，卷积核个数为m。

(1.2.2)根据训练数据集生成训练标签，包括标注文本框的文本/非文本类别以及四个顶点坐标偏移量Q＝{(Δx_i,Δy_i)}，1≤i≤4：对于训练数据集中的第i幅图像I_i，首先将图像I_i的分辨率缩放到预先指定的512*512像素尺寸，然后对于图像I_i中每个标注文本框C_j＝{x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄}，其中每一个坐标分别对应于文本预测模块中的8个坐标偏移量回归特征图中的一个。假设(x₀,y₀)是特征图上某像素点的位置坐标，则对每一个位于标注文本框中的像素点，根据以下公式计算特征图上该像素点对应位置的取值Δx_i＝1,2,3,4，Δy_i＝1,2,3,4(不同下标分别对应一个坐标偏移量回归特征图)：

Δx₁＝x₁-x₀，Δy₁＝y₁-y₀

Δx₂＝x₂-x₀，Δy₂＝y₂-y₀

Δx₃＝x₃-x₀，Δy₃＝y₃-y₀

Δx₄＝x₄-x₀，Δy₄＝y₄-y₀

Q＝(Δx₁,Δy₁,Δx₂,Δy₂,Δx₃,Δy₃,Δx₄,Δy₄)被用作期望输出的坐标偏移量训练标签。

另一方面，将类别得分特征图上每个标注文本框C_j所在区域中的像素点置为1，其他像素点置为0，生成期望输出的对应标注文本框C_j的类别得分训练标签。

(1.2.3)将带标注文本框的训练数据集中图像作为待训练的文本检测模型的输入，通过特征抽取模块和特征融合模块，得到精细化调整并结合高层语义信息和低层位置信息的特征：首先初始化文本检测模型中的网络权重和偏置，然后将训练图像作为步骤(1.2.1)中文本检测模型特征抽取模块的输入，经过特征抽取模块的卷积和池化操作得到图像的高层语义特征，接着将其通过特征融合模块进行精细化调整并融合，经过4个RefineBlock以及1个卷积核为3*3的卷积层后，得到经过精细化调整并结合高层语义信息和低层位置信息的特征图。

(1.2.4)将提取的特征图输入到文本预测模块，计算得到文本框的文本类别得分和四个顶点坐标偏移量将步骤(1.2.3)中得到的训练图像的特征图输入到文本预测模块，经过1个1*1卷积层得到文本框的预测类别得分s，同时经过8个1*1卷积层得到文本框的8个坐标值的回归偏移量预测标签其中表示相对文本框四个顶点横坐标、纵坐标的回归偏移量预测值。

(1.2.5)根据训练标签和文本检测模型的预测输出，基于所设计检测模型的目标损失函数，利用反向传播算法训练检测模型：基于步骤(1.2.2)中计算得到的标注文本框的类别得分和顶点坐标偏移量的训练标签和步骤(1.2.4)中得到的文本框的类别得分和顶点坐标偏移量的预测标签，针对步骤(1.2.1)构建的文本检测模型，设计目标损失函数L计算公式如下，包括分类损失和回归损失两部分：

其中，L、L_s、L_g分别表示总损失函数、分类损失函数、回归损失函数。回归损失函数L_g通过顶点坐标偏移量的训练标签和预测标签之间的平滑L1损失函数计算。λ是平衡分类损失和回归损失之间的权重系数，实际中设置为20。

分类损失函数L_s计算公式如下：

其中，Y_i和分别表示类别的训练标签特征图和预测标签特征图上每个像素点的取值，N表示特征图中像素点的总数。

基于文本检测模型在每一训练图像数据上计算得到的损失值，以最小化总体目标损失函数为训练目标，使用反向传播算法对文本检测模型进行训练，最终得到最优的文本检测模型。其中，针对自然场景文本检测任务，设置初始学习率为0.0001，每迭代10000次学习率乘以0.94，并使用随机梯度下降法优化损失函数。当模型性能不再提升时停止训练过程，进而将其应用于自然场景文本检测。

(2)给定一幅测试图像，使用上述训练完成的自然场景文本检测模型对该图像中的自然场景文本进行检测，具体包括以下子步骤：

(2.1)将测试图像输入文本检测模型，从模型的文本预测模块的输出中得到候选文本框的类别得分和坐标偏移量回归结果：对于待检测图像I，将其输入到步骤(1.2)训练好的文本检测模型中，经过特征抽取模块、特征融合模块得到精细化调整并结合高层语义信息和低层位置信息的特征，进一步将其送入文本预测模块，分别从类别得分预测分支得到1个输出特征图、从坐标偏移量预测分支得到8个输出特征图，其中所有特征图中对应位置上的每个像素点的取值分别表示预测的候选文本框的类别得分及其相对于该像素点位置的坐标偏移量。

(2.2)对预测得到的候选文本框进行非极大值抑制操作，从而过滤去除部分冗余或无效的文本框，得到最终的文本检测结果：步骤(2.1)最后得到的所有特征图上对应位置的每个像素点组合起来表示一个候选文本框的类别得分和坐标偏移量。对于文本检测模型预测得到的所有候选文本框，去除类别得分c＜0.5的候选文本框，然后对剩余的候选文本框进行非极大值抑制操作，得到最终的文本检测结果。图(4)为发明一实例最终检测到的文本框结果图，可见本发明提供的一种基于全卷积神经网络的自然场景文本检测方法具有优良的自然场景文本检测性能，能够对包含复杂背景的自然场景图像中多方向、多尺寸的文本对象进行很好地检测。

相比于现有的场景文本检测技术，上述检测方法具有以下优点：

1)精细化模块对卷积神经网络中的特征图进行调整，使得提取的特征具有更强的表达能力。

2)文本检测模型的网络结构中，对低分辨率的特征图进行转置卷积放大并与上一层的高分辨率特征图进行拼接，从而将卷积特征图的高层语义特征和低层位置信息有效结合起来，提高了文本检测模型的性能。

3)利用端到端的深度神经网络直接预测出候选文本对象，无需多步骤分级处理，最后通过简单的NMS操作得到最终的检测结果，其准确度高，鲁棒性强，对于复杂背景的自然场景图像中的多方向、多尺寸的文本对象也能很好地予以检测。

Claims

1.一种基于全卷积神经网络的自然场景文本检测方法，其特征在于包括以下步骤：

(1.1)获取带有标注文本框的图像数据集作为训练数据集，其中标注框的表示形式为文本框的四个顶点坐标C＝{(x_i,y_i)}，1≤i≤4，并按照顺时针方向排列；

(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型，具体由特征抽取模块、特征融合模块和文本预测模块组成：所述特征抽取模块用于逐级提取输入图像的特征图，利用一系列卷积和池化操作得到图像的高层语义特征；所述特征融合模块用于对特征抽取模块提取的特征图进行精细化调整并对特征图高层的语义特征和低层的位置信息加以融合；所述文本预测模块用于对特征融合模块融合操作后输出的特征图进行文本类别得分预测和坐标偏移量回归预测；

(1.2.5)根据训练标签和文本检测模型的预测输出，基于所设计检测模型的目标损失函数，利用反向传播算法训练检测模型；

(2.1)将测试图像输入文本检测模型，从模型的文本预测模块的输出中得到候选文本框的文本类别得分和坐标偏移量回归结果；

2.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于所述特征抽取模块以ResNet-50为基本骨架网络，由5个部分组成，每个部分包含数量不等的卷积层和一个池化层，用于逐级提取输入图像的高层语义特征，输出从高到低4种不同分辨率的特征图。

3.如权利要求2所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于对于输入的图像，经过ResNet-50每个部分处理后，其输出特征图的分辨率缩小2倍。

4.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于特征融合模块主要由4个精细化调整模块串联组成，用于对特征抽取模块逐级提取输出的特征图进行调整并加以融合；特征抽取模块提取输出4种不同分辨率的特征图，按分辨率从低到高的顺序输入第四～第一个精细化调整模块，第一～第三个精细化调整模块的输入还包括前一个精细化调整模块输出的特征图。

5.如权利要求4所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于所述精细化调整模块由两个残差块、一个多分辨率融合模块和一个Inception模块组成；对于输入的特征图，首先通过残差块应用2次Relu函数和卷积核为3*3的卷积操作后，与输入的特征图相加，作为残差块的输出结果输入到多分辨率融合模块；接着多分辨率融合模块对输入的来自特征抽取模块的特征图进行卷积核为3*3的卷积操作，对输入的来自前一个精细化调整模块的特征图进行卷积核为3*3的卷积操作及转置卷积操作，从而使两部分操作得到的特征图具有相同的分辨率，然后将两部分操作得到的特征图进行拼接，并通过卷积核为3*3的卷积层及Relu函数后输入到Inception模块中。

6.如权利要求5所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于所述Inception模块包含卷积核为1*1、3*3、5*5的卷积层和3*3的最大池化层，池化结果进一步通过卷积核为1*1的卷积层，最后将所有卷积结果拼接，通过卷积核为3*3的卷积操作后，输出的特征图作为精细化调整模块的输出结果。

7.如权利要求4所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于特征融合模块对最后一个精细化调整模块的输出特征图进行卷积核为3*3的卷积操作，得到最终经过精细化调整并且融合了高层语义信息和低层位置信息的特征图，输入到文本预测模块。

8.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于文本预测模块包含分类分支和回归分支，分别用于文本类别得分预测和坐标偏移量回归预测；其中，分类分支对输入的特征图进行卷积核为1*1的卷积操作，得到1个特征图，表示预测的候选文本框的文本类别得分；回归分支对输入的特征图进行卷积核为1*1的卷积操作，得到8个特征图，分别表示预测的候选文本框的坐标偏移量。

9.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于损失函数L计算公式如下，包括分类损失和回归损失两部分：

其中，L、L_s、L_g分别表示总损失函数、分类损失函数、回归损失函数；

回归损失函数L_g通过顶点坐标偏移量的训练标签和预测标签之间的平滑L1损失函数计算；λ是平衡分类损失和回归损失之间的权重系数。

10.如权利要求9所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于分类损失函数L_s计算公式如下：