CN109086663B

CN109086663B - 基于卷积神经网络的尺度自适应的自然场景文本检测方法

Info

Publication number: CN109086663B
Application number: CN201810675506.0A
Authority: CN
Inventors: 李豪杰; 袁琪; 张炳旺; 王智慧; 刘华
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2021-11-05
Anticipated expiration: 2038-06-27
Also published as: CN109086663A

Abstract

本发明属于计算机视觉技术领域，提供了一种基于卷积神经网络的尺度自适应的自然场景文本检测方法。该方法首先利用尺度回归层来学习场景图像中文本的尺度，然后根据文本的尺度对先验框以及感受野的尺寸进行动态调整。该方法设计的网络结构是端到端的，可直接定位出图像中文本框的位置。采用本发明能够实现鲁棒、准确且快速的文本定位，具有很高的实际应用价值。

Description

基于卷积神经网络的尺度自适应的自然场景文本检测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于卷积神经网络的尺度自适应的自然场景文本检测方法。

背景技术

自然场景中的文本检测由于其在文档分析、场景理解、机器人导航、图像检索等众多实际应用中的广泛应用，在计算机视觉领域得到了越来越多的关注。与文档图像不同，场景图像的背景较为复杂且易遭受不可控环境因素的干扰。此外，自然场景中的图像还存在文字尺寸、布局和颜色的多变性，因此，自然场景中的文本检测仍然是一个开放且具有挑战性的问题。

近几年来，受到深度学习方法对于一般对象检测的巨大进步的启发，许多基于深度学习的方法在文本检测任务上取得了很好的效果。Max Jaderberg等人(“SpatialTransformer Networks”，In Advances in Neural Information Processing Systems28,2015,2017-2025.)提出了一个基于区域卷积神经网络(Region-Convolutional NeuralNetwork,R-CNN)的文本检测框架，首先使用生成器生成候选词的大概位置，然后采用CNN来改进单词边界框。Minghui Liao等人(“Textboxes:A fast text detector with a singledeep neural network,”in Proc.AAAI,2017,pp.4161–4167.)提出了一个端到端的网络：TextBoxes，通过联合预测文本是否存在以及多个尺度上与anchor坐标位置的偏移量，直接输出边界框。

一般来说，基于候选框的文本检测器在精确性和鲁棒性方面显著改善了单个场景词检测性能。但是，现有的工作都是依赖于固定大小的anchor和回归策略。固定大小的anchor在检测大小不一的文字时有两个主要的问题：首先需要提前设置不同尺度的大量的anchor来匹配文本形状，例如在TextBoxes中，6个尺度一共使用了1214个不同比例的anchor，这在计算上是十分低效的。其次，当对单一尺度(单个特征图)进行预测时，无论anchor的大小是多大，CNN的标准卷积(“ImageNet Classification with DeepConvolutional Neural Networks”，In Advances in Neural Information ProcessingSystems 25,Curran Associates,Inc.,1097–1105.)中，对应的感受野大小都是固定的，这样会导致对较小或较大的文字的漏检。

本发明受到以上算法的启发，针对项目需求，提出一种有效的基于卷积神经网络的尺度自适应的自然场景文本检测方法。

发明内容

本发明的目的：该发明提供了一种尺度自适应的文本检测方法。解决了目前方法的不足。通过学习目标的尺度，该方法可以自动地设置更贴合目标的先验框，并且不需要在网络的多个特征图上设置先验框，从而极大减小了计算量并提升了检测性能。

本发明的技术方案：

一种基于卷积神经网络的尺度自适应的自然场景文本检测方法，步骤如下：

学习尺度因子：学习图像中文本的尺度，设计尺度自适应的先验框以及与文本尺度相匹配的卷积来提高计算效率与检测精度；

在VGG-16基础网络中引入额外的尺度回归层来生成尺度因子图，然后在损失函数的预测框参数表示中引入尺度因子，并根据链式法则反向求导传回的梯度信息更新尺度回归层；

设计尺度自适应的先验框，设置少数具有不同纵横比的先验框作为初始框，然后根据学习得到的尺度因子图，将每个初始框与对应位置的尺度因子相乘，使得先验框随着文本的尺度被任意的放大或缩小；相比于尺寸固定的先验框，本发明设计的尺度自适应的先验框可以更好的匹配各个尺度的文本，提升检测精度。此外，尺度先验框的设计也大大降低了算法所需要的先验框的数量，从而极大地提升了计算效率。

尺度自适应感受野的获取和使用：设计与文本尺度相匹配的卷积AnchorConvolution,利用学习得到的尺度因子图对每个文本所对应的任意尺寸的矩形感受野进行调整，获取每个文本的特征，进一步提高检测精度。

具体步骤如下：

使用VGG16作为基网络，删除Conv4_3norm层后所有层；在Conv4_3norm层后添加尺度回归层，从尺度回归层得到单通道的尺度因子图；尺度因子图与Conv4_3norm层具有相同的高和宽；尺度因子图中每个像素点的值表示Conv4_3norm层中对应位置的尺度；

1)前向传播

首先，设置自适应的先验框；在Conv4_3norm层中的每个像素点设置6个不同高宽比的先验框，先验框的尺寸参数置为30；使用四元组(x₀，y₀，h₀，w₀)表示初始先验框，实际先验框(x′，y′，h′，w′)的计算公式为：

x′＝x₀，y′＝y₀

w′＝w₀×s，h′＝h₀×s

其中，x，y为中心点坐标，h与w分别表示高和宽，s为尺度图中对应位置的值；

然后，设置Anchor Convolution；假设初始卷积核大小为k_h×k_w，对应的感受野P为((k_h-1)d_hs+1，(k_w-1)d_ws+1)；d_h与d_w是dilation参数，s为对应位置的尺度；设I＝P(h_ij，w_ij)为特征向量，用(c_h，c_w)表示P的中点，则：

h_ij＝c_h+id_hs，w_ij＝c_w+jd_ws

其中，整数

整数

用I与卷积核做像素级的乘法；对于k_h＝1的情况，改变特征向量的选择公式为：

其中，α为权重参数；

2)反向传播

目标函数；对于每个先验框，从Conv4_3norm层分别获得其置信预测和偏置预测；置信损失使用softmax，偏置损失使用Smooth-L₁，则多任务学习的目标函数为：

其中，indic为正负样本的指示器，N是匹配的正样本数量，config表示置信度，l表示预测的先验框，g为先验框的ground truth；

自适应先验框关于尺度的梯度，先验框l＝(x，y，w，h)的计算公式为：

x＝x′+w′Δx

y＝y′+h′Δy

w＝w′exp(Δw)

h＝h′exp(Δh)

则(x，y，w，h)关于s的梯度为：

Anchor Convolution关于尺度的梯度，假设O_xy表示前向传播输出特征图的元素，则

其中，Φ表示卷积核，I为特征向量，b为偏置，下标为相应坐标；则在AnchorConvolution层，损失函数关于I，Φ和b的梯度分别为：

根据链式求导法则，最终关于尺度的梯度为：

根据上述设置，对网络进行端到端的训练，并用训练好的模型对新数据进行预测。

本发明的有益效果：该方法首先利用尺度回归层来学习场景图像中文本的尺度，然后根据文本的尺度对先验框以及感受野的尺寸进行动态调整。该方法设计的网络结构是端到端的，可直接定位出图像中文本框的位置。采用本发明能够实现鲁棒、准确且快速的文本定位，具有很高的实际应用价值。

附图说明

图1是本发明的设计原理图。

图2是Anchor Convolution的设计原理图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明基于Caffe框架搭建网络模型，端到端地直接预测出自然场景图像中文本的位置坐标。

Step 1:数据准备，对场景中的文本框进行标注：(x,y,w,h)，其中x，y为文本框中心点的横坐标和纵坐标，w,h分别为文本框的宽和高。

Step 2:搭建深度网络结构，层次结构如图2所示。使用VGG16作为基网络，删除Conv4_3norm层后所有层。在Conv4_3norm层后添加尺度回归层，从尺度回归层得到单通道的尺度图。尺度图与Conv4_3norm层具有相同的高和宽。尺度图中每个像素点的值表示Conv4_3norm层中对应位置的尺度。

输入层：以场景图像I和对应的文本框标注作为输入，图像大小为300*300。

卷积层：3*3的卷积核提取特征，步长为1，填充为1。

池化层：采用最大池化的方式，2*2的卷积核，步长为2。

尺度回归层：1*5的卷积核提取特征，步长为1，填充分别为0和2。

分类层及框回归层：使用Anchor convolution提取特征。

损失层：最小化损失函数。

Step 3：基于公共平台Caffe进行网络训练。

学习率lr采用了“step”学习率策略：

其中，lr表示当前学习率，iter表示当前迭代次数，基本学习率lr_base设置为0.001,stepsize为20000，最大迭代次数为40000。学习率每迭代stepsize次变化一次。

Step 7:应用训练好的模型进行前向传播产生文本检测结果。

Claims

1.一种基于卷积神经网络的尺度自适应的自然场景文本检测方法，其特征在于，步骤如下：

设计尺度自适应的先验框，设置少数具有不同纵横比的先验框作为初始框，然后根据学习得到的尺度因子图，将每个初始框与对应位置的尺度因子相乘，使得先验框随着文本的尺度被任意的放大或缩小；

尺度自适应感受野的获取和使用：设计与文本尺度相匹配的卷积AnchorConvolution，利用学习得到的尺度因子图对每个文本所对应的任意尺寸的矩形感受野进行调整，获取每个文本的特征，进一步提高检测精度；

所述的基于卷积神经网络的尺度自适应的自然场景文本检测方法，具体步骤如下：

1)前向传播

x′＝x₀，y′＝y₀

w′＝w₀×s，h′＝h₀×s

其中，x’，y’为中心点坐标，h与w分别表示高和宽，s为尺度图中对应位置的值；

然后，设置Anchor Convolution；假设初始卷积核大小为k_h×k_w，对应的感受野P为((k_h-1)d_hs+1，(k_w-1)d_ws+1)；d_h与d_w是dilation参数，s为尺度图中对应位置的值；设I＝P(h_ij，w_ik)为特征向量，用(c_h，c_w)表示P的中点，则：

h_ij＝c_h+Id_hs，w_ij＝c_w+jd_ws

其中，整数