CN109948607A

CN109948607A - 基于深度学习反卷积网络的候选边框生成和目标检测方法

Info

Publication number: CN109948607A
Application number: CN201910128720.9A
Authority: CN
Inventors: 师君; 王琛; 周泽南; 周远远; 杨夏青
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-06-28

Abstract

本发明公开了一种基于深度学习反卷积网络的候选边框生成和目标检测方法，该方法包括获取检测图像数据集，构建基于反卷积网络的目标检测网络模型，训练基于反卷积网络的目标检测网络模型，利用基于反卷积网络的目标检测网络模型进行检测。本发明通过使用反卷积网络来获取候选边框，可以在不同角度、不同尺寸目标处生成自适应边框，无需对候选边框的尺寸进行设置，而是通过反卷积网络对卷积网络提取到的特征进行解析同时根据解析信息来得到目标所在区域，可以获取精简且精确的候选边框集合，提高检测网络的检测效果和检测速度。

Description

基于深度学习反卷积网络的候选边框生成和目标检测方法

技术领域

本发明涉及图像处理、深度学习、模式识别技术领域，尤其涉及一种基于反卷积网络的候选边框生成方法和目标检测方法。

背景技术

目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天、遥感等诸多领域；同时，目标检测也是图像解析、实例分割等任务的基础。通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。

近年来，伴随着深度学习的发展,基于深度卷积神经网络的检测方法获得了超越其他方法的检测精度。深度学习检测方法可分为单阶段(one-stage)检测方法和双阶段(two-stage)检测方法。双阶段指候选边框生成阶段和候选边框分类与定位阶段。候选边框生成阶段实现对候选初始边框集合中边框的初步筛选。单阶段方法则直接对候选初始边框进行分类和定位。

目前流行的检测方法中，影响目标检测速度和效果的一个重要因素是生成候选边框集合中边框数量与质量。因此，如何生成精确且精简的候选边框集合是目标检测中的一个重要的问题。

发明内容

本发明的发明目的是：为了解决现有技术中存在的以上问题，本发明提出了一种基于深度学习反卷积网络的候选边框生成和目标检测方法。

本发明的技术方案是：一种基于深度学习反卷积网络的候选边框生成和目标检测方法，包括以下步骤：

A、获取检测图像数据集、图像像素类别标注和目标边框标注，并将检测图像数据集划分为检测图像训练集和检测图像测试集；

B、采用包含卷积神经网络和反卷积网络的基于反卷积网络候选边框生成网络及候选边框分类与回归网络的目标检测网络结构，构建基于反卷积网络的目标检测网络模型；

C、利用步骤A中得到的检测图像训练集对步骤B构建的基于反卷积网络的目标检测网络模型进行训练；

D、利用步骤C训练后的基于反卷积网络的目标检测网络模型对步骤A中得到的检测图像测试集进行检测，并采用平均精度平均值对检测结果进行评估。

进一步地，所述步骤B中，构建基于反卷积网络的目标检测网络模型具体包括以下分步骤：

B1、设置目标检测网络模型的输入层参数，对图像进行预处理；

B2、将预处理后的图像作为卷积神经网络的输入层，得到共享特征图；

B3、采用反卷积网络对共享特征图进行解析，得到候选边框；

B4、采用候选边框分类与回归网络对候选边框分类与回归处理，得到边框及其对应的整数表示的类别。

进一步地，所述步骤B3中，还包括采用多层特征融合方式，将反卷积网络中设定反卷积层得到的得到共享特征图与卷积网络中设定卷积层得到的得到共享特征图进行融合，作为反卷积网络中反卷积层的输入层。

进一步地，所述步骤B4中，所述候选边框分类与回归网络包括四层全连接层，其中前两层全连接层依次连接并与ROI Pooling层连接，后两层全连接层分别作为候选边框分类分支和回归分支网络输出层。

进一步地，所述步骤C中，训练基于反卷积网络的目标检测网络模型的损失函数表示为

L＝L_DeRPN+L₂

L₂(p，u，t，t^*)＝L_cls(p，u)+λ[u≥1]L_loc(t，t^*)

其中，L为损失函数，P，G_c分别为基于反卷积网络的候选边框生成网络的输出与像素类别标注，P_i，G_ci分别表示基于反卷积网络的候选边框生成网络的输出中第i个像素点对应类别概率与其对应像素类别标注，i为遍历网络输出中的M×N个像素点时所用序数，p，u，t，t^*分别为候选边框分类与回归网络输出概率、目标边框标注的真实类别、候选边框分类与回归网络输出边框及目标边框标注的真实边框，M、N为图像的高和宽，L_cls(p，u)为边框分类损失，L_loc(t，t^*)为边框回归损失，λ为控制边框分类损失和边框回归损失平衡的超参数。

本发明的有益效果是：本发明通过使用反卷积网络来获取候选边框，可以在不同角度、不同尺寸目标处生成自适应边框，无需对候选边框的尺寸进行设置，而是通过反卷积网络对卷积网络提取到的特征进行解析同时根据解析信息来得到目标所在区域，可以获取精简且精确的候选边框集合，提高检测网络的检测效果和检测速度。

附图说明

图1是本发明的基于深度学习反卷积网络的候选边框生成和目标检测方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为了方便描述本发明的内容，首先作以下术语定义：

定义1、输入层

输入层指检测网络输入，为一个四维张量(N，H，W，C)，其中N、H、W、C分别为输入检测图像数量、图像高度、图像宽度和图像通道数。其中图像高度和宽度即为图像尺寸。

定义2、卷积层

卷积层实现由四维张量(N，K，K，C₁)表示的卷积核与输入进行卷积运算，提取输入的不同特征得到由四维张量(N，H_o，W_o，C₂)表示的输出。其中N、K、C₁分别表示输入特征图数量、卷积核大小和特征图通道数。其输入可以是输入层或者特征图。其中H_o，W_o表示卷积层输出特征图像的高和宽，C₂表示卷积数目。

定义3、激活函数

激活函数是在卷积层后的非线性函数，激活函数后输出的四维张量(N，H_f，W_f，C_f)为特征图。网络中激活函数可选择不同的函数，如定义为f(x)＝max(x，0)，f(x)＝tanh(x)，或

定义4、特征图上采样和下采样

特征图上采样指将四维张量(N，H_f，W_f，C_f)表示的特征图中H_f，W_f值进行扩大或缩小。

定义5、池化层

池化层是一种实现特征图下采样的操作。其输入为四维张量(N，H_f，W_f，C_f)表示的特征图，输出为H_f，W_f缩小后的特征图。

定义6、反卷积层

反卷积层指将特征图进行特征图上采样并由四维张量(N，K_d，K_d，C_d)表示的卷积操作进行卷积得到的由四维张量(N，H_a，W_d，C₃)表示的特征图输出，其中H_d，W_d，C₃分别为反卷积输出特征图高、宽和反卷积核个数。

定义7、卷积神经网络

卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，由一个或多个卷积层、激活函数和池化层前后级联组成。其输入为输入层，输出为最后一层卷积层提取到的四维张量表示的特征图，即共享特征图F。

定义8、共享特征图F

共享特征图指卷积神经网络的四维张量(N，H_F，W_F，C_F)表示的输出，为反卷积网络和第二阶段候选边框分类与回归网络的共同输入。

定义9、反卷积网络

反卷积网络由k个反卷积(又称转置卷积)层组成，其输入为共享特征图F，输出为经k个反卷积层后的像素分类结果。反卷积网络实现特征图上采样和特征解码功能。

定义10、图像预处理

图像预处理指对图像在输入输入层之前所进行的处理，通常包含图像平移、旋转、裁剪、颜色变换等。

定义11、精确度Precision，P

精确度P度量检测结果中真阳性样本的比例，定义为检测中真阳性(Truepositive，TP)与真阳性和假阳性(False positive，FP)总和的比例：

定义12、召回率Recall，R

召回率R度量检测正样本中正确样本所占的比例，定义为真阳性与真阳性和假阴性(False Negative，FN)总和的比例：

定义13、平均精度AP

平均精度AP指某类目标Recall值从0到1对应Precision的平均值，定义如下：

定义14、mAP

mAP(mean average precision)指对于多类目标，平均精度的平均值，用于评价目标检测效果。mAP值越大，说明检测网络检测效果越好。

定义15、图像标准化

图像标准化指将图像中每个通道的灰度值范围调整为特定范围之内，定义如下：

其中，

σ表示标准方差，N表示图像I的像素数量。

定义16、像素分类结果

像素分类结果为输入层对应分类结果，为一个四维张量(N，H，W，1)，其前三维大小与输入层相同，最后一维为一整型数，表示预测得到的类别。

定义17、像素类别标注

像素类别标注指与检测图像尺寸(H，W)相同，图像灰度值表示像素点真实类别的图像，其为一个三维张量(H，W，1)。

定义18、边框

边框可用其顶点坐标来表示，顶点坐标为一个一维张量B，存储每个顶点的坐标x、y的值。边框顶点坐标可确定边框所划出的区域。

定义19、目标边框标注

目标边框标注是指包含图像中真实目标所在位置，即边框顶点坐标的集合和相应类别信息的文件。其中类别信息为不同类别名称(在检测网络中将不同类别名称用多个整形数来表示)。

定义20、候选边框

候选边框表示目标可能存在的区域，同样用顶点坐标表示。

定义21、交替训练

交替训练是双阶段目标检测网络训练方式的一种：在训练第一阶段网络时，不改变第二阶段网络权值；而在训练第二阶段网络时，不改变第一阶段网络权值。

定义22、多层特征融合

多层特征融合是一类通过相加或叠加等方式将对应深度特征图进行融合的一种技术。其输入为不同深度的特征图(N，H₁，W₁，NF₁)、(N，H₂，W₂，NF₂)，输出为(N，H_f，W_f，NF_f)。在融合时，H₁和H₂都将统一为H_f，同理W₁和W₂都将统一为W_f。若融合时采用相加方式，则NF₁＝NF₂＝NF_f，若采用叠加方式，则NF₁+NF₂＝NF_f。

定义23、梯度下降方法

梯度下降方法是一类在深度学习神经网络训练中降低损失的最优化方法，包括随机梯度下降法。深度学习使用梯度下降方法时可采用多种优化方法，如Adam优化子、Mementum优化子等和随机梯度下降优化子等。网络权重训练时，每次梯度下降数值前的系数称为学习率。

定义24、边框非极大值抑制

边框非极大值抑制指的是在相同种类且重叠程度较高的多个边框中选出预测概率最高的边框，并将其余边框去除的过程。使用时可设置边框非极大值抑制阈值从而确定不同重叠程度的边框抑制程度。

定义25、反向传播

反向传播(Backpropagation，BP)是“误差反向传播”的简称，是一种与最优化方法(如梯度下降法)结合使用的，用来训练人工神经网络的常见方法。

定义26、第二阶段候选边框分类与回归网络

第二阶段候选边框分类与回归网络是两阶段检测网络的子网络，用于对候选边框(建议区域)进行分类与回归，其输入为四维张量(N，H_R，W_R，C_R)表示的特征图，输出为边框及其对应的整数表示的类别。

定义27、损失函数

损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数，借此直观表示的一些″成本″与事件的关联。一个最优化问题的目标是将损失函数最小化。

定义28、权重衰减

权重衰减又叫L2正则化，指通过在网络训练损失函数中增加权重的L2范数从而让权重衰减到更小的值，在一定程度上减少模型过拟合的问题。L2范数定义如下：

L2正则化前的系数λ称为权重衰减系数。

如图1所示，为本发明的基于深度学习反卷积网络的候选边框生成和目标检测方法流程示意图；一种基于深度学习反卷积网络的候选边框生成和目标检测方法，包括以下步骤：

D、利用步骤C训练后的基于反卷积网络的目标检测网络模型对步骤A中得到的遥图像测试集进行检测，并采用平均精度平均值对检测结果进行评估。

在本发明的一个可选实施例中，上述步骤A获取检测图像数据集、图像像素类别标注和目标边框标注，并将获取的检测图像数据集划分为检测图像训练集和检测图像测试集，分别用于目标检测网络模型的训练和测试。

本发明选用NWPU VHR-10遥感图像集进行检测任务的数据集构建，NWPU VHR-10数据集是一个公开可用的十类地理空间目标检测数据集。这十类目标分别为飞机、储油罐、棒球内场、网球场、篮球场、操场、车辆、桥梁、海港和轮船。

由于原数据集仅包含高分辨率遥感图像和目标边框标注文件，因此本发明对NWPUVHR-10每张图像增加像素类别标注。

本发明中将检测图像数据集中的图像数据按5∶8的比例分为训练集和测试集；训练集中185张图像用于构建像素分类数据集，即包含原始图像与像素类别标注，而250幅训练图像都用于构建目标检测数据集，即包含原始图像与目标边框标注。

此外，本发明还采用数据增强操作，包括图像翻转变换、gamma变换、随机色彩抖动(包括对比度、亮度和饱和度)、图像平滑操作和图像旋转变换来增强数据集。

在本发明的一个可选实施例中，上述步骤B采用包含卷积神经网络和反卷积网络的基于反卷积网络候选边框生成网络及候选边框分类与回归网络的目标检测网络结构，将以上网络依次连接构建基于反卷积网络的目标检测网络模型。

基于反卷积网络的目标检测网络包含基于反卷积网络的候选边框生成网络和候选边框分类与回归网络，基于反卷积网络候选边框生成网络包含卷积神经网络和反卷积网络，而候选边框分类与回归网络包含若干个卷积层和/或全连接层。

基于反卷积网络的目标检测网络模型以N张检测图像组成的四维张量作为输入层，分别经卷积神经网络得到共享特征图F，再经基于反卷积网络的候选边框生成网络中的反卷积网络输出候选边框；最后经候选边框分类与回归网络输出边框和与之对应的整数表示的类别；候选边框分类与回归网络以共享特征图F和候选边框为输入，输出预测边框集合S。

构建基于反卷积网络的目标检测网络模型具体包括以下分步骤：

本发明首先对目标检测网络模型的输入层参数设置为N＝800，W＝800，再进行图像预处理操作，这里的图像预处理操作包括图像标准化操作。

本发明采用分类网络VGG16网络中的卷积层来作为卷积神经网络，其输入为四维张量表示的预处理后的图像，输出为提取到的共享特征图F。VGG16卷积网络包含13个卷积层和3个全连接层，本发明采用其13个卷积层来构建卷积网络；在网络结构中，所有卷积结构中卷积核大小设置为3×3；

本发明采用3层反卷积层实现反卷积网络，每次反卷积上采样步长为2、2、8；每个反卷积层的卷积核大小分别设置为4×4，4×4，16×16，卷积核数目分别为512、512、256；

本发明采用多层特征融合方式，将反卷积网络中设定反卷积层得到的共享特征图与卷积网络中设定卷积层得到的得到共享特征图进行融合，作为反卷积网络中反卷积层的输入层，具体为将三层反卷积层中的第1、2层的输出分别与VGG16卷积网络中的的第10、13层卷积层相加来实现多层特征融合并作为反卷积层第2、3层的输入。

本发明利用反卷积网络获取原图中像素点分类信息，根据类别信息获取相同类别像素点组成的连通区域，并取覆盖连通区域的边框作为候选边框。利用基于反卷积网络候选边框生成网络，可以获取精简且精确的候选边框集合，提高检测网络的检测效果和检测速度。

本发明在候选边框分类与回归网络中首先使用ROI Pooling层，ROI pooling中ROI大小设置为7×7，将候选边框对应定义共享特征图F统一为(N，7，7，1024)大小的四维张量；

本发明的候选边框分类与回归网络包括四层全连接层，其中前两层全连接层依次连接并与ROI Pooling层连接，后两层全连接层分别作为候选边框分类分支和回归分支网络输出层，具体设置前两层全连接层神经元个数为1024，后两层全连接层神经元个数分别为目标检测任务中类别数加1和类别数乘4。

在本发明的一个可选实施例中，上述步骤C利用步骤A中获取的训练集依次通入网络中的输入层经网络预测得到边框和与之对应的整数表示的类别后，可与标注真实值计算得到上述损失L；再采用梯度下降方法在训练迭代过程中不断减小L；经过j次迭代后视为训练结束，其中j为可调参数。

本发明在训练基于反卷积网络的目标检测网络模型时采用交替训练策略，即先对基于反卷积网络的候选边框生成网络中的权重进行训练，之后固定基于反卷积网络的候选边框生成网络的权重，对候选边框分类与回归网络中的权重进行训练。

训练基于反卷积网络的目标检测网络模型的损失函数表示为

L＝L_DeRPN+L₂

L₂(p，u，t，t^*)＝L_cls(p，u)+λ[u≥1]L_loc(t，t^*)

其中，L为损失函数，P，G_c分别为基于反卷积网络的候选边框生成网络的输出与像素类别标注，P_i，G_ci分别表示基于反卷积网络的候选边框生成网络的输出中第i个像素点对应类别概率与其对应像素类别标注，i为遍历网络输出中的M×N个像素点时所用序数，p，u，t，t^*分别为候选边框分类与回归网络输出概率、目标边框标注的真实类别、候选边框分类与回归网络输出边框及目标边框标注的真实边框，M、N为图像的高和宽，L_cls(p，u)为边框分类损失，L_loc(t，t^*)为边框回归损失，λ为控制边框分类损失和边框回归损失平衡的超参数。[u≥1]函数表示当满足u≥1时，函数值为1，否则函数值为0。

基于反卷积网络的候选边框生成网络的训练目标用如下损失函数表示

其中

l(p，u)＝-log(p_u)

为概率p对应真实标签u所计算得到的分类损失，p_u为类别u对应的概率值。本发明在计算基于反卷积网络的候选边框生成网络的损失时加入了权重衰减，权重衰减系数设置为0.0002。

候选边框分类和回归网络的训练目标用以下损失函数表示

L₂(p，u，t，t^*)＝L_cls(p，u)+λ[u≥1]L_loc(t，t^*)

其中

L_cls(p，u)＝-log(p_u)

为边框分类损失，

为边框回归损失，

为边框回归目标，具体为

函数表示为

本发明在第二阶段候选边框分类与回归网络计算损失函数时同样加入了权重衰减，其系数设置为0.0001。基于以上训练目标，本发明采用反向传播和梯度下降算法来降低损失函数，从而对目标检测网络进行训练。其中DeRPN训练时采用像素类别标注数据集进行训练，使用在ImageNet中训练得到的VGGNet预训练模型权重作为网络训练的初始化权重。训练中迭代步长为185000，训练学习率为0.0001，选择的优化子为AdamOptimizer。

在候选边框分类与回归网络训练中，设置DeRPN权重不参与训练，仅训练候选边框分类与回归网络全连接层权重。本发明采用DeRPN训练阶段训练好的卷积层权重作为卷积层初始化权重，而对全连接层权重采用随机初始化。训练中学习率采用分段常量：{10^-4，10^-5，10^-6}。其中初始学习率为10^-4，每经过20000次迭代降低一次学习率。训练中选择的优化子为MomentumOptimizer，momentum＝0.9，训练迭代步长为50000步。

在本发明的一个可选实施例中，上述步骤D采用步骤A中构建好的测试集，将测试集中图像依次通入经步骤B、C构建并训练好的目标检测模型中获取检测输出；计算目标检测网络输出与边框标注相比下的mAP值，从而对检测效果进行评估。

在测试时，输入层大小设置为H＝800，W＝800，后经图像归一化后通入卷积网络进行特征提取，之后经反卷积网络对特征进行解析并获取候选边框集合。反卷积输出像素分类结果，并得到对应候选边框。每一个候选边框对应特征图感兴趣区域(ROI)，经ROIPooling层得到候选的ROI列表，即设置第二阶段候选边框分类与回归网络输入尺寸为H_R＝W_R＝7。通过候选边框分类与回归网络中全连接层，可输出整数表示的目标类别和边框。在网络测试时，本发明边框非极大值抑制阈值设置为0.7。

本发明与现有目标检测方法在生成候选边框时采用anchor机制的方式不同，本发明创造性地提出一种新的不利用anchor不利用滑窗的基于反卷积的候选边框生成方法，可以避免anchor机制低效性问题，从而提高了第二阶段分类和回归网络的训练和预测速度。

本发明通过使用反卷积网络来获取候选边框，可以在不同角度、不同尺寸目标处生成自适应边框；不同于anchor机制通过设置anchor中尺度和纵横比数值变化来获取不同大小和纵横比的候选边框，本发明提出的基于反卷积网络实现的候选边框生成网络无需对候选边框的尺寸进行设置，而是通过反卷积网络对卷积网络提取到的特征进行解析同时根据解析信息来得到目标所在区域。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于深度学习反卷积网络的候选边框生成和目标检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度学习反卷积网络的候选边框生成和目标检测方法，其特征在于，所述步骤B中，构建基于反卷积网络的目标检测网络模型具体包括以下分步骤：

3.如权利要求2所述的基于深度学习反卷积网络的候选边框生成和目标检测方法，其特征在于，所述步骤B3中，还包括采用多层特征融合方式，将反卷积网络中设定反卷积层得到的得到共享特征图与卷积网络中设定卷积层得到的得到共享特征图进行融合，作为反卷积网络中反卷积层的输入层。

4.如权利要求3所述的基于深度学习反卷积网络的候选边框生成和目标检测方法，其特征在于，所述步骤B4中，所述候选边框分类与回归网络包括四层全连接层，其中前两层全连接层依次连接并与ROI Pooling层连接，后两层全连接层分别作为候选边框分类分支和回归分支网络输出层。

5.如权利要求4所述的基于深度学习反卷积网络的候选边框生成和目标检测方法，其特征在于，所述步骤C中，训练基于反卷积网络的目标检测网络模型的损失函数表示为

L＝L_DeRPN+L₂

L₂(p，u，t，t^*)＝L_cls(p，u)+λ[u≥1]L_loc(t，t^*)

其中，L为损失函数，P，G_c分别为基于反卷积网络的候选边框生成网络的输出与像素类别标注，P_i，分别表示基于反卷积网络的候选边框生成网络的输出中第i个像素点对应类别概率与其对应像素类别标注，i为遍历网络输出中的M×N个像素点时所用序数，p，u，t，t^*分别为候选边框分类与回归网络输出概率、目标边框标注的真实类别、候选边框分类与回归网络输出边框及目标边框标注的真实边框，M、N为图像的高和宽，L_cls(p，u)为边框分类损失，L_loc(t，t^*)为边框回归损失，λ为控制边框分类损失和边框回归损失平衡的超参数。