CN109522966B

CN109522966B - 一种基于密集连接卷积神经网络的目标检测方法

Info

Publication number: CN109522966B
Application number: CN201811435154.8A
Authority: CN
Inventors: 胡海峰; 罗小凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2022-09-27
Anticipated expiration: 2038-11-28
Also published as: CN109522966A

Abstract

本发明公开了一种基于密集连接卷积神经网络的目标检测方法，其为了减小参数量，且提高特征重复利用效果，使用多个密集连接块与转换层交替连接的网络结构代替以往的整体结构，进行特征提取能提取到图像中有判别性的特征映射。全局关注模块融合4种不同感受野的特征图，解决以往单层感受野尺寸相同的问题；同时每条支路的后三个卷积层使得底层的特征图在保证分辨率的前提下拥有足够优秀的特征表达。本发明提出的图像目标检测模型能有效地提取图像的特征，提炼出具有不同尺寸感受野并融合多层次信息的特征图；同时语义信息与空间信息的结合提高了小物体的检测效果；同时整个网络能达到端到端的训练，保持实时检测速度的同时，提高了目标的检测效果。

Description

一种基于密集连接卷积神经网络的目标检测方法

技术领域

本发明涉及计算机视觉领域，更具体的，涉及一种基于密集连接卷积神经网络的目标检测方法。

背景技术

快速发展的卷积神经网络(CNN)显著改善了计算机视觉领域。作为一个高速发展但是也有很多挑战性的领域，目标检测也通过深度神经网络的高度抽象和鲁棒性取得了许多突出的成果。卷积神经网络对特征的检测具有不变性。目前，主要的解决方法分为两个分支，一个是一步检测的方法，所有这些方法首先选择一系列候选区，然后将其转化为分类问题。例如，R-CNN，Fast-RCNN，Faster RCNN，R-FPN等，深而复杂的网络使它们以更好的检测性能而闻名。另一种是一步检测的方法，例如YOLO，SSD，DSSD，DSOD等，他们把候选区的选择和物体的分类作为一个回归问题集合在一起，因此多采用各个检测层融合的方式提高特征表达。前者在检测精度上有一定优势，但是检测速度较慢，难以达到实时检测的效果。后者相反，在检测精度上稍显劣势，但是检测速度快，且实现了端到端的训练和检测。

以SSD方法为例，它对小目标检测效果不佳主要是因为SSD中的多个检测器中，靠近神经网络末端的检测器所检测的特征图的分辨率太小，在这种小尺度的特征图中，模型更倾向于关注大的目标物体，忽略小的目标物体。而靠近神经网络前端的检测器虽然检测的特征图分辨率足够大，但由于经过的卷积层数不够多，该特征图所具有的特征表达不够优秀，因此也无法很好地对小目标进行检测。此外，神经网络中，检测器所检测的特征图所具有的感受野大小是一样的，这对于不同大小、不同形状的物体的检测无疑不是最优的选择。在大目标数量多于小目标的环境下，这也同样也会造成对小目标检测效果不佳的结果。

发明内容

本发明为了解决现有技术的神经网络对小目标检测效果不佳的问题，提供了一种基于密集连接卷积神经网络的目标检测方法，其有效地融合不同感受野且增加特征图利用效果来进行目标检测，使得卷积神经网络对网络前端关注的小的目标物体有更好的检测结果。

为实现上述本发明目的，采用的技术方案如下：一种基于密集连接卷积神经网络的目标检测方法，该目标检测方法如下：

S1：将图像输入到用于特征提取的密集连接卷积神经网络，其包括多个密集连接块以及不同的密集连接块之间进行连接的转换层；

S2：将最后一个密集连接块的最后一层卷积神经网络输出的特征图输入特征加权融合模块经过卷积神经网络处理，得到5个感受野不同的特征图；然后对特征图进行特征融合处理，得到4个空间语义信息丰富，感受野不同的特征图，将其输入预测层；

S3：将最后一个密集连接块输出的特征图输入全局关注模块中，利用空洞卷积制造不同的感受野，然后分别经过相同寸尺与数量的多个卷积层进行处理，获取不同感受野的特征图，并融合为一个高语义的特征图，最后输入到预测层；

S4：预测层对输入的特征图进行处理，同时输出目标边界框信息及分类概率，分别对步骤S2中的5个感受野不同的特征图中的所有尺度的特征映射进行预测，输入的特征映射经过一个卷积神经网络后输出一个大小为S*S*(B*5+C)的向量作为预测结果；

其中：B是边界框的个数；5代表每个边界框包含的参数个数，包括边界框的中心坐标偏移值(t_x，t_y)，边界框的宽高偏移值(t_w,t_h)，以及预测边界框的置信度t₀；C代表目标的类别个数；SxS代表将一张图分为SxS个网格；

S5：对密集连接卷积神经网络、全局关注模块、特征加权融合模块、预测层组成的图像目标检测模型进行训练；训练开始时，特征加权融合模块和全局关注模块各层的参数按照Xavier的方式初始化；在训练过程中，通过损失函数，进行反向传导算法对整个网络里所有层中的参数进行微调；

S6：将图像输入到完成训练的图像目标检测模型中进行目标检测，完成目标检测。

优选地，步骤S1，密集连接卷积神经网络包括四个密集连接块、三个转换层；所述的密集连接块之间通过转换层进行连接；所述密集连接块内设有1x1卷积和3x3卷积的卷积对，所述密集连接卷积神经网络从输入端到输出端，四个密集连接块内设有的卷积对数目分别为6、12、32、64；密集连接块内的卷积对组成一个卷积神经网络层；所述每一个卷积神经网络层的输入是其所在密集连接块以及其之前的所有卷积神经网络层的输出的叠加，卷积神经网络层后接一个激活函数；所述激活函数包括一个Batch Normalization操作、一个ReLU函数操作。

所述转换层包括一个Batch Normalization操作、一个1x1卷积和平均池化操作；

所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出。

优选地，步骤S2，所述特征加权融合模块包括5个输出块，每个输出块设有两层卷积，用于提取更高的非线性特征并生成不同感受野、语义信息的特征图，以及用于下一步的融合；将最后一个密集连接块的最后一层卷积神经网络输出的特征图输入特征加权融合模块的输出块中，得到5个感受野不同的特征图；所述5个感受野不同的特征图按照特征尺度堆叠，形成一个自下而上、尺度递增的低语义特征金字塔。

进一步地，所述输出块，浅层输出的是高分辨率小感受野语义信息不够丰富的信息，用于检测小的物体；深层输出的是低分辨率大感受野语义信息丰富的特征信息，用于检测大的物体；为了强化不同输出块对应的不同特征图的语义信息表达，采用特征融合的方法对5个感受野不同的特征图进行处理。

进一步地，所述特征融合的方法如下：

特征融合后的前两个特征图由相邻的三层进行融合，具体方法是对最浅层特征进行下采样操作，最深层特征进行上采样操作，中间层的特征图不变，使三者保持相同的尺寸，进行融合；

特征融合后的后两个特征图由相邻的两层进行融合，将深层特征进行上采样操作使之与浅层特征的尺寸相同，并进行融合；或将浅层特征进行下采样操作使之与深层特征的尺寸相同，并进行融合；

在上采样，下采样以及卷积操作之后，待融合的几个特征层具有相同的尺寸，对应位置的像素点进行依次的比较，保留比较大的值；特征融合处理后，得到4个空间语义信息丰富，感受野不同的特征图。

优选地，步骤S3，所述全局关注模块中设有4条支路，每条支路设有4个卷积层；所述卷积层带有Batch Normalization层和非线性激活层；所述每条支路的第一个卷积层采用空洞卷积，每条支路的空洞卷积的参数不同，以便不同的支路获取不同感受野的特征图，各个支路的其他三个卷积层结构均设置相同；每条支路最终输出结果直接融合到一起，作为一个新的特征图；

将最后一个密集连接块输出的特征图输入全局关注模块中的4条支路，获取不同感受野的特征图；最后将不同感受野的特征图融合为一个高语义的特征图，最后输入到预测层。

优选地，步骤S5，用大量标注好的图像对图像目标检测模型进行训练，标注内容包括坐标(x，y)、位置框的高度h、宽度l。

本发明的有益效果如下：

1)本发明为了减小参数量同时提高特征重复利用效果，使用多个密集连接块与转换层交替连接的网络结构代替以往的整体结构，该方法传递更加有效，也更加容易训练，进行特征提取时，能提取到图像中更好有判别性的特征映射。

2)本发明的全局关注模块融合4种不同感受野的特征图，解决了以往单层感受野都是一个尺寸的问题；同时每条支路的后三个卷积层使得底层的特征图在保证分辨率的前提下拥有足够优秀的特征表达，从而得到一个高语义的特征图。

3)本发明图像目标检测模型的预测通过几个卷积层将输入到的信息映射到S x Sx(B x 5+C)的向量空间，完成一次预测。

4)本发明提出的图像目标检测模型能够有效地提取图像的特征，提炼出具有不同尺寸感受野并融合多层次信息的特征图；同时语义信息与空间信息的结合提高了小物体的检测效果；同时整个网络能达到端到端的训练，保持实时检测速度的同时，提高了目标的检测效果。

附图说明

图1是本发明一种基于密集连接卷积神经网络的目标检测方法的架构图。

图2是本发明特征融合方法的结构图。

图3是本发明全局关注模块的结构图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示，一种基于密集连接卷积神经网络的目标检测方法，该目标检测方法如下：

本实施例步骤S1，所述密集连接卷积神经网络包括四个密集连接块、三个转换层；所述的密集连接块之间通过转换层进行连接；所述密集连接块内设有1x1卷积和3x3卷积的卷积对，采用1x1卷积的目的是减少输入的特征图数量，既能降维减少计算量，又能融合各个通道的特征；所述密集连接卷积神经网络从输入端到输出端，四个密集连接块内设有的卷积对数目分别为6、12、32、64；密集连接块内的卷积对组成一个卷积神经网络层；所述每一个卷积神经网络层的输入是其所在密集连接块以及其之前的所有卷积神经网络层的输出的叠加，若不通过1x1卷积的降维操作，得到的输出的通道数将会非常的大，这样操作后可以明显减小计算量，有利于构建更深的网络；

卷积神经网络层后接一个激活函数；所述激活函数包括一个BatchNormalization操作、一个ReLU函数操作，最后经过一个卷积神经网络层的处理作为整个激活函数的输出。

所述转换层包括一个Batch Normalization操作、一个1x1卷积和平均池化操作；转换层设有1x1卷积主要作用是用来降维，通过转换层之后，传到下一层的特征通道数就会减少一半，符合下一个密集连接块的输入要求。

将一幅图像输入到特征提取的密集连接卷积神经网络中，密集连接卷积神经网络为了减小参数量同时提高特征重复利用效果，用多个密集连接块及转换层代替以往网络的高宽度与深度，每一个密集连接块都可以从损失函数和原始输入信号中直接访问梯度，从而实现隐式的深度监控；通过多层连接的方式整合低层和高层信息，可以获取图像中更具有判别性的视觉特征。所述密集连接块的最后一层卷积神经网络输出的特征图作为特征提取网络的输出。

如图2所示，本实施步骤S2，将密集连接块的最后一层卷积神经网络输出的特征图输入到特征加权融合模块中；所述特征加权融合模块包括5个输出块，每个输出块设有两层卷积，用于提取更高的非线性特征并生成不同感受野、语义信息的特征图，以及用于下一步的融合；将最后一个密集连接块的最后一层卷积神经网络输出的特征图输入特征加权融合模块的输出块中，得到5个感受野不同的特征图；所述5个感受野不同的特征图，按照特征尺度堆叠，形成一个自下而上、尺度递增的低语义特征金字塔。

所述对于5个输出块，浅层输出的是高分辨率小感受野语义信息不够丰富的信息，用于检测小的物体；深层输出的是低分辨率大感受野语义信息丰富的特征信息，用于检测大的物体；为了强化不同输出块对应的不同特征图的语义信息表达，采用特征融合的方法对5个感受野不同的特征图进行处理，即分别将(1，2，3)；(2，3，4)；(3，4)；(4，5)的特征图进行融合

本实施例所述特征融合后的前两个特征图由相邻的三层进行融合，即对于(1，2，3)和(2，3，4)，具体方法是对最浅层特征进行下采样操作，最深层特征进行上采样操作，中间层的特征图不变，使三者保持相同的尺寸，进行融合；

特征融合后的后两个特征图由相邻的两层进行融合，本实施例对于(3，4)将深层特征进行上采样操作使之与浅层特征的尺寸相同，并进行融合；本实施例对于(4，5)将浅层特征进行下采样操作使之与深层特征的尺寸相同，再进行融合；

本实施例在步骤S1中构造了密集连接卷积神经网络做基本的特征提取，其最后一层输出的特征语义信息还不够丰富，对于固定层的每一个神经元，感受野都是相同的，很难适应于目标大小不确定的目标检测网络中，于是在密集连接卷积神经网络之后，增加全局关注模块，用于融合多感受野信息，达到全局关注的效果。

如图3所示，所述全局关注模块中设有4条支路，每条支路设有4个卷积层；所述卷积层带有Batch Normalization层和非线性激活层；所述每条支路的第一个卷积层采用空洞卷积，每条支路的空洞卷积的参数不同，分别为2，4，6，8，以便不同的支路获取不同感受野的特征图，各个支路的其他三个卷积层结构均设置相同，但是这些相同的结构之间参数不共享；每条支路最终输出结果直接融合到一起，作为一个新的特征图；

将最后一个密集连接块输出的特征图输入全局关注模块中的4条支路，获取不同感受野的特征图；最后将不同感受野的特征图融合为一个高语义的特征图，最后输入到预测层。由此四条支路包含不同的感受野，几乎可以包含整张图不同大小的区域上。

本实施将全局关注模块生成的一个高语义特征图和特征加权融合模块生成的四张特征图，全部输入预测层，对于每个特征图，都有两个卷积与之对应，一个用于位置检测，一个用于类别检测。输出目标边界框信息及分类概率，分别对步骤S2中的5个感受野不同的特征图中的所有尺度的特征映射进行预测。输入的特征映射经过一个卷积神经网络后输出一个大小为S*S*(B*5+C)的向量作为预测结果。

本实施对对密集连接卷积神经网络、全局关注模块、特征加权融合模块、预测层组成的图像目标检测模型进行训练；用大量标注好的图像对图像目标检测模型进行训练，标注内容包括坐标(x，y)、位置框的高度h、宽度l。

数据集：PASCAL VOC2007和PASCAL VOC2012，VOC2007中包含9963张标注过的图片，由训练集，验证集，测试集三部分组成，共标注出24,640个物体。VOC2012的训练集和测试集包含08-11年的所有对应图片。训练集有11540张图片共27450个物体；

训练开始时，特征加权融合模块和全局关注模块各层的参数按照Xavier的方式初始化。DenseNet169网络的参数初始化用已经训练好的参数。然后再VOC2007和VOC2012的集合上做训练，采用由边界框坐标回归和物体分类所组成的损失函数的随机梯度下降算法计算损失梯度并使用反向传导算法对整个网络里所有层中的参数进行微调，达到对网络进行训练的目的。

最后将图像输入到完成训练的图像目标检测模型中进行目标检测，完成目标检测。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于密集连接卷积神经网络的目标检测方法，其特征在于：该目标检测方法如下：

其中：B是边界框的个数；5代表每个边界框包含的参数个数，包括边界框的中心坐标偏移值(t_x,t_y)，边界框的宽高偏移值(t_w,t_h)，以及预测边界框的置信度t₀；C代表目标的类别个数；SxS代表将一张图分为SxS个网格；

2.根据权利要求1所述的基于密集连接卷积神经网络的目标检测方法，其特征在于：步骤S1，密集连接卷积神经网络包括四个密集连接块、三个转换层；所述的密集连接块之间通过转换层进行连接；所述密集连接块内设有1x1卷积和3x3卷积的卷积对，所述密集连接卷积神经网络从输入端到输出端，四个密集连接块内设有的卷积对数目分别为6、12、32、64；密集连接块内的卷积对组成一个卷积神经网络层；所述每一个卷积神经网络层的输入是其所在密集连接块以及其之前的所有卷积神经网络层的输出的叠加，卷积神经网络层后接一个激活函数；所述激活函数包括一个Batch Normalization操作、一个ReLU函数操作；

3.根据权利要求1所述的基于密集连接卷积神经网络的目标检测方法，其特征在于：步骤S2，所述特征加权融合模块包括5个输出块，每个输出块设有两层卷积，用于提取更高的非线性特征并生成不同感受野、语义信息的特征图，以及用于下一步的融合；将最后一个密集连接块的最后一层卷积神经网络输出的特征图输入特征加权融合模块的输出块中，得到5个感受野不同的特征图；所述5个感受野不同的特征图按照特征尺度堆叠，形成一个自下而上、尺度递增的低语义特征金字塔。

4.根据权利要求3所述的基于密集连接卷积神经网络的目标检测方法，其特征在于：所述输出块，浅层输出的是高分辨率小感受野语义信息不够丰富的信息，用于检测小的物体；深层输出的是低分辨率大感受野语义信息丰富的特征信息，用于检测大的物体；为了强化不同输出块对应的不同特征图的语义信息表达，采用特征融合的方法对5个感受野不同的特征图进行处理。

5.根据权利要求4所述的基于密集连接卷积神经网络的目标检测方法，其特征在于：所述特征融合的方法如下：

6.根据权利要求1所述的基于密集连接卷积神经网络的目标检测方法，其特征在于：步骤S3，所述全局关注模块中设有4条支路，每条支路设有4个卷积层；所述卷积层带有BatchNormalization层和非线性激活层；所述每条支路的第一个卷积层采用空洞卷积，每条支路的空洞卷积的参数不同，以便不同的支路获取不同感受野的特征图，各个支路的其他三个卷积层结构均设置相同；每条支路最终输出结果直接融合到一起，作为一个新的特征图；

7.根据权利要求1所述的基于密集连接卷积神经网络的目标检测方法，其特征在于：步骤S5，用大量标注好的图像对图像目标检测模型进行训练，标注内容包括坐标(x，y)、位置框的高度h、宽度l。