CN115272700A

CN115272700A - 基于多尺度特征自增强的改进ssd小目标检测方法

Info

Publication number: CN115272700A
Application number: CN202210929028.8A
Authority: CN
Inventors: 于俊洋; 赵子明; 王锦江; 宋一鑫; 李绍华; 马志峰
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-01
Anticipated expiration: 2042-08-03
Also published as: CN115272700B

Abstract

本发明公开一种基于多尺度特征自增强的改进SSD小目标检测方法，主要包括三个阶段，在第一阶段，对输入图像的辅助特征提取操作补充了特征层的细粒度信息，以增强小物体的特征表示；在第二阶段，聚合多个并行映射集成更有效的信息来补充边缘特征并增强特征层之间的相关性；最后，通过引入设计的特征自增强模块来扩展网络以提高特征的自学习能力。在PASCAL VOC数据集上进行了综合实验，实验结果表明，本发明构建的网络在小物体检测场景中具有较好的检测效果。

Description

基于多尺度特征自增强的改进SSD小目标检测方法

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于多尺度特征自增强的改进SSD小目标检测方法。

背景技术

目标检测是计算机视觉中一项基础性且具有挑战性的任务，广泛应用于人脸检测、行人检测、自动驾驶、医疗领域、交通等方面。该任务的目的是从图像中检测出目标的类别并且预测他们的位置。然而，小目标检测面临着由少像素和低分辨率生成的目标外观的严峻挑战。

目标检测领域的工作可以分为传统的卷积神经网络(CNN)和transformer。基于CNN的模型根据是否生成区域候选框(proposal)来分为两部分：一级检测器和二级检测器。在二级检测器中，由R-CNN、Fast-RCNN、Faster-RCNN和Mask-RCNN为代表，首先生成大量的区域候选框，然后对区域候选框进行分类和回归计算，具有更高的检测精度(mean averageprecision，mAP)。对于You Only Look Once(YOLO)、SSD、RetinaNet和SAPD为代表的一级检测器，网络一次预测出所有边界框来实现更高的检测速度。而transformer首次被提出是应用于自然语言处理领域。

基于特征金字塔结构的网络在小目标检测方面具有优异的性能，以FeaturePyramid Networks(FPN)为代表。高层次特征具有详细的位置信息，而低层次特征具有大量语义信息。融合低层的位置信息和高层的语义信息来增强特征表示，并使用不同尺度的特征来预测不同大小的目标。所以我们认为FPN之所以成功，是因为多层次的特征融合操作。但是，You Only Look One-level Feature(YOLOF)表明这不是因为特征融合操作，而是分而治之的策略。YOLOF中的实验表明，不同尺度的特征包含足够的信息来检测物体。虽然特征融合可以提升目标检测的精度，但是FPN中使用了多种复杂的特征融合操作，导致网络结构复杂，检测效率慢。

SSD算法的运行速度具有很大的优势，可以和YOLO媲美。但是SSD需要提前人工设置预选框的大小和长宽比，检测精度也比较差。所以有大量的改进方法被提出。DSSD是基于SSD设计的，通过反卷积层，在特征图上融合上下文特征信息来提升小目标的检测效果，但是该模型的骨干网的特征提取网络使用了Resnet-101，虽然加深了网络层数，但是检测速度慢，达不到实时的检测效果。Hong Tae Choi等人[Choi,H.T.,Lee,H.,Kang,H.,Yu,S.,Park,H.:SSD-EMB:an improved SSD using enhanced feature map block for objectdetection.Sensors 21(8),2842(2021).]提出的SSD-EMB由注意流和特征图拼接流组成，将注意力集中在目标区域而不是背景上，以此来提升小目标检测的精度，但是仍然存在较多的错检和漏检的现象。Zhai等人[Zhai,S.,Shang,D.,Wang,S.,Dong,S.:DF-SSD:animproved SSD object detection algorithm based on densenet and featurefusion.IEEE Access 8,24344–24357(2020).]提出的DF-SSD引入了多尺度特征融合机制，融合了低级视觉特征和高级语义特征，在提升检测精度的同时大大降低了检测速度。FD-SSD也同样采用了多层特征融合模块，该模块对特征图的最后两层进行上采样，与渐层特征串联来增强浅层特征图的语义信息，但浅层特征具有很少的语义信息，对小目标不友好，从而使得小目标检测的效果很差。

基于特征金字塔结构的网络在小目标检测方面具有优异的性能，但是多种复杂的特征融合操作，导致网络结构复杂，检测效率慢。SSD算法的运行速度具有很大的优势，可以和YOLO媲美。但是SSD需要提前人工设置预选框的大小和长宽比，检测精度也比较差。

虽然有大量的方法来改进SSD，如DSSD、SSD-EMB、DF-SSD和FD-SSD等。但是会出现这几个问题：

1.使用大量复杂的多尺度特征融合模块。该模块的融合思想来自FPN，大量复杂的特征融合操作会使得检测速度变慢，无法达到实时的检测效果。

2.加深网络层数使得网络结构复杂。例如使用Resnet-101为特征提取网络。该网络虽然可以提取更加深层次的语义特征，但是同时也加大的网络的参数量，使得网络结构复杂，也无法达到实时检测的效果。

3.小目标的检测效果差。采用的特征注意力机制虽然避免了大量的特征融合，但是SSD-EMB网络存在大量的小目标被错检和漏检的现象。

发明内容

本发明针对现有小目标检测方法存在的使用大量复杂的多尺度特征融合模块使得检测速度变慢，加深网络层数使得网络结构复杂，无法达到实时的检测效果，小目标检测效果差的问题，提出了一种基于多尺度特征自增强的改进SSD小目标检测方法，着重于提升和改善特征自身的信息强度，避免大量复杂的特征融合操作，提升小目标的检测效果。

为了实现上述目的，本发明采用以下技术方案：

一种基于多尺度特征自增强的改进SSD小目标检测方法，包括：

步骤1：构建多尺度特征自增强网络，所述多尺度特征自增强网络采用SSD作为骨干网络，多尺度特征自增强网络包括多尺度辅助特征提取模块及特征自增强模块，所述多尺度辅助特征提取模块包括辅助特征提取和增强模块、自适应特征融合模块，所述特征自增强模块由特征自增强块和具有扩张卷积的特征自增强块组成；

步骤2：通过公开的已标注的图片数据集输入到多尺度特征自增强网络的SSD中，得到6个不同大小的有效特征图；

步骤3：将输入图像输入辅助特征提取和增强模块中，与步骤1中的前3个大的有效特征图进行融合得到3个第一特征图；

步骤4：将步骤3得到的3个第一特征图输入自适应特征融合模块中得到3个第二特征图；

步骤5：将步骤2中得到的后3个大的有效特征图和步骤4得到的3个第二特征图输入到特征自增强模块得到6个第三特征图；

步骤6：基于步骤5中得到的第三特征图进行多尺度特征自增强网络训练，得到训练好的多尺度特征自增强网络小目标检测模型；

步骤7：基于训练好的多尺度特征自增强网络小目标检测模型进行小目标检测。

进一步地，所述步骤3中，辅助特征提取和增强模块的处理过程如下：

步骤31，设输入图像为F_i，对F_i进行不同尺度的最大池化操作得到三个特征图M_i，其中i∈{1，2，3}；

步骤32，对M_i进行1×1卷积、归一化、激活操作得到Conv_1_i；

步骤33，对Conv_1_i进行3×3卷积、归一化、激活操作得到Conv_2_i，该3×3卷积为扩张率为3的空洞卷积；

步骤34，对Conv_2_i进行1×1卷积、归一化、激活操作得到

步骤35，将三个特征图

与步骤2中的前3个大的有效特征图进行一一对应的特征融合操作得到A_i，其中i∈{1，2，3}；

步骤36，对A_i进行3×3卷积、归一化、激活操作得到

其中i∈{1，2，3}，该3×3卷积为扩张率为3的空洞卷积。

进一步地，所述步骤4中，自适应特征融合模块的处理过程如下：

步骤41，将

和

进行自适应特征融合：

步骤411，对

进行上采样，然后再进行1×1卷积；

步骤412，对

进行上采样，然后再进行1×1卷积；

步骤413，将

和步骤411和步骤412得到的特征图进行融合得到D′₁；

步骤42，将

和

进行自适应特征融合：

步骤421，对

进行自适应最大池化操作，然后再进行1×1卷积；

步骤422，对

进行上采样，然后再进行1×1卷积；

步骤423，将

和步骤421和步骤422得到的特征图进行融合得到D′₂；

步骤43，将

和

进行自适应特征融合：

步骤431，对

进行自适应最大池化操作，然后再进行1×1卷积；

步骤432，对

进行自适应最大池化操作，然后再进行1×1卷积；

步骤433，对

和步骤431和步骤332得到的特征图进行融合得到D′₃；

步骤44，将步骤413、步骤423和步骤433得到的D′₁、D′₂、D′₃进行3×3卷积、归一化、激活操作得到D_i，其中i∈{1，２，3}。

进一步地，所述自适应特征融合模块中引入了权重因子且可以参与网络训练来更新权值：

式中

其中L表示梯度曲面函数；

为第k层的第i个神经元的值；

表示第k层第i个神经元的偏置；

为第k-1层第j个神经元到第k层第i个神经元的权重，且

ε为一个极小值；l表示从1到n之间的任一整数。

进一步地，所述步骤5中，所述步骤5包括：

步骤51，将步骤44得到的D_i输入多个连续的具有扩张卷积的特征自增强块中；

步骤511，对D_i进行1×1卷积、归一化、激活操作；

步骤512，对步骤511得到的特征图进行3×3卷积、归一化、激活操作，该3×3卷积为扩张率为k的空洞卷积，k为当前迭代次数，其中k∈{1，2...n}；

步骤513，对步骤512得到的特征图进行1×1卷积、归一化、激活操作；

步骤514，重复步骤511至步骤513操作n次；

步骤515，对步骤514得到的特征进行激活操作得到B_i；

步骤52，将步骤2中得到的后3个大的有效特征图输入多个连续的特征自增强块中，将后3个大的有效特征图定义为D_j，j∈{1，2，3}；

步骤521，对D_j进行1×1卷积、归一化、激活操作；

步骤522，对步骤521得到的特征图进行3×3卷积、归一化、激活操作；

步骤523，对步骤522得到的特征图进行1×1卷积、归一化、激活操作；

步骤524，重复步骤521至步骤523操作n次；

步骤525，对步骤524得到的特征进行激活操作得到B_j。

与现有技术相比，本发明具有的有益效果：

(1)设计了辅助特征提取和增强模块。通过引入输入图像的浅层特征表示来补充原始特征图的细粒度特征信息，解决了小物体的特征具有较差的全局上下文信息的问题。

(2)构建了一个自适应特征融合模块。聚合多个并行映射的特征表示以集成更有效的信息。捕获局部上下文信息并增强主干中特征层之间的相关性。

(3)提出了一种特征自增强块和具有扩张卷积的特征自增强块。通过将上一次迭代的结果添加到下一次迭代的输入中，提高了特征的自增强能力，增强了多级映射的相关性。

(4)在PASCAL VOC数据集上进行了综合实验，实验结果表明，本发明构建的网络在小物体检测场景中具有较好的检测效果。

附图说明

图1为本发明实施例一种基于多尺度特征自增强的改进SSD小目标检测方法的基本流程图；

图2为本发明实施例构建的多尺度特征自增强网络的结构原理图；

图3为传统的SSD网络的结构原理图；

图4为本发明实施例辅助特征提取和增强模块的结构原理图；

图5为本发明实施例自适应特征融合模块的结构原理图；

图6为本发明实施例特征自增强模块的结构原理图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种基于多尺度特征自增强的改进SSD小目标检测方法，包括：

具体地，所提出的多尺度特征自增强网络(MFSEnet)的总体框架如图2所示，我们提出的多尺度特征自增强网络(MFSEnet)的整个框架分为两个模块，多尺度辅助特征提取模块(MAFE)和特征自增强模块(FSE)。首先，我们采用SSD作为骨干网络，SSD网络的结构原理图如图3所示。然后，在基于低级特征层表示的多尺度辅助特征提取模块(MAFE)中，我们提出了辅助特征提取和增强模块(AFEB&E)(见图4)和自适应特征融合模块(AFFB)(见图5)，通过辅助特征提取和增强模块(AFEB&E)引入了原始特征层的细粒度信息，通过自适应特征融合块(AFFB)聚合了多个并行映射。最后在特征自增强模块(FSE)中，我们描述了特征自增强块(FSEB)和具有扩张卷积的特征自增强块(FSEB&FSEB-D)(见图6)，以此来提高特征的自增强能力。

步骤2：通过公开的已标注的图片数据集输入到多尺度特征自增强网络的SSD中，得到6个不同大小的有效特征图；作为一种可实施方式，输入SSD中300×300尺度的图像，得到6个不同大小的有效特征图(可以命名为Conv4_3、fc7、Conv8_2、Conv9_2、Conv10_2、Conv11_2)。特征图的大小分别设置为38×38、19×19、10×10、5×5、3×3和1×1。通道数固定为512、1024、512、256、256和256，特征层中anchor的数量分别设置为4、6、6、6、4和4。将anchor个数乘以4的运算用于预测每个prior box的位置信息，乘以类别个数的运算用于预测每个目标的类别信息。

步骤3：将输入图像输入辅助特征提取和增强模块中，与步骤1中的前3个大的有效特征图(即Conv4_3、fc7、Conv8_2、Conv9_2)进行融合得到3个第一特征图；

步骤5：将步骤2中得到的后3个大的有效特征图(即Conv9_2、Conv10_2、Conv11_2)和步骤4得到的3个第二特征图输入到特征自增强模块得到6个第三特征图；

具体地，多尺度辅助特征提取模块介绍如下：

作为提出的MFSEnet的重要组成部分，多尺度辅助特征提取模块(MAFE)弥补了由于网络深化导致的目标信息差和细粒度特征不显着的缺点。该模块补充了特征层的细粒度信息，并捕获了局部和全局上下文信息。MAFE由辅助特征提取和增强模块(AFEB&E)和自适应特征融合模块(AFFB)组成。AFEB&E中的细粒度特征信息是通过对输入图像进行辅助特征提取来引入的。在AFFB中，通过聚合多个并行映射，充分利用不同层的位置和语义信息来增强目标的全局特征表示。

(a)辅助特征提取和增强模块

具体地，辅助特征提取和增强模块又具体划分为辅助特征提取块和增强块。通过从输入图像中提取浅层特征，并且提出了特征上采样缓冲层来避免直接提升到最终维度。辅助特征提取块(AFEB)旨在优化原始特征的细粒度特征信息。它不仅改善了全局特征上下文信息，而且使小目标更容易获得检测器的注意。

SSD中低级特征图的语义信息不足。AFEB提取输入图像的细粒度特征表示，并通过增强操作(E)引入浅层特征。

在该模块中，输入图像的尺度通过池化来减少，操作可以定义为：

其中S_out和S_in表示输出图像比例和输入比例，C是向上积分函数。

在辅助特征提取块(AFEB)中，F₁＝S_out(3),F₂＝S_out(4)和F₃＝S_out(5)由上述公式获得。输入具有F₁,F₂和F₃尺度的图像，通过1×1卷积到特征维度的一半，然后通过3×3标准卷积块。最后，使用1×1卷积得到与骨干对应的特征图具有相同尺度和通道的特征图。则AFEB中处理过程如下所示：

其中N(·)是归一化函数，R(·)是非线性激活函数。F_i和

分别是最大池化操作和AFEB的输出特征图。t₁和t₂是卷积归一化激活块的输出结果。

为卷积运算，其中n×n为卷积核的大小，d为扩张卷积的扩张率(默认为1)。1×1和3×3是卷积核大小。

图4为辅助特征提取和增强模块(AFEB&E)的框架。其中F_i是输入图像。

和A_i是增强(E)的输入特征图，

是输出特征图。1×1和3×3是卷积核大小，CN_BN_RL是标准卷积-归一化-激活模块。

增强块(E)的操作由特征融合、非线性激活函数和3×3标准卷积块组成。与F₁相比，得到的特征

具有相同的大小和通道。增强操作的公式如下所示：

(b)自适应特征融合模块

我们改进了多级映射的一般融合结构，并在每个并行映射上设计了可训练的权重因子。权重因子用于控制每个映射对输出特征的影响程度。自适应特征融合模块(AFFB)通过聚合多个并行特征映射来改进特征表示，捕获局部上下文信息并增强特征层之间的相关性。

为了简要描述我们所做的事情，以图5中的一种情况为例。

与转换后的特征图

和

融合得到

转换可以具体解释为三个步骤。首先，通过上采样或自适应最大池化操作来增加或减少特征的分辨率。其次，使用一个1×1的卷积块来转换通道数。最后，添加一个标准的3×3卷积块进行特征提取和平滑处理，得到D₁。输出定义为：

与网络性能相关的多个参数用于训练。权重因子是参数之一，根据训练结果的损失进行训练和更新。定义变量

为第k层的第i个神经元的值，

为第k-1层第j个神经元到第k层第i个神经元的权重，

表示第k层第i个神经元的偏置。

定义为：

其中

and

当ε取一个很小的值时，

被定义为：

这里的l表示从1到n之间的任一整数。

从上式可以清楚地看出，

变得比原来的值更小。

根据链式法则，有如下的梯度方程：

其中L表示梯度曲面函数。该偏导数表示该点在梯度曲面上的切线斜率，代表了权值的变化方向和速度。

从上式可以看出，随着传播距离的增加，训练中得到的参数对反向传播的影响逐渐减弱。相邻层的性能最高。这样就有效地抑制了网络过拟合带来的梯度消失和负反馈的影响。网络可以通过加权传播来计算训练的损失。在加权传播中计算的用于神经网络层反馈的损失经过训练，并且可以沿着梯度下降快速最小化。

具体地，特征自增强模块介绍如下：

特征自增强模块(FSE)是MFSEnet中的另一个重要模块，由特征自增强块和具有扩张卷积的特征自增强块(FSEB&FSEB-D)组成。通过将上一次迭代的结果作为下一次迭代的输入，网络可以在FSE中具有优越的自增强能力。通过多次调整通道数，增强了映射的多级相关性。

以分类方式处理多级特征层。低层特征映射中的扩张卷积用于扩展滑块的感受野，提高对目标边缘信息的感知。然而，高层特征映射的尺度很小，而滑块的尺度很大。为了避免引入过多不相关的信息并增加训练难度，在高层特征映射中不使用扩张卷积。

在FSE中，通道数首先通过1×1卷积块减少到1/4，使用3×3卷积块进行特征提取。然后，通过1×1卷积将1/4的通道数增加到原来的通道数(见图6中的虚线框)。最后，将转换后的特征与输入特征融合以重新进入块。模块中设置了四个连续特征自增强块。模块的输出特征执行非线性激活函数以获得最终的预测特征图。FSEB和FSEB-D的区别在于FSEB-D中使用了扩张卷积。i是增强模块的迭代次数，则扩张率可表示为：

D_i＝i，i∈N⁺

FSEB&FSEB-D模块中使用1x1卷积是为了减少和增加通道数，提高多级特征映射之间的相关性。通过3x3卷积运算挖掘更深层次的语义信息，提高特征的自增强能力，增强多级映射的相关性。

步骤32，对M_i进行1×1卷积、归一化、激活操作得到Conv_1_i；

步骤34，对Conv_2_i进行1×1卷积、归一化、激活操作得到

步骤35，将三个特征图

步骤36，对A_i进行3×3卷积、归一化、激活操作得到

其中i∈{1，2，3}，该3×3卷积为扩张率为3的空洞卷积。

步骤41，将

和

进行自适应特征融合：

步骤411，对

进行上采样，然后再进行1×1卷积；

步骤412，对

进行上采样，然后再进行1×1卷积；

步骤413，将

和步骤411和步骤412得到的特征图进行融合得到D′₁；

步骤42，将

和

进行自适应特征融合：

步骤421，对

进行自适应最大池化操作，然后再进行1×1卷积；

步骤422，对

进行上采样，然后再进行1×1卷积；

步骤423，将

和步骤421和步骤422得到的特征图进行融合得到D′₂；

步骤43，将

和

进行自适应特征融合：

步骤431，对

进行自适应最大池化操作，然后再进行1×1卷积；

步骤432，对

进行自适应最大池化操作，然后再进行1×1卷积；

步骤433，对

和步骤431和步骤332得到的特征图进行融合得到D′₃；

步骤44，将步骤413、步骤423和步骤433得到的D′₁、D′₂、D′₃进行3×3卷积、归一化、激活操作得到D_i，其中i∈{1，2，3}。

进一步地，所述步骤5中，所述步骤5包括：

步骤51，将步骤44得到的D_i输入多个连续的具有扩张卷积的特征自增强块中；作为一种可实施方式，本发明共设置m个该模块，其中m＝4，i∈{1，2，3}；

步骤511，对D_i进行1×1卷积、归一化、激活操作；

步骤514，重复步骤511至步骤513操作n次；

步骤515，对步骤514得到的特征进行激活操作得到B_i；

步骤52，将步骤2中得到的后3个大的有效特征图输入多个连续的特征自增强块中，将后3个大的有效特征图定义为D_j，j∈{1，2，3}；作为一种可实施方式，本发明共设置m个该模块，其中m＝4；

步骤521，对D_j进行1×1卷积、归一化、激活操作；

步骤524，重复步骤521至步骤523操作n次；

步骤525，对步骤524得到的特征进行激活操作得到B_j。

为验证本发明效果，进行如下实验：

采用PASCAL VOC2007训练验证(trainval)集和PASCAL VOC2012训练验证集组合作为训练集和验证集，使用PASCAL VOC2007测试(test)集作为测试数据集。具体地，PASCALVOC数据集中有20个不同的类别。PASCAL VOC2007由训练集(包括2501张图像)、验证集(包括2510张图像)和测试集(包括5011张图像)组成，PASCAL VOC2012中的训练集、验证集和测试集分别包含5717、5823和10991张图像。我们采用通用的训练组合策略：PASCAL VOC2007训练验证集和PASCAL VOC2012训练验证集共16551张图像用于扩展训练数据，并使用PASCAL VOC2007测试集进行测试。

本发明方法与当前主流目标检测方法在PASCAL VOC2007测试集上的测试结果如表1所示，其中算法精度采用均值平均精度mAP(mean average precision)作为评价指标，算法时间性能采用FPS(frames per second)作为评价指标。可以看出本发明改进后的小目标检测模型的检测精度达到了80.4％，比SSD目标检测模型平均检测精度提升了3.2％，同时相较于BFSSD、SSD-EMB、DF-SSD和FD-SSD的平均检测精度分别提高了1.2％、2％、1.5％和1.3％。

表1不同目标检测算法在PASCAL VOC2007测试集上的测试结果

综上，本发明在基于低层特征映射层表示的多尺度辅助特征提取模块中，将小物体的细粒度特征信息添加到低层特征映射中。并行映射被聚合以集成更有效的信息。在特征自增强模块中，网络对特征进行充分、深入的挖掘，补充多级映射的相关性，增强多级映射的相关性。实验结果表明，本发明构建的网络在小物体检测场景中具有较好的检测效果。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。