CN110188802B

CN110188802B - 基于多层特征图融合的ssd目标检测算法

Info

Publication number: CN110188802B
Application number: CN201910393189.8A
Authority: CN
Inventors: 唐贵进; 李茂鹏; 刘小花; 崔子冠; 杨苏娟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2022-08-30
Anticipated expiration: 2039-05-13
Also published as: CN110188802A

Abstract

本发明公开了计算机视觉领域内的一种基于多层特征图融合的SSD目标检测算法，包括以下具体步骤：对图像进行预处理，将图像大小缩放成网络能够进行检测的尺寸；选取网络Darknet53对图像进行特征提取；在网络Darknet53的后面额外增加三个卷积层，融合Darknet53中后三层卷积层及增加的三层卷积层所产生的六层特征图；将该融合的特征图使用卷积进行下采样操作，产生金字塔特征层次结构；将网络Darknet53的后两层及额外增加三个卷积层产生的五层特征图进行上采样操作，然后与金字塔特征层次结构中尺寸对应的特征图进行融合；在这六层融合后的特征图上使用一系列卷积产生最终的检测结果，本发明极大的改善了目标检测的能力，可用于图像处理中。

Description

基于多层特征图融合的SSD目标检测算法

技术领域

本发明涉及一种图像处理方法，具体的说是一种SSD目标检测算法，属于计算机视觉技术领域。

背景技术

目标检测是计算机视觉领域的重要研究方向之一，传统的目标检测方法是通过人工设计特征后利用分类器对特征进行分类实现目标检测，如梯度方向直方图HOG(Histogram of Oriented Gradient)和支持向量机SVM(Support Vector Machine)。随着深度学习技术的发展，工程特征大部分已经被深度卷积网络计算的特征所取代，不需要再人工的去设计特征。除了能够表示更高级别的语义信息外，深度卷积网络对于尺度变化也更加鲁棒，从而有助于对单一尺度上计算的特征进行识别。当前效果最好的目标检测算法是基于候选区域建议的Two Stage目标检测方法。例如经典的R-CNN检测算法，该类算法的主要思想可以分为两步：第一步产生物体的候选区域，第二步则对第一层产生的每一个候选区域进行分类及定位。近年来，经过一系列的改进，Fast R-CNN、Faster R-CNN、FPN、R-FCN等基于候选区域建议的Two Stage目标检测算法目前已经达到了非常好的精度,但是缺点是速度慢，达不到实时性要求。在Two Stage检测算法取得了非常大的进步之后，那么有一个问题是：One Stage目标检测算法能不能达到相似的精度。One Stage目标检测算法采用回归的思想，需要先按照一定的方式设立默认框，并通过建立起预测框、默认框、groundtruth框之间的关系进行训练。目前经典的One Stage检测算法（YOLO、SSD）以及相应的改进算法（YOLOv2、YOLOv3、DSSD、FSSD等）被证明检测精度大概落后于Two Stage检测算法精度的10%～40%，但是速度却优于Two Stage检测算法，可以达到实时性要求。

发明内容

本发明的目的是提供一种基于多层特征图融合的SSD目标检测算法，极大的改善了目标检测的能力，同时也改善了对小目标物体的检测能力。

本发明的目的是这样实现的：一种基于多层特征图融合的SSD目标检测算法，其特征在于，包括以下具体步骤：

步骤1）对图像进行预处理，将图像大小缩放成网络能够进行检测的尺寸；

步骤2）选取网络Darknet53作为特征提取网络；

步骤3）在网络Darknet53的后面额外增加三个卷积层，得到八个卷积层，并使用该网络对图像进行特征提取，得到特征图；

步骤4）对后五个特征图上采样操作后得到后六个特征图分辨率相同，并对其进行融合，将该融合的六层特征图使用卷积进行下采样操作，产生金字塔特征层次结构；

步骤5）将网络Darknet53的后两层及额外增加三个卷积层产生的五层特征图进行上采样操作，然后与金字塔特征层次结构中尺寸对应的特征图进行融合；

步骤6）在这六层融合后的特征图上使用一系列卷积产生最终的检测结果。

作为本发明的进一步限定，步骤1具体为：使用插值的方法将图像缩放成300×300的大小，可采用最近邻插值、线性插值或区域插值。

作为本发明的进一步限定，步骤4具体为：

步骤4-1）将分辨率为300×300的图像，用网络Darknet53的后六层卷积层进行处理，得到分辨率为38×38、19×19、10×10、5×5、3×3、1×1的六个特征图；对后五个特征图上采样成38×38的特征图后融合这六个特征图，产生既包含目标细节信息又包含全局语义信息的特征图；本发明中融合操作均使用特征图连接操作；

步骤4-2）然后对这个融合后的特征图使用步长为2的卷积进行下采样产生金字塔特征层次结构。

作为本发明的进一步限定，步骤5具体为：

分别使用线性插值放大分辨率分别为19×19、10×10、5×5、3×3、1×1的后五层特征图，得到38×38、19×19、10×10、5×5、3×3；将放大后的五个特征图与金字塔特征层次结构中尺寸对应的特征图进行融合。

作为本发明的进一步限定，步骤6具体为：

步骤6-1）对于金字塔特征层次结构中融合后的38×38特征图中每个网格点cell预测4个框，每一个框包含（c+4）个值，其中c为类别数，4为相对于原始默认框的4个坐标偏移量；对于金字塔特征层次结构中融合后的19×19特征图中每个网格点cell预测6个框，每一个框包含（c+4）个值；对于金字塔特征层次结构中融合后的10×10特征图中每个网格点cell预测6个框，每一个框包含（c+4）个值；对于金字塔特征层次结构中融合后的5×5特征图中每个网格点cell预测6个框，每一个框包含（c+4）个值；对于金字塔特征层次结构中融合后的3×3特征图中每个网格点cell预测4个框，每一个框包含（c+4）个值；对于金字塔特征层次结构中融合后的1×1特征图中每个网格点cell预测4个框，每一个框包含（c+4）个值；

步骤6-2）通过整合上述的输出数据，得到一系列目标框，设置阈值过滤掉置信度得分低的目标框，最后对保留的目标框进行非极大值抑制处理，去掉重复框，选取目标类别出现概率最高的目标框，并输出其具体坐标，得到最终结果。

本发明中在网络Darknet53的后面额外增加三个卷积层，目的是增强网络的特征表达能力，接着融合Darknet53中后三层卷积层及增加的三层卷积层所产生的六层特征图，目的是让特征图一方面具备对应于原图较小的感受野；另一方面也具备更全局的语义信息；

采用的金字塔特征层次结构：其基本思想是这些金字塔具有尺度不变性，这个属性通过在空间位置和金字塔层上扫描模型，使模型可以在一个很大范围的尺度上检测物体；这种结构在多个不同分辨率大小、不同感受野大小的特征图上进行预测，因此能预测不同大小的物体；

将网络Darknet53的后两层和额外增加三个卷积层产生的五层特征图进行上采样（Upsample）操作，然后与金字塔特征层次结构中尺寸对应的特征图进行融合，以进一步使得特征图包含小目标的位置信息同时也具备更强的特征提取能力。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、提高了SSD算法的检测能力，特别是对小目标物体的检测能力；本发明采用网络Darknet53，使得检测网络具备更高的特征提取能力，提高了SSD算法的检测能力；同时使用多层特征图融合将高分辨率低语义信息特征图与低分辨率高语义信息特征图进行融合，提高了SSD算法对小目标物体的检测能力；

2、可以实现实时性；本发明提出的算法在提高了SSD算法的检测能力的同时并没有引入太多的参数和计算量，仍保持了One Stage检测算法速度快、能满足实时性要求的优点。

附图说明

图1是本发明的整体流程图。

图2是本发明的详细步骤图。

图3是本发明中的金字塔特征层次结构(Pyramidal feature hierarchy)示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明提出了一种基于多层特征图融合的SSD目标检测算法，其方法是首先对输入图像进行预处理，使其分辨率为300×300，然后使用额外增加了三个卷积层的Darknet53网络对其进行特征提取，再融合所设定的六个特征图产生金字塔特征层次结构，然后将上述的Darknet53中的后五层进行上采样后与金字塔特征层次结构中尺寸对应的网络进行融合，最后由一系列的卷积层在金字塔特征层次结构中的六层特征图上进行预测得到最终的检测结果。本发明采用网络Darknet53，提高了SSD算法的检测能力；同时使用多层特征图融合将高分辨率低语义信息特征图与低分辨率高语义信息特征图进行融合，提高了SSD算法对小目标物体的检测能力；本发明提出的算法在提高了SSD算法的检测能力的同时并没有引入太多的参数和计算量，能满足实时性要求的优点。

如图2所示的是本发明的详细步骤：

1、首先是输入图像预处理，预处理的作用是使图像缩放成网络能够进行检测的大小；

预处理方法如下：

使用插值的方法将图像缩放成300×300的大小，可采用最近邻插值、线性插值、区域插值等。

2、选用网络Darknet53；

主要步骤如下：

使用网络Darknet53，使检测网络具备更强的特征提取能力。

3、在选用网络Darknet53后，在Darknet53后增加三个卷积层；

主要步骤如下：

Darknet53具有五个卷积层，在Darknet53后面增加三个卷积层，分别为第六层、第七层、第八层；每个卷积层由1×1的卷积、3×3的卷积构成。

4、融合Darknet53的后三层及额外增加三个卷积层产生的六层特征图，并产生金字塔特征层次结构；

主要步骤如下：

（1）将步骤1产生的分辨率为300×300的图像，用步骤2设计的网络进行处理，得到分辨率为38×38、19×19、10×10、5×5、3×3、1×1的六个特征图；对后五个特征图上采样成38×38的特征图后融合这六个特征图，产生既包含目标细节信息又包含全局语义信息的特征图；本发明中融合操作均使用特征图连接操作（Concat）；

（2）然后对这个融合后的特征图使用步长为2的卷积进行下采样产生如图3所示的金字塔特征层次结构。

5、将Darknet53的后两层及额外增加三个卷积层产生的五层特征图，分辨率分别为19×19、10×10、5×5、3×3、1×1，对这五个特征图分别使用线性插值放大，得到38×38、19×19、10×10、5×5、3×3；将放大后的五个特征图与金字塔特征层次结构中尺寸对应的特征图进行融合，以进一步使得特征图包含小目标的位置信息同时也具备更强的特征提取能力。

6、在金字塔特征层次结构中得到融合的特征图后，使用预测层处理得到最终预测结果。

主要步骤如下：

（1）对于金字塔特征层次结构中融合后的38×38特征图中每个网格点cell预测4个框，每一个框包含（c+4）个值（c为类别数，4为相对于原始默认框的4个坐标偏移量）；对于金字塔特征层次结构中融合后的19×19特征图中每个网格点cell预测6个框，每一个框包含（c+4）个值（c为类别数，4为相对于原始默认框的4个坐标偏移量）；对于金字塔特征层次结构中融合后的10×10特征图中每个网格点cell预测6个框，每一个框包含（c+4）个值（c为类别数，4为相对于原始默认框的4个坐标偏移量）；对于金字塔特征层次结构中融合后的5×5特征图中每个网格点cell预测6个框，每一个框包含（c+4）个值（c为类别数，4为相对于原始默认框的4个坐标偏移量）；对于金字塔特征层次结构中融合后的3×3特征图中每个网格点cell预测4个框，每一个框包含（c+4）个值（c为类别数，4为相对于原始默认框的4个坐标偏移量）；对于金字塔特征层次结构中融合后的1×1特征图中每个网格点cell预测4个框，每一个框包含（c+4）个值（c为类别数，4为相对于原始默认框的4个坐标偏移量）；

（2）通过整合上述的输出数据，得到一系列目标框，设置阈值过滤掉置信度得分低的目标框，最后对保留的目标框进行非极大值抑制处理，去掉重复框，选取目标类别出现概率最高的目标框，并输出其具体坐标，得到最终结果。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于多层特征图融合的SSD目标检测算法，其特征在于，包括以下具体步骤：

步骤2）选取网络Darknet53作为特征提取网络；

2.根据权利要求1所述的基于多层特征图融合的SSD目标检测算法，其特征在于，步骤1具体为：使用插值的方法将图像缩放成300×300的大小，可采用最近邻插值、线性插值或区域插值。

3.根据权利要求2所述的基于多层特征图融合的SSD目标检测算法，其特征在于，步骤4具体为：

步骤4-1）将分辨率为300×300的图像，用网络Darknet53的后六层卷积层进行处理，得到分辨率为38×38、19×19、10×10、5×5、3×3、1×1的六个特征图；对后五个特征图上采样成38×38的特征图后融合这六个特征图，产生既包含目标细节信息又包含全局语义信息的特征图；融合操作均使用特征图连接操作；

4.根据权利要求3所述的基于多层特征图融合的SSD目标检测算法，其特征在于，步骤5具体为：

5.根据权利要求3所述的基于多层特征图融合的SSD目标检测算法，其特征在于，步骤6具体为：

步骤6-1）对于金字塔特征层次结构中融合后的38×38特征图中每个网格点cell预测4个框，每一个框包含c+4个值，其中c为类别数，4为相对于原始默认框的4个坐标偏移量；对于金字塔特征层次结构中融合后的19×19特征图中每个网格点cell预测6个框，每一个框包含c+4个值；对于金字塔特征层次结构中融合后的10×10特征图中每个网格点cell预测6个框，每一个框包含c+4个值；对于金字塔特征层次结构中融合后的5×5特征图中每个网格点cell预测6个框，每一个框包含c+4个值；对于金字塔特征层次结构中融合后的3×3特征图中每个网格点cell预测4个框，每一个框包含c+4个值；对于金字塔特征层次结构中融合后的1×1特征图中每个网格点cell预测4个框，每一个框包含c+4个值；

步骤6-2）通过整合输出数据，得到一系列目标框，设置阈值过滤掉置信度得分低的目标框，最后对保留的目标框进行非极大值抑制处理，去掉重复框，选取目标类别出现概率最高的目标框，并输出其具体坐标，得到最终结果。