CN114419600A

CN114419600A - 一种基于ssd算法的车型目标检测网络及检测方法

Info

Publication number: CN114419600A
Application number: CN202210090867.5A
Authority: CN
Inventors: 王倩; 马杰
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-04-29

Abstract

本发明公开一种基于SSD算法的车型目标检测网络及检测方法，该检测网络先在原有的SSD网络基础上引入全局语义提取模块，融合了多个尺度特征图的特征，之后与来自低层特征融合，充分利用全局语义信息和位置信息，提高了车型目标检测的精度；同时设计了多尺度感受野模块增加网络宽度和深度，在网络高层使用不同空间间隔的空洞卷积，有效增强网络特征提取能力，提高网络对目标尺度的适应性。此外，将主干网VGG16后半段以及用于提取不同尺度特征的卷积核数量减半，并把特征提取部分的卷积用深度可分离卷积代替。经过图片数据集的验证，本发明基于SSD网络设计的车型目标检测网络在具备最小计算量和参数量的情况下，具有最高的检测精度。

Description

一种基于SSD算法的车型目标检测网络及检测方法

技术领域

本发明涉及智能识别检测技术领域，具体为一种基于SSD算法的车型目标检测网络及检测方法。

背景技术

车型目标检测是计算机视觉领域中重要方向之一，是车辆跟踪、智能交通等诸多领域的研究基础，具有重要的研究意义及广阔的应用前景。在自动驾驶障碍物分析、公安机关车型筛选等场景下，车型目标检测可以提供各类车型的准确信息，可以有效地提高后续任务的效率。车型目标检测任务中，受交通环境的复杂程度、车辆行驶状态等因素的影响，传统算法检测精度较低，降低了车型检测的有效性。因此改善车型目标检测中的错检、漏检等问题并提高精度成为了车型检测领域的热点。

目前基于深度学习的车型目标检测算法主要分为两类。一类是两阶段的目标检测算法，具有代表性的为R-CNN系列，此类算法检测精度较高，但由于两阶段的网络结构特点，检测速度较慢，不适用于实时检测。为了提高检测的速度，研究人员陆续提出了另一类可以快速实时的单阶段目标检测算法，如SSD系列、RFBNet、RetinaNet、YOLO系列等。以上典型的目标检测算法在一般物体检测上表现良好的性能，比如较大的目标检测、近距离路标检测以及路面缺陷检测。

在YOLO发布不久后，Liu等就发表了同属于单阶段目标检测算法的SSD检测算法。SSD算法以VGG16为主干网络，其检测速度较快的前提下，精度也有一定的提升。但仍存在一定缺陷，在复杂道路场景下车辆密集、目标较小等情况下仍存在检测效果差精度低等缺点。

发明内容

为了克服上述现有技术存在的缺陷，本发明提出一种基于SSD算法的车型目标检测网络及检测方法，提升复杂场景下车型目标检测精度。

本发明解决上述技术问题所采取的技术方案是，设计一种基于SSD算法的车型目标检测网络，其特征在于，该车型目标检测网络以SSD神经网络为基础，加入CBAM，以及自定义的GSE模块和MSRF模块；并且，将SSD神经网络的VGG16网络骨干部分的Pool2层之后的卷积层和四个特征提取模块的卷积核数量减半，同时将四个特征提取模块的卷积用深度可分离卷积代替；最后使用Soft-NMS方法(改进的非极大值抑制算法)代替传统的NMS方法。

具体的，将VGG16网络骨干部分中的两个卷积层的输出中的Feature1做两种处理，第一种是将Feature1直接输入到Detector&Classifier层，第二种是将Feature1输入到CBAM；CBAM将处理Feature1后得到的特征输入到第一GSE模块；将VGG16网络骨干部分的两个卷积层的输出中的Feature2以及前三个特征提取模块的输出Feature3、Feature4、Feature5组合成两组，Feature2、Feature3、Feature4为第一组特征，Feature3、Feature4、Feature5为第二组特征；将第一组特征和CBAM的输出输入到第一GSE模块，将第二组特征和第一GSE模块的输出输入到第二GSE模块；第一GSE模块将两部分输入进行处理，得到的输出同时输入到第二GSE模块和Detector&Classifier层；第二GSE模块将两部分输入进行处理，得到的输出输入到Detector&Classifier层；同时，第二个、第三个特征提取模块的输出Feature4、Feature5均分别经过一个MSRF模块处理，MSRF模块的输出均输入到Detector&Classifier层，第四个特征提取模块的输出Feature6直接输入到Detector&Classifier层；最后，在后处理时，使用Soft-NMS代替原有的NMS算法，以检测出被遮挡的目标。

GSE模块的输入包含两部分，分别为由三个特征图构成的一组特征和来自另一层的特征；GSE模块在对输入的一组特征处理时，首先使用1×1卷积对其中的两个尺度较大的特征图实施升维操作，升维之后再使用转置卷积将其中的两个尺度较小的特征图上采样至最低层的尺度；然后将处理后的三个特征图在第四个维度时间维度上拼接，并调换通道与时间维度的位置，得到维度为C×T×W×H的4维特征图；然后采用3D卷积网络对4维特征图进行卷积，合并前两个维度便还原成了三维特征图，尺寸为C×W×H；最后将GSE模块的另一个输入下采样后与上述还原后的三维特征图拼接并进行2D卷积，即可获得包含浅层特征和全局上下文信息的新特征层。

MSRF模块包括四个分支，其中第一分支的第一层为平均池化层，第二层为1×1的卷积层；第二分支、第三分支、第四分支的第一层均为1×1的卷积层，三者的第二层依次为1×3的卷积层、3×1的卷积层、3×3的卷积层，三者的第三层均为3×3、Rate为2的空洞卷积层。输入到MSRF模块的特征，分别经过MSRF模块的四个分支的处理，然后将MSRF模块的第一分支的第二层的输出以及第二分支、第三分支、第四分支的第三层的输出进行特征合并，获得新特征层。

进一步的，本发明提供一种基于SSD算法的车型目标检测方法，其特征在于，该方法基于如上所述的车型目标检测网络，该方法包括以下步骤：

步骤1：准备车型数据集

1.1收集BDD100K和KITTI开源数据集中的部分车型图片；

1.2使用Labellmg标注工具对步骤1.1中收集到的车型图片进行标注；

1.3对步骤1.2中完成标注的车型图片采用翻转、镜像、改变明亮度和增加高斯白噪声的方式进行车型图片数量扩增获得带标签的车型图片数据库；

1.4对步骤1.3中带标签的车型图片数据库进行随机划分，将不少于60％的部分划分为训练集，余下部分为测试集；

步骤2：训练车型目标检测网络

2.1使用训练集对车型目标检测网络进行训练

准备VGG16在ImageNet数据集上的预训练权重文件，并将预训练权重文件放至训练代码中，载入SSD神经网络使用的部分VGG网络权重；设置冻结训练的方式训练网络模型，加快训练效率，并防止权值被破坏；初始化车型目标检测网络其余部分的网络参数，输入训练集，当Epoch<＝50，训练整个车型目标检测网络，设置BATCH_SIZE＝16，lr＝0.0005；当50<Epoch<100，训练车型目标检测网络，设置BATCH_SIZE＝8，lr＝0.0001；车型目标检测网络输出预测的类别、边框位置偏移量和大小偏移量信息；根据车型目标检测网络预测的信息与相应的真实标签计算Loss值，根据Loss下降情况调整学习率参数，直到模型收敛且总训练轮次结束，则车型目标检测网络训练完成；

2.2利用测试集对步骤2.1中完成训练的车型目标检测网络进行测试，当该网络的mAP值大于82.52时，则该车型目标检测网络为有效网络；

步骤3：车型目标检测

将拍摄的交通图片尺寸归一化到步骤1中车型图片数据库中图片相同大小后，输入到步骤2.2中测试为有效的车型目标检测网络中，即得该图片中车型目标的位置和类别。

与现有技术相比，本发明车型目标检测网络首先在原有的SSD网络基础上引入全局语义提取模块，融合了多个尺度特征图的特征，之后与来自低层特征融合，有效利用两者优势，充分利用全局语义信息和位置信息，提高了车型目标检测的精度；同时设计了多尺度感受野模块增加网络宽度和深度，在网络高层使用不同空间间隔的空洞卷积，有效增强网络特征提取能力，提高网络对目标尺度的适应性。此外，将主干网VGG16后半段以及用于提取不同尺度特征的卷积核数量减半，并把特征提取部分的卷积用深度可分离卷积代替，获得车型目标检测网络。后处理时，Soft-NMS算法的使用增加了被遮挡的目标的检测精度。经过图片数据集的验证，本发明基于SSD网络设计的车型目标检测网络在具备最小计算量和参数量的情况下，与其他一些经典目标检测算法相比具有最高的检测精度。

附图说明

图1为本发明一种实施例的车型目标检测网络结构与原理示意图；

图2为本发明一种实施例的车型目标检测网络的GSE模块原理示意图；

图3为本发明一种实施例的车型目标检测网络的MSRF模块原理示意图；

图4为采用SSD神经网络对一组不同环境下拍摄的车型图片的检测结果(一组为三张图片，分别对应不同明暗光线环境和不同复杂度场景)；

图5为采用本发明的车型目标检测网络对与图4中相同的一组车型图片的检测结果。

具体实施方式

下面结合附图和示例图，对本发明的具体实施方式进一步详细描述。

本发明提供一种基于SSD算法的车型目标检测网络，简称车型目标检测网络。

SSD神经网络是以VGG16网络骨干部分为基础的特征提取层，再增加四个特征提取模块，输入的图片经过VGG16网络骨干部分和四个特征提取模块处理后，选取VGG16网络骨干部分中的两个卷积层(Conv4_3、Conv7)的输出Feature1(38*38尺寸)和Feature2(19*19尺寸)，以及四个特征提取模块的输出Feature3(10*10尺寸)、Feature4(5*5尺寸)、Feature5(3*3尺寸)、Feature6(1*1尺寸)，将这六个尺度特征图输入到Detector&Classifier层(预测与分类回归层)后，再经过NMS算法(非极大值抑制算法)处理后，得到预测的类别与位置(该部分为现有技术)。

表1用于SSD的VGG16网络骨干部分

名称	卷积核数量	卷积核尺寸	输出尺寸
				Conv1_1	64	3×3×3	300×300
Conv1_2	64	3×3×64	300×300
				Pool1	-	-	150×150
Conv2_1	128	3×3×64	150×150
				Conv2_2	128	3×3×128	150×150
Pool2	-	-	75×75
				Conv3_1	256	3×3×128	75×75
Conv3_2	256	3×3×256	75×75
				Conv3_3	256	3×3×256	75×75
Pool3	-	-	38×38
				Conv4_1	512	3×3×256	38×38
Conv4_2	512	3×3×512	38×38
				Conv4_3	512	3×3×512	38×38
Pool4	-	-	19×19
				Conv5_1	512	3×3×512	19×19
Conv5_2	512	3×3×512	19×19
				Conv5_3	512	3×3×512	19×19
Pool5(s＝1)	-	-	19×19
				Conv6	1024	3×3×512	19×19
Conv7	1024	3×3×512	19×19

所述车型目标检测网络以SSD神经网络为基础，加入CBAM(Convolutional BlockAttention Module，卷积块注意模块)，以及自定义的GSE(Global Semantic Extraction，全局语义信息提取)模块和MSRF(Mult-Scale Receptive Field，多尺度感受野模块)模块；并且，将SSD神经网络的VGG16网络骨干部分的Pool2层之后的卷积层(Conv3_1～Conv7，共11个卷积层)和四个特征提取模块的卷积核数量减半，同时将四个特征提取模块的卷积用深度可分离卷积代替。具体的，将VGG16网络骨干部分中的两个卷积层的输出中的Feature1(38*38尺寸)做两种处理，第一种是将Feature1直接输入到Detector&Classifier层，第二种是将Feature1输入到CBAM；CBAM将处理Feature1后得到的特征输入到第一GSE模块；将VGG16网络骨干部分的两个卷积层的输出中的Feature2(19*19尺寸)以及前三个特征提取模块的输出Feature3(10*10尺寸)、Feature4(5*5尺寸)、Feature5(3*3尺寸)组合成两组，Feature2(19*19尺寸)、Feature3(10*10尺寸)、Feature4(5*5尺寸)为第一组特征(Group1)，Feature3(10*10尺寸)、Feature4(5*5尺寸)、Feature5(3*3尺寸)为第二组特征(Group2)；将第一组特征和CBAM的输出输入到第一GSE模块，将第二组特征和第一GSE模块的输出输入到第二GSE模块；第一GSE模块将两部分输入进行处理，得到的输出同时输入到第二GSE模块和Detector&Classifier层；第二GSE模块将两部分输入进行处理，得到的输出输入到Detector&Classifier层；同时，第二个、第三个特征提取模块的输出Feature4(5*5尺寸)、Feature5(3*3尺寸)均分别经过一个MSRF模块处理，MSRF模块的输出均输入到Detector&Classifier层，第四个特征提取模块的输出Feature6(1*1尺寸)直接输入到Detector&Classifier层。最后，在后处理时，使用Soft-NMS算法代替原有的NMS算法，以检测出被遮挡的目标。

GSE模块的输入包含两部分，分别为由三个特征图构成的一组特征和来自另一层的特征(PreLayer)；GSE模块在对输入的一组特征(三个特征图)处理时，首先使用1×1卷积(CONV)对其中的两个尺度较大的特征图实施升维操作，升维之后再使用转置卷积将其中的两个尺度较小的特征图上采样(UPSAMPLE)至最低层的尺度。然后将处理后的三个特征图在第四个维度时间维度上拼接(CONCAT)，并调换通道与时间维度的位置(RESHAPE)，得到维度为C×T×W×H的4维特征图；然后采用3D卷积网络(3D CONV)对4维特征图进行卷积，合并前两个维度便还原成了三维特征图，尺寸为C×W×H；最后将GSE模块的另一个输入下采样(DOWNSAMPLE)后与上述还原后的三维特征图拼接(CONCAT)并进行2D卷积(CONV)，即可获得包含浅层特征和全局上下文信息的新特征层。

GSE模块的工作原理与流程：GSE模块的输入包含两部分，分别为三个高层特征的组合(Group1/Group2)以及来自前一层的特征(PreLayer)，其结构如图3所示。

GSE模块在处理高层特征图(Group1/Group2)时，首先使用1×1卷积对两个尺度较大的特征图实施升维操作，同时可以增加通道间的信息交互并增加模型的非线性，升维之后使用转置卷积将两个尺度较小的特征图上采样至最低层的尺度。这里使用双线性插值通过线性映射从特征图F中相邻最近的四个像素计算放大后的特征，此过程的公式为：

其中x＝[i/λ]+α,y＝[j/λ]+β,λ是上采样系数，[·]和{·}分别为整数和分数。然后将经过处理后的三个特征图在第四个维度时间维度上拼接，并调换通道与时间维度的位置，得到维度为C×T×W×H的4维特征图。接下来使用3D卷积核对此4维特征图进行卷积，设置时间维度的卷积核尺寸为3，padding为1，并使用2步长即可将时间维度由3转换为1，合并前两个维度便还原成了三维特征图，尺寸为C×W×H。3D卷积网络中，第i层卷积的第j个特征图在(x,y,z)位置的值可根据如下公式计算：

公式中

为激活函数，W、H、T、C与上文描述一致，x、b分别是对应位置的权重参数和偏置值。最后将GSE模块的另一个输入下采样后与上述还原后的三维特征图拼接(即Concatenation的操作)并进行2D卷积即可获得包含浅层特征和全局上下文信息的新特征层。

MSRF模块包括四个分支，其中第一分支的第一层为平均池化层(Avgpooling)，第二层为1×1的卷积层；第二分支、第三分支、第四分支的第一层均为1×1的卷积层，用于降维处理；三者的第二层依次为1×3的卷积层、3×1的卷积层、3×3的卷积层，这些卷积层用来提取特征；三者的第三层均为3×3、Rate为2的空洞卷积层，可以增大感受野，捕获多尺度上下文信息。输入到MSRF模块的特征(即Input)，分别经过MSRF模块的四个分支的处理，然后将MSRF模块的第一分支的第二层的输出以及第二分支、第三分支、第四分支的第三层的输出进行特征合并(即Concatenation的操作)，获得新特征层。

将SSD模型中高层的两个特征图Feature4(5*5尺寸)、Feature5(3*3尺寸)分别输入到各自的MSRF模块中，进行进一步的特征处理。

进一步，本发明提供一种基于改进SSD算法的车型目标检测方法，该方法基于如上所述的车型目标检测网络，包括以下步骤：

步骤1：准备车型数据集

1.1收集BDD100K和KITTI开源数据集中的部分车型图片。

1.2使用Labellmg标注工具对步骤1.1中收集到的车型图片进行标注。

1.3对步骤1.2中完成标注的车型图片采用翻转、镜像、改变明亮度和增加高斯白噪声的方式进行车型图片数量扩容，获得带标签的车型图片数据库。

1.4对步骤1.3中带标签的车型图片数据库进行随机划分，将不少于60％的部分划分为训练集，余下部分为测试集。本实施例中，选用80％为训练集，余下20％为测试集。

步骤2：训练车型目标检测网络

2.1使用训练集对车型目标检测网络进行训练

准备VGG16在ImageNet数据集上的预训练权重文件，并将预训练权重文件放至训练代码中，载入SSD神经网络使用的部分VGG网络权重。设置冻结训练的方式训练网络模型，加快训练效率，并防止权值被破坏。初始化车型目标检测网络其余部分的网络参数，输入训练集，当Epoch<＝50，训练整个车型目标检测网络，设置BATCH_SIZE＝16，lr＝0.0005。当50<Epoch<100，训练车型目标检测网络，设置BATCH_SIZE＝8，lr＝0.0001。车型目标检测网络输出预测的类别、边框位置偏移量和大小偏移量信息。根据车型目标检测网络预测的信息与相应的真实标签计算Loss值，根据Loss下降情况调整学习率参数，直到模型收敛且总训练轮次结束，则车型目标检测网络训练完成。

2.2利用测试集对步骤2.1中完成训练的车型目标检测网络进行测试，当该网络的mAP值((mean Average Precision，即各类别AP的平均值)大于现有的经典网络结构(可参考表2，最大值为82.52)时，则该车型目标检测网络为有效网络。

步骤3：车型目标检测

表2不同检测模型针对5类车型目标检测的检测结果

表2对比了在KITTI-Sub和BDD100K-Sub联合数据集上不同算法在各自的主干网络输入尺寸下的检测速度和平均精度。从表2可知，本发明提出的车型目标检测网络在所有模型中获得了最高的检测精度。车型目标检测网络比传统SSD算法的mAP提高了4.43％，与基于SSD改进的DSSD算法相比提高了2.73％。同时比Yolov3、Yolov4分别提升了1.61％、0.51％。得益于GSE和MSRF的加入，本发明车型目标检测网络能够有效捕获图像中的各种尺度目标。

表3不同检测模型的规模对比

Method	Para/M	FLOPs/G
			Faster RCNN	28.316	489.315
SSD	24.150	30.602
			DSSD	122.288	37.480
Yolov3	61.545	32.774
			Yolov4	63.959	45.282
车型目标检测网络	20.843	23.231

表3展示了车型目标检测网络与其他模型的大小情况。在模型规模方面，尽管加入了新的模块，但由于对模型的通道和卷积方式的调整，本发明网络模型仍然拥有很小的计算量和参数量。

本发明未述及之处适用于现有技术。

Claims

1.一种基于SSD算法的车型目标检测网络，其特征在于，该车型目标检测网络以SSD神经网络为基础，加入CBAM，以及自定义的GSE模块和MSRF模块；并且，将SSD神经网络的VGG16网络骨干部分的Pool2层之后的卷积层和四个特征提取模块的卷积核数量减半，同时将四个特征提取模块的卷积用深度可分离卷积代替；

具体的，将VGG16网络骨干部分中的两个卷积层的输出中的Feature1做两种处理，第一种是将Feature1直接输入到Detector&Classifier层，第二种是将Feature1输入到CBAM；CBAM将处理Feature1后得到的特征输入到第一GSE模块；将VGG16网络骨干部分的两个卷积层的输出中的Feature2以及前三个特征提取模块的输出Feature3、Feature4、Feature5组合成两组，Feature2、Feature3、Feature4为第一组特征，Feature3、Feature4、Feature5为第二组特征；将第一组特征和CBAM的输出输入到第一GSE模块，将第二组特征和第一GSE模块的输出输入到第二GSE模块；第一GSE模块将两部分输入进行处理，得到的输出同时输入到第二GSE模块和Detector&Classifier层；第二GSE模块将两部分输入进行处理，得到的输出输入到Detector&Classifier层；同时，第二个、第三个特征提取模块的输出Feature4、Feature5均分别经过一个MSRF模块处理，MSRF模块的输出均输入到Detector&Classifier层，第四个特征提取模块的输出Feature6直接输入到Detector&Classifier层；最后，在后处理时，使用Soft-NMS算法代替原有的NMS算法；

GSE模块的输入包含两部分，分别为由三个特征图构成的一组特征和来自另一层的特征；GSE模块在对输入的一组特征处理时，首先使用1×1卷积对其中的两个尺度较大的特征图实施升维操作，升维之后再使用转置卷积将其中的两个尺度较小的特征图上采样至最低层的尺度；然后将处理后的三个特征图在第四个维度时间维度上拼接，并调换通道与时间维度的位置，得到维度为C×T×W×H的4维特征图；然后采用3D卷积网络对4维特征图进行卷积，合并前两个维度便还原成了三维特征图，尺寸为C×W×H；最后将GSE模块的另一个输入下采样后与上述还原后的三维特征图拼接并进行2D卷积，即可获得包含浅层特征和全局上下文信息的新特征层；

MSRF模块包括四个分支，其中第一分支的第一层为平均池化层，第二层为1×1的卷积层；第二分支、第三分支、第四分支的第一层均为1×1的卷积层，三者的第二层依次为1×3的卷积层、3×1的卷积层、3×3的卷积层，三者的第三层均为为3×3、Rate为2的空洞卷积层；输入到MSRF模块的特征，分别经过MSRF模块的四个分支的处理，然后将MSRF模块的第一分支的第二层的输出以及第二分支、第三分支、第四分支的第三层的输出进行特征合并，获得新特征层。

2.一种基于SSD算法的车型目标检测方法，其特征在于，该方法基于与权利要求1所述的车型目标检测网络，包括以下步骤：

步骤1：准备车型数据集

1.1收集BDD100K和KITTI开源数据集中的部分车型图片；

1.3对步骤1.2中完成标注的车型图片采用翻转、镜像、改变明亮度和增加高斯白噪声的方式进行车型图片数量扩容，获得带标签的车型图片数据库；

步骤2：训练车型目标检测网络

2.1使用训练集对车型目标检测网络进行训练

2.2利用测试集对步骤2.1中完成训练的车型目标检测网络进行测试，当该网络的mAP值大于82.52，则该车型目标检测网络为有效网络；

步骤3：车型目标检测

3.根据权利要求2所述的一种基于SSD算法的车型目标检测方法，其特征在于，步骤1中，将车型图片数据库的80％划分为训练集，余下20％为测试集。