CN112580664A

CN112580664A - 一种基于ssd网络的小目标检测方法

Info

Publication number: CN112580664A
Application number: CN202011468851.0A
Authority: CN
Inventors: 李成严; 赵帅; 车子轩
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-30

Abstract

本发明提出了一种基于SSD的小目标检测方法，通过多尺度特征融合、学习具有大感受野的高分辨率特征、引入注意力机制等特征增强的方式丰富小目标的特征信息，提高小目标的特征质量，通过Anchor‑object匹配策略联合分类与定位的置信度去学习Anchor，解决每个被分配的Anchor独立的监督网络学习以进行分类与定位与分类与定位之间没有交互的问题，来提升小目标的检测精度以及定位精度，此外，数据集样本的多样性能够有效的提升模型对小目标检测的精度和泛化能力，所以本发明在数据样本的采集上，参考了不同光照、不同姿态及遮挡程度等众多影响因素。

Description

一种基于SSD网络的小目标检测方法

技术领域

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标实时跟踪变得越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学等方面具有广泛的应用价值，本发明涉及图像处理领域及目标检测领域，针对目标检测领域中小目标检测效果不佳的问题，提出了一种提升小目标检测精度的方法。

背景技术

目标检测技术分为传统方法和深度学习的方法，传统的目标检测方法包括HOG特征法、Haar-Like特征法、LBP特征法，这些方法特征层很浅，现已被深度学习方法取代，在深度学习领域，基于卷积神经网络(Convolution Neural Network,CNN)的方法具有特征层次深，检测准确率高，鲁棒性好的优点。

一般来说，基于深度学习的目标检测方法分为两类，一类是基于候选区域的R-CNN系两阶段方法，需要先产生候选区域，然后再在候选区域上做分类与回归，R-CNN首先利用Selective Search技术对输入图像提取生成约2000个建议框，然后使用AlexNet特征提取网络对建议框进行特征提取，最后使用SVM分类器确定检测目标的类别，使用回归器确定目标的位置，SPP-Net改进了R-CNN对所有的建议框使用卷积神经网络来提取特征造成的严重耗时问题，对整张输入图片仅进行一次卷积操作，大大降低了运算量，以VGG-16为基准网络的Fast R-CNN借鉴了SPP-Net的思想将SPP层简化为ROI Pooling单层结构，引入softmax函数和SVD分解，替代了SVM分类器，将分类和回归合并成一个问题，在提高检测速度的同时提高了检测精度，Faster R-CNN真正实现了网络模型的端到端训练，设计了区域生成网络(RPN)来生成候选区域，并将候选区域的生成、特征的提取、目标分类和位置回归整合到了一个模型中，R-FCN使用ResNet作为特征提取网络，在ROI Pooling层后改用全卷积神经网络替换全连接层，减少了参数量，为解决Faster R-CNN存在的图像分类和目标检测的平移不变性的矛盾引入了位置敏感得分图，以ResNeXt-101为基准网络的Mask R-CNN加入一个用于预测目标掩码的Mask预测分支，以完成实例分割任务，利用双线性差值的方法设计了ROI Align替代ROI Pooling，使得为每个ROI取得的特征能够更好地对齐原图上的ROI区域，提高了掩码的精确度，总体而言，两阶段目标检测的检测精度在不断提升，但是检测速度普遍较慢。

另一类方法是仅仅使用一个CNN网络直接预测不同目标的类别与位置，YOLOv1只需要对输入图像进行一次处理，即可同时得到目标的位置和类别，检测速度得到了大大的提升，但是，YOLOv1网格的划分策略生成的先验框个数较少，对小目标和密集目标的检测精度较差，定位误差也较大，以Darknet-19为基准网络的YOLOv2，引入了批量归一化(BN)操作，舍弃了Dropout操作，Anchor Boxes来预测边界框，提升了YOLOv1目标检测的精度，以Darknet-53作为基准网络的YOLOv3，该网络吸收了FPN的思想有效提高了网络对小目标的检测效果，使用二元交叉熵损失函数实现了对同一个边界框多个类别的预测，以CSPDarknet53为基准网络的YOLOv4，添加了SPP模块来增大感受野，同时使用PANet替换YOLOv3中的FPN来进行多通道特征的融合。

而现如今，小目标的检测都是基于目标检测方法改进而来，特征金字塔网络(FPN)通过将高层特征图利用双线性插值的方法上采样后与浅层特征图做元素级别的相加，增强了网络对多尺度特征的提取能力，FPN包括自底向上和自顶向下两个路径，自底向上的路径通常是提取特征的卷积网络，自底向上的路径会造成特征图的空间分辨率降低，但是特征图的语义值相应增加，为了特征图的跳跃连接，帮助检测器更好地定位，FPN设计了横向连接的结构，FPN设计的多尺度预测结构合理利用了浅层特征和高层特征信息，有效提升了小目标的检测准确率，基于FPN改进了特征融合方式，将FPN由底向上逐层上采样特征融合改为直接融合，采用了多尺度预测方式对目标进行检测，受人体视觉系统中感受野结构的启发，提出了一种利用空间卷积结构来模拟人眼视觉系统中感受野尺寸和中心的关系，增大特征图的感受野，丰富特征图的细节、边缘等信息，虽然在保证检测性能的同时，网络的检测精度得到提升，但是网络结构并没有利用特征图的空间上下文信息，检测精度还有提升空间。

发明内容

基于深度学习的目标检测方法在通用数据集上已经取得了较好的检测效果，但是对于小目标的检测有一定的局限性，小目标由于图像像素较少、分辨率低、图像模糊等导致其特征信息不明显，表达能力弱，可以提取的特征信息较少，检测时常会出现漏检和误检情况，严重影响目标检测效果，是目标检测需要解决的一个重难点问题，近些年来，随着深度学习的发展以及工业界需求的日益增长，小目标的检测越来越受到关注，但是现有的一些小目标的检测都是在现有的目标检测方法的基础上提出的一些改进策略，如通过增加网络的层数，设计更加优秀的特征提取网络，引进特征融合技术增加模型对多尺度目标的检测鲁棒性，从而提升小目标的检测性能，针对目标检测网络提取到的小目标特征信息十分有限以及小目标检测精度低和定位不准，本发明公开了一种基于SSD网络的小目标检测方法。

为此，本发明提供了如下技术方案。

一种基于SSD目标检测网络的小目标检测方法，通过特征增强的方式丰富小目标的特征信息，提高小目标的特征质量，特征增强的方式主要包括多尺度特征融合、学习具有大感受野的高分辨率特征、引入注意力机制，在目标检测网络中，检测器利用目标实际边界框(Ground truth)与Anchor之间的IOU作为分配Anchor的标准，每个被分配的Anchor独立的监督网络学习以进行分类与定位，分类与定位之间没有交互，如果一个Anchor的检测结果的定位精度较高但分类置信度较低，在经过NMS操作是就可能会被过滤掉，为解决这个问题提出Anchor-object匹配策略，从而提升模型对小目标的检测精度。

具体过程包括如下步骤。

步骤1：提取更浅层的输出特征图。

步骤2：应用感受野模块。

步骤3：应用特征融合模块。

步骤4：设计Anchor-object匹配策略。

步骤5：构建改进的SSD目标检测方法。

步骤6：制作实验数据集。

步骤7：模型训练。

步骤8：模型测试。

进一步地，以原始SSD为基础，对SSD模型更浅层Conv3_3的输出特征图进行特征提取，来获得更多特征图的纹理、边缘的细节信息。

进一步地，不同分支，应用卷积核大小不同的卷积层构成并行卷积结构，卷积层使用不同大小空洞率的卷积核来构成空洞卷积结构，应用并行卷积结构可以得到多尺度的特征信息，应用空洞卷积可以增加感受野，最后通过通道拼接各支路的卷积，将具有多尺度信息和不同感受野的特征图融合成一个感受野更大、尺度信息更丰富的特征图。

进一步地，把含有更多边缘、纹理等细节信息的浅层特征图与含有丰富语义信息的深层特征图融合成一个兼具浅层特征信息与深层特征信息的特征图。

进一步地，SSD目标检测网络的分类与定位检测器是对每一层输出特征图进行检测的，这也限制了联合分类与定位，为此联合多个输出特征图为每个目标构建了相应的Anchor包，在训练阶段，在SSD目标检测网络的基础上，添加Anchor选择模块和Anchor抑制模块，Anchor选择模块找出得分较高的Anchor从而最小化检测损失，而Anchor抑制模块通过扰动这些被选择的Anchor的特征，降低这些Anchor的置信度，再次增大检测损失，通过一种反复降低Anchor置信度的对抗的方式解决次优解的问题，在最终收敛的时候最大可能的找到最优解。

进一步地，以原始SSD为基础，对SSD模型更浅层的输出特征图进行特征提取，获得更多特征图的纹理、边缘的细节信息；对SSD模型深层的输出特征图进行反卷积与浅层的输出特征图进行特征融合，使融合后的特征图含有浅层特征更多细节信息的同时兼顾丰富的语义信息；在浅层输出特征图增加感受野模块，采用多分支的空洞卷积结构来获得更大的感受野和更具表达能力的特征，Anchor-object匹配策略联合分类与定位选择置信度分数较高的Anchor去更新模型，使用更新后的模型重新为每个Anchor评估得分，在不断的迭代学习中，模型参数不断学习，Anchor也不断优化，最终得到最优的参数，以及预测框。

进一步地，制作VOC格式数据集，利用labelImg工具，对数据集中图片数据进行标注，产生XML文件，实验数据集来源于对大小为70G的车间监控视频截取不同姿态、不同遮挡程度、不同目标大小的7462张图片，该数据集包含一个类别，即person。

进一步地，设置动量参数、初始学习率(learning_rate)、衰减系数、模型训练轮数，根据验证损失(val_loss)适当调整学习率的大小，根据验证损失得到最优秀的训练模型。

进一步地，利用车间视频流对模型进行测试，将按帧截取视频流，获得的图片传入训练好的模型对行人进行检测，输出行人的具体位置坐标和置信度。

相比于现有技术，本发明具有如下有益效果。

本发明在目标检测方法基础上，通过采用多尺度特征融合，学习大感受野的高分辨率特征，引入注意力机制等手段提升小目标特征质量，通过设计Anchor-object匹配方法解决定位精度较高但分类置信度较低Anchor，在NMS操作后可能会被过滤掉的问题，提升了小目标的检测精度，与现有的目标检测方法相比，本发明的目标检测模型在保证检测速度的同时，提升了检测精度，达到工业级要求，适应真实环境的目标检测。

附图说明

图1为SSD目标检测结构图。

图2为特征提取网络结构图。

图3为特征融合模块结构图。

图4为感受野模块结构图。

图5为选择-抑制优化结构图。

图6为网络总体结构图。

图7网络训练图。

具体实施方式

下面结合1-7附图对本发明的技术方案做进一步的说明。

SSD方法是由Lin等人提出的一种直接预测目标边界框坐标和类别的检测方法，SSD方法采用多尺度特征图用于检测，一个比较大特征图负责检测相对较小的目标，而小的特征图负责检测相对较大的目标，SSD方法借鉴了Faster R-CNN中Prior boxes的理念，一般情况下，每个单元格会设置多个Prior boxes，其尺度和长宽比存在差异，每个单元格使用了4个不同的Prior boxes，方法采用最适合的Prior boxes来匹配行人对模型进行训练，SSD方法的骨干网络结构是VGG16，并将VGG16的最后两个全连接层改为卷积层后又增加了4个卷积层，SSD方法直接采用卷积对不同的特征图进行提取检测，SSD方法对conv4_3、fc7、conv6_2、conv7_2、conv8_2和conv9_2等6个不同卷积层的输出特征图做检测，其网络结构如附图1所示。

特征提取网络结构如附图2所示，提取SSD卷积神经网络中更浅层Conv3_3输出的特征图与Conv4_3、Conv5_3输出的特征图，将特征图进行特征融合(Feature fusion)得到ConvF3_3输出特征图，ConvF3_3输出特征图又经感受野模块(Receptive field module)得到ConvR3_3输出特征图，深层Conv8_2、Conv7_2的输出特征图分别与Conv6_2、fc7的输出特征图通过特征融合得到ConvF6_2、fcF7的输出特征图。

特征融合技术是把含有更多边缘、纹理等细节信息的浅层特征图与含有丰富语义信息的深层特征图融合成一个兼具浅层特征信息与深层特征信息的特征图，如附图3所示，两个特征图经过一次2×2反卷积、一次3×3的卷积和ReLU(Rectified Linear Unit)、BN(Batch Normalization)处理，然后两个特征图经Concatenate按通道拼接，又经1×1卷积、ReLU处理得到融合之后的特征图。

感受野模块如附图4所示，H×W×256的特征图经三条卷积核大小分别为1×1，3×3，5×5的卷积层和应用空洞率分别为1、3、5，卷积核大小为3×3的空洞卷积层的分支得到三个含有不同感受野和不同尺度信息的特征图，又经Concat操作，三个特征图融合成一个特征图，融合后的特征图经1×1的卷积调整通道深度并与H×W×256的输入特征图经add操作得到最终特征图。

选择-抑制优化的网络结构如附图5所示，通过一种反复降低Anchor置信度的对抗方式解决次优解问题，在最终收敛时最大可能的找到最优解，Anchor抑制模块使用了注意力机制，注意力机制识别对象最具有代表性的区域，鼓励区分对象类别，为了解决梯度引导注意力忽略对象其他较不敏感区域的问题，使用反转注意力机制，迫使网络关注对象敏感度较低区域，给未被选择的Anchor更多机会以参与训练，通过注意力反转机制生成一个反向空间注意力图和一个反向通道注意力图，然后将它们组合以生成最终的反向注意图，Anchor选择模块找出得分较高的Anchor从而最小化检测损失，而Anchor抑制模块通过扰动这些被选择的Anchor的特征，降低这些Anchor的置信度，再次增大检测损失，同时SSD目标检测网络的分类与定位检测器是对每一个输出特征图进行检测的，这也限制了联合分类与定位，为此联合多个输出特征图为每个目标构建了相应的Anchor包。

附图6展示了总体的网络结构，通过将改进的特征提取网络与Anchor选择-抑制模块结合后，应用ConvR3_3、Conv4_3、fc7、ConvF6_2、Conv7_2、Conv8_2、Conv9_2等7个输出层的特征图，构成的三个Anchor包做检测。

在如表1所示的实验环境下运行本发明设计的目标检测方法：

表1实验环境

首先构建实验所需的数据集，实验数据集来源于对大小为70G的车间监控视频截取的不同姿态、不同遮挡程度、不同目标大小的7462张图片，该数据集包含一个类别，即person，数据样本如图7所示，将车间行人数据集，按照8:1:1的比例划分为训练集、验证集、测试集，如表2所示：

表2车间行人数据集的划分

其次利用数据集进行网络的训练，网络训练过程如附图7所示，网络模型训练参数部分设定为：动量参数为0.9，模型训练100epoch，前50epoch初始学习率(learning_rate)为0.0005，网络训练50epoch之后，learning_rate衰减为0.0001，在训练过程中，当验证损失(val_loss)在10epoch没有改善时，学习率降低0.5倍，每迭代一次训练的样本数为4，网络训练过程中val_loss在前50epoch的下降趋势明显，在后50epoch逐渐平稳。

最后将本发明的目标检测网络应用到实际车间环境下，应用漏检率、准确率来衡量方法的性能，实验利用车间行人数据集的训练集分别在SSD目标检测网络和本发明目标检测网络上训练了两个模型，在测试集上分别测试两个模型，记录每张图像的检测框并计算检测框与真实框的IOU值，假设检测框为BBd，真实框为BBg，若IOU大于阈值时，则BBd与BBg是匹配的，本组实验的阈值为0.5，IOU的计算如公式(1)所示：

在BBd与BBg匹配的过程中，未匹配到的BBd是误检的行人框(false postitiveFP),未匹配到的BBg是漏检的行人框(false negative FN)，行人统计标准如表3所示：

表3行人统计标准

漏检率RM(Miss Rate)，如公式(2)所示：

准确率Rp(Precision Rate)，如公式(3)所示：

本组实验分别在测试集上选取100张含有小目标行人(100_small)、100张含有遮挡行人(100_blocked)以及全部车间行人测试数据集(all)上做了4组消融实验，结果如表4、表5所示：

表4漏检率统计

表5准确率统计

通过本组实验可以看出对SSD提取更浅层的Conv3_3输出特征图，漏检率在三种测试数据集上分别降低了1％、2％、0.4％，准确率分别提高了1.9％、4.2％、1.8％，在此基础上又相继添加了Rfm(Receptive field module)、Ffm(Feature fusion module)、Anchor(Anchor-object)等模块漏检率均有所降低、准确率有所提高，最终得到本发明方法，本发明方法相较于SSD方法在三种数据集上漏检率分别降低了8％、7％、3.6％，准确率分别提高了6.7％、8.8％、5.7％，由此可知本发明方法在实际车间环境下的检测效果是有提升的。

以上所述，是结合附图对本发明的方法进行的详细介绍，本文的具体实施方式只是用于帮助理解本发明的方法，对于本技术领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围内均可有所变更和修改，故本发明书不应理解为对本发明的限制。

Claims

1.一种基于SSD目标检测网络的小目标检测方法，通过特征增强的方式丰富小目标的特征信息，提高小目标的特征质量，特征增强的方式主要包括多尺度特征融合、学习具有大感受野的高分辨率特征、引入注意力机制，在目标检测网络中，检测器利用目标实际边界框(Ground truth)与Anchor之间的IOU作为分配Anchor的标准，每个被分配的Anchor独立的监督网络学习以进行分类与定位，分类与定位之间没有交互，如果一个Anchor的检测结果的定位精度较高但分类置信度较低，在经过NMS操作是就可能会被过滤掉，为解决这个问题提出Anchor-object匹配策略，从而提升模型对小目标的检测精度，具体过程包括如下步骤：

步骤1：提取更浅层的输出特征图；

步骤2：应用感受野模块；

步骤3：应用特征融合模块；

步骤4：设计Anchor-object匹配策略；

步骤5：构建改进的SSD目标检测方法；

步骤6：制作实验数据集；

步骤7：模型训练；

步骤8：模型测试。

2.根据权利要求1所述，提取更浅层的输出特征图，就是以原始SSD为基础，对SSD模型更浅层Conv3_3的输出特征图进行特征提取，来获得更多特征图的纹理、边缘的细节信息。

3.根据权利要求1所述，应用感受野模块，就是不同分支，应用卷积核大小不同的卷积层构成并行卷积结构，卷积层使用不同大小空洞率的卷积核来构成空洞卷积结构，应用并行卷积结构可以得到多尺度的特征信息，应用空洞卷积可以增加感受野，最后通过通道拼接各支路的卷积，将具有多尺度信息和不同感受野的特征图融合成一个感受野更大、尺度信息更丰富的特征图。

4.根据权利要求1所述，应用特征融合模块，就是把含有更多边缘、纹理等细节信息的浅层特征图与含有丰富语义信息的深层特征图融合成一个兼具浅层特征信息与深层特征信的特征图。

5.根据权利要求1所述，Anchor-object匹配策略，就是SSD目标检测网络的分类与定位检测器是对每一层输出特征图进行检测的，这也限制了联合分类与定位，为此联合多个输出特征图为每个目标构建了相应的Anchor包，在训练阶段，在SSD目标检测网络的基础上，添加Anchor选择模块和Anchor抑制模块，Anchor选择模块找出得分较高的Anchor从而最小化检测损失，而Anchor抑制模块通过扰动这些被选择的Anchor的特征，降低这些Anchor的置信度，再次增大检测损失，通过一种反复降低Anchor置信度的对抗的方式解决次优解的问题，在最终收敛的时候最大可能的找到最优解。

6.根据权利要求1所述，构建改进的SSD目标检测方法，就是以原始SSD为基础，对SSD模型更浅层的输出特征图进行特征提取，对SSD模型深层的输出特征图进行反卷积与浅层的输出特征图进行特征融合，在浅层输出特征图增加感受野模块，采用多分支的空洞卷积结构来获得更大的感受野和更具表达能力的特征，设计Anchor-object匹配策略联合分类与定位选择置信度分数较高的Anchor去更新模型。

7.根据权利要求1所述，制作VOC格式数据集，利用labelImg工具，对数据集中图片数据进行标注，产生XML文件，实验数据集来源于对大小为70G的车间监控视频截取的不同姿态、不同遮挡程度、不同目标大小的7462张图片，该数据集包含一个类别，即person。

8.根据权利要求1所述，模型训练，就是设置动量参数、初始学习率(learning_rate)、衰减系数、模型训练轮数，根据验证损失(val_loss)适当调整学习率的大小，根据验证损失得到最优秀的训练模型。

9.根据权利要求1所述，模型测试，就是利用实时车间视频流对模型进行测试，将按帧获取视频流的图片传入训练好的模型，模型对行人进行检测，输出行人的具体位置坐标和置信度。