CN109886082A

CN109886082A - 一种基于ssd的小目标增强预测模块检测方法

Info

Publication number: CN109886082A
Application number: CN201910003211.3A
Authority: CN
Inventors: 韩静; 柏连发; 陈霄宇; 陈思瞳; 张毅
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2019-06-14

Abstract

本发明公开了一种基于SSD的小目标增强预测模块检测方法，包括以下步骤：步骤1：对检测目标进行拍照采样；步骤2：对检测目标进行特征重建；步骤3：对检测目标使用像素校准模块进行进一步优化。本发明增加了针对小目标检测的预测模块，降低其他层预测器的压力，并提升浅层特征来进行检测，提高了融合效率并增强了预测器的能力。

Description

一种基于SSD的小目标增强预测模块检测方法

技术领域

本发明属于目标检测领域，具体为一种基于SSD的小目标增强预测模块检测方法。

背景技术

神经网络的较深层的特征具有更好的分类和回归的性能，但是却丢失了空间细节，而这些细节是在检测小目标时必不可少的。现在通常有两种方法来检测小目标，一种是直接增大输入的图像的大小使目标更大，这会使得神经网络的节点的数量急剧增加；另一种方法利用是利用较低层的较大特征图像来选择较小的候选框，这会使计算量变小，但是浅层特征的表达能力较弱，效果较差。为了增强浅层特征，通常采用自上而下的特征重建，包括通过像素融合，如FPN和DSSD，以及不同层的特征结合，如Hypernet 和U-net。以上的两种方法都取得了成功，然而，却很难协调准确性和速度之间的平衡。像素的简单融合通常限制了特征表达的多样性，而太多层特征组合常常带来很多计算量和特征冗余。

基于神经网络的目标检测框架一般可分为两大类，单阶段的方法，如SSD，YOLO 和两阶段方法，如Faster-RCNN和RFCN。两阶段方法使用RPN(候选区提取网络)从背景中计算出候选框，这需要在第二阶段检测之前花费一些时间。单阶段的方法是直接在特征图上选出固定候选框，这减少了选择目标候选框的计算。SSD利用深度特征金字塔来检测多尺度对象，并将不同尺度的目标分配给特定预测器，从而降低每个预测器的压力，但是较低层的特征表达较弱，这限制了小目标检测器的性能。

发明内容

本发明目的在于针对小目标检测的预测模块，提供一种基于SSD的小目标增强预测模块检测方法，它可以降低其他层预测器的压力，并提升浅层特征来进行检测。

为达成上述目的，本发明所采用的技术方案如下：

一种基于SSD的小目标增强预测模块检测方法，包括以下步骤：

步骤1：对检测目标进行拍照采样；

步骤2：对检测目标进行特征重建；

步骤3：对检测目标使用像素校准模块进行进一步优化。

更进一步的，所述步骤1对检测目标进行拍照采样，具体为：采用无人机在距地面30米到200米的高度范围内进行拍摄，机载摄像机采用垂直向下的拍摄方式进行拍摄，拍摄完成后对拍摄的图像进行裁剪，设置裁剪后的目标图像面积分布在55*22到160* 150像素，设置目标图像的格式为JPG。

更进一步的，所述步骤2对检测目标进行特征重建，具体为：将主干网路网络通过ImageNet预训练模型进行微调，采用特征金子塔结构设置模块网络，将高层特征与浅层特征根据通道进行堆叠。

更进一步的，所述步骤3对检测目标使用像素校准模块进行进一步优化，具体为：使用卷积重新校准每个像素的特征，采用全局平均池构建明确的通道间相互关系模型，采用全连接层和Sigmoid激活函数对每个通道进行评分，并对特征进行校准，校准的输出公式为：

式中，和F_scale(u_c,s_c)表示通道u_cR^H×W和通道s_c的乘积；

将上式简化后可得：

式中，和F_scale(u⁽ⁿ⁾,s⁽ⁿ⁾)表示像素特征u_n和通道s_n之间的乘积；

最后使用通道分离卷积和1x1卷积层替代全局平均池和全连接层，并保留sigmoid激活函数。

与现有技术相比，本发明的有益效果为：

本发明克服了小目标检测准确度不精确的难题，增加了针对小目标检测的预测模块，它可以降低其他层预测器的压力，并提升浅层特征来进行检测，且提出了像素校准模块，提高了融合效率并增强了预测器的能力。

附图说明

图1为本发明检测网络结构示意图；

图2为本发明像素校准模块流程图；

图3为本发明目标面积对算法的影响图；

图4为本发明实施例模型SSD300、模型SSD512和模型SSD300+P3的其他因素影响对比图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的描述。

(一)数据集

采用航拍车辆数据集NJVAD和VOC2007公共数据集上训练模型，来验证增强预测的模块有效；NJVAD的图像由无人机在距地面30米到200米的高度范围内拍摄，每个标记的图像均为原始图像中裁剪出来的图像，其中图像中目标面积分布在55*22到160 *150像素。图像为机载摄像机垂直向下拍摄。NJVAD数据集包含7570个标记图像，分辨率为600*600和900*900像素，格式为JPG。NJVAD是一类检测任务，这一类目标包括轿车，公共汽车，皮卡和卡车。数据集中的每个车辆均为手工标记。同时， VOC2007公共数据集中，训练集包括5011张图片，测试集包括4952张图片，共分为 21类。

(二)训练策略

在一块Nvidia GeForce 1080ti GPU显卡上进行端到端训练，使用SGD优化策略，设置初始学习率为10-3，重量衰减为0.0005，动量为0.9，批量大小为32。主干网络的预训练模型为ImageNet上的分类模型，在此基础上对检测网络进行调优。

我们的框架基于SSD[1]结构，其中主干网路网络通过ImageNet预训练模型进行微调，模块网络采用特征金子塔结构。

为了将浅层特征用于小目标检测，我们将高层特征与浅层特征根据通道堆叠。通过相邻层的通道堆叠来增加浅层特征的信息量，实现特征增强，如图1。

一般来说，特征维度过高会带来计算负担，但合理的维度可以提高预测的性能。我们比较了不同层数的连接效果以找出最佳特征维度。然后我们使用像素校准模块来优化功能。

采用像素校准(PR)模块来提升堆叠特征，如图2所示，使用卷积重新校准每个像素的特征。

为了构建明确的通道间相互关系模型，采用全局平均池，全连接层和Sigmoid激活函数对每个通道进行评分，并对特征进行校准，校准的输出通过以下公式计算：

式中，和F_scale(u_c,s_c)表示通道u_cR^H×W和通道s_c的乘积；

将上式简化后可得：

式中，和F_scale(u⁽ⁿ⁾,s⁽ⁿ⁾)表示像素特征u_n和通道s_n之间的乘积；最后使用通道分离卷积和1x1卷积层替代全局平均池和全连接层，并保留sigmoid激活函数。

(三)实验结果

各种算法在NJAVD数据集上的实验结果如表1所示。

方法	输入尺寸	mAP	帧率	候选框数
					FPN(Resnet-50)	224	89.09	35	5000
YOLO v3	224	86.8	78	9261
					DSSD(Resnet-50)	300	88.28	28	8732
SSD(slim VGG13)	224	84.08	112	24564
					SSD(slim VGG13)+PR3(2)	224	87.85	108	31232
SSD(slim VGG13)+PR3(3)	224	87.97	94	31232
					SSD(VGG16)	300	85.02	53	8732
SSD(VGG16)	512	88.56	24	8732
					SSD(VGG16)+PR3(2)	300	88.91	48	31232

表1

为了更好地体现PR模块的优势，在NJVAD上运行不同配置的SSD，并在表2中记录它们的mAP。当逐渐改进来重构层时，mAP会增加，如表2所示。

方法	mAP
		slim-SSD	84.08
slim-SSD+cat3+conv	87.35
		slim-SSD+cat3+senet	87.54
slim-SSD+cat3+PR3(2)	87.85
		slim-SSD+cat3+PR3(2)	88.91

表2

同时，在VOC2007公共数据集上进行模型的训练和测试，使用检测分析工具分析不同区域和不同类别的对象的结果。图3显示了SSD300，SSD512和SSD300+P3在不同面积的目标检测上的比较结果。得益于新加的模块，可得出改方法在小目标的检测性能上接近SSD512，并且优于SSD300。

图4显示了不同因素对算法的影响。与SSD300相比，SSD+P3的平均得分高于SSD300，尤其在尺寸因素上。其他因素的分数，包括遮挡，侧面和局部也略有增加，这表明PR模块提高了探测器对小物体进行检测的性能，也减轻了其他因素的影响。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于SSD的小目标增强预测模块检测方法，其特征在于，包括以下步骤：

步骤1：对检测目标进行拍照采样；

步骤2：对检测目标进行特征重建；

步骤3：对检测目标使用像素校准模块进行进一步优化。

2.根据权利要求1所述的一种基于SSD的小目标增强预测模块检测方法，其特征在于，所述步骤1对检测目标进行拍照采样，具体为：采用无人机在距地面30米到200米的高度范围内进行拍摄，机载摄像机采用垂直向下的拍摄方式进行拍摄，拍摄完成后对拍摄的图像进行裁剪，设置裁剪后的目标图像面积分布在55*22到160*150像素，设置目标图像的格式为JPG。

3.根据权利要求1所述的一种基于SSD的小目标增强预测模块检测方法，其特征在于，所述步骤2对检测目标进行特征重建，具体为：将主干网路网络通过ImageNet预训练模型进行微调，采用特征金子塔结构设置模块网络，将高层特征与浅层特征根据通道进行堆叠。

4.根据权利要求1所述的一种基于SSD的小目标增强预测模块检测方法，其特征在于，所述步骤3对检测目标使用像素校准模块进行进一步优化，具体为：使用卷积重新校准每个像素的特征，采用全局平均池构建明确的通道间相互关系模型，采用全连接层和Sigmoid激活函数对每个通道进行评分，并对特征进行校准，校准的输出公式为：

式中，和F_scale(u_c,s_c)表示通道u_cR^H×W和通道s_c的乘积；

将上式简化后可得：