CN111652288A

CN111652288A - 一种基于稠密特征金字塔的改进型ssd小目标检测方法

Info

Publication number: CN111652288A
Application number: CN202010393093.4A
Authority: CN
Inventors: 刘严羊硕; 张辉; 周斌; 郝梦茜; 丛龙剑; 靳松直; 王浩; 高琪; 杨柏胜; 倪少波; 田爱国; 邵俊伟; 李建伟; 张孝赫; 张连杰
Original assignee: Beijing Aerospace Automatic Control Research Institute
Current assignee: Beijing Aerospace Automatic Control Research Institute
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-11
Anticipated expiration: 2040-05-11
Also published as: CN111652288B

Abstract

本发明涉及一种基于稠密特征金字塔的改进型SSD小目标检测方法。为丰富浅层的特征信息和深层的细节信息，本发明利用一种稠密的特征金字塔网络结构对VGG16提取的特征信息进行强化融合；为增强复杂背景下小目标的检测能力，改善特征层对不同尺寸小目标的适应能力，本发明结合不同深度特征层感受野的特点，提出在同一特征层上增加预测框的部署密度以及在同一特征层上通过增加不同尺度大小的预测框，即PriorBox的数量和尺寸进行了相应的调整。

Description

一种基于稠密特征金字塔的改进型SSD小目标检测方法

技术领域

本发明涉及一种基于稠密特征金字塔的改进型SSD目标检测方法，属于基于深度学习目标检测领域。

背景技术

近年来，随着深度学习网络算法在目标检测领域的迅猛发展，人们逐渐尝试将这些算法逐步运用于一些复杂场景的小目标检测领域，以解决传统算法在该领域的问题，这得益于深度网络可以对目标进行多分辨率特征提取，根据特征层感受野的特点，在浅层中对较小目标进行检测，在深层中对较大目标进行检测。目前，较为主流的算法：1.基于图像金字塔特征提取的目标检测方法，该方法将图像下采样至不同分辨率后进行特征提取，再进目标检测，耗时较为严重；2.SPP-net、Fast-RCNN、Faster-RCNN采用最后一层特征进行目标检测，这些方法没有充分利用浅层高分辨率特征信息致使其对小目标检测效果不理想；3.SSD多分辨率检测，即在不同分辨率的特征层进行目标检测，该方法可有效提升小目标检测，但是由于各分辨率层间为独立检测结构，导致浅层丢失了部分语义信息，而深层丢失了部分细节信息；4.基于特征金字塔特征融合的目标检测方法，该方法利用特征金字塔自顶向下的路径和横向连接的方式有效地解决了特征层间信息融合的问题，但考虑到复杂背景下小目标检测时，特征金字塔难以区分一些与真正目标形状类似的干扰因素。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提出一种基于稠密特征金字塔的改进型SSD小目标检测方法。

本发明解决技术的方案是：一种基于稠密金字塔的改进型SSD小目标检测方法，该方法的步骤包括：

(1)构建图像数据集，生成训练集和测试集；

(2)构建基于稠密金字塔改进型SSD小目标检测网络，具体构建步骤如下：

(2.1)使用原始SSD网络作为基础进行修改，对SSD中作为基础网络VGG16网络进行截断处理，截断FC7层之后所有的网络；

(2.2)对截断后网络中的Conv3_3、Conv4_3，FC7层进行特征强化融合，获得融合特征层{F1、F2、F3}；

(2.3)遍历所述的融合特征层{F1，F2，F3}，对数据集中目标尺寸和宽高比进行kmeans聚类，根据聚类结果在每个融合特征层生成不同尺寸和宽高比的先验框PriorBox；

(3)利用所述的训练集训练所述的SSD小目标检测网络，记录训练过程中的网络权重；

(4)利用所述的测试集检测所述的SSD小目标检测网络；

(5)将步骤(3)中训练过程获得的网络权重，根据上述步骤(4)中检测结果，考虑准确率与召回率，选取满足要求的网络权重加载至网络中，用于实际应用完成小目标检测任务。

优选的，步骤(1)优选通过下述方式实现：

(1.1)获取大于1000张图像，标注图像内目标的真实框ground truth；

(1.2)对(1.1)中图像进行裁剪，获得预设大小的图像以及相应的标注文件，进而得到剪裁后的数据集；

(1.3)对(1.2)中剪裁后的数据集进行增广处理，将获得的图像和标注文件分别与(1.2)中获得图像和标注文件进行合并，生成最终的图像数据集；

(1.4)将(1.3)中获得的图像数据集按照9:1比例进行分割操作，获得训练集与测试集。

优选的，步骤(2.2)中的特征强化融合步骤如下：

首先，将自下而上排布的Conv3_3、Conv4_3，FC7层作为待融合特征层{C1、C2、C3}；

其次，通过对特征层水平方向增加卷积层、竖直方向通过增加上采样合并特征，最终获得更高分辨率的融合特征层{F1、F2、F3}。

优选的，通过下述方式生成先验框PriorBox：

遍历F1上所有像素点

分别以

和

为中心，按照高宽比为1和aspect_ratio_1生成PriorBox；

在F2层上生成两种尺寸的PriorBox，第一种尺寸为min_size_2＝m2，max_size_2＝n2，第二种尺寸为min_size_3＝m3，max_size_3＝n3；

遍历F2层上像素点

分别以

和

为中心，按照高宽比为1、aspect_ratio_2和aspect_ratio_3生成PriorBox；

在F3层上生成两种尺寸的PriorBox，第一种尺寸为min_size_2＝m4，max_size_2＝n4，第二种尺寸为min_size_3＝m5，max_size_3＝n5；

遍历F3层上像素点

分别以

和

为中心，按照高宽比为1、aspect_ratio_4和aspect_ratio_5生成PriorBox。

优选的，m1、n1、m2、n2、m3、n3、m4、n4、m5、n5、aspect_ratio_1、aspect_ratio_2和aspect_ratio_3、aspect_ratio_4和aspect_ratio_5使用kmeans算法对图像数据集拟合得到。

优选的，通过下述方式训练所述的SSD小目标检测网络：

(3.1)从所述训练集中随机抽取batch_size张图片作为随机小批量数据，同时作为基于稠密金字塔改进型SSD小目标检测网络的输入，并对所述目标检测网络进行前向计算，获得batch_size组输出；

(3.2)将(2.4)中生成的PriorBox进行正负样本分类；遍历(2.4)中生成的先验框PriorBox，将其与(3.1)中随机小批量数据中的真实框ground truth进行匹配，生成训练正负样本集；

(3.3)根据(3.1)中所获得batch_size组输出，生成每个PriorBox的置信度预测值和位置回归预测值；

(3.4)根据(3.2)中正负样本训练集和(3.3)中预测值计算损失函数，对整体网络反向传播求取损失函数的梯度，并沿梯度下降方向对整体网络进行权重更新；

(3.5)返回继续执行步骤(3.1)抽取不重复的图片，重复步骤(3.1)-(3.4)直至对整体数据集完成迭代；

(3.6)多次重复步骤(3.1)-(3.5)直至Loss值收敛，训练过程中按照预设的迭代间隔保存中间过程的网络权重。

优选的，所述的batch_size选取GPU数量的2ⁿ倍，所述的n在计算设备的计算能力范围内取最大值。

优选的，(3.2)中生成的正负样本的比例任意，优选为1：3。

优选的，通过下述方式检测所述的SSD小目标检测网络：

(4.1)将(1)中测试集图像输入至于稠密金字塔改进型SSD小目标检测网络进行前向计算，生成每个PriorBox的置信度预测值和位置回归预测值；

(4.2)根据(4.1)中每个PriorBox的置信度预测值计算其归一化置信度；

(4.3)根据设定的置信度阈值，若PriorBox的归一化置信度大于该阈值，则保留该PriorBox，否则舍弃；将保留的PriorBox从小到大排序，并按照预设的阈值保留排序靠前的PriorBox，其余的舍弃；

(4.4)对(4.3)中获得的PriorBox进行解码，获得PriorBox的中心点位置和大小，并根据相对位置关系，计算得到PriorBox的左上角点和右下角点；

(4.5)将(4.3)中获得的PriorBox进行非极大值抑制NMS，删掉多余的目标框，获得准确的目标框位置。

优选的，步骤(4.3)中保留前K个，其余的舍弃，K根据实际应用场景需求设置100-1000。

本发明与现有技术相比的有益效果是：

为丰富浅层的特征信息和深层的细节信息，本发明利用一种稠密的特征金字塔网络结构对VGG16提取的特征信息进行强化融合；为增强复杂背景下小目标的检测能力，改善特征层对不同尺寸小目标的适应能力，本发明结合不同深度特征层感受野的特点，提出在同一特征层上增加预测框的部署密度以及在同一特征层上通过增加不同尺度大小的预测框，即PriorBox的数量和尺寸进行了相应的调整。

针对现有算法在小目标检测时，浅层特征中丢失了部分的语义信息，导致算法对小目标检测效果不好的问题，本文提出一种基于稠密特征金字塔网络结构将语义信息较丰富的深层与细节较丰富的浅层紧密连接。有效地对各层特征信息进行强化融合，使检测小目标的浅层包含较丰富的语义特征信息，保证网络在检测小目标时获得较好的效果。

为增强复杂背景下小目标的检测能力，改善特征层对不同尺寸小目标的适应能力，本发明结合不同深度特征层感受野的特点，提出在同一特征层上增加PriorBox的部署密度以及在同一特征层上通过增加不同尺度大小的PriorBox。在感受野范围内，通过增加PriorBox部署密度，以提升PriorBox对复杂环境下小目标的预测能力；通过在同一特征层上通过增加不同尺度大小的PriorBox，细化PriorBox的尺寸选取范围，以解决同一特征层对尺寸多样性敏感的问题。

附图说明

图1为一种稠密特征金字塔网络结构；

图2为一种基于稠密特征金字塔改进型SSD小目标检测网络结构；

图3传统SSD算法与本发明提供方法对复杂环境下小目标检测结果对比。

具体实施方式

下面结合实施例对本发明作进一步阐述。

实施例

用自建数据集训练本发明改进的网络并进行小目标检测，具体流程如下：

步骤一：构建图像数据集。

1)从机载挂飞图像中选取3000张图像，用labelimg软件对这些图像进行标注，标注图像内目标的真实框ground truth，每张图像生成VOC标注格式的xml文件。同时，从公开的DOTA数据集中选取2000张图像以及相应的xml文件。将这5000张图像以及标注文件放入预处理文件夹下；

2)对1)中预处理文件夹下的图像和标注文件进行裁剪，获得大小为300×300的图像约12000张以及相应的标注文件；

3)对2)中剪裁后的数据集进行模糊、噪声、旋转等增广处理后，将获得的图像和标注文件分别与2)中获得图像和标注文件进行合并，生成最终的数据集；

4)将3)中获得的数据集进行分割操作，训练集与测试集中的图像比例为9:1；

5)将4)中训练集和测试集中图像转化为lmdb数据格式，用于输入网络进行训练。

步骤二：构建基于稠密特征金字塔改进型SSD小目标检测网络，如附图2所示：

2.1)使用网络输入为大小为300×300×3的原始SSD网络作为基础进行修改；

将原始SSD网络的基础网络VGG16截断FC7层之后所有的网络；选取大小为76×76的Conv3_3层、大小为38×38的Conv4_3层和大小为19×19的FC_7层作为待融合特征层{C1,C2,C3}，它们为自下而上的网络结构；

2.2)构建一种稠密特征金字塔，对2)中{C1,C2,C3}层进行强化融合。首先，对大小为19×19的C3层进行卷积核大小为1×1的卷积操作，形成大小为19×19的F3层；然后，对F3层进行两倍上采样后，与完成1×1卷积操作的C2层进行合并后生成大小为38×38的F2层。最后，分别对F2和F3层进行二倍上采样和四倍上采样后，与完成1×1卷积操作的C1层进行合并后生成大小76×76的F1层，上述方法可通过下列公式表达：

F₃＝Conv_1×1(C₃)

其中，F_i为C_i融合后的特征层，Conv_k×k(·)为卷积核大小为k×k的卷积操作。upsampling(F_i)表示临近融合特征层之间进行上采样，

表示将层与层合并操作。

2.3)遍历3)中形成的融合特征层{F1,F2,F3},对数据集中目标尺寸和宽高比进行kmeans聚类结果，在F1层上生成一种尺寸为min_size_1＝5,max_size_1＝10的PriorBox。遍历大小为76×76的F1层上所有像素点

这种尺寸的PriorBox分别以

和

为中心，按照高宽比为和1.1生成PriorBox，则F1层上共生成46208个PriorBox。随后，在F2层上需要生成两种尺寸的PriorBox，第一种尺寸为min_size_2＝8，max_size_2＝12.5，第二种尺寸为min_size_3＝15，max_size_3＝25。遍历大小为38×38的F2层上所有像素点

每种尺寸的PriorBox分别以

和

为中心，按照高宽比为1、1.25和2生成PriorBox，则F2层上共生成46208个PriorBox。最后，在F3层上生成一种尺寸为min_size_4＝20,max_size_4＝30的PriorBox。遍历大小为19×19的F3层上所有像素点

这种尺寸的PriorBox分别以

和

为中心，按照高宽比为1、2和2.5生成PriorBox，则F3层上共生成4332个PriorBox。

步骤三：训练基于稠密金字塔改进型SSD小目标检测网络

3.1从(1)中所述数据集中随机抽取GPU数量×8张图片作为随机小批量数据，同时作为基于稠密金字塔改进型SSD小目标检测网络的输入，并对网络进行前向计算，获得GPU数量×8组输出。

3.2)对2.4)中生成的PriorBox进行正负样本分类。首先，遍历2.4)中生成的PriorBox，将其与3.1)中所述随机小批量数据中标注的真实框groundtruth进行匹配，当IOU>0.5时，匹配成功并将PriorBox放入正样本候选集，将匹配不成功的PriorBox放入负样候选集本集。随后，采用难例挖掘的方式对正负样本集进行优化重组，使正负样本数量达到1:3。

3.3)根据3.1)中所获得batch_size组输出，获得每个PriorBox的置信度预测值和位置回归预测值。

3.4)根据3.2)中正负样本训练集和(3.3)中预测值计算损失函数，对网络反向传播求导后对网络权重沿梯度下降方向更新权重，主要设置参数：1.基础学习率base_lr为0.01；2.最大迭代次数max_iter为150000次；3.学习率衰减机制lr_policy为multistep，第一次衰减时训练次数stepvalue为50000，base_lr衰减为0.001，第二次衰减时训练次数stepvalue为100000，base_lr衰减为0.0001，训练过程中每1千次小迭代保存中间过程的权重；

3.5)返回继续执行步骤(3.1)抽取不重复的图片，直至对整体数据集完成迭代，并反复多次迭代直至Loss值收敛。

步骤四：基于稠密金字塔改进型SSD小目标检测网络测试

1)将训练网络部分的步骤4)中产生的PriorBox送入检测器，生成每个PriorBox的置信度预测值和位置回归预测值；

2)根据1)中每个PriorBox的置信度预测值计算其归一化置信度；

3)根据设定的置信度阈值，若PriorBox的归一化置信度大于该阈值，则保留该PriorBox，否则舍弃。将保留的PriorBox从小到大排序，最多保留前600个，其余的舍弃；

4)对3)中获得的PriorBox进行解码，获得PriorBox的中心点位置和大小，并根据相对位置关系，计算得到PriorBox的左上角点和右下角点；

5)将3)中获得的PriorBox进行非极大值抑制NMS。首先，选中3)中置信度最高的PriorBox，记为p_i，遍历所有剩余的PriorBox，记为p_j，计算p_i与p_j的交叠面积比(IOU)，若IOU>0.45，则舍弃p_j。完成遍历后，再从剩余PriorBox中选取置信度最高的一个，重复上述过程，直至所有PriorBox都被处理。

步骤五：基于稠密金字塔改进型SSD小目标检测网络的应用。

1)将步骤(3)中训练过程获得若干组权重，根据上述步骤(4)中检测结果结合P-R曲线，综合考虑准确率与召回率后，将步骤三中生成效果较好的网络权重加载至网络中，用于实际应用。

2)将待检测图像输入至网络中，执行步骤二中目标检测网络部分，获得准确的目标位置，如附图3所示。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

本发明未详细说明部分属于本领域技术人员的公知常识。