CN112163530B

CN112163530B - 基于特征增强和样本选择的ssd小目标检测方法

Info

Publication number: CN112163530B
Application number: CN202011059872.7A
Authority: CN
Inventors: 孙俊; 刘志鹏; 吴豪; 吴小俊; 方伟; 陈祺东; 李超; 游琪; 冒钟杰
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-04-09
Anticipated expiration: 2040-09-30
Also published as: CN112163530A

Abstract

基于特征增强和样本选择的SSD小目标检测方法，属于目标检测技术领域。SSD对小目标的检测效果还有待提高，本申请提出了新的特征增强模块，更好地利用目标的周围信息，提升小目标的辨识能力。同时，本发明采用了最新的自适应训练样本选择算法替代原本SSD的样本选择方法，自适应地选择阈值。本发明采用了这两种方法改进SSD算法，显著地提升了小目标的检测效果。

Description

基于特征增强和样本选择的SSD小目标检测方法

技术领域

本发明属于目标检测技术领域。具体涉及一种基于特征增强和样本选择的SSD小目标检测方法。

背景技术

目标检测是计算机视觉领域的重要任务之一，在自动驾驶、医疗影像、智能交通等领域都有着广泛的应用，其包含两个子任务，一是对目标进行准确识别，二是对目标进行准确定位，为了更好地实现这两个子任务，越来越多的学者从事目标检测领域的研究工作，提取更优质的特征供计算机学习。

近年来，随着深度学习的快速发展，神经网络能够很好地提取出目标特征，基于卷积神经网络的目标检测方法已经成为目标检测领域研究的热点问题。通过深度学习方法获得的特征比传统的手工特征表达能力更强，效果更好。在深度学习的浪潮下，两大类目标检测算法应运而生。一阶段的检测算法，代表有SSD、DSSD、DSOD、RetinaNet、YOLO系列等；二阶段的检测算法，代表有Faster R-CNN、Cascade R-CNN等。一阶段检测算法有着速度优势，二阶段检测算法有着精度优势，二者各有千秋。

在目标检测任务中，存在一个难题就是对于小目标的检测，小目标本身所占的像素较少，其图像分辨率较低，携带的信息不足，可供学习的特征较少，最终导致模型对于小目标的特征表达能力较差。

发明内容

为了提升SSD对于小目标的检测结果，本发明提供一种基于特征增强和样本选择的SSD小目标检测方法。

本发明的技术方案：

基于特征增强和样本选择的SSD小目标检测方法，步骤如下：

步骤一、使用训练数据集进行训练。

步骤二、将图片大小设置为300x300，经过图像增强之后输入到SSD中。

步骤三、在原始SSD结构的基础上，在产生的六层特征图后，仅对前五层接入了特征增强模块FM；得到前五层特征图经过特征增强模块FM的输出，然后同最后一层特征图一起进行预测。特征增强模块FM能够联系上下文的信息，增大感受野，特征增强模块FM采用的卷积核的大小为3X3，特征增强模块FM在卷积之后使用BN对数据进行归一化，调整数据的分布，加速训练。特征增强模块FM使用了Mish函数作为激活函数，表达式如下：

g(z)＝z*tanh(z*ln(1+e^z)) (8)

其中，g(z)表示输出，z表示输入；

步骤四、对于步骤三处理后的特征图，使其生成默认框；

步骤五、将默认框与真实框进行匹配，采用自适应的训练样本选择策略(ATSS)进行正负样本选择，从而选择匹配的默认框，根据默认框的统计特征确定IOU阈值，自适应地为每个真实框确定阈值，以此来划分正样本和负样本；

自适应的训练样本选择策略(ATSS)的具体过程如下：

算法的输入有G、L、A_i、A、k。G表示图像中所有真实框的集合；L表示特征图的个数；A_i是第i个特征图默认框的集合；A是所有默认框的集合；k表示从每个特征图选择的默认框数量。算法的输出有P、N。P表示正样本；N表示负样本。

(1)为每一个真实框g，g∈G，产生一个空集合

(2)对于每一层特征图i，i∈[1,L]，以L2距离为依据从A_i选择k个中心距离g最近的默认框，挑选出来的默认框记为S，合并到C_g中，即C_g＝C_g∪S。

(3)计算C_g和g的IOU，记为D_g；

(4)计算D_g的均值，记为m_g；

(5)计算m_g的方差，记为v_g；

(6)对于每一个真实框g确定新的正例选择阈值，记为t_g，其中t_g＝m_g+v_g；

(7)对于每一个候选框o，o∈C_g，若其与真实框g的IOU大于阈值t_g并且中心在真实框g内部，则作为正例进行保留，记为P，其余的作为负样本，记为N，其中N＝A-P；

(8)返回正样本P，负样本N。

步骤六、将置信度大于0的默认框作为正例，其余的作为负例；采用难例挖掘算法，对正负样本按比例进行保留；

步骤七、送入SSD头部进行预测；

步骤八、计算位置损失和置信度损失，使用SGD优化器；

步骤九、反复迭代得到最终的权值文件；

步骤十、加载权值文件，在测试数据集进行测试。

进一步的，生成默认框的步骤如下：

不同尺度特征层的默认框，SSD有着不同的尺度比例设置，设有m个特征层，第n个特征层产生的默认框的比例如公式如下：

S_min表示最小尺度值，S_max表示最大尺度值，S_k表示第k层特征图产生的默认框和原图的比例，SSD长宽比选取α_r∈{1,2,3,1/2,1/3}，默认框的长宽计算公式如下：

每个特征图额外设置了一个尺度为长宽比为1的默认框。第一、四、五卷积层未使用长宽比为3和1/3的默认框，即特征图每个点产生四个默认框，第二、三、六卷积层使用上述所有长宽比，即特征图每个点产生六个默认框。

默认框中心点坐标为((i+0.5)/|f_k|，(j+0.5)/|f_k|)，|f_k|表示第k个特征图的尺寸大小，其中i,j∈[0,|f_k|)。

进一步的，默认框与真实框进行匹配的具体过程为：对于每个真实框，找到与其IOU最大的默认框，使该默认框与其匹配，保证每个真实框至少有一个默认框作为正样本；其次，对于剩余的未匹配的默认框，若该默认框与某个真实框的IOU大于阈值0.5，也将作为训练正样本。

进一步的，步骤八的损失函数为：

总体损失函数是位置损失和置信度损失的加权和，公式如下：

式中，N代表正样本数，x代表默认框和真实框的匹配信息，c代表类别置信度预测值，l代表预测位置信息，g代表真实框的位置信息，α代表权重系数。

位置损失的公式如下：

其中，Pos表示正例；cx表示中心点横坐标；cy表示中心点纵坐标；w表示默认框宽度；h表示默认框高度；表示第i个默认框与第j个真实框是否匹配，匹配值为1，不匹配值为0；/>表示第i个默认框；/>表示第j个真实框；

置信度损失的公式如下：

其中，表示第i个默认框与第j个真实框是否匹配，匹配值为1，不匹配值为0；/>表示背景类别；/>表示第i个默认框的类别分数。

本发明的有益效果：首先本发明提出了新的特征增强模块，此模块可以更好地学习小目标的周围信息，弥补小目标特征不足的缺陷；其次，本发明采用了新的正负样本选择策略，原始SSD对于正样本的阈值定义过于生硬，小目标对应的默认框数量原本就相对较少，这样经过硬性阈值过滤后，留存的小目标对应的正样本默认框数量将更少，会造成小目标的训练不充分，所以本发明采用了最新的自适应训练样本选择方法，针对于每一个目标选择合适阈值，以此阈值来进行样本选择。实验结果表明，本发明改进的SSD算法对于小目标检测效果提升明显，从PASCAL VOC2007测试集的结果来看，对于小目标bottle、pottedplant、chair的检测准确率均有明显的提高，并且提升了二十类目标的平均准确率。

附图说明

图1为FM模块网络结构。

图2为ReLU和Mish函数图像。

图3为SSD嵌入FM模块的网络结构。

图4为本发明算法与原文算法对比验证。

具体实施方式

SSD介绍：SSD作为一阶段检测器的代表，所有计算均封装在一个深度神经网络中，其在检测的速度和精度上均有较好的表现。SSD算法将边界框的输出空间离散成一组默认框，这些默认框具有不同尺度和长宽比。在预测时，SSD算法将默认框与真实框进行匹配，为默认框生成类别分数并对匹配的默认框进行回归，调整默认框的形状更好地匹配目标。

多尺度特征图：SSD算法使用的输入图像大小默认为300X300，使用的是VGG16作为主干网络进行特征提取，使用了六个尺度的特征图来进行多尺度预测，这六个特征图分别来自于卷积层4_3、卷积层6、卷积层7、卷积层8_2、卷积层9_2、卷积层11_2这六个卷积层的输出，特征图尺寸分别为38X38、19X19、10X10、5X5、3X3、1X1。低层特征分辨率高，细节信息比较充足，低层特征图上的点映射回原图所对应的感受野较小，常用于预测小目标；高层特征语义信息丰富，高层特征图上的点映射回原图所对应的感受野较大，常用于预测大目标。使用多尺度的特征图来分别进行预测的方法，可以更好地发挥低层特征和高层特征的优势，效果要好于单尺度特征图预测的方法。

默认框生成：不同尺度特征层的默认框，SSD有着不同的尺度比例设置，假设有m个特征层，第k个特征层产生的默认框的比例如公式如下：

S_min设置为0.2，S_max设置为0.9，S_k表示第k层特征图产生的默认框和原图的比例，m值设置为5，原因是SSD作者对第一个特征图的尺度比例进行了单独设置，将其设置为0.1，按此公式计算，得到特征图所对应的默认框尺度分别为30、60、111、162、213、264，SSD长宽比选取α_r∈{1,2,3,1/2,1/3}，默认框的长宽计算公式如下：

每个特征图额外设置了一个尺度为长宽比为1的默认框。卷积层4_3、卷积层9_2、卷积层11_2未使用长宽比为3和1/3的默认框，即特征图每个点产生四个默认框，卷积层6，卷积层7，卷积层8_2使用上述所有长宽比，即特征图每个点产生六个默认框。每个特征图产生的默认框的尺度和默认框的数量如表1所示。

表1各特征图默认框尺寸和数量

默认框与真实框匹配策略：首先，对于每个真实框，找到与其IOU最大的默认框，使该默认框与其匹配，保证每个真实框至少有一个默认框作为正样本；其次，对于剩余的未匹配的默认框，若该默认框与某个真实框的IOU大于阈值0.5，也将作为训练正样本。

损失函数：总体损失函数是位置损失和置信度损失的加权和，公式如下：

式中，N代表正样本数，x代表默认框和真实框的匹配信息，c代表类别置信度预测值，l代表预测位置信息，g代表真实框的位置信息。

位置损失的公式如下：

置信度损失的公式如下：

本发明改进的SSD算法：SSD采用了多尺度的特征图来预测不同尺度的目标，虽然实验效果较好，但是其对小目标的检测效果还有待提升。本发明从两方面进行了改进。第一点，提出了特征增强模块，通过充分学习小目标的边缘信息，补充小目标的特征，提高SSD检测器对于小目标的检测力。第二点，替换了SSD原始的默认框和真实框的匹配策略，采用了自适应正负样本选择策略，自适应地选择IOU阈值进行正负样本的判定，保证小目标的正样本框的数量。本发明改进的SSD算法，显著地提高了小目标的检测效果。

特征增强模块(Feature Module)：

目标的周围区域会为推断目标的内容提供一些有用的提示，例如道路和车轮就可以用来检测汽车，所以识别有用的上下文信息非常必要，本发明提出了特征增强模块，增加目标的有效感受野，联系目标的上下文信息，使目标的特征信息更加充足，特征增强模块结构如图1所示。

FM模块采用的卷积核大小为3，若卷积核为1则提取不到丰富的周围信息，若卷积核尺寸更大，则会增加大量的参数，增大计算成本，出于此考虑，最终确定了卷积核的大小为3X3。FM模块在卷积之后使用BatchNorm对数据进行归一化，调整数据的分布，加速训练。FM模块使用了Mish函数作为激活函数，ReLU在深度学习的激活函数中长期占有主导地位，基于此本发明对比了Mish函数和ReLU函数，Mish和ReLU的公式分别如公式(8)和公式(9)所示，二者的函数图像如图如图2所示，不难发现，ReLU对于负值直接置零，而Mish对于负值有更好的梯度流，所以本模块采用了Mish作为激活函数。

g(z)＝z*tanh(z*ln(1+e^z)) (8)

FM嵌入原始SSD的结构如图3所示。本发明在Conv4_3、Conv7、Conv8_2、Conv9_2这五层特征图之后接入了FM模块，得到这五层特征图经过FM模块的输出，然后同Conv11_2特征图一起进行预测。本发明只对前五层特征图使用了FM模块，而最后一层特征图未使用FM模块，原因在于最后一层特征图Conv_11特征图大小已经为1X1，不再适用FM模块中的3X3卷积。

自适应训练样本选择算法(Adaptive Training Sample Selective)：

原始SSD的框匹配策略，将产生的默认框和真实框进行IOU的计算，并设置阈值0.5，将IOU大于此阈值的默认框作为正样本保留下来，其余的默认框作为负样本，这样直接设置阈值来区分正负样本的方法过于暴力。

本发明借鉴了自适应的训练样本选择策略(ATSS)进行正负样本选择，可以根据默认框的统计特征确定IOU阈值，自适应地为每个真实框确定阈值，以此来划分正样本和负样本，此样本选择策略可以在不增加任何计算开销的情况下，提高SSD检测器的性能。ATSS算法如算法1所示。

算法1自适应正负样本选择算法(ATSS)：

步骤一、为每一个真实框g(g∈G)产生一个空集合

步骤二、对于每一层特征图i(i∈[1,L])，以L2距离为依据从A_i选择k个中心距离g最近的默认框，挑选出来的默认框记为S，合并到C_g中，即C_g＝C_g∪S。

步骤三、计算C_g和g的IOU，记为D_g；

步骤四、计算D_g的均值，记为m_g；

步骤五、计算m_g的方差，记为D_g；

步骤六、对于每一个真实框g确定新的正例选择阈值，记为t_g，其中t_g＝m_g+v_g；

步骤七、对于每一个候选框c(c∈C_g)，若其与真实框g的IOU大于阈值t_g并且中心在真实框g内部，则作为正例进行保留，记为P，其余的作为负样本，记为N，其中N＝A-P；

步骤八、返回正样本P，负样本N；

ASFF算法对k值选取不敏感，本发明在PASCAl VOC数据集进行实验，最终选取的k值为11，此时得到的结果较k取其它值效果略好。对于每个真实框，以L2距离为依据，从每个特征图上均选择k个中心距离真实框最近的默认框，若共有L层特征图，则对于每个真实框，会得到kL个候选框，然后计算这些候选框和真实框的IOU，计算候选框的均值、方差，将均值与方差的和作为此真实框的IOU阈值，对于IOU大于此阈值并且中心在真实框中的候选框作为此真实框的正样本，其余的作为负样本。

均值表示默认框与真实框的匹配程度，均值高表示真实框有很多高质量的候选框，应当提高阈值来筛选正样本；均值低则应当降低阈值来筛选正样本。标准差高，表示与该真实框匹配的高质量候选框集中于某一层特征图，将标准差加上阈值来过滤其他层的低质量的候选框，标准差低则表示多个层的候选框都适合该真实框，将阈值加上标准差来选择合适的层的候选框，均值和标准差结合作为IoU阈值能够很好地自动选择对应的特征层上合适的候选框。将IOU大于此阈值并且候选框中心在真实框中的候选框作为匹配该真实框的正样本。

实验结果：

本发明实验在PASCAL VOC数据集上进行，以Vgg16作为特征提取的主干网络，使用PASCAL VOC2007trainval和PASCAL VOC2012 trainval训练，使用PASCAL VOC2007 test进行测试。本次实验是在Linux系统环境下进行，使用的GPU型号为Tesla K80。

PASCAL VOC数据集介绍：

PASCAL VOC数据集是目标检测领域测评的权威数据集之一，其包括PASCAL VOC2007和PASCAL VOC 2012，包含四大类，二十个小类，如表2所示。Bottle、potted plant、chair是其中的小目标类，PASCAL VOC的评估指标是二十个类的mAP。

表2 VOC数据集类别

实验步骤：

实验中，加载Vgg16的预训练模型，训练本发明改进的SSD检测器，batchsize大小设置为32，在VOC2007和VOC2012训练集上进行训练，在VOC2007测试集上进行测试，除了本发明的两处改进，其它的超参数设置保持和SSD原文一致，然后和原SSD算法进行对比实验。

实验结果：

本发明改进的SSD算法，相较于原始SSD算法，在bottle、potted plant、chair这三类小目标上的检测效果提升明显，AP分别提升7.3％、2.3％、0.7％，这三类小目标的mAP提升3.4％，其余十七类大目标相对原始SSD算法mAP提升1.3％。总体二十类目标的mAP提升了1.6％，相较于原文的77.2％，本发明提升到了78.8％。实验结果充分证明了本发明改进的SSD算法对于小目标检测的有效性。每一类的AP如表3所示。

表3 PASCAL VOC2007测试集检测结果

实验结果验证：

为了验证本发明改进的SSD算法的有效性，本发明从网络上下载了一些含有小目标的图片，并与原始SSD算法进行了实验结果对比，如图4所示，为效果直观去除了类别标签及分数，同一幅图片左侧为原始SSD算法的检测结果，右侧为本发明改进的SSD算法的检测结果。

结论：本发明采用特征增强模块和自适应样本选择策略对SSD算法进行了改进，从VOC2007测试集的结果来看，本发明改进的SSD算法对于VOC中的小目标类检测效果提升明显；从结果验证的对比图片来看，相较于原始SSD算法，本发明算法很大程度地提升了小目标的检测率，但是也会存在漏检的小目标，这是本次实验的不足之处，本人在日后的研究工作中也会继续研究小目标检测这一难题。

Claims

1.基于特征增强和样本选择的SSD小目标检测方法，其特征在于，步骤如下：

步骤一、使用训练数据集进行训练；

步骤二、将图片大小设置为300x300，经过图像增强之后输入到SSD中；

步骤三、在原始SSD结构的基础上，在产生的六层特征图后，仅对前五层接入了特征增强模块FM；得到前五层特征图经过特征增强模块FM的输出，然后同最后一层特征图一起进行预测；特征增强模块FM能够联系上下文的信息，增大感受野，特征增强模块FM采用的卷积核的大小为3X3，特征增强模块FM在卷积之后使用BN对数据进行归一化，调整数据的分布，加速训练；特征增强模块FM使用了Mish函数作为激活函数，表达式如下：

g(z)＝z*tanh(z*ln(1+e^z)) (8)

其中，g(z)表示输出，z表示输入；

步骤四、对于步骤三处理后的特征图，使其生成默认框；

步骤五、将默认框与真实框进行匹配，采用自适应的训练样本选择策略ATSS进行正负样本选择，从而选择匹配的默认框，根据默认框的统计特征确定IOU阈值，自适应地为每个真实框确定阈值，以此来划分正样本和负样本；

自适应的训练样本选择策略ATSS的具体过程如下：

算法的输入有G、L、A_i、A、k；G表示图像中所有真实框的集合；L表示特征图的个数；A_i是第i个特征图默认框的集合；A是所有默认框的集合；k表示从每个特征图选择的默认框数量；算法的输出有P、N；P表示正样本；N表示负样本；

(1)为每一个真实框g，g∈G，产生一个空集合

(2)对于每一层特征图i，i∈[1,L]，以L2距离为依据从A_i选择k个中心距离g最近的默认框，挑选出来的默认框记为S，合并到C_g中，即C_g＝C_g∪S；

(3)计算C_g和g的IOU，记为D_g；

(4)计算D_g的均值，记为m_g；

(5)计算m_g的方差，记为v_g；

(8)返回正样本P，负样本N；

步骤七、送入SSD头部进行预测；

步骤八、计算位置损失和置信度损失，使用SGD优化器；

步骤九、反复迭代得到最终的权值文件；

步骤十、加载权值文件，在测试数据集进行测试。

2.根据权利要求1所述的基于特征增强和样本选择的SSD小目标检测方法，其特征在于，生成默认框的步骤如下：

每个特征图额外设置了一个尺度为长宽比为1的默认框；第一、四、五卷积层未使用长宽比为3和1/3的默认框，即特征图每个点产生四个默认框，第二、三、六卷积层使用上述所有长宽比，即特征图每个点产生六个默认框；

3.根据权利要求1或2所述的基于特征增强和样本选择的SSD小目标检测方法，其特征在于，默认框与真实框进行匹配的具体过程为：对于每个真实框，找到与其IOU最大的默认框，使该默认框与其匹配，保证每个真实框至少有一个默认框作为正样本；其次，对于剩余的未匹配的默认框，若该默认框与某个真实框的IOU大于阈值0.5，也将作为训练正样本。

4.根据权利要求1或2所述的基于特征增强和样本选择的SSD小目标检测方法，其特征在于，步骤八的损失函数为：

式中，N代表正样本数，x代表默认框和真实框的匹配信息，c代表类别置信度预测值，l代表预测位置信息，g代表真实框的位置信息，α代表权重系数；

位置损失的公式如下：

其中，Pos表示正例；cx表示中心点横坐标；cy表示中心点纵坐标；w表示默认框宽度；h表示默认框高度；表示第i个默认框与第j个真实框是否匹配，匹配值为1，不匹配值为0；表示第i个默认框；/>表示第j个真实框；

置信度损失的公式如下：

5.根据权利要求3所述的基于特征增强和样本选择的SSD小目标检测方法，其特征在于，步骤八的损失函数为：

位置损失的公式如下：

置信度损失的公式如下：