CN111860587A

CN111860587A - 一种用于图片小目标的检测方法

Info

Publication number: CN111860587A
Application number: CN202010537199.7A
Authority: CN
Inventors: 陈婷; 张亚南; 高涛; 李永会; 姚大春; 王松涛
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-30
Anticipated expiration: 2040-06-12
Also published as: CN111860587B

Abstract

本发明公开了一种用于图片小目标的检测方法，通过以待检测图片作为目标检测网络的输入，从待检测图片中获取六个不同尺寸的特征图，采用双线性插值法将六个不同尺寸的特征图中的金字塔的底层特征图与金字塔的高层特征图进行特征融合得到新的六个不同尺寸的特征图，考虑各尺度特征图之间的关系，使参与预测的特征图有更丰富的细节信息和语义信息，使用预先训练模型的默认设置对目标检测网络进行训练，并采用随机梯度下降算法对损失函数式进行优化训练，有利于模型的快速收敛，利用训练好的目标检测网络进行测试，对待检测的图像特征提取，能够有效提高图片小目标的检测精度和检测速度，可在完全满足实时性条件下有效提高小目标的检测精度。

Description

一种用于图片小目标的检测方法

技术领域

本发明属于目标检测领域，具体涉及一种用于图片小目标的检测方法。

背景技术

目标检测是计算机视觉领域的核心问题之一，是计算机视觉中一个重要的研究方向。随着计算机视觉的飞速发展，目标检测被广泛应用于智能交通、医学图像诊断、图像检索以及军事应用等领域。

传统的目标检测算法一般可以分为三个阶段：区域选择，特征提取，分类器分类。区域选择多采用滑动窗口的策略对整幅图像进行遍历，而窗口需要设置不同的尺度，不同的长宽比。这种穷举的策略虽然包含了目标所有可能出现的位置，但耗时过长，窗口冗余度高，花费成本高。由于目标的形态、背景、光照变化的多样性等因素使得设计一个鲁棒的特征非常困难，然而提取特征的好坏直接影响到分类的准确性，常用的图像特征有梯度方向直方图(Histogram of Oriented Gradients,HOG)、尺度不变特征转换(Scale InvariantFeature Transform,SIFT)等。常用的分类器有支持向量机(Support Vector Machine,SVM)、迭代器(AdaBoost)以及各种级联分类器。这些共同组成了丰富的目标检测算法。传统的目标检测算法存在很大的不足之处：1、基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；2、手工设计的特征对于多样性的变化没有很好的鲁棒性。因此，传统方法已经无法满足当前人们对于实时精度的要求，而卷积神经网络凭借着强大的计算能力，良好的检测效果和性能等特点迅速成为目标检测的发展新思路。

自2012年神经网络在ImageNet图像分类比赛中取得巨大成功后,整个学术界和工业界都在利用神经网络做目标检测的研究，使基于深度学习的目标检测逐渐应用于图像目标检测领域并不断取得重大突破。目前流行的算法可分为两类：基于候选区域的two-stage检测算法和基于回归的One-stage检测算法。Two-stage检测算法包括R-CNN(Region-CNN)，Fast R-CNN,Faster R-CNN等，该算法在特征图上对可能存在的目标的位置提取候选区域框，并对提取到的特征进行分类和位置回归。One-stage检测算法包括SSD、YOLO系列等。该算法去除候选区域这一步骤，直接以整张图片作为网络的输入，并在输出层回归边界框位置及其所属类别，实现了端到端的训练方式。虽然基于候选区域的two-stage检测算法的精度很高，但是其速度无法满足实时需求。而基于回归的One-stage检测算法的检测速度大大提升，但精度略低，尤其是针对小目标。SSD算法在一个网格中设置多个候选区域，并采用多尺度金字塔进行边界框提取，兼顾检测的准确率和速度。但由于SSD的检测模型只有底层的conv4_3用于检测小目标，不具有足够的语义信息，同时未考虑到不同尺寸特征图之间的关系，导致对小目标的检测性能较差，因此仍需要探索提高小目标的检测精度的新途径。

发明内容

本发明的目的在于提供一种用于图片小目标的检测方法，以克服现有技术的不足。

为达到上述目的，本发明采用如下技术方案：

一种用于图片小目标的检测方法，包括以下步骤：

步骤1)、构建用于图片小目标检测的目标检测网络，以待检测图片作为目标检测网络的输入，从待检测图片中获取六个不同尺寸的特征图，采用双线性插值法将六个不同尺寸的特征图中的金字塔的底层特征图与金字塔的高层特征图进行特征融合得到新的六个不同尺寸的特征图，以新的六个不同尺寸的特征图参与预测；

步骤2)、使用预先训练模型的默认设置对目标检测网络进行训练，并采用随机梯度下降算法对损失函数式进行优化训练，直至达到最大迭代次数，完成目标检测网络的训练；

步骤3)、利用训练好的目标检测网络进行测试，对待检测的图像特征提取，预测各目标的位置和类别，输出带有类别标记的图片。

进一步的，在特征融合时，利用1×1的卷积改变六个不同尺寸的特征图的通道数，将底层特征图与高层特征图以2：1的权重比例进行融合。

进一步的，将新的六个不同尺寸的特征图由金字塔的底层特征图至金字塔的高层特征图的先验框数目分别调整为9、6、6、6、4和4。

进一步的，取先验框尺寸相对原图片的比例的最大值和最小值分别为0.9和0.1。

进一步的，目标网络的损失函数为：

L(x,c,l,g)＝L_conf(x,c)+L_loc(x,c,g)+βL₂loss

其中，x表示默认框和预测框是否成功匹配；c表示置信度；l表示预测框的位置信息；g表示真实框的位置信息；L_conf(x,c)表示为分类损失函数，采用Softmax Loss1；L_loc(x,l,g)为位置损失，采用SmoothL₁；α为权值系数，用于调整Confidence Loss和LocationLoss之间的比例关系，本文设定为1；β为L₂正则化因子，此处取值0.1保证惩罚值与原损失相当。

定位损失函数表示为：

其中

当

时表示第i个先验框与第j个真实框相匹配，并且类别为k，否则为0；N_pos表示正样例集合；(cx,cy,w,h)分别表示边界框中心像素坐标以及宽高；

为编码后的真实框位置参数；

表示先验框的预测值；

表示平滑L₁范数，l表示预测框，g表示真实框，d表示先验框；

函数表示为：

分类损失函数为：

其中，i∈Pos和i∈Neg分别表示第i个正样本预测框和第i个负样本预测框。

进一步的，对目标检测网络进行训练的网络超参数为：动量参数为0.9，衰减系数为0.0005，最大迭代次数为120000次，批量大小为32，初始化学习率为η_lr＝0.001。

进一步的，学习率设置为：0到1k为10^-4，1K到80k为10^-3，80k到100k为10^-4，100k到120k为10^-5。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种用于图片小目标的检测方法，通过以待检测图片作为目标检测网络的输入，从待检测图片中获取六个不同尺寸的特征图，采用双线性插值法将六个不同尺寸的特征图中的金字塔的底层特征图与金字塔的高层特征图进行特征融合得到新的六个不同尺寸的特征图，考虑各尺度特征图之间的关系，使参与预测的特征图有更丰富的细节信息和语义信息，使用预先训练模型的默认设置对目标检测网络进行训练，并采用随机梯度下降算法对损失函数式进行优化训练，有利于模型的快速收敛，利用训练好的目标检测网络进行测试，对待检测的图像特征提取，能够有效提高图片小目标的检测精度和检测速度，从实验结果可以看出，本发明针对小目标检测具有较好的性能表现，可在完全满足实时性条件下有效提高小目标的检测精度。

进一步的，在特征融合时，利用卷积改变特征图的通道数，将底层与高层特征图以2：1的权重比例进行融合，使特征图中描述底层特征图的特征数增加，小目标的细节信息更加丰富。

进一步的，调整特征图上设置的先验框数目，以及先验框大小相对于图片的比例，使改进的网络模型更能适用于小目标的检测。

附图说明

图1为本发明实施例中检测方法流程图。

图2为本发明实施例中目标检测网络结构示意图。

图3为本发明实施例中采用现有方法与本申请方法分别对同样的图片进行目标检测示意图，图3a为采用现有方法对第一组图片检测结果示意图，图3b为采用本申请方法对第一组图片检测结果示意图，图3c为采用现有方法对第二组图片检测结果示意图，图3d为采用本申请方法对第二组图片检测结果示意图，图3e为采用现有方法对第三组图片检测结果示意图，图3f为采用本申请方法对第三组图片检测结果示意图，图3g为采用现有方法对第四组图片检测结果示意图，图3h为采用本申请方法对第四组图片检测结果示意图。

具体实施方式

下面对本发明做进一步详细描述：

一种用于图片小目标的检测方法，包括以下步骤：

步骤1)、构建用于图片小目标检测的目标检测网络，以待检测图片作为目标检测网络的输入，从待检测图片中获取六个不同尺寸的特征图，采用双线性插值法将六个不同尺寸的特征图中的金字塔的底层特征图与金字塔的高层特征图进行特征融合得到新的六个不同尺寸的特征图，采用新的六个不同尺寸的特征图参与预测，使参与预测的特征图有更丰富的细节信息和语义信息；

具体如图2所示，由于底层特征图的尺寸相对较大，而高层特征图的尺寸相对较小，要使得它们融合就必须进行采样，使底层特征图与高层特征图的尺寸相同。本文将Conv3_3生成的特征图采用max-pooling方法分别下采样大小为38×38和19×19的特征图，将大小为38×38的特征图与Conv4_3的特征图融合生成新的特征图，将生成的新的特征图直接参与预测；将大小为19×19的特征图与Conv7的特征图融合生成新的大小为19×19的特征图；将Conv8_2特征图尺寸大小为10×10通过bilinear上采样变成大小为19×19与新生成的Conv7融合，类似的方法将Conv8_2与Conv9_2、Conv9_2与Conv10_2、Conv10_2与Conv11_2进行融合，生成融合后新的特征图进行多尺度目标检测。

在特征融合时，利用1×1的卷积改变六个不同尺寸的特征图的通道数，将底层特征图与高层特征图以2：1的权重比例进行融合，使特征图中描述底层特征图的特征数增加，小目标的细节信息更加丰富。

如图2所示，本申请新融合后的，新特征图conv4_3、conv7、conv8_2、conv9_2、conv10_2、conv11_2作为检测所用特征图，共6个特征图，其尺寸大小分别是(38×38)、(19×19)、(10×10)、(5×5)、(3×3)和(1×1)，将新的六个不同尺寸的特征图由金字塔的底层特征图至金字塔的高层特征图的先验框数目分别调整为9、6、6、6、4和4。

先验框的尺度大小变化为线性变化，具体如下：

其中m指的特征图个数，S_k表示先验框尺寸相对原图片的比例,S_min和S_max表示比例的最小值与最大值。为了更好的检测小目标，本文将S_min和S_max的值调整为0.1和0.9，这样有效避免了由于目标过小导致在训练阶段真实标签无法找到相应的先验框与之匹配的问题，使改进的网络模型更能适用于小目标的检测。

步骤2)、使用预先训练的VGG16模型的默认设置对目标检测网络进行训练，并采用随机梯度下降算法(stochastic gradient descent，SGD)对损失函数式进行优化训练，直至达到最大迭代次数，完成目标检测网络的训练；

为了防止模型由于正负样本比例过大而不收敛以及增加网络层函数会造成过拟合的问题，建立目标网络的损失函数：

L(x,c,l,g)＝L_conf(x,c)+L_loc(x,c,g)+βL₂loss

定位损失函数表示为：

其中

当

为编码后的真实框位置参数；

表示先验框的预测值。

表示平滑L₁范数，l表示预测框，g表示真实框，d表示先验框。

函数表示为：

分类损失函数的定义如下：

具体对目标检测网络进行训练的网络超参数为：动量参数为0.9，衰减系数为0.0005，最大迭代次数为120000次，批量大小为32，初始化学习率为η_lr＝0.001；学习率设置为：0到1k为10^-4，1K到80k为10^-3，80k到100k为10^-4，100k到120k为10^-5。

具体的，将训练好的权重重新载入到重新激活中进行测试，重新激活输出带有标记的图像并计算20个类别的平均精确度，结果展示出该方法针对小目标检测具有较好的性能表现，可在完全满足实时性条件下有效提高小目标的检测精度。

本申请提出的一种用于图片小目标的检测方法，定义为PCF-SSD(ProportionalChannel Fusion-Single Shot MultiBox Detector)方法，实现了各层不同大小的特征图的融合。为了证明PCF-SSD方法能有效提高对小目标的检测精度，本文在PASCAL VOC数据集进行实验，在同一个数据集上PCF-SSD和SSD采用相同的数据增强策略。本文采用的数据增强(DataAugmentation)措施有水平翻转(horizontal flip)，随机裁剪(random crop)与颜色扭曲(color distortion)、随机采集块域(Randomly sample a patch)。

本文将通过目标检测领域标准的评价指标精确度和检测时间来衡量PCF-SSD的性能，其中精确度是通过平均精度(Average Precision,AP)和平均精度的均值mAP(meanAverage Precision,mAP)来共同衡量。

AP是针对某一种类别而言的，是一种综合的评价指标，AP值越高表明算法检测目标的精度和召回率越高，可以根据PR曲线与坐标轴所包围的面积近似地计算出来。某一类别的PR曲线与坐标轴所包围的面积越大，代表这一类别的AP值越高。PR曲线是精度(Prescision,P)关于召回率(Recall,R)的曲线。mAP是所有类别AP的均值，可以评价一个模型检测不同类别的整体性能。实验数据可通过以下公式计算得到：

其中，TP表示正样本被正确识别为正样本，FP表示即负样本被错误识别为正样本，FN表示正样本被错误识别为负样本。

FPS是指训练模型每秒检测传输的帧数，每秒钟帧数越多，说明该模型的检测速度越流畅。

Time代表检测每个图像所花费的时间。当帧速率在24以上时，可以认为模型基本是平滑的。

由于深度学习网络的训练以及运行会进行大量的运算，需要巨大的内存和处理能力。在本文的实验中使用的硬件配置为：联想30BGA0N400，Windows10操作系统，选用E3-1225的CPU，NVIDIA Quadro P4000的GPU显存为8G，深度学习框架为Tensorflow。

为了方便与其他目标检测方法进行有效对比，本发明将在公共数据集Pascal VOC实验。Pascal VOC是目前常用的图像公共库，包含20个对象类别，具有丰富的样本数量，特别是小样本数量，目前大部分的小目标检测算法都以该库作为测试库。这一数据库已成为目标检测领域测评的权威数据集，提供的是通用的目标检测问题，可以很好地评价模型的基础能力。由于随机初始化学习特征会增加模型训练的难度，因此本文使用预先训练的VGG16模型的默认设置来进行训练，并采用随机梯度下降算法(stochastic gradientdescent，SGD)对损失函数式进行优化，寻求最优解。通过一系列的调参实验后总结出了最适合本文模型训练的相关网络超参数，具体如表1所示。

表1 PCF-SSD模型训练的相关网络超参数

参数迭代方法	Momentum SGD
		Momentum	0.9
Max_iter	120000
		Learning rate decay	Polynomial_decay
Initial learning rate	1e-3
		Weight_decay	5e-4
Global_step	1000,80000,100000
		lr_decay_factors	0.1,1,0.1,0.01
Batch size	32

为了验证本文提出PCF-SSD算法的有效性，将通过实验得到PCF-SSD算法与目标检测的各优秀算法的对比数据。遵循大部分研究人员的做法，所有测试的算法都选取PASCALVOC2007trainval+PASCAL VOC2012trainval作为训练集，PASCAL VOC2007test作为测试集。PASCAL VOC数据集中共有20类目标，其中‘Boat’、‘Bottle’、‘Plant’、‘Chair’、‘Table’、‘Bird’、‘Sheep’、‘Tv’目标样本数量相对较少，并且尺寸也较小，导致对它们的检测性能较差。而平均精度是衡量算法的检测各类目标的整体性能，这些小目标的MAP很低，进而影响了算法的整体性能指标。因此，本文将通过计算20类目标的MAP以及小目标类别的MAP分别来评价改进模型PCF-SSD的检测性能，以下所有的测试结果均基于IOU＝0.5。

如图3所示，为现有SSD算法与本申请方法的4组检测对比图，从测试图的检测结果可以直观地看出：在输入同一图像分辨率的情况下，改进算法PCF-SSD能检测出更多的小目标，并且可以对图像中的目标进行较为准确的识别。

表2展示了现有SSD算法和本发明PCF-SSD方法的目标检出数对比情况，其中4组数据显示PCF-SSD方法的目标检出数均高于现有SSD算法，针对小目标的检出数也均多于原SSD算法。PCF-SSD方法的小目标检测性能优于原SSD算法。

表2SSD算法与PCF-SDD算法的目标检出数对比

为了证明本文提出的PCF-SSD算法可以在较小的训练数据集上实现良好的性能，本文在VOC2007和VOC2012训练数据集上训练了模型，并与其他的目标检测算法进行了比较。表3为不同目标检测算法在VOC 2007测试集上的实验结果，与基于区域的目标检测算法Fast R-CNN、Faster R-CNN(VGG)、Faster R-CNN(Residual-101)以及Fast R-CNN的改进模型ION的检测结果相比，PCF-SSD方法的平均检测精度分别高8.30％，5.1％，1.9％，2.7％，检测速度也体现了很大的优势。与基于回归的目标检测算YOLOv2相比，虽然检测速度略低，但平均检测精度提高了4.6％。原SSD模型的MAP为74.8％，PCF-SSD方法的MAP为78.3％，相比于现有SSD算法虽然在检测速度上损失了5fps，但检测精度提高了3.5％，该检测速度完全能满足实时性要求。实验结果验证了本文所提出的方法具有更高的识别率，本文的网络模型均优于其他现有的模型。

表3各算法在VOC2007测试集的结果对比

Method	Basic network	Input	Train	Test	MAP	Speed/fps
							Fast R-CNN	VGG16	224	VOC07+12	2007	70.0	0.5
Faster R-CNN	VGG16	448	VOC07+12	2007	73.2	7
							Faster R-CNN	ResNet-101	～600×1000	VOC07+12	2007	76.4	2.4
ION	VGG16	～600×1000	VOC07+12	2007	75.6	1.25
							YOLOv2	Darknet-19	352	VOC07+12	2007	73.7	81
DSSD	ResNet-101	321	VOC07+12	2007	78.6	9.5
							FPEF-SSD	VGG16	300	VOC07+12	2007	73.2	41
C-SSD	VGG16	300	VOC07+12	2007	78.2	40
							DFSSD	VGG16	300	VOC07+12	2007	78.0	39
SSD	VGG16	300	VOC07+12	2007	74.8	46
							PCF-SSD	VGG16	300	VOC07+12	2007	78.3	40

表4展示了各类优秀的目标检测算法在PascalVOC数据集中20个类别的检测精度。

表4 VOC2007测试集中各目标检测的平均准确率对比(MAP％)

表5将原SSD模型中检测精度低于75％的8个类别作为困难检测的小目标，表中显示了各检测算法对于8类难检测类别的检测精度，并计算出对于小目标的MAP，由结果可知PCF-SSD在小目标检测性能上由很大的提升，相比于原SSD模型提高了4.4％，就基于区域的目标检测算法而言，不论是在检测精度还是检测速度方面都存在很大的优势。相比于基于回归的one-stage算法YOLOv2，虽在检测速度上有所损失，但检测精度却远高于YOLOv2。本文与几种优秀的基于SSD算法改进的小目标检测算法做对比发现，就8类小目标的MAP而言，PCF-SSD算法均高于其他小目标检测算法。

表4 VOC2007测试集中小目标检测的平均准确率对比(MAP％)

本发明将深层次的具有抽象且丰富的语义信息的特征图与具有高分辨率和更多细节的浅层次特征按照一定的比例融合在一起，这使得融合后的特征图具有更丰富的语义和细节信息。同时调整了模型先验框的尺寸大小，使其更有利于小目标的检测性能的提升，最后采用了一种改进的损失函数对模型进行训练，有利于模型的快速收敛。实验结果表明，本发明在MAP方面有着显著的改善，尤其是针对小目标的MAP有明显的提升，检测速度也可以满足实时的需求。

以上所述的仅是本发明的优选实施方式，本发明不限于以上实施方式。本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种用于图片小目标的检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于图片小目标的检测方法，其特征在于，在特征融合时，利用1×1的卷积改变六个不同尺寸的特征图的通道数，将底层特征图与高层特征图以2：1的权重比例进行融合。

3.根据权利要求1所述的一种用于图片小目标的检测方法，其特征在于，将新的六个不同尺寸的特征图由金字塔的底层特征图至金字塔的高层特征图的先验框数目分别调整为9、6、6、6、4和4。

4.根据权利要求3所述的一种用于图片小目标的检测方法，其特征在于，取先验框尺寸相对原图片的比例的最大值和最小值分别为0.9和0.1。

5.根据权利要求1所述的一种用于图片小目标的检测方法，其特征在于，目标网络的损失函数为：

L(x,c,l,g)＝L_conf(x,c)+L_loc(x,c,g)+βL₂loss

其中，x表示默认框和预测框是否成功匹配；c表示置信度；l表示预测框的位置信息；g表示真实框的位置信息；L_conf(x,c)表示为分类损失函数，采用Softmax Loss1；L_loc(x,l,g)为位置损失，采用SmoothL₁；α为权值系数，用于调整Confidence Loss和Location Loss之间的比例关系，本文设定为1；β为L₂正则化因子，此处取值0.1保证惩罚值与原损失相当；

定位损失函数表示为：