CN110826379A

CN110826379A - 一种基于特征复用与YOLOv3的目标检测方法

Info

Publication number: CN110826379A
Application number: CN201810918475.7A
Authority: CN
Inventors: 戴伟聪; 金龙旭; 李国宁
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2020-02-21
Anticipated expiration: 2038-08-13
Also published as: CN110826379B

Abstract

本发明实施例公开一种基于特征复用与YOLOv3的目标检测方法。本发明实施例所提供的基于YOLOv3的目标检测方法包括步骤：提出多个卷积层的小参数卷积神经网络；在提出的卷积神经网络上应用密集相连模块进行改进，并提出使用最大池化加强密集连接模块间的特征传递；针对目标为小目标的情况，提出将YOLOv3的3个尺度检测增加至4个并以密集相连融合不同尺度模块特征层的信息；在目标测试集上进行训练和测试。通过实验表明，本发明实施例所提供的基于YOLOv3的目标检测方法不仅具有很高的召回率，还能够平衡精确性和实时性的需求。

Description

一种基于特征复用与YOLOv3的目标检测方法

技术领域

本发明涉计算机视觉的技术领域，具体涉及一种基于特征复用与YOLOv3的目标检测方法。

背景技术

在军事领域中，遥感图像中飞机目标的检测有着重要的需求。针对遥感图像中的飞机的实时监测，在现代化战争中可以带来极大的优势。由于遥感图像中存在背景斑杂、光照变化等严重影响分类器性能的因素，在传统的机器学习框架中遥感图像中的飞机目标难以被准确高效的检测。

近几年来，基于深度学习的目标检测方法得到了很大的突破，其主要的方法可以分为两类。一类是基于区域推荐的目标检测方法，该方法的处理过程一般为首先使用区域推荐产生候选目标，随后使用卷积神经网络进行处理；具有代表性的方法有RCNN、FastRCNN、Faster RCNN、Mask RCNN等。该方法的精度较高，但是不能满足实时应用的需求。另一类是基于回归方法的目标检测算法，该方法的处理思想为将检测问题作为回归问题处理，直接预测目标位置与类别；具有代表性的算法有YOLO、SSD、YOLOv2、YOLOv3等。该类方法的速度快，但是相对而言精度偏低。

由于使用卷积神经网络提取的特征的泛化性远高于传统的人工特征，基于卷积神经网络的目标检测方法被迅速推广应用到各个领域，如图像分类、农业、自动驾驶、零件检测、军事领域等。薛月菊等人在YOLOv2-tiny的基础上，结合密集连接，提出了一种用于识别未成熟芒果的方法。王思雨等人基于LeNet5改进提出了一种基于卷积神经网络的合成孔径图像中的飞机目标检测方法。周敏等人设计了一个包含8种飞机的数据集和一个5层的卷积神经网络用于飞机分类，相对于传统的机器学习方法有很大的提高。

虽然目前针对遥感图像中的飞机目标检测有很多方法，但是上述方法无法较好地平衡实时性与精确性的需求。进一步地，基于YOLOv3-tiny的检测方法存在召回率低的问题，基于YOLOv3的检测方法存在参数量过大的问题。

因此，针对现有的针对遥感图像中飞机目标的检测方法所存在的问题，需要提供一种能够很好地平衡实时性需求和精确性需求且能同时解决召回率低和参数量过大的问题的一种基于特征复用与YOLOv3的目标检测方法。

发明内容

针对现有的遥感图像中飞机目标的检测方法所存在的问题，本发明实施例提出一种基于特征复用与YOLOv3的目标检测方法。该目标检测方法不仅能解决现有检测方法中的召回率低和参数量过大的问题，而且能够很好地平衡实时性需求和精确性需求。

该基于特征复用与YOLOv3的目标检测方法的具体方案如下：本发明实施例所提供的基于特征复用与YOLOv3的目标检测方法的包括步骤一：将所需进行识别的图像分为训练样本、测试样本和验证样本，读取训练样本的数据并采用聚类方法计算出多个锚点框；步骤二：搭建用于检测的卷积神经网络的网络结构Darknet49-Dense；步骤三：在网络结构Darknet49-Dense的基础上，应用YOLOv3并扩展多尺度的模块；步骤四：将训练样本缩放至预设大小，并将缩放后的训练样本放入步骤二所搭建的网络结构中进行训练，训练过程包括前向传播和反向传播，并且每隔预设次数迭代保存一次模型；步骤五：当损失下降到预设程度后，将验证样本缩放至预设大小并将缩放后的验证样本放入步骤五中所述的模型中进行验证，若验证样本的测试结果达到最优，则取当前模型为最优模型；步骤六：使用训练后的模型的参数对缩放后的测试样本进行检测，获得图像的检测结果和算法性能参数；采用最优模型对所需检测的图像进行检测，获得目标检测结果。

优选地，所述步骤四中所述的预设大小为416×416。

优选地，所述步骤一中采用K-means聚类法计算出12个锚点框。

优选地，所述网络结构Darknet49-Dense包括4个密集相连模块和3个过渡模块，所述每个密集相连模块之间具有一个所述的过渡模块，所述过渡模块用于将特征图的尺寸降低。

优选地，所述密集相连模块包括4个1×1卷积核和3×3卷积核；所述过渡模块包括一个1×1卷积核和一个步长为2的3×3卷积核，并且将其输出与步长为2的最大池化的输出拼接后，作为下一个密集模块的输入。

优选地，所述YOLOv3包括4个特征图尺度，所述4个特征图尺度为13×13，26×26,52×52,104×104。

优选地，步骤四的具体过程包括：采用的动量为0.9，使用随机梯度下降进行优化，初始学习率为lr＝0.001，衰减系数设置为0.005，前1000批次训练中采用学习率为learning_rate＝lr*(batch/1000)²以稳定网络，batch为当前的批次数，随后学习率为10^-3。

优选地，在步骤四训练过程中，每经10次训练就随机选择新的图片尺寸进行训练，所述图片的尺寸范围为从320×320到608×608。

优选地，所述前向传播具体为：输入样本从输入层进入网络，通过上一层的结点以及对应的连接权值进行加权和运算，在结果上加上一个偏置项，最后再通过激活函数得到的结果就是本层结点的输出，最终不断的通过这种方法逐层运算，得到输出层结果；如果输出层的实际输出与期望输出不同，则转至误差反向传播。

优选地，所述后向传播具体为：将误差按原路反向计算，在反向过程中通过链式法则将误差分摊给各层的各个单元，获得各层各单元的误差信号，使用梯度下降不停地调整各层神经元的权值，使损失减小到最低限度。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供一种基于特征复用与YOLOv3的目标检测方法通过设计和搭建一个卷积神经网络，解决了现有的YOLOv3-tiny目标检测方法的召回率低而YOLOv3目标检测方法的参数量过大的问题。进一步地，本发明实施例提供一种基于特征复用与YOLOv3的目标检测方法通过采用密集相连模块增强卷积神经网络层间连接，并通过密集模块间的最大池化进行下采样进一步加强密集神经网络区块间的连接，有效地解决了深度神经网络的退化问题，有效地增强了特征的复用。进一步地，本发明实施例提供一种基于特征复用与YOLOv3的目标检测方法通过将原有的YOLOv3中的3个尺度检测扩展为4个尺度检测，从而增大了检测遥感图像中的飞机小目标的准确率；其次参照密集神经网络，该方法对4个尺度的检测网络使用密集相连，从而提高YOLOv3的多尺度检测的准确率。

附图说明

图1为本发明实施例中提供的一种基于特征复用与YOLOv3的目标检测方法的流程示意图；

图2为图1所示实施例中尺度为13x13的单元格中的预测边界框示意图；

图3(a)为神经网络结构Darknet49的示意图；

图3(b)为神经网络结构Darknet49-Dense的示意图；

图4为图1所示实施例中的模块间密集连接的图解示意图；

图5为图1所示实施例中的密集相连的多尺度检测示意图；

图6(a)至图6(f)为本发明实施例所提供的目标检测方法(简称YOLOv3-air)与YOLOv3-tiny目标检测方法、YOLOv3目标检测方法在不同图像中的定性对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明实施例中提供的一种基于特征复用与YOLOv3的目标检测方法的流程示意图。在该实施例中，以在遥感图像中识别目标飞机为例，具体介绍基于特征复用与YOLOv3的目标检测方法的实施过程。如本领域技术人员所知，本发明实施例所提供的基于特征复用与YOLOv3的目标检测方法也可以用来在普通图像或视频中检测目标。

本发明实施例中所提供的一种基于特征复用与YOLOv3的目标检测方法包括六个步骤，具体的步骤内容如下所述。

步骤一：将所需进行识别的图像分为训练样本、测试样本和验证样本，读取训练样本的数据并采用聚类方法计算出多个锚点框。将目标飞机的标签定义为airplane。如图2所示，以目标飞机为实施例中尺度为13x13的单元格中的预测边界框示意图。在该实施例中，采用K-means聚类法计算出12个锚点框。以矩形框的交叠比(IOU)作为相似度对遥感飞机目标训练集的所有目标标注使用K-means聚类方法获得12个锚点框：分别为(12,16),(16,24),(21,32),(24,41),(24,51),(33,51),(28,62),(39,64),(35,74),(44,87),(53,105),(64,135)。每个尺度上对每个单元格检测3个锚点框。

步骤二：搭建用于检测的卷积神经网络的网络结构Darknet49-Dense。通过借鉴Darknet53并以保持准确度并减少参数量为出发点，提出一种参数数量较少、运算复杂度相对较低的卷积神经网络Darknet49作为特征提取网络。卷积神经网络Darknet49作为特征提取网络具体结构如图3(a)所示。在卷积神经网络Darknet49中，采用了数量较多的1X1卷积核以降低维数。由于低维度的卷积层使用非线性激活函数会一定程度上破坏图像信息，为了解决这个问题，进一步地，本发明实施例在第一个卷积层中采用线性激活函数。

本发明实施例提出一种密集相连增强的卷积神经网络Darknet49，并将所述密集相连版本定义为Darknet49-Dense网络结构。Darknet49-Dense网络结构包括4个密集相连模块和3个过渡模块，每个密集相连模块之间具有一个的过渡模块，所述过渡模块用于将特征图的尺寸降低。密集相连模块包括4个1x1卷积核和3x3卷积核；过渡模块包括一个1x1卷积核和一个步长为2的3x3卷积核，并且将其输出与步长为2的最大池化的输出拼接后，作为下一个密集模块的输入。上述描述的模块间密集连接的图解示意图，如图4所示。Darknet49-Dense网络结构的具体结构，如图3(b)所示。在该实施例中，Darknet49-Dense网络结构以这种方式使密集神经网络的模块间连接得到增强，减少跨模块间的特征传递损失和增强特征复用。

在密集模块中，第l层的输入为前l-1层的输出的串联拼接，具体表达式如公式1所示。

x_l＝H_l([x₀,x₁,……,x_l-1]) (公式1)

其中，H_l为激活函数、卷积层、批量归一化的复合函数。激活函数除了在第一层为线性函数外，在其余卷积层均为Leaky Relu，具体表达式如公式2所示。

步骤三：在网络结构Darknet49-Dense的基础上，应用YOLOv3并扩展多尺度的模块。本发明实施例对原始的YOLOv3中的尺度检测模块进行了改进，将原有的3个尺度检测扩展为4个尺度检测，从而，在较大特征图给小目标分配更为准确的锚点框。具体确定锚定框的过程，如步骤一中所述。

在该实施例中，聚类的距离函数的表达式如公式3所示：

d(box,centroid)＝1-IOU(box,centroid) (公式3)

随后借鉴Densenet的思想，在四个尺度检测的特征层上采样相应倍数后使用密集相连。尺度检测层的密集相连进一步融合了不同层次的特征，从而增强各个尺度特征层的语义信息。

如图5所示，本发明实施例中的密集相连的多尺度检测示意图。在图5中，2x表示步长为2的上采样,4x表示步长为4的上采样,8x表示步长为8的上采样。在四个尺度上总共预测43095个边界框。

步骤四：将训练样本缩放至预设大小，并将缩放后的训练样本放入步骤二所搭建的网络结构中进行训练，训练过程包括前向传播和反向传播，并且每隔预设次数迭代保存一次模型。在该实施例中，预设大小为416×416，单位为像素。在训练阶段，采用的动量为0.9，使用随机梯度下降进行优化，初始学习率为lr＝0.001，衰减系数设置为0.005，前1000批次训练中采用学习率为learning_rate＝lr*(batch/1000)²以稳定网络，batch为当前的批次数，随后学习率为10^-3。进一步地，通过调整饱和度、曝光量、色调来增加训练样本。

本发明实施例，采用多尺度训练策略，从而增强对不同尺寸图像的鲁棒性。具体的过程为：每经10次训练随机选择新的图片尺寸进行训练，图片尺寸为从320×320到608×608，间隔为32进行采样。

在该实施例中，训练神经网络时采用前向传播和后向传播。

前向传播的具体过程为：输入样本从输入层进入网络，通过上一层的结点以及对应的连接权值进行加权和运算，在结果上加上一个偏置项，最后再通过激活函数得到的结果就是本层结点的输出，最终不断的通过这种方法逐层运算，得到输出层结果。如果输出层的实际输出与期望输出不同，则转至误差反向传播。

反向传播的具体过程为：将误差按原路反向计算，在反向过程中通过链式法则将误差分摊给各层的各个单元，获得各层各单元的误差信号，使用梯度下降不停地调整各层神经元的权值，使损失减小到最低限度。

在上述训练的过程中，卷积神经网络会为每一个边界框预测4个坐标，分别是t_x,t_y,t_w,t_h，代表着坐标(x,y)与目标的宽w和高h。如果单元格相对于图像左上角有偏移(c_x,c_y)，并且之前的边界框具有高度p_w,p_h，则预测的边界框如下表达式所示：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

在训练的过程中，使用误差平方和作为损失。假设真实坐标为

则梯度可以通过最小化损失函数求得，梯度为真实坐标值减去预测坐标值：

步骤五：当损失下降到预设程度后，将验证样本缩放至预设大小并将缩放后的验证样本放入步骤五中所述的模型中进行验证，若验证样本的测试结果达到最优，则取当前模型为最优模型。在该实施例中，预设程度具体指损失下降的幅度开始变得缓慢，即损失随迭代次数变化的曲线变缓慢。在该实施例中，采用改进的YOLOv3对每个边界框使用逻辑回归预测一个物体的得分。如果预测的边界框与真实目标边界框的重叠率大于任何其他已知的边界框，则这个边界框的分数为1；如果边界框与真实边界框的重叠率大于预设阈值，但又不是最大的，则忽略这个边界框。在该实施例中，预设阈值设置为0.5。YOLOv3在训练过程中使用二元交叉熵损失和逻辑回归来进行类别预测，这种方式使得YOLOv3可以对一个目标进行多标签分类。前向传播和后向传播反复进行，直至损失变化不大。

步骤六：使用训练后的模型的参数对缩放后的测试样本进行检测，获得图像的检测结果和算法性能参数；采用最优模型对所需检测的图像进行检测，获得目标检测结果。如果是需要对遥感图像中的目标飞机进行识别，只需将遥感图像缩放至预设大小后，输入最优模型中即可获得检测结果。

本发明实施例所提供的基于特征复用与YOLOv3的目标检测方法通过设计和搭建一个卷积神经网络，解决了现有的YOLOv3-tiny目标检测方法的召回率低而YOLOv3目标检测方法的参数量过大的问题。进一步地，本发明实施例提供一种基于特征复用与YOLOv3的目标检测方法通过采用密集相连模块增强卷积神经网络层间连接，并通过密集模块间的最大池化进行下采样进一步加强密集神经网络区块间的连接，有效地解决了深度神经网络的退化问题。进一步地，本发明实施例提供一种基于特征复用与YOLOv3的目标检测方法通过将原有的YOLOv3中的3个尺度检测扩展为4个尺度检测，从而增大了检测遥感图像中的飞机小目标的准确率；其次参照密集神经网络，该方法对4个尺度的检测网络使用密集相连，从而提高YOLOv3的多尺度检测的准确率。

本发明实施例所提供的基于YOLOv3的目标检测方法具体的实现硬件环境可以为：在开源框架Darknet上实现，电脑配置为I7-8700 CPU 16G RAM 1070Ti，系统为Win10。在本发明实施例中，采用召回率R、精度P、F₁值、交叠比IOU与AP评价模型的性能。精度

召回率

F1分数为

其中TP为真正例，FP为假正例，FN为假负例。AP是平均精度，采用的是VOC2007中的标准，即从PR曲线中取召回率划分为(0,0.1,0.2,…,0.9,1)共11个等距区间后，求最大精度的平均值的求解表达式如公式4所示：

其中，

为召回率为满足

时的最大精度。

如图6所示，为本发明实施例所提供的目标检测方法(简称YOLOv3-air)与YOLOv3-tiny目标检测方法、YOLOv3目标检测方法在不同图像中的定性对比图。在图6中每行的第一列为YOLOv3-air的检测结果示意图，每行的第二列为YOLOv3-tiny的检测结果示意图，每行的第三列为YOLOv3的检测结果示意图。从图6(a)、6(b)、6(c)中可看出，仅有YOLOv3-air目标检测方法可以检测出所有的飞机目标；YOLOv3-tiny目标检测方法因为只有两个尺度检测，所以难以有效检测小目标；YOLOv3目标检测方法能检测出大部分的飞机目标，但对于极小的飞机目标也无法处理。从图6(d)、6(e)、6(f)可以看出，YOLOv3目标检测方法的泛化能力相对于YOLOv3-tiny目标检测方法和YOLOv3-air目标检测方法有一定的差距，无法处理外表剧烈变化的飞机目标，其主要原因是因为简单的卷积神经网络模型具有更好的泛化性，尤其是在数据集较小、数据复杂多变的情况下。本发明实施例提出的YOLOv3-air目标检测方法通过减少参数量和增加多尺度检测上结合了YOLOv3-tiny目标检测方法和YOLOv3目标检测方法的优点，在小目标检测与泛化性上表现优异，并且通过密集连接减少了数据不足的影响。

将本发明实施例提出的基于特征复用与YOLOv3的目标检测方法(简称YOLOv3-air)与YOLOv3、YOLOv3-tiny进行定量比较，性能参数的对比如表1所示。本发明实施例提出的基于YOLOv3的目标检测方法(简称YOLOv3-air)在140张的测试集中得到了精度96.26、召回率93.81％、平均精度89.31％，相对于YOLOv3-tiny分别提升了6％、13％、13％。YOLOv3-air的召回率和平均精度相对于YOLOv3-tiny有大幅提升是因为4个尺度检测可以准确检测大部分的小目标。YOLOv3在本实验中运行速度为33.2FPS,YOLOv3-tiny为215.2FPS，而YOLOv3-air为58.34FPS。

表1五种目标检测方法的性能参数比对表

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于特征复用与YOLOv3的目标检测方法，其特征在于，所述目标检测方法的步骤包括：

步骤一：将所需进行识别的图像分为训练样本、测试样本和验证样本，读取训练样本的数据并采用聚类方法计算出多个锚点框；

步骤二：搭建用于检测的卷积神经网络的网络结构Darknet49-Dense；

步骤三：在网络结构Darknet49-Dense的基础上，应用YOLOv3并扩展多尺度的模块；

步骤四：将训练样本缩放至预设大小，并将缩放后的训练样本放入步骤二所搭建的网络结构中进行训练，训练过程包括前向传播和反向传播，并且每隔预设次数迭代保存一次模型；

步骤五：当损失下降到预设程度后，将验证样本缩放至预设大小并将缩放后的验证样本放入步骤五中所述的模型中进行验证，若验证样本的测试结果达到最优，则取当前模型为最优模型；

步骤六：使用训练后的模型的参数对缩放后的测试样本进行检测，获得图像的检测结果和算法性能参数；采用最优模型对所需检测的图像进行检测，获得目标检测结果。

2.根据权利要求1所述的一种基于特征复用与YOLOv3的目标检测方法，其特征在于，所述步骤四中所述的预设大小为416×416。

3.根据权利要求1所述的一种基于特征复用与YOLOv3的目标检测方法，其特征在于，所述步骤一中采用K-means聚类法计算出12个锚点框。

4.根据权利要求1所述的一种基于特征复用与YOLOv3的目标检测方法，其特征在于，所述网络结构Darknet49-Dense包括4个密集相连模块和3个过渡模块，所述每个密集相连模块之间具有一个所述的过渡模块，所述过渡模块用于将特征图的尺寸降低。

5.根据权利要求4所述的一种基于特征复用与YOLOv3的目标检测方法，其特征在于，所述密集相连模块包括4个1×1卷积核和3×3卷积核；所述过渡模块包括一个1×1卷积核和一个步长为2的3×3卷积核，并且将其输出与步长为2的最大池化的输出拼接后，作为下一个密集模块的输入。

6.根据权利要求1所述的一种基于特征复用与YOLOv3的目标检测方法，其特征在于，所述YOLOv3包括4个特征图尺度，所述4个特征图尺度为13×13，26×26,52×52,104×104。

7.根据权利要求1所述的一种基于特征复用与YOLOv3的目标检测方法，其特征在于，步骤四的具体过程包括：采用的动量为0.9，使用随机梯度下降进行优化，初始学习率为lr＝0.001，衰减系数设置为0.005，前1000批次训练中采用学习率为learning_rate＝lr*(batch/1000)²以稳定网络，batch为当前的批次数，随后学习率为10^-3。

8.根据权利要求1所述的一种基于特征复用与YOLOv3的目标检测方法，其特征在于，步骤四训练过程中，每经10次训练就随机选择新的图片尺寸进行训练，所述图片的尺寸范围为从320×320到608×608。

9.根据权利要求1所述的一种基于特征复用与YOLOv3的目标检测方法，其特征在于，所述前向传播具体为：输入样本从输入层进入网络，通过上一层的结点以及对应的连接权值进行加权和运算，在结果上加上一个偏置项，最后再通过激活函数得到的结果就是本层结点的输出，最终不断的通过这种方法逐层运算，得到输出层结果；如果输出层的实际输出与期望输出不同，则转至误差反向传播。

10.根据权利要求1所述的一种基于特征复用与YOLOv3的目标检测方法，其特征在于，所述后向传播具体为：将误差按原路反向计算，在反向过程中通过链式法则将误差分摊给各层的各个单元，获得各层各单元的误差信号，使用梯度下降不停地调整各层神经元的权值，使损失减小到最低限度。