CN114078209A

CN114078209A - 一种提升小目标检测精度的轻量级目标检测方法

Info

Publication number: CN114078209A
Application number: CN202111253541.1A
Authority: CN
Inventors: 马瀚融; 谢良忱; 孙瑜; 薛雅丽
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-22

Abstract

本发明公开了一种提升小目标检测精度的轻量级目标检测方法，将EfficientDet模型中BiFPN结构改进为BmFPN，代替YOLOv5原有的PANet作为特征网络实现特征融合，加强了对底层特征信息的提取，对各层特征图加入权重机制。在损失函数中引入CIoU代替原GIoU，其中的长宽比影响因子使得目标框回归变得更加稳定，尤其当IoU为零时，损失函数更倾向于向重叠区域增多的方向优化。本发明网络结构尺寸小、检测速度快、精度高，完全满足实时性场景的要求，有非常高的实用价值。

Description

一种提升小目标检测精度的轻量级目标检测方法

技术领域

本发明涉及目标检测技术领域，尤其涉及一种提升小目标检测精度的轻量级目标检测方法。

背景技术

随着目标检测技术的迅猛发展，其应用遍布各行各业。遥感图像大多产生自飞机和卫星拍摄，其内可识别目标包括湖泊、森林、飞机、车辆、桥梁、建筑物等物体，其目标识别广泛的应用于农业产值测算、灾害监测、城市建设规划等领域。在军事战争中，各类目标的检测和定位可以将海量遥感数据快速转化为目标情报，有利于战场形势剖析、锁定攻击目标位置，进而可以制定精准且及时的军事行动。因此对于遥感图像中目标的实时检测对社会和经济发展具有重要的意义。在目标检测算法方面，YOLO作为one-stage算法的代表因为其实时性再各领域得到了很大程度的应用。初代YOLO算法由Joseph Redmon等人在2016年提出，该检测方法将生成候选区域这一阶段舍去，把特征提取、分类和回归放在一个卷积网络内，直接使用网络最顶层的特征图评估类别概率。在速度和精度上可以达到较高的平衡的YOLOv5算法由Glenn等人在2020年6月提出，该算法通过设置灵活的配置参数，得到不同复杂度的模型。其检测速度快、模型尺寸小等特点，使其可以在实时性高的场景需求下，完成在移动端的快速嵌入部署。其输入端采用了MixUP、CutMix等多图片融合、自适应图片缩放、DropBlock等模拟图片遮挡的数据增广算法。其主干网络部分先后共进行5次下采样，主要模块为Focus和CSP结构。其中Focus用来实现切片，在减少计算量的同时，最大程度的减少信息损失而进行的下采样操作；CSP结构分为两种：一种应用于Backbone主干网络提高卷积神经网络的学习能力，另一种则应用于Neck中加强网络特征融合。其Neck结构中引用了扩大感受野的SPP模块和增强多通道特征之间交流的PANet实现特征的跨层融合。

发明内容

本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷，提供一种提升小目标检测精度的轻量级目标检测方法。

本发明为解决上述技术问题采用以下技术方案：

一种提升小目标检测精度的轻量级目标检测方法，用特征网络BmFPN代替YOLOv5结构中的PANet作为特征网络实现特征融合、形成改进后的YOLOv5结构，并基于该改进后的YOLOv5结构进行目标检测；

所述特征网络BmFPN的输入层包含C3_in、C4_in、C5_in三层，中间层为C4-mid，输出层包含C3_out、C4_out、C5_out三层，其中：

C3_in、C4_in、C5_in的输入分别为YOLOv5模型主干网络的最后三次下采样特征图结果；

C4-mid是由C5_in经过两次上采样后和C4_in进行加权融合得到；

C3_out是由C4-mid进行两次上采样后和C3_in加权融合得到；

C4_out是由C4-mid、C4_in以及经过3*3卷积后的C3_out加权融合得到；

C5_out是由C5_in和经过3*3卷积后的C4_out加权融合得到。

作为本发明一种提升小目标检测精度的轻量级目标检测方法进一步的优化方案，在所述改进后的YOLOv5结构中，采用CIoU函数代替原有的GIoU函数作为损失函数。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明公开了一种提升复杂背景下小目标检测精度的轻量级目标检测方法，其中采用消融实验的方法，分析改进模块对算法性能提升的有效性。mAP@0.5指在IoU阈值为0.5情况下，对每类AP值求平均。mAP@0.5:0.95指取步长0.05，分别计算IoU阈值由0.5递增至0.95时各类的平均精度。BmFPN模块可以将mAP@0.5和mAP@0.5:0.95提高0.6-0.7，说明双向融合和权重的加入丰富特征图中小目标的特征信息，使网络计算出的特征图更能有效地表征物体。引入CIoU和BmFPN两个模块组合的检测效果最好，在mAP@0.5和mAP@0.5:0.95下分别提高0.9和0.7。

对比实验中比较了YOLO-BM、YOLOv5和YOLOv3模型在测试集上的检测速度和精度，YOLOv5模型中的最小尺度s模型检测速度最快，达到128.8fps；m模型牺牲了30％的检测速度，将检测精度提升了0.5个点；YOLOv3模型的精度虽高于s模型，但检测速度非常慢，只有6.3fps。本发明YOLO-BM模型在将检测精度提高了1个点的前提下，只比速度最快的s模型慢0.27ms，检测速度远高于其他算法。

附图说明

图1是本发明中BmFPN特征网络示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明可以以许多不同的形式实现，而不应当认为限于这里所述的实施例。相反，提供这些实施例以便使本公开透彻且完整，并且将向本领域技术人员充分表达本发明的范围。在附图中，为了清楚起见放大了组件。

本发明为了满足实时性要求，基于速度快、模型小的YOLOv5s结构进行改进。针对光学遥感图像的画幅大、尺度变化多样、目标尺度差异巨大、排列紧密等特性，引入BmFPN结构加强网络特征融合、降低网络的参数和计算量，并在最后的边框回归中引入CIoU损失函数。

对于大分辨率图像中的小目标检测，随着网络加深语义信息更加清晰，取而代之的是位置信息的缺失。如果将原始图像(如16000*16000)直接输入到检测网络，多次下采样后每格特征图的感受野较小(如YOLOv5主干网络进行5次下采样后，输入图像中32*32像素的目标也只有1*1大小)，当原始图像中目标的宽或高小于该阈值，网络很难学习到目标的特征信息，检出效果并不好。

YOLOv5中所借鉴了在图像分割领域表现出色的双向FPN结构PANet。其通过FPN结构自顶向下传达强语义信息，PANet自底向上传达强定位特征，让高阶特征输出中也有了低阶细节，相辅相成，将来自于不同主干层的特征对不同检测层进行参数聚合，进一步提高了网络的特征提取能力。

本发明公开了一种提升小目标检测精度的轻量级目标检测方法，用特征网络BmFPN代替YOLOv5结构中的PANet作为特征网络实现特征融合、形成改进后的YOLOv5结构，并基于该改进后的YOLOv5结构进行目标检测；

C4-mid是由C5_in经过两次上采样后和C4_in进行加权融合得到；

C3_out是由C4-mid进行两次上采样后和C3_in加权融合得到；

C5_out是由C5_in和经过3*3卷积后的C4_out加权融合得到。

本发明将EfficientDet模型中的BiFPN结构经过改进后形成特征网络BmFPN，并将特征网络BmFPN代替原有的PANet作为特征网络实现特征融合。与PANet相比,它移除了只有一个输入边的节点，增加了跨层链接,通过双向传播实现更高级的特征融合。特征网络BmFPN的结构如图1所示，可以理解为将注意力机制加入到特征融合路线中，在进程中为每个特征图分配适当的权重。如虚线框出的区域，

由网络在训练中自行学习到的权值{ω′₁，ω′₂，ω′₃}分别与三部分相乘后相加得到。

的计算公式为：

其中

为主干网络在第四层输出的80*80特征图，

为双向融合后生成的第三层输出。将对主干网络输出的

进行上采样后与

进行融合的结果进行卷积，并输入至残差结构、非线性激活和归一化等结构，可得

中间层：

传统方法中，不同分辨率特征图被调整到相同的分辨率，然后在融合时一视同仁的直接相加。但其实它们对最后输出特征的贡献是不同的，因此更合理的做法是本发明所用的加权平均融合。

YOLOv5使用BCEcls二分类交叉熵损失计算类概率、GIoU Loss和BEC Logits损失计算目标得分L_obj、GIoU Loss计算边框回归L_box。网络总损失为L＝L_obj+L_cls+L_box。

式中P与P^gt分为别预测框与真实框，Z为其最小外接矩形，可见GIoU的优化对象为两框之间的面积，可初步解决IoU为零的情况。其虽然能在一定程度上体现锚框的方向性差异，但当两框相交值相同时，无法反应具体的相交情况。

为了使目标框包裹预测框时也能完成快速稳定边框回归，本发明在损失中引入CIoU代替原损失函数GIoU。

式中

为平衡比例的参数；

用来衡量预测框与目标框间长宽比的拟合程度。长宽比影响因子αυ使得目标框回归变得更加稳定，尤其当IoU为零时，损失函数更倾向于向重叠区域增多的方向优化。

然后采用大规模数据集DOTA对算法进行评估，其内包含来自于不同传感器和平台所采集的2860张遥感图像。该数据集中15种常见目标由旋转框标注，特点是尺度变化多样、检测难度高。由于遥感图片分辨率跨度大，且有些高达上万像素，因此不应对图片直接缩放，需要对数据集进行切割。将含有小型车辆(SV)、大型车辆(LV)两类目标的图像作为原始图像，将其切割为640*640的子图像，并保证两张子图像间重叠区间为200像素。在裁剪过程中，只保留中心点在子图像内部的标注，并调整标注数值。处理后共得图像10621张，其中训练集58％(6152张)，验证集14％(1513张)，测试集28％(2956张)，两类目标各占约1/2。本文所用的小目标遥感数据集M-DOTA比COCO中小型目标比例更高，单幅图片目标多(平均每个图像的目标数为9.97)，且物体大多非中心分布，检测难度大。

以Ubuntu 18.04系统作为实验平台，对所设计的YOLO-BM网络结构进行验证，训练与测试中均使用两块GeForce RTX 2080SUPER作为图形处理单元(GPU)。验证采用的深度学习框架均为Pytorch，网络训练中使用SGD优化器，初始学习率设置为0.01，权重衰减系数为0.0005。网络中锚框均使用同一组，其由K-Means聚类算法得出，BPR为0.9981。

采取主要评价指标为召回率(Recall)、准确率(Precision)，其定义如下式：

其中TP为True Positive，FP为False Positive，判别条件为识别为正例的对象与Ground truth区域间的IoU是否大于规定的阈值。FN为False Negative，指遗漏未被检出的Ground truth区域。

一定程度上讲，准确率与召回率相互限制，因此通常采用能使二者达到均衡的

作为评估网络检测能力的标准。几何上讲，将Recall值作为横坐标，Precision值作为纵坐标作图得PRC曲线，AP则为其与坐标轴所围的积分面积。

为了验证本发明所提出算法改进的有效性，采用消融实验的方法分析改进模块对算法性能提升的有效性。表1展示了使用CIoU、GIoU做损失回归，和在Neck中使用FPN、PANet及本文设计的BmFPN特征融合网络对检测效果的对比。表中mAP@0.5指在IoU阈值为0.5情况下，对每类AP值求平均。mAP@0.5:0.95指取步长0.05，分别计算IoU阈值由0.5递增至0.95时各类的平均精度。

表1消融实验结果对比

表1显示本发明提出的BmFPN模块可以将mAP@0.5和mAP@0.5:0.95提高0.6～0.7，说明双向融合和权重的加入丰富特征图中小目标的特征信息，使网络计算出的特征图更能有效的表征物体。引入CIoU和BmFPN两个模块组合的检测效果最好，在mAP@0.5和mAP@0.5:0.95下分别提点0.9和0.7，该结果证明了本文所设计模型的合理性与优越性。

表2模型大小及参数量对比

Table2 Comparison of parameter quantity

如表2所示，BmFPN在提升性能的同时并没有大幅度增加模型大小及浮点计算量，依然保持了轻量级模型尺寸，便于在算力有限的场景下部署。

表3各算法检测精度与速度对比

Table3 Comparison of detection accuracy and speed of each algorithm

表3对比了YOLO-BM、YOLOv5和YOLOv3模型在测试集上的检测速度和精度，可以看到YOLOv5模型中的最小尺度s模型检测速度最快，达到128.8fps；m模型牺牲了30％的检测速度，将检测精度提升了0.5个点；YOLOv3模型的精度虽高于s模型，但检测速度非常慢，只有6.3fps。本文设计的YOLO-BM模型在将检测精度提高了1个点的前提下，只比速度最快的s模型慢0.27ms，检测速度远高于其他算法。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提升小目标检测精度的轻量级目标检测方法，其特征在于，用特征网络BmFPN代替YOLOv5结构中的PANet作为特征网络实现特征融合、形成改进后的YOLOv5结构，并基于该改进后的YOLOv5结构进行目标检测；

C4-mid是由C5_in经过两次上采样后和C4_in进行加权融合得到；

C3_out是由C4-mid进行两次上采样后和C3_in加权融合得到；

C5_out是由C5_in和经过3*3卷积后的C4_out加权融合得到。

2.根据权利要求1所述的提升小目标检测精度的轻量级目标检测方法，其特征在于，在所述改进后的YOLOv5结构中，采用CIoU函数代替原有的GIoU函数作为损失函数。