CN115100547A

CN115100547A - 基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法

Info

Publication number: CN115100547A
Application number: CN202210540657.1A
Authority: CN
Inventors: 王玲; 韩卓育; 王鹏; 白燕娥; 邱宁佳; 杨迪
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-09-23
Anticipated expiration: 2042-05-17

Abstract

本发明公开了一种基于ASPP‑YOLOv4多尺度融合的无人机图像目标检测方法，首先，建立基于ASPP‑YOLOv4多尺度融合的无人机图像目标检测模型的具体操作包括以下步骤，建立YOLOv4网络结构；然后将改进的SENet网络嵌入到YOLOv4网络结构中主干特征提取网络CSPDarknet53的每个CSP残差块中；接着，在第一个CSP残差块和第二个CSP残差块后分别输出分辨率为208*208以及104*104的特征图，利用改进的ASPP下采样降维后融入到特征金字塔网络PANet中，得到基于ASPP‑YOLOv4多尺度融合的无人机图像目标检测模型；利用该无人机图像检测模型即可对无人机图像中的小目标进行检测。本发明中基于ASPP‑YOLOv4检测方法显著地提升了小目标的检测精度，同时降低了漏检以及误检的概率。

Description

基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法

技术领域

本发明涉及无人机图像处理技术领域，尤其涉及基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法。

背景技术

无人机航拍视频图像中的小目标检测在航空图像分析、智能视频监控、光学遥感等方面有着广泛的应用。该图像分辨率高、视野大、目标场景变化剧烈、小目标数量众多、并且拍摄过程中存在抖动现象。现在主流的目标检测算法存在对小目标检测精度低且漏检率高的问题，很难达到实时应用的要求，因此，提高无人机航拍视频图像的小目标检测精度已成为目标检测领域亟待攻克的难点之一。

Chen等提出了ASPP网络模块，将不同空洞率的空洞卷积特征结合到一起，充分利用上下文信息；Xue等提出了多模态注意力融合YOLO的实时行人检测方法，从两种模态提取特征后通过模态加权融合模块进行融合，来增加更多的空间信息；Liu等在YOLOv3的基础上，通过连接两个具有相同宽度和高度的ResNet单元来优化残差块，以此来扩大感受野，提升对小目标检测的性能；贺文锐提出改进的通道注意力机制来突出细粒度信息，抑制无效的背景特征；Cheng等采用图像双分割和双线性上采样网络代替YOLOv3网络架构中的下采样卷积网络，增强了小物体检测的特征通道；Shi等对YOLOv3的残差模块进行了优化，改进了预测尺度模块和损失函数，提高了水下小目标的检测精度；候瑞环等在YOLOv4的PANet网络上增加跳跃连接与多方向的跨尺度连接相结合的特征融合方式，来获取更多的语义信息；Fu等在YOLOv4的PANet网络中加入CBAM注意力机制，增加有用特征权重的同时抑制无效特征的权重，提高检测精度；侯涛等使用DenseNet加强对飞机目标的特征提取，去除了用于检测大目标的特征层，减少语义丢失；Li等使用具有残差连接的卷积神经网络来提取图像特征并构建特征金字塔，将上层语义信息丰富的特征图与下层物体位置信息丰富的层融合，以提高网络对小物体检测的性能；张为等在YOLOv3的Darknet53主干网络中嵌入空洞卷积模块，在扩大感受野的同时保证不丢失特征图的分辨率；Zhang等通过将高分辨率图像进行变换，使其更接近低分辨率目标的特征分布，有效避免了过度拟合；Lv等在YOLOv3的主干特征提取网络中构建特征金字塔，并且加入注意机制来关注重要的信息特征。

上述现有的无人机图像中小目标检测的方法虽然从不同角度提高了无人机航拍视频图像的小目标检测精度，但是检测精度都还有待进一步提升，且在提升检测速度和准确率、降低漏检率方面也还有待提高。

发明内容

针对上述存在的问题，本发明旨在提供一种基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，可对无人机图像中的小目标进行快速检测，且检测精度高，漏检率低。

为了实现上述目的，本发明所采用的技术方案如下：

基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，其特征在于，包括以下步骤，

S1：建立基于ASPP-YOLOv4多尺度融合的无人机图像目标检测模型；

S2：将无人机图像尺寸调整为416*416，输入到步骤S1中建立的无人机图像目标检测模型中，对无人机图像中的目标进行检测。

进一步的，步骤S1的具体操作包括以下步骤，

S101：建立YOLOv4网络结构，所述YOLOv4网络结构包括主干特征提取网络CSPDarknet53、特征金字塔网络PANet和YOLO Head检测头；所述主干特征提取网络CSPDarknet53包括CBM卷积模块与五个CSP残差块；

S102：将改进的SENet网络嵌入到每个CSP残差块中；

S103：在主干特征提取网络CSPDarknet53中的第一个CSP残差块和第二个CSP残差块后分别输出分辨率为208*208以及104*104的特征图，经过下采样降维后融入到特征金字塔网络PANet中，得到基于ASPP-YOLOv4多尺度融合的无人机图像目标检测模型。

进一步的，步骤S101中所述的主干特征提取网络CSPDarknet53中，每个所述CSP残差块有两条残差特征融合通道，一条通道经过CBM和m个Resunit残差堆叠处理，另一条通道直接经过CBM处理，最后两条通道再进行融合；经过五个CSP残差块处理后得到的特征图再经过SPP，利用不同尺度的最大池化进行处理。

进一步的，步骤S102的具体操作包括以下步骤：在每个CSP残差块的两条残差特征融合通道后加入改进的SENet网络；

所述改进的SENet网络包括聚合掩码模块、全局平均池化层、两个全连接层、ReLU激活函数和Simmod激活函数，所述聚合掩码模块特征图更关注前景并抑制背景特征。

进一步的，所述聚合掩码模块特征图更关注前景并抑制背景特征的具体操作包括以下步骤，

S1021：将特征图在通道维度上相加得到聚合图；

S1022：计算聚合图的平均值avg，将聚合图中激活值A_i,j大于平均值avg的位置设置为1，小于平均值的位置设置为0；

S1023：最将得到的掩码图扩展为原特征图大小，与原特征图进行加权相乘，得到经聚合掩码模块后的特征图。

进一步的，步骤S103中下采样使用改进的并联空洞卷积ASPP网络进行下采样，所述改进的并联空洞卷积ASPP网络包括一个平均池化模块和2个1*1的普通卷积以及3个空洞率为2,3,4的空洞卷积。

进一步的，步骤S2的具体操作包括以下步骤，

S201：将无人机图像尺寸调整为416*416，输入到步骤S1中建立的无人机图像目标检测模型的主干特征提取网络CSPDarknet53中进行特征提取；

S202：步骤S201中提取的特征图经过特征金字塔网络PANet进行聚合，叠加多尺度的目标特征；

S203：YOLO Head检测头采用预测加回归的思想，对不同大小的特征图进行预测，从而对不同目标进行检测。

本发明的有益效果是：

本发明中ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，针对无人机视频图像背景复杂、小目标数量多、漏检错检率高的问题，首先，加入改进的注意力机制来加强关注小目标信息的能力；其次，增加一个检测头并与主干网络的特征图进行融合来获取小目标的语义信息；同时使用改进的ASPP网络代替普通卷积块进行下采样以增大感受野，减少信息丢失。实验结果表明，本发明中基于ASPP-YOLOv4检测方法的mAP较YOLOv4提升了3.82％，显著地提升了小目标的检测精度，同时降低了漏检以及误检的概率。

附图说明

图1为本发明中YOLOv4网络结构示意图。

图2为本发明YOLOv4网络结构中CSP残差块结构示意图。

图3为本发明YOLOv4网络结构中SPP结构示意图。

图4为本发明中改进后的CSP残差块结构示意图。

图5为本发明中改进的SENet网络结构示意图。

图6为本发明中加入改进的ASPP模块的PANet网络结构示意图。

图7为本发明中空洞率分别等于2,3,4的空洞卷积结构示意图。

图8为本发明中改进的ASPP模块网络结构示意图。

图9为本发明仿真实验中不同小目标检测算法的mAP变化过程对比图。

图10为本发明仿真实验中YOLOv4算法和ASPP-YOLOv4算法在密集人群中的检测结果对比图。

图11为本发明仿真实验中YOLOv4算法和ASPP-YOLOv4算法在城市交叉路口的检测结果对比图。

图12为本发明仿真实验中YOLOv4算法和ASPP-YOLOv4算法在立体停车场的检测结果对比图。

图13为本发明仿真实验中YOLOv4算法和ASPP-YOLOv4算法在夜晚城市道路的检测结果对比图。

图14为本发明仿真实验中YOLOv4算法和ASPP-YOLOv4算法在夜晚城市交叉路口的检测结果对比图。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，包括以下步骤，

具体的，步骤S1的具体操作包括以下步骤，

S101：建立YOLOv4网络结构；

YOLOv4是一种单阶段目标检测算法，其网络结构如附图1所示，包括主干特征提取网络CSPDarknet53、特征金字塔网络PANet和YOLO Head检测头；

所述主干特征提取网络CSPDarknet53包括CBM卷积模块与五个CSP残差块；CSP残差块的结构如附图2所示，每个CSP残差块有两条残差特征融合通道，一条通道经过CBM和m个Resunit残差堆叠处理，另一条通道直接经过CBM处理，最后两条通道再进行融合；之后经过SPP(结构如附图3所示)，利用3个不同尺度的最大池化进行处理，SPP能够增大感受野，分离出显著的上下文语义特征。

YOLOv4采用PANet作为颈部网络，通过自上而下和自下而上路径聚合，在不同的感受野范围输出三种尺度的预测结果，将低层的位置信息与高层的语义信息融合，叠加了多尺度的目标特征。YOLO Head检测头采用预测加回归的思想，对52*52，26*26，13*13三种不同大小的特征图进行预测，分别对于大中小三种目标有着较好的检测效果。

进一步的，S102：将改进的SENet网络嵌入到每个CSP残差块中，具体的是在每个CSP残差块的两条残差特征融合通道后加入改进的SENet网络，如附图4所示，在五个大残差块的两条残差特征融合后加入改进的SENet机制，通过自动学习获取跨维度交互，增强空间特征和通道特征，提升有效的特征通道权重，从而让网络重点关注重要的特征通道。

现有的SENet在全局平均池化前没有对输入特征图在空间维度上的激活值做出区分，可能会丢失部分细粒度的信息，因此，本申请中改进的SENet网络在SENet前增加聚合掩码模块，使得特征图更关注前景并抑制背景特征，如附图5所示，改进的SENet网络包括聚合掩码模块、全局平均池化层、两个全连接层、ReLU激活函数和Simmod激活函数，所述聚合掩码模块特征图更关注前景并抑制背景特征。

聚合掩码模块特征图更关注前景并抑制背景特征的具体操作包括以下步骤，

S1021：将特征图在通道维度上相加得到聚合图；

SENet网络主要包括特征压缩(Sequeeze)和特征激发(Excitation)两个部分，最后通过特征标定策略(Scale)重新校准通道的特征响应。

Sequeeze：首先是将h*w*c的特征图经过全局平均池化提取特征，得到1*1的通道不变的特征压缩图，此时这个特征图具有全局的感受野。特征压缩公式如式(1)所示：

式中，u_c是特征图的第c个特征。

Excitation：将全局平均池化的结果经过两个全连接层进行处理。第一个全连接层将特征图的通道数降维到c/r，这样可以减少运算量，其中r是超参数，一般取值为16；第二个全连接层将通道数恢复到c，增加更多的非线性处理过程，可以拟合通道之间复杂的相关性。特征激发公式如式(2)所示：

y＝σ(W₂δ(W₁z)) (2)

其中，W₁和W₂分别是第一个和第二个全连接层的权重，δ(x)代表ReLU激活函数，σ(x)是Sigmoid激活函数，z是特征压缩量。最终得到特征图中每个空间位置(x,y)的重要性程度，将归一化后的空间信息作为通道的权重，对原始特征图的每个通道进行加权，得到加权后的特征。特征加权公式为式(3)：

x_c＝F_scale(u_c，y_c)×y_c×u_c (3)

进一步的，S103：在主干特征提取网络CSPDarknet53中的第一个CSP残差块和第二个CSP残差块后分别输出分辨率为208*208以及104*104的特征图，经过下采样降维后融入到特征金字塔网络PANet中，得到基于ASPP-YOLOv4多尺度融合的无人机图像目标检测模型。增加的部分如附图6所示，先使用上采样完成特征拼接，之后使用下采样进行特征压缩，输出尺寸为104*104的P2预测模块，相比52*52的P3预测模块，改进后PANet网络的预测结果含有更丰富的小目标语义信息，能够减少小目标的漏检概率。由于高分辨率特征图含有丰富的全局语义信息，感受野更大，更容易检测到大目标，所以ASPP-YOLOv4保留了13*13的P5预测模块。

此处需要说明的是，在主干特征提取网络CSPDarknet53中的第三个、第四个和第五个CSP残差块在YOLOv4网络结构上本身就是分别输出52*52,26*26,13*13的特征图，然后经过下采样降维后融入到特征金字塔网络PANet中，该步骤只是对第一个CSP残差块和第二个CSP残差块进行了改进，第三、第四和第五CSP残差块与特征金字塔网络PANet的融合并进行改进。

在下采样过程中，内部数据结构和空间层级信息丢失，导致小目标信息无法重建。因此，本发明使用并联空洞卷积(ASPP)网络来替换普通卷积块进行下采样，达到对小目标进行更好检测的目的。加入改进的ASPP网络的PANet结构也在附图6中有所示出。

ASPP中的空洞卷积可以在下采样的时候扩大感受野，并且不同空洞率(DilatedRate:r)的空洞卷积可以对不同尺度的目标进行捕捉，空洞卷积感受野的计算公式如式(4)所示：

α_r＝k+(r-1)(k-1) (4)

其中，k是空洞卷积的尺寸大小。经计算，空洞率为2,3,4的尺寸为3*3的空洞卷积的感受野分别为5*5,7*7,9*9，结构如附图7所示。由图7可知，空洞率为2的空洞卷积，感受野比较小，可以很好地关注局部和细节以及小目标的语义信息，捕捉小物体的目标特征；空洞率为3和4时，感受野比较大，语义信息较丰富，更好地关注全局的上下文信息。因此可以通过调节空洞卷积的空洞率，联系上下文来捕捉不同尺度的目标。

原ASPP网络有空洞率为1,6,12,18的4个空洞卷积，由于空洞率过大，不利于小尺度目标的检测，所以本发明中对原ASPP网络结构和空洞卷积的空洞率进行了相应的调整，附图8是改进的ASPP网络。该网络有一个平均池化模块和2个1*1的普通卷积以及3个空洞率为2,3,4的空洞卷积。当空洞率为1时的空洞卷积和普通的卷积操作一样。

改进ASPP网络的池化模块首先对输入特征图进行平均池化，可以去除冗余信息、对特征进行压缩，然后进行归一化并激活池化结果，最后用线性双插值进行上采样恢复特征图尺寸；2个普通卷积和3个空洞卷积对特征图进行处理后进行归一化操作，加强数据学习能力，对每个卷积的归一化结果再用ReLU函数进行激活，克服了梯度消失问题；最后把池化模块和普通卷积以及空洞卷积的处理结果进行特征融合并输出。新网络可以更好地多尺度联系上下文信息，扩大感受野，有效地丰富语义，减少小目标的漏检和丢失。

进一步的，步骤S2的具体操作包括以下步骤，

需要说明的是，步骤S2的具体操作原理与现有的YOLOv4网络算法原理相似，只是在主干特征提取网络CSPDarknet53提取特征时根据改进后的主干特征提取网络CSPDarknet53结构和上述改进部分的原理进行提取。

仿真实验

1.实验环境

本实验模型训练和测试环境如表1所示。

表1实验环境配置

2.数据集

实验使用VisDrone2019数据集，该数据集由10209张静态图像以及一些视频组成，所有数据由无人机在各种天气以及光照条件下采集，包含行人(pedestrain)、人(people)、自行车(bicycle)、汽车(car)、面包车(van)、卡车(trunk)、公共汽车(bus)、三轮车(tricycle)、带蓬三轮车(awning-tricycle)、摩托车(motor)、其他(other)和忽视的区域(ignored regions)十二个类别。该数据集中很多图片含有上百个待检测物体，并且目标间距过于密集，物体标注框较小，因此VisDrone2019数据集作为小目标检测的公共数据集具有一定的挑战性。

实验首先将VisDrone2019数据集中的原标签转换为VOC数据集的xml格式，之后再转换为适合YOLOv4网络的txt格式，随机选取6471张图片，按照9:1的比例分割数据集为训练集和测试集。

3.评价指标

本发明使用Precision准确率，Recall召回率，F1分数，mAP平均精度这四个指标来评估模型的性能。准确率P，召回率R，F1的计算公式分别为公式(5)、(6)、(7)：

其中，Y_TP表示正确预测为正样本的目标数，Y_FP表示错误预测为正样本的目标数，Y_FN表示错误预测为负样本的目标数。mAP是小目标检测中衡量模型检测和分类效果的整体指标，计算公式为(8)：

其中，x为类别数。AP为单个目标类别的平均精度，计算公式为(9)：

Precision、Recall、F1、mAP越靠近1，说明模型的评估和检测效果越好。

4.定量评价

本发明输入图像尺寸为416*416，设置训练Epochs为140次，前50次为冻结训练，初始学习率为0.005，动量为0.92，batchsize为4；后90次为解冻训练，初始学习率为0.001，动量为0.92，batchsize设为2。表2为YOLOv4与ASPP-YOLOv4的GPU占用消耗对比。

表2 ASPP-YOLOv4与YOLOv4的GPU占用消耗对比

由表2可知，与原始模型相比，改进后的模型在前50次冻结训练时GPU占用基本相同，后90次解冻训练需要更多的资源来训练相关网络参数，GPU消耗更大。模型训练好后，ASPP-YOLOv4算法模型网络更复杂，故预测图像时GPU占用资源较多。对ASPP-YOLOv4与其他小目标检测算法作对比，不同检测算法训练过程中mAP的变化如附图9所示。横轴为Epochs，纵轴为mAP。

MV2-YOLOv4的全称是MobileNetV2-YOLOv4，YOLOv4将CSPDarknet53主干网络替换成MobileNetV2轻量级网络。由附图9可知，四种检测算法的mAP都随着Epochs的增加而增大，到140个Epochs后逐渐趋于平稳甚至略有下降，四种比较算法中ASPP-YOLOv4的mAP值最高。

各个方法在VisDrone2019数据集上的各项指标结果如下表3所示。由表3可知，改进后模型的mAP比原始模型YOLOv4提升3.82％，Precision、Recall、F1也分别提升超过两个百分点，提升效果明显。主要10个类别目标的平均精度如下表4所示。由表4可知，由于样本分布不均导致不同种类AP值差别较大，如car、pedestrain样本数量众多，精度相对来说比较高，而bicycle、awning-tricycle等目标数量相对较少，精度值比较低。pedestrain和motor这两个目标提升效果最为显著，均超过了8％，people、bicycle、van、bus、tricycle等目标提升均超过4％，模型整体鲁棒性也明显地得到了提高。

表3 ASPP-YOLOv4与其他小目标检测算法的各项指标对比

表4 ASPP-YOLOv4与YOLOv4AP对比

5.定性评价

为了进一步验证本发明中算法在无人机拍摄场景中对小目标检测的有效性，本发明选取四种迥然不同的场景，考虑到了人群、车流量和光照对算法检测效果的影响，分别使用YOLOv4和ASPP-YOLOv4两种算法对其进行检测，附图10-14分别为两种算法在密集人群、城市交叉路口、立体停车场、夜晚城市道路、夜晚城市交叉路口的检测结果对比图。在附图10-14中，(a)YOLOv4算法检测结果，(b)为ASPP-YOLOv4算法检测结果。

从附图10中可见，本发明的算法对于密集人群的检测性能有很大的提高，并且可以更好地区分行人以及其他人；从附图11中可以看出，本发明中的算法可以更好地区分不同类型的车辆，增加小目标车辆检测的效果，减少误检的发生；从附图12中可以看出，在目标受到遮挡及干扰的情况下，本发明中的算法可减少漏检的现象；为了更好地对比光照对于检测效果的影响，选取两张夜晚的场景，其中第二张图像光照相对较强且部分目标发生了形变。在夜晚场景下的目标检测受到周围复杂背景所干扰，具有一定的检测难度，从附图13和附图14中可以看出，YOLOv4对于暗场景下的小目标检测出现了漏检，而ASPP-YOLOv4可以很好地把暗场景下的小目标检测出来，表现了更好的泛化性能。

6.消融实验

为更好地与原算法进行对比，验证本发明算法中创新点的有效性以及模型的精度和速度，进一步的做了消融实验，结果如表5所示。表5中，“S”表示改进的SENet，“P”表示改进的PANet网络，“A”表示使用改进的ASPP代替五次普通卷积进行下采样。由表5可知主干提取网络增加注意力机制使检测精度提高了0.15个百分点，FPS降低了6.522；特征提取网络进行多尺度融合使检测精度提高了3.38个百分点，FPS降低了3.712；使用并联的空洞卷积进行下采样，检测精度提高了0.29个百分点，FPS降低了7.907。相比YOLOV4，ASPP-YOLOv4使得检测精度从21.55％提升至25.37％，共提升3.82个百分点，FPS共降低了18.141。

表5 ASPP-YOLOv4的消融实验结果

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，其特征在于，包括以下步骤，

2.根据权利要求1所述的基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，其特征在于，步骤S1的具体操作包括以下步骤，

S102：将改进的SENet网络嵌入到每个CSP残差块中；

3.根据权利要求2所述的基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，其特征在于，步骤S101中所述的主干特征提取网络CSPDarknet53中，每个所述CSP残差块有两条残差特征融合通道，一条通道经过CBM和m个Resunit残差堆叠处理，另一条通道直接经过CBM处理，最后两条通道再进行融合；经过五个CSP残差块处理后得到的特征图再经过SPP，利用不同尺度的最大池化进行处理。

4.根据权利要求3所述的基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，其特征在于，步骤S102的具体操作包括以下步骤：在每个CSP残差块的两条残差特征融合通道后加入改进的SENet网络；

5.根据权利要求4所述的基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，其特征在于，所述聚合掩码模块特征图更关注前景并抑制背景特征的具体操作包括以下步骤，

S1021：将特征图在通道维度上相加得到聚合图；

6.根据权利要求5所述的基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，其特征在于，步骤S103中下采样使用改进的并联空洞卷积ASPP网络进行下采样，所述改进的并联空洞卷积ASPP网络包括一个平均池化模块和2个1*1的普通卷积以及3个空洞率为2,3,4的空洞卷积。

7.根据权利要求6所述的基于ASPP-YOLOv4多尺度融合的无人机图像目标检测方法，其特征在于，步骤S2的具体操作包括以下步骤，