CN113420607A

CN113420607A - 无人机多尺度目标检测识别方法

Info

Publication number: CN113420607A
Application number: CN202110597678.2A
Authority: CN
Inventors: 朱佩佩; 赖作镁; 吴元; 黄明; 熊召龙; 孙超
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: CETC 10 Research Institute; Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-21

Abstract

本发明公开的一种无人机多尺度目标检测识别方法，识别率高、运算量小，鲁棒性强。本发明通过下述技术方案实现：采用提取不同尺度特征的主干结构、网络颈部(Neck)和预测目标信息的网络检测头三个部分组成实时目标检测与识别网络模型，采用目标检测识别网络——YOLOv4中的CSPDarknet53主干网络对输入图像进行特征提取，将原始三个尺度特征输出扩展为四个尺度特征输出；利用改进的二分支PANet减少特征穿过的卷积层数。每个检测输出对每个类别预测一个条件概率值，直接从图片获得预测结果，获得目标信息。将四个不同尺寸的特征图传递至检测头中进行联合训练，对无人机目标进行类别判断和位置回归，得到检测识别结果。

Description

无人机多尺度目标检测识别方法

技术领域

本发明涉及目标检测领域基于改进PANet结构的实时目标检测与识别模型，适用于图像目标尺度分布范围较广、小目标检测难度大的场景的多尺度(multi-scale)目标检测方法。

背景技术

目标检测与识别是计算机视觉领域中的重要研究课题。随着人工智能技术在计算机视觉领域的广泛应用,目标检测作为计算机视觉中的代表问题之一也越来越受到人们的重视，目标检测与识别方法得到大力发展，尤其是在多种复杂图像处理领域。其中基于深度学习的多种遥感图像分类技术被广泛应用于环境监测、城市规划、灾害控制、农业领域等。目标检测技术从最原始的利用传统图像特征与机器学习的方法,逐渐发展到如今利用深度学习的方法,且检测的效果也逐步提升。作为场景理解、目标跟踪、事件检测、毁伤识别等复杂视觉应用任务中的基础内容，目标检测与识别旨在给定的图像或视频中检测出感兴趣的目标，返回其位置坐标信息，并对目标的类型进行分类识别，输出检测概率。而在目标检测问题中,待检测目标的多尺度特性往往是检测过程中的一个难点。如何从图像中解析出可供计算机理解的信息是机器视觉的中心问题。由于卷积神经网络中较深层的特征有很大的感受野以及丰富的语义信息，深层特征对于物体姿态变化、遮挡以及局部变形等等的变化具有鲁棒性(robust),但由于分辨率的降低导致几何细节信息丢失。相反浅层特征有很小的感受野和丰富的几何细节信息，但问题是分辨率较高以及语义信息匮乏。在卷积神经网络中，物体的语义信息可以在不同层(与物体大小有关)出现。对于小物体而言，浅层特征包含它的一些细节信息，随着层数加深，所提取特征中的几何细节信息可能完全消失(感受野过大)，通过深层特征检测小物体就变得很困难。对于大物体而言，语义信息将出现在较深层特征中。然而R-CNN系列以及YOLOv1这些传统的网络框架通常将顶层(top layer)的特征图作为物体的特征表示进行预测，这种预测方法对于不同大小的目标显然不是最优的。由此引出多尺度目标检测。多尺度目标检测的方法大致分为3类：将多层特征进行组合后预测PVANET(NIPSW16)；分别在不同的层进行预测RFBNet(CVPR18)；组合以上两种方法FPN(CVPR17)。大分辨率输入图像虽然能提升小目标检测性能，但同时使得大目标过大导致其很难分类，此消彼长，最终精度提升并不明显。多尺度训练(Mutil-Scale training)，采样到的图像分辨率很大(1400x2000)，导致大目标更大，而图像分辨率过小时(480x640)，导致小目标更小，这些均产生了非最优的结果。

无人机目标检测与识别任务中，同类或者不同类的目标尺寸变化范围较大。适用于常规尺寸的目标检测模型，获取的小目标细节信息较少，导致检测精度较低。而适用于小目标检测的one stage模型往往具有较小的感受野，容易丢失大目标的背景信息，降低大目标的检测精度。传统的解决多尺度检测的算法，大都依赖于图像金字塔与特征金字塔。最开始在深度学习方法流行之前，对于不同尺度的目标，普遍使用将原图构建出不同分辨率的图像金字塔，再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标，以求在金字塔底部检测出小目标；或者只用一个原图，在原图上，用不同分辨率的分类器来检测目标，以求在比较小的窗口分类器中检测到小目标。经典的基于简单矩形特征(Haar)+级联Adaboost与Hog特征+SVM的DPM目标识别框架，均使用图像金字塔的方式处理多尺度目标，早期的CNN目标识别框架同样采用该方式，但对图像金字塔中的每一层分别进行CNN提取特征，耗时与内存消耗均无法满足需求。其实目前大多数深度学习算法提交结果进行排名的时候，大多使用多尺度测试。同时类似于SNIP使用多尺度训练，均是图像金字塔的多尺度处理。

当前基于深度学习的目标检测方法不能有效地适应目标的尺度变化。现有深度卷积神经网络中感受野尺度单一,无法适应目标的尺度变化和边界形变。近年来，深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法。基于深度学习的目标检测与识别算法分为两大类：

(1)：基于区域建议的目标检测与识别算法(two stage),如R-CNN，Fast R-CNN，Faster R-CNN等；

(2)：基于回归的目标检测与识别算法(one stage)，如YOLO[4]，SSD等。YOLO目标检测由神经网络及Darknet的C语言实现，尤其是反向传播的梯度求解和误差计算。YOLO是You Only Look Once的缩写，意思是神经网络只需要看一次图片，就能输出结果。YOLO的检测是将输入图像划分为S×S网格(grid)，如果目标的中心落入网格单元，则该网格单元负责检测该目标。每个网格单元输出一个概率集合。YOLO提出了单阶段的新思路，相比两阶段方法，其速度优势明显。但YOLO本身也存在一些问题，YOLO面临的物体检测问题，是典型的类别数目不均衡的问题。如划分网格较为粗糙，每个网格生成的box个数等限制了对小尺度物体和相近物体的检测。YOLO一共发布了四个版本，其中YOLOv1奠定了整个系列的基础，后面的系列就是在第一版基础上的改进，只为提升性能。YOLOv1在检测目标时，不同于之前RCNN系列的方法，是将检测对象的类别和位置同时进行预测，是一种回归问题。主要步骤为：卷积层进行图像特征提取；全连接层用于后续类别和目标位置的回归预测。YOLOv1使用普通的SGD作为优化器。YOLOv1在检测时是基于整个图像。对小物体检测效果欠佳。YOLOv2在v1上进行了一些改进。V2尝试借鉴了RCNN系列中的anchor box。YOLOv2引入一种称为passthrough层，在最后pooling之前，feature map大小是26*26*512，然后将这个map分成四份，所以是4*13*13*512，然后和池化后的13*13*1024直接拼接。YOLOv2调整网络结构后能够支持多种尺寸的输入图像。YOLOv3是一种基于深度学习的端到端实时目标检测方法，以速度快见长。V3是可以跟resnet正面刚的网络，其性能都远好于v1，v2。YOLO V3采用了称之为Darknet-53的网络结构(含有53个卷积层)，它借鉴了残差网络residual network的做法，在一些层之间设置了快捷链路。YOLOv3的实现Darknet是使用C语言开发的轻型开源深度学习框架，依赖少，可移植性好，可以作为很好的代码阅读案例。YOLOv4在速度和准确性方面均优于最快，为最准确的探测器。YOLOv4是对YOLOv3的一个改进。YOLOv4是一种在YOLOv3的框架基础上集合了多种优化策略的单阶段目标检测识别算法。。YOLOv4通过整理bag of freebies和bag of specials策略，提出Mosaic数据增强技术，并在主干网络后增加SPP结构、PANet等策略提升了网络的小目标检测识别性能，同时保证了较好的实时性。PANet整体描述PANet是基于Mask R-CNN进行改进后的网络，改进的三个点分别为：原始Mask R-CNN没有很好地利用低层信息。PANet是一种新颖的金字塔注意力模块，嵌入在YOLOv4的主干网络和检测头之间，捕获多尺度特征之间的关系来提高检测识别性能。然而，在目标尺度差异较大的多尺度无人机目标检测识别任务中，YOLOv4仍然存在检测性能不足，无法兼顾不同尺度下的目标检测识别效果。

SSD是单阶段模型早期的集大成者，达到跟接近两阶段模型精度的同时，拥有比两阶段模型快一个数量级的速度。后续的单阶段模型工作大多基于SSD改进展开。SSD以不同stride的feature map作为检测层分别检测不同尺度的目标，用户可以根据自己的任务的目标尺度制定方案。该方式尺度处理简单有效，但存在一些缺陷：一般使用低层检测小目标，但低层感受野小，上下文信息缺乏，容易引入误检；使用简单的单一检测层多尺度信息略显缺乏，很多任务目标尺度变化范围十分明显；高层虽然感受野较大，但毕竟经过了很多次降采样，大目标的语义信息是否已经丢失；多层特征结构，是非连续的尺度表达，是非最优的结果。

第一类two stage算法中，首先使用候选框生成器生成稀疏的候选框集，并从每个候选框中提取特征；然后使用区域分类器预测候选框区域的类别。第二类one stage方法直接生成大量密集的目标候选框，对特征图上每个位置的对象进行类别预测。通常而言，第一类检测器检测性能更优，在公开基准上取得了当前最优结果，而第二类检测器更省时，在实时目标检测方面具备更强的适用性。对算法效率有较高要求的场景中，如无人机目标检测与识别、自动驾驶等，one stage模型有较高的适用性。随着模型的进一步研究完善，CenterNet、YOLOv4等one stage方法既可以具有较高的检测效率，也可以有较好的检测效果。其中，YOLO算法在无人机目标检测与识别领域得到了广泛的研究应用，可以在检测效率和检测精度上取得较好的平衡。为了能够在任意大小场景中实现多类目标检测，现有YOLOv4中采用三层PANet结构，可以直接将三个采样倍率下的特征图用于目标框的分类和回归。为了保留多个尺度特征，通过增加PANet中的层数来实现。因YOLOv4的主干网络采用了5种下采样倍率得到5种尺度特征。PANet在FPN结构的基础上采用自下而上的Bottom-upPath Augmentation结构将低层特征传导到高层特征层中，同时减少高层到低层的特征流通需要穿越的卷积层数。YOLOv4将邻近层相加的原始PANet改为连接邻近层的PANet，用于将三个不同尺寸的特征图传递至检测头中。其中，下采样倍数越大，小目标特征丢失越多；下采样倍数越小，高层特征提取越弱，降低了网络性能。因此，下采样倍数的选择对多尺度目标检测识别问题的影响较大。

近年来，随着自动控制技术的快速发展和生活水平的不断提高，无人机作为一种新型遥感传感器,越来越多地被应用在医疗、交通、环境监测、灾害预警、动物保护以及军事等领域，民用小型无人机逐渐进入社会的各个方面。无人机在推动社会进步的同时，也对个人隐私、社会安全、军事安全等领域构成了严重威胁。检测方式也是对单一信道下的图像进行处理，检测过程中只用到了一种图像信息，不能将红外与可见光的目标特征充分利用。无人机检测面临目标成像尺度变化非常大，飞行背景复杂，通常伴有干扰目标出现的难点。卷积神经网络虽然能够学习到表示能力非常强的目标特征，但网络中低层特征语义信息缺乏，高层特征细节信息不足，致使网络不能对大、中、小目标的检测都具有良好的鲁棒性。基于深度学习的无人机目标检测需要大量的数据来训练网络，无人机数据集以俯视视角为主，而大多数数据集以平视视角为主，不适合进行无人机的训练任务。且无人机离地面距离较远，目标尺度分布范围较广，小目标检测难度大。待检测目标相对来说呈现出小目标的特点，小目标往往像素比较少，特征单一，背景复杂，存在着目标遮挡，光线不足、相似形状物体干扰等因素。在检测的时候容易出现漏检或者误检的情况。这就给无人机检测增加了一定的难度。如何基于无人机的信息采集来实现针对目标对象进行识别，是本领域需要解决的技术问题。目标检测需要定位出物体的位置并识别出物体的类别。由于无人机飞行器飞行高度差异大、采集影像视角可变、飞行速度快,因此无人机影像上的目标具有尺度变化大、分布差异明显、背景复杂、存在大量遮挡等特点，这为无人机影像目标检测带来了一定的困难。无人机检测与识别运动目标的难点在于平台和目标都在运动，并且需要较高的实时性，普通的运动目标检测算法存在较大误差。而利用残差学习构建深度残差网络能够很好地解决这个问题。深度残差网络可以通过卷积神经网络中的卷积和池化之间的搭配操作完成对图像进行特征提取，按照网络的特性，深度越深，检测效果越好。但随着网络深度继续加深时，训练会更加困难，并且会出现梯度消失现象，阻碍网络的收敛，效果变差。参考文献《激光与光电子学进展》，2017，54：111002魏湧明，全吉成，侯宇青阳公开了一种基于YOLOv2的无人机航拍图像定位研究，利用YOLOv2算法对无人机航拍图像中的目标进行检测定位，使目标检测平均准确率提高至79.5％，网络定位准确率大于84％。虽然实际效果比较好，但其实时性较差，难以应用在真实场景中。参考文献《工业控制计算机》，2018,31(9)：46-49廖梦纯公开了一种基于无人机航拍图像的破损井盖检测方法，常川，刘科成公开了基于机载机器视觉的无人机自主目标跟踪研究。利用YOLOv2对无人机航拍图像中的井盖进行破损检测，其准确率为82.6％，虽然基本满足破损井盖检测的需求，安全模型、算法与编程，但对于复杂数据集的精度明显下降。由于无人机飞行自由度大，拍摄的目标相较于常规目标容易受到飞行高度、拍摄角度、天气等因素的影响，机载云台相机运动时背景模型的建立易受干扰。获取的同一目标的尺寸、视觉特征差异较大，且存在大量的小目标，出现漏匹配和误匹配等问题。目标特征在不同的拍摄角度下产生较大的差异，即具有较大的类内距离，加大了同一目标识别的难度。因飞行高度的攀升，目标细节特征越来越少，模型检测精度会明显恶化。

发明内容

本发明的目的是针对现有技术存在的不足之处和目标尺度分布范围较广，小目标检测难度大下的无人机目标检测与识别方法目标尺度分布范围较广，小目标检测难度大的问题，提供一种识别率高、运算量小，鲁棒性强，在目标数据集上检测精度更高的无人机多尺度目标检测识别方法。以改善无人机多尺度目标检测与识别的问题。

本发明的技术方案是：一种无人机多尺度目标检测识别方法，其特征在于：采用提取不同尺度特征的主干结构、网络颈部Neck和网络检测头Head三个部分组成实时目标检测与识别网络模型，将改进的目标检测Neck模块嵌入在主干结构网络和网络检测头之间；主干结构网络采用YOLOv4特征提取网络CSPDarknet53网络结构对输入图像进行特征提取，并利用改进的二分支金字塔注意力模块PANet结构连接低层特征和高层特征层；改进的二分支金字塔注意力模块PANet结构采用并行策略在增加特征输入的同时减少了穿越的卷积层数；网络检测头Head采用基于深度学习的端到端实时目标检测方法的目标检测模型YOLOv3中的检测头，预测目标的种类和位置，每个网格对每个类别预测一个条件概率值，直接从图片获得预测结果，输出目标信息，将三个不同尺寸的特征图传递至检测头中，构成多任务的损失进行联合训练，然后利用多尺度预测网络对无人机目标进行类别判断和位置回归，得到检测识别结果。

本发明相比于现有技术具有如下有益效果：

本发明采用提取不同尺度特征的主干结构、网络颈部Neck和网络检测头Head三个部分组成实时目标检测与识别网络模型，将改进的金字塔注意力模块嵌入在主干结构网络和网络检测头之间；利用如图1所示主干网络——CSPDarknet53结构，对输入图像进行特征提取，网络检测头Head采用YOLOv3模型中的检测头输出目标信息。连接主干和Head的Neck部分采用改进的二分支PANet结构，提高基于候选框的实例分割框架中的信息流。通过自下而上的路径增强在较低层中使用精确定位信号来增强整个要素层次结构，缩短了较低层和最顶层功能之间的信息路径。利用二分支PANet增加了检测头获取的特征信息，通过Recursive-FPN循环特征金字塔网络，在目标检测任务中对一个图片使用卷积来提取特征，经过了多个池化层或者stride为2的卷积层之后，输出了一个小尺度的特征图，然后再这个特征图中来做目标检测。利用高空间分辨率单波段的全色(PAN)图像和低空间分辨率的多光谱图像(MS)生成高分辨率的多光谱图像，同时未增加PAN的深度，可以大幅提高目标识别率，减小了因网络结构深度的增加带来的特征消失的问题。

本发明基于目前最新的YOLOv4网络，通过分析现有PANet的结构特点，结合样本尺度变化大，小目标问题突出等问题，连接主干结构网络和Head的Neck部分采用改进的二分支PANet结构，利用像素邻域内的强度和颜色直方图的变化建立区分前景和背景模型，使得背景错误相对少，利用提取并融合多尺度特征的目标检测网络，减少了候选框的数量，背景误检率低。通过改进的目标检测与识别网络结构，分析实验结果可知，改进后的网络结构，既可以克服目标多尺度变化带来的负面效应，也可以较好地检测小目标，而且运算量小。相比v1提高了训练图像的分辨率。

本发明从YOLOv4模型出发，通过改进YOLOv4的Neck结构来提升该模型在差异较大的多尺寸目标中的检测性能。将YOLOv4模型中的三层PANet结构扩展成四层，利用并行策略将PANet结构变化为二分支，并将原始YOLOv模型4中的四个尺度特征连接到PANet中，自上而下的Bottom-up Path Augmentation结构变化为四层和FPN相连，将改进的PANet结构嵌入到YOLOv4模型网络结构中，替换网络原始的颈部PANet部分；对不同尺度实例及其边界信息更具鲁棒性.实验证明本结构实现了比原有结构更高的平均精度。相比YOLO，YOLO9000在识别种类、精度、速度和定位准确性等方面都有大大提升。通过实验说明PANet结构的层数对多尺度目标的检测结果造成较大的影响，提出多分支Neck来减少YOLOv4网络层数的堆叠，可以更好地适应变化范围较大的多尺度目标检测。

本发明主干结构网络采用YOLOv4模型中卷积神经网络的CSPDarknet53网络结构对输入图像进行特征提取，利用卷积神经网络预训练参数，在FPN结构的基础上采用自下而上的Bottom-up Path Augmentation结构，将低层特征传导到高层特征层中，穿越卷积层数，在大型数据集上完成预训练；提高了稳定性和加速收敛,比之前的模型复杂了不少，可以通过改变模型结构的大小来权衡速度与精度。原始本发明采用二分支PANet检测头获取特征信息，网络检测头Head采用YOLOv3模型中的检测头预测目标的种类和位置，每个网格对每个类别预测一个条件概率值，直接从图片获得预测结果，输出目标信息。将三个不同尺寸的特征图传递至检测头中，构成多任务的损失进行联合训练，卷积运算的共享程度更高，拥有更快的速度和更小的内存占用。

附图说明

图1是本发明无人机多尺度目标检测识别模型结构示意图；

图2是图1模型中PANet结构特征连接方式示意图；

图3是二分支PANet的YOLOv4网络训练损失值和mAP变化曲线；

下面结合附图和实施例对本发明做进一步说明。

具体实施方式

参阅图1-图3。根据本发明，采用提取不同尺度特征的主干结构、网络颈部Neck和网络检测头Head三个部分组成实时目标检测与识别网络模型，将改进的目标检测Neck模块嵌入在主干结构网络和网络检测头之间；主干结构网络采用YOLOv4特征提取网络CSPDarknet53网络结构对输入图像进行特征提取，并利用改进的二分支金字塔注意力模块PANet结构连接低层特征和高层特征层；改进的二分支金字塔注意力模块PANet结构采用并行策略在增加特征输入的同时减少了穿越的卷积层数；网络检测头Head采用基于深度学习的端到端实时目标检测方法的目标检测模型YOLOv3中的检测头，预测目标的种类和位置，每个网格对每个类别预测一个条件概率值，直接从图片获得预测结果，输出目标信息，将三个不同尺寸的特征图传递至检测头中，构成多任务的损失进行联合训练，然后利用多尺度预测网络对无人机目标进行类别判断和位置回归，得到检测识别结果。

在二分支金字塔注意力模块PANet嵌入到YOLOv4模型网络结构中，替换那个网络原始的颈部PANet部分，预测网络每个目标框的4个坐标b_x，b_y，b_w，b_h，基于矩形框中心点左上角格点x、y坐标轴的偏移量σ(t_x)和σ(t_y)，以及分别表示目标单元格距离图像左上角的边距c_x和c_y，获取坐标b_x实际预测值：b_x＝σ(t_x)+c_x、b_y＝σ(t_y)+c_y、

其中，σ是激活函数，p_w和p_h为对应的先验框的高和宽。

在目标检测模型YOLOv4中，利用路径聚合网络(PANet)每一个分支包含3种不同尺寸的边界框，将三个分支分别和主干结构网络不同特征采样率的层连接。为了兼顾大小目标的检测，本实施例将三个分支变化为a(a>3)个分支，并引用包含a个Bottom-up PathAugmentation结构的a层PANet和多个不同尺度的特征图连接起来，减少从底层特征到高层特征的路径，融合一个二分类支路的输出得到更加精确的分割结果，防止底层具体位置信息的丢失，使特征金字塔提取的特征更精确，最大程度上保留不同尺度特征。

在原始YOLOv4模型中，将9个锚点变成3*a(a>3)个锚点，且每一个分支的输出张量大小为3*(N+5)，多个分支输出a*3*(N+5)，其中，N为类别数。

目标检测模型YOLOv4通过聚类算法对3*a个锚点的大小进行计算，将第i个标签目标框box_GT的宽高表示为(w_i，h_i)。首先初始化3*a个聚类中心(锚点)的坐标为(W_j，H_j)(j＝1，2，…，3*a)；采用以下距离度量公式d_GT,Anchor＝1-IOU(box_GT,box_Anchor)来计算标签目标框box_GT和锚点框box_Anchor的距离，并将目标框分配给最近的聚类中心，利用IOU交并比公式：

衡量box_GT和box_Anchor两个矩形框之间的重合程度；分配后重新计算聚类中心点：

其中w^j _i和h^j _i分别表示分配给第j个类别的目标框的宽和高，M_j表示第j个类别下的目标框总个数；直到聚类中心变化量小于阈值th，则停止迭代。

为了测试基于改进金字塔注意力模块PANet的模型性能，将原始YOLOv4模型，以及小目标检测模型YOLOv4_small和YOLOv4_small_v2作为对比模型，结合公开数据集VisDrone对二分支YOLOv4模型进行性能测试，测试的指标有目标检测与识别领域常用的平均精确率AP(average precision)。VisDrone无人机目标检测数据集中除了被忽略的区域ignored regions和不作为考察对象的其他others(包含有阳伞的motor摩托车，有人骑的自行车bicycle等容易混淆的目标)两类外，共有10类目标，分别为：步行者pedestrian，民众people，自行车bicycle，汽车car，厢式货车van，卡车truck，三轮车tricycle，遮阳篷三轮车awning-tricycle，公交车bus，motor摩托车。

AP需要计算根据原始YOLOv4模型正确检测出来的目标个数TP、模型误检的目标个数FP和模型漏检的目标个数FN，计算被检目标的精确率P(Precision)：

和召回率R(Recall)：

以正确率P和召回率R为横纵坐标，绘制出PR曲线p(r)，计算PR曲线下的面积，可以得到平均精确率AP：

当有N个类别时，根据单个目标类别下的平均精确率AP，利用多个类别的AP的均值mAP(mean average precision)来衡量模型的性能：

在可选的实施例中，为目标检测模型训练随机从训练集的6471张图像中，将数据按0.8：0.2的比例划分为本次实验所需的训练集和验证集，根据四类网络训练时的损失变化，利用原始YOLOv4网络训练损失值和如图3所示的mAP变化曲线,得到所示测试效果。

若将目标在现实生活中的客观尺寸从大到小排序，大致的类别顺序为民众people，步行者pedestrian，自行车bicycle，摩托车motor，遮阳篷三轮车awning-tricycle，三轮车tricycle，汽车car，厢式货车van，卡车truck，公交车bus，各个类别的AP值如下表所示

表1 Visdrone数据集测试AP和MAP值

对比上表可以看出，在小目标较多的数据集中，原始YOLOv4模型适用于小目标检测的YOLOv4_small模型可以获得更高的mAP。当目标尺寸较小时，YOLOv4_small模型中相应目标的AP值更高。当目标尺寸进一步增大，成为所有目标类型中的中等尺寸时，AP值降低。目标尺寸更进一步增大，成为大尺寸目标时，YOLOv4_small模型略优于原始YOLOv4模型。两类模型的结构区别在于Neck最大特征尺寸的分支和主干网络的连接点。YOLOv4_small模型从和尺寸较小的层的连接变为和尺寸较大的层进行连接。因此，在YOLOv4_small模型中并未直接获取中间尺度的特征，导致中等尺寸目标的motor，awning-tricycle，tricycle的AP值下降。通过增加PANet的分支，将未连接的这一层主干也进行连接和输出，由此改动获得YOLOv4_small_v2模型和二分支目标检测模型YOLOv4。对比二分支目标检测模型YOLOv4和已有的YOLOv4_small模型，二分支YOLOv4模型除bicycle这一类外，也均获得了比YOLOv4_small更高的AP值，且mAP提升了2.5个点。由此可以说明，通过增加金字塔注意力模块PANet分支，可以更好得适应目标尺度变化范围较广的目标检测与识别任务。

进一步对比YOLOv4_small_v2和二分支YOLOv4，由mAP指标可以看出二分支YOLOv4模型比YOLOv4_small_v2模型高约1个点。即，相比于直接增加PAN层数，在目标检测模型YOLOv4中采用并行分支结构的改进PAN可以获得更好的检测mAP。分析每一类目标数据可以看出，二分支目标检测模型YOLOv4在尺寸最小的目标people，pedestrian，bicycle中，只有people类别的AP略高于YOLOv4_serial_PAN模型。在motor，awning-tricycle，tricycle尺寸稍大的目标中，二分支目标检测模型YOLOv4获得了motor和tricycle更高的AP值。在机动车辆，即car，van，truck，bus中，van，truck和bus的AP值均比YOLOv4_small_v2模型要高。因此，在最小目标中，二分支YOLOv4模型没有明显的优势，随着目标尺寸的进一步增大，二分支目标检测模型YOLOv4整体性能更好。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种无人机多尺度目标检测识别方法，其特征在于：采用提取不同尺度特征的主干结构、网络颈部Neck和网络检测头Head三个部分组成实时目标检测与识别网络模型，将改进的目标检测Neck模块嵌入在主干结构网络和网络检测头之间；主干结构网络采用YOLOv4特征提取网络CSPDarknet53网络结构对输入图像进行特征提取，并利用改进的二分支金字塔注意力模块PANet结构连接低层特征和高层特征层；改进的二分支金字塔注意力模块PANet结构采用并行策略在增加特征输入的同时减少了穿越的卷积层数；网络检测头Head采用基于深度学习的端到端实时目标检测方法的目标检测模型YOLOv3中的检测头，预测目标的种类和位置，每个网格对每个类别预测一个条件概率值，直接从图片获得预测结果，输出目标信息，将三个不同尺寸的特征图传递至检测头中，构成多任务的损失进行联合训练，然后利用多尺度预测网络对无人机目标进行类别判断和位置回归，得到检测识别结果。

2.如权利要求1所述的无人机多尺度目标检测识别方法，其特征在于：在二分支金字塔注意力模块PANet嵌入到目标检测模型YOLOv4模型网络结构中，替换网络原始的颈部路径聚合网络(PANet)部分。网络预测每个目标框的4个坐标b_x，b_y，b_w，b_h，基于矩形框中心点左上角格点x、y坐标轴的偏移量σ(t_x)和σ(t_y)，以及分别表示目标单元格距离图像左上角的边距c_x和c_y，获取坐标b_x实际预测值：b_x＝σ(t_x)+c_x、b_y＝σ(t_y)+c_y、

其中，σ是激活函数，p_w和p_h为对应的先验框的高和宽。

3.如权利要求1所述的无人机多尺度目标检测识别方法，其特征在于：在YOLOv4模型中，利用金字塔注意力模块PANet每一个分支包含3种不同尺寸的边界框，将三个分支分别和主干结构网络不同特征采样率的层连接。三个分支变化为a(a>3)个分支的a层路径聚合网络(PANet)和多个不同尺度的特征图连接起来，减少从底层特征到高层特征的路径，融合一个二分类支路的输出得到更加精确的结果，防止底层具体位置信息的丢失，使特征金字塔提取的特征更精确。

4.如权利要求1所述的无人机多尺度目标检测识别方法，其特征在于：在原始YOLOv4模型中，将9个锚点变成3*a个锚点，且每一个分支的输出张量大小为3*(N+5)，多个分支输出a*3*(N+5)，其中，N为类别数，a是满足a>3的变量。

5.如权利要求1所述的无人机多尺度目标检测识别方法，其特征在于：通过聚类算法对锚点的大小进行计算，将第i个标签目标框box_GT的宽高表示为(w_i，h_i)。首先初始化3*a个聚类中心(锚点)的坐标为(W_j，H_j)(j＝1,2,…,3*a)；采用以下距离度量公式d_GT,Anchor＝1-IOU(box_GT,box_Anchor)来计算标签目标框box_GT和锚点框box_Anchor的距离，并将目标框分配给最近的聚类中心，利用IOU交并比公式：

6.如利要求1所述的无人机多尺度目标检测识别方法，其特征在于：从训练集的6471张图像中，将数据按0.8：0.2的比例划分为本次实验所需的训练集和验证集，根据四类网络训练时的损失变化，利用原始目标检测模型YOLOv4网络训练损失值和mAP变化曲线,得到测试效果。

7.如权利要求1所述的无人机多尺度目标检测识别方法，其特征在于：根据原始YOLOv4模型正确检测出来的目标个数TP、模型误检的目标个数FP和模型漏检的目标个数FN，计算被检目标的精确率P：

和召回率

8.如权利要求7所述的无人机多尺度目标检测识别方法，其特征在于：以正确率P和召回率R为横纵坐标，绘制出PR曲线p(r)，计算PR曲线下的面积，得到平均精确率AP：

9.如权利要求8所述的无人机多尺度目标检测识别方法，其特征在于：当有N个类别时，根据单个目标类别下的平均精确率AP，利用多个类别的AP的均值mAP来衡量模型的性能：

10.如权利要求1所述的无人机多尺度目标检测识别方法，其特征在于：原始YOLOv4模型，以及小目标检测模型YOLOv4_small和YOLOv4_small_v2作为对比模型，结合公开的无人机目标检测数据集VisDrone对基于二分支PANet的改进目标检测模型进行性能测试。