CN115359376A

CN115359376A - 一种无人机视角下轻量级YOLOv4的行人检测方法

Info

Publication number: CN115359376A
Application number: CN202211000295.3A
Authority: CN
Inventors: 袁宁; 黎宁; 周明龙; 张正冉
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-18

Abstract

本发明公开了一种无人机视角下轻量级YOLOv4的行人检测方法，采用改进的MobileNetv3作为主干特征提取网络，结合YOLOv4框架开展行人的目标检测，并对检测模型进行量化分析，修改网络的结构，削减了模型的参数量和运算成本以达成无人机场景下行人检测的需求；改进的MobileNetv3主要指的是将SE注意力模块替换成SESAM模块，学习通道之间的相似性的同时学习了行人的空间特征，保证模型较小的同时不降低检测的精度；最后采用CIoU的损失函数去计算评价的参数，增加了对目标框尺度的敏感程度；本发明在复杂多变的情况下，能够有效克服不利因素，具有更强的泛化能力，检测效果更好，在智能交通检测等系统中具有良好的应用潜力。

Description

一种无人机视角下轻量级YOLOv4的行人检测方法

技术领域

本发明涉及深度学习和行人检测领域，尤其涉及一种无人机视角下轻量级YOLOv4的行人检测方法。

背景技术

无人机作为一种空中利用无线电遥感的轻型移动设备，具有重量轻、运行成本低、安全性及灵活性高等特点，可以在不同的高度及环境下完成图像采集、目标搜寻及检测等任务。但是无人机场景下的行检测技术还不是非常的成熟，具有数据集较少，检测背景复杂，检测网络要求较高等问题存在。

近年来，深度学习的不断发展使得行人目标检测及快速锁定得到了飞跃式的发展，与传统的机器学习相比，深度学习可以从更加多的数据中提取更加复杂的特征。然而就目前来讲，在无人机行人检测任务中，非刚性的人体的结构复杂，运动的方式和情况多变，检测难度高。

另外，在无人机视角中，若距离较远，行人目标非常小。在经典的目标检测算法中特征提取部分例如AlexNet、ResNet50及VGGNet等网络结构，为了使得图像符合显示区域的大小均采取了设置降采样层模块。这样一来将本就较小的行人目标进一步地缩小，随之带来的是图像质量的下降，自然小目标的特征图提取只有很小的像素数，导致最后的分类器分类效果变差。所以无人机下的对非刚性且目标较小的行人的目标检测是近几年来机器视觉领域的技术难点，逐渐成为近几年来机器视觉领域所关注的热点。

发明内容

本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷，提供一种无人机视角下轻量级YOLOv4的行人检测方法。

本发明为解决上述技术问题采用以下技术方案：

一种无人机视角下轻量级YOLOv4的行人检测方法，包括如下步骤：

步骤1)，采用无人机进行数据集的初步构建：采用分帧算法对视频提取单帧图片，构建无人机平台的行人数据集；对行人数据集进行标注，得到带有标签的图像数据集；

步骤2)，对图像数据集进行数据增广预处理操作，并采用K-means目标框聚类分析，自适应生成图像数据集下目标框大小；所述数据增广预处理操作包括随机翻转、裁剪、缩放和增加高斯白噪声；

步骤3)，搭建改进的MobileNetv3-YOLOv4轻量级行人目标检测网络；所述改进的MobileNetv3-YOLOv4网络是用改进的MobileNetv3网络替换CSP-Darknet53网络作为行人检测网络的特征提取层、并用CIoU损失函数替换IoU损失函数的行人检测网络YOLOv4；

所述改进的MobileNetv3网络是在bottleneck结构的深度可分离卷积模块和Scale操作模块之间增加SESAM注意力模块的MobileNetv3网络；

所述SESAM注意力模块包含压缩模块、激励模块和SAM模块；

所述压缩模块包含一个全局平均池化层，用于将深度可分离卷积模块输出大小为H×W×C的特征向量压缩成1×1×C的特征向量，得到每个通道的全局特征向量并将其输入至激励模块，C代表了模型的通道数，H和W代表图片的高和宽；

所述激励模块包含了两个全连接层，第一个全连接层有C×SERatio神经元，第二个全连接层有C神经元，用于对压缩后的特征向量做非线性变换使其映射到C个通道数的权重上，并将经非线性变换后的特征向量输入至SAM模块，SERatio是通道数量的缩放的参数；

所述SAM模块包含全局最大池化模块、全局平均池化模块和sigmoid激活函数，用于将经非线性变换后的特征向量分别输入全局最大池化模块、全局平均池化模块，得到两个H×W×1的特征向量后链接起来形成一个H×W×2的特征向量，并将该H×W×2的特征向量通过sigmoid激活函数进行归一化处理输出至Scale操作模块；

所述CIoU损失函数的公式如下：

L_CIoU＝1-CIoU

CIoU＝IoU-ρ²c^-2-αν

式中，L_CIoU是CIoU损失函数值，IoU是目标预测的边框和真实的边框的交叠率，即它们的交集和并集的比值，A是预测目标框的面积，B是真实目标框的面积；ρ是预测目标框中心与真实目标框之间的欧氏距离；c表示包含预测目标框和真实目标框的对角线距离；惩罚因子ρ²c^-2能够最小化预测框中心与地面真值中心之间的距离，α和ν公式由以下定义：

w^gt和h^gt是真值的高度和宽度，w和h是预测框的高度和宽度；

步骤4)，将经数据增广预处理操作后的图像数据集输入改进的MobileNetv3-YOLOv4轻量级行人目标检测网络，生成格式为ckpt的网络参数权重文件；

步骤5)，将网络参数权重文件加载至改进的MobileNetv3-YOLOv4轻量级行人目标检测网络，对分帧图片和视频进行行人目标框的预测，在经过非极大抑制筛选无效的目标框后，得到精确的行人预测的目标框。

作为本发明一种无人机视角下基于MobileNetv3-YOLOv4的行人检测方法进一步的优化方案，所述步骤1)中训练集和测试集的比例分别占图像数据集的90％和10％，训练集中的20％在训练过程中用来验证模型准确性。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.本发明采用改进的MobileNetv3作为主干特征提取网络，结合YOLOv4框架开展行人的目标检测，并对检测模型进行量化分析，修改网络的结构，削减了模型的参数量和运算成本以达成无人机场景下行人检测的需求；

2.本发明将MobileNetv3的SE注意力模块替换成SESAM模块，学习通道之间的相似性的同时学习了行人的空间特征，保证模型较小的同时不降低检测的精度；

3.本发明采用CIoU的损失函数去计算评价的参数，增加了对目标框尺度的敏感程度；

4.本发明在复杂多变的情况下，能够有效克服不利因素，具有更强的泛化能力，检测效果更好，在智能交通检测等系统中具有良好的应用潜力。

附图说明

图1为本发明方法原理图；

图2为特征提取层结构图；

图3为改进的MobileNetv3-YOLOv4网络的结构图；

图4为SESAM注意力模块结构图；

图5为锚框数量和精确度的参数曲线。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明可以以许多不同的形式实现，而不应当认为限于这里所述的实施例。相反，提供这些实施例以便使本公开透彻且完整，并且将向本领域技术人员充分表达本发明的范围。在附图中，为了清楚起见放大了组件。

如图1所示，本发明提供了一种无人机视角下的轻量级行人检测方法，包括：

步骤1)，采用无人机进行数据集的初步构建：利用无人机采集视频数据，并采用分帧算法对视频提取单帧图片，构建无人机平台行人数据集，采集到的图片分辨率为3840×2160，位深度为24的高像素图像；

对采集的无人机视角的行人目标数据集进行标注处理，数据集共计3243张行人图像，得到带有标签的图像数据集，其中xml标注文件与原图片一一对应，并划分数据集为训练集和测试集，其中训练集和测试集的比例分别占总数据集的90％和10％，训练集中的20％在训练过程中用来验证模型准确性；

步骤2)，对图像数据集进行数据增广预处理操作，并采用K-means目标框聚类分析，自适应生成图像数据集下目标框大小；所述数据增广预处理操作包括随机翻转、裁剪、缩放和增加高斯白噪声，无人机行人数据集从3423张扩充到了11008张图片；；

所述改进的MobileNetv3网络是在bottleneck结构的深度可分离卷积模块和Scale操作模块之间增加SESAM注意力模块的MobileNetv3网络，SESAM注意力模块能够更好的对小行人目标检测；

所述SESAM注意力模块如图4所示，所述压缩模块包含一个全局平均池化层，用于将深度可分离卷积模块输出大小为H×W×C的特征向量压缩成1×1×C的特征向量，得到每个通道的全局特征向量并将其输入至激励模块，C代表了模型的通道数，H和W代表图片的高和宽；

如图3所示将改进的MobileNetv3应用于YOLOv4上更换原有的CSP-DarkNet53主干网络，以减小模型的参数量，提升模型的运算速度，使模型轻量化；

所述CIoU损失函数替换了IoU损失函数对模型进行回归训练，公式如下：

L_CIoU＝1-CIoU

CIoU＝IoU-ρ²c^-2-αν

式中，L_CIoU是CIoU损失函数值，IoU是目标预测的边框和真实的边框的交叠率，即它们的交集和并集的比值，A是预测目标框的面积，B是真实目标框的面积，预测的框和真实的边框重合度越高，越趋近于1，所以这里采用L_IoU＝1-IoU来度量两者之间的重合度；ρ是预测目标框中心与真实目标框之间的欧氏距离；c表示包含预测目标框和真实目标框的对角线距离；惩罚因子ρ²c^-2能够最小化预测框中心与地面真值中心之间的距离，α和ν公式由以下定义：

w^gt和h^gt是真值的高度和宽度，w和h是预测框的高度和宽度；

步骤4)，对将经数据增广预处理操作后的图像数据集输入改进的MobileNetv3-YOLOv4轻量级行人目标检测网络，于硬件平台CPU为Intel(R)Xeon(R)CPU E5-2640 0@2.50GHz，GPU的型号为GeForce GTX 1080Ti编写训练脚本等程序。于Ubuntu16.04(运存为32GB)下的Tensorflow-GPU1.4.0软件平台下完成网络平台的搭建以及训练，生成格式为ckpt的网络参数权重文件；

步骤6)，将网络参数权重文件加载至改进的MobileNetv3-YOLOv4轻量级行人目标检测网络，对分帧图片和视频进行行人目标框的预测，在经过非极大抑制筛选无效的目标框后，得到精确的行人预测的目标框。

步骤2)中K-means目标框聚类分析如图5所示，选用9作为锚框的数量，此时平均IoU为0.7968。其中，大目标、中目标和小目标分别对应三个锚框大小，分别是[4.33333333,16.17777778][6.175,24.84444444][8.55833333,37.55555556]、[9.31666667,26.19259259][12.56666667,36.20740741][13.325,61.62962963]和[17.55,47.57037037][22.75,67.98518519][33.8,90.32592593]，通过这些大小锚框针对大目标行人、中目标行人和小目标行人目标进行预测；

最后，采用检测速度(Fps)、检测平均精度(mAP)、F1-score、权重文件大小等评价指标对本发明中改进的MobileNetv3-YOLOv4轻量级行人目标检测网络进行评估。mAP是各类别平均精确度的平均值，即检测到的各种类别的精确度值的几何意义是PR曲线与x轴包围的面积，C表示检测的类别总数：

F1-score越高表示模型的泛化能力越好，是综合Recall和Precision给出的一个综合评价模型好坏的指标，Recall为召回率，Precision是准确率；权重文件越小代表着模型的参数量越少，这样部署客户端的内存要求就越低。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种无人机视角下轻量级YOLOv4的行人检测方法，其特征在于，包括如下步骤：

所述SESAM注意力模块包含压缩模块、激励模块和SAM模块；

所述CIoU损失函数的公式如下：

L_CIoU＝1-CIoU

CIoU＝IoU-ρ²c^-2-αν

w^gt和h^gt是真值的高度和宽度，w和h是预测框的高度和宽度；

2.根据权利要求1所述的无人机视角下基于MobileNetv3-YOLOv4的行人检测方法，其特征在于，所述步骤1)中训练集和测试集的比例分别占图像数据集的90％和10％，训练集中的20％在训练过程中用来验证模型准确性。