CN113298024A

CN113298024A - 一种基于轻量化神经网络的无人机对地小目标识别方法

Info

Publication number: CN113298024A
Application number: CN202110657179.8A
Authority: CN
Inventors: 詹炜; 孙泳; 李伟豪; 孙晨帆
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-08-24

Abstract

该基于轻量化神经网络的无人机对地小目标识别方法，通过在yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数的方式，使其在保证检测速度的前提下，达到了提高无人机对地小目标检测精度的目的，特别适合无人机对地小目标检测的使用。

Description

一种基于轻量化神经网络的无人机对地小目标识别方法

技术领域

本发明涉及一种无人机对地小目标的识别方法，属于无人机检测技术领域。

背景技术

无人机是指通过无线电遥控设备和独立程序控制设备操作的无人驾驶飞机。与有人驾驶飞机相比，无人机具有体积小、造价低和生存能力较强等优点，其广泛应用于城市管理、交通监控等领域。其中使用无人机对目标进行检测识别，是无人机需要具备的一项基本功能。无人机拍摄的图像具有距离远、视场大、分辨率高的特性，而无人机拍摄的图像中待检测目标几乎以小目标为主，小目标相对于整幅图像的像素占比小于0.3%。由于小目标的边界框中可能只包含几个像素，本来数量稀少的像素所承载的小目标信息就不充足，神经网络的下采样过程导致小目标的像素信息进一步丢失，甚至在深层网络中完全消失。

为了提高小目标的检测识别度，目前的检测技术（如申请公布号为CN109934131A的发明专利公开的一种基于无人机的小目标检测方法）主要采用Mask R-CNN、yolov4或传统的帧差法提升小目标的检测精度，但是这些方法依然存在着一些弊端，如基于Mask R-CNN和yolov4的方法模型计算量大，要求在具有强大浮点运算能力的服务器上运行，设备成本高昂，并且这两种方法单帧图像的平均检测时间较长，无法满足实时检测的需求，增加了检测的时间成本；基于传统的帧差法则需要依靠研究人员的丰富经验手动设计特征算子，所花费的时间多，工作量大，模型多受限于光照变化，背景噪声影响，在实际场景下的鲁棒性较差。由此有必要研发一种新的无人机对地小目标的识别方法，以解决现有方式存有的以上问题。

发明内容

本发明的目的在于：提供一种基于轻量化神经网络的无人机对地小目标识别方法，在保证检测速度的前提下，以达到提高无人机对地小目标检测精度的目的。

本发明的技术方案是：

一种无人机对地小目标的识别方法，其特征在于：包括如下步骤：

1、建立数据集；

所述的数据集为VisDrone2020数据集；

2、对数据集内的图像进行增强处理得到Mosaic增强图像；

所述的步骤2的增强处理的具体步骤如下：

2.1、从无人机中获取小目标的视频图像；在一个Batch中随机读取4幅图像，分别对这4幅图片进行翻转、缩放和色域变化数据增强操作；然后按照左上角、左下角、右下角、右上角四个方位将这4幅图像摆放好形成组合图像；

2.2、在4幅图像内部分别随机选取两条分割线，一条垂直，一条水平，分割线将这4幅图像分别分为左上、左下、右下、右上四个分割区域；

2.3、将组合图像中靠近组合中心的4个分割区域进行像素缩放调整得到4个像素分割区域；随后准备一个新的空白图像，然后将4个像素分割区域整体复制到新的空白图像上，如此即可完成视频图像的增强处理得到Mosaic增强图像；

3、训练图像信息输入小目标检测神经网络，训练得到小目标检测神经网络识别模型；

所述的小目标检测神经网络结构如下：在现有yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数；

在现有yolov5s模型中以Input模块为第0层，Focus模块为第一层，以此类推，在主干网络的5、7、9层之后加入SE注意力模块；

所述的SE注意力模块实现的具体步骤如下：

（1）、首先SE注意力模块将上一层模块输出的特征图X作为输入，使用全局平均池化作为 Squeeze 操作将输入特征图X压缩至1*1*C的特征向量；

（2）、紧接着两个全连接层组成一个瓶颈结构，建模学习通道间的相关性，我们首先用第一全连接层将特征向量的维度降低到输入的 1/r，经 ReLU函数激活后再通过第二个全连接层升回到原来的维度；（3）、特征向量经过全连接层后学习到各通道之间的权重，然后通过一个 Sigmoid 的门获得 0到1 之间归一化的权重，最后通过 Scale 操作将归一化后的权重加权到每个通道上，得到加权后的输出特征图作为下一层的输入；

所述的浅层特征级重用的具体步骤如下：

小目标检测神经网络结构的Backbone中第12层输出的特征图经过nearest上采样（Upsampling）后和第9层输出的特征图通过concat操作进行融合得到的P4特征图；融合后的P4特征图经过nearest上采样和Backbone第6层输出的特征图通过concat操作再次融合生成P3特征图；P3特征图nearest上采样后和Backbone第3层输出的浅层特征图融合后生成浅层P2特征图。该P2特征图经过BottleneckCSP模块后最终输出为Output的P2部分；

复杂的神经网络结构高度抽象后可以更加简洁的解释浅层特征级重用；

所述的浅层特征级重用包括的四个部分分别为（a）\（b）\（c）\（d）（参见说明书附图4）；其中（a）表示由主干网络和一个特征融合阶段自顶向下的特征金字塔横向连接所组成FPN结构；（b）表示本发明中引入的浅层P2特征级；（c）表示特征融合阶段自底向上的金字塔结构；（d）表示网络最终输出的特征图。

（a）中主干网络的{stage1,stage2,stage3,stage4,stage5}阶段从输入的图像中提取不同空间大小的特征图，网络层数越深，提取的特征图分辨率越小。主干网络中提取的特征图通过（a）中自顶向下连接的特征金字塔和（c）中自底向上连接的特征金字塔进行多尺度特征融合，融合后输出（d）中的特征图；

P2特征级重用的具体步骤如下：

（1）、设定主干网络中输出特征图空间大小相同的层处于相同的网络阶段，此规则下可将主干网络分为5个阶段：stage∈{stage1,stage2，stage3,stage4,stage5}，主干网络中从input到stage5表示特征图的下采样过程，随着stage的加深，特征图的空间尺寸呈2倍减小，通道大小呈2倍增加。特征级表示整个神经网络中所有具有相同空间大小的特征图的集合，而每一个stagei,i∈{1,2,3,4,5}最终输出的特征图都一一对应一层特征级Pi。

（2）、在原始的网络结构中，仅采用{stage3,stage4,stage5}所对应的{P3,P4,P5}特征级。本发明则采用浅层特征重用的策略，在原有的3层特层级的基础上重新采用了分辨率更高的浅层P2特征级，使原始的特征级扩充为以下4层：{P2,P3,P4,P5}。

（3）、（a）中的特征金字塔结构从深层的P5向浅层特征级方向逐层连接直至P3层，在原有的P3特征级基础上，特征图经过nearest上采样后和stage2输出的特征图建立横向连接生成新的P2特征图；

（4）、（c）中的特征金字塔的融合方式和（a）的相似，不同点在于（c）中从浅层P2特征级通向深层P5特征级的路径加强结构，先进行下采样操作，然后通过concat操作和（a）中的特征金字塔建立横向连接生成融合特征图。这一结构缩短了特征级与主干网络输出的浅层特征图的融合路径，能够保留更加丰富的浅层特征信息；

所述的边框损失函数由广义交并比损失函数改进而成，其具体步骤如下：

（1）、在广义交并比损失函数:

的基础上增加了中心点距离作为新的惩罚项：

，其中

表示预测框和真实框的交并比，U表示预测框和真实框的并集，

表示能够包围预测框和真实框的最小矩形的面积；

表示预测框和真实框中心点之间的距离的平方，

表示能完全包围预测框和真实框的最小矩形的对角线长度的平方，将两者的比值作为衡量预测框和真实框匹配程度的惩罚项；

（2）、在广义交并比损失函数的基础上增加了预测框和真实框的长宽比的差值作为另一项惩罚项：

,其中

作为权衡参数表示如下：

,

用于衡量长宽比一致性表示如下：

，其中

和

表示真实框的宽和高，

和

表示预测框的宽和高；

（3）、最后综合重叠面积、长宽比、中心点近距离这三个要素作为评价预测框和真实框重合度的重要指标，得到完全交并比损失函数：

；

在原始的yolov5s网络结构中加入上述三种改进方法即可得到针对小目标的神经网络识别模型。

4.设置训练参数，所述的小目标检测神经网络识别模型的训练参数；

4.1、配置模型的训练参数时将BatchSize设置为16，所有数据训练300个epochs，优化器选择随机梯度下降，初始学习率设为0.01，优化器动量值设为0.937，学习率衰减因子设置为0.0005；

4.2、将步骤1中的数据集按10：1的比例分为训练集和验证集，按照3.1中配置的训练参数在融合了2.1，2.2，2.3后的模型中训练300个epochs；

4.3、平均精度均值作为评价模型好坏的指标，计算训练得到的所有模型的平均精度均值的大小，筛选出平均精度均值最大的模型作为后续步骤5中部署的模型；

5、将采集的图像输入所述小目标检测神经网络识别模型，识别出小目标的类别和坐标信息，其步骤如下：

5.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境；

5.2、将步骤4所得平均精度均值最大的模型移植到无人机机载计算设备中，将无人机摄像头获取的图像通过硬件接口实时传入机载设备；

5.3、将步骤5.2传入的图像经过模型检测后，程序输出图像中检测到的地面小目标的类别和该类别在图片中的坐标，并将检测结果实时输送到客户端；如此客户端即可对小目标进行识别。

本发明的优点在于：

该基于轻量化神经网络的无人机对地小目标识别方法，通过在yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数的方式，使其在保证检测速度的前提下，达到了提高无人机对地小目标检测精度的目的，更加适合无人机对地小目标检测的使用。

附图说明

图1为本发明的工作流程框图；

图2为本发明的小目标检测神经网络结构示意图；

图3为本发明的SE注意力模块的结构示意图；

图4为本发明的浅层特征级重用的结构示意图；

图5为本发明进行验证实验时VisDrone2020数据集的图片；

图6为本发明进行验证实验时得到的Mosaic增强图像；

图7为本发明进行验证实验时无人机摄像头获取的图像；

图8为本发明进行验证实验时识别结果图像；

图9为本发明进行对比实验时采集的数据原图图像；

图10为本发明进行对比实验时采用yolov5s对数据原图进行处理得到的处理图像；

图11为本发明进行对比实验时采用yolov5m对数据原图进行处理得到的处理图像；

图12为本发明进行对比实验时采用yolov5l对数据原图进行处理得到的处理图像；

图13为本发明进行对比实验时采用yolov5x对数据原图进行处理得到的处理图像；

图14为本发明进行对比实验时采用本申请的方法对数据原图进行处理得到的处理图像。

具体实施方式

该无人机对地小目标的识别方法：包括如下步骤：

1、建立数据集；

所述的数据集为VisDrone2020数据集。

2、对数据集内的图像进行增强处理得到Mosaic增强图像；

所述的步骤2的增强处理的具体步骤如下：

Mosaic数据增强的步骤2.3可以丰富图像的背景，其中的缩放操作可以增加小目标的数量，进而增强网络的鲁棒性；同时由于Mosaic是4幅图像的拼接，相当于一次训练4幅图像，可以有效减少GPU的使用和训练时长。

所述的小目标检测神经网络结构如下（参见说明书附图2）：在现有yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数；

在现有yolov5s模型中以Input模块为第0层，Focus模块为第一层，以此类推，在主干网络的5、7、9层之后加入SE注意力模块（SELayer）(参见说明书附图2)；

SE注意力模块实现的具体步骤如下：

（1）、首先SE注意力模块将上一层模块输出的特征图X作为输入，使用全局平均池化(GAP) 作为 Squeeze 操作将输入特征图X压缩至1*1*C的特征向量（参见说明书附图3）；

（2）、紧接着两个全连接层组成一个瓶颈结构，建模学习通道间的相关性，我们首先用第一全连接层将特征向量的维度降低到输入的 1/r（r为缩放系数，其范围为0-32，当r取16时，取得最优结果），经 ReLU函数激活后再通过第二个全连接层升回到原来的维度；

这样做比直接用一个全连接层的好处在于：1）具有更多的非线性，可以更好地拟合通道间复杂的相关性；2）极大地减少了参数量和计算量；（3）、特征向量经过全连接层后学习到各通道之间的权重，然后通过一个 Sigmoid 的门获得 0到1 之间归一化的权重，最后通过 Scale 操作将归一化后的权重加权到每个通道上，得到加权后的输出特征图作为下一层的输入；

SE注意力模块通过和特征图相同通道数的一维向量学习各通道之间的相关性，再由通道乘法将一维向量加权到输入特征图上，在通道维度中重新校准原始特征，赋予具有重要特征的通道更多的权重，抑制对当前任务不重要的的区域。由于在检测时小目标难以和背景进行区分，SE注意力模块能够抑制背景，使小目标更加容易区分，从而有效增加了小目标的检测精度。

所述的浅层特征级重用的具体步骤如下（参见说明书附图2）：

小目标检测神经网络结构的Backbone中第12层输出的特征图经过nearest上采样（Upsampling）后和第9层输出的特征图通过concat操作进行融合得到的P4特征图；融合后的P4特征图经过nearest上采样和Backbone第6层输出的特征图通过concat操作再次融合生成P3特征图；P3特征图nearest上采样后和Backbone第3层输出的浅层特征图融合后生成浅层P2特征图；该P2特征图经过BottleneckCSP模块后最终输出为Output的P2部分；

复杂的神经网络结构（参见说明书附图2）高度抽象后（见说明书附图4）可以更加简洁的解释浅层特征级重用；

所述的浅层特征级重用包括的四个部分分别为（a）\（b）\（c）\（d）（参见说明书附图4）；其中（a）是由主干网络和一个特征融合阶段自顶向下的特征金字塔，横向连接所组成FPN结构；（b）表示本发明中引入的浅层P2特征级；（c）表示特征融合阶段自底向上的金字塔结构；（d）表示网络最终输出的特征图。

（a）中主干网络的{stage1,stage2,stage3,stage4,stage5}阶段从输入的图像中提取不同空间（或分辨率）大小的特征图，网络层数越深，提取的特征图分辨率越小。主干网络中提取的特征图通过（a）中自顶向下连接的特征金字塔和（c）中自底向上连接的特征金字塔进行多尺度特征融合，融合后输出（d）中的特征图；

P2特征级重用的具体步骤如下：

（1）、设定主干网络中输出特征图空间大小相同的层处于相同的网络阶段，（参见说明书附图4）此规则下可将主干网络分为5个阶段：stage∈{stage1,stage2，stage3,stage4,stage5}，主干网络中从input到stage5表示特征图的下采样过程，随着stage的加深，特征图的空间尺寸呈2倍减小，通道大小呈2倍增加。特征级表示整个神经网络中所有具有相同空间大小的特征图的集合，而每一个stagei,i∈{1,2,3,4,5}最终输出的特征图都一一对应一层特征级（feature level）Pi。

（3）、（a）中的特征金字塔结构（参见说明书附图4）从深层的P5向浅层特征级方向逐层连接直至P3层，在原有的P3特征级基础上，特征图经过nearest上采样后和stage2输出的特征图建立横向连接生成新的P2特征图；

在神经网络的特征融合阶段，采用小目标信息更加丰富的浅层P2特征级，缩短浅层特征图上的信息在整个特征融合网络中的流动路径以保留更多小目标特征和语义信息。

所述的边框损失函数由广义交并比损失函数（LGIoU）改进而成，其具体步骤如下：

（1）、在广义交并比损失函数:

的基础上增加了中心点距离作为新的惩罚项：

，其中

表示预测框和真实框的交并比；U表示预测框和真实框的并集；

表示能够包围预测框和真实框的最小矩形的面积；

表示预测框和真实框中心点之间的距离的平方；

表示能完全包围预测框和真实框的最小矩形的对角线长度的平方；将两者的比值作为衡量预测框和真实框匹配程度的惩罚项；

，其中

作为权衡参数表示如：

，用于衡量长宽比一致性：

，其中

和

表示真实框的宽和高，

和

表示预测框的宽和高；

（3）、最后将重叠面积、长宽比、中心点近距离这三个要素作为评价预测框和真实框重合度的重要指标，得到完全交并比损失函数：

引入预测框与真实框的中心点距离以及长宽比相关的惩罚项，解决了预测框与真实框完全重合时

的退化问题,使更多的小目标参与到梯度更新，从而有效提升小目标的检测精度；

4.1、配置模型的训练参数时将BatchSize设置为16，所有数据训练300个epochs，优化器选择随机梯度下降（SGD），初始学习率设为0.01，优化器动量值设为0.937，学习率衰减因子设置为0.0005；

4.3、平均精度均值作为评价模型好坏的指标，计算训练得到的所有模型的平均精度均值的大小，筛选出平均精度均值最大的模型作为后续步骤5的模型；

5.3、将步骤5.2传入的图像经过模型检测后，程序输出图像中检测到的地面小目标的类别和该类别在图片中的坐标，并将图像实时输送到客户端；如此客户端即可对小目标进行识别。

为了验证本申请的可行性，申请进行进行了如下验证实验：

申请人在网站http://aiskyeye.com/中获得了VisDrone2020数据集，随后进行了如下处理：

1、建立数据集；

所述的数据集为VisDrone2020数据集（参见说明书附图5）。

2、对数据集内的图像进行增强处理得到Mosaic增强图像；

所述的步骤2的增强处理的具体步骤如下：

2.3、将组合图像中靠近组合中心的4个分割区域进行像素缩放调整得到4个像素分割区域；随后准备一个新的空白图像，然后将4个像素分割区域整体复制到新的空白图像上，如此即可完成视频图像的增强处理得到Mosaic增强图像（参见说明书附图6）。

SE注意力模块实现的具体步骤如下：

（2）、紧接着两个全连接层组成一个瓶颈结构，建模学习通道间的相关性，我们首先用第一全连接层将特征向量的维度降低到输入的 1/r，r为缩放系数取16，经 ReLU函数激活后再通过第二个全连接层升回到原来的维度；（3）、特征向量经过全连接层后学习到各通道之间的权重，然后通过一个 Sigmoid 的门获得 0到1 之间归一化的权重，最后通过Scale 操作将归一化后的权重加权到每个通道上，得到加权后的输出特征图作为下一层的输入；

小目标检测神经网络结构的Backbone中第12层输出的特征图经过nearest上采样（Upsampling）后和第9层输出的特征图通过concat操作进行融合得到的P4特征图；融合后的P4特征图经过nearest上采样和Backbone第6层输出的特征图通过concat操作再次融合生成P3特征图；P3特征图nearest上采样后和Backbone第3层输出的浅层特征图融合后生成浅层P2特征图；该P2特征图经过BottleneckCSP模块后最终输出为Output部分P2；

P2特征级重用的具体步骤如下：

（1）、在广义交并比损失函数:

的基础上增加了中心点距离作为新的惩罚项：

，其中

表示能够包围预测框和真实框的最小矩形的面积；

表示预测框和真实框中心点之间的距离的平方；

，其中

作为权衡参数表示如：

，

用于衡量长宽比一致性：

，其中

和

表示真实框的宽和高，

和

表示预测框的宽和高；

5.2、将步骤4所得平均精度均值最大的模型移植到无人机机载计算设备中，将无人机摄像头获取的图像通过硬件接口实时传入机载设备（参见说明书附图7）；

5.3、将步骤5.2传入的图像经过模型检测后，程序输出图像中检测到的地面小目标的类别和该类别在图片中的坐标，并将图像实时输送到客户端；如此客户端即可对小目标进行识别（识别结果参见说明书附图8）。

为了证明本申请的先进性，本申请进行了如下对比实验：

使用无人机在某地，于2021年3月采集到了数据原图，分别使用yolov5s，yolov5m，yolov5l，yolov5x,以及本发明的方法进行处理得到处理图像。

图10为数据原图采用yolov5s对数据原图进行处理得到的处理图像；

图11为数据原图采用yolov5m对数据原图进行处理得到的处理图像；

图12为数据原图采用yolov5l对数据原图进行处理得到的处理图像；

图13为数据原图采用yolov5x对数据原图进行处理得到的处理图像；

图14为数据原图采用本申请的方法对数据原图进行处理得到的处理图像。

从说明书附图11-14中可明确看出本发明所用方法对于远景小目标的识别的目标个数远远多于yolo系列方法识别的个数，由此本申请的方式相对于yolo系列方法效果更好，精度更高。

Claims

1.一种无人机对地小目标的识别方法，其特征在于：包括如下步骤：

1、建立数据集；

所述的数据集为VisDrone2020数据集；

2、对数据集内的图像进行增强处理得到Mosaic增强图像；

所述的步骤2的增强处理的具体步骤如下：

SE注意力模块实现的具体步骤如下：

（2）、紧接着两个全连接层组成一个瓶颈结构，建模学习通道间的相关性，我们首先用第一全连接层将特征向量的维度降低到输入的 1/r，r为缩放系数，经 ReLU函数激活后再通过第二个全连接层升回到原来的维度；（3）、特征向量经过全连接层后学习到各通道之间的权重，然后通过一个 Sigmoid 的门获得 0到1 之间归一化的权重，最后通过 Scale操作将归一化后的权重加权到每个通道上，得到加权后的输出特征图作为下一层的输入；

所述的浅层特征级重用的具体步骤如下：

小目标检测神经网络结构的Backbone中第12层输出的特征图经过nearest上采样后和第9层输出的特征图通过concat操作进行融合得到的P4特征图；融合后的P4特征图经过nearest上采样和Backbone第6层输出的特征图通过concat操作再次融合生成P3特征图；P3特征图nearest上采样后和Backbone第3层输出的浅层特征图融合后生成浅层P2特征图；该P2特征图经过BottleneckCSP模块后最终输出为Output的P2部分；

所述的浅层特征级重用包括的四个部分分别为（a）\（b）\（c）\（d）（参见说明书附图4）；其中（a）是由主干网络和一个特征融合阶段自顶向下的特征金字塔，横向连接所组成FPN结构；（b）表示本发明中引入的浅层P2特征级；（c）表示特征融合阶段自底向上的金字塔结构；（d）表示网络最终输出的特征图；

（a）中主干网络的{stage1,stage2,stage3,stage4,stage5}阶段从输入的图像中提取不同空间大小的特征图，网络层数越深，提取的特征图分辨率越小；主干网络中提取的特征图通过（a）中自顶向下连接的特征金字塔和（c）中自底向上连接的特征金字塔进行多尺度特征融合，融合后输出（d）中的特征图；

在原始的yolov5s网络结构中加入SE注意力模块、浅层特征重用以及改进了边框损失函数，即可得到针对小目标的神经网络识别模型；

2.根据权利要求1所述的一种无人机对地小目标的识别方法，其特征在于：P2特征级重用的具体步骤如下：

（1）、设定主干网络中输出特征图空间大小相同的层处于相同的网络阶段，此规则下可将主干网络分为5个阶段：stage∈{stage1,stage2，stage3,stage4,stage5}，主干网络中从input到stage5表示特征图的下采样过程，随着stage的加深，特征图的空间尺寸呈2倍减小，通道大小呈2倍增加；特征级表示整个神经网络中所有具有相同空间大小的特征图的集合，而每一个stagei,i∈{1,2,3,4,5}最终输出的特征图都一一对应一层特征级Pi；

（2）、在原始的网络结构中，仅采用{stage3,stage4,stage5}所对应的{P3,P4,P5}特征级；本发明则采用浅层特征重用的策略，在原有的3层特层级的基础上重新采用了分辨率更高的浅层P2特征级，使原始的特征级扩充为以下4层：{P2,P3,P4,P5}；

（4）、（c）中的特征金字塔的融合方式和（a）的相似，不同点在于（c）中从浅层P2特征级通向深层P5特征级的路径加强结构，先进行下采样操作，然后通过concat操作和（a）中的特征金字塔建立横向连接生成融合特征图；

这一结构缩短了特征级与主干网络输出的浅层特征图的融合路径，能够保留更加丰富的浅层特征信息。

3.根据权利要求2所述的一种无人机对地小目标的识别方法，其特征在于：

（1）、在广义交并比损失函数: