CN115719457A

CN115719457A - 一种基于深度学习的无人机场景下小目标检测的方法

Info

Publication number: CN115719457A
Application number: CN202211481338.4A
Authority: CN
Inventors: 张登银; 邱宇; 冯莹莹
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-02-28
Also published as: WO2024108857A1

Abstract

本发明公开了一种基于深度学习的无人机场景下小目标检测的方法，所述方法包括：将无人机拍摄的画面输入预先训练的基于Unet型网络结构的生成器中，输出正常光线的图像；将正常光照的图像输入目标检测网络中，输出多个多维矩阵特征图，所述目标检测网络以卷积块Self‑Block为基础融合了通道注意力机制和空间注意力机制，采用7*7的大卷积核；将多个多维矩阵特征图输入特征金字塔BiFPN‑S模块进行特征融合，输出相应的多个特征图用于预测不同尺寸的目标。

Description

一种基于深度学习的无人机场景下小目标检测的方法

技术领域

本发明涉及一种基于深度学习的无人机场景下小目标检测的方法，属于计算机视觉的目标检测领域。

背景技术

无人机产业迅速发展，在工业、农业、军事等行业都发挥着重要作用。无人机传输的画面也可以提供地面拍摄所不能给予的信息。目前无人机场景下小目标检测方法存在以下两种问题：无人机画面易受到光线或机身角度的影响，导致图像灰暗从而损失小目标的细节信息；目前的检测网络对小目标的检测性能不佳。

如果直接将无人机画面用于检测而不进行预处理，经常会出现自然光线不好或者无人机位置不合适导致曝光问题，这会损失小目标的部分细节并对后续检测造成不好的影响。

传统的弱光增强方法一般是基于直方图均衡或Retinex模型等方法，处理速度慢，自适应力低，不能满足后续检测对精度以及实时性的要求；而基于深度学习的弱光增强方法则大部分依赖成对的数据集进行训练，训练复杂其次无人机拍摄目标普遍较小，由于小目标本身具有尺寸有限，外观和几何线索较少以及和背景区分度不高等特点，所以一般方法对小目标检测的精度并不高，导致将其运用在无人机场景下的效果并不理想，而如何优化小目标的检测是计算机视觉领域的一个挑战性任务。

发明内容

本发明的目的在于提供本发明是一种基于深度学习的无人机场景下小目标检测的方法，该方法在增强和检测部分均采样深度学习的方法，解决了传统方法速度慢，精度低的缺点。同时对现有目标检测网络进行改进，使方法适用于无人机场景，解决了弱光图像的小目标检测问题，提升了小目标检测的性能。

一种基于深度学习的无人机场景下小目标检测的方法，所述方法包括：

将无人机拍摄的画面输入预先训练的基于Unet型网络结构的生成器中，输出正常光线的图像；

将正常光照的图像输入目标检测主干网络中，输出多个多维矩阵特征图，所述目标检测网络以卷积块Self-Block为基础融合了通道注意力机制和空间注意力机制，采用7*7的大卷积核；

将多个多维矩阵特征图输入特征金字塔BiFPN-S模块进行特征融合，输出相应的多个特征图用于预测不同尺寸的目标。

进一步地，所述生成器的训练方法包括：

选择弱光图像和正常光照的图像；

将弱光图像和正常光照的图像输入鉴别器与生成器中，通过鉴别器指导生成器生成更加真实的图像；

生成器与相对鉴别器采用交替训练使得生成的图像无限逼近正常光照图像，将生成器部分作为训练好的生成器。

进一步地，所述鉴别器的结构公式如下：

其中x_r表示从正常图像中采样，而x_f表示从生成器生成的图像中采样，σ表示sigmoid函数，C(x)表示图像是真实正常光照图像的概率，E()表示数学期望。

进一步地，所述生成器损失函数Loss_G如下：

E()表示数学期望，D()表示鉴别器的输出。

进一步地，所述鉴别器的损失函数Loss_D如下：

E()表示数学期望，D()表示鉴别器的输出。

进一步地，所述通道注意力机制等价的公式如下所示：

w＝σ(C1D[AugPool(y)；MaxPool(x)]) (5)

其中AugPool()代表全局平均池化后的1*1*C矩阵，MaxPool()代表最大池化后的1*1*C矩阵，C1D代表一维卷积运算，σ表示sigmoid函数。

进一步地，所述空间注意力机制等价的公式如下所示：

W＝σ(Conv7*7[AugPool(y)；MaxPool(x)]) (6)

AugPool()代表全局平均池化后的H*W*C矩阵，MaxPool()代表最大池化后的H*W*C矩阵，Conv^7*7()表示卷积核大小为7*7的卷积运算，σ表示sigmoid函数。

进一步地，所述方法还包括：

将无人机拍摄的画面用K-means聚类算法对检测目标重新聚类。

与现有技术相比，本发明所达到的有益效果：

(1)本发明在预处理阶段采用深度学习的方法，通过生成对抗网络训练出一种Unet型网络结构的生成器，能够自适应地处理由于自然光线不好或者无人机位置不合适导致图像灰暗问题。克服了传统弱光增强模型处理速度慢，自适应力低等缺点，与此同时，也避免了目前深度学习方法大部分依赖成对的数据集进行训练的问题。除此之外，还可以通过筛选不同情况下的训练图片增强网络适应力，提升小目标检测性能。

(2)本发明通过融合注意力机制提出了一种新的卷积块Self-Block用于目标检测的主干网络，能够以很小的代价增加检测的性能。相比于现在普遍使用的3*3小卷积块，Self-Block具有更大感受野和关注重点目标的能力，有助于小目标的检测。

(3)本发明以BiFPN为基础提出了一种简化版特征金字塔(BiFPN-S)用于特征融合。现代特征金字塔一般有计算量大(如：PANet)或者融合不充分的缺点(如：FPN)。而BiFPN-S通过添加残差结构与减少不必要的融合点实现了一种高效、融合充分的特征金字塔结构，可以提高小目标检测的性能。

本发明的优点是全部采用深度学习的方式进行小目标检测，搭配计算机成熟的卷积运算技术以及GPU的高效计算性能，做到了检测速度快、精度高；通过Unet型网络结构的生成器对无人机图像进行预处理，可以自适应地处理不同条件下的弱光场景，减少对小目标检测的干扰；用Self-Block作为Backbone的卷积块提高网络性能；使用BiFPN-S进行特征融合，做到了同时保留大感受野、丰富语义信息以及小目标的特征线索，极大程度地提升小目标检测的性能。

附图说明

图1为本发明方法流程图；

图2为本发明整体网络框架示意图；

图3为本发明生成器训练过程示意图；

图4为本发明Self-Block结构示意图；

图5为本发明通道注意力结构示意图；

图6为本发明空间注意力结构示意图；

图7为本发明BiFPN-S结构示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图2所示，本发明提出一种基于深度学习的无人机场景下小目标检测方法，包括预处理网络和检测网络两个部分。

预处理网络通过生成对抗训练方式进行训练；检测网络中引入Self-Block卷积块和BiFPN-S特征金字塔来提高网络性能和小目标检测精度。以下详细叙述各模块实现方法及功能：

第一步，为了能够自适应的增强弱光图像，根据无人机传输回来的图像或视频挑选出500-1000张弱光图像，再选取1000张正常曝光的图像(此图像无需与无人机图像匹配，任何正常曝光的图像均可)，接着将两个数据集放入生成对抗网络中进行训练。

训练流程如图3所示，在鉴别器C的基础上采用相对鉴别器结构，它可以估计正常光照图像比生成图像更加真实的概率，并指导生成器生成更加真实的图像，相对鉴别器结构的公式如下：

生成器与相对鉴别器采样交替训练的方式，使得生成的图像无限逼近正常光照图像，生成器的损失函数Loss_G和相对鉴别器的损失函数Loss_D如下：

E()表示数学期望，D()表示鉴别器的输出。

训练完后即可将生成器部分单独拿出。如果训练好的生成器在某个特定的场景增强效果不理想，可以将生成器用该场景的弱光图像再次训练，从而得到适应该场景的生成器。所以此增强方法具有传统方法不具备的自适应性。

第二步，将生成器的输出接入目标检测网络，该网络以Yolov5网络为基础，融合了ConvNeXt和特征金字塔思想提出一种高效、实时以及端到端的目标检测网络。

首先将Yolov5的头部(stem)简化成一层4*4的小卷积核。因为浅层特征主要是条纹和形状，过于复杂的头部并不会增强检测的性能，反而会增强运算量，所以使用一层小卷积核提取浅层特征即可。

其次将主干网络(Backbone)的四个阶段的层数设置为(3，3，9，3)，且每层都由卷积块Self-Block串联而成，Self-Block结构示意图如图4所示。目前主流网络的卷积块普遍采用多个3*3的卷积核堆叠而成，因为这样可以加速运算，而Self-Block以ConvNeXt思想为基础，使用7*7的大卷积核以及深度可分离的卷积方式。7*7的大卷积核可以提供比3*3堆叠的卷积核更大、更有效的感受野，为下游的小目标检测提供更好的性能。而深度可分离的卷积方式可以加速大卷积核的运算，7*7卷积核的参数量远远大于3*3卷积核但实际运算速度只慢了一点，检测性能却得到极大提升。除此之外深度可分离的卷积方式也可以分离空间特征和通道特征，这与目前性能极佳的Swin transformer思想保持一致。在此基础上将通道注意力机制和空间注意力机制融入Self-Block模块，并将两个注意力模块分离放在不同的部分，既加强了“分离空间特征和通道特征”的特点，又让网络能够重点关注小目标的特征。通道注意力机制的结构如图5所示，因为在两个一维数组之间放弃全连接的方式，而采用卷积的方式共享参数，所以可以在增加很少计算量的同时能够关注特征图的重点通道，等价的公式如下所示：

w＝σ(C1D[AugPool(y)；MaxPool(x)]) (5)

其中AugPool()代表全局平均池化后的1*1*C矩阵，MaxPool()代表最大池化后的1*1*C矩阵，C1D代表一维卷积运算，σ表示sigmoid函数。空间注意力机制的结构如图6所示。同时采用平均池化和最大池化来池化特征，能最大程度的提高网络的表征能力，并关注特征图的重点空间位置区域，等价的公式如下所示：

W＝σ(Conv^7×7[AugPool(y)；MaxPool(x)]) (6)

其中AugPool()代表全局平均池化后的H*W*C矩阵，MaxPool()代表最大池化后的H*W*C矩阵，Conv^7*7()表示卷积核大小为7*7的卷积运算，σ表示sigmoid函数。

然后将目前主流使用的BN归一化替换成SN归一化(Switchable Normalization)。目前归一化的方法有BN、LN、IN、GN等，面对不同的网络结构以及场景会有不同的最优选择，如何达到最优需要大量的对照实验。而SN是一个可微的归一化层，可以让模型根据数据来学习到每一层该选择的归一化方法，亦或是三个归一化方法的加权和，从而提升模型的性能。

接着将不同阶段的特征图输入至特征金字塔(BiFPN-S)进行特征融合，BiFPN-S结构如图7所示。现代特征金字塔一般有计算量大或者融合不充分的缺点，所以本发明以BiFPN为基础提出了BiFPN-S用于特征融合。为克服特征融合计算量大的缺点，BiFPN-S移除了上下两边特征图一阶段的特征融合，因为在这个阶段两边信息单一，对最后融合贡献较少并且增强了计算量；为了克服融合不重复的缺点，BiFPNS-S在第二阶段进行第二次特征融合，以便充分融合浅层和深层的信息。除此之外，BiFPN-S还通过残差连接增强特征的表示能力。用特征融合后的特征图进行预测可以极大程度的提升小目标检测的性能。

因为无人机画面中的目标普遍较小，而通用的Anchor尺寸并不适用，所以在训练网络前用K-means聚类算法对检测目标重新聚类。最后用Yolov5的训练方式训练本发明的检测网络，网络整体的损失函数Loss如下所示：

其中L_cls是分类损失，L_obj是置信度损失，L_loc是定位损失，

是平衡系数。

本发明所提出的系统，其优点在于：

(1)通过生成对抗网络训练出一种Unet型网络结构的生成器，能够自适应地处理由于自然光线不好或者无人机位置不合适导致曝光问题。

(2)在检测网络中使用Self-Block和BiFPN-S可以提高网络性能、提高小目标检测的精度。

本发明公开一种基于深度学习的无人机场景下小目标检测方法，该方法可以提高小目标检测的性能，并且可以应对因自然光线不好或无人机角度不合适而造成的弱光情况对小目标检测的干扰。

以上所述，仅为本发明专利中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。