CN116721368A

CN116721368A - 一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法

Info

Publication number: CN116721368A
Application number: CN202310775421.0A
Authority: CN
Inventors: 周黎鸣; 刘哲昊; 赵航; 左宪禹; 葛强; 刘扬; 党兰学; 侯艳娥
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-08

Abstract

本发明公开一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，包括：构建目标检测网络；目标检测网络由主干网络、多重特征融合网络和预测头三部分组成；主干网络由坐标和全局信息聚合模块组成；坐标和全局信息聚合模块包括坐标信息提取分支和全局信息提取分支；对构建的目标检测网络进行训练，得到目标检测模型，并采用Focal‑EIOU loss作为模型的边界框损失；基于目标检测模型对无人机航拍图像进行多尺度目标检测。本发明通过结合坐标信息和全局信息来缓解特征提取过程中背景因素的干扰，增强了网络提取鲁棒性特征的能力；本发明设计的多重特征融合网络，可以使更好地融合多尺度特征，改善多尺度目标的检测性能。

Description

一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法

技术领域

本发明涉及无人机图像目标检测技术领域，尤其涉及一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法。

背景技术

无人机应用技术在近年来也取得了很大的进展。由于无人机具有成本较低、机动性好、方便使用的优势，无论是对于军事还是民用领域都有很大的应用价值。无人机图像目标检测也因此成为了近年来的研究热点。然而，大多目标检测方法在无人机图像上的特征提取能力有限，检测性能受限，无法达到较高检测精度的要求。因此一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法是一项有意义的课题。

许多基于卷积神经网络的检测模型都取得了良好的效果，然而，由于无人机图像的特殊性，普通目标检测框架无法很好地适用于无人机图像，相比于在自然图像上进行目标检测工作，无人机图像上的目标检测工作通常面临以下几点挑战：

(1)无人机图像中，通常会有很多目标被遮挡的情况，同时由于光线的原因导致目标的边界和特征变得不明显，模型很难提取出具有判别性特征。

(2)因为无人机拍摄视角的问题，无论是同一类别的目标还是不同类别的目标，其尺度存在很大差距，且小目标居多，非常考验模型对多尺度目标和小目标的特征提取能力。

(3)现有模型的边界框回归损失函数存在缺陷，不能很好的对边界框进行回归，从而降低检测器的性能。

发明内容

本发明针对上述问题，提出一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，可以对拍摄角度复杂多变的无人机图像进行精确的检测工作。本发明通过结合坐标信息和全局信息来缓解特征提取过程中背景因素的干扰，增强网络提取鲁棒性特征的能力。为了提高模型对多尺度目标的检测能力，本发明通过对特征融合网络进行改进，设计出了一种名为多重特征融合网络(Multi-Feature Fusion Pyramid Network，MF-FPN)的结构，可以更好地融合多尺度特征，改善多尺度目标的检测性能。为了提高模型边界框回归的能力，本发明使用Focal-EIOU损失函数来替换模型原本的边界框回归损失，改善模型的检测性能。本发明使用具有挑战性的VisDrone数据集进行实验，以验证所提出模型的有效性。

为了实现上述目的，本发明采用以下技术方案：

一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，包括：

步骤1：构建目标检测网络；所述目标检测网络由主干网络、多重特征融合网络和预测头三部分组成；所述主干网络用于提取输入无人机图像的特征信息，并输出不同大小的特征图；所述多重特征融合网络用于对不同大小的特征图进行特征融合；所述预测头用于基于融合后特征进行检测，来获得最终的检测结果；所述主干网络由坐标和全局信息聚合模块组成；所述坐标和全局信息聚合模块包括坐标信息提取分支和全局信息提取分支，坐标信息提取分支通过引入注意力机制，令其在使用卷积进行特征提取的同时时刻关注坐标信息，全局信息提取分支通过池化操作来获得特征图全局信息，最终通过将两个分支提取的特征进行融合来获得具有更丰富上下文信息的特征；

步骤2：对构建的目标检测网络进行训练，得到目标检测模型，并采用Focal-EIOUloss作为模型的边界框损失；

步骤3：基于目标检测模型对无人机航拍图像进行多尺度目标检测。

进一步地，所述坐标信息提取分支的处理流程包括：

首先使用1×1卷积将输入特征图的通道数减半，获得第一个中间特征图M₁；

然后使用3×3卷积和注意力机制来提取目标特征，获得第二个和第三个中间输出特征图M₂，M₃：

M₂＝CA(Conv_3×3(CA(Conv_3×3(M₁))))

M₃＝CA(Conv_3×3(CA(Conv_3×3(M₂))))

式中，CA表示注意力机制。

进一步地，所述注意力机制的处理流程包括：

首先对输入特征图F∈R^C×H×W进行水平方向和垂直方向上的池化操作，获得两个具有方向感知的特征图f^h∈R^C×H×1和f^w∈R^C×1×W：

其中f_c和F_c分别表示输出和输入特征图的第c个通道，H和W分别表示输入特征图的高和宽；

然后，将f^h和f^w在空间维度上进行Concat操作，之后使用1×1卷积减少通道数，再通过批归一化和激活函数来获得特征其中r是用来降低通道数的缩放因子；

M＝δ(BN(Conv_1×1([f^h，f^w])))

其中[·]表示通道Concat操作，BN表示批归一化，δ表示非线性激活函数；然后，将M从空间维度进行分割，获得两个特征张量和/>将这两个特征张量分别进行1×1卷积操作，来将通道数提升到与输入特征图的通道数相同，再通过Sigmoid函数得到注意力权重g^h和g^w：

g^h＝σ(Conv_1×1(y^h))

g^w＝σ(Conv_1×1(y^w))

其中σ表示sigmoid函数；

最后将g^h和g^w与输入特征图F进行相乘，得到最后的输出特征图Y∈R^C×H×W：

进一步地，所述全局信息提取分支的处理流程包括：

先使用全局池化操作来增加骨干网的全局上下文信息，对于输入特征X∈R^C×H×W，首先进行全局平均池化操作和全局最大池化操作，然后将二者结果相加，再通过一个全连接层和Sigmoid函数来为每个通道分配权重，令模型关注高响应的通道信息：

其中GAP和GMP分别表示全局平均池化和全局最大池化。FC表示全连接层。

σ表示sigmoid函数；

然后，将结果与输入特征X相乘，再经过一个1×1卷积将通道数减半，得到全局信息提取分支的输出特征

进一步地，按照以下方式将两个分支提取的特征进行融合：

将两个分支的所有中间输出特征M₁、M₂、M₃、M₄首先进行通道Concat操作，然后使用1×1卷积整理通道信息，得到最后的输出特征图Z∈R^2C×H×W。

进一步地，所述多重特征融合网络中的特征融合方式包括：

对于只需要融合两个特征图的情况，为两个待融合特征图分配两个可学习的权重，来决定每个特征图的重要性：

其中P为F₁、F₂融合后特征，F₁、F₂为待融合的两个特征图，w₁、w₂为可学习的权重，Δ是一个很小的数，用来避免数值的不稳定；

对于融合三个特征图的情况，首先将待融合的三个特征图进行两两融合，其中每个特征都会参与两次融合，达到重复利用的效果，然后获得三个不同的中间特征图，最后为获得的三个中间特征图分配三个可学习的权重进行融合，获得具有丰富上下文信息的输出特征，用于最后的预测。

与现有技术相比，本发明具有的有益效果：

1)设计了一个坐标和全局信息聚合模块，通过将局部信息、坐标信息和全局信息进行融合，来获得更具鲁棒性的特征，从而提高模型的特征提取能力。

2)设计出一种多重特征融合金字塔网络，可以更好地解决无人机航拍图像物体尺度变化大的问题。

3)使用Focal-EIOU loss作为模型的边界框回归损失，来提高检测框的质量，同时提高模型的收敛速度。

4)本发明方法在VisDrone数据集的实验表明，与其他算法相比，本发明方法在无人机图像目标检测中具有较好的性能。从消融实验中可以看出，本发明提出的每个改进模块都能够有效的提高检测精度。因此，本发明所提出的方法相对现有的目标检测算法更适用于无人机图像的目标检测，对无人机图像的目标检测工作的研究具有重要的现实意义。

附图说明

图1为本发明实施例一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法的总体网络结构示意图；

图2为本发明实施例坐标和全局信息聚合模块结构示意图；

图3为本发明实施例注意力机制结构示意图；

图4为本发明实施例MF-FPN的特征融合模块结构示意图；

图5为本发明实施例VisDrone数据集不同场景下的检测结果；其中(a1-a4)为YOLOv7的检测结果；(b1-b4)为本发明所提出方法的检测结果。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

进一步地，对本发明进行如下展开阐述：

(1)总体网络结构

本发明提出一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，其总体网络结构如图1所示。网络由主干网络(Backbone)、多重特征融合网络(Multi-Feature Fusion Pyramid Network，MF-FPN)和预测头(Head)三部分组成。首先，通过主干网络，来提取输入无人机图像的特征信息，为了检测不同尺寸的目标，主干网络输出了几种不同大小的特征图(分别是160×160、80×80、40×40和20×20)，其中，我们将主干网络的四个输出特征图作为特征融合网络的输入。然后，将提取出的不同尺寸的特征信息，送到多重特征融合网络进行特征融合，以获得具有丰富上下文信息的三个不同尺度的特征图。最后，这些特征图将送到预测头进行检测，来获得最终的检测结果。

(2)主干网络(Backbone Network)

主干网络主要由我们设计的坐标和全局信息聚合模块(Coordinate and GlobalInformation Aggregation Module，CGAM)组成，该模块能够捕获局部信息、坐标信息和全局信息，并将其融合，从而缓解背景因素的干扰，获得更具鲁棒性的特征。CGAM模块主要包括两个分支。第一个分支通过引入Coordinate Attention(注意力)机制，令其在使用卷积进行特征提取的同时时刻关注坐标信息。第二个分支通过池化操作来获得特征图全局信息。通过将两个分支提取的特征进行融合来获得具有更丰富上下文信息的特征。坐标和全局信息聚合模块如图2所示。

1)坐标信息提取分支：CGAM的第一个分支首先使用1×1卷积将输入特征图X∈R^C ^×H×W的通道数减半，获得第一个中间特征图如公式(1)所示：

M₁＝Conv_1×1(X)#(1)

然后，使用3×3卷积和Coordinate Attention机制来提取目标特征，获得第二个和第三个中间输出特征图M₂，如公式(2)(3)所示：

M₂＝CA(Conv_3×3(CA(Conv_3×3(M₁))))#(2)

M₃＝CA(Conv_3×3(CA(Conv_3×3(M₂))))#(3)

其中，CA表示Coordinate Attention机制。Coordinate Attention机制的结构如图3所示。

Coordinate Attention机制首先对输入特征图F∈R^C×H×W进行水平方向和垂直方向上的池化操作，获得两个具有方向感知的特征图f^h∈R^C×H×1和f^w∈R^C×1×W。如公式(4)(5)所示：

其中f_c和F_c分别表示输出和输入特征图的第c个通道。H和W分别表示输入特征图的高和宽。然后，将f^h和f^w在空间维度上进行Concat，之后使用1×1卷积减少通道数。再通过Batch Normalization和激活函数来获得特征其中r是用来降低通道数的缩放因子；Batch Normalization(批归一化)用来避免梯度爆炸或梯度消失，使模型训练更加稳定；激活函数用来引入非线性因素，提高模型的表达能力。如公式(6)所示：

M＝δ(BN(Conv_1×1([f^h，f^w])))#(6)

其中[·]表示通道Concat操作，BN表示Batch Normalization，δ表示非线性激活函数。然后，将M从空间维度进行分割，获得两个特征张量和/>将这两个特征张量分别进行1×1卷积操作，来将通道数提升到与输入特征图的通道数相同，再通过Sigmoid函数得到注意力权重g^h和g^w。如公式(7)(8)所示：

g^h＝σ(Conv_1×1(y^h))#(7)

g^w＝σ(Conv_1×1(y^w))#(8)

其中σ表示sigmoid函数。最后将g^h和g^w与输入特征图F进行相乘，得到最后的输出特征图Y∈R^c×H×W。如公式(9)所示：

2)全局信息提取分支：CGAM模块的第二个分支先使用全局池化操作来增加骨干网的全局上下文信息。对于输入特征X∈R^C×H×W，首先进行全局平均池化操作和全局最大池化操作，然后将二者结果相加，再通过一个全连接层和Sigmoid函数来为每个通道分配权重，令模型关注高响应的通道信息。具体如公式(10)所示：

其中GAP和GMP分别表示全局平均池化和全局最大池化。FC表示全连接层。σ表示sigmoid函数。然后，将结果与输入特征X相乘，再经过一个1×1卷积将通道数减半，得到第二个分支的输出特征如公式(11)所示：

3)特征融合：CGAM模块将两个分支的所有中间输出特征M₁、M₂、M₃、M₄首先进行通道Concat操作，然后使用1×1卷积整理通道信息，得到最后的输出特征图Z∈R^2C×H×W。如公式(12)所示：

Z＝Conv_1×1([M₁，M₂，M₃，M₄])#(12)

(3)多重特征融合网络(Multi-Feature Fusion Pyramid Network，MF-FPN)

无人机图像中的目标尺度变化极大，且小目标居多。为了改善多尺度目标的检测性能，提出了MF-FPN特征融合结构，该结构通过重复利用特征图进行融合，来获得更多的上下文信息。为了缓解小目标检测困难的问题，将大小为160×160的特征图加入到MF-FPN结构中进行融合。如图4所示，本发明在Neck模块中新增了一条跳跃连接的融合路径。MF-FPN的特征融合方式如图4所示。

特征融合方式主要有两种。如果只需要融合两个特征图，例如：Neck中的自上而下的路径，则使用如图4(a)所示的方式，该方式为两个待融合特征图分配两个可学习的权重，来决定每个特征图的重要性。如公式(13)所示：

其中P(F₁，F₂)为F₁、F₂融合后特征，F₁、F₂为待融合的两个特征图，w₁，w₂为可学习的权重。Δ是一个很小的数，用来避免数值的不稳定。

对于融合三个特征图的情况，本发明采用图4(b)的方式进行对三个特征进行融合，具体过程如公式(14)。本发明首先对这三个特征图使用公式(13)进行两两融合，每个特征都会参与两次融合，达到重复利用的效果。然后获得三个不同的中间特征图，最后为这三个特征图分配三个可学习的权重进行融合，获得具有丰富上下文信息的输出特征，用于最后的预测。

其中N(F₁，F₂，F₃)为F₁、F₂、F₃融合后特征。

由于融合特征包含不同尺度和不同通道数的特征图，因此在融合之前需要将特征图的大小和通道数调整到一致。

为了保留更多的特征信息，模型中卷积的通道数通常很大，而较大的通道数会给模型带来更多的参数量。卷积所需参数量的计算公式如下所示：

Params＝K_h×K_w×C_in×C_out#(15)

其中，K_h和K_w分别是卷积核的高和宽。C_in和C_out表示卷积的输入和输出通道数。因此为了降低模型需要的参数量，本发明把模型Neck结构中的卷积通道数进行了修改，首先是自上而下路径中三个ELAN-H模块中的3×3卷积的输入和输出通道数都调整到32，然后将自下而上路径中ELAN-H模块的前两个1×1卷积的输出通道数调整为输入通道数的1/4。

(4)损失函数(Loss Function)

为了帮助模型更准确地回归边界框，并提高模型的收敛速度，本发明使用Focal-EIOU loss作为模型的边界框损失。其定义如下：

L_Focal-EIOU＝IOU^γL_EIOU#(16)

其中，IOU是预测框和真值框之间交集和并集的比值。γ是一个可调整的参数，设置为0.5。L_EIOU表示EIOU loss。IOU和L_EIOU的定义如公式(17)和(18)所示：

其中，ρ表示欧几里得公式。b和b^gt分别表示预测框和真值框的中心点。w^gt和h^gt分别是真值框的宽高，w和h是预测框的宽高。c表示预测框和真值框的最小外接矩形的对角线长度。h^c，w^c是预测框和真值框之间的最小外接矩形的高和宽。B和B^gt分别表示预测框和真值框。

Focal-EIOU loss通过对预测框的中心点、宽度和高度进行回归，能够获得更准确的检测结果。同时Focal-EIOU loss可以让高质量的锚框为模型贡献更多的梯度，从而提高模型的收敛速度。

为验证本发明效果，进行如下实验：

将本发明提出的目标检测方法在Ubuntu 18.04.6LTS系统上进行验证，以NVIDIAGeForce RTX 3090(24G)为图形处理单元进行训练和测试，CPU为Intel(R)Xeon(R)Silver4114CPU@2.20GHz，Python版本为3.6，CUDA版本为11.7，Pytorch版本为1.10.2。

在模型训练时，输入图像大小为640×640，使用带动量的Stochastic GradientDescent(SGD)优化器进行训练。动量参数设置为0.937，初始学习率设置为0.01，权重衰减系数设置为0.0005，batch size设置为8，训练迭代总数为300次。

我们在VisDrone数据集上进行了实验，并与其他检测方法进行了对比。如表1所示，本发明的检测方法优于其他方法，获得了最好的结果。与YOLOv7相比，所提出的模型提高了1.9％的mAP0.5，mAP0.75和mAP分别提高了1.6％和1.2％。本发明的模型对于中小目标的检测性能有很大提升，用于评价小目标检测性能的AP_S相对于YOLOv7提高了1.3％，评价中等目标检测性能的AP_M提高了1.2％，用于评价大目标检测性能的AP_L虽然有所降低，但仅降低了0.4％，我们认为所提出的模型对于多尺度目标的检测利大于弊。与QueryDet相比，虽然本发明的模型仅提高了0.6％的mAP0.75，但mAP0.5和mAP分别提高了2.8％和1％。与RetinaNet、Cascade-RCNN、Faster-RCNN、YOLOv3、YOLOX、YOLOv51和HawkNet相比，无论是mAP0.5、mAP0.75和mAP还是多尺度目标检测性能的评价指标AP_S、AP_M、AP_L，所提出的方法都获得了最好的结果。

表1本发明的方法与其他方法在VisDrone数据集上的实验结果对比。

Method	mAP0.5	mAP0.75	mAP	AP_s	AP_M	AP_L
							RetinaNet	35.9	18.5	19.4	14.1	29.5	33.7
Cascade R-CNN	39.9	23.4	23.2	16.5	36.8	39.4
							Faster R-CNN	40.0	20.6	21.5	15.4	34.6	37.1
YOLOv3	31.4	15.3	16.4	8.3	26.7	36.9
							YOLOX	45.0	26.6	26.7	17.4	37.9	45.3
YOLOv51	36.2	20.1	20.5	12.4	29.9	36.4
							HawkNet	44.3	25.8	25.6	19.9	36.0	39.1
QueryDet	48.1	28.8	28.3	\	\	\
							YOLOv7	49.0	27.8	28.1	18.9	39.4	47.8
Ours	50.9	29.4	29.3	20.2	40.6	47.4

为了更直观的表示本发明提出的检测方法的优势，我们给出了几张不同场景图像的检测结果。如图5所示，其中(a1)-(a4)为YOLOv7的检测结果，(b1)-(b4)为所提出方法的检测结果。由图5(a1)和(b1)中的红色虚线框部分可以看出，YOLOv7将地上的字识别成了car，而本发明的方法可以很好的识别其为背景。由图5(a2)和(b2)可以看出，对于两个紧挨着的特征很相似的目标，本发明的方法也能将其区分开来。由于小目标的特征不明显，网络学习比较困难，很容易将周围相似的背景识别为目标，而本发明改进后的检测方法提高了检测小目标的准确性，可以很好的将背景区分开来，如图5(a3)和(b3)所示。此外，我们还测试了夜间场景下的检测效果，如图5(a4)和(b4)中的红色虚线框部分所示，YOLOv7没有将其检测出来，而本发明的方法很准确的将其标记了出来。

我们还列出了每一个类别的mAP0.5，来更详细的描述本发明的方法对于哪些类别有更好的提升。如表2所示，本发明的方法在每一个类别上的mAP0.5都高于其他方法。此外，除了tricycle这一类别的结果和YOLOv7相同，其他类别都有了很大提升，尤其是bicycle和bus这两个类别分别提升了3.8％和3.3％。由此可见本发明所提出方法的有效性。

表2 VisDrone数据集上每一个类别的结果对比。

Method	pedestrian	people	bicycle	car	van	truck	tricycle	awing-tricycle	bus	motor	mAP0.5
												YOLOv3	12.8	7.8	4.0	43.0	23.5	16.5	9.5	5.1	29.0	12.5	31.4
YOLOv5l	44.4	36.8	15.6	73.9	39.2	36.2	22.6	11.9	50.5	42.8	37.4
												YOLOv7	57.6	48.7	21.6	85.4	51.9	45.8	37.9	18.3	63.0	60.0	49.0
Ours	59.7	50.7	25.4	86.2	53.4	47.4	37.9	20.2	66.3	61.6	50.9

为了验证三种改进方法的有效性，我们在VisDrone数据集上进行了消融实验。如表3所示，我们使用YOLOv7作为基线，并在VisDrone数据集上获得了49％的mAP。而本发明提出的每一种改进方法都能使检测性能取得一定程度的提升。并且所提出的集成了三个改进点后的完整检测方法与YOLOv7相比，Precision提高了0.5％，Recall提高了2.1％，mAP0.5提高了1.9％，并且参数量比YOLOv7低了0.7M。

表3 VisDrone数据集上的消融实验。

综上，本发明的关键改进点在于：

(1)本发明提出一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，可以对无人机拍摄的图像进行更精确检测工作。

(2)为了减轻背景因素对网络提取特征过程的干扰，设计了一个坐标和全局信息聚合模块，它能同时提取坐标信息、全局信息和局部信息，并将它们融合来得到更具鲁棒性的特征，从而更准确的定位目标。

(3)为了更好地检测多尺度目标，设计了一个多重特征融合网络，通过重复利用特征图，并使用可学习权重来更好地融合不同尺度的特征，可以更好地解决无人机航拍图像物体尺度变化大的问题。

(4)为了获得更准确的检测结果，并提高模型的收敛速度，使用Focal-EIOU loss代替模型原有的边界框回归损失。

(5)我们使用具有挑战性的VisDrone数据集进行实验，以验证我们改进的网络结构，同时我们还通过一系列的对比实验和消融实验，来评估和分析我们所提出的每种改进的效果。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，其特征在于，包括：

步骤2：对构建的目标检测网络进行训练，得到目标检测模型，并采用Focal-EIOU loss作为模型的边界框损失；

2.根据权利要求1所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，其特征在于，所述坐标信息提取分支的处理流程包括：

然后使用3×3卷积和注意力机制来提取目标特征，获得第二个和第三个中间输出特征图M₂,M₃：

M₂＝CA(Conv_3×3(CA(Conv_3×3(M₁))))

M₃＝CA(Conv_3×3(CA(Conv_3×3(M₂))))

式中，CA表示注意力机制。

3.根据权利要求2所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，其特征在于，所述注意力机制的处理流程包括：

首先对输入特征图F∈R^C×H×W进行水平方向和垂直方向上的池化操作，获得两个具有方向感知的特征图f^h∈R^C×H×1和fw∈R^C×1×W：

其中[·]表示通道Concat操作，BN表示批归一化，δ表示非线性激活函数；

然后，将M从空间维度进行分割，获得两个特征张量和/>将这两个特征张量分别进行1×1卷积操作，来将通道数提升到与输入特征图的通道数相同，再通过Sigmoid函数得到注意力权重g^h和g^w：

g^h＝σ(Conv_1×1(y^h))

g^w＝σ(Conv_1×1(y^w))

其中σ表示sigmoid函数；

4.根据权利要求1所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，其特征在于，所述全局信息提取分支的处理流程包括：

其中GAP和GMP分别表示全局平均池化和全局最大池化。FC表示全连接层。σ表示sigmoid函数；

5.根据权利要求4所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，其特征在于，按照以下方式将两个分支提取的特征进行融合：

6.根据权利要求1所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法，其特征在于，所述多重特征融合网络中的特征融合方式包括：