CN115497005A

CN115497005A - 一种融合特征转移与注意力机制的yolov4遥感目标检测方法

Info

Publication number: CN115497005A
Application number: CN202211078264.XA
Authority: CN
Inventors: 熊炫睿; 徐稳; 张宇樊; 方海领; 林为琴; 陈怡�
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-12-20

Abstract

本发明涉及一种融合特征转移与注意力机制的YOLOV4遥感目标检测方法，包括：通过Mosaic数据增强方法预处理遥感图像数据；构建融合特征转移与注意力机制的YOLOV4遥感目标检测模型；将所述的遥感数据输入到所述的模型进行训练；获取待检测的遥感图像，将遥感图像预处理至统一大小；将处理后的遥感图像输入到训练好的目标检测模型进行检测，输出检测结果即待检测图像中遥感目标的边界框位置以及目标类别。本发明通过改进YOLOV4，融合特征转移与注意力机制，在不明显增加模型参数量的前提下可显著提升检测精度。

Description

一种融合特征转移与注意力机制的YOLOV4遥感目标检测方法

技术领域

本发明属于遥感目标检测领域，具体是一种融合特征转移与注意力机制的YOLOV4遥感目标检测方法。

背景技术

遥感目标检测在军事及民用等领域发挥着巨大作用，例如在当今世界高科技军事对抗中遥感目标检测技术可以及时准确的获取战场信息，捕获重要战略设施位置；在民用领域，遥感目标检测技术可以为环境监测，资源勘探，野外营救等方面提供重要的技术支撑。然而与自然场景图像相比，遥感图像存在以下一些特殊性导致遥感图像目标检测一直都是个巨大挑战：

1，尺度多样性：航空遥感图像可从几百米到近万米的高度进行拍摄，且地面目标即使是同类目标也大小不一，如港口的轮船大至数百米，小至数十米。

2，视角特殊性：航空遥感图像的视角基本都是高空俯视，但常规数据集大部分还是水平视角，所有同一目标模式不同，检测器所面临的挑战也不同。

3，小目标问题：航空遥感图像分辨率高，但是遥感目标大多只包含极少的像素点，这就导致目标可用信息不足，常规检测器在遥感目标检测场景中易出现漏检的情况。

4，背景复杂度高：航空遥感图像视野较大，视野中可能包含各种各样的背景，会对目标检测产生较强的干扰。

现有的目标检测方法主要包括基于人工手工设计特征的传统目标检测算法以及基于深度学习的目标检测算法。传统目标检测算法需要人工根据具体数据设计图像特征，因此传统的检测算法一方面泛化能力弱，当面临新样本图像时无法有效的检测，另一方面人工设计图像特征工作量大，时间成本更高。基于深度学习的目标检测算法可分为一阶段目标检测算法以及两阶段目标检测算法，一阶段的检测算法整个检测过程分为两个环节：首先根据特征提取网络提取到的特征生成候选框，然后对候选框进行检测，两阶段检测算法检测精度较高但是速度较慢。一阶段检测算法直接通过回归得到检测边框以及类别，检测速度较快但是精度相对较低。在遥感目标检测领域，现有的目标检测算法存在一些局限性：首先，遥感图像背景复杂，一般检测算法不能有效的应对背景信息干扰，容易将被背景图像检测为目标；其次，一般检测算法对于图像特征尺度不敏感，在尺度差异较大的场景下检测效果更差；另外，一般检测算法存在语义缺失或者语义模糊的问题，在对具体目标进行检测时，容易造成错检的情况。

综上所述，设计一种能够有效抑制复杂背景信息，提高尺度感知能力以及更有效的语义信息的目标检测算法对于遥感目标检测具有重要的现实意义。

发明内容

为解决现有的目标检测器在遥感图像检测中的不足，本发明提供了一种融合特征转移以及注意力机制遥感图像目标检测算法。通过改进YOLOV4目标检测算法来实现对于遥感图像的有效检测。

为了实现上述目的，本发明采用了以下技术方案：融合特征转移与注意力机制的YOLOV4遥感目标检测方法，其包括以下顺序的步骤：

步骤1、通过Mosaic数据增强方法对遥感数据集进行处理，丰富遥感目标信息。

步骤2、构建融合特征转移和注意力机制的YOLOV4遥感目标检测模型。

步骤3、将步骤1处理得到的遥感图像数据集输入到上述模型进行训练。

步骤4、预处理待检测遥感图像，将遥感图像的尺寸统一到同一大小。

步骤5、将处理后的遥感图像输入到训练好的目标检测模型进行检测，输出检测结果即待检测图像中遥感目标的边界框位置以及目标类别。

进一步的步骤1具体包括以下步骤：

步骤1a、读取训练用遥感图像，将得到的图像转换为RGB图像，同时调整图像到统一大小。需要将图像尺寸统一到32整数倍大小，如416X416。

步骤1b、对上述图像进行随机翻转，图像色域进行随机变换，同时根据前面处理结果调整训练图像真实边界框到相应位置。

步骤1c、通过Mosaic方法处理训练用遥感图像，即随机选取四张图像进行分割，对分割后的图像进行重新组合。

上述的步骤2包括了目标检测网络的搭建，涉及到特征提取网络的构建，并行注意力模块的构建以及语义增强的PANet和特征转移模块的构建，进一步的阐述具体步骤如下：

步骤2a、本发明遥感目标检测网络特征提取网络选用CSPDarkNet53,该网络通过堆叠跨级连接的残差网络实现，具有更强大的特征提取能力。CSPDarkNet53 的基本结构为跨级残差块CPSX以及CBM，跨级残差块分为两个部分，其中所述的第一个部分直接进行残差块堆叠得到，所述的第二个部分作为残差边，经过卷积运算处理后与所述第一个部分进行堆叠。

步骤2b、神经网络中的注意力机制可以在计算能力有限的情况下，将计算资源分配给更重要的部分。类似于人类的视觉注意力机制，通过扫描全局图像，获取需要关注的目标区域。所述的并行注意力机制由两个部分构成，第一个部分是改进的高效通道注意力机制模块，本发明中称之为EECA模块。在卷积神经网中，每个特征图都具有偏重特性，不同的通道可以捕获不同的特征，对于卷积神经网络而言，不同通道层次的特征图对于具体任务的贡献率也不同，而通道注意力机制可以衡量不同通道的重要性。本发明所述的EECA注意力机制根据以下计算步骤，输出最终的注意力加权特征图：

1.分别通过全局平均池化以及全局最大池化得到两组关于通道的特征值，将得到的两组特征值输入自适应一维卷积继而分别能进一步得到两组注意力权值。

X₁＝Conv1d(GAP(X))

X₂＝Conv1d(GMP(X))

X为输入的特征图，GAP与GMP分别表示全局平局池化和全局最大池化，Conv1d 表示自适应一维卷积，其卷积核个数k由以下公式确定：

C指输入特征图通道个数，|t|_odd表示距离t最近的奇数，而b和γ分别取2和1。

2.将上述得到的特征图进行逐像素相加，得到特征权值X_s。

3.用sigmoid激活函数激活得到的特征值，将各特征归一化至0到1之间。

4.得到通道注意力注意力权重后，通过对应权重大小对输入特征图通道进行重新加权，得到最后注意力加权的特征图X_o。

本发明所述的并行注意力机制的第二个部分是空间注意力部分，对于输入的特征图，在二维空间层次上，各特征点对于特征表达的贡献度也不相同，空间注意力机制可以捕获二维空间上不同像素点的重要性。本发明的空间注意力计算步骤包括以下几个部分：

1.通过分别对输入特征图X的二维空间对应的通道方向上求最大值和平均值可以分别得到两个通道数为1的特征图。

X₁＝mean_C(X)

X₂＝max_C(X)

其中的mean_C和max_C分别表示对输入特征图求通道方向平均值和最大值。

2.将得到的两组特征图进行堆叠得到特征图X_c。

X_c＝cat(X₁,X₂)

其中cat表示将特征图按照通道方向堆叠操作。

3.将上一步得到的特征图输入到一个3X3大小的卷积核做卷积运算，得到特征图X_c′。

X_c′＝Conv2d_3X3(X_c)

4.将上述步骤得到的空间特征权值进行概率化，通过softmax函数生成空间注意力特征权值，其各特征点X_i′_j计算方式为：

其中的X_ij表示输入特征X_c′空间上的各个特征点。

5.在得到空间注意力特征权重后，用对应的空间注意力特征权值对输入特征图进行空间特征加权，各特征点组合得到加权后的特征X_os。

本发明所述的并行注意力特征图由上述两个部分的注意特征图逐像素相加得到。

步骤2c、所述的语义信息增强的PANet的构建步骤如下：

1，将上述处理过的遥感图像输入到主干网络，在主干网络最终3个有效特征层上，特征图分别下采样至输入特征的1/8，1/16，1/32。记特征图分别为O1， O2，O3。

2，将所述的O3经过上采样，同时经过5次卷积处理后与O2按通道方向拼接得到O2′。将O2′同样经过上采样以及5次卷积后与O1通道方向融合得到O1′。

3，将1得到的O3经过上采样后，通过CBLGS模块得到特征值。所述的 CGLBS模块分别包括为1X1卷积，批量归一化，LeakyRelu激活函数，全局平均池化以及Sigmoid激活函数。将得到的特征值与O2′相乘后再进行逐像素相加得到O2″，依照同样的方式可以得到O1″。

4，将所述的O1″通过下采样，并通过5次卷积后与O2″按通道方向进行融合得到O2″′；将O2″′下采样后与O3按通道方向融合得到O3′。

5，本发明所述的语义信息增强的PANet输出的3个特征层C3,C4,C5由以下方式得到：

步骤2d、本发明所述的特征转移模块用于获取上述语义信息增强的PANet 的输出，将最终模型检测头需要检测的特征进行重新构造。包括以下步骤。

1，将本发明前面所述的C4通过CUGS模块后，与C3进行逐像素相乘再相减得到输出的检测特征P3。其中CUGS模块分别包括了1X1卷积，上采样，全局最大池化，以及Sigmoid激活函数。

2，将C4通过CMGS模块后，与C5进行逐像素相乘后在相加，得到最后的输出P5。CMGS模块分别包括了1X1卷积,2X2最大池化，全局最大池化以及 Sigmoid激活函数。最终的特征转移模块输出得到P3,P4,P5。

P4＝C4

步骤3具体包括了：

设定在Adam优化算法中，初始学习率设定为0.001，最小学习率设置为初始学习率的0.01倍。每个批次的训练样本中Mosaic数据增强概率为0.5。损失函数由回归框损失，置信度损失、分类损失三项之和。

回归框损失函数使用CIOU损失函数，数学表达式如下：

其中，ρ指预测框与真实框的中心点之间的欧式距离，而c指能同时包含预测框与检测框的最小矩形框的对角线距离。α与v的具体参数如下：

置信度损失函数使用交叉熵损失函数，数学表达式如下：

其中，λ_noobj表示负样本的边界框，设置该指为0.5。S×S指将特征图划分为该大小网格，每个网格上锚框数量为M。C_i为预测值，

为置信度参数，当边界框包含物体时值为1，否则为0。

分类损失函数使用交叉熵损失函数，数学表达式为：

其中，当第j个锚框

为1时，此时，该锚框所产生的边界框才会去计算分类损失。P_i(c)为预测类别c的概率值，

为1时表示该边界框用于检测物体，否则为0。

本发明所述的检测过程为将遥感图像输入到训练好的遥感目标检测模型后，首先网络会调整输入图像到统一尺寸，随后将得到三个不同尺度的预测结果，分别为(13X13)，(26X26)，(52X52),将三种检测结果进行融合将会得到 [(13*13)+(26*26)+(52*52)]*3个预测候选框，即10647个。假设需要检测的遥感目标有10个类别，则训练后的遥感目标检测模型会将输出的结果表示为二维向量(10647,15)。其中的15包括了目标类别数10，检测框的位置参数(x,y,w,h)以及 1个置信度参数。随后将通过非极大抑制算法过滤预测值低于设定阈值的检测框，保留下来的检测框即为最终的检测结果。

有益效果：

1，所提出的融合注意力机制和特征转移的YOLOV4遥感目标检测模型相比较YOLOV4具有更好的鲁棒性，检测精度更高。

2，所提出的并行注意力机制模块，可从空间以及通道两个方面增强模型中特征图的特征表达能力，使本发明所述的模型能更有效的学习和关注目标区域。

3，语义信息增强的PANet可以更好的避免传统的特征金字塔特征融合过程中语义稀释问题，更有效的融合多级语义特征。

4，在模型的检测头部前引入特征转移模块，可使检测模型对特征图的尺度更加敏感，通过特征转移，既可以提升浅层小目标检测效果，同时也可以提升深层的大目标检测效果。

附图说明

为了更加清晰的阐述本发明的目的，技术方案以及优点，下面将结合附图对本发明作详细的描述。

图1为本发明方法流程图；

图2为Mosaic遥感图像数据增强示意图；

图3为融合注意力机制和特征转移的YOLOV4遥感目标检测模型总体结构；

图4为并行注意力机制PAM模块；

图5为特征转移模块示意图；

具体实施方式

以下将结合附图，对本发明的优选实例进行详细的描述。所述实例仅为本发明部分实例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种融合特征转移和注意力机制的遥感目标检测方法，该方法包括下列顺序步骤：

图2为本发明的数据预处理中采用的Mosaic数据增强方法，通过随机选取 4张图像进行分割并重新组合，可以丰富遥感图像数据的背景信息，增强模型的鲁棒性。

图3为本发明所述的融合特征转移与注意力机制的YOLOV4遥感目标检测模型，所述模型包括了特征提取网络CSPDarkNet53，空间金字塔池化模块SPP、并行注意力机制模块PAM、语义信息增强的PANet以及检测头：

特征提取网络CSPDarkNet53的基本结构包括了CBM模块以及CSPX残差模块。CBM具体指该模块包含卷积，批量归一化以及Mish激活函数，而CSPX 后面的数字表示有几个串联的残差模块。CSPX分为两个部分，其中所述的第一个部分即多个串联的残差块，第二个部分作为残差边，经过卷积运算处理后与所述第一个部分进行堆叠。SPP模块指代表空间金字塔池化模块，由4个不同池化核大小的最大池化拼接而成，池化的大小分别为1X1，5X5，9X9和13X13。concat 表示所得到的特征图进行通道方向拼接。CBL模块对特征图进行特征提取，CBL 包括卷积，批量归一化以及LeakyRelu激活函数。

为更好的融合CSPDarkNet53所提取的语义信息以及空间细节信息，本发明提出了语义信息增强的PANet结构，如图3中Enhanced PANet部分所示。根据 CSPDarkNet53可以得到3组用于特征融合的特征图，其空间尺寸分别为原输入图像的1/8，1/16和1/32，记为O1，O2以及O3。其特征融合具体包括：

1，O3需要通过上卷积以及上采样调整大小与O2一致，上采样倍率为2，卷积核的大小为1X1，输出通道数与O2通道数保持一致，将O3与O2进行通道方向拼接得到O2′；

2，将O2′同样进行卷积以及上采样后与O1进行通道方向拼接得到特征O1′，卷积核大小为1X1，输出通道数与O1通道数保持一致；

3，将O3进行上采样，上采样的倍率为2，将上采样后的O3经过CBLGS 模块处理，CBLGS模块分别包括1X1卷积，批量归一化、LeakyRelu激活函数、全局平均池化以及Sigmoid激活函数，将得到的特征与O2′进行相乘后再与O2′进行逐像素相加可得到特征O2″；

4，对O3进行上采样，上采样倍率为4，同样的将上采样后的特征经过 CBLGS模块，将得到的特征与O1′进行相乘再相加后得到特征O1″；

5，对O1″使用卷积进行下采样，卷积核大小为3X3，步长为2，将得到的特征与O2″按通道方向进行拼接得到特征O2″′，同样将O2″′下采样后与O3按通道方向堆叠得到特征O3′；最终本发明所述的语义信息增强的PANet的输出记为 C1，C2，C3，数学表达式描述为：

图4为本发明所述的并行注意力机制示意，根据图示，所述的并行注意力机制包括上下两个部分；上部分为改进的高效通道注意力机制，用于生成通道维度的注意力权重信息，实现流程包括以下步骤：

1，分别通过全局最大池化GMP和全局平均池化GAP分别生成两组大小为 1X1XC的通道特征，其中C为通道的维度；

2，上述两组通道特征分别通过自适应一维卷积进行特征提取，得到两组特征值，自适应一维卷积指卷积核个数由输入特征通道数决定，其通过下式确定卷积核个数：

其中的C指输入特征图通道个数，|t|_odd表示距离t最近的奇数，而b和γ分别取2和1；

3，将上述得到的两组通道权值按逐像素相加的方式融合，再通过Sigmoid 激活函数则可得到通道维度注意力权重；

图4的下部分为空间注意力部分，根据图示，空间注意力的实现包括以步骤：

1，在空间维度上分别对个通道特征取最大值以及平均值，得到两组大小为 HXWX1的特征图；

2，将上述两组特征图按通道方向堆叠后用3X3大小卷积核进行特征提取，输出通道数设定为1，最后使用Softmax激活函数对特征图进行激活即得到空间注意力特征图；

本发明所述的并行注意力模块即PAM模块，其生成的特征由通道维度注意力特征以及空间维度注意力特征进行逐像素相加的方式进行融合得到。

图5为本发明所述的特征转移模块示意图，根据图示，本模块用于接收PANet 部分融合得到的三组有效特征，C3，C4和C5。对C3,C4和C5进行特征重构；使用CUGS模块抑制C3层的大尺度目标信息，从而突出C3层的小目标信息，提高C3层用于检测小目标的能力。其中的CUGS分别包括了1X1卷积，上采样、全局最大池化以及Sigmoid激活函数。同时使用CMGS模块将C4层的大尺度目标信息转移到C5层，提高C5层用于大目标特征的检测能力，其中CMGS分别包括了1X1卷积，步长为2，池化大小为2X2的最大池化以及全局最大池化和 Sigmoid激活函数。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合特征转移与注意力机制的YOLOV4遥感目标检测方法，其特征在于：该方法包括以下步骤：

S1)，通过Mosaic数据增强方法对遥感数据集进行处理，丰富遥感目标信息；

S2)，构建融合特征转移和注意力机制的YOLOV4遥感目标检测模型；

S3)，将所述处理得到的遥感图像数据集输入到上述模型进行训练；

S4)，预处理待检测遥感图像，将遥感图像的尺寸统一到同一大小；

S5)，将处理后的遥感图像输入到训练好的目标检测模型进行检测，输出检测结果即待检测图像中遥感目标的边界框位置以及目标类别。

2.根据权力要求1所述的融合特征转移与注意力机制的YOLOV4遥感目标检测方法，其特征在于：所述步骤S1中，具体包括：

步骤S11)读取训练用遥感图像，将得到的图像转换为RGB图像，同时调整图像到统一大小。需要将图像尺寸统一到32整数倍大小，如416X416。

步骤S12)对上述图像进行随机翻转，图像色域进行随机变换，同时根据前面处理结果调整训练图像真实边界框到相应位置。

步骤S13)通过Mosaic方法处理训练用遥感图像，即随机选取四张图像进行分割，对分割后的图像进行重新组合。

3.根据权力要求1所述的融合特征转移与注意力机制的YOLOV4遥感目标检测方法，其特征在于：所述的步骤S2中，包括了目标检测网络的搭建，涉及到特征提取网络的构建，并行注意力模块的构建以及语义增强的PANet和特征转移模块的构建，具体步骤如下：

步骤S21)本发明遥感目标检测网络特征提取网络选用CSPDarkNet53,该网络通过堆叠跨级连接的残差网络实现，具有更强大的特征提取能力。CSPDarkNet53的基本结构为跨级残差块CPSX以及CBM，跨级残差块分为两个部分，其中所述的第一个部分直接进行残差块堆叠得到，所述的第二个部分作为残差边，经过卷积运算处理后与所述第一个部分进行堆叠。

步骤S22)所述的并行注意力机制由两个部分构成，第一个部分是改进的高效通道注意力机制模块。在卷积神经网中，每个特征图都具有偏重特性，不同的通道可以捕获不同的特征，对于卷积神经网络而言，不同通道层次的特征图对于具体任务的贡献率也不同，而通道注意力机制可以衡量不同通道的重要性。本发明所述的注意力机制根据以下计算步骤，输出最终的注意力加权特征图：

(1)，分别通过全局平均池化以及全局最大池化得到两组关于通道的特征值，将得到的两组特征值输入自适应一维卷积继而分别能进一步得到两组注意力权值。

X₁＝Conv1d(GAP(X))

X₂＝Conv1d(GMP(X))

X为输入的特征图，GAP与GMP分别表示全局平局池化和全局最大池化，Conv1d表示自适应一维卷积，其卷积核个数k由以下公式确定：

(2)，将上述得到的特征图进行逐像素相加，得到特征权值X_s。

(3)，用sigmoid激活函数激活得到的特征值，将各特征归一化至0到1之间。

(4)，得到通道注意力注意力权重后，通过对应权重大小对输入特征图通道进行重新加权，得到最后注意力加权的特征图X_o。

所述的并行注意力机制的第二个部分是空间注意力部分，对于输入的特征图，在二维空间层次上，各特征点对于特征表达的贡献度也不相同，空间注意力机制可以捕获二维空间上不同像素点的重要性。本发明的空间注意力计算步骤包括以下几个部分：

(1)，通过分别对输入特征图X的二维空间对应的通道方向上求最大值和平均值可以分别得到两个通道数为1的特征图。

X₁＝mean_C(X)

X₂＝max_C(X)

(2)，将得到的两组特征图进行堆叠得到特征图X_c。

X_c＝cat(X₁,X₂)

其中cat表示将特征图按照通道方向堆叠操作。

(3)，将上一步得到的特征图输入到一个3X3大小的卷积核做卷积运算，得到特征图X_c′。

X_c′＝Conv2d_3X3(X_c)

(4)，将上述步骤得到的空间特征权值进行概率化，通过softmax函数生成空间注意力特征权值，其各特征点X_i′_j计算方式为：

其中的X_ij表示输入特征X_c′空间上的各个特征点。

(5)，在得到空间注意力特征权重后，用对应的空间注意力特征权值对输入特征图进行空间特征加权，各特征点组合得到加权后的特征X_os。

所述的并行注意力特征图X_out由上述两个部分的注意特征图逐像素相加得到。

步骤S23)所述的语义信息增强的PANet的构建步骤如下：

(1)，将上述处理过的遥感图像输入到主干网络，在主干网络最终3个有效特征层上，特征图分别下采样至输入特征的1/8，1/16，1/32。记特征图分别为O1，O2，O3。

(2)，将所述的O3经过上采样，同时经过5次卷积处理后与O2按通道方向拼接得到O2′。将O2′同样经过上采样以及5次卷积后与O1通道方向融合得到O1′。

(3)，将1得到的O3经过上采样后，通过CBLGS模块得到特征值。所述的CGLBS模块分别包括为1X1卷积，批量归一化，LeakyRelu激活函数，全局平均池化以及Sigmoid激活函数。将得到的特征值与O2′相乘后再进行逐像素相加得到O2″，依照同样的方式可以得到O1″。

(4)，将所述的O1″通过下采样，并通过5次卷积后与O2″按通道方向进行融合得到O2″′；将O2″′下采样后与O3按通道方向融合得到O3′。

(5)，所述的语义信息增强的PANet输出的3个特征层C3,C4,C5由以下方式得到：

步骤S24)特征转移用于接收PANet输出特征，做特征重构，具体包括：

(1)，C4通过CUGS模块后，与C3进行逐像素相乘再相减得到输出的检测特征P3。其中CUGS模块分别包括了1X1卷积，上采样，全局最大池化，以及Sigmoid激活函数。

(2)，将C4通过CMGS模块后，与C5进行逐像素相乘后在相加，得到最后的输出P5。CMGS模块分别包括了1X1卷积,2X2最大池化，全局最大池化以及Sigmoid激活函数。最终的特征转移模块输出得到P3,P4,P5。