CN117830874A

CN117830874A - 一种多尺度模糊边界条件下的遥感目标检测方法

Info

Publication number: CN117830874A
Application number: CN202410245597.XA
Authority: CN
Inventors: 史博文; 王琛; 孙思源; 李瑞佳; 徐晓宇; 陈才华
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2024-03-05
Filing date: 2024-03-05
Publication date: 2024-04-05
Anticipated expiration: 2044-03-05
Also published as: CN117830874B

Abstract

本发明公开了一种多尺度模糊边界条件下的遥感目标检测方法，属于遥感图像目标检测领域，包括构造标注的光学遥感图像数据集；构造I²S DETR网络，该网络基于Deformable DETR模型，其中编码器为I²S注意力模块，包括尺度内注意力模块、尺度间注意力模块、第一向量拼接层和第一线性层；用数据集训练I²S DETR网络得到I²S DETR模型；用该模型识别光学遥感图像中目标，预测出其类别和边界框。本发明用一种新的I²S注意力机制作为编码器。其尺度内注意力分别从每一尺度采集关键点，尺度间注意力对尺度之间信息进行补偿。因此I²S注意力机制均衡考虑不同尺度，也更容易定位特征显著性弱的模糊边界，从而适用于检测尺度差异大边界模糊的遥感图像目标。

Description

一种多尺度模糊边界条件下的遥感目标检测方法

技术领域

本发明涉及一种遥感图像目标检测领域，尤其涉及一种多尺度模糊边界条件下的遥感目标检测方法。

背景技术

遥感目标检测是指利用遥感图像数据进行地面目标的自动检测和识别。但对于光学遥感图像中的边界模糊、尺度差异大的目标，其检测还存在困难。

例如，对黄土滑坡这一类等目标，首先，它产生于环境，从而与遥感图像中的背景没有闭合和明确的边界，属于边界模糊的目标。其次，与普通目标相比，黄土滑坡等目标具有更大的尺度差异。假设将行人作为普通目标进行检测，由于人类个体尺度差异不大，一名行人可能是另一名行人的1.5倍。但对黄土滑坡而言，大滑坡与小的滑坡差异可能是5-10倍甚至更多，模糊的边界和巨大的尺度差异给光学遥感图像中的目标检测带来了巨大的挑战。另外，由于光学遥感图像中目标尺度多样，还会受到复杂背景干扰和光照条件等因素的影响，进一步导致目标边界模糊，这更降低了遥感目标检测器的性能。

现有技术针对边界特征不明显的缺陷，已经提出了一些改进和优化方法。其中一种常见的方法是通过使用多尺度策略来处理目标尺度变化的问题。该方法在不同尺度上对图像进行分析，并尝试提取目标的不同尺度特征，以增强目标的检测效果。然而，这些方法仍然存在一些缺陷。例如，由于目标边界模糊，传统的基于边缘检测或边界提取的方法往往无法准确地提取到目标的边界信息，导致检测效果不理想。此外，由于遥感图像中存在噪声和复杂的背景干扰，这些方法也容易受到干扰影响，导致误检和漏检的问题。

名词解释：

DETR：英文为DEtection Transformer，是第一个基于transformer的目标检测器。如图2所示，它首先通过卷积神经网络CNN提取输入图像的特征，并将特征平坦化为CNN特征序列。然后，它将CNN特征序列传递到Transformer的编码器Encoder中，并用固定位置编码进行补充。Transformer的解码器Decoder将少量学习的位置编码作为输入，称为对象查询，并额外关注Decoder的输出。最后，在Decoder的输出嵌入上施加前馈神经网络FFN和线性投影作为检测头，FFN充当回归分支以预测边界框坐标，线性投影充当分类分支以产生分类结果。

发明内容

本发明的目的就在于提供一种解决上述问题，对边界模糊、尺度差异大的目标进行高精度的检测的，一种多尺度模糊边界条件下的遥感目标检测方法。

为了实现上述目的，本发明采用的技术方案是这样的：一种多尺度模糊边界条件下的遥感目标检测方法，包括以下步骤：

S1，构造数据集；

获取包含目标的光学遥感图像，对每张光学遥感图像中的目标进行类别和边界框标注，标注后的光学遥感图像作为样本，构成数据集；

S2，构造一I²S DETR网络；

选取一Deformable DETR模型，包括CNN网络、Transformer网络和检测头，所述Transformer网络包括编码器和解码器，所述编码器为I²S注意力模块；

所述CNN网络用于对输入的样本，提取其L个不同尺度的特征，并将每个特征扁平化为第一序列，构成该样本的第一多尺度特征集合，其中样本X的第一多尺度特征集合为，x _i为第i个尺度的特征对应的第一序列，i=1~L；

所述I²S注意力模块包括尺度内注意力模块、尺度间注意力模块、第一向量拼接层和第一线性层；

所述尺度内注意力模块基于可变形注意力机制，对样本的每个第一序列，用多个注意力头进行可变形注意力操作，得到L个与第一序列一一对应的第二序列；

所述尺度间注意力模块基于键值对注意力机制，对样本的每个第二序列，用多个注意力头进行尺度间注意力操作，得到L个与第二序列一一对应对应的第三序列；

所述第一向量拼接层用于对样本的L个第三序列进行相向量拼接并输出；

所述第一线性层用于将第一权重矩阵与第一向量拼接层的输出相乘输出增强特征；

S3，用数据集训练I²S DETR网络；

输入样本，对每个样本，经CNN网络得到对应的第一多尺度特征集合，再经I²S注意力模块得到对应的增强特征，所述增强特征经解码器和检测头后得到目标的预测类别和预测边界框；

采用梯度下降算法训练至I²S DETR网络收敛，得到I²S DETR模型；

S4，用I²S DETR模型对待识别的光学遥感图像进行目标检测，输出目标的预测类别和预测边界框。

作为优选：所述尺度内注意力模块包括L个尺度内注意力单元，对样本X，分别输入x ₁~x _L、输出对应的第二序列y ₁~y _L，其中第i个尺度内注意力单元包括第二线性层、第三线性层、第四线性层、多头可变形注意力模块、第二向量拼接层和第五线性层，多头可变形注意力模块内包含H个注意力头；

第二线性层用于通过与注意力头对应的第二权重矩阵，将在每个注意力头中转换成一尺度内值矩阵，其中第二线性层对应第h个注意力头的第二权重矩阵为/>、尺度内值矩阵为/>，h=1~H；

第三线性层用于通过与注意力头对应的第三权重矩阵，将在每个注意力头中转换成一尺度内查询矩阵，其中第三线性层对应第h个注意力头的第三权重矩阵为/>、尺度内查询矩阵为/>；

第四线性层用于通过与注意力头对应的第四权重矩阵，将在每个注意力头中转换成一尺度内偏移矩阵，其中第四线性层对应第h个注意力头的第四权重矩阵为/>、尺度内偏移矩阵为/>；

所述多头可变形注意力模块、第二向量拼接层和第五线性层根据下式生成；

，

式中，为可变形注意力操作，/>为/>对应的第h个注意力头的输出，/>为/>对应的第二序列，/>为向量拼接操作、/>为第五线性层的第五权重矩阵。

作为优选：可变形注意力操作根据下式得到；

，

式中,为softmax函数，/>为点乘，/>为通过计算偏移获得的x _i中的关键点。

作为优选：所述尺度间注意力模块包括L个尺度间注意力单元，对样本X，分别输入~/>、输出对应的第三序列/>~/>，其中第i个尺度间注意力单元包括第六线性层、第七线性层、第八线性层、键值对注意力模型、第三向量拼接层和第九线性层，键值对注意力模型内也包含H个注意力头；

将~/>构成样本X的第二多尺度特征集合/>，Y中剔除/>后得到的集合作为/>的补集/>，/>中第j个第二序列为/>，1≤j≤L-1；

所述第六线性层用于通过与注意力头对应的第六权重矩阵，将在每个注意力头中转换成L-1个尺度间值矩阵，其中第六线性层对应第h个注意力头的第六权重矩阵为，/>的尺度间值矩阵为/>，L-1个尺度间值矩阵构成的集合为/>，h=1~H；

所述第七线性层用于通过与注意力头对应的第七权重矩阵，将在每个注意力头中转换成L-1个尺度间键矩阵，其中第七线性层对应第h个注意力头的第七权重矩阵为、/>的尺度间键矩阵为/>，L-1个尺度间键矩阵构成的集合为/>；

所述第八线性层用于通过与注意力头对应的第八权重矩阵，将在每个注意力头中转换成一尺度间查询矩阵，其中第八线性层对应第h个注意力头的第七权重矩阵为/>、尺度间查询矩阵为/>；

键值对注意力模型、第三向量拼接层和第九线性层根据下式生成；

，

式中，为键值对注意力操作，用于计算/>和/>进行尺度间信息补偿，/>为/>对应的第h个注意力头的输出，/>为/>对应的第三序列，/>为第九线性层的第九权重矩阵。

作为优选：根据下式得到；

，

式中，为softmax函数，T为转置操作，/>为尺度间键矩阵的维度。

作为优选：第一向量拼接层和第一线性层根据下式得到增强特征y；

，

式中，为向量拼接操作，/>第1个尺度的特征对应的第三序列，/>为第L个尺度的特征对应的第三序列。

与现有技术相比，本发明的优点在于：对Deformable DETR模型中，Transformer网络的编码器进行了改进，用一种新的I²S注意力机制，去替换编码器中原有的注意力机制。Deformable DETR 中的注意力集中从级联的多尺度特征图中采样关键点，可能使得特征显著性强的尺度采集的关键点更多，导致不容易检测到特征显著性弱的尺度中的目标。I²S中的尺度内注意力机制分别从每一个尺度采集关键点，同时通过尺度间注意力机制对尺度之间的信息进行补偿，均衡的考虑不同的尺度，也更更容易定位在特征显著弱的模糊边界附近。因此更适合尺度差异大的遥感影像目标，以及边界模糊的遥感目标。

本发明的尺度内注意力模块基于多头可变形注意力机制，其中可变形注意力机制分别在每个第一序列的参考点周围通过计算偏移扫描一组关键的空间采样点来增强每个尺度的特征，且采用多头可变形注意力机制，从不同的表示空间增强特征。

本发明增设尺度间注意力模块，对每个尺度对应的特征，尺度间注意力通过建模与其他尺度之间的特征交互来补偿本尺度的特征。且为了从不同的表示子空间学习补偿，尺度间注意力在特征上使用多头QKV注意力。

本发明中，所有线性层对应的权重矩阵均在训练中学习得到。

最终本发明可以更准确地提取遥感目标信息，从而达到更有效的遥感目标检测，尤其适用于对边界模糊、尺度差异大的光学遥感图像中目标的高精度检测。

附图说明

图1为本发明流程图；

图2为现有技术中，Deformable DETR模型的架构图；

图3为本发明中I²S DETR网络的结构示意图；

图4为本发明I²S注意力模块的结构示意图。

具体实施方式

下面将结合附图对本发明作进一步说明。

实施例1：参见图1，一种多尺度模糊边界条件下的遥感目标检测方法，包括以下步骤：

S1，构造数据集；

S2，构造一I²S DETR网络；

S3，用数据集训练I²S DETR网络；

实施例2：参见图1到图4，在实施例1的基础上，所述尺度内注意力模块包括L个尺度内注意力单元，对样本X，分别输入x ₁~x _L、输出对应的第二序列y ₁~y _L，其中第i个尺度内注意力单元包括第二线性层、第三线性层、第四线性层、多头可变形注意力模块、第二向量拼接层和第五线性层，多头可变形注意力模块内包含H个注意力头；

，

可变形注意力操作根据下式得到；

，

所述尺度间注意力模块包括L个尺度间注意力单元，对样本X，分别输入~/>、输出对应的第三序列/>~/>，其中第i个尺度间注意力单元包括第六线性层、第七线性层、第八线性层、键值对注意力模型、第三向量拼接层和第九线性层，键值对注意力模型内也包含H个注意力头；

，

根据下式得到；

，

第一向量拼接层和第一线性层根据下式得到增强特征y；

，

本实施例用PyTorch 1.7.0和Python 3.7.10实现，批量大小和初始学习率分别设置为2和5e-5。使用随机梯度下降算法进行优化模型。在ImageNet数据集上学习的预先训练的ResNet-50模型用于初始化CNN网络。

实施例3：参见图1到图3，为了更好的说明本发明效果，本实施例构造一数据集，用不同的目标检测方法进行对比实验。

本实施例选用一黄土滑坡遥感数据集，来源于谷歌地球的光学图像，包含甘肃省某地区的2498个滑坡实例，该地区年平均降雨量较小，蒸发量大，气候干燥，植被较少，图像中的黄土滑坡具有边界模糊和尺度差异大的特点。地质专家根据地质特征使用ArcMap对滑坡实例进行注释，并生成了最小边界矩形作为注释标签。每个注释的滑坡实例都通过多次裁剪和采样进行数据扩充。最终，该数据集包含1915张图像和13621个滑坡样本，将该数据集分为训练集、验证集和测试集，分别包含有10364、509和2748个滑坡样本。

在该数据集中，黄土滑坡存在边界模糊和尺度差异大的问题，有的滑坡在滑坡发生后随着时间的推移而被侵蚀，因此在遥感图像中具有模糊的边界。同时数据集中的最大的黄土滑坡达到829平方米，最小的仅有1.29平方米，尺度差异巨大，达到了642倍。

对比实验使用目标检测中的mAP (mean Average Precision)作为评估标准，对比实验结果如下表1：

表1.不同目标检测方法的实验结果对比表

mAP@.5使用阈值为0.5的IoU来测量目标检测精度，IoU为Intersection overUnion，中文为交并比。

mAP@[.5，.95]使用阈值为0.5到0.95之间，间隔为0.05的多个IoU上的目标的检测精度，取多个检测精度的平均。

表1中，各目标检测器为：

DETR：英文为DEtection Transformer，是基于Transformer的端到端目标检测网络。

Deformable DETR：采用Deformable DETR模型，为可变形的DETR。

Faster R-CNN：Faster Region-Convolutional Neural Network，中文为：更快速区域卷积神经网络。

Faster R-CNN*：本发明中为使用残差网络作为主干网络的Faster Region-Convolutional Neural Network。

Faster R-CNN**：本发明中为使用特征金字塔的Faster Region-ConvolutionalNeural Network。

R-FCN：英文为Region-based Fully Convolutional Networks，是基于区域的全卷积检测网络。

Mask R-CNN：英文为Mask Region-based Convolutional Neural Network，采用MaskR-CNN网络，是一种用于目标检测和实例分割的深度学习模型。

YOLOv3：YOLOv3目标检测算法。

SSD：Single Shot MultiBox Detector，简称SSD目标检测算法。

RetinaNet：采用RetinaNet网络。

FSAF：英文为Feature Selective Anchor-Free Module，简称FSAF网络。

CenterNet：采用CenterNet网络。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多尺度模糊边界条件下的遥感目标检测方法，其特征在于：包括以下步骤：

S1，构造数据集；

S2，构造一I²S DETR网络；

S3，用数据集训练I²S DETR网络；

2.根据权利要求1所述的一种多尺度模糊边界条件下的遥感目标检测方法，其特征在于：所述尺度内注意力模块包括L个尺度内注意力单元，对样本X，分别输入x ₁~x _L、输出对应的第二序列y ₁~y _L，其中第i个尺度内注意力单元包括第二线性层、第三线性层、第四线性层、多头可变形注意力模块、第二向量拼接层和第五线性层，多头可变形注意力模块内包含H个注意力头；

，

3.根据权利要求2所述的一种多尺度模糊边界条件下的遥感目标检测方法，其特征在于：可变形注意力操作根据下式得到；

，

4.根据权利要求2所述的一种多尺度模糊边界条件下的遥感目标检测方法，其特征在于：所述尺度间注意力模块包括L个尺度间注意力单元，对样本X，分别输入~/>、输出对应的第三序列/>~/>，其中第i个尺度间注意力单元包括第六线性层、第七线性层、第八线性层、键值对注意力模型、第三向量拼接层和第九线性层，键值对注意力模型内也包含H个注意力头；

将~/>构成样本X的第二多尺度特征集合/>，Y中剔除/>后得到的集合作为的补集/>，/>中第j个第二序列为/>，1≤j≤L-1；

所述第六线性层用于通过与注意力头对应的第六权重矩阵，将在每个注意力头中转换成L-1个尺度间值矩阵，其中第六线性层对应第h个注意力头的第六权重矩阵为/>，/>的尺度间值矩阵为/>，L-1个尺度间值矩阵构成的集合为/>，h=1~H；

所述第七线性层用于通过与注意力头对应的第七权重矩阵，将在每个注意力头中转换成L-1个尺度间键矩阵，其中第七线性层对应第h个注意力头的第七权重矩阵为/>、/>的尺度间键矩阵为/>，L-1个尺度间键矩阵构成的集合为/>；

，

式中，为键值对注意力操作，用于计算/>和/>进行尺度间信息补偿，为/>对应的第h个注意力头的输出，/>为/>对应的第三序列，/>为第九线性层的第九权重矩阵。

5.根据权利要求4所述的一种多尺度模糊边界条件下的遥感目标检测方法，其特征在于：根据下式得到；

，

6.根据权利要求1所述的一种多尺度模糊边界条件下的遥感目标检测方法，其特征在于：第一向量拼接层和第一线性层根据下式得到增强特征y；

，