CN117079139B

CN117079139B - 一种基于多尺度语义特征的遥感图像目标检测方法及系统

Info

Publication number: CN117079139B
Application number: CN202311308244.1A
Authority: CN
Inventors: 李冠群
Original assignee: Genyu Muxing Beijing Space Technology Co ltd
Current assignee: Genyu Muxing Beijing Space Technology Co ltd
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2023-12-29
Anticipated expiration: 2043-10-11
Also published as: CN117079139A

Abstract

本发明公开了一种基于多尺度语义特征的遥感图像目标检测方法，包括：构建包括骨干网络、特征融合网络和检测头的目标检测模型；获取多个遥感图像，并将遥感图像输入至骨干网络，得到多个不同层级特征图；将不同层级特征图分别输入至特征融合网络，对应得到不同层级融合特征图；将不同层级融合特征图输入至检测头进行解耦，得到不同层级的预测目标结果；基于预测目标结果和目标真值标注结果联合损失函数对目标检测模型进行训练，得到训练好的目标检测模型；将待测遥感图像输入至训练好的目标检测模型，得到对应的目标检测结果。解决了传统方法中高级语义特征在特征融合阶段信息丢失和噪声引入问题，实现了遥感图像目标的精准识别。

Description

一种基于多尺度语义特征的遥感图像目标检测方法及系统

技术领域

本发明涉及图像处理技术领域，更具体的说是涉及一种基于多尺度语义特征的遥感图像目标检测方法及系统。

背景技术

目前，遥感图像在国防安全、环境监测、城市规划等领域具有广泛的应用前景；语义特征在遥感图像目标检测领域中具有重要意义，它包含了与图像中对象和场景相关的高级抽象信息，这些信息涵盖了对象的类别、形状、结构以及它们在环境中的位置和关系，此外，语义特征可以提供比低级特征（如颜色、纹理）更多的上下文信息，有助于更准确地理解图像内容。因此，在融合过程中有效利用高级语义特征，对于正确识别和定位遥感图像中的潜在的目标对象至关重要。

但是，当前的目标检测方法大多忽略了高级语义特征在融合过程中的信息丢失和噪声引入的问题，这使得目标检测的性能存在瓶颈。在深度学习模型中，深层特征图包含了丰富的语义信息，但分辨率较低且尺寸较小，在特征融合阶段，深层特征图需要与浅层特征图融合，但由于尺寸差异，通常需要进行插值操作，这导致了融合过程中信息丢失和噪声引入的问题，从而影响了特征融合的质量。

因此，如何解决传统方法中高级语义特征在特征融合阶段信息丢失和噪声引入问题，从而实现遥感图像目标精准识别是技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于多尺度语义特征的遥感图像目标检测方法及系统，解决了传统方法中高级语义特征在特征融合阶段信息丢失和噪声引入问题，实现了遥感图像目标的精准识别。

为了实现上述目的，本发明采用如下技术方案：

一种基于多尺度语义特征的遥感图像目标检测方法，包括：

构建包括骨干网络、特征融合网络和检测头的目标检测模型；

获取多个遥感图像，并将所述遥感图像输入至所述骨干网络，得到多个不同层级特征图；

将所述不同层级特征图分别输入至所述特征融合网络，对应得到不同层级融合特征图；

将所述不同层级融合特征图输入至所述检测头进行解耦，得到不同层级的预测目标结果；

基于所述预测目标结果和目标真值标注结果联合损失函数对所述目标检测模型进行训练，得到训练好的目标检测模型；

将待测遥感图像输入至所述训练好的目标检测模型，得到对应的目标检测结果。

优选的，所述不同层级特征图，具体包括：浅层级特征图、中层级特征图和高层级特征图；

所述中层级特征图是由所述浅层级特征图提取得到；

所述高层级特征图是由所述中层级特征图提取得到。

优选的，所述特征融合网络包括：第一多尺度语义特征注意力模块、第二多尺度语义特征注意力模块、第一级联卷积模块、第二级联卷积模块、第三级联卷积模块、第四级联卷积模块、第一卷积模块和第二卷积模块；

对应得到不同层级融合特征图的数据处理过程包括：

所述高层级特征图分别经过特征重塑运算和所述第一多尺度语义特征注意力模块处理后，共同与所述中层级特征图进行拼接融合，得到高-中融合输出特征图；

所述高-中融合输出特征图输入至所述第一级联卷积模块，得到提取特征图；

所述提取特征图分别经过所述第二多尺度语义特征注意力模块处理和特征重塑运算后，共同与所述浅层级特征图进行拼接融合，得到中-浅融合输出特征图；

所述中-浅融合输出特征图输入至所述第二级联卷积模块，得到浅层级融合特征图。

优选的，对应得到不同层级融合特征图的数据处理过程还包括：

所述浅层级融合特征图输入至所述第一卷积模块，得到第一卷积特征图；

所述第一卷积特征图与所述提取特征图进行拼接融合后输入至所述第三级联卷积模块，得到中层级融合特征图。

所述中层级融合特征图输入至所述第二卷积模块，得到第二卷积特征图；

所述第二卷积特征图与所述高层级特征图进行拼接融合后输入至所述第四级联卷积模块，得到高层级融合特征图。

优选的，所述第一多尺度语义特征注意力模块和所述第二多尺度语义特征注意力模块结构相同，均包括：第一多尺度卷积、第二多尺度卷积、反卷积、第一点卷积和空间注意力模块；

所述第一多尺度语义特征注意力模块和所述第二多尺度语义特征注意力模块数据处理过程均为：

输入特征图分别输入至所述第一多尺度卷积和所述第二多尺度卷积进行特征提取，并根据不同的权重系数进行特征图融合，得到多尺度特征图，计算公式如下：

其中，和/>分别表示第一多尺度卷积多尺度特征提取操作和第二多尺度卷积多尺度特征提取操作，/>和/>分别表示第一多尺度卷积和第二多尺度卷积对应的特征图融合的可学习权重系数，input表示输入特征图；

将所述多尺度特征图依次输入至所述反卷积和所述第一点卷积，得到处理后的多尺度特征图；

所述输入特征图进行特征重塑运算，得到重塑特征图；

将所述处理后的多尺度特征图与所述重塑特征图进行拼接融合，得到输出特征图；

所述输出特征图输入至所述空间注意力模块，得到最终特征图。

优选的，所述第一多尺度卷积和所述第二多尺度卷积结构相同，均是由多个不同扩张系数的卷积组成；

数据处理过程均为：所述输入特征图分别输入至所述不同扩张系数的卷积，得到多个扩张卷积特征图，并将所述扩张卷积特征图相加，得到多尺度特征图，计算公式如下：

其中，表示扩张系数为d的卷积算子。

优选的，所述空间注意力模块数据处理过程为：

空间注意力模块通过空间信息编码的方式实现空间信息的整合，沿着水平和垂直两个维度聚合特征图特征，计算过程可形式化地表示为：

其中，H×W表示水平方向和垂直方向的特征维度，表示沿着水平和垂直两个维度聚合特征获得的特征信息，/>表示输入特征图在（i,j）空间位置的特征信息，/>表示经过计算获得的空间特征表示矩阵；

通过sigmoid激活函数和第二点卷积，将的空间信息进行特征映射，得到变换权重矩阵/>，计算过程可形式化地表示为：

其中，表示sigmoid激活函数操作，/>表示第二点卷积处理操作；

通过对进行水平方向和垂直方向的分解可以获得/>和/>，/>和分别表示变换权重矩阵在（i,j）空间位置对应的水平方向i和垂直方向j的变换权重信息，采用矩阵相乘的形式得到输出特征图/>，/>在（i,j）空间位置的特征信息/>，计算公式如下：

。

优选的，所述损失函数由焦点损失和旋转框交并比损失组成；所述预测目标结果包括：预测目标类别信息和预测目标位置信息。

一种基于多尺度语义特征的遥感图像目标检测系统，包括：模型构建模块、特征图提取模块、解耦模块、模型训练模块和结果输出模块；

所述模型构建模块，用于构建包括骨干网络、特征融合网络和检测头的目标检测模型；

所述特征图提取模块，用于获取多个遥感图像；将所述遥感图像输入至所述骨干网络，得到多个不同层级特征图；将所述不同层级特征图分别输入至所述特征融合网络，对应得到不同层级融合特征图；

所述解耦模块，用于将所述不同层级融合特征图输入至所述检测头进行解耦，得到不同层级的预测目标结果；

所述模型训练模块，用于基于所述预测目标结果和目标真值标注结果联合损失函数对所述目标检测模型进行训练，得到训练好的目标检测模型；

所述结果输出模块，用于将待测遥感图像输入至所述训练好的目标检测模型，得到对应的目标检测结果。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于多尺度语义特征的遥感图像目标检测方法及系统，通过设计一种多尺度语义特征注意力模块解决语义特征在特征融合阶段信息丢失和噪声引入问题，进一步设计基于语义特征注意力模块的特征融合网络，有效地提高了遥感图像目标检测的性能，有益效果如下：

1、本发明提出的多尺度语义特征注意力模块能够有效提取输入图像的多尺度语义特征信息，帮助目标检测模型更准确地理解图像内容，正确识别和定位遥感图像中的潜在的目标。

2、本发明通过结合多尺度语义特征注意力融合网络的目标检测模型，能够在特征融合阶段充分融合不同层级的语义特征信息，有效解决了当前的目标检测方法忽略了高级语义特征在融合过程中的信息丢失和噪声引入的问题，从而实现遥感图像目标的精准识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的目标检测方法流程图。

图2为本发明提供的融合特征网络结构示意图。

图3为本发明提供的多尺度语义特征注意力模块结构示意图。

图4为本发明提供的目标检测系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明实施例公开了一种基于多尺度语义特征的遥感图像目标检测方法，包括：

获取多个遥感图像，并将遥感图像输入至骨干网络，得到多个不同层级特征图；

将不同层级特征图分别输入至特征融合网络，对应得到不同层级融合特征图；

将不同层级融合特征图输入至检测头进行解耦，得到不同层级的预测目标结果；

基于预测目标结果和目标真值标注结果联合损失函数对目标检测模型进行训练，得到训练好的目标检测模型；

将待测遥感图像输入至训练好的目标检测模型，得到对应的目标检测结果。

实施例2

构建包括骨干网络、特征融合网络和检测头的目标检测模型。

获取多个遥感图像，并对遥感图像进行目标标注，得到目标真值标注结果。

将遥感图像输入至骨干网络，得到多个不同层级特征图。

优选的，骨干网络由传统的卷积神经网络组成，卷积神经网络一般由特征提取块堆叠构成，每个特征提取块内包含卷积算子和归一化算子以及激活函数算子等。深层卷积神经网络通过深层堆叠特征提取块以获得不同尺度的特征图并提取更高维度的特征信息。

优选的，本实施例可适配典型通用骨干网络架构，如ResNet，VGG，CSPNext等卷积神经网络。在实施例中，定义骨干网络的最后三层特征图按照相对深度的不同分别命名为浅层级特征图、中层级特征图和高层级特征图，以方便进行后续融合运算。

优选的，不同层级特征图，具体包括：浅层级特征图、中层级特征图和高层级特征图；中层级特征图是由浅层级特征图提取得到；高层级特征图是由中层级特征图提取得到。

将不同层级特征图分别输入至特征融合网络，对应得到不同层级融合特征图。

优选的，如图2所示，特征融合网络包括：第一多尺度语义特征注意力模块、第二多尺度语义特征注意力模块、第一级联卷积模块、第二级联卷积模块、第三级联卷积模块、第四级联卷积模块、第一卷积模块和第二卷积模块；

对应得到不同层级融合特征图的数据处理过程包括：

高层级特征图分别经过特征重塑运算和第一多尺度语义特征注意力模块处理后，共同与中层级特征图/>进行拼接融合，得到高-中融合输出特征图/>，计算公式如下：

其中，表示特征拼接融合操作，/>表示特征重塑运算，采用插值采样的方式进行特征图形状调整，以保证待融合特征图的尺寸一致，/>表示第一多尺度语义特征注意力模块处理操作；

高-中融合输出特征图输入至第一级联卷积模块/>，得到提取特征图/>，，其中，/>表示第一级联卷积模块处理操作；

提取特征图分别经过第二多尺度语义特征注意力模块/>处理和特征重塑运算后，共同与浅层级特征图/>进行拼接融合，得到中-浅融合输出特征图/>，计算公式如下：

其中，表示第二多尺度语义特征注意力模块处理操作；

中-浅融合输出特征图输入至第二级联卷积模块/>，得到浅层级融合特征图/>，/>，其中，/>表示第二级联卷积模块处理操作。

浅层级融合特征图输入至第一卷积模块/>，得到第一卷积特征图；

第一卷积特征图与提取特征图进行拼接融合后输入至第三级联卷积模块，得到中层级融合特征图/>，计算公式如下：

其中，表示第三级联卷积模块处理操作，/>表示第一卷积模块处理操作。

中层级融合特征图输入至第二卷积模块/>，得到第二卷积特征图；

第二卷积特征图与高层级特征图进行拼接融合后输入至第四级联卷积模块，得到高层级融合特征图/>，计算公式如下：

其中，表示第四级联卷积模块处理操作，/>表示第二卷积模块处理操作。

优选的，第一多尺度语义特征注意力模块和第二多尺度语义特征注意力模块/>的结构相同，数据处理过程也相同；第一级联卷积模块/>、第二级联卷积模块/>、第三级联卷积模块/>和第四级联卷积模块/>的结构均相同，处理数据的过程也相同；第一卷积模块/>和第二卷积模块/>的结构相同，处理数据的过程也相同。

优选的，如图3所示，第一多尺度语义特征注意力模块和第二多尺度语义特征注意力模块/>均包括：第一多尺度卷积/>、第二多尺度卷积、反卷积/>、第一点卷积/>和空间注意力模块CA；

第一多尺度语义特征注意力模块和第二多尺度语义特征注意力模块数据处理过程均为：

输入特征图input分别输入至第一多尺度卷积和第二多尺度卷积进行特征提取，并根据不同的权重系数进行特征图融合，得到多尺度特征图/>，计算公式如下：

其中，和/>分别表示第一多尺度卷积多尺度特征提取操作和第二多尺度卷积多尺度特征提取操作，/>和/>分别表示第一多尺度卷积和第二多尺度卷积对应的特征图融合的可学习权重系数；

将多尺度特征图依次输入至反卷积/>和第一点卷积/>，得到处理后的多尺度特征图；

输入特征图input进行特征重塑运算，得到重塑特征图；

将处理后的多尺度特征图与重塑特征图进行拼接融合，得到输出特征图，计算公式如下：

其中，表示反卷积操作，/>表示第一点卷积处理操作；

输出特征图输入至空间注意力模块CA，得到最终特征图，/>，其中，/>表示空间注意力模块处理操作。

优选的，选取高性能特征融合网络CSPNeXtPAFPN作为基线模型，并在特征融合网络CSPNeXtPAFPN中引入多尺度语义特征注意力模块，能够辅助浅层模型获取多尺度语义特征，提升特征融合网络的融合质量，解决语义特征在特征融合阶段信息丢失和噪声引入问题，进一步提高了遥感图像目标检测的性能。

优选的，反卷积由m个尺寸为5×5的卷积算子组成，通过较大的扩张率和填充率设置来扩大特征图的规模；第一点卷积/>由n个尺寸为1×1的卷积算子组成，用于将特征图的通道数调整为n；空间注意力模块CA能够提升语义特征信息的质量，降低噪声干扰。

优选的，在得到多尺度特征图后，分别输入至反卷积/>和第一点卷积对应进行尺寸变换和通道变换，以得到合适大小的特征图，避免了语义特征在特征融合阶段信息丢失和噪声引入的问题。

优选的，第一多尺度卷积和第二多尺度卷积/>结构相同，均是由多个不同扩张系数的卷积组成；

数据处理过程均为：输入特征图input分别输入至不同扩张系数的卷积，得到多个扩张卷积特征图，并将扩张卷积特征图相加，得到多尺度特征图，计算公式如下：

其中，表示扩张系数为d的卷积算子。

优选的，多尺度卷积PSConv通过将不同感受野下的扩张卷积特征图进行相加，获得到目标的多尺度特征信息。

优选的，空间注意力模块CA数据处理过程为：

；

空间注意力模块对输入数据的空间特征进行权重计算，进而提高特征信息的价值，降低噪声的干扰。至此，多尺度语义特征注意力模块SFAM全部搭建完成。

优选的，空间注意力模块CA通过通道注意力编码空间信息的方式实现空间信息的整合，经过空间特征矩阵和原始特征图的计算变换，可以有效提取高价值的多尺度特征信息，过滤掉融合后特征图因尺寸变化而产生的噪声干扰，最终采用矩阵相乘的形式，对输入数据进行注意力机制计算，进而提高特征信息的价值，降低噪声的干扰。

将不同层级融合特征图输入至检测头进行解耦，得到不同层级的预测目标结果。

优选的，预测目标结果包括：预测目标类别信息和预测目标位置信息/>，计算公式如下：

其中，表示分类函数，/>表示位置回归函数，/>表示待解耦的第i层级融合特征图，包括浅层级融合特征图/>、中层级融合特征图/>和高层级融合特征图/>。

基于预测目标结果和目标真值标注结果联合损失函数对目标检测模型进行训练，得到训练好的目标检测模型。

优选的，损失函数由焦点损失函数FocalLoss和旋转框交并比损失函数RotatedIoULoss组成，损失函数Loss为：

其中，和/>分别表示预测目标结果和目标真值标注结果。

优选的，目标检测模型训练至损失不再下降，则表示目标检测模型训练达到稳定，训练过程结束，得到训练好的目标检测模型。

实施例3

如图4所示，一种基于多尺度语义特征的遥感图像目标检测系统，包括：模型构建模块、特征图提取模块、解耦模块、模型训练模块和结果输出模块；

模型构建模块，用于构建包括骨干网络、特征融合网络和检测头的目标检测模型；

特征图提取模块，用于获取多个遥感图像；将遥感图像输入至骨干网络，得到多个不同层级特征图；将不同层级特征图分别输入至特征融合网络，对应得到不同层级融合特征图；

解耦模块，用于将不同层级融合特征图输入至检测头进行解耦，得到不同层级的预测目标结果；

模型训练模块，用于基于预测目标结果和目标真值标注结果联合损失函数对目标检测模型进行训练，得到训练好的目标检测模型；

结果输出模块，用于将待测遥感图像输入至训练好的目标检测模型，得到对应的目标检测结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多尺度语义特征的遥感图像目标检测方法，其特征在于，包括：

将待测遥感图像输入至所述训练好的目标检测模型，得到对应的目标检测结果；

所述不同层级特征图，具体包括：浅层级特征图、中层级特征图和高层级特征图；

所述中层级特征图是由所述浅层级特征图提取得到；

所述高层级特征图是由所述中层级特征图提取得到；

所述特征融合网络包括：第一多尺度语义特征注意力模块、第二多尺度语义特征注意力模块、第一级联卷积模块、第二级联卷积模块、第三级联卷积模块、第四级联卷积模块、第一卷积模块和第二卷积模块；

对应得到不同层级融合特征图的数据处理过程包括：

所述中-浅融合输出特征图输入至所述第二级联卷积模块，得到浅层级融合特征图；

所述第一多尺度语义特征注意力模块和所述第二多尺度语义特征注意力模块结构相同，均包括：第一多尺度卷积、第二多尺度卷积、反卷积、第一点卷积和空间注意力模块；

输入特征图分别输入至所述第一多尺度卷积和所述第二多尺度卷积进行特征提取，并根据不同的权重系数进行特征图融合，得到多尺度特征图F₁，计算公式如下：

F₁＝Concat(W₁·PSConv₁(input)+W₂·PSConv₂(input))

其中，PSConv₁(·)和PSConv₂(·)分别表示第一多尺度卷积多尺度特征提取操作和第二多尺度卷积多尺度特征提取操作，W₁和W₂分别表示第一多尺度卷积和第二多尺度卷积对应的特征图融合的可学习权重系数，input表示输入特征图；

所述输入特征图进行特征重塑运算，得到重塑特征图；

2.根据权利要求1所述的一种基于多尺度语义特征的遥感图像目标检测方法，其特征在于，对应得到不同层级融合特征图的数据处理过程还包括：

3.根据权利要求2所述的一种基于多尺度语义特征的遥感图像目标检测方法，其特征在于，对应得到不同层级融合特征图的数据处理过程还包括：

4.根据权利要求1所述的一种基于多尺度语义特征的遥感图像目标检测方法，其特征在于，所述第一多尺度卷积和所述第二多尺度卷积结构相同，均是由多个不同扩张系数的卷积组成；

数据处理过程均为：所述输入特征图分别输入至所述不同扩张系数的卷积，得到多个扩张卷积特征图，并将所述扩张卷积特征图相加，得到多尺度特征图PSConv(input)，计算公式如下：

PSConv(input)＝Conv_d＝1(input)+Conv_d＝2(input)+Conv_d＝4(input)

其中，Conv_d表示扩张系数为d的卷积算子。

5.根据权利要求4所述的一种基于多尺度语义特征的遥感图像目标检测方法，其特征在于，所述空间注意力模块数据处理过程为：

其中，H×W表示水平方向和垂直方向的特征维度，表示沿着水平和垂直两个维度聚合特征获得的特征信息，X_c(i，j)表示输入特征图在(i,j)空间位置的特征信息，Z_c表示经过计算获得的空间特征表示矩阵；

通过sigmoid激活函数和第二点卷积，将Z_c的空间信息进行特征映射，得到变换权重矩阵A^h，w，计算过程可形式化地表示为：

A^h，w＝sigmod(Conv₂1*1(Z_c))

其中，sigmod(·)表示sigmoid激活函数操作，Conv₂1*1表示第二点卷积处理操作；

通过对A^h，w进行水平方向和垂直方向的分解可以获得A^h和A^w，A^h(i)和A^w(i)分别表示变换权重矩阵在(i,j)空间位置对应的水平方向i和垂直方向j的变换权重信息，采用矩阵相乘的形式得到输出特征图Y_c，Y_c在(i,j)空间位置的特征信息Y_c(i，j)，计算公式如下：

Y_c(i，j)＝X_c(i，j)*A^h(i)*A^w(j)。

6.根据权利要求1所述的一种基于多尺度语义特征的遥感图像目标检测方法，其特征在于，所述损失函数由焦点损失和旋转框交并比损失组成；所述预测目标结果包括：预测目标类别信息和预测目标位置信息。

7.一种基于多尺度语义特征的遥感图像目标检测系统，其特征在于，包括：模型构建模块、特征图提取模块、解耦模块、模型训练模块和结果输出模块；