CN116486183B

CN116486183B - 基于多种注意力权重融合特征的sar图像建筑区分类方法

Info

Publication number: CN116486183B
Application number: CN202310737189.1A
Authority: CN
Inventors: 李冠群
Original assignee: Genyu Muxing Beijing Space Technology Co ltd
Current assignee: Genyu Muxing Beijing Space Technology Co ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-26
Anticipated expiration: 2043-06-21
Also published as: CN116486183A

Abstract

本发明公开了基于多种注意力权重融合特征的SAR图像建筑区分类方法包括：获取目标区域待识别建筑区的SAR图像，通过多尺度特征提取模块提取出多尺度特征图；将多尺度特征图作为注意力重构权重模块的输入，获得带有重构权重的特征图；将多尺度特征作为注意力通道‑空间权重模块的输入，获得带有通道‑空间权重的特征图；将两个特征图和对SAR图像进行下采样的特征图进行融合，获得多种注意力权重的融合特征图；然后输入训练后的判别器网络模块，输出目标区域内的建筑区分类结果。该方法通过对原始图像多尺度特征信息引入多种注意力机制，能够有效地捕捉SAR图像中与建筑区相关的关键特征，并将其重点加权，从而提高分类的准确性。

Description

基于多种注意力权重融合特征的SAR图像建筑区分类方法

技术领域

本发明涉及图像处理技术领域，更具体的说是涉及一种基于多种注意力权重融合特征的SAR（合成孔径雷达）图像建筑区分类方法，通过引入多种注意力权重，实现对稀疏建筑区、中等密集建筑区和密集建筑区的准确分类。

背景技术

合成孔径雷达（Synthetic Aperture Radar，SAR）是一种能够在复杂天气下获取地面信息的遥感技术。SAR系统通过发送一系列脉冲信号并接收其反射信号，然后根据接收到的回波信号生成高分辨率的雷达图像。SAR图像在建筑区分类等领域具有重要的应用价值，然而由于SAR图像的特殊性质，如复杂的散射机制、噪声干扰等，导致建筑区分类面临一些挑战。

目前，针对SAR图像建筑区分类的研究主要集中在特征提取和分类器设计两个方面。传统的特征提取算法多采用单一特征，如灰度共生矩阵（GLCM）、小波变换等，不能很好对目标特性进行精准描述。此外，传统的识别方法也多基于专家经验进行识别，逐渐跟不上日益增长的数据需求，难以提取目标的深层特征。这些方法往往无法充分挖掘SAR图像中的丰富信息，限制了分类的准确性和泛化能力。

近年来，深度学习技术在SAR图像建筑区分类中取得了显著的进展。卷积神经网络（Convolutional Neural Networks，CNN）被广泛应用于图像分类任务，并在自动特征学习方面取得了优秀的性能。然而，传统的CNN结构在处理SAR图像时存在一些不足之处，如对复杂散射机制的建模能力有限、对不同尺度特征的处理不充分等。

因此，针对SAR图像建筑区分类的背景技术中存在以下问题：（1）缺乏针对SAR图像特点的专门设计的特征提取算法，导致特征表示能力有限。（2）对于不同尺度下的特征处理不充分，限制了建筑区分类的精度。

发明内容

有鉴于此，本发明提供了一种基于多种注意力权重融合特征的SAR图像建筑区分类方法，旨在克服传统方法的局限性，提高建筑区分类的准确性和泛化能力。

为了实现上述目的，本发明采用如下技术方案：

本发明提供一种基于多种注意力权重融合特征的SAR图像建筑区分类方法，包括以下步骤：

S1、获取目标区域待识别建筑区的SAR图像，通过多尺度特征提取模块提取出多尺度特征图；

S2、将所述多尺度特征图作为注意力重构权重模块的输入，获得带有重构权重的特征图；

S3、将所述多尺度特征作为注意力通道-空间权重模块的输入，获得带有通道-空间权重的特征图；

S4、将所述带有重构权重的特征图和带有通道-空间权重的特征图，以及对所述SAR图像进行下采样的特征图进行融合，获得多种注意力权重的融合特征图；

S5、将所述融合特征图输入训练后的判别器网络模块，输出所述目标区域内的建筑区分类结果。

在一个实施例中，所述步骤S1包括：

S101、获取目标区域待识别建筑区的SAR图像，进行预处理；

S102、将预处理后的SAR图像特征，分别送入由不同大小卷积核构成的两个分支中，进行并行多尺度感受野计算；

S103、将两个分支计算的特征结果，在通道层面进行堆叠，提取出多尺度特征图。

在一个实施例中，所述步骤S101包括：获取目标区域待识别建筑区的SAR图像，使用一个带有修正线性单元和一个卷积核进行特征预处理。

在一个实施例中，所述步骤S2包括：

S201、将所述多尺度特征图F₁作为输入，采用双线性插值对所述多尺度特征F₁进行上采样获得采样特征图U_i，将所述多尺度特征图F₁重构为与所述SAR图像相同维度的空间；

S202、采用距离度量准则计算采样特征图U_i和所述多尺度特征图F₁的相似度；

S203、对相似度距离进行归一化处理，得到重构权重W_i；

S204、将所述重构权重W_i乘上所述多尺度特征图F₁，获得带有重构权重的特征图。

在一个实施例中，所述步骤S3包括：

S301、将所述多尺度特征图F₁作为输入，通过权重计算，获得注意力通道-空间权重M_i；

S302、将所述注意力通道-空间权重M_i,乘上所述多尺度特征图F₁，获得带有通道-空间权重的特征图。

在一个实施例中，所述步骤S301包括：

将所述多尺度特征图F₁作为输入，权重计算表示如下：

其中，为获得的注意力通道-空间权重；/>的计算过程共包括二个串联组件，分别为带有通道注意力机制的权值计算和带有空间注意力机制的权值计算；二个串联组件的计算过程可分别形式化地表示为：

其中， AvgPool和MaxPool分别表示平均池化和最大操作池化，MLP表示全连接层，表示为尺寸为7×7的卷积，/>表示sigmoid函数；/>和/>分别为计算的通道权值和空间权值；

将两个注意力权重相乘得到最终的通道-空间权重系数，计算流程表示为：

其中，为计算的注意力通道-空间权重。

在一个实施例中，所述步骤S4具体包括：

对原始输入的所述SAR图像O_i进行两次下采样，获得低分率特征图，表示为：

其中，Downsampling为下采样方法，采用大小为2×2的平均池化；为计算的下采样特征图；

将计算的下采样特征图结合所述带有重构权重的特征图/>和带有通道-空间权重的特征图/>，使用直接级联融合，表示如下：

为获得的带有多种注意力权重的融合特征图。

在一个实施例中，所述步骤S5中的所述判别器网络模块的输出单元由一个卷积和一个Sigmoid函数组成，表示为：

其中，P表示判别识别器网络模块对当前输入图像融合特征识别为具体建筑区图像的概率，为输入原始图像的融合特征图，G表示SAR图像判别器网络。

在一个实施例中，所述步骤S5中的所述判别器网络模块训练时采用交叉熵损失函数，表示为：

其中，CE表示标准交叉熵计算操作；L则表示用来训练网络的整体损失函数；G表示判别器网络；X表示建筑SAR图像，Y表示对应的标签图像。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于多种注意力权重融合特征的SAR图像建筑区分类方法，首先利用原始图像不同尺度下的重要特征，更好地适应SAR图像的复杂性。此外，通过对原始图像多尺度特征信息引入多种注意力机制，能够有效地捕捉SAR图像中与建筑区相关的关键特征，并将其重点加权，从而提高分类的准确性。多种注意力权重的引入使得分类器能够更加关注关键的区域和特征，避免了无关信息的干扰，提高了建筑区分类的精度。此外，使得判别器网络模块在面对新的、未见过的建筑区样本时具有较强的泛化能力。因此，由于多重注意力权重的引入，该方法能够有效地学习和表示SAR图像中的丰富特征，使得判别器网络模块在面对新的、未见过的建筑区样本时具有较强的泛化能力。因此，该方法不仅适用于已知建筑区密度的分类，还能够推广到未知密度的建筑区分类问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的基于多种注意力权重融合特征的SAR图像建筑区分类方法流程图；

图2为本发明提供的多尺度特征提取模块的流程图；

图3为本发明提供的为计算带有注意力重构权重特征图的流程图；

图4为本发明提供的带有注意力通道-空间权重特征图的流程图；

图5为本发明提供的融合特征作为输入的判别网络训练的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于多种注意力权重融合特征的SAR图像建筑区分类方法，参照图1所示，包括以下步骤：

S1、获取目标区域待识别建筑区的SAR图像，通过多尺度特征提取模块提取出多尺度特征图。此多尺度特征提取模块可以由ResNet、VGG、MSFEM（Multi-scale featureextraction module，MSFEM）等深度学习网络完成，其能够提取出SAR图像的多种尺度的特征。

S2、将所述多尺度特征图作为注意力重构权重模块的输入，获得带有重构权重的特征图。通过学习到的注意力权重，使网络能够在特征融合时更注重那些对最终分类结果有显著影响的特征，而忽视那些对最终分类结果影响较小的特征。

S3、将所述多尺度特征作为注意力通道-空间权重模块的输入，获得带有通道-空间权重的特征图。对输入特征图的通道和空间两个方向进行注意力机制的学习，使得网络在特征融合时，能够考虑到不同通道和空间位置的特征对最终分类结果的不同贡献。

S4、将所述带有重构权重的特征图和带有通道-空间权重的特征图，以及对所述SAR图像进行下采样的特征图进行融合，获得多种注意力权重的融合特征图。这一步骤是通过一个特征融合模块进行的，该模块可以是一个简单的加权平均，也可以是一个更复杂的融合机制，如卷积运算。

S5、将所述融合特征图输入训练后的判别器网络模块，输出所述目标区域内的建筑区分类结果。其中，判别器网络模块可以是一个深度学习的分类网络，如卷积神经网络（CNN）或深度信念网络（DBN），其可以通过训练学习到如何基于融合特征图进行建筑区的分类。

该方法通过对原始图像多尺度特征信息引入多种注意力机制，能够有效地捕捉SAR图像中与建筑区相关的关键特征，并将其重点加权，从而提高分类的准确性。

下面通过构建整体网络的角度详细对本发明的技术方案进行说明，包括如下步骤：

步骤一：构建多尺度特征提取模块；

步骤二：构建带有注意力重构权重的特征图；

步骤三：构建带有注意力通道-空间权重的特征图；

步骤四：构建判别器网络，给出输入至判别器网络的图像为某类建筑区图像的概率；

步骤五：采用标准叉熵损失函数对融合特征作为输入的判别网络进行训练；

步骤六：利用训练好的网络对待测试的遥感建筑图像进行测试得到分类结果。

其中，步骤一：构建多尺度特征提取模块；需要比如先使用多尺度特征提取模块（Multi-scale feature extraction module，MSFEM）获得的特征为基础，故先对多尺度特征提取模块进行介绍。

如图2所示，多尺度特征提取模块（MSFEM）采用并联的网络结构。将原始图像输入网络后，分别送入由不同大小卷积核构成的两个分支中，以便于对输入图像的不同尺度进行特征提取，然后使用Concat函数对不同尺度的特征进行初步特征交融，以增加特征图的细粒度，获得图像的多尺度特征信息。

记多尺度特征提取模块（MSFEM）的输入为，在进入多尺度分支计算之前，先使用一个带有修正线性单元（Rectified Linear Unit，ReLU）和一个尺寸为7×7（Convolution，Conv）进行特征预处理，可形式化地表示为：

其中，表示尺寸为7×7的卷积，ReLU则表示修正线性单元；/>则为经过预处理后的特征。

进一步的，将原始输入经过预处理的特征图输入多尺度特征提取模块，进行并行多尺度感受野计算，将该过程可以形式化的表示为：

其中，和/>分别表示尺寸为3×3和5×5的卷积，ReLU则表示修正线性单元。/>和/>则分别表示两个分支的特征计算结果。

进一步的，将两个分支的特征计算结果和/>，通过特征相加进行特征的合并和融合，该过程可形式化地表示为：

其中，Concat表示通道堆叠，也就是对多个特征在通道层面进行堆叠。则表示多尺度特征提取阶段的特征输出结果。

步骤二：构建带有注意力重构权重的特征图：通过步骤一完成了对原始输入图像的多尺度信息特征提取，接下来利用该模块的输出特征作为输入，使用距离度量准则构建带有注意力权重（Attention reconstruction weight，ARW）的特征图。

如图3所示，使用步骤一提取的多尺度特征作为输入，并采用双线性插值方法对进行上采样，将特征图重构为与原始输入图像相同维度的空间。若输入图像的原矩阵为，/>分别代表图像的通道数、长、宽，获得特征向量尺寸同样为/>。即将特征图放大到与原始输入相同的尺寸。该过程可形式化地表示为：

其中，bilinear(·)为双线性插值上采样方法，为上采样得到的特征图。

进一步的，采用距离度量准则计算采样特征图和原始特征图/>的相似度，该过程可形式化地表示为：

其中，tanh(·)为双曲正切函数，D为计算的特征和/>的相似度距离。

进一步的，对相似度距离进行归一化处理，得到重构权重矩阵，该过程可形式化地表示为：

其中，min(D)为相似度矩阵D中最小值，max(D)为相似度矩阵D中最大值。为对相似度距离D进行归一化处理结果，该归一化处理结果作为重构权重矩阵。

进一步的，将获得的重构权值（0-1之间），乘上多尺度特征图/>，计算过程形式化地表示为：

其中，为得到带有重构权重的特征图。

步骤三：构建注意力通道-空间权重的特征图：通过步骤一完成了对原始输入图像的多尺度信息特征提取，接下来利用该模块的输出特征作为输入，使用卷积块注意模块（Convolutional Block Attention Module，CBAM）构建注意力通道-空间权重（Attentionchannels - Spatial Weights，ACSW）的特征图。

如图4所示。使用步骤一提取的多尺度特征作为输入，并使用卷积块注意模块构建注意力通道-空间权重特征图。在计算注意力通道-空间权重特征图时，首先获得注意力通道-空间权重。该权重的计算过程可形式化地表示为：

其中，为获得的通道-空间权重。接下来将/>的计算过程进行详细展开，其中共包括二个串联组件，分别为带有通道注意力机制的权值计算和带有空间注意力机制的权值计算。二个串联组件的计算过程可分别形式化地表示为：

其中，AvgPool和MaxPool分别表示平均池化和最大操作池化，MLP表示全连接层，表示为尺寸为7×7的卷积，/>表示sigmoid函数。/>和/>分别为计算的通道权值和空间权值，每一个特征点的权值在0-1之间。

进一步的，将两个注意力权重相乘得到最终的通道-空间权重系数，这个系数会对输入特征图进行加权，强调其中最有用的信息。计算流程可形式化地表示为：

其中，为计算的注意力通道-空间权重。

进一步的，用通道-空间权重乘上多尺度特征图/>，得到带有通道-空间权重的特征图。计算流程可形式化地表示为：

其中，为计算的带有通道-空间权重的特征图。

进一步的，对原始图像进行两次下采样，获得低分辨率特征图。计算流程可形式化地表示为：

其中，为下采样方法，在本发明中使用大小为2×2的平均池化。/>为原始图像输入，/>为计算的下采样特征图。

进一步的，将计算得到的下采样特征图结合和/>，使用直接级联结合的早期融合方法对带有不同权重的特征图进行融合，以充分利用原始图像的细节信息和上带有不同权重特征的语义信息。计算流程可形式化地表示为：

其中，为获得的带有多种注意力权重的融合特征图。

步骤四：构建判别器网络，给出输入至判别器网络的图像为某类建筑区图像的概率。判别器网络的输出处理单元由一个常规卷积和一个Sigmoid函数组成，该过程可形式化地表示为：

其中，P表示识别器网络对当前输入图像融合特征识别为具体建筑区图像的概率，为输入原始图像的融合特征图，G表示SAR图像判别器网络。

步骤五：采用标准叉熵损失函数对融合特征作为输入的判别网络进行训练。如图5所示。通过步骤一、步骤二和步骤三得到带有多种注意力权重的融合特征，将该融合特征作为判别器网络G的输入。需使用训练数据集及设置相应的损失函数，对网络进行训练，从而使其进行参数更新学习，得到具备分类目标能力的网络。训练数据集中包含上述步骤中所描述的建筑SAR图像X，还包含与其对应的标签图像Y。利用标准交叉熵损失函数对网络整体进行训练，总体的损失函数可表示为：

其中，CE表示标准交叉熵（Cross Entropy，CE）计算操作。L则表示用来训练网络的整体损失函数。网络训练过程持续直至损失收敛，得到训练完毕的网络，即。

步骤六：利用训练完毕的网络得到待测试的SAR建筑区图像的分类结果。在通过步骤五得到训练完毕的网络后，将待测试的建筑SAR图像（记为/>）按照步骤一、步骤二和步骤三中所述，输入至训练完毕的网络中，最终得到对应的建筑区分类结果，该过程形式化表示为：

其中，表示待测试的建筑区SAR图像，/>表示训练完毕的总体网络，/>则为与待测试建筑区SAR图像/>相对应的建筑分类结果。

在本实施例中，将未知区域的SAR图像作为多尺度特征提取模块提取出多尺度特征图，首先作为注意力重构权重模块的输入，获得带有重构权重的特征图；其次，再作为注意力通道-空间权重模块的输入，获得带有通道-空间权重的特征图；然后再将带有重构权重的特征图和带有通道-空间权重的特征图，以及对SAR图像进行下采样的特征图进行融合，获得多种注意力权重的融合特征图，最后输入训练后的判别器网络模块，输出该未知区域内的建筑区分类结果，实现对稀疏建筑区、中等密集建筑区和密集建筑区的准确分类。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多种注意力权重融合特征的SAR图像建筑区分类方法，其特征在于，包括以下步骤：

S5、将所述融合特征图输入训练后的判别器网络模块，输出所述目标区域内的建筑区分类结果；

其中，所述步骤S1包括：

S101、获取目标区域待识别建筑区的SAR图像，进行预处理；

S103、将两个分支计算的特征结果，在通道层面进行堆叠，提取出多尺度特征图；

所述步骤S2包括：

S201、将所述多尺度特征图F₁作为输入，采用双线性插值对所述多尺度特征图F₁进行上采样获得采样特征图U_i，将所述多尺度特征图F₁重构为与所述SAR图像相同维度的空间；

S203、对相似度距离进行归一化处理，得到重构权重W_i；

S204、将所述重构权重W_i乘上所述多尺度特征图F₁，获得带有重构权重的特征图；

所述步骤S3包括：

S302、将所述注意力通道-空间权重M_i,乘上所述多尺度特征图F₁，获得带有通道-空间权重的特征图；

所述步骤S301包括：

将所述多尺度特征图F₁作为输入，权重计算表示如下：

M_i＝CBAM(F₁)

其中，M_i为获得的注意力通道-空间权重；CBAM的计算过程共包括二个串联组件，分别为带有通道注意力机制的权值计算和带有空间注意力机制的权值计算；二个串联组件的计算过程分别形式化地表示为：

M_c(F₁)＝σ(MLP(AvgPool(F₁))+MLP(MaxPool(F₁)))

M_s(F₁)＝σ(f^7×7([AvgPool(F₁)；MaxPool(F₁)]))

其中，AvgPool和MaxPool分别表示平均池化和最大操作池化，MLP表示全连接层，f^7×7表示为尺寸为7×7的卷积，σ表示sigmoid函数；M_c(F₁)和M_s(F₁)分别为计算的通道权值和空间权值；

M_i＝M_c(F₁)×M_s(F₁)

其中，M_i为计算的注意力通道-空间权重；

所述步骤S4具体包括：

f_d＝Downsampling(O_i)

其中，Downsampling为下采样方法，采用大小为2×2的平均池化；f_d为计算的下采样特征图；

将计算的下采样特征图f_d结合所述带有重构权重的特征图Attention_rw和带有通道-空间权重的特征图Attention_csw，使用直接级联融合，表示如下：

f_fusion为获得的带有多种注意力权重的融合特征图；

所述步骤S5中的所述判别器网络模块的输出单元由一个卷积和一个Sigmoid函数组成，表示为：

P＝G(f_fusion)＝Sigmoid(Conv₅(f_fusion))

其中，P表示判别识别器网络模块对当前输入图像融合特征识别为具体建筑区图像的概率，f_fusion为输入原始图像的融合特征图，G表示SAR图像判别器网络。

2.根据权利要求1所述的方法，其特征在于，所述步骤S101包括：获取目标区域待识别建筑区的SAR图像，使用一个带有修正线性单元和一个卷积核进行特征预处理。

3.根据权利要求1所述的方法，其特征在于，所述步骤S5中的所述判别器网络模块训练时采用交叉熵损失函数，表示为：

L＝CE(G(X),Y)