CN116563313B

CN116563313B - 基于门控融合注意力的遥感影像大豆种植区域分割方法

Info

Publication number: CN116563313B
Application number: CN202310843999.5A
Authority: CN
Inventors: 阮瑞; 黄林生; 梁政; 高心悦; 姜兆猛; 宋诗雅
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-09-19
Anticipated expiration: 2043-07-11
Also published as: CN116563313A

Abstract

本发明涉及基于门控融合注意力的遥感影像大豆种植区域分割方法，与现有技术相比解决了难以准确针对大豆种植区域进行分割的缺陷。本发明包括以下步骤：遥感影像的获取与预处理；构建大豆种植区域分割模型；大豆种植区域分割模型的训练；待分割遥感影像的获取；遥感影像大豆种植区域分割结果的获得。本发明在检测大豆种植区时，可以提升融合特征的判别性，提高语义分割效果，有利于大豆种植区提取任务。

Description

基于门控融合注意力的遥感影像大豆种植区域分割方法

技术领域

本发明涉及遥感图像处理技术领域，具体来说是基于门控融合注意力的遥感影像大豆种植区域分割方法。

背景技术

深度学习方法通过对大量样本的训练来自动提取判别性特征，并具有快速、高精度的检测优点，被广泛应用于图像分割等视觉任务中。在常用的深度学习分割模型中，DANet利用自注意力机制捕捉丰富的上下文依赖知识，构建特征关联并用于场景分割任务。该模型设计了一种双流注意力机制，从空间位置和通道维度上建模特征的语义依赖关系，分别得到位置注意力特征和通道注意力特征。

其中，位置注意力特征聚合了图像中所有其他位置的像素特征，而通道注意力聚合了所有通道映射之间的依赖信息，最后将两种注意力机制进行等权加法融合，以提升语义分割的精度。但等权加法融合缺乏对不同注意力特征的分析以及自适应权重分配，抑制了融合特征的表征能力。

大豆的田间种植范围广、结构复杂，且不同时相的空间分布表观各异。通过遥感技术获取的星载图像，包含大量的背景噪声以及其他种植物区域，加上气候变化和云覆盖影响，给遥感场景的大豆种植区空间分布识别带来了巨大的挑战。

因此，如何针对遥感影像实现大豆种植区域的准确分割已经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中难以准确针对大豆种植区域进行分割的缺陷，提供一种基于门控融合注意力的遥感影像大豆种植区域分割方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于门控融合注意力的遥感影像大豆种植区域分割方法，包括以下步骤：

遥感影像的获取与预处理：获取大豆种植区的遥感影像并进行预处理；

构建大豆种植区域分割模型：基于门控交互模块构建大豆种植区域分割模型；

大豆种植区域分割模型的训练：将预处理后的遥感影像输入大豆种植区域分割模型进行训练；

待分割遥感影像的获取：获取待分割的遥感影像并进行预处理；

遥感影像大豆种植区域分割结果的获得：将预处理后的待分割遥感影像输入训练后的大豆种植区域分割模型，获得大豆种植区域遥感影像分割结果。

所述构建大豆种植区域分割模型包括以下步骤：

设定大豆种植区域分割模型包括主干网络、位置注意力模块、通道注意力模块和门控交互模块，其中，主干网络的输入为预处理后的遥感影像，输出为提取的原图1/8大小的特征图，位置注意力模块和通道注意力模块并行设置，分别获取空间和通道维度的特征依赖关系，门控交互模块将位置注意力模块输出的位置注意力特征图、通道注意力模块输出的通道注意力特征图进行特征自适应交互；

设定主干网络：使用ResNet50作为主干特征提取网络，ResNet50共50层，分为5个stage；

设定输入一张256×256×3的原始图像，经过Stage 0预处理模块，先后经过64个卷积核的一层卷积层、BN层、ReLU激活函数、MaxPooling层输出64×64×64的特征图，其中，Stage1-Stage5包含了49个卷积层以及残差连接；

最后再经过AvgPooling层和一层全连接层输出32×32×2048的主干网络特征图；

设定位置注意力模块；

位置注意力模块将主干网络特征图输入位置注意力子网络，先经过3个卷积层生成3个新的特征图B、G、D；对于B特征图进行reshape和转置得到特征图B’；对于G特征图进行reshape，并与B’特征图进行相乘再经过Softmax操作得到特征图G’；对于D特征图进行reshape，与G’特征图相乘再reshape得到特征图D’；最后将D’特征图与主干网络特征图A相加得到位置注意力特征图；

设定通道注意力模块；

通道注意力模块将主干网络特征图输入位置注意力子网络，对于特征图A进行reshape得到特征图X；对于X特征图进行转置得到特征图X^T，将X特征图与特征图X^T相乘再经过Softmax操作得到特征图XX^T；对于XX^T特征图与特征图X相乘得到特征图XX^TX；最后将XX^TX特征图进行reshape，再与主干网络特征图A相加得到通道注意力特征图；

设定门控交互模块。

所述大豆种植区域分割模型的训练包括以下步骤：

将预处理后的遥感影像输入主干网络，输出特征图；

特征图送入位置注意力模块，通过卷积、reshape、矩阵转置、矩阵相乘以及softmax操作得到空间关系映射图/>，

其中C、H和W分别是图像的通道数、高和宽；

同时将特征图F送入卷积层，进行reshape操作得到特征图，将特征图R与特征图S的转置相乘得到特征图/>；

最后将特征图T进行reshape操作，与原特征图F相加得到最终的位置注意力特征图，即：/>，其中，τ是可学习的超参数，P_i第i通道的位置注意力图，j是特征图的位置j像素，H是特征图的高，W是特征图的宽，S_ij是空间关系映射图S第i通道j位置像素的空间映射权重，R_j是特征图R在第j位置的特征，F_i是特征图F的第i通道特征；

将特征图送入通道注意力模块，通过reshape、矩阵转置、矩阵相乘以及softmax操作得到通道依赖关系图/>，其中C是图像的通道数；

同时，将特征图进行reshape操作得到特征图/>，将通道依赖关系图/>的转置与特征图/>相乘得到特征图/>；

最后将特征图Z进行reshape操作，与特征图F相加得到最终的通道注意力特征图，即：/>，

其中，是可学习的超参数，Q_i第i位置像素的通道注意力图，j是特征图的第j通道，C是特征图的通道数，X_ij是通道依赖关系映射图X第j通道i位置像素的通道映射权重，Y_j是特征图Y在第j通道的特征，F_i是特征图F的第i位置像素特征；

将最终的位置注意力特征图输入门控交互模块进行训练：将不同交互特征图、/>、/>输入门控交互模块进行训练。

所述设定门控交互模块包括以下步骤：

将位置注意力特征图和通道注意力特征图/>，进行等权加法融合，得到等权交互特征/>，即：

；

其中，是位置注意力特征图/>，/>是通道注意力特征图/>，是矩阵加法操作；

以位置注意力特征图作为权值，对通道注意力特征图/>进行加权融合，得到位置加权的交互特征/>，即：

，

其中，是矩阵乘法操作；

以通道注意力特征图作为权值，对位置注意力特征图进行加权融合，得到通道加权的交互特征/>，即：/>。

所述的将最终的位置注意力特征图输入门控交互模块进行训练包括以下步骤：

将位置注意力特征图和通道注意力特征图/>输入门控交互模块，输出等权交互特征/>，位置加权的交互特征/>和通道加权的交互特征/>；

通过门控融合网络自适应地融合三种注意力交互特征，输出权重，分别对应于每种交互特征，即：

，

其中，是等权交互特征/>的融合权重，/>是位置加权交互特征/>的融合权重，/>是通道加权交互特征/>的融合权重；

门控交互模块动态地对不同交互特征分配权重，使得融合后的特征适应于当前场景，得到最终的融合特征，即：

；

将输入到最后一层卷积中，生成最终大豆种植区的像素级预测图。

有益效果：

本发明的基于门控融合注意力的遥感影像大豆种植区域分割方法，与现有技术相比在检测大豆种植区时，可以提升融合特征的判别性，提高语义分割效果，有利于大豆种植区提取任务。

为提升大豆种植区的识别精度，提出了一种基于门控融合注意力的大豆种植区识别方法，所提方法利用多注意力机制，分别提取通道注意力和位置注意力的特征。其中，位置注意力特征聚合了图像中所有其他位置的像素特征，而通道注意力聚合了所有通道映射之间的依赖信息。之后，提出一种动态门控融合的注意力交互机制，设计了三种不同的注意力交互方式，充分考虑位置注意力和通道注意力的特性，并进行动态交互。并设计一种门控融合机制，自适应地分配每种交互特征的权重，增强了模型的特征表征能力，提高大豆种植区的识别精度。

附图说明

图1为本发明的方法顺序图；

图2为现有技术中的遥感影像图；

图3为图2的标签影像图；

图4为利用本发明所述方法针对图2所获得的大豆种植区域分割图。

实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种基于门控融合注意力的遥感影像大豆种植区域分割方法，包括以下步骤：

第一步，遥感影像的获取与预处理：获取大豆种植区的遥感影像并进行预处理。

第二步，构建大豆种植区域分割模型：基于门控交互模块构建大豆种植区域分割模型。

针对大豆种植区提取任务，本发明提出了一种基于门控融合注意力的深度学习模型的分割方法。该模型采用了两种注意力机制，从空间位置和通道维度上建模特征的语义依赖关系，分别得到位置注意力特征和通道注意力特征。其中，位置注意力特征聚合了图像中所有其他位置的像素特征，而通道注意力聚合了所有通道映射之间的依赖信息。最后设计了三种不同的注意力交互方式，并利用门控融合机制动态地融合不同的交互注意力，提升特征的表征能力。

其具体步骤如下：

（1）设定大豆种植区域分割模型包括主干网络、位置注意力模块、通道注意力模块和门控交互模块，其中，主干网络的输入为预处理后的遥感影像，输出为提取的原图1/8大小的特征图，位置注意力模块和通道注意力模块并行设置，分别获取空间和通道维度的特征依赖关系，门控交互模块将位置注意力模块输出的位置注意力特征图、通道注意力模块输出的通道注意力特征图进行特征自适应交互。

（2）设定主干网络。为了提高语义分割效果，针对大豆种植区提取任务，本发明在DANet网络基础上，使用Resenet网络作为骨干网络，对最后两层降采样进行剪枝并附加空洞卷积模块，以提取原图1/8大小的特征图。

使用ResNet50作为主干特征提取网络，ResNet50共50层，分为5个stage；

最后再经过AvgPooling层和一层全连接层输出32×32×2048的主干网络的特征图。

（3）设定位置注意力模块；为提取图像中更有判别力的大豆种植区域特征，本发明引入位置注意力模块，以增强模型的特征提取能力。通过计算图像中不同位置的像素特征关联关系，得到图像的全局位置语义特征。位置注意力特征图在原始特征基础上，根据空间关系有选择的聚合其他位置的特征，因此能够提取具有全局依赖关系的位置语义信息。

位置注意力模块将主干网络特征图输入位置注意力子网络，先经过3个卷积层生成3个新的特征图B、G、D；对于B特征图进行reshape和转置得到特征图B’；对于G特征图进行reshape，并与B’特征图进行相乘再经过Softmax操作得到特征图G’；对于D特征图进行reshape，与G’特征图相乘再reshape得到特征图D’；最后将D’特征图与主干网络特征图A相加得到位置注意力特征图。

（4）设定通道注意力模块，高层语义特征图的每个通道对应于每一个具体类别的语义响应，因此本发明引入通道注意力模块，挖掘通道之间的语义相关性，以增强模型对于特定语义的表征能力。通过计算特征图不同通道之间的语义响应依赖关系，得到大豆种植区的增强特征表示。

由于主干网络提取的特征图中每个通道对应于每一个具体类别的语义响应，因此引入通道注意力模块，挖掘通道之间的语义相关性，以增强模型对于特定语义的表征能力，即得到通道注意力特征图。

通道注意力模块将主干网络特征图输入位置注意力子网络，对于特征图A进行reshape得到特征图X；对于X特征图进行转置，再经过Softmax操作得到特征图X^T；对于X特征图与特征图X^T相乘得到特征图XX^T；对于XX^T特征图与特征图X相乘得到特征图XX^TX；最后将XX^TX特征图进行reshape，再与主干网络特征图A相加得到通道注意力特征图。

（5）设定门控交互模块。为了更高效的融合不同注意力特征图，本发明设计一种门控交互模块。将位置注意力模块和通道注意力模块输出的位置注意力特征图和通道注意力特征图进行特征自适应交互，实现更稳健的特征表示。其中等权交互特征均衡地考虑不同特征图的重要性，既保持了全局特征一致性，同时关注了局部语义特征。位置加权交互特征利用通道映射的语义关系来增强位置注意力特征，进一步强化局部区域的语义特征；通道加权交互特征利用空间位置关系来增强通道注意力特征，进一步优化语义特征的全局一致性。

所述设定门控交互模块包括以下步骤：

A1）将位置注意力特征图和通道注意力特征图/>，进行等权加法融合，得到等权交互特征/>，即：/>,

A2）以位置注意力特征图作为权值，对通道注意力特征图进行加权融合，得到位置加权的交互特征/>，即：，其中，/>是矩阵乘法操作；

A3）以通道注意力特征图作为权值，对位置注意力特征图进行加权融合，得到通道加权的交互特征/>，即：/>。

第三步，大豆种植区域分割模型的训练：将特征图输入大豆种植区域分割模型进行训练。其具体步骤如下：

（1）将预处理后的遥感影像输入主干网络，输出特征图。

（2）特征图送入位置注意力模块，通过卷积、reshape、矩阵转置、矩阵相乘以及softmax操作得到空间关系映射图/>，

其中C、H和W分别是图像的通道数、高和宽；

同时将特征图送入卷积层，进行reshape操作得到特征图/>，将特征图/>与特征图/>的转置相乘得到特征图/>；

最后将特征图进行reshape操作，与原特征图/>相加得到最终的位置注意力特征图/>，即：

，

其中，τ是可学习的超参数，P_i第i通道的位置注意力图，j是特征图的位置j像素，H是特征图的高，W是特征图的宽，S_ij是空间关系映射图S第i通道j位置像素的空间映射权重，R_j是特征图R在第j位置的特征，F_i是特征图F的第i通道特征；

（3）将特征图送入通道注意力模块，通过reshape、矩阵转置、矩阵相乘以及softmax操作得到通道依赖关系图/>，

其中C是图像的通道数；

最后将特征图Z进行reshape操作，与特征图F相加得到最终的通道注意力特征图，即：

，

通道注意力特征图Q在原始特征基础上，利用通道之间的语义依赖关系，聚合长期语义依赖的其他通道特征，因此能够提高特征的判别性。

（4）将最终的位置注意力特征图输入门控交互模块进行训练：将不同交互特征图、/>、/>输入门控交互模块进行训练。

A1）将位置注意力特征图和通道注意力特征图/>输入门控交互模块，输出通道加权的交互特征/>，位置加权的交互特征/>和通道加权的交互特征/>；

A2）通过门控融合网络自适应地融合三种注意力交互特征，输出权重，分别对应于每种交互特征，即：

，

A3）门控交互模块动态地对不同交互特征分配权重，使得融合后的特征适应于当前场景，得到最终的融合特征，即：/>；

第四步，待分割遥感影像的获取：获取待分割的遥感影像并进行预处理。

第五步，遥感影像大豆种植区域分割结果的获得：将预处理后的待分割遥感影像输入训练后的大豆种植区域分割模型，获得大豆种植区域遥感影像分割结果。

如图2所示，其为待处理分析的遥感影像图像，经过本发明所述方法处理后获得如图4所示大豆种植区域遥感影像分割图像，与其图3所示的标签图像对比，本发明所述方法的分割效果较好，达到了实际使用需求。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于门控融合注意力的遥感影像大豆种植区域分割方法，其特征在于，包括以下步骤：

11）遥感影像的获取与预处理：获取大豆种植区的遥感影像并进行预处理；

12）构建大豆种植区域分割模型：基于门控交互模块构建大豆种植区域分割模型；

所述构建大豆种植区域分割模型包括以下步骤：

121）设定大豆种植区域分割模型包括主干网络、位置注意力模块、通道注意力模块和门控交互模块，其中，主干网络的输入为预处理后的遥感影像，输出为提取的原图1/8大小的特征图，位置注意力模块和通道注意力模块并行设置，分别获取空间和通道维度的特征依赖关系，门控交互模块将位置注意力模块输出的位置注意力特征图、通道注意力模块输出的通道注意力特征图进行特征自适应交互；

122）设定主干网络：使用ResNet50作为主干特征提取网络，ResNet50共50层，分为5个stage；

设定输入一张256×256×3的原始图像，经过Stage0预处理模块，先后经过64个卷积核的一层卷积层、BN层、ReLU激活函数、MaxPooling层输出64×64×64的特征图，其中，Stage1-Stage5包含了49个卷积层以及残差连接；

123）设定位置注意力模块；

124）设定通道注意力模块；

125）设定门控交互模块；

所述设定门控交互模块包括以下步骤：

1251）将位置注意力特征图和通道注意力特征图/>，进行等权加法融合，得到等权交互特征/>，即：

，

其中，是位置注意力特征图/>，/>是通道注意力特征图/>，/>是矩阵加法操作；

1252）以位置注意力特征图作为权值，对通道注意力特征图/>进行加权融合，得到位置加权的交互特征/>，即：

,其中，/>是矩阵乘法操作；

1253）以通道注意力特征图作为权值，对位置注意力特征图进行加权融合，得到通道加权的交互特征/>，即：

；

13）大豆种植区域分割模型的训练：将预处理后的遥感影像输入大豆种植区域分割模型进行训练；

14）待分割遥感影像的获取：获取待分割的遥感影像并进行预处理；

15）遥感影像大豆种植区域分割结果的获得：将预处理后的待分割遥感影像输入训练后的大豆种植区域分割模型，获得大豆种植区域遥感影像分割结果。

2.根据权利要求1所述的基于门控融合注意力的遥感影像大豆种植区域分割方法，其特征在于，所述大豆种植区域分割模型的训练包括以下步骤：

21）将预处理后的遥感影像输入主干网络，输出特征图；

22）特征图送入位置注意力模块，通过卷积、reshape、矩阵转置、矩阵相乘以及softmax操作得到空间关系映射图/>，其中C、H和W分别是图像的通道数、高和宽；

最后将特征图T进行reshape操作，与原特征图F相加得到最终的位置注意力特征图，即：

，

23）将特征图送入通道注意力模块，通过reshape、矩阵转置、矩阵相乘以及softmax操作得到通道依赖关系图/>，其中C是图像的通道数；

同时，将特征图进行reshape操作得到特征图/>，将通道依赖关系图的转置与特征图/>相乘得到特征图/>；

，

24）将最终的位置注意力特征图输入门控交互模块进行训练：将不同交互特征图、/>、/>输入门控交互模块进行训练。

3.根据权利要求2所述的基于门控融合注意力的遥感影像大豆种植区域分割方法，其特征在于，所述的将最终的位置注意力特征图输入门控交互模块进行训练包括以下步骤：

31）将位置注意力特征图和通道注意力特征图/>输入门控交互模块，输出等权交互特征/>，位置加权的交互特征/>和通道加权的交互特征；

32）通过门控融合网络自适应地融合三种注意力交互特征，输出权重/>，分别对应于每种交互特征，即：

，其中，/>是等权交互特征/>的融合权重，/>是位置加权交互特征/>的融合权重，/>是通道加权交互特征/>的融合权重；

33）门控交互模块动态地对不同交互特征分配权重，使得融合后的特征适应于当前场景，得到最终的融合特征，即：

；将/>输入到最后一层卷积中，生成最终大豆种植区的像素级预测图。