CN116343052B

CN116343052B - 一种基于注意力和多尺度的双时相遥感图像变化检测网络

Info

Publication number: CN116343052B
Application number: CN202310618715.2A
Authority: CN
Inventors: 刘伟; 林奕渊; 刘家伟; 郑宇超
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-01
Anticipated expiration: 2043-05-30
Also published as: CN116343052A

Abstract

一种基于注意力和多尺度的双时相遥感图像变化检测网络。所述变化检测网络采用CNN‑transformer结构，使用CNN从输入的双时相图像对中提取多尺度特征；然后使用注意力和transformer模块进一步对双时相图像中的特征上下文信息进行建模；此外使用特征交换操作，部分交换孪生网络两个分支之间的双时相特征。本发明一方面基于注意力的多尺度transformer网络，它结合卷积神经网络、transformer、多尺度模块和注意力机制的优势；另一方面其在本变化检测的框架中使用特征交换模块，提高变化检测的性能；再一方面其设计了通道注意力模块可突出与变化相关的通道。

Description

一种基于注意力和多尺度的双时相遥感图像变化检测网络

技术领域

本发明涉及遥感图像处理技术领域，特别涉及一种基于注意力和多尺度的双时相遥感图像变化检测网络。

背景技术

双时相变化检测是遥感图像处理的一个重要方向，目标是分析同一位置不同时相的遥感图像的地物变化。遥感图像的双时相变化检测在灾害评估、城市规划、农业调查、资源管理和环境监测等应用中具有重要意义。对地观测技术的快速发展提供了大量高分辨率光学遥感图像，同时使变化检测技术受到越来越广泛关注。大规模高分辨率遥感图像的出现和深度学习技术的快速发展，推动了变化检测技术取得重大进展的同时，也对变化检测技术提出了新的要求。由于复杂的纹理、季节变化、气候变化和新的需求等各种因素，双时相遥感图像变化检测仍然被认为是高分辨率光学遥感数据分析中最具挑战性的任务之一。

近几十年来，许多研究人员一直在设计面向光学遥感图像变化检测的方法，以解决变化检测中的挑战。具有手工特征的传统变化检测方法可以在一些简单场景中获得良好的效果，但在复杂场景中通常表现不佳。基于深度学习的变化算法比传统算法表现更好，因为它们可以从大量高质量样本中学习判别特征。在这些基于深度学习的算法中，基于深度卷积神经网络或transformer网络的变化检测算法性能更好。因此，深度卷积神经网络被广泛应用于变化检测任务，以提取具有高度判别性的特征。这些深度特征提取器包括经典的深度卷积神经网络及其扩展架构。目前常用的特征提取策略有单分支结构和孪生网络两种。单分支变化网络采用早期融合策略，将输入图像在输入变化检测网络之前进行融合。孪生网络是一种后期融合策略，通常融合从两个独立的子网络中提取的特征。与单支结构相比，孪生网络由于其更好的性能，近年来得到了更广泛的应用。

为了捕捉遥感图像的变化，深度卷积网络在空间和时间域上对上下文信息进行建模是至关重要的。对上下文信息建模已经做了很多工作。这些方法将特征聚合或注意力机制集成到卷积神经网络中，进一步提高变化检测性能。单分支结构通常使用拼接、差分或求和操作执行图像级特征融合。双分支孪生网络结构通常使用单尺度或多尺度来融合特征。

注意力机制可以使网络关注与变化区域相关的信息，以改善特征表示。基于注意力的变化检测网络可以自动突出与变化区域相关的重要信息，并在位置或通道中抑制与不变区域相关的特征。因此，近年来，一系列研究工作将注意力机制引入变化检测任务。这些注意力机制通常以三种方式实现:包括空间注意力、通道注意力和自注意力。仅使用空间注意力或者通道注意力无法有效建模图像中的全局上下文信息。以往研究中使用自注意力机制建模长期依赖关系得到了很好的结果，但计算效率非常低。

随着transformer在图像分类、语义分割、目标检测等计算机视觉任务中的成功，transformer结构在变化检测中受到越来越多的关注。与纯卷积神经网络相比，transformer结构可以使用编码器-解码器结构有效建模图像的全局上下文信息。受transformer在计算机视觉任务中成功应用的激励，一些基于transformer的变化检测算法最近也出现了令人印象深刻的结果。相对于在自然语义处理中transformer结构的广泛应用，其在变化检测中的应用还有待改进。特别是将多尺度策略和注意力机制与transformer结构结合需要进一步研究。

发明内容

基于此，提出了一种基于注意力和多尺度的双时相遥感图像变化检测网络，该网络基于注意力的多尺度transformer网络，结合了卷积神经网络、transformer、多尺度模块和注意力机制的优势。

本发明提供一种基于注意力和多尺度的双时相遥感图像变化检测网络，采用CNN-transformer结构，使用卷积神经网络（残差网ResNet）作为主干网络，从输入的双时相图像对中提取多尺度特征；

然后，使用注意力和transformer模块对双时相图像中的特征上下文信息进行建模，所述注意力包括空间注意力和通道注意力；

此外，使用特征交换操作，部分交换孪生网络两个分支之间的双时相特征，以弥合不同时相图像域之间的领域差距。

进一步的，令和/>别表示在两个不同时间拍摄的同一区域的图像，令表示图像/>的输入特征，其中/>、/>和/>分别表示图像的高、宽和通道数；

对于图像输入特征，使用主干网络ResNet提取出三个不同尺度的特征图/>、/>和/>；

将上述的与孪生网络另一个分支的相同尺度的特征图进行部分交换，然后将经过特征交换的/>输入到空间注意力模块（SAM），得到特征图/>；

将特征图与另外两个从输入图像/>导出的不同尺度的特征图使用采样和加法融合，获得融合后的特征图/>；

特征图依次输入到transformer和通道注意力模块（CAM），得到特征图/>；

来自两个子网络的相同尺度的特征图沿着通道维度方向拼接，并输入到相应的基于CNN的分类器中，得到三个预测变化图、/> 和/>，在变化检测网络的训练阶段，/>、/>和被赋予相同的权重以构造训练算法的总损失函数；在测试阶段中，只有变化图/>会被用作预测预测结果。

进一步的，将上述的与孪生网络另一个分支的相同尺度的特征图进行部分交换，交换两个特征图对应位置的元素，这两个特征图分辨率大小相同，来自孪生网络的不同分支（例如/>和/>）；特征图/>和/>在通道或空间中的部分特征交换可以表述为：

。

其中和/>分别对应于批次、通道、高度和宽度维度；/>尺寸大小为 ,是仅由1和0组成的交换掩模，表示是否进行特征交换操作。

特征图和/>、/>和/>、/>和/>两两之间实施特征交换；对于分辨率高的特征图/>，采用空间上的特征交换操作；对于分辨率低的特征图/>和/>，在通道维度上采用特征交换操作。

进一步的，特征图经过特征交换后，再由空间注意模块（SAM）处理；空间注意力模块用于在空间位置上自动强调特征图/>中与变化相关的重要信息；

特征图为在的每个通道上使用二维的空间注意力矩阵/>加权特征图，特征图/>中与位置变化相关的有意义的特征被赋予更大的权重；这样，空间注意力模块有效地突出了双时相图像中与变化区域相关的特征并抑制了不相关区域的特征；

为了获得与相关的空间注意力/>沿通道轴的方向实施平均池化和最大池化操作，然后连接池化操作的结果以生成/>；令MaxPool和AvgPool分别表示最大池化和平均池化；计算 />的空间注意力过程可以表述为：

；

其中示 Sigmoid 函数，/>表示使用边界填充宽度为3的/>卷积核；

通过SAM得到特征图/>可以如下表示：

;

其中表示两个矩阵之间的逐元素乘法；对于特征图的每个通道，我们使用相同的权重矩阵/>来突出显示信息。

进一步的，将特征图与同一孪生网络分支上另外两个特征图使用采样（上采样或下采样）和加法进行融合，生成融合后的特征图/>；之后，融合后的特征图/>通过transformer模块和通道注意力模块生成特征图/>；transformer由编码器和解码器块组成；通道注意力模块通过突出显示与变化相关的通道以建模通道上下文信息；以下详细描述本发明设计的通道注意力模块；

多个特征共享相同通道注意力；为了计算通道注意力，首先，通过逐元素求和来融合两个孪生分支的相同分辨率的特征图，然后沿着融合结果的空间维度应用最大池化。接下来，再次使用逐元素求和融合最大池化操作的多尺度结果，并将融合结果通过多层感知（MLP）传递以获得通道注意力/>；多层感知器由一个全卷积层和一个ReLU激活函数以及一个全卷积层和一个Sigmoid激活函数组成；下面使用公式阐述相关过程；

令表示通过transformer模块输入/>得到的特征图；使用最大池化，和/>的融合结果可以表示为：

，

其中表示使用逐元素求和融合相关特征图；令/>表示通道数量的缩减比例，使用ReLU作为激活函数，通道注意力图可以表示为：

；

其中和/>；最后通过通道注意力后得到特征图/>可以表示为：

。

进一步的，将两个孪生网络分支的相同分辨率的特征图沿通道维度拼接起来；通过成对拼接，获得三个融合特征图、/>和/>；然后，这三个融合的特征图被上采样到原始图像大小/>，并分别输入到对应的基于CNN 的分类器中；三个分类器包含两个卷积层；

最后，从基于CNN的分类器中获得三个关于双时相遥感图像的变化预测图、/>、；

设表示真值，那么基于交叉熵（CE）损失的变化检测任务的总损失函数是：

其中是预测变化图/>和真实值/>之间的CE损失，/>和/>的定义类似。

与现有技术相比，本发明的优势如下：本发明的基于注意力和多尺度的双时相遥感图像变化检测网络，一方面，基于注意力的多尺度transformer网络，它结合了卷积神经网络、transformer、多尺度模块和注意力机制的优势；另一方面，其在本变化检测的框架中使用特征交换模块，提高变化检测的性能；再一方面，其设计了通道注意力模块，可以突出与变化相关的通道。

本发明的基于注意力和多尺度的双时相遥感图像变化检测网络，一方面，使用了双时特征间的特征交换和空间注意力机制，这使两个分支的特征之间的分布更加相似，并且在一定程度上增加了样本的多样性同时还强调了特征的位置信息；另一方面，本发明将Transformer结构和通道注意力机制相结合，可以减少在特征提取过程中丢失的上下文信息和选择性加强重要的特征，忽略不重要的特征。有利于提高模型在数据集上的检测结果；再一方面，本发明设计的算法可以充分利用各个阶段提取出的图像特征。

附图说明

图1为本发明的基于注意力和多尺度的双时相遥感图像变化检测的网络框架图；

图2为图1所示基于注意力和多尺度的双时相遥感图像变化检测的特征交换示意图；

图3为图1所示基于注意力和多尺度的双时相遥感图像变化检测的空间注意力模块示意图；

图4为图1所示基于注意力和多尺度的双时相遥感图像变化检测的通道注意力模块示意图；

图5为图1所示基于注意力和多尺度的双时相遥感图像变化检测的基于CNN的变化检测分类器。

具体实施方式

下面将结合本发明实例中的附图，对本发明实例中的技术方案进行清楚，完整的描述，所描述的实例仅仅是本发明一方面实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

网络结构及算法

请参阅图1，本发明提供一种基于注意力和多尺度的双时相遥感图像变化检测网络，结合了卷积神经网络（CNN）、多尺度、transformer和注意力机制等结构的优势。首先，它使用残差网ResNet作为CNN主干网络，从输入的双时相图像对中提取多尺度特征。然后，它使用注意力和transformer模块进一步对双时相图像中的特征上下文信息进行建模。此外，我们使用特征交换操作，部分交换孪生网络两个分支之间的双时相特征，以弥合不同时相图像域之间的领域差距。

具体地，令和/>分别表示在两个不同时间拍摄的同一区域的图像，令表示图像/>的输入特征，其中/>、/>和/>分别表示图像的高、宽和通道数。变化检测网络的两个子网络的CNN主干共享相同的权重。

本发明的变化检测网络使用ResNet移除初始全连接层作为主干，从输入图像和中提取多尺度特征。如图1所示，ResNet主干网络包含五个主要块，包括一个/>卷积层和四个残差块。为简单起见，这五个构建基块将分别称为卷积层1、残差块2、残差块3、残差块4和残差块5。其中，残差块3和残差块4执行步幅（stride）为2的下采样。对于输入双时相图像的输入特征/>，从残差块2、残差块3和残差块5三个模块中分别提取出三个尺度不同的特征图/>、/>和/>。

以下总结本算法的主要流程：

（1）首先，对于图像的输入特征，使用主干网络提ResNet取出三个不同尺度的特征图/>、/>和/>；

（2）接下来，将上述的与孪生网络另一个分支的相同尺度（即相同空间分辨率）的特征图进行部分交换，然后将经过特征交换的/>输入到空间注意力模块（SAM），得到特征图/>；

（3）然后，将特征图与另外两个从输入图像/>导出的不同尺度的特征图使用采样（上采样或下采样）和加法融合，获得融合后的特征图/>；

（4）之后，特征图依次输入到transformer和通道注意力模块（CAM），得到特征图/>；

（5）最后，来自两个子网络的相同尺度的特征图沿着通道维度方向拼接，并输入到相应的基于CNN的分类器中，得到三个预测变化图、/>和/>。在变化检测网络的训练阶段，、/>和/>被赋予相同的权重以构造训练算法的总损失函数。在测试阶段中，只有变化图/>会被用作预测预测结果。

特征交换与空间注意力

由于太阳光照、观测天气、传感器或季节等差异，通常会在不同时相的图像之间产生领域偏移。为了解决这个问题，我们利用无参数特征交换在通道或空间维度上的两个孪生网络分支之间部分交换具有相同比例的双时相特征。这种特征的混合导致两个分支之间的特征分布更加相似，并有助于弥合领域偏移。

如图2所示，我们交换两个特征图对应位置的元素，这两个特征图分辨率大小相同，来自孪生网络的不同分支（例如和/>）。特征图/>和/>在通道或空间中的部分特征交换可以表述为：

；

其中和/>分别对应于批次、通道、高度和宽度维度。/>尺寸大小为，是仅由1和0组成的交换掩模，表示是否进行特征交换操作。

我们为特征图和/>、/>和/>、/>和/>两两之间实施特征交换。对于分辨率高的特征图/>，我们采用空间上的特征交换操作。对于分辨率低的特征图/>和，我们在通道维度上采用特征交换操作。

特征图经过特征交换后，再由空间注意模块（SAM）处理。空间注意力模块用于在空间位置上自动强调特征图/>中与变化相关的重要信息。

如图3所示，在的每个通道上使用二维的空间注意力矩阵/>加权特征图。特征图/>中与位置变化相关的有意义的特征被赋予更大的权重。这样，空间注意力模块有效地突出了双时相图像中与变化区域相关的特征并抑制了不相关区域的特征。

为了获得与相关的空间注意力/>，我们沿通道轴的方向实施平均池化和最大池化操作，然后连接池化操作的结果以生成/>。令MaxPool和AvgPool分别表示最大池化和平均池化。计算/>的空间注意力过程可以表述为：

；

其中表示 Sigmoid 函数，/>表示使用边界填充宽度为3的 />卷积核。

通过SAM得到特征图/>可以如下表示：

；

其中表示两个矩阵之间的逐元素乘法。对于特征图的每个通道，我们使用相同的权重矩阵/>来突出显示信息。

通道注意力模块

如图1所示，将特征图与同一孪生网络分支上另外两个特征图使用采样（上采样或下采样）和加法进行融合，生成融合后的特征图/>。之后，融合后的特征图/>通过transformer模块和通道注意力模块生成特征图/>。transformer由编码器和解码器块组成。如何设计编码器和解码器不属于本框架的创新点，不在本发明的讨论范围内。常用的编解码器可以在本发明的变换检测框架中使用。本发明使用空间注意力模块和transformer分别对空间上下文信息和全局上下文信息进行建模。通道注意力模块通过突出显示与变化相关的通道以建模通道上下文信息。以下详细描述本发明设计的通道注意力模块。

如图4所示，多个特征共享相同通道注意力。为了计算通道注意力，首先，我们通过逐元素求和来融合两个孪生分支的相同分辨率的特征图，然后沿着融合结果的空间维度应用最大池化。接下来，我们再次使用逐元素求和融合最大池化操作的多尺度结果，并将融合结果通过多层感知（MLP）传递以获得通道注意力/>。多层感知器由一个全卷积层和一个ReLU激活函数以及一个全卷积层和一个Sigmoid激活函数组成。下面使用公式阐述相关过程。

令表示通过transformer模块输入/>得到的特征图。使用最大池化，和/>的融合结果可以表示为：

；

其中表示使用逐元素求和融合相关特征图。令/>表示通道数量的缩减比例，使用ReLU作为激活函数，通道注意力图可以表示为：

；

其中和/>。最后通过通道注意力后得到特征图/>可以表示为：

。

CNN分类器和总损失函数

如图1所示，我们将两个孪生网络分支的相同分辨率的特征图沿通道维度拼接起来。通过成对拼接，获得三个融合特征图、/>和/>。然后，这三个融合的特征图被上采样到原始图像大小/>，并分别输入到对应的基于CNN 的分类器中。三个分类器具有如图5所示相同的结构，该分类器包含两个卷积层。

最后，从基于CNN的分类器中获得三个关于双时相遥感图像的变化预测图、/>和/>。

该表示真值，那么基于交叉熵（CE）损失的变化检测任务的总损失函数是：，其中/>是预测变化图/>和真实值/>之间的CE损失；/>和/>的定义类似。

本发明的基于注意力和多尺度的双时相遥感图像变化检测网络，一方面，基于注意力的多尺度transformer网络，它结合了卷积神经网络、transformer、多尺度模块和注意力机制的优势；另一方面，其在本变化检测的框架中使用特征交换模块，提高变化检测的性能；再一方面，其设计了通道注意力模块，可以突出与变化相关的通道。

本发明的基于注意力和多尺度的双时相遥感图像变化检测网络，一方面，使用了双时特征间的特征交换和空间注意力机制，这使两个分支的特征之间的分布更加相似，并且在一定程度上增加了样本的多样性同时还强调了特征的位置信息；另一方面，本专利将Transformer结构和通道注意力机制相结合，可以减少在特征提取过程中丢失的上下文信息和选择性加强重要的特征，忽略不重要的特征。有利于提高模型在数据集上的检测结果；再一方面，本发明设计的算法可以充分利用各个阶段提取出的图像特征。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不限于本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述实施例所记载的技术方案进行修改，或者对其中方面技术特征进行等同替换，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力和多尺度的双时相遥感图像变化检测网络，其特征在于，采用CNN-transformer结构，使用卷积神经网络作为主干网络，从输入的双时相图像对中提取多尺度特征；

此外，使用特征交换操作，部分交换孪生网络两个分支之间的双时相特征，以弥合不同时相图像域之间的领域差距；令和/>分别表示在两个不同时间拍摄的同一区域的图像，令/>表示图像/>，其中/>、/>和/>分别表示图像的高、宽和通道数；

对于图像输入特征使用主干网络ResNet提取出三个不同尺度的特征图/>、/>和/>；

将上述的与孪生网络另一个分支的相同尺度的特征图进行部分交换，然后将经过特征交换的/>输入到空间注意力模块，得到特征图/>；

特征图依次输入到transformer和通道注意力模块，得到特征图/>；

来自两个子网络的相同尺度的特征图沿着通道维度方向拼接，并输入到相应的基于CNN的分类器中，得到三个预测变化图、/>和/>；在变化检测网络的训练阶段，/>、/>和/>被赋予相同的权重以构造训练算法的总损失函数；在测试阶段中，只有变化图/>会被用作预测预测结果；将上述的/>与孪生网络另一个分支的相同尺度的特征图进行部分交换，交换两个特征图对应位置的元素，这两个特征图分辨率大小相同，来自孪生网络的不同分支；特征图/>和/>在通道或空间中的部分特征交换表述为：

；

其中和/>分别对应于批次、通道、高度和宽度维度；/>尺寸大小为/>，是仅由1和0组成的交换掩模，表示是否进行特征交换操作；

特征图和/>、/>和/>、/>和/>两两之间实施特征交换；对于分辨率高的特征图/>，采用空间上的特征交换操作；对于分辨率低的特征图/>和/>，在通道维度上采用特征交换操作；特征图/>经过特征交换后，再由空间注意模块处理；空间注意力模块用于在空间位置上自动强调特征图/>中与变化相关的重要信息；

特征图在的每个通道上使用二维的空间注意力矩阵/>加权特征图，特征图/>中与位置变化相关的有意义的特征被赋予更大的权重；这样，空间注意力模块有效地突出了双时相图像中与变化区域相关的特征并抑制了不相关区域的特征；

为了获得与相关的空间注意力/>，沿通道轴的方向实施平均池化和最大池化操作，然后连接池化操作的结果以生成/>，令MaxPool和AvgPool分别表示最大池化和平均池化；计算 />的空间注意力过程表述为：

；

其中表示Sigmoid 函数，/>表示使用边界填充宽度为3的/>卷积核；

通过SAM得到特征图/>如下表示：

；

其中表示两个矩阵之间的逐元素乘法；对于特征图的每个通道，我们使用相同的权重矩阵/>来突出显示信息；将特征图/>与同一孪生网络分支上另外两个特征图使用采样和加法进行融合，生成融合后的特征图/>；之后，融合后的特征图/>通过transformer模块和通道注意力模块生成特征图/>；transformer由编码器和解码器块组成；通道注意力模块通过突出显示与变化相关的通道以建模通道上下文信息；

多个特征共享相同通道注意力；为了计算通道注意力，首先，通过逐元素求和来融合两个孪生分支的相同分辨率的特征图，然后沿着融合结果的空间维度应用最大池化；接下来，再次使用逐元素求和融合最大池化操作的多尺度结果，并将融合结果通过多层感知传递以获得通道注意力/>；多层感知器由一个全卷积层和一个ReLU激活函数以及一个全卷积层和一个Sigmoid激活函数组成；下面使用公式阐述相关过程；

令表示通过transformer模块输入/> 得到的特征图；使用最大池化，和/>的融合结果表示为：

；

其中表示使用逐元素求和融合相关特征图；令/>表示通道数量的缩减比例，使用ReLU作为激活函数，通道注意力图表示为：

；

其中和/>；最后通过通道注意力后得到特征图/>表示为：

；将两个孪生网络分支的相同分辨率的特征图沿通道维度拼接起来；通过成对拼接，获得三个融合特征图/>、/>和/>；然后，这三个融合的特征图被上采样到原始图像大小/>，并分别输入到对应的基于CNN 的分类器中；三个分类器具有相同的网络结构，包含两个卷积层；

最后，从基于CNN的分类器中获得三个关于双时相遥感图像的变化预测图、/> 和/>；

设表示真值，那么基于交叉熵损失的变化检测任务的总损失函数是：

；

其中是预测变化图/>和真实值/>之间的CE损失；/>和/>的定义类似。/>