CN114842351A

CN114842351A - 一种基于孪生Transformers的遥感图像语义变化检测方法

Info

Publication number: CN114842351A
Application number: CN202210374988.2A
Authority: CN
Inventors: 王得成; 郭宁博; 易辉; 徐碧洁; 郑逢杰; 陈向宁
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-02

Abstract

本发明公开了一种基于孪生Transformers的遥感图像语义变化检测方法，使用权值共享的两个Swin Transformers作为模型的编码器，直接对图像全局语义关系进行建模，不需要额外卷积层提取特征，具有更好的准确率和鲁棒性；在解码阶段利用3D卷积模块和带有轴向注意力的反卷积模块将级联后的双时相特征生成多类别变化图，提高了模型的检测精度和计算效率。

Description

一种基于孪生Transformers的遥感图像语义变化检测方法

技术领域

本发明属于遥感影像变化检测技术领域，具体涉及一种基于孪生Transformers的遥感图像语义变化检测方法。

背景技术

变化检测是目前遥感领域重要的研究主题之一，其目的是在同一区域的双时相遥感影像中检测出感兴趣的变化目标，并生成变化图。语义变化图中用多元标签表示不同地物的变化情况，提供详细的“从-到”变化信息。语义变化检测技术可以减少大量的劳动力成本和时间消耗，从而广泛应用于城市规划、环境监测以及自然灾害评估(Ji等,2019；Isaienkov等,2020；Ye等,2021)。

随着高分辨率卫星和航空遥感数据的爆炸式增长，遥感领域的相关问题也得到了有效解决。但在语义变化检测中，高分辨率增加了遥感影像的复杂性，模型难以区分场景中的真实变化和无关变化，对不同的变化类别识别不够准确。因此，基于高分辨率遥感图像的语义变化检测仍然是一个具有挑战性的任务。

目前，许多学者利用卷积神经网络(CNN)对特征提取和识别的有效性，将其应用于双时相遥感影像的变化检测中。现有方法的工作主要集中在三个方面：1)利用孪生CNN分别提取双时相影像的特征(Zhang等，2020)，从而得到精确的变化检测结果。2)在网络中加入注意力机制增强感兴趣特征(Shi等，2021)，能够加快模型的收敛。3)通过深度监督策略和改进损失函数来加强对细微变化区域的检测效果(Peng等，2019)。

虽然目前基于CNN的变化检测方法取得了良好的性能，但由于卷积运算中感受野的局限性，使得CNN无法对双时相影像的远程上下文关系很好的建模，并且深层卷积引起的高计算复杂度导致模型的计算效率降低。

发明内容

有鉴于此，本发明的目的是提供一种基于孪生Transformers的遥感图像语义变化检测方法，可以准确检测出双时相影像中感兴趣的语义变化，降低模型计算复杂度。

本发明具有如下有益效果：

本发明提出了一种高效的基于孪生Transformers的变化检测方法，使用权值共享的两个Swin Transformers作为模型的编码器，直接对图像全局语义关系进行建模，不需要额外卷积层提取特征，具有更好的准确率和鲁棒性。

在解码阶段利用3D卷积模块和带有轴向注意力的反卷积模块将级联后的双时相特征生成多类别变化图，提高了模型的检测精度和计算效率。

附图说明

图1为本发明的方法流程图；

图2为本发明采用的Transformers编码器结构图；

图3为本发明在SECOND语义变化检测数据集上与其他方法的对比结果；

图4为语义变化检测模型参数量对比图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种基于孪生Transformers的语义变化检测方法，通过由纯粹Transformers组成的编码器和CNN组成的解码器提高变化检测的效率和鲁棒性。模型的整个过程如图1所示，主要包含三个部分：

(1)图像块线性映射

在Transformers编码器进行全局上下文建模之前，首先要将图像转化为序列，即将整个图像拆分为几个视觉语义序列作为编码器的输入。不同于现有方法先将图像经过CNN提取特征，本方法为了节省模型容量，减少不必要的计算成本，直接将输入图像T1和T2转化为带有可学习位置编码的语义序列tokens1和tokens2，该过程可定义如下：

Token_i＝F(E(x_i))+E_pos,(i＝1,2) (1)

其中，x_i表示T_i时刻遥感影像，E()表示线性操作，将输入图像(H×W×3)转化为

如图1所示，C是语义序列的维度，L是语义序列的总数。F()函数表示矩阵展平和转置操作，将经过线性操作的语义序列转化成(L×C)形状。最后在语义序列中加入可学习的位置编码E_pos∈R^L×C以保留位置信息。

简言之，输入图像经过线性映射模块后得到的序列可以表示为{E₁+P₁,E₂+P₂,…,E_L+P_L}，E_i和P_i分别为图像块嵌入和位置嵌入后的语义序列。

(2)Transformers编码器

在得到两个双时相语义序列后，利用由两个孪生交叉Swin Transformers组成的编码器对其分别进行上下文建模，获得丰富的语义变化信息。交叉Swin Transformers由基于窗口的多头注意力(W-MSA)，基于移动窗口的多头注意力(SW-MSA)，两个带有高斯误差线性单元(GELU)激活的多层感知器(MLP)和两个层归一化(LN)组成，在每个块之后采用残差连接。其中SW-MSA中的key和value来自W-MSA输出的语义序列，而query与W-MSA共用这些信息融合了图像和序列之间的特征，更好地促进全局上下文关系的建立。W-MSA和SW-MSA两个模块都是由基本的多头自注意力(MSA)组成，多头注意力指在Transformers中并行执行多个单独的自注意力模块，在不同的位置联合处理来自不同表示子空间的信息，并将输出连接在一起线性投射出最终的值。多头注意力表达式如下所示：

q＝T^rawW_Q,k＝T^rawW_K,v＝T^rawW_V (2)

MSA(T^raw)＝Concat[SA(q₁,k₁,v₁),…,SA(q_m,k_m,v_m)]Wo (4)

其中，concat函数表示级联；W_Q,W_K,W_V∈R^C×d是三个线性投影层的可学习参数，d是三元组(query，key，value)的维度，通过公式(3)计算出经过自注意力(SA)模块后的结果。其过程如公式(4)，m为注意力头的个数，W_o∈R^md×C表示MSA的线性投影矩阵。

编码器的整个过程如图2所示。原始Tokens经过Transformers编码器后得到具有远距离上下文信息的新的语义序列用于下一步语义变化图的生成。

(3)特征融合模块

特征融合即指将双时相tokens按照时间顺序分别级联得到Tokens₁₂和Tokens₂₁，即：

Tokens₁₂＝concat[T_new1,T_new2],Tokens₂₁＝concat[T_new2,T_new1] (5)

(4)基于轴向注意力的CNN解码器

在解码器中，利用3D卷积块处理变化形状后的4D张量:Tokens₁₂,Tokens₂₁

这有助于保持双时相特征的对应语义关系，可以较好地处理长时间序列的图像信息。最后将通过3D卷积的双时相特征逐元素相乘，相比于逐元素相减和通道合并两种融合方式，将合并后的特征逐元素相乘不仅能够避免信息的丢失，而且得到的融合特征还具有时间对称性，即T₁·T₂＝T₂·T₁。

然后通过三个反卷积层对融合特征进行上采样操作，前两个反卷积层后分别在高度、宽度和通道维度加入三层轴向注意力模块，并与反卷积后的特征通过残差连接，增强了反卷积模块的感受野，将原始特征中丰富的语义信息解码到变化图中。基于轴向注意力的上采样过程可以表示如下：

Z_l＝Ax_C(Ax_W(Ax_H(TrConv(x_l-1))))+TrConv(x_l-1) (11)

其中Ax_H，Ax_W，Ax_C分别表示高度、宽度和通道维度的轴向注意力，x_l-1为l-1层的原始特征。TrConv表示反卷积操作，包括BatchNorm和RelU激活函数，Z_l为x_l-1经过上采样输出的第l层特征。公式(11)中两部分相加表示残差连接。第一个反卷积层和第一个三层轴向注意力模块的残差连接后输出的特征Z_l经第二组反卷积层和三层轴向注意力模块再次处理，残差连接后输出到第三个反卷积层。基于轴向注意力的CNN解码器将语义序列向量映射回像素空间，并通过上采样生成最终的语义变化图。

为了验证本发明提出的基于孪生Transformers语义变化检测方法的有效性，在语义变化检测数据集SECOND上进行了实验，并对比了其他常用的几个方法。

图3中展示了本发明和三种流行的语义变化检测方法在预处理后的SECOND数据集上的部分检测结果，不同颜色代表不同的土地覆盖变化类型。本发明通过对比可视化结果可以发现，本方法由于Transformers对长距离上下文信息较强的建模能力，能够捕获更丰富的语义特征，因此在语义变化检测中生成的变化图最为清晰且完整。

为了更加全面地评估提出方法的准确性，本发明在表1中展示了本方法与其他语义变化检测方法在SECOND数据集上的评价指标，加粗数据代表该类别在不同方法中的最优值。可以看出除了“未变化”类别外，提出的方法对于每种变化类别的检测精度均超过其他方法，在mF1和mIoU指标上分别达到了76.34％和67.43％。这说明本方法能够很好地建模远距离上下文的语义信息，通过提取并识别复杂特征实现对感兴趣变化类别的检测。相较于基于CNN的方法，我们提出的基于Transformers方法对于遥感影像的多类别变化检测更具有优势。

表1本发明和其他方法在语义变化检测数据集SECOND上的评价指标

在一些特定任务中，不仅要求变化检测的精确度、召回率等指标，模型的参数量和变化检测实时性同样十分重要。图4展示了实验中所有语义变化检测模型的参数量。通过对比可以看出本发明提出的模型参数量为7.33MB，与现有其他算法相比模型参数量最低。本发明兼顾了模型容量和检测精度两个重要指标，具有较高效率，即通过较少的模型参数量达到了具有竞争力的变化检测性能。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于孪生Transformers的语义变化检测方法，包括图像块线性映射过程、编码过程、特征融合过程以及解码过程，其特征在于，所述编码过程采用由两个权值共享的孪生交叉Swin Transformers组成的编码器实现；

其中，两个Swin Transformer分别对应处理两个双时相图像经过图像块线性映射过程得到的语义序列；每个Swin Transformer中的基于移动窗口的多头注意力SW-MSA中的query与基于窗口的多头注意力SW-MSA共用。

2.如权利要求1所述的一种基于孪生Transformers的语义变化检测方法，其特征在于，所述特征融合过程采用特征融合模块实现，具体为：

假设编码器的两个Swin Transformer对两个双时相图像分别进行编码后，得到的语义序列分别为T_new1和T_new2；

将T_new1和T_new2按照时间顺序分别级联得到Tokens₁₂和Tokens₂₁，即：

Tokens₁₂＝concat[T_new1,T_new2],Tokens₂₁＝concat[T_new2,T_new1]

其中，concat函数表示级联；

所述解码过程采用CNN解码器实现，具体为：

首先利用两个3D卷积块分别处理Tokens₁₂和Tokens₂₁，再将两路处理结果逐元素进行相乘，结果送入上采样模块；其中，上采样模块包括三个逐级相连的反卷积层，前两个反卷积层之后各设置一个具有高度、宽度和通道纬度的三层轴向注意力模块；其中，每个三层轴向注意力模块与其前面的一个反卷积层之间残差连接。

3.如权利要求1或2所述的一种基于孪生Transformers的语义变化检测方法，其特征在于，所述图像块线性映射过程包括：

将输入的双时相图像T1和T2转化为带有可学习位置编码的语义序列tokens1和tokens2：

Token_i＝F(E(x_i))+E_pos,i＝1,2 (1)

其中，x_i表示T_i时刻遥感影像，E()函数表示线性操作；F()函数表示展平和转置操作；E_pos∈R^L×C表示可学习的位置编码信息。