CN115984700A

CN115984700A - 一种基于改进Transformer孪生网络的遥感图像变化检测方法

Info

Publication number: CN115984700A
Application number: CN202310043609.6A
Authority: CN
Inventors: 曹凌铭
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-04-18

Abstract

本发明公开了一种基于改进Transformer孪生网络的遥感图像变化检测方法。包括：对两时期的遥感图像进行直方图匹配预处理；将遥感图像输入CNN主干网络提取高级语义特征；利用空间注意力机制将两个不同时期特征图转为一组紧凑的语义标签；使用Transformer编码器在两个标签集中对全局信息进行建模；生成含有丰富全局信息的标签，由孪生Transformer解码器重新投影到像素空间，增强原始像素级特征；从两个细化的特征图中计算特征差异图像，然后输入浅层CNN中，生成像素级别的预测变化图；最后对预测变化图进行连通域滤波处理得到变化结果图。本方法能应对两时期图像色彩风格差异较大的情况，并能有效去除伪变化噪声点，达到高准确率识别的目的。

Description

一种基于改进Transformer孪生网络的遥感图像变化检测方法

技术领域

本发明涉及遥感图像处理与人工智能技术领域，具体为一种基于改进Transformer孪生网络的遥感图像变化检测方法。

背景技术

随着人工智能技术的兴起，特别是基于深度学习的图像识别方法获得了极大的发展，相关技术也推动了遥感领域的变革。CNN是近年来计算机视觉领域使用较多的网络结构，其具有很好地局部特征捕捉能力，但由于感受野较小，在全局上会丢失掉较多的信息。相对于CNN而言，Transformer网络是从自然语言处理领域移植到计算机视觉领域中的一项技术，得益于其自注意力机制，网络结构能够汇聚空间层面上的信息，最终获得更加丰富的语义信息，能够更好地保留全局信息。所以，将二者结合起来，能够达到捕捉局部特征的同时保留全局信息的目的。

传统的VIT中，网络实质上是用一个分类的token去学习整合transformer的特征的，然后依靠token进行分类预测的。本发明提出可以用少量的语义标签(semantictokens)去学习整合两张图片真正变化的部分和高维像素点代表的特征，然后用语义标签联合表示，那么网络即可以得到高效性和高性能。

同时，在CV下游任务中，任务精度往往与backbone的特征表达能力有关，虽然当今比较火热的Resnet18网络结构能够有效地解决网络退化以及梯度爆炸或消失等问题，但其串联结构简单，不能够很好地提取高分辨率的语义信息。针对该问题，本发明提出用更为高级的异构结构HRNet作为CNN主干网络，其并行提取特征的结构以及特殊的融合特征图机制使得能够在提取高维特征的同时保留丰富的空间信息。

由于遥感图像常受季节以及天气变化等外界因素的影响，两个时期的图片色彩差异通常较大，导致模型识别准确度下降。并且由于变化检测任务的特殊性，类别严重不平衡的问题时常发生，即变化类区域通常远少于未变化类区域，导致模型时常会识别出部分伪变化噪声点。为解决上述问题，本发明提出以改进Transformer孪生网络模型为基础，结合相应的图像预处理和后处理的高分辨率遥感图像变化检测方法。

发明内容

本发明的目的在于针对CNN模型对全局捕捉能力差的问题，提出一种基于改进Transformer孪生网络的方法，从而结合CNN和Transformer的优点，在捕捉局部特征的同时保留全局信息，从而达到更好地语义理解，有效提高了变化检测预测的准确率。而针对遥感图像易受天气、季节变化等原因的影响使模型预测准确率下降，采用直方图匹配的方式对图像进行预处理可以大幅减少此类因素带来的影响。在经过模型预测得到预测图后选择对其进行连通域滤波处理，可以进一步提升预测准确率，最终得到更加接近真实结果的预测图。

为实现上述目的，本发明提供如下方案，包含以下步骤：

步骤1：图像预处理，判断两幅不同时期的遥感图像I¹、I²的巴氏系数是否小于阈值(取0.7)，如果小于阈值则进行步骤2，否则直接进行步骤3；

步骤2：对图像进行直方图匹配处理，得到两幅处理过后图像，记作

步骤3：将I₁、I₂(或

)输入预训练好的CNN主干网络进行并行特征提取得到X₁、X₂；

步骤4：将X₁、X₂输入语义标记器，将X₁、X₂转换为一组紧凑的语义标签T¹、T²；

步骤5：拼接语义标签T¹、T²，组成含有两幅图像信息的新标签T；

步骤6：将T输入到Transformer编码器中，生成编码后的标签T_new；

步骤7：对两个语义标签集T¹和T²进行全局信息建模，生成包含丰富语义信息的新标签

步骤8：将高级语义信息表示映射到像素空间，获得像素级的特征，即将

输入到Transformer解码器中，得到精细化的特征图

步骤9：将特征图

输入预测头中，从两个精细化的特征图中计算特征差异图像，然后将它们输入到浅层CNN中，以生成像素级的变化预测M；

步骤10：对预测变化图M进行连通域滤波处理，得到最终结果图M_result。

通过以上步骤即可获得变化检测结果图。

步骤3的具体步骤如下：

步骤3-1：将I₁、I₂(或

)通过两个卷积核大小为3×3，步长为2的卷积层，下采样4倍，初步提取特征；

步骤3-2：将卷积后的结果通过批归一化层和ReLU激活层让网络具有非线性表达能力；

步骤3-3：将上述输出通过4组Transition和Stage结构，不断增加尺度分支并进行特征融合，得到X₁、X₂。如Transition₁中获得下采样4倍以及下采样8倍的尺度，Transition₂中在原来的两个尺度分支基础上再新加一个下采样16倍的尺度。Stage结构则是对于每个尺度分支，首先通过Basic Block结构，然后融合不同尺度上的信息，对于每个尺度分支上的输出都是由所有分支上的输出进行融合得到的。例如拿Stage₃来说，对于下采样4倍分支的输出，它是分别将下采样4倍分支的输出不做处理、下采样8倍分支的输出通过上采样2倍以及下采样16倍分支的输出通过上采样4倍，然后进行相加最后通过ReLU得到下采样4倍分支的融合输出。同理，其他分支类似。

在步骤3-3中使用的上采样和下采样的具体实施方案是：对于所有的上采样模块，通过一个卷积核大小为1×1的卷积层然后通过批归一化层，最后通过Upsample直接放大n倍后即可得到上采样的结果。对于所有的下采样模块，每次Downsample缩小2倍后都要增加一个卷积核大小为3x3，步长为2的卷积层。

步骤4中使用卷积、注意力机制来获取semantic tokens。输入X¹、

为双时期特征图，其中H,W,C分别代表特征图的高，宽和通道数。输出T¹、

其中L代表token的词汇量大小。步骤6中Transformer编码器由N_E(N_E＝1)个多头自注意力机制、多层感知机和归一化层构成的模块组成。在将token序列输入Transformer的中间层之前，需要对token进行位置编码，位置编码后获得与像素位置相关的空间-时间上下文信息，从而使transformer能够利用与时间相关的上下文信息。与传统的transformer不同，本发明采用了ViT里使用的PreNorm残差单元，而非传统transformer里的PostNorm。相比于PostNorm在残差之后做layer normalization的操作，PreNorm把layer normalizatio放在了残差之前，有效防止了模型的梯度爆炸/消失，使模型训练更加稳定，能有效提升模型的训练效果。Transformer编码器的核心思想是多头自注意力机制(MSA)，多头自注意力机制的优点是其可以同时处理来自不同子空间的信息，并将不同的输出融合为最终值。多层感知机(MLP)模块包含了两个线性变换层，并加入了GELU激活函数在这两个线性变换层之间，让其具有非线性表达能力。输入和输出的维度都是C，内置层的维度为2C。

步骤8中的Transformer解码器包含了N_D(N_D＝8)个由多头注意力机制(MA)和多层感知机组成的模块，并将Xⁱ中的像素点作为queries，将tokens作为keys。不同于NLP中所用的注意力机制，本发明将多头自注意力机制移除，从而避免重复计算像素Xⁱ之间大量的冗余关联信息。在多头自注意力机制中，query，key和value都是从相同的输入序列中派生而来。但在多头注意力机制中，query是由Xⁱ获得，key和value则是由token序列

获得。经上述步骤CNN主干网络和Transformer提取高维语义特征后，最后使用预测头输出预测结果。

附图说明

图1为本发明方法原理图；

图2为基于改进Transformer孪生网络的结构示意图；

图3为Transformer编码器及解码器的结构示意图；

图4为本发明实施例的变化检测结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，除非另有明确的规定和限定，本文所使用的的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书所使用的的属于只是为了描述具体的实施例的目的，不是在于限制本申请。

本发明实施例提供了一种基于改进Transformer孪生网络的遥感图像变化检测方法，包括图像预处理过程、CNN主干网络、改进的Transformer、预测头以及图像后处理过程。如图1-4所示，一种基于改进Transformer孪生网络的遥感图像变化检测方法，包括如下步骤：

步骤3：如图1所示，将I₁、I₂(或

)输入预训练好的CNN主干网络进行并行特征提取得到X₁、X₂，具体步骤如下：

步骤3-1：将I₁、I₂通过两个卷积核大小为3×3，步长为2的卷积层，下采样4倍，初步提取特征；

步骤3-3：将上述输出通过4组Transition和Stage结构，不断增加尺度分支并进行特征融合，得到X₁、X₂。如Transition₁中获得下采样4倍以及下采样8倍的尺度，Transition₂中在原来的两个尺度分支基础上再新加一个下采样16倍的尺度。Stage结构则是对于每个尺度分支，首先通过Basic Block结构，然后融合不同尺度上的信息，对于每个尺度分支上的输出都是由所有分支上的输出进行融合得到的。例如拿Stage₃来说，对于下采样4倍分支的输出，它是分别将下采样4倍分支的输出不做处理、下采样8倍分支的输出通过上采样2倍以及下采样16倍分支的输出通过上采样4倍，然后进行相加最后通过ReLU得到下采样4倍分支的融合输出。同理，其他分支类似。上采样和下采样的具体实施方案是：对于所有的上采样模块，通过一个卷积核大小为1×1的卷积层然后通过批归一化层，最后通过Upsample直接放大n倍后即可得到上采样的结果。对于所有的下采样模块，每次Downsample缩小2倍后都要增加一个卷积核大小为3x3，步长为2的卷积层；

步骤4：构造语义标记器，使用卷积、注意力机制来获取semantic tokens。输入X¹、

为双时期特征图，其中H,W,C分别代表特征图的高，宽和通道数。输出token标签T¹、

其中K代表token的词汇量大小；

步骤4-1：对于特征图Xⁱ(i＝1,2)上的每一个像素点

用1×1卷积得到L组语义信息，每组语义信息代表一种语义概念；

步骤4-2：在HW维度上用softmax函数对每组语义信息计算，得到空间注意力特征图。softmax函数计算公式如下：

其中，z_i表示每个输出分量。

步骤4-3：利用计算得到的注意力特征图去计算像素集合Xⁱ的加权平均和，从而得到长度为L(L＝4)的token序列T¹、T²。Tⁱ(i＝1,2)的计算公式如下：

Tⁱ＝(Aⁱ)^TXⁱ＝(σ(φ(Xⁱ，W)))^TXⁱ

其中，φ(·)代表卷积核为

的1x1卷积，W为可学习的参数。σ(·)是softmax函数，用于将语义信息归一化后得到注意力特征图Aⁱ；步骤5：拼接标签T¹、T²，组成含有两幅图像信息标签的新标签T；步骤6：将T输入到Transformer编码器中，生成编码后的标签T_new；如图3所示，Transformer编码器由N_E(N_E＝1)个多头自注意力机制、多层感知机和归一化层构成的模块组成。在将token序列输入Transformer的中间层之前，需要对token进行位置编码，位置编码后获得与像素位置相关的空间-时间上下文信息，从而使transformer能够利用与时间相关的上下文信息。与传统的transformer不同，本发明采用了ViT里使用的PreNorm残差单元，而非传统transformer里的PostNorm。相比于PostNorm在残差之后做layer normalization的操作，PreNorm把layer normalizatio放在了残差之前，有效防止了模型的梯度爆炸/消失，使模型训练更加稳定，能有效提升模型的训练效果。

对于每一层l，自注意力机制的输入分别为queryQ,keyK,valueV,它们都是由

计算得到，计算公式如下：

Q＝T^(l-1)W^q

K＝T^(l-1)W^k

V＝T^(l-1)W^v

其中，

是三层线性层中可学习的参数，d是Q、K、V的通道数。则一个注意力头的计算公式如下：

其中，σ(·)代表在通道这一维度上使用的softmax函数。

Transformer编码器的核心思想是多头自注意力机制(MSA)，多头自注意力机制的优点是其可以同时处理来自不同子空间的信息，并将不同的输出融合为最终值。多头自注意力的计算公式如下：

MSA(T^(l-1))＝Concat(head₁,…,head_h)W^O

其中，

是线性投影矩阵，h是注意力头的数量。

多层感知机(MLP)模块包含了两个线性变换层，并加入了GELU激活函数在这两个线性变换层之间，让其具有非线性表达能力。输入和输出的维度都是C，并且内置层的维度为2C。则多层感知机的计算公式如下：

MLP(T^(l-1))＝GELU(T^(l-1)W₁)W₂

其中，

是线性投影矩阵；

步骤7：将T_new拆分，生成包含丰富语义信息的新标签

输入到Transformer解码器中，得到精细化的特征图

如图3所示，Transformer解码器包含了N_D(N_D＝8)个由多头注意力机制(MA)和多层感知机组成的模块，并将Xⁱ中的像素点作为queries，将tokens作为keys。不同于NLP中所用的注意力机制，本发明将多头自注意力机制移除，从而避免重复计算像素Xⁱ之间大量的冗余关联信息。在多头自注意力机制中，query，key和value都是从相同的输入序列中派生而来。但在多头注意力机制中，query由Xⁱ获得，key和value则是由token序列

获得。多头注意力的计算公式如下：

其中，

是线性投影矩阵，h是注意力头的数量；

步骤9：将特征图

输入预测头中，从两个精细化的特征图中计算特征差异图像，然后将它们输入到浅层CNN中，以生成像素级的变化预测M；具体步骤如下：

步骤9-1：输入两幅经上采样后得到的特征图X^1*，

(H₀,W₀分别是原始图像的高度和宽度)；

步骤9-2：计算预测变化概率图

计算公式如下：

P＝σ(g(D))＝σ(g(|X^1*-X^2*|))

其中，特征差异图像

由两幅特征图逐元素相减后取绝对值得到，g：

是变化分类器，σ(·)是softmax函数，浅层CNN使用的是全卷积神经网络(FCN)；

步骤9-3：在通道维度上对P逐像素进行取最大值的操作，获得取值范围在[0,1]的像素级变化概率，再用阈值法将此值与阈值作对比，如果大于阈值(取0.5)则认为变化，小于阈值认为未变化。最终得到预测变化图M；

需要说明的是，步骤1、2是在网络已经完成训练后用于预测时所用的图像预处理方法，可明显降低因天气变化等原因造成图像风格差异大对模型预测精度带来的影响。但在模型训练阶段不使用该图像预处理方法，为了让模型具有更好地鲁棒性和泛化性，本发明采用以下数据增强方式进行模型的训练：

(1)随机裁剪(大小256x256)

(2)添加高斯噪声

(3)随机色彩变换

(4)几何变换：随机旋转、翻转

网络参数的训练方式为使用Cross Entropy Loss和Focal Loss以0.8:0.2的比例组成的混合损失函数结合真实变化结果图和预测变化图对网络进行评估并通过反向传播的方式训练网络参数。引入Focal Loss是为了解决变化检测任务中正负样本严重失衡的问题，即变化区域明显少于未变化区域的问题。Cross Entropy Loss的计算公式如下：

其中，l(P_hw,Y_hw)＝-log(P_hwy)为交叉熵损失函数，Y_hw是(h,w)这一像素点的标签。Focal Loss的计算公式如下：

其中，

为预测概率大小，y为标签，在变化检测中对应0,1，γ>0为可调节因子，取γ＝2。

为便于本领域普通技术人员进一步了解本发明，进一步说明如下：在实施例中，采用由北京航空航天大学LEVIR团队在公开论文“C.Hao,and Z.Shi."A spatial-temporalattention-based method and a new dataset for remote sensing image changedetection."Remote Sensing 12.10(2020):1662.”中发表的遥感图像建筑变化检测数据集进行实验，该数据集包含637对像元分辨率为0.5米的高分辨率遥感图像训练样本，大小为1024x1024。每个样本包括前时向遥感图像，后时相遥感图像以及对应的变化标签图。由于所用GPU显存有限，为便于网络训练，将两组大图像分割为256x256的小图像组，并按7120/1024/2048的数量划分为训练集/验证集/测试集。

为验证本发明的遥感图像变化检测效果，本发明与4种现今前沿的深度学习变化检测技术进行对比。分别是全卷积孪生神经网络(FC-Siam-Conv)、基于双任务约束的孪生卷积神经网络(DTCDSCN)、时空注意力神经网络(STANet)、稠密链接网络(SNUNet)。采用5种在变化检测领域常用的定量指标来评估不同算法的性能，分别是精确率(precision)、召回率(recall)、交并比(IoU)、总体准确率(overall accuracy,OA)以及F1分数，计算公式分别如下：

OA＝(TP+TN)/(TP+FN+TN+FP)

其中，TP,FP,FN分别代表判断为正，且实际为正、判断为正，实际为负和判断为负，实际为正的部分。表1给出不同变化检测算法在实验数据集上的5种定量指标结果。

表1不同变化检测算法结果的定量指标

算法	精确率	召回率	交并比	总体准确率	F1分数
						FC-Siam-Conv	91.99	76.77	71.96	98.49	83.69
DTCDSCN	88.53	86.83	78.05	98.77	87.67
						STANet	83.81	91.01	77.40	98.66	87.26
SNUNet	89.18	87.17	78.83	98.82	88.13
						本发明	89.31	89.52	80.76	98.97	89.35

对比其他变化检测算法，本发明在交并比、整体准确率和F1分数上均优于其他所有方法，可以证明本发明在遥感图像变化检测任务上的有效性。实施例的变化检测结果示例如图4所示。

为验证本发明提出的图像预处理(直方图匹配)和图像后处理(连通域滤波)的有效性，还进行了一组消融实验进行对比验证。表2给出了实验结果。

表2添加预处理和后处理的变化检测算法结果的定量指标

实验结果验证了本发明所使用的针对遥感图像变化检测图像预处理和后处理方法的有效性，能够减少天气等变化因素对模型识别精度的干扰，同时去除伪变化点，提升识别精度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于改进Transformer孪生网络的遥感图像变化检测方法，其特征在于：所述方法包括以下步骤：

步骤3：将I₁、I₂(或

输入到Transformer解码器中，得到精细化的特征图

步骤9：将特征图

2.根据权利要求1所述的一种基于改进Transformer孪生网络的遥感图像变化检测方法，其特征在于：步骤1、2中对图像进行预处理，若两时期图像巴氏系数小于阈值0.7则用第二时期图像作为标准直方图，然后对第一时期图像进行直方图匹配处理，使得两时期图像色彩风格一致，减少因天气、季节变化等外界因素导致色彩风格差异大对模型预测精度的影响。

3.根据权利要求1所述的一种基于改进Transformer孪生网络的遥感图像变化检测方法，其特征在于：步骤3中CNN主干网络提取特征的具体步骤为：

步骤3-1：将I₁、I₂通过两个卷积核大小为3x3，步长为2的卷积层，下采样4倍，初步提取特征；

步骤3-3：将上述输出通过4组Transition和Stage结构，不断增加尺度分支并进行特征融合，得到X₁、X₂。

4.根据权利要求1所述的一种基于改进Transformer孪生网络的遥感图像变化检测方法，其特征在于：步骤4的语义标记器由卷积、注意力机制构成；具体的：

步骤4-1：对于特征图Xⁱ(i＝1，2)上的每一个像素点

用1x1卷积得到L组语义信息，每组语义信息代表一种语义概念；

步骤4-2：在HW维度上用softmax函数对每组语义信息计算，得到空间注意力特征图；softmax函数计算公式如下：

其中，z_i表示每个输出分量；

步骤4-3：利用计算得到的注意力特征图去计算像素集合Xⁱ的加权平均和，从而得到长度为L(L＝4)的token序列T¹、T²；Tⁱ(i＝1，2)的计算公式如下：

Tⁱ＝(Aⁱ)^TXⁱ＝(σ(φ(Xⁱ，w)))^TXⁱ

其中，φ(·)代表卷积核为

的1x1卷积，W为可学习的参数，σ(.)是softmax函数，用于将语义信息归一化后得到注意力特征图Aⁱ。

5.根据权利要求1所述的一种基于改进Transformer孪生网络的遥感图像变化检测方法，其特征在于：步骤6中Transformer编码器由多头自注意力机制、多层感知机和归一化层组成；在将token序列输入Transformer的中间层之前，需要对token进行位置编码，位置编码后获得与像素位置相关的空间-时间上下文信息，从而使transformer能够利用与时间相关的上下文信息。

6.根据权利要求1所述的一种基于改进Transformer孪生网络的遥感图像变化检测方法，其特征在于：步骤8中Transformer解码器包含了8个由多头注意力机制(MA)和多层感知机组成的模块，并将Xⁱ中的像素点作为queries，将tokens作为keys；不同于NLP中所用的注意力机制，本发明将多头自注意力机制移除，从而避免重复计算像素Xⁱ之间大量的冗余关联信息；在多头自注意力机制中，query，key和value都是从相同的输入序列中派生而来。

7.根据权利要求1所述的一种基于改进Transformer孪生网络的遥感图像变化检测方法，其特征在于：步骤9获取像素级的变化预测的实现过程为，将特征图输入预测头中，先计算两个细化后的特征图的特征差分，绝对值化后再用FCN进行融合生成预测的变化概率图，最后用阈值法获得变化图。

8.根据权利要求1所述的一种基于改进Transformer孪生网络的遥感图像变化检测方法，其特征在于：步骤10中使用连通域滤波对变化图进行后处理，除去变化图中小连通域噪声点，减少变化检测任务中因未变化区域远多于变化区域导致的伪变化情况的出现，有效提高变化结果图的精确度。