CN114170154A

CN114170154A - 基于Transformer的遥感VHR图像变化检测方法

Info

Publication number: CN114170154A
Application number: CN202111385806.3A
Authority: CN
Inventors: 孙帮勇; 刘秦森; 王宇通; 陈金岭; 匡璐璐; 杨宗辉
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-11

Abstract

本发明公开了一种基于Transformer的遥感VHR图像变化检测方法，步骤包括：步骤1、构建预处理模块，输入为双时相遥感VHR的输入图像I₁、I₂，输出为特征图I_1‑1、I_2‑1；步骤2、构建Transformer模块，输入数据是步骤1输出的特征图I_1‑1、I_2‑1，输出是提取后的特征图O₁、O₂；步骤3、构建变化检测模块，输入数据是步骤2输出的特征图O₁、O₂，输出是经变化检测后二值化处理的输出图像，大小为H×W的二值图。本发明的方法，基于最新的Transformer模型与变化检测任务结合，在图像分类、目标检测和语义分割等任务都取得了最先进的性能，应用于变化检测任务中以提高变化检测准确率。

Description

基于Transformer的遥感VHR图像变化检测方法

技术领域

本发明属于计算机图像处理技术领域，涉及一种基于Transformer的遥感VHR图像变化检测方法。

背景技术

遥感VHR(very high resolution)图像主要指空间分辨率高的遥感图像，其是用单位像素所对应的地面大小来度量的，单位为米。与传统的中低分辨率遥感图像相比，遥感VHR图像能够更加清晰地表达地物目标的空间关联性和对应的特征分布，其能够为各种遥感图像任务提供更加详细的地物目标细节与结构，为遥感图像进行更广泛的应用提供了良好的条件。图像变化检测方法近年来不断发展，从简单的数学运算到多种方法的融合，从基于像素的变化检测发展到基于对象的变化检测，变化检测方法的准确度和复杂性都越来越高，针对性也越来越强。与此同时，各种深度学习模型开始应用于计算机视觉领域中，为图像变化检测领域的研究开辟了新的思路。深度学习方法可以从多个层次提取图像中包含的复杂高维特征，进而可以大幅提高识别精度。现如今，越来越多的深度学习理论和方法开始应用于计算机视觉领域，用于解决传统变化检测方法难以得到有效提升的研究方向，图像变化检测就是其中之一。

近几年来，基于CNN架构的模型在计算机视觉领域一直占据主要地位。受到自然语言处理领域相关应用的启发，许多学者尝试将自注意力机制与CNN架构组合起来，其中部分人尝试完全移去CNN中的卷积操作。在后续研究中，虽然各种新型模型在理论上都取得一定成功，但一直没能解决由于使用特定注意力机制而导致模型参数过多、模型过大的问题。最近，应用于自然语言处理领域的Transformer模型被转化应用到了计算机视觉领域，为计算机视觉领域中图像处理提供了新的模型以及思路，在许多图像处理应用技术上表现出了不俗的性能，亟需将其应用到遥感VHR图像变化检测领域，已解决当前的技术难题。

发明内容

本发明的目的是提供一种基于Transformer的遥感VHR图像变化检测方法，解决了现有技术在变化检测任务中的变化检测准确率低，不能满足技术要求的问题。

本发明所采用的技术方案是，一种基于Transformer的遥感VHR图像变化检测方法，按照以下步骤实施：

步骤1、构建预处理模块，

该预处理模块的输入为双时相遥感VHR的输入图像I₁、I₂，大小为H×W×3；该预处理模块的输出为特征图I_1-1、I_2-1，大小为

步骤2、构建Transformer模块，

该Transformer模块的输入数据是步骤1输出的特征图I_1-1、I_2-1，大小为

该Transformer模块的输出是提取后的特征图O₁、O₂，大小为

步骤3、构建变化检测模块，

该变化检测模块的输入数据是步骤2输出的特征图O₁、O₂，大小为

该变化检测模块的输出是经变化检测后二值化处理的输出图像，大小为H×W的二值图。

本发明的有益效果是，基于最新的Transformer模型与变化检测任务结合，Transformer模型能够学习到明确的全局和远程语义信息交互的独特优势，通过用Transformer模型特有的注意力机制增强了计算机视觉任务过程中远程语义信息的相关性，在图像分类、目标检测和语义分割等任务都取得了最先进的性能，本发明将其应用于变化检测任务中以提高变化检测准确率。

附图说明

图1是本发明方法的整体流程示意图；

图2是本发明方法采用的预处理模块的结构简图；

图3是本发明方法采用的Transformer encoder模块的结构简图；

图4是本发明方法采用的Transformer Block的结构简图；

图5是本发明方法采用的Transformer decoder的结构简图；

图6是本发明方法采用的变化检测层的内部结构简图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

参照图1，本发明的图像变化检测方法，基于Transformer原理，按照以下步骤实施：

步骤1、构建预处理模块，该预处理模块的输入为双时相遥感VHR的输入图像I₁、I₂，大小为H×W×3；该预处理模块的输出为特征图I_1-1、I_2-1，大小为

参照图2，预处理模块主要作用是对输入的双时相遥感VHR的输入图像I₁、I₂进行数据预处理，预处理模块的结构依次为：双时相遥感VHR的输入图像I₁、I₂(Input image)作为输入图像→Patch Partition层(表达式Conv4×4×48)→Linear Embedding层(表达式

)→输出特征图I_1-1、I_2-1(Output feature)。

其中，Input image大小为H×W×3；Patch Partition层为卷积运算，卷积核大小为4×4，卷积步长为4，特征映射总数为48个；Linear Embedding层为线性运算进行特征映射，卷积核大小为

特征映射总数为96个；输出的Output feature大小为

步骤2、构建Transformer模块，该Transformer模块的输入数据是步骤1输出的特征图I_1-1、I_2-1，大小为

该Transformer模块的输出是提取后的特征图O₁、O₂，大小为

Transformer模块主要包括编码器(Transformer encoder)和解码器(Transformer decoder)，解码器的结构与编码器的结构相似，在编码器中包含了两个TransformerBlock层和两个Down Sample层，在解码器中包含了两个Transformer Block层和两个Up Sample层。

编码器的输入数据是步骤1输出的特征图I_1-1、I_2-1，大小为

编码器的输出是提取的特征图I’_1-1、I’_2-1，大小为

参照图3，编码器的结构依次为：步骤1输出的特征图I_1-1、I_2-1作为输入数据(Inputfeature)→第一个Down Sample层→第一个TransformerBlock层→第二个Down Sample层→第二个Transformer Block层→输出特征图I’_1-1、I’_2-1(Output feature)。

其中，两个Transformer Block层均为相同的模块；两个Down Sample层均为卷积运算，卷积核大小均为3×3，卷积步长均为2，特征映射总数分别为128、256个。

参照图4，以单时相的一个Transformer Block层为例，单个Transformer Block层的结构依次为：步骤2中第一个Down Sample层输出的特征图作为输入数据→LN正则化层→W-MSA子模块(即窗口多头自注意力层)→残差连接层→LN正则化层→前馈神经网络→残差连接层→输出的特征图；

其中，LN正则化层用于进行LN正则化处理，对输入数据进行归一化处理，将其归到0到1之间，从而保证输入层数据分布是一样的；残差连接层用于进行残差连接，解决梯度消失和权重矩阵退化问题；前馈神经网络由两层前馈神经网络组成，第一层前馈神经网络把输入向量从d_model维度映射到4×d_model维度，激活函数为ReLU函数，第二层前馈神经网络再从4×d_model维度映射回d_model维度，不使用激活函数，前馈神经网络的表达式如式(1)：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (1)

其中，x为前馈神经网络的输入，W₁为第一层前馈神经网络的权重矩阵，W₂为第二层前馈神经网络的权重矩阵，b₁第一层前馈神经网络的偏置，b₂第二层前馈神经网络的偏置。

W-MSA子模块(窗口多头自注意力层)首先对输入特征进行窗口划分，本发明实施例中设置的划分窗口大小为7×7，在每个划分的窗口上进行多头自注意力计算。W-MSA子模块先将输入特征映射到不同的子空间中，再分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并映射到原输入空间中得到最终的注意力向量作为输出，W-MSA子模块的表达式如式(2)：

其中，Q,K,V分别表示MSA子模块的输入向量，即查询向量、键向量、值向量；W⁰为随机生成的初始矩阵；head_i为多头注意力中的各个head，

本发明中采用的head数量为8；W_i ^Q为不同子空间中Q的映射矩阵，W_i ^K为不同子空间中K的映射矩阵，W_i ^V为不同子空间中V的映射矩阵；

本步骤实施例中，设置的子空间的个数h为8，在一个单独子空间上的注意力向量的计算方式依次为：先将查询向量Q和键向量K点乘，再除以键向量K的维度的平方根

得到查询向量Q的分数矩阵，最后通过softmax函数将分数矩阵归一化得到权重矩阵，再乘以值向量V，即得到一个子空间的注意力向量，表达式如式(3)：

其中，K^T为K的转置矩阵；

W-MSA子模块(窗口多头自注意力层)通过将输入特征映射到不同的子空间再计算注意力向量来捕获特征在不同子空间上的依赖关系，最终得到的注意力向量能更立体更全面的捕获特征之间的依赖关系。

参照图5，解码器的输入数据是编码器的输出特征图I’_1-1、I’_2-1，大小为

解码器的输出是提取的特征图O₁、O₂，大小为

解码器的结构依次为：编码器输出的特征图I’_1-1、I’_2-1作为输入数据(Inputfeature，表达式

)→第一个Up Sample层(表达式

)→第一个Transformer Block层(表达式

)→第二个Up Sample层(表达式

)→第二个Transformer Block层(表达式

)→输出特征图O₁、O₂(Output feature，表达式

)，

其中，两个Up Sample层均为反卷积运算，反卷积核大小均为3×3，卷积步长均为2，特征映射总数分别为128、96个；两个Transformer Block层采用的是与编码器相同的Transformer Block层同样的内部结构。

步骤3、构建变化检测模块，该变化检测模块的输入数据是步骤2输出的特征图O₁、O₂，表达式为

变化检测模块是将Transformer模块提取得到的图像特征经过欧式距离计算，输出变化检测得到的强度图，再通过阈值滤波进行二值化处理，得到最终变化检测结果图。

参照图6，变化检测模块的结构依次为：步骤2输出的特征图O₁、O₂作为输入(Inputfeature，表达式

)→Patch Expanding层(进行Rearrange operation运算)→Dist Layer层(进行欧氏距离差值运算，表达式H×W×3)→进行阈值分割处理并输出图像(Change detection result，表达式H×W)。

其中，Patch Expanding层进行rearrange operation运算，将输入特征的分辨率扩大到输入分辨率的4倍，将特征维数降低到输入维数的

其中采用的激活函数为sigmoid函数；Dist层包括欧氏距离差值运算，见下式(4)：

其中，F₁、F₂分别为Patch Expanding层输出的特征映射图，通过欧氏距离差值公式计算出两个输入之间的特征差异；在训练阶段，距离映射D_ist将会与groundtruth进行比对来获取对比与骰子损失以进行优化，而在预测阶段，阈值分割将应用于距离映射以获取变化结果，阈值分割通过选取阈值来进行变化检测结果表示。本发明实施中阈值选定为0.5，若输出特征差异图强度大于0.5即认定为变化区域，否则认定为未变化区域。

在训练基于Transformer的变化检测网络时，在模型中应用对比损失来衡量特征映射和真实变化之间的差异，又考虑到在真实场景中变化检测的真实变化像素与未变化像素之间存在样本不均衡的问题，故在步骤3中加入骰子损失函数。即在本步骤3中，将对比损失函数+骰子损失函数组合在一起作为基于Transformer的遥感VHR变化检测网络的总损失函数，见下式(5)：

L_total＝L_BCL+λL_Dice (5)

式(5)中，L_BCL表示距离对比损失，L_Dice表示骰子损失，λ为对应系数，取值范围为[0,1]，优选λ＝0.4；

其中的L_BCL对比损失函数表达式为式(6)：

其中，X_n为预测图，Y_n为真实变化标记图；d_i,j表示(i，j)点的距离映射的值，y_i,j表示(i，j)点标记的值；M表示距离映射的大小，1表示变化部分，0表示未变化部分；m是过滤出距离大于该值的像素对的边界；

L_Dice骰子损失函数表达式为式(7)：

其中，

表示(i，j)点预测图的值，N为对应图像像素对的数量，m是过滤出距离大于该值的像素对的边界。

Claims

1.一种基于Transformer的遥感VHR图像变化检测方法，其特征在于，按照以下步骤实施：

步骤1、构建预处理模块，

步骤2、构建Transformer模块，

该Transformer模块的输出是提取后的特征图O₁、O₂，大小为

步骤3、构建变化检测模块，

2.根据权利要求1所述的基于Transformer的遥感VHR图像变化检测方法，其特征在于：所述的预处理模块是对输入的双时相遥感VHR的输入图像I₁、I₂进行数据预处理，

预处理模块的结构依次为：双时相遥感VHR的输入图像I₁、I₂作为输入图像→PatchPartition层→Linear Embedding层→输出特征图I_1-1、I_2-1，

特征映射总数为96个；输出的Output feature大小为

3.根据权利要求1所述的基于Transformer的遥感VHR图像变化检测方法，其特征在于：所述的Transformer模块包括编码器和解码器，解码器的结构与编码器的结构相似，在编码器中包含了两个TransformerBlock层和两个Down Sample层，在解码器中包含了两个Transformer Block层和两个Up Sample层。

4.根据权利要求3所述的基于Transformer的遥感VHR图像变化检测方法，其特征在于：所述的编码器的输入数据是步骤1输出的特征图I_1-1、I_2-1，大小为

编码器的输出是提取的特征图I’_1-1、I’_2-1，大小为

编码器的结构依次为：步骤1输出的特征图I_1-1、I_2-1作为输入数据→第一个DownSample层→第一个Transformer Block层→第二个Down Sample层→第二个TransformerBlock层→输出特征图I’_1-1、I’_2-1，其中，两个TransformerBlock层均为相同的模块；两个Down Sample层均为卷积运算，卷积核大小均为3×3，卷积步长均为2，特征映射总数分别为128、256个；

单个TransformerBlock层的结构依次为：步骤2中第一个Down Sample层输出的特征图作为输入数据→LN正则化层→W-MSA子模块→残差连接层→LN正则化层→前馈神经网络→残差连接层→输出的特征图；其中，LN正则化层用于进行LN正则化处理，对输入数据进行归一化处理，将其归到0到1之间；残差连接层用于进行残差连接；前馈神经网络由两层前馈神经网络组成，第一层前馈神经网络把输入向量从d_model维度映射到4×d_model维度，激活函数为ReLU函数，第二层前馈神经网络再从4×d_model维度映射回d_model维度，不使用激活函数，前馈神经网络的表达式如式(1)：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (1)

其中，x为前馈神经网络的输入，W₁为第一层前馈神经网络的权重矩阵，W₂为第二层前馈神经网络的权重矩阵，b₁第一层前馈神经网络的偏置，b₂第二层前馈神经网络的偏置；

W-MSA子模块先将输入特征映射到不同的子空间中，再分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并映射到原输入空间中得到最终的注意力向量作为输出，W-MSA子模块的表达式如式(2)：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W⁰

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (2)

其中，Q,K,V分别表示MSA子模块的输入向量，即查询向量、键向量、值向量；W⁰为随机生成的初始矩阵；head_i为多头注意力中的各个

h；W_i ^Q为不同子空间中Q的映射矩阵，W_i ^K为不同子空间中K的映射矩阵，W_i ^V为不同子空间中V的映射矩阵；

在一个单独子空间上的注意力向量的计算方式依次为：先将查询向量Q和键向量K点乘，再除以键向量K的维度的平方根

其中，K^T为K的转置矩阵。

5.根据权利要求3所述的基于Transformer的遥感VHR图像变化检测方法，其特征在于：所述的解码器的输入数据是编码器的输出特征图I’_1-1、I’_2-1，大小为

解码器的输出是提取的特征图O₁、O₂，大小为

解码器的结构依次为：编码器输出的特征图I’_1-1、I’_2-1作为输入数据→第一个UpSample层→第一个Transformer Block层→第二个Up Sample层→第二个TransformerBlock层→输出特征图O₁、O₂，

6.根据权利要求1所述的基于Transformer的遥感VHR图像变化检测方法，其特征在于：所述的变化检测模块是将Transformer模块提取得到的图像特征经过欧式距离计算，输出变化检测得到的强度图，再通过阈值滤波进行二值化处理，得到最终变化检测结果图，

变化检测模块的结构依次为：步骤2输出的特征图O₁、O₂作为输入→Patch Expanding层→Dist Layer层→进行阈值分割处理并输出图像，其中，Patch Expanding层进行rearrange operation运算，将输入特征的分辨率扩大到输入分辨率的4倍，将特征维数降低到输入维数的

采用的激活函数为sigmoid函数；Dist层包括欧氏距离差值运算，见下式(4)：

其中，F₁、F₂分别为Patch Expanding层输出的特征映射图，通过欧氏距离差值公式计算出两个输入之间的特征差异；在训练阶段，距离映射D_ist将会与groundtruth进行比对来获取对比与骰子损失以进行优化，而在预测阶段，阈值分割将应用于距离映射以获取变化结果，阈值分割通过选取阈值来进行变化检测结果表示。

7.根据权利要求6所述的基于Transformer的遥感VHR图像变化检测方法，其特征在于：所述的变化检测模块，在训练基于Transformer的变化检测网络时，应用对比损失来衡量特征映射和真实变化之间的差异，将对比损失函数+骰子损失函数组合在一起作为基于Transformer的遥感VHR变化检测网络的总损失函数，见下式(5)：

L_total＝L_BCL+λL_Dice (5)

式(5)中，L_BCL表示距离对比损失，L_Dice表示骰子损失，λ为对应系数，取值范围为[0,1]；

其中的L_BCL对比损失函数表达式为式(6)：

L_Dice骰子损失函数表达式为式(7)：

其中，