CN116402766A

CN116402766A - 一种结合卷积神经网络和Transformer的遥感影像变化检测方法

Info

Publication number: CN116402766A
Application number: CN202310272368.2A
Authority: CN
Inventors: 彭代锋; 翟晨晨
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-07

Abstract

本发明涉及图像处理技术领域，具体是一种结合卷积神经网络和Transformer的遥感影像变化检测方法，本发明通过去除了最大池化层的ResNet18残差网络提取双时相特征，提高特征分辨率以保留细节信息；通过将PToken输入到Transformer编码器中，在PToken的特征空间中建模全局信息，然后利用具有全局信息的PToken在Transformer解码器中计算双时相融合特征的全局依赖性，改善了卷积操作感受野受限的问题；通过逐层上采样恢复分辨率，特征逐元素相加以聚合不同层次的特征，并利用预测头得到变化概率图，最终使变化检测结果更加有效且可靠；本发明能够更准确的检测出建筑物的不规则结构，且能够避免密集建筑物检测结果的粘连情况，同时有效应对光谱变化的干扰。

Description

一种结合卷积神经网络和Transformer的遥感影像变化检测方法

技术领域

本发明涉及图像处理技术领域，具体是一种结合卷积神经网络和Transformer的遥感影像变化检测方法。

背景技术

随着国内外对地观测系统的发展，遥感数据的获取呈现出便捷性、实时性、可定制性的特点，不同光谱、模态和分辨率的遥感数据海量累积，逐渐发展为遥感大数据；随着遥感影像分辨率的提升，影像中地物细节信息更加丰富，对精细化遥感解译工作具有重要意义；变化检测作为遥感领域重要研究方向，可在分析多时相遥感数据的基础上检测地表物体的变化情况，如位置、范围以及状态的变化；现阶段，传统方法已无法有效处理遥感大数据，研究最新人工智能技术手段以提高遥感影像变化检测的自动化及智能化水平具有重要的现实意义。

近年来，涌现了大量深度学习变化检测方法，如Daudt等人设计了FC-EF、FC-Siam-Conc、FC-Siam-Diff和FC-EF-Res等全卷积变化检测网络。然而，卷积运算受到感受野的限制，仅能提取局部信息。

为提高卷积网络的感受野，Zhang等人提出DSIFN，通过引入空间注意力和通道注意力对特征上下文信息建模；然而，空间和通道注意力单元仍无法有效地对全局信息建模。

为此，Chen等人提出了BIT_CD网络，首次将Transformer结构引入到变化检测任务中，将卷积神经网络提取的双时相特征表示为一系列语义Token，进而利用Transformer编码器对语义Token进行全局信息建模，且在Transformer解码器中利用具有全局信息的语义Token建立原始特征的全局依赖关系；然而，BIT_CD网络的Transformer结构仅处理了单一特征层，导致解码器缺少多尺度特征，无法生成精确的变化图。

发明内容

本发明的目的在于提供一种结合卷积神经网络和Transformer的遥感影像变化检测方法，以解决上述背景技术中提出的问题。

本发明的技术方案是：一种结合卷积神经网络和Transformer的遥感影像变化检测方法，包括以下步骤：

步骤1、构造变化检测数据集；

步骤2、读取步骤1构造好的变化检测数据集，并进行数据增强；

步骤3、构建变化检测网络；

步骤4、将步骤2读取的数据输入到步骤3构建的变化检测网络中，对其进行训练以及验证；

步骤5、读取步骤1构建的测试集，将经过预处理的数据输入到训练好的变化检测模型中，得到变化检测结果。

优选的，步骤2包括：在网络训练阶段，读取训练集和验证集的图像数据，其中仅对训练集数据进行数据增强操作，而训练集和验证集数据都要进行归一化处理并且转换为张量形式。

优选的，步骤3构建的变化检测网络包括：特征提取网络，金字塔语义标记生成模块，Transformer结构，上采样模块以及网络输出头。

优选的，特征提取网络被设计为孪生网络结构，孪生网络的两个分支结构完全相同，并且二者之间共享权重；孪生网络采用ResNet18残差网络分别提取T1时相和T2时相图像的多尺度特征，在ResNet18网络中，为了保留高分辨率特征中的细节信息，取消了最大池化层以提高变化检测效果。

优选的，金字塔语义标记生成模块用于将特征以一些紧凑的语义Token来表示，具体的，将双时相特征的融合特征通过空间金字塔池化下采样为4个不同尺度的特征(即1×1，2×2，4×4，8×8)，将四个池化特征沿空间维度展平为一维序列矩阵，沿通道维度将四个序列矩阵拼接，形成金字塔语义Token(PToken)。

优选的，Transformer结构用于对特征的全局信息建模，Transformer结构包括一个编码器和一个解码器，编码器和解码器均设置为一层；

具体的，编码器用于在PToken的特征空间中对全局信息建模，Transformer编码器由层归一化、多头自注意力机制和前馈神经网络组成，层归一化用于加速网络收敛，多头自注意力机制用于对特征的全局依赖性进行建模，前馈神经网络用于在高维空间中筛选信息；解码器用于编码器的输出与解码器的输入特征之间的信息交互。

优选的，上采样模块用于恢复深层特征的分辨率，上采样模块被设计为瓶颈结构，具体流程为：首先通过逐点卷积将特征维度C×H×W压缩至

然后使用卷积核为3×3的转置卷积恢复特征分辨率到/>

最后再执行一次逐点卷积恢复特征的通道数(即C×2H×2W)，并且在每次卷积和转置卷积后适用批量归一化和修正线性激活函数；在上采样过程中，采用特征逐元素相加来聚合多层语义信息；在特征分辨率恢复到与输入图像相同后，采用两个卷积单元将通道数压缩为1，并且两个卷积单元中间添加了一个激活函数，最后采用Sigmoid函数将特征缩放到[0,1]以生成变化概率图。

优选的，步骤4具体过程为：将步骤2经过预处理的数据输入到步骤3所构建的网络中，计算网络预测与真实变化标签的损失函数，经过反向传播的不断迭代，逐步优化网络权重参数，直至网络收敛；其中，采用二元交叉熵损失函数对网络参数进行优化。

优选的，步骤5具体过程为：读取步骤1构建的测试集，经过归一化处理和张量转换，将经过预处理的数据输入到训练好的变化检测网络中，得到预测概率图，最后转换为变化检测结果。

本发明通过改进在此提供一种结合卷积神经网络和Transformer的遥感影像变化检测方法，与现有技术相比，具有如下改进及优点：

其一：本发明通过去除了最大池化层的ResNet18残差网络提取双时相特征，提高特征分辨率以保留细节信息；然后分别将每层的双时相特征融合，并对融合特征下采样到四个尺寸，通过在空间维度展平为一维序列矩阵并在通道维度拼接，形成金字塔语义Token；

其二：本发明通过将PToken输入到Transformer编码器中，在PToken的特征空间中建模全局信息，然后利用具有全局信息的PToken在Transformer解码器中计算双时相融合特征的全局依赖性；

其三：本发明通过逐层上采样恢复分辨率，特征逐元素相加以聚合不同层次的特征，并利用预测头得到变化概率图；该方法保留了高分辨率特征中的细节信息，并且通过Transformer结构赋予了模型全局感受野，改善了卷积操作感受野受限的问题，最终使变化检测结果更加有效且可靠。

附图说明

下面结合附图和实施例对本发明作进一步解释：

图1是本发明的方法流程图；

图2是本发明方法的网络结构图；

图3是本发明的金字塔语义标记生成图；

图4是本发明的Transformer结构图；

图5是本发明的上采样模块结构图；

图6是本发明在LEVIR-CD数据集上的部分检测结果示意图。

具体实施方式

下面对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种结合卷积神经网络和Transformer的遥感影像变化检测方法，本发明的技术方案是：

如图1-图6所示，一种结合卷积神经网络和Transformer的遥感影像变化检测方法，包括以下步骤：

步骤1、构造变化检测数据集，首先将收集到的大图幅变化检测数据(包括T1时相，T2时相和真实变化标签图)裁剪为256×256大小的图像，并按照7：1：2的比例将数据集划分为训练集、验证集和测试集，其中训练集用于网络训练，验证集用于在训练过程中检验模型的收敛情况、调整模型超参数，测试集用于在训练结束后对模型进行测试并评估其泛化能力；

步骤2、读取步骤1构造好的变化检测数据集，并进行数据增强，包括在网络训练阶段读取训练集和验证集数据，为了改善网络的泛化能力需要提高训练数据的多样性，采用水平翻转、垂直翻转、随机尺度裁剪、高斯模糊以及色彩变换的数据增强操作处理训练集数据；由于作为检验模型收敛情况的验证集并不参与训练过程，所以不对其进行数据增强操作，但是训练集和验证集数据都要进行归一化处理并且转换为张量形式；

步骤3、构建变化检测网络，并进行网络训练，具体包括以下步骤：

步骤3.1、构建特征提取网络，利用孪生网络(即两个分支结构完全相同且享权重)提取双时相影像特征，考虑到精确的变化检测需要高分辨率特征中的细节信息，本发明去除了最大池化层的ResNet18残差网络结构作为孪生网络的分支结构，相比标准的ResNet18网络，经过改进后的网络所提取的特征的尺寸均扩大了一倍，以缓解池化层造成的信息丢失，在提取四个阶段的特征后，在每一阶段均采用一个3×3的卷积块融合双时相特征；

步骤3.2、生成金字塔语义Token，金字塔语义标记生成模块用于将特征以一些紧凑的语义Token来表示，为使这些语义Token存储更丰富的信息，本发明采用空间金字塔池化生成具有多尺度信息的语义标记；具体来说，将步骤3.1的融合特征通过池化操作下采样到1×1，2×2，4×4，8×8四个尺寸，然后将四个池化特征沿空间维度展平为一维序列形式，再沿着通道维度将四个一维序列拼接，形成金字塔语义Token(PToken)。该过程可以表示为：

PToken＝Concat(Flatten(SPP(F)))

式中，F表示输入的融合特征，SPP(·)表示空间金字塔池化，Flatten(·)表示将四个池化特征展平为一维序列矩阵，Concat(·)表示将展平的四个序列矩阵沿通道维度拼接；

步骤3.3、建模融合特征的全局上下文信息，由于引入多头注意力机制，Transformer结构能够有效建模特征的全局上下文信息；Transformer结构包括一个编码器和一个解码器，两者之间结构基本相同，均由层归一化加多头自注意力机制和层归一化加前馈神经网络串联组成，其中层归一化可以加速网络收敛；为减少网络整体的参数量和计算量，Transformer编码器和解码器均设置为一层。

首先，将Transformer编码器用于PToken特征空间的全局信息建模；经过层归一化的处理，将PToken输入到多头自注意力机制中，通过对PToken进行线性变换，生成查询向量Q_E、键向量K_E和值向量V_E，可以表示为：

Q_E＝LN(PToken)W^Q

K_E＝LN(PToken)W^K

V_E＝LN(PToken)W^V

式中，LN(·)表示层归一化，W^Q、W^K和W^V分别表示Q_E、K_E和V_E线性投影的权重系数；

利用自注意力机制将Q向量和K向量相乘计算每个像素之间的相关性，经过缩放和Softmax函数生成注意力权重，最后将注意力权重作用于V向量，完成对PToken全局信息的建模，该过程可以表示为：

式中，d表示缩放因子；

多头自注意力机制将Q，K，V三个向量映射到多个空间以提取特征的多重语义；通过将多头自注意力机制的输出拼接，最后经过线性变换，投影到原始特征空间，计算公式如下：

MSA＝MSA(T⁽⁾)＝Concat(head1，head2，…，headn)W⁰

式中，

分别表示第j个自注意力头的Q、K、V权重矩阵，W⁰表示线性变换的权重系数，MSA(·)表示多头自注意力机制，Concat(·)表示拼接操作，n表示n个自注意力头；

PToken全局信息建模完成后，将其输入特征线性投影到高维空间中，并通过高斯误差线性激活函数(GELU)筛选有效信息，最后再线性投影到低维空间；

该过程可以表示为：

FFN＝GELU(T⁽⁾W₁)W₂

式中，FFN表示前馈神经网络，W₁和W₂是线性投影矩阵，GELU(·)表示高斯误差线性激活函数；

Transformer解码器利用具有全局信息的PToken对融合特征图建立全局依赖关系；其中，自注意力机制中的QD由融合特征生成，而KD和VD由PToken生成；

即：

Q_D＝LN(FF)W^Q

K_D＝LN(PToken)W^K

V_D＝LN(PToken)W^V

式中，FF表示融合特征；同时，在Transformer解码器中，同样也采用前馈神经网络筛选信息；

步骤3.4、将深度特征上采样到与输入图像相同的尺寸，并输出变化概率图；从最深层特征开始，经过每层的上采样和特征逐元素相加操作实现聚合多层次语义信息和恢复特征分辨率的目的；为避免网络的计算量和参数量大幅增加，本发明将上采样模块设计为瓶颈结构，首先通过逐点卷积将特征维度C×H×W压缩至

然后使用卷积核为3×3的转置卷积恢复特征分辨率到/>

最后再执行一次逐点卷积恢复特征的通道数(即C×2H×2W)；并且在每次卷积或转置卷积后使用批量归一化(BN)和修正线性激活函数(ReLU)；

该模块计算过程为：

F^-＝ReLU(BN(Conv₁(F_in)))

F_up＝ReLU(BN(TransConv(F^-)))

F⁺＝ReLU(BN(Conv₂(F_up)))

式中，F^-表示经过通道压缩的特征，Fup表示经过上采样操作的特征，F⁺表示通道恢复的特征，BN(·)表示批归一化，ReLU(·)表示修正线性激活函数，Conv1(·)表示压缩通道数的卷积操作，TransConv(·)表示转置卷积，Conv2(·)表示恢复通道数的卷积操作；

在恢复特征分辨率后，采用两个卷积单元将通道数压缩为1，并且两个卷积单元中间添加了一个ReLU激活函数，最后采用Sigmoid函数将特征缩放到[0,1]生成预测概率图，该过程可以表示为：

Output＝Sigmoid(Conv₂(Relu(Conv₁(F))))

式中，Conv1(·)表示初步缩小特征通道数的卷积操作，Conv2(·)表示将特征通道数缩小到1的卷积操作，Sigmoid(·)表示sigmoid函数；

步骤4、将步骤2经过预处理的数据输入到步骤3所构建的网络中，对其进行训练以及验证，计算网络预测与真实变化标签的损失函数，经过反向传播的不断迭代，逐步优化网络权重参数，直至网络收敛；

具体的，网络构建完成后，即可将数据输入到网络中进行训练；在训练阶段采用二元交叉熵损失函数计算真实变化和预测变化之间的误差以引导网络的训练的方向；其中，二元交叉熵损失的计算公式为：

式中，N表示图像中样本个数；y_n表示像素n的真实值，如果像素属于变化类，y_n为1，否则y_n为0；

和/>

分别表示经模型预测后像素n属于变化类和不变类的概率；

步骤5、读取步骤1构建的测试集，经过归一化处理和张量转换，将经过预处理的数据输入到训练好的变化检测模型中，利用训练完成的模型对经过预处理的数据进行变化检测，得到预测概率图，最后转换为变化检测结果，即根据每个像素的概率值判断其所属类别，最后生成变化检测图。

进一步的，下面结合具体实验验证本发明方法的优越性；本实验采用LEVIR-CD数据集作为实验数据，经过固定尺度裁剪后，训练集，验证集，测试集分别有7120，1024，2048张256×256尺寸的图像。本实验在PyTorch深度学习框架下进行，采用AdamW优化器对训练过程进行优化，迭代训练100个epoch，初始学习率设置为0.0001，并且在每个epoch中衰减0.000001，batchsize设置为8。

为验证本发明方法的优越性，与两个同样引入了Transformer结构的变化检测网络进行比较，即BIT_CD和ChangeFormer。检测结果的精度评价指标采用F1分数(F1-score)、交并比(IoU)和总体精度(OA)；具体检测结果如表1所示。

模型	F1-score/％	IoU/％	OA/％
				BIT_CD	89.96	81.75	98.89
ChangeFormer	90.40	82.48	99.04
				本发明方法	91.79	84.83	99.17

表1不同变化检测方法的性能比较

从表1中可以看出，本发明方法在三个精度指标上都取得最优结果，并且与其他方法相比，三个精度指标均得到了显著的提升，说明了本发明方法的有效性和优越性。

图6展示了不同方法的变化检测结果图；可以看出，本发明方法变化检测结果的目视效果最佳，能够更准确的检测出建筑物的不规则结构，且能够避免密集建筑物检测结果的粘连情况，同时有效应对光谱变化的干扰。

上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：包括以下步骤：

步骤1、构造变化检测数据集；

步骤3、构建变化检测网络；

2.根据权利要求1所述的一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：所述步骤1具体为：将大幅面遥感影像以及对应的变化标签图按照统一尺度进行裁剪，然后将裁剪好的T1时相图像，T2时相图像以及变化标签图按照7：1：2的比例分为训练集、验证集和测试集。

3.根据权利要求2所述的一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：所述步骤2包括：在网络训练阶段，读取训练集和验证集的图像数据，其中仅对训练集数据进行数据增强操作，而训练集和验证集数据都要进行归一化处理并且转换为张量形式。

4.根据权利要求3所述的一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：所述步骤3构建的变化检测网络包括：特征提取网络，金字塔语义标记生成模块，Transformer结构，上采样模块以及网络输出头。

5.根据权利要求4所述的一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：所述特征提取网络被设计为孪生网络结构，孪生网络的两个分支结构完全相同，并且二者之间共享权重；孪生网络采用ResNet18残差网络分别提取T1时相和T2时相图像的多尺度特征，在ResNet18网络中，为了保留高分辨率特征中的细节信息，取消了最大池化层以提高变化检测效果。

6.根据权利要求5所述的一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：所述金字塔语义标记生成模块用于将特征以一些紧凑的语义Token来表示，具体的，将双时相特征的融合特征通过空间金字塔池化下采样为4个不同尺度的特征(即1×1，2×2，4×4，8×8)，将四个池化特征沿空间维度展平为一维序列矩阵，沿通道维度将四个序列矩阵拼接，形成金字塔语义Token(PToken)。

7.根据权利要求6所述的一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：所述Transformer结构用于对特征的全局信息建模，所述Transformer结构包括一个编码器和一个解码器，编码器和解码器均设置为一层；

具体的，所述编码器用于在PToken的特征空间中对全局信息建模，所述Transformer编码器由层归一化、多头自注意力机制和前馈神经网络组成，层归一化用于加速网络收敛，多头自注意力机制用于对特征的全局依赖性进行建模，前馈神经网络用于在高维空间中筛选信息；所述解码器用于编码器的输出与解码器的输入特征之间的信息交互。

8.根据权利要求7所述的一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：所述上采样模块用于恢复深层特征的分辨率，所述上采样模块被设计为瓶颈结构，具体流程为：首先通过逐点卷积将特征维度C×H×W压缩至

然后使用卷积核为3×3的转置卷积恢复特征分辨率到/>

最后再执行一次逐点卷积恢复特征的通道数(即C×2H×2W)，并且在每次卷积和转置卷积后适用批量归一化(BN)和修正线性激活函数(ReLU)；在上采样过程中，采用特征逐元素相加来聚合多层语义信息；在特征分辨率恢复到与输入图像相同后，采用两个卷积单元将通道数压缩为1，并且两个卷积单元中间添加了一个激活函数，最后采用Sigmoid函数将特征缩放到[0,1]以生成变化概率图。

9.根据权利要求1所述的一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：所述步骤4具体过程为：将步骤2经过预处理的数据输入到步骤3所构建的网络中，计算网络预测与真实变化标签的损失函数，经过反向传播的不断迭代，逐步优化网络权重参数，直至网络收敛；其中，采用二元交叉熵损失函数对网络参数进行优化。

10.根据权利要求1所述的一种结合卷积神经网络和Transformer的遥感影像变化检测方法，其特征在于：所述步骤5具体过程为：读取步骤1构建的测试集，经过归一化处理和张量转换，将经过预处理的数据输入到训练好的变化检测网络中，得到预测概率图，最后转换为变化检测结果。