CN115131313A

CN115131313A - 基于Transformer的高光谱图像变化检测方法及装置

Info

Publication number: CN115131313A
Application number: CN202210742449.XA
Authority: CN
Inventors: 丁楫刚; 厉小润; 仇群辉; 王晶
Original assignee: Jiaxing Hengchuang Electric Equipment Co ltd; Zhejiang University ZJU
Current assignee: Jiaxing Hengchuang Electric Equipment Co ltd; Zhejiang University ZJU
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-30

Abstract

本发明针对目前大多数高光谱变化检测方法受到有限的感受野和仅单独使用光谱信息或空间信息的限制，提出了一种基于Transformer的高光谱图像变化检测方法及装置。方法包括：(1)图像预处理；(2)构造基于Transformer的深度学习网络；(3)深度学习网络模型训练；(4)预测高光谱图像变化检测结果。本发明所提出的方法具有全局的时空感受野，能够获取任意空间、时间距离的像素之间的相关性，并且只需少量标记样本即可提取加权的空间‑光谱‑时间联合特征，有效学习了双时相高光谱图像之间的变化规则，提高了变化检测的精度。

Description

基于Transformer的高光谱图像变化检测方法及装置

技术领域

本发明设计图像处理领域，尤其涉及一种基于Transformer的高光谱图像变化检测方法及装置。

背景技术

变化检测是指通过分析在不同时间的同一位置获取的两幅遥感图像获取土地覆盖变化。而高光谱图像具有非常高的光谱分辨率，这使得在精细的光谱尺度上监测土地覆盖动态变化成为可能。目前高光谱变化检测已广泛应用于土地覆盖变化分析、资源勘探、植被变化检测和灾害评估中。

目前的变化检测方法主要可以分为传统方法和深度学习方法。前者又可以分为基于图像代数的方法与图像变换的方法，但这些方法受限于手动设定阈值、分类误差以及模型复杂等因素，难以取得较高的检测结果。后者一般是利用深度卷积网络提取高光谱图像的空间、光谱特征，但是卷积神经网络的感受野有限，无法获得任意像素间的关系，并且基于深度卷积网络的方法简单的将双时相图像之间的时间依赖性设定为线性关系，这都影响了变化检测精度的进一步提高。为充分利用双时相图像之间的时间依赖性，部分深度学习方法将深度卷积网络与循环神将网络组合，以提取联合空间-光谱-时间特征，但是该类方法模型复杂，难以确定合适的特征空间，并且空间-光谱特征是分别提取，这也限制了该类方法的检测性能。此外基于深度学习的方法，需要大量的标签数据，而标签数据的获取非常耗费人力物力。

自然语言模型能够处理单词和句子之间的长序列关系。而Transformer借助于其多头自注意力机制在自然语言处理和计算机视觉领域大获成功。Transformer主要由多头注意力机制构成，多头注意力机制能够通过不同的注意力头学习到上下文语意的特征信息，并对输入数据的每个部分的重要性进行差异加权。可以将高光谱图像通过一定预处理，利用基于Transformer编码器构建的深度学习网络模型自适应的提取加权的空间-光谱-时间联合特征，以用于高光谱图像变化检测。

发明内容

针对现有变化检测技术中的不足，本发明提供一种基于Transformer的高光谱图像变化检测方法及装置，通过多头注意力机制构建任意空间、时间距离像素之间的联系，以提取加权空间-光谱-时间联合特征，增加网络整体的学习效率，提高变化检测的精度。

为解决本发明的技术问题，本发明的技术方案如下，

本发明的目的在于提出一种基于Transformer的高光谱图像变化检测方法，包括如下步骤：

步骤1)：图像预处理，从双时相高光谱图像中选取对应中心像素周围正方形邻域，并分别按照光栅扫描顺序(即按照从左往右，由上往下的顺序)将图像块展开，得到对应像素序列对；

步骤2)：构造基于Transformer的深度学习网络，首先为1层参数共享的全连接孪生神经网络，之后为1层时空信息编码层，在之后为4层Transformer编码器层，然后是1层进行特征融合的平均池化层，之后为1层全连接神经网络，最后通过Softmax层进行分类输出，利用随机参数作为网络的初始权重。

步骤3)：将步骤1)中所得像素序列对及其标签作为训练样本，对基于Transformer的神经网络进行训练，调整网络参数权重，得到训练后的深度学习网络模型。

步骤4)：将待检测图像经过图像预处理之后，经过训练后的深度学习网络模型，提取像素特征，得到变化检测结果，实现对高光谱图像的变化检测。

如步骤1所述，选取对应中心像素周围正方形邻域，具体为：在图像中心像素周围选取大小一样的图像邻域，即以步长为1，将图像分割为大小都为w×w的正方形图像块，其中w表示分割成的正方形图像块边长的像素尺寸。

如步骤2所述，1层参数共享的全连接孪生神经网络将像素序列映射至指定维度的向量空间；时空信息编码层为像素序列添加空间位置编码和时间信息编码，之后将对应像素序列对拼接，并在中间添加SEP Token作为分隔符；Transformer编码器层的网络结构具体为：多头注意力机制层，多头注意力层后为softmax与残差连接，之后为层归一化层，最后是前馈神经网络层；平均池化层进行特征融合，之后全连接神经网络利用融合后的加权空间-光谱-时间联合特征进行预测，最后通过Softmax层进行分类输出，利用随机参数作为网络的初始权重。

如步骤3所述，将对应中心像素对构成的像素序列及其标签作为训练样本，输入至深度学习网络模型，中心像素的标签作为预测结果，将标签与网络预测值之间的误差作为损失函数，通过梯度下降法更新网络参数权重，得到训练后的深度学习网络模型。

如步骤4所述，将待检测的双时相高光谱图像经过步骤1所述预处理之后，经过训练后的深度学习网络模型，提取加权的空间-光谱-时间联合特征，得到变化检测结果。

本发明的另一个目的在于提供一种基于Transformer的高光谱图像变化检测装置，包括：

图像采集模块，用于采集进行变化检测的双时相高光谱图像；

图像预处理模块，用于将双时相高光谱图像分割成大小相等的图像块，然后按照光栅扫描顺序展开为像素序列；

基于Transformer的深度学习网络模块，用于将像素序列对进行编码，以提取加权的空间-光谱-时间联合特征；

变化检测结果预测模块，用于将提取的加权联合特征进行变化检测结果预测；

变化检测结果输出模块，用于输出变化检测结果图。

基于Transformer的深度学习网络模块包括以下子模块：

1)线性映射模块，用于将像素序列映射至指定维度的向量空间；

2)时空信息编码模块，用于为映射后的像素序列添加空间位置编码、时间信息编码以及SEP Token；

3)Transformer编码器层模块，用于提取编码后像素序列的加权空间-光谱-时间联合特征；

4)平均池化模块，用于将Transformer编码器层模块提取的基于Transformer的进行平均池化。

本发明的有益效果在于：

1)本发明具有的全局时空感受野能够学习任意2个像素之间的特征而无论其空间、时间距离的大小。

2)在本发明中，Transformer编码器首次被应用于高光谱图像变化检测，其能够提取加权的空间-光谱-时间联合特征。

3)本发明仅使用少量标签样本来训练神经网络，这有益于降低图像标记成本，提高自动化变化检测的可能性。

附图说明

图1为本发明高光谱图像变化检测方法实施例的基本步骤流程图；

图2为本发明高光谱变化检测装置的结构示意图；

图3为本发明高光谱图像变化检测方法实施例注意力计算流程图；

图4为本发明高光谱图像变化检测方法实施例多头注意力机制计算流程图；

图5为实验用Farmland高光谱图像数据集；

图6为Farmland高光谱图像用本发明实施例以及不同方法变化检测后的检测结果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合具体的实施例和附图，详细说明本发明，并描述了具体实施例以简化本发明。但是需要认识到，本发明不局限于所说明的实施例，并且在不脱离基本原理的前提下，本发明的各种修改是可能的，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示，为所发明的高光谱变化检测方法在本实施例的基本步骤流程图，主要包括：

步骤1)：图像预处理，将双时相高光谱图像分割为大小一样的图像块，即以1为步长，将图像分割为大小为7×7的正方形图像块；按照光栅扫描顺序将图像块分别展开为长度为49的像素序列；

步骤2)：构造基于Transformer的深度学习网络，网络的具体结构如下：

步骤21)：1层由128个神经元构成参数共享的全连接孪生神经网络，将每个像素序列对的特征维度映射为128维，令X¹和X²分别为T₁和T₂时刻高光谱图像对应中心像素的像素序列，计算公式如下：

X^t′＝W^TX^t (1)

其中X^t表示T_t(t＝1,2)时刻图像的像素序列，W表示全连接孪生神经网络的权重参数，X^t′表示X^t经映射后的像素序列。

步骤22)：位置编码层为像素序列添加空间位置编码和时间信息编码，添加编码后将对应像素序列对拼接，并在中间添加SEP Token作为分隔符，具体为：

其中L_i和S_i分别表示像素序列中的第i个像素的空间位置编码和时间信息编码；时间信息编码与SEP Token均由词嵌入函数生成，空间位置编码L_i由Sinusoidal位置编码函数生成，位置编码的维度与映射后的像素向量维度相同，在本实施例中，像素向量的总的维度为128。

步骤23)：如图3所示，为本发明高光谱图像变化检测方法实施例注意力计算流程图；如图4所示，为本发明高光谱图像变化检测方法实施例多头注意力机制计算流程图，主要包括：

多头注意力机制层计算输入像素序列的query(查询)、key(键)和value(值)，然后计算多头注意力，公式如下：

MultiHead＝Concat(head₁,head₂,…,head_h)W^O (6)

其中Q、K和V是由query、key和value向量组成的矩阵，W^Q∈R^d×d/h、W^K∈R^d×d/h和W^V∈R^d×d/h分别是Q、K和V矩阵的映射参数，W^O是映射参数，h为注意力头的个数，在本实施例中h＝2，d_k为key向量的维度，在本实施例中d_k＝128，E为经由时空信息编码层得到的像素序列，AttentioQ表示自注意力，head_i为第i个注意力头的自注意力，Concat表示将各矩阵在矩阵行方向上进行拼接，MultiHead表示最终的多头注意力。

步骤24)：经过softmax后的多头注意力与原始输入相加，之后进行层归一化。层归一化的计算公式如下：

其中g是放缩参数，b是偏置参数，X＝(x₁,x₂,…,x_d)是当前层的输入，E(X)表示X的期望值，Var(X)表示X的均方根，ε＝1×10⁷用于防止分母为0，

为归一化后的X。

步骤25)：经过层归一化后的特征输入至前馈神经网络层得到最终的特征输出，其中前馈神经网络由1层输出为256维的全连接神经网络、ReLU激活函数以及1层输出为128维的全连接神经网络构成，计算公式如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (9)

其中W₁、W₂分别表示第1层、第2层全连接神经网络的权重参数，b₁、b₂分别表示第1层、第2层全连接神经网络的偏置参数。

步骤26)：平均池化层沿像素序列长度方向进行平均池化，得到融合后的加权的空间-光谱-时间联合特征。

步骤27)：将融合特征输入至1层输出为2维的全连接神经网络，然后将网络输出结果经softmax层进行分类输出。

步骤3：深度学习网络模型训练，选取3％的像素序列及其标签作为训练样本，输入至网络模型，中心像素的标签作为预测结果，将标签与模型预测值之间的交叉熵误差作为损失函数，通过AdamW算法更新网络参数，本实施例共迭代训练50次。

步骤4：将待检测的双时相高光谱图像按照步骤1所述预处理之后，输入至训练后的深度学习网络模型，提取加权的空间-光谱-时间联合特征，得到变化检测结果。

与前述的一种基于Transformer的高光谱图像变化检测方法的实施例相对应，本发明还提供了一种基于Transformer的高光谱图像变化检测装置的实施例。

图2为根据实施例示出的一种基于Transformer的高光谱图像变化检测装置的框图，如图2所示，该装置包括：

变化检测结果输出模块，用于输出变化检测结果图。

深度学习网络模块包括以下子模块：

基于Transformer的深度学习网络模块包括以下子模块：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，例如所述图像预处理模块，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个单元。另一点，所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接，可以是电性或其它的形式。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。下面以真实高光谱图像为例说明具体的实施方式，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

接下来以Farmland高光谱图像数据集为研究对象，开展变化检测算法验证。为了从直观视觉和量化评估两个角度进行变化检测结果的对比，分别采用变化检测结果图和评价指标：总体精度(Overall Accuracy，OA)和卡帕系数(Kappa Coefficient，KC)对所提出的变化检测方法进行评估。

Farmland高光谱图像数据集地物是中国江苏省盐城市的农田，图像大小为420×140。其两张高光谱数据分别由EO-1卫星拍摄于2006年5月3日和2007年4月23日。再去除噪声和吸水带之后，共有154个波段用于本实施例。此外，该数据集的主要变化类型为农田的大小。5(a)、5(b)分别为两个时间的高光谱图像，5(c)为真实变化结果的标签图

表1 Farmland高光谱图像数据集检测结果评价指标

Farmland数据集的变化检测结果如图6所示，评价指标见表1。在四种传统方法中，TDRD的效果最好。原因是它考虑了空间信息和光谱信息。这也证实了联合特征的重要性。与TDRD相比。深度学习方法获取的结果的所有评估指标都有显著改善。值得注意的是，传统方法在检测图像的中下部区域时有大量的误检，而这些误检区域能够很容易被深度学习方法正确检测。此外，与RE3FCN和RECNN这两种深度学习方法相比，本发明提出的方法取得了最好的性能。例如，OA的准确增量分别为0.76％和2.53％。其原因可能是，本发明所提出的方法提取的联合加权空间-光谱-时间特征能够更好地表达变化规律。综上，体现出了本发明中提出的基于Transformer的变化检测算法的优越性。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.基于Transformer的高光谱图像变化检测方法，其特征在于，包括以下步骤：

步骤1)：图像预处理，从双时相高光谱图像中选取对应中心像素周围正方形邻域，并分别按照光栅扫描顺序将图像块展开，得到对应像素序列对；

步骤2)：构造基于Transformer的深度学习网络模型，首先为1层参数共享的全连接孪生神经网络，之后为1层时空信息编码层，再之后为4层Transformer编码器层，然后是1层进行特征融合的平均池化层，之后为1层全连接神经网络，最后通过Softmax层进行分类输出，利用随机参数作为网络的初始权重；

步骤3)：将步骤1)中所得像素序列对及其标签作为训练样本，对基于Transformer的网络模型进行训练，调整网络参数权重，得到训练后的深度学习网络模型；

步骤4)：待检测图像经过图像预处理之后，利用训练后的深度学习网络模型，提取像素特征，得到变化检测结果，实现对高光谱图像的变化检测。

2.根据权利要求1所述的基于Transformer的高光谱图像的变化检测方法，其特征在于步骤1)中，选取对应中心像素周围正方形邻域，具体为：在图像中心像素周围选取大小一样的图像邻域，即以步长为1，将图像分割为大小都为w×w的正方形图像块，其中w表示分割成的正方形图像块边长的像素尺寸。

3.根据权利要求1所述的基于Transformer的高光谱图像的变化检测方法，其特征在于，步骤2)中1层参数共享的全连接孪生神经网络用于将像素序列对映射至指定维度的向量空间，具体为：

令X¹和X²分别为T₁和T₂时刻高光谱图像对应中心像素的像素序列，计算公式如下：

X^t′＝W^TX^t (1)

其中X^t表示T_t(t＝1，2)时刻图像的像素序列，W表示全连接孪生神经网络的权重参数，X^t′表示X^t经映射后的像素序列。

4.根据权利要求1所述的基于Transformer的高光谱图像的变化检测方法，其特征在于，步骤2)中时空信息编码层为像素序列对添加空间位置编码和时间信息编码，之后将对应像素序列对拼接，并在中间添加SEP Token作为分隔符，具体为：

其中

为像素序列中添加时空信息编码后的第i个像素，L_i和S_i分别表示每个像素序列中的第i个像素的空间位置编码和时间信息编码，同一像素序列中各像素的时间信息编码相同；时间信息编码与SEP Token均由词嵌入函数生成，空间位置编码L_i由Sinusoidal位置编码函数生成，位置编码的维度与映射后的像素向量维度相同。

5.根据权利要求1所述的基于Transformer的高光谱图像的变化检测方法，其特征在于，步骤2)中Transformer编码器层的网络结构为：1层多头注意力机制层，之后为softmax层与残差连接，之后为层归一化层，最后是前馈神经网络层，具体为：

1)多头注意力机制层计算输入像素序列的query、key和value，然后计算自注意力，最后计算多头注意力，公式如下：

head_i＝Attention(EW_i ^Q，EW_i ^K，EW_i ^V) (4)

MultiHead＝Concat(head₁，head₂，...，head_h)W^O (5)

其中Q、K和V是由query、key和value向量组成的矩阵，W^Q∈R^d×d/h

、W^K∈R^d×d/h和W^V∈R^d×d/h分别是Q、K和V矩阵的映射参数，W^O是映射参数，h为注意力头的个数，d_k为key向量的维度，E为经由时空信息编码层得到的像素序列，Attention表示自注意力，head_i为第i个注意力头的自注意力，Concat表示将各矩阵在矩阵行方向上进行拼接，MultiHead表示最终的多头注意力；

2)多头注意力经softmax后与原始输入相加，再进行层归一化。层归一化的计算公式如下：

其中g是放缩参数，b是偏置参数，X＝(x₁，x₂，...，x_d)是当前层的输入，E(X)表示X的期望值，Var(X)表示X的均方根，ε＝1×10⁷用于防止分母为0，

表示归一化后的X；

3)经层归一化后的特征输入至前馈神经网络层得到最终的输出特征，其中前馈神经网络由1层全连接神经网络、ReLU激活函数以及1层全连接神经网络构成，计算公式如下：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (7)

6.根据权利要求1所述的基于Transformer的高光谱图像的变化检测方法，其特征在于，步骤2)中，平均池化层沿像素序列长度方向对编码器层学习到的特征进行平均池化，得到融合后的联合加权空间-光谱-时间特征，然后将联合加权特征输入至1层输出为2维的全连接神经网络，然后将网络输出结果经过soffmax层进行分类输出。

7.根据权利要求1所述的基于Transformer的高光谱图像的变化检测方法，其特征在于步骤3)中，选取3％的像素序列对及其标签作为训练样本，输入至深度学习网络模型，中心像素的标签作为预测结果，将标签与模型预测值之间的交叉熵误差作为损失函数，通过AdamW算法更新网络参数。

8.根据权利要求1所述的基于Transformer的高光谱图像的变化检测方法，其特征在于步骤4)中，将待检测的双时相高光谱图像按照步骤1)所述预处理之后，输入至训练后的深度学习网络模型，提取加权的空间-光谱-时间联合特征，得到变化检测结果。

9.一种实施权利要求1所述方法的基于Transformer的高光谱图像变化检测装置，其特征在于，包括：

图像预处理模块，用于将双时相高光谱图像分割成大小相等的图像块，然后按照光栅扫描顺序展开为像素序列对；

变化检测结果输出模块，用于输出变化检测结果图。

10.根据权利要求9所述的基于Transformer的高光谱图像变化检测装置，其特征在于，基于Transformer的深度学习网络模块包括以下子模块：