CN117095287A - 一种基于时空交互Transformer模型的遥感图像变化检测方法 - Google Patents

一种基于时空交互Transformer模型的遥感图像变化检测方法 Download PDF

Info

Publication number
CN117095287A
CN117095287A CN202310933742.9A CN202310933742A CN117095287A CN 117095287 A CN117095287 A CN 117095287A CN 202310933742 A CN202310933742 A CN 202310933742A CN 117095287 A CN117095287 A CN 117095287A
Authority
CN
China
Prior art keywords
space
remote sensing
features
sensing image
time interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310933742.9A
Other languages
English (en)
Inventor
冯天
张微
车瑞
周必群
洪廷锋
马笑文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310933742.9A priority Critical patent/CN117095287A/zh
Publication of CN117095287A publication Critical patent/CN117095287A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于时空交互Transformer模型的遥感图像变化检测方法。针对现有遥感图像变化检测方法通常范式缺乏考虑时间和空间维度特征而导致时空交互缺陷的问题,本发明设计了一种用于多时相特征提取的时空交互Transformer模型,是第一个为遥感图像变化检测任务而专门设计的通用骨干网络。本发明同时提出了一个无参数的多频令牌混合器,用于集成提供光谱信息的频域特征。本发明不仅利用遥感图像中的光谱信息丰富图像的频域特征,而且利用时空交互Transformer模型增强时空交互,从而实现高效的遥感图像变化检测。本发明结合时间特征和空间特征,为遥感图像变化检测提供了一种新的解决方案,在遥感图像变化检测领域可实现令人满意的效率和准确性平衡。

Description

一种基于时空交互Transformer模型的遥感图像变化检测 方法
技术领域
本发明应用深度学习和计算机视觉领域相关方面技术,具体发明和应用一种基于时空交互Transformer模型的遥感图像变化检测方法。
背景技术
随着对地观测技术的发展,遥感图像急剧增长,促使地球科学和遥感界采用深度学习技术完成相关任务。遥感图像变化检测侧重于比较同一区域不同时间拍摄的两幅或多幅图像,用于定量和定性评估地理实体和环境因素的变化,通常是在多尺度和多时相背景下进行的。它服务于环境监测、城市规划、灾害评估、土地利用等广泛的目标,具有较高的科学意义和实用价值。
遥感图像变化检测任务可以看作是一个二值语义分割问题,它为每个像素分配一个二值标签,表示相应区域中感兴趣的对象是否发生了变化。在实际应用中,由于季节性光照变化、不相关的运动,甚至传感器和成像条件的差异导致的频繁的非感兴趣变化,给遥感图像变化检测任务带来了重大挑战。此外,在一定的时间跨度内,变化区域的大小可能远小于目标区域的大小,需要丰富的空间细节来检测。
传统的遥感图像变化检测方法大多基于代数和变换。尽管这些方法实现简单,但依赖手工设计的特征,计算复杂度和噪声敏感性较高。最近兴起的深度学习技术,特别是卷积神经网络,由于其突出的非线性拟合能力,可以提取高质量的判别性特征,极大地促进了遥感图像变化检测任务的发展。一些方法将Siamese神经网络引入遥感图像变化检测任务,利用拼接或求和的方式提取双时态特征,然后使用变化检测头。该范式可以进一步实现以权重共享的串联分类网络为骨干,提高变化检测头性能。例如,基于空间注意力和通道注意力增强特征表示的方法优化了拼接或相位减法来细化时序特征交互。然而,通过串联分类网络得到的多级特征在语义信息和空间细节上仍存在较大差距,同时在深度特征通道中较大的冗余度导致巨大的计算成本。此外,U型结构可以将不同层次的特征进行叠加和融合,提高方法区分变化区域和未变化区域的能力,但包含的密集连通性也会导致上述计算问题。冗余度较大。
最近的研究采用Transformer模型(可译为转换器模型)进行遥感图像变化检测,以绕过卷积神经网络在固定知觉场和弱捕获长程依赖方面的局限性。例如,利用SwinTransformer提出了一种纯Transformer模型的遥感图像变化检测网络;通过构建一对具有分层Transformer模型编码器的孪生神经网络,从双时相图像中提取粗粒度和细粒度特征;使用Transformer模型编码器在紧凑的基于令牌的时空中对上下文进行建模,其中学习到的上下文丰富的令牌被送入像素空间,由解码器对原始特征进行精炼。然而,这些方法同样遵循分类网络的串联设计,注意力机制的计算量要求较高。
发明内容
本发明要解决的技术问题是如何在遵循非交互式孪生神经网络和变化检测头范式的基础上,同时考虑遥感图像的特征,通过在特征提取的过程中融合特征的跨时间和跨空间交互提高特征表达能力,并提供一种基于时空交互Transformer模型的遥感图像变化检测方法。本发明通过引入跨时间交互模块和跨空间交互模块,提取、整合每个阶段特征的空间特征和时间特征,同时通过加入频域信息丰富特征表示,实现了线性复杂度、轻量级模型,同时提升了模型的精度和鲁棒性。
本发明所采用的具体技术方案如下:
一种基于时空交互Transformer模型的遥感图像变化检测方法,其具体做法为:将待检测的两个时刻的双时态遥感图像输入到经过训练的时空交互Transformer模型网络中,获得最终的变化检测结果;
所述时空交互Transformer模型网络以时空交互模块作为编码器,以多层感知机构建解码器;
所述时空交互模块包含4个级联的阶段,每个阶段具有相同的网络结构,均由两个补丁嵌入模块、两个跨时间交互模块和跨空间交互模块组成;在时空交互模块中,首先将输入的双时态遥感图像中两张遥感图像作为第一个阶段的输入生成双时态特征,上一个阶段输出的双时态特征作为下一个阶段的输入;在每个阶段中,初始的输入先各自通过一个补丁嵌入模块转换为嵌入式令牌,然后分别馈送到各自的跨空间交互模块提取多尺度特征,每个跨空间交互模块提取到的最深层特征作为编码阶段特征传递到跨时间交互模块中,与另一个跨空间交互模块提取到的最深层特征进行跨时间交互并产生增强时间差异后的增强特征,每个最深层特征对应的增强特征重新返回到产生这个最深层特征的跨空间交互模块中,再经过多级上采样和跳跃连接后恢复空间细节形成输出特征,实现在每个阶段对双时相特征进行跨时间和跨空间交互;两个跨空间交互模块的输出特征作为最终输出的双时态特征;
所述编码器中,四个阶段各自输出的双时态特征输入到多层感知机解码器中进行解码,从四个阶段中的每一个阶段输出的双时态特征分别沿通道维度拼接成一个变化表示,然后通过双线性插值将所有四个变化表示上采样到相同的分辨率并进行通道维度的拼接,对拼接后的变化表示进行1*1卷积后通过上采样恢复至原始遥感图像的尺寸,生成最终的遥感图像变化检测结果。
作为优选,所述跨时间交互模块的输入是两个跨空间交互模块各自提取到的最深层特征,每个最深层特征均与另一个最深层特征采用元素级减法来获得粗略变化表示,然后将每个最深层特征分别与粗略变化表示进行拼接形成拼接特征,接着使用深度可分离卷积和Sigmoid激活函数对每个拼接特征进行处理,获得增强差异权重图,最后将每个输入的最深层特征与对应的增强差异权重图进行加权和,从而得到每个最深层特征对应的增强时间差异后的增强特征。
作为优选,所述跨空间交互模块采用由收缩路径和扩张路径组成的U型网络架构,两条路径中共采用四个基础块进行特征提取;跨空间交互模块的原始输入特征首先输入收缩路径中,经过第一基础块进行特征提取,然后下采样后经过第二基础块进行特征提取,再下采样后作为最深层特征传递到跨时间交互模块中;跨时间交互模块回传的增强特征输入扩张路径中,经过上采样后与第二基础块提取的特征进行跳跃连接,然后输入第三基础块中进行特征提取,再经过上采样后与第一基础块提取的特征进行跳跃连接,继续输入第四基础块中进行特征提取,最终得到双时态特征中的一个时态特征;
所述基础块采用Transformer模型架构,基础块的原始输入特征首先经过正则化函数增加非线性特征,再使用多频混合器丰富特征表示的频域信息得到第一中间特征,然后将第一中间特征与原始输入特征残差连接后输入到带残差连接的正则化处理和通道多层感知机模块中,得到基础块的输出特征。
作为优选,所述的多频混合器的输入是每个基础块中经过正则化处理后的特征图,基于预先选定的多个有效频率对应的基,使用二维离散余弦转换算法对特征图进行编码,得到编码后的频谱;将特征图沿通道维度拆分为多个子特征图,将频谱加权到每个子特征图上并对加权后的所有子特征图重新进行拼接,得到多频混合器的输出。
作为优选,使用二维离散余弦转换算法进行编码时,多个有效频率对应的基需采用频率选择策略提前预选。
作为优选,所述的频率选择策略包括预训练先验策略、随机选择策略和动态规划策略;其中,预训练先验策略是在ImageNet上进行实验,通过一次只选择一个频率来探究频率的重要性,从而选择最重要的多个频率;随机选择策略是根据信号能量倾向于保持低频的信息,随机选择几个频率值进行令牌混合,同时保持最低的频率值;动态规划策略是将频率选择纳入模型训练中,将光谱图送入卷积模块,并使用Sigmoid激活函数获得权重值,从中选取权重值最高的多个频率。
作为优选,所述的频率选择策略采用预训练先验策略。
作为优选,所述解码器中,通过双线性插值将所有四个变化表示上采样到相同的H/2×W/2分辨率,其中H和W分别为原始遥感图像的高度和宽度。
作为优选,所述时空交互Transformer模型网络采用的损失函数为focal损失函数和Dice损失函数加权和。
作为优选,所述遥感图像为空间分辨率在1m以下的高分辨率遥感图像。
本发明相对于现有技术而言,具有以下收益效果:
本发明公开了一种基于时空交互Transformer模型的遥感图像变化检测方法。本发明针对现有遥感图像变化检测方法通常遵循固定范式,缺乏对时间和空间维度特征的考虑,导致时间-空间交互缺陷的问题,设计了一种用于多时相特征提取的时间-空间交互Transformer模型,是第一个专门为遥感图像变化检测任务而设计的通用骨干网络,同时提出了一个无参数的多频令牌混合器,用于集成提供光谱信息的频域特征。本发明不仅利用遥感图像中的光谱信息丰富了图像的频域特征,而且通过时空交互Transformer模型增强了遥感图像变化检测方法的时空交互,从而实现了高效的遥感图像变化检测。本发明结合时间特征和空间特征,为遥感图像变化检测任务提供了一种新的解决方案,实现了遥感图像变化检测领域令人满意的效率和准确性平衡。
附图说明
图1为遥感图像变化检测领域挑战的可视化结果;
图2为STeInFormer模型中编码器部分结构图;
图3为多频混合器结构示意图;
图4为本发明实施例中STeInFormer模型的一种训练和测试流程图;
图5为本发明实施例中的测试可视化结果。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
遥感图像变化检测可以看作是一个二值语义分割问题,它为每个像素分配一个二值标签,表示相应区域中感兴趣的对象是否发生了变化。如图1所示,在实际应用中,由于季节性光照变化、不相关的运动,甚至传感器和成像条件的差异导致的频繁的非感兴趣变化,给遥感图像变化检测带来了重大挑战。此外,在一定的时间跨度内,变化区域的大小可能远小于目标区域的大小,需要丰富的空间细节来检测。相关方法大都遵循非交互式孪生神经网络和变化检测头的范式,但几乎不考虑遥感图像变化检测的特征,可假设在特征提取中融合特征的跨时间和跨空间交互可以提高遥感图像变化检测的性能。遵循这一假设,本发明提出了一种新颖的时空交互Transformer模型(即STeInFormer)的遥感图像变化检测方法。需要说明的是,该网络是第一个完全为遥感图像变化检测设计的架构,其能力已经被广泛的实验验证,可以作为变化检测任务的通用骨干,并且由于结合频域信息而具有线性复杂度,实现轻量级网络构建。
本发明提供的一种基于时空交互Transformer模型的遥感图像变化检测方法,具体为:将时空交互Transformer模型网络STeInFormer经过训练后,可作为变化检测模型,进行检测任务时刻将待变化检测的两张不同时刻的遥感图像输入由跨时空交互模块和跨空间交互模块组成的主干网络作为编码器和多层感知机作为解码器的变化检测模型STeInFormer中,获得变化检测结果。本发明中的图像优选为遥感图像,进一步优选为空间分辨率在1m以下的高分辨率遥感图像。
下面对上述变化检测模型STeInFormer的具体结构和原理进行详细描述。
上述SteInFormer中的主干网络即编码器主要由跨时空交互模块和跨空间交互模块构成,跨时间交互模块采用门控机制,在特征提取中强调兴趣变化的同时抑制非兴趣变化,跨空间交互模块作为基于U型架构的编码阶段,整合语义和细节信息以获得更鲁棒的特征表示。骨干网络工作时,首先,输入的双时相图像通过补丁嵌入模块转换为嵌入式令牌,然后馈送到跨空间交互模块提取多尺度特征,同时,每个跨空间交互模块的最深层特征作为编码阶段特征传递到对应的跨时间交互模块中进行跨时间交互,产生增强时间差异的特征,增强处理后的特征返回到跨空间交互模块,经过多级上采样和跳跃连接后恢复空间细节,在四个尺度上输出双时态特征,实现在每个阶段对双时相特征进行跨时间和跨空间交互。
上述STeInFormer模型的解码器是多层感知机,将不同尺度的双时态特征输入到多层感知机解码器中进行解码,从四个阶段中的每一个阶段输出的双时态特征在开始时串联成一个变化表示,然后通过双线性插值将所有四个变化表示上采样到相同的分辨率并进行级联,对拼接后的变化表示进行卷积和上采样处理,生成最终的遥感图像变化检测结果。
下面对本发明的STeInFormer模型的具体结构进行详细描述。图2是STeInFormer模型的编码器部分结构图,包含4个级联的阶段,每个阶段具有相同的网络结构,即每个阶段均由两个补丁嵌入模块(Patch Embedding,PE)、两个跨时间交互模块(U-Block,四个阶段中的U-Block分别记为U-Block-H4、U-Block-H3、U-Block-H2、U-Block-H1)和跨空间交互模块(CTI)组成。跨空间交互模块用于提取多尺度特征,而跨时间交互模块则用于丰富图像的时间特征,其中,跨空间交互模块还包括了多频混合器,可以丰富图像的频域信息。在时空交互模块中,首先将输入的双时态遥感图像中两张遥感图像作为第一个阶段的输入生成双时态特征(即两个不同时刻的特征图),上一个阶段输出的双时态特征作为下一个阶段的输入,四个阶段输出的双时态特征作为解码器的输入。
具体而言,继续参见图2所示,在每个阶段中,该阶段的初始输入先各自通过一个补丁嵌入模块转换为嵌入式令牌,然后分别馈送到各自的跨空间交互模块提取多尺度特征,每个跨空间交互模块提取到的最深层特征作为编码阶段特征传递到跨时间交互模块中,与另一个跨空间交互模块提取到的最深层特征进行跨时间交互并产生增强时间差异后的增强特征,每个最深层特征对应的增强特征重新返回到产生这个最深层特征的跨空间交互模块中,再经过多级上采样和跳跃连接后恢复空间细节形成输出特征,实现在每个阶段对双时相特征进行跨时间和跨空间交互;两个跨空间交互模块的输出特征作为最终输出的双时态特征。
在本发明的实施例中,若原始双时相图像中的遥感图像维度为H×W×C,则双时相图像首先分别通过补丁嵌入模块转换为嵌入式令牌,然后分别馈送到两个跨空间交互模块提取特征,此时特征尺寸为H/2×W/2×C;跨空间交互模块使用U型架构,通过基础块对特征进行细化再下采样,重复两次,两个跨空间交互模块最深层特征传递到对应阶段的跨时间交互模块中进行跨时间交互,产生增强时间差异的特征,增强处理后的特征返回到跨空间交互模块,经过多个基础块的处理、上采样和跳跃连接后恢复空间细节,传入到下一个阶段的补丁嵌入模块、跨空间交互模块和跨时间交互模块进一步丰富细节,同时特征尺寸逐阶段缩小2倍,因此后面三个阶段对应的馈送到跨空间交互模块的特征尺寸分别为H/4×W/4×2C、H/8×W/8×4C、H/16×W/16×8C。最终在四个尺度上输出双时态特征,实现在每个阶段对双时相特征进行跨时间和跨空间交互。骨干网络的输出作为输入传递到多层感知机的解码器中,从四个阶段中的每一个阶段输出的双时态特征在开始时拼接成一个变化表示,然后通过双线性插值将所有四个变化表示上采样到相同的空间分辨率H/2×W/2并进行拼接,对拼接后的变化表示进行卷积和上采样处理,恢复至H×W×1的维度,生成最终的遥感图像变化检测结果。该变化检测结果中,H×W维度的图像是一张二值化的图,代表了两个时刻的遥感图像中每个像素点是否发生了变化。
本发明中的跨时间交互模块受门控机制的启发,通过学习权重增强特征差异,每个阶段的跨时间交互模块的输入是输入双时相特征经过跨空间交互模块处理的最深层特征,输出是经过增强特征差异权重加强的特征,该模块首先对输入特征采用元素级减法来获得粗略的变化表示,然后,双时相特征别与变化表示特征进行拼接,接着使用深度可分离卷积和Sigmoid激活函数对拼接后的特征进行处理,获得增强差异权重图,最后将增强权重和双时相特征进行加权和,从而得到包含丰富时间信息的特征图。
在本实施例中,跨时间交互模块主要目的是丰富图像的时间特征,实现跨时间信息交互。跨时间交互模块的输入是两个跨空间交互模块各自提取到的最深层特征,每个最深层特征均与另一个最深层特征采用元素级减法来获得粗略变化表示,然后将每个最深层特征分别与粗略变化表示进行拼接形成拼接特征,接着使用深度可分离卷积和Sigmoid激活函数对每个拼接特征进行处理,获得增强差异权重图,最后将每个输入的最深层特征与对应的增强差异权重图进行加权和,从而得到每个最深层特征对应的增强时间差异后的增强特征。
具体而言,继续参见图2所示,跨时间交互模块的具体做法为:首先对输入的跨空间交互模块最深层双时态特征F1和F2采用元素级减法得到粗略的变化特征Rc,然后,将双时态特征F1和F2分别与的变化特征Rc进行级联,并使用深度可分离卷积和Sigmoid激活函数分别对两个级联后的特征进行处理,得到权重图W1和W2最后,我们将F1、F2分别和W1和W2做加权以调整得到时间差异增强过后的增强特征表示。
本发明中的跨空间交互模块受传统U-Net架构的启发,使用U型架构,依赖基础块逐阶段进行特征提取,每个阶段的跨空间交互模块的输入是经过上一级模块处理后的特征表示,输入特征传入到基础块中进行特征提取,遵循Transformer模型,经过正则化函数增加非线性特征,使用多频混合器丰富特征表示的频域信息,然后,特征表示输入到带残差连接的正则化处理和通道多层感知机模块当中,得到基础块处理后的特征表示,遵循U型架构,使用基础块依次对输入特征进行多级特征提取,同时,最深层特征通过门控机制传输到相应的跨时间交互模块进行特征分离,输出的双时态特征返回给跨空间交互模块,对增强过时间差异的特征表示逐级拼接上采样,最终,得到时空信息交互融合后的增强特征表示。
具体而言,参见图2所示,跨空间交互模块采用由收缩路径和扩张路径组成的U型网络架构,两条路径中共采用四个基础块(Base Block,简称B)进行特征提取。跨空间交互模块的原始输入特征首先输入收缩路径中,经过第一基础块进行特征提取,然后下采样后经过第二基础块进行特征提取,再下采样后作为最深层特征传递到跨时间交互模块中;跨时间交互模块回传的增强特征输入扩张路径中,经过上采样后与第二基础块提取的特征进行跳跃连接,然后输入第三基础块中进行特征提取,再经过上采样后与第一基础块提取的特征进行跳跃连接,继续输入第四基础块中进行特征提取,最终得到双时态特征中的一个时态特征;
继续参见图2所示,上述基础块采用Transformer模型架构,基础块的原始输入特征首先经过正则化函数归一化增加非线性特征,再使用多频混合器丰富特征表示的频域信息得到第一中间特征,然后将第一中间特征与原始输入特征残差连接后输入到带残差连接的正则化处理和通道多层感知机模块中,得到基础块的输出特征。
跨空间交互模块主要用于丰富图像的空间特征,实现跨空间信息交互。而本实施例中使用多频混合器目的在于加入可以丰富特征表示的频域信息。多频混合器将空间域中的有效频率信息引入到多头注意力混合器中,多频混合器的输入是每个基础块中经过正则化处理后的特征表示,该混合器使用二维离散余弦变换编码获得输入特征的每个频率的模式特征,选取其中多个有效频率的基进行计算以提高批次处理的效率,使用投影和分离操作对输入特征进行加权求和得到相应频率的模式特征,对所有的模式特征进行拼接投影得到最终的多频混合器的输出。
如图3所示,多频混合器的输入是每个基础块中经过正则化处理后的特征图,多频混合器可基于预先选定的多个有效频率对应的基,使用二维离散余弦转换算法(2D DCT)对特征图进行编码,得到编码后的频谱;将特征图沿通道维度拆分为多个子特征图,将频谱加权到每个子特征图上并对加权后的所有子特征图重新进行拼接,得到多频混合器的输出。在本发明的实施例中,多频混合器中的具体做法为:首先对输入该混合器的特征图Rp,将Rp沿通道维度拆分为M+1个子特征图A0,A1,…,AM;对每个子特征图Am对应预选一个基(DCTbase),这些基可以用于计算2D DCT编码后的频谱fh,w,将频谱fh,w加权到每个子特征图上并对加权后的所有子特征图重新按拆分顺序进行拼接,得到输出特征图Rf
需要说明的是,二维离散余弦编码算法属于现有技术,其中二维离散余弦编码算法中的基表示为其中,于是可以得到二维离散余弦转换公式/>其中Ax,y表示输入图像,其维度为H×W,fh,w表示二维离散余弦编码后的频谱。在采用该算法之前,需要使用频率预选策略对不同频率的基/>进行筛选,获得最重要的若干个有效频率对应的基,从而用于计算加权所需的频谱。
需要说明的是,上述变化检测模型选取有效频率对应的基时,频率选择策略可采用预训练先验策略、随机选择策略和动态规划策略。其中,预训练先验策略是在ImageNet上进行实验,通过一次只选择一个频率来探究频率的重要性,从而选择最重要的多个频率;随机选择策略是根据信号能量倾向于保持低频的信息,随机选择几个频率值进行令牌混合,同时保持最低的频率值;动态规划策略是将频率选择纳入模型训练中,将光谱图送入卷积模块,并使用Sigmoid激活函数获得权重值,从中选取权重值最高的多个频率。有效频率对应的基数量为M+1,具体的取值可根据实际的数据通过试验进行优化。在本发明的实施例中,根据实验结果所述频率选择策略采用预训练先验策略。
为了扩大训练样本,训练数据可进行数据增强。模型采用的损失函数是焦点损失函数和Dice损失函数相结合的混合损失函数L=Lfocal+Ldice,具体计算过程不再赘述。点损失函数和Dice损失函数各自均属于现有技术,其中焦点损失函数其中,α和γ分别为控制正负样本权重和方法对检测困难样本关注度的两个超参数,p为概率,y为不变和变化对应的像素二值标签(0或1),而Dice损失函数/>E′={e′k},k∈[1,H×W],其中,E表示地面真值,E′的维度为H×W×2表示变化图,e′k表示E′中的一个二维像素。
下面将上述基于时空交互Transformer模型的遥感图像变化检测方法应用于一个具体实施例中,以展示其所能实现的技术效果。
实施例
本实施例中采用的变化检测模型的网络结构如前文所述,不再赘述。如图4所示,对遥感图像进行变化检测的总体流程可以分为数据预处理、模型训练、图像预测三个阶段。
1、数据预处理阶段
对于获得的原始遥感图像(本实施例以WHU-CD数据集为例),进行图片预处理,进行随机旋转和翻转等操作进行数据增强。
2、模型训练
步骤1,构建训练集数据,并将训练数据集按照固定的批量大小进行分批,总数为N。
步骤2,从训练数据集中顺序选取索引为i的一批训练样本,其中i∈{0,1,...,N}。利用每一个批次的训练样本对变化检测模型(即前述的时空交互Transformer模型STeInFormer)进行训练。训练过程中,计算每一个训练样本的焦点损失函数和Dice损失函数相加形成的混合损失函数Lb,并根据批中的所有训练样本损失Lb计算总损失L,从而根据总损失对整个STeInFormer模型中的网络参数进行调整,直到训练数据集的所有批次都参与了模型训练。达到指定迭代次数后,模型收敛,训练完毕,最终的SteInFormer模型作为测试或者应用时的变化检测模型。
3、图像预测
将测试集的图像直接作为输入通过训练好的变化检测模型中,最终预测得到拥有每个变化像素类的概率向量,通过sigmoid等激活函数选择概率最大的类作为变化分类输出,从而实现变化检测。
本实施例中,测试可视化结果如图5所示,测试数据化结果如表1所示:
表1测试数据化结果
Dataset F1 Pre. Rec. IoU OA
WHU-CD 89.61 91.01 88.26 79.87 98.68
由图5和表1可见,本发明的变化检测模型针对遥感图像能够很好地处理出变化检测结果,依赖于时空交互模块,充分考虑了遥感图像时间和空间维度的特征,解决了时间-空间交互缺陷的问题,同时设计了一个无参数的多频令牌混合气,丰富了图像的频域特征,实现了高效的变化检测,为遥感图像变化检测任务提供了一种高效的通用骨干网络设计方案。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于:将待检测的两个时刻的双时态遥感图像输入到经过训练的时空交互Transformer模型网络中,获得最终的变化检测结果;
所述时空交互Transformer模型网络以时空交互模块作为编码器,以多层感知机构建解码器;
所述时空交互模块包含4个级联的阶段,每个阶段具有相同的网络结构,均由两个补丁嵌入模块、两个跨时间交互模块和跨空间交互模块组成;在时空交互模块中,首先将输入的双时态遥感图像中两张遥感图像作为第一个阶段的输入生成双时态特征,上一个阶段输出的双时态特征作为下一个阶段的输入;在每个阶段中,初始的输入先各自通过一个补丁嵌入模块转换为嵌入式令牌,然后分别馈送到各自的跨空间交互模块提取多尺度特征,每个跨空间交互模块提取到的最深层特征作为编码阶段特征传递到跨时间交互模块中,与另一个跨空间交互模块提取到的最深层特征进行跨时间交互并产生增强时间差异后的增强特征,每个最深层特征对应的增强特征重新返回到产生这个最深层特征的跨空间交互模块中,再经过多级上采样和跳跃连接后恢复空间细节形成输出特征,实现在每个阶段对双时相特征进行跨时间和跨空间交互;两个跨空间交互模块的输出特征作为最终输出的双时态特征;
所述编码器中,四个阶段各自输出的双时态特征输入到多层感知机解码器中进行解码,从四个阶段中的每一个阶段输出的双时态特征分别沿通道维度拼接成一个变化表示,然后通过双线性插值将所有四个变化表示上采样到相同的分辨率并进行通道维度的拼接,对拼接后的变化表示进行1*1卷积后通过上采样恢复至原始遥感图像的尺寸,生成最终的遥感图像变化检测结果。
2.如权利要求1所述的基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于,所述跨时间交互模块的输入是两个跨空间交互模块各自提取到的最深层特征,每个最深层特征均与另一个最深层特征采用元素级减法来获得粗略变化表示,然后将每个最深层特征分别与粗略变化表示进行拼接形成拼接特征,接着使用深度可分离卷积和Sigmoid激活函数对每个拼接特征进行处理,获得增强差异权重图,最后将每个输入的最深层特征与对应的增强差异权重图进行加权和,从而得到每个最深层特征对应的增强时间差异后的增强特征。
3.如权利要求1所述的基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于,所述跨空间交互模块采用由收缩路径和扩张路径组成的U型网络架构,两条路径中共采用四个基础块进行特征提取;跨空间交互模块的原始输入特征首先输入收缩路径中,经过第一基础块进行特征提取,然后下采样后经过第二基础块进行特征提取,再下采样后作为最深层特征传递到跨时间交互模块中;跨时间交互模块回传的增强特征输入扩张路径中,经过上采样后与第二基础块提取的特征进行跳跃连接,然后输入第三基础块中进行特征提取,再经过上采样后与第一基础块提取的特征进行跳跃连接,继续输入第四基础块中进行特征提取,最终得到双时态特征中的一个时态特征;
所述基础块采用Transformer模型架构,基础块的原始输入特征首先经过正则化函数增加非线性特征,再使用多频混合器丰富特征表示的频域信息得到第一中间特征,然后将第一中间特征与原始输入特征残差连接后输入到带残差连接的正则化处理和通道多层感知机模块中,得到基础块的输出特征。
4.如权利要求3所述的基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于,所述的多频混合器的输入是每个基础块中经过正则化处理后的特征图,基于预先选定的多个有效频率对应的基,使用二维离散余弦转换算法对特征图进行编码,得到编码后的频谱;将特征图沿通道维度拆分为多个子特征图,将频谱加权到每个子特征图上并对加权后的所有子特征图重新进行拼接,得到多频混合器的输出。
5.如权利要求4所述的基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于,使用二维离散余弦转换算法进行编码时,多个有效频率对应的基需采用频率选择策略提前预选。
6.如权利要求5所述的基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于,所述的频率选择策略包括预训练先验策略、随机选择策略和动态规划策略;其中,预训练先验策略是在ImageNet上进行实验,通过一次只选择一个频率来探究频率的重要性,从而选择最重要的多个频率;随机选择策略是根据信号能量倾向于保持低频的信息,随机选择几个频率值进行令牌混合,同时保持最低的频率值;动态规划策略是将频率选择纳入模型训练中,将光谱图送入卷积模块,并使用Sigmoid激活函数获得权重值,从中选取权重值最高的多个频率。
7.如权利要求6所述的基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于,所述的频率选择策略采用预训练先验策略。
8.如权利要求1所述的基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于,所述解码器中,通过双线性插值将所有四个变化表示上采样到相同的H/2×W/2分辨率,其中H和W分别为原始遥感图像的高度和宽度。
9.如权利要求1所述的基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于,所述时空交互Transformer模型网络采用的损失函数为focal损失函数和Dice损失函数加权和。
10.如权利要求1所述的基于时空交互Transformer模型的遥感图像变化检测方法,其特征在于,所述遥感图像为空间分辨率在1m以下的高分辨率遥感图像。
CN202310933742.9A 2023-07-27 2023-07-27 一种基于时空交互Transformer模型的遥感图像变化检测方法 Pending CN117095287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310933742.9A CN117095287A (zh) 2023-07-27 2023-07-27 一种基于时空交互Transformer模型的遥感图像变化检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310933742.9A CN117095287A (zh) 2023-07-27 2023-07-27 一种基于时空交互Transformer模型的遥感图像变化检测方法

Publications (1)

Publication Number Publication Date
CN117095287A true CN117095287A (zh) 2023-11-21

Family

ID=88782758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310933742.9A Pending CN117095287A (zh) 2023-07-27 2023-07-27 一种基于时空交互Transformer模型的遥感图像变化检测方法

Country Status (1)

Country Link
CN (1) CN117095287A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636057A (zh) * 2023-12-13 2024-03-01 石家庄铁道大学 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法
CN117709580A (zh) * 2023-11-29 2024-03-15 广西科学院 一种基于setr与地理网格的海洋承灾体脆弱性评价方法
CN117876879A (zh) * 2024-03-11 2024-04-12 四川农业大学 一种基于空域与频域特征融合的猕猴桃花朵识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709580A (zh) * 2023-11-29 2024-03-15 广西科学院 一种基于setr与地理网格的海洋承灾体脆弱性评价方法
CN117636057A (zh) * 2023-12-13 2024-03-01 石家庄铁道大学 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法
CN117636057B (zh) * 2023-12-13 2024-06-11 石家庄铁道大学 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法
CN117876879A (zh) * 2024-03-11 2024-04-12 四川农业大学 一种基于空域与频域特征融合的猕猴桃花朵识别方法
CN117876879B (zh) * 2024-03-11 2024-05-07 四川农业大学 一种基于空域与频域特征融合的猕猴桃花朵识别方法

Similar Documents

Publication Publication Date Title
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN111047516B (zh) 图像处理方法、装置、计算机设备和存储介质
CN117095287A (zh) 一种基于时空交互Transformer模型的遥感图像变化检测方法
Liu et al. A super resolution algorithm based on attention mechanism and srgan network
CN116343052B (zh) 一种基于注意力和多尺度的双时相遥感图像变化检测网络
CN113361546A (zh) 融合非对称卷积和注意力机制的遥感图像特征提取方法
CN116580241B (zh) 基于双分支多尺度语义分割网络的图像处理方法及系统
Zhu et al. ECFNet: A Siamese network with fewer FPs and fewer FNs for change detection of remote-sensing images
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN114092824A (zh) 结合密集注意力和并行上采样的遥感图像道路分割方法
CN117975284A (zh) 一种集成Swin transformer和CNN网络的云层检测方法
Zhang et al. CDMamba: Remote Sensing Image Change Detection with Mamba
Liu et al. Diverse hyperspectral remote sensing image synthesis with diffusion models
Wang et al. An efficient parallel fusion structure of distilled and transformer-enhanced modules for lightweight image super-resolution
Li et al. Image reflection removal using end‐to‐end convolutional neural network
Xiong et al. An efficient multi-scale contextual feature fusion network for counting crowds with varying densities and scales
CN117876679A (zh) 一种基于卷积神经网络的遥感图像场景分割方法
CN117522674A (zh) 一种联合局部和全局信息的图像重建系统及方法
Zheng et al. Transformer-based hierarchical dynamic decoders for salient object detection
CN116912268A (zh) 一种皮肤病变图像分割方法、装置、设备及存储介质
Jia et al. Learning rich information for quad bayer remosaicing and denoising
Li et al. LCDNet: Lightweight Change Detection Network with Dual Attention Guidance and Multiscale Feature Fusion for Remote Sensing Images
CN115375537A (zh) 非线性感知多尺度的超分辨率图像生成系统及方法
Li et al. Refined division features based on Transformer for semantic image segmentation
Wang et al. SEFANet: Semantic Enhanced with Feature Alignment network for semantic segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination