CN116778238A - 一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法 - Google Patents

一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法 Download PDF

Info

Publication number
CN116778238A
CN116778238A CN202310705983.8A CN202310705983A CN116778238A CN 116778238 A CN116778238 A CN 116778238A CN 202310705983 A CN202310705983 A CN 202310705983A CN 116778238 A CN116778238 A CN 116778238A
Authority
CN
China
Prior art keywords
attention
branch
network
module
remote sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310705983.8A
Other languages
English (en)
Inventor
雷涛
许叶彤
王营博
林少雄
闵重丹
何熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi University of Science and Technology
Original Assignee
Shaanxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi University of Science and Technology filed Critical Shaanxi University of Science and Technology
Priority to CN202310705983.8A priority Critical patent/CN116778238A/zh
Publication of CN116778238A publication Critical patent/CN116778238A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法,能够在较低计算成本下有效地提高VHR遥感图像的变化检测精度,获得更完整准确的变化检测结果。网络包括跨维度交互注意力模块、结构感知增强模块和注意力融合模块,跨维度交互注意力模块分为三个跨维度交互分支,实现跨通道和空间的交互以及信息整合,获取全局依赖关系,提升全局信息提取能力,有效降低网络的计算复杂度;结构感知增强模块包括差分细化分支和细节聚合分支,增强遥感图像的差分特征和边缘细节信息,通过双分支实现双时相遥感图像的双重增强,获得细粒度特征;注意力融合模块更好地融合双时相特征,降低特征通道数,减少计算负担。

Description

一种基于轻量型结构感知Transformer网络及VHR遥感图像变 化检测方法
技术领域
本发明属于图像处理及模式识别技术领域,涉及深度学习以及遥感图像解译技术领域,具体涉及一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法。
背景技术
遥感对地观测系统是我国持续建设的系列重大科学工程之一,所获得的海量数据是国家的重要战略资源。随着遥感成像技术的快速发展,多个卫星传感器和无人机成像的出现,使研究人员可以获得更丰富的多时相遥感影像资源,但同时也使得遥感影像变化检测面临更多的问题和挑战。如何在庞大、复杂的遥感影像数据中实现快速、准确的变化检测变得更加困难。遥感影像变化检测的目的是获取同一区域不同时段影像中的变化信息,传统的变化检测方法主要依靠人工设计的特征提取算法,过程耗时耗力且精度不高。近年来,深度学习的快速发展为变化检测技术注入新的活力。深度学习方法使用大量数据训练神经网络模型,使模型学习并自动提取数据中的显著特征,这种方法很适用于具有海量数据的遥感影像变化检测任务。
基于获取到的海量多时相遥感影像数据,结合深度学习、计算机视觉、图像处理等技术开展遥感影像变化检测,能够有效提取地表的变化信息,并定量分析和确定变化的特征与过程。遥感影像变化检测可以满足土地利用制图、城市扩张监测、环境监测和灾害评估等众多领域的实际应用需求,是遥感领域重要的科研方向和热点之一。
近年来,以卷积神经网络(Convolutional Neural Networks,CNNs)为主的深度学习技术在变化检测任务中表现出良好的性能。鉴于变化检测任务涉及双时相遥感影像,Zhang等人首次将具有双分支的孪生卷积网络(Siamese-Net)引入到变化检测任务中。在此基础上,Daudt等人将孪生的全卷积网络(Fully Convolutional Network,FCN)应用于端到端的遥感影像变化检测任务中,并提出了三种变化检测的网络架构,这进一步奠定了后续变化检测的主流框架。由于高分辨率光学遥感图像场景的复杂性以及对光和环境变化的敏感性,STA-Net在Siamese网络中引入了多尺度时空注意力机制,并获得了令人满意的结果。事实上,虽然上述基于卷积神经网络的方法在变化检测任务中都取得了一定效果,但这些方法仍然无法建模双时相图像中的全局信息,很大程度上限制了这些方法的性能。
在高分辨率遥感图像变化检测中,空间和时间范围内的上下文建模对于提取变化信息至关重要。近年来,人们对于变化检测任务的研究主要致力于通过增大模型的感受野实现时空上下文信息的有效提取。目前主流的方法是堆叠卷积层、空洞卷积和注意机制,这些方法虽然在一定程度上获得了更大范围的细节信息,但仍难以获得远距离的全局依赖关系。为了解决上述问题,研究人员将自然语言处理领域的Transformer模型进行改进并应用到计算机视觉任务中,并且取得了优异的性能。
为了更好地挖掘双时相遥感图像中的全局信息,视觉Transformer(ViT)已成功应用于遥感图像分析,并在高分辨遥感图像变化检测任务中表现出优异的性能。Chen等人提出了一个双时图像Transformer(BIT)方法来建模双时相图像中的远程上下文信息。不同于传统的ViT模型,该方法使用ResNet18和Transformer串行结合的编码器,且未在像素空间进行密集的全局关系建模,而是用语义标记来表示输入图像特征,因此它的参数更少,计算成本更低。虽然BIT对VHR遥感图像的变化检测效果很好,但由于在其编码器中使用了ConvNets,它并不是一个纯粹的Transformer网络。为了解决这个问题,ChangeFormer舍弃了BIT的ConvNets编码器,只使用Transformer编码器和轻量级MLP解码器,提供了比BIT更好的变化检测结果。与上述工作不同的是,SwinSUNet提出了一种孪生U型结构的纯SwinTransformer网络,对于VHR遥感图像变化检测也取得了很好的效果。上述方法在变化检测任务中表现良好,但仍面临两大挑战。首先,大多数基于Transformer的遥感变化检测方法的计算复杂度随着图像空间分辨率的增加呈二次增长,使得训练用于VHR遥感图像变化检测的Transformer网络变得困难。其次,现有的基于Transformer的变化检测方法(如BIT和ChangeFormer)忽略了细粒度信息的重要性,导致对大变化目标的边缘完整性和内部紧密性不够理想,对小的变化目标存在漏检问题。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法,能够在较低计算成本的情况下有效地提高了VHR遥感图像的变化检测精度,获得了更完整、更准确的变化检测结果。
为了实现以上目的,本发明提供了一种基于轻量型结构感知Transformer网络,包括:
跨维度交互注意力模块,引入深度可分离卷积来生成Query、Key和Value,并进行跨通道编码,使用Q和KT点积生成大小为RC×C的全局注意力图,同时并行加入通道与高度以及通道与宽度的双分支交互注意力;
结构感知增强模块,包括差分细化分支和细节聚合分支,差分细化分支通过卷积运算对双时相特征进行增强,再利用轻量级3D注意力SimAM生成细粒度的特征,改进检测结果的轮廓;细节聚合分支包括两路分支,首先其中一路分支是通过将卷积特征相加来增强细节信息,然后另一路分支是将卷积特征连接起来,利用注意力提取细节信息,最后降维后使用注意力来聚合两路细节信息;
以及注意力融合模块,首先利用SimAM注意力自适应地融合双分支深层特征,从而获得更精细的特征;然后使用1×1卷积进行多通道降维;最后使用轻量化的Transformer块进一步整合。
进一步地,所述跨维度交互注意力模块的通道与通道维度交互的注意力分支A1表示为:
其中,α是一个可学习的缩放参数,用于控制Q、K的点积大小;Softmax为激活函数。
进一步地,所述跨维度交互注意力模块的通道与高度维度交互注意力分支A2和通道与宽度维度交互注意力分支A3,具体使用卷积来实现张量中两个维度的交互,计算如下:
A2(C,H)=Sigmoid(Conv(P(xp1)))xp1
A3(C,W)=Sigmoid(Conv(P(xp2)))xp2
其中,xp1是进行维度变换后的张量xp1∈RW×C×H,同理xp2∈RH×C×W;P为最大池化和平均池化操作;Sigmoid为激活函数。
进一步地,所述跨维度交互注意力模块的最终的注意力为三个跨维度交互注意力的结合,A1分支中的跨通道自注意力交互生成大小为RC×C的转置注意力图,分支A2和A3进行卷积运算:
A=λ1A12A23A3
其中,λ1、λ2和λ3为可学习的参数,根据网络训练过程自主优化学习。
进一步地,所述差分细化分支的运算过程表示为:
fdiff=Ma|Ma(C3(f1_i))-Ma(C3(f2_i))|
其中,f1_i和f2_i分别为各层编码器的双时相输出特征,C3为3×3卷积操作,Ma为轻量化注意力机制,|Ma(C3(f1_i))-Ma(C3(f2_i))|为绝对值运算。
进一步地,所述细节聚合分支的运算过程表示为:
fa2=Ma[C3(f1_i);C3(f2_i)]
其中,C1为1×1卷积操作,[;]为拼接操作,为逐元素相加。
进一步地,所述结构感知增强模块的最终的聚合特征包含了双时相图像的细节边缘信息,最终的输出结果为:
进一步地,所述注意力融合模块的计算过程表示为:
fa=Ma(cat(f1_3,f2_3))
Mfusion=T[Conv(fa)]
其中,f1_和f2_分别为双路编码器输出结果,T[]为轻量Transformer块。
进一步地,所述网络采用二元交叉熵损失与Dice损失相结合的总损失,定义为:
LBCE=-yilog(pi)+(1-yi)log(1-pi)
LDice=1-(2yipi)/(yi+pi)
L=LBCE+LDice
其中,yi表示像素i的标签值,Pi表示像素i未改变的概率。
本发明还提供了一种VHR遥感图像变化检测方法,采用上述的基于轻量型结构感知Transformer网络,包括:
1)获取VHR遥感图像数据并进行预处理及扩充;
2)配置网络模型训练过程中使用的参数,使用网络模型进行训练,首先输入双时相图像使用轻量型的权重共享编码器获得编码结果,跨维度交互自注意力模块提取双时相图像的分层语义特征,结构感知增强模块增强细节和变化信息;然后注意力融合模块生成细粒度的变化图,将细粒度差异特征和双时相语义特征集成到解码器中,使用单分支的解码器将编码特征映射回原始特征空间;最后,使用预测头将解码结果输出为二分类的变化结果图,训练结束后使用最优的训练权重进行测试,获得最终的变化检测结果。
与现有技术相比,本发明提出具有线性复杂度的跨维度交互自注意力(CISA)模块来实现轻量级Transformer变化检测网络,克服了传统的VHR遥感变化检测中Transformer计算复杂度成二次方增长的问题。CISA不仅有效地降低了网络的计算复杂度,而且提升了VHR遥感图像变化检测精度。双重结构感知增强模块(SAEM),用于学习变化检测中易被忽略的细粒度特征。与变化检测方法中常规的单分支差分增强方法不同,SAEM通过双分支结构校准差分和细节特征来实现双重增强,大大改善了大区域变化对象的内部紧密性,可以获得更精细的变化目标轮廓。本发明基于CISA和SAEM的高效轻量级结构感知Transformer(LSAT)网络,在不引入额外的计算成本和存储空间的情况下学习更丰富的上下文语义信息,更加精确地定位变化目标,获得更完整的变化检测对象,在多个大型公开的数据集上进行的大量实验表明,所提出的LSAT网络在检测精度和计算成本方面优于当前主流的变化检测方法,具有广阔的应用前景。
附图说明
图1是本发明的方法流程图;
图2是本发明的网络框架图;
图3是本发明的跨维度交互自注意力模块(CISA)结构图;
图4是本发明的双重结构感知增强模块(SAEM)的结构图;
图5是本发明方法在三个大型VHR遥感变化检测数据集不同变化情况下的可视化检测结果图。
具体实施方式
下面结合说明书附图和具体的实施例对本发明作进一步地解释说明,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明提供了一种基于轻量型结构感知Transformer网络(LSAT)及VHR遥感图像变化检测方法,以解决由于超高分辨的光学遥感图像场景复杂且不同成像条件带来的差异使得现有的变化检测方法不能准确检测变化目标,然而现有的变化检测方法为了更精准的定位变化对象引入大量注意力同时带来了高额的计算复杂度;此外多数变化检测方法侧重于提取变化的语义特征,忽略细粒度特征导致大区域变化对象的边缘完整性和内部紧密性较差,小区域变化对象丢失的问题。本发明旨在获得更好的变化检测结果,与现有的变化检测方法相比,本发明侧重于在不引入额外的计算成本和存储空间的情况下学习更丰富的上下文语义信息,更加精确地定位变化目标,获得更完整的变化检测对象,具有广阔的应用前景。
具体参见图2,本发明的LSAT网络是一个U形结构,由双支路权重共享编码器和单支路解码器组成。包括跨维度交互注意力模块(Cross-dimensional Interactive Self-attention,CISA)、结构感知增强模块(Structure-aware Enhancement Module,SAEM)以及注意力融合模块(AFM);跨维度交互注意力模块引入深度可分离卷积来生成Query、Key和Value,并进行跨通道编码,使用Q和KT点积生成大小为RC×C的全局注意力图,同时并行加入通道与高度以及通道与宽度的双分支交互注意力。结构感知增强模块包括差分细化分支和细节聚合分支,差分细化分支通过卷积运算对双时相特征进行增强,再利用轻量级3D注意力SimAM生成细粒度的特征,改进检测结果的轮廓;细节聚合分支包括两路分支,首先其中一路分支是通过将卷积特征相加来增强细节信息,然后另一路分支是将卷积特征连接起来,利用注意力提取细节信息,最后降维后使用注意力来聚合两路细节信息。注意力融合模块首先利用SimAM注意力自适应地融合双分支深层特征,从而获得更精细的特征;然后使用1×1卷积进行多通道降维;最后使用轻量化的Transformer块进一步整合。
本发明通过具有线性复杂度的跨维度交互注意力模块(CISA)来实现轻量级Transformer网络。为了将每层双支路的细节变化信息集成到相应的解码层,本发明在编码器和解码器之间提出了结构感知增强模块(SAEM)。SAEM用于学习细粒度特征,并改善大区域变化对象的内部紧密性。与常规的单支路差分增强方法不同,SAEM通过双支路结构校准差分和细节特征来实现双重增强。此外,在编码层之后增加了基于注意力的融合模块(AFM),有效地融合了双时态深度语义特征。
本发明网络首先使用PVT-v2获取变化前和变化后的双时相图像全局信息;然后,输入到权重共享编码器中,编码器由提出的轻量化的Transformer块构成,每个阶段的编码特征输入SAEM模块以强调变化的差异细节特征,AFM模块引入轻量的注意力SimAM来融合深层特征,用于生成更细致的解码变化图;最后,通过解码器生成解码特征,使用预测分类将得到的变化结果输出为二分类的变化图。本发明解决了现有遥感变化检测方法计算复杂度高且忽略细粒度特征导致大区域变化对象的边缘完整性和内部紧密性较差,小区域变化对象丢失等问题,能够以较小的计算量和存储量获得了更完整更准确的VHR遥感图像变化检测目标,具有非常重要的研究意义和应用价值。
具体参见图1,本发明的方法流程包括:
(1)获取VHR遥感图像并预处理及扩容:首先,根据大型公共数据集的图像数量将数据集划分为训练集、验证集、测试集,并将原始VHR遥感图像随机裁剪为256×256的图像对。其次,为了保证数据的多样性防止过拟合,进行了必要的数据增强操作以增强模型的泛化能力,包括随机角度旋转和随机翻转等。
(2)首先,配置网络模型训练过程中使用的参数;然后,使用本发明提出的轻量化结构感知Transformer模型进行训练。在训练过程中:首先,输入双时相图像使用轻量型的权值共享的编码器获得编码结果,同时使用SAEM增强模块增强细节和变化信息;然后,使用单分支的解码器将编码特征映射回原始特征空间;最后,使用预测头将解码结果输出为二分类的变化结果图。
(3)训练结束后使用最优的训练权重进行测试,获得最终的变化检测结果。
下面以具体实施例对本发明进行进一步地详细说明,参见图1,具体包括以下内容:
(1)VHR光学遥感图像的预处理以及数据增强:本发明使用三个大型公共VHR遥感变化检测数据集:LEVIR-CD、CDD和DSIFN-CD。
LEVIR-CD数据集包含637个分辨率为0.5m的VHR Google Earth图像对,每个图像大小为1024×1024。为防止过拟合,本发明进行了随机旋转和随机裁剪等数据增强操作,将图像随机裁剪为256×256大小的图像对。最终在实验中使用10000对作为训练集,1024对作为验证集,2048对作为测试集。
CDD数据集为Google Earth获取的同一区域具有季节变化的遥感影像,通过随机裁剪和数据增强,总共获得了16000对大小为256×256的图像对,其中10000对作为训练集,3000对作为验证集,其余3000对作为测试集。
DSIFN-CD数据集是从Google Earth收集的公共变化检测数据集。它由中国不同城市的六张高分辨率图像组成,提供了48个裁剪为512×512大小的西安图像对用于模型测试。其他五个城市图像被裁剪成3940个相同大小的图像块,用于训练和验证。3600对图像用于训练,340对图像用于验证,48对图像用于测试。
(2)本发明提出的轻量型结构感知变化检测方法的编解码过程:本发明提出的LSAT框架包括三个主要模块,如图2所示。首先,采用CISA模块的编码器主要提取双时相VHR遥感图像的分层语义特征,采用SAEM模块增强双时相遥感图像的细粒度差异特征。其次,主要利用基于注意力的融合模块AFM生成细粒度的变化图。最后,将细粒度差异特征和双时相语义特征集成到解码器中,输出VHR遥感图像中的变化目标。首先使用PVTv2获取变化前和变化后的双时图像全局信息,然后输入到权重共享编码器中,编码器由提出的轻量化的Transformer块构成。每个阶段的编码特征输入SAEM模块以强调变化的差异细节特征。AFM模块引入轻量的注意力来融合深层支特征,用于生成更细致的解码变化图。最后,通过解码器生成解码特征,使用预测分类将得到的变化结果输出为二分类的变化图。
(a)构建跨维度交互注意力模块
传统Transformer的自注意力(Self-Attention,SA)在空间内编码全局信息,从而获得大小为RHW×HW的常规注意力。对于分辨率为W×H的遥感图像,传统的SA计算复杂度为O((WH)2),对于VHR遥感变化检测任务,呈二次方增长的复杂度极大程度上增加了网络的训练难度。为解决该问题,本发明设计了具有线性复杂度的跨维度交互自注意力模块(CISA),从而形成轻量级的Transformer模块,如图3所示,共分为三个分支的通道交互注意力,第一路为Channel-Channel注意力分支,第二路是Channel-Height的交互注意力分支,第三路是Channel-Width交互注意力分支。首先,执行跨通道编码以生成通道与通道注意力映射;其次,进行跨维度编码,加入通道与高度,通道与宽度的双分支交互注意力。添加交互注意力的目的是实现跨通道和空间的交互以及信息整合,从而获取全局依赖关系,提升模型的全局信息提取能力。
首先,与传统SA使用线性映射来生成Q、K和V不同,本发明设计的CISA引入深度可分离卷积来生成Q、K和V,不仅能加强局部上下文的联系,还增加了空间位置信息。其次,进行跨通道编码,使用Q,KT点积生成大小为RC×C的全局注意力图。同时并行加入通道与高度,通道与宽度的双分支交互注意力,以增强通道与空间维度之间的跨维度交互,从而获取全局依赖关系,提升模型的全局信息提取能力。三种注意力分别可以表示为:
A2(C,H)=Sigmoid(Conv(P(xp1)))xp1
A3(C,W)=Sigmoid(Conv(P(xp2)))xp2
其中α是一个可学习的缩放参数,用于控制Q、K的点积大小,xp1是进行维度变换后的张量xp1∈RW×C×H,同理xp2∈RH×C×W,P为最大池化和平均池化操作,Softmax和Sigmoid为激活函数。最终的注意力为三个注意力的结合。注意力模块的具体计算如下:
A=λ1A12A23A3
其中λ1,λ2,λ3为可学习的参数,根据网络训练过程自主优化学习。
在CISA中,A1分支中的跨通道自注意力交互生成大小为RC×C的转置注意力图,而不是大小为RHW×HW的常规注意力图。另外两个分支主要是卷积运算,计算复杂度较低。因此,CISA的计算复杂度为O(C2+CH+CW),远小于传统的二次元复杂度O((WH)2)。
(b)构建结构感知增强模块
现有的遥感变化检测网络往往忽略了细粒度特征的重要性,导致大尺度变化目标的边缘完整性较差,小尺度变化目标被漏检。为了解决这一问题,通常使用差分图像(Difference Image,DI)来增强变化对象的细节。然而,单分支差分增强方法通常对双时相图像进行减法操作或采用注意力机制来改进双时相图像的特征提取,由于单分支增强的特征表达能力有限,且注意力的计算成本较高,这种增强方法不是最优的。因此,本发明提出了一个轻量级的结构感知增强模块(SAEM)来全面学习遥感图像的差异信息。与单分支差分增强方法不同,SAEM通过双分支学习细粒度特征来实现双增强。如图4所示,f1_i,f2_i为编码器各层双时相输出特征。fdiff是不同细节分支的增强特征,faggr是细节聚合分支的增强特征。SAEM由两个分支组成:差分细化分支和细节聚合分支。在差分细化分支中,通过卷积运算对双时相特征进行进一步增强,然后利用轻量级3D注意力SimAM生成更细粒度的特征,改进检测结果的轮廓,经过双重增强后的聚合特征包含了双时相图像丰富的细节边缘信息,这种双分支结构感知增强模块可以减少由噪声和错位引起的错误变化,从而获得更精细的变化特征,提升模型的鲁棒性。这个过程可以表示为:
fdiff=Ma|Ma(C3(f1_i))-Ma(C3(f2_i))|
其中f1_i,f2_i分别为各层编码器的双时相输出特征,C3为3×3卷积操作,Ma为轻量化注意力机制,|Ma(C3(f1_i))-Ma(C3(f2_i))|为绝对值运算。
细节聚合分支被细分为两个分支,一个是通过将卷积特征相加来增强细节信息;另一个是将卷积特征连接起来,然后利用注意力提取更丰富的细节信息;最后,降维后使用注意力来聚合两路细节信息。聚合分支的计算可表示为:
fa2=Ma[C3(f1_i);C3(f2_i)]
C1为1×1卷积操作,[;]为拼接操作,为逐元素相加。
最终的聚合特征包含了双时相图像丰富的细节边缘信息,这种双分支结构感知增强模块可以减少由噪声和错位引起的错误变化,从而获得更精细的变化特征,提升模型的鲁棒性。最终的输出结果如下:
(c)构建融合模块
为了更好地融合双时相特征,降低特征通道数,减少计算负担,本发明在编码层的最后设计了一个注意力融合模块AFM。首先,利用SimAM注意力自适应地融合双分支深层特征,从而获得更精细的特征。然后,使用1×1卷积进行多通道降维;最后使用轻量化的Transformer块进一步整合。具体计算如下:
fa=Ma(cat(f1_3,f2_3))
Mfusion=T[Conv(fa)]
其中f1_,f2_分别为双路编码器输出结果,T[]为轻量Transformer块。
(3)模型的训练与变化检测结果分析:
(a)损失函数设计
遥感图像变化检测任务是像素级的二分类任务,通常使用二元交叉熵损失LBCE,其中yi表示像素i的标签值,Pi表示像素i未改变的概率。由于变化像素和未变像素数量差异较大,存在严重的类别不平衡问题,为了缓解此问题的影响,本发明使用二元交叉熵损失与Dice损失相结合的总损失,其定义如下:
LBCE=-yilog(pi)+(1-yi)log(1-pi)
LDice=1-(2yipi)/(yi+pi)
L=LBCE+LDice
(b)训练细节及评估指标
为了验证本发明提出的VHR遥感图像变化检测方法的准确性和优越性,硬件实验平台:CPU为Intel Core i9-9900X 3.5GHz,GPU为NVIDIA GeForce RTX 3090Ti,显存为24GB;软件实验平台:PyTorch、Python、OpenCV、NumPy等开源软件和框架。在模型的训练阶段,数据加载的Batch size设置为16,采用简单的随机梯度下降SGD(Stochastic GradientDescent,SGD)最优化算法来训练模型,其中动量设置为0.99,权重衰减设置为0.0005,初始学习率为0.0001,共迭代200轮。
本发明通过计算以下几个指标来评估算法性能,分别是:
其中,TP、FP和FN分别表示真正例、假正例和假负例的数量。Pre反映了模型预测的正样本中正确预测的比例,Rec反映了模型预测在所有正样本中的正确比例,F1和DIP是两者的加权调和平均值。
(c)实验结果分析
为了验证本发明提出的轻量型结构感知VHR遥感变化检测方法的优越性,在三个大型数据集上与最先进的9种主流方法进行了全面比较,包括FCN-PP、STANet、IFNet、FDCNN、SNUNet、DSAMNet、BIT、ChangeFormer和SwinSUnet。
LEVIR-CD数据集的定量评价结果如表1所示,分别使用70%样本作为训练集,10%样本作为验证集,20%样本作为测试集进行实验。在测试数据集上计算以下4个指标:精确率(Precision)、召回率(Recall)、F1-Score、距离理想位置的距离(DIP)。
表1在LEVIR-CD测试集上的性能比较结果。
从表1可以看出,所提出的轻量型结构感知VHR遥感变化检测方法LSAT几乎取得了最好的检测精度。与ChangeFormer相比,LSAT在F1和DIP上分别提高了1.12%和1.24%。为了进一步说明本发明的优越性,图5显示了不同方法的可视化分析。结果显然大多数比较方法存在漏检和误检问题,而本发明提出的LSAT方法具有更好的检测效果。可以看出,本发明的LSAT在变化对象的完整性和准确性方面达到了最好的性能。
CDD数据集的定量评价结果如表2所示,分别使用60%样本作为训练集,20%样本作为验证集,20%样本作为测试集进行实验。在测试数据集上计算以下4个指标:精确率(Precision)、召回率(Recall)、F1-Score、距离理想位置的距离(DIP)。
表2在CDD测试集上的性能比较结果。
从表2可以看出,所提出的LSAT获得了最好的检测精度。与SwinSUNet相比,本发明在F1和DIP上分别提高了1.12%和2.04%。图5显示了清晰的可视化分析。对于复杂变化区域检测,对比方法提供的检测结果存在多检和漏检问题,而LSAT仍然提供了最好的检测结果。
DSIFN-CD数据集的定量评价结果如表3所示,分别使用五个城市裁剪数据对的90%样本作为训练集,10%样本作为验证集,使用第六个城市的所有图像作为测试集进行实验。在测试数据集上计算以下4个指标:精确率(Precision)、召回率(Recall)、F1-Score、距离理想位置的距离(DIP)。
表3在DSIFN-CD测试集上的性能比较结果。
从表3可以看出,所提出的LSAT取得了最好的检测精度。与SwinSUNet相比,LSAT在F1和DIP上分别提高了1.07%和1.07%。为了进一步说明LSAT的优越性,图5给出了可视化分析。在第一行变化区域较小的情况下,LSAT能准确检测到微小的变化;在第二行变化区域不规则情况下,LSAT比其他方法更好地检测出不规则的边缘细节;在第三行变化区域较大的情况下,LSAT也达到了最好的性能。
上述实验结果表明,LSAT能够有效地捕获远程上下文信息和细粒度信息,从而有效地提高VHR遥感图像变化检测的精度。这样可以增强变化目标边缘的完整性和内部紧密性,减少小变化目标的漏检。
本发明目的是降低现有的基于Transformer变化检测方法的计算复杂度且实现高精度检测。从浮点运算(FLOPs)、参数数量(Params)和F1-score(F1)等角度进行了分析和比较,具体结果如表4所示,在测试数据集上计算以下5个指标:精确率(Precision)、召回率(Recall)、F1-Score、参数数量(PARAMS)和浮点运算(FLOPS)。
表4对提出的CISA、SAEM和AFM的模块在LEVIR-CD测试集上的研究。
从表4可以看出,本发明的FLOPs小于多数网络,且F1达到最高,由此可以验证提出方法的有效性。为更好的进行比较,将LSTA使用的PVT换为与BIT一致的ResNet18,可以看到与轻量化的BIT相比,LSAT+Res具有更小的参数量和计算量,同时还有更优的检测精度。综合来说,本发明以少量计算复杂度和参数量达到了最好的检测性能。
本发明的基于轻量型结构感知Transformer网络及VHR光学遥感图像变化检测方法,用于解决现有变化检测方法计算复杂度高,且侧重于提取图像的语义特征,忽略细粒度特征导致大区域变化对象的边缘完整性和内部紧密性较差,小区域变化对象容易丢失等问题。首先,设计了具有线性复杂度的跨维交互自注意力(CISA)模块,取代了Transformer中的普通自注意模块,有效降低了计算复杂度,提高了LSAT的特征表示能力。其次,设计结构感知增强模块(SAEM),增强差分特征和边缘细节信息,通过差分细化和细节聚合实现双时相遥感图像的双重增强,获得细粒度特征。在VHR遥感变化检测公共基准数据集上的大量实验表明,本发明提出的变化检测方法可以获得高精度的检测结果,为VHR遥感图像变化检测提供了一种轻量且高效的解决方案,较好地应用于超高分辨率(VHR)光学遥感图像的变化检测任务,解决了现有基于Transformer的变化检测方法计算复杂度呈二次方增长,以及传统变化检测方法侧重于提取图像的语义特征,忽略细粒度特征导致变化目标的边缘检测不准确、小目标漏检等问题,为VHR遥感图像变化检测方法提供了新的研究思路和技术手段,在遥感变化检测领域具有广泛的应用前景。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.一种基于轻量型结构感知Transformer网络,其特征在于,包括:
跨维度交互注意力模块,引入深度可分离卷积来生成Query、Key和Value,并进行跨通道编码,使用Q和KT点积生成大小为RC×C的全局注意力图,同时并行加入通道与高度以及通道与宽度的双分支交互注意力;
结构感知增强模块,包括差分细化分支和细节聚合分支,差分细化分支通过卷积运算对双时相特征进行增强,再利用轻量级3D注意力SimAM生成细粒度的特征,改进检测结果的轮廓;细节聚合分支包括两路分支,首先其中一路分支是通过将卷积特征相加来增强细节信息,然后另一路分支是将卷积特征连接起来,利用注意力提取细节信息,最后降维后使用注意力来聚合两路细节信息;
以及注意力融合模块,首先利用SimAM注意力自适应地融合双分支深层特征,从而获得更精细的特征;然后使用1×1卷积进行多通道降维;最后使用轻量化的Transformer块进一步整合。
2.根据权利要求1所述的一种基于轻量型结构感知Transformer网络,其特征在于,所述跨维度交互注意力模块的通道与通道维度交互的注意力分支A1表示为:
其中,α是一个可学习的缩放参数,用于控制Q、K的点积大小;Softmax为激活函数。
3.根据权利要求2所述的一种基于轻量型结构感知Transformer网络,其特征在于,所述跨维度交互注意力模块的通道与高度维度交互注意力分支A2和通道与宽度维度交互注意力分支A3,具体使用卷积来实现张量中两个维度的交互,计算如下:
A2(C,H)=Sigmoid(Conv(P(xp1)))xp1
A3(C,W)=Sigmoid(Conv(P(xp2)))xp2
其中,xp1是进行维度变换后的张量xp1∈RW×C×H,同理xp2∈RH×C×W;P为最大池化和平均池化操作;Sigmoid为激活函数。
4.根据权利要求3所述的一种基于轻量型结构感知Transformer网络,其特征在于,所述跨维度交互注意力模块的最终的注意力为三个跨维度交互注意力的结合,A1分支中的跨通道自注意力交互生成大小为RC×C的转置注意力图,分支A2和A3进行卷积运算:
A=λ1A12A23A3
其中,λ1、λ2和λ3为可学习的参数,根据网络训练过程自主优化学习。
5.根据权利要求1所述的一种基于轻量型结构感知Transformer网络,其特征在于,所述差分细化分支的运算过程表示为:
fdiff=Ma|Ma(C3(f1_i))-Ma(C3(f2_i))|
其中,f1_和f2_i分别为各层编码器的双时相输出特征,C3为3×3卷积操作,Ma为轻量化注意力机制,|Ma(C3(f1_i))-Ma(C3(f2_i))|为绝对值运算。
6.根据权利要求5所述的一种基于轻量型结构感知Transformer网络,其特征在于,所述细节聚合分支的运算过程表示为:
fa2=Ma[C3(f1_i);C3(f2_i)]
其中,C1为1×1卷积操作,[;]为拼接操作,为逐元素相加。
7.根据权利要求6所述的一种基于轻量型结构感知Transformer网络,其特征在于,所述结构感知增强模块的最终的聚合特征包含了双时相图像的细节边缘信息,最终的输出结果为:
8.根据权利要求1所述的一种基于轻量型结构感知Transformer网络,其特征在于,所述注意力融合模块的计算过程表示为:
fa=Ma(cat(f1_3,f2_3))
Mfusion=T[Conv(fa)]
其中,f1_和f2_分别为双路编码器输出结果,T[]为轻量Transformer块。
9.根据权利要求1所述的一种基于轻量型结构感知Transformer网络,其特征在于,所述网络采用二元交叉熵损失与Dice损失相结合的总损失,定义为:
LBCE=-yilog(pi)+(1-yi)log(1-pi)
LDice=1-(2yipi)/(yi+pi)
L=LBCE+LDice
其中,yi表示像素i的标签值,Pi表示像素i未改变的概率。
10.一种VHR遥感图像变化检测方法,采用如权利要求1至9中任一项所述的基于轻量型结构感知Transformer网络,其特征在于,包括:
1)获取VHR遥感图像数据并进行预处理及扩充;
2)配置网络模型训练过程中使用的参数,使用网络模型进行训练,首先输入双时相图像使用轻量型的权重共享编码器获得编码结果,跨维度交互自注意力模块提取双时相图像的分层语义特征,结构感知增强模块增强细节和变化信息;然后注意力融合模块生成细粒度的变化图,将细粒度差异特征和双时相语义特征集成到解码器中,使用单分支的解码器将编码特征映射回原始特征空间;最后,使用预测头将解码结果输出为二分类的变化结果图,训练结束后使用最优的训练权重进行测试,获得最终的变化检测结果。
CN202310705983.8A 2023-06-14 2023-06-14 一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法 Pending CN116778238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310705983.8A CN116778238A (zh) 2023-06-14 2023-06-14 一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310705983.8A CN116778238A (zh) 2023-06-14 2023-06-14 一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法

Publications (1)

Publication Number Publication Date
CN116778238A true CN116778238A (zh) 2023-09-19

Family

ID=87994133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310705983.8A Pending CN116778238A (zh) 2023-06-14 2023-06-14 一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法

Country Status (1)

Country Link
CN (1) CN116778238A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117671437A (zh) * 2023-10-19 2024-03-08 中国矿业大学(北京) 基于多任务卷积神经网络的露天采场识别与变化检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117671437A (zh) * 2023-10-19 2024-03-08 中国矿业大学(北京) 基于多任务卷积神经网络的露天采场识别与变化检测方法

Similar Documents

Publication Publication Date Title
Zhang et al. PVT: Point‐voxel transformer for point cloud learning
CN112668494A (zh) 基于多尺度特征提取的小样本变化检测方法
CN113780149B (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN114926746A (zh) 基于多尺度差分特征注意力机制的sar图像变化检测方法
CN114821342B (zh) 一种遥感影像道路提取方法及系统
CN116580241B (zh) 基于双分支多尺度语义分割网络的图像处理方法及系统
CN116778238A (zh) 一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN114842351A (zh) 一种基于孪生Transformers的遥感图像语义变化检测方法
Wang et al. TF-SOD: a novel transformer framework for salient object detection
Wang et al. STCD: efficient Siamese transformers-based change detection method for remote sensing images
Lin et al. DA-Net: density-adaptive downsampling network for point cloud classification via end-to-end learning
CN115841625A (zh) 一种基于改进U-Net模型的遥感建筑物影像提取方法
CN113313180B (zh) 一种基于深度对抗学习的遥感图像语义分割方法
Sun et al. Transformer with spatio-temporal representation for video anomaly detection
CN115938112A (zh) 交通需求预测方法、系统、电子设备及计算机存储介质
CN115147720A (zh) 基于坐标注意力和长短距上下文的sar舰船检测方法
Xia et al. GCENet: Global contextual exploration network for RGB-D salient object detection
Peng et al. High‐resolution optical remote sensing image change detection based on dense connection and attention feature fusion network
Huang et al. Bidirectional mutual guidance transformer for salient object detection in optical remote sensing images
Hazer et al. Deep learning based point cloud processing techniques
Chan et al. Regional contextual information modeling for Small Object Detection on highways
Yang et al. RUW-Net: A Dual Codec Network for Road Extraction From Remote Sensing Images
Zhang et al. ESDINet: Efficient Shallow-Deep Interaction Network for Semantic Segmentation of High-Resolution Aerial Images
CN117765297B (zh) 高光谱图像分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination