CN114842351A - 一种基于孪生Transformers的遥感图像语义变化检测方法 - Google Patents

一种基于孪生Transformers的遥感图像语义变化检测方法 Download PDF

Info

Publication number
CN114842351A
CN114842351A CN202210374988.2A CN202210374988A CN114842351A CN 114842351 A CN114842351 A CN 114842351A CN 202210374988 A CN202210374988 A CN 202210374988A CN 114842351 A CN114842351 A CN 114842351A
Authority
CN
China
Prior art keywords
semantic
change detection
twin
tokens
transforms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210374988.2A
Other languages
English (en)
Inventor
王得成
郭宁博
易辉
徐碧洁
郑逢杰
陈向宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Original Assignee
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Liberation Army Strategic Support Force Aerospace Engineering University filed Critical Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority to CN202210374988.2A priority Critical patent/CN114842351A/zh
Publication of CN114842351A publication Critical patent/CN114842351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于孪生Transformers的遥感图像语义变化检测方法,使用权值共享的两个Swin Transformers作为模型的编码器,直接对图像全局语义关系进行建模,不需要额外卷积层提取特征,具有更好的准确率和鲁棒性;在解码阶段利用3D卷积模块和带有轴向注意力的反卷积模块将级联后的双时相特征生成多类别变化图,提高了模型的检测精度和计算效率。

Description

一种基于孪生Transformers的遥感图像语义变化检测方法
技术领域
本发明属于遥感影像变化检测技术领域,具体涉及一种基于孪生Transformers的遥感图像语义变化检测方法。
背景技术
变化检测是目前遥感领域重要的研究主题之一,其目的是在同一区域的双时相遥感影像中检测出感兴趣的变化目标,并生成变化图。语义变化图中用多元标签表示不同地物的变化情况,提供详细的“从-到”变化信息。语义变化检测技术可以减少大量的劳动力成本和时间消耗,从而广泛应用于城市规划、环境监测以及自然灾害评估(Ji等,2019;Isaienkov等,2020;Ye等,2021)。
随着高分辨率卫星和航空遥感数据的爆炸式增长,遥感领域的相关问题也得到了有效解决。但在语义变化检测中,高分辨率增加了遥感影像的复杂性,模型难以区分场景中的真实变化和无关变化,对不同的变化类别识别不够准确。因此,基于高分辨率遥感图像的语义变化检测仍然是一个具有挑战性的任务。
目前,许多学者利用卷积神经网络(CNN)对特征提取和识别的有效性,将其应用于双时相遥感影像的变化检测中。现有方法的工作主要集中在三个方面:1)利用孪生CNN分别提取双时相影像的特征(Zhang等,2020),从而得到精确的变化检测结果。2)在网络中加入注意力机制增强感兴趣特征(Shi等,2021),能够加快模型的收敛。3)通过深度监督策略和改进损失函数来加强对细微变化区域的检测效果(Peng等,2019)。
虽然目前基于CNN的变化检测方法取得了良好的性能,但由于卷积运算中感受野的局限性,使得CNN无法对双时相影像的远程上下文关系很好的建模,并且深层卷积引起的高计算复杂度导致模型的计算效率降低。
发明内容
有鉴于此,本发明的目的是提供一种基于孪生Transformers的遥感图像语义变化检测方法,可以准确检测出双时相影像中感兴趣的语义变化,降低模型计算复杂度。
本发明具有如下有益效果:
本发明提出了一种高效的基于孪生Transformers的变化检测方法,使用权值共享的两个Swin Transformers作为模型的编码器,直接对图像全局语义关系进行建模,不需要额外卷积层提取特征,具有更好的准确率和鲁棒性。
在解码阶段利用3D卷积模块和带有轴向注意力的反卷积模块将级联后的双时相特征生成多类别变化图,提高了模型的检测精度和计算效率。
附图说明
图1为本发明的方法流程图;
图2为本发明采用的Transformers编码器结构图;
图3为本发明在SECOND语义变化检测数据集上与其他方法的对比结果;
图4为语义变化检测模型参数量对比图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种基于孪生Transformers的语义变化检测方法,通过由纯粹Transformers组成的编码器和CNN组成的解码器提高变化检测的效率和鲁棒性。模型的整个过程如图1所示,主要包含三个部分:
(1)图像块线性映射
在Transformers编码器进行全局上下文建模之前,首先要将图像转化为序列,即将整个图像拆分为几个视觉语义序列作为编码器的输入。不同于现有方法先将图像经过CNN提取特征,本方法为了节省模型容量,减少不必要的计算成本,直接将输入图像T1和T2转化为带有可学习位置编码的语义序列tokens1和tokens2,该过程可定义如下:
Tokeni=F(E(xi))+Epos,(i=1,2) (1)
其中,xi表示Ti时刻遥感影像,E()表示线性操作,将输入图像(H×W×3)转化为
Figure BDA0003589972820000021
如图1所示,C是语义序列的维度,L是语义序列的总数。F()函数表示矩阵展平和转置操作,将经过线性操作的语义序列转化成(L×C)形状。最后在语义序列中加入可学习的位置编码Epos∈RL×C以保留位置信息。
简言之,输入图像经过线性映射模块后得到的序列可以表示为{E1+P1,E2+P2,…,EL+PL},Ei和Pi分别为图像块嵌入和位置嵌入后的语义序列。
(2)Transformers编码器
在得到两个双时相语义序列后,利用由两个孪生交叉Swin Transformers组成的编码器对其分别进行上下文建模,获得丰富的语义变化信息。交叉Swin Transformers由基于窗口的多头注意力(W-MSA),基于移动窗口的多头注意力(SW-MSA),两个带有高斯误差线性单元(GELU)激活的多层感知器(MLP)和两个层归一化(LN)组成,在每个块之后采用残差连接。其中SW-MSA中的key和value来自W-MSA输出的语义序列,而query与W-MSA共用这些信息融合了图像和序列之间的特征,更好地促进全局上下文关系的建立。W-MSA和SW-MSA两个模块都是由基本的多头自注意力(MSA)组成,多头注意力指在Transformers中并行执行多个单独的自注意力模块,在不同的位置联合处理来自不同表示子空间的信息,并将输出连接在一起线性投射出最终的值。多头注意力表达式如下所示:
q=TrawWQ,k=TrawWK,v=TrawWV (2)
Figure BDA0003589972820000031
MSA(Traw)=Concat[SA(q1,k1,v1),…,SA(qm,km,vm)]Wo (4)
其中,concat函数表示级联;WQ,WK,WV∈RC×d是三个线性投影层的可学习参数,d是三元组(query,key,value)的维度,通过公式(3)计算出经过自注意力(SA)模块后的结果。其过程如公式(4),m为注意力头的个数,Wo∈Rmd×C表示MSA的线性投影矩阵。
编码器的整个过程如图2所示。原始Tokens经过Transformers编码器后得到具有远距离上下文信息的新的语义序列用于下一步语义变化图的生成。
(3)特征融合模块
特征融合即指将双时相tokens按照时间顺序分别级联得到Tokens12和Tokens21,即:
Tokens12=concat[Tnew1,Tnew2],Tokens21=concat[Tnew2,Tnew1] (5)
(4)基于轴向注意力的CNN解码器
在解码器中,利用3D卷积块处理变化形状后的4D张量:Tokens12,Tokens21
Figure BDA0003589972820000032
这有助于保持双时相特征的对应语义关系,可以较好地处理长时间序列的图像信息。最后将通过3D卷积的双时相特征逐元素相乘,相比于逐元素相减和通道合并两种融合方式,将合并后的特征逐元素相乘不仅能够避免信息的丢失,而且得到的融合特征还具有时间对称性,即T1·T2=T2·T1
然后通过三个反卷积层对融合特征进行上采样操作,前两个反卷积层后分别在高度、宽度和通道维度加入三层轴向注意力模块,并与反卷积后的特征通过残差连接,增强了反卷积模块的感受野,将原始特征中丰富的语义信息解码到变化图中。基于轴向注意力的上采样过程可以表示如下:
Zl=AxC(AxW(AxH(TrConv(xl-1))))+TrConv(xl-1) (11)
其中AxH,AxW,AxC分别表示高度、宽度和通道维度的轴向注意力,xl-1为l-1层的原始特征。TrConv表示反卷积操作,包括BatchNorm和RelU激活函数,Zl为xl-1经过上采样输出的第l层特征。公式(11)中两部分相加表示残差连接。第一个反卷积层和第一个三层轴向注意力模块的残差连接后输出的特征Zl经第二组反卷积层和三层轴向注意力模块再次处理,残差连接后输出到第三个反卷积层。基于轴向注意力的CNN解码器将语义序列向量映射回像素空间,并通过上采样生成最终的语义变化图。
为了验证本发明提出的基于孪生Transformers语义变化检测方法的有效性,在语义变化检测数据集SECOND上进行了实验,并对比了其他常用的几个方法。
图3中展示了本发明和三种流行的语义变化检测方法在预处理后的SECOND数据集上的部分检测结果,不同颜色代表不同的土地覆盖变化类型。本发明通过对比可视化结果可以发现,本方法由于Transformers对长距离上下文信息较强的建模能力,能够捕获更丰富的语义特征,因此在语义变化检测中生成的变化图最为清晰且完整。
为了更加全面地评估提出方法的准确性,本发明在表1中展示了本方法与其他语义变化检测方法在SECOND数据集上的评价指标,加粗数据代表该类别在不同方法中的最优值。可以看出除了“未变化”类别外,提出的方法对于每种变化类别的检测精度均超过其他方法,在mF1和mIoU指标上分别达到了76.34%和67.43%。这说明本方法能够很好地建模远距离上下文的语义信息,通过提取并识别复杂特征实现对感兴趣变化类别的检测。相较于基于CNN的方法,我们提出的基于Transformers方法对于遥感影像的多类别变化检测更具有优势。
表1本发明和其他方法在语义变化检测数据集SECOND上的评价指标
Figure BDA0003589972820000041
Figure BDA0003589972820000051
在一些特定任务中,不仅要求变化检测的精确度、召回率等指标,模型的参数量和变化检测实时性同样十分重要。图4展示了实验中所有语义变化检测模型的参数量。通过对比可以看出本发明提出的模型参数量为7.33MB,与现有其他算法相比模型参数量最低。本发明兼顾了模型容量和检测精度两个重要指标,具有较高效率,即通过较少的模型参数量达到了具有竞争力的变化检测性能。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于孪生Transformers的语义变化检测方法,包括图像块线性映射过程、编码过程、特征融合过程以及解码过程,其特征在于,所述编码过程采用由两个权值共享的孪生交叉Swin Transformers组成的编码器实现;
其中,两个Swin Transformer分别对应处理两个双时相图像经过图像块线性映射过程得到的语义序列;每个Swin Transformer中的基于移动窗口的多头注意力SW-MSA中的query与基于窗口的多头注意力SW-MSA共用。
2.如权利要求1所述的一种基于孪生Transformers的语义变化检测方法,其特征在于,所述特征融合过程采用特征融合模块实现,具体为:
假设编码器的两个Swin Transformer对两个双时相图像分别进行编码后,得到的语义序列分别为Tnew1和Tnew2
将Tnew1和Tnew2按照时间顺序分别级联得到Tokens12和Tokens21,即:
Tokens12=concat[Tnew1,Tnew2],Tokens21=concat[Tnew2,Tnew1]
其中,concat函数表示级联;
所述解码过程采用CNN解码器实现,具体为:
首先利用两个3D卷积块分别处理Tokens12和Tokens21,再将两路处理结果逐元素进行相乘,结果送入上采样模块;其中,上采样模块包括三个逐级相连的反卷积层,前两个反卷积层之后各设置一个具有高度、宽度和通道纬度的三层轴向注意力模块;其中,每个三层轴向注意力模块与其前面的一个反卷积层之间残差连接。
3.如权利要求1或2所述的一种基于孪生Transformers的语义变化检测方法,其特征在于,所述图像块线性映射过程包括:
将输入的双时相图像T1和T2转化为带有可学习位置编码的语义序列tokens1和tokens2:
Tokeni=F(E(xi))+Epos,i=1,2 (1)
其中,xi表示Ti时刻遥感影像,E()函数表示线性操作;F()函数表示展平和转置操作;Epos∈RL×C表示可学习的位置编码信息。
CN202210374988.2A 2022-04-11 2022-04-11 一种基于孪生Transformers的遥感图像语义变化检测方法 Pending CN114842351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210374988.2A CN114842351A (zh) 2022-04-11 2022-04-11 一种基于孪生Transformers的遥感图像语义变化检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210374988.2A CN114842351A (zh) 2022-04-11 2022-04-11 一种基于孪生Transformers的遥感图像语义变化检测方法

Publications (1)

Publication Number Publication Date
CN114842351A true CN114842351A (zh) 2022-08-02

Family

ID=82563031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210374988.2A Pending CN114842351A (zh) 2022-04-11 2022-04-11 一种基于孪生Transformers的遥感图像语义变化检测方法

Country Status (1)

Country Link
CN (1) CN114842351A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359370A (zh) * 2022-10-21 2022-11-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN116051519A (zh) * 2023-02-02 2023-05-02 广东国地规划科技股份有限公司 双时相影像建筑物变化检测方法、装置、设备及存储介质
CN116109966A (zh) * 2022-12-19 2023-05-12 中国科学院空天信息创新研究院 一种面向遥感场景的视频大模型构建方法
CN116524258A (zh) * 2023-04-25 2023-08-01 云南师范大学 一种基于多标签分类的滑坡检测方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359370A (zh) * 2022-10-21 2022-11-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN115359370B (zh) * 2022-10-21 2023-01-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN116109966A (zh) * 2022-12-19 2023-05-12 中国科学院空天信息创新研究院 一种面向遥感场景的视频大模型构建方法
CN116109966B (zh) * 2022-12-19 2023-06-27 中国科学院空天信息创新研究院 一种面向遥感场景的视频大模型构建方法
CN116051519A (zh) * 2023-02-02 2023-05-02 广东国地规划科技股份有限公司 双时相影像建筑物变化检测方法、装置、设备及存储介质
CN116051519B (zh) * 2023-02-02 2023-08-22 广东国地规划科技股份有限公司 双时相影像建筑物变化检测方法、装置、设备及存储介质
CN116524258A (zh) * 2023-04-25 2023-08-01 云南师范大学 一种基于多标签分类的滑坡检测方法和系统

Similar Documents

Publication Publication Date Title
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN114842351A (zh) 一种基于孪生Transformers的遥感图像语义变化检测方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113780149B (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN112668494A (zh) 基于多尺度特征提取的小样本变化检测方法
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN110782462A (zh) 一种基于双流特征融合的语义分割方法
CN111738111A (zh) 基于多分支级联空洞空间金字塔的高分辨遥感图像的道路提取方法
CN111209921A (zh) 基于改进的YOLOv3网络的车牌检测模型及构建方法
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN116524361A (zh) 基于双孪生分支的遥感图像变化检测网络及检测方法
CN115035131A (zh) U型自适应est的无人机遥感图像分割方法及系统
CN114299111B (zh) 一种基于半监督孪生网络的红外弱小目标跟踪方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN114419464A (zh) 一种基于深度学习的孪生网络变化检测模型
CN115082774A (zh) 基于双流自注意力神经网络的图像篡改定位方法及系统
CN114170154A (zh) 基于Transformer的遥感VHR图像变化检测方法
CN117475216A (zh) 一种基于aglt网络的高光谱与激光雷达数据融合分类方法
CN115222947B (zh) 基于全局自注意力变换网络的岩石节理分割方法和装置
CN111353441B (zh) 基于位置数据融合的道路提取方法和系统
CN115797684A (zh) 一种基于上下文信息的红外小目标检测方法及系统
CN115797181A (zh) 一种面向矿井模糊环境的图像超分辨率重建方法
CN115331112A (zh) 基于多粒度词元的红外与可见光图像融合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination