CN115147760A - 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法 - Google Patents

基于视频理解和时空解耦的高分辨率遥感影像变化检测方法 Download PDF

Info

Publication number
CN115147760A
CN115147760A CN202210742299.2A CN202210742299A CN115147760A CN 115147760 A CN115147760 A CN 115147760A CN 202210742299 A CN202210742299 A CN 202210742299A CN 115147760 A CN115147760 A CN 115147760A
Authority
CN
China
Prior art keywords
time
space
encoder
output
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210742299.2A
Other languages
English (en)
Other versions
CN115147760B (zh
Inventor
张洪艳
林漫晖
杨光义
张良培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210742299.2A priority Critical patent/CN115147760B/zh
Publication of CN115147760A publication Critical patent/CN115147760A/zh
Application granted granted Critical
Publication of CN115147760B publication Critical patent/CN115147760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于视频理解和时空解耦的高分辨率遥感影像变化检测方法。本发明针对双时相高分辨率遥感影像对空间、时间维度构造不平衡的特点,采用时序线性插值策略构建伪视频帧序列,扩展时间维度,使得使用视频理解算法处理变化检测任务成为可能。本发明结合变化检测任务侧重时空信息的特点,提出一种时空解耦的编码器设计方案,使网络一次只关注问题的一个维度,从而缓解解码器的负担,提升检测效果。同时,为了促进时空编码器间的信息交流,本发明提出时序聚合模块,将其设置在空间编码器到时间编码器的边路连接中,提升时空特征的契合度。此外,本发明使用深度监督技术,改善深层模型收敛速度,解决模型中间层特征有效性不足的问题。

Description

基于视频理解和时空解耦的高分辨率遥感影像变化检测方法
技术领域
本发明涉及遥感影像变化检测领域,特别涉及一种通过时序插值实现影像对-伪视频帧序列变换、并基于此搭建时空解耦的网络结构对遥感影像进行变化检测的技术方法。以数据驱动的方式完成整个变化检测网络的训练,实现对高分辨率遥感影像对中变化信息的精准提取。
背景技术
遥感影像变化检测旨在通过对同一地区不同时间重复观测来分析区域内地物的状态变化。自上世纪70年代以来,国内外研究者针对不同来源的遥感影像数据,从不同的角度进行分析,提出了大量模型与方法。随着卫星传感器技术和信号传输技术的进步,遥感影像的获取越来越便捷,影像的空间分辨率也不断提升。日益丰富的高分辨率遥感数据为遥感影像变化检测领域同时带来了契机与挑战。一方面,相比中低分辨率遥感影像,高分辨率遥感影像能够提供更加丰富的地物细节和空间分布信息,从而有助于发现细小变化以及更好地定位变化地物的边界。另一方面,在高分辨率影像中,同一地物通常以面状的形式出现,像素之间彼此独立的假设不再成立,同一地物内部的像素灰度受目标的材质和反射特性影响起伏不定,“同物异谱,同谱异物”的现象相较中低分辨率遥感影像更为明显,致使检测变化区域的难度急剧上升。近年来,随着深度学习在人工智能领域的兴起和成熟,基于高分辨率遥感影像的变化检测获得了新的解决方案。深度学习方法使用海量样本对网络模型进行训练,使模型具备提取更具判别性特征的能力,从而避免了繁琐而低效的手工特征提取。与此同时,相比传统算法,深度学习架构往往具有更高的并行度,且具备端到端的优良性质,能够实现高效、准确的推理。考虑到遥感影像具有海量、多维的天然性质,深度学习十分适用于对遥感影像变化检测任务进行学习和优化。研究基于深度学习的高分辨率遥感影像变化检测方法,不仅可以大大提升检测精度,同时也能够极大地加速变化检测算法的智能化和自动化进程,使其具有更高的应用价值。
总体来说,目前的遥感影像变化检测算法可归为三类:
基于像素的传统变化检测方法:基于像素的变化检测方法是所有方法中最早被发展、种类最丰富的。作为中低分辨率影像变化检测的主要方法,基于像素方法中最具代表性的当属影像代数法、影像变换法以及分类检测法。影像代数法通过两幅影像对应波段间逐像素的代数运算得到变化强度图,其思想影响了许多后来提出的更先进的变化检测算法。影像变换法从数据的统计结构出发,根据主成分分析、慢特征分析等理论,对输入影像进行数学变换后提取像素级变化信息。分类检测法首先对每个时相的影像进行独立分类,再根据分类结果得到变化检测结果。传统的像素级变化检测方法往往原理简单,实现方便。然而,由于高分辨率遥感影像中地物的复杂性,这些方法仅适用于处理一些影像波段数较少、场景相对简单的情况,很难在各种场景下杜绝检测结果中的大面积错漏现象。
基于对象的传统变化检测方法:基于对象的变化检测算法突破了基于像素变化检测方法处理高分辨率影像效果不佳的限制。这类方法首先根据像素的空间与光谱性质分割出对象,然后以对象代替像素作为检测过程中的基本处理单元。与基于像素方法相比,基于对象的变化检测方法具有准确刻画地物边界、确保地物内部变化状态一致的天然优势,但其仍具有两个主要限制:首先,基于对象方法的检测效果极大地受制于分割出的对象的质量;其次,基于对象的变化检测方法往往采用先分割对象、后提取变化特征的两阶段结构,而非采用端到端框架优化,这样容易导致误差累积,从而难以得到全局最优解。
基于深度学习的变化检测方法:这类方法又可以细分为三个小类:基于特征的方法,基于影像块的方法,以及基于全图的方法。基于深度学习的变化检测方法能够利用高分辨率影像丰富的空间和光谱信息,获得更加有效和鲁棒的特征,从而在一定程度上克服传统算法的不足。然而,现有的大部分基于深度学习的变化检测算法均要么将重点放在对空间和光谱信息的更有效利用上,要么将重点放在不同时相间影像间的领域对齐上。这些算法多使用语义分割或度量学习模型处理变化检测任务,以逐像素差分或通道维度拼接作为时间维度信息提取的主要手段,缺乏对时序过程的显式建模,忽略了“变化是过程”的本质。少部分算法显式考虑了时序信息,但对于时间维度的建模不够完备,也不利于算法性能的提升。
因此,基于深度学习的变化检测算法还有很大的改进空间,有必要发展顾及时序信息挖掘的高分辨率遥感影像变化检测算法。
发明内容
针对现有基于深度学习的遥感影像变化检测算法的缺点,本发明提出一种基于视频理解和时空解耦的高分辨率遥感影像变化检测方法,由影像对构建视频帧序列,将多时相影像的空间维度与时间维度解耦,设计双流结构,分别搭建空间与时间分支,实现对时空信息的充分挖掘,从而更准确地定位变化区域。
本发明的技术方案提供一种基于视频理解和时空解耦的高分辨率遥感影像变化检测方法,包括以下步骤:
步骤1,根据输入的双时相遥感影像对,通过时序插值策略,得到伪视频帧序列,伪视频帧序列中的每一幅影像均与原始图像具有相同的空间尺寸和数值范围;
步骤2,构建时间编码器与空间编码器,时间编码器接收伪视频帧序列作为输入,首先执行下采样操作,然后通过级联的三维卷积层提取特征,空间编码器接收原始双时相遥感影像对作为输入,使用二维卷积层提取特征,在两个编码器间设置单向的边路连接,使用时序聚合模块(temporal aggregation module,TAM)处理从时间编码器传递到空间编码器的特征;
步骤3,构建渐进式解码器,将空间编码器各个层级模块的输出与解码器中各个层级模块的输入相连接,解码器最后的卷积层输出单通道变化概率图;
步骤4,在时间编码器末端添加额外的卷积层,并对其输出施加深度监督,构建联合损失函数,使用梯度下降法对整个网络进行权重参数的优化,直到损失收敛;其中,时间编码器末端的卷积层仅在模型训练阶段提供额外输出,在模型推理阶段,仍使用解码器最后的卷积层输出的单通道变化概率图作为网络最终输出。
进一步的,步骤1中,假设第一时相原始影像为I1,第二时相原始影像为I2,视频共包含N帧,则对第n帧影像Fn的插值公式为:
Figure BDA0003716118420000031
进一步的,步骤2中,空间编码器的输入为:
Xs=concat(I1,I2) (2)
其中,第一时相原始影像为I1,第二时相原始影像为I2,concat()表示通道维度的拼接操作,空间编码器的基本组成模块为空间模块S-Block,S-Block又分为S-Block I与S-Block II两种类型;两种类型的空间模块的起始部分均包含两个级联的卷积层以及对应的BN层和ReLU激活函数,而末尾部分均为一个最大池化层;相比S-Block I,S-Block II具有一个额外的卷积层以及对应的BN层和ReLU激活函数,也因此具有更强的特征提取和拟合能力,在第一个ReLU激活函数的输出和最后一个归一化层的输出之间添加有残差连接;两个S-Block I和一个S-Block II依次连接构成空间编码器。
进一步的,时间编码器的输入为:
Xt=stack(F0,F1,F2,...,FN-1) (3)
其中,stack()表示在新的维度叠加影像的操作,时间编码器的基本组成模块为时间模块T-Block;T-Block首先使用一个1×1×1卷积层减少输入特征的通道数;然后将特征送入一个3×3×3卷积层进行处理,以实现对空间上下文的编码和对变化信息的充分挖掘;最后再次使用一个1×1×1卷积层增加特征通道数,提高模型容量;在每个卷积层之后增加BN层,在第一个和第二个BN层之后增加ReLU激活函数,此外,为了缓解梯度消失问题、提升模块的收敛性能,在T-Block的输入和输出之间增加了残差连接,残差支路使用1×1×1卷积层和BN层匹配特征通道数;在时间编码器的第一个T-Block前添加一个由卷积层、BN层以及ReLU激活函数串联组成的降采样模块,卷积核的大小被设置为3×9×9,步长被设置为1×4×4,经过降采样模块后,输入视频帧序列的空间分辨率将被降低4倍,这可以降低时间编码器对空间信息的关注程序,实现显式时空解耦。
进一步的,时序聚合模块TAM首先对时间编码器的某一层级输出的特征进行时间维度的全局最大池化与全局平均池化,以得到对T-Block提取特征中所蕴含的时序变化信息的高效表示;接着,将两种池化结果在通道维度上拼接,得到聚合特征;最后,使用卷积核大小为1×1的卷积层以及一个批归一化层和ReLU激活函数对聚合特征进行点对点变换,得到最终输出。
进一步的,在步骤3中,渐进式解码器串联了一个卷积层和数个解码模块D-Block,D-Block的总数比空间编码器中S-Block的数量多一个;D-Block接收两个输入,分别是上一个D-Block的输出以及处于同一层级的S-Block的输出,首先对上级解码特征进行上采样,然后将上采样结果和同级编码特征在通道维度上拼接,最后使用两个卷积层进行特征融合,在每个卷积层之后增加BN层和ReLU激活函数,在两个卷积层间添加残差连接以缓解梯度消失问题。
进一步的,在步骤4中,通过最小化联合损失函数来进行训练整个变化检测网络,联合损失函数可表示为:
L=l(Pfinal,R)+λl(Pinter,R) (4)
其中l表示对每个输出-真值标签对所使用的具体损失函数,Pfinal和Pinter分别表示模型最终输出和旁路输出的变化概率图,其中模型最终输出即解码器输出,旁路输出即时间编码器输出,R表示真值变化标签,而λ则是辅助损失的权重系数,选取类别均衡交叉熵损失作为具体的损失类型:
Figure BDA0003716118420000041
其中,H和W分别表示图像的高和宽,i和j分别表示图像的第i行和第j列,wc和wu则分别为变化类与不变类的类别权重系数,使用Adam优化器调整梯度,最小化损失函数。
进一步的,空间编码器中共包含3个S-Block,分别设置三个S-Block的输出通道数为32、64和128。
进一步的,时间编码器包含1个降采样模块和4个T-Block,下采样模块的输出通道数设置为64;对于4个T-Block,分别将输出通道数设置为256、256、512和512。
本发明提出的基于视频理解和时空解耦的高分辨率遥感影像变化检测方法,首次将变化检测问题转换为视频的密集分类问题,并使用一个空间编码器和一个时间编码器分别处理双时相输入影像与构建的伪视频帧序列,从而实现时间和空间维度的显式解耦。
同时,针对高分辨率遥感影像中地物场景复杂、检测结果中容易出现伪变化情况,本发明提出的方法充分利用了多时相遥感影像的丰富信息,通过时序插值缓解原始数据在时间和空间维度构造上的不平衡,使模型更加专注于变化信息的提炼,从而抑制结果中的伪变化。本发明提出的方法在高分辨率遥感影像的后续应用,比如城市建筑物变化监测、灾害监测等方面都具有重大作用。因此,基于视频理解和时空解耦的高分辨率遥感影像变化检测算法不仅具有非常重要的学术价值,而且具有重要的现实意义。
本发明不仅提出了一种与现有的深度学习变化检测框架不同的、新的深度学习变化检测范式,强调了对时序信息的充分利用,同时也首次显式地考虑变化检测任务中存在的时空耦合问题,并提出一种行之有效的解决方案,精准刻画变化地物边界。
附图说明
图1是本发明的整体网络结构图;
图2是空间编码器、时间编码器与渐进式解码器基本组件结构图;
图3是时序插值模块结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,将结合实例对基于视频理解和时空解耦的遥感影像变化检测方法进一步详细说明。应当理解,此处所描述的具体实例仅仅用于解释本发明,并不用于限定本发明。
本发明提出一种基于视频理解和时空解耦的遥感影像变化检测方法,把“变化”看作连续的“时序过程”,而非离散的“状态改变”,从而将变化检测问题建模为一个视频理解任务。通过时序插值,将双时相影像对转换为伪视频帧序列,缓解原始数据时间与空间构造上的不平衡。采用时空解耦的编码器设置,分别使用一个时间编码器和一个空间编码器处理时空信息,使模型一次只关注一个维度,避免时空耦合带来的不利影响。在两个编码器间添加了边路连接,促进时空特征之间的交互。除此之外,本发明还对时间编码器的输出施加深度监督,从而迫使时间编码器学到更加有用的特征,并加速训练过程。
步骤1,根据输入的双时相遥感影像对,通过时序插值策略,得到伪视频帧序列,伪视频帧序列中的每一幅影像均与原始图像具有相同的空间尺寸和数值范围;
步骤2,构建时间编码器与空间编码器,时间编码器接收伪视频帧序列作为输入,首先执行下采样操作,然后通过级联的三维卷积层提取特征,空间编码器接收原始双时相遥感影像对作为输入,使用二维卷积层提取特征,在两个编码器间设置单向的边路连接,使用时序聚合模块(temporal aggregation module,TAM)处理从时间编码器传递到空间编码器的特征;
步骤3,构建渐进式解码器,将空间编码器各个层级模块的输出与解码器中各个层级模块的输入相连接,解码器最后的卷积层输出单通道变化概率图;
步骤4,在时间编码器末端添加额外的卷积层,并对其输出施加深度监督,构建联合损失函数,使用梯度下降法对整个网络进行权重参数的优化,直到损失收敛。时间编码器末端的卷积层仅在模型训练阶段提供额外输出,在模型推理阶段,仍使用解码器最后的卷积层输出的单通道变化概率图作为网络最终输出。
进一步地,步骤1中,假设第一时相原始影像为I1,第二时相原始影像为I2,视频共包含N帧,则对第n帧影像Fn的插值公式为:
Figure BDA0003716118420000061
进一步地,步骤2中,空间编码器的输入为:
Xs=concat(I1,I2) (7)
其中,concat()表示通道维度的拼接操作,空间编码器的基本组成模块为空间模块S-Block,S-Block又可以分为S-Block I与S-Block II两种类型,其结构分别如图2(a)和(b)所示;两种类型的空间模块的起始部分均包含两个级联的卷积层(以及对应的BN层和ReLU激活函数),而末尾部分均为一个最大池化层;相比S-Block I,S-Block II具有一个额外的卷积层以及对应的BN层和ReLU激活函数,也因此具有更强的特征提取和拟合能力,在第一个ReLU激活函数的输出和最后一个归一化层的输出之间添加有残差连接。两个S-Block I和一个S-Block II依次连接构成空间编码器。
进一步地,时间编码器的输入为:
Xt=stack(F0,F1,F2,...,FN-1) (8)
其中,stack()表示在新的维度叠加影像的操作,时间编码器的基本组成模块为时间模块T-Block,其结构如图2(c)所示;T-Block首先使用一个1×1×1卷积层减少输入特征的通道数;然后将特征送入一个3×3×3卷积层进行处理,以实现对空间上下文的编码和对变化信息的充分挖掘;最后再次使用一个1×1×1卷积层增加特征通道数,提高模型容量。在每个卷积层之后增加BN层,在第一个和第二个BN层之后增加ReLU激活函数。此外,为了缓解梯度消失问题、提升模块的收敛性能,在T-Block的输入和输出之间增加了残差连接,残差支路使用1×1×1卷积层和BN层匹配特征通道数。如图1所示,在时间编码器的第一个T-Block前添加一个由卷积层、BN层以及ReLU激活函数串联组成的降采样模块(即图1中标示的stem部分),卷积核的大小被设置为3×9×9,步长被设置为1×4×4,经过降采样模块后,输入视频帧序列的空间分辨率将被降低4倍,这可以降低时间编码器对空间信息的关注程序,实现显式时空解耦。
进一步地,时序聚合模块TAM首先对时间编码器的某一层级输出的特征进行时间维度的全局最大池化与全局平均池化,以得到对T-Block提取特征中所蕴含的时序变化信息的高效表示;接着,将两种池化结果在通道维度上拼接,得到聚合特征;最后,使用卷积核大小为1×1的卷积层以及一个批归一化层和ReLU激活函数对聚合特征进行点对点变换,得到最终输出。
进一步地,在步骤3中,渐进式解码器串联了一个卷积层和数个解码模块D-Block,D-Block的总数比空间编码器中S-Block(包括S-Block I和S-Block II)的数量多一个,其中每个D-Block的结构如图2(d)所示;D-Block接收两个输入,分别是上一个D-Block(或最靠前的卷积层)的输出以及处于同一层级的S-Block的输出,首先对上级解码特征进行上采样,然后将上采样结果和同级编码特征在通道维度上拼接,最后使用两个卷积层进行特征融合,在每个卷积层之后增加BN层和ReLU激活函数,在两个卷积层间添加残差连接以缓解梯度消失问题;如图1所示,原始双时相影像对的通道维拼接结果也被作为一个层级的编码特征,这是为了尽最大可能保留图像中的空间细节信息。
进一步地,在步骤4中,通过最小化联合损失函数来进行训练整个变化检测网络,联合损失函数可表示为:
L=l(Pfinal,R)+λl(Pinter,R) (9)
其中l表示对每个输出-真值标签对所使用的具体损失函数,Pfinal和Pinter分别表示模型最终输出(即解码器输出)和旁路输出(即时间编码器输出)的变化概率图,R表示真值变化标签,而λ则是辅助损失的权重系数,选取类别均衡交叉熵损失作为具体的损失类型:
Figure BDA0003716118420000081
其中,H和W分别表示图像的高和宽,i和j分别表示图像的第i行和第j列,wc和wu则分别为变化类与不变类的类别权重系数,使用Adam优化器调整梯度,最小化损失函数。
本发明可采用计算机软件技术进行实现。以下结合图1详述实施例高分辨率遥感影像变化检测方法的具体步骤。
步骤1,对输入的双时相高分辨率遥感影像对进行时间维度的插值操作,得到伪视频帧序列。
本发明中提出的基于视频理解和时空解耦的高分辨率遥感影像变化检测方法,是使用线性插值策略得到视频中每一帧的影像,并以第一时相的影像作为初始帧,以第二时相的影像作为结束帧。实例中,原始影像的空间尺寸为256×256,波段数为3。伪视频帧序列的长度T为8,代表插值结果中共包含8帧影像,其中每幅影像的空间尺寸为256×256,波段数为3。插值操作可通过NumPy科学计算库或PyTorch深度学习框架编写代码以向量化方式执行。具体实施时,本领域技术人员可根据实际算力与对时间分辨率的需求选取伪视频帧序列长度T的取值,一般而言T越大则算法执行耗时越长,需要使用的计算资源更多,但精度指标一般也更佳。
步骤2,构建时间编码器与空间编码器,分别接受视频帧序列和原始双时相遥感影像对作为输入,在两个编码器间添加边路连接,并使用时序聚合模块TAM处理从时间编码器传递到空间编码器的特征。
实例中,空间编码器中共包含3个S-Block,而时间编码器包含1个降采样模块和4个T-Block。分别设置三个S-Block的输出通道数为32、64和128。对于前两个S-Block,采用S-Block I类型;对于第三个S-Block,采用S-Block II类型。将时间编码器中下采样模块的输出通道数设置为64。对于4个T-Block,分别将输出通道数设置为256、256、512和512。特别地,对于第3个T-Block,其干路和旁路(残差支路)上的3×3卷积层在时间和空间维度上步长均设置为2,以便实现时空降采样。根据以上设置,无论是空间编码器还是时间编码器都具有8的输出步长(output stride),即输出编码特征的空间分辨率为输入特征的1/8。此外,为了促进时间与空间信息的交换,在两个编码器间加入边路连接,将时间编码器的第2个和第4个T-Block输出的中间层特征首先经过时序聚合模块TAM处理,然后传送到空间编码器,分别作为第2个和第3个S-Block的输入。具体实施时,本领域技术人员可以根据实际需要对S-Block和T-Block的个数进行调整,但必须保证S-Block的数量比T-Block少1、比时序聚合模块的数量多1。
步骤3,构建渐进式解码器,将空间编码器各个层级模块的输出与解码器中各个层级模块的输入相连接,解码器最后的卷积层输出单通道变化概率图。
实例中,解码器串联了一个卷积层和4级D-Block,其中每个D-Block接收上一个D-Block(或最靠前的卷积层)的输出以及处于同一层级的S-Block的输出。具体实施时必须保证D-Block的数量比S-Block多1。
步骤4,通过解码器的最终输出与时间编码器的旁路输出计算损失,使用梯度下降法对整个网络进行权重参数的优化,直到损失收敛。
在实例中,使用类别平衡交叉熵损失计算联合损失中的每一项,将正负类的权重系数分别设置为0.5和0.5,将施加在时间编码器上的辅助损失的权重系数设置为0.4。使用Adam优化器进行求解,设置初始学习率为0.0004,训练共持续26万次迭代。具体实施时,本领域技术人员可以根据具体使用的数据集对训练超参数进行调整。
本领域普通技术人员可以理解,本发明首次从视频理解角度看待变化检测问题,通过结合二维与三维卷积神经网络挖掘多时相影像对中的时空特征,从而实现更精细化的时序建模。其次,对于编码器结构采用时空解耦的设计,增强网络提取时空特征的能力,从而缓解解码器的负担,降低训练难度。最后,通过边路连接和时序聚合模块,一方面增强两个编码器间的信息交互,另一方面也使网络学习到的时间特征与空间特征更加契合,提升模型的准确性和鲁棒性。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (9)

1.基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于,包括以下步骤:
步骤1,根据输入的双时相遥感影像对,通过时序插值策略,得到伪视频帧序列,伪视频帧序列中的每一幅影像均与原始图像具有相同的空间尺寸和数值范围;
步骤2,构建时间编码器与空间编码器,时间编码器接收伪视频帧序列作为输入,首先执行下采样操作,然后通过级联的三维卷积层提取特征,空间编码器接收原始双时相遥感影像对作为输入,使用二维卷积层提取特征,在两个编码器间设置单向的边路连接,使用时序聚合模块(temporal aggregation module,TAM)处理从时间编码器传递到空间编码器的特征;
步骤3,构建渐进式解码器,将空间编码器各个层级模块的输出与解码器中各个层级模块的输入相连接,解码器最后的卷积层输出单通道变化概率图;
步骤4,在时间编码器末端添加额外的卷积层,并对其输出施加深度监督,构建联合损失函数,使用梯度下降法对整个网络进行权重参数的优化,直到损失收敛;其中,时间编码器末端的卷积层仅在模型训练阶段提供额外输出,在模型推理阶段,仍使用解码器最后的卷积层输出的单通道变化概率图作为网络最终输出。
2.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:步骤1中,假设第一时相原始影像为I1,第二时相原始影像为I2,视频共包含N帧,则对第n帧影像Fn的插值公式为:
Figure FDA0003716118410000011
3.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:步骤2中,空间编码器的输入为:
Xs=concat(I1,I2) (2)
其中,第一时相原始影像为I1,第二时相原始影像为I2,concat()表示通道维度的拼接操作,空间编码器的基本组成模块为空间模块S-Block,S-Block又分为S-Block I与S-Block II两种类型;两种类型的空间模块的起始部分均包含两个级联的卷积层以及对应的BN层和ReLU激活函数,而末尾部分均为一个最大池化层;相比S-BlockI,S-BlockII具有一个额外的卷积层以及对应的BN层和ReLU激活函数,也因此具有更强的特征提取和拟合能力,在第一个ReLU激活函数的输出和最后一个归一化层的输出之间添加有残差连接;两个S-Block I和一个S-Block II依次连接构成空间编码器。
4.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:时间编码器的输入为:
Xt=stack(F0,F1,F2,...,FN-1) (3)
其中,stack()表示在新的维度叠加影像的操作,时间编码器的基本组成模块为时间模块T-Block;T-Block首先使用一个1×1×1卷积层减少输入特征的通道数;然后将特征送入一个3×3×3卷积层进行处理,以实现对空间上下文的编码和对变化信息的充分挖掘;最后再次使用一个1×1×1卷积层增加特征通道数,提高模型容量;在每个卷积层之后增加BN层,在第一个和第二个BN层之后增加ReLU激活函数,此外,为了缓解梯度消失问题、提升模块的收敛性能,在T-Block的输入和输出之间增加了残差连接,残差支路使用1×1×1卷积层和BN层匹配特征通道数;在时间编码器的第一个T-Block前添加一个由卷积层、BN层以及ReLU激活函数串联组成的降采样模块,卷积核的大小被设置为3×9×9,步长被设置为1×4×4,经过降采样模块后,输入视频帧序列的空间分辨率将被降低4倍,这可以降低时间编码器对空间信息的关注程序,实现显式时空解耦。
5.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:时序聚合模块TAM首先对时间编码器的某一层级输出的特征进行时间维度的全局最大池化与全局平均池化,以得到对T-Block提取特征中所蕴含的时序变化信息的高效表示;接着,将两种池化结果在通道维度上拼接,得到聚合特征;最后,使用卷积核大小为1×1的卷积层以及一个批归一化层和ReLU激活函数对聚合特征进行点对点变换,得到最终输出。
6.如权利要求3所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:在步骤3中,渐进式解码器串联了一个卷积层和数个解码模块D-Block,D-Block的总数比空间编码器中S-Block的数量多一个;D-Block接收两个输入,分别是上一个D-Block的输出以及处于同一层级的S-Block的输出,首先对上级解码特征进行上采样,然后将上采样结果和同级编码特征在通道维度上拼接,最后使用两个卷积层进行特征融合,在每个卷积层之后增加BN层和ReLU激活函数,在两个卷积层间添加残差连接以缓解梯度消失问题。
7.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:在步骤4中,通过最小化联合损失函数来进行训练整个变化检测网络,联合损失函数可表示为:
L=l(Pfinal,R)+λl(Pinter,R) (4)
其中l表示对每个输出-真值标签对所使用的具体损失函数,Pfinal和Pinter分别表示模型最终输出和旁路输出的变化概率图,其中模型最终输出即解码器输出,旁路输出即时间编码器输出,R表示真值变化标签,而λ则是辅助损失的权重系数,选取类别均衡交叉熵损失作为具体的损失类型:
Figure FDA0003716118410000031
其中,H和W分别表示图像的高和宽,i和j分别表示图像的第i行和第j列,wc和wu则分别为变化类与不变类的类别权重系数,使用Adam优化器调整梯度,最小化损失函数。
8.如权利要求3所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:空间编码器中共包含3个S-Block,分别设置三个S-Block的输出通道数为32、64和128。
9.如权利要求4所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:时间编码器包含1个降采样模块和4个T-Block,下采样模块的输出通道数设置为64;对于4个T-Block,分别将输出通道数设置为256、256、512和512。
CN202210742299.2A 2022-06-27 2022-06-27 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法 Active CN115147760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210742299.2A CN115147760B (zh) 2022-06-27 2022-06-27 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210742299.2A CN115147760B (zh) 2022-06-27 2022-06-27 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法

Publications (2)

Publication Number Publication Date
CN115147760A true CN115147760A (zh) 2022-10-04
CN115147760B CN115147760B (zh) 2024-04-19

Family

ID=83410214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210742299.2A Active CN115147760B (zh) 2022-06-27 2022-06-27 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法

Country Status (1)

Country Link
CN (1) CN115147760B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259853A (zh) * 2020-02-04 2020-06-09 中国科学院计算技术研究所 一种高分辨率遥感图像变化检测方法、系统及装置
CN112577473A (zh) * 2020-12-21 2021-03-30 陕西土豆数据科技有限公司 一种双时相的高分辨率遥感影像变化检测算法
CN112949549A (zh) * 2021-03-19 2021-06-11 中山大学 一种基于超分辨率的多分辨率遥感影像的变化检测方法
CN113420662A (zh) * 2021-06-23 2021-09-21 西安电子科技大学 基于孪生多尺度差异特征融合的遥感影像变化检测方法
CN114359723A (zh) * 2021-12-27 2022-04-15 陕西科技大学 一种基于空谱特征融合网络的遥感影像变化检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259853A (zh) * 2020-02-04 2020-06-09 中国科学院计算技术研究所 一种高分辨率遥感图像变化检测方法、系统及装置
CN112577473A (zh) * 2020-12-21 2021-03-30 陕西土豆数据科技有限公司 一种双时相的高分辨率遥感影像变化检测算法
CN112949549A (zh) * 2021-03-19 2021-06-11 中山大学 一种基于超分辨率的多分辨率遥感影像的变化检测方法
CN113420662A (zh) * 2021-06-23 2021-09-21 西安电子科技大学 基于孪生多尺度差异特征融合的遥感影像变化检测方法
CN114359723A (zh) * 2021-12-27 2022-04-15 陕西科技大学 一种基于空谱特征融合网络的遥感影像变化检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
佟国峰;李勇;丁伟利;岳晓阳;: "遥感影像变化检测算法综述", 中国图象图形学报, no. 12, 16 December 2015 (2015-12-16), pages 5 - 15 *
张良培;武辰;: "多时相遥感影像变化检测的现状与展望", 测绘学报, no. 10, 15 October 2017 (2017-10-15), pages 249 - 261 *

Also Published As

Publication number Publication date
CN115147760B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN112669325B (zh) 一种基于主动式学习的视频语义分割方法
CN115049936B (zh) 一种面向高分遥感影像的边界增强型语义分割方法
CN110781776B (zh) 一种基于预测和残差细化网络的道路提取方法
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113628249B (zh) 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN111178316A (zh) 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN112733693B (zh) 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN114998373A (zh) 基于多尺度损失函数的改进型U-Net云图分割方法
CN112419325A (zh) 一种基于深度学习的超像素分割方法
CN116778238A (zh) 一种基于轻量型结构感知Transformer网络及VHR遥感图像变化检测方法
CN115147760B (zh) 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
CN115187777A (zh) 一种数据集制作困难下的图像语义分割方法
CN113223006A (zh) 一种基于深度学习的轻量级目标语义分割方法
Geng et al. Dual-path feature aware network for remote sensing image semantic segmentation
Wu et al. Lightweight stepless super-resolution of remote sensing images via saliency-aware dynamic routing strategy
Yian et al. Improved deeplabv3+ network segmentation method for urban road scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant