CN115147760B - 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法 - Google Patents
基于视频理解和时空解耦的高分辨率遥感影像变化检测方法 Download PDFInfo
- Publication number
- CN115147760B CN115147760B CN202210742299.2A CN202210742299A CN115147760B CN 115147760 B CN115147760 B CN 115147760B CN 202210742299 A CN202210742299 A CN 202210742299A CN 115147760 B CN115147760 B CN 115147760B
- Authority
- CN
- China
- Prior art keywords
- time
- space
- encoder
- output
- remote sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008859 change Effects 0.000 title claims abstract description 90
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 230000002776 aggregation Effects 0.000 claims abstract description 20
- 238000004220 aggregation Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 32
- 230000004913 activation Effects 0.000 claims description 21
- 230000002123 temporal effect Effects 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000000750 progressive effect Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010276 construction Methods 0.000 abstract description 2
- 238000013461 design Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及一种基于视频理解和时空解耦的高分辨率遥感影像变化检测方法。本发明针对双时相高分辨率遥感影像对空间、时间维度构造不平衡的特点,采用时序线性插值策略构建伪视频帧序列,扩展时间维度,使得使用视频理解算法处理变化检测任务成为可能。本发明结合变化检测任务侧重时空信息的特点,提出一种时空解耦的编码器设计方案,使网络一次只关注问题的一个维度,从而缓解解码器的负担,提升检测效果。同时,为了促进时空编码器间的信息交流,本发明提出时序聚合模块,将其设置在空间编码器到时间编码器的边路连接中,提升时空特征的契合度。此外,本发明使用深度监督技术,改善深层模型收敛速度,解决模型中间层特征有效性不足的问题。
Description
技术领域
本发明涉及遥感影像变化检测领域,特别涉及一种通过时序插值实现影像对-伪视频帧序列变换、并基于此搭建时空解耦的网络结构对遥感影像进行变化检测的技术方法。以数据驱动的方式完成整个变化检测网络的训练,实现对高分辨率遥感影像对中变化信息的精准提取。
背景技术
遥感影像变化检测旨在通过对同一地区不同时间重复观测来分析区域内地物的状态变化。自上世纪70年代以来,国内外研究者针对不同来源的遥感影像数据,从不同的角度进行分析,提出了大量模型与方法。随着卫星传感器技术和信号传输技术的进步,遥感影像的获取越来越便捷,影像的空间分辨率也不断提升。日益丰富的高分辨率遥感数据为遥感影像变化检测领域同时带来了契机与挑战。一方面,相比中低分辨率遥感影像,高分辨率遥感影像能够提供更加丰富的地物细节和空间分布信息,从而有助于发现细小变化以及更好地定位变化地物的边界。另一方面,在高分辨率影像中,同一地物通常以面状的形式出现,像素之间彼此独立的假设不再成立,同一地物内部的像素灰度受目标的材质和反射特性影响起伏不定,“同物异谱,同谱异物”的现象相较中低分辨率遥感影像更为明显,致使检测变化区域的难度急剧上升。近年来,随着深度学习在人工智能领域的兴起和成熟,基于高分辨率遥感影像的变化检测获得了新的解决方案。深度学习方法使用海量样本对网络模型进行训练,使模型具备提取更具判别性特征的能力,从而避免了繁琐而低效的手工特征提取。与此同时,相比传统算法,深度学习架构往往具有更高的并行度,且具备端到端的优良性质,能够实现高效、准确的推理。考虑到遥感影像具有海量、多维的天然性质,深度学习十分适用于对遥感影像变化检测任务进行学习和优化。研究基于深度学习的高分辨率遥感影像变化检测方法,不仅可以大大提升检测精度,同时也能够极大地加速变化检测算法的智能化和自动化进程,使其具有更高的应用价值。
总体来说,目前的遥感影像变化检测算法可归为三类:
基于像素的传统变化检测方法:基于像素的变化检测方法是所有方法中最早被发展、种类最丰富的。作为中低分辨率影像变化检测的主要方法,基于像素方法中最具代表性的当属影像代数法、影像变换法以及分类检测法。影像代数法通过两幅影像对应波段间逐像素的代数运算得到变化强度图,其思想影响了许多后来提出的更先进的变化检测算法。影像变换法从数据的统计结构出发,根据主成分分析、慢特征分析等理论,对输入影像进行数学变换后提取像素级变化信息。分类检测法首先对每个时相的影像进行独立分类,再根据分类结果得到变化检测结果。传统的像素级变化检测方法往往原理简单,实现方便。然而,由于高分辨率遥感影像中地物的复杂性,这些方法仅适用于处理一些影像波段数较少、场景相对简单的情况,很难在各种场景下杜绝检测结果中的大面积错漏现象。
基于对象的传统变化检测方法:基于对象的变化检测算法突破了基于像素变化检测方法处理高分辨率影像效果不佳的限制。这类方法首先根据像素的空间与光谱性质分割出对象,然后以对象代替像素作为检测过程中的基本处理单元。与基于像素方法相比,基于对象的变化检测方法具有准确刻画地物边界、确保地物内部变化状态一致的天然优势,但其仍具有两个主要限制:首先,基于对象方法的检测效果极大地受制于分割出的对象的质量;其次,基于对象的变化检测方法往往采用先分割对象、后提取变化特征的两阶段结构,而非采用端到端框架优化,这样容易导致误差累积,从而难以得到全局最优解。
基于深度学习的变化检测方法:这类方法又可以细分为三个小类:基于特征的方法,基于影像块的方法,以及基于全图的方法。基于深度学习的变化检测方法能够利用高分辨率影像丰富的空间和光谱信息,获得更加有效和鲁棒的特征,从而在一定程度上克服传统算法的不足。然而,现有的大部分基于深度学习的变化检测算法均要么将重点放在对空间和光谱信息的更有效利用上,要么将重点放在不同时相间影像间的领域对齐上。这些算法多使用语义分割或度量学习模型处理变化检测任务,以逐像素差分或通道维度拼接作为时间维度信息提取的主要手段,缺乏对时序过程的显式建模,忽略了“变化是过程”的本质。少部分算法显式考虑了时序信息,但对于时间维度的建模不够完备,也不利于算法性能的提升。
因此,基于深度学习的变化检测算法还有很大的改进空间,有必要发展顾及时序信息挖掘的高分辨率遥感影像变化检测算法。
发明内容
针对现有基于深度学习的遥感影像变化检测算法的缺点,本发明提出一种基于视频理解和时空解耦的高分辨率遥感影像变化检测方法,由影像对构建视频帧序列,将多时相影像的空间维度与时间维度解耦,设计双流结构,分别搭建空间与时间分支,实现对时空信息的充分挖掘,从而更准确地定位变化区域。
本发明的技术方案提供一种基于视频理解和时空解耦的高分辨率遥感影像变化检测方法,包括以下步骤:
步骤1,根据输入的双时相遥感影像对,通过时序插值策略,得到伪视频帧序列,伪视频帧序列中的每一幅影像均与原始图像具有相同的空间尺寸和数值范围;
步骤2,构建时间编码器与空间编码器,时间编码器接收伪视频帧序列作为输入,首先执行下采样操作,然后通过级联的三维卷积层提取特征,空间编码器接收原始双时相遥感影像对作为输入,使用二维卷积层提取特征,在两个编码器间设置单向的边路连接,使用时序聚合模块(temporal aggregation module,TAM)处理从时间编码器传递到空间编码器的特征;
步骤3,构建渐进式解码器,将空间编码器各个层级模块的输出与解码器中各个层级模块的输入相连接,解码器最后的卷积层输出单通道变化概率图;
步骤4,在时间编码器末端添加额外的卷积层,并对其输出施加深度监督,构建联合损失函数,使用梯度下降法对整个网络进行权重参数的优化,直到损失收敛;其中,时间编码器末端的卷积层仅在模型训练阶段提供额外输出,在模型推理阶段,仍使用解码器最后的卷积层输出的单通道变化概率图作为网络最终输出。
进一步的,步骤1中,假设第一时相原始影像为I1,第二时相原始影像为I2,视频共包含N帧,则对第n帧影像Fn的插值公式为:
进一步的,步骤2中,空间编码器的输入为:
Xs=concat(I1,I2) (2)
其中,第一时相原始影像为I1,第二时相原始影像为I2,concat()表示通道维度的拼接操作,空间编码器的基本组成模块为空间模块S-Block,S-Block又分为S-Block I与S-Block II两种类型;两种类型的空间模块的起始部分均包含两个级联的卷积层以及对应的BN层和ReLU激活函数,而末尾部分均为一个最大池化层;相比S-Block I,S-Block II具有一个额外的卷积层以及对应的BN层和ReLU激活函数,也因此具有更强的特征提取和拟合能力,在第一个ReLU激活函数的输出和最后一个归一化层的输出之间添加有残差连接;两个S-Block I和一个S-Block II依次连接构成空间编码器。
进一步的,时间编码器的输入为:
Xt=stack(F0,F1,F2,...,FN-1) (3)
其中,stack()表示在新的维度叠加影像的操作,时间编码器的基本组成模块为时间模块T-Block;T-Block首先使用一个1×1×1卷积层减少输入特征的通道数;然后将特征送入一个3×3×3卷积层进行处理,以实现对空间上下文的编码和对变化信息的充分挖掘;最后再次使用一个1×1×1卷积层增加特征通道数,提高模型容量;在每个卷积层之后增加BN层,在第一个和第二个BN层之后增加ReLU激活函数,此外,为了缓解梯度消失问题、提升模块的收敛性能,在T-Block的输入和输出之间增加了残差连接,残差支路使用1×1×1卷积层和BN层匹配特征通道数;在时间编码器的第一个T-Block前添加一个由卷积层、BN层以及ReLU激活函数串联组成的降采样模块,卷积核的大小被设置为3×9×9,步长被设置为1×4×4,经过降采样模块后,输入视频帧序列的空间分辨率将被降低4倍,这可以降低时间编码器对空间信息的关注程序,实现显式时空解耦。
进一步的,时序聚合模块TAM首先对时间编码器的某一层级输出的特征进行时间维度的全局最大池化与全局平均池化,以得到对T-Block提取特征中所蕴含的时序变化信息的高效表示;接着,将两种池化结果在通道维度上拼接,得到聚合特征;最后,使用卷积核大小为1×1的卷积层以及一个批归一化层和ReLU激活函数对聚合特征进行点对点变换,得到最终输出。
进一步的,在步骤3中,渐进式解码器串联了一个卷积层和数个解码模块D-Block,D-Block的总数比空间编码器中S-Block的数量多一个;D-Block接收两个输入,分别是上一个D-Block的输出以及处于同一层级的S-Block的输出,首先对上级解码特征进行上采样,然后将上采样结果和同级编码特征在通道维度上拼接,最后使用两个卷积层进行特征融合,在每个卷积层之后增加BN层和ReLU激活函数,在两个卷积层间添加残差连接以缓解梯度消失问题。
进一步的,在步骤4中,通过最小化联合损失函数来进行训练整个变化检测网络,联合损失函数可表示为:
L=l(Pfinal,R)+λl(Pinter,R) (4)
其中l表示对每个输出-真值标签对所使用的具体损失函数,Pfinal和Pinter分别表示模型最终输出和旁路输出的变化概率图,其中模型最终输出即解码器输出,旁路输出即时间编码器输出,R表示真值变化标签,而λ则是辅助损失的权重系数,选取类别均衡交叉熵损失作为具体的损失类型:
其中,H和W分别表示图像的高和宽,i和j分别表示图像的第i行和第j列,wc和wu则分别为变化类与不变类的类别权重系数,使用Adam优化器调整梯度,最小化损失函数。
进一步的,空间编码器中共包含3个S-Block,分别设置三个S-Block的输出通道数为32、64和128。
进一步的,时间编码器包含1个降采样模块和4个T-Block,下采样模块的输出通道数设置为64;对于4个T-Block,分别将输出通道数设置为256、256、512和512。
本发明提出的基于视频理解和时空解耦的高分辨率遥感影像变化检测方法,首次将变化检测问题转换为视频的密集分类问题,并使用一个空间编码器和一个时间编码器分别处理双时相输入影像与构建的伪视频帧序列,从而实现时间和空间维度的显式解耦。
同时,针对高分辨率遥感影像中地物场景复杂、检测结果中容易出现伪变化情况,本发明提出的方法充分利用了多时相遥感影像的丰富信息,通过时序插值缓解原始数据在时间和空间维度构造上的不平衡,使模型更加专注于变化信息的提炼,从而抑制结果中的伪变化。本发明提出的方法在高分辨率遥感影像的后续应用,比如城市建筑物变化监测、灾害监测等方面都具有重大作用。因此,基于视频理解和时空解耦的高分辨率遥感影像变化检测算法不仅具有非常重要的学术价值,而且具有重要的现实意义。
本发明不仅提出了一种与现有的深度学习变化检测框架不同的、新的深度学习变化检测范式,强调了对时序信息的充分利用,同时也首次显式地考虑变化检测任务中存在的时空耦合问题,并提出一种行之有效的解决方案,精准刻画变化地物边界。
附图说明
图1是本发明的整体网络结构图;
图2是空间编码器、时间编码器与渐进式解码器基本组件结构图;
图3是时序插值模块结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,将结合实例对基于视频理解和时空解耦的遥感影像变化检测方法进一步详细说明。应当理解,此处所描述的具体实例仅仅用于解释本发明,并不用于限定本发明。
本发明提出一种基于视频理解和时空解耦的遥感影像变化检测方法,把“变化”看作连续的“时序过程”,而非离散的“状态改变”,从而将变化检测问题建模为一个视频理解任务。通过时序插值,将双时相影像对转换为伪视频帧序列,缓解原始数据时间与空间构造上的不平衡。采用时空解耦的编码器设置,分别使用一个时间编码器和一个空间编码器处理时空信息,使模型一次只关注一个维度,避免时空耦合带来的不利影响。在两个编码器间添加了边路连接,促进时空特征之间的交互。除此之外,本发明还对时间编码器的输出施加深度监督,从而迫使时间编码器学到更加有用的特征,并加速训练过程。
步骤1,根据输入的双时相遥感影像对,通过时序插值策略,得到伪视频帧序列,伪视频帧序列中的每一幅影像均与原始图像具有相同的空间尺寸和数值范围;
步骤2,构建时间编码器与空间编码器,时间编码器接收伪视频帧序列作为输入,首先执行下采样操作,然后通过级联的三维卷积层提取特征,空间编码器接收原始双时相遥感影像对作为输入,使用二维卷积层提取特征,在两个编码器间设置单向的边路连接,使用时序聚合模块(temporal aggregation module,TAM)处理从时间编码器传递到空间编码器的特征;
步骤3,构建渐进式解码器,将空间编码器各个层级模块的输出与解码器中各个层级模块的输入相连接,解码器最后的卷积层输出单通道变化概率图;
步骤4,在时间编码器末端添加额外的卷积层,并对其输出施加深度监督,构建联合损失函数,使用梯度下降法对整个网络进行权重参数的优化,直到损失收敛。时间编码器末端的卷积层仅在模型训练阶段提供额外输出,在模型推理阶段,仍使用解码器最后的卷积层输出的单通道变化概率图作为网络最终输出。
进一步地,步骤1中,假设第一时相原始影像为I1,第二时相原始影像为I2,视频共包含N帧,则对第n帧影像Fn的插值公式为:
进一步地,步骤2中,空间编码器的输入为:
Xs=concat(I1,I2) (7)
其中,concat()表示通道维度的拼接操作,空间编码器的基本组成模块为空间模块S-Block,S-Block又可以分为S-Block I与S-Block II两种类型,其结构分别如图2(a)和(b)所示;两种类型的空间模块的起始部分均包含两个级联的卷积层(以及对应的BN层和ReLU激活函数),而末尾部分均为一个最大池化层;相比S-Block I,S-Block II具有一个额外的卷积层以及对应的BN层和ReLU激活函数,也因此具有更强的特征提取和拟合能力,在第一个ReLU激活函数的输出和最后一个归一化层的输出之间添加有残差连接。两个S-Block I和一个S-Block II依次连接构成空间编码器。
进一步地,时间编码器的输入为:
Xt=stack(F0,F1,F2,...,FN-1) (8)
其中,stack()表示在新的维度叠加影像的操作,时间编码器的基本组成模块为时间模块T-Block,其结构如图2(c)所示;T-Block首先使用一个1×1×1卷积层减少输入特征的通道数;然后将特征送入一个3×3×3卷积层进行处理,以实现对空间上下文的编码和对变化信息的充分挖掘;最后再次使用一个1×1×1卷积层增加特征通道数,提高模型容量。在每个卷积层之后增加BN层,在第一个和第二个BN层之后增加ReLU激活函数。此外,为了缓解梯度消失问题、提升模块的收敛性能,在T-Block的输入和输出之间增加了残差连接,残差支路使用1×1×1卷积层和BN层匹配特征通道数。如图1所示,在时间编码器的第一个T-Block前添加一个由卷积层、BN层以及ReLU激活函数串联组成的降采样模块(即图1中标示的stem部分),卷积核的大小被设置为3×9×9,步长被设置为1×4×4,经过降采样模块后,输入视频帧序列的空间分辨率将被降低4倍,这可以降低时间编码器对空间信息的关注程序,实现显式时空解耦。
进一步地,时序聚合模块TAM首先对时间编码器的某一层级输出的特征进行时间维度的全局最大池化与全局平均池化,以得到对T-Block提取特征中所蕴含的时序变化信息的高效表示;接着,将两种池化结果在通道维度上拼接,得到聚合特征;最后,使用卷积核大小为1×1的卷积层以及一个批归一化层和ReLU激活函数对聚合特征进行点对点变换,得到最终输出。
进一步地,在步骤3中,渐进式解码器串联了一个卷积层和数个解码模块D-Block,D-Block的总数比空间编码器中S-Block(包括S-Block I和S-Block II)的数量多一个,其中每个D-Block的结构如图2(d)所示;D-Block接收两个输入,分别是上一个D-Block(或最靠前的卷积层)的输出以及处于同一层级的S-Block的输出,首先对上级解码特征进行上采样,然后将上采样结果和同级编码特征在通道维度上拼接,最后使用两个卷积层进行特征融合,在每个卷积层之后增加BN层和ReLU激活函数,在两个卷积层间添加残差连接以缓解梯度消失问题;如图1所示,原始双时相影像对的通道维拼接结果也被作为一个层级的编码特征,这是为了尽最大可能保留图像中的空间细节信息。
进一步地,在步骤4中,通过最小化联合损失函数来进行训练整个变化检测网络,联合损失函数可表示为:
L=l(Pfinal,R)+λl(Pinter,R) (9)
其中l表示对每个输出-真值标签对所使用的具体损失函数,Pfinal和Pinter分别表示模型最终输出(即解码器输出)和旁路输出(即时间编码器输出)的变化概率图,R表示真值变化标签,而λ则是辅助损失的权重系数,选取类别均衡交叉熵损失作为具体的损失类型:
其中,H和W分别表示图像的高和宽,i和j分别表示图像的第i行和第j列,wc和wu则分别为变化类与不变类的类别权重系数,使用Adam优化器调整梯度,最小化损失函数。
本发明可采用计算机软件技术进行实现。以下结合图1详述实施例高分辨率遥感影像变化检测方法的具体步骤。
步骤1,对输入的双时相高分辨率遥感影像对进行时间维度的插值操作,得到伪视频帧序列。
本发明中提出的基于视频理解和时空解耦的高分辨率遥感影像变化检测方法,是使用线性插值策略得到视频中每一帧的影像,并以第一时相的影像作为初始帧,以第二时相的影像作为结束帧。实例中,原始影像的空间尺寸为256×256,波段数为3。伪视频帧序列的长度T为8,代表插值结果中共包含8帧影像,其中每幅影像的空间尺寸为256×256,波段数为3。插值操作可通过NumPy科学计算库或PyTorch深度学习框架编写代码以向量化方式执行。具体实施时,本领域技术人员可根据实际算力与对时间分辨率的需求选取伪视频帧序列长度T的取值,一般而言T越大则算法执行耗时越长,需要使用的计算资源更多,但精度指标一般也更佳。
步骤2,构建时间编码器与空间编码器,分别接受视频帧序列和原始双时相遥感影像对作为输入,在两个编码器间添加边路连接,并使用时序聚合模块TAM处理从时间编码器传递到空间编码器的特征。
实例中,空间编码器中共包含3个S-Block,而时间编码器包含1个降采样模块和4个T-Block。分别设置三个S-Block的输出通道数为32、64和128。对于前两个S-Block,采用S-Block I类型;对于第三个S-Block,采用S-Block II类型。将时间编码器中下采样模块的输出通道数设置为64。对于4个T-Block,分别将输出通道数设置为256、256、512和512。特别地,对于第3个T-Block,其干路和旁路(残差支路)上的3×3卷积层在时间和空间维度上步长均设置为2,以便实现时空降采样。根据以上设置,无论是空间编码器还是时间编码器都具有8的输出步长(output stride),即输出编码特征的空间分辨率为输入特征的1/8。此外,为了促进时间与空间信息的交换,在两个编码器间加入边路连接,将时间编码器的第2个和第4个T-Block输出的中间层特征首先经过时序聚合模块TAM处理,然后传送到空间编码器,分别作为第2个和第3个S-Block的输入。具体实施时,本领域技术人员可以根据实际需要对S-Block和T-Block的个数进行调整,但必须保证S-Block的数量比T-Block少1、比时序聚合模块的数量多1。
步骤3,构建渐进式解码器,将空间编码器各个层级模块的输出与解码器中各个层级模块的输入相连接,解码器最后的卷积层输出单通道变化概率图。
实例中,解码器串联了一个卷积层和4级D-Block,其中每个D-Block接收上一个D-Block(或最靠前的卷积层)的输出以及处于同一层级的S-Block的输出。具体实施时必须保证D-Block的数量比S-Block多1。
步骤4,通过解码器的最终输出与时间编码器的旁路输出计算损失,使用梯度下降法对整个网络进行权重参数的优化,直到损失收敛。
在实例中,使用类别平衡交叉熵损失计算联合损失中的每一项,将正负类的权重系数分别设置为0.5和0.5,将施加在时间编码器上的辅助损失的权重系数设置为0.4。使用Adam优化器进行求解,设置初始学习率为0.0004,训练共持续26万次迭代。具体实施时,本领域技术人员可以根据具体使用的数据集对训练超参数进行调整。
本领域普通技术人员可以理解,本发明首次从视频理解角度看待变化检测问题,通过结合二维与三维卷积神经网络挖掘多时相影像对中的时空特征,从而实现更精细化的时序建模。其次,对于编码器结构采用时空解耦的设计,增强网络提取时空特征的能力,从而缓解解码器的负担,降低训练难度。最后,通过边路连接和时序聚合模块,一方面增强两个编码器间的信息交互,另一方面也使网络学习到的时间特征与空间特征更加契合,提升模型的准确性和鲁棒性。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (9)
1.基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于,包括以下步骤:
步骤1,根据输入的双时相遥感影像对,通过时序插值策略,得到伪视频帧序列,伪视频帧序列中的每一幅影像均与原始图像具有相同的空间尺寸和数值范围;
步骤2,构建时间编码器与空间编码器,时间编码器接收伪视频帧序列作为输入,首先执行下采样操作,然后通过级联的三维卷积层提取特征,空间编码器接收原始双时相遥感影像对作为输入,使用二维卷积层提取特征,在两个编码器间设置单向的边路连接,使用时序聚合模块(temporal aggregation module,TAM)处理从时间编码器传递到空间编码器的特征;
步骤3,构建渐进式解码器,将空间编码器各个层级模块的输出与解码器中各个层级模块的输入相连接,解码器最后的卷积层输出单通道变化概率图;
步骤4,在时间编码器末端添加额外的卷积层,并对其输出施加深度监督,构建联合损失函数,使用梯度下降法对整个网络进行权重参数的优化,直到损失收敛;其中,时间编码器末端的卷积层仅在模型训练阶段提供额外输出,在模型推理阶段,仍使用解码器最后的卷积层输出的单通道变化概率图作为网络最终输出。
2.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:步骤1中,假设第一时相原始影像为I1,第二时相原始影像为I2,视频共包含N帧,则对第n帧影像Fn的插值公式为:
3.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:步骤2中,空间编码器的输入为:
Xs=concat(I1,I2) (2)
其中,第一时相原始影像为I1,第二时相原始影像为I2,concat()表示通道维度的拼接操作,空间编码器的基本组成模块为空间模块S-Block,S-Block又分为S-Block I与S-Block II两种类型;两种类型的空间模块的起始部分均包含两个级联的卷积层以及对应的BN层和ReLU激活函数,而末尾部分均为一个最大池化层;相比S-BlockI,S-BlockII具有一个额外的卷积层以及对应的BN层和ReLU激活函数,也因此具有更强的特征提取和拟合能力,在第一个ReLU激活函数的输出和最后一个归一化层的输出之间添加有残差连接;两个S-Block I和一个S-Block II依次连接构成空间编码器。
4.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:时间编码器的输入为:
Xt=stack(F0,F1,F2,...,FN-1) (3)
其中,stack()表示在新的维度叠加影像的操作,时间编码器的基本组成模块为时间模块T-Block;T-Block首先使用一个1×1×1卷积层减少输入特征的通道数;然后将特征送入一个3×3×3卷积层进行处理,以实现对空间上下文的编码和对变化信息的充分挖掘;最后再次使用一个1×1×1卷积层增加特征通道数,提高模型容量;在每个卷积层之后增加BN层,在第一个和第二个BN层之后增加ReLU激活函数,此外,为了缓解梯度消失问题、提升模块的收敛性能,在T-Block的输入和输出之间增加了残差连接,残差支路使用1×1×1卷积层和BN层匹配特征通道数;在时间编码器的第一个T-Block前添加一个由卷积层、BN层以及ReLU激活函数串联组成的降采样模块,卷积核的大小被设置为3×9×9,步长被设置为1×4×4,经过降采样模块后,输入视频帧序列的空间分辨率将被降低4倍,这可以降低时间编码器对空间信息的关注程序,实现显式时空解耦。
5.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:时序聚合模块TAM首先对时间编码器的某一层级输出的特征进行时间维度的全局最大池化与全局平均池化,以得到对T-Block提取特征中所蕴含的时序变化信息的高效表示;接着,将两种池化结果在通道维度上拼接,得到聚合特征;最后,使用卷积核大小为1×1的卷积层以及一个批归一化层和ReLU激活函数对聚合特征进行点对点变换,得到最终输出。
6.如权利要求3所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:在步骤3中,渐进式解码器串联了一个卷积层和数个解码模块D-Block,D-Block的总数比空间编码器中S-Block的数量多一个;D-Block接收两个输入,分别是上一个D-Block的输出以及处于同一层级的S-Block的输出,首先对上级解码特征进行上采样,然后将上采样结果和同级编码特征在通道维度上拼接,最后使用两个卷积层进行特征融合,在每个卷积层之后增加BN层和ReLU激活函数,在两个卷积层间添加残差连接以缓解梯度消失问题。
7.如权利要求1所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:在步骤4中,通过最小化联合损失函数来进行训练整个变化检测网络,联合损失函数可表示为:
L=l(Pfinal,R)+λl(Pinter,R) (4)
其中l表示对每个输出-真值标签对所使用的具体损失函数,Pfinal和Pinter分别表示模型最终输出和旁路输出的变化概率图,其中模型最终输出即解码器输出,旁路输出即时间编码器输出,R表示真值变化标签,而λ则是辅助损失的权重系数,选取类别均衡交叉熵损失作为具体的损失类型:
其中,H和W分别表示图像的高和宽,i和j分别表示图像的第i行和第j列,wc和wu则分别为变化类与不变类的类别权重系数,使用Adam优化器调整梯度,最小化损失函数。
8.如权利要求3所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:空间编码器中共包含3个S-Block,分别设置三个S-Block的输出通道数为32、64和128。
9.如权利要求4所述的基于视频理解和时空解耦的高分辨率遥感影像变化检测算法,其特征在于:时间编码器包含1个降采样模块和4个T-Block,下采样模块的输出通道数设置为64;对于4个T-Block,分别将输出通道数设置为256、256、512和512。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742299.2A CN115147760B (zh) | 2022-06-27 | 2022-06-27 | 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742299.2A CN115147760B (zh) | 2022-06-27 | 2022-06-27 | 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115147760A CN115147760A (zh) | 2022-10-04 |
CN115147760B true CN115147760B (zh) | 2024-04-19 |
Family
ID=83410214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210742299.2A Active CN115147760B (zh) | 2022-06-27 | 2022-06-27 | 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115147760B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259853A (zh) * | 2020-02-04 | 2020-06-09 | 中国科学院计算技术研究所 | 一种高分辨率遥感图像变化检测方法、系统及装置 |
CN112577473A (zh) * | 2020-12-21 | 2021-03-30 | 陕西土豆数据科技有限公司 | 一种双时相的高分辨率遥感影像变化检测算法 |
CN112949549A (zh) * | 2021-03-19 | 2021-06-11 | 中山大学 | 一种基于超分辨率的多分辨率遥感影像的变化检测方法 |
CN113420662A (zh) * | 2021-06-23 | 2021-09-21 | 西安电子科技大学 | 基于孪生多尺度差异特征融合的遥感影像变化检测方法 |
CN114359723A (zh) * | 2021-12-27 | 2022-04-15 | 陕西科技大学 | 一种基于空谱特征融合网络的遥感影像变化检测方法 |
-
2022
- 2022-06-27 CN CN202210742299.2A patent/CN115147760B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259853A (zh) * | 2020-02-04 | 2020-06-09 | 中国科学院计算技术研究所 | 一种高分辨率遥感图像变化检测方法、系统及装置 |
CN112577473A (zh) * | 2020-12-21 | 2021-03-30 | 陕西土豆数据科技有限公司 | 一种双时相的高分辨率遥感影像变化检测算法 |
CN112949549A (zh) * | 2021-03-19 | 2021-06-11 | 中山大学 | 一种基于超分辨率的多分辨率遥感影像的变化检测方法 |
CN113420662A (zh) * | 2021-06-23 | 2021-09-21 | 西安电子科技大学 | 基于孪生多尺度差异特征融合的遥感影像变化检测方法 |
CN114359723A (zh) * | 2021-12-27 | 2022-04-15 | 陕西科技大学 | 一种基于空谱特征融合网络的遥感影像变化检测方法 |
Non-Patent Citations (2)
Title |
---|
多时相遥感影像变化检测的现状与展望;张良培;武辰;;测绘学报;20171015(第10期);249-261 * |
遥感影像变化检测算法综述;佟国峰;李勇;丁伟利;岳晓阳;;中国图象图形学报;20151216(第12期);5-15 * |
Also Published As
Publication number | Publication date |
---|---|
CN115147760A (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325751B (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
CN115601549B (zh) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 | |
CN115049936B (zh) | 一种面向高分遥感影像的边界增强型语义分割方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN110569851B (zh) | 门控多层融合的实时语义分割方法 | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
CN115797635A (zh) | 一种基于并行特征补全的多阶段实例分割方法及系统 | |
CN117557779A (zh) | 一种基于yolo的多尺度目标检测方法 | |
Chong et al. | Multi-hierarchy feature extraction and multi-step cost aggregation for stereo matching | |
Xing et al. | MABNet: a lightweight stereo network based on multibranch adjustable bottleneck module | |
CN113392727B (zh) | 一种基于动态特征选择的rgb-d显著目标检测方法 | |
Gao et al. | Multi-branch aware module with channel shuffle pixel-wise attention for lightweight image super-resolution | |
Geng et al. | Dual-path feature aware network for remote sensing image semantic segmentation | |
CN117830900A (zh) | 一种无监督视频对象分割方法 | |
CN117649526A (zh) | 一种面向自动驾驶道路场景的高精度语义分割方法 | |
CN115147760B (zh) | 基于视频理解和时空解耦的高分辨率遥感影像变化检测方法 | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
CN112419325A (zh) | 一种基于深度学习的超像素分割方法 | |
CN117011527A (zh) | 一种基于空间移位和卷积的轻量化图像语义分割方法 | |
CN116704367A (zh) | 一种多尺度特征融合耕地变化检测方法及系统 | |
Wu et al. | Lightweight stepless super-resolution of remote sensing images via saliency-aware dynamic routing strategy | |
CN115731280A (zh) | 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法 | |
CN115187777A (zh) | 一种数据集制作困难下的图像语义分割方法 | |
CN116152441B (zh) | 一种基于深度先验的多分辨率U-net曲面重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |