CN116310812A - 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法 - Google Patents
基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法 Download PDFInfo
- Publication number
- CN116310812A CN116310812A CN202310204005.5A CN202310204005A CN116310812A CN 116310812 A CN116310812 A CN 116310812A CN 202310204005 A CN202310204005 A CN 202310204005A CN 116310812 A CN116310812 A CN 116310812A
- Authority
- CN
- China
- Prior art keywords
- semantic
- input
- resolution
- feature
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,采用两个共享权重的高分辨率网络作为编码器提取双时相遥感图像的语义上下文特征,然后将提取到的语义上下文特征对输入变化特征提取模块得到变化特征,对于每一个时相,将语义上下文特征和变化特征输入特征融合模块得到语义变化特征,最后将双时相语义变化特征输入两个解码器得到双时相语义变化检测结果。在编码器后加入语义分割头和对比学习特征表征头。语义分割头和高分辨编码器构成了语义分割子网,在这个子网中用教师‑学生模型进行半监督语义分割,为将语义上下文特征输入对比学习特征表示头,为对比学习提供语义特征表示。
Description
技术领域
本发明属于遥感图像处理技术领域,具体涉及一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法。
背景技术
在遥感领域,语义变化检测是一种利用地理配准的多时相遥感影像来检测地球表面语义变化的方法,广泛应用于城市规划、环境检测和灾害评估等领域。与仅预测像素级变化或未变化的变化检测不同,语义变化检测不仅可以检测变化位置,还可以指示变化方向(例如,从土地到建筑物的变化,从植被到水面的变化等)。因此,语义变化检测成为了一项重要且具有挑战性的遥感图像解译任务。
近年来,随着传感器技术的进步,大量的多时相高分辨率遥感图像可用,在此基础上,基于深度学习的语义变化检测方法得到了快速发展。与传统的语义变化检测方法相比,其语义变化检测性能有了明显的提高。Yang等人在文献“Asymmetric siamese networksfor semantic change detection in aerial images.”中提出了一个非对称孪生网络,用从不同结构的模块中提取到的特征对来定位和识别语义变化,这些模块涉及不同大小的区域,并应用不同数量的参数来考虑不同地表覆盖分布的差异。Yuan等人在文献“Atransformer-based Siamese network and an open optical dataset for semanticchange detection of remote sensing images”中提出了一种基于transformer的语义变化检测模型PyramidSCDFormer,该模型可以精确识别变化的微小变化和精细的边缘细节。Zhu等人在文献“Land-Use/Land-Cover change detection based on a Siamese globallearning framework for high spatial resolution remote sensing imagery”中提出了一个基于编码器-解码器的孪生网络语义变化检测框架,加入全局层次抽样机制解决样本不平衡问题,此外,在编码器和解码器之间加入二进制变化掩码,弱化了未变化区域对变化区域的影响。Ding等人在文献“Bi-Temporal Semantic Reasoning for the SemanticChange Detection in HR Remote Sensing Images”中提出了Bi-SRNet,它包含两种类型的语义推理块来推理单时态和跨时态语义相关性,以及一个语义一致性损失函数来提高变化检测结果的语义一致性。
但是目前深度学习的语义变化检测方法还存在着一些问题:1.高分辨率语义变化检测数据集在未变化类别和变化类别上存在严重的类别不平衡问题,未变化类别的样本数在总体样本数中占比超过90%,远大于变化类别的样本数。在训练过程中,网络由占比高的未变化类别主导,导致在占比低的变化类别上性能不佳。注意到只有变化类别有语义标签,因此,有必要为变化类别加入对比学习损失函数作为语义分割监督,使网络更加关注这些稀缺类别。2.由于只有变化类别有语义标签,所以有必要在语义分割上采用半监督对比学习,即在语义分割上用教师-学生网络进行自训练,为有标签样本预测标签,为无标签样本预测伪标签,所预测的标签和伪标签都用于对比学习样本采样。3.通过最小化对比学习损失函数可以使表示空间中属于同一类别的样本互相靠近,属于不同类别的样本互相远离,增强稀缺类别的可区分性。在语义类别中,部分类别具有高度的空间相关性和语义相似性,网络在对这些类别进行语义分割时,很容易产生混淆而导致错误分割。因此,在训练过程中,会出现大量难以正确进行分类的样本,即难样本。在对比学习中,有效的难样本挖掘策略非常重要,如何关注和利用这些难样本,让网络能够对它们进行正确地分类是重点和难点。
发明内容
要解决的技术问题
针对目前语义变化检测结果精度不足的问题,本发明提供一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,用于高分辨遥感图像的语义变化检测。
技术方案
一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于步骤如下:
步骤1:构建基于高分辨网络的简单可扩展的直接语义变化检测模型来进行语义变化检测;
将T1和T2时相的遥感图像I1和I2输入两个共享权重的高分辨网络编码器和/>得到语义上下文特征对/>和/>然后将/>和/>输入变化特征提取模块得到变化特征fcd;对于T1时相,将/>和fcd输入特征融合模块,先对/>和/>作绝对差得到dcd,再将dcd进行1次1×1卷积操作得到语义变化特征/>对于T2时相,将/>和fcd输入特征融合模块得到语义变化特征/>最后将/>和/>输入两个解码器/>和/>得到T1和T2时相的语义变化检测结果/>和/>
步骤2:用半监督中的自训练方式进行语义分割;
步骤2-1:构建语义分割子网用于半监督语义分割,对于T1和T2两个时相,分别在高分辨编码器和/>后加入两个不共享权重的语义分割头/>和/>和/>包含2个卷积层和一个softmax操作;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义分割类别数,分辨率保持不变,即H0×W0×6;最后用softmax操作进行归一化,得到语义分割结果/>和/>
步骤2-2:在语义分割子网中以半监督中的自训练方式进行语义分割,自训练使用具有相同架构的学生模型和教师模型,教师模型的参数是学生模型参数的指数移动平均;
为了获得可靠的伪标签,使用学生模型预测的概率分布的熵来评估伪标签的质量,熵计算如下:
其中是教师模型对第u个无标签像素产生的softmax概率,L为语义分割类别数‘’熵越低,伪标签的置信度就越高;在第t次迭代时,对于每一类l∈L,将无标签像素的熵从低到高进行排序,选择最低的/>百分比作为可靠伪标签。由于随着训练的进行,伪标签越来越可靠,因此/>应进行动态调整,/>是一个百分数,计算如下:
为了避免误差的累积,在训练中间开始自训练;
步骤3:在语义分割上使用自适应采样策略进行半监督对比学习;
在高分辨编码器和/>后加入不共享权重的对比学习特征表示头/>和/> 和/>包含2个卷积层;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为256,分辨率保持不变,即H0×W0×256;
其中,L是语义分割类别的数量;zla是第1类第a个锚点的特征向量,是第1类的正样本,是所有第1类样本特征向量的平均值,/>是第1类第a个锚点的第b个属于其他类别的负样本的特征向量;对于L中的每个类别,锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>和/>每个类别都有A个锚点,并且每个锚点都有一个正样本和B个负样本;<·,·>是两个特征向量之间的余弦相似度,用于度量两个特征向量之间的距离,范围为-1到1,τ=0.5是温度系数;对于当前训练批量中的每个类别,通过最小化Lc,拉近该类别的锚点与其正样本的距离,而推远该类别的锚点与其负样本的距离;
步骤4:通过使总体的损失函数L最小来优化模型的参数,总体的损失函数L由T1和T2的语义变化检测损失和/>语义分割上的有监督和无监督损失函数/>和/>以及语义分割上的对比学习损失函数Lc构成;语义变化检测损失/>和/>为交叉熵损失,描述为:
总体的损失函数L描述为:
得到总体的损失函数后进行反向传播,使用AdamW优化器进行优化,重复迭代直至迭代次数达到设置初始值时判定完成训练。
本发明进一步的技术方案:步骤1具体如下:
步骤1-2:将输入高分辨网络编码器/>所述的高分辨网络编码器/>包括4层,第i层包括i个卷积模块Mi,j,i≥1,0≤j<i;卷积模块Mi,j输出的特征图定义为/>特征图的分辨率记为Hi,j×Wi,j,通道数记为Ci,j,其中Hi,j=H0/2j,Wi,j=W0/2j,Ci,j=40×2j;
通过高分辨编码器中所有的卷积模块后,得到的4个不同尺度的特征图k=0,1,2,3;/>的分辨率与通道数分别为H0/2k×W0/2k和40×2k;将/>通过上采样操作统一分辨率,再沿通道维度进行拼接,得到语义上下文特征/>T2时相同理,得到语义上下文特征/>
步骤1-4,对于T1时相,将和fcd输入特征融合模块,特征融合模块包含1个沿通道维度的拼接操作和1个改变通道数的1×1卷积操作;首先沿通道维度进行拼接,再通过1次1×1卷积操作将通道数压缩为原来的1/2,得到尺度为H0×W0×600的语义变化特征/>
步骤1-5,将输入解码器/>解码器包含2个卷积层,一个双线性插值上采样操作和一个softmax操作;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义变化检测类别数,分辨率保持不变,即H0×W0×7;双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率,即Hinput×Winput×7,最后用softmax操作进行归一化,得到时相的语义变化检测结果/>
本发明进一步的技术方案:所有的卷积模块都由3×3卷积层、批归一化层与修正线性单元组成。
本发明进一步的技术方案:步骤2-2自训练过程分为三个步骤:首先,在有标签像素上训练和更新学生模型参数;然后,用学生模型参数的指数移动平均更新教师模型参数,使用教师模型在无标签的像素预测伪标签;最后,用学生模型在有标签像素上的预测值和真实值计算有监督损失,用学生模型在无标签像素上的预测值和伪标签计算无监督损失,通过最小化有监督损失和无监督损失更新学生模型参数;不断迭代以上三个步骤直至收敛,并使用学生模型进行最终评估。
一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的方法。
一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现上述的方法。
有益效果
本发明提供的一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法;通过在语义变化检测中应用半监督语义分割对比学习,充分利用了标记和未标记数据,并有效挖掘由于类别混淆而导致的难分类样本,提高网络对难分类样本的分类性能;本发明提出的模型得到的语义变化区域细节更加精确,形状更加完整,同时对语义变化类别的分类更加准确。
采用半监督语义分割对比学习监督语义分割,在对比学习中,采用自适应的采样策略,通过自适应的采样策略,半监督对比损失可以指导网络为语义分割提供适当的监督,特别是更加关注容易混淆的类别,从而提高模型的整体语义变化性能。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1是本发明实施例方法的网络结构图。
图2是本发明高分辨编码器的网络结构图。
图3是本发明实施例网络模型中对比学习特征表示头和语义分割头结构图。
图4是半监督方法中的自训练流程图。
图5是本发明实施例方法和其他现有方法的语义变化检测结果对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,通过在语义变化检测的语义分割上加入半监督对比学习,来解决现有语义变化检测方法的结果精度较低的问题。本发明构建的基于高分辨网络的遥感图像直接语义变化检测模型用两个共享权重的高分辨率网络作为编码器提取双时相遥感图像的语义上下文特征,然后将提取到的语义上下文特征对输入变化特征提取模块得到变化特征,对于每一个时相,将语义上下文特征和变化特征输入特征融合模块得到语义变化特征,最后将双时相语义变化特征输入两个解码器得到双时相语义变化检测结果。为了使用半监督语义分割对比学习监督语义分割,在编码器后加入语义分割头和对比学习特征表征头。语义分割头和高分辨编码器构成了语义分割子网,在这个子网中用教师-学生模型进行半监督语义分割,为对比学习提供充足的样本空间;将语义上下文特征输入对比学习特征表示头,为对比学习提供语义特征表示。此外,用自适应采样策略进行采样以计算对比学习损失函数。双时相语义变化检测损失函数、语义分割上的有监督和无监督损失函数以及语义分割上的对比学习损失函数构成总体的损失函数,用于优化整体模型。
一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,具体包含以下步骤:
步骤1:构建一个基于高分辨网络的简单可扩展的直接语义变化检测模型来进行语义变化检测;
将T1和T2时相的遥感图像I1和I2输入两个共享权重的高分辨网络编码器和/>得到语义上下文特征对/>和/>然后将/>和/>输入变化特征提取模块得到变化特征fcd。对于T1时相,将/>和fcd输入特征融合模块,先对/>和/>作绝对差得到dcd,再将dcd进行1次1×1卷积操作得到语义变化特征/>对于T2时相,将/>和fcd输入特征融合模块得到语义变化特征/>最后将/>和/>输入两个解码器/>和/>得到T1和T2时相的语义变化检测结果/>和/>由于两个时相在编码和解码阶段步骤相同,所以下面仅以T1时相为例,T2时相同理;
步骤1-2:将输入高分辨网络编码器/>高分辨网络编码器/>包括4层,第i层包括i个卷积模块Mi,j,i≥1,0≤j<i;卷积模块Mi,j输出的特征图定义为/>特征图/>的分辨率记为Hi,j×Wi,j,通道数记为Ci,j,其中Hi,j=H0/2j,Wi,j=W0/2j,Ci,j=40×2j;
通过高分辨编码器中所有的卷积模块后,得到的4个不同尺度的特征图k=0,1,2,3;/>的分辨率与通道数分别为H0/2k×W0/2k和40×2k;将/>通过上采样操作统一分辨率,再沿通道维度进行拼接,得到语义上下文特征/>T2时相同理,得到语义上下文特征/>
步骤1-4,对于T1时相,将和fcd输入特征融合模块,特征融合模块包含1个沿通道维度的拼接操作和1个改变通道数的1×1卷积操作。首先沿通道维度进行拼接,再通过1次1×1卷积操作将通道数压缩为原来的1/2,得到尺度为H0×W0×600的语义变化特征/>
步骤1-5,将输入解码器/>解码器包含2个卷积层,一个双线性插值上采样操作和一个softmax操作。第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义变化检测类别数,分辨率保持不变,即H0×W0×7;双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率,即Hinput×Winput×7,最后用softmax操作进行归一化,得到时相的语义变化检测结果/>
T2时相同理;
优选地,所有的卷积模块都由3×3卷积层、批归一化层与修正线性单元组成。
步骤2:用半监督中的自训练方式进行语义分割;
步骤2-1:构建语义分割子网用于半监督语义分割,对于T1和T2两个时相,分别在高分辨编码器和/>后加入两个不共享权重的语义分割头/>和/>和/>包含2个卷积层和一个softmax操作。第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义分割类别数,分辨率保持不变,即H0×W0×6;最后用softmax操作进行归一化,得到语义分割结果/>和/>
步骤2-2:在语义分割子网中以半监督中的自训练方式进行语义分割,自训练使用具有相同架构的学生模型和教师模型,教师模型的参数是学生模型参数的指数移动平均。自训练过程分为三个步骤:首先,在有标签像素上训练和更新学生模型参数;然后,用学生模型参数的指数移动平均更新教师模型参数,使用教师模型在无标签的像素预测伪标签;最后,用学生模型在有标签像素上的预测值和真实值计算有监督损失,用学生模型在无标签像素上的预测值和伪标签计算无监督损失,通过最小化有监督损失和无监督损失更新学生模型参数。不断迭代以上三个步骤直至收敛,并使用学生模型进行最终评估。
为了获得可靠的伪标签,使用学生模型预测的概率分布的熵来评估伪标签的质量,熵计算如下:
其中是教师模型对第u个无标签像素产生的softmax概率,L为语义分割类别数。熵越低,伪标签的置信度就越高。在第t次迭代时,对于每一类l∈L,将无标签像素的熵从低到高进行排序,选择最低的/>百分比作为可靠伪标签。由于随着训练的进行,伪标签越来越可靠,因此/>应进行动态调整,/>是一个百分数,计算如下:
为了避免误差的累积,在训练中间开始自训练。
步骤3:在语义分割上使用自适应采样策略进行半监督对比学习;
在高分辨编码器和/>后加入不共享权重的对比学习特征表示头/>和/> 和/>包含2个卷积层。第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为256,分辨率保持不变,即H0×W0×256;
其中,L是语义分割类别的数量。zla是第1类第a个锚点的特征向量,是第1类的正样本,是所有第1类样本特征向量的平均值,/>是第1类第a个锚点的第b个属于其他类别的负样本的特征向量。对于L中的每个类别,锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>和/>每个类别都有A个锚点,并且每个锚点都有一个正样本和B个负样本。此处,A=50,B=256。<·,·>是两个特征向量之间的余弦相似度,用于度量两个特征向量之间的距离,范围为-1到1,τ=0.5是温度系数。对于当前训练批量中的每个类别,通过最小化Lc,拉近该类别的锚点与其正样本的距离,而推远该类别的锚点与其负样本的距离。
自适应的采样策略是对于每个类别锚点的负样本,根据类别相似度在其他类别上进行非均匀抽样。因为在一个训练批次中,部分类别具有高度的空间相关性和语义相似性,网络在对这些类别进行语义分割时,很容易产生混淆而导致错误分割。因此,在训练过程中,会出现大量难以正确进行分类的样本,即难样本。
通过自适应采样策略,语义分割上的半监督对比学习能够充分关注和利用难样本,让网络能够对它们进行正确地分类。
步骤4,通过使总体的损失函数L最小来优化模型的参数,总体的损失函数L由T1和T2的语义变化检测损失和/>语义分割上的有监督和无监督损失函数/>和/>以及语义分割上的对比学习损失函数Lc构成。语义变化检测损失/>和/>为交叉熵损失,描述为:
总体的损失函数L描述为:
得到总体的损失函数后进行反向传播,使用AdamW优化器进行优化,重复迭代直至迭代次数达到设置初始值时判定完成训练。
实施例:
图1展示了高分辨率遥感图像直接语义变化检测模型SFSCDNet,图2展示了SFSCDNet中高分辨编码器的结构,图3展示了半监督对比学习中语义分割头和对比学习特征表示头的结构,图4展示了半监督中自训练方法的过程。具体方法包括以下步骤:
S1,将T1和T2时相的遥感图像I1和I2输入两个共享权重的高分辨网络编码器和/>得到语义上下文特征对/>和/>然后将/>和/>输入变化特征提取模块得到变化特征fcd。对于T1时相,将/>和fcd输入特征融合模块,先对/>和/>作绝对差得到dcd,再将dcd进行1次1×1卷积操作得到语义变化特征/>对于T2时相,将/>和fcd输入特征融合模块得到语义变化特征/>最后将/>和/>输入两个解码器/>和/>得到T1和T2时相的语义变化检测结果/>和/>
本实施例中,步骤S1的执行网络简称为SFSCDNet。下文将结合SFSCDNet的结构,对步骤S1-步骤S3的执行过程进一步详细说明。
本实施例中,参见图1和图2,步骤S1将T1和T2时相分辨率为Hinput×Winput×3的遥感图像I1和I2输入共享权重的在ImageNet上预训练的高分辨网络编码器和/>得到分辨率为Hinput/4×Winput/4×600的语义上下文特征对/>和/>变化特征提取模块对/>和作绝对差dcd,再将dcd进行1次1×1卷积操作,得到分辨率为Hinput/4×Winput/4×600变化特征fcd。对于T1时相,将/>和fcd输入特征融合模块,首先沿通道维度进行拼接,再通过1次1×1卷积操作将通道数压缩为原来的1/2,得到分辨率为Hinput/4×Winput/4×600的语义变化特征/>T2时相同理,经过特征融合模块,得到分辨率为Hinput/4×Winput/4×600的语义变化特征/>将/>和/>输入两个结构相同但不共享权重的解码器/>和/>解码器包含2个卷积层,一个双线性插值上采样操作和一个softmax操作。第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即Hinput/4×Winput/4×150,以及包含1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义变化检测类别数,即Hinput/4×Winput/4×7,分辨率保持不变;双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率,最后用softmax操作进行归一化,得到T1和T2时相的语义变化检测结果/>和/>
为了在语义分割上进行半监督学习,以充分利用无标签数据,并给对比学习提供足够的样本空间,步骤S2在高分辨编码器和/>后加入两个不共享权重的语义分割头和/>语义分割头和高分辨编码器构成了语义分割子网,用于半监督语义分割,/>和/>在推理期间被移除。/>和/>的结构参见图3,包含2个卷积层,第一个卷积层包含1个步幅为1填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即Hinput/4×Winput/4×150,以及包含1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义类别数,分辨率保持不变,即Hinput/4×Winput/4×6。
步骤S2在语义分割子网中以半监督中的自训练方式进行语义分割,参见图4,自训练使用具有相同架构的学生模型和教师模型,教师模型的参数是学生模型参数的指数移动平均。自训练过程分为三个步骤:首先,在有标签像素上训练和更新学生模型参数;然后,用学生模型参数的指数移动平均更新教师模型参数,使用教师模型在无标签的像素预测伪标签;最后,用学生模型在有标签像素上的预测值和真实值计算有监督损失,用学生模型在无标签像素上的预测值和伪标签计算无监督损失,用有监督损失和无监督损失更新学生模型参数。不断迭代以上三个步骤直至收敛,并使用学生模型进行最终评估。
为了获得可靠的伪标签,使用学生模型预测的概率分布的熵来评估伪标签的质量,熵计算如下:
其中是教师模型对第u个无标签像素产生的softmax概率,L为语义分割类别数。熵越低,伪标签的置信度就越高。在第t次迭代时,对于每一类l∈L,将无标签像素的熵从低到高进行排序,选择最低的/>百分比作为可靠伪标签。由于随着训练的进行,伪标签越来越可靠,因此/>应进行动态调整,/>是一个百分数,计算如下:
为了避免误差的累积,在训练中间开始自训练。
为了在语义分割上使用自适应采样策略进行半监督对比学习,步骤S3在高分辨编码器和/>后加入不共享权重的对比学习特征表示头/>和/>将语义上下文特征和/>输入对比学习特征表示头/>和/>得到密集语义特征表示/>和/> 和/>的结构参加图3,/>和/>包含2个卷积层,第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为256,分辨率保持不变,即H0×W0×256。由于对比损失仅在训练期间提供监督,因此对比学习特征表示头在推理期间被移除;/>
其中,L是语义分割类别的数量。zla是第1类第a个锚点的特征向量,是第1类的正样本,是所有第1类样本特征向量的平均值,/>是第1类第a个锚点的第b个属于其他类别的负样本的特征向量。对于L中的每个类别,锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>和/>每个类别都有A个锚点,并且每个锚点都有一个正样本和B个负样本。此处,A=50,B=256。<·,·>是两个特征向量之间的余弦相似度,用于度量两个特征向量之间的距离,范围为-1到1,τ=0.5是温度系数。对于当前训练批量中的每个类别,通过最小化Lc,拉近该类别的锚点与其正样本的距离,而推远该类别的锚点与其负样本的距离。
自适应的采样策略是对于每个类别锚点的负样本,根据类别相似度在其他类别上进行非均匀抽样。因为在一个训练批次中,部分类别具有高度的空间相关性和语义相似性,网络在对这些类别进行语义分割时,很容易产生混淆而导致错误分割。因此,在训练过程中,会出现大量难以正确进行分类的样本,即难样本。
通过自适应采样策略,语义分割上的半监督对比学习能够充分关注和利用难样本,让网络能够对它们进行正确地分类。
步骤S4中,总体的损失函数L由T1和T2的语义变化检测损失和/>语义分割上的有监督和无监督损失函数/>和/>以及语义分割上的对比学习损失函数Lc构成,用于优化整体模型。语义变化检测损失/>和/>为交叉熵损失,描述为:
总体的损失函数L描述为:
得到总体的损失函数后进行反向传播,使用AdamW优化器进行优化,重复迭代直至迭代次数达到设置初始值时判定完成训练。
为了验证本方法的有效性,本实施例使用公开数据集SECOND进行了网络框架的训练和测试,并且与其他方法进行了对比。SECOND数据集包含2968组数据,每一组数据包含两张不同时相的图像,每张图像大小为512×512,并且这2968组数据集都包含了变化区域。按照9:1的比例划分训练集和测试集。
本实例提出的算法与7种最新的变化检测方法,DSCD、SCDS、ICDS、ChangeMask、HBSCD、Bi-SRNet和SCDNet进行对比,具体结果如表1所示。评价指标共有3种,分别为mIoU、SeK和Score。结合图3可以看出,本实例实施方法3个评价指标,在mIoU、SeK和Score上达到74.07%、26.68%和40.89%,均是最优结果。与第二好的SCDNet相比,本方法将mIoU提高了1.01%,SeK提高了3.02%,,Score提高了2.3%。图5为本实施例方法和其他现有方法的三组语义变化检测结果对比示意图,通过图5第一行可以看出,本实例方法的在运动场上的语义变化检测效果非常接近真实情况,语义变化区域预测完整,且轮廓清晰。在第二行和第三行输入图像对中,本实施例方法在水面上的语义变化检测结果更加完整和准确,在第三行可以看出,本实施例方法检测出了从土地到低矮植被的变化,但是其他对比方法有误报或者漏检的情况。
表1本发明实施例方法和其他现有方法的测试结果对比表
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于步骤如下:
步骤1:构建基于高分辨网络的简单可扩展的直接语义变化检测模型来进行语义变化检测;
将T1和T2时相的遥感图像I1和I2输入两个共享权重的高分辨网络编码器和/>得到语义上下文特征对/>和/>然后将/>和/>输入变化特征提取模块得到变化特征fcd;对于T1时相,将/>和fcd输入特征融合模块,先对/>和/>作绝对差得到dcd,再将dcd进行1次1×1卷积操作得到语义变化特征/>对于T2时相,将/>和fcd输入特征融合模块得到语义变化特征/>最后将/>和/>输入两个解码器/>和/>得到T1和T2时相的语义变化检测结果/>和/>
步骤2:用半监督中的自训练方式进行语义分割;
步骤2-1:构建语义分割子网用于半监督语义分割,对于T1和T2两个时相,分别在高分辨编码器和/>后加入两个不共享权重的语义分割头/>和/>和/>包含2个卷积层和一个softmax操作;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义分割类别数,分辨率保持不变,即H0×W0×6;最后用softmax操作进行归一化,得到语义分割结果/>和/>
步骤2-2:在语义分割子网中以半监督中的自训练方式进行语义分割,自训练使用具有相同架构的学生模型和教师模型,教师模型的参数是学生模型参数的指数移动平均;
为了获得可靠的伪标签,使用学生模型预测的概率分布的熵来评估伪标签的质量,熵计算如下:
其中是教师模型对第u个无标签像素产生的softmax概率,L为语义分割类别数‘’熵越低,伪标签的置信度就越高;在第t次迭代时,对于每一类l∈L,将无标签像素的熵从低到高进行排序,选择最低的/>百分比作为可靠伪标签。由于随着训练的进行,伪标签越来越可靠,因此/>应进行动态调整,/>是一个百分数,计算如下:
为了避免误差的累积,在训练中间开始自训练;
步骤3:在语义分割上使用自适应采样策略进行半监督对比学习;
在高分辨编码器和/>后加入不共享权重的对比学习特征表示头/>和/> 和包含2个卷积层;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为256,分辨率保持不变,即H0×W0×256;
其中,L是语义分割类别的数量;zla是第l类第a个锚点的特征向量,是第l类的正样本,是所有第l类样本特征向量的平均值,/>是第l类第a个锚点的第b个属于其他类别的负样本的特征向量;对于L中的每个类别,锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>和/>每个类别都有A个锚点,并且每个锚点都有一个正样本和B个负样本;<·,·>是两个特征向量之间的余弦相似度,用于度量两个特征向量之间的距离,范围为-1到1,τ=0.5是温度系数;对于当前训练批量中的每个类别,通过最小化Lc,拉近该类别的锚点与其正样本的距离,而推远该类别的锚点与其负样本的距离;
步骤4:通过使总体的损失函数L最小来优化模型的参数,总体的损失函数L由T1和T2的语义变化检测损失和/>语义分割上的有监督和无监督损失函数/>和/>以及语义分割上的对比学习损失函数Lc构成;语义变化检测损失/>和/>为交叉熵损失,描述为:
总体的损失函数L描述为:
得到总体的损失函数后进行反向传播,使用AdamW优化器进行优化,重复迭代直至迭代次数达到设置初始值时判定完成训练。
2.根据权利要求1所述的基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于:步骤1具体如下:
步骤1-2:将输入高分辨网络编码器/>所述的高分辨网络编码器/>包括4层,第i层包括i个卷积模块Mi,j,i≥1,0≤j<i;卷积模块Mi,j输出的特征图定义为/>特征图/>的分辨率记为Hi,j×Wi,j,通道数记为Ci,j,其中Hi,j=H0/2j,Wi,j=W0/2j,Ci,j=40×2j;
通过高分辨编码器中所有的卷积模块后,得到的4个不同尺度的特征图k=0,1,2,3;/>的分辨率与通道数分别为H0/2k×W0/2k和40×2k;将/>通过上采样操作统一分辨率,再沿通道维度进行拼接,得到语义上下文特征/>T2时相同理,得到语义上下文特征/>
步骤1-4,对于T1时相,将和fcd输入特征融合模块,特征融合模块包含1个沿通道维度的拼接操作和1个改变通道数的1×1卷积操作;首先沿通道维度进行拼接,再通过1次1×1卷积操作将通道数压缩为原来的1/2,得到尺度为H0×W0×600的语义变化特征/>
步骤1-5,将输入解码器/>解码器包含2个卷积层,一个双线性插值上采样操作和一个softmax操作;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义变化检测类别数,分辨率保持不变,即H0×W0×7;双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率,即Hinput×Winput×7,最后用softmax操作进行归一化,得到时相的语义变化检测结果/>
3.根据权利要求2所述的基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于:所有的卷积模块都由3×3卷积层、批归一化层与修正线性单元组成。
4.根据权利要求1所述的基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于:步骤2-2自训练过程分为三个步骤:首先,在有标签像素上训练和更新学生模型参数;然后,用学生模型参数的指数移动平均更新教师模型参数,使用教师模型在无标签的像素预测伪标签;最后,用学生模型在有标签像素上的预测值和真实值计算有监督损失,用学生模型在无标签像素上的预测值和伪标签计算无监督损失,通过最小化有监督损失和无监督损失更新学生模型参数;不断迭代以上三个步骤直至收敛,并使用学生模型进行最终评估。
5.一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1所述的方法。
6.一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204005.5A CN116310812A (zh) | 2023-03-06 | 2023-03-06 | 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204005.5A CN116310812A (zh) | 2023-03-06 | 2023-03-06 | 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310812A true CN116310812A (zh) | 2023-06-23 |
Family
ID=86786330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310204005.5A Pending CN116310812A (zh) | 2023-03-06 | 2023-03-06 | 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310812A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475155A (zh) * | 2023-12-26 | 2024-01-30 | 厦门瑞为信息技术有限公司 | 基于半监督学习的轻量级遥感图像分割方法 |
-
2023
- 2023-03-06 CN CN202310204005.5A patent/CN116310812A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475155A (zh) * | 2023-12-26 | 2024-01-30 | 厦门瑞为信息技术有限公司 | 基于半监督学习的轻量级遥感图像分割方法 |
CN117475155B (zh) * | 2023-12-26 | 2024-04-02 | 厦门瑞为信息技术有限公司 | 基于半监督学习的轻量级遥感图像分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Uncertainty estimation for stereo matching based on evidential deep learning | |
CN110969088B (zh) | 一种基于显著性检测与深度孪生神经网络的遥感影像变化检测方法 | |
CN112132149B (zh) | 一种遥感影像语义分割方法及装置 | |
CN112733800B (zh) | 基于卷积神经网络的遥感图像道路信息提取方法和装置 | |
CN109871875B (zh) | 一种基于深度学习的建筑物变化检测方法 | |
CN113763442A (zh) | 一种可变形医学图像配准方法及系统 | |
CN111583276B (zh) | 基于cgan的空间目标isar图像部件分割方法 | |
CN113920170B (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN112163106B (zh) | 二阶相似感知的图像哈希码提取模型建立方法及其应用 | |
CN116310812A (zh) | 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法 | |
CN114913434B (zh) | 一种基于全局关系推理的高分辨率遥感影像变化检测方法 | |
CN113518307A (zh) | 基于csi与众包迁移自校准更新的位置指纹定位方法 | |
Hughes et al. | A semi-supervised approach to SAR-optical image matching | |
Wang et al. | Small vehicle classification in the wild using generative adversarial network | |
Xi et al. | Attention Deeplabv3 model and its application into gear pitting measurement | |
Zhang et al. | Global attention network with multiscale feature fusion for infrared small target detection | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
CN115345322B (zh) | 一种基于层级化元迁移的小样本雷达目标识别方法 | |
CN116258877A (zh) | 土地利用场景相似度变化检测方法、装置、介质及设备 | |
CN116523897A (zh) | 一种基于互导学习的半监督浒苔检测方法及系统 | |
CN116580243A (zh) | 一种掩码图像建模引导域适应的跨域遥感场景分类方法 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
CN115829996A (zh) | 基于深度特征图的无监督合成孔径雷达图像变化检测方法 | |
CN115439669A (zh) | 基于深度学习的特征点检测网络及跨分辨率图像匹配方法 | |
Sanjaya et al. | Semantic segmentation for aerial images: a literature review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |