CN116310812A

CN116310812A - 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法

Info

Publication number: CN116310812A
Application number: CN202310204005.5A
Authority: CN
Inventors: 张秀伟; 张艳宁; 杨一哲; 于雷; 安博远; 田牧; 尹翰林
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-23

Abstract

本发明涉及一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法，采用两个共享权重的高分辨率网络作为编码器提取双时相遥感图像的语义上下文特征，然后将提取到的语义上下文特征对输入变化特征提取模块得到变化特征，对于每一个时相，将语义上下文特征和变化特征输入特征融合模块得到语义变化特征，最后将双时相语义变化特征输入两个解码器得到双时相语义变化检测结果。在编码器后加入语义分割头和对比学习特征表征头。语义分割头和高分辨编码器构成了语义分割子网，在这个子网中用教师‑学生模型进行半监督语义分割，为将语义上下文特征输入对比学习特征表示头，为对比学习提供语义特征表示。

Description

基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法

技术领域

本发明属于遥感图像处理技术领域，具体涉及一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法。

背景技术

在遥感领域，语义变化检测是一种利用地理配准的多时相遥感影像来检测地球表面语义变化的方法，广泛应用于城市规划、环境检测和灾害评估等领域。与仅预测像素级变化或未变化的变化检测不同，语义变化检测不仅可以检测变化位置，还可以指示变化方向(例如，从土地到建筑物的变化，从植被到水面的变化等)。因此，语义变化检测成为了一项重要且具有挑战性的遥感图像解译任务。

近年来，随着传感器技术的进步，大量的多时相高分辨率遥感图像可用，在此基础上，基于深度学习的语义变化检测方法得到了快速发展。与传统的语义变化检测方法相比，其语义变化检测性能有了明显的提高。Yang等人在文献“Asymmetric siamese networksfor semantic change detection in aerial images.”中提出了一个非对称孪生网络，用从不同结构的模块中提取到的特征对来定位和识别语义变化，这些模块涉及不同大小的区域，并应用不同数量的参数来考虑不同地表覆盖分布的差异。Yuan等人在文献“Atransformer-based Siamese network and an open optical dataset for semanticchange detection of remote sensing images”中提出了一种基于transformer的语义变化检测模型PyramidSCDFormer，该模型可以精确识别变化的微小变化和精细的边缘细节。Zhu等人在文献“Land-Use/Land-Cover change detection based on a Siamese globallearning framework for high spatial resolution remote sensing imagery”中提出了一个基于编码器-解码器的孪生网络语义变化检测框架，加入全局层次抽样机制解决样本不平衡问题，此外，在编码器和解码器之间加入二进制变化掩码，弱化了未变化区域对变化区域的影响。Ding等人在文献“Bi-Temporal Semantic Reasoning for the SemanticChange Detection in HR Remote Sensing Images”中提出了Bi-SRNet，它包含两种类型的语义推理块来推理单时态和跨时态语义相关性，以及一个语义一致性损失函数来提高变化检测结果的语义一致性。

但是目前深度学习的语义变化检测方法还存在着一些问题：1.高分辨率语义变化检测数据集在未变化类别和变化类别上存在严重的类别不平衡问题，未变化类别的样本数在总体样本数中占比超过90％，远大于变化类别的样本数。在训练过程中，网络由占比高的未变化类别主导，导致在占比低的变化类别上性能不佳。注意到只有变化类别有语义标签，因此，有必要为变化类别加入对比学习损失函数作为语义分割监督，使网络更加关注这些稀缺类别。2.由于只有变化类别有语义标签，所以有必要在语义分割上采用半监督对比学习，即在语义分割上用教师-学生网络进行自训练，为有标签样本预测标签，为无标签样本预测伪标签，所预测的标签和伪标签都用于对比学习样本采样。3.通过最小化对比学习损失函数可以使表示空间中属于同一类别的样本互相靠近，属于不同类别的样本互相远离，增强稀缺类别的可区分性。在语义类别中，部分类别具有高度的空间相关性和语义相似性，网络在对这些类别进行语义分割时，很容易产生混淆而导致错误分割。因此，在训练过程中，会出现大量难以正确进行分类的样本，即难样本。在对比学习中，有效的难样本挖掘策略非常重要，如何关注和利用这些难样本，让网络能够对它们进行正确地分类是重点和难点。

发明内容

要解决的技术问题

针对目前语义变化检测结果精度不足的问题，本发明提供一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法，用于高分辨遥感图像的语义变化检测。

技术方案

一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法，其特征在于步骤如下：

步骤1：构建基于高分辨网络的简单可扩展的直接语义变化检测模型来进行语义变化检测；

将T¹和T²时相的遥感图像I¹和I²输入两个共享权重的高分辨网络编码器

和/>

得到语义上下文特征对/>

和/>

然后将/>

和/>

输入变化特征提取模块得到变化特征f_cd；对于T¹时相，将/>

和f_cd输入特征融合模块，先对/>

和/>

作绝对差得到d_cd，再将d_cd进行1次1×1卷积操作得到语义变化特征/>

对于T²时相，将/>

和f_cd输入特征融合模块得到语义变化特征/>

最后将/>

和/>

输入两个解码器/>

和/>

得到T¹和T²时相的语义变化检测结果/>

和/>

步骤2：用半监督中的自训练方式进行语义分割；

步骤2-1：构建语义分割子网用于半监督语义分割，对于T¹和T²两个时相，分别在高分辨编码器

和/>

后加入两个不共享权重的语义分割头/>

和/>

和/>

包含2个卷积层和一个softmax操作；第一个卷积层包含1个步幅为1，填充为2的3×3卷积，该卷积操作将输入特征向量通道数变为原来1/4，分辨率保持不变，即H₀×W₀×150，以及1个批归一化操作和1修正线性单元；第二个卷积层包含1个步幅为1的1×1卷积操作，将输入特征向量通道数变为语义分割类别数，分辨率保持不变，即H₀×W₀×6；最后用softmax操作进行归一化，得到语义分割结果/>

和/>

语义分割头和高分辨编码器构成了语义分割子网，将语义上下文特征对

和/>

输入语义分割头/>

和/>

去进行半监督语义分割；因为仅在训练阶段使用半监督语义分割，所以/>

和/>

在推理期间被移除；

步骤2-2：在语义分割子网中以半监督中的自训练方式进行语义分割，自训练使用具有相同架构的学生模型和教师模型，教师模型的参数是学生模型参数的指数移动平均；

为了获得可靠的伪标签，使用学生模型预测的概率分布的熵来评估伪标签的质量，熵计算如下：

其中

是教师模型对第u个无标签像素产生的softmax概率，L为语义分割类别数‘’熵越低，伪标签的置信度就越高；在第t次迭代时，对于每一类l∈L，将无标签像素的熵从低到高进行排序，选择最低的/>

百分比作为可靠伪标签。由于随着训练的进行，伪标签越来越可靠，因此/>

应进行动态调整，/>

是一个百分数，计算如下：

其中α₀为初始百分比，设为50％，α_e为最终百分比，设为80％，

是t-1次迭代中类1的预测准确率，代表着所有分类为1的样本中预测正确样本的概率；

为了避免误差的累积，在训练中间开始自训练；

语义分割上的有监督和无监督损失函数

和/>

为交叉熵损失，描述为：

其中N_l为有标签像素的个数，N_u为无标签像素的个数，

和/>

分别表示真值标签和语义分割头在第p个有标记像素上的预测概率，/>

和/>

分别表示伪标签和语义分割头在第p个无标记像素上的预测概率；

步骤3：在语义分割上使用自适应采样策略进行半监督对比学习；

在高分辨编码器

和/>

后加入不共享权重的对比学习特征表示头/>

和/>

和/>

包含2个卷积层；第一个卷积层包含1个步幅为1，填充为2的3×3卷积，该卷积操作将输入特征向量通道数变为原来1/4，分辨率保持不变，即H₀×W₀×150，以及1个批归一化操作和1修正线性单元；第二个卷积层包含1个步幅为1的1×1卷积操作，将输入特征向量通道数变为256，分辨率保持不变，即H₀×W₀×256；

将语义上下文特征

和/>

输入对比学习特征表示头/>

和/>

得到密集语义特征表示/>

和/>

由于对比损失仅在训练期间提供监督，因此对比学习特征表示头在推理期间被移除；

用自适应的采样策略在语义特征表示

和/>

中对不同语义类别的样本对应的特征向量进行采样，采样空间为学生模型在无标签像素上预测的伪标签和真实标签，计算对比学习损失函数L_c：

其中，L是语义分割类别的数量；z_la是第1类第a个锚点的特征向量，

是第1类的正样本，是所有第1类样本特征向量的平均值，/>

是第1类第a个锚点的第b个属于其他类别的负样本的特征向量；对于L中的每个类别，锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>

和/>

每个类别都有A个锚点，并且每个锚点都有一个正样本和B个负样本；<·，·>是两个特征向量之间的余弦相似度，用于度量两个特征向量之间的距离，范围为-1到1，τ＝0.5是温度系数；对于当前训练批量中的每个类别，通过最小化L_c，拉近该类别的锚点与其正样本的距离，而推远该类别的锚点与其负样本的距离；

对于语义类别1，本发明根据相似度分布

在其他类别上进行非均匀抽样，相似度分布定义如下：

由类别1与其他类别经过softmax归一化后的类别相似度组成，/>

和/>

是类别1和g的正样本，<·，·>是两个特征向量之间的余弦相似度；

步骤4：通过使总体的损失函数L最小来优化模型的参数，总体的损失函数L由T¹和T²的语义变化检测损失

和/>

语义分割上的有监督和无监督损失函数/>

和/>

以及语义分割上的对比学习损失函数L_c构成；语义变化检测损失/>

和/>

为交叉熵损失，描述为：

其中T为像素的个数，

和/>

和/>

分别表示真值标签和解码器/>

和/>

在第t个像素上的预测概率；

总体的损失函数L描述为：

得到总体的损失函数后进行反向传播，使用AdamW优化器进行优化，重复迭代直至迭代次数达到设置初始值时判定完成训练。

本发明进一步的技术方案：步骤1具体如下：

步骤1-1：对于T¹时相，遥感图像I¹通过卷积模块M₀得到的维度为H₀×W₀×64的特征图

H₀＝H_input/4，W₀＝W_input/4，其中H_input与W_input为输入图像I¹的高和宽；

步骤1-2：将

输入高分辨网络编码器/>

所述的高分辨网络编码器/>

包括4层，第i层包括i个卷积模块M_i，j，i≥1，0≤j＜i；卷积模块M_i，j输出的特征图定义为/>

特征图

的分辨率记为H_i，j×W_i，j，通道数记为C_i，j，其中H_i，j＝H₀/2^j，W_i，j＝W₀/2^j，C_i，j＝40×2^j；

当i≥2时，将第i-1层卷积模块M_i-1，y的输出

经过如下处理统一输入分辨率及通道数后采用加法融合输入第i层的卷积模块M_i，j，y∈[0，i-2]；

当y＜j时，对特征图

进行j-y次步长为2的跨步卷积，每次跨步卷积通过3×3卷积使得特征图的通道数翻倍，分辨率减半；

当y＝j时，对特征图

进行3×3卷积进行特征的提取且通道数与分辨率不变；

当y＞j时，对特征图

进行3×3卷积，并将通道数变为40×2j，且使用双线性插值上采样操作使得分辨率变为H₀/2^j×W₀/2^j；

通过高分辨编码器中所有的卷积模块后，得到的4个不同尺度的特征图

k＝0，1，2，3；/>

的分辨率与通道数分别为H₀/2^k×W₀/2^k和40×2^k；将/>

通过上采样操作统一分辨率，再沿通道维度进行拼接，得到语义上下文特征/>

T²时相同理，得到语义上下文特征/>

步骤1-3，将语义上下文特征对

和/>

输入变化特征提取模块，对/>

和/>

作绝对差d_cd，再将d_cd进行1次1×1卷积操作，得到尺度为H₀×W₀×600变化特征f_cd；

步骤1-4，对于T¹时相，将

和f_cd输入特征融合模块，特征融合模块包含1个沿通道维度的拼接操作和1个改变通道数的1×1卷积操作；首先沿通道维度进行拼接，再通过1次1×1卷积操作将通道数压缩为原来的1/2，得到尺度为H₀×W₀×600的语义变化特征/>

步骤1-5，将

输入解码器/>

解码器包含2个卷积层，一个双线性插值上采样操作和一个softmax操作；第一个卷积层包含1个步幅为1，填充为2的3×3卷积，该卷积操作将输入特征向量通道数变为原来1/4，分辨率保持不变，即H₀×W₀×150，以及1个批归一化操作和1修正线性单元；第二个卷积层包含1个步幅为1的1×1卷积操作，将输入特征向量通道数变为语义变化检测类别数，分辨率保持不变，即H₀×W₀×7；双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率，即H_input×W_input×7，最后用softmax操作进行归一化，得到时相的语义变化检测结果/>

T²时相同理得到

本发明进一步的技术方案：所有的卷积模块都由3×3卷积层、批归一化层与修正线性单元组成。

本发明进一步的技术方案：步骤2-2自训练过程分为三个步骤：首先，在有标签像素上训练和更新学生模型参数；然后，用学生模型参数的指数移动平均更新教师模型参数，使用教师模型在无标签的像素预测伪标签；最后，用学生模型在有标签像素上的预测值和真实值计算有监督损失，用学生模型在无标签像素上的预测值和伪标签计算无监督损失，通过最小化有监督损失和无监督损失更新学生模型参数；不断迭代以上三个步骤直至收敛，并使用学生模型进行最终评估。

一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的方法。

一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现上述的方法。

有益效果

本发明提供的一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法；通过在语义变化检测中应用半监督语义分割对比学习，充分利用了标记和未标记数据，并有效挖掘由于类别混淆而导致的难分类样本，提高网络对难分类样本的分类性能；本发明提出的模型得到的语义变化区域细节更加精确，形状更加完整，同时对语义变化类别的分类更加准确。

采用半监督语义分割对比学习监督语义分割，在对比学习中，采用自适应的采样策略，通过自适应的采样策略，半监督对比损失可以指导网络为语义分割提供适当的监督，特别是更加关注容易混淆的类别，从而提高模型的整体语义变化性能。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1是本发明实施例方法的网络结构图。

图2是本发明高分辨编码器的网络结构图。

图3是本发明实施例网络模型中对比学习特征表示头和语义分割头结构图。

图4是半监督方法中的自训练流程图。

图5是本发明实施例方法和其他现有方法的语义变化检测结果对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法，通过在语义变化检测的语义分割上加入半监督对比学习，来解决现有语义变化检测方法的结果精度较低的问题。本发明构建的基于高分辨网络的遥感图像直接语义变化检测模型用两个共享权重的高分辨率网络作为编码器提取双时相遥感图像的语义上下文特征，然后将提取到的语义上下文特征对输入变化特征提取模块得到变化特征，对于每一个时相，将语义上下文特征和变化特征输入特征融合模块得到语义变化特征，最后将双时相语义变化特征输入两个解码器得到双时相语义变化检测结果。为了使用半监督语义分割对比学习监督语义分割，在编码器后加入语义分割头和对比学习特征表征头。语义分割头和高分辨编码器构成了语义分割子网，在这个子网中用教师-学生模型进行半监督语义分割，为对比学习提供充足的样本空间；将语义上下文特征输入对比学习特征表示头，为对比学习提供语义特征表示。此外，用自适应采样策略进行采样以计算对比学习损失函数。双时相语义变化检测损失函数、语义分割上的有监督和无监督损失函数以及语义分割上的对比学习损失函数构成总体的损失函数，用于优化整体模型。

一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法，具体包含以下步骤：

步骤1：构建一个基于高分辨网络的简单可扩展的直接语义变化检测模型来进行语义变化检测；

和/>

得到语义上下文特征对/>

和/>

然后将/>

和/>

输入变化特征提取模块得到变化特征f_cd。对于T¹时相，将/>

和f_cd输入特征融合模块，先对/>

和/>

对于T²时相，将/>

和f_cd输入特征融合模块得到语义变化特征/>

最后将/>

和/>

输入两个解码器/>

和/>

得到T¹和T²时相的语义变化检测结果/>

和/>

由于两个时相在编码和解码阶段步骤相同，所以下面仅以T¹时相为例，T²时相同理；

其中H_input与W_input为输入图像I¹的高和宽，H₀＝H_input/4与W₀＝W_input/4；

步骤1-2：将

输入高分辨网络编码器/>

高分辨网络编码器/>

特征图/>

当i≥2时，将第i-1层卷积模块M_i-1，y的输出

当y＜j时，对特征图

当y＝j时，对特征图

进行3×3卷积进行特征的提取且通道数与分辨率不变；

当y＞j时，对特征图

进行3×3卷积，并将通道数变为40×2^j，且使用双线性插值上采样操作使得分辨率变为H₀/2^j×W₀/2^j；

k＝0，1，2，3；/>

的分辨率与通道数分别为H₀/2^k×W₀/2^k和40×2^k；将/>

T²时相同理，得到语义上下文特征/>

步骤1-3，将语义上下文特征对

和/>

输入变化特征提取模块，对/>

和/>

步骤1-4，对于T¹时相，将

和f_cd输入特征融合模块，特征融合模块包含1个沿通道维度的拼接操作和1个改变通道数的1×1卷积操作。首先沿通道维度进行拼接，再通过1次1×1卷积操作将通道数压缩为原来的1/2，得到尺度为H₀×W₀×600的语义变化特征/>

步骤1-5，将

输入解码器/>

解码器包含2个卷积层，一个双线性插值上采样操作和一个softmax操作。第一个卷积层包含1个步幅为1，填充为2的3×3卷积，该卷积操作将输入特征向量通道数变为原来1/4，分辨率保持不变，即H₀×W₀×150，以及1个批归一化操作和1修正线性单元；第二个卷积层包含1个步幅为1的1×1卷积操作，将输入特征向量通道数变为语义变化检测类别数，分辨率保持不变，即H₀×W₀×7；双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率，即H_input×W_input×7，最后用softmax操作进行归一化，得到时相的语义变化检测结果/>

T²时相同理；

优选地，所有的卷积模块都由3×3卷积层、批归一化层与修正线性单元组成。

步骤2：用半监督中的自训练方式进行语义分割；

和/>

后加入两个不共享权重的语义分割头/>

和/>

和/>

包含2个卷积层和一个softmax操作。第一个卷积层包含1个步幅为1，填充为2的3×3卷积，该卷积操作将输入特征向量通道数变为原来1/4，分辨率保持不变，即H₀×W₀×150，以及1个批归一化操作和1修正线性单元；第二个卷积层包含1个步幅为1的1×1卷积操作，将输入特征向量通道数变为语义分割类别数，分辨率保持不变，即H₀×W₀×6；最后用softmax操作进行归一化，得到语义分割结果/>

和/>

和/>

输入语义分割头/>

和/>

和/>

在推理期间被移除；

步骤2-2：在语义分割子网中以半监督中的自训练方式进行语义分割，自训练使用具有相同架构的学生模型和教师模型，教师模型的参数是学生模型参数的指数移动平均。自训练过程分为三个步骤：首先，在有标签像素上训练和更新学生模型参数；然后，用学生模型参数的指数移动平均更新教师模型参数，使用教师模型在无标签的像素预测伪标签；最后，用学生模型在有标签像素上的预测值和真实值计算有监督损失，用学生模型在无标签像素上的预测值和伪标签计算无监督损失，通过最小化有监督损失和无监督损失更新学生模型参数。不断迭代以上三个步骤直至收敛，并使用学生模型进行最终评估。

其中

是教师模型对第u个无标签像素产生的softmax概率，L为语义分割类别数。熵越低，伪标签的置信度就越高。在第t次迭代时，对于每一类l∈L，将无标签像素的熵从低到高进行排序，选择最低的/>

应进行动态调整，/>

是一个百分数，计算如下：

是t-1次迭代中类1的预测准确率，代表着所有分类为1的样本中预测正确样本的概率。

为了避免误差的累积，在训练中间开始自训练。

语义分割上的有监督和无监督损失函数

和/>

为交叉熵损失，描述为：

其中N_l为有标签像素的个数，N_u为无标签像素的个数，

和/>

和/>

分别表示伪标签和语义分割头在第p个无标记像素上的预测概率。

在高分辨编码器

和/>

后加入不共享权重的对比学习特征表示头/>

和/>

和/>

包含2个卷积层。第一个卷积层包含1个步幅为1，填充为2的3×3卷积，该卷积操作将输入特征向量通道数变为原来1/4，分辨率保持不变，即H₀×W₀×150，以及1个批归一化操作和1修正线性单元；第二个卷积层包含1个步幅为1的1×1卷积操作，将输入特征向量通道数变为256，分辨率保持不变，即H₀×W₀×256；

将语义上下文特征

和/>

输入对比学习特征表示头/>

和/>

得到密集语义特征表示/>

和/>

用自适应的采样策略在语义特征表示

和/>

其中，L是语义分割类别的数量。z_la是第1类第a个锚点的特征向量，

是第1类的正样本，是所有第1类样本特征向量的平均值，/>

是第1类第a个锚点的第b个属于其他类别的负样本的特征向量。对于L中的每个类别，锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>

和/>

每个类别都有A个锚点，并且每个锚点都有一个正样本和B个负样本。此处，A＝50，B＝256。<·，·>是两个特征向量之间的余弦相似度，用于度量两个特征向量之间的距离，范围为-1到1，τ＝0.5是温度系数。对于当前训练批量中的每个类别，通过最小化L_c，拉近该类别的锚点与其正样本的距离，而推远该类别的锚点与其负样本的距离。

自适应的采样策略是对于每个类别锚点的负样本，根据类别相似度在其他类别上进行非均匀抽样。因为在一个训练批次中，部分类别具有高度的空间相关性和语义相似性，网络在对这些类别进行语义分割时，很容易产生混淆而导致错误分割。因此，在训练过程中，会出现大量难以正确进行分类的样本，即难样本。

因此，对于语义类别1，本发明根据相似度分布

在其他类别上进行非均匀抽样，相似度分布定义如下：

由类别1与其他类别经过softmax归一化后的类别相似度组成，/>

和/>

是类别1和g的正样本，<·，·>是两个特征向量之间的余弦相似度。

通过自适应采样策略，语义分割上的半监督对比学习能够充分关注和利用难样本，让网络能够对它们进行正确地分类。

步骤4，通过使总体的损失函数L最小来优化模型的参数，总体的损失函数L由T¹和T²的语义变化检测损失

和/>

语义分割上的有监督和无监督损失函数/>

和/>

以及语义分割上的对比学习损失函数L_c构成。语义变化检测损失/>

和/>

为交叉熵损失，描述为：

其中T为像素的个数，

和/>

和/>

分别表示真值标签和解码器/>

和/>

在第t个像素上的预测概率。

总体的损失函数L描述为：

实施例：

图1展示了高分辨率遥感图像直接语义变化检测模型SFSCDNet，图2展示了SFSCDNet中高分辨编码器的结构，图3展示了半监督对比学习中语义分割头和对比学习特征表示头的结构，图4展示了半监督中自训练方法的过程。具体方法包括以下步骤：

S1，将T¹和T²时相的遥感图像I¹和I²输入两个共享权重的高分辨网络编码器

和/>

得到语义上下文特征对/>

和/>

然后将/>

和/>

输入变化特征提取模块得到变化特征f_cd。对于T¹时相，将/>

和f_cd输入特征融合模块，先对/>

和/>

对于T²时相，将/>

和f_cd输入特征融合模块得到语义变化特征/>

最后将/>

和/>

输入两个解码器/>

和/>

得到T¹和T²时相的语义变化检测结果/>

和/>

S2，在高分辨编码器

和/>

后加入两个不共享权重的语义分割头/>

和/>

语义分割头和高分辨编码器构成了语义分割子网，将语义上下文特征对/>

和/>

输入语义分割头/>

和/>

去进行半监督语义分割；

S3，在高分辨编码器

和/>

后加入不共享权重的对比学习特征表示头/>

和/>

将语义上下文特征/>

和/>

输入对比学习特征表示头/>

和/>

得到密集语义特征表示/>

和/>

用于计算对比损失；

S4，用AdamW优化器最小化总体的损失函数L来优化模型参数，总体的损失函数L由T¹和T²的语义变化检测损失

和/>

语义分割上的有监督和无监督损失函数/>

和

以及语义分割上的对比学习损失函数L_c构成。

本实施例中，步骤S1的执行网络简称为SFSCDNet。下文将结合SFSCDNet的结构，对步骤S1-步骤S3的执行过程进一步详细说明。

本实施例中，参见图1和图2，步骤S1将T¹和T²时相分辨率为H_input×W_input×3的遥感图像I¹和I²输入共享权重的在ImageNet上预训练的高分辨网络编码器

和/>

得到分辨率为H_input/4×W_input/4×600的语义上下文特征对/>

和/>

变化特征提取模块对/>

和

作绝对差dcd，再将d_cd进行1次1×1卷积操作，得到分辨率为H_input/4×W_input/4×600变化特征f_cd。对于T¹时相，将/>

和f_cd输入特征融合模块，首先沿通道维度进行拼接，再通过1次1×1卷积操作将通道数压缩为原来的1/2，得到分辨率为H_input/4×W_input/4×600的语义变化特征/>

T²时相同理，经过特征融合模块，得到分辨率为H_input/4×W_input/4×600的语义变化特征/>

将/>

和/>

输入两个结构相同但不共享权重的解码器/>

和/>

解码器包含2个卷积层，一个双线性插值上采样操作和一个softmax操作。第一个卷积层包含1个步幅为1，填充为2的3×3卷积，该卷积操作将输入特征向量通道数变为原来1/4，分辨率保持不变，即H_input/4×W_input/4×150，以及包含1个批归一化操作和1修正线性单元；第二个卷积层包含1个步幅为1的1×1卷积操作，将输入特征向量通道数变为语义变化检测类别数，即H_input/4×W_input/4×7，分辨率保持不变；双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率，最后用softmax操作进行归一化，得到T¹和T²时相的语义变化检测结果/>

和/>

为了在语义分割上进行半监督学习，以充分利用无标签数据，并给对比学习提供足够的样本空间，步骤S2在高分辨编码器

和/>

后加入两个不共享权重的语义分割头

和/>

语义分割头和高分辨编码器构成了语义分割子网，用于半监督语义分割，/>

和/>

在推理期间被移除。/>

和/>

的结构参见图3，包含2个卷积层，第一个卷积层包含1个步幅为1填充为2的3×3卷积，该卷积操作将输入特征向量通道数变为原来1/4，分辨率保持不变，即H_input/4×W_input/4×150，以及包含1个批归一化操作和1修正线性单元；第二个卷积层包含1个步幅为1的1×1卷积操作，将输入特征向量通道数变为语义类别数，分辨率保持不变，即H_input/4×W_input/4×6。

步骤S2在语义分割子网中以半监督中的自训练方式进行语义分割，参见图4，自训练使用具有相同架构的学生模型和教师模型，教师模型的参数是学生模型参数的指数移动平均。自训练过程分为三个步骤：首先，在有标签像素上训练和更新学生模型参数；然后，用学生模型参数的指数移动平均更新教师模型参数，使用教师模型在无标签的像素预测伪标签；最后，用学生模型在有标签像素上的预测值和真实值计算有监督损失，用学生模型在无标签像素上的预测值和伪标签计算无监督损失，用有监督损失和无监督损失更新学生模型参数。不断迭代以上三个步骤直至收敛，并使用学生模型进行最终评估。

其中

应进行动态调整，/>

是一个百分数，计算如下：

为了避免误差的累积，在训练中间开始自训练。

语义分割上的有监督和无监督损失函数

和/>

为交叉熵损失，描述为：

其中N_l为有标签像素的个数，N_u为无标签像素的个数，

和/>

和/>

为了在语义分割上使用自适应采样策略进行半监督对比学习，步骤S3在高分辨编码器

和/>

后加入不共享权重的对比学习特征表示头/>

和/>

将语义上下文特征

和/>

输入对比学习特征表示头/>

和/>

得到密集语义特征表示/>

和/>

和/>

的结构参加图3，/>

和/>

包含2个卷积层，第一个卷积层包含1个步幅为1，填充为2的3×3卷积，该卷积操作将输入特征向量通道数变为原来1/4，分辨率保持不变，即H₀×W₀×150，以及1个批归一化操作和1修正线性单元；第二个卷积层包含1个步幅为1的1×1卷积操作，将输入特征向量通道数变为256，分辨率保持不变，即H₀×W₀×256。由于对比损失仅在训练期间提供监督，因此对比学习特征表示头在推理期间被移除；/>

用自适应的采样策略在语义特征表示

和/>

是第1类的正样本，是所有第1类样本特征向量的平均值，/>

和/>

因此，对于语义类别1，本发明根据相似度分布

在其他类别上进行非均匀抽样，相似度分布定义如下：

由类别1与其他类别经过softmax归一化后的类别相似度组成，/>

和/>

步骤S4中，总体的损失函数L由T¹和T²的语义变化检测损失

和/>

语义分割上的有监督和无监督损失函数/>

和/>

以及语义分割上的对比学习损失函数L_c构成，用于优化整体模型。语义变化检测损失/>

和/>

为交叉熵损失，描述为：

/>

其中T为像素的个数，

和/>

和/>

分别表示真值标签和解码器/>

和/>

在第t个像素上的预测概率。

总体的损失函数L描述为：

为了验证本方法的有效性，本实施例使用公开数据集SECOND进行了网络框架的训练和测试，并且与其他方法进行了对比。SECOND数据集包含2968组数据，每一组数据包含两张不同时相的图像，每张图像大小为512×512，并且这2968组数据集都包含了变化区域。按照9：1的比例划分训练集和测试集。

本实例提出的算法与7种最新的变化检测方法，DSCD、SCDS、ICDS、ChangeMask、HBSCD、Bi-SRNet和SCDNet进行对比，具体结果如表1所示。评价指标共有3种，分别为mIoU、SeK和Score。结合图3可以看出，本实例实施方法3个评价指标，在mIoU、SeK和Score上达到74.07％、26.68％和40.89％，均是最优结果。与第二好的SCDNet相比，本方法将mIoU提高了1.01％，SeK提高了3.02％，，Score提高了2.3％。图5为本实施例方法和其他现有方法的三组语义变化检测结果对比示意图，通过图5第一行可以看出，本实例方法的在运动场上的语义变化检测效果非常接近真实情况，语义变化区域预测完整，且轮廓清晰。在第二行和第三行输入图像对中，本实施例方法在水面上的语义变化检测结果更加完整和准确，在第三行可以看出，本实施例方法检测出了从土地到低矮植被的变化，但是其他对比方法有误报或者漏检的情况。

表1本发明实施例方法和其他现有方法的测试结果对比表

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法，其特征在于步骤如下：

和/>

得到语义上下文特征对/>

和/>

然后将/>

和/>

输入变化特征提取模块得到变化特征f_cd；对于T¹时相，将/>

和f_cd输入特征融合模块，先对/>

和/>

对于T²时相，将/>

和f_cd输入特征融合模块得到语义变化特征/>

最后将/>

和/>

输入两个解码器/>

和/>

得到T¹和T²时相的语义变化检测结果/>

和/>

步骤2：用半监督中的自训练方式进行语义分割；

和/>

后加入两个不共享权重的语义分割头/>

和/>

和/>

和/>

和/>

输入语义分割头/>

和/>

和/>

在推理期间被移除；

其中

应进行动态调整，/>

是一个百分数，计算如下：

是t-1次迭代中类l的预测准确率，代表着所有分类为l的样本中预测正确样本的概率；

为了避免误差的累积，在训练中间开始自训练；

语义分割上的有监督和无监督损失函数

和/>

为交叉熵损失，描述为：

其中N_l为有标签像素的个数，N_u为无标签像素的个数，

和/>

和/>

在高分辨编码器

和/>

后加入不共享权重的对比学习特征表示头/>

和/>

和

将语义上下文特征

和/>

输入对比学习特征表示头/>

和/>

得到密集语义特征表示/>

和/>

用自适应的采样策略在语义特征表示

和/>

其中，L是语义分割类别的数量；z_la是第l类第a个锚点的特征向量，

是第l类的正样本，是所有第l类样本特征向量的平均值，/>

是第l类第a个锚点的第b个属于其他类别的负样本的特征向量；对于L中的每个类别，锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>

和/>

每个类别都有A个锚点，并且每个锚点都有一个正样本和B个负样本；<·,·>是两个特征向量之间的余弦相似度，用于度量两个特征向量之间的距离，范围为-1到1，τ＝0.5是温度系数；对于当前训练批量中的每个类别，通过最小化L_c，拉近该类别的锚点与其正样本的距离，而推远该类别的锚点与其负样本的距离；

对于语义类别l，本发明根据相似度分布

在其他类别上进行非均匀抽样，相似度分布定义如下：

由类别l与其他类别经过softmax归一化后的类别相似度组成，/>

和/>

是类别l和g的正样本，<·,·>是两个特征向量之间的余弦相似度；

和/>

语义分割上的有监督和无监督损失函数/>

和/>

和/>

为交叉熵损失，描述为：

其中T为像素的个数，

和/>

和/>

分别表示真值标签和解码器/>

和/>

在第t个像素上的预测概率；

总体的损失函数L描述为：

2.根据权利要求1所述的基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法，其特征在于：步骤1具体如下：

步骤1-2：将

输入高分辨网络编码器/>

所述的高分辨网络编码器/>

包括4层，第i层包括i个卷积模块M_i,j，i≥1,0≤j<i；卷积模块M_i,j输出的特征图定义为/>

特征图/>

的分辨率记为H_i,j×W_i,j，通道数记为C_i,j，其中H_i,j＝H₀/2^j，W_i,j＝W₀/2^j，C_i,j＝40×2^j；

当i≥2时，将第i-1层卷积模块M_i-1,y的输出

经过如下处理统一输入分辨率及通道数后采用加法融合输入第i层的卷积模块M_i,j，y∈[0,i-2]；

当y<j时，对特征图

当y＝j时，对特征图

进行3×3卷积进行特征的提取且通道数与分辨率不变；

当y>j时，对特征图

k＝0,1,2,3；/>

的分辨率与通道数分别为H₀/2^k×W₀/2^k和40×2^k；将/>

T²时相同理，得到语义上下文特征/>

步骤1-3，将语义上下文特征对

和/>

输入变化特征提取模块，对/>

和/>

步骤1-4，对于T¹时相，将

步骤1-5，将

输入解码器/>

T²时相同理得到

3.根据权利要求2所述的基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法，其特征在于：所有的卷积模块都由3×3卷积层、批归一化层与修正线性单元组成。

4.根据权利要求1所述的基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法，其特征在于：步骤2-2自训练过程分为三个步骤：首先，在有标签像素上训练和更新学生模型参数；然后，用学生模型参数的指数移动平均更新教师模型参数，使用教师模型在无标签的像素预测伪标签；最后，用学生模型在有标签像素上的预测值和真实值计算有监督损失，用学生模型在无标签像素上的预测值和伪标签计算无监督损失，通过最小化有监督损失和无监督损失更新学生模型参数；不断迭代以上三个步骤直至收敛，并使用学生模型进行最终评估。

5.一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1所述的方法。

6.一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现权利要求1所述的方法。