CN116310812A - 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法 - Google Patents

基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法 Download PDF

Info

Publication number
CN116310812A
CN116310812A CN202310204005.5A CN202310204005A CN116310812A CN 116310812 A CN116310812 A CN 116310812A CN 202310204005 A CN202310204005 A CN 202310204005A CN 116310812 A CN116310812 A CN 116310812A
Authority
CN
China
Prior art keywords
semantic
input
resolution
feature
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310204005.5A
Other languages
English (en)
Inventor
张秀伟
张艳宁
杨一哲
于雷
安博远
田牧
尹翰林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202310204005.5A priority Critical patent/CN116310812A/zh
Publication of CN116310812A publication Critical patent/CN116310812A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,采用两个共享权重的高分辨率网络作为编码器提取双时相遥感图像的语义上下文特征,然后将提取到的语义上下文特征对输入变化特征提取模块得到变化特征,对于每一个时相,将语义上下文特征和变化特征输入特征融合模块得到语义变化特征,最后将双时相语义变化特征输入两个解码器得到双时相语义变化检测结果。在编码器后加入语义分割头和对比学习特征表征头。语义分割头和高分辨编码器构成了语义分割子网,在这个子网中用教师‑学生模型进行半监督语义分割,为将语义上下文特征输入对比学习特征表示头,为对比学习提供语义特征表示。

Description

基于半监督语义分割对比学习的高分辨遥感图像语义变化检 测方法
技术领域
本发明属于遥感图像处理技术领域,具体涉及一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法。
背景技术
在遥感领域,语义变化检测是一种利用地理配准的多时相遥感影像来检测地球表面语义变化的方法,广泛应用于城市规划、环境检测和灾害评估等领域。与仅预测像素级变化或未变化的变化检测不同,语义变化检测不仅可以检测变化位置,还可以指示变化方向(例如,从土地到建筑物的变化,从植被到水面的变化等)。因此,语义变化检测成为了一项重要且具有挑战性的遥感图像解译任务。
近年来,随着传感器技术的进步,大量的多时相高分辨率遥感图像可用,在此基础上,基于深度学习的语义变化检测方法得到了快速发展。与传统的语义变化检测方法相比,其语义变化检测性能有了明显的提高。Yang等人在文献“Asymmetric siamese networksfor semantic change detection in aerial images.”中提出了一个非对称孪生网络,用从不同结构的模块中提取到的特征对来定位和识别语义变化,这些模块涉及不同大小的区域,并应用不同数量的参数来考虑不同地表覆盖分布的差异。Yuan等人在文献“Atransformer-based Siamese network and an open optical dataset for semanticchange detection of remote sensing images”中提出了一种基于transformer的语义变化检测模型PyramidSCDFormer,该模型可以精确识别变化的微小变化和精细的边缘细节。Zhu等人在文献“Land-Use/Land-Cover change detection based on a Siamese globallearning framework for high spatial resolution remote sensing imagery”中提出了一个基于编码器-解码器的孪生网络语义变化检测框架,加入全局层次抽样机制解决样本不平衡问题,此外,在编码器和解码器之间加入二进制变化掩码,弱化了未变化区域对变化区域的影响。Ding等人在文献“Bi-Temporal Semantic Reasoning for the SemanticChange Detection in HR Remote Sensing Images”中提出了Bi-SRNet,它包含两种类型的语义推理块来推理单时态和跨时态语义相关性,以及一个语义一致性损失函数来提高变化检测结果的语义一致性。
但是目前深度学习的语义变化检测方法还存在着一些问题:1.高分辨率语义变化检测数据集在未变化类别和变化类别上存在严重的类别不平衡问题,未变化类别的样本数在总体样本数中占比超过90%,远大于变化类别的样本数。在训练过程中,网络由占比高的未变化类别主导,导致在占比低的变化类别上性能不佳。注意到只有变化类别有语义标签,因此,有必要为变化类别加入对比学习损失函数作为语义分割监督,使网络更加关注这些稀缺类别。2.由于只有变化类别有语义标签,所以有必要在语义分割上采用半监督对比学习,即在语义分割上用教师-学生网络进行自训练,为有标签样本预测标签,为无标签样本预测伪标签,所预测的标签和伪标签都用于对比学习样本采样。3.通过最小化对比学习损失函数可以使表示空间中属于同一类别的样本互相靠近,属于不同类别的样本互相远离,增强稀缺类别的可区分性。在语义类别中,部分类别具有高度的空间相关性和语义相似性,网络在对这些类别进行语义分割时,很容易产生混淆而导致错误分割。因此,在训练过程中,会出现大量难以正确进行分类的样本,即难样本。在对比学习中,有效的难样本挖掘策略非常重要,如何关注和利用这些难样本,让网络能够对它们进行正确地分类是重点和难点。
发明内容
要解决的技术问题
针对目前语义变化检测结果精度不足的问题,本发明提供一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,用于高分辨遥感图像的语义变化检测。
技术方案
一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于步骤如下:
步骤1:构建基于高分辨网络的简单可扩展的直接语义变化检测模型来进行语义变化检测;
将T1和T2时相的遥感图像I1和I2输入两个共享权重的高分辨网络编码器
Figure BDA0004110088610000031
和/>
Figure BDA0004110088610000032
得到语义上下文特征对/>
Figure BDA0004110088610000033
和/>
Figure BDA0004110088610000034
然后将/>
Figure BDA0004110088610000035
和/>
Figure BDA0004110088610000036
输入变化特征提取模块得到变化特征fcd;对于T1时相,将/>
Figure BDA0004110088610000037
和fcd输入特征融合模块,先对/>
Figure BDA0004110088610000038
和/>
Figure BDA0004110088610000039
作绝对差得到dcd,再将dcd进行1次1×1卷积操作得到语义变化特征/>
Figure BDA00041100886100000310
对于T2时相,将/>
Figure BDA00041100886100000311
和fcd输入特征融合模块得到语义变化特征/>
Figure BDA00041100886100000312
最后将/>
Figure BDA00041100886100000313
和/>
Figure BDA00041100886100000314
输入两个解码器/>
Figure BDA00041100886100000315
和/>
Figure BDA00041100886100000316
得到T1和T2时相的语义变化检测结果/>
Figure BDA00041100886100000317
和/>
Figure BDA00041100886100000318
步骤2:用半监督中的自训练方式进行语义分割;
步骤2-1:构建语义分割子网用于半监督语义分割,对于T1和T2两个时相,分别在高分辨编码器
Figure BDA00041100886100000319
和/>
Figure BDA00041100886100000320
后加入两个不共享权重的语义分割头/>
Figure BDA00041100886100000321
和/>
Figure BDA00041100886100000322
和/>
Figure BDA00041100886100000323
包含2个卷积层和一个softmax操作;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义分割类别数,分辨率保持不变,即H0×W0×6;最后用softmax操作进行归一化,得到语义分割结果/>
Figure BDA00041100886100000324
和/>
Figure BDA00041100886100000325
语义分割头和高分辨编码器构成了语义分割子网,将语义上下文特征对
Figure BDA00041100886100000326
和/>
Figure BDA00041100886100000327
输入语义分割头/>
Figure BDA00041100886100000328
和/>
Figure BDA00041100886100000329
去进行半监督语义分割;因为仅在训练阶段使用半监督语义分割,所以/>
Figure BDA00041100886100000330
和/>
Figure BDA00041100886100000331
在推理期间被移除;
步骤2-2:在语义分割子网中以半监督中的自训练方式进行语义分割,自训练使用具有相同架构的学生模型和教师模型,教师模型的参数是学生模型参数的指数移动平均;
为了获得可靠的伪标签,使用学生模型预测的概率分布的熵来评估伪标签的质量,熵计算如下:
Figure BDA0004110088610000041
其中
Figure BDA0004110088610000042
是教师模型对第u个无标签像素产生的softmax概率,L为语义分割类别数‘’熵越低,伪标签的置信度就越高;在第t次迭代时,对于每一类l∈L,将无标签像素的熵从低到高进行排序,选择最低的/>
Figure BDA0004110088610000043
百分比作为可靠伪标签。由于随着训练的进行,伪标签越来越可靠,因此/>
Figure BDA0004110088610000044
应进行动态调整,/>
Figure BDA0004110088610000045
是一个百分数,计算如下:
Figure BDA0004110088610000046
其中α0为初始百分比,设为50%,αe为最终百分比,设为80%,
Figure BDA0004110088610000047
是t-1次迭代中类1的预测准确率,代表着所有分类为1的样本中预测正确样本的概率;
为了避免误差的累积,在训练中间开始自训练;
语义分割上的有监督和无监督损失函数
Figure BDA0004110088610000048
和/>
Figure BDA0004110088610000049
为交叉熵损失,描述为:
Figure BDA00041100886100000410
Figure BDA00041100886100000411
其中Nl为有标签像素的个数,Nu为无标签像素的个数,
Figure BDA00041100886100000412
和/>
Figure BDA00041100886100000413
分别表示真值标签和语义分割头在第p个有标记像素上的预测概率,/>
Figure BDA00041100886100000414
和/>
Figure BDA00041100886100000415
分别表示伪标签和语义分割头在第p个无标记像素上的预测概率;
步骤3:在语义分割上使用自适应采样策略进行半监督对比学习;
在高分辨编码器
Figure BDA0004110088610000051
和/>
Figure BDA0004110088610000052
后加入不共享权重的对比学习特征表示头/>
Figure BDA0004110088610000053
和/>
Figure BDA0004110088610000054
Figure BDA0004110088610000055
和/>
Figure BDA0004110088610000056
包含2个卷积层;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为256,分辨率保持不变,即H0×W0×256;
将语义上下文特征
Figure BDA0004110088610000057
和/>
Figure BDA0004110088610000058
输入对比学习特征表示头/>
Figure BDA0004110088610000059
和/>
Figure BDA00041100886100000510
得到密集语义特征表示/>
Figure BDA00041100886100000511
和/>
Figure BDA00041100886100000512
由于对比损失仅在训练期间提供监督,因此对比学习特征表示头在推理期间被移除;
用自适应的采样策略在语义特征表示
Figure BDA00041100886100000513
和/>
Figure BDA00041100886100000514
中对不同语义类别的样本对应的特征向量进行采样,采样空间为学生模型在无标签像素上预测的伪标签和真实标签,计算对比学习损失函数Lc
Figure BDA00041100886100000515
其中,L是语义分割类别的数量;zla是第1类第a个锚点的特征向量,
Figure BDA00041100886100000516
是第1类的正样本,是所有第1类样本特征向量的平均值,/>
Figure BDA00041100886100000517
是第1类第a个锚点的第b个属于其他类别的负样本的特征向量;对于L中的每个类别,锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>
Figure BDA00041100886100000518
和/>
Figure BDA00041100886100000519
每个类别都有A个锚点,并且每个锚点都有一个正样本和B个负样本;<·,·>是两个特征向量之间的余弦相似度,用于度量两个特征向量之间的距离,范围为-1到1,τ=0.5是温度系数;对于当前训练批量中的每个类别,通过最小化Lc,拉近该类别的锚点与其正样本的距离,而推远该类别的锚点与其负样本的距离;
对于语义类别1,本发明根据相似度分布
Figure BDA00041100886100000520
在其他类别上进行非均匀抽样,相似度分布定义如下:
Figure BDA0004110088610000061
Figure BDA0004110088610000062
由类别1与其他类别经过softmax归一化后的类别相似度组成,/>
Figure BDA0004110088610000063
和/>
Figure BDA0004110088610000064
是类别1和g的正样本,<·,·>是两个特征向量之间的余弦相似度;
步骤4:通过使总体的损失函数L最小来优化模型的参数,总体的损失函数L由T1和T2的语义变化检测损失
Figure BDA0004110088610000065
和/>
Figure BDA0004110088610000066
语义分割上的有监督和无监督损失函数/>
Figure BDA0004110088610000067
和/>
Figure BDA0004110088610000068
以及语义分割上的对比学习损失函数Lc构成;语义变化检测损失/>
Figure BDA0004110088610000069
和/>
Figure BDA00041100886100000610
为交叉熵损失,描述为:
Figure BDA00041100886100000611
Figure BDA00041100886100000612
其中T为像素的个数,
Figure BDA00041100886100000613
和/>
Figure BDA00041100886100000614
Figure BDA00041100886100000615
和/>
Figure BDA00041100886100000616
分别表示真值标签和解码器/>
Figure BDA00041100886100000617
和/>
Figure BDA00041100886100000618
在第t个像素上的预测概率;
总体的损失函数L描述为:
Figure BDA00041100886100000619
得到总体的损失函数后进行反向传播,使用AdamW优化器进行优化,重复迭代直至迭代次数达到设置初始值时判定完成训练。
本发明进一步的技术方案:步骤1具体如下:
步骤1-1:对于T1时相,遥感图像I1通过卷积模块M0得到的维度为H0×W0×64的特征图
Figure BDA00041100886100000620
H0=Hinput/4,W0=Winput/4,其中Hinput与Winput为输入图像I1的高和宽;
步骤1-2:将
Figure BDA00041100886100000621
输入高分辨网络编码器/>
Figure BDA00041100886100000622
所述的高分辨网络编码器/>
Figure BDA00041100886100000623
包括4层,第i层包括i个卷积模块Mi,j,i≥1,0≤j<i;卷积模块Mi,j输出的特征图定义为/>
Figure BDA00041100886100000624
特征图
Figure BDA00041100886100000625
的分辨率记为Hi,j×Wi,j,通道数记为Ci,j,其中Hi,j=H0/2j,Wi,j=W0/2j,Ci,j=40×2j
当i≥2时,将第i-1层卷积模块Mi-1,y的输出
Figure BDA0004110088610000071
经过如下处理统一输入分辨率及通道数后采用加法融合输入第i层的卷积模块Mi,j,y∈[0,i-2];
当y<j时,对特征图
Figure BDA0004110088610000072
进行j-y次步长为2的跨步卷积,每次跨步卷积通过3×3卷积使得特征图的通道数翻倍,分辨率减半;
当y=j时,对特征图
Figure BDA0004110088610000073
进行3×3卷积进行特征的提取且通道数与分辨率不变;
当y>j时,对特征图
Figure BDA0004110088610000074
进行3×3卷积,并将通道数变为40×2j,且使用双线性插值上采样操作使得分辨率变为H0/2j×W0/2j
通过高分辨编码器中所有的卷积模块后,得到的4个不同尺度的特征图
Figure BDA0004110088610000075
k=0,1,2,3;/>
Figure BDA0004110088610000076
的分辨率与通道数分别为H0/2k×W0/2k和40×2k;将/>
Figure BDA0004110088610000077
通过上采样操作统一分辨率,再沿通道维度进行拼接,得到语义上下文特征/>
Figure BDA0004110088610000078
T2时相同理,得到语义上下文特征/>
Figure BDA0004110088610000079
步骤1-3,将语义上下文特征对
Figure BDA00041100886100000710
和/>
Figure BDA00041100886100000711
输入变化特征提取模块,对/>
Figure BDA00041100886100000712
和/>
Figure BDA00041100886100000713
作绝对差dcd,再将dcd进行1次1×1卷积操作,得到尺度为H0×W0×600变化特征fcd
步骤1-4,对于T1时相,将
Figure BDA00041100886100000714
和fcd输入特征融合模块,特征融合模块包含1个沿通道维度的拼接操作和1个改变通道数的1×1卷积操作;首先沿通道维度进行拼接,再通过1次1×1卷积操作将通道数压缩为原来的1/2,得到尺度为H0×W0×600的语义变化特征/>
Figure BDA00041100886100000715
步骤1-5,将
Figure BDA00041100886100000716
输入解码器/>
Figure BDA00041100886100000717
解码器包含2个卷积层,一个双线性插值上采样操作和一个softmax操作;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义变化检测类别数,分辨率保持不变,即H0×W0×7;双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率,即Hinput×Winput×7,最后用softmax操作进行归一化,得到时相的语义变化检测结果/>
Figure BDA0004110088610000081
T2时相同理得到
Figure BDA0004110088610000082
本发明进一步的技术方案:所有的卷积模块都由3×3卷积层、批归一化层与修正线性单元组成。
本发明进一步的技术方案:步骤2-2自训练过程分为三个步骤:首先,在有标签像素上训练和更新学生模型参数;然后,用学生模型参数的指数移动平均更新教师模型参数,使用教师模型在无标签的像素预测伪标签;最后,用学生模型在有标签像素上的预测值和真实值计算有监督损失,用学生模型在无标签像素上的预测值和伪标签计算无监督损失,通过最小化有监督损失和无监督损失更新学生模型参数;不断迭代以上三个步骤直至收敛,并使用学生模型进行最终评估。
一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的方法。
一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现上述的方法。
有益效果
本发明提供的一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法;通过在语义变化检测中应用半监督语义分割对比学习,充分利用了标记和未标记数据,并有效挖掘由于类别混淆而导致的难分类样本,提高网络对难分类样本的分类性能;本发明提出的模型得到的语义变化区域细节更加精确,形状更加完整,同时对语义变化类别的分类更加准确。
采用半监督语义分割对比学习监督语义分割,在对比学习中,采用自适应的采样策略,通过自适应的采样策略,半监督对比损失可以指导网络为语义分割提供适当的监督,特别是更加关注容易混淆的类别,从而提高模型的整体语义变化性能。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1是本发明实施例方法的网络结构图。
图2是本发明高分辨编码器的网络结构图。
图3是本发明实施例网络模型中对比学习特征表示头和语义分割头结构图。
图4是半监督方法中的自训练流程图。
图5是本发明实施例方法和其他现有方法的语义变化检测结果对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,通过在语义变化检测的语义分割上加入半监督对比学习,来解决现有语义变化检测方法的结果精度较低的问题。本发明构建的基于高分辨网络的遥感图像直接语义变化检测模型用两个共享权重的高分辨率网络作为编码器提取双时相遥感图像的语义上下文特征,然后将提取到的语义上下文特征对输入变化特征提取模块得到变化特征,对于每一个时相,将语义上下文特征和变化特征输入特征融合模块得到语义变化特征,最后将双时相语义变化特征输入两个解码器得到双时相语义变化检测结果。为了使用半监督语义分割对比学习监督语义分割,在编码器后加入语义分割头和对比学习特征表征头。语义分割头和高分辨编码器构成了语义分割子网,在这个子网中用教师-学生模型进行半监督语义分割,为对比学习提供充足的样本空间;将语义上下文特征输入对比学习特征表示头,为对比学习提供语义特征表示。此外,用自适应采样策略进行采样以计算对比学习损失函数。双时相语义变化检测损失函数、语义分割上的有监督和无监督损失函数以及语义分割上的对比学习损失函数构成总体的损失函数,用于优化整体模型。
一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,具体包含以下步骤:
步骤1:构建一个基于高分辨网络的简单可扩展的直接语义变化检测模型来进行语义变化检测;
将T1和T2时相的遥感图像I1和I2输入两个共享权重的高分辨网络编码器
Figure BDA0004110088610000101
和/>
Figure BDA0004110088610000102
得到语义上下文特征对/>
Figure BDA0004110088610000103
和/>
Figure BDA0004110088610000104
然后将/>
Figure BDA0004110088610000105
和/>
Figure BDA0004110088610000106
输入变化特征提取模块得到变化特征fcd。对于T1时相,将/>
Figure BDA0004110088610000107
和fcd输入特征融合模块,先对/>
Figure BDA0004110088610000108
和/>
Figure BDA0004110088610000109
作绝对差得到dcd,再将dcd进行1次1×1卷积操作得到语义变化特征/>
Figure BDA00041100886100001010
对于T2时相,将/>
Figure BDA00041100886100001011
和fcd输入特征融合模块得到语义变化特征/>
Figure BDA00041100886100001012
最后将/>
Figure BDA00041100886100001013
和/>
Figure BDA00041100886100001014
输入两个解码器/>
Figure BDA00041100886100001015
和/>
Figure BDA00041100886100001016
得到T1和T2时相的语义变化检测结果/>
Figure BDA00041100886100001017
和/>
Figure BDA00041100886100001018
由于两个时相在编码和解码阶段步骤相同,所以下面仅以T1时相为例,T2时相同理;
步骤1-1:对于T1时相,遥感图像I1通过卷积模块M0得到的维度为H0×W0×64的特征图
Figure BDA00041100886100001019
其中Hinput与Winput为输入图像I1的高和宽,H0=Hinput/4与W0=Winput/4;
步骤1-2:将
Figure BDA00041100886100001020
输入高分辨网络编码器/>
Figure BDA00041100886100001021
高分辨网络编码器/>
Figure BDA00041100886100001022
包括4层,第i层包括i个卷积模块Mi,j,i≥1,0≤j<i;卷积模块Mi,j输出的特征图定义为/>
Figure BDA00041100886100001023
特征图/>
Figure BDA00041100886100001024
的分辨率记为Hi,j×Wi,j,通道数记为Ci,j,其中Hi,j=H0/2j,Wi,j=W0/2j,Ci,j=40×2j
当i≥2时,将第i-1层卷积模块Mi-1,y的输出
Figure BDA00041100886100001025
经过如下处理统一输入分辨率及通道数后采用加法融合输入第i层的卷积模块Mi,j,y∈[0,i-2];
当y<j时,对特征图
Figure BDA0004110088610000111
进行j-y次步长为2的跨步卷积,每次跨步卷积通过3×3卷积使得特征图的通道数翻倍,分辨率减半;
当y=j时,对特征图
Figure BDA0004110088610000112
进行3×3卷积进行特征的提取且通道数与分辨率不变;
当y>j时,对特征图
Figure BDA0004110088610000113
进行3×3卷积,并将通道数变为40×2j,且使用双线性插值上采样操作使得分辨率变为H0/2j×W0/2j
通过高分辨编码器中所有的卷积模块后,得到的4个不同尺度的特征图
Figure BDA0004110088610000114
k=0,1,2,3;/>
Figure BDA0004110088610000115
的分辨率与通道数分别为H0/2k×W0/2k和40×2k;将/>
Figure BDA0004110088610000116
通过上采样操作统一分辨率,再沿通道维度进行拼接,得到语义上下文特征/>
Figure BDA00041100886100001117
T2时相同理,得到语义上下文特征/>
Figure BDA0004110088610000117
步骤1-3,将语义上下文特征对
Figure BDA0004110088610000118
和/>
Figure BDA0004110088610000119
输入变化特征提取模块,对/>
Figure BDA00041100886100001110
和/>
Figure BDA00041100886100001111
作绝对差dcd,再将dcd进行1次1×1卷积操作,得到尺度为H0×W0×600变化特征fcd
步骤1-4,对于T1时相,将
Figure BDA00041100886100001112
和fcd输入特征融合模块,特征融合模块包含1个沿通道维度的拼接操作和1个改变通道数的1×1卷积操作。首先沿通道维度进行拼接,再通过1次1×1卷积操作将通道数压缩为原来的1/2,得到尺度为H0×W0×600的语义变化特征/>
Figure BDA00041100886100001113
步骤1-5,将
Figure BDA00041100886100001114
输入解码器/>
Figure BDA00041100886100001115
解码器包含2个卷积层,一个双线性插值上采样操作和一个softmax操作。第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义变化检测类别数,分辨率保持不变,即H0×W0×7;双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率,即Hinput×Winput×7,最后用softmax操作进行归一化,得到时相的语义变化检测结果/>
Figure BDA00041100886100001116
T2时相同理;
优选地,所有的卷积模块都由3×3卷积层、批归一化层与修正线性单元组成。
步骤2:用半监督中的自训练方式进行语义分割;
步骤2-1:构建语义分割子网用于半监督语义分割,对于T1和T2两个时相,分别在高分辨编码器
Figure BDA0004110088610000121
和/>
Figure BDA0004110088610000122
后加入两个不共享权重的语义分割头/>
Figure BDA0004110088610000123
和/>
Figure BDA0004110088610000124
和/>
Figure BDA0004110088610000125
包含2个卷积层和一个softmax操作。第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义分割类别数,分辨率保持不变,即H0×W0×6;最后用softmax操作进行归一化,得到语义分割结果/>
Figure BDA0004110088610000126
和/>
Figure BDA0004110088610000127
语义分割头和高分辨编码器构成了语义分割子网,将语义上下文特征对
Figure BDA0004110088610000128
和/>
Figure BDA0004110088610000129
输入语义分割头/>
Figure BDA00041100886100001210
和/>
Figure BDA00041100886100001211
去进行半监督语义分割;因为仅在训练阶段使用半监督语义分割,所以/>
Figure BDA00041100886100001212
和/>
Figure BDA00041100886100001213
在推理期间被移除;
步骤2-2:在语义分割子网中以半监督中的自训练方式进行语义分割,自训练使用具有相同架构的学生模型和教师模型,教师模型的参数是学生模型参数的指数移动平均。自训练过程分为三个步骤:首先,在有标签像素上训练和更新学生模型参数;然后,用学生模型参数的指数移动平均更新教师模型参数,使用教师模型在无标签的像素预测伪标签;最后,用学生模型在有标签像素上的预测值和真实值计算有监督损失,用学生模型在无标签像素上的预测值和伪标签计算无监督损失,通过最小化有监督损失和无监督损失更新学生模型参数。不断迭代以上三个步骤直至收敛,并使用学生模型进行最终评估。
为了获得可靠的伪标签,使用学生模型预测的概率分布的熵来评估伪标签的质量,熵计算如下:
Figure BDA0004110088610000131
其中
Figure BDA0004110088610000132
是教师模型对第u个无标签像素产生的softmax概率,L为语义分割类别数。熵越低,伪标签的置信度就越高。在第t次迭代时,对于每一类l∈L,将无标签像素的熵从低到高进行排序,选择最低的/>
Figure BDA0004110088610000133
百分比作为可靠伪标签。由于随着训练的进行,伪标签越来越可靠,因此/>
Figure BDA0004110088610000134
应进行动态调整,/>
Figure BDA0004110088610000135
是一个百分数,计算如下:
Figure BDA0004110088610000136
其中α0为初始百分比,设为50%,αe为最终百分比,设为80%,
Figure BDA0004110088610000137
是t-1次迭代中类1的预测准确率,代表着所有分类为1的样本中预测正确样本的概率。
为了避免误差的累积,在训练中间开始自训练。
语义分割上的有监督和无监督损失函数
Figure BDA0004110088610000138
和/>
Figure BDA0004110088610000139
为交叉熵损失,描述为:
Figure BDA00041100886100001310
Figure BDA00041100886100001311
其中Nl为有标签像素的个数,Nu为无标签像素的个数,
Figure BDA00041100886100001312
和/>
Figure BDA00041100886100001313
分别表示真值标签和语义分割头在第p个有标记像素上的预测概率,/>
Figure BDA00041100886100001314
和/>
Figure BDA00041100886100001315
分别表示伪标签和语义分割头在第p个无标记像素上的预测概率。
步骤3:在语义分割上使用自适应采样策略进行半监督对比学习;
在高分辨编码器
Figure BDA00041100886100001316
和/>
Figure BDA00041100886100001317
后加入不共享权重的对比学习特征表示头/>
Figure BDA00041100886100001318
和/>
Figure BDA00041100886100001319
Figure BDA00041100886100001320
和/>
Figure BDA00041100886100001321
包含2个卷积层。第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为256,分辨率保持不变,即H0×W0×256;
将语义上下文特征
Figure BDA0004110088610000141
和/>
Figure BDA0004110088610000142
输入对比学习特征表示头/>
Figure BDA0004110088610000143
和/>
Figure BDA0004110088610000144
得到密集语义特征表示/>
Figure BDA0004110088610000145
和/>
Figure BDA0004110088610000146
由于对比损失仅在训练期间提供监督,因此对比学习特征表示头在推理期间被移除;
用自适应的采样策略在语义特征表示
Figure BDA0004110088610000147
和/>
Figure BDA0004110088610000148
中对不同语义类别的样本对应的特征向量进行采样,采样空间为学生模型在无标签像素上预测的伪标签和真实标签,计算对比学习损失函数Lc
Figure BDA0004110088610000149
其中,L是语义分割类别的数量。zla是第1类第a个锚点的特征向量,
Figure BDA00041100886100001410
是第1类的正样本,是所有第1类样本特征向量的平均值,/>
Figure BDA00041100886100001411
是第1类第a个锚点的第b个属于其他类别的负样本的特征向量。对于L中的每个类别,锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>
Figure BDA00041100886100001412
和/>
Figure BDA00041100886100001413
每个类别都有A个锚点,并且每个锚点都有一个正样本和B个负样本。此处,A=50,B=256。<·,·>是两个特征向量之间的余弦相似度,用于度量两个特征向量之间的距离,范围为-1到1,τ=0.5是温度系数。对于当前训练批量中的每个类别,通过最小化Lc,拉近该类别的锚点与其正样本的距离,而推远该类别的锚点与其负样本的距离。
自适应的采样策略是对于每个类别锚点的负样本,根据类别相似度在其他类别上进行非均匀抽样。因为在一个训练批次中,部分类别具有高度的空间相关性和语义相似性,网络在对这些类别进行语义分割时,很容易产生混淆而导致错误分割。因此,在训练过程中,会出现大量难以正确进行分类的样本,即难样本。
因此,对于语义类别1,本发明根据相似度分布
Figure BDA00041100886100001414
在其他类别上进行非均匀抽样,相似度分布定义如下:
Figure BDA00041100886100001415
Figure BDA0004110088610000151
由类别1与其他类别经过softmax归一化后的类别相似度组成,/>
Figure BDA0004110088610000152
和/>
Figure BDA0004110088610000153
是类别1和g的正样本,<·,·>是两个特征向量之间的余弦相似度。
通过自适应采样策略,语义分割上的半监督对比学习能够充分关注和利用难样本,让网络能够对它们进行正确地分类。
步骤4,通过使总体的损失函数L最小来优化模型的参数,总体的损失函数L由T1和T2的语义变化检测损失
Figure BDA0004110088610000154
和/>
Figure BDA0004110088610000155
语义分割上的有监督和无监督损失函数/>
Figure BDA0004110088610000156
和/>
Figure BDA0004110088610000157
以及语义分割上的对比学习损失函数Lc构成。语义变化检测损失/>
Figure BDA0004110088610000158
和/>
Figure BDA0004110088610000159
为交叉熵损失,描述为:
Figure BDA00041100886100001510
Figure BDA00041100886100001511
其中T为像素的个数,
Figure BDA00041100886100001512
和/>
Figure BDA00041100886100001513
Figure BDA00041100886100001514
和/>
Figure BDA00041100886100001515
分别表示真值标签和解码器/>
Figure BDA00041100886100001516
和/>
Figure BDA00041100886100001517
在第t个像素上的预测概率。
总体的损失函数L描述为:
Figure BDA00041100886100001518
得到总体的损失函数后进行反向传播,使用AdamW优化器进行优化,重复迭代直至迭代次数达到设置初始值时判定完成训练。
实施例:
图1展示了高分辨率遥感图像直接语义变化检测模型SFSCDNet,图2展示了SFSCDNet中高分辨编码器的结构,图3展示了半监督对比学习中语义分割头和对比学习特征表示头的结构,图4展示了半监督中自训练方法的过程。具体方法包括以下步骤:
S1,将T1和T2时相的遥感图像I1和I2输入两个共享权重的高分辨网络编码器
Figure BDA00041100886100001524
和/>
Figure BDA00041100886100001519
得到语义上下文特征对/>
Figure BDA00041100886100001520
和/>
Figure BDA00041100886100001521
然后将/>
Figure BDA00041100886100001522
和/>
Figure BDA00041100886100001523
输入变化特征提取模块得到变化特征fcd。对于T1时相,将/>
Figure BDA0004110088610000161
和fcd输入特征融合模块,先对/>
Figure BDA0004110088610000162
和/>
Figure BDA0004110088610000163
作绝对差得到dcd,再将dcd进行1次1×1卷积操作得到语义变化特征/>
Figure BDA0004110088610000164
对于T2时相,将/>
Figure BDA0004110088610000165
和fcd输入特征融合模块得到语义变化特征/>
Figure BDA0004110088610000166
最后将/>
Figure BDA0004110088610000167
和/>
Figure BDA0004110088610000168
输入两个解码器/>
Figure BDA0004110088610000169
和/>
Figure BDA00041100886100001610
得到T1和T2时相的语义变化检测结果/>
Figure BDA00041100886100001611
和/>
Figure BDA00041100886100001612
S2,在高分辨编码器
Figure BDA00041100886100001613
和/>
Figure BDA00041100886100001614
后加入两个不共享权重的语义分割头/>
Figure BDA00041100886100001615
和/>
Figure BDA00041100886100001616
语义分割头和高分辨编码器构成了语义分割子网,将语义上下文特征对/>
Figure BDA00041100886100001617
和/>
Figure BDA00041100886100001618
输入语义分割头/>
Figure BDA00041100886100001619
和/>
Figure BDA00041100886100001620
去进行半监督语义分割;
S3,在高分辨编码器
Figure BDA00041100886100001621
和/>
Figure BDA00041100886100001622
后加入不共享权重的对比学习特征表示头/>
Figure BDA00041100886100001623
和/>
Figure BDA00041100886100001624
将语义上下文特征/>
Figure BDA00041100886100001625
和/>
Figure BDA00041100886100001626
输入对比学习特征表示头/>
Figure BDA00041100886100001627
和/>
Figure BDA00041100886100001628
得到密集语义特征表示/>
Figure BDA00041100886100001629
和/>
Figure BDA00041100886100001630
用于计算对比损失;
S4,用AdamW优化器最小化总体的损失函数L来优化模型参数,总体的损失函数L由T1和T2的语义变化检测损失
Figure BDA00041100886100001631
和/>
Figure BDA00041100886100001632
语义分割上的有监督和无监督损失函数/>
Figure BDA00041100886100001633
Figure BDA00041100886100001634
以及语义分割上的对比学习损失函数Lc构成。
本实施例中,步骤S1的执行网络简称为SFSCDNet。下文将结合SFSCDNet的结构,对步骤S1-步骤S3的执行过程进一步详细说明。
本实施例中,参见图1和图2,步骤S1将T1和T2时相分辨率为Hinput×Winput×3的遥感图像I1和I2输入共享权重的在ImageNet上预训练的高分辨网络编码器
Figure BDA00041100886100001635
和/>
Figure BDA00041100886100001636
得到分辨率为Hinput/4×Winput/4×600的语义上下文特征对/>
Figure BDA00041100886100001637
和/>
Figure BDA00041100886100001638
变化特征提取模块对/>
Figure BDA00041100886100001639
Figure BDA00041100886100001640
作绝对差dcd,再将dcd进行1次1×1卷积操作,得到分辨率为Hinput/4×Winput/4×600变化特征fcd。对于T1时相,将/>
Figure BDA00041100886100001641
和fcd输入特征融合模块,首先沿通道维度进行拼接,再通过1次1×1卷积操作将通道数压缩为原来的1/2,得到分辨率为Hinput/4×Winput/4×600的语义变化特征/>
Figure BDA00041100886100001642
T2时相同理,经过特征融合模块,得到分辨率为Hinput/4×Winput/4×600的语义变化特征/>
Figure BDA00041100886100001643
将/>
Figure BDA00041100886100001644
和/>
Figure BDA00041100886100001645
输入两个结构相同但不共享权重的解码器/>
Figure BDA0004110088610000171
和/>
Figure BDA0004110088610000172
解码器包含2个卷积层,一个双线性插值上采样操作和一个softmax操作。第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即Hinput/4×Winput/4×150,以及包含1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义变化检测类别数,即Hinput/4×Winput/4×7,分辨率保持不变;双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率,最后用softmax操作进行归一化,得到T1和T2时相的语义变化检测结果/>
Figure BDA0004110088610000173
和/>
Figure BDA0004110088610000174
为了在语义分割上进行半监督学习,以充分利用无标签数据,并给对比学习提供足够的样本空间,步骤S2在高分辨编码器
Figure BDA0004110088610000175
和/>
Figure BDA0004110088610000176
后加入两个不共享权重的语义分割头
Figure BDA0004110088610000177
和/>
Figure BDA0004110088610000178
语义分割头和高分辨编码器构成了语义分割子网,用于半监督语义分割,/>
Figure BDA0004110088610000179
和/>
Figure BDA00041100886100001710
在推理期间被移除。/>
Figure BDA00041100886100001711
和/>
Figure BDA00041100886100001712
的结构参见图3,包含2个卷积层,第一个卷积层包含1个步幅为1填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即Hinput/4×Winput/4×150,以及包含1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义类别数,分辨率保持不变,即Hinput/4×Winput/4×6。
步骤S2在语义分割子网中以半监督中的自训练方式进行语义分割,参见图4,自训练使用具有相同架构的学生模型和教师模型,教师模型的参数是学生模型参数的指数移动平均。自训练过程分为三个步骤:首先,在有标签像素上训练和更新学生模型参数;然后,用学生模型参数的指数移动平均更新教师模型参数,使用教师模型在无标签的像素预测伪标签;最后,用学生模型在有标签像素上的预测值和真实值计算有监督损失,用学生模型在无标签像素上的预测值和伪标签计算无监督损失,用有监督损失和无监督损失更新学生模型参数。不断迭代以上三个步骤直至收敛,并使用学生模型进行最终评估。
为了获得可靠的伪标签,使用学生模型预测的概率分布的熵来评估伪标签的质量,熵计算如下:
Figure BDA0004110088610000181
其中
Figure BDA0004110088610000182
是教师模型对第u个无标签像素产生的softmax概率,L为语义分割类别数。熵越低,伪标签的置信度就越高。在第t次迭代时,对于每一类l∈L,将无标签像素的熵从低到高进行排序,选择最低的/>
Figure BDA0004110088610000183
百分比作为可靠伪标签。由于随着训练的进行,伪标签越来越可靠,因此/>
Figure BDA0004110088610000184
应进行动态调整,/>
Figure BDA0004110088610000185
是一个百分数,计算如下:
Figure BDA0004110088610000186
其中α0为初始百分比,设为50%,αe为最终百分比,设为80%,
Figure BDA0004110088610000187
是t-1次迭代中类1的预测准确率,代表着所有分类为1的样本中预测正确样本的概率。
为了避免误差的累积,在训练中间开始自训练。
语义分割上的有监督和无监督损失函数
Figure BDA0004110088610000188
和/>
Figure BDA0004110088610000189
为交叉熵损失,描述为:
Figure BDA00041100886100001810
Figure BDA00041100886100001811
其中Nl为有标签像素的个数,Nu为无标签像素的个数,
Figure BDA00041100886100001812
和/>
Figure BDA00041100886100001813
分别表示真值标签和语义分割头在第p个有标记像素上的预测概率,/>
Figure BDA00041100886100001814
和/>
Figure BDA00041100886100001815
分别表示伪标签和语义分割头在第p个无标记像素上的预测概率。
为了在语义分割上使用自适应采样策略进行半监督对比学习,步骤S3在高分辨编码器
Figure BDA00041100886100001816
和/>
Figure BDA00041100886100001817
后加入不共享权重的对比学习特征表示头/>
Figure BDA00041100886100001818
和/>
Figure BDA00041100886100001819
将语义上下文特征
Figure BDA00041100886100001820
和/>
Figure BDA00041100886100001821
输入对比学习特征表示头/>
Figure BDA00041100886100001822
和/>
Figure BDA00041100886100001823
得到密集语义特征表示/>
Figure BDA00041100886100001824
和/>
Figure BDA00041100886100001825
Figure BDA0004110088610000191
和/>
Figure BDA0004110088610000192
的结构参加图3,/>
Figure BDA0004110088610000193
和/>
Figure BDA0004110088610000194
包含2个卷积层,第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为256,分辨率保持不变,即H0×W0×256。由于对比损失仅在训练期间提供监督,因此对比学习特征表示头在推理期间被移除;/>
用自适应的采样策略在语义特征表示
Figure BDA0004110088610000195
和/>
Figure BDA0004110088610000196
中对不同语义类别的样本对应的特征向量进行采样,采样空间为学生模型在无标签像素上预测的伪标签和真实标签,计算对比学习损失函数Lc
Figure BDA0004110088610000197
其中,L是语义分割类别的数量。zla是第1类第a个锚点的特征向量,
Figure BDA0004110088610000198
是第1类的正样本,是所有第1类样本特征向量的平均值,/>
Figure BDA0004110088610000199
是第1类第a个锚点的第b个属于其他类别的负样本的特征向量。对于L中的每个类别,锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>
Figure BDA00041100886100001910
和/>
Figure BDA00041100886100001911
每个类别都有A个锚点,并且每个锚点都有一个正样本和B个负样本。此处,A=50,B=256。<·,·>是两个特征向量之间的余弦相似度,用于度量两个特征向量之间的距离,范围为-1到1,τ=0.5是温度系数。对于当前训练批量中的每个类别,通过最小化Lc,拉近该类别的锚点与其正样本的距离,而推远该类别的锚点与其负样本的距离。
自适应的采样策略是对于每个类别锚点的负样本,根据类别相似度在其他类别上进行非均匀抽样。因为在一个训练批次中,部分类别具有高度的空间相关性和语义相似性,网络在对这些类别进行语义分割时,很容易产生混淆而导致错误分割。因此,在训练过程中,会出现大量难以正确进行分类的样本,即难样本。
因此,对于语义类别1,本发明根据相似度分布
Figure BDA00041100886100001912
在其他类别上进行非均匀抽样,相似度分布定义如下:
Figure BDA0004110088610000201
Figure BDA0004110088610000202
由类别1与其他类别经过softmax归一化后的类别相似度组成,/>
Figure BDA0004110088610000203
和/>
Figure BDA0004110088610000204
是类别1和g的正样本,<·,·>是两个特征向量之间的余弦相似度。
通过自适应采样策略,语义分割上的半监督对比学习能够充分关注和利用难样本,让网络能够对它们进行正确地分类。
步骤S4中,总体的损失函数L由T1和T2的语义变化检测损失
Figure BDA0004110088610000205
和/>
Figure BDA0004110088610000206
语义分割上的有监督和无监督损失函数/>
Figure BDA0004110088610000207
和/>
Figure BDA0004110088610000208
以及语义分割上的对比学习损失函数Lc构成,用于优化整体模型。语义变化检测损失/>
Figure BDA0004110088610000209
和/>
Figure BDA00041100886100002010
为交叉熵损失,描述为:
Figure BDA00041100886100002011
/>
Figure BDA00041100886100002012
其中T为像素的个数,
Figure BDA00041100886100002013
和/>
Figure BDA00041100886100002014
和/>
Figure BDA00041100886100002015
分别表示真值标签和解码器/>
Figure BDA00041100886100002016
和/>
Figure BDA00041100886100002017
在第t个像素上的预测概率。
总体的损失函数L描述为:
Figure BDA00041100886100002018
得到总体的损失函数后进行反向传播,使用AdamW优化器进行优化,重复迭代直至迭代次数达到设置初始值时判定完成训练。
为了验证本方法的有效性,本实施例使用公开数据集SECOND进行了网络框架的训练和测试,并且与其他方法进行了对比。SECOND数据集包含2968组数据,每一组数据包含两张不同时相的图像,每张图像大小为512×512,并且这2968组数据集都包含了变化区域。按照9:1的比例划分训练集和测试集。
本实例提出的算法与7种最新的变化检测方法,DSCD、SCDS、ICDS、ChangeMask、HBSCD、Bi-SRNet和SCDNet进行对比,具体结果如表1所示。评价指标共有3种,分别为mIoU、SeK和Score。结合图3可以看出,本实例实施方法3个评价指标,在mIoU、SeK和Score上达到74.07%、26.68%和40.89%,均是最优结果。与第二好的SCDNet相比,本方法将mIoU提高了1.01%,SeK提高了3.02%,,Score提高了2.3%。图5为本实施例方法和其他现有方法的三组语义变化检测结果对比示意图,通过图5第一行可以看出,本实例方法的在运动场上的语义变化检测效果非常接近真实情况,语义变化区域预测完整,且轮廓清晰。在第二行和第三行输入图像对中,本实施例方法在水面上的语义变化检测结果更加完整和准确,在第三行可以看出,本实施例方法检测出了从土地到低矮植被的变化,但是其他对比方法有误报或者漏检的情况。
表1本发明实施例方法和其他现有方法的测试结果对比表
Figure BDA0004110088610000211
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于步骤如下:
步骤1:构建基于高分辨网络的简单可扩展的直接语义变化检测模型来进行语义变化检测;
将T1和T2时相的遥感图像I1和I2输入两个共享权重的高分辨网络编码器
Figure FDA0004110088590000011
和/>
Figure FDA0004110088590000012
得到语义上下文特征对/>
Figure FDA0004110088590000013
和/>
Figure FDA0004110088590000014
然后将/>
Figure FDA0004110088590000015
和/>
Figure FDA0004110088590000016
输入变化特征提取模块得到变化特征fcd;对于T1时相,将/>
Figure FDA0004110088590000017
和fcd输入特征融合模块,先对/>
Figure FDA0004110088590000018
和/>
Figure FDA0004110088590000019
作绝对差得到dcd,再将dcd进行1次1×1卷积操作得到语义变化特征/>
Figure FDA00041100885900000110
对于T2时相,将/>
Figure FDA00041100885900000111
和fcd输入特征融合模块得到语义变化特征/>
Figure FDA00041100885900000112
最后将/>
Figure FDA00041100885900000113
和/>
Figure FDA00041100885900000114
输入两个解码器/>
Figure FDA00041100885900000115
和/>
Figure FDA00041100885900000116
得到T1和T2时相的语义变化检测结果/>
Figure FDA00041100885900000117
和/>
Figure FDA00041100885900000118
步骤2:用半监督中的自训练方式进行语义分割;
步骤2-1:构建语义分割子网用于半监督语义分割,对于T1和T2两个时相,分别在高分辨编码器
Figure FDA00041100885900000119
和/>
Figure FDA00041100885900000120
后加入两个不共享权重的语义分割头/>
Figure FDA00041100885900000121
和/>
Figure FDA00041100885900000122
和/>
Figure FDA00041100885900000123
包含2个卷积层和一个softmax操作;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义分割类别数,分辨率保持不变,即H0×W0×6;最后用softmax操作进行归一化,得到语义分割结果/>
Figure FDA00041100885900000124
和/>
Figure FDA00041100885900000125
语义分割头和高分辨编码器构成了语义分割子网,将语义上下文特征对
Figure FDA00041100885900000126
和/>
Figure FDA00041100885900000127
输入语义分割头/>
Figure FDA00041100885900000128
和/>
Figure FDA00041100885900000129
去进行半监督语义分割;因为仅在训练阶段使用半监督语义分割,所以/>
Figure FDA00041100885900000130
和/>
Figure FDA00041100885900000131
在推理期间被移除;
步骤2-2:在语义分割子网中以半监督中的自训练方式进行语义分割,自训练使用具有相同架构的学生模型和教师模型,教师模型的参数是学生模型参数的指数移动平均;
为了获得可靠的伪标签,使用学生模型预测的概率分布的熵来评估伪标签的质量,熵计算如下:
Figure FDA0004110088590000021
其中
Figure FDA0004110088590000022
是教师模型对第u个无标签像素产生的softmax概率,L为语义分割类别数‘’熵越低,伪标签的置信度就越高;在第t次迭代时,对于每一类l∈L,将无标签像素的熵从低到高进行排序,选择最低的/>
Figure FDA0004110088590000023
百分比作为可靠伪标签。由于随着训练的进行,伪标签越来越可靠,因此/>
Figure FDA0004110088590000024
应进行动态调整,/>
Figure FDA0004110088590000025
是一个百分数,计算如下:
Figure FDA0004110088590000026
其中α0为初始百分比,设为50%,αe为最终百分比,设为80%,
Figure FDA0004110088590000027
是t-1次迭代中类l的预测准确率,代表着所有分类为l的样本中预测正确样本的概率;
为了避免误差的累积,在训练中间开始自训练;
语义分割上的有监督和无监督损失函数
Figure FDA0004110088590000028
和/>
Figure FDA0004110088590000029
为交叉熵损失,描述为:
Figure FDA00041100885900000210
Figure FDA00041100885900000211
其中Nl为有标签像素的个数,Nu为无标签像素的个数,
Figure FDA00041100885900000212
和/>
Figure FDA00041100885900000213
分别表示真值标签和语义分割头在第p个有标记像素上的预测概率,/>
Figure FDA00041100885900000214
和/>
Figure FDA00041100885900000215
分别表示伪标签和语义分割头在第p个无标记像素上的预测概率;
步骤3:在语义分割上使用自适应采样策略进行半监督对比学习;
在高分辨编码器
Figure FDA00041100885900000216
和/>
Figure FDA00041100885900000217
后加入不共享权重的对比学习特征表示头/>
Figure FDA00041100885900000218
和/>
Figure FDA00041100885900000219
Figure FDA0004110088590000031
Figure FDA0004110088590000032
包含2个卷积层;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为256,分辨率保持不变,即H0×W0×256;
将语义上下文特征
Figure FDA0004110088590000033
和/>
Figure FDA0004110088590000034
输入对比学习特征表示头/>
Figure FDA0004110088590000035
和/>
Figure FDA0004110088590000036
得到密集语义特征表示/>
Figure FDA0004110088590000037
和/>
Figure FDA0004110088590000038
由于对比损失仅在训练期间提供监督,因此对比学习特征表示头在推理期间被移除;
用自适应的采样策略在语义特征表示
Figure FDA0004110088590000039
和/>
Figure FDA00041100885900000310
中对不同语义类别的样本对应的特征向量进行采样,采样空间为学生模型在无标签像素上预测的伪标签和真实标签,计算对比学习损失函数Lc
Figure FDA00041100885900000311
其中,L是语义分割类别的数量;zla是第l类第a个锚点的特征向量,
Figure FDA00041100885900000312
是第l类的正样本,是所有第l类样本特征向量的平均值,/>
Figure FDA00041100885900000313
是第l类第a个锚点的第b个属于其他类别的负样本的特征向量;对于L中的每个类别,锚点和锚点的负样本对应的特征向量都采集自语义特征表示/>
Figure FDA00041100885900000314
和/>
Figure FDA00041100885900000315
每个类别都有A个锚点,并且每个锚点都有一个正样本和B个负样本;<·,·>是两个特征向量之间的余弦相似度,用于度量两个特征向量之间的距离,范围为-1到1,τ=0.5是温度系数;对于当前训练批量中的每个类别,通过最小化Lc,拉近该类别的锚点与其正样本的距离,而推远该类别的锚点与其负样本的距离;
对于语义类别l,本发明根据相似度分布
Figure FDA00041100885900000316
在其他类别上进行非均匀抽样,相似度分布定义如下:
Figure FDA00041100885900000317
Figure FDA0004110088590000041
由类别l与其他类别经过softmax归一化后的类别相似度组成,/>
Figure FDA0004110088590000042
和/>
Figure FDA0004110088590000043
是类别l和g的正样本,<·,·>是两个特征向量之间的余弦相似度;
步骤4:通过使总体的损失函数L最小来优化模型的参数,总体的损失函数L由T1和T2的语义变化检测损失
Figure FDA0004110088590000044
和/>
Figure FDA0004110088590000045
语义分割上的有监督和无监督损失函数/>
Figure FDA0004110088590000046
和/>
Figure FDA0004110088590000047
以及语义分割上的对比学习损失函数Lc构成;语义变化检测损失/>
Figure FDA0004110088590000048
和/>
Figure FDA0004110088590000049
为交叉熵损失,描述为:
Figure FDA00041100885900000410
Figure FDA00041100885900000411
其中T为像素的个数,
Figure FDA00041100885900000412
和/>
Figure FDA00041100885900000413
和/>
Figure FDA00041100885900000414
分别表示真值标签和解码器/>
Figure FDA00041100885900000415
和/>
Figure FDA00041100885900000416
在第t个像素上的预测概率;
总体的损失函数L描述为:
Figure FDA00041100885900000417
得到总体的损失函数后进行反向传播,使用AdamW优化器进行优化,重复迭代直至迭代次数达到设置初始值时判定完成训练。
2.根据权利要求1所述的基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于:步骤1具体如下:
步骤1-1:对于T1时相,遥感图像I1通过卷积模块M0得到的维度为H0×W0×64的特征图
Figure FDA00041100885900000418
H0=Hinput/4,W0=Winput/4,其中Hinput与Winput为输入图像I1的高和宽;
步骤1-2:将
Figure FDA00041100885900000419
输入高分辨网络编码器/>
Figure FDA00041100885900000420
所述的高分辨网络编码器/>
Figure FDA00041100885900000421
包括4层,第i层包括i个卷积模块Mi,j,i≥1,0≤j<i;卷积模块Mi,j输出的特征图定义为/>
Figure FDA00041100885900000422
特征图/>
Figure FDA00041100885900000423
的分辨率记为Hi,j×Wi,j,通道数记为Ci,j,其中Hi,j=H0/2j,Wi,j=W0/2j,Ci,j=40×2j
当i≥2时,将第i-1层卷积模块Mi-1,y的输出
Figure FDA00041100885900000424
经过如下处理统一输入分辨率及通道数后采用加法融合输入第i层的卷积模块Mi,j,y∈[0,i-2];
当y<j时,对特征图
Figure FDA0004110088590000051
进行j-y次步长为2的跨步卷积,每次跨步卷积通过3×3卷积使得特征图的通道数翻倍,分辨率减半;
当y=j时,对特征图
Figure FDA0004110088590000052
进行3×3卷积进行特征的提取且通道数与分辨率不变;
当y>j时,对特征图
Figure FDA0004110088590000053
进行3×3卷积,并将通道数变为40×2j,且使用双线性插值上采样操作使得分辨率变为H0/2j×W0/2j
通过高分辨编码器中所有的卷积模块后,得到的4个不同尺度的特征图
Figure FDA0004110088590000054
k=0,1,2,3;/>
Figure FDA0004110088590000055
的分辨率与通道数分别为H0/2k×W0/2k和40×2k;将/>
Figure FDA0004110088590000056
通过上采样操作统一分辨率,再沿通道维度进行拼接,得到语义上下文特征/>
Figure FDA0004110088590000057
T2时相同理,得到语义上下文特征/>
Figure FDA0004110088590000058
步骤1-3,将语义上下文特征对
Figure FDA0004110088590000059
和/>
Figure FDA00041100885900000510
输入变化特征提取模块,对/>
Figure FDA00041100885900000511
和/>
Figure FDA00041100885900000512
作绝对差dcd,再将dcd进行1次1×1卷积操作,得到尺度为H0×W0×600变化特征fcd
步骤1-4,对于T1时相,将
Figure FDA00041100885900000513
和fcd输入特征融合模块,特征融合模块包含1个沿通道维度的拼接操作和1个改变通道数的1×1卷积操作;首先沿通道维度进行拼接,再通过1次1×1卷积操作将通道数压缩为原来的1/2,得到尺度为H0×W0×600的语义变化特征/>
Figure FDA00041100885900000514
步骤1-5,将
Figure FDA00041100885900000515
输入解码器/>
Figure FDA00041100885900000516
解码器包含2个卷积层,一个双线性插值上采样操作和一个softmax操作;第一个卷积层包含1个步幅为1,填充为2的3×3卷积,该卷积操作将输入特征向量通道数变为原来1/4,分辨率保持不变,即H0×W0×150,以及1个批归一化操作和1修正线性单元;第二个卷积层包含1个步幅为1的1×1卷积操作,将输入特征向量通道数变为语义变化检测类别数,分辨率保持不变,即H0×W0×7;双线性插值上采样操作将输入特征向量的分辨率恢复为输入图像的分辨率,即Hinput×Winput×7,最后用softmax操作进行归一化,得到时相的语义变化检测结果/>
Figure FDA00041100885900000517
T2时相同理得到
Figure FDA0004110088590000061
3.根据权利要求2所述的基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于:所有的卷积模块都由3×3卷积层、批归一化层与修正线性单元组成。
4.根据权利要求1所述的基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法,其特征在于:步骤2-2自训练过程分为三个步骤:首先,在有标签像素上训练和更新学生模型参数;然后,用学生模型参数的指数移动平均更新教师模型参数,使用教师模型在无标签的像素预测伪标签;最后,用学生模型在有标签像素上的预测值和真实值计算有监督损失,用学生模型在无标签像素上的预测值和伪标签计算无监督损失,通过最小化有监督损失和无监督损失更新学生模型参数;不断迭代以上三个步骤直至收敛,并使用学生模型进行最终评估。
5.一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1所述的方法。
6.一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现权利要求1所述的方法。
CN202310204005.5A 2023-03-06 2023-03-06 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法 Pending CN116310812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310204005.5A CN116310812A (zh) 2023-03-06 2023-03-06 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310204005.5A CN116310812A (zh) 2023-03-06 2023-03-06 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法

Publications (1)

Publication Number Publication Date
CN116310812A true CN116310812A (zh) 2023-06-23

Family

ID=86786330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310204005.5A Pending CN116310812A (zh) 2023-03-06 2023-03-06 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法

Country Status (1)

Country Link
CN (1) CN116310812A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475155A (zh) * 2023-12-26 2024-01-30 厦门瑞为信息技术有限公司 基于半监督学习的轻量级遥感图像分割方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475155A (zh) * 2023-12-26 2024-01-30 厦门瑞为信息技术有限公司 基于半监督学习的轻量级遥感图像分割方法
CN117475155B (zh) * 2023-12-26 2024-04-02 厦门瑞为信息技术有限公司 基于半监督学习的轻量级遥感图像分割方法

Similar Documents

Publication Publication Date Title
Wang et al. Uncertainty estimation for stereo matching based on evidential deep learning
CN110969088B (zh) 一种基于显著性检测与深度孪生神经网络的遥感影像变化检测方法
CN112132149B (zh) 一种遥感影像语义分割方法及装置
CN112733800B (zh) 基于卷积神经网络的遥感图像道路信息提取方法和装置
CN109871875B (zh) 一种基于深度学习的建筑物变化检测方法
CN113763442A (zh) 一种可变形医学图像配准方法及系统
CN111583276B (zh) 基于cgan的空间目标isar图像部件分割方法
CN113920170B (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN112163106B (zh) 二阶相似感知的图像哈希码提取模型建立方法及其应用
CN116310812A (zh) 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法
CN114913434B (zh) 一种基于全局关系推理的高分辨率遥感影像变化检测方法
CN113518307A (zh) 基于csi与众包迁移自校准更新的位置指纹定位方法
Hughes et al. A semi-supervised approach to SAR-optical image matching
Wang et al. Small vehicle classification in the wild using generative adversarial network
Xi et al. Attention Deeplabv3 model and its application into gear pitting measurement
Zhang et al. Global attention network with multiscale feature fusion for infrared small target detection
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN115345322B (zh) 一种基于层级化元迁移的小样本雷达目标识别方法
CN116258877A (zh) 土地利用场景相似度变化检测方法、装置、介质及设备
CN116523897A (zh) 一种基于互导学习的半监督浒苔检测方法及系统
CN116580243A (zh) 一种掩码图像建模引导域适应的跨域遥感场景分类方法
CN115661539A (zh) 一种嵌入不确定性信息的少样本图像识别方法
CN115829996A (zh) 基于深度特征图的无监督合成孔径雷达图像变化检测方法
CN115439669A (zh) 基于深度学习的特征点检测网络及跨分辨率图像匹配方法
Sanjaya et al. Semantic segmentation for aerial images: a literature review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination