CN116363357A - 基于mim和对比学习的半监督语义分割方法及装置 - Google Patents

基于mim和对比学习的半监督语义分割方法及装置 Download PDF

Info

Publication number
CN116363357A
CN116363357A CN202310063885.9A CN202310063885A CN116363357A CN 116363357 A CN116363357 A CN 116363357A CN 202310063885 A CN202310063885 A CN 202310063885A CN 116363357 A CN116363357 A CN 116363357A
Authority
CN
China
Prior art keywords
image
semantic
pseudo
module
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310063885.9A
Other languages
English (en)
Inventor
陈浩
李政宏
伍江江
杜春
李沛秦
熊伟
李军
吴烨
贾庆仁
陈荦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202310063885.9A priority Critical patent/CN116363357A/zh
Publication of CN116363357A publication Critical patent/CN116363357A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于MIM和对比学习的半监督语义分割方法及装置。所述方法包括:获取训练图像集;构建MIM半监督语义分割网络模型,该模型包括教师模型、学生模型、重建探测头及特征探测头;将弱增强图像发送至教师模型进行语义分割,生成第一预测熵图;将强增强图像输入学生模型解码器中,通过特征探测头提取强语义特征及第二伪标签;将弱增强图像的掩码图像输入学生模型编码器中,通过重建探测头生成重建图像语义特征及第四伪标签;拼接强语义特征、重建图像语义特征、第二伪标签及第四伪标签,生成第二预测熵图;根据第一预测熵图与第二预测熵图的对比学习结果,得到训练好的MIM半监督语义分割网络模型。本发明可提升图像特征提取效果。

Description

基于MIM和对比学习的半监督语义分割方法及装置
技术领域
本申请涉及图像数据处理技术领域,特别是涉及一种基于MIM和对比学习的半监督语义分割方法及装置。
背景技术
随着图像数据处理技术的发展,对于目标追踪时捕捉到的图像需要进行数据真实性预测,出现了半监督语义分割技术,通过半监督学习来利用图像中未标记数据的信息,通过模拟图像标记和未标记数据的真实数据分布,进而生成新的图像数据或者高质量伪标签,并在一致性正则化方法的假设下,利用伪标签方法以迭代方式增强半监督语义特征提取的性能。
然而,目前的半监督语义分割方法,致力于从有标签数据中提取无标签信息,而忽略了图像内不同区域间的信息交互,导致图像数据处理和未标记数据的提取精度较差,并且对于目标掩蔽情况下,捕捉到的图像信息训练结果偏差率较大。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提取不同切片间图像数据信息的基于MIM和对比学习的半监督语义分割方法及装置。
一种基于MIM和对比学习的半监督语义分割方法,所述方法包括:
获取训练图像集,训练图像集包括:弱增强图像和强增强图像。
构建MIM半监督语义分割网络模型,半监督语义分割网络模型包括:教师模型、学生模型、重建探测头以及特征探测头。
将弱增强图像发送至教师模型进行语义分割,得到弱增强图像中未标记图像的第一伪标签,根据第一伪标签生成第一预测熵图。
将强增强图像输入所述学生模型解码器中,通过特征探测头从学生模型解码器中提取强语义特征及第二伪标签。
将弱增强图像的掩码图像输入学生模型编码器中,通过重建探测头从学生模型编码器中提取的掩码语义特征及第三伪标签,基于MIM生成重建图像语义特征及第四伪标签。
通过拼接强语义特征、重建图像语义特征、第二伪标签以及第四伪标签,生成第二预测熵图。
根据第一预测熵图与第二预测熵图的对比学习结果进行反向训练,得到训练好的MIM半监督语义分割网络模型。
在其中一个实施例中,还包括:将弱增强图像发送至教师模型,经教师模型中的第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块对弱增强图像的第一语义特征进行提取,并对弱增强图像中的未标记图像赋予第一伪标签,根据第一语义特征与第一伪标签进行拼接,生成第一预测熵图。
在其中一个实施例中,还包括:教师模型包括:第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块。
第一残差模块接收弱增强图像并逐层处理弱增强图像的语义特征信息,得到第一残差语义特征。
第一全局-局部注意力机制模块包括第一全局分支和第一局部分支,第一全局分支采用上下文交互模块提取弱增强图像的第一全局语义特征,第一局部分支采用并行的卷积层提取所述弱增强图像的第一局部语义特征。
第一加权求和模块用于聚合第一残差语义特征、第一全局语义特征以及第一局部语义特征,得到弱增强图像的第一融合语义特征。
第一特征增强模块接收第一融合语义特征,采用双信道处理方式处理第一融合语义特征,得到弱增强图像的第一语义特征。
在其中一个实施例中,还包括:学生模型包括第二残差模块、第二全局-局部注意力机制模块、第二加权求和模块以及第二特征增强模块。
将强增强图像输入学生模型解码器中,经学生模型解码器中的第二残差模块、第二全局-局部注意力机制模块以及第二加权求和模块进行语义特征提取,得到第二语义特征。
特征探测头从学生模型解码器中获取第二语义特征,根据预先构建的对比损失函数进行收敛,生成强语义特征及第二伪标签。
在其中一个实施例中,还包括:将弱增强图像的掩码图像输入学生模型编码器中,经学生模型编码器中的第二残差模块进行语义特征提取,得到掩码语义特征。
重建探测头从学生模型编码中提取掩码语义特征及弱增强图像的掩码图像的第三伪标签,基于MIM将掩码语义特征和第三伪标签进行拼接,得到重建图像。
根据预先构建的重建损失函数对重建图像进行收敛,生成掩码预测图像,通过预先构建的重建语义一致性损失函数收敛掩码预测图像,得到重建图像语义特征及第四伪标签。
在其中一个实施例中,还包括:通过预先构建的标签损失函数,将训练图象集的标签分别与第二伪标签和第四伪标签进行差值收敛,得到优化后的第二伪标签和第四伪标签,将强语义特征、重建图像语义特征、优化后的第二伪标签以及优化后的第四伪标签进行拼接,生成第二预测熵图。
在其中一个实施例中,还包括:标签损失函数定义为:
Figure BDA0004062148580000031
其中,λi是第i个像素的标签权重,yi是第i个像素的标签或伪标签,
Figure BDA0004062148580000033
是第i-个像素的预测,n是参与计算的像素数。
在其中一个实施例中,还包括:根据第一预测熵图与第二预测熵图的差异构建熵损失函数,并将第一预测熵图与第二预测熵图的对比学习结果进行收敛,将收敛后的对比学习结果作为训练图像集输入MIM半监督语义分割网络模型中,得到训练好的MIM半监督语义分割网络模型。
在其中一个实施例中,还包括:重建损失失函数定义为:
Figure BDA0004062148580000032
其中,nm是屏蔽像素的数量,
Figure BDA0004062148580000041
是学生模型的重建图像,xweak为具有弱增强的原始图像,/>
Figure BDA0004062148580000042
是指示符函数,/>
Figure BDA0004062148580000043
表示屏蔽区域。
一种基于MIM和对比学习的半监督语义分割装置,所述装置包括:
样本获取模块,用于获取训练图像集,训练图像集包括:弱增强图像和强增强图像。
模型构建模块,用于构建MIM半监督语义分割网络模型,MIM半监督语义分割网络模型包括:教师模型、学生模型、重建探测头以及特征探测头。
第一预测熵图生成模块,用于将弱增强图像发送至教师模型进行语义分割,得到弱增强图像中未标记图像的第一伪标签,根据第一伪标签生成第一预测熵图。
强特征提取模块,用于将强增强图像输入学生模型解码器中,通过特征探测头从学生模型解码器中提取强语义特征及第二伪标签。
重建图像模块,用于将弱增强图像的掩码图像输入学生模型编码器中,通过重建探测头从学生模型编码器中提取的掩码语义特征及第三伪标签,基于MIM生成重建图像语义特征及第四伪标签。
第二预测熵图生成模块,用于通过拼接强语义特征、重建图像语义特征、第二伪标签以及第四伪标签,生成第二预测熵图。
模型训练模块,用于根据第一预测熵图与第二预测熵图的对比学习结果进行反向训练,得到训练好的MIM半监督语义分割网络模型。
上述基于MIM和对比学习的半监督语义分割方法及装置,通过构建MIM半监督语义分割网络模型,首先利用教师模型处理弱增强图像中未标签图像的数据,进而提取到第一伪标签,根据第一伪标签生成第一预测熵图,并且将弱增强图像的掩码图像作为学生模型的处理数据,促进了训练图像集各切片之间的信息交互,保障后续模型训练过程中数据的稳定性。其次,为重点提取训练图像集中未标签的语义特征,将强增强图像作为学生模型接收的另一个数据源,通过增加特征探测头和重建探测头,对学生模型中的图像数据进行分区域、分切片、分标签的处理,以此获取强语义特征、重建图像语义特征、第二伪标签以及第四伪标签,通过拼接融合,生成第二预测熵图,最后将第一预测熵图和第二预测熵图的对比学习结果作为反向训练图像集,重新输入至MIM半监督语义分割网络模型,不断提高训练结果的精度,以此得到训练好的MIM半监督语义分割网络模型。
附图说明
图1为一个实施例中基于MIM和对比学习的半监督语义分割方法的流程示意图;
图2为一个实施例中半监督语义分割网络模型的示意图;
图3为一个实施例中特征探测头的结构示意图;
图4为一个实施例中重建探测头的结构示意图;
图5为一个实施例中UNetFormer网络架构的示意图;
图6为一个实施例中训练LoveDA数据集部分结果对比图,其中,(a)遥感图像;(b)道路标签;(c)ReCo;(d)U2PL;(e)CAC;(f)CCT;(g)CPS;(h)PSMT;(i)SemiCMNet;
图7为一个实施例中训练DGLCC数据集部分结果对比图,其中,(a)遥感图像;(b)道路标签;(c)ReCo;(d)U2PL;(e)CAC;(f)CCT;(g)CPS;(h)PSMT;(i)SemiCMNet;
图8为一个实施例中Potsdam数据集部分结果对比图,其中,(a)遥感图像;(b)道路标签;(c)ReCo;(d)U2PL;(e)CAC;(f)CCT;(g)CPS;(h)PSMT;(i)SemiCMNet;
图9为一个实施例中基于MIM和对比学习的半监督语义分割装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
值得说明的是,本发明中所涉及的“第一”、“第二”等描述仅代表命名方式,不区分大小和先后顺序,不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。
在一个实施例中,如图1所示,提供了一种基于MIM和对比学习的半监督语义分割方法,包括以下步骤:
步骤102,获取训练图像集。
训练图像集包括:弱增强图像和强增强图像。
训练图像集可以分为标记图像xl和未标记图像xu,其中,标记图像的数据集表示为
Figure BDA0004062148580000061
其中包含M个标记图像/>
Figure BDA0004062148580000062
和其相应的标签/>
Figure BDA0004062148580000063
另外,未标记图像的数据集表示为/>
Figure BDA0004062148580000064
其中包含N未标记个未标记图像/>
Figure BDA0004062148580000065
具体的,弱增强图像为xweak,可以分为标记弱增强图像和未标记弱增强图像,强增强图像为xstrong,可以分为标记强增强图像和未标记强增强图像。
步骤104,构建MIM半监督语义分割网络模型。
通过构建MIM半监督语义分割网络模型可以对训练图像集中的未标签图像进行更好的语义分割,使得提取到的语义特征及其对应的标签数量增多,有利于后续图像数据的还原。
半监督语义分割网络模型包括:教师模型、学生模型、重建探测头以及特征探测头。
教师模型和学生模型均采用UNetFormer模型,其中,UNetFormer模型中的编码器为ResNet50编码器。另外教师模型的参数由EMA(Exponential Moving Average,指数移动平均值)在学生模型上更新,其中,教师模型权重的更新可以表示为:
θt,i=(1-αθt,i-1θθs
其中,θt,i是教师模型的第i代权重,θs是学生模型的当前代权重,αθ是平滑系数的超参数。
步骤106,将弱增强图像发送至教师模型进行语义分割,得到弱增强图像中未标记图像的第一伪标签,根据第一伪标签生成第一预测熵图。
值得说明的是,将弱增强图像发送至教师模型进行语义分割,得到弱增强图像的语义特征及其对应标签,利用UNetFormer模型对弱增强图像中未标签图像赋予第一伪标签,通过将第一伪标签与弱增强图像的标签进行拼接,生成第一预测熵图。
步骤108,将强增强图像输入所述学生模型解码器中,通过特征探测头从学生模型解码器中提取强语义特征及第二伪标签。
第一伪标签基于学生模型的第二伪标签进行自更新,表示为:
Figure BDA0004062148580000071
其中,
Figure BDA0004062148580000072
是未标记图像xu的第i个像素伪标签,/>
Figure BDA0004062148580000073
是xu上的教师模型预测,
Figure BDA0004062148580000074
是/>
Figure BDA0004062148580000075
的预测标签,δp是伪标签阈值。值得说明的是,通过特征探测头对强增强图像语义特征及未标记图像像素的标签提取,进一步捕捉切片间的语义信息,提高语义特征提取精度。
步骤110,将弱增强图像的掩码图像输入学生模型编码器中,通过重建探测头从学生模型编码器中提取的掩码语义特征及第三伪标签,基于MIM生成重建图像语义特征及第四伪标签。
掩码m根据掩码速率随机生成,其形状与训练图像集x相同,值得说明的是,将弱增强图像的掩码图像xweak·m输入学生模型中,通过重建语义一致性损失函数lrsc,将弱增强图像的掩码图像的预测标签与训练图像集的标签进行比对,基于语义一致性损失函数lrsc在语义级别上增强了不同补丁的连接,进而补充了训练图像集屏蔽区域缺失的语义特征信息,利用重建特测头和学生模型的残差模块重建图像
Figure BDA0004062148580000076
并提取重建图像中的掩码语义特征,对重建图像中未标签图像赋予第三伪标签,然后通过均方损失计算重建图像/>
Figure BDA0004062148580000077
与弱增强图像xweak之间的差,掩码m像素仅包含两个不同的值,其中,1表示未掩码像素,0表示掩码像素。
具体的,重建损失函数lr定义为:
Figure BDA0004062148580000081
其中,nm为屏蔽像素的数量,
Figure BDA0004062148580000082
为学生模型的重建掩码图像,xweak为弱增强图像,/>
Figure BDA0004062148580000083
为指示符函数,/>
Figure BDA0004062148580000084
表示屏蔽区域。
重构语义一致性损失函数lrsc,表示为:
Figure BDA0004062148580000085
其中,y是对教师模型处理的弱增强图像xweak的语义分割预测第一伪标签,
Figure BDA0004062148580000086
是对弱增强图像的掩码图像xweak·m的语义分割预测第三伪标签。
步骤112,通过拼接强语义特征、重建图像语义特征、第二伪标签以及第四伪标签,生成第二预测熵图。
步骤114,根据第一预测熵图与第二预测熵图的对比学习结果进行反向训练,得到训练好的MIM半监督语义分割网络模型。
值得说明的是,引入对比损失函数lc,定义为:
Figure BDA0004062148580000087
其中,Fq是查询特征集,
Figure BDA0004062148580000088
是c类的负特征存储库,/>
Figure BDA0004062148580000089
是c类的正关键字,τ是控制特征分布平滑度的温度参数。通过对比损失函数对第一预测熵图与第二预测熵图的对比学习结果进行差值收敛,将收敛后的对比学习结果作为MIM半监督语义分割网络模型的输入数据,通过不断迭代训练,得到最终训练好的MIM半监督语义分割网络模型,即SemiCMNet模型。
具体的,采用batch中的类c(查询特性的类)的平均特性作为主键
Figure BDA0004062148580000091
,为了保持负密钥数和内存资源之间的平衡,构建一个动态队列,其中,负关键字队列/>
Figure BDA0004062148580000092
表示队列中除类c(即查询类)之外的所有数据。由于样本策略对对比学习很重要,因此,对查询Fq进行采样,发现对应的像素置信度低于查询阈值δq,故,当前批次的负密钥编号是根据批次和队列之间的平均特征相似度确定的。
上述基于MIM和对比学习的半监督语义分割方法中,上述基于MIM和对比学习的半监督语义分割方法及装置,通过构建MIM半监督语义分割网络模型,首先利用教师模型处理弱增强图像中未标签图像的数据,进而提取到第一伪标签,根据第一伪标签生成第一预测熵图,并且将弱增强图像的掩码图像作为学生模型的处理数据,促进了训练图像集各切片之间的信息交互,保障后续模型训练过程中数据的稳定性。其次,为重点提取训练图像集中未标签的语义特征,将强增强图像作为学生模型接收的另一个数据源,通过增加特征探测头和重建探测头,对学生模型中的图像数据进行分区域、分切片、分标签的处理,以此获取强语义特征、重建图像语义特征、第二伪标签以及第四伪标签,通过拼接融合,生成第二预测熵图,最后将第一预测熵图和第二预测熵图的对比学习结果作为反向训练图像集,重新输入至MIM半监督语义分割网络模型,不断提高训练结果的精度,以此得到训练好的MIM半监督语义分割网络模型。
在其中一个实施例中,将弱增强图像发送至教师模型,经教师模型中的第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块对弱增强图像的第一语义特征进行提取,并对弱增强图像中的未标记图像赋予第一伪标签,根据第一语义特征与第一伪标签进行拼接,生成第一预测熵图。
值得说明的是,如图5所示,教师模型采用编码器为ResNet50的UNetFormer模型,以获得更好的特征提取能力。
在其中一个实施例中,教师模型包括:第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块。第一残差模块接收弱增强图像并逐层处理弱增强图像的语义特征信息,得到第一残差语义特征。第一全局-局部注意力机制模块包括第一全局分支和第一局部分支,第一全局分支采用上下文交互模块提取弱增强图像的第一全局语义特征,第一局部分支采用并行的卷积层提取所述弱增强图像的第一局部语义特征。第一加权求和模块用于聚合第一残差语义特征、第一全局语义特征以及第一局部语义特征,得到弱增强图像的第一融合语义特征。第一特征增强模块接收第一融合语义特征,采用双信道处理方式处理第一融合语义特征,得到弱增强图像的第一语义特征。
在其中一个实施例中,学生模型包括第二残差模块、第二全局-局部注意力机制模块、第二加权求和模块以及第二特征增强模块。将强增强图像输入学生模型解码器中,经学生模型解码器中的第二残差模块、第二全局-局部注意力机制模块以及第二加权求和模块进行语义特征提取,得到第二语义特征。特征探测头从学生模型解码器中获取第二语义特征,根据预先构建的对比损失函数进行收敛,生成强语义特征及第二伪标签。
值得说明的是,如图3、图5所示,通过将学生模型的UNetFormer模型进行分模块提取特征,利用特征探测头对解码器中的语义特征进行二次分析和处理,可以进一步捕捉到强图像像素中未标签的像素,从而提高整体提取语义特征的提取精度。
在其中一个实施例中,将弱增强图像的掩码图像输入学生模型编码器中,经学生模型编码器中的第二残差模块进行语义特征提取,得到掩码语义特征。重建探测头从学生模型编码中提取掩码语义特征及弱增强图像的掩码图像的第三伪标签,基于MIM将掩码语义特征和第三伪标签进行拼接,得到重建图像。根据预先构建的重建损失函数对重建图像进行收敛,生成掩码预测图像,通过预先构建的重建语义一致性损失函数收敛掩码预测图像,得到重建图像语义特征及第四伪标签。
值得说明的是,如图4所示,MIM(Masked Image Modeling,掩码图像建模)可以增强重建图像各切片间的语义信息交互,使得重建探测头提取到的掩码语义特征及第三伪标签精度更高,且高置信度像素的预测标签对应的是第三伪标签。
在其中一个实施例中,通过预先构建的标签损失函数,将训练图象集的标签分别与第二伪标签和第四伪标签进行差值收敛,得到优化后的第二伪标签和第四伪标签,将强语义特征、重建图像语义特征、优化后的第二伪标签以及优化后的第四伪标签进行拼接,生成第二预测熵图。
在其中一个实施例中,标签损失函数定义为:
Figure BDA0004062148580000111
其中,λi是第i个像素的标签权重,yi是第i个像素的标签或伪标签,
Figure BDA0004062148580000112
是第i-个像素的预测,n是参与计算的像素数。
值得说明的是,标签损失函数llab利用了标签yl和伪标签yu的信息,并且llab中的权重根据EMA(Exponential Moving Average,指数移动平均值)对相应标签的召回率进行动态调整,对于标记图像,训练图像和标签的所有像素都参与计算,因此n等于H×W。对于未标记图像,只有高置信度伪标签像素和相应的训练图像像素参与计算,所以n与伪标签像素的像素数相等。具体的,EMA更新权重λ,以保持稳定性和动态性的平衡。考虑到伪标签与真实标签相比不够可靠,更新基础是标签数据的召回率,而不是批次中的总数据。因此,权重λ通过以下方式更新:
λc,i=(1-αλc,i-1λ(1-Recl)
其中,λc,i是第i次权重更新迭代中类c的权重,αλ是定义的参数,Recl是批中有标签数据的召回率。
在其中一个实施例中,根据第一预测熵图与第二预测熵图的差异构建熵损失函数,并将第一预测熵图与第二预测熵图的对比学习结果进行收敛,将收敛后的对比学习结果作为训练图像集输入MIM半监督语义分割网络模型中,得到训练好的MIM半监督语义分割网络模型。
值得说明的是,基于学生模型和教师模型的预测熵图之间的差异来设计熵损失函数le,定义为:
le(es,et)=(et-es)2
其中,es和et分别是学生模型和教师模型的熵映射。具体的,熵映射值反映了预测的不确定性范围。熵损失le倾向于减少基于教师熵图et和学生熵图e的学生模型预测不确定性。熵值ei(学生熵图es或教师熵图et)由以下公式计算:
Figure BDA0004062148580000121
其中,yj表示预测向量
Figure BDA0004062148580000122
类别为j的概率。以此提高第一预测熵图与第二预测熵图对比学习结果的精度。
在其中一个实施例中,重建损失失函数定义为:
Figure BDA0004062148580000123
其中,nm是屏蔽像素的数量,
Figure BDA0004062148580000124
是学生模型的重建图像,xweak为具有弱增强的原始图像,/>
Figure BDA0004062148580000125
是指示符函数,/>
Figure BDA0004062148580000126
表示屏蔽区域。
在其中一个实施例中,采用三个公开的遥感图像道路数据集进行实验比对,分别是:LoveDA数据集、DeepGlobe Land Cover Classification数据集以及Potsdam数据集。
表格1各数据集图像数量
Figure BDA0004062148580000127
为了证明本发明提出的方法的有效性,使用几种先进的几种先进的半监督语义分割方法来进行定量和定性比较发明模型的性能,并进行定量和定性比较。
在对比实验中,我们使用三种图像质量评价指标来比较SemiCMNet(即MIM半监督语义分割网络模型)与其他模型。其他模型。表格2、表格3、表格4分别列出了使用每种方法训练LoveDA数据集、DGLCC数据集以及Potsdam数据集的定量结果;图6、图7、图8分别列出了各方法在数据集的定性结果。最高分用粗体表示,总的来说,提出的SemiCMNet在表现最好,在评价指标上分数最高并且预测图像的连续性最好。
表格2LoveDA数据集实验结果
Figure BDA0004062148580000131
表格3DGLCC数据集实验结果
Figure BDA0004062148580000132
表格4Potsdam数据集实验结果
Figure BDA0004062148580000141
应该理解的是,虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种基于MIM和对比学习的半监督语义分割装置,包括:样本获取模块、模型构建模块、第一预测熵图生成模块、强特征提取模块、重建图像模块、第二预测熵图生成模块和模型训练模块,其中:
样本获取模块,用于获取训练图像集,训练图像集包括:弱增强图像和强增强图像。
模型构建模块,用于构建MIM半监督语义分割网络模型,MIM半监督语义分割网络模型包括:教师模型、学生模型、重建探测头以及特征探测头。
第一预测熵图生成模块,用于将弱增强图像发送至教师模型进行语义分割,得到弱增强图像中未标记图像的第一伪标签,根据第一伪标签生成第一预测熵图。
强特征提取模块,用于将强增强图像输入学生模型解码器中,通过特征探测头从学生模型解码器中提取强语义特征及第二伪标签。
重建图像模块,用于将弱增强图像的掩码图像输入学生模型编码器中,通过重建探测头从学生模型编码器中提取的掩码语义特征及第三伪标签,基于MIM生成重建图像语义特征及第四伪标签。
第二预测熵图生成模块,用于通过拼接强语义特征、重建图像语义特征、第二伪标签以及第四伪标签,生成第二预测熵图。
模型训练模块,用于根据第一预测熵图与第二预测熵图的对比学习结果进行反向训练,得到训练好的MIM半监督语义分割网络模型。
关于基于MIM和对比学习的半监督语义分割装置的具体限定可以参见上文中对于基于MIM和对比学习的半监督语义分割方法的限定,在此不再赘述。上述基于MIM和对比学习的半监督语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于MIM和对比学习的半监督语义分割方法,其特征在于,所述方法包括:
获取训练图像集,所述训练图像集包括:弱增强图像和强增强图像;
构建MIM半监督语义分割网络模型,所述MIM半监督语义分割网络模型包括:教师模型、学生模型、重建探测头以及特征探测头;
将所述弱增强图像发送至所述教师模型进行语义分割,得到所述弱增强图像中未标记图像的第一伪标签,根据所述第一伪标签生成第一预测熵图;
将所述强增强图像输入所述学生模型解码器中,通过所述特征探测头从所述学生模型解码器中提取强语义特征及第二伪标签;
将所述弱增强图像的掩码图像输入所述学生模型编码器中,通过所述重建探测头从所述学生模型编码器中提取的掩码语义特征及第三伪标签,基于MIM生成重建图像语义特征及第四伪标签;
通过拼接所述强语义特征、所述重建图像语义特征、所述第二伪标签以及所述第四伪标签,生成第二预测熵图;
根据所述第一预测熵图与所述第二预测熵图的对比学习结果进行反向训练,得到训练好的MIM半监督语义分割网络模型。
2.根据权利要求1所述的方法,其特征在于,将所述弱增强图像发送至所述教师模型进行语义分割,得到所述弱增强图像中未标记图像的第一伪标签,根据所述第一伪标签生成第一预测熵图,包括:
将所述弱增强图像发送至所述教师模型,经所述教师模型中的第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块对所述弱增强图像的第一语义特征进行提取,并对所述弱增强图像中的未标记图像赋予第一伪标签,根据所述第一语义特征与所述第一伪标签进行拼接,生成第一预测熵图。
3.根据权利要求2所述的方法,其特征在于,所述教师模型包括:第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块;
所述第一残差模块接收所述弱增强图像并逐层处理所述弱增强图像的语义特征信息,得到第一残差语义特征;
所述第一全局-局部注意力机制模块包括第一全局分支和第一局部分支,所述第一全局分支采用上下文交互模块提取所述弱增强图像的第一全局语义特征,所述第一局部分支采用并行的卷积层提取所述弱增强图像的第一局部语义特征;
所述第一加权求和模块用于聚合所述第一残差语义特征、所述第一全局语义特征以及所述第一局部语义特征,得到所述弱增强图像的第一融合语义特征;
所述第一特征增强模块接收所述第一融合语义特征,采用双信道处理方式处理所述第一融合语义特征,得到所述弱增强图像的第一语义特征。
4.根据权利要求3所述的方法,其特征在于,将所述强增强图像输入所述学生模型解码器中,通过所述特征探测头从所述学生模型解码器中提取强语义特征及第二伪标签,包括:
所述学生模型包括第二残差模块、第二全局-局部注意力机制模块、第二加权求和模块以及第二特征增强模块;
将所述强增强图像输入所述学生模型解码器中,经所述学生模型解码器中的所述第二残差模块、所述第二全局-局部注意力机制模块以及所述第二加权求和模块进行语义特征提取,得到第二语义特征;
所述特征探测头从所述学生模型解码器中获取所述第二语义特征,根据预先构建的对比损失函数进行收敛,生成强语义特征及第二伪标签。
5.根据权利要求4所述的方法,其特征在于,将所述弱增强图像的掩码图像输入所述学生模型编码器中,通过所述重建探测头从所述学生模型编码器中提取的掩码语义特征及第三伪标签,基于MIM生成重建图像语义特征及第四伪标签,包括:
将所述弱增强图像的掩码图像输入所述学生模型编码器中,经所述学生模型编码器中的所述第二残差模块进行语义特征提取,得到掩码语义特征;
所述重建探测头从所述学生模型编码中提取所述掩码语义特征及所述弱增强图像的掩码图像的第三伪标签,基于MIM将所述掩码语义特征和所述第三伪标签进行拼接,得到重建图像;
根据预先构建的重建损失函数对所述重建图像进行收敛,生成所述掩码预测图像,通过预先构建的重建语义一致性损失函数收敛所述掩码预测图像,得到重建图像语义特征及第四伪标签。
6.根据权利要求5所述的方法,其特征在于,通过拼接所述强语义特征、所述重建图像语义特征、所述第二伪标签以及所述第四伪标签,生成第二预测熵图,包括:
通过预先构建的标签损失函数,将所述训练图象集的标签分别与所述第二伪标签和所述第四伪标签进行差值收敛,得到优化后的所述第二伪标签和所述第四伪标签,将所述强语义特征、所述重建图像语义特征、优化后的所述第二伪标签以及优化后的所述第四伪标签进行拼接,生成第二预测熵图。
7.根据权利要求6所述的方法,其特征在于,所述标签损失函数定义为:
Figure FDA0004062148560000031
其中,λi是第i个像素的标签权重,yi是第i个像素的标签或伪标签,
Figure FDA0004062148560000032
是第i-个像素的预测,n是参与计算的像素数。
8.根据权利要求7所述的方法,其特征在于,根据所述第一预测熵图与所述第二预测熵图的对比学习结果进行反向训练,得到训练好的MIM半监督语义分割网络模型,包括:
根据所述第一预测熵图与所述第二预测熵图的差异构建熵损失函数,并将所述第一预测熵图与所述第二预测熵图的对比学习结果进行收敛,将收敛后的所述对比学习结果作为训练图像集输入MIM半监督语义分割网络模型中,得到训练好的MIM半监督语义分割网络模型。
9.根据权利要求8所述的方法,其特征在于,所述重建损失函数定义为:
Figure FDA0004062148560000033
其中,nm是屏蔽像素的数量,
Figure FDA0004062148560000041
是学生模型的重建图像,xweak为具有弱增强的原始图像,/>
Figure FDA0004062148560000042
是指示符函数,/>
Figure FDA0004062148560000043
表示屏蔽区域。
10.一种基于MIM和对比学习的半监督语义分割装置,其特征在于,所述装置包括:
样本获取模块,用于获取训练图像集,所述训练图像集包括:弱增强图像和强增强图像;
模型构建模块,用于构建MIM半监督语义分割网络模型,所述MIM半监督语义分割网络模型包括:教师模型、学生模型、重建探测头以及特征探测头;
第一预测熵图生成模块,用于将所述弱增强图像发送至所述教师模型进行语义分割,得到所述弱增强图像中未标记图像的第一伪标签,根据所述第一伪标签生成第一预测熵图;
强特征提取模块,用于将所述强增强图像输入所述学生模型解码器中,通过所述特征探测头从所述学生模型解码器中提取强语义特征及第二伪标签;
重建图像模块,用于将所述弱增强图像的掩码图像输入所述学生模型编码器中,通过所述重建探测头从所述学生模型编码器中提取的掩码语义特征及第三伪标签,基于MIM生成重建图像语义特征及第四伪标签;
第二预测熵图生成模块,用于通过拼接所述强语义特征、所述重建图像语义特征、所述第二伪标签以及所述第四伪标签,生成第二预测熵图;
模型训练模块,用于根据所述第一预测熵图与所述第二预测熵图的对比学习结果进行反向训练,得到训练好的MIM半监督语义分割网络模型。
CN202310063885.9A 2023-01-13 2023-01-13 基于mim和对比学习的半监督语义分割方法及装置 Pending CN116363357A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310063885.9A CN116363357A (zh) 2023-01-13 2023-01-13 基于mim和对比学习的半监督语义分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310063885.9A CN116363357A (zh) 2023-01-13 2023-01-13 基于mim和对比学习的半监督语义分割方法及装置

Publications (1)

Publication Number Publication Date
CN116363357A true CN116363357A (zh) 2023-06-30

Family

ID=86911852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310063885.9A Pending CN116363357A (zh) 2023-01-13 2023-01-13 基于mim和对比学习的半监督语义分割方法及装置

Country Status (1)

Country Link
CN (1) CN116363357A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665064A (zh) * 2023-07-27 2023-08-29 城云科技(中国)有限公司 基于生成蒸馏与特征扰动的城市变化图生成方法及其应用
CN116721104A (zh) * 2023-08-10 2023-09-08 武汉大学 实景三维模型缺陷检测方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665064A (zh) * 2023-07-27 2023-08-29 城云科技(中国)有限公司 基于生成蒸馏与特征扰动的城市变化图生成方法及其应用
CN116665064B (zh) * 2023-07-27 2023-10-13 城云科技(中国)有限公司 基于生成蒸馏与特征扰动的城市变化图生成方法及其应用
CN116721104A (zh) * 2023-08-10 2023-09-08 武汉大学 实景三维模型缺陷检测方法、装置、电子设备及存储介质
CN116721104B (zh) * 2023-08-10 2023-11-07 武汉大学 实景三维模型缺陷检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111860674B (zh) 样本类别识别方法、装置、计算机设备及存储介质
CN111369572B (zh) 一种基于图像修复技术的弱监督语义分割方法和装置
US20230022387A1 (en) Method and apparatus for image segmentation model training and for image segmentation
CN116363357A (zh) 基于mim和对比学习的半监督语义分割方法及装置
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN111553164A (zh) 命名实体识别模型的训练方法、装置、计算机设备
CN111598182B (zh) 训练神经网络及图像识别的方法、装置、设备及介质
CN108229522B (zh) 神经网络的训练方法、属性检测方法、装置及电子设备
CN111291264A (zh) 基于机器学习的访问对象预测方法、装置和计算机设备
CN116468730B (zh) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法
CN116612280A (zh) 车辆分割方法、装置、计算机设备和计算机可读存储介质
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
CN116433969A (zh) 一种零样本图像识别方法、系统及可存储介质
CN115830324A (zh) 基于候选标签集的语义分割域适应标签纠正方法及装置
CN117253044B (zh) 一种基于半监督交互学习的农田遥感图像分割方法
CN114201572A (zh) 基于图神经网络的兴趣点分类方法和装置
CN116992880A (zh) 建筑物名称的识别方法、装置、电子设备和存储介质
CN116662824A (zh) 路网道路差异检测方法、装置、计算机设备及存储介质
CN116580243A (zh) 一种掩码图像建模引导域适应的跨域遥感场景分类方法
CN115661539A (zh) 一种嵌入不确定性信息的少样本图像识别方法
CN114663751A (zh) 一种基于增量学习技术的输电线路缺陷识别方法和系统
Tomei et al. Image-to-image translation to unfold the reality of artworks: an empirical analysis
CN112749293A (zh) 一种图像分类方法、装置及存储介质
Mohammad et al. Updating of GIS maps with Change Detection of Buildings using Deep Learning techniques
CN116205376B (zh) 行为预测方法、行为预测模型的训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination