CN116630629B - 基于域适应的语义分割方法、装置、设备及存储介质 - Google Patents

基于域适应的语义分割方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116630629B
CN116630629B CN202310898823.XA CN202310898823A CN116630629B CN 116630629 B CN116630629 B CN 116630629B CN 202310898823 A CN202310898823 A CN 202310898823A CN 116630629 B CN116630629 B CN 116630629B
Authority
CN
China
Prior art keywords
segmentation result
sample image
segmentation
image block
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310898823.XA
Other languages
English (en)
Other versions
CN116630629A (zh
Inventor
赖昕
刘枢
吕江波
沈小勇
田倬韬
易振彧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Smartmore Technology Co Ltd
Original Assignee
Shenzhen Smartmore Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Smartmore Technology Co Ltd filed Critical Shenzhen Smartmore Technology Co Ltd
Priority to CN202310898823.XA priority Critical patent/CN116630629B/zh
Publication of CN116630629A publication Critical patent/CN116630629A/zh
Application granted granted Critical
Publication of CN116630629B publication Critical patent/CN116630629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于域适应的语义分割方法、装置、设备及存储介质。方法包括:获得利用初始模型对样本图像块语义分割得到的初始分割结果;在基于目标域样本图对初始模型进行多轮进阶训练的过程中,针对每轮待训练的模型,分别利用模型对样本图像块进行语义分割得到第一分割结果以及对目标域样本图进行语义分割得到原图分割结果;从原图分割结果中确定样本图像块对应的第二分割结果;基于第二分割结果对初始分割结果进行语义增强,得到参考分割结果;基于参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型。采用本方法,能够提高语义分割模型的准确性。

Description

基于域适应的语义分割方法、装置、设备及存储介质
技术领域
本申请涉及深度学习技术领域,特别是涉及一种基于域适应的语义分割方法、装置、设备及存储介质。
背景技术
近年来,由于深度学习的广泛应用,图像分割技术取得很大的进展。但是图像分割的性能依赖大量像素级别的标注数据。由于获取像素级别的标注数据的代价昂贵,基于域适应的图像分割任务被提出以缓解数据依赖。
传统技术中,通过有标注的数据学习一个基础模型,之后通过该基础模型获得未标注图像的伪标签,将未标注图像的伪标签作为真实标签进行模型训练。但是,基础模型生成的伪标签准确性有限,导致训练出的模型不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种基于域适应的语义分割方法、装置、计算机设备、计算机可读存储介质以及计算机程序产品,能够提高语义分割模型的准确性。
第一方面,本申请提供了一种基于域适应的语义分割方法,包括:
获得利用初始模型对样本图像块进行语义分割得到的初始分割结果;初始模型是基于带标签的源域样本图训练得到的;样本图像块是从无标签的目标域样本图中切块得到的;
在基于目标域样本图对初始模型进行多轮进阶训练的过程中,针对每轮待训练的模型,分别利用模型对样本图像块进行语义分割得到第一分割结果以及对目标域样本图进行语义分割得到原图分割结果;
从原图分割结果中确定样本图像块对应的第二分割结果;
基于第二分割结果对初始分割结果进行语义增强,得到参考分割结果;
基于参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型。
第二方面,本申请还提供了一种基于域适应的语义分割装置,包括:
第一获得模块,用于获得利用初始模型对样本图像块进行语义分割得到的初始分割结果;初始模型是基于带标签的源域样本图训练得到的;样本图像块是从无标签的目标域样本图中切块得到的;
第二获得模块,用于在基于目标域样本图对初始模型进行多轮进阶训练的过程中,针对每轮待训练的模型,分别利用模型对样本图像块进行语义分割得到第一分割结果以及对目标域样本图进行语义分割得到原图分割结果;
确定模块,用于从原图分割结果中确定样本图像块对应的第二分割结果;
增强模块,用于基于第二分割结果对初始分割结果进行语义增强,得到参考分割结果;
优化模块,用于基于参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型。
第三方面,本申请还提供了一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行该计算机程序时实现上述的方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法中的步骤。
第五方面,本申请还提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述的方法中的步骤。
上述基于域适应的语义分割方法、装置、计算机设备、计算机可读存储介质以及计算机程序产品,获得利用初始模型对样本图像块进行语义分割得到的初始分割结果;初始模型是基于带标签的源域样本图训练得到的;样本图像块是从无标签的目标域样本图中切块得到的;在基于目标域样本图对初始模型进行多轮进阶训练的过程中,针对每轮待训练的模型,分别利用模型对样本图像块进行语义分割得到第一分割结果以及对目标域样本图进行语义分割得到原图分割结果,目标域样本图相较于样本图像块包含更丰富的图像信息,相应的原图分割结果相较于第一分割结果包括更丰富的语义信息。进而,从原图分割结果中确定样本图像块对应的第二分割结果;语义信息更丰富的第二分割结果用于对初始分割结果进行语义增强,以得到语义增强后的参考分割结果。基于语义增强后的参考分割结果与第一分割结果之间的差异对模型进行优化,能够提升模型的训练效果,以得到更加准确地、适用于目标域的语义分割模型。
附图说明
图1为本申请实施例提供的一种基于域适应的语义分割方法的流程示意图;
图2为本申请实施例提供的一种模型训练过程的示意图;
图3为本申请实施例提供的一种基于域适应的语义分割装置的结构框图;
图4为本申请实施例提供的一种计算机设备的内部结构图;
图5为本申请实施例提供的另一种计算机设备的内部结构图;
图6为本申请实施例提供的一种计算机可读存储介质的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一些实施例中,如图1所示,提供了一种基于域适应的语义分割方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
S102,获得利用初始模型对样本图像块进行语义分割得到的初始分割结果;初始模型是基于带标签的源域样本图训练得到的;样本图像块是从无标签的目标域样本图中切块得到的。
其中,初始模型是只使用带标签的源域样本图训练出的、适用于源域的模型。可以理解,初始模型用于对源域图像进行语义分割。语义分割是指将图像分割成属于不同语义类别的区域。而图像中语义区域的标注和预测都是像素级的。样本图像块是无标签的目标图像中的至少部分。目标域样本图相比样本图像块包含更丰富的图像信息。
示例性地,计算机设备可以对无标签的目标域样本图进行切块得到样本图像块。在本申请实施例中,对于每个目标域样本图中切分出的样本图像块的数量以及样本图像块在目标域样本图中的位置不限定,数量和位置可以根据目标域样本图需求任意设置。计算机设备可以获取只使用带标签的源域样本图训练出的初始模型,将样本图像块输入至初始模型进行语义分割,输出初始分割结果。可以理解,初始模型的推理过程就是对输入的图像进行语义分割的过程。
在一些实施例中,计算机设备可以包括终端或服务器中的至少一种。可以理解,本申请实施例提供的方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备及便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
S104,在基于目标域样本图对初始模型进行多轮进阶训练的过程中,针对每轮待训练的模型,分别利用模型对样本图像块进行语义分割得到第一分割结果以及对目标域样本图进行语义分割得到原图分割结果。
示例性地,计算机设备可以使用目标域样本图对初始模型进行多轮进阶训练,使得多轮进阶训练得到的语义分割模型适用于目标域。首轮待训练的模型是初始模型,之后每轮待训练的模型都是上一轮训练后的模型。计算机设备可以针对每轮待训练的模型,将样本图像块作为该模型的输入,通过该模型对样本图像块进行语义分割,得到该模型输出的第一分割结果,并将目标域样本图作为该模型的输入,通过该模型对目标域样本图进行语义分割,得到该模型输出的原图分割结果。
S106,从原图分割结果中确定样本图像块对应的第二分割结果。
示例性地,计算机设备可以从原图分割结果中确定出样本图像块中多个像素点对应的第二分割结果。可以理解,样本图像块是从目标域样本图切出来的,目标域样本图中包括样本图像块的全部像素点,故而原图分割结果中包括对样本图像块的多个像素点预测的分割结果。
S108,基于第二分割结果对初始分割结果进行语义增强,得到参考分割结果。
示例性地,第二分割结果是从原图分割结果中确定出的。而目标域样本图相较于样本图像块具有更丰富的图像信息,故原图分割结果中样本图像块对应的第二分割结果,相较于仅凭样本图像块得到的初始分割结果具备更丰富的语义信息。计算机设备可以对第二分割结果和初始分割结果进行融合,以实现对初始分割结果的语义增强,得到参考分割结果。参考分割结果相较于初始分割结果具有更丰富的语义信息,能够准确地监督模型输出的第一分割结果。
S110,基于参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型。
示例性地,计算机设备可以对参考分割结果进行独热编码处理,得到样本图像块的参考伪标签结果。参考伪标签结果用于指示样本图像块中每个像素点的参考伪标签。基于参考伪标签结果和第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型。
在一些实施例中,每轮待训练的模型中包括用于提取图像语义特征的主干网络和用于根据图像语义特征进行语义分割的分类器。
可见,在本申请实施例中,获得利用初始模型对样本图像块进行语义分割得到的初始分割结果;初始模型是基于带标签的源域样本图训练得到的;样本图像块是从无标签的目标域样本图中切块得到的;在基于目标域样本图对初始模型进行多轮进阶训练的过程中,针对每轮待训练的模型,分别利用模型对样本图像块进行语义分割得到第一分割结果以及对目标域样本图进行语义分割得到原图分割结果,目标域样本图相较于样本图像块包含更丰富的图像信息,相应的原图分割结果相较于第一分割结果包括更丰富的语义信息。进而,从原图分割结果中确定样本图像块对应的第二分割结果;语义信息更丰富的第二分割结果用于对初始分割结果进行语义增强,以得到语义增强后的参考分割结果。基于语义增强后的参考分割结果与第一分割结果之间的差异对模型进行优化,能够提升模型的训练效果,以得到更加准确地、适用于目标域的语义分割模型。
在一些实施例中,基于第二分割结果对初始分割结果进行语义增强,得到参考分割结果,包括:
对第二分割结果和初始分割结果进行加权融合,得到参考分割结果。
示例性地,计算机设备可以对第二分割结果和初始分割结果进行平均化,得到参考分割结果。可以理解,参考分割结果可以是对第二分割结果和第二分割结果进行算术平均或加权平均得到的。
在一些实施例中,第二分割结果包括样本图块中每个像素点在各类别上的第二概率分布。初始分割结果包括样本图像块中每个像素点在各类别上的初始概率分布。可以理解,本申请实施例中提到的概率分布用于表征相应图像中每个像素点属于各类别的置信度。计算机设备可以针对样本图像块中的每个像素点,将第二概率分布和初始概率分布中该像素在同一类别下的置信度进行平均化,以得到参考分割结果。参考分割结果包括样本图块中每个像素点在各类别上的参考概率分布。
在一些实施例中,如公式(1)为加权融合公式。
(1)
其中,表征参考概率分布。/>表征初始概率分布。/>表征第二概率分布。
可见,本实施例中,对第二分割结果和初始分割结果进行加权融合,得到参考分割结果,语义增强后的参考分割结果对于模型的训练更加友好,能够提升模型的训练效果,以得到更准确的语义分割模型。
在一些实施例中,原图分割结果包括目标域样本图中每个像素点对应的分割结果;从原图分割结果中确定样本图像块对应的第二分割结果,包括:
从原图分割结果中切分出样本图像块中每个像素点对应的分割结果,得到样本图像块对应的第二分割结果。
示例性地,计算机设备可以获取样本图像块在目标域样本图中的相对位置。依据相对位置从原图分割结果中切分出样本图像块中每个像素点对应的分割结果,得到样本图像块对应的第二分割结果。
在一些实施例中,计算机设备可以获取样本图像块中多个像素点在目标域样本图中的相对位置。原图分割结果与目标域样本图的尺寸相匹配。计算机设备可以从原图分割结果中切分出相对位置处的分割结果,得到样本图像块对应的第二分割结果。
在一些实施例中,原图分割结果包括原图概率分布。原图概率分布用于表征目标域样本图中每个像素点在各类别上的概率分布。第二分割结果包括第二概率分布。计算机设备可以从原图概率分布中确定样本图像块对应的第二概率分布。
可见,本实施例中,从语义信息更丰富的原图分割结果中切分出样本图像块中每个像素点对应的分割结果,得到样本图像块对应的第二分割结果,进而将语义信息更丰富的第二分割结果用于第一分割结果的语义增强,语义增强后的参考分割结果对于模型训练更加友好,能够提升模型训练的效果。
在一些实施例中,参考分割结果包括样本图像块中每个像素点在多个类别上的参考概率分布;第一分割结果包括样本图像块中每个像素点在多个类别上的第一概率分布;
基于参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型,包括:
根据参考概率分布确定样本图像块中每个像素点的参考伪标签;参考伪标签用于表征像素点的类别;
从第一概率分布中确定出样本图像块中每个像素点的参考伪标签对应的第一置信度;
根据第一置信度确定每轮目标域损失值;
根据每轮目标域损失值对模型进行优化,以得到适用于目标域的语义分割模型。
示例性地,计算机设备可以对参考概率分布进行独热编码,得到样本图像块中每个像素点的参考伪标签。可以理解,参考概率分布包括样本图像块中每个像素点在各类别下的参考置信度。每个像素点在各类别下的参考置信度中,该像素点在参考伪标签表征的类别下的参考置信度最高。第一概率分布包括样本图像块中每个像素点在各类别下的第一置信度。计算机设备可以从第一概率分布中查找出每个像素点在参考伪标签表征的类别下的第一置信度,得到每个像素点的参考伪标签对应的第一置信度。根据每个像素点的参考伪标签对应的第一置信度确定每轮目标域损失值。每轮目标域损失值与参考伪标签对应的第一置信度负相关。可以理解,参考伪标签对应的第一置信度越高,说明参考分割结果与第一分割结果越接近,相应的每轮目标域损失值越小。朝着每轮目标域损失值减小的方向对模型进行优化,以得到适用于目标域的语义分割模型。
在一些实施例中,计算机设备可以根据每个像素点的参考伪标签对应的第一置信度计算交叉熵损失,得到每轮目标域损失值。
在一些实施例中,计算机设备可以针对参考伪标签结果和第一概率分布计算交叉熵损失,得到每轮目标域损失值。
在一些实施例中,公式(2)为独热编码公式。
(2)
其中,为第i个像素的参考伪标签,/>为第i个像素点在第c个类别下参考置信度,t表征目标域,c表征类别,C表征类别数量。
在一些实施例中,计算机设备可以对参考概率分布进行独热编码并去噪,以得到样本图像块中每个像素点的参考伪标签。
在一些实施例中,公式(3)为每轮目标域损失值的计算公式。
(3)
其中,表征每轮目标域损失值。/>第i个像素点在第c个类别下第一置信度。N表征参与每轮目标域损失值计算的像素点数量。/>代表第i个像素的参考伪标签表征的类别为c时等于1,否则等于0。
可见,本实施例中,参考概率分布相较于初始概率分布融合了更多的语义信息,根据参考概率分布能够更准确地确定样本图像块中每个像素点的参考伪标签,从第一概率分布中确定出样本图像块中每个像素点的参考伪标签对应的第一置信度;根据第一置信度确定每轮目标域损失值;进而根据每轮目标域损失值对模型进行优化,能够提升模型训练效果,以得到更准确的语义分割模型。
在一些实施例中,参考概率分布包括样本图像块中每个像素点的参考伪标签对应的参考置信度;方法还包括:
针对样本图像块中每个像素点,在像素点的参考伪标签对应的参考置信度不满足预设标记条件的情况下,将像素点标记非类别标签;
其中,标记非类别标签的像素点不参与每轮目标域损失值的计算。
示例性地,计算机设备可以通过对参考概率分布进行独热编码以确定每个像素点的参考伪标签,在后续的去噪过程中,针对样本图像块中每个像素点,在像素点的参考伪标签对应的参考置信度不满足预设标记条件的情况下,将像素点标记非类别标签;在像素点的参考伪标签对应的参考置信度满足预设标记条件的情况下,将像素点标记相应的参考伪标签。参考伪标签结果可以包括标记非类别标签的像素点和标记参考伪标签的像素点。计算机设备可以从第一概率分布中确定出样本图像块中每个像素点标记的参考伪标签对应的第一置信度;根据每个像素点标记的参考伪标签对应的第一置信度确定每轮目标域损失值。
在一些实施例中,预设标记条件可以是参考伪标签的参考置信度不小于参考伪标签表征的类别对应的标记阈值。
可见,本实施例中,针对样本图像块中每个像素点,在像素点的参考伪标签对应的参考置信度不满足预设标记条件的情况下,将像素点标记非类别标签;而标记非类别标签的像素点不参与每轮目标域损失值的计算,达到去噪的目的,能够避免标记的参考伪标签不够准确影响模型训练效果。
在一些实施例中,针对样本图像块中每个像素点,在像素点的参考伪标签对应的参考置信度不满足预设标记条件的情况下,将像素点标记非类别标签,包括:
针对样本图像块中每个像素点,获取像素点的参考伪标签表征的类别对应的标记阈值,并在像素点的参考伪标签对应的参考置信度达不到标记阈值的情况下,将像素点标记非类别标签;
其中,每个类别对应的标记阈值的大小与样本图像块中类别下的像素点数量相关。
示例性地,每个类别对应的标记阈值可以是固定的。目标域样本图中类别的区域越大,即,该类别下的像素点越多,该类别对应的标记阈值设置的就越大。计算机设备可以针对样本图像块中每个像素点,从预设的多个标记阈值中获取像素点的参考伪标签表征的类别对应的标记阈值,并在像素点的参考伪标签对应的参考置信度达不到相应标记阈值的情况下,将像素点标记非类别标签,以得到参考伪标签结果。
在一些实施例中,每个类别对应的标记阈值可以根据模型的训练情况适应性调整。计算机设备可以对参考概率分布进行独热编码,得到样本图像块中每个像素点的参考伪标签。根据样本图像块中每个参考伪标签表征的类别下的像素点数量确定每个参考伪标签表征的类别对应的标记阈值。
需要说明的是,本申请实施中对于标记阈值调整的具体方式不作限定,只需保证每个参考伪标签表征的类别下的像素点数量越多,该参考伪标签表征的类别对应的标记阈值越大即可。
在一些实施例中,公式(4)为去噪公式。
(4)
其中,代表第i个像素标记的标签,为参考伪标签或非类别标签。-1(ignored)表征非类别标签。/>代表第i个像素的参考伪标签。/>代表第i个像素的参考伪标签表征的类别对应的标记阈值。/>为第i个像素点在第c个类别下参考置信度。
可见,本实施例中,针对样本图像块中每个像素点,获取像素点的参考伪标签表征的类别对应的标记阈值,并在像素点的参考伪标签对应的参考置信度达不到标记阈值的情况下,将像素点标记非类别标签;每个类别对应的标记阈值的大小与样本图像块中类别下的像素点数量相关,充分考虑到了样本图像块中各类别的像素分布情况,适应性地对像素点的参考伪标签进行去噪,保证每个像素点标记的参考伪标签的准确性。
在一些实施例中,方法还包括:
获得利用模型对源域样本图进行语义分割得到的源域分割结果;
基于参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型,包括:
基于源域样本图携带的标签与源域分割结果之间的差异、以及参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型。
示例性地,计算机设备可以将源域样本图输入至模型进行语义分割,输出源域分割结果;基于源域样本图携带的标签与源域分割结果之间的差异计算每轮源域损失值;基于参考分割结果与第一分割结果之间的差异计算每轮目标域损失值;对每轮源域损失值和每轮目标域损失值进行加权融合得到每轮模型损失值;根据每轮模型损失值对模型进行优化,以得到适用于目标域的语义分割模型。
在一些实施例中,计算机设备可以针对源域样本图携带的标签与源域分割结果计算交叉熵损失,得到每轮源域损失值。
在一些实施例中,计算机设备可以获取预设的损失权重;使用预设的损失权重对每轮目标域损失值进行加权后,与每轮源域损失值叠加得到每轮模型损失值。
在一些实施例中,计算机设备可以朝着每轮模型损失值减小的方向对模型进行优化,以得到适用于目标域的语义分割模型。
在一些实施例中,源域分割结果可以包括源域概率分布。源域概率分布用于表征源域样本图中每个像素点在各类别上的概率分布。源域概率分布可以包括源域样本图中每个像素点在各类别下的源域置信度。计算机设备可以针对源域概率分布和源域样本图携带的标签计算交叉熵损失,得到每轮源域损失值。
在一些实施例中,公式(5)为每轮源域损失值的计算公式。
(5)
其中,表征每轮源域损失值。/>代表第i个像素携带的标签表征的类别为c时等于1,否则等于0。/>表征第i个像素点在第c个类别下源域置信度。N表征参与每轮源域损失值计算的像素点数量。由于源域样本图中每个像素点标记有真实的标签,故而源域样本图中每个像素点均参与每轮源域损失值的计算。
可见,本实施例中,基于源域样本图携带的标签与源域分割结果之间的差异、以及参考分割结果与第一分割结果之间的差异对模型进行优化,结合源域样本图和目标域样本图进行模型训练,能够提升模型训练效果,以得到更准确的适用于目标域的语义分割模型。
在一些实施例中,如图2所示为模型训练过程的示意图。从目标域样本图中切分出样本图像块。每轮进阶训练过程中,通过每轮待训练的模型中的主干网络和分类器对样本图像块进行语义分割得到第一概率分布。第一概率分布用于表征样本图像块中每个像素点属于各个类别的概率。可以理解,本申请实施例中提到的置信度均可以表征像素点属于相应类别的第一概率,概率越高置信度越高。通过每轮待训练的模型中的主干网络和分类器对目标域样本图进行语义分割得到原图概率分布。原图概率分布用于表征目标域样本图中每个像素点属于各个类别的原图概率。从原图概率分布中切分出第二概率分布。获取初始模型对样本图像块进行语义分割得到的初始概率分布。初始概率分布用于表征样本图像块中每个像素点属于各个类别的初始概率。对第二概率分布和初始概率分布进行融合得到参考概率分布。参考概率分布用于表征样本图像块中每个像素点属于各个类别的参考概率。对参考概率分布进行独热编码后去噪,得到参考伪标签结果。参考伪标签结果用于表征标记参考伪标签的像素点和标记非类别标签的像素点。根据参考伪标签结果中像素点标记的参考伪标签与第一概率分布之间的差异计算每轮目标域损失值。每个像素点在其标记的参考伪标签表征的类别下的第一概率越大,代表参考概率分布与第一概率分布更加匹配,则每轮目标域损失值越小。朝着每轮目标域损失值减小的方向对每轮待训练的模型进行优化,以得到适用于目标域的语义分割模型。
应该理解的是,虽然如上述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种基于域适应的语义分割装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于域适应的语义分割装置实施例中的具体限定可以参见上文中对于基于域适应的语义分割方法的限定,在此不再赘述。
在一些实施例中,如图3所示,提供了一种基于域适应的语义分割装置300,包括:
第一获得模块302,用于获得利用初始模型对样本图像块进行语义分割得到的初始分割结果;初始模型是基于带标签的源域样本图训练得到的;样本图像块是从无标签的目标域样本图中切块得到的;
第二获得模块304,用于在基于目标域样本图对初始模型进行多轮进阶训练的过程中,针对每轮待训练的模型,分别利用模型对样本图像块进行语义分割得到第一分割结果以及对目标域样本图进行语义分割得到原图分割结果;
确定模块306,用于从原图分割结果中确定样本图像块对应的第二分割结果;
增强模块308,用于基于第二分割结果对初始分割结果进行语义增强,得到参考分割结果;
优化模块310,用于基于参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型。
在一些实施例中,在基于第二分割结果对初始分割结果进行语义增强,得到参考分割结果方面,增强模块308具体用于:
对第二分割结果和初始分割结果进行加权融合,得到参考分割结果。
在一些实施例中,原图分割结果包括目标域样本图中每个像素点对应的分割结果;在从原图分割结果中确定样本图像块对应的第二分割结果方面,确定模块306具体用于:
从原图分割结果中切分出样本图像块中每个像素点对应的分割结果,得到样本图像块对应的第二分割结果。
在一些实施例中,参考分割结果包括样本图像块中每个像素点在多个类别上的参考概率分布;第一分割结果包括样本图像块中每个像素点在多个类别上的第一概率分布;在基于参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型方面,优化模块310具体用于:
根据参考概率分布确定样本图像块中每个像素点的参考伪标签;参考伪标签用于表征像素点的类别;
从第一概率分布中确定出样本图像块中每个像素点的参考伪标签对应的第一置信度;
根据第一置信度确定每轮目标域损失值;
根据每轮目标域损失值对模型进行优化,以得到适用于目标域的语义分割模型。
在一些实施例中,参考概率分布包括样本图像块中每个像素点的参考伪标签对应的参考置信度;优化模块310还用于:
针对样本图像块中每个像素点,在像素点的参考伪标签对应的参考置信度不满足预设标记条件的情况下,将像素点标记非类别标签;
其中,标记非类别标签的像素点不参与每轮目标域损失值的计算。
在一些实施例中,在针对样本图像块中每个像素点,在像素点的参考伪标签对应的参考置信度不满足预设标记条件的情况下,将像素点标记非类别标签方面,优化模块310具体用于:
针对样本图像块中每个像素点,获取像素点的参考伪标签表征的类别对应的标记阈值,并在像素点的参考伪标签对应的参考置信度达不到标记阈值的情况下,将像素点标记非类别标签;
其中,每个类别对应的标记阈值的大小与样本图像块中类别下的像素点数量相关。
在一些实施例中,第二获得模块304还用于:获得利用模型对源域样本图进行语义分割得到的源域分割结果;
在基于参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型方面,优化模块310具体用于:
基于源域样本图携带的标签与源域分割结果之间的差异、以及参考分割结果与第一分割结果之间的差异对模型进行优化,以得到适用于目标域的语义分割模型。
上述基于域适应的语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器,也可以以软件形式存储于计算机设备中的存储器,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储源域样本图和目标域样本图。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现上述的基于域适应的语义分割方法中的步骤。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元以及输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的计算机设备进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述的基于域适应的语义分割方法中的步骤。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4或图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,提供了一种计算机设备,计算机设备包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,如图6所示提供了一种计算机可读存储介质的内部结构图,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(FerroelectricRandom Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandom AccessMemory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于域适应的语义分割方法,其特征在于,包括:
获得利用初始模型对样本图像块进行语义分割得到的初始分割结果;所述初始模型是基于带标签的源域样本图训练得到的;所述样本图像块是从无标签的目标域样本图中切块得到的;
在基于所述目标域样本图对所述初始模型进行多轮进阶训练的过程中,针对每轮待训练的模型,分别利用所述模型对所述样本图像块进行语义分割得到第一分割结果以及对所述目标域样本图进行语义分割得到原图分割结果;
从所述原图分割结果中确定所述样本图像块对应的第二分割结果;
基于所述第二分割结果对所述初始分割结果进行语义增强,得到参考分割结果;
基于所述参考分割结果与所述第一分割结果之间的差异对所述模型进行优化,以得到适用于目标域的语义分割模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二分割结果对所述初始分割结果进行语义增强,得到参考分割结果,包括:
对所述第二分割结果和所述初始分割结果进行加权融合,得到参考分割结果。
3.根据权利要求1所述的方法,其特征在于,所述原图分割结果包括所述目标域样本图中每个像素点对应的分割结果;所述从所述原图分割结果中确定所述样本图像块对应的第二分割结果,包括:
从所述原图分割结果中切分出所述样本图像块中每个像素点对应的分割结果,得到所述样本图像块对应的第二分割结果。
4.根据权利要求1所述的方法,其特征在于,所述参考分割结果包括所述样本图像块中每个像素点在多个类别上的参考概率分布;所述第一分割结果包括所述样本图像块中每个像素点在所述多个类别上的第一概率分布;
所述基于所述参考分割结果与所述第一分割结果之间的差异对所述模型进行优化,以得到适用于目标域的语义分割模型,包括:
根据所述参考概率分布确定所述样本图像块中每个像素点的参考伪标签;所述参考伪标签用于表征像素点的类别;
从所述第一概率分布中确定出所述样本图像块中每个像素点的参考伪标签对应的第一置信度;
根据所述第一置信度确定每轮目标域损失值;
根据所述每轮目标域损失值对所述模型进行优化,以得到适用于目标域的语义分割模型。
5.根据权利要求4所述的方法,其特征在于,所述参考概率分布包括所述样本图像块中每个像素点的参考伪标签对应的参考置信度;所述方法还包括:
针对所述样本图像块中每个像素点,在所述像素点的参考伪标签对应的参考置信度不满足预设标记条件的情况下,将所述像素点标记非类别标签;
其中,标记非类别标签的像素点不参与所述每轮目标域损失值的计算。
6.根据权利要求5所述的方法,其特征在于,所述针对所述样本图像块中每个像素点,在所述像素点的参考伪标签对应的参考置信度不满足预设标记条件的情况下,将所述像素点标记非类别标签,包括:
针对所述样本图像块中每个像素点,获取所述像素点的参考伪标签表征的类别对应的标记阈值,并在所述像素点的参考伪标签对应的参考置信度达不到所述标记阈值的情况下,将所述像素点标记非类别标签;
其中,每个类别对应的标记阈值的大小与所述样本图像块中所述类别下的像素点数量相关。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
获得利用所述模型对所述源域样本图进行语义分割得到的源域分割结果;
所述基于所述参考分割结果与所述第一分割结果之间的差异对所述模型进行优化,以得到适用于目标域的语义分割模型,包括:
基于所述源域样本图携带的标签与所述源域分割结果之间的差异、以及所述参考分割结果与所述第一分割结果之间的差异对所述模型进行优化,以得到适用于目标域的语义分割模型。
8.一种基于域适应的语义分割装置,其特征在于,包括:
第一获得模块,用于获得利用初始模型对样本图像块进行语义分割得到的初始分割结果;所述初始模型是基于带标签的源域样本图训练得到的;所述样本图像块是从无标签的目标域样本图中切块得到的;
第二获得模块,用于在基于所述目标域样本图对所述初始模型进行多轮进阶训练的过程中,针对每轮待训练的模型,分别利用所述模型对所述样本图像块进行语义分割得到第一分割结果以及对所述目标域样本图进行语义分割得到原图分割结果;
确定模块,用于从所述原图分割结果中确定所述样本图像块对应的第二分割结果;
增强模块,用于基于所述第二分割结果对所述初始分割结果进行语义增强,得到参考分割结果;
优化模块,用于基于所述参考分割结果与所述第一分割结果之间的差异对所述模型进行优化,以得到适用于目标域的语义分割模型。
9.一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202310898823.XA 2023-07-21 2023-07-21 基于域适应的语义分割方法、装置、设备及存储介质 Active CN116630629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310898823.XA CN116630629B (zh) 2023-07-21 2023-07-21 基于域适应的语义分割方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310898823.XA CN116630629B (zh) 2023-07-21 2023-07-21 基于域适应的语义分割方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116630629A CN116630629A (zh) 2023-08-22
CN116630629B true CN116630629B (zh) 2023-11-03

Family

ID=87617356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310898823.XA Active CN116630629B (zh) 2023-07-21 2023-07-21 基于域适应的语义分割方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116630629B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734775A (zh) * 2021-01-19 2021-04-30 腾讯科技(深圳)有限公司 图像标注、图像语义分割、模型训练方法及装置
CN112884764A (zh) * 2021-03-24 2021-06-01 深圳前海微众银行股份有限公司 提取图像中地块的方法、装置、电子设备及存储介质
CN114913182A (zh) * 2022-06-22 2022-08-16 阿里巴巴达摩院(杭州)科技有限公司 图像分割方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220084173A1 (en) * 2020-09-17 2022-03-17 Arizona Board of Regents on behalf on Arizona State University Systems, methods, and apparatuses for implementing fixed-point image-to-image translation using improved generative adversarial networks (gans)

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734775A (zh) * 2021-01-19 2021-04-30 腾讯科技(深圳)有限公司 图像标注、图像语义分割、模型训练方法及装置
CN112884764A (zh) * 2021-03-24 2021-06-01 深圳前海微众银行股份有限公司 提取图像中地块的方法、装置、电子设备及存储介质
CN114913182A (zh) * 2022-06-22 2022-08-16 阿里巴巴达摩院(杭州)科技有限公司 图像分割方法、装置、设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于FCN的城市无人机图像语义分割;张博文;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑 》;第C031-640页 *
基于低成本非配对标注的医学图像分割方法研究;王璐;《中国优秀硕士学位论文全文数据库 基础科学辑 》;第A006-807页 *
基于深度神经网络对抗学习的遥感图像分割方法研究;余帅;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑 》;第C028-69页 *

Also Published As

Publication number Publication date
CN116630629A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
WO2020233432A1 (zh) 一种信息推荐方法及装置
CN114005012A (zh) 多模态预训练模型的训练方法、装置、设备及存储介质
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN116630630B (zh) 语义分割方法、装置、计算机设备及计算机可读存储介质
CN116977336A (zh) 摄像头缺陷检测方法、装置、计算机设备及存储介质
CN116630629B (zh) 基于域适应的语义分割方法、装置、设备及存储介质
CN115731442A (zh) 图像处理方法、装置、计算机设备和存储介质
CN116883708A (zh) 图像分类方法、装置、电子设备及存储介质
CN114819138A (zh) 图数据处理方法、装置、电子设备及存储介质
CN114155388A (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN111914850B (zh) 图片特征提取方法、装置、服务器和介质
CN114611565A (zh) 数据处理方法、装置、设备和存储介质
CN115761239B (zh) 一种语义分割方法及相关装置
CN116894802B (zh) 图像增强方法、装置、计算机设备和存储介质
CN117975473A (zh) 票据文本检测模型训练及检测方法、装置、设备和介质
CN116612474B (zh) 对象检测方法、装置、计算机设备及计算机可读存储介质
CN117152428A (zh) 模型训练方法、装置、计算机设备及计算机可读存储介质
CN116597293A (zh) 多模态场景识别方法、装置、计算机设备和存储介质
CN116932761A (zh) 文本数据标注模型的构建方法、装置和计算机设备
CN116881543A (zh) 金融资源对象推荐方法、装置、设备、存储介质和产品
CN117893747A (zh) 语义分割模型的训练方法、装置、设备、存储介质和产品
CN117315286A (zh) Sam图像编码器的蒸馏方法、装置、电子设备及存储介质
CN117493666A (zh) 物品冷启动推荐方法和物品冷启动推荐模型训练方法
CN117152028A (zh) 一种视频去雾的方法、装置、计算机设备、存储介质
CN116955676A (zh) 标识图像的标识内容识别方法、装置、计算机设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant