CN113221905B - 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 - Google Patents
基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 Download PDFInfo
- Publication number
- CN113221905B CN113221905B CN202110539925.3A CN202110539925A CN113221905B CN 113221905 B CN113221905 B CN 113221905B CN 202110539925 A CN202110539925 A CN 202110539925A CN 113221905 B CN113221905 B CN 113221905B
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- domain
- network model
- loss
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 184
- 230000006978 adaptation Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000003044 adaptive effect Effects 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 38
- 238000010586 diagram Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 239000002131 composite material Substances 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质,首先,建立了基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失,缩小了同一类别像素的类内差异,同时驱动结构相似但类别不同的像素相互远离,趋向均匀分布,增大了类间距离,克服了域适应过程中类别边界不清晰的问题;接着,将基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失融入对抗训练框架,缩小了源域和目标域之间的域差异,增强了跨域数据在语义分割模型上的适应性,进而提升了语义分割的准确性。
Description
技术领域
本发明属于无监督域适应领域,具体涉及一种基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质。
背景技术
在过去的几十年里,基于卷积神经网络的语义分割模型依赖大规模标注数据集取得了卓越的成功并在自动驾驶、机器人等领域展现了极大的潜力。可是,这些大规模标注数据集需要具备专业知识的技术人员长期密集地手工标注,这消耗了昂贵的人力成本和时间成本。
为缓解这一问题,最近的研究工作逐步尝试合成数据集,例如:GTA5、SYNTHIA和Synscapes。合成数据集可由游戏引擎或模拟器自动合成,降低了人力成本。然而,由于域差异,这些基于合成数据集的训练模型不能很好地应用到真实场景。因此,无监督域适应技术被提出,旨在将具备标签的源域知识迁移到无标签的目标域。
在无监督域适应任务中,大多数方法利用最小化源域和目标域之间的域差异来获取域不变特征,同时利用聚类或者重加权策略获取任务可判别的特征。一方面,减小域差异可泛化模型至目标域;另一方面,学习可判别特征提升了分类准确率。可是,大量的实验表明学习的语义特征是类别边界不清晰的,导致一些小的和密集性的物体难以区分。例如:一些重要的交通信号灯常常被分类模型误认为背景建筑物,这会造成严重的安全事故,在真实应用场景中是难以容忍的。因此,需要解决无监督域适应任务中类别边界不清晰问题。
目前,主流的无监督域适应技术以对抗训练为核心,通过一个域判别器对齐源域和目标域。可是,这些对抗训练方法忽略了像素级别的类别结构。最近的工作,例如:SSF-DAN、MaxSquare,利用类别级别的判别器和重加权策略改善了语义特征的类别结构。然而,这些间接的策略依然没有克服类别结构不清晰的问题。另一方面,大多数基于聚类的无监督域适应方法虽然调节了类别结构,但是主要被应用到图像级别的分类任务,没有考虑高维的语义特征空间,导致有限的识别语义信息的能力。
因此,探索一种应用于语义分割任务的类别结构清晰的无监督域适应方法,进而来提升语义分割模型的语义标签预测能力,成为一个亟待解决的技术问题。
发明内容
鉴于上述,本发明的目的是提供一种基于均匀聚类的语义分割的无监督域适应方法,通过克服无监督域适应任务中类别边界不清晰的技术缺陷,来提升语义分割的准确性。
为实现上述目的,本发明提供了如下方案:
第一方面,实施例提供的一种基于均匀聚类的语义分割的无监督域适应方法,包括以下步骤:
建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
第二方面,实施例提供的一种基于均匀聚类的语义分割的无监督域适应装置,包括:
数据集构建模块,用于建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
模型构建模块,用于建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
目标函数构建模块,用于建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
参数优化模块,用于利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
检测模块,用于利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
第三方面,实施例提供的一种基于均匀聚类的语义分割的无监督域适应系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现第一方面所述的基于均匀聚类的语义分割的无监督域适应方法。
第四方面,实施例提供的一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现第一方面所述的基于均匀聚类的语义分割的无监督域适应方法的步骤。
上述实施例提供的基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质,与现有技术相比,具有的有益效果至少包括:
首先,建立了基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失,缩小了同一类别像素的类内差异,同时驱动结构相似但类别不同的像素相互远离,趋向均匀分布,增大了类间距离,克服了域适应过程中类别边界不清晰的问题;接着,将基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失融入对抗训练框架,缩小了源域和目标域之间的域差异,增强了跨域数据在语义分割模型上的适应性,进而提升了语义分割的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例中基于均匀聚类的语义分割的无监督域适应方法的流程图;
图2是一实施例中无监督域适应网络模型及训练过程示意图;
图3是一实施例中无监督域适应网络模型的目标函数中均匀聚类的原理示意图;
图4是一实施例中基于均匀聚类的语义分割的无监督域适应装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
当前主流的无监督域适应方法主要以对抗训练为基础框架,通过对齐源域特征和目标域特征缩小了域差异。这些方法虽然增强了模型的泛化能力,但是忽略了特征的边界结构存在歧义,进而导致类别边界不清晰的技术缺陷,为了解决由于类别边界不清晰的技术缺陷导致语义分割不准确的问题,本发明实施例提出了一种基于均匀聚类的语义分割的无监督域适应方法,旨在通过驱动不同类别的特征结构趋于均匀分布来最大化类间距离,同时最小化类内差异,形成边界清晰的类别结构,另外,本发明还融合现有的对抗训练损失,对齐源域和目标域之间类别结构清晰的深度特征,实现了源域知识至目标域知识的迁移。实施例提供的基于均匀聚类的语义分割的无监督域适应方法可以应用到从虚拟场景到真实场景的域适应任务,例如:使用虚拟数据集GTA5训练获得的模型适用于真实数据集Cityscapes,还可以应用到自动驾驶领域和机器人领域。
图1是一实施例中基于均匀聚类的语义分割的无监督域适应方法的流程图。图2是一实施例中无监督域适应网络模型及训练过程示意图。图3是一实施例中无监督域适应网络模型的目标函数中均匀聚类的原理示意图。
如图1-图3所示,实施例提供的基于均匀聚类的语义分割的无监督域适应方法,包括以下步骤:
步骤1,建立具备标签的源域数据集和不具备标签的目标域数据集。
实施例中,源域数据集包括源域图像、源域图像的语义标签,其中,语义标签是指图像中需要分割的某一类目标的标签。目标域数据集不具有标签,所以只包括目标域图像。这些源域图像、源域图像的语义标签、目标域图像分别构成源域图像集合、源域图像的语义标签集合、目标域图像集合,用于无监督域适应网络模型的训练。
步骤2,建立无监督域适应网络模型。
实施例中,建立的无监督域适应网络模型包括语义分割网络模型和判别器模型,其中,语义分割网络模型中生成器和判别器模型采用对抗训练的方式相互优化。语义分割网络模型主要用于对源域图像和目标域图像进行语义分割得到语义分割结果,判别器模型用于对抗训练,即判别输入的语义分割结果是来自于目标域图像还是源域图像。
实施例中,语义分割网络模型和判别器模型采用但不限于以下网络结构,下面提供一个可用的语义分割网络模型和判别器模型示例。所述语义分割网络模型采用ResNet为基础框架并利用ImageNet数据集预训练得到,包括特征生成器和分类器;所述判别器模型包括顺序连接的多个Block块和多个卷积层,其中,Block块包括顺序连接的卷积层和激活层。
可选地,语义分割网络模型可采用以ResNet-101为基础框架并使用ImageNet数据集预训练的Deeplab-v2网络模型,包含特征生成器和分类器。
判别器模型是一个由复合组件和基本组件按顺序堆叠组成的神经网络,其中,复合组件由基本组件按顺序堆叠构成,基础组件包括一个输入通道数为α、输出通道数为β、核尺寸为4×4、步幅为2的卷积层,一个LeakyReLU激活层,复合组件记作Block(α,β),α、β是复合组件的参数。基于此,判别器模型由以下组件按顺序堆叠构成:Block(C,64)、Block(64,128)、Block(128,256)、Block(256,512)和一个输入通道数为512、输出通道数为1、核尺寸为4×4、步幅为2的卷积层,其中,C表示语义分割网络模型的分类类别的总数量。
步骤3,建立无监督域适应网络模型的目标函数。
实施例中,建立的无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失。具体而言,语义分割损失、源域均匀聚类损失、目标域均匀聚类损失以及对抗损失加权求和组成无监督域适应网络模型的目标函数;优选地,各损失的权重均为1。下面针对每个损失进行详细说明。
其中,是语义分割网络模型的交叉熵损失,表示源域图像xs中(h,w)位置像素是否属于类别c的语义标签,是语义分割网络模型对源域图像xs中(h,w)位置像素预测为类别c的概率,S={Xs,Ys}表示源域数据集,Xs是源域图像集合,Ys是源域图像的语义标签集合,H、W分别表示图像高度和宽度,C表示语义分割网络模型的分类类别的总数量,其中,xs∈Xs,ys∈Ys。f表示语义分割网络模型的特征生成器,Θ是f的参数;表示语义分割网络模型的分类器,θ是的参数,表示特征生成器f从源域图像xs中(h,w)位置像素提取的特征,表示分类器按照特征做出的预测结果。
其中,σ是激活函数,表示如果像素的语义标签属于类别c即输出1,如果像素的语义标签不属于类别c即输出0,表示源域图像xs中(h,w)位置像素提取的特征与类别c的原型表示之间的L-2范数的平方,表示源域图像中预测为类别c的像素的经验概率,表示特征生成器f从目标域图像xt中(h,w)位置像素提取的特征,表示分类器按照特征做出的预测结果,表示目标域图像xt中(h,w)位置像素提取的特征与类别c的经验原型表示之间的L-2范数的平方,表示目标域图像中预测为类别c的像素的经验概率。
实施例中,原型表示依据源域图像xs的特征计算得到,所述经验原型表示依据目标域图像xt的特征计算得到;所述经验概率依据分类器对特征做出相对于类别c的预测结果计算得到;所述经验概率依据分类器对特征做出相对于类别c的预测结果计算得到。具体计算过程为:
其中,Sc是源域数据集S的子集,表示属于类别c的源域像素集合,|Sc|表示Sc集合的模;T={Xt}表示目标域数据集,Xt是目标域图像集合,Tc是目标域数据集T的子集,表示预测为类别c的目标域像素集合,|Tc|表示Tc集合的模,xt∈Xt;表示分类器按照特征做出的预测结果。
其中,是源域图像xs中(h,w)位置像素的熵图,是目标域图像xt中(h,w)位置像素的熵图,D()表示判别器模型D判断输入熵图来自目标域的域概率,域概率越接近1,输入熵图来自目标域的概率越高,域概率越接近0,输入熵图来自源域的概率越高。
步骤4,利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型。
实施例中,在对无监督域适应网络模型进行参数优化时,固定判别器模型的网络参数,分别计算语义分割损失对应的语义分割网络模型的参数梯度,源域均匀聚类损失对应的语义分割网络模型的参数梯度,目标域均匀聚类损失的对应的语义分割网络模型的参数梯度;计算对抗损失对于语义分割网络模型和判别器模型的参数梯度;依据参数梯度更新语义分割网络模型的网络参数和判别器模型的参数梯度。具体过程包括:
训练的初始化阶段,从源域图像集合、源域图像的语义标签集合和目标域图像集合获取预设个数的训练数据样本,组成训练数据样本集合;建立语义分割网络模型的框架并导入基于ImageNet数据集预训练的参数,建立判别器模型的框架并随机初始化判别器模型参数;建立随机梯度下降(SGD)优化器和自适应矩估计(Adam)优化器;设置模型迭代训练的次数N和最优目标损失函数数值例如设置N可以为120,000,可以为100,并保存当前语义分割网络模型作为最优语义分割网络模型,保存当前判别器模型作为最优判别器模型;将所述训练数据样本集合中的第i个训练数据样本输入所述的无监督域适应网络模型,第i个训练数据样本包括一幅源域图像、一幅源域图像的语义标签、一幅目标域图像;设置域标签,源域域标签设置为0,目标域域标签设置为1;初始化语义分割网络模型的参数梯度为0,初始化判别器模型的参数梯度为0。
训练阶段,首先,固定判别器模型参数,具体包括:使用所述语义分割网络模型预测第i个训练数据样本中源域图像的语义分割结果,并按照公式使用源域图像的语义标签和源域图像的语义分割结果计算语义分割损失将语义分割损失数值反向传播计算语义分割网络模型的参数梯度。
实施例中,从源域图像的语义分割结果中筛选高置信度的源域图像的语义分割结果,依据高置信度的源域图像的语义分割结果计算源域均匀聚类损失。具体过程可以为:
保留源域图像的语义分割结果中每个类别预测概率排名前b%的像素并将源域图像的语义分割结果中每个类别预测概率排名不在前b%的像素概率设置为0,获得高置信度的源域图像的语义分割结果,实施例中,b%可设置为30%;按照公式 使用源域图像、源域图像的语义标签和高置信度的源域图像的语义分割结果计算基于原型的源域均匀聚类损失将基于原型的源域均匀聚类损失数值反向传播计算语义分割网络模型的参数梯度。
实施例中,使用所述语义分割网络模型预测第i个训练数据样本中目标域图像的语义分割结果。从目标域图像的语义分割结果中筛选高置信度的目标域图像的语义分割结果,依据高置信度的目标域图像的语义分割结果计算目标域均匀聚类损失。具体过程可以为:
保留目标域图像的语义分割结果中每个类别预测概率排名前b%的像素并将目标域图像的语义分割结果中每个类别预测概率排名不在前b%的像素概率设置为0,获得高置信度的目标域图像的语义分割结果;按照公式使用目标域图像和高置信度的目标域图像的语义分割结果计算基于经验原型的目标域均匀聚类损失将基于经验原型的目标域均匀聚类损失数值反向传播计算语义分割网络模型的参数梯度。
输入目标域图像语义分割结果熵图到判别器模型,输出目标域图像语义分割结果熵图的域概率,计算目标域图像语义分割结果熵图的域概率和源域域标签的二进制交叉熵损失,将目标域图像语义分割结果熵图的域概率和源域域标签的二进制交叉熵损失数值反向传播计算语义分割网络模型的参数梯度。
然后,固定语义分割网络模型参数并设置判别器模型参数为可更新状态,包括:输入源域图像语义分割结果熵图到判别器模型,输出源域图像语义分割结果熵图的域概率,计算源域图像语义分割结果熵图的域概率和源域域标签的二进制交叉熵损失,将源域图像语义分割结果熵图的域概率和源域域标签的二进制交叉熵损失数值反向传播计算判别器模型的参数梯度。
输入目标域图像语义分割结果熵图到判别器模型,输出目标域图像语义分割结果熵图的域概率,计算目标域图像语义分割结果熵图的域概率和目标域域标签的二进制交叉熵损失,将目标域图像语义分割结果熵图的域概率和目标域域标签的二进制交叉熵损失数值反向传播计算判别器模型的参数梯度。
实施例中,基于上述参数梯度,使用随机梯度下降(SGD)优化器更新语义分割网络模型参数;使用自适应矩估计(Adam)优化器更新判别器模型参数。
在训练时,还按照公式计算无监督域适应网络模型的目标函数数值,判断无监督域适应网络模型的目标函数数值是否小于最优目标损失函数数值得到第一判断结果;如果第一判断结果表示是,则使用当前语义分割网络模型参数更新最优语义分割网络模型,使用当前判别器模型参数更新最优判别器模型,并使用无监督域适应网络模型的目标函数数值更新最优目标损失函数数值如果第一判断结果表示否,则继续迭代次数的判断步骤。
在训练时,还判断i是否大于模型迭代训练的次数N,得到第二判断结果;如果第二判断结果表示否,则令i的数值增加1,使用多项式衰减策略更新随机梯度下降(SGD)优化器和自适应矩估计(Adam)优化器的学习率,返回步骤“将所述训练数据样本集合中的第i个训练数据样本输入所述的无监督域适应网络模型,第i个训练数据样本包括一幅源域图像、一幅源域图像的语义标签、一幅目标域图像”;如果第二判断结果表示是,则输出最优语义分割网络模型和最优判别器模型。
步骤5,利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
训练结束后,即可以利用参数优化的语义分割网络模型进行语义分割任务。可以将选择的待预测的目标域图像输入至语义分割网络模型,经计算获得目标域图像的语义标签。
上述基于均匀聚类的语义分割的无监督域适应方法,在语义分割模型的域适应场景下提出的,且具备标签的源域数据集和不具备标签的目标域数据集是可获取的。其次,提出了基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失,缩小了同一类别像素的类内差异,同时驱动结构相似但类别不同的像素相互远离,趋向均匀分布,增大了类间距离,克服了域适应过程中类别边界不清晰的问题;接着,将基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失融入对抗训练框架,缩小了源域和目标域之间的域差异,增强了跨域数据在语义分割模型上的适应性。
实施例还提供了一种基于均匀聚类的语义分割的无监督域适应装置,如图4所示,无监督域适应装置400包括:
数据集构建模块410,用于建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
模型构建模块420,用于建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
目标函数构建模块430,用于建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
参数优化模块440,用于利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
检测模块450,用于利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
需要说明的是,实施例提供的基于均匀聚类的语义分割的无监督域适应装置在进行语义分割学习和应用过程时,应以上述各功能模块的划分进行举例说明,可以根据需要将上述功能分配由不同的功能模块完成,即在终端或服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,实施例提供的无监督域适应装置与无监督域适应方法实施例属于同一构思,其具体实现过程详见基于均匀聚类的语义分割的无监督域适应方法实施例,这里不再赘述。
实施例还提供了一种基于均匀聚类的语义分割的无监督域适应系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现上述基于均匀聚类的语义分割的无监督域适应方法,具体包括:
步骤1,建立具备标签的源域数据集和不具备标签的目标域数据集;
步骤2,建立无监督域适应网络模型;
步骤3,建立无监督域适应网络模型的目标函数;
步骤4,利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
步骤5,利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现上述基于均匀聚类的语义分割的无监督域适应方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于均匀聚类的语义分割的无监督域适应方法,其特征在于,包括以下步骤:
建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
其中,采用源域图像相对于语义分割网络模型的交叉熵损失作为监督语义分割网络模型性能的语义分割损失;
其中,σ是激活函数,表示如果像素的语义标签属于类别c即输出1,如果像素的语义标签不属于类别c即输出0,表示源域图像xs中(h,w)位置像素提取的特征与类别c的原型表示之间的L-2范数的平方,表示源域图像中预测为类别c的像素的经验概率,表示特征生成器f从目标域图像xt中(h,w)位置像素提取的特征,表示分类器按照特征做出的预测结果,表示目标域图像xt中(h,w)位置像素提取的特征与类别c的经验原型表示之间的L-2范数的平方,表示目标域图像中预测为类别c的像素的经验概率,C表示语义分割网络模型的分类类别的总数量,Θ是特征生成器f的参数;θ是分类器的参数;
利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
2.如权利要求1所述的基于均匀聚类的语义分割的无监督域适应方法,其特征在于,所述语义分割网络模型采用ResNet为基础框架并经过图像预训练得到,包括特征生成器和分类器;所述判别器模型包括顺序连接的多个Block块和多个卷积层,其中,Block块包括顺序连接的卷积层和激活层。
3.如权利要求1所述的基于均匀聚类的语义分割的无监督域适应方法,其特征在于,所述语义分割损失、源域均匀聚类损失、目标域均匀聚类损失以及对抗损失加权求和组成无监督域适应网络模型的目标函数;优选地,各损失的权重均为1;
在对无监督域适应网络模型进行参数优化时,固定判别器模型的网络参数,分别计算语义分割损失对应的语义分割网络模型的参数梯度,源域均匀聚类损失对应的语义分割网络模型的参数梯度,目标域均匀聚类损失的对应的语义分割网络模型的参数梯度;计算对抗损失对于语义分割网络模型和判别器模型的参数梯度;依据参数梯度更新语义分割网络模型的网络参数和判别器模型的参数梯度。
4.如权利要求1或3所述的基于均匀聚类的语义分割的无监督域适应方法,其特征在于,从源域图像的语义分割结果中筛选高置信度的源域图像的语义分割结果,依据高置信度的源域图像的语义分割结果计算源域均匀聚类损失;
从目标域图像的语义分割结果中筛选高置信度的目标域图像的语义分割结果,依据高置信度的目标域图像的语义分割结果计算目标域均匀聚类损失。
5.一种基于均匀聚类的语义分割的无监督域适应装置,其特征在于,包括:
数据集构建模块,用于建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
模型构建模块,用于建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
目标函数构建模块,用于建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
其中,采用源域图像相对于语义分割网络模型的交叉熵损失作为监督语义分割网络模型性能的语义分割损失;
其中,σ是激活函数,表示如果像素的语义标签属于类别c即输出1,如果像素的语义标签不属于类别c即输出0,表示源域图像xs中(h,w)位置像素提取的特征与类别c的原型表示之间的L-2范数的平方,表示源域图像中预测为类别c的像素的经验概率,表示特征生成器f从目标域图像xt中(h,w)位置像素提取的特征,表示分类器按照特征做出的预测结果,表示目标域图像xt中(h,w)位置像素提取的特征与类别c的经验原型表示之间的L-2范数的平方,表示目标域图像中预测为类别c的像素的经验概率,C表示语义分割网络模型的分类类别的总数量,Θ是特征生成器f的参数;θ是分类器的参数;
参数优化模块,用于利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
检测模块,用于利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
6.一种基于均匀聚类的语义分割的无监督域适应系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~4任一项所述的基于均匀聚类的语义分割的无监督域适应方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现权利要求1~4任一项所述的基于均匀聚类的语义分割的无监督域适应方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110539925.3A CN113221905B (zh) | 2021-05-18 | 2021-05-18 | 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 |
US17/408,441 US11734390B2 (en) | 2021-05-18 | 2021-08-22 | Unsupervised domain adaptation method, device, system and storage medium of semantic segmentation based on uniform clustering |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110539925.3A CN113221905B (zh) | 2021-05-18 | 2021-05-18 | 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221905A CN113221905A (zh) | 2021-08-06 |
CN113221905B true CN113221905B (zh) | 2022-05-17 |
Family
ID=77092623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110539925.3A Active CN113221905B (zh) | 2021-05-18 | 2021-05-18 | 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11734390B2 (zh) |
CN (1) | CN113221905B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11763135B2 (en) * | 2021-03-01 | 2023-09-19 | Robert Bosch Gmbh | Concept-based adversarial generation method with steerable and diverse semantics |
CN113706547B (zh) * | 2021-08-27 | 2023-07-18 | 北京航空航天大学 | 一种基于类别同异性引导的无监督域适应语义分割方法 |
CN113807420B (zh) * | 2021-09-06 | 2024-03-19 | 湖南大学 | 一种考虑类别语义匹配的域自适应目标检测方法及系统 |
CN114298122B (zh) * | 2021-10-22 | 2024-06-18 | 腾讯科技(深圳)有限公司 | 数据分类方法、装置、设备、存储介质及计算机程序产品 |
CN114332568B (zh) * | 2022-03-16 | 2022-07-15 | 中国科学技术大学 | 域适应图像分类网络的训练方法、系统、设备及存储介质 |
CN114677515B (zh) * | 2022-04-25 | 2023-05-26 | 电子科技大学 | 基于类间相似性的弱监督语义分割方法 |
CN116823851B (zh) * | 2023-06-07 | 2024-06-14 | 苏州大学 | 基于特征重构的无监督域自适应oct图像分割方法及系统 |
CN116543237B (zh) * | 2023-06-27 | 2023-11-28 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 无源域无监督域适应的图像分类方法、系统、设备及介质 |
CN116777896B (zh) * | 2023-07-07 | 2024-03-19 | 浙江大学 | 一种表观缺陷跨域分类识别的负迁移抑制方法 |
CN116977635B (zh) * | 2023-07-19 | 2024-04-16 | 中国科学院自动化研究所 | 类别增量语义分割学习方法及语义分割方法 |
CN116913259B (zh) * | 2023-09-08 | 2023-12-15 | 中国电子科技集团公司第十五研究所 | 结合梯度引导的语音识别对抗防御方法及装置 |
CN116935447B (zh) * | 2023-09-19 | 2023-12-26 | 华中科技大学 | 基于自适应师生结构的无监督域行人重识别方法及系统 |
CN117152563B (zh) * | 2023-10-16 | 2024-05-14 | 华南师范大学 | 混合目标域自适应模型的训练方法、装置及计算机设备 |
CN117195744B (zh) * | 2023-10-16 | 2024-04-05 | 南京工业大学 | 一种子母式移动机器人协同穿越的通过性迁移评价方法 |
CN117367777B (zh) * | 2023-11-15 | 2024-06-14 | 苏州大学 | 一种scara机器人滚珠丝杠故障诊断方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222690B (zh) * | 2019-04-29 | 2021-08-10 | 浙江大学 | 一种基于最大二乘损失的无监督域适应语义分割方法 |
CN111340819B (zh) * | 2020-02-10 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置和存储介质 |
CN112308862A (zh) * | 2020-06-04 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 图像语义分割模型训练、分割方法、装置以及存储介质 |
CN111814871B (zh) * | 2020-06-13 | 2024-02-09 | 浙江大学 | 一种基于可靠权重最优传输的图像分类方法 |
AU2020103905A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning |
-
2021
- 2021-05-18 CN CN202110539925.3A patent/CN113221905B/zh active Active
- 2021-08-22 US US17/408,441 patent/US11734390B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN113221905A (zh) | 2021-08-06 |
US11734390B2 (en) | 2023-08-22 |
US20220383052A1 (en) | 2022-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113221905B (zh) | 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 | |
Adarsh et al. | YOLO v3-Tiny: Object Detection and Recognition using one stage improved model | |
Luo et al. | Fire smoke detection algorithm based on motion characteristic and convolutional neural networks | |
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN109978893B (zh) | 图像语义分割网络的训练方法、装置、设备及存储介质 | |
CN110929577A (zh) | 一种基于YOLOv3的轻量级框架改进的目标识别方法 | |
CN110909820A (zh) | 基于自监督学习的图像分类方法及系统 | |
CN112949673A (zh) | 一种基于全局注意力的特征融合目标检测与识别方法 | |
CN110866530A (zh) | 一种字符图像识别方法、装置及电子设备 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111008639B (zh) | 一种基于注意力机制的车牌字符识别方法 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN112926654A (zh) | 预标注模型训练、证件预标注方法、装置、设备及介质 | |
WO2021243947A1 (zh) | 对象再识别方法及装置、终端和存储介质 | |
CN106815323A (zh) | 一种基于显著性检测的跨域视觉检索方法 | |
WO2021238586A1 (zh) | 一种训练方法、装置、设备以及计算机可读存储介质 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN111104831A (zh) | 一种视觉追踪方法、装置、计算机设备以及介质 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN116994236A (zh) | 一种基于深度神经网络的低质图像车牌检测方法 | |
CN113963333A (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
Ying et al. | License plate detection and localization in complex scenes based on deep learning | |
Alajlan et al. | Automatic lane marking prediction using convolutional neural network and S-Shaped Binary Butterfly Optimization | |
CN116824330A (zh) | 一种基于深度学习的小样本跨域目标检测方法 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |