CN113221905B - 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 - Google Patents

基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 Download PDF

Info

Publication number
CN113221905B
CN113221905B CN202110539925.3A CN202110539925A CN113221905B CN 113221905 B CN113221905 B CN 113221905B CN 202110539925 A CN202110539925 A CN 202110539925A CN 113221905 B CN113221905 B CN 113221905B
Authority
CN
China
Prior art keywords
semantic segmentation
domain
network model
loss
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110539925.3A
Other languages
English (en)
Other versions
CN113221905A (zh
Inventor
尹建伟
苏鸽
尚永衡
杨莹春
邓水光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110539925.3A priority Critical patent/CN113221905B/zh
Publication of CN113221905A publication Critical patent/CN113221905A/zh
Priority to US17/408,441 priority patent/US11734390B2/en
Application granted granted Critical
Publication of CN113221905B publication Critical patent/CN113221905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质,首先,建立了基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失,缩小了同一类别像素的类内差异,同时驱动结构相似但类别不同的像素相互远离,趋向均匀分布,增大了类间距离,克服了域适应过程中类别边界不清晰的问题;接着,将基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失融入对抗训练框架,缩小了源域和目标域之间的域差异,增强了跨域数据在语义分割模型上的适应性,进而提升了语义分割的准确性。

Description

基于均匀聚类的语义分割的无监督域适应方法、装置、系统和 存储介质
技术领域
本发明属于无监督域适应领域,具体涉及一种基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质。
背景技术
在过去的几十年里,基于卷积神经网络的语义分割模型依赖大规模标注数据集取得了卓越的成功并在自动驾驶、机器人等领域展现了极大的潜力。可是,这些大规模标注数据集需要具备专业知识的技术人员长期密集地手工标注,这消耗了昂贵的人力成本和时间成本。
为缓解这一问题,最近的研究工作逐步尝试合成数据集,例如:GTA5、SYNTHIA和Synscapes。合成数据集可由游戏引擎或模拟器自动合成,降低了人力成本。然而,由于域差异,这些基于合成数据集的训练模型不能很好地应用到真实场景。因此,无监督域适应技术被提出,旨在将具备标签的源域知识迁移到无标签的目标域。
在无监督域适应任务中,大多数方法利用最小化源域和目标域之间的域差异来获取域不变特征,同时利用聚类或者重加权策略获取任务可判别的特征。一方面,减小域差异可泛化模型至目标域;另一方面,学习可判别特征提升了分类准确率。可是,大量的实验表明学习的语义特征是类别边界不清晰的,导致一些小的和密集性的物体难以区分。例如:一些重要的交通信号灯常常被分类模型误认为背景建筑物,这会造成严重的安全事故,在真实应用场景中是难以容忍的。因此,需要解决无监督域适应任务中类别边界不清晰问题。
目前,主流的无监督域适应技术以对抗训练为核心,通过一个域判别器对齐源域和目标域。可是,这些对抗训练方法忽略了像素级别的类别结构。最近的工作,例如:SSF-DAN、MaxSquare,利用类别级别的判别器和重加权策略改善了语义特征的类别结构。然而,这些间接的策略依然没有克服类别结构不清晰的问题。另一方面,大多数基于聚类的无监督域适应方法虽然调节了类别结构,但是主要被应用到图像级别的分类任务,没有考虑高维的语义特征空间,导致有限的识别语义信息的能力。
因此,探索一种应用于语义分割任务的类别结构清晰的无监督域适应方法,进而来提升语义分割模型的语义标签预测能力,成为一个亟待解决的技术问题。
发明内容
鉴于上述,本发明的目的是提供一种基于均匀聚类的语义分割的无监督域适应方法,通过克服无监督域适应任务中类别边界不清晰的技术缺陷,来提升语义分割的准确性。
为实现上述目的,本发明提供了如下方案:
第一方面,实施例提供的一种基于均匀聚类的语义分割的无监督域适应方法,包括以下步骤:
建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
第二方面,实施例提供的一种基于均匀聚类的语义分割的无监督域适应装置,包括:
数据集构建模块,用于建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
模型构建模块,用于建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
目标函数构建模块,用于建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
参数优化模块,用于利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
检测模块,用于利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
第三方面,实施例提供的一种基于均匀聚类的语义分割的无监督域适应系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现第一方面所述的基于均匀聚类的语义分割的无监督域适应方法。
第四方面,实施例提供的一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现第一方面所述的基于均匀聚类的语义分割的无监督域适应方法的步骤。
上述实施例提供的基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质,与现有技术相比,具有的有益效果至少包括:
首先,建立了基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失,缩小了同一类别像素的类内差异,同时驱动结构相似但类别不同的像素相互远离,趋向均匀分布,增大了类间距离,克服了域适应过程中类别边界不清晰的问题;接着,将基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失融入对抗训练框架,缩小了源域和目标域之间的域差异,增强了跨域数据在语义分割模型上的适应性,进而提升了语义分割的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例中基于均匀聚类的语义分割的无监督域适应方法的流程图;
图2是一实施例中无监督域适应网络模型及训练过程示意图;
图3是一实施例中无监督域适应网络模型的目标函数中均匀聚类的原理示意图;
图4是一实施例中基于均匀聚类的语义分割的无监督域适应装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
当前主流的无监督域适应方法主要以对抗训练为基础框架,通过对齐源域特征和目标域特征缩小了域差异。这些方法虽然增强了模型的泛化能力,但是忽略了特征的边界结构存在歧义,进而导致类别边界不清晰的技术缺陷,为了解决由于类别边界不清晰的技术缺陷导致语义分割不准确的问题,本发明实施例提出了一种基于均匀聚类的语义分割的无监督域适应方法,旨在通过驱动不同类别的特征结构趋于均匀分布来最大化类间距离,同时最小化类内差异,形成边界清晰的类别结构,另外,本发明还融合现有的对抗训练损失,对齐源域和目标域之间类别结构清晰的深度特征,实现了源域知识至目标域知识的迁移。实施例提供的基于均匀聚类的语义分割的无监督域适应方法可以应用到从虚拟场景到真实场景的域适应任务,例如:使用虚拟数据集GTA5训练获得的模型适用于真实数据集Cityscapes,还可以应用到自动驾驶领域和机器人领域。
图1是一实施例中基于均匀聚类的语义分割的无监督域适应方法的流程图。图2是一实施例中无监督域适应网络模型及训练过程示意图。图3是一实施例中无监督域适应网络模型的目标函数中均匀聚类的原理示意图。
如图1-图3所示,实施例提供的基于均匀聚类的语义分割的无监督域适应方法,包括以下步骤:
步骤1,建立具备标签的源域数据集和不具备标签的目标域数据集。
实施例中,源域数据集包括源域图像、源域图像的语义标签,其中,语义标签是指图像中需要分割的某一类目标的标签。目标域数据集不具有标签,所以只包括目标域图像。这些源域图像、源域图像的语义标签、目标域图像分别构成源域图像集合、源域图像的语义标签集合、目标域图像集合,用于无监督域适应网络模型的训练。
步骤2,建立无监督域适应网络模型。
实施例中,建立的无监督域适应网络模型包括语义分割网络模型和判别器模型,其中,语义分割网络模型中生成器和判别器模型采用对抗训练的方式相互优化。语义分割网络模型主要用于对源域图像和目标域图像进行语义分割得到语义分割结果,判别器模型用于对抗训练,即判别输入的语义分割结果是来自于目标域图像还是源域图像。
实施例中,语义分割网络模型和判别器模型采用但不限于以下网络结构,下面提供一个可用的语义分割网络模型和判别器模型示例。所述语义分割网络模型采用ResNet为基础框架并利用ImageNet数据集预训练得到,包括特征生成器和分类器;所述判别器模型包括顺序连接的多个Block块和多个卷积层,其中,Block块包括顺序连接的卷积层和激活层。
可选地,语义分割网络模型可采用以ResNet-101为基础框架并使用ImageNet数据集预训练的Deeplab-v2网络模型,包含特征生成器和分类器。
判别器模型是一个由复合组件和基本组件按顺序堆叠组成的神经网络,其中,复合组件由基本组件按顺序堆叠构成,基础组件包括一个输入通道数为α、输出通道数为β、核尺寸为4×4、步幅为2的卷积层,一个LeakyReLU激活层,复合组件记作Block(α,β),α、β是复合组件的参数。基于此,判别器模型由以下组件按顺序堆叠构成:Block(C,64)、Block(64,128)、Block(128,256)、Block(256,512)和一个输入通道数为512、输出通道数为1、核尺寸为4×4、步幅为2的卷积层,其中,C表示语义分割网络模型的分类类别的总数量。
步骤3,建立无监督域适应网络模型的目标函数。
实施例中,建立的无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失。具体而言,语义分割损失、源域均匀聚类损失、目标域均匀聚类损失以及对抗损失加权求和组成无监督域适应网络模型的目标函数;优选地,各损失的权重均为1。下面针对每个损失进行详细说明。
针对语义分割损失,实施例中,采用源域图像相对于语义分割网络模型的交叉熵损失作为监督语义分割网络模型性能的语义分割损失。其中,语义分割损失表示为
Figure BDA0003071265690000073
计算过程为:
Figure BDA0003071265690000071
Figure BDA0003071265690000072
其中,
Figure BDA0003071265690000081
是语义分割网络模型的交叉熵损失,
Figure BDA0003071265690000082
表示源域图像xs中(h,w)位置像素
Figure BDA0003071265690000083
是否属于类别c的语义标签,
Figure BDA0003071265690000084
是语义分割网络模型对源域图像xs中(h,w)位置像素
Figure BDA0003071265690000085
预测为类别c的概率,S={Xs,Ys}表示源域数据集,Xs是源域图像集合,Ys是源域图像的语义标签集合,H、W分别表示图像高度和宽度,C表示语义分割网络模型的分类类别的总数量,其中,
Figure BDA0003071265690000086
xs∈Xs
Figure BDA0003071265690000087
ys∈Ys。f表示语义分割网络模型的特征生成器,Θ是f的参数;
Figure BDA0003071265690000088
表示语义分割网络模型的分类器,θ是
Figure BDA0003071265690000089
的参数,
Figure BDA00030712656900000810
表示特征生成器f从源域图像xs中(h,w)位置像素
Figure BDA00030712656900000811
提取的特征,
Figure BDA00030712656900000812
表示分类器按照特征
Figure BDA00030712656900000813
做出的预测结果。
针对源域均匀聚类损失,实施例中,基于原型的源域均匀聚类损失用于减小源域类内差异、增大类间距离,表示为
Figure BDA00030712656900000814
计算过程为:
Figure BDA00030712656900000816
针对目标域均匀聚类损失,实施例中,基于经验原型的目标域均匀聚类损失用于减小目标域类内差异、增大类间距离,表示为
Figure BDA00030712656900000817
计算过程为:
Figure BDA00030712656900000818
其中,σ是激活函数,
Figure BDA00030712656900000819
表示如果像素
Figure BDA00030712656900000820
的语义标签
Figure BDA00030712656900000821
属于类别c即输出1,如果像素
Figure BDA00030712656900000822
的语义标签
Figure BDA00030712656900000823
不属于类别c即输出0,
Figure BDA0003071265690000091
表示源域图像xs中(h,w)位置像素
Figure BDA0003071265690000092
提取的特征
Figure BDA0003071265690000093
与类别c的原型表示
Figure BDA0003071265690000094
之间的L-2范数的平方,
Figure BDA0003071265690000095
表示源域图像中预测为类别c的像素的经验概率,
Figure BDA0003071265690000096
表示特征生成器f从目标域图像xt中(h,w)位置像素
Figure BDA0003071265690000097
提取的特征,
Figure BDA0003071265690000098
表示分类器按照特征
Figure BDA0003071265690000099
做出的预测结果,
Figure BDA00030712656900000910
表示目标域图像xt中(h,w)位置像素
Figure BDA00030712656900000911
提取的特征与类别c的经验原型表示
Figure BDA00030712656900000912
之间的L-2范数的平方,
Figure BDA00030712656900000913
表示目标域图像中预测为类别c的像素的经验概率。
实施例中,原型表示
Figure BDA00030712656900000914
依据源域图像xs的特征
Figure BDA00030712656900000915
计算得到,所述经验原型表示
Figure BDA00030712656900000930
依据目标域图像xt的特征
Figure BDA00030712656900000916
计算得到;所述经验概率
Figure BDA00030712656900000917
依据分类器
Figure BDA00030712656900000918
对特征
Figure BDA00030712656900000919
做出相对于类别c的预测结果
Figure BDA00030712656900000920
计算得到;所述经验概率
Figure BDA00030712656900000921
依据分类器
Figure BDA00030712656900000922
对特征
Figure BDA00030712656900000923
做出相对于类别c的预测结果
Figure BDA00030712656900000924
计算得到。具体计算过程为:
Figure BDA00030712656900000925
Figure BDA00030712656900000926
Figure BDA00030712656900000927
Figure BDA00030712656900000928
Figure BDA00030712656900000929
其中,Sc是源域数据集S的子集,表示属于类别c的源域像素集合,|Sc|表示Sc集合的模;T={Xt}表示目标域数据集,Xt是目标域图像集合,Tc是目标域数据集T的子集,表示预测为类别c的目标域像素集合,|Tc|表示Tc集合的模,
Figure BDA0003071265690000101
xt∈Xt
Figure BDA0003071265690000102
表示分类器
Figure BDA0003071265690000103
按照特征
Figure BDA0003071265690000104
做出的预测结果。
针对对抗损失,实施例中,用于监督判别器模型性能的对抗损失采用
Figure BDA0003071265690000105
表示,计算过程为:
Figure BDA0003071265690000106
其中,
Figure BDA0003071265690000107
是源域图像xs中(h,w)位置像素
Figure BDA0003071265690000108
的熵图,
Figure BDA0003071265690000109
是目标域图像xt中(h,w)位置像素
Figure BDA00030712656900001010
的熵图,D()表示判别器模型D判断输入熵图来自目标域的域概率,域概率越接近1,输入熵图来自目标域的概率越高,域概率越接近0,输入熵图来自源域的概率越高。
实施例中,熵图
Figure BDA00030712656900001011
熵图
Figure BDA00030712656900001012
通过以下公式计算得到:
Figure BDA00030712656900001013
Figure BDA00030712656900001014
基于以上语义分割损失
Figure BDA00030712656900001015
源域均匀聚类损失
Figure BDA00030712656900001016
目标域均匀聚类损失
Figure BDA00030712656900001017
以及对抗损失
Figure BDA00030712656900001018
建立的目标函数
Figure BDA00030712656900001019
可以为:
Figure BDA00030712656900001020
通过该目标函数
Figure BDA00030712656900001021
并结合训练样本来优化无监督域适应网络模型的参数。
步骤4,利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型。
实施例中,在对无监督域适应网络模型进行参数优化时,固定判别器模型的网络参数,分别计算语义分割损失对应的语义分割网络模型的参数梯度,源域均匀聚类损失对应的语义分割网络模型的参数梯度,目标域均匀聚类损失的对应的语义分割网络模型的参数梯度;计算对抗损失
Figure BDA0003071265690000111
对于语义分割网络模型和判别器模型的参数梯度;依据参数梯度更新语义分割网络模型的网络参数和判别器模型的参数梯度。具体过程包括:
训练的初始化阶段,从源域图像集合、源域图像的语义标签集合和目标域图像集合获取预设个数的训练数据样本,组成训练数据样本集合;建立语义分割网络模型的框架并导入基于ImageNet数据集预训练的参数,建立判别器模型的框架并随机初始化判别器模型参数;建立随机梯度下降(SGD)优化器和自适应矩估计(Adam)优化器;设置模型迭代训练的次数N和最优目标损失函数数值
Figure BDA0003071265690000112
例如设置N可以为120,000,
Figure BDA0003071265690000113
可以为100,并保存当前语义分割网络模型作为最优语义分割网络模型,保存当前判别器模型作为最优判别器模型;将所述训练数据样本集合中的第i个训练数据样本输入所述的无监督域适应网络模型,第i个训练数据样本包括一幅源域图像、一幅源域图像的语义标签、一幅目标域图像;设置域标签,源域域标签设置为0,目标域域标签设置为1;初始化语义分割网络模型的参数梯度为0,初始化判别器模型的参数梯度为0。
训练阶段,首先,固定判别器模型参数,具体包括:使用所述语义分割网络模型预测第i个训练数据样本中源域图像的语义分割结果,并按照公式
Figure BDA0003071265690000114
使用源域图像的语义标签和源域图像的语义分割结果计算语义分割损失
Figure BDA0003071265690000115
将语义分割损失数值反向传播计算语义分割网络模型的参数梯度。
实施例中,从源域图像的语义分割结果中筛选高置信度的源域图像的语义分割结果,依据高置信度的源域图像的语义分割结果计算源域均匀聚类损失。具体过程可以为:
保留源域图像的语义分割结果中每个类别预测概率排名前b%的像素并将源域图像的语义分割结果中每个类别预测概率排名不在前b%的像素概率设置为0,获得高置信度的源域图像的语义分割结果,实施例中,b%可设置为30%;按照公式
Figure BDA0003071265690000121
Figure BDA0003071265690000122
使用源域图像、源域图像的语义标签和高置信度的源域图像的语义分割结果计算基于原型的源域均匀聚类损失
Figure BDA0003071265690000123
将基于原型的源域均匀聚类损失数值反向传播计算语义分割网络模型的参数梯度。
实施例中,使用所述语义分割网络模型预测第i个训练数据样本中目标域图像的语义分割结果。从目标域图像的语义分割结果中筛选高置信度的目标域图像的语义分割结果,依据高置信度的目标域图像的语义分割结果计算目标域均匀聚类损失。具体过程可以为:
保留目标域图像的语义分割结果中每个类别预测概率排名前b%的像素并将目标域图像的语义分割结果中每个类别预测概率排名不在前b%的像素概率设置为0,获得高置信度的目标域图像的语义分割结果;按照公式
Figure BDA0003071265690000124
使用目标域图像和高置信度的目标域图像的语义分割结果计算基于经验原型的目标域均匀聚类损失
Figure BDA0003071265690000125
将基于经验原型的目标域均匀聚类损失数值反向传播计算语义分割网络模型的参数梯度。
实施例中,按照公式
Figure BDA0003071265690000131
使用源域图像的语义分割结果计算源域图像语义分割结果熵图;按照公式
Figure BDA0003071265690000132
Figure BDA0003071265690000133
使用目标域图像的语义分割结果计算目标域图像语义分割结果熵图。
输入目标域图像语义分割结果熵图到判别器模型,输出目标域图像语义分割结果熵图的域概率,计算目标域图像语义分割结果熵图的域概率和源域域标签的二进制交叉熵损失,将目标域图像语义分割结果熵图的域概率和源域域标签的二进制交叉熵损失数值反向传播计算语义分割网络模型的参数梯度。
然后,固定语义分割网络模型参数并设置判别器模型参数为可更新状态,包括:输入源域图像语义分割结果熵图到判别器模型,输出源域图像语义分割结果熵图的域概率,计算源域图像语义分割结果熵图的域概率和源域域标签的二进制交叉熵损失,将源域图像语义分割结果熵图的域概率和源域域标签的二进制交叉熵损失数值反向传播计算判别器模型的参数梯度。
输入目标域图像语义分割结果熵图到判别器模型,输出目标域图像语义分割结果熵图的域概率,计算目标域图像语义分割结果熵图的域概率和目标域域标签的二进制交叉熵损失,将目标域图像语义分割结果熵图的域概率和目标域域标签的二进制交叉熵损失数值反向传播计算判别器模型的参数梯度。
实施例中,基于上述参数梯度,使用随机梯度下降(SGD)优化器更新语义分割网络模型参数;使用自适应矩估计(Adam)优化器更新判别器模型参数。
在训练时,还按照公式
Figure BDA0003071265690000134
计算无监督域适应网络模型的目标函数
Figure BDA0003071265690000141
数值,判断无监督域适应网络模型的目标函数
Figure BDA0003071265690000142
数值是否小于最优目标损失函数数值
Figure BDA0003071265690000143
得到第一判断结果;如果第一判断结果表示是,则使用当前语义分割网络模型参数更新最优语义分割网络模型,使用当前判别器模型参数更新最优判别器模型,并使用无监督域适应网络模型的目标函数数值更新最优目标损失函数数值
Figure BDA0003071265690000144
如果第一判断结果表示否,则继续迭代次数的判断步骤。
在训练时,还判断i是否大于模型迭代训练的次数N,得到第二判断结果;如果第二判断结果表示否,则令i的数值增加1,使用多项式衰减策略更新随机梯度下降(SGD)优化器和自适应矩估计(Adam)优化器的学习率,返回步骤“将所述训练数据样本集合中的第i个训练数据样本输入所述的无监督域适应网络模型,第i个训练数据样本包括一幅源域图像、一幅源域图像的语义标签、一幅目标域图像”;如果第二判断结果表示是,则输出最优语义分割网络模型和最优判别器模型。
步骤5,利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
训练结束后,即可以利用参数优化的语义分割网络模型进行语义分割任务。可以将选择的待预测的目标域图像输入至语义分割网络模型,经计算获得目标域图像的语义标签。
上述基于均匀聚类的语义分割的无监督域适应方法,在语义分割模型的域适应场景下提出的,且具备标签的源域数据集和不具备标签的目标域数据集是可获取的。其次,提出了基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失,缩小了同一类别像素的类内差异,同时驱动结构相似但类别不同的像素相互远离,趋向均匀分布,增大了类间距离,克服了域适应过程中类别边界不清晰的问题;接着,将基于原型的源域均匀聚类损失和基于经验原型的目标域均匀聚类损失融入对抗训练框架,缩小了源域和目标域之间的域差异,增强了跨域数据在语义分割模型上的适应性。
实施例还提供了一种基于均匀聚类的语义分割的无监督域适应装置,如图4所示,无监督域适应装置400包括:
数据集构建模块410,用于建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
模型构建模块420,用于建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
目标函数构建模块430,用于建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
参数优化模块440,用于利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
检测模块450,用于利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
需要说明的是,实施例提供的基于均匀聚类的语义分割的无监督域适应装置在进行语义分割学习和应用过程时,应以上述各功能模块的划分进行举例说明,可以根据需要将上述功能分配由不同的功能模块完成,即在终端或服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,实施例提供的无监督域适应装置与无监督域适应方法实施例属于同一构思,其具体实现过程详见基于均匀聚类的语义分割的无监督域适应方法实施例,这里不再赘述。
实施例还提供了一种基于均匀聚类的语义分割的无监督域适应系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现上述基于均匀聚类的语义分割的无监督域适应方法,具体包括:
步骤1,建立具备标签的源域数据集和不具备标签的目标域数据集;
步骤2,建立无监督域适应网络模型;
步骤3,建立无监督域适应网络模型的目标函数;
步骤4,利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
步骤5,利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现上述基于均匀聚类的语义分割的无监督域适应方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于均匀聚类的语义分割的无监督域适应方法,其特征在于,包括以下步骤:
建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
其中,采用源域图像相对于语义分割网络模型的交叉熵损失作为监督语义分割网络模型性能的语义分割损失;
所述基于原型的源域均匀聚类损失用于减小类内差异、增大类间距离,表示为
Figure FDA0003551022180000011
计算过程为:
Figure FDA0003551022180000012
所述基于经验原型的目标域均匀聚类损失用于减小类内差异、增大类间距离,表示为
Figure FDA0003551022180000013
计算过程为:
Figure FDA0003551022180000014
其中,σ是激活函数,
Figure FDA0003551022180000021
表示如果像素
Figure FDA0003551022180000022
的语义标签
Figure FDA0003551022180000023
属于类别c即输出1,如果像素
Figure FDA0003551022180000024
的语义标签
Figure FDA0003551022180000025
不属于类别c即输出0,
Figure FDA0003551022180000026
表示源域图像xs中(h,w)位置像素
Figure FDA0003551022180000027
提取的特征
Figure FDA0003551022180000028
与类别c的原型表示
Figure FDA0003551022180000029
之间的L-2范数的平方,
Figure FDA00035510221800000210
表示源域图像中预测为类别c的像素的经验概率,
Figure FDA00035510221800000211
表示特征生成器f从目标域图像xt中(h,w)位置像素
Figure FDA00035510221800000212
提取的特征,
Figure FDA00035510221800000213
表示分类器按照特征
Figure FDA00035510221800000214
做出的预测结果,
Figure FDA00035510221800000215
表示目标域图像xt中(h,w)位置像素
Figure FDA00035510221800000216
提取的特征与类别c的经验原型表示
Figure FDA00035510221800000217
之间的L-2范数的平方,
Figure FDA00035510221800000218
表示目标域图像中预测为类别c的像素的经验概率,C表示语义分割网络模型的分类类别的总数量,Θ是特征生成器f的参数;θ是分类器
Figure FDA00035510221800000219
的参数;
其中,所述原型表示
Figure FDA00035510221800000220
依据源域图像xs的特征
Figure FDA00035510221800000221
计算得到,所述经验原型表示
Figure FDA00035510221800000222
依据目标域图像xt的特征
Figure FDA00035510221800000223
计算得到;
所述经验概率
Figure FDA00035510221800000224
依据分类器
Figure FDA00035510221800000225
对特征
Figure FDA00035510221800000226
做出相对于类别c的预测结果
Figure FDA00035510221800000227
计算得到;
所述经验概率
Figure FDA00035510221800000228
依据分类器
Figure FDA00035510221800000229
对特征
Figure FDA00035510221800000230
做出相对于类别c的预测结果
Figure FDA00035510221800000231
计算得到;
所述用于监督判别器模型性能的对抗损失采用
Figure FDA00035510221800000232
表示,计算过程为:
Figure FDA00035510221800000233
其中,
Figure FDA00035510221800000234
是源域图像xs中(h,w)位置像素
Figure FDA00035510221800000235
的熵图,
Figure FDA00035510221800000236
是目标域图像xt中(h,w)位置像素
Figure FDA00035510221800000237
的熵图,D()表示判别器模型D判断输入熵图来自目标域的域概率;
所述熵图
Figure FDA0003551022180000031
熵图
Figure FDA0003551022180000032
通过以下公式计算得到:
Figure FDA0003551022180000033
Figure FDA0003551022180000034
利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
2.如权利要求1所述的基于均匀聚类的语义分割的无监督域适应方法,其特征在于,所述语义分割网络模型采用ResNet为基础框架并经过图像预训练得到,包括特征生成器和分类器;所述判别器模型包括顺序连接的多个Block块和多个卷积层,其中,Block块包括顺序连接的卷积层和激活层。
3.如权利要求1所述的基于均匀聚类的语义分割的无监督域适应方法,其特征在于,所述语义分割损失、源域均匀聚类损失、目标域均匀聚类损失以及对抗损失加权求和组成无监督域适应网络模型的目标函数;优选地,各损失的权重均为1;
在对无监督域适应网络模型进行参数优化时,固定判别器模型的网络参数,分别计算语义分割损失对应的语义分割网络模型的参数梯度,源域均匀聚类损失对应的语义分割网络模型的参数梯度,目标域均匀聚类损失的对应的语义分割网络模型的参数梯度;计算对抗损失对于语义分割网络模型和判别器模型的参数梯度;依据参数梯度更新语义分割网络模型的网络参数和判别器模型的参数梯度。
4.如权利要求1或3所述的基于均匀聚类的语义分割的无监督域适应方法,其特征在于,从源域图像的语义分割结果中筛选高置信度的源域图像的语义分割结果,依据高置信度的源域图像的语义分割结果计算源域均匀聚类损失;
从目标域图像的语义分割结果中筛选高置信度的目标域图像的语义分割结果,依据高置信度的目标域图像的语义分割结果计算目标域均匀聚类损失。
5.一种基于均匀聚类的语义分割的无监督域适应装置,其特征在于,包括:
数据集构建模块,用于建立具备标签的源域数据集和不具备标签的目标域数据集;所述源域数据集包括源域图像、源域图像的语义标签,所述目标域数据集包括目标域图像;
模型构建模块,用于建立无监督域适应网络模型;所述无监督域适应网络模型包括用于对源域图像和目标域图像进行语义分割的语义分割网络模型和用于对抗训练的判别器模型;
目标函数构建模块,用于建立无监督域适应网络模型的目标函数;所述无监督域适应网络模型的目标函数包括用于监督语义分割网络模型性能的语义分割损失、基于原型的源域均匀聚类损失、基于经验原型的目标域均匀聚类损失和用于监督判别器模型性能的对抗损失;
其中,采用源域图像相对于语义分割网络模型的交叉熵损失作为监督语义分割网络模型性能的语义分割损失;
所述基于原型的源域均匀聚类损失用于减小类内差异、增大类间距离,表示为
Figure FDA0003551022180000041
计算过程为:
Figure FDA0003551022180000051
所述基于经验原型的目标域均匀聚类损失用于减小类内差异、增大类间距离,表示为
Figure FDA0003551022180000052
计算过程为:
Figure FDA0003551022180000053
其中,σ是激活函数,
Figure FDA0003551022180000054
表示如果像素
Figure FDA0003551022180000055
的语义标签
Figure FDA0003551022180000056
属于类别c即输出1,如果像素
Figure FDA0003551022180000057
的语义标签
Figure FDA0003551022180000058
不属于类别c即输出0,
Figure FDA0003551022180000059
表示源域图像xs中(h,w)位置像素
Figure FDA00035510221800000510
提取的特征
Figure FDA00035510221800000511
与类别c的原型表示
Figure FDA00035510221800000512
之间的L-2范数的平方,
Figure FDA00035510221800000513
表示源域图像中预测为类别c的像素的经验概率,
Figure FDA00035510221800000514
表示特征生成器f从目标域图像xt中(h,w)位置像素
Figure FDA00035510221800000515
提取的特征,
Figure FDA00035510221800000516
表示分类器按照特征
Figure FDA00035510221800000517
做出的预测结果,
Figure FDA00035510221800000518
表示目标域图像xt中(h,w)位置像素
Figure FDA00035510221800000519
提取的特征与类别c的经验原型表示
Figure FDA00035510221800000520
之间的L-2范数的平方,
Figure FDA00035510221800000521
表示目标域图像中预测为类别c的像素的经验概率,C表示语义分割网络模型的分类类别的总数量,Θ是特征生成器f的参数;θ是分类器
Figure FDA00035510221800000522
的参数;
其中,所述原型表示
Figure FDA00035510221800000523
依据源域图像xs的特征
Figure FDA00035510221800000524
计算得到,所述经验原型表示
Figure FDA00035510221800000525
依据目标域图像xt的特征
Figure FDA00035510221800000526
计算得到;
所述经验概率
Figure FDA00035510221800000527
依据分类器
Figure FDA00035510221800000528
对特征
Figure FDA00035510221800000529
做出相对于类别c的预测结果
Figure FDA00035510221800000530
计算得到;
所述经验概率
Figure FDA00035510221800000531
依据分类器
Figure FDA00035510221800000532
对特征
Figure FDA00035510221800000533
做出相对于类别c的预测结果
Figure FDA0003551022180000061
计算得到;
所述用于监督判别器模型性能的对抗损失采用
Figure FDA0003551022180000062
表示,计算过程为:
Figure FDA0003551022180000063
其中,
Figure FDA0003551022180000064
是源域图像xs中(h,w)位置像素
Figure FDA0003551022180000065
的熵图,
Figure FDA0003551022180000066
是目标域图像xt中(h,w)位置像素
Figure FDA0003551022180000067
的熵图,D()表示判别器模型D判断输入熵图来自目标域的域概率;
所述熵图
Figure FDA0003551022180000068
熵图
Figure FDA0003551022180000069
通过以下公式计算得到:
Figure FDA00035510221800000610
Figure FDA00035510221800000611
参数优化模块,用于利用源域数据集和目标域数据集,并采用目标函数优化无监督域适应网络模型的网络参数,得到参数优化后的语义分割网络模型;
检测模块,用于利用参数优化后的语义分割网络模型对待检测的目标域图像进行检测,得到目标域图像的语义标签。
6.一种基于均匀聚类的语义分割的无监督域适应系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~4任一项所述的基于均匀聚类的语义分割的无监督域适应方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现权利要求1~4任一项所述的基于均匀聚类的语义分割的无监督域适应方法的步骤。
CN202110539925.3A 2021-05-18 2021-05-18 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 Active CN113221905B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110539925.3A CN113221905B (zh) 2021-05-18 2021-05-18 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质
US17/408,441 US11734390B2 (en) 2021-05-18 2021-08-22 Unsupervised domain adaptation method, device, system and storage medium of semantic segmentation based on uniform clustering

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110539925.3A CN113221905B (zh) 2021-05-18 2021-05-18 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质

Publications (2)

Publication Number Publication Date
CN113221905A CN113221905A (zh) 2021-08-06
CN113221905B true CN113221905B (zh) 2022-05-17

Family

ID=77092623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110539925.3A Active CN113221905B (zh) 2021-05-18 2021-05-18 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质

Country Status (2)

Country Link
US (1) US11734390B2 (zh)
CN (1) CN113221905B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11763135B2 (en) * 2021-03-01 2023-09-19 Robert Bosch Gmbh Concept-based adversarial generation method with steerable and diverse semantics
CN113706547B (zh) * 2021-08-27 2023-07-18 北京航空航天大学 一种基于类别同异性引导的无监督域适应语义分割方法
CN113807420B (zh) * 2021-09-06 2024-03-19 湖南大学 一种考虑类别语义匹配的域自适应目标检测方法及系统
CN114298122B (zh) * 2021-10-22 2024-06-18 腾讯科技(深圳)有限公司 数据分类方法、装置、设备、存储介质及计算机程序产品
CN114332568B (zh) * 2022-03-16 2022-07-15 中国科学技术大学 域适应图像分类网络的训练方法、系统、设备及存储介质
CN114677515B (zh) * 2022-04-25 2023-05-26 电子科技大学 基于类间相似性的弱监督语义分割方法
CN116823851B (zh) * 2023-06-07 2024-06-14 苏州大学 基于特征重构的无监督域自适应oct图像分割方法及系统
CN116543237B (zh) * 2023-06-27 2023-11-28 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 无源域无监督域适应的图像分类方法、系统、设备及介质
CN116777896B (zh) * 2023-07-07 2024-03-19 浙江大学 一种表观缺陷跨域分类识别的负迁移抑制方法
CN116977635B (zh) * 2023-07-19 2024-04-16 中国科学院自动化研究所 类别增量语义分割学习方法及语义分割方法
CN116913259B (zh) * 2023-09-08 2023-12-15 中国电子科技集团公司第十五研究所 结合梯度引导的语音识别对抗防御方法及装置
CN116935447B (zh) * 2023-09-19 2023-12-26 华中科技大学 基于自适应师生结构的无监督域行人重识别方法及系统
CN117152563B (zh) * 2023-10-16 2024-05-14 华南师范大学 混合目标域自适应模型的训练方法、装置及计算机设备
CN117195744B (zh) * 2023-10-16 2024-04-05 南京工业大学 一种子母式移动机器人协同穿越的通过性迁移评价方法
CN117367777B (zh) * 2023-11-15 2024-06-14 苏州大学 一种scara机器人滚珠丝杠故障诊断方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222690B (zh) * 2019-04-29 2021-08-10 浙江大学 一种基于最大二乘损失的无监督域适应语义分割方法
CN111340819B (zh) * 2020-02-10 2023-09-12 腾讯科技(深圳)有限公司 图像分割方法、装置和存储介质
CN112308862A (zh) * 2020-06-04 2021-02-02 北京京东尚科信息技术有限公司 图像语义分割模型训练、分割方法、装置以及存储介质
CN111814871B (zh) * 2020-06-13 2024-02-09 浙江大学 一种基于可靠权重最优传输的图像分类方法
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning

Also Published As

Publication number Publication date
CN113221905A (zh) 2021-08-06
US11734390B2 (en) 2023-08-22
US20220383052A1 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
CN113221905B (zh) 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质
Adarsh et al. YOLO v3-Tiny: Object Detection and Recognition using one stage improved model
Luo et al. Fire smoke detection algorithm based on motion characteristic and convolutional neural networks
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN110909820A (zh) 基于自监督学习的图像分类方法及系统
CN112949673A (zh) 一种基于全局注意力的特征融合目标检测与识别方法
CN110866530A (zh) 一种字符图像识别方法、装置及电子设备
CN110222718B (zh) 图像处理的方法及装置
CN111008639B (zh) 一种基于注意力机制的车牌字符识别方法
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN112926654A (zh) 预标注模型训练、证件预标注方法、装置、设备及介质
WO2021243947A1 (zh) 对象再识别方法及装置、终端和存储介质
CN106815323A (zh) 一种基于显著性检测的跨域视觉检索方法
WO2021238586A1 (zh) 一种训练方法、装置、设备以及计算机可读存储介质
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN111104831A (zh) 一种视觉追踪方法、装置、计算机设备以及介质
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN116994236A (zh) 一种基于深度神经网络的低质图像车牌检测方法
CN113963333A (zh) 一种基于改进yolof模型的交通标志牌检测方法
Ying et al. License plate detection and localization in complex scenes based on deep learning
Alajlan et al. Automatic lane marking prediction using convolutional neural network and S-Shaped Binary Butterfly Optimization
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant