CN116486172A - 基于语义表征的无监督域适应图像分类方法 - Google Patents
基于语义表征的无监督域适应图像分类方法 Download PDFInfo
- Publication number
- CN116486172A CN116486172A CN202310480760.6A CN202310480760A CN116486172A CN 116486172 A CN116486172 A CN 116486172A CN 202310480760 A CN202310480760 A CN 202310480760A CN 116486172 A CN116486172 A CN 116486172A
- Authority
- CN
- China
- Prior art keywords
- domain
- semantic
- category
- sample
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012512 characterization method Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 230000008485 antagonism Effects 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 230000009466 transformation Effects 0.000 claims description 15
- 230000006978 adaptation Effects 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000013145 classification model Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义表征的无监督域适应图像分类方法,包括:步骤1)预训练和自训练:使用源域预训练模型,并结合自训练学习初步获取目标域的伪标签;步骤2)提取类别语义表征:通过改变语义向量方向,决策类别的有效语义表征,提取到有效类别语义表征;步骤3)模糊跨域语义表征:以图像域标签为指导,改变跨域样本的语义向量方向,获得跨域语义表征,进一步模糊这些跨域语义表征;步骤4)重构分析:对有效类别语义表征和模糊后的跨域语义表征分别生成新的样本表征,并进行重构分析;步骤5)训练分类器和域判别器:使用新样本表征训练分类器和域判别器,计算分类损失和对抗损失;步骤6)模型优化:梯度计算,优化更新模型参数。
Description
技术领域
本发明属于迁移学习中的域适应图像分类领域,具体涉及一种基于语义表征的无监督域适应图像分类方法。
背景技术
域适应是迁移学习中的一个重要研究方向,以源域和目标域数据作为学习样本,其中源域是易获取的有标签样本,目标域是无标签样本。显然,对于有监督的源域是容易学习到其分类模型的,然而,对于无监督的目标域,为了提高其分类性能,更有效的解决方法是迁移源域知识,辅助目标域数据学习分类模型。域适应假设了源域和目标域的数据分布不一致,源任务和目标任务相似。因此,如何利用源域和目标域的相似性,解决分布差异的问题,进而提高目标域的分类能力是该领域的主要思考方向。相较于传统机器学习,无监督域适应的目标数据集不再需要标签,省去了大量的人工成本。此外,域适应在面对新场景的实际情况中,能够快速学习应用,利用过往的有效数据集即可提高未知图像的分类精度。
目前,域适应分类模型在图像分类领域中已经得到了较好的应用,然而,它们的考虑方向往往依赖且局限于特征空间的全局对齐,对样本语义层面没有进行可解释的分析。在实际情况中,跨域分布差异的存在是由样本固有的域风格导致的,且风格语义属性对于样本所属类别并不具备指向性,因此,对这部分语义属性,并不具备类别解释性,在特征空间对齐的实际操作中,可以选择性地进行舍弃。此外,近年来不少研究域适应的方法采用对抗网络来进行跨域差异最小化,对这些研究,也缺乏了对模糊跨域语义表征的考虑。对于利用对抗机制,欺骗域判别器,不具备可解释的语义属性是最好的欺诈数据。
对于语义表征的可解释目前在域适应研究领域中较为匮乏,利用语义表征的可解释性对图像进行分类也可以进一步解释图像信息。
发明内容
发明目的:针对以上问题,本发明提出一种基于语义表征的无监督域适应图像分类方法,解决现有无监督域适应场景中语义属性不可解释性的问题,提高图像分类精度。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于语义表征的无监督域适应图像分类方法,利用有类别标签的图像样本即源域,学习分类另外一组数据分布不一样的无类别标签的图像样本即目标域,包括以下步骤:
步骤1)预训练和自训练:使用源域图像样本在卷积神经网络上进行预训练,获得基于源域图像样本表征的骨干网络,包含特征提取器和分类器;
基于上述骨干网络,连接设置域判别器、编码器和生成器,构建并训练域适应模型,学习源域图像样本分类信息,并使用自训练学习获取目标域的伪标签;
步骤2)提取类别语义表征:设每类图像样本存在K种语义属性,通过改变各语义向量方向,判断不同的语义属性是否影响对应样本指向其所属类别,提取到各个类别的有效类别语义表征;
步骤3)模糊跨域语义表征:设两组数据分布不同的图像样本,即源域和目标域为两类样本,它们存在P种语义属性,在域适应模型中嵌入对抗网络,设置域判别器,模糊源域和目标域的域类别概念,模糊跨域语义表征;
步骤4)重构分析:使用生成器分别对有效类别语义表征和模糊后的跨域语义表征生成新的样本表征,并联合编码器计算重构损失;
步骤5)训练分类器和域判别器:使用新样本表征进一步训练分类器和域判别器,并计算分类损失和对抗损失;
步骤6)模型优化:梯度计算,优化更新模型参数,使用最终模型获得图像分类结果。
优选的,步骤1)中,使用源域图像样本预训练获得骨干网络,以及自训练学习获取目标域样本伪标签,方式如下:
构建特征提取器和分类器,随机初始化域判别器、编码器和生成器,获取预训练模型的表达形式和目标域样本的初步伪标签;所述预训练模型的表达形式如下:
f=Gf(z;θf),y=Gy(f;θy)(1)
其中,z表示源域图像样本表征,f和y分别表示对应样本特征和类别标签信息,Gf和Gy分别表示特征提取器和分类器,θf和θy分别为对应Gf和Gy的网络模型参数;所述目标域样本的伪标签表达形式如下:
其中,nt和c分别表示目标域样本个数和类别数,Pij是由分类器Gy得到的表示第i个未标记样本被预测为第j个类别的置信度,τ表示阈值,和/>分别表示目标域第i个样本的表征和类别标签信息,/>表示预测得到的高置信样本集合,公式(3)表示了目标域数据预测得到的高置信样本及其标签集合。
优选的,步骤2)中,提取有效类别语义表征,具体包括:
步骤2-1)设每一类样本存在K个语义表征向量,存在c个类别,则S={S0,...,Sj,...,Sc}表示所有类别的语义表征向量集合;其中表示在第j个类别的K个语义表征向量;
求取子集Sj表示第j个类别的有效语义表征,初始时设第j个类别的有效语义表征存在k个,则求得|Sj|=k;
通过改变有效语义表征向量的方向,检测出对应样本、对应语义表征是否具有正确类别的指向性;
设以D={D0,...,Dj,...,Dc}表示各个类别的k个有效语义表征向量变化方向,正方向为+1,负方向为-1,初始时则求得Dj∈{±1}k;
步骤2-2)对第j个类别的样本x改变其语义表征向量的方向得计算变换前后的分类差异并进行记录,得到如下的表达形式:
其中,s,d分别表示样本x在不同语义属性s的变换方向d且Δ[x,s,d]表示了在对应组合[x,s,d]下的分类差异记录值;根据上述公式,得到第j个类别的所有样本语义表征变换,表达形式如下:
其中,表示第j个类别的所有样本特征,共存在nj个样本,s1至sk表示对应样本的k个语义表征向量,d表示了对应语义表征向量的方向,Δ[Xj,s,d]整体表示了第j个类别nj个样本在k个语义表征向量变换下的分类差异记录数据集合,集合中的每个元素表示了一个样本在对应语义表征向量及其方向下的分类差异值;在第j个类别中,对所有样本的同一语义属性变换结果求均值,得到如下表达形式:
其中,和/>表示第j个类别所有样本在s1和sk语义表征向量变换的分类差异均值,/>表示了在s1至sk语义表征向量下的分类差异均值记录集合;
步骤2-3)对第j个类别,如果某一语义表征向量的变化方向不一致,则赋值为0表示该语义属性不具备解释性,表达形式如下:
在各个语义表征向量的变化结果均值中求取最大值,即获得最具解释性的表示该样本属于第j个类别的语义表征,表达形式如下:
其中,smax,dmax分别表示在分类差异最大化,即值最大的情况下的语义表征向量及其方向;
步骤2-4)更新步骤2-1)中的有效语义表征集合及变化方向集合,表达形式如下:
Sj=Sj∪{smax},Dj=Dj∪{dmax}(10)
步骤2-5)对第j个类别重复步骤2-2)至2-4),直至获得top_k个可解释性的语义表征,即其中top_k表示前k个最具解释性的语义表征,/>表示第j个类别的基于top_k语义表征的所有样本特征表示集合,即属于第j个类别的有效类别语义表征,t表示设定的阈值,最终得到|Sj|=k;
步骤2-6)对所有类别重复步骤2-2)至2-5),得到有效类别语义表征,即 表示所有基于有效类别语义表征的图像样本特征集合。
优选的,步骤3)中,所述模糊跨域语义表征,具体包括:
步骤3-1)将步骤2-1)至2-6)的数据类别符号c重新设为d′,且d′={0,1},即以源域和目标域作为两种图像类别样本,d′=0表示为源域的域类别标签,d′=1表示为目标域的域类别标签;
则根据已有步骤得到S={S0,S1},表示源域和目标域对应的域级别语义表征向量集合,D={D0,D1},表示源域和目标域对应语义表征向量方向的集合;
区分图像类别c和域类别d′,设置域判别器Gd对域类别d′进行预测,则跨域表征的可解释性语义获取表达形式如下:
其中,Δd[x,s,d]表示训练样本x经过语义表征s及其方向d的变换后的域类别分类差异;Xd′表示源域或目标域所有样本的集合,Δd[Xd′,B,d]表示源域或目标域所有样本对应p种语义表征及其方向的集合;/>表示源域或目标域所有样本在p种语义表征上的域类别分类差异均值集合,集合的元素如/>表示源域或目标域所有样本在第p种语义表征上的域类别分类差异均值;sdmax,ddmax分别表示在域类别分类差异最大化,即/>值最大的情况下的域级别语义表征及其方向;Xd-explained表示基于域类别可解释性语义表征的图像样本特征集合;
步骤3-2)移除域类别可解释性语义表征,即模糊跨域语义表征,对于图像样本特征集合X,模糊X的跨域语义表征的表达形式如下:
X=X\Xd-explained(17)。
优选的,步骤4)中,使用生成器分别对有效类别语义表征和模糊后的跨域语义表征进行样本重构,生成新样本表征,并计算重构损失,其表达形式如下:
其中,和/>分别表示作用于有效类别语义表征和模糊后的跨域语义表征的生成器,对应模型参数表示为/>和/>E表示编码器,对应模型参数表示为θE;/>Lrec分别表示基于/>和/>得到的重构损失以及整体重构损失。
优选的,步骤5)中,使用新样本表征,即Xc-explained和X\Xd-explained,计算分类损失和对抗损失,并更新相应模型参数,其分类损失表达形式如下:
其中,Gy表示分类器,对应模型参数θy,XS,YS分别表示源域样本和标签集合,其中元素表示为(x,y),ns表示源域样本个数,lce表示交叉熵损失函数,X与Xc-explained表示经过有效类别语义表示提取前后图像样本特征集合,Lcls为分类损失表达形式;对抗损失表达形式如下:
其中,Gd表示域判别器,对应模型参数θd,nt,XT分别表示目标域图像样本个数和对应特征表示,Ladv为对抗损失表达形式。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
本发明提出了一种基于语义表征的无监督域适应图像分类方法,首先预训练源域模型,构建特征提取器、分类器和域判别器等,使用自训练学习获取目标域的伪标签。其次,通过分类器和编码器提取有效类别语义表征,通过域判别器和编码器模糊跨域语义表征,再通过生成器,分别生成具有可解释性的类别语义表征样本,和不具备可解释性的跨域语义表征样本,并以此样本训练模型分类器,欺骗域判别器。最后,构建重构损失、分类损失和对抗损失,进行梯度下降,迭代更新优化模型参数,获取目标高精度分类模型。本发明将无监督域适应中的分布差异问题转化为语义对齐问题,对于具备可解释性的类别语义,在语义空间进行对齐,而对于跨域的不具备可解释性的风格语义,进行语义模糊效果。综上,本模型具有泛化能力强、分类准确率高等优点,并使得图像语义属性具备可解释性。
附图说明
图1是基于语义表征的无监督域适应图像分类方法框架图;
图2是基于语义表征的无监督域适应图像分类方法网络的模型图。
具体实施方式
为了使本领域的研究人员更好地理解本申请中的技术问题和技术方案,并实现申请所达到的技术效果,下面结合附图1-2和具体实施方式对本发明的一种基于语义表征的无监督域适应图像分类方法框架作进一步详细说明。
本发明所述的基于语义表征的无监督域适应图像分类方法,利用有类别标签的图像样本即源域,学习分类另外一组数据分布不一样的无类别标签的图像样本即目标域,流程如图1所示,具体实现包括以下步骤:
步骤1:预训练和自训练
在无监督域适应中,学习一个良好的预训练模型是非常重要,这在一定程度上决定了无监督目标域的起步分类模型效果。因此,构建特征提取器和分类器,并初始化域判别器、编码器和生成器模块,形成基本的骨干网络,是本发明的首要工作。
对于预训练模型在无监督目标域上的分类效果,在一定程度上是具备可信度的,利用这部分高置信度的目标域样本,为其添加伪标签,从而联合源域提高目标域的分类模型性能,是具备一定价值的。因此,在目标训练模型中使用自训练学习获取目标域的伪标签,为源域知识衔接目标域样本,可以为目标分类模型提高价值。
所述预训练模型的表达形式如下:
f=Gf(z;θf),y=Gy(f;θy)(1)
其中,z表示源域图像样本表征,f和y分别表示对应样本特征和类别标签信息,Gf和Gy分别表示特征提取器和分类器,θf和θy分别为对应Gf和Gy的网络模型参数;所述目标域样本的伪标签表达形式如下:
其中,nt和c分别表示目标域样本个数和类别数,Pij是由分类器Gy得到的表示第i个未标记样本被预测为第j个类别的置信度,τ表示阈值,和/>分别表示目标域第i个样本的表征和类别标签信息,/>表示预测得到的高置信样本集合,公式(3)表示了目标域数据预测得到的高置信样本及其标签集合。
步骤2:提取类别语义表征
在无监督域适应图像多类别样本中,假设每一类样本存在K种语义属性,然而并非所有的语义属性都将该样本指向其所属类别,对于具有识别性的语义属性,显然是具备可解释性的,然而对于图像域风格之类的语义属性,显然对类别并不具备可解释性,甚至反而对样本的分类效果产生负面影响。因此,提取样本有效语义表征,使得模型分类器专注于类别语义信息表征,是本发明解决跨域分布差异的一种有效方法。
本发明通过改变语义向量方向,判断其是否影响对应样本指向其所属类别,以此提取到各个类别的有效语义表征,如附图2中经过仿射变换提取有效类别语义表征。
所述提取有效类别语义表征具体如下:
假设每一类样本存在K个语义表征向量,存在c个类别,则S={S0,...,Sj,...,Sc}表示所有类别的语义表征向量集合,其中表示在第j个类别的K个语义表征向量,求取子集Sj表示第j个类别的有效语义表征,初始时/>假设第j个类别的有效语义表征存在k个,则后续求得|Sj|=k。
通过改变有效语义表征向量的方向,可以检测出对应样本、对应语义表征是否具有正确类别的指向性。假设以D={D0,...,Dj,...,Dc}表示各个类别的k个有效语义表征向量变化方向,正方向为+1,负方向为-1,初始时后续则可求得Dj∈{±1}k。
对第j个类别的任意样本x改变其语义表征向量的方向可得计算变换前后的分类差异并进行记录,得到如下的表达形式:
其中,s,d分别表示固定样本x在不同语义属性s的变换方向d且Δ[x,s,d]表示了在对应组合[x,s,d]下的分类差异记录值;根据上述公式,可得到第j个类别的所有样本语义表征变换,表达形式如下:
其中,表示第j个类别的所有样本特征,共存在nj个样本,s1至sk表示对应样本的k个语义表征向量,d表示了对应语义表征向量的方向,Δ[Xj,s,d]整体表示了第j个类别nj个样本在k个语义表征向量变换下的分类差异记录数据集合,集合中的每个元素表示了一个样本在对应语义表征向量及其方向下的分类差异值;在第j个类别中,对不同样本的同一语义属性变化结果求均值,可得到如下表达形式:
综上,和/>表示第j个类别所有样本在s1和sk语义表征向量变换的分类差异均值,/>表示了在s1至sk语义表征向量下的分类差异均值记录集合;
对第j个类别,如果某一语义表征向量的变化方向不一致,则赋值为0表示该语义属性不具备解释性,表达形式如下:
在各个语义表征向量的变化结果均值中求取最大值,即可获得最具解释性的表示该样本属于第j个类别的语义表征,表达形式如下:
其中,smax,dmax分别表示在分类差异最大化,即值最大的情况下的语义表征向量及其方向;
更新有效语义表征集合及变化方向集合,表达形式如下:
Sj=Sj∪{smax},Dj=Dj∪{dmax}(10)
对第j个类别重复上述内容,直至获得top_k个可解释性的语义表征,即 其中top_k表示前k个最具解释性的语义表征,/>表示第j个类别的基于top_k语义表征的所有样本特征表示集合,即属于第j个类别的有效类别语义表征,t表示设定的阈值,最终得到|Sj|=k;
对所有类别重复上述内容,得到有效类别语义表征,即 表示所有基于有效类别语义表征的图像样本特征集合。
步骤3:模糊跨域语义表征
在无监督域适应中跨域分布差异是一个显著的问题,提取类别语义表征虽然使得分类模型更专注于类别语义信息,然而在另一方面却不可避免得忽视了跨域风格差异信息。因此,对于这部分不具备可解释性的语义表征,使用对抗网络对域判别器进行欺骗是一种有效模糊跨域差异信息的手段。
假设源域和目标域整体样本存在P种语义属性,为了降低跨域差异,在对抗网络中,对于域判别器,要尽可能地模糊源域和目标域数据的概念。因此,可以舍弃源域和目标域样本的可解释性语义表征,来模糊跨域语义表征。
所述模糊跨域语义表征具体表述如下:
将步骤2的数据类别符号c重新设为d′,且d′={0,1},即以源域和目标域作为两种图像类别样本,d′=0表示为源域的域类别标签,d′=1表示为目标域的域类别标签;
则根据已有步骤得到S={S0,S1},表示源域和目标域对应的域级别语义表征向量集合,D={D0,D1},表示源域和目标域对应语义表征向量方向的集合;
为了区分图像类别c和域类别d′,设置域判别器Gd对域类别d′进行预测,则跨域表征的可解释性语义获取表达形式如下:
其中,Δd[x,s,d]表示训练样本x经过语义表征s及其方向d的变换后的域类别分类差异;Xd′表示源域或目标域所有样本的集合,Δd[Xd′,B,d]表示源域或目标域所有样本对应p种语义表征及其方向的集合;/>表示源域或目标域所有样本在p种语义表征上的域类别分类差异均值集合,集合的元素如/>表示源域或目标域所有样本在第p种语义表征上的域类别分类差异均值;sdmax,ddmax分别表示在域类别分类差异最大化,即/>值最大的情况下的域级别语义表征及其方向;Xd-explained表示基于域类别可解释性语义表征的图像样本特征集合;
移除可解释性的跨域语义表征,即模糊跨域语义表征,,对于图像样本特征集合X,模糊X的跨域语义表征的表达形式如下:
X=X\Xd-explained(17)
步骤4:重构分析
使用生成器分别对有效类别语义表征和模糊后的跨域语义表征生成新的样本表征,对于新样本表征,需要计算重构损失,优化模型参数,其表达形式如下:
其中,表示和/>分别表示作用于有效类别语义表征和模糊后的跨域语义表征的生成器,对应模型参数表示为/>E表示编码器,对应模型参数表示为θE;/>分别表示基于/>和/>得到的重构损失以及整体重构损失。
步骤5:训练分类器和域判别器
为了促进域适应过程中的正迁移,即样本类别语义空间对齐和跨域语义信息对齐,使用新样本表征进一步训练分类器和域判别器,并计算分类损失和对抗损失,使得分类器对类别信息更具判别性,域判别器对域类别信息更具不可区分性;
计算分类损失和对抗损失,并更新相应模型参数,其分类损失Lcls表达形式如下:
其中,Gy表示分类器,对应模型参数θy,XS,YS分别表示源域样本和标签集合,ns表示源域样本个数,lce表示交叉熵损失函数;对抗损失Ladv表达形式如下:
其中,Gd表示域判别器,对应模型参数θd;nt,XT分别表示目标域样本个数和特征表示。
步骤6)模型优化
结合上述过程,提取目标分类损失,构建模型损失函数,求取目标分类模型,其表达形式如下:
其中,α,β为超参数;最终,对目标域样本进行标签预测,其表达形式为:
其中,YT为预测所得目标域标签。
本发明提供了一种基于语义表征的无监督域适应图像分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (6)
1.基于语义表征的无监督域适应图像分类方法,利用有类别标签的图像样本即源域,学习分类另外一组数据分布不一样的无类别标签的图像样本即目标域,其特征在于,包括以下步骤:
步骤1)预训练和自训练:使用源域图像样本在卷积神经网络上进行预训练,获得基于源域图像样本表征的骨干网络,包含特征提取器和分类器;
基于上述骨干网络,连接设置域判别器、编码器和生成器,构建并训练域适应模型,学习源域图像样本分类信息,并使用自训练学习获取目标域的伪标签;
步骤2)提取类别语义表征:设每类图像样本存在K种语义属性,通过改变各语义向量方向,判断不同的语义属性是否影响对应样本指向其所属类别,提取到各个类别的有效类别语义表征;
步骤3)模糊跨域语义表征:设两组数据分布不同的图像样本,即源域和目标域为两类样本,它们存在P种语义属性,在域适应模型中嵌入对抗网络,设置域判别器,模糊源域和目标域的域类别概念,模糊跨域语义表征;
步骤4)重构分析:使用生成器分别对有效类别语义表征和模糊后的跨域语义表征生成新的样本表征,并联合编码器计算重构损失;
步骤5)训练分类器和域判别器:使用新样本表征进一步训练分类器和域判别器,并计算分类损失和对抗损失;
步骤6)模型优化:梯度计算,优化更新模型参数,使用最终模型获得图像分类结果。
2.根据权利要求1所述的基于语义表征的无监督域适应图像分类方法,其特征在于,步骤1)中,使用源域图像样本预训练获得骨干网络,以及自训练学习获取目标域样本伪标签,方式如下:
构建特征提取器和分类器,随机初始化域判别器、编码器和生成器,获取预训练模型的表达形式和目标域样本的初步伪标签;所述预训练模型的表达形式如下:
f=Gf(z;θf),y=Gy(f;θy)(1)
其中,z表示源域图像样本表征,f和y分别表示对应样本特征和类别标签信息,Gf和Gy分别表示特征提取器和分类器,θf和θy分别为对应Gf和Gy的网络模型参数;所述目标域样本的伪标签表达形式如下:
其中,nt和c分别表示目标域样本个数和类别数,Pij是由分类器Gy得到的表示第i个未标记样本被预测为第j个类别的置信度,τ表示阈值,和/>分别表示目标域第i个样本的表征和类别标签信息,/>表示预测得到的高置信样本集合,公式(3)表示了目标域数据预测得到的高置信样本及其标签集合。
3.根据权利要求2所述的基于语义表征的无监督域适应图像分类方法,其特征在于,步骤2)中,提取有效类别语义表征,具体包括:
步骤2-1)设每一类样本存在K个语义表征向量,存在c个类别,则S={S0,...,Sj,...,0c}表示所有类别的语义表征向量集合;其中表示在第j个类别的K个语义表征向量;
求取子集0j表示第j个类别的有效语义表征,初始时设第j个类别的有效语义表征存在k个,则求得|0j|=k;
通过改变有效语义表征向量的方向,检测出对应样本、对应语义表征是否具有正确类别的指向性;
设以D={D0,...,Dj,...,Dc}表示各个类别的k个有效语义表征向量变化方向,正方向为+1,负方向为-1,初始时则求得Dj∈{±1}k;
步骤2-2)对第j个类别的样本x改变其语义表征向量的方向得计算变换前后的分类差异并进行记录,得到如下的表达形式:
其中,s,d分别表示样本x在不同语义属性s的变换方向d且Δ[x,s,d]表示了在对应组合[x,s,d]下的分类差异记录值;根据上述公式,得到第j个类别的所有样本语义表征变换,表达形式如下:
其中,表示第j个类别的所有样本特征,共存在nj个样本,s1至sk表示对应样本的k个语义表征向量,d表示了对应语义表征向量的方向,Δ[Xj,s,d]整体表示了第j个类别nj个样本在k个语义表征向量变换下的分类差异记录数据集合,集合中的每个元素表示了一个样本在对应语义表征向量及其方向下的分类差异值;在第j个类别中,对所有样本的同一语义属性变换结果求均值,得到如下表达形式:
其中,和/>表示第j个类别所有样本在s1和sk语义表征向量变换的分类差异均值,/>表示了在s1至sk语义表征向量下的分类差异均值记录集合;
步骤2-3)对第j个类别,如果某一语义表征向量的变化方向不一致,则赋值为0表示该语义属性不具备解释性,表达形式如下:
在各个语义表征向量的变化结果均值中求取最大值,即获得最具解释性的表示该样本属于第j个类别的语义表征,表达形式如下:
其中,smax,dmax分别表示在分类差异最大化,即值最大的情况下的语义表征向量及其方向;
步骤2-4)更新步骤2-1)中的有效语义表征集合及变化方向集合,表达形式如下:
Sj=0j∪{smax},Dj=Dj∪{dmax}(10)
步骤2-5)对第j个类别重复步骤2-2)至2-4),直至获得top_k个可解释性的语义表征,即其中top_k表示前k个最具解释性的语义表征,/>表示第j个类别的基于top_k语义表征的所有样本特征表示集合,即属于第j个类别的有效类别语义表征,t表示设定的阈值,最终得到|Sj|=k;
步骤2-6)对所有类别重复步骤2-2)至2-5),得到有效类别语义表征,即 表示所有基于有效类别语义表征的图像样本特征集合。
4.根据权利要求3所述的基于语义表征的无监督域适应图像分类方法,其特征在于,步骤3)中,所述模糊跨域语义表征,具体包括:
步骤3-1)将步骤2-1)至2-6)的数据类别符号c重新设为d′,且d′={0,1},即以源域和目标域作为两种图像类别样本,d′=0表示为源域的域类别标签,d′=1表示为目标域的域类别标签;
则根据已有步骤得到S={S0,S1},表示源域和目标域对应的域级别语义表征向量集合,D={D0,D1},表示源域和目标域对应语义表征向量方向的集合;
区分图像类别c和域类别d′,设置域判别器Gd对域类别d′进行预测,则跨域表征的可解释性语义获取表达形式如下:
其中,Δd[x,s,d]表示训练样本x经过语义表征s及其方向d的变换后的域类别分类差异;Xd′表示源域或目标域所有样本的集合,Δd[Xd′,s,d]表示源域或目标域所有样本对应p种语义表征及其方向的集合;/>表示源域或目标域所有样本在p种语义表征上的域类别分类差异均值集合,集合的元素如/>表示源域或目标域所有样本在第p种语义表征上的域类别分类差异均值;sdmax,ddmax分别表示在域类别分类差异最大化,即/>值最大的情况下的域级别语义表征及其方向;Xd-explained表示基于域类别可解释性语义表征的图像样本特征集合;
步骤3-2)移除域类别可解释性语义表征,即模糊跨域语义表征,对于图像样本特征集合X,模糊X的跨域语义表征的表达形式如下:
X=X\Xd-explained(17)。
5.根据权利要求4所述的基于语义表征的无监督域适应图像分类方法,其特征在于,步骤4)中,使用生成器分别对有效类别语义表征和模糊后的跨域语义表征进行样本重构,生成新样本表征,并计算重构损失,其表达形式如下:
其中,和/>分别表示作用于有效类别语义表征和模糊后的跨域语义表征的生成器,对应模型参数表示为/>和/>E表示编码器,对应模型参数表示为θE;/>Lrec分别表示基于/>和/>得到的重构损失以及整体重构损失。
6.根据权利要求5所述的基于语义表征的无监督域适应图像分类方法,其特征在于,步骤5)中,使用新样本表征,即Hc-explained和X\Xd-explained,计算分类损失和对抗损失,并更新相应模型参数,其分类损失表达形式如下:
其中,Gy表示分类器,对应模型参数θy,XS,YS分别表示源域样本和标签集合,其中元素表示为(x,y),ns表示源域样本个数,lce表示交叉熵损失函数,X与Xc-explained表示经过有效类别语义表示提取前后图像样本特征集合,Lcls为分类损失表达形式;对抗损失表达形式如下:
其中,Gd表示域判别器,对应模型参数θd,nt,XT分别表示目标域图像样本个数和对应特征表示,Ladv为对抗损失表达形式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310480760.6A CN116486172A (zh) | 2023-04-28 | 2023-04-28 | 基于语义表征的无监督域适应图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310480760.6A CN116486172A (zh) | 2023-04-28 | 2023-04-28 | 基于语义表征的无监督域适应图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486172A true CN116486172A (zh) | 2023-07-25 |
Family
ID=87213599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310480760.6A Pending CN116486172A (zh) | 2023-04-28 | 2023-04-28 | 基于语义表征的无监督域适应图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486172A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824305A (zh) * | 2023-08-09 | 2023-09-29 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及系统 |
CN117273014A (zh) * | 2023-11-21 | 2023-12-22 | 永中软件股份有限公司 | 基于迁移学习的跨领域语义解析方法 |
-
2023
- 2023-04-28 CN CN202310480760.6A patent/CN116486172A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824305A (zh) * | 2023-08-09 | 2023-09-29 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及系统 |
CN116824305B (zh) * | 2023-08-09 | 2024-06-04 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及系统 |
CN117273014A (zh) * | 2023-11-21 | 2023-12-22 | 永中软件股份有限公司 | 基于迁移学习的跨领域语义解析方法 |
CN117273014B (zh) * | 2023-11-21 | 2024-02-09 | 永中软件股份有限公司 | 基于迁移学习的跨领域语义解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN111814584B (zh) | 基于多中心度量损失的多视角环境下车辆重识别方法 | |
Chen et al. | Once for all: a two-flow convolutional neural network for visual tracking | |
CN116486172A (zh) | 基于语义表征的无监督域适应图像分类方法 | |
CN113807420A (zh) | 一种考虑类别语义匹配的域自适应目标检测方法及系统 | |
CN108710896B (zh) | 基于产生式对抗学习网络的领域学习方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN110458022B (zh) | 一种基于域适应的可自主学习目标检测方法 | |
CN108345866B (zh) | 一种基于深度特征学习的行人再识别方法 | |
CN113706547B (zh) | 一种基于类别同异性引导的无监督域适应语义分割方法 | |
CN115100709B (zh) | 一种特征分离的图像人脸识别与年龄估计方法 | |
CN112488229A (zh) | 一种基于特征分离和对齐的域自适应无监督目标检测方法 | |
CN108520215A (zh) | 基于多尺度联合特征编码器的单样本人脸识别方法 | |
CN112085765A (zh) | 结合粒子滤波及度量学习的视频目标跟踪方法 | |
Gong et al. | Cross-domain scene classification by integrating multiple incomplete sources | |
Zhang et al. | Joint distribution alignment via adversarial learning for domain adaptive object detection | |
CN113222072A (zh) | 基于K-means聚类和GAN的肺部X光图像分类方法 | |
CN114972904A (zh) | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 | |
Najibi et al. | Towards the success rate of one: Real-time unconstrained salient object detection | |
CN117854104A (zh) | 一种基于特征对齐的无监督行人重识别方法 | |
Xiang et al. | Transformer-based person search model with symmetric online instance matching | |
CN112750128A (zh) | 图像语义分割方法、装置、终端及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |