CN116883751A - 基于原型网络对比学习的无监督领域自适应图像识别方法 - Google Patents
基于原型网络对比学习的无监督领域自适应图像识别方法 Download PDFInfo
- Publication number
- CN116883751A CN116883751A CN202310880867.XA CN202310880867A CN116883751A CN 116883751 A CN116883751 A CN 116883751A CN 202310880867 A CN202310880867 A CN 202310880867A CN 116883751 A CN116883751 A CN 116883751A
- Authority
- CN
- China
- Prior art keywords
- domain
- image
- prototype
- node
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000002776 aggregation Effects 0.000 claims description 23
- 238000004220 aggregation Methods 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 8
- 238000005096 rolling process Methods 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 abstract 1
- 238000005457 optimization Methods 0.000 abstract 1
- 238000013508 migration Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 3
- 241000282320 Panthera leo Species 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于原型网络对比学习的无监督领域自适应图像识别方法,其步骤包括:1、定义具有c个类别的领域自适应图像数据集;2、构建基于原型网络的对比学习领域自适应网络模型;3、使用领域偏置原型建模策略和原型级别对比学习策略训练构建的网络模型;4、构建整体损失函数优化模型权重参数,得到最优的目标域图像分类模型。本发明通过探索领域间图像特征的语义结构来构建领域偏置原型,然后自适应的对齐原型以减少领域间差异,从而能实现目标域图像类别的精准识别。
Description
技术领域
本发明属于计算机视觉迁移学习域适应图像分类领域,具体的说是一种基于原型网络对比学习的无监督领域自适应图像识别方法。
背景技术
近年来,随着深度卷积神经网络(CNN)的发展,许多基于丰富标记数据的计算机视觉模型取得了优异的性能。然而,这些模型的性能往往受到不同数据集之间分布差异的影响。例如,素描图通常缺乏详细的色彩信息,而真实世界的照片展示了丰富的色彩。由于域偏差,在素描图图上训练的网络在真实照片上表现不佳。减轻域偏差问题的一种有效方法是获取新领域的大量标注数据。然而,由于成本高,这种方法往往是不切实际的。因此,在训练阶段减少域差异是非常重要的。近年来,无监督域适应(UDA)成为解决域间隙问题的主流方法,其目的是将已标记的源域知识转移到未标记的目标域。
在无监督域适应中,源域中的标记图像和目标域中的未标记图像被用于训练模型。通过学习源域和目标域之间的共享表示,模型可以在目标域上进行良好的预测。这通常涉及到设计适应性损失函数,以最小化源域和目标域之间的差异。
然而,在领域差异过大的情况下,由于领域间分布结构的崩溃,对齐特征变得具有挑战性。这是因为以前的一些方法忽略了特征之间的语义关系,导致模型不够理想,从而产生负迁移,使模型无法分辨目标域图像所属类别。另外,当领域中出现特征相似的类别时,模型将难以对此进行分辨,例如,与“狮子”相比,“老虎”明显比“钥匙”表现出更高的相似性。因此,模型更有可能将“狮子”误分类为“老虎”而不是“钥匙”。特征相似的两种类别可以被认作“困难对”,反之为“容易对”,目前,绝大多数领域自适应方法对“困难对”和“容易对”没有较为恰当的处理。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于原型网络对比学习的无监督领域自适应图像识别方法,以期能通过图像特征的语义信息来构建跨领域类别原型来表达领域语义结构,在减小领域间差异时在原型基础上处理“困难对”,从而能提高目标域图像分类的准确率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于原型网络对比学习的无监督领域自适应图像识别方法的特点在于,包括下列步骤:
步骤1:定义领域自适应图像数据集为D={Ds,Dt},Ds表示含有类别标签的源域图像集,Dt表示不含类别标签的目标域图像集,其中,令xs表示源域图像集中任意一张有标签的源域图像,令ys表示xs的类别标签,ys∈{1,2,...,c};c表示类别总数;(xs,ys)∈Ds,令ns表示源域图像的总数;令xt表示无标签的目标域图像,xt∈Dt,令nt表示目标域图像的总数;且源域和目标域所属标签空间相同;
步骤2:构建基于原型的对比学习领域自适应网络模型,用于对目标域图像xt进行图像分类;
所述对比学习领域自适应网络模型包括:特征提取网络E,特定于任务的分类器C,图卷积亲和矩阵生成网络GA,图卷积节点聚合网络GN和图卷积分类器Gc;
所述对比学习领域自适应网络模型中的卷积层和全连接层均采用xavier初始化进行参数初始化;
步骤3:基于原型网络的对比学习领域自适应网络模型的训练策略包括:领域偏置原型建模策略和原型级别对比学习策略;
步骤3.1:领域偏置原型建模策略:
步骤3.1.1:所述源域图像xs和目标域图像xt输入所述特征提取网络E中进行处理,并相应得到源域特征fs和目标域特征ft;
将所述源域特征fs输入所述特定于任务的分类器C中进行处理,并得到源域图像xs的输出类别概率预测分布p(y′s|C(E(xs)));其中,y′s表示xs的预测类别标签;
利用式(1)建立所述特定于任务的分类器C的交叉熵损失函数Lce:
将所述目标域特征ft输入所述特定于任务的分类器C中进行处理,并得到目标域图像xt在第k类别上的归一化概率输出则目标域数据集Dt在第k类别上的平均归一化概率输出/>
利用式(2)建立目标域互信息损失LMI:
步骤3.1.2:从数据集D={Ds,Dt}中取一批数据B=(Bs,Bt),其中,Bs表示含有类别标签的一批源域图像,Bt表示不含类别标签的一批目标域图像;
构建B中所有图像的全连接图结构G=(V,A),其中,V表示节点集合,A表示亲和矩阵;
将目标域特征或源域特征作为V中任意一个节点的初始特征;
将第i个节点vi和第j个节点vj之间的节点对(vi,vj)输入所述图卷积亲和矩阵生成网络GA中进行处理,并得到节点对(vi,vj)之间的相似度得分并作为未归一化的亲和矩阵/>中第i行第j列的元素,其中,σ(·)为激活函数;
对进行归一化后,得到归一化后的相似度得分ai,j并作为A中第i行第j列的元素,从而得到归一化后的亲和矩阵/>D为/>的度矩阵,I是单位矩阵;
步骤3.1.3:基于标签信息,利用式(3)获得真实矩阵T中i行第j列的元素ti,j:
式(3)中,yi和yj为第i个节点vi和第j个节点vj所属图像的类别标签;其中,若第i个节点vi或第j个节点vj所属图像为Bs中的源域图像则yi或yj为源域图像/>真实的类别标签/>若第i个节点vi或第j个节点vj所属图像为Bt中的目标域图像/>则yi或yj为目标域图像/>输入自所述特定任务的分类器C后,得到的伪标签/> 表示所述特定于任务的分类器C预测目标域图像/>为第k类别的概率;
设置概率阈值τ,若则删除与/>所对应的目标域图像/>所属节点相连的边,使得亲和矩阵A中与/>所组合的节点对的相似度得分置零;
利用式(4)建立所述图卷积节点聚合网络GA的二元交叉熵损失Lbce:
步骤3.1.4:将V中所有节点输入所述图卷积节点聚合网络GN中,并使用式(5)对V中的节点特征进行更新:
式(5)中,fi表示第i个节点vi的初始特征,fj表示第j个节点vj的初始特征,表示第i个节点vi的聚合特征;
利用式(6)建立所述图卷积分类器Gc的交叉熵损失函数
式(6)中,表示源域图像/>所属节点的聚合特征;
步骤3.1.5:利用式(7)和式(8)分别计算第k类别的源域偏置原型和目标域偏置原型/>
式(7)和式(8)中,和/>分别表示Bs和Bt中类别为k的所有图像集合,/>表示目标域图像/>所属节点的聚合特征;
步骤3.1.6:利用式(9)和式(10)所示的采用指数平均移动策略来更新第k类别的全局偏置原型:
式(9)和式(10)中,←表示赋值,ρ表示平衡参数,和/>分别表示第I-1次迭代的第k类别的源域全局偏置原型和目标域全局偏置原型;/>和/>分别表示第I次迭代的第k类别的源域偏置原型和目标域偏置原型,当I=1时,令/>
步骤3.2:利用式(12)构建原型级别对比学习策略的损失函数LproNCE:
式(12)中,u表示类别标签为k的偏置原型,u+为u的唯一正样本,表示另一领域中与u类别均为k的唯一偏置原型,u-为负样本,表示两个领域中其他类别的一个偏置原型;N为所有偏置原型的集合,N-表示相对u的所有负样本的集合,w(·,·)为权重函数;φ(·,·)为距离度量函数;
步骤4:模型训练:
步骤4.1:利用式(13)构建整体损失函数Loverall:
式(13)中,λ1,λ2和λ3是三个权重参数,γ是随着迭代次数而增加的自适应参数;
步骤4.2:定义所述特征提取网络E参数为θe,特定于任务的分类器C参数为θc,图卷积亲矩阵生成网络GA,图卷积节点聚合网络GN和图卷积分类器Gc参数为θg,从而利用式(14)构建参数更新策略:
式(14)中,η表示学习率;
步骤4.3:基于领域自适应图像数据集为D={Ds,Dt},使用随机梯度下降的方式对所述对比学习领域自适应网络模型进行训练,并利用式(14)更新模型参数,直到整体损失函数Loverall收敛为止,从而得到最优对比学习领域自适应网络模型,用于实现对目标域图像的分类。
本发明所述的基于原型网络对比学习的无监督领域自适应图像识别方法的特点也在于,所述步骤2中的特征提取网络E基于ResNet-50结构,依次由一个输入卷积层、一个最大池化层、M个下采样卷积层、Q个残差卷积块、一个平均池化层构成;且每个卷积层后接入一个批量归一化层和ReLU激活函数;
所述特定于任务的分类器C是由H层全连接网络构成,且第一层全连接网络后接入一个批量归一化层和ReLU激活函数;
所述图卷积亲和矩阵生成网络GA和图卷积节点聚合网络GN均由卷积核为1×1的N层卷积层构成,且每个卷积层后接入一个批量归一化层和LeakyRuLe激活函数;
所述图卷积分类器Gc由一层卷积核为1×1的卷积层和一个批量归一化层组成。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述无监督领域自适应图像识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述无监督领域自适应图像识别方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明为了解决领域差距过大导致负迁移的问题,通过在图卷积网络中引入语义信息建模将不同领域图像特征聚合起来,生成领域偏置原型,该原型结合了不同领域相同类别的特征,其表示的中间领域差距小,因此更容易进行迁移,从而使模型能够从源域语义分布中学习到目标域的语义知识,提高了模型在目标域图像上的鉴别能力。
2、本发明引入了对比损失来增强语义判别性,使不同类别原型离得更远,相同类别原型靠得更近;通过给“困难对”和“容易对”自适应的设置权重,使模型具有区分“困难对”的能力,从而提高了模型对于目标域图像的分辨能力。
附图说明
图1为本发明方法的训练流程图;
图2为本发明整体模型图;
图3为本发明特征聚合示意图。
具体实施方式
本实施例中,如图1所示,一种基于原型网络对比学习的无监督领域自适应图像识别方法按如下步骤进行:
步骤1:定义领域自适应图像数据集为D={Ds,Dt},Ds表示含有类别标签的源域图像集,Dt表示不含类别标签的目标域图像集,其中,令xs表示源域图像集中任意一张有标签的源域图像,令ys表示xs的类别标签,ys∈{1,2,...,c};c表示类别总数;(xs,ys)∈Ds,令ns表示源域图像的总数;令xt表示无标签的目标域图像,xt∈Dt,令nt表示目标域图像的总数;且源域和目标域所属标签空间相同;本实施例中,将训练图像经过归一化处理的所有图像随机裁剪成像素大小为224×224,测试图像经过中心裁剪像素大小为224×224;
本实施例中,在五个公开的数据集上评估方法,分别为Office-31,OfficeHome,ImageCLEF-DA,VisDA-2017和DomainNet;
Office-31是一个常用的基准数据集,经常用于DA任务。它由总共4110张图片组成,分为31个不同的类别,并包含三个不同的领域:Amazon(A),DSLR(D)和Webcam(W);以其中一个领域作为源域另一领域作为目标域共有6种不同组合的迁移任务;
ImageCLEF-DA作为ImageCLEF-DA 2014领域适应挑战的基准数据集;它包括三个域:Caltech-256(C)、ImageNet ILSVRC 2012(I)和Pascal VOC 2012(P);每个域由12个类别组成,每个类别有50张图片;
Office-Home由分布在四个域的15500张图像组成,每个域包含65个不同的类别;这个数据集中的四个领域是艺术、剪贴画、产品和现实世界,总共有12个转移任务;
VisDA-2017是一个大规模的DA基准数据集,它包含了合成图像域和真实图像域;它共有12个类别;合成图像域包含152,409幅图像的巨大集合,而真实图像域包含55400张图像;评估时,以合成图像为源域,以真实图像为目标域,对模型进行训练;
DomainNet是DA中规模最大的数据集之一,包含345个类别和大约60万幅图像;DomainNet由6个具有显著差异的领域组成:Clipart(clp)、Infograph(inf)、Painting(pnt)、Quickdraw(qdr)、Real(rel)和Sketch(skt);由于涉及大量的域,这个数据集上共有30个迁移任务;
步骤2:如图2所示,构建基于原型的对比学习领域自适应网络模型,用于对目标域图像xt进行图像分类;
对比学习领域自适应网络模型包括:特征提取网络E,特定于任务的分类器C,图卷积亲和矩阵生成网络GA,图卷积节点聚合网络GN和图卷积分类器Gc;
特征提取网络E基于ResNet-50结构,依次由一个输入卷积层、一个最大池化层、M个下采样卷积层、Q个残差卷积块、一个平均池化层构成;且每个卷积层后接入一个批量归一化层和ReLU激活函数;特征提取网络E的输出特征维度为256,将图像输入特征提取网络E输出训练所使用的特征;
特定于任务的分类器C是由H层全连接网络构成,且第一层全连接网络后接入一个批量归一化层和ReLU激活函数;为了匹配分类任务,最后一层全连接层的输出维度特定于数据集类别总数;
图卷积亲和矩阵生成网络GA和图卷积节点聚合网络GN均由卷积核为1×1的N层卷积层构成(卷积核大小为1×1,步长为1;其中GA的输入通道为256,输出通道为1,GN的输入通道为512,输出通道为256),且每个卷积层后接入一个批量归一化层和LeakyRuLe激活函数;
图卷积分类器Gc由一层卷积核为1×1的卷积层(卷积核大小为1×1,步长为1;输入通道为256,输出通道特定于数据集类别总数;)和一个批量归一化层组成;
对比学习领域自适应网络模型中的卷积层和全连接层均采用xavier初始化进行参数初始化;
步骤3:如图2所示,基于原型网络的对比学习领域自适应网络模型的训练策略包括:领域偏置原型建模策略和原型级别对比学习策略;
步骤3.1:领域偏置原型建模策略:
步骤3.1.1:源域图像xs和目标域图像xt输入特征提取网络E中进行处理,并相应得到源域特征fs和目标域特征ft;源域和目标域的特征维度均为256;
将源域特征fs输入特定于任务的分类器C中进行处理,并得到源域图像xs的输出类别概率预测分布p(y′s|C(E(xs)));其中,y′s表示xs的预测类别标签;
利用式(1)建立特定于任务的分类器C的交叉熵损失函数Lce:
通过使用源域图像以及标签来训练分类器的判别能力,使其对目标域的语义特征也具有感知能力;
将目标域特征ft输入特定于任务的分类器C中进行处理,并得到目标域图像xt在第k类别上的归一化概率输出则目标域数据集Dt在第k类别上的平均归一化概率输出
利用式(2)建立目标域互信息损失LMI:
在信息论中,互信息衡量两个随机变量的相关性;实际上,目标特征和预测之间的强相关性将有利于语义增强,因为提取的特征将提供更多信息,并包含更重要的预测语义,忽略了琐碎的语义;因此,本方法对目标数据采用互信息最大化来学习更重要的预测语义信息;
步骤3.1.2:从数据集D={Ds,Dt}中取一批数据B=(Bs,Bt),其中,Bs表示含有类别标签的一批源域图像,Bt表示不含类别标签的一批目标域图像;训练过程取批量图像构建图,否则构建的图规模太大,无法训练;
构建B中所有图像的全连接图结构G=(V,A),其中,V表示节点集合,A表示亲和矩阵;
图G中任一节点与其他所有节点相连;
将源域特征或目标域特征作为V中任意一个节点的初始特征;
将第i个节点vi和第j个节点vj之间的节点对(vi,vj)输入图卷积亲和矩阵生成网络GA中进行处理,并得到节点对(vi,vj)之间的相似度得分并作为未归一化的亲和矩阵/>中第i行第j列的元素,其中,σ(·)为激活函数;节点vi和节点vj特征维度均为256,将两者计算绝对值后将特征维度变换为通道维度,输入GA后得到的1维通道的值为节点vi和节点vj之间未归一化相似度得分/>
对进行归一化后,得到归一化后的相似度得分ai,j并作为A中第i行第j列的元素,从而得到归一化后的亲和矩阵/>D为/>的度矩阵,I是单位矩阵;
步骤3.1.3:基于标签信息,利用式(3)获得真实矩阵T中i行第j列的元素ti,j:
式(3)中,yi和yj为第i个节点vi和第j个节点vj所属图像的类别标签;其中,若第i个节点vi或第j个节点vj所属图像为Bs中的源域图像则yi或yj为源域图像/>真实的类别标签若第i个节点vi或第j个节点vj所属图像为Bt中的目标域图像/>则yi或yj为目标域图像/>输入自特定任务的分类器C后,得到的伪标签/> 表示特定于任务的分类器C预测目标域图像/>为第k类别的概率;
设置概率阈值τ,若则删除与/>所对应的目标域图像/>所属节点相连的边,使得亲和矩阵A中与/>所组合的节点对的相似度得分置零;认为图像/>的伪标签置信度低,在图G中删除与其相连的边;
利用式(4)建立图卷积节点聚合网络GA的二元交叉熵损失Lbce:
通过二元交叉熵损失来约束网络,希望图卷积节点聚合网络GA输出的未归一化相似度得分更接近与真实矩阵T中所对应的元素ti,j;若ti,j=1,则表示节点vi和节点vj是相同类别,/>的值更接近1,反之,/>的值更接近0;由于ti,j是由标签信息构造,则归一化后的相似度得分ai,j能够表达节点vi和节点vj之间的语义关系;
步骤3.1.4:如图3所示,将V中所有节点输入图卷积节点聚合网络GN中,并使用式(5)对V中的节点特征进行更新:
式(5)中,fi表示第i个节点vi的初始特征,fj表示第j个节点vj的初始特征,表示第i个节点vi的聚合特征;
若相似度得分ai,j越高,则在第i个节点vi的聚合特征聚合了更多第j个节点vj的初始特征fj;根据相似度得分聚合图像特征,聚合特征描述了图像之间的语义关系;同时,特征聚合在源域和目标域之间交互进行,可以在不同领域之间传递语义特征信息,提高了目标域的泛化性;
利用式(6)建立图卷积分类器Gc的交叉熵损失函数
式(6)中,表示源域图像/>所属节点的聚合特征;
由于源域聚合特征同时聚合了相似的目标域图像特征,所以通过交叉熵损失训练图卷积分类器Gc可以提高其对目标域图像鉴别能力;
步骤3.1.5:利用式(7)和式(8)分别计算第k类别的源域偏置原型和目标域偏置原型/>
式(7)和式(8)中,和/>分别表示Bs和Bt中类别为k的所有图像集合,/>表示目标域图像/>所属节点的聚合特征;
由于和/>聚合了源域和目标域图像的特征,由其计算得到的源域偏置原型和目标域偏置原型/>包含了另一领域类别标签为k的图像特征,所以由源域偏置原型/>和目标域偏置原型/>表示的中间领域特征空间之间的差异比源域特征空间和目标域特征空间之间的差异小得多,中间领域特征空间更有利于特征迁移,使模型在目标域上的泛化性提高;
步骤3.1.6:利用式(9)和式(10)所示的采用指数平均移动策略来更新第k类别的全局偏置原型:
式(9)和式(10)中,←表示赋值,ρ表示平衡参数,和/>为分别表示第I-1次迭代的第k类别的源域全局偏置原型和目标域全局偏置原型;/>和/>分别表示第I次迭代的第k类别的源域偏置原型和目标域偏置原型,当I=1时,令/>其中,ρ设置为0.7;其中/>和/>为第I次迭代时的第k类别的源域全局偏置原型和目标域全局偏置原型;其表示的特征空间代表了源域和目标域整体数据集的分布,之后进行原型级别对比学习训练,使领域间的差异减小;
步骤3.2:对领域偏置原型建模后,领域差异得到了一定的缩小,迁移性得到了一定的保证,由于模型的下游任务为目标域图像的分类任务,希望模型学习到语义鉴别性,由于不同类别的原型代表了不同类别的特征分布,使相同类别的原型聚合,不同类别的原型远离可以很好的保持领域间的语义结构,使在源域数据集上学习到的语义信息很好的迁移到目标域数据集,提高了目标域图像的识别能力;利用式(12)构建原型级别对比学习策略的损失函数LproNCE:
式(12)中,u表示类别标签为k的偏置原型,u+为u的唯一正样本,表示另一领域中与u类别均为k的唯一偏置原型,u-为负样本,表示两个领域中其他类别的一个偏置原型;N为所有偏置原型的集合,N-表示相对u的所有负样本的集合,φ(·,·)为距离度量函数;w(·,·)为权重函数;其中,φ(·,·)为余弦距离,φ(·,·)越小表示其中两个元素越相似,在式(12)中,LproNCE的优化目标使分子中的φ(u,u-)值越大,使类别不同的原型u和u-离得更远;同时使分母中的φ(u,u+)值越小,使相同类别的原型u和u+离得更近;其中τ为温度系数,设置为0.02;其中w(·,·)为余弦相似度,当w(u,u-)越大,原型u和u-越相似,在LproNCE中的权重越大,使u和u-拉得更开;当w(u,u-)越小,原型u和u-越不相似,在LproNCE中的权重越小,使u和u-拉开的小一些;相似的类别原型对为“困难对”,反之为“容易对”,这就对“困难对”和“容易对”进行了恰当的处理;
步骤4:模型训练:
步骤4.1:利用式(13)构建整体损失函数Loverall;
式(13)中,λ1,λ2和λ3是三个权重参数,γ是随着迭代次数而增加的自适应参数;其中,λ1设置为0.3,λ2设置为0.1,λ3设置为1,α设置为10,p在训练过程中从0到1变化;
步骤4.2:定义特征提取网络E参数为θe,特定于任务的分类器C参数为θc,图卷积亲矩阵生成网络GA,图卷积节点聚合网络GN和图卷积分类器Gc参数为θg,从而利用式(14)构建参数更新策略:
式(14)中,η表示学习率;η初始值设置为0.01,在训练过程使用退火算法下降到0.001;
步骤4.3:基于领域自适应图像数据集为D={Ds,Dt},使用随机梯度下降的方式对对比学习领域自适应网络模型进行训练,并利用式(14)更新模型参数,直到整体损失函数Loverall收敛为止,从而得到最优对比学习领域自适应网络模型,用于实现对目标域图像的分类。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
Claims (4)
1.一种基于原型网络对比学习的无监督领域自适应图像识别方法,其特征在于,包括下列步骤:
步骤1:定义领域自适应图像数据集为D={Ds,Dt},Ds表示含有类别标签的源域图像集,Dt表示不含类别标签的目标域图像集,其中,令xs表示源域图像集中任意一张有标签的源域图像,令ys表示xs的类别标签,ys∈{1,2,...,c};c表示类别总数;(xs,ys)∈Ds,令ns表示源域图像的总数;令xt表示无标签的目标域图像,xt∈Dt,令nt表示目标域图像的总数;且源域和目标域所属标签空间相同;
步骤2:构建基于原型的对比学习领域自适应网络模型,用于对目标域图像xt进行图像分类;
所述对比学习领域自适应网络模型包括:特征提取网络E,特定于任务的分类器C,图卷积亲和矩阵生成网络GA,图卷积节点聚合网络GN和图卷积分类器Gc;
所述对比学习领域自适应网络模型中的卷积层和全连接层均采用xavier初始化进行参数初始化;
步骤3:基于原型网络的对比学习领域自适应网络模型的训练策略包括:领域偏置原型建模策略和原型级别对比学习策略;
步骤3.1:领域偏置原型建模策略:
步骤3.1.1:所述源域图像xs和目标域图像xt输入所述特征提取网络E中进行处理,并相应得到源域特征fs和目标域特征ft;
将所述源域特征fs输入所述特定于任务的分类器C中进行处理,并得到源域图像xs的输出类别概率预测分布p(y′s|C(E(xs)));其中,y′s表示xs的预测类别标签;
利用式(1)建立所述特定于任务的分类器C的交叉熵损失函数Lce:
将所述目标域特征ft输入所述特定于任务的分类器C中进行处理,并得到目标域图像xt在第k类别上的归一化概率输出则目标域数据集Dt在第k类别上的平均归一化概率输出
利用式(2)建立目标域互信息损失LMI:
步骤3.1.2:从数据集D={Ds,Dt}中取一批数据B=(Bs,Bt),其中,Bs表示含有类别标签的一批源域图像,Bt表示不含类别标签的一批目标域图像;
构建B中所有图像的全连接图结构G=(V,A),其中,V表示节点集合,A表示亲和矩阵;
将目标域特征或源域特征作为V中任意一个节点的初始特征;
将第i个节点vi和第j个节点vj之间的节点对(vi,vj)输入所述图卷积亲和矩阵生成网络GA中进行处理,并得到节点对(vi,vj)之间的相似度得分并作为未归一化的亲和矩阵/>和第i行第j列的元素,其中,σ(·)为激活函数;
对进行归一化后,得到归一化后的相似度得分ai,j并作为A中第i行第j列的元素,从而得到归一化后的亲和矩阵/>D为/>的度矩阵,I是单位矩阵;
步骤3.1.3:基于标签信息,利用式(3)获得真实矩阵T中i行第j列的元素ti,j:
式(3)中,yi和yj为第i个节点vi和第j个节点vj所属图像的类别标签;其中,若第i个节点vi或第j个节点vj所属图像为Bs中的源域图像则yi或yj为源域图像/>真实的类别标签/>若第i个节点vi或第j个节点vj所属图像为Bt中的目标域图像/>则yi或yj为目标域图像/>输入自所述特定任务的分类器C后,得到的伪标签/> 表示所述特定于任务的分类器C预测目标域图像/>为第k类别的概率;
设置概率阈值τ,若则删除与/>所对应的目标域图像所属节点相连的边,使得亲和矩阵A中与/>所组合的节点对的相似度得分置零;
利用式(4)建立所述图卷积节点聚合网络GA的二元交叉熵损失Lbce:
步骤3.1.4:将V中所有节点输入所述图卷积节点聚合网络GN中,并使用式(5)对j中的节点特征进行更新:
式(5)中,fi表示第i个节点vi的初始特征,fj表示第j个节点vj的初始特征,表示第i个节点vi的聚合特征;
利用式(6)建立所述图卷积分类器Gc的交叉熵损失函数
式(6)中,表示源域图像/>所属节点的聚合特征;
步骤3.1.5:利用式(7)和式(8)分别计算第k类别的源域偏置原型和目标域偏置原型/>
式(7)和式(8)中,和/>分别表示Bs和Bt中类别为k的所有图像集合,/>表示目标域图像/>所属节点的聚合特征;
步骤3.1.6:利用式(9)和式(10)所示的采用指数平均移动策略来更新第k类别的全局偏置原型:
式(9)和式(10)中,←表示赋值,ρ表示平衡参数,和/>分别表示第I-1次迭代的第k类别的源域全局偏置原型和目标域全局偏置原型;/>和/>分别表示第I次迭代的第k类别的源域偏置原型和目标域偏置原型,当I=1时,令/>
步骤3.2:利用式(12)构建原型级别对比学习策略的损失函数LproNCE:
式(12)中,u表示类别标签为k的偏置原型,u+为u的唯一正样本,表示另一领域中与u类别均为k的唯一偏置原型,u-为负样本,表示两个领域中其他类别的一个偏置原型;N为所有偏置原型的集合,N-表示相对u的所有负样本的集合,w(·,·)为权重函数;φ(·,·)为距离度量函数;
步骤4:模型训练:
步骤4.1:利用式(13)构建整体损失函数Loverall:
式(13)中,λ1,λ2和λ3是三个权重参数,γ是随着迭代次数而增加的自适应参数;
步骤4.2:定义所述特征提取网络E参数为θe,特定于任务的分类器C参数为θc,图卷积亲矩阵生成网络GA,图卷积节点聚合网络GN和图卷积分类器Gc参数为θg,从而利用式(14)构建参数更新策略:
式(14)中,η表示学习率;
步骤4.3:基于领域自适应图像数据集为D={Ds,Dt},使用随机梯度下降的方式对所述对比学习领域自适应网络模型进行训练,并利用式(14)更新模型参数,直到整体损失函数Loverall收敛为止,从而得到最优对比学习领域自适应网络模型,用于实现对目标域图像的分类。
2.根据权利要求1所述的基于原型网络对比学习的无监督领域自适应图像识别方法,其特征在于,所述步骤2中的特征提取网络E基于ResNet-50结构,依次由一个输入卷积层、一个最大池化层、M个下采样卷积层、Q个残差卷积块、一个平均池化层构成;且每个卷积层后接入一个批量归一化层和ReLU激活函数;
所述特定于任务的分类器C是由H层全连接网络构成,且第一层全连接网络后接入一个批量归一化层和ReLU激活函数;
所述图卷积亲和矩阵生成网络GA和图卷积节点聚合网络GN均由卷积核为1×1的N层卷积层构成,且每个卷积层后接入一个批量归一化层和LeakyRuLe激活函数;
所述图卷积分类器Gc由一层卷积核为1×1的卷积层和一个批量归一化层组成。
3.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1或2所述无监督领域自适应图像识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
4.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1或2所述无监督领域自适应图像识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310880867.XA CN116883751A (zh) | 2023-07-18 | 2023-07-18 | 基于原型网络对比学习的无监督领域自适应图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310880867.XA CN116883751A (zh) | 2023-07-18 | 2023-07-18 | 基于原型网络对比学习的无监督领域自适应图像识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116883751A true CN116883751A (zh) | 2023-10-13 |
Family
ID=88254549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310880867.XA Pending CN116883751A (zh) | 2023-07-18 | 2023-07-18 | 基于原型网络对比学习的无监督领域自适应图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883751A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408330A (zh) * | 2023-12-14 | 2024-01-16 | 合肥高维数据技术有限公司 | 面向非独立同分布数据的联邦知识蒸馏方法及装置 |
-
2023
- 2023-07-18 CN CN202310880867.XA patent/CN116883751A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408330A (zh) * | 2023-12-14 | 2024-01-16 | 合肥高维数据技术有限公司 | 面向非独立同分布数据的联邦知识蒸馏方法及装置 |
CN117408330B (zh) * | 2023-12-14 | 2024-03-15 | 合肥高维数据技术有限公司 | 面向非独立同分布数据的联邦知识蒸馏方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583263B (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN112597883B (zh) | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 | |
CN110717526B (zh) | 一种基于图卷积网络的无监督迁移学习方法 | |
US9400918B2 (en) | Compact face representation | |
CN110276406B (zh) | 表情分类方法、装置、计算机设备及存储介质 | |
CN113177132B (zh) | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 | |
CN114492574A (zh) | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 | |
CN111506773B (zh) | 一种基于无监督深度孪生网络的视频去重方法 | |
CN112381179B (zh) | 一种基于双层注意力机制的异质图分类方法 | |
CN112016601B (zh) | 基于知识图谱增强小样本视觉分类的网络模型构建方法 | |
WO2021227091A1 (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
CN110705591A (zh) | 一种基于最优子空间学习的异构迁移学习方法 | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
CN110110128B (zh) | 用于分布式架构的快速监督离散哈希图像检索系统 | |
CN109635647B (zh) | 一种基于约束条件下的多图片多人脸的聚类方法 | |
CN115658864A (zh) | 一种基于图神经网络和兴趣注意力网络的会话推荐方法 | |
CN112733602B (zh) | 关系引导的行人属性识别方法 | |
CN116883751A (zh) | 基于原型网络对比学习的无监督领域自适应图像识别方法 | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
CN111506832B (zh) | 一种基于块矩阵补全的异构对象补全方法 | |
CN111062406B (zh) | 一种面向异构领域适应的半监督最优传输方法 | |
CN109389127B (zh) | 结构化多视图Hessian正则化稀疏特征选择方法 | |
CN113537389B (zh) | 基于模型嵌入的鲁棒图像分类方法和装置 | |
CN115019342A (zh) | 一种基于类关系推理的濒危动物目标检测方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |