CN116109898A - 基于双向对抗训练与关系度量约束的广义零样本学习方法 - Google Patents
基于双向对抗训练与关系度量约束的广义零样本学习方法 Download PDFInfo
- Publication number
- CN116109898A CN116109898A CN202211579458.8A CN202211579458A CN116109898A CN 116109898 A CN116109898 A CN 116109898A CN 202211579458 A CN202211579458 A CN 202211579458A CN 116109898 A CN116109898 A CN 116109898A
- Authority
- CN
- China
- Prior art keywords
- visual
- attribute
- training
- semantic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000005259 measurement Methods 0.000 title claims abstract description 38
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 17
- 230000000007 visual effect Effects 0.000 claims abstract description 137
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 29
- 238000013508 migration Methods 0.000 claims description 9
- 230000005012 migration Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 238000009412 basement excavation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 4
- 238000006116 polymerization reaction Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 claims description 3
- 101100001674 Emericella variicolor andI gene Proteins 0.000 claims description 3
- 101100370075 Mus musculus Top1 gene Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 abstract description 2
- 230000037430 deletion Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
基于双向对抗训练与关系度量约束的广义零样本学习方法,涉及图像处理领域。1)建立零样本学习的数据集;2)使用预训练好的神经网络提取可见类图像的视觉特征,并对视觉特征进行预处理;3)使用步骤2)提取的视觉特征通过双向对抗训练特征生成网络和属性生成网络,属性生成网络的训练过程同时加入关系度量约束;4)使用特征生成网络来合成不可见类的视觉特征,将可见类和不可见类的视觉特征通过属性生成网络进行微调,使用微调后视觉特征通过交叉熵损失训练分类器。对视觉特征进一步的微调使得视觉特征与语义属性之间由更紧密的联系。基于类间关系的度量学习方式,有效提升特征可判别性的同时提升模型在不可见类缺失情况下的泛化性。
Description
技术领域
本发明涉及图像处理领域,尤其是涉及可用于目标识别,未知类别物体识别,未知类别的图像检索等的一种基于双向对抗训练与关系度量约束的广义零样本学习方法。
背景技术
零样本学习因为其应用前景以及研究价值,近年来受到广泛的关注,并涌现出了许多优秀的算法。这些算法大致可以分为两大类:基于语义属性嵌入的零样本学习方法、基于特征生成的零样本学习方法。相比基于语义嵌入的零样本学习方法,基于特征生成的零样本学习方法受到的关注度较高。它首先训练以类别的语义属性为条件的视觉特征生成器,然后利用不可见类的语义属性来合成视觉特征,以此弥补训练阶段不可见类样本的缺失,最后,利用已知的可见类视觉特征和合成的不可见类视觉特征来训练分类器。这类方法仅使用了语义属性来合成视觉特征这一单向的对抗训练,这使得语义属性与视觉特征之间的联系非常有限,而零样本学习以语义属性作为可见类与不可见类之间视觉知识迁移的桥梁,所以现有生成类方法并没有有效缓解零样本学习中的强偏问题。此外,现有方法忽略了不同类别之间关系的挖掘,这严重制约了模型的泛化能力,尤其是在训练阶段缺失不可见类的零样本学习设定下。
语义属性是零样本学习中知识迁移的重要线索,每个类别都有其对应的语义属性,语义属性作为对类别的描述以向量的形式存在,一般由人工标记获得,每个维度都代表相应的属性信息,比如,特定的颜色、形状等。语义属性不仅包含了对图像的描述信息还包含了大量的跨类别信息。
度量学习是当前深度学习中增强实例类内聚合度和类间区分度一种常用手段,通常通过与正负样本之间的对比来实现,通过一种度量标准(一般为欧式距离),将同一类别的实例空间距离拉近,不同类别实例之间的距离拉远。
发明内容
本发明的目的在于提供对未知类别的目标识别,在增强视觉特征与语义属性直接按的联系同时,增强不同类别视觉特征之间的类内聚合度和类间区分度,得到强判别性特征的一种基于双向对抗训练与关系度量约束的广义零样本学习方法。可用于目标识别,未知类别物体识别,未知类别的图像检索等。
本发明包括以下步骤:
1)建立数据集:建立零样本学习的数据集,针对每个类别,零样本学习引入语义属性作为线索;
2)视觉特征提取:使用预训练好的神经网络提取可见类图像的原始视觉特征;
3)双向对抗训练与关系度量约束:使用步骤2)提取的原始视觉特征通过双向对抗训练特征生成网络和属性生成网络,属性生成网络的训练过程同时加入关系度量约束;
4)训练分类器:使用特征生成网络来合成不可见类的视觉特征,将可见类和不可见类的视觉特征通过属性生成网络进行微调,使用微调后视觉特征通过交叉熵损失来训练分类器。
在步骤1)中,所述零样本学习的数据集为N代表数据集的样本数量,xi表示由预训练的骨干神经网络提取的图像的视觉特征,yi表示其对应的类别标签,代表可见类的类别集合;针对每个类别,零样本学习引入语义属性作为线索,其中表示不可见类的类别集合,且
在步骤2)中,所述视觉特征提取的具体步骤可为:将所有骨干网络提取好的视觉特征进行预处理,对数据集进行采样,每个批次中取N1个类别,每个类别选取N2种不同样本以及其对对应的语义属性a作为网络的输入;
在步骤3)中,所述双向对抗训练特征生成网络和属性生成网络的具体步骤可为:
(1)将语义属性a和一个随机采样的高斯噪音∈组合输入特征生成器GF中,特征生成器根据语义属性a和高斯噪音∈合成一个伪造的视觉特征将伪造的视觉特征和真实的视觉特征x分别与语义属性a组合后输入特征判别器DF中,特征判别器学习判别(x,a)和的真假并通过对抗损失迭代交叉完成训练;对于伪造的视觉特征,计算同一个批次中伪造视觉特征之间的余弦相似度矩阵,计算其对应语义属性之间的相似度矩阵,使用图正则化损失约束两个相似度矩阵;
(2)将骨干神经网络提取的原始视觉特征x输入编码器E得到微调后的视觉特征h,将微调后的视觉特征h输入属性生成器GA中合成伪造的语义属性通过类别间的语义属性相似度设计软标签将伪造的语义属性和真实的语义属性a分别与软标签组合后输入属性判别器DA,属性判别器学习判别和的真假并通过对抗损失与属性生成器迭代交叉完成训练;对于伪造的语义属性通过infoNCE损失进行约束,以保证其在属性空间的可判别性;
进一步的,所述属性生成网络的训练,具体步骤可为:
对于可见类图像,经过视觉特征提取后得到对应的原始视觉特征x;对原始视觉特征x通过编码器E进行微调得到微调后的视觉特征h:h=E(x);以微调后的视觉特征h为条件输入到属性生成器GA中来合成伪造的属性微调后的视觉特征h对应的真实语义属性a和伪造的语义属性分别与h对应的软标签组合后输入属性判别器DA中,属性判别器DA学习区分真实的成对数据和伪造的成对数据并与属性生成器交叉对抗完成训练,对抗损失函数如下:
所述属性生成网络的训练过程同时加入关系度量约束,是在属性生成网络训练过程中设计一种基于关系的度量学习来约束微调后的视觉特征h,随机抽样微调后的视觉特征h的正样本h+和负样本h-通过可学习度量函数F预测h与h+以及h与h-之间的相似度概率,然后以样本对应的语义属性之间的余弦相似度作为ground truth通过交叉熵损失训练整个过程;通过挖掘语义属性之间的相似度,视觉特征受到类别之间关系的约束,从而使模型的泛化性得到提升;具体步骤包括:
(1)为了保证微调特征实例间的可判别性,提出基于关系的度量学习对其进行约束,考虑不同类别之间的关系并以语义属性之间的相似度作为视觉特征实例间的度量标准,通过类别间关系的挖掘提升模型的泛化性能,从而有利于可见类到不可见类的知识迁移;具体地,
首先通过一个可学习的度量函数F预测两个视觉特征hi与hj之间的相似度概率,度量函数的实现如下:
其中,wF是2048×1的全连接层,2048是h的维度,表示按元素乘法,σ表示sigmoid激活函数;通过度量函数后,两个视觉特征hi与hj之间的相似度以概率的形式表示;计算两个视觉特征对应语义属性的余弦相似度作为关系度量学习的标准并通过二值交叉熵计算,关系度量损失函数如下:
其中,cos()表示余弦相似度,ai,aj分别是hi,hj所对应的语义属性。
(2)在每个批次的训练过程中,为了使训练更加充分,对微调后的视觉特征h的每个样本分别随机采样其正样本h+和负样本h-,分别对(h,h+)和(h,h-)计算关系度量损失,最终的损失函数如下:
通过关系度量损失,视觉特征实例间类内聚合度和类间区分度将得到明显提升,同时对类别之间关系的挖掘能极大提升模型的泛化能力。
在步骤4)中,所述训练分类器的具体步骤可为:
(1)第二阶段训练迭代T1次直至收敛后,特征生成网络和属性生成网络都得到有效的训练,使用随机采样的高斯噪音和不可见类的语义属性为条件通过特征生成网络合成不可见类的视觉特征,同时对于已经存在的可见类视觉特征和合成的不可见类视觉特征,使用属性生成网络进行微调,微调过程可表示为h=E(x)。通过双向对抗训练以及关系度量的约束,极大提升视觉特征与语义属性之间的联系,从而有利于以语义属性为桥梁的视觉知识迁移过程;
(2)在获得可见类与不可见类微调过的视觉特征后,利用这些特征通过交叉熵损失来训练一个全连接分类器,经过T2次训练迭代训练直至收敛后,训练好的分类器C便同时具备对可见类和不可见类的识别能力;
(3)测试阶段,使用训练好的分类器C分别对可见类与不可见类实例进行预测并计算其Top-1的识别精度,分别记为S和U,并计算S和U的调和平均数,记为H。
本发明具有以下突出优点:
1、本发明提出双向对抗训练的方法。考虑到传统生成式方法的不足,在原先的特征生成网络的基础上加入属性生成网络,对视觉特征进一步的微调使得视觉特征与语义属性之间由更紧密的联系。属性生成网络首先对现有的视觉特征进行微调,然后以微调后的特征作为为条件输入到属性生成器中来合成语义属性,整个过程也通过对抗训练完成。属性到特征和特征到属性的双向对抗训练大大加强视觉特征和语义属性之间的联系。
2、本发明提出一种全新的基于类间关系的度量学习方式,以类别间语义属性的相似度来指导视觉特征的度量学习,使用的基于关系的度量约束,在完成实例间度量的同时,充分挖掘不同类别之间的关系,在有效提升特征可判别性的同时大大提升模型在不可见类缺失情况下的泛化性。
附图说明
图1是本发明的基于双向对抗训练与关系度量学习框架。
图2是本发明的关系度量学习说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,以下对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本发明包括以下步骤:
(1)零样本学习的数据集为N代表数据集的样本数量,xi表示由预训练的骨干神经网络提取的图像的视觉特征,yi表示其对应的类别标签,代表可见类的类别集合。针对每个类别,零样本学习引入了语义属性作为线索,其中表示不可见类的类别集合,且
(2)第一阶段,将所有骨干网络提取好的视觉特征进行预处理,对数据集进行采样,每个批次中取N1个类别,每个类别选取N2种不同样本以及其对对应的语义属性作为网络的输入;
(3)第二阶段,首先将语义属性a和一个随机采样的高斯噪音∈组合输入到特征生成器(GF)中,特征生成器根据语义属性和高斯噪音合成一个伪造的视觉特征然后将伪造的视觉特征和真实的视觉特征x分别与语义属性a组合后输入到特征判别器(DF)中,特征判别器学习判别(x,a)和的真假并通过对抗损失迭代交叉完成训练。对于伪造的视觉特征,计算同一个批次中伪造视觉特征之间的余弦相似度矩阵,然后计算其对应语义属性之间的相似度矩阵,使用图正则化损失约束两个相似度矩阵;
(4)将骨干神经网络提取的视觉特征x输入到编码器(E)得到微调后的特征h,将h输入到属性生成器(GA)中来合成伪造的语义属性此外,为了让模型更好的学习跨类别知识以便于知识的迁移,通过类别间的语义属性相似度设计了软标签将伪造的语义属性和真实的语义属性a分别与软标签组合后输入到属性判别器(DA)中,属性判别器学习判别和的真假并通过对抗损失与属性生成器迭代交叉完成训练。同时对于伪造的语义属性通过infoNCE损失进行约束,以保证其在属性空间的可判别性;
(4.1)对于可见类图像,经过要求1中的步骤(2)之后得到对应的特征x,x表示经过预处理后的图像视觉特征。首先对视觉特征x通过编码器E进行微调得到微调后的特征h:h=E(x)。然后以微调后的视觉特征h为条件输入到属性生成器(GA)中来合成伪造的属性h对应的真实语义属性a和伪造的语义属性分别与h对应的软标签组合后输入到属性判别器(DA)中,属性判别器学习区分真实的成对数据和伪造的成对数据并与属性生成器交叉对抗完成训练,对抗损失函数如下:
(5)根据度量学习的核心思想,在属性生成网络训练过程中设计了一种基于关系的度量学习来约束微调后的特征h。随机抽样h的正样本h+和负样本h-通过可学习度量函数(F)来预测h与h+以及h与h-之间的相似度概率,然后以样本对应的语义属性之间的余弦相似度作为ground truth通过交叉熵损失来训练整个过程。通过挖掘语义属性之间的相似度,视觉特征会受到类别之间关系的约束,从而使模型的泛化性得到提升。
(5.1)为了保证微调特征实例间的可判别性,提出关系度量学习对其进行约束。不同于传统度量学习在特征空间中单纯的将类内实例距离拉近、类间实例距离拉远,提出的关系度量学习充分地考虑不同类别之间的关系并以语义属性之间的相似度作为视觉特征实例间的度量标准,通过类别间关系的挖掘能大大提升模型的泛化性能,从而有利于可见类到不可见类的知识迁移。具体地,首先通过一个可学习的度量函数(F)来预测两个视觉特征hi与hj之间的相似度概率,度量函数的实现如下:
其中,wF是2048×1的全连接层,2048是h的维度,表示按元素乘法,σ表示sigmoid激活函数;通过度量函数后,两个视觉特征之间的相似度以概率的形式表示;同时,计算两个视觉特征对应语义属性的余弦相似度作为关系度量学习的标准并通过二值交叉熵计算,关系度量损失函数如下:
cod()表示余弦相似度,ai,aj分别是hi,hj所对应的语义属性。
(5.2)在每个批次的训练过程中,为使训练更加充分,对每个样本h分别随机采样其正样本h+和负样本h-,分别对(h,h+)和(h,h-)计算关系度量损失,最终的损失函数如下:
通过关系度量损失,视觉特征实例间类内聚合度和类间区分度将得到明显提升,同时对类别之间关系的挖掘能极大提升模型的泛化能力。
(6)第二阶段训练迭代T1次直至收敛后,特征生成网络和属性生成网络都得到有效的训练,使用随机采样的高斯噪音和不可见类的语义属性为条件通过特征生成网络合成不可见类的视觉特征,同时对于已经存在的可见类视觉特征和合成的不可见类视觉特征,使用属性生成网络进行微调,微调过程可表示为h=E(x)。通过双向对抗训练以及关系度量的约束,极大提升视觉特征与语义属性之间的联系,从而有利于以语义属性为桥梁的视觉知识迁移过程;
(7)在获得可见类与不可见类微调过的视觉特征后,利用这些特征通过交叉熵损失来训练一个全连接分类器,经过T2次训练迭代训练直至收敛后,训练好的分类器C便同时具备对可见类和不可见类的识别能力;
(8)测试阶段,使用步骤(7)中训练好的分类器C分别对可见类与不可见类实例进行预测并计算其Top-1的识别精度,分别记为S和U,并计算S和U的调和平均数,记为H;
参照图1,本发明的框架为:
步骤1,获取视觉图像的视觉特征及采样。
本发明的训练样本为视觉特征,首先将训练用的可见类视觉图像通过在ImageNet上预训练好的骨干网络提取成视觉特征,骨干网络参数固定全程不参与训练,且没有梯度传播。
对视觉特征进行归一化预处理,然后进行采样,每个批次随机采样N1个类别,每个类别采样N2个样本。对视觉特征采样的同时也对对应的语义属性进行采样,同时计算每个样本的软标签。每个批次包含N1×N2个视觉特征及其对应的语义属性和软标签。
步骤2,训练特征生成网络。
(2a)将语义属性与一个随机采样的高斯噪音组合后输入到特征生成器(GF)中,得到伪造的视觉特征,将伪造的视觉特征和对应语义属性组合作为负样本,将真实视觉特征和对应语义属性组合作为正样本,将正负样本输入特征判别器(DF)训练判别器,迭代Ti次之后,将特征判别器参数冻结;
(2b)重复步骤(2a)中的操作得到伪造的视觉特征,将伪造的视觉特征和对应语义属性组合作为正样本,输入到特征判别器(DF),然后通过判别器反馈的判别损失训练特征生成器(GF)。同时,求同批次中伪造的视觉特征的余弦相似度矩阵和对应语义属性的余弦相似度矩阵,两个相似度矩阵使用图正则化损失进行约束来训练特征生成器(GF)。训练结束后将特征判别器参数解开冻结。
步骤3,训练属性生成网络。
(3a)将视觉特征通过编码器(E)进行微调,将微调后的特征输入到属性生成器(GA)中,得到伪造的语义属性,将伪造的语义属与对应软标签组作为负样本,将真实的语义属性和对应软标签组合作为正样本,将正负样本输入到属性判别器(DA)训练判别器,迭代Ti次之后,将属性判别器参数冻结;
(3b)重复(3a)中的操作得到伪造的语义属性,将伪的语义属性和对应的软标组合作为正样本,输入到属性判别器(DA),然后通过判别器反馈的判别损失训练属性生成器(GA)。同时,通过infoNCE损失约束伪造的语义属性来训练属性生成器(GA);
(3c)参照图2,使用可学习度量函数(F)计算微调特征与其正负样本之间的相似度概率,同时计算对应语义属性之间的余弦相似度,使用交叉熵损失拉近两者的距离,以此来训练度量函数(F)和编码器(E)。
实验结果以及结果分析:
实验一,用本发明在Animals with Attributes(AWA)数据集上进行零样本目标识别。
为了验证算法的有效性,在AWA的测试集上,进行消融实验,表1为实验结果。其中,‘BAT’表示双向对抗训练,‘RM’表示关系度量学习,‘√’和‘×’表示分别表示使用和不使用对应项方法,‘U’,‘S’和‘H’分别表示可见类和不可见类的平均识别精度以及两者的调和平均数。实验结果表明,本发明所提出的两种方法分别对零样本别任务,都有较大程度的性能提升,验证了双向对抗训练和关系度量学习的有效性。
实验二,用本发明在Oxford Flowers(FLO)数据集上进行零样本目标识别。
为了验证算法的有效性,在FLO的数据集上对可见类和不可见类进行识别测试。表2为实验结果,从结果可以发现,本发明提出的基于双向对抗训练与关系度量约束的广义零样本学习方法在FLO数据集上同样获得卓越的性能提升。
表1
Index | BAT | RM | U | S | H |
1 | × | × | 57.3 | 68.9 | 62.6 |
2 | √ | × | 62.1 | 79.0 | 69.5 |
3 | × | √ | 63.8 | 77.7 | 70.1 |
4 | √ | √ | 64.8 | 82.6 | 72.6 |
表2
U | S | H |
69.1 | 84.0 | 75.8 |
结合实验一和实验二,本发明在现有的两个零样本学习基准数据集上都有显著的性能优势,超越当前学术领域的最高水平,验证本发明提出的双向对抗训练和关系度量学习方法的有效性。
Claims (9)
1.基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于包括以下步骤:
1)建立数据集:建立零样本学习的数据集,针对每个类别,零样本学习引入语义属性作为线索;
2)视觉特征提取:使用预训练好的神经网络提取可见类图像的视觉特征,并对视觉特征进行预处理;
3)双向对抗训练与关系度量约束:使用步骤2)提取的视觉特征通过双向对抗训练特征生成网络和属性生成网络,属性生成网络的训练过程同时加入关系度量约束;
4)训练分类器:使用特征生成网络来合成不可见类的视觉特征,将可见类和不可见类的视觉特征通过属性生成网络进行微调,使用微调后视觉特征通过交叉熵损失来训练分类器。
3.如权利要求1所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于在步骤2)中,所述视觉特征提取的具体步骤为:将所有骨干网络提取好的视觉特征进行预处理,对数据集进行采样,每个批次中取N1个类别,每个类别选取N2种不同样本以及其对对应的语义属性a作为网络的输入。
4.如权利要求1所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于在步骤3)中,所述双向对抗训练特征生成网络和属性生成网络的具体步骤为:
(1)将语义属性a和一个随机采样的高斯噪音∈组合输入特征生成器GF中,特征生成器根据语义属性a和高斯噪音∈合成一个伪造的视觉特征将伪造的视觉特征和真实的视觉特征x分别与语义属性a组合后输入特征判别器DF中,特征判别器学习判别(x,a)和的真假并通过对抗损失迭代交叉完成训练;对于伪造的视觉特征,计算同一个批次中伪造视觉特征之间的余弦相似度矩阵,计算其对应语义属性之间的相似度矩阵,使用图正则化损失约束两个相似度矩阵;
8.如权利要求1所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于在步骤3)中,所述属性生成网络的训练过程同时加入关系度量约束,是在属性生成网络训练过程中设计一种基于关系的度量学习来约束微调后的视觉特征h,随机抽样微调后的视觉特征h的正样本h6和负样本h-通过可学习度量函数F预测h与h+以及h与h-之间的相似度概率,然后以样本对应的语义属性之间的余弦相似度作为ground truth通过交叉熵损失训练整个过程;通过挖掘语义属性之间的相似度,视觉特征受到类别之间关系的约束,从而使模型的泛化性得到提升;具体步骤包括:
(1)为了保证微调特征实例间的可判别性,提出基于关系的度量学习对其进行约束,考虑不同类别之间的关系并以语义属性之间的相似度作为视觉特征实例间的度量标准,通过类别间关系的挖掘提升模型的泛化性能,从而有利于可见类到不可见类的知识迁移;具体地,首先通过一个可学习的度量函数F预测两个视觉特征hi与hj之间的相似度概率,度量函数的实现如下:
其中,wF是2048×1的全连接层,2048是h的维度,表示按元素乘法,σ表示sigmoid激活函数;通过度量函数后,两个视觉特征hi与hj之间的相似度以概率的形式表示;计算两个视觉特征对应语义属性的余弦相似度作为关系度量学习的标准并通过二值交叉熵计算,关系度量损失函数如下:
其中,cos()表示余弦相似度,ai,aj分别是hi,hj所对应的语义属性;
(2)在每个批次的训练过程中,为了使训练更加充分,对微调后的视觉特征h的每个样本分别随机采样其正样本h+和负样本h-,分别对(h,h+)和(h,h-)计算关系度量损失,最终的损失函数如下:
通过关系度量损失,视觉特征实例间类内聚合度和类间区分度将得到明显提升,同时对类别之间关系的挖掘能极大提升模型的泛化能力。
9.如权利要求1所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于在步骤4)中,所述训练分类器的具体步骤为:
(1)第二阶段训练迭代T1次直至收敛后,特征生成网络和属性生成网络都得到有效的训练,使用随机采样的高斯噪音和不可见类的语义属性为条件通过特征生成网络合成不可见类的视觉特征,同时对于已经存在的可见类视觉特征和合成的不可见类视觉特征,使用属性生成网络进行微调,微调过程可表示为h=E(x);通过双向对抗训练以及关系度量的约束,极大提升视觉特征与语义属性之间的联系,从而有利于以语义属性为桥梁的视觉知识迁移过程;
(2)在获得可见类与不可见类微调过的视觉特征后,利用这些特征通过交叉熵损失来训练一个全连接分类器,经过T2次训练迭代训练直至收敛后,训练好的分类器C便同时具备对可见类和不可见类的识别能力;
(3)测试阶段,使用训练好的分类器C分别对可见类与不可见类实例进行预测并计算其Top-1的识别精度,分别记为S和U,并计算S和U的调和平均数,记为H。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211579458.8A CN116109898A (zh) | 2022-12-09 | 2022-12-09 | 基于双向对抗训练与关系度量约束的广义零样本学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211579458.8A CN116109898A (zh) | 2022-12-09 | 2022-12-09 | 基于双向对抗训练与关系度量约束的广义零样本学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116109898A true CN116109898A (zh) | 2023-05-12 |
Family
ID=86264701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211579458.8A Pending CN116109898A (zh) | 2022-12-09 | 2022-12-09 | 基于双向对抗训练与关系度量约束的广义零样本学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109898A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452895A (zh) * | 2023-06-13 | 2023-07-18 | 中国科学技术大学 | 基于多模态对称增强的小样本图像分类方法、装置及介质 |
CN116994104A (zh) * | 2023-07-19 | 2023-11-03 | 湖北楚天高速数字科技有限公司 | 基于张量融合和对比学习的零样本识别方法和系统 |
CN117476036A (zh) * | 2023-12-27 | 2024-01-30 | 广州声博士声学技术有限公司 | 一种环境噪声识别方法、系统、设备和介质 |
-
2022
- 2022-12-09 CN CN202211579458.8A patent/CN116109898A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452895A (zh) * | 2023-06-13 | 2023-07-18 | 中国科学技术大学 | 基于多模态对称增强的小样本图像分类方法、装置及介质 |
CN116452895B (zh) * | 2023-06-13 | 2023-10-20 | 中国科学技术大学 | 基于多模态对称增强的小样本图像分类方法、装置及介质 |
CN116994104A (zh) * | 2023-07-19 | 2023-11-03 | 湖北楚天高速数字科技有限公司 | 基于张量融合和对比学习的零样本识别方法和系统 |
CN116994104B (zh) * | 2023-07-19 | 2024-06-11 | 湖北楚天高速数字科技有限公司 | 基于张量融合和对比学习的零样本识别方法和系统 |
CN117476036A (zh) * | 2023-12-27 | 2024-01-30 | 广州声博士声学技术有限公司 | 一种环境噪声识别方法、系统、设备和介质 |
CN117476036B (zh) * | 2023-12-27 | 2024-04-09 | 广州声博士声学技术有限公司 | 一种环境噪声识别方法、系统、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN111753874B (zh) | 一种结合半监督聚类的图像场景分类方法及系统 | |
CN110298280B (zh) | 一种基于mkl多特征融合的海洋涡旋识别方法 | |
CN111222434A (zh) | 基于局部二值模式和深度学习的合成人脸图像取证方法 | |
CN116109898A (zh) | 基于双向对抗训练与关系度量约束的广义零样本学习方法 | |
CN112800876B (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN107169504B (zh) | 一种基于扩展非线性核残差网络的手写字符识别方法 | |
CN110458216A (zh) | 基于条件生成对抗网络的图像风格迁移方法 | |
CN105138973A (zh) | 人脸认证的方法和装置 | |
CN106228142A (zh) | 基于卷积神经网络和贝叶斯决策的人脸验证方法 | |
CN109344856B (zh) | 一种基于多层判别式特征学习的脱机签名鉴别方法 | |
CN108052959A (zh) | 一种提高深度学习图片识别算法鲁棒性的方法 | |
CN111079514A (zh) | 一种基于clbp和卷积神经网络的人脸识别方法 | |
CN108564040A (zh) | 一种基于深度卷积特征的指纹活性检测方法 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
CN117152459B (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN107220598A (zh) | 基于深度学习特征和Fisher Vector编码模型的虹膜图像分类方法 | |
CN112364809A (zh) | 一种高准确率的人脸识别改进算法 | |
CN114119966A (zh) | 基于多视角学习与元学习的小样本目标检测方法 | |
CN113222072A (zh) | 基于K-means聚类和GAN的肺部X光图像分类方法 | |
CN113887502A (zh) | 一种通信辐射源时频特征提取与个体识别方法及系统 | |
CN115310491A (zh) | 一种基于深度学习的类不平衡磁共振全脑数据分类方法 | |
Wang et al. | Out-of-distributed semantic pruning for robust semi-supervised learning | |
CN111832580A (zh) | 结合少样本学习与目标属性特征的sar目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |