CN116109898A - 基于双向对抗训练与关系度量约束的广义零样本学习方法 - Google Patents

基于双向对抗训练与关系度量约束的广义零样本学习方法 Download PDF

Info

Publication number
CN116109898A
CN116109898A CN202211579458.8A CN202211579458A CN116109898A CN 116109898 A CN116109898 A CN 116109898A CN 202211579458 A CN202211579458 A CN 202211579458A CN 116109898 A CN116109898 A CN 116109898A
Authority
CN
China
Prior art keywords
visual
attribute
training
semantic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211579458.8A
Other languages
English (en)
Inventor
曲延云
李晓凡
张亚超
边诗然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202211579458.8A priority Critical patent/CN116109898A/zh
Publication of CN116109898A publication Critical patent/CN116109898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

基于双向对抗训练与关系度量约束的广义零样本学习方法,涉及图像处理领域。1)建立零样本学习的数据集;2)使用预训练好的神经网络提取可见类图像的视觉特征,并对视觉特征进行预处理;3)使用步骤2)提取的视觉特征通过双向对抗训练特征生成网络和属性生成网络,属性生成网络的训练过程同时加入关系度量约束;4)使用特征生成网络来合成不可见类的视觉特征,将可见类和不可见类的视觉特征通过属性生成网络进行微调,使用微调后视觉特征通过交叉熵损失训练分类器。对视觉特征进一步的微调使得视觉特征与语义属性之间由更紧密的联系。基于类间关系的度量学习方式,有效提升特征可判别性的同时提升模型在不可见类缺失情况下的泛化性。

Description

基于双向对抗训练与关系度量约束的广义零样本学习方法
技术领域
本发明涉及图像处理领域,尤其是涉及可用于目标识别,未知类别物体识别,未知类别的图像检索等的一种基于双向对抗训练与关系度量约束的广义零样本学习方法。
背景技术
零样本学习因为其应用前景以及研究价值,近年来受到广泛的关注,并涌现出了许多优秀的算法。这些算法大致可以分为两大类:基于语义属性嵌入的零样本学习方法、基于特征生成的零样本学习方法。相比基于语义嵌入的零样本学习方法,基于特征生成的零样本学习方法受到的关注度较高。它首先训练以类别的语义属性为条件的视觉特征生成器,然后利用不可见类的语义属性来合成视觉特征,以此弥补训练阶段不可见类样本的缺失,最后,利用已知的可见类视觉特征和合成的不可见类视觉特征来训练分类器。这类方法仅使用了语义属性来合成视觉特征这一单向的对抗训练,这使得语义属性与视觉特征之间的联系非常有限,而零样本学习以语义属性作为可见类与不可见类之间视觉知识迁移的桥梁,所以现有生成类方法并没有有效缓解零样本学习中的强偏问题。此外,现有方法忽略了不同类别之间关系的挖掘,这严重制约了模型的泛化能力,尤其是在训练阶段缺失不可见类的零样本学习设定下。
语义属性是零样本学习中知识迁移的重要线索,每个类别都有其对应的语义属性,语义属性作为对类别的描述以向量的形式存在,一般由人工标记获得,每个维度都代表相应的属性信息,比如,特定的颜色、形状等。语义属性不仅包含了对图像的描述信息还包含了大量的跨类别信息。
度量学习是当前深度学习中增强实例类内聚合度和类间区分度一种常用手段,通常通过与正负样本之间的对比来实现,通过一种度量标准(一般为欧式距离),将同一类别的实例空间距离拉近,不同类别实例之间的距离拉远。
发明内容
本发明的目的在于提供对未知类别的目标识别,在增强视觉特征与语义属性直接按的联系同时,增强不同类别视觉特征之间的类内聚合度和类间区分度,得到强判别性特征的一种基于双向对抗训练与关系度量约束的广义零样本学习方法。可用于目标识别,未知类别物体识别,未知类别的图像检索等。
本发明包括以下步骤:
1)建立数据集:建立零样本学习的数据集,针对每个类别,零样本学习引入语义属性作为线索;
2)视觉特征提取:使用预训练好的神经网络提取可见类图像的原始视觉特征;
3)双向对抗训练与关系度量约束:使用步骤2)提取的原始视觉特征通过双向对抗训练特征生成网络和属性生成网络,属性生成网络的训练过程同时加入关系度量约束;
4)训练分类器:使用特征生成网络来合成不可见类的视觉特征,将可见类和不可见类的视觉特征通过属性生成网络进行微调,使用微调后视觉特征通过交叉熵损失来训练分类器。
在步骤1)中,所述零样本学习的数据集为
Figure BDA0003990015730000021
N代表数据集的样本数量,xi表示由预训练的骨干神经网络提取的图像的视觉特征,yi表示其对应的类别标签,
Figure BDA0003990015730000022
代表可见类的类别集合;针对每个类别,零样本学习引入语义属性
Figure BDA0003990015730000023
作为线索,其中
Figure BDA0003990015730000024
表示不可见类的类别集合,且
Figure BDA0003990015730000025
在步骤2)中,所述视觉特征提取的具体步骤可为:将所有骨干网络提取好的视觉特征进行预处理,对数据集进行采样,每个批次中取N1个类别,每个类别选取N2种不同样本以及其对对应的语义属性a作为网络的输入;
在步骤3)中,所述双向对抗训练特征生成网络和属性生成网络的具体步骤可为:
(1)将语义属性a和一个随机采样的高斯噪音∈组合输入特征生成器GF中,特征生成器根据语义属性a和高斯噪音∈合成一个伪造的视觉特征
Figure BDA0003990015730000026
将伪造的视觉特征
Figure BDA0003990015730000027
和真实的视觉特征x分别与语义属性a组合后输入特征判别器DF中,特征判别器学习判别(x,a)和
Figure BDA0003990015730000028
的真假并通过对抗损失
Figure BDA0003990015730000029
迭代交叉完成训练;对于伪造的视觉特征,计算同一个批次中伪造视觉特征之间的余弦相似度矩阵,计算其对应语义属性之间的相似度矩阵,使用图正则化损失
Figure BDA00039900157300000210
约束两个相似度矩阵;
(2)将骨干神经网络提取的原始视觉特征x输入编码器E得到微调后的视觉特征h,将微调后的视觉特征h输入属性生成器GA中合成伪造的语义属性
Figure BDA00039900157300000211
通过类别间的语义属性相似度设计软标签
Figure BDA00039900157300000212
将伪造的语义属性
Figure BDA00039900157300000219
和真实的语义属性a分别与软标签
Figure BDA00039900157300000213
组合后输入属性判别器DA,属性判别器学习判别
Figure BDA00039900157300000214
Figure BDA00039900157300000215
的真假并通过对抗损失
Figure BDA00039900157300000216
与属性生成器迭代交叉完成训练;对于伪造的语义属性
Figure BDA00039900157300000217
通过infoNCE损失
Figure BDA00039900157300000218
进行约束,以保证其在属性空间的可判别性;
进一步的,所述属性生成网络的训练,具体步骤可为:
对于可见类图像,经过视觉特征提取后得到对应的原始视觉特征x;对原始视觉特征x通过编码器E进行微调得到微调后的视觉特征h:h=E(x);以微调后的视觉特征h为条件输入到属性生成器GA中来合成伪造的属性
Figure BDA0003990015730000031
微调后的视觉特征h对应的真实语义属性a和伪造的语义属性
Figure BDA0003990015730000032
分别与h对应的软标签
Figure BDA0003990015730000033
组合后输入属性判别器DA中,属性判别器DA学习区分真实的成对数据
Figure BDA0003990015730000034
和伪造的成对数据
Figure BDA0003990015730000035
并与属性生成器交叉对抗完成训练,对抗损失函数如下:
Figure BDA0003990015730000036
其中,
Figure BDA0003990015730000037
β~U(0,1),η是梯度惩罚项的权重。
所述软标签
Figure BDA0003990015730000038
是具有跨类别信息的类别标签,通过不同类别之间的语义属性相似度设计,计算方式如下:
Figure BDA0003990015730000039
其中,M表示所有类别个数,
Figure BDA00039900157300000310
表示第k个类别的软标签;
Figure BDA00039900157300000311
表示第i个类别的语义属性(向量),D表示ai的维度;
为了保证伪造属性
Figure BDA00039900157300000312
在属性空间中的可判别性,采用infoNCE损失通过对比学习的方式来约束
Figure BDA00039900157300000313
具体损失函数如下:
Figure BDA00039900157300000314
其中,τ表示温度超参数,M是所有类别属性向量的总数a+
Figure BDA00039900157300000315
分别表示
Figure BDA00039900157300000316
对应的正样本和负样本。
所述属性生成网络的训练过程同时加入关系度量约束,是在属性生成网络训练过程中设计一种基于关系的度量学习来约束微调后的视觉特征h,随机抽样微调后的视觉特征h的正样本h+和负样本h-通过可学习度量函数F预测h与h+以及h与h-之间的相似度概率,然后以样本对应的语义属性之间的余弦相似度作为ground truth通过交叉熵损失训练整个过程;通过挖掘语义属性之间的相似度,视觉特征受到类别之间关系的约束,从而使模型的泛化性得到提升;具体步骤包括:
(1)为了保证微调特征实例间的可判别性,提出基于关系的度量学习对其进行约束,考虑不同类别之间的关系并以语义属性之间的相似度作为视觉特征实例间的度量标准,通过类别间关系的挖掘提升模型的泛化性能,从而有利于可见类到不可见类的知识迁移;具体地,
首先通过一个可学习的度量函数F预测两个视觉特征hi与hj之间的相似度概率,度量函数的实现如下:
Figure BDA0003990015730000041
其中,wF是2048×1的全连接层,2048是h的维度,
Figure BDA0003990015730000042
表示按元素乘法,σ表示sigmoid激活函数;通过度量函数后,两个视觉特征hi与hj之间的相似度以概率的形式表示;计算两个视觉特征对应语义属性的余弦相似度作为关系度量学习的标准并通过二值交叉熵计算,关系度量损失函数如下:
Figure BDA0003990015730000043
其中,cos()表示余弦相似度,ai,aj分别是hi,hj所对应的语义属性。
(2)在每个批次的训练过程中,为了使训练更加充分,对微调后的视觉特征h的每个样本分别随机采样其正样本h+和负样本h-,分别对(h,h+)和(h,h-)计算关系度量损失,最终的损失函数如下:
Figure BDA0003990015730000044
通过关系度量损失,视觉特征实例间类内聚合度和类间区分度将得到明显提升,同时对类别之间关系的挖掘能极大提升模型的泛化能力。
在步骤4)中,所述训练分类器的具体步骤可为:
(1)第二阶段训练迭代T1次直至收敛后,特征生成网络和属性生成网络都得到有效的训练,使用随机采样的高斯噪音和不可见类的语义属性为条件通过特征生成网络合成不可见类的视觉特征,同时对于已经存在的可见类视觉特征和合成的不可见类视觉特征,使用属性生成网络进行微调,微调过程可表示为h=E(x)。通过双向对抗训练以及关系度量的约束,极大提升视觉特征与语义属性之间的联系,从而有利于以语义属性为桥梁的视觉知识迁移过程;
(2)在获得可见类与不可见类微调过的视觉特征后,利用这些特征通过交叉熵损失来训练一个全连接分类器,经过T2次训练迭代训练直至收敛后,训练好的分类器C便同时具备对可见类和不可见类的识别能力;
(3)测试阶段,使用训练好的分类器C分别对可见类与不可见类实例进行预测并计算其Top-1的识别精度,分别记为S和U,并计算S和U的调和平均数,记为H。
本发明具有以下突出优点:
1、本发明提出双向对抗训练的方法。考虑到传统生成式方法的不足,在原先的特征生成网络的基础上加入属性生成网络,对视觉特征进一步的微调使得视觉特征与语义属性之间由更紧密的联系。属性生成网络首先对现有的视觉特征进行微调,然后以微调后的特征作为为条件输入到属性生成器中来合成语义属性,整个过程也通过对抗训练完成。属性到特征和特征到属性的双向对抗训练大大加强视觉特征和语义属性之间的联系。
2、本发明提出一种全新的基于类间关系的度量学习方式,以类别间语义属性的相似度来指导视觉特征的度量学习,使用的基于关系的度量约束,在完成实例间度量的同时,充分挖掘不同类别之间的关系,在有效提升特征可判别性的同时大大提升模型在不可见类缺失情况下的泛化性。
附图说明
图1是本发明的基于双向对抗训练与关系度量学习框架。
图2是本发明的关系度量学习说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,以下对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本发明包括以下步骤:
(1)零样本学习的数据集为
Figure BDA0003990015730000051
N代表数据集的样本数量,xi表示由预训练的骨干神经网络提取的图像的视觉特征,yi表示其对应的类别标签,
Figure BDA0003990015730000052
代表可见类的类别集合。针对每个类别,零样本学习引入了语义属性
Figure BDA0003990015730000053
作为线索,其中
Figure BDA0003990015730000054
表示不可见类的类别集合,且
Figure BDA0003990015730000055
(2)第一阶段,将所有骨干网络提取好的视觉特征进行预处理,对数据集进行采样,每个批次中取N1个类别,每个类别选取N2种不同样本以及其对对应的语义属性作为网络的输入;
(3)第二阶段,首先将语义属性a和一个随机采样的高斯噪音∈组合输入到特征生成器(GF)中,特征生成器根据语义属性和高斯噪音合成一个伪造的视觉特征
Figure BDA0003990015730000056
然后将伪造的视觉特征
Figure BDA0003990015730000057
和真实的视觉特征x分别与语义属性a组合后输入到特征判别器(DF)中,特征判别器学习判别(x,a)和
Figure BDA0003990015730000061
的真假并通过对抗损失
Figure BDA0003990015730000062
迭代交叉完成训练。对于伪造的视觉特征,计算同一个批次中伪造视觉特征之间的余弦相似度矩阵,然后计算其对应语义属性之间的相似度矩阵,使用图正则化损失
Figure BDA0003990015730000063
约束两个相似度矩阵;
(4)将骨干神经网络提取的视觉特征x输入到编码器(E)得到微调后的特征h,将h输入到属性生成器(GA)中来合成伪造的语义属性
Figure BDA0003990015730000064
此外,为了让模型更好的学习跨类别知识以便于知识的迁移,通过类别间的语义属性相似度设计了软标签
Figure BDA0003990015730000065
将伪造的语义属性
Figure BDA0003990015730000066
和真实的语义属性a分别与软标签
Figure BDA0003990015730000067
组合后输入到属性判别器(DA)中,属性判别器学习判别
Figure BDA0003990015730000068
Figure BDA00039900157300000630
的真假并通过对抗损失
Figure BDA0003990015730000069
与属性生成器迭代交叉完成训练。同时对于伪造的语义属性
Figure BDA00039900157300000610
通过infoNCE损失
Figure BDA00039900157300000611
进行约束,以保证其在属性空间的可判别性;
(4.1)对于可见类图像,经过要求1中的步骤(2)之后得到对应的特征x,x表示经过预处理后的图像视觉特征。首先对视觉特征x通过编码器E进行微调得到微调后的特征h:h=E(x)。然后以微调后的视觉特征h为条件输入到属性生成器(GA)中来合成伪造的属性
Figure BDA00039900157300000629
h对应的真实语义属性a和伪造的语义属性
Figure BDA00039900157300000613
分别与h对应的软标签
Figure BDA00039900157300000614
组合后输入到属性判别器(DA)中,属性判别器学习区分真实的成对数据
Figure BDA00039900157300000615
和伪造的成对数据
Figure BDA00039900157300000616
并与属性生成器交叉对抗完成训练,对抗损失函数如下:
Figure BDA00039900157300000617
其中
Figure BDA00039900157300000618
β~U(0,1),η是梯度惩罚项的权重。
(4.2)软标签
Figure BDA00039900157300000619
是本发明设计的一种具有跨类别信息的类别标签,其不同于传统热编码标签只包含单一的类别信息。
Figure BDA00039900157300000620
是通过不同类别之间的语义属性相似度设计的,计算方式如下:
Figure BDA00039900157300000621
其中,,
Figure BDA00039900157300000622
表示第k个类别的软标签。
Figure BDA00039900157300000623
表示第i个类别的语义属性(向量),D表示ai的维度。
(4.3)为保证伪造属性
Figure BDA00039900157300000624
在属性空间中的可判别性,采用infoNCE损失通过对比学习的方式来约束伪造的语义属性
Figure BDA00039900157300000625
具体损失函数如下:
Figure BDA00039900157300000626
其中,τ表示温度超参数,M表示所有类别个数,a+
Figure BDA00039900157300000627
分别表示
Figure BDA00039900157300000628
对应的正样本和负样本。
(5)根据度量学习的核心思想,在属性生成网络训练过程中设计了一种基于关系的度量学习来约束微调后的特征h。随机抽样h的正样本h+和负样本h-通过可学习度量函数(F)来预测h与h+以及h与h-之间的相似度概率,然后以样本对应的语义属性之间的余弦相似度作为ground truth通过交叉熵损失来训练整个过程。通过挖掘语义属性之间的相似度,视觉特征会受到类别之间关系的约束,从而使模型的泛化性得到提升。
(5.1)为了保证微调特征实例间的可判别性,提出关系度量学习对其进行约束。不同于传统度量学习在特征空间中单纯的将类内实例距离拉近、类间实例距离拉远,提出的关系度量学习充分地考虑不同类别之间的关系并以语义属性之间的相似度作为视觉特征实例间的度量标准,通过类别间关系的挖掘能大大提升模型的泛化性能,从而有利于可见类到不可见类的知识迁移。具体地,首先通过一个可学习的度量函数(F)来预测两个视觉特征hi与hj之间的相似度概率,度量函数的实现如下:
Figure BDA0003990015730000071
其中,wF是2048×1的全连接层,2048是h的维度,
Figure BDA0003990015730000072
表示按元素乘法,σ表示sigmoid激活函数;通过度量函数后,两个视觉特征之间的相似度以概率的形式表示;同时,计算两个视觉特征对应语义属性的余弦相似度作为关系度量学习的标准并通过二值交叉熵计算,关系度量损失函数如下:
Figure BDA0003990015730000073
cod()表示余弦相似度,ai,aj分别是hi,hj所对应的语义属性。
(5.2)在每个批次的训练过程中,为使训练更加充分,对每个样本h分别随机采样其正样本h+和负样本h-,分别对(h,h+)和(h,h-)计算关系度量损失,最终的损失函数如下:
Figure BDA0003990015730000074
通过关系度量损失,视觉特征实例间类内聚合度和类间区分度将得到明显提升,同时对类别之间关系的挖掘能极大提升模型的泛化能力。
(6)第二阶段训练迭代T1次直至收敛后,特征生成网络和属性生成网络都得到有效的训练,使用随机采样的高斯噪音和不可见类的语义属性为条件通过特征生成网络合成不可见类的视觉特征,同时对于已经存在的可见类视觉特征和合成的不可见类视觉特征,使用属性生成网络进行微调,微调过程可表示为h=E(x)。通过双向对抗训练以及关系度量的约束,极大提升视觉特征与语义属性之间的联系,从而有利于以语义属性为桥梁的视觉知识迁移过程;
(7)在获得可见类与不可见类微调过的视觉特征后,利用这些特征通过交叉熵损失来训练一个全连接分类器,经过T2次训练迭代训练直至收敛后,训练好的分类器C便同时具备对可见类和不可见类的识别能力;
(8)测试阶段,使用步骤(7)中训练好的分类器C分别对可见类与不可见类实例进行预测并计算其Top-1的识别精度,分别记为S和U,并计算S和U的调和平均数,记为H;
参照图1,本发明的框架为:
步骤1,获取视觉图像的视觉特征及采样。
本发明的训练样本为视觉特征,首先将训练用的可见类视觉图像通过在ImageNet上预训练好的骨干网络提取成视觉特征,骨干网络参数固定全程不参与训练,且没有梯度传播。
对视觉特征进行归一化预处理,然后进行采样,每个批次随机采样N1个类别,每个类别采样N2个样本。对视觉特征采样的同时也对对应的语义属性进行采样,同时计算每个样本的软标签。每个批次包含N1×N2个视觉特征及其对应的语义属性和软标签。
步骤2,训练特征生成网络。
(2a)将语义属性与一个随机采样的高斯噪音组合后输入到特征生成器(GF)中,得到伪造的视觉特征,将伪造的视觉特征和对应语义属性组合作为负样本,将真实视觉特征和对应语义属性组合作为正样本,将正负样本输入特征判别器(DF)训练判别器,迭代Ti次之后,将特征判别器参数冻结;
(2b)重复步骤(2a)中的操作得到伪造的视觉特征,将伪造的视觉特征和对应语义属性组合作为正样本,输入到特征判别器(DF),然后通过判别器反馈的判别损失训练特征生成器(GF)。同时,求同批次中伪造的视觉特征的余弦相似度矩阵和对应语义属性的余弦相似度矩阵,两个相似度矩阵使用图正则化损失
Figure BDA0003990015730000081
进行约束来训练特征生成器(GF)。训练结束后将特征判别器参数解开冻结。
步骤3,训练属性生成网络。
(3a)将视觉特征通过编码器(E)进行微调,将微调后的特征输入到属性生成器(GA)中,得到伪造的语义属性,将伪造的语义属与对应软标签组作为负样本,将真实的语义属性和对应软标签组合作为正样本,将正负样本输入到属性判别器(DA)训练判别器,迭代Ti次之后,将属性判别器参数冻结;
(3b)重复(3a)中的操作得到伪造的语义属性,将伪的语义属性和对应的软标组合作为正样本,输入到属性判别器(DA),然后通过判别器反馈的判别损失训练属性生成器(GA)。同时,通过infoNCE损失
Figure BDA0003990015730000082
约束伪造的语义属性来训练属性生成器(GA);
(3c)参照图2,使用可学习度量函数(F)计算微调特征与其正负样本之间的相似度概率,同时计算对应语义属性之间的余弦相似度,使用交叉熵损失拉近两者的距离,以此来训练度量函数(F)和编码器(E)。
实验结果以及结果分析:
实验一,用本发明在Animals with Attributes(AWA)数据集上进行零样本目标识别。
为了验证算法的有效性,在AWA的测试集上,进行消融实验,表1为实验结果。其中,‘BAT’表示双向对抗训练,‘RM’表示关系度量学习,‘√’和‘×’表示分别表示使用和不使用对应项方法,‘U’,‘S’和‘H’分别表示可见类和不可见类的平均识别精度以及两者的调和平均数。实验结果表明,本发明所提出的两种方法分别对零样本别任务,都有较大程度的性能提升,验证了双向对抗训练和关系度量学习的有效性。
实验二,用本发明在Oxford Flowers(FLO)数据集上进行零样本目标识别。
为了验证算法的有效性,在FLO的数据集上对可见类和不可见类进行识别测试。表2为实验结果,从结果可以发现,本发明提出的基于双向对抗训练与关系度量约束的广义零样本学习方法在FLO数据集上同样获得卓越的性能提升。
表1
Index BAT RM U S H
1 × × 57.3 68.9 62.6
2 × 62.1 79.0 69.5
3 × 63.8 77.7 70.1
4 64.8 82.6 72.6
表2
U S H
69.1 84.0 75.8
结合实验一和实验二,本发明在现有的两个零样本学习基准数据集上都有显著的性能优势,超越当前学术领域的最高水平,验证本发明提出的双向对抗训练和关系度量学习方法的有效性。

Claims (9)

1.基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于包括以下步骤:
1)建立数据集:建立零样本学习的数据集,针对每个类别,零样本学习引入语义属性作为线索;
2)视觉特征提取:使用预训练好的神经网络提取可见类图像的视觉特征,并对视觉特征进行预处理;
3)双向对抗训练与关系度量约束:使用步骤2)提取的视觉特征通过双向对抗训练特征生成网络和属性生成网络,属性生成网络的训练过程同时加入关系度量约束;
4)训练分类器:使用特征生成网络来合成不可见类的视觉特征,将可见类和不可见类的视觉特征通过属性生成网络进行微调,使用微调后视觉特征通过交叉熵损失来训练分类器。
2.如权利要求1所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于在步骤1)中,所述零样本学习的数据集为
Figure FDA0003990015720000011
N代表数据集的样本数量,xi表示由预训练的骨干神经网络提取的图像的视觉特征,yi表示其对应的类别标签,
Figure FDA00039900157200000111
代表可见类的类别集合;针对每个类别,零样本学习引入语义属性
Figure FDA0003990015720000012
作为线索,其中
Figure FDA0003990015720000013
表示不可见类的类别集合,且
Figure FDA0003990015720000014
3.如权利要求1所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于在步骤2)中,所述视觉特征提取的具体步骤为:将所有骨干网络提取好的视觉特征进行预处理,对数据集进行采样,每个批次中取N1个类别,每个类别选取N2种不同样本以及其对对应的语义属性a作为网络的输入。
4.如权利要求1所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于在步骤3)中,所述双向对抗训练特征生成网络和属性生成网络的具体步骤为:
(1)将语义属性a和一个随机采样的高斯噪音∈组合输入特征生成器GF中,特征生成器根据语义属性a和高斯噪音∈合成一个伪造的视觉特征
Figure FDA0003990015720000015
将伪造的视觉特征
Figure FDA0003990015720000016
和真实的视觉特征x分别与语义属性a组合后输入特征判别器DF中,特征判别器学习判别(x,a)和
Figure FDA0003990015720000017
的真假并通过对抗损失
Figure FDA0003990015720000018
迭代交叉完成训练;对于伪造的视觉特征,计算同一个批次中伪造视觉特征之间的余弦相似度矩阵,计算其对应语义属性之间的相似度矩阵,使用图正则化损失
Figure FDA0003990015720000019
约束两个相似度矩阵;
(2)将骨干神经网络提取的真实的视觉特征x输入编码器E得到微调后的视觉特征h,将微调后的视觉特征h输入属性生成器GA中合成伪造的语义属性
Figure FDA00039900157200000110
通过类别间的语义属性相似度设计软标签
Figure FDA0003990015720000021
将伪造的语义属性
Figure FDA0003990015720000022
和真实的语义属性a分别与软标签
Figure FDA0003990015720000023
组合后输入属性判别器DA,属性判别器学习判别
Figure FDA0003990015720000024
Figure FDA0003990015720000025
的真假并通过对抗损失
Figure FDA0003990015720000026
与属性生成器迭代交叉完成训练;对于伪造的语义属性
Figure FDA0003990015720000027
通过infoNCE损失
Figure FDA0003990015720000028
进行约束,以保证其在属性空间的可判别性。
5.如权利要求4所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于所述属性生成网络的训练,具体步骤为:
对于可见类图像,经过视觉特征提取后得到对应的原始视觉特征x;对原始视觉特征x通过编码器E进行微调得到微调后的视觉特征h:h=E(x);以微调后的视觉特征h为条件输入到属性生成器GA中来合成伪造的属性
Figure FDA0003990015720000029
微调后的视觉特征h对应的真实语义属性a和伪造的语义属性
Figure FDA00039900157200000210
分别与h对应的软标签
Figure FDA00039900157200000211
组合后输入属性判别器DA中,属性判别器DA学习区分真实的成对数据
Figure FDA00039900157200000212
和伪造的成对数据
Figure FDA00039900157200000213
并与属性生成器交叉对抗完成训练,对抗损失函数如下:
Figure FDA00039900157200000214
其中,
Figure FDA00039900157200000215
β~U(0,1,η是梯度惩罚项的权重。
6.如权利要求5所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于所述软标签
Figure FDA00039900157200000216
是具有跨类别信息的类别标签,通过不同类别之间的语义属性相似度设计,计算方式如下:
Figure FDA00039900157200000217
其中,M表示所有类别个数,
Figure FDA00039900157200000218
表示第k个类别的软标签;
Figure FDA00039900157200000219
=1,...,表示第i个类别的语义属性(向量),D表示at的维度。
7.如权利要求5所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于为了保证伪造的语义属性
Figure FDA00039900157200000220
在属性空间中的可判别性,采用infoNCE损失通过对比学习的方式来约束伪造的语义属性
Figure FDA00039900157200000221
具体损失函数如下:
Figure FDA00039900157200000222
其中,τ表示温度超参数,M是所有类别的总数,a+
Figure FDA00039900157200000224
分别表示
Figure FDA00039900157200000223
对应的正样本和负样本。
8.如权利要求1所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于在步骤3)中,所述属性生成网络的训练过程同时加入关系度量约束,是在属性生成网络训练过程中设计一种基于关系的度量学习来约束微调后的视觉特征h,随机抽样微调后的视觉特征h的正样本h6和负样本h-通过可学习度量函数F预测h与h+以及h与h-之间的相似度概率,然后以样本对应的语义属性之间的余弦相似度作为ground truth通过交叉熵损失训练整个过程;通过挖掘语义属性之间的相似度,视觉特征受到类别之间关系的约束,从而使模型的泛化性得到提升;具体步骤包括:
(1)为了保证微调特征实例间的可判别性,提出基于关系的度量学习对其进行约束,考虑不同类别之间的关系并以语义属性之间的相似度作为视觉特征实例间的度量标准,通过类别间关系的挖掘提升模型的泛化性能,从而有利于可见类到不可见类的知识迁移;具体地,首先通过一个可学习的度量函数F预测两个视觉特征hi与hj之间的相似度概率,度量函数的实现如下:
Figure FDA0003990015720000033
其中,wF是2048×1的全连接层,2048是h的维度,
Figure FDA0003990015720000034
表示按元素乘法,σ表示sigmoid激活函数;通过度量函数后,两个视觉特征hi与hj之间的相似度以概率的形式表示;计算两个视觉特征对应语义属性的余弦相似度作为关系度量学习的标准并通过二值交叉熵计算,关系度量损失函数如下:
Figure FDA0003990015720000031
其中,cos()表示余弦相似度,ai,aj分别是hi,hj所对应的语义属性;
(2)在每个批次的训练过程中,为了使训练更加充分,对微调后的视觉特征h的每个样本分别随机采样其正样本h+和负样本h-,分别对(h,h+)和(h,h-)计算关系度量损失,最终的损失函数如下:
Figure FDA0003990015720000032
通过关系度量损失,视觉特征实例间类内聚合度和类间区分度将得到明显提升,同时对类别之间关系的挖掘能极大提升模型的泛化能力。
9.如权利要求1所述基于双向对抗训练与关系度量约束的广义零样本学习方法,其特征在于在步骤4)中,所述训练分类器的具体步骤为:
(1)第二阶段训练迭代T1次直至收敛后,特征生成网络和属性生成网络都得到有效的训练,使用随机采样的高斯噪音和不可见类的语义属性为条件通过特征生成网络合成不可见类的视觉特征,同时对于已经存在的可见类视觉特征和合成的不可见类视觉特征,使用属性生成网络进行微调,微调过程可表示为h=E(x);通过双向对抗训练以及关系度量的约束,极大提升视觉特征与语义属性之间的联系,从而有利于以语义属性为桥梁的视觉知识迁移过程;
(2)在获得可见类与不可见类微调过的视觉特征后,利用这些特征通过交叉熵损失来训练一个全连接分类器,经过T2次训练迭代训练直至收敛后,训练好的分类器C便同时具备对可见类和不可见类的识别能力;
(3)测试阶段,使用训练好的分类器C分别对可见类与不可见类实例进行预测并计算其Top-1的识别精度,分别记为S和U,并计算S和U的调和平均数,记为H。
CN202211579458.8A 2022-12-09 2022-12-09 基于双向对抗训练与关系度量约束的广义零样本学习方法 Pending CN116109898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211579458.8A CN116109898A (zh) 2022-12-09 2022-12-09 基于双向对抗训练与关系度量约束的广义零样本学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211579458.8A CN116109898A (zh) 2022-12-09 2022-12-09 基于双向对抗训练与关系度量约束的广义零样本学习方法

Publications (1)

Publication Number Publication Date
CN116109898A true CN116109898A (zh) 2023-05-12

Family

ID=86264701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211579458.8A Pending CN116109898A (zh) 2022-12-09 2022-12-09 基于双向对抗训练与关系度量约束的广义零样本学习方法

Country Status (1)

Country Link
CN (1) CN116109898A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116994104A (zh) * 2023-07-19 2023-11-03 湖北楚天高速数字科技有限公司 基于张量融合和对比学习的零样本识别方法和系统
CN117476036A (zh) * 2023-12-27 2024-01-30 广州声博士声学技术有限公司 一种环境噪声识别方法、系统、设备和介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116452895B (zh) * 2023-06-13 2023-10-20 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116994104A (zh) * 2023-07-19 2023-11-03 湖北楚天高速数字科技有限公司 基于张量融合和对比学习的零样本识别方法和系统
CN116994104B (zh) * 2023-07-19 2024-06-11 湖北楚天高速数字科技有限公司 基于张量融合和对比学习的零样本识别方法和系统
CN117476036A (zh) * 2023-12-27 2024-01-30 广州声博士声学技术有限公司 一种环境噪声识别方法、系统、设备和介质
CN117476036B (zh) * 2023-12-27 2024-04-09 广州声博士声学技术有限公司 一种环境噪声识别方法、系统、设备和介质

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN111753874B (zh) 一种结合半监督聚类的图像场景分类方法及系统
CN110298280B (zh) 一种基于mkl多特征融合的海洋涡旋识别方法
CN111222434A (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
CN116109898A (zh) 基于双向对抗训练与关系度量约束的广义零样本学习方法
CN112800876B (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN107169504B (zh) 一种基于扩展非线性核残差网络的手写字符识别方法
CN110458216A (zh) 基于条件生成对抗网络的图像风格迁移方法
CN105138973A (zh) 人脸认证的方法和装置
CN106228142A (zh) 基于卷积神经网络和贝叶斯决策的人脸验证方法
CN109344856B (zh) 一种基于多层判别式特征学习的脱机签名鉴别方法
CN108052959A (zh) 一种提高深度学习图片识别算法鲁棒性的方法
CN111079514A (zh) 一种基于clbp和卷积神经网络的人脸识别方法
CN108564040A (zh) 一种基于深度卷积特征的指纹活性检测方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及系统
CN117152459B (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN107220598A (zh) 基于深度学习特征和Fisher Vector编码模型的虹膜图像分类方法
CN112364809A (zh) 一种高准确率的人脸识别改进算法
CN114119966A (zh) 基于多视角学习与元学习的小样本目标检测方法
CN113222072A (zh) 基于K-means聚类和GAN的肺部X光图像分类方法
CN113887502A (zh) 一种通信辐射源时频特征提取与个体识别方法及系统
CN115310491A (zh) 一种基于深度学习的类不平衡磁共振全脑数据分类方法
Wang et al. Out-of-distributed semantic pruning for robust semi-supervised learning
CN111832580A (zh) 结合少样本学习与目标属性特征的sar目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination