CN114022739A - 一种基于对齐变分自编码器与三元组结合的零样本学习方法 - Google Patents

一种基于对齐变分自编码器与三元组结合的零样本学习方法 Download PDF

Info

Publication number
CN114022739A
CN114022739A CN202111364293.8A CN202111364293A CN114022739A CN 114022739 A CN114022739 A CN 114022739A CN 202111364293 A CN202111364293 A CN 202111364293A CN 114022739 A CN114022739 A CN 114022739A
Authority
CN
China
Prior art keywords
sample
encoder
loss
img
att
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111364293.8A
Other languages
English (en)
Inventor
李群
沈亚营
肖甫
徐鼎
周剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202111364293.8A priority Critical patent/CN114022739A/zh
Publication of CN114022739A publication Critical patent/CN114022739A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于对齐变分自编码器与三元组结合的零样本学习方法,输入已知类别图像特征及其对应选取的正样本和负样本组成的三元组到图像特征变分自编码器,输入已知类别图像对应的属性特征到属性变分自编码器;通过重建损失、参数对齐损失、交叉重建损失和三元组损失四种损失函数对自编码器进行优化学习;由编码器编码后获取图像特征和属性的潜在空间特征,并在潜在空间训练一个分类器。利用训练好的分类器对测试集数据进行测试。本方法能够为未知类别生成高质量潜在空间特征,弥补了零样本学习在训练过程中缺失未知类别训练样本的问题,并且能够更加紧密地联系视觉特征和语义特征,使得模型更具鲁棒性,分类精度明显提高。

Description

一种基于对齐变分自编码器与三元组结合的零样本学习方法
技术领域
本发明属于零样本图像分类技术领域,具体涉及一种基于对齐变分自编码器与三元组结合的零样本学习方法。
背景技术
深度学习已经在各个领域取得了广泛的应用,例如在图像分类问题下,其准确率目前可以达到不错的成绩,但其高准确率建立在有监督的基础上。大多数深度模型是通过大量有标签的训练样本进行学习,侧重于对已经在训练过程中出现过的标签类别样本进行分类。然而,现实的对象类别通常遵循长尾分布,其中一些类别有丰富的训练样本,而其他大部分类别只有很少甚至没有可用的训练样本。当需要模型对这些训练样本很少甚至没有训练样本的类别进行分类时,原有训练方法不再适用。另外,为数据进行标注的成本非常大。所以零样本学习的研究具有重要的意义。零样本学习的训练集和测试集之间没有交集,训练期间需要借助辅助信息,如属性,来建立训练集和测试集之间的联系,从而使得模型有效。传统零样本学习和广义零样本学习的训练集都只包括已知类别。传统零样本学习的测试集只包括未知类别,而广义零样本学习测试集包括已知类别和未知类别。
目前零样本学习方法主要分为两大类:基于空间嵌入的方法和基于生成模型的方法。基于空间嵌入的方法可以分为三类,第一类为将视觉特征嵌入到语义空间,如SAE方法(Elyor Kodirov,Tao Xiang,and Shaogang Gong.Semantic autoencoder for zero-shotlearning.In CVPR, 2017),第二类为将语义特征嵌入到视觉空间,如UVDS方法 (Y.Long,L.Liu,L.Shao,F.Shen,G.Ding,and J.Han.From zero-shot learning to conventionalsupervised classification:Unseen visual data synthesis.In CVPR,2017),第三类为将视觉特征和语义特征嵌入到公共空间,如SJE方法(Zeynep Akata,Scott Reed,DanielWalter,Honglak Lee,and Bernt Schiele.Evaluation of output embeddings forfinegrained image classification.In CVPR,2015)。基于空间嵌入的方法的主要目标是使用深度网络学习投影函数将视觉特征和语义特征映射到一个嵌入空间。在广义零样本学习设置中,基于空间嵌入的方法由于训练阶段缺乏未知类别的训练样本,测试时模型会倾向于将未知类别识别成已知类别,导致准确率降低。因此,基于生成模型的方法被提出,生成模型可以通过语义特征,如属性,为未知类别生成视觉特征用于训练,弥补了未知类训练数据缺失的问题。目前生成模型主要是基于变分自编码器和生成对抗网络的,如LisGAN(J.Li,M.Jing,K.Lu,Z. Ding,L.Zhu,and Z.Huang,Leveraging the invariant side ofgenerative zero-shot learning.In CVPR,2019)。然而,生成的特征与高质量特征仍有差距。
发明内容
为了解决上述问题,本发明提供了一种基于对齐变分自编码器与三元组结合的零样本学习方法,该方法将图像特征变分自编码器和属性变分自编码器作为骨干网络,将他们进行对齐,并与三元组结合,构建一个完整的模型。
一种基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:该零样本学习方法将图像特征变分自编码器和属性变分自编码器作为骨干网络,将它们进行对齐,并与三元组结合,构建一个完整的模型,该零样本学习方法具体包括如下步骤:
S1,在已知类别数据集中随机选取P个已知类别,每个类别选取 K个图像特征样本
Figure BDA0003360054110000031
及其对应的属性特征
Figure BDA0003360054110000032
和标签Y,组成一个训练数据集,其中Ns=P×K,d和da以分别是图像特征和属性特征的维度;
S2,根据特定的三元组选择方式为S1图像特征样本Xs中的每个样本x在Xs中选择符合条件的正样本和负样本组成三元组 (x,xp,xn),将三元组(x,xp,xn)与x对应的属性特征a一起输入模型;
S3,定义所有的编码器和解码器都是具有一个隐藏层的多层感知器;图像特征变分自编码器的编码器Eimg和解码器Dimg隐藏层神经元个数分别为n_hidden_E_img和n_hidden_D_img;属性变分自编码器的编码器Eatt和解码器Datt隐藏层神经元个数分别为n_hidden_E_att 和n_hidden_D_att;
S4,Eimg输入为图像特征x,则输出为(2×dz)维的向量,前dz维设为x的均值μ,后dz维设为x的方差Σ,从高斯分布(μ,Σ)中采样得到dz维的潜在空间特征z~N(0,I);Eatt输入为属性a,输出(μaa),并采样得到za~N(0,I),za维度与z相同;解码器输入为潜在空间特征,输出为重建的输入特征;
S5,根据S4计算得到图像特征和属性变分自编码器的重建损失 L1;
S6,将S4中Eimg和Eatt输出参数进行对齐,计算得到参数对齐损失L2;
S7,将S4中x的潜在空间特征z输入到Datt中,同时将a的潜在空间特征za输入到Dimg,进行交叉重建,计算得到交叉重建损失L3;
S8,对S2中三元组(x,xp,xn)在图像特征变分自编码器的重建特征计算三元组损失,计算得到三元组损失为L4;
S9,根据重建损失L1、参数对齐损失L2、交叉重建损失L3和三元组损失L4计算模型整体损失L,对模型进行反向传播优化参数;
S10,利用S9中学习到的模型为已知类和未知类生成潜在空间特征;
S11,在模型潜在空间中训练一个Softmax分类器,将S10中生成的潜在空间特征作为分类器的输入;
S12,将S11中训练好的分类器对测试集进行测试,得到分类精度。
进一步地,所述S2中的三元组(x,xp,xn),x为锚点,xp为与锚点属于同一类的正样本,(x,xp)称为正样本对,xn为与锚点属于不同类的负样本,(x,xn)称为负样本对。
进一步地,所述S2中的特定的三元组选择方式具体为四种;第一种:选取所有可能的三元组,可能的三元组即所有满足负样本对之间距离小于正样本对之间距离的三元组;第二种:为每个正样本对选择一个最难的负样本组成三元组,即先固定锚点和正样本,在所有负样本中选择一个距离锚点最近并且满足与锚点之间距离小于正样本对之间距离的负样本;第三种:为每个正样本对随机选择一个负样本组成三元组,即先固定锚点和正样本,在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本;第四种:为每个正样本对选择一个中等难度的负样本组成三元组,即先固定锚点和正样本,在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本但不是距离最小的负样本;其中,样本之间距离均为Euclidean距离。
进一步地,步骤S5中,重建损失L1如下:
L1=Lre(x,Dimg(Eimg(x)))-βKL(Ν(μ,Σ),Ν(0,I))
+Lre(a,Datt(Eatt(a)))-βKL(Ν(μaa),Ν(0,I))
其中,Lre为L1范数,KL为KL散度,N(0,I)为标准高斯分布;Ν(μ,Σ)和Ν(μaa)为图像特征编码器和属性编码器的输出,服从高斯分布;Dimg(Eimg(x))为图像特征x经过图像特征变分自编码器重建后的输出;Datt(Eatt(a))为属性a经过属性变分自编码器重建后的输出;β是权重系数。
进一步地,步骤S6中,参数对齐损失L2如下:
Figure BDA0003360054110000051
L2=Wxa+Wax
其中,
Figure BDA0003360054110000052
为Frobenius范数。
进一步地,步骤S7中,交叉重建损失L3如下:
L3=Lre(x,Dimg(Eatt(a)))+Lre(a,Datt(Eimg(x)))
其中,Dimg(Eatt(a))和Datt(Eimg(x))是模型交叉重建后的输出。
进一步地,步骤S8中,三元组损失L4如下:
Figure BDA0003360054110000061
其中,(x,xp,xn)表示根据特定条件选取的三元组,d()表示 Euclidean距离。
进一步地,步骤S9中,模型整体损失L如下:
L=L1+αL2+λL3+γL4
其中,α,λ,γ是权重系数。
进一步地,步骤S10中,针对广义零样本学习,将已知类别的训练样本分成两部分,一部分Xtrain进行模型的学习和分类器的训练,另一部分Xtest_seen对分类器进行测试。模型参数固定后再将Xtrain 中图像特征样本输入到图像特征编码器生成已知类别潜在空间特征,将未知类别属性输入到属性编码器生成未知类别潜在空间特征。
进一步地,步骤S12中,针对广义零样本学习,测试集包括权利要求9中的Xtest_seen和未知类别样本。
本发明的有益效果是:
(1)本发明利用训练好的属性变分自编码器,通过未知类别属性,生成对应的未知类别的潜在空间特征。同时通过训练好的图像特征变分自编码器为已知类别图像特征生成潜在空间特征。然后用潜在空间特征训练分类器在未知类别样本上测试,这弥补了零样本学习训练阶段中缺失未知类别训练样本的问题,在一定程度上减轻了测试时模型倾向于将未知类别识别成已知类别的分类偏见问题,从而提高了模型的分类精度。
(2)本发明对重建的图像特征采用三元组损失,优化了潜在空间特征分布,提高了潜在空间特征的质量,从而使得生成的潜在空间特征更有利于进行分类。
(3)本发明通过参数对齐和交叉重建将图像特征变分自编码器和属性变分自编码器对齐,参数对齐能够学习视觉信息和语义信息的跨模态联合表示,使用交叉重建能够有助于模型更好地捕获具有鉴别性的信息,具有鉴别性的视觉信息和语义信息的联合表示能够提高模型的鲁棒性和泛化性。
本发明提出了对齐的变分自编码器结构,学习和生成跨模态潜在空间特征,并与三元组结合优化潜在空间特征,能显著提高零样本学习网络模型的鲁棒性和识别精度。
附图说明
图1为本发明实施例中零样本学习方法的流程图。
图2为本发明实施例中零样本学习方法的网络模型结构图。
图3为本发明实施例中使用本方法产生的重建训练样本和真实训练样本的样本分布情况示意图,其中,(a)为真实训练样本的分布,(b) 为模型(不加三元组模块)重建训练样本的分布,(c)为SH-AVAE重建训练样本的分布。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明是一种基于对齐变分自编码器与三元组结合的零样本学习方法,该零样本学习方法具体包括如下步骤:
S1:在已知类别数据集中随机选取P个已知类别,每个类别选取 K个图像特征样本
Figure BDA0003360054110000081
及其对应的属性特征
Figure BDA0003360054110000082
和标签Y,组成一个训练数据集,其中Ns=P×K,d和da以分别是图像特征和属性特征的维度。
S2:根据特定的三元组选择方式为S1图像特征样本Xs中的每个样本x在Xs中选择符合条件的正样本和负样本组成三元组 (x,xp,xn),三元组(x,xp,xn)与x对应的属性特征a一起输入模型。三元组(x,xp,xn),x为锚点,xp为与锚点属于同一类的正样本,(x,xp)称为正样本对,xn为与锚点属于不同类的负样本, (x,xn)称为负样本对。
特定的三元组选择方式具体为四种。第一种:选取所有可能的三元组,可能的三元组即所有满足负样本对之间距离小于正样本对之间距离的三元组。第二种:为每个正样本对选择一个最难的负样本组成三元组,即先固定锚点和正样本,在所有负样本中选择一个距离锚点最近并且满足与锚点之间距离小于正样本对之间距离的负样本。第三种:为每个正样本对随机选择一个负样本组成三元组,即先固定锚点和正样本,在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本。第四种:为每个正样本对选择一个中等难度的负样本组成三元组,即先固定锚点和正样本,在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本但不是距离最小的负样本。其中,样本之间距离均为Euclidean 距离。
S3:因为CNN特性和属性已经是非常高级的表示,更多的隐藏层会降低了性能,因此定义所有的编码器和解码器都是具有一个隐藏层的多层感知器。图像特征变分自编码器的编码器Eimg和解码器Dimg隐藏层神经元个数分别为n_hidden_E_img和n_hidden_D_img;属性变分自编码器的编码器Eatt和解码器Datt隐藏层神经元个数分别为n_hidden_E_att和n_hidden_D_att。
S4:Eimg输入为图像特征x,则输出为(2×dz)维的向量,前dz维设为x的均值μ,后dz维设为x的方差Σ,从高斯分布(μ,Σ)中采样得到dz维的潜在空间特征z~N(0,I)。Eatt同理,输入属性a,输出 (μaa),并采样得到za~N(0,I),za维度与z相同。解码器输入为潜在空间特征,输出为重建的输入特征。
S5:根据S4定义图像特征和属性变分自编码器的重建损失L1 如下:
L1=Lre(x,Dimg(Eimg(x)))-βKL(Ν(μ,Σ),Ν(0,I))
+Lre(a,Datt(Eatt(a)))-βKL(Ν(μaa),Ν(0,I))
其中,Lre为L1范数,KL为KL散度,N(0,I)为标准高斯分布。Ν(μ,Σ)和Ν(μaa)为图像特征编码器和属性编码器的输出,服从高斯分布。Dimg(Eimg(x))为图像特征x经过图像特征变分自编码器重建后的输出。Datt(Eatt(a))为属性a经过属性变分自编码器重建后的输出。β是权重系数。
S6:将S4中Eimg和Eatt输出参数进行对齐,定义参数对齐损失 L2如下:
Figure BDA0003360054110000101
L2=Wxa+Wax
其中,
Figure BDA0003360054110000102
为Frobenius范数。Wax的计算公式类似,仅将对应参数进行更换。
S7:将S4中x的潜在空间特征z输入到Datt中,同时将a的潜在空间特征za输入到Dimg,进行交叉重建,定义交叉重建损失L3如下:
L3=Lre(x,Dimg(Eatt(a)))+Lre(a,Datt(Eimg(x)))
其中,Dimg(Eatt(a))和Datt(Eimg(x))是模型交叉重建后的输出。
S8:对S2中三元组(x,xp,xn)在图像特征变分自编码器的重建特征计算三元组损失,定义三元组损失为L4如下:
Figure BDA0003360054110000103
其中,(x,xp,xn)表示根据特定条件选取的三元组,d(x1,x2)表示 x1和x2之间的Euclidean距离。
S9:根据重建损失L1、参数对齐损失L2、交叉重建损失L3和三元组损失L4计算模型整体损失L,对模型进行反向传播优化参数;整体损失L定义如下:
L=L1+αL2+λL3+γL4
其中,α,λ,γ是权重系数。
S10:利用S9中学习到的模型为已知类和未知类生成潜在空间特 征;针对广义零样本学习,将已知类别的样本分成两部分,一部分Xtrain进行模型的学习和分类器的训练,另一部分Xtest_seen对分类 器进行测试。模型参数固定后再将Xtrain中图像特征样本输入到图像 特征编码器生成已知类别潜在空间特征,将未知类别属性输入到属性 编码器生成未知类别潜在空间特征。
上文中的模型指的是图像特征变分自编码器和属性变分自编码器,Xtrain先训练这两个变分自编码器,训练好之后只用到模型的编码器那部分,用编码器生成特征,并使用特征再训练一个分类器,相当于分了两个阶段。
S11:在模型潜在空间中训练一个Softmax分类器,将S10中生成的潜在空间特征作为分类器的输入。
S12:将S11中训练好的分类器对测试集进行测试,得到分类精度。针对广义零样本学习,测试集包括S10中的Xtest_seen和未知类别样本。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
A、实验条件
1.实验数据库
在AWA1,AWA2,CUB,SUN四个数据集上进行训练和测试。零样本学习中将数据集划分成训练类(有需要再细分成训练类和验证类)和测试类,在不同数据集上有不同的划分,训练类加验证类即为已知类别,测试类为未知类别,二者之间没有交集。详细介绍见如下表1。
表1数据集的详细介绍
Figure BDA0003360054110000121
2.实验参数设置
模型固定参数设置如下表2所示:
表2模型固定参数
n_hidden_E_img n_hidden_D_img n_hidden_E_att n_hidden_D_att P K dz d
1560 1660 1450 660 10 5 64 2048
B、实验结果评价标准
此模型针对于广义零样本学习设置,广义零样本学习中测试类的类别有未知类别,也有已知类别,这里用调和平均数H来衡量分类效果。H值越高,说明模型效果越好。H值的计算公式如下:
Figure BDA0003360054110000122
其中,S为已知类别的平均类别分类正确率,U为未知类别的平均类别分类正确率。
C、对比试验方案
本实施例在四个数据集上与其他目前前沿的零样本学习方法进行对比。
表3广义零样本图像分类性能比较:
Figure BDA0003360054110000131
BA-AVAE,BH-AVAE,RH-AVAE和SH-AVAE都是本文提出的方法,区别在于三元组选取条件不同。BA-AVAE中三元组选取具体方式为选择所有可能的三元组,BH-AVAE中三元组选取具体方式为为每个正样本对选择一个最难的负样本组成三元组,RH-AVAE中三元组选取具体方式为为每个正样本对随机选择一个负样本组成三元组,SH-AVAE中三元组选取具体方式为为每个正样本对选择一个中等难度的负样本组成三元组。表3结果表明本方法的效果超过其它比较的方法。ESZSL和SAE是基于空间嵌入的方法,由于模型训练时未知类别样本的缺失,导致模型在测试时倾向于将未知类别分类成已知类别,其结果表现出S远远高出U的现象,从而导致H值偏低。f-VAEGAN-D2,LisGAN和CADA-VAE是基于生成模型的方法,为未知类别生成训练数据在一定程度上缓解了分类偏见,但生成特征与高质量特征仍有差距。本方法将图像特征和属性特征的潜在空间特征对齐,更加紧密地联系了视觉特征和语义特征,同时使用三元组损失优化潜在空间特征,使模型能够生成更有利于分类的高质量潜在空间特征。表3数据从客观角度证明了本方法的有效性。
如图3所示,本方法产生的加三元组模块的模型所产生的重建训练样本分布优于不加三元组模块的模型所产生的重建训练样本分布,这是由于三元组损失优化了潜在空间特征的分布,有助于模型学习到有用的信息,更有利于最终的分类任务。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (10)

1.一种基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:该零样本学习方法将图像特征变分自编码器和属性变分自编码器作为骨干网络,将它们进行对齐,并与三元组结合,构建一个完整的模型,该零样本学习方法具体包括如下步骤:
S1,在已知类别数据集中随机选取P个已知类别,每个类别选取K个图像特征样本
Figure FDA0003360054100000011
及其对应的属性特征
Figure FDA0003360054100000012
和标签Y,组成一个训练数据集,其中Ns=P×K,d和da以分别是图像特征和属性特征的维度;
S2,根据特定的三元组选择方式为S1图像特征样本Xs中的每个样本x在Xs中选择符合条件的正样本和负样本组成三元组(x,xp,xn),将三元组(x,xp,xn)与x对应的属性特征a一起输入模型;
S3,定义所有的编码器和解码器都是具有一个隐藏层的多层感知器;图像特征变分自编码器的编码器Eimg和解码器Dimg隐藏层神经元个数分别为n_hidden_E_img和n_hidden_D_img;属性变分自编码器的编码器Eatt和解码器Datt隐藏层神经元个数分别为n_hidden_E_att和n_hidden_D_att;
S4,Eimg输入为图像特征x,则输出为(2×dz)维的向量,前dz维设为x的均值μ,后dz维设为x的方差Σ,从高斯分布N(μ,Σ)中采样得到dz维的潜在空间特征z~N(0,I);Eatt输入为属性a,输出N(μaa),并采样得到za~N(0,I),za维度与z相同;解码器输入为潜在空间特征,输出为重建的输入特征;
S5,根据S4计算得到图像特征和属性变分自编码器的重建损失L1;
S6,将S4中Eimg和Eatt输出参数进行对齐,计算得到参数对齐损失L2;
S7,将S4中x的潜在空间特征z输入到Datt中,同时将a的潜在空间特征za输入到Dimg,进行交叉重建,计算得到交叉重建损失L3;
S8,对S2中三元组(x,xp,xn)在图像特征变分自编码器的重建特征计算三元组损失,计算得到三元组损失为L4;
S9,根据重建损失L1、参数对齐损失L2、交叉重建损失L3和三元组损失L4计算模型整体损失L,对模型进行反向传播优化参数;
S10,利用S9中学习到的模型为已知类和未知类生成潜在空间特征;
S11,在模型潜在空间中训练一个Softmax分类器,将S10中生成的潜在空间特征作为分类器的输入;
S12,将S11中训练好的分类器对测试集进行测试,得到分类精度。
2.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:所述S2中的三元组(x,xp,xn),x为锚点,xp为与锚点属于同一类的正样本,(x,xp)称为正样本对,xn为与锚点属于不同类的负样本,(x,xn)称为负样本对。
3.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:所述S2中的特定的三元组选择方式具体为四种;第一种:选取所有可能的三元组,可能的三元组即所有满足负样本对之间距离小于正样本对之间距离的三元组;第二种:为每个正样本对选择一个最难的负样本组成三元组,即先固定锚点和正样本,在所有负样本中选择一个距离锚点最近并且满足与锚点之间距离小于正样本对之间距离的负样本;第三种:为每个正样本对随机选择一个负样本组成三元组,即先固定锚点和正样本,在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本;第四种:为每个正样本对选择一个中等难度的负样本组成三元组,即先固定锚点和正样本,在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本但不是距离最小的负样本;其中,样本之间距离均为Euclidean距离。
4.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:步骤S5中,重建损失L1如下:
L1=Lre(x,Dimg(Eimg(x)))-βKL(Ν(μ,Σ),Ν(0,I))+Lre(a,Datt(Eatt(a)))-βKL(Ν(μaa),Ν(0,I))
其中,Lre为L1范数,KL为KL散度,N(0,I)为标准高斯分布;Ν(μ,Σ)和Ν(μaa)为图像特征编码器和属性编码器的输出,服从高斯分布;Dimg(Eimg(x))为图像特征x经过图像特征变分自编码器重建后的输出;Datt(Eatt(a))为属性a经过属性变分自编码器重建后的输出;β是权重系数。
5.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:步骤S6中,参数对齐损失L2如下:
Figure FDA0003360054100000041
L2=Wxa+Wax
其中,
Figure FDA0003360054100000042
为Frobenius范数。
6.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:步骤S7中,交叉重建损失L3如下:
L3=Lre(x,Dimg(Eatt(a)))+Lre(a,Datt(Eimg(x)))
其中,Dimg(Eatt(a))和Datt(Eimg(x))是模型交叉重建后的输出。
7.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:步骤S8中,三元组损失L4如下:
Figure FDA0003360054100000043
其中,(x,xp,xn)表示根据特定条件选取的三元组,d()表示Euclidean距离。
8.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:步骤S9中,模型整体损失L如下:
L=L1+αL2+λL3+γL4
其中,α,λ,γ是权重系数。
9.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:步骤S10中,针对广义零样本学习,将已知类别的训练样本分成两部分,一部分Xtrain进行模型的学习和分类器的训练,另一部分Xtest_seen对分类器进行测试。模型参数固定后再将Xtrain中图像特征样本输入到图像特征编码器生成已知类别潜在空间特征,将未知类别属性输入到属性编码器生成未知类别潜在空间特征。
10.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法,其特征在于:步骤S12中,针对广义零样本学习,测试集包括权利要求9中的Xtest_seen和未知类别样本。
CN202111364293.8A 2021-11-17 2021-11-17 一种基于对齐变分自编码器与三元组结合的零样本学习方法 Pending CN114022739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111364293.8A CN114022739A (zh) 2021-11-17 2021-11-17 一种基于对齐变分自编码器与三元组结合的零样本学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111364293.8A CN114022739A (zh) 2021-11-17 2021-11-17 一种基于对齐变分自编码器与三元组结合的零样本学习方法

Publications (1)

Publication Number Publication Date
CN114022739A true CN114022739A (zh) 2022-02-08

Family

ID=80064911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111364293.8A Pending CN114022739A (zh) 2021-11-17 2021-11-17 一种基于对齐变分自编码器与三元组结合的零样本学习方法

Country Status (1)

Country Link
CN (1) CN114022739A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311477A (zh) * 2023-05-15 2023-06-23 华中科技大学 一种面向跨身份一致性的面部运动单元检测模型构建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311477A (zh) * 2023-05-15 2023-06-23 华中科技大学 一种面向跨身份一致性的面部运动单元检测模型构建方法
CN116311477B (zh) * 2023-05-15 2023-08-01 华中科技大学 一种面向跨身份一致性的面部运动单元检测模型构建方法

Similar Documents

Publication Publication Date Title
CN108875818B (zh) 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
US20230290234A1 (en) Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration
CN109598279B (zh) 基于自编码对抗生成网络的零样本学习方法
CN110097095B (zh) 一种基于多视图生成对抗网络的零样本分类方法
CN111507311A (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN110598759A (zh) 一种基于多模态融合的生成对抗网络的零样本分类方法
CN114676687A (zh) 基于增强语义句法信息的方面级情感分类方法
CN115310837A (zh) 基于因果图注意力神经网络的复杂机电系统故障检测方法
CN114611617A (zh) 基于原型网络的深度领域自适应图像分类方法
CN113537322B (zh) 一种跨模态语义增强生成对抗网络的零样本视觉分类方法
CN114022739A (zh) 一种基于对齐变分自编码器与三元组结合的零样本学习方法
CN116452862A (zh) 基于领域泛化学习的图像分类方法
CN113222002A (zh) 一种基于生成式鉴别性对比优化的零样本分类方法
CN112950414A (zh) 一种基于解耦法律要素的法律文本表示方法
CN112380374A (zh) 一种基于语义扩充的零样本图像分类方法
CN116756391A (zh) 一种基于图数据增强的不平衡图节点神经网络分类方法
CN116467930A (zh) 一种基于Transformer的结构化数据通用建模方法
CN113435190B (zh) 一种融合多层次信息抽取和降噪的篇章关系抽取方法
CN114077895A (zh) 对抗性策略的变分自编码模型
CN115761355A (zh) 基于特征优化的混合广义零样本学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination