CN114022739A

CN114022739A - 一种基于对齐变分自编码器与三元组结合的零样本学习方法

Info

Publication number: CN114022739A
Application number: CN202111364293.8A
Authority: CN
Inventors: 李群; 沈亚营; 肖甫; 徐鼎; 周剑
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-08

Abstract

一种基于对齐变分自编码器与三元组结合的零样本学习方法，输入已知类别图像特征及其对应选取的正样本和负样本组成的三元组到图像特征变分自编码器，输入已知类别图像对应的属性特征到属性变分自编码器；通过重建损失、参数对齐损失、交叉重建损失和三元组损失四种损失函数对自编码器进行优化学习；由编码器编码后获取图像特征和属性的潜在空间特征，并在潜在空间训练一个分类器。利用训练好的分类器对测试集数据进行测试。本方法能够为未知类别生成高质量潜在空间特征，弥补了零样本学习在训练过程中缺失未知类别训练样本的问题，并且能够更加紧密地联系视觉特征和语义特征，使得模型更具鲁棒性，分类精度明显提高。

Description

一种基于对齐变分自编码器与三元组结合的零样本学习方法

技术领域

本发明属于零样本图像分类技术领域，具体涉及一种基于对齐变分自编码器与三元组结合的零样本学习方法。

背景技术

深度学习已经在各个领域取得了广泛的应用，例如在图像分类问题下，其准确率目前可以达到不错的成绩，但其高准确率建立在有监督的基础上。大多数深度模型是通过大量有标签的训练样本进行学习，侧重于对已经在训练过程中出现过的标签类别样本进行分类。然而，现实的对象类别通常遵循长尾分布，其中一些类别有丰富的训练样本，而其他大部分类别只有很少甚至没有可用的训练样本。当需要模型对这些训练样本很少甚至没有训练样本的类别进行分类时，原有训练方法不再适用。另外，为数据进行标注的成本非常大。所以零样本学习的研究具有重要的意义。零样本学习的训练集和测试集之间没有交集，训练期间需要借助辅助信息，如属性，来建立训练集和测试集之间的联系，从而使得模型有效。传统零样本学习和广义零样本学习的训练集都只包括已知类别。传统零样本学习的测试集只包括未知类别，而广义零样本学习测试集包括已知类别和未知类别。

目前零样本学习方法主要分为两大类：基于空间嵌入的方法和基于生成模型的方法。基于空间嵌入的方法可以分为三类，第一类为将视觉特征嵌入到语义空间，如SAE方法(Elyor Kodirov,Tao Xiang,and Shaogang Gong.Semantic autoencoder for zero-shotlearning.In CVPR, 2017)，第二类为将语义特征嵌入到视觉空间，如UVDS方法 (Y.Long,L.Liu,L.Shao,F.Shen,G.Ding,and J.Han.From zero-shot learning to conventionalsupervised classification:Unseen visual data synthesis.In CVPR,2017)，第三类为将视觉特征和语义特征嵌入到公共空间，如SJE方法(Zeynep Akata,Scott Reed,DanielWalter,Honglak Lee,and Bernt Schiele.Evaluation of output embeddings forfinegrained image classification.In CVPR,2015)。基于空间嵌入的方法的主要目标是使用深度网络学习投影函数将视觉特征和语义特征映射到一个嵌入空间。在广义零样本学习设置中，基于空间嵌入的方法由于训练阶段缺乏未知类别的训练样本，测试时模型会倾向于将未知类别识别成已知类别，导致准确率降低。因此，基于生成模型的方法被提出，生成模型可以通过语义特征，如属性，为未知类别生成视觉特征用于训练，弥补了未知类训练数据缺失的问题。目前生成模型主要是基于变分自编码器和生成对抗网络的，如LisGAN(J.Li,M.Jing,K.Lu,Z. Ding,L.Zhu,and Z.Huang,Leveraging the invariant side ofgenerative zero-shot learning.In CVPR,2019)。然而，生成的特征与高质量特征仍有差距。

发明内容

为了解决上述问题，本发明提供了一种基于对齐变分自编码器与三元组结合的零样本学习方法，该方法将图像特征变分自编码器和属性变分自编码器作为骨干网络，将他们进行对齐，并与三元组结合，构建一个完整的模型。

一种基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：该零样本学习方法将图像特征变分自编码器和属性变分自编码器作为骨干网络，将它们进行对齐，并与三元组结合，构建一个完整的模型，该零样本学习方法具体包括如下步骤：

S1，在已知类别数据集中随机选取P个已知类别，每个类别选取 K个图像特征样本

及其对应的属性特征

和标签Y，组成一个训练数据集，其中N_s＝P×K，d和d_a以分别是图像特征和属性特征的维度；

S2，根据特定的三元组选择方式为S1图像特征样本X_s中的每个样本x在X_s中选择符合条件的正样本和负样本组成三元组 (x,x_p,x_n)，将三元组(x,x_p,x_n)与x对应的属性特征a一起输入模型；

S3，定义所有的编码器和解码器都是具有一个隐藏层的多层感知器；图像特征变分自编码器的编码器E_img和解码器D_img隐藏层神经元个数分别为n_hidden_E_img和n_hidden_D_img；属性变分自编码器的编码器E_att和解码器D_att隐藏层神经元个数分别为n_hidden_E_att 和n_hidden_D_att；

S4，E_img输入为图像特征x，则输出为(2×d_z)维的向量，前d_z维设为x的均值μ，后d_z维设为x的方差Σ，从高斯分布(μ,Σ)中采样得到d_z维的潜在空间特征z～N(0,I)；E_att输入为属性a，输出(μ_a,Σ_a)，并采样得到z_a～N(0,I)，z_a维度与z相同；解码器输入为潜在空间特征，输出为重建的输入特征；

S5，根据S4计算得到图像特征和属性变分自编码器的重建损失 L1；

S6，将S4中E_img和E_att输出参数进行对齐，计算得到参数对齐损失L2；

S7，将S4中x的潜在空间特征z输入到D_att中，同时将a的潜在空间特征z_a输入到D_img，进行交叉重建，计算得到交叉重建损失L3；

S8，对S2中三元组(x,x_p,x_n)在图像特征变分自编码器的重建特征计算三元组损失，计算得到三元组损失为L4；

S9，根据重建损失L1、参数对齐损失L2、交叉重建损失L3和三元组损失L4计算模型整体损失L，对模型进行反向传播优化参数；

S10，利用S9中学习到的模型为已知类和未知类生成潜在空间特征；

S11，在模型潜在空间中训练一个Softmax分类器，将S10中生成的潜在空间特征作为分类器的输入；

S12，将S11中训练好的分类器对测试集进行测试，得到分类精度。

进一步地，所述S2中的三元组(x,x_p,x_n)，x为锚点，x_p为与锚点属于同一类的正样本，(x,x_p)称为正样本对，x_n为与锚点属于不同类的负样本，(x,x_n)称为负样本对。

进一步地，所述S2中的特定的三元组选择方式具体为四种；第一种：选取所有可能的三元组，可能的三元组即所有满足负样本对之间距离小于正样本对之间距离的三元组；第二种：为每个正样本对选择一个最难的负样本组成三元组，即先固定锚点和正样本，在所有负样本中选择一个距离锚点最近并且满足与锚点之间距离小于正样本对之间距离的负样本；第三种：为每个正样本对随机选择一个负样本组成三元组，即先固定锚点和正样本，在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本；第四种：为每个正样本对选择一个中等难度的负样本组成三元组，即先固定锚点和正样本，在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本但不是距离最小的负样本；其中，样本之间距离均为Euclidean距离。

进一步地，步骤S5中，重建损失L1如下：

L₁＝L_re(x,D_img(E_img(x)))-βKL(Ν(μ,Σ),Ν(0,I))

+L_re(a,D_att(E_att(a)))-βKL(Ν(μ_a,Σ_a),Ν(0,I))

其中，L_re为L1范数，KL为KL散度，N(0，I)为标准高斯分布；Ν(μ,Σ)和Ν(μ_a,Σ_a)为图像特征编码器和属性编码器的输出，服从高斯分布；D_img(E_img(x))为图像特征x经过图像特征变分自编码器重建后的输出；D_att(E_att(a))为属性a经过属性变分自编码器重建后的输出；β是权重系数。

进一步地，步骤S6中，参数对齐损失L2如下：

L₂＝W_xa+W_ax

其中，

为Frobenius范数。

进一步地，步骤S7中，交叉重建损失L3如下：

L₃＝L_re(x,D_img(E_att(a)))+L_re(a,D_att(E_img(x)))

其中，D_img(E_att(a))和D_att(E_img(x))是模型交叉重建后的输出。

进一步地，步骤S8中，三元组损失L4如下：

其中，(x,x_p,x_n)表示根据特定条件选取的三元组，d()表示 Euclidean距离。

进一步地，步骤S9中，模型整体损失L如下：

L＝L₁+αL₂+λL₃+γL₄

其中，α，λ，γ是权重系数。

进一步地，步骤S10中，针对广义零样本学习，将已知类别的训练样本分成两部分，一部分Xtrain进行模型的学习和分类器的训练，另一部分Xtest_seen对分类器进行测试。模型参数固定后再将Xtrain 中图像特征样本输入到图像特征编码器生成已知类别潜在空间特征，将未知类别属性输入到属性编码器生成未知类别潜在空间特征。

进一步地，步骤S12中，针对广义零样本学习，测试集包括权利要求9中的Xtest_seen和未知类别样本。

本发明的有益效果是：

(1)本发明利用训练好的属性变分自编码器，通过未知类别属性，生成对应的未知类别的潜在空间特征。同时通过训练好的图像特征变分自编码器为已知类别图像特征生成潜在空间特征。然后用潜在空间特征训练分类器在未知类别样本上测试，这弥补了零样本学习训练阶段中缺失未知类别训练样本的问题，在一定程度上减轻了测试时模型倾向于将未知类别识别成已知类别的分类偏见问题，从而提高了模型的分类精度。

(2)本发明对重建的图像特征采用三元组损失，优化了潜在空间特征分布，提高了潜在空间特征的质量，从而使得生成的潜在空间特征更有利于进行分类。

(3)本发明通过参数对齐和交叉重建将图像特征变分自编码器和属性变分自编码器对齐，参数对齐能够学习视觉信息和语义信息的跨模态联合表示，使用交叉重建能够有助于模型更好地捕获具有鉴别性的信息，具有鉴别性的视觉信息和语义信息的联合表示能够提高模型的鲁棒性和泛化性。

本发明提出了对齐的变分自编码器结构，学习和生成跨模态潜在空间特征，并与三元组结合优化潜在空间特征，能显著提高零样本学习网络模型的鲁棒性和识别精度。

附图说明

图1为本发明实施例中零样本学习方法的流程图。

图2为本发明实施例中零样本学习方法的网络模型结构图。

图3为本发明实施例中使用本方法产生的重建训练样本和真实训练样本的样本分布情况示意图，其中，(a)为真实训练样本的分布，(b) 为模型(不加三元组模块)重建训练样本的分布，(c)为SH-AVAE重建训练样本的分布。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明是一种基于对齐变分自编码器与三元组结合的零样本学习方法，该零样本学习方法具体包括如下步骤：

S1：在已知类别数据集中随机选取P个已知类别，每个类别选取 K个图像特征样本

及其对应的属性特征

和标签Y，组成一个训练数据集，其中N_s＝P×K，d和d_a以分别是图像特征和属性特征的维度。

S2：根据特定的三元组选择方式为S1图像特征样本X_s中的每个样本x在X_s中选择符合条件的正样本和负样本组成三元组 (x,x_p,x_n)，三元组(x,x_p,x_n)与x对应的属性特征a一起输入模型。三元组(x,x_p,x_n)，x为锚点，x_p为与锚点属于同一类的正样本，(x,x_p)称为正样本对，x_n为与锚点属于不同类的负样本， (x,x_n)称为负样本对。

特定的三元组选择方式具体为四种。第一种：选取所有可能的三元组，可能的三元组即所有满足负样本对之间距离小于正样本对之间距离的三元组。第二种：为每个正样本对选择一个最难的负样本组成三元组，即先固定锚点和正样本，在所有负样本中选择一个距离锚点最近并且满足与锚点之间距离小于正样本对之间距离的负样本。第三种：为每个正样本对随机选择一个负样本组成三元组，即先固定锚点和正样本，在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本。第四种：为每个正样本对选择一个中等难度的负样本组成三元组，即先固定锚点和正样本，在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本但不是距离最小的负样本。其中，样本之间距离均为Euclidean 距离。

S3：因为CNN特性和属性已经是非常高级的表示，更多的隐藏层会降低了性能，因此定义所有的编码器和解码器都是具有一个隐藏层的多层感知器。图像特征变分自编码器的编码器E_img和解码器D_img隐藏层神经元个数分别为n_hidden_E_img和n_hidden_D_img；属性变分自编码器的编码器E_att和解码器D_att隐藏层神经元个数分别为n_hidden_E_att和n_hidden_D_att。

S4：E_img输入为图像特征x，则输出为(2×d_z)维的向量，前d_z维设为x的均值μ，后d_z维设为x的方差Σ，从高斯分布(μ,Σ)中采样得到d_z维的潜在空间特征z～N(0,I)。E_att同理，输入属性a，输出 (μ_a,Σ_a)，并采样得到z_a～N(0,I)，z_a维度与z相同。解码器输入为潜在空间特征，输出为重建的输入特征。

S5：根据S4定义图像特征和属性变分自编码器的重建损失L1 如下：

L₁＝L_re(x,D_img(E_img(x)))-βKL(Ν(μ,Σ),Ν(0,I))

+L_re(a,D_att(E_att(a)))-βKL(Ν(μ_a,Σ_a),Ν(0,I))

其中，L_re为L1范数，KL为KL散度，N(0，I)为标准高斯分布。Ν(μ,Σ)和Ν(μ_a,Σ_a)为图像特征编码器和属性编码器的输出，服从高斯分布。D_img(E_img(x))为图像特征x经过图像特征变分自编码器重建后的输出。D_att(E_att(a))为属性a经过属性变分自编码器重建后的输出。β是权重系数。

S6：将S4中E_img和E_att输出参数进行对齐，定义参数对齐损失 L2如下：

L₂＝W_xa+W_ax

其中，

为Frobenius范数。W_ax的计算公式类似，仅将对应参数进行更换。

S7：将S4中x的潜在空间特征z输入到D_att中，同时将a的潜在空间特征z_a输入到D_img，进行交叉重建，定义交叉重建损失L3如下：

L₃＝L_re(x,D_img(E_att(a)))+L_re(a,D_att(E_img(x)))

其中，D_img(E_att(a))和D_att(E_img(x))是模型交叉重建后的输出。

S8：对S2中三元组(x,x_p,x_n)在图像特征变分自编码器的重建特征计算三元组损失，定义三元组损失为L4如下：

其中，(x,x_p,x_n)表示根据特定条件选取的三元组，d(x1,x2)表示 x1和x2之间的Euclidean距离。

S9：根据重建损失L1、参数对齐损失L2、交叉重建损失L3和三元组损失L4计算模型整体损失L，对模型进行反向传播优化参数；整体损失L定义如下：

L＝L₁+αL₂+λL₃+γL₄

其中，α，λ，γ是权重系数。

S10：利用S9中学习到的模型为已知类和未知类生成潜在空间特征；针对广义零样本学习，将已知类别的样本分成两部分，一部分Xtrain进行模型的学习和分类器的训练，另一部分Xtest_seen对分类器进行测试。模型参数固定后再将Xtrain中图像特征样本输入到图像特征编码器生成已知类别潜在空间特征，将未知类别属性输入到属性编码器生成未知类别潜在空间特征。

上文中的模型指的是图像特征变分自编码器和属性变分自编码器，Xtrain先训练这两个变分自编码器，训练好之后只用到模型的编码器那部分，用编码器生成特征，并使用特征再训练一个分类器，相当于分了两个阶段。

S11：在模型潜在空间中训练一个Softmax分类器，将S10中生成的潜在空间特征作为分类器的输入。

S12：将S11中训练好的分类器对测试集进行测试，得到分类精度。针对广义零样本学习，测试集包括S10中的Xtest_seen和未知类别样本。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

A、实验条件

1.实验数据库

在AWA1，AWA2，CUB，SUN四个数据集上进行训练和测试。零样本学习中将数据集划分成训练类(有需要再细分成训练类和验证类)和测试类，在不同数据集上有不同的划分，训练类加验证类即为已知类别，测试类为未知类别，二者之间没有交集。详细介绍见如下表1。

表1数据集的详细介绍

2.实验参数设置

模型固定参数设置如下表2所示：

表2模型固定参数

n_hidden_E_img	n_hidden_D_img	n_hidden_E_att	n_hidden_D_att	P	K	dz	d
								1560	1660	1450	660	10	5	64	2048

B、实验结果评价标准

此模型针对于广义零样本学习设置，广义零样本学习中测试类的类别有未知类别，也有已知类别，这里用调和平均数H来衡量分类效果。H值越高，说明模型效果越好。H值的计算公式如下：

其中，S为已知类别的平均类别分类正确率，U为未知类别的平均类别分类正确率。

C、对比试验方案

本实施例在四个数据集上与其他目前前沿的零样本学习方法进行对比。

表3广义零样本图像分类性能比较：

BA-AVAE，BH-AVAE，RH-AVAE和SH-AVAE都是本文提出的方法，区别在于三元组选取条件不同。BA-AVAE中三元组选取具体方式为选择所有可能的三元组，BH-AVAE中三元组选取具体方式为为每个正样本对选择一个最难的负样本组成三元组，RH-AVAE中三元组选取具体方式为为每个正样本对随机选择一个负样本组成三元组，SH-AVAE中三元组选取具体方式为为每个正样本对选择一个中等难度的负样本组成三元组。表3结果表明本方法的效果超过其它比较的方法。ESZSL和SAE是基于空间嵌入的方法，由于模型训练时未知类别样本的缺失，导致模型在测试时倾向于将未知类别分类成已知类别，其结果表现出S远远高出U的现象，从而导致H值偏低。f-VAEGAN-D2，LisGAN和CADA-VAE是基于生成模型的方法，为未知类别生成训练数据在一定程度上缓解了分类偏见，但生成特征与高质量特征仍有差距。本方法将图像特征和属性特征的潜在空间特征对齐，更加紧密地联系了视觉特征和语义特征，同时使用三元组损失优化潜在空间特征，使模型能够生成更有利于分类的高质量潜在空间特征。表3数据从客观角度证明了本方法的有效性。

如图3所示，本方法产生的加三元组模块的模型所产生的重建训练样本分布优于不加三元组模块的模型所产生的重建训练样本分布，这是由于三元组损失优化了潜在空间特征的分布，有助于模型学习到有用的信息，更有利于最终的分类任务。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：该零样本学习方法将图像特征变分自编码器和属性变分自编码器作为骨干网络，将它们进行对齐，并与三元组结合，构建一个完整的模型，该零样本学习方法具体包括如下步骤：

S1，在已知类别数据集中随机选取P个已知类别，每个类别选取K个图像特征样本

及其对应的属性特征

S2，根据特定的三元组选择方式为S1图像特征样本X_s中的每个样本x在X_s中选择符合条件的正样本和负样本组成三元组(x,x_p,x_n)，将三元组(x,x_p,x_n)与x对应的属性特征a一起输入模型；

S3，定义所有的编码器和解码器都是具有一个隐藏层的多层感知器；图像特征变分自编码器的编码器E_img和解码器D_img隐藏层神经元个数分别为n_hidden_E_img和n_hidden_D_img；属性变分自编码器的编码器E_att和解码器D_att隐藏层神经元个数分别为n_hidden_E_att和n_hidden_D_att；

S4，E_img输入为图像特征x，则输出为(2×d_z)维的向量，前d_z维设为x的均值μ，后d_z维设为x的方差Σ，从高斯分布N(μ,Σ)中采样得到d_z维的潜在空间特征z～N(0,I)；E_att输入为属性a，输出N(μ_a,Σ_a)，并采样得到z_a～N(0,I)，z_a维度与z相同；解码器输入为潜在空间特征，输出为重建的输入特征；

S5，根据S4计算得到图像特征和属性变分自编码器的重建损失L1；

2.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：所述S2中的三元组(x,x_p,x_n)，x为锚点，x_p为与锚点属于同一类的正样本，(x,x_p)称为正样本对，x_n为与锚点属于不同类的负样本，(x,x_n)称为负样本对。

3.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：所述S2中的特定的三元组选择方式具体为四种；第一种：选取所有可能的三元组，可能的三元组即所有满足负样本对之间距离小于正样本对之间距离的三元组；第二种：为每个正样本对选择一个最难的负样本组成三元组，即先固定锚点和正样本，在所有负样本中选择一个距离锚点最近并且满足与锚点之间距离小于正样本对之间距离的负样本；第三种：为每个正样本对随机选择一个负样本组成三元组，即先固定锚点和正样本，在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本；第四种：为每个正样本对选择一个中等难度的负样本组成三元组，即先固定锚点和正样本，在所有负样本中随机选择一个满足与锚点之间距离小于锚点与正样本之间距离的负样本但不是距离最小的负样本；其中，样本之间距离均为Euclidean距离。

4.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：步骤S5中，重建损失L1如下：

L₁＝L_re(x,D_img(E_img(x)))-βKL(Ν(μ,Σ),Ν(0,I))+L_re(a,D_att(E_att(a)))-βKL(Ν(μ_a,Σ_a),Ν(0,I))

5.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：步骤S6中，参数对齐损失L2如下：

L₂＝W_xa+W_ax

其中，

为Frobenius范数。

6.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：步骤S7中，交叉重建损失L3如下：

L₃＝L_re(x,D_img(E_att(a)))+L_re(a,D_att(E_img(x)))

其中，D_img(E_att(a))和D_att(E_img(x))是模型交叉重建后的输出。

7.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：步骤S8中，三元组损失L4如下：

其中，(x,x_p,x_n)表示根据特定条件选取的三元组，d()表示Euclidean距离。

8.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：步骤S9中，模型整体损失L如下：

L＝L₁+αL₂+λL₃+γL₄

其中，α，λ，γ是权重系数。

9.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：步骤S10中，针对广义零样本学习，将已知类别的训练样本分成两部分，一部分Xtrain进行模型的学习和分类器的训练，另一部分Xtest_seen对分类器进行测试。模型参数固定后再将Xtrain中图像特征样本输入到图像特征编码器生成已知类别潜在空间特征，将未知类别属性输入到属性编码器生成未知类别潜在空间特征。

10.根据权利要求1所述基于对齐变分自编码器与三元组结合的零样本学习方法，其特征在于：步骤S12中，针对广义零样本学习，测试集包括权利要求9中的Xtest_seen和未知类别样本。