CN110580501B

CN110580501B - 一种基于变分自编码对抗网络的零样本图像分类方法

Info

Publication number: CN110580501B
Application number: CN201910770543.4A
Authority: CN
Inventors: 冀中; 崔碧莹; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2023-04-25
Anticipated expiration: 2039-08-20
Also published as: CN110580501A

Abstract

一种基于变分自编码对抗网络的零样本图像分类方法，是通过构造视觉模态和语义模态两个变分自编码器并以视觉特征和语义特征分别对应作为两个变分自编码器的输入，生成伪视觉特征和语义特征，最后将真实的和生成的视觉特征和语义特征输入判别器，通过度量学习的方法完成对抗过程；然后开始训练softmax分类器，将未见类图像的视觉特征输入视觉模态的变分自编码器中，利用生成的伪视觉特征和对应的标签训练分类器；在测试的时候，将未见类样本的真实视觉特征输入分类器进行分类，实现零样本图像分类任务。本发明可以实现在更加真实的场景中的分类任务，有利于推动零样本学习应用于生产生活实际，加速深度学习算法向实用发展。

Description

一种基于变分自编码对抗网络的零样本图像分类方法

技术领域

本发明涉及一种图像分类方法。特别是涉及一种基于变分自编码对抗网络的零样本图像分类方法。

背景技术

一直以来，机器学习受到了自然语言处理、计算机视觉、语音识别等领域的广泛关注。近年来，在计算机视觉领域中，图像分类任务的性能不断提升，应用场景不断延伸，对分类技术的要求也越来越严格。随着深度卷积神经网络的发展，机器学习到达了一个新的发展高度，监督学习是机器学习的重要方法，在解决图像的分类问题中，通过大量人工标注好的图像，监督学习的性能得到不断提升，在现实生活中也实现了很好的应用价值。然而，对于图像分类任务，实际上为每个类别收集足够的有标签样本并不容易，自然界物种的数量分布呈现长尾效应，大部分样本充足的图像所属类别只占全部种类的一小部分，这就为监督学习带来了巨大挑战。因此，为解决样本标签缺失的问题，零样本学习被提出。

零样本学习可以用于解决对无标签图像的分类问题，也就是说，测试图像的类别不参与训练，与训练图像所属的类别不相交。近年来，随着研究人员的增多，零样本图像分类的性能取得了一些进展，主要工作方向可大致分为两个方向。一个是通过改进视觉特征和语义特征之间相互映射的方法来提升零样本图像分类的准确率，另一个是基于生成的方法，通过用训练数据学习到的生成模型来生成测试类别的伪视觉特征，利用生成的伪视觉特征与测试样本的真实视觉特征间的相似度关系，确定测试样本所属类别。

零样本学习通过引入可见类别与未见类别共享的类别语义信息以达到知识迁移的作用，完成对测试样本类别的预测。假设在训练阶段给出了可见类别的数据{x_i,s_i,y_i}ⁿ，其中n为可见类别样本总数，

是可见类别第i个样本对应的视觉特征；

是可见类别第i个样本对应的类别语义信息；

是可见类别第i个样本对应的类别标签；p、q分别是视觉和语义空间的维度。在测试阶段，根据未见类别的语义特征和类别标签{s_t,y_t}，对其视觉特征x_t进行分类，其中

并且有

零样本的任务就是利用可见类别的数据训练模型，进而利用训练好的模型预测未见类别的标签y_t。

现存的基于生成数据的方法主要包括以下步骤：

1)利用训练样本，通过线性模型或者深度模型实现由语义空间S到视觉空间X的映射：

2)利用训练样本学习到的映射关系f将测试样本的语义特征映射到视觉空间，得到测试样本各个类别对应的预测视觉特征。

3)利用预测得到的视觉特征与测试样本的真实视觉特征间的相似度关系，确定测试样本所属类别。通常确定类别使用的判别标准为最近邻方法。

然而基于生成类的方法存在着以下问题：

利用线性模型实现由语义空间到视觉空间的映射时，线性模型因过于简单而不能完成对语义视觉间的完整表征。引入生成对抗网络之后，利用生成器G和判别器D间的对抗学习，训练一个可以拟合真实视觉特征的生成器G。然而，针对生成特征和真实特征的差异计算损失函数来优化性能的方法容易引发模式崩溃的问题，训练也很不稳定。现有的基于生成模型的方法考虑从语义特征到视觉特征的单项对齐，因此无法很好地实现视觉-语义的交互。还有一种基于生成的方法引入了变分自编码器(VAE)，以语义信息为条件输入VAE生成伪视觉特征。但VAE由于变分下界的引入使生成的视觉特征容易失真。

发明内容

本发明所要解决的技术问题是，提供一种能够提高零样本图像分类准确率的基于变分自编码对抗网络的零样本图像分类方法。

本发明所采用的技术方案是：一种基于变分自编码对抗网络的零样本图像分类方法，是通过构造视觉模态和语义模态两个变分自编码器并以视觉特征和语义特征分别对应作为两个变分自编码器的输入，生成伪视觉特征和语义特征，最后将真实的和生成的视觉特征和语义特征输入判别器，通过度量学习的方法完成对抗过程；然后开始训练softmax分类器，将未见类图像的视觉特征输入视觉模态的变分自编码器中，利用生成的伪视觉特征和对应的标签训练分类器；在测试的时候，将未见类样本的真实视觉特征输入分类器进行分类，实现零样本图像分类任务。

首先将图像数据集分为训练集和测试集，并设定x为训练样本的视觉特征，s为训练样本的类别语义特征，x_t为测试样本的视觉特征，s_t为测试样本的类别语义特征，然后进行如下步骤：

1)分别初始化视觉模态变分自编码器中的编码器E₁和解码器D₁、语义模态变分自编码器中的编码器E₂和解码器D₂以及判别器D的参数w₁、v₁、w₂、v₂和r；

2)将训练样本的视觉特征x和类别语义特征s随机选取设定批量的数据，分别作为编码器E₁和编码器E₂的输入；

3)根据如下生成伪视觉特征公式和生成伪类别语义特征公式，得到生成的伪视觉特征

和伪类别语义特征

其中，编码器E₁和编码器E₂的输出为潜在变量，分别用表示，z₁、z₂的概率分布如下表示：

p(z₁|x)＝Ν(μ₁,Σ₁) (3)

q(z₂|s)＝Ν(μ₂,Σ₂) (4)

其中，p(z₁|x)和q(z₂|s)分别表示潜在变量z₁和z₂的分布，μ₁、Σ₁分别表示潜在变量z₁的均值和方差，μ₂、Σ₂分别表示潜在变量z₂的均值和方差，Ν表示正态分布；

4)将训练样本的视觉特征x和类别语义特征s、生成的伪视觉特征

和训练样本的类别语义特征s、训练样本的视觉特征x和生成的伪类别语义特征

以及训练样本的视觉特征x和训练样本类别之外的其他类别语义特征s^-，这四对特征对随机选取设定批量的数据，作为判别器D的输入利用度量学习的方法对输入的数据对的真假进行判断，这其中，只有(x,s)为真，

和(x,s^-)均为假，输出一个兼容性得分来表示输入的视觉和语义特征是否匹配；

5)使用判别器D的对抗损失函数公式训练判别器D，保留使判别器D性能最好的参数r，所述的对抗损失函数公式如下：

其中，L_D为判别器D的对抗损失函数，

为在训练样本的视觉特征x和类别语义特征s的联合分布上计算期望，

为在生成的伪视觉特征

和类别语义特征s的联合分布上计算期望，

为在训练样本的视觉特征x生成的伪视觉特征

的联合分布上计算期望，

为在训练样本的视觉特征x和训练样本类别之外的其他类别语义特征s^-的联合分布上计算期望；

6)根据对齐约束函数公式，训练编码器E₁和编码器E₂，保留使编码器E₁和编码器E₂性能最好的参数w₁、w₂，所述对齐约束函数公式如下：

其中L为对齐约束函数，

为2范数表示；

7)使用步骤6)得到的参数w₁、w₂，根据生成伪视觉特征公式和生成伪类别语义特征公式，生成伪视觉特征

和伪类别语义特征

8)根据如下重构损失函数公式、视觉模态变分自编码器损失函数公式和语义模态变分自编码器损失函数公式，分别计算特征重构损失、视觉模态变分自编码器损失和语义模态变分自编码器损失，并更新编码器E₁、编码器E₂、解码器D₁和解码器D₂的参数w₁、w₂、v₁和v₂：

其中，L_rec表示重构损失函数，L_VAE-1表示视觉模态变分自编码器损失函数，L_VAE-2表示语义模态变分自编码器损失函数，

表示分别在潜在变量z₁和z₂的分布上计算期望，p(x|z₁)和p(s|z₂)分别表示通过潜在变量z₁和z₂生成视觉特征和语义特征的分布，q(z₁|x)和q(z₂|s)潜在变量z₁和z₂的条件分布，p(z₁)和p(z₂)表示潜在变量z₁和z₂的先验分布，这里我们设定为正态分布，log为取对数运算，D_KL为KL散度计算；

9)重复步骤2)～步骤8)，达到设定的迭代次数，得到最终的编码器E₁、解码器D₁、编码器E₂、解码器D₂以及判别器D的参数w₁、v₁、w₂、v₂和r；

10)将测试样本的视觉特征x_t和类别语义特征s_t分别输入到训练好的编码器E₁和解码器D₁中，得到未见类别的伪视觉特征

利用伪视觉特征

和对应的标签训练softmax分类器；

11)将测试样本的视觉特征x_t输入到训练好的softmax分类器中，得到预测的类别标签，即分类结果。

本发明的一种基于变分自编码对抗网络的零样本图像分类方法，利用双变分自编码器潜在特征对齐的方法模拟视觉特征的生成过程，并利用度量学习的方法训练判别器，在二者的对抗中更直观高效地提升零样本学习的性能。其优势主要体现在：

本发明将双变分自编码器和判别器组合在一起用于零样本分类任务中，通过将视觉特征和语义特征同时输入网络，构建了一个具有两个变分自编码器和一个四输入判别器的网络结构，不仅完成了视觉特征的生成过程，而且保证了不同模态间的对齐关系，设计了适合于图像数据特征的零样本分类技术。由此，本发明能够合成更趋近于真实分布的视觉特征和语义特征。考虑到度量学习的直观性，判别器将生成的视觉特征和类别语义特征的真实性在对抗中更好地展示，可以完成视觉特征与类别语义特征的关联，使语义特征更好地监督合成更真实的视觉特征，提高了模型的泛化能力，减轻了零样本图像分类技术普遍存在的领域漂移问题，从而可以实现在更加真实的场景中的分类任务，有利于推动零样本学习应用于生产生活实际，加速深度学习算法向实用发展。

附图说明

图1是本发明中视觉模态和语义模态两个变分自编码器的结构示意图；

图2是本发明中判别器的结构示意图。

具体实施方式

下面结合实施例和附图对本发明的一种基于变分自编码对抗网络的零样本图像分类方法做出详细说明。

本发明的一种基于变分自编码对抗网络的零样本图像分类方法，假设在使用语义特征生成视觉特征的同时，考虑语义特征与视觉特征之间的双向对齐。在分别对视觉和语义模态使用两个VAE的基础上，引入一个判别器，以此达到在视觉语义特征双向对齐的同时使VAE生成伪视觉特征更接近真实特征。

本发明的一种基于变分自编码对抗网络的零样本图像分类方法，是通过构造视觉模态和语义模态两个变分自编码器(VAE)并以视觉特征和语义特征分别对应作为两个变分自编码器的输入，生成伪视觉特征和语义特征，最后将真实的和生成的视觉特征和语义特征输入判别器，通过度量学习的方法完成对抗过程；然后开始训练softmax分类器，将未见类图像的视觉特征输入视觉模态的变分自编码器中，利用生成的伪视觉特征和对应的标签训练分类器；在测试的时候，将未见类样本的真实视觉特征输入分类器进行分类，实现零样本图像分类任务。

本发明所述的一种基于变分自编码对抗网络的零样本图像分类方法，首先将图像数据集分为训练集和测试集，并设定x为训练样本的视觉特征，s为训练样本的类别语义特征，x_t为测试样本的视觉特征，s_t为测试样本的类别语义特征。如图1、图2所示，进行如下步骤：

和伪类别语义特征

p(z₁|x)＝Ν(μ₁,Σ₁) (3)

q(z₂|s)＝Ν(μ₂,Σ₂) (4)

其中，p(z₁|x)和q(z₂|s)分别表示潜在变量z₁和z₂的分布，μ₁、Σ₁分别表示潜在变量z₁的均值和方差，μ₂、Σ₂分别表示潜在变量z₂的均值和方差，Ν表示正态分布。特别地，在视觉模态中，将编码器E₁输出的z₁与相应的类别语义信息s级联，在语义信息的监督下生成更逼真的视觉特征。

以及训练样本的视觉特征x和训练样本类别之外的其他类别语义特征s^-，这四对特征对随机选取设定批量的数据，作为判别器D的输入；

其中，L_D为判别器D的对抗损失函数，

为在生成的伪视觉特征

和类别语义特征s的联合分布上计算期望，

为在训练样本的视觉特征x生成的伪视觉特征

的联合分布上计算期望，

为在训练样本的视觉特征x和训练样本类别之外的其他类别语义特征s^-的联合分布上计算期望。

6)根据对齐约束公式，训练编码器E₁和编码器E₂，保留使编码器E₁和编码器E₂性能最好的参数w₁、w₂，所述对齐约束公式如下：

其中L为对齐约束，

为2范数表示。

和伪类别语义特征

8)对于视觉和语义两个模态，希望生成的伪视觉特征和伪类别语义特征能接近真实的视觉和类别语义特征，设计重构损失函数。根据如下重构损失函数公式、视觉模态变分自编码器损失函数公式和语义模态变分自编码器损失函数公式，分别计算特征重构损失、视觉模态变分自编码器损失和语义模态变分自编码器损失，并更新编码器E₁、编码器E₂、解码器D₁和解码器D₂的参数w₁、w₂、v₁和v₂：

10)对于零样本图像分类任务，本方案利用在可见类别上训练好的变分自编码对抗网络，选择性能最好的编码器E₁和解码器D₁的参数w₁和v₁，然后将测试样本的视觉特征x_t和类别语义特征s_t分别输入到训练好的编码器E₁和解码器D₁中，得到未见类别的伪视觉特征

利用伪视觉特征

和对应的标签训练softmax分类器；

Claims

1.一种基于变分自编码对抗网络的零样本图像分类方法，其特征在于，是通过构造视觉模态和语义模态两个变分自编码器并以视觉特征和语义特征分别对应作为两个变分自编码器的输入，生成伪视觉特征和语义特征，最后将真实的和生成的视觉特征和语义特征输入判别器，通过度量学习的方法完成对抗过程；然后开始训练softmax分类器，将未见类图像的视觉特征输入视觉模态的变分自编码器中，利用生成的伪视觉特征和对应的标签训练分类器；在测试的时候，将未见类样本的真实视觉特征输入分类器进行分类，实现零样本图像分类任务；

3)根据如下生成伪视觉特征公式和生成伪类别语义特征公式，得到生成的伪视觉特征和伪类别语义特征

其中，编码器E₁和编码器E₂的输出为潜在变量，分别用z₁、z₂表示，概率分布如下表示：

p(z₁|x)＝Ν(μ₁,Σ₁) (3)

q(z₂|s)＝Ν(μ₂,Σ₂) (4)

4)将训练样本的视觉特征x和类别语义特征s、生成的伪视觉特征和训练样本的类别语义特征s、训练样本的视觉特征x和生成的伪类别语义特征以及训练样本的视觉特征x和训练样本类别之外的其他类别语义特征s^-，这四对特征对随机选取设定批量的数据，作为判别器D的输入利用度量学习的方法对输入的数据对的真假进行判断，这其中，只有(x,s)为真，和(x,s^-)均为假，输出一个兼容性得分来表示输入的视觉和语义特征是否匹配；

其中，L_D为判别器D的对抗损失函数，为在训练样本的视觉特征x和类别语义特征s的联合分布上计算期望，为在生成的伪视觉特征和类别语义特征s的联合分布上计算期望，为在训练样本的视觉特征x和生成的伪类别语义特征的联合分布上计算期望，为在训练样本的视觉特征x和训练样本类别之外的其他类别语义特征s^-的联合分布上计算期望；

其中L为对齐约束函数，为2范数表示；

7)使用步骤6)得到的参数w₁、w₂，根据生成伪视觉特征公式和生成伪类别语义特征公式，生成伪视觉特征和伪类别语义特征

其中，L_rec表示重构损失函数，L_VAE-1表示视觉模态变分自编码器损失函数，L_VAE-2表示语义模态变分自编码器损失函数，表示分别在潜在变量z₁和z₂的分布上计算期望，p(x|z₁)和p(s|z₂)分别表示通过潜在变量z₁和z₂生成视觉特征和语义特征的分布，q(z₁|x)和q(z₂|s)潜在变量z₁和z₂的条件分布，p(z₁)和p(z₂)表示潜在变量z₁和z₂的先验分布，这里我们设定为正态分布，log为取对数运算，D_KL为KL散度计算；

10)将测试样本的视觉特征x_t和类别语义特征s_t分别输入到训练好的编码器E₁和解码器D₁中，得到未见类别的伪视觉特征利用伪视觉特征和对应的标签训练softmax分类器；