CN107679556A

CN107679556A - 基于变分自动编码器的零样本图像分类方法

Info

Publication number: CN107679556A
Application number: CN201710843425.2A
Authority: CN
Inventors: 冀中; 孙裕鑫; 于云龙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-02-09

Abstract

本发明涉及一种面向计算机视觉领域的零样本分类技术，为提出零样本图像分类方法，拟合类别的语义特征和视觉特征在语义空间中的映射之间的分布，建立更加有效地视觉特征和类别语义之间的语义关联。本发明，基于变分自动编码器的零样本图像分类方法，利用变分自动编码器由视觉特征生成嵌入语义特征，变分自动编码器认为存在隐变量将隐变量作为嵌入语义特征，对于零样本图像分类任务，对于类别未知样本的视觉特征x_j，利用在可见类上训练好的变分自动编码器的编码网络，计算编码生成的隐变量将作为嵌入语义特征，计算与每个未见类的语义特征的余弦距离，最终，将距离最小的类别认定为该视觉样本的类别。本发明主要应用于视频分类场合。

Description

基于变分自动编码器的零样本图像分类方法

技术领域

本发明涉及一种面向计算机视觉领域的零样本分类技术，特别是涉及基于变分自动编码器的零样本图像分类技术。具体讲,涉及基于变分自动编码器的零样本图像分类方法。

背景技术

随着深度学习在图像处理领域的大量应用，对于训练数据的需求也在不断扩大，然而，获得标注样本需要耗费大量的人力。因此标注数据的匮乏成了制约深度学习发展的瓶颈之一。零样本问题旨在通过模型的知识迁移，实现对未参与训练类别的图像分类。与传统的图像分类问题不同，零样本问题将图像数据参与训练的类别定义为可见类，与之相对应的图像数据不参与训练的类别被定义为未见类，可见类别和未见类别的语义特征成为迁移的“知识”。例如，利用马的图像数据训练零样本模型，同时将“斑马为有条纹的马”这一语义关系赋予零样本模型，则该模型可以对斑马的图像进行分类。

当前解决零样本图像分类的模型框架是，在训练阶段中，利用可见类的视觉特征和语义特征训练一个语义嵌入模型，该模型能够实现由视觉空间到语义空间的映射。在测试阶段，将测试样本的视觉特征利用已训练的语义嵌入模型计算语义空间上的映射特征，即为嵌入语义特征，通过度量未见类各类别的语义特征与嵌入语义特征的距离，将距离最小的类别认定为该测试样本的类别，从而实现零样本图像分类任务。

目前，图像的语义描述大多针对的是每个类别，例如，对斑马的属性的语义描述为：“陆生、食草、黑色、白色、有尾巴等等”。同时，不同的类别间也会具有相同语义，例如，马和狗都具有“尾巴”这一属性。然而，在视觉上，马和狗的尾巴是不同的，不同马的尾巴也会存在差异。因此，我们认为视觉特征具有某一属性语义应为符合一定的概率分布。

自动编码器作为一种常用的无监督学习方式，在结构上由三层神经网络组成，第一层与第三层神经元的个数与输入数据维度一致，第二层神经元个数为编码的位数，层与层之间为全连接。自动编码器实现对输入数据编码、解码的过程，利用反向传播算法能够实现对网络的训练。变分自动编码器认为编码的结果为隐变量，该变量应符合高斯分布。隐变量的分布可由均值和标准差确定。在结构上，变分自动编码器的编码网络由两个并行的全连接神经网络构成，网络输出的结果作为隐变量的均值和标准差，通过计算得到的隐变量经由解码网络生成输入数据。

发明内容

为克服现有技术的不足，本发明旨在提出零样本图像分类方法，拟合类别的语义特征和视觉特征在语义空间中的映射之间的分布，建立更加有效地视觉特征和类别语义之间的语义关联。本发明采用的技术方案是，基于变分自动编码器的零样本图像分类方法，利用变分自动编码器由视觉特征生成嵌入语义特征，变分自动编码器认为存在隐变量该变量服从n维高斯分布：

其中，该分布均值为方差为I是由N(0，1)分布中采样得到的特征矩阵，隐变量表示为：

变量和由两个全连接神经网络h₁(；)和h₂(；)依照视觉特征计算得到，即：

变分编码器的输出为生成视觉特征该特征由隐变量经由全连接神经网络计算得到，即：

为了将变分自动编码器应用于零样本图像分类任务，将隐变量作为嵌入语义特征，该特征服从真实语义特征的概率分布，为了训练差分自动编码器，定义损失函数：

该损失函数由视觉损失和语义损失两个部分构成，其中，视觉损失是为了缩小生成视觉特征与真实视觉特征x_i之间的差距，语义损失函数是为了提高对语义特征的预测准确率；

对于零样本图像分类任务，对于类别未知样本的视觉特征x_j，利用在可见类上训练好的变分自动编码器的编码网络，计算编码生成的隐变量将作为嵌入语义特征，计算与每个未见类的语义特征的余弦距离，最终，将距离最小的类别认定为该视觉样本的类别，以此实现零样本分类任务。

训练具体步骤如下，为可见类的视觉特征，为可见类的真实语义特征，n为可见类样本的个数，d为视觉特征的维度，u为语义特征的维度；

1)从可见类数据集合中抽取视觉特征x_i和其对应的语义特征z_i作为训练模型的输入；

2)视觉特征x_i经过两个神经网络分别计算嵌入语义特征的均值和标准差，这两个神经网络均为两层全连接神经网络，第一层神经元个数为d，第二层神经元个数为u；

3)从N(0，1)分布中采样得到特征矩阵由嵌入语义特征的均值标准差和特征矩阵I依照公式(2)计算嵌入语义特征

4)嵌入语义特征经过一个神经网络计算得到生成的视觉特征该神经网络由两层全连接神经网络构成，第一层神经元个数为由u，第二层神经元个数d；

5)由视觉特征x_i和生成视觉特征依照公式(7)计算得到视觉损失由真实语义特征z_i和嵌入语义特征依照公式(8)计算语义损失将视觉损失和语义损失依照公式(6)得到总体损失利用反向传播算法根据总体损失优化模型中神经网络的参数；

6)重复训练步骤1-5直至总体损失函数收敛。

测试具体步骤是，为未见类的视觉特征，m为未见类中视觉特征样本的个数，为未见类的真实语义特征，t为未见类的类别个数，则：

1)将待测试样本的视觉特征x_j输入训练好的模型，依照训练过程的步骤2、3得到嵌入语义特征

2)由嵌入语义特征与未见类中的每个类别的真实语义特征z_τ分别计算距离公式如下：

3)选取真实语义特征与嵌入语义特征距离最小的类别作为视觉特征x_j的类别公式如下：

本发明的特点及有益效果是：

本发明采用变分自动编码器拟合类别的语义特征和视觉特征在语义空间中的映射之间的分布，建立更加有效地视觉特征和类别语义之间的语义关联，其优势主要体现在：

(1)新颖性：首次将变分自动编码器引入零样本分类技术中，充分考虑了语义数据的概率分布特性，设计了适合于图像数据特征的零样本分类技术。

(2)有效性：通过主观和客观实验证明了，与目前的某些零样本图像方法相比较，本发明设计的基于变分自动编码器的零样本分类方法在性能上相对有所提高，因此更适用于零样本图像分类问题中。

(3)实用性：简单可行，本发明解决的零样本图像分类问题，在图像检索、目标识别、语义描述等领域具有广泛的应用。

附图说明：

图1是本发明的基于变分自动编码器的语义嵌入模型训练的流程图。

图2是本发明的基于变分自动编码器的零样本分类模型测试的流程图。

具体实施方式

给定可见类样本集合S＝{(x_i,z_i,y_i),i＝1,...,n},为可见类样本的视觉特征，为可见类样本的语义特征，为可见类样本的类别，n为可见类样本的个数。零样本分类的目的是对给定未见类样本的视觉特征j＝1,...,m(m为未见类样本的个数)和所有未见类类别的语义特征(t为未见类的类别个数)，预测未见类样本的类别j＝1,...,m,其中

当前解决零样本图像分类问题的方法主要包括以下三个步骤：

1)利用训练样本训练实现视觉空间到语义空间映射f:或者语义空间到视觉空间映射g:的语义嵌入模型；

2)利用学习到的模型将未知类别的样本映射到语义空间，或者将类别的语义描述特征映射到视觉的表征空间；

3)利用度量方法度量视觉样本和类别语义特征之间的语义相似度，常用的度量标准有余弦距离、欧氏距离。语义相似度最大的类别则认为是该样本的类别。

然而当前的算法存在着以下问题：

在建立模型的过程中没有考虑到嵌入语义特征与真实语义特征的概率分布关系，当前模型实现的是嵌入语义特征与真实语义特征相等关系，即f x_i＝z_i。然而，目前采用的语义特征都是按照每个类别标注得到的，不同视觉特征生成具有相同语义的嵌入语义特征会存在细小差距，因此学习到的模型不能很好地拟合不同模态数据之间的语义关联信息。

基于此，本发明假设嵌入语义特征应符合真实语义特征的概率分布，即f x_i～Pz_i，并在此基础上引入变分自动编码器，缩小嵌入语义特征与真实语义特征的分布差异，达到拟合不同模型数据语义关联的目的。

变分自动编码器是一种基于概率分布的特征生成模型，通过训练能够使生成特征符合某一高斯分布。本发明在此基础上，利用变分自动编码器由视觉特征生成嵌入语义特征，提出了一种新的解决零样本学习的生成框架，具体模型如下：

基于变分自动编码器的零样本图像分类方法是利用变分自动编码器由视觉特征生成嵌入语义特征。变分自动编码器认为存在隐变量该变量服从n维高斯分布：

其中，该分布均值为方差为I是由N(0，1)分布中采样得到的特征矩阵。隐变量可以表示为：

变量和可以由两个全连接神经网络h₁(；)和h₂(；)依照视觉特征计算得到，即：

与传统自动编码器一样，变分编码器的输出为生成视觉特征该特征可以由隐变量经由全连接神经网络计算得到，即：

为了将变分自动编码器应用于零样本图像分类任务，本发明假定隐变量为嵌入语义特征，该特征服从真实语义特征的概率分布，为了训练差分自动编码器，本发明定义损失函数：

该损失函数由视觉损失和语义损失两个部分构成，其中，视觉损失是为了缩小生成视觉特征与真实视觉特征x_i之间的差距，语义损失函数是为了提高对语义特征的预测准确率。

对于零样本图像分类任务，对于类别未知样本的视觉特征x_j，本发明利用在可见类上训练好的变分自动编码器的编码网络，计算编码生成的隐变量将作为嵌入语义特征，计算与每个未见类的语义特征的余弦距离。最终，将距离最小的类别认定为该视觉样本的类别，以此实现零样本分类任务。本发明更加符合真实数据的特点，在零样本任务中能够实现更好的分类效果。

下面结合附图和具体实例进一步详细说明本发明。

图1描述了基于变分自动编码器的语义嵌入模型的训练流程图，假设为可见类的视觉特征，为可见类的真实语义特征，n为可见类样本的个数，d为视觉特征的维度，u为语义特征的维度。

1)从可见类数据集合中抽取视觉特征x_i和其对应的语义特征z_i作为训练模型的输入。

2)视觉特征x_i经过两个神经网络分别计算嵌入语义特征的均值和标准差这两个神经网络均为两层全连接神经网络，第一层神经元个数为d，第二层神经元个数为u。

4)嵌入语义特征经过一个神经网络计算得到生成的视觉特征该神经网络又两层全连接神经网络构成，第一层神经元个数为由u，第二层神经元个数d。

5)由视觉特征x_i和生成视觉特征依照公式(7)计算得到视觉损失由真实语义特征z_i和嵌入语义特征依照公式(8)计算语义损失将视觉损失和语义损失依照公式(6)得到总体损失利用反向传播算法根据总体损失优化模型中神经网络的参数。

6)重复训练步骤1-5直至总体损失函数收敛。

图2描述了基于变分自动编码器的零样本图像分类模型的测试的流程图，测试过程实现的是对未见类别视觉特征的分类。假设为未见类的视觉特征，m为未见类中视觉特征样本的个数，为未见类的真实语义特征，t为未见类的类别个数。

Claims

1.一种基于变分自动编码器的零样本图像分类方法，其特征是，利用变分自动编码器由视觉特征生成嵌入语义特征，变分自动编码器认为存在隐变量该变量服从n维高斯分布：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>Z</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>&mu;</mi> <mover> <mi>z</mi> <mo>^</mo> </mover> </msub> <mo>,</mo> <msubsup> <mi>&sigma;</mi> <mover> <mi>z</mi> <mo>^</mo> </mover> <mn>2</mn> </msubsup> <mo>*</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mover> <mi>Z</mi> <mo>^</mo> </mover> <mo>=</mo> <msub> <mi>&mu;</mi> <mover> <mi>z</mi> <mo>^</mo> </mover> </msub> <mo>+</mo> <msubsup> <mi>&sigma;</mi> <mover> <mi>z</mi> <mo>^</mo> </mover> <mn>2</mn> </msubsup> <mo>*</mo> <mi>I</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&mu;</mi> <msub> <mover> <mi>z</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </msub> <mo>=</mo> <msub> <mi>h</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>;</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&sigma;</mi> <msub> <mover> <mi>z</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </msub> <mo>=</mo> <msub> <mi>h</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>;</mo> <mi>&beta;</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>=</mo> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>z</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>;</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

2.如权利要求1所述的基于变分自动编码器的零样本图像分类方法，其特征是，训练具体步骤如下，为可见类的视觉特征，为可见类的真实语义特征，n为可见类样本的个数，d为视觉特征的维度，u为语义特征的维度；

2)视觉特征x_i经过两个神经网络分别计算嵌入语义特征的均值和标准差这两个神经网络均为两层全连接神经网络，第一层神经元个数为d，第二层神经元个数为u；

6)重复训练步骤1-5直至总体损失函数收敛。

3.如权利要求1所述的基于变分自动编码器的零样本图像分类方法，其特征是，测试具体步骤是，为未见类的视觉特征，m为未见类中视觉特征样本的个数，为未见类的真实语义特征，t为未见类的类别个数，则：

<mrow> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>j</mi> </msub> <mo>=</mo> <mi>arg</mi> <munder> <mi>min</mi> <mrow> <mi>&tau;</mi> <mo>&Element;</mo> <mn>1</mn> <mo>,</mo> <mi>t</mi> </mrow> </munder> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>z</mi> <mo>^</mo> </mover> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>z</mi> <mi>&tau;</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mo>(</mo> <mn>10</mn> <mo>)</mo> <mo>.</mo> </mrow>