CN113537322A

CN113537322A - 一种跨模态语义增强生成对抗网络的零样本视觉分类方法

Info

Publication number: CN113537322A
Application number: CN202110752275.0A
Authority: CN
Inventors: 杨阳; 孙浩天; 位纪伟; 徐行
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-22
Anticipated expiration: 2041-07-02
Also published as: CN113537322B

Abstract

本发明公开了一种跨模态语义增强生成对抗网络的零样本视觉分类方法，先下载多张样本图像及每张样本图像对应的标签和语义特征，并通过残差神经网络提取每张样本图像的视觉特征；然后构建跨模态语义增强的生成对抗网络并训练，再基于该生成对抗网络训练出基于零样本分类的跨模态特征分类器，从而完成待检测图像的视觉分类。

Description

一种跨模态语义增强生成对抗网络的零样本视觉分类方法

技术领域

本发明属于零样本学习技术领域，更为具体地讲，涉及一种跨模态语义增强生成对抗网络的零样本视觉分类方法。

背景技术

零样本学习(Zero-shot Learning)的主要目标是通过一些可见类别的视觉信息，配合其他辅助信息(如文本描述)来训练模型，使得学习到的模型可以对不可见类别的视觉信息进行正确的分类。零样本学习又可以划分为传统零样本学习(Conventional Zero-shot Learning)和广义零样本学习(Generalized Zero-shot Learning)两个子任务，传统零样本学习只要求模型完成对不可见类别的分类，广义零样本学习则是要求模型同时识别可见类别和不可见类别。现有方法中较为典型的一类方法是基于嵌入空间的方法，把辅助信息和视觉信息映射到一个共同的嵌入空间，通过学习这样一个嵌入空间来衡量视觉信息和辅助信息的相似度，最终完成对不可见类别的分类。另一类方法是基于生成模型的，通过深度生成模型如生成对抗网络(GAN)或变分自编码器(VAE)直接生成不可见类别的视觉特征，从而将零样本学习转变为传统的识别问题。

然而现有技术出现如下的客观缺点：1、基于嵌入的方法，通过学习嵌入空间来衡量视觉信息和辅助信息的相似度，但是由于只使用可见类别的视觉信息来训练嵌入空间，面对广义零样本学习任务时，该类方法都存在偏差问题(bias problem)：在训练阶段不可见类别的样本容易被错误地识别为可见类别。2、基于生成模型的方法，通过GAN或者VAE生成不可见类视觉信息并让这些信息参与到模型的训练来解决偏差问题。该类方法主要受限于生成信息的质量和生成模型的不稳定性，生成模型往往很难去生成富含辨识信息和语义信息的细粒度视觉特征，使得训练得到的模型并不能很好地解决偏差问题导致分类性能受限。此外，生成模型的稳定性也是该类方法的限制之一，要求生成模型生成越精细的特征，会使得生成模型越容易崩溃。

发明内容

本发明的目的在于克服现有技术的不足，提供一种跨模态语义增强生成对抗网络的零样本视觉分类方法，基于生成模型方法，使得生成模型能够在不影响其稳定性的基础上生成富含辨识信息和语义信息的视觉特征，完成视觉分类，也更好地解决了分类偏差问题。

为实现上述发明目的，本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法，其特征在于，包括以下步骤：

(1)、下载样本图像并预处理；

下载N张样本图像及每张样本图像对应的标签c_i和语义特征y_i，通过残差神经网络提取每张样本图像的视觉特征x_i，i＝1,2,…,N；

将所有的标签c_i组成标签集C，所有的视觉特征x_i组成视觉特征集X，以及所有的语义特征y_i组成语义特征集Y；

(2)、构建跨模态语义增强的生成对抗网络；

在传统的生成对抗网络中增加包含视觉特征过滤层和跨模态嵌入层的跨模态语义增强层；分别在生成对抗网络的生成器生成假的视觉特征和输入的真实的视觉特征之后部署跨模态语义增强层，然后对真假两种视觉特征进行语义增强处理，再让辨别器去辨别输出的真伪；

(3)、训练跨模态语义增强的生成对抗网络；

(3.1)、训练跨模态语义增强层；

在视觉特征集X中选取p个视觉特征x_i，再与这p个视觉特征x_i对应的语义特征y_i一起输入至跨模态语义增强模块，i＝1,2,…,p；

(3.1.1)、训练视觉特征过滤层；

在视觉特征过滤层中，通过全连接网络对视觉特征x_i进行降维处理，视觉特征x_i的维度减少一半，降维后的视觉特征记为

然后将视觉特征

分别输入至分类器f_cls和回归器f_reg，其中，分类器f_cls和回归器f_cls均使用一层全连接的结构；

分类器f_cls将视觉特征

变换为可见类别数量的分类预测结果，记为

回归器f_cls根据视觉特征

重构出与语义特征y_i相同维度的新语义特征，记为

计算本轮训练后分类器f_cls的损失值以及回归器f_cls的损失值；

其中，c_i为视觉特征x_i对应的标签；

表示交叉损失熵；

表示求余弦相似度；

重复上述过程，直至分类器f_cls和回归器f_reg收敛，得到训练完成的视觉特征过滤层；

(3.1.2)、训练跨模态嵌入层；

在跨模态嵌入层中，通过一个全连接层把语义特征y_i变化为视觉特征

相同的维度，变换后的语义特征记为

将视觉特征

和语义特征

通过一个公共的全连接层将其嵌入到同一个子空间，得到跨模态视觉特征

和跨模态语义特征

在同一个子空间中，计算p个跨模态视觉特征

和跨模态语义特征

的欧式距离的平均值L_dis；

将跨模态视觉特征

和跨模态语义特征

输入至训练完成的分类器f_cls和回归器f_reg，采用交叉损失熵来计算分类损失

其中，

表示跨模态视觉特征

的分类预测结果，

表示跨模态语义特征

的分类预测结果；

通过计算重构后的语义特征同原来的语义特征之间的距离来计算回归损失

其中，

表示

重构后的语义特征，

表示

重构后的语义特征；

通过这三个损失函数来计算跨模态嵌入层的总损失L_总；

其中，β权重系数；

重复上述过程，直至总损失L_总，得到训练完成的跨模态嵌入层；

(3.2)、训练基于跨模态语义增强的生成对抗网络；

将训练完成的跨模态语义增强模块嵌入到传统生成对抗网络，然后输入批量的语义特征y_i和随机高斯噪声，通过生成器G生成假的视觉特征集；

将假的视觉特征集与真的视觉特征集输入至跨模态语义增强层进行语义增强，从而输出跨模态的真假视觉特征集；

将跨模态的真假视觉特征集及对应的语义特征输入至辨别器D，将跨模态假的特征集输入训练完成的分类器f_cls和回归器f_reg，然后计算三部分的总损失值

其中，辨别器D的损失为：将输入到辨别器D的真的跨模态特征表示为

将输入到辨别器D的假的跨模态特征表示为

然后对这两个特征取一个插值

从而计算出辨别器D的损失值L_WGAN；

其中，λ为权重系数，E[D(·)]表示对辨别器D的输出求期望，

表示对辨别器D的输出先求期望再求2范数；

分类器f_cls直接用交叉熵损失计算

的分类损失：

回归器f_reg直接计算

的重构语义特征

与y_i的欧式距离的损失：

重复上述过程，直至三部分的总损失值收敛，得到训练完成的跨模态语义增强的生成对抗网络；

(4)、训练基于零样本分类的跨模态特征分类器；

将不可见类别的语义特征输入训练完成的跨模态语义增强的生成对抗网络，通过生成器得视觉特征，再经过跨模态语义增强层进行语义增强，得到跨模态特征，然后将跨模态特征填充至可见样本的跨模态特征集中，最后利用填充后的跨模态特征集训练得到用于零样本分类的跨模态特征分类器；

(5)、视觉分类提取待检测图像的视觉特征，经过跨模态语义增强并输入至训练完成的跨模态特征分类器，从而输出该视觉特征的类别。

本发明的发明目的是这样实现的：

本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法，先下载多张样本图像及每张样本图像对应的标签和语义特征，并通过残差神经网络提取每张样本图像的视觉特征；然后构建跨模态语义增强的生成对抗网络并训练，再基于该生成对抗网络训练出基于零样本分类的跨模态特征分类器，从而完成待检测图像的视觉分类。

同时，本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法还具有以下有益效果：

(1)、本发明提出了跨模态语义增强生成式对抗网络，通过三阶段的训练让生成对抗网络能够生成一种得到语义增强的跨模态特征，这样的特征富含辨识性信息和语义信息，更易于分类；

(2)、本发明使用一层线性变化来降低其维度，并使用一个线性回归器和线性分类器来约束降维后的特征，确保在降维的过程中辨识性和语义信息不会丢失；

(3)、首先使用一个线性变换把语义特征的维度变换同降维后视觉特征一致，然后我们用一个共享的线性层把语义特征和视觉特征映射到同一个空间。同样，为了确保嵌入过程中的辨识性和语义信息能够得到保留；

(4)、本发明回归器中引入语义特征，这样可以让更多的语义信息能够参与融合；然后通过跨模态特征直接重构回语义特征，特征在跨模态嵌入过程之中得到了进一步语义增强；此外，为了确保由语义特征和视觉特征嵌入得到的跨模态特征处在一个模态之中，并使用了模态间距离约束来消除模态间的差别。

附图说明

图1是本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法流程图；

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法流程图。

在本实施例中，我们的模型基于生成对抗网络(GAN)，通过生成不可见类别的数据来解决零样本学习的任务。传统的基于生成对抗网络或者其他生成模型的方法直接生成由卷积神经网络(CNN)提取的视觉特征，他们往往采用在ImageNet数据集上预训练的残差神经网络(ResNet-101)作为提取特征的架构。然而这样的特征本身就含有大量与标签无关的信息，所以生成的这样的特征缺乏足够的辨识性并且徒增生成网络的负担。此外，生成模型的不稳定性导致其生成的视觉特征质量不佳，与真实的图片提取的视觉特征仍有较大的差距，分类器依旧倾向将不可见特征识别为可见类别，所以对于缓解偏差问题的能力有限。

针对以上的问题，本发明提出了跨模态语义增强生成对抗网络，通过三阶段的训练让生成对抗网络能够生成一种得到语义增强的跨模态特征。这样的特征富含辨识性信息和语义信息，更易于分类。此外，我们把跨模态语义增强模型作为一种弱约束施加在生成式对抗网络上，来减少生成模型不稳定的影响。

如图1所示，我们的模型分为跨模态语义增强层和生成式对抗网络，跨模态语义增强层包含视觉过滤层(VFL)和跨模态嵌入层(CEM)两个部分,接下来分步骤介绍，包括以下步骤：

S1、下载样本图像并预处理；

S2、构建跨模态语义增强的生成对抗网络；

S3、训练跨模态语义增强的生成对抗网络；

S3.1、训练跨模态语义增强层；

S3.1.1、训练视觉特征过滤层；

由残差神经网络提取的高维视觉特征中,包含了大量与标签无关的冗余信息，让生成对抗网络去生成类似这样的特征，不仅会让生成的质量难以保证，也会对生成器造成额外的负担。所以我们提出视觉特征过滤层来降低视觉特征的维度同时保留其辨识性和语义信息。

然后将视觉特征

分类器f_cls将视觉特征

变换为可见类别数量的分类预测结果，记为

回归器f_cls根据视觉特征

重构出与语义特征y_i相同维度的新语义特征，记为

其中，c_i为视觉特征x_i对应的标签；

表示交叉熵损失；

表示求余弦相似度；

在视觉过滤层，本实施例使用一层线性变化来降低其维度，并使用一个线性回归器和线性分类器来约束降维后的特征，确保在降维的过程中辨识性和语义信息不会丢失。

S3.1.2、训练跨模态嵌入层；

在视觉特征过滤中我们使用回归器来保留隐含在其中的语义信息，但是视觉特征和语义特征本质上来自于两个不同的模态，换言之视觉特征本身并不蕴含丰富的语义信息。所以我们专利引入了跨模态嵌入层，让更多的语义信息能够在嵌入过程融合至视觉特征之中。

相同的维度，变换后的语义特征记为

将视觉特征

和语义特征

和跨模态语义特征

在同一个子空间中，计算p个跨模态视觉特征

和跨模态语义特征

的欧式距离的平均值L_dis；

将跨模态视觉特征

和跨模态语义特征

输入至训练完成的分类器f_cls和回归器f_reg，采用交叉熵损失来计算分类损失

其中，

表示跨模态视觉特征

的分类预测结果，

表示跨模态语义特征

的分类预测结果；

其中，

表示

重构后的语义特征，

表示

重构后的语义特征；

通过这三个损失函数来计算跨模态嵌入层的总损失L_总；

其中，β权重系数；

重复上述过程，直至达到设定的迭代轮次，得到训练完成的跨模态嵌入层；

在本实施例中，我们对于视觉特征的输入和语义特征的输入采用公共的全连接层来完成跨模态变化，这样保证了在跨模态过程中在保证视觉特征得到保留的基础上语义信息最大程度地得到增强。；

S3.2、训练基于跨模态语义增强的生成对抗网络；

通过之前的两阶段训练，我们得到了跨模态语义增强层。本发明将跨模态语义增强层作为一层弱约束施加在生成对抗网络之上。具体来说，对于真实特征，我们使用特征过滤层和跨模态嵌入层得到经过语义增强的跨模态特征。生成器则是生成同过滤视觉特征维度一致的特征，并经过跨模态嵌入层得到最终的生成跨模态特征。我们将在跨模态嵌入层训练过程中得到的分类器和回归器作为对生成器的弱约束。所谓弱约束，即我们不期望直接让生成对抗网络生成富含辨识和语义信息的跨模态特征，这样过强的约束会让生成网络崩溃，而是将生成网络和跨模态嵌入层分离，生成网络生成低维视觉特征，由跨模态嵌入层完成语义增强；

将输入到辨别器D的假的跨模态特征表示为

然后对这两个特征取一个插值

从而计算出辨别器D的损失值L_WGAN；

其中，λ为权重系数，E[D(·)]表示对辨别器D的输出求期望，

表示对辨别器D的输出先求期望再求2范数；

分类器f_cls直接用交叉损失熵计算

的分类损失：

回归器f_reg直接计算

的重构语义特征

与y_i的欧式距离的损失：

在本阶段的训练过程中，我们将跨模态语义增强模块作为一层弱约束实施于生成对抗网络，即不让生成器直接生成跨模态特征，而是通过对生成的视觉特征做跨模态语义增强。通过这样的方式我们即能增强的特征的语义信息，也能减少对生成对抗网络的稳定性的影响。

S4、训练基于零样本分类的跨模态特征分类器；

S5、视觉分类提取待检测图像的视觉特征，经过跨模态语义增强并输入至训练完成的跨模态特征分类器，从而输出该视觉特征的类别。

通过这样的方式，我们能够尽量在不伤害生成网络稳定性的基础上生成富有辨识信息和视觉信息的跨模态特征。此外，测试的视觉特征也通过跨模态语义增强层变为跨模态特征，由此最终的训练特征和视觉特征皆为得到语义增强的跨模态特征，能够让分类器更轻松做出预测，更好地解决了偏置问题。

本实施例在三个基准数据集AwA2，CUB，SUN上测试了性能，T1表示top-1的准确率，用来测试在传统零样本的任务下的性能，对于广义零样本任务，S和U分别表示可见类别和不可见类别的top-1准确率，H则表示S和H的调和平均数，用来衡量广义零样本任务的性能。如表1所示，采用不同算法进来测试在传统零样本的任务下的性能，f-CLSWGAN(基于特征生成网络的零样本学习)最先将生成对抗网络引入零样本学习的领域，SE-GZSL(基于样本合成的零样本学习)采用变分自编码器来完成生成，LisGAN(基于零样本生成不变性的方法)和SABR(基于语义对齐偏差的零样本学习)都采用生成对抗网络，并对生成对抗网络增加了新的约束来使其生成质量更好的样本或者特征,CADA-VAE(基于对齐变分自动编码器的广义零和小样本学习)通过两层的变分自编码器来让视觉特征和语义特征得到对齐，f-VAEGAN(零样本学习的特征生成框架)结合了变分自编码器和生成对抗网络来训练一个质量更高的特征生成器；

从结果可以看出，本专利在三个数据集上的传统零样本学习和广义零样本学习的性能指标上，有两个超越了现阶段的其他算法。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。