CN110795585B

CN110795585B - 基于生成对抗网络的零样本图像分类系统及其方法

Info

Publication number: CN110795585B
Application number: CN201911099493.8A
Authority: CN
Inventors: 廖祥文; 肖永强; 苏锦河; 徐戈; 陈开志
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2022-08-09
Anticipated expiration: 2039-11-12
Also published as: CN110795585A

Abstract

本发明涉及一种基于生成对抗网络的零样本图像分类模型，包括生成对抗网络模块，用于获取视觉误差信息；视觉特征提取网络处理模块，用于得到图像一维视觉特征向量；属性语义转换网络模块，用两层的线性激活层将低维的属性语义向量映射到与视觉特征向量维度相同的高维特征向量；视觉‑属性语义衔接网络，实现视觉特征向量与属性语义特征向量的融合；得分分类结果和奖励输出模块，采用交叉熵损失对已见过带标签的类别进行分类，而奖励输出是对未见过的无标签数据进行惩罚，以及惩罚无标签数据中见过的类别和未见过的类别最有可能性的预测结果。本发明能够有效的解决图像类别标签缺失问题。

Description

基于生成对抗网络的零样本图像分类系统及其方法

技术领域

本发明涉及零样本图像分类模型，具体涉及一种基于生成对抗网络的零样本图像分类系统及其方法。

背景技术

当前，在进行图像分类的过程中，如若想准确对图像进行分类则需要告知模型每个类别的图像标签。然而，图像类别数往往非常大，而且有可能不定时增加新的类别，如果每次都采用人工去标注每个类别标签，那么工作量将会极其巨大。在这过程中，有些类别也只有少量或者没有训练样本标签，而整个类别没有训练标签的属于零样本，这样的零样本采用传统的机器学习方法构造分类器是无法奏效的。零样本学习图像分类目的是为了解决整个类别标签缺失问题，对训练图像数据没有见过的类别进行分类。

当前，零样本图像分类思想和迁移学习是一样的，通过训练已有的视觉类别信息迁移到新图像类别，并实现对其分类。人类能够通过学习已见过的视觉信息与语义信息，让这些建立联系，通过这样的联系去判别新图像类别，使得具备识别未见过图像类别的能力。假设要教会一名儿童可以识别出一匹斑马但从来没有认识过斑马，而当他被告诉说马与斑马外形非常相似，颜色有点像企鹅一样黑白色，外表条纹有点像老虎一样黑白相间的才是斑马。鉴于这名儿童已经学习过马的视觉信息，于是，在这名儿童再看马和斑马的时候，就可能准确辨认出哪些是斑马哪些是马。在零样本学习图像分类中，未知的图像类别并没有已知的原图像训练样本，但可以通过对已知图像类别相关知识的学习，然后迁移到未知的图像类别当中，从而对未知的图像类别样本进行结果预测。

当前，零样本图像分类越来越受到研究者的关注，通过研究图像分类的相关工作可以发现，在随着互联网的快速发展，图片数据大量增加与传播下，借助计算机快速给定分类标签的需求也随之增加，一个重要的问题的就是如何有效的解决图像类别标签缺失问题。目前较为前沿的方法大都对见过的源数据进行训练，然后将训练结果泛化到未见过的类别。区分目标数据中见过的类别和未见过的类别仅仅利用的是属性语义的指导，并没有用到视觉信息来辨别。

发明内容

有鉴于此，本发明的目的在于提供一种基于生成对抗网络的零样本图像分类模型及其方法，能够有效的解决图像类别标签缺失问题。

为实现上述目的，本发明采用如下技术方案：

一种基于生成对抗网络的零样本图像分类模型，包括

生成对抗网络模块，用于获取视觉误差信息；

视觉特征提取网络处理模块，用于得到图像一维视觉特征向量；

属性语义转换网络模块，用两层的线性激活层将低维的属性语义向量映射到与视觉特征向量维度相同的高维特征向量；

视觉-属性语义衔接网络，实现视觉特征向量与属性语义特征向量的融合；

得分分类结果和奖励输出模块，采用交叉熵损失对已见过带标签的类别进行分类，而奖励输出是对未见过的无标签数据进行惩罚，以及惩罚无标签数据中见过的类别和未见过的类别最有可能性的预测结果。

进一步的，所述所述视觉特征网络采用ResNet101。

进一步的，所述属性语义转换网络用于产生所有类别的属性特征表征。

进一步的，所述视觉-属性语义衔接网络采用完全拼接方式，将有标签数据中每一种图像类别视觉特征与所有有标签数据类别的属性语义特征拼接，将无标签数据中每一种图像类别视觉特征与所有无标签数据类别的属性语义特征拼接。

进一步的，所述模型的损失函数的优化分为生成器L_G和判别器L_D表示为：

其中，ω_b、ω_c、ω_d和ω_e是调节各损失的参数；

L_b为深度视觉向量间的误差优化函数：

L_c为差距损失函数：

L_d为特征匹配误差损失函数：

L_e为二进制交叉熵损失函数：

其中y∈{0，1}，“1”表示优化判断是源数据x而“0”表示判断为重构数据

一种基于生成对抗网络的零样本图像分类方法，包括以下步骤：

步骤S1:将全量数据分为源数据和目标数据；

步骤S2:将源数据集和目标数据集输入视觉特征网络，将原始图像映射到视觉特征空间,得到图像视觉特征向量；

步骤S3:根据得到的图像视觉特征向量，利用生成对抗网络获取视觉误差信息；

步骤S4:将原始图像的低维属性语义通过语义转换网络映射到高维，得到语义特征向量；

步骤S5:根据得到的图像视觉特征向量和语义特征向量，利用视觉-属性语义衔接网络完成融合，得到拼接结果；

步骤S6:根据拼接结果和视觉误差信息，通过得分分类结果和奖励输出模块，采用交叉熵损失对已见过带标签的类别进行分类，而奖励输出是对未见过的无标签数据进行惩罚，以及惩罚无标签数据中见过的类别和未见过的类别最有可能性的预测结果。

进一步的，所述生成对抗网络包括视觉特征网络，生成网络G_E(x)和G_D(z)，判别网络

和重构编码网络

(1)视觉特征网络，采用深度残差网络，去掉最后的分类层和池化层，提取到深度特征图；

(2)生成网络由编码器G_E(x)和解码器G_D(z)构成，对于送入深度特征图数据x经过编码器G_E(x)得到深度视觉向量z，z经过解码器G_D(z)得到x的重构数据

(3)判别网络

网络与编码器G_E(_x)相同，对原始图像x判为真，重构图像

判为假，不断优化重构数据

与原数据x的差距，直至满足预设要求；

(4)重构编码网络

对重构图像

再编码，由编码器

得到重构图像编码的深度视觉向量

使用L_b可以不断缩小深度视觉向量z与

的差距，直至满足预设要求。

本发明与现有技术相比具有以下有益效果：

1、本发明生成器网络使得模型能够将输入图像映射到较低维度的矢量，该较低维度矢量用于重建所生成的输出图像；然后，在训练期间最小化这些图像与深度视觉向量之间的距离有助于学习正常样本的数据分布。

2、本发明利用了有标签无数也利用了无标签数据，能够有效缓解强偏问题，同时也能够提升模型区分目标数据中已见过的类别和未见过的类别。

附图说明

图1是本发明一实施例中分类模型原理图；

图2是本发明一实施例中视觉-属性语义嵌入网络；

图3是本发明一实施例中生成对抗网络架构。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于生成对抗网络的零样本图像分类模型，包括

生成对抗网络模块，用于获取视觉误差信息；

在本实施例中，模块均采用双层非线性形式，都是可微分的，包括卷积层，全连接层，ReLU层和Softmax层。

在本实施例中，全量数据所属领域分别是鸟类与动物类的，每一类的图像数据相对均衡，数据划分比例也基本均衡，具体见表1和表2。

Caltech-UCSD-Birds-200-2011(CUB)数据集

全部为鸟类的图像，总共200个类，其中150类为源数据(训练集)，50类为目标数据(测试集)，每一个类别的属性语义特征维度为312，共有11788张图片，划分情况见表1所示。

表1 CUB数据集划分情况

(2)Animal with Attributes(AwA)数据集

给出了50个类别动物的图片，其中的40个类别数据作为训练集，而另外10个类别数据作为测试集。每一个类别的属性语义特征维度为85，总共有30475张图片。前者数据集为AwA1，AwA1存在图像版权问题，现在不能够获取这个原图像数据集，作者便收集给出了AwA2，数据类别和属性语义与AwA1相类似，总共37322张图片，本实施例中使用AwA2数据集，划分情况见表2所示。

表2 AwA2数据集划分情况

本实施例中，评价指标具体包括：

ZSL：只评估在未见过的类别下的正确率T₁；

GZSL(ACC_Seen，ACC_Unseen)：分别评估在全集类别下预测见过与未见过类别的正确率。

调和指标H值：

H＝(2×ACC_seen×ACC_unseen)×100％/(ACC_seen+ACC_unseen)

在本实施例中，每个类别的标签进行训练图像，ZSL区分两种类别：源数据和目标数据，标记图像仅适用于来源类别。为了ZSL有效辨别目标类别，ZSL设定源类和目标类别共享一个共同的语义融合空间可以映射图像和类名，则来自新目标类别的图像可以通过在共享空间中自动搜索最近邻居。

参考图2，在本实施例中，视觉-属性嵌入网络由属性语义转换网络和视觉-属性语义衔接子网络构成，视觉-属性语义衔接子网络将高维属性语义特征嵌入到视觉特征，做一个完全拼接。由于不同的数据集的属性语义特征维度不同且较低，所以需要引入属性语义转换转换网络，实现特征从低维空间映射到高维空间，平衡属性语义特征影响程度与视觉特征的影响程度，该子网络采用了双层的线性激活层。属性语义转换网络用于产生所有类别的属性特征表征。在训练阶段，一路是对源数据见过的类别数N^s的属性语义特征映射到高维，另外一路是对目标数据已见过的和未见过的总类别数N^s+t的属性语义特征映射到高维，规定与DNN视觉特征的维度数相同。当确定要输入训练的类别属性特征N×f₂(f₁和f₂表示特征维度)后将其送入属性语义转换网络，特征映射到N×f₂'，再使用重复(Repeat)产生和图像表征一样的批大小b，即张量维度变为b×N×f₂'，通过特征拼接(Featureconcatenation)操作完全拼接视觉-属性语义特征输出张量维度b×N×2f，最后送入视觉-属性语义衔接网络，视觉-属性语义衔接网络也同样使用了两层的线性激活层。对于送入的源数据，最后计算的是分类得分，而送入的目标数据最后计算的是奖励。

在本实施例中，得分分类结果和奖励输出模块，采用交叉熵损失对已见过带标签的类别进行分类，而奖励输出是对未见过的无标签数据进行惩罚，以及惩罚无标签数据中见过的类别和未见过的类别最有可能性的预测结果。

参考图3，在本实施例中，生成对抗网络由四部分组成：(1)视觉特征网络，(2)生成网络G_E(x)和G_D(z)，(3)判别网络

(4)重构编码网络

(1)第一部分是视觉特征网络，采用深度残差网络，去掉最后的分类层和池化层，最后提取到深度特征图(feature map)。

(2)第二部分生成网络由编码器G_E(x)和解码器G_D(z)构成，对于送入深度特征图数据x经过编码器G_E(x)得到深度视觉向量z，z经过解码器G_D(z)得到x的重构数据

(3)第三部分是判别网络

网络与编码器G_E(x)相同，对原始图像x判为真，重构图像

判为假，不断优化重构数据

与原数据x的差距，理想情况下重构数据与原数据是完全一样的。

(4)第四部分是重构编码网络

对重构图像

再编码，由编码器

得到重构图像编码的深度视觉向量

使用L_b可以不断缩小深度视觉向量z与

的差距，理想情况下它们是完全一样的。

在训练阶段，整个模型均是通过已见过类别的正常样本做训练。也就是编码器G_E(x)、解码器G_D(z)和重构编码器

都适用于正常样本。在测试阶段，当模型接受到一个异常样本时，模型的编码器-解码器-编码器不适用于异常样本，所以得到的编码后深度视觉向量z和重构编码器得到的深度视觉向量

的差距比较大。这时候规定这个差距是一个分值，通过设定阈值

一旦深度视觉向量之间的均方误差大于设定阈值

模型就认定送入的样本x为未见过类别的异常样本。对于目标测试数据，经过源数据训练，根据阈值

目标数据可以正确被区分已见过的类别和未见过的类别。

本实施例，利用生成对抗提升零样本图像分类方法将生成对抗网络实现异常检测结果的视觉误差信息融入到零样本图像分类当中，通过实验分别进行了在AwA2数据集和CUB数据集上对比于基准实验效果。如表3所示，在零样本图像分类实验中，“FC_train_ZSL”是使用了语义信息的效果，“GAN_enhance_ZSL”表示使用了无标签数据，“Baseline”表示未使用无标签数据，它们分别有两组数据。第一组，实验微调阈值

分成两段，确定AwA2数据集的具体值是0.33，确定CUB数据集的具体值是0.11。第二组，视觉误差分成三段，确定AwA2数据集视觉误差三段区间为：[0,0.27]、(0.27,0.40]、(0.40,-]，确定CUB数据集视觉误差三段区间为：[0,0.10]、(0.10,0.13]、(0.13,-]。

表3与基准实验对比效果

表4与基准实验对比效果

如表3和表4所示，无论是否使用无标签数据，与基准实验相比，融入视觉误差信息后，实验效果明显有大幅度提升，说明使用生成对抗网络不仅有效解决神经网络辨别已见过的类别和未见过的类别，还能缩小零样本图像分类在广义下预测类别空间，有效防止预测发生偏置问题。

对于使用了无标签数据的实验，零样本图像分类使用全量数据训练，按上一章调整参数，该实验进一步提升了效果。在AwA2数据集上，对比FC_train_ZSL网络，融入视觉误差信息后ACC_seen和ACC_unseen指标均有所提升。在保证ACC_seen提升2.9％情况下，ACC_unseen提升22.4％，调和指标H提升18.1％；在CUB数据集上，在保证ACC_seen提升6.5％情况下，ACC_unseen提升6.0％，调和指标H提升了6.3％。

对于未使用无标签数据的实验，第三组实验分成三段的视觉误差显然优于第二组实验分成两段的视觉误差，这与充分使用预测类别空间相一致。在AwA2数据集上，同样对比未使用无标签数据的RN网络，在保证ACC_seen提升1.1％情况下ACC_unseen大幅度提升34.9％，调和指标H提升31.7％；而对比使用了无标签数据的CS网络，在ACC_seen和ACC_unseen均有大幅度提升，分别提升19.6％和16.9％，调和指标H提升19.8％。在CUB数据集上，对比未使用无标签数据的RN网络，在保证ACC_seen提升2.7％情况下ACC_unseen大幅度提升11.1％，调和指标H提升9.2％；而对比使用了无标签数据的CS网络，在ACC_seen和ACC_unseen均有提升，分别提升14.7％和1.9％，调和指标H提升7.5％。

综上所述，与基准方法相比，本实施例提出的方法在评价指标中取得了较好的结果，由此验证了本章方法融入视觉误差信息的有效性。另外，模型具有较好的独立性，零样本图像分类模型与生成对抗模型是分开训练的。具有较高的实际应用需求，在阈值的选择上，可根据实际需要调整，比如如果测试目标数据中预计已见过的类别过多于未见过的类别，则可将其阈值略调小些，反之调大。对比AwA2与CUB结果，AwA2的提升比CUB提升多很多，值得注意的原因是数据集本身的区别，动物类的形态迥异，而鸟类形态大都相似，所以使用半监督生成对抗网络区别见过的类别和未见过的类别对类别差异大的效果好。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。