CN112380374B

CN112380374B - 一种基于语义扩充的零样本图像分类方法

Info

Publication number: CN112380374B
Application number: CN202011149508.XA
Authority: CN
Inventors: 陈琼; 李志群
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-11-18
Anticipated expiration: 2040-10-23
Also published as: CN112380374A

Abstract

本发明公开了一种基于语义扩充的零样本图像分类方法，用于计算机识别无标签的图像，为其分配对应的类标签，包括S1构建已见类的潜在扩充语义信息；S2构建未见类的潜在扩充语义信息；S3构建生成对抗网络模型模式坍塌约束规则；S4构建基于语义扩充的零样本图像分类模型，合成视觉特征，利用合成的视觉特征构建特征分类器。本发明通过扩充语义信息，合成了更具多样性和判别性的视觉特征，进一步提高了网络的泛化性能。

Description

一种基于语义扩充的零样本图像分类方法

技术领域

本发明涉及标签分类，具体涉及一种基于语义扩充的零样本图像分类方法。

背景技术

对于零样本图像分类问题，通常的解决方法分为两大类别：一是学习基于空间的一个映射函数，使用该映射函数来进行零样本图像分类；二是使用生成对抗网络，为未见过类别生成视觉特征，从而把零样本图像分类问题，转化为传统的有监督的图像分类问题。然而，第一类方法因为在网络训练阶段，只使用了已见过类别的图像特征进行训练，导致训练好的网络在对测试样本进行预测时，会极大可能把该测试样本预测为网络训练时已经见过的类别，从而导致网络对于未见过类别的预测准确率大大降低，该现象称为类别预测偏置。第二类方法，在很大程度上缓解了第一类方法的弊端，但是由于在使用生成对抗网络为未见过类别生成视觉特征的时候使用了领域专家人为定义的语义信息作为条件，导致语义信息并不能完整准确地描述类别的全部信息。使用不完整的语义信息作为生成对抗网络的条件生成出的未见类的视觉特征不具有更加真实性和多样性的特点，从而损害了网络对未见过类别的预测准确率。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于语义扩充的零样本图像分类方法，将人为定义的不完整的语义信息进行扩充得到更加完整且丰富的语义信息。使用扩充后的语义信息结合生成对抗网络来合成更具多样性和真实性的视觉特征来解决零样本图像的分类问题。

本发明提出的方法模型在传统零样本图像分类和广义零样本图像分类问题中均可使用，是一个具有较强鲁棒性的通用模型。

本发明采用如下技术方案：

一种基于语义扩充的零样本图像分类方法，用于计算机识别无标签的图像，为其分配对应的类标签，包括如下步骤：

S1构建已见类的潜在扩充语义信息；

S2构建未见类的潜在扩充语义信息；

S3构建生成对抗网络模型模式坍塌约束规则；

S4构建基于语义扩充的零样本图像分类模型，合成视觉特征，利用合成的视觉特征构建特征分类器。

进一步，S1构建已见类的潜在扩充语义信息，具体为：

针对数据集

其中

为已见类的视觉特征向量，

为已见类的标签，

为已见类的人为定义的属性语义向量；

使用视觉语义嵌入网络E(x)将已见类的视觉特征向量映射至将语义向量和视觉特征向量关联起来的嵌入空间

每一个已见类的视觉特征向量

经[u_i,l_i]＝E(x_i)映射后，产生映射属性向量u_i和潜在扩充属性向量l_i；

由公式

得出每一个可见类的类中心扩充语义向量，其中

表示第i个已见类的类中心扩充语义向量，l_j表示第i个已见类的第j个样本的扩充语义向量，n表示第i个已见类中有n个样本。

进一步，视觉语义嵌入网络在每个训练批次前构造一组三元组样本数据集

其中x_i，x_j来自相同类别的已见过类的视觉特征，x_i，x_k表示来自不同类别的视觉特征，E(x_i)将

转化为[u_i,l_i]，然后依据L_E损失进行训练。

进一步，在人为定义的属性语义空间中，计算每一个未见类与其他已见类的相似度，相似度计算公式为：

其中

表示向量

与向量

的相似度得分；

表示第i类未见过类的人为定义的属性语义向量，

表示第j类已见过类的人为定义的属性语义向量，

表示向量

与向量

的点积，

分别表示向量

与向量

的模；

给定相似度分数阈值ξ，0≤ξ≤1，对

筛选出

的所有

的相似度分数向量[α₁,α₂...α_k]，ξ≤α₁,α₂...α_k≤1，由公式

得出所有未见过类的扩充语义向量，其中

表示第i个未见过类的类中心扩充语义向量，α_j表示大于阈值ξ的第i个未见过类与第j个已见过类的相似度分数，

表示第j个已见过类的类中心扩充语义向量。

进一步，将已见过类和未见过类的扩充语义向量

和

以及原有人为定义的属性语义向量作为条件，构建SA-WGAN-VAE网络模型；

通过坍塌约束规则：

ε＝1e-7，约束当z_i和z_j相似时,

和

尽可能有较大的差异性；其中z_i和z_j分别表示从Z～N(0,1)标准正态分布中随机采样得到的噪声向量，

和

表示WGAN使用z_i和z_j合成出的视觉特征向量，cossim(z_i,z_j)和

表示求两个向量的余弦相似度。

进一步，所述SA-WGAN-VAE网络模型包括VAE网络模块及WGAN网络模块。

进一步，所述WGAN网络模块包括生成器和判别器，

进一步，用于训练视觉嵌入网络E(x)的损失函数为：

L_E＝L_ua+L_ls

其中

L_ls＝max(m+dis(l_i,l_j)-dis(l_i,l_k),0)

N表示已见类的类别数目，a^c表示第c个已见类人为定义的属性语义向量，

表示每一类中每个样本产生的对数分类损失值，＜u_i,a_i＞表示向量u_i与向量a_i的点积，

表示每一类中n个样本分类损失的累加值，即L_ua表示N个类别所有样本的对数分类损失；

L_ls＝max(m+dis(l_i,l_j)-dis(l_i,l_k),0)表示利用三元组损失函数来拉近同一类别样本间的距离，推远不同类别样本间的距离，以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性，从而来得到扩充的语义向量，dis(l_i,l_j)表示潜在扩充属性向量l_i与潜在扩充属性向量l_j的欧式距离，dis(l_i,l_k)表示潜在扩充属性向量l_i与潜在扩充属性向量l_k的欧式距离；l_i与l_j来自同一个类不同样本的潜在扩充属性向量，l_i与l_k来自不同类的不同样本的潜在扩充属性向量，m表示三元组损失的一个边距间隔，通常设置为1.0。

进一步，所述S4中，

用SA-WGAN-VAE网络模型，结合人为定义的属性语义向量和S2中构建的扩充语义向量，使用已见过类数据集

来训练SA-WGAN-VAE网络模型参数，每使用5个批次的D_s训练网络后，为未见过类生成视觉特征，使用已见过类的视觉特征和合成的未见过类的视觉特征训练分类器，使用验证集数据周期性对当前分类器进行分类准确率测试，当分类器的分类准确率趋于平缓时，停止网络训练，保存当前网络模型参数。

本发明与现有技术相比，具有如下优点与有益效果：

1、相比基于空间映射的零样本分类方法，本发明克服了网络的预测偏置现象；相比基于特征生成的零样本分类方法，本发明通过扩充语义信息，合成了更具多样性和判别性的视觉特征，进一步提高了网络的泛化性能。

2、本发明设计的方法模型是能应用在不同类型数据上的通用模型，对于不同类型的数据使用统一的端到端网络模型即可进行零样本分类学习。

3、本发明设计的扩充语义向量对不同数据集有很强的适应性，可以结合现有的生成式零样本分类模型，提升该模型的对于零样本数据的分类准确率。

4、本发明设计的方法模型可以较好地识别已见过类的样本，训练过程中，始终保证对少数类样本有较高的预测准确率。

5、本发明设计的方法可通过调整L_c函数进一步缓和SA-WGAN-VAE网络的模式坍塌问题，以一种灵活可控的方式避免生成的视觉特征呈现单一模式。当采样得到z_i和z_j相似度高时，仍鼓励网络利用该相似度高的向量组生成尽可能差异性大的视觉特征从而提升特征的多样性和丰富度。可通过调节合适的L_c函数的值来提升模型性能。

6、对于基于语义扩充的零样本图像分类模型，本发明在训练模型时，使用验证集数据中已见过类和未见过类的类平均预测准确率来评估网络的性能，较好地追踪模型真实性能的变化，训练出的模型的更加可靠。

附图说明

图1是本发明方法的工作流程图；

图2是本发明实施例的视觉语义嵌入网络和SA-WGAN-VAE输入数据的实例图。

图3为本发明训练基于语义扩充的零样本图像分类模型的算法流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1-图3所示，本实施例所提供的基于语义扩充的零样本分类方法，包括以下步骤：

S1构建已见过类的潜在扩充语义信息，具体为：

S1.1语义视觉嵌入网络E(x)在每个训练批次前构造一组三元组样本数据集

其中x_i，x_j来自相同类别的已见过类的视觉特征，x_i，x_k表示来自不同类别的视觉特征。

E(x_i)将

转化为[u_i,l_i],然后依据L_E损失进行训练，目的是学习类与类之间的潜在判别性语义信息。

S1.2针对数据集

其中

为已见类的视觉特征向量，

为已见类的标签，

为已见类的人为定义的属性语义向量。使用视觉语义嵌入网络E(x)将已见类的视觉特征映射至将语义信息和视觉信息关联起来的嵌入空间。每一个已见类的视觉特征向量

经[u_i,l_i]＝E(x_i)映射后，产生映射属性向量u_i和潜在扩充属性向量l_i。

具体来说，该视觉特征向量是通过卷积神经网络提取得到，用来描述类的图片相关视觉信息，同一类别的视觉特征向量之间存在相似性，不同类别之间的视觉特征向量存在差异性，使用视觉特征向量有利于帮助计算机识别出具体类别。属性语义向量具体是通过定义类的各个属性并且给这些属性赋予一定数值，即通过一组属性值组成的向量来描述每一个类，比如对于斑马类，斑马有条纹、外形及体重等属性，可以通过给体重、外形等属性赋予一个数值来具体描述一个类别要是斑马的情况下，这些属性应该是多少，该部分为人为定义。

用于训练视觉嵌入网络E(x)的损失函数为：

L_E＝L_ua+L_ls

其中

L_ls＝max(m+dis(l_i,l_j)-dis(l_i,l_k),0)

表示每一类中n个样本分类损失的累加值，即L_ua表示N个类别所有样本的对数分类损失。L_ls＝max(m+dis(l_i,l_j)-dis(l_i,l_k),0)表示利用三元组损失函数来拉近同一类别样本间的距离，推远不同类别样本间的距离，以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性，从而来得到扩充的语义向量，dis(l_i,l_j)表示潜在扩充属性向量l_i与潜在扩充属性向量l_j的欧式距离，dis(l_i,l_k)表示潜在扩充属性向量l_i与潜在扩充属性向量l_k的欧式距离；l_i与l_j来自同一个类不同样本的潜在扩充属性向量，l_i与l_k来自不同类的不同样本的潜在扩充属性向量，m表示三元组损失的一个边距间隔，通常设置为1.0。

S1.3获得的所有已见类的扩充语义向量，由公式

得出每一个可见类的类中心扩充语义向量，其中

语义视觉嵌入网络E(x)参数如表1所示。

表1语义视觉嵌入网络E(x)参数设置

Layer	Width	Height	Depth
				Input	32	32	1
Flatten	1	1	1024
				FullyConnected	1	1	4096
ReLU	1	1	4096
				FullyConnected	1	1	624

S2构建未见类的潜在扩充语义信息；

根据S1中所构建的已见过类的扩充语义信息，通过

得到所有未见过类的扩充语义信息，具体步骤为：

S2.1在人为定义的属性语义空间中，计算每一个未见过类与其他已见过类的相似度，相似度计算公式为：

其中

表示向量

与向量

的相似度得分；

表示第i类未见过类的人为定义的属性向量，

表示第j类已见过类的人为定义的属性向量，

表示向量

与向量

的点积，

分别表示向量

与向量

的模。

给定相似度分数阈值ξ，0≤ξ≤1。依据

筛选出

和

的相似度分数大于ξ的值组成向量[α₁,α₂...α_k]，ξ≤α₁,α₂...α_k≤1。

S2.2由公式

得出所有未见过类的扩充语义向量，其中

表示第j个已见过类的类中心扩充语义向量。

S3构建生成对抗网络模型以及缓和模式坍塌约束规则：

根据S2中得到的已见过类和未见过类的类中心扩充语义向量

和

以及人为定义的属性语义向量a作为条件，构建Wasserstein Generative Adversarial Networks(WGAN)和Variational Autoencoders(VAE),Semantic Augment组合的SA-WGAN-VAE网络模型，通过

ε＝1e-7，保证当z_i和z_j相似时,

和

尽可能有较大的差异性；SA-WGAN-VAE网络模型由两部分组成，分别为VAE网络模块、WGAN网络模块。其中WGAN网络模块包含生成器模块和判别器模块。通过如下损失函数：

更新VAE模块参数，其中KL表示Kullback-Leibler divergence，q(z|x,a)表示给定x,a时生成z的条件分布，x,a,

分别表示类的视觉特征向量、人为定义的语义向量以及已见过类的中心扩充语义向量，p(x|a)假设服从标准正态分布N(0,1)。Ep_q(z|x,a)[logp(x|z,a)]表示求logp(x|z,a)的期望，通过如下损失函数

更新WGAN模块，其中D(x,a)表示判别器D将x,a一起输入给出判别结果，

表示生成器G以人为定义的属性语义向量a作为条件的合成视觉特征，

表示生成器G以已见过类的中心扩充语义向量

作为条件的合成视觉特征,

其中U(0,1)表示均匀分布，同理

λ表示梯度惩罚系数。

VAE网络模块参数如表2所示

表2语义VAE网络参数设置

Layer	Width	Height	Depth
				Input	1	1	2048
FullyConnected	1	1	4096
				LeakyReLU	1	1	4096
FullyConnected	1	1	2048

生成器参数如表3所示

表3生成器参数设置

Layer	Width	Height	Depth
				Input	1	1	2048
FullyConnected	1	1	2048
				LeakyReLU	1	1	2048
FullyConnected	1	1	4096
				LeakyReLU	1	1	4096
FullyConnected	1	1	2048
				Sigmoid	1	1	2048

判别器参数如表4所示

表4判别器参数设置

S4训练基于语义扩充的零样本图像分类模型，合成视觉特征，利用合成的视觉特征构建特征分类器。具有如下特征：

①利用已见类和未见过类的人为定义的属性语义向量和扩充语义向量结合SA-WGAN-VAE网络合成视觉特征；

②在模型训练过程中，使用验证集数据周期性对当前分类进行准确率测试，当分类器的分类准确率趋于平缓时，停止网络训练，保存当前分类器模型参数。

使用预处理的CUB数据集对本发明上述方法进行具体说明。对于原始CUB数据集，CUB是具有200个类别的描述鸟类的数据集，本发明随机取其中150个类别的鸟类图片数据作为已见过类别，将剩余的50个类的鸟类图片数据作为未见过类；已见过类别和未见过类的实例图片如图2所示，一共11788长图片。使用通用的ResNet101网络对已见过类和未见过类的抽取2048维的图像特征集合分别记为

在本实例中，所述的基于语义扩充的零样本分类方法，包括以下步骤：

1)将

通过E(x)将x_i转换为[u_i,l_i]，通过

和L_ls＝max(m+dis(l_i,l_j)-dis(l_i,l_k),0)损失函数计算梯度；根据梯度更新E(x)网络参数，当L_ua，L_ls损失值不再下降时，停止训练，由公式

得出CUB数据集中150种可见类的类中心扩充语义向量。

2)根据1)中所构建的已见过类的扩充语义信息，在人为定义的属性语义空间中，通过

计算CUB中50种未见过鸟类与150种已见过鸟类的相似度，通过

得到50种未见过鸟类的中心扩充语义向量。

3)根据步骤2)中得到CUB数据集中150类已见过鸟类和50类未见过鸟类的中心扩充语义向量

和

以及原有人为定义的已见过类属性语义向量集A^s＝{a_i ^s},i＝1,2,3......150、A^u＝{a_j ^u},j＝1,2,3......50，a_i ^s,

向量维度均为312。构建SA-WGAN-VAE网络，网络模块参数上述内容，同时为了缓和WGAN的模式坍塌问题，构建

ε＝1e-7损失函数。

4)训练基于语义扩充零样本分类模型，具有如下特征

①将CUB中已见过类数据集

中每一个已见过类样本x_i,向量输入到VAE网络中产生潜在变量对z_i,，随后将该潜在变量对与

以及A^s＝{a_i ^s},i＝1,2,3......150进行组合形成[z_i,L_i ^s]和[z_i,a_i ^s]输入到生成器中生成重建视觉向量

通过L_vae计算损失更新VAE模块网络参数。

②将CUB中已见过类的

以及A^s＝{a_i ^s},i＝1,2,3......150与标准正态分布随机采样得到噪声向量z₁ ^N,

组合形成

[z₂ ^N,a_i ^s]向量对进而输入到WGAN的生成器模块中产生两个合成视觉向量

合成视觉向量

随后输入到WGAN的判别器模块中输出辨别结果，依据判别器输出的结果通过L_wgan计算损失更新WGAN模块网络参数。

③在使用CUB 150种已见过类训练好SA-WGAN-VAE网络参数后，使用SA-WGAN-VAE结合

为CUB剩余的50种未见过类生成视觉特征数据集

每一种未见过类使用SA-WGAN-VAE为其合成300个视觉特征。将

和D^s输入到分类器C中使用Softmax损失函数进行网络训练，

C(x_i)表示分类器C输出的类预测概率值。

分类器C模型参数如表5所示

表5分类器C模型参数设置

Layer	Width	Height	Depth
				Input	1	1	2048
FullyConnected	1	1	4096
				LeakyReLU	1	1	4096
FullyConnected	1	1	200

④在模型的训练中，采用Adam网络优化器，优化器的学习率对所有数据集设定为恒定的学习率大小为0.001；梯度惩罚因子λ设置为10，WGAN模块训练时，每进行5轮判别器模块的参数更新后进行一次生成器参数的更新；设置分类器的学习率为0.0001，训练过程中周期性使用验证数据集监控分类器对于已见过类和未见过类的平均分类准确率，当类的平均分类准确率不再上升时，终止训练，保存模型。在测试阶段，对测试集的已见过类的平均分类准确率为56.1％，未见过类的平均分类准确率为56.8％。

本发明的算法模型使用Python3.5编写，基于深度学习框架Pytorch，实验运行的GPU型号为2块NVIDIA GeForce GTX 1080Ti，一共22GB显存。

其它零样本图像分类方法类似此方法。

综上所述，本发明利用扩充的语义向量的优势对零样本分类问题建模，通过使用扩充的语义向量弥补了人为定义的属性语义向量的不全面，保证SA-WGAN-VAE利用扩充语义向量和人为定义的属性语义向量能够合成更具多样性和更符合真实样本分布的视觉特征。本发明提出的方法模型在传统零样本分类和广义零样本分类问题中均适用，在不同类型的数据环境和结合不同特征生成模型都能有优秀的分类表现，是一个具有较强鲁棒性的通用模型。因而本发明具有实际应用价值，值得推广。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于语义扩充的零样本图像分类方法，用于计算机识别无标签的图像，为其分配对应的类标签，其特征在于，包括如下步骤：

S1构建已见类的潜在扩充语义信息；

S2构建未见类的潜在扩充语义信息；

S3构建生成对抗网络模型模式坍塌约束规则；

S4构建基于语义扩充的零样本图像分类模型，合成视觉特征，利用合成的视觉特征构建特征分类器；

S1构建已见类的潜在扩充语义信息，具体为：

针对数据集

其中

为已见类的视觉特征向量，

为已见类的标签，

为已见类的人为定义的属性语义向量；

每一个已见类的视觉特征向量

经视觉语义嵌入网络E(x_i)＝[u_i,l_i]映射后，产生映射属性向量u_i和潜在扩充属性向量l_i，实现将已见类的视觉特征向量映射至语义向量和视觉特征向量关联起来的嵌入空间；

由公式

得出每一个已见类的类中心扩充语义向量，其中

表示第i个已见类的类中心扩充语义向量，l_g表示第i个已见类的第g个样本的扩充语义向量，n表示第i个已见类中有n个样本；

视觉语义嵌入网络在每个训练批次前构造一组三元组样本数据集

其中x_ti，x_tj来自相同类别的已见过类的视觉特征，x_ti，x_tk表示来自不同类别的视觉特征，E(x_i)将

转化为[u_i,l_i]，然后根据三元组损失函数进行训练；

S2构建未见类的潜在扩充语义信息，具体为：

在人为定义的属性语义空间中，计算每一个未见类与其他已见类的相似度，相似度计算公式为：

其中

表示向量

与向量

的相似度得分；

表示第j类未见过类的人为定义的属性语义向量，

表示第i类已见过类的人为定义的属性语义向量，

表示向量

与向量

的点积，

分别表示向量

与向量

的模；

给定相似度分数阈值ξ，0≤ξ≤1，对

筛选出

的所有

的相似度分数向量[α₁,α₂...α_k]，ξ≤α₁,α₂...α_k≤1，k是和第j类未见过类的属性语义向量

相似度值大于ξ的已见过类属性语义向量的个数，由公式

得出所有未见过类的扩充语义向量，其中

表示第j个未见过类的类中心扩充语义向量，α_r表示大于阈值ξ的第j个未见过类与第i个已见过类的相似度分数，

表示第i个已见过类的类中心扩充语义向量；

所述S3构建生成对抗网络模型模式坍塌约束规则，具体为：

将已见过类和未见过类的扩充语义向量

和

通过坍塌约束规则：

约束当z_i和z_j相似时,

和

和

表示WGAN使用z_i和z_j合成出的视觉特征向量，cossim(z_i,z_j)和

表示求两个向量的余弦相似度。

2.根据权利要求1所述的零样本图像分类方法，其特征在于，所述SA-WGAN-VAE网络模型包括VAE网络模块及WGAN网络模块。

3.根据权利要求2所述的零样本图像分类方法，其特征在于，所述WGAN网络模块包括生成器和判别器。

4.根据权利要求1所述的零样本图像分类方法，其特征在于，

用于训练视觉嵌入网络E(x)的损失函数为：

L_E＝L_ua+L_ls

其中

L_ls＝max(m+dis(l_ti,l_tj)-dis(l_ti,l_tk),0)

N表示已见类的类别数目，Y^s为已见类标签集合，

表示第c个已见类人为定义的属性语义向量，

表示每一类中n个样本分类损失的累加值，即L_ua表示N个类别所有样本的对数分类损失；L_ls＝max(m+dis(l_ti,l_tj)-dis(l_ti,l_tk),0)表示利用三元组损失函数来拉近同一类别样本间的距离，推远不同类别样本间的距离，以此来学习到人为定义的属性语义向量中未包含的表达类间可分关系的潜在属性，从而来得到扩充的语义向量，dis(l_ti,l_tj)表示潜在扩充属性向量l_ti与潜在扩充属性向量l_tj的欧式距离，dis(l_ti,l_tk)表示潜在扩充属性向量l_ti与潜在扩充属性向量l_tk的欧式距离；l_ti与l_tj来自同一个类不同样本的潜在扩充属性向量，l_ti与l_tk来自不同类的不同样本的潜在扩充属性向量，m表示三元组损失的一个边距间隔。

5.根据权利要求2所述的零样本图像分类方法，其特征在于，所述S4中，

6.根据权利要求4所述的零样本图像分类方法，其特征在于，m为1.0。