CN110826639B

CN110826639B - 一种利用全量数据训练零样本图像分类方法

Info

Publication number: CN110826639B
Application number: CN201911099506.1A
Authority: CN
Inventors: 廖祥文; 肖永强; 丘永旺; 徐戈; 陈开志
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2023-05-12
Anticipated expiration: 2039-11-12
Also published as: CN110826639A

Abstract

本发明涉及一种利用全量数据训练零样本图像分类方法，包括以下步骤：步骤S1:将全量数据分为源数据和目标数据；步骤S2:将源数据集和目标数据集输入视觉特征网络，将原始图像映射到视觉特征空间,得到图像视觉特征向量；步骤S3:将原始图像的低维属性语义通过语义转换网络映射到高维，得到语义特征向量；步骤S4:根据得到的图像视觉特征向量和语义特征向量，利用视觉‑属性语义衔接网络完成融合，得到拼接结果；步骤S5:根据拼接结果，通过得分子网络在语义空间中产生原始图像每一类的得分，并根据得分输出最终的预测结果。本发明能够有效的解决图像类别标签缺失问题。

Description

一种利用全量数据训练零样本图像分类方法

技术领域

本发明涉及零样本图像分类方法，具体涉及一种利用全量数据训练零样本图像分类方法。

背景技术

在进行图像分类的过程中，如若想准确对图像进行分类则需要告知模型每个类别的图像标签。然而，图像类别数往往非常大，而且有可能不定时增加新的类别，如果每次都采用人工去标注每个类别标签，那么工作量将会极其巨大。在这过程中，有些类别也只有少量或者没有训练样本标签，而整个类别没有训练标签的类别样本称为零样本，这样的零样本采用传统的机器学习方法构造分类器是无法奏效的。因为传统的模型需要通过有标签样本来构造一个类别的参数化/非参数化模型，不论是生成模型还是判决模型，都需要有标签数据作为构造条件概率模型的基础。

近些年来，深度学习已经在图像领域中取得惊人突破，主要原因归于两个方面，即除了硬件运算力的提升很大程度上也都依赖大量的有标签数据。在实际应用场景中，经常出现很难获取数据标签的问题，又或是需要耗费高额成本才能得到一定数量的标签。深度学习成为机器学习研究过程中一个重要领域分支，其目的是为了构造出形如人脑一样由许多神经元组成的网络，并能够实现学习分析能力。深度学习的运作机制是模仿人脑来对数据进行解释，一般数据分为图像、声音和文本，这些数据具有局部空间特征。

零样本图像分类思想和迁移学习是一样的，通过训练已有的视觉类别信息迁移到新图像类别，并实现对其分类。人类能够通过学习已见过的视觉信息与语义信息，让这些建立联系，通过这样的联系去判别新图像类别，使得具备识别未见过图像类别的能力。假设要教会一名儿童可以识别出一匹斑马但从来没有认识过斑马，而当他被告诉说马与斑马外形非常相似，在颜色上有点像企鹅一样黑白色的，在外表条纹上有点像老虎一样黑白相间的才是斑马。鉴于这名儿童已经学习过马的视觉信息，于是，在这名儿童再看马和斑马的时候，就可能准确辨认出哪些是斑马哪些是马。在零样本学习图像分类中，未知的图像类别并没有已知的标签，但可以通过对已知图像类别相关知识的学习，然后迁移到未知的图像类别当中，从而对未知的图像类别样本进行结果预测。

发明内容

有鉴于此，本发明的目的在于提供一种利用全量数据训练零样本图像分类方法，能有效解决解决图像类别标签缺失问题。

为实现上述目的，本发明采用如下技术方案：

一种利用全量数据训练零样本图像分类方法，提供一分类模型，包括视觉特征网络、属性语义转换网络、视觉-属性语义衔接网络和得分网络，具体包括以下步骤：

步骤S1:将全量数据分为源数据和目标数据；

步骤S2:将源数据集和目标数据集输入视觉特征网络，将原始图像映射到视觉特征空间,得到图像视觉特征向量；

步骤S3:将原始图像的低维属性语义通过语义转换网络映射到高维，得到语义特征向量；

步骤S4:根据得到的图像视觉特征向量和语义特征向量，利用视觉-属性语义衔接网络完成融合，得到拼接结果；

步骤S5:根据拼接结果，通过得分子网络在语义空间中产生原始图像每一类的得分，并根据得分输出最终的预测结果。

进一步的，所述源类数据是有标签的，目标类数据没有标签。

进一步的，所述视觉特征网络采用ResNet101。

进一步的，所述语义转换网络用于产生所有类别的属性特征表征。

进一步的，所述步骤S3具体为：

步骤S31:一路对源数据见过的类别数N^s的属性语义特征映射到高维，另外一路对目标数据已见过的和未见过的总类别数N^s+t的属性语义特征映射到高维；

步骤S32:确定要输入训练的类别属性特征N×f₂后将其送入属性语义转换网络，特征映射到N×f₂'，再使用重复产生和图像视觉特征向量一样的批大小b，即张量维度变为b×N×f₂',其中f₂表示特征维度；

步骤S33:通过特征拼接操作完全拼接输出张量维度b×N×2f。

进一步的，所述视觉-属性语义衔接网络采用完全拼接方式，将有标签数据中每一种图像类别视觉特征与所有有标签数据类别的属性语义特征拼接，将无标签数据中每一种图像类别视觉特征与所有无标签数据类别的属性语义特征拼接。

进一步的，所述得分函数表示如下：

F(x,y；W)＝F((x；W_α),Φ(y,W_β)；W)

其中，W_α和W_β分别是视觉特征网络的权重和属性语义转换网络的权重，W是视觉-属性语义衔接网络的权重。

一种利用全量数据训练零样本图像分类模型，包括视觉特征网络、属性语义转换网络、视觉-属性语义衔接网络和得分网络；所述视觉-属性语义衔接网络融合视觉特征网络和属性语义转换网络的输出数据，并将融合结果传送至得分网络，进一步得到分类结果。

进一步的，采用如下损失函数来训练模型：

其中，L_a为分类损失，||W||²为正则化项损失，λ₁、λ₂和λ₃为用于平衡不同损失之间的权重；

L_b为增加的损失项，具体公式如下：

其中，p_i表示预测为类i的概率

L_c为增加的损失项L_c，具体公式如下：

两项损失分别鼓励模型预测已见过的类别和未见过的类别。

本发明与现有技术相比具有以下有益效果：

1、本发明充分利用了无标签的数据，进一步解决类别标签缺失问题。

2、本发明相比于传统分类的损失函数，增加了两项损失，一项可以有效缓解强偏预测问题，另一项在一定程度上有助于神经网络辨别目标数据中见过的类别和未见过的类别。

附图说明

图1是本发明一实施例中利用全量数据训练零样本图像分类模型原理图

图2是本发明一实施例中视觉-属性语义嵌入网络。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种利用全量数据训练零样本图像分类模型，包括视觉特征网络、属性语义转换网络、视觉-属性语义衔接网络和得分网络；具体包括以下步骤：

步骤S1:将全量数据分为源数据和目标数据；

在本实施例中，模块均采用双层非线性形式，都是可微分的，包括卷积层，全连接层，ReLU层和Softmax层。

在一实施例中，全量数据所属领域分别是鸟类与动物类的，每一类的图像数据相对均衡，数据划分比例也基本均衡，具体见表1和表2。

Caltech-UCSD-Birds-200-2011(CUB)数据集

全部为鸟类的图像，总共200个类，其中150类为源数据(训练集)，50类为目标数据(测试集)，每一个类别的属性语义特征维度为312，共有11788张图片，划分情况见表1所示。

表1CUB数据集划分情况

(2)Animal with Attributes(AwA)数据集

给出了50个类别动物的图片，其中的40个类别数据作为训练集，而另外10个类别数据作为测试集。每一个类别的属性语义特征维度为85，总共有30475张图片。前者数据集为AwA1，AwA1存在图像版权问题，现在不能够获取这个原图像数据集，作者便收集给出了AwA2，数据类别和属性语义与AwA1相类似，总共37322张图片，本实施例中使用AwA2数据集，划分情况见表2所示。

表2AwA2数据集划分情况

本实施例中，评价指标具体包括：

ZSL：只评估在未见过的类别下的正确率T₁；

GZSL(ACC_Seen，ACC_Unseen)：分别评估在全集类别下预测见过与未见过类别的正确率。

调和指标H值：

H＝(2×ACC_seen×ACC_unseen)×100％/(ACC_seen+ACC_unseen)

在本实施例中，每个类别的标签进行训练图像，ZSL区分两种类别：源数据和目标数据，标记图像仅适用于来源类别。为了ZSL有效辨别目标类别，ZSL设定源类和目标类别共享一个共同的语义融合空间可以映射图像和类名，则来自新目标类别的图像可以通过在共享空间中自动搜索最近邻居。

参考图2，在本实施例中，视觉-属性嵌入网络由属性语义转换网络和视觉-属性语义衔接子网络构成，视觉-属性语义衔接子网络将高维属性语义特征嵌入到视觉特征，做一个完全拼接。由于不同的数据集的属性语义特征维度不同且较低，所以需要引入属性语义转换转换网络，实现特征从低维空间映射到高维空间，平衡属性语义特征影响程度与视觉特征的影响程度，该子网络采用了双层的线性激活层。属性语义转换网络用于产生所有类别的属性特征表征。在训练阶段，一路是对源数据见过的类别数N^s的属性语义特征映射到高维，另外一路是对目标数据已见过的和未见过的总类别数N^s+t的属性语义特征映射到高维，规定与DNN视觉特征的维度数相同。当确定要输入训练的类别属性特征N×f₂(f₁和f₂表示特征维度)后将其送入属性语义转换网络，特征映射到N×f₂′，再使用重复(Repeat)产生和图像表征一样的批大小b，即张量维度变为b×N×f₂′，通过特征拼接(Featureconcatenation)操作完全拼接视觉-属性语义特征输出张量维度b×N×2f，最后送入视觉-属性语义衔接网络，视觉-属性语义衔接网络也同样使用了两层的线性激活层。对于送入的源数据，最后计算的是分类得分，而送入的目标数据最后计算的是奖励。

在本实施例中，得分网络：对于目标类的数据在没有标注情况下，在训练阶段得到的模型是针对源数据，所以得到S个得分，而预测阶段针对目标数据产生的类别得分有S+T个。

视觉-属性嵌入网络完全拼接之后，识别任务可以通过联合强监督学习与弱监督学习同时进行。对于给定的一张特定图像，首先会通过视觉特征子网络得到它的视觉表征。然后，利用视觉-属性语义衔接子网络完成融合视觉特征到语义特征的强相关性。

强监督学习是针对源数据有标签进行分类，这里与一般传统的分类并无差别，而弱监督学习是针对目标数据无标签进行给定必要的奖励，它们共享视觉-属性语义衔接子网络权重。因此，得分函数可以表示如下：

F(x,y；W)＝F((x；W_α),Φ(y,W_β)；W) 公式(3-1)

其中，W_α和W_β分别是视觉特征嵌入函数的权重和属性语义特征嵌入函数的权重，W是视觉-属性语义嵌入函数的权重。

本实施例中，采用了由源数据和目标数据输入的两路Softmax分类器的联合强监督与弱监督模型，用来分类源数据类和目标数据类。但是，只有源类数据是有标签的，目标类数据没有标签，所以定义如下损失函数来训练模型：

传统的强监督学习分类器的损失函数包括分类损失L_a和正则化项损失||W||²，L_a采用了交叉熵，正则化用L₂范数来约束训练，该正则是为了缓解神经网络在训练学习过程中某些神经元不被激活停滞问题。λ₁、λ₂和λ₃用于平衡不同损失之间的权重，通过多次修改训练验证来确定。在训练阶段，所有标注的数据和未标注的数据混合在一起作为训练数据。模型使用Adam进行优化。每一个批训练图像按比例分别从源数据集和目标数据集中随机抽取。为了缓解训练过程中预测目标数据强偏问题，这里参考文献增加的损失项L_b，具体公式如下：

其中，p_i表示预测为类i的概率，给定一个来自目标类的实例，该损失鼓励模型增加预测所有目标类中未见过的概率和，这样可以防止目标类未见过的类别预测到已见过的类别中。为了提高区分目标数据中已见过的类别和未见过的类别，这里增加了损失项L_c，具体公式如下：

类似的，p_i表示预测为类i的概率，给定一个目标类的实例，该两项损失分别鼓励模型预测已见过的类别和未见过的类别。

在本实施例中，利用全量数据训练零样本图像分类方法分别在AwA2数据集和CUB数据集上对比于基准实验效果，调和指标H在AwA2上提升0.9％，在CUB上提升5.7％，具体如表4所示。在表3中，“L_b_FC”和“L_c_FC”分别增加L_b损失项和L_c损失项实验给出了在网络学习过程中的三次指标预测，而“FC_train_ZSL”是表示联合这两项损失L_b和L_c进行的实验。在表4中，“Baseline”是不使用无标签数据且不使用L_b和L_c损失项。

表3与基准实验对比效果

表4与基准实验对比效果

如表3所示，分别对“L_b_FC”和“L_c_FC”独立调优后再联合L_b和L_c两项损失的实验结果可以看出：一方面，在保证ACC_seen基本不下降情况下提升了ACC_unseen指标，从而提升了调和指标H值；另一方面，“L_b_FC”和“L_c_FC”对实验结果具有促进作用。对于传统条件下的ZSL指标T₁，仍然具有良好表现。

从表3和表4来看，在ACC_unseen指标上，CUB数据集和AwA2数据集均有大幅度提升。对比未使用无标签数据的RN神经网络，在AwA2数据集提升16.2％，在CUB数据集提升11.1％，所以使用增加L_b损失项可以有效解决强偏预测问题。再对比同样使用了无标签数据的CS神经网络，CS需要降低过多的ACC_seen来提升ACC_unseen，但在本章方法中相对于RN并未降低太多ACC_seen。可知λ₁值的大小对预测目标数据见过的类别和没见过的类别的倾向性影响较大，需要微调才能得到更好的效果。

对于λ₂值的选择可以反映出来，一个明显的趋势是：λ₂值越小，调和指标H越大，反之越小。从表格数据中发现无论是AwA2数据集还是CUB数据集，其调和指标H在使用λ₂值的损失项L_c都比不上使用λ₁值的损失项L_b的效果。

综上所述，本发明利用全量数据训练零样本图像分类模型相比于基准实验在效果上有大幅度提升趋势。相比于传统分类的损失函数，增加的两项损失，一项可以有效缓解强偏预测问题，另一项在一定程度上有助于神经网络辨别目标数据中见过的类别和未见过的类别。而联立新增两项损失后对比基准实验，在保证ACC_seen基本不下降的情况下，ACC_unseen有明显提升。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种利用全量数据训练零样本图像分类方法，提供一分类模型，包括视觉特征网络、属性语义转换网络、视觉-属性语义衔接网络和得分网络，其特征在于，具体包括以下步骤：

步骤S1:将全量数据分为源数据和目标数据；

步骤S3:将原始图像的低维属性语义通过属性语义转换网络映射到高维，得到语义特征向量；

所述步骤S3具体为：

步骤S33:通过特征拼接操作完全拼接输出张量维度为b×N×2f的图像视觉特征向量；

步骤S5:根据拼接结果，通过得分网络在语义空间中产生原始图像每一类的得分，并根据得分输出最终的预测结果；

所述属性语义转换网络用于产生所有类别的属性特征表征；所述视觉-属性语义衔接网络采用完全拼接方式，将有标签数据中每一种图像类别视觉特征与所有有标签数据类别的属性语义特征拼接，将无标签数据中每一种图像类别视觉特征与所有无标签数据类别的属性语义特征拼接；

所述得分网络的得分函数表示如下：

F(x,y；W)＝F((x；W_α),Φ(y,W_β)；W)

2.根据权利要求1所述的一种利用全量数据训练零样本图像分类方法，其特征在于：所述源数据是有标签的，目标数据没有标签。

3.根据权利要求1所述的一种利用全量数据训练零样本图像分类方法，其特征在于：所述视觉特征网络采用ResNet101。

4.一种实现权利要求1-3任一所述利用全量数据训练零样本图像分类方法的模型，其特征在于：包括视觉特征网络、属性语义转换网络、视觉-属性语义衔接网络和得分网络；所述视觉-属性语义衔接网络融合视觉特征网络和属性语义转换网络的输出数据，并将融合结果传送至得分网络，进一步得到分类结果。

5.根据权利要求4所述的一种利用全量数据训练零样本图像分类方法的模型，其特征在于：采用如下损失函数来训练模型：

L_b为增加的损失项，具体公式如下：

其中，p_i表示预测为类i的概率L_c为增加的损失项L_c，具体公式如下：

两项损失分别为模型预测已见过的类别和未见过的类别。