CN112364893B

CN112364893B - 一种基于数据增强的半监督零样本图像分类方法

Info

Publication number: CN112364893B
Application number: CN202011147838.5A
Authority: CN
Inventors: 冀中; 崔碧莹
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-07-05
Anticipated expiration: 2040-10-23
Also published as: CN112364893A

Abstract

本发明属于图像分类的技术领域，具体涉及一种基于数据增强的半监督零样本图像分类方法，利用快捷的搜索引擎，在训练过程中引入与未见类别相关的附加类别的数据，使可见类的信息可以很好地迁移到未见类中；同时不需要加入更多的语义信息，也就不需要耗费更多的人力，方便快捷；此外，本发明采用视觉特征和语义特征双向映射的方式，生成附加类样本的语义表示，使模型更好地从可见类迁移到未见类上去，提高模型的泛化能力，有助于推动零样本学习应用于生产生活实际，加速深度学习算法向实用发展。

Description

一种基于数据增强的半监督零样本图像分类方法

技术领域

本发明属于图像分类的技术领域，具体涉及一种基于数据增强的半监督零样本图像分类方法。

背景技术

近年来，机器学习在自然语言处理、计算机视觉、语音识别等领域都得到了广泛应用，而在计算机视觉领域，图像分类任务是最受关注且应用最广的任务之一，各种分类技术层出不穷，性能不断提升。在机器学习任务中，通过大量人工标注的图像而实现分类的监督学习方法是图像分类的传统方法，在现实生活中得到了很好的应用。然而，实际中为每个类别的图像收集足够的样本并且进行标注并不容易，会消耗大量的劳动力。不难理解，自然界的物种分布呈现长尾效应，只有少数类别的物种具有足够的图像样本可供监督学习训练分类模型，而很多类别的物种样本少而标签标注困难，这就使监督学习带来巨大挑战。因此，为解决样本标签缺失的问题，零样本学习应运而生。

零样本图像分类是零样本学习的一个重要方向，用来解决图像标注困难的分类问题。零样本图像分类有以下几种划分方式：第一种是根据测试样本的目标类别分为传统零样本学习和广义零样本学习，其中传统设定下测试样本都属于未见类，而广义设定中测试样本的目标类别包括可见类和未见类；第二种是根据训练的数据中是否包括未见类别的样本分为直推式零样本分类和传导式零样本分类。

目前零样本图像分类的具体实施方法可大致分为两种：一是基于映射的方法，通过视觉特征空间和语义特征空间之间的映射或者二者到公共空间的映射来对其视觉特征和语义特征，从而获得较好的分类结果；二是基于生成的方法，利用生成对抗网络、变分自编码器等生成模型来生成测试样本的伪特征，通过比较生成的伪特征与真实特征之间的相似度来确定所属类别。

为了完成对测试样本类别的预测，零样本图像分类技术通过利用可见类和未见类的语义信息以达到知识迁移的作用，同时本发明引入与测试类别相关的类别样本参与训练。实验设置如下所示：在训练阶段，给定N个可见类的带标签样本

其中n为可见类的样本数目，

为第i个样本的视觉特征，

表示其相应的类别标签，此外，

表示其对应的类级语义原型。同时，给定一个包括K个类别的附加类样本集

其中k为附加数据集的样本数，

表示样本x_a对应的标签。测试过程中，传统的零样本图像分类是给定未见类的语义特征A_U，将测试样本x_t分到未见类Y_U中，且

广义的零样本图像分类是根据可见类和未见类的语义特征，将测试样本x_t分到可见类和未见类中。此外，引入附加类样本的同时要注意保证

且

总之，半监督零样本图像分类就是利用可见类和附加类样本的相关特征训练模型，利用这个模型预测测试样本的类别标签y_t。

通过学习视觉空间和语义空间之间的简单映射关系会导致特征表征的不完整，同时会产生低维枢纽点问题。通过学习从高维视觉空间到低维语义空间的简单映射会引发高维中不同类的样本压缩到低维中同一类语义的枢纽点现象，而从低维空间到高维空间的简单映射同样会产生类似的问题。此外，生成对抗网络的引入不可避免的是其本身训练不稳定，易引发模式崩溃的问题，不能保证完全生成的样本的可靠性。因此，在引入附加类样本之前，无监督的训练方式容易造成可见类到未见类的知识迁移不完全的问题。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种基于数据增强的半监督零样本图像分类方法，提高可见类到未见类知识迁移的能力，从而提升零样本图像分类的性能。

为了实现上述目的，本发明采用如下技术方案：

一种基于数据增强的半监督零样本图像分类方法，包括如下步骤：

1)分别初始化回归器R和生成器G的参数为r和e；

2)将可见类的视觉特征和类别语义特征随机选取设定批量的数据分别记作x_s和a_s，从附加类样本中也提取相同批量的数据记作x_a；

3)将x_s输入到回归器R中，输出语义特征

并且使用真实的类别语义特征a_s作为回归器的约束，计算回归损失函数L_reg：

其中，

为2范数表示；

4)将附加类的样本x_a输入回归器R，输出相应语义特征

5)将真实的可见类语义特征a_s和生成的附加类语义特征

级联，输入到生成器G中，获得合成的可见类和附加类的伪视觉特征：

其中，[；]表示两个向量的级联；

6)计算生成样本与真实样本的重构损失函数：

7)将回归损失函数与重构损失函数相加，训练回归器和生成器，更新它们的参数：

L_total＝L_reg+λL_rec

其中，L_total表示模型的总损失函数；

8)重复步骤2)～步骤7)，达到设定的迭代次数，得到最终的回归器R和生成器G的参数r和e；

9)将测试样本的视觉特征x_t输入到训练好的生成器G中，获得对应的语义特征，利用最近邻的方法对生成语义特征进行分类，即：

作为本发明所述的一种基于数据增强的半监督零样本图像分类方法的一种改进，所述步骤2)的附加类y_a的样本视觉特征x_a的获取过程包括：

利用搜索引擎，搜索和未见类相关的类别作为附加类别y_a，下载若干附加类的清晰图像，且保证附加类别的数目与未见类数目相同，且附加类与可见类和未见类都不相交；

将获得的图像输入resnet101网络，获得相应的视觉特征x_a。

作为本发明所述的一种基于数据增强的半监督零样本图像分类方法的一种改进，所述步骤3)的利用回归器R生成语义特征

的工作过程包括：

回归器R的网络结构由3层全连接层表示，其中前两层利用relu函数作为激活层，工作过程为：

其中，f_c1、f_c2和f_c3分别表示3个全连接层，relu()表示激活函数。

作为本发明所述的一种基于数据增强的半监督零样本图像分类方法的一种改进，所述步骤5)的生成器G的结构使用与回归器对称的结构，其工作过程为：

作为本发明所述的一种基于数据增强的半监督零样本图像分类方法的一种改进，还包括：

将图像数据集分为可见类和未见类，可见类包括来自N个类别的n个样本，表示为

其中

为第i个训练样本的视觉特征，

和

分别表示第i个训练样本相应的类别标签和类别语义原型。

作为本发明所述的一种基于数据增强的半监督零样本图像分类方法的一种改进，所述附加类包括来自K个类别的k个样本，表示为

其中x_a和y_a分别表示样本的视觉特征和类别标签。

给定x_t为测试样本的视觉特征，a_t为测试样本的类别语义特征。

本发明的有益效果在于，本发明利用双向映射网络的方法实现视觉特征与语义特征的对齐并获取附加类样本的语义信息，与原可见类的语义信息一起训练特征映射网络，从而将更多更直观高效地提升零样本学习的性能。本发明利用快捷的搜索引擎，在训练过程中引入与未见类别相关的附加类别的数据，使可见类的信息可以很好地迁移到未见类中；同时不需要加入更多的语义信息，也就不需要耗费更多的人力，方便快捷；此外，本发明采用视觉特征和语义特征双向映射的方式，生成附加类样本的语义表示，使模型更好地从可见类迁移到未见类上去，提高模型的泛化能力，有助于推动零样本学习应用于生产生活实际，加速深度学习算法向实用发展。

附图说明

下面将参考附图来描述本发明示例性实施方式的特征、优点和技术效果。

图1为本发明的结构示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图1对本发明作进一步详细说明，但不作为对本发明的限定。

本发明引入搜索引擎获取的与未见类相似的附加类别的视觉特征，利用一个回归器和生成器，分别实现视觉空间到语义空间、语义空间到视觉空间的双向映射，具体来说，将可见类和附加类的视觉特征通过回归器生成相应的语义特征，再通过一个生成器将真实的可见类语义特征与合成的语义特征映射回视觉空间，合成视觉特征。训练好模型后，使用最近邻来对测试样本进行分类，实现零样本图像分类技术。

发明人发现可见类与未见类越相关且训练数据越多，学习到的迁移知识越有利于未见类别样本的推断。因此本发明采用半监督的训练方式，充分利用搜索引擎来获取更多与未见类相关的样本，结合视觉特征和语义特征相互映射的方式，从而提高可见类到未见类知识迁移的能力，提升零样本图像分类的性能。

本发明采用一种新的零样本图像分类的设定方法，引入从搜索引擎上下载的大量与未见类别相关的类别样本，与可见类别的样本和语义信息加入到训练过程中，同时不引入更多的附加信息，而在测试时根据测试样本的目标类别进行传统零样本分类和广义零样本分类的实验。

本发明首先将图像数据集分为可见类和未见类，可见类包括来自N个类别的n个样本，表示为

其中

为第i个训练样本的视觉特征，

和

分别表示第i个训练样本相应的类别标签和类别语义原型。附加类包括来自K个类别的k个样本，表示为

其中x_a和y_a分别表示样本的视觉特征和类别标签。给定x_t为测试样本的视觉特征，a_t为测试样本的类别语义特征。传统的零样本图像分类是给定未见类的语义特征a_t∈A_U，将x_t分到未见类Y_U中，且

广义的零样本图像分类是根据A_S和A_U，将x_t分到可见类和未见类中。此外，本发明引入附加类样本的同时要注意保证

且

总之，半监督零样本图像分类就是利用可见类和附加类样本的相关特征训练模型，利用这个模型预测测试样本的类别标签y_t。如图1所示，进行如下步骤：

1)分别初始化回归器R和生成器G的参数为r和e；

2)将可见类的视觉特征和类别语义特征随机选取设定批量的数据分别记作x_s和a_s，从附加类样本中也提取相同批量的数据记作x_a。

3)将x_s输入到回归器R中，输出语义特征

其中，

为2范数表示。

4)将附加类的样本x_a输入回归器R，输出相应语义特征

5)将真实的可见类语义特征a_s和生成的附加类语义特征

其中，[；]表示两个向量的级联。

6)计算生成样本与真实样本的重构损失函数：

L_total＝L_reg+λL_rec (5)

其中，L_total表示模型的总损失函数。

8)重复步骤2)～步骤7)，达到设定的迭代次数，得到最终的回归器R和生成器G的参数r和e。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。