CN106778804B

CN106778804B - 基于类别属性迁移学习的零样本图像分类方法

Info

Publication number: CN106778804B
Application number: CN201611033208.9A
Authority: CN
Inventors: 冀中; 孙涛
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2020-10-20
Anticipated expiration: 2036-11-18
Also published as: CN106778804A

Abstract

本发明涉及图像处理、图像分类技术，为提出具有高效、高准确率的图像分类技术方案。本发明：基于类别属性迁移学习的零样本图像分类方法，在间接属性预测IAP基础上，通过构建基于属性的多类别分类器模型，来判断测试样本是否具有一属性，而且能够学习到测试样本的这一属性由哪些类别迁移而来，从而学习得到更加细粒度的属性，再进行转移学习，实现零样本图像分类；其中，IAP训练阶段就是一个多类别分类器，测试阶段，通过测试样本属于各个标注类别的概率，得到测试样本的预测语义特征，最后通过预测语义特征判别测试样本属于哪个未见过的类别。本发明主要应用于图像处理。

Description

基于类别属性迁移学习的零样本图像分类方法

技术领域

本发明涉及图像处理、图像分类技术，具体讲,涉及基于类别属性迁移学习的零样本图像分类方法。

背景技术

对于传统图像分类系统，要想准确识别出某类图像，必须给出相应带标签的训练样本。但是，一方面，世界上的事物种类非常多，标注样本需要花费大量的人力和时间；另一方面，对于某一类事物，又可以进一步细分为许多子类，如狗又可以细分为藏獒、哈巴狗、哈士奇等，而且有些类别的标注样本很难获得。近年来，为了解决样本缺失的问题，零样本学习引起了研究者们的广泛关注。零样本图像分类的目标是构建能够识别出训练数据中没有出现过的类别的图像的分类器。与传统的图像分类方法相比，零样本图像分类在不给出所有类别的训练样本的情况下，它也能够识别出未知类别的图像。所以，零样本图像分类是解决类别标签缺失问题的一种有效方法。

为了实现零样本分类的目标，需要解决两个关键问题：(1)如何构建类别描述特征；(2)如何将视觉特征和类别描述特征联系起来。为了实现对没有训练数据的未知类别的图像的识别，需要构建类别描述特征将已知类别和未知类别联系起来。

针对关键问题一，早期工作中，通常利用类别的属性特征张成的空间作为连接底层视觉特征和高层类别标签的语义空间。属性特征是人为定义的类别之间共享的特性，如“颜色”，“纹理”，“形状”等能够描述类别语义的共同特性。根据属性特征的表征形式，属性特征可以分为二进制属性、连续属性和相对属性三种。尽管属性特征在很多视觉领域取得了成功，但是属性特征仍然存在三方面的缺陷，一是标注属性仍然需要大量的时间，二是可扩展性差，如用于描述动物类别的数据集的属性特征很难扩展到鸟类数据集；三是属性特征的标注不是从视觉样本中获得的，因此与视觉样本还存在着一定的语义差异。

近年来，随着自然语言处理技术的发展，利用文本描述特征代替属性特征的研究得到广泛关注。利用自然语言处理技术，类别的文本描述特征可以从语料库中提取。这样每一个类别就可以用文本描述空间中的一个向量进行表征。常用于获取文本描述的方法有word2vec、GloVE,word2vec是Mikolov等人提出的，它可以将语料库中的单词表示成一个向量，并且向量之间的相似度可以较好的模拟单词语义上的相似度。与属性特征相比，文本描述特征是以无监督学习的方式从语料库中提取的语义描述信息，因此具有更好的扩展性。

针对关键问题二，在给定的类别语义空间中，标注类别和未标注类别都可以利用语义空间中的向量表征。这样类别之间的语义相关性可以利用各类别在语义空间中所对应的向量之间的相似度度量。然而样本的视觉特征和类别的语义特征位于不同的空间中，因此样本和类别向量之间的相似度无法直接衡量。因此解决这个问题的关键转换为多模态学习的问题，即通过学习一种映射关系将样本的视觉特征嵌入到类别语义空间中，这样样本的视觉特征和类别的语义特征之间的相似度就可以利用嵌入向量和类别描述向量之间的距离求出。当前学习不同模态之间映射关系的方法有：Lazaridou等人分别用线性回归、典型相关分析、奇异值分解和神经网络四种方法作为映射函数，发现这些方法中神经网络的效果最好。这说明和结构简单的线性映射相比，非线性映射可以表现更为丰富的映射关系。Huang等人提出的非监督学习模型，利用维基百科语料库，通过预测每个词在上下文中出现的概率，为类别名称提取50维的文本特征。然后构造了一个两层的神经网络，将视觉空间与语义空间相联系，通过均方误差最小化构建目标函数。与上述方式不同，Norouzi等人首先用训练图像训练深度神经网络，然后直接将未见过的类别的测试图像输入神经网络，得到测试图像属于各个已见过的类别的概率。再将这些概率与相应的已见过的类别的语义特征取内积，得到测试图像的预测语义特征，最后寻找与预测语义特征最接近的未见过类别的语义特征，从而确定测试图像的类别。这种方法虽然简单，却充分利用了深度神经网络，因而也能够得到良好的效果。

另外，零样本学习是将语义信息从视觉特征空间转移到类别空间中的模型，因此属于转移学习的一种特殊情况。Lampert提出了一种间接属性预测(Indirect AttributePrediction，IAP)的方法，通过挖掘标注类别和未标注类别之间的语义关系将测试样本的视觉信息转移到对应的类别空间中，具体为：属性特征通过连接标注类别和未见过的类别转移信息，IAP训练阶段就是一个多类别分类器，测试阶段，通过测试样本属于各个标注类别的概率，得到测试样本的预测语义特征，最后通过预测语义特征判别测试样本属于哪个未见过的类别。除了利用二进制表现形式的属性特征，Parikh等人提出了利用相对属性的概念，他们在两个已知数据集(人脸和自然场景数据集)的部分属性上构建了相对属性，再通过相对属性进行转移学习，以实现零样本图像分类。由于相对属性所含语义信息更加丰富，相比于利用二进制表现形式的属性特征的方法，他们的方法取得了更好的效果。另外，Ziad通过挖掘标注类别之间的语义嵌入结构，学习某一属性的类内变化信息，并提出一种分层结构模型将不同层次的属性从训练数据转移到测试样本中。以鸟的喙为例：蜂鸟(hummingbird)和信天翁(albatross)都具有属性喙(Beak)，但是这两种类别的鸟喙的形状差别明显，蜂鸟的喙是长扁形的，而信天翁的喙是宽弯形的，这说明同一属性的类内变化明显。

发明内容

为克服现有技术的不足，本发明旨在提出具有高效、高准确率的图像分类技术方案。本发明：基于类别属性迁移学习的零样本图像分类方法，在间接属性预测IAP基础上，通过构建基于属性的多类别分类器模型，来判断测试样本是否具有一属性，而且能够学习到测试样本的这一属性由哪些类别迁移而来，从而学习得到更加细粒度的属性，再进行转移学习，实现零样本图像分类；其中，IAP训练阶段就是一个多类别分类器，测试阶段，通过测试样本属于各个标注类别的概率，得到测试样本的预测语义特征，最后通过预测语义特征判别测试样本属于哪个未见过的类别。

一个实例中的具体步骤如下：

1.前期数据准备

动物属性AwA(animals with attributes)数据集共有85个属性，分别基于每个属性构造多类别分类器模型，这里需要进行样本标注，在MATLAB环境下，AwA数据集已知类别的属性特征由一个85*40维的semant变量表示，其中对于属性a_i，i＝1,2,...,85，如果已知类别y_j具有此属性，j＝1,2,...,40，则semant(i,j)＝1，否则semant(i,j)＝0；其它的，基于某一具体属性描述，所设计的多类别分类器模型不仅能判断测试样本是否具有这一属性，而且能够学习到测试样本的这一属性由哪些类别迁移而来：基于不同属性分别进行样本标注，最后，得到一个重新被标注的85*40维的semant变量；

2.求解模型参数

在Softmax回归(Softmax Regression)中，对于给定的测试输入x，用假设函数针对每一个类别j估算出概率值p(w＝j|x)，其中w为被重新标注的类别，也就是说,估计x的每一种分类结果出现的概率；因此，假设函数将要输出一个向量元素的和为1的k维的向量来表示这k个估计的概率值，具体地说，假设函数h_θ(x)形式如下：

其中θ₁,θ₂,...,θ_k是模型的参数，AwA数据集共有85个属性，这就需要分别构建基于85个属性的Softmax分类器模型，利用被重新标注的样本数据训练模型，得到85个Softmax模型的最优参数；

3.计算语义值

当输入一个测试样本x时，每个Softmax分类器都会得到测试样本基于某一属性被预测为已知类别的概率分布p(w_j|x)，这里需要进行转移学习，利用得到的属性特征semant(i,j)＝1的已知类别的概率分布预测测试样本是否具有属性a_i，即：

通过以上方式，计算出测试样本的预测语义值；

4.识别未知类别

通过上述计算方式，我们将得到所有测试样本的预测语义值pred_attr，给出未知类别的属性特征attr_uni，通过求内积的方式比较二者相似度大小，即:

pred＝pred_attr*attr_uni

最后，预测测试样本属于与其相似度最大的未知类别，从而实现识别未知类别的目标。

本发明的特点及有益效果是：

本发明主要是针对现有的基于属性转移学习的零样本图像分类方法主要是利用全局属性并没有考虑到类别内部属性变化明显这一问题，设计一种面向零样本图像分类领域的类别属性迁移学习方法，充分地利用原数据集中已有的丰富信息。其优势主要体现在：

(1)新颖性：针对零样本图像分类问题中属性内部变化明显这一问题，提出一种新的类别间属性迁移学习的方法，通过构建基于属性的多类别分类器模型，学习更加细粒度的属性，再进行转移学习，实现零样本图像分类。

(2)有效性：通过实验证明了与标准的间接属性预测方法相比较，本发明设计的基于类别属性迁移学习方法在零样本图像分类的实验中的性能优于前者，能够有效地利用原数据集中已有的丰富信息，从而提高分类准确率。

(3)实用性：简单可行，可以用在零样本图像分类的相关领域。

附图说明：

图1是本发明的基于类别属性迁移学习的零样本图像分类方法的流程图；

图2是本发明的基于类别属性迁移学习的零样本图像分类方法的示意图。

具体实施方式

本发明涉及一种面向零样本图像分类领域的类别属性迁移学习技术，针对零样本图像分类中类别内部属性变化明显的问题，它对传统的间接属性预测方法进行了改进，达到了有效挖掘视觉样本深层语义信息、更好预测视觉样本的属性特征目的。

本发明的目的在于提供一种基于类别属性迁移学习的零样本图像分类方法。目前零样本学习中一个常用的思想是通过属性特征连接标注类别和未见过的类别进行信息的转移，从而得到测试样本的预测语义特征。如何进行信息的转移是其中的关键技术。针对这一关键技术，本发明提出一种有效地将视觉特征转移到类别属性特征的学习框架，并利用学习到的属性特征对测试样本的类别进行预测。同时提出一种从视觉样本中挖掘深层语义信息的方法，用于建立类别与类别之间的语义关系。

本发明所提供的方法主要是在传统的间接属性预测(IAP)方法的基础上，为了解决类别内部属性变化明显的问题，通过构建基于属性的多类别分类器模型，它不仅能判断测试样本是否具有这一属性，而且能够学习到测试样本的这一属性由哪些类别迁移而来。从而学习得到更加细粒度的属性，再进行转移学习，实现零样本图像分类。

IAP训练阶段就是一个多类别分类器，测试阶段，通过测试样本属于各个标注类别的概率，得到测试样本的预测语义特征，最后通过预测语义特征判别测试样本属于哪个未见过的类别。本发明的方法是通过构建基于属性的多类别分类器模型。

下面以AwA数据集为例，基本步骤如下：

1.前期数据准备

AwA数据集共有85个属性，那就分别基于每个属性构造多类别分类器模型，这里需要进行样本标注。在MATLAB环境下，AwA数据集已知类别的属性特征由一个85*40维的semant变量表示，其中对于属性a_i(i＝1,2,...,85)，如果已知类别y_j(j＝1,2,...,40)具有此属性，则semant(i,j)＝1，否则semant(i,j)＝0；但是，比如对于尾巴这一属性，已知类别中狗和鲸鱼都是有尾巴的，但是两种动物类别尾巴的形状差别很大，当输入一个类别为狼的测试样本，由于已知类别狗和测试样本狼视觉空间描述相近，所以，狼的尾巴属性由狗的尾巴属性迁移得到。基于某一具体属性描述，所设计的多类别分类器模型不仅能判断测试样本是否具有这一属性，而且能够学习到测试样本的这一属性由哪些类别迁移而来。首先，基于不同属性分别进行样本标注，对于属性a_i(i＝1,2,...,85)，将具有属性a_i的已知类别依次标注为一类，再将所有不具有属性a_i的已知类别统一标注为另一类，最后，得到一个重新被标注的85*40维的semant变量。

2.求解模型参数

由于我们解决的是多分类问题，选择使用Softmax分类器，在Softmax回归中，对于给定的测试输入x，我们想用假设函数针对每一个类别j估算出概率值p(w＝j|x)，其中y为被重新标注的类别。也就是说,我们想估计x的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值。具体地说，我们的假设函数h_θ(x)形式如下：

其中θ₁,θ₂,...,θ_k是模型的参数。AwA数据集共有85个属性，这就需要分别构建基于85个属性的Softmax分类器模型，利用被重新标注的样本数据训练模型，得到85个Softmax模型的最优参数。

3.计算语义值

通过以上方式，可以有效地计算出测试样本的预测语义值。

5.识别未知类别

通过上述计算方式，我们将得到所有测试样本的预测语义值pred_attr，给出未知类别的属性特征attr_uni，我们可以通过求内积的方式比较二者相似度大小，即:

pred＝pred_attr*attr_uni

最后，预测测试样本属于与其相似度最大的未知类别。从而实现识别未知类别的目标。

下面结合附图和具体实施方式进一步详细说明本发明。

图1描述了所提出的基于类别属性迁移学习的零样本图像分类方法的流程图，与间接属性预测方法一样，它也通过属性特征实现类别间的转移学习，属性特征连接标注类别和未标注类别(未知类别)，但是，本方法在训练阶段需要训练85个多类别分类器，如图2所示，分别构建基于85个属性的Softmax分类器模型，利用被重新标注的样本数据训练模型，测试时，对标注类别的预测通过转移学习计算出测试样本的预测语义值，从而实现对未知类别的识别。

以AwA数据集为例，其中已知类别Y＝{y₁,y₂,...,y₄₀},未知类别Z＝{z₁,z₂,...,z₁₀},属性空间A＝{a₁,a₂,...,a₈₅}，已知类别的属性特征由一个85*40维的semant变量表示，样本标注时，对于属性a_i，计算得到所有满足semant_(i,j)＝1条件的已知类别y_j个数n_i，顺序标注已知类别y_j对应的semant(i,j)为1,2,...,n_i,再将所有满足semant(i,j)＝0条件的已知类别y_j对应的semant(i,j)统一标注为n_i+1,最后，得到一个重新被标注的85*40维的semant变量。

如图2所示，构建完基于85个属性的Softmax分类器模型，利用被重新标注的样本数据训练模型，得到最优的模型参数。

测试时，当输入一个未知类别的样本，每个Softmax分类器都会得到测试样本基于对应属性被预测为已知类别的概率值，如图2所示，利用得到的概率值转移学习预测测试样本是否具有这一属性，通过下述公式：

通过以上方式，可以有效地计算出测试样本的预测语义值。

pred＝pred_attr*attr_uni

Claims

1.一种基于类别属性迁移学习的零样本图像分类方法，其特征是，在间接属性预测IAP基础上，通过构建基于属性的多类别分类器模型，来判断测试样本是否具有一属性，而且能够学习到测试样本的这一属性由哪些类别迁移而来，从而学习得到更加细粒度的属性，再进行转移学习，实现零样本图像分类；其中，IAP训练阶段就是一个多类别分类器，测试阶段，通过测试样本属于各个标注类别的概率，得到测试样本的预测语义特征，最后通过预测语义特征判别测试样本属于哪个未见过的类别；具体步骤如下：

1)前期数据准备

动物属性AwA数据集共有85个属性，分别基于每个属性构造多类别分类器模型，这里需要进行样本标注，在MATLAB环境下，AwA数据集已知类别的属性特征由一个85*40维的semant变量表示，其中对于属性a_i，i＝1,2,...,85，如果已知类别y_j具有此属性，j＝1,2,...,40，则semant(i,j)＝1，否则semant(i,j)＝0；其它的，基于某一具体属性描述，所设计的多类别分类器模型不仅能判断测试样本是否具有这一属性，而且能够学习到测试样本的这一属性由哪些类别迁移而来：基于不同属性分别进行样本标注，最后，得到一个重新被标注的85*40维的semant变量；

2)求解模型参数

在Softmax回归中，对于给定的测试输入x，用假设函数针对每一个类别j估算出概率值p(w＝j|x)，其中w为被重新标注的类别，也就是说,估计x的每一种分类结果出现的概率；因此，假设函数将要输出一个向量元素的和为1的k维的向量来表示这k个估计的概率值，具体地说，假设函数h_θ(x)形式如下：

3)计算语义值

当输入一个测试样本x时，每个Softmax分类器都会得到测试样本基于某一属性被预测为已知类别的概率分布p(y_j|x)，这里需要进行转移学习，利用得到的属性特征semant(i,j)＝1的已知类别的概率分布预测测试样本是否具有属性a_i，即：

通过以上方式，计算出测试样本的预测语义值；

4)识别未知类别

pred＝pred_attr*attr_uni