CN108846412A

CN108846412A - 一种泛化零样本学习的方法

Info

Publication number: CN108846412A
Application number: CN201810431168.6A
Authority: CN
Inventors: 付彦伟; 董瀚泽; 姜育刚; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-11-20

Abstract

本发明属于机器学习算法技术领域，具体为一种泛化零样本学习的方法。本发明方法中，首先利用极值理论、韦伯‑支持向量机、K‑S检验技术，将特征空间分为三类：已知类即有样本的，未知类即零样本的，以及不确定类即既可能是已知类又可能是未知类的；对于已知类别直接利用监督学习的方法得到其类别名称；对于未知类别使用零样本学习的方法得到其类别的名称；对于不确定类，将其中最有可能的已知类和其他所有的未知类在语义空间进行可能性排序，并只考虑增加一种已知类在搜索域中；然后通过建立特征空间和语义空间的映射完成对类别的预测。本发明具有速度快、精度高、鲁棒性好等优点，统计意义、可解释性较强，可利用于零样本学习的实际应用。

Description

一种泛化零样本学习的方法

技术领域

本发明属于机器学习算法技术领域，具体涉及一种泛化零样本学习的方法。

背景技术

随着机器学习算法的日益提升，如今许多视觉和自然语言处理任务逐渐能够被深度学习算法攻克，带来了人工智能的新一波热潮。然而，当前的机器学习通常基于大量的学习样本，而在实际情况中，有许多任务并不能在有限的时间和财力搜集到足够的学习样本，而对于这类问题的攻克需要利用迁移学习的方法使得少量样本甚至零样本的任务能够被解决。

传统的方法直接利用迁移学习的方法对零样本类的特征到语义空间的映射进行学习，如文[1][2]，使得该映射在零样本类之间的分类能够得到比较好的效果。文[3][4]提出了泛化零样本学习(Generalized Zero Shot Learning)的任务，该任务要求泛化零样本学习的分类的搜索域需要包括已知类和未知类，甚至是其他语义空间的未知类别[4]，也就是说在测试集中混合了已知类和未知类，这使得零样本学习的判断需要更加精确。

然而，不幸的是，现在的多数算法直接考虑将零样本学习的算法应用到泛化零样本学习的分类任务中，使得其效果十分不理想。文[3]比较了当前比较流行的一些算法，直接利用零样本学习的算法应用到泛化零样本学习，而实际结果比在零样本搜索域的结果出现了断崖式崩塌。这源自于而忽略了高维空间的畸变情况，具体而言，在高维空间中会产生某些点成为枢纽(Hubness)使得所有的点离他们都比较近[5]，而产生预测结果偏向于已知类(因为训练过程中已知类会更靠近这样的枢纽)。在这种情况下，不论是已知类别还是未知类别都倾向于预测一个已知类别，而导致零样本学习不能泛化到已知空间中。

另外一方面，对于已知类别和未知类别的识别，在计算机视觉中被称为开集识别(Open Set Recognition),文[6]提出利用极值理论分析未知类别和已知类别的分界，使得未知类别的样本能够在分类中能够区分开来。具体而言，其采用了一种韦伯-支持向量机(Weibull-SVM,W-SVM)的方法，通过估计支持向量机所返回的概率，判断是否属于某一类别，使得未知类可以预测为“-1”类，而其他类别能够直接判断。而这项技术在样本量足够大的时候可以非常准确地判断出未知/已知类别。

发明内容

本发明的目的在于提供一种泛化零样本学习的方法，以克服现有学习方法的不足。

本发明提供的泛化零样本学习的方法，是将目标域划分为与不同候选类别集合相关的已知、未知和不确定的目标域；对于泛化零样本学习，先利用开集学习以及本文提出的不确定域，将测试实例分为三个类别，然后再用传统的监督学习以及零样本实验进行分类。

开集学习(Open Set Learning)，假设模型对类集有不完整的认识，并能够学习在所看到的类之间进行分类，以及检测来自未知类的实例。但是，它并不旨在明确预测给定实例属于哪个不可见类(如果发现实例是未知的)。另一方面，零样本学习(Zero ShotLearning)主要针对在测试时出现的未知/看不见类别的问题，但这是一种人为设置，因为所看到的类别也可能出现在测试时间。在被称为泛化零样本学习(Generalized Zero ShotLearning)的零样本识别的现实环境中，候选类别既包括所看到的类也包括看不见的类，常规方法通常效果不佳，因为包括看到和看不见的类别。在这项工作中，本发明通过缩小开集学习和零样本学习之间的差距来解决这个泛化零样本学习问题，这种领域划分可以有效地减少看不见和看不见的类之间的混淆，并允许该模型通过显着减少候选类的数量来解决每个问题。本发明验证了在多个标准数据集上的零样本学习和泛化零样本学习性能的领域划分方法，在这些数据集上它显着优于现有模型。

我们发现混合了已知类和未知类的预测的不一致性，并且说明了在预测之前域分割的重要性和有效性，它们弥合了开集学习与泛化零样本学习之间的性能差距。预划分主要基于极值理论(extreme value theory)建立已知和未知类别的边界；此外，本发明考虑了通过K-S检验(Kolmogorov–Smirnov test)检测到的不确定情况，这可以提高模型的性能。本发明已经对各种数据集进行了广泛的实验；并表明所提框架能够有效地解决泛化零样本学习，开集学习和零样本学习的任务。

通过观察，我们发现特征空间、语义空间以及通过迁移学习得到的特征-语义嵌入映射具有以下特点：

特征实例通过特征-语义嵌入映射在语义空间的像更接近于已知类别原型(Prototype)。

特征空间的某些未知类别与已知类别有部分重叠以至于无法直接利用开集识别进行划分。

考虑到以上两个因素，除了将已知样本和未知样本分割开以外，还需要判断是否是未知样本与已知样本分布产生重叠的情况，这也就是本发明为什么要引入K-S检验检测到的不确定情况。

对于样本而言，本发明利用极值理论和K-S检验等将特征空间分为三类：已知类(即有样本的)，未知类(即零样本的)以及不确定类，所谓不确定类就是指既可能是已知类，又可能是未知类。对于已知类别直接利用监督学习的方法得到其类别名称；对于未知类别使用零样本学习的方法得到其类别的名称；对于不确定类，将其中最有可能的已知类和其他所有的未知类在语义空间进行可能性排序，但只考虑增加一种已知类在搜索域中，以减少干扰。

本方法首先利用极值理论、韦伯-支持向量机(Weibull-SVM,W-SVM)、自助法(Bootstrap Method)、K-S检验(Kolmogorov–Smirnov test)区分出已知类别、未知类别和不确定类别，然后通过建立特征空间和语义空间的映射完成对类别的预测。具体步骤如下：

(1)建立类别预测函数

假设源域训练集：其中表示特征空间的第i个样本；表示其对应的语义空间的原型；代表对应类别，表示源域类集n_s指的是训练集样本数量。分别表示n维、m维的实数空间；

对于目标域即未知类别，其类集：与源域没有交集。

另外表示类别c的语义原型。

对于特征-语义嵌入映射，我们设其为

对于已知类别，利用监督学习得到一个函数，使其预测出属于每一个已知类别的概率的大小。预测函数测试样本x_te以及其对不同类的置信程度(向量)：s＝f(x_te)。预测类别：最大置信量：x_te表示测试样本。

综上，可得到对于不同情况的测试样本的具体预测函数：

(2)未知类别的确定

图1中域分割，建立阈值部分即为本节描述的内容。

根据极值理论，最大置信量作为随机变量，其分布服从极值分布，即：

其中，x_te表示测试样本，s为分布自变量，λ,ν,κ为分布的参数，极值分布：

即为最大值所趋近的分布的分布函数(CDF，Cumulative DistributionFunction)。可以利用最大似然估计计算其中的参数。

因此，对于每一个类别，可以通过(3)式子拟合最大值的概率分布，从而对样本在边界之内的概率进行估计。c表示类别，s_ic表示第i个样本预测为c的置信程度：

另外一个方面，对于不是该类样本同样可以计算不是该类别的界限：

而将这两个类别联合起来即可估计是否属于该类别：

P(c|s_ic)＝P₁(c|s_ic)P₂(c|s_ic) (6)

因此，即可通过设置边界δ来确定第i个样本是否属于c：

另外在样本较少的情况下，这样的方法并不能准确的估计实际的边界，因而我们采取自助法(Bootstrap Method)在少样本情况估计边界δ。我们利用自助法抽样正类样本的P(c|s_ic)，然后通过排序得到其分位数。一般来说，取5％-10％分位数作为δ的值。

当被估计为已知类别c的测试样本有n个时，采取对训练样本进行有放回的抽样，得到一列真实的概率分布{p₁,…,p_n}。而取出一列样本的分位数作为实际的临界点。这样的操作使得对于每一个类的边界将是动态的，另外可以规避P₁(c|s_ic)，P₂(c|s_ic)存在相关性的风险。

(3)不确定类别的确定

图1中域分割，K-S测试部分即为本节内容。

对于所得到的类别c训练样本概率估计集合和测试样本概率估计集合理论上而言，他们应该共用同一个分布函数，然而在某些情况，比如未知类别与已知类别产生了重叠的时候，将掺杂着重叠部分的未知样例。为了区分这一种情况，本发明利用假设检验判断这两个集合是否来自同一个分布；如果不是，则将的样本归入不确定域。零假设(H₀)和备择假设(H₁)分别如下：

H₀：来自同一个分布；

H₁：不来自同一个分布。

通过他们的经验分布函数(Empirical Distribution Functions)：和采用Kolmogorov–Smirnov测试，定义统计量：

则拒绝域：

其中，α是显著性水平。α在本发明中采用5％-10％，与其他统计方法类似。

综上，即可以确定样本对于三个域的归属。

(4)特征空间和语义空间的映射的建立

采用一种简洁的方法完成本部分的映射(如图1中语义空间嵌入部分)：即通过映射各个样例类的期望来构建线性映射，从而使得最小化偏移(Bias)，而不是最小化方差(Variance)或者均方误差(MSE)。X^c表示c类别的实例，y^c表示该类别属性。λ是正则化系数，wx+b表示线性模型方程。

而在实际训练过程中，用均值来估计期望：

根据以上步骤即可完成本发明提出的泛化零样本学习方法。正则化系数λ，取值在10^-3到1

之间，具体可以利用经验得到(根据不同正则化系数在训练集得到模型在验证集上的结果)

或者交叉验证取最优解。

附图说明

图1是本发明方法的流程图。

图2是区分已知、未知、不确定域的可视化。

图3是不确定域示意图(即已知和未知类重叠情况)。

图4开集学习比较图。

具体实施方式

1、实验数据集

本发明使用四个数据集来评估我们的算法用于训练和测试：

(1)SUN数据集[7]包含了来自717个类的14,340个细粒度场景图像，每个类有102个属性。该训练集有150个课程(也包括50个类作为验证)。

(2)[1]提出的AWA数据集有50个类别和总共30,475个粗粒动物图像。每个类有85个属性。我们使用40个类的训练集(包括13个班作为验证)。

(3)CUB数据集[8]包括200个类和11,788个细粒动物图像，每个类有312个属性。训练集有150个类别(包括50个类别的验证)。

(4)aPY数据集[9]有15,339个属于32个类的粗粒动物图像。每个类都由64个属性进行注释。我们使用20个类作为训练集(包括5个类进行验证)。对于所有数据集，我们使用ResNet-50的相同特征，ResNet-50预先在ImageNet 2012数据集上进行了训练。

2、开集学习实验

进行开集学习的实验，可以进一步分为两个设置：(1)增量开集学习(OSIL)中的开集学习[6]：它识别图像是否属于已知或者未知。(2)开集图像字典识别(OSIR)[4]：它从“包括但不限于源和目标类的大型开放式词汇表”中识别测试图像的类名。将OSIL和OSIR设置中的算法分别比较为[6]和[4]。包括OSIL和OSIR。我们强调，这两个设置的关键区别在于是否使用语义词向量空间来识别未知实例。

OSIL：在这种情况下，本发明的框架与以前的算法进行比较，包括W-SVM[6]，One-class SVM and Binary SVM。F1分数(F1-Score)用于衡量表现。结果在图4中进行了比较。本发明的框架比其他基线要好得多。这证实了本发明框架的有效性。我们的修正可以选择比W-SVM中使用的更好的阈值。

OSIR：在这种情况下，在AWA数据集上比较两个基线：SS-Voc[4]和支持向量回归(SVR)。使用与[4]相同的实验设置。结果在表1，需要注意的是这里报告的是正确率。可以看出本发明的结果比传统方法有显著优势。此外，我们注意到SS-Voc的表现极大地受到词汇大小的影响。随着词汇量的增大，从已知实例中识别测试实例的性能将受到负面影响。相比之下，本发明的框架可以首先将测试实例划分为已知和未知的域。增加的词汇大小不会影响算法的性能。这进一步验证了本发明的有效性。

表1OSIR结果

3、泛化零样本学习实验

比较了本发明的算法和最先进的方法。具体来说，

(1)DAP[1]：零样本学习中的基本方法，训练概率属性分类器，并利用联合概率来预测标签；

(2)ConSe[10]：将图像特征映射到注释属性的凸组合的语义空间中；

(3)CMT[11]：将图像特征投影到无监督的语义空间中，首先提出检测新类的方法；

(4)SSE[12]：将新类视为所看到的比例的混合，并用该表示来度量实例的相似度。

(5)Latem[13]：提出一种新的潜在嵌入，构造中间空间，而不是特征和属性之间的直接映射。

(6)ALE[14]：将标签嵌入到属性空间并学习一个函数来排列每个类的可能性。

(7)DeViSE[15]：使用无监督信息和注释属性对嵌入模型的类进行分类；

(8)SJE[16]：分层嵌入学习特征与属性之间的内积Gram矩阵。

(9)ESZSL[17]：从特征到语义空间的投影中的正则化嵌入。

(10)SYNC[18]：将语义空间与流形学习技术的特征空间结合。

我们首先通过使用[3]中的设置来比较泛化零样本学习上的实验。结果总结在表2中。

S→T：从已知类中测试实例，预测候选包括可见和不可见类；

U→T：从未知的类中测试实例，预测候选包括可见类和不可见类。

调和平均值(harmonic mean)进一步计算为：

表2泛化零样本实验结果

如表2所示，调和平均结果显着优于几乎所有数据集上的所有竞争者。这表明本发明的可以有效解决任务。尤其是：

(1)结果可以在AwA和aPY数据集上大幅优于竞争对手；这主要是由于有足够的训练数据来帮助我们的框架更好地捕捉类的分布密度。

(2)提出的框架的关键优势在于如何更好地将测试实例的领域划分为已知的，未知的和不确定的域。在已知和未知领，使用标准SVM分类器和零样本学习算法。通过良好的分工，拥有比其他竞争对手更好的结果。但是，如果只通过S→T或U→T判断性能，本发明的结果并不是最好的。这是由于其他先进的监督分类器或零点分类器可能是不平衡的，而偏向于预测已知或者未知类别。

(3)SUN数据集(使用ResNet特征)的调和平均结果为25.2，略低于ALE报告的结果(Chang&Lin，2011)。有两个原因。首先，SUN数据集的实例数量相对低于我们使用的其他数据集。受SUN训练的监督分类器不足以捕获已知类的数据分布。其次，ALE进一步使用类属性来帮助学习已知类的分类器(在已知域中)。相比之下，我们的监督分类器不使用语义属性信息来分类已知域的实例。

总结

我们在样本点学习中处理混合已知和未知实例下的分类问题。这导致高度混淆并且极大地降低了分类精度。我们提出了一种模型，在预测之前划分未知类和已知类，并在它们之间设置一个中间地带，其中包含所有不确定的实例。以避免在预测时混合已知和未知的类。在泛化零样本学习，开集学习任务的大量数据集上验证了本发明的模型，被证明在减少不同领域类别之间的混淆方面非常有效。

参考文选

[1]Lampert,Christoph H.,Nickisch,Hannes,and Harmeling,Stefan.Attribute-based classification for zero-shot visual objectcategorization.IEEE TPAMI,2013.4.1

[2]Fu,Yanwei,Hospedales,Timothy M,Xiang,Tao,Fu,Zhenyong,and Gong,Shaogang.Transductive multi-view embedding for zero-shot recognition andannotation.In European Conference on Computer Vision,pp.584–599.Springer,2014.2

[3]Xian,Yongqin,Schiele,Bernt,and Akata,Zeynep.Zero-shot learning-thegood,the bad and the ugly.arXiv preprint arXiv:1703.04394,2017.2,4.1,4.2,4.3

[4]Fu,Yanwei and Sigal,Leonid.Semi-supervised vocabularyinformedlearning.In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.5337–5346,2016.1,2,4.1,2,4.4

[5]Shigeto,Yutaro,,Suzuki,Ikumi,Hara,Kazuo,Shimbo,Masashi,Matsumoto,Yuji.Ridge Regression,Hubness,and Zero-Shot Learning.arXiv preprintarXiv:1507.00825v1,2015

[6]Scheirer,Walter J.,Jain,Lalit P.,and Boult,Terrance E.Probabilitymodels for open set recognition.IEEE TPAMI,2014a.4.4

[7]Xiao,Jianxiong,Hays,J.,Ehinger,K.A.,Oliva,A.,and Torralba,A.Sundatabase:Large-scale scene recognition from abbey to zoo.pp.3485–3492,2010.doi:10.1109/CVPR.2010.5539970.4.1

[8]Wah,C.,Branson,S.,Welinder,P.,Perona,P.,and Belongie,S.TheCaltech-UCSD Birds-200-2011Dataset.Technical Report CNS-TR-2011-001,California Institute of Technology,2011.4.1

[9]Farhadi,Ali,Endres,Ian,Hoiem,Derek,and Forsyth,David.Describingobjects by their attributes.In Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on,pp.1778–1785.IEEE,2009.2,4.1

[10]Norouzi,Mohammad,Mikolov,Tomas,Bengio,Samy,Singer,Yoram,Shlens,Jonathon,Frome,Andrea,Corrado,Greg S,and Dean,Jeffrey.Zero-shot learning byconvex combination of semantic embeddings.arXiv preprint arXiv:1312.5650,2013.2,4.1,4.2

[11]Socher,Richard,Ganjoo,Milind,Manning,Christopher D,and Ng,Andrew.Zero-shot learning through cross-modal transfer.In Advances in neuralinformation processing systems,pp.935–943,2013.4.1,4.2

[12]Zhang,Ziming and Saligrama,Venkatesh.Zero-shot learning viasemantic similarity embedding.In Proceedings of the IEEE InternationalConference on Computer Vision,pp.4166–4174,2015.4.1,4.2

[13]Xian,Yongqin,Akata,Zeynep,Sharma,Gaurav,Nguyen,Quynh,Hein,Matthias,and Schiele,Bernt.Latent embeddings for zero-shot classification.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.69–77,2016.4.1,4.2

[14]Akata,Zeynep,Perronnin,Florent,Harchaoui,Zaid,and Schmid,Cordelia.Label-embedding for image classification.IEEE transactions onpattern analysis and machine intelligence,38(7):1425–1438,2016.1,4.1,4.2

[15]Frome,Andrea,Corrado,Greg S,Shlens,Jon,Bengio,Samy,Dean,Jeff,Mikolov,Tomas,et al.Devise:A deep visual-semantic embedding model.In Advancesin neural information processing systems,pp.2121–2129,2013.2,4.1,4.2

[16]Akata,Zeynep,Reed,Scott,Walter,Daniel,Lee,Honglak,and Schiele,Bernt.Evaluation of output embeddings for fine-grained imageclassification.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,pp.2927–2936,2015.4.1,4.2

[17]Romera-Paredes,Bernardino and Torr,Philip.An embarrassinglysimple approach to zero-shot learning.In International Conference on MachineLearning,pp.21522161,2015.4.1,4.2

[18]Changpinyo,Soravit,Chao,Wei-Lun,Gong,Boqing,and Sha,Fei.Synthesized classifiers for zero-shot learning.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pp.5327–5336,2016.4.1,4.2。

Claims

1.一种泛化零样本学习的方法，其特征在于，对于样本而言，首先，利用极值理论、韦伯-支持向量机、自助法、K-S检验技术，将特征空间分为三类：已知类即有样本的，未知类即零样本的，以及不确定类即既可能是已知类又可能是未知类的；对于已知类别直接利用监督学习的方法得到其类别名称；对于未知类别使用零样本学习的方法得到其类别的名称；对于不确定类，将其中最有可能的已知类和其他所有的未知类在语义空间进行可能性排序，并只考虑增加一种已知类在搜索域中，以减少干扰；然后通过建立特征空间和语义空间的映射完成对类别的预测。

2.根据权利要求1所述的泛化零样本学习的方法，其特征在于，具体步骤如下：

(1)建立类别预测函数

假设源域训练集：其中表示特征空间的第i个样本；表示其对应的语义空间的原型；代表对应类别，表示源域类集n_s指的是训练集样本数量，分别表示n维、m维的实数空间；

对于目标域即未知类别，其类集：与源域没有交集；

另外，表示类别c的语义原型；

对于特征-语义嵌入映射，设其为

对于已知类别，利用监督学习得到一个函数，使其预测出属于每一个已知类别的概率的大小；预测函数测试样本x_te以及其对不同类的置信程度：s＝f(x_te)；预测类别：最大置信量：x_te表示测试样本；

于是，得到对于不同情况的测试样本的具体预测函数：

(2)未知类别的确定

即为最大值所趋近的分布的分布函数(CDF)；利用最大似然估计计算其中的参数；

对于每一个类别，通过(3)式子拟合最大值的概率分布，从而对样本在边界之内的概率进行估计；设c表示类别，s_ic表示第i个样本预测为c的置信程度：

将这两个类别联合起来，即可估计是否属于该类别：

P(c|s_ic)＝P₁(c|s_ic)P₂(c|s_ic) (6)

因此，可通过设置边界δ来确定第i个样本是否属于c：

(3)不确定类别的确定

对于所得到的类别c训练样本概率估计集合和测试样本概率估计集合为区分未知类别与已知类别产生重叠的情形，利用假设检验判断这两个集合是否来自同一个分布；如果不是，则将的样本归入不确定域；具体地，零假设(H₀)和备择假设(H₁)分别如下：

H₀：来自同一个分布；

H₁：不来自同一个分布；

通过他们的经验分布函数：和采用K–S测试，定义统计量：

则拒绝域：

其中，α是显著性水平；

综上，即可以确定样本对于三个域的归属；

(4)特征空间和语义空间的映射的建立

即通过映射各个样例类的期望来构建线性映射，从而实现最小化偏移(Bias),设X^c表示c类别的实例，y^c表示该类别属性，λ是正则化系数，wx+b表示线性模型方程；于是：

在实际训练过程中，用均值来估计期望：

根据以上步骤即完成泛化零样本学习方法。

3.根据权利要求2所述的泛化零样本学习的方法，其特征在于，步骤(2)中，在样本较少的情况下，采取自助法估计边界；当被估计为已知类别c的测试样本有n个时，采取对训练样本进行有放回的抽样，得到一列真实的概率分布{p₁,…,p_n}；取出一列样本的分位数作为实际的临界点；这样使得对于每一个类的边界是动态的，并规避P₁(c|s_ic)，P₂(c|s_ic)存在相关性的风险。