CN111738313A

CN111738313A - 一种基于多重网络合作的零样本学习算法

Info

Publication number: CN111738313A
Application number: CN202010511084.0A
Authority: CN
Inventors: 孙亮; 宋俊杰; 葛宏伟; 李宝煜; 谭国真
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-10-02
Anticipated expiration: 2040-06-08
Also published as: CN111738313B

Abstract

本发明属于机器学习和迁移学习的交叉领域，公开一种基于多重网络合作的零样学习算法，包括生成网络一、生成网络二、对抗网络和重构网络。首先，将反向视觉特征空间作为嵌入空间，通过视觉特征中心生成网络实现映射。其次，采用更深层次的神经网络来生成，将残差网络模块引入到生成网络一和二中。之后，为减少过度拟合和提高可扩展性，引入一个对抗网络识别视觉特征中心的生成。最后，利用一个反向生成过程的重构网络来限制生成的视觉特征中心与每个类的原始语义表示之间的结构相关性。本发明在传统的零样本学习和广义零样本学习上都获得了令人满意的结果，对具有潜在应用前景的、识别无标注的海量未知类别的图像识别任务发挥促进作用。

Description

一种基于多重网络合作的零样本学习算法

技术领域

本发明属于机器学习和迁移学习的交叉领域，涉及一种基于多重网络合作的零样本学习算法。

背景技术

虽然例如ImageNet等大数据的收集和标注使得监督学习任务取得巨大成功。然而，当任务越复杂，标注越少，模型很难进行学习。收集和标注大量数据又是非常困难的。因此，当在训练样本数量不足、样本无标签甚至是零样本的情况下，如何充分利用网络不断产生的大数据，成为了机器学习和计算机视觉领域的新兴问题。为了解决上述问题，零样本学习被提出，其目的是不需要对未知类别图片进行标注而通过未知物体的描述就能识别未知类别。零样本学习目前主要研究的是图像分类任务。

零样本学习目的是识别未知物体，其目的是通过在训练集上对已知类别的样本进行映射学习来获得泛化能力强的学习器，再利用在已知类上学习到的分类器对未知类别样本进行分类，其最早由H.Larochelle等人[15]于2008年提出。零样本学习主要利用高维语义表征来代替样本的低维视觉特征，使得训练出来的模型具有迁移性。比如，斑马的高维语义是“斑马拥有马的外形，熊猫的颜色，老虎的斑纹”，尽管缺乏更多细节，但这些高维语义表征已经足够对“斑马”这一类别进行分类，从而让机器成功预测出未知物种。其实，零样本学习解决了图像识别方向长久以来的问题，即如果一个事物从来没有在现有的数据集中出现过，机器应该如何学习和识别它，机器应该输出什么样的结果。总之，零样本学习不但降低了现有算法对数据集的依赖和标注的压力，而且零样本学习清晰有效地指向了对缩减算力需求的可行性的解决方案。更重要的是，零样本解决的不仅仅是计算机视觉的分类问题，其更是与自然语言处理的发展相辅相成。根据模糊的高维语义描述去进行物体识别，对机器的要求不仅仅是简单分类，还要理解特征一些人类的高级知识，比如一种艺术作品的风格、一种特殊的情绪等。找到这种语义上的联系，将机器视觉与自然语言技术联合在一起解决问题，零样本学习激发的技术想象。零样本学习是一门非常有趣的研究方向，其已经成为了最近机器学习领域的重要研究方向之一。按照对语义属性的使用方式不同，零样本学习工作可以被分为四类：基于属性的方法，基于映射的方法，基于合成的方法以及基于生成的方法。

基于属性的方法利用两阶段方法中的属性来推断属于其中一个未见类别的图像标签。从最一般的意义上讲，输入图像的属性是在第一阶段进行预测的，然后通过搜索获得最相似属性的类别来推断其类别标签。例如，2009年C.H.Lampert等人提出了直接属性预测(DAP) 和间接属性预测(IAP)模型。其中DAP模型首先通过学习概率属性分类器来估计图像的每个属性的后验。然后，它计算后验类别，并使用MAP估计来预测类别标签。与DAP不同的是，IAP首先预测所见类别的类别后验，然后使用每个类别的概率来计算图像的属性后验，其中可见类别的类别后验由多个类别分类器预测(C.H.Lampert,H.Nickisch andS.Harmeling, “Attribute-Based Classification for Zero-Shot Visual ObjectCategorization,”in IEEE Transactions on Pattern Analysis and MachineIntelligence,vol.36,no.3,pp.453-465,March 2014.)。

基于映射的方法研究从图像特征空间到语义空间的映射。传统的零样本学习通常将四种类型的空间视为嵌入空间，即将语义属性空间作为，挖掘中间潜在空间作为嵌入空间，将视觉特征空间作为嵌入空间以及将语义属性和视觉特征都作为嵌入空间的双向自动编码器模式。具体地，2013年R.Socher等人提出了CMT模型，其使用具有两个隐藏层的神经网络来学习从图像特征空间到词向量空间的非线性投影(R.Socher,M.Ganjoo,C.D.Manning,A.Ng, “Zero-shot learning through cross modal transfer,”in:NIPS,2013,pp.935–943.)。2015年，Z. Zhang等人提出了SSE模型，其使用可见类别比例的混合作为公共空间，并认为属于同一类别的图像应具有相似的混合模式(Z.Zhang,V.Saligrama,“Zero-shot learning via semantic similarity embedding,”in:ICCV,2015,pp.4166–4174.)。同年，Z.Akata等人提出了SJE模型，其通过优化结构SVM损失来学习双线性匹配(Z.Akata,S.Reed,D.Walter,H.Lee,B.Schiele, “Evaluation of output embeddingsfor fine-grained image classification,”in:CVPR,2015,pp. 2927–2936.)。2016年Z.Akata等人提出了ALE模型，其使用排名损失学习图像和属性空间之间的双线性兼容性函数(Z.Akata,F.Perronnin,Z.Harchaoui,C.Schmid,“Label-embedding for imageclassification,”IEEE TPAMI 38(7)(2016)1425–1438.)。2017年L.Zhang等人学习了一个深度嵌入模型DEM，其使用深层神经网络模型将语义属性空间映射到视觉特征空间，并在相对维度更大的视觉特征空间上进行距离测量，以增加样本的可分区分性并缓解中心点问题(L.Zhang,T.Xiang,and S.Gong,“Learning a deep embedding model for zero-shot learning,” in Proc.IEEE Comput.Vis.Pattern Recognit.(CVPR),Honolulu,HI,USA,2017,pp. 3010–3019.)。同年，E.Kodirov等人提出了一种自动编码器模型SAE，该模型限制了生成的视觉特征以重建原始的语义属性(E.Kodirov,T.Xiang,and S.Gong,“Semantic autoencoder for zero-shot learning,”in Proc.IEEE Comput.Vis.PatternRecognit.(CVPR),Honolulu,HI,USA, 2017,pp.3174–3183.)。此外，最新的情况是，2019年Y.Yu和Z.Ji等人提出了LSE模型，其挖掘了语义属性和视觉特征之间的潜在空间作为嵌入空间，并使用了一种在潜在空间在语义属性空间和视觉特征空间之间进行编码和解码的方法(Y.Yu,Z.Ji,J.Guo,and Z.Zhang, “Zero-Shot Learning via Latent SpaceEncoding,”in IEEE Trans.Cybern.,vol.49,no.10,pp. 3755–3766,2019.)。

基于合成的方法通过为未知类别合成对应样本，将传统零样本学习任务和广义零样本学习任务转换为普通的分类任务。2019年Z.Ji和J.Wang等人提出了一个利用字典学习框架的合成方法CSSD，其通过字典矩阵和特定类的编码矩阵以及已知类的类原型来合成未知类的样本。具体地，首先将看到的类的语义信息映射到一个潜在的空间中，来同时学习每个类的特定于类的编码矩阵和用于在字典学习框架内重构视觉特征的字典矩阵，然后，将未知类别的伪实例与相似的已知类别及其相应的编码矩阵的语义信息进行合成(Z.Ji,J.Wang,Y.Yu,Y. Pang,and J.Han,“Class-specific synthesized dictionarymodel for Zero-Shot Learning,”in Neurocomputing,vol.329,pp.339–347,2019.)；2019年C.Li和X.Ye等人提出了SPF模型，其通过已知类和未知类的语义相关性找到和未知类最相似的几个已知类，然后随机选择相似已知类的特征乘以相似系数合成未知类的视觉特征(C.Li,X.Ye,H.Yang,Y.Han,X.Li,and Y. Jia,“Generalized Zero-Shot Learningvia Synthesis Pseudo Features,”in IEEE Access,vol.7,pp. 87827–87836,2019.)。

基于生成的方法通过生成未知类别的样本，将对未知类别的识别问题转换成普通的对已知类的识别，这是最新研究最多的一种有效的方法。这些方法中的大多数首先使用已知类别的实例和语义信息来训练生成器和鉴别器，其中有些方法还采用自动编码器体系结构。实例通常是根据未知类别的类的语义信息生成的，然后根据生成的未知类实例以及已经提供的已知类别样例训练分类器。例如，2017年Verm和P.Rai等人提出了GFZSL模型，其将每个类条件分布建模为高斯模型，并学习了一种回归函数，该函数将嵌入到潜在空间中的类映射 (V.K.Verma,G.Arora,A.Mishra,and P.Rai,“Generalized zero-shotlearning via synthesized examples,”in Proc.IEEE Comput.Vis.Pattern Recognit.(CVPR),Salt Lake City,UT,USA,Jun. 2018,pp.4281–4289.)。此外，2019年H.Zhang和Y.Long等人提出了一个由随机属性选择和条件生成对抗网络的混合模型RAS-ZSL，其一方面利用条件生成对抗网络根据语义属性和遵循高斯分布的随机噪音生成视觉特征，另一方面随机属性选择来从未知类的语义属性中挑选部分语义属性进行特征生成，避免生成的视觉特征和随机噪音具有相同的分布(H.Zhang,Y. Long,L.Liu,and L.Shao,“Adversarial unseen visual feature synthesis for Zero-shot Learning,”inNeurocomputing,vol.329,pp.12–20,2019.)。2019年H.Huang和C.Wang等人了一个综合的框架GDAN，其将语义到特征的映射、特征到语义的映射以及度量学习三者结合在一起形成一个统一的框架来优化生成模型(H.Huang,C.Wang,P.S.Yu,and C.Wang,“GenerativeDual Adversarial Network for Generalized Zero-shot Learning,”in Proc.IEEEComput.Soc.Conf. Comput.Vis.Pattern Recognit.(CVPR),Long Beach,CA,2019,pp.801-810.)。

发明内容

针对于映射领域漂移问题和枢纽点问题以及更具挑战的零样本学习任务，本发明提出了一种基于多重网络合作的零样本学习算法，其包括两大部分四大网络。其中，生成网络一为一部分，生成网络二、对抗网络和重构网络为第二部分。首先，为了缓解枢纽点问题，将反向视觉特征空间作为嵌入空间，通过视觉特征中心生成网络实现映射。为了学习每个类的适当的视觉特征中心表示，本发明提出了一个多重的生成网络，它们相互协作来合成类的视觉特征中心模板。其次，为了提高多重网络的生成能力，本发明进一步采用了更深层次的神经网络来生成。同时，为了缓解深层网络层造成的语义信息丢失问题，采用了残差模块。第三，为了减少过度拟合和提高可扩展性，引入了一个对抗网络识别视觉特征中心的生成。最后，利用一个反向生成过程的重构网络来限制生成的视觉特征中心与每个类的原始语义表示之间的结构相关性。多重网络的合作提升了模型的延展性和泛化能力，算法在传统的零样本学习和广义零样本学习上都获得了令人满意的结果。

本发明采用的技术方案为：

一种基于多重网络合作的零样本学习算法，包括以下步骤：

第一步，设计生成网络一，设计生成网络一的目的是利用类别的语义属性生成类别的一个视觉特征中心，使用残差网络模块与全连接层构建生成网络一的结构，具体的：

所述生成网络一包含2个全连接层和三个单层残差网络模块，其目的是希望生成高效的类别视觉特征中心，是类的语义属性描述的高维视觉表达，同时希望能够类内相近，类间可分。其中，将残差网络模块加入到生成网络一中，一方面利用其增大神经网络的深度来提高精度，另一方面增强语义属性在传递中的重要性。引入残差网络模块后的映射对输出的变化更加敏感，而后期输出对权重调整的影响变化越来越大。残差的思想是去除相同的部分，从而突出显示微小的变化。它具有易于优化的特点，并且可以通过增加相当大的深度来提高精度。此外，内部残差模块使用跳跃连接来缓解由于深度神经网络深度增加而引起的梯度消失问题。本发明将残差思想引入到零样本学习中，以增强语义属性在传递过程中的重要性，并提高零样本学习的表现。残差网络模块和生成网络的目标函数分别如公式(1)、(2)所示：

y＝h(h(f(a，w) (1)

其中，a是前面的神经网络的输出值，f是完全连接函数，w是网络的权重，h是激活函数，y 是残差网络模块的输出。

其中，L(G₁)表示生成网络一的损失函数，G₁表示生成网络，m表示样本个数，x表示类别的视觉特征，G₁(a)表示生成网络一G₁通过类别的语义向量a生成的视觉特征中心；

表示在生成网络过程中的权重总称,

表示正则化项，λ表示正则化系数。

第二步，设计生成网络二，设计生成网络二的目的也是利用类别的语义属性生成类别的另一个视觉特征中心，同样使用残差网络模块与全连接层构建。生成网络二的结构与生成网络一的结构完全相同，与生成网络一不同的是在训练过程中，生成网络二连接对抗网络和重构网络分别来正则化生成网络二生成的视觉特征中心。其中：

(1)对抗网络的设计是为了判别生成网络二生成的视觉特征中心的真假，发挥正规化生成网络二生成的视觉特征中心的作用。

(2)重构网络的设计与生成网络二的过程相反，将生成网络二生成的视觉特征中心映射回类似于原始语义属性的状态，从而确保生成网络二生成的视觉特征中心与类别的语义属性之间的结构相关性。

设计重构网络与生成网络二相反，其使生成网络二生成的视觉特征中心能够回到类别语义属性的一个状态，确保所生成的视觉特征与类的语义属性之间的结构关系。如果原始语义属性是有效并且重构网络所学习到的结构关系紧密，则生成网络二生成的视觉特征中心是有效的。重构网络的结构包含两个全连接层和一个单层残差网络模块，其目标函数如下：

其中，L(R)表示重构网络的损失函数，a表示类别的语义属性R(x′)表示重构的语义属性，x′是生成的视觉特征中心；W_R表示在生成网络过程中的权重总称，

表示正则化项，λ表示正则化系数。

与生成网络一不同，对抗网络思想相反，生成网络二尝试使生成近似于真实样本的样本。生成网络二的损失函数中加入对抗网络的影响。其目标函数如下：

其中，L(G₂，D)表示生成网络二的损失函数，x表示类别的视觉特征，G₂(a)表示生成网络二通过类别的语义属性a生成的视觉特征中心，D(G₂(a))表示对抗网络对生成网络二生成的视觉特征G₂(a)的判别结果；

表示在生成网络过程中的权重总称,

表示正则化项， λ表示正则化系数。

第三步，通过生成网络一和生成网络二融合得到类别的视觉特征中心；

将生成网络一的视觉特征中心和生成网络二的视觉特征中心通过参数控制，合成一个最终的唯一的类别视觉特征中心。合成类别的视觉特征中心公式如下：

G_c＝αG₁(a)+βG₂(a) (6)

其中，G₁(a)和G₂(a)分别是生成网络一和生成网络二生成的视觉特征中心，α和β是分别两个生成网络的平衡比例系数，G_c表示合成的类别视觉特征中心。

第四步，设计分类网络。

在步骤(3)中得到类别的视觉特征中心后，选择距离函数，将测试样本与合成的类别视觉特征中心进行距离度量来预测测试样本的标签。通过计算距离，可以确定最接近测试样本的视觉特征中心，并获得测试样本的分类标签。目标函数的公式如下：

其中，G_c是合成的类别视觉特征中心，d是距离函数，例如K-最近邻(KNN)和余弦距离，在本文中的不同数据集适用于不同的距离函数；argmin表示距离相差最小时对应的标签计算方法，l是输出的类标签。

本发明的有益效果：

本算法通过生成网络一、将残差模块引入到生成网络一和二，生成网络二，对抗网络和重构网络与生成网络二的合作，使得模型能够同时缓解映射领域漂移和枢纽点问题，同时能够提高更具挑战的广义零样本学习的表现，算法在AWA1、AWA2、CUB、SUN以及APY五大标准数据集上都展示了其高效性和竞争性。

附图说明

图1为生成网络结构示意图；

图2(a)为残差网络结构概述图；

图2(b)为单层残差网络模块示意图；

图2(c)为残差网络模块跳跃连接示意图；

图3为对抗网络结构示意图；

图4为重构网络结构示意图；

图5为基于多重网络合作的零样本学习算法框架结构图。

具体实施方式

本发明提供一种基于多重网络合作的零样本学习算法。所论述的具体实施例仅用于说明本发明的实现方式，而不限制本发明的范围。下面结合附图对本发明实施方式进行详细说明。

一种基于多重网络合作的零样本学习算法，所提方法利用生成网络一、残差网络模块引入生成网络一和二、生成网络二、对抗网络以及重构网络多种网络合作的方法，将这些网络有效进行组合，缓解了零样本学习的映射领域漂移和枢纽点问题，大大提高了零样本学习算法的准确率，尤其是在更具挑战的广义零样本学习上优势明显。具体步骤为：

1)训练生成网络一。生成网络一通过公式(2)的进行训练。生成网络一结构如图1所示。生成网络一包含2个全连接层和三个单层残差网络模块，其目的是希望生成高效的类别视觉特征中心，是类的语义属性描述的高维视觉表达，同时希望能够类内相近，类间可分。其中，将残差网络模块加入到生成网络一中，一方面利用其增大神经网络的深度来提高精度，另一方面增强语义属性在传递中的重要性。引入残差网络模块后的映射对输出的变化更加敏感，而后期输出对权重调整的影响变化越来越大。残差的思想是去除相同的部分，从而突出显示微小的变化。残差网络模块的结构如图2所示。残差网络模块具有易于优化的特点，并且可以通过增加相当大的深度来提高精度。此外，内部残差模块使用跳跃连接来缓解由于深度神经网络深度增加而引起的梯度消失问题。本发明将残差思想引入到零样本学习中，以增强语义属性在传递过程中的重要性，并提高零样本学习的表现。残差网络模块和生成网络的目标函数分别如公式(1)和公式(2)所示：

y＝h(h(f(a，w) (1)

表示在生成网络过程中的权重总称,

表示正则化项，λ表示正则化系数。

2)训练生成网络二。生成网络二通过公式(5)进行训练。如图1所示，生成网络二的结构与生成网络一的结构完全相同，但是在训练过程中生成网络二连接了对抗网络和重构网络来规范生成网络二生成的视觉特征中心。

训练对抗网络，对抗网络通过公式(3)进行训练。对抗网络旨在防止过度拟合，其规范化生成网络二生成的视觉特征中心。区分了生成网络二生成的视觉特征中心和训练样本的真实视觉特征。对于对抗网络，如果输入是从真实训练数据集中获取的，则尝试使输出收敛为 1；如果输入是由生成网络二生成的样本，则尝试使输出收敛为0。如图3所示，对抗网络的结构包含四个全连接层，其目标函数如下：

其中，L(D)表示对抗网络的损失函数，D(x)表示对抗网络对真实视觉特征x的判别结果， D(G(a))表示对抗网络对生成网络二生成的视觉特征G(a)的判别结果；W_D表示在生成网络过程中的权重总称,

表示正则化项，λ表示正则化系数。

训练重构网络，重构网络通过公式(4)进行训练。重构网络与生成网络二相反，其使生成网络二生成的视觉特征中心能够回到类别语义属性的一个状态，确保所生成的视觉特征与类的语义属性之间的结构关系。如果原始语义属性是有效并且重构网络所学习到的结构关系紧密，则生成网络二生成的视觉特征中心是有效的。如图4所示，重构网络的结构包含两个全连接层和一个单层残差网络模块，其目标函数如下：

其中，L(R)表示重构网络的损失函数，a表示类别的语义属性R(x′)表示重构的语义属性，x′ 是生成的视觉特征中心；W_R表示在生成网络过程中的权重总称，

表示正则化项，λ表示正则化系数。

与生成网络一不同，对抗网络思想相反，生成网络二尝试使生成近似于真实样本的样本。生成网络二的损失函数中加入了对抗网络的影响。其目标函数如下：

表示在生成网络过程中的权重总称,

表示正则化项， λ表示正则化系数。

3)融合生成网络一和生成网络二生成的视觉特征中心。将生成网络一的视觉特征中心和生成网络二的视觉特征中心通过参数控制，合成一个最终的唯一的类别视觉特征中心。合成类别的视觉特征中心公式如下：

G_c＝αG₁(a)+βG₂(a) (6)

4)分类网络进行标签预测。在通过生成网络一和生成网络二的融合得到类别的视觉特征中心后，选择距离函数，将测试样本与合成的类别视觉特征中心进行距离度量来预测测试样本的标签。通过计算距离，可以确定最接近测试样本的视觉特征中心，并获得测试样本的分类标签。目标函数的公式如下：

图5是本方法的基于多重网络合作的零样本学习算法框架结构图，包括了带有残差网络模块的生成网络一，带有残差网络模块的生成网络二，对抗网络以及带有残差网络模块的重构网络，四种网络分布优化。

以上所述实施例仅表达本发明的实施方式，但并不能因此而理解为对本发明专利的范围的限制，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种基于多重网络合作的零样本学习算法，其特征在于，包括以下步骤：

将残差思想引入到零样本学习中，所述生成网络一包含2个全连接层和三个单层残差网络模块；残差网络模块和生成网络的目标函数分别如公式(1)和公式(2)所示：

y＝h(h(f(a，w) (1)

其中，a是前面的神经网络的输出值，f是完全连接函数，w是网络的权重，h是激活函数，y是残差网络模块的输出；

表示在生成网络过程中的权重总称,

表示正则化项，λ表示正则化系数；

第二步，设计生成网络二，设计生成网络二的目的也是利用类别的语义属性生成类别的另一个视觉特征中心，同样使用残差网络模块与全连接层构建；生成网络二的结构与生成网络一的结构完全相同，与生成网络一不同的是在训练过程中，生成网络二连接对抗网络和重构网络分别来正则化生成网络二生成的视觉特征中心；其中：

(1)对抗网络用于判别生成网络二生成的视觉特征中心的真假，发挥正规化生成网络二生成的视觉特征中心的作用；

(2)重构网络与生成网络二过程相反，将生成网络二生成的视觉特征中心映射回类似于原始语义属性的状态，从而确保生成网络二生成的视觉特征中心与类别的语义属性之间的结构相关性；所述重构网络的结构包含两个全连接层和一个单层残差网络模块，其目标函数如下：

其中，L(R)表示重构网络的损失函数，a表示类别的语义属性R(x′)表示重构的语义属性，x′是生成的视觉特征中心；W_R表示在生成网络过程中的权重总称,

表示正则化项，λ表示正则化系数；

所述生成网络二的损失函数中加入对抗网络的影响，其目标函数如下：

表示在生成网络过程中的权重总称,

表示正则化项，λ表示正则化系数；

将生成网络一的视觉特征中心和生成网络二的视觉特征中心通过参数控制，合成一个最终的唯一的类别视觉特征中心；合成类别的视觉特征中心公式如下：

C_c＝αG₁(a)+βG₂(a) (6)

其中，G₁(a)和G₂(a)分别是生成网络一和生成网络二生成的视觉特征中心，α和β是分别两个生成网络的平衡比例系数，G_c表示合成的类别视觉特征中心；

第四步，设计分类网络；

在步骤(3)中得到类别的视觉特征中心后，选择距离函数，将测试样本与合成的类别视觉特征中心进行距离度量来预测测试样本的标签；通过计算距离，确定最接近测试样本的视觉特征中心，并获得测试样本的分类标签；目标函数的公式如下：