CN111738313A - 一种基于多重网络合作的零样本学习算法 - Google Patents

一种基于多重网络合作的零样本学习算法 Download PDF

Info

Publication number
CN111738313A
CN111738313A CN202010511084.0A CN202010511084A CN111738313A CN 111738313 A CN111738313 A CN 111738313A CN 202010511084 A CN202010511084 A CN 202010511084A CN 111738313 A CN111738313 A CN 111738313A
Authority
CN
China
Prior art keywords
network
visual feature
generation
generated
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010511084.0A
Other languages
English (en)
Other versions
CN111738313B (zh
Inventor
孙亮
宋俊杰
葛宏伟
李宝煜
谭国真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010511084.0A priority Critical patent/CN111738313B/zh
Publication of CN111738313A publication Critical patent/CN111738313A/zh
Application granted granted Critical
Publication of CN111738313B publication Critical patent/CN111738313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明属于机器学习和迁移学习的交叉领域,公开一种基于多重网络合作的零样学习算法,包括生成网络一、生成网络二、对抗网络和重构网络。首先,将反向视觉特征空间作为嵌入空间,通过视觉特征中心生成网络实现映射。其次,采用更深层次的神经网络来生成,将残差网络模块引入到生成网络一和二中。之后,为减少过度拟合和提高可扩展性,引入一个对抗网络识别视觉特征中心的生成。最后,利用一个反向生成过程的重构网络来限制生成的视觉特征中心与每个类的原始语义表示之间的结构相关性。本发明在传统的零样本学习和广义零样本学习上都获得了令人满意的结果,对具有潜在应用前景的、识别无标注的海量未知类别的图像识别任务发挥促进作用。

Description

一种基于多重网络合作的零样本学习算法
技术领域
本发明属于机器学习和迁移学习的交叉领域,涉及一种基于多重网络合作的零样本学习 算法。
背景技术
虽然例如ImageNet等大数据的收集和标注使得监督学习任务取得巨大成功。然而,当任 务越复杂,标注越少,模型很难进行学习。收集和标注大量数据又是非常困难的。因此,当 在训练样本数量不足、样本无标签甚至是零样本的情况下,如何充分利用网络不断产生的大 数据,成为了机器学习和计算机视觉领域的新兴问题。为了解决上述问题,零样本学习被提 出,其目的是不需要对未知类别图片进行标注而通过未知物体的描述就能识别未知类别。零 样本学习目前主要研究的是图像分类任务。
零样本学习目的是识别未知物体,其目的是通过在训练集上对已知类别的样本进行映射 学习来获得泛化能力强的学习器,再利用在已知类上学习到的分类器对未知类别样本进行分 类,其最早由H.Larochelle等人[15]于2008年提出。零样本学习主要利用高维语义表征来代 替样本的低维视觉特征,使得训练出来的模型具有迁移性。比如,斑马的高维语义是“斑马拥 有马的外形,熊猫的颜色,老虎的斑纹”,尽管缺乏更多细节,但这些高维语义表征已经足够 对“斑马”这一类别进行分类,从而让机器成功预测出未知物种。其实,零样本学习解决了图 像识别方向长久以来的问题,即如果一个事物从来没有在现有的数据集中出现过,机器应该 如何学习和识别它,机器应该输出什么样的结果。总之,零样本学习不但降低了现有算法对 数据集的依赖和标注的压力,而且零样本学习清晰有效地指向了对缩减算力需求的可行性的 解决方案。更重要的是,零样本解决的不仅仅是计算机视觉的分类问题,其更是与自然语言 处理的发展相辅相成。根据模糊的高维语义描述去进行物体识别,对机器的要求不仅仅是简 单分类,还要理解特征一些人类的高级知识,比如一种艺术作品的风格、一种特殊的情绪等。 找到这种语义上的联系,将机器视觉与自然语言技术联合在一起解决问题,零样本学习激发 的技术想象。零样本学习是一门非常有趣的研究方向,其已经成为了最近机器学习领域的重 要研究方向之一。按照对语义属性的使用方式不同,零样本学习工作可以被分为四类:基于 属性的方法,基于映射的方法,基于合成的方法以及基于生成的方法。
基于属性的方法利用两阶段方法中的属性来推断属于其中一个未见类别的图像标签。从 最一般的意义上讲,输入图像的属性是在第一阶段进行预测的,然后通过搜索获得最相似属 性的类别来推断其类别标签。例如,2009年C.H.Lampert等人提出了直接属性预测(DAP) 和间接属性预测(IAP)模型。其中DAP模型首先通过学习概率属性分类器来估计图像的每 个属性的后验。然后,它计算后验类别,并使用MAP估计来预测类别标签。与DAP不同的 是,IAP首先预测所见类别的类别后验,然后使用每个类别的概率来计算图像的属性后验, 其中可见类别的类别后验由多个类别分类器预测(C.H.Lampert,H.Nickisch andS.Harmeling, “Attribute-Based Classification for Zero-Shot Visual ObjectCategorization,”in IEEE Transactions on Pattern Analysis and MachineIntelligence,vol.36,no.3,pp.453-465,March 2014.)。
基于映射的方法研究从图像特征空间到语义空间的映射。传统的零样本学习通常将四种 类型的空间视为嵌入空间,即将语义属性空间作为,挖掘中间潜在空间作为嵌入空间,将视 觉特征空间作为嵌入空间以及将语义属性和视觉特征都作为嵌入空间的双向自动编码器模 式。具体地,2013年R.Socher等人提出了CMT模型,其使用具有两个隐藏层的神经网络来 学习从图像特征空间到词向量空间的非线性投影(R.Socher,M.Ganjoo,C.D.Manning,A.Ng, “Zero-shot learning through cross modal transfer,”in:NIPS,2013,pp.935–943.)。2015年,Z. Zhang等人提出了SSE模型,其使用可见类别比例的混合作为公共空间,并认为属于同一类 别的图像应具有相似的混合模式(Z.Zhang,V.Saligrama,“Zero-shot learning via semantic similarity embedding,”in:ICCV,2015,pp.4166–4174.)。同年,Z.Akata等人提出了SJE模型, 其通过优化结构SVM损失来学习双线性匹配(Z.Akata,S.Reed,D.Walter,H.Lee,B.Schiele, “Evaluation of output embeddingsfor fine-grained image classification,”in:CVPR,2015,pp. 2927–2936.)。2016年Z.Akata等人提出了ALE模型,其使用排名损失学习图像和属性空间 之间的双线性兼容性函数(Z.Akata,F.Perronnin,Z.Harchaoui,C.Schmid,“Label-embedding for imageclassification,”IEEE TPAMI 38(7)(2016)1425–1438.)。2017年L.Zhang等人学习 了一个深度嵌入模型DEM,其使用深层神经网络模型将语义属性空间映射到视觉特征空间, 并在相对维度更大的视觉特征空间上进行距离测量,以增加样本的可分区分性并缓解中心点问题(L.Zhang,T.Xiang,and S.Gong,“Learning a deep embedding model for zero-shot learning,” in Proc.IEEE Comput.Vis.Pattern Recognit.(CVPR),Honolulu,HI,USA,2017,pp. 3010–3019.)。同年,E.Kodirov等人提出了一种自动编码器模型SAE,该模型限制了生成的 视觉特征以重建原始的语义属性(E.Kodirov,T.Xiang,and S.Gong,“Semantic autoencoder for zero-shot learning,”in Proc.IEEE Comput.Vis.PatternRecognit.(CVPR),Honolulu,HI,USA, 2017,pp.3174–3183.)。此外,最新的情况是,2019年Y.Yu和Z.Ji等人提出了LSE模型, 其挖掘了语义属性和视觉特征之间的潜在空间作为嵌入空间,并使用了一种在潜在空间在语 义属性空间和视觉特征空间之间进行编码和解码的方法(Y.Yu,Z.Ji,J.Guo,and Z.Zhang, “Zero-Shot Learning via Latent SpaceEncoding,”in IEEE Trans.Cybern.,vol.49,no.10,pp. 3755–3766,2019.)。
基于合成的方法通过为未知类别合成对应样本,将传统零样本学习任务和广义零样本学 习任务转换为普通的分类任务。2019年Z.Ji和J.Wang等人提出了一个利用字典学习框架的 合成方法CSSD,其通过字典矩阵和特定类的编码矩阵以及已知类的类原型来合成未知类的 样本。具体地,首先将看到的类的语义信息映射到一个潜在的空间中,来同时学习每个类的 特定于类的编码矩阵和用于在字典学习框架内重构视觉特征的字典矩阵,然后,将未知类别 的伪实例与相似的已知类别及其相应的编码矩阵的语义信息进行合成(Z.Ji,J.Wang,Y.Yu,Y. Pang,and J.Han,“Class-specific synthesized dictionarymodel for Zero-Shot Learning,”in Neurocomputing,vol.329,pp.339–347,2019.);2019年C.Li和X.Ye等人提出了SPF模型, 其通过已知类和未知类的语义相关性找到和未知类最相似的几个已知类,然后随机选择相似 已知类的特征乘以相似系数合成未知类的视觉特征(C.Li,X.Ye,H.Yang,Y.Han,X.Li,and Y. Jia,“Generalized Zero-Shot Learningvia Synthesis Pseudo Features,”in IEEE Access,vol.7,pp. 87827–87836,2019.)。
基于生成的方法通过生成未知类别的样本,将对未知类别的识别问题转换成普通的对已 知类的识别,这是最新研究最多的一种有效的方法。这些方法中的大多数首先使用已知类别 的实例和语义信息来训练生成器和鉴别器,其中有些方法还采用自动编码器体系结构。实例 通常是根据未知类别的类的语义信息生成的,然后根据生成的未知类实例以及已经提供的已 知类别样例训练分类器。例如,2017年Verm和P.Rai等人提出了GFZSL模型,其将每个 类条件分布建模为高斯模型,并学习了一种回归函数,该函数将嵌入到潜在空间中的类映射 (V.K.Verma,G.Arora,A.Mishra,and P.Rai,“Generalized zero-shotlearning via synthesized examples,”in Proc.IEEE Comput.Vis.Pattern Recognit.(CVPR),Salt Lake City,UT,USA,Jun. 2018,pp.4281–4289.)。此外,2019年H.Zhang和Y.Long等人提出了一个由随机属性选择 和条件生成对抗网络的混合模型RAS-ZSL,其一方面利用条件生成对抗网络根据语义属性和 遵循高斯分布的随机噪音生成视觉特征,另一方面随机属性选择来从未知类的语义属性中挑 选部分语义属性进行特征生成,避免生成的视觉特征和随机噪音具有相同的分布(H.Zhang,Y. Long,L.Liu,and L.Shao,“Adversarial unseen visual feature synthesis for Zero-shot Learning,”inNeurocomputing,vol.329,pp.12–20,2019.)。2019年H.Huang和C.Wang等人了一个综合的框架GDAN,其将语义到特征的映射、特征到语义的映射以及度量学习三者结合在一起形成一个统一的框架来优化生成模型(H.Huang,C.Wang,P.S.Yu,and C.Wang,“GenerativeDual Adversarial Network for Generalized Zero-shot Learning,”in Proc.IEEEComput.Soc.Conf. Comput.Vis.Pattern Recognit.(CVPR),Long Beach,CA,2019,pp.801-810.)。
发明内容
针对于映射领域漂移问题和枢纽点问题以及更具挑战的零样本学习任务,本发明提出了 一种基于多重网络合作的零样本学习算法,其包括两大部分四大网络。其中,生成网络一为 一部分,生成网络二、对抗网络和重构网络为第二部分。首先,为了缓解枢纽点问题,将反 向视觉特征空间作为嵌入空间,通过视觉特征中心生成网络实现映射。为了学习每个类的适 当的视觉特征中心表示,本发明提出了一个多重的生成网络,它们相互协作来合成类的视觉 特征中心模板。其次,为了提高多重网络的生成能力,本发明进一步采用了更深层次的神经 网络来生成。同时,为了缓解深层网络层造成的语义信息丢失问题,采用了残差模块。第三, 为了减少过度拟合和提高可扩展性,引入了一个对抗网络识别视觉特征中心的生成。最后, 利用一个反向生成过程的重构网络来限制生成的视觉特征中心与每个类的原始语义表示之间 的结构相关性。多重网络的合作提升了模型的延展性和泛化能力,算法在传统的零样本学习 和广义零样本学习上都获得了令人满意的结果。
本发明采用的技术方案为:
一种基于多重网络合作的零样本学习算法,包括以下步骤:
第一步,设计生成网络一,设计生成网络一的目的是利用类别的语义属性生成类别的一 个视觉特征中心,使用残差网络模块与全连接层构建生成网络一的结构,具体的:
所述生成网络一包含2个全连接层和三个单层残差网络模块,其目的是希望生成高效的 类别视觉特征中心,是类的语义属性描述的高维视觉表达,同时希望能够类内相近,类间可 分。其中,将残差网络模块加入到生成网络一中,一方面利用其增大神经网络的深度来提高 精度,另一方面增强语义属性在传递中的重要性。引入残差网络模块后的映射对输出的变化 更加敏感,而后期输出对权重调整的影响变化越来越大。残差的思想是去除相同的部分,从 而突出显示微小的变化。它具有易于优化的特点,并且可以通过增加相当大的深度来提高精 度。此外,内部残差模块使用跳跃连接来缓解由于深度神经网络深度增加而引起的梯度消失 问题。本发明将残差思想引入到零样本学习中,以增强语义属性在传递过程中的重要性,并 提高零样本学习的表现。残差网络模块和生成网络的目标函数分别如公式(1)、(2)所示:
y=h(h(f(a,w) (1)
其中,a是前面的神经网络的输出值,f是完全连接函数,w是网络的权重,h是激活函数,y 是残差网络模块的输出。
Figure BDA0002528397590000041
其中,L(G1)表示生成网络一的损失函数,G1表示生成网络,m表示样本个数,x表示类别的 视觉特征,G1(a)表示生成网络一G1通过类别的语义向量a生成的视觉特征中心;
Figure BDA0002528397590000042
表示 在生成网络过程中的权重总称,
Figure BDA0002528397590000051
表示正则化项,λ表示正则化系数。
第二步,设计生成网络二,设计生成网络二的目的也是利用类别的语义属性生成类别的 另一个视觉特征中心,同样使用残差网络模块与全连接层构建。生成网络二的结构与生成网 络一的结构完全相同,与生成网络一不同的是在训练过程中,生成网络二连接对抗网络和重 构网络分别来正则化生成网络二生成的视觉特征中心。其中:
(1)对抗网络的设计是为了判别生成网络二生成的视觉特征中心的真假,发挥正规化生 成网络二生成的视觉特征中心的作用。
(2)重构网络的设计与生成网络二的过程相反,将生成网络二生成的视觉特征中心映射 回类似于原始语义属性的状态,从而确保生成网络二生成的视觉特征中心与类别的语义属性 之间的结构相关性。
设计重构网络与生成网络二相反,其使生成网络二生成的视觉特征中心能够回到类别语 义属性的一个状态,确保所生成的视觉特征与类的语义属性之间的结构关系。如果原始语义 属性是有效并且重构网络所学习到的结构关系紧密,则生成网络二生成的视觉特征中心是有 效的。重构网络的结构包含两个全连接层和一个单层残差网络模块,其目标函数如下:
Figure BDA0002528397590000052
其中,L(R)表示重构网络的损失函数,a表示类别的语义属性R(x′)表示重构的语义属 性,x′是生成的视觉特征中心;WR表示在生成网络过程中的权重总称,
Figure BDA0002528397590000053
表示正则化 项,λ表示正则化系数。
与生成网络一不同,对抗网络思想相反,生成网络二尝试使生成近似于真实样本的样本。 生成网络二的损失函数中加入对抗网络的影响。其目标函数如下:
Figure BDA0002528397590000054
其中,L(G2,D)表示生成网络二的损失函数,x表示类别的视觉特征,G2(a)表示生成网络二 通过类别的语义属性a生成的视觉特征中心,D(G2(a))表示对抗网络对生成网络二生成的视 觉特征G2(a)的判别结果;
Figure BDA0002528397590000055
表示在生成网络过程中的权重总称,
Figure BDA0002528397590000056
表示正则化项, λ表示正则化系数。
第三步,通过生成网络一和生成网络二融合得到类别的视觉特征中心;
将生成网络一的视觉特征中心和生成网络二的视觉特征中心通过参数控制,合成一个最 终的唯一的类别视觉特征中心。合成类别的视觉特征中心公式如下:
Gc=αG1(a)+βG2(a) (6)
其中,G1(a)和G2(a)分别是生成网络一和生成网络二生成的视觉特征中心,α和β是分别两 个生成网络的平衡比例系数,Gc表示合成的类别视觉特征中心。
第四步,设计分类网络。
在步骤(3)中得到类别的视觉特征中心后,选择距离函数,将测试样本与合成的类别视 觉特征中心进行距离度量来预测测试样本的标签。通过计算距离,可以确定最接近测试样本 的视觉特征中心,并获得测试样本的分类标签。目标函数的公式如下:
Figure BDA0002528397590000061
其中,Gc是合成的类别视觉特征中心,d是距离函数,例如K-最近邻(KNN)和余弦距离, 在本文中的不同数据集适用于不同的距离函数;argmin表示距离相差最小时对应的标签计 算方法,l是输出的类标签。
本发明的有益效果:
本算法通过生成网络一、将残差模块引入到生成网络一和二,生成网络二,对抗网络和 重构网络与生成网络二的合作,使得模型能够同时缓解映射领域漂移和枢纽点问题,同时能 够提高更具挑战的广义零样本学习的表现,算法在AWA1、AWA2、CUB、SUN以及APY五大标准数据集上都展示了其高效性和竞争性。
附图说明
图1为生成网络结构示意图;
图2(a)为残差网络结构概述图;
图2(b)为单层残差网络模块示意图;
图2(c)为残差网络模块跳跃连接示意图;
图3为对抗网络结构示意图;
图4为重构网络结构示意图;
图5为基于多重网络合作的零样本学习算法框架结构图。
具体实施方式
本发明提供一种基于多重网络合作的零样本学习算法。所论述的具体实施例仅用于说明 本发明的实现方式,而不限制本发明的范围。下面结合附图对本发明实施方式进行详细说明。
一种基于多重网络合作的零样本学习算法,所提方法利用生成网络一、残差网络模块引 入生成网络一和二、生成网络二、对抗网络以及重构网络多种网络合作的方法,将这些网络 有效进行组合,缓解了零样本学习的映射领域漂移和枢纽点问题,大大提高了零样本学习算 法的准确率,尤其是在更具挑战的广义零样本学习上优势明显。具体步骤为:
1)训练生成网络一。生成网络一通过公式(2)的进行训练。生成网络一结构如图1所 示。生成网络一包含2个全连接层和三个单层残差网络模块,其目的是希望生成高效的类别 视觉特征中心,是类的语义属性描述的高维视觉表达,同时希望能够类内相近,类间可分。 其中,将残差网络模块加入到生成网络一中,一方面利用其增大神经网络的深度来提高精度, 另一方面增强语义属性在传递中的重要性。引入残差网络模块后的映射对输出的变化更加敏 感,而后期输出对权重调整的影响变化越来越大。残差的思想是去除相同的部分,从而突出 显示微小的变化。残差网络模块的结构如图2所示。残差网络模块具有易于优化的特点,并 且可以通过增加相当大的深度来提高精度。此外,内部残差模块使用跳跃连接来缓解由于深 度神经网络深度增加而引起的梯度消失问题。本发明将残差思想引入到零样本学习中,以增 强语义属性在传递过程中的重要性,并提高零样本学习的表现。残差网络模块和生成网络的 目标函数分别如公式(1)和公式(2)所示:
y=h(h(f(a,w) (1)
其中,a是前面的神经网络的输出值,f是完全连接函数,w是网络的权重,h是激活函数,y 是残差网络模块的输出。
Figure BDA0002528397590000071
其中,L(G1)表示生成网络一的损失函数,G1表示生成网络,m表示样本个数,x表示类别的 视觉特征,G1(a)表示生成网络一G1通过类别的语义向量a生成的视觉特征中心;
Figure BDA0002528397590000072
表示 在生成网络过程中的权重总称,
Figure BDA0002528397590000073
表示正则化项,λ表示正则化系数。
2)训练生成网络二。生成网络二通过公式(5)进行训练。如图1所示,生成网络二的结构与生成网络一的结构完全相同,但是在训练过程中生成网络二连接了对抗网络和重构网 络来规范生成网络二生成的视觉特征中心。
训练对抗网络,对抗网络通过公式(3)进行训练。对抗网络旨在防止过度拟合,其规范 化生成网络二生成的视觉特征中心。区分了生成网络二生成的视觉特征中心和训练样本的真 实视觉特征。对于对抗网络,如果输入是从真实训练数据集中获取的,则尝试使输出收敛为 1;如果输入是由生成网络二生成的样本,则尝试使输出收敛为0。如图3所示,对抗网络的 结构包含四个全连接层,其目标函数如下:
Figure BDA0002528397590000081
其中,L(D)表示对抗网络的损失函数,D(x)表示对抗网络对真实视觉特征x的判别结果, D(G(a))表示对抗网络对生成网络二生成的视觉特征G(a)的判别结果;WD表示在生成网络 过程中的权重总称,
Figure BDA0002528397590000082
表示正则化项,λ表示正则化系数。
训练重构网络,重构网络通过公式(4)进行训练。重构网络与生成网络二相反,其使生 成网络二生成的视觉特征中心能够回到类别语义属性的一个状态,确保所生成的视觉特征与 类的语义属性之间的结构关系。如果原始语义属性是有效并且重构网络所学习到的结构关系 紧密,则生成网络二生成的视觉特征中心是有效的。如图4所示,重构网络的结构包含两个 全连接层和一个单层残差网络模块,其目标函数如下:
Figure BDA0002528397590000083
其中,L(R)表示重构网络的损失函数,a表示类别的语义属性R(x′)表示重构的语义属性,x′ 是生成的视觉特征中心;WR表示在生成网络过程中的权重总称,
Figure BDA0002528397590000084
表示正则化项,λ表 示正则化系数。
与生成网络一不同,对抗网络思想相反,生成网络二尝试使生成近似于真实样本的样本。 生成网络二的损失函数中加入了对抗网络的影响。其目标函数如下:
Figure BDA0002528397590000085
其中,L(G2,D)表示生成网络二的损失函数,x表示类别的视觉特征,G2(a)表示生成网络二 通过类别的语义属性a生成的视觉特征中心,D(G2(a))表示对抗网络对生成网络二生成的视 觉特征G2(a)的判别结果;
Figure BDA0002528397590000091
表示在生成网络过程中的权重总称,
Figure BDA0002528397590000092
表示正则化项, λ表示正则化系数。
3)融合生成网络一和生成网络二生成的视觉特征中心。将生成网络一的视觉特征中心和 生成网络二的视觉特征中心通过参数控制,合成一个最终的唯一的类别视觉特征中心。合成 类别的视觉特征中心公式如下:
Gc=αG1(a)+βG2(a) (6)
其中,G1(a)和G2(a)分别是生成网络一和生成网络二生成的视觉特征中心,α和β是分别两 个生成网络的平衡比例系数,Gc表示合成的类别视觉特征中心。
4)分类网络进行标签预测。在通过生成网络一和生成网络二的融合得到类别的视觉特征 中心后,选择距离函数,将测试样本与合成的类别视觉特征中心进行距离度量来预测测试样 本的标签。通过计算距离,可以确定最接近测试样本的视觉特征中心,并获得测试样本的分 类标签。目标函数的公式如下:
Figure BDA0002528397590000093
其中,Gc是合成的类别视觉特征中心,d是距离函数,例如K-最近邻(KNN)和余弦距离, 在本文中的不同数据集适用于不同的距离函数;argmin表示距离相差最小时对应的标签计 算方法,l是输出的类标签。
图5是本方法的基于多重网络合作的零样本学习算法框架结构图,包括了带有残差网络 模块的生成网络一,带有残差网络模块的生成网络二,对抗网络以及带有残差网络模块的重 构网络,四种网络分布优化。
以上所述实施例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围 的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做 出若干变形和改进,这些均属于本发明的保护范围。

Claims (1)

1.一种基于多重网络合作的零样本学习算法,其特征在于,包括以下步骤:
第一步,设计生成网络一,设计生成网络一的目的是利用类别的语义属性生成类别的一个视觉特征中心,使用残差网络模块与全连接层构建生成网络一的结构,具体的:
将残差思想引入到零样本学习中,所述生成网络一包含2个全连接层和三个单层残差网络模块;残差网络模块和生成网络的目标函数分别如公式(1)和公式(2)所示:
y=h(h(f(a,w) (1)
其中,a是前面的神经网络的输出值,f是完全连接函数,w是网络的权重,h是激活函数,y是残差网络模块的输出;
Figure FDA0002528397580000011
其中,L(G1)表示生成网络一的损失函数,G1表示生成网络,m表示样本个数,x表示类别的视觉特征,G1(a)表示生成网络一G1通过类别的语义向量a生成的视觉特征中心;
Figure FDA0002528397580000012
表示在生成网络过程中的权重总称,
Figure FDA0002528397580000013
表示正则化项,λ表示正则化系数;
第二步,设计生成网络二,设计生成网络二的目的也是利用类别的语义属性生成类别的另一个视觉特征中心,同样使用残差网络模块与全连接层构建;生成网络二的结构与生成网络一的结构完全相同,与生成网络一不同的是在训练过程中,生成网络二连接对抗网络和重构网络分别来正则化生成网络二生成的视觉特征中心;其中:
(1)对抗网络用于判别生成网络二生成的视觉特征中心的真假,发挥正规化生成网络二生成的视觉特征中心的作用;
(2)重构网络与生成网络二过程相反,将生成网络二生成的视觉特征中心映射回类似于原始语义属性的状态,从而确保生成网络二生成的视觉特征中心与类别的语义属性之间的结构相关性;所述重构网络的结构包含两个全连接层和一个单层残差网络模块,其目标函数如下:
Figure FDA0002528397580000014
其中,L(R)表示重构网络的损失函数,a表示类别的语义属性R(x′)表示重构的语义属性,x′是生成的视觉特征中心;WR表示在生成网络过程中的权重总称,
Figure FDA0002528397580000015
表示正则化项,λ表示正则化系数;
所述生成网络二的损失函数中加入对抗网络的影响,其目标函数如下:
Figure FDA0002528397580000021
其中,L(G2,D)表示生成网络二的损失函数,x表示类别的视觉特征,G2(a)表示生成网络二通过类别的语义属性a生成的视觉特征中心,D(G2(a))表示对抗网络对生成网络二生成的视觉特征G2(a)的判别结果;
Figure FDA0002528397580000022
表示在生成网络过程中的权重总称,
Figure FDA0002528397580000023
表示正则化项,λ表示正则化系数;
第三步,通过生成网络一和生成网络二融合得到类别的视觉特征中心;
将生成网络一的视觉特征中心和生成网络二的视觉特征中心通过参数控制,合成一个最终的唯一的类别视觉特征中心;合成类别的视觉特征中心公式如下:
Cc=αG1(a)+βG2(a) (6)
其中,G1(a)和G2(a)分别是生成网络一和生成网络二生成的视觉特征中心,α和β是分别两个生成网络的平衡比例系数,Gc表示合成的类别视觉特征中心;
第四步,设计分类网络;
在步骤(3)中得到类别的视觉特征中心后,选择距离函数,将测试样本与合成的类别视觉特征中心进行距离度量来预测测试样本的标签;通过计算距离,确定最接近测试样本的视觉特征中心,并获得测试样本的分类标签;目标函数的公式如下:
Figure FDA0002528397580000024
其中,Gc是合成的类别视觉特征中心,d是距离函数,例如K-最近邻(KNN)和余弦距离,在本文中的不同数据集适用于不同的距离函数;argmin表示距离相差最小时对应的标签计算方法,l是输出的类标签。
CN202010511084.0A 2020-06-08 2020-06-08 一种基于多重网络合作的零样本学习算法 Active CN111738313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010511084.0A CN111738313B (zh) 2020-06-08 2020-06-08 一种基于多重网络合作的零样本学习算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010511084.0A CN111738313B (zh) 2020-06-08 2020-06-08 一种基于多重网络合作的零样本学习算法

Publications (2)

Publication Number Publication Date
CN111738313A true CN111738313A (zh) 2020-10-02
CN111738313B CN111738313B (zh) 2022-11-11

Family

ID=72650069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010511084.0A Active CN111738313B (zh) 2020-06-08 2020-06-08 一种基于多重网络合作的零样本学习算法

Country Status (1)

Country Link
CN (1) CN111738313B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257765A (zh) * 2020-10-16 2021-01-22 济南大学 基于未知类相似类别集的零样本图像分类方法及系统
CN112329884A (zh) * 2020-11-25 2021-02-05 成都信息工程大学 基于判别性视觉属性的零样本识别方法及系统
CN113537322A (zh) * 2021-07-02 2021-10-22 电子科技大学 一种跨模态语义增强生成对抗网络的零样本视觉分类方法
CN115147615A (zh) * 2022-07-01 2022-10-04 河海大学 一种基于度量元学习网络的岩石图像分类方法及装置
CN117893743A (zh) * 2024-03-18 2024-04-16 山东军地信息技术集团有限公司 一种基于通道加权和双对比学习的零样本目标检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163258A (zh) * 2019-04-24 2019-08-23 浙江大学 一种基于语义属性注意力重分配机制的零样本学习方法及系统
CN110334781A (zh) * 2019-06-10 2019-10-15 大连理工大学 一种基于Res-Gan的零样本学习算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163258A (zh) * 2019-04-24 2019-08-23 浙江大学 一种基于语义属性注意力重分配机制的零样本学习方法及系统
CN110334781A (zh) * 2019-06-10 2019-10-15 大连理工大学 一种基于Res-Gan的零样本学习算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘欢等: "基于跨域对抗学习的零样本分类", 《计算机研究与发展》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257765A (zh) * 2020-10-16 2021-01-22 济南大学 基于未知类相似类别集的零样本图像分类方法及系统
CN112257765B (zh) * 2020-10-16 2022-09-23 济南大学 基于未知类相似类别集的零样本图像分类方法及系统
CN112329884A (zh) * 2020-11-25 2021-02-05 成都信息工程大学 基于判别性视觉属性的零样本识别方法及系统
CN113537322A (zh) * 2021-07-02 2021-10-22 电子科技大学 一种跨模态语义增强生成对抗网络的零样本视觉分类方法
CN113537322B (zh) * 2021-07-02 2023-04-18 电子科技大学 一种跨模态语义增强生成对抗网络的零样本视觉分类方法
CN115147615A (zh) * 2022-07-01 2022-10-04 河海大学 一种基于度量元学习网络的岩石图像分类方法及装置
CN117893743A (zh) * 2024-03-18 2024-04-16 山东军地信息技术集团有限公司 一种基于通道加权和双对比学习的零样本目标检测方法
CN117893743B (zh) * 2024-03-18 2024-05-31 山东军地信息技术集团有限公司 一种基于通道加权和双对比学习的零样本目标检测方法

Also Published As

Publication number Publication date
CN111738313B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN111738313B (zh) 一种基于多重网络合作的零样本学习算法
Anoosheh et al. Night-to-day image translation for retrieval-based localization
CN109389091B (zh) 基于神经网络和注意力机制结合的文字识别系统及方法
Tian et al. A survey on few-shot class-incremental learning
CN112084362B (zh) 一种基于层次化特征互补的图像哈希检索方法
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
Duong et al. Deep appearance models: A deep boltzmann machine approach for face modeling
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN114386534A (zh) 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
CN114780767B (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Gong et al. Causal generative domain adaptation networks
CN114926742B (zh) 一种基于二阶注意力机制的回环检测及优化方法
Ye et al. An efficient 3-D point cloud place recognition approach based on feature point extraction and transformer
Gu et al. Cgmvae: Coupling gmm prior and gmm estimator for unsupervised clustering and disentanglement
Wu et al. Parallel multi-path age distinguish network for cross-age face recognition
Qin et al. Structure-aware feature disentanglement with knowledge transfer for appearance-changing place recognition
Zhang et al. Clustering noisy trajectories via robust deep attention auto-encoders
CN118038207A (zh) 一种基于缓解类别偏见和视觉解纠缠的广义零样本学习方法
CN113222002A (zh) 一种基于生成式鉴别性对比优化的零样本分类方法
Manaswini et al. Towards glass-box cnns
Padala et al. Effect of input noise dimension in GANs
Cheng et al. Research on feasibility of convolution neural networks for rock thin sections image retrieval
Zhu et al. A deep neural network based hashing for efficient image retrieval
Ma et al. An optical image-aided approach for zero-shot SAR image scene classification
Yang et al. Digital image feature recognition method of mobile platform based on machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant