CN113537322A - 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 - Google Patents

一种跨模态语义增强生成对抗网络的零样本视觉分类方法 Download PDF

Info

Publication number
CN113537322A
CN113537322A CN202110752275.0A CN202110752275A CN113537322A CN 113537322 A CN113537322 A CN 113537322A CN 202110752275 A CN202110752275 A CN 202110752275A CN 113537322 A CN113537322 A CN 113537322A
Authority
CN
China
Prior art keywords
cross
modal
visual
semantic
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110752275.0A
Other languages
English (en)
Other versions
CN113537322B (zh
Inventor
杨阳
孙浩天
位纪伟
徐行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110752275.0A priority Critical patent/CN113537322B/zh
Publication of CN113537322A publication Critical patent/CN113537322A/zh
Application granted granted Critical
Publication of CN113537322B publication Critical patent/CN113537322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种跨模态语义增强生成对抗网络的零样本视觉分类方法,先下载多张样本图像及每张样本图像对应的标签和语义特征,并通过残差神经网络提取每张样本图像的视觉特征;然后构建跨模态语义增强的生成对抗网络并训练,再基于该生成对抗网络训练出基于零样本分类的跨模态特征分类器,从而完成待检测图像的视觉分类。

Description

一种跨模态语义增强生成对抗网络的零样本视觉分类方法
技术领域
本发明属于零样本学习技术领域,更为具体地讲,涉及一种跨模态语义增强生成对抗网络的零样本视觉分类方法。
背景技术
零样本学习(Zero-shot Learning)的主要目标是通过一些可见类别的视觉信息,配合其他辅助信息(如文本描述)来训练模型,使得学习到的模型可以对不可见类别的视觉信息进行正确的分类。零样本学习又可以划分为传统零样本学习(Conventional Zero-shot Learning)和广义零样本学习(Generalized Zero-shot Learning)两个子任务,传统零样本学习只要求模型完成对不可见类别的分类,广义零样本学习则是要求模型同时识别可见类别和不可见类别。现有方法中较为典型的一类方法是基于嵌入空间的方法,把辅助信息和视觉信息映射到一个共同的嵌入空间,通过学习这样一个嵌入空间来衡量视觉信息和辅助信息的相似度,最终完成对不可见类别的分类。另一类方法是基于生成模型的,通过深度生成模型如生成对抗网络(GAN)或变分自编码器(VAE)直接生成不可见类别的视觉特征,从而将零样本学习转变为传统的识别问题。
然而现有技术出现如下的客观缺点:1、基于嵌入的方法,通过学习嵌入空间来衡量视觉信息和辅助信息的相似度,但是由于只使用可见类别的视觉信息来训练嵌入空间,面对广义零样本学习任务时,该类方法都存在偏差问题(bias problem):在训练阶段不可见类别的样本容易被错误地识别为可见类别。2、基于生成模型的方法,通过GAN或者VAE生成不可见类视觉信息并让这些信息参与到模型的训练来解决偏差问题。该类方法主要受限于生成信息的质量和生成模型的不稳定性,生成模型往往很难去生成富含辨识信息和语义信息的细粒度视觉特征,使得训练得到的模型并不能很好地解决偏差问题导致分类性能受限。此外,生成模型的稳定性也是该类方法的限制之一,要求生成模型生成越精细的特征,会使得生成模型越容易崩溃。
发明内容
本发明的目的在于克服现有技术的不足,提供一种跨模态语义增强生成对抗网络的零样本视觉分类方法,基于生成模型方法,使得生成模型能够在不影响其稳定性的基础上生成富含辨识信息和语义信息的视觉特征,完成视觉分类,也更好地解决了分类偏差问题。
为实现上述发明目的,本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法,其特征在于,包括以下步骤:
(1)、下载样本图像并预处理;
下载N张样本图像及每张样本图像对应的标签ci和语义特征yi,通过残差神经网络提取每张样本图像的视觉特征xi,i=1,2,…,N;
将所有的标签ci组成标签集C,所有的视觉特征xi组成视觉特征集X,以及所有的语义特征yi组成语义特征集Y;
(2)、构建跨模态语义增强的生成对抗网络;
在传统的生成对抗网络中增加包含视觉特征过滤层和跨模态嵌入层的跨模态语义增强层;分别在生成对抗网络的生成器生成假的视觉特征和输入的真实的视觉特征之后部署跨模态语义增强层,然后对真假两种视觉特征进行语义增强处理,再让辨别器去辨别输出的真伪;
(3)、训练跨模态语义增强的生成对抗网络;
(3.1)、训练跨模态语义增强层;
在视觉特征集X中选取p个视觉特征xi,再与这p个视觉特征xi对应的语义特征yi一起输入至跨模态语义增强模块,i=1,2,…,p;
(3.1.1)、训练视觉特征过滤层;
在视觉特征过滤层中,通过全连接网络对视觉特征xi进行降维处理,视觉特征xi的维度减少一半,降维后的视觉特征记为
Figure BDA0003145232100000021
然后将视觉特征
Figure BDA0003145232100000022
分别输入至分类器fcls和回归器freg,其中,分类器fcls和回归器fcls均使用一层全连接的结构;
分类器fcls将视觉特征
Figure BDA0003145232100000023
变换为可见类别数量的分类预测结果,记为
Figure BDA0003145232100000024
回归器fcls根据视觉特征
Figure BDA0003145232100000025
重构出与语义特征yi相同维度的新语义特征,记为
Figure BDA0003145232100000026
计算本轮训练后分类器fcls的损失值以及回归器fcls的损失值;
Figure BDA0003145232100000027
Figure BDA0003145232100000031
其中,ci为视觉特征xi对应的标签;
Figure BDA0003145232100000032
表示交叉损失熵;
Figure BDA0003145232100000033
表示求余弦相似度;
重复上述过程,直至分类器fcls和回归器freg收敛,得到训练完成的视觉特征过滤层;
(3.1.2)、训练跨模态嵌入层;
在跨模态嵌入层中,通过一个全连接层把语义特征yi变化为视觉特征
Figure BDA0003145232100000034
相同的维度,变换后的语义特征记为
Figure BDA0003145232100000035
将视觉特征
Figure BDA0003145232100000036
和语义特征
Figure BDA0003145232100000037
通过一个公共的全连接层将其嵌入到同一个子空间,得到跨模态视觉特征
Figure BDA0003145232100000038
和跨模态语义特征
Figure BDA0003145232100000039
在同一个子空间中,计算p个跨模态视觉特征
Figure BDA00031452321000000310
和跨模态语义特征
Figure BDA00031452321000000311
的欧式距离的平均值Ldis
Figure BDA00031452321000000312
将跨模态视觉特征
Figure BDA00031452321000000313
和跨模态语义特征
Figure BDA00031452321000000314
输入至训练完成的分类器fcls和回归器freg,采用交叉损失熵来计算分类损失
Figure BDA00031452321000000315
Figure BDA00031452321000000316
其中,
Figure BDA00031452321000000317
表示跨模态视觉特征
Figure BDA00031452321000000318
的分类预测结果,
Figure BDA00031452321000000319
表示跨模态语义特征
Figure BDA00031452321000000320
的分类预测结果;
通过计算重构后的语义特征同原来的语义特征之间的距离来计算回归损失
Figure BDA00031452321000000327
Figure BDA00031452321000000321
其中,
Figure BDA00031452321000000322
表示
Figure BDA00031452321000000323
重构后的语义特征,
Figure BDA00031452321000000324
表示
Figure BDA00031452321000000325
重构后的语义特征;
通过这三个损失函数来计算跨模态嵌入层的总损失L
Figure BDA00031452321000000326
其中,β权重系数;
重复上述过程,直至总损失L,得到训练完成的跨模态嵌入层;
(3.2)、训练基于跨模态语义增强的生成对抗网络;
将训练完成的跨模态语义增强模块嵌入到传统生成对抗网络,然后输入批量的语义特征yi和随机高斯噪声,通过生成器G生成假的视觉特征集;
将假的视觉特征集与真的视觉特征集输入至跨模态语义增强层进行语义增强,从而输出跨模态的真假视觉特征集;
将跨模态的真假视觉特征集及对应的语义特征输入至辨别器D,将跨模态假的特征集输入训练完成的分类器fcls和回归器freg,然后计算三部分的总损失值
Figure BDA0003145232100000041
其中,辨别器D的损失为:将输入到辨别器D的真的跨模态特征表示为
Figure BDA0003145232100000042
将输入到辨别器D的假的跨模态特征表示为
Figure BDA0003145232100000043
然后对这两个特征取一个插值
Figure BDA0003145232100000044
从而计算出辨别器D的损失值LWGAN
Figure BDA0003145232100000045
其中,λ为权重系数,E[D(·)]表示对辨别器D的输出求期望,
Figure BDA0003145232100000046
表示对辨别器D的输出先求期望再求2范数;
分类器fcls直接用交叉熵损失计算
Figure BDA0003145232100000047
的分类损失:
Figure BDA0003145232100000048
回归器freg直接计算
Figure BDA0003145232100000049
的重构语义特征
Figure BDA00031452321000000410
与yi的欧式距离的损失:
Figure BDA00031452321000000411
重复上述过程,直至三部分的总损失值收敛,得到训练完成的跨模态语义增强的生成对抗网络;
(4)、训练基于零样本分类的跨模态特征分类器;
将不可见类别的语义特征输入训练完成的跨模态语义增强的生成对抗网络,通过生成器得视觉特征,再经过跨模态语义增强层进行语义增强,得到跨模态特征,然后将跨模态特征填充至可见样本的跨模态特征集中,最后利用填充后的跨模态特征集训练得到用于零样本分类的跨模态特征分类器;
(5)、视觉分类提取待检测图像的视觉特征,经过跨模态语义增强并输入至训练完成的跨模态特征分类器,从而输出该视觉特征的类别。
本发明的发明目的是这样实现的:
本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法,先下载多张样本图像及每张样本图像对应的标签和语义特征,并通过残差神经网络提取每张样本图像的视觉特征;然后构建跨模态语义增强的生成对抗网络并训练,再基于该生成对抗网络训练出基于零样本分类的跨模态特征分类器,从而完成待检测图像的视觉分类。
同时,本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法还具有以下有益效果:
(1)、本发明提出了跨模态语义增强生成式对抗网络,通过三阶段的训练让生成对抗网络能够生成一种得到语义增强的跨模态特征,这样的特征富含辨识性信息和语义信息,更易于分类;
(2)、本发明使用一层线性变化来降低其维度,并使用一个线性回归器和线性分类器来约束降维后的特征,确保在降维的过程中辨识性和语义信息不会丢失;
(3)、首先使用一个线性变换把语义特征的维度变换同降维后视觉特征一致,然后我们用一个共享的线性层把语义特征和视觉特征映射到同一个空间。同样,为了确保嵌入过程中的辨识性和语义信息能够得到保留;
(4)、本发明回归器中引入语义特征,这样可以让更多的语义信息能够参与融合;然后通过跨模态特征直接重构回语义特征,特征在跨模态嵌入过程之中得到了进一步语义增强;此外,为了确保由语义特征和视觉特征嵌入得到的跨模态特征处在一个模态之中,并使用了模态间距离约束来消除模态间的差别。
附图说明
图1是本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法流程图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法流程图。
在本实施例中,我们的模型基于生成对抗网络(GAN),通过生成不可见类别的数据来解决零样本学习的任务。传统的基于生成对抗网络或者其他生成模型的方法直接生成由卷积神经网络(CNN)提取的视觉特征,他们往往采用在ImageNet数据集上预训练的残差神经网络(ResNet-101)作为提取特征的架构。然而这样的特征本身就含有大量与标签无关的信息,所以生成的这样的特征缺乏足够的辨识性并且徒增生成网络的负担。此外,生成模型的不稳定性导致其生成的视觉特征质量不佳,与真实的图片提取的视觉特征仍有较大的差距,分类器依旧倾向将不可见特征识别为可见类别,所以对于缓解偏差问题的能力有限。
针对以上的问题,本发明提出了跨模态语义增强生成对抗网络,通过三阶段的训练让生成对抗网络能够生成一种得到语义增强的跨模态特征。这样的特征富含辨识性信息和语义信息,更易于分类。此外,我们把跨模态语义增强模型作为一种弱约束施加在生成式对抗网络上,来减少生成模型不稳定的影响。
如图1所示,我们的模型分为跨模态语义增强层和生成式对抗网络,跨模态语义增强层包含视觉过滤层(VFL)和跨模态嵌入层(CEM)两个部分,接下来分步骤介绍,包括以下步骤:
S1、下载样本图像并预处理;
下载N张样本图像及每张样本图像对应的标签ci和语义特征yi,通过残差神经网络提取每张样本图像的视觉特征xi,i=1,2,…,N;
将所有的标签ci组成标签集C,所有的视觉特征xi组成视觉特征集X,以及所有的语义特征yi组成语义特征集Y;
S2、构建跨模态语义增强的生成对抗网络;
在传统的生成对抗网络中增加包含视觉特征过滤层和跨模态嵌入层的跨模态语义增强层;分别在生成对抗网络的生成器生成假的视觉特征和输入的真实的视觉特征之后部署跨模态语义增强层,然后对真假两种视觉特征进行语义增强处理,再让辨别器去辨别输出的真伪;
S3、训练跨模态语义增强的生成对抗网络;
S3.1、训练跨模态语义增强层;
在视觉特征集X中选取p个视觉特征xi,再与这p个视觉特征xi对应的语义特征yi一起输入至跨模态语义增强模块,i=1,2,…,p;
S3.1.1、训练视觉特征过滤层;
由残差神经网络提取的高维视觉特征中,包含了大量与标签无关的冗余信息,让生成对抗网络去生成类似这样的特征,不仅会让生成的质量难以保证,也会对生成器造成额外的负担。所以我们提出视觉特征过滤层来降低视觉特征的维度同时保留其辨识性和语义信息。
在视觉特征过滤层中,通过全连接网络对视觉特征xi进行降维处理,视觉特征xi的维度减少一半,降维后的视觉特征记为
Figure BDA0003145232100000071
然后将视觉特征
Figure BDA0003145232100000072
分别输入至分类器fcls和回归器freg,其中,分类器fcls和回归器fcls均使用一层全连接的结构;
分类器fcls将视觉特征
Figure BDA0003145232100000073
变换为可见类别数量的分类预测结果,记为
Figure BDA0003145232100000074
回归器fcls根据视觉特征
Figure BDA0003145232100000075
重构出与语义特征yi相同维度的新语义特征,记为
Figure BDA0003145232100000076
计算本轮训练后分类器fcls的损失值以及回归器fcls的损失值;
Figure BDA0003145232100000077
Figure BDA0003145232100000078
其中,ci为视觉特征xi对应的标签;
Figure BDA0003145232100000079
表示交叉熵损失;
Figure BDA0003145232100000081
表示求余弦相似度;
重复上述过程,直至分类器fcls和回归器freg收敛,得到训练完成的视觉特征过滤层;
在视觉过滤层,本实施例使用一层线性变化来降低其维度,并使用一个线性回归器和线性分类器来约束降维后的特征,确保在降维的过程中辨识性和语义信息不会丢失。
S3.1.2、训练跨模态嵌入层;
在视觉特征过滤中我们使用回归器来保留隐含在其中的语义信息,但是视觉特征和语义特征本质上来自于两个不同的模态,换言之视觉特征本身并不蕴含丰富的语义信息。所以我们专利引入了跨模态嵌入层,让更多的语义信息能够在嵌入过程融合至视觉特征之中。
在跨模态嵌入层中,通过一个全连接层把语义特征yi变化为视觉特征
Figure BDA0003145232100000082
相同的维度,变换后的语义特征记为
Figure BDA0003145232100000083
将视觉特征
Figure BDA0003145232100000084
和语义特征
Figure BDA0003145232100000085
通过一个公共的全连接层将其嵌入到同一个子空间,得到跨模态视觉特征
Figure BDA0003145232100000086
和跨模态语义特征
Figure BDA0003145232100000087
在同一个子空间中,计算p个跨模态视觉特征
Figure BDA0003145232100000088
和跨模态语义特征
Figure BDA0003145232100000089
的欧式距离的平均值Ldis
Figure BDA00031452321000000810
将跨模态视觉特征
Figure BDA00031452321000000811
和跨模态语义特征
Figure BDA00031452321000000812
输入至训练完成的分类器fcls和回归器freg,采用交叉熵损失来计算分类损失
Figure BDA00031452321000000813
Figure BDA00031452321000000814
其中,
Figure BDA00031452321000000815
表示跨模态视觉特征
Figure BDA00031452321000000816
的分类预测结果,
Figure BDA00031452321000000817
表示跨模态语义特征
Figure BDA00031452321000000818
的分类预测结果;
通过计算重构后的语义特征同原来的语义特征之间的距离来计算回归损失
Figure BDA00031452321000000819
Figure BDA00031452321000000820
其中,
Figure BDA0003145232100000091
表示
Figure BDA0003145232100000092
重构后的语义特征,
Figure BDA0003145232100000093
表示
Figure BDA0003145232100000094
重构后的语义特征;
通过这三个损失函数来计算跨模态嵌入层的总损失L
Figure BDA0003145232100000095
其中,β权重系数;
重复上述过程,直至达到设定的迭代轮次,得到训练完成的跨模态嵌入层;
在本实施例中,我们对于视觉特征的输入和语义特征的输入采用公共的全连接层来完成跨模态变化,这样保证了在跨模态过程中在保证视觉特征得到保留的基础上语义信息最大程度地得到增强。;
S3.2、训练基于跨模态语义增强的生成对抗网络;
通过之前的两阶段训练,我们得到了跨模态语义增强层。本发明将跨模态语义增强层作为一层弱约束施加在生成对抗网络之上。具体来说,对于真实特征,我们使用特征过滤层和跨模态嵌入层得到经过语义增强的跨模态特征。生成器则是生成同过滤视觉特征维度一致的特征,并经过跨模态嵌入层得到最终的生成跨模态特征。我们将在跨模态嵌入层训练过程中得到的分类器和回归器作为对生成器的弱约束。所谓弱约束,即我们不期望直接让生成对抗网络生成富含辨识和语义信息的跨模态特征,这样过强的约束会让生成网络崩溃,而是将生成网络和跨模态嵌入层分离,生成网络生成低维视觉特征,由跨模态嵌入层完成语义增强;
将训练完成的跨模态语义增强模块嵌入到传统生成对抗网络,然后输入批量的语义特征yi和随机高斯噪声,通过生成器G生成假的视觉特征集;
将假的视觉特征集与真的视觉特征集输入至跨模态语义增强层进行语义增强,从而输出跨模态的真假视觉特征集;
将跨模态的真假视觉特征集及对应的语义特征输入至辨别器D,将跨模态假的特征集输入训练完成的分类器fcls和回归器freg,然后计算三部分的总损失值
Figure BDA0003145232100000096
其中,辨别器D的损失为:将输入到辨别器D的真的跨模态特征表示为
Figure BDA0003145232100000097
将输入到辨别器D的假的跨模态特征表示为
Figure BDA0003145232100000098
然后对这两个特征取一个插值
Figure BDA0003145232100000099
从而计算出辨别器D的损失值LWGAN
Figure BDA0003145232100000101
其中,λ为权重系数,E[D(·)]表示对辨别器D的输出求期望,
Figure BDA0003145232100000102
表示对辨别器D的输出先求期望再求2范数;
分类器fcls直接用交叉损失熵计算
Figure BDA0003145232100000103
的分类损失:
Figure BDA0003145232100000104
回归器freg直接计算
Figure BDA0003145232100000105
的重构语义特征
Figure BDA0003145232100000106
与yi的欧式距离的损失:
Figure BDA0003145232100000107
重复上述过程,直至三部分的总损失值收敛,得到训练完成的跨模态语义增强的生成对抗网络;
在本阶段的训练过程中,我们将跨模态语义增强模块作为一层弱约束实施于生成对抗网络,即不让生成器直接生成跨模态特征,而是通过对生成的视觉特征做跨模态语义增强。通过这样的方式我们即能增强的特征的语义信息,也能减少对生成对抗网络的稳定性的影响。
S4、训练基于零样本分类的跨模态特征分类器;
将不可见类别的语义特征输入训练完成的跨模态语义增强的生成对抗网络,通过生成器得视觉特征,再经过跨模态语义增强层进行语义增强,得到跨模态特征,然后将跨模态特征填充至可见样本的跨模态特征集中,最后利用填充后的跨模态特征集训练得到用于零样本分类的跨模态特征分类器;
S5、视觉分类提取待检测图像的视觉特征,经过跨模态语义增强并输入至训练完成的跨模态特征分类器,从而输出该视觉特征的类别。
通过这样的方式,我们能够尽量在不伤害生成网络稳定性的基础上生成富有辨识信息和视觉信息的跨模态特征。此外,测试的视觉特征也通过跨模态语义增强层变为跨模态特征,由此最终的训练特征和视觉特征皆为得到语义增强的跨模态特征,能够让分类器更轻松做出预测,更好地解决了偏置问题。
本实施例在三个基准数据集AwA2,CUB,SUN上测试了性能,T1表示top-1的准确率,用来测试在传统零样本的任务下的性能,对于广义零样本任务,S和U分别表示可见类别和不可见类别的top-1准确率,H则表示S和H的调和平均数,用来衡量广义零样本任务的性能。如表1所示,采用不同算法进来测试在传统零样本的任务下的性能,f-CLSWGAN(基于特征生成网络的零样本学习)最先将生成对抗网络引入零样本学习的领域,SE-GZSL(基于样本合成的零样本学习)采用变分自编码器来完成生成,LisGAN(基于零样本生成不变性的方法)和SABR(基于语义对齐偏差的零样本学习)都采用生成对抗网络,并对生成对抗网络增加了新的约束来使其生成质量更好的样本或者特征,CADA-VAE(基于对齐变分自动编码器的广义零和小样本学习)通过两层的变分自编码器来让视觉特征和语义特征得到对齐,f-VAEGAN(零样本学习的特征生成框架)结合了变分自编码器和生成对抗网络来训练一个质量更高的特征生成器;
Figure BDA0003145232100000111
从结果可以看出,本专利在三个数据集上的传统零样本学习和广义零样本学习的性能指标上,有两个超越了现阶段的其他算法。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种跨模态语义增强生成对抗网络的零样本视觉分类方法,其特征在于,包括以下步骤:
(1)、下载样本图像并预处理;
下载N张样本图像及每张样本图像对应的标签ci和语义特征yi,通过残差神经网络提取每张样本图像的视觉特征xi,i=1,2,…,N;
将所有的标签ci组成标签集C,所有的视觉特征xi组成视觉特征集X,以及所有的语义特征yi组成语义特征集Y;
(2)、构建跨模态语义增强的生成对抗网络;
在传统的生成对抗网络中增加包含视觉特征过滤层和跨模态嵌入层的跨模态语义增强层;分别在生成对抗网络的生成器生成假的视觉特征和输入的真实的视觉特征之后部署跨模态语义增强层,然后对真假两种视觉特征进行语义增强处理,再让辨别器去辨别输出的真伪;
(3)、训练练跨模态语义增强的生成对抗网络;
(3.1)、训练跨模态语义增强层;
在视觉特征集X中选取p个视觉特征xi,再与这p个视觉特征xi对应的语义特征yi一起输入至跨模态语义增强模块,i=1,2,…,p;
(3.1.1)、训练视觉特征过滤层;
在视觉特征过滤层中,通过全连接网络对视觉特征xi进行降维处理,视觉特征xi的维度减少一半,降维后的视觉特征记为
Figure FDA0003145232090000011
然后将视觉特征
Figure FDA0003145232090000012
分别输入至分类器fcls和回归器freg,其中,分类器fcls和回归器fcls均使用一层全连接的结构;
分类器fcls将视觉特征
Figure FDA0003145232090000013
变换为可见类别数量的分类预测结果,记为
Figure FDA0003145232090000014
回归器fcls根据视觉特征
Figure FDA0003145232090000015
重构出与语义特征yi相同维度的新语义特征,记为
Figure FDA0003145232090000016
计算本轮训练后分类器fcls的损失值以及回归器fcls的损失值;
Figure FDA0003145232090000017
Figure FDA0003145232090000018
其中,ci为视觉特征xi对应的标签;
Figure FDA0003145232090000021
表示交叉损失熵;
Figure FDA0003145232090000022
表示求余弦相似度;
重复上述过程,直至分类器fcls和回归器freg收敛,得到训练完成的视觉特征过滤层;
(3.1.2)、训练跨模态嵌入层;
在跨模态嵌入层中,通过一个全连接层把语义特征yi变化为视觉特征
Figure FDA0003145232090000023
相同的维度,变换后的语义特征记为
Figure FDA0003145232090000024
将视觉特征
Figure FDA0003145232090000025
和语义特征
Figure FDA0003145232090000026
通过一个公共的全连接层将其嵌入到同一个子空间,得到跨模态视觉特征
Figure FDA0003145232090000027
和跨模态语义特征
Figure FDA0003145232090000028
在同一个子空间中,计算p个跨模态视觉特征
Figure FDA0003145232090000029
和跨模态语义特征
Figure FDA00031452320900000210
的欧式距离的平均值Ldis
Figure FDA00031452320900000211
将跨模态视觉特征
Figure FDA00031452320900000212
和跨模态语义特征
Figure FDA00031452320900000213
输入至训练完成的分类器fcls和回归器freg,采用交叉损失熵来计算分类损失
Figure FDA00031452320900000214
Figure FDA00031452320900000215
其中,
Figure FDA00031452320900000216
表示跨模态视觉特征
Figure FDA00031452320900000226
的分类预测结果,
Figure FDA00031452320900000217
表示跨模态语义特征
Figure FDA00031452320900000218
的分类预测结果;
通过计算重构后的语义特征同原来的语义特征之间的距离来计算回归损失
Figure FDA00031452320900000219
Figure FDA00031452320900000220
其中,
Figure FDA00031452320900000221
表示
Figure FDA00031452320900000222
重构后的语义特征,
Figure FDA00031452320900000223
表示
Figure FDA00031452320900000224
重构后的语义特征;
通过这三个损失函数来计算跨模态嵌入层的总损失L
Figure FDA00031452320900000225
其中,β权重系数;
重复上述过程,直至总损失L,得到训练完成的跨模态嵌入层;
(3.2)、训练基于跨模态语义增强的生成对抗网络;
将训练完成的跨模态语义增强模块嵌入到传统生成对抗网络,然后输入批量的语义特征yi和随机高斯噪声,通过生成器G生成假的视觉特征集;
将假的视觉特征集与真的视觉特征集输入至跨模态语义增强层进行语义增强,从而输出跨模态的真假视觉特征集;
将跨模态的真假视觉特征集及对应的语义特征输入至辨别器D,将跨模态假的特征集输入训练完成的分类器fcls和回归器freg,然后计算三部分的总损失值
Figure FDA0003145232090000031
其中,辨别器D的损失为:将输入到辨别器D的真的跨模态特征表示为
Figure FDA0003145232090000032
将输入到辨别器D的假的跨模态特征表示为
Figure FDA0003145232090000033
然后对这两个特征取一个插值
Figure FDA0003145232090000034
从而计算出辨别器D的损失值LWGAN
Figure FDA0003145232090000035
其中,λ为权重系数,E[D(·)]表示对辨别器D的输出求期望,
Figure FDA0003145232090000036
表示对辨别器D的输出先求期望再求2范数;
分类器fcls直接用交叉损失熵计算
Figure FDA0003145232090000037
的分类损失:
Figure FDA0003145232090000038
回归器freg直接计算
Figure FDA0003145232090000039
的重构语义特征
Figure FDA00031452320900000310
与yi的欧式距离的损失:
Figure FDA00031452320900000311
重复上述过程,直至三部分的总损失值收敛,得到训练完成的跨模态语义增强的生成对抗网络;
(4)、训练基于零样本分类的跨模态特征分类器;
将不可见类别的语义特征输入训练完成的跨模态语义增强的生成对抗网络,通过生成器得视觉特征,再经过跨模态语义增强层进行语义增强,得到跨模态特征,然后将跨模态特征填充至可见样本的跨模态特征集中,最后利用填充后的跨模态特征集训练得到用于零样本分类的跨模态特征分类器;
(5)、视觉分类提取待检测图像的视觉特征,经过跨模态语义增强并输入至训练完成的跨模态特征分类器,从而输出该视觉特征的类别。
CN202110752275.0A 2021-07-02 2021-07-02 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 Active CN113537322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752275.0A CN113537322B (zh) 2021-07-02 2021-07-02 一种跨模态语义增强生成对抗网络的零样本视觉分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752275.0A CN113537322B (zh) 2021-07-02 2021-07-02 一种跨模态语义增强生成对抗网络的零样本视觉分类方法

Publications (2)

Publication Number Publication Date
CN113537322A true CN113537322A (zh) 2021-10-22
CN113537322B CN113537322B (zh) 2023-04-18

Family

ID=78126640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752275.0A Active CN113537322B (zh) 2021-07-02 2021-07-02 一种跨模态语义增强生成对抗网络的零样本视觉分类方法

Country Status (1)

Country Link
CN (1) CN113537322B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114791958A (zh) * 2022-04-28 2022-07-26 电子科技大学 一种基于变分自编码器的零样本跨模态检索方法
CN114792398A (zh) * 2022-06-23 2022-07-26 阿里巴巴(中国)有限公司 图像分类的方法和目标数据分类模型的构建方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019046463A1 (en) * 2017-08-29 2019-03-07 Zhoa Tiancheng SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE
CN110598759A (zh) * 2019-08-23 2019-12-20 天津大学 一种基于多模态融合的生成对抗网络的零样本分类方法
US20200097771A1 (en) * 2018-09-25 2020-03-26 Nec Laboratories America, Inc. Deep group disentangled embedding and network weight generation for visual inspection
CN111476294A (zh) * 2020-04-07 2020-07-31 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及系统
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
US20200302231A1 (en) * 2019-03-22 2020-09-24 Royal Bank Of Canada System and method for generation of unseen composite data objects
CN111738313A (zh) * 2020-06-08 2020-10-02 大连理工大学 一种基于多重网络合作的零样本学习算法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法
CN112380374A (zh) * 2020-10-23 2021-02-19 华南理工大学 一种基于语义扩充的零样本图像分类方法
CN112766386A (zh) * 2021-01-25 2021-05-07 大连理工大学 一种基于多输入多输出融合网络的广义零样本学习方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019046463A1 (en) * 2017-08-29 2019-03-07 Zhoa Tiancheng SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE
US20200097771A1 (en) * 2018-09-25 2020-03-26 Nec Laboratories America, Inc. Deep group disentangled embedding and network weight generation for visual inspection
US20200302231A1 (en) * 2019-03-22 2020-09-24 Royal Bank Of Canada System and method for generation of unseen composite data objects
CN110598759A (zh) * 2019-08-23 2019-12-20 天津大学 一种基于多模态融合的生成对抗网络的零样本分类方法
CN111476294A (zh) * 2020-04-07 2020-07-31 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及系统
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN111738313A (zh) * 2020-06-08 2020-10-02 大连理工大学 一种基于多重网络合作的零样本学习算法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法
CN112380374A (zh) * 2020-10-23 2021-02-19 华南理工大学 一种基于语义扩充的零样本图像分类方法
CN112766386A (zh) * 2021-01-25 2021-05-07 大连理工大学 一种基于多输入多输出融合网络的广义零样本学习方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FELIX R等: ""Multi-modal cycle-consistent generalized zero-shot learning"" *
LIU S等: ""Hyperbolic visual embedding learning for zero-shot recognition"" *
SONG X等: ""Generalized zero-shot learning with multi-source semanric embeddings for scene recognition"" *
刘欢等: ""基于跨域对抗学习的零样本分类"" *
张鲁宁等: ""零样本学习研究进展"" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114791958A (zh) * 2022-04-28 2022-07-26 电子科技大学 一种基于变分自编码器的零样本跨模态检索方法
CN114791958B (zh) * 2022-04-28 2023-04-07 电子科技大学 一种基于变分自编码器的零样本跨模态检索方法
CN114792398A (zh) * 2022-06-23 2022-07-26 阿里巴巴(中国)有限公司 图像分类的方法和目标数据分类模型的构建方法

Also Published As

Publication number Publication date
CN113537322B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN111476294B (zh) 一种基于生成对抗网络的零样本图像识别方法及系统
Huang et al. Generative dual adversarial network for generalized zero-shot learning
CN105975573B (zh) 一种基于knn的文本分类方法
CN109492662B (zh) 一种基于对抗自编码器模型的零样本图像分类方法
WO2020029356A1 (zh) 一种基于生成对抗网络的脸部变化预测方法
CN111428071B (zh) 一种基于多模态特征合成的零样本跨模态检索方法
CN113139591B (zh) 一种基于增强多模态对齐的广义零样本图像分类方法
CN111126069A (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN113537322B (zh) 一种跨模态语义增强生成对抗网络的零样本视觉分类方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111968193A (zh) 一种基于StackGAN网络的文本生成图像方法
CN113642604A (zh) 一种基于云边协同的音视频辅助触觉信号重建方法
CN110534101A (zh) 一种基于多模融合深度特征的移动设备源识别方法及系统
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
CN101958000A (zh) 基于稀疏表示的人脸画像-照片生成方法
CN113140020A (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN116246279A (zh) 一种基于clip背景知识的图文特征融合方法
CN117217807B (zh) 一种基于多模态高维特征的不良资产估值方法
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant