CN113537322A - 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 - Google Patents
一种跨模态语义增强生成对抗网络的零样本视觉分类方法 Download PDFInfo
- Publication number
- CN113537322A CN113537322A CN202110752275.0A CN202110752275A CN113537322A CN 113537322 A CN113537322 A CN 113537322A CN 202110752275 A CN202110752275 A CN 202110752275A CN 113537322 A CN113537322 A CN 113537322A
- Authority
- CN
- China
- Prior art keywords
- cross
- modal
- visual
- semantic
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种跨模态语义增强生成对抗网络的零样本视觉分类方法,先下载多张样本图像及每张样本图像对应的标签和语义特征,并通过残差神经网络提取每张样本图像的视觉特征;然后构建跨模态语义增强的生成对抗网络并训练,再基于该生成对抗网络训练出基于零样本分类的跨模态特征分类器,从而完成待检测图像的视觉分类。
Description
技术领域
本发明属于零样本学习技术领域,更为具体地讲,涉及一种跨模态语义增强生成对抗网络的零样本视觉分类方法。
背景技术
零样本学习(Zero-shot Learning)的主要目标是通过一些可见类别的视觉信息,配合其他辅助信息(如文本描述)来训练模型,使得学习到的模型可以对不可见类别的视觉信息进行正确的分类。零样本学习又可以划分为传统零样本学习(Conventional Zero-shot Learning)和广义零样本学习(Generalized Zero-shot Learning)两个子任务,传统零样本学习只要求模型完成对不可见类别的分类,广义零样本学习则是要求模型同时识别可见类别和不可见类别。现有方法中较为典型的一类方法是基于嵌入空间的方法,把辅助信息和视觉信息映射到一个共同的嵌入空间,通过学习这样一个嵌入空间来衡量视觉信息和辅助信息的相似度,最终完成对不可见类别的分类。另一类方法是基于生成模型的,通过深度生成模型如生成对抗网络(GAN)或变分自编码器(VAE)直接生成不可见类别的视觉特征,从而将零样本学习转变为传统的识别问题。
然而现有技术出现如下的客观缺点:1、基于嵌入的方法,通过学习嵌入空间来衡量视觉信息和辅助信息的相似度,但是由于只使用可见类别的视觉信息来训练嵌入空间,面对广义零样本学习任务时,该类方法都存在偏差问题(bias problem):在训练阶段不可见类别的样本容易被错误地识别为可见类别。2、基于生成模型的方法,通过GAN或者VAE生成不可见类视觉信息并让这些信息参与到模型的训练来解决偏差问题。该类方法主要受限于生成信息的质量和生成模型的不稳定性,生成模型往往很难去生成富含辨识信息和语义信息的细粒度视觉特征,使得训练得到的模型并不能很好地解决偏差问题导致分类性能受限。此外,生成模型的稳定性也是该类方法的限制之一,要求生成模型生成越精细的特征,会使得生成模型越容易崩溃。
发明内容
本发明的目的在于克服现有技术的不足,提供一种跨模态语义增强生成对抗网络的零样本视觉分类方法,基于生成模型方法,使得生成模型能够在不影响其稳定性的基础上生成富含辨识信息和语义信息的视觉特征,完成视觉分类,也更好地解决了分类偏差问题。
为实现上述发明目的,本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法,其特征在于,包括以下步骤:
(1)、下载样本图像并预处理;
下载N张样本图像及每张样本图像对应的标签ci和语义特征yi,通过残差神经网络提取每张样本图像的视觉特征xi,i=1,2,…,N;
将所有的标签ci组成标签集C,所有的视觉特征xi组成视觉特征集X,以及所有的语义特征yi组成语义特征集Y;
(2)、构建跨模态语义增强的生成对抗网络;
在传统的生成对抗网络中增加包含视觉特征过滤层和跨模态嵌入层的跨模态语义增强层;分别在生成对抗网络的生成器生成假的视觉特征和输入的真实的视觉特征之后部署跨模态语义增强层,然后对真假两种视觉特征进行语义增强处理,再让辨别器去辨别输出的真伪;
(3)、训练跨模态语义增强的生成对抗网络;
(3.1)、训练跨模态语义增强层;
在视觉特征集X中选取p个视觉特征xi,再与这p个视觉特征xi对应的语义特征yi一起输入至跨模态语义增强模块,i=1,2,…,p;
(3.1.1)、训练视觉特征过滤层;
在视觉特征过滤层中,通过全连接网络对视觉特征xi进行降维处理,视觉特征xi的维度减少一半,降维后的视觉特征记为然后将视觉特征分别输入至分类器fcls和回归器freg,其中,分类器fcls和回归器fcls均使用一层全连接的结构;
计算本轮训练后分类器fcls的损失值以及回归器fcls的损失值;
重复上述过程,直至分类器fcls和回归器freg收敛,得到训练完成的视觉特征过滤层;
(3.1.2)、训练跨模态嵌入层;
通过这三个损失函数来计算跨模态嵌入层的总损失L总;
其中,β权重系数;
重复上述过程,直至总损失L总,得到训练完成的跨模态嵌入层;
(3.2)、训练基于跨模态语义增强的生成对抗网络;
将训练完成的跨模态语义增强模块嵌入到传统生成对抗网络,然后输入批量的语义特征yi和随机高斯噪声,通过生成器G生成假的视觉特征集;
将假的视觉特征集与真的视觉特征集输入至跨模态语义增强层进行语义增强,从而输出跨模态的真假视觉特征集;
重复上述过程,直至三部分的总损失值收敛,得到训练完成的跨模态语义增强的生成对抗网络;
(4)、训练基于零样本分类的跨模态特征分类器;
将不可见类别的语义特征输入训练完成的跨模态语义增强的生成对抗网络,通过生成器得视觉特征,再经过跨模态语义增强层进行语义增强,得到跨模态特征,然后将跨模态特征填充至可见样本的跨模态特征集中,最后利用填充后的跨模态特征集训练得到用于零样本分类的跨模态特征分类器;
(5)、视觉分类提取待检测图像的视觉特征,经过跨模态语义增强并输入至训练完成的跨模态特征分类器,从而输出该视觉特征的类别。
本发明的发明目的是这样实现的:
本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法,先下载多张样本图像及每张样本图像对应的标签和语义特征,并通过残差神经网络提取每张样本图像的视觉特征;然后构建跨模态语义增强的生成对抗网络并训练,再基于该生成对抗网络训练出基于零样本分类的跨模态特征分类器,从而完成待检测图像的视觉分类。
同时,本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法还具有以下有益效果:
(1)、本发明提出了跨模态语义增强生成式对抗网络,通过三阶段的训练让生成对抗网络能够生成一种得到语义增强的跨模态特征,这样的特征富含辨识性信息和语义信息,更易于分类;
(2)、本发明使用一层线性变化来降低其维度,并使用一个线性回归器和线性分类器来约束降维后的特征,确保在降维的过程中辨识性和语义信息不会丢失;
(3)、首先使用一个线性变换把语义特征的维度变换同降维后视觉特征一致,然后我们用一个共享的线性层把语义特征和视觉特征映射到同一个空间。同样,为了确保嵌入过程中的辨识性和语义信息能够得到保留;
(4)、本发明回归器中引入语义特征,这样可以让更多的语义信息能够参与融合;然后通过跨模态特征直接重构回语义特征,特征在跨模态嵌入过程之中得到了进一步语义增强;此外,为了确保由语义特征和视觉特征嵌入得到的跨模态特征处在一个模态之中,并使用了模态间距离约束来消除模态间的差别。
附图说明
图1是本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法流程图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种跨模态语义增强生成对抗网络的零样本视觉分类方法流程图。
在本实施例中,我们的模型基于生成对抗网络(GAN),通过生成不可见类别的数据来解决零样本学习的任务。传统的基于生成对抗网络或者其他生成模型的方法直接生成由卷积神经网络(CNN)提取的视觉特征,他们往往采用在ImageNet数据集上预训练的残差神经网络(ResNet-101)作为提取特征的架构。然而这样的特征本身就含有大量与标签无关的信息,所以生成的这样的特征缺乏足够的辨识性并且徒增生成网络的负担。此外,生成模型的不稳定性导致其生成的视觉特征质量不佳,与真实的图片提取的视觉特征仍有较大的差距,分类器依旧倾向将不可见特征识别为可见类别,所以对于缓解偏差问题的能力有限。
针对以上的问题,本发明提出了跨模态语义增强生成对抗网络,通过三阶段的训练让生成对抗网络能够生成一种得到语义增强的跨模态特征。这样的特征富含辨识性信息和语义信息,更易于分类。此外,我们把跨模态语义增强模型作为一种弱约束施加在生成式对抗网络上,来减少生成模型不稳定的影响。
如图1所示,我们的模型分为跨模态语义增强层和生成式对抗网络,跨模态语义增强层包含视觉过滤层(VFL)和跨模态嵌入层(CEM)两个部分,接下来分步骤介绍,包括以下步骤:
S1、下载样本图像并预处理;
下载N张样本图像及每张样本图像对应的标签ci和语义特征yi,通过残差神经网络提取每张样本图像的视觉特征xi,i=1,2,…,N;
将所有的标签ci组成标签集C,所有的视觉特征xi组成视觉特征集X,以及所有的语义特征yi组成语义特征集Y;
S2、构建跨模态语义增强的生成对抗网络;
在传统的生成对抗网络中增加包含视觉特征过滤层和跨模态嵌入层的跨模态语义增强层;分别在生成对抗网络的生成器生成假的视觉特征和输入的真实的视觉特征之后部署跨模态语义增强层,然后对真假两种视觉特征进行语义增强处理,再让辨别器去辨别输出的真伪;
S3、训练跨模态语义增强的生成对抗网络;
S3.1、训练跨模态语义增强层;
在视觉特征集X中选取p个视觉特征xi,再与这p个视觉特征xi对应的语义特征yi一起输入至跨模态语义增强模块,i=1,2,…,p;
S3.1.1、训练视觉特征过滤层;
由残差神经网络提取的高维视觉特征中,包含了大量与标签无关的冗余信息,让生成对抗网络去生成类似这样的特征,不仅会让生成的质量难以保证,也会对生成器造成额外的负担。所以我们提出视觉特征过滤层来降低视觉特征的维度同时保留其辨识性和语义信息。
在视觉特征过滤层中,通过全连接网络对视觉特征xi进行降维处理,视觉特征xi的维度减少一半,降维后的视觉特征记为然后将视觉特征分别输入至分类器fcls和回归器freg,其中,分类器fcls和回归器fcls均使用一层全连接的结构;
计算本轮训练后分类器fcls的损失值以及回归器fcls的损失值;
重复上述过程,直至分类器fcls和回归器freg收敛,得到训练完成的视觉特征过滤层;
在视觉过滤层,本实施例使用一层线性变化来降低其维度,并使用一个线性回归器和线性分类器来约束降维后的特征,确保在降维的过程中辨识性和语义信息不会丢失。
S3.1.2、训练跨模态嵌入层;
在视觉特征过滤中我们使用回归器来保留隐含在其中的语义信息,但是视觉特征和语义特征本质上来自于两个不同的模态,换言之视觉特征本身并不蕴含丰富的语义信息。所以我们专利引入了跨模态嵌入层,让更多的语义信息能够在嵌入过程融合至视觉特征之中。
通过这三个损失函数来计算跨模态嵌入层的总损失L总;
其中,β权重系数;
重复上述过程,直至达到设定的迭代轮次,得到训练完成的跨模态嵌入层;
在本实施例中,我们对于视觉特征的输入和语义特征的输入采用公共的全连接层来完成跨模态变化,这样保证了在跨模态过程中在保证视觉特征得到保留的基础上语义信息最大程度地得到增强。;
S3.2、训练基于跨模态语义增强的生成对抗网络;
通过之前的两阶段训练,我们得到了跨模态语义增强层。本发明将跨模态语义增强层作为一层弱约束施加在生成对抗网络之上。具体来说,对于真实特征,我们使用特征过滤层和跨模态嵌入层得到经过语义增强的跨模态特征。生成器则是生成同过滤视觉特征维度一致的特征,并经过跨模态嵌入层得到最终的生成跨模态特征。我们将在跨模态嵌入层训练过程中得到的分类器和回归器作为对生成器的弱约束。所谓弱约束,即我们不期望直接让生成对抗网络生成富含辨识和语义信息的跨模态特征,这样过强的约束会让生成网络崩溃,而是将生成网络和跨模态嵌入层分离,生成网络生成低维视觉特征,由跨模态嵌入层完成语义增强;
将训练完成的跨模态语义增强模块嵌入到传统生成对抗网络,然后输入批量的语义特征yi和随机高斯噪声,通过生成器G生成假的视觉特征集;
将假的视觉特征集与真的视觉特征集输入至跨模态语义增强层进行语义增强,从而输出跨模态的真假视觉特征集;
重复上述过程,直至三部分的总损失值收敛,得到训练完成的跨模态语义增强的生成对抗网络;
在本阶段的训练过程中,我们将跨模态语义增强模块作为一层弱约束实施于生成对抗网络,即不让生成器直接生成跨模态特征,而是通过对生成的视觉特征做跨模态语义增强。通过这样的方式我们即能增强的特征的语义信息,也能减少对生成对抗网络的稳定性的影响。
S4、训练基于零样本分类的跨模态特征分类器;
将不可见类别的语义特征输入训练完成的跨模态语义增强的生成对抗网络,通过生成器得视觉特征,再经过跨模态语义增强层进行语义增强,得到跨模态特征,然后将跨模态特征填充至可见样本的跨模态特征集中,最后利用填充后的跨模态特征集训练得到用于零样本分类的跨模态特征分类器;
S5、视觉分类提取待检测图像的视觉特征,经过跨模态语义增强并输入至训练完成的跨模态特征分类器,从而输出该视觉特征的类别。
通过这样的方式,我们能够尽量在不伤害生成网络稳定性的基础上生成富有辨识信息和视觉信息的跨模态特征。此外,测试的视觉特征也通过跨模态语义增强层变为跨模态特征,由此最终的训练特征和视觉特征皆为得到语义增强的跨模态特征,能够让分类器更轻松做出预测,更好地解决了偏置问题。
本实施例在三个基准数据集AwA2,CUB,SUN上测试了性能,T1表示top-1的准确率,用来测试在传统零样本的任务下的性能,对于广义零样本任务,S和U分别表示可见类别和不可见类别的top-1准确率,H则表示S和H的调和平均数,用来衡量广义零样本任务的性能。如表1所示,采用不同算法进来测试在传统零样本的任务下的性能,f-CLSWGAN(基于特征生成网络的零样本学习)最先将生成对抗网络引入零样本学习的领域,SE-GZSL(基于样本合成的零样本学习)采用变分自编码器来完成生成,LisGAN(基于零样本生成不变性的方法)和SABR(基于语义对齐偏差的零样本学习)都采用生成对抗网络,并对生成对抗网络增加了新的约束来使其生成质量更好的样本或者特征,CADA-VAE(基于对齐变分自动编码器的广义零和小样本学习)通过两层的变分自编码器来让视觉特征和语义特征得到对齐,f-VAEGAN(零样本学习的特征生成框架)结合了变分自编码器和生成对抗网络来训练一个质量更高的特征生成器;
从结果可以看出,本专利在三个数据集上的传统零样本学习和广义零样本学习的性能指标上,有两个超越了现阶段的其他算法。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种跨模态语义增强生成对抗网络的零样本视觉分类方法,其特征在于,包括以下步骤:
(1)、下载样本图像并预处理;
下载N张样本图像及每张样本图像对应的标签ci和语义特征yi,通过残差神经网络提取每张样本图像的视觉特征xi,i=1,2,…,N;
将所有的标签ci组成标签集C,所有的视觉特征xi组成视觉特征集X,以及所有的语义特征yi组成语义特征集Y;
(2)、构建跨模态语义增强的生成对抗网络;
在传统的生成对抗网络中增加包含视觉特征过滤层和跨模态嵌入层的跨模态语义增强层;分别在生成对抗网络的生成器生成假的视觉特征和输入的真实的视觉特征之后部署跨模态语义增强层,然后对真假两种视觉特征进行语义增强处理,再让辨别器去辨别输出的真伪;
(3)、训练练跨模态语义增强的生成对抗网络;
(3.1)、训练跨模态语义增强层;
在视觉特征集X中选取p个视觉特征xi,再与这p个视觉特征xi对应的语义特征yi一起输入至跨模态语义增强模块,i=1,2,…,p;
(3.1.1)、训练视觉特征过滤层;
在视觉特征过滤层中,通过全连接网络对视觉特征xi进行降维处理,视觉特征xi的维度减少一半,降维后的视觉特征记为然后将视觉特征分别输入至分类器fcls和回归器freg,其中,分类器fcls和回归器fcls均使用一层全连接的结构;
计算本轮训练后分类器fcls的损失值以及回归器fcls的损失值;
重复上述过程,直至分类器fcls和回归器freg收敛,得到训练完成的视觉特征过滤层;
(3.1.2)、训练跨模态嵌入层;
通过这三个损失函数来计算跨模态嵌入层的总损失L总;
其中,β权重系数;
重复上述过程,直至总损失L总,得到训练完成的跨模态嵌入层;
(3.2)、训练基于跨模态语义增强的生成对抗网络;
将训练完成的跨模态语义增强模块嵌入到传统生成对抗网络,然后输入批量的语义特征yi和随机高斯噪声,通过生成器G生成假的视觉特征集;
将假的视觉特征集与真的视觉特征集输入至跨模态语义增强层进行语义增强,从而输出跨模态的真假视觉特征集;
重复上述过程,直至三部分的总损失值收敛,得到训练完成的跨模态语义增强的生成对抗网络;
(4)、训练基于零样本分类的跨模态特征分类器;
将不可见类别的语义特征输入训练完成的跨模态语义增强的生成对抗网络,通过生成器得视觉特征,再经过跨模态语义增强层进行语义增强,得到跨模态特征,然后将跨模态特征填充至可见样本的跨模态特征集中,最后利用填充后的跨模态特征集训练得到用于零样本分类的跨模态特征分类器;
(5)、视觉分类提取待检测图像的视觉特征,经过跨模态语义增强并输入至训练完成的跨模态特征分类器,从而输出该视觉特征的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752275.0A CN113537322B (zh) | 2021-07-02 | 2021-07-02 | 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752275.0A CN113537322B (zh) | 2021-07-02 | 2021-07-02 | 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537322A true CN113537322A (zh) | 2021-10-22 |
CN113537322B CN113537322B (zh) | 2023-04-18 |
Family
ID=78126640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110752275.0A Active CN113537322B (zh) | 2021-07-02 | 2021-07-02 | 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537322B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114791958A (zh) * | 2022-04-28 | 2022-07-26 | 电子科技大学 | 一种基于变分自编码器的零样本跨模态检索方法 |
CN114792398A (zh) * | 2022-06-23 | 2022-07-26 | 阿里巴巴(中国)有限公司 | 图像分类的方法和目标数据分类模型的构建方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019046463A1 (en) * | 2017-08-29 | 2019-03-07 | Zhoa Tiancheng | SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE |
CN110598759A (zh) * | 2019-08-23 | 2019-12-20 | 天津大学 | 一种基于多模态融合的生成对抗网络的零样本分类方法 |
US20200097771A1 (en) * | 2018-09-25 | 2020-03-26 | Nec Laboratories America, Inc. | Deep group disentangled embedding and network weight generation for visual inspection |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
US20200302231A1 (en) * | 2019-03-22 | 2020-09-24 | Royal Bank Of Canada | System and method for generation of unseen composite data objects |
CN111738313A (zh) * | 2020-06-08 | 2020-10-02 | 大连理工大学 | 一种基于多重网络合作的零样本学习算法 |
CN111966883A (zh) * | 2020-08-13 | 2020-11-20 | 成都考拉悠然科技有限公司 | 结合自动编码器和生成对抗网络的零样本跨模态检索方法 |
CN112364894A (zh) * | 2020-10-23 | 2021-02-12 | 天津大学 | 一种基于元学习的对抗网络的零样本图像分类方法 |
CN112380374A (zh) * | 2020-10-23 | 2021-02-19 | 华南理工大学 | 一种基于语义扩充的零样本图像分类方法 |
CN112766386A (zh) * | 2021-01-25 | 2021-05-07 | 大连理工大学 | 一种基于多输入多输出融合网络的广义零样本学习方法 |
-
2021
- 2021-07-02 CN CN202110752275.0A patent/CN113537322B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019046463A1 (en) * | 2017-08-29 | 2019-03-07 | Zhoa Tiancheng | SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE |
US20200097771A1 (en) * | 2018-09-25 | 2020-03-26 | Nec Laboratories America, Inc. | Deep group disentangled embedding and network weight generation for visual inspection |
US20200302231A1 (en) * | 2019-03-22 | 2020-09-24 | Royal Bank Of Canada | System and method for generation of unseen composite data objects |
CN110598759A (zh) * | 2019-08-23 | 2019-12-20 | 天津大学 | 一种基于多模态融合的生成对抗网络的零样本分类方法 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN111738313A (zh) * | 2020-06-08 | 2020-10-02 | 大连理工大学 | 一种基于多重网络合作的零样本学习算法 |
CN111966883A (zh) * | 2020-08-13 | 2020-11-20 | 成都考拉悠然科技有限公司 | 结合自动编码器和生成对抗网络的零样本跨模态检索方法 |
CN112364894A (zh) * | 2020-10-23 | 2021-02-12 | 天津大学 | 一种基于元学习的对抗网络的零样本图像分类方法 |
CN112380374A (zh) * | 2020-10-23 | 2021-02-19 | 华南理工大学 | 一种基于语义扩充的零样本图像分类方法 |
CN112766386A (zh) * | 2021-01-25 | 2021-05-07 | 大连理工大学 | 一种基于多输入多输出融合网络的广义零样本学习方法 |
Non-Patent Citations (5)
Title |
---|
FELIX R等: ""Multi-modal cycle-consistent generalized zero-shot learning"" * |
LIU S等: ""Hyperbolic visual embedding learning for zero-shot recognition"" * |
SONG X等: ""Generalized zero-shot learning with multi-source semanric embeddings for scene recognition"" * |
刘欢等: ""基于跨域对抗学习的零样本分类"" * |
张鲁宁等: ""零样本学习研究进展"" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114791958A (zh) * | 2022-04-28 | 2022-07-26 | 电子科技大学 | 一种基于变分自编码器的零样本跨模态检索方法 |
CN114791958B (zh) * | 2022-04-28 | 2023-04-07 | 电子科技大学 | 一种基于变分自编码器的零样本跨模态检索方法 |
CN114792398A (zh) * | 2022-06-23 | 2022-07-26 | 阿里巴巴(中国)有限公司 | 图像分类的方法和目标数据分类模型的构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113537322B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581405B (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
CN111476294B (zh) | 一种基于生成对抗网络的零样本图像识别方法及系统 | |
Huang et al. | Generative dual adversarial network for generalized zero-shot learning | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN109492662B (zh) | 一种基于对抗自编码器模型的零样本图像分类方法 | |
WO2020029356A1 (zh) | 一种基于生成对抗网络的脸部变化预测方法 | |
CN111428071B (zh) | 一种基于多模态特征合成的零样本跨模态检索方法 | |
CN113139591B (zh) | 一种基于增强多模态对齐的广义零样本图像分类方法 | |
CN111126069A (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
CN113537322B (zh) | 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN111968193A (zh) | 一种基于StackGAN网络的文本生成图像方法 | |
CN113642604A (zh) | 一种基于云边协同的音视频辅助触觉信号重建方法 | |
CN110534101A (zh) | 一种基于多模融合深度特征的移动设备源识别方法及系统 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN113837229B (zh) | 一种知识驱动型的文本到图像生成方法 | |
CN101958000A (zh) | 基于稀疏表示的人脸画像-照片生成方法 | |
CN113140020A (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN116304984A (zh) | 基于对比学习的多模态意图识别方法及系统 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN116246279A (zh) | 一种基于clip背景知识的图文特征融合方法 | |
CN117217807B (zh) | 一种基于多模态高维特征的不良资产估值方法 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |