CN113361646A - 基于语义信息保留的广义零样本图像识别方法及模型 - Google Patents

基于语义信息保留的广义零样本图像识别方法及模型 Download PDF

Info

Publication number
CN113361646A
CN113361646A CN202110754903.9A CN202110754903A CN113361646A CN 113361646 A CN113361646 A CN 113361646A CN 202110754903 A CN202110754903 A CN 202110754903A CN 113361646 A CN113361646 A CN 113361646A
Authority
CN
China
Prior art keywords
semantic
network
dual
pseudo
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110754903.9A
Other languages
English (en)
Inventor
倪健
谢海永
吴曼青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110754903.9A priority Critical patent/CN113361646A/zh
Publication of CN113361646A publication Critical patent/CN113361646A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于语义信息保留的广义零样本图像识别方法,包括:在广义零样本学习的统一框架中构建对偶对抗多视角语义一致网络,学习构建原始生成对抗网络和对偶生成对抗网络;训练所述对偶对抗多视角语义一致网络;利用训练好的所述对偶对抗多视角语义一致网络对来源于任意域的视觉图像进行识别,得到识别结果。本发明将广义零样本图像分类任务借助生成模型转化为监督学习问题,采用对偶对抗的架构,该架构以双向对齐方式有效地保留了语义一致性,并减轻了语义丢失的问题。

Description

基于语义信息保留的广义零样本图像识别方法及模型
技术领域
本发明涉及图像分类技术领域,尤其涉及一种基于语义信息保留的细粒度广义零样本图像识别方法及模型。
背景技术
近年来,深度学习技术在各种计算机视觉和机器学习任务中都取得了巨大进步。但是,传统的深度学习方法依赖大量的标记数据,并且面对训练数据有限的问题时会遭受性能下降的困扰。一方面,现实世界中的图像类别具有长尾分布,很多时候获取带标签的数据非常费力且昂贵。另一方面,自然界中会动态出现新的图像类别,这从根本上限制了在没有标签的情况下用于处理这种动态场景的监督学习模型的可伸缩性和适用性。
近几年来,零样本图像识别技术得到了广泛的研究和关注,其目的是在没有相应训练样本的情况下实现对未见过的图像类别进行正确分类。但是,常规的零样本图像识别模型通常在受限的条件下进行评估,其中测试样本和搜索空间仅限于未见类别,为解决传统零样本图像识别的缺点,广义零样本图像识别技术不仅学习可以迁移到未见类别的判别知识,而且可以很好的识别已见类的新数据。
典型的广义零样本图像识别方法将任务视为视觉语义嵌入问题。它们尝试学习从视觉空间到所有类别所驻留的语义空间或潜在中间空间的映射,以便将判别知识从可见类别转移到未见类别。但是,这些基于映射嵌入的广义零样本图像识别模型传递语义知识的能力受到语义损失和异质性差距的限制。同时,由于广义零样本识别模型仅使用来自可见类别的标记数据进行训练,因此高度偏向于预测可见类别。另一种流行策略是使用生成模型生成以语义特征向量为条件的各种视觉特征,从而避免了对未见类别的标记样本的需求,并提高了广义零样本分类的准确性。但是,这些方法的性能受到限制,它们要么仅通过从类别语义到视觉特征的单向对齐来捕获视觉分布信息,要么仅采用一个简单的欧几里得距离作为度量约束来保留生成的高维度视觉特征与真实语义信息之间的一致性。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于语义信息保留的广义零样本图像识别方法,以期部分地解决上述技术问题中的至少之一。
为了实现上述目的,作为本发明的一方面,提供了一种基于语义信息保留的广义零样本图像识别方法,包括:
在广义零样本学习的统一框架中构建对偶对抗多视角语义一致网络,学习构建原始生成对抗网络和对偶生成对抗网络;
训练所述对偶对抗多视角语义一致网络;
利用训练好的所述对偶对抗多视角语义一致网络对来源于任意域的视觉图像进行识别,得到识别结果。
其中,所述对偶对抗多视角语义一致性网络包括以下两部分:
原始生成对抗网络分别以真实语义特征信息和重建后的伪语义特征信息为输入,生成伪视觉特征;
对偶生成对抗网络以原始生成对抗网络生成的伪视觉特征为输入重建对应的语义信息特征。
其中,所述原始生成对抗网络包括生成器GSV和判别器DV,所述对偶生成对抗网络包括生成器GVS和判别器DS
其中,在训练所述对偶对抗多视角语义一致网络的过程中加入以下约束:
设计一个在真实视觉特征上训练好的分类器,最小化伪视觉特征上的分类损失,依次来优化原始生成对抗网络的生成器的生成视觉特征质量。
其中,在所述约束条件下,目标函数表达式为:
Figure BDA0003143060460000021
其中,E[.]表示期望值运算符,x′=GSV(a,z)是生成器GSV以类语义信息a和随机采样高斯噪音z为输入生成的伪视觉特征,y是x′的类标签,条件概率P(y|x′;θ)通过一个线性softmax分类器来计算,θ表示该线性softmax分类器的参数。
其中,在训练所述对偶对抗多视角语义一致网络的过程中加入以下约束:
语义一致限制,用于保留一定程度的语义信息,尽可能避免过程中的语义损失。
其中,在所述约束条件下,目标函数表达式为:
Figure BDA0003143060460000031
其中C是已知类的数量,ac是类别c的语义信息特征,
Figure BDA0003143060460000032
表示生成的类别c的语义信息特征的条件分布,ac′表示生成的类别c的伪语义信息特征,
Figure BDA0003143060460000033
表示生成的伪语义信息特征的中心。
其中,在训练所述对偶对抗多视角语义一致网络的过程中加入以下约束:
除了形式上的重建的伪语义信息特征应该与与真实语义信息保持一致性,进一步地,伪语义特征如何被很好地重建的问题可以更直观地转化为:原始生成对抗网络的生成器以重建的伪语义特征作为输入而生成的伪视觉特征质量的评估。
其中,在所述约束条件下,目标函数表达式为:
Figure BDA0003143060460000034
其中,E[.]表示期望值运算符,C是已知类的数量,xc表示类别c的真实视觉特征,xc″表示生成器GSV以重建的伪语义特征:GVS(GSV(ac,z))作为输入而生成的伪视觉特征,
Figure BDA0003143060460000035
表示真实视觉特征的条件分布,
Figure BDA0003143060460000036
表示伪视觉特征的条件分布;正则化每个已见类的重建伪视觉特征的均值靠近真实视觉特征分布的均值。
作为本发明的另一方面,提供了一种基于语义信息保留的广义零样本图像识别模型,包括:
构建网络模块,在广义零样本学习的统一框架中构建对偶对抗多视角语义一致网络,学习构建原始生成对抗网络和对偶生成对抗网络;
训练模块,用于训练所述对偶对抗多视角语义一致网络;
测试模块,利用训练好的所述对偶对抗多视角语义一致网络对来源于任意域的视觉图像进行识别,得到识别结果。
基于上述技术方案可知,本发明的基于语义信息保留的广义零样本图像识别方法相对于现有技术至少具有如下有益效果之一或其中的一部分:
1)将广义零样本图像分类任务借助生成模型转化为监督学习问题,采用对偶对抗的架构,该架构以双向对齐方式有效地保留了语义一致性,并减轻了语义丢失的问题。
2)通过结合分类损失约束和多视角语义一致性对抗损失约束,本发明的模型生成具有类间可辨别性和高度语义区分性质的高质量视觉特征,这对于广义零样本图像分类任务中使用的生成方法至关重要。
3)通过保留语义一致性,减少语义损失,本发明提出的对偶对抗多视角语义一致网络高效解决了广义零样本图像分类中的域偏移和语义损失问题,在四个细粒度图像数据集上都达到了最好的结果。
附图说明
图1为本发明实施例提供的广义零样本图像分类示意图;
图2为本发明实施例提供的对偶对抗多视角语义一致分类网络的框架图。
具体实施方式
本发明的目的是借助提供的语义信息生成高质量的具有辨别性的视觉特征,将复杂困难的广义零样本问题转化成传统的监督学习问题。我们基于生成对抗网络(GAN),利用对偶结构提出对偶对抗多视角语义一致保留网络,分别用于生成高质量视觉特征并进行相应的语义特征重构。
本发明实施例提供一种细粒度图像广义零样本识别方法,包括:
构建对偶对抗多视角语义一致网络,利用获取的源域数据集中的视觉图像特征与对应的语义属性特征,以及目标域数据集中包含的语义属性特征来训练所述的对偶对抗语义一致网络,使其能将视觉图像表示与其对应的语义表达特征做正确的配对;
源域数据集包括:一系列视觉图像特征、以及对应的语义属性特征与类别标签,其中视觉图像的类别标签为视觉图像在现实世界的类别,语义属性特征为一组向量,其编码的内容为图像的属性描述(比如物体的条纹,尺寸,色彩等)。
在测试阶段,利用训练好的对偶对抗多视角语义一致网络对来源于任意域的视觉图像特征进行识别,得到识别结果(也即对应的类别标签)。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
一、原理介绍
本发明实施例中,基于对偶对抗多视角语义一致的广义零样本图像分类技术,来充分地挖掘两个域的语义信息的同时生成高质量的辨别性视觉表达。如图1所示,传统的零样本分类测试,测试数据的标签类别只包含网络模型训练阶段未参与训练的未见类别数据,做了刻意的选择分离。而广义零样本图像分类测试类别同时包含已见类别和未见类别,在现实应用中,图像分类系统无法提前获知新图像是否属于已见或未见类。因此,从实践的角度来看,广义零样本图像识别更具普遍性和挑战性。
对偶对抗多视角语义一致网络的两个主要组成部分:原始生成对抗网络(PrimalGAN)和对偶生成对抗网络(Dual GAN)。
如图2所示,首先,该网络通过分类损失函数约束来生成具有类间辨别性的视觉特征,从而确保生成的视觉特征在不同类别之间具有足够的辨别力。其次,该网络鼓励生成具有语义信息一致性保留的视觉特征,并且从形式和内容两个角度来约束生成的视觉特征。从形式的角度来看,对偶GAN将原始GAN生成的伪视觉特征作为输入,重建语义信息特征,再借助语义一致损失函数来约束重构的语义信息与真实语义信息误差最小化,以确保重构的语义信息紧紧围绕真实的对应类语义信息。从内容的角度来看,原始GAN进一步将重建的语义信息特征作为输入来生成伪视觉特征,借助视觉一致损失函数来约束生成的伪视觉特征在数据分布中尽可能接近其各自的真实视觉特征分布。因此,该方法确保了所重建的语义特征与相关的真实语义知识相一致,并且在很大程度上避免了语义损失。这种双向合成过程通过保留视觉语义一致性来共同促进,从而捕获了视觉表示和语义表示的基础数据结构,并增强了向未见类别的知识转移,极大减轻了广义零样本图像识别固有的语义损失问题。
二、具体实现过程
所构建的对偶对抗多视角语义一致网络如图2所示。生成器GSV、判别器DV构成原始生成对抗网络;生成器GVS、判别器DS构成对偶生成网络。
为了使以上目标达到,本发明实施例中加入如下三项约束来使训练更成功:
1)为了确保GSV生成具有类间辨别性的伪视觉特征,设计一个在真实视觉特征上训练好的分类器,最小化伪视觉特征上的分类损失,依次来优化GSV的生成视觉特征质量。目标函数表达式为:
Figure BDA0003143060460000061
其中,x′=GSV(a,z)是生成器GSV以类语义信息a和随机采样高斯噪音z为输入生成的伪视觉特征,y是x′的类标签,条件概率P(y|x′;θ)通过一个线性softmax分类器来计算,θ表示该线性softmax分类器的参数。
2)除了要求生成的视觉特征具有高度的类间辨别性,还需要其保留一定程度的语义信息,尽可能避免过程中的语义损失。因此提出了语义一致限制。目标函数表达式为:
Figure BDA0003143060460000062
其中C是已知类的数量,ac是类别c的语义信息特征,
Figure BDA0003143060460000063
表示生成的类别c的语义信息特征的条件分布,ac′表示生成的类别c的伪语义信息特征,
Figure BDA0003143060460000064
表示生成的伪语义信息特征的中心,定义为:
Figure BDA0003143060460000065
其中
Figure BDA0003143060460000071
表示针对类别c生成的伪语义特征数量。利用语义一致损失函数来约束生成器GVS重建与真实语义信息特征统计上相匹配的伪语义信息特征。
3)除了形式上的重建的伪语义信息特征应该与与真实语义信息保持一致性,进一步地,伪语义特征如何被很好地重建的问题可以更直观地转化为:生成器GSV以重建的伪语义特征作为输入而生成的伪视觉特征质量的评估。通过观察发现视觉特征具有较高的类内相似度和相对较低的类间相似度,我们引入了视觉一致性约束,视觉一致性目标函数的表达式为:
Figure BDA0003143060460000072
xc表示类别c的真实视觉特征,xc″表示生成器GSV以重建的伪语义特征:GVS(GSV(ac,z))作为输入而生成的伪视觉特征,
Figure BDA0003143060460000073
表示真实视觉特征的条件分布,
Figure BDA0003143060460000074
表示伪视觉特征的条件分布。伪视觉特征xc″的中心被定义为:
Figure BDA0003143060460000075
此外,考虑到真实对象的自然多视角属性,例如通常从不同的视图捕获对象的真实图像,我们提出为每个类别学习多个灵魂样本。通过这样的方式,减轻多视图引起的领域偏移问题。首先,将类别c的真实样例聚类为k个簇,分别为
Figure BDA0003143060460000076
类别c的灵魂样例
Figure BDA0003143060460000077
被定义为:
Figure BDA0003143060460000078
同理,生成的伪视觉的灵魂样例
Figure BDA0003143060460000079
定义为:
Figure BDA00031430604600000710
在此基础上,我们鼓励生成的伪视觉特征的灵魂样例应该接近相同类别真实样例的至少一个灵魂样例,可以把上述视觉一致性目标函数的表达式改写为:
Figure BDA0003143060460000081
在k=1的情况下,多视角视觉一致性约束退化为普通的视觉一致性约束。
本发明实施例中,对偶对抗多视角语义一致性网络由两部分组成:1)原始GAN分别以真实语义特征信息和重建后的伪语义特征信息为输入,生成伪视觉特征;2)对偶GAN以原始GAN生成的伪视觉特征为输入重建对应的语义信息特征。结合以上目标函数,最终对偶对抗一致性网络训练阶段的目标函数表示如下。
原始GAN的判别器DV目标函数:
Figure BDA0003143060460000082
其中
Figure BDA0003143060460000083
α~U(0,1),λ1是惩罚项系数,该目标函数前两项近似伪视觉特征分布和真实视觉特征分布的Wasserstein距离,第三项是梯度惩罚项。
原始GAN的生成器GSV目标函数:
Figure BDA0003143060460000084
该函数前两项是Wasserstein损失,第三项是分类损失约束,第四项是上面引进的视觉一致限制约束,λ1,λ2,λ3表示不同约束项的权重。
对偶GAN的判别器DS目标函数:
Figure BDA0003143060460000085
对偶GAN的生成器GVS目标函数:
Figure BDA0003143060460000086
其中,
Figure BDA0003143060460000087
是真实语义特征a和伪语义特征a′的线性插值,λ456是各约束项的权重。
通过上述训练阶段可以对对偶对抗多视角语义一致网络中的参数进行更新,之后,可以直接进行输入视觉图像的分类。
测试阶段,借助训练好的生成模型,我们可以利用从随机高斯噪声中重采样的非结构化分量z和类别语义信息特征ac作为生成器GSV的输入,优雅地生成任意类别的视觉特征表示并且可以生成任意数量的视觉特征表示,并且最终将这些视觉特征用于训练任何现成的分类模型。为简单起见,我们采用softmax分类器。对来源于任意域的视觉图像v预测类别标签的预测表示为:
Figure BDA0003143060460000091
其中,
Figure BDA0003143060460000092
表示相对应的已见类的类别标签,
Figure BDA0003143060460000093
表示相对应的未见类的类别标签,θ′表示训练好的分类器参数。
为了说明本发明上述方法的效果,还在以下数据集上进行了验证:
1、Animals with Attribute 1(AWA1):该数据集包含来自50类的37322张图片,其中23527张图片用于训练,5882张图片作为验证集,和7913张图片用于测试。其中40类作为已见类别,剩下10类作为未见类别。
2、Caltech-UCSD birds(CUB-200):该数据集包含了来自200个鸟类别的11788张图片。整个数据集被划分为7057张训练图片,1764张验证图像和2967张测试图片。其中150类作为已见类别,剩下50类作为未见类别。
3、SUN:该数据集包含来自717类车的14340张图片,其中10320张图片用于训练,2580张图片作为验证集,和1440张图片用于测试。其中645类作为已见类别,剩下72类作为未见类别。
4、Attribute Pascal and Yahoo(aPY):该数据集包含来自32类的15339张图片,其中5932张图片用于训练,1483张图片作为验证集,和7924张图片用于测试。其中20类作为已见类别,剩下12类作为未知类别。
经过训练,上述方法在四个广泛使用的细粒度基准数据集中都取得了当前最好的结果。上述方法在AWA1,CUB,SUN和aPY上针对已见类别和未见类别的识别准确率调和平均数分别取得了63.4%,51.6%,40.3%,和47.6%的最高值,比目前最好的方法平均高了3%。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于语义信息保留的广义零样本图像识别方法,包括:
在广义零样本学习的统一框架中构建对偶对抗多视角语义一致网络,学习构建原始生成对抗网络和对偶生成对抗网络;
训练所述对偶对抗多视角语义一致网络;
利用训练好的所述对偶对抗多视角语义一致网络对来源于任意域的视觉图像进行识别,得到识别结果。
2.根据权利要求1所述的广义零样本图像识别方法,所述对偶对抗多视角语义一致性网络包括以下两部分:
原始生成对抗网络分别以真实语义特征信息和重建后的伪语义特征信息为输入,生成伪视觉特征;
对偶生成对抗网络以原始生成对抗网络生成的伪视觉特征为输入重建对应的语义信息特征。
3.根据权利要求1所述的广义零样本图像识别方法,所述原始生成对抗网络包括生成器GSV和判别器DV,所述对偶生成对抗网络包括生成器GVS和判别器DS
4.根据权利要求1所述的广义零样本图像识别方法,在训练所述对偶对抗多视角语义一致网络的过程中加入以下约束:
设计一个在真实视觉特征上训练好的分类器,最小化伪视觉特征上的分类损失,依次来优化原始生成对抗网络的生成器的生成视觉特征质量。
5.根据权利要求4所述的广义零样本图像识别方法,在所述约束条件下,目标函数表达式为:
Figure FDA0003143060450000011
其中,E[.]表示期望值运算符,x′=GSV(a,z)是生成器GSV以类语义信息a和随机采样高斯噪音z为输入生成的伪视觉特征,y是x′的类标签,条件概率P(y|x′;θ)通过一个线性softmax分类器来计算,θ表示该线性softmax分类器的参数。
6.根据权利要求1所述的广义零样本图像识别方法,在训练所述对偶对抗多视角语义一致网络的过程中加入以下约束:
语义一致限制,用于保留一定程度的语义信息,尽可能避免过程中的语义损失。
7.根据权利要求6所述的广义零样本图像识别方法,在所述约束条件下,目标函数表达式为:
Figure FDA0003143060450000021
其中C是已知类的数量,ac是类别c的语义信息特征,
Figure FDA0003143060450000022
表示生成的类别c的语义信息特征的条件分布,ac′表示生成的类别c的伪语义信息特征,
Figure FDA0003143060450000023
表示生成的伪语义信息特征的中心。
8.根据权利要求1所述的广义零样本图像识别方法,在训练所述对偶对抗多视角语义一致网络的过程中加入以下约束:
除了形式上的重建的伪语义信息特征应该与与真实语义信息保持一致性,进一步地,伪语义特征如何被很好地重建的问题可以更直观地转化为:原始生成对抗网络的生成器以重建的伪语义特征作为输入而生成的伪视觉特征质量的评估。
9.根据权利要求8所述的广义零样本图像识别方法,在所述约束条件下,目标函数表达式为:
Figure FDA0003143060450000024
其中,E[.]表示期望值运算符,C是已知类的数量,xc表示类别c的真实视觉特征,xc″表示生成器GSV以重建的伪语义特征:GVS(GSV(ac,z))作为输入而生成的伪视觉特征,
Figure FDA0003143060450000025
表示真实视觉特征的条件分布,
Figure FDA0003143060450000026
表示伪视觉特征的条件分布;正则化每个已见类的重建伪视觉特征的均值靠近真实视觉特征分布的均值。
10.一种基于语义信息保留的广义零样本图像识别模型,包括:
构建网络模块,在广义零样本学习的统一框架中构建对偶对抗多视角语义一致网络,学习构建原始生成对抗网络和对偶生成对抗网络;
训练模块,用于训练所述对偶对抗多视角语义一致网络;
测试模块,利用训练好的所述对偶对抗多视角语义一致网络对来源于任意域的视觉图像进行识别,得到识别结果。
CN202110754903.9A 2021-07-01 2021-07-01 基于语义信息保留的广义零样本图像识别方法及模型 Pending CN113361646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110754903.9A CN113361646A (zh) 2021-07-01 2021-07-01 基于语义信息保留的广义零样本图像识别方法及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110754903.9A CN113361646A (zh) 2021-07-01 2021-07-01 基于语义信息保留的广义零样本图像识别方法及模型

Publications (1)

Publication Number Publication Date
CN113361646A true CN113361646A (zh) 2021-09-07

Family

ID=77538205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110754903.9A Pending CN113361646A (zh) 2021-07-01 2021-07-01 基于语义信息保留的广义零样本图像识别方法及模型

Country Status (1)

Country Link
CN (1) CN113361646A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN116821408A (zh) * 2023-08-29 2023-09-29 南京航空航天大学 一种多任务一致性对抗的检索方法及系统
CN117333778A (zh) * 2023-12-01 2024-01-02 华南理工大学 用于植物科普教育的基于知识图谱的零样本植物识别方法
CN117541882A (zh) * 2024-01-05 2024-02-09 南京信息工程大学 一种基于实例的多视角视觉融合转导式零样本分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476294A (zh) * 2020-04-07 2020-07-31 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及系统
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476294A (zh) * 2020-04-07 2020-07-31 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及系统
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN NI 等,: "Dual adversarial semantics-consistent network for generalized zero -shot learning", 《ARXIV》 *
JINGJING LI 等,: "Leveraging the Invariant Side of Generative Zero-Shot Learning", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN115424096B (zh) * 2022-11-08 2023-01-31 南京信息工程大学 一种多视角零样本图像识别方法
CN116821408A (zh) * 2023-08-29 2023-09-29 南京航空航天大学 一种多任务一致性对抗的检索方法及系统
CN116821408B (zh) * 2023-08-29 2023-12-01 南京航空航天大学 一种多任务一致性对抗的检索方法及系统
CN117333778A (zh) * 2023-12-01 2024-01-02 华南理工大学 用于植物科普教育的基于知识图谱的零样本植物识别方法
CN117333778B (zh) * 2023-12-01 2024-03-12 华南理工大学 用于植物科普教育的基于知识图谱的零样本植物识别方法
CN117541882A (zh) * 2024-01-05 2024-02-09 南京信息工程大学 一种基于实例的多视角视觉融合转导式零样本分类方法
CN117541882B (zh) * 2024-01-05 2024-04-19 南京信息工程大学 一种基于实例的多视角视觉融合转导式零样本分类方法

Similar Documents

Publication Publication Date Title
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN113361646A (zh) 基于语义信息保留的广义零样本图像识别方法及模型
CN109886970B (zh) 太赫兹图像中目标物体的检测分割方法及计算机存储介质
Liu et al. A 3 GAN: an attribute-aware attentive generative adversarial network for face aging
CN113361489B (zh) 基于解耦表示的人脸正面化模型构建方法和训练方法
CN111242948A (zh) 图像处理、模型训练方法、装置、设备和存储介质
Fu et al. A multi-task learning model with adversarial data augmentation for classification of fine-grained images
CN114821196A (zh) 零样本图像识别方法及其识别装置、介质与计算机终端
Li et al. Image manipulation localization using attentional cross-domain CNN features
Krishnan et al. SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference
CN114298997B (zh) 一种伪造图片检测方法、装置及存储介质
Qin et al. SHREC’22 track: Sketch-based 3D shape retrieval in the wild
Baraheem et al. Image synthesis: a review of methods, datasets, evaluation metrics, and future outlook
Abdelaziz et al. Few-shot learning with saliency maps as additional visual information
CN116975347A (zh) 图像生成模型训练方法及相关装置
Fu et al. Multi‐style Chinese art painting generation of flowers
Wang et al. Interpolation normalization for contrast domain generalization
Annadani et al. Augment and adapt: A simple approach to image tampering detection
Mao et al. Enhancing style-guided image-to-image translation via self-supervised metric learning
Abdulwahab et al. Promising depth map prediction method from a single image based on conditional generative adversarial network
Qu et al. LDS2AE: Local Diffusion Shared-Specific Autoencoder for Multimodal Remote Sensing Image Classification with Arbitrary Missing Modalities
Saaim et al. Generative Models for Data Synthesis
CN114359526B (zh) 基于语义gan的跨域图像风格迁移方法
Ouyang Image Synthesis with Generative Adversarial Networks
Zhang Uncertainty-aware Salient Object Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210907