CN111460201B - 一种基于生成性对抗网络的模态一致性跨模态检索方法 - Google Patents

一种基于生成性对抗网络的模态一致性跨模态检索方法 Download PDF

Info

Publication number
CN111460201B
CN111460201B CN202010143786.8A CN202010143786A CN111460201B CN 111460201 B CN111460201 B CN 111460201B CN 202010143786 A CN202010143786 A CN 202010143786A CN 111460201 B CN111460201 B CN 111460201B
Authority
CN
China
Prior art keywords
modal
network
hash
image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010143786.8A
Other languages
English (en)
Other versions
CN111460201A (zh
Inventor
吴智勇
吴飞
王彩玲
董西伟
罗晓开
荆晓远
季一木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010143786.8A priority Critical patent/CN111460201B/zh
Publication of CN111460201A publication Critical patent/CN111460201A/zh
Application granted granted Critical
Publication of CN111460201B publication Critical patent/CN111460201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于生成性对抗网络的模态一致性跨模态检索方法,包括以下步骤:首先利用生成性对抗网络强大的数据分布建模能力,将文本特征映射到图像特征空间,用这种方法将跨模态检索问题转换为单模态检索问题,尽可能多地保留图像语义信息的同时减小模态的异质性。其次,设计了一个模态一致性哈希网络,将真实的图像特征和通过生成性对抗网络生成的特征投影到汉明空间中,并且利用标签信息对模态间和模态内的相似性进行建模,使得输出的哈希码在模态间和模态内具有更好的语义区分性,获得更具判别性的哈希码。最后在两个常用的基准数据集上的实验结果表明本方法与现有的流行方法相比具有更好的跨模态检索性能。

Description

一种基于生成性对抗网络的模态一致性跨模态检索方法
技术领域
本发明涉及一种模态检索方法,尤其涉及一种基于生成性对抗网络的模态一致性跨模态检索方法。
背景技术
在当今互联网科技浪潮的冲击下,网络在信息传播中扮演着越来越重要的角色,成为人们获取信息的重要方式。总体上看,当前网络上的多模态数据的特点可以概括为数据量大、数据蕴含模态多样,不同模态间存在较强语义相关性。这些不同模态的数据既包含大量的公共信息又含有各自独有的信息,同时不同模态信息间在某个语义层次上存在较强的关联。传统的数据挖掘研究经过长期的发展已经取得了丰硕的成果,但是在多模态数据不断增长的大数据时代,伴随着用户对于面向多模态数据的挖掘工具的需求与日俱增,传统的、面向单模态任务的数据挖掘模型已经不能充分满足这种需求。传统的数据挖掘任务一般假定全部数据均属于同一个模态,例如在图片检索或分类任务中,传统的分类器一般只利用图片本身的信息,而用于文本检索和分类任务的模型一般只利用来自文本的信息,这些模型都没有考虑到利用不同模态信息间的关联关系来辅助模型的训练。如果使用这些建立在单模态数据基础上的数据挖掘模型来处理多模态数据,将不利于充分利用不同模态数据所具有关联关系,容易造成信息浪费。
发明内容
发明目的:针对以上问题,本发明提出一种用于语义区分的模态一致性哈希网络,并利用该网络进行跨模态检索。
技术方案:为实现本发明的目的,本发明所述的基于生成性对抗网络的模态一致性跨模态检索方法,该方法包括步骤:
(1)获取训练数据集,其中每个样本包括文本和图像;
(2)对训练数据集里图像和文本分别进行特征提取;
(3)基于生成性对抗网络,将文本特征映射到图像特征空间;
(4)通过模态一致性哈希网络生成对应模态样本的哈希码;
(5)根据生成性对抗网络的损失函数及哈希码的分类损失函数训练网络;
(6)根据步骤(5)中训练完成的网络对模态样本进行检索。
进一步地,所述训练数据集包括Wikipedia数据集、NUS-WIDE数据集。
进一步地,所述步骤(2)包括:
(21)利用VGG-19网络提取第七部分FC-7层的图像特征;
(22)采用词袋模型提取文本特征。
进一步地,所述VGG-19网络最后3层全连接层,前两层设置dropout层,比例为0.5,激活函数为ReLU,第3层的激活函数为Softmax。
优选地,所述步骤(3)包括:
(31)基于生成性对抗网络将文本特征映射到图像特征空间,得到N对图像和文本特征实例的集合
Figure BDA0002400005240000021
分别得到图像特征数据集V=[v1,...,vN]和文本特征训练集T=[t1,...,tN];其中,每个实例on=(vn,tn)包含了一个图像特征向量
Figure BDA0002400005240000022
和一个文本特征向量
Figure BDA0002400005240000023
dv和dt分别表示两个模态的特征的维度;
(32)设置生成性对抗网络的生成器,所述生成器获取图像特征的分布,将文本特征作为输入获得生成的图像特征,包含3层全连接层,每一层的神经元数量分别为2000、3000、4096,激活函数为Tanh;
(33)设置生成性对抗网络的判别器,所述判别器用于区分真实图像特征和生成的图像特征,包含2层全连接层,每一层的神经元数量分别为1000、2,激活函数为ReLU;
(34)生成器通过对抗性的训练策略生成逼近真实图像特征的生成特征
Figure BDA0002400005240000024
生成器的损失函数定义为:
Figure BDA0002400005240000025
其中,G()为生成器,T为文本,θ和ω分别表示为生成器和判别器的参数,pT为文本特征的分布,
Figure BDA0002400005240000026
为数学期望;
(35)定义判别器的损失函数:
Figure BDA0002400005240000027
其中,
Figure BDA0002400005240000028
是真实图像特征V和生成图像特征
Figure BDA0002400005240000029
的线性插值;λ是执行Lipschitz约束的梯度惩罚的惩罚系数;
(36)通过最小化判别器输出概率D(V;ω)和D(V;ω)的分类误差区分输入特征是否为真实图像特征。
进一步地,所述步骤(4)包括:
(41)设置模态一致性哈希网络,包括两层的全连接层,神经元个数分别为1000,K,其中K为哈希码位数,第一层的激活函数为Tanh,第二层的激活函数为Tanh,后接一个sign函数生成哈希码;
(42)模态一致性哈希网络将成对的特征映射到汉明空间中,同时在模态间和模态内加入相似性保持策略,运用标签信息对相似性进行建模。
优选地,所述步骤(42)包括步骤:
(421)定义模态一致性哈希网络的输出为
Figure BDA0002400005240000031
Figure BDA0002400005240000032
φ为网络的参数,
Figure BDA0002400005240000033
(422)定义哈希码分类损失函数定义为:
Figure BDA0002400005240000034
Figure BDA0002400005240000035
Figure BDA0002400005240000036
其中,LCv为图像模态的哈希码分类损失,
Figure BDA0002400005240000037
为文本模态的哈希码分类损失,yn是每一个特征的真实标签,表现形式为0-1向量。
优选地,所述步骤(42)还包括步骤:
(423)定义用于计算相同类别哈希码的相似性的语义相关性损失函数:
Figure BDA0002400005240000038
其中,
Figure BDA0002400005240000039
为和图像哈希码同类别的生成哈希码,
Figure BDA00024000052400000310
为和图像哈希码异类的生成哈希码;
(424)获取模态一致性哈希网络的优化损失:
Lemb=LC+ζLm
其中,ζ为平衡参数。
进一步地,所述步骤(5)包括:
(51)对于判别器、生成器和模态一致性哈希网络的参数ω,θ和φ的优化问题分别如下:
Figure BDA00024000052400000311
Figure BDA00024000052400000312
Figure BDA00024000052400000313
其中,α和β为权衡参数;
(52)通过Pytorch的自动求导反向传播对步骤(51)中更新后的三个参数ω、θ和φ进行优化。
有益效果:本发明具有如下有益效果:
(1)设计了一种新型生成性对抗网络,以文本特征作为输入,生成接近图像特征分布的图像特征,将跨模态检索问题近似为单模态检索问题,在有效减小模态差异的同时保留图像模态的语义信息;
(2)设计了一个模态一致性哈希网络将生成的图像特征和真实的图像特征投影到一个公共汉明空间中,并利用标签信息对模态间和模态内哈希码的相似性进行建模,以此得到更具语义判别性的哈希码;在两个被广泛使用的数据集Wikipedia和NUS-WIDE上进行的实验表明本方法在能够有效提高检索性能。
附图说明
图1是本发明所述基于生成对抗性网络的模态一致性跨模态检索方法流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
如图1所示,本发明所述的基于生成性对抗网络的模态一致性跨模态检索方法,包括:
步骤(1):获取训练数据集,其中每个样本包括文本和图像。
在一个实施例中,采用两个广泛使用的基准多模态数据集Wikipedia和NUS-WIDE,其中每个样本包含成对的文本和图像。
步骤(2):对训练数据集里图像和文本分别进行特征提取。
在一个实施例中,对图像特征进行学习:
用VGG-19网络提取图像特征,包含了16个卷积层和3个全连接层,网络结构为:第一部分由两层的卷积层组成,结构为:64个大小为3*3的卷积核,步长是1,0边距(paddingsize),然后用ReLU激活函数。池化用传统的2*2大小的模板做max pooling。第二部分以第一部分的输出作为输入,由两层卷积层组成,每一层的结构为:用128个3*3大小的卷积核,步长是1,padding是0,同样用ReLU激活函数,2*2大小的max pooling。第三部分由四层卷积层组成,每一层的结构为256个3*3的卷积核,步长是1,padding是0,激活函数为ReLU,用2*2大小的maxpooling。第四部分和第五部分都由四层卷积层组成,每一层的结构为512个3*3的卷积核,步长是1,padding是0,激活函数为ReLU,maxpooling为2*2。第六部分和第七部分为全连接层,有4096个神经元,为了防止过拟合,我们设置dropout为0.5,激活函数用ReLU。然后得到与输入图像对应的尺寸为4096*1的特征。第八部分全连接层的神经元个数为1000,后接Softmax作为激活函数,我们用经过Imagenet数据集训练好的VGG-19网络模型,再用自己的数据集作微调,提取第七部分FC-7层的图像特征。
在一个实施例中,对文本特征进行学习:
由于文本特征通常比图像特征更有判断力,所以文本特征与语义之间的关系能够更容易地建立。我们采用Bag of Word词袋模型提取文本特征,根据给定的文本中,提取出关键词,统计每个关键词出现的次数,然后根据每个关键词在每个文档中出现的次数,将关键词表示成向量的形式。
步骤(3):基于生成性对抗网络,将文本特征映射到图像特征空间。
在一个实施例中,基于生成性对抗网络将文本特征映射到图像特征空间,得到N对图像和文本特征实例的集合
Figure BDA0002400005240000051
分别得到图像特征数据集V=[v1,...,vN]和文本特征训练集T=[t1,...,tN];其中,每个实例on=(vn,tn)包含了一个图像特征向量
Figure BDA0002400005240000052
和一个文本特征向量
Figure BDA0002400005240000053
dv和dt分别表示两个模态的特征的维度;于是分别得到图像特征数据集V=[v1,...,vN]和文本特征训练集T=[t1,...,tN]。yn=[yn1,...,ynC]T表示第n个实例on对应的类别标签向量,当on=(vn,tn)属于第c类时ync=1,不属于第c类则ync=0。生成性对抗网络由两个部分组成:生成器和判别器。
设置生成性对抗网络的生成器,所述生成器获取图像特征的分布,将文本特征作为输入获得生成的图像特征,包含3层全连接层。
除了最后一层的4096是固定的,因为要生成图像特征,所以要和图像特征维度一致,前面两层神经元的数量一般小于最后一层,并且大于文本特征维度。
在一个实施例中,文本特征维度为1000,而根据多次实验得出的结果比较,前两层的神经元分别设置成2000和3000效果较好,激活函数为Tanh。
设置生成性对抗网络的判别器,所述判别器用于区分真实图像特征和生成的图像特征,包含2层全连接层。
在一个实施例中,第一层的神经元数量为1000,用于对数据进行降维,以便输入后面的哈希网络,生成哈希码;第二层的神经元数量为2,可看作为一个二分类器,判断输入的特征是图像的真实特征还是生成器的生成特征。激活函数为ReLU。
生成器通过对抗性的训练策略生成逼近真实图像特征的生成特征
Figure BDA0002400005240000054
生成器的损失函数定义为:
Figure BDA0002400005240000055
其中,G()为生成器,T为文本,θ和ω分别表示为生成器和判别器的参数,pT为文本特征的分布,
Figure BDA0002400005240000056
为数学期望。
在生成性对抗网络中,判别器扮演着生成器的对抗者,通过最小化判别器输出概率D(V;ω)和D(V;ω)的分类误差区分输入特征是否为真实图像特征。判别器的输入可以是真实图像特征或生成的图像特征,为了解决训练不稳定和模式崩溃的问题,在计算损失的时候,采用真实图像特征和生成图像特征分布的Wasserstein距离作为判别器的损失。为了防止梯度在训练过程中消失,还增加了带梯度惩罚的可微Lipschitz约束。所以判别器的损失函数如下:
Figure BDA0002400005240000061
其中,
Figure BDA0002400005240000062
是真实图像特征V和生成图像特征
Figure BDA0002400005240000063
的线性插值;λ是执行Lipschitz约束的梯度惩罚的惩罚系数;上式中前两个项近似于真实图像特征V和生成图像特征
Figure BDA00024000052400000611
的分布的Wasserstein距离。
通过最小化判别器输出概率D(V;ω)和D(V;ω)的分类误差区分输入特征是否为真实图像特征。
步骤(4):通过模态一致性哈希网络生成对应模态样本的哈希码。
通过模态一致性哈希网络获得更具有语义判别性的哈希码,模态一致性哈希网络为两层的全连接层,神经元个数分别为1000,K,其中K为哈希码位数,第一层的激活函数为Tanh,第二层的激活函数为Tanh,后接一个sign函数生成哈希码;
模态一致性哈希网络将成对的特征映射到汉明空间中,同时在模态间和模态内加入相似性保持策略,运用标签信息对相似性进行建模,并且提升网络的泛化能力。
针对模态内的相似性建模,本方法定义了一个哈希码分类损失,保证同一模态具有相同语义的样本相互靠近,生成相似的哈希码,不同类别的样本相互远离,生成不相似的哈希码。定义模态一致性哈希网络的输出为
Figure BDA0002400005240000064
Figure BDA0002400005240000065
φ为网络的参数,
Figure BDA0002400005240000066
可以将哈希码分类损失函数定义为:
Figure BDA0002400005240000067
Figure BDA0002400005240000068
Figure BDA0002400005240000069
其中,LCv为图像模态的哈希码分类损失,
Figure BDA00024000052400000610
为文本模态的哈希码分类损失,yn是每一个特征的真实标签,表现形式为0-1向量。
再者,为了使得不同模态的哈希码能够根据其真实标签在汉明空间中有更好的聚类效果,模态一致性哈希网络还应该在模态间语义相似性上体现良好的建模能力。为了保证模态间同类样本具有相似的哈希码,异类样本具有不相同的哈希码,本文设计了语义相关性损失函数计算相同类别哈希码的相似性,损失函数如下:
Figure BDA0002400005240000071
其中,
Figure BDA0002400005240000072
为和图像哈希码同类别的生成哈希码,
Figure BDA0002400005240000073
为和图像哈希码异类的生成哈希码;
可以得到模态一致性哈希网络的优化损失,用于学习更具判别性的哈希码,如下所示:
Lemb=LC+ζLm
其中,ζ为平衡参数。
步骤(5):根据生成性对抗网络的损失函数及哈希码的分类损失函数训练网络。
对于判别器、生成器和模态一致性哈希网络的参数ω,θ和φ的优化问题分别如下:
Figure BDA0002400005240000074
Figure BDA0002400005240000075
Figure BDA0002400005240000076
其中,α和β为权衡参数;
整体网络的每一部分分别通过上述的优化目标进行参数更新,通过Pytorch的自动求导反向传播对三个参数ω、θ和φ进行有效地优化。
在一个实施例中,最小训练批次大小为128,四个权重参数λ,ζ,α和β通过实验分别设置为10,1,0.1,0.1。
步骤(6):根据步骤(5)中训练完成的网络对模态样本进行检索。
为验证本方法具有较好的优越性,下面将本发明提出的MCGAN方法与最近的几种最先进的跨模态检索方法进行了比较,包括三个传统方法:CVH,CMFH和SCM;一个深度学习方法:DCMH;一个生成性对抗网络方法:SCH-GAN。分别在Wikipedia和NUS-WIDE两个数据集上进行了实验,哈希码的位数依次设置为16,32,64。
实验结果:
表1统计了Wikipedia数据集上跨模态检索的mAP值。
表2统计了NUS-WIDE数据集上跨模态检索的mAP值。
表3统计了哈希码位数为16的情况下,完整的MCGAN,去掉LC的MCGAN和去掉Lm的MCGAN在两个数据集上的mAP值。
表1 Wikipedia数据集上的mAP值
Figure BDA0002400005240000081
表2 NUS-WIDE数据集上mAP值
Figure BDA0002400005240000082
表3完整的MCGAN,去掉LC的MCGAN和去掉Lm的MCGAN在两个数据集上的mAP值(K=16)
Figure BDA0002400005240000083
通过观察表1和表2可以发现,本发明所提出的一种基于生成性对抗网络的模态一致性跨模态检索方法与对比方法相比有较好的mAP值,证明本发明的方法优于所有的对比方法。结果还表明,通过生成对抗性网络将文本特征转化为图像特征,可以有效地保留语义信息,同时减小了不同模式之间的差距,从模态间和模态内鉴别中学到的更具判别性的哈希码有助于提高检索性能。通过观察表3可以发现本发明提出的哈希码分类损失函数和语义相关性损失函数有助于促进语义鉴别哈希学习,提高检索性能。

Claims (3)

1.一种基于生成性对抗网络的模态一致性跨模态检索方法,其特征在于,该方法包括步骤:
(1)获取训练数据集,其中每个样本包括文本和图像;
(2)对训练数据集里图像和文本分别进行特征提取;
(3)基于生成性对抗网络,将文本特征映射到图像特征空间;
(4)通过模态一致性哈希网络生成对应模态样本的哈希码;
(5)根据生成性对抗网络的损失函数及哈希码的分类损失函数训练网络;
(6)根据步骤(5)中训练完成的网络对模态样本进行检索,
所述步骤(2)特征提取包括:
(21)利用VGG-19网络提取第七部分FC-7层的图像特征,所述VGG-19最后3层全连接层,前两层设置dropout层,比例为0.5,激活函数为ReLU,第3层的激活函数为Softmax;
(22)采用词袋模型提取文本特征,
所述步骤(3)将文本特征映射到图像特征空间包括:
(31)基于生成性对抗网络将文本特征映射到图像特征空间,得到N对图像和文本特征实例的集合
Figure FDA0003756046790000011
分别得到图像特征数据集V=[v1,...,vN]和文本特征训练集T=[t1,...,tN];其中,每个实例on=(vn,tn)包含了一个图像特征向量
Figure FDA0003756046790000012
和一个文本特征向量
Figure FDA0003756046790000013
dv和dt分别表示两个模态的特征的维度;
(32)设置生成性对抗网络的生成器,所述生成器获取图像特征的分布,将文本特征作为输入获得生成的图像特征,包含3层全连接层,每一层的神经元数量分别为2000、3000、4096,激活函数为Tanh;
(33)设置生成性对抗网络的判别器,所述判别器用于区分真实图像特征和生成的图像特征,包含2层全连接层,每一层的神经元数量分别为1000、2,激活函数为ReLU;
(34)生成器通过对抗性的训练策略生成逼近真实图像特征的生成特征
Figure FDA0003756046790000014
生成器的损失函数定义为:
Figure FDA0003756046790000015
其中,G()为生成器,D()为判别器,θ和ω分别表示为生成器和判别器的参数,T为文本,pT为文本T的特征分布,
Figure FDA0003756046790000016
为数学期望;
(35)定义判别器的损失函数:
Figure FDA0003756046790000017
其中,
Figure FDA0003756046790000021
是真实图像特征V和生成图像特征
Figure FDA0003756046790000022
的线性插值;λ是执行Lipschitz约束的梯度惩罚的惩罚系数;
(36)通过最小化判别器输出概率D(V;ω)和D(V;ω)的分类误差区分输入特征是否为真实图像特征,
所述步骤(4)通过模态一致性哈希网络生成哈希码包括:
(41)设置模态一致性哈希网络,包括两层的全连接层,神经元个数分别为1000,K,其中K为哈希码位数,第一层的激活函数为Tanh,第二层的激活函数为Tanh,后接一个sign函数生成哈希码;
(42)模态一致性哈希网络将成对的特征映射到汉明空间中,同时在模态间和模态内加入相似性保持策略,运用标签信息对相似性进行建模,
所述步骤(42)运用标签信息对相似性进行建模包括如下步骤:
(421)定义模态一致性哈希网络的输出为
Figure FDA0003756046790000023
Figure FDA0003756046790000024
φ为网络的参数,
Figure FDA0003756046790000025
h()为哈希函数;
(422)定义哈希码分类损失函数为:
Figure FDA0003756046790000026
Figure FDA0003756046790000027
Figure FDA00037560467900000211
其中,LCv为图像模态的哈希码分类损失,
Figure FDA00037560467900000212
为文本模态的哈希码分类损失,yn是每一个特征的真实标签,表现形式为0-1向量,
(423)定义用于计算相同类别哈希码的相似性的语义相关性损失函数:
Figure FDA0003756046790000028
其中,
Figure FDA0003756046790000029
为和图像哈希码同类别的生成哈希码,
Figure FDA00037560467900000210
为和图像哈希码异类的生成哈希码;
(424)获取模态一致性哈希网络的优化损失:
Lemb=LC+ζLm
其中,ζ为平衡参数。
2.根据权利要求1所述的基于生成性对抗网络的模态一致性跨模态检索方法,其特征在于:所述训练数据集包括Wikipedia数据集、NUS-WIDE数据集。
3.根据权利要求1所述的基于生成性对抗网络的模态一致性跨模态检索方法,其特征在于,所述步骤(5)包括:
(51)对于判别器、生成器和模态一致性哈希网络的参数ω,θ和φ的优化问题分别如下:
Figure FDA0003756046790000031
Figure FDA0003756046790000032
Figure FDA0003756046790000033
其中,α和β为权衡参数;
(52)通过Pytorch的自动求导反向传播对步骤(51)中更新后的三个参数ω、θ和φ进行优化。
CN202010143786.8A 2020-03-04 2020-03-04 一种基于生成性对抗网络的模态一致性跨模态检索方法 Active CN111460201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010143786.8A CN111460201B (zh) 2020-03-04 2020-03-04 一种基于生成性对抗网络的模态一致性跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010143786.8A CN111460201B (zh) 2020-03-04 2020-03-04 一种基于生成性对抗网络的模态一致性跨模态检索方法

Publications (2)

Publication Number Publication Date
CN111460201A CN111460201A (zh) 2020-07-28
CN111460201B true CN111460201B (zh) 2022-09-23

Family

ID=71681809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010143786.8A Active CN111460201B (zh) 2020-03-04 2020-03-04 一种基于生成性对抗网络的模态一致性跨模态检索方法

Country Status (1)

Country Link
CN (1) CN111460201B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914950B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112214570A (zh) * 2020-09-23 2021-01-12 浙江工业大学 一种基于对抗投影学习哈希的跨模态检索方法及装置
CN112364195B (zh) * 2020-10-22 2022-09-30 天津大学 一种基于属性引导对抗哈希网络的零样本图像检索方法
CN112488131B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于自监督对抗的图片文本跨模态检索方法
CN112800292B (zh) * 2021-01-15 2022-10-11 南京邮电大学 一种基于模态特定和共享特征学习的跨模态检索方法
CN113010720B (zh) * 2021-02-24 2022-06-07 华侨大学 一种基于关键对象特征的深度监督跨模态检索方法
CN114138995B (zh) * 2021-12-08 2024-07-16 东北大学 基于对抗学习的小样本跨模态检索方法
CN115081627B (zh) * 2022-07-27 2022-11-25 中南大学 一种基于生成式网络的跨模态数据哈希检索攻击方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
modality consistent generative adversarial network for cross modal retrieval;Zhiyong Wu 等;《Springer Nature Switzerland AG 2019》;20191231;第1-11页 *

Also Published As

Publication number Publication date
CN111460201A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111460201B (zh) 一种基于生成性对抗网络的模态一致性跨模态检索方法
CN114911914B (zh) 一种跨模态图文检索方法
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
Li et al. Spectral hashing with semantically consistent graph for image indexing
Jing et al. Relevance feedback in region-based image retrieval
Jing et al. A unified framework for image retrieval using keyword and visual features
CN111324752B (zh) 基于图神经网络结构建模的图像与文本检索方法
CN106033426B (zh) 一种基于潜在语义最小哈希的图像检索方法
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
CN113139664A (zh) 一种跨模态的迁移学习方法
CN108595546A (zh) 基于半监督的跨媒体特征学习检索方法
CN114997288A (zh) 一种设计资源关联方法
CN113076758B (zh) 一种面向任务型对话的多域请求式意图识别方法
CN111104508B (zh) 基于容错粗糙集的词袋模型文本表示方法、系统及介质
CN105677830A (zh) 一种基于实体映射的异构媒体相似性计算方法及检索方法
Hamid et al. Supervised learning of salient 2D views of 3D models
CN111199154B (zh) 基于容错粗糙集的多义词词表示方法、系统及介质
Qi et al. A human motion feature based on semi-supervised learning of GMM
Fu et al. Supervised Hashing with Recurrent Scaling
Zhang et al. Semi-automatic image annotation using sparse coding
Bajrami et al. Content Based Image Retrieval: Contemporary Trends and Challenges
Derakhshan et al. A Review of Methods of Instance-based Automatic Image Annotation
CN118504672A (zh) 基于选择性对比学习的数据驱动零样本关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210046

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant