CN107832351A - 基于深度关联网络的跨模态检索方法 - Google Patents

基于深度关联网络的跨模态检索方法 Download PDF

Info

Publication number
CN107832351A
CN107832351A CN201710989497.8A CN201710989497A CN107832351A CN 107832351 A CN107832351 A CN 107832351A CN 201710989497 A CN201710989497 A CN 201710989497A CN 107832351 A CN107832351 A CN 107832351A
Authority
CN
China
Prior art keywords
mrow
msubsup
data
modality
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710989497.8A
Other languages
English (en)
Inventor
蔡国永
冯耀功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201710989497.8A priority Critical patent/CN107832351A/zh
Publication of CN107832351A publication Critical patent/CN107832351A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了基于深度关联网络的跨模态检索方法,包括如下步骤:1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;2)建立和训练深度关联网络模型,然后分别将检索目标和检索库成员通过深度关联网络模型获得相对应的高级表示向量;3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配,即进行欧式距离的计算;4)将欧氏距离的计算结果按从小到大的顺利排列,得到检索目标的跨模态检索的结果列表。本方法在不同模态的数据之间建立了多层次的对应关联关系,同时融合了多种神经网络,使得深度模型具有更好的表示效果,并且跨模态检索的精确度更高、稳定性更好。

Description

基于深度关联网络的跨模态检索方法
技术领域
本发明涉及多媒体数据检索的技术,特别是基于深度关联网络的跨模态检索方法。
背景技术
多媒体信息爆发式增长的时代,人们更倾向于多元化的检索结果,而不仅仅是单一模态的检索。例如,看到一张风景画,如果向检索系统提交这幅图片,检索系统不仅检索出类似的风景画,还能同时检索出与这幅图片有关的音频或文字等信息,这会使得检索效果会更有影响力。这种使用某一模态的数据检索其它模态数据的过程,称为跨模态的检索。
传统的跨模态检索,例如文本检索图像,往往依据的还是图像的文本标注信息与检索文本的匹配,因此其本质上还是一种单模态的检索。然而,信息的爆发式增长使得人工标注成本太高,同时图像本身含有的丰富信息也难以用有限的标签表示出来;此外,由于标注人员的认知差异往往又会导致标签质量参差不齐。所有这些方面都会在很大程度上影响到检索结果的精确性。深度学习在处理语音、文本以及图像方面的巨大成功,为人们从深度语义角度,探索新的无监督的跨模态检索带来了希望。
基于深度学习的算法可以分为两类:1)第一类方法将建模的过程分为两个阶段,第一个阶段分别将各自模态的数据进行抽象化的表示,第二个阶段将第一阶段抽象化的结果映射到一个共享的表示空间,以建立多模态数据之间的关联;但是此类方法割裂了表示学习和关联学习之间的联系,使得无法判断数据抽象到何种程度最适合跨模态的检索任务,并且其共享层既包含不同模态数据的共有信息,也包含单模态数据的特有信息,不利于跨模态检索的进行。2)第二类方法将关联学习融入到了表示学习的过程中,使其形成一个有机的整体。虽然第二类方法在实践过程中被证明更加适合跨模态检索的任务;但是现存的第二类算法仍存在检索效果不稳定,或是构成深度网络的组件种类过于单一导致检索精确度不高的问题。
发明内容
本发明针对跨模态的检索问题,提出了基于深度关联网络(Deep CorrelatedNetworks,DCN)的跨模态检索方法,在不同模态的数据之间建立了多层次的对应关联关系,同时融合了多种神经网络,使得深度模型具有更好的表示效果,并且跨模态检索的精确度更高、稳定性更好。
实现本发明目的的技术方案是:
基于深度关联网络的跨模态检索方法,包括如下步骤:
1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;
2)建立和训练DCN模型,分别将检索目标和检索库成员通过DCN模型获得相对应的高级表示向量;
3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配,即进行欧式距离的计算;
4)将欧氏距离的计算结果按从小到大的顺利排列,从而得到检索目标的跨模态检索的结果列表。
步骤1)中所述的初级向量包括如下步骤:
(1)设置图像模态数据为第一模态数据时,文本模态数据就是第二模态数据,反之亦然;
(2)针对不同模态的原始数据采用不同的初始特征提取方法;图像模态的数据可以通过PHOW、Gist、MPEG-7等方法进行原始特征的提取,然后进行特征的拼接形成初级向量;文本模态的数据则可以通过词袋模型的方法进行原始特征的提取,形成初级向量。
步骤2)中所述的获得相对应的高级表示向量包括如下步骤:
(1)使用训练集数据对DCN模型进行训练,得到DCN模型的各项参数,具体步骤如下:
①训练DCN模型的第一部分,即对应受限玻尔兹曼机模型(Correspondencerestrict Boltzmann machine,Corr-RBM),得到其参数集合,Corr-RBM目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离,具体表示为:min L=LD+αLI+βLT
其中,
LI=-log p(vI),
LT=-log p(vT),
角标I表示第一模态,角标T表示第二模态,具体的,vI表示第一模态的数据,vT表示第二模态的数据,LD表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离,f(·)为受限玻尔兹曼机(restrict Boltzmann machine,RBM)从显示层到隐层的映射函数,LI和LT分别表示第一模态数据的似然和第二模态数据的似然,p(·)表示RBM可见层与隐层神经单元的联合概率分布,α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占比重的超参数;
训练策略采用交替迭代的思想,首先使用对比散度(contrastive divergence,CD)算法更新LI和LT的参数,然后使用梯度下降算法更新LD的参数,其具体步骤如下:
A.使用CD算法更新LI和LT的参数,其参数包括:第一模态的Corr-RBM可见层与隐层之间的连接权值参数WI,第一模态的Corr-RBM显示层神经单元的偏置参数cI,第一模态的Corr-RBM隐层神经单元的偏置参数bI,第二模态的Corr-RBM可见层与隐层之间的连接权值参数WT,第二模态的Corr-RBM显示层神经单元的偏置参数cT,第二模态的Corr-RBM隐层神经单元的偏置参数bT,其更新值不仅要乘以学习率,还要依据第一模态和第二模态分别乘以目标函数中的α和β;
B.根据LD的公式使用梯度下降算法再次更新参数WI,bI,WT,bT,其更新公式如下:
其中,i和j分别表示显示层和隐藏层的第i和第j个神经元,表示第一模态的Corr-RBM可见层与隐层之间的连接权值参数,为第一模态的Corr-RBM隐层神经单元的偏置参数,为经过Corr-RBM处理的第一模态数据的中间表示,表示第二模态的Corr-RBM可见层与隐层之间的连接权值参数,为第二模态的Corr-RBM隐层神经单元的偏置参数,为经过Corr-RBM处理的第二模态数据的中间表示,σ′(·)表示Logistic函数的导函数,∈表示学习率;
C.重复A、B步骤直至收敛;
②训练DCN模型的第二部分,即对应自动编码器模型(Correspondenceautoencoder,Corr-AE),得到其参数集合,Corr-AE目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的高级表示向量在统一的表示空间中的相似程度,具体表示为:
其中,
其中,角标I表示第一模态,角标T表示第二模态,具体的,分别表示输入的第一模态数据和第二模态数据的向量,即经过Corr-RBM处理的第一模态数据和第二模态数据的中间表示向量,分别表示重构之后的第一模态数据和第二模态数据的表示向量,分别表示第一模态向量和第二模态向量的重构平方误差,表示第一模态数据和第二模态数据高级表示向量之间的欧式距离之和,其中,分别表示第一模态自动编码器(autoencoder,AE)的表示层和第二模态AE的表示层,Wf和Wg分别表示第一模态的自动编码器权重参数和第二模态的自动编码器权重参数;θ为控制重构误差和关联误差在损失函数中所占比重的超参数;
训练策略为梯度下降的思想,其更新Corr-AE部分的具体步骤如下:
A.使用梯度计算更新参数Wf,其中,∈表示学习率:
B.使用梯度计算更新参数Wg,其中,∈表示学习率:
C.重复A、B步骤直至收敛;
(2)将训练集中的检索目标和检索库成员通过完成训练的DCN获得相对应的高级表示向量,具体步骤如下:
通过训练得到DCN模型的全部参数后,将测试集中的第一模态数据或者第二模态数据当作检索目标,将另外一种模态的数据当作检索库中的检索成员;然后将检索目标的初级向量与所述检索库中的每一个检索成员的初级向量,通过完成训练的DCN模型获得相对应的高级表示向量,经过处理所得到的高级表示向量被映射到了统一的表示空间,为跨模态的检索时的相似度计算奠定了基础。
步骤3)中所述的欧式距离的计算如下:
经过DCN模型处理得到的检索目标以及检索成员的高级表示向量均为相同的维度n,且被映射到了统一的表示空间,通过欧式距离来反映两个向量之间的相似程度;在n维空间中,欧式距离d的计算公式为:其中,ti和yi为两个n维向量;
将检索目标与检索库中每一个检索成员的欧氏距离计算结果,按照由小到大的顺序排列,得到检索目标的检索结果列表,越靠在前面的检索结果与检索目标的相似度越高。
本发明具有的有益的效果是:在构建了多层次的对应关联关系的同时,摆脱了完全基于RBM构建的模式,融合了多种神经网络,尤其是引入了表示效果优良的包含稠密层的自动编码器;与现有的基于深度网络的跨模态检索模型相比,更充分的挖掘出了多模态数据之间的关系,提高了跨模态检索精确度,且在不同的最终表示维度设定条件下,DCN模型的跨模态检索的效果稳定性更好。
附图说明
图1为本发明技术方案的流程图;
图2为本发明深度关联网络的结构图;
图3为受限玻尔兹曼机的结构图;
图4为受限玻尔兹曼机模型的结构图;
图5为包含稠密层的自动编码器的结构图;
图6为自编码器模型的结构图;
图7为本发明实施例的流程图;
图8为将最终表示维度设定为高维度时跨模态检索的结果对比图;
图9为将最终表示维度设定为16D、24D和32D时跨模态检索的结果对比图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
参照图1,基于深度关联网络的跨模态检索方法,包含以下步骤:
1)步骤101:利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;
2)步骤102:建立和训练DCN模型,然后将检索目标的初级向量与检索库中的每一个检索成员的初级向量通过DCN模型处理,获得相对应的高级表示向量;
3)步骤103:利用检索目标和检索库中的每一个检索成员的高级表示向量,进行检索目标与检索库中每一个检索成员的相似度计算;
4)步骤104:根据检索目标与检索库中每一个检索成员的相似度计算结果得到检索结果列表。
步骤1)中所述的初级向量包括如下步骤:
(1)设置图像模态数据为第一模态数据时,文本模态数据就是第二模态数据,反之亦然;
(2)针对不同模态的原始数据采用不同的初始特征提取方法;例如图像模态的数据可以通过Dense-SIFT、Gist、MPEG-7等方法进行原始特征的提取,然后进行特征的拼接形成初级向量,例如文本模态的数据则可以通过词袋模型的方法进行原始特征的提取,从而形成初级向量。
步骤2)中所述的获得相对应的高级表示向量包括如下步骤:
(1)首先使用训练集数据对DCN模型进行训练,得到DCN模型的各项参数,具体训练步骤如下:
①首先训练DCN模型的第一部分,即对应Corr-RBM,得到其参数集合,Corr-RBM目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离,具体表示为:minL=LD+αLI+βLT
其中,
LI=-log p(vI),
LT=-log p(vT),
角标I表示第一模态,角标T表示第二模态;vI表示第一模态的数据,vT表示第二模态的数据,LD表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离,f(.)为RBM从显示层到隐层的映射函数,LI和LT分别表示第一模态数据的似然和第二模态数据的似然,p(.)表示RBM可见层与隐层神经单元的联合概率分布,α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占的比重的超参数;
训练策略采用交替迭代的思想,首先使用CD算法更新LI和LT的参数,然后使用梯度下降算法更新LD的参数,其具体步骤如下:
A.使用CD算法更新LI和LT的参数,其参数包括:第一模态的Corr-RBM可见层与隐层之间的连接权值参数WI,第一模态的Corr-RBM显示层神经单元的偏置参数cI,第一模态的Corr-RBM隐层神经单元的偏置参数bI,第二模态的Corr-RBM可见层与隐层之间的连接权值参数WT,第二模态的Corr-RBM显示层神经单元的偏置参数cT,第二模态的Corr-RBM隐层神经单元的偏置参数bT,其更新值不仅要乘以学习率,还要依据第一模态和第二模态分别乘以目标函数中的α和β;训练RBM神经网络的CD算法为现有的成熟的算法;
B.根据LD的公式使用梯度下降算法再次更新参数WI,bI,WT,bT,其更新公式如下:
其中,i和j分别表示显示层和隐藏层的第i和第j个神经元,表示第一模态的Corr-RBM可见层与隐层之间的连接权值参数,为第一模态的Corr-RBM隐层神经单元的偏置参数,为经过Corr-RBM处理的第一模态数据的中间表示,表示第二模态的Corr-RBM可见层与隐层之间的连接权值参数,为第二模态的Corr-RBM隐层神经单元的偏置参数,为经过Corr-RBM处理的第二模态数据的中间表示,σ′(.)表示Logistic函数的导函数,∈表示学习率;
C.重复A、B步骤直至收敛;
D.如图4所示,Corr-RBM包含三部分,分别是第一模态的RBM、第二模态的RBM和两个模态的RBM对应隐藏层之间的相似性的关联约束,其中,第一模态的RBM与第二模态的RBM具有相同数量的隐藏层神经单元个数m,他们的输入层神经单元数量分别是经过初始特征抽取方法抽取出的第一模态数据的初级向量维度和第二模态数据的初级向量维度;Corr-RBM是基于RBM构建的,如图3所示,RBM模型的可见层V包含n个神经元v1~vn,每个神经单元的vi的偏置为ci,可见层之间没有连接,隐层H包含m个神经单元h1~hm,每个神经单元的偏置为bi,同样的,隐层神经单元之间也没有连接,可见层神经单元与隐层神经单元之间的连接权值为Wij,每个神经单元的激活函数为Logistic激活函数:δ(x)=1/(1+exp(-x)),则可见层V与隐层H神经单元的联合概率分布为:其中,Z为归一化常数,E(v,h)为能量函数,能量值随着v和h变化而变化,并在能量值最小化时,网络达到理想状态,而网络的训练目的就是最小化这个能量函数;
②训练DCN模型的第二部分,即Corr-AE,得到其参数集合,Corr-AE目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的高级表示向量在统一的表示空间中的相似程度,具体表示为:
其中,
其中,角标I表示第一模态,角标T表示第二模态,具体的,分别表示输入的第一模态数据和第二模态数据的向量,即经过Corr-RBM处理的第一模态数据和第二模态数据的中间表示向量,分别表示重构之后的第一模态数据和第二模态数据的表示向量,分别表示第一模态向量和第二模态向量的重构平方误差,表示第一模态数据和第二模态数据高级表示向量之间的欧式距离之和,其中,分别表示第一模态AE的表示层和第二模态AE的表示层,Wf和Wg分别表示第一模态的自动编码器权重参数和第二模态的自动编码器权重参数,θ为控制重构误差和关联误差在损失函数中所占比重的超参数;
训练策略为梯度下降的思想,其更新Corr-AE部分的具体步骤如下:
A、使用梯度计算更新参数Wf,其中,∈表示学习率:
B、使用梯度计算更新参数Wg,其中,∈表示学习率:
C、重复A、B步骤直至收敛;
D、如图6所示,Corr-AE包含三部分,分别是第一模态的Corr-AE、第二模态的Corr-AE和两个模态的Corr-AE对应表示层之间的相似性的关联约束,其中,第一模态的Corr-AE与第二模态的Corr-AE具有相同的输入层、表示层和重构层的神经单元个数,他们的输入层神经单元数量是两种模态数据的初级向量经过Corr-RBM处理所获得的对应的中间表示向量的维度。Corr-AE是基于包含稠密层的自编码器构建的,如图5所示,AE模型可分为两个过程,编码过程和解码过程;编码过程中的输入层V包含m个神经单元v1~vm,可见层之间没有连接,表示层H包含u个神经单元h1~hu,表示层神经单元的偏置表示为ah,同样的,隐藏层神经单元之间也没有连接,输入层神经单元与表示层神经单元之间的连接权值为Wf。解码过程中,其表示层和编码过程中的表示层为同一概念,重构层R包含m个神经单元r1~rm,每个神经单元的偏置表示为ar,重构层之间也没有连接,重构层神经单元与表示层神经单元之间的连接权值为Wg,需要指出的是,包含稠密层的AE模型,其输入层神经单元个数与重构层神经单元个数相等,值均为m,表示层神经单元个数u小于m值,每个神经单元的激活函数也是logistic激活函数;
(2)将训练集中的检索目标和检索库成员通过完成训练的深度关联网络获得相对应的高级表示向量,具体步骤如下:
A.通过训练得到DCN模型的全部参数后,将测试集中的第一模态数据或者第二模态数据当作检索目标,将另外一种模态的数据当作检索库中的检索成员;然后将检索目标的初级向量与所述检索库中的每一个检索成员的初级向量,通过完成训练的DCN模型获得相对应的高级表示向量。这样,经过处理所得到的高级表示向量被映射到了统一的表示空间,为跨模态的检索时的相似度计算奠定了基础;
B.如图2所示,将Corr-RBM作为第一层,Corr-AE作为第二层,组成了DCN模型,第一层Corr-RBM的两个输入分别为第一模态原始数据经特征提取获得的第一模态的初级向量和第二模态原始数据经特征提取获得的第二模态的初级向量,在第一层和第二层之间,顶层Corr-AE的两个输入层的神经单元个数等于底层Corr-RBM中的两个隐层神经单元个数,顶层的Corr-AE中的第一模态的Corr-AE的表示层向量作为第一模态数据的高级表示向量,第二模态的Corr-AE的表示层向量作为第二模态数据的高级表示向量,总体来讲,DCN模型首先对第一模态和第二模态的初级向量使用Corr-RBM获得第一模态和第二模态的中间表示向量,然后DCN模型的顶层使用Corr-AE对中间表示向量进行进一步的处理,最终获得第一模态数据和第二模态数据的高级表示向量。
步骤3)中所述的欧式距离的计算如下:
假设由于经过DCN模型处理得到的检索目标和检索成员的高级表示向量均为相同的维度n,且被映射到了统一的表示空间,所以可以通过欧式距离来反映两个向量之间的相似程度,在n维空间中,欧式距离d的计算公式为:其中,ti和yi为两个n维向量;
将检索目标与检索库中每一个检索成员的欧氏距离计算结果,按照由小到大的顺序排列,从而得到检索目标的检索结果列表,越靠在前面的检索结果与检索目标的相似度越高。
实施例:
假设我们分别有o对已知对应关系的文本和图像数据,即训练集数据;未知对应关系的文本数据和图像数据各k个,即测试集数据;以图像检索文本为例进行说明,则检索目标为测试集中某个图像s,检索库包含测试集中的k个检索成员,检索成员均为文本模态的数据;如图7所示,包括以下三个步骤:
1)步骤701:使用初始特征方法提取训练集中o对已知对应关系的文本和图像数据的特征形成初级向量,提取测试集中k对未知对应关系的文本数据和图像数据的特征形成初级向量;
不同模态的原始数据均有其成熟的初始特征提取方法;检索目标为图像模态的数据,图像模态的数据可以通过Dense-SIFT、Gist、MPEG-7等方法进行原始特征的提取,然后进行特征的拼接形成初级向量,检索库中成员数据的模态为文本数据,而文本模态的数据可以通过词袋模型的方法进行原始特征的提取,形成初级向量。
2)步骤702:使用训练集中o对已知对应关系的文本和图像数据训练DCN模型,然后将测试集中图像s的初级向量和检索库中的k个检索成员的初级向量通过DCN模型处理,获得图像s的高级表示向量和检索库中每个检索成员的高级表示向量,再对图像s的高级表示向量与每一个检索库中检索成员高级表示向量进行相似度的匹配;
首先使用o对已知对应关系的图像和文本数据训练DCN模型,具体训练步骤为:
(1)训练DCN模型的第一部分,即Corr-RBM,得到其参数集合,Corr-RBM目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离,具体表示为:minL=LD+αLI+βLT
其中,
LI=-log p(vI),
LT=-log p(vT),
角标I表示图像模态,角标T表示文本模态,具体的,vI表示图像模态的数据,vT表示文本模态的数据,LD表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离,f(.)为RBM从显示层到隐层的映射函数,LI和LT分别表示图像模态数据的似然和文本模态数据的似然,p(.)表示RBM可见层与隐层神经单元的联合概率分布,α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占比重的超参数;
训练策略采用交替迭代的思想,首先使用CD算法更新LI和LT的参数,然后使用梯度下降算法更新LD的参数,其具体步骤如下:
A.使用CD算法更新LI和LT的参数,其参数包括:图像模态的Corr-RBM可见层与隐层之间的连接权值参数WI,图像模态的Corr-RBM显示层神经单元的偏置参数cI,图像模态的Corr-RBM隐层神经单元的偏置参数bI,文本模态的Corr-RBM可见层与隐层之间的连接权值参数WT,文本模态的Corr-RBM显示层神经单元的偏置参数cT,文本模态的Corr-RBM隐层神经单元的偏置参数bT,其更新值不仅要乘以学习率,还要依据图像模态和文本模态分别乘以目标函数中的α和β;
B.根据LD的公式使用梯度下降算法再次更新的参数WI,bI,WT,bT,其更新公式如下:
其中,i和j分别表示显示层和隐藏层的第i和第j个神经元,表示图像模态的Corr-RBM可见层与隐层之间的连接权值参数,为图像模态的Corr-RBM隐层神经单元的偏置参数,为经过Corr-RBM处理的图像模态数据的中间表示,表示文本模态的Corr-RBM可见层与隐层之间的连接权值参数,为文本模态的Corr-RBM隐层神经单元的偏置参数,为经过Corr-RBM处理的图像模态数据的中间表示,σ′(.)表示Logistic函数的导函数,∈表示学习率;
C.重复A、B步骤直至收敛;
(2)训练DCN模型的第二部分,即Corr-AE,得到其参数集合,Corr-AE目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的高级表示向量在统一的表示空间中的相似程度,具体表示为:
其中,
其中,角标I表示图像模态,角标T表示文本模态,具体的,分别表示输入的图像模态数据和文本模态数据的向量,即经过Corr-RBM处理的第一模态数据和第二模态数据的中间表示向量,分别表示重构之后的第一模态数据和第二模态数据的表示向量,分别表示图像模态向量和文本模态向量的重构平方误差,表示图像模态数据与文本模态数据高级表示向量之间的欧式距离之和,其中,分别表示图像模态AE的表示层和文本模态AE的表示层,Wf和Wg分别表示图像模态的编码器权重参数和文本模态的编码器权重参数,θ为控制重构误差和关联误差在损失函数中所占比重的超参数;
训练策略为梯度下降的思想,其更新Corr-AE部分的具体步骤如下:
A.使用梯度计算更新参数Wf,其中,∈表示学习率:
B.使用梯度计算更新参数Wg,其中,∈表示学习率:
C.重复A、B步骤直至收敛;
在DCN模型训练完成后,然后将训练集中图像s的初级表示向量和检索库中k个检索成员的初级表示向量交给DCN模型处理得到高级表示向量,假设由于经过DCN模型处理得到的高级表示向量均为相同的维度n,且被映射到了统一的表示空间,所以可以通过欧式距离来反映不同模态数据的向量之间的相似程度,在n维空间中,欧式距离d的计算公式为:其中,ti和yi为两个不同模态数据的n维高级表示向量。
3)步骤703:根据欧氏距离计算结果对检索库中每个检索成员按照由小到大的顺序排列,从而得到文本s的检索结果列表;
利用图像s的高级表示向量与检索库中k个检索成员的高级表示向量之间进行欧式距离计算的结果按照由小到大的顺序排列,从而获得检索结果列表。
如图8所示,DCN模型进行跨模态检索的结果与另外几种现有的跨模态检索模型结果进行了对比,评价指标为mAP(mean Average Precise);mAP是最常用的衡量信息检索结果优劣的标准;给定一个查询,返回前R个结果;其mAP的计算公式表示为:
其中,M表示某个图像s检索到的相关结果数量,p(r)是在位置r的准确率,rel(r)代表位置r的结果与某个图像s的相关性(相关为1,不相关为0),评测标准是他们是否属于同一个语义类别;本发明专利中,返回检索结果数量定义为检索结果的前50个;
图8和图9中,lq表示图像查询,Tq表示文本查询,Ave表示以图检文和以文检图的平均mAP值;从图8中可以看出,在最终表示维度设定为高维度时(Wikipedia和Pascal数据集中的数据最终表示维度设定为256D,NUS-WIDE-10k数据集中的数据最终表示维度设定为128D),DCN模型的mAP值相较于对比方法,在Wikipedia数据集中,与精确度最高的StackedCorr-RBMs相比,提升了11.6%的mAP值,在NUS-WIDE-10k数据集中,与精确度最高的Corr-AE相比,提升了26.5%的mAP值,在Pascal数据集中,与精确度最高的Corr-AE相比,提升了22.2%的mAP值;体现出DCN模型更充分的挖掘出了多模态数据之间的关系,跨模态检索精确度更高;从图9中可以看出,在Wikipedia,NUS-WIDE-10k和Pascal三个数据集中的不同最终表示维度设定条件下(三个数据集中的数据最终表示维度全部设定为16D、24D和32D三个不同的值),DCN模型的mAP值也优于对比方法,在Wikipedia数据集中,与各个维度精确度最高的Stacked Corr-RBMs相比,三个不同维度下平均提升了7.2%的mAP值,在NUS-WIDE-10k数据集中,与各个维度精确度最高的Stacked Corr-RBMs相比,三个不同维度下平均提升了20.9%的mAP值,在Pascal数据集中,与各个维度精确度最高的Stacked Corr-RBMs或者Corr-AE相比,三个不同维度下平均提升了18.5%的mAP值;并且DCN模型的mAP值没有较大的波动,始终维持在较高的水平上,体现出了其检索效果更稳定。

Claims (4)

1.基于深度关联网络的跨模态检索方法,其特征在于,包括如下步骤:
1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;
2)建立和训练深度关联网络模型,分别将检索目标和检索库成员通过深度关联网络模型获得相对应的高级表示向量;
3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配,即进行欧式距离的计算;
4)将欧氏距离的计算结果按从小到大的顺利排列,得到检索目标的跨模态检索的结果列表。
2.根据权利要求1所述的基于深度关联网络的跨模态检索方法,其特征在于,步骤1)中所述的初级向量包括如下步骤:
(1)设置图像模态数据为第一模态数据时,文本模态数据为第二模态数据,反之亦然;
(2)不同模态的原始数据采用不同的初始特征提取方法;图像模态的数据可以通过PHOW、Gist、MPEG-7方法进行原始特征的提取,然后进行特征的拼接形成初级向量;文本模态的数据则可以通过词袋模型的方法进行原始特征的提取,形成初级向量。
3.根据权利要求1所述的基于深度关联网络的跨模态检索方法,其特征在于,步骤2)中所述的获得相对应的高级表示向量包括如下步骤:
(1)使用训练集数据对深度关联网络模型进行训练,得到深度关联网络模型的各项参数,具体步骤如下:
①训练深度关联网络模型的第一部分,即对应受限玻尔兹曼机模型,得到受限玻尔兹曼机模型参数集合,受限玻尔兹曼机模型目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离,具体表示为:minL=LD+αLI+βLT
其中,
<mrow> <msub> <mi>L</mi> <mi>D</mi> </msub> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>f</mi> <mi>I</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>v</mi> <mi>I</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>f</mi> <mi>T</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>v</mi> <mi>T</mi> </msup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>,</mo> </mrow>
LI=-log p(vI),
LT=-log p(vT),
角标I表示第一模态,角标T表示第二模态,具体的,vI表示第一模态的数据,vT表示第二模态的数据,LD表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离,f(.)为受限玻尔兹曼机从显示层到隐层的映射函数,LI和LT分别表示第一模态数据的似然和第二模态数据的似然,p(.)表示受限玻尔兹曼机可见层与隐层神经单元的联合概率分布,α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占比重的超参数;
训练策略采用交替迭代的思想,首先使用对比散度算法更新LI和LT的参数,然后使用梯度下降算法更新LD的参数,其具体步骤如下:
A.使用对比散度算法更新LI和LT的参数,其参数包括:第一模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数WI,第一模态的受限玻尔兹曼机模型显示层神经单元的偏置参数cI,第一模态的受限玻尔兹曼机模型隐层神经单元的偏置参数bI,第二模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数WT,第二模态的受限玻尔兹曼机模型显示层神经单元的偏置参数cT,第二模态的受限玻尔兹曼机模型隐层神经单元的偏置参数bT,其更新值不仅要乘以学习率,还要依据第一模态和第二模态分别乘以目标函数中的α和β;
B.根据LD的公式使用梯度下降算法再次更新参数WI,bI,WT,bT,其更新公式如下:
<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>I</mi> </msubsup> <mo>&amp;LeftArrow;</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>I</mi> </msubsup> <mo>-</mo> <mo>&amp;Element;</mo> <mo>&amp;CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>-</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <msup> <mi>&amp;sigma;</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <msubsup> <mi>v</mi> <mi>i</mi> <mi>I</mi> </msubsup> <mo>,</mo> </mrow>
<mrow> <msubsup> <mi>b</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>&amp;LeftArrow;</mo> <msubsup> <mi>b</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>-</mo> <mo>&amp;Element;</mo> <mo>&amp;CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>-</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <msup> <mi>&amp;sigma;</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>T</mi> </msubsup> <mo>&amp;LeftArrow;</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>T</mi> </msubsup> <mo>-</mo> <mo>&amp;Element;</mo> <mo>&amp;CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>-</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <msup> <mi>&amp;sigma;</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <msubsup> <mi>v</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>,</mo> </mrow>
<mrow> <msubsup> <mi>b</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>&amp;LeftArrow;</mo> <msubsup> <mi>b</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>-</mo> <mo>&amp;Element;</mo> <mo>&amp;CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>-</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <msup> <mi>&amp;sigma;</mi> <mo>&amp;prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,i和j分别表示显示层和隐藏层的第i和第j个神经元,表示第一模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数,为第一模态的受限玻尔兹曼机模型隐层神经单元的偏置参数,为经过受限玻尔兹曼机模型处理的第一模态数据的中间表示,表示第二模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数,为第二模态的受限玻尔兹曼机模型隐层神经单元的偏置参数,为经过受限玻尔兹曼机模型处理的第二模态数据的中间表示,σ′(.)表示Logistic函数的导函数,∈表示学习率;
C.重复A、B步骤直至收敛;
②训练深度关联网络模型的第二部分,即对应自动编码器模型,得到自动编码器模型参数集合,自动编码器模型目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的高级表示向量在统一的表示空间中的相似程度,具体表示为:
其中,
<mrow> <mover> <msub> <mi>L</mi> <mi>I</mi> </msub> <mo>~</mo> </mover> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mover> <msup> <mi>v</mi> <mi>I</mi> </msup> <mo>~</mo> </mover> <mo>-</mo> <msup> <mover> <mi>v</mi> <mo>^</mo> </mover> <mi>I</mi> </msup> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>,</mo> </mrow>
<mrow> <mover> <msub> <mi>L</mi> <mi>T</mi> </msub> <mo>~</mo> </mover> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mover> <msup> <mi>v</mi> <mi>T</mi> </msup> <mo>~</mo> </mover> <mo>-</mo> <msup> <mover> <mi>v</mi> <mo>^</mo> </mover> <mi>T</mi> </msup> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>,</mo> </mrow>
<mrow> <mover> <msub> <mi>L</mi> <mi>D</mi> </msub> <mo>~</mo> </mover> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <mover> <msup> <mi>v</mi> <mi>I</mi> </msup> <mo>~</mo> </mover> <mo>;</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>g</mi> <mrow> <mo>(</mo> <mover> <msup> <mi>v</mi> <mi>T</mi> </msup> <mo>~</mo> </mover> <mo>;</mo> <msub> <mi>W</mi> <mi>g</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>,</mo> </mrow>
其中,角标I表示第一模态,角标T表示第二模态,具体的,分别表示输入的第一模态数据和第二模态数据的向量,即经过受限玻尔兹曼机模型处理的第一模态数据和第二模态数据的中间表示向量,分别表示重构之后的第一模态数据和第二模态数据的表示向量,分别表示第一模态向量和第二模态向量的重构平方误差,表示第一模态数据和第二模态数据高级表示向量之间的欧式距离之和,其中,分别表示第一模态自动编码器的表示层和第二模态自动编码器的表示层,Wf和Wg分别表示第一模态的自动编码器权重参数和第二模态的自动编码器权重参数;θ为控制重构误差和关联误差在损失函数中所占比重的超参数;
训练策略为梯度下降的思想,其更新自动编码器模型具体步骤如下:
A.使用梯度计算更新Wf,其中,∈表示学习率:
<mrow> <msub> <mi>W</mi> <mi>f</mi> </msub> <mo>&amp;LeftArrow;</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> <mo>-</mo> <mo>&amp;Element;</mo> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mover> <mi>L</mi> <mo>~</mo> </mover> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> </mrow> </mfrac> <mo>,</mo> </mrow>
B.使用梯度计算更新Wg,其中,∈表示学习率:
<mrow> <msub> <mi>W</mi> <mi>g</mi> </msub> <mo>&amp;LeftArrow;</mo> <msub> <mi>W</mi> <mi>g</mi> </msub> <mo>-</mo> <mo>&amp;Element;</mo> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mover> <mi>L</mi> <mo>~</mo> </mover> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>W</mi> <mi>g</mi> </msub> </mrow> </mfrac> <mo>,</mo> </mrow>
C.重复A、B步骤直至收敛;
(2)将训练集中的检索目标和检索库成员通过完成训练的深度关联网络获得相对应的高级表示向量,具体步骤如下:
通过训练得到深度关联网络模型的全部参数后,将测试集中的第一模态数据或者第二模态数据当作检索目标,将另外一种模态数据当作检索库中的检索成员;然后将检索目标的初级向量与检索库中的每一个检索成员的初级向量,通过完成训练的深度关联网络模型获得相对应的高级表示向量。
4.根据权利要求1所述的基于深度关联网络的跨模态检索方法,其特征在于,步骤3)中所述的欧式距离的计算如下:
经过深度关联网络模型处理得到的检索目标以及检索成员的高级表示向量均为相同的维度n,且被映射到了统一的表示空间,通过欧式距离来反映两个向量之间的相似程度;在n维空间中,欧式距离d的计算公式为:其中,ti和yi为两个n维向量。
CN201710989497.8A 2017-10-21 2017-10-21 基于深度关联网络的跨模态检索方法 Pending CN107832351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710989497.8A CN107832351A (zh) 2017-10-21 2017-10-21 基于深度关联网络的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710989497.8A CN107832351A (zh) 2017-10-21 2017-10-21 基于深度关联网络的跨模态检索方法

Publications (1)

Publication Number Publication Date
CN107832351A true CN107832351A (zh) 2018-03-23

Family

ID=61648603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710989497.8A Pending CN107832351A (zh) 2017-10-21 2017-10-21 基于深度关联网络的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN107832351A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN109213876A (zh) * 2018-08-02 2019-01-15 宁夏大学 基于生成对抗网络的跨模态检索方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN109886326A (zh) * 2019-01-31 2019-06-14 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110188209A (zh) * 2019-05-13 2019-08-30 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法
CN110807122A (zh) * 2019-10-18 2020-02-18 浙江大学 一种基于深度互信息约束的图文跨模态特征解纠缠方法
CN111523663A (zh) * 2020-04-22 2020-08-11 北京百度网讯科技有限公司 一种模型训练方法、装置以及电子设备
CN112001437A (zh) * 2020-08-19 2020-11-27 四川大学 面向模态非完全对齐的数据聚类方法
CN113408282A (zh) * 2021-08-06 2021-09-17 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质
WO2022041940A1 (en) * 2020-08-31 2022-03-03 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Cross-modal retrieval method, training method for cross-modal retrieval model, and related device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793507A (zh) * 2014-01-26 2014-05-14 北京邮电大学 一种使用深层结构获取双模态相似性测度的方法
CN104462489A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于深层模型的跨模态检索方法
CN104462485A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于对应的深层信念网络的跨模态检索方法
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793507A (zh) * 2014-01-26 2014-05-14 北京邮电大学 一种使用深层结构获取双模态相似性测度的方法
CN104462489A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于深层模型的跨模态检索方法
CN104462485A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于对应的深层信念网络的跨模态检索方法
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯方向: ""基于深度学习的跨模态检索研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN109213876A (zh) * 2018-08-02 2019-01-15 宁夏大学 基于生成对抗网络的跨模态检索方法
CN109213876B (zh) * 2018-08-02 2022-12-02 宁夏大学 基于生成对抗网络的跨模态检索方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109783655B (zh) * 2018-12-07 2022-12-30 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109840287B (zh) * 2019-01-31 2021-02-19 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN109886326A (zh) * 2019-01-31 2019-06-14 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN109886326B (zh) * 2019-01-31 2022-01-04 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110188209A (zh) * 2019-05-13 2019-08-30 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110188209B (zh) * 2019-05-13 2021-06-04 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法
CN110807122B (zh) * 2019-10-18 2022-07-08 浙江大学 一种基于深度互信息约束的图文跨模态特征解纠缠方法
CN110807122A (zh) * 2019-10-18 2020-02-18 浙江大学 一种基于深度互信息约束的图文跨模态特征解纠缠方法
CN111523663A (zh) * 2020-04-22 2020-08-11 北京百度网讯科技有限公司 一种模型训练方法、装置以及电子设备
CN111523663B (zh) * 2020-04-22 2023-06-23 北京百度网讯科技有限公司 一种目标神经网络模型训练方法、装置以及电子设备
CN112001437A (zh) * 2020-08-19 2020-11-27 四川大学 面向模态非完全对齐的数据聚类方法
CN112001437B (zh) * 2020-08-19 2022-06-14 四川大学 面向模态非完全对齐的数据聚类方法
WO2022041940A1 (en) * 2020-08-31 2022-03-03 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Cross-modal retrieval method, training method for cross-modal retrieval model, and related device
CN113408282A (zh) * 2021-08-06 2021-09-17 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107832351A (zh) 基于深度关联网络的跨模态检索方法
CN102119389B (zh) 使用语义距离学习的自动图像注释
CN110059217A (zh) 一种两级网络的图像文本跨媒体检索方法
CN111127385A (zh) 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN106649715A (zh) 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN111753190B (zh) 一种基于元学习的无监督跨模态哈希检索方法
CN111274332A (zh) 一种基于知识图谱的专利智能检索方法及系统
CN113191357A (zh) 基于图注意力网络的多层次图像-文本匹配方法
CN113918764B (zh) 一种基于交叉模态融合的电影推荐系统
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
CN111159473A (zh) 一种基于深度学习与马尔科夫链的连接的推荐方法
CN109472282B (zh) 一种基于极少训练样本的深度图像哈希方法
CN113537304A (zh) 一种基于双向cnn的跨模态语义聚类方法
CN115909201A (zh) 一种基于多分支联合学习的遮挡行人重识别方法及系统
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN114860973A (zh) 一种面向小样本场景的深度图像检索方法
CN103559510B (zh) 一种利用相关主题模型识别社会群体行为的方法
CN111949884B (zh) 一种基于多模态特征交互深度融合推荐方法
CN113361283A (zh) 面向Web表格的成对实体联合消歧方法
CN113792594A (zh) 一种基于对比学习的视频中语言片段定位方法及装置
CN111523430B (zh) 基于ucl的可定制交互式视频制作方法与装置
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN111984842A (zh) 银行客户数据处理方法及装置
CN116796048A (zh) 一种跨模态数据检索方法、系统及存储介质
CN115797795A (zh) 基于强化学习的遥感影像问答式检索系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180323

RJ01 Rejection of invention patent application after publication