CN110298395A - 一种基于三模态对抗网络的图文匹配方法 - Google Patents

一种基于三模态对抗网络的图文匹配方法 Download PDF

Info

Publication number
CN110298395A
CN110298395A CN201910528838.0A CN201910528838A CN110298395A CN 110298395 A CN110298395 A CN 110298395A CN 201910528838 A CN201910528838 A CN 201910528838A CN 110298395 A CN110298395 A CN 110298395A
Authority
CN
China
Prior art keywords
text
mode
img
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910528838.0A
Other languages
English (en)
Other versions
CN110298395B (zh
Inventor
冀中
林志刚
李晟嘉
庞彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910528838.0A priority Critical patent/CN110298395B/zh
Publication of CN110298395A publication Critical patent/CN110298395A/zh
Application granted granted Critical
Publication of CN110298395B publication Critical patent/CN110298395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于三模态对抗网络的图文匹配方法,在图文两模态的基础上,将高层图片特征和底层文本特征串联得到融合模态,以融合模态作为第三种模态,依次进行各个模态的分类约束和进行模态两两之间的对抗匹配约束,构成三模态对抗网络。本发明能够有效地进行图文匹配,能够有效提高图文匹配的性能,对于百度,谷歌等搜索引擎公司优化图文互搜精度起到积极作用。同时对于其他模态也有借鉴意义,比如对提高语音文本匹配性能,起到了重要的推动作用。

Description

一种基于三模态对抗网络的图文匹配方法
技术领域
本发明涉及一种图文匹配方法。特别是涉及一种基于三模态对抗网络的图文匹配方法。
背景技术
随着对计算机视觉、语音处理和自然语言处理的研究不断推进,跨模态检索领域应势而生。例如,我们使用百度搜索“熊猫”这个词,能够搜索到相应的熊猫图片。这个过程中我们使用文本信息搜索到了图片信息。此时输入信息的类型和获得信息的类型就不同了,研究领域称之为“跨模态”。这里的模态不限于文本和图像,还有如语音、视频、生理信号等。
由于不同的模态之间具有底层特征异构,高层语义相关的特点,常用的跨模态检索方法是,利用深度网络,挖掘不同模态之间的关系,提取高层语义特征,并将不同模态映射到同一个公共空间中。在公共空间中我们就可以度量不同模态之间的相似度了,进而进行匹配。现今研究领域,普遍使用Ranking Loss损失函数在公共空间进行相似度约束。而且近几年应用于提取模态语义特征的神经网络模型,越来越丰富,例如VggNet,GoogleNet,LSTM和ResNet等。
发明内容
本发明所要解决的技术问题是,提供一种在基于公共空间的传统双模态相似度匹配的基础上,引入了一种融合模态进行对抗学习的基于三模态对抗网络的图文匹配方法。
本发明所采用的技术方案是:一种基于三模态对抗网络的图文匹配方法,在图文两模态的基础上,将高层图片特征和底层文本特征串联得到融合模态,以融合模态作为第三种模态,依次进行各个模态的分类约束和进行模态两两之间的对抗匹配约束,构成三模态对抗网络。
具体包括如下步骤:
1)通过ResNet卷积神经网络提取数据集图像的图像特征fimg和图像对应文本的文本特征ftext
2)将文本底层特征向量Ti l和对应的图像特征fimg进行串联,将串联得到的第三模态底层特征输入LSTM网络,通过LSTM网络的学习训练得到第三模态的高层语义特征fconcat
3)对图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat分别进行Instance Loss约束;
4)对Instance Loss约束收敛后的图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat进行两两之间的Ranking Loss约束,构成三模态对抗网络,从而实现样本的相似度匹配。
步骤1)包括:将数据集图像统一裁切成相同尺寸,输入第一ResNet卷积神经网络分别提取每张图像的图像特征fimg,将每张图像对应的文本语句编码成文本底层特征向量Ti l,将文本底层特征向量Ti l输入第二ResNet卷积神经网络,获得文本特征ftext,其中i是图片的标签序号。
步骤3)包括:将图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat对应输送到第一全连接层分类器、第二全连接层分类器和第三全连接层分类器,按照标签序号进行相应的分类,即,训练的第一阶段将图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat经过分类器分类后,分别进行Instance Loss约束,所述的Instance Loss约束的目标函数如下:
Lins-img=-log(softmax(Wsharefimg)) (1)
Lins-text=-log(softmax(Wshareftext)) (2)
Lins-concat=-log(softmax(Wsharefconcat)) (3)
其中,Lins-img、Lins-text和Lins-concat分别是图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat对应的Instance Loss约束函数;Wshare为全连接层分类器的参数。
步骤4)包括:将Instance Loss约束收敛后的图像特征fimg和第三模态的高层语义特征fconcat通过统一维度,输送到第一相似度空间,将Instance Loss约束收敛后的文本特征ftext和第三模态的高层语义特征fconcat度量到第二相似度空间,将Instance Loss约束收敛后的图像特征fimg和文本特征ftext统一维度到第三相似度空间,所述的第一相似度空间、第二相似度空间和第三相似度空间是空间维度一致的公共语义空间,在第一相似度空间、第二相似度空间和第三相似度空间分别进行Ranking Loss约束,从而实现样本的相似度匹配,所述的Ranking Loss约束的目标函数如下:
其中,Lrank-ic、Lrank-tc和Lrank-it分别是第一相似度空间、第二相似度空间和第三相似度空间所对应的Instance Loss约束函数;(Ia,Ca)和(Ca,Ia)是图像特征fimg和第三模态的高层语义特征fconcat的正样本对,(Ta,Ca)和(Ca,Ta)是文本特征ftext和第三模态的高层语义特征fconcat的正样本对,(Ia,Ta)和(Ta,Ia)是图像特征fimg和文本特征ftext的正样本对;(Ia,Cn)和(Ca,In)是图像特征fimg和第三模态的高层语义特征fconcat的负样本对,(Ta,Cn)和(Ca,Tn)是文本特征ftext和第三模态的高层语义特征fconcat的负样本对,(Ia,Tn)和(Ta,In)是图像特征fimg和文本特征ftext的负样本对,D(·,·)是余弦相似度函数,α是Ranking Loss约束的常量参数;
以此进行对抗学习,将Instance Loss约束收敛后的图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat的空间欧式距离不断拉近,在训练过程中通过多次迭代,使得Ranking Loss约束的目标函数值不断下降,最终达到收敛,使得网络性能达到最优,至此,用于图文匹配的三模态对抗网络构建完成,所述的三模态对抗网络的总体约束函数L为:
其中,λ123456分别为目标函数Lins-img、Lins-text、Lins-concat、Lrank-ic、Lrank-tc、Lrank-it对应的权重。
本发明的一种基于三模态对抗网络的图文匹配方法,引入融合了图文信息的联合模态,然后以联合模态为连接桥梁,在公共语义空间两两模态的语义信息进行约束学习,三个模态的语义信息不断进行博弈对抗,从而不断优化训练的网络结构。具有如下特点:
1、新颖性:引入了融合式的第三模态,提出了适用于图文匹配的三模态对抗深度模型算法。
2、有效性:通过在Flickr30K数据集和MSCOCO数据集上进行试验,表明本发明相比现有的图文匹配算法能达到更优的性能。说明本发明能够有效地进行图文匹配。
3、实用性:该发明能够有效提高图文匹配的性能,对于百度,谷歌等搜索引擎公司优化图文互搜精度起到积极作用。同时对于其他模态也有借鉴意义,比如对提高语音文本匹配性能,起到了重要的推动作用。
附图说明
图1是本发明一种基于三模态对抗网络的图文匹配方法的网络结构图。
具体实施方式
下面结合实施例和附图对本发明的一种基于三模态对抗网络的图文匹配方法做出详细说明。
本发明的一种基于三模态对抗网络的图文匹配方法,在图文两模态的基础上,将高层图片特征和底层文本特征串联得到融合模态,以融合模态作为第三种模态,依次进行各个模态的分类约束和进行模态两两之间的对抗匹配约束,构成三模态对抗网络。
如图1所示,本发明的一种基于三模态对抗网络的图文匹配方法,具体包括如下步骤:
1)通过ResNet卷积神经网络提取数据集图像的图像特征fimg和图像对应文本的文本特征ftext;包括将数据集图像统一裁切成相同尺寸,输入图1中的ResNet卷积神经网络1分别提取每张图像的图像特征fimg,将每张图像对应的文本语句编码成文本底层特征向量Ti l,将文本底层特征向量Ti l输入ResNet卷积神经网络2,获得文本特征ftext,其中i是图片的标签序号。
2)将文本底层特征向量Ti l和对应的图像特征fimg进行串联,得到图1所示的同时具有图像信息和文本信息的联合模态,将串联得到的第三模态底层特征输入LSTM网络,通过LSTM网络的学习训练得到第三模态的高层语义特征fconcat;即,在提取到图像特征fimg的同时,将文本底层特征向量Ti l与图像特征fimg进行串联融合。通过串联,将图片和文本特征信息融合在一起,形成了一个新的第三模态,即联合模态。由于经过了特征融合,第三模态的高层语义特征fconcat的特征信息将更加丰富,有助于后续的约束训练。因为第三模态的高层语义特征fconcat是串联的特征,有更长的底层特征长度,此时采用LSTM更有助于提取和保留更多的语义信息。
3)对图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat分别进行Instance Loss约束;包括:
将图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat对应输送到第一全连接层分类器3、第二全连接层分类器4和第三全连接层分类器5,按照标签序号进行相应的分类,即,训练的第一阶段将图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat经过分类器分类后,分别进行Instance Loss约束,所述的Instance Loss约束的目标函数如下:
Lins-img=-log(softmax(Wsharefimg)) (1)
Lins-text=-log(softmax(Wshareftext)) (2)
Lins-concat=-log(softmax(Wsharefconcat)) (3)
其中,Lins-img、Lins-text和Lins-concat分别是图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat对应的Instance Loss约束函数;Wshare为全连接层分类器的参数。
4)对Instance Loss约束收敛后的图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat进行两两之间的Ranking Loss约束,构成三模态对抗网络,从而实现样本的相似度匹配。包括:
将Instance Loss约束收敛后的图像特征fimg和第三模态的高层语义特征fconcat通过统一维度,输送到第一相似度空间6,将Instance Loss约束收敛后的文本特征ftext和第三模态的高层语义特征fconcat度量到第二相似度空间7,将Instance Loss约束收敛后的图像特征fimg和文本特征ftext统一维度到第三相似度空间8,所述的第一相似度空间6、第二相似度空间7和第三相似度空间8是空间维度一致的公共语义空间,在第一相似度空间6、第二相似度空间7和第三相似度空间8分别进行Ranking Loss约束,从而实现样本的相似度匹配,所述的Ranking Loss约束的目标函数如下:
其中,Lrank-ic、Lrank-tc和Lrank-it分别是第一相似度空间6、第二相似度空间7和第三相似度空间8所对应的Instance Loss约束函数;(Ia,Ca)和(Ca,Ia)是图像特征fimg和第三模态的高层语义特征fconcat的正样本对,(Ta,Ca)和(Ca,Ta)是文本特征ftext和第三模态的高层语义特征fconcat的正样本对,(Ia,Ta)和(Ta,Ia)是图像特征fimg和文本特征ftext的正样本对;(Ia,Cn)和(Ca,In)是图像特征fimg和第三模态的高层语义特征fconcat的负样本对,(Ta,Cn)和(Ca,Tn)是文本特征ftext和第三模态的高层语义特征fconcat的负样本对,(Ia,Tn)和(Ta,In)是图像特征fimg和文本特征ftext的负样本对,D(·,·)是余弦相似度函数,α是Ranking Loss约束的常量参数;
通过Ranking Loss约束,进行对抗学习,使得图文的正样本对相似度逐步提高,图文负样本对相似度逐步减小。对应于公共语义空间,即正样本对之间的欧式距离不断拉近,负样本对之间距离不断拉远。在本发明中,在图像特征fimg、文本特征ftext以外引入了第三模态的高层语义特征fconcat,此时将通过LSTM网络提取的第三模态的高层语义特征fconcat同样统一到公共语义空间。在公共语义空间里此时有了三个模态的特征,将三个模态的特征两两进行Ranking Loss约束,进行相似度匹配。本发明的关键就在于此。由于联合模态的语义信息融合了图像和文本的特征,通过两两模态之间的Ranking Loss约束,形成了一个闭环的约束环境。在这个闭环环境中,三个模态的正样本组特征不断靠近,负样本组特征不断远离。通过联合模态这个桥梁,三个模态在公共语义空间的位置不断进行博弈训练,进行自我修正,最终使得图像和文本的语义信息不断地进行对抗学习。通过深度网络的反向传播,网络参数不断得到优化,最终训练得到适合用于图文匹配的深度网络。整个训练过程中三模态对抗网络的总体约束函数L为:
其中,λ123456分别为目标函数Lins-img、Lins-text、Lins-concat、Lrank-ic、Lrank-tc、Lrank-it对应的权重;
在训练过程中通过多次迭代,使得Ranking Loss约束的目标函数值不断下降,最终达到收敛,使得网络性能达到最优,至此,用于图文匹配的三模态对抗网络构建完成。

Claims (5)

1.一种基于三模态对抗网络的图文匹配方法,其特征在于,在图文两模态的基础上,将高层图片特征和底层文本特征串联得到融合模态,以融合模态作为第三种模态,依次进行各个模态的分类约束和进行模态两两之间的对抗匹配约束,构成三模态对抗网络。
2.根据权利要求1所述的基于三模态对抗网络的图文匹配方法,其特征在于,具体包括如下步骤:
1)通过ResNet卷积神经网络提取数据集图像的图像特征fimg和图像对应文本的文本特征ftext
2)将文本底层特征向量Ti l和对应的图像特征fimg进行串联,将串联得到的第三模态底层特征输入LSTM网络,通过LSTM网络的学习训练得到第三模态的高层语义特征fconcat
3)对图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat分别进行InstanceLoss约束;
4)对Instance Loss约束收敛后的图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat进行两两之间的Ranking Loss约束,构成三模态对抗网络,从而实现样本的相似度匹配。
3.根据权利要求2所述的基于三模态对抗网络的图文匹配方法,其特征在于,步骤1)包括:将数据集图像统一裁切成相同尺寸,输入第一ResNet卷积神经网络(1)分别提取每张图像的图像特征fimg,将每张图像对应的文本语句编码成文本底层特征向量Ti l,将文本底层特征向量Ti l输入第二ResNet卷积神经网络(2),获得文本特征ftext,其中i是图片的标签序号。
4.根据权利要求2所述的基于三模态对抗网络的图文匹配方法,其特征在于,步骤3)包括:将图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat对应输送到第一全连接层分类器(3)、第二全连接层分类器(4)和第三全连接层分类器(5),按照标签序号进行相应的分类,即,训练的第一阶段将图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat经过分类器分类后,分别进行Instance Loss约束,所述的Instance Loss约束的目标函数如下:
Lins-img=-log(softmax(Wsharefimg)) (1)
Lins-text=-log(softmax(Wshareftext)) (2)
Lins-concat=-log(softmax(Wsharefconcat)) (3)
其中,Lins-img、Lins-text和Lins-concat分别是图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat对应的Instance Loss约束函数;Wshare为全连接层分类器的参数。
5.根据权利要求2所述的基于三模态对抗网络的图文匹配方法,其特征在于,步骤4)包括:将Instance Loss约束收敛后的图像特征fimg和第三模态的高层语义特征fconcat通过统一维度,输送到第一相似度空间(6),将Instance Loss约束收敛后的文本特征ftext和第三模态的高层语义特征fconcat度量到第二相似度空间(7),将Instance Loss约束收敛后的图像特征fimg和文本特征ftext统一维度到第三相似度空间(8),所述的第一相似度空间(6)、第二相似度空间(7)和第三相似度空间(8)是空间维度一致的公共语义空间,在第一相似度空间(6)、第二相似度空间(7)和第三相似度空间(8)分别进行RankingLoss约束,从而实现样本的相似度匹配,所述的Ranking Loss约束的目标函数如下:
其中,Lrank-ic、Lrank-tc和Lrank-it分别是第一相似度空间、第二相似度空间和第三相似度空间所对应的Instance Loss约束函数;(Ia,Ca)和(Ca,Ia)是图像特征fimg和第三模态的高层语义特征fconcat的正样本对,(Ta,Ca)和(Ca,Ta)是文本特征ftext和第三模态的高层语义特征fconcat的正样本对,(Ia,Ta)和(Ta,Ia)是图像特征fimg和文本特征ftext的正样本对;(Ia,Cn)和(Ca,In)是图像特征fimg和第三模态的高层语义特征fconcat的负样本对,(Ta,Cn)和(Ca,Tn)是文本特征ftext和第三模态的高层语义特征fconcat的负样本对,(Ia,Tn)和(Ta,In)是图像特征fimg和文本特征ftext的负样本对,D(·,·)是余弦相似度函数,α是RankingLoss约束的常量参数;
以此进行对抗学习,将Instance Loss约束收敛后的图像特征fimg、文本特征ftext和第三模态的高层语义特征fconcat的空间欧式距离不断拉近,在训练过程中通过多次迭代,使得RankingLoss约束的目标函数值不断下降,最终达到收敛,使得网络性能达到最优,至此,用于图文匹配的三模态对抗网络构建完成,所述的三模态对抗网络的总体约束函数L为:
其中,λ123456分别为目标函数Lins-img、Lins-text、Lins-concat、Lrank-ic、Lrank-tc、Lrank-it对应的权重。
CN201910528838.0A 2019-06-18 2019-06-18 一种基于三模态对抗网络的图文匹配方法 Active CN110298395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910528838.0A CN110298395B (zh) 2019-06-18 2019-06-18 一种基于三模态对抗网络的图文匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910528838.0A CN110298395B (zh) 2019-06-18 2019-06-18 一种基于三模态对抗网络的图文匹配方法

Publications (2)

Publication Number Publication Date
CN110298395A true CN110298395A (zh) 2019-10-01
CN110298395B CN110298395B (zh) 2023-04-18

Family

ID=68028178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910528838.0A Active CN110298395B (zh) 2019-06-18 2019-06-18 一种基于三模态对抗网络的图文匹配方法

Country Status (1)

Country Link
CN (1) CN110298395B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851629A (zh) * 2019-10-14 2020-02-28 信阳农林学院 一种图像检索的方法
CN111062865A (zh) * 2020-03-18 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111428801A (zh) * 2020-03-30 2020-07-17 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN112818157A (zh) * 2021-02-10 2021-05-18 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法
CN112818135A (zh) * 2021-02-24 2021-05-18 华侨大学 一种基于公共语义空间学习构建图文知识图谱方法
CN113010720A (zh) * 2021-02-24 2021-06-22 华侨大学 一种基于关键对象特征的深度监督跨模态检索方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090292685A1 (en) * 2008-05-22 2009-11-26 Microsoft Corporation Video search re-ranking via multi-graph propagation
CN105205096A (zh) * 2015-08-18 2015-12-30 天津中科智能识别产业技术研究院有限公司 一种跨文本模态和图像模态的数据检索方法
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN109213853A (zh) * 2018-08-16 2019-01-15 昆明理工大学 一种基于cca算法的中文社区问答跨模态检索方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109829499A (zh) * 2019-01-31 2019-05-31 中国科学院信息工程研究所 基于同一特征空间的图文数据融合情感分类方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090292685A1 (en) * 2008-05-22 2009-11-26 Microsoft Corporation Video search re-ranking via multi-graph propagation
CN105205096A (zh) * 2015-08-18 2015-12-30 天津中科智能识别产业技术研究院有限公司 一种跨文本模态和图像模态的数据检索方法
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109213853A (zh) * 2018-08-16 2019-01-15 昆明理工大学 一种基于cca算法的中文社区问答跨模态检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109829499A (zh) * 2019-01-31 2019-05-31 中国科学院信息工程研究所 基于同一特征空间的图文数据融合情感分类方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YUXIN PENG等: "CM-GANs: Cross-modal Generative Adversarial Networks for Common Representation Learning", 《ACM TRANS》 *
ZHEDONG ZHENG等: "Dual-path Convolutional Image-Text Embeddings with Instance Loss", 《ARXIV:1711.05535》 *
吕凡: "基于生成对抗网络的图像自动文本标注方法研究", 《万方数据》 *
邵杰: "基于深度学习的跨模态检索", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851629A (zh) * 2019-10-14 2020-02-28 信阳农林学院 一种图像检索的方法
CN111062865A (zh) * 2020-03-18 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111428801A (zh) * 2020-03-30 2020-07-17 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
US11341366B2 (en) 2020-03-30 2022-05-24 Beijing Baidu Netcom Science And Technology Co., Ltd. Cross-modality processing method and apparatus, and computer storage medium
CN111428801B (zh) * 2020-03-30 2022-09-27 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN112818157A (zh) * 2021-02-10 2021-05-18 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法
CN112818135A (zh) * 2021-02-24 2021-05-18 华侨大学 一种基于公共语义空间学习构建图文知识图谱方法
CN113010720A (zh) * 2021-02-24 2021-06-22 华侨大学 一种基于关键对象特征的深度监督跨模态检索方法
CN113010720B (zh) * 2021-02-24 2022-06-07 华侨大学 一种基于关键对象特征的深度监督跨模态检索方法

Also Published As

Publication number Publication date
CN110298395B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110298395A (zh) 一种基于三模态对抗网络的图文匹配方法
Selvaraju et al. Taking a hint: Leveraging explanations to make vision and language models more grounded
Gu et al. An empirical study of language cnn for image captioning
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
Mao et al. Explain images with multimodal recurrent neural networks
CN110443129A (zh) 基于深度学习的中文唇语识别方法
CN112733533A (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
Zhang et al. Semantic sentence embeddings for paraphrasing and text summarization
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN111160264A (zh) 一种基于生成对抗网络的漫画人物身份识别方法
CN111310668A (zh) 一种基于骨架信息的步态识别方法
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
Azuh et al. Towards Bilingual Lexicon Discovery From Visually Grounded Speech Audio.
CN114091466A (zh) 一种基于Transformer和多任务学习的多模态情感分析方法及系统
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN113807307A (zh) 一种用于视频多行为识别的多模态联合学习方法
Tian et al. Adaptive latent graph representation learning for image-text matching
Li et al. Image-text alignment and retrieval using light-weight transformer
Han et al. Feature and spatial relationship coding capsule network
CN111523430A (zh) 基于ucl的可定制交互式视频制作方法与装置
CN117011883A (zh) 一种基于金字塔卷积和Transformer双分支的行人重识别方法
CN111428801A (zh) 改进融合层与损失函数交替更新的图文匹配方法
CN110851629A (zh) 一种图像检索的方法
CN106202338B (zh) 基于多特征多关系的图像检索方法
Jiang Research on image classification based on fusion of global features and local features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant