CN107273517B - 基于图嵌入学习的图文跨模态检索方法 - Google Patents

基于图嵌入学习的图文跨模态检索方法 Download PDF

Info

Publication number
CN107273517B
CN107273517B CN201710478207.3A CN201710478207A CN107273517B CN 107273517 B CN107273517 B CN 107273517B CN 201710478207 A CN201710478207 A CN 201710478207A CN 107273517 B CN107273517 B CN 107273517B
Authority
CN
China
Prior art keywords
text
graph
layer
picture
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710478207.3A
Other languages
English (en)
Other versions
CN107273517A (zh
Inventor
顾晓东
张有才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201710478207.3A priority Critical patent/CN107273517B/zh
Publication of CN107273517A publication Critical patent/CN107273517A/zh
Application granted granted Critical
Publication of CN107273517B publication Critical patent/CN107273517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明属于多媒体信息检索技术领域,具体为基于图嵌入学习的图文跨模态检索方法。本发明首先提取图片和文本的数据特征,然后建立一个图文双层的近邻图,通过近邻图及标签信息以神经网络的框架来学习得到嵌入层;通过嵌入层可以将图片、文本两个不同模态的数据映射到一个可以直接度量相似度的统一空间;相对现有方法线性投影的方式,可以更好的近似映射后的流行空间;在嵌入层,用户可以直接检索出与查询样本最相近的目标样本,以此来实现图文的跨模态检索。本发明能有效地跨越了不同模态媒体之间的语义鸿沟,进而使得跨模态搜索引擎返回的结果更加准确。

Description

基于图嵌入学习的图文跨模态检索方法
技术领域
本发明属于多媒体信息检索技术领域,具体涉及基于图嵌入学习的图文跨模态检索方法。
背景技术
当前的移动互联网时代,由于智能移动终端的普及,每个人可以随时随地的发布与接收包括文本、图片、视频、音频等在内的多种模态信息,这带来了丰富的内容。然而,丰富的内容给我们带来更多的往往是选择的痛苦,获取真正需求的信息变得愈发困难。在当前的Web3.0时代,丰富的信息需要经过精准的筛选呈现在用户面前,对于检索系统,需要以用户为中心提供精准化的检索与服务。而当前的检索仅仅停留在单模态阶段,当前主流搜索引擎,比如Google,可以做到用户输入文本返回系列图片,但这种检索依赖的是图片本身标注好的文本信息,所以本质上仍然是以文本搜索文本的单模态检索。在面向Web3.0时代的今日,传统的单模态信息检索已经不能满足用户对个性化信息的需求,我们希望做到“盲人摸象”,一个盲人摸到一个大耳朵,搜索一下便可知道摸的是头大象。跨模态信息检索实际应用性很强,比如,找到最匹配给定图像的文本,给一段描述找到最适合的插图等。因此,跨模态信息检索技术有着重要的研究意义。
现有技术通过线性投影矩阵将不同模态的多媒体数据映射到统一子空间,然后在这个学习到的子空间里度量不同模态的多媒体之间的相似性,以此来实现跨模态检索。但在当前如此复杂的数据背景下,线性投影直接刻画映射空间并在此空间上度量相似度是不太现实的。
发明目的
针对于上述的状况,本发明的目的在于提出一种可实现图文的跨模态检索,且效率高的基于图嵌入学习的图文跨模态检索方法。
本发明的目的在于提出基于图嵌入学习的图文跨模态检索方法,首先提取图片和文本的数据特征,然后建立一个图文双层的近邻图,通过近邻图及标签信息以神经网络的框架来学习得到嵌入层;通过嵌入层可以将图片、文本两个不同模态的数据映射到一个可以直接度量相似度的统一空间;相对现有方法线性投影的方式,可以更好的近似映射后的流行空间。在嵌入层,用户可以直接检索出与查询样本最相近的目标样本,以此来实现图文的跨模态检索。
本发明提出的基于图嵌入学习的图文跨模态检索方法,分为如下三个步骤:
(1)收集图片、文本数据样本,建立图文跨模态检索数据库,并分为训练集与测试集,提取所述数据库的特征,建立图片、文本特征库,根据特征信息建立图文近邻图;
(2)通过图片、文本训练集的标签信息及图文近邻图的结构训练学习得到嵌入层,该嵌入层作为可直接计算不同模态数据相似度的统一空间;
(3)对于查询集中的一个图片/文本数据,在嵌入层中计算相似度,根据多媒体数据之间的相似度,检索得到与它最为相似的文本/图片数据,从而达到图文跨模态检索效果。
本发明中,步骤(1)的操作流程如下:
(1)通过网络爬虫方式爬取维基百科,Flickr,Instagram,Facebook等主流网站的图文数据,这些网站图片种类丰富,并且对图片具有深层语义的描述,选取其中一一对应的图文描述,构建图文跨模态检索数据库;
(2)根据实际需要将所述数据库分为训练集和测试集,比如可将所述数据库中的80%的数据划分为训练集,剩下的20%的数据划分为测试集;
(3)通过卷积神经网络(Convolutional Neural Network,CNN)提取图片的特征,通过隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)提取文本的特征,每个数据得到dp维的向量
Figure BDA0001328315710000021
其中图片维度为4096,文本维度为10;
(4)分别在图片、文本两个模态内建立两个单层近邻图,节点之间权值计算公式为:
Figure BDA0001328315710000022
其中,
Figure BDA0001328315710000023
表示样本
Figure BDA0001328315710000024
的前k个最近邻;
两层近邻图通过以下权值进行连接,即图片与文本描述同一内容,权值为1,具体公式为:
Figure BDA0001328315710000025
这样就得到了图文双层的近邻图。
本发明中,步骤(2)的操作流程如下:
(1)对于每个数据xi计算一个嵌入层
Figure BDA0001328315710000026
该过程通过一层神经网络隐藏节点实现;
(2)在训练集上,对嵌入层通过逻辑回归做分类,采用类别交叉熵:
Figure BDA0001328315710000031
作为损失函数,其中:
Figure BDA0001328315710000032
Ns为训练分类的批量大小,C为类别个数,yi为表征样本类别的独热码,W为全连接层的权重,b为常数项。通过最小化该损失函数,训练得到的嵌入层;
(3)在图文双层的近邻图上,通过{xi,xj,γ}采样得到三元组,通过余弦距离:
Figure BDA0001328315710000033
计算两个节点在嵌入层上的相似度,通过最小化逻辑回归损失函数:
Figure BDA0001328315710000034
其中,Ng为训练图文双层近邻图的批量大小,γ为归一化参数。进一步训练学习得到的嵌入层;
(4)最终优化的目标函数为上述两项加权和,即:L=Ls+λLu,λ为权重,用以调节训练集、图文双层的近邻图损失函数的相对比例。通过自适应学习率的梯度下降方法,得到最终的嵌入层。
本发明中,步骤(3)的操作流程如下:
将测试集中的数据作为查询数据,在嵌入层中计算查询数据与测试集中不同模态数据的余弦距离,距离越近就说明这两个数据越相似。根据多媒体数据之间的相似度,得到所述目标集中与它最为相似的多媒体数据,从而得到跨模态检索效果。
有益效果
现有的搜索引擎“以文检图”依赖的是图片本身标注好的文本信息,所以本质上仍然是以文本搜索文本的单模态检索,基于内容的图像检索技术提供“以图搜图”服务,即相似图片的检索。但是在这种模式下,搜索的执行仅停留在底层的视觉特征上,底层的视觉特征并不能完全匹配查询意图,人们判别图像的相似性是建立在对图像所描述的事件、对象语义理解的基础上的,底层特征与上层理解之间存在“语义鸿沟”。
根据本发明的方法,可以通过嵌入层可以将图片、文本两个不同模态的数据映射到一个可以直接度量相似度的统一空间,相对现有方法线性投影的方式,可以更好的近似映射后的流行空间。在嵌入层,用户可以直接检索出与查询样本最相近的目标样本,以此来实现图文的跨模态检索。本发明方法能有效地跨越了不同模态媒体之间的语义鸿沟,进而使得跨模态搜索引擎返回的结果更加准确。
附图说明
图1为本发明提出的基于图嵌入学习的图文跨模态检索方法流程图示。
图2为“以文检图”、“以图检文”效果图示。
具体实施方式
跨模态信息检索系统的评估需要一个真实可靠的具有成对文本与图像的语料库,为验证本发明方法的有效性,接下来将本发明所提出的方法应用于当前可靠性最高的公开库---维基百科图文数据库。该数据库由维基百科文章分割而成,保留中心明确且配有唯一图片的片段,经原文作者审核将其分为29个语义类别,最终保留数量前十的类别,每个类别中选取合适比例的图文对进行训练、测试,共计2866个图文对,其中2173个用于训练,693个用于测试。
应用本发明方法的具体步骤如下:
1)对于所述数据库中的数据根据模态类别的不同提取不同的特征向量,对于图像模态,提取4096维的CNN特征,对于文本模态,提取10维的LDA语义特征,建立图文双层近邻图;
2)根据训练集图片、文本的类别信息训练学习图片、文本的嵌入层,在图文双层近邻图上采样得到训练对,根据训练对的相似度进一步训练学习嵌入层,得到可直接计算相似度的统一空间;
3)将测试集中的数据作为查询数据,“以文检图”过程即给定一个文本文档,在嵌入层中计算查询文本与测试集中图片的余弦距离,选取距离最小的前五张图片作为检索结果,如图2第一行所示,左边为查询文本,右边为检索到的最相近的前五张图片,两个三角号标记意味着检索图片与查询文本描述同一内容,一个三角号标记意味着检索图片与查询文本属于同一个类别。“以图检文”过程类似,如图2第二行所示。
综上,本发明提出了一种有效的基于图嵌入学习的图文跨模态检索方法,并实现了图文跨模态信息检索的基本任务,即“以文检图”、“以图检文”。本发明易于实现,性能稳定,检索准确率高。本发明提出的嵌入层,有效地跨越了不同模态数据之间的语义鸿沟,与传统的跨模态检索方法比较,本发明具有更广泛的运用前景和更大的市场价值。

Claims (3)

1.一种基于图嵌入学习的图文跨模态检索方法,其特征在于,分为如下三个步骤:
(1)收集图片、文本数据样本,建立图文跨模态检索数据库,并分为训练集与测试集,提取所述数据库的特征,建立图片、文本特征库,根据特征信息建立图文近邻图;
(2)通过图片、文本训练集的标签信息及图文近邻图的结构训练学习得到嵌入层,该嵌入层作为可直接计算不同模态数据相似度的统一空间;
(3)对于查询集中的一个图片/文本数据,在嵌入层中计算相似度,根据多媒体数据之间的相似度,检索得到与它最为相似的文本/图片数据,从而达到图文跨模态检索效果;
步骤(2)的操作流程如下:
(a)对于每个数据xi计算一个嵌入层
Figure FDA0003091172680000011
该过程通过一层神经网络隐藏节点实现;
(b)在训练集上,对嵌入层通过逻辑回归做分类,采用类别交叉熵:
Figure FDA0003091172680000012
作为损失函数,其中:
Figure FDA0003091172680000013
Ns为训练分类的批量大小,C为类别个数,yi为表征样本类别的独热码,W为全连接层的权重,b为常数项;通过最小化该损失函数,训练得到嵌入层;
(c)在图文双层的近邻图上,通过{xi,xj,γ}采样得到三元组,通过余弦距离:
Figure FDA0003091172680000014
计算两个节点在嵌入层上的相似度,通过最小化逻辑回归损失函数:
Figure FDA0003091172680000015
其中,Ng为训练图文双层近邻图的批量大小,γ为归一化参数;进一步训练学习得到的嵌入层;
(d)最终优化的目标函数为上述两项加权和,即:L=Ls+λLu,λ为权重,用以调节训练集、图文双层的近邻图损失函数的相对比例;通过自适应学习率的梯度下降方法,得到最终的嵌入层。
2.根据权利要求1所述的基于图嵌入学习的图文跨模态检索方法,其特征在于,步骤(1)的操作流程如下:
(1)通过网络爬虫方式爬取维基百科,Flickr,Instagram,Facebook等主流网站的图文数据,选取其中一一对应的图文描述,构建图文跨模态检索数据库;
(2)根据实际需要将所述数据库分为训练集和测试集;
(3)通过卷积神经网络提取图片的特征,通过隐含狄利克雷分布提取文本的特征,每个数据得到dp维的向量
Figure FDA0003091172680000021
其中图片维度为4096,文本维度为10;
(4)分别在图片、文本两个模态内建立两个单层近邻图,节点之间权值计算公式为:
Figure FDA0003091172680000022
其中,
Figure FDA0003091172680000023
表示样本
Figure FDA0003091172680000024
的前k个最近邻;
两层近邻图通过以下权值进行连接,即图片与文本描述同一内容,权值为1,具体公式为:
Figure FDA0003091172680000025
这样就得到了图文双层的近邻图。
3.根据权利要求1所述的基于图嵌入学习的图文跨模态检索方法,其特征在于,步骤(3)的操作流程如下:
将测试集中的数据作为查询数据,在嵌入层中计算查询数据与测试集中不同模态数据的余弦距离,距离越近就说明这两个数据越相似;根据多媒体数据之间的相似度,得到所述目标集中与它最为相似的多媒体数据,从而得到跨模态检索效果。
CN201710478207.3A 2017-06-21 2017-06-21 基于图嵌入学习的图文跨模态检索方法 Active CN107273517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710478207.3A CN107273517B (zh) 2017-06-21 2017-06-21 基于图嵌入学习的图文跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710478207.3A CN107273517B (zh) 2017-06-21 2017-06-21 基于图嵌入学习的图文跨模态检索方法

Publications (2)

Publication Number Publication Date
CN107273517A CN107273517A (zh) 2017-10-20
CN107273517B true CN107273517B (zh) 2021-07-23

Family

ID=60069375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710478207.3A Active CN107273517B (zh) 2017-06-21 2017-06-21 基于图嵌入学习的图文跨模态检索方法

Country Status (1)

Country Link
CN (1) CN107273517B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729992B (zh) * 2017-10-27 2020-12-29 深圳市未来媒体技术研究院 一种基于反向传播的深度学习方法
CN108364662B (zh) * 2017-12-29 2021-01-05 中国科学院自动化研究所 基于成对鉴别任务的语音情感识别方法与系统
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109284414B (zh) * 2018-09-30 2020-12-04 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和系统
CN109801073A (zh) * 2018-12-13 2019-05-24 中国平安财产保险股份有限公司 风险用户识别方法、装置、计算机设备及存储介质
CN109784405B (zh) * 2019-01-16 2020-09-08 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN109886326B (zh) * 2019-01-31 2022-01-04 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110321451B (zh) * 2019-04-25 2022-08-05 吉林大学 基于分布熵增益损失函数的图像检索算法
CN110222560B (zh) * 2019-04-25 2022-12-23 西北大学 一种嵌入相似性损失函数的文本人员搜索方法
CN110298395B (zh) * 2019-06-18 2023-04-18 天津大学 一种基于三模态对抗网络的图文匹配方法
CN110442741B (zh) * 2019-07-22 2022-10-18 成都澳海川科技有限公司 一种基于张量融合和重排序的跨模态图文互搜方法
CN110647904B (zh) * 2019-08-01 2022-09-23 中国科学院信息工程研究所 一种基于无标记数据迁移的跨模态检索方法及系统
CN111078952B (zh) * 2019-11-20 2023-07-21 重庆邮电大学 一种基于层次结构的跨模态可变长度哈希检索方法
CN112883218A (zh) * 2019-11-29 2021-06-01 智慧芽信息科技(苏州)有限公司 一种图文联合表征的搜索方法、系统、服务器和存储介质
CN111177071B (zh) * 2019-12-12 2023-07-07 广州地理研究所 Flickr平台的图片下载方法及装置
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法
CN112101380B (zh) * 2020-08-28 2022-09-02 合肥工业大学 基于图文匹配的产品点击率预测方法和系统、存储介质
CN115885274A (zh) * 2020-08-31 2023-03-31 Oppo广东移动通信有限公司 跨模态检索方法、跨模态检索模型的训练方法及相关设备
CN112256913A (zh) * 2020-10-19 2021-01-22 四川长虹电器股份有限公司 一种基于图模型比对的视频搜索方法
CN112364197B (zh) * 2020-11-12 2021-06-01 四川省人工智能研究院(宜宾) 一种基于文本描述的行人图像检索方法
CN112905540A (zh) * 2021-02-05 2021-06-04 智慧芽信息科技(苏州)有限公司 检索文件的方法和装置
CN113076433B (zh) * 2021-04-26 2022-05-17 支付宝(杭州)信息技术有限公司 具有多模态信息的检索对象的检索方法和装置
CN113326392B (zh) * 2021-05-06 2022-11-18 武汉理工大学 基于四元组哈希的遥感图像音频检索方法
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007143109A2 (en) * 2006-06-02 2007-12-13 Telcordia Technologies, Inc. Concept based cross media indexing and retrieval of speech documents
CN102521368A (zh) * 2011-12-16 2012-06-27 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN103049526A (zh) * 2012-12-20 2013-04-17 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106777130A (zh) * 2016-12-16 2017-05-31 西安电子科技大学 一种索引生成方法、数据检索方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007143109A2 (en) * 2006-06-02 2007-12-13 Telcordia Technologies, Inc. Concept based cross media indexing and retrieval of speech documents
CN102521368A (zh) * 2011-12-16 2012-06-27 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN103049526A (zh) * 2012-12-20 2013-04-17 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106777130A (zh) * 2016-12-16 2017-05-31 西安电子科技大学 一种索引生成方法、数据检索方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization;Xiaohua Zhai et al.;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20140630;第967-970页 *

Also Published As

Publication number Publication date
CN107273517A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107273517B (zh) 基于图嵌入学习的图文跨模态检索方法
WO2021203819A1 (zh) 一种内容推荐方法、装置、电子设备和存储介质
Liu et al. Hydra: Large-scale social identity linkage via heterogeneous behavior modeling
Stone et al. Autotagging facebook: Social network context improves photo annotation
Unar et al. Detected text‐based image retrieval approach for textual images
CN110647904B (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN112052387B (zh) 一种内容推荐方法、装置和计算机可读存储介质
CN113590970B (zh) 一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质
CN108897750B (zh) 融合多元上下文信息的个性化地点推荐方法及设备
CN113537304A (zh) 一种基于双向cnn的跨模态语义聚类方法
CN110046251A (zh) 社区内容风险评估方法及装置
Zhang et al. Image composition assessment with saliency-augmented multi-pattern pooling
CN113961666A (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN114329051B (zh) 数据信息识别方法、装置、设备、存储介质及程序产品
CN115422441A (zh) 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法
CN109241315A (zh) 一种基于深度学习的快速人脸检索方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN117033804A (zh) 一种主客观视角引导下的点击诱导检测方法
CN107423294A (zh) 一种社群图像检索方法及系统
Sun et al. Automatic building age prediction from street view images
CN115712780A (zh) 一种基于云计算和大数据的信息推送方法及装置
Li et al. Person re-identification using salient region matching game
CN112015937B (zh) 一种图片地理定位方法及系统
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant