CN107273517B

CN107273517B - 基于图嵌入学习的图文跨模态检索方法

Info

Publication number: CN107273517B
Application number: CN201710478207.3A
Authority: CN
Inventors: 顾晓东; 张有才
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2021-07-23
Anticipated expiration: 2037-06-21
Also published as: CN107273517A

Abstract

本发明属于多媒体信息检索技术领域，具体为基于图嵌入学习的图文跨模态检索方法。本发明首先提取图片和文本的数据特征，然后建立一个图文双层的近邻图，通过近邻图及标签信息以神经网络的框架来学习得到嵌入层；通过嵌入层可以将图片、文本两个不同模态的数据映射到一个可以直接度量相似度的统一空间；相对现有方法线性投影的方式，可以更好的近似映射后的流行空间；在嵌入层，用户可以直接检索出与查询样本最相近的目标样本，以此来实现图文的跨模态检索。本发明能有效地跨越了不同模态媒体之间的语义鸿沟，进而使得跨模态搜索引擎返回的结果更加准确。

Description

基于图嵌入学习的图文跨模态检索方法

技术领域

本发明属于多媒体信息检索技术领域，具体涉及基于图嵌入学习的图文跨模态检索方法。

背景技术

当前的移动互联网时代，由于智能移动终端的普及，每个人可以随时随地的发布与接收包括文本、图片、视频、音频等在内的多种模态信息，这带来了丰富的内容。然而，丰富的内容给我们带来更多的往往是选择的痛苦，获取真正需求的信息变得愈发困难。在当前的Web3.0时代，丰富的信息需要经过精准的筛选呈现在用户面前，对于检索系统，需要以用户为中心提供精准化的检索与服务。而当前的检索仅仅停留在单模态阶段，当前主流搜索引擎，比如Google，可以做到用户输入文本返回系列图片，但这种检索依赖的是图片本身标注好的文本信息，所以本质上仍然是以文本搜索文本的单模态检索。在面向Web3.0时代的今日，传统的单模态信息检索已经不能满足用户对个性化信息的需求，我们希望做到“盲人摸象”，一个盲人摸到一个大耳朵，搜索一下便可知道摸的是头大象。跨模态信息检索实际应用性很强，比如，找到最匹配给定图像的文本，给一段描述找到最适合的插图等。因此，跨模态信息检索技术有着重要的研究意义。

现有技术通过线性投影矩阵将不同模态的多媒体数据映射到统一子空间，然后在这个学习到的子空间里度量不同模态的多媒体之间的相似性，以此来实现跨模态检索。但在当前如此复杂的数据背景下，线性投影直接刻画映射空间并在此空间上度量相似度是不太现实的。

发明目的

针对于上述的状况，本发明的目的在于提出一种可实现图文的跨模态检索，且效率高的基于图嵌入学习的图文跨模态检索方法。

本发明的目的在于提出基于图嵌入学习的图文跨模态检索方法，首先提取图片和文本的数据特征，然后建立一个图文双层的近邻图，通过近邻图及标签信息以神经网络的框架来学习得到嵌入层；通过嵌入层可以将图片、文本两个不同模态的数据映射到一个可以直接度量相似度的统一空间；相对现有方法线性投影的方式，可以更好的近似映射后的流行空间。在嵌入层，用户可以直接检索出与查询样本最相近的目标样本，以此来实现图文的跨模态检索。

本发明提出的基于图嵌入学习的图文跨模态检索方法，分为如下三个步骤：

(1)收集图片、文本数据样本，建立图文跨模态检索数据库，并分为训练集与测试集，提取所述数据库的特征，建立图片、文本特征库，根据特征信息建立图文近邻图；

(2)通过图片、文本训练集的标签信息及图文近邻图的结构训练学习得到嵌入层，该嵌入层作为可直接计算不同模态数据相似度的统一空间；

(3)对于查询集中的一个图片/文本数据，在嵌入层中计算相似度，根据多媒体数据之间的相似度，检索得到与它最为相似的文本/图片数据，从而达到图文跨模态检索效果。

本发明中，步骤(1)的操作流程如下：

(1)通过网络爬虫方式爬取维基百科，Flickr，Instagram,Facebook等主流网站的图文数据，这些网站图片种类丰富，并且对图片具有深层语义的描述，选取其中一一对应的图文描述，构建图文跨模态检索数据库；

(2)根据实际需要将所述数据库分为训练集和测试集，比如可将所述数据库中的80％的数据划分为训练集，剩下的20％的数据划分为测试集；

(3)通过卷积神经网络(Convolutional Neural Network,CNN)提取图片的特征，通过隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)提取文本的特征，每个数据得到d^p维的向量

其中图片维度为4096，文本维度为10；

(4)分别在图片、文本两个模态内建立两个单层近邻图，节点之间权值计算公式为：

其中，

表示样本

的前k个最近邻；

两层近邻图通过以下权值进行连接，即图片与文本描述同一内容，权值为1，具体公式为：

这样就得到了图文双层的近邻图。

本发明中，步骤(2)的操作流程如下：

(1)对于每个数据x_i计算一个嵌入层

该过程通过一层神经网络隐藏节点实现；

(2)在训练集上，对嵌入层通过逻辑回归做分类，采用类别交叉熵：

作为损失函数，其中：

N_s为训练分类的批量大小，C为类别个数，y_i为表征样本类别的独热码，W为全连接层的权重，b为常数项。通过最小化该损失函数，训练得到的嵌入层；

(3)在图文双层的近邻图上，通过{x_i,x_j,γ}采样得到三元组，通过余弦距离：

计算两个节点在嵌入层上的相似度，通过最小化逻辑回归损失函数：

其中，N_g为训练图文双层近邻图的批量大小，γ为归一化参数。进一步训练学习得到的嵌入层；

(4)最终优化的目标函数为上述两项加权和，即：L＝L_s+λL_u，λ为权重，用以调节训练集、图文双层的近邻图损失函数的相对比例。通过自适应学习率的梯度下降方法，得到最终的嵌入层。

本发明中，步骤(3)的操作流程如下：

将测试集中的数据作为查询数据，在嵌入层中计算查询数据与测试集中不同模态数据的余弦距离，距离越近就说明这两个数据越相似。根据多媒体数据之间的相似度，得到所述目标集中与它最为相似的多媒体数据，从而得到跨模态检索效果。

有益效果

现有的搜索引擎“以文检图”依赖的是图片本身标注好的文本信息，所以本质上仍然是以文本搜索文本的单模态检索，基于内容的图像检索技术提供“以图搜图”服务，即相似图片的检索。但是在这种模式下,搜索的执行仅停留在底层的视觉特征上，底层的视觉特征并不能完全匹配查询意图，人们判别图像的相似性是建立在对图像所描述的事件、对象语义理解的基础上的，底层特征与上层理解之间存在“语义鸿沟”。

根据本发明的方法，可以通过嵌入层可以将图片、文本两个不同模态的数据映射到一个可以直接度量相似度的统一空间，相对现有方法线性投影的方式，可以更好的近似映射后的流行空间。在嵌入层，用户可以直接检索出与查询样本最相近的目标样本，以此来实现图文的跨模态检索。本发明方法能有效地跨越了不同模态媒体之间的语义鸿沟，进而使得跨模态搜索引擎返回的结果更加准确。

附图说明

图1为本发明提出的基于图嵌入学习的图文跨模态检索方法流程图示。

图2为“以文检图”、“以图检文”效果图示。

具体实施方式

跨模态信息检索系统的评估需要一个真实可靠的具有成对文本与图像的语料库，为验证本发明方法的有效性，接下来将本发明所提出的方法应用于当前可靠性最高的公开库---维基百科图文数据库。该数据库由维基百科文章分割而成，保留中心明确且配有唯一图片的片段，经原文作者审核将其分为29个语义类别，最终保留数量前十的类别，每个类别中选取合适比例的图文对进行训练、测试，共计2866个图文对，其中2173个用于训练，693个用于测试。

应用本发明方法的具体步骤如下：

1)对于所述数据库中的数据根据模态类别的不同提取不同的特征向量，对于图像模态，提取4096维的CNN特征，对于文本模态，提取10维的LDA语义特征，建立图文双层近邻图；

2)根据训练集图片、文本的类别信息训练学习图片、文本的嵌入层，在图文双层近邻图上采样得到训练对，根据训练对的相似度进一步训练学习嵌入层，得到可直接计算相似度的统一空间；

3)将测试集中的数据作为查询数据，“以文检图”过程即给定一个文本文档，在嵌入层中计算查询文本与测试集中图片的余弦距离，选取距离最小的前五张图片作为检索结果，如图2第一行所示，左边为查询文本，右边为检索到的最相近的前五张图片，两个三角号标记意味着检索图片与查询文本描述同一内容，一个三角号标记意味着检索图片与查询文本属于同一个类别。“以图检文”过程类似，如图2第二行所示。

综上，本发明提出了一种有效的基于图嵌入学习的图文跨模态检索方法，并实现了图文跨模态信息检索的基本任务，即“以文检图”、“以图检文”。本发明易于实现，性能稳定，检索准确率高。本发明提出的嵌入层，有效地跨越了不同模态数据之间的语义鸿沟，与传统的跨模态检索方法比较，本发明具有更广泛的运用前景和更大的市场价值。