CN109783657A

CN109783657A - 基于受限文本空间的多步自注意力跨媒体检索方法及系统

Info

Publication number: CN109783657A
Application number: CN201910011678.2A
Authority: CN
Inventors: 王文敏; 余政
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-05-21
Anticipated expiration: 2039-01-07
Also published as: CN109783657B; WO2020143137A1

Abstract

本发明公布了一种基于受限文本空间的多步自注意力跨媒体检索方法及检索系统，通过构建相对固定的词汇表的受限文本空间，再将非受限文本空间转换成受限文本空间；通过特征提取网络提取受限文本空间的图像特征和文本特征；特征包括全局特征、区域特征集合及关联特征；将提取得到的特征送入特征映射网络，并通过多步自注意力机制提取图像和文本之间物体层次的共享信息；再通过相似性度量网络汇总各时刻有用信息来衡量图像和文本之间的相似度，并计算三元组损失函数；由此实现基于受限文本空间的多步自注意力跨媒体检索。本发明通过引入多步自注意力机制和关联特征，大幅度提升了跨媒体检索召回率。

Description

基于受限文本空间的多步自注意力跨媒体检索方法及系统

技术领域

本发明涉及计算机视觉与信息检索技术领域，尤其涉及一种基于受限文本空间的多步自注意力跨媒体检索方法及系统。

背景技术

近年来，随着信息技术的飞速发展，互联网上的多媒体数据越来越丰富，不同模态的多媒体数据(文本，图像，音频，视频等)可以用于表达相似的内容。为了满足用户日益增长的多媒体检索需求，人们提出了跨媒体检索任务，用于找到一个同构的语义空间(公共空间，文本空间，图像空间)，使得底层异构的多媒体数据之间的相似性能够被直接衡量。更确切的说，这个跨媒体检索任务的核心问题能够被细分成两个子问题。

第一个子问题是如何学习得到有效的底层特征表示。在跨媒体检索领域中，多数传统方法仅通过全局特征表示图像和文本，比如卷积神经网络(CNN)最后全连接层的输出或者循环神经网络(RNN)最后时刻的隐藏层输出。全局特征包含较多的冗余信息，也被称作模态内部的专属信息。这种信息仅存在于模态内部，并且在模态之间互不共享。这也就导致了跨媒体检索质量的下降。因此，部分学者尝试提取图像和文本的局部特征(图像物体区域，文本单词)，再通过注意力机制找到两者之间的共享信息，从而减少冗余特征带来的影响。然而，现有的基于注意力机制的方法大都只考虑了图像和文本之间物体层次的共享信息，没有考虑物体之间的交互信息。

第二个子问题是如何找到一个合适的同构特征空间。同构空间的选择大致有三种，分别是公共空间，文本空间和图像空间。现有的方法通常将异构特征非线性映射至一个潜在的公共空间，从而不同模态数据之间的相似度能够被直接衡量。然而，与图像的基于像素的特征相比，文本特征更容易被人类理解，传递的信息也更为准确。例如，给定一张图像，人脑首先会根据其内容凝练出描述语句，然后根据这些描述去检索语义相似的文本。因此，为了模拟人脑的认知方式，该方法探索了在文本空间进行跨媒体检索的可行性。现有的基于文本空间的跨媒体检索方法没有考虑人脑对于图像的认知过程，它们大都采用Word2Vec空间作为最终的文本空间。图像在该空间的特征表示通过图像中物体的类别信息组合得到的。因此，该特征会丢失图像中蕴含着的丰富的交互信息。这也表明，对于跨媒体检索来说，Word2Vec 空间并不是一个有效的文本特征空间。

文本空间本质上是一个向量空间，由一系列不同的汉字和单词构成。对于中文来说，汉字的数量并没有准确的数字，大约将近十万个(北京国安咨询设备公司汉字字库收入有出处的汉字91251个)。与此同时，大量涌现的新词使得文本空间的规模不断增长。除了中文，类似的情况也出现在包括英语在内的其它语言中。据不完全统计，现有的英语单词数量已经超过了百万，并且每年仍以几千的速度增长。因此，自然语言本质上是发散的。基于这种发散的特性，构建一个完备的不受限制的文本空间几乎是不可能完成的。

然而，在大部分情况下，人们只需掌握其中一部分的汉字和单词就能够满足自身的日常需求。例如，很多英语语言学家认为约3650个最基本的常用英语词汇就能完成表达思想和交际任务的95％以上；原国家教育委员会于1987年11月联合发布的《现代汉语常用字典》提出，现代汉语常用字为2500个，占日常使用汉语的99％以上。

近年来，注意力机制开始引起越来越多研究者的注意。注意力机制最开始被应用在“序列-序列”的模型中，比如机器翻译和图像题注。它包含三种比较常用的形式：1)加性注意力机制，2)乘积注意力机制和3)自注意力机制。如果在跨媒体检索算法中采用加性或者乘积自注意力机制，则图像和文本的重点关注信息无法固定，从而造成图像和文本编码的不确定性，影响算法的实际应用价值。比如，给定一个数据集，包含10张图像和10个与图像一一对应的文本，那么加性或乘积自注意力机制会为每张图像和每个文本分别生成10种不同的重点关注信息(分别对应10个文本和10张图像)，即图像(文本)的重点关注信息由对应的文本(图像)决定。然而，考虑到跨媒体检索算法的实际应用价值，模型必须保证图像和文本的编码唯一性。因此，自注意力机制更为适合跨媒体检索。自注意力机制可以引导图像和文本自己找到数据内部的重点关注信息，并且保证它的固定。

发明内容

为了克服上述现有技术存在的问题，本发明提出了一种基于受限文本空间的多步自注意力跨媒体检索方法及检索系统。该方法通过模拟人脑认知的方式学习得到受限文本空间，并且引入了多步自注意力机制和关联特征，大幅度提升了检索召回率。除了客观的评价指标(检索召回率)，本发明还搭建了一个线上检索Demo系统。通过输入文本或者上传图像，该Demo 可以返回对应的检索结果，从而进一步验证了本发明的有效性。

本发明中，受限文本空间指的是具有相对固定的词汇表的文本空间，是相对于非受限文本空间而言的。本发明通过构建相对固定的词汇表的受限文本空间，再将非受限文本空间转换成受限文本空间，从而保证算法的收敛性。基于受限文本空间的理解能力受到词汇表大小的影响，即词汇表越大，理解能力越强，词汇表越小，理解能力越弱。经过实验发现，3000 左右的单词数量已经能够满足跨媒体检索的基本需求，一味地增加单词数量不仅不会带来检索性能上的提升，还会增加算法在时间和空间上的复杂度。本发明通过图像题注模型(image captioning)提取物体之间的交互信息，也被称为关联信息(relationinformation)。图像题注模型本质上是一种“编码-解码”的模型，即给定一张输入图像，它会先通过编码器将其编码成特征向量，再通过解码器将特征向量翻译成恰当的描述文本。由于生成的描述文本中不仅包含图像中的物体类别信息(名词)，还包含物体之间的交互信息(动词，形容词)，关联信息可以通过编码器生成的特征向量表示。图像题注任务的代表算法是NIC(Neural Image Captioning)。

采用本发明方法提取图像和文本的区域特征(图像物体区域，文本单词)，并通过多步自注意力机制找到两者之间的共享信息，从而减少冗余信息的干扰。除了图像和文本的区域特征，本发明将两者的全局特征看作多步自注意力机制的全局先验知识，用于实现关键信息的快速定位，并且能够在更快地训练速度下取得更好地实验结果。

针对如何找到一个合适的同构特征空间的问题，本发明将图像底层特征映射至“受限文本空间”，该空间不仅包含物体的类别信息，也包含丰富的物体之间的交互信息。

本发明提出的基于受限文本空间的多步自注意力跨媒体检索方法总共包含三个模块，分别是特征提取网络，特征映射网络和相似性度量网络。对于第一个子问题(如何学习得到有效的底层特征表示)，特征提取网络用于提取图像和文本的全局特征、区域特征和关联特征。关联特征的提取通过图像题注模型的代表算法NIC实现；对于第二个子问题(如何找到一个合适的同构特征空间)，特征映射网络被用于学习得到受限文本空间。借助于多步自注意力机制，特征映射网络可以在不同时刻选择性地关注部分共享信息，并且通过汇总各个时刻有用的信息来提取图像和文本的物体层次的特征。除此之外，它还通过特征融合层，将图像的物体层次的特征与关联特征相融合，并且映射至受限文本空间。为了在更快地训练速度下取得更好地实验结果，本发明将图像和文本的全局特征看作多步自注意力机制的全局先验知识，用于实现关键信息的快速定位。最后，相似性度量网络通过汇总各时刻有用信息的方式来衡量图像和文本之间最终的相似度。本发明在跨媒体检索经典数据集中取得了较好的召回率结果，并且在主观角度上也取得了不错的性能。

对于线上检索Demo系统，本发明通过MVC(Model View Controller，模型-视图-控制器) 框架设计实现。其中，Model对应本发明提出的基于受限文本空间的多步自注意力跨媒体检索方法，是核心排序算法；View对应前端页面，用于实现查询(图像或文本)的输入和检索结果的展示；Controller对应后台控制器，用于从前端读取查询输入，并向核心排序算法发送数据。

本发明提供的技术方案是：

基于受限文本空间的多步自注意力跨媒体检索方法，包含特征提取网络、特征映射网络和相似性度量网络；特征提取网络用于提取图像和文本的全局特征、区域特征集合以及关联特征；特征被进一步送入特征映射网络，并通过多步自注意力机制尽可能多地提取图像和文本之间物体层次的共享信息。由于多步自注意力机制没有考虑不同物体之间的交互信息，特征映射网络通过特征融合层将物体层次的共享特征与关联特征相融合，并且映射至受限文本空间；最后，相似性度量网络通过汇总各时刻有用信息的方式来衡量图像和文本之间最终的相似度，并计算三元组损失函数；由此实现基于受限文本空间的多步自注意力跨媒体检索；

具体地，假设数据集D＝{D₁，D₂，…，D_I}共有I个样本，每个样本D_i包括一张图片i和一段描述文本s，即D_i＝(i，s)，每段文本由多个(如5个)句子组成，每个句子都独立地对相匹配的图片进行描述；数据集用于学习受限文本空间；针对数据集D，本发明的具体实施步骤如下：

1)通过特征提取网络提取D中图像和文本的区域特征。

对于图像，预训练的VGG(Visual Geometry Group提出的神经网络结构)用于提取图像的全局特征和图像的区域特征集合；NIC用于提取蕴含着丰富物体之间交互信息的关联特征。对于文本，本发明使用双向LSTM(Bidirectional Long Short Term Memorynetworks，双向长短期记忆循环神经网络)网络提取文本的全局特征和文本的区域特征集合。双向LSTM网络未经过预训练，它的参数与特征映射网络的参数同步更新；

2)将步骤1)提取得到的特征送入特征映射网络。

首先，通过多步自注意力机制尽可能多地关注图像和文本区域特征之间物体层次的共享信息；其次，通过特征融合层实现物体层次的共享特征和关联特征的融合，并且映射至受限文本空间。为了在更快地训练速度下取得更好地实验结果，本发明将图像和文本的全局特征看作多步自注意力机制的全局先验知识，用于实现关键信息的快速定位；

3)相似性度量网络通过汇总各时刻有用信息的方式来衡量图像和文本之间最终的相似度，并且计算三元组损失函数。

4)最后，本发明通过优化该三元组损失函数更新网络参数。

其中，相似性衡量函数定义为：

sim(v，u)＝v·u

其中，v和u分别代表受限文本空间中的图像和文本的特征；k时刻二者的相似度s^k通过式7计算得到：

s^k＝v^k·u^k 式7

通过汇总K时刻有用信息的方式，衡量图像和文本之间最终的相似度S，表示为式8：

5)计算三元组损失函数，通过优化该三元组损失函数更新网络参数；

三元组损失函数表示为式9：

其中，s_p是输入图像i的第p个不匹配文本；i_p是输入文本s的第p个不匹配图像；m是最小距离间隔，取值为0.3；sim(v，t)是相似性度量函数。

本发明具体实施时，通过实现一个线上基于受限文本空间的多步自注意力跨媒体检索 Demo系统进一步验证本发明的有效性。其中，前端页面通过超文本标记语言(HyperText Markup Language，HTML)、层叠样式表(Cascading Style Sheets，CSS)和JavaScript实现；后台控制器通过Tornado工具实现。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于受限文本空间的多步自注意力跨媒体检索方法，包含特征提取网络，特征映射网络和相似性度量网络。特征提取网络用于提取图像和文本的全局特征、区域特征集合以及关联特征；其次，特征被进一步送入特征映射网络，并通过多步自注意力机制尽可能多地提取图像和文本之间物体层次的共享信息。由于它没有考虑不同物体之间的交互信息，特征映射网络通过特征融合层将物体层次的共享特征与关联特征相融合，并且映射至受限文本空间。为了在更快地训练速度下取得更好地实验结果，本发明将图像和文本的全局特征看作多步自注意力机制的全局先验知识，用于实现关键信息的快速定位；最后，相似性度量网络通过汇总各时刻有用信息的方式来衡量图像和文本之间最终的相似度，并且计算三元组损失函数。除了客观的评价指标(检索召回率)，本发明额外搭建了一个线上检索Demo。通过输入文本或者上传图像，该Demo可以返回对应的检索结果，从而从主观角度验证本发明的有效性。具体地，本发明具有如下技术优势：

(一)本发明基于受限文本空间，借助多步自注意力机制提出了新颖的特征映射网络。它可以在不同时刻选择性地关注部分共享信息，并且通过汇总各时刻有用信息的方式来衡量图像和文本之间最终的相似度；

(二)本发明通过图像题注模型提取图像中蕴含着的丰富的不同物体之间交互信息的关联特征，用于弥补物体层次共享信息的缺陷；

(三)为了在更快地训练速度下取得更好地实验结果，本发明将图像和文本的全局特征看作多步自注意力机制的全局先验知识，用于实现关键信息的快速定位。

(四)除了客观的评价指标(检索召回率)，本发明额外搭建了一个线上检索Demo。通过输入文本或者上传图像，该Demo可以返回对应的检索结果，从而从主观角度验证本发明的有效性。

附图说明

本发明共有附图6张，其中：

图1定义了物体层次的共享信息和关联信息的概念；

给定两对不同的图像-文本对，两者图像和文本之间物体层次的共享信息类似，比如“男人”，“冲浪板”和“波浪”。然而，物体之间的交互信息却不尽相同，比如男人是如何冲浪的 (“跳下来”vs“向...划动”)。

图2是本发明提供的方法的流程框图；

A和B分别表示图像和文本的处理分支；对于图像，CNN(Convolutional NeuralNetwork，卷积神经网络)是19层的VGG模型；表示图像i的区域特征集合；是通过图像题注模型NIC提取得到的关联特征；v_global是图像的全局特征；代表k时刻的图像共享特征；表示k时刻的图像上下文信息；特征融合层融合与关联特征并且映射至受限文本空间，从而得到k时刻的图像特征输出v^k；对于文本，BLSTM是双向LSTM网络；表示文本s的区域特征集合；u_global是文本的全局特征；表示k时刻的文本上下文信息。S即图像和文本之间最终的相似度。

图3是本发明特征映射网络的结构；

C和D分别表示文本和图像的自注意力机制；其中，注意力层用于计算图像和文本不同区域的特征权重(和)；加权平均层通过不同的权重对图像和文本的区域特征集合进行加权平均，得到当前时刻的共享特征(v^k和u^k)；表示通过恒等连接(虚线)更新上下文信息。

图4是在Flickr8K数据集下，全局先验知识对模型收敛速度的影响；

其中，“MSAN with prior”表示引入了全局先验知识的模型，“MSAN w/o prior”表示没有使用全局先验知识的模型。

图5～6展示了线上检索Demo的主要页面，分别是文本检索图像页面和图像检索文本页面截图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于受限文本空间的多步自注意力跨媒体检索方法，包含特征提取网络，特征映射网络和相似性度量网络。特征提取网络用于提取图像和文本的全局特征、区域特征集合以及关联特征；其次，特征被进一步送入特征映射网络，并通过多步自注意力机制尽可能多地提取图像和文本之间物体层次的共享信息。然而，它没有考虑不同物体之间的交互信息。如图1所示，对于两对不同的图像-文本对，两者图像和文本之间物体层次的共享信息类似，比如“男人”，“冲浪板”和“波浪”。然而，物体之间的交互信息却不尽相同，比如男人是如何冲浪的(“跳下去”和“向...划动”)。因此，特征映射网络通过特征融合层将物体层次的共享特征与关联特征相融合，并且映射至受限文本空间。为了在更快地训练速度下取得更好地实验结果，本发明将图像和文本的全局特征看作多步自注意力机制的全局先验知识，用于实现关键信息的快速定位；最后，相似性度量网络通过汇总各时刻有用信息的方式来衡量图像和文本之间最终的相似度，并且计算三元组损失函数。除了客观的评价指标(检索召回率)，本发明额外搭建了一个线上检索Demo。通过输入文本或者上传图像，该Demo可以返回对应的检索结果，从而从主观角度验证本发明的有效性。接下来，我们将详细描述特征提取网络、特征映射网络、相似性度量网络和线上检索Demo的原理及结构。

1、特征提取网络

如图2的A部分所示，给定输入图像i，VGG最后全连接层的输出被用于提取图像的4096 维全局特征v_global。由于多层卷积和池化操作相当于提取图像区域的特征，本发明将VGG最后池化层(pool5)的输出作为图像各区域的特征集合该层输出包含512张特征图(feature map)，每张特征图的大小为7×7。也就是说，图像区域总数为49，各个区域通过512维的特征向量表示。对于关联特征，本发明采用了图像题注任务的代表算法NIC，用于提取蕴含着丰富物体之间交互信息的512维关联特征在训练过程中，VGG和NIC 的参数固定。VGG通过ImageNet预训练；NIC通过跨媒体检索数据集预训练。

对于文本s＝(s₀，s₁，…，s_N)，我们采用双向LSTM网络提取各个单词的特征：

其中x_t表示t时刻的输入单词；和分别表示t时刻前向LSTM和后向LSTM的隐藏层的输出；表示当前输入单词的d维特征输出。因此，如图2的B部分所示，文本的区域特征集合可以被表示成全局特征u_global可以被看成是双向LSTM网络最后时刻的d维隐藏层输出。其中，维度d不仅表示文本的特征维度，还表示受限文本空间的维度。在实验过程中，d的取值为1024.

2、特征映射网络

针对图像和文本，特征映射网络分别采用了视觉自注意力机制和文本自注意力机制，如图3所示。

1)视觉自注意力机制

如图3的D部分所示，给定图像i的区域特征集合k时刻的图像共享特征通过式2提取得到：

其中，表示图像的k-1时刻的上下文信息；表示图像i中第n块区域的特征权重；则通过对不同图像区域的特征做加权平均得到；视觉自注意力函数用于计算各个图像区域的权重；和表示视觉自注意力函数的可训练参数，大小均为512×512。

接下来，特征融合层融合与关联特征并且映射至受限文本空间，从而得到k时刻的图像特征输出v^k：

其中，W^k为将映射至受限文本空间的全连接层参数，大小为512×1024；BN表示批量归一化层(Batch normalization)；ReLU表示激活函数。v^k不仅包含物体层次的图像共享特征，也包含丰富的物体之间的关联特征。

2)文本自注意力机制

如图3的C部分所示，给定文本s的单词特征集合k时刻的文本共享特征u^k通过式4计算得到：

其中，表示文本的k-1时刻的上下文信息；表示文本s中第n个单词的特征权重； u^k通过对不同单词的特征做加权平均得到；文本自注意力函数用于计算各个单词特征的权重；和表示文本自注意力函数的可训练参数，大小均为1024×512。

3)上下文信息

步骤1)和2)中提到的上下文信息和能够对自注意力网络已经关注过的信息进行编码。受到ResNet(深度残差网络，deepresidual network)恒等连接(identityconnection) 的启发，本发明定义上下文信息的更新公式如式5：

其中k∈{1，…，K}，V_att和T_att分别表示视觉自注意力和文本自注意力函数。恒等连接可以控制网络中上下文信息的流动，保留有用信息。

为了在更快地训练速度下取得更好地实验结果，本发明将初始上下文信息和初始化为图像和文本的全局特征，如式6所示：

其中v_global和u_global分别表示图像和文本的全局特征，也可以被称为全局先验知识。此时，全局特征可以被看成是多步自注意力机制的全局参考信息，用于实现关键信息的快速定位。

最后，本发明在K时刻分步实现多步自注意力机制，使得它在任一时刻k能够尽可能多地找到图像和文本之间的共享信息。对于不同的数据集，K的取值不同。在Flickr8K数据集上， K被设置为1；在Flickr30K和MSCOCO数据集上，K被设置为2。具体的实验结果展示在后续的实验分析部分。参数K表示多步自注意力机制总的循环次数。它也可以在时间上展开，可看成是在不同时刻k上依次进行多步自注意机制。

3、相似性度量网络

本发明定义了一个相似性衡量函数sim(v，u)＝v·u，其中v和u分别代表受限文本空间中的图像和文本的特征。k时刻两者的相似度s^k可以通过式7得到：

s^k＝v^k·u^k (7)

然后，通过汇总K时刻有用信息的方式来衡量图像和文本之间最终的相似度S：

最后，三元组损失函数被用于更新网络参数，如式9。

其中，s_p是输入图像i的第p个不匹配文本；i_p是输入文本s的第p个不匹配图像；m是最小距离间隔，取值为0.3；sim(v，t)是相似性度量函数；不匹配的样本在每个训练周期从数据集中随机选取。在训练过程中，我们通过Adam优化器更新网络参数，并且在前十次迭代中固定学习率大小为0.0002。随着训练的进行，学习率在后十次迭代中降低至0.00002.

4、线上检索Demo

线上检索Demo的实现主要通过Tornado工具实现。Tornado是一种Web服务器软件的开源版本，每秒可以处理数以千计的连接，而且速度相当快。因此，Tornado 是实时Web服务的一个理想框架。

Tornado的作用相当于MVC框架中的控制器(Controller)。它的作用包括：1) 查询读取；2)提取查询的特征；3)提取数据库中所有待检索数据的特征；4)将数据发送给模型(Model)。为了保证Demo的响应速度，数据库中所有待检索数据的特征已经预先载入内存。

本发明提出的基于受限文本空间的多步自注意力跨媒体检索方法相当于MVC框架中的模型(Model)，也被称为核心排序算法。它的主要任务是快速而准确地找到查询的相似数据并发送至控制器。在数据量较少的情况下，最容易的办法是线性扫描，即依次计算数据集中每个样本与查询的距离。然而，随着数据量的不断增加，线性扫描的时间耗费也逐步提升，Demo的响应速度也会随之变慢。由于实际数据一般都会呈现簇状的聚类形态，因此我们首先通过聚类算法(比如K-means)建立聚类中心，然后通过寻找与查询距离最近的聚类中心，比较聚类中的所有数据得到相似数据。基于该原理，我们选用Facebook的开源框架Faiss实现准确而快速的查询。Faiss是一种为稠密向量提供高效相似度搜索和聚类的框架。在查询之前，Faiss需要对数据集中的所有数据进行聚类，以形成不同的数据簇。

最后，MVC框架中的前端视图(View)相当于主流搜索引擎中的搜索页面，主要通过HTML、CSS和JavaScript等技术实现。该线上检索Demo一共包含三个页面：主页面、文本检索图像页面(图5)和图像检索文本页面(图6)。主页面包含文本输入框、相机图标和“Search”按钮。用户首先通过文本输入框输入文本或通过点击相机图标上传图像，然后点击“Search”按钮开始搜索。对于一段输入文本“Arestaurant has modern wooden tablesand chairs”，图5展示了对应的文本检索图像的结果；对于一张名为“COCO_train2014_000000000049jpg”的图像，图6展示了对应的图像检索文本的结果。检索结果的显示按照相关性顺序，即从上到下、从左到右，样本的相关性递减。为了保证搜索结果展示页面的美观性，图5和图6中的搜索框被移至左上角，功能不变。

表1～3给出了本发明在Flickr8K、Flickr30K和MSCOCO数据集上的召回率结果，Img2Txt代表图像到文本的检索，Txt2Img代表文本到图像的检索。为了评价检索效果，我们遵循了标准的排序度量标准，使用Recall@K。Recall@K通过计算正确匹配的数据排在前K(K＝1，5，10)个检索结果中的概率来对检索准确性进行度量； Recall@K的数值越大，检索结果越准确。图中列出了本发明与其它现有先进算法的效果比较，包括NIC(Neural ImageCaptioning)，m-CNN_ENS(Multimodal Convolutional Neural Networks)，HM-LSTM(Hierarchical Multimodal LSTM)，LTS(LimitedText Space)，DAN(Dual AttentionNetworks)，DSPE(Deep Structure-Preserving Image-Text Embeddings)，VSE++(Improving Visual-Semantic Embeddings)，sm-LSTM(Selective Multimodal LSTM)。此外，我们在本发明的基础上设计了三个对比模型：

·MSAN-obj没有使用关联特征只考虑了图像和文本之间物体层次的共享信息；

·MSAN-glob没有采用多步自注意力机制，仅通过全局特征表示图像和文本；

·MSAN是包含了关联特征和多步自注意力机制的完整模型。

表1实施例在Flickr8K数据集上的召回率结果

表2实施例在Flickr30K数据集上的召回率结果。

表3实施例在MSCOCO数据集上的召回率结果

从表1～3中可以看出，与DSPE、HM-LSTM、DAN等几种性能较好的方法相比， MSAN取得了现阶段基于VGG特征的最优结果。此外，MSAN比MSAN-obj和 MSAN-glob的实验结果都要好，证明了多步自注意力机制和关联特征的有效性。

表4不同K的取值对实施例的跨媒体检索效果的影响

表4展示了在Flickr8K和Flickr30K数据集上，多步自注意力机制的循环次数K 对实验结果的影响。从表格中我们可以看出，当K＝1，2时，MSAN分别在Flickr8K 和Flickr30K数据集上取得了最优的实验结果。K的值越大，多步自注意力机制的所需参数也就越多，越可能造成过拟合现象，从而降低检索召回率。因此，在Flickr8K 数据集上，K被设置为1；在Flickr30K和MSCOCO数据集上，K被设置为2。

表5全局先验知识对实施例的召回率结果的影响

表5展示了全局先验知识对实验结果的影响。我们设计了两个对比模型：“MSANwith prior”和“MSAN w/o prior”。其中“MSAN with prior”表示使用了全局先验知识的MSAN模型，“MSAN w/o prior”表示不使用全局先验知识的MSAN模型。从表5中可以看出，“MSAN with prior”的检索召回率高于“MSAN w/o prior”，从而验证了全局先验知识的有效性。图4则展示了在Flickr8K数据集下，“MSAN with prior”和“MSAN w/oprior”模型的损失函数变化趋势图。其中，“MSAN with prior”的收敛速度比“MSAN w/o prior”更快，并且模型收敛时的损失函数更小。因此，由于引入了全局先验知识，本发明可以在更快的收敛速度下取得更好的检索结果。

图5和图6分别展示了线上检索Demo的文本检索图像和图像检索文本的结果。从主观角度出发，尽管展示的结果中不一定包含真正的匹配样本，本发明提出的基于受限文本空间的多步自注意力跨媒体检索方法仍能找到与查询尽可能相似的结果，满足人们的需求。这也从主观角度验证了本发明的有效性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于受限文本空间的多步自注意力跨媒体检索方法，通过构建受限文本空间，再将非受限文本空间转换成受限文本空间；所述受限文本空间指的是具有相对固定的词汇表的文本空间；包括：

通过特征提取网络提取图像特征和文本特征；特征包括全局特征、区域特征集合和关联特征；

将提取得到的特征送入特征映射网络，并通过多步自注意力机制提取图像和文本之间物体层次的共享特征信息；

特征映射网络通过特征融合层将物体层次的共享特征与关联特征相融合，并且映射至受限文本空间；

再通过相似性度量网络汇总各时刻有用信息，衡量图像和文本之间的相似度，并计算三元组损失函数；

由此实现基于受限文本空间的多步自注意力跨媒体检索。

2.如权利要求1所述基于受限文本空间的多步自注意力跨媒体检索方法，其特征是，受限文本空间采用数据集D表示，设数据集D＝{D₁，D₂，…，D_I}共有I个样本，每个样本D_i包括一张图片i和一段描述文本s，即D_i＝(i，s)，每段文本由多个句子组成，每个句子均独立描述相匹配的图片；所述基于受限文本空间的多步自注意力跨媒体检索方法包括如下步骤：

1)通过特征提取网络提取D中图像和文本的区域特征；

对于图像，通过预训练的神经网络结构VGG提取图像的全局特征和图像的区域特征集合；通过图像题注模型方法NIC提取物体之间交互信息的关联特征；

对于文本，使用未经过预训练的双向长短期记忆循环神经网络LSTM提取文本的全局特征和文本的区域特征集合；LSTM的参数与特征映射网络的参数同步更新；

2)将步骤1)提取得到的特征送入特征映射网络；

首先，通过多步自注意力机制关注图像和文本区域特征之间物体层次的共享信息；

其次，通过特征融合层实现物体层次的共享特征和关联特征的融合，并且映射至受限文本空间；

将图像和文本的全局特征作为多步自注意力机制的全局先验知识，用于实现关键信息的快速定位；

3)通过相似性度量网络汇总各时刻有用信息，衡量图像和文本之间最终的相似度；相似性衡量函数定义为：

sim(v，u)＝v·u

s^k＝v^k.u^k 式7

4)计算三元组损失函数，通过优化该三元组损失函数更新网络参数；

三元组损失函数表示为式9：

3.如权利要求2所述基于受限文本空间的多步自注意力跨媒体检索方法，其特征是，步骤1)中，对于文本s＝(s₀，s₁，…，s_N)，采用双向LSTM网络提取各个单词的特征，具体表示为式1：

其中，x_t表示t时刻的输入单词；和分别表示t时刻前向LSTM和后向LSTM的隐藏层的输出；表示当前输入单词的d维特征输出；

文本的区域特征集合表示为将双向LSTM网络最后时刻的d维隐藏层输出作为全局特征v_global；其中，维度d既是文本的特征维度，也是受限文本空间的维度。

4.如权利要求2所述基于受限文本空间的多步自注意力跨媒体检索方法，其特征是，步骤1)中，输入图像v，利用VGG最后全连接层的输出提取图像的4096维全局特征，，记作v_global；将VGG最后池化层poo15的输出作为图像各区域的特征集合该层输出包含512张特征图，每张特征图的大小为7×7，图像区域总数为49，各个区域通过512维的特征向量表示。

5.如权利要求4所述基于受限文本空间的多步自注意力跨媒体检索方法，其特征是，采用NIC提取物体之间交互信息，得到512维关联特征在训练NIC过程中，VGG和NIC的参数固定。

6.如权利要求1所述基于受限文本空间的多步自注意力跨媒体检索方法，其特征是，特征映射网络针对图像采用视觉自注意力机制；具体执行如下操作：

给定图像i的区域特征集合通过式2提取得到k时刻的图像共享特征

其中，表示图像的k-1时刻的上下文信息；表示图像i中第n块区域的特征权重；是通过对不同图像区域的特征做加权平均得到；视觉自注意力函数用于计算各个图像区域的权重；和表示视觉自注意力函数的可训练参数；

利用特征融合层融合与关联特征并映射至受限文本空间，从而得到k时刻的图像特征输出v^k，表示为式3：

其中，W^k为将映射至受限文本空间的全连接层参数；BN表示批量归一化层；ReLU表示激活函数；v^k既包含物体层次的图像共享特征，也包含物体之间的关联特征。

7.如权利要求1所述基于受限文本空间的多步自注意力跨媒体检索方法，其特征是，特征映射网络针对文本采用文本自注意力机制；具体执行如下操作：

给定文本s的单词特征集合k时刻的文本共享特征u^k通过式4计算得到：

其中，表示文本的k-1时刻的上下文信息；表示文本s中第n个单词的特征权重；u^k通过对不同单词的特征做加权平均得到；文本自注意力函数用于计算各个单词特征的权重；和表示文本自注意力函数的可训练参数。

8.如权利要求6或7所述基于受限文本空间的多步自注意力跨媒体检索方法，其特征是，利用上下文信息和对自注意力网络关注过的信息进行编码；具体定义上下文信息的更新公式如式5：

其中，k∈{1，…，K}，K表示多步自注意力机制总的循环次数；V_att和T_att分别表示视觉自注意力和文本自注意力函数。

9.如权利要求8所述基于受限文本空间的多步自注意力跨媒体检索方法，其特征是，将图像和文本的全局特征分别作为初始上下文信息和如式6：

其中，v_global和u_global分别表示图像和文本的全局特征即全局先验知识；全局特征作为多步自注意力机制的全局参考信息，用于实现关键信息的快速定位。

10.一种利用权利要求1或2所述基于受限文本空间的多步自注意力跨媒体检索方法实现的基于受限文本空间的多步自注意力跨媒体检索系统，采用模型-视图-控制器MVC框架，其中，模型Model采用所述基于受限文本空间的多步自注意力跨媒体检索方法作为核心排序算法；视图View对应前端页面，用于实现查询图像或文本的输入和检索结果的展示；控制器Controller对应后台控制器，用于从前端读取查询输入，并向核心排序算法发送数据；优选地，前端页面通过超文本标记语言HTML、层叠样式表CSS和JavaScript实现；后台控制器通过Tornado工具实现。