CN109992686A

CN109992686A - 基于多角度自注意力机制的图像-文本检索系统及方法

Info

Publication number: CN109992686A
Application number: CN201910134902.7A
Authority: CN
Inventors: 张玥杰; 李文杰; 张涛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-02-24
Filing date: 2019-02-24
Publication date: 2019-07-09

Abstract

本发明属于跨模态检索技术领域，具体为基于多角度自注意力机制的图像‑文本检索系统及方法。系统包括：深度卷积网络，双向循环神经网络，图像、文本自注意力网络，多模态空间映射网络，以及多阶段训练模块；深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量，双向循环神经网络用于获取单词特征在文本空间的嵌入向量，两者分别输入至图像、文本自注意力网络；图像、文本自注意力网络用于获取图像关键区域的嵌入表示和句子中关键单词的嵌入表示；多模态空间映射网络用于获取图像文本在多模态空间的嵌入表示；多阶段训练模块用于学习网络中的参数。本发明在公共数据集Flickr30k和MSCOCO上取得良好结果，性能有很大提升。

Description

基于多角度自注意力机制的图像-文本检索系统及方法

技术领域

本发明属于跨模态检索技术领域，具体涉及基于多角度自注意力机制的图像-文本检索系统及方法。

背景技术

在各种多模态信息处理任务中，图像和文本之间的跨模态分析与处理研究是众多研究方向里非常重要的一项。具体包括图像描述自动生成、及图文互搜等任务。这里重点关注跨模态检索，也就图文互搜任务。图文互搜就是输入一幅图像，需要找出与之语义最相似的K个句子。或者输入一个句子，找到与之语义最相关的K幅图像。图文互搜是一项非常具有挑战性的任务，因为其涉及到模式识别非常重要的两个分支研究领域，即计算机视觉和自然语言处理。从计算机视觉的角度看，图像描述的信息可涉及到中任何视觉内容如物体以及属性等或者图像中的完整场景，提取图像的特征一般采用卷积神经网络(ConvolutionalNeural Networks,CNN)，提取图像的特征一般采用卷积神经网络，如VGG、ResNet等，但提取的特征粒度比较粗。从自然语言处理角度来看，如何对句子进行编码以表示出语义特征也是一个具有挑战性的问题。传统方法多采用词袋模型来量化表示句子，这样处理的优点是简单直接，缺点是忽略句子中单词之间的顺序依赖信息。循环神经网络(Recurrent NeuralNetwork,RNN)是一种新型的神经网络方法，该方法通过循环网络可以学习到词与词之间的序列依赖信息，相比词袋模型信息量更多。RNN最后一个时刻的隐层输出可以作为句子特征表示，但属于粗粒度的句子特征表示。

图文检索模型一般分别对图像(如采用CNN)和文本(如采用RNN)进行编码，然后利用目标函数将图像空间和文本空间尽可能地融合。之后，即可通过向量内积来进行相似度的计算，一般使用Pairwise Ranking损失函数进行训练，即文本与匹配图像的相似度要比与不匹配图像的相似度高一个边缘，图像与匹配文本的相似度要比与不匹配文本的相似度高一个边缘。Faghri等人[5]又针对难例的优化进行改善，难例的优化在于让一幅图像与正样本文本的相似性比最不好区分的负样本文本之间的相似性大一个边缘，针对文本对应的正样本图像和负样本图像也是如此。

尽管现有工作在图像-文本检索任务上已取得不小突破，但总体而言，基于基础的CNN+RNN模型还处于一个“粗糙”的起始阶段，检索出来的图像(文本)和被查询文本(图像)还有一些差异，优化方法仍存在改善空间。

发明内容

本发明为克服现有CNN+RNN模型在图像-文本检索技术上所提取的特征不够细致、以及优化方法的缺陷，提供一种基于多阶段训练多角度自注意力机制的图像-文本检索系统及方法。

本发明提供的基于多阶段训练多角度自注意力机制的图像-文本检索系统，包括：深度卷积网络，双向循环神经网络，图像自注意力网络，文本自注意力网络，多模态空间映射网络，及多阶段训练模块；所述深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量，并输入至图像自注意力网络；所述双向循环神经网络用于获取单词特征在文本空间的嵌入向量，并输入至文本自注意力网络；所述图像自注意力网络用于获取图像关键区域的嵌入表示；所述文本自注意力网络用于获取句子中关键单词的嵌入表示；所述多模态空间映射网络用于获取图像文本的在多模态空间的嵌入表示；所述多阶段训练模块用于学习网络中的参数。

进一步，所述深度卷积网络采用152层ResNet[7]；ResNet将所述图像表示为7x7x2048的特征映射，特征映射的计算公式为：

V＝CNN_Enc(I_i；θ_CNN)，(1)

其中，θ_CNN是ResNet中包含的所有参数，I_i为输入图像，V＝{v₁,v₂,…,v_R+为图像区域表示(2048维)，R(7x 7)为区域的个数；

所述双向循环网络采用门控循环单元(GRU)[2]；所述双向循环网络将所述文本中每个单词表示为1024维向量，特征映射的计算公式为：

U＝GRU_Enc(T_i；θ_GRU)，(2)

其中，θ_GRU是双向循环网络中包含的所有参数，T_i为输入文本，U＝{u₁,u₂,…,u_T+为单词表示，T为单词个数。

进一步，所述图像、文本多角度自注意力网络，其输入分别为图像区域表示V和单词表示U。每个区域或单词的权重通过两层全连接以及softmax函数获得，即：

然后，对每个区域进行加权求和，获得每个角度的特征表示：

其中，m为角度数，v⁽ⁱ⁾和u⁽ⁱ⁾分别为第i个角度图像和文本的特征表示。V为图片区域特征表示，P^v，Q^v，为其参数，W^v为求得的权重；与之对应，U为单词特征表示，P^u，Q^u，为其参数，W^u为求得的权重。

进一步，所述多模态映射网络把图像特征和文本特征映射到多模态空间中，其计算公式为：

v＝L2norm(F^v[v⁽⁰⁾；v⁽¹⁾；…；v^(m)]+b^v) (6)

u＝L2norm(F^u[u⁽⁰⁾；u⁽¹⁾；…；u^(m)]+b^u) (7)

其中，F^v和F^u为映射矩阵，b^v和b^u为偏置权重，v和u分别为多模态空间图像与文本的嵌入表示。

进一步，所述多阶段训练模块，其中，先采用第一阶段损失函数训练，然后采用第二阶段损失函数进行训练，最后以一个较小的学习率联合所有模块包括ResNet网络进行微调。

第一阶段损失函数为：

第二阶段损失函数为：

其中，I为单位向量，S为图片与文本的相似矩阵，对角线上的元素即为匹配的图像文本对的相似性，非对角线上的元素为不匹配的图像文本对的相似性，相似性的计算为图片特征表示v和文本特征表示u的余弦相似性，即为s(v,u)＝v^Tu。[x]₊≡max(x,0)，第二阶段的损失函数表示让一幅图像与正样本文本的相似性比最不好区分的负样本文本之间的相似性大一个边缘，针对文本对应的正样本图像和负样本图像也是如此。

本发明还提供所述的基于多阶段训练多角度自注意力机制的图像-文本检索系统的图像-文本检索方法，具体步骤为：

步骤一、由深度卷积网络获取图像区域在嵌入空间中的嵌入向量，并输出至图像自注意力网络中；

由双向循环网络获取文本单词在嵌入空间中的嵌入向量，并输出至文本自注意力网络中；

步骤二、由图像、文本多角度自注意力网络，分别提取图像、文本中关键区域的表示和关键单词的表示；

步骤三、由多模态空间映射网络把图像文本映射至一个多模态空间中；

步骤四、由多阶段训练模块，采用不同的损失函数进行参数学习。

本发明的优点包括：首先，本发明采用多角度自注意力机制提取图像和文本中的细粒度特征，更好地关注其中的重要信息；其次，使用多阶段训练方法，让网络学习到更好的参数；最后，本发明在公共数据集Flickr30k[17]和MSCOCO[6]上取得良好结果，性能较当前方法具有很大提升。

附图说明

图1是本发明的框架图。

图2是多角度自注意力可视化示意图。

图3是本发明的应用效果图。

具体实施方式

由背景技术可知，现有的图像-文本检索方法所提取的实例特征比较粗糙，未能很好地反映之中的关键语义信息，同时优化方法上也存在其改善的空间。申请人针对所述问题进行研究，认为可以把其中的关键信息从不同角度提取出来。比如给定一幅图像，不同的人可能关注不同的内容，如狗或者草地，针对文本也一样。为此，采用自注意力机制从不同角度来提取其中的关键信息，同时在难例的优化上做进一步研究，发现先进行整体的优化然后进行难例的优化，可使所提出的框架得到更好的优化，学习到更好的网络参数。

本实施例中，图像区域特征由在ImageNet上预训练好的ResNet网络提取出来。首先把图像调整成256x256大小，然后随机裁剪成224x224大小的区域输入至ResNet中，并在测试阶段居中裁剪。ResNet除最后的全连接层外全是由卷积层和池化层组成，因此图像区域的表示可以和它对应全卷积网络的输出关联起来，即为ResNet最后一个池化层的输出。图像的区域表示为{v₁,v₂,…,v_R}，其中v_i(i＝1,2,…,R)是一个d_v(2048)维的向量，代表第i个区域的特征表示，R是区域的个数。这个过程可以表示为V＝CNN_Enc(I_i；θ_CNN)，其中，θ_CNN是ResNet中包含的所有参数，I_i为输入图像，V是{v₁,v₂,…,v_R}这个集合的表示。

针对句子中单词的表示，使用双向GRU来提取其上下文表示。对于一个有T个单词的文本，把每个单词编码为热向量{w₁,w₂,…,w_T}，首先把单词映射至嵌入空间中，即x_t＝Mw_t，M是嵌入矩阵，然后输入至双向GRU中：

其中，和分别表示前向和反向GRU在t时刻隐藏层的输出。通过连接每个时间步两个隐藏层的输出，可得到单词的上下文表示，表示为{u₁,u₂,…,u_T}，u_i代表第i个单词在整个句子上下文中的语义。整个过程可以表示为U＝GRU_Enc(T_i；θ_GRU)，T_i为输入文本，所述双向GRU来提取单词的上下文特征U，即集合{u₁,u₂,…,u_T}，θ_GRU是GRU网络中的参数以及参数矩阵M。不同于直接使用在ImageNet上预训练好的卷积网络，单词嵌入矩阵和GRU中的参数和下游网络联合起来从头开始训练。

本实施例中，获取图像区域的特征和单词的上下文语义特征后，为简化处理，图像文本的粗粒度特征取所有实例(即区域或单词)特征的平均值。这里，粗粒度特征(v⁽⁰⁾和u⁽⁰⁾分别表示图像和文本)表示如下：

为更好地获得图像文本的表示，所述多角度自注意力机制获取其细粒度特征，从不同角度来注意其重点区域或单词。所注意的特征可表示为每个区域或单词特征的加权和。其权值通过两层的感知机来获取，即：

其中，Q^v(d_hxd_v)和P^v(m xd_h)是参数矩阵，softmax函数作用在其输入的第二个维度；W^v是求得的权重矩阵，大小为m x R，每一行代表一个角度注意力的权重。针对句子的多角度attention也为类似。因此，v⁽ⁱ⁾和u⁽ⁱ⁾代表图像和文本中第i个角度注意的权重。如果不同的角度注意相似的内容，权重矩阵W会存在冗余。为此，使用下列惩罚项：

该策略约束每个角度注意尽可能少的区域或者单词，同时不同角度要注意到不同的内容。考虑W中的两行wⁱ和w^j，即两个角度自注意力的权重。softmax函数使得W中每一行中的元素和都为1，因此可看作离散的概率分布。对于矩阵WW^T中的任意元素a_ij,其来自于两个概率分布的内积：

其中，和分别是wⁱ和w^j向量中的第k个元素。对于在矩阵WW^T中的任意对角线元素a_ij(i＝j)，让其趋近于1，这意味着每个注意角度注意尽可能少的区域或单词，在极端情况下，W中的每行只有一个1，剩下的均为0，即代表只注意一个区域或一个单词。与此同时，对于在矩阵WW^T中的任意非对角线元素a_ij(i≠j)，让其趋近于0，在极端情况下，和无重叠区域，否则将为一个正数。

在本实施例中，所述多模态空间映射网络中把粗粒度特征和细粒度特征连接起来，然后用所述全连接层以及归一化操作映射至多模态空间中。其过程为：

v＝L2norm(F^v[v⁽⁰⁾；v⁽¹⁾；…；v^(m)]+b^v) (24)

u＝L2norm(F^u[u⁽⁰⁾；u⁽¹⁾；…；u^(m)]+b^u) (25)

其中，v和u分别是图像文本在多模态空间的嵌入表示，F^v和F^u是映射矩阵，b^v和b^u是对应的偏置。

在获取图像和文本于多模态空间的嵌入表示后，可通过余弦相似度来计算图像文本的相似性，检索时返回相似度最高的前K个即可。其相似度计算公式为：

s(v,u)＝v^Tu (26)

在本实施例中，为更好地学习到网络中的参数，所述多阶段训练方法可进行更好的优化。前一个阶段可为后面的阶段提供比较好的初始参数，以便更好地学习。其具体过程如下：

在第一阶段中，采用MSE损失，让匹配图像文本对的相似度靠近1，不匹配的图像文本的相似度靠近0，对应的损失函数为：

其中，S为相似矩阵，对角线上的元素即为匹配的图像文本对，非对角线上的元素为不匹配的图像文本对。

在经过第一阶段的训练后，在第二阶段针对难例进行优化，对应的损失函数为：

其中，[x]₊≡max(x,0)，难例的优化在于让一幅图像与正样本文本的相似性比最不好区分的负样本文本之间的相似性大一个边缘，针对文本对应的正样本图像和负样本图像也是如此。由于第一阶段是让相似度的平方趋近于0或1，在第二阶段也对对应的相似度取平方。

因此，对应总的损失函数为：

L＝l+α₁P^v+α₂P^u (29)

其中，l为第一阶段或者第二阶段的损失函数，即l_stage-I或l_stage-II，α₁,α₂为对应的权重，考虑到不同任务之间的差异，在两个阶段的优化后微调ResNet。

本实施例中，选取两个公共数据集进行网络训练，即Flickr30k和MSCOCO。Flickr30k是从Flickr网站上进行爬取，其包含31783幅图像以及配对的描述句子，其中每幅图像都包含5个在语法表达上类似的句子来对其描述，这些句子都是经过人工标注和检验。另外一个数据集MSCOCO则比Flickr30k规模更大一些，在官方发布的原始集合中包含82783幅用于训练的图像以及40504幅用于校验的图像，同样每一幅图像也包含5个语义相关的句子来对其进行描述。为更好地进行训练和测试，对两个数据集进行初步预处理。对于句子描述部分，使用斯坦福的分词工具对句子进行分词，过滤掉在数据集中出现次数少于5次的单词。通过这样的过滤操作，可以过滤到噪音信息，保留更有意义的文本信息。在经过预处理后，对于Flickr30k和MSCOCO两个数据集对应的新词典大小分别为7414和8791。

本实施例中选取TopK的召回率来进行评价，该指标是指在检索结果中前K个有对应正样本结果所占的比例。一般K取1、5、10。该指标分为从图像到文本和从文本到图像，从而来度量两个检索方向的检索效果。

通过在验证数据集上的实验对比，对应本实施例所提出模型包含的超参数设定如下：对于两个数据集，词嵌入矩阵的维度都设置为300，GRU隐藏层的维度为512，多模态空间的维度为1024，边缘为0.2，α₁,α₂为0.001。为此，将本实施例所提出的模型在Flickr30k与MSCOCO两个数据集上分别进行测试。其中，在Flickr30k上图像到文本的召回率分别为57.7％/82.5％/89.4％(分别为Top-1、Top-5、Top-10的召回率，下同)，文本到图像上的召回率分别为42.7％/70.8％/80.3％；在MSCOCO上图像到文本的召回率分别为65.4％/91.3％/95.8％，文本到图像的召回率分别为52.6％/81.2％/92.1％。整体性能相比以往方法有较大的提升。

综上所述，本发明面向图像与句子级别文本之间的关联建模，提出一种新颖的多角度自注意力方法，采用卷积神经网络CNN对图像区域进行内容编码，循环神经网络RNN对文本中的单词进行语义编码，自注意力网络找出图像中的关键区域或文本中的关键单词，最后把图像文本映射至多模态空间中。与此同时，网络训练采用多阶段训练的方法，第一阶段的损失函数可为第二阶段提供一个比较好的初始值，便于网络优化。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

参考文献

[1]Antol S.,Agrawal A.,Lu J.,Mitchell M.,Batra D.,Zitnick C.L.,andParikh D.2015.VQA:Visual Question Answering.In Proceedings of ICCV 2015,pages2425-2433.

[2]Cho K,VanB,Gulcehre C,et al.Learning phraserepresentations using RNN encoder-decoder for statistical machinetranslation.Computing Research Repository,arXiv:1406.1078.Version 3.

[3]Deng J.,Berg A.,Satheesh S.,Su H.,Khosla A.,and LiF.F.2009.ImageNet:A large-scale hierarchical image database.In Proceedings ofCVPR 2009,pages248-255.

[4]Eisenschtat A.and Wolf L.2017.Linking Image and Text with 2-WayNets.In Proceedings of CVPR 2017,pages 1855-1865.

[5]Faghri F.,Fleet D.J.,Kiros J.R.,and Fidler S.2017.VSE++:ImprovingVisual-Semantic Embeddings with Hard Negatives.Computing Research Repository,arXiv:1707.05612.Version 2.

[6]Lin T.Y.,Maire M.,Belongie S.,Hays J.,Perona P.,Ramanan D.,DollarP,Zitnick C.L.2014.Microsoft coco:Common objects in context.In Proceedings ofECCV2014,pp.740-755.

[7]He K.M.,Zhang X.Y.,Ren S.H.,and Sun J.2016.Deep residual learningfor image recognition.In Proceedings of CVPR 2016,pages 770-778.

[8]Huang Y.,Wang W.,and Wang L.2017.Instance-Aware Image and SentenceMatching with Selective Multimodal LSTM.In Proceedings of CVPR 2017,pages7254-7262.

[9]Karpathy A.and Li F.F.2015.Deep visual-semantic alignments forgenerating image descriptions.In Proceedings of CVPR 2015,pages 3128-3137.

[10]Karpathy A.,Joulin A.,and Li F.F.2014.Deep fragment embeddingsfor bidirectional image sentence mapping.In Proceedings of NIPS 2014,pages1889-1897.

[11]Kiros R.,Salakhutdinov R.,and Zemel R.2014.Unifying visual-semantic embeddings with multi-modal neural language models.ComputingResearch Repository,arXiv:1411.2539.Version 1.

[12]Kingma D.P.and Ba J.2015.Adam:A method for stochasticoptimization.Computing Research Repository,arXiv:1412.6980.Version 8.

[13]Lin Z.H.,Feng M.W.,Santos C.N.D.,Yu M.,Xiang B.,Zhou B.W.,andBengio Y.S.2017.A structured self-attentive sentence embedding.ComputingResearch Repository,arXiv:1703.03130.Version 1.

[14]Liu Y.,Guo Y.M.,Bakker E.M.,and Lew M.S.2017.Learning a RecurrentResidual Fusion Network for Multimodal Matching.In Proceedings of ICCV 2017,pages4127-4136.

[15]Nam H.,Ha J.W.,and Kim J.2017.Dual attention networks formultimodal reasoning and matching.In Proceedings of CVPR 2017,pages 2156-2164.

[16]Vinyals O.,Toshev A.,Bengio S.,and Erhan D.Show and tell:A neuralimage caption generator.2015.In Proceedings of CVPR 2015,pages 3156-3164.

[17]Young P.,Lai A.,Hodosh M.,and Hockenmaier J.2014.From imagedescriptions to visual denotations:New similarity metrics for semanticinference over event descriptions.Journal of Transactions of the Associationfor Computational Linguistics,2:67-78.

[18]Zheng Z.D.,Zheng L.,Garrett M.,Yang Y.,and Shen Y.D.2017.Dual-Path Convolutional Image-Text Embedding.Computing Research Repository,arXiv:1711.05535.Version 2.。

Claims

1.一种多角度自注意力机制的图像-文本检索系统，其特征在于，包括：深度卷积网络，双向循环神经网络，图像自注意力网络，文本自注意力网络，多模态空间映射网络，及多阶段训练模块；所述深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量，并输入至图像自注意力网络；所述双向循环神经网络用于获取单词特征在文本空间的嵌入向量，并输入至文本自注意力网络；所述图像自注意力网络用于获取图像关键区域的嵌入表示；所述文本自注意力网络用于获取句子中关键单词的嵌入表示；所述多模态空间映射网络用于获取图像文本的在多模态空间的嵌入表示；所述多阶段训练模块用于学习网络中的参数。

2.根据权利要求1所述的图像-文本检索系统，其特征在于，所述深度卷积网络采用152层ResNet；ResNet将所述图像表示为7x7x2048的特征映射，特征映射的计算公式为V＝CNN_Enc(I_i；θ_CNN)，其中，θ_CNN是ResNet中包含的所有参数，I_i为输入图像，V＝{v₁,v₂,…,v_R}为图像区域表示，为2048维，R(7x7)为区域的个数；

所述双向循环网络采用门控循环单元(GRU)；双向循环网络将所述文本中每个单词表示为1024维向量，特征映射的计算公式为：U＝GRU_Enc(T_i；θ_GRU)，其中，θ_GRU是双向循环网络中包含的所有参数，T_i为输入文本，U＝{u₁,u₂,…,u_T}为单词表示，T为单词个数。

3.根据权利要求1所述的图像-文本检索系统，其特征在于，所述图像、文本自注意力网络，其输入分别为图像区域表示V和单词表示U；每个区域或单词的权重通过两层全连接以及softmax函数获得，即：

其中，m为角度数，v⁽ⁱ⁾和u⁽ⁱ⁾分别为第i个角度图像和文本的特征表示；V为图片区域特征表示，P^v，Q^v，为其参数，W^v为求得的权重；与之对应，U为单词特征表示，P^u，Q^u，为其参数，W^u为求得的权重。

4.根据权利要求1所述的图像-文本检索系统，其特征在于，所述多模态映射网络把图像特征和文本特征映射到多模态空间中，其计算公式为：

v＝L2norm(F^v[v⁽⁰⁾；v⁽¹⁾；…；v^(m)]+b^v)

u＝L2norm(F^u[u⁽⁰⁾；u⁽¹⁾；…；u^(m)]+b^u)

5.根据权利要求1所述的图像-文本检索系统，其特征在于，所述多阶段训练模块，其中，先采用第一阶段损失函数训练，然后采用第二阶段损失函数进行训练，最后以一个较小的学习率联合所有模块包括ResNet网络进行微调；

第一阶段损失函数为：

第二阶段损失函数为：

其中，I为单位向量，S为图片与文本的相似矩阵，对角线上的元素即为匹配的图像文本对的相似性，非对角线上的元素为不匹配的图像文本对的相似性，相似性的计算为图片特征表示v和文本特征表示u的余弦相似性，即为s(v,u)＝v^Tu，[x]₊≡max(x,0)。

6.一种基于权利要求1-5之一所述图像-文本检索系统的图像-文本检索方法，其特征在于，具体步骤为：

步骤二、由图像、文本多角度自注意力网络，提取图像、文本中关键区域的表示和关键单词的表示；