CN111651661A

CN111651661A - 一种图文跨媒体检索方法

Info

Publication number: CN111651661A
Application number: CN202010495235.8A
Authority: CN
Inventors: 王春辉; 胡勇
Original assignee: Polar Intelligence Technology Co ltd
Current assignee: Polar Intelligence Technology Co ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-11
Anticipated expiration: 2040-06-03
Also published as: CN111651661B

Abstract

本发明公开一种图文跨媒体检索方法。本发明通过提取输入图像的图像特征V，对输入句子进行编码得到词级别表示S^w，将S^w输入卷积神经网络CNN得到短语级别表示S^p，分别计算S^w、S^p与V的相似度，将得到的两个相似度进行融合得到输入文本与图像的相似度，实现了图文跨媒体检索。本发明采用文本对图像的注意力引导，通过计算文本在词级别和短语级别上与图像的相似度，并对两个相似度进行融合得到文本与图像的相似度，提高了检索的准确度。

Description

一种图文跨媒体检索方法

技术领域

本发明属于自然语言理解技术领域，具体涉及一种图文跨媒体检索方法。

背景技术

跨媒体检索是指用户给定一个媒体的查询信息，可以检索出语义相关的其他媒体的信息。目前，跨媒体检索的方法分为两大类：一类是基于共同语义空间学习的方法；另一类是基于跨模态特征融合的方法。

基于共同语义空间学习的方法，其本质在于对齐不同模态数据的分布和特征表示。其中，传统经典的相关分析是此类方法的基础。典型相关分析CCA(CanonicalCorrelation Analysis)是最为经典的方法。正因为在跨媒体检索中，数据常常是成对出现的，CCA将这些成对出现的数据投影到相同的子空间中，使其距离最小化、相似性最大化。CCA是一种无监督类方法，因为其没有用到数据的类别标签。有学者尝试将标签信息加入到CCA中，使用分析方法得到各个模态在公共空间的线性投影，再对不同模态数据做逻辑回归。由于不同媒体数据所含信息量不对等，基于共同语义空间学习的方法可能损失部分信息或者引入噪声。

基于跨模态特征融合的方法，其本质在于捕捉跨媒体数据间复杂的关联关系。特征融合分析类方法主要是构造一个多路径的模型，每个不同的路径用于提取各自模态的语义特征，利用深度神经网络对这些特征进行融合分析，挖掘各个模态间的潜在关系得到相似度。可使用多模态长短记忆网络挖掘句子和图像的潜在语义关系，通过调节注意力机制来选择语义更相关的多模态数据作为训练对象，将多个时间步长内的局部相似性与隐层状态融合，以获得最终匹配分数作为所需的全局相似度。有学者提出将多模态双线性映射模型(MCB)用于融合图像视觉和文本信息，模型中的注意力机制和多个MCB使得模型在视觉问答领域有很大的提升。基于跨模态特征融合的方法，对复杂关联关系挖掘不充分。虽然基于注意力机制的跨模态特征融合方法可以获取更复杂的关系，但缺乏层次化特征间多对多的关联关系。

发明内容

为了解决现有技术中存在的上述问题，本发明提出一种基于图文层次化信息交互的跨媒体检索方法。

为实现上述目的，本发明采用如下技术方案：

一种图文跨媒体检索方法，包括以下步骤：

步骤1，按区域提取输入图像的图像特征V＝{v₁,v₂,…,v_N}，v_n为第n个区域的图像特征，n＝1,2,…,N，N为图像特征的数量；

步骤2，利用双向GRU对输入句子S进行编码，得到S的词级别表示

为第t个词的词向量表示，t＝1,2,…,T，T为词的数量；

步骤3，将S^w输入卷积神经网络CNN得到S的短语级别表示

为第t个词的短语向量表示，t＝1,2,…,T，T为词的数量；

步骤4，分别计算S^w、S^p与V的相似度，将得到的两个相似度进行融合得到输入文本与图像的相似度，根据相似度大小进行匹配检索。

与现有技术相比，本发明具有以下有益效果：

本发明通过提取输入图像的图像特征V，对输入句子进行编码得到词级别表示S^w，将S^w输入卷积神经网络CNN得到短语级别表示S^p，分别计算S^w、S^p与V的相似度，将得到的两个相似度进行融合得到输入文本与图像的相似度，实现了图文跨媒体检索。本发明采用文本对图像的注意力引导，通过计算文本在词级别和短语级别上与图像的相似度，并对两个相似度进行融合得到文本与图像的相似度，提高了检索的准确度。

附图说明

图1为本发明实施例一种图文跨媒体检索方法的流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明实施例一种图文跨媒体检索方法，流程图如图1所示，所述方法包括以下步骤：

S101、按区域提取输入图像的图像特征V＝{v₁,v₂,…,v_N}，v_n为第n个区域的图像特征，n＝1,2,…,N，N为图像特征的数量；

S102、利用双向GRU(Gated Recurrent Unit，门控循环单元)对输入句子S进行编码，得到S的词级别表示

为第t个词的词向量表示，t＝1,2,…,T，T为词的数量；

S103、将S^w输入卷积神经网络CNN得到S的短语级别表示

为第t个词的短语向量表示，t＝1,2,…,T，T为词的数量；

S104、分别计算S^w、S^p与V的相似度，将得到的两个相似度进行融合得到输入文本与图像的相似度，根据相似度大小进行匹配检索。

本实施例是一种基于图文层次化信息交互的跨媒体检索方法。观察到文本与图像的局部细粒度语义匹配并不是简单的一个词与图像中的一个区域的对应，更多的是文本中的短语与图像中的区域之间的对应关系。本实施例首先进行图像上的区域特征表示；然后提取文本的层次语义信息，包括词级别和短语级别；最后基于局部注意力机制的细粒度特征融合技术，进行图像和文本特征之间的相似性计算。

在本实施例中，步骤S101主要用于按区域提取图像特征。每个特征对应于图像中的一个区域。可采用Anderson等人在Visual Genomes数据集上预训练好的Faster-RCNN模型进行图像特征提取。

在本实施例中，步骤S102主要用于词级别表示输入文本。输入句子为one-hot表示的词语组成的句子，利用双向GRU对输入句子S进行编码，可表示为Bi_GRU(S)，得到文本词级别的向量表示

上标“w”表示词级别。GRU是循环神经网络(Recurrent Neural Network,RNN)的一种，是为了解决长期记忆和反向传播中的梯度等问题而提出来的。GRU输入输出的结构与普通的RNN相似，其中的内部结构与LSTM(Long-ShortTerm Memory，长短时记忆网络)相似，与LSTM相比，GRU内部少了一个门控函数，参数比LSTM少，却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本，因而很多时候会选择使用GRU。

在本实施例中，步骤S103主要用于短语级别表示输入文本。将上一步得到的词级别的向量表示S^w输入卷积神经网络CNN，得到S的短语级别表示

上标“p”表示短语级别。CNN是一类包含卷积计算且具有深度结构的前馈神经网络，其隐含层包含卷积层、池化层和全连接层三类常见构筑。卷积层和池化层为卷积神经网络特有。卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量，类似于一个前馈神经网络的神经元。

在本实施例中，步骤S104主要用于进行图文匹配检索。本实施例基于不同级别的文本表示与图像特征V进行匹配。具体地，分别计算S^w、S^p与V的相似度，将得到的两个相似度进行融合得到输入文本与图像的相似度，最后根据相似度大小进行匹配检索。由于基于不同级别的文本表示与图像进行匹配，因此可以提高匹配准确度。

作为一种可选实施例，所述S103具体包括：

通过CNN对S^w进行卷积核大小分别为1、2、3的一维卷积运算，提取文本特征，第t个词的卷积公式如下：

式中，

和

分别为对第t个词、第t个词及后面1个词和第t个词及后面连续2个词卷积结果，

和

为权重参数；

对

和

进行最大池化操作，得到第t个词的短语级别的向量表示：

本实施例给出了由输入文本的词级别表示得到短语级别表示的一种技术方案。首先通过CNN对词级别表示S^w进行卷积核大小分别为1、2、3的一维卷积运算，提取文本特征；然后再对每个卷积结果进行最大池化操作，得到每个词的短语级别的向量表示。

作为一种可选实施例，所述S104具体包括：

计算词引导的组合图像表示：

其中，

为第t个词引导的组合图像，

为

与v_n的余弦相似度，softmax()为激励函数；

计算S^w与V的相似度R^w：

计算短语引导的组合图像表示：

其中，

为第t个短语引导的组合图像，

为

与v_n的余弦相似度；

计算S^p与V的相似度R^p：

对R^w、R^p进行加权求和得到输入文本与图像的相似度R：

R＝gR^p+(1-g)R^w (5)

g＝σ(W[S^w,S^p]+b) (6)

其中，g为加权系数，σ()为门控函数，W、b分别为权重和偏置。

本实施例给出了基于局部注意力机制进行文本与图像匹配的一种技术方案。局部注意力机制是指两个媒体的数据分别用各自其中的一部分去匹配对方，通过彼此关注相关联的局部信息来计算相似性，如(1)式和(3)式。采用这种机制可以更好地匹配两个媒体数据之间相关联的部分，进而提高两个媒体匹配的准确度。

为了验证本发明的有效性，下面给出一组实验数据。实验采用MSCOCO图文匹配数据集，MSCOCO数据集主要是短文本英文数据。评价指标为Recall@k(R@k)，对所有检索到的结果根据其相似性分数排序，如果正确答案排在前k个，则判为检索正确；否则，判为检索错误。实验结果如表1所示，表中数据为准确度。表1中，Hie t-i Gate是本发明的模型，采用的是文本对图像的注意力引导方式，对于词级别和短语级别的相似性基于门机制的方式来进行融合。Hie i-t AVG和Hie t-i AVG与Hie t-i Gate很相似，只是引导方式和/或融合方式不同：Hie i-t AVG采用的是文本对图像的注意力引导方式，对于词级别和短语级别的相似性，基于取平均值的方式来进行融合；Hie t-i AVG采用的是图像对文本的注意力引导方式，对于词级别和短语级别的相似性，基于取平均值的方式来进行融合。DPC(2017-arXiv)、SCO(2018-CVPR)为现有技术模型，DPC(2017-arXiv)基于双路径的CNN来解决传统的图像标题生成模型中对图像特征的丢失问题，即增强了图像和文本本身的特征；SCO(2018-CVPR)将全局和局部特征组合在一起使用，且设计了一个门融合单元(gated fusion unit)，可以有选择地平衡语义概念和上下文的相对重要性。

由表1可知，本发明模型的匹配准确度均高于现有模型的匹配准确度。

表1 实验结果

上述仅对本发明中的几种具体实施例加以说明，但并不能作为本发明的保护范围，凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等，均应认为落入本发明的保护范围。