CN112000818B

CN112000818B - 一种面向文本和图像的跨媒体检索方法及电子装置

Info

Publication number: CN112000818B
Application number: CN202010663328.7A
Authority: CN
Inventors: 于静; 郭晶晶; 胡玥; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2023-05-12
Anticipated expiration: 2040-07-10
Also published as: CN112000818A

Abstract

本发明提供一种面向文本和图像的跨媒体检索方法及电子装置，提取一设定长度语音信息的g维MFCC特征，并将长度为m的g维MFCC特征转换为一维语音特征；对一设定文本进行编码，获取词级别文本表示，并将词级别文本表示中每一个词与一维语音特征进行拼接，得到语音引导文本特征；提取每一图片的区域特征，计算区域特征与语音引导文本特征的相似性分数，判断该图片是否包含设定语音信息及设定文本信息，得到检索结果。本发明利用语音信息的停顿信息，以及语音信息与图像和文本间的关联关系来提升图像‑文本匹配任务的性能，建模了融合语音信息的文本特征表示，引入基于局部注意力机制的细粒度特征融合方式进行跨模态特征融合，提升图文匹配效果。

Description

一种面向文本和图像的跨媒体检索方法及电子装置

技术领域

本发明涉及计算机检索技术领域，尤其涉及一种面向文本和图像的跨媒体检索方法及电子装置。

背景技术

跨媒体检索是指用户给定一个媒体的查询信息，可以检索出语义相关的其他媒体的信息。跨媒体检索任务有基于共同语义空间学习的研究方法，其本质在于对齐不同模态数据的分布和特征表示。其中，传统经典的相关分析(Traditional statisticalcorrelation analysis)(HOTELLING H.Relations between two sets of variates[M]//Breakthroughs in statistics.Springer,1992:162-190.)是此类方法的基础。典型相关分析(CCA)(AKAHO S.Akernel method for canonical correlation analysis[J].arXiv:Learning,2006.)是最为经典的方法，正因为在跨媒体检索中，数据常常是成对出现的，CCA将这些成对出现的数据投影到相同的子空间中，使其距离最小化、相似性最大化。因为CCA是最早出现的经典方法，后续有很多方法在其基础上演变而来，例如文献(AKAHOS.Akernel methodfor canonical correlation analysis[J].arXiv:Learning,2006.)、(ANDREW G,ARORA R,BILMES J A,et al.Deep canonical correlation analysis[J].2013:1247-1255.)、(GONG Y,KE Q,ISARD M,et al.Amulti-view embedding space formodeling internet images,tags,and their semantics[J].International Journal ofComputer Vision,2014,106(2):210-233.)及(RANJAN V,RASIWASIA N,JAWAHAR CV.Multi-label cross-modal retrieval[J].2015:4094-4102.)都成为了传统经典的相关分析方法。但这些方法依赖于数据的线性表示，对于当前网络环境下日趋复杂的跨媒体数据形式来说，通过线性投影来模拟不同模态相似性难度很高。

目前，深度学习飞速发展，深度神经网络(DNN)已经在多个领域展开应用，在跨媒体检索中也有很多基于深度神经网络的方法，例如NGIAM J、KHOSLAA及KIM M等人提出利用神经网络的强大的数据拟合特性(NGIAM J,KHOSLAA,KIM M,et al.Multimodal deeplearning[C]//Proceedings of the 28^th international conference on machinelearning(ICML-11).2011:689-696.)，寻找各个模态数据在公共空间中的准确表示，将受限玻尔兹曼(restricted Boltzmann machine,RBM)扩展后应用到公共空间学习中来，提出了多模态深度自编码器，这种自编码器是将不同模态的数据输入到同一个共享编码层，从而学习不同模态间的关系信息。依托于这个思想，Srivastava和Salakhutdinov提出了相似的利用深度神经网络的模型(SRIVASTAVA N,SALAKHUTDINOV R.Multimodal learningwith deep boltzmann machines[M].2012.)，模型中采用两个独立的DBM(deep Boltzmannmatchine)来建模不同模态的特征，这些多模态数据最终被一个顶部附加层融合，用于学习这些模态的潜在相似性。

还有基于跨媒体特征融合的方法，其本质在于捕捉跨媒体数据间复杂的关联关系。特征融合分析类方法，例如文献(LU Y,YU J,LIU Y,et al.Fine-grained correlationlearning with stacked co-attention networks for cross-modal informationretrieval[C]//International Conference on Knowledge Science,Engineering andManagement.Springer,2018:213-225.)、(WANG L,LI Y,HUANG J,et al.Learning two-branch neural networks for image-text matching tasks[J].IEEE Transactions onPatternAnalysis and Machine Intelligence,2019,41(2):394-407.)及(YU J,LU Y,QINZ,et al.Modeling text with graph convolutional network for cross-modalinformation retrieval[C]//Pacific Rim Conference on Multimedia.Springer,2018a:223-234.)，其主要是构造一个多路径的模型，每个不同的路径用于提取各自模态的语义特征，在利用深度神经网络(DNN)对这些特征进行融合分析，挖掘各个模态间的潜在关系得到相似度。特征融合分析类方法有很多研究工作。HUANG Y、WANG W、及WANG L等人提出使用多模态长短记忆网络(sm-LSTM)挖掘句子和图像的潜在语义关系(HUANGY,WANG W,WANG L.Instance-aware image and sentence matching with selective multimodallstm[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2017:2310-2318.)，通过调节注意力机制来选择语义更相关的多模态数据作为训练对象，将多个时间步长内的局部相似性与隐层状态融合，以获得最终匹配分数作为所需的全局相似度。FUKUIA、PARKD H及YANG D等人提出了多模态双线性映射模型(MCB)用于融合图像视觉和文本信息(FUKUIA,PARK D H,YANG D,et al.Multimodal compactbilinear pooling for visual question answering and visual grounding[J].arXivpreprint arXiv:1606.01847,2016.)，模型中的注意力机制和多个MCB使得模型在视觉问答领域有很大的提升；KIM J H、ON KW及LIM W等人在MCB后又提出多模态低阶双线性(MLB)和多模态因子化双线性(MFB)(KIM J H,ON KW,LIM W,et al.Hadamard product for low-rank bilinearpooling[J].arXiv preprint arXiv:1610.04325,2016.)，因为MCB需要比较复杂的计算量，而新的模型结构更为灵活和简便，这些方法尤其在视觉问答领域(VQA)表现出色。

随着自然语言处理和计算机视觉的发展，当前技术对文本和图像的理解越来越细致化和多样化。因此细粒度的跨媒体检索方法受到了越来越多的关注。如何更好的建模图像和文本的细粒度特征，以及如果更好地聚合图像与文本间的局部相似性是当前图像-文本匹配任务面临的主要挑战。当前网络上的多媒体信息除了文本和图像，还存在视频和音频信息。Arandjelovic和Zisserman提出了语音-视觉协同学习任务(ARANDJELOVIC R,ZISSERMAN A.Look,listen and learn[C]//IEEE International Conference onComputer Vision(ICCV).2017:609-617.)，认为语音特征和视觉特征间直接存在着某种对应的关系，因为当某种语义内容在视频中出现时，其相应的视觉图像和声音必然相伴出现。根据这种现象，Arandjelovic和Zisserman等人利用对应关系来解决数据的标注问题，从而减少对人工标注的依赖。WEI Y、WANG X及GUAN W等人提出了一个神经多模态协同学习(Neural Multimodal Cooperative Learning,NMCL)模型(WEI Y,WANG X,GUAN W,etal.Neural multimodal cooperative learning toward micro-video understanding[J].IEEE Transactions on Image Processing(TIP),2020,29(10):1-14.)，这种方法通过学习图像、文本和语音的跨模态互补融合特征来帮助提升短视频分类任务的性能。在智能语音领域，语音识别(Automatic Speech Recognition,ASR)和语音合成(Text-To-Speech,TTS)等任务说明了语音和文本之间密切的关联关系。这一系列的证据表面，在图像-文本匹配任务中添加语音信息，有助于提升图像-文本匹配任务的性能。此外，观察到语音信息中存在明显的停顿信息，这有利于借助语音信息中自然的停顿信息来帮助建模自然的层次化文本特征表示。

综上所述，目前跨媒体检索的方法分为两大类，分别是基于共同语义空间学习的方法和基于跨模态特征融合的方法，这些方法各自都存在相应的问题：

1.因为不同媒体数据所含信息量不对等，基于共同语义空间学习的方法可能损失部分信息或者引入噪声。

2.目前基于跨模态特征融合的基础方法，对图像文本细粒度特征间的关联关系挖掘不充分。

发明内容

为解决上述问题，本发明公开了一种面向文本和图像的跨媒体检索方法及电子装置，通过融合语音信息到文本的特征表示，使用基于局部注意力机制的细粒度特征融合技术(Lee K H,Chen X,Hua G,et al.Stacked Cross Attention for Image-TextMatching:15th European Conference,Munich,Germany,September 8-14,2018,Proceedings,Part IV[M]//Computer Vision–ECCV 2018.Springer,Cham,2018.)进行图像和文本特征之间复杂关联关系的挖掘，计算图像和文本之间的相似性，进而提升面向文本和图像的跨媒体检索的性能。

本发明的技术方案如下：

一种面向文本和图像的跨媒体检索方法，其步骤包括：

1)提取一设定长度语音信息的g维MFCC特征，并将长度为m的g维MFCC特征转换为包含各维度之间相关关系及语音特征帧与帧之间局部语义关系的一维语音特征，g＝3h，h≥1，m≥1；

2)对一设定文本进行编码，获取词级别文本表示，并将词级别文本表示中每一个词与一维语音特征进行拼接，得到语音引导文本特征；

3)对查找到的每一图片，提取图片的区域特征，计算区域特征与语音引导文本特征的相似性分数，判断该图片是否包含设定长度语音信息及设定文本信息，得到检索结果。

进一步地，g维MFCC特征包括h维MFCC系数、h维一阶差分参数和h维二阶差分参数。

进一步地，通过以下步骤得到包含各维度之间相关关系及语音特征帧与帧之间局部语义关系的语音特征：

1)将g维MFCC特征输入一卷积神经网络，其中该卷积神经网络包括L个卷积层、V个池化层及一全连接层，L≥2，V≥1，L≥V；

2)通过一卷积层，获取包含各维度之间相关关系的卷积特征；

3)通过L-1个卷积层及V个池化层，获取包含语音特征帧与帧之间局部语义关系的卷积特征；

4)将最后一卷积层得到的卷积特征展开成一维向量，使用全连接层映射到指定维度，得到一维语音特征。

进一步地，通过以下步骤获取词级别文本表示：

1)对设定文本的各词语使用one-hot表示，得到词级别文本；

2)通过双向门控循环单元对词级别文本进行编码，得到词级别文本表示。

进一步地，将所述图片输入在Visual Genomes数据集上预训练的Faster-RCNN模型，提取所述图片的区域特征。

进一步地，通过以下步骤得到语音引导文本特征：

1)融合若干样本语音信息的一维语音特征与若干样本文本的词级别文本表示，获取第i个词的门控值gate_i＝σ(W_g[f′_p，f’_si]+b_g)，其中σ为Sigmoid激活函数，f’_si为一样本文本的词级别文本中的第i个词文本表示，f′_p为一样本语音信息的一维语音特征，W_g是f′_p和f’_si拼接后的结果线性映射的权重矩阵，b_g是f’_p和f’_si拼接后的结果线性映射的偏置；

2)通过第i个词的门控制，计算第i个词的语音引导文本特征

为词级别文本中第i个词文本表示，f_p为设定长度语音信息的一维语音特征，W_s是f_p和

的拼接结果在门控值选择后的结果线性映射的权重矩阵，b_s是f_p和

的拼接结果在门控值选择后的结果线性映射的偏置。

进一步地，通过以下步骤计算区域特征与语音引导文本特征的相似性分数：

1)计算语音引导文本特征中的词与区域特征的余弦相似性

其中v_j为待选图片的第j个区域特征；

2)使用softmax函数将余弦相似性α_ij转换为语音引导文本特征引导下各图像区域的组合权重

其中N为待选图片的区域特征数量，λ₁为超参数；

3)计算

引导后的组合图像

4)计算

与v_si的相似性

5)计算计算区域特征与语音引导文本特征的相似性分数

进一步地，通过相似性分数及一设定阈值，判断该图片是否包含设定长度语音信息及设定文本信息。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明具有以下优势：

1、提出在面向图像和文本的跨媒体检索任务中融入语音信息，来辅助提升图文匹配效果；

2、利用语音信息中的停顿信息，以及语音信息天然的与图像和文本间复杂的关联关系来辅助提升图像-文本匹配任务的性能；

3、建模了基于门机制的融合语音信息的文本特征表示，引入基于局部注意力机制的细粒度特征融合方式进行跨模态特征融合，提升图文匹配效果。

附图说明

图1为融合语音信息的面向文本和图像的跨媒体检索框架示意图。

图2为语音特征表示过程示意图。

图3为基于门机制的语音文本特征融合示意图。

图4基于局部注意力机制的细粒度特征融合示意图。

具体实施方式

为使本发明的目的、原理、技术方案和优点更加清晰明白，以下将结合具体实施例，并参照附图对本发明做详细的说明。

本发明首先进行图像和文本的符号化表示。设置每个文本词数为T，每个文本被表示为S＝{s₁，…，s_T}，其中，s_t是第t个词的特征向量。图像I被表示为V＝{v₁，…，v_N}，其中，v_n是第n个区域的特征向量，N表示图像中共提取出N个目标。语音P被表示为P＝{p₁，…，p_M}，其中，p_m是第m帧的特征向量，M表示语音中共抽取出M帧。

本发明的模型总体框架包含三个部分，分别为融合了语音的文本特征表示，图像上的区域(region)特征表示和基于局部注意力机制的细粒度特征融合。具体框架如图1所示。模型输入为成组的图像，文本和语音，使用Faster-RCNN(Ren S,He K,Girshick R,etal.Faster R-CNN:Towards Real-Time Object Detection with Region ProposalNetworks[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.)对图像特征进行抽取，然后使用双向门控循环单元(Gated RecurrentUnit,GRU)获取文本特征，语音的基础特征为梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,MFCC)特征，然后进行语音对文本的注意力(attention)操作，获取语音引导后的文本表示，最后使用基于局部注意力机制的细粒度特征融合技术获取图像和文本之间的相似性分数。

过程一：语音特征表示

语音特征表示过程如图2所示。提取语言的39维MFCC特征，并将39维MFCC特征输入卷积神经网络，其中39维MFCC特征包括13维MFCC系数、13维一阶差分参数和13维二阶差分参数。输入卷积神经网络后，39维MFCC特征被处理成39个通道。然后使用1个1×1的卷积来获取39维MFCC特征之间的相关关系。接下来使用L-1层1维卷积来获取语音特征帧与帧之间的局部语义关系。最后，将卷积后得到的特征展开成一维向量，使用全连接层将其映射到指定维度，进而得到一维的语音特征表示f_P。特征提取过程中具体的维度变化如图2所示：

1024指语音的长度共1024帧，每帧的特征长度为39维MFCC特征；从1024*39到1024*1是使用1个卷积核大小为1的一维卷积，卷积步长为1，计算得到的；从1024*1到512*64是使用64个卷积核大小为11的一维卷积，卷积步长为1，计算后，再通过2*1的一维最大池化层得到的；从512*64到256*128是使用128个卷积核大小为17的一维卷积，卷积步长为1，计算后，再通过2*1的一维最大池化层得到的；从256*128到32768*1是直接把矩阵拉直得到的；从32768*1到1024*1是通过全连接层的计算得到的。

过程二：文本特征表示

模型输入为one-hot表示的词语组成的句子，表示为S＝{s₁，…，s_T}。然后利用双向GRU对句子进行编码，具体公式为S^w＝Bi_GRU(S)，其中S^w表示经过双向GRU编码后的句子，进而获得词级别的文本表示，表示为

这作为文本的基础表示。

使用获得的一维语音特征表示，与该语音对应的文本中每一个词表示拼接到一起，通过一个全连接层来计算语音特征与文本特征融合的门控值。然后以该门控值作为权重，融合语音特征和文本特征，得到新的文本特征表示。模型如图3所示。具体公式计算被定义如下：

其中，

表示文本中的第i个词表示，W_g是f_p和

拼接后的结果线性映射的权重矩阵；W_s是f_p和

的拼接结果在门控值选择后的结果线性映射的权重矩阵，b_g是f_p和

拼接后的结果线性映射的偏置，b_s是f_p和

的拼接结果在门控值选择后的结果线性映射的偏置。σ是Sigmoid激活函数，gate_i是计算出来的门控值。最终本文可以得到语音引导后的文本表示为

过程三：图像特征表示

给定图像I，其特征表示V＝{v₁，…，v_N}中，每个特征对应于图像中的一个区域。这里的图像特征是使用Anderson等人(ANDERSON P,HE X,BUEHLER C,et al.Bottom-up andtop-down attention for image captioning and vqa[C]//Computer Vision andPattern Recognition.2018)在Visual Genomes数据集上预训练好的Faster-RCNN模型提取得到的。每张图像提取N个区域的特征。Anderson等人为了学习具有丰富语义的图像特征表示，在训练FasterRCNN模型时，不像其他的方法一样去预测对象类别，而是选择预测属性类别和实例类别，这样使得模型可以学习更加多样化和精细化的语义表示，有利于后面的图像和文本的匹配任务。

过程四：基于局部注意力机制的细粒度特征融合

至此，本方法得到了新的文本特征表示

和图像特征表示V＝{v₁，…，v_N}。然后使用基于局部注意力机制的细粒度特征融合方法来融合文本特征和图像特征。计算过程如图4所示。首先计算所有可能的文本中的词与图像中的区域之间的余弦相似性，计算公式如下：

其中，α_ij表示第i个词和第j个图像区域之间的相似性。将上述相似性使用softmax函数转为文本信息引导下各个图像区域的组合权重，计算公式如下：

其中，λ₁是一个超参数，在一实施例中设置为9

进一步，可以到的短语引导后的组合图像表示如下：

由此，针对短语

得到了图像表示v_si，计算它们之间的相似性操作如下：

然后对所有词都进行如上操作，最后把所有相似性相加求平均作为最终的相似性，具体操作如下所示：

至此，本发明得到了文本表示与图像区域表示之间的相似性分数R，并可在实际使用过程中根据该相似性分数及一设定阈值，判断图像是否为正确的检索结果。

过程五：损失函数

模型训练中使用的损失函数为基于hinge的三元组排序损失函数，具体函数如下：

其中，S(I，T)表示图像与文本的相似性。该损失函数的目的是使正样本的相似性分数高于负样本的相似性分数。以此来进行模型训练。

在本发明的实验验证中，主要在MSCOCO图文匹配数据集上进行了实验。数据集主要是短文本英文数据。利用预训练好的模型提取了基于实例的图像特征和图像整体特征。具体数据集如表1所示。

表1数据集

本发明的评价指标为Recall@k(R@k)，是指对所有检索到的结果根据其相似性分数排序，检查正确答案是否排在前k个。如果在，则判为检索正确；如果不在，则判为检索错误。

本发明与当前主流的方法进行了比较，其中Speech-T2I-Gate是本发明提出的模型。具体结果如表2所示。可以看到本发明提出的模型超过了当前大多数模型的结果，比如DVSA(ANDREJ K,LI F F.Deep visual-semantic alignments for generating imagedescriptions[C]//Computer Vision and Pattern Recognition(CVPR).2015:3128-3137.)，HM-LSTM(NIU Z,ZHOU M,WANG L,et al.Hierarchical multimodal lstm fordense visual-semantic embedding[C]//IEEE International Conference on ComputerVision(ICCV).2017)，Order-embeddings(VENDROV I,KIROS R,FIDLER S,et al.Order-embeddings of images and language[C]//International Conference on LearningRepresentations(ICLR).2016.)，SM-LSTM(HUANG Y,WANG W,WANG L.Instance-awareimage and sentence matching with selective multimodal lstm[C]//IEEEConference on Computer Vision and Pattern Recognition(CVPR).2017:2310-2318.)，2WayNet(EISENSCHTAT A,WOLF L.Linking image and text with 2-way nets[C]//Computer Vision and Pattern Recognition(CVPR).2017.)，VSE++(Anon.Vse++:Improving visual-semantic embeddings with hard negatives[C]//InternationalConference on Learning Representations(ICLR).2018.)，DPC(ZHENG Z,ZHENG L,GARRETT M,et al.Dpcnn:Dual-path convolutional image-text embedding[C]//arXiv:1711.05535.2018.)，和GXN(GU J,CAI J,JOTY S,et al.Look,imagine and match:Improving textual-visual cross-modal retrieval with generative models[C]//Computer Vision and Pattern Recognition(CVPR).2018)。实验结果证明了本发明提出方法的有效性。

表2在MSCOCO数据集上进行的实验

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种面向文本和图像的跨媒体检索方法，其步骤包括：

2)对一设定文本进行编码，获取词级别文本表示，并将词级别文本表示中每一个词与一维语音特征进行拼接，得到语音引导文本特征；其中，所述将词级别文本表示中每一个词与一维语音特征进行拼接，得到语音引导文本特征，包括：

融合若干样本语音信息的一维语音特征与若干样本文本的词级别文本表示，获取第i个词的门控值gate_i＝σ(W_g[f’_p,f’_si]+b_g)，其中σ为Sigmoid激活函数，f’_si为一样本文本的词级别文本中的第i个词文本表示，f’_p为一样本语音信息的一维语音特征，W_g是f’_p和f’_si拼接后的结果线性映射的权重矩阵，b_g是f’_p和f’_si拼接后的结果线性映射的偏置；

通过第i个词的门控制，计算第i个词的语音引导文本特征