CN112000818B - 一种面向文本和图像的跨媒体检索方法及电子装置 - Google Patents

一种面向文本和图像的跨媒体检索方法及电子装置 Download PDF

Info

Publication number
CN112000818B
CN112000818B CN202010663328.7A CN202010663328A CN112000818B CN 112000818 B CN112000818 B CN 112000818B CN 202010663328 A CN202010663328 A CN 202010663328A CN 112000818 B CN112000818 B CN 112000818B
Authority
CN
China
Prior art keywords
text
voice
dimensional
word
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010663328.7A
Other languages
English (en)
Other versions
CN112000818A (zh
Inventor
于静
郭晶晶
胡玥
谭建龙
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010663328.7A priority Critical patent/CN112000818B/zh
Publication of CN112000818A publication Critical patent/CN112000818A/zh
Application granted granted Critical
Publication of CN112000818B publication Critical patent/CN112000818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向文本和图像的跨媒体检索方法及电子装置,提取一设定长度语音信息的g维MFCC特征,并将长度为m的g维MFCC特征转换为一维语音特征;对一设定文本进行编码,获取词级别文本表示,并将词级别文本表示中每一个词与一维语音特征进行拼接,得到语音引导文本特征;提取每一图片的区域特征,计算区域特征与语音引导文本特征的相似性分数,判断该图片是否包含设定语音信息及设定文本信息,得到检索结果。本发明利用语音信息的停顿信息,以及语音信息与图像和文本间的关联关系来提升图像‑文本匹配任务的性能,建模了融合语音信息的文本特征表示,引入基于局部注意力机制的细粒度特征融合方式进行跨模态特征融合,提升图文匹配效果。

Description

一种面向文本和图像的跨媒体检索方法及电子装置
技术领域
本发明涉及计算机检索技术领域,尤其涉及一种面向文本和图像的跨媒体检索方法及电子装置。
背景技术
跨媒体检索是指用户给定一个媒体的查询信息,可以检索出语义相关的其他媒体的信息。跨媒体检索任务有基于共同语义空间学习的研究方法,其本质在于对齐不同模态数据的分布和特征表示。其中,传统经典的相关分析(Traditional statisticalcorrelation analysis)(HOTELLING H.Relations between two sets of variates[M]//Breakthroughs in statistics.Springer,1992:162-190.)是此类方法的基础。典型相关分析(CCA)(AKAHO S.Akernel method for canonical correlation analysis[J].arXiv:Learning,2006.)是最为经典的方法,正因为在跨媒体检索中,数据常常是成对出现的,CCA将这些成对出现的数据投影到相同的子空间中,使其距离最小化、相似性最大化。因为CCA是最早出现的经典方法,后续有很多方法在其基础上演变而来,例如文献(AKAHOS.Akernel methodfor canonical correlation analysis[J].arXiv:Learning,2006.)、(ANDREW G,ARORA R,BILMES J A,et al.Deep canonical correlation analysis[J].2013:1247-1255.)、(GONG Y,KE Q,ISARD M,et al.Amulti-view embedding space formodeling internet images,tags,and their semantics[J].International Journal ofComputer Vision,2014,106(2):210-233.)及(RANJAN V,RASIWASIA N,JAWAHAR CV.Multi-label cross-modal retrieval[J].2015:4094-4102.)都成为了传统经典的相关分析方法。但这些方法依赖于数据的线性表示,对于当前网络环境下日趋复杂的跨媒体数据形式来说,通过线性投影来模拟不同模态相似性难度很高。
目前,深度学习飞速发展,深度神经网络(DNN)已经在多个领域展开应用,在跨媒体检索中也有很多基于深度神经网络的方法,例如NGIAM J、KHOSLAA及KIM M等人提出利用神经网络的强大的数据拟合特性(NGIAM J,KHOSLAA,KIM M,et al.Multimodal deeplearning[C]//Proceedings of the 28th international conference on machinelearning(ICML-11).2011:689-696.),寻找各个模态数据在公共空间中的准确表示,将受限玻尔兹曼(restricted Boltzmann machine,RBM)扩展后应用到公共空间学习中来,提出了多模态深度自编码器,这种自编码器是将不同模态的数据输入到同一个共享编码层,从而学习不同模态间的关系信息。依托于这个思想,Srivastava和Salakhutdinov提出了相似的利用深度神经网络的模型(SRIVASTAVA N,SALAKHUTDINOV R.Multimodal learningwith deep boltzmann machines[M].2012.),模型中采用两个独立的DBM(deep Boltzmannmatchine)来建模不同模态的特征,这些多模态数据最终被一个顶部附加层融合,用于学习这些模态的潜在相似性。
还有基于跨媒体特征融合的方法,其本质在于捕捉跨媒体数据间复杂的关联关系。特征融合分析类方法,例如文献(LU Y,YU J,LIU Y,et al.Fine-grained correlationlearning with stacked co-attention networks for cross-modal informationretrieval[C]//International Conference on Knowledge Science,Engineering andManagement.Springer,2018:213-225.)、(WANG L,LI Y,HUANG J,et al.Learning two-branch neural networks for image-text matching tasks[J].IEEE Transactions onPatternAnalysis and Machine Intelligence,2019,41(2):394-407.)及(YU J,LU Y,QINZ,et al.Modeling text with graph convolutional network for cross-modalinformation retrieval[C]//Pacific Rim Conference on Multimedia.Springer,2018a:223-234.),其主要是构造一个多路径的模型,每个不同的路径用于提取各自模态的语义特征,在利用深度神经网络(DNN)对这些特征进行融合分析,挖掘各个模态间的潜在关系得到相似度。特征融合分析类方法有很多研究工作。HUANG Y、WANG W、及WANG L等人提出使用多模态长短记忆网络(sm-LSTM)挖掘句子和图像的潜在语义关系(HUANGY,WANG W,WANG L.Instance-aware image and sentence matching with selective multimodallstm[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2017:2310-2318.),通过调节注意力机制来选择语义更相关的多模态数据作为训练对象,将多个时间步长内的局部相似性与隐层状态融合,以获得最终匹配分数作为所需的全局相似度。FUKUIA、PARKD H及YANG D等人提出了多模态双线性映射模型(MCB)用于融合图像视觉和文本信息(FUKUIA,PARK D H,YANG D,et al.Multimodal compactbilinear pooling for visual question answering and visual grounding[J].arXivpreprint arXiv:1606.01847,2016.),模型中的注意力机制和多个MCB使得模型在视觉问答领域有很大的提升;KIM J H、ON KW及LIM W等人在MCB后又提出多模态低阶双线性(MLB)和多模态因子化双线性(MFB)(KIM J H,ON KW,LIM W,et al.Hadamard product for low-rank bilinearpooling[J].arXiv preprint arXiv:1610.04325,2016.),因为MCB需要比较复杂的计算量,而新的模型结构更为灵活和简便,这些方法尤其在视觉问答领域(VQA)表现出色。
随着自然语言处理和计算机视觉的发展,当前技术对文本和图像的理解越来越细致化和多样化。因此细粒度的跨媒体检索方法受到了越来越多的关注。如何更好的建模图像和文本的细粒度特征,以及如果更好地聚合图像与文本间的局部相似性是当前图像-文本匹配任务面临的主要挑战。当前网络上的多媒体信息除了文本和图像,还存在视频和音频信息。Arandjelovic和Zisserman提出了语音-视觉协同学习任务(ARANDJELOVIC R,ZISSERMAN A.Look,listen and learn[C]//IEEE International Conference onComputer Vision(ICCV).2017:609-617.),认为语音特征和视觉特征间直接存在着某种对应的关系,因为当某种语义内容在视频中出现时,其相应的视觉图像和声音必然相伴出现。根据这种现象,Arandjelovic和Zisserman等人利用对应关系来解决数据的标注问题,从而减少对人工标注的依赖。WEI Y、WANG X及GUAN W等人提出了一个神经多模态协同学习(Neural Multimodal Cooperative Learning,NMCL)模型(WEI Y,WANG X,GUAN W,etal.Neural multimodal cooperative learning toward micro-video understanding[J].IEEE Transactions on Image Processing(TIP),2020,29(10):1-14.),这种方法通过学习图像、文本和语音的跨模态互补融合特征来帮助提升短视频分类任务的性能。在智能语音领域,语音识别(Automatic Speech Recognition,ASR)和语音合成(Text-To-Speech,TTS)等任务说明了语音和文本之间密切的关联关系。这一系列的证据表面,在图像-文本匹配任务中添加语音信息,有助于提升图像-文本匹配任务的性能。此外,观察到语音信息中存在明显的停顿信息,这有利于借助语音信息中自然的停顿信息来帮助建模自然的层次化文本特征表示。
综上所述,目前跨媒体检索的方法分为两大类,分别是基于共同语义空间学习的方法和基于跨模态特征融合的方法,这些方法各自都存在相应的问题:
1.因为不同媒体数据所含信息量不对等,基于共同语义空间学习的方法可能损失部分信息或者引入噪声。
2.目前基于跨模态特征融合的基础方法,对图像文本细粒度特征间的关联关系挖掘不充分。
发明内容
为解决上述问题,本发明公开了一种面向文本和图像的跨媒体检索方法及电子装置,通过融合语音信息到文本的特征表示,使用基于局部注意力机制的细粒度特征融合技术(Lee K H,Chen X,Hua G,et al.Stacked Cross Attention for Image-TextMatching:15th European Conference,Munich,Germany,September 8-14,2018,Proceedings,Part IV[M]//Computer Vision–ECCV 2018.Springer,Cham,2018.)进行图像和文本特征之间复杂关联关系的挖掘,计算图像和文本之间的相似性,进而提升面向文本和图像的跨媒体检索的性能。
本发明的技术方案如下:
一种面向文本和图像的跨媒体检索方法,其步骤包括:
1)提取一设定长度语音信息的g维MFCC特征,并将长度为m的g维MFCC特征转换为包含各维度之间相关关系及语音特征帧与帧之间局部语义关系的一维语音特征,g=3h,h≥1,m≥1;
2)对一设定文本进行编码,获取词级别文本表示,并将词级别文本表示中每一个词与一维语音特征进行拼接,得到语音引导文本特征;
3)对查找到的每一图片,提取图片的区域特征,计算区域特征与语音引导文本特征的相似性分数,判断该图片是否包含设定长度语音信息及设定文本信息,得到检索结果。
进一步地,g维MFCC特征包括h维MFCC系数、h维一阶差分参数和h维二阶差分参数。
进一步地,通过以下步骤得到包含各维度之间相关关系及语音特征帧与帧之间局部语义关系的语音特征:
1)将g维MFCC特征输入一卷积神经网络,其中该卷积神经网络包括L个卷积层、V个池化层及一全连接层,L≥2,V≥1,L≥V;
2)通过一卷积层,获取包含各维度之间相关关系的卷积特征;
3)通过L-1个卷积层及V个池化层,获取包含语音特征帧与帧之间局部语义关系的卷积特征;
4)将最后一卷积层得到的卷积特征展开成一维向量,使用全连接层映射到指定维度,得到一维语音特征。
进一步地,通过以下步骤获取词级别文本表示:
1)对设定文本的各词语使用one-hot表示,得到词级别文本;
2)通过双向门控循环单元对词级别文本进行编码,得到词级别文本表示。
进一步地,将所述图片输入在Visual Genomes数据集上预训练的Faster-RCNN模型,提取所述图片的区域特征。
进一步地,通过以下步骤得到语音引导文本特征:
1)融合若干样本语音信息的一维语音特征与若干样本文本的词级别文本表示,获取第i个词的门控值gatei=σ(Wg[f′p,f’si]+bg),其中σ为Sigmoid激活函数,f’si为一样本文本的词级别文本中的第i个词文本表示,f′p为一样本语音信息的一维语音特征,Wg是f′p和f’si拼接后的结果线性映射的权重矩阵,bg是f’p和f’si拼接后的结果线性映射的偏置;
2)通过第i个词的门控制,计算第i个词的语音引导文本特征
Figure BDA0002579427350000041
Figure BDA0002579427350000042
Figure BDA0002579427350000043
为词级别文本中第i个词文本表示,fp为设定长度语音信息的一维语音特征,Ws是fp
Figure BDA0002579427350000044
的拼接结果在门控值选择后的结果线性映射的权重矩阵,bs是fp
Figure BDA0002579427350000051
的拼接结果在门控值选择后的结果线性映射的偏置。
进一步地,通过以下步骤计算区域特征与语音引导文本特征的相似性分数:
1)计算语音引导文本特征中的词与区域特征的余弦相似性
Figure BDA0002579427350000052
其中vj为待选图片的第j个区域特征;
2)使用softmax函数将余弦相似性αij转换为语音引导文本特征引导下各图像区域的组合权重
Figure BDA0002579427350000053
其中N为待选图片的区域特征数量,λ1为超参数;
3)计算
Figure BDA0002579427350000054
引导后的组合图像
Figure BDA0002579427350000055
4)计算
Figure BDA0002579427350000056
与vsi的相似性
Figure BDA0002579427350000057
5)计算计算区域特征与语音引导文本特征的相似性分数
Figure BDA0002579427350000058
进一步地,通过相似性分数及一设定阈值,判断该图片是否包含设定长度语音信息及设定文本信息。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明具有以下优势:
1、提出在面向图像和文本的跨媒体检索任务中融入语音信息,来辅助提升图文匹配效果;
2、利用语音信息中的停顿信息,以及语音信息天然的与图像和文本间复杂的关联关系来辅助提升图像-文本匹配任务的性能;
3、建模了基于门机制的融合语音信息的文本特征表示,引入基于局部注意力机制的细粒度特征融合方式进行跨模态特征融合,提升图文匹配效果。
附图说明
图1为融合语音信息的面向文本和图像的跨媒体检索框架示意图。
图2为语音特征表示过程示意图。
图3为基于门机制的语音文本特征融合示意图。
图4基于局部注意力机制的细粒度特征融合示意图。
具体实施方式
为使本发明的目的、原理、技术方案和优点更加清晰明白,以下将结合具体实施例,并参照附图对本发明做详细的说明。
本发明首先进行图像和文本的符号化表示。设置每个文本词数为T,每个文本被表示为S={s1,…,sT},其中,st是第t个词的特征向量。图像I被表示为V={v1,…,vN},其中,vn是第n个区域的特征向量,N表示图像中共提取出N个目标。语音P被表示为P={p1,…,pM},其中,pm是第m帧的特征向量,M表示语音中共抽取出M帧。
本发明的模型总体框架包含三个部分,分别为融合了语音的文本特征表示,图像上的区域(region)特征表示和基于局部注意力机制的细粒度特征融合。具体框架如图1所示。模型输入为成组的图像,文本和语音,使用Faster-RCNN(Ren S,He K,Girshick R,etal.Faster R-CNN:Towards Real-Time Object Detection with Region ProposalNetworks[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.)对图像特征进行抽取,然后使用双向门控循环单元(Gated RecurrentUnit,GRU)获取文本特征,语音的基础特征为梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,MFCC)特征,然后进行语音对文本的注意力(attention)操作,获取语音引导后的文本表示,最后使用基于局部注意力机制的细粒度特征融合技术获取图像和文本之间的相似性分数。
过程一:语音特征表示
语音特征表示过程如图2所示。提取语言的39维MFCC特征,并将39维MFCC特征输入卷积神经网络,其中39维MFCC特征包括13维MFCC系数、13维一阶差分参数和13维二阶差分参数。输入卷积神经网络后,39维MFCC特征被处理成39个通道。然后使用1个1×1的卷积来获取39维MFCC特征之间的相关关系。接下来使用L-1层1维卷积来获取语音特征帧与帧之间的局部语义关系。最后,将卷积后得到的特征展开成一维向量,使用全连接层将其映射到指定维度,进而得到一维的语音特征表示fP。特征提取过程中具体的维度变化如图2所示:
1024指语音的长度共1024帧,每帧的特征长度为39维MFCC特征;从1024*39到1024*1是使用1个卷积核大小为1的一维卷积,卷积步长为1,计算得到的;从1024*1到512*64是使用64个卷积核大小为11的一维卷积,卷积步长为1,计算后,再通过2*1的一维最大池化层得到的;从512*64到256*128是使用128个卷积核大小为17的一维卷积,卷积步长为1,计算后,再通过2*1的一维最大池化层得到的;从256*128到32768*1是直接把矩阵拉直得到的;从32768*1到1024*1是通过全连接层的计算得到的。
过程二:文本特征表示
模型输入为one-hot表示的词语组成的句子,表示为S={s1,…,sT}。然后利用双向GRU对句子进行编码,具体公式为Sw=Bi_GRU(S),其中Sw表示经过双向GRU编码后的句子,进而获得词级别的文本表示,表示为
Figure BDA0002579427350000071
这作为文本的基础表示。
使用获得的一维语音特征表示,与该语音对应的文本中每一个词表示拼接到一起,通过一个全连接层来计算语音特征与文本特征融合的门控值。然后以该门控值作为权重,融合语音特征和文本特征,得到新的文本特征表示。模型如图3所示。具体公式计算被定义如下:
Figure BDA0002579427350000072
Figure BDA0002579427350000073
其中,
Figure BDA0002579427350000074
表示文本中的第i个词表示,Wg是fp
Figure BDA0002579427350000075
拼接后的结果线性映射的权重矩阵;Ws是fp
Figure BDA0002579427350000076
的拼接结果在门控值选择后的结果线性映射的权重矩阵,bg是fp
Figure BDA0002579427350000077
拼接后的结果线性映射的偏置,bs是fp
Figure BDA0002579427350000078
的拼接结果在门控值选择后的结果线性映射的偏置。σ是Sigmoid激活函数,gatei是计算出来的门控值。最终本文可以得到语音引导后的文本表示为
Figure BDA0002579427350000079
过程三:图像特征表示
给定图像I,其特征表示V={v1,…,vN}中,每个特征对应于图像中的一个区域。这里的图像特征是使用Anderson等人(ANDERSON P,HE X,BUEHLER C,et al.Bottom-up andtop-down attention for image captioning and vqa[C]//Computer Vision andPattern Recognition.2018)在Visual Genomes数据集上预训练好的Faster-RCNN模型提取得到的。每张图像提取N个区域的特征。Anderson等人为了学习具有丰富语义的图像特征表示,在训练FasterRCNN模型时,不像其他的方法一样去预测对象类别,而是选择预测属性类别和实例类别,这样使得模型可以学习更加多样化和精细化的语义表示,有利于后面的图像和文本的匹配任务。
过程四:基于局部注意力机制的细粒度特征融合
至此,本方法得到了新的文本特征表示
Figure BDA00025794273500000710
和图像特征表示V={v1,…,vN}。然后使用基于局部注意力机制的细粒度特征融合方法来融合文本特征和图像特征。计算过程如图4所示。首先计算所有可能的文本中的词与图像中的区域之间的余弦相似性,计算公式如下:
Figure BDA0002579427350000081
其中,αij表示第i个词和第j个图像区域之间的相似性。将上述相似性使用softmax函数转为文本信息引导下各个图像区域的组合权重,计算公式如下:
Figure BDA0002579427350000082
其中,λ1是一个超参数,在一实施例中设置为9
进一步,可以到的短语引导后的组合图像表示如下:
Figure BDA0002579427350000083
由此,针对短语
Figure BDA0002579427350000084
得到了图像表示vsi,计算它们之间的相似性操作如下:
Figure BDA0002579427350000085
然后对所有词都进行如上操作,最后把所有相似性相加求平均作为最终的相似性,具体操作如下所示:
Figure BDA0002579427350000086
至此,本发明得到了文本表示与图像区域表示之间的相似性分数R,并可在实际使用过程中根据该相似性分数及一设定阈值,判断图像是否为正确的检索结果。
过程五:损失函数
模型训练中使用的损失函数为基于hinge的三元组排序损失函数,具体函数如下:
Figure BDA0002579427350000087
其中,S(I,T)表示图像与文本的相似性。该损失函数的目的是使正样本的相似性分数高于负样本的相似性分数。以此来进行模型训练。
在本发明的实验验证中,主要在MSCOCO图文匹配数据集上进行了实验。数据集主要是短文本英文数据。利用预训练好的模型提取了基于实例的图像特征和图像整体特征。具体数据集如表1所示。
表1数据集
Figure BDA0002579427350000088
Figure BDA0002579427350000091
本发明的评价指标为Recall@k(R@k),是指对所有检索到的结果根据其相似性分数排序,检查正确答案是否排在前k个。如果在,则判为检索正确;如果不在,则判为检索错误。
本发明与当前主流的方法进行了比较,其中Speech-T2I-Gate是本发明提出的模型。具体结果如表2所示。可以看到本发明提出的模型超过了当前大多数模型的结果,比如DVSA(ANDREJ K,LI F F.Deep visual-semantic alignments for generating imagedescriptions[C]//Computer Vision and Pattern Recognition(CVPR).2015:3128-3137.),HM-LSTM(NIU Z,ZHOU M,WANG L,et al.Hierarchical multimodal lstm fordense visual-semantic embedding[C]//IEEE International Conference on ComputerVision(ICCV).2017),Order-embeddings(VENDROV I,KIROS R,FIDLER S,et al.Order-embeddings of images and language[C]//International Conference on LearningRepresentations(ICLR).2016.),SM-LSTM(HUANG Y,WANG W,WANG L.Instance-awareimage and sentence matching with selective multimodal lstm[C]//IEEEConference on Computer Vision and Pattern Recognition(CVPR).2017:2310-2318.),2WayNet(EISENSCHTAT A,WOLF L.Linking image and text with 2-way nets[C]//Computer Vision and Pattern Recognition(CVPR).2017.),VSE++(Anon.Vse++:Improving visual-semantic embeddings with hard negatives[C]//InternationalConference on Learning Representations(ICLR).2018.),DPC(ZHENG Z,ZHENG L,GARRETT M,et al.Dpcnn:Dual-path convolutional image-text embedding[C]//arXiv:1711.05535.2018.),和GXN(GU J,CAI J,JOTY S,et al.Look,imagine and match:Improving textual-visual cross-modal retrieval with generative models[C]//Computer Vision and Pattern Recognition(CVPR).2018)。实验结果证明了本发明提出方法的有效性。
表2在MSCOCO数据集上进行的实验
Figure BDA0002579427350000092
Figure BDA0002579427350000101
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (9)

1.一种面向文本和图像的跨媒体检索方法,其步骤包括:
1)提取一设定长度语音信息的g维MFCC特征,并将长度为m的g维MFCC特征转换为包含各维度之间相关关系及语音特征帧与帧之间局部语义关系的一维语音特征,g=3h,h≥1,m≥1;
2)对一设定文本进行编码,获取词级别文本表示,并将词级别文本表示中每一个词与一维语音特征进行拼接,得到语音引导文本特征;其中,所述将词级别文本表示中每一个词与一维语音特征进行拼接,得到语音引导文本特征,包括:
融合若干样本语音信息的一维语音特征与若干样本文本的词级别文本表示,获取第i个词的门控值gatei=σ(Wg[f’p,f’si]+bg),其中σ为Sigmoid激活函数,f’si为一样本文本的词级别文本中的第i个词文本表示,f’p为一样本语音信息的一维语音特征,Wg是f’p和f’si拼接后的结果线性映射的权重矩阵,bg是f’p和f’si拼接后的结果线性映射的偏置;
通过第i个词的门控制,计算第i个词的语音引导文本特征
Figure FDA0004000880860000011
Figure FDA0004000880860000012
Figure FDA0004000880860000013
为词级别文本中第i个词文本表示,fp为设定长度语音信息的一维语音特征,Ws是fp
Figure FDA0004000880860000014
的拼接结果在门控值选择后的结果线性映射的权重矩阵,bs是fp
Figure FDA0004000880860000015
的拼接结果在门控值选择后的结果线性映射的偏置;
3)对查找到的每一图片,提取图片的区域特征,计算区域特征与语音引导文本特征的相似性分数,判断该图片是否包含设定长度语音信息及设定文本信息,得到检索结果。
2.如权利要求1所述的方法,其特征在于,g维MFCC特征包括h维MFCC系数、h维一阶差分参数和h维二阶差分参数。
3.如权利要求1所述的方法,其特征在于,通过以下步骤得到包含各维度之间相关关系及语音特征帧与帧之间局部语义关系的语音特征:
1)将g维MFCC特征输入一卷积神经网络,其中该卷积神经网络包括L个卷积层、V个池化层及一全连接层,L≥2,V≥1,L≥V;
2)通过一卷积层,获取包含各维度之间相关关系的卷积特征;
3)通过L-1个卷积层及V个池化层,获取包含语音特征帧与帧之间局部语义关系的卷积特征;
4)将最后一卷积层得到的卷积特征展开成一维向量,使用全连接层映射到指定维度,得到一维语音特征。
4.如权利要求1所述的方法,其特征在于,通过以下步骤获取词级别文本表示:
1)对设定文本的各词语使用one-hot表示,得到词级别文本;
2)通过双向门控循环单元对词级别文本进行编码,得到词级别文本表示。
5.如权利要求1所述的方法,其特征在于,将所述图片输入在Visual Genomes数据集上预训练的Faster-RCNN模型,提取所述图片的区域特征。
6.如权利要求1所述的方法,其特征在于,通过以下步骤计算区域特征与语音引导文本特征的相似性分数:
1)计算语音引导文本特征中的词与区域特征的余弦相似性
Figure FDA0004000880860000021
其中vj为待选图片的第j个区域特征;
2)使用softmax函数将余弦相似性αij转换为语音引导文本特征引导下各图像区域的组合权重
Figure FDA0004000880860000022
其中N为待选图片的区域特征数量,λ1为超参数;
3)计算
Figure FDA0004000880860000023
引导后的组合图像
Figure FDA0004000880860000024
4)计算
Figure FDA0004000880860000025
与vsi的相似性
Figure FDA0004000880860000026
5)计算区域特征与语音引导文本特征的相似性分数
Figure FDA0004000880860000027
7.如权利要求1所述的方法,其特征在于,通过相似性分数及一设定阈值,判断该图片是否包含设定长度语音信息及设定文本信息。
8.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-7中任一所述方法。
9.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-7中任一所述方法。
CN202010663328.7A 2020-07-10 2020-07-10 一种面向文本和图像的跨媒体检索方法及电子装置 Active CN112000818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010663328.7A CN112000818B (zh) 2020-07-10 2020-07-10 一种面向文本和图像的跨媒体检索方法及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010663328.7A CN112000818B (zh) 2020-07-10 2020-07-10 一种面向文本和图像的跨媒体检索方法及电子装置

Publications (2)

Publication Number Publication Date
CN112000818A CN112000818A (zh) 2020-11-27
CN112000818B true CN112000818B (zh) 2023-05-12

Family

ID=73467268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010663328.7A Active CN112000818B (zh) 2020-07-10 2020-07-10 一种面向文本和图像的跨媒体检索方法及电子装置

Country Status (1)

Country Link
CN (1) CN112000818B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287159B (zh) * 2020-12-18 2021-04-09 北京世纪好未来教育科技有限公司 检索方法、电子设备及计算机可读介质
CN112685594B (zh) * 2020-12-24 2022-10-04 中国人民解放军战略支援部队信息工程大学 基于注意力的弱监督语音检索方法及系统
CN113065012B (zh) * 2021-03-17 2022-04-22 山东省人工智能研究院 一种基于多模态动态交互机制的图文解析方法
CN112966127B (zh) * 2021-04-07 2022-05-20 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113204666B (zh) * 2021-05-26 2022-04-05 杭州联汇科技股份有限公司 一种基于文字查找匹配图片的方法
CN113723344A (zh) * 2021-09-08 2021-11-30 北京有竹居网络技术有限公司 视频的识别方法、装置、可读介质和电子设备
CN113971208B (zh) * 2021-12-22 2022-05-06 山东建筑大学 基于混合注意力机制的视频对象定位方法及系统
CN114202038B (zh) * 2022-02-16 2022-05-31 广州番禺职业技术学院 一种基于dbm深度学习的众包缺陷分类方法
CN114973294B (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 基于图文匹配方法、装置、设备及存储介质
CN116431849B (zh) * 2023-04-07 2024-01-02 四川大学 一种基于证据学习的鲁棒图文检索方法
CN116542252B (zh) * 2023-07-07 2023-09-29 北京营加品牌管理有限公司 一种金融文本核查方法及系统
CN117951330A (zh) * 2024-03-27 2024-04-30 吉林大学 一种基于人工智能的医疗数据检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050238238A1 (en) * 2002-07-19 2005-10-27 Li-Qun Xu Method and system for classification of semantic content of audio/video data
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
CN111309971B (zh) * 2020-01-19 2022-03-25 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法

Also Published As

Publication number Publication date
CN112000818A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112000818B (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
Wang et al. An overview of image caption generation methods
Liu et al. A survey on deep neural network-based image captioning
Li et al. Visual to text: Survey of image and video captioning
Wang et al. Application of convolutional neural network in natural language processing
WO2021223323A1 (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN111488739A (zh) 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN114780690B (zh) 基于多模态矩阵向量表示的专利文本检索方法及装置
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
CN116450883A (zh) 基于视频内容细粒度信息的视频时刻检索方法
Verma et al. Automatic image caption generation using deep learning
Parvin et al. Transformer-based local-global guidance for image captioning
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
Liu et al. A multimodal approach for multiple-relation extraction in videos
Huang et al. Sentence-embedding and similarity via hybrid bidirectional-lstm and cnn utilizing weighted-pooling attention
Zhang et al. Wikitag: Wikipedia-based knowledge embeddings towards improved acoustic event classification
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
Parvin et al. Image captioning using transformer-based double attention network
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant