CN109992686A - 基于多角度自注意力机制的图像-文本检索系统及方法 - Google Patents

基于多角度自注意力机制的图像-文本检索系统及方法 Download PDF

Info

Publication number
CN109992686A
CN109992686A CN201910134902.7A CN201910134902A CN109992686A CN 109992686 A CN109992686 A CN 109992686A CN 201910134902 A CN201910134902 A CN 201910134902A CN 109992686 A CN109992686 A CN 109992686A
Authority
CN
China
Prior art keywords
image
text
network
attention
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910134902.7A
Other languages
English (en)
Inventor
张玥杰
李文杰
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201910134902.7A priority Critical patent/CN109992686A/zh
Publication of CN109992686A publication Critical patent/CN109992686A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于跨模态检索技术领域,具体为基于多角度自注意力机制的图像‑文本检索系统及方法。系统包括:深度卷积网络,双向循环神经网络,图像、文本自注意力网络,多模态空间映射网络,以及多阶段训练模块;深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量,双向循环神经网络用于获取单词特征在文本空间的嵌入向量,两者分别输入至图像、文本自注意力网络;图像、文本自注意力网络用于获取图像关键区域的嵌入表示和句子中关键单词的嵌入表示;多模态空间映射网络用于获取图像文本在多模态空间的嵌入表示;多阶段训练模块用于学习网络中的参数。本发明在公共数据集Flickr30kMSCOCO上取得良好结果,性能有很大提升。

Description

基于多角度自注意力机制的图像-文本检索系统及方法
技术领域
本发明属于跨模态检索技术领域,具体涉及基于多角度自注意力机制的图像-文本检索系统及方法。
背景技术
在各种多模态信息处理任务中,图像和文本之间的跨模态分析与处理研究是众多研究方向里非常重要的一项。具体包括图像描述自动生成、及图文互搜等任务。这里重点关注跨模态检索,也就图文互搜任务。图文互搜就是输入一幅图像,需要找出与之语义最相似的K个句子。或者输入一个句子,找到与之语义最相关的K幅图像。图文互搜是一项非常具有挑战性的任务,因为其涉及到模式识别非常重要的两个分支研究领域,即计算机视觉和自然语言处理。从计算机视觉的角度看,图像描述的信息可涉及到中任何视觉内容如物体以及属性等或者图像中的完整场景,提取图像的特征一般采用卷积神经网络(ConvolutionalNeural Networks,CNN),提取图像的特征一般采用卷积神经网络,如VGG、ResNet等,但提取的特征粒度比较粗。从自然语言处理角度来看,如何对句子进行编码以表示出语义特征也是一个具有挑战性的问题。传统方法多采用词袋模型来量化表示句子,这样处理的优点是简单直接,缺点是忽略句子中单词之间的顺序依赖信息。循环神经网络(Recurrent NeuralNetwork,RNN)是一种新型的神经网络方法,该方法通过循环网络可以学习到词与词之间的序列依赖信息,相比词袋模型信息量更多。RNN最后一个时刻的隐层输出可以作为句子特征表示,但属于粗粒度的句子特征表示。
图文检索模型一般分别对图像(如采用CNN)和文本(如采用RNN)进行编码,然后利用目标函数将图像空间和文本空间尽可能地融合。之后,即可通过向量内积来进行相似度的计算,一般使用Pairwise Ranking损失函数进行训练,即文本与匹配图像的相似度要比与不匹配图像的相似度高一个边缘,图像与匹配文本的相似度要比与不匹配文本的相似度高一个边缘。Faghri等人[5]又针对难例的优化进行改善,难例的优化在于让一幅图像与正样本文本的相似性比最不好区分的负样本文本之间的相似性大一个边缘,针对文本对应的正样本图像和负样本图像也是如此。
尽管现有工作在图像-文本检索任务上已取得不小突破,但总体而言,基于基础的CNN+RNN模型还处于一个“粗糙”的起始阶段,检索出来的图像(文本)和被查询文本(图像)还有一些差异,优化方法仍存在改善空间。
发明内容
本发明为克服现有CNN+RNN模型在图像-文本检索技术上所提取的特征不够细致、以及优化方法的缺陷,提供一种基于多阶段训练多角度自注意力机制的图像-文本检索系统及方法。
本发明提供的基于多阶段训练多角度自注意力机制的图像-文本检索系统,包括:深度卷积网络,双向循环神经网络,图像自注意力网络,文本自注意力网络,多模态空间映射网络,及多阶段训练模块;所述深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量,并输入至图像自注意力网络;所述双向循环神经网络用于获取单词特征在文本空间的嵌入向量,并输入至文本自注意力网络;所述图像自注意力网络用于获取图像关键区域的嵌入表示;所述文本自注意力网络用于获取句子中关键单词的嵌入表示;所述多模态空间映射网络用于获取图像文本的在多模态空间的嵌入表示;所述多阶段训练模块用于学习网络中的参数。
进一步,所述深度卷积网络采用152层ResNet[7];ResNet将所述图像表示为7x7x2048的特征映射,特征映射的计算公式为:
V=CNNEnc(Ii;θCNN),(1)
其中,θCNN是ResNet中包含的所有参数,Ii为输入图像,V={v1,v2,…,vR+为图像区域表示(2048维),R(7x 7)为区域的个数;
所述双向循环网络采用门控循环单元(GRU)[2];所述双向循环网络将所述文本中每个单词表示为1024维向量,特征映射的计算公式为:
U=GRUEnc(Ti;θGRU),(2)
其中,θGRU是双向循环网络中包含的所有参数,Ti为输入文本,U={u1,u2,…,uT+为单词表示,T为单词个数。
进一步,所述图像、文本多角度自注意力网络,其输入分别为图像区域表示V和单词表示U。每个区域或单词的权重通过两层全连接以及softmax函数获得,即:
然后,对每个区域进行加权求和,获得每个角度的特征表示:
其中,m为角度数,v(i)和u(i)分别为第i个角度图像和文本的特征表示。V为图片区域特征表示,Pv,Qv为其参数,Wv为求得的权重;与之对应,U为单词特征表示,Pu,Qu为其参数,Wu为求得的权重。
进一步,所述多模态映射网络把图像特征和文本特征映射到多模态空间中,其计算公式为:
v=L2norm(Fv[v(0);v(1);…;v(m)]+bv) (6)
u=L2norm(Fu[u(0);u(1);…;u(m)]+bu) (7)
其中,Fv和Fu为映射矩阵,bv和bu为偏置权重,v和u分别为多模态空间图像与文本的嵌入表示。
进一步,所述多阶段训练模块,其中,先采用第一阶段损失函数训练,然后采用第二阶段损失函数进行训练,最后以一个较小的学习率联合所有模块包括ResNet网络进行微调。
第一阶段损失函数为:
第二阶段损失函数为:
其中,I为单位向量,S为图片与文本的相似矩阵,对角线上的元素即为匹配的图像文本对的相似性,非对角线上的元素为不匹配的图像文本对的相似性,相似性的计算为图片特征表示v和文本特征表示u的余弦相似性,即为s(v,u)=vTu。[x]+≡max(x,0),第二阶段的损失函数表示让一幅图像与正样本文本的相似性比最不好区分的负样本文本之间的相似性大一个边缘,针对文本对应的正样本图像和负样本图像也是如此。
本发明还提供所述的基于多阶段训练多角度自注意力机制的图像-文本检索系统的图像-文本检索方法,具体步骤为:
步骤一、由深度卷积网络获取图像区域在嵌入空间中的嵌入向量,并输出至图像自注意力网络中;
由双向循环网络获取文本单词在嵌入空间中的嵌入向量,并输出至文本自注意力网络中;
步骤二、由图像、文本多角度自注意力网络,分别提取图像、文本中关键区域的表示和关键单词的表示;
步骤三、由多模态空间映射网络把图像文本映射至一个多模态空间中;
步骤四、由多阶段训练模块,采用不同的损失函数进行参数学习。
本发明的优点包括:首先,本发明采用多角度自注意力机制提取图像和文本中的细粒度特征,更好地关注其中的重要信息;其次,使用多阶段训练方法,让网络学习到更好的参数;最后,本发明在公共数据集Flickr30k[17]和MSCOCO[6]上取得良好结果,性能较当前方法具有很大提升。
附图说明
图1是本发明的框架图。
图2是多角度自注意力可视化示意图。
图3是本发明的应用效果图。
具体实施方式
由背景技术可知,现有的图像-文本检索方法所提取的实例特征比较粗糙,未能很好地反映之中的关键语义信息,同时优化方法上也存在其改善的空间。申请人针对所述问题进行研究,认为可以把其中的关键信息从不同角度提取出来。比如给定一幅图像,不同的人可能关注不同的内容,如狗或者草地,针对文本也一样。为此,采用自注意力机制从不同角度来提取其中的关键信息,同时在难例的优化上做进一步研究,发现先进行整体的优化然后进行难例的优化,可使所提出的框架得到更好的优化,学习到更好的网络参数。
本实施例中,图像区域特征由在ImageNet上预训练好的ResNet网络提取出来。首先把图像调整成256x256大小,然后随机裁剪成224x224大小的区域输入至ResNet中,并在测试阶段居中裁剪。ResNet除最后的全连接层外全是由卷积层和池化层组成,因此图像区域的表示可以和它对应全卷积网络的输出关联起来,即为ResNet最后一个池化层的输出。图像的区域表示为{v1,v2,…,vR},其中vi(i=1,2,…,R)是一个dv(2048)维的向量,代表第i个区域的特征表示,R是区域的个数。这个过程可以表示为V=CNNEnc(Ii;θCNN),其中,θCNN是ResNet中包含的所有参数,Ii为输入图像,V是{v1,v2,…,vR}这个集合的表示。
针对句子中单词的表示,使用双向GRU来提取其上下文表示。对于一个有T个单词的文本,把每个单词编码为热向量{w1,w2,…,wT},首先把单词映射至嵌入空间中,即xt=Mwt,M是嵌入矩阵,然后输入至双向GRU中:
其中,分别表示前向和反向GRU在t时刻隐藏层的输出。通过连接每个时间步两个隐藏层的输出,可得到单词的上下文表示,表示为{u1,u2,…,uT},ui代表第i个单词在整个句子上下文中的语义。整个过程可以表示为U=GRUEnc(Ti;θGRU),Ti为输入文本,所述双向GRU来提取单词的上下文特征U,即集合{u1,u2,…,uT},θGRU是GRU网络中的参数以及参数矩阵M。不同于直接使用在ImageNet上预训练好的卷积网络,单词嵌入矩阵和GRU中的参数和下游网络联合起来从头开始训练。
本实施例中,获取图像区域的特征和单词的上下文语义特征后,为简化处理,图像文本的粗粒度特征取所有实例(即区域或单词)特征的平均值。这里,粗粒度特征(v(0)和u(0)分别表示图像和文本)表示如下:
为更好地获得图像文本的表示,所述多角度自注意力机制获取其细粒度特征,从不同角度来注意其重点区域或单词。所注意的特征可表示为每个区域或单词特征的加权和。其权值通过两层的感知机来获取,即:
其中,Qv(dhxdv)和Pv(m xdh)是参数矩阵,softmax函数作用在其输入的第二个维度;Wv是求得的权重矩阵,大小为m x R,每一行代表一个角度注意力的权重。针对句子的多角度attention也为类似。因此,v(i)和u(i)代表图像和文本中第i个角度注意的权重。如果不同的角度注意相似的内容,权重矩阵W会存在冗余。为此,使用下列惩罚项:
该策略约束每个角度注意尽可能少的区域或者单词,同时不同角度要注意到不同的内容。考虑W中的两行wi和wj,即两个角度自注意力的权重。softmax函数使得W中每一行中的元素和都为1,因此可看作离散的概率分布。对于矩阵WWT中的任意元素aij,其来自于两个概率分布的内积:
其中,分别是wi和wj向量中的第k个元素。对于在矩阵WWT中的任意对角线元素aij(i=j),让其趋近于1,这意味着每个注意角度注意尽可能少的区域或单词,在极端情况下,W中的每行只有一个1,剩下的均为0,即代表只注意一个区域或一个单词。与此同时,对于在矩阵WWT中的任意非对角线元素aij(i≠j),让其趋近于0,在极端情况下,无重叠区域,否则将为一个正数。
在本实施例中,所述多模态空间映射网络中把粗粒度特征和细粒度特征连接起来,然后用所述全连接层以及归一化操作映射至多模态空间中。其过程为:
v=L2norm(Fv[v(0);v(1);…;v(m)]+bv) (24)
u=L2norm(Fu[u(0);u(1);…;u(m)]+bu) (25)
其中,v和u分别是图像文本在多模态空间的嵌入表示,Fv和Fu是映射矩阵,bv和bu是对应的偏置。
在获取图像和文本于多模态空间的嵌入表示后,可通过余弦相似度来计算图像文本的相似性,检索时返回相似度最高的前K个即可。其相似度计算公式为:
s(v,u)=vTu (26)
在本实施例中,为更好地学习到网络中的参数,所述多阶段训练方法可进行更好的优化。前一个阶段可为后面的阶段提供比较好的初始参数,以便更好地学习。其具体过程如下:
在第一阶段中,采用MSE损失,让匹配图像文本对的相似度靠近1,不匹配的图像文本的相似度靠近0,对应的损失函数为:
其中,S为相似矩阵,对角线上的元素即为匹配的图像文本对,非对角线上的元素为不匹配的图像文本对。
在经过第一阶段的训练后,在第二阶段针对难例进行优化,对应的损失函数为:
其中,[x]+≡max(x,0),难例的优化在于让一幅图像与正样本文本的相似性比最不好区分的负样本文本之间的相似性大一个边缘,针对文本对应的正样本图像和负样本图像也是如此。由于第一阶段是让相似度的平方趋近于0或1,在第二阶段也对对应的相似度取平方。
因此,对应总的损失函数为:
L=l+α1Pv2Pu (29)
其中,l为第一阶段或者第二阶段的损失函数,即lstage-I或lstage-II,α12为对应的权重,考虑到不同任务之间的差异,在两个阶段的优化后微调ResNet。
本实施例中,选取两个公共数据集进行网络训练,即Flickr30k和MSCOCO。Flickr30k是从Flickr网站上进行爬取,其包含31783幅图像以及配对的描述句子,其中每幅图像都包含5个在语法表达上类似的句子来对其描述,这些句子都是经过人工标注和检验。另外一个数据集MSCOCO则比Flickr30k规模更大一些,在官方发布的原始集合中包含82783幅用于训练的图像以及40504幅用于校验的图像,同样每一幅图像也包含5个语义相关的句子来对其进行描述。为更好地进行训练和测试,对两个数据集进行初步预处理。对于句子描述部分,使用斯坦福的分词工具对句子进行分词,过滤掉在数据集中出现次数少于5次的单词。通过这样的过滤操作,可以过滤到噪音信息,保留更有意义的文本信息。在经过预处理后,对于Flickr30k和MSCOCO两个数据集对应的新词典大小分别为7414和8791。
本实施例中选取TopK的召回率来进行评价,该指标是指在检索结果中前K个有对应正样本结果所占的比例。一般K取1、5、10。该指标分为从图像到文本和从文本到图像,从而来度量两个检索方向的检索效果。
通过在验证数据集上的实验对比,对应本实施例所提出模型包含的超参数设定如下:对于两个数据集,词嵌入矩阵的维度都设置为300,GRU隐藏层的维度为512,多模态空间的维度为1024,边缘为0.2,α12为0.001。为此,将本实施例所提出的模型在Flickr30k与MSCOCO两个数据集上分别进行测试。其中,在Flickr30k上图像到文本的召回率分别为57.7%/82.5%/89.4%(分别为Top-1、Top-5、Top-10的召回率,下同),文本到图像上的召回率分别为42.7%/70.8%/80.3%;在MSCOCO上图像到文本的召回率分别为65.4%/91.3%/95.8%,文本到图像的召回率分别为52.6%/81.2%/92.1%。整体性能相比以往方法有较大的提升。
综上所述,本发明面向图像与句子级别文本之间的关联建模,提出一种新颖的多角度自注意力方法,采用卷积神经网络CNN对图像区域进行内容编码,循环神经网络RNN对文本中的单词进行语义编码,自注意力网络找出图像中的关键区域或文本中的关键单词,最后把图像文本映射至多模态空间中。与此同时,网络训练采用多阶段训练的方法,第一阶段的损失函数可为第二阶段提供一个比较好的初始值,便于网络优化。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
参考文献
[1]Antol S.,Agrawal A.,Lu J.,Mitchell M.,Batra D.,Zitnick C.L.,andParikh D.2015.VQA:Visual Question Answering.In Proceedings of ICCV 2015,pages2425-2433.
[2]Cho K,VanB,Gulcehre C,et al.Learning phraserepresentations using RNN encoder-decoder for statistical machinetranslation.Computing Research Repository,arXiv:1406.1078.Version 3.
[3]Deng J.,Berg A.,Satheesh S.,Su H.,Khosla A.,and LiF.F.2009.ImageNet:A large-scale hierarchical image database.In Proceedings ofCVPR 2009,pages248-255.
[4]Eisenschtat A.and Wolf L.2017.Linking Image and Text with 2-WayNets.In Proceedings of CVPR 2017,pages 1855-1865.
[5]Faghri F.,Fleet D.J.,Kiros J.R.,and Fidler S.2017.VSE++:ImprovingVisual-Semantic Embeddings with Hard Negatives.Computing Research Repository,arXiv:1707.05612.Version 2.
[6]Lin T.Y.,Maire M.,Belongie S.,Hays J.,Perona P.,Ramanan D.,DollarP,Zitnick C.L.2014.Microsoft coco:Common objects in context.In Proceedings ofECCV2014,pp.740-755.
[7]He K.M.,Zhang X.Y.,Ren S.H.,and Sun J.2016.Deep residual learningfor image recognition.In Proceedings of CVPR 2016,pages 770-778.
[8]Huang Y.,Wang W.,and Wang L.2017.Instance-Aware Image and SentenceMatching with Selective Multimodal LSTM.In Proceedings of CVPR 2017,pages7254-7262.
[9]Karpathy A.and Li F.F.2015.Deep visual-semantic alignments forgenerating image descriptions.In Proceedings of CVPR 2015,pages 3128-3137.
[10]Karpathy A.,Joulin A.,and Li F.F.2014.Deep fragment embeddingsfor bidirectional image sentence mapping.In Proceedings of NIPS 2014,pages1889-1897.
[11]Kiros R.,Salakhutdinov R.,and Zemel R.2014.Unifying visual-semantic embeddings with multi-modal neural language models.ComputingResearch Repository,arXiv:1411.2539.Version 1.
[12]Kingma D.P.and Ba J.2015.Adam:A method for stochasticoptimization.Computing Research Repository,arXiv:1412.6980.Version 8.
[13]Lin Z.H.,Feng M.W.,Santos C.N.D.,Yu M.,Xiang B.,Zhou B.W.,andBengio Y.S.2017.A structured self-attentive sentence embedding.ComputingResearch Repository,arXiv:1703.03130.Version 1.
[14]Liu Y.,Guo Y.M.,Bakker E.M.,and Lew M.S.2017.Learning a RecurrentResidual Fusion Network for Multimodal Matching.In Proceedings of ICCV 2017,pages4127-4136.
[15]Nam H.,Ha J.W.,and Kim J.2017.Dual attention networks formultimodal reasoning and matching.In Proceedings of CVPR 2017,pages 2156-2164.
[16]Vinyals O.,Toshev A.,Bengio S.,and Erhan D.Show and tell:A neuralimage caption generator.2015.In Proceedings of CVPR 2015,pages 3156-3164.
[17]Young P.,Lai A.,Hodosh M.,and Hockenmaier J.2014.From imagedescriptions to visual denotations:New similarity metrics for semanticinference over event descriptions.Journal of Transactions of the Associationfor Computational Linguistics,2:67-78.
[18]Zheng Z.D.,Zheng L.,Garrett M.,Yang Y.,and Shen Y.D.2017.Dual-Path Convolutional Image-Text Embedding.Computing Research Repository,arXiv:1711.05535.Version 2.。

Claims (6)

1.一种多角度自注意力机制的图像-文本检索系统,其特征在于,包括:深度卷积网络,双向循环神经网络,图像自注意力网络,文本自注意力网络,多模态空间映射网络,及多阶段训练模块;所述深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量,并输入至图像自注意力网络;所述双向循环神经网络用于获取单词特征在文本空间的嵌入向量,并输入至文本自注意力网络;所述图像自注意力网络用于获取图像关键区域的嵌入表示;所述文本自注意力网络用于获取句子中关键单词的嵌入表示;所述多模态空间映射网络用于获取图像文本的在多模态空间的嵌入表示;所述多阶段训练模块用于学习网络中的参数。
2.根据权利要求1所述的图像-文本检索系统,其特征在于,所述深度卷积网络采用152层ResNet;ResNet将所述图像表示为7x7x2048的特征映射,特征映射的计算公式为V=CNNEnc(Ii;θCNN),其中,θCNN是ResNet中包含的所有参数,Ii为输入图像,V={v1,v2,…,vR}为图像区域表示,为2048维,R(7x7)为区域的个数;
所述双向循环网络采用门控循环单元(GRU);双向循环网络将所述文本中每个单词表示为1024维向量,特征映射的计算公式为:U=GRUEnc(Ti;θGRU),其中,θGRU是双向循环网络中包含的所有参数,Ti为输入文本,U={u1,u2,…,uT}为单词表示,T为单词个数。
3.根据权利要求1所述的图像-文本检索系统,其特征在于,所述图像、文本自注意力网络,其输入分别为图像区域表示V和单词表示U;每个区域或单词的权重通过两层全连接以及softmax函数获得,即:
然后,对每个区域进行加权求和,获得每个角度的特征表示:
其中,m为角度数,v(i)和u(i)分别为第i个角度图像和文本的特征表示;V为图片区域特征表示,Pv,Qv为其参数,Wv为求得的权重;与之对应,U为单词特征表示,Pu,Qu为其参数,Wu为求得的权重。
4.根据权利要求1所述的图像-文本检索系统,其特征在于,所述多模态映射网络把图像特征和文本特征映射到多模态空间中,其计算公式为:
v=L2norm(Fv[v(0);v(1);…;v(m)]+bv)
u=L2norm(Fu[u(0);u(1);…;u(m)]+bu)
其中,Fv和Fu为映射矩阵,bv和bu为偏置权重,v和u分别为多模态空间图像与文本的嵌入表示。
5.根据权利要求1所述的图像-文本检索系统,其特征在于,所述多阶段训练模块,其中,先采用第一阶段损失函数训练,然后采用第二阶段损失函数进行训练,最后以一个较小的学习率联合所有模块包括ResNet网络进行微调;
第一阶段损失函数为:
第二阶段损失函数为:
其中,I为单位向量,S为图片与文本的相似矩阵,对角线上的元素即为匹配的图像文本对的相似性,非对角线上的元素为不匹配的图像文本对的相似性,相似性的计算为图片特征表示v和文本特征表示u的余弦相似性,即为s(v,u)=vTu,[x]+≡max(x,0)。
6.一种基于权利要求1-5之一所述图像-文本检索系统的图像-文本检索方法,其特征在于,具体步骤为:
步骤一、由深度卷积网络获取图像区域在嵌入空间中的嵌入向量,并输出至图像自注意力网络中;
由双向循环网络获取文本单词在嵌入空间中的嵌入向量,并输出至文本自注意力网络中;
步骤二、由图像、文本多角度自注意力网络,提取图像、文本中关键区域的表示和关键单词的表示;
步骤三、由多模态空间映射网络把图像文本映射至一个多模态空间中;
步骤四、由多阶段训练模块,采用不同的损失函数进行参数学习。
CN201910134902.7A 2019-02-24 2019-02-24 基于多角度自注意力机制的图像-文本检索系统及方法 Pending CN109992686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910134902.7A CN109992686A (zh) 2019-02-24 2019-02-24 基于多角度自注意力机制的图像-文本检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910134902.7A CN109992686A (zh) 2019-02-24 2019-02-24 基于多角度自注意力机制的图像-文本检索系统及方法

Publications (1)

Publication Number Publication Date
CN109992686A true CN109992686A (zh) 2019-07-09

Family

ID=67130341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910134902.7A Pending CN109992686A (zh) 2019-02-24 2019-02-24 基于多角度自注意力机制的图像-文本检索系统及方法

Country Status (1)

Country Link
CN (1) CN109992686A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363760A (zh) * 2019-07-22 2019-10-22 广东工业大学 用于识别医学图像的计算机系统
CN111126479A (zh) * 2019-12-20 2020-05-08 山东浪潮人工智能研究院有限公司 一种基于无监督独特性优化的图像描述生成方法及系统
CN111324752A (zh) * 2020-02-20 2020-06-23 中国科学技术大学 基于图神经网络结构建模的图像与文本检索方法
CN111340122A (zh) * 2020-02-29 2020-06-26 复旦大学 一种多模态特征融合的文本引导图像修复方法
CN111461166A (zh) * 2020-02-28 2020-07-28 天津大学 一种基于lstm网络的多模态特征融合方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN111859005A (zh) * 2020-07-01 2020-10-30 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN111916207A (zh) * 2020-08-07 2020-11-10 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN111984817A (zh) * 2020-08-10 2020-11-24 湖南大学 一种基于自注意力机制加权的细粒度图像检索方法
CN112101380A (zh) * 2020-08-28 2020-12-18 合肥工业大学 基于图文匹配的产品点击率预测方法和系统、存储介质
CN112287159A (zh) * 2020-12-18 2021-01-29 北京世纪好未来教育科技有限公司 检索方法、电子设备及计算机可读介质
CN112818157A (zh) * 2021-02-10 2021-05-18 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法
WO2021098534A1 (zh) * 2019-11-22 2021-05-27 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置、电子装置和存储介质
CN112860930A (zh) * 2021-02-10 2021-05-28 浙江大学 一种基于层次化相似性学习的文本到商品图像的检索方法
CN112966135A (zh) * 2021-02-05 2021-06-15 华中科技大学 一种基于注意力机制和门控机制的图文检索方法和系统
CN112990296A (zh) * 2021-03-10 2021-06-18 中科人工智能创新技术研究院(青岛)有限公司 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113435206A (zh) * 2021-05-26 2021-09-24 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN113516118A (zh) * 2021-07-29 2021-10-19 西北大学 一种图像与文本联合嵌入的多模态文化资源加工方法
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115858847A (zh) * 2023-02-22 2023-03-28 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
US20180268552A1 (en) * 2017-03-03 2018-09-20 National Institutes Of Health Eye Tracking Applications in Computer Aided Diagnosis and Image Processing in Radiology
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
US20180268552A1 (en) * 2017-03-03 2018-09-20 National Institutes Of Health Eye Tracking Applications in Computer Aided Diagnosis and Image Processing in Radiology
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张观良: ""面向图文检索的多模态学习算法研究"", 《中国优秀博硕士学位论文全文数据库 信息科技辑》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363760A (zh) * 2019-07-22 2019-10-22 广东工业大学 用于识别医学图像的计算机系统
CN110363760B (zh) * 2019-07-22 2021-11-30 广东工业大学 用于识别医学图像的计算机系统
WO2021098534A1 (zh) * 2019-11-22 2021-05-27 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置、电子装置和存储介质
CN111126479A (zh) * 2019-12-20 2020-05-08 山东浪潮人工智能研究院有限公司 一种基于无监督独特性优化的图像描述生成方法及系统
CN111324752B (zh) * 2020-02-20 2023-06-16 中国科学技术大学 基于图神经网络结构建模的图像与文本检索方法
CN111324752A (zh) * 2020-02-20 2020-06-23 中国科学技术大学 基于图神经网络结构建模的图像与文本检索方法
CN111461166A (zh) * 2020-02-28 2020-07-28 天津大学 一种基于lstm网络的多模态特征融合方法
CN111340122A (zh) * 2020-02-29 2020-06-26 复旦大学 一种多模态特征融合的文本引导图像修复方法
CN111340122B (zh) * 2020-02-29 2022-04-12 复旦大学 一种多模态特征融合的文本引导图像修复方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111488739B (zh) * 2020-03-17 2023-07-18 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111581973B (zh) * 2020-04-24 2020-12-29 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN111859005B (zh) * 2020-07-01 2022-03-29 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN111859005A (zh) * 2020-07-01 2020-10-30 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN111916207B (zh) * 2020-08-07 2023-08-08 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN111916207A (zh) * 2020-08-07 2020-11-10 杭州深睿博联科技有限公司 一种基于多模态融合的疾病识别方法及装置
CN111984817B (zh) * 2020-08-10 2022-06-17 湖南大学 一种基于自注意力机制加权的细粒度图像检索方法
CN111984817A (zh) * 2020-08-10 2020-11-24 湖南大学 一种基于自注意力机制加权的细粒度图像检索方法
CN112101380A (zh) * 2020-08-28 2020-12-18 合肥工业大学 基于图文匹配的产品点击率预测方法和系统、存储介质
CN112101380B (zh) * 2020-08-28 2022-09-02 合肥工业大学 基于图文匹配的产品点击率预测方法和系统、存储介质
CN112287159A (zh) * 2020-12-18 2021-01-29 北京世纪好未来教育科技有限公司 检索方法、电子设备及计算机可读介质
CN112287159B (zh) * 2020-12-18 2021-04-09 北京世纪好未来教育科技有限公司 检索方法、电子设备及计算机可读介质
CN112966135B (zh) * 2021-02-05 2022-03-29 华中科技大学 一种基于注意力机制和门控机制的图文检索方法和系统
CN112966135A (zh) * 2021-02-05 2021-06-15 华中科技大学 一种基于注意力机制和门控机制的图文检索方法和系统
CN112860930A (zh) * 2021-02-10 2021-05-28 浙江大学 一种基于层次化相似性学习的文本到商品图像的检索方法
CN112818157A (zh) * 2021-02-10 2021-05-18 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法
CN112818157B (zh) * 2021-02-10 2022-09-16 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法
CN112990296A (zh) * 2021-03-10 2021-06-18 中科人工智能创新技术研究院(青岛)有限公司 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113220919B (zh) * 2021-05-17 2022-04-22 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113435206B (zh) * 2021-05-26 2023-08-01 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN113435206A (zh) * 2021-05-26 2021-09-24 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN113516118A (zh) * 2021-07-29 2021-10-19 西北大学 一种图像与文本联合嵌入的多模态文化资源加工方法
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN113837233B (zh) * 2021-08-30 2023-11-17 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN114780690B (zh) * 2022-06-20 2022-09-09 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115858847A (zh) * 2023-02-22 2023-03-28 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及系统
CN116994069B (zh) * 2023-09-22 2023-12-22 武汉纺织大学 一种基于多模态信息的图像解析方法及系统

Similar Documents

Publication Publication Date Title
CN109992686A (zh) 基于多角度自注意力机制的图像-文本检索系统及方法
Biten et al. Good news, everyone! context driven entity-aware captioning for news images
Li et al. Visual question generation as dual task of visual question answering
Gao et al. Convolutional neural network based sentiment analysis using Adaboost combination
Wang et al. Retrieval topic recurrent memory network for remote sensing image captioning
CN110147457A (zh) 图文匹配方法、装置、存储介质及设备
Wu et al. Learning of multimodal representations with random walks on the click graph
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
Mozafari et al. BAS: an answer selection method using BERT language model
Toor et al. Biometrics and forensics integration using deep multi-modal semantic alignment and joint embedding
Sabry et al. Image retrieval using convolutional autoencoder, infogan, and vision transformer unsupervised models
Kang et al. A short texts matching method using shallow features and deep features
Hua et al. A character-level method for text classification
Xiao et al. Multi-Task CNN for classification of Chinese legal questions
Sun et al. Automatic generation of the draft procuratorial suggestions based on an extractive summarization method: BERTSLCA
Kurach et al. Better text understanding through image-to-text transfer
Tian et al. Multi-task learning with helpful word selection for lexicon-enhanced Chinese NER
Li et al. Attention-based LSTM-CNNs for uncertainty identification on Chinese social media texts
Khaing Two-Tier LSTM Model for Image Caption Generation.
Thyagharajan et al. Semantically effective visual concept illustration for images
de Lacalle et al. Evaluating multimodal representations on sentence similarity: vSTS, visual semantic textual similarity dataset
Chen et al. Krit: Knowledge-reasoning intelligence in vision-language transformer
Li et al. Retrieving and ranking short medical questions with two stages neural matching model
Zhu et al. Improving Convolutional Network using K-max mechanism for Sentiment Analysis Tasks
CN116089618B (zh) 融合三元损失和标签嵌入的图注意力网络文本分类模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190709

WD01 Invention patent application deemed withdrawn after publication