CN108829677B - 一种基于多模态注意力的图像标题自动生成方法 - Google Patents

一种基于多模态注意力的图像标题自动生成方法 Download PDF

Info

Publication number
CN108829677B
CN108829677B CN201810602775.4A CN201810602775A CN108829677B CN 108829677 B CN108829677 B CN 108829677B CN 201810602775 A CN201810602775 A CN 201810602775A CN 108829677 B CN108829677 B CN 108829677B
Authority
CN
China
Prior art keywords
image
attention
sentence
features
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810602775.4A
Other languages
English (en)
Other versions
CN108829677A (zh
Inventor
葛宏伟
闫泽杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810602775.4A priority Critical patent/CN108829677B/zh
Publication of CN108829677A publication Critical patent/CN108829677A/zh
Application granted granted Critical
Publication of CN108829677B publication Critical patent/CN108829677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉与自然语言处理的交叉技术领域,提出了一种基于多模态注意力的图像标题自动生成方法,用以解决传统的基于神经网络的方法在预测单词过程中视觉特征和语言特征的对齐问题以及忽略句子特征的问题,提高了模型的收敛速度与图像标题的质量。本方法首先利用卷积神经网络自动地对图像区域进行特征提取;然后利用带视觉注意力的LSTM实现了句子特征的提取;最后设计了一种带多模态注意力(视觉注意力和隐变量注意力)的LSTM产生最终的图像标题。实验证明所提方法在MS COCO等基准数据集上取得了很好的结果。

Description

一种基于多模态注意力的图像标题自动生成方法
技术领域
本发明属于计算机视觉与自然语言处理的交叉技术领域,涉及一种基于多模态注意力的图像标题自动生成方法。
背景技术
为图像生成标题的本质是将图像转换为语言。设计一种高效的图像标题自动生成算法可以使缺少视觉或视觉能力差的系统(人类或计算机)具备感知周围环境的能力。近年来,有许多新颖的工作融合了计算机视觉和自然语言处理的先进技术取得了大有希望的成果。根据标题生成方式的不同,这些工作可以被分为三类:基于模板匹配的方法、基于迁移的方法和基于神经网络的方法。
基于模板匹配的方法首先使用多个分类器分别将图片所包含的物体、属性和活动都识别出来,然后把这些已识别信息填入一个手工设计的固定句子模板以产生句子。该类方法虽然直观且简单,但是由于分类器与固定模板的限制而难以提取更复杂的图像内容也不能灵活地产生结构更复杂的句子。基于迁移的方法使用图像检索技术在现有数据库中搜索出与之相似的图像,然后直接把相似图像的标题作为所查询图片的结果。然而,因为搜索出的图像与待查询图像仅仅是相似而不一定完全相同,所以迁移产生的句子可能无法准确地描述待查询图像的内容。
基于神经网络的方法一般先利用卷积神经网络(Convolutional NeuralNetwork,CNN)作为视觉模型来提取图像特征进而利用循环神经网络(Recurrent NeuralNetwork,RNN)作为语言模型产生有意义的通顺语句。Vinyals等人借鉴了机器翻译任务中的编码器-解码器结构提出了一种基于深度神经网络的图像标题生成器NIC(Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural image caption generator[C]//IEEE Conference on Computer Vision and Pattern Recognition.2015:3156-3164.)。NIC首先使用CNN作为编码器提取出一个定长向量来表示图像特征,进而使用长短期记忆模型(Long Short Term Memory,LSTM)作为解码器产生图像标题,是一种允许以端到端方式训练的模型。为了达到动态关注显著性图像区域的目的,Xu等人选择使用CNN的最后一个卷积层把整个图像转化为一组表示图像各局部特征的向量。在局部特征上应用软注意力机制或硬注意力机制可以进行显著性区域的选择,提高了模型的可解释性和性能(Xu K,Ba J,Kiros R,et al.Show,Attend and Tell:Neural Image Caption Generation withVisual Attention[J].Computer Science,2015:2048-2057.)。为了获得更精细的图像区域特征,Li等人使用Faster R-CNN(Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]//Advancesin neural information processing systems.2015:91-99.)提取图像级特征和物体级特征并提出了全局-局部注意力机制(Li L,Tang S,Deng L,et al.Image Caption withGlobal-Local Attention[C]//AAAI.2017:4133-4139.)。全局-局部注意力机制可以动态地从图像级特征和物体级特征中选择显著性特征以预测下一时刻的单词。提取物体级特征不仅可以使用Faster R-CNN,Fu等人一方面利用选择性搜索算法产生图像中可能包含物体的候选框,然后将包含于各候选框的图像区域输入CNN以提取物体级特征;一方面通过文档主题生成模型(Latent Dirichlet Allocation,LDA)训练一个单隐藏层神经网络预测图像的场景信息,为标题生成提供更多的辅助信息(Fu K,Jin J,Cui R,et al.Aligning whereto see and what to tell:image captioning with region-based attention andscene-specific contexts[J].IEEE transactions on pattern analysis and machineintelligence,2017,39(12):2321-2334.)。此外,带语义注意力机制的模型被提出以提高图像标题的生成质量(You Q,Jin H,Wang Z,et al.Image Captioning with SemanticAttention[C]//Computer Vision and Pattern Recognition.IEEE,2016:4651-4659.)。语义注意力包括输入注意力模块和输出注意力模块两部分。输入注意力模块会根据上一时刻预测的单词选择重要的视觉概念和属性,而输出注意力模块则根据当前时刻隐藏层的状态选择重要的视觉概念和属性。Gu等人在RNN的基础上加入了时域CNN以提取单词序列的特征(Gu J,Wang G,Cai J,et al.An empirical study of language cnn for imagecaptioning[C]//Proceedings of the International Conference on Computer Vision(ICCV).2017.)。其中,时域CNN用以获取单词序列的静态表达,而RNN则用以获取单词序列的动态表达。这种结合RNN和时域CNN的方式有助于产生更通顺的句子。
传统的基于神经网络的方法存在两个问题:1.用于训练CNN的图像分类数据集包含的类别数目是有限的,许多经常出现在图像标题中的语义信息(比如,颜色和大小)并不包含于有限的图像类别中,因此在图像分类数据集上训练的CNN提取出的视觉信息和图像标题中的语义信息不存在严格的对齐关系。2.根据图像特征按单词顺序生成图像标题的做法仅考虑了图像特征而忽视了句子特征,而图像特征和句子特征作为视觉和语义两方面的重要信息都应该被考虑。针对以上两个存在的问题,本发明利用CNN和RNN分别提取图像特征和句子特征并提出了多模态注意力机制。多模态注意力机制可以自适应地关注图像特征或句子特征,避免了视觉和语义的直接对齐,同时在预测下一时刻的单词时充分考虑了视觉信息和语义信息。
发明内容
针对传统的基于神经网络的方法存在视觉信息和语义信息的对齐问题以及句子特征往往被忽视的问题,本发明提出了一种基于多模态注意力的图像标题自动生成方法,它降低了视觉信息与语义信息之间的不对称问题对生成图像标题的不利影响,并充分考虑视觉和语义两方面信息。本发明使用CNN和RNN分别提取图像特征和句子特征,设计一种带多模态注意力的模型自适应地关注图像特征和句子特征以生成最终的图像标题。
本发明的技术方案:
一种基于多模态注意力的图像标题自动生成方法,步骤如下:
步骤1:通过选择性搜索算法把原始图像包含物体的图像区域提取出来,并把它们缩放为统一的像素大小。将这些图像区域输入ResNet卷积神经网络进行前向传播计算,提取倒数第二个全连接层的输出作为图像特征V。
步骤2:通过将单词嵌入一个低维稠密向量空间获得单词特征w,并利用视觉注意力机制从图像特征V中选择显著性图像特征。把选择出的图像特征以及单词特征一同输入LSTM以预测下一时刻的单词,达到初步生成图像标题的目的。提取该LSTM隐藏层的状态作为句子特征H。
步骤3:通过设计的多模态注意力机制从图像特征V中选择显著性图像特征,并从句子特征H中选择显著性句子特征。把选择出的图像特征、句子特征以及本时刻的单词特征一同输入另一个LSTM以预测下一时刻的单词,达到生成最终图像标题的目的。
步骤4:使用步骤3中的LSTM通过集束搜索的方式保留每一时刻产生的多个候选单词并以这些单词为出发点继续搜索直到生成完整的图像标题。
本发明的有益效果:设计的多模态注意力机制同时考虑了图像特征和句子特征并能够自适应地关注图像特征和句子特征,不仅缓解了传统的基于神经网络的方法中存在的视觉特征和语义特征的对齐问题,而且加快了模型收敛速度,提高了最终生成标题的质量。提出的多模态注意力模型通过融合视觉注意力和隐变量注意力,不仅可以得到显著性图像特征和句子特征,并且可以自适应地关注显著性,解决了传统的基于神经网络的方法中存在的视觉和语义的对齐问题以及往往忽略句子特征的问题。
附图说明
图1是基于多模态注意力的图像标题自动生成方法示意图;
图2是利用ResNet卷积神经网络对图像区域进行特征提取的示意图;
图3是带视觉注意力的LSTM示意图;
图4是带多模态注意力(视觉注意力和隐变量注意力)的LSTM示意图;
图5是基于多模态注意力的图像标题自动生成方法的流程图。
具体实施方式
本发明提供一种基于多模态注意力的图像标题自动生成方法。所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。下面结合附图对本发明的实施方式进行详细说明,一种基于多模态注意力的图像标题自动生成方法,具体步骤如下:
(1)图像的预处理
使用选择性搜索算法从原始图像提取出包含物体的图像区域。而这些图像区域的大小是不一样的,不适合后续通过ResNet卷积神经网络进行特征提取。因此本发明对提取出的图像区域进行放缩,使其大小能够符合要求,同时对图像像素值进行了规整化处理。
(2)图像特征的提取
由于ResNet卷积神经网络在大规模图像识别等任务中取得了巨大成功,本发明选取ResNet作为图像特征提取器。首先在ImageNet数据集上对ResNet进行预训练,然后将一幅图像中提取出的图像区域分别输入到该ResNet进行前向传播,最后把该卷积神经网络倒数第二个全连接层的输出作为图像区域的特征。图2展示了一个利用ResNet提取图像区域特征的例子。
(3)句子特征的提取
如图3所示:首先利用带视觉注意力的LSTM为原始图像生成一个初步的标题,然后提取生成过程中该LSTM各时刻隐藏层的状态作为句子特征,包括显著性图像特征的选择、LSTM隐藏层的状态更新以及新单词的预测三个部分;
(3.1)显著性图像特征的选择
在生成初步标题的过程中,使用视觉注意力机制,选择出对预测下一时刻单词有帮助的显著性视觉特征;
视觉注意力机制根据t-1时刻隐藏层的状态ht-1,计算t时刻的显著性视觉特征vt;视觉注意力Av通过对图像的各局部特征vi,(i=1,2,...,n)加权求和,得到显著性视觉特征,计算公式如下:
Figure BDA0001693673200000061
其中,V表示图像特征,
Figure BDA0001693673200000062
表示第i个图像特征在t时刻的注意力权重,且
Figure BDA0001693673200000063
根据t时刻之前隐藏层的状态ht-1推断出t时刻图像各区域的显著性程度;第i个图像特征在t时刻的注意力权重
Figure BDA0001693673200000064
通过使用图像的局部特征vi,(i=1,2,...,n)以及t时刻之前的隐藏层的状态ht-1计算出来,计算公式如下:
Figure BDA0001693673200000065
Figure BDA0001693673200000066
其中,Wh、Wv、b以及ωT是需要学习的参数;先使用Wh和Wv将ht-1和vi映射到同一个向量空间;再将Whht-1、Wvvi与偏置b相加,得到ht-1和vi的相关性向量;接着使用双曲正切函数tanh对该相关性向量进行非线性激活,最后通过与ωT相乘,计算出相关性标量
Figure BDA0001693673200000071
表示第i个图像特征与t时刻之前的状态信息ht-1的相关性分数,取值范围是(-∞,+∞);使用softmax函数将βi t的取值范围压缩在(0,1)之间;
(3.2)LSTM隐藏层的状态更新
已知图像特征V={v1,v2,...,vn}和t时刻之前的所有单词{w0,w1,...,wt-1},则t时刻单词的条件概率表示为P(wt|w0,w1,...,wt-1,V),使用LSTM对单词的概率分布建模,其隐藏层的状态更新由如下公式定义:
vt=Av(V,ht-1) (4)
it=σ(Wixwt+Wihht-1+Wivvt+bi) (5)
ft=σ(Wfxwt+Wfhht-1+Wfvvt+bf) (6)
ot=σ(Woxwt+Wohht-1+Wovvt+bo) (7)
Figure BDA0001693673200000072
Figure BDA0001693673200000073
Figure BDA0001693673200000074
其中,W*和b*表示需要学习的参数,σ表示sigmoid激活函数,
Figure BDA0001693673200000075
表示元素级乘积,it、ft和ot分别表示输入门、忘记门和输出门,ct和ct-1分别表示本时刻和上一时刻的记忆单元,ht和ht-1分别表示本时刻和上一时刻的隐藏层状态;
(3.3)新单词的预测
softmax函数将ht进一步转化为新单词的概率分布P(wt|w0,w1,...,wt-1,V),计算公式如下:
P(wt|w0,w1,...,wt-1,V)=softmax(Wpht) (11)
Figure BDA0001693673200000081
其中,Wp是需要学习的参数;通过最小化整个句子的负对数似然函数Nonlikely()完成训练后,提取LSTM所有时刻隐藏层的状态H={h1,h2,...,hm}作为句子特征S={s1,s2,...,sm};
(4)最终图像标题的生成
如图4所示:设计一个带多模态注意力的LSTM为图像生成最终的标题,包括显著性多模态特征的选择、LSTM隐藏层的状态更新以及新单词的预测三个部分;显著性多模态特征包括图像特征V与句子特征S;
(4.1)显著性多模态特征的选择
多模态注意力机制在视觉注意力机制的基础上增加隐变量注意力模块,根据上一时刻LSTM隐藏层的状态关注显著性句子特征;最终,显著性句子特征与显著性图像特征通过连接,形成显著性多模态特征;隐变量注意力Ah通过对句子特征S加权求和,得到t时刻关注的句子特征st,计算公式如下:
Figure BDA0001693673200000082
其中,
Figure BDA0001693673200000083
表示第i个句子特征在t时刻的注意力权重,且
Figure BDA0001693673200000084
按照图像特征在t时刻的注意力权重的计算方式,计算出句子特征在t时刻的注意力权重:
Figure BDA0001693673200000085
Figure BDA0001693673200000086
计算出显著性句子特征st后,将它与显著性视觉特征vt连接起来,作为多模态特征mt
mt=Am(V,S)=concat(vt,st) (16)
其中,Am表示多模态注意力函数,concat表示将两个向量连接为一个新向量;
(4.2)LSTM隐藏层的状态更新
已知多模态特征M={V,S}和t时刻之前的所有单词{w0,w1,...,wt-1},则t时刻单词的条件概率表示为P(wt|w0,w1,...,wt-1,M);使用LSTM对单词的概率分布建模,其隐藏层的状态更新由以下公式定义:
mt=Am(V,S) (17)
it=σ(Wixwt+Wihht-1+Wimmt+bi) (18)
ft=σ(Wfxwt+Wfhht-1+Wfmmt+bf) (19)
ot=σ(Woxwt+Wohht-1+Wommt+bo) (20)
Figure BDA0001693673200000091
Figure BDA0001693673200000092
Figure BDA0001693673200000093
其中W*和b*表示需要学习的参数,σ表示sigmoid激活函数,
Figure BDA0001693673200000094
表示元素级乘积,it、ft和ot分别表示输入门、忘记门和输出门,ct和ct-1分别表示本时刻和上一时刻的记忆单元,ht和ht-1分别表示本时刻和上一时刻的隐藏层状态;
(4.3)新单词的预测
softmax函数将ht进一步转化得到新单词的概率分布P(wt|w0,w1,...,wt-1,M),计算公式如下:
P(wt|w0,w1,...,wt-1,M)=softmax(Wpht) (24)
Figure BDA0001693673200000095
其中,Wp是需要学习的参数;通过最小化整个句子的负对数似然函数Nonlikely()完成训练后,使用该LSTM生成最终的图像标题;
(5)使用步骤(4)训练的LSTM,通过集束搜索的方式保留每一时刻产生的多个候选单词,并以候选单词为出发点,继续搜索直到搜索出句子结束标志。

Claims (1)

1.一种基于多模态注意力的图像标题自动生成方法,其特征在于,步骤如下:
(1)图像的预处理
使用选择性搜索算法从原始图像提取出包含物体的图像区域,对大小不同的图像区域进行放缩,同时对图像像素值进行规整化处理;
(2)图像特征的提取
选取ResNet作为图像特征提取器;首先在ImageNet数据集上对ResNet进行预训练,然后将一幅原始图像中提取出的图像区域分别输入到ResNet进行前向传播,最后把卷积神经网络倒数第二个全连接层的输出作为图像区域的特征;
(3)句子特征的提取
首先利用带视觉注意力的LSTM为原始图像生成一个初步的标题,然后提取生成过程中该LSTM各时刻隐藏层的状态作为句子特征,包括显著性图像特征的选择、LSTM隐藏层的状态更新以及新单词的预测三个部分;
(3.1)显著性图像特征的选择
在生成初步标题的过程中,使用视觉注意力机制,选择出对预测下一时刻单词有帮助的显著性视觉特征;
视觉注意力机制根据t-1时刻隐藏层的状态ht-1,计算t时刻的显著性视觉特征vt;视觉注意力Av通过对图像的各局部特征vi,(i=1,2,...,n)加权求和,得到显著性视觉特征,计算公式如下:
Figure FDA0002961432320000011
其中,V表示图像特征,
Figure FDA0002961432320000012
表示第i个图像特征在t时刻的注意力权重,且
Figure FDA0002961432320000013
根据t时刻之前隐藏层的状态ht-1推断出t时刻图像各区域的显著性程度;第i个图像特征在t时刻的注意力权重
Figure FDA0002961432320000021
通过使用图像的局部特征vi,(i=1,2,...,n)以及t时刻之前的隐藏层的状态ht-1计算出来,计算公式如下:
Figure FDA0002961432320000022
Figure FDA0002961432320000023
其中,Wh、Wv、b以及ωT是需要学习的参数;先使用Wh和Wv将ht-1和vi映射到同一个向量空间;再将Whht-1、Wvvi与偏置b相加,得到ht-1和vi的相关性向量;接着使用双曲正切函数tanh对该相关性向量进行非线性激活,最后通过与ωT相乘,计算出相关性标量
Figure FDA0002961432320000024
Figure FDA0002961432320000025
表示第i个图像特征与t时刻之前的状态信息ht-1的相关性分数,取值范围是(-∞,+∞);使用softmax函数将
Figure FDA0002961432320000026
的取值范围压缩在(0,1)之间;
(3.2)LSTM隐藏层的状态更新
已知图像特征V={v1,v2,...,vn}和t时刻之前的所有单词{w0,w1,...,wt-1},则t时刻单词的条件概率表示为P(wt|w0,w1,...,wt-1,V),使用LSTM对单词的概率分布建模,其隐藏层的状态更新由如下公式定义:
vt=Av(V,ht-1) (4)
it=σ(Wixwt+Wihht-1+Wivvt+bi) (5)
ft=σ(Wfxwt+Wfhht-1+Wfvvt+bf) (6)
ot=σ(Woxwt+Wohht-1+Wovvt+bo) (7)
Figure FDA0002961432320000027
Figure FDA0002961432320000028
Figure FDA0002961432320000029
其中,W*和b*表示需要学习的参数,σ表示sigmoid激活函数,
Figure FDA00029614323200000210
表示元素级乘积,it、ft和ot分别表示输入门、忘记门和输出门,ct和ct-1分别表示本时刻和上一时刻的记忆单元,ht和ht-1分别表示本时刻和上一时刻的隐藏层状态;
(3.3)新单词的预测
softmax函数将ht进一步转化为新单词的概率分布P(wt|w0,w1,...,wt-1,V),计算公式如下:
P(wt|w0,w1,...,wt-1,V)=softmax(Wpht) (11)
Figure FDA0002961432320000031
其中,Wp是需要学习的参数;通过最小化整个句子的负对数似然函数Nonlikely()完成训练后,提取LSTM所有时刻隐藏层的状态H={h1,h2,...,hm}作为句子特征S={s1,s2,...,sm};
(4)最终图像标题的生成
设计一个带多模态注意力的LSTM为图像生成最终的标题,包括显著性多模态特征的选择、LSTM隐藏层的状态更新以及新单词的预测三个部分;显著性多模态特征包括图像特征V与句子特征S;
(4.1)显著性多模态特征的选择
多模态注意力机制在视觉注意力机制的基础上增加隐变量注意力模块,根据上一时刻LSTM隐藏层的状态关注显著性句子特征;最终,显著性句子特征与显著性图像特征通过连接,形成显著性多模态特征;隐变量注意力Ah通过对句子特征S加权求和,得到t时刻关注的句子特征st,计算公式如下:
Figure FDA0002961432320000032
其中,
Figure FDA0002961432320000033
表示第i个句子特征在t时刻的注意力权重,且
Figure FDA0002961432320000034
按照图像特征在t时刻的注意力权重的计算方式,计算出句子特征在t时刻的注意力权重:
Figure FDA0002961432320000041
Figure FDA0002961432320000042
计算出显著性句子特征st后,将它与显著性视觉特征vt连接起来,作为多模态特征mt
mt=Am(V,S)=concat(vt,st) (16)
其中,Am表示多模态注意力函数,concat表示将两个向量连接为一个新向量;
(4.2)LSTM隐藏层的状态更新
已知多模态特征M={V,S}和t时刻之前的所有单词{w0,w1,...,wt-1},则t时刻单词的条件概率表示为P(wt|w0,w1,...,wt-1,M);使用LSTM对单词的概率分布建模,其隐藏层的状态更新由以下公式定义:
mt=Am(V,S) (17)
it=σ(Wixwt+Wihht-1+Wimmt+bi) (18)
ft=σ(Wfxwt+Wfhht-1+Wfmmt+bf) (19)
ot=σ(Woxwt+Wohht-1+Wommt+bo) (20)
Figure FDA0002961432320000043
Figure FDA0002961432320000044
Figure FDA0002961432320000045
其中W*和b*表示需要学习的参数,σ表示sigmoid激活函数,
Figure FDA0002961432320000046
表示元素级乘积,it、ft和ot分别表示输入门、忘记门和输出门,ct和ct-1分别表示本时刻和上一时刻的记忆单元,ht和ht-1分别表示本时刻和上一时刻的隐藏层状态;
(4.3)新单词的预测
softmax函数将ht进一步转化得到新单词的概率分布P(wt|w0,w1,...,wt-1,M),计算公式如下:
P(wt|w0,w1,...,wt-1,M)=softmax(Wpht) (24)
Figure FDA0002961432320000051
其中,Wp是需要学习的参数;通过最小化整个句子的负对数似然函数Nonlikely()完成训练后,使用该LSTM生成最终的图像标题;
(5)使用步骤(4)训练的LSTM,通过集束搜索的方式保留每一时刻产生的多个候选单词,并以候选单词为出发点,继续搜索直到搜索出句子结束标志。
CN201810602775.4A 2018-06-05 2018-06-05 一种基于多模态注意力的图像标题自动生成方法 Active CN108829677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810602775.4A CN108829677B (zh) 2018-06-05 2018-06-05 一种基于多模态注意力的图像标题自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810602775.4A CN108829677B (zh) 2018-06-05 2018-06-05 一种基于多模态注意力的图像标题自动生成方法

Publications (2)

Publication Number Publication Date
CN108829677A CN108829677A (zh) 2018-11-16
CN108829677B true CN108829677B (zh) 2021-05-07

Family

ID=64143940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810602775.4A Active CN108829677B (zh) 2018-06-05 2018-06-05 一种基于多模态注意力的图像标题自动生成方法

Country Status (1)

Country Link
CN (1) CN108829677B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670576B (zh) * 2018-11-29 2022-09-13 中山大学 一种多尺度视觉关注图像描述方法
CN110084128B (zh) * 2019-03-29 2021-12-14 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110175425B (zh) * 2019-05-31 2023-02-21 重庆大学 一种基于mmalstm的齿轮剩余寿命的预测方法
CN110210499B (zh) * 2019-06-03 2023-10-13 中国矿业大学 一种图像语义描述的自适应生成系统
CN110334689B (zh) * 2019-07-16 2022-02-15 北京百度网讯科技有限公司 视频分类方法和装置
CN110458282B (zh) * 2019-08-06 2022-05-13 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110503079A (zh) * 2019-08-30 2019-11-26 山东浪潮人工智能研究院有限公司 一种基于深度神经网络的监控视频描述方法
CN110659589B (zh) * 2019-09-06 2022-02-08 中国科学院自动化研究所 基于姿态和注意力机制的行人再识别方法、系统、装置
CN111091044B (zh) * 2019-10-25 2022-04-01 武汉大学 一种面向网约车的车内危险场景识别方法
CN111126514A (zh) * 2020-03-30 2020-05-08 同盾控股有限公司 图像多标签分类方法、装置、设备及介质
CN111242246B (zh) * 2020-04-27 2020-07-28 北京同方软件有限公司 一种基于强化学习的图像分类方法
CN112257445B (zh) * 2020-10-19 2024-01-26 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN112417897B (zh) * 2020-11-30 2023-04-07 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
CN112966551A (zh) * 2021-01-29 2021-06-15 湖南科技学院 视频帧描述信息的获取方法、装置及电子设备
CN113139575B (zh) * 2021-03-18 2022-03-01 杭州电子科技大学 一种基于条件嵌入预训练语言模型的图像标题生成方法
CN113869154B (zh) * 2021-09-15 2022-09-02 中国科学院大学 根据语言描述的视频动作者分割方法
CN113822969B (zh) * 2021-09-15 2023-06-09 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN114494813B (zh) * 2021-12-24 2024-03-05 西北工业大学 一种基于密集交叉注意力的指称表达生成方法
CN114693790B (zh) * 2022-04-02 2022-11-18 江西财经大学 基于混合注意力机制的自动图像描述方法与系统
CN117610548B (zh) * 2024-01-22 2024-05-03 中国科学技术大学 一种基于多模态的自动化论文图表标题生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN107563498A (zh) * 2017-09-08 2018-01-09 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN107563498A (zh) * 2017-09-08 2018-01-09 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Self-Critical Sequence Training for Image Captioning;Steven J.Rennie 等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20170726;第1179-1195页 *
基于互助双向LSTM与递进解码机制的图像标题生成;闫泽杭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190715(第07期);I138-996 *
基于深度学习的图像标题生成算法及应用;朱丹翔;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215(第02期);I138-1773 *

Also Published As

Publication number Publication date
CN108829677A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
Lin et al. Deep structured scene parsing by learning with image descriptions
CN112036276A (zh) 一种人工智能视频问答方法
Yang et al. Handwriting text recognition based on faster R-CNN
Oluwasammi et al. Features to text: a comprehensive survey of deep learning on semantic segmentation and image captioning
Zhang et al. Quantifying the knowledge in a DNN to explain knowledge distillation for classification
Mou et al. Unsupervised domain-adaptive scene-specific pedestrian detection for static video surveillance
Rastgoo et al. Word separation in continuous sign language using isolated signs and post-processing
Singh et al. Iml-gcn: Improved multi-label graph convolutional network for efficient yet precise image classification
Zhao et al. Human action recognition based on improved fusion attention CNN and RNN
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
Sun et al. Appearance and geometry transformer for facial expression recognition in the wild
Izutov ASL recognition with metric-learning based lightweight network
CN114972884A (zh) 一种基于多模态事件本体的图像事件识别方法
CN110851633B (zh) 一种实现同时定位和哈希的细粒度图像检索方法
Oufqir et al. Deep Learning for the Improvement of Object Detection in Augmented Reality
Tiwari et al. Automatic caption generation via attention based deep neural network model
Lu et al. Image Translation with Attention Mechanism based on Generative Adversarial Networks
Huang et al. Enhanced Video Caption Generation Based on Multimodal Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant