CN111444367B - 一种基于全局与局部注意力机制的图像标题生成方法 - Google Patents

一种基于全局与局部注意力机制的图像标题生成方法 Download PDF

Info

Publication number
CN111444367B
CN111444367B CN202010214091.4A CN202010214091A CN111444367B CN 111444367 B CN111444367 B CN 111444367B CN 202010214091 A CN202010214091 A CN 202010214091A CN 111444367 B CN111444367 B CN 111444367B
Authority
CN
China
Prior art keywords
image
feature
global
local
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010214091.4A
Other languages
English (en)
Other versions
CN111444367A (zh
Inventor
刘海波
杨喜
沈晶
卢越
白玉
姜生
田乔
林森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010214091.4A priority Critical patent/CN111444367B/zh
Publication of CN111444367A publication Critical patent/CN111444367A/zh
Application granted granted Critical
Publication of CN111444367B publication Critical patent/CN111444367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉、深度学习和自然语言处理技术领域,具体涉及一种基于全局与局部注意力机制的图像标题生成方法。本发明在初始阶段不仅利用到了图像的局部特征,还利用到了图像的全局特征,以编码器‑解码器为基本框架,在编码阶段利用卷积神经网络提取图像的全局特征和局部特征,在解码阶段使用LSTM和注意力机制,利用全局特征和局部特征动态选择图像的空间特征进行解码生成图像标题。

Description

一种基于全局与局部注意力机制的图像标题生成方法
技术领域
本发明属于计算机视觉、深度学习和自然语言处理技术领域,具体涉及一种基于全局与局部注意力机制的图像标题生成方法。
背景技术
图像与标题的理解一直是人工智能最为重要的研究方向之一,图像和标题分别是视觉和语言的重要组成部分,视觉和语言是理解现实世界的人类智慧的两个核心部分,同时也是实现人工智能的基本组成部分,并且在每个领域已经进行了数十年的大量研究。近年来,随着深度学习的广泛应用,图像与标题理解,譬如图像识别、目标检测和文本分类等,已经取得了长足发展。随着互联网的发展,越来越多的像图像和标题等多模态信息共同出现。例如,微博上的图片和评论,微信上的聊天信息和图像,人民日报的标题和图片等。如何从这些多模态信息中挖掘出它们之间的关系,进而完成图像与文本匹配、图像标题生成和视觉问答等任务,已经成为重要的研究方向。
图像的标题生成研究是近几年来一种新型的计算机视觉任务,图像的标题生成就是给定一张图像,让计算机自动地生成一句自然语言来描述所给定图像的内容。它很好的结合了计算机视觉领域和自然语言处理领域。图像和标题作为两种不同的模态信息,它们在语义层面上就有不同的表现形式,标题信息代表人的语言,其中更是包含高级语义信息。从视觉到语言的生成过程,通俗的表示为,我们希望计算机根据图像生成描述图像的自然语言,与传统的计算机视觉任务相比,图像的标题生成不仅仅需要计算机能够理解图像中包含的所有对象,还需要计算机将所有对象之间的联系通过自然语言正确描述出来。由于这个原因,图像的标题生成研究在计算机视觉领域和自然语言处理领域一直是个难题。
在已有的文献中效果较好的方法主要包括:1.引入注意力机制:Xu K,Ba J,KirosR,et al.Show,attend and tell:Neural image caption generation with visualattention[C].International conference on machine learning.2015:2048-2057,提出soft Attention和hard Attention来学习描述图像内容,在较低卷积层提取图像特征,在解码阶段结合注意力机制动态选择图像的空间特征;2.采用time-dependent gLSTM方法关注文本描述,Zhou L,Xu C,Koch P,et al.Watch what you just said:Image captioningwith text-conditional attention[C].Proceedings of the on Thematic Workshopsof ACM Multimedia 2017.ACM,2017:305-313,使文本信息改善局部注意力加强模型的效果;3.采用自下而上和自上而下的组合注意力机制,Anderson P,He X,Buehler C,etal.Bottom-up and top-down attention for image captioning and visual questionanswering[C].Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2018:6077-6086,可以在对象和其他显著的图像区域水平上计算注意力,其中自下而上机制采用R-CNN提取图像区域特征,自下而上机制确定图像特征权重;4.提出引导对象(CGO)生成图像标题方法,Zheng Y,Li Y,Wang S.Intention OrientedImage Captions with Guiding Objects[J].arXiv preprint arXiv:1811.07662,2018,当对象在图像中时,CGO将模型约束为涉及人类关注对象,将描述的能力扩展到图像标题标签中被忽略的对象。
发明内容
本发明的目的在于提供针对目前在对于图像特征提取方面还存在着图像物体缺失和场景信息不完整问题,造成生成的图像标题缺乏场景描述,容易对图像中物体位置信息造成误判,使其生成的图像标题效果不好的一种基于全局与局部注意力机制的图像标题生成方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:收集带有人工标注的图像,构建训练集;
步骤2:训练卷积神经网络,对数据集中图像进行正向传播运算,提取图像的全局特征和局部特征;
采用ImageNet数据集上预训练模型GoogLeNet模型来提取图像的全局特征和局部特征,全局特征从GoogLeNet模型最后全连接层提取,局部特征从GoogLeNet模型最低卷积层进行提取;选用GoogLeNet模型的每一层激活函数选用Relu函数,并且在最后三成加上Dropout层;采用Adadelta梯度下降算法作为训练算法,并以下面公式进行网络参数更新:
Figure BDA0002423805420000021
Figure BDA0002423805420000022
wt+1=wt+Δwt
其中,wt代表第t次迭代的参数值;g代表梯度;E[g2]代表所述梯度g平方的移动平均数;α为计算所述移动平均数的系数,取0.99;η为学习率,取0.0001;ε取一个很小的数防止分母为0;
在图像的全局特征提取中,由于多数预训练模型中的最后一层或者两层是全连接层,并且与softmax激活相结合以进行分类,提取最后一层全连接层输出向量作为图像全局特征,记为G;
在图像的局部特征提取中,假设所提取的特征图大小为H×W,一共有D个通道,即CNN(I)属于RH×W×D;其中,CNN为去掉全连接层的卷积神经网络;I为输入图像的像素矩阵;令v(x,y)代表该特征图在(x,y)位置的特征,其中x属于[1,H],y属于[1,W],则图像局部特征一共有L=H×W个特征向量,每个特征向量对应图像的某一部分D维表示,如下式;
a={a1,a2,...,aL},ai∈RD
步骤3:对数据集中的图像标题进行分词,并构造词典;
步骤4:利用注意力机制对图像的全局特征和局部特征每部分赋予不同权重,分别抽取关键信息,将带有注意力信息的全局特征和局部特征集成在一起,得到图像的完整信息的特征向量,作为长短时记忆网络的输入;将全局特征和局部特征分别与LSTM的隐层做注意力计算,得到全局特征注意力信息的上下文向量和局部特征注意力信息的上下文向量;
所述的局部特征的注意力计算具体为:已知图像的局部特征一共有L=H×W个位置特征向量,表示为a={a1,a2,...,aL},ai∈RD,注意力计算就是让解码器LSTM在解码时拥有在这L个位置特征中选择的能力;设在第t时间步传入到LSTM的具有局部特征注意力信息的上下文向量为zt,LSTM的上一隐层状态为ht-1;具有局部特征注意力信息的上下文向量zt就是a={a1,a2,...,aL},ai∈RD的一个加权平均,具体地,zt和a的如下面公式所示:
Figure BDA0002423805420000031
其中,αti是衡量生成第t个单词时,第i个位置的图像特征所占的权重;权重αti是由前一个隐层状态ht-1和第i个位置的图像特征向量ai求得,如下面公式所示:
eti=fatt(ai,ht-1)
Figure BDA0002423805420000032
其中,函数fatt是一种对齐模型,用来计算ai和ht-1的相似性;由于eti数值取值范围不一致,使用softmax函数将其数值进行转化,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布,即:“注意力”;另一方面可以通过softmax函数内在机制更加突出重要元素的权重;
所述的全局特征的注意力计算具体为:由于全局特征G和局部特征a的维度不同,将G经过全连接层变换为与a相同的维度,如下面公式所示:
g=(WGG+bG)
其中,g表示经过全连接层变换后的全局特征向量,WG和bG为权重矩阵,即模型待学习参数;由于g和a维度相同,因此g也可以表示为g={g1,g2,...,gL},gi∈RD;带有全局特征注意力信息的上下文向量Gt就是g={g1,g2,...,gL},gi∈RD的一个加权平均,具体地,Gt和g的关系如下面公式所示:
Figure BDA0002423805420000041
其中,βti是衡量生成第t个单词时,第i个位置的图像特征所占的权重;权重βti是由前一个隐层状态和第i个位置的图像特征求得,如下面公式所示:
eti=fatt(gi,ht-1)
Figure BDA0002423805420000042
其中,函数fatt为MLP,同时采用softmax函数对eti进行权重初始化得到βti
得到全局特征注意力信息的上下文向量Gt和局部特征注意力信息的上下文向量zt之后,带有全局特征和局部特征的注意力信息图像特征
Figure BDA0002423805420000043
可以通过下面公式得到:
Figure BDA0002423805420000044
步骤5:训练长短时记忆网络进行图像标题生成;加入Dropout层,减少训练参数;将全局特征注意力信息的上下文向量、局部特征注意力信息的上下文向量和单词特征向量作为LSTM的输入;
步骤6:图像标题生成;在测试和使用阶段,将待生成标题的图像依次通过卷积神经网络、注意力机制和长短时记忆网络,完成图像标题生成任务。
本发明的有益效果在于:
本发明在初始阶段不仅利用到了图像的局部特征,还利用到了图像的全局特征,以编码器-解码器为基本框架,在编码阶段利用卷积神经网络提取图像的全局特征和局部特征,在解码阶段使用LSTM和注意力机制,利用全局特征和局部特征动态选择图像的空间特征进行解码生成图像标题。
附图说明
图1是本发明方法的流程图。
图2是全局特征和局部特征提取图。
图3是全局特征-局部特征注意力机制图。
图4是词嵌入向量图。
图5是单词词典匹配图。
图6是图像标题生成图。
图7是模型的bleu1-bleu4、CIDEr和ROUGR-L学习曲线图。
图8是本发明与当前其他主流模型的性能对比结果表。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明提供的是一种基于全局-局部注意力机制的图像标题生成方法。包括如下步骤:(1)构建训练集:收集图像并通过人工对图像加上意思相近的标题,至少4条标题;(2)训练卷积神经网络,对数据集中图像进行正向传播运算,提取图像的全局特征和局部特征;(3)数据集中的图像标题进行分词及构造词典;(4)利用注意力机制对图像的全局特征和局部特征每部分赋予不同权重,分别抽取关键信息,将带有注意力信息的全局特征和局部特征集成在一起,得到图像的完整信息的特征向量,作为长短时记忆网络(LSTM)的输入;(5)训练长短时记忆网络进行图像标题生成;(6)图像标题生成,在测试和使用阶段,将待生成标题的图像依次通过卷积神经网络、注意力机制和长短时记忆网络完成图像标题生成任务。在MSCOCO公开数据集上,使用不同的评估方法对模型进行实验验证,结果表明所提模型性能有较大提高。
一种基于全局-局部注意力机制的图像标题生成方法,包括如下步骤:
(1)构建训练集:收集图像并通过人工对图像加上意思相近的标题,至少4条标题;
(2)训练卷积神经网络,对数据集中图像进行正向传播运算,提取图像的全局特征和局部特征;
(3)对数据集中的图像标题进行分词,并构造词典;
(4)利用注意力机制对图像的全局特征和局部特征每部分赋予不同权重,分别抽取关键信息,将带有注意力信息的全局特征和局部特征集成在一起,得到图像的完整信息的特征向量,作为长短时记忆网络的输入;
(5)训练长短时记忆网络进行图像标题生成;
(6)图像标题生成,在测试和使用阶段,将待生成标题的图像依次通过卷积神经网络、注意力机制和长短时记忆网络完成图像标题生成任务。
在步骤(1)中选用MSCOCO数据集来构建图像标题数据集。
在步骤(2)中采用ImageNet数据集上预训练模型GoogLeNet模型来提取图像的全局特征和局部特征,全局特征从GoogLeNet模型最后全连接层提取,局部特征从GoogLeNet模型最低卷积层进行提取。选用GoogLeNet模型的每一层激活函数选用Relu函数,并且在最后三成加上Dropout层。采用Adadelta梯度下降算法作为训练算法,并以下面公式进行网络参数更新:
Figure BDA0002423805420000061
Figure BDA0002423805420000062
wt+1=wt+Δwt
其中,wt代表第t次迭代的参数值,g代表梯度,E[g2]代表所述梯度g平方的移动平均数,α为计算所述移动平均数的系数,取0.99,η为学习率,取0.0001,ε取一个很小的数防止分母为0。
在步骤(5)中加入Dropout层,减少训练参数。
在步骤(4)中将全局特征和局部特征分别与LSTM的隐层做注意力计算,得到全局特征注意力信息的上下文向量和局部特征注意力信息的上下文向量。
在步骤(5)将全局特征注意力信息的上下文向量、局部特征注意力信息的上下文向量和单词特征向量作为LSTM的输入。
在步骤(6)中使用预训练模型提取图像特征向量,将其特征向量输入到解码器LSTM中进行解码得到解码向量,经过MLP得到单词概率分布,并在单词字典上进行匹配,得到相应的单词,同时作为下一个时间步的输入单词。
本发明的目的在于针对目前在对于图像特征提取方面还存在着图像物体缺失和场景信息不完整问题,造成生成的图像标题缺乏场景描述,容易对图像中物体位置信息造成误判,使其生成的图像标题效果不好,提出一种基于全局-局部注意力机制的图像标题生成方法。
本发明与现有技术相比的优点在于:在初始阶段不仅利用到了图像的局部特征,还利用到了图像的全局特征,以编码器-解码器为基本框架,在编码阶段利用卷积神经网络提取图像的全局特征和局部特征,在解码阶段使用LSTM和注意力机制,利用全局特征和局部特征动态选择图像的空间特征进行解码生成图像标题。
结合图1,本发明的具体步骤如下:
(1)构建数据集:
本发明的具体实施采用标准数据集MSCOCO以及评测标准来评估模型的性能。MSCOCO数据集拥有164062张图像,每幅图像包含了至少5条人工标注的参考句子,取其中82783幅图像及其对应的参考句子作为训练集,取40504幅图像及其参考句子作为验证集,另取40775幅图像及其参考句子作为测试集。
(2)训练卷积神经网络:
本发明使用ImageNet数据集上预训练的GoogLeNet模型来提取图像的全局特征和局部特征。全局特征从GoogLeNet模型最后全连接层提取,局部特征从GoogLeNet模型最低卷积层进行提取。同时采用Adadelta梯度下降算法作为训练算法,并以下面公式进行网络参数更新:
Figure BDA0002423805420000071
Figure BDA0002423805420000072
wt+1=wt+Δwt
其中,wt代表第t次迭代的参数值,g代表梯度,E[g2]代表所述梯度g平方的移动平均数,α为计算所述移动平均数的系数,取0.99,η为学习率,取0.0001,ε取一个很小的数防止分母为0。
在图像的全局特征提取中,由于多数预训练模型中的最后一层或者两层是全连接层,并且与softmax激活相结合以进行分类,提取最后一层全连接层输出向量作为图像全局特征,记为G。
在图像的局部特征提取中,假设所提取的特征图大小为H×W,一共有D个通道,即CNN(I)属于RH×W×D,其中CNN为去掉全连接层的卷积神经网络,I为输入图像的像素矩阵。令v(x,y)代表该特征图在(x,y)位置的特征,其中x属于[1,H],y属于[1,W],则图像局部特征一共有L=H×W个特征向量,每个特征向量对应图像的某一部分D维表示。如下面公式所示:
a={a1,a2,...,aL},ai∈RD
(3)数据集中的图像标题进行分词及构造词典
对于步骤MSCOCO数据集中的标题字幕,采用分词软件进行分词,其中每个英文单词算一个分词,统计所有的单词,并按照每个单词出现的频率进行排序。选取前2000单词作为常用单词,其余作为未知单词,用<UNK>表示,将这些作为词典。这样针对每个图像标题都可以用序号向量表示。
(4)注意力机制
全局特征和局部特征的注意力计算利用LSTM的每个单元隐层状态,首先介绍局部特征的注意力计算,已知图像的局部特征一共有L=H×W个位置特征向量,表示为a={a1,a2,...,aL},ai∈RD,注意力计算就是让解码器LSTM在解码时拥有在这L个位置特征中选择的能力。设在第t时间步(通俗讲,就是生成第t个单词时)传入到LSTM的具有局部特征注意力信息的上下文向量为zt,LSTM的上一隐层状态为ht-1。这个具有局部特征注意力信息的上下文向量zt就是a={a1,a2,...,aL},ai∈RD的一个加权平均,具体地,zt和a的如下面公式所示:
Figure BDA0002423805420000081
其中αti是衡量生成第t个单词时,第i个位置的图像特征所占的权重。这个权重是由前一个隐层状态ht-1和第i个位置的图像特征向量ai求得,如下面公式所示:eti=fatt(ai,ht-1)
Figure BDA0002423805420000082
其中函数fatt是一种对齐模型,用来计算ai和ht-1的相似性,最常用的对齐方法包括:向量的点乘、向量Cosine相似性或者引入额外神经网络。本文发明采用第3种方法,引入多层感知机(MLP)来进行相似度判断。由于eti数值取值范围不一致,使用softmax函数将其数值进行转化,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布,即:“注意力”。另一方面可以通过softmax函数内在机制更加突出重要元素的权重。
其次,全局特征注意力计算与局部特征注意力计算相似,由于全局特征G和局部特征a的维度不同,本发明将G经过全连接层变换为与a相同的维度,如下面公式所示:
g=(WGG+bG)
其中g表示经过全连接层变换后的全局特征向量,WG和bG为权重矩阵,即模型待学习参数。由于g和a维度相同,因此g也可以表示为g={g1,g2,...,gL},gi∈RD。则带有全局特征注意力信息的上下文向量Gt就是g={g1,g2,...,gL},gi∈RD的一个加权平均,具体地,Gt和g的关系如下面公式所示:
Figure BDA0002423805420000091
其中βti是衡量生成第t个单词时,第i个位置的图像特征所占的权重。这个权重是由前一个隐层状态和第i个位置的图像特征求得,如下面公式所示:
eti=fatt(gi,ht-1)
Figure BDA0002423805420000092
其中函数fatt为MLP,同时采用softmax函数对eti进行权重初始化得到βti
得到全局特征注意力信息的上下文向量Gt和局部特征注意力信息的上下文向量为zt之后,则带有全局特征和局部特征的注意力信息图像特征
Figure BDA0002423805420000093
可以通过下面公式得到:
Figure BDA0002423805420000094
(5)图像标题生成
全局-局部注意力机制在解码器时的输入,除了词嵌入向量Wembedxt,还有带有全局特征和局部特征的注意力图像特征
Figure BDA0002423805420000095
设其组合向量为mt,则可以通过下面得到:
Figure BDA0002423805420000096
其中
Figure BDA0002423805420000097
为注意力图像特征
Figure BDA0002423805420000098
的权重矩阵和偏置项,Embedding的作用是将单词的独热码(One-hot)向量(即用长度为v的向量S表示,该向量除了单词对应的索引为1以外其余全部为0)映射为嵌入式向量,对于独热码向量进行降维操作。其中xin表示输入的单词,经过One-hot编码后使用Embedding得到词嵌入特征向量[d1,d2,d3,...,dn-embed]T,其中n-embed表示嵌入特征向量的维度。
得到经过解码器LSTM变换后的特征向量,使用MLP计算出相应单词的概率,然后在单词词典中取概率最大值所对应的单词作为最终输出。[d'1,d'2,d'3,…,d'n]T表示经过解码器(LSTM)解码输出的特征向量,n表示其维度,经过MLP得到概率输出p=[p1,p2,p3,…,p|v|]T,|v|表示单词字典大小,Max表示概率最大值运算。经过LSTM解码后的得到的特征向量输出到MLP层计算出每个分类所对应的概率,然后在单词字典中取概率最大的值所对应的单词作为最终输出。在模型训练阶段,使用跨时间的反向传播算法(BPTT)进行误差计算,即计算每个时间步上的误差之和,进行反向优化。
本发明在测试阶段,使用预训练模型提取图像特征向量,将其特征向量输入到解码器LSTM中进行解码,经过MLP得到单词概率分布,并在单词字典上进行匹配,得到相应的单词,同时作为下一个时间步的输入单词。输入标题的起始符为“BoS”,结束符为“EoS”,生成的标题结束的标志是LSTM的时间步结束或者遇到结束符“EoS”。
如图7所示,为MSCOCO数据集上本文模型在BLEU指标、CIDEr和ROUGR-L的学习曲线,其中每个图的横坐标为迭代次数,总共迭代10次,纵坐标为相应的评价指标,图中曲线表示模型随着迭代次数增多,在不同评价指标中发生的变化。BLEU、CIDEr和ROUGR-L指标在前6次迭代效果提升较快,在第9次迭代后逐渐收敛。图8为本发明与当前其他主流模型的性能对比结果,在MSCOCO数据集上,本发明所提模型除了在B-1指标上低于Hard-Attention模型外,在B-2、B-3和B-4指标上均超过其他模型,分别提升了0.9%、0.9%和0.5%,结果表明所提模型性能有较大提高。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于全局与局部注意力机制的图像标题生成方法,其特征在于,包括以下步骤:
步骤1:收集带有人工标注的图像,构建训练集;
步骤2:训练卷积神经网络,对数据集中图像进行正向传播运算,提取图像的全局特征和局部特征;
采用ImageNet数据集上预训练模型GoogLeNet模型来提取图像的全局特征和局部特征,全局特征从GoogLeNet模型最后全连接层提取,局部特征从GoogLeNet模型最低卷积层进行提取;选用GoogLeNet模型的每一层激活函数选用Relu函数,并且在最后三成加上Dropout层;采用Adadelta梯度下降算法作为训练算法,并以下面公式进行网络参数更新:
Figure FDA0003679407550000011
Figure FDA0003679407550000012
wt+1=wt+Δwt
其中,wt代表第t次迭代的参数值;g代表梯度;E[g2]代表所述梯度g平方的移动平均数;α为计算所述移动平均数的系数,取0.99;η为学习率,取0.0001;ε为常数,用于防止分母为0;
在图像的全局特征提取中,由于多数预训练模型中的最后一层或者两层是全连接层,并且与softmax激活相结合以进行分类,提取最后一层全连接层输出向量作为图像全局特征,记为G;
在图像的局部特征提取中,假设所提取的特征图大小为H×W,一共有D个通道,即CNN(I)属于RH×W×D;其中,CNN为去掉全连接层的卷积神经网络;I为输入图像的像素矩阵;令v(x,y)代表该特征图在(x,y)位置的特征,其中x属于[1,H],y属于[1,W],则图像局部特征一共有L=H×W个特征向量,每个特征向量对应图像的某一部分D维表示,如下式;
a={a1,a2,...,aL},ai∈RD
步骤3:对数据集中的图像标题进行分词,并构造词典;
步骤4:利用注意力机制对图像的全局特征和局部特征每部分赋予不同权重,分别抽取关键信息,将带有注意力信息的全局特征和局部特征集成在一起,得到图像的完整信息的特征向量,作为长短时记忆网络的输入;将全局特征和局部特征分别与LSTM的隐层做注意力计算,得到全局特征注意力信息的上下文向量和局部特征注意力信息的上下文向量;
所述的局部特征的注意力计算具体为:已知图像的局部特征一共有L=H×W个位置特征向量,表示为a={a1,a2,...,aL},ai∈RD,注意力计算就是让解码器LSTM在解码时拥有在这L个位置特征中选择的能力;设在第t时间步传入到LSTM的具有局部特征注意力信息的上下文向量为zt,LSTM的上一隐层状态为ht-1;具有局部特征注意力信息的上下文向量zt就是a={a1,a2,...,aL},ai∈RD的一个加权平均,具体地,zt和a的如下面公式所示:
Figure FDA0003679407550000021
其中,αti是衡量生成第t个单词时,第i个位置的图像特征所占的权重;权重αti是由前一个隐层状态ht-1和第i个位置的图像特征向量ai求得,如下面公式所示:
eti=fatt(ai,ht-1)
Figure FDA0003679407550000022
其中,函数fatt是一种对齐模型,用来计算ai和ht-1的相似性;由于eti数值取值范围不一致,使用softmax函数将其数值进行转化,将原始计算分值整理成所有元素权重之和为1的概率分布,即:“注意力”;
所述的全局特征的注意力计算具体为:由于全局特征G和局部特征a的维度不同,将G经过全连接层变换为与a相同的维度,如下面公式所示:
g=(WGG+bG)
其中,g表示经过全连接层变换后的全局特征向量,WG和bG为权重矩阵,即模型待学习参数;由于g和a维度相同,因此g也可以表示为g={g1,g2,…,gL},gi∈RD;带有全局特征注意力信息的上下文向量Gt就是g={g1,g2,…,gL},gi∈RD的一个加权平均,具体地,Gt和g的关系如下面公式所示:
Figure FDA0003679407550000023
其中,βti是衡量生成第t个单词时,第i个位置的图像特征所占的权重;权重βti是由前一个隐层状态和第i个位置的图像特征求得,如下面公式所示:
eti=fatt(gi,ht-1)
Figure FDA0003679407550000031
其中,函数fatt为MLP,同时采用softmax函数对eti进行权重初始化得到βti
得到全局特征注意力信息的上下文向量Gt和局部特征注意力信息的上下文向量zt之后,带有全局特征和局部特征的注意力信息图像特征
Figure FDA0003679407550000032
可以通过下面公式得到:
Figure FDA0003679407550000033
步骤5:训练长短时记忆网络进行图像标题生成;加入Dropout层,减少训练参数;将全局特征注意力信息的上下文向量、局部特征注意力信息的上下文向量和单词特征向量作为LSTM的输入;
步骤6:图像标题生成;在测试和使用阶段,将待生成标题的图像依次通过卷积神经网络、注意力机制和长短时记忆网络,完成图像标题生成任务。
CN202010214091.4A 2020-03-24 2020-03-24 一种基于全局与局部注意力机制的图像标题生成方法 Active CN111444367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010214091.4A CN111444367B (zh) 2020-03-24 2020-03-24 一种基于全局与局部注意力机制的图像标题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010214091.4A CN111444367B (zh) 2020-03-24 2020-03-24 一种基于全局与局部注意力机制的图像标题生成方法

Publications (2)

Publication Number Publication Date
CN111444367A CN111444367A (zh) 2020-07-24
CN111444367B true CN111444367B (zh) 2022-10-14

Family

ID=71650962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010214091.4A Active CN111444367B (zh) 2020-03-24 2020-03-24 一种基于全局与局部注意力机制的图像标题生成方法

Country Status (1)

Country Link
CN (1) CN111444367B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931859B (zh) * 2020-08-28 2023-10-24 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN112861071B (zh) * 2021-02-05 2022-09-02 哈尔滨工程大学 一种基于深度自编码的高铁牵引系统异常检测方法
CN113392766A (zh) * 2021-06-16 2021-09-14 哈尔滨理工大学 一种基于注意力机制的人脸表情识别方法
CN113378552B (zh) * 2021-07-06 2024-04-19 焦点科技股份有限公司 一种基于多模态gpt2模型的商品标题生成方法
CN113705440B (zh) * 2021-08-27 2023-09-01 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN113705576B (zh) * 2021-11-01 2022-03-25 江西中业智能科技有限公司 一种文本识别方法、装置、可读存储介质及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886576B1 (en) * 2012-06-22 2014-11-11 Google Inc. Automatic label suggestions for albums based on machine learning
GB2546360A (en) * 2016-01-13 2017-07-19 Adobe Systems Inc Image captioning with weak supervision
CN108305296A (zh) * 2017-08-30 2018-07-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN109545302A (zh) * 2018-10-22 2019-03-29 复旦大学 一种基于语义的医学影像报告模板生成方法
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
CN110288665A (zh) * 2019-05-13 2019-09-27 中国科学院西安光学精密机械研究所 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7956905B2 (en) * 2005-02-28 2011-06-07 Fujifilm Corporation Titling apparatus, a titling method, and a machine readable medium storing thereon a computer program for titling
KR102290419B1 (ko) * 2015-01-13 2021-08-18 삼성전자주식회사 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
JP6355800B1 (ja) * 2017-06-28 2018-07-11 ヤフー株式会社 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886576B1 (en) * 2012-06-22 2014-11-11 Google Inc. Automatic label suggestions for albums based on machine learning
GB2546360A (en) * 2016-01-13 2017-07-19 Adobe Systems Inc Image captioning with weak supervision
CN108305296A (zh) * 2017-08-30 2018-07-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN109545302A (zh) * 2018-10-22 2019-03-29 复旦大学 一种基于语义的医学影像报告模板生成方法
CN110288665A (zh) * 2019-05-13 2019-09-27 中国科学院西安光学精密机械研究所 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"CNN图像标题生成";李勇 等;《西安电子科技大学学报》;20181213;第152-157页 *
"Image Recommendation for Automatic Report Generation using Semantic Similarity";C. Hyun 等;《2019 International Conference on Artificial Intelligence in Information and Communication》;20190321;第259-262页 *

Also Published As

Publication number Publication date
CN111444367A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN111046668B (zh) 多模态文物数据的命名实体识别方法与装置
CN108228915B (zh) 一种基于深度学习的视频检索方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110033008A (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN115186665B (zh) 一种基于语义的无监督学术关键词提取方法及设备
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN113064995A (zh) 一种基于图深度学习的文本多标签分类方法和系统
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN114821299B (zh) 一种遥感图像变化检测方法
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN115129934A (zh) 一种多模态视频理解方法
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
CN115422362B (zh) 一种基于人工智能的文本匹配方法
CN117216265A (zh) 一种基于改进的图注意力网络新闻主题分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant