CN111444367B

CN111444367B - 一种基于全局与局部注意力机制的图像标题生成方法

Info

Publication number: CN111444367B
Application number: CN202010214091.4A
Authority: CN
Inventors: 刘海波; 杨喜; 沈晶; 卢越; 白玉; 姜生; 田乔; 林森
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2022-10-14
Anticipated expiration: 2040-03-24
Also published as: CN111444367A

Abstract

本发明属于计算机视觉、深度学习和自然语言处理技术领域，具体涉及一种基于全局与局部注意力机制的图像标题生成方法。本发明在初始阶段不仅利用到了图像的局部特征，还利用到了图像的全局特征，以编码器‑解码器为基本框架，在编码阶段利用卷积神经网络提取图像的全局特征和局部特征，在解码阶段使用LSTM和注意力机制，利用全局特征和局部特征动态选择图像的空间特征进行解码生成图像标题。

Description

一种基于全局与局部注意力机制的图像标题生成方法

技术领域

本发明属于计算机视觉、深度学习和自然语言处理技术领域，具体涉及一种基于全局与局部注意力机制的图像标题生成方法。

背景技术

图像与标题的理解一直是人工智能最为重要的研究方向之一，图像和标题分别是视觉和语言的重要组成部分，视觉和语言是理解现实世界的人类智慧的两个核心部分，同时也是实现人工智能的基本组成部分，并且在每个领域已经进行了数十年的大量研究。近年来，随着深度学习的广泛应用，图像与标题理解，譬如图像识别、目标检测和文本分类等，已经取得了长足发展。随着互联网的发展，越来越多的像图像和标题等多模态信息共同出现。例如，微博上的图片和评论，微信上的聊天信息和图像，人民日报的标题和图片等。如何从这些多模态信息中挖掘出它们之间的关系，进而完成图像与文本匹配、图像标题生成和视觉问答等任务，已经成为重要的研究方向。

图像的标题生成研究是近几年来一种新型的计算机视觉任务，图像的标题生成就是给定一张图像，让计算机自动地生成一句自然语言来描述所给定图像的内容。它很好的结合了计算机视觉领域和自然语言处理领域。图像和标题作为两种不同的模态信息，它们在语义层面上就有不同的表现形式，标题信息代表人的语言，其中更是包含高级语义信息。从视觉到语言的生成过程，通俗的表示为，我们希望计算机根据图像生成描述图像的自然语言，与传统的计算机视觉任务相比，图像的标题生成不仅仅需要计算机能够理解图像中包含的所有对象，还需要计算机将所有对象之间的联系通过自然语言正确描述出来。由于这个原因，图像的标题生成研究在计算机视觉领域和自然语言处理领域一直是个难题。

在已有的文献中效果较好的方法主要包括：1.引入注意力机制：Xu K,Ba J,KirosR,et al.Show,attend and tell:Neural image caption generation with visualattention[C].International conference on machine learning.2015:2048-2057，提出soft Attention和hard Attention来学习描述图像内容，在较低卷积层提取图像特征，在解码阶段结合注意力机制动态选择图像的空间特征；2.采用time-dependent gLSTM方法关注文本描述，Zhou L,Xu C,Koch P,et al.Watch what you just said:Image captioningwith text-conditional attention[C].Proceedings of the on Thematic Workshopsof ACM Multimedia 2017.ACM,2017:305-313，使文本信息改善局部注意力加强模型的效果；3.采用自下而上和自上而下的组合注意力机制，Anderson P,He X,Buehler C,etal.Bottom-up and top-down attention for image captioning and visual questionanswering[C].Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2018:6077-6086，可以在对象和其他显著的图像区域水平上计算注意力，其中自下而上机制采用R-CNN提取图像区域特征，自下而上机制确定图像特征权重；4.提出引导对象(CGO)生成图像标题方法，Zheng Y,Li Y,Wang S.Intention OrientedImage Captions with Guiding Objects[J].arXiv preprint arXiv:1811.07662,2018，当对象在图像中时，CGO将模型约束为涉及人类关注对象，将描述的能力扩展到图像标题标签中被忽略的对象。

发明内容

本发明的目的在于提供针对目前在对于图像特征提取方面还存在着图像物体缺失和场景信息不完整问题，造成生成的图像标题缺乏场景描述，容易对图像中物体位置信息造成误判，使其生成的图像标题效果不好的一种基于全局与局部注意力机制的图像标题生成方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：收集带有人工标注的图像，构建训练集；

步骤2：训练卷积神经网络，对数据集中图像进行正向传播运算，提取图像的全局特征和局部特征；

采用ImageNet数据集上预训练模型GoogLeNet模型来提取图像的全局特征和局部特征，全局特征从GoogLeNet模型最后全连接层提取，局部特征从GoogLeNet模型最低卷积层进行提取；选用GoogLeNet模型的每一层激活函数选用Relu函数，并且在最后三成加上Dropout层；采用Adadelta梯度下降算法作为训练算法，并以下面公式进行网络参数更新：

w_t+1＝w_t+Δw_t

其中，w_t代表第t次迭代的参数值；g代表梯度；E[g²]代表所述梯度g平方的移动平均数；α为计算所述移动平均数的系数，取0.99；η为学习率，取0.0001；ε取一个很小的数防止分母为0；

在图像的全局特征提取中，由于多数预训练模型中的最后一层或者两层是全连接层，并且与softmax激活相结合以进行分类，提取最后一层全连接层输出向量作为图像全局特征，记为G；

在图像的局部特征提取中，假设所提取的特征图大小为H×W，一共有D个通道，即CNN(I)属于R^H×W×D；其中，CNN为去掉全连接层的卷积神经网络；I为输入图像的像素矩阵；令v(x,y)代表该特征图在(x,y)位置的特征，其中x属于[1,H]，y属于[1,W]，则图像局部特征一共有L＝H×W个特征向量，每个特征向量对应图像的某一部分D维表示，如下式；

a＝{a₁,a₂,...,a_L},a_i∈R^D

步骤3：对数据集中的图像标题进行分词，并构造词典；

步骤4：利用注意力机制对图像的全局特征和局部特征每部分赋予不同权重，分别抽取关键信息，将带有注意力信息的全局特征和局部特征集成在一起，得到图像的完整信息的特征向量，作为长短时记忆网络的输入；将全局特征和局部特征分别与LSTM的隐层做注意力计算，得到全局特征注意力信息的上下文向量和局部特征注意力信息的上下文向量；

所述的局部特征的注意力计算具体为：已知图像的局部特征一共有L＝H×W个位置特征向量，表示为a＝{a₁,a₂,...,a_L},a_i∈R^D，注意力计算就是让解码器LSTM在解码时拥有在这L个位置特征中选择的能力；设在第t时间步传入到LSTM的具有局部特征注意力信息的上下文向量为z_t，LSTM的上一隐层状态为h_t-1；具有局部特征注意力信息的上下文向量z_t就是a＝{a₁,a₂,...,a_L},a_i∈R^D的一个加权平均，具体地，z_t和a的如下面公式所示：

其中，α_ti是衡量生成第t个单词时，第i个位置的图像特征所占的权重；权重α_ti是由前一个隐层状态h_t-1和第i个位置的图像特征向量a_i求得，如下面公式所示：

e_ti＝fatt(a_i,h_t-1)

其中，函数fatt是一种对齐模型，用来计算a_i和h_t-1的相似性；由于e_ti数值取值范围不一致，使用softmax函数将其数值进行转化，一方面可以进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布，即：“注意力”；另一方面可以通过softmax函数内在机制更加突出重要元素的权重；

所述的全局特征的注意力计算具体为：由于全局特征G和局部特征a的维度不同，将G经过全连接层变换为与a相同的维度，如下面公式所示：

g＝(W_GG+b_G)

其中，g表示经过全连接层变换后的全局特征向量，W_G和b_G为权重矩阵，即模型待学习参数；由于g和a维度相同，因此g也可以表示为g＝{g₁,g₂,...,g_L},g_i∈R^D；带有全局特征注意力信息的上下文向量G_t就是g＝{g₁,g₂,...,g_L},g_i∈R^D的一个加权平均，具体地，G_t和g的关系如下面公式所示：

其中，β_ti是衡量生成第t个单词时，第i个位置的图像特征所占的权重；权重β_ti是由前一个隐层状态和第i个位置的图像特征求得，如下面公式所示：

e_ti＝fatt(g_i,h_t-1)

其中，函数fatt为MLP，同时采用softmax函数对e_ti进行权重初始化得到β_ti；

得到全局特征注意力信息的上下文向量G_t和局部特征注意力信息的上下文向量z_t之后，带有全局特征和局部特征的注意力信息图像特征

可以通过下面公式得到：

步骤5：训练长短时记忆网络进行图像标题生成；加入Dropout层，减少训练参数；将全局特征注意力信息的上下文向量、局部特征注意力信息的上下文向量和单词特征向量作为LSTM的输入；

步骤6：图像标题生成；在测试和使用阶段，将待生成标题的图像依次通过卷积神经网络、注意力机制和长短时记忆网络，完成图像标题生成任务。

本发明的有益效果在于：

本发明在初始阶段不仅利用到了图像的局部特征，还利用到了图像的全局特征，以编码器-解码器为基本框架，在编码阶段利用卷积神经网络提取图像的全局特征和局部特征，在解码阶段使用LSTM和注意力机制，利用全局特征和局部特征动态选择图像的空间特征进行解码生成图像标题。

附图说明

图1是本发明方法的流程图。

图2是全局特征和局部特征提取图。

图3是全局特征-局部特征注意力机制图。

图4是词嵌入向量图。

图5是单词词典匹配图。

图6是图像标题生成图。

图7是模型的bleu1-bleu4、CIDEr和ROUGR-L学习曲线图。

图8是本发明与当前其他主流模型的性能对比结果表。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明提供的是一种基于全局-局部注意力机制的图像标题生成方法。包括如下步骤：(1)构建训练集：收集图像并通过人工对图像加上意思相近的标题，至少4条标题；(2)训练卷积神经网络，对数据集中图像进行正向传播运算，提取图像的全局特征和局部特征；(3)数据集中的图像标题进行分词及构造词典；(4)利用注意力机制对图像的全局特征和局部特征每部分赋予不同权重，分别抽取关键信息，将带有注意力信息的全局特征和局部特征集成在一起，得到图像的完整信息的特征向量，作为长短时记忆网络(LSTM)的输入；(5)训练长短时记忆网络进行图像标题生成；(6)图像标题生成，在测试和使用阶段，将待生成标题的图像依次通过卷积神经网络、注意力机制和长短时记忆网络完成图像标题生成任务。在MSCOCO公开数据集上，使用不同的评估方法对模型进行实验验证，结果表明所提模型性能有较大提高。

一种基于全局-局部注意力机制的图像标题生成方法，包括如下步骤：

(1)构建训练集：收集图像并通过人工对图像加上意思相近的标题，至少4条标题；

(2)训练卷积神经网络，对数据集中图像进行正向传播运算，提取图像的全局特征和局部特征；

(3)对数据集中的图像标题进行分词，并构造词典；

(4)利用注意力机制对图像的全局特征和局部特征每部分赋予不同权重，分别抽取关键信息，将带有注意力信息的全局特征和局部特征集成在一起，得到图像的完整信息的特征向量，作为长短时记忆网络的输入；

(5)训练长短时记忆网络进行图像标题生成；

(6)图像标题生成，在测试和使用阶段，将待生成标题的图像依次通过卷积神经网络、注意力机制和长短时记忆网络完成图像标题生成任务。

在步骤(1)中选用MSCOCO数据集来构建图像标题数据集。

在步骤(2)中采用ImageNet数据集上预训练模型GoogLeNet模型来提取图像的全局特征和局部特征，全局特征从GoogLeNet模型最后全连接层提取，局部特征从GoogLeNet模型最低卷积层进行提取。选用GoogLeNet模型的每一层激活函数选用Relu函数，并且在最后三成加上Dropout层。采用Adadelta梯度下降算法作为训练算法，并以下面公式进行网络参数更新：

w_t+1＝w_t+Δw_t

其中，w_t代表第t次迭代的参数值，g代表梯度，E[g²]代表所述梯度g平方的移动平均数，α为计算所述移动平均数的系数，取0.99，η为学习率，取0.0001，ε取一个很小的数防止分母为0。

在步骤(5)中加入Dropout层，减少训练参数。

在步骤(4)中将全局特征和局部特征分别与LSTM的隐层做注意力计算，得到全局特征注意力信息的上下文向量和局部特征注意力信息的上下文向量。

在步骤(5)将全局特征注意力信息的上下文向量、局部特征注意力信息的上下文向量和单词特征向量作为LSTM的输入。

在步骤(6)中使用预训练模型提取图像特征向量，将其特征向量输入到解码器LSTM中进行解码得到解码向量，经过MLP得到单词概率分布，并在单词字典上进行匹配，得到相应的单词，同时作为下一个时间步的输入单词。

本发明的目的在于针对目前在对于图像特征提取方面还存在着图像物体缺失和场景信息不完整问题，造成生成的图像标题缺乏场景描述，容易对图像中物体位置信息造成误判，使其生成的图像标题效果不好，提出一种基于全局-局部注意力机制的图像标题生成方法。

本发明与现有技术相比的优点在于：在初始阶段不仅利用到了图像的局部特征，还利用到了图像的全局特征，以编码器-解码器为基本框架，在编码阶段利用卷积神经网络提取图像的全局特征和局部特征，在解码阶段使用LSTM和注意力机制，利用全局特征和局部特征动态选择图像的空间特征进行解码生成图像标题。

结合图1，本发明的具体步骤如下：

(1)构建数据集：

本发明的具体实施采用标准数据集MSCOCO以及评测标准来评估模型的性能。MSCOCO数据集拥有164062张图像，每幅图像包含了至少5条人工标注的参考句子，取其中82783幅图像及其对应的参考句子作为训练集，取40504幅图像及其参考句子作为验证集，另取40775幅图像及其参考句子作为测试集。

(2)训练卷积神经网络：

本发明使用ImageNet数据集上预训练的GoogLeNet模型来提取图像的全局特征和局部特征。全局特征从GoogLeNet模型最后全连接层提取，局部特征从GoogLeNet模型最低卷积层进行提取。同时采用Adadelta梯度下降算法作为训练算法，并以下面公式进行网络参数更新：

w_t+1＝w_t+Δw_t

在图像的全局特征提取中，由于多数预训练模型中的最后一层或者两层是全连接层，并且与softmax激活相结合以进行分类，提取最后一层全连接层输出向量作为图像全局特征，记为G。

在图像的局部特征提取中，假设所提取的特征图大小为H×W，一共有D个通道，即CNN(I)属于R^H×W×D，其中CNN为去掉全连接层的卷积神经网络，I为输入图像的像素矩阵。令v(x,y)代表该特征图在(x,y)位置的特征，其中x属于[1,H]，y属于[1,W]，则图像局部特征一共有L＝H×W个特征向量，每个特征向量对应图像的某一部分D维表示。如下面公式所示：

a＝{a₁,a₂,...,a_L},a_i∈R^D

(3)数据集中的图像标题进行分词及构造词典

对于步骤MSCOCO数据集中的标题字幕，采用分词软件进行分词，其中每个英文单词算一个分词，统计所有的单词，并按照每个单词出现的频率进行排序。选取前2000单词作为常用单词，其余作为未知单词，用<UNK>表示，将这些作为词典。这样针对每个图像标题都可以用序号向量表示。

(4)注意力机制

全局特征和局部特征的注意力计算利用LSTM的每个单元隐层状态，首先介绍局部特征的注意力计算，已知图像的局部特征一共有L＝H×W个位置特征向量，表示为a＝{a₁,a₂,...,a_L},a_i∈R^D，注意力计算就是让解码器LSTM在解码时拥有在这L个位置特征中选择的能力。设在第t时间步(通俗讲，就是生成第t个单词时)传入到LSTM的具有局部特征注意力信息的上下文向量为z_t，LSTM的上一隐层状态为h_t-1。这个具有局部特征注意力信息的上下文向量z_t就是a＝{a₁,a₂,...,a_L},a_i∈R^D的一个加权平均，具体地，z_t和a的如下面公式所示：

其中α_ti是衡量生成第t个单词时，第i个位置的图像特征所占的权重。这个权重是由前一个隐层状态h_t-1和第i个位置的图像特征向量a_i求得，如下面公式所示：e_ti＝fatt(a_i,h_t-1)

其中函数fatt是一种对齐模型，用来计算a_i和h_t-1的相似性，最常用的对齐方法包括：向量的点乘、向量Cosine相似性或者引入额外神经网络。本文发明采用第3种方法，引入多层感知机(MLP)来进行相似度判断。由于e_ti数值取值范围不一致，使用softmax函数将其数值进行转化，一方面可以进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布，即：“注意力”。另一方面可以通过softmax函数内在机制更加突出重要元素的权重。

其次，全局特征注意力计算与局部特征注意力计算相似，由于全局特征G和局部特征a的维度不同，本发明将G经过全连接层变换为与a相同的维度，如下面公式所示：

g＝(W_GG+b_G)

其中g表示经过全连接层变换后的全局特征向量，W_G和b_G为权重矩阵，即模型待学习参数。由于g和a维度相同，因此g也可以表示为g＝{g₁,g₂,...,g_L},g_i∈R^D。则带有全局特征注意力信息的上下文向量G_t就是g＝{g₁,g₂,...,g_L},g_i∈R^D的一个加权平均，具体地，G_t和g的关系如下面公式所示：

其中β_ti是衡量生成第t个单词时，第i个位置的图像特征所占的权重。这个权重是由前一个隐层状态和第i个位置的图像特征求得，如下面公式所示：

e_ti＝fatt(g_i,h_t-1)

其中函数fatt为MLP，同时采用softmax函数对e_ti进行权重初始化得到β_ti。

得到全局特征注意力信息的上下文向量G_t和局部特征注意力信息的上下文向量为z_t之后，则带有全局特征和局部特征的注意力信息图像特征

可以通过下面公式得到：

(5)图像标题生成

全局-局部注意力机制在解码器时的输入，除了词嵌入向量W_embedx_t，还有带有全局特征和局部特征的注意力图像特征

设其组合向量为m_t,则可以通过下面得到：

其中

为注意力图像特征

的权重矩阵和偏置项，Embedding的作用是将单词的独热码(One-hot)向量(即用长度为v的向量S表示，该向量除了单词对应的索引为1以外其余全部为0)映射为嵌入式向量，对于独热码向量进行降维操作。其中x_in表示输入的单词，经过One-hot编码后使用Embedding得到词嵌入特征向量[d₁,d₂,d₃,...,d_n-embed]^T，其中n-embed表示嵌入特征向量的维度。

得到经过解码器LSTM变换后的特征向量，使用MLP计算出相应单词的概率，然后在单词词典中取概率最大值所对应的单词作为最终输出。[d'₁,d'₂,d'₃,…,d'_n]^T表示经过解码器(LSTM)解码输出的特征向量，n表示其维度，经过MLP得到概率输出p＝[p₁,p₂,p₃,…,p_|v|]^T，|v|表示单词字典大小，Max表示概率最大值运算。经过LSTM解码后的得到的特征向量输出到MLP层计算出每个分类所对应的概率，然后在单词字典中取概率最大的值所对应的单词作为最终输出。在模型训练阶段，使用跨时间的反向传播算法(BPTT)进行误差计算，即计算每个时间步上的误差之和，进行反向优化。

本发明在测试阶段，使用预训练模型提取图像特征向量，将其特征向量输入到解码器LSTM中进行解码，经过MLP得到单词概率分布，并在单词字典上进行匹配，得到相应的单词，同时作为下一个时间步的输入单词。输入标题的起始符为“BoS”，结束符为“EoS”，生成的标题结束的标志是LSTM的时间步结束或者遇到结束符“EoS”。

如图7所示，为MSCOCO数据集上本文模型在BLEU指标、CIDEr和ROUGR-L的学习曲线，其中每个图的横坐标为迭代次数，总共迭代10次，纵坐标为相应的评价指标，图中曲线表示模型随着迭代次数增多，在不同评价指标中发生的变化。BLEU、CIDEr和ROUGR-L指标在前6次迭代效果提升较快，在第9次迭代后逐渐收敛。图8为本发明与当前其他主流模型的性能对比结果，在MSCOCO数据集上，本发明所提模型除了在B-1指标上低于Hard-Attention模型外，在B-2、B-3和B-4指标上均超过其他模型，分别提升了0.9％、0.9％和0.5％，结果表明所提模型性能有较大提高。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于全局与局部注意力机制的图像标题生成方法，其特征在于，包括以下步骤：

步骤1：收集带有人工标注的图像，构建训练集；

w_t+1＝w_t+Δw_t

其中，w_t代表第t次迭代的参数值；g代表梯度；E[g²]代表所述梯度g平方的移动平均数；α为计算所述移动平均数的系数，取0.99；η为学习率，取0.0001；ε为常数，用于防止分母为0；

a＝{a₁,a₂,...,a_L},a_i∈R^D

步骤3：对数据集中的图像标题进行分词，并构造词典；

e_ti＝fatt(a_i,h_t-1)

其中，函数fatt是一种对齐模型，用来计算a_i和h_t-1的相似性；由于e_ti数值取值范围不一致，使用softmax函数将其数值进行转化，将原始计算分值整理成所有元素权重之和为1的概率分布，即：“注意力”；

g＝(W_GG+b_G)

其中，g表示经过全连接层变换后的全局特征向量，W_G和b_G为权重矩阵，即模型待学习参数；由于g和a维度相同，因此g也可以表示为g＝{g₁,g₂,…,g_L},g_i∈R^D；带有全局特征注意力信息的上下文向量G_t就是g＝{g₁,g₂,…,g_L},g_i∈R^D的一个加权平均，具体地，G_t和g的关系如下面公式所示：

e_ti＝fatt(g_i,h_t-1)

可以通过下面公式得到：