CN109919221B

CN109919221B - 基于双向双注意力机制图像描述方法

Info

Publication number: CN109919221B
Application number: CN201910159878.2A
Authority: CN
Inventors: 张丽红; 陶云松
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2022-07-19
Anticipated expiration: 2039-03-04
Also published as: CN109919221A

Abstract

基于双向双注意力机制图像描述方法，基于双向双注意力机制图像描述方法，图片经过卷积神经网络提取图像特征；卷积神经网络将最后一层卷积层的图像特征作为注意力机制的输入，输入到含有注意力机制的双向长短期记忆网络中；注意力机制得到上一次双向长短期记忆网络的隐层状态，双向长短期记忆网络使用上一次的隐层状态，显著图像信息以及本次的输入预测出当前的隐层状态，再将和输入到注意力机制中得到当前显著信息；双向注意力网络根据前向隐层状态，显著图像信息，后向隐层状态，显著信息一起进行预测并进行图像描述。

Description

基于双向双注意力机制图像描述方法

技术领域

本发明涉及一种图像描述方法。

背景技术

近些年，基于计算机视觉和自然语言处理的基础，在图像描述研究方面进行了大量研究。图像描述的过程是将图像输入到“编码-解码模型”中生成语言描述。编码将输入图像转化成一个固定长度向量的过程，解码将生成的向量转化成输出语言序列。在图像描述中常用的编码器模型是卷积神经网络(Convolutional Neural Network，简称CNN)，解码器是各种变体循环神经网络(Recurrent Neural Network，简称RNN)，如长短期记忆网络(Long Short-Term Memory Network，简称LSTM)。近几年，Kelvin Xu等人将注意力机制引入其中，在生成描述时关注图像的显著部分，从而提高描述的准确率；Justin Johnson等人提出了密集描述，对图片生成多句描述，句子之间并无联系；Jonathan Krause等人提出了段落描述，该任务对图片生成一段描述，这段描述在语义上是连通的。这些工作在生成当前描述时只考虑图像与上文信息，并没有考虑下文信息。在当前描述与前后信息相关性较高的情况时，模型只考虑图片与生成的上文信息将使描述的准确率降低。

发明内容

本发明所要解决的技术问题是：如何将双注意力机制模型与双向长短时记忆网络(Bidirectional Long Short-Term Memory Network，简称Bi-LSTM)结合构成双向双注意力网络，并将其应用于图像描述模型中。

本发明所采用的技术方案是：基于双向双注意力机制图像描述方法，按照如下步骤进行

步骤一、图片经过卷积神经网络提取图像特征；

步骤二、卷积神经网络将最后一层卷积层的图像特征V作为注意力机制的输入，输入到含有注意力机制的双向长短期记忆网络中；

步骤三、前向长短期记忆网络中，注意力机制得到上一次双向长短期记忆网络的隐层状态h_t-1，双向长短期记忆网络使用上一次的隐层状态h_t-1，显著图像信息Cf_t-1以及本次的输入x_t预测出当前的隐层状态h_t，再将h_t和V输入到注意力机制中得到当前显著信息Cb_t；

步骤四、后向长短期记忆网络过程与以上相同；

步骤五、双向注意力网络根据前向隐层状态h_t，显著图像信息Cf_t，后向隐层状态g_t，显著信息Cb_t一起进行预测并进行图像描述。

作为一种优选方式：双向长短期记忆网络中评价标准为损失函数

双向长短期记忆网络中前向训练过程公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+C_iCf_t-1+b_i)；

f_t＝σ(W_xfx_t+W_hfh_t-1+C_fCf_t-1+b_f)；

o_t＝σ(W_xox_t+W_hoh_t-1+C_oCf_t-1+b_o)；

c_t＝f_tc_t-1+i_ttanh(W_cx_t+h_ch_t-1+C_cCf_t-1+b_c)；

h_t＝o_t tanh(c_t)；

双向长短期记忆网络中后向训练过程公式与双向长短期记忆网络中前向训练过程公式一致，结合前向后向的显著信息与隐层状态，预测概率公式为

p_t+1＝Softmax(W_hh_t+W_gg_t+W_fCf_t+W_bCb_t+b)

其中，i_t，f_t，o_t，c_t，h_t，g_t分别是指双向长短期记忆网络中的输入门状态，遗忘门状态，输出门状态，记忆单元状态，前向隐层状态，后向隐层状态，p_t+1详细展开是p(x_t+1|V,x₁,...,x_t)，指在图像信息与上文信息的条件下，当前输出x_t+1的概率，当前时刻的输入x_t是上一时刻的输出y_t-1，p(x_t+1|V,x₁,...,x_t)可表示为p(y_t|V,y₀,...,y_t-1)，简写为p_t+1。

本发明的有益效果是：双向双注意力网络模型准确率高于只含有注意力机制网络和双向长短期记忆网络，而且具有很好的泛化性。

附图说明

图1是循环神经网络展开图；

图2是双向循环神经网络图；

图3是长短时记忆网络内部结构图；

图4是注意力机制内部结构图；

图5是单注意力机制与双注意力机制对比图；

图6是含有双向双注意力网络的图像描述模型结构。

具体实施方式

循环神经网络RNN是一类用于处理序列数据的神经网络，主要处理和预测序列数据。图1展示了一个典型的循环神经网络。在每一时刻，输入x_t和上一时刻隐层状态h_t-1作为循环神经网络的输入，循环神经网络产生输出o_t并更新h_t传入下一时刻。由于循环神经网络中的变量与运算在不同的时刻是相同的，循环神经网络可以看作是同一神经网络被复制无限次数的结果。A代表隐层内部其他所有状态。

循环神经网络只有一个“因果”结构，在当前时刻的状态只能从过去的状态和当前的输入获取信息。但是在许多应用任务中，输出量很有可能是依赖于整个序列的。为解决该问题，从而提出了双向循环神经网络(Bidirectional Recurrent Neural Network，简称Bi-RNN)，Bi-RNN结合时间从序列起点开始移动的RNN和时间上从序列末尾开始移动的RNN。其网络结构如图2所示。

循环神经网络模型只能应用于依照短期信息预测的任务。当任务更复杂时，例如，当前的预测信息与相关信息之间的文本间隔巨大时，图1中简单的循环神经网络就无法学习到如此远间隔的信息。

长短期记忆网络LSTM可解决该问题。RNN只包含简单的tanh单元，而LSTM内部含有三种门，分别是输入门、遗忘门、输出门。LSTM依靠这些门结构让信息有选择性地影响循环神经网络的每个状态。LSTM内部结构如图2。σ是sigmod函数，可以将一个实数映射到(0,1)的区间。C是LSTM的记忆单元，

是记忆内容更新单元。c_t-1与c_t是记忆单元具体的输入与输出。Softmax函数是归一化函数。

本实施例采用Bi-RNN和LSTM相结合的双向长短期记忆网络，该网络既可以克服无法获取下文信息问题，又可以学习到间隔时间较长的信息。

注意力机制

在一般图像描述任务中，解码部分在不同的时刻对全部信息等同处理。但是对于人类视觉行为，关注的信息是有选择的，有注意焦点的。因此模型在生成单词时关注的信息也应是不一样的。注意力机制就是为了实现在生成一个词时去关注当前所应该关注的显著信息这一目的而设计的。通过对输入信息的各个局部赋予权重来实现注意力机制方法。注意力机制结构网络如图4所示。

首先，空间注意力机制的上下文向量C_t，它的定义为：

g是注意力机制函数。原始的图像特征V来自于卷积神经网络的卷积层，而不是最后的全连接层。通过压缩原始图像特征V的宽W和高H，得到V＝[v₁,v₂,...v_L]图像特征集合。其中L＝W·H，v_i∈R^D。v_i是D维度的空间图像特征，同时代表着图片中的某个区域。h_t-1是在t-1时刻LSTM隐层状态。

我们将图像特征和LSTM的隐层状态传入一个单层的神经网络层，之后再通过一个softmax函数去产生图片K个区域的注意力分布。

α_t＝softmax(z_t) (3)

w_v，w_ta和w_h是一组需要学习的权重参数，α是图像特征的注意权重。基于注意力分布，图像显著信息为：

双向双注意力网络

单注意力机制在LSTM上的实现是用过去的隐层信息h_t-1去预测当前图像的显著信息C_t，如图5(a)所示。不同于当前语言描述与过去信息和未来信息相关性极大的特点，图像显著信息与当前隐层状态h_t显著相关。于是，我们进一步提出双注意力机制。如图5(b)所示，我们将(a)中由h_t-1和V得到的C_t对应作为双注意力机制中的C_t-1，为LSTM的输入，并且在框架中加入新的注意力机制。该机制的输入是当前隐层状态h_t和图像特征V。

双向双注意力网络图像描述模型如图6所示。图片经过卷积神经网络提取特征，将最后一层卷积层的图像特征V作为注意力机制的输入。在描述生成时，模型首先使用上一次的隐层状态h_t-1，显著图像信息Cf_t-1以及本次的输入x_t预测出当前的隐层状态h_t，再将h_t和V输入到注意力机制中得到当前显著信息Cf_t。后向循环神经网络过程相同。最后的预测则是同时考虑了前向隐层状态h_t，显著信息Cf_t，后向隐层状态g_t，显著信息Cb_t一起进行预测。

模型的评价标准为损失函数：

模型中前向训练过程公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+C_iCf_t-1+b_i) (6)

f_t＝σ(W_xfx_t+W_hfh_t-1+C_fCf_t-1+b_f) (7)

o_t＝σ(W_xox_t+W_hoh_t-1+C_oCf_t-1+b_o) (8)

c_t＝f_tc_t-1+i_t tanh(W_cx_t+h_ch_t-1+C_cCf_t-1+b_c) (9)

h_t＝o_t tanh(c_t) (10)

后向LSTM训练过程公式与前向公式(6)到(10)一致。结合前向后向的显著信息与隐层状态，预测概率公式为

p_t+1＝Softmax(W_hh_t+W_gg_t+W_fCf_t+W_bCb_t+b) (11)

其中，i_t，f_t，o_t，c_t，h_t，g_t分别是LSTM中的输入门状态，遗忘门状态，输出门状态，记忆单元状态，前向隐层状态，后向隐层状态。p_t+1详细展开是p(x_t+1|V,x₁,...,x_t)，指在图像信息与上文信息的条件下，当前输出x_t+1的概率。因为当前时刻的输入x_t是上一时刻的输出y_t-1，p(x_t+1|V,x₁,...,x_t)可表示为p(y_t|V,y₀,...,y_t-1)，简写为p_t+1。

值得注意的是，在训练阶段，x_t是有监督地输入正确的描述词向量。测试阶段x_t则是之前的状态产生的预测词向量。

实验采用数据集MSCOCO数据集与Flickr30k数据集。MSCOCO数据集是图像描述中最大的数据集，拥有训练样本82,783张，验证样本40,504张和测试样本40,775张。每张图片拥有5个人的描述。在训练时，验证和测试图片都是5000张。Flickr30k数据集中含有31783张图像，模型在该数据集上测试泛化性。

实验结果如表1。表1是本实施例模型与其他模型评估分数对比表，使用的评估指标有双语评估替换分数(Bilingual Evaluation Understudy，简称BLEU)，机器翻译评价方法(Machine Translation Evaluation System，简称METEOR)。

表1本实施例模型与其他模型评估分数对比表

表1中，双向单注意力机制网络模型相对于只有注意力机制的Hard-Attention模型和只有双向长短期记忆网络的Deep-Bi-LSTM模型，准确率获得了提高。并且双向双注意力机制进一步提高了准确率，说明当前图像显著信息与当前隐层状态显著相关，由过去隐层状态筛选出的图像显著信息应该只作为长短期记忆网络的输入。模型在Flickr30k数据集上验证，表明模型具有较好的泛化性。

本实施例首先在经典注意力机制基础上提出一种双注意力机制，将双注意力机制与双向长短期记忆网络相结合生成图像描述。实验结果表明双向双注意力网络模型准确率高于只含有注意力机制网络和双向长短期记忆网络，而且具有很好的泛化性。

Claims

1.基于双向双注意力机制图像描述方法，其特征在于：按照如下步骤进行

步骤一、图片经过卷积神经网络提取图像特征；

步骤四、后向长短期记忆网络过程与以上相同；

2.根据权利要求1所述的基于双向双注意力机制图像描述方法，其特征在于：

双向长短期记忆网络中评价标准为损失函数

双向长短期记忆网络中前向训练过程公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+C_iCf_t-1+b_i)；

f_t＝σ(W_xfx_t+W_hfh_t-1+C_fCf_t-1+b_f)；

o_t＝σ(W_xox_t+W_hoh_t-1+C_oCf_t-1+b_o)；

c_t＝f_t×c_t-1+i_t×tanh(W_c×x_t+h_c×h_t-1+C_c×Cf_t-1+b_c)；

h_t＝o_t×tanh(c_t)；

p_t+1＝Softmax(W_hh_t+W_gg_t+W_fCf_t+W_bCb_t+b)

其中，i_t，f_t，o_t，c_t，h_t，g_t分别是指双向长短期记忆网络中的输入门状态，遗忘门状态，输出门状态，记忆单元状态，前向隐层状态，后向隐层状态，p_t+1详细展开是p(x_t+1|V，x₁，...，x_t)，指在图像信息与上文信息的条件下，当前输出x_t+1的概率，当前时刻的输入x_t是上一时刻的输出y_t-1，p(x_t+1|V，x₁，...，x_t)可表示为p(y_t|V，y₀，...，y_t-1)，简写为p_t+1。