CN110135567A

CN110135567A - 基于多注意力生成对抗网络的图像字幕生成方法

Info

Publication number: CN110135567A
Application number: CN201910443476.5A
Authority: CN
Inventors: 曹海文; 魏燚伟; 吴春雷; 王雷全; 邵明文
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-08-16

Abstract

本发明公开了基于多注意力生成对抗网络的图像字幕生成方法，它属于图像字幕生成技术领域，解决了基于生成对抗网络的图像字幕生成方法中提取的特征只包含局部点，而没有捕捉到全局信息的问题。本发明首次提出了基于局部和全局信息的多注意力机制用于图像字幕生成，并在此基础上，提出了多注意力生成对抗图像字幕生成网络，它包括多注意力生成器和判别器。多注意力生成器用于生成更精确的句子，多注意力判别器用于判断生成的句子是人工描述还是机器生成的。本发明在MSCOCO基准数据集上对所提出的框架进行了大量的实验验证，并通过MSCOCO字幕挑战评价服务器的评估，取得了非常有竞争力的评价结果。

Description

基于多注意力生成对抗网络的图像字幕生成方法

技术领域

本发明涉及计算机视觉和自然语言处理的技术领域，特别是涉及到基于多注意力生成对抗网络的图像字幕生成方法。

背景技术

图像字幕生成技术的目标是生成给定图像的人性化的描述语句。图像字幕生成技术在学术界掀起了一股研究热潮，它被广泛应用于视频检索和婴幼儿教育等领域。不同于其他的计算机视觉任务(图像分类、目标检测等)，训练有效的图像字幕模型更具有挑战性，因为它需要全面理解图像中基本实体及其关系。传统的图像字幕生成模型采用编码器-解码器框架作为核心，它利用基于卷积神经网络的编码器将像素级的信息编码成密集维度的图像信息，而解码器被用于将这些高维信息翻译成自然语言。与先前的方法相比，基于编码器-解码器的图像字幕生成方法在基准数据集上取得了较好的效果。最近，卷积神经网络特征图上的空间注意力机制被应用到图像字幕生成方法中，注意力机制通常会生成一个空间图，从而显示出图像区域与每个生成词之间的对应关系。然而，大多数现有的编码器-解码器图像字幕生成模型利用交叉熵最小化进行训练，这通常会导致曝光偏差问题。

为了解决曝光偏差问题，最近的研究建议将强化学习技术应用到传统的图像字幕生成技术中。在大多数基于强化学习的模型中，生成句子的度量分数作为奖励信号，并且直接将此奖励信号最大化。自我批评序列训练(SCST)利用传统的强化学习算法进行图像字幕生成，它在测试时以贪婪编码算法作为基线函数，对当前模型的奖励进行标准化。然而，基于强化学习的方法还不够全面，因为它们只考虑评价指标的得分，而对生成句子的多样性有所欠缺。

为了解决生成句子缺乏多样性的问题，R.Shetty以及A.Vaswani等人提出了利用条件生成对抗网络生成图像字幕。这些方法在生成多样性和自然性句子方面取得了巨大的成功，并且其生成器和判别器将低级卷积特征作为视觉输入。然而，由于卷积神经网络中的层具有接收域，低层的卷积特征只能构建局部(简单结构)对象，而全局(复杂结构)对象很难区别，这种问题被称为“建模长期依赖性”问题。自注意力机制能够有效的建立长期依赖关系模型，并提高计算和统计效率。然而，自注意力机制存在缺乏捕捉与时间维度相关联的局部信息的问题。

为了解决以上问题，本发明首先提出了一种基于自注意力模块的多注意力机制，并利用时间信息捕捉更多的局部信息。在此基础上，本发明提出了基于多注意力生成对抗网络的图像字幕生成方法。

发明内容

本发明的目的是为了解决基于生成对抗网络的图像字幕生成方法中提取的特征只包含局部条件，而缺乏捕捉全局信息的问题。

本发明为解决上述技术问题采取的技术方案是：

S1.构建多注意力机制模块。

S2.结合S1的多注意力机制模块，构建多注意力生成器模型。

S3.结合S1的多注意力机制模块，构建多注意力判别器模型。

S4.结合S2和S3中的多注意力生成器以及判别器，构建多注意力生成对抗网络架构。

S5.多注意力生成对抗网络的训练。

其中，所述的多注意力机制模块包括一个全局注意力模块和一个局部注意力模块：

(1)全局注意力模块：

全局注意力由局部注意力派生而来，首先要提取输入图片的特征v∈R^H×L嵌入到两个新的特征空间(f，g)中计算全局注意力的权重：

其中，f(v)＝W_fv，g(v)＝W_gv，β表示第kj区域的全局注意力权重，因此全局注意力模块的输出为：

其中，W_f∈R^H/4×H，W_g∈R^H/4×H，W_h∈R^H×H是从1*1卷积层中学习到的权重矩阵。

(2)局部注意力模块：

局部注意力模块由空间注意力机制派生而来，给定LSTM网络中在t时刻的反馈信息(h(t))，可以得到每个图像特征v_i的局部注意力权重α_i，t：

α_t＝softmax(a_t) (4)

其中，W_va∈R^V×H，W_ha∈R^V×M以及W_a∈R^V都是学习参数，因此，局部注意力模块的输出为：

基于全局和局部注意力模块的输入，多注意力模块的最终输出为：

其中是全局注意力模块输出进行平均池化的结果，λ是一个可学习的参数，并且λ初始化为0.

进一步地，所述的多注意力生成器采用了编码器-解码器架构，其中编码器被用于获取图像特征，解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法，它包括了两种不同的长短期记忆网络(LSTM)：注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为：

h_t＝(x_t，h_t-1) (7)

其中，x_t是长短期记忆网络的输入向量，h_t是长短期记忆网络的输出向量。

(1)注意力长短期记忆网络：

在注意力长短期记忆网络中在每个时刻的输入向量是由语言长短期记忆网络中的最后一个隐状态、图像特征的平均池化结果以及先前嵌入的生成单词串联而成的：

其中，w_t是输入单词在t时间步骤时的独热向量，W_e∈R^V×∑代表了从没有预训练就随机初始化中学习的一个单词嵌入矩阵。然后我们将输入向量输入到注意力长短期记忆网络中，如下：

最后，将注意力长短期记忆网络的输出特征应用于多注意力层：

其中，是施加注意力图像特征。

(2)语言长短期记忆网络：

在语言长短期记忆网络中，本发明首先构建了包括施加注意力图像特征的输入向量，并且与注意力长短期记忆网络的输出相连接：

然后将输入到语言长短期记忆网络中：

最后，给出真实句子y₁：T，并使用softmax函数得到词汇表中单词的概率分布：

其中，W_g和b_g是可学习的矩阵。

进一步地，所述的多注意力判别器基于序列循环神经网络，由标准的长短期记忆网络、一个全连接层、一个softmax输出层以及一个多注意力层组成。本发明提出的多注意力判别器的输入为图像特征v和之前嵌入生成的句子。首先，给定图像特征v和长短期记忆网络的隐状态并将它们输入到多注意力层中：

随后，长短期记忆网络在每个时刻的输入向量由施加注意力特征和先前生成词的编码特征组成，公式如下：

其中，W_d∈R^E×∑是词汇表∑中的单词嵌入矩阵，w_t(t∈1，2，...，T)是在t时刻输入词的独热编码向量。然后，这个长短期记忆网络的数学表达公式为：

最后有一个全连接层和softmax层，给定的句子是图像的真实描述的概率可以计算为：

其中，W_K∈R^2*k，b_K∈R^k，k代表了特向特征的卷积核个数。

进一步地，所述的多注意力生成对抗网络包含两个多注意力生成器(交叉熵-生成器和强化学习-生成器)和一个多注意力判别器，其中交叉熵-生成器和强化学习-生成器都是多注意力生成器，其结构相同，但是有不同的训练策略。

最后，所述的多注意力生成对抗网络的训练训练方法如下：

(1)交叉熵-生成器：

在交叉熵-生成器中，它的训练目标是通过最小化交叉熵损失来学习模型参数：

其中，是真实生成的句子，θ是模型参数。

(2)强化学习-生成器：

在强化学习-生成器中，本发明对CIDEr进行了优化，并初始化强化学习-生成器模型，其损失函数为：

其中，是采样描述，通过贪婪编码当前模型获得的基准分数。

(3)多注意力判别器：

多注意力判别器采用条件生成对抗网络判别器的训练方式来判断目标对象(图像、描述)的真假，并且同时应用于交叉熵-生成器和强化学习-生成器。将最大化判别器的损失函数来学习模型参数

其中v是真实图像特征，x_1：T是生成的图像描述，是真实的图像描述。

与现有的技术相比，本发明的有益效果是：

1.本发明提出了一种基于全局和局部条件的多注意力机制，使图像描述中的特征表达和推理更有效。

2.本发明提出了多注意力生成对抗网络的图像字幕框架，该框架包括多注意力生成器和多注意力判别器。它不仅可以对长期依赖关系进行建模，而且可以更加准确地区分机器生成的句子和人工描述的句子。

附图说明

图1为多注意力生成对抗网络结构示意图。

图2为多注意力机制网络结构示意图。

图3为多注意力生成器模型结构示意图。

图4为多注意力判别器模型结构示意图。

图5为多注意力对抗生成网络算法结构图。

图6为多注意力对抗生成网络生成的字幕与自上而下方法生成的字幕和真实字幕的对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

以下结合附图和实施例对本发明做进一步的阐述。

图1为多注意力生成对抗网络结构示意图。如图1所示，多注意力生成对抗网络包括两个多注意力生成器(XE-Generator，RL-Generator)和一个多注意力判别器，其中交叉熵-生成器(XE-Generator)和强化学习-生成器(RL-Generator)都是多注意力生成器，结构相同，但是训练策略不同，并且两种训练策略都是基于所提出的多注意力生成器结构进行训练的。

图2为多注意力机制网络结构示意图。如图2所示，图的顶部是全局注意力模块，底部是局部注意力模块。

(1)全局注意力模块：

(2)局部注意力模块：

α_t＝softmax(a_t) (4)

图3为多注意力生成器模型结构示意图。如图3所示，多注意力生成器采用了编码器-解码器架构，其中编码器被用于获取图像特征，解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法，它包括了两种不同的长短期记忆网络(LSTM)：注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为：

h_t＝(x_t，h_t-1) (7)

(1)注意力长短期记忆网络：

其中，是施加注意力图像特征。

(2)语言长短期记忆网络：

然后将输入到语言长短期记忆网络中：

其中，W_g和b_g是可学习的矩阵。

图4为多注意力判别器模型结构示意图。如图4所示，多注意力判别器基于序列循环神经网络，由标准的长短期记忆网络、一个全连接层、一个softmax输出层以及一个多注意力层组成。本发明提出的多注意力判别器的输入为图像特征v和之前嵌入生成的句子。首先，给定图像特征v和长短期记忆网络的隐状态并将它们输入到多注意力层中：

其中，W_K∈R^2*k，b_K∈R^k，k代表了特向特征的卷积核个数。

图5为多注意力对抗生成网络算法结构图。如图5所示，算法1详细的描述了本发明提出的多注意力生成对抗网络的字幕生成框架，本发明根据标准的生成对抗网络训练过程对交叉熵-生成器和强化学习-生成器以及其对应的判别器进行了微调。其具体的训练过程为：

(1)交叉熵-生成器：

其中，是真实生成的句子，θ是模型参数。

(2)强化学习-生成器：

(3)多注意力判别器：

图6为多注意力生成对抗网络生成的字幕与自上而下方法生成的字幕和真实字幕的对比图。如图6所示，多注意力生成对抗网络生成的句子要比自上而下模型更加准确以及人性化。

实验结果如下表所示：

在这项工作中，本发明提出了一种基于自注意力模块的多注意力机制，并在此基础上提出了基于多注意力的生成器和判别器，即基于多注意力生成对抗网络的图像字幕生成方法。多注意力生成器采用了编码器-解码器框架，并包含三个阶段(编码、融合和解码)。本发明将多注意力机制应用到融合阶段，在不增加卷积核大小的情况下，构建了长期依赖关系模型。同时，多注意力判别器也是一个具有多注意力机制的编码器一解码器架构。从而使得生成的图像字幕表达准确流畅，能够很好的反应图像中的内容。

最后，本发明的上述实施例的细节仅为解释说明本发明所做的举例，对于本领域技术人员，对上述实施例的任何修改、改进和替换等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于多注意力生成对抗网络的图像字幕生成方法，其特征在于，所述方法包括以下步骤：

S1.构建多注意力机制模块。

S2.结合S1的多注意力机制模块，构建多注意力生成器模型。

S3.结合S1的多注意力机制模块，构建多注意力判别器模型。

S5.多注意力生成对抗网络的训练。

2.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法，其特征在于，所述S1的具体过程为：

多注意力机制模块包括一个全局注意力模块和一个局部注意力模块：

(1)全局注意力模块：

(2)局部注意力模块：

α_t＝soffmax(a_t)(4)

3.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法，其特征在于，所述S2的具体过程为：

多注意力生成器采用了编码器-解码器架构，其中编码器被用于获取图像特征，解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法，它包括了两种不同的长短期记忆网络(LSTM)：注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为：

h_t＝(x_t，h_t-1) (7)

(1)注意力长短期记忆网络：

其中，是施加注意力图像特征。

(2)语言长短期记忆网络：

然后将输入到语言长短期记忆网络中：

其中，W_g和b_g是可学习的矩阵。

4.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法，其特征在于，所述S3的具体过程为：

多注意力判别器基于序列循环神经网络，由标准的长短期记忆网络、一个全连接层、一个softmax输出层以及一个多注意力层组成。本发明提出的多注意力判别器的输入为图像特征v和之前嵌入生成的句子。首先，给定图像特征v和长短期记忆网络的隐状态并将它们输入到多注意力层中：

其中，W_K∈R^2*k，b_K∈R^k，k代表了特向特征的卷积核个数。

5.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法，其特征在于，所述S4的具体过程为：

多注意力生成对抗网络包含两个多注意力生成器(交叉熵-生成器和强化学习-生成器)和一个多注意力判别器，其中交叉熵-生成器和强化学习-生成器都是多注意力生成器，其结构相同，但是有不同的训练策略。

6.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法，其特征在于，所述S5的具体过程为：

多注意力生成对抗网络的训练训练方法如下：

(1)交叉熵-生成器：

其中，是真实生成的句子，θ是模型参数。

(2)强化学习-生成器：

(3)多注意力判别器：