CN107608943B

CN107608943B - 融合视觉注意力和语义注意力的图像字幕生成方法及系统

Info

Publication number: CN107608943B
Application number: CN201710806115.3A
Authority: CN
Inventors: 吴春雷; 魏燚伟; 储晓亮; 王雷全; 崔学荣
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2020-07-28
Anticipated expiration: 2037-09-08
Also published as: CN107608943A

Abstract

本发明公开了融合视觉注意力和语义注意力的图像字幕生成方法及系统，通过卷积神经网络从每个待生成字幕的图像中提取图像特征，得到图像特征集合；建立LSTM模型，将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型，得到时序信息；结合图像特征集合和时序信息，生成视觉注意力模型；结合图像特征集合、时序信息和前一时序的单词，生成语义注意力模型；根据视觉注意力模型和语义注意力模型，生成自动平衡策略模型；根据图像特征集合和待生成字幕的图像对应的文本，建立gLSTM模型；根据gLSTM模型和自动平衡策略模型，利用多层感知机模型MLP生成待生成字幕的图像对应的单词；将得到的所有单词进行串联组合，产生字幕。

Description

融合视觉注意力和语义注意力的图像字幕生成方法及系统

技术领域

本发明涉及图像生成字幕技术领域，特别是涉及融合视觉注意力和语义注意力的图像字幕生成方法及系统。

背景技术

在计算机视觉领域，图像字幕生成已经成为了一个极具挑战性的任务。最近的尝试主要集中利用机器翻译中的注意力模型。基于注意力模型的方法生成图像字幕主要是由编码-解码框架发展而来。这个框架将CNN编码器编码的视觉特征转换为RNN解码的字幕。基于注意力模型的要点是把对应于某个生成单词的空间特征突出的显示出来。

在图像字幕生成领域，注意力模型被证明是非常有效的。但它仍然面临以下两个问题：

一方面，它失去了典型的视觉信息的踪迹。生成的句子容易偏离原始图像内容。

另一方面，上下文向量被证明与当前的隐藏状态有关。然而，传统的注意力模型使用上一个隐藏状态作为指导。

最近，C.Xiong,J.Lu,D.Parikh,R.Socher.,Knowing when to look:Adap-285tive attention via a visual sentinel for image captioning.,arXiv preprintarXiv:1612.01887,2016.成功的利用当前隐藏状态进行了图像字幕的生成。然而，它的方法存在一个明显的缺点：原始的视觉信息没有被充分考虑到每一个时间步骤上，这样导致了生成的字幕缺乏个性化。

一个高质量的图像字幕生成器不仅要反映图像中呈现的内容，还要考虑是否符合语法规则。基于注意力模型永远只考虑视觉特征的内容，无论下一个生成的单词是什么。这样的模型也许对名词有很好的效果(例如“dog”,“filed”)，但它对功能性词汇几乎没有作用(例如“the”,“through”)。

图1(a)显示了软注意模型在视觉特征上的权重分布情况。当产生不同的单词时，注意力量向量的方差存在很大差异。大的方差表示下一个单词与视觉区域有明确的对应关系。相反，小的方差意味着机器对于识别下一个注意力区域存在很大困难。这种现象说明生成的标题中的所有单词并不全部依赖于视觉信息，例如“the”和“through”。事实上，语义语境在产生上述两个词时起着重要的作用。在图像字幕中应考虑视觉注意力和语义注意力。C.Xiong,J.Lu,D.Parikh,R.Socher.,Knowing when to look:Adap-285tive attentionvia a visual sentinel for image captioning.,arXiv preprint arXiv:1612.01887,2016.使用存储单元中保存的信息作为语义信息。利用最后生成的单词进行语义分析对于图像字幕来就灵活一些。

发明内容

为了解决现有技术的不足，本发明提供了一种融合视觉注意力和语义注意力的图像字幕生成方法，其具有给出的图像字幕更加贴合实际的效果；利用改进的LSTM(即gLSTM)对于生成字幕是很有帮助的。

一种融合视觉注意力和语义注意力的图像字幕生成方法，包括：

步骤(1)：通过卷积神经网络从每个待生成字幕的图像中提取图像特征，得到图像特征集合；

步骤(2)：建立LSTM模型，将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型，得到时序信息；

步骤(3)：结合步骤(1)的图像特征集合和步骤(2)的时序信息，生成视觉注意力模型；

步骤(4)：结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词，生成语义注意力模型；

步骤(5)：根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型，生成自动平衡策略模型；

步骤(6)：根据步骤(1)的图像特征集合和待生成字幕的图像对应的文本，建立gLSTM模型；

步骤(7)：根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型，利用多层感知机模型MLP生成待生成字幕的图像对应的单词；

步骤(8)：重复步骤(2)-(7)，直到检测到停止标识，将得到的所有单词进行串联组合，产生字幕。

所述步骤(2)中LSTM模型为：

其中，

代表长短期记忆网络LSTM在t时刻的隐藏状态，x_t表示t时刻输入的文字矩阵，其维度为[2048,512],

代表长短期记忆网络LSTM在t-1时刻的隐藏状态，而

代表t-1时刻的细胞状态。

所述步骤(3)的视觉注意力模型是：

其中，softmax表示逻辑回归分类函数，V代表通过卷积神经网络VGG模型提取的特征，其维度为[2048,49],tanh代表双曲正切非线性函数，

代表视觉注意力向量，维度为[49]，视觉注意力向量中的数字代表看向对应图像特征V区域的概率，数字总和为1，

代表视觉注意力模型上下文矩阵，维度为[512,49]。

VGG的英文全称是VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGERECOGNITION。

所述步骤(4)的语义注意力模型是：

其中，W_t-1代表t-1时刻生成单词所转化的矩阵，其维度为[2048,512]，V_t'为加权语义信息后的特征向量矩阵，softmax表示逻辑回归分类函数，tanh代表神经网络结构中的双曲正切非线性函数，

代表语义注意力向量，其维度为[49],向量中的数字代表看向对应图像特征V_t'区域的概率，数字总和为1，

代表语义注意力模型上下文矩阵，其维度为[512,49]。

所述步骤(5)的公式为：

其中，σ^ν代表视觉注意力向量的变异系数，σ^s代表语义注意力向量的变异系数，所述变异系数用来衡量向量的离散程度，视觉注意力向量和语义注意力向量的长度均为N，β代表自我平衡模型的权重系数，用来给视觉注意力模型上下文矩阵和语义注意力模型上下文矩阵分配权重；c_t代表自动平衡策略模型的上下文矩阵。

gLSTM模型，具有指导信息的长短时记忆模型，Guiding long-short term memorymodel。

所述步骤(6)的gLSTM模型为：

其中，

代表gLSTM模型在t时刻的隐藏状态，

表示当前时刻传入gLSTM的文字矩阵，其维度为[2048,512],

代表gLSTM在t-1时刻的隐藏状态，而

代表gLSTM在t-1时刻的细胞状态。

所述步骤(7)中：

其中，MLP为多层感知机模型，word^t表示单词。

所述多层感知机模型包括：

步骤(71)：第一全连接层将学到的

和c_t映射到样本标记空间，所述样本标记空间是单词空间；

步骤(72)：RELU激活函数为多层感知机模型加入非线性因素，防止线性模型的表达能力不够；

步骤(73)：droupout层遗弃设定的神经元防止多层感知机模型过拟合；

步骤(74)：第二全连接层将学到的

和c_t映射到样本标记空间。

融合视觉注意力和语义注意力的图像字幕生成系统，包括：存储器、处理器以及存储在存储器上并在处理器上执行的计算机指令，所述计算机指令在处理器上运行时，完成以下步骤：

一种计算机存储介质，其上存储有计算机指令，所述计算机指令通过处理器运行时，执行以下步骤：

与现有技术相比，本发明的有益效果是：

1.对于图像生成字幕的研究，绝大多数的方案都是集中在基于注意力模型的基础上。当生成的词语与图像的某一部分存在显著关系时，总能得到良好的效果。然而，一些功能性词语并没有被考虑进来，例如(of,on,等等)。本发明首先提出了一种双时序模型，用来使视觉信息充分地作用于到每一个时间步长上。基于双时序模型，本发明又提出了一个词状态下的语义注意力模型，此模型解决了功能性词汇的生成问题。根据变异系数的性质，本发明采用一种自我平衡策略来使系统能够在视觉注意力和单词条件下的语义之间进行权衡。在Flickr30k和COCO数据集上进行了大量的实验以验证方法的有效性。

2.本发明提出了一种新的双时序模型，它包含两个并行的LSTM。这两种不同的LSTM保证了图像信息的利用，从而增强了注意力模型的准确性，减少了下一个词预测的不确定性。

3.本发明提出了用文字条件的指导重新分配视觉特征来解决功能词生成问题。

4.本发明引入变异系数来度量视觉环境向量和语义上下文向量的离散性。并提出了一种自我平衡的注意模型，以平衡视觉注意力和语义注意的影响。

5.本发明对所提出的方法进行了综合实验。对COCO和Flickr30k数据集的实验结果验证了本发明的方法的有效性。

6.语义注意力模型是在视觉注意力模型上进行的改进，目的是为了解决功能性词汇的生成问题。不同于视觉注意力，语义注意力模型对输入的图片做了处理，我们不再单一的将图像特征传入模型中，而是把上一时刻的词和图像特征转化到同样的维度，然后对两者做矩阵点乘。这样的做法可以利用上一个词去改变图像特征的分布，使图像特征的分布更符合语义规则。然后我们再对重新分布后的图像特征进行视觉注意力模型的操作，生成具有语义信息的注意力向量。这样就能有效的生成功能性词汇。

7.本发明使用自动平衡策略模型的原因是：虽然两种注意力模型具有很大差异，但不排除其中会存在信息重叠的部分，尤其是视觉信息比较明显的部分，比如图片中的猫，狗这些因素会导致两种模型的重叠信息比较多。这样会导致学习出的模型参数偏离正确的方向。此处的自动平衡策略模型主要是为了解决此问题。模型的主要核心技巧是通过变异系数的性质判断系统的选择。根据概率论相关知识，变异系数能够比较两种不同分布的离散情况。我们通过对两种注意力模型生成的注意力向量求解变异系数判断向量的离散程度。根据常识，离散程度低的注意力向量代表所属模型无法集中到某个确定部位，而离散程度高的注意力向量代表所属模型可以集中到某个特定部位。我们的自动平衡策略模型根据此原理丢弃离散程度低的注意力向量而选择离散程度高的注意力向量作为下一步的输入。

8.LSTM模型是时序模型的一种，它可以完善普通时序模型的一个功能，就是当我们输入的序列或者文本过于长的情况下，能够有较长的记忆，也就是说长期依赖性。一个LSTM由一长串的门(gate)构成。分别是input gate(current cell state)，forget gate(0：忘记之前的所有；1：通过之前的所有)，output gate(选择输出)，New memory cell(得到新的记忆单元)。四种不同的门相互协作，相互抑制，从而使整个模型运作起来。其中input gate主要是来完成输入接口的工作，forget gate主要是用来控制模型判断信息的遗留问题，output gate主要控制模型的输出，而New memory cell是整个模型的“大脑”，它可以控制整个模型的运行。

9.GLSTM模型是基础LSTM模型的衍生物。有上文的LSTM模型我们知道，对于一个完整的LSTM，总共包含了4个门(gate)，分别是input gate(current cell state)，forgetgate(0：忘记之前的所有；1：通过之前的所有)，output gate(选择输出)，New memory cell(得到新的记忆单元)。而其中的input gate控制着模型的输入。不同于传统的LSTM模型，GLSTM在输入过程中另外加入了图片的特征。传统的LSTM模型的输入为(x_t，h_t)，而GLSTM的输入为(x_t，h_t，v_t)。x_t代表输入的序列信息，h_t代表状态信息，v_t代表图像特征。

10.步骤(7)包含一系列的decoder(解码)操作。之前的步骤中，我们主要集中在encoder(编码)阶段，而对于编码后的信息，我们需要相应的decoder(解码)操作来得到我们需要的信息。我们把步骤(5)产生的上下文向量ct传入GLSTM模型中生成当前状态ht。ct代表图像特征加权注意力向量后的状态，ht代表当前时刻LSTM的状态。步骤(7)的解码过程主要是对ht解码。此解码过程主要分成如下步骤，分别是fc层->relu层->dropout层->fc层->输出。其中的fc层是非线性化转换层，主要用来强化参数的适应性。relu层是激活函数层，此层是神经网络非线性化后的必须层，主要用来使输出参数更加平滑。而dropout层是丢弃层，主要用来防止模型过拟合。

11.注意力模型分为两个阶段，分别是encoder阶段和decoder阶段；

在encoder阶段，用cnn低层的卷积层作为图像特征，其中卷积保留了图像空间信息，

在decoder阶段，根据LSTM的状态并利用softmax逻辑回归生成对应的注意力向量，此向量长度为N(特征数)，其存储的数字相加总和为1，代表概率分布，对应的数字越大概率越大，相反概率越小。通过数字点乘特征向量就能得到上下文向量c_t，从而形成视觉注意力模型。Encoder代表编码，decoder代表解码，而c_t代表对特征向量施加注意力模型后所生成的向量。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1(a)为软注意力模型中注意力矩阵的方差分布,通常情况下，名词的注意力矩阵方差很大，也很容易决定其看哪。相反的，功能性词汇方差较小；

图1(b)为一个图像字幕描述图像和语义注意力的展示；

图2为gLSTM的结构。

图3为双时序模型的概述；

图4为一个单词条件下的语义注意模型；

图5(a)-图5(i)为生成字幕和注意力图的可视化；

图6(a)-图6(d)为生成字幕、视觉注意力、语义注意力和权重参数的可视化举例；

图7为代表性词汇的平衡参数的排序；

图8为本发明的流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

图像字幕生成在计算机视觉和机器学习领域中变得越来越重要。最近，基于神经网络的方法已经成为图像字幕的主流。一般来说，基于神经网络的图像字幕可以分为三大类：基于CNN(卷积神经网络)+RNN(循环神经网络)的方法、基于属性的方法和基于注意力的方法。

CNN+RNN的字幕生成方法主要受到了机器翻译中基于序列对编码-解码框架成功案例的启发。CNN和RNN的结合是一种基础方法，卷积神经网络CNN被用来提取视觉特征，而循环神经网络RNN则用来构建语言模型。为了通过图片和已经生成的单词来预测下一个单词，Kiros等人第一次提出了一个前馈神经网络结构，这是一种多模态的对数-双线性模型。然而，这种方法逐渐被一些新颖的想法所取代。例如，Vinyals使用长短期记忆网络LSTM(Long Short-Term Memory)代替普通的RNN作为解码器。Mao提出了一个m-RNN模型，在这个模型中，图像的特征被反馈到多模式层，而不只是输入到最初的时间步骤。但是，唯一的缺点是用静态输入的图像。虽然CNN提取的视觉特征可以很好地代表图像；但是，随着RNN的细胞增加，视觉信息将逐渐减少。为了解决这个问题，Donahue提出了一种在每一步骤中向RNN提供图像的策略。

基于属性的图像字幕利用了高级概念或属性，然后将它们注入到一种基于神经的方法中，作为语义注意来增强图像的字幕。杨等人将一个中间属性预测层加入到主CNN-lstm框架中，并实验了三个基于属性的模型。吴提出了一种将高级概念融入到CNN-RNN框架中的方法。此外，姚提出了一些架构的变体，用于从图像中抽取高级属性，以弥补图像生成句子结构的不足。

以注意力为基础的字幕生成使图像字幕更加智能。这些基于注意力的字幕模型结合了一种注意机制，从一开始学习潜在的单词和视觉的一致性。受到传统注意力模型的启发，wei提出了一种语义注意机制，该机制允许字幕生成器根据已经生成的文本自动地学习如何聚焦注意力位置，图像功能的哪些部分需要关注。在生成每个单词时，Chang引入了一个序列注意层，它将所有编码隐藏状态都考虑在内。Xiong提出了一种新颖的自适应关注模型，此模型拥有一个视觉哨兵，它可以决定何时何地去看图像。

本发明提出的方法也建立在关注框架上。然而，它与上述所有基于注意力的模型完全不同。本发明提出了两种注意层次，以平衡视觉注意力和语义注意力的影响。

本发明提出了一种新的双时序模型，同时使用两个不同的长短期记忆网络LSTM。

第一个长短期记忆网络LSTM用于保存累积的视觉信息。

第二个长短期记忆网络LSTM用来防止学习过程中每个时间步长中视觉信息的丢失。

融合原始和累积的视觉以减少生成单词的不确定性并增强下一个字预测的灵活性。

本发明提出了一种包含视觉注意力和单词条件语义注意力的自平衡注意框架。

视觉注意力的目标是将每个生成的词与相关的图像区域相结合。

单词条件语义注意力集中学习了在给定上一个生成单词的情况下，系统应如何集中在相应的区域上。

然后，引入变异系数来测量由两个注意向量产生的平衡参数分布的离散程度。

最后，将视觉注意力和单词条件语义注意力融合在一起产生相应的词，见图1(b)。

如图8所示，本发明的方法流程图。

1.1图像字幕生成的编码-解码框架

编码-解码器框架被广泛用于图像字幕。它的核心思想是用图像和相应的句子来最大化公式(1)：

其中，θ代表模型参数，I代表图片，S代表生成的句子。

应用Bayes的链式法则，分布可以分解为以下结构：

其中，S_i代表句子S的第i个单词，S₀是起始词，而S_N是停止词，p(S_t|I,S₁,...,S_t-1)代表在给定图片和上一个单词的情况下生成当前单词的概率。

作为编码器图像通常由CNN的特征向量来表示，而解码器部分通常是用循环的神经网络RNN建模。

如前所述，长短期记忆网络LSTM在图像字幕中比RNN的性能更好。然而，X.Jia,E.Gavves,B.Fernando,T.Tuytelaars.,Guiding the long-short term memory modelfor image caption generation.,In ICCV,2015.指出有时通过长短期记忆网络LSTM生成的句子也会缺少原始的图像信息。该文章还指出LSTM只在开始过程中使用图像内容，经过一段时间的学习后会损失很多的视觉信息。因此，本发明提出一个改进的LSTM，即gLSTM，gLSTM将视觉信息在每个时间步骤中作为额外的指导信息放入LSTM模型中。图2显示了gLSTM和LSTM之间的区别。虚线表示的是指导信息，它是gLSTM和LSTM之间的主要区别；LSTM和gLSTM的隐藏状态分别被建模为：

h_t＝LSTM(x_t，h_t-1，m_t-1) (3)

h_t＝gLSTM(x_t，g，h_t-1，m_t-1) (4)

1.2双时序模型

在图像字幕的基础注意力框架中，下一个生成单词word_t被定义为：

word_t＝MLP(h_t-1，c_t) (5)

其中，h_t-1代表长短期记忆网络LSTM在t-1时刻的隐藏状态，c_t代表上下文向量；

c_t＝func(h_t-1，V) (6)

c_t提供图像字幕的视觉注意力信息，通常c_t依赖h_t-1和V,V∈R^d×k。视觉提取器产生k个矢量，每一个矢量都是d维，每一个矢量都相当于图像的一部分，V＝[v1,...,vk]是通过卷积神经网络CNN提取的图像特征，在给定输入向量x_t的情况下，当前隐藏状态表示为：

h_t＝LSTM(h_t-1，c_t，x_t) (7)

隐藏的状态在两个方面起着重要的作用。一个是注意力生成部分，另一个是隐藏变量的生成部分。

与传统的基于注意力的框架不同，本发明分别利用有两个不同的LSTM来驱动这两个部分。图3显示了所提出的模型。如图3所示，两个LSTM不共享同一时间序列。第一个LSTM(没有图像特性)被认为是为了完成注意力的工作。第二个gLSTM(带有图像特征)是解码器的主要进程。虚线框突出了模型使用当前的状态(

or

)，这与传统的注意力框架不同。在双时序模型中，注意力模块包含了一个视觉注意力框架，值得注意的是在后续的工作中它将会被视觉和语义注意力的融合框架所代替。

LSTM与gLSTM互为补充。第一个LSTM来源于【C.Xiong,J.Lu,D.Parikh,R.Socher.,Knowing when to look:Adap-285tive attention via a visual sentinel for imagecaptioning.,arXiv preprintarXiv:1612.01887,2016.】的想法。

当前隐藏的状态h_t用来分析应该观察的区域(例如：生成上下文向量c_t)。

因此，本发明在模型LSTM中定义了

和

是LSTM的状态信息，然而,视觉信息并没有被充分利用。为了解决这个问题，本发明使用改进的LSTM，即gLSTM，以提高视觉信息的利用率。本发明将从图像中提取的视觉信息作为LSTM每个单元的额外输入，目的是提高视觉信息的利用率。

gLSTM模型归纳为如下：

和

是模型gLSTM的状态信息，值得注意的是由于数据的不一致性，LSTM和gLSTM不共享相同的数据流。因此本发明称它为双时序模型。下面的工作都是建立在双时序模型的基础上的。

1.3文字条件下的语义注意力模型

由于图像字幕的注意力机制的有效性，本发明在提出的双时序模型中采用软注意框架。一个权重向量α^v被用来建立上下文向量c^t。矢量α^v概括为：

h_t-1代表上一时刻的隐藏状态，V代表图像特征。软注意模型对生成的名词(例如'dog'，"filed")起明显的作用。然而，在软注意力实验中，本发明发现当生成的单词为虚词(如。“of”、“on”)时，α^v呈现一个密集分布(具有小的方差值)。这一现象证明了算法对生成的词没有明确线索。在这种情况下，软注意模型很难决定要去哪里看。这种现象的主要原因是最后一个生成的单词语义信息未被充分利用。为了解决这一问题，本发明提出了一个单词条件下的语义注意模型，这个模型由图4所示。当单词条件下的语义注意模型接收到一个图像的时候，它通过最后一个生成的单词重新分配特征矩阵V_t'；

其中，V∈R^d×k，V代表图片特征，W_t-1代表上一个生成单词的嵌入矩阵，Φ(.)代表非线性转换函数。将混合矩阵V_t'输入到softmax函数中，得到新的加权向量

文字条件下的语义注意力允许模型通过文字条件自动的学习语义信息。语义注意力作用于视觉注意力的互补机制。

1.4自动平衡注意力模型

结合视觉注意力和文字条件下的语义注意力的优势，本发明提出了一种自动平衡注意模型。如果加权的注意力向量α^v具有大的方差时，系统很容易决定去看哪里。否则，很难对图像和文字之间做出联系。图4所示为自动平衡注意模型。变异系数主要用来测量α^v和α^s的离散程度：

根据σ^v和σ^s计算平衡参数β：

采用两种不同的方法来生成平衡参数：

方法1：如果β大于1-β，则将β赋值为1，否则β为0。每一时刻只有一种注意力会被选择。

方法2：直接使用β作为最后的权重来分配两个注意力的比例，这两种注意力通过一种柔和的方式结合在一起。

因此，上下文向量c_t被定义为:

代表由σ^v生成的上下文向量，

代表由σ^s生成的上下文向量，而c_t是平衡后的上下文向量。

1.5训练细节

在本发明的实验当中，本发明使用最近比较提倡的Adam激活器，并且给模型赋以5e-4的学习率。两个LSTM的隐藏状态维度都是512。本发明将批处理大小设置为80。在35个迭代之后，本发明在COCO评估工具上每隔5个迭代对结果进行测试。本发明发现，这一损失往往会在37个迭代后趋于平缓。模型使用单个TiTan X GPU在COCO数据集上进行训练需要42个小时。

2.1实验结果

本发明在Flickr30k和微软COCO数据集上做了实验来证明本发明提出的方法具有很好的表现。

Flickr30k包含从Flickr收集的3万张图片。每个图像有5个对应的句子。根据以前的论文，本发明采用公用的分割方法，分别包含1000个图像来进行验证和测试。

COCO是一个具有挑战性的图像数据集，它包含82783、40504和40775个用于训练、验证和测试的图像。与Flickr数据集不同的是，这个数据集中的图像包含复杂的带有多个对象的场景。每一张图片都有5个人类注释说明。为了与之前的方法比较，本发明遵循之前的划分工作。对于离线评估，本发明从40504张验证集中选取5000张图片进行验证和5000张图片进行测试。对于在线评估的COCO评估服务器，本发明用82753个训练数据集和40504个验证数据集对模型进行训练。

预处理:本发明保留了至少出现5次的单词。分别在COCO和Flickr30k提取了8795，6359个单词。

比较方法:对于flickr和COCO的离线评估，将本发明的方法与deepv、BerkeleyLRCN、Attention、ERD、fcn、MSM、MAT和Adaptive进行比较。对于在线评估，将本发明的方法与LRCN、ATT-FCN、Attention、ERD、MSM、MAT和Adaptive进行比较。

2.2.整体比较

本发明使用COCO字幕评测工具，它包含以下评测方法：Bleu、Meteor、Rouge-L andCIDEr。本发明还使用最近提出的SPICE来评估本发明的模型。此方法被证明更符合人类的判断，并且在语言生成模型的评测过程中表现得更好。

表1显示了在COCO和Flickr30k上训练得到的结果，可以看到本发明的方法超过了绝大多数的方法去了Adaptive。本发明的SPICE结果为17.9(c5)，结果表明了该模型的有效性。相同的结论也可以从表2的COCO在线评估服务器上得到。

表1

表2：在MSCOCO和Flickr30k上的比较结果(根据之前的数据分割工作)。使用c5报告度量指标。对于未来的比较，本发明的SPICE分数是0.142(Flickr30k)和0.179COCO。

表2

表3在微软MS COCO在线评测工具上评测的对比结果。所有的指标都使用c5和c40引用进行报告。

表3

通过实验，本发明发现在Flickr30k和COCO进行训练时使用resnet作为编码器比VGG表现更好，但在Flickr8k上表现偏差。所以，本发明使用resnet-152来提取特性。在实验中过程中，本发明没有对DTM-SBA的图片特征进行微调，这是性能比Adaptive差的原因之一。

2.3双重时序模型的性能

为了进一步证明双时序模型(DTM)的有效性，本发明比较了DTM和三个基线的得分:1)Soft-attention model；2)Guid-ing Long-Short Term Memory model；3)Spatialmodel.DTM集成了上述三种方法的优点。结果表3所示。除了b-2(Spatial)之外，DTM的所有指标都优于其他模型的指标。从表3可以得到两个结论。首先，在每一步添加图像信息是有必要的。第二，当前状态比之前的状态包含更多的指导信息。

2.4注意力模型选择

在这个小节中，本发明测试了自我平衡注意模型的性能。在第1.4节中提到了两种平衡策略。方法1是一个软平衡策略，视觉注意力和文字条件语义注意力通过一个平衡参数来融合。方法-2是一种硬平衡策略，选择视觉注意力或单词条件语义注意力其中之一。

这两种方法都比单独使用视觉注意力的DTM方法效果好。这一现象表明，有文字条件的语义注意力与视觉注意力有互补的作用。此外，值得注意的是，方法-2比方法-1更好。这意味着只选择一种注意力模式表现得更好。在一些特定的情况下，重复的注意力信息可能会导致目标偏离正确方向。相反，方法-2可以减少重复的关注信息。

表4两种不同融合方法的比较

2.5定性分析

为了使模型能够更好的理解，本发明展示了字幕的结果，并在图片上添加了注意力图，通过相关算法可视化附加注意力图后的图片。结果是从5000COCO测试集中选取得到的。如图6(a)-图6(d)所示，前两行代表名词的可视化，后两行代表功能性词汇的可视化。尤其需要说明的是，由于文字条件下的的语义注意力模型改变了图片的原始结构，导致了使用原始图片可视化注意力组件是不合适的。因此，本发明把重分布的特征矩阵作为背景。它展示了单词条件下的注意力模型的真实分布。通过比较不同行可以发现，模型对文字类型有很高的敏感性。本发明也在不同列分别展示了准确的描述和不准确的描述。前两列是正确的例子，最后一列是不正确的列子。结果表明,学习的校准符合人类的直觉。虽然有时描述是不准确的(缺乏高级语义)，本发明的模型却可以精确地相应的位置。

如图5(a)-图5(i)所示，白色注意力区域代表目前模型所集中关注的地方。前两行显示了视觉注意力的效果，最后一行展示了文字条件下的语义注意力的下过。

此外，本发明还将视觉注意力和文字条件下的语义注意力模型的平衡参数可视化。并且，本发明也展示了视觉注意力的可视化图和文字条件下的语义可视化的图。从图7可以看出，自我平衡模型能够很好的平衡两种不同的注意力之间的关系。当碰到名词时(例如“man”,“surfboard”和”water”)，视觉注意力将获得较大的平衡参数。当碰见功能性词汇时(例如“in”and“to”)，文字条件下的语义注意力将获得较大的平衡参数。

图6(a)-图6(d)中列举了两种上下文生成方法。

为了进一步说明自我平衡注意模型的效果，本发明对生成的词中出现的平衡参数进行了平均。在实验中，来自COCO验证集的500个例子被随机列举。结果如图7所示。这些词按平衡参数的降序进行排列。大体上，当遇到名词时(例如”man”,”people”,”bus”)会更加集中的关注视觉注意力。当生成功能性词语时(例如”the”和”through”)，平衡参数会更加倾向于文字条件下的语义注意力。此趋势是在没有任何先验信息的情况下得到的。在某些特殊的情况下，当同一单词出现不同的位置时，平衡参数会有所不同。拿“to”来举例，当短语是“go to”时，平衡参数小于0.1。当这个短语是“next to”时，它的平衡参数则大于0.2。产生这种现象的原因是需要生成的单词依赖于不同的条件单词(例如“go”，next”).另外，如果上一个生成的单词是不正确的，手动干预会使句子的生成回到正确的方向。据本发明所知，单词条件语义注意力模型在注意力模型中是第一个被提出来的。

结论，在此次工作中，本发明提出了一个新的双时序模型来充分利图像字幕的视觉信息。本发明也提出了一个自我平衡模型去平衡视觉注意力和文字条件下的语义注意力的影响。上述实验都是在图像字幕标准的基准上进行的。定量和定性的评估显示出所提方法是有效的。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。