CN111046966B

CN111046966B - 基于度量注意力机制的图像字幕生成方法

Info

Publication number: CN111046966B
Application number: CN201911306345.9A
Authority: CN
Inventors: 宋威; 周俊昊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2022-04-05
Anticipated expiration: 2039-12-18
Also published as: CN111046966A

Abstract

基于度量注意力机制的图像字幕生成方法，属于计算机视觉与图像字幕处理任务。本发明模型首先提取图像的特征结合生成具有低级语义的字幕，然后利用注意力机制提取图像的特定区域结合低级语义信息生成高级字幕。利用度量学习学习和真实标签之间的差异，对于符合阈值的输出，不符合阈值的，利用本发明提出的注意力模块，该模块重新结合图像和语义信息以及历史信息生成新的字幕。本发明是一种新型生成图像字幕的方法，不需要人工描述，即可完成大量的图像字幕任务。

Description

基于度量注意力机制的图像字幕生成方法

技术领域

本发明属于计算机视觉与图像字幕处理任务，提出了一种基于度量注意力机制MAM(MeasureAttention Mechanism)的图像字幕生成方法，可以有效的把图片中的视觉数据映射成文字数据，从而描述图片的内容。

技术背景

图像字幕对于人们理解图像是一项具有挑战性的工作。图像字幕的任务是用自然语言描述来描述输入图像。它有许多实际应用，如帮助盲人理解图像的内容，拍照片就可以马上生成合适的描述文字，省去了用户手动编辑。然而，图像字幕是一个具有挑战性的领域。不仅需要对图像中的物体进行描述，还需要用类似人的句子来表达信息。它不同于传统的图像语义理解。其主要任务是使机器识别出与人相似的图像和真实文字。因此，现提出一种精准和智能的图像字幕生成方法还是非常有必要的。

早期的图像处理方法大多都是基于传统的机器学习方法，如使用支持向量机等进行分类得到图像中的目标，进而作为生成句子的依据。深度学习的出现极大的促进了计算机视觉的发展，图像的特征提取受到了卷积神经网络(Convolutional Neural Network，CNN)的发展，识别率有了大大的提高。在图像字幕的任务中，使用CNN作为提取图像特征的编码器成为了多数的方法。谷歌在2014年率先采用了这种方法。

获取了图像信息紧接着就要把视觉信息转化成文字信息，目前多数采用的是基于生成的方法。利用循环神经网络(RecurrentNeuralNetwork，RNN)对特征图中含有文字的部分进行解码，从而达到对图像中文本识别的目的。

一般来说传统的编码——解码已经可以产生比较好的结果，随着注意力机制在机器翻译领域的成功应用，2016年Xu et al.首次提出把注意力机制应用到图像字幕的任务中去，并取得了较好的结果。它的主要思想就是把获取的图像特征对其进行注意力加权处理再用RNN进行解码。除了图像的注意力机制，语言特征的注意力机制也是当下研究的一个热门探究方向。

在解码方面，一般我们都是直接图像的特征进行提取，但是一次提取可能面临的问题是并不能完全的提取图像中的信息。在编码阶段，传统的RNN存在梯度弥散和梯度消失问题，不利于句子的生成。同时，很多方法都是把最后解码的文字最后的输出，并没有学习和真实样本之间的差异性，无法更好的描述图像的主题。因此，需要一种更好的模型，一方面可以提取更加丰富的图像信息，另一方面可以更加的准确的描述图像中所包含的信息。

发明内容

针对上述存在的问题，本发明提出了一种基于度量注意力机制的图像字幕生成方法来进行图像字幕的生成。先将图像使用CNN进行特征的提取，然后引入注意力机制提取图像的高级特征，将二者结合，生成字幕，充分的利用图像的低级和和高级特征。引入度量学习，学习生成的字幕和标签之间的差异，当达到阈值时就输出，否则重新学习，直到达到满足的条件。从而达到更加准确的生成图像字幕的目的。

本发明的技术方案：

基于度量注意力机制的图像字幕生成方法，步骤如下：

目标是给定一幅图片，将字幕作为图像预测的条件概率：

其中I表示输入的图像，θ是模型的参数；S等价为一个句子中的单词S＝(S₀,...,S_t+1)，则上述(1)又描述为：

步骤1、首先读取数据集的图片，使用卷积神经网络(Convolutional NeuralNetwork，CNN)作为编码器，对图像的特征进行提取，得到如下的特征向量：

其中D表示提取特征的维度，x_i表示特征图对应的D维特征向量，L是特征图的高和宽的乘积；

步骤2、使用长短神经网络(Long Short-Term Memory,LSTM)生成具有低级语义的字幕：

i¹ _t＝σ(W_ixx_t+W_ihh_t-1) (4)

f¹ _t＝σ(W_fxx_t+W_fhh_t-1) (5)

o_t ¹＝σ(W_oxx_t+W_ohh_t-1) (6)

c¹ _t＝f_t⊙c_t-1+i_t⊙tanh(W_cxx_t+W_chh_t-1) (7)

h¹ _t＝o_t⊙tanh(c_t) (8)

其中，第一步输入x是公式(3)中的V，i_t、f_t、c_t和o_t分别代表输入门、遗忘门、记忆细胞和输出门，h_t代表隐藏层，W_ix、W_fx、W_ox、W_cx和W_ch为度量注意力机制的输入门、遗忘门、输出门、更新的细胞状态，σ、W_fh、W_ih、W_oh分别为sigmoid函数，遗忘门，输入门和输出门隐藏层的参数⊙表示向量的乘法运算；公式(4)-(8)上角标1代表的是低级语义字幕生成过程由(4)-(8)得

h_t+1＝f(h_t,x_t) (9)

其中x_t表示LSTM的输入，在第一个单元中，x_t代表的是图像特征，在另外的单元中代表的是上下文单词的特征；通过训练，来获得模型的参数θ；

步骤3、通过注意力机制获取图像中的特定区域，以此来获得图像的高级语义信息；再结合步骤2中得到的低级语义的字幕，得到具有高级语义信息的字幕。在时刻t，都能得到一组权重，代表着在图像中的重要程度。

i² _t＝σ(W_ixx_t+W_ihh_t-1+W_izZ_t) (10)

f² _t＝σ(W_fxx_t+W_fhh_t-1+W_fzZ_t) (11)

o² _t＝σ(W_oxx_t+W_ohh_t-1+W_ozZ_t) (12)

c² _t＝f_t⊙c_t-1+i_t⊙tanh(W_cxx_t+W_chh_t-1+W_czZ_t) (13)

h² _t＝o_t⊙tanh(c_t) (14)

其中W_iz、W_fz、W_oz、W_cz为输入门、遗忘门、输出门和细胞状态的训练参数。注意力机制在解码的过程中使用了上下文向量Z_t得到：

Z_t＝Φ({a_i},{α_i}) (15)

其中，Φ表示给定一个图像的向量和对应的权重的函数。a_i代表的是图像位置为i的向量，α_i代表的是相关联的权重矩阵。

对于公式(15)中的α_i计算如下：

e_ti＝f_att(a_i,h_t-1) (16)

其中，e_ti为t位置时刻全局注意力的输出，f_att(·)为全局注意力机制函数，a_ti为t时刻a_i对应的权重；

对于公式(16)中的h_t-1表示的是上一个时刻解码器中的隐含层向量，

注意力公式为：

f_att＝β^Ttanh(W₁h_t-1+W₂a_i) (18)

其中，f_att为全局注意力机制，β为隐藏层状态，W₁和W₂为隐藏层参数。

最后得到一个上下文向量：

其中α_ti由公式17得到

使用LSTM作为解码器：

f(y_t-1,h_t-1,c_t)＝softmax(W_ot) (20)

其中y_t-1表示的是词向量，W_ot表示的是输出门的参数。

步骤4、本发明引入了度量学习，学习和真实标签之间的差异，从而让字幕更加的准确和生动。对于不符合阈值的，会输入进一个新的注意力模块，该模块重新结合了图像的内容和语义信息，作为新的字幕生成。

对于一个的要学习的度量矩阵M，为了保持M距离的非负性和对称性，因此我们要保证M要是正定或者半正定矩阵。即M要有正交基底，使得

M＝PP^T (21)

优化的目标函数为：

其中，P为属性权重，Ω_i为与x_i属于同类别的样本下标集合，x_s表示的是样本，对于上式，采用随机梯度下降法SGD求解。

然后对于不理想的生成字幕输入新的注意力模块：

w_t＝E(x_t) (23)

z_t＝softmax(i⊙c_t) (25)

x_t＝w_t+z_t (26)

其中，当t＝1时，x_t＝X表示输入的是图像的特征，当t＞1表示的是输入的是词嵌入向量；w_t为词嵌入矩阵，代表的是当前时刻之前所产生的所有单词信息，E代表的是词嵌入模型，由此获得词嵌入矩阵。z_t代表的是重新结合图像和语义信息相结合的矩阵。最后，把得到的新的图像和语义信息的和作为LSTM的输入，带入上述公式(10)-(14)重新生成字幕；

步骤5、由此，本发明就可以生成字幕，得到了模型概率分布P(S|I)，为了学习本发明的模型，我们采用了最小交叉熵来进行学习。

采用和度量学习一样的随机梯度下降法SGD来训练模型。

本发明的有益效果：提出了一种新型生成图像字幕的方法，不需要人工描述，即可完成大量的图像字幕任务。为了更加详细的学习图像中的内容，本发明分别针对低级和高级图像特征结合语义指导生成字幕。引入度量学习，学习和真实样本之间的差异性，从而使生成的字幕更加的准确。对于效果不好的，输入新的注意模块，重新指导生成。利用以上的优点，实现对图像字幕的生成。

附图说明

图1为本发明的整个网络框架示意图；

图2为注意力模块的结构示意图；

图3为整个网络的训练流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加的清楚，结合上述所给的技术方案和附图，进一步的说明本发明的具体使用方式。

步骤1、首先读取数据集的图片，使用GoogleNet作为编码器，对图像的特征进行提取，可以得到如下的特征向量：

其中D表示提取特征的维度，v_i表示特征图对应的D维特征向量，L是特征图的高和宽的乘积。本发明的L＝7×7，D的大小取2048。最后我们得到一个49×512维的矩阵。

步骤2、使用长短神经网络(LongShort-TermMemory,LSTM)生成具有低级语义的字幕。我们使用512维的词嵌入矩阵，以用来保证和图像特征具有相同的维度。因为标签中含有大量的重复单词，为了加速训练时间，我们把标签映射成字典的形式。

h_t+1＝f(h_t,x_t) (2)

其中x_t表示LSTM的输入，在第一个单元中，x_t代表的是图像特征，在另外的单元中代表的是上下文单词的特征。通过训练，来获得模型的参数θ。

步骤3、通过注意力机制获取图像中的特定区域，以此来获得图像的高级语义信息。再结合步骤2中得到的低级字幕，得到具有高级语义信息的字幕。在时刻t，都可以得到一组权重，代表着在图像中的重要程度。

注意力公式为：

f_att＝β^Ttanh(W₁h_t-1+W₂a_i) (3)

最后得到一个上下文向量：

我们使用LSTM作为解码器：

f(y_t-1,h_t-1,c_t)＝softmax(W_ot) (5)

步骤4、发明中的度量学习，主要学习和真实标签之间的差异，从而让字幕更加的准确和生动。对于不符合阈值的，会输入进一个新的注意力模块，该模块重新结合了图像的内容和语义信息，作为新的字幕生成。该处的阈值我们设置为0.7

优化的目标函数为：

其中x_i表示的是样本，对于上式，我们采用随机梯度下降法(SGD)求解。

然后对于不理想的生成字幕输入进注意力模块：

w_t＝E(x_t) (7)

z_t＝softmax(i⊙c_t) (9)

x_t＝w_t+z_t (10)

其中的E代表的是词嵌入模型，由此我们可以获得词嵌入矩阵。z_t代表的是重新结合图像和语义信息相结合的矩阵。最后，我们把二者的和作为LSTM的输入。

步骤5、由此，本发明就可以生成字幕，得到了模型概率分布P(S|I)，为了学习本发明的模型，我们采用了最小交叉熵来进行学习。对于CNN来说，我们设置学习率为1×10^-5，我们的语言模型的学习率设置为4×10^-4，beamsize我们设置为2的时候效果最好。本发明的语言模型中，隐藏层的个数设置为512，我们所采用的minibatch为16。

我们采用和度量学习一样的随机梯度下降(SGD)来训练我们的模型。

本发明提出了一种新型生成图像字幕的方法，不需要人工描述，即可完成大量的图像字幕任务。为了更加详细的学习图像中的内容，本发明分别针对低级和高级图像特征结合语义指导生成字幕。引入度量学习，学习和真实样本之间的差异性，从而使生成的字幕更加的准确。对于效果不好的，输入新的注意模块，重新指导生成。利用以上的优点，实现对图像字幕的生成。

下面通过本发明提供的方法对图像字幕数据集进行预测，该数据集包含了8000张图片，其中包含了6000张的训练集、1000张的验证集和1000张测试集。每张图片还包含了几句描述图像内容的句子。

预测结果表明基于的方法比人工节约了65％的时间，并且生成字幕的准确率也符合预期的要求。因此，本发明所提出来的方法可以有效的描述图像的内容。

Claims

1.基于度量注意力机制的图像字幕生成方法，其特征在于，步骤如下：

目标是给定一幅图片，将字幕作为图像预测的条件概率：

步骤1、首先读取数据集的图片，使用卷积神经网络CNN作为编码器，对图像的特征进行提取，得到如下的特征向量：

步骤2、使用长短神经网络LSTM生成具有低级语义的字幕：

i¹ _t＝σ(W_ixx_t+W_ihh_t-1) (4)

f¹ _t＝σ(W_fxx_t+W_fhh_t-1) (5)

o_t ¹＝σ(W_oxx_t+W_ohh_t-1) (6)

c¹ _t＝f_t⊙c_t-1+i_t⊙tanh(W_cxx_t+W_chh_t-1) (7)

h¹ _t＝o_t⊙tanh(c_t) (8)

其中，第一步输入x是公式(3)中的X，i¹ _t、f¹ _t、c¹ _t和o_t ¹分别代表输入门、遗忘门、记忆细胞和输出门，h¹ _t代表隐藏层，W_ix、W_fx、W_ox、W_cx和W_ch为度量注意力机制的输入门、遗忘门、输出门、更新的细胞状态，σ、W_fh、W_ih、W_oh分别为sigmoid函数，遗忘门，输入门和输出门隐藏层的参数⊙表示向量的乘法运算；公式(4)-(8)上角标1代表的是低级语义字幕生成过程，由(4)-(8)得：

h_t+1＝f(h_t,x_t) (9)

步骤3、通过注意力机制获取图像中的特定区域，以此来获得图像的高级语义信息；再结合步骤2中得到的低级语义的字幕，得到具有高级语义信息的字幕；在时刻t，都能得到一组权重，代表着在图像中的重要程度；

i² _t＝σ(W_ixx_t+W_ihh_t-1+W_izZ_t) (10)

f² _t＝σ(W_fxx_t+W_fhh_t-1+W_fzZ_t) (11)

o² _t＝σ(W_oxx_t+W_ohh_t-1+W_ozZ_t) (12)

c² _t＝f_t⊙c_t-1+i_t⊙tanh(W_cxx_t+W_chh_t-1+W_czZ_t) (13)

h² _t＝o_t⊙tanh(c_t) (14)

其中W_iz、W_fz、W_oz、W_cz为输入门、遗忘门、输出门和细胞状态的训练参数；注意力机制在解码的过程中使用了上下文向量Z_t得到：

Z_t＝Φ({a_i},{α_i}) (15)

其中，Φ表示给定一个图像的向量和对应的权重的函数；a_i代表的是图像位置为i的向量，α_i代表的是相关联的权重矩阵；

对于公式(15)中的α_i计算如下：

e_ti＝f_att(a_i,h_t-1) (16)

注意力公式为：

f_att＝β^Ttanh(W₁h_t-1+W₂a_i) (18)

其中，f_att为全局注意力机制，β为隐藏层状态，W₁和W₂为隐藏层参数；

最后得到一个上下文向量：

其中α_ti由公式17得到

使用LSTM作为解码器：

f(y_t-1,h_t-1,c_t)＝softmax(W_ot) (20)

其中y_t-1表示的是词向量，W_ot表示的是输出门的参数；

步骤4、引入度量学习，学习和真实标签之间的差异；对于不符合阈值的，会输入进一个新的注意力模块，该模块重新结合了图像的内容和语义信息，作为新的字幕生成；

对于一个的要学习的度量矩阵M，M要是正定或者半正定矩阵；即M要有正交基底，使得

M＝HH^T (21)

优化的目标函数为：

其中，H为属性权重，Ω_s为与x_i属于同类别的样本下标集合，x_s表示的是样本，对于上式，采用随机梯度下降法SGD求解；

然后对于不理想的生成字幕输入新的注意力模块：

w_t＝E(x_t) (23)

z_t＝softmax(i⊙c_t) (25)

x_t＝w_t+z_t (26)

其中，当t＝1时，x_t＝X表示输入的是图像的特征，当t＞1表示的是输入的是词嵌入向量；w_t为词嵌入矩阵，代表的是当前时刻之前所产生的所有单词信息，E代表的是词嵌入模型，由此获得词嵌入矩阵；z_t代表的是重新结合图像和语义信息相结合的矩阵；最后，把得到的新的图像和语义信息的和作为LSTM的输入，带入上述公式(10)-(14)重新生成字幕；

步骤5、生成字幕的同时得到了模型概率分布P(S|I)，采用最小交叉熵对模型进行学习；

采用和度量学习一样的随机梯度下降法SGD来训练模型。