CN108960338A

CN108960338A - 基于注意力反馈机制的图像自动语句标注方法

Info

Publication number: CN108960338A
Application number: CN201810792426.3A
Authority: CN
Inventors: 胡伏原; 吕凡; 李林燕; 付保川; 吴征天
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2018-12-07
Anticipated expiration: 2038-07-18
Also published as: CN108960338B

Abstract

本发明涉及一种基于注意力反馈机制的图像自动语句标注方法，包括：构建输入数据，给定一系列的图像χ＝{x₁，x₂，...，x_N}作为训练集，其中N是样本数量；图像x_i对应的语句表述为s_i＝{s_i，1，s_i，2，...，s_i，T}，T代表句子S_i的长度；构建CNN‑RNN模型，进行正向文本成：从生成的文本中提取关键词注意力反向矫正图像注意力：利用上述从文本中提取出的关注特征，对原本的图像关注特征进行注意力矫正。能够解决注意力机制在图像自动语句标注过程中的注意力分散问题及生成语句错乱的问题，采用反馈式CNN‑RNN结构，利用反馈机制将生文本中的关键信息反向传给图像，将有利于在提取图像特征的过程中，更加关注文本中的信息所对应的显著目标，从而有利于使得图像关键信息和文本关键信息更加匹配。

Description

基于注意力反馈机制的图像自动语句标注方法

技术领域

本发明涉及图像自动语句标注，特别是涉及基于注意力反馈机制的图像自动语句标注方法。

背景技术

一直以来，很多研究者希望能够得到图像关注域上更多的反馈指导以便更加准确地生成标注语句，所以提出了注意力机制。基于注意力机制的图像自动语句标注分为两类，分别是基于全图的注意力机制和基于显著目标的注意力机制。Xu等人提出一种soft的注意力模型和一种hard的注意力模型，利用循环神经网络记录语句中的信息，并计算图像中的关注点来指导接下来的单词预测。You等人在Xu等人的研究基础上，提出利用一系列的属性检测来获得视觉的属性特征标签，然后将其融入循环神经网络的hidden state中。但是，这种注意力机制在图像中能反应的仅有关键词的区域，对于一些修饰语的区域无法定位，使得图像注意力分散并导致生成语句错乱。因此提出注意力反馈机制研究能够更好地解决这些问题的方法。

传统技术存在以下技术问题：

传统的图像自动语句标注在生成图像文本的过程中很容易出现注意力的区分，在对图像进行特征提取时，很容易为了关注前景而忽视背景的重要性，导致文本中修饰语出现错误或者信息缺失。而后来提出的的注意力机制在分析处理图像时，仅仅关注一个或几个特定区域，并不能关注和目标相关的修饰区域，这就造成了注意力分散和生成语句错乱的问题，影响了结果的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种基于注意力反馈机制的图像自动语句标注方法，能够解决注意力机制在图像自动语句标注过程中的注意力分散问题及生成语句错乱的问题，采用反馈式CNN-RNN结构，利用反馈机制将生文本中的关键信息反向传给图像，将有利于在提取图像特征的过程中，更加关注文本中的信息所对应的显著目标，从而有利于使得图像关键信息和文本关键信息更加匹配。

一种基于注意力反馈机制的图像自动语句标注方法，包括：

构建输入数据，给定一系列的图像x＝{x₁，x₂，...，x_N}作为训练集，其中N是样本数量；图像x_i对应的语句表述为S_i＝{s_i，1，s_i，2，...，s_i，T}，T代表句子S_i的长度；

构建CNN-RNN模型，进行正向文本成；

从生成的文本中提取关键词注意力反向矫正图像注意力；

利用上述从文本中提取出的关注特征，对原本的图像关注特征进行注意力矫正。

在另外的一个实施例中，输入数据为RGB三通道图像，缩放为预定大小。

在另外的一个实施例中，所述预定大小是256*256。

在另外的一个实施例中，“构建CNN-RNN模型，进行正向文本成；”具体包括：

采用VGG-16模型，从第二个全连接层提取长度为4096的图像特征f_conv＝{a₁，a₂，...，a_L}

利用采用长短期记忆模型(Long Short-Term Memory，LSTM)处理序列的能力，指导每个单词的生成，生成完整的句子：

g_t＝tanh(W_xcy_t+W_hch_t-1+W_zcz_t+b_c)， (2)

i_t＝σ(W_xiy_t+W_hih_t-1+W_ziz_t+b_i)， (3)

f_t＝σ(W_xfy_t+W_hfh_t-1+W_zfz_t+b_f)， (4)

o_t＝σ(W_xoy_t+W_hoh_t-1+W_zoz_t+b_o)， (5)

c_t＝f_t⊙c_t-1+i_t⊙g_t， (6)

h_t＝o_t⊙tanh(c_t)， (7)

s_i，t+1＝softmax(W_hh_t+b_h)， (8)

计算t步骤的时候图像中的注意力α_t＝{α_t，1，α_t，2，...，α_t，L}的第i个元素可由下式计算得出：

计算α_t中每一个元素的能量大小e_t＝{e_t，1，e_t，2，...，e_t，L}；g(·)代表一个简单的多层感知机(Multi-Layer Perception，MLP)：

e_t＝{e_t，1，e_t，2，...，e_t，L}

计算基于文本内容的注意力的图像关注特征z_t，带入“利用采用长短期记忆模型(Long Short-Term Memory，LSTM)处理序列的能力，指导每个单词的生成，生成完整的句子：”中计算

利用包含关注信息的图像特征来初始化模型，包括初始化图像中的关注区域和初始化LSTM；

初始化图像中的关注区域需对每个区域进行注意力均匀初始化：

其中1代表第一个循环；利用初始化的注意力，对从图像中提取的特征f_conv进行加权可得：

在每一次循环中利用加了关注的图像特征，可以初始化LSTM的记忆单元c和隐藏状态h：

经由正向文本生成过程，LSTM的每一步都将产生一个单词，生成句子。

在另外的一个实施例中，“从生成的文本中提取关键词注意力反向矫正图像注意力；”具体包括：

在文本上的注意力β＝{β₁，β₂，...，β_T}，在β_t上的注意力计算如下

模型从生成文本中提取出文本上的关注特征，该特征包含了对每个单词的重要性分析，对模型认为是关键词的单词加大权重，反之减小权重。

在另外的一个实施例中，“利用上述从文本中提取出的关注特征，对原本的图像关注特征进行注意力矫正。”

利用图像的关注特征和来自文本中的关注特征r可以计算出图像和文本

的联合关注特征：

H＝W_haa_i+W_hrr+b_h， (18)

重新计算图像中的注意力可得：

λ^k＝softmax(tanh(H)) (19)

利用公式(13)，更新关注特征利用该信息在下一个循环中初始化LSTM以指导文本的生成。

上述基于注意力反馈机制的图像自动语句标注，能够解决注意力机制在图像自动语句标注过程中的注意力分散问题及生成语句错乱的问题，采用反馈式CNN-RNN结构，利用反馈机制将生文本中的关键信息反向传给图像，将有利于在提取图像特征的过程中，更加关注文本中的信息所对应的显著目标，从而有利于使得图像关键信息和文本关键信息更加匹配。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

附图说明

图1为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的关注区域和文本中的关键字可视化的示意图。

图2为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的基于注意力反馈机制的图像自动语句标注模型的示意图。

图3为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的文本的生成与反馈的示意图。

图4为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的图像关注区域的示意图。

图5为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的关注区域更新的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

基于注意力机制的图像自动语句标注分为两类，分别是基于全图的注意力机制和基于显著目标的注意力机制。基于全图的注意力机制中，将图像整体作为输入，寻找图像中的关注区域。基于显著目标的注意力机制中，利用目标检测方法提取图像中的目标，重点关注该目标以生成对应的文本。基于全图的注意力机制直接利用全图信息指导文本的生成，预测的关注区域的准确性无法保证。基于显著目标的注意力机制虽然利用了局部信息来指导生成语句，但是目标提取的算法提高了运算成本。

上述两种方法都会对语句进行按单词顺序解析，在生成每一个单词的时候估计图像上的关注区域(和预测单词最相关的图像子区域)，此信息被用来指导单词的预测。该过程是一个单向传播的操作，一直持续至生成一个完整的句子。这类方法存在注意力分散问题和生成的语句错乱问题。该过程中，注意力机制在图像中能反应的仅有关键词的区域，对于一些修饰语的区域无法定位，使得图像中的注意力极易发散(无法找到单词对应的确切物体所在区域)，生成的语句产生错乱。

参阅图1到图5，一种基于注意力反馈机制的图像自动语句标注方法，包括：

构建输入数据，给定一系列的图像χ＝{x₁，x₂，...，x_N}作为训练集，其中N是样本数量；图像x_i对应的语句表述为S_i＝{s_i，1，s_i，2，...，s_i，T}，T代表句子S_i的长度；

构建CNN-RNN模型，进行正向文本成；

从生成的文本中提取关键词注意力反向矫正图像注意力；

在另外的一个实施例中，所述预定大小是256*256。

g_t＝tanh(W_xcy_t+W_hch_t-1+W_zcz_t+b_c)， (2)

i_t＝σ(W_xty_t+W_hih_t-1+W_ziz_t+b_i)， (3)

f_t＝σ(W_xfy_t+W_hfh_t-1+W_zfz_t+b_f)， (4)

o_t＝σ(W_xoy_t+W_hoh_t-1+W_zoz_t+b_o)， (5)

c_t＝f_t⊙ct_-1+i_t⊙g_t， (6)

h_t＝o_t⊙tanh(c_t)， (7)

s_i，t+1＝softmax(W_hh_t+b_h)， (8)

计算t步骤的时候图像中的注意力α_t＝{α_t，1，α_t，2，...，α_t，L}的第i个元素可由下式计算得出:

e_t＝{e_t，1，e_t，2，...，e_t，L}

在每一次循环中利用加了关注的图像特征，可以初始化LSTM的记忆单元c和隐藏状态h:

的联合关注特征：

H＝W_haa_i+W_hrr+b_h， (18)

重新计算图像中的注意力可得：

λ^k＝softmax(tanh(H)) (19)

下面介绍本发明的一个具体应用场景：

基于注意力反馈的图像自动语句标注方法分为训练和测试两部分。训练时，给定一系列的图像x＝{x₁，x₂，...，x_N}作为训练集，其中N是样本数量。图像x_i对应的语句表述为S_i＝{s_i，1，s_i，2，...，s_i，T}，T代表句子S_i的长度。训练过程的主要目标是让构建的模型学习一种映射，即h∶χ→S，其中S代表了所有的训练语句。我们将每一个生成语句的过程看成是一个序列产生的过程，即

测试时，将训练好的模型映射h，生成来自测试集中图片的语句标注。

正向文本生成

利用RNN处理序列的能力，即可指导每个单词的生成，从而生成完整的句子。该过程如图3所示。对于图像，本发明中采用长短期记忆模型(Long Short-Term Memory，LSTM)，按照文献中的LSTM的表达，在LSTM的t时刻该过程可以表述为：

g_t＝tanh(W_xcy_t+W_hch_t-1+W_zcz_t+b_c)， (2)

i_t＝σ(W_xiy_t+W_hih_t-1+W_ziz_t+b_i)， (3)

f_t＝σ(W_xfy_t+W_hfh_t-1+W_zfz_t+b_f)， (4)

o_t＝σ(W_xoy_t+W_hoh_t-1+W_zoz_t+b_o)， (5)

c_t＝f_t⊙c_t-1+i_t⊙g_t， (6)

h_t＝o_t⊙tanh(c_t)， (7)

s_i，t+1＝softmax(W_hh_t+b_h)， (8)

其中所有的w和b都代表待训练参数，y_t代表t时刻的输入。i_t，f_t和o_t分别代表了LSTM中的输入门、遗忘门和输出门。c_t和h_t分别表示了LSTM的记忆单元和隐藏状态。σ(x)＝1/(1+e^-x)为sigmoid激活函数。z_t代表了利用了基于文本内容的注意力的图像关注特征，其计算方式如下

其中，利用CNN从图像中提取出的特征为f_conv＝{a₁，a₂，...，a_L}，对于t步骤的时候图像中的注意力α_t＝{α_t，1，α_t，2，...，_αt，L}的第i个元素可由下式计算得出：

e_t，j＝g(a_j，h_t-1) (11)

e_t＝{e_t，1，e_t，2，...，e_t，L}代表α_t中每一个元素的能量大小，同时反映了来自图像特征f_conv和上一个隐藏状态h_t-1的信息。g(·)代表一个简单的多层感知机(Multi-LayerPerception，MLP)。

利用包含关注信息的图像特征来初始化模型，包括初始化图像中的关注区域和初始化LSTM。因为图像中初始关注区域是未知的，初始化图像中的关注区域需对每个区域进行注意力均匀初始化：

其中1代表第一个循环。利用初始化的注意力，对从图像中提取的特征f_conv进行加权可得：

在每一次循环中利用加了关注的图像特征，可以初始化LSTM的记忆单元c和隐藏状态和h：

对于图像x_i，经由正向文本生成过程，LSTM的每一步都将产生一个单词，生成句子s＝{s_i，1，s_i，2，...，s_i，T}。

生成文本反馈

在正向文本生成的过程中，图像中的某些区域会对应文本中的某几个单词，同时也存在无法很好配对的问题。即存在注意力分散和生成语句错乱问题。在此过程中，本发明提出从生成的文本中提取关键词注意力反向矫正图像注意力。

在利用LSTM生成文本的过程中，每一步的隐藏状态的集合记为H＝{h₁，h₂，...，h_T}，那么利用类似于正向生成文本时图像中注意力的计算方式，我们有在文本上的注意力β＝{β₁，β₂，...，β_T}，在β_t上的注意力计算如下

其中C_t＝g_c(h_t-1),代表每个单词的能量。g_c(·)代表一个浅层的MLP。由上述计算可以得到LSTM中每一步的隐藏状态的关注特征集合：

图像关注区域更新

利用上述从文本中提取出的关注特征，对原本的图像关注特征进行注意力矫正，该过程如图5所示。利用图像的关注特征和来自文本中的关注特征r可以计算出图像和文本的联合关注特征：

H＝W_haa_i+W_brr+b_h， (18)

重新计算图像中的注意力可得：

λ^k＝softmax(tanh(H)) (19)

本发明具有以下关键点：

(1)在利用反馈式CNN-RNN结构训练提高图像和生成文本中的关键信息的匹配程度；

(2)迭代过程中生成文本反馈，从生成的文本中提取关键词注意力反向矫正图像注意力。

本发明在Flickr8K和Flickr30K上验证我们的模型有效性。用以对比的实验方法主要包括Mind’s Eye、BRNN、Google NIC、Multimodal、Soft-Attention和Hard-attention。Mind’s Eye提出了一种双向表达方式可以从图像生成语句，也可以从语句中生成图像信息表达。BRNN利用一种多模态循环神经网络结合文本图像匹配信息来生成新的文本。GoogleNIC利用CNN从图像中提取特征结合RNN生成新的语句。Multimodal利用了多模态信息生成语句。Soft-Attention和Hard-attention都利用了注意力机制使得在生成句子的时候能集中在关键区域。

表1在Flickr8K上的实验结果对比

表2在Flickr30K上的实验结果对比

在Flickr8K数据集上，本发明的方法比对比模型有更好的效果，在BLEU-1，BLEU-2，BLEU-3，BLEU-4和METEOR指标上的循环过程Ours-f3结果分别是68.3、46.5、32.1、22.1和23.0，所有指标都比对比方法都有所提升。同样，在Flickr30K数据集上，在BLEU-1，BLEU-2，BLEU-3，BLEU-4和METEOR指标上的循环过程Ours-f3结果分别是67.5、44.5、30.0、20.3和20.1，所有指标都比对比方法都有所提升。同时，每一次的反馈过程，效果都有一定提升，这说明本发明提出的基于注意力反馈机制的图像自动语句标注模型在经过多次迭代更新图像的关注区域，同时使得图像自动语句标注过程中可以优化生成的语句。本发明在Flickr8K上对图像中的关注区域和文本中的关键字进行可视化。计算图像的关注区域时，本发明利用高斯滤波器进行上采样，放大因子(Upscale factor)为2⁴＝16。计算文本上的注意力，本发明通过比较β＝{β₁，β₂，...，β_T}，即每个单词的权重，用红色代表权重大的单词，蓝色为较大，其余为黑色。如图1所示，经由几次反馈迭代过程，图像的关注区域明显更加准确，生成语句更加通顺。

综上，本发明提出了一种基于注意力反馈机制的图像自动语句标注模型，迭代地修正图像中的关注区域、强化图像和文本中的关键信息匹配、优化生成语句。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于注意力反馈机制的图像自动语句标注方法，其特征在于，包括：

构建所述输入数据，给定一系列的图像χ＝{x₁，x₂，...，x_N}作为训练集，其中N是样本数量；图像x_i对应的语句表述为S_i＝{s_i，1，s_i，2，...，s_i，T}，T代表句子S_i的长度；

构建CNN-RNN模型，进行正向文本成；

从生成的文本中提取关键词注意力反向矫正图像注意力；

2.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法，其特征在于，输入数据为RGB三通道图像，缩放为预定大小。

3.根据权利要求2所述的基于注意力反馈机制的图像自动语句标注方法，其特征在于，所述预定大小是256*256。

4.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法，其特征在于，“构建CNN-RNN模型，进行正向文本成；”具体包括：

g_t＝tanh(W_xcy_t+W_hch_t-1+W_zcz_t+b_c)， (2)

i_t＝σ(W_xiy_t+W_hih_t-1+W_ziz_t+b_i)，(3)

f_t＝σ(W_xfy_t+W_hfh_t-1+W_zfz_t+b_f)， (4)

o_t＝σ(W_xoy_t+W_hoh_t-1+W_zoz_t+b_o)，(5)

c_t＝f_t⊙c_t-1+i_t⊙g_t， (6)

h_t＝o_t⊙tanh(c_t)， (7)

s_i，t+1＝softmax(W_hh_t+b_h)， (8)

e_t＝{e_t，1，e_t，2，...，e_t，L}

计算基于文本内容的注意力的图像关注特征z_t，带入“利用采用长短期记忆模型(LongShort-Term Memory，LSTM)处理序列的能力，指导每个单词的生成，生成完整的句子：”中计算

5.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法，其特征在于，“从生成的文本中提取关键词注意力反向矫正图像注意力；”具体包括：

6.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法，其特征在于，“利用上述从文本中提取出的关注特征，对原本的图像关注特征进行注意力矫正。”

利用图像的关注特征和来自文本中的关注特征r可以计算出图像和文本的联合关注特征：

H＝W_haa_i+W_hrr+b_h，(18)

重新计算图像中的注意力可得：

λ^k＝softmax(tanh(H)) (19)

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到6任一项所述的方法。