CN109726696B

CN109726696B - 基于推敲注意力机制的图像描述生成系统及方法

Info

Publication number: CN109726696B
Application number: CN201910004805.6A
Authority: CN
Inventors: 宋井宽; 樊凯旋; 高联丽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2023-04-07
Anticipated expiration: 2039-01-03
Also published as: CN109726696A

Abstract

本发明涉及图像理解领域，其公开了一种基于推敲注意力机制的图像描述生成系统及方法，解决现有图像描述方案存在的缺少润色过程、训练和测试过程不一致、生成描述辨识度不高的问题。该方法包括：a.数据集的处理：提取图像的全局特征和局部特征，构建数据集，对数据集中的单词进行标记，生成对应的词嵌入向量；b.训练图像描述生成模型：采用第一层基于残差注意力机制的解码器生成粗略的图像描述，采用第二层基于残差注意力机制的解码器对已生成的图像描述进行润色；c.结合强化学习进一步训练模型：在训练过程中模拟模型的测试过程，并且以生成描述的CIDEr分数来引导模型的训练，结合强化学习对模型进行调整。

Description

基于推敲注意力机制的图像描述生成系统及方法

技术领域

本发明涉及图像理解领域，具体涉及基于推敲注意力机制的图像描述生成系统及方法。

背景技术

图像描述的任务是：给定一张图片，自动生成对应的自然语言描述。生成的句子要求流畅，并且可以描述图片中的对象和场景。该研究方向可以应用于很多方面。例如：帮助盲人理解图片的内容。

传统的图像描述模型一般采用编码器-解码器框架结合注意力机制。该框架已经取得了很好的效果。但是其仍然存在以下缺陷：

首先，传统模型的训练和测试过程是通过一个解码器生成描述作为最终的结果。这种方式缺少润色过程，所以生成的图像描述不准确。

其次，编码器-解码器框架存在训练测试过程数据流不一致的问题：在训练过程中，给定源序列，模型逐字生成目标序列。但是在测试过程中，由于源序列是不可知的。那么模型就只能根据之前生成的单词来预测下一个单词。但是已生成的单词中存在的微小错误可能在信息流中被不断放大。

另外，传统的模型只关注生成描述的准确性，所以目标函数只判断生成的描述和真实的描述是否匹配。这种目标函数会忽略相似图片对应的描述之间的区别，所以会导致模型生成的描述辨识度不高。

发明内容

本发明所要解决的技术问题是：提供一种基于推敲注意力机制的图像描述生成系统及方法，解决现有图像描述方案存在的缺少润色过程、训练和测试过程不一致、生成描述辨识度不高的问题。

本发明解决上述技术问题所采用的技术方案是：

基于推敲注意力机制的图像描述生成系统，包括：

编码器、基于推敲注意力机制的解码器和增强学习模块；

所述编码器，用于采用预训练好的ResNet-101来提取图像的全局特征，结合预训练好的Faster R-CNN和ResNet-101来提取局部特征；

所述基于推敲注意力机制的解码器，包括两层基于残差注意力机制的解码器，其中，第一层解码器用于生成粗略的图像描述，第二层解码器应用校正的过程来润色第一层解码器已生成的图像描述；

所述增强学习模块，用于在训练过程中模拟模型的测试过程，并且以生成描述的CIDEr分数来引导模型的训练，结合强化学习对模型进行调整。

此外，本发明还提供了一种应用于上述系统的基于推敲注意力机制的图像描述生成方法，其包括以下步骤：

a.数据集的处理：

提取图像的全局特征和局部特征；构建数据集，对数据集中的单词进行标记，生成对应的词嵌入向量；

b.训练图像描述生成模型：

采用第一层基于残差注意力机制的解码器生成粗略的图像描述，采用第二层基于残差注意力机制的解码器对已生成的图像描述进行润色；

c.结合强化学习进一步训练模型：

在训练过程中模拟模型的测试过程，并且以生成描述的CIDEr分数来引导模型的训练，结合强化学习对模型进行调整。

作为进一步优化，步骤a中，用于采用预训练好的ResNet-101来提取图像的全局特征，结合预训练好的Faster R-CNN和ResNet-101来提取局部特征。

作为进一步优化，步骤a中，所述对数据集中的单词进行标记，生成对应的词嵌入向量，具体包括：根据数据集中单词出现频率的顺序，为每一个单词标上序号作为每个单词的独热编码，以生成对应的词嵌入向量。

作为进一步优化，步骤b具体包括：

将图像的全局特征和描述中单词对应的词嵌入向量输入第一层基于残差注意力的解码器，解码器中的递归神经网络计算隐藏状态，通过隐藏状态计算注意力权重，并加权到图像的局部特征；加权后的局部特征和隐藏状态被输入到第二层基于残差注意力的解码器中执行类似操作，第二层基于残差注意力的解码器生成的隐藏状态和被加权的局部特征输入到归一化指数函数来预测下一个单词；重复上述的步骤，直到生成结束符即可得到一个完整的描述。

作为进一步优化，步骤b中，在计算获得隐藏状态后，通过残差连接结合词嵌入向量和隐藏状态。

作为进一步优化，步骤c具体包括：

利用图像的全局特征和RNN提取的描述特征，通过计算两个特征的相似度，训练一个检索模型；

将训练的图像描述生成模型生成的描述输入检索模型,获取检索图像，通过计算检索图像与训练图像的全局特征之间的相似度，计算对比损失函数CL；

根据训练的图像描述生成模型生成的描述和真实描述计算图像描述评价CIDER；

将CL和CIDER作为奖赏，结合强化学习进一步优化图像描述生成模型。

本发明的有益效果是：

1.生成更加具有辨识度的图像描述：本发明结合了传统的图像描述生成模型和图像文字检索模型，图像描述生成模型得到的自然语言描述用于检索图像。这样的训练过程使得模型不仅关注描述的准确性，同时也关注描述的辨识度，从而准确的检索到原图像。

2.生成的图像描述更加准确：本发明采用了推敲的思想设计了两个解码器，第一个解码器生成粗略的描述，第二个解码器对粗略的描述进行润色生成更加准确的描述，从而提高最终生成描述的准确性。

3.一定程度上缓解了训练和测试过程不一致的问题：本发明中的增强学习模块在训练过程中模拟模型的测试过程，并且以生成描述的CIDEr分数来引导模型的训练。这样的训练方式可以使模型在一定程度上保持训练和测试过的一致性。

附图说明

图1为本发明中基于推敲注意力机制的图像描述生成方法的原理图。

具体实施方式

本发明旨在提供一种基于推敲注意力机制的图像描述生成系统及方法，解决现有图像描述方案存在的缺少润色过程、训练和测试过程不一致、生成描述辨识度不高的问题。

本发明中的基于推敲注意力机制的图像描述生成系统，包括：编码器、基于推敲注意力机制的解码器和增强学习模块三个部分。下面对各个部分进行具体介绍：

①编码器，是图像描述生成模型中的重要组成部分。编码器一般用来提取图像的视觉信息。卷积神经网络一般用来提取图像的全局特征。针对特定的对象，基于R-CNN提取的局部特征比卷积神经网络提取的全局特征包含更加丰富的信息。在本发明中，我们采用预训练好的ResNet-101来提取图像的全局特征，结合预训练好的Faster R-CNN和ResNet-101来提取局部特征。其中每张图片，我们提取36个局部特征，对应图片中的36个不同的区域。

②基于推敲注意力机制的解码器，其中包括两层基于残差注意力机制的解码器。第一层用来生成粗略的图像描述，第二层应用校正的过程来润色已生成的描述。两层解码器都是基于基础的LSTM设计的，LSTM的结构定义如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

g_t＝σ(W_gx_t+U_gh_t-1+b_g)

m_t＝f⊙m_t-1+i_t⊙g_t

h_t＝o_t⊙φ(m_t)

在第t步中，x_t和h_t分别表示LSTM的输入和输出。我们用以下的公式表示LSTM的计算过程：

h_t＝LSTM(x_t,h_t-1)

第一层解码器：

我们利用基础的LSTM搭建第一层解码器来生成一个初始的文本序列特征。我们定义LSTM的输入如下：

其中，v₀表示图片的全局特征，

表示第二层LSTM上一步的输出，w_t表示当前单词对应的词嵌入向量。显然，当前的状态信息是基于图像的全局特征、上一步的状态信息和第t个单词计算得出的。我们还使用来自第二层LSTM的

来获取更加准确的信息，从而引导当前状态信息的学习。然后，我们可以得到：

按照传统的做法，LSTM的状态信息是被直接用来指导计算注意力权重的。我们在这里采用了残差连接，提供单词的信息来避免梯度消失问题：

其中，

表示第t步的状态信息，W_rd是需要学习的参数，[；]表示串联操作。

给定L个局部的图像特征{v₁,…,v_L}和上下文信息

我们的目的是通过定义以下的注意力机制，选择性的关注特定区域的图像特征：

其中，

W_v1、W_h1是需要学习的参数。

是一个中间变量。

是一个长度为L的向量，表示注意力权重。这些权重被加权到每一个局部的图像特征：

其中

表示表示加权的特征，可以和

一起，生成第t个单词。

第二层解码器：

如果只用第一层解码器的结果，模型可以生成粗略的描述。在这里我们设计了第二层解码器来实现对第一层生成描述的推敲过程。首先，我们在LSTM中定义一个视觉标记：

其中，W_x和W_h是需要学习的参数。⊙是逐元素相乘。σ是sigmoid激活函数。输入如下：

然后，我们就可以从LSTM得到

和s_t。我们根据以上输出计算注意力权重，从而决定在什么时候关注视觉或是上下文信息：

其中，

W_v2、W_h2、W_s、W_h3是需要学习的参数，

是对应于局部图像特征和上下文信息的权重。最后，我们得到加权结果：

其中，v_L+1就是上文中提到的视觉标记s_t。然后我们结合两层解码器的输出和加权之后的特征，用softmax来计算第t个单词的概率：

其中，W_sd是需要学习的参数。

③增强学习模块，本发明中，我们分两步训练模型。首先用MLE损失函数来预训练模型，然后结合强化学习对模型进行调整。

MLE损失函数定义如下：

其中，θ是模型中需要学习的参数，

是数据集中的真实描述。

在强化学习应用到图像描述生成中，CIDEr最常被用作奖励函数。本发明中，为了提高生成描述的辨识度，我们在奖励函数中加入了contrastive损失函数(CL)。

在CL的模型中，我们取全局图像特征v₀和用RNN提取的语句特征c₀作为输入。然后，我们将两个特征映射到同一空间中：

然后我们用余弦相似度来计算图像和描述之间的相似度：

根据上述的相似度，我们定义CL：

其中，[x]₊≡max(x,0)，(c,I)是相匹配的语句-图片对，(I,c′)、(I′,c)是不匹配的语句-图片对。

我们用以上定义的CL结合CIDEr来定义reinforcement learning中的奖励函数：

对应的梯度计算如下：

其中

是通过对第二层解码器中softamx的输出采样得到的描述，c^*是通过模拟模型的测试过程得到的描述。

表示生成

对应的可能性。

本发明中基于推敲注意力机制的图像描述生成方法的原理如图1所示，其包括：

步骤一、数据集的处理：

首先提取图像全局特征：将图像输入预训练好的ResNet-101模型中，取pool5的输出作为全局图像特征(2048维)。

然后提取局部特征，将图像输入预训练好的Faster R-CNN得到36个边框，然后将对应区域的图像输入ResNet-101，取pool5的输出可以得到36个2048维的特征作为局部特征。

最后构建数据集，统计数据集中出现频率五次以上的单词。根据频率的顺序，为每一个单词标上序号作为每个单词的独热编码，独热编码用来生成对应的词嵌入向量。

步骤二、训练一个图像描述生成模型(对应图1中的推敲注意力网络)。

将图像的全局特征和描述中单词对应的词嵌入向量输入图1中的第一层基于残差注意力的解码器，解码器中的递归神经网络计算隐藏状态。本发明利用残差连接结合词嵌入向量和隐藏状态。随后，注意力权重由隐藏状态计算得到，并加权到图像的局部特征。加权后的局部特征和隐藏状态输入到图1中的第二层残差注意力解码器执行类似的操作，以达到对第一层输出的润色过程。第二层残差注意力生成的隐藏状态和被加权的局部特征输入到归一化指数函数来预测下一个单词。重复上述的步骤，直到生成结束符即可得到一个完整的描述。此步骤利用交叉熵目标函数来引导模型的训练。

步骤三、结合强化学习进一步训练模型：

利用训练图像的全局特征和RNN提取的描述特征，通过计算两个特征的相似度，训练一个检索模型，将描述输入模型可以检索到对应的图像；本发明利用预训练的推敲注意力网络生成描述，将生成的描述输入检索模型，通过检索模型输出推敲注意力网络生成的描述所对应的检索图像，通过计算检索图像和训练图像的全局特征之间的相似度来计算上文所述的对比损失函数，然后根据生成的描述和真实描述计算CIDEr(图像描述评价)。本发明将CL和CIDEr作为奖赏，结合强化学习进一步优化图像描述生成模型。

Claims

1.基于推敲注意力机制的图像描述生成方法，应用于基于推敲注意力机制的图像描述生成系统中，所述系统包括编码器、基于推敲注意力机制的解码器和增强学习模块；

所述增强学习模块，用于在训练过程中模拟模型的测试过程，并且以生成描述的CIDEr分数来引导模型的训练，结合强化学习对模型进行调整；

其特征在于，该方法包括以下步骤：

a.数据集的处理：

b.训练图像描述生成模型：

c.结合强化学习进一步训练模型：

在训练过程中模拟模型的测试过程，并且以生成描述的CIDEr分数来引导模型的训练，结合强化学习对模型进行调整；

步骤b具体包括：

2.如权利要求1所述的方法，其特征在于，

步骤a中，用于采用预训练好的ResNet-101来提取图像的全局特征，结合预训练好的Faster R-CNN和ResNet-101来提取局部特征。

3.如权利要求1所述的方法，其特征在于，

步骤a中，所述对数据集中的单词进行标记，生成对应的词嵌入向量，具体包括：根据数据集中单词出现频率的顺序，为每一个单词标上序号作为每个单词的独热编码，以生成对应的词嵌入向量。

4.如权利要求1所述的方法，其特征在于，

步骤b中，在计算获得隐藏状态后，通过残差连接结合词嵌入向量和隐藏状态。

5.如权利要求1所述的方法，其特征在于，

步骤c具体包括：