CN112818159B

CN112818159B - 一种基于生成对抗网络的图像描述文本生成方法

Info

Publication number: CN112818159B
Application number: CN202110206288.8A
Authority: CN
Inventors: 陆佳妮; 程帆
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-10-18
Anticipated expiration: 2041-02-24
Also published as: CN112818159A

Abstract

本发明涉及一种基于生成对抗网络的图像描述文本生成方法，包括以下步骤：1)构建用以实现对图像进行特征提取的编码器；2)对文本进行词嵌入，并构建用以生成图像描述文本的解码器；3)根据极大似然估计对由编码器和解码器共同构成的生成器进行预训练；4)构建基于卷积神经网络的判别器并进行训练；5)共同训练生成器与判别器；6)将待生成描述文本的测试图像数据输入训练好的生成器中，输出生成的描述文本。与现有技术相比，本发明具有提高生成的文本的客观评测得分、可解释性好和多样性等优点。

Description

一种基于生成对抗网络的图像描述文本生成方法

技术领域

本发明涉及人工智能方向中的计算机视觉和自然语言处理领域，尤其是涉及一种基于生成对抗网络的图像描述文本生成方法。

背景技术

随着人工智能技术的成熟，计算机视觉、自然语言处理等领域都有了飞速发展，图像描述任务要求机器可以自动为图像生成描述性的语句，因此图像描述模型需要同时具备图像理解能力和自然语言理解能力，这依赖于模型对图像表示和文本表示的获取与处理。

现有主流的图像描述方法包括以下步骤：

1)利用编码器提取出图像特征；

2)利用解码器和注意力机制，解码输入的特征，生成文本；

3)用REINFORCE这一强化学习算法进一步优化生成器。

上述图像描述生成方法框架较为简单，在步骤1)中使用的编码器通常只是一个简单的卷积神经网络，输入图像后，输出一个完整的图像特征，在这个完整特征上使用注意力机制，相当于将图像按大小相同的网格进行了划分，而一个物体被网格切分后，可能是不完整的，由此生成的描述文本是不精确的；在步骤2)中的注意力机制只用于图像特征上，没有利用好文本自身的特征，在自然语言中，句子中通常有一些连接词，它们的生成与图像本身无关；在步骤3)中只用到了强化学习算法来优化生成器，而生成对抗网络可以进一步优化生成器。图像描述生成方法单纯依靠编码器-解码器的架构和全局的注意力机制，在生成文本描述时，仍有许多不足：用词不够准确，在客观评价指标上的评分较低，提升不明显。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于生成对抗网络的图像描述文本生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于生成对抗网络的图像描述文本生成方法，包括以下步骤：

1)构建用以实现对图像进行特征提取的编码器；

2)对文本进行词嵌入，并构建用以生成图像描述文本的解码器；

3)根据极大似然估计对由编码器和解码器共同构成的生成器进行预训练；

4)构建基于卷积神经网络的判别器并进行训练；

5)共同训练生成器与判别器；

6)将待生成描述文本的测试图像数据输入训练好的生成器中，输出生成的描述文本。

所述的步骤1)中，所述的编码器为基于ResNet-101的Faster R-CNN模型，对于给定的一张图像，编码器从该图像中检测到的n个物体，将图像编码为n个目标区域的特征集合V＝{v₁,…v_i…,v_n}，其中，v_i为目标选区i经过平均池化层后的特征向量。

所述的步骤2)中，采用GloVe模型对文本进行词嵌入，得到词嵌入后的文本向量，即词嵌入表示。

所述的步骤2)中，解码器由一个双层的长短期记忆神经网络模型和两个注意力模块组成，具体包括作为第一层的注意力生成LSTM层、作为第二层的语言生成LSTM层以及设置在注意力生成LSTM层与语言生成LSTM层之间的两个用以生成视觉哨兵向量的自适应注意力模块。

所述的注意力生成LSTM层以图像I的特征表示

输入词w_t的词嵌入表示W_eΠ_t、语言生成LSTM层在t-1步的隐藏层状态

为输入，输出为第一视觉哨兵向量

第二视觉哨兵向量

以及注意力生成LSTM层在第t步的隐藏层状态

所述的自适应注意力模块包括用以生成语境向量c_t的第一自适应注意力模块以及用以生成目标区域集合转移信号δ_t的第二自适应注意力模块，所述的第一自适应注意力模块以第一视觉哨兵向量

和特征集合

为输入，所述的第二自适应注意力模块以第二视觉哨兵向量

和特征集合

为输入，所述的语言生成LSTM层以注意力生成LSTM层当前的隐藏层状态

和语境向量c_t为输入，输出为生成词y_t的概率分布，其中，图像I的特征表示

具体为编码器输出的特征集合V中元素的均值，W_e为GloVe的模型在词典Σ上的词嵌入矩阵，Π_t为输入词w_t的独热编码。

所述的特征集合v_t具体为目标区域集合r_t的特征集合，r_t为集合R＝{r₁,…,r_N}中的指针在第t步指向的元素，该指针由目标区域集合转移信号δ_t控制，则有：

其中，k为解码器的步数，第0步的目标区域集合转移信号δ₀默认值为0，N为集合R的大小，即包含目标区域集合r_i的个数。

所述的步骤3)中，采用计划采样的方法对生成器进行预训练，在训练过程中，生成器的预训练目标为最小化损失函数，生成器的损失函数L_G(θ)由预测出的生成词y_t与真实的词

之间的交叉熵损失L_w(θ)以及预测出的目标区域集合转移信号δ_i与真实值

之间的交叉熵损失L_δ(θ)构成。

所述的步骤4)中，以生成器生成的文本、真实的文本以及真实的图像的拼接向量作为判别器的输入，并引入高速网络提升性能。

所述的步骤5)具体包括以下步骤：

51)根据训练集中给出的图像I以及预训练后的生成器G_θ生成的文本y_1:T构成图像文本对{(I,y_1:T)}；

52)采用预训练后的判别器D_φ对生成的文本进行评分，并采用评分p∈[0,1]表示这些文本是真实文本的概率；

53)通过客观指标评价模块得到对生成的文本的评分s，所述的客观指标评价模块采用CIDEr-D作为客观评价指标；

54)结合评分p和评分s给出奖励值r＝λ·p+(1-λ)·s，λ为可调的超参数；

55)采用REINFORCE强化学习算法更新生成器的参数θ，并采用奖励值r作为收益，基线算法选择用贪婪算法生成的文本序列；

56)根据训练集中给出的图像I，更新参数后的生成器G_θ重新生成文本y_1:T；

57)根据训练集中给出的图像I，判别器的损失函数考虑三类文本，即与图像I相关的正确真实文本

生成器生成的文本y_1:T以及与I无关的错误真实文本

更新判别器的参数φ；

58)返回步骤51)，继续下一次生成对抗网络的过程，直到生成器和判别器收敛。

在测试过程中采用集束搜索，且集束大小取值为5。

与现有技术相比，本发明具有以下优点：

一、本发明将强大的目标检测模型Faster-RCNN作为编码器，输出检测到的目标区域的特征作为图像的特征，使得生成器在生成描述性文本时可以更好地关注到物体本身，提升了编码器的编码效果。

二、本发明在解码器部分用到了双层的LSTM模型，并且加入了两个自适应的注意力模块，一个注意力模块用于决定模型当前应该生成“可视词”还是“文本词”，另一个注意力模块用于决定模型是否已经描述完当前的目标区域集合，是否应该描述下一个目标区域集合，使得解码器生成的文本更加流畅，并且具有良好的可解释性。

三、本发明不仅使用REINFORCE强化学习算法优化生成器，还引入了基于CNN的判别器，用到了生成对抗网络的训练过程，以CIDEr-D这一客观评价指标作为优化目标，提升了生成器生成的文本在BLEU、ROUGE-L、METEOR、CIDEr、SPICE等一系列客观评价指标上的评分，使得文本更加精准。

附图说明

图1为本发明的方法流程示意图。

图2为解码器结构示意图。

图3为与编码器共同训练时生成器的参数更新示意图。

具体实施方式

下面结合附图和具体实施例对本发明实施例中的技术方案进行清楚、完整的描述。

实施例

本方法主要采用Pytorch实现，如图1所示，本发明提供一种基于生成对抗网络的图像描述文本生成方法，包括以下步骤：

1)将目标检测模型作为编码器，提取出图像的特征。编码器是目标检测模型Faster R-CNN，图像数据经过Faster R-CNN模型得到一个区域特征集合、包围盒的集合以及每个区域的类别Softmax概率分布。

Faster R-CNN模型搭建于ResNet-101上，ResNet-101是在ImageNet数据集上进行分类训练的预训练模型，将Faster R-CNN在Visual Genome数据集上进行训练，在对目标分类时用到了1600个类别标签和1个背景标签，共计1601类，对于候选区域的非极大值抑制算法，区域面积重叠率(Intersetction Over Union，IOU)阈值设定为0.7，选择区域时的类别检测置信度阈值为0.5，给定一张图像I，Faster R-CNN从I中检测到的n个物体，将图像编码为n个目标区域的特征集合V＝{v₁,…,v_n},

对于每个特定的目标选区i，v_i为该区域经过平均池化层后的特征向量，维度D是2048维。

2)对文本进行词嵌入，将包含注意力模块的长短期记忆神经网络作为解码器，根据图像生成文本描述。

词嵌入步骤主要包括清洗文本、建立词典Σ和词嵌入三步，限定句子的最大长度为20，去除词频低于5次的词，建立词典，并且在词典中引入四个特殊的符号：开始符号<bos>，结束符号<eos>，未知符号<unk>和填充符号<pad>。开始符号<bos>用于标记一句句子的开始；结束符号<eos>用于标记一句句子的结束；未知符号<unk>用于标记没有在词典中出现过的词；填充符号<pad>在小批次(mini-batch)训练时，将同一批次的所有句子按照该批次中最长的句子补齐成同一长度。用GloVe模型对单词进行词嵌入，词嵌入后的向量大小为300维。

解码器是一个双层的长短期记忆神经网络(Long Short-Term Memory，LSTM)模型，两层LSTM层之间包含两个自适应的注意力模块，整体结构如图2所示。第一层是注意力生成LSTM层，为两个注意力模块产生视觉哨兵向量，它的输出连接到两个注意力模块和第二层LSTM层；第二层是语言生成LSTM层，用于生成词y_t的概率分布。两个LSTM层的隐藏层大小都为1000。用

分别表示注意力生成LSTM层、语言生成LSTM层在第t步的隐藏层状态。

注意力生成LSTM层的输入

有三个：图像I的特征表示

输入词w_t的词嵌入表示W_eΠ_t、语言生成LSTM层在前一步的隐藏层状态

图像I的特征表示

为编码器输出的特征集合V中元素的均值；输入词w_t的词嵌入表示是GloVe的模型在词典Σ上的词嵌入矩阵

和输入词w_t的独热编码Π_t的乘积W_eΠ_t。因此，

在第t步时，注意力生成LSTM层的隐藏层状态更新公式为：

两个注意力模块都是自适应注意力模块，一个模块负责产生语境向量c_t，另一个模块负责产生目标区域集合转移信号δ_t，自适应注意力模块可以看作是一个单层的全连接神经网络，输入512维，输出1维，后面连接了一个Softmax函数。两个注意力模块的输入都有一个特征集合

V为Faster-RCNN检测到的所有目标区域的特征集合，v_t为目标区域集合r_t的特征集合，r_t为集合R＝{r₁,…,r_N}中的指针在第t步指向的元素，指针由目标区域集合转移信号δ_t控制，则r_t的表达式为：

负责产生语境向量c_t的注意力模块的输入为特征集合v_t以及注意力生成LSTM层输出的视觉哨兵向量

视觉哨兵向量

由注意力生成LSTM层根据输入向量

前一步的隐藏层状态

以及此刻内部的存储单元状态

计算得到：

其中，W_ic和W_hc为模型需要学习的参数，⊙表示元素乘积，σ(·)表示Sigmoid函数，α_t为在特征集合v_t上的注意力权重分布，则有：

这里的

是一个行向量，它和W_sr、W_sc、W_g都是模型需要学习的参数，

是元素值全为1的向量，k为r_t中目标区域的数量，语境向量c_t表示此时模型应该关注的区域的特征表示，作为语言生成LSTM层的输入之一。

负责产生目标区域集合转移信号δ_t的注意力模块的输入为特征集合v_t以及注意力生成LSTM层输出的视觉哨兵向量

的生成与

的生成相类似：

其中，W_iδ和W_hδ是模型需要学习的另一组权重参数，从一个目标区域集合转移到另一个目标区域集合(δ_t＝1)的概率可以被定义为在视觉哨兵向量

和目标区域集合r_t上注意到

的概率：

表示是向量

中的第i个元素，W_*是模型需要学习的权重参数。

语言生成LSTM层在第t步的隐藏层状态更新为：

最终，语言生成LSTM层输出词y_t的概率分布：

y_1:t-1表示y₁,…,y_t-1，W_o为模型需要学习的权重参数。

3)根据极大似然估计，对生成器进行预训练。生成器是步骤1)的编码器和步骤2)的解码器的组合。生成器的损失函数L_G(θ)由两部分组成：一部分是预测出的词y_t与真实的词

的交叉熵损失L_w(θ)，另一部分是预测出的目标区域集合转移信号δ_i与真实值

的交叉熵损失L_δ(θ)，权重取值为λ_w＝1，λ_δ＝4：

L_G(θ)＝λ_wL_w(θ)+λ_δL_δ(θ)

生成器的预训练目标是最小化损失函数。预训练时用到了计划采样的方法，在第t步预测时，解码器的输入词w_t有p的概率选择前一个真实的词

有1-p的概率选择前一步预测的词y_t。p初始时为1，进行线性衰减，每三次完整训练后，衰减0.05，最终不小于0.5。用Adam作为优化器，初始学习率为5×10^-4，每三次完整训练后，学习率衰减0.8，总共预训练25次。

4)将生成器生成的文本、真实的文本、真实的图像输入判别器，对判别器进行预训练。判别器基于卷积神经网络(Convolution Neural Network，CNN)，输入为图像I的特征表示

和完整的描述语句{w₁,…,w_T}的词嵌入的拼接ε：

为水平拼接操作，

为编码器输出的特征集合V中元素的均值，

是普通的词嵌入矩阵，Π_i为输入词w_i的独热编码。最终生成的矩阵大小为

d选择为2048，使用大小为d×l的卷积核

后得到特征向量：c＝[c₁,c₂,…,c_T-l+2]，其中c_i＝ReLU(κ*ε_i:i+l-1+b)，使用基于时间的最大池化层得到

在最终的全连接层前加入高速网络结构：

其中，W_T、W_H是高速网络的权重，b_T、b_H是高速网络的偏差，⊙是分段乘积操作。最终，使用一个全连接层和Sigmoid操作得到概率值p，表示给定图像I的情况下，一段话是正确文本的概率：

W_o和b_o分别是输出层的权重和方差。

对于一张图像I，判别器的损失函数考虑三类文本：与I相关的正确真实文本

生成器生成的文本y_1:T、与I无关的错误真实文本

它们与图像I构成三个样本对集合：

判别器的损失函数L_D(φ)由三部分构成：

判别器的预训练目标为最小化损失函数。使用Adam作为优化器，初始学习率为1×10^-3，预训练10次。

5)共同训练生成器与判别器。

生成器与判别器共同训练时，生成器的参数更新如图3所示。生成器与判别器共同训练的具体过程如下：

51)根据训练集中给出的图像I，预训练后的生成器G_θ生成文本y_1:T，构成图像文本对{(I,y_1:T)}；

52)预训练后的判别器D_φ对生成的文本进行评分，用p∈[0,1]表示这些文本是真实文本的概率；

53)客观指标评价模块对生成的文本给出评分s；客观指标是CIDEr-D.

54)综合52)的评分和53)给出的评分，给出奖励值r＝λ·p+(1-λ)·s，λ为可调的超参数；这里设置λ为0.3.

55)用REINFORCE这一强化学习算法来更新生成器的参数θ；REINFORCE将生成文本序列的过程看作一个强化学习问题：解码器(智能体)根据当前模型的参数θ(策略p_θ)，与图像特征、当前的文本特征、区域集合(环境)交互，生成下一个词(动作)，采用步骤54)的奖励值r作为收益，记作r_C(·)，强化学习优化的目标为最小化负的收益函数的期望，梯度函数写为：

是抽样出的一个样本，用于近似y_1:T；

是抽样出的一个样本，用于近似δ_1:T。基线收益函数b选择的是贪婪算法生成的文本序列

的收益

57)根据训练集中给出的图像I，判别器的损失函数考虑三类文本：与I相关的正确真实文本

生成器生成的文本y_1:T、与I无关的错误真实文本

更新判别器的参数φ，判别器参数更新时的损失函数仍然为：

6)将测试的图像数据输入训练好的生成器中，输出生成的文本。测试过程中用到了集束搜索这个启发式的图搜索算法，集束大小取值为5。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于生成对抗网络的图像描述文本生成方法，其特征在于，包括以下步骤：

1)构建用以实现对图像进行特征提取的编码器，所述的编码器为基于ResNet-101的Faster R-CNN模型，对于给定的一张图像，编码器从该图像中检测到的n个物体，将图像编码为n个目标区域的特征集合V＝{v₁,…v_i…,v_n}，其中，v_i为目标选区i经过平均池化层后的特征向量；

2)对文本进行词嵌入，并构建用以生成图像描述文本的解码器，解码器由一个双层的长短期记忆神经网络模型和两个注意力模块组成，具体包括作为第一层的注意力生成LSTM层、作为第二层的语言生成LSTM层以及设置在注意力生成LSTM层与语言生成LSTM层之间的两个用以生成视觉哨兵向量的自适应注意力模块，

所述的注意力生成LSTM层的输入向量

包括图像I的特征表示

输入词w_t的词嵌入表示W_eΠ_t以及语言生成LSTM层在t-1步的隐藏层状态

图像I的特征表示

为编码器输出的特征集合V中元素的均值，输入词w_t的词嵌入表示W_eΠ_t为GloVe的模型在词典Σ上的词嵌入矩阵W_e和输入词w_t的独热编码Π_t的乘积W_eΠ_t，则有

在第t步时，注意力生成LSTM层的隐藏层状态更新公式为

输出为第一视觉哨兵向量

第二视觉哨兵向量

以及注意力生成LSTM层在第t步的隐藏层状态

和特征集合

为输入，所述的第二自适应注意力模块以第二视觉哨兵向量

和特征集合

为输入，所述的特征集合v_t为目标区域集合r_t的特征集合，目标区域集合r_t为集合R＝{r₁,…,r_N}中的指针在第t步指向的元素，指针由目标区域集合转移信号δ_t控制，则目标区域集合r_t的表达式为：

其中，k为解码器的步数，第0步的目标区域集合转移信号δ₀默认值为0，N为集合R的大小，即包含目标区域集合r_i的个数；

第一视觉哨兵向量

由注意力生成LSTM层根据输入向量

前一步的隐藏层状态

以及此刻内部的存储单元状态

计算得到，则有：

其中，

为一个行向量，其与W_sr、W_sc、W_g均为模型需要学习的参数，

是元素值全为1的向量，k为目标区域集合r_t中目标区域的数量，语境向量c_t表示此时模型应该关注的区域的特征表示，作为语言生成LSTM层的输入之一；

第二自适应注意力模块的输入为特征集合v_t以及注意力生成LSTM层输出的视觉哨兵向量

则有：

其中，W_iδ和W_hδ为模型需要学习的权重参数，从一个目标区域集合转移到另一个目标区域集合(δ_t＝1)的概率被定义为在视觉哨兵向量

和目标区域集合r_t上注意到

的概率，则有：

其中，

为向量

中的第i个元素，W_*为模型需要学习的权重参数；

所述的语言生成LSTM层以注意力生成LSTM层当前的隐藏层状态

和语境向量c_t为输入，输出为生成词y_t的概率分布，语言生成LSTM层在第t步的隐藏层状态更新为：

则语言生成LSTM层输出词y_t的概率分布为：

其中，y_1:t-1表示y₁,…,y_t-1，W_o为模型需要学习的权重参数；

3)根据极大似然估计对由编码器和解码器共同构成的生成器进行预训练，采用计划采样的方法对生成器进行预训练，在训练过程中，生成器的预训练目标为最小化损失函数，生成器的损失函数L_G(θ)由预测出的生成词y_t与真实的词

之间的交叉熵损失L_δ(θ)这两部分构成，则有：

L_G(θ)＝λ_wL_w(θ)+λ_δL_δ(θ)

其中，λ_w、λ_δ为权重取值；

4)构建基于卷积神经网络的判别器并进行训练，以生成器生成的文本、真实的文本以及真实的图像的拼接向量作为判别器的输入，并引入高速网络提升性能具体为：

所述的判别器基于卷积神经网络，输入为图像I的特征表示

和完整的描述语句{w₁,…,w_T}的词嵌入的拼接ε，则有：

其中，

为水平拼接操作，

为编码器输出的特征集合V中元素的均值，

为普通的词嵌入矩阵，Π_i为输入词w_i的独热编码，采用大小为d×l的卷积核

后得到特征向量c＝[c₁,c₂,…,c_T-l+2]，其中c_i＝ReLU(κ*ε_i:i+l-1+b)，使用基于时间的最大池化层得到

在最终的全连接层前加入高速网络结构，则有：

其中，W_T、W_H为高速网络的权重，b_T、b_H为高速网络的偏差，⊙为分段乘积操作，最终，使用一个全连接层和Sigmoid操作得到概率值p，表示给定图像I的情况下，一段话是正确文本的概率p，则有：

其中，W_o和b_o分别为输出层的权重和方差；

5)共同训练生成器与判别器，具体包括以下步骤：

55)采用REINFORCE强化学习算法更新生成器的参数θ，并采用奖励值r作为收益，基线算法选择用贪婪算法生成的文本序列，具体为：

解码器根据当前模型的参数θ，与图像特征、当前的文本特征、区域集合交互，生成下一个词，采用步骤54)的奖励值r作为收益，记作r_C(·)，强化学习优化的目标为最小化负的收益函数的期望，梯度函数为：

其中，

为抽样出的一个样本，用于近似y_1:T，

为抽样出的一个样本，用于近似δ_1:T，基线收益函数b选择的是贪婪算法生成的文本序列

的收益

生成器生成的文本y_1:T以及与I无关的错误真实文本

更新判别器的参数φ，判别器参数更新时的损失函数为：

58)返回步骤51)，继续下一次生成对抗网络的过程，直到生成器和判别器收敛；

2.根据权利要求1所述的一种基于生成对抗网络的图像描述文本生成方法，其特征在于，所述的步骤2)中，采用GloVe模型对文本进行词嵌入，得到词嵌入后的文本向量，即词嵌入表示。

3.根据权利要求1所述的一种基于生成对抗网络的图像描述文本生成方法，其特征在于，在测试过程中采用集束搜索，且集束大小取值为5。