CN115953779B

CN115953779B - 基于文本对抗生成网络的无监督图像描述生成方法

Info

Publication number: CN115953779B
Application number: CN202310198396.4A
Authority: CN
Inventors: 郝艳宾; 于佳睿; 徐童; 何向南
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-06-16
Anticipated expiration: 2043-03-03
Also published as: CN115953779A

Abstract

本发明公开了一种基于文本对抗生成网络的无监督图像描述生成方法，其步骤包括：1、对图像数据库进行图像特征提取，对辅助文本库进行文本数据清洗；2、构建基于语言‑图像对比学习预训练模型的文本对抗生成网络；3、构造图像特征‑图像描述伪标签，并利用伪标签训练生成器进行预热；4、使用自批判的强化学习驱动的对抗学习方式训练构建的网络模型；5、使用训练好的生成网络进行推断，实现无监督的图像描述生成。本发明能充分利用语言‑图像对比学习预训练模型CLIP的能力实现图像信息的提取，并能在没有人工成对标注的情况下进行自主训练，从而能显著提升无监督图像描述生成质量。

Description

基于文本对抗生成网络的无监督图像描述生成方法

技术领域

本发明属于计算机视觉和自然语言处理技术领域，具体的说是一种基于文本对抗生成网络的无监督图像描述生成方法。

背景技术

图像描述生成是计算机视觉和自然语言处理领域的重要课题，在图像索引，人机交互及视障人士的生活辅助等方面具有广泛的应用。传统的图像描述生成是有监督的，依赖人工标注的图像-描述对，然而大规模，高质量的标注数据受到成本因素限制而难以获取。因此，研究者们提出了无监督的图像描述生成方法。传统的无监督图像描述生成方法大致可以分为以下三类：基于目标检测器，基于场景图生成器，基于中介语言图像描述器的方法。基于目标检测器的方法首先训练模型利用文本库中的实体名称生成文本，然后检测图像中出现的实体，最后将实体作为模型输入进行图像描述。基于场景图生成器的方法首先训练模型从文本中建立的场景图重建文本，然后生成图像对应的场景图，最后将场景图作为模型输入进行图像描述。基于中介语言图像描述器的方法首先利用中介语言图像描述器生成中介描述，然后再利用翻译器翻译到指定的语言。然而，基于目标检测器和场景图生成的方法需要图像信息提取或中间结果预测，如目标检测和场景图生成，而且中间结果不够准确和全面，带来误差累积。而基于中介语言图像描述器的方法需要假定已经存在一个中介语言图像描述器，这大大限制了该方法的使用场景。

近年来，随着语言-图像对比学习预训练技术的兴起，显示出优异的语言-图像对齐性能。研究者们将语言-图像对比学习预训练模型CLIP应用到图像文字描述领域中，然而目前CLIP的应用局限于使用CLIP的图像编码器提取图像特征或使用CLIP筛选高质量的伪标签，没有对CLIP进行充分的挖掘和利用。总体而言，如何实现无需复杂图像信息提取和能够充分利用语言-图像对比学习预训练模型CLIP的无监督图像描述生成还是一个未解决的问题。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于文本对抗生成网络的无监督图像描述生成方法，以期能克服现有方法的图像处理复杂，误差累积和场景局限等问题，并能充分利用语言-图像对比学习预训练模型CLIP的能力实现图像的信息提取，从而能显著提升无监督图像描述生成质量。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于文本对抗生成网络的无监督图像描述生成方法的特点在于，是按如下步骤进行：

步骤1、获取训练数据，包括：图像集和辅助文本库；

利用语言-图像对比学习预训练模型CLIP中的图像特征提取器CLIP-ImageEncoder对所述图像集中的N张图像进行特征提取，得到图像特征集合{e ^I _i|i∈[1,N]}，其中，e ^I _i表示第i张图像的特征；N表示图像总数；

对所述辅助文本库中的M个句子进行文本数据清洗，得到清洗后的文本库{S _j|j∈[1,M]}，其中，S _j表示第j个句子；

步骤2、构建图像描述生成器G，是由K个提示生成器和一个基于GPT-2语言生成模型的解码器构成；其中，所述提示生成器由H个线性层构成，前H-1个线性层后分别连接一个tanh激活函数；

K个提示生成器分别将第i张图像的特征e ^I _i转化K个提示向量后，输入所述基于GPT-2语言生成模型的解码器中进行处理，并输出解码后的句子C _i；

步骤3、利用语言-图像对比学习预训练模型CLIP中的文本特征提取器CLIP-TextEncoder对第j个句子S _j进行特征提取，得到文本特征e ^S _j；

步骤4、构建文本-图像特征转换器，包括Q层线性层，并利用最后一层的残差连接层将Q层线性层的输入和输出进行连接；

所述文本-图像特征转换器对文本特征e ^S _j进行处理，得到虚拟图像表征e ^F _j；

步骤5、由文本特征e ^S _j和第j个句子S _j构造一对特征-图像描述伪标签，由虚拟图像表征e ^F _j和第j个句子S _j构造另一对特征-图像描述伪标签，从而利用两对伪标签训练图像描述生成器G进行预热，得到具备初步生成能力的训练图像描述生成器G；

步骤6、构建文本判别器D，是由一个基于RoBERTa语言理解模型的文本特征提取器和一个真实度预测器构成；其中，所述真实度预测器由Y个线性层构成，在前Y-1个线性层后均连接一个tanh激活函数；

所述基于RoBERTa语言理解模型的文本特征提取器将第j个句子S _j转化为文本特征后，输入所述真实度预测器中进行处理，从而将文本特征转化为S _j的真实度预测值f _D(S _j)；

步骤7、使用自批判的强化学习方式训练预热后的图像描述生成器G，并使用二分类交叉熵损失训练文本判别器D，使得两者在对抗学习中交替优化，从而得到最优图像描述生成模型。

本发明所述的基于文本对抗生成网络的无监督图像描述生成方法的特点在于，所述步骤5包括：

步骤5.1、领域适应学习策略：

从图像特征集合{e ^I _i|i∈[1, N]}中选取一批包含有A个图像特征的特征数据；

从文本库{S _j|j∈[1,M]}中选取一批包含B个句子的文本数据，并利用文本特征提取器CLIP-TextEncoder和文本-图像特征转换器对一批文本数据进行处理，得到B个虚拟图像特征；从而利用式(1)构建领域适应的损失函数L _mmd：

(1)

式(1)中，k为高斯核函数；e ^I _a 表示一批真实图像特征数据中的第a张图像的特征；e ^I _b表示一批真实图像特征数据中的第b张图像的特征，e ^F _a表示一批虚拟图像特征中的第a个虚拟图像特征，e ^F _b表示一批虚拟图像特征中的第b个虚拟图像特征；

步骤5.2、语义约束学习策略：

利用式(2)构建语义约束损失L _cos：

(2)

步骤5.3、文本重建学习策略：

构造伪标签对(e ^S _j,S _j)和伪标签对(e ^F _j,S _j)，从而利用式(3)构建文本重建损失函数L _mle：

(3)

式(3)中，S _j,t表示S _j中第t个单词，S _j,1:t-1表示由S _j中前t-1个单词构成的文本，P _G(S _j,t|e ^S _j,S _j,1:t-1)表示文本特征e ^S _j和文本S _j,1:t-1输入到图像描述生成器G时预测的第t个单词为S _j,t的概率；P _G(S _j,t|e ^F _j,S _j,1:t-1)表示虚拟图像表征e ^F _j和文本S _j,1:t-1输入到图像描述生成器G时预测的第t个单词为S _j,t的概率；n表示S _j的长度；

步骤5.4、利用式(4)构造预热损失函数L _full：

L _full = L _mle +α L _cos +βL _mmd(4)

式(4)中，α和β为权重因子；

步骤5.5、最小化所述预热损失函数L _full，从而对所述图像描述生成器G进行预热训练，并得到预热后的图像描述生成器G。

所述步骤7包括：

步骤7.1、自批判强化学习策略：

步骤7.1.1、所述预热后的图像描述生成器G对第i张图像的特征e ^I _i进行处理，并使用argmax策略和依概率采样策略分别输出一个文字描述C _i和X个采样文字描述，将任意一个采样文字描述记为C’ _i，X为采样次数；

将文字描述C _i和采样文字描述C’ _i分别输入到所述文字判别器D中进行处理，相应得到C _i的真实度预测值f _D(C _i)和C’ _i的真实度预测值f _D(C’ _i)；

步骤7.2.2、激励函数计算：

将文字描述C _i输入文本特征提取器CLIP-TextEncoder进行处理，获得文本特征e ^C _i，从而利用式(5)构建基线激励函数r(e ^I _i, C _i, e ^C _i)：

(5)

式(5)中，λ为权重因子，

为CLIP温度系数；

将采样文字描述C’ _i输入文本特征提取器CLIP-TextEncoder进行处理，并获得采样文本特征e ^C’ _i，从而利用式(5)构建采样激励函数r(e ^I _i, C _i, e ^C’ _i)；

步骤7.2.3、利用式(6)计算自批判强化学习策略梯度

：

(6)

式(6)中，θ表示图像描述生成器G的参数，G _θ表示用图像描述生成器G依概率采样策略生成的概率分布，并由式(7)得到；

表示对采样得到的X个采样文字描述求策略梯度均值；

(7)

式(7)中，P _G(C’ _i,t|e ^I _i,C’ _i,1:t-1)表示图像特征e ^I _i和已解码的前t-1个单词C’ _i,1:t-1输入到图像描述生成器G时预测的第t个单词为C’ _i,t的概率；n为解码得到的句子长度；

步骤7.2、二分类文本判别策略：

步骤7.2.1、将采样文字描述C’ _i输入所述文本判别器D中进行处理，获得C’ _i的真实度预测值f _D(C’ _i)；

步骤7.2.2、根据式(8)构建文本判别器D的二分类损失

：

(8)

式(7)中，

为文本判别器D的参数，σ代表sigmoid函数；

步骤7.3、交替优化训练策略：

步骤7.3.1、定义当前迭代步数为step，并初始化step=1；定义学习率为γ；

步骤7.3.2、在当前第step步训练时先对二分类损失

进行最小化，再利用式(9)对图像描述生成器G的第step步参数θ _step进行更新，得到第step+1步参数θ _step+1：

(9)

步骤7.3.3、step+1赋值给step后，判断step>step_max是否成立，若成立，则停止对抗训练，并从step_max步中选择最优图像描述生成器G用于对图像特征提取器CLIP-ImageEncoder处理后图像特征生成相应的无监督的图像描述，否则，返回步骤7.3.2顺序执行。

与现有技术相比，本发明的有益效果在于：

1、本发明提出了一种基于预训练模型的文本对抗生成网络模型，该模型包括图像描述生成器，文本判别器和激励函数；其中，图像描述生成器利用了先进的语言生成预训练模型，文本判别器利用了先进的语言理解预训练模型，激励函数利用了先进的语言-图像对比学习预训练模型；从而使得文本对抗生成网络模型的训练难度大大降低，提升了图像描述生成的质量。

2、本发明提出了一种无监督图像描述生成器的预热方法，是通过训练图像描述生成器从文本特征和虚拟图像特征重建文本，使得图像描述生成器初步学习根据图像特征进行文字描述。除了文本重建学习策略之外，该方法还使用领域适应学习策略和语义约束学习策略对虚拟图像特征进行进一步的约束，使得生成的虚拟图像特征一方面适应图像领域，另一方面保持和文本尽可能一致的语义；使得虚拟图像特征更加真实，强化预热阶段的效果。预热之后的图像描述生成器用于初始化对抗训练阶段的图像描述生成器，可以进一步提升对抗训练效果。

3、本发明提出了一种兼顾真实度和语义匹配的自批判强化学习策略，是通过激励来引导图像描述生成器学习，估计策略梯度来优化生成器，将模型的推断时argmax解码的激励值作为基线，计算采样策略解码的激励值与之相减作为自批判后的激励值。其中，激励值是真实度和语义匹配度的加权和，使得图像描述生成器兼顾描述的真实性和语义一致性。自批判策略的使用使得训练和推理阶段的差距缩小，有利于达到最优效果。

附图说明

图1为本发明方法的流程示意图；

图2为本发明对抗学习阶段模型结构示意图；

图3为本发明预热阶段模型结构示意图。

具体实施方式

本实施例中，如图1所示，一种基于文本对抗生成网络的无监督图像描述生成方法是按如下步骤进行：

步骤1、获取训练数据，包括：图像集和辅助文本库；

利用语言-图像对比学习预训练模型CLIP中的图像特征提取器CLIP-ImageEncoder对图像集中的N张图像进行特征提取，得到图像特征集合{e ^I _i|i∈[1, N]}，其中，e ^I _i表示第i张图像的特征；N表示图像总数；在本实施例中，CLIP-ImageEncoder选择ViT-B/32，任意一个图像特征的维度为512；

对辅助文本库中的M个句子进行文本数据清洗，得到清洗后的文本库{S _j|j∈[1,M]}，其中，S _j表示第j个句子；在本实施例中，文本数据清洗即选择第一个完整的句子，并对长度超过20的长句子进行截断。

步骤2、构建图像描述生成器G，为了充分利用预训练的语言生成模型辅助描述生成，图像描述生成器G是由K个提示生成器和一个基于GPT-2语言生成模型的解码器构成；其中，提示生成器由H个线性层构成，前H-1个线性层后分别连接一个tanh激活函数；在本实施例中，K设置为10，H设置为2，线性层宽度分别为3840和768，K个提示生成器的前H-1层共享参数。

K个提示生成器分别将第i张图像的特征e ^I _i转化K个提示向量后，输入基于GPT-2语言生成模型的解码器中进行处理，并输出解码后的句子C _i；在本实施例中，K个提示向量中的任意一个提示向量的维度为768。

步骤3、利用语言-图像对比学习预训练模型CLIP中的文本特征提取器CLIP-TextEncoder对第j个句子S _j进行特征提取，得到文本特征e ^S _j；在本实施例中，特征维度为512。在本实施例中，CLIP-TextEncoder选择和CLIP-ImageEncoder相对应的版本。

步骤4、构建文本-图像特征转换器，包括Q层线性层，并利用最后一层的残差连接层将Q层线性层的输入和输出进行连接；在本实施例中，Q设置为2，线性层宽度分别为512，512。文本-图像特征转换器使用服从N(0, 0.1)的高斯分布进行权重初始化，并将初始偏置项设置为0。

文本-图像特征转换器对文本特征e ^S _j进行处理，得到虚拟图像表征e ^F _j；特征维度为512。

步骤5、如图3所示，由文本特征e ^S _j和第j个句子S _j构造一对特征-图像描述伪标签，由虚拟图像表征e ^F _j和第j个句子S _j构造另一对特征-图像描述伪标签，从而利用两对伪标签训练图像描述生成器G进行预热，得到具备初步生成能力的训练图像描述生成器G；在通常的对抗网络的训练中，文本判别器的收敛速度更快，为了平衡生成器和判别器的训练速度，在本实施例中，需要对图像描述生成器G进行预热，即进行预先训练，使用并得到的参数来初始化对抗训练阶段的G。

步骤5.1、领域适应学习策略：

步骤4中进行特征转换后的虚拟图像特征e ^F _j应该具备和真实图像特征e ^I _i相似的特征分布，所以考虑使用领域适应学习策略约束虚拟图像特征，使之能适应图像领域的特征分布。

从文本库{S _j|j∈[1,M]}中选取一批包含B个句子的文本数据，并利用文本特征提取器CLIP-TextEncoder和文本-图像特征转换器对一批文本数据进行处理，得到B个虚拟图像特征；在本实施例中，单批数据大小A和B均设置为40。从而利用式(1)构建领域适应的损失函数L _mmd：

(1)

式(1)中，k为高斯核函数；e ^I _a表示一批真实图像特征数据中的第a张图像的特征；e ^I _b表示一批真实图像特征数据中的第b张图像的特征，e ^F _a表示一批虚拟图像特征中的第a个虚拟图像特征，e ^F _b表示一批虚拟图像特征中的第b个虚拟图像特征；

步骤5.2、语义约束学习策略：

步骤4中进行特征转换后的虚拟图像特征e ^F _j应该和文本特征e ^S _j具有相同的语义，所以引入语义约束学习策略，使得虚拟图像特征e ^F _j和文本特征e ^S _j在余弦空间尽可能接近。

利用式(2)构建语义约束损失L _cos：

(2)

步骤5.3、文本重建学习策略：

根据步骤4到5.2，实际上构造了伪标签对(e ^S _j,S _j)和伪标签对(e ^F _j,S _j)，利用这些伪标签，可以使用文本重构的方法预热图像描述生成器G，从而利用式(3)构建文本重建损失函数L _mle：

(3)

步骤5.4、利用式(4)构造预热损失函数L _full：

L _full = L _mle +αL _cos +βL _mmd (4)

式(4)中，α和β为权重因子；

步骤5.5、最小化预热损失函数L _full，从而对图像描述生成器G进行预热训练，并得到预热后的图像描述生成器G；在本实施例中，学习率设置为0.00003，选择AdamW作为优化器。

步骤6、构建文本判别器D，是由一个基于RoBERTa语言理解模型的文本特征提取器和一个真实度预测器构成；其中，真实度预测器由Y个线性层构成，在前Y-1个线性层后均连接一个tanh激活函数；

基于RoBERTa语言理解模型的文本特征提取器将第j个句子S _j转化为文本特征后，输入真实度预测器中进行处理，从而将文本特征转化为S _j的真实度预测值f _D(S _j)；在本实施例中，RoBERTa语言理解模型的特征输出维度为768，真实度预测器线性层层数Y设置为2，宽度为384和1。

步骤7、如图2所示，使用自批判的强化学习方式训练预热后的图像描述生成器G，并使用二分类交叉熵损失训练文本判别器D，使得两者在对抗学习中交替优化，从而得到最优图像描述生成模型。在本实施例中，令线性层均使用pytorch库函数nn.linear实例化。预训练模型RoBERTa，GPT-2使用huggingface开源参数进行初始化。RoBERTa，GPT-2，提示生成器和真实度预测器的参数均在训练中可被优化，CLIP-TextEncoder文本特征提取器的参数在训练中保持冻结。

步骤7.1、自批判强化学习策略：

步骤7.1.1、预热后的图像描述生成器G对第i张图像的特征e ^I _i进行处理，并使用argmax策略和依概率采样策略分别输出一个文字描述C _i和X个采样文字描述，将任意一个采样文字描述记为C’ _i，X为采样次数；

将文字描述C _i和采样文字描述C’ _i分别输入到文字判别器D中进行处理，相应得到C _i的真实度预测值f _D(C _i)和C’ _i的真实度预测值f _D(C’ _i)；

步骤7.2.2、激励函数计算：

在激励计算步骤，需要兼顾生成的描述文本的真实度和语义匹配度，前者要求生成的描述文本和人类自然语言相似，用文本判别器输出的真实度来衡量；后者要求生成的描述文本忠实于图像的内容，用图像-文本基于CLIP的特征相似度来衡量。在本实施例中，使用权重因子来加权两部分的激励。将文字描述C _i输入文本特征提取器CLIP-TextEncoder进行处理，获得文本特征e ^C _i，从而利用式(5)构建基线激励函数r(e ^I _i, C _i, e ^C _i)：

(5)

式(5)中，λ为权重因子，

为CLIP温度系数；在本实施例中，λ设置为0.5。

步骤7.2.3、利用式(6)计算自批判强化学习策略梯度

：

(6)

表示对采样得到的X个采样文字描述求策略梯度均值。自批判强化学习策略通过在采样激励函数的基础上减掉基线激励函数来获得归一化之后的激励值，有利于缩小训练和推理阶段的差距，达到最优效果。在本实施例中，X设置为5。

(7)

步骤7.2、二分类文本判别策略：

步骤7.2.1、将采样文字描述C’ _i输入文本判别器D中进行处理，获得C’ _i的真实度预测值f _D(C’ _i)；

步骤7.2.2、根据式(8)构建文本判别器D的二分类损失

：

(8)

式(7)中，

为文本判别器D的参数，σ代表sigmoid函数；

步骤7.3、交替优化训练策略：

步骤7.3.2、在当前第step步训练时先对二分类损失

(9)

步骤7.3.3、step+1赋值给step后，判断step>step_max是否成立，若成立，则停止对抗训练，并从step_max步中选择最优图像描述生成器G用于对图像特征提取器CLIP-ImageEncoder处理后图像特征生成相应的无监督的图像描述，否则，返回步骤7.3.2顺序执行。在本实施例中，图像描述生成器G和文本判别器D的学习率均设置为0.00001，选择AdamW作为优化器。

结合下列图表进一步描述本发明的测试结果，表格中的MSCOCO和ShutterStock均为使用的数据集名称，在MSCOCO数据集的公开测试集上进行测试，METEOR(Metric forEvaluation of Translation with Explicit ORdering)，CIDEr(Consensus-based ImageDescription Evaluation)和SPICE(Semantic Propositional Image CaptionEvaluation)均为图像描述领域的常用指标：

为了验证本发明图像描述生成器预热阶段各个学习策略对最终生成效果的贡献，进行了消融实验，包含三个预热阶段方法：(1)只使用文本重建学习策略；(2)结合文本重建学习策略和领域适应学习策略；(3) 结合文本重建学习策略，领域适应学习策略和语义约束学习策略，即使用所有学习策略。实验结果如表1所示。

表 1

为了验证本发明对抗训练中不同的激励函数和是否使用图像描述生成器预热操作对最终生成效果的贡献，进行了消融实验，包含四个训练阶段方法：(1)激励函数只使用图像-文本基于CLIP的特征相似度，图像描述生成器不使用预热操作；(2) 激励函数只使用文本判别器输出的真实度，图像描述生成器不使用预热操作；(3)使用完整的激励函数，图像描述生成器不使用预热操作；(4)使用完整的激励函数，图像描述生成器使用预热操作。实验结果如表2所示。

表 2

通过分析表1的结果，说明预热阶段的各个学习策略是有效的，随着策略的加入，实验结果有明显的提升；通过分析表2的结果，对抗训练中的激励函数组合和图像描述生成器预热操作均带来生成效果的提升。

表3将本发明与传统的无监督方法UIC-GAN(Unsupervised image captioning)，R2M(Recurrent relational memory network for unsupervised image captioning)，IGGAN(Interactions guided generative adversarial network for unsupervisedimage captioning)和TSGAN(Triple sequence generative adversarial nets forunsupervised image captioning)以及利用CLIP进行伪标签筛选的方法PL-UIC(Prompt-based learning for unpaired image captioning)进行对比。

表 3

通过分析表3中的结果，说明本发明提出的方法不但显著超越了传统的无监督图像描述方法，而且比PL-UIC(Prompt-based learning for unpaired image captioning)利用CLIP的方式更加的有效，从而达到了更好的效果。

Claims

1.一种基于文本对抗生成网络的无监督图像描述生成方法，其特征在于，是按如下步骤进行：步骤1、获取训练数据，包括：图像集和辅助文本库；

利用语言-图像对比学习预训练模型CLIP中的图像特征提取器CLIP-ImageEncoder对所述图像集中的N张图像进行特征提取，得到图像特征集合{e ^I _i | i∈[1, N]}，其中，e ^I _i表示第i张图像的特征；N表示图像总数；

对所述辅助文本库中的M个句子进行文本数据清洗，得到清洗后的文本库{S _j | j∈[1,M]}，其中，S _j表示第j个句子；

2.根据权利要求1所述的基于文本对抗生成网络的无监督图像描述生成方法，其特征在于，所述步骤5包括：

步骤5.1、领域适应学习策略：

从图像特征集合{e ^I _i | i∈[1, N]}中选取一批包含有A个图像特征的特征数据；

从文本库{S _j | j∈[1, M]}中选取一批包含B个句子的文本数据，并利用文本特征提取器CLIP-TextEncoder和文本-图像特征转换器对一批文本数据进行处理，得到B个虚拟图像特征；从而利用式(1)构建领域适应的损失函数L _mmd：

(1)

步骤5.2、语义约束学习策略：

利用式(2)构建语义约束损失L _cos：

(2)

步骤5.3、文本重建学习策略：

构造伪标签对(e ^S _j, S _j )和伪标签对(e ^F _j, S _j )，从而利用式(3)构建文本重建损失函数L _mle：

(3)

式(3)中，S _j,t表示S _j中第t个单词，S _j,1:t-1表示由S _j中前t-1个单词构成的文本，P _G (S _j,t| e ^S _j, S _j,1:t-1)表示文本特征e ^S _j和文本S _j,1:t-1输入到图像描述生成器G时预测的第t个单词为S _j,t的概率；P _G (S _j,t| e ^F _j, S _j,1:t-1)表示虚拟图像表征e ^F _j和文本S _j,1:t-1输入到图像描述生成器G时预测的第t个单词为S _j,t的概率；n表示S _j的长度；

步骤5.4、利用式(4)构造预热损失函数L _full：