CN114329025A

CN114329025A - 基于对抗生成网络的跨模态文本到图像生成方法

Info

Publication number: CN114329025A
Application number: CN202111271415.9A
Authority: CN
Inventors: 鲍秉坤; 袁博闻; 盛业斐
Original assignee: Nanjing Nanyou Institute Of Information Technovation Co ltd
Current assignee: Nanjing Nanyou Institute Of Information Technovation Co ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-04-12
Anticipated expiration: 2041-10-29
Also published as: CN114329025B

Abstract

本发明公开了基于对抗生成网络的跨模态文本到图像生成方法，通过在再生成模块引入对抗学习，提高了优化缺陷图片的效果；另外使用语义距离度量优化来保证图片对之间语义的一致性，所生成的图片有更好的语义一致性表现，将输入的文本与真实图片进行融合，生成与对应描述文本间找到良好的语义关联的优化图像。

Description

基于对抗生成网络的跨模态文本到图像生成方法

技术领域

本发明涉及计算机图像生成技术领域，特别是涉及基于对抗生成网络的跨模态文本到图像生成方法。

背景技术

随着信息技术的发展和多媒体技术的应用，我们接受到的信息，对世界的体验逐渐变为多模态的，我们看见物品的同时便会想到物品的名字，视觉信息和文字信息同时地被我们经历。而多模式机器学习旨在建立能够处理和关联来自多种模式的信息的模型。这是一个日益重要且具有潜力的充满活力的领域。在该领域中生成符合给定文本描述的真实图像(text-to-image)是多模态任务之一，该任务有很好的应用前景，在图像编辑，视频编辑，用户个性化生成，个性化推荐等领域有很好的发展潜力。由于生成对抗网络(GANs)在生成真实感图像方面的成功，文本到图像的生成取得了显著进展。文本到图像的生成创作需要对被创造的事物有深刻的理解，无论是单一种类的物件或者是包含各种人物的事件，要求计算机能够理解文本与图片不同模态下的语义信息，并保证生成的图片能与对应的文本有较好的一致性。自动图像生成可以帮助设计类的工作。未来定制图像和视频的算法可能会取代图像和视频搜索引擎或简单的图片设计修改软件，以响应每个用户的个人喜好。文本生成图像的相关工作相较于图像描述，图像所包含的信息更为复杂，因此生成图像任务的提出晚于图像描述，但目前也取得了较为显著的进步。

在本发明中，训练集和测试集来自于MSCOCO2014数据集以及CUB2011鸟类数据集，每张MSCOCO图片对应5条描述，每张CUB图片对应10条描述。目前对文本到图像生成的研究，使用了对称式的再生成网络来保证再生成文本与原始图片保留语义上的一致性，而这种方法在优化生成有缺陷的图片时，可能会导致优化距离的不准确，从而误导生成器生成了语义含义与原始文本不一致的图片，且常规的判别器结构往往是以拟合图像分布为目的，忽略了图片对之间语义的一致性。

本发明需要解决的技术问题主要为：如何利用对抗学习与语义距离度量在文本生成图像任务上保证更好的语义一致性，即能够在生成图片与对应描述文本间找到良好的语义关联。

发明内容

为了克服上述现有技术的不足，本发明提供了一种该通过在再生成模块引入对抗学习，提高了优化缺陷图片的效果；另外使用语义距离度量优化来保证图片对之间语义的一致性，所生成的图片有更好的语义一致性表现的基于对抗生成网络的跨模态文本到图像生成方法。

本发明所采用的技术方案是：

基于对抗生成网络的跨模态文本到图像生成方法，其特征在于：包括如下步骤：

S100.提取文本的句向量：

将文本分别输入至协同注意力编码器和BERT预训练编码器进行句子级特征提取，分别获得协同注意力句子级特征向量S₁，以及预训练BERT句子级特征向量 S₂；

S200.线性优化协同注意力句子级特征向量S₁和预训练BERT句子级特征向量 S₂，并且将S100步骤获得的句子级特征向量S₁和句子级特征向量S₂优化为优化文本句子向量S_t，假定与协同注意力句子级特征向量S₁相关的线性系数λ₁，预训练BERT句子级特征向量S₂的线性系数为λ₂，进行线性优化得到优化的优

化文本句子向量S_t：

S₁＝TextEncoder(X)

S₂＝Bert(T)

S_t＝λ₁*S₁+λ₂*S₂

S300.将步骤S200的线性文字句子向量S_t与随机噪声Z一起输入至深度语义融合生成器生成图片，并且将生成的图片通过Top-Down反向生成模型负

样本句子级特征向量S_n；

S400.将真实图片通过Top-Down反向生成模型生成正样本句子特征向量S_p；

S500.将步骤S300生成的负样本句子级特征向量S_n和步骤S400生成的正样本句子特征向量S_p、步骤S200形成的优化文本句子向量S_t形成对抗网络，并且进行对抗训练，具体训练步骤如下：

S501.定义负样本句子级特征向量S_n和优化文本句子向量S_t之间的语义距离的得分函数为L(S_n,S_t)＝L₁,正样本句子特征向量S_p和优化文本句子向量 S_t之间的语义距离的得分函数L(S_p,S_t)＝L₂，则：

其中：C_sent为提取全局句子特征向量的句子编码器，在此处分别为正样本句子特征向量S_p和负样本句子级特征向量S_n，τ为超参数；

S502.使用步骤S501的得分函数分别训练负样本句子级特征向量Sn和正样本句子特征向量S_p：

当L₁的数值趋近于1并且得分值不再上升，L₂的数值趋近于0并且得分值不再下降时，则生成符合文本描述的优化图片。

优选地，步骤S502在训练负样本句子级特征向量S_n时，如果L₁的数值未达到预定目标，则将负样本句子级特征向量S_n通过计算损失函数L_D再次生成图像，生成的图像再次通过Top-Down反向生成模型与负样本句子级特征向量 S_n’反复训练，如此往复循环，直至符合图像生成满足步骤S502的图像生成条件。

优选地，在步骤S502中生成优化图片时，使用Faster-RCNN和预先训练好的VGG-16网络分别从深度语义融合器生成的生成图像和真实图像中提取图像特征，并且进行图像描述之间的匹配分数L₃：

L_img＝|f(G(z_f，si))-f(x_i)|L₂

其中x_i为来自数据集的真实图像，G(z_i.s_i)为生成图像，图像间距离采用欧式距离L_img来衡量；

当L₃的数值趋近于0并且得分值不再下降时，生成符合文本描述的图片，否则将获取的图像特征使用损失函数计算之后，输入深度语义融合生成器再次生成图片，然后反复循环进行图像特征匹配。

优选地，针对真实图片x_i和生成图片G(z_i，s_i))以及真实文本S_t、正样本句子特征向量S_p和优化文本句子向量S_t之间的还可利用以下目标优化函数V(φ，θ)进行优化：

其中：x_i为来自数据集的真实图像，G(z_i，s_i)为生成图像。

优选地，为了更好地计算文本特征之间的差距，为了让正样本文本特征和S_t更接近负样本句子级特征向量S_n和更远离正样本句子特征向量S_p，使用以下

欧氏距离L_θ、L_φ来确定：

L_θ＝|f(G(z_i，s_i))-f(x_i)|₂；

L_θ、L_φ分别生成图像G(zi,si)、真实图像x_i数据集的文本向量之间的欧式距离以及图像特征向量之间的欧氏距离。

优选地，所述损失函数L_D的计算公式为：

其中

为优化文本句子向量S_t与正样本句子特征向量S_p的数据对；

E_s～C(G(z))为优化文本句子向量S_t与负样本句子级特征向量S_n的数据对；

为生成图像的图像特征与真实图像的图像特征数据对；

L(S_p，S_t)为优化文本句子向量S_t与反向生成的正样本句子特征向量S_p的距离度量；

L(S_n，S_t)为中优化文本句子向量S_t与反向生成的负样本句子级特征向量S_n

的距离度量；

L_img(X，X_real)为生成图片与真实图片的语义距离，其中X为生成的真实图片， X_real为数据集中真实的图片；λ_1，、λ_2，、λ₃均为超参数。

优选地，步骤S100中将文本转换为句子级特征的协同注意力编码器为

AttnGAN的预训练文本编码器。

优选地，步骤S502在进行语义判别时，判断生成图像文本和原生图像反向

后的文本与文本之间的距离L_y的是否趋近于0：

Ly＝min_θ L_θ＝|f(G(zi，si))-f(x_i)|₂

其中：θ是为了区分图片间的距离和文本间距离的差别，这里指的是图片间的语义距离，x_i是真实图片，G(zi，si)是深度语义融合器融合生成的图片，L_θ为欧式距离。

优选地，步骤S400获得真实图片来自于MSCOCO2014数据集以及CUB2011鸟类数据集，每张COCO图片对应5条描述，每张CUB图片对应10条描述。

与现有技术相比，本发明的有益效果是：

本发明基于对抗生成网络的跨模态文本到图像生成方法，在GAN网络的再生成模块中引入对抗学习，提出了基于对抗网络再生成模块的语义距离度量学习，并最终有效提高了文本生成图像任务中原始文本与生成图像之间的语义一致性。通过计算并优化不同文本对，图片对之间的语义距离并分别优化，有效地提高了图片生成的质量与多样性。

该发明的生成方法，通过在再生成模块引入对抗学习，提高了优化缺陷图片的效果；另外使用语义距离度量优化来保证图片对之间语义的一致性，所生成的图片有更好的语义一致性表现。

附图说明

图1为基于对抗生成网络的跨模态文本到图像生成方法的一个实施例的流程图；

图2为基于对抗生成网络的跨模态文本到图像生成方法的另一个实施例的流程图；

图3为图像生成模块以及重描述模块的结构图；

图4为使用本发明的跨模态文本到图像生成方法从一组CUB数据集生成的样本图片实施例；

图5为使用本发明的跨模态文本到图像生成方法从一组MSCOCO数据集生成的样本图片；

图6现有方法与本发明生成图片之间的对比图；

图7为用本发明的跨模态文本到图像生成方法从一组MSCOCO数据集生成的另一组样本图片；

图8为基于对抗生成网络的跨模态文本到图像生成方法的流程；

图9为基于对抗生成网络的跨模态文本到图像生成方法的S500的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1和图8所示，基于对抗生成网络的跨模态文本到图像生成方法，其特征在于：包括如下步骤：

S100.提取文本的句向量:文本到图像生成任务中，模型需要做的第一步往往是理解文本内容，在对抗生成网络中，已有工作是通过提取文本的句向量与词向量来对文本进行表述，因为句向量相比于句子本身有更好的特征表示，在训练中更能找到文本与图片间的跨模态关系。本发明采用预训练的基于协同注意力的文本编码器以及大规模预训练模型对文本进行句向量的提取，前者为了能提取与 MSCOCO数据集更相关的语义信息，后者则在这一基础上丰富了细节。在该模块中，本发明中图片生成模块输入为随机的高斯分布与如下公式计算的文本句向量：将文本分别输入至协同注意力编码器和BERT预训练编码器进行句子级特征提取，分别获得协同注意力句子级特征向量S₁，以及预训练BERT句子级特征向量S₂；利用协同注意力的文本编码器和预训练的BERT模型提取文本的句向量；

S200.线性优化协同注意力句子级特征向量S₁和预训练BERT句子级特征向量 S₂，并且将S100步骤获得的句子级特征向量S₁和句子级特征向量S₂优化为优化文本句子向量S_t，假定与协同注意力句子级特征向量S₁相关的线性系数λ₁，预训练BERT句子级特征向量S₂的线性系数为λ₂，进行线性优化得到优化的优化文本句子向量S_t：

S₁＝TextEncoder(X)

S₂＝Bert(T)

S_t＝λ₁*S₁+λ₂*S₂

对两部分的句向量进行线性相加，参数λ₁，λ₂在该实施中设置可设置为 0.5，0.5。此外本发明采用了One-Stage的生成-优化结构，相比于常见的多层生成模型，该发明更加轻量级，但也能生成高质量与多样性的图片。 S300.将步骤S200的线性文字句子向量S_t与随机噪声Z一起输入至深度语义融合生成器生成图片，并且将生成的图片通过Top-Down反向生成模型负样本句子级特征向量S_n；相比于以往工作的再生成模块，此发明使用了预训练的Top-Down attentional LSTM来替代之前的再生成网络。在这个描述模型中，LSTM每个时间步的输入包含了上一个时间步的LSTM输出，平均池化的图像特征以及一个之前生成单词对应的编码。

S500.将步骤S300生成的负样本句子级特征向量S_n和步骤S400生成的正样本句子特征向量S_p、步骤S200形成的优化文本句子向量S_t形成对抗网络，并且进行对抗训练，结合图1、图8和图9所示，具体训练步骤如下：

S501.定义负样本句子级特征向量S_n和优化文本句子向量S_t之间的语义距离的得分函数为L(S_n，S_t)＝L₁，正样本句子特征向量S_p和优化文本句子向量 S_t之间的语义距离的得分函数L(S_p，S_t)＝L₂，则：

其中：C_sent为提取全局句子特征向量的句子编码器，在此处分别为正样本句子特征向量Sp和负样本句子级特征向量Sn，r为超参数；

基于对抗生成网络的跨模态文本到图像生成方法，步骤S502在训练负样本句子级特征向量S_n时，如果L₁的数值未达到预定目标，则将负样本句子级特征向量S_n通过计算损失函数L_D再次生成图像，生成的图像再次通过 Top-Down反向生成模型与负样本句子级特征向量S_n’反复训练，如此往复循环，直至符合图像生成满足步骤S502的图像生成条件。

从图2的实施例中能够看出来，基于对抗生成网络的跨模态文本到图像生成方法，在步骤S502中生成优化图片时，需要同时考虑生成图像和真实图像之间的关系，使用Faster-RCNN和预先训练好的VGG-16网络分别从深度语义融合器生成的生成图像和真实图像中提取图像特征，并且进行图像描述之间的匹配分数L₃：

L_img＝|f(G(z_i，si))-f(x_i)|₂；

其中x_i为来自数据集的真实图像，G(z_i.s_i)为生成图像，图像间距离采用欧式距离L_img来衡量，使用该距离来最小化生成图片与真实图片对之间的距离，在全局上监督图片的生成；

当L₃的数值趋近于0并且得分值不再下降时，生成符合文本描述的图片，否则将获取的图像特征使用损失函数计算之后，输入深度语义融合生成器再次生成图片，然后反复循环进行图像特征匹配，使用该方法生成的图像能够同时兼顾图像特征和文本特征，可以更好的表达输入文本语义的一致性。

从图1和图2的流程图中还能看出来，在句向量经过图像生成模型后，我们将得到真实图像和由生成器生成的生成图像；在考虑了原始的文本描述、生成图像合成文本、真实图像合成文本三者之间的关系。我们提出了一个基于两种图片与三种文本之间关系的优化方式：基于对抗生成网络的跨模态文本到图像生成方法，针对真实图片x_i和生成图片G(z_i，s_i))以及真实文本S_t、正样本句子特征向量S_p和优化文本句子向量S_t之间的还可利用以下目标优化函数V(φ，θ)进行优化，计算真实图片特征和生成图片特征的差距，以确保最终生成的图片更贴合输入文本的文字描述以及真实图片：

其中：x_i为来自数据集的真实图像，G(z_i，s_i)为生成图像。

基于对抗生成网络的跨模态文本到图像生成方法，为了更好地计算文本特征之间的差距，为了让正样本文本特征和S_t更接近负样本句子级特征向量S_n和更远离正样本句子特征向量S_p，使用以下欧氏距离L_θ、L_φ来确定：

L_θ＝|f(G(zi，si))-f(xi)|₂；

L_θ、L_φ分别生成图像G(zi，si)、真实图像x_i数据集的文本向量之间的欧式距离以及图像特征向量之间的欧氏距离，L_θ、L_φ生成图片能与真实图片的距离更短，从生成图像反向生成的文本要和原始文本距离更远，从真实图片反向生成的文本要和原始文本距离更远，即使生成器生成了一张有缺陷的图片反向生成了良好的文本描述，我们也将其视作负样本，而真实图片生成的文本我们将其试做正样本，我们可以以此来保证不同的图片通过相同的后向网络产生区分性，这样回传给生成器的参数就能一直让图片趋于真实的图片，训练将会更有效。

基于对抗生成网络的跨模态文本到图像生成方法，所述损失函数LD的计算公式为：应用几个UPblock对图像特征进行上采样。UPBlock由上采样层、残差块和DFBlocks组成，用于融合文本和图像特征。最后利用卷积层将图像特征转换为图像。在如图3所示的重描述模块中，我们应用了一个文本到图像的损失函数，这是受到最近为非监督图像生成和对比损失提出的模型的启发，以确保生成的图像能在语义上反映原始描述文本。

其中

为优化文本句子向量S_t与正样本句子特征向量S_p的数据对；

为生成图像的图像特征与真实图像的图像特征数据对；

L(S_n，S_t)为中优化文本句子向量S_t与反向生成的负样本句子级特征向量S_n的距离度量；

基于对抗生成网络的跨模态文本到图像生成方法，步骤S100中将文本转换为句子级特征的协同注意力编码器为AttnGAN的预训练文本编码器，可以很好地实现多阶段多模态的图像细化，为后面进行对抗式网络提供较好的句子级特征向量协同注意力句子级特征向量S₁打下良好的数据基础。

基于对抗生成网络的跨模态文本到图像生成方法，步骤S502在进行语义判别时，判断生成图像文本和原生图像反向后的文本与文本之间的距离Ly的是否趋近于0，从而在重描述模块通过输入图像反向生成文本，并对比地最大化/最小化这些正样本/负样本文本与真实文本之间的距离，语义距离优化更侧重于生成语义内容一致性的图像，而不是仅仅判断生成图像分布是否接近真实图像，这种方法可以在图片内容上做到更好的优化：

min_θ L_θ＝|f(G(zi，si))-f(x_i)|₂

基于对抗生成网络的跨模态文本到图像生成方法，步骤S400获得真实图片来自于MSCOC02014数据集以及CUB2011鸟类数据集，每张COCO图片对应5 条描述，每张CUB图片对应10条描述，均可以获得较好的训练效果，生成较为一致的图像。具体的实施例，可以参见图4、图5和图7的各个实施例中，均能看到对应的实施效果。

本发明适用于CUB与MSCOCO2014数据集中的数据源。为了评估本发明，本发明参照T2I的常见做法，选择Inception Score(IS)引用和Frechet Inception Distance(FID)来评估我们模型的性能。具体来说，Inception Score是基于谷歌训练的Inception Net-V3网络。通过计算KL散度来确定生成图像的质量和多样性。较高的IS意味着较高的合成图像的质量，每一幅图像明确属于特定的类别。

FID计算真实图像分布和合成图像分布之间的差值，它计算合成图像和真实图像分布在预先训练的Inception v3网络的特征空间中的Frechet距离。较低的FID意味着更真实的合成图像。为了计算IS和FID，每个模型从测试数据集中随机选择的文本描述生成40000张图像。

图5显示了该发明在两个数据集上IS和FID指标与现有模型的对比，可以看到FID和IS均有较为显著的提升。在图片的生成效果上也明显与给出文本有更高的语义相关性，例如第一列中我们模型的生成更好地关注了雪地和天空的差异。第二列中我们的生成更关注了“pizza on the plate”这一语义信息，最后一列中对“horses”这一语义的生成与其原本语义更一致。图6的对比表中显示，衡量图片质量和多样性的两个指标，IS指标是越大越好，FID指标是越小越好，可以看出本发明的总体指标均不错。

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.基于对抗生成网络的跨模态文本到图像生成方法，其特征在于：包括如下步骤：

S100.提取文本的句向量:

将文本分别输入至协同注意力编码器和BERT预训练编码器进行句子级特征提取，分别获得协同注意力句子级特征向量S₁,以及预训练BERT句子级特征向量S₂；

S200.线性优化协同注意力句子级特征向量S₁和预训练BERT句子级特征向量S₂，并且将S100步骤获得的句子级特征向量S₁和句子级特征向量S₂优化为优化文本句子向量S_t，假定与协同注意力句子级特征向量s₁相关的线性系数λ₁，预训练BERT句子级特征向量S₂的线性系数为λ₂,进行线性优化得到优化的优化文本句子向量S_t：

S₁＝TextEncoder(X)

S₂＝Bert(T)

S_t＝λ₁*S₁+λ₂*S₂

S300.将步骤S200的线性文字句子向量S_t与随机噪声Z一起输入至深度语义融合生成器生成图片，并且将生成的图片通过Top-Down反向生成模型负样本句子级特征向量S_n；