CN113869007A

CN113869007A - 一种基于深度学习的文本生成图像学习模型

Info

Publication number: CN113869007A
Application number: CN202111183091.3A
Authority: CN
Inventors: 姚晨辉; 赵亮; 李欣炜; 黄平达; 马希达; 刘卓
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2021-12-31
Anticipated expiration: 2041-10-11
Also published as: CN113869007B

Abstract

本申请提供了一种基于深度学习的文本生成图像学习模型，属于计算机视觉领域。我们提出TRGAN学习模型，TRGAN包含两个模块:联合注意堆叠生成模块和文本生成模块反向修正和校正模块。在JASGM模块中，从词级信息中提取详细的特征信息图像是基于全局句子注意力生成的。在TGOCM模块中，文本描述反向生成，可以通过匹配词级特征向量来提高初始图像的质量。本发明依照上述特征所构建的模型推导出了一种行之有效的算法来处理上述问题，通过大量实验验证，本发明所得到的数据表示性能优于现阶段相关模型。

Description

一种基于深度学习的文本生成图像学习模型

技术领域

本发明属于计算机视觉领域，涉及一种基于深度学习的文本生成图像的学习模型，尤其涉及一种通过优化初始图像来做从文本到图像生成的学习模型。

背景技术

过去几年见证了生成对抗网络(GANs)在各种应用上的巨大成功。目前，文本-图像的合成是GAN的重要应用之一，也是近年来最活跃的研究领域之一。大多数早期提出的文本到图像的一步直接生成结果的方法。最近的方法也在不断探索多阶段从文本描述生成图像。典型的是，他们将整句文本描述编码为单个向量，作为图像生成的条件，并在第一阶段生成 56*56低分辨率图像。在下一阶段，基于低分辨率的图像，生成128*128的高分辨率图像。最后，通过前面两个阶段的信息得到256*256的真实图像。随着文本到图像合成方法的探索，文本生成图像分为两个方向。第一个是根据给定的原始图像和目标文本改变图像的相应属性。第二个是生成器根据给定的文本描述，直接从语义中获取信息，生成相应的图像表示。

Seonghyeon Nam等人建立了TAGAN模型，使用文本自适应生成对抗网络对图像进行语义操作。通过这样做，TAGAN学会了在保留原始图像中不相关内容的同时生成特定的视觉属性。郝东等人提出了SISGAN模型，该模型可以将图像和文本描述中包含的语义解纠缠，同时保留与文本描述无关的其他图像特征。Bowen Li等人建立了ManiGAN模型。他们利用仿射组合模块根据给定的文本选择图像区域，然后将这些区域与相应的语义词关联起来进行有效的操作。同时，细节校正模块对不匹配的视觉属性进行校正，完善合成图像中缺失的内容。此类算法的面临的挑战就是在捕捉更改的属性的同时需要保留原有属性，大多数的算法都可以捕捉相应的属性，但很少能将更改属性和原有属性很好的结合起来。

然后Tao Xu等人使用AttnGAN模型构建新的注意生成网络。该模型可以通过多阶段处理生成高质量的图像，并计算细粒度的图像-文本匹配损失，用于训练AttnGAN生成器。该模型对文本生成的方向也有重要影响。Tingting Qiao等人提出的STREAM模块，它试图从生成的图像中重新生成文本描述，这在语义上与给定的文本描述保持一致。MinfengZhu等人使用一个动态记忆组件来精炼初始生成的图像，一个记忆写入门来突出重要的文本信息，以及一个休息门来融合图像和记忆表示。此外，还有从空间布局生成图像的研究。Wenbo Li等人在每个阶段都有一个新的对象驱动的注意层，它们的生成器能够利用细粒度的对象级信息来逐步细化合成图像。而Fuwen Tan等人提出了Text2Scene。通过关注输入文本的不同部分和生成场景的当前状态，它学会在每个时间步骤中依次生成对象及其属性(位置、大小、外观等)。此类的算法面临的挑战是既要生成文本描述的具有细节的图像，又要生成符合文本描述的背景图像。即使现在的算法都可以生成相应的图像，但是还有提升的空间。

虽然以上多阶段生成的模型，可以在简单的数据集(如花和鸟)上取得很好的结果，但对于由多个对象和不同连接组成的复杂而真实的场景来说，却有很大的挑战。因此有些研究者以整个句子编码为基础，然后对每个词向量进行相应的属性更改。在每个阶段都重复这个过程，不同的是，其他研究人员在最后阶段进行优化，例如反向生成文本。但是，如果图像不是真实的(即生成低质量、低分辨率的图像，形状不规则，色彩奇特与实体关系不现实)，那么下一阶段的质量就不会有太大的提高。因此，文本到图像的生成不仅需要多阶段的生成，还需要在不同的阶段实现不同的功能来生成更逼真的图像，因此最终的图像在很大程度上取决于生成的初始图像的质量。

发明内容

针对以上问题，为了从文本描述中更好地生成图像，本文提出了一种文本-图像模型，通过多阶段的文本来合成图像，称为TRGAN。此学习模型是一个复杂的结构，有三个生成阶段。三个阶段共组成两个模块，一个是联合注意叠加生成模块(JASGM)，另一个是反向文本生成和修正模块(TGOCM)。首先，每个阶段对TRGAN中不同的功能执行不同的生成任务。其次，要提高生成质量，在生成图像的第二阶段设计一个处理层，将生成的图像编码到图像向量中，作为文本生成向量的条件。再其次，该方法利用鉴别器来区分ground truth文本向量和生成的文本向量。具体来说，使用结果来指导下一阶段的生成。最后，利用该方法将整个文本描述编码为一个句子向量，以确保整个生成过程的全局一致。此外，利用真实词向量和生成的词向量来保证生成图像在每个阶段的局部特征。

针对现有技术存在的问题，本发明提供一种基于深度学习的文本生成图像的学习模型。构建利用优化初始生成图像的思想，多方面结合修正图像，以达到生成高质量高分辨率的图像。

为了达到上述目的，本发明采用的技术方案为：

基于以往的研究，一些基于GAN的文本图像生成模型将整句文本描述编码为生成图像的条件，大量实验表明忽略了小细节。有一些文本图像生成模型同时编码整个句子和每个单词，但是模型变得复杂。因此，我们在这个模块使用一个简单的词级注意机制。我们主要关注细节属性，并将给定的文本描述嵌入到本地单词级特征中。我们利用循环神经网络(RNN) 从给定的文本描述T中提取单词嵌入。

一个基于神经网络的联合注意叠加生成学习模块，具体包括如下步骤：

第一步，对现实的文本描述编码，利用RNN编码器将输入的文本编码为词级特征向量和句子特征向量，首先是sentence features提取condition,然后与随机噪声向量z结合产生低分辨率的图像以及对应的图像特征h0.从而生成56*56的低分辨率图像。

第一阶段生成的56*56低分辨率的图像，通过鉴别器，将生成图像和句子向量进行匹配对比，鉴别真假。

第二步，从低分辨率的图像生成高分别率图像的过程中，利用低分辨率的图像信息和词级上下文信息产生下一阶段的图像。通过注意力机制从词级特征向量中提取词级上下文信息，再结合h0隐藏信息生成下一阶段的图像，即128*128高分辨率图像。

第二阶段生成的128*128高分辨率图像，通过鉴别器，将生成图像和句子向量进行匹配对比，鉴别真假。

第三步，为了让最后生成的256x256大小的图像与文本的语义一致，在此添加了一步处理，将第二阶段生成的128*128的图像，利用CNN提取图像特征，然后将提取出的特征再经过LSTM层的处理，生成对应的文本描述，最后将生成的文本描述和真实的文本描述进行匹配对比，将对比结果进行单词级别的施加注意分数，根据得出的分数通过注意力机制的处理，提取下一阶段的特征。这一举措额外加了一个文本-图像匹配的监督信息，使生成的图像能像真实图像那样与相应的文本匹配。将通过注意力机制提取的特征向量，结合h1信息，生成第三阶段的图像，即256*256的高分辨率图像。

第三阶段生成的256*256高分辨率图像，通过鉴别器，将生成图像和句子向量进行匹配对比，鉴别真假。以此类推，循环往复，使生成的图像变得真实可靠。

本发明的有益效果：本发明依照上述特征所构建的模型推导出了一种行之有效的算法来处理上述问题，通过大量实验验证，本发明所得到的数据表示性能优于现阶段相关模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实例中的一种基于深度学习的文本生成图像学习模型的整体结构示意图；

图2是本发明展示的一种基于深度学习的文本生成图像学习模型在现实数据集的性能效果。

图3是本发明流程图。

图4是本发明模型参数α，β以及λ调整过程和结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一种基于深度学习的文本生成图像学习模型，具体包括如下步骤：

第一步，对现实的文本描述编码

在词级注意模型

中，通过注意词级机制生成一个注意词级特征矩阵

将注意词级特征矩阵

和视觉特征f_i作为感知器F_i的输入，然后感知层将词级特征转换为视觉特征的公共语义空间；同时，也将输入的现实文本通过注意句子级编码器生成句子级特征，句子级特征和随机噪声向量共同作用生成隐藏特征h(query)；并且基于隐藏特征h计算每个词向量的权重，根据权重绘制每个区域的图像；初始图像的每一部分都是根据每个单词的权重绘制；最后，通过计算注意词级权重矩阵

和视觉特征f_i-1，进一步生成下一阶段的视觉特征f_i：

其中，z是噪声向量，从标准正态分布中采样，

and z～N(0，1).

是词级注意模型，引用AttnGAN中的模型；F_i是感知器；w是词向量；G_i是生成器；

第二步，首先添加文本以纠正生成的图像，并通过文本和图像的损失对抗来训练生成器和鉴别器，生成器和鉴别器的结构包括三个部分：a)Feature Extractor，提取的图像特征大小为2048个，层数密集，将其减小到256个节点；b)序列处理器，嵌入层处理文本输入，后面是LSTM层；c)解码器，然后将以上CNN和LSTM两层的输出结合起来，将它们处理为稠密层，做出最终的预测；

其中，

是视觉特征，作为输入通知LSTM层关于图像内容；

表示一个单词嵌入矩阵，将单词特征映射到视觉特征空间；T_t是公共特征空间；p_t+1是一个预测单词的概率分布；

第三步，比较真实的语义和生成的语义；通过计算两个语义之间的相似度，不仅可表示确定生成图像的质量，还能定位每个字的丢失；根据单词的相似度，给予每个单词一个相应的权重；

其中，x_i代表实际的文本，y_i代表生成的文本，如果cosθ接近1，意味着它们之间的夹角是接近0度，意味着两个向量更相似；如果它们之间的夹角等于0，意味着两个向量相等； h的每一列都是图像的一个子区域的特征向量；对于第j^th个子区域，其词上下文向量是与h_j相关的词向量的动态表示C_j为：

其中

andβ_j，i，β_j，i表示模型对第i项所占的权重生成图像的第j个子区域；S′_j，k将词向量映射到公共语义空间；通过单词的相似度权重矩阵和区域单词权重矩阵共同作用，为生成更高质量的图像做出贡献；

同时，从匹配和词级注意模块中给予每个词相应的权重。它不仅可以定位具体的区域，而且可以聚焦词向量，损失很大。在上述工作的基础上，我们将两个矩阵相乘。它基于前两个注意矩阵，将结果应用到上一代阶段。这为生成的最后阶段指明了方向。最后阶段根据注意机制对生成的图像进行校正和优化。我们的模型使细节更加清晰，整体更加完美。这样有针对性的优化生成将使生成的图像质量较高。

基于深度学习的文本生成图像学习模型中分三个阶段计算生成器的损失，损失函数包括：

第一阶段，损失函数定义为图像的负对数后验概率与对应的文本描述匹配：

L_G1＝L_w+L_s

其中，W代表单词，S代表句子，Q代表图像，i代表第i阶段；

第二阶段，使用重新描述的文本与真实文本在对齐语义空间进行匹配，计算损失：

其中，T_t是公共特征空间；

第三阶段，在这个阶段，通过匹配整个图像和一个单词序列来计算分数：

其中，

是生成的图像；

从第i阶段的分布中抽取的样本；

是单词序列；

总的来说，生成器损失定义为：

其中，L_G1、L_cap和L_ws分别代表的三个阶段鉴别器的损失，α，β，入是三个参数；通过与生成器的对抗来判别图像是否为真实；

最后，鉴别器损失可定义为：

其中，x_i来自于真实图像分布

的第i比例；

来自于模型分布

的相同比例；

以上多阶段的生成，循环修复文本生成的损失，通过生成器和鉴别器的对抗生成，获得高质量，高分辨率的图像。

结合本发明的方案，进行实验分析如下：

为了验证本发明提出模型TRGAN的有效性，将TRGAN和目前较为典型的模型 GAN-INT-CLS、GAWWN、StackGAN、AttnGAN和MirrorGAN在IS和R-Precision评价指标上进行对比，如表1和表2，同时本发明模型参数α，β以及入调整过程和结果如图4所示。

表1：CUB数据集对比结果

Dataset	method	IS	R-Precision
				CUB	GAN-INT-CLS	2.88±0.04	/
CUB	GAWWN	3.62±0.07	/
				CUB	StackGAN	4.04±0.06	/
CUB	AttnGAN	4.36±0.03	67.82±4.43
				CUB	MirrorGAN	4.56±0.05	60.42±2.75
CUB	TRGAN	4.66±0.13	69.05±2.25

表2：COCO数据集对比结果

Dataset	method	IS	R-Precision
				COCO	StackGAN	1.09±0.12	/
COCO	AttnGAN	1.69±0.09	56.95±0.45
				COCO	MirrorGAN	4.46±0.20	60.78±0.41
COCO	TRGAN	4.52±0.11	62.3±0.33

实验数据情况如下：文本到图像的研究大多是基于CUB和复杂的COCO数据集。在CUB 数据集中，每个鸟类图像有10个文本描述；而在COCO数据集中，每个图像有5个文本描述。

实验硬件环境配置为：在具体实验中，由于实验室的硬件和软件限制，我们在复杂的 COCO数据集中，随机从训练集80000和测试集40000中取四分之一数据进行实验，同时也保证对比的模型在同样数据集上复现，并且测试相应的分数；CUB数据集保持原有数据，不进行预处理。

表1和2分别显示了实验模型的IS和R-Precision结果。实验表明TRGAN在每个数据集上明显优于其他模型。本发明不仅利用深度学习的模型来模拟文本生成图像的结构，更重要的是，TRGAN通过优化初始图像的质量来约束整体生成图像的高质量。总之，本发明的TRGAN模型在IS和R-Precision方面优于其他比较模型。

实验过程中对三个参数进行动态调整(如图4所示)，确保每个部分实现最优结果。

本领域普通技术人员可以理解上述实施例的各种模型中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上对本发明实施所提供的一种深度学习的文本呢生成图像的学习模型进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的模型及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。