CN111402365A

CN111402365A - 一种基于双向架构对抗生成网络的由文字生成图片的方法

Info

Publication number: CN111402365A
Application number: CN202010185829.9A
Authority: CN
Inventors: 全哲; 胡新健; 王梓旭
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-10
Anticipated expiration: 2040-03-17
Also published as: CN111402365B

Abstract

本发明公开了一种基于双向架构对抗生成网络的由文字生成图片的方法，首先使用一个预训练的文字编码网络来分析文本含义，并将之映射至一个语义向量空间，然后双向架构对抗生成网络模型就可以利用语义向量来生成一张与之对应的图片。与相关技术相比，本发明具有如下优点：利用了双向架构思想，结合对抗生成网络实现了仅依赖文本来生成高质量图片的过程，并且通过改进注意力机制和调整batch normalization达到了加强图片和文本之间的语义一致性的目的，实验证明，这种模型架构可以显著提高合成图片的质量以及多样性。

Description

一种基于双向架构对抗生成网络的由文字生成图片的方法

【技术领域】

本发明涉及文字处理技术领域，尤其涉及一种基于双向架构对抗生成网络的由文字生成图片的方法。

【背景技术】

基于文字的语义来生成一张与之对应并符合现实的图片涉及多个领域，在文字处理步骤需要使用自然语言处理领域的技术，在生成图片时又需要计算机视觉的相关知识。所以目前已有的技术大多都是分为两个部分来实现：

1.文字编码，此步骤一般使用两个神经网络来分别处理文字与图片，通过学习将之映射至同一个向量空间。比如在AttnGAN网络中使用了一个CNN网络来处理图片，使用了一个LSTM网络来处理文字，然后通过特定的目标函数来优化两者之间的相似度，以达到文字的语义能过与图片相对应的目的。

2.生成图片，在获得文字编码模型之后就可以将文字转换为向量，然后将之作为对抗生成网络中生成器的输入，即可得到一张生成的图片。通过训练对抗生成网络，我们就可以得到一个能过根据语义生成与之对应并足够真实的生成模型。

在上述的过程中，非常依赖于对抗生成网络的能力，现有的方法大多都是通过叠加多个生成器或者添加注意力机制来提高图片的生成质量。然而，文本自身的语义与图片自身的视觉内容之间还存在着难以跨越的鸿沟，难以建立语义一致性。Qiao等人通过引入一个图像标注模型来解决这个问题，但是此方法太过于依赖图像标注模型的表现；Yin等人利用siamese网络，从文本描述中直接提取语义一致性，但是这种方法又太过于依赖训练数据集的文本丰富度，在实际使用中并不理想。

总的来说，现有的方法都存在一定的局限性，难以推广。

【发明内容】

本发明的目的在于提供一种基于双向架构对抗生成网络的由文字生成图片的方法，其能够凭借一段文本描述生成与之相对应的且符合真实环境的图片，并显著提升生成图片的质量。

为了实现上述目的，本发明的技术方案如下：

一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于，该方法包括如下步骤：

步骤一、准备数据集，分为训练集和测试机；

步骤二、对数据集中的数据进行预处理；

步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码；

步骤四、对训练集中的图像部分使用图像编码器提取出图像编码；

步骤五、对句子编码进行CA操作，得到Fca向量；

步骤六、将Fca向量与一段噪声进行拼接，再与单词编码、句子编码一起输入生成器；

步骤七、生成器输出生成图片；

步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器；

步骤九、计算损失函数；

步骤十、优化损失函数，继续训练；

步骤十一、经过多次迭代计算，得到训练后的模型；

步骤十二、将测试集中的文字经过同样的文本特征提取工作，输入模型得到测试结果；

步骤十三、实验结果及评估。

优选的：在步骤一中，数据集的划分是根据原数据集提供的划分。

优选的：在步骤一中，所述数据集为CUB鸟类数据集和COCO数据集。

优选的：在步骤二中，预处理具体包括：

构建词典，在词典中添加NULL；

构建文本向量，采用长度为18的一维向量，单词数不足18的句子在句末补NULL，单词数大于18的句子将随机进行选取18个单词，再将每个单词映射至其在词典中的下标；

预处理图片，采用随机翻转、裁剪，然后通过缩放得到64x64、128x128以及256x256的图片。

优选的：在步骤三中，采用Attngan中文本编码部分的预训练模型作为文本编码器，其采用的是RNN网络，用公式表达为：

w,s＝RNN(Text)

其中w为单词编码，是一个D×L的矩阵，其中D代表维度，L代表单词个数即句子长度；s为句子编码，是一个长度为D的一维向量。

优选的：在步骤五中，CA操作具体包括：

将句子编码通过两层全连接层；

使用一个独立的高斯分布N(μ(s),σ(s))对其进行重采样，用公式表达为：

Fca＝CA(s)

其中Fca是提取出来的d维的语义特征向量，s为句子编码，CA(s)代表对句子编码进行CA操作。

优选的：在步骤六中，所述生成器的数量为三个，且上一个生成器的输出作为下一个生成器的输入，分别可以生成64×64、128×128和256×256的图片。

优选的：三个所述生成器的网络结构相同，但其中的网络层使用的参数不同，具体的网络结构由SEAttn层、卷积层、上采样层和SEBN层组成。

优选的：在步骤九中，采用以下函数计算损失函数：

其中h₁(t)＝max(0,1-t)和h₂(t)＝max(0,1+t)叫做“hinge”损失，其用来正则化判别器的输出，x代表来自训练集中或者生成器生成的图片，来自训练集中的图片服从图像数据分布P_data，而生成图片的分布用P_G表示，D_i代表判别器，E代表图像编码器，s为句子编码，s_ca是Fca向量。

优选的：在步骤十中，训练具体包括：

将处理后的文本数据输入文本编码器，得到句子编码和单词编码；

将处理后的图像输入至图像编码器，然后将图像编码器的输出作类似CA操作中重采样；

将句子编码、单词编码、噪声、输入生成器，分别得到64x64、128x128和256x256的生成图片；

将生成的图片、生成图片的分布作为对应的一组输入判别器，将真实图片、真实图片的分布作为对应的一组输出判别器；

计算判别器的损失，并反向传播更新参数；

固定住判别器的参数，计算图像编码器的损失，并反向传播更新参数；

固定住判别器与图像编码器的参数，计算生成器的损失，并反向传播更新参数；

另选一组数据，重复以上步骤，直至模型收敛。

与相关技术相比，本发明具有如下优点：利用了双向架构思想，结合对抗生成网络实现了仅依赖文本来生成高质量图片的过程，并且通过改进注意力机制和调整batchnormalization达到了加强图片和文本之间的语义一致性的目的，实验证明，这种模型架构可以显著提高合成图片的质量以及多样性。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明基于双向架构对抗生成网络的由文字生成图片的方法的流程图；

图2为本发明生成器的网络结构图。

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明提供了一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于，该方法包括如下步骤：

步骤一、准备数据集，分为训练集和测试机；

具体的，在本发明中，该数据集的划分是根据原数据集提供的划分，本发明使用的数据集为CUB鸟类数据集和COCO数据集。其中CUB鸟类数据集中的训练集包含150个分类共8855张图片，测试集共50个分类共包含2933张图片，数据集中的每一张图片分别对应10句描述文本。其中COCO数据集中的训练集包含8万张图片，测试机包含4万张图片，数据集中的每张图片分别对应5句文本描述。

步骤二、对数据集中的数据进行预处理；

具体的，预处理包括：

构建词典，在词典中添加NULL；

具体的，采用Attngan中文本编码部分的预训练模型作为文本编码器，其采用的是RNN网络，用公式表达为：

w,s＝RNN(Text)

步骤五、对句子编码进行CA(Condition Augment)操作，得到Fca向量；

需要进一步说明的是，CA操作具体包括：

将句子编码通过两层全连接层；

Fca＝CA(s)

具体的，所述生成器的数量为三个，且上一个生成器的输出作为下一个生成器的输入，分别可以生成64×64、128×128和256×256的图片。再结合图2所示，三个所述生成器的网络结构相同，但其中的网络层使用的参数不同，具体的网络结构由SEAttn层、卷积层、上采样层和SEBN层组成。需要注意的是，本发明采用的是均值为0，方差为1的正态分布，然后将其分成了三份，分别在每一个生成器的开始与输入矩阵拼接。

另外，需要进一步说明的是，本发明提出了一个用于加强语义的注意力机制模块来提升语义一致性。Semantic-Enhanced Attention(SEAttn)采用了“门”控制的思想，可以在实行注意力机制之前计算单词特征与语义特征之间的重要性。使用Sca来代替Fca，公式表达为：

Imp_i(s_ca，w_i)＝σ(W_imp*concat(s_ca，w_i))

其中σ表示sigmoid函数，w_imp是一个1×(D+d)的矩阵，D是单词编码的维度，d是Fca向量的维度，s_ca是Fca向量，w_i表示单词编码，concat表示拼接操作。

然后，可以特定的细化单词特征：

w′_i＝Imp_i*M_w(w_i)+1-Imp_i)*M_s(s_ca)

其中M_w(·)和M_s(·)代表一个1×1的卷积操作，风别用来提取单词编码和进行CA操作之后句子编码的特征至相同的维度空间，w_i表示单词编码，s_ca是Fca向量。

在上述操作过程之后，就可以使用w_i’来替换Attngan中attention机制中的w_i矩阵。

在SD-GAN中提到，对句子特征的翻转、拉伸等操作有助于提高图像的多样性，但是语言描述是非常主观的，通常带有很多非本质的特征，所以为了不过多的移动视觉内容，此发明使用Semantic-Enhanced Batch Normalization(SEBN)整合了语义特征。值得注意的是，这个地方还将噪声合并了进来，这有利于提升生成器生成图片的质量。该层用公式表达为：

γ_c＝f_γ(concate(s，s_ca，z))，β_c＝f_β(concate(s，s_ca，z))

其中concate代表连接拼接操作，s代表句子编码，s_ca是Fca向量，z是噪声；μ(x)为x的均值，σ(x)代表x的方差，f_γ和f_β分别表示映射网络，β_c和γ_c分别代表缩放尺度与偏移尺度。

图像编码器是本发明重要的一部分，该图像编码器将文字生成图片的过程逆转，变成从图片中提取语义特征。图像编码器的网络结构与生成器的结构相似，但是移除了batch normalization中Fca。此外，也对图像编码器的输出执行了像CA操作一样的重采样。

步骤七、生成器输出生成图片；

需要进一步说明的是，判别器也是三个，分别与生成器一一对应，以便接收不同分辨率的图片。

步骤九、计算损失函数；

需要进一步说明的是，本发明的本质是从文本描述中提取精确的语义特征，来生成合成图像。所以本发明提出了两种对抗损失，分别为语义特征损失和条件语义特征损失，利用这两个目标函数可以在全局优化中学习联合分布，所以生成器可以精确的提取语义特征。像以往的方法一样，采用来了两类损失来进行逼近条件分布和非条件分布。在训练中的每一步，生成器、图像编码器和判别器都是分开训练，具体在每一层中，最小化以下损失函数：

这里使用“hinge”损失可以提升模型的稳定性，并且可以避免训练中的梯度消失问题。对于生成器部分的目标函数，加入了Attngan中的conditioning augmentation损失和DAMSM损失。

步骤十、优化损失函数，继续训练；

需要进一步说明的是，每次从训练集中读取小批次数据进行数据预处理，批次大小一般视GPU内存大小决定。并生成批次大小相等，服从均值为0，方差为1的正态分布Tensor。

训练具体包括：

计算判别器的损失，并反向传播更新参数；

另选一组数据，重复以上步骤，直至模型收敛。

步骤十一、经过多次迭代计算，得到训练后的模型；

步骤十三、实验结果及评估。

具体的，实验中采用了三种评价指标，分别为：Inception Score(IS)、FréchetInception Distance(FID)。评价方法为每个对比模型使用没有训练的测试集数据随机生成30000张图片来计算这两个指标。具体包括：

1、IS值的计算需要借助预训练的Inception v3网络来计算条件种类分布和边缘种类分布之间的KL散度。IS值越大表示图像的多样性越高，并且每一张图片都能够清晰的区别他们的类别。

2、FID值也是借助预训练的Inception v3网络来计算真实图片与生成图片之间的距离，FID的值越低表示生成图片越接近真实环境下的图片。

评估结果如下：

将本发明得到的测试结果与目前表现最好的几个模型方法进行了对比，在评价指标IS值上的结果如下表1：

表1

其中，表1记载了IS4对比试验结果，可以看到，本发明模型TIBi-GAN在CUB数据集上获得了5.03IS分数，在COCO数据集上获得了31.03IS分数。可以注意到，此模型在COCO数据集上的表现要差于SD-GAN，但是SD-GAN存在着严重的缺陷，因为他利用siamese网络来从一对描述中提取语义一致性，这非常依赖于文本描述的多样性，所以他不具有广泛的适用性。

本专利模型与AttnGAN、DM-GAN在评价指标FID上的对比结果如下表2：

表2

其中，表2记载了FID值对比实验结果，可以看到，本专利模型在CUB上的分数从16.09降低到了11.83，在COCO上的分数从32.64降低到了31.97。

综上可见，本专利所提出的TIBi-GAN模型在两个数据集上都表现的非常好，这代表着本专利方法能够有效的生成多样且高质量的图片。

尽管本发明的实施方案已公开如上，但并不仅仅限于说明书和实施方案中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里所示出与描述的图例。

Claims

1.一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于，该方法包括如下步骤：

步骤一、准备数据集，分为训练集和测试机；

步骤二、对数据集中的数据进行预处理；

步骤五、对句子编码进行CA操作，得到Fca向量；

步骤七、生成器输出生成图片；

步骤九、计算损失函数；

步骤十、优化损失函数，继续训练；

步骤十一、经过多次迭代计算，得到训练后的模型；

步骤十三、实验结果及评估。

2.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于：在步骤一中，数据集的划分是根据原数据集提供的划分。

3.根据权利要求1或2所述的一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于：在步骤一中，所述数据集为CUB鸟类数据集和COCO数据集。

4.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于：在步骤二中，预处理具体包括：

构建词典，在词典中添加NULL；

5.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于：在步骤三中，采用Attngan中文本编码部分的预训练模型作为文本编码器，其采用的是RNN网络，用公式表达为：

w,s＝RNN(Text)

6.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于：在步骤五中，CA操作具体包括：

将句子编码通过两层全连接层；

Fca＝CA(s)

7.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于：在步骤六中，所述生成器的数量为三个，且上一个生成器的输出作为下一个生成器的输入，分别可以生成64×64、128×128和256×256的图片。

8.根据权利要求7所述的一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于：三个所述生成器的网络结构相同，但其中的网络层使用的参数不同，具体的网络结构由SEAttn层、卷积层、上采样层和SEBN层组成。

9.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于：在步骤九中，采用以下函数计算损失函数：

10.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法，其特征在于：在步骤十中，训练具体包括：

计算判别器的损失，并反向传播更新参数；

另选一组数据，重复以上步骤，直至模型收敛。