CN115527216B

CN115527216B - 基于调制融合和生成对抗网络的文本生成图像方法

Info

Publication number: CN115527216B
Application number: CN202211399263.5A
Authority: CN
Inventors: 高文超; 周思杰; 张�杰; 陈诗雨; 任圣博
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-05-23
Anticipated expiration: 2042-11-09
Also published as: CN115527216A

Abstract

本发明公开了一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，包括以下步骤：建立调制融合模块，设计成了残差结构，包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层；建立生成器，由一个映射网络、八个调制融合模块，六个上采样模块和一个卷积层组成。建立判断器网络结构判别器由一个特征提取器和三个分支组成的，三个分支包括：语义重构分支、无条件损失分支和条件损失分支。建立对比学习网络进行对比损失；优化损失函数，损失函数包括生成对抗损失、语义重构损失。本发明可以生成更加符合文本语义的图像，对于图像的真实度和语义一致性都有提升，对于图像的生成质量有了进一步提升。

Description

基于调制融合和生成对抗网络的文本生成图像方法

技术领域

本发明涉及对抗网络的文本合成图像技术领域，特别涉及一种基于调制融合和对比学习生成对抗网络的文本生成图像方法。

背景技术

文字生成图像技术随着信息技术的不断发展和社会的进步，进入了大众的生活之中。近年来，深度学习的发展推动了研究者将注意力转向了多模态学习的探索和应用。所谓多模态学习是指将不同存在形式的信息，包括文本、图像、视频等进行多模态表示、转化、融合和学习，目前学术研究上较为成熟的是视觉和文本之间的交互，例如将一句描述作为输入，输出包含描述信息的图像，即文本生成图像。人工对文字配画耗时耗力，并且对配画生成的数量也有限，因此，通过机器自动根据文字描述生成对应的图像是非常有必要的。该项研究将会给数据智能领域带来很大的推动力，其落地也会给生产和生活带来极大的便利。

文字生成图像的应用在日常生活中使用的场景数不胜数：业主进行房屋装修时，装修公司提供装修设计图能提高业主的满意程度；公安机关根据目击证人的描述画出嫌疑人的肖像辅助破案；轻小说的插画决定轻小说的初始销量。因此，如何在人工智能不断取得新成果的背景下，利用新兴的技术来展现出文字描述的画面，是一个促进生产、提高生活质量的重要研究方向。

文本生成图像的主要研究集中于三个方面：图像生成、文本语义理解以及图像文本的语义一致性。

图像生成依靠生成对抗网络(Generative Adversarial Networks，GANs)的诞生使之成为可能，GANs是目前图像生成领域使用最广泛的技术，是生成模型发展历史上的一个里程碑。GANs优点和缺点都很明显，优点是相对于传统生成模型可以生成更高分辨率的图像，且纹理清晰，目前可以生成的最大分辨率已经达到1024x1024，其缺点是训练相对困难，容易陷入模式崩溃，并且非常难以解决。

文本语义理解就是让机器理解人类的语言，并做出正确的响应。为此应运而生的研究方向就是自然语言处理，自然语言处理的核心是语义理解，需要根据人类理解事物的规律创造出更加丰富的，灵活的，自适应能力强的特征表示。如今文本的特征表示虽然已经有了很大的进展，然而这些方法大多只能应用到分类方面，并没有办法做到完全理解文本的语义。

文本生成图像任务中，最难解决的就是语义一致性，并且最难衡量的也是语义一致性。图像和文本表达的含义是否相同取决于人类的感官，那么如何让机器能够模仿人类的感官呢？通常的做法就是建立一个深度学习模型，该模型具有两个分支，分别学习视觉感受和语句感受，映射到同一个向量空间，然后计算匹配程度，匹配程度越高，证明图像文本的语义一致性越高。在文本生成图像的系统中，如何在保证具有较高清晰度和分辨率的前提下，确保文本和图像的语义一致性是一个重要问题。

现有技术一

生成对抗网络^[1](Generative Adversarial Networks,GAN)是GoodFellow于2014年提出的基于对抗思想进行数据生成的模型，GAN最大的特点就是引入了博弈论中零和博弈的思想，对抗的双方为生成模型G和判别模型D，两个模型交替训练相互竞争。

现有技术一的缺点

GAN具有难以忽视的问题就是由于生成能力过于自由，生成不可控且训练稳定性和收敛性难以保证，容易造成模型崩塌。

现有技术二

GAN-INT-CLS^[2]，先用自然语言处理技术提取出文本信息，然后再用文本特征作为后面生成图像的约束。在GAN中生成器Generator根据文本特征生成图片，继而被鉴别器Discriminator鉴定其生成效果。

现有技术二的缺点

每张图像的文本描述较少，生成的嵌入向量过于稀疏导致图像的多样性较差，图像仍然具有扭曲和不清晰的缺点。

参考文献

[1]GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al.Generativeadversarial nets[C]//Conference on Neural Information Processing Systems.MITPress,2014:2672-2680；

[2]Synthesis,Reed S,Akata Z,Yan X,Logeswaran L,Schiele B,and Lee H，Generative Adversarial Text to Image.，2016,May 18；

[3]Scott Reed,Zeynep Akata,Santosh Mohan,Learning What and Where toDraw.In NIPs,2016；

[4]Zhang H,Xu T,Li H,et al.StackGAN:Text to Pho-to-realistic ImageSynthesis with Stacked Generative Adversarial Networks[J].2017；

[5]Zhang H,Xu T,Li H,et al.StackGAN++:Realistic Image Synthesis withStacked Generative Adversarial Networks[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2019,41(8):1947-1962；

[6]Karnewar A,Wang O.MSG-GAN:Multi-Scale Gradients for GenerativeAdversarial Networks[J].2019。

发明内容

本发明针对现有技术只关注图像的清晰度、分辨率和多样性，亦或是根据对话和场景图生成图像，而对文本和图像的语义一致性没有相关技术的缺陷，提供了一种基于调制融合和生成对抗网络的文本生成图像方法。关注文本和图像的语义一致性，确保生成的图像在拥有较高清晰度和多样性的同时，保证图像内容与文本内容匹配。

为了实现以上发明目的，本发明采取的技术方案如下：

一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，包括以下步骤：

一、建立调制融合模块；

创建文本特征变换层(Text Feature Transform Layer，TFT-Layer)，文本特征变换层包含两个并行的全连接神经网络生成调制参数，并且为了增强条件向量的表达能力，全连接层之间通过函数进行非线性激活。

TFT-Layer的输入是文本嵌入向量和上一隐层特征图，分别通过两个全连接层学习调制参数和，用于控制特征图的缩放操作，用于控制特征图的平移操作。

调制融合模块设计成了残差结构，包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层，支路的卷积层是一个1×1的卷积操作，在主路中，特征图先后进行两次特征变换层调制后，每次都经过一个3×3的卷积层，另外，并避免ReLU函数造成的稀疏问题，所有激活函数使用LeakyReLU函数。在残差结构最后的逐位相加之前，使用一个可学习的自适应系数α与主路的特征图相乘，该参数初始化为0，目的是方便输出在最开始的时候只学习局部特征，然后逐渐学会给经过文本调制后的特征赋予更多的权重。每个调制融合模块的输入是上一隐层的特征图和文本嵌入向量。

二、建立生成器网络结构；

生成器由一个映射网络、八个调制融合模块，六个上采样模块和一个卷积层组成。

映射网络的作用是将噪声向量升维成为可以上采样的特征图，输入是噪声z～N(0,1)，维度为(batchsize,100)，通过一个全连接层后输出(batchsize,4*4*100)，然后转换成(batchsize,-1,4,4)的特征图。

三、建立判断器网络结构

语义重构的判别器由一个特征提取器和三个分支组成的，输出是batch×256×4×4的特征图，三个分支包括：语义重构分支、无条件损失分支和条件损失分支。

四、建立对比学习网络进行对比损失；

对比学习网络框架由生成器和判别器组成。

对比学习的目标是训练出一个编码器提取输入数据的特征，使匹配数据的评价分数大于不匹配数据的评价分数，计算对比损失，作用于生成器。

五、优化损失函数；

损失函数包括生成对抗损失、语义重构损失，公式表示为：

L_G＝L_Gadv+λ₁L_recon+λ₂L_info

L_D＝L_Dadv

优化损失函数步骤如下：

1:设：Batchsize为N，D为判别器，G为生成器，t和t’为相同语义的文本，t^为不匹配文本，g为文本编码器，f图像编码器,X为真实图像；

2:For{1,…,700}do，训练周期700轮；

3:S＝g(t)，得到文本嵌入向量；

4:S’＝g(t’)，得到相同语义的文本嵌入向量；

5:S^＝g(t^)，得到不匹配的文本嵌入向量；

6:z～N(0,1)，从随机高斯分布采样噪声；

6:X'＝G(S,z)，生成图像，匹配文本；

7:X”＝G(S’,z)，生成图像，匹配文本；

8:X^＝G(S^,z)，生成图像，不匹配文本；

9:D_real＝D(X,t)，真实图像，匹配文本；

10:D_fake＝D(X^',S),D(X^”,S)，生成图像，匹配文本；

11:L_D＝hinge(X,1)+hinge(X^',-1)+hinge(X^”,-1)，判别器损失；

12:D←D-η*L_D/D，优化判别器；

13:L_G＝hinge(X^',1)+hinge(X^”,1)+L_info+L_recon，生成器损失；

14:G←G-η*L_G/G，优化生成器；

15:结束。

进一步地，步骤一中用于控制特征图的缩放操作，用于控制特征图的平移操作，计算公式如式1、2和3。

γ_i,β_i＝Repeat(γ_i,β_i) (2)

是所述的两个全连接神经网络，t表示文本嵌入向量，维度为Batchsize×256，i表示网络的层数，范围是[1,8]，γ_i的维度和β_i的维度相同，维度为batchsize×C。/>

和+分别表示逐位相乘和逐位相加运算，因为γ,β是二维矩阵，为了能够进行这样的运算，需要进行空间复制(Repeat)，空间复制后，维度为batchsize×C×D×D。H_i和H_i+1分别表示输入的中间层特征图和经过调制后的中间层特征图，维度为batchsize×C*D*D。

进一步地，步骤一中所述每个调制融合模块的输入是上一隐层的特征图和文本嵌入向量表示为式4、5和6：

X₁＝Conv1(f(TFT(h_i-1,t))) (4)

X₂＝Conv2(f(TFT(X₁,t))) (5)

h_i＝α*X₂+Conv3(h_i-1) (6)

TFT表示调制融合模块，f表示LeakyReLU非线性激活，Conv1和Conv2表示主路的两个3×3卷积层，Conv3表示支路的1×1卷积层。α是一个可学习变量，表示网络对于调制融合层的关注程度，自适应地学习调制融合特征的重要性。

进一步地，步骤三中，语义重构分支由两个级联的卷积层组成，将batch×256×4×4的特征图降维成为batch×256的二维特征向量。语义重构分支具有三个作用：

1.将图像翻译到和文本嵌入向量相同的语义空间，以此让特征提取器倾向于抽取语义特征。

2.让生成器生成图像的语义特征和真实图像的语义特征更加接近，增强模型的稳定性

3.增加判别器的任务复杂度，减轻生成器和判别器失衡现象。

进一步地，步骤三中，无条件损失分支的作用是用来判别图像的真假，直接使用一个4×4的卷积将维度降为。

进一步地，步骤三中，条件损失分支，作用同样是判断语义是否相符，由两个卷积层级联组成，和语义重构分支的区别在于输入特征图的维度是由图像特征图和文本特征向量拼接而成。

进一步地，步骤四中，使匹配数据的评价分数大于不匹配数据的评价分数公式如下：

score(f(x),f(y⁺))＞＞score(f(x),f(y^-) (7)

将对比学习应用到文本生成图像领域，就是让相同语义文本生成的图像更加相似，即x和y⁺表示相同语义的文本对，x和y^-表示不同语义的文本对，f(x)是生成的图像。f是生成器、特征提取器和语义重构分支的组合，训练中固定特征提取器和语义重构分支，只作为一个映射函数。

进一步地，步骤四中，计算对比损失过程表示为公式8

t和t’是相同语义的文本嵌入向量，同时经过生成器生成图像，然后输入给判别器，经过语义重构分支得到生成图像的语义特征v_fake和v′_fake。然后计算对比损失，最小化生成图像和生成图像的寓意特征向量之间的相似度。

进一步地，步骤四中，对比损失L_contrastive表示为公式9；

L_contrastive＝-∑log(P(v_fake,v′_fake)) (9)。

与现有技术相比，本发明的优点在于：

1、为了更好地让文本信息引导图像生成，充分利用文本信息，提出了基于调制特征融合和语义重构的文本生成图像方法，摒弃传统拼接特征融合的方式，使用文本嵌入向量在生成过程中多次调制中间隐层特征图。除此之外，为了进一步提高文本图像的语义一致性，还通过图像编码器对生成图像进行语义重构，再次将图像编码为文本特征向量，计算重构损失引导生成器生成。实验证明，相对于传统方法，本方法可以生成更加符合文本语义的图像。

2、在图像生成方面，常用的图像上采样方法包括转置卷积和插值上采样，但是这两种方法均有一定的局限性，转置卷积虽然是通过神经网络学习特征却会导致一定程度的棋盘效应，插值上采样是由人工设计的特征，表达能力不足。为了进一步提升生成图像的细节信息，引入亚像素卷积进行上采样，实验证明，亚像素卷积相对于转置卷积和插值方式对于图像的真实度和语义一致性都有提升。

3、生成对抗网络的一个固有问题时生成过于自由，即使是使用了文本信息作为条件也不能完全解决这个问题。常用文本生成图像的数据集都是多个文本对应一个图像，如果生成对抗网络使用多个相同语义的文本生成的图像都有很大的不同，那么这就可能导致生成图像质量方面的不足，为了解决这个问题，本文引入了对比学习的方式最大化生成图像之间的相似度，缩小相同语义文本生成图像的差距，实验证明，对比学习的方式对于图像的生成质量有了进一步提升。

附图说明

图1是本发明实施例MR-SR-GAN网络结构图；

图2是本发明实施例文本特征变换层网络结构图；

图3是本发明实施例调制融合模块结构图；

图4是本发明实施例生成器网络结构图；

图5是本发明实施例判别器网络结构图；

图6是本发明实施例对比学习网络结构图；

图7是本发明实施例MR-SR-GAN和其他方法在CUB数据集的生成结果展示图；

图8是本发明实施例加入语义重构损失和对比损失后在CUB和Oxford-102数据集的结果折线图，其中(a)为CUB数据集，(b)为Oxford-102数据集。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

基于调制融合和语义重构的文本生成图像模型来提高文本和生成图像之间语义一致性，在文本利用方面使用调制融合方法进行特征融合，然后通过一个图像编码器将图像编码为文本特征向量，计算语义重构损失引导图像生成。通过亚卷积上采样和对比学习，提升生成图像的清晰度和真实感，增强生成文本的相似度。基于调制融合和语义重构，引入亚像素卷积和对比学习生成式对抗网络(MR-SC-GAN)整体构架和细节模块，网络整体架构图如图1所示。

目前已经有很多方法用于解决语义一致性的问题，比如在生成网络中引入注意力机制或者动态记忆模型，通过图像的语义分割图引导图像生成等，但是文本生成图像是一个复杂的任务，仍然有很多方面可以进一步提升。可以考虑两个方面来提高语义信息得准确性，一个就是在图像生成过程中，对文本的利用，另一个就是对生成的图像进行语义重构，通过一个损失衡量包含的语义是否准确。

1):文本信息利用方面。文本生成图像任务本身就是由文本主导的生成模型，这对图像生成具有很大的影响。将条件信息和生成器做深层次的融合，有助于引导生成器生成符合文本语义的图像，提升生成图像的语义细节。基于超分辨率任务和图像翻译任务的发展，受到这些任务中特征融合方法的启发，引入调制融合文本特征向量的方法，通过文本信息多次对生成的特征图进行调制，增加图像的细节信息，从而生成了和文本语义一致的图像。

2):生成图像语义重构：从一个文本生成的图像，这个图像应该可以再次生成对应文本，即文本嵌入向量->生成图像->生成图像的特征向量。当生成的图像和文本语义一致的时候，生成图像的特征向量应该和文本嵌入向量具有较高的一致性。

3)图像生成清晰度和真实度方面：在目前文本生成图像的方法中，最常用的上采样方式是先使用插值的方式将分辨率提升，然后使用一个卷积层进行学习修正。虽然插值上采样在文本生成图像领域非常常见，但是该方法有一个问题，插值的上采样是使用了人工的特征设计，具有一定的局限性，拟合能力不足。基于该问题，本发明引入亚像素卷积上采样(sub-pixel)，亚像素卷积是一个基于神经网络的上采样方法，相对于插值方式具有更强的拟合能力。

4)模型生成过于自由：文本生成图像常用数据集都是多个文本对应一个图像，如果多个相同语义文本生成的图像不够相似，就可能降低文本和图像的语义一致性。另外生成式对抗网络还有一个固有问题就是生成比较自由，对于相同文本生成的图像也可能具有很大的差异。为了降低相同语义文本生成图像的区别，增强相似度，本发明引入对比学习，最大化相同语义文本生成的图像。

一、调制融合模块

为了让生成器能够在生成过程中深度融合文本信息，本发明基于特征调制思想，提出了文本特征变换层(Text Feature Transform Layer，TFT-Layer)，该层包含两个并行的全连接神经网络生成调制参数，并且为了增强条件向量的表达能力，全连接层之间通过函数进行非线性激活。模块结构如图2。

TFT-Layer的输入是文本嵌入向量和上一隐层特征图，分别通过两个全连接层学习调制参数和，其中用于控制特征图的缩放操作，用于控制特征图的平移操作，计算公式如式1、2和3。

γ_i,β_i＝Repeat(γ_i,β_i) (2)

是上文所述的两个全连接神经网络，t表示文本嵌入向量，维度为Batchsize×256，i表示网络的层数，范围是[1,8]，γ_i的维度和β_i的维度相同，维度为batchsize×C。/>

调制融合模块(Modulation Fusion Block,MF-Block)被设计成了残差结构，包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层，支路的卷积层是一个1×1的卷积操作，降低特征图的通道数，保证主路和支路的维度相同。在主路中，特征图先后进行两次特征变换层调制后，每次都经过一个3×3的卷积层，降低特征图的通道数的同时增加模型的复杂度，充分学习特征。另外，并避免ReLU函数造成的稀疏问题，所有激活函数使用LeakyReLU函数。在残差结构最后的逐位相加之前，使用一个可学习的自适应系数α与主路的特征图相乘，该参数初始化为0，目的是方便输出在最开始的时候只学习局部特征，然后逐渐学会给经过文本调制后的特征赋予更多的权重，可以看做先让网络学习更简单的任务，然后增加任务的复杂性。调制融合模块如图3所示。

每个调制融合模块的输入是上一隐层的特征图和文本嵌入向量,上述过程可以表示为式4、5和6：

X₁＝Conv1(f(TFT(h_i-1,t))) (4)

X₂＝Conv2(f(TFT(X₁,t))) (5)

h_i＝α*X₂+Conv3(h_i-1) (6)

目前生成式对抗网络中常用的特征融合方式大致可以分成两种，分别是基于串联的方式和基于调制的方式。基于调制的方式通过条件向量将文本信息多次注入生成器的中间层特征图，实现跨模态信息的融合，更好的利用了文本信息，引导完善图像的细节信息，解决基于串联的方式不能很好的将不同模态的信息融合起来的问题，增强图像细节信息以及文本和生成图像的语义一致性。

调制融合模块相对于传统简单串联后使用卷积联合学习的方式有三大优点：调制方式可以让文本可以更加直接地修正特征图，约束更大；相对于传统串联方式，节省了大量的计算量，允许模型将更多的计算量分给生成器，增加模型深度，提高模型拟合能力；调制融合模块可以作为一个即插即用的模块使用，较为方便，而且这种模块是可扩展的。

二、生成器网络结构

生成器由一个映射网络、八个调制融合模块，六个上采样模块和一个卷积层组成，模型结构如图4生成器网络结构图所示。

上采样模块作用是将输入特征图的分辨率提升两倍，本文使用的是最近邻插值上采样，最近邻插值算法不需要对像素进行计算，只需要在图像放大后，令像素值等于距离它最近的像素值，这种方式最为简单。我们通过连续六次的调制融合和上采样将特征图h₀的分辨率提升为256×256。

卷积神经网络的运算过程：图像经过卷积运算后得到特征图，特征图使用激活函数进行非线性激活，增强模型的非线性能力，最后将特征图堆叠。卷积层用于图像特征提取,增加模型拟合能力。本文采用的最近邻插值上采样算法虽然最为简单，但是也导致了图像像素值不连续，放大后的图像出现明显的锯齿形状的问题，采用卷积层来修正图像细节，网络模型最后通过一个3×3的卷积层和Tanh激活函数得到三通道的彩色图像。

生成网络得详细结构见表1。

表1生成网络的详细结构

/>

三、判断器网络结构

语义重构的判别器是由一个特征提取器和三个分支组成的，输出是batch×256×4×4的特征图，三个分支包括：语义重构分支、无条件损失分支和条件损失分支。判别器结构如图5所示。

语义重构的判别器是由一个特征提取器和三个分支组成的，输出是batch×256×4×4的特征图，三个分支包括：语义重构分支、无条件损失分支和条件损失分支。

语义重构分支由两个级联的卷积层组成，将batch×256×4×4的特征图降维成为batch×256的二维特征向量。语义重构分支具有三个作用：

语义重构分支的网络参数见表2所示。

表2语义重构分支网络结构

无条件损失分支的作用是用来判别图像的真假，直接使用一个4×4的卷积将维度降为。

条件损失分支，作用同样是判断语义是否相符，理论上语义重构分支可以将其替代，但是为了计算不匹配图像和文本是否相符，该分支仍然保留。该分支也是由两个卷积层级联组成，和语义重构分支的区别在于输入特征图的维度是(由图像特征图和文本特征向量拼接而成)。条件损失分支网络结构参数如表3所示。

表3条件损失分支网络结构

四、对比损失

对比学习网络结构如图6所示，框架由生成器和判别器(特征抽取器和语义重构分支部分)组成。注意，图6上下两路生成器G和判别器D是同一个网络。

对比学习的目标就是训练出一个编码器提取输入数据的特征，使匹配数据的评价分数大于不匹配数据的评价分数：

score(f(x),f(y⁺))＞＞score(f(x),f(y^-) (7)

将对比学习应用到文本生成图像领域，就是让相同语义文本生成的图像更加相似，即x和y⁺表示相同语义的文本对，x和y^-表示不同语义的文本对，f(x)是生成的图像。但是我们难以直接计算两张图像之间的相似度，通常是将图像映射为一个低维向量之后计算余弦相似度。所以在本发明模型中，f是生成器、特征提取器和语义重构分支的组合，训练中固定特征提取器和语义重构分支，只作为一个映射函数。

图6的计算过程可以表示为公式8

t和t’是相同语义的文本嵌入向量，同时经过生成器生成图像，然后输入给判别器，经过语义重构分支得到生成图像的语义特征v_fake和v′_fake。然后计算对比损失，最小化生成图像和生成图像的寓意特征向量之间的相似度。对比损失L_contrastive表示为公式9，直接作用于生成器。

L_contrastive＝-∑log(P(v_fake,v′_fake)) (9)

五、损失函数和优化过程

MR-SC-GAN模型的损失函数包括生成对抗损失、语义重构损失，公式表示为：

L_G＝L_Gadv+λ₁L_recon+λ₂L_info (10)

L_D＝L_Dadv (11)

算法流程为：

以下为本发明实施例的对比实验；

本发明实施例将MR-SC-GAN模型应用于CUB和Oxford-102数据集上。表4给出了各方法^[3]-[6]和MR-SC-GAN在CUB和Oxford-102数据集上的FID、IS结果对比。可以看出，MR-SC-GAN在CUB数据集上，相对于DM-GAN，FID降低了4.42，IS提升了0.17，在Oxford-102数据集上，相对于AttnGAN，FID降低2.62，IS提升0.07，尽管IS方面提升不大，却也都取得最优结果，证明判别器语义重构和对比学习对图像生成质量的有用性。

表4各方法在CUB和Oxford-102数据集上FID和IS结果

表5展示了各方法在CUB和Oxford-102数据集上R-precision结果，MR-SC-GAN在CUB和Oxford-102均取得最优结果，相对于AttnGAN提升了17.76％和10.61％，说明判别器语义重构和对比学习对于语义一致性也有较好的效果。

表5图文检索准确率在CUB和Oxford-102数据集上的实验比较

图7展示各方法和MR-SC-GAN的生成结果。可以看出MR-SC-GAN能较好的捕捉文本的语义，生成图像纹理自然，第三列和第四列图像的鸟看起来更加柔和，清晰。

为了验证语义重构损失以及对比损失的有效性，在CUB和Oxford-102数据集上进行试验。

(1)引入不同损失后的最终结果对比

由于深度多模态相似度损失在训练初期会给模型造成一定的负面影响并降低模型训练稳定性，所以首先验证语义重构损失和对比损失。结果如表6所示，语义重构损失和对比损失权重均设置为0.2.

表6重构损失和对比损失消融试验对比

“√”表示MR-SC-GAN使用了的部分，从表中的结果可以看出，在CUB数据集中，引入重构损失以后，IS提升0.03，FID降低了0.32，说明生成图像的多样性有所提高，R-precision提高了16.86％。引入对比损失以后，IS提升0.05、FID降低0.68，R-precision提升6.98％。引入循环一致性损失以后，IS提升0.06，FID降低0.37，R-precision提高了10.32％，均达到了最优值。

在Oxford-102数据集中，引入重构损失后，IS提升0.02，FID降低1.42，R-precision提升1.59％。引入对比损失后，IS提升0.04，FID降低0.75，R-precision提升2.21％。引入循环一致性损失，IS提升0.09，FID降低1.71，R-precision提升13.7％，同样达到了最优值，说明了这三个损失对于图像质量，多样性和语义一致性都具有较好的作用。

(2)引入不同损失后，不同轮次结果对比

为了验证各个损失在模型训练过程中的作用，图8展示引入损失以后在不同轮次的FID，IS和R-precision结果对比。由于深度多模态相似度损失是在400轮以后加入，所以不进行展示。

图8展示的是引入语义重构损失和对比损失以后，在CUB和Oxford-102数据集上不同轮次的结果，可以看出，引入语义重构损失和对比损失均可以加快模型的收敛速度。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于，包括以下步骤：

一、建立调制融合模块；

创建文本特征变换层(Text Feature Transform Layer，TFT-Layer)，文本特征变换层包含两个并行的全连接神经网络生成调制参数，并且为了增强条件向量的表达能力，全连接层之间通过函数进行非线性激活；

TFT-Layer的输入是文本嵌入向量和上一隐层特征图，分别通过两个全连接层学习调制参数和，用于控制特征图的缩放操作，用于控制特征图的平移操作；

调制融合模块设计成了残差结构，包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层，支路的卷积层是一个1×1的卷积操作，在主路中，特征图先后进行两次特征变换层调制后，每次都经过一个3×3的卷积层，另外，并避免ReLU函数造成的稀疏问题，所有激活函数使用LeakyReLU函数；在残差结构最后的逐位相加之前，使用一个可学习的自适应系数α与主路的特征图相乘，该参数初始化为0，每个调制融合模块的输入是上一隐层的特征图和文本嵌入向量；

二、建立生成器网络结构；

生成器由一个映射网络、八个调制融合模块，六个上采样模块和一个卷积层组成；

映射网络的作用是将噪声向量升维成为可以上采样的特征图，输入是噪声z～N(0,1)，维度为(batchsize,100)，通过一个全连接层后输出(batchsize,4*4*100)，然后转换成(batchsize,-1,4,4)的特征图；

三、建立判断器网络结构

语义重构的判别器由一个特征提取器和三个分支组成的，输出是batch×256×4×4的特征图，三个分支包括：语义重构分支、无条件损失分支和条件损失分支；

四、建立对比学习网络进行对比损失；

对比学习网络框架由生成器和判别器组成；

对比学习的目标是训练出一个编码器提取输入数据的特征，使匹配数据的评价分数大于不匹配数据的评价分数，计算对比损失，作用于生成器；

五、优化损失函数；

损失函数包括生成对抗损失、语义重构损失，公式表示为：

L_G＝L_Gadv+λ₁L_recon+λ₂L_info

L_D＝L_Dadv

优化损失函数步骤如下：

实验的训练周期为700轮，首先从样本中采样出真实图像，匹配文本、相同语义的文本以及不匹配的文本，通过文本编码器获得匹配文本嵌入向量、相同语义的文本嵌入向量和不匹配的文本嵌入向量，从随机高斯分布中采样噪声，将噪声和各自的文本嵌入向量输入生成器中得到各自对应的生成图像，然后将真实图像匹配文本、真实图像不匹配文本以及生成图像匹配文本作为输入，让判别器学习输入的图像是否真实，计算铰链损失优化判别器；同理，生成器通过输入生成图像匹配文本以及生成图像的不匹配文本计算铰链损失、生成对抗损失以及语义重构损失优化生成器。

2.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤一中用于控制特征图的缩放操作，用于控制特征图的平移操作，计算公式如式1、2和3；

γ_i,β_i＝Repeat(γ_i,β_i) (2)

是所述的两个全连接神经网络，t表示文本嵌入向量，维度为Batchsize×256，i表示网络的层数，范围是[1,8]，γ_i的维度和β_i的维度相同，维度为batchsize×C；/>

和+分别表示逐位相乘和逐位相加运算，因为γ,β是二维矩阵，需要进行空间复制，空间复制后，维度为batchsize×C×D×D；H_i和H_i+1分别表示输入的中间层特征图和经过调制后的中间层特征图，维度为batchsize×C*D*D。

3.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤一中所述每个调制融合模块的输入是上一隐层的特征图和文本嵌入向量表示为式4、5和6：

X₁＝Conv1(f(TFT(h_i-1,t))) (4)

X₂＝Conv2(f(TFT(X₁,t))) (5)

h_i＝α*X₂+Conv3(h_i-1) (6)

TFT表示调制融合模块，f表示LeakyReLU非线性激活，Conv1和Conv2表示主路的两个3×3卷积层，Conv3表示支路的1×1卷积层；α是一个可学习变量，表示网络对于调制融合层的关注程度，自适应地学习调制融合特征的重要性。

4.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤三中，语义重构分支由两个级联的卷积层组成，将batch×256×4×4的特征图降维成为batch×256的二维特征向量；语义重构分支具有三个作用：

1).将图像翻译到和文本嵌入向量相同的语义空间，以此让特征提取器倾向于抽取语义特征；

2).让生成器生成图像的语义特征和真实图像的语义特征更加接近，增强模型的稳定性

3).增加判别器的任务复杂度，减轻生成器和判别器失衡现象。

5.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤三中，无条件损失分支的作用是用来判别图像的真假，直接使用一个4×4的卷积将维度降为。

6.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤三中，条件损失分支作用是判断语义是否相符，由两个卷积层级联组成，和语义重构分支的区别在于输入特征图的维度是由图像特征图和文本特征向量拼接而成。

7.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤四中，使匹配数据的评价分数大于不匹配数据的评价分数公式如下：

score(f(x),f(y⁺))＞＞score(f(x),f(y^-)) (7)

将对比学习应用到文本生成图像领域，就是让相同语义文本生成的图像更加相似，即x和y⁺表示相同语义的文本对，x和y^-表示不同语义的文本对，f(x)是生成的图像；f是生成器、特征提取器和语义重构分支的组合，训练中固定特征提取器和语义重构分支，只作为一个映射函数。

8.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤四中，计算对比损失过程表示为公式8

t和t’是相同语义的文本嵌入向量，同时经过生成器生成图像，然后输入给判别器，经过语义重构分支得到生成图像的语义特征v_fake和v′_fake；然后计算对比损失，最小化生成图像和生成图像的寓意特征向量之间的相似度。

9.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤四中，对比损失L_contrastive表示为公式9；

L_contrastive＝-∑log(P(v_fake,v′_fake)) (9)。