CN113361251A

CN113361251A - 一种基于多阶段生成对抗网络的文本生成图像方法及系统

Info

Publication number: CN113361251A
Application number: CN202110522352.3A
Authority: CN
Inventors: 刘丽; 王泽康; 马跃; 崔怀磊; 张化祥
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-09-07
Anticipated expiration: 2041-05-13
Also published as: CN113361251B

Abstract

本发明属于跨模态生成技术领域，提供了一种基于多阶段生成对抗网络的文本生成图像方法及系统。该方法包括：获取文本信息，并将其输入文本编码器，提取句子向量和单词向量；将句子向量进行条件增强处理得到条件向量，将条件向量与噪声向量进行向量拼接，得到拼接向量；将单词向量和拼接向量输入生成网络，经初始图像生成阶段、第一细化阶段、第二细化阶段的处理，分别输出第一分辨率图像、第二分辨率图像以及第三分辨率图像；将第一分辨率图像、第二分辨率图像和第三分辨率图像输入判别网络，提取图像特征，将图像特征与条件向量进行空间拼接，得到的向量经过卷积处理后，引入目标损失函数，强化生成图像与真实图像的相似度。

Description

一种基于多阶段生成对抗网络的文本生成图像方法及系统

技术领域

本发明属于跨模态生成技术领域，尤其涉及一种基于多阶段生成对抗网络的文本生成图像方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

根据自然语言描述自动生成图像是许多应用中的基本问题，例如：艺术生成和计算机辅助设计等，它实现了从文字模态到图像模态的转换，推动了跨视觉和语言的多模态学习和推理的研究进展。生成对抗网络(GAN)在文本生成图像方面的使用，使得生成图像质量有了巨大的提升。早期的生成对抗网络的稳定性难以得到保证，但随着近几年的研究深入，生成对抗网络的训练稳定性取得了巨大的进展。Wasserstein距离的提出使得即使两个分布的支撑集重叠少的情况下，依旧能度量两个分布的距离，有效解决了早期生成对抗网络梯度消失的问题。权重归一化技术——频谱归一化通过对判别网络施加1-Lipshcitz限制使得训练的稳定性获得了显著提升。零中心梯度罚函数的提出提高了网络的泛化能力并保证网络收敛，在理论上逼近最优的判别器。几何GAN将支持向量机分离超平面的思想引入生成对抗网络，以较高的效率使得网络收敛于判别器和发生器之间的纳什均衡。

现阶段发展出三种基于GAN的典型的文本-图像生成方法：通过串联的图像生成方法，包括堆叠生成对抗网络(StackGAN)、改进的堆叠生成对抗性网络(StackGAN++)；通过使用跨模态注意的图像生成方法，包括注意力生成对抗性网络(AttnGAN)、镜像生成对抗性网络(MirrorGAN)、动态记忆生成对抗网络(DMGAN)；通过使用条件批量归一化的图像生成方法，包括语义解脱生成对抗性网络(SDGAN)，深度融合生成对抗性网络(DFGAN)，双重注意生成对抗网络(DTGAN)。通过串联的图像生成方法将整个文本描述编码成一个全局句子向量，使其作为基于GAN的图像生成的条件，虽然达到很好的效果，但是仅使用全局句子向量将导致缺乏单词级的重要细粒度信息，不利于高质量图像的生成。经过实验验证显示，使用跨模态注意和条件批量归一化的图像生成方法效果更明显，但是跨模态注意依旧存在着语义表达不够出色、在语言表达变体下很难生成相应的视觉概念、产生的图片更像模糊形状和细节的简单组合的问题。条件批量归一化方法未能提取仿射变换的有效性，依旧存在改进空间。

综上所述，现有技术中没有一种能够既保证初始图像生成质量，又能够充分保证语义表达的方法及系统。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于多阶段生成对抗网络的文本生成图像方法及系统，其在大幅度提高图像生成质量的同时，充分保证语义在视觉方面的表达，保证文本和图像的语义一致性且避免因使用额外网络增加开销，提高了生成网络的稳定性，加快网络的收敛速度。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于多阶段生成对抗网络的文本生成图像方法。

一种基于多阶段生成对抗网络的文本生成图像方法，包括：

获取文本信息，并将其输入文本编码器，提取句子向量和单词向量；

将句子向量进行条件增强处理得到条件向量，将条件向量与噪声向量进行向量拼接，得到拼接向量；

将单词向量和拼接向量输入生成网络，经初始图像生成阶段、第一细化阶段、第二细化阶段的处理，分别输出第一分辨率图像、第二分辨率图像以及第三分辨率图像；

将第一分辨率图像、第二分辨率图像和第三分辨率图像输入判别网络，提取图像特征，将图像特征与条件向量进行空间拼接，得到的向量经过卷积处理后，引入目标损失函数，强化生成图像与真实图像的相似度。

进一步的，所述第一分辨率图像、第二分辨率图像以及第三分辨率图像生成的过程，包括：

将单词向量和拼接向量输入生成网络的初始图像生成阶段，经单词级深度融合处理，输出初始图像特征向量，将初始图像特征向量卷积处理得到第一分辨率图像；

将单词向量输入生成网络的第一细化阶段，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，并基于初始图像特征向量计算得到单词上下文向量后，与初始图像特征向量拼接，输出第一图像特征向量，将第一图像特征向量卷积处理得到第二分辨率图像；

将单词向量输入生成网络的第二细化阶段，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，并基于第一图像特征向量计算得到单词上下文向量后，与第一图像特征向量拼接，输出第二图像特征向量，将第二图像特征向量卷积处理得到第三分辨率图像。

进一步的，所述目标损失函数包括基于平滑L₁函数的视觉损失函数。

本发明的第二个方面提供一种基于多阶段生成对抗网络的文本生成图像系统。

一种基于多阶段生成对抗网络的文本生成图像系统，包括：

采集和特征提取模块，其被配置为：获取文本信息，并将其输入文本编码器，提取句子向量和单词向量；

预处理模块，其被配置为：将句子向量进行条件增强处理得到条件向量，将条件向量与噪声向量进行向量拼接，得到拼接向量；

生成网络模块，其被配置为：将单词向量和拼接向量输入生成网络，经初始图像生成阶段、第一细化阶段、第二细化阶段的处理，分别输出第一分辨率图像、第二分辨率图像以及第三分辨率图像；

判别网络模块，其被配置为：将第一分辨率图像、第二分辨率图像和第三分辨率图像输入判别网络，提取图像特征，将图像特征与条件向量进行空间拼接，得到的向量经过卷积处理后，引入目标损失函数，强化生成图像与真实图像的相似度。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于多阶段生成对抗网络的文本生成图像方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于多阶段生成对抗网络的文本生成图像方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、采用改良的语义条件批处理归一化进行文本与图像特征的充分融合技术手段，克服单纯跨模态注意机制的缺点，同时引入跨模态注意机制来发挥其优势，即同时使用两种生成方法来生成图像，生成更加逼真且更符合文本-图像语义一致性的图像。

2、采用新的特征嵌入模块——单词级深度融合模块的技术手段，使视觉特征图充分获得单词向量的文本信息，大幅度提高初始图像生成质量。

3、采用新的正则化方法——混合零中心梯度惩罚的技术手段，保证文本和图像的语义一致性，在不引入额外网络的情况下通过约束数据点梯度，使得生成器生成更真实的图像，避免因使用额外网络增加开销，同时提高生成网络的稳定性，加快网络的收敛速度。

4、采用基于平滑L₁函数的视觉损失函数的技术手段，增加对于文本和图像特征的比较，保证生成的图像具有逼真的视觉效果，提高文本和生成图像的语义一致性。

5、采用将局部特征嵌入应用于初始图像的生成阶段的技术手段，使得初始图像特征带有更多文本特征，进而提高初始图像的生成效果，保证最终图像的生成质量。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例中基于多阶段生成对抗网络的文本生成图像方法的流程图；

图2是本发明实施例中基于多阶段生成对抗网络的文本生成图像系统的结构图；

图3是本发明实施例中文本编码器流程图；

图4是本发明实施例中向上模块结构图；

图5是本发明实施例中单词级仿射变换图；

图6是本发明实施例中向下模块结构图；

图7是本发明实施例中有条件零中心梯度惩罚方向图；

图8是本发明实施例中混合零中心梯度惩罚梯度惩罚方向图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

根据自然语言描述自动生成图像是许多应用中的基本问题，深度融合生成对抗网络在文本生成图像方面的使用，使得生成图像质量有了巨大的提升。使用深度融合模块有效加强生成网络特征图中的视觉语义嵌入，使得生成图像效果更好，但是该网络并没有充分利用局部细节信息，因此为了保持文本的语义多样性和细节属性，在生成网络中引入新的特征嵌入模块——单词级深度融合模块使视觉特征图充分获得单词向量的文本信息，大幅度提高初始图像生成质量。注意力生成对抗性网络采用深度注意多模态相似模型来保证文本和图像的语义一致性，但是使用深度注意多模态相似模型会增加模型复杂度，增大网络训练开销。因此提出新的正则化方法——混合零中心梯度惩罚，保证文本和图像的语义一致性且避免因使用额外网络增加开销，同时提高生成网络的稳定性，加快网络的收敛速度。双重注意生成对抗网络采用视觉损失确保生成图像和真实图像具有相似的颜色分布和形状，但是该视觉损失所使用L₁函数存在局限性，可能会影响网络收敛。因此提出基于平滑L₁函数的视觉损失，保证生成的图像具有逼真的颜色分布和形状并且保证网络收敛。

实施例一

如图1所示，本实施例提供了一种基于多阶段生成对抗网络的文本生成图像方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

S101：获取文本信息，并将其输入文本编码器，提取句子向量和单词向量；

示例的，为了体现文本描述中关联信息的重要性和改善长程依赖问题，从而更好的生成句子和单词向量，引入基于双向长短期记忆(BI-LSTM)的文本编码器对文本信息进行编码。如图3所示，把长度为L且单词维度为M的文本描述矩阵T(w₁,w₂,...,w_L)作为文本编码器的输入，其中w_L为第L个单词向量。文本编码器根据双向长短期记忆模块的门控机制为输入的第i单词的前后关系赋予单词权重，并为每个单词生成两个隐状态H₁(i)和H₂(i)，隐状态H₁(i)和H₂(i)首尾连接组成新的单词向量w’。编码器输出为表征全局特征的句子向量e∈R^M以及表征局部特征的单词特征矩阵W∈R^M×L，其中句子向量中M为句子向量的维数，单词矩阵的列是对应单词的特征向量，单词矩阵中M为单词向量的维数，L为单词的个数。

S102：将句子向量进行条件增强处理得到条件向量，将条件向量与噪声向量进行向量拼接，得到拼接向量；

示例的，生成网络使用条件增强对句子向量进行处理，缓解潜在数据流形中的不连续性，句子向量e通过条件增强生成条件向量r，r是从独立的高斯分布N(μ(e),∑(e))中随机采样的隐变量，其中μ(e)是关于e的均值函数，∑(e)是关于e的对角协方差矩阵。句子向量作为条件增强模块的输入，经过均值处理后与嵌入噪声向量的e的对角协方差矩阵相加得到条件向量r，之后生成的条件向量r与从高斯分布中随机采样的噪声向量z进行向量拼接，得到拼接向量v。拼接向量v作为初始图像生成阶段的输入，用于增加后续生成图像的多样性。

S103：将单词向量和拼接向量输入生成网络，经初始图像生成阶段、第一细化阶段、第二细化阶段的处理，分别输出第一分辨率图像、第二分辨率图像以及第三分辨率图像；

具体的，第一分辨率图像、第二分辨率图像以及第三分辨率图像生成过程：

S103a：将单词向量和拼接向量输入生成网络的初始图像生成阶段，经单词级深度融合处理，输出初始图像特征向量，将初始图像特征向量卷积处理得到第一分辨率图像；

S103b：将单词向量输入生成网络的第一细化阶段，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，根据初始图像特征向量计算得到单词上下文向量与初始图像特征向量拼接，输出第一图像特征向量，将第一图像特征向量卷积处理得到第二分辨率图像；

S103c：将单词向量输入生成网络的第二细化阶段，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，根据第一图像特征向量计算得到单词上下文向量后与第一图像特征向量拼接，输出第二图像特征向量，将第二图像特征向量卷积处理得到第三分辨率图像。

示例的，生成网络分为多个阶段，每个阶段生成不同分辨率的图像。如图2所示，生成网络的初始图像生成阶段中，条件向量r和噪声向量z的拼接向量v作为初始输入，通过多个由深度融合模块组成的向上模块(UPBlock)进行额外文本特征嵌入，为初始的图像特征引入局部特征信息，输出图像特征h₀，然后通过卷积模块生成颜色正确的较为可靠的低分辨率图像，图像尺寸为64×64。在两个生成图像细化阶段分别引入传统注意力机制，第一个细化阶段将单词向量w’通过注意力模块转换到图像特征的公共语义空间中，根据第一图像特征向量计算得到单词上下文向量，然后通过F₁拼接单词上下文向量和图像特征h₀，进行上采样生成图像特征图h₁，最后通过卷积操作生成更高分辨率图像，图像尺寸为128×128。第二个细化阶段通过F₂拼接单词上下文向量和图像特征h₁，进行上采样生成图像特征图h₂，最终生成质量更高的最高分辨率图像，图像尺寸为256×256。

S104：将第一分辨率图像、第二分辨率图像和第三分辨率图像输入判别网络，提取图像特征，将图像特征与条件向量进行空间拼接，得到的向量经过卷积处理后，引入目标损失函数，强化生成图像与真实图像的相似度。

判别网络作为生成对抗网络中的监督者，在整个网络中具有重要作用，但生成对抗网络自身性质使得网络训练的稳定性不佳，因此引入带有混合零中心梯度惩罚的判别网络。

判别网络使用生成图像作为输入，通过卷积模块和向下模块对图像进行提取特征，把获得的图像特征与条件增强的句子向量进行空间拼接，进行两个卷积操作后预测对抗损失。由于生成图像尺寸不同，所以使用对应数量的向下模块对图像进行下采样，向下模块数量与图像尺寸成正比。

关于目标损失函数：

将支持向量机的分类思想引入生成对抗网络，使用铰链损失来稳定训练过程，第i个阶段的判别器损失函数如下：

其中z是从高斯分布采样的噪声向量，e是句子向量，λ代表平衡超参数且0≤λ≤1。P_g、P_r、P_mis分别代表合成数据分布、真实数据分布和不匹配数据分布。加入混合零中心梯度惩罚后的第i个判别器的目标函数如下：

整个判别网络的目标函数为：

其中α₀、α₁、α₂为各判别器的平衡参数。此外，使用与DTGAN网络中视觉损失函数不同的基于平滑平均绝对误差(L₁损失)函数来生成视觉损失，公式如下：

其中

f(x)和

表示由判别器提取的真实图像和生成图像的图像特征，通过使用平滑L₁损失以最小化真实图像特征和生成图像特征之间的距离。添加视觉损失函数的第i个生成器的目标函数：

L_Gi＝E_G(z)～PgD(G(z),e)+oL(X_i) fori＝0,1,2， (5)

其中o为超参数，为正数。整个生成网络的目标函数：

L_G＝η₀L_G0+η₁L_G1+η₂L_G2， (6)

其中η₀、η₁、η₂为各个生成器的平衡参数。

判别网络中使用混合零中心梯度惩罚作为正则化措施，保证真实且文本-图像匹配的数据点位于判别器损失函数曲面的最小点，同时使真实且文本-图像匹配数据点的函数邻域平滑。这使得生成器能够合成更真实且文本-图像语义更一致的图像。此外，生成网络中加入额外的视觉损失，用于强化生成图像与真实图像的相似度，使得生成图像具有更高的真实性。

利用生成对抗网络生成高质量图像已经取得了显著进展，但堆叠式生成对抗网络的初始图像生成质量不稳定，易导致最终图像生成效果不佳。本实施例提出多阶段生成对抗网络提高文本生成图像的精度，保持生成图像与文本的语义一致性。构造深度融合模块用于初始图像文本信息的添加，使得图像特征包含更多的文本信息，生成质量较高的初始图像。引入注意力机制用于图像细节的生成，关注文本描述中的相关词来合成图像不同子区域的细节，实现图像细节的细粒度生成。此外，提出视觉损失和混合零中心梯度惩罚，视觉损失通过比较真实数据特征与生成数据特征来进一步提高最终生成图像的质量，混合零中心梯度惩罚在不引入额外网络的情况下使得生成器生成更真实的和文本-图像语义更一致的图像。

实施例二

本实施例提供了一种基于多阶段生成对抗网络的文本生成图像系统。

如图2所示，融合注意力机制的多阶段生成对抗网络包括三个部分组成：文本特征提取、生成网络以及判别网络。文本描述通过文本编码器编码成句子向量和单词向量，句子向量作为初始特征输入，单词向量分别用于初始图像生成和后期图像细化。在图像的生成阶段，初始特征通过向上模块和传统注意力模块为生成图像添加文本特征。判别网络通过对生成图像进行特征提取并与文本信息进行空间拼接，预测对抗损失以评估生成图像特征的视觉真实性和语义一致性。

一种基于多阶段生成对抗网络的文本生成图像系统，包括：

作为一种或多种实施方式，所述生成网络模块包括：初始图像生成模块、第一细化模块以及第二细化模块；

所述初始图像生成模块，其被配置为：接收将单词向量和拼接向量，经单词级深度融合处理，输出初始图像特征向量，将初始图像特征向量卷积处理得到第一分辨率图像；

所述第一细化模块，其被配置为：接收单词向量，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，根据初始图像特征向量计算得到单词上下文向量与初始图像特征向量拼接，输出第一图像特征向量，将第一图像特征向量卷积处理得到第二分辨率图像；

所述第二细化模块，其被配置为：接收单词向量，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，根据第一图像特征向量计算得到单词上下文向量与第一图像特征向量拼接，输出第二图像特征向量，将第二图像特征向量卷积处理得到第三分辨率图像。

作为一种或多种实施方式，所述第一细化模块包括第一向上模块，第一向上模块包括上采样层和深度融合层。

所述第一向上模块其被配置为：首先将初始图像特征向量在上采样层进行上采样，然后在深度融合层与细粒度的文本特征进行融合，得到的融合特征与直接来自上采样层的图像特征进行相加，作为第一向上模块的输出；

作为一种或多种实施方式，所述第二细化模块包括第二向上模块，第二向上模块包括上采样层和深度融合层。

所述第二向上模块其被配置为：首先将第一图像特征向量在上采样层进行上采样，然后在深度融合层与细粒度的文本特征进行融合，得到的融合特征与直接来自上采样层的图像特征进行相加，作为第二向上模块的输出。

示例的，为了深入引入文本特征，向上模块中使用深度融合生成操作，模块结构如图4所示。向上模块的基本组成包括上采样层、深度融合模块(DFBlock)。该模块有两个输入：作为条件的单词向量w’和来自前方网络的图像特征IF_i。首先图像特征IF_i进行上采样，一方面在两个深度融合模块中与细粒度的文本特征进行融合，得到的融合图像特征与另一方面直接来自上采样层的图像特征进行相加作为模块输出。其中深度融合模块是对于条件批处理归一化的改进，其结构包括：仿射变换层，修正线性单元(ReLU)层和卷积层。一个深度融合模块包括两个仿射变换层，且每个仿射变换层后都有一个ReLU层进行数据修正，融合模块最后为转置卷积层。仿射变换层采用单词级仿射变换，具体流程如图5所示。

单词级仿射变换引入视觉语义嵌入(VSE)模块实现单词特征和图像特征的相互融合。首先使用感知层调整单词向量w’_s的维度，使之与视觉特征IF_i的维度匹配，得到匹配后的特征f(w’_s)。然后根据图像的嵌入特征向量V_j和文本特征向量f(w'_s)计算图像各子区域j的VSE向量vse_j，采用两个卷积核尺寸为1×1的卷积层分别从VSE矩阵计算单词级调制参数，最后通过缩放参数和平移参数对图像特征IF_i进行缩放和平移操作得到下一阶段的图像特征。其中w’_s代表第s个单词向量，IF_i为图像特征矩阵。VSE向量的具体公式如下：

其中

表示第s个词向量w’_s对视觉特征图第j个子区域V_j的视觉语义嵌入权值，σ()为softmax函数，并且S＝r。仿射变换的具体公式为：

IF_i+1＝IF_i×γ+β， (8)

其中IF_i+1为向上模块的输出，IF_i为向上模块的输入，γ和β分别为缩放参数和平移参数。经过多个向上模块融合文本特征和上采样操作，生成图像特征h₀，

向上模块在生成过程中有效地利用输入文本的语义，从文本中提取语义共享空间以保证图像生成的语义一致性和多样性。此外，它更好的保证初始图像的生成质量，有利于后期高质量高分辨率的图像生成。

为了更好实现后期图像的细粒度生成，注意力模块引入注意力机制，它通过关注自然语言描述中的相关词来合成图像不同子区域的细粒度细节。两个图像细粒度生成阶段分别用i＝1,2表示，使用注意力模块的图像细化生成阶段具有两个输入：单词特征矩阵W∈R^M×L和来自先前隐藏层的图像特征

单词特征通过添加感知器层，将单词特征转换到图像特征的公共语义空间，转换后的形式为W’_i＝U_iW，其中

基于来自先前隐藏层的图像特征h_i为图像的每个子区域计算单词上下文向量F_attn(W,h_i)＝(c₀,c₁,c₂,....,c_Hi-1)，h_i的每一列是图像的子区域的特征向量，其中c_j计算公式为：

其中β_j,k是生成图像的第j个子区域关注的第k个单词的权重，权重公式如下：

其中

其中

表示第j个列向量的转置。单词上下文向量每一列均嵌入所关注的全部单词的权重，对于单词进行细粒度关注，区分单词关系和重要性以实现图像细节的精准生成。单词上下文向量F_attn(W,h_i)与先前隐藏层的图像特征h_i作为下一阶段网络的输入。

作为一种或多种实施方式，所述判别网络模块包括卷积模块和向下模块，通过卷积模块和向下模块对第一分辨率图像、第二分辨率图像以及第三分辨率图像进行特征提取，把获得的图像特征与条件增强的句子向量进行空间拼接，进行两个卷积操作后预测对抗损失。

与向上模块对应，向下模块由下采样层和残差网络结构组成，模块结构如图6所示。来自前面网络生成的图像特征尺寸为2n×2n，通过该模块的下采样层进行下采样处理，图像特征尺寸缩小为n×n。一方面通过ReLU层进行数据修正，利用尺寸为2×2的卷积核进行特征提取，共进行两次数据修正和特征提取，最后输出尺寸为(n-2)×(n-2)的图像特征。其中ReLU层使用ReLU函数解决复杂的非线性问题，缓解过拟合问题的发生。

另一方面来自下采样层的输出直接作为结果同提取的特征相加，之和作为该模块的输出结果。由于融合注意力机制的多阶段生成对抗网络是深度网络，在下采样提取特征的同时，使用残差网络结构有效缓解深度网络所产生的梯度爆炸和网络退化问题。

为了增强图像真实性和语义一致性，提出混合零中心梯度惩罚。判别网络中使用有条件零中心梯度惩罚和无条件零中心梯度惩罚相结合的方式，从两个方面对真实和语义匹配的数据点的梯度进行降低。

无条件零中心梯度惩罚是对真实数据的零中心梯度惩罚，减小真实数据点的梯度并将其推到损失函数曲面的最小点。它使真实数据点及其邻域的损失函数曲面平滑，有助于合成数据点向真实数据点收敛。有条件零中心梯度惩罚是引入文本匹配的约束，使得合成数据点可以向真实且与文本匹配的数据点收敛，其梯度惩罚方向如图7所示，其中γ和β分别代表在存在约束条件e下的数据点在真实度和匹配度的惩罚方向。

一次性降低真实且匹配的数据点梯度并不能更好衡量所有信息的重要性，所以混合零中心梯度惩罚使用两个阶段的梯度惩罚，梯度惩罚如图8所示，图中α代表对真实数据点的梯度惩罚，β代表在经过真实度方向梯度惩罚的真实点上对文本匹配度的梯度惩罚方向。混合零中心梯度惩罚在第一个阶段使用无条件零中心梯度惩罚，用于降低真实数据点梯度。在第二个阶段中，使用有条件零中心梯度惩罚对于惩罚后的数据点进行与文本匹配方向的梯度惩罚。经过两次梯度惩罚后的数据点可以更好的反应全部的真实数据信息，使得生成图像更趋近真实。此外，真实性和语义一致性存在不对等性，混合零中心梯度惩罚更侧重对于真实性的梯度惩罚。梯度惩罚公式如下：

其中k，a，b和p为平衡超参数，且a>b，P_r为真实数据分布，x’为经过真实度方向梯度惩罚的真实数据点。

混合零中心梯度惩罚不使用额外的网络，因此不会产生额外的开销。在生成效果方面，它使得生成图像更加清晰，文本和图像语义更一致。在模型性能方面，它使得训练标准更为明确，这对于加速生成网络的收敛具有重要意义，有效提升训练的稳定性。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于多阶段生成对抗网络的文本生成图像方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于多阶段生成对抗网络的文本生成图像方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多阶段生成对抗网络的文本生成图像方法，其特征在于，包括：

2.根据权利要求1所述的基于多阶段生成对抗网络的文本生成图像方法，其特征在于，所述第一分辨率图像、第二分辨率图像以及第三分辨率图像生成的过程，包括：

将单词向量输入生成网络的第一细化阶段，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，根据初始图像特征向量计算得到单词上下文向量与初始图像特征向量拼接，输出第一图像特征向量，将第一图像特征向量卷积处理得到第二分辨率图像；

将单词向量输入生成网络的第二细化阶段，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，根据第一图像特征向量计算得到单词上下文向量与第一图像特征向量拼接，输出第二图像特征向量，将第二图像特征向量卷积处理得到第三分辨率图像。

3.根据权利要求1所述的基于多阶段生成对抗网络的文本生成图像方法，其特征在于，所述提取单词向量的过程，包括：

采用基于双向长短期记忆的文本编码器对文本信息进行编码，赋予单词权重，并为每个单词生成两个隐状态向量，两个隐状态向量首尾连接组成新的单词向量。

4.根据权利要求1所述的基于多阶段生成对抗网络的文本生成图像方法，其特征在于，所述目标损失函数包括基于平滑L₁函数的视觉损失函数。

5.一种基于多阶段生成对抗网络的文本生成图像系统，其特征在于，包括：

6.根据权利要求5所述的基于多阶段生成对抗网络的文本生成图像方法，其特征在于，所述生成网络模块包括：初始图像生成模块、第一细化模块以及第二细化模块；

所述第二细化模块，其被配置为：接收将单词向量，采用传统注意力机制将单词向量转换到图像特征的公共语义空间中，根据第一图像特征向量计算得到单词上下文向量与第一图像特征向量拼接，输出第二图像特征向量，将第二图像特征向量卷积处理得到第三分辨率图像。

7.根据权利要求6所述的基于多阶段生成对抗网络的文本生成图像方法，其特征在于，所述第一细化模块包括第一向上模块，第一向上模块包括上采样层和深度融合层，

和/或，

所述第二细化模块包括第二向上模块，第二向上模块包括上采样层和深度融合层，

8.根据权利要求5所述的基于多阶段生成对抗网络的文本生成图像方法，其特征在于，所述判别网络模块包括卷积模块和向下模块，通过卷积模块和向下模块对第一分辨率图像、第二分辨率图像以及第三分辨率图像进行特征提取，把获得的图像特征与条件增强的句子向量进行空间拼接，进行两个卷积操作后预测对抗损失。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的基于多阶段生成对抗网络的文本生成图像方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于多阶段生成对抗网络的文本生成图像方法中的步骤。