CN115943435A

CN115943435A - 基于文本的图像生成方法和设备

Info

Publication number: CN115943435A
Application number: CN202180047314.5A
Authority: CN
Inventors: 苟毓川; 武谦成; 李明昊; 龚博; 韩玫
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-06
Filing date: 2021-06-30
Publication date: 2023-04-07
Also published as: WO2022007685A1; US20220005235A1

Abstract

提供了一种用于图像生成的方法和设备。该方法包括：获取描述待生成图像的内容的文本；使用文本编码器从所述文本中提取文本特征向量；将语义掩码确定为所述待生成图像的空间约束；及根据所述语义掩码和所述文本特征向量，使用生成对抗网络GAN模型自动生成图像。

Description

基于文本的图像生成方法和设备

相关申请的交叉引用

本申请要求于2020年7月6日提交的美国临时专利申请第63/048,505号的优先权。本申请还要求于2021年6月10日提交的美国专利申请第17/344,484号的优先权，其全部内容通过引用并入本文。

技术领域

本公开涉及图像处理技术领域，尤其涉及基于文本的图像生成方法及设备。

背景技术

基于语义描述生成高保真、逼真的图像的任务对许多应用程序都很有用。许多研究都集中在文本到图像的合成任务上，该合成任务采用自然语言描述来生成与文本匹配的图像。在现有技术中，以文本输入为条件的生成对抗网络(generative adversarialnetwork，GAN)模型用于图像生成。然而，现有的GAN模型几乎无法控制所生成的图像的布局。通常，这些模型会生成形状变形的对象或布局不真实的图像。图4示意了由Xu等人在“AttnGAN：使用注意力生成对抗网络进行细粒度文本到图像生成”中提出的AttnGAN模型所生成的示例结果图像，IEEE计算机视觉和模式识别会议论文集，2018年。

所公开的方法和系统旨在解决上述的一个或多个问题以及其他问题。

发明内容

本公开的第一方面提供一种应用于计算机设备的图像生成方法。所述方法包括：获取描述待生成图像的内容的文本；使用文本编码器从所述文本中提取文本特征向量；将语义掩码确定为所述待生成图像的空间约束；及根据所述语义掩码和所述文本特征向量，使用生成对抗网络GAN模型自动生成图像。

本公开的另一方面提供一种图像生成设备。所述设备包括存储器；及处理器，与所述存储器耦合并被配置为执行多个操作，包括：获取描述待生成图像的内容的文本；使用文本编码器从所述文本中提取文本特征向量；将语义掩码确定为所述待生成图像的空间约束；及根据所述语义掩码和所述文本特征向量，使用生成对抗网络GAN模型自动生成图像。

本公开的另一方面提供一种非暂时性计算机可读存储介质，其上存储有计算机指令。所述计算机指令由处理器执行时，使所述处理器执行：获取描述待生成图像的内容的文本；使用文本编码器从所述文本中提取文本特征向量；将语义掩码确定为所述待生成图像的空间约束；及根据所述语义掩码和所述文本特征向量，使用生成对抗网络GAN模型自动生成图像。

本领域的技术人员根据本公开的说明书、权利要求和附图能够理解本公开的其他方面。

附图的简要说明

本专利或申请文件包含至少一幅彩色附图。本专利或专利申请公开的彩色附图的副本将在请求和支付必要费用后由专利局提供。

下列附图仅是根据各种公开的实施例用于说明目的的示例，并不限制本公开的范围。

图1是根据本公开的一些实施例的示例性计算系统的框图。

图2是根据本公开的一些实施例的示例性图像生成过程。

图3是根据本公开的一些实施例的图像生成的示例性框架的框图。

图4示出了现有技术中AttnGAN模型生成的样本结果和SegAttnGAN模型生成的样本结果，以及根据本公开的一些实施例的相同文本描述的自注意力SegAttnGAN模型。

图5示出了现有技术中AttnGAN模型生成的附加样本结果，以及根据本公开的一些实施例的SegAttnGAN模型和自注意力SegAttnGAN模型根据相同文本描述生成的样本结果。

图6示出了根据本公开的一些实施例的自注意力SegAttnGAN模型生成的示例结果、相应的文本描述和相应的分割掩码。

具体实施方式

现在将详细参考在附图中示出的本发明的示例性实施例。以下，将参照附图描述符合本公开的实施例。在可能的情况下，附图中将使用相同的附图标记来指代相同或相似的部分。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有与本发明一致的所有其他实施例，都属于本发明保护的范围。

本公开提供了一种用于基于文本的图像生成方法和设备，即文本到图像生成。所公开的方法和/或设备可以应用于任何需要根据文本描述生成图像的适当场合。所公开的图像生成/合成过程是基于具有分割注意力的生成对抗网络(GAN)模型实现的，即SegAttnGAN模型，其利用来自分割数据的全局空间注意力作为除文本描述之外的附加输入来指导图像生成。在公开的SegAttnGAN模型中添加空间注意机制被证实通过调节对象形状和图像布局明显增加了视觉真实感。

在一些实施例中，所公开的过程还包括构建自注意力网络以生成分割掩码，然后使用生成的分割掩码来生成图像。这被称为自注意力SegAttnGAN模型，其还展示了在结果图像中约束目标对象的形状的所需能力。图4示出了现有技术中AttnGAN模型生成的样本结果和SegAttnGAN模型生成的样本结果，以及根据本公开的一些实施例的相同文本描述的自注意力SegAttnGAN模型。如图4所示，当现有技术中的AttnGAN模型根据输入的文本描述生成变形图像时，所公开的SegAttnGAN模型和自注意力SegAttnGAN模型(self-attentionSegAttnGAN model)都可以输出逼真的图像。Xu等人提出的AttnGAN模型在整个本公开中用作基准模型，用于比较和证明由所公开的方法/设备提供的性能。

语义信息(例如，分割掩码)可以在图像生成中提供指导。应该注意的是，不同于用语义图或掩码指导图像到图像的转换或图像到图像的生成的其他图像生成技术，所公开的方法和设备使用语义掩码来进行文本到图像的生成。此外，现有技术中的AttnGAN模型没有考虑或使用语义信息。

图1示意了示例性计算系统/设备的框图，根据本公开的一些实施例，该示例性计算系统/设备能够实现所公开的图像生成方法。如图1所示，计算系统100可以包括处理器102和存储介质104。根据某些实施例，计算系统100还可以包括显示器106、通信模块108、附加的外围设备112和一个或多个总线114以将所述各个设备耦合。可以省略某些设备并且可以包括其他设备。

处理器102可以包括任何合适的处理器。在某些实施例中，处理器102可以包括用于多线程或并行处理的多个内核，和/或图形处理单元(GPU)。处理器102可以执行计算机程序指令序列以执行各种过程，例如图像生成和着色程序、GAN模型训练程序等。存储介质104可以是非暂时性计算机可读存储介质，并且可以包括存储器模块，例如ROM、RAM、闪存模块和可擦写存储器，以及大容量存储器，例如CD-ROM、U盘和硬盘等。当由处理器102执行时，存储介质104可以存储用于实现各种过程的计算机程序。存储介质104还可以包括一个或多个数据库，用于存储某些数据，例如图像数据、训练数据集、测试图像数据集、训练GAN模型的数据，并且可以对存储的数据执行某些操作，例如数据库搜索和数据检索。

通信模块108可以包括用于通过网络建立连接的网络设备。显示器106可以包括任何适当类型的计算机显示设备或电子设备显示器(例如，基于CRT或LCD的设备、触摸屏)。外围设备112可以包括附加的I/O设备，例如键盘、鼠标等等。

在操作中，处理器102可以被配置为执行存储在存储介质104上的指令并且执行如以下描述中详述的与图像生成方法相关的各种操作。

图2示意了根据本公开的一些实施例的示例性图像生成过程200。图3示出了根据本公开的一些实施例的图像生成的示例性框架300的框图。过程200可以由图像生成设备实现，该图像生成设备可以是具有一个或多个处理器和一个或多个存储器的任何合适的计算设备/服务器，例如计算系统100(例如处理器102)。框架300可以由具有一个或多个处理器和一个或多个存储器的任何合适的计算设备/服务器诸如计算系统100(例如处理器102)实现。

如图2和图3所示，获取描述待生成图像的内容的文本(S202)。所述文本可能是这样的句子，例如“这只鸟有带条纹的红色冠冕和红色的胸脯”，或者“这花是蓝白相间的，花瓣是椭圆形的”。在一些实施例中，所述文本可以被输入到所公开的图像生成设备的图形用户界面，或者可以通过语音识别从输入到所公开的设备的语音命令中识别和转换获得所述文本。在一些实施例中，所述文本是一个完整的句子。

此外，使用文本编码器从所述文本中提取文本特征向量(S204)。例如，从所述文本中提取单词特征和句子特征并将所述单词特征和句子特征编码为文本特征向量。所述文本特征向量可以指一个或多个条件向量，单词注意力模型(例如，GAN模型)使用该一个或多个条件向量生成以所述文本的描述为条件的图像。所述文本特征向量可以包括句子特征向量3022和词特征向量3026。所述句子特征向量3022可以侧重于描述所述文本的整个句子的全局特征。所述词特征向量3026可以包括作为元素的每个词并且可以提供对图像的子区域的详细指导。在一些实施例中，可以将所述文本输入文本编码器302，所述文本编码器302被配置为基于所述输入的文本生成所述文本特征向量(例如句子特征向量和词特征向量)。在一些实施例中，所述文本编码器可以是长短期记忆(Long short-term memory，LSTM)编码器。在一些实施例中，在所述单词注意力模型中，所述单词特征向量被直接用作单词级别的注意力，所述句子特征向量与随机潜在向量(也称为z向量)连接。从连接所述句子特征向量和所述潜在向量获得的向量可以称为修改后的句子特征向量3024。所述修改后的句子特征向量3024被认为是所述文本特征向量之一。在一些实施例中，所述随机潜在向量可以包括多个元素，每个元素是从0到1内的一个随机数。

此外，语义掩码被确定为所述待生成图像的空间约束(S206)。所述语义掩码也可以称为分割掩码、分割图或语义图。所述语义图(或简称掩码)3042可以是与目标图像(例如所述待生成图像或调整大小以与生成过程中的中间图像具有相同的分辨率)具有相同大小的图像并且描述所述目标图像的内容的轮廓。即，语义图与一个或多个语义标签相关联，所述语义图的每个像素具有对应的语义标签。具有相同语义标签的像素描述相同的主题/内容。换句话来讲，所述语义图包括多个区域，并且所述语义图的同一区域的像素具有相同的语义标签，该语义标签用于指示该区域的内容。例如，语义图可以包括标记为鸟、背景、天空、山等的区域。在一些实施例中，所述掩码3042可以是包含描述内容的轮廓/形状的单个内容/主题的二值图像，并且所述二值图像的每个像素都被标记为所述目标主题或背景。

所述语义图与所述文本特征向量一起用作所公开的GAN模型的注意力输入。在一个实施例中，所述语义图3042可以是从数据集304A中选择的预先存在的掩码。该选择可以是选择要生成的图像的期望形状/轮廓的手动干涉。所公开的使用预先存在的掩码作为空间约束的GAN模型可以被称为SegAttnGAN模型。在另一个实施例中，所述语义图3042可以由经过训练的自注意力生成器(self-attention generator)304B根据修改后的句子特征向量3024自动生成。所公开的使用自动生成的掩码作为空间约束的GAN模型可以称为自注意力SegAttnGAN模型。

在自注意力SegAttnGAN模型中，自注意力生成器生成所述分割掩码并用相应的鉴别器进行训练。所述自注意力生成器的训练采用从粗到精的训练策略，分辨率从低到高(例如，从64*64、128*128到256*256)。在每个分辨率级别，都有一个用于训练的鉴别器。所述训练数据集可以包括文本和从文本对应的原始图像中获得的目标语义图。所述训练的目的是找到一个生成器，以将从文本中提取的修改后的句子特征向量作为输入，生成最接近所述文本对应的目标语义图的语义图。在操作中，所述经过训练的self-attention生成器将来自SegAttnGAN的所述相同的修改后的句子特征向量3024作为输入，它是z向量(即随机潜在向量)和文本嵌入向量(即句子特征向量3022)的串联向量。在一些实施例中，句子特征向量3022被自注意力生成器使用并且不使用所述单词特征向量3026。下面将描述在所公开的GAN模型中使用的鉴别器和生成器的更多细节。

根据语义掩码和文本特征向量，使用生成对抗网络(GAN)模型自动生成图像(S208)。也就是说，文本特征向量和空间约束(即语义图)是输入到所公开的GAN模型中以生成所需图像的条件。

在一些实施例中，所公开的GAN模型包含生成器和多尺度鉴别器。生成器使用多尺度鉴别器进行训练，并配置为根据文本特征和空间约束生成图像。该框架包括串联排列的多个生成器312和多个上采样块310，以实现由粗到精的策略。.一个生成器可能有一个相应的上采样块。每个上采样块310可以包括接受语义图作为形状约束的一个或多个卷积层和注意层。上采样块的输入还可以包括文本特征，以便图像以文本描述为条件。除第一个上采样块之外的上采样块的输入还包括其前一个上采样块的结果。一个上采样块的结果也称为下一个上采样块的隐藏特征。即在运行过程中，训练过程和图像生成过程依次经过多个上采样块，对应的分辨率从低到高(即先处理粗分辨率对应的上采样块，再处理更高分辨率对应的上采样块)。在训练过程中，在每个分辨率级别，所述生成器在经过相应的上采样块后生成图像，供相应分辨率的判别器进行评估，从而训练出最优的生成器。在图像生成过程中，对应每个分辨率级别所训练的生成器生成具有相应分辨率的图像。

在一些实施例中，所述图像生成过程可以开始于将修改后的句子特征向量3024(即通过将句子特征向量3022与随机潜在向量连接而获得的向量)输入到完全连接的神经网络308，并添加空间约束(即语义图3042)以启动所述上采样块310中的过程。如图3所示，所述示例性第一生成器312A可以被配置为根据所述句子特征向量3022、所述随机潜在向量z和通过几层上采样和卷积操作调整(例如通过所述分割注意模块306执行)为64*64大小的所述语义图3042生成分辨率为64*64的图像。在一些实施例中，表示为f_1∧w的所述词特征向量3026可以用作词级注意力并且与一个上采样块310A的结果组合/连接以在所述上采样块310B中使用。所述第二生成器312B被配置为根据所述词特征向量3026、来自前一个上采样块310A的隐藏特征以及尺寸调整为128*128的所述语义图生成分辨率为128*128的图像。类似地，表示为f_2∧w的所述词特征向量3026可以与一个上采样块310B的结果组合以在所述上采样块310C中使用。所述第三生成器312C被配置为所述根据词特征向量3026、来自前一个上采样块310B的隐藏特征以及通过一组/层上采样及卷积运算调整为256*256大小的所述语义图生成分辨率为256*256的图像。可以理解的是，所述生成器的数量和分辨率级别的数量仅为示例性目的而列出，本发明对此不作限制。

具体地，所输入的语义图的所述空间约束可以由分割注意模块306保留(即，添加到GAN模型)。在数学上，F表示在所公开的模型中(例如，在框架300中)的前一层(例如，上采样和卷积层)的特征，S表示语义图。在第一层中，F表示根据所述修改后的句子特征向量转换的矩阵。保留空间约束的所述分割注意模块的输出表示为公式(1)：

F′＝BN(F)*Conv(S)+Conv(S) (1)

在公式(1)中，BN()表示批量归一化函数，Conv()表示卷积函数。此函数的一个属性是保留分割掩码的空间信息。通过以从粗到细的策略将语义图注意力引入每个上采样层，该模型可以避免语义被纯上采样层消除。

在一些实施例中，每次使用所述分割注意模块306时，可以调整用作形状约束的所述语义图3042的大小以具有与当前层(例如，对应于隐藏特征)相同的分辨率。所述生成器可以应用空间自适应方法并使用调整大小的语义图作为相应上采样块的注意输入。例如，对应于分辨率128*128的当前上采样块310B的输入可以是对应于分辨率64*64的前一个上采样块310A的输出；并且当前上采样块310B中用于关注层的语义图3042可以被调整为128*128。在一些实施例中，对应于每个上采样层的分辨率可以比对应于前一个上采样层的分辨率增加(例如，加倍)。例如，分辨率可以包括4*4、8*8、16*16、…,直到1024*1024。

所述生成器312可以在中间上采样块(例如，块310B)输出中间图像，或者在最后一个上采样块(例如，块310C)输出最终图像。所述生成器输出的图像的分辨率与对应的上采样块的分辨率可以相同。在一些实施例中，来自上采样块的结果的图像可以在被输入到具有类似配置的下一个上采样块之前被放大(例如，将64*64图像放大到128*128图像)。每个生成的图像可能包括n个颜色通道(例如n＝3)，使得图像的数据大小为高*宽*n。

在一些实施例中，在所公开的GAN模型中，第一生成器根据所述修改后的句子特征向量和下采样到第一分辨率的语义掩码来确定第一图像和第一隐藏特征；第i个生成器根据由第(i-1)个生成器确定的第(i-1)个隐藏特征和具有第i个分辨率的语义掩码，确定具有第i个分辨率和第i个隐藏特征的第i张图像。这里，i为大于1的整数。另外，第i个生成器进一步根据词特征向量确定第i张图像。也就是说，所述词特征向量在确定第i张图像时也会影响第i个生成器。

因此，框架300和过程200的输出是从所公开的GAN模型生成的图像。该图像可以显示在计算设备的图形用户界面上。

如前所述，所述生成器的训练旨在学习如何根据文本特征和语义图来输出目标图像。另一方面，所述多尺度鉴别器以生成的图像作为输入，旨在确保所述生成器生成的图像与目标图像相似。所述多尺度鉴别器仅在训练阶段使用。

为了训练所述公开的生成对抗网络，具有条件输入的所述目标函数是所述生成器G和公式2中定义的多尺度鉴别器D之间的最小-最大博弈。

在公式(2)中，x指的是来自真实数据分布的图像，z表示驱动假数据生成的随机潜在向量。t指的是文本特征向量，s指的是所述语义图。V()表示数量函数，P()表示概率分布函数，E()表示期望值函数。G(z,t,s)表示生成器G根据随机潜在向量z、文本特征向量t和语义图s生成的图像。D(G(z,t,s),t)表示所述鉴别器执行的关于生成的图像如何符合文本描述的评估。D(x,t)表示对真实图像和文本描述的评估。公式(2)旨在最大化V(G,d)，同时最小化所述生成器和所述鉴别器的损失值。

在所述公开的SegAttnGAN模型中，所述语义掩码是从数据集中获得的，生成器Gi的损失函数L()定义在等式(3-1)中：

在等式(3)中，第一项是无条件损失，确定图像是真实的还是假的，第二项，条件损失，确定生成的图像是否与文本描述匹配。另外，i表示分辨率标尺序号。例如，当有m个分辨率尺度时(例如，如图3所示，m＝3，分辨率为64*64、128*128和256*256)，i等于0、1、...和m-1。

在所述公开的SegAttnGAN模型中，判别器Di的损失函数定义为等式(4):

在等式(4)中，前两项对应于优化判别器的无条件损失，后两项是根据文本特征的条件损失。

所述SegAttnGAN模型的生成器的总损失函数在等式(5-1)中定义：

L＝L_C+λL_DAMSM

在等式(5-1)中，L_DAMSM可以根据Xu等人在AttnGAN模型中定义的深度注意多模态相似性模型(Deep Attentional Multimodal Similarity Model，DAMSM)损失获得。

在自动生成语义图的自注意力SegAttnGAN模型中。，G_s表示自注意力生成器304B。在等式(3)和(4)中使用G_s(z,t)代替s来定义生成器损失和鉴别器损失。自注意力SegAttnGAN模型的整体损失定义在等式(5-2)中：

在一些实施例中，在一个实现示例中，使用CUB(Caltech-UCSD Birds)数据集和Oxford-102数据集来评估所述公开的GAN模型。所述CUB数据集包含200个类别的不同鸟类的图像。该数据集中的8841张图像用于训练，2947张图像用于测试。Oxford-102是一个由花卉图像组成的数据集，这个数据集中的6141张图像用于训练，2047张图像用于测试。

在实施例中，所述公开的SegAttnGAN模型和所述公开的自注意力SegAttnGAN模型中的训练的生成器输出64*64、128*128和256*256的图像。所述语义掩码被处理成标签图(每个通道包含不同的对象)。在所述生成器的每个上采样层，分割标签图被下采样为与所述生成器中当前隐藏特征相同的分辨率张量。所述注意模块在之前的上采样操作之后应用。所述文本和图像编码器遵循与AttnGAN模型相同的实现。对于自注意力SegAttnGAN，自注意力生成器没有词特征。文本嵌入维度设置为256(即结合句子特征和潜在向量的修改后的句子特征向量的维度设置为256)，损失权重λ设置为5.0。具有beta₁＝0.5和学习率为0.0002的ADAM求解器用于生成器和鉴别器。

使用两个定量测量来评估生成的图像。第一指标是Tim等人在“训练GAN的改进技术”中，提出的Inception Score，arXiv预印本arXiv:1606.03498(2016)，已被广泛用于评估生成图像的质量。另一指标是R-precision，由Xu等人在2018年IEEE计算机视觉和模式识别会议论文集“AttnGAN：细粒度文本到图像生成与注意力生成对抗网络”中提出，作为文本到图像的合成任务的补充评估指标，以确定生成的图像是否很好地基于给定的文本描述。

具体地，使用所公开的SegAttnGAN模型和自注意力SegAttnGAN模型生成的图像的Inception Score被记录并与来自其他最先进方法的Inception Score进行比较，包括，Reed等人在2016年第33届国际机器学习会议论文集中的“生成对抗性文本到图像合成(Generative adversarial text-to-image synthesis)”中提出的GAN-INT-CLS模型，Reed等人在arXiv预印本arXiv:1610.02454(2016)的“学习画什么和在哪里画(Learning whatand where to draw)”中提出的GAWWN模型，Zhang等人在2017年IEEE计算机视觉国际会议论文集中的“Stackgan:使用堆叠生成对抗网络将文本合成为照片般逼真的图像(Text tophoto-realistic image synthesis with stacked generative adversarialnetworks)”中提出的StackGAN模型，Zhang等人在IEEE交易模式分析和机器智能(IEEEtransactions on pattern analysis and machine intelligence)41.8(2018):1947-1962中的“Stack-GAN++:具有堆叠生成对抗网络的逼真图像合成(Realistic ImageSynthesis with Stacked Generative Adversarial Networks)”中提出的StackGAN++模型，Xu等人提出的如前所述的AttnGAN模型，以及Qiao等人在2019年的IEEE/CVF计算机视觉和模式识别会议论文集中的“Mirrorgan：通过重新描述学习文本到图像生成(Learningtext-to-image generation by redescription)”中提出的MirrorGAN模型。CUB和Oxford-102数据集的比较如表1所示。所述公开的SegAttnGAN模型在CUB和Oxford-102数据集上都获得了最高的Inception Score。与基线模型AttnGAN相比，所述公开的SegAttnGAN模型在CUB数据集上将Inception Score从4.36提高到4.82。所述自注意力SegAttnGAN模型在CUB数据集和Oxford-102数据集上也分别有良好Inception scores 4.44和3.36。

表1，在CUB数据集和Oxford-102数据集上start-of-art模型和公开模型的Inception scores。

模型	CUB	Oxford-102
			GAN-INT-CLS	2.88±0.04	2.66±0.03
GAWWN	3.62±0.07	-
			StackGAN	3.70±0.04	3.20±0.01
StackGAN++	3.82±0.06	3.26±0.01
			AttnGAN(baseline)	4.36±0.03	-
MirrorGAN	4.56±0.05	-
			SegAttnGAN(self-attention)	4.44±0.06	3.36±0.08
SegAttnGAN	4.82±0.05	3.52±0.09

R精度(R-precision)分数的比较结果如表2所示。所述公开的SegAttnGAN模型和自注意力SegAttnGAN模型与基线模型AttnGAN的分数几乎相同，表明这些模型可以生成与输入的文本描述一致的图像。MirrorGAN获得了最高的R精度分数，因为它包含一个专门用于提高语义一致性的模块。

表2,start-of-art模型和公开模型在CUB数据集上的R精度分数(％)。

模型	CUB
		AttnGAN(baseline)	53.31
MirrorGAN	57.67
		SegAttnGAN(self-attention)	52.29
SegAttnGAN	52.71

所述公开的分割注意模块306被应用于StackGAN++以进行比较。Inceptionscores如表3所示。这些结果表明，所公开的分割注意模块可以通过额外的语义信息帮助约束不同的GAN模型的训练，并获得更好的图像生成质量。

表3，具有和不具有所述公开的分割注意模块的模型的比较的Inception scores(％)。

模型	CUB
		AttnGAN	4.36±0.03
AttnGAN+segmentation attention	4.82±0.05
		StackGAN++	3.82±0.06
StackGAN+++segmentation attention	4.31±0.04

图5说明了AttnGAN模型和两个公开的模型基于相同文本描述生成的一些样本。与基线模型AttnGAN相比，所述公开的SegAttnGAN生成的结果具有更好的对象的形状。所述自注意力SegAttnGAN使用自动生成的分割掩码，可以约束对象的形状并生成比AttnGAN更好的图像。图6说明了CUB数据集和Oxford-102数据集上自注意力SegAttnGAN的形状和文本约束输出图像的一些样本。如图所示，黄色和蓝色等与颜色相关的词会导致不同颜色的结果。生成的图像中的对象的形状与输入掩码相匹配，表明分割图可以很好地控制对象的形状。

综上所述，本公开提供了一种利用GAN模型进行文本到图像的合成任务的方法和装置，其使用分割注意力来约束GAN训练。实施示例中提供的结果表明，与其他最先进的方法相比，所公开的GAN模型成功生成了质量更好的图像。将来自数据集的分割掩码作为输入，所公开的SegAttnGAN模型在CUB数据集和Oxford-102数据集上都获得了最高的Inception scores。当通过自注意力生成器生成掩码时，与其他最先进的方法相比，自注意力SegAttnGAN模型还生成了具有更好的视觉真实感的结果。

本领域的技术人员应该知晓：上述方法实施例的全部或部分步骤可以通过程序的指令相关的硬件来实现，该程序可以存储在一个计算机可读取存储介质中，执行该程序是执行所述方法实施例的步骤；所述存储介质包括各种能够存储程序代码的介质如移动存储设备、只读存储器(Read-Only Memory，ROM)、磁盘或光盘等。

或者，当所述集成单元以软件功能单元的形式实现并作为独立的产品销售或使用时，所述集成单元可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案的本质，或者对现有技术做出贡献的部分，或者全部或者部分技术方案可以以软件产品的形式来实现。该软件产品存储在存储介质中，包括若干指令，用于指示计算机设备(可以是个人计算机、服务器或网络设备)执行上述方法实施例中的全部或部分步骤。上述存储介质包括任何可以存储程序代码的介质如U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁盘、光盘等。

考虑到此处公开的本发明的说明书和实践，本领域技术人员将清楚本公开的其他实施例。说明书和示例仅被认为是示例性的，本发明的真实范围和精神由权利要求书指明。

Claims

1.一种图像生成方法，应用于计算机设备，其特征在于，包括：

获取描述待生成图像的内容的文本；

使用文本编码器从所述文本中提取文本特征向量；

将语义掩码确定为所述待生成图像的空间约束；及

根据所述语义掩码和所述文本特征向量，使用生成对抗网络GAN模型自动生成图像。

2.如权利要求1所述的方法，其特征在于，所述语义掩码是描述所述内容的形状的二值图像。

3.如权利要求1所述的方法，其特征在于，确定所述语义掩码包括：

从数据集中确定预先存在的掩码作为所述语义掩码。

4.如权利要求1所述的方法，其特征在于，所述文本特征向量包括描述所述文本的整个句子的全局特征的句子特征向量；及

该方法还包括：

通过连接所述句子特征向量和随机潜在向量获得修改后的句子特征向量；及

将所述修改后的句子特征向量输入到所述GAN模型中生成所述图像。

5.如权利要求4所述的方法，其特征在于，确定所述语义掩码包括：

通过自注意力生成器根据所述修改后的句子特征向量自动确定所述语义掩码。

6.根据权利要求4所述的方法，其特征在于：

所述GAN模型包括与多个分辨率对应的多个生成器，所述多个生成器从低分辨率到高分辨率串联排列；及

使用所述GAN模型生成所述图像包括：

根据所述修改后的句子特征向量和下采样到第一分辨率的所述语义掩码，使用第一生成器确定第一图像和第一隐藏特征；及

根据由第i-1个生成器确定的第i-1个隐藏特征和具有第i个分辨率的所述语义掩码，使用第i个生成器确定具有第i个分辨率和第i个隐藏特征的第i张图像，其中，i为大于1的整数。

7.根据权利要求6所述的方法，其特征在于：

所述文本特征向量还包括根据所述文本中的每个词得到的词特征向量；及

所述第i张图像由所述第i个生成器根据所述词特征向量确定。

8.一种用于分层图像分割的设备，其特征在于，包括：

存储器；及

处理器，与所述存储器耦合并被配置为执行多个操作，包括：

获取描述待生成图像的内容的文本；

使用文本编码器从所述文本中提取文本特征向量；

将语义掩码确定为所述待生成图像的空间约束；及

9.如权利要求8所述的方法，其特征在于，所述语义掩码是描述所述内容的形状的二值图像。

10.如权利要求8所述的方法，其特征在于，确定所述语义掩码包括：

从数据集中确定预先存在的掩码作为所述语义掩码。

11.如权利要求8所述的方法，其特征在于，所述文本特征向量包括描述所述文本的整个句子的全局特征的句子特征向量；及

该方法还包括：

12.如权利要求11所述的方法，其特征在于，确定所述语义掩码包括：

13.根据权利要求11所述的方法，其特征在于：

使用所述GAN模型生成所述图像包括：

14.根据权利要求13所述的方法，其特征在于：

15.一种非暂时性计算机可读存储介质，其特征在于，所述存储介质存储有计算机指令，当所述计算机指令由处理器执行时，使所述处理器执行多个操作，包括：

获取描述待生成图像的内容的文本；

使用文本编码器从所述文本中提取文本特征向量；

将语义掩码确定为所述待生成图像的空间约束；及

16.如权利要求15所述的存储介质，其特征在于，所述语义掩码是描述所述内容的形状的二值图像。

17.如权利要求15所述的存储介质，其特征在于，所述文本特征向量包括描述所述文本的整个句子的全局特征的句子特征向量；及

该方法还包括：

18.如权利要求17所述的存储介质，其特征在于，确定所述语义掩码包括：

19.根据权利要求17所述的存储介质，其特征在于：

使用所述GAN模型生成所述图像包括：

20.根据权利要求19所述的存储介质，其特征在于：