CN111340907A

CN111340907A - 一种自适应属性和实例掩码嵌入图的文本到图像生成方法

Info

Publication number: CN111340907A
Application number: CN202010139353.5A
Authority: CN
Inventors: 倪建成; 张素素
Original assignee: Qufu Normal University
Current assignee: Qufu Normal University
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-06-26

Abstract

本发明提供一种自适应属性和实例掩码嵌入图的文本到图像生成方法，包括根据输入的文本使用边框回归网络来获得64×64、128×128及256×256语义布局；根据64×64语义布局、句嵌入向量和随机噪声，在低分辨率生成器中生成粗粒度的图像潜在特征及低分辨率64×64图像；根据128×128语义布局，在第一高分辨率生成器中形成像素级特征向量；根据128×128语义布局、粗粒度的图像潜在特征及像素级特征向量，在第一高分辨率生成器中生成第一细粒度的图像潜在特征及高分辨率128×128图像；根据256×256语义布局、第一细粒度的图像潜在特征及像素级特征向量，在第二高分辨率生成器中生成高分辨率的256×256图像。实施本发明，让图像不仅分辨率高、满足实例形状约束，而且属性特征与描述一致。

Description

一种自适应属性和实例掩码嵌入图的文本到图像生成方法

技术领域

本发明涉及计算机视觉图像生成技术领域，尤其涉及一种自适应属性和实例掩码嵌入图的文本到图像生成方法。

背景技术

近年来，深度学习在文本-图像生成领域已取得较好的成果。生成对抗网络(GAN)作为最常用的生成模型，联合学习生成器和判别器；其中，生成器主要用于学习像素分布并生成逼真的图像，而判别器需鉴别生成图像的真假，两者不断对抗更新以达到最终的纳什平衡。

生成对抗网络有多种输入类型，如随机噪声、语义分割图、素描图、图像对、场景图、文本等；其中，文本是最简单且最易操作的输入形式，越来越多的研究人员也趋向于文本-图像生成，但当文本描述中存在复杂多样的对象和场景时，由于缺乏语义布局作为中间表示，导致生成图像的质量会急剧下降。

现有的文本-图像生成技术使用多级生成策略，对初步生成的低分辨率图像逐步优化来合成高分辨率图像。此外，边框回归网络可根据输入的嵌入向量预测目标的位置和大小，已被用于Fast R-CNN中的目标检测，定位的目标可用四元组(x,y,w,h)表示其坐标和宽高。

但是，现有的文本-图像生成方法的输入大多是句向量，缺乏词级别的细粒度信息，合成的图像缺少实例级别的纹理特征。此外，在图像生成过程中，生成器容易忽略不同实例之间的空间交互关系，缺乏实例形状掩码约束，合成的图像出现了实例形状不合理，像素重叠和遮挡等问题；同时，句子级别的判别器只能提供粗粒度的训练反馈信息，难以判别词级的实例视觉属性，导致生成模型倾向于合成对象的“平均”模式，而非最相关的属性特征，无法合成真实而准确的高分辨率图像。

因此，亟需一种新的文本-图像生成方法，能克服整个句子的复杂性和歧义性，使生成器能学习到实例的细粒度特征以及判别器能提供准确的属性反馈信息，让生成的图像不仅分辨率高、满足实例形状约束，而且属性特征与描述一致。

发明内容

本发明实施例所要解决的技术问题在于，提供一种自适应属性和实例掩码嵌入图的文本到图像生成方法，能克服整个句子的复杂性和歧义性，使生成器能学习到实例的细粒度特征以及判别器能提供准确的属性反馈信息，让生成的图像不仅分辨率高、满足实例形状约束，而且属性特征与描述一致。

为了解决上述技术问题，本发明实施例提供了一种自适应属性和实例掩码嵌入图的文本到图像生成方法，所述方法包括以下步骤：

根据输入的文本，使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息，并整合所有实例生成的边界框的位置和标签信息，得到64×64、128×128及256×256语义布局；

根据64×64语义布局、句嵌入向量和随机噪声，在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64×64图像；

根据128×128语义布局，在第一高分辨率生成器中通过预设的掩码回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图，并在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128×128语义布局的各种上下文信息进行编码，得到每一个实例的上下文向量，且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合，形成像素级特征向量；

根据128×128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量，在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128×128图像；

根据256×256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量，在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256×256图像。

其中，所述使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息的步骤具体包括：

首先，使用预训练的Bi-LSTM作为文本编码器，将所述文本编码为词向量和一个句向量

其中，每个词均有两个隐藏状态，且每个词的两个隐藏状态级联，得到所有单词的一个特征矩阵；所述特征矩阵的每一列均代表每一个单词的特征向量；同时连接Bi-LSTM两个方向最后的隐层状态来获得句向量；

其次，采用LSTM作为解码器来得到每个单词对应的实例类标签l_t、坐标信息b_t，具体为：

类别标签l_t使用softmax函数计算，b_t采用高斯混合模型建模：

其中，e_t表示概率分布向量，

和

表示高斯混合模型中的参数，e_t和GMM参数均根据LSTM每个单元的第t步输出来计算，k是混合单元的数量；

最后，根据所述每个单词对应的实例类标签l_t、坐标信息b_t，得到每个单词对应实例的标签信息B_t＝(b_t，l_t)，并根据所述每个单词对应实例的标签信息B_t＝(b_t，l_t)，分别得到在64×64、128×128及256×256语义布局中每个实例边界框的位置；其中，

四元组

中(x，y，w，h)表示其坐标和宽高。

其中，所述根据64×64语义布局、句嵌入向量和随机噪声，在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64×64图像的步骤具体包括：

在低分辨率生成器中对64×64语义布局下采样，得到第一布局编码μ₀，并将所述第一布局编码、句嵌入向量和随机噪声送入预设的第一残差块后再进行上采样，得到粗粒度的图像潜在特征；

将所述粗粒度的图像潜在特征导入3×3卷积神经网络中，输出低分辨率的64×64图像。

其中，所述根据128×128语义布局，在第一高分辨率生成器中通过所述预设的边框回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图的步骤具体包括：

在第一高分辨率生成器中，采用预设的掩码回归网络将128×128语义布局中每一个实例的标签信息均编码为二进制张量，并通过下采样来获得每一个实例的特征编码；

将所述每一个实例的特征编码均送入预设的Bi-LSTM并级联随机噪声中，并在当且仅当每一个实例的边框包含相关的类标签时，将每一个实例的二进制张量均设为1并进行掩码表示，得到每一个实例的二进制张量的掩码特征；

将所有每一个实例的二进制张量的掩码特征输入预设的第二残差块后再进行上采样，映射形成全局实例掩码图，且进一步将所述全局实例掩码图进行裁剪操作，得到每一个实例的掩码嵌入图。

其中，所述在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128×128语义布局的各种上下文信息进行编码，得到每一个实例的上下文向量，且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合，形成像素级特征向量的步骤具体包括：

首先，根据低分辨率的64×64图像子区域向量，在第一高分辨率生成器中从128×128语义布局中检索包含细节信息的相关实例向量，并为每个实例向量V＇_t分配注意力权重w_t，然后计算输入信息的权重和，得到每一个实例的上下文向量：

其中，

表示第t个对象的实例级别的上下文向量；

其次，根据所述每一个实例的上下文向量与其对应的掩码嵌入图，在第一高分辨率生成器中采用最大池化为每一个实例的上下文向量选择最相关的像素级特征向量：

其中，

表示向量外积，V表示像素级特征向量。

其中，所述根据128×128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量，在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128×128图像的步骤具体包括：

在第一高分辨率生成器中对128×128语义布局下采样，得到第一布局编码μ₁，并将所述第二布局编码、所述粗粒度的图像潜在特征及所述像素级特征向量送入预设的第三残差块后再进行上采样，得到第一细粒度的图像潜在特征；

将所述第一粒度的图像潜在特征导入3×3卷积神经网络中，输出高分辨率的128×128图像。

其中，所述根据256×256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量，在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256×256图像的步骤具体包括：

在第二高分辨率生成器中对256×256语义布局下采样，得到第三布局编码μ₂，并将所述第三布局编码、所述第一细粒度的图像潜在特征及所述像素级特征向量送入预设的第四残差块后再进行上采样，得到第二细粒度的图像潜在特征；

将所述第二粒度的图像潜在特征导入3×3卷积神经网络中，输出高分辨率的256×256图像。

其中，所述低分辨率的64×64图像、高分辨率的128×128图像及高分辨率的256×256图像均采用词级自适应属性的判别器进行对抗训练；

其中，每一个词级自适应属性的判别器均能判断生成的图像是否包含每一个属性描述，并为生成器提供反馈信号，指导其生成包含准确属性特征的图像。

其中，每一个词级自适应属性的判别器可表示为

其中，T表示输入文本中单词的总数，γ_tn是softmax函数的权重，α_t，n是对第n层图像特征中第t个词分配的注意力权重。

实施本发明实施例，具有如下有益效果：

1、本发明将生成对抗网络中的高分辨率生成器结合实例掩码嵌入和实例级别的注意力机制，解决生成像素间的重叠问题并获取细节特征，将判别器设计为词级别且能自适应属性，通过多阶段合成策略来提高生成图像的分辨率和准确度；

2、本发明结合实例掩码嵌入的高分辨率生成器，对低分辨率生成器从语义布局生成的全局图像进行优化，解析实例类别和特征信息，生成包含纹理细节、清晰且高质量图像；

3、本发明采用自适应属性的判别器，独立地对每个属性进行判断，并为高分辨率生成器提供准确的反馈信息，指导其合成与文本匹配的视觉属性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法的流程图；

图2为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中文本推理语义布局的应用场景图；

图3为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中采用低分辨率生成器生成64×64图像的应用场景图；

图4为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中采用第一高分辨率生成器生成全局实例掩码图的应用场景图；

图5为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中采用第一高分辨率生成器生成128×128图像的应用场景图；

图6为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中从文本到图像生成的训练模型结构示意图；

图7为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中词级自适应属性的判别器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提供的一种自适应属性和实例掩码嵌入图的文本到图像生成方法，所述方法包括以下步骤：

步骤S1、根据输入的文本，使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息，并整合所有实例生成的边界框的位置和标签信息，得到64×64、128×128及256×256语义布局；

具体过程为，如图2所示，首先使用预训练的Bi-LSTM作为文本编码器，将文本编码为词向量和一个句向量

其中，每个词均有两个隐藏状态，且每个词的两个隐藏状态级联，得到所有单词的一个特征矩阵；该特征矩阵的每一列均代表每一个单词的特征向量；同时连接Bi-LSTM两个方向最后的隐层状态来获得句向量

类别标签l_t使用softmax函数计算，b_t采用高斯混合模型建模：

其中，e_t表示概率分布向量，

和

最后，根据每个单词对应的实例类标签l_t、坐标信息b_t，得到每个单词对应实例的标签信息B_t＝(b_t，l_t)，并根据每个单词对应实例的标签信息B_t＝(b_t，l_t)，分别得到在64×64、128×128及256×256语义布局中每个实例边界框的位置；其中，

四元组

中(x，y，w，h)表示其坐标和宽高。

步骤S2、根据64×64语义布局、句嵌入向量和随机噪声，在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64×64图像；

具体过程为，如图3所示，在低分辨率生成器G₀中对64×64语义布局L₀下采样，得到第一布局编码μ₀，并将第一布局编码μ₀、句嵌入向量

和随机噪声z送入残差块(如预设的第一残差块)后再进行上采样，得到粗粒度的图像潜在特征y₀；

将粗粒度的图像潜在特征y₀导入3×3卷积神经网络中，输出低分辨率的64×64图像I₀；其中，

I₀＝G₀(y₀)，F₀被建模为神经网络。

步骤S3、根据128×128语义布局，在第一高分辨率生成器中通过预设的掩码回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图，并在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128×128语义布局的各种上下文信息进行编码，得到每一个实例的上下文向量，且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合，形成像素级特征向量；

具体过程为，如图4所示，在第一高分辨率生成器G₁中，采用预设的掩码回归网络将128×128语义布局L₁中每一个实例的标签信息B_t均编码为二进制张量B_t∈{0，1}^h×w×l，并通过下采样(如由3×3卷积、批量归一化和ReLU激活函数构成的采样块)来获得每一个实例的特征编码；

将每一个实例的特征编码均送入预设的Bi-LSTM并级联随机噪声z中，并在当且仅当每一个实例的边框包含相关的类标签时，将每一个实例的二进制张量B_t均设为1并进行掩码表示，得到每一个实例的二进制张量B_t的掩码特征；应当说明的是，除了每一个实例的二进制张量B_t在当且仅当每一个实例的边框包含相关的类标签时设为1并进行掩码表示，其它部分均设为0，使得该掩码的所有元素均在(0，1)之间；

将所有每一个实例的二进制张量B_t的掩码特征输入残差块(如预设的第二残差块)后再进行上采样(如由4×4反卷积层、批量归一化和ReLU激活函数构成的采样块)，映射形成全局实例掩码图

使第一高分辨率生成器G₁能合成满足形状特征约束的细粒度图像；

进一步将全局实例掩码图P_global进行裁剪操作，得到每一个实例的掩码嵌入图P_t；其中，t表示实例。

步骤S4、根据128×128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量，在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128×128图像；

具体过程为，由于高分辨率生成器G₁需沿着通道维度对128×128语义布局L₁的各种上下文信息进行编码，所以利用实例级别的注意力机制来选取最相关的特征信息。

如图5所示，首先，根据低分辨率的64×64图像I₀子区域向量V_sub，在第一高分辨率生成器G₁中从128×128语义布局L₁中检索包含细节信息的相关实例向量，并为每个实例向量V＇_t分配注意力权重w_t，然后计算输入信息的权重和，得到每一个实例的上下文向量：

其中，

表示第t个对象的实例级别的上下文向量；

其次，根据每一个实例的上下文向量

与其对应的掩码嵌入图P_t，在第一高分辨率生成器G₁中采用最大池化为每一个实例的上下文向量

选择最相关的像素级特征向量：

其中，

表示向量外积，V表示像素级特征向量。

然后，在第一高分辨率生成器G₁中对128×128语义布局L₁下采样，得到第一布局编码μ₁，并将第二布局编码μ₁、粗粒度的图像潜在特征y₀及像素级特征向量V送入残差块(如预设的第三残差块)后再进行上采样，得到第一细粒度的图像潜在特征y₁；

最后，将第一粒度的图像潜在特征y₁导入3×3卷积神经网络中，输出高分辨率的128×128图像I₁。

步骤S5、根据256×256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量，在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256×256图像。

具体过程为，在第二高分辨率生成器G₂中对256×256语义布局L₂下采样，得到第三布局编码μ₂，并将第三布局编码μ₂、第一细粒度的图像潜在特征y₁及像素级特征向量V送入残差块(如预设的第四残差块)后再进行上采样，得到第二细粒度的图像潜在特征y₂；

将第二粒度的图像潜在特征y₂导入3×3卷积神经网络中，输出高分辨率的256×256图像I₂。

应当说明的是，256×256图像I₂的生成过程与128×128图像I₁的生成过程相同，具体图例可参考图5所示。

在本发明实施例中，低分辨率的64×64图像I₀、高分辨率的128×128图像I₁及高分辨率的256×256图像I₂均采用词级自适应属性的判别器

和

进行对抗训练，如图6所示；

例如，如图7所示，给定生成的图像，自适应属性的判别器对其编码并输出图像特征，对所有的特征层进行全局平均池化，获得一维图像特征向量e；同时根据输入的文本计算词向量{w₁，w₂…，w_T}；然后将词向量分别喂入词级判别器。以第t个单词向量w_t为例，使用一维sigmoid词级判别器

判断第n层图像特征是否包含与w_t相关的视觉属性。词级判别器

为：

其中，σ表示sigmoid函数，e_n是第n层图像特征的一维特征向量，W(w_t)和b(w_t)表示偏置和权重矩阵。

为减少不重要单词对判别过程的影响，判别器使用词级别的注意力来表示单词和视觉属性之间的相关程度。通过注意力分布，每一个词级自适应属性的判别器可表示为：

应当说明的是，与句子级别的判别器相比，词级自适应属性的判别器能在不同阶段判断视觉属性的真实性并提供反馈，指导生成器合成与描述相关的属性特征。

在本发明实施例中，低分辨率的64×64图像I₀、高分辨率的128×128图像I₁及高分辨率的256×256图像I₂所使用到的卷积神经网络中的完整目标损失函数为GAN交叉熵损失

和DAMSM损失

之和。然而，GAN交叉熵损失中，生成器和判别器都由无条件损失和有条件损失组成。

此时，生成器的目标损失函数定义为：

其中，第一项表示无条件损失，第二项表示有条件损失，I和x分别表示合成的图像和相应的文本。

此时，判别器的目标损失函数也包括无条件损失和有条件损失：

其中，P_data表示真实图像的分布。

DAMSM损失由AttnGAN模型提出，被用来计算图像-文本的细粒度匹配损失。因此，完整目标损失函数为：

其中，λ₁表示超参数，

是基于真实图像和相关文本描述预训练的深度注意力多模态相似模型损失。

实施本发明实施例，具有如下有益效果：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息的步骤具体包括：

类别标签l_t使用softmax函数计算，b_t采用高斯混合模型建模：

其中，e_t表示概率分布向量，

和

最后，根据所述每个单词对应的实例类标签l_t、坐标信息b_t，得到每个单词对应实例的标签信息B_t＝(b_t,l_t)，并根据所述每个单词对应实例的标签信息B_t＝(b_t,l_t)，分别得到在64×64、128×128及256×256语义布局中每个实例边界框的位置；其中，

四元组

中(x,y,w,h)表示其坐标和宽高。

3.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述根据64×64语义布局、句嵌入向量和随机噪声，在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64×64图像的步骤具体包括：

4.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述根据128×128语义布局，在第一高分辨率生成器中通过所述预设的边框回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图的步骤具体包括：

5.如权利要求1中所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128×128语义布局的各种上下文信息进行编码，得到每一个实例的上下文向量，且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合，形成像素级特征向量的步骤具体包括：

首先，根据低分辨率的64×64图像子区域向量，在第一高分辨率生成器中从128×128语义布局中检索包含细节信息的相关实例向量，并为每个实例向量V_t′分配注意力权重w_t，然后计算输入信息的权重和，得到每一个实例的上下文向量：

其中，

表示第t个对象的实例级别的上下文向量；

其中，

表示向量外积，V表示像素级特征向量。

6.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述根据128×128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量，在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128×128图像的步骤具体包括：

7.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述根据256×256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量，在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256×256图像的步骤具体包括：

8.如权利要求3、6-7中任一项所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述低分辨率的64×64图像、高分辨率的128×128图像及高分辨率的256×256图像均采用词级自适应属性的判别器进行对抗训练；

9.如权利要求8所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，每一个词级自适应属性的判别器可表示为

其中，T表示输入文本中单词的总数，γ_tn是softmax函数的权重，α_t,n是对第n层图像特征中第t个词分配的注意力权重。