CN114387366A

CN114387366A - 一种感知联合空间注意力文本生成图像方法

Info

Publication number: CN114387366A
Application number: CN202210043174.0A
Authority: CN
Inventors: 赵欢; 赵玉青; 李婷婷; 陈恩思; 李博
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-04-22
Anticipated expiration: 2042-01-14
Also published as: CN114387366B

Abstract

本发明公开了一种感知联合空间注意力文本生成图像方法，包括生成初始图像，绘制对象的基本形状和颜色；进行图像细化，生成从空间维度和单词重要性维度细化的新图像特征；细化过程包括通过细粒度单词级文本信息和图像信息融合，并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节，增强图像特征区域表征；通过训练目标函数，鼓励生成器生成更真实更符合文本语义的图像。本发明保证了生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状，同时避免了生成过程中的随机性，减少了最终生成的图像和目标图像之间的差异，本方法能够提高文本生成图像的感知质量和布局，能够高效准确得生成图像。

Description

一种感知联合空间注意力文本生成图像方法

技术领域

本发明属于文本合成图像领域，具体涉及一种感知联合空间注意力文本生成图像方法。

背景技术

文本到图像合成技术在艺术生成和计算机辅助设计等领域的应用有很大前景。现在，采用文本生成图像不仅可以大大降低文字创作者匹配图像的成本，还可以提高计算机创作的效率。因此，寻找更有效的方法来生成真实的高分辨率图像，用于文本-图像合成是非常必要的。

生成对抗网络(Generative Adversarial Network，简称GAN)基于博弈论的思想，通过深度神经网络构造生成器模型和判别器模型。生成器以随机噪声为输入生成样本，判别器判断生成样本是否真实。模型训练过程中，生成器不断提高让样本以假乱真的能力，判别器不断提高鉴别的能力。近年来随着GAN理论的不断进步，GAN在一些应用领域上有优异的表现，其中包括GAN在文本生成图像领域取得的成就。

现阶段文本生成图像方法主要分为两种：单阶段方法包括通过对抗式学习进行语义图像合成、文本条件辅助分类器生成对抗网络(TAC-GAN)、即插即用生成网络(PPGAN)；多阶段方法包括堆叠的对抗生成网络(StackGAN)、基于注意生成对抗网络的细粒度文本图像生成(AttnGAN)、用于文本图像合成的动态记忆生成对抗网络(DMGAN)。多阶段文本生成图像方法由多个对抗生成网络组成，整个模型分为初始阶段和细化阶段。在初始阶段，随机噪声和编码后的文本联合输入到生成器中生成模糊的初始图像，在后续阶段上一层图像特征向量和词向量拼接输入到对抗生成网络，使得将模糊的初始图像转化为清晰的高分辨率图像，为减少模型复杂度，该阶段一般重复两次，因此多阶段文本生成图像方法一般共有三次生成，其分辨率首先从64*64提升到128*128，然后再提升到256*256。

现有的方法虽然可以产生良好的效果，但它们仍然存在两个问题。首先，大多数先驱方法不能很好地生成真实图像。例如，大多数先驱多阶段方法在生成目标图像时严重依赖初始阶段的布局，原因在于这种策略忽略了信息空间特征，从而导致生成图像布局缺陷(即结构边缘模糊和多对象混淆)。因此，这种方法在文本到图像合成的任务中获得了不真实的图像。其次，根据文本描述生成的图像是随机的。例如，当文本中没有描述对象类别时，生成的图像的内容可能与真实图像有很大不同。此外，尽管多阶段方法是迄今为止最好的生成方法，但在处理具有多个对象的复杂文本(例如COCO数据集)时，它们不能很好地聚焦和细化所有对象，所以生成结果的质量是不准确的。

发明内容

本发明的目的在于提供一种感知联合空间注意力文本生成图像方法，该方法能够提高文本生成图像的感知质量和布局，更加准确高效。

本发明提供的这种感知联合空间注意力文本生成图像方法，包括如下步骤：

S1.生成初始图像，绘制对象的基本形状和颜色；

S2.进行图像细化，生成从空间维度和单词重要性维度细化的新图像特征；包括通过细粒度单词级文本信息和图像信息融合，并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节，增强图像特征区域表征；

S3.训练目标函数，通过加入对抗损失和深度注意多模态相似模型(DeepAttentional Multimodel Similarity Model，简称DAMSM)损失鼓励生成器生成更真实更符合文本语义的图像，加入条件增强损失生成过程中避免过拟合，同时加入感知损失减少生成过程中的随机性，生成最终图像。

所述的步骤S1，生成初始图像包括文本编码器、条件增强模块和对抗生成网络，具体包括：

A1.将描述性的文本输入文本编码器，得到全局句子向量s和细粒度单词向量W；

A2.对全局句子向量s进行条件增强处理转换为低维条件向量s'，并将低维条件向量s'与服从标准正态分布的随机噪声向量z进行维度相加；

A3.将相加后的组合向量输入第一个生成器G₀，输出初始图像的特征向量，并经过神经网络卷积处理得到第一分辨率图像R₀＝G₀(z,s)，z为随机噪声向量；s为全局句子向量。

所述的步骤S2，包括如下步骤：

B1.融合文本和图像，对于给定的上一阶段的图像特征R_k-1和单词文本向量W：

其中，r_i表示图像i-th像素的特征向量(i-th表示第i个)；N表示图像像素数量；

表示维度为N_r实数空间；

其中，w_j表示j-th单词向量(j-th表示第j个)；T表示单词的数目；

表示维度为N_w实数空间；

单词文本向量W通过感知器M将单词文本向量转换到图像特征的公共语义空间中，

表示细粒度单词文本向量；

包括T个细粒度单词向量；

B2.将空间注意力模块和动态记忆力模块联合并进行细化，包括先采用空间注意力模块对图像特征图上的每一个位置进行注意力调整，再使用动态记忆力模块在细化阶段选择文本信息调整初始图像内容；

B3.基于响应门和双注意力设计联合响应机制，融合记忆力信息、空间信息和当前图像，生成从空间维度和单词重要性维度细化的新图像特征；

B4.在最后一个生成器上引入感知损失，修正从空间维度和单词重要性维度细化的新图像特征。

步骤B2中，空间注意力模块包括如下步骤：

C1.空间注意力网络的query为上一阶段的图像特征R_k-1，空间注意力网络的key为转换维度后的细粒度单词文本向量

对于上一阶段的图像特征R_k-1，每一列都是图像子区域的特征向量，将上一阶段的图像特征R_k-1和细粒度单词文本向量

逐元素相乘，计算图像每个子区域在空间维度上与单词之间的相关值：

其中，r_i表示图像i-th像素特征；

表示转换维度后的j-th单词；α_i,j表示空间位置与单词相关值；

C2.使用softmax函数对步骤C1得到的空间位置与单词相关值α_i,j进行归一化；

其中，m^spatial表示归一化后的空间注意力矩阵；

C3.将步骤C2的归一化后的空间注意力矩阵m^spatial和细粒度单词文本向量

加权，计算空间注意力的词上下文特征，从而鼓励生成网络响应高相关性单词，加强具有高相关性的位置信息，弱化低相关单词的影响：

其中，将细粒度单词文本向量

进行转置；m^spatial表示归一化后的空间注意力矩阵；f^spatial表示最终集中空间注意力的词上下文特征；(·)'表示·的转置；

C4.将最终集中空间注意力的词上下文特征f^spatial和图像特征连接，生成带有空间注意力的图像特征，然后作为动态记忆力的输入；

其中，R^spatial表示带有位置信息的图像特征；r_i ^spatial表示带有位置信息的i-th图像像素特征；f^spatial表示最终集中空间注意力的词上下文特征；R_k-1表示给定的上一阶段的图像特征；[·,·]表示连接操作。

步骤B2中动态记忆力模块包括：将从空间注意力模块得到的带有空间注意力的图像特征R^spatial和单词文本向量W输入到动态记忆力模块当中；动态记忆力模块包括记忆写入门、键寻址、值读取：

记忆写入门包括，融合单词文本向量W和空间注意力图像特征R^spatial，并计算单词重要性：

其中，σ(·)表示sigmoid激活函数；A表示1×N_w的矩阵；B表示1×N_r的矩阵；

表示j-th单词重要性值；R^spatial表示带有位置信息的图像特征；r_i ^spatial表示带有位置信息的i-th图像像素特征；w_j表示j-th单词向量；

将单词和单词对应的重要性值存入键值结构化内存中：

其中，

表示写入的j-th记忆插槽，存储内容为单词-单词重要性的键值对；w_j表示j-th单词向量；

表示j-th单词重要性值；M_w和M_r均为1×1的卷积操作，用于将单词特征和图像特征映射到和写入的j-th记忆插槽

相同的维度；r_i ^spatial表示带有位置信息的i-th图像像素特征；

键寻址包括，用键检索相关记忆，在这里计算每个记忆插槽的权重，作为j-th记忆插槽

和i-th像素特征r_i的相似概率β_i,j：

其中，φ_K(·)表示一个1×1的卷积，用于将j-th记忆插槽

l-th记忆插槽

映射到N_r维，N_r表示图像像素维度；T表示单词的数目；r_i表示图像i-th像素的特征向量；

值读取包括，根据写入的j-th记忆插槽

和图像i-th像素特征r_i的相似度β_i,j对记忆值进行加权求和：

其中，

表示记忆力模块输出的最终记忆值；φ_V表示一个1×1的卷积，用于将写入的j-th记忆插槽

映射到N_r维，N_r表示图像像素维度。

所述的步骤B3，包括：从单词重要性维度出发，动态控制记忆力读取的信息流和上一个阶段的图像信息流结合：

其中，g_i'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门；

表示记忆力模块输出的最终记忆值；r_i表示图像i-th像素的特征向量；b'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门的偏差项；σ(·)表示sigmoid激活函数；W(·)表示参数矩阵；

从空间信息和单词重要性信息角度同时出发，动态控制记忆力读取的信息流和带有空间注意力的图像信息流结合：

其中，g_i”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门；σ(·)表示sigmoid激活函数；W(·)表示参数矩阵；r_i ^spatial表示带有位置信息的i-th图像像素特征；b”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门的偏差值；

根据记忆写入机制控制空间信息、记忆信息、当前图像信息的融合：

其中，r_i ^new表示空间注意力和记忆力共同作用生成的新图像特征，r_i ^new经过一个上采样模块和两个残差模块生成当前阶段的图像；g_i'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门；

表示记忆力模块输出的最终记忆值；r_i表示图像i-th像素的特征向量；g_i”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门；r_i ^spatial表示带有位置信息的i-th图像像素特征。

所述的步骤B4，包括：采用ImageNet数据集上预训练的19层VGG网络的感知损失，并将最后一个生成器的生成图像和真实图像输入感知损失网络；在relu5_4层激活图像特征；感知损失L_pl(R_real,R_fake)的表达式为：

其中，感知损失L_pl(R_real,R_fake)由在ImageNet数据集上预训练19层VGG网络的ReLU激活层定义；R_real表示真实图像；R_fake表示最后一个生成器的生成图像；R_real和R_fake均为C_k×H_k×W_k的图像特征图，C_k表示图像通道数；H_k表示图像的高度；W_k表示图像的宽度；φ_k(·)表示VGG网络处理图像时k-th的激活；

表示真实图像和生成图像内容特征的欧式距离。

所述的步骤S3，目标函数包括，

其中，L表示总损失函数；λ₁表示条件增强损失L_CA的权重；λ₂表示DAMSM损失L_DAMSM的权重，文本生成图像方法往往使用DAMSM损失来计算细粒度图像-文本匹配损失，DAMSM损失鼓励生成图像内容更加符合文本描述，在本实施例中，λ₁＝1，λ₂＝6；L_Gi表示第i个生成器的对抗损失函数；在本实施例中总共有3次生成；

计算第i次生成G_i的对抗损失函数

包括：

其中，L_pl表示感知损失；β表示感知损失的权重；log表示取一个大于2的整数的对数，用于简便计算；生成器G_i包括相应的鉴别器D_i，D_i(x)表示判断从模型分布PG_i采样的生成图像x为真实图像的概率；D_i(x,s)表示判断根据条件(文本变量s)生成的从模型分布PG_i采样的生成图像x为真实图像的概率；

计算每个鉴别器的对抗性损失

其中，x～P_data表示生成图像服从真实图像；p_data表示真实图像分布；data表示真实图像；

计算条件增强损失：条件增强损失是标准高斯分布和条件高斯分布之间的Kullback-Leibler散度，具体为：

其中，L_CA表示条件增强损失；D_KL(·)表示Kullback-Leibler散度；μ(s)表示文本嵌入s的句子特征的均值，∑(s)表示文本嵌入s的对角协方差矩阵；

表示独立的高斯分布；I表示单位矩阵。

本发明提供的这种感知联合空间注意力文本生成图像方法，将单词级的空间注意力方法与动态记忆力方法结合并联合响应，保证生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状；同时本方法在多阶段文本生成图像模型的最后一个生成器引入感知损失函数，目的是减少最终生成的图像和目标图像之间的差异，使要生成的图像更在语义上与目标图像相似，本方法能够提高文本生成图像的感知质量和布局，能够高效准确得生成图像。

附图说明

图1为本发明方法的流程示意图。

图2为本发明实施例的流程示意图。

图3为本发明方法的空间注意力模块的结构示意图。

图4为本发明方法的联合响应机制示意图。

图5为本发明方法的感知损失网络示意图。

图6为本发明实施例一的文本生成图像结果示意图。

图7为本发明实施例二的文本生成图像结果示意图。

图8为本发明实施例三的文本生成图像结果示意图。

图9为本发明实施例四的文本生成图像结果示意图。

具体实施方式

本发明提出了一种感知联合空间注意力文本生成图像方法，本方法基于多阶段对抗生成网络，旨在提高文本生成图像的感知质量和布局。本方法的思想来源基于双注意力机制，具体来说，本方法考虑将词级的空间注意力方法与动态记忆力方法结合并联合响应，保证生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状。此外，该方法为多阶段文本生成图像模型的最后一个生成器引入感知损失函数，目的是减少最终生成的图像和目标图像之间的差异，使要生成的图像更在语义上与目标图像相似。

为实现上述目的，采用如下解决方案：

如图1为本发明方法的流程示意图：本发明提供的这种感知联合空间注意力文本生成图像方法，包括如下步骤：

S1.生成初始图像，绘制对象的基本形状和颜色；

S3.训练目标函数，通过加入对抗损失和DAMSM损失鼓励生成器生成更真实更符合文本语义的图像，加入条件增强损失生成过程中避免过拟合，同时加入感知损失减少生成过程中的随机性，生成最终图像。

如图2为本发明实施例的流程示意图。所述的步骤S1，由于仅使用全局句子向量，使绘制的第一分辨率图像丢失重要细粒度信息，因此生成初始图像包括文本编码器、条件增强模块和对抗生成网络，具体包括：

所述的步骤S2，包括如下步骤：

其中，r_i表示图像i-th像素的特征向量；N表示图像像素数量；N_r表示图像像素维度；

表示维度为N_r实数空间；

其中，w_j表示j-th单词向量；T表示单词的数目；

表示维度为N_w实数空间；单词文本向量W通过感知器M将单词文本向量转换到图像特征的公共语义空间中，

表示细粒度单词文本向量，是和图像特征相同维度的文本语义；

包括T个细粒度单词向量，即

B2.如图3为本发明方法的空间注意力模块的结构示意图。动态记忆力模块和空间注意力模块联合的细化基于双注意力网络的思想。空间注意力模块对图像特征图上的每一个位置进行注意力调整，即计算图像特征与单词的关联强度，目的为使模型关注到值得更多关注的区域上。动态记忆力模块帮助模型在细化阶段帮助选择重要的文本信息调整初始图像内容。

空间注意力模块和动态记忆力模块是两个独立的部分，如此设计可以减少参数和计算力。这两部分可以并行或顺序组合，在本方法中空间注意力模块在先，动态记忆力模块在后。空间注意力网络由不同尺度的1*1卷积层组成，因为不同阶段不同生成器生成的图像尺寸不同，当图像特征输入空间注意力网络时，要先对图像特征尺寸做判断，确定注意力的键值。

其中，实现空间注意力模块采用如下技术，具体结构见图3，空间注意力模块包括如下步骤：

C1.空间注意力网络的query(查询)为上一阶段的图像特征R_k-1，空间注意力网络的key(键)为转换维度后的细粒度单词文本向量

其中，r_i表示图像i-th像素特征；

表示转换维度后的j-th单词；α_i,j表示空间位置与单词相关值，α_i,j越大，相关性越强；

其中，m^spatial表示归一化后的空间注意力矩阵，权重取值范围为0-1；

其中，将细粒度单词文本向量

其中，R^spatial表示带有位置信息的图像特征；r_i ^spatial表示带有位置信息的i-th图像像素特征；f^spatial表示最终集中空间注意力的词上下文特征；R_k-1表示给定的上一阶段的图像特征；[·,·]表示连接操作；

将从空间注意力模块得到的带有空间注意力的图像特征R^spatial和单词文本向量W输入到动态记忆力模块当中；动态记忆力模块包括记忆写入门、键寻址、值读取：

将单词和单词对应的重要性值存入键值结构化内存中：

其中，

相同的纬度；r_i ^spatial表示带有位置信息的i-th图像像素特征；

和i-th像素特征r_i的相似概率β_i,j：

其中，φ_K(·)表示一个1×1的卷积，用于将j-th记忆插槽

l-th记忆插槽

值读取包括，根据写入的j-th记忆插槽

和图像i-th像素特征r_i的相似度β_i,j对记忆值进行加权求和：

其中，

映射到N_r维，N_r表示图像像素维度。

如图4为本发明方法的双注意力机制示意图。B3.从单词重要性维度出发，动态控制记忆力读取的信息流和上一个阶段的图像信息流结合：

其中，g_i”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门；r_i ^spatial表示带有位置信息的i-th图像像素特征；b”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门的偏差值；

根据记忆写入机制合理有效地控制空间信息、记忆信息、当前图像信息的融合：

如图5为本发明方法的感知损失网络示意图；B4.引入感知损失的思想基于超分辨率技术，超分辨技术是指从观测到的低分辨率图像重建出相应的高分辨率图像，文本生成图像方法的细化阶段也是补充图像细节提高分别率的过程，这一过程与超分辨率思想相同。感知损失网络包含两种损失，一种是风格损失，一种是内容损失，根据应用本方法中只借鉴内容损失。引入感知的内容损失部分大大减小了生成过程中的随机性。具体地说，即使生成任务遇到文本中没有指定物体类别或者没有详细说明某对象时，也可以生成与真实图像相似的图像。在文本生成图像领域，往往通过Caltech-UCSD Birds 200(CUB),COCO两个数据集进行训练，而COCO数据集包含多个对象，并且背景和风景设置种类繁多，所以上述的复杂情况是很常见的，现实生活中也会出现更复杂的情况。各种文本生成图像方法的实验结果也显示COCO数据集上的生成图像质量比CUB数据集差。本方法只在最后一个生成器上引入了感知损失，保证了网络在控制随机性的基础上减少训练时间。感知损失属于高级特征损失，是基于比较待生成的图片经过CNN的特征值和目标图片经过CNN的特征值，使得待生成的图片和目标图片在语义上更加相似。

在最后一个生成器上引入感知损失包括：采用ImageNet数据集上预训练的19层VGG网络的感知损失，并将最后一个生成器的生成图像和真实图像输入感知损失网络；在relu5_4层激活图像特征；感知损失L_pl(R_real,R_fake)的表达式为：

表示真实图像和生成图像内容特征的欧式距离；

选择只在最后一个生成器上引入感知损失，具有以下优点：经过评价指标IS和R精度证明只在最后一个生成器上引入感知损失生成效果更好；网络负载小；避免引起过拟合问题。

所述的步骤S3，目标函数包括，

其中，L表示总损失函数；λ₁表示条件增强损失L_CA的权重；λ₂表示DAMSM损失L_DAMSM的权重，文本生成图像方法往往使用DAMSM损失来计算细粒度图像-文本匹配损失，DAMSM损失鼓励生成图像内容更加符合文本描述，在本实施例中，λ₁＝1，λ₂＝6；

表示第i个生成器的对抗损失函数；在本实施例中总共有3次生成；

计算第i次生成G_i的对抗损失函数

包括：

其中，第i次生成G_i的对抗损失函数

包括无条件对抗性损失

和条件对抗性损失

无条件对抗性损失有利于生成图像更真实，条件对抗性损失使基于条件对抗生成网络生成的图像尽可能与文本匹配；L_pl表示感知损失；β表示感知损失的权重，感知损失只在第三阶段添加，在i＝0和i＝1时，β＝0，在i＝2时，β＝1；log表示取一个大于2的整数的对数，用于简便计算；生成器G_i包括相应的鉴别器D_i，D_i(x)表示判断从模型分布PG_i采样的生成图像x为真实图像的概率；D_i(x,s)表示判断根据条件(文本变量s)生成的从模型分布PG_i采样的生成图像x为真实图像的概率；

计算每个鉴别器的对抗性损失

其中，每个鉴别器的对抗性损失

包括无条件对抗性损失

和条件对抗性损失

无条件对抗性损失用于判断生成图像是否真实，条件对抗性损失用于判断基于条件对抗生成网络生成的图像是否与文本匹配。x～P_data表示生成图像服从真实图像；p_data表示真实图像分布；data表示真实图像；

表示独立的高斯分布；I表示单位矩阵。

在具体实施方式中：如图6为本发明实施例一的文本生成图像结果示意图。输入文本“一只更大的鸟，但它有一个小喙，全身是灰色、黑色和白色”，生成图像图6。如图7为本发明实施例二的文本生成图像结果示意图。输入文本“这种鸟的喙比它的头大，尾羽长，胸部有灰色斑点，颜色很深”，生成图7。如图8为本发明实施例三的文本生成图像结果示意图。输入文本“这种鸟的腹部和胸部有斑点，嘴短而钝”，生成图8。如图9为本发明实施例四的文本生成图像结果示意图。输入文本“黑色的小鸟，短而黑的跗骨和大而短的黑色喙”，生成图9；从图6-9中可以看出，本方法能准确识别文本并生成所需图像，操作简单效果好。

Claims

1.一种感知联合空间注意力文本生成图像方法，其特征在于包括如下步骤：

S1.生成初始图像，绘制对象的基本形状和颜色；

2.根据权利要求1所述的感知联合空间注意力文本生成图像方法，其特征在于所述的步骤S1，生成初始图像包括文本编码器、条件增强模块和对抗生成网络，具体包括：

3.根据权利要求2所述的感知联合空间注意力文本生成图像方法，其特征在于所述的步骤S2，包括如下步骤：

表示维度为N_r实数空间；

其中，w_j表示j-th单词向量；T表示单词的数目；

表示细粒度单词文本向量；

包括T个细粒度单词向量；

4.根据权利要求3所述的感知联合空间注意力文本生成图像方法，其特征在于步骤B2中，空间注意力模块包括如下步骤：

其中，r_i表示图像i-th像素特征；

其中，m^spatial表示归一化后的空间注意力矩阵；

其中，将细粒度单词文本向量

5.根据权利要求4所述的感知联合空间注意力文本生成图像方法，其特征在于步骤B2中动态记忆力模块包括：将从空间注意力模块得到的带有空间注意力的图像特征R^spatial和单词文本向量W输入到动态记忆力模块当中；动态记忆力模块包括记忆写入门、键寻址、值读取：

将单词和单词对应的重要性值存入键值结构化内存中：

其中，

和i-th像素特征r_i的相似概率β_i,j：

其中，φ_K(·)表示一个1×1的卷积，用于将j-th记忆插槽

l-th记忆插槽

值读取包括，根据写入的j-th记忆插槽

和图像i-th像素特征r_i的相似度β_i,j对记忆值进行加权求和：

其中，

映射到N_r维，N_r表示图像像素维度。

6.根据权利要求5所述的感知联合空间注意力文本生成图像方法，其特征在于所述的步骤B3，包括：从单词重要性维度出发，动态控制记忆力读取的信息流和上一个阶段的图像信息流结合：

7.根据权利要求6所述的感知联合空间注意力文本生成图像方法，其特征在于所述的步骤B4，包括：采用ImageNet数据集上预训练的19层VGG网络的感知损失，并将最后一个生成器的生成图像和真实图像输入感知损失网络；在relu5_4层激活图像特征；感知损失L_pl(R_real,R_fake)的表达式为：

表示真实图像和生成图像内容特征的欧式距离。

8.根据权利要求7所述的感知联合空间注意力文本生成图像方法，其特征在于所述的步骤S3，目标函数包括，

计算第i次生成G_i的对抗损失函数

包括：

其中，L_pl表示感知损失；β表示感知损失的权重；log表示取一个大于2的整数的对数，用于简便计算；生成器G_i包括相应的鉴别器D_i，D_i(x)表示判断从模型分布PG_i采样的生成图像x为真实图像的概率；D_i(x,s)表示判断根据文本变量s生成的从模型分布PG_i采样的生成图像x为真实图像的概率；

计算每个鉴别器的对抗性损失

表示独立的高斯分布；I表示单位矩阵。