CN115587160B

CN115587160B - 一种基于自注意力机制的短语级文本图像生成方法及系统

Info

Publication number: CN115587160B
Application number: CN202211119428.9A
Authority: CN
Inventors: 孙和玉; 郭强; 丛高翔
Original assignee: Shandong University of Finance and Economics
Current assignee: Shandong University of Finance and Economics
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-05-12
Anticipated expiration: 2042-09-14
Also published as: CN115587160A

Abstract

本发明属于文本图像生成领域，提供了一种基于自注意力机制的短语级文本图像生成方法及系统，包括利用自注意力机制对获取的文本指令描述进行编码，得到短语级文本表示；将短语级文本表示进行解码成像素图像特征表示，并根据像素图像特征表示生成目标视觉图像；对目标视觉图像和短语级文本表示进行跨模态一致性推理，判断目标视觉图像和短语级文本表示在语义空间的相似程度；根据目标视觉图像和短语级文本表示的相似程度得到跨模态一致性得分，根据跨模态一致性得分。本发明通过自注意力机制从多个角度聚合相关性强的单词，获得文本描述中的短语级指令表示，利用短语级指令表示能够更加清晰地理解用户的创作意图，确保生成图像的逻辑性和质量。

Description

一种基于自注意力机制的短语级文本图像生成方法及系统

技术领域

本发明属于文本图像生成技术领域，具体涉及一种基于自注意力机制的短语级文本图像生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

文本图像生成任务是根据用户指定的文本描述生成一幅图像，在许多实际应用领域发挥着重要的作用，例如智能美工，计算机辅助设计，医疗图像生成等等。文本到图像生成激发了人类发挥创作的想象力并伴随着巨大的应用潜力，所以文本图像生成任务虽然具有挑战性，却引起了广泛的研究关注。

文本图像生成任务的关键目标是保证视觉的真实性和语义的一致性。近年来，随着生成式对抗网络的发展，在视觉真实性方面，现有的图像生成方法尝试将生成器和判别器进行堆叠，产生了大量的高分辨率且逼真的图片。然而在语义一致性方面，现有的模型缺乏理解图像与文本指令之间语义一致性的跨模态对齐，生成的图像无法很好地符合用户描述。

在语义一致性方面，由于模型需要将已生成视觉内容和文本内容在语义空间中进行匹配，所以如何利用并提取文本信息是提高语义一致性的关键。早期的文本图像生成方法主要使用句子级别的全局文本描述来生成和对齐图像，这些生成的图像缺乏细节和生动的主体部分。随后，Xu等人提出AttnGAN，使用单词级别的局部文本描述来堆叠地生成图像，这种方法利用Attention机制引入了更多的细粒度的文本信息来匹配视觉信息。Li等人提出CGL-GAN，将句子级别的全局文本描述和单词级别的局部文本描述分别对齐不同的特征图，来提高对用户指令的理解，使生成的图像进一步地来符合文本描述。

然而上述方法主要侧重从句子级或单词级的文本描述来提取用户指令，缺乏对短语级的文本理解。短语级的文本特征是指通过几个词来表述一个物体的方面或特征，可以帮助模型更深刻地理解文本指令想要描述的内容。一个句子中通常包含多个方面的术语，过去单个单词的表述过于片面，只能捕捉一些物体特征的单一信息，缺乏从不同的角度来描述一个对象或一个场景。

发明内容

为了解决上述问题，本发明提出了一种基于自注意力机制的短语级文本图像生成方法及系统，本发明通过自注意力机制从多个角度聚合相关性强的单词，获得文本描述中的短语级指令表示。利用短语级指令表示能够更加清晰地理解用户的创作意图，可以更加准确地引导生成式对抗模型(GAN)来生产目标图像，确保生成图像的逻辑性和质量，提高文本指令与生成图像之间的一致性。实验和测试证明，一种基于自注意力机制的短语级文本图像生成方法可以使生成的视觉图像更准确，更完整，更有意义。

根据一些实施例，本发明的第一方案提供了一种基于自注意力机制的短语级文本图像生成方法，采用如下技术方案：

一种基于自注意力机制的短语级文本图像生成方法，包括：

利用自注意力机制对获取的文本指令描述进行编码，得到短语级文本表示；

将短语级文本表示进行解码成像素图像特征表示，并根据像素图像特征表示生成目标视觉图像；

对目标视觉图像和短语级文本表示进行跨模态一致性推理，判断目标视觉图像和短语级文本表示在语义空间的相似程度；

根据目标视觉图像和短语级文本表示的相似程度得到跨模态一致性得分，根据跨模态一致性得分。

进一步地，所述利用自注意力机制对获取的文本指令描述进行编码，得到短语级文本表示，包括：

通过双向LSTM编码器获取文本指令描述的单词级文本信息；

通过多头自注意力机制编码器确定单词级文本信息之间关联的特征信息，得到当前时刻的短语级文本信息；

利用GRU编码器将当前时刻的短语级的文本信息和历史的短语级文本信息串联起来，得到串联后的短语级文本表示。

进一步地，所述利用自注意力机制对获取的文本指令描述进行编码，得到短语级文本表示，还包括：

利用CA条件增强函数对串联后的短语级文本表示进行增强，得到短语级文本表示。

进一步地，多头自注意力机制编码器的实现过程为：

P_t＝β_tW_t

其中，

代表提取到的短语级文本信息，d_k代表整个句子中短语特征的数量，

d_a代表短语级的文本信息的嵌入维度，β_t代表单词与句子中其余每个单词的关联权值矩阵，Q_t和K_t代表当前句子的单词级文本信息w_t通过线性变化得到的查询和键值函数，W_t代表t时刻通过双向LSTM编码器预处理之后的嵌入式向量文本表示，T为数学转置符号。

进一步地，所述将短语级文本表示进行解码成像素图像特征表示，并根据像素图像特征表示生成目标视觉图像，包括：

通过多层感知机的映射操作，将短语级文本表示映射到视觉空间中，得到映射后的短语级文本表示；

利用映射后的短语级文本表示与上一时刻的图像辅助视觉信息进行跨模态特征融合，得到融合跨模态特征；

利用图像生成器对融合跨模态特征进行解码，生成目标视觉图像。

进一步地，所述对目标视觉图像和短语级文本表示进行跨模态一致性推理，判断目标视觉图像和短语级文本表示在语义空间的相似程度，包括：

通过图像解码器对目标视觉图像进行解码，得到目标视觉图像的视觉特征图；

通过计算目标视觉图像的视觉特征图与上一时刻图像的视觉特征图在视觉元素上的差值，得到当前的视觉特征变化；

将当前的视觉特征变化与短语级文本表示投影到语义空间，将当前的视觉特征变化投影到与短语级文本表示相同维度的特征向量上，实现语义信息的跨模态对齐；

通过一致性推理判别器判断跨模态对齐后的短语级文本表示和当前的视觉特征变化之间的一致性关联程度，得到跨模态一致性得分。

进一步地，所述根据目标视觉图像和短语级文本表示的相似程度得到跨模态一致性得分，根据跨模态一致性得分，包括：

根据目标视觉图像和短语级文本表示的相似程度的大小，得到目标视觉图像和短语级文本表示的跨模态一致性得分；

以跨模态一致性得分高的目标视觉图像作为最终的目标图像。

根据一些实施例，本发明的第二方案提供了一种基于自注意力机制的短语级文本图像生成系统，采用如下技术方案：

一种基于自注意力机制的短语级文本图像生成系统，，包括：

短语级文本理解模块，被配置为利用自注意力机制对获取的文本指令描述进行编码，得到短语级文本表示；

目标视觉图像生成模块，被配置为将短语级文本表示进行解码成像素图像特征表示，并根据像素图像特征表示生成目标视觉图像；

跨模态一致性推理模块，被配置为对目标视觉图像和短语级文本表示进行跨模态一致性推理，判断目标视觉图像和短语级文本表示在语义空间的相似程度；

文本图像生成模块，被配置为根据目标视觉图像和短语级文本表示的相似程度得到跨模态一致性得分，根据跨模态一致性得分。

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种基于自注意力机制的短语级文本图像生成方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种基于自注意力机制的短语级文本图像生成方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明重新考虑了句子中短语信息的巨大潜力，可以更加清晰和全面地了解用户指令意图。不同于以往的方法只考虑了句子级和单词级的文本特征，本发明设计了一种基于自注意力机制的短语级文本图像生成方法，它包括短语级文本理解层，目标视觉图像生成层和跨模态一致性推理层。短语级文本理解层负责准确地提取用户指令中的短语级文本编码表示，这为目标视觉图像生成层提供了一个良好的生成信号，在目标视觉图像生成层中短语级文本编码表示会被有效解码，转换成更加生动和真实的图像特征。此外，跨模态一致性推理层可以有效地测量生成的目标图像的质量和逻辑，保证生成的图像特征与用户指令意图的跨模态一致性。事实证明，基于自注意力机制的短语级文本图像生成方法更有助于图像合成，特别是在用户指令序列较长的情况下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例中提供的一种基于自注意力机制的短语级文本图像生成方法的设计框图；

图2是本发明实施例中提供的一种基于自注意力机制的短语级文本图像生成方法的流程示意图；

图3是本发明实施例中提供的基于给定的文字描述在CoDraw数据集上生成的图像结果示意图；

图4是本发明实施例中提供的基于给定的文字描述在i-CLEVR数据集上生成的图像结果示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例提供了一种基于自注意力机制的短语级文本图像生成方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

根据目标视觉图像和短语级文本表示的相似程度得到跨模态一致性得分，根据跨模态一致性得分生成最终的目标图像。

该方法通过自注意力机制从多个角度聚合相关性强的单词，获得文本描述中的短语级指令表示。利用短语级指令表示能够更加清晰地理解用户的创作意图，可以更加准确地引导生成式对抗模型(GAN)来生产目标图像，确保生成图像的逻辑性和质量，提高文本指令与生成图像之间的一致性。实验和测试证明，一种基于自注意力机制的短语级文本图像生成方法可以使生成的视觉图像更准确，更完整，更有意义。短语级指令表示是生成式对抗模型GAN的输入条件。生成式对抗模型是基于短语指令生成目标图像的。

如图1所示，在短语级文本理解层，使用自注意力机制对用户的文本指令进行编码，通过键值查询把相关性强的单词信息聚合到一起，组合成短语级的文本表示，可以更准确地描述一个物体方面级的特征信息。

在目标视觉图像生成层，通过把提取到的短语级的文本表示进行解码，实现了将嵌入式的短语级文本表示翻译成代表视觉的像素级图像特征。

在跨模态一致性推理层，计算生成图像与文本表示的跨模态一致性的匹配程度，判别所生成的图像在语义空间上是否与短语级的文本表示对齐。根据跨模态一致性得分，本实施例使用对抗损失函数对整个网络进行优化，指导模型生产出最优的目标图像。

具体地，如图1所示，本实施例所述的方法，具体包括：

步骤S1，基于任务类型，在短语级文本理解层，首先获取文本指令中用于描述一个物体方面级特征信息的短语级文本编码表示。

步骤S2，在目标视觉图像生成层，利用图像生成器对短语级的文本表示进行解码，转化成像素特征表示，构建目标图像的视觉场景。

步骤S3，在跨模态一致性推理层，基于一致性推理判别器测量生成图像与文本表示在语义空间的相似程度，最后输出代表文本-图像语义一致性匹配程度的跨模态一致性得分。

步骤S4，利用Adam优化器采用不同的学习率，分别优化短语级文本理解层，目标视觉图像生成层和跨模态一致性推理层，并设置模型优化目标。如图2所示，在训练的过程中，若达到优化目标最优解，则输出由最优模型生成的目标图像。

所述步骤S1包括如下步骤：

首先为了获得单词之间的依赖关系，本发明通过双向LSTM编码器获取单词级的文本信息w_t。随后，通过多头自注意力机制编码器寻找单词级文本信息之间关联的特征信息，输出当前时刻的短语级的文本信息P_t。然后，本发明使用一个GRU编码器将当前时刻的短语级文本信息P_t和历史的短语级文本信息P_t-1串联起来，这样可以更加充分地表示用户的意图，获得一个更加全面的文本信息。此外，为了增强语言指令的特征向量表示，本发明还利用条件增强技术(CA，conditional augmentation)来生成更多的描述性特征向量，使模型对新指令的鲁棒性更强。

S1.1：使用双向LSTM编码器获取单词级的文本信息w_t；

其中，

代表第m个单词通过双向LSTM预处理之后的嵌入式向量文本表示，d_w代表该文本表示的向量特征维度；

w_t代表t时刻当前输入的文本指令的单词级的文本信息，m为预处理之后单词的长度。

S1.2：通过多头自注意力机制编码器寻找单词级文本信息之间关联的特征信息，输出当前时刻的短语级的文本信息P_t；

P_t＝β_tW_t (18)

其中，

代表提取到的短语级的文本信息，d_k代表整个句子中短语特征的数量。

d_a代表短语级的文本信息的嵌入维度。本发明通过多头自注意力机制计算单词级的文本信息w_t之间的自我相关程度，β_t代表单词与句子中其余每个单词的关联权值矩阵，Q_t和K_t代表当前句子的单词级的文本信息w_t通过线性变化得到的查询和键值函数，通过自注意力机制的三元组(QKV)的计算方式，确保可以有效地捕捉整个句子的全局上下文信息。最后，为了确保所有计算出的权重之和为1，本发明使用一个softmax激活函数。

由于不同时间步长下的指令是相关的，因此当前的指令不能单独表示用户的意图。

S1.3：使用一个GRU编码器将当前时刻的短语级文本信息P_t和历史的短语级文本信息P_t-1串联起来；

H_t＝GRU(P_t,P_t-1) (20)

其中，P_t代表当前时刻的短语级的文本信息，P_t-1代表上一时刻短语级的文本信息。

S1.4：利用条件增强技术(CA，conditional augmentation)来生成更多的描述性特征向量，使模型对新指令的鲁棒性更强；

Text_t＝F^ca[H_t] (21)

其中，F^ca[.]代表CA条件增强函数，它可以产生额外的条件变量，这些条件变量是从独立高斯分布

中随机采样的。条件增强在少量图像-文本对的情况下产生更多的训练数据，并有助于对条件流形的小扰动具有鲁棒性。Text_t代表最终通过条件增强函数输出的短语级文本编码表示。

所述步骤S2包括如下步骤：

通过将步骤S1得到的短语级文本编码表示Text_t输入到一个多层感知机，来实现将短语级文本编码表示映射到视觉空间中，然后与来自图像编码器的辅助图像特征表示进行跨模态特征融合，最后将合成的多模态特征输入到图像生成器中，通过CBN条件批量归一化层和ResNet上采样层进行解码，得到目标视觉图像。

S2.1：将步骤S1.4得到的短语级文本编码表示Text_t输入到一个多层感知机，来实现将短语级文本编码表示映射到视觉空间中；

C_t＝MLP(Text_t) (22)

其中，MLP为多层感知机的映射操作，责将短语级文本编码表示Text_t投影到与视觉特征一致的像素空间中，C_t代表经过投影操作后的文本条件语义信息。

S2.2：利用图像编码器感知上一时刻图像的辅助视觉信息；

其中，I_t-1代表上一时刻的图片信息，R_G是一个通过ResNet下采样模块组成的图像解码器，负责提取上一时刻图片的特征信息

S2.3：将S2.1得到的文本条件语义信息与S2.2得到的上一时刻图片的特征信息

进行跨模态特征融合；

其中，合成的多模态视觉特征的表示为

通过空间元素的加法运算将投影操作后的文本条件语义信息C_t和上一时刻图片的特征信息

融合到一起。在图像生成器中，利用堆叠ResNet上采样层和CBN条件批量归一化层来生成基于合成的多模态视觉特征来解码目标图像。但是，仅依靠合成的多模态视觉特征的表示来生成目标图像是不够的，因为它并不能覆盖源图像的所有详细的视觉信息。为了解决这一问题，本实例列还引入上一时刻图片的特征信息

作为辅助信息，帮助图像生成器构造目标图像。

S2.4：利用图像生成器将融合后的特征进行解码，生成目标图像

图像生成器利用堆叠ResNet上采样层和CBN条件批量归一化层来生成基于合成的多模态视觉特征来解码目标图像；

所述步骤S3包括如下步骤：

S3.1：将步骤S2.3生成的目标图像输入到图像编码器R_G(.)中，计算目标图像的视觉特征图

S3.2：将步骤S1.4生成的短语级文本编码表示Text_t输入到条件投影模块。条件投影模块是一个全连接层，负责将映射到空间维度为1024的特征空间中，便于后续的跨模态投影模块的计算；

S3.3：计算当前短语级文本编码表示Text_t在视觉上的特征变化，并输入到跨模态投影模块θ(.)；

其中，

是当前的视觉特征变化，

C，W，H为当前的视觉特征变化通道数，高度和宽度的大小。

代表了模型基于当前短语级文本编码表示Text_t在视觉上进行的修改。但是由于生成图像的错误可能是由历史错误操作引起的，因此仅依赖当前的视觉特征变化

可能是不够的，所以本实施例还引入了上一时刻图片的特征信息

作为一个辅助信息。

跨模态投影模块θ(.)是一个MLP模块，负责将当前的视觉特征变化

投影到与短语级文本编码表示Text_t相同维度的特征向量上，将当前的视觉特征变化

和短语级文本编码表示Text_t投影到一个公共特征空间，实现了它们语义信息的跨模态对齐。

S3.4：测量生成的目标图像的质量和逻辑，推理公共特征空间中的视觉元素与用户意图的文本元素之间的一致性关联程度；

其中，δ(.)是一个将当前的视觉特征变化

投影到标量中的全连接层，θ(.)是一个MLP模块，负责将当前的视觉特征变化

投影到与短语级文本编码表示Text_t相同维度的特征向量上。通过跨模态投影模块的跨模态投影操作，最终一致性推理判别器会输出跨模态一致性得分Socre。

跨模态一致性得分将进一步地输入到一致性推理判别器的目标损失L_D中(公式28)，在模型训练时对各种参数进行优化。即跨模态一致性得分是衡量生成效果的指标，模型会以此作为依据，尝试通过训练生成一致性高的得分，这样模型就生成了更符合文本描述的目标图像。

所述步骤S4包括如下步骤：

利用Adam优化器采用不同的学习率，分别优化短语级文本理解层，目标视觉图像生成层和跨模态一致性推理层，并设置模型优化目标。在训练的过程中，若达到优化目标最优解，则输出由最优模型生成的目标图像。

定义模型优化目标，在训练的过程中，若达到优化目标最优解，则输出由最优模型生成的目标图像；

L_aim＝L_D+L_G (27)

其中，L_aim为本模型优化目标，本发明的设计遵循对抗学习的损失训练，分为图像生成器的目标损失L_D和一致性推理判别器的目标损失L_G。短语级文本理解层仅通过一致性推理判别器的反向传播进行优化，因此更有利于将短语级文本信息净化为与此时间步长的视觉变化相一致的用户意图的语义表示。

一致性推理判别器的目标损失L_D的定义如下：

其中，

代表一致性推理判别器对真实的视觉图像与短语级文本编码表示的约束，

代表一致性推理判别器对生成的视觉图像与短语级文本编码表示的约束，

代表一致性推理判别器对真实的视觉图像与不对应的短语级文本编码表示的约束。

进一步的，

和

的定义分别如下：

其中，

和

都遵循铰链损失的定义，分将类正确但概率不足1和分类错误的样本被识别为支持向量(support vector)，用于划分决策边界。I_t-1和I_t是t-1时刻和t时刻的视觉图像。

与Text_t相同，都是短语级文本编码表示，但是

是一个错误的指令，该指令与t时刻的图像特征I_t并不相同。T代表用户输入的指令序列的长度。C_t代表经过投影操作后的文本条件语义信息，

代表上一时刻图片的特征信息。

图像生成器的目标损失L_G的定义如下：

其中，图像生成器G的目标是鼓励基于t-1时刻的视觉图像I_t-1和短语级文本编码表示Text_t生成的视觉图像欺骗一致性推理判别器，确保生成的质量和良好的逻辑目标图像。图像生成器和一致性推理判别器进行交替训练，以最小化对抗性的铰链损失。

通过测试和实验表明，基于自注意力机制的短语级文本图像生成方法更有助于图像合成，特别是在用户指令序列较长的情况下。图3和4为本发明在两种数据集(i-CLEVR和CoDraw)上进行图像生成的结果示意图。

实施例二

本实施例提供了一种基于自注意力机制的短语级文本图像生成系统，包括：

文本图像生成模块，被配置为根据目标视觉图像和短语级文本表示的跨模态一致性得分，生成最终的目标图像。

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于自注意力机制的短语级文本图像生成方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于自注意力机制的短语级文本图像生成方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于自注意力机制的短语级文本图像生成方法，其特征在于，包括：

根据目标视觉图像和短语级文本表示的相似程度得到跨模态一致性得分，根据跨模态一致性得分生成最终的目标图像；

所述利用自注意力机制对获取的文本指令描述进行编码，得到短语级文本表示，包括：

通过双向LSTM编码器获取文本指令描述的单词级文本信息；

利用GRU编码器将当前时刻的短语级的文本信息和历史的短语级文本信息串联起来，得到串联后的短语级文本表示；

所述利用自注意力机制对获取的文本指令描述进行编码，得到短语级文本表示，还包括：

利用CA条件增强函数对串联后的短语级文本表示进行增强，得到短语级文本表示；

多头自注意力机制编码器的实现过程为：

P_t＝β_tW_t

其中，代表提取到的短语级文本信息，d_k代表整个句子中短语特征的数量，d_a代表短语级的文本信息的嵌入维度，β_t代表单词与句子中其余每个单词的关联权值矩阵，Q_t和K_t代表当前句子的单词级文本信息w_t通过线性变化得到的查询和键值函数，W_t代表t时刻通过双向LSTM编码器预处理之后的嵌入式向量文本表示，T代表为数学转置符号；

所述将短语级文本表示进行解码成像素图像特征表示，并根据像素图像特征表示生成目标视觉图像，包括：

2.如权利要求1所述的一种基于自注意力机制的短语级文本图像生成方法，其特征在于，所述对目标视觉图像和短语级文本表示进行跨模态一致性推理，判断目标视觉图像和短语级文本表示在语义空间的相似程度，包括：

通过一致性推理判别器判断跨模态对齐后的短语级文本表示和当前的视觉特征变化之间的一致性关联程度，得到目标视觉图像和短语级文本表示在语义空间的相似程度。

3.如权利要求1所述的一种基于自注意力机制的短语级文本图像生成方法，其特征在于，所述根据目标视觉图像和短语级文本表示的相似程度得到跨模态一致性得分，根据跨模态一致性得分生成最终的目标图像，包括：

4.一种基于自注意力机制的短语级文本图像生成系统，其特征在于，包括：

文本图像生成模块，被配置为根据目标视觉图像和短语级文本表示的相似程度得到跨模态一致性得分，根据跨模态一致性得分；

通过双向LSTM编码器获取文本指令描述的单词级文本信息；

多头自注意力机制编码器的实现过程为：

P_t＝β_tW_t

其中，代表提取到的短语级文本信息，代表整个句子中短语特征的数量，代表短语级的文本信息的嵌入维度，代表单词与句子中其余每个单词的关联权值矩阵，和代表当前句子的单词级文本信息通过线性变化得到的查询和键值函数，代表t时刻通过双向LSTM编码器预处理之后的嵌入式向量文本表示，T代表为数学转置符号；

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的一种基于自注意力机制的短语级文本图像生成方法中的步骤。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-3中任一项所述的一种基于自注意力机制的短语级文本图像生成方法中的步骤。