CN113537416A

CN113537416A - 基于生成式对抗网络的文本转换图像的方法及相关设备

Info

Publication number: CN113537416A
Application number: CN202111090312.2A
Authority: CN
Inventors: 杨巨成; 姚彤; 刘建征; 张伟; 许能华; 闫潇宁
Original assignee: Tianjin University of Science and Technology; Shenzhen Anruan Technology Co Ltd
Current assignee: Tianjin University of Science and Technology; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-10-22

Abstract

本发明实施例提供一种基于生成式对抗网络的文本转换图像的方法及相关设备，所述方法包括以下步骤：获取一段图像的文本描述；将所述文本描述通过预设的第一编码器转化为多维向量编码；将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量；将所述第一输入向量输入预设的第一生成网络，生成低分辨率图像；将所述低分辨率图像与所述多维向量编码进行融合，得到第二输入向量；将所述第二输入向量输入预设的第二生成网络，生成高分辨率图像；所述第一生成网络、第二生成网络为预训练好的网络。该方法算法简单易于实现，能生成较高分辨率和多样性的图像，有助于扩充数据集。

Description

基于生成式对抗网络的文本转换图像的方法及相关设备

技术领域

本发明涉及人工智能领域，尤其涉及一种基于生成式对抗网络的文本转换图像的方法及相关设备。

背景技术

随着人工智能和深度学习领域的技术的发展，用于训练算法的数据集的需求也越来越庞大。然而庞大的数据的采集制作需要庞大的成本，使用计算机生成图像有助于数据库的扩充并且成本低下。目前生成图像的技术主要是基于生成式对抗网络的图像风格迁移方法。一些基于生成式对抗网络的图像迁移方法，例如cycleGAN，需要昂贵的配对数据集。而文本到图像转换方法优势是：成本低廉、操作简单，只需要文本描述和图像的配对数据集进行训练，而且在扩充数据集时只需要文本描述，就能生成多样的高分辨率的图像。例如训练好一个文本到图像的转化模型后，扩充数据集时只需将文本描述中的颜色、形状、背景等进行排列组合，就能生成多个图像数据。

从文本描述中合成高质量的图像是计算机视觉中一个具有挑战性的问题，并且有许多实际应用。由现有的文本到图像方法生成的样本可以大致反映给定描述的含义，但是它们没有包含必要的细节和生动的对象部分。

发明内容

本发明实施例提供一种基于生成式对抗网络的文本转换图像的方法，以解决上述技术问题。

第一方面，本发明实施例提供基于生成式对抗网络的文本转换图像的方法，其特征在于，包括以下步骤：

获取一段图像的文本描述；

将所述文本描述通过预设的第一编码器转化为多维向量编码；

将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量；

将所述第一输入向量输入预设的第一生成网络，生成低分辨率图像；

将所述低分辨率图像与所述多维向量编码进行融合，得到第二输入向量；

将所述第二输入向量输入预设的第二生成网络，生成高分辨率图像；

所述第一生成网络、第二生成网络为预训练好的网络。

优选的，所述将所述低分辨率图像与所述多维向量编码进行融合，得到第二输入向量的步骤前还包括：

将第一生成网络生成的低分辨率图像与真实图像放入预设的第一判别网络进行判断真假，输出结果为真的低分辨率图像，所述第一判别网络为预训练好的网络；

所述将所述第二输入向量输入预设的第二生成网络，生成高分辨率图像的步骤之后还包括：

将第二生成网络生成的高分辨率图像输入到预设的第二判别网络进行判断真假，输出结果为真的高分辨率图像。

优选的，所述第一生成网络、第二生成网络的预训练使用生成式对抗网络的损失函数，采用反向传播算法，使用梯度下降优化参数。

优选的，所述第一生成网络、第二生成网络的结构相同，所述损失函数为：

其中真实图像

和文本描述

来自真实数据分布Pdata，

是从给定分布

随机采样的噪声向量，

、

分别为判别器、生成器，

为基于所述文本描述的多维向量编码，通过最大化

最小化

来训练所述第一生成网络、第二生成网络。

优选的，所述梯度下降优化参数算法为Adam优化算法，学习率为0.001。

优选的，所述第一编码器包括2-4个编码块，每个编码块包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层；其中，所述多头注意力层为4-8个头，所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加，再与所述第二层归一化层相加，再连接所述2-4个全连接层，所述全连接层的输出与所述第二层归一化层的输入对应元素相加。

优选的，所述初始化的噪音向量的值由随机函数生成的与所述文本描述编码同维度的方差为1、期望为0的正态分布数值。

优选的，在将所述第一输入向量输入预设的第一生成网络的步骤前，还包括：

将所述第一输入向量输入到多层感知机；

将所述多层感知机的输出平均划分为

个分块，在每个分块后面拼接位置信息，作为所述第一生成网络的输入

。

优选的，所述第一生成网络生成低分辨率图像的步骤包括：

所述第一生成网络接收所述输入

，其中，所述第一生成网络包括4-6个第二编码器，每个所述第二编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层；其中，所述多头注意力层为4-8个头，所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加，再与所述第二层归一化层相加，再连接所述 2-4个全连接层，所述全连接层的输出与所述第二层归一化层的输入对应元素相加；

将所述第二编码器的输出进行上采样，将前一第二编码器的输出数据转化维度为

，再使用PixelShuffle方法将输出数据的维度

变形成

，提升图像的分辨率，然后将变形后的输出数据

划分为多个分块，每个分块的分辨率为4像素

像素，特征维度为

，形成

个分块，或者每个分块的分辨率为8像素

像素，特征维度为

，形成

个分块，形成下一个第二编码器的输入；

重复执行上述第一生成网络接收所述输入

的步骤以及所述将所述第二编码器的输出进行上采样的步骤，将生成的张量转化为特征图，对所述特征图进行卷积操作，生成低分辨率图像。

优选的，所述第一判别网络进行预训练的过程包括步骤：

将第一生成网络生成的低分辨率图像作为负样本，对应的文本描述的真实图像作为正样本，非对应的文本描述的真实图像作为负样本，所述低分辨率图像、真实图像作为所述第一判别网络的输入图像；

将所述低分辨率图像、真实图像分别划分为

个分块或

个分块，每个所述分块对应的图像分辨率为

像素或者

像素，在每个所述分块后面拼接位置信息和对应所述文本描述的多维向量编码，将拼接后的分块维度转化为

维，每个分块再对应增加用于判别正负样本的分类分块，其中，所述分类分块的位置信息为全0，分类分块的文本描述复制所述多维向量编码；

将所述由低分辨率图像、真实图像划分的分块及所述分类分块输入到所述第一判别网络，根据所述分类分块判断所述输入图像是正样本还是负样本。

优选的，所述将所述第二输入向量输入预设的第二生成网络的步骤前包括：

将所述低分辨率图像平均划分成8个或16个分块，在每个分块后面添加位置信息，所述位置信息由热独码或二维度矩阵组成；

将所述分块与所述多维向量编码进行拼接，得到所述第二生成网络的第二输入向量作为所述第二生成网络的输入

。

优选的，所述第二生成网络生成高分辨率图像的步骤包括：

所述第二生成网络接收所述输入

，所述第二生成网络包括4-6个第三编码器，每个所述第三编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层；其中，所述多头注意力层为4-8个头，所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加，再与所述第二层归一化层相加，再连接所述2-4 个全连接层，所述全连接层的输出与所述第二层归一化层的输入对应元素相加，每个所述第三编码器得到的输出在维度上等于该第三编码器的输入；

将所述第三编码器的输出进行上采样，将前一第二编码器的输出数据转化维度为

，再使用PixelShuffle方法将输出数据的维度

变形成

，提升图像的分辨率，然后将变形后的输出数据

划分为多个分块，每个分块的分辨率为4像素

像素，特征维度为

，形成

个分块，或者每个分块的分辨率为8像素

像素，特征维度为

，形成

个分块，形成下一个第二编码器的输入；

重复执行上述第二生成网络接收所述输入M1的步骤以及所述将所述第三编码器的输出进行上采样的步骤，将生成的张量转化为特征图，对所述特征图进行卷积操作，生成高分辨率图像。

优选的，所述将第二生成网络生成的高分辨率图像输入到预设的第二判别网络进行判断真假，输出结果为真的高分辨率图像的步骤包括：

将生成的高分辨率图像作为负样本，对应所述文本描述的真实图像作为正样本，非对应所述文本描述的真实图像作为负样本，所述低分辨率图像、真实图像作为所述第二判别网络的输入图像；

将所述高分辨率图像、真实图像分别划分为

个分块或

个分块，每个所述分块对应的图像分辨率为

像素或者

像素，在每个所述分块后面拼接位置信息和对应所述文本描述的多维向量编码，将拼接后的分块维度转化为C维，每个分块再对应增加用于判别正负样本的分类分块，其中，所述分类分块的位置信息为全0，分类分块的文本描述复制所述多维向量编码；

将所述由低分辨率图像、真实图像划分的分块及所述分类分块输入到所述第二判别网络，根据所述分类分块判断所述输入图像是正样本还是负样本。

优选的，所述第一生成网络、第二生成网络的预训练过程中，先冻结第二生成网络的反向传播，训练第一生成网络；然后冻结第一生成网络的反向传播，训练第二生成网络；最后将第一生成网络、第二生成网络一起训练；

其中，训练过程使用文本描述与真实图像作为样本对，文本描述与对应描述的真实图像作为正样本1，文本描述与非对应描述的真实图像作为负样本2，文本描述与生成图像作为负样本3。

第二方面，本发明提供一种基于生成式对抗网络的文本转换图像的装置，包括：

文本获取模块，用于获取一段图像的文本描述；

第一编码模块，用于将所述文本描述通过预设的第一编码器转化为多维向量编码；

拼接模块，用于将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量；

第一生成模块，将所述第一输入向量输入预设的第一生成网络，生成低分辨率图像；

融合模块，将所述低分辨率图像与所述多维向量编码进行融合，得到第二输入向量；

第二生成模块，将所述第二输入向量输入预设的第二生成网络，生成高分辨率图像；

所述第一生成网络、第二生成网络为预训练好的网络。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例提供的基于生成式对抗网络的文本转换图像的方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现发明实施例提供的基于生成式对抗网络的文本转换图像的方法中的步骤。

本发明实施例中，通过多次上采样实现将文本描述转化为高分辨率的图像。利用生成式对抗网络来指导图像的生成，并且通过随机噪音实现生成图像的多样性。在一种实施例中，本发明使用transformer编码器的结构捕捉图像的全局依赖，而不是基于卷积操作的局部依赖，其原理简单，可靠性高；该方法成本低廉，且算法简单易于实现，能够满足不同场合的实际要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于生成式对抗网络的文本转换图像的方法的流程示意图；

图2是本发明实施例提供的一种transformer编码器结构示意图；

图3是本发明实施例提供的一种文本转换图像的模型框架结构示意图；

图4是本发明实施例提供的一种基于生成式对抗网络的文本转换图像的装置的结构示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种基于生成式对抗网络的文本转换图像的方法的流程示意图，请参见图3，图3是本发明实施例提供的一种文本转换图像的模型框架结构示意图，基于该模型框架结构，如图1所示，上述方法包括以下步骤：

101、获取一段图像的文本描述。

在本发明实施例中，文本描述是针对图像的描述内容，例如，可以是关于一个物体图像的外观、形状、颜色以及背景的描述。其中，文本描述的单词数量可以是10-30个英文单词，当然，并不限于其它单词数量或是语言的类型，为了更便于进行识别，使用英文单词可以减少计算的层次。

102、将所述文本描述通过预设的第一编码器转化为多维向量编码。

在本发明实施例中，第一编码器为transformer编码器结构，第一编码器的作用是将文本描述转化为多维向量编码，使其满足第一生成网络的输入格式要求。具体的，所述第一编码器包括2-4个编码块，如图2所示，图2是本发明实施例提供的一种transformer编码器结构示意图，其中每个编码块包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层；其中，所述多头注意力层为4-8个头，所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加，再与所述第二层归一化层相加，再连接所述2-4个全连接层，所述全连接层的输出与所述第二层归一化层的输入对应元素相加。

103、将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量。

在本发明实施例中，通过与噪音向量进行拼接，使得后续生成的图片可以形成多样性。其中，初始化的噪音向量的值由随机函数生成的与所述文本描述编码同维度的方差为1、期望为0的正态分布数值。

104、将所述第一输入向量输入预设的第一生成网络，生成低分辨率图像。

在本发明实施例中，第一生成网络为预训练好的网络，同时，在将所述第一输入向量输入预设的第一生成网络的步骤前，还包括步骤：

将所述第一输入向量输入到多层感知机；

将所述多层感知机的输出平均划分为

个分块（patch），在每个分块后面拼接位置信息，作为所述第一生成网络的输入

。

其中，生成低分辨率图像具体包括：

所述第一生成网络接收所述输入

，其中，所述第一生成网络包括4-6个第二编码器，第二编码器为transformer编码器结构，每个所述第二编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层；其中，所述多头注意力层为4-8个头，所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加，再与所述第二层归一化层相加，再连接所述2-4个全连接层，所述全连接层的输出与所述第二层归一化层的输入对应元素相加；

，其中，

表示（通道，高，宽），再使用像素重组（PixelShuffle）方法将输出数据的维度

变形成

，提升图像的分辨率，然后将变形后的输出数据

划分为多个分块，每个分块的分辨率为4像素

像素，特征维度为

，形成

个分块，或者每个分块的分辨率为8像素

像素，特征维度为

，形成

个分块，形成下一个第二编码器的输入；

重复执行上述第一生成网络接收所述输入

的步骤以及所述将所述第二编码器的输出进行上采样的步骤，将生成的张量转化成维度为

的特征图，对所述特征图进行卷积操作，生成低分辨率图像，该低分辨率图像的分辨率可以为

像素。其中，卷积操作的卷积核大小为

，步距为1，填充（padding）为1，通道

，卷积核的个数为3，生成的是3通道的RGB图像。

104a、将低分辨率图像和真实图像放入第一判别网络判断真假。

具体的，本实施例中，第一判别网络为预先训练好的，其中，第一判别网络的训练过程包括：

将第一生成网络生成的低分辨率图像作为负样本，对应文本描述的真实图像作为正样本，非对应所述文本描述的真实图像作为负样本，所述低分辨率图像、真实图像作为所述第一判别网络的输入图像；

将所述低分辨率图像、真实图像分别划分为

个分块或

个分块，每个所述分块对应的图像分辨率为

像素或者

将所述由低分辨率图像、真实图像划分的分块及所述分类分块输入到所述第一判别网络，根据所述分类分块判断所述输入图像是正样本还是负样本。该第一判别网络包括8-16个transformer编码器。每个transformer编码器的内部结构依次为，一个层归一化、一个多头的自注意力模块，然后将输入与进行层归一化和多头自注意力模块后的tensor相加，再经过一个层归一化模块和一个多层感知机模块，多层感知机模块包括两个全连接，两个全连接并不改变输入tensor的维度，以便接入下一个transformer编码器，其中，多头自注意力为8-16个头。

105、将所述低分辨率图像与所述多维向量编码进行融合，得到第二输入向量。

具体的，本实施例中，将所述低分辨率图像平均划分成8个或16个分块，在每个分块后面添加位置信息，所述位置信息由热独码或二维度矩阵组成；将所述分块与所述多维向量编码进行拼接，得到所述第二生成网络的第二输入向量作为所述第二生成网络的输入

。

106、将所述第二输入向量输入预设的第二生成网络，生成高分辨率图像。

具体的，所述第二生成网络也是预训练好的，所述第二生成网络接收所述输入

，所述第二生成网络包括4-6个第三编码器，第三编码器为transformer编码器结构，每个所述第二编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层；其中，所述多头注意力层为4-8个头，所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加，再与所述第二层归一化层相加，再连接所述2-4个全连接层，所述全连接层的输出与所述第二层归一化层的输入对应元素相加，每个所述第三编码器得到的输出在维度上等于该第三编码器的输入。

将所述第三编码器的输出进行上采样，将前一第三编码器的输出数据转化维度为

，其中，

表示（通道，高，宽），再使用像素重组方法将输出数据的维度

变形成

，提升图像的分辨率，然后将变形后的输出数据

划分为多个分块，每个分块的分辨率为4 像素

像素，特征维度为

，形成

个分块，或者每个分块的分辨率为8像素

像素，特征维度为

，形成

个分块，形成下一个第二编码器的输入。

重复执行上述第二生成网络接收所述输入

的步骤以及所述将所述第三编码器的输出进行上采样的步骤，将生成的张量转化成维度为

，对所述特征图进行卷积操作，生成高分辨率图像，该高分辨率图像的分辨率可以为

像素。其中，卷积操作的卷积核大小为

，填充（padding）为1，通道

，卷积核的个数为3，生成的是3通道的RGB图像。

本发明实施例中，第一生成网络、第一判别网络、第二生成网络、以及第二判别网络在使用过程中都是经过预训练好的。

具体的，第一生成网络、第一判别网络的训练过程如下：

S101、将正、负样本的文本描述经过第一编码器的两个编码块进行编码成多维向量编码。文本描述描述了一个图片的基本要素，例如，文本描述为：This bird is white with some black on its head and wings，and has a long orange beak。该第一编码器由两个相同的编码块组成，如图2所示，每个编码块包括一个层归一化层

，一个多头注意力层，多头的范围为4-8个头，然后将多头注意力层的输出与层归一化层的输入对应元素相加，再加一个层归一化L2，再加2-4个全连接层，将全连接层的输出与层归一化L2的输入对应元素相加。

S102、将编码好的文本描述与相同维度的随机生成的方差为1期望为0正态分布噪音拼接，文本描述编码（即上述的多维向量编码）维度为

，噪音维度为

。

S103、将拼接好的多维向量编码送入到第一生成网络。

S104、然后将第一生成网络中的第二编码器的输出进行上采样，具体是将输出的数据转化为

，其中，

表示（通道，高，宽），再使用像素重组方法将前一第二编码器输出数据的维度

变形成

，提升图像的分辨率，并作为下一个的第二编码器的输入。

S105、重复实施例1中S103、S104的步骤2次，将生成的张量转化成维度为

的特征图，再连接一个卷积操作生成低分辨率图像，该分辨率可以是

像素。卷积操作的参数时，核大小为

，步距为1，填充为1，通道为4，卷积核的个数为3，生成的图像为

像素，3通道的RGB图像。

S106、将生成的低分辨图像作为负样本，对应文本描述的真实图像为正样本，非对应文本描述的真实图像为负样本。

S107、将低分辨率图像、对应文本描述的真实图像、以及非对应文本描述的真实图像分别各划分为

个分块，每个分块对应图像的分辨率

像素，然后在每个分块后面直接拼接位置信息和文本描述的编码（即多维向量编码），这样每个分块后面的文本描述都是完整的，没有切分。拼接后的向量送入到全连接层将每个分块的维度转化为

维。再增加一个用于判别正负样本的分类分块，分类分块拼接的位置信息为全0，文本描述复制之前的文本描述编码。

S108、将上述分块和分类分块分别送入到第一判别网络，第一判别网络中transformer编码器的数量为8个。每个transformer编码器的内部结构依次为，一个层归一化、一个多头的自注意力模块，然后将输入与进行层归一化和多头自注意力模块后的tensor相加，再经过一个层归一化模块和一个多层感知机模块。多层感知机模块包括两个全连接，两个全连接并不改变输入向量的维度，以便接入下一个transformer编码模块。多头自注意力为8-16个头。

S109、经过8个transformer编码之后再由用于分类的分类分块判断输入图像是正样本还是负样本。

第二生成网络、第二判别网络的结构与第一生成网络、第一判别网络的结构相同，将第一判别网络输出为真的低分辨率图像平均划分

个patch与文本描述编码融合，作为第二个生成网络的输入

，维度为

。第二生成网络、第二判别网络的训练过程与第一生成网络、第一判别网络的训练过程相同，此处不再重复论述。

本发明实施例中，在模型的训练过程中通过反向传播的梯度下降优化算法优化网络模型，反向传播优化算法为adam优化算法，并使用损失函数（1），该损失函数（1）如下所示

（1）

其中真实图像

和文本描述t来自真实数据分布Pdata，

是从给定分布

随机采样的噪声向量，

、

分别为判别器、生成器，

为基于所述文本描述的多维向量编码，通过最大化

最小化

来训练所述第一生成网络、第二生成网络。

训练中使用文本描述与真实图像作为样本对，文本描述与对应描述的真实图像作为正样本1，文本描述与非对应描述的真实图像作为负样本2，文本描述与生成图像作为负样本3。

在一个实施例中，取正样本1共1000个，负样本2共500个进行训练网络。该网络的训练方法是：先冻结第二个生成网络的反向传播，训练第一个生成网络100-150个epochs，然后冻结第一个生成网络的反向传播，训练第二个生成器100-150个epochs，最后将两个生成网络一起训练200-300个epochs。训练时采用的优化算法为权利要求书中的参数优化算法adam，adam优化算法的参数为

，

，

，

。

基于上述文本转换图像的方法，本发明还可以实现扩充数据集，具体的，可以给出关于物体图像的外观、形状、颜色和背景的文本描述形容词，然后随机组合这些形容词，送入第一生成网络和第二生成网络，生成高分辨率且多样性的图像，达到扩充数据集的目的。

请参见图4，图4是本发明实施例提供的基于生成式对抗网络的文本转换图像的装置200的结构示意图，包括：文本获取模块201、第一编码模块202、拼接模块203、第一生成模块204、融合模块205、第二生成模块206。

其中，文本获取模块201用于获取一段图像的文本描述；第一编码模块202用于将所述文本描述通过预设的第一编码器转化为多维向量编码；拼接模块203用于将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量；第一生成模块204用于将所述第一输入向量输入预设的第一生成网络，生成低分辨率图像；融合模块205用于将所述低分辨率图像与所述多维向量编码进行融合，得到第二输入向量；第二生成模块206用于将所述第二输入向量输入预设的第二生成网络，生成高分辨率图像；所述第一生成网络、第二生成网络为预训练好的网络。

需要说明的是，本发明实施例提供的基于生成式对抗网络的文本转换图像的装置可以应用于移动终端、监控器、计算机、服务器等设备。

本发明实施例提供的基于生成式对抗网络的文本转换图像的装置能够实现上述方法实施例中基于生成式对抗网络的文本转换图像的方法实现的各个过程，且可以达到相同的有益效果。为避免重复，这里不再赘述。

参见图5，图5是本发明实施例提供的一种电子设备的结构示意图，如图5所示，电子设备700包括：存储器702、处理器701及存储在所述存储器702上并可在所述处理器701上运行的计算机程序，其中，处理器701用于调用存储器702存储的计算机程序，执行上述基于生成式对抗网络的文本转换图像的方法中的各个步骤。

需要说明的是，上述电子设备可以是可以应用于可以进行基于视频的最优目标捕捉的手机、监控器、计算机、服务器等设备。

本发明实施例提供的电子设备能够实现上述方法实施例中基于视频的最优目标捕捉方法实现的各个过程，且可以达到相同的有益效果，为避免重复，这里不再赘述。

存储器702至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，存储器702可以是电子设备700的内部存储单元，例如该电子设备700的硬盘或内存。在另一些实施例中，存储器702也可以是电子设备700的外部存储设备，例如该电子设备700上配备的插接式硬盘，智能存储卡（SmartMedia Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。当然，存储器702还可以既包括电子设备700的内部存储单元也包括其外部存储设备。本实施例中，存储器702通常用于存储安装于电子设备700的操作系统和各类应用软件，例如一种基于生成式对抗网络的文本转换图像的方法的程序代码等。此外，存储器702还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器701在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器701通常用于控制电子设备700的总体操作。本实施例中，处理器701用于运行存储器702中存储的程序代码或者处理数据，例如运行一种基于生成式对抗网络的文本转换图像的方法的程序代码。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的基于生成式对抗网络的文本转换图像的方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存取存储器（Random AccessMemory，简称RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于生成式对抗网络的文本转换图像的方法，其特征在于，包括以下步骤：

获取一段图像的文本描述；

所述第一生成网络、第二生成网络为预训练好的网络。

2.如权利要求1所述的基于生成式对抗网络的文本转换图像的方法，其特征在于，所述将所述低分辨率图像与所述多维向量编码进行融合，得到第二输入向量的步骤前还包括：

将第二生成网络生成的高分辨率图像输入到预设的第二判别网络进行判断真假，输出结果为真的高分辨率图像，所述第二判别网络为预训练好的网络。

3.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法，其特征在于，所述第一生成网络、第二生成网络的预训练使用生成式对抗网络的损失函数，采用反向传播算法，使用梯度下降优化参数。

4.如权利要求3所述的基于生成式对抗网络的文本转换图像的方法，其特征在于，所述第一生成网络、第二生成网络的结构相同，所述损失函数为：

其中真实图像

和文本描述

来自真实数据分布Pdata，

是从给定分布

随机采样的噪声向量，

、

分别为判别器、生成器，

为基于所述文本描述的多维向量编码，通过最大化

最小化

来训练所述第一生成网络、第二生成网络。

5.如权利要求3所述的基于生成式对抗网络的文本转换图像的方法，其特征在于，所述梯度下降优化参数算法为Adam优化算法，学习率为0.001。

6.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法，其特征在于，所述第一编码器包括2-4个编码块，每个编码块包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层；其中，所述多头注意力层为4-8个头，所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加，再与所述第二层归一化层相加，再连接所述2-4个全连接层，所述全连接层的输出与所述第二层归一化层的输入对应元素相加。

7.如权利要求1所述的基于生成式对抗网络的文本转换图像的方法，其特征在于，所述初始化的噪音向量的值由随机函数生成的与所述文本描述编码同维度的方差为1、期望为0的正态分布数值。

8.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法，其特征在于，在将所述第一输入向量输入预设的第一生成网络的步骤前，还包括：

将所述第一输入向量输入到多层感知机；

将所述多层感知机的输出平均划分为

。

9.如权利要求8所述的基于生成式对抗网络的文本转换图像的方法，其特征在于，所述第一生成网络生成低分辨率图像的步骤包括：

所述第一生成网络接收所述输入

，其中，所述第一生成网络包括4-6个第二编码器，每个所述第二编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层；其中，所述多头注意力层为4-8个头，所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加，再与所述第二层归一化层相加，再连接所述2-4个全连接层，所述全连接层的输出与所述第二层归一化层的输入对应元素相加；