CN114610935A

CN114610935A - 一种文本控制图像风格的语义图像合成的方法及系统

Info

Publication number: CN114610935A
Application number: CN202210511529.4A
Authority: CN
Inventors: 马诗洁; 吴春琦; 毛瑞琛
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-06-10
Anticipated expiration: 2042-05-12
Also published as: CN114610935B

Abstract

本发明公开了一种文本控制图像风格的语义图像合成的方法及系统，包括图像离散编码器和风格迁移对抗生成网络联合训练模块、文本和图像联合建模模块和文本和语义图像控制特定风格语义图像合成模块。本发明通过自然语言处理模型以及图像生成模型，将设定的风格语句和表征语义的掩膜图像输入到模型中，自动地生成具有相应风格和语义的图片，以此解决了人们想要依据自己想法，及时获取到相应风格图片的需求。

Description

一种文本控制图像风格的语义图像合成的方法及系统

技术领域

本发明涉及图像生成技术领域，特别涉及一种文本控制图像风格的语义图像合成的方法及系统。

背景技术

近年来，随着人工智能技术地不断发展，人们开始希望赋予机器理解多种模态的能力，即希望机器能够像人一样理解文本、语音等某一模态的内在语义，并将其准确地转换到另一种模态上。在文本生成图片领域中，根据输入的文字描述和语义分割图像生成相应风格和语义内容的图片，这一任务要求模型能够充分地理解风格语句的具体语义，并将相应的风格迁移到图片上。此外，还需要保证生成图片的语义跟输入的语义分割图相对应。通过文本语言及语义分割图像自动生成特定语义和风格的图片，不需要过多的人工干预措施，提高了图片的生成效率。

本方案能够根据风格语言和语义风格图自动生成图片。其主要涉及了矢量量化变分自编码器，GPT，风格迁移对抗生成网络等基础网络模型。矢量量化变分自编码器能够良好地利用潜在空间，将图片数据良好的离散化，在本方案中利用矢量量化变分自编码器的编码器将图片数据转换到潜在空间中，用于后续与文本之间的建模。风格迁移对抗生成网络具有很好的图片生成能力，能够依据潜在图像编码和掩膜图像转换为实景图。GPT作为一个良好的自回归模型，在本方案中利用GPT模型建立起语言和图片潜在编码之间的关系，之后即可通过输入的风格语句输出图片编码并进行解码，输出相应的图片。本方法提出了根据文本和语义分割图自动生成图片的方案，并为获取特定风格图片提供了解决思路。

发明内容

本发明的目的在于提供一种文本控制图像风格的语义图像合成的方法及系统，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种文本控制图像风格的语义图像合成的方法，包括以下步骤：

S1：构建训练数据集和评估数据集，每条数据由一张风格实景图，掩膜图像以及相应的风格语句构成；

S2：利用矢量量化变分自编码器的编码器和风格迁移对抗生成网络的生成器及判别器构建网络共同进行训练，将原始的图像利用联合训练完成的编码器进行编码、压缩，得到图像风格的编码向量和对应的图像风格标识；

S3：将风格语句输入预训练语言模型BERT并转换成相应的词向量；

S4：将所述步骤S2中得到的图像风格标识展平，将对应的编码向量和步骤S3得到的词向量拼接，输入到GPT模型中进行自回归训练，建立风格语句和图像风格标识之间的映射关系，使得模型能够根据风格语句描述生成出相应的图像风格标识；

S5：将需要生成特定风格的风格语句输入到预训练语言模型BERT中，并将生成的词向量输入到已训练完成的GPT模型中，预测出图像风格标识；

S6：将步骤S5中生成的图像风格标识和掩膜图像送入风格迁移对抗生成网络的生成器中，生成相应语义和风格的图像。

作为优选的，所述步骤S2中，所述编码器对输入的风格图像进行离散编码；所述生成器对生成的图像风格编码以及相应的掩膜图像进行解析生成对应风格和语义信息的图片；所述判别器用于判断图片是否属于真实实景图还是由生成器生成的实景图，具体为：所述编码器将风格实景图进行编码得到大小为

的编码，编码中的向量与码本中的N个维度为d的向量计算欧氏距离后进行离散化，即利用码本中的最近邻向量替换编码中的向量，使得编码转换为距离其最近的图像离散编码；将图像离散编码以及掩膜图像送入到生成器中，通过生成器的解码重构生成图片；最终，判别器对所生成的图片进行判别，判断其来自于真实图片还是由生成器生成；

所述步骤S2的具体子步骤如下：

S21：将实景图输入到已训练完成的模型编码器部分中，经编码器的编码和压缩，得到相应的编码；

S22：根据步骤S21生成得到的编码在码本中查找最邻近向量进行替换，最终得到大小为

的图像离散编码。

作为优选的，所述步骤S2中的训练采用风格实景图、语义分割图像作为训练数据集，并通过Adam随机梯度反向传播算法降低网络训练损失函数值，得到模型的最优参数。

作为优选的，所述步骤S3具体过程为：将风格语句输入预训练语言模型BERT进行编码，生成k个词向量和对应的标识，如果输出的词向量少于k个，则进行填充操作，使得词向量为k个。

作为优选的，所述步骤S4具体子步骤如下：

S41：将步骤S2生成的图像离散编码进行展平，生成得到长度为

、维度为h的图像编码，并对这g个图像编码加上相应的位置嵌入；

S42：将步骤S3中预训练神经网络生成的k个词向量和相应的位置嵌入相加；

S43：将生成得到的k个词向量和g个展平的图像编码拼接起来，生成

个嵌入向量；

S44：将拼接得到的嵌入向量传入GPT模型中进行自回归的训练，建立起风格语句的词向量和图像离散编码之间的联系。

作为优选的，所述步骤S44的具体训练过程为：将

个嵌入向量输入到GPT模型中，GPT模型根据当前输入向量来预测下一个出现的图像风格标识，此处通过随机梯度下降算法降低Softmax分类损失函数。

作为优选的，所述步骤S5具体过程如下：在通过已训练好的GPT模型进行预测时，首先将相应风格语句输入到BERT模型中生成对应的词向量，GPT模型再根据这些词向量进行预测，逐步生成

个相应的图像风格编码，并对生成的图像编码进行重构，变回

的图像风格编码，最终就得到了图像风格的图像离散编码。

作为优选的，所述步骤S6具体过程为将新生成的图像离散编码以及掩膜图像送入到步骤S2训练完成的生成器中，经过生成器的解码，生成具有图像离散编码特定风格的和掩膜图像特定语的图片。

本发明公开了一种文本控制图像风格的语义图像合成的系统，包括三个模块，分别为：

模块一：图像离散编码器和风格迁移对抗生成网络联合训练模块，用于对图像风格离散编码器和对抗生成网络进行联合建模，并用训练好的离散编码器生成各种风格图片的图像离散编码；

模块二：文本和图像联合建模模块，用于建立起文本词向量和图像离散编码的关系；

模块三：文本和语义图像控制特定风格语义图像合成模块，用于根据输入的风格语言描述生成相应风格图像编码，风格图像编码和掩膜图像输入到模块一中的生成器中生成相应风格和语义的实景图。

本发明公开了一种文本控制图像风格的语义图像合成的装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述文本控制图像风格的语义图像合成的方法。

本发明的有益效果：本发明涉及矢量量化变分自编码器，风格迁移网络以及GPT等神经网络模型，利用矢量量化变分自编码器的编码器部分和风格迁移对抗生成网络的生成器部分共同进行训练，得到了良好性能的图像风格离散编码器。采用GPT自回归模型建立风格语句和风格图像之间的关系，使得之后进行预测时，能够根据风格语句直接生成相应图像的Token并交给风格迁移对抗神经网络的生成器生成特定风格的图片。基于上述，本发明为风格图片生成提供了新的方向，能够依据文字描述和掩膜图像生成各具风格的图片，减少了一定的创作成本，提升了效率。本发明通过自然语言处理模型以及图像生成模型，将设定的风格语句和表征语义的掩膜图像输入到模型中，自动地生成具有相应风格和语义的图片，以此解决了人们想要依据自己想法，及时获取到相应风格图片的需求；同时，生成的图片更具真实性，保证生成图片的质量。

附图说明

图1是本发明系统结构示意图；

图2是文本控制图像风格的语义图像合成方法的流程图；

图3是文本控制图像风格的语义图像合成的整体架构图；

图4是文本控制图像风格的语义图像合成装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明实施例提供了一种文本控制图像风格的语义图像合成的方法，包括以下步骤：

S1：构建训练数据集和评估数据集，每条数据由一张风格实景图x，掩膜图像

以及相应的风格语句

构成；

S2：利用矢量量化变分自编码器的编码器部分和风格迁移对抗生成网络的生成器及判别器构建网络共同进行训练，将原始的图像利用联合训练完成的编码器部分进行编码、压缩，得到图像风格的编码向量和对应的图像风格标识Token；

S4：将所述步骤S2中得到的图像风格标识Token展平，将对应的编码向量和步骤S3得到的词向量拼接，输入到GPT模型中进行自回归训练，建立风格语句和图像风格标识Token之间的关系，使得模型能够根据风格语句描述生成出相应的图像风格标识Token；

S5：将需要生成特定风格的风格语句输入到预训练语言模型BERT中，并将生成的词向量输入到已训练完成的GPT模型中，预测出图像风格标识Token；

S6：将步骤S5中生成的图像风格标识Token和掩膜图像送入风格迁移对抗生成网络的生成器中，生成相应语义和风格的图像。

所述编码器对输入的风格图像进行离散编码；生成器对生成的图像风格编码以及相应的掩膜图像进行解析生成对应风格和语义信息的图片；判别器用于判断图片是否属于真实实景图还是由生成器生成的实景图，具体为：编码器将风格实景图x进行编码得到大小为

的编码

，而编码

中的向量会与码本中的N个维度为d的向量计算欧氏距离后进行离散化，即利用码本中的最近邻向量替换编码

中的向量，使得编码

转换为距离它最近的图像离散编码

；将图像离散编码

以及掩膜图像

送入到生成器中，通过生成器的解码重构生成图片

；最终，判别器对

进行判别，判断其来自于真实图片还是由生成器生成。

所述步骤S2的具体子步骤如下：

S21：将实景图x输入到已训练完成的模型编码器部分中，经编码器的编码和压缩，得到相应的编码

；

S22：根据步骤S21生成得到的编码

在码本中查找最邻近向量进行替换，最终得到大小为

的图像离散编码

。

所述步骤S2中模型的训练采用风格实景图、语义分割图像作为训练数据集，并通过Adam随机梯度反向传播算法降低网络训练损失函数值，得到模型的最优参数。

所述步骤S3具体过程为：将风格语句输入预训练语言模型BERT进行编码，生成k个词向量

和对应的标识

，如果输出的词向量少于k个，则进行填充操作，使得词向量为k个。

所述步骤S4具体子步骤如下：

S41：将步骤S2生成的图像离散编码

进行展平，生成得到长度为

，维度为h的图像编码，并对这g个图像编码加上相应的位置嵌入；

S42：将步骤S3中预训练神经网络生成的k个词向量

和相应的位置嵌入相加；

S43：将生成得到的k个词向量

和g个展平的图像编码拼接起来，生成f=k+g个嵌入向量

。

S44：将拼接得到的嵌入向量

传入GPT模型中进行自回归的训练，建立起风格语句的词向量和图像离散编码之间的联系，其中训练数据为拼接得到的嵌入向量

。

作为优选的，所述步骤S44的具体训练过程为：将f个嵌入向量

输入到GPT模型中，GPT模型根据当前输入向量来预测下一个出现的图像风格标识Token，此处通过随机梯度下降算法降低Softmax分类损失函数。

所述步骤S5具体过程如下：在通过已训练好的GPT模型进行预测时，首先将相应风格语句输入到BERT模型中生成对应的词向量，GPT模型再根据这些词向量进行预测，逐步生成g个相应的图像风格编码，并对生成的图像编码进行重构，变回h×w的图像风格编码，最终就得到了图像风格的图像离散编码

。

所述步骤S6具体过程为将新生成的图像离散编码

以及掩膜图像

送入到步骤S2训练完成的生成器中，经过生成器的解码，生成具有图像离散编码

特定风格的和掩膜图像

特定语的图片。

如图1所示，所提出的一种文本控制图像风格的语义图像合成的系统，包括了三个模块，分别为图像离散编码器和风格迁移对抗生成网络联合训练模块，用于对图像风格离散编码器和对抗生成网络进行联合建模，并用训练好的离散编码器生成各种风格图片的离散编码；文本和图像联合建模模块，用于建立起文本词向量和图像离散编码的关系；文本和语义图像控制特定风格语义图像合成模块，用于根据输入的风格语言描述生成相应风格图像编码，风格图像编码和掩膜图像输入到模块一中的生成器中生成相应风格和语义的实景图。

图2为文本控制图像风格迁移方法流程图，下面将参照图2对各个步骤进行详细说明。另外，本方法所提出的整体结构具体如图3所示，本发明为两阶段模型，第一阶段为矢量量化变分自编码器的编码器部分和风格迁移对抗生成网络的生成器及判别器共同进行训练，第二阶段对风格语句进行编码并利用GPT模型建立起风格语句词向量和风格图像编码之间的关系。

步骤S101：利用图像离散化编码器结合对风格迁移对抗生成网络进行训练：

本发明首先构建了相应的训练数据集和评估数据集，每条数据由一张风格实景图x，掩膜图片

以及相应的风格语句

构成。

本发明设计了由矢量量化变分自编码器和风格迁移对抗生成网络构成的网络进行训练。其中本发明中的风格迁移对抗生成网络采用了经典的GauGAN模型。

具体的，如图3中的(a)所示，该网络的编码器部分由矢量量化变分自编码器的编码器和码本组成，生成器和判别器部分由GauGAN中的生成器及其相应的判别器构成。

将实景图x输入到编码器中,经过编码器Encoder的编码、压缩，得到相应的潜在编码

，

。码本中包含了N个d维向量，使用

表示码本，其用于替换经编码器所得到的编码。之后计算所得到的

与

中各个向量的欧式距离，并使用距离最小向量

替换相应的

，从而得到全新的潜在向量

, 在这里

。将

和掩膜图片

输入到生成器中，经过解码得到了重构图

。

输入的图片尺寸为

，其中，C表示通道数，H表示图片的高度，W表示图片的宽度。具体地，C=3，H=512，W=512。本发明设计的重构网络得到的生成图片尺寸同样为

。

其中离散编码器主要由常规卷积函数、BatchNorm和残差网络三个部分构建得到。在编码器中包含了n个残差模块，并且进行了m次的下采样操作。而生成器部分主要由多个SPADE 残差模块构成，其采用跳跃连接结构将低层信息直接复制到高层特征图上，将第i层拼接到第n-i层，n为网络总层数，并且为了解决传统归一化层容易丢失输入语义图像中的信息这一问题，采用了空间自适应归一化来解决该问题。判别器部分主要采用了patchGAN结构的判别器。其一次只判断一个N×N的图像块是否为真实的，每个小块对应的结果求平均，作为这一张图像的判别结果。本发明中N=70。另外，本发明利用了均方方差损失函数(MSE Loss)作为辅助来学习图像信息。

参考矢量量化变分自编码器和风格迁移对抗生成网络的损失函数，本发明所构建网络的损失函数最终如下所示：

其中，

其中E(x)为x经过编码器处理，

为

离散化之后的图像风格离散编码向量，

为掩膜图像，网络学习从实景图像x重构回实景图像

，

表示停止反向传播，

表示超参数，另外的，G表示生成器，D表示判别器。在本发明中设置n=6，m=6,

。

利用构造完的损失函数，对所构建网络进行相应的训练，这里采用Adam优化器对模型进行优化，设置优化器的学习率为0.001。

预测：在模型训练完成后，可以将风格图片x输入到矢量量化变分自编码器中，经过编码器的编码得到相应的输出，并根据码本查找到相应的最近向量进行替换操作，得到该风格图片编码

。

步骤S102：风格语言输入到BERT模型并输出Token：

在本发明中利用预训练神经网络BERT模型将相应的风格语句进行转化，生成得到文本的Token和其对应的嵌入。

本发明将相应的风格语句输入到预训练神经网络BERT模型中，得到了语句对应的Token（标识），

，其中每个Token所对应嵌入用

表示。由于文本长度的不一致性，对于语句进行填充，最终使得Token（标识）数量保证为k个，保证Token数量为k个。其中，k=256，

，k=256，d=256。

步骤103：风格描述语句的Token和风格图像的Token联合建模。

为了能够通过风格语句生成相应风格图像编码，本发明通过GPT模型建立风格语句词向量和风格图像编码之间的映射关系，具体模型结构如图3中的(b)所示。将步骤S102生成的

和经过矢量量化编码器的图像编码

展平送入GPT进行学习，GPT模型主要由多个self-attention模块构成，在本发明由8个模块构成，而每个模块由多头注意力层、前向传播网络层以及归一化层构成。

本发明中将生成的

展平后，拼接到风格语句Token（标识）之后。进一步的，GPT模型的输入由上述构成的Token（标识）相应的嵌入以及相应的位置嵌入相加得到，用符号

表示，其大小为

，

，

，其具体计算过程如下式所示：

其中，

表示位置嵌入，

表示权重矩阵。

本发明最终希望GPT模型能够依据风格语句预测出相应风格图片编码，因此本文设置的训练GPT模型的目标函数为：

其中，

表示当前所需要预测的向量，

为左侧窗口的向量，即在预测向量

时，只考虑其左侧k个信息，其余的忽略不计，

为GPT模型中的参数。

具体的，通过

进行前向传播计算概率的过程如下所示：

其中，self-attention( )代表的是self-attention模块，其由多头注意力、一层前向传播网络以及一层归一化层构成。m表示自注意力模块的层数，本发明中m=8。经过m个模块的转换，利用最终的语义特征向量输入到Softmax函数中输出下一个向量的概率：

在本发明使用Adam优化器对GPT模型进行优化，并设置相应的学习率设置为0.001。

步骤104：输入风格描述语句生成风格图像风格Token：

将一段风格语句输入到预训练神经网络模型BERT中，并将BERT输出的Token（标识）到已训练好的GPT模型中，预测出相应图像的Token（标识），由于此时Token（标识）是展平的，因此将其重构回尺寸为

的样式，用

表示，本发明中

是一种离散表征，“

”VQ-VAE中的表示方法，“Token”是NLP中的表示方法。

步骤105：图像风格Token和掩膜图片输入生成器特定语义和风格的实景图。

将风格图像的Token（标识）

和掩膜图像

一同输入至S101中所述的生成器中，通过生成器的解码最终生成了与文字对应的风格同时跟掩膜图像对应语义的图片。

综上，本发明涉及矢量量化变分自编码器，风格迁移网络以及GPT等神经网络模型，利用矢量量化变分自编码器的编码器部分和风格迁移对抗生成网络的生成器部分共同进行训练，得到了良好性能的图像风格离散编码器。采用GPT自回归模型建立风格语句和风格图像之间的关系，使得之后进行预测时，能够根据风格语句直接生成相应图像的Token（标识）并交给风格迁移对抗神经网络的生成器生成特定风格的图片。基于上述，本发明为风格图片生成提供了新的方向，能够依据文字描述和掩膜图像生成各具风格的图片，减少了一定的创作成本，提升了效率。

参见图4，本发明实施例还提供了一种文本控制图像风格的语义图像合成的装置，还包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的文本控制图像风格的语义图像合成的方法。

本发明一种文本控制图像风格的语义图像合成的装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种文本控制图像风格的语义图像合成的装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的面向神经网络模型计算的中间表示生成方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本控制图像风格的语义图像合成的方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种文本控制图像风格的语义图像合成的方法，其特征在于：所述步骤S2中，所述编码器对输入的风格图像进行离散编码；所述生成器对生成的图像风格编码以及相应的掩膜图像进行解析生成对应风格和语义信息的图片；所述判别器用于判断图片是否属于真实实景图还是由生成器生成的实景图，具体为：所述编码器将风格实景图进行编码得到大小为

所述步骤S2的具体子步骤如下：

的图像离散编码。

3.如权利要求2所述的一种文本控制图像风格的语义图像合成的方法，其特征在于：所述步骤S2中的训练采用风格实景图、语义分割图像作为训练数据集，并通过Adam随机梯度反向传播算法降低网络训练损失函数值，得到模型的最优参数。

4.如权利要求1所述的一种文本控制图像风格的语义图像合成的方法，其特征在于：所述步骤S3具体过程为：将风格语句输入预训练语言模型BERT进行编码，生成k个词向量和对应的标识，如果输出的词向量少于k个，则进行填充操作，使得词向量为k个。

5.如权利要求4所述的一种文本控制图像风格的语义图像合成的方法，其特征在于：所述步骤S4具体子步骤如下：

个嵌入向量；

6.如权利要求5所述的一种文本控制图像风格的语义图像合成的方法，其特征在于：所述步骤S44的具体训练过程为：将

7.如权利要求6所述的一种文本控制图像风格的语义图像合成的方法，其特征在于：所述步骤S5具体过程如下：在通过已训练好的GPT模型进行预测时，首先将相应风格语句输入到BERT模型中生成对应的词向量，GPT模型再根据这些词向量进行预测，逐步生成

的图像风格编码，最终就得到了图像风格的图像离散编码。

8.如权利要求1所述的一种文本控制图像风格的语义图像合成的方法，其特征在于：所述步骤S6具体过程为将新生成的图像离散编码以及掩膜图像送入到步骤S2训练完成的生成器中，经过生成器的解码，生成具有图像离散编码特定风格的和掩膜图像特定语的图片。

9.一种文本控制图像风格的语义图像合成的系统，其特征在于：包括三个模块，分别为：

模块一：图像离散编码器和风格迁移对抗生成网络联合训练模块，用于对图像离散编码器和对抗生成网络进行联合建模，并用训练好的离散编码器生成各种风格图片的图像离散编码；

10.一种文本控制图像风格的语义图像合成的装置，其特征在于：所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8任一项所述文本控制图像风格的语义图像合成的方法。