CN110163267A

CN110163267A - 一种图像生成模型的训练方法和生成图像的方法

Info

Publication number: CN110163267A
Application number: CN201910384069.1A
Authority: CN
Inventors: 李浪宇; 张伟; 洪炜冬; 许清泉; 张长定
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-08-23

Abstract

本发明公开了一种图像生成模型的训练方法，包括：获取训练图像及其对应的文本信息；基于文本信息，生成词向量；将词向量输入编码器中处理，以生成第一特征向量和第二特征向量；确定第一特征向量的分布与标准正态分布之间的KL散度；将第二特征向量输入生成器中得到生成图像，并将训练图像和生成图像分别输入判别器中，得到输入图像的判别值；确定训练图像与生成图像之间的第一损失值及对应的判别值之间的第二损失值；调整编码器、生成器和判别器的参数，直到KL散度、第一损失值和第二损失值满足预定条件时，基于对应的编码器和生成器，得到训练好的图像生成模型。

Description

一种图像生成模型的训练方法和生成图像的方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种图像生成模型的训练方法、生成图像的方法、计算设备及存储介质。

背景技术

目前在图像处理技术领域，像素级别的图像处理有了较多的应用，例如在图像超清处理、人脸属性合成、受损图像修复、素描上色等方面都有广泛的应用。

一方面，基于传统的机器学习框架难以处理这种像素级别的图像生成。主要由于：1)传统机器学习方法依赖于人工设计的特征，这种特征对图像的生成往往不能适用。2)图像生成所需的特征空间太大，传统的机器学习方法不能表达出其特征。3)图像生成需要从特征空间中恢复到原始图像空间，这是传统机器学习方法不能胜任的。因此，越来越多的方案采用生成对抗网络来实现图像的生成。

另一方面，基于文本来生成图像，是非常多样化的。文本中一个词语的变化可能会导致生成的图像中大量的像素发生改变，这些发生改变的像素之间的关联也很难发现。单纯的利用生成对抗网络将文本生成图像，还是会得到较差的生成效果。

因此，需要一种生成图像的方法，能够解决文本生成图像中难以控制和生成图像质量较低的问题。

发明内容

为此，本发明提供了一种图像生成模型的训练方法、生成图像的方法、计算设备及存储介质，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种图像生成模型的训练方法，该方法适于在计算设备中执行。首先，获取训练图像及其对应的文本信息。接着，基于文本信息，生成词向量；随后，将所述词向量输入编码器中处理，以生成第一特征向量和第二特征向量，并确定第一特征向量的分布与标准正态分布之间的KL散度。然后，将第二特征向量输入生成器中得到生成图像，并将训练图像和生成图像分别输入判别器中，得到输入图像的判别值。接下来，确定训练图像与生成图像之间的第一损失值及训练图像与生成图像对应的判别值之间的第二损失值。最后，调整编码器、生成器和判别器的参数，重复迭代所述生成第一特征向量和第二特征向量、生成图像和判别值、以及确定KL散度、第一损失值和第二损失值的步骤，直到KL散度、第一损失值和第二损失值满足预定条件时，基于对应的编码器和生成器，得到训练好的图像生成模型。

可选地，在上述方法中，基于下述公式计算第一损失值：

其中，L_GR表示第一损失值，x为输入的训练图像，为生成图像；

可选地，在上述方法中，基于下述公式计算第二损失值：

其中，L_D表示第二损失值，D(x)为训练图像的判别值，为生成图像的判别值。

可选地，在上述方法中，编码器包括第一编码器和第二编码器。首先，将词向量输入第一编码器中处理，得到第一特征向量，其中编码器为变分自编码器的编码部分。然后，将第一特征向量与随机噪声拼接后输入第二编码器中处理，得到特征向量。

可选地，在上述方法中，首先，计算得到词向量的均值向量和方差向量。然后，从基于均值向量、方差向量以及随机向量的分布中，对词向量进行重采样，得到第一特征向量。

可选地，在上述方法中，第一特征向量表示为：

z^(i，l)＝μ^(i，l)+σ^(i，l)⊙ε^(l)

其中，z^(i，l)表示第i次从第l个样本中重采样得到的第一特征向量，ε^(l)为随机向量，且ε^(l)～N(0，1)，即随机向量服从标准正态分布，μ^(i，l)和σ^(i，l)分别表示第i次重采样的第l个样本的均值向量和方差向量，⊙表示方差向量与随机向量对应位的点乘计算。

可选地，在上述方法中，基于下述公式计算KL散度：

其中，Φ为第一编码器的参数，x⁽ⁱ⁾表示输入的词向量，D_z表示第一特征向量Z的维度，和分别表示第i个均值向量和第i个方差向量的第j个分量。

可选地，在上述方法中，文本信息适于描述图像的内容。

根据本发明的另一方面，提供了一种生成图像的方法，适于在计算设备中执行。首先，将文本信息转换为词向量；将词向量输入上述方法训练生成的图像生成模型中，以生成对应的图像。其中，图像生成模型包括相互耦接的编码器和生成器。

可选地，在上述方法中，首先，将词向量输入编码器中进行处理，以生成特征向量。然后，将特征向量输入生成器中进行处理，以生成对应的图像。

根据本发明的又一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法。

根据本方面方案，从文本特征和图像特征出发，结合变分自编码器和生成对抗网络，构建了图像生成模型，使训练后的模型能够实现文本到图像的自动生成，生成的图像具有较高的质量和匹配度，并且提高了文本生成图像的稳定性。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的构造示意图；

图2示出了根据本发明的一个实施例的图像生成模型200的训练模型的结构示意图；

图3示出了根据本发明的一个实施例的图像生成模型的训练方法300的示意性流程图；

图4示出了根据本发明的一个实施例的生成图像的方法400的示意性流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行图像生成模型的训练方法300和生成图像的方法400，程序数据124中就包含了用于执行方法300和400的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。当然，计算设备100也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，或者是具有上述配置的服务器。本发明的实施方式对此均不作限制。

在本方案中，首先构建了一个结合文本特征和图像特征的图像生成模型的训练模型。该训练模型将变分自编码器和生成对抗网络相结合，包括编码器、生成器和判别器。图2示出了根据本发明的一个实施例的图像生成模型200的训练模型的结构示意图。如图2所示，图像生成模型200包括第一编码器、第二编码器、生成器和判别器。第一编码器可以是变分自编码器的编码部分，可以对输入的文本信息对应的词向量提取特征，以得到第一特征向量。第二编码器可以将第一编码器得到的第一特征向量和随机噪声向量进行特征融合，得到融合后的特征向量。生成器可以将特征向量上采样得到生成图像，最后由判别器对生成图像进行判别。

在模型训练之前需要对模型的网络参数进行设置。表1示出了根据本发明的一个实施例的图像生成模型的训练模型的部分网络参数。其中，channel_in表示输入通道数，channel_out表示输出通道数，Conv_ReLU表示卷积处理层，DeConv_ReLU表示反卷积处理层，kernel表示卷积核的大小，padding表示填充值，padding＝0表示不填充，stride表示步长。

表1图像生成模型的训练模型的部分网络参数

如上表1所示，第一编码器包括三个卷积处理层，每个卷积处理层包括卷积和激活处理，其中激活函数使用了ReLU激活函数，还可以使用leakyReLU、tanh、sigmoid等任一类型的激活函数，在此不做限定。第一编码器适于对输入的词向量进行特征提取，在第一个卷积层中使用3*3卷积核与输入向量做卷积后，输出特征的通道数为32。第二个卷积层中使用3*3卷积核与32通道数的向量做卷积后，输出特征的通道数为64。第三个卷积层使用3*3卷积核与输入通道数为64的向量做卷积，输出特征的通道数为128。第一编码器的输出为第一特征向量。第一特征向量是不能直接被观察到，但是对系统的状态和能观察到的输出存在影响的一种变量。第一编码器(变分自编码器的编码部分)可以通过对输入的词向量进行重采样，使词向量分布尽可能的接近标准正态分布。第二编码器的输入为第一特征向量与随机噪声拼接后的向量。第二编码器可以对输入的拼接向量进行特征融合，即将第一特征向量中的元素与随机噪声中的元素对应相加，最终输出融合后的特征向量。接着，生成器对特征向量进行上采样，即采用多个反卷积处理层将特征向量从隐空间映射到数据空间，最后输出生成图像。最后，判别器判断生成的图像是否为真实图像，输出图像的判别值。

接下来就可以对模型200进行训练。图3示出了根据本发明的一个实施例的图像生成模型的训练方法300的示意性流程图。该方法适于在计算设备100中执行，如图3所示，方法300始于步骤S310。

在步骤S310中，获取训练图像及其对应的文本信息。其中，文本信息用于描述图像中的内容，即文本信息描述的内容在图像中体现。例如文本信息对图像中物体的属性，包括颜色、大小、数量等进行描述。可以描述为：一只黑色的鸟、一朵红色和粉色的花、一只白色胸脯褐色羽毛的小鸟、一只张开翅膀的飞鸟等。

随后在步骤S320中，基于文本信息，生成词向量。

可以首先对文本信息进行分词、过滤低频词、编码归一化等处理。然后将文本向量化，把文本内容简化为向量空间中的向量运算，使用向量空间模型或概率统计模型对文本进行表示。可以计算出向量空间上的相似度来表示文本语义上的相似度，例如使用word2vec工具将分词转换成词向量。表2示出了根据本发明的一个实施例的基于文本生成词向量的向量参数。对于表2中的文本可以分词、过滤为：红色、小鸟、白色胸脯、灰色羽毛、粉红色、花朵。通过单词映射函数把所有词向量距离计算出来后，每句话就可以通过词向量组装成矩阵。

表2文本生成词向量的向量参数

文本	词向量
		红色小乌	[0.105，0.338，0.275，0.370，0.850]
白色胸脯灰色羽毛的小乌	[0.465，0.998，0.592，0.826，0.283，0.356，0.515]
		白色和粉红色的花朵	[0.464，0.263，0.192，0.568，0.808，0.928，0.594]

还可以对训练图像预处理，以消除图像中无关的信息。例如可以对图像进行归一化处理，通过一系列变换，将原始的训练图像转换成相应的标准形式，归一化的具体作用可以归纳为统一样本的统计分布性，归一化为0到1之间的统计的概率分布，以便于模型训练，加快训练网络的收敛速度。

随后在步骤S330中，将所述词向量输入编码器中处理，以生成第一特征向量和第二特征向量。

其中，编码器可以包括第一编码器和第二编码器。首先，可以将词向量输入第一编码器中处理，得到第一特征向量，其中第一编码器可以是变分自编码器的编码部分。第一编码器可以将输入的词向量映射成两个向量，一个向量表示分布的平均值，另外一个向量表示分布的方差，两个向量都是相同的正态分布。然后，根据第一编码器输出的均值和方差，生成服从相应高斯分布的随机数，即第一特征向量。可以从基于均值、方差以及随机噪声向量的分布中，对所述词向量进行重采样，得到第一特征向量。通过方差向量来动态调整噪声的强度，对均值向量的编码结果加上高斯噪声，使得第一解码器能够对噪声具有鲁棒性。其中重采样得到的第一特征向量可以表示为：

z^(i，l)＝μ^(i，l)+σ^(i，l)⊙ε^(l)

z^(i，l)表示第i次从第l个样本中重采样得到的第一特征向量，ε^(l)为随机向量，且ε^(l)～N(0，1)，即随机向量服从标准正态分布，μ^(i，l)和σ^(i，l)分别表示第i次重采样的第l个样本的均值向量和方差向量，⊙表示方差向量与随机向量对应位的点乘计算。也就是说，重采样的过程为从正态分布N(μ，σ)中采样一个Z，相当于从N(0，I)中采样一个ε，然后将从N(μ，σ)采样变成了从N(0，1)中采样，然后通过参数变换得到从N(μ，σ)中重采样的结果。这样一来，重采样这个操作就不用参与梯度下降了，改为采样的结果(第一特征向量)参与，使得整个模型可训练。

接着在步骤S340中，确定第一特征向量的分布与标准正态分布之间的KL散度。在模型训练过程中，可以基于KL散度更新编码器的参数。KL散度即两个概率分布间差异的非对称性度量。经过KL散度约束，调整第一编码器的参数，可以使第一编码器的输出结果更加服从标准正态分布，降低词向量的空间维度，便于模型的训练。

根据本发明的一个实施例，可以基于下述公式计算KL散度：

其中，Φ表示第一编码器参数，x⁽ⁱ⁾表示输入的词向量，D_z表示第一特征向量z的维度，和分别表示第i个均值向量和第i个方差向量的第j个分量。

随后，将第一特征向量与随机噪声拼接后输入第二编码器中处理，得到特征向量。其中，在第一特征向量中加入噪声是为了提高模型的鲁棒性和泛化能力，增加生成图像的多样性。使用第二编码器将拼接后的向量进行融合，可以达到降维的目的。表示如下：

其中，f_encoder为第二编码器，为经过第二编码器编码后的特征向量。

随后在步骤S350中，将第二特征向量输入生成器中得到生成图像，并将训练图像和生成图像分别输入判别器中，得到输入图像的判别值。

其中，生成图像可以表示为：其中为生成图像，f_generator(·)为生成器。判别器可以输出训练图像(即真实图像)的判别值，真实图像的判别值一般为1，生成图像的判别值一般在0到1之间。

接着在步骤S360中，确定训练图像与生成图像之间的第一损失值及训练图像与生成图像对应的判别值之间的第二损失值。

根据本发明的一个实施例，可以基于下述公式计算第一损失值：

其中，L_GR表示第一损失值，即训练图像与生成图像之间的重构损值，x为训练图像，为生成图像。可以通过计算训练图像与生成图像对应像素点的像素值之差，确定第一损失值。可以基于下述公式计算第二损失值：

其中，L_D表示第二损失值，即判别损失值，D(x)为训练图像的判别值，为生成图像的判别值。

最后在步骤S370中，调整编码器、生成器和判别器的参数，重复迭代生成第一特征向量和第二特征向量、生成图像和判别值、以及确定KL散度、第一损失值和第二损失值的步骤，直到KL散度、第一损失值和第二损失值满足预定条件时，基于对应的编码器和生成器，得到训练好的图像生成模型。

在文本生成图像任务中，生成对抗网络的判别器一方面需要判断生成的图像是否合理，一方面需要判断生成的图像是否与对应的文本相匹配。可以使用反向传播算法经过多次迭代计算第一损失值、第二损失值和KL散度的加权和，预定条件可以是两次迭代计算得到的差值小于预定阈值，或者迭代次数达到预定次数。保存最后一次迭代更新的模型参数，将训练后的编码器和生成器作为图像生成模型。

接下来，结合图2示出的训练模型200的结构阐述本发明实施例的模型的训练方法。如图2所示，首先将文本信息对应的词向量输入第一编码器中，得到文本向量的均值和方差，然后基于均值和方差重采样得到第一特征向量；并确定第一特征向量的分布与标准正态分布之间的KL散度；随后将第一特征向量与随机向量拼接后输入第二编码器，得到融合后的第二特征向量；接着将融合后的第二特征向量输入生成器中，得到生成图片；最后将生成图片和真实图片分别输入判别器中，得到各自的判别值。计算生成图片与训练图片之间的第一损失值(重构损失)和判别器的第二损失值(判别损失)。重复上述各个步骤，更新模型中各个网络的参数，直到第一损失值和第二损失值以及KL散度满足预定条件时，训练结束。将训练后的编码器和生成器作为生成的图像生成模型。

在利用上述方法300完成了模型的训练后，可以基于训练后的图像生成模型中，完成将文本生成图像的任务。图4示出了根据本发明的一个实施例的生成图像的的方法400的示意性流程图。该方法可以在计算设备100中执行，如图4所示，在步骤S410中，将文本信息转换为词向量。例如，通过对文本进行分词、过滤、转换等处理后，生成词向量，以便于图像生成模型进一步处理。随后在步骤S420中，将词向量输入图像生成模型中，以生成文本对应的图像，其中图像生成模型包括使用方法300训练后的相互耦接的编码器和生成器。根据本发明的一个实现方式，可以先将词向量输入编码器中进行特征提取，以生成特征向量。然后，将得到的特征向量输入生成器中进行处理，以生成对应的图像。

根据本发明的方案，从文本特征和图像特征出发，将变分自编码与生成对抗网络相结合，通过对文本对应的词向量进行编码，使词向量压缩到一个较小的维度，加入噪声后再输入生成对抗网络中进行训练，使训练后的模型能够实现文本到图像的自动生成。并且生成的图像具有较高的质量和匹配度，提高了文本生成图像的稳定性。

A6、如A1所述的方法，其中，基于下述公式计算第一损失值：

A7、如A1所述的方法，其中，基于下述公式计算第二损失值：

A8、如A1所述的方法，其中，所述文本信息适于描述图像的内容。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种图像生成模型的训练方法，所述方法适于在计算设备中执行，包括：

获取训练图像及其对应的文本信息；

基于文本信息，生成词向量；

将所述词向量输入编码器中处理，以生成第一特征向量和第二特征向量；

确定第一特征向量的分布与标准正态分布之间的KL散度；

将第二特征向量输入生成器中得到生成图像，并将训练图像和生成图像分别输入判别器中，得到输入图像的判别值；

确定训练图像与生成图像之间的第一损失值及训练图像与生成图像对应的判别值之间的第二损失值；

调整所述编码器、生成器和判别器的参数，重复迭代所述生成第一特征向量和第二特征向量、生成图像和判别值、以及确定KL散度、第一损失值和第二损失值的步骤，直到KL散度、第一损失值和第二损失值满足预定条件时，基于对应的编码器和生成器，得到训练好的图像生成模型。

2.如权利要求1所述的方法，其中，所述编码器包括第一编码器和第二编码器，所述将词向量输入编码器中处理，以生成第一特征向量和第二特征向量的步骤包括：

将所述词向量输入第一编码器中处理，得到第一特征向量，所述编码器为变分自编码器的编码部分；

将所述第一特征向量与随机噪声拼接后输入第二编码器中处理，得到特征向量。

3.如权利要求2所述的方法，其中，所述将所述词向量输入第一编码器中处理，得到第一特征向量的步骤包括：

计算得到词向量的均值向量和方差向量；

从基于均值向量、方差向量以及随机向量的分布中，对所述词向量进行重采样，得到第一特征向量。

4.如权利要求3所述的方法，其中，所述第一特征向量表示为：

z^(i，l)＝μ^(i，l)+σ^(i，l)⊙ε^(l)

其中，z^(i，l)表示第i次从第l个样本中重采样得到的第一特征向量，μ^(i，l)和σ^(i，l)分别表示第i次重采样的第l个样本的均值向量和方差向量，ε^(l)为随机向量，且ε^(l)～N(0，1)，⊙表示方差向量与随机向量对应位的点乘计算。

5.如权利要求4所述的方法，其中，基于下述公式计算KL散度：

其中，Φ为第一编码器的参数，x⁽ⁱ⁾表示输入的词向量，D_z表示第一特征向量z的维度，和σ_j ⁽ⁱ⁾分别表示第i个均值向量和第i个方差向量的第j个分量。

6.一种生成图像的方法，适于在计算设备中执行，所述方法包括：

将文本信息转换为词向量；

将词向量输入图像生成模型中，以生成对应的图像，其中所述图像生成模型基于权利要求1-5任一项中所述的方法训练生成。

7.如权利要求6所述的方法，其中，所述图像生成模型包括相互耦接的编码器和生成器。

8.如权利要求6所述的方法，其中，将词向量输入图像生成模型中，以生成对应的图像的步骤包括：

将所述词向量输入所述编码器中进行处理，以生成特征向量；

将所述特征向量输入生成器中进行处理，以生成对应的图像。

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。