CN109784359A

CN109784359A - 图像生成方法、装置、设备及可读存储介质

Info

Publication number: CN109784359A
Application number: CN201811424165.6A
Authority: CN
Inventors: 尹斯星; 檀婧
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-05-21

Abstract

本发明公开了一种图像生成方法、装置、设备及可读存储介质，将第一噪声变量输入训练后的生成器中，生成第一模拟数据，将第一模拟数据输入训练后的自编码器的解码器中，生成仿真图像。其中，该训练后的生成器以对潜在特征分布和模拟数据分布的核密度估计结果的L1范数作为损失函数，所述潜在特征是利用训练后的自编码器的编码器对原始训练图像降维后生成的，所述训练后的自编码器是采用所述原始训练图像进行训练得到的。本方案中，将核密度估计这一非参数估计方法与生成器相结合，使生成器的训练过程较稳定，对于训练数据的分布也可以通过核密度估计较为准确地获知，从而保证生成的图像具有良好的多样性和仿真性。

Description

图像生成方法、装置、设备及可读存储介质

技术领域

本发明涉及图像生成领域，尤其涉及一种图像生成方法、装置、设备及可读存储介质。

背景技术

生成式模型是深度学习领域一大研究热点，不同于判别式模型的直接对后验概率P(y|x)进行建模，生成式模型先对联合分布P(x,y)进行建模，之后通过贝叶斯公式得到P(y|x)的分布，因此，生成式模型具有研究单类模型更灵活，以及能够反映训练数据本身特征，但学习过程较复杂等特点，早期的生成式模型有朴素贝叶斯、玻尔兹曼机、置信网络等。生成式模型在图像领域的主要应用为，通过模拟图像数据的分布，生成以假乱真的图像。上述生成式模型主要有两个类型：变分自编码器和生成式对抗网络，二者分别代表了生成式模型模拟图像数据的两种方式：直接和间接。下面分别介绍基于这两个类型的图像生成方案：

生成式对抗网络，主要由两个部分构成：生成器G和判别器D。如图1所示，生成器G的输入是一组多维随机噪声变量，输出的是与训练数据同分布的数据G(z)。判别器D的输入是训练数据x，即真实的图像数据，或生成器输出的生成图像G(z)，输出为1或0，分别代表输入为真或假。判别器的目标是能够区分真实的训练图像和生成器输出的生成图像，即将训练图像判断为1而生成图像判断为0。生成器的目标是生成近乎真实的图像使判别器无法区分。生成式对抗网络的训练过程为二者分别向着各自的目标不断优化的过程，最终得到的生成式对抗网络可以生成与训练图像相似的图像，从而实现对训练图像分布的模拟。生成式对抗网络有以下缺点，一是训练结束得到的生成器可以生成与训练图像相似的图像，生成器模拟训练图像分布是一种间接的方式，即可以实现从同分布的训练图像中采样，图像分布的概率密度仍然未知。二是生成式对抗网络受限于自身的对抗式结构，其训练过程并不稳定。理想情况下，训练结束时，判别器和生成器应达到纳什均衡的状态，但实际中，生成器总是由于判别器过于优秀而产生模式崩塌现象，即生成器生成的图像总为固定几张，重复性较高。另外，训练过程不稳定还会造成生成器无法生成与训练图像同分布的数据，即无法生成有意义的图像。

变分自编码器，如图2所示，其基本结构与传统自编码器相同，包括一个编码器和一个解码器。编码器的输入是训练图像，输出的是低维潜在特征，解码器以编码器的输出作为输入，输出与训练图像相同的图像，二者共同的目标是能将输入编码器的图像重构出来，但传统自编码器的问题在于编码器输出的低维潜在特征的概率分布未知，无法直接采样得到。为解决这一问题，变分自编码器假设潜在特征服从正态分布，在传统自编码器的基础上引入训练图像和解码器输出图像之间的相对熵，从而限制潜在特征的分布，使其符合假设。这种情况下，编码器的输出为正态分布的均值和方差，解码器生成图像所采用的潜在变量z可从具有特定均值和方差的正态分布中采样得到。变分自编码器虽然获知了潜在特征的分布，但其实际上是对潜在特征的分布做了参数化估计，即以先验知识假设潜在特征符合正态分布，通过训练编码器学习该分布的参数，如均值和方差。估计得到的分布并不一定完全反映真实的分布，尤其当真实分布与先验假设分布有较大偏差时，估计的分布无法以高准确度模拟真实分布。

发明内容

有鉴于此，本发明实施例提供了一种图像生成方法、装置、设备及可读存储介质，用以保证生成的图像具有良好的多样性和仿真性。

第一方面，本发明实施例提供了一种图像生成方法，包括：

将第一噪声变量输入训练后的生成器中，生成第一模拟数据；

将所述第一模拟数据输入训练后的自编码器的解码器中，生成仿真图像；

其中，所述训练后的生成器以对潜在特征分布和模拟数据分布的核密度估计结果的L1范数作为损失函数；所述潜在特征是利用所述训练后的自编码器的编码器对原始训练图像降维后生成的；所述训练后的自编码器是采用所述原始训练图像进行训练得到的。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，所述将第一噪声变量输入训练后的生成器中，生成第一模拟数据之前，还包括：

将原始训练图像输入训练后的自编码器的编码器中，获得所述原始训练图像的潜在特征；

将噪声变量输入生成器模型中，得到模拟数据；

对所述潜在特征进行核密度估计，得到第一估计结果；

对所述模拟数据进行核密度估计，得到第二估计结果；

将所述第一估计结果和第二估计结果的L1范数作为损失函数；

对所述生成器模型进行训练，并在训练中采用所述损失函数对所述生成器模型的参数进行约束；

调整所述生成器模型的参数，若所述损失函数达到最小，则确定所述生成器模型为训练后的生成器。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，所述核密度估计表示为：

其中，

代表带宽为H的核函数，带宽H是d维的对称正定矩阵。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，所述核函数为高斯核函数；

所述高斯核函数表示为：

其中，带宽H为对角矩阵，对角元素σ_i是被估计样本第i维的标准差；

将计算概率分布的位置s设定为每一个样本所在的位置。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，所述损失函数表示为：

其中，

为对潜在特征分布的核密度估计，

为对模拟数据分布的核密度估计。

第二方面，本发明实施例提供了一种图像生成装置，包括：

生成器模块，用于将第一噪声变量输入训练后的生成器中，生成第一模拟数据；

解码器模块，用于将所述第一模拟数据输入训练后的自编码器的解码器中，生成仿真图像；

其中，所述训练后的生成器以对潜在特征分布和所述模拟数据分布的核密度估计结果的L1范数作为损失函数；所述潜在特征是利用所述训练后的自编码器的编码器对原始训练图像降维后生成的；所述训练后的自编码器是采用所述原始训练图像进行训练得到的。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，还包括：

训练模块，用于在所述生成器模块将第一噪声变量输入训练后的生成器中，生成第一模拟数据之前，将原始训练图像输入训练后的自编码器的编码器中，获得所述原始训练图像的潜在特征；将噪声变量输入生成器模型中，得到模拟数据；对所述潜在特征进行核密度估计，得到第一估计结果；对所述模拟数据进行核密度估计，得到第二估计结果；将所述第一估计结果和第二估计结果的L1范数作为损失函数；对所述生成器模型进行训练，并在训练中采用所述损失函数对所述生成器模型的参数进行约束；调整所述生成器模型的参数，若所述损失函数达到最小，则确定所述生成器模型为训练后的生成器。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，所述核密度估计表示为：

其中，

代表带宽为H的核函数，带宽H是d维的对称正定矩阵。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，所述核函数为高斯核函数；

所述高斯核函数表示为：

将计算概率分布的位置s设定为每一个样本所在的位置。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，所述损失函数表示为：

其中，

为对潜在特征分布的核密度估计，

为对模拟数据分布的核密度估计。

第三方面，本发明实施例提供了一种电子设备，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

其中，所述处理器执行所述存储器中的计算机程序，以实现第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时用于实现第一方面任一项所述的方法。

本发明提供的图像生成方法、装置、设备及可读存储介质，将第一噪声变量输入训练后的生成器中，生成第一模拟数据，将第一模拟数据输入训练后的自编码器的解码器中，生成仿真图像。其中，该训练后的生成器以对潜在特征分布和模拟数据分布的核密度估计结果的L1范数作为损失函数，所述潜在特征是利用训练后的自编码器的编码器对原始训练图像降维后生成的，所述训练后的自编码器是采用所述原始训练图像进行训练得到的。本方案中，将核密度估计这一非参数估计方法与生成器相结合，使生成器的训练过程较稳定，对于训练数据的分布也可以通过核密度估计较为准确地获知，从而保证生成的图像具有良好的多样性和仿真性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为现有技术一的技术原理图；

图2为现有技术二的技术原理图；

图3为本发明实施例一提供的图像生成方法的流程示意图；

图4为本发明实施例提供的基于核密度估计的生成式模型的结构示意图；

图5为本发明实施例一提供的对生成器进行训练的流程示意图；

图6为本发明实施例二提供的图像生成装置的结构示意图；

图7为本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图3为本发明实施例一提供的图像生成方法的流程示意图，如图3所示，该方法可以包括以下步骤：

S101、将第一噪声变量输入训练后的生成器中，生成第一模拟数据。

实际应用中，本实施例的执行主体可以为图像生成装置，其总体结构如图4所示。在实际应用中，该图像生成装置可以通过虚拟装置，例如软件代码实现，也可以通过写入有相关执行代码的实体装置，例如，U盘实现，再或者，也可以通过集成有相关执行代码的实体装置实现，例如，芯片、智能终端等。

本实施例中，将用于生成图像的第一噪声变量输入训练后的生成器(Generator)中，以生成对应的第一模拟数据，该训练后的生成器以对潜在特征分布和模拟数据分布的核密度估计结果的L1范数作为损失函数。根据本发明的一个实施方式，如图5所示，在实施S101步骤之前，可以通过以下步骤对生成器进行训练：

S101a、将原始训练图像输入训练后的自编码器的编码器中，获得原始训练图像的潜在特征。将噪声变量输入生成器模型中，得到模拟数据。

本步骤中，所述训练后的自编码器是采用原始训练图像进行训练得到的。通过将原始训练图像输入训练后的自编码器的编码器(Encoder)中，可以将原始训练图像降维至潜在特征空间，得到原始训练图像的潜在特征以降低图像特征数据的维度，减少后续核密度估计的计算量，提高估计效率。将噪声变量输入生成器模型中得到对潜在特征的模拟G(z；θ)。

S101b、对潜在特征进行核密度估计，得到第一估计结果。对模拟数据进行核密度估计，得到第二估计结果。将第一估计结果和第二估计结果的L1范数作为损失函数。

具体地，假设未知分布的数据为(x₁,x₂,…,x_n)，每个样本x_i都是d维向量，采用核密度的方法对样本分布的概率密度函数进行估计，该核密度估计(Kernel DensityEstimation)的计算公式可以表示为：

其中，

代表带宽为H的核函数，带宽H是d维的对称正定矩阵。

可选的，本实施例中，所述核函数可以为高斯核函数；

所述高斯核函数表示为：

其中，带宽H为对角矩阵，对角元素σ_i是被估计样本第i维的标准差。

因为被估计样本在高维空间过于稀疏，若计算概率分布的位置s在该高维空间随机采样，可能产生大部分位置的值为0的情况，为提高计算效率，根据本发明的一个实施方式，可以将计算概率分布的位置s设定为每一个样本所在的位置。

在计算带宽为H的核函数K_H(x)时需要计算H的行列式，当数据维度过高时计算高维矩阵的行列式会带来极大困难，因此本发明采用上述S101a步骤，首先将原始训练图像降维至潜在特征空间，以提高核密度估计的计算效率。

本步骤中，对潜在特征进行核密度估计，可以得到原始训练图像的概率分布，对模拟数据进行核密度估计，可以得到对原始训练图像概率分布的模拟。将原始训练图像的概率分布和原始训练图像概率分布的模拟的L1范数作为损失函数。

所述损失函数可以表示为：

其中，

为对潜在特征分布的核密度估计，

为对模拟数据分布的核密度估计。

S101c、对生成器模型进行训练，并在训练中采用损失函数对生成器模型的参数进行约束。调整生成器模型的参数，若损失函数达到最小，则确定生成器模型为训练后的生成器。

本步骤中，以上述损失函数对生成器模型的参数进行约束，当损失函数达到最小时，获得训练后的生成器。

S102、将第一模拟数据输入训练后的自编码器的解码器中，生成仿真图像。

本实施例中，将训练后的生成器生成的模拟数据输入训练后的自编码器的解码器(Decoder)中，可以生成仿真图像。

本实施例提供的图像生成方法，将第一噪声变量输入训练后的生成器中，生成第一模拟数据，将第一模拟数据输入训练后的自编码器的解码器中，生成仿真图像。其中，该训练后的生成器以对潜在特征分布和模拟数据分布的核密度估计结果的L1范数作为损失函数，所述潜在特征是利用训练后的自编码器的编码器对原始训练图像降维后生成的，所述训练后的自编码器是采用所述原始训练图像进行训练得到的。本方案中，将核密度估计这一非参数估计方法与生成器相结合，使生成器的训练过程较稳定，对于训练数据的分布也可以通过核密度估计较为准确地获知，从而保证生成的图像具有良好的多样性和仿真性。

下述为本发明装置实施例，可以用于执行本发明方法实施例提供的方法。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

实施例二

图6为本发明实施例二提供的图像生成装置的结构示意图，如图6所示，该装置可以包括：

生成器模块210，用于将第一噪声变量输入训练后的生成器中，生成第一模拟数据；

解码器模块220，用于将所述第一模拟数据输入训练后的自编码器的解码器中，生成仿真图像；

根据本发明的一个实施方式，上述装置中，还可以包括：

训练模块，用于在生成器模块将第一噪声变量输入训练后的生成器中，生成第一模拟数据之前，将原始训练图像输入训练后的自编码器的编码器中，获得原始训练图像的潜在特征；将噪声变量输入生成器模型中，得到模拟数据；对潜在特征进行核密度估计，得到第一估计结果；对模拟数据进行核密度估计，得到第二估计结果；将第一估计结果和第二估计结果的L1范数作为损失函数；对生成器模型进行训练，并在训练中采用损失函数对生成器模型的参数进行约束；调整生成器模型的参数，若损失函数达到最小，则确定生成器模型为训练后的生成器。

根据本发明的一个实施方式，所述核密度估计表示为：

其中，

代表带宽为H的核函数，带宽H是d维的对称正定矩阵。

根据本发明的一个实施方式，所述核函数为高斯核函数；

所述高斯核函数表示为：

将计算概率分布的位置s设定为每一个样本所在的位置。

根据本发明的一个实施方式，所述损失函数表示为：

其中，

为对潜在特征分布的核密度估计，

为对模拟数据分布的核密度估计。

实施例三

图7为本发明实施例三提供的电子设备的结构示意图，包括：存储器310和处理器320；

所述存储器310，用于存储计算机程序；

其中，所述处理器320执行所述存储器中的计算机程序，以实现实施例一中的方法。

实施例四

本发明实施例四提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时用于实现实施例一中的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将第一噪声变量输入训练后的生成器中，生成第一模拟数据之前，还包括：

将噪声变量输入生成器模型中，得到模拟数据；

对所述潜在特征进行核密度估计，得到第一估计结果；

对所述模拟数据进行核密度估计，得到第二估计结果；

3.根据权利要求1所述的方法，其特征在于，所述核密度估计表示为：

其中，

代表带宽为H的核函数，带宽H是d维的对称正定矩阵。

4.根据权利要求3所述的方法，其特征在于，所述核函数为高斯核函数；

所述高斯核函数表示为：

将计算概率分布的位置s设定为每一个样本所在的位置。

5.根据权利要求4所述的方法，其特征在于，所述损失函数表示为：

其中，

为对潜在特征分布的核密度估计，

为对模拟数据分布的核密度估计。

6.一种图像生成装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6所述的装置，其特征在于，所述核密度估计表示为：

其中，

代表带宽为H的核函数，带宽H是d维的对称正定矩阵。

9.根据权利要求8所述的装置，其特征在于，所述核函数为高斯核函数；

所述高斯核函数表示为：

将计算概率分布的位置s设定为每一个样本所在的位置。

10.根据权利要求9所述的装置，其特征在于，所述损失函数表示为：

其中，

为对潜在特征分布的核密度估计，

为对模拟数据分布的核密度估计。

11.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

其中，所述处理器执行所述存储器中的计算机程序，以实现如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现如权利要求1-5中任一项所述的方法。