CN112070209A

CN112070209A - 基于w距离的稳定可控图像生成模型训练方法

Info

Publication number: CN112070209A
Application number: CN202010814704.8A
Authority: CN
Inventors: 董春茹; 刘轶功; 花强; 张峰; 赵世朋
Original assignee: Heibei University
Current assignee: Heibei University
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-12-11
Anticipated expiration: 2040-08-13
Also published as: CN112070209B

Abstract

本发明提供了一种基于W距离的稳定可控图像生成模型训练方法，包括以下步骤：a、对图象数据进行预处理，得到训练集的样本数据；b、构建基于W距离的稳定可控图像生成模型，c、根据各个网络的损失函数搭建整体模型；d、通过梯度下降算法交替迭代模型训练，保证模型参数的正常收敛；e、模型参数收敛后，分别将生成器网络G、编码器网络E、分类器网络C分离出来作为单独的服务类产品使用。本发明是一种端到端的网络模型，从模型结构和分布度量标准两个方面对现有技术中的模型进行了改进，解决了模型训练梯度不稳定和模型梯度下降方向不稳定的问题，能够稳定的定向生成图象样本，提升了模型训练过程中的鲁棒性及生成样本的可控性。

Description

基于W距离的稳定可控图像生成模型训练方法

技术领域

本发明涉及图像识别技术领域，具体地说是一种基于W距离的稳定可控图像生成模型训练方法。

背景技术

近年来，生成对抗网络(Generative Adversarial Networks,GAN)及其衍生出的生成模型是机器学习和深度学习社区的核心话题之一，其中双向生成对抗网络(BiGAN)是高维复杂数据建模最重要的深度生成模型之一。BiGAN模型通过在GAN模型中引入编码器网络E使得在编码的过程中可以将相似样本的隐变量聚在一起，使得低维流形得以连续，达到隐式正则化的效果，从而可以提高模型泛化能力。

然而，在BiGAN模型的训练过程中，极易发生真实数据分布和生成样本分布的支撑集同时是高维空间中的低维流形的情况，此时两个分布重叠部分的测度可以忽略不计，这将导致在BiGAN模型及其变种模型的训练迭代过程中出现梯度为零的情况，从而使得生成器网络G 无法接收有效的梯度信息，导致训练失败，影响模型鲁棒性；此外，由于BiGAN模型生成样本的过程具有不可控性，我们很难在BiGAN模型生成样本中找出需要的数据，而人为挑选则会大大增加工作量，从而无法适应大数据量的样本定向生成任务。

具体地说，GAN模型于2014年由Goodfellow等人提出，是一种实现复杂数据分布学习的无监督生成模型。该模型主要由生成器网络G和判别器网络D两部分构成，其中生成器网 G络将输入的随机噪声映射为生成样本，而判别器网络D同时接收真实样本和生成样本，并判别输入样本的真伪(即判别样本是真实样本还是生成样本)。在GAN模型的训练过程中，通过构建目标函数引入竞争机制让这两个网络同时得到优化，最终使得生成器网络G生成与真实样本数据分布足够相似的新数据分布。GAN模型的结构如图1所示。

设q(x)为真实数据分布，其中x∈Ω_X，设p(z)为一个固定的隐编码分布，其中z∈Ω_Z，通常定义为简单分布，例如标准正态分布p(z)＝N(0,1)，生成器网络G:Ω_Z→Ω_X可以将隐编码分布映射到数据分布，D(x)代表x来自于真实数据分布q(x)而不是生成样本分布的概率。据此 GAN网络的优化目标函数如下：

由于GAN生成器网络G所获得的用于更新参数的信息只来自于判别器网络D，致使生成器网络G不知道更新的方向，为了解决原始GAN模型的生成样本目标不可控这个问题，Mirza M等人提出了一种特定条件下的样本生成模型，即Conditional GenerativeAdversarial Nets(CGAN)，CGAN模型的网络拓扑结构如图2所示。

条件生成对抗网络是在原始GAN功能上的一个扩展，其核心技术在于将条件信息y同时融入生成器网络G和判别器网络D中，目标函数为：

模型中y是条件，将噪声z加上条件y得到条件概率分布z|y，送入网络中训练得到生成样本分布，G(z|y)生成器网络G生成的样本。x是在数据集中采样得到的真实样本，与条件y 结合得到条件概率分布z|y，其含义是满足条件y的真实样本的分布，与送来的G(z|y)比较得到唯一的数值，反馈训练模型整体调整收敛参数。

GAN模型框架可以通过学习得到同x具有足够近似分布的样本

其中

但是并不具备从真实样本x逆向映射到隐变量

的能力，其中

为此，BiGAN模型不仅训练一个生成器网络G，还要另外训练一个编码器网络E，其中E:Ω_X→Ω_Z，从而可以将真实数据样本空间映射回隐变量空间。为了使生成分布逼近真实分布并形成对抗关系，需要使判别器网络D学习z和G(z)或者x和E(x)的联合分布并做出真假判断。BiGAN模型的结构如图3，其中编码器网络E的边缘分布q(x)是真实数据分布，生成器网络G的边缘分布p(z)是隐编码分布。

BiGAN模型的目标是使编码器网络E联合分布逼近生成器网络G联合分布，并使用KL 散度衡量两个分布的差异，其目标函数为

其中V(D,G,E)具体形式定义为下式。

BiGAN模型采用与GAN模型相同的基于交替梯度的EM优化算法来优化目标函数。理论上，在BiGAN模型达到最优解时，即KL散度收敛达到最小的情况下，可以认为所有的边缘分布和所有的条件分布都已达到匹配。

目前与本次发明最接近的现有技术为Ayush Jaiswal于2018年4月提出的BiCoGAN模型，作者在模型中加入条件控制因素，在一定程度上改进了BiGAN模型可以使其定向的生成数据。其同样结合了GAN模型、CGAN模型和BiGAN模型，具体结构如图4所示。

同BiGAN模型一样，作者在BiCoGAN模型框架中加入了一个编码器网络E，该编码器网络E学习数据样本对隐编码分布与控制条件的反映射。编码器网络E同生成器网络G和鉴别器网络D一起训练，以确保它有效地学习逆映射，BiCoGAN模型生成以所需的控制因素为条件的样本，并有效地将真实数据样本编码为包含隐编码和控制属性的综合表示。

BiCoGAN模型的编码器网络E必须学习x到z和c的反映射，为此作者引入了控制因素损失(EFL)作为明确的机制，可以帮助BiCoGAN模型更好地编码学习外在控制因素。作者没有在BiCoGAN模型目标中为EFL给出明确的形式，因为损失函数的选择取决于c的性质与数据集/域。具体BiCoGAN模型的目标函数为：

其中权重γ可以选择为恒定值或动态参数，该参数可以在训练过程中会不断人为调整，以控制初始对抗目标和EFL之间的训练重点。

但是BiCoGAN模型存在以下两个技术问题：

一、BiCoGAN模型的训练梯度不稳定。

BiCoGAN通过最大化似然估计提高样本生成能力，表现为最小化未知的真实数据分布 q(x)和生成样本分布p_G(x)之间的相对熵，又名KL散度:

但因为它不是对称的，故通过公式推导将其对称化，就得到JS散度：

其中，KL散度是一种度量两个概率分布之间距离的衡量标准，两个分布之间的差异越大，散度也随之增大。KL散度有很多关键的性质，其中最重要的性质是非负性，即当两个概率分布q(x)和p_G(x)完全相同时，KL散度取到其最小值零，而这正是深度学习中基于梯度下降的训练算法所需要的特性：当神经网络完美拟合目标映射时，那么模型就停止训练，而不完美拟合时则因为相对熵大于零而继续训练。然而，使这个重要特性成立的前提是两个概率分布的支撑集必须有重叠，但当我们处理两个低维流形分布时，这两个低维流形的支撑集将可能具有极小重叠甚至没有重叠。如图5所示，二维平面中的线段ab相交于cd，但是如果将坐标系升至三维，如图6所示，ab与cd则不再相交。正如BiGAN中将服从简单分布的p(z)通过生成器网络G映射到与真实数据分布q(x)相同的维度，生成样本分布p_G(x)很难与真实数据分布q(x)产生交集，这意味着KL散度在大部分区域是无意义的，即KL(q(x)||p_G(x))＝∞，并且JS散度将成为一个常数JS(q(x)||p_G(x))＝log2，这将导致判别器网络D损失函数的梯度为无穷或者为零，从而导致模型训练失败。如图5和图6所示，图5是现有技术中两组二维数据在二维空间下的分布，图6是现有技术中两组二维数据在三维空间下的分布。

二、BiGAN的生成目标不明确，具有不可控性，即我们很难在BiGAN生成的样本中获得我们需要的定向生成数据，而如果通过人工挑选或者基于模型分类又会造成不必要的代价。 BiCoGAN的出现克服了此缺陷，主要原理是加入条件约束机制，在隐变量分布中加入控制因素y，使生成器网络G接收带有条件约束信息y的条件隐变量z|y。然而，这种方法虽然起到了一定程度上的条件控制能力，但是由于新条件的引入，生成器网络G容易在增强生成质量和生成定向数据的梯度下降方向上摇摆不定，造成训练过程中的梯度震荡乃至训练失败。

发明内容

本发明的目的就是提供一种基于W距离的稳定可控图像生成模型训练方法，以解决现有技术中模型训练梯度不稳定和模型梯度下降方向不稳定的问题。

本发明是这样实现的：一种基于W距离的稳定可控图像生成模型训练方法，包括以下步骤：

a、对图像数据进行预处理，得到训练集的样本数据；

b、构建基于W距离的稳定可控图像生成模型，该模型包括生成器网络G、编码器网络 E、判别器网络D以及分类器网络C；

生成器网络G接收随机噪声z与条件信息y组成的条件概率分布z|y，并通过反卷积神经网络映射的方式生成64×64的生成样本G(z|y)；

编码器网络E接收从训练集获得的真实样本x，并通过卷积神经网络映射的方式提取出与随机噪声z同维的特征向量[E(x),x]；

分类器网络C接收条件联合分布[E(x),x]|y和条件联合分布[G(z|y),z|y]|y组成的拼接矩阵，通过分类器网络C映射为重构条件分布y′；

c、根据各个网络的损失函数搭建整体基于W距离的稳定可控图像生成模型；

d、采用训练集样本数据通过梯度下降算法交替迭代模型进行训练，然后在训练过程中采用梯度裁剪方法，辅助优化训练过程，确保回传稳定的梯度，保证模型参数的正常收敛；

e、模型参数收敛后，分别将生成器网络G、编码器网络E、分类器网络C分离出来作为单独的服务类产品使用。

进一步地，本发明可以按如下技术方案实现：

在步骤a中，采用CelebA人脸数据集作为样本数据，将CelebA人脸数据集划分为训练集和测试集；并对训练集和测试集中的每张图像进行裁剪，裁剪出每张图像中固定人脸位置的大小为64×64像素的图片，并将裁剪后的图片数据进行归一化处理。

所述步骤b中，在构建生成器网络G过程中，基于CelebA数据集实验，选取“Male”为类标，读取所有图片样本并剪切提取64×64的人脸部分，后给图像分类：“Male”为[1,0]，否则为[0,1]；

随机噪声z为从简单随机分布中获得的100维的服从正态分布的随机噪声向量，将随机噪声z与2维的条件信息y拼接成一个102维的向量，通过一个线性全连接层将102维的向量转化为8192维的向量，然后reshape为维度大小为[4,4,512]的向量组成的条件概率分布 z|y，作为第一层网络的输出，最后通过多层反卷积得到[64,64,3]的生成样本G(z|y)，生成器网络G的反卷积核统一设置为[5,5,n_in,n_out]尺寸，其中n_in为输入通道数，n_out为输出通道数，反卷积步长设置均为2，在该部分，前三次反卷积操作使用的激活函数为Relu函数，最后一层为tanh函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力，这样在将输出的结果加1再乘以127.5即可转化为Uint8的像素值。

所述步骤b中，在构建编码器网络E过程中，编码器网络E接受的是裁剪预处理过的真实CelebA人脸数据的真实样本x，为大小[64,64,3]的向量矩阵，经过多次正向卷积操作，提取出[4,4,512]的向量矩阵，再通过最后一次卷积提取出102维的特征向量[E(x),x]，编码器网络E中所有卷积核的大小统一设置为[5,5,n_in,n_out]尺寸，其中n_in为输入通道数，n_out为输出通道数，卷积步长设置均为2，在该部分，前三次卷积操作使用的激活函数为Relu函数，最后一层为tanh函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力。

所述步骤b中，在构建判别器网络D过程中，判别器网络D分别接收条件联合分布[E(x),x]|y和条件联合分布[G(z|y),z|y]|y的12390维拼接矩阵，分别通过12390×128×32×1 的全连接神经网络映射到一个标量，这两个标量的差代表了两个拼接矩阵的Wasserstein近似距离，在全连接网络中，每一层的输入层和隐藏层之间的激活函数均为Relu函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力。

所述步骤b中，在构建分类器网络C过程中，分类器网络C同样分别接收条件联合分布 [E(x),x]|y和条件联合分布[G(z|y),z|y]|y的12390维拼接向量，分别通过12390×128×32×2 的全连接神经网络映射到一个二维向量形成重构条件分布y′，这个二维向量分别代表了对真实CelebA人脸数据与生成器网络G输出的生成人脸数据的分类预估，在全连接网络中，每一层的输入层和隐藏层之间的激活函数均为Relu函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力。

所述步骤c中，在将四个独立的神经网络通过损失函数结合的过程中：

构建判别器网络D的损失函数，将接收的输入分别映射为两个标量，使两个标量做差，这两个标量的差代表了真实CelebA人脸数据与生成器网络G输出的生成人脸数据之间的差距，这个差值构成判别器网络D的损失；

构建分类器网络C的损失函数，将接收的输入分别映射为两个二维向量，通过交叉熵的方式计算两个向量与条件向量的散度距离，这两个散度距离代表了分类器网络C对于真实 CelebA人脸数据与生成器网络G输出的生成人脸数据的分类准确率，将两个散度距离相加构成分类器网络C的损失；

构建生成器网络G的损失函数，将分类器网络C对于生成人脸数据的12390维拼接向量的映射向量计算得出散度距离乘以重要权重α，加判别器网络D接收生成人脸数据的12390 维拼接向量的映射输出标量，最后整体取反得到生成器网络G的损失。

所述步骤c中：

判别器网络D的损失函数为：

分类器网络C的损失函数为：

生成器网络G的损失函数为：

重要权重α为：

其中，x为采样数据，y为真实样本类别，视作分布条件，

为编码器网络E的输出E(x)，

为生生成器网络G的输出G(z|y)，

为条件联合分布[E(x),x]|y，

为条件联合分布[G(z|y),z|y]|y，f_w(·)为判别器网络D。

所述步骤d中，整体模型的训练过程中，生成器网络G和编码器网络E同时训练5个epoch 后，判别器网络D和分类器网络C同时训练1个epoch，通过RMSProp梯度下降算法，learning_rate＝0.01，decay＝0.9，epsilon＝1e-10，再加上梯度裁剪策略，将更新梯度稳定在[-0.1,0.1] 之间，共训练100000个epoch，最后可以达到收敛状态。

所述步骤a中，对图像数据进行预处理，得到训练集和测试集的样本数据；所述步骤e 中,模型参数收敛后，采用测试集调试模型精度，然后分别将生成器网络G、编码器网络E、分类器网络C分离出来作为单独的服务类产品使用。

本发明的模型用Wasserstein距离来替换原始BiCoGAN训练目标函数中的KL散度，由于Wasserstein距离作为最后多维真假分布的度量，比原始的KL散度在训练过程中更加平稳，解决了模型的训练梯度不稳定的问题。具体地说，Wasserstein距离与KL散度、JS散度相比具有平滑特性，即使两个分布之间没有产生重叠的支撑集交集，Wasserstein距离亦能够有效度量它们之间的差异，进而在梯度下降算法中可以产生有意义的梯度，因此Wasserstein距离能有效缓解基于KL散度或JS散度的模型的梯度消失或梯度爆炸问题。用Wasserstein距离替换原始BiCoGAN中的KL散度，可以大大增加了模型训练的平稳性，并且得益于Wasserstein 距离平滑的特性，不会出现因梯度不稳定而产生的梯度消失或爆炸的情况，可在一定程度上缓解模型的模式坍塌的情况。

本发明的模型增加了分类器网络C，将现有技术中BiCoGAN编码器网络E的编码功能与回归任务功能分离，同时将分类器网络C的损失函数融入到生成器网络G的损失函数中，并通过重要权重α连接，α可以在训练模型的不同阶段动态平衡生成器网络的优化目标，可以在训练模型的过程中动态的调整生成器网络G，将生成器网络G在提高生成质量功能和定向生成的能力的功能分开，在不同的阶段集中训练当前阶段的目标，在很大程度上缓解了梯度来回摆动和训练不稳定的情况，解决了模型梯度下降方向不稳定的问题。

本发明是一种端到端的网络模型，从模型结构和分布度量标准两个方面对现有技术中的模型进行了改进，解决了模型训练梯度不稳定和模型梯度下降方向不稳定的问题，能够稳定的定向生成图像样本，提升了模型训练过程中的鲁棒性及生成样本的可控性。

附图说明

图1是现有技术中GAN模型的结构图。

图2是现有技术中CGAN模型的结构图。

图3是现有技术中BiGAN模型的结构图。

图4是现有技术中BiCoGAN模型的结构图。

图5是现有技术中两组二维数据在二维空间下的分布图。

图6是现有技术中两组二维数据在三维空间下的分布图。

图7是本发明CWBLI模型的结构图。

图8是本发明中联合数据分布子集的分布映射图。

图9是本发明生成器网络G的反卷积流程图。

图10是本发明编码器网络E的卷积流程图。

图11是本发明图像预处理流程图。

图12是本发明的模型与其他三种模型在采用CelebA样本的图像生成结果对比图。

图13是本发明的模型与其他三种模型在采用MNIST样本的图像生成结果对比图。

具体实施方式

本发明的基于W(Wasserstein)距离的稳定可控图像生成(CWBLI)模型训练方法，包括以下步骤：

a、对图像数据进行预处理，得到训练集和测试集的样本数据。

采用CelebA人脸数据集作为样本数据，将CelebA人脸数据集划分为训练集和测试集，具体地可选取180000张用作训练集，剩下22599张用作测试集。在原CelebA数据集中，每张图像都具有178×218个像素，为了更加突出我们所需要的特征同时也为了减少模型训练复杂度，对训练集和测试集中的每张图像进行裁剪，如图11所示，以最经典的000001.jpg为例来展示处理流程，裁剪出每张图像中固定人脸位置的大小为64×64像素的图片，然后将裁剪后的图片数据进行归一化处理。

b、构建基于W距离的稳定可控图像生成模型，如图7所示。

该模型包括生成器网络G、编码器网络E、判别器网络D以及分类器网络C。

b1、在构建生成器网络G过程中，生成器网络G接收随机噪声z与条件信息y组成的条件概率分布z|y，并通过反卷积神经网络映射的方式生成64×64的生成样本G(z|y)。具体地说，而在已知的简单分布p(z)的基础上加入条件信息y形成条件分布p(z|y)，条件分布p(z|y) 将会以子集的形式通过生成器网络G生成映射分布

如图8所示，从而达到通过控制子集条件的方式控制生成器网络G的生成方向。

基于CelebA数据集实验，选取“Male”为类标，读取所有图像样本并剪切提取64×64 的人脸部分，后给图像分类：“Male”为[1,0]，否则为[0,1]，形成二维的条件信息y。

随机噪声z为从简单随机分布中获得的100维的服从正态分布的随机噪声向量，将随机噪声z与2维的条件信息y拼接成一个102维的向量，通过一个线性全连接层将102维的向量转化为8192维的向量，然后reshape为维度大小为[4,4,512]的向量组成的条件概率分布z|y，作为第一层网络的输出，最后通过多层反卷积得到[64,64,3]的生成样本G(z|y)。生成器网络G的反卷积核统一设置为[5,5,n_in,n_out]尺寸，其中n_in为输入通道数，n_out为输出通道数，反卷积步长设置均为2，在该部分中，前三次反卷积操作使用的激活函数为Relu函数，最后一层为tanh函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力，这样在将输出的结果加1再乘以127.5即可转化为Uint8的像素值。

b2、在构建编码器网络E过程中，编码器网络E接收从CelebA人脸数据集获得的真实样本x，并通过卷积神经网络映射的方式提取出与随机噪声z同维的特征向量[E(x),x]。

具体地说，编码器网络E接受的是裁剪预处理过的真实CelebA人脸数据的真实样本x，为大小[64,64,3]的向量矩阵，经过多次正向卷积操作，提取出[4,4,512]的向量矩阵，再通过最后一次卷积提取出102维的特征向量[E(x),x]，编码器网络E中所有卷积核的大小统一设置为[5,5,n_in,n_out]尺寸，其中n_in为输入通道数，n_out为输出通道数，卷积步长设置均为2，在该部分，前三次卷积操作使用的激活函数为Relu函数，最后一层为tanh函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力。

具体地说，判别器网络D分别接收条件联合分布[E(x),x]|y和条件联合分布[G(z|y),z|y]|y 的12390维拼接矩阵，分别通过12390×128×32×1的全连接神经网络映射到一个标量，这两个标量的差代表了两个拼接矩阵的Wasserstein近似距离，在全连接网络中，每一层的输入层和隐藏层之间的激活函数均为Relu函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力。

b4、在构建分类器网络C过程中，分类器网络C接收条件联合分布[E(x),x]|y和条件联合分布[G(z|y),z|y]|y组成的拼接矩阵，通过分类器网络C映射为重构条件分布y′；

具体地说，分类器网络C同样分别接收条件联合分布[E(x),x]|y和条件联合分布[G(z|y),z|y]|y的12390维拼接向量，分别通过12390×128×32×2的全连接神经网络映射到一个二维向量形成重构条件分布y′，这个二维向量分别代表了对真实CelebA人脸数据与生成器网络G输出的生成人脸数据的分类预估，在全连接网络中，每一层的输入层和隐藏层之间的激活函数均为Relu函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力。

模型训练初期，由于分类器网络C的参数是随机产生，L_{C_real}值会震荡且偏大，分离器的分类功能尚未成熟，即使生成器网络G生成的样本符合条件约束的生成方向也得不到有效的回传梯度，此时α趋于零，对应L_G第二部分的比重会很低，模型就会着重训练生成器网络 G的生成功能，提升生成样本的质量。随着训练的进行此时生成器网络G已经初步收敛，生成样本平均质量平稳，L_{C_real}值会逐步趋于零，对应L_G第二部分的比重会逐渐增加，以达到将控制条件进一步融入生成器网络G的目的。

模型的实现主要依靠TensorFlow深度学习框架，生成器网络G和判别器网络D的参数交替迭代优化，在训练生成器网络G时，从正态分布p(z)＝N(0,1)中采样m个样本作为一个批次的训练数据输入判别器网络D，然后根据公式(1.7)式计算生成器网络G的损失，同样采用RMSProp算法更新它的参数。由于更优的判别器网络D可以反向传播给生成器网络G 更准确的梯度信息，因此从训练开始，在每一次更新生成器网络G之前，均需更新n次判别器网络D，以使其更快收敛。

其中，生成器网络G和编码器网络E采用卷积的网络结构，图9是本发明生成器网络G 的反卷积流程图，图10是本发明编码器网络E的卷积流程图。分类器网络C和判别器网络D采用全连接结构.

c、根据各个网络的损失函数搭建整体基于W距离的稳定可控图像生成模型。

判别器网络D的损失函数为：

分类器网络C的损失函数为：

生成器网络G的损失函数为：

重要权重α为：

其中，x为采样数据，y为真实样本类别，视作分布条件，

为编码器网络E的输出E(x)，

为生生成器网络G的输出G(z|y)，

为条件联合分布[E(x),x]|y，

为条件联合分布[G(z|y),z|y]|y，f_w(·)为判别器网络D。

c1、计算判别器网络D的损失函数。

具体地说，在将四个独立的神经网络通过损失函数结合的过程中，构建判别器网络D的损失函数，将接收的输入分别映射为两个标量，使两个标量做差，这两个标量的差代表了真实CelebA人脸数据与生成器网络G输出的生成人脸数据之间的差距，这个差值构成判别器网络D的损失；

为了进一步的强化条件信息y，我们在特征向量[E(x),x]送入判别器网络D之前再次加入条件信息y作为条件约束，相当于在重构联合分布

(即[G(z|y),z|y])中加入了一个显示的约束范围变成

(即条件联合分布[G(z|y),z|y]|y)，同样在真实联合分布

(即[E(x),x])中也加入约束范围变成

(即条件联合分布[E(x),x]|y)，最后将两个条件联合分布送入判别器网络D。在加入条件信息y作为条件约束后，由于y是已知且固定的，故可以得到条件联合分布之间的Wasserstein距离的度量公式：

由于上述公式(1.5)不方便直接求解，下面通过推导得到其可求解形式，并用深度神经网络拟合函数，由于加入条件信息y只是对原推导过程的升维操作，故π变为

则任意γ∈π都成为了

及

的一个条件联合分布，故我们通过采样方法获得(x,y)～γ为：

进而通过现有技术中相同的推导过程得到生成器网络G的初步损失函数和判别器网络D 的最终损失函数：

c2、计算分类器网络C的损失函数和生成器网络G的损失函数。

具体地说，构建分类器网络C的损失函数，将接收的输入分别映射为两个二维向量，通过交叉熵的方式计算两个向量与条件向量的散度距离，这两个散度距离代表了分类器网络C 对于真实CelebA人脸数据与生成器网络G输出的生成人脸数据的分类准确率，将两个散度距离相加构成分类器网络C的损失。

在机器学习中，多数情况下会使用KL散度来度量真实类别与模型预测之间的相似性，由于数据集固定，构成KL散度的信息熵部分为固定常数，故在算法实现的过程之中，只需要计算两者的交叉熵，所以一般在类似的机器学习任务中直接使用交叉熵做为损失函数评估模型。在分类器网络C的工作过程中，它将两个高维分布映射为BatchSize*1维的低维向量，两个向量很难产生不相交的情况，所以可以基于交叉熵构建分类器网络C损失函数。分类器网络C接收和判别器网络D相同的两个条件联合分布，通过神经网络映射为重构条件分布y′，通过对数似然的方法拉近逼近真实条件分布p(y)，由此分类器网络C损失函数为：

分类器网络C损失函数L_C分为两个部分，真实损失和重构损失：

L_C＝L_{C_real}+L_{C_fake} (1.8)

其中L_{C_real}为真实联合分布

输入C中输出的预测值与真实条件类别y的交叉熵， L_{C_fake}为重构联合分布

输入C中输出的预测值与真实条件类别y的交叉熵。

在构建生成器网络G的损失函数过程中，将分类器网络C对于生成人脸数据的12390维拼接向量的映射向量计算得出散度距离乘以重要权重α，加判别器网络D接收生成人脸数据的12390维拼接向量的映射输出标量，最后整体取反得到生成器网络G的损失。

具体地说，为了使模型的生成器网络G的生成能力更加可控，将分类器网络C的重构损失部分L_{C_fake}加入到生成器网络G中L_G＝L_G+L_{C_fake}。为了更好的控制分类器网络C重构损失部分L_{C_fake}的比重，即控制生成器网络G接收条件控制信息的多少，加入了重要权重α：

L_G＝L_G+α*L_{C_fake} (1.9)

其中α的定义为：

α＝1-|tanh(L_{C_real})| (1.10)

具体地重要权重α为：

因此最终的生成器网络G的损失函数为：

α是一个动态的参数，它负责监听分类器网络C实时的训练进度。选用1-|tanh(·)|做外层函数的原因有如下两点：第一，tanh(·)函数可以将L_{C_real}损失函数值压缩到[1，-1]之间，以防L_{C_real}的损失函数值过大而影响生成器网络G的收敛，而|tanh(·)|可以将函数转换成轴对称且大于0的激活函数，有利于下一步的使用，第二，在L_{C_real}趋近0时，即分类器网络C趋于收敛，此时分类器网络C可以给生成器网络G提供生成方向上正确的梯度方向，通过 1-|tanh(·)|外层函数可以使L_{C_fake}的在L_G中的比重逐渐上升，使生成器网络G接收更多有利于生成固定方向样本的梯度信息。

d、采用训练集样本数据通过梯度下降算法交替迭代模型进行训练，然后在训练过程中采用梯度裁剪方法，辅助优化训练过程，确保回传稳定的梯度，保证CWBLI模型参数的正常收敛。

整体模型的训练过程中，生成器网络G和编码器网络E同时训练5个epoch后(一个epoch 指代所有的数据送入网络中完成一次前向计算及反向传播的过程)，判别器网络D和分类器网络C同时训练1个epoch，通过RMSProp梯度(均方根阻尼算法)下降算法，learning_rate＝0.01，decay(梯度衰减因子)＝0.9，epsilon(防止梯度为零的阈值)＝1e-10，再加上梯度裁剪策略，将更新梯度稳定在[-0.1,0.1]之间，共训练100000个epoch，最后可以达到收敛状态。

e、CWBLI模型参数收敛后，采用测试集调试模型精度，然后分别将生成器网络G、编码器网络E、分类器网络C分离出来作为单独的服务类产品使用。

本发明的模型与其他模型进行对比试验，采用CelebA样本和MNIST样本的数据集进行测试，在稳定度和精度上效果良好。

图12为本发明的模型与BiCoGAN模型、CVAE的模型和SAAE模型在采用CelebA样本的图像生成结果对比图。从图中可以得知，本发明的CWBLI模型生成CelebA样本的情况明显好于其他模型，图像更加清晰，面部特征明显的同时也体现出了男女类别特征的不同，相比于另外三种模型，生成效果更加稳定且多样性丰富，生成样本模糊的情况相对较少。BiCoGAN模型和SAAE模型生成样本也比较清晰易于辨认，但是生成样本模糊的情况明显增多，相比CWBLI生成结果稳定性得不到保障。CVAE生成样本相对普遍不清晰，特征不明显，生成样本模糊的情况频繁发生。

图13为本发明的模型与BiCoGAN模型、CVAE的模型和SAAE模型在采用MNIST样本的图像生成结果对比图。各模型的生成器网络G总体结构不动，类标维度从2维变为10 维，最后生成的样本为[28,28,1]的灰度图片。

在同等网络结构的条件下，可以观察到BiCoGAN模型和SAAE模型生成的样本图像比较清晰但是特征不明显，在生成“5”或“7”类型的样本时产生了不易分辨的无效样本图像，而CVAE的模型训练出现了震荡情况，生成的样本图像有明显的模糊现象。本发明CWBLI模型生成的样本图像较其他模型更为清晰，特征突出，且生成过程非常稳定，很少出现生成质量大幅下降的情况。

经实例分析验证表明，本发明采用的CWBLI模型相比于传统BiCoGAN模型、CVAE的模型和SAAE模型在图像生成方面稳定度和清晰度显著高于另外三种方法，更加适应于需要突出特征的图像处理。

Claims

1.一种基于W距离的稳定可控图像生成模型训练方法，其特征是，包括以下步骤：

a、对图象数据进行预处理，得到训练集的样本数据；

b、构建基于W距离的稳定可控图像生成模型，该模型包括生成器网络G、编码器网络E、判别器网络D以及分类器网络C；

2.根据权利要求1所述的基于W距离的稳定可控图像生成模型训练方法，其特征是，在步骤a中，采用CelebA人脸数据集作为样本数据，将CelebA人脸数据集划分为训练集和测试集；并对训练集和测试集中的每张图像进行裁剪，裁剪出每张图像中固定人脸位置的大小为64×64像素的图片，并将裁剪后的图片数据进行归一化处理。

3.根据权利要求2所述的基于W距离的稳定可控图像生成模型训练方法，其特征是，所述步骤b中，在构建生成器网络G过程中，基于CelebA数据集实验，选取“Male”为类标，读取所有图片样本并剪切提取64×64的人脸部分，后给图像分类：“Male”为[1,0]，否则为[0,1]；

随机噪声z为从简单随机分布中获得的100维的服从正态分布的随机噪声向量，将随机噪声z与2维的条件信息y拼接成一个102维的向量，通过一个线性全连接层将102维的向量转化为8192维的向量，然后reshape为维度大小为[4,4,512]的向量组成的条件概率分布z|y，作为第一层网络的输出，最后通过多层反卷积得到[64,64,3]的生成样本G(z|y)，生成器网络G的反卷积核统一设置为[5,5,n_in,n_out]尺寸，其中n_in为输入通道数，n_out为输出通道数，反卷积步长设置均为2，在该部分，前三次反卷积操作使用的激活函数为Relu函数，最后一层为tanh函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力，这样在将输出的结果加1再乘以127.5即可转化为Uint8的像素值。

4.根据权利要求2所述的基于W距离的稳定可控图像生成模型训练方法，其特征是，所述步骤b中，在构建编码器网络E过程中，编码器网络E接受的是裁剪预处理过的真实CelebA人脸数据的真实样本x，为大小[64,64,3]的向量矩阵，经过多次正向卷积操作，提取出[4,4,512]的向量矩阵，再通过最后一次卷积提取出102维的特征向量[E(x),x]，编码器网络E中所有卷积核的大小统一设置为[5,5,n_in,n_out]尺寸，其中n_in为输入通道数，n_out为输出通道数，卷积步长设置均为2，在该部分，前三次卷积操作使用的激活函数为Relu函数，最后一层为tanh函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力。

5.根据权利要求2所述的基于W距离的稳定可控图像生成模型训练方法，其特征是，所述步骤b中，在构建判别器网络D过程中，判别器网络D分别接收条件联合分布[E(x),x]|y和条件联合分布[G(z|y),z|y]|y的12390维拼接矩阵，分别通过12390×128×32×1的全连接神经网络映射到一个标量，这两个标量的差代表了两个拼接矩阵的Wasserstein近似距离，在全连接网络中，每一层的输入层和隐藏层之间的激活函数均为Relu函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力。

6.根据权利要求2所述的基于W距离的稳定可控图像生成模型训练方法，其特征是，所述步骤b中，在构建分类器网络C过程中，分类器网络C同样分别接收条件联合分布[E(x),x]|y和条件联合分布[G(z|y),z|y]|y的12390维拼接向量，分别通过12390×128×32×2的全连接神经网络映射到一个二维向量形成重构条件分布y′，这个二维向量分别代表了对真实CelebA人脸数据与生成器网络G输出的生成人脸数据的分类预估，在全连接网络中，每一层的输入层和隐藏层之间的激活函数均为Relu函数，且在每一层均使用了批量归一化的方法来增强模型在训练时的收敛能力。

7.根据权利要求1所述的基于W距离的稳定可控图像生成模型训练方法，其特征是，所述步骤c中，在将四个独立的神经网络通过损失函数结合的过程中：

构建分类器网络C的损失函数，将接收的输入分别映射为两个二维向量，通过交叉熵的方式计算两个向量与条件向量的散度距离，这两个散度距离代表了分类器网络C对于真实CelebA人脸数据与生成器网络G输出的生成人脸数据的分类准确率，将两个散度距离相加构成分类器网络C的损失；

构建生成器网络G的损失函数，将分类器网络C对于生成人脸数据的12390维拼接向量的映射向量计算得出散度距离乘以重要权重α，加判别器网络D接收生成人脸数据的12390维拼接向量的映射输出标量，最后整体取反得到生成器网络G的损失。

8.根据权利要求7所述的基于W距离的稳定可控图像生成模型训练方法，其特征是，所述步骤c中：

判别器网络D的损失函数为：

分类器网络C的损失函数为：

生成器网络G的损失函数为：

重要权重α为：

其中，x为采样数据，y为真实样本类别，视作分布条件，

为编码器网络E的输出E(x)，

为生生成器网络G的输出G(z|y)，

为条件联合分布[E(x),x]|y，

为条件联合分布[G(z|y),z|y]|y，f_w(·)为判别器网络D。

9.根据权利要求1所述的基于W距离的稳定可控图像生成模型训练方法，其特征是，所述步骤d中，整体模型的训练过程中，生成器网络G和编码器网络E同时训练5个epoch后，判别器网络D和分类器网络C同时训练1个epoch，通过RMSProp梯度下降算法，learning_rate＝0.01，decay＝0.9，epsilon＝1e-10，再加上梯度裁剪策略，将更新梯度稳定在[-0.1,0.1]之间，共训练100000个epoch，最后可以达到收敛状态。

10.根据权利要求1所述的基于W距离的稳定可控图像生成模型训练方法，其特征是，所述步骤a中，对图象数据进行预处理，得到训练集和测试集的样本数据；所述步骤e中,模型参数收敛后，采用测试集调试模型精度，然后分别将生成器网络G、编码器网络E、分类器网络C分离出来作为单独的服务类产品使用。