CN110310345A

CN110310345A - 一种基于自动分工隐聚类生成对抗网络的图像生成方法

Info

Publication number: CN110310345A
Application number: CN201910502034.3A
Authority: CN
Inventors: 何良华; 李旭升
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-10-08

Abstract

本发明涉及一种基于自动分工隐聚类生成对抗网络的图像生成方法，包括以下步骤：S1、构建自动分工隐聚类生成对抗网络，所述自动分工隐聚类生成对抗网络包括生成器和判别器；S2、基于训练数据集，训练自动分工隐聚类生成对抗网络；S3、输入随机噪声，由自动分工隐聚类生成对抗网络中的生成器生成图像。与现有技术相比，本发明采用多分支结构来实现可跳变的生成器，能够捕捉不同数据分布的特点，既增加了生成图像的多样性，也减少了存储空间和训练计算量；此外，通过生成器基于概率权重自动学习不同模式，能有效提高无监督数据生成图像的分布质量。

Description

一种基于自动分工隐聚类生成对抗网络的图像生成方法

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种基于自动分工隐聚类生成对抗网络的图像生成方法。

背景技术

随着人们生活的日益数字化，以及大数据相关技术的普及深化，可供用于深度学习的数据量激增，并且由于硬件水平的逐年提升，计算机的图像处理能力相较于上个世纪末已经有了质的飞跃。基于上述两点，神经网络技术的有监督的人工智能模型在图像处理领域取得了超越人类水平的成果，相较于有监督学习领域取得的巨大成果而言，深度学习在无监督学习领域的潜力还有待发掘，有监督学习的训练依赖于大量的人工标注数据，数据获取的成本高，而无监督学习则可以利用大量的无标注数据进行训练，现有的无监督学习通常采用生成对抗网络进行学习数据分布、图像生成、提取特征等任务。

生成对抗网络GAN是由Goodfellow于2014年提出的一类无监督的基于对抗训练的神经网络。生成对抗网络模型最重要的就是生成器和判别器两个组件。其中生成器负责基于输入的随机噪声生成图像，判别器负责判断输入给它的图像是真实图像的概率有多大。就像学画画的学徒和刚入门的鉴赏家一样的关系。学徒努力画出更好的画作，鉴赏家不断提高鉴赏水平。最后使得学徒能够画出和真正名画——真实数据一样的作品。目前，生成对抗网络被广泛应用于图像生成领域。

在实际的训练过程中，原始生成是对抗模型容易出现对抗崩溃的问题，表现为判别器能力强于生成器，生成器被彻底打败而停止学习。同时，还有常常有着“模式丢失”的问题，导致生成图像的结果多样性不高、质量低劣。针对这两个问题，传统解决的思路是采用具有多个子GAN的集成类GAN，即为同一个GAN模型多次随机初始化训练，这样可以得到多个生成器，有助于对复杂数据分布建模，提升生分布的多样性，克服单个GAN模型容易出现的模式丢失问题，集成类GAN虽然能简易地增加生成分布的多样性，但其存储空间、训练计算量都是单个GAN的多倍，较为笨重，此外，多个独立训练的生成器的分布混合结果还具有差样本积累效应：图1所示为集成类GAN的差样本积累效应和模式丢失效果图，图中属于圆角矩形但不属于旗帜形的点，为逐渐积累的差样本；属于旗帜形但不属于圆角矩形的点，为模式丢失的部分。

并且，混合分布中差样本的种类和数量也会随着集成的GAN组件数的增加而变多，导致最终生成的图像相较于真实图像的分布而言，存在明显的差距。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自动分工隐聚类生成对抗网络的图像生成方法，以提高无监督数据图像生成的分布质量。

本发明的目的可以通过以下技术方案来实现：一种基于自动分工隐聚类生成对抗网络的图像生成方法，包括以下步骤：

S1、构建自动分工隐聚类生成对抗网络，所述自动分工隐聚类生成对抗网络包括生成器和判别器；

S2、基于训练数据集，训练自动分工隐聚类生成对抗网络；

S3、输入随机噪声，由训练好的自动分工隐聚类生成对抗网络中的生成器生成图像。

优选的，所述步骤S1中生成器包括模数转换器、噪声变换器、选择器和渲染器，所述噪声变换器的数量为N，其中，N＞1。

优选的，所述步骤S1具体包括以下步骤：

S11、输入多元高斯噪声向量给生成器；

S12、将多元高斯噪声向量划分为第一噪声向量和第二噪声向量；

S13、第一噪声向量输入给噪声变换器，得到随机变量，所述随机变量的数量与噪声变换器的数量一致；

S14、第二噪声向量输入给模数转换器，得到one-hot向量；

S15、随机变量与one-hot向量共同输入给选择器，由选择器从随机变量中选择输出与one-hot向量中元素1位置对应的一个随机变量，作为生成变量；

S16、生成变量输入给渲染器，基于第一损失函数，建立生成器，以生成图像样本；

S17、基于第二损失函数，建立判别器，以对生成图像样本进行判别。

优选的，所述步骤S13中噪声变换器为：

T_j(z)＝σ_j+μ_j

其中，T_j(z)表示第j个噪声变换器，σ_j表示权重，μ_j表示偏差，z表示输入的噪声向量。

优选的，所述步骤S14和S15中one-hot变量为：

其中，c表示one-hot向量，k表示元素1在one-hot向量中的位置，p_i表示第i个生成路径被选择器选中的概率，z″_i表示第i个第二噪声向量，q_i和q_k均表示学习参数，e为自然数。

优选的，所述步骤S16中第一损失函数为生成器的损失函数，具体为：

其中，E_x～p(x)[f(x)]＝∫f(x)p(x)dx表示x服从概率分布p(x)时f(x)的期望，B_j表示一个批量中第j个生成路径被选中的次数，p_z表示生成噪声的高斯分布，z～p_z表示z是服从p_z的噪声，G(x)表示输入x后生成器输出的结果，D(x)表示输入x后判别器输出的结果，T_j(x)表示输入x后噪声生成器输出的结果，q_j和q_h均表示学习参数，e为自然数。

优选的，所述步骤S17中第二损失函数为判别器的损失函数，具体为：

其中，p_R(x)表示真实图像的分布，λ表示可训练参数，表示由真实样本和生成样本线性插值随机合成的数据，x_R表示真实图像数据，x_F表示生成图像数据。

优选的，所述步骤S2具体包括以下步骤：

S21、采用迷你批随机梯度下降算法轮流交替训练生成器和判别器：

S211、训练生成器时，固定判别器参数，采样m个噪声向量输入生成器，得到m个生成样本，将生成样本输入判别器，计算生成器损失函数对生成器参数的梯度，以更新生成器参数；

S212、训练判别器时，固定生成器参数，采样m个噪声向量输入生成器得到m个生成样本，基于训练数据集采样m个真实样本，将生成样本与真实样本一起输入判别器，计算判别器损失函数对判别器参数的梯度，以更新判别器参数；

S22、迭代步骤S21的过程，直到达到预设的迭代次数，结束训练。

优选的，所述步骤S211中计算生成器损失函数对生成器参数的梯度具体为：

其中，θ^G表示生成器参数，α表示学习率，L_G表示生成器损失函数；

所述步骤S212中计算判别器损失函数对判别器参数的梯度具体为：

其中，θ^D表示判别器参数，α表示学习率，L_D表示判别器损失函数。

与现有技术相比，本发明具有以下优点：

一、本发明提出的自动分工隐聚类生成对抗网络，采用生成器多分支结构，即生成器中包含N个噪声变换器的网络结构，减少了存储空间和训练计算量，同时增加了生成图像的多样性。

二、本发明构建的自动分工隐聚类生成对抗网络中，生成器中的模数变换器产生了跳变，使生成器不是处处连续的，有利于生成器学习数据分布中的不连通部分，能更好地捕捉数据分布的不同，使生成的图像更接近于真实图像。

三、本发明通过同时训练生成器和判别器，避免了异步训练多个独立生成器存在的差样本积累效应，支持生成器基于概率权重进行自动学习，实现生成器学习真实分布中不同模式的目的，从而解决模式丢失的问题、提高生成图像的分布质量。

附图说明

图1为集成类GAN的差样本积累效应和模式丢失效果图；

图2为本发明的方法流程图；

图3为本发明自动分工隐聚类生成对抗网络中生成器的结构图；

图4为本发明自动分工隐聚类生成对抗网络的结构示意图；

图5a为实施例的训练集随机真实图像；

图5b为实施例的生成图像。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

如图2所示，一种基于自动分工隐聚类生成对抗网络的图像生成方法，包括以下步骤：

S1、构建自动分工隐聚类生成对抗网络，自动分工隐聚类生成对抗网络由生成器G和判别器D组成，图3所示为生成器G的结构图，生成器G包括模数转换器ADC、N个噪声变换器T₁，T₂，...，T_N、选择器MUX和渲染器R，且N＞1；

S2、基于训练数据集，训练自动分工隐聚类生成对抗网络；

本实施例中，步骤S1的具体过程为：

S11、输入多元高斯噪声向量z给生成器，其中，多元高斯噪声向量z的总维度为M；

S12、将多元高斯噪声向量划分为维度为L的第一噪声向量z′和维度为N的第二噪声向量z″，其中，L＝M-N；

S13、第一噪声向量z′输入给N个噪声变换器T₁，T₂，...，T_N，得到N个不同的随机变量z₁，z₂，...，z_N，其中，噪声变换器为：

T_j(z)＝σ_j+μ_j

式中，T_j(z)表示第j个噪声变换器，σ_j表示权重，μ_j表示偏差，z表示输入的噪声向量；

S14、第二噪声向量z″输入给模数转换器ADC，得到one-hot向量c：

式中，c表示one-hot向量，k表示元素1在one-hot向量中的位置，p_i表示第i个生成路径被选择器选中的概率，z″_i表示第i个第二噪声向量，q_i和q_k均表示学习参数，e为自然数，

p₁，p₂，p₃，...，p_N作为每一个生成路径被选择器选中的概率，应当满足0＜p_i＜1和∑_ip_i＝1这两个条件。如果直接使用p_i进行训练，则有很可能出现不符合条件的情况，故改用N个实数变量q₁，q₂，q₃，...，q_N作为可学习参数，并使用SoftMax将p_i用q_i来表示，通过q_i来保证p_i得到有效的训练，以学习到训练集中各簇样本的比例，

其中，模数转换器的实现方案如下：模数转换器既作为将多元高斯噪声转化为One-hot向量的桥梁，又是自动分工隐聚类生成对抗网络生成函数跳变的来源，模数转换器将输入的高斯噪声转换为向量c的各个状态的概率，应能根据生成器损失函数学习，这样才能促使各生成路径(子生成器)合理的分工，使得每个子生成器被选择器选中的概率与训练集中各簇样本的比例趋于一致；

S15、随机变量z₁，z₂，...，z_N与one-hot向量共同输入给选择器MUX，由选择器MUX从随机变量z₁，z₂，...，z_N中选择输出与one-hot向量中元素1位置对应的一个随机变量z_k，作为生成变量；

S16、z_k输入给渲染器R，基于生成器损失函数，建立生成器，以生成图像样本，其中，生成器损失函数为：

式中，E_x～p(x)[f(x)]＝∫f(x)p(x)dx表示x服从概率分布p(x)时f(x)的期望，B_j表示一个批量中第j个生成路径被选中的次数，p_z表示生成噪声的高斯分布，z～p_z表示z是服从p_z的噪声，G(x)表示输入x后生成器输出的结果，D(x)表示输入x后判别器输出的结果，T_j(x)表示输入x后噪声生成器输出的结果，q_j和q_h均表示学习参数，e为自然数，

在计算生成器损失函数时，将多个生成路径看作一个整体生成器，生成器的参数包括模数转换器的参数q₁，q₂，...，q_N、噪声变换器T_j可训练的参数和渲染器R中可训练的参数，可以使p₁，p₂，...，p_N或q₁，q₂，...，q_N出现在生成器的损失函数中，能够利用梯度下降类算法学习；

S17、基于判别器损失函数，建立判别器，以对生成图像样本进行判别，其中，判别器损失函数为：

式中，p_R(x)表示真实图像的分布，λ表示可训练参数，表示由真实样本和生成样本线性插值随机合成的数据，x_R表示真实图像数据，x_F表示生成图像数据，

采用WGAN-GP相似的判别器训练方式，在原始GAN的判别器训练方式上增加梯度范数的惩罚项，引导判别器的梯度模长向1靠拢。

本实施例中的渲染器R为单个神经网络时，该自动分工隐聚类生成对抗网络可以看作是有各高斯分量混合比例学习功能的DeLi GAN的升级版；

当噪声变换器为神经网络或者恒等映射，则该自动分工隐聚类生成对抗网络就成为了混合多个生成器输出的集成类GAN，是有支持各子生成器混合比例学习的MGAN的升级版。

此外，噪声变换器、选择器、渲染器的输入都是连续函数，而模数变换器产生了跳变，所以宏观上讲，自动分工隐聚类生成对抗网络的生成器不是处处连续的，是有跳变的，这是与其他传统GAN的生成器的一大区别；

虽然连续可微的生成器有利于使用梯度下降训练，但这样使得它们学习到的分布的支撑集是连通的，而实际应用中的数据分布不见得是连通的，就导致它们无法很好的学习这类数据，生成出画猫又似虎的图片，而本发明提出的自动分工隐聚类生成对抗网络能够更好捕捉这种数据分布的不同，生成图像效果更好；

同时，尽管在宏观上看，自动分工隐聚类生成对抗网络存在跳变不可导的情形，但是由于模数转换器之后的部分是连续可导的，而之前的部分不存在可学习的参数，故依然可以使用梯度下降的方法进行反向传播，生成器中多分支结构可以看作是多个生成器的集成模型，其生成样本的多样性也优于单一生成器。

本实施例中，步骤S2的具体过程为：

S211、训练生成器时，固定判别器参数，采样m个噪声向量输入生成器，得到m个生成样本，将生成样本输入判别器，计算生成器损失函数对生成器参数的梯度，以更新生成器参数，其中，生成器损失函数对生成器参数的梯度具体为：

式中，θ^G表示生成器参数，α表示学习率，L_G表示生成器损失函数；

S212、训练判别器时，固定生成器参数，采样m个噪声向量输入生成器得到m个生成样本，基于训练数据集采样m个真实样本，将生成样本与真实样本一起输入判别器，计算判别器损失函数对判别器参数的梯度，以更新判别器参数，其中，判别器器损失函数对判别器参数的梯度具体为：

式中，θ^D表示判别器参数，α表示学习率，L_D表示判别器损失函数；

如图4所示，输入噪声z给生成器G，由生成器G生成样本x_F，生成样本x_F的分布为P_g，生成样本x_F输入给判别器D；

之后，输入真实样本x给判别器D，真实样本x的分布为P_r，由判别器D输出生成样本x_F为真的概率值。

本实施例在训练自动分工隐聚类生成对抗网络时，使用了两种训练数据集：

MNIST数据集：该数据集包含60000张28×28×1的手写数字图像，由于计算FID需要彩色的生成样本，把MNIST的样本图像补2圈0，再复制成3通道构成彩色32×32分辨率的图像；

Ce7Co3数据集：该数据集由人脸数据集CelebA和动漫人脸数据集Comic按照0.7∶0.3的比例不均匀混合而成，即从CelebA和Comic数据集抽取样本的概率分别为0.7和0.3，以构造类别不均衡的图像数据集，其中，CelebA提供了对齐并缩放到218×178像素的202599张名人的人脸照片，对其进一步剪裁和缩放原始图像至64×64的大小，Comic为爬虫爬取的动漫人物头像图片并公开的数据集，尺寸为64×64，共计五万一千余张。

图5a为随机抽取的一批64张训练集真实图像，图5b为本发明自动分工隐聚类对抗生成网络生成器的生成图像，对比图5a和图5b，可知生成图像与训练集真实图像的差异十分小。

此外，实施例还对传统集成类GAN基准模型与本发明自动分工隐聚类生成对抗网络模型的实验效果进行了对比，结果分别如表1和表2所示：

表1

表2

其中，N表示模型中生成器个数，G_params表示生成器的参数量，D_params表示判别器的参数量，WGAN-GP、MGAN、DeLiGAN均为传统集成类GAN基准模型，MGAN+P与DeLiGAN+P均为基于本发明自动分工隐聚类生成对抗网络对集成类GAN框架的改进模型，也就是自动分工隐聚类MGAN和自动分工隐聚类DeLiGAN。

从表1和表2可知，本发明提出的模型在多个数据集上的结果都优于传统集成类GAN基准模型。下面对两组具体实验的效果进行分析：

在MNIST数据集上训练WGAN-GP、DeLiGAN和DeLiGAN+P模型，迭代200000次后生成分布的FID值如表1所示，可见WGAN-GP的FID均值为5.36，是所有实验组中最高的，DeLiGAN系列实验(实验组2～5)的FID均值都低于模型WGAN-GP，对于具有相同数量生成路径的DeLiGAN和DeLiGAN+P模型，后者取得了更低的FID值，表明DeLiGAN+P模型的生成分布质量比DeLiGAN更佳，意味着可学习的概率权重比固定的概率权重更有利于忠实地生成数据分布；

在Ce7Co3数据集上训练WGAN-GP、MGAN和MGAN+P模型，迭代200000次后生成分布的FID值如表2所示，表中生成器参数量是指模型包含的所有生成器网络参数的总和，在实验组2、3中，每个生成器网络的规模约为实验组1中WGAN-GP基线生成器网络的一半，在实验组5、6中，每个生成器网络的规模和实验组1中WGAN-GP生成器网络相同，而实验组4中WGAN-GP的生成器网络则通过等比例增大每一个卷积层滤波器的数目，以扩大网络规模为实验组1的两倍左右，这样，实验组1～3和实验组4～6的模型参数量大致相同，可以相对公平地比较WGAN-GP、MGAN和MGAN+P模型在Ce7Co3数据集上的生成质量；

比较表2中实验组(1，4)、(2，5)、(3，6)可以看出，对于同一类模型，生成器规模越大，FID值就越小，意味着增加模型尺寸可以增大其建模能力，提升生成分布的质量，比较表2中实验组(1，2，3)和实验组(4，5，6)的FID值可知，在相同网络规模的GAN中，生成分布质量均有MGAN+P优于MGAN优于WGAN-GP的次序关系，表明集成模型在相同参数数量的情况下，生成效果好于单个模型，且支持概率权重学习的MGAN+P模型比概率权重固定的MGAN模型的生成效果更好，能更好地适应类别不平衡数据集。

本发明提出的自动分工隐聚类生成对抗网络框架同时训练多个子生成器和一个判别器网络，避免了标准集成GAN、级联集成GAN和AdaGAN异步训练多各GAN存在的差样本积累效应，可将MAD-GAN、MGAN和DeLiGAN囊括其中，支持各子生成器概率权重的学习；且无需MAD-GAN中的样本相似度计算或MGAN中的分类器目标项，便能让不同生成器负责学习真实分布中不同的模式，因为没有对训练集显式地划分，因此称为自动分工隐聚类。

本发明提出的自动分工隐聚类生成对抗网络可以无监督地让集成GAN模型中不同的生成器学习训练集中的不同模式，并自动学习出与训练集中各类别样本数量比例一致的生成器概率权重，适用于不均衡数据集。定量结果显示，自动分工隐聚类DeLiGAN和自动分工隐聚类MGAN的生成分布质量均高于它们原本的均匀分配概率权重的版本。

综上所述，基于本发明的方法进行图像生成，可以自动学习各子生成器的概率权重，适用于类别不均衡数据集的建模，克服了现有的集成类GAN的缺陷，提高无监督数据生成的分布质量，各子生成器会自发地分工学习训练集中不同模式的样本，体现了“隐聚类”的特点。

Claims

1.一种基于自动分工隐聚类生成对抗网络的图像生成方法，其特征在于，包括以下步骤：

S2、基于训练数据集，训练自动分工隐聚类生成对抗网络；

2.根据权利要求1所述的一种基于自动分工隐聚类生成对抗网络的图像生成方法，其特征在于，所述步骤S1中生成器包括模数转换器、噪声变换器、选择器和渲染器，所述噪声变换器的数量为N，其中，N＞1。

3.根据权利要求2所述的一种基于自动分工隐聚类生成对抗网络的图像生成方法，其特征在于，所述步骤S1具体包括以下步骤：

S11、输入多元高斯噪声向量给生成器；

S14、第二噪声向量输入给模数转换器，得到one-hot向量；

S16、生成变量输入给渲染器，基于第一损失函数，建立生成器；

S17、基于第二损失函数，建立判别器。

4.根据权利要求3所述的一种基于自动分工隐聚类生成对抗网络的图像生成方法，其特征在于，所述步骤S13中噪声变换器为：

T_j(z)＝σ_j+μ_j

5.根据权利要求3所述的一种基于自动分工隐聚类生成对抗网络的图像生成方法，其特征在于，所述步骤S14和S15中one-hot变量为：

6.根据权利要求3所述的一种基于自动分工隐聚类生成对抗网络的图像生成方法，其特征在于，所述步骤S16中第一损失函数为生成器损失函数，具体为：

7.根据权利要求6所述的一种基于自动分工隐聚类生成对抗网络的图像生成方法，其特征在于，所述步骤S17中第二损失函数为判别器损失函数，具体为：

8.根据权利要求7所述的一种基于自动分工隐聚类生成对抗网络的图像生成方法，其特征在于，所述步骤S2具体包括以下步骤：

9.根据权利要求8所述的一种基于自动分工隐聚类生成对抗网络的图像生成方法，其特征在于，所述步骤S211中计算生成器损失函数对生成器参数的梯度具体为：