CN117933320A

CN117933320A - 一种带辅助分类器的置信度引导条件生成对抗网络的训练方法

Info

Publication number: CN117933320A
Application number: CN202410344864.9A
Authority: CN
Inventors: 丁虎; 陈琦
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-03-25
Filing date: 2024-03-25
Publication date: 2024-04-26
Anticipated expiration: 2044-03-25
Also published as: CN117933320B

Abstract

本发明公开了一种带辅助分类器的置信度引导条件生成对抗网络的训练方法，首先为条件生成对抗网络cGANs设计新的损失函数，并引入一个超参数解决训练收敛问题；当带辅助分类器的置信度引导条件生成对抗网络，即CG‑GAN的分类器对于生成数据的置信度超过所引入的超参数时，所述损失函数将会抑制分类器对生成数据的置信度；自定义一个先验标签分布，通过在CG‑GAN上增加一项反向或正向的KL散度作为正则化项来使优化生成数据输出的分布学习所述先验标签分布，提高CG‑GAN的分类能力。该方法通过设计新的分类损失函数，避免特征表示大的特征范数，解决早期训练崩溃和过度自信问题。

Description

一种带辅助分类器的置信度引导条件生成对抗网络的训练方法

技术领域

本发明涉及图像生成技术领域，尤其涉及一种带辅助分类器的置信度引导条件生成对抗网络的训练方法。

背景技术

目前，生成对抗网络（Generative Adversarial Network, GAN）是一种流行的高保真图像生成模型，近年来得到了广泛的研究。尽管其它生成模型，如扩散模型，最近也因其在生成高质量图像方面的有效性而引起了很多关注，但生成对抗网络GAN在实际应用中仍然具有几个显著的优势，例如其较低的训练和推理计算复杂度。GAN的核心思想是利用对抗博弈的方法同时训练生成器和判别器：生成器利用随机噪声产生假数据以欺骗判别器；同时，判别器试图区分真实和虚假的数据。原始生成对抗网络的目标损失函数为：

一般来说，生成对抗网络可以分为非条件生成对抗网络和条件生成对抗网络（conditional Generative Adversarial Network，cGANs）。非条件生成对抗网络接受无监督（无标签）的真实数据以及低维隐变量（通常为高斯或均匀分布随机向量）作为输入，生成与训练集中真实数据分布一致的图像；而条件生成对抗网络通过引入有监督学习，可以将类别标签或者图像的某种性质作为条件输入，生成指定类别或性质的图像；同时相比于非条件生成对抗网络往往具有更好的生成质量。尽管基于对抗学习的生成对抗网络在图像生成领域获得了巨大的成功，其本身还存在一些有待解决的问题：例如训练稳定性问题，模式坍塌等。AC-GAN（Auxiliary classifier Generative Adversarial Network，带辅助分类器的条件生成对抗网络）作为一个具有代表性的带分类器的生成对抗网络，使用一个辅助分类器来学习条件标签分布，以指导生成器生成特定类的图像。虽然AC-GAN可以实现较好的生成质量，但最近的研究表明，在实践中使用AC-GAN经常会遇到两个问题：(1) 生成器的性能在早期训练阶段突然下降，即早期训练崩溃；(2) 生成器往往生成低多样性的数据。

发明内容

本发明的目的是提供一种带辅助分类器的置信度引导条件生成对抗网络的训练方法，该方法通过设计新的分类损失函数，避免特征表示大的特征范数，解决早期训练崩溃和过度自信问题。

本发明的目的是通过以下技术方案实现的：

一种带辅助分类器的置信度引导条件生成对抗网络的训练方法，所述方法包括：

步骤1、为条件生成对抗网络cGANs设计新的损失函数，并引入一个超参数解决训练收敛问题；

步骤2、当带辅助分类器的置信度引导条件生成对抗网络，即CG-GAN的分类器对于生成数据的置信度超过所引入的超参数时，所述损失函数将会抑制分类器对生成数据的置信度，通过抑制分类器对生成数据的置信度来隐式影响对真实数据的置信度；

步骤3、自定义一个先验标签分布，所述先验标签分布基于之前所引入的超参数，通过在CG-GAN上增加一项反向或正向的KL散度作为正则化项来使优化生成数据输出的分布学习所述先验标签分布，提高CG-GAN的分类能力。

由上述本发明提供的技术方案可以看出，上述方法通过设计新的分类损失函数，避免特征表示大的特征范数，解决早期训练崩溃和过度自信问题，在提高条件生成对抗网络训练稳定性的同时，进一步提高了条件生成性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的带辅助分类器的置信度引导条件生成对抗网络的训练方法流程示意图；

图2为本发明所举实例在CIFAR100数据集上的FID值曲线示意图；

图3为本发明所举实例在Tiny-ImageNet数据集上的FID值曲线示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示为本发明实施例提供的带辅助分类器的置信度引导条件生成对抗网络的训练方法流程示意图，所述方法包括：

在该步骤中，经典的AC-GAN（Auxiliary classifier Generative AdversarialNetwork，带辅助分类器的条件生成对抗网络）在训练判别器时简单地持续最小化真实数据的交叉熵损失函数，这会导致训练容易出现生成性能崩溃现象。本申请为了缓解带辅助分类器的条件生成对抗网络的训练崩溃问题，提出在优化判别器阶段，对于真实数据最大化其交叉熵损失函数，而对于生成阶段最小化其交叉熵损失函数，表示为：

（1）

其中，代表真实数据的分布；/>代表生成数据的分布；/>表示求/>服从分布/>的期望；/>表示/>服从分布/>的期望；/>，代表给定样本/>，其真实标签/>的条件概率分布；/>为数据的种类数；/>代表神经网络将数据映射为一个/>维的向量；/>则代表该/>维向量在真实标签/>所对应编码位置的标量值；

在实践中，直接优化该损失函数公式（1）可能会导致一个技术问题：最大化生成数据的交叉熵损失在训练过程中可能会过大从而导致整个对抗训练过程难以收敛。为了避免这个问题，本申请针对生成数据的交叉熵损失引入一个上界去约束该损失函数不会被优化的过大，即当生成数据的交叉熵损失增大到m值，则停止优化该损失函数，具体来说：

在优化判别器时，本申请提出的带辅助分类器的置信度引导条件生成对抗网络（Confidence Guided Generative Adversarial Networks，CG-GAN）分类器的损失函数定义如下：

（2）

其中符号表示当/>大于0的时候，/>；否则/>；

优化生成器时，损失函数与经典AC-GAN的损失函数一致，表示为：

（3）

在理论上可以证明，当且仅当时，CG-GAN 分类器的损失才能达到全局最优，这对于保证所提出的训练方法能够有效地鼓励生成器学习到真实的数据分布（即生成能力）至关重要；

此外，该训练方法保证了CG-GAN 分类器的损失达到全局最优时得到的最优交叉熵损失函数会小于或等于m，而相应的最优置信函数应至少为/>，/>是-m的指数函数；这说明通过设置合理的超参数/>能够保证分类器良好的分类能力所需要的性质，具体实现中，/>能够代表分类器的期望的置信度，为了使分类器具有分类能力需要将/>，K为训练数据的种类数；同时为了避免分类器过于自信而引起训练不稳定的问题，/>一般不能设置过大，即设置为稍大于/>的值。

该操作将会使CG-GAN分类器中的梯度范数小于AC-GAN中的梯度范数，从而缓解梯度爆炸问题，提高训练稳定性。

在该步骤中，对于损失函数，采用蒙特卡洛采样将其写成经验loss形式，对于一个真实数据集内第/>个样本/>，同样有第/>个生成样本/>，首先依据损失函数/>定义：

（4）

为第i个样本对应的损失函数（关于神经网络最后一层的全连接分类层对应的权重向量的函数）；

其中对于真实数据的置信函数写成：

（5）

对于生成数据的置信函数定义类似；式中的表示神经网络输出的特征向量；为神经网络最后一层的全连接分类层真实标签对应的权重向量；

针对，对于每个/>，/>的梯度为：

（6）

其中：

（7）

（8）

注意到现有技术中经典的AC-GAN中交叉熵损失的梯度范数总是等于，并且AC-GAN持续增大分类器输出的特征向量的范数为/>，这将使得出现梯度爆炸问题从而导致训练崩溃。而本申请提出的CG-GAN分类器对于生成数据的置信度超过所引入的超参数/>时，/>的梯度等于/>，且此时的损失函数/>将会抑制分类器对生成数据的置信度，从而抑制特征向量的范数/>，这将会使CG-GAN分类器中的梯度范数小于AC-GAN中的梯度范数，从而缓解梯度爆炸问题，提高训练稳定性。

步骤3、自定义一个先验标签分布，所述先验标签分布基于之前所引进的超参数，通过在CG-GAN上增加一项反向或正向的KL散度（Kullback–Leibler divergence）作为正则化项来使优化生成数据输出的分布学习所述先验标签分布，提高CG-GAN的分类能力，从而提高生成性能。

在具体实现中，在抑制分类器对生成数据的置信度时，需要提高分类器对生成数据的分类性能，因为抑制分类器对生成数据的置信度有可能损害分类器对生成数据的分类性能，具体来说：

一个良好的分类器需要满足如下两个条件：

（1）；

（2）对于任意的；

其中即为神经网络输出的置信度；

为了促使分类器不管对于真实数据还是生成数据均能满足这两个条件，首先定义一个先验标签分布，表示为：

（9）

只需设置，即有成立/>；

通过在CG-GAN上增加一项反向或正向的KL散度作为正则化项来使优化生成数据输出的分布学习所述先验标签分布，从而促使分类器满足提出的两个条件；对于任意两个不同概率分布和/>，KL散度定义为：

具体实现中，若要得到rCG-GAN，即反向KL散度约束的带辅助分类器的置信度引导条件生成对抗网络，则添加反向KL散度（reverse KL divergence）的CG-GAN目标损失函数，表示为：

其中D代表判别器；G代表生成器；/>和/>分别代表非条件生成对抗网络的判别器损失函数以及生成器损失函数；/>和/>为自定义的超参数，实验中一般设置为1；/>为神经网络输出的概率分布；

进一步地，若将公式中相应的KL项换成正向KL散度（forward KL divergence），则得到另外一个fCG-GAN，即正向KL散度约束的带辅助分类器的置信度引导条件生成对抗网络。

在具体实现中，通过控制引入的超参数desired confidence（conf）的值，即可以有效地控制生成保真度（Improved Precision及IS）与多样性（ImprovedRecall）之间的权衡；其中，更大的/>值可以得到更好保真度的生成图像；而更小的值可以得到多样性更好的生成图像；这样就可以针对不同的任务需要去设置更加合适的超参数，比如有些生成任务可能更加关注生成图像的逼真（即保真度），而有的下游分类任务可能更加需要高多样性的生成图像作为图像增强。

值得注意的是，本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实例对本发明实施例所述方法的效果进行对比说明：

1、训练稳定性对比：

如图2所示为本发明所举实例在CIFAR100数据集上的FID值曲线示意图，在CIFAR100数据集上的FID（最为广泛采用的生成质量衡量指标，越低越好）曲线表明，本申请提出的rCG-GAN和fCG-GAN能够成功地避免训练崩溃问题。可以看到本申请提出的基础模型CG-GAN能够取得比现有技术中AC-GAN，AMGAN更好的训练稳定性，而本申请提出的添加反向或正向KL散度优化项与CG-GAN结合（即rCG-GAN和fCG-GAN）能够成功避免训练崩溃问题，作为对比的现有方法有AC-GAN，AMGAN，CG-GAN（即本发明提出的不添加KL散度优化项的方法）以及简单地将KL优化项和AC-GAN结合起来的方法，都出现了早期训练崩溃的问题。

如图3所示为本发明所举实例在Tiny-ImageNet数据集上的FID值曲线示意图，在Tiny-ImageNet数据集上现有技术的AC-GAN，AMGAN以及MHGAN的性能随着训练而变差，最近提出的ReACGAN以及ADC-GAN的性能均远弱于本申请的rCG-GAN网络性能。

2、生成质量对比：

本实例用来对比的方法包括AC-GAN、PD-GAN、ReACGAN以及ADC-GAN。生成质量指标包括有：“Inception Score(IS)” 、“Density”、 “improved Precision”，他们通常可以衡量生成图像的保真度，以及衡量生成图像多样性的指标“Fr´echet Inception Distance(FID)” 、 “Coverage”、 “improved Recall” 。

表1 消融实验

表1中最好的结果在表中被加粗，“↑”表示越高越好, “↓” 表示越低越好。

由表1可知：将KL优化项与CG-GAN结合得到的rCG-GAN和fCG-GAN（即本申请的方案）的性能均优于不带KL项的CG-GAN，说明加入KL项的必要性。

下表2是在CIFAR10, CIFAR100, Tiny-ImageNet, Baby/Papa/Grandpa-ImageNet数据集上的生成质量对比：

表2

由上表2可知：在所有的数据集中，6个指标中的5个，本申请所述方法得到的rCG-GAN（反向KL散度约束的带辅助分类器的置信度引导条件生成对抗网络）都达到了最好，说明本申请方法能够得到更好的保真度同时得到更好的多样性。

3、在大规模数据集ImageNet上的生成性能对比：

下表3是在ImageNet数据集上的生成质量对比示意，表3中Top-1 Acc.和Top-5Acc.分别代表使用预训练的分类器对所生成数据的Top-1 准确率以及Top-5准确率，可以用来衡量条件生成对抗网络的条件生成能力。

表3

由上表3可知：本申请所述方法不仅得到了跟所比较现有方法几乎两倍的IS值以及几乎只有一半的FID值，并且在所有方法中均实现了最好的条件生成性能。

4、在不同分类难度的数据集上的条件生成能力对比：

下表4是在Baby/Papa/Grandpa-ImageNet数据集上的条件生成能力对比示意，Baby-ImageNet代表ImageNet中最容易分类的类别，而Grandpa-ImageNet代表其中最难分类的类别。

表4

由上表4可知：本申请所述方法在不同分类难度的数据集上表现出一致的优越的条件生成性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims

1.一种带辅助分类器的置信度引导条件生成对抗网络的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述带辅助分类器的置信度引导条件生成对抗网络的训练方法，其特征在于，在步骤1中，

为了缓解带辅助分类器的条件生成对抗网络的训练崩溃问题，提出在优化判别器阶段，对于真实数据最大化其交叉熵损失函数，而对于生成阶段最小化其交叉熵损失函数，表示为：

（1）

进一步的，针对生成数据的交叉熵损失引入一个上界去约束该损失函数不会被优化的过大，即当生成数据的交叉熵损失增大到m值，则停止优化该损失函数，具体来说：

在优化判别器时，提出的带辅助分类器的置信度引导条件生成对抗网络CG-GAN分类器的损失函数定义如下：

（2）

其中符号表示当/>大于0的时候，/>；否则/>；

（3）

当且仅当时，CG-GAN 分类器的损失才能达到全局最优；该训练方法保证了CG-GAN 分类器的损失达到全局最优时得到的最优交叉熵损失函数会小于或等于m，而相应的最优置信函数/>应至少为/>，/>是-m的指数函数；

其中，能够代表分类器的期望的置信度，为了使分类器具有分类能力需要将，K为训练数据的种类数。

3.根据权利要求1所述带辅助分类器的置信度引导条件生成对抗网络的训练方法，其特征在于，在步骤2中，对于损失函数，采用蒙特卡洛采样将其写成经验loss形式，对于一个真实数据集内第/>个样本/>，同样有第/>个生成样本/>，首先依据损失函数/>定义：

（4）

为第i个样本对应的损失函数；

其中对于真实数据的置信函数写成：

（5）

对于生成数据的置信函数定义类似；式中的表示神经网络输出的特征向量；/>为神经网络最后一层的全连接分类层真实标签对应的权重向量；

针对，对于每个/>，/>的梯度为：

（6）

其中：

（7）

（8）

当CG-GAN分类器对于生成数据的置信度超过所引入的超参数时，/>的梯度等于/>，且此时的损失函数/>将会抑制分类器对生成数据的置信度，从而抑制特征向量的范数/>，这将会使CG-GAN分类器中的梯度范数小于经典AC-GAN中的梯度范数，从而缓解梯度爆炸问题，提高训练稳定性。

4.根据权利要求1所述带辅助分类器的置信度引导条件生成对抗网络的训练方法，其特征在于，在步骤3中，在抑制分类器对生成数据的置信度时，需要提高分类器对生成数据的分类性能，具体来说：

一个良好的分类器需要满足如下两个条件：

（1）；

（2）对于任意的；

其中即为神经网络输出的置信度；

（9）

只需设置，即有成立/>；

具体实现中，若要得到rCG-GAN，即反向KL散度约束的带辅助分类器的置信度引导条件生成对抗网络，则添加反向KL散度的CG-GAN目标损失函数，表示为：

其中D代表判别器；G代表生成器；/>和/>分别代表非条件生成对抗网络的判别器损失函数以及生成器损失函数；/>和/>为自定义的超参数；/>为神经网络输出的概率分布；

进一步地，若将公式中相应的KL项换成正向KL散度，则得到另外一个fCG-GAN，即正向KL散度约束的带辅助分类器的置信度引导条件生成对抗网络。