CN108765512B

CN108765512B - 一种基于多层级特征的对抗图像生成方法

Info

Publication number: CN108765512B
Application number: CN201810541722.6A
Authority: CN
Inventors: 袁春; 贲有成
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2022-04-12
Anticipated expiration: 2038-05-30
Also published as: CN108765512A

Abstract

本发明公开了一种基于多层级特征的对抗图像生成方法，包括以下步骤：S1：在层级框架的不同生成器之间引入稠密连接以构建密集堆叠的生成式对抗网络DSGAN模型；S2：对DSGAN模型进行训练；S3：将图像的标签信息输入到DSGAN模型，采样得到最终图像。本发明提出的基于多层级特征的对抗图像生成方法，得到的图像更加真实。

Description

一种基于多层级特征的对抗图像生成方法

技术领域

本发明涉及生成式对抗网络对自然图像数据集建模的技术，尤其涉及一种基于多层级特征的对抗图像生成方法。

背景技术

理解自然图像的分布一直是一个热门的研究课题。在各类机器学习方法中，深度生成模型显得尤为重要，因为在理论上它们能够以相对较少的模型参数来生成各种逼真的图像，这意味着它们有能力抓住自然图像的本质。生成式对抗网络(GAN)作为一类生成模型已经引起了广泛的关注，它们有能力捕获自然图像的内在结构，并被广泛应用于各种图像生成任务，如图像修补、超分辨率、图像到图像的转换和未来的帧预测。

作为生成模型中很有前景的一个分支，GAN将训练过程视为生成器G和判别器D这两位竞争者之间的零和博弈。具体而言，G旨在生成逼真的图像，而D则尝试区分真实图像与G生成的假图像。训练GAN等价于优化如下目标：

其中

表示求期望值，h表示真实图像，其服从分布p_Data(h)，z表示噪声，服从分布p_Noise(z)，噪声z是生成器G的输入。

训练GAN是为了取得G和D之间的纳什平衡。由于高维图像空间包含的变化太多，G总是可以产生既能混淆D同时又不接近真实分布的样本。因此，模型的训练常常会遇到不稳定和模式崩塌的问题。解决复杂问题的一个实用规则是将其分解成更容易解决的子问题，这在图像生成任务上也很实用。尽管完整的生成过程是困难的，可以将其划分为多个易处理的子步骤。事实上，最近的一些生成模型(S²-GAN，SGAN)已经基于这一想法并利用一堆GAN来生成不同层级的特征表达，其中每个GAN基于较高层级的特征表达来生成较低层级的特征表示。对于这些层级模型的一个自然的疑问是，随着堆叠GAN数量的增加，模型是否能够得到很好的训练。当下评估真实的与生成的中间层特征表达之间的差异性方法存在一定的局限性，对于GAN模型来说，特征表达的层级越低，越难对其实际分布进行建模，因为低层的特征表达位于更高维度的表达空间流形上。因此在自上而下的生成序列中，真实的与生成的特征表达之间的偏差越来越大，从而导致通过现有的一些生成模型(例如S²-GAN，SGAN)最终得到的图像不够真实。

以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

为解决上述技术问题，本发明提出一种基于多层级特征的对抗图像生成方法，得到的图像更加真实。

为了实现上述目的，本发明采用以下技术方案：

本发明公开了一种基于多层级特征的对抗图像生成方法，包括以下步骤：

S1：在层级框架的不同生成器之间引入稠密连接以构建密集堆叠的生成式对抗网络DSGAN模型；

S2：对DSGAN模型进行训练；

S3：将图像的标签信息输入到DSGAN模型，采样得到最终图像。

优选地，步骤S2具体为采用对抗性损失、熵损失和条件特征损失三种损失函数来对DSGAN模型进行训练。

优选地，对抗性损失函数为：

其中，

表示训练DSGAN模型中的判别器D_i的对抗性损失函数，

表示训练DSGAN模型中的生成器G_i的对抗性损失函数，

表示求期望值，下标h_i表示真实特征表达或图像，其服从分布P_data,E，下标包含E表示该信息通过编码器E获取；z_i表示噪声，其服从分布

生成器G_i以更高一级的特征表达h_i+1和噪声z_i作为输入。

优选地，熵损失函数为：

其中，

表示训练DSGAN模型中的生成器G_i的熵损失函数，

表示求期望值，z_i表示噪声，其服从分布

表示当前生成器G_i的输出结果，其服从分布

Q_i表示基于生成输出结果

重建噪声z_i的后验概率分布。

优选地，条件特征损失函数为：

其中，

表示训练DSGAN模型中的生成器G_i的条件特征损失函数，

表示求期望值，λ_j表示各层特征的权重系数，下标h_i+j表示真实特征表达或图像，其服从分布P_data,E；z_i表示噪声，其服从分布

生成器G_i以多层级的特征表达h_c和噪声z_i作为输入；f表示距离度量，E_i→i+j表示重建第i+j层特征表达，h_c为k层特征h_i+1,h_i+2,…,h_i+k融合后的多层级特征。

优选地，步骤S2具体包括：先对DSGAN模型中的各个生成器以G₀至G_n-1的顺序依次单独进行训练，再对G₀～G_n-1进行联合训练，其中n为DSGAN模型的层数。

优选地，步骤S2中对DSGAN模型中的各个生成器以G₀至G_n-1的顺序依次单独进行训练之前还通过预训练的编码器E中提取各层特征h₁～h_n-1。

优选地，其中G₀是以h₁+…+h_n-2+h_n-1特征为条件生成最终图像x，G₁是以h₂+…+h_n-2+h_n-1特征为条件生成h₁特征，以此类推，G_n-2是以h_n-1特征为条件生成h_n-2特征，G_n-1是以标签信息y为条件生成h_n-1特征；将G₀～G_n-1进行联合为一个整体记为生成器G，G是以标签信息y为条件生成最终图像x。

优选地，在对DSGAN模型中的各个生成器从G₀至G_n-1依次单独进行训练时，不同层级的特征h₁、…、h_n-2、h_n-1分别对应于不同大小的特征图，使用转置卷积将待融合的所有特征图缩放到相同的尺寸然后堆叠起来，或者将待融合的所有特征图向量化以连接成一个整体然后变形成期望尺寸大小的稠密特征。

优选地，步骤S3具体包括：将标签信息y输入到G_n-1生成h_n-1特征，将h_n-1特征输入到G_n-2生成h_n-2特征，将h_n-2+h_n-1特征输入到G_n-3生成h_n-3特征，以此类推，直至将h₁+…+h_n-2+h_n-1特征输入G₀到生成最终图像x。

与现有技术相比，本发明的有益效果在于：本发明公开的基于多层级特征的对抗图像生成方法，在生成式对抗网络模型中引入了稠密连接，使得每个GAN与其他所有的GAN连接在一起，从而最大化不同GAN之间的信息沟通，进一步约束GAN生成更接近真实分布的特征表达或最终图像，真实的与生成的特征表达之间的偏差得到减小，使得得到的图像更加真实。

进一步地，在对DSGAN模型进行训练，每个GAN以多个更高级的特征为条件去生成较低层级的特征表达，其中由于每个GAN能够直接获取前面所有GAN生成的特征表达，在一定程度上避免了重新生成冗余的表达细节。更进一步，在对DSGAN模型进行训练时，引入了加权条件特征损失，线性组合了各个层级上真实的与生成的特征表达之间的差异性，明确地为每个生成器提供多层级的监督信息，从而约束生成结果尽可能地驻留在自然特征空间的流形上，进一步缩小得到的图像与原始图像的差别。

附图说明

图1是采用本发明优选实施例的4层的DSGAN模型生成图像的示意图；

图2是本发明优选实施例的特征融合的示意图；

图3是对比3层的DSGAN模型与SGAN模型生成的中间层表达的偏差示意图；

图4a是本发明优选实施例的3层的DSGAN模型在CIFAR-10数据集上基于标签信息y生成图片的效果；

图4b是现有的3层的SGAN模型在CIFAR-10数据集上基于标签信息y生成图片的效果；

图5a是本发明优选实施例的3层的DSGAN模型在MNIST数据集上基于多层级特征h₂+h₃的生成结果；

图5b是现有的3层的SGAN模型在MNIST数据集上基于单层特征h₃的生成结果；

图5c是MNIST数据集上的真实图像；

图5d是本发明优选实施例的3层的DSGAN模型在MNIST数据集上基于不同的标签采样的结果；

图6a是本发明优选实施例的3层的DSGAN模型在SVHN数据集上基于多层级特征h₂+h₃的生成结果；

图6b是现有的3层的SGAN模型在SVHN数据集上基于单层特征h₃的生成结果；

图6c是SVHN数据集上的真实图像；

图6d是本发明优选实施例的3层的DSGAN模型在SVHN数据集上基于不同的标签采样的结果。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。

本发明优选实施例公开了一种基于多层级特征的对抗图像生成方法，包括以下步骤：

S1：构建模型：在模型框架上基于当前的层级框架在不同生成器之间引入稠密连接以构建密集堆叠的生成式对抗网络，也即DSGAN模型；

如图1所示，也即在自顶向下的图像生成过程中引入了稠密连接，通过稠密连接将每个GAN与其他所有的GAN连接在一起，从而可以最大化不同GAN之间的信息流通；对于每个生成器G_i，它的输入是前面所有生成器(G_i+1～G_n-1)的输出，它的输出将会作为后面所有生成器(G₀～G_i-1)的输入，n为DSGAN模型的层数。

S2：对DSGAN模型进行训练；

在训练目标时，综合对抗性损失、熵损失和条件特征损失三种损失函数来训练DSGAN模型，其中对抗性损失采用下述公式(2)和(3)：

其中，

表示训练DSGAN模型中的判别器D_i的对抗性损失函数，

表示训练DSGAN模型中的生成器G_i的对抗性损失函数，

表示求期望值，下标h_i表示真实特征表达或图像，其服从分布P_data,E，下标包含E表示该信息通过编码器E获取；z_i表示噪声，其服从分布P_zi，h_c为k层特征h_i+1,h_i+2,…,h_i+k融合后的多层级特征，h_c＝{h_i+1,h_i+2,…,h_i+k}，生成器G_i以更高一级的特征表达h_i+1和噪声z_i作为输入。

熵损失采用公式(4)：

其中，

表示训练DSGAN模型中的生成器G_i的熵损失函数，

表示当前生成器G_i的输出结果，其服从分布

Q_i表示基于生成输出结果

重建噪声z_i的后验概率分布。

条件特征损失采用公式(5)和(6)：

h_c＝{h_i+1,h_i+2,…,h_i+k} (6)

其中，

表示训练DSGAN模型中的生成器G_i的条件特征损失函数，

生成器G_i以多层级的特征表达h_c和噪声z_i作为输入；f表示距离度量，E_i→i+j表示重建第i+j层特征表达。

其中，在条件特征损失中，假设生成器G_i以k层特征表达h_i+1,h_i+2,…,h_i+k作为条件输入，将生成的特征表达

作为编码器E的输入，可以重新提取到对应的k层重建特征表达；其中h_c表示k层特征表达融合后的多层级特征(公式(6))，并且在这一过程中，k层原始特征与重建特征之间的差异性损失即为要衡量的条件特征损失。由于涉及k个层级，加权后即为公式(5)。在优选实施例中，k＝n-1-i，n为DSGAN模型的层数。

通过对抗性损失使得模型可以生成更加锐利真实的图像，熵损失可以解决条件模式崩溃问题。

条件特征损失，可以看成是一种显式地对于生成表达可辨识性的惩罚项。GAN的训练过程可以看成是一种特殊的从编码器E到生成器G的知识迁移过程，基于这一认知可以定量地评估生成的特征表达的可辨识性。通过将生成的特征表达重新输入到编码器E中作分类任务以获取预测标签，可以将其与真实标签之间的交叉熵损失作为特征表达可辨识性的一种评价指标。

通过采用

训练DSGAN模型中的判别器D_i，采用

训练DSGAN模型中的生成器G_i，其中

和

三者可以加权和后来训练DSGAN模型中的生成器G_i。

其中对DSGAN模型进行训练具体包括：通过预训练从编码器E中提取各层特征h₁～h_n，具体地，编码器E可以是一个普通的特征提取网络，结构上包含2个卷积+池化层、1个全连接层和1个分类层；再对DSGAN模型中的各个生成器以G₀至G_n-1的顺序自底向上依次单独进行训练：G₀是以h₁+…+h_n-2+h_n-1特征为条件生成最终图像x，G₁是以h₂+…+h_n-2+h_n-1特征为条件生成h₁特征，以此类推，G_n-2是以h_n-1特征为条件生成h_n-2特征，G_n-1是以标签信息y为条件生成h_n-1特征；然后将G₀～G_n-1进行联合训练，也即将G₀～G_n-1进行联合为一个整体记为生成器G，G是以标签信息y为条件生成最终图像x，n为DSGAN模型的层数，n一般为3、4、5。

以DSGAN-4模型(4层)的训练过程为例：首先从G₀至G₃的顺序自底向上依次单独训练：G₀是以h₁+h₂+h₃特征为条件生成最终图像x，G₁是以h₂+h₃特征为条件生成h₁特征，以此类推，G₂是以h₃特征为条件生成h₂特征，G₃是以标签信息y为条件生成h₃特征；然后联合训练，进一步调参：联合G₀、G₁、G₂、G₃为一个整体，记为生成器G，G是以标签信息y为条件生成最终图像x。也即在该DSGAN-4模型中，生成器G₁和G₀引入了稠密连接。

其中，在上述训练过程中，不同层级的特征表达对应于不同大小的特征图，为了获得不同层级特征相融后的稠密特征表达，先将所有层级的特征图缩放到统一尺寸大小，然后将它们级联并融合为一个整体。如图2所示，可以采用以下两种比较直观的方法中的任意一种来获取多层级特征：其中一种方式是全卷积300，使用转置卷积将所有特征图缩放到相同的尺寸，然后将它们堆叠在一起，例如在具体实施例中，将层级2的特征图进行反卷积，层级3的特征图进行变形和反卷积，使得层级2和层级3的特征图均与层级1的特征图的尺寸相同，再进行堆叠联结在一起；或者采用另一种方式是全连接400，将所有特征图向量化以便连接成一个整体，然后将其变形成期望尺寸大小的稠密特征；例如在具体实施例中，将层级1和层级2的特征图分别进行向量化，再将层级1和层级2的特征图与层级3的特征图连接成一个整体，再进行变形。

S3：将图像的标签信息输入到DSGAN模型，采样得到最终图像。

具体为以自顶向下顺序采样：将标签信息y输入到G_n-1生成h_n-1特征，将h_n-1特征输入到G_n-2生成h_n-2特征，将h_n-2+h_n-1特征输入到G_n-3生成h_n-3特征，以此类推，直至将h₁+…+h_n-2+h_n-1特征输入G₀到生成最终图像x。

结合图1，以DSGAN-4模型(4层)为例：将标签信息100(y)输入到G₃生成h₃特征，将h₃特征输入到G₂生成h₂特征，将h₂+h₃特征输入到G₁生成h₁特征，以此类推，直至将h₁+h₂+h₃特征输入G₀到生成最终图像200(x)。

在本实施例中，DSGAN模型将条件特征损失从现有技术中的单一层级的监督扩展为多层级的监督。特别地，对于每个以多层级特征表达为条件的GAN，提出了一种加权条件特征损失，它线性组合了各个层级上真实的与生成的特征表达之间的差异性。

最后，对上述本发明优选实施例提出的图像生成模型DSGAN的有效性进行验证，在3个公开数据集上(MNIST、SVHN、CIFAR-10)与现有的图像生成模型进行对比。其中，在MNIST和SVHN数据集上，对比了模型基于不同层级特征条件所生成的图像效果；在CIFAR-10数据集上，通过与先前最好的层级模型SGAN对比来验证生成偏差的存在以及本发明优选实施例的方法在减小这一偏差上的有效性。

具体而言，通过计算真实标签信息y与编码器E输出的分类预测标签

之间的交叉熵损失作为生成的特征表达的偏差，交叉熵损失的计算公式为：

如图3所示，对比了3层的DSGAN模型与SGAN模型(即DSGAN-3、SGAN-3)生成的中间层表达的偏差；对于不同层级的中间层表达h₀、h₁、h₂，分别在两个模型上基于标签y随机采样了1000次，最终实验结果也是基于这1000组数据取的平均值，其中曲线10、30、50分别是采用本发明优选实施例的DSGAN模型的h₀、h₁、h₂特征的交叉熵损失，曲线20、40、60分别是现有的SGAN模型的h₀、h₁、h₂特征的交叉熵损失。从图3可以看出，两个模型在h₁和h₂特征的交叉熵损失上相差不大，而在h₀特征的交叉熵损失上本实施例的DSGAN模型相对于SGAN模型有着明显的下降趋势。由于两个模型在生成h₁和h₂特征时条件一致，而在生成h₀特征时，本实施例的DSGAN模型基于的是h₁+h₂特征而SGAN基于的是h₁特征，这说明稠密连接和多层级特征确实能减小生成特征表达的偏差。

图4a是3层的DSGAN模型在CIFAR-10数据集上基于标签信息y生成图片的效果，图4b是3层的SGAN模型在CIFAR-10数据集上基于标签信息y生成图片的效果；可以发现，基于SGAN-3模型生成的图像有时候会与条件标签不一致，例如第一行有飞机被误生成鸟，第五行有鹿被误生成马；与此相对应的，DSGAN-3模型很少出现这种误生成现象。

图5a和图6a分别是3层的DSGAN模型在MNIST和SVHN数据集上基于多层级特征h₂+h₃的生成结果，图5b和图6b分别是3层的SGAN模型在MNIST和SVHN数据集上基于单层特征h₃的生成结果，图5c和图6c分别是MNIST和SVHN数据集上的真实图像，图5d和图6d分别是3层的DSGAN模型在MNIST和SVHN数据集上基于不同的标签采样的结果，其中每行的标签相同。其中在这两个数据集上，尽管两个模型生成的图像之间差别较小，但是DSGAN模型生成的图像在视觉效果上更接近于真实图像效果。

如表1所示，是采用各种对抗图像生成方法基于感知分数(Inception Score)的衡量结果，其中第一部分列出了现有的最好的有监督生成方法(例如DCGAN、Improved GAN、AC-GAN、SGAN)，第二部分列出了本发明优选实施例的DSGAN模型与现有技术中最好的层级模型SGAN的详细对比，其中“-3”、“-4”分别表示模型为三层和四层，括号内的“L₁”、“L₂”表示公式(5)中的距离度量f，“C₁”、“C₂”分别对应于图2中的全卷积融合方法和全连接融合方法。

表1各种对抗图像生成方法基于感知分数(Inception Score)的衡量结果

从上述表1中，可以看出本发明优选实施例的DSGAN模型比现有技术的各种模型的生成结果都要好，而且在三层和四层模型的对比上，DSGAN模型生成的结果均比SGAN模型更好。

在本发明优选实施例中，提出了一种新型的对抗图像生成方法，并称其为密集堆叠的生成式对抗网络(DSGAN)，该模型遵循了现有层级模型的生成思路，即基于一堆GAN来生成不同层级的特征表达；不同的是，该方法专注于通过增强内部每个生成器的条件信息来约束和减小生成表达与真实表达之间的偏差；由于特征表达是基于由低维度到高维度的生成顺序，同时较高维度的特征表达倾向于包含更大的生成偏差，因此将已生成的不同层级的特征表达融合在一起作为下一个生成器的条件信息是很有意义的，它比单一的最邻近的特征表达包含更准确的信息，从而可以约束GAN生成更接近真实分布的特征表达或最终图像。

在本发明优选实施例中，首先提出了在自顶向下的图像生成过程中引入了稠密连接，相对于当前串行生成的简单方式，将每个GAN与其他所有的GAN连接在一起，可以最大化不同GAN之间的信息流通；然后在训练每个GAN时，提出了一种加权条件特征损失，它有效地鼓励了当前GAN重复利用先前GAN生成的特征表达，同时为当前生成器提供了多层级的监督信息，从而更明确地约束了生成内容的分布。通过实验表明，本发明优选实施例的方法显著地增强了生成的中间层特征表达的可辨识性。与现有的最好方法相比，本发明优选实施例的方法在感知分数(Inception Score)等定量衡量图像生成质量的指标有了明显的提升，而且得到的图像更加真实。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于多层级特征的对抗图像生成方法，其特征在于，包括以下步骤：

S2：对DSGAN模型进行训练；

S3：将图像的标签信息输入到DSGAN模型，采样得到最终图像。

2.根据权利要求1所述的基于多层级特征的对抗图像生成方法，其特征在于，步骤S2具体为采用对抗性损失、熵损失和条件特征损失三种损失函数来对DSGAN模型进行训练。

3.根据权利要求2所述的基于多层级特征的对抗图像生成方法，其特征在于，对抗性损失函数为：

其中，

表示训练DSGAN模型中的判别器D_i的对抗性损失函数，

表示训练DSGAN模型中的生成器G_i的对抗性损失函数，

生成器G_i以更高一级的特征表达h_i+1和噪声z_i作为输入。

4.根据权利要求2所述的基于多层级特征的对抗图像生成方法，其特征在于，熵损失函数为：

其中，

表示训练DSGAN模型中的生成器G_i的熵损失函数，

表示求期望值，z_i表示噪声，其服从分布

表示当前生成器G_i的输出结果，其服从分布

Q_i表示基于生成输出结果

重建噪声z_i的后验概率分布。

5.根据权利要求2所述的基于多层级特征的对抗图像生成方法，其特征在于，条件特征损失函数为：

其中，

表示训练DSGAN模型中的生成器G_i的条件特征损失函数，

表示求期望值，λ_j表示各层特征的权重系数，下标h_i+j表示真实特征表达或图像，其服从分布P_data,E，下标包含E表示该信息通过编码器E获取；z_i表示噪声，其服从分布

6.根据权利要求1至5任一项所述的基于多层级特征的对抗图像生成方法，其特征在于，步骤S2具体包括：先对DSGAN模型中的各个生成器以G₀至G_n-1的顺序依次单独进行训练，再对G₀～G_n-1进行联合训练，其中n为DSGAN模型的层数。

7.根据权利要求6所述的基于多层级特征的对抗图像生成方法，其特征在于，步骤S2中对DSGAN模型中的各个生成器以G₀至G_n-1的顺序依次单独进行训练之前还通过预训练的编码器E中提取各层特征h₁～h_n-1。

8.根据权利要求7所述的基于多层级特征的对抗图像生成方法，其特征在于，其中G₀是以h₁+…+h_n-2+h_n-1特征为条件生成最终图像x，G₁是以h₂+…+h_n-2+h_n-1特征为条件生成h₁特征，以此类推，G_n-2是以h_n-1特征为条件生成h_n-2特征，G_n-1是以标签信息y为条件生成h_n-1特征；将G₀～G_n-1进行联合为一个整体记为生成器G，G是以标签信息y为条件生成最终图像x。

9.根据权利要求8所述的基于多层级特征的对抗图像生成方法，其特征在于，在对DSGAN模型中的各个生成器从G₀至G_n-1依次单独进行训练时，不同层级的特征h₁、…、h_n-2、h_n-1分别对应于不同大小的特征图，使用转置卷积将待融合的所有特征图缩放到相同的尺寸然后堆叠起来，或者将待融合的所有特征图向量化以连接成一个整体然后变形成期望尺寸大小的稠密特征。

10.根据权利要求8所述的基于多层级特征的对抗图像生成方法，其特征在于，步骤S3具体包括：将标签信息y输入到G_n-1生成h_n-1特征，将h_n-1特征输入到G_n-2生成h_n-2特征，将h_n-2+h_n-1特征输入到G_n-3生成h_n-3特征，以此类推，直至将h₁+…+h_n-2+h_n-1特征输入G₀到生成最终图像x。