CN113111906A

CN113111906A - 一种基于单对图像训练的条件生成对抗网络模型的方法

Info

Publication number: CN113111906A
Application number: CN202110209512.9A
Authority: CN
Inventors: 杨昌源; 陈培; 李如诗; 李泽健; 孙凌云
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-07-13
Anticipated expiration: 2041-02-24
Also published as: CN113111906B

Abstract

本发明公开了一种基于单对图像训练的条件生成对抗网络模型，包括以下步骤：基于条件生成对抗网络模型架构构建图像翻译模型；选取一张训练图像，并对所述图像进行语义标注获得语义标注图；使用选取的训练图像和标注的语义图，训练图像翻译模型，得到一个基于单对图像训练的条件生成对抗网络模型。首先，本发明在训练图像翻译模型时，仅需要一对训练数据，解决了传统图像翻译模型对大数据的依赖问题，更加适用于实际应用场景，方便用户根据实际需求训练自己的个性化生成模型。其次，通过使用数据增强机制，使得训练好的模型具有更强的鲁棒性；此外，本发明的模型使用混合训练机制，有效解决了多尺度模型中的误差累积问题，提高了生成图像的质量。

Description

一种基于单对图像训练的条件生成对抗网络模型的方法

技术领域

本发明涉及深度学习图像处理技术领域，特别是涉及一种基于单对图像训练的条件生成对抗网络模型的方法。

背景技术

生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型，该模型包含两个模块：生成器模型和判别器模型。生成器和判别器互相博弈学习，生成器学习如何生成和训练样本相同的结果，判别器学习如何判别生成器生成的样本和训练样本。原始GAN理论中，并不要求生成模型和判别模型都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为生成模型和判别模型。此外，原始的GAN是完全无监督的生成方法，输出结果依赖于输入生成器中的随机噪声。条件生成对抗网络在随机噪声的基础中引入条件变量，指导生成结果。这个条件可以是任意内容，例如一张图片的类别信息，某个对象的属性信息等。

生成对抗网络技术近年来飞速发展，使用生成对抗网络能够得到越来越逼真的图像，在人脸生成、字体生成等领域都有重要的应用。

其中，采用生成对抗网络基于语义标注图作为条件生成真实感图像的技术使用户可以通过寥寥几笔草图就能得到完整丰富的图像。该技术在设计领域有着广泛应用，例如，帮助设计师进行设计探索，基于草图快速预览创意想法。然而，一个强大的生成对抗网络需要使用海量数据进行训练，否则生成对抗网络可能无法良好地拟合训练数据的分布，从而无法生成高质量的输出。然而，构造一个大规模的、具有精细语义标注的数据集不仅费时费力，还难以保证数据集的质量和精度。

公开号为CN 112102303 A的发明公开了一种基于单图像生成对抗网络的语义图像类比方法，其通过编码器、生成器、辅助分类器及鉴别器构成的网络模型实现，能够在给定任意图像和其语义分割图的情况下训练出专属于给定图像的生成模型，该模型能够根据期望语义布局的不同对源图像进行重新组合，生成符合目标语义布局的图像，达到语义图像类比的效果。

公开号为CN 110009028 A的发明公开了供一种显微图像数据增强方法及装置，能够自动标注图像。所述方法包括：生成真实显微图像的虚拟图像；通过风格迁移方法将真实显微图像的风格迁移至所述虚拟图像；根据虚拟图像的计算模拟特性，从虚拟图像的各语义区域中获得对应语义标注，将具有真实显微图像风格的虚拟图像和对应的语义标注结合形成有标注的图像数据，以训练图像分析模型。

发明内容

本发明的目的在于提出了一种基于单对图像训练的条件生成对抗网络模型，可以解决传统图像生成模型对大数据集的依赖问题。

一种基于单对图像训练的条件生成对抗网络模型的方法，包括以下步骤：

(1)基于条件生成对抗网络架构构建图像翻译模型；

(2)选取一张图像作为训练图像，并对所述图像进行语义标注获得语义标注图，得到一对“训练图像-语义标注图”；

(3)使用步骤(2)中获得的一对“训练图像-语义标注图”，训练步骤(1)构建的图像翻译模型，得到一个基于单对图像训练的条件生成对抗网络模型。

在本文中，生成对抗网络的条件为语义标注图，其控制生成图像的语义内容和布局。

所述图像翻译模型的作用是学习训练图像的子块分布及所述训练图像和语义标注图之间的映射关系。

所述图像翻译模型包括一个生成器G和一个判别器D；记

为一张训练图像，

为所述训练图像对应的语义标注，

为随机噪声；其中

表示语义标注图中的语义标签集合，W和H分别表示图像的宽和高，

表示实数；生成器G以语义标注图和随机噪声成对作为输入生成图像

判别器用于区分

和x中子块的区别。

所述图像翻译模型采用多尺度结构，所述结构包括N个生成{G₀,…，G_N-1}和其对应的判别器{D₀，…，D_N-1}；不同尺度的生成器G_n和判别器D_n具有相同的网络结构。

优选地，生成器采用残差网络结构，其中残差网络中的归一化操作采用spatially-adaptive normalization(SPADE)；在SPADE中，归一化操作的调节参数γ和β是基于语义标注图计算得到，因此能够有效保留语义标注图中包含的语义信息。

优选地，判别器的结构采用多子块判别器结构；输入一张图像多子块判别器输出该图像的不同层级的特征图；基于特征图的判别方式能够帮助生成器更好地捕捉真实图像和生成图像的图像块分布差别，从而生成细节更加逼真的图像。

为了训练生成器和判别器，将训练图像和其对应的语义标注图进行下采样操作，得到{x₀，…，x_N-1}和{s₀，…，s_N-1}；所述生成器和判别器从小分辨率的图像开始训练，逐渐增加图像分辨率，使得多个不同尺度的生成器和判别器能够分别学习图像的全局特征和局部特征。

所述步骤(3)中，训练图像翻译模型的使用损失函数为：

其中，其中，

对抗损失，

为重构损失，

为特征匹配损失，

为感知损失权重，λ_rec为重构损失权重，λ_fea为特征匹配损失权重，λ_vgg为感知损失权重。

所述步骤(3)中，训练图像翻译模型的对抗损失使用WGAN-GP损失，该损失使用梯度惩罚有效改善了对抗训练的稳定性：

其中，

表示在第n个尺度对噪声和语义标注图(z，s)求期望；D_n是第n个尺度的判别器，所述判别器输出的标量值表示输入图像的真假程度；G_n是第n个尺度的生成器，

表示前一个尺度的生成器G_n+1生成的图像的上采样结果，因此

为第n个尺度上的生成图像；而

则表示在第n个尺度的训练样本上求期望；λ_GP为梯度惩罚项的权重，

为梯度算子，

表示D_n在生成图像

上的梯度，因此梯度惩罚项使得生成图像上的梯度范数尽可能接近1。

所述步骤(3)中，训练图像翻译模型中使用重构损失鼓励生成器从固定的噪声和语义标注图生成与真实图像完全一致的图像，改善对抗训练的稳定性：

其中

为第(n+1)尺度生成的重构图像；由于此步骤中生成器不引入噪声输入，因此不再有随机性。在第n尺度中，重构图像

的计算方式为：

其中，在最小的尺度(N-1)上，生成器根据一个事先给定的噪声z_*和s₀生成。

所述步骤(3)中，训练图像翻译模型中使用特征匹配损失迫使生成器在不同分辨率上生成自然的特征，可以改善对抗训练的稳定性：

其中，T表示判别器D_n是一个有T个非线性输出层的网络，i为第i层的非线性层，

为判别器D_n对真实样本的判别结果，

为判别器D_n对生成样本的判别结果。

所述步骤(3)中，训练图像翻译模型中使用感知损失让生成器生成的图像和真实图像之间感知相似性尽可能接近：

其中，V表示VGG-19网络φ具有V个非线性输出层，φ_l表示VGG-19网络的第l个非线性层，φ_l(x_n)为真实样本在第l个非线性层的输出，

为生成样本在第l个非线性层的输出。

所述步骤(3)中，训练图像翻译模型在训练的每一轮使用图像增强算法改善生成网络的鲁棒性。

由于单对的“图像-语义标注图”的数据对只能提供一种图像的布局。仅仅使用一对图像进行训练会使得生成器对训练数据过拟合，若在测试阶段提供与训练数据不同的语义标注图，生成器则无法应对这种变化，从而生成质量低下的图像。故训练图像翻译模型在训练过程中的每一轮均对训练图像x和语义标注图s进行图像增强，所述图像增强的方式包括翻转和仿射变换；

所述步骤(3)中，训练图像翻译模型在训练过程中采用混合训练机制避免不同尺度模型造成的累积误差，并使训练过程更加稳定。

训练图像翻译模型在训练过程中，第n个尺度的生成器G_n输入的图像可以采用真实训练图像的下采样图像x_n+1或者生成器G_n+1输出的生成图像的上采样结果

若仅使用

训练生成器G_n，则之前尺度的生成器生成的图像误差会累积，造成G_n训练不稳定；若仅使用真实训练图像的下采样图像x_n+1训练G_n，则在测试阶段G_n的表现较差。这是由于在测试阶段G_n的输入是

而x_n+1和

之间存在分布偏差。

训练图像翻译模型在训练过程中，以概率p控制训练时G_n输入中x_n+1或和

的概率。在每个尺度训练的开始阶段，设置p值较大，利于G_n所述的收敛，随着训练轮数的增加，p值逐渐减小，让生成器G_n学会处理

中的误差，从而使得整个训练过程变得更加稳定。其中值的计算方法为：

其中，e代表训练轮数，μ为一个超参数。

一种基于语义图生成高质量图像的方法，采用基于单对图像训练的条件生成对抗网络模型，将语义图生成高质量图像的具体步骤包括：

(4-1)绘制待翻译的语义标注图，所述待翻译的语义标注图中的语义需在步骤(1)中所述训练图像中包含的语义之内；

(4-2)将绘制好的语义标注图输入到所述的基于单对图像训练的条件生成对抗网络模型中，得到生成的图像。所述图像与步骤(2)选择的图像具有相同的视觉特征，且与新绘制的语义标注图保持布局一致。

本发明相比现有技术，其优点在于：

1、本发明在训练图像翻译模型时，仅需要一对训练数据，解决了传统图像翻译模型对大数据的依赖问题，更加适用于实际应用场景，方便用户根据实际需求训练自己的个性化生成模型。

2、本发明的生成模型方法通过使用数据增强机制，使得训练好的模型具有更强的鲁棒性；

3、本发明的模型使用混合训练机制，有效解决了多尺度模型中的误差累积问题，使得本发明方法生成的图像具有较高的质量。

附图说明

图1为本发明实施例基于单对图像训练的条件生成对抗网络模型的流程示意图；

图2(a)为本发明实施例图像翻译模型的训练阶段示意图；

图2(b)为使用本发明实施例生成图像的示意图。

具体实施方式

如图1所示，基于单对图像训练的条件生成对抗网络模型的方法，包括以下步骤：

S1基于条件生成对抗网络架构构建图像翻译模型；

S2选取一张图像作为训练图像，并对所述图像进行语义标注获得语义标注图，得到一对“训练图像-语义标注图”；

S3使用S2中得到的一对“训练图像-语义标注图”，训练S1构建的图像翻译模型，生成基于单对图像训练的条件生成对抗网络模型。

下面以图2(a)所示的风景图片为例，进行说明：

进行步骤S1，构建图像翻译模型，图像翻译模型采用条件生成对抗网络模型。图像翻译模型包括一个生成器G和一个判别器D，图像翻译模型的作用是学习训练图像子块分布以及训练图像和语义标注图之间的映射关系。

记

为一张训练图像，

为所述训练图像对应的语义标注图，

为随机噪声，用于为模型引入随机性；其中

判别器用于区分

和x中子块的区别。

图像翻译模型采用多尺度结构，结构包含N个生成器{G₀，…，G_N-1}和其对应的判别器{D₀，…，D_N-1}；不同尺度的生成器G_n和判别器D_n具有相同的网络结构。

生成器采用残差网络结构，其中残差网络中的归一化操作采用spatially-adaptive normalization(SPADE)；在SPADE中，在SPADE中，归一化操作的调节参数γ和β是基于语义标注图计算得到，因此能够有效保留语义标注图中包含的语义信息。

判别器的结构采用多子块判别器结构；输入一张图像多子块判别器输出该图像多个尺度的特征图；基于特征图的判别方式能够帮助生成器更好地捕捉真实图像和生成图像的图像块分布差别，从而生成细节更加逼真的图像。

进行步骤S2，对图像进行语义标注的具体步骤包括：

S2-1任意选取一张图像作为训练图像；

S2-2对训练图像进行语义标注，在语义标注时可以使用PhotoShop等图像处理软件进行人工标注，或者使用现有的图像语义分割模型，例如DeepLabV3等进行自动化地图像分割，获得训练图像对应的语义标注图，此步骤得到的语义标注图为RGB图像格式；

S2-3将所述RGB格式的语义标注图处理成单通道的灰度图格式；

S2-4将所述单通道的灰度图格式的语义标注图处理成独热向量格式。

进行步骤S3，为了训练生成器和判别器，将训练图像和其对应的语义标注图进行下采样操作，得到{x₀，…,x_B-1}和{s₀,…,s_N-1}；生成器和判别器从小分辨率的图像开始训练，逐渐增加图像分辨率，使得多个不同尺度的生成器和判别器能够分别学习图像的全局特征和局部特征。

训练图像翻译模型的对抗损失使用WGAN-GP损失，该损失使用梯度惩罚有效改善了对抗训练的稳定性。

其中，

表示在第n个尺度对噪声和语义标注图(z,s)求期望；D_n是第n个尺度的判别器，所述判别器输出的标量值表示输入图像的真假程度；G_n是第n个尺度的生成器，

为第n个尺度上的生成图像；而

为梯度算子，

表示D_n在生成图像

训练图像翻译模型中使用重构损失鼓励生成器从固定的噪声和语义标注图生成与真实图像完全一致的图像，改善对抗训练的稳定性。

其中，

为重构损失，

的计算方式为：

训练图像翻译模型中使用特征匹配损失迫使生成器在不同分辨率上生成自然的特征，可以改善对抗训练的稳定性。假设判别器D_n是一个有T个非线性输出层的网络，那么特征匹配损失

鼓励在第i层的非线性层上，真实样本的输出

和生成样本的

更加接近，

训练图像翻译模型中使用感知损失让生成器生成的图像和真实图像之间感知相似性尽可能接近。给定VGG-19网络φ具有V个非线性输出层，感知损失

鼓励真实样本在第l个非线性层的输出φ_l(x_n)与生成样本的输出

更加接近，

训练图像翻译模型使用的损失函数为

其中，λ_rec为重构损失权重，λ_fea为特征匹配损失权重，λ_vgg为感知损失权重,设置λ_rec＝1，λ_fea＝10，λ_vgg＝10。

训练图像翻译模型在训练的每一轮使用图像增强算法改善生成网络的鲁棒性。

由于单对的“图像-语义标注图”数据对只能提供一种图像的布局。仅仅使用一对图像进行训练会使得生成器对训练数据过拟合，若在测试阶段提供与训练数据不同的语义标注图，生成器则无法应对这种变化，从而生成质量低下的图像。故在训练的每一轮都对训练图像x和语义标注图s进行图像增强。具体的增强方式包括翻转和仿射变换。

训练图像翻译模型在训练过程中采用混合训练机制避免不同尺度模型造成的累积误差，并使训练过程更加稳定。

在训练时，第n个尺度的生成器G_n根据输入的图像生成对应输出，其中输入的图像可以为训练图像的下采样图像x_n+1或者生成器G_n+1输出的生成图像的上采样结果

训练图像翻译模型在训练过程中，以概率p控制训练时G_n输入x_n+1或

的概率。在每个尺度训练的开始阶段，设置p值较大，利于G_n所述训练图像翻译模型的收敛，随着训练次数的增加，p值逐渐减小，让生成器G_n学会处理

中的误差，从而使得整个训练过程变得更加稳定。本实例中，p值的计算方法为：

其中e代表训练轮数，μ是一个超参数，设置μ＝64。

基于语义图生成高质量图像的方法，采用基于单对图像训练的条件生成对抗网络模型，进行步骤S4，如图2(b)所示，将语义图生成高质量图像的具体步骤包括：

S4-1绘制待翻译的语义标注图，所述待翻译的语义标注图中的语义需在S1中所述训练图像中包含的语义之内；

S4-2将绘制好的语义标注图输入到训练好的图像翻译模型中，得到生成的图像，该图像与步骤S2选择的图像具有相同的视觉特征，且与新绘制的语义标注图保持布局一致。