CN111223057A

CN111223057A - 基于生成对抗网络的增量式聚焦的图像到图像转换方法

Info

Publication number: CN111223057A
Application number: CN201911296148.3A
Authority: CN
Inventors: 俞俊; 高飞; 朱静洁
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-06-02
Anticipated expiration: 2039-12-16
Also published as: CN111223057B

Abstract

本发明公开了一种基于生成对抗网络的增量式聚焦的图像到图像转换方法。本发明包括以下步骤：1、对源图像、目标图像进行数据预处理构成数据二元组；2、网络结构设计，在生成对抗网络模型中加入增强的自我注意力机制模块，并针对网络的两个输出，相应地采用一个鉴别器，进一步增强表征能力以生成更多的细节；3、损失函数设计，提出了增量式聚焦损失以稳定、加速网络训练；4、模型训练，利用反向传播算法训练对抗神经网络模型参数。本发明将增量式聚焦损失和增强的自我注意力机制模块应用于各种无监督和有条件的GANs中来证明它们的有效性，并且达到了训练速度快且稳定的效果。

Description

基于生成对抗网络的增量式聚焦的图像到图像转换方法

技术领域

本发明涉及一种计算机领域，尤其涉及针对图像到图像的转换 (Image-to-ImageTranslation)任务，例如人脸画像转换、图像生成等任务，利用增量式聚焦损失函数和增强型自我注意力机制以生成更精细的转换图像。

背景技术

随着社交媒体网络和移动设备的迅猛发展，画像、素描等多风格图像在人类生活中得到了广泛的应用。然而，大多数人缺乏专业知识或技术能力，以生产高质量的图像。为了提高用户体验，开发计算机自动生成逼真图像的算法是很有必要的。为此，图像生成和跨模态图像转换(即图像到图像的转换)是很有前途的解决方案。前者用于在目标域中生成图像，后者用于将图像从源域转换为目标域。例如在现实中，警方可以从目击者描述出的嫌疑人画像生成照片再从数据库中进行身份比对从而加速抓捕过程；自动驾驶时从卫星抓取的街道图片转成分区域式地图从而便于加快识别速度。近年来，生成式对抗网络(Generative Adersarial Networks,GANs)在图像生成和图像对图像转换方面的成功而受到广泛关注。GANs通常包括生成器(Generator) 和鉴别器(Discriminator)，其中生成器旨在从输入随机噪声(即无监督GANs)或基于源图像x(即条件GANs)生成样本；而鉴别器旨在从目标域的y中区分合成样品

训练GANs涉及到在生成器和鉴别器的参数上解决一个极小极大问题，这在实践中是出了名的难解。为了应对这一挑战，人们做了大量的工作，包括新的损失函数、正则化和规范化、架构修改，以及模型的大规模可伸缩训练。在现有的工作中，基于自注意力机制的生成式对抗网络(Self-Attention GAN, SAGAN)表现出了鼓舞人心的表现，并通过可扩展的培训产生了极好的结果。然而，用目前可承受的计算成本去加强GANs的训练仍然是一个挑战针对这样的问题，并且提升生成稳定的高质量图像也是一个重要的方面。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于生成对抗网络的增量式聚焦的图像到图像转换方法。

我们在CUFS、MAP、CelebA、LSUN、Cifar-10数据集上均进行了实验，并且分别在条件GANs(用CUHK和MAP进行实验)和无监督GANs (用CelebA、LSUN和Cifar-10进行实验)验证本发明的有效性。接下来主要以条件GANs中使用的CUFS数据集为例展开详细介绍。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)数据预处理

数据预处理分为两部分，第一部分对原始数据集进行划分数据集，第二部分对数据集做对齐、随机裁剪操作达到数据增广。

预处理好的源图像P^I和相对应的目标图像P^G构成二元组，以 {P^I,P^G}作为训练集。

步骤(2)设计基于生成对抗网络生成的网络模型

本发明提出了一种高效的基于生成对抗网络的人脸画像生成的方法：增量式聚焦损失生成对抗网络(Incremental Focal Loss GAN， AFL-GAN)。在生成器中引入增强型自我注意力机制模块，将输入的人脸图像在保证身份信息和场景信息不变的同时做到图像转换生成操作。

步骤(3)设计基于生成对抗网络生成的损失函数

本发明的目标是从不同人脸图像P^I生成其对应的画像P^G，为了训练网络构建{P^I,P^G}这样的数据对，两者具有相同的数据维度。但在学习面部照片到画像的变化过程，发现面部的头发纹理、轮廓、嘴巴等部位相比其他部位更难学习到表征，及其容易失真，所以本发明引入了增量式聚焦损失函数，逐渐降低了容易样本的权重，而增量地将生成器和鉴别器分别集中于难生成的或难识别的示例，最终得到视觉更真实、身份信息良好的画像。

步骤(4)模型训练

使用预处理后的数据集构成的{P^I,P^G}二元组作为最终训练集。利用预训练模型对网络初始化，结合步骤(3)中所述的损失函数，计算生成图像与原图的身份信息和真实度等差异，进而利用反向传播算法(Back-Propagation，BP)对步骤(2)中设计的神经网络模型的参数进行训练，直至整个网络模型收敛。

步骤(1)所述的数据预处理，具体如下：

数据集划分：CUFS的三个子数据集：CUHK、AR、XM2VTS，分别有188张、123张、295张人脸图像以及每张图片所对应的画像。此二元组已进行面部关键点对齐操作，即计算数据集中的面部关键点坐标，得出人脸及图像相对应的五个关键点(左右眼、左右嘴角及鼻尖)，将面部图像以双眼连线为基准水平对齐，经过缩放裁剪等操作得出尺寸为200*250的二元组。从三个子数据集中分别随机抽取88对、80 对、100对，共268对作为训练集，剩余为测试集，训练集随机抽取 100对作为验证集。并将二元组的路径名称一一写入txt文本中，通过读取txt文本，按路径名称检索图片，使图片的二进制格式数据转换成网络识别的数据格式。

数据增广：图像输入深度网络模型训练前，将图像统一边缘填充至286*286，图像上下边和左右边的填充数相等，每次随机裁剪成 256*256大小的图像，并将图像归一化到[-1，1]的数值范围以提高模型的鲁棒性及泛化能力。最终将预处理好的人脸图像P^I∈R^C ^×H×W以及对应的画像P^G∈R^C×H×W作为训练集{P^I,P^G}二元组,其中C、H、W分别代表图像的通道数、高度和宽度。测试时用同样的边缘填充法将图像填充至256*256的尺寸。

步骤(2)所述的设计基于生成对抗网络生成的网络模型，具体如下：

该步骤分为两大部分：生成器和鉴别器。其中生成器分为编码器、解码器、增强的自我注意力机制模块三部分。

对于编码器(Encoder)，共分为8个模块(Block)，第1个模块为一层卷积层(Convolutional Neural Networks,CNN)，第2-7个模块均由3种运算组成，依次分别为：Leaky修正线性单元(Leaky Rectified Linear Units,LeakyReLU)，卷积层和批规范化(Batch Normalization，BN)，最后一个模块由Leaky修正线性单元和卷积层组成。同时，将每一个模块的输出结果作为特征进行保留，在解码器中相对应的第Layer-i+1模块中与其前一模块输出进行拼接 (Concatenate)作为这一模块的输入使用，其中Layer为编码器总模块数，i为第i个模块。

对于解码器(Decoder)，分为8个模块，第1-7个模块均由3种运算组成，依次分别为：修正线性单元(Rectified Linear Units, ReLU)、反卷积层(TransposeConvolutionalNeural Networks,TCNN) 和批规范化(Batch Normalization,BN)，最后一个模块包括修正线性单元、反卷积层和双曲正切(Tanh)。在解码器中，编码器最后一个模块的特征图(Feature Maps)作为解码器第一个模块的输入。

对于增强的自我注意力机制模块(Enhanced Self-Attention)，分为两个模块。第一个模块是自我注意力机制，通过三个卷积层分别输出三个特征空间：

f＝W_fx；g＝W_gx；h＝W_hx；公式(1)

其中

W_h∈R^C×C为卷积层中的参数。x为输入特征，C为通道数。如图2所示，转置后的f与g的经过叉乘计算一个位置的响应权重，作为所有特征的加权和，再与h做叉乘得到输出的特征：

其中i,j,k代表像素位置，β_j,i为相应元素的响应权重。

最终的自我注意力机制为：

z＝λ₁o+x 公式(3)

其中λ₁为可训练参数，初始化为0。

第二个模块由修正线性单元、反卷积层和双曲正切(Tanh)组成，将输入转换成具有颜色空间的生成图像，生成图像具有与解码器最终输出的生成图像相同的尺寸，并将它投入鉴别器中利用损失函数计算损失值以优化网络模型参数。解码器第七个模块的输出特征作为增强的自注意力机制中两个模块的输入，而第一个模块的输出作为解码器中第八个模块的输入。

对于鉴别器，分为5个模块，第1个模块由卷积层(Convolutional NeuralNetworks,CNN)和Leaky修正线性单元(Leaky Rectified Linear Units,LeakyReLU)组成，2-4个模块由卷积层、批规范化 (Batch Normalization，BN)和Leaky修正线性单元三种运算组成，最后一个模块由CNN组成。

最终，源图像(人脸照片)输入到生成对抗网络模型，一个含有增强的自注意力机制(Enhanced Self-Attention)的多尺度输出的 Encoder-Decoder结构网络的生成器中，通过先验知识结合鉴别器相互博弈，从而得到最终视觉效果很好的图像(如生成图像的纹理笔触与画像及其相似)。

步骤(3)所述的设计基于生成对抗网络生成的损失函数，具体如下：

本发明的损失函数(Loss Function)设计主要分为两部分：增量聚焦损失(Incremental Focal Loss)函数以及像素级重建损失 (Pixel-wise ReconstructionLoss)函数，分别用L_rec和L_IFL表示。

对于像素级重建损失，具体公式如下：

其中，

为生成器中的特征经过一层反卷积层转为具有颜色空间的生成图像，y为对应的目标图像,通过计算二者的曼哈顿距离 (L₁ Distance)以优化网络。

对于增量聚焦损失，具体公式如下：

其中

分别为鉴别器和生成器的增量聚焦损失，增量系数γ(t)在训练过程中逐步增加，具体公式为：

γ(t)＝λt+γ₀ 公式(7)

其中t表示训练过程中的迭代数，初始聚焦因子γ₀≥0，增量速率λ≥0。因为γ(t)不能过大，如果一个指数函数中指数的底(指

或者

)若为小数，作为指数的幂的γ(t)过大会导致损失变极小反而混淆模型。因此，本发明采用上界受限的分阶段式变种：

其中T_f表示增量周期，t为总迭代时间，即每周期增长一次增量系数，训练中达到γ_max时则保持增量系数不变。目的在于增量地将生成器和鉴别器分别集中于难生成的或难识别的示例，达到快速收敛并稳定的模型效果。

最终本发明的总损失函数为：

其中，α为像素级重建损失的加权系数。D_i为生成器的第i个输出图像的鉴别器损失。

步骤(4)所述的模型训练，具体如下：

针对步骤(2)所给出的最终生成对抗网络模型，在实际训练中，经过大量的实验，得到步骤(3)目标函数的合适参数选择，γ＝1。使用Pytorch深度学习框架训练，最终生成图像。可以看出本发明具有很好的鲁棒性。

本发明有益效果如下：

本发明提出了一个可能的解决方案，基于生成对抗网络的图像到图像转换方法，提出了一种新的替代损失函数，称为增量焦损 (Incremental Focal Loss,IFL)，它可以明显地加速和促进GANs的训练。并且加入了一种增强的自我注意机制(Enhanced Self-Attention,ESA)来提高生成器中深层特征的表示能力；IFL和 ESA的结合可以应用于各种无监督或有条件的GANs，并提高生成图像到图像的转换质量。

附图说明

图1是基于生成对抗网络的人脸画像生成的网络模型示意图；

图2是自注意力机制框架示意图。

具体实施细节

下面对本发明的详细参数做进一步具体说明。

如图1所示，基于生成对抗网络的增量式聚焦的图像到图像的转换方法，包括如下步骤：

步骤(1)数据预处理

对原始数据集进行划分，并进行数据增广。

步骤(2)基于生成对抗网络生成的网络模型设计

增量式聚焦损失生成对抗网络(Incremental Focal Loss GANs， AFL-GAN)分为生成器和鉴别器，生成器生成的图像逼近目标图像的分布，鉴别器判别来判别图像为生成图像还是目标图像以计算损失函数并优化。

步骤(3)基于生成对抗网络生成的损失函数设计

损失函数分为增量式聚焦损失函数以及像素级重建损失函数，增量式聚焦损失函数逐渐降低了容易样本的权重，而增量地将生成器和鉴别器分别集中于难生成的或难识别的示例，像素级重建损失函数起到将生成图像靠近目标图像的分布的作用，最终得到视觉更真实、身份信息良好的画像。

步骤(4)模型训练

使用预处理后的数据集构成的{P^I,P^G}二元组作为最终训练集。利用预训练模型对网络初始化，结合步骤(3)中所述的损失函数，计算生成图像与原图的身份信息和真实度等差异，进而利用反向传播算法(Back-Propagation，BP)对步骤(2)中设计的生成对抗网络模型的参数进行训练，直至整个网络模型收敛。

对于步骤(1)所述的数据预处理，具体如下：

1-1对图像进行人脸对齐时，眼间距为50，眼睛距离图像上界 150且对齐后得到的图像的尺寸大小和通道数均与原来的相等；二元组{P^I,P^G}图像特征的通道数C均为3。

1-2对二元组图像采用边缘填充时，将图像的边缘像素作为填充信息，填充为EdgePadding，且二元组随机裁剪256*256时，裁剪位置需对应一致。

对于步骤(2)所述的基于生成对抗网络生成的网络模型设计中，具体如下：

编码器中Leaky修正线性单元的参数负斜率(Negative Slope) 为0.2；自注意力机制模块中设置

对于步骤(3)所述的基于生成对抗网络生成的损失函数中，T_f表示固定迭代参数，这里设置T_f＝100,总迭代时间t为600；α为像素级重建损失的加权系数，这里设置α＝10。

Claims

1.基于生成对抗网络的增量式聚焦的图像到图像转换方法，其特征在于包括如下步骤：

步骤(1)数据预处理

数据预处理分为两部分，第一部分对原始数据集进行划分数据集，第二部分对数据集做对齐、随机裁剪操作达到数据增广；

预处理好的源图像P^I和相对应的目标图像P^G构成二元组，以{P^I,P^G}作为训练集；

步骤(2)设计基于生成对抗网络生成的网络结构

增量式聚焦损失生成对抗网络，在生成器中引入增强型自我注意力机制模块，将输入的人脸图像在保证身份信息和场景信息不变的同时做到图像转换生成操作；

步骤(3)设计基于生成对抗网络生成的损失函数

从不同人脸图像P^I生成其对应的画像P^G，为了训练网络构建{P^I,P^G}这样的数据对，两者具有相同的数据维度；引入了增量式聚焦损失函数，逐渐降低样本的权重，而增量地将生成器和鉴别器分别集中于难生成的或难识别的示例，最终得到视觉更真实、身份信息良好的画像；

步骤(4)模型训练

使用预处理后的数据集构成的{P^I,P^G}二元组作为最终训练集；利用预训练模型对网络初始化，结合步骤(3)中所述的损失函数，计算生成图像与原图的身份信息和真实度等差异，进而利用反向传播算法对步骤(2)中设计的神经网络模型的参数进行训练，直至整个网络模型收敛。

2.根据权利要求1所述的基于生成对抗网络的增量式聚焦的图像到图像转换方法，其特征在于步骤(1)所述的数据预处理，具体如下：

1-1.数据集划分：CUFS的三个子数据集：CUHK、AR、XM2VTS，分别有188张、123张、295张人脸图像以及每张图片所对应的画像；此二元组已进行面部关键点对齐操作，即计算数据集中的面部关键点坐标，得出人脸及图像相对应的五个关键点，将面部图像以双眼连线为基准水平对齐，经过缩放裁剪等操作得出尺寸为200*250的二元组{P^I,P^G}；从三个子数据集中分别随机抽取88对、80对、100对，共268对作为训练集，剩余为测试集，训练集随机抽取100对作为验证集；并将二元组的路径名称一一写入txt文本中，通过读取txt文本，按路径名称检索图片，使图片的二进制格式数据转换成网络识别的数据格式；

1-2.图像输入深度网络模型训练前,对二元组图像采用边缘填充时，将图像的边缘像素作为填充信息，填充为Edge Padding，且二元组随机裁剪256*256时，需对应一致裁剪，并将图像归一化到[-1，1]；最终将预处理好的人脸图像P^I∈R^C×H×W以及对应的画像P^G∈R^C×H×W作为训练集{P^I,P^G}二元组,其中C、H、W分别代表图像的通道数、高度和宽度。

3.根据权利要求2所述的基于生成对抗网络的增量式聚焦的图像到图像转换方法，其特征在于步骤(2)所述的设计基于生成对抗网络生成的网络结构，具体分为两大部分：生成器和鉴别器；

其中生成器分为编码器、解码器、增强的自我注意力机制模块三部分；

对于编码器:共分为8个模块，第1个模块为一层卷积层，第2-7个模块均由3种运算组成，依次分别为：Leaky修正线性单元，卷积层和批规范化，最后一个模块由Leaky修正线性单元和卷积层组成；同时，将每一个模块的输出结果作为特征进行保留，在解码器中相对应的第Layer-i+1模块中与其前一模块输出进行拼接,作为这一模块的输入使用，其中Layer为编码器总模块数，i为第i个模块；

对于解码器:分为8个模块，第1-7个模块均由3种运算组成，依次分别为：修正线性单元、反卷积层和批规范化，最后一个模块包括修正线性单元、反卷积层和双曲正切；在解码器中，编码器最后一个模块的特征图作为解码器第一个模块的输入；

对于增强的自我注意力机制模块:分为两个模块；第一个模块是自我注意力机制，通过三个卷积层分别输出三个特征空间：

f＝W_fx；g＝W_gx；h＝W_hx；公式(1)

其中

W_h∈R^C×C为卷积层中的参数；x为输入特征，C为通道数；将转置后的f与g的经过叉乘计算一个位置的响应权重，作为所有特征的加权和，再与h做叉乘得到输出的特征：

其中i,j,k代表像素位置，β_j,i为相应元素的响应权重；

最终的自我注意力机制为：

z＝λ1o+x 公式(3)

其中λ1为可训练参数，初始化为0；

第二个模块由修正线性单元、反卷积层和双曲正切组成，将输入转换成具有颜色空间的生成图像，生成图像具有与解码器最终输出的生成图像相同的尺寸，并将它投入鉴别器中利用损失函数计算损失值以优化网络模型参数；解码器第七个模块的输出特征作为增强的自注意力机制中两个模块的输入，而第一个模块的输出作为解码器中第八个模块的输入；

所述的鉴别器：分为5个模块，第1个模块由卷积层和Leaky修正线性单元组成，第2-4个模块由卷积层、批规范化和Leaky修正线性单元三种运算组成，最后一个模块由卷积层组成；

最终，人脸照片输入到设计好的生成对抗网络模型，一个含有增强的自注意力机制的多尺度输出的Encoder-Decoder结构网络的生成器中，通过先验知识结合鉴别器相互博弈，从而得到最终视觉效果很好的图像。

4.根据权利要求3所述的基于生成对抗网络的增量式聚焦的图像到图像转换方法，其特征在于步骤(3)所述的设计基于生成对抗网络生成的损失函数，具体如下：

该损失函数的设计分为两部分：增量聚焦损失函数以及像素级重建损失函数，分别用L_IFL和L_rec表示；

对于像素级重建损失函数，具体公式如下：

其中，

为生成器中的特征经过一层反卷积层转为具有颜色空间的生成图像，y为对应的目标图像,通过计算二者的曼哈顿距离以优化网络；

对于增量聚焦损失函数，具体公式如下：

其中

γ(t)＝λt+γ₀ 公式(4)

其中t表示训练过程中的迭代数，初始聚焦因子γ₀≥0，增量速率λ≥0；因为γ(t)不能过大，如果一个指数函数中指数的底若为小数，作为指数的幂的γ(t)过大会导致损失变极小反而混淆模型；因此采用上界受限的分阶段式变种：

其中T_f表示固定迭代参数，即每阶段增长一次增量系数，训练中达到γ_max时则保持增量系数不变；

最终总损失函数为：

其中，α为像素级重建损失的加权系数；D_i为生成器的第i个输出图像的鉴别器损失。

5.根据权利要求4所述的基于生成对抗网络的增量式聚焦的图像到图像转换方法，其特征在于步骤(4)所述的模型训练，具体如下：

针对步骤(2)所给出的最终生成对抗网络模型，在实际训练中，经过大量的实验，得到步骤(3)目标函数的合适参数选择，γ＝1；使用Pytorch深度学习框架训练，最终生成图像。