CN110335193A

CN110335193A - 一种基于生成对抗网络的目标域导向的无监督图像转换方法

Info

Publication number: CN110335193A
Application number: CN201910516012.2A
Authority: CN
Inventors: 葛宏伟; 姚瑶; 周东清; 张强; 郭枫
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-10-15
Anticipated expiration: 2039-06-14
Also published as: CN110335193B

Abstract

本发明提供一种基于生成对抗网络的目标域导向的无监督图像转换方法，属于计算机视觉领域。本发明用来实现无监督的跨领域图像到图像的转换任务，属于计算机视觉领域。本方法设计了一个自编码重构网络，通过最小化源域图像的重构损失来提取源域图像的分层表征。同时，通过权值共享策略，共享网络模型中的两组生成对抗网络中编码和解码高层语义信息的网络层的权值，以保证输出图像能够保留输入图像的基本结构和特征。然后，两个判别器分别用来区分输入图像是各自领域的真实图像还是生成的图像。本方法能够有效进行无监督的跨域图像转换，生成高质量的图像。实验证明所提方法在CelebA等标准数据集上取得了很好的结果。

Description

一种基于生成对抗网络的目标域导向的无监督图像转换方法

技术领域

本发明属于计算机视觉领域，涉及一种基于生成对抗网络的无监督图像转换方法。

背景技术

随着移动设备的普及以及互联网带宽的快速增长，图形图像数据呈现爆炸式地增长，它们承载着海量待挖掘的信息。近年来，计算机视觉领域的研究迅速发展，特别是随着生成对抗网络的发展，图像转换问题也引起了广泛的关注。

图像转换是指将图像从一种表示场景转换到另一种表示场景，同时保持图像的内容不发生改变。很多计算机视觉、计算机图形学和图像处理领域的问题其实都可以理解为是图像转换问题，例如，图像着色可以看做是将灰度图转换为其对应的彩色图；图像修复可以看做是将有缺失的图像补全到其对应的完整图像；图像高分辨率可以看做是将低分辨率的图像转换为其相对应的高分辨率的图像，图像风格转换则可以看做是在保留原图像基本特征的情况下，将图像转化为另一种风格的图像等等，诸如此类的工作还有很多。而这些任务，在我们的生产生活中都是广泛存在的。

传统的算法大多是针对特定的问题而设计，并且只能用于特定的应用场景。后来，随着卷积神经网络(Convolutional Neural Networks，CNNs)的发展，越来越多的图像转换问题得以解决。但由于不同任务的建模方式以及其优化设计都不尽相同，这使得图像转换问题的任务负担仍十分巨大。

一种解决图像转换任务的方法是训练一个有监督的前向卷积神经网络，通过使用像素损失函数来测量输出图像与真实图像之间的差异，这也是最直观的方法之一。例如Dong等人提出了一种深度卷积神经网络模型来学习低分辨率图像和高分辨率图像之间的一个端到端映射，从而实现图像从低分辨率到高分辨率的转换(Dong C,Chen C L,He K,etal.Image super-resolution using deep convolutional networks[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2016,38(2):295-307.)。该模型通过最小化输出图像与其对应的真实的高分辨率图像间的均方误差，来优化模型。但通过最小化输出图像与真实图像之间的均方误差很可能会使模型输出模糊的结果，因为最小化均方误差输出的是所有可能的输出结果的平均值。

使用像素级损失函数的方法可以生成合理的图像，但是这些损失函数在很多情况下不能够捕获输出图像和真实图像之间的感知差异。最近的一些理论分析和实验结果表明，从预训练好的分类网络中提取的高层特征可以捕获真实图像的感知信息，而使用感知信息可以生成更高质的图像。特别是，这些从预训练好的网络的隐藏层中提取的特征有助于解读输入图像的语义信息，而且隐藏特征的格拉姆矩阵可以捕获图像风格的分布。

Mahendran和Vedaldi通过最小化特征重建损失来反演卷积网络的特征，以便理解由不同的网络层保留的图像信息(Mahendran A,Vedaldi A:Understanding deep imagerepresentations by inverting them[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2015.)。这种优化方法还可以通过生成图像以最大化类预测分数或单个特征，以便理解在训练的网络中编码的功能，解决特征可视化问题。Gatys等人则用该方法来处理风格迁移和纹理合成问题(Gatys L A,Ecker AS,Bethge M:Texture synthesis using convolutional neural networks[C]//Proceedings of the Neural Information Processing Systems Conference.2015.)。这些能够方法生成高质量的图像，但是由于推理需要解决优化问题，所以速度很慢。

近几年，生成对抗网络(Generative Adversarial Networks,GANs)相关的研究呈现出蓬勃的发展态势(Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generativeadversarial nets[C]//Proceedings of the Conference on Neural InformationProcessing Systems.2014,2672-2680.)。鉴于GAN具有很好的生成能力以及其灵活的设计，GAN及其衍生模型被广泛地用于图像转换问题，并且已在图像转换问题上取得了显著的成绩。很多实验研究表明，融入GAN可以生成更加真实的图像。

Pix2pix为图像转换任务提供了一个通用的框架，该框架可以解决许多在过去需要使用不同损失函数才能解决的问题(Isola P,Zhu J Y,Zhou T,et al.Image-to-imagetranslation with conditional adversarial networks[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017,5967-5976.)。Pix2pix使用两个配对的数据集，数据集A是一种样式的图像的集合，数据集B是数据集A中图像的另一种样式的集合。Pix2pix学习两个数据集之间的映射并生成图像。生成的图像和目标之间的误差通过损失函数计算，进一步调整参数以生成与目标图像类似的逼真图像。而在Pix2pix模型的基础之上，又有许多新的衍生模型被提出，在提升转换图像质量的同时，能够解决更多的图像转换问题。

这些方法可以生成很优秀的图像，但存在一个关键的问题，即需要配对数据来提供有监督的学习，然而，配对数据在很多问题上很难获得，因为人工标注的代价高昂。

为了解决这一问题，CycleGAN直接使用两组生成器和判别器来学习源域和目标域之间的映射和逆映射(Zhu J Y,Park T,Isola P,et al.Unpaired image-to-imagetranslation using cycle-consistent adversarial networks[C]//Proceedings ofthe IEEE International Conference on Computer Vision.2017,2242-2251.)。两个生成器分别将各自领域的输入图像转换为对应领域的输出图像，两个判别器则在各自的领域内判断输入图像是真实图像还是由生成器生成的图像。此外，CycleGAN提出了一种循环一致性损失，即通过双向转换来进行图像重构。这种循环一致性可以减少可能的映射空间，不仅能够让模型生成更高质量的图像，还可以减轻GAN模型的崩溃问题。

CoGAN则是考虑到两个域的图像具有相同的基本特征，提出了一种权重共享策略，通过共享生成器和判别器中与高级语义信息相对应的权重，可以学习不同域中的一个联合分布，从而实现跨领域图像到图像的转换(Liu M Y,Tuzel O.Coupled generativeadversarial networks[C]//Proceedings of the Conference on Neural InformationProcessing Systems.2016,469-477.)。然而，在CoGAN中使用随机向量z作为输入来生成高分辨率图像时，很可能遇到模型崩溃问题。

使用GAN来进行图像转换有两个问题需要注意：(1)虽然采用配对数据来进行此类任务能够取得很好的结果，但是，在许多任务中，配对的训练数据很难获得。(2)由于GAN自身的问题，训练过程中可能会出现训练不稳定、模型塌陷的问题。

针对上述问题，本发明提出了一种基于GAN的目标域导向的无监督转换网络(UTN-GAN)，用于实现无监督的图像转换任务。UTN-GAN采用了分层表征和权值共享机制，将图像从源域转换到目标域而不需要配对图像。在UTN-GAN中，我们设计了一个自编码重构网络，通过最小化源域图像的重构损失来提取源域图像中的分层表征。同时，UTN-GAN还共享了两个GAN中编码和解码高层语义信息的网络层的权值，用来保证输入图像和输出图像在不同域中的匹配。我们在几个图像转换任务上进行了定性和定量的实验研究，并与一些最先进的算法进行相比，实验证明提出的UTN-GAN算法是有效的且具有竞争力的。

发明内容

针对传统的方法需要配对数据和GAN自身训练困难等问题，本发明提出一种基于GAN的目标域导向的无监督图像转换方法，用于实现无监督的图像转换。该方法借助分层表征和权值共享的理论，充分发挥了GAN的优势，在无监督的情况下，提升了模型训练的稳定性，生成高质量的图像。

本发明的技术方案：

一种基于生成对抗网络的无监督图像转换方法，包括如下步骤：

步骤一图像的预处理：从真实的源域数据分布p_data(x)中采样得到真实的源域图像x，从真实的目标域数据分布p_data(y)中采样得到真实的目标域图像y，对真实的源域图像x和真实的目标域图像y进行统一的处理，把它们缩放为统一的像素大小，同时对图像像素值进行归一化处理；

步骤二生成图像：将归一化处理好的真实的源域图像x分别输入到两个生成器中，两个生成器为自编码重构网络G_r和转换网络G_t。其中，G_r通过重构输入的真实的源域图像x，来获得源域图像的分层表征。G_t则将输入的真实的源域图像x转换为目标域的图像。通过共享G_r与G_t中与高层语义信息相关的层级的参数，以保证源域图像和目标域图像的语义信息一致；

其中，p_data(x)表示真实的源域数据分布，x表示真实的源域图像，G_r表示重构网络，G_t表示转换网络，D_r与D_t表示相应的判别器，L(G_r)表示G_r的生成对抗损失，L_re(G_r)表示重构损失，L(G_t)表示G_t的生成对抗损失；

步骤三判别图像：G_r与G_t生成的图像被分别输入到两个判别器D_r与D_t中进行判别。D_r判别输入图像是真实的源域图像x还是G_r重构后的图像G_r(x)，而D_t则区分输入的图像是真实的目标域图像y还是G_t转换后的图像G_t(x)；

其中，L(D_r)表示D_r的生成对抗损失，L(D_t)表示D_t的生成对抗损失；

步骤四网络优化参数调整：通过联合损失函数，采用Adam优化算法进行模型训练，更新生成器和判别器的网络参数；

其中，L(G_r,G_t,D_r,D_t)表示联合损失函数，λ为超参数；

步骤五重复T次步骤二至步骤四；

步骤六在测试阶段，将真实的源域图像x直接输入到G_t中，经过G_t的转换后，输出结果G_t(x)。

本发明的有益效果：基于GAN的目标域导向的无监督图像转换方法充分利用图像的分层表征，使模型训练无需任何配对数据，并使模型能够稳定地进行训练，而且在对抗损失的约束下，该方法能够生产接近真实的图像。

附图说明

图1是基于生成对抗网络的目标域导向的无监督图像转换方法示意图；

图2是自编码重构网络的结构示意图；

图3是判别器的结构示意图；

图4基于生成对抗网络的目标域导向的无监督图像转换方法在人脸属性转换任务上的结果样例。其中，(a-1)到(a-10)为输入的金发女性的照片，(b-1)到(b-10)为转换后对应输出的黑发女性的照片；(c-1)到(c-10)为输入的嘴巴闭合的照片，(d-1)到(d-10)为转换后对应输出的微笑的照片；(e-1)到(e-10)为输入的平眉女性的照片，(f-1)到(f-10)为转换后对应输出的柳叶眉女性的照片。

具体实施方式

本发明提供一种基于生成对抗网络的目标域导向的无监督图像转换方法。所论述的具体实施例仅用于说明本发明的实现方式，而不限制本发明的范围。下面结合附图对本发明的实施方式进行详细说明，具体包括以下步骤：

1.图像的预处理。以人脸面部属性转换实验为例。从真实的源域数据分布p_data(x)中采样得到真实的源域图像x，像素大小为178*178的黑发女性照片，从真实的目标域数据分布p_data(y)中采样得到真实的目标域图像y，像素大小为178*178的金发女性照片。使用Python的图像处理模块，对真实的源域图像x和真实的目标域图像y进行统一的处理。首先将它们中心裁剪为128*128大小，接着缩放为统一的64*64大小，同时对图像像素值进行了归一化处理。

2.生成图像。将归一化好的真实的源域图像x分别输入到两个生成器中，两个生成器为编码重构网络G_r和转换网络G_t，如图1中所示。G_r通过重构输入的真实的源域图像x，来获得源域图像的分层表征，其中G_r(x)为x重构后的结果，大小为64*64。G_r的生成对抗损失函数L(G_r)如公式(1)所示。

其中，p_data(x)表示真实的源域数据分布，x表示真实的源域图像，G_r表示重构网络，D_r表示判别器，L(G_r)表示G_r的生成对抗损失。

此外，除了生成对抗损失外，我们还设计了一个重构损失，来辅助G_r提取更加准确的分层表征。这是因为G_r是通过判别器D_r的反馈来进行学习的，一旦D_r的训练出现问题，将直接影响G_r的学习。而添加了重构损失后，可以在一定程度上避免在特征提取过程中，由于判别器D_r引发的错误。该策略可以让生成器G_r能够更有效地学习，并有助于提升图像转换的效果。重构损失L_re(G_r)如公式(2)所示。

其中，p_data(x)表示真实的源域数据分布，x表示真实的源域图像，G_r表示重构网络，L_re(G_r)表示重构损失。

G_t的主要任务是将输入的源域图像x转换为目标域的图像G_t(x)，G_t(x)是与x相对应的金发的女性图像，像素大小为64*64。G_t的生成对抗损失函数L(G_t)如公式(3)所示。考虑到源域图像和目标域图像有着相同的语义信息，我们共享G_r与G_t中那些与高层语义信息相关的层级的参数，以保证源域图像和目标域图像的语义信息一致，图1中的虚线表示权重共享。

其中，p_data(x)表示真实的源域数据分布，x表示真实的源域图像，G_t表示转换网络，D_t表示判别器，L(G_t)表示G_t的生成对抗损失。

尽管G_r和G_t扮演着不同的角色，但它们的网络结构是相同的编码器-解码器网络。生成器首先使用一系列Convolution-BatchNorm-LeakyReLU层，将输入图像编码为高维特征，然后这些特征又通过一系列Deconvolution-BatchNorm-ReLU层，最终解码为输出图像。生成器G_r的结构如图2所示。BN代表是Batch Normalization，每层的通道数如图2中所示，步长为2。编码器的激活函数使用LeakyReLU，其斜率设为0.2。解码器最后一层之后，再加一个Convolution-Tanh层将结果映射到输出通道数。

随着编码器逐渐从输入样本中提取抽象信息，而在解码器中解码信息，我们在这些对高层语义信息进行编码和解码的层级中应用权重共享策略，连接两个生成器并共享双方共同的表征，以保持基础信息的一致性。然后，解码低层细节的层级将这个信息映射到各自领域，反映不同领域各自的特征。

3.判别图像。两个生成器生成的图像被分别输入两个判别器中进行判别。D_r用于判别输入图像是真实的源域图像x还是G_r重构后的图像G_r(x)，而D_t则旨在区分输入的图像是真实的目标域图像y还是G_t转换后的图像G_t(x)。D_r与D_t的目标函数如公式(4)和公式(5)所示。

其中，p_data(x)表示真实的源域数据分布，p_data(y)表示真实的目标域数据分布，x表示真实的源域图像，y表示真实的目标域图像，G_r表示重构网络，G_t表示转换网络，D_r与D_t表示相应的判别器，L(D_r)表示D_r的生成对抗损失，L(D_t)表示D_t的生成对抗损失。

D_r和D_t的网络结构也是相同的，由类似于生成器中编码器部分的CNN网络层Convolution-BatchNorm-LeakyReLU构成。具体的网络结构如图3所示。其中，每层的通道数如图3中所示，步长为2。激活函数LeakyReLU的斜率设为0.2。此外，判别器的最后一层之后，一个带有Sigmoid函数的卷积层将输出映射到1维。由于判别器的前几层提取细节特征，后几层提取高层语义特征，我们同样在D_r和D_t的后几层中使用权重共享机制，这样能够减少网络中的参数总数。

4.网络优化参数调整。我们通过联合损失函数，采用Adam优化算法进行模型训练，更新生成器和判别器的网络参数。其中，学习率设为0.0002，指数衰减率β₁＝0.5，β₂＝0.999。损失函数如公式(6)所示。

其中，L(G_r,G_t,D_r,D_t)表示联合损失函数，λ是控制重构损失相比于对抗损失的重要性的超参数，在全部是实验中设置为100。

5.重复T次步骤2至步骤4。

6.在测试阶段，将真实的源域图像x，如图4中的(a-1)金发女性照片，直接输入到G_t中，经过G_t的转换后，输出结果G_t(x)即可，如图4中的(b-1)即为(a-1)转换后的黑发女性图像。

Claims

1.一种基于生成对抗网络的目标域导向的无监督图像转换方法，其特征在于，包括如下步骤：

步骤二生成图像：将归一化处理好的真实的源域图像x分别输入到两个生成器中，两个生成器为自编码重构网络G_r和转换网络G_t；其中，G_r通过重构输入的真实的源域图像x，来获得源域图像的分层表征；G_t则将输入的真实的源域图像x转换为目标域的图像；通过共享G_r与G_t中与高层语义信息相关的层级的参数，以保证源域图像和目标域图像的语义信息一致；

步骤三判别图像：G_r与G_t生成的图像被分别输入到两个判别器D_r与D_t中进行判别；D_r判别输入图像是真实的源域图像x还是G_r重构后的图像G_r(x)，而D_t则区分输入的图像是真实的目标域图像y还是G_t转换后的图像G_t(x)；

其中，L(G_r,G_t,D_r,D_t)表示联合损失函数，λ为超参数；

步骤五重复T次步骤二至步骤四；