CN108038818A

CN108038818A - 一种基于多重循环一致性的生成对抗式网络图像风格转移方法

Info

Publication number: CN108038818A
Application number: CN201711274984.2A
Authority: CN
Inventors: 漆进; 张通; 胡顺达
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2018-05-15

Abstract

本发明属于图像处理、计算机视觉、深度学习领域，具体为一种基于多重循环一致性的生成对抗式网络图像风格转移方法。该方法包括：基于卷积神经网络和残差连接的生成器、判别器，基于多重循环一致性和生成对抗式网络的损失函数训练，实现了照片等内容图像到工笔画等风格图像的映射。本发明能够有效地解决涵盖几何变化的图像风格转移任务，另外，该方法不仅不需要一一对应的配对数据集，而且可以同时学习内容图片到风格图片的映射和风格图片到内容图片的映射。

Description

一种基于多重循环一致性的生成对抗式网络图像风格转移方法

技术领域

本发明属于图像处理，计算机视觉，深度学习领域，具体为一种基于多重循环一致性的生成对抗式网络图像风格转移方法。

背景技术

近年来，随着深度学习的进步，图像风格转移技术也有了重要的发展。2016年，Leon A.Gatys发表了论文“Image Style Transfer Using Convolutional NeuralNetworks”，利用深度学习算法来进行图像风格转移，其背后的原理是利用卷积神经网络对不同尺度下的内容特征和风格特征进行分离，从而使图像风格转移变得简单可行。2017年，Jun-Yan Zhu发表了论文“Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”，利用循环一致性和生成对抗式网络进行图像到图像的映射学习，该方法不仅不需要一一对应的配对数据集，而且可以同时学习内容图片到风格图片的映射和风格图片到内容图片的映射。在涉及颜色和纹理变化的风格转移任务中，这些方法通常能取得较好的效果，但是面对涵盖几何变化的任务时，这些方法往往结果很差，比如将照片转化成国画、山水画、工笔画等风格的图片。当前亟待解决的问题是找到一种图像风格转移的普适性方法。

发明内容

针对上述存在问题或不足，本发明将CycleGAN中的循环一致性扩展为多重循环一致性，在内容图片和风格图片的映射路径上加入素描图片的中间映射，能够有效地解决涵盖几何变化的图像风格转移任务。

本发明采用的技术方案是：

(1)基于残差块的生成器。

(2)基于卷积神经网络的判别器。

(3)基于多重循环一致性和生成对抗式网络的损失函数训练。

(4)使用(3)训练的深度神经网络，由照片图像生成风格图像，或者由风格图像生成照片图像。

所述步骤(1)中的生成器网络具体包括：

(11)生成器的输入图像依次通过卷积核大小为7、步长为1、滤波器数量为32的卷积层，InstanceNorm层，ReLu激活层。

(12)将(11)的输出特征依次通过卷积核大小为3、步长为2、滤波器数量为64的卷积层，InstanceNorm层，ReLu激活层。

(13)将(12)的输出特征依次通过卷积核大小为3、步长为2、滤波器数量为128的卷积层，InstanceNorm层，ReLu激活层。

(14)将(13)的输出特征依次通过6个卷积核大小为3、步长为1、滤波器数量为128的残差块。

(15)将(14)的输出特征依次通过卷积核大小为3、步长为1/2、滤波器数量为64的卷积层，InstanceNorm层，ReLu激活层。

(16)将(15)的输出特征依次通过卷积核大小为3、步长为1/2、滤波器数量为32的卷积层，InstanceNorm层，ReLu激活层。

(17)将(16)的输出特征依次通过卷积核大小为7、步长为1、滤波器数量为32的卷积层，InstanceNorm层，ReLu激活层。

所述步骤(2)中的判别器网络具体包括：

(21)判别器的输入特征依次通过卷积核大小为4、步长为2、滤波器数量为64的卷积层，LeakyReLu激活层。

(22)将(21)的输出特征依次通过卷积核大小为4、步长为2、滤波器数量为128的卷积层，InstanceNorm层，LeakyReLu激活层。

(23)将(22)的输出特征依次通过卷积核大小为4、步长为2、滤波器数量为256的卷积层，InstanceNorm层，LeakyReLu激活层。

(24)将(23)的输出特征依次通过卷积核大小为4、步长为2、滤波器数量为512的卷积层，InstanceNorm层，LeakyReLu激活层。

(25)将(24)的输出特征展平，通过softmax函数将网络输出归一化。

所述步骤(3)中的基于多重循环一致性和生成对抗式网络的损失函数训练具体包括：

(31)输入图像包括三个集合其中X为照片图像集合，Z为素描图像集合，Y为风格图像集合。网络包括四个生成器G₁:X→Z，G₂:Z→Y，F₁:Z→X，F₂:Y→Z和三个判别器D_X，D_Y，D_Z。

(32)使用随机梯度下降法进行训练，采用对抗损失和循环一致性损失构成的复合损失函数，计算公式如下：

L(G₁,F₁,G₂,F₂,X,Y,Z)＝L_GAN(G₁,D_Z,X,Z)

+L_GAN(G₂,D_Y,Z,Y)

+L_GAN(F₂,D_Z,Y,Z)

+L_GAN(F₁,D_X,Z,X)

+λ₁L_cyc(G₁,F₁)

+λ₁L_cyc(G₂,F₂)

+λ₂L_cyc(G₁,F₁,G₂,F₂)

所述步骤(4)中的风格转移具体包括：

(41)由照片图像生成风格图像：X→Z→Y，即先由照片图像生成素描图像，再由素描图像生成风格图像。

(42)由风格图像生成照片图像：Y→Z→X，即先由风格图像生成素描图像，再由素描图像生成照片图像。

本发明的有益效果是：

本发明将CycleGAN中的循环一致性扩展为多重循环一致性，在内容图片和风格图片的映射路径上加入素描图片的中间映射，能够有效地解决涵盖几何变化的图像风格转移任务。另外，该方法不仅不需要一一对应的配对数据集，而且可以同时学习内容图片到风格图片的映射和风格图片到内容图片的映射。

附图说明

图1是多重循环一致性的生成对抗式网络的结构图

图2是实施例的照片图像

图3是实施例的工笔画风格转移图像

具体实施方式

以下将结合附图对本发明进行详细描述。

本发明公开了一种基于多重循环一致性的生成对抗式网络图像风格转移方法，具体实施步骤包括：

(1)基于残差块的生成器。

(2)基于卷积神经网络的判别器。

(3)基于多重循环一致性和生成对抗式网络的损失函数训练，其结构如图1所示。

所述步骤(1)中的生成器网络具体包括：

所述步骤(2)中的判别器网络具体包括：

L(G₁,F₁,G₂,F₂,X,Y,Z)＝L_GAN(G₁,D_Z,X,Z)

+L_GAN(G₂,D_Y,Z,Y)

+L_GAN(F₂,D_Z,Y,Z)

+L_GAN(F₁,D_X,Z,X)

+λ₁L_cyc(G₁,F₁)

+λ₁L_cyc(G₂,F₂)

+λ₂L_cyc(G₁,F₁,G₂,F₂)

所述步骤(4)中的风格转移具体包括：

照片图像如图2所示，产生的工笔画风格转移图像如图3所示。实验结果表明，本发明能够有效地实现图像风格转移，尤其是解决了涵盖几何变化的图像风格转移任务。

Claims

1.一种基于多重循环一致性的生成对抗式网络图像风格转移方法，其特征在于，所述方法包括：

(1)基于残差块的生成器；

(2)基于卷积神经网络的判别器；

(3)基于多重循环一致性和生成对抗式网络的损失函数训练；

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)中具体包括：

(11)生成器的输入图像依次通过卷积核大小为7、步长为1、滤波器数量为32的卷积层，InstanceNorm层，ReLu激活层；

(12)将(11)的输出特征依次通过卷积核大小为3、步长为2、滤波器数量为64的卷积层，InstanceNorm层，ReLu激活层；

(13)将(12)的输出特征依次通过卷积核大小为3、步长为2、滤波器数量为128的卷积层，InstanceNorm层，ReLu激活层；

(14)将(13)的输出特征依次通过6个卷积核大小为3、步长为1、滤波器数量为128的残差块；

(15)将(14)的输出特征依次通过卷积核大小为3、步长为1/2、滤波器数量为64的卷积层，InstanceNorm层，ReLu激活层；

(16)将(15)的输出特征依次通过卷积核大小为3、步长为1/2、滤波器数量为32的卷积层，InstanceNorm层，ReLu激活层；

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)中具体包括：

(21)判别器的输入特征依次通过卷积核大小为4、步长为2、滤波器数量为64的卷积层，LeakyReLu激活层；

(22)将(21)的输出特征依次通过卷积核大小为4、步长为2、滤波器数量为128的卷积层，InstanceNorm层，LeakyReLu激活层；

(23)将(22)的输出特征依次通过卷积核大小为4、步长为2、滤波器数量为256的卷积层，InstanceNorm层，LeakyReLu激活层；

(24)将(23)的输出特征依次通过卷积核大小为4、步长为2、滤波器数量为512的卷积层，InstanceNorm层，LeakyReLu激活层；

4.根据权利要求1所述的方法，其特征在于，所述步骤(3)中具体包括：

(31)输入图像包括三个集合其中X为照片图像集合，Z为素描图像集合，Y为风格图像集合，网络包括四个生成器G₁:X→Z，G₂:Z→Y，F₁:Z→X，F₂:Y→Z和三个判别器D_X，D_Y，D_Z；

L(G₁,F₁,G₂,F₂,X,Y,Z)＝L_GAN(G₁,D_Z,X,Z)

+L_GAN(G₂,D_Y,Z,Y)

+L_GAN(F₂,D_Z,Y,Z)

+L_GAN(F₁,D_X,Z,X)

+λ₁L_cyc(G₁,F₁)

+λ₁L_cyc(G₂,F₂)

+λ₂L_cyc(G₁,F₁,G₂,F₂)。

5.根据权利要求1所述的方法，其特征在于，所述步骤(4)中具体包括：

(41)由照片图像生成风格图像：X→Z→Y，即先由照片图像生成素描图像，再由素描图像生成风格图像；