CN116385259A

CN116385259A - 基于gan网络的图像风格迁移方法

Info

Publication number: CN116385259A
Application number: CN202310249419.XA
Authority: CN
Inventors: 刘龙; 杨雪颖
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-07-04

Abstract

本发明公开基于GAN网络的图像风格迁移方法，具体方法如下：步骤1，获取相关图片数据集，将夏季图像作为数据集X，冬季图像作为数据集Y；步骤2，对分好类的数据集X,Y分别提取内容及风格特征；步骤3，将s₂与c₁结合生成同一景物的不同场景G₁(s₂,c₁)；步骤4，通过生成器G₂将提取到的两类图片的内容特征与风格特征相互结合，生成G₂(s₁,c₂)和G₂(s₂,c₁)；步骤5，生成器G₂与判别器D₂对抗学习迭代训练，判别器D₂指导生成器G₂生成图像的质量，当损失函数趋于稳定时认为生成图像的质量与原图像一致，结束训练。该方法解决了实现图像真实化风格迁移时无法最大程度保留图像具体细节的问题。

Description

基于GAN网络的图像风格迁移方法

技术领域

本发明属于风格迁移学习技术领域，涉及一种基于GAN网络的图像风格迁移方法。

背景技术

近年来，随着神经网络和深度学习的快速发展，涌现出了许多优秀的人工智能技术，强有力地推进了计算机视觉领域的研究工作，世界已进入信息化社会。图像是描述世界的重要手段，通过图像可以获得大量文字无法表达的信息。随着信息时代的到来，互联网上的图像数据爆发式增长，这促使计算机视觉领域得到快速发展和重大突破。在处理图像时，传统的算法大多是针对特定的问题来设计用于特定应用场景的模型，例如图像压缩、分割、分类等，随着卷积神经网络的发展，出现了越来越多的图像转换问题，此类方法的出现恰好满足了人们的需求，增强了人们的视觉感和图像的美观性，它广泛应用于各个领域，包括图像检测、图像识别、图像修复、AI换脸等。

基于卷积神经网络的技术已经超越了现代人在许多视觉任务上的表现。深度卷积神经网络的学习和表达能力已经得到广泛验证，并在图像处理领域实现了重大突破，其技术也已被扩展到更具挑战性的应用场景。当前，在国内外的图像处理研究中，人们提出了越来越多的创新思路。特别是在图像风格迁移方面，深度学习技术的快速发展推动了该领域的快速发展和进步。近几年，生成对抗网络已经成为学术界中一个炙手可热的研究领域，被广泛应用于计算机视觉领域，它在图像风格迁移问题上也取得了显著的成果。由于GAN拥有更好的生成能力和灵活的设计，因此GAN及其相关模型已被广泛应用于图像风格迁移问题，并在此领域中取得了巨大的成功。预计未来将出现越来越多基于深度学习的算法来实现更多图像风格迁移模型。

发明内容

本发明的目的是提供一种基于GAN网络的图像风格迁移方法，解决了实现图像真实化风格迁移时无法最大程度保留图像具体细节的问题。

本发明所采用的技术方案是，基于GAN网络的图像风格迁移方法，具体方法如下：

步骤1，获取相关图片数据集，将夏季图像作为数据集X，冬季图像作为数据集Y；

步骤2，对分好类的数据集X,Y分别提取内容及风格特征，数据集X采用自编码器

中的编码部分提取图像的内容特征c₁，采用变分自编码/>

中的编码部分提取图像的风格特征s₁；同理，数据集Y采用自编码器/>

的编码部分提取图像的内容特征c₂，采用变分自编码

的编码部分提取图像的风格特征s₂；

步骤3，通过生成器G₁将s₁与c₂结合生成同一场景的不同景物G₁(s₁,c₂)，将s₂与c₁结合生成同一景物的不同场景G₁(s₂,c₁)；

步骤4，将生成的两种伪图像G₁(s₁,c₂)和G₁(s₂,c₁)经损失函数调整，返回输入至原有自编码器

和变分自编码器/>

及自编码器/>

和变分编码器/>

中，再次进行内容特征与风格特征的提取，通过生成器G₂将提取到的两类图片的内容特征与风格特征相互结合，生成G₂(s₁,c₂)和G₂(s₂,c₁)；

步骤5，生成器G₂与判别器D₂对抗学习迭代训练，判别器D₂指导生成器G₂生成图像的质量，当损失函数趋于稳定时认为生成图像的质量与原图像一致，结束训练。

本发明的特征还在于，

步骤1具体为：

步骤1.1，获取数据集summer2winter；

步骤1.2，随机抽取数据集summer2winter中的图像，将夏季图像作为数据集X，冬季图像作为数据集Y；

步骤2具体为:

步骤2.1，将数据集X中的图像x₁输入自编码器

将数据集Y中的图像y₁输入自编码器/>

输入图像x₁，y₁都是256×256像素的三通道图像；自编码器/>

和自编码器/>

的编码部分采用残差块，自编码器/>

和自编码器/>

具体网络结构使用卷积神经网络，卷积神经网络由3个卷积层和2个残差块组成，首先进行下采样操作，第一层使用7×7大小的卷积核，第二层、第三层均使用4×4大小的卷积核，接着使用两个残差块，残差块中有两个卷积层，卷积核的大小为3×3，在进行完第一个卷积操作后，进行ReLU激活处理。

步骤2.2，自编码器

和/>

中输入层到编码层的网络部分称为编码部分，自编码器/>

和/>

中的编码部分将输入图像x₁和输入图像y₁分别压缩为一个潜在向量，自编码器

和自编码器/>

捕获输入图像x₁和图像y₁中的局部结构信息，从而提取图像x₁和图像y₁的内容特征c₁和内容特征c₂；

步骤2.3，将数据集X中的图像x₁输入变分自编码器

将数据集y₁中的图像y₁输入变分自编码器/>

输入图片x₁，y₁都是256×256像素的三通道图像，变分自编码器增加了风格特征的随机性，具体网络结构由3个卷积层、2个池化层和1个全连接层组成，首先进行下采样操作,第二层使用7×7大小的卷积核，第三层，第四层均使用4×4大小的卷积核，然后进行ReLU激活函数处理,然后接最大池化操作，经过一个残差块，在进行池化操作，最后一层使用1×1大小的卷积核实现全连接的作用，无激活函数；

步骤2.4，变分自编码器

和变分自编码器/>

中输入层到编码层的网络部分称为编码部分，/>

和/>

中的编码部分将输入图像x₁和输入图像y₁分别压缩为一个潜在向量,变分自编码器/>

和变分自编码器/>

进行随机采样，从而提取图像x₁和图像y₁的风格特征s₁和风格特征s₂。

步骤3具体为：

步骤3.1，固定自编码器

和变分编码器/>

自编码器/>

和变分编码器E₂ ^s、生成器G₁和G₂、判别器D₂的权重参数；

步骤3.2，将变分自编码器

提取的风格特征s₁和自编码器/>

提取的内容特征c₂输入生成器G₁，生成器G₁生成风格迁移之后的图像G₁(s₁,c₂)，生成器G₁和G₂的网络结构相同，生成器G₁和G₂使用卷积神经网络，输入为图像的风格特征和内容特征，输出为风格迁移后的图像，输入风格编码和内容编码首先经过3个残差块，其中残差块中均使用3×3大小的卷积核，然后进行归一化，接着使用最近邻插值上采样法把图像的大小放大一倍，再进行卷积操作，接着进再进行上采样操作，然后接两个卷积层，使用7×7大小的卷积核，每个卷积层后都接一种非线性激活函数，最后输出风格迁移后的图像；

步骤3.3，将自编码器

提取的内容特征c₁和变分自编码器/>

提取的风格特征s₂输入生成器G₁，生成器G₁生成风格迁移之后的图像G₁(s₂,c₁)。

步骤4具体为：

步骤4.1，将生成的两种伪图像G₁(s₁,c₂)和G₁(s₂,c₁)经损失函数调整，整体网络的总损失函数由生成对抗网络的对抗损失、图像重建损失和循环一致性损失组成，调整后再次返回输入至生成器G₂中，总损失函数计算公式如下所示：

其中λ_gan、λ_x、λ_cyc入作为超参数分别调节对抗损失、图像重建损失、以及循环一致性损失在总损失函数中的比重；

步骤4.2，经自编码器

和自编码器/>

变分自编码器/>

和变分自编码器/>

的编码部分对图像G₁(s₁,c₂)和G₁(s₂,c₁)再次进行内容特征与风格特征的提取，将提取到的内容特征和风格特征分别与之前的内容特征c₁和风格特征s₁进行比较，输出为0～1之间的概率值，表示输入图像接近真实图像的概率；

步骤4.3，自编码器

和自编码器/>

变分自编码器/>

和变分自编码器/>

编码层到输出层的网络部分称为解码器，通过自编码器/>

和自编码器/>

变分自编码器/>

和变分自编码器/>

的解码部分，将步骤4.2提取到的内容特征和风格特征重构，返回生成器G₂，生成器G₂将图像x₁,y₁内容特征与风格特征相互结合，生成G₂(s₁,c₂)和G₂(s₂,c₁)。

步骤4.1中，计算生成对抗网络的对抗损失的具体操作如下：

首先采用对抗性损失，生成器G₁和G₂与判别器D₁和D₂互相博弈，对抗损失计算公式如下：

E₁ ^c和E₂ ^c表示自编码器,E₁ ^s和E₂ ^s表示变分自编码器，G₁和G₂表示生成器，D₁和D₂表示判别网络，G₁(s₁,c₂)表示输入图像x₁的内容编码和图像y₁的风格编码之后输出的风格迁移图像，D(y₁)代表判别网络对真实图像的判别结果，对于判别器来说，当输入是真实图像y₁编码信息时，最大化logD₂(y₁)，让判别器输出趋近于1的结果；当输入是生成图像G₂(s₂,c₁)时，最小化G₂(s₂,c₁)的值，让判别器输出趋近于0的结果，由此区分生成图像和真实图像；

步骤4.1中，计算图像重建损失的操作如下：

将编码器提取的内容特征和风格特征再次输入到生成网络中，由此来重建原来的输入图像；图像的重建损失如下：

将图像中数据集X经过的自编码器记为E₁ ^c，提取的内容特征记为c₁，经过的变分自编码器记为E₁ ^s，生成的风格特征记为s₁；将图像中数据集Y经过的自编码器记为E₂ ^c,生成的内容特征记为c₂，经过的变分自编码器记为E₂ ^s，生成的风格特征记为s₂,

代表图像的风格信息，/>

代表图像的内容信息；

步骤4.1中，计算循环一致性损失的具体操作如下：

整体框架采用CycleGAN网络结构，循环一致性损失的计算公式如下式所示：

将图像x₁输入生成器G₁先进行风格迁移，将风格迁移后的图像G₁(x₁)再输入另一个生成器G₂生成原来的图像G₂(G₁(x₁))，使用损失函数将其进行比较。同样图像y₁执行相同的操作，由此来计算网络的循环一致性损失。

步骤5具体为：

步骤5.1，生成器G₂与判别器D₂对抗学习迭代训练，生成器G₂的目的是保证风格迁移后图像内容不发生改变,把风格迁移后的图像重构回原来的图像；

步骤5.2，将重构之后的图像和真实图像分别输入判别器D₂，判别器D₂指导生成器G₂生成图像的质量，判别器D₂使用多尺度判别器，判别器D₂包含3个具有相同网络结构但在不同图像尺度下工作的判别器，将真实图像和生成的高分辨率图像下采样2倍和4倍，以创建3个尺度的图像金字塔，然后训练判别器D₂以分别在3个不同的尺度上区分真实图像和生成图像，将不同大小图像块的判别结果作为最终的输出；判别器D₂的网络结构由4个卷积层和1个全连接层组成，第一层到第四层均使用4×4大小的卷积核，五层使用1×1大小的卷积核，卷积层后均接一种非线性激活函数；

步骤5.3，当损失函数趋于稳定时认为生成图像的质量与原图像一致，结束训练。

本发明的有益效果是：

1.本发明方法使用CycleGAN作为整体框架引入自编码器和变分自编码器，细化了网络结构，可以使提取到的图像特征更精准。

2.本发明方法将生成后伪图像经过对抗损失、重构损失、循环一致性损失损失调整以后，返回生成网络再次提取特征，循环迭代，使判别网络能更好的指导生成网络，提高图像的质量。

附图说明

图1是本发明基于GAN网络的图像风格迁移方法的流程图；

图2是自编码器网络结构图；

图3是变分自编码器网络结构图；

图4是本发明的生成器网络结构图；

图5为本发明的判别器结构图；

图6为本发明原图与风格迁移后的图像的对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供一种基于GAN网络的图像风格迁移方法，如图1所示，具体步骤包括：

步骤1，获取相关图片数据集；

步骤1具体为：

步骤1.1，获取数据集summer2winter，其中包含1273张夏季图像和854张冬季的约塞米蒂国家公园图像，该数据集已经广泛应用于图像生成及风格迁移之中；

步骤1.2，随机抽取数据集summer2winter中的图像，其中夏季图像抽取800张，与之对应冬季图像抽取800张，将夏季图像作为数据集X，冬季图像作为数据集Y；

中的编码部分提取图像的内容特征c₁，采用变分自编码/>

的编码部分提取图像的内容特征c₂，采用变分自编码

的编码部分提取图像的风格特征s₂；

步骤2具体为：

步骤2.1，将数据集X中的图像x₁输入自编码器

将数据集Y中的图像y₁输入自编码器/>

输入图像x₁，y₁都是256×256像素的三通道图像；自编码器/>

和自编码器/>

的编码部分采用残差块，能更好的保存提取到的特征。自编码器/>

和自编码器/>

结构如图2所示，自编码器/>

和自编码器/>

步骤2.2，自编码器

和/>

中输入层到编码层的网络部分称为编码部分，自编码器/>

和/>

中的编码部分将输入图像x₁和输入图像y₁分别压缩为一个潜在向量，自编码器/>

和自编码器/>

步骤2.3，将数据集X中的图像x₁输入变分自编码器

将数据集y₁中的图像y₁输入变分自编码器/>

输入图片x₁，y₁都是256×256像素的三通道图像，变分自编码器/>

与变分自编码器/>

结构相同；变分自编码器增加了风格特征的随机性，变分自编码器/>

与变分自编码器/>

的网络结构图如图3所示，由3个卷积层、2个池化层和1个全连接层组成，首先进行下采样操作，第二层使用7×7大小的卷积核，第三层，第四层均使用4×4大小的卷积核，然后进行ReLU激活函数处理，然后接最大池化操作，经过一个残差块，在进行池化操作，最后一层使用1×1大小的卷积核实现全连接的作用，无激活函数。

步骤2.4，变分自编码器

和变分自编码器/>

中输入层到编码层的网络部分称为编码部分，/>

和/>

和变分自编码器/>

进行随机采样，从而提取图像x₁和图像y₁的风格特征s₁和风格特征s₂；

步骤3，通过生成器G₁将步骤2提取到的图像x₁和图像y₁的内容特征与风格特征相互结合，即将s₁与c₂结合生成同一场景的不同景物G₁(s₁,c₂)，将s₂与c₁结合生成同一景物的不同场景G₁(s₂,c₁)；

步骤3具体为：

步骤3.1，固定自编码器

和变分编码器/>

自编码器/>

和变分编码器/>

生成器G₁和G₂、判别器D₂的权重参数；

步骤3.2，将变分自编码器

提取的风格特征s₁和自编码器/>

提取的内容特征c₂输入生成器G₁，生成器G₁生成风格迁移之后的图像G₁(s₁,c₂)，生成器G₁和G₂的网络结构相同，但目的不同，生成器G₁的目的是接收图像的内容和风格特征之后，经过中间隐藏层的计算，输出最终风格迁移后的图像，生成器G₂的目的是将风格迁移后的图像重构回原来的图像，生成器G₁和G₂网络结构如图4所示，生成器G₁和G₂使用卷积神经网络，输入为图像的风格特征和内容特征，输出为风格迁移后的图像，输入风格编码和内容编码首先经过3个残差块，其中残差块中均使用3×3大小的卷积核，然后进行归一化，接着使用最近邻插值上采样法把图像的大小放大一倍，再进行卷积操作，接着进再进行上采样操作，然后接两个卷积层，使用7×7大小的卷积核，每个卷积层后都接一种非线性激活函数，最后输出风格迁移后的图像。

步骤3.3，将自编码器

提取的内容特征c₁和变分自编码器/>

提取的风格特征s₂输入生成器G₁，生成器G₁生成风格迁移之后的图像G₁(s₂,c₁)；

和变分自编码器/>

及自编码器/>

和变分编码器/>

步骤4具体为：

其中λ_gan、λ_x、λ_cyc入作为超参数分别调节对抗损失、图像重建损失、以及循环一致性损失在总损失函数中的比重。

步骤4.1中，计算生成对抗网络的对抗损失的具体操作如下：

为了使生成器G₁和G₂生成的风格迁移图像接近真实目标风格图像，首先采用对抗性损失，生成器G₁和G₂与判别器D₁和D₂互相博弈，对抗损失计算公式如下：

E₁ ^c和E₂ ^c表示自编码器,E₁ ^s和E₂ ^s表示变分自编码器，G₁和G₂表示生成器，D₁和D₂表示判别网络，G₁(s₁,c₂)表示输入图像x₁的内容编码和图像y₁的风格编码之后输出的风格迁移图像，生成器的目标是最小化对抗损失，使生成器G₁和G₂在博弈中使判别器D₁和D₂无法区分生成图像和真实目标图像，判别器的对抗损失由判别生成图像和判别真实图像两部分组成，D(y₁)代表判别网络对真实图像的判别结果，对于判别器来说，当输入是真实图像y₁编码信息时，最大化logD₂(y₁)，让判别器输出趋近于1的结果；当输入是生成图像G₂(s₂,c₁)时，最小化G₂(s₂,c₁)的值，让判别器输出趋近于0的结果，由此区分生成图像和真实图像。

步骤4.1中，计算图像重建损失的操作如下：

为了提高生成器的生成能力，将编码器提取的内容特征和风格特征再次输入到生成网络中，由此来重建原来的输入图像。图像的重建损失如下：

代表图像的风格信息，/>

代表图像的内容信息。

步骤4.1中，计算循环一致性损失的具体操作如下：

本文整体框架采用CycleGAN网络结构，本文循环一致性损失的计算公式如下式所示：

步骤4.2，经自编码器

和自编码器/>

变分自编码器/>

和变分自编码器/>

步骤4.3，自编码器

和自编码器/>

变分自编码器/>

和变分自编码器/>

编码层到输出层的网络部分称为解码器，通过自编码器/>

和自编码器/>

变分自编码器/>

和变分自编码器/>

步骤5，生成器G₂与判别器D₂对抗学习迭代训练，判别器D₂指导生成器G₂生成图像的质量，当损失函数趋于稳定时认为生成图像的质量与原图像一致，结束训练；

步骤5具体的为：

步骤5.2，将重构之后的图像和真实图像分别输入判别器D₂，判别器D₂指导生成器G₂生成图像的质量，判别器D₂使用多尺度判别器，判别器D₂包含3个具有相同网络结构但在不同图像尺度下工作的判别器，将真实图像和生成的高分辨率图像下采样2倍和4倍，以创建3个尺度的图像金字塔，然后训练判别器D₂以分别在3个不同的尺度上区分真实图像和生成图像，将不同大小图像块的判别结果作为最终的输出，从而提高判别器的判别能力判别器D₂的网络结构如图5所示，由4个卷积层和1个全连接层组成，第一层到第四层均使用4×4大小的卷积核，五层使用1×1大小的卷积核，卷积层后均接一种非线性激活函数；

步骤5.3，当损失函数趋于稳定时认为生成图像的质量与原图像一致，结束训练，图6第一列为输入的原图像，第二列为使用本发明方法风格迁移后生成的图像，可以看出该方法可以做到更好的还原图片具体细节信息及清晰度。

Claims

1.基于GAN网络的图像风格迁移方法，其特征在于，具体方法如下：

中的编码部分提取图像的内容特征c₁，采用变分自编码/>

的编码部分提取图像的内容特征c₂，采用变分自编码/>

的编码部分提取图像的风格特征s₂；

和变分自编码器/>

及自编码器/>

和变分编码器/>

2.根据权利要求1所述的基于GAN网络的图像风格迁移方法，其特征在于，步骤1具体为:

步骤1.1，获取数据集summer2winter；

步骤1.2，随机抽取数据集summer2winter中的图像，将夏季图像作为数据集X，冬季图像作为数据集Y。

3.根据权利要求1所述的基于GAN网络的图像风格迁移方法，其特征在于，步骤2具体为:

步骤2.1，将数据集X中的图像x₁输入自编码器

将数据集Y中的图像y₁输入自编码器

输入图像x₁，y₁都是256×256像素的三通道图像；自编码器/>

和自编码器/>

的编码部分采用残差块，自编码器/>

和自编码器/>

具体网络结构使用卷积神经网络，卷积神经网络由3个卷积层和2个残差块组成，首先进行下采样操作，第一层使用7×7大小的卷积核，第二层、第三层均使用4×4大小的卷积核，接着使用两个残差块，残差块中有两个卷积层，卷积核的大小为3×3，在进行完第一个卷积操作后，进行ReLU激活处理；

步骤2.2，自编码器

和/>

中输入层到编码层的网络部分称为编码部分，自编码器/>

和/>

和自编码器/>

步骤2.3，将数据集X中的图像x₁输入变分自编码器

将数据集y₁中的图像y₁输入变分自编码器/>

步骤2.4，变分自编码器

和变分自编码器/>

中输入层到编码层的网络部分称为编码部分，/>

和/>

和变分自编码器/>

4.根据权利要求1所述的基于GAN网络的图像风格迁移方法，其特征在于，步骤3具体为：

步骤3.1，固定自编码器

和变分编码器/>

自编码器/>

和变分编码器/>

生成器G₁和G₂、判别器D₂的权重参数；

步骤3.2，将变分自编码器

提取的风格特征s₁和自编码器/>

步骤3.3，将自编码器

提取的内容特征c₁和变分自编码器/>

5.根据权利要求1所述的基于GAN网络的图像风格迁移方法，其特征在于，步骤4具体为：

步骤4.2，经自编码器

和自编码器/>

变分自编码器/>

和变分自编码器/>

步骤4.3，自编码器

和自编码器/>

变分自编码器/>

和变分自编码器/>

编码层到输出层的网络部分称为解码器，通过自编码器/>

和自编码器/>

变分自编码器/>

和变分自编码器/>

6.根据权利要求5所述的基于GAN网络的图像风格迁移方法，其特征在于，步骤4.1中，计算生成对抗网络的对抗损失的具体操作如下：

步骤4.1中，计算图像重建损失的操作如下：

代表图像的风格信息，/>

代表图像的内容信息；

步骤4.1中，计算循环一致性损失的具体操作如下：

将图像x₁输入生成器G₁先进行风格迁移，将风格迁移后的图像G₁(x₁)再输入另一个生成器G₂生成原来的图像G₂(G₁(x₁))，使用损失函数将其进行比较；同样图像y₁执行相同的操作，由此来计算网络的循环一致性损失。

7.根据权利要求1所述的基于GAN网络的图像风格迁移方法，其特征在于，步骤5具体为：

步骤5.2，将重构之后的图像和真实图像分别输入判别器D₂，判别器D₂指导生成器G₂生成图像的质量，判别器D₂使用多尺度判别器，判别器D₂包含3个具有相同网络结构但在不同图像尺度下工作的判别器，将真实图像和生成的高分辨率图像下采样2倍和4倍，以创建3个尺度的图像金字塔，然后训练判别器D₂以分别在3个不同的尺度上区分真实图像和生成图像，将不同大小图像块的判别结果作为最终的输出；

其中，判别器D₂的网络结构由4个卷积层和1个全连接层组成，第一层到第四层均使用4×4大小的卷积核，五层使用1×1大小的卷积核，卷积层后均接一种非线性激活函数；