CN113538224B

CN113538224B - 基于生成对抗网络的图像风格迁移方法、装置及相关设备

Info

Publication number: CN113538224B
Application number: CN202111071408.4A
Authority: CN
Inventors: 刘建征; 杨巨成; 姚彤; 张伟; 许能华; 闫潇宁
Original assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-01-14
Anticipated expiration: 2041-09-14
Also published as: CN113538224A

Abstract

本发明实施例公开了一种基于生成对抗网络的图像风格迁移方法、装置及相关设备，该方法中，通过构建包括生成器和判别器的生成对抗网络模型，并初始化所述生成器的权重参数，所述生成器包括编码器

和自注意机制模块，所述编码器

包括内容掩码生成器

和注意力掩码生成器

；然后获取训练样本图像

；利用所述训练样本图像

对所述生成对抗网络模型进行训练，直至所述生成器和判别器达到纳什平衡，之后将待风格迁移图像输入至训练好的生成对抗网络模型中，得到风格迁移后图像，通过上述方式，能够实现对图像的风格迁移，生成多样性图像，有助于扩充数据集。

Description

基于生成对抗网络的图像风格迁移方法、装置及相关设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于生成对抗网络的图像风格迁移方法、装置及相关设备。

背景技术

随着计算能力的提高和各行业数据量的剧增，人工智能取得了快速发展，学术界普遍认为人工智能分为两个阶段感知阶段和认知阶段。在认知阶段，机器能够对世界的本质有一定的理解，而所谓“理解”无论是对人类还是人工智能都是内在的表现，无法直接测量，只能间接从其他方面推测。生成式对抗网络（Generative Adversarial Networks，GAN）作为典型的生成式模型，其生成器具有生成数据样本的能力，这种能力在一定程度上反映了它对事物的理解。因此，GAN有望加深人工智能的理解层面的研。然而，用于训练GAN模型的数据集的需求越来越庞大，庞大的数据采集制作需要庞大的成本，且操作复杂。

发明内容

本发明实施例提供一种基于生成对抗网络的图像风格迁移方法、装置及相关设备，能够实现对图像的风格迁移，生成多样性图像，有助于扩充数据集，并且成本低下，简单易于实现。

为了解决上述技术问题，本发明一方面提供一种基于生成对抗网络的图像风格迁移方法，包括：

构建包括生成器和判别器的生成对抗网络模型，并初始化所述生成器的权重参数，所述生成器包括编码器

和自注意机制模块，所述编码器

包括内容掩码生成器

和注意力掩码生成器

；

获取训练样本图像

；

利用所述训练样本图像

对所述生成对抗网络模型进行训练，直至所述生成器和判别器达到纳什平衡，从而得到训练好的生成对抗网络模型；

将待风格迁移图像输入至训练好的生成对抗网络模型中，得到风格迁移后图像；

其中，利用所述训练样本图像

对所述生成对抗网络模型进行训练具体包括以下步骤：

步骤a：通过所述内容掩码生成器

对所述训练样本图像

进行风格初始迁移，得到风格化初始图像，然后利用所述自注意机制模块对所述风格化初始图像进行风格突出处理，得到内容掩码图像

；

步骤b：通过所述注意力掩码生成器

分离所述训练样本图像

的前景和背景，从而得到前景注意力掩码图像

和背景注意力掩码图像

；

步骤c：将所述内容掩码图像

和所述前景注意力掩码图像

进行像素级乘法，得到前景图像

；

步骤d：将所述训练样本图像

与所述背景注意力掩码图像

进行像素级乘法，得到背景图像B1；

步骤e：将所述前景图像

和所述背景图像

进行像素级加法，从而得到风格化目标图像；

步骤f：利用所述判别器对所述风格化目标图像进行真假打分，从而得到打分结果，并根据所述打分结果更新所述生成器的权重参数；

步骤g：将所述风格化目标图像作为训练样本图像输入至更新权重参数后的所述生成器中，并重复执行上述步骤

步骤

，直至所述生成器和所述判别器达到纳什平衡。

更进一步地，所述内容掩码生成器

包括依次连接的归一化模块、下采样模块和上采样模块；

所述归一化模块用于对所述训练样本图像

进行归一化处理；所述下采样模块用于提取归一化处理后的所述训练样本图像

的图像特征，所述上采样模块用于将预设的风格特征与所述图像特征进行合成，从而得到风格化初始图像。

更进一步地，所述归一化模块包括3层归一化层；

所述下采样模块包括依次连接的4个卷积层+最大池化层组合以及6个或者9个残差层，所述卷积层为10层卷积核为

的卷积层，所述最大池化层为10层

的最大池化层；其中所述下采样模块的所述卷积层均利用ReLU进行非线性激活；

所述上采样模块包括依次连接的4个反卷积层+卷积层组合，所述反卷积层为10层卷积核为

的反卷积层，所述上采样模块的所述卷积层为10层卷积核为

的卷积层，其中所述上采样模块的所述卷积层利用ReLU进行非线性激活。

更进一步地，所述判别器包括依次连接的2层步长为2且filter为64的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为128的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为256的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为512的Convolution-BatchNorm-LeakyReLU层、1层步长为1且filter为1的Convolution-biase层以及sigmoid层。

更进一步地，所述生成器的权重参数包括lambda A、lambda B、lambda identity、batchsize大小、niter、niter decay、display_freq以及print_freq；

所述初始化所述生成器的权重参数包括：设置所述权重参数的初始值分别为：所述lambda A的取值范围为0~10，所述lambda B的取值范围为0~10，所述lambda identity的取值范围为0~1，所述batchsize的大小为16、32或者64，所述niter 的取值为1，所述niterdecay的取值为1，所述display_freq和所述print_freq的取值均为1。

更进一步地，所述训练样本图像

的大小为

。

本发明另一方面还提供一种基于生成对抗网络的图像风格迁移装置，包括：

构建单元，用于构建包括生成器和判别器的生成对抗网络模型，并初始化所述生成器的权重参数，所述生成器包括编码器

和自注意机制模块，所述编码器

包括内容掩码生成器

和注意力掩码生成器

；

获取单元，用于获取训练样本图像

；

训练单元，用于利用所述训练样本图像

风格迁移单元，用于将待风格迁移图像输入至训练好的生成对抗网络模型中，得到风格迁移后图像；

其中，所述训练单元具体用于执行如下步骤：

步骤a：通过所述内容掩码生成器

对所述训练样本图像

；

步骤b：通过所述注意力掩码生成器

分离所述训练样本图像

的前景和背景，从而得到前景注意力掩码图像

和背景注意力掩码图像

；

步骤c：将所述内容掩码图像

和所述前景注意力掩码图像

进行像素级乘法，得到前景图像

；

步骤d：将所述训练样本图像

与所述背景注意力掩码图像

进行像素级乘法，得到背景图像

；

步骤e：将所述前景图像

和所述背景图像

进行像素级加法，从而得到风格化目标图像；

步骤

，直至所述生成器和所述判别器达到纳什平衡。

更进一步地，所述内容掩码生成器

包括依次连接的归一化模块、下采样模块和上采样模块；

所述归一化模块用于对所述训练样本图像

本发明的又一方面还提供一种计算机设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项所述的图像风格迁移方法中的步骤。

本发明的又一方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的图像风格迁移方法中的步骤。

有益效果：本发明的基于生成对抗网络的图像风格迁移方法中，首先构建包括生成器和判别器的生成对抗网络模型，并初始化所述生成器的权重参数，所述生成器包括编码器

和自注意机制模块，所述编码器

包括内容掩码生成器

和注意力掩码生成器

；然后获取训练样本图像

；利用所述训练样本图像

对所述生成对抗网络模型进行训练，直至所述生成器和判别器达到纳什平衡，从而得到训练好的生成对抗网络模型；其中在训练过程中，通过所述内容掩码生成器

和所述自注意机制模块得到内容掩码图像

，通过所述注意力掩码生成器

得到前景注意力掩码图像

和背景注意力掩码图像

，然后将所述内容掩码图像

和所述前景注意力掩码图像

进行像素级乘法，得到前景图像

；将所述训练样本图像

与所述背景注意力掩码图像

进行像素级乘法，得到背景图像

；将所述前景图像

和所述背景图像

进行像素级加法，从而得到风格化目标图像；之后利用所述判别器对所述风格化目标图像进行真假打分，并根据所述打分结果更新所述生成器的权重参数；将所述风格化目标图像作为训练样本图像输入至更新权重参数后的所述生成器中，并重复执行上述训练步骤，直至所述生成器和所述判别器达到纳什平衡，从而得到训练好的生成对抗网络模型，之后将待风格迁移图像输入至训练好的生成对抗网络模型中，得到风格迁移后图像，通过上述方式，能够实现对图像的风格迁移，生成多样性图像，有助于扩充数据集，并且成本低下，简单易于实现。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其有益效果显而易见。

图1是本发明实施例提供的图像风格迁移方法的流程图；

图2是本发明实施例提供的训练生成对抗网络模型的流程图；

图3是本发明实施例提供的训练生成对抗网络模型的流程框架示意图；

图4是本发明实施例提供的内容掩码生成器

的信号处理流程示意图；

图5是本发明实施例提供的图像风格迁移装置的结构示意图；

图6是本发明实施例提供的计算机设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

参阅图1，本发明实施例提供的一种基于生成对抗网络的图像风格迁移方法中，具体包括以下步骤：

步骤S101：构建包括生成器和判别器的生成对抗网络模型，并初始化所述生成器的权重参数，所述生成器包括编码器

和自注意机制模块，所述编码器

包括内容掩码生成器

和注意力掩码生成器

。

其中，所述生成器的权重参数包括如下参数：lambda A、lambda B、lambdaidentity、batchsize大小、niter、niter decay、display_freq以及print_freq，其中所述初始化所述生成器的权重参数具体包括：设置所述权重参数的初始值分别为：所述lambdaA的取值范围为0~10，所述lambda B的取值范围为0~10，所述lambda identity的取值范围为0~1，所述batchsize的大小为16、32或者64，所述niter 的取值为1，所述niter decay的取值为1，所述display_freq和所述print_freq的取值均为1。

在一些实现方式中，lambda A和lambda B的取值可以是10或者其他数值，lambdaidentity的取值可以是1或者也可以是其他数值，可根据实际需要进行选择。

步骤S102：获取训练样本图像

。其中，训练样本图像

的大小例如可以是256* 256

步骤S103：利用所述训练样本图像

对所述生成对抗网络模型进行训练，直至所述生成器和判别器达到纳什平衡，从而得到训练好的生成对抗网络模型。

步骤S104：将待风格迁移图像输入至训练好的生成对抗网络模型中，得到风格迁移后图像。

更具体地，参阅图2，并结合图3，本实施例中，步骤S103具体包括以下步骤：

步骤a：通过所述内容掩码生成器

对所述训练样本图像

。

步骤b：通过所述注意力掩码生成器

分离所述训练样本图像

的前景和背景，从而得到前景注意力掩码图像

和背景注意力掩码图像

。

其中，所述注意力掩码生成器

通过对所述训练样本图像

的前景和背景权重进行赋值从而分离所述训练样本图像

的前景和背景。

步骤c：将所述内容掩码图像

和所述前景注意力掩码图像

进行像素级乘法，得到前景图像

。

步骤d：所述训练样本图像

与所述背景注意力掩码图像

进行像素级乘法，得到背景图像

。

步骤e：将所述前景图像

和所述背景图像

进行像素级加法，从而得到风格化目标图像。

步骤f：利用所述判别器对所述风格化目标图像进行真假打分，从而得到打分结果，并根据所述打分结果更新所述生成器的权重参数。通过更新所述生成器的权重参数，从而不断优化所述生成器。

步骤

，直至所述生成器和所述判别器达到纳什平衡。

通过上述的训练过程，可以得到训练好的生成对抗网络模型。

其中，本发明的实施例中，所述内容掩码生成器

包括依次连接的归一化模块、下采样模块和上采样模块。其中，所述归一化模块用于对所述训练样本图像

进行归一化处理，以此来防止出现梯度爆炸和梯度消失的问题。所述下采样模块用于提取归一化处理后的所述训练样本图像

更具体地，所述归一化模块包括3层归一化层。

如图4所示，所述下采样模块包括依次连接的4个卷积层+最大池化层组合以及6个或9个残差层，其中所述卷积层为10层卷积核为

的卷积层，所述最大池化层为10层

的最大池化层。具体而言，信号输入至下采样模块时，依次会经过10层卷积核为

的第一卷积层、10层

的第一最大池化层、10层卷积核为

的第二卷积层、10层

的第二最大池化层、10层卷积核为

的第三卷积层、10层

的第三最大池化层、10层卷积核为

的第四卷积层、10层

的第四最大池化层以及6个或者9个残差层；其中所述下采样模块的第一至第四卷积层均利用

进行非线性激活。

的反卷积层，所述上采样模块的所述卷积层为10层卷积核为

的卷积层，其中所述上采样模块的所述卷积层利用

进行非线性激活。具体而言，信号输入至上采样模块时，依次会经过10层卷积核为

的第一反卷积层、10层卷积核为

的第一卷积层、10层卷积核为

的第二反卷积层、10层卷积核为

的第二卷积层、10层卷积核为

的第三反卷积层、10层卷积核为

的第三卷积层、10层卷积核为

的第四反卷积层以及10层卷积核为

的第四卷积层。

需要说明的是，在图4中，图中的左半部分表示下采样模块的信号处理过程，图中的右半部分表示上采样模块的信号处理过程，图中的不同类型的箭头表示对信号的不同操作。

其中，所述判别器包括依次连接的2层步长为2且filter为64的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为128的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为256的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为512的Convolution-BatchNorm-LeakyReLU层、1层步长为1且filter为1的Convolution-biase层以及sigmoid层。

通过本发明的图像风格迁移方法，可以实现将一张输入图像转化为风格迁移后的另一张图像，由此，当需要扩充一个训练集时，可以将具有不同风格的训练样本的训练集输入至本发明的生成对抗网络模型中，将训练集中的训练样本进行风格迁移，从而可以得到风格迁移后的训练集，该风格迁移后的训练集可以作为原来训练集的扩充，由此有利于训练集的扩充，且算法简单易于实现，成本低，可靠性高。

参阅图5，本发明实施例提供的基于生成对抗网络的图像风格迁移装置500中，该图像风格迁移装置500包括构建单元51、获取单元52、训练单元53以及风格迁移单元54。

其中，所述构建单元51用于构建包括生成器和判别器的生成对抗网络模型，并初始化所述生成器的权重参数，所述生成器包括编码器

和自注意机制模块，所述编码器

包括内容掩码生成器

和注意力掩码生成器

。所述获取单元52用于获取训练样本图像

。所述训练单元53用于利用所述训练样本图像

对所述生成对抗网络模型进行训练，直至所述生成器和判别器达到纳什平衡，从而得到训练好的生成对抗网络模型。所述风格迁移单元54用于将待风格迁移图像输入至训练好的生成对抗网络模型中，得到风格迁移后图像。

更具体地，所述训练单元53具体用于执行如下步骤：

步骤a：通过所述内容掩码生成器

对所述训练样本图像

；

步骤b：通过所述注意力掩码生成器

分离所述训练样本图像

的前景和背景，从而得到前景注意力掩码图像

和背景注意力掩码图像

；

步骤c：将所述内容掩码图像

和所述前景注意力掩码图像

进行像素级乘法，得到前景图像

；

步骤d：将所述训练样本图像

与所述背景注意力掩码图像

进行像素级乘法，得到背景图像

；

步骤e：将所述前景图像

和所述背景图像

进行像素级加法，从而得到风格化目标图像；

步骤

，直至所述生成器和所述判别器达到纳什平衡。

通过本发明的图像风格迁移装置500，可以实现对图像风格的迁移，从而有利于数据集的扩充，且实现过程简单、成本低且可靠性高。

参见图6，图6是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备600包括：存储器602、处理器601及存储在存储器602上并可在处理器上运行的计算机程序，处理器601执行计算机程序时实现上述实施例提供的基于生成对抗网络的图像风格迁移方法中的步骤。

本发明实施例提供的计算机设备600能够实现上述方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的基于生成对抗网络的图像风格迁移方法中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存取存储器（Random Access Memory，简称RAM）等。

以上对本发明实施例所提供的一种基于生成对抗网络的图像风格迁移方法、装置及其相关设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于生成对抗网络的图像风格迁移方法，其特征在于，包括：

构建包括生成器和判别器的生成对抗网络模型，并初始化所述生成器的权重参数，所述生成器包括编码器Ge和自注意机制模块，所述编码器Ge包括内容掩码生成器Gc和注意力掩码生成器Ga；

获取训练样本图像X；

利用所述训练样本图像X对所述生成对抗网络模型进行训练，直至所述生成器和判别器达到纳什平衡，从而得到训练好的生成对抗网络模型；

其中，利用所述训练样本图像X对所述生成对抗网络模型进行训练具体包括以下步骤：

步骤a：通过所述内容掩码生成器Gc对所述训练样本图像X进行风格初始迁移，得到风格化初始图像，然后利用所述自注意机制模块对所述风格化初始图像进行风格突出处理，得到内容掩码图像C1；其中所述内容掩码生成器Gc包括依次连接的归一化模块、下采样模块和上采样模块；所述归一化模块用于对所述训练样本图像X进行归一化处理；所述下采样模块用于提取归一化处理后的所述训练样本图像X的图像特征，所述上采样模块用于将预设的风格特征与所述图像特征进行合成，从而得到风格化初始图像；

步骤b：通过所述注意力掩码生成器Ga分离所述训练样本图像X的前景和背景，从而得到前景注意力掩码图像Af和背景注意力掩码图像Ab；

步骤c：将所述内容掩码图像C1和所述前景注意力掩码图像Af进行像素级乘法，得到前景图像F1；

步骤d：将所述训练样本图像X与所述背景注意力掩码图像Ab进行像素级乘法，得到背景图像B1；

步骤e：将所述前景图像F1和所述背景图像B1进行像素级加法，从而得到风格化目标图像；

步骤g：将所述风格化目标图像作为训练样本图像输入至更新权重参数后的所述生成器中，并重复执行上述步骤a~步骤f，直至所述生成器和所述判别器达到纳什平衡。

2.根据权利要求1所述的图像风格迁移方法，其特征在于，所述归一化模块包括3层归一化层；

所述下采样模块包括依次连接的4个卷积层+最大池化层组合以及6个或者9个残差层，所述卷积层为10层卷积核为3*3的卷积层，所述最大池化层为10层2*2的最大池化层；其中所述下采样模块的所述卷积层均利用ReLU进行非线性激活；

所述上采样模块包括依次连接的4个反卷积层+卷积层组合，所述反卷积层为10层卷积核为2*2的反卷积层，所述上采样模块的所述卷积层为10层卷积核为3*3的卷积层，其中所述上采样模块的所述卷积层利用ReLU进行非线性激活。

3.根据权利要求1所述的图像风格迁移方法，其特征在于，所述判别器包括依次连接的2层步长为2且filter为64的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为128的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为256的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为512的Convolution-BatchNorm-LeakyReLU层、1层步长为1且filter为1的Convolution-biase层以及sigmoid层。

4.根据权利要求1所述的图像风格迁移方法，其特征在于，所述生成器的权重参数包括lambda A、lambda B、lambda identity、batchsize大小、niter、niter decay、display_freq以及print_freq；

5.根据权利要求1所述的图像风格迁移方法，其特征在于，所述训练样本图像X的大小为256*256。

6.一种基于生成对抗网络的图像风格迁移装置，其特征在于，包括：

构建单元，用于构建包括生成器和判别器的生成对抗网络模型，并初始化所述生成器的权重参数，所述生成器包括编码器Ge和自注意机制模块，所述编码器Ge包括内容掩码生成器Gc和注意力掩码生成器Ga；

获取单元，用于获取训练样本图像X；

训练单元，用于利用所述训练样本图像X对所述生成对抗网络模型进行训练，直至所述生成器和判别器达到纳什平衡，从而得到训练好的生成对抗网络模型；

其中，所述训练单元具体用于执行如下步骤：

7.一种计算机设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的图像风格迁移方法中的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的图像风格迁移方法中的步骤。