CN116310712A

CN116310712A - 一种基于循环生成对抗网络的图像水墨风格迁移方法及系统

Info

Publication number: CN116310712A
Application number: CN202310097882.7A
Authority: CN
Inventors: 周宁宁; 杨洁; 周祺
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-06-23

Abstract

本发明公开了一种基于循环生成对抗网络的图像水墨风格迁移方法及系统，包括：获取包含水墨风格图像、现实拍照图像的数据集；利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练，得到训练好的图像水墨风格迁移模型；其中所述基于循环生成对抗网络的图像水墨风格迁移模型包括两个生成器和两个判别器；将待迁移的现实图像输入到训练好的图像水墨风格迁移模型中，得到相对应的水墨风格迁移图像。对循环生成对抗网络中的两个生成网络进行了改进，在两个生成器中分别加入自适应归一化结构和置换注意力机制。本发明能够快速有效可靠的合成真实感更强的水墨风格图像，提高合成图像的真实感和视觉质量，扩大应用范围与应用场景。

Description

一种基于循环生成对抗网络的图像水墨风格迁移方法及系统

技术领域

本发明属于计算机视觉领域，具体涉及一种基于循环生成对抗网络的图像水墨风格迁移方法及系统。

背景技术

图像风格迁移是深度学习领域内一中新兴的技术。由于图像风格概念非常抽象，计算机对图像的处理过程中仅是一些像素点，不能像人类一样对不同风格进行分辨，所以人们期望通过对图像进行风格特征的提取来解决这一问题。

随着深度学习的发展，现已可以使用深度神经网络来学习图像里面的抽象风格特征。相较于油画、动画、西方艺术风格画作仿真技术，水墨画的仿真研究要滞后西方艺术研究很多。

发明内容

生成对抗网络是生成模型的一种神经网络架构，近几年广泛应用于图像生成领域，如生成图像数据集、生成人脸图片、风格迁移等，生成对抗网络是神经网络发展的产物，也是近几年深度学习中较为活跃的领域，它实际上是利用了博弈的思想优化生成器，再在完成训练后复用生成器生成数据。

本发明的目的在于提供一种基于循环生成对抗网络的图像水墨风格迁移方法及系统，使生成的中国风水墨风格图像具有一定的通用性和易用性。

为达到上述目的，本发明所采用的技术方案是：

第一方面，提供了一种基于循环生成对抗网络的图像水墨风格迁移方法，包括：

获取包含水墨风格图像、现实拍照图像的数据集；

利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练，得到训练好的图像水墨风格迁移模型；其中所述基于循环生成对抗网络的图像水墨风格迁移模型包括两个生成器和两个判别器；

将待迁移的现实图像输入到训练好的图像水墨风格迁移模型中，得到相对应的水墨风格迁移图像。

在一些实施例中，利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练，包括：

在第一生成器中加入自适应归一化结构AdaIN，固定第一生成器，根据数据集中的水墨风格图像和第一生成器随机生成的水墨图像训练第一判别器；

固定第一判别器，利用第一生成器-第一判别器串接网络，训练第一生成器，使其生成与输入的水墨风格图像相近的水墨图像；

在第二生成器中加入置换注意力机制SA，固定循环生成对抗网络中的第二生成器，根据数据集中的现实拍照图像和第二生成器随机生成的现实图像训练第二判别器；

固定第二判别器，利用第二生成器-第二判别器串接网络，训练第二生成器，使其生成与输入的现实拍照图像相近的现实图像。

进一步地，在一些实施例中，在第一生成器中，对所有的输入数据用自适应归一化结构AdaIN进行归一化处理，归一化处理过程包括：

其中，x和y分别表示两种输入的图像风格，μ(x)表示原始风格图的均值，σ(x)表示原始风格图的方差，μ(y)表示水墨风格图的均值，σ(y)表示水墨风格图的方差，AdaIN(x,y)表示归一化处理后的输出结果。

进一步地，在一些实施例中，在第二生成器中，编码器与解码器之间使用置换注意力机制SA，置换注意力机制的处理过程包括：

特征分组模块Feature Grouping用于对输入特征进行分组；设输入特征为X∈R^C ^×H×W,将输入特征X沿着通道维度拆分为g组：X＝[X₁,......,X_G],R^C/G×H×W；对于每组特征，通过空域注意力与通道注意力模块生成不同的重要性系数；分组后的每个子特征X_k将被沿着通道维度拆分成两个分支：X_K1,X_K2∈R^C/2G×H×W，一个分支用于学习通道注意力特征，一个分支用于学习空域注意力特征；

其中，X表示输入的特征图，C表示特征图通道数，H表示特征图的高，W表示特征图的宽，G表示拆分的通道数，X_K表示分组后的每个子特征；

通道注意力模块Channel Attention采用全局平均池化GAP+权重Scale+激活函数Sigmoid的组合，过程包括：

X′_k1＝σ(F_C(s))·X_k1＝σ(W_1s+b₁)·X_k1

其中，s和F_gp(x_k1)是全局平均池化操作后的输出，X'_k1是通道注意力模块输出的通道注意力特征；W₁∈R^C/2G×1×1和b₁∈R^C/2G×1×1是用于缩放和平移的参数，σ表示sigmoid函数，F_C(·)指池化操作后的通道c的输出；

空域注意力模块Spatial Attention是通道注意力的一个互补，过程包括：

X'_k2＝σ(W₂·GN(X_k2)+b2)·X_k2

其中，X'_k2是空域注意力模块输出的空域注意力特征；W₂和b₂是带有形状的参数R^C ^/2G×1×1，采用组归一化Group Norm对X_k2进行处理得到空域层面的统计信息，然后采用F_C(·)进行增强；

集成模块Aggregation用于对通道注意力特征X′_k1和空域注意力特征X′_k2进行集成：首先通过Concat进行融合，得到：X'_k＝[X'_k1,X'_k2]∈R^C/2G×H×W；最后，采用通道置换操作进行组间通信；SA的最终输出具有与输入相同的尺寸，使SA嵌入到循环生成对抗网络的第二生成器中。

第二方面，本发明提供了一种基于循环生成对抗网络的图像水墨风格迁移系统，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明中根据水墨图像留白、笔触、水墨渲染的三大特点，训练数据集，改进循环对抗生成网络的两个生成器，使网络模型在迭代训练的过程中，生成更逼真的水墨画图片；本发明构建的生成网络比传统网络更适用于中国风水墨画图像的生成，填补了水墨画生成图像的空缺，具有一定的实用意义。

本发明的方法或系统，能够快速有效可靠的合成真实感更强的中国风水墨图像，提高生成图像的真实感和视觉质量，扩大应用范围与应用场景。

附图说明

图1为本发明实施例的一种基于循环生成对抗网络的图像水墨风格迁移方法流程图；

图2为本发明实施例的一种基于循环生成对抗网络的图像水墨风格迁移方法的网络流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1

如图1所示，一种基于循环生成对抗网络的图像水墨风格迁移方法，包括：

获取包含水墨风格图像、现实拍照图像的数据集；

利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练，得到训练好的图像水墨风格迁移模型；其中所述基于循环生成对抗网络的图像水墨风格迁移模型包括两个生成器和两个判别器，如图2所示；

在一些实施例中，获取包含水墨风格图像、现实拍照图像的数据集，还包括：对数据集内的图片数据并进行预处理操作。

进一步地，预处理操作包括调整图片大小、随机剪裁，随机水平反转、归一化。

调整图片的大小，计算过程包括：

resize＝transforms.Resize(H,W) (1)

img2＝resize(img) (2)

其中，transform.Resize表示调整图片大小的函数，暂存在resize中，H和W分别代表调整后的图像的宽和高，img输入图像，img2是调整大小后的输出图像。

对输入图像进行随机剪裁，过程包括：

img2＝Crop(size,padding,pad_if_needed,fill,mode)(img) (3)

其中，Crop随机剪裁函数transforms.RandomCrop，size表示期望随机裁剪之后输出的尺寸，padding表示填充边界的值，pad_if_needed表示bool值，避免数组越界，fill表示填充，mode表示填充模式，img表示原始的输入图片，img2表示最终的输出图片。

对输入图片进行随机水平翻转，过程包括：

img2＝Flip(P)(img) (4)

其中，img表示原始输入图像，img2表示翻转后的输出图像，Filp表示随机水平翻转函数transforms.RandomHorizontalFlip，P表示图片执行水平翻转的概率。

在第一生成器中，对所有的输入数据用自适应归一化结构AdaIN进行归一化处理，过程包括：

在第二生成器中，在编码器与解码器之间加入注意力机制SA，过程包括：

Feature Grouping：主要用于对输入特征进行分组。若输入特征为X∈R^C×H×W,该步骤会将输入X沿着通道维度拆分为g组：X＝[X₁,......,X_G],R^C/G×H×W。对于每组特征，通过Spatial与Channel注意力模块生成不同的重要性系数。具体来说，特征X_k将被沿着通道维度拆分成两个分支：X_K1,X_K2∈R^C/2G×H×W，一个分支用于学习通道注意力特征，一个分支用于学习空域注意力特征。

其中，X表示输入的特征图，C表示特征图通道数，H表示特征图的高，W表示特征图的宽，G表示拆分的通道数，X_K表示每个子特征。

Channel Attention：在通道注意力实现方面，为尽可能的轻量化，采用GAP+Scale+Sigmoid的组合，过程包括：

X'_k1＝σ(F_C(s))·X_k1＝σ(W_1s+b₁)·X_k1 (7)

其中，W₁∈R^C/2G×1×1和b₁∈R^C/2G×1×1是用于缩放和平移的参数，σ表示sigmoid函数。

Spatial Attention：空域注意力，是通道注意力的一个互补，过程包括：

X'_k2＝σ(W₂·GN(X_k2)+b2)·X_k2 (8)

其中，W₂和b₂是带有形状的参数R^C/2G×1×1，在实现方面，采用Group Norm(GN)对X_k2进行处理得到空域层面的统计信息，然后采用F_C(·)进行增强。

Aggregation：在完成前面两种注意力计算后，对其进行集成，首先通过Concat进行融合，得到：X'_k＝[X'_k1,X'_k2]∈R^C/2G×H×W。最后，类似ShuffleNetV2，采用通道置换操作进行组间通信。SA的最终输出具有与输入相同的尺寸，使SA可以嵌入到循环生成对抗网络的第二生成器中。

在所有的生成器中使用ReLu激活函数，过程包括：

其中，f(x)表示ReLu激活函数，x表示来自上一层神经网络的输入向量。

在所有的判别器中使用LeakyReLu激活函数，过程包括：

其中，α表示一个极小的常数。

使用对抗损失和循环一致性损失得到总损失函数，过程包括：

L(G,F,D_X,D_Y)＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,X,Y)+λL_cycle(G,F) (11)

其中，L表示总损失函数，L_GAN表示对抗损失，L_cycle表示循环一致性损失，G表示第一生成器，F表示第二生成器，D_X表示第一判别器，D_Y表示第二判别器，X表示输入的水墨风格图像，Y表示输入的现实风格图像，L_cycle(G,F)为循环一致性损失，λ为循环一致性损失和对抗损失的权重比。

对抗损失L_GAN(G,D_Y,X,Y)和L_GAN(F,D_X,X,Y),过程包括：

其中，L_GAN(G,D_Y,X,Y)表示第一生成器和第一判别器之间的对抗损失，

表示在Y空间中取的样本，/>

表示从X空间中取的样本。y表示Y空间中取得的样本，x表示从X空间中取得的样本，G(x)表示第一生成器生成的图片，D_Y(y)表示使用第一判别器判断y为Y空间中取得的样本的概率，D_Y(G(x))表示使用第一判别器判断G(x)为Y空间中取得的样本的概率。

其中，L_GAN(F,D_X,X,Y)表示第二生成器和第二判别器之间的对抗损失，F(y)表示第二生成器生成的图片，D_X(x)表示使用第二判别器判断x为X空间中取得的样本的概率，D_X(F(x))表示使用第二判别器判断F(x)为X空间中取得的样本的概率。

循环一致性损失L_cycle(G,F)，过程包括：

其中，F(G(x))为输入为G(x)时，第二生成器输出的图片数据，G(F(y))表示输入为F(y)时，第一生成器输出的图片数据。

实施例2

第二方面，本实施例提供了一种基于循环生成对抗网络的图像水墨风格迁移系统，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

在一些实施例中，一种基于循环生成对抗网络的图像水墨风格迁移系统，包括：

数据读取模块：在开始网络训练之前，读取数据集内的图片数据并进行预处理操作，包括调整图片大小、随机剪裁、随即水平反转、归一化。

训练模块：根据数据集中的真实图像和生成器随机生成的图像训练判别器，然后生成器-判别器串接网络迭代地训练生成器，计算出在训练过程中输入图片与输出图片之间的对抗损失和原始输入图像与重建图像之间的循环一致性损失。

图片生成模块：将网络训练完成之后，将待迁移为水墨风格图像的原始图像输入改进后的水墨画循环生成对抗网络，得到与原始图像内容相对应、水墨图像风格相对应的输出图像。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于循环生成对抗网络的图像水墨风格迁移方法，其特征在于，包括：

获取包含水墨风格图像、现实拍照图像的数据集；

2.根据权利要求1所述的基于循环生成对抗网络的图像水墨风格迁移方法及系统，其特征在于，利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练，包括：

3.根据权利要求2所述的基于循环生成对抗网络的图像水墨风格迁移方法，其特征在于，在第一生成器中，对所有的输入数据用自适应归一化结构AdaIN进行归一化处理，归一化处理过程包括：

4.根据权利要求2所述的种基于循环生成对抗网络的图像水墨风格迁移方法，其特征在于，在第二生成器中，编码器与解码器之间使用置换注意力机制SA，置换注意力机制的处理过程包括：

特征分组模块用于对输入特征进行分组；设输入特征为X∈R^C×H×W,将输入特征X沿着通道维度拆分为g组：X＝[X₁,......,X_G],R^C/G×H×W；对于每组特征，通过空域注意力与通道注意力模块生成不同的重要性系数；分组后的每个子特征X_k将被沿着通道维度拆分成两个分支：X_K1,X_K2∈R^C/2G×H×W，一个分支用于学习通道注意力特征，一个分支用于学习空域注意力特征；

通道注意力模块采用全局平均池化GAP+权重Scale+激活函数Sigmoid的组合，过程包括：

X′_k1＝σ(F_C(s))·X_k1＝σ(W_1s+b₁)·X_k1

其中，s和F_gp(x_k1)是全局平均池化操作后的输出，X′_k1是通道注意力模块输出的通道注意力特征；W₁∈R^C/2G×1×1和b₁∈R^C/2G×1×1是用于缩放和平移的参数，σ表示sigmoid函数，F_C(·)指池化操作后的通道c的输出；

空域注意力模块是通道注意力的一个互补，过程包括：

X′_k2＝σ(W₂·GN(X_k2)+b2)·X_k2

其中，X′_k2是空域注意力模块输出的空域注意力特征；W₂和b₂是带有形状的参数R^C ^/2G×1×1，采用组归一化对X_k2进行处理得到空域层面的统计信息，然后采用F_C(·)进行增强；

集成模块用于对通道注意力特征X′_k1和空域注意力特征X′_k2进行集成：首先通过Concat进行融合，得到：X′_k＝[X′_k1,X′_k2]∈R^C/2G×H×W；最后，采用通道置换操作进行组间通信；SA的最终输出具有与输入相同的尺寸，使SA嵌入到循环生成对抗网络的第二生成器中。

5.根据权利要求1所述的基于循环生成对抗网络的图像水墨风格迁移方法及系统，其特征在于，获取包含水墨风格图像、现实拍照图像的数据集，还包括：对数据集内的图片数据并进行预处理操作。

6.根据权利要求5所述的基于循环生成对抗网络的图像水墨风格迁移方法及系统，其特征在于，预处理操作包括调整图片大小、随机剪裁，随机水平反转、归一化。

7.根据权利要求6所述的基于循环生成对抗网络的图像水墨风格迁移方法及系统，其特征在于，调整图片大小包括：

resize＝transforms.Resize(H,W)

img2＝resize(img)

其中，transform.Resize表示调整图片大小的函数，暂存在resize中，H和W分别代表调整后的图像的宽和高，img输入图像，img2是调整大小后的输出图像；

和/或，随机剪裁包括：

img2＝Crop(size,padding,pad_if_needed,fill,mode)(img)

其中，Crop随机剪裁函数transforms.RandomCrop，size表示期望随机裁剪之后输出的尺寸，padding表示填充边界的值，pad_if_needed表示bool值，避免数组越界，fill表示填充，mode表示填充模式，img表示原始的输入图片，img2表示最终的输出图片；

和/或，随机水平翻转包括：

img2＝Flip(P)(img)

8.根据权利要求1所述的基于循环生成对抗网络；的图像水墨风格迁移方法及系统，其特征在于，所述基于循环生成对抗网络的图像水墨风格迁移模型的训练过程中采用的总损失函数L(G,F,D_X,D_Y)为：

L(G,F,D_X,D_Y)＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,X,Y)+λL_cycle(G,F)

其中，L(G,F,D_X,D_Y)表示总损失函数，L_GAN表示对抗损失，L_cycle表示循环一致性损失，G表示第一生成器，F表示第二生成器，D_X表示第一判别器，D_Y表示第二判别器，X表示输入的水墨风格图像，Y表示输入的现实风格图像，L_cycle(G,F)为循环一致性损失，λ为循环一致性损失和对抗损失的权重比；

表示在Y空间中取的样本，/>

表示从X空间中取的样本；y表示Y空间中取得的样本，x表示从X空间中取得的样本，G(x)表示第一生成器生成的图片，D_Y(y)表示使用第一判别器判断y为Y空间中取得的样本的概率，D_Y(G(x))表示使用第一判别器判断G(x)为Y空间中取得的样本的概率；

其中，L_GAN(F,D_X,X,Y)表示第二生成器和第二判别器之间的对抗损失，F(y)表示第二生成器生成的图片，D_X(x)表示使用第二判别器判断x为X空间中取得的样本的概率，D_X(F(x))表示使用第二判别器判断F(x)为X空间中取得的样本的概率；

循环一致性损失L_cycle(G,F)为：

9.一种基于循环生成对抗网络的图像水墨风格迁移系统，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1至8任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。