CN116503499A

CN116503499A - 一种基于循环生成对抗网络的素描画生成方法及系统

Info

Publication number: CN116503499A
Application number: CN202310385438.5A
Authority: CN
Inventors: 李珍妮; 宋孟闯; 纪毅; 蔡奕辉; 韩明钰; 林庚鑫
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-28

Abstract

本发明公开了一种基于循环生成对抗网络的素描画生成方法及系统，该方法包括：获取素描画数据训练集；引入卷积注意力模块和自适应层实例残差块，以循环一致性损失函数为约束，构建循环生成对抗网络模型；将素描画数据训练集输入至循环生成对抗网络模型进行训练，生成素描画图像。该系统包括：获取模块、构建模块块和训练模块。通过使用本发明，能够通过增强素描画的纹理特征信息从而提高素描画的图像生成质量。本发明作为一种基于循环生成对抗网络的素描画生成方法及系统，可广泛应用于素描画生成技术领域。

Description

一种基于循环生成对抗网络的素描画生成方法及系统

技术领域

本发明涉及素描画生成技术领域，尤其涉及一种基于循环生成对抗网络的素描画生成方法及系统。

背景技术

素描画是我国艺术院校招生考试中一项重要的考试内容，其分值在艺术类高考总分中占较大的比例，在传统方法中，仍采用教师手工绘制来作为素描画的生成方法，但其作品绘画效率低、在绘画中带有主观性与教师水平参差不齐等问题，虽然现阶段涌现出了许多基于人工智能的素描画生成方法，例如有学者通过预训练模型VGG-19提出了一种基于卷积神经网络的风格转化方法，但是这种方法只提取了图像高层特征，摒弃了低层信息，因此风格化后的图像会出现细节丢失的情况，再者有科研人员基于全卷积神经网络对素描和照片进行训练，实现从照片到素描画的转化，但是这种方法得到的结果不够精细，比较模糊和平滑，对图像中的细节不敏感，另一种代表性的素描画生成方法是Pix2Pix，该模型通过使用CGAN作为图像生成的主框架，在生成器是使用的是经典的U-Net网络，增加了对图像细节特征的提取，但Pix2pix中的对抗训练不稳定，难以使模型生成高分辨率图像，而且此方法必须使用成对的图像作为源域和目标域，对训练时使用的数据集要求太高。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于循环生成对抗网络的素描画生成方法及系统，能够通过增强素描画的纹理特征信息从而提高素描画的图像生成质量。

本发明所采用的第一技术方案是：一种基于循环生成对抗网络的素描画生成方法，包括以下步骤：

获取素描画数据训练集；

引入卷积注意力模块和自适应层实例残差块，以循环一致性损失函数为约束，构建循环生成对抗网络模型；

将素描画数据训练集输入至循环生成对抗网络模型进行训练，生成素描画图像。

进一步，所述引入卷积注意力模块和自适应层实例残差块，以循环一致性损失函数为约束，构建循环生成对抗网络模型这一步骤，其具体包括：

以CycleGAN生成器为原型，引入卷积注意力模块和自适应层实例残差块，构建生成器网络；

根据循环一致性损失函数为约束，构建循环对抗损失函数，所述循环对抗损失函数包括均方误差损失函数、步骤损失函数、循环一致性损失函数和步骤循环一致性损失项；

选取马尔科夫判别器为判别器网络；

结合生成器网络、循环对抗损失函数和判别器网络，构建循环生成对抗网络模型。

进一步，所述将素描画数据训练集输入至循环生成对抗网络模型进行训练，生成素描画图像这一步骤，其具体包括：

基于循环生成对抗网络模型的生成器网络，对素描画数据训练集的不同特征与不同区域进行非均匀处理，得到细节增强的素描画数据训练集；

基于循环生成对抗网络模型的循环对抗损失函数，对循环生成对抗网络模型每次迭代的细节增强的素描画数据训练集与真实图像的差距进行计算，输出计算结果；

基于循环生成对抗网络模型的判别器网络，根据计算结果对细节增强的素描画数据训练集进行判别处理，循环生成对抗网络模型根据判别结果进行模型参数调整直至达到模型最优状态后输出素描画图像。

进一步，所述基于循环生成对抗网络模型的生成器网络，对素描画数据训练集的不同特征与不同区域进行非均匀处理，得到细节增强的素描画数据训练集这一步骤，其具体包括：

将素描画数据训练集图像输入至循环生成对抗网络模型的生成器网络，所述循环生成对抗网络模型的生成器网络包括下采样层、残差块、卷积注意力模块、自适应残差块和上采样层；

基于下采样层对素描画数据训练集进行特征提取，得到提取特征后的特征图；

基于残差块对提取特征后的特征图进行保留特征，得到保留原始图像特征的特征图；

基于卷积注意力模块对保留原始图像特征的特征图进行特征选择和增强，得到突出主要特征的特征图；

基于自适应层实例残差块对突出主要特征的特征图进行自适应地改善图像风格的传递，得到改善后的特征图；

基于上采样层对归一化后的改善后的特征图进行放大处理，得到具有风格特征的素描画图像即细节增强的素描画数据训练集。

进一步，所述基于卷积注意力模块对保留原始图像特征的特征图进行特征选择和增强，得到突出主要特征的特征图这一步骤，其具体包括：

将保留原始图像特征的特征图作为输入特征图输入至卷积注意力模块，所述卷积注意力模块包括通道注意力模块和空间注意力模块；

基于通道注意力模块对保留原始图像特征的特征图进行计算，输出一维的通道注意力权值；

基于空间注意力模块对经过通道注意力模块之后的特征图进行计算，输出二维的空间注意力权值；

整合具有一维的通道注意力权值与二维的空间注意力权值的特征图，得到突出主要特征的特征图。

进一步，所述基于通道注意力模块对保留原始图像特征的特征图进行计算，输出一维的通道注意力权值这一步骤，其具体包括：

基于通道注意力模块，通过全局最大池化和全局平均池化对输入特征图在空间维度上进行压缩，得到最大池化特征图和平均池化特征图；

通过由多层感知机组成的共享网络和sigmoid激活函数对最大池化特征图和平均池化特征图进行注意力计算，输出一维的通道注意力权值。

进一步，所述基于空间注意力模块对经过通道注意力模块之后的特征图进行计算，输出二维的空间注意力权值这一步骤，其具体包括：

基于空间注意力模块，沿着特征图的通道维度进行平均池化和最大池化操作，得到第一二维特征图与第二二维特征图；

对第一二维特征图与第二二维特征图进行拼接处理，得到拼接后的二维特征图；

对拼接后的二维特征图依次进行卷积处理与激活函数计算处理，输出二维的空间注意力权值。

进一步，自适应层实例残差块指在卷积操作之间嵌入自适应层实例归一化，其表达式具体如下所示：

上式中，AdaLIN(·)表示自适应层实例归一化函数，表示前一卷积层的输出，/>表示前一卷积层的输出/>经过实例归一化之后得到/>表示前一卷积层的输出/>经过层归一化之后得到/>γ、β通过网络计算得到，τ表示IN和LN分别所占的权重比，取值在[0,1]之间。

进一步，所述循环生成对抗网络模型的循环对抗损失函数的表达式具体如下所示：

L(G₊,G_-,D)＝L_LSGAN(G₊,G_-,D)+λ₁L_step(G₊,G_-)+λ₂L_cyc(G₊,G_-)+λ₃L_sc(G₊,G_-)

上式中，L(G₊,G_-,D)表示循环生成对抗网络模型的总损失函数，L_LSGAN(G₊,G_-,D)表示均方误差损失函数，L_step(G₊,G_-)表示步骤损失函数，L_cyc(G₊,G_-)表示循环一致性损失函数，L_sc(G₊,G_-)表示步骤循环一致性损失函数，G表示生成器，用来生成素描画图像，G₊表示根据当前输入前进k步后生成的图像，G_{_}表示后退k步后生成的图像，D表示判别器，用来判断图像是真实的还是生成器生成的，x₀表示输入图像，k表示生成器前进或后退以生成素描画图像的数字，表示输出图像，DEX(·)表示步骤预测函数，λ₁、λ₂和λ₃表示权重系数，/>表示分布函数的期望值。

本发明所采用的第二技术方案是：一种基于循环生成对抗网络的素描画生成系统，包括：

获取模块，用于获取素描画数据训练集；

构建模块，用于引入卷积注意力模块和自适应层实例残差块，以循环一致性损失函数为约束，构建循环生成对抗网络模型；

训练模块，用于将素描画数据训练集输入至循环生成对抗网络模型进行训练，生成素描画图像。

本发明方法及系统的有益效果是：本发明获取素描画作为数据训练集，进一步在原始CycleGAN网络基础上进行改进构建循环生成对抗网络模型(SM-GAN)，首先是优化生成器结构，在残差块后引入卷积注意力模块，其融合了空间注意力模块和通道注意力模块，可以非均匀地处理不同特征和不同区域，增强了图像细节，有利于提高输出图像的真实性和艺术性，其次在损失函数基础上进行改进，应用DEX模型来预测素描画的所属步骤类别，将生成器G分离为G₊和G_-，添加了步骤损失函数和步骤循环一致性损失项，使模型更加注重素描画的纹理特征等信息，减少无关区域的变化，增强了图像的细节，提高了图像的质量，最后加入了自适应层实例残差块，在解码器的残差层中加入自适应层实例归一化，自适应层实例归一化结合了实例归一化和层归一化的优点，使模型自适应地对风格进行处理，增强风格传递的效果，使模型更加注重更加关注人脸五官，如眼、嘴等重要区域，使生成的图像质量更佳。

附图说明

图1是本发明一种基于循环生成对抗网络的素描画生成方法的步骤流程图；

图2是本发明一种基于循环生成对抗网络的素描画生成系统的结构框图；

图3是本发明根据素描画绘画创作过程构建数据集的示意图；

图4是本发明构建循环生成对抗网络模型的生成器网络结构示意图；

图5是本发明生成器网络中卷积注意力模块的结构示意图；

图6是本发明卷积注意力模块中通道注意力模块的结构示意图；

图7是本发明卷积注意力模块中空间注意力模块的结构示意图；

图8是本发明生成器网络中自适应层实例残差块的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明提供了一种基于循环生成对抗网络的素描画生成方法，该方法包括以下步骤：

S1、构造数据集；

具体地，收集一批素描画作品，作为数据集用于模型的训练和测试，本发明把整个素描画的创作分成五个步骤，如图3所示，即“头像起形”、“明暗调子”、“颜色过渡”、“刻画细节”和“调整画面”，为了保证各个步骤标准的一致，所有素描画的图片都由专业美术老师进行筛选，为了保证模型的性能，最终收集到各个步骤的图片数据量应该保持均衡。

S2、构建循环生成对抗网络模型并进行训练(SM-GAN)。

具体地，搭建模型——SM-GAN，其生成器以CycleGAN的生成器为原型，对其原有损失函数进行改进，并引入卷积注意力模块和自适应层实例残差块，判别器为马尔科夫判别器(PatchGAN)，使模型更加注重图像的局部特征和纹理等信息，提升模型生成图像的质量；再次，利用素描画数据集训练模型；最后，读取生成器模型得到生成的素描画图像。

S21、优化生成器网络模块；

具体地，为了提高生成图像的质量，使模型生成的图像更加真实、自然，本发明在生成器的残差块后引入了卷积注意力模块和自适应层实例残差块，生成器结构改进前后的对比如图4所示，生成器由下采样区域、普通残差块和卷积注意力模块以及自适应层实例残差块组成的中间区域和上采样区域部分组成。

S211、引入卷积注意力模块；

具体地，注意力(attention)机制现在已被广泛地应用于深度学习的各个领域，无论是图像分割、语音处理，还是在计算机视觉和自然语言处理的各种不同类型的任务，注意力机制都在其中大放异彩，在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他信息，同理，当神经网络处理大量的信息输入时，快速聚焦其中一些关键信息来进行处理，这便是注意力机制，本发明采用卷积注意力模块，如图5所示，卷积注意力模块是一种结合了通道注意力模块和空间注意力模块两个维度的注意力模块，通过这两个模块分别对输入特征图在通道维度和空间维度进行自适应地特征选择和增强，突出主要特征，抑制无关特征，从而使网络更加关注目标的内容信息和位置信息，以提高网络的效果；

对于给定的特征图卷积注意力机制会沿着通道和空间两个独立的维度依次计算出一维的通道注意力权值/>和二维的空间注意力权值整个过程如下所示：

上式中，F表示输入的特征图，M_c表示一维的通道注意力权值，M_s表示二维的空间注意力权值，其中，如图5所示，输入特征图F经过通道注意力模块后得到M_c(F)再与F对应元素逐个相乘得到F′，F′通过空间注意力模块后得到M_s(F′)再与F′逐个相乘得到F″。

S2111、通道注意力模块；

具体地，在通道注意力模块中，特征图的每一个通道都被认为是一个特征检测器。通道注意力模块关注的是特征在通道间的关系，主要提取输入图像中有意义的内容信息，压缩输入特征图的空间维度信息，在CBAM中通道注意力模块同时采用全局平均池化和全局最大池化，其中平均池化反映了全局信息，最大池化反映了特征图中的突出特点，两种不同池化的同时使用可以提取更加丰富的高层次特征，通道注意力模块如图6所示；

对于输入的特征图，使用全局最大池化和全局平均池化在空间维度上对其进行压缩，得到最大池化特征和平均池化特征/>经过由多层感知机(Multi-LayerPerception，MLP)组成的共享网络和sigmoid激活函数得到通道注意力权值，计算过程如下式所示：

上式中，表示多层感知机的权重参数，AvgPool(·)表示平均池化操作，MaxPool(·)表示最大池化操作，σ表示sigmoid函数，/>表示平均池化特征，/>表示最大池化特征。

S2112、空间注意力模块；

具体地，参照图7，与通道注意力不同，空间注意力主要关注位置信息，其与通道注意力是互补的，通道注意力是为了寻找通道上的重要信息，而空间注意力则是在这个基础上，基于通道的维度，找到哪一块位置信息聚集的最多；

沿着通道维度应用平均池化和最大池化操作，得到两个二维特征图和/>然后将两个特征图拼接起来，将拼接后的特征图进行卷积操作，将得到的特征图通过激活函数得到最终的空间注意力权值/>其计算过程如下所示：

上式中，f^7×7表示卷积核为7×7的卷积操作，表示第一二维特征图，/>表示第二二维特征图，M_s(F)表示最终的空间注意力权值；

综上，本发明在残差块后加入卷积注意力模块，使模型关注通道和空间两个维度中有意义的特征，为了实现这一点，本发明在卷积操作后依次应用通道和空间注意力模块，使模型既关注通道特征信息，又关注空间位置信息，通过强调通道信息和空间位置信息中有意义的特征或抑制无关的特征，使模型更加关注人脸五官，如眼、嘴等重要区域，以及该区域的关键通道，进而生成更加真实的人脸图像。

S212、引入自适应层实例残差块(Adaptive-Layer-Instance resblock)；

具体地，在机器学习领域中，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性，原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价，其中，最典型的就是数据的归一化处理，简而言之，归一化的目的就是使得预处理的数据被限定在一定的范围内(比如[0,1]或者[-1,1])，从而消除奇异样本数据导致的不良影响；

自适应层实例残差块指在卷积操作之间嵌入自适应层实例归一化(Adaptive-Layer-Instance Normalization，AdaLIN)，自适应层实例归一化结合了实例归一化(Instance-Normalization)和层归一化(Layer-Normalization)，具体结构如图8所示；

每个特征图包含图像的样式和纹理信息，实例归一化可以规范每个图像的样式，逐通道计算均值和方差，即图像各通道之间无相关性，因为它仅对图像特征图本身做归一化，而层归一化在整层全部通道上计算均值和方差，即通道之间存在相关性，它做了全局的归一化，但是不能很好地保留图像样式结构，AdaLIN在训练时可以动态地调整IN和LN分别所占的比例，从而使模型能够根据输入的内容特征和风格特征自适应地改善图像的风格的传递，提升生成图像的质量，所述AdaLIN的计算公式如下所示：

上式中，AdaLIN(·)表示自适应层实例归一化函数，表示前一卷积层的输出，/>表示前一卷积层的输出/>经过实例归一化之后得到/>表示前一卷积层的输出/>经过层归一化之后得到/>γ、β通过网络计算得到，τ表示IN和LN分别所占的权重比，取值在[0,1]之间；

本发明给AdaLIN传入的输入有两个：内容输入x和风格输入y，然后通过AdaLIN进行处理，将y的风格迁移到x的内容上，从而完成两个输入的整合；对于内容输入x和风格输入y，二者一开始都是图像，但通过本发明初步的卷积神经网络会将它们提取成特征图，再进行归一化，就可以得到μ(x)、σ(x)以及μ(y)、σ(y)，分别表示内容的均值和方差、风格的均值和方差，用σ(y)来充当γ，μ(y)来充当β；

自适应层实例归一化结合了实例归一化和层归一化的优点，并用他们共同指导后续残差块的工作，这种归一化方法既考虑了图像的样式结构，又考虑了各通道之间的相关性，可以引导模型更灵活地控制样式和纹理的变化量。

S22、模型损失函数的优化；

具体地，对于本专利提出的模型，输入图像x₀和数字k，其中数字k是人为设置的，例如输入素描画的第一步，想得到素描画第三步的结果，则这个数字k为2，输出图像x_k，其中包括k步后的同一张素描画，也能够使用模型对素描画进行恢复，所以允许k为负，本发明将生成器G分离为G₊和G_-，表示生成器前进k步后生成的图片，/>表示生成器后退k步后生成的图片，对于步骤估计器，本发明使用Rothe等人提出的DeepEXpectation of Apparent Age(DEX)，用收集到的素描画对DEX进行训练过后，应用DEX来预测图像为“哪一步”，DEX使用VGG-16结构，素描画中的数据经过卷积层、池化层、全连接层后，最终经过Softmax层输出成概率；

为了使模型能够在素描画中添加下个步骤的特征、纹理等信息，本专利将步骤损失定义为：

上式中，L_step(G₊,G_-)表示步骤损失函数，x₀表示输入图像，表示分布函数的期望值；

本发明使用循环一致性损失来作为约束，使得生成器G生成的G(x)在内容上仍然能和x保持一致，一张素描画前进k步后，再退后k步所得到的应与输入的素描画是相同的，循环一致性损失为：

上式中，L_cyc(G₊,G_{_})表示循环一致性损失函数，表示生成器前进k步后生成的图像；

本发明还添加了步骤循环一致性损失项，即：

上式中，L_sc(G₊,G_-)表示步骤循环一致性损失项；

在实际训练中，应用对数损失函数很不稳定，所以将对抗损失改为均方误差损失函数，其表达式具体如下所示：

上式中，L_LSGAN(G₊,G_-,D)表示均方误差损失函数；

总损失为：

上式中，λ₁、λ₂和λ₃表示权重系数，用来控制这三项的权重；

最终求得如下：

上式中，表示这个损失函数的最优解，即生成图像质量最高的生成器

S23、判别器网络的应用。

具体地，传统生成对抗网络的判别器是将输入映射成一个实数，即生成图像为真的概率，该值是对生成器生成的整幅图像的一个评价，而PatchGAN的设计不同，其设计成全卷积的形式，图像经过各种卷积层后，并不会输入到全连接层或者激活函数中，而是将输入映射为30×30的矩阵X，X中的每一个元素实际上代表着原图中的一个比较大的感受野，X_ij的值也代表每个Patch为真的概率，将X_ij求均值，即为判别器最终输出，与传统的判别器相比较，PatchGAN可以关注更多的区域，使模型更能关注图像细节。

参照图2，一种基于循环生成对抗网络的素描画生成系统，包括：

获取模块，用于获取素描画数据训练集；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于循环生成对抗网络的素描画生成方法，其特征在于，包括以下步骤：

获取素描画数据训练集；

2.根据权利要求1所述一种基于循环生成对抗网络的素描画生成方法，其特征在于，所述引入卷积注意力模块和自适应层实例残差块，以循环一致性损失函数为约束，构建循环生成对抗网络模型这一步骤，其具体包括：

选取马尔科夫判别器为判别器网络；

3.根据权利要求2所述一种基于循环生成对抗网络的素描画生成方法，其特征在于，所述将素描画数据训练集输入至循环生成对抗网络模型进行训练，生成素描画图像这一步骤，其具体包括：

4.根据权利要求3所述一种基于循环生成对抗网络的素描画生成方法，其特征在于，所述基于循环生成对抗网络模型的生成器网络，对素描画数据训练集的不同特征与不同区域进行非均匀处理，得到细节增强的素描画数据训练集这一步骤，其具体包括：

5.根据权利要求4所述一种基于循环生成对抗网络的素描画生成方法，其特征在于，所述基于卷积注意力模块对保留原始图像特征的特征图进行特征选择和增强，得到突出主要特征的特征图这一步骤，其具体包括：

6.根据权利要求5所述一种基于循环生成对抗网络的素描画生成方法，其特征在于，所述基于通道注意力模块对保留原始图像特征的特征图进行计算，输出一维的通道注意力权值这一步骤，其具体包括：

7.根据权利要求6所述一种基于循环生成对抗网络的素描画生成方法，其特征在于，所述基于空间注意力模块对经过通道注意力模块之后的特征图进行计算，输出二维的空间注意力权值这一步骤，其具体包括：

8.根据权利要求7所述一种基于循环生成对抗网络的素描画生成方法，其特征在于，自适应层实例残差块指在卷积操作之间嵌入自适应层实例归一化，其表达式具体如下所示：

上式中，AdaLIN(·)表示自适应层实例归一化函数，表示前一卷积层的输出，/>表示前一卷积层的输出/>经过实例归一化之后得到/> 表示前一卷积层的输出/>经过层归一化之后得到/>γ、β通过网络计算得到，τ表示IN和LN分别所占的权重比，取值在[0,1]之间。

9.根据权利要求8所述一种基于循环生成对抗网络的素描画生成方法，其特征在于，所述循环生成对抗网络模型的循环对抗损失函数的表达式具体如下所示：

10.一种基于循环生成对抗网络的素描画生成系统，其特征在于，包括以下模块：

获取模块，用于获取素描画数据训练集；