CN117635418A

CN117635418A - 生成对抗网络的训练方法、双向图像风格转换方法和装置

Info

Publication number: CN117635418A
Application number: CN202410101475.3A
Authority: CN
Inventors: 朱高峰; 瞿治国; 孙乐
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-01-25
Filing date: 2024-01-25
Publication date: 2024-03-01
Anticipated expiration: 2044-01-25

Abstract

本发明公开了一种生成对抗网络的训练方法、双向图像风格转换方法和装置，所述生成对抗网络的训练方法包括：获取用于训练的图像数据集，其中所述图像数据集包括多个真实第一风格图像以及对应的真实第二风格图像；利用所述图像数据集对生成对抗网络进行训练，获得训练好的生成对抗网络。该生成对抗网络的训练方法、双向图像风格转换方法和装置，通过在生成网络中加入特征二维注意力模块，并与卷积层、转置卷积层和反卷积层相配合，根据目标域的特征对图像进行自适应的调整，以在训练时采用虚拟批正则化和的手段提升训练速度和收敛速度，从而根据训练后的生成对抗网络模拟现有的风格创作出一幅全新的相似该风格的图像。

Description

生成对抗网络的训练方法、双向图像风格转换方法和装置

技术领域

本发明涉及一种生成对抗网络的训练方法、双向图像风格转换方法和装置，属于图像处理技术领域。

背景技术

深度学习是人工智能领域中的一个重要分支，它通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习技术已经广泛应用于计算机视觉、自然语言处理、语音识别等领域。在计算机视觉的研究领域，图像的风格迁移一直是一个倍受关注的方向。风格迁移相较其它任务，有更高的趣味性，因为它涉及到了人文艺术的精神领域。但是让计算机自动完成风格迁移的任务，并不是一件容易的事情，生成对抗网络（GAN）是一种具有很大潜力的深度学习模型，它可以生成非常真实的合成图片，在图像转换、图像风格迁移等领域得到了广泛应用。在GAN模型中，有两个主要的组成部分：生成器和判别器。生成器负责生成新的数据，而判别器则负责判断生成的数据是否真实。在训练过程中，生成器和判别器会进行对抗性训练，不断优化自己的参数，以欺骗对方。这种对抗性训练过程可以使得生成的数据越来越真实，同时也可以提高模型的泛化能力。

传统的艺术家手绘不同风格的人像的过程中，有两个难点，第一个是需要准确地捕捉人物外表特点并勾勒出来，第二个是用特定的纹理和艺术风格填充不同风格的人像图片。也正是计算机自动生成不同风格人像面临的难点。针对第一个难点，在生成对抗网络中，可以用身份损失来校准。但针对上述提到的第二个难点，仅通过使用相对简单的损失函数，并不容易得到理想的效果。因为模拟现有的风格创作出一幅全新的相似该风格的图像，是生成领域的难题。

可见，为解决上述技术问题，以模拟现有的风格创作出一幅全新的相似该风格的图像，亟需一种生成对抗网络的训练方法、双向图像风格转换方法和装置。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种生成对抗网络的训练方法、双向图像风格转换方法和装置，通过在生成网络中加入特征二维注意力模块，并与卷积层、转置卷积层和反卷积层相配合，根据目标域的特征对图像进行自适应的调整，从而根据训练后的生成对抗网络模拟现有的风格创作出一幅全新的相似该风格的图像。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种生成对抗网络的训练方法，包括：

获取用于训练的图像数据集，其中所述图像数据集包括多个真实第一风格图像以及对应的真实第二风格图像；

利用所述图像数据集对生成对抗网络进行训练，获得训练好的生成对抗网络；其中，所述生成对抗网络包括生成网络和判别网络，训练过程具体包括：

将真实第一风格图像输入生成网络，得到生成第二风格图像；

将生成第二风格图像输入判别网络，得到生成第二风格图像的判别结果；

基于所述生成第二风格图像与真实第二风格图像以及生成第二风格图像的判别结果，利用预构建的生成对抗网络的损失函数，进行迭代训练，直至达到预设条件，得到训练好的生成对抗网络。

进一步的，所述判别网络包括多模态判别器，所述多模态判别器包括多个结构相同、输入特征图尺寸不同的判别器，所述多模态判别器用于将多个判别器的输出加权相加后获得最终的判别输出；

其中，生成对抗网络的损失函数的构建方法，包括：

基于生成第二风格图像与真实第二风格图像，确定生成网络的第一损失函数；以及基于生成第二风格图像的判别结果和真实第二风格图像，确定判别网络的第二损失函数；

根据第一损失函数和第二损失函数，结合多模态判别器对不同尺寸特征图的判别结果，获得生成对抗网络的损失函数。

进一步的，确定的第一损失函数，包括：

，

式中，训练图像的配对数据集由（x，y）表示，x为真实第一风格图像，y是真实第二风格图像，E为分布函数的数学期望，G(x)表示生成网络G 生成的生成第二风格图像；

确定的第二损失函数，包括：

，

式中，D(x,y)表示判别网络D对于真实样本的预测概率，D(x,G(x,z))表示判别器对于生成样本的预测概率，为真实标签，对于真实样本为1，对于生成样本为 0，z为随机噪声，是判别网络D对于真实第一风格图像和真实第二风格图像预测概率的数学期望，是判别网络D对于真实第一风格图像和生成第二风格图像预测概率的数学期望；

确定的生成对抗网络的损失函数，包括：

，

式中，，/>，/>为多模态判别器在三个尺度上对目标风格的输出图像进行判别，分别为原图，原图的1/2降采样图，原图的1/4降采样图，λ为第一损失函数的超参数，/>（G，/>）为第二损失函数，/>（G，/>）为第一损失函数。

第二方面，本发明提供了一种双向图像风格转换方法，包括：

获取待转换的第一风格图像；

通过预先训练好的生成对抗网络中的生成网络对待转换的所述第一风格图像的图像风格进行转换，得到第二风格图像，其中，

所述预先训练好的生成对抗网络为通过第一方面所述的生成对抗网络的训练方法训练后得到；

所述生成网络包括卷积层、转置卷积层、反卷积层和特征二维注意力模块；所述卷积层用于对第一风格图像进行卷积运算，获得第一风格的初始特征图；所述转置卷积层用于将初始特征图转换为第二风格的中间特征图；所述特征二维注意力模块用于对中间特征图进行通道和空间上的注意力计算获得注意力特征图；所述反卷积层用于对注意力特征图进行反卷积运算，以获得生成的第二风格图像。

进一步的，所述注意力特征图的获得方法，包括：

根据获得的中间特征图进行通道注意力计算，获得通道注意力特征；

根据获得的通道注意力特征，与中间特征图做基于元素排列乘法操作，获得空间注意力输入特征；

根据获得的空间注意力输入特征，进行空间注意力计算，获得空间注意力特征；

将空间注意力特征和通道注意力特征做乘法，获得注意力特征图。

进一步的，所述生成网络还包括MFG网络模块，所述MFG网络模块用于增强特征二维注意力模块获得的注意力特征图的特征表示，包括：

将注意力特征图进行分组，每一组并行进行操作；

每组特征与其经过全局平均池化后的特征矩阵对应元素相乘，得到初始注意力掩码；

将初始注意力掩码平均，并做减去均值除以标准差的标准化处理，同时学习两个缩放偏移参数 w、b，经过 Sigmoid 激活后与原特征图对应元素相乘得到最终的输出特征。

进一步的，所述生成网络为跳跃网络架构。

进一步的，所述第一风格包括动漫/真实人像风格；

通过预先训练好的生成对抗网络中的生成网络对待转换的所述第一风格图像的图像风格进行转换，得到第二风格图像，还包括：

在将待转换的所述第一风格图像输入生成网络前对待转换的所述第一风格图像增加动漫人像风格记号或真实人像风格记号；

根据增加的风格记号对输入生成网络的图像风格进行判别，根据判断结果选择生成网络的图像风格转换方式。

第三方面，本发明提供了一种生成对抗网络的训练装置，包括：

第一获取模块：用于获取用于训练的图像数据集，其中所述图像数据集包括多个真实第一风格图像以及对应的真实第二风格图像；

训练模块：用于利用所述图像数据集对生成对抗网络进行训练，获得训练好的生成对抗网络；其中，所述生成对抗网络包括生成网络和判别网络，训练过程具体包括：

第四方面，本发明提供了一种双向图像风格转换装置，包括：

第二获取模块：用于获取待转换的第一风格图像；

转换模块：用于通过预先训练好的生成对抗网络中的生成网络对待转换的所述第一风格图像的图像风格进行转换，得到第二风格图像，其中，

所述预先训练好的生成对抗网络为通过第一方面所述的生成对抗网络的训练方法训练后得到。

与现有技术相比，本发明所达到的有益效果：

本发明提供的生成对抗网络的训练方法、双向图像风格转换方法和装置，通过在生成网络中加入特征二维注意力模块，并与卷积层、转置卷积层和反卷积层相配合，从而根据目标域的特征对图像进行自适应的调整，以在训练时采用虚拟批正则化和的手段提升训练速度和收敛速度；

本发明提供的生成对抗网络的训练方法、双向图像风格转换方法和装置，通过采用风格识别模块识别生成网络的生成结果，对生成的图片的风格属性进行预判别，到底是动漫人像风格图片还是真实人像风格图片，在训练过程中，生成器网络会尝试生成与生成的目标记号相似的图像，而判别网络会对生成的图像进行评估和反馈，这种机制使得本发明能够逐步改进其生成图像的质量，从而实现在双向风格之间的转换。

附图说明

图1是实施例一提供的生成对抗网络的训练方法的流程图；

图2是实施例二提供的双向图像风格转换方法的网络结构实现流程图；

图3是实施例二提供的双向图像风格转换方法中网络模型的构建过程示意图；

图4是实施例二提供的双向图像风格转换方法中在进行模型训练生成器损失值的变化示意图；

图5是实施例二提供的双向图像风格转换方法中在进行模型训练判别器损失值的变化示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符"/"，一般表示前后关联对象是一种“或”的关系。

实施例一：

图1是本发明实施例一中的一种生成对抗网络的训练方法的流程图。本发明提供的生成对抗网络的训练方法可应用于终端，可以由生成对抗网络的训练装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在终端中，例如：任一具备通信功能的智能手机，平板电脑或计算机设备。

参见图1，本发明的方法具体包括如下步骤：

利用所述图像数据集对生成对抗网络进行训练，获得训练好的生成对抗网络。

其中，所述生成对抗网络包括生成网络和判别网络，训练过程具体包括：

所述判别网络包括多模态判别器，所述多模态判别器包括多个结构相同、输入特征图尺寸不同的判别器，所述多模态判别器用于将多个判别器的输出加权相加后获得最终的判别输出。

其中，生成对抗网络的损失函数的构建方法，包括：

确定的第一损失函数，包括：

，

式中，训练图像的配对数据集由（x，y）表示，x为真实第一风格图像，y是真实第二风格图像，E为分布函数的数学期望，G(x)表示生成器G 生成的生成第二风格图像，L1损失（L1 Loss）也被称为绝对误差损失（Absolute Loss），是指预测值与真实值之差的绝对值的和。在机器学习和深度学习中，L1损失常用于回归问题中。与L2损失（即均方差损失，MeanSquared Error）相比，L1损失在处理异常值或离群点时具有更好的鲁棒性，因为它对预测值与真实值之间的偏差更加敏感。在优化过程中，L1损失会迫使模型关注那些远离真实值的样本点，从而使模型更加鲁棒。

确定的第二损失函数，包括：

，

式中，D(x,y)表示判别器D对于真实样本的预测概率，D(x,G(x,z))表示判别器对于生成样本的预测概率，为真实标签，对于真实样本为1，对于生成样本为 0，是判别器D对于真实第一风格图像和真实第二风格图像预测概率的数学期望，/>是判别器D对于真实第一风格图像和生成第二风格图像预测概率的数学期望，在传统GAN中，生成器的损失函数通常基于判别器的输出来计算，旨在使生成的图像尽可能地接近真实图像。然而，当生成的图像与真实图像差异较大时，判别器的输出可能会变得非常接近于0或1，导致生成器的损失函数梯度非常小或消失，从而使得模型更新很少或没有更新。最小均方GAN损失通过最小化生成图像与真实图像之间的均方误差（MSE）来解决这个问题。它通过将生成器的损失函数定义为生成图像与真实图像之间的均方误差，使得生成器在生成图像与真实图像差异较大时也能够有有效的梯度更新。本发明通过采用 MSELoss 作为判别器部分的损失函数，能够优化判别器的能力，实现对不同种类样本的准确区分，并推动生成器的生成图片质量更加真实。

确定的生成对抗网络的损失函数，包括：

，

上述函数中，生成器G尽可能最小化目标函数，而判别器D尽可能最大化目标函数，，/>，/>为多模态判别器在三个尺度上对目标风格的输出图像进行判别，分别为原图，原图的1/2降采样图，原图的1/4降采样图，图的分辨率越低，感受野越大，越关注图像的全局一致性，/>（G，/>）为第二损失函数，/>（G，/>）为第一损失函数。λ为第一损失函数的超参数，在训练过程中，判别器和生成器交替进行优化，通过最小化各自损失函数来提高各自的性能。最终，当判别器和生成器达到纳什均衡时，生成器生成的假数据足够逼真，判别器无法区分真实数据和生成数据，此时训练过程结束。

实施例二：

一种双向图像风格转换方法，包括：

获取待转换的第一风格图像；

所述预先训练好的生成对抗网络为通过实施例一所述的生成对抗网络的训练方法训练后得到；

生成网络中加入一种轻量级结构的特征二维注意力模块，包含两个独立的子模块，通道注意力模块和空间注意力模块。分别进行通道与空间上的注意力机制结合。这样不只能够节约参数和计算力，并且保证了其轻量化的网络结构特点。具体的结构如图所示，所述注意力特征图的获得方法，包括：

根据获得的中间特征图进行通道注意力计算，获得通道注意力特征，具体包括：首先，输入训练过程中前一层输出的特征图F，对其分别进行基于宽和高的全局最大池化和全局平均池化，得到两个N×C的特征图（其中N为特征图长×高，C为通道数）。再由双层神经网络MLP进行基于元素排列的加和运算；

根据获得的通道注意力特征，与中间特征图做基于元素排列乘法操作，获得空间注意力输入特征，具体包括：对通道注意力进行计算后，和输入特征图F做基于元素排列乘法操作，生成空间注意力模块需要的输入特征，输入通道注意力模块输出的特征图，分别进行基于基于通道维度的全局最大池化和全局平均池化，得到两个H×W×1 的特征图（其中H，W分别为高和宽）。基于通道进行拼接。然后经过一个7×7卷积操作，降维为1个通道，即H×W×1，再经过目标函数生成空间注意力特征；

将空间注意力特征和通道注意力特征做乘法，获得注意力特征图；

在模型训练的过程中，中间层通过上述步骤计算得到前一层特征图对应的注意力特征图，将计算的注意力特征图应用到后续的训练中，并且计算得到的注意力特征图的尺寸与输入的特征图尺寸一致，因此无需改变模型尺寸结构即可正常进行后续的训练。

所述第一风格包括动漫/真实人像风格，还包括风格识别模块，所述风格识别模块用于判断目标风格的输出图像来源于动漫人像风格还是真实人像风格，具体包括：

在将待转换的第一风格图像输入生成网络前对待转换的第一风格图像增加动漫人像风格记号或真实人像风格记号；

根据增加的风格记号对输入生成网络的图像风格进行判别，根据判断结果选择生成网络的图像风格转换方式；

生成器有两个入口，一个用于动漫到真实的转换，另一个用于真实到动漫的转换。这两个入口是特定的预处理层，它们将输入数据转换为一个共享的中间表示，然后通过共享的卷积层来生成最终的输出。为了实现双向转换，本发明将在编码器和解码器之间引入两个不同的特征转换模块：一个用于动漫到真实的转换，另一个用于真实到动漫的转换。这些模块是由卷积层、归一化层和激活层组成的子网络。它能够根据输入数据的不同模式（动漫或真实人像）来调整其行为，以及一个判别器，它能够判断输入图片的真实性，不论是动漫风格还是真实人像风格。

所述生成网络还包括MFG网络模块，所述MFG网络模块用于捕捉图像的全局位置特征、局部位置特征和增强特征二维注意力模块获得的注意力特征图的特征表示，MFG网络模块的主要思想是将特征图分组，并认定每一组代表一个语义特征，通过利用局部特征与全局特征的相似性生成注意力掩码，从而指导增强语义特征的空间分布。该网络模块是一种特殊的注意力机制，用于增强卷积神经网络的特征表示。MFG模块的主要思想是在空间维度上对输入特征进行分组，该算法对每一组的子特征进行并行处理，并利用每一组的全局统计特征与局部位置特征的相似度作为注意引导对特征进行增强，从而获得空间上分布良好的语义特征表示。并在每个组内部进行自注意力操作。这种操作可以帮助模型更好地捕捉到特征之间的依赖关系，从而提高特征的表达能力，具体步骤如下：

将注意力特征图进行分组，每一组并行进行操作；

将初始注意力掩码平均，并做减去均值除以标准差的标准化处理，同时学习两个缩放偏移参数 w、b，经过 Sigmoid 激活后与原特征图对应元素相乘得到最终的输出特征；

为方便MFG网络更适应本发明的双向风格转换任务，本发明在设计该网络时，采用了模块化设计：将网络结构分解为多个模块，每个模块负责特定的任务，例如特征提取、特征转换或分类。这样可以增加网络的灵活性，方便后续的扩展和修改。同时，针对传统GAN再进行模型改造后网络结构复杂的问题,本发明设计MFG网络时采用深度可分离卷积：深度可分离卷积可以减少网络的计算复杂度，同时保留较好的特征表达能力。

接下来，结合实际案例对本发明的技术效果进行说明：

本发明主要是实现一个网络应用模型，该模型能够将真实人像图片转换为动漫人像图片，同时也可以将动漫人像图片转换为真实人像图片，可以采用循环生成对抗网络的方法。

如图2所示，在该网络结构的实现流程中，首先输入需要进行需要进行风格转化的人脸图像和目标风格标签信息。生成器首先对输入图像信息进行预处理，进行统一裁剪成256×256，并进行归一化和调整通道维度（即图2生成器中的特征提取），目的是为了方便后续的数据处理。为了对特征通道之间的相互依赖性进行建模，本发明构建了一个特征二维注意力模块通过学习为每个通道分配重要性权重。这样做，可以获得通道注意力和空间注意力通道的权重，并将不同通道中丰富的特征赋予不同的层次重要性。然后，将输入特征传输到MFG-Net模块，通过卷积层的融合块来聚合特征，卷积层包含卷积运算、批量归一化和ReLU激活函数，而最后一个卷积层则包含卷积运算和Tanh激活函数，其中每层接收来自所有先前层的激活信息。这种设计帮助模型获取图像的全局语义特征和局部语义特征，可以帮助模型更好地捕捉到图像特征之间的依赖关系，从而提高模型的表达能力，减少了网络参数的数量。然后将真实图片A和图片B输入多模态判别器，训练判断器鉴别为一对真实图像，并通过计算多模态判别器损失来更新参数。同时，将真实图片A和生成的图片B’输入多模态判别器（在将生成图片B’输入多模态判别器时，添加L1损失，即实施例一提供的训练方法中的第一损失函数），训练多模态判别器判别为一对虚假图像。其中风格识别模块的作用是放在多模态判别器前面的一个模块，主要是对输入多模态判别器的图像，进行风格的预提取，方便后续多模态判别器的判别。在此过程中，通过计算损失函数，反向传播更新参数等方法对网络模型不断进行迭代优化，直到多模态判别器无法区分生成器生成图片的真假。

如图3所示，该网络模型主要由生成器模块G和判别器模块D组成，在具体的网络模型构建过程中，第一步，向判别器D输入真实图像与第一伪造图像，构建训练判别器D学习区分真实图像和生成的第一伪造图像（即图3中判别器D判别输入图像的真实/虚假），并对输入判别器D的图像的风格进行分类，生成图像属性标签（即图3中判别器D的风格分类）。第二步，构建生成器G将动漫或真人图像（即图3中的输入图像）和待生成的目标风格标签（即图3中的目标风格）都作为输入，并生成目标风格图像（即图3中的第二伪造图像）。在此过程中，目标风格标签在空间上被复制并与输入图像连接。第三步，生成器G尝试在给定原始图像风格标签（即原始风格）的情况下从生成图像（即第二伪造图像）重建原始图像获得重建图像，具体为：生成器G将生成的图像与原始图像标签进行空间上的连接再次输入生成器G（即图3中第二伪造图像和原始风格的深度串联），进行原始图像的重建，获得重建图像，获得的重建图像作为输入图像和目标风格一起重新输入生成器G中，由生成器G生成获得更高质量的第二伪造图像，实现网络模型的双向风格转化的目标。第四步，生成器G经过第三步训练后逐步提高生成图像的质量，试图生成与真实图像不可区分的第三伪造图像，并且将生成器G生成的与真实图像不可区分的第三伪造图像输入判别器D由判别器D进行图像风格的标签分类（对应图3中的领域分类，也即风格分类）和真实/虚假判断。

下面是该网络的实现过程：

步骤1. 数据及相关设备的准备：

1）大量真实的人像图片，以及相应的动漫人像图片。这些数据将用于训练该网络模型。

2）一个用于训练该网络模型的深度学习框架，PyTorch。

3）足够的计算资源（GPU），以支持该网络模型的训练过程。

4）对人像图片进行背景模糊化，并裁剪出人像照片。

步骤2. 构建生成器：

生成器是该网络模型的主要组成部分，它的任务是从随机噪声中生成新的数据。在该发明中，生成器将尝试学习如何将真实的人像图片转换为动漫人像图片，以及如何将动漫人像图片转换为真实的人像图片。

生成器的架构包括若干卷积层（用于从噪声中生成图像），以及若干转置卷积层（用于将生成的图像转换为与目标数据相同的空间）。在配置生成器模型时,本发明选用跳跃网络结构。本发明选择配置生成器接受一个三通道的输入图像，输出一个三通道的图像。模型包含三个下采样层和三个上采样层，中间有一个中心层。每个下采样层都包含一个卷积层、一个LeakyReLU激活函数和一个批量归一化层。每个上采样层都包含一个反卷积层、一个ReLU激活函数和一个批量归一化层。其中，第一-六个上采样层还包含一个dropout层。最后，输出层包含一个ReLU激活函数、一个反卷积层和一个tanh激活函数。整个模型的作用是将输入图像转换为输出图像，同时保留输入图像的细节特征。

步骤3. 构建多模态判别器：

在本发明中，生成器的工作依旧是生成让判别器混淆真伪的图像。而针对多模态判别器，本发明加入了一个新的风格识别模块，需判别图像是生成图像还是属于动漫风格或真实风格的伪图像，帮助网络训练出更优质的判别器和生成器。

多模态判别器主要用于生成对抗网络（GAN）中的判别模块。它的主要作用是判断输入的图像是否为真实的，或者说，输入的图像是否来自训练数据集。这个判别器的设计理念是在不同的尺度上对输入进行判别，以便捕捉到在不同尺度上的特征，从而提高模型的性能。例如，大尺度的判别器可以捕捉到全局的特征，如图像的整体布局和结构，而小尺度的判别器可以捕捉到局部的特征，如图像的细节和纹理。这样，模型就可以同时考虑到全局和局部的特征，从而做出更准确的判别。此外，这种多模态判别器的设计也可以提高模型的鲁棒性。由于每个子判别器都在不同的尺度上对输入进行判别，因此即使某个尺度上的判别结果受到噪声的影响，其他尺度上的判别结果也可以提供有效的信息，从而保证整体的判别结果的准确性。

在具体实现过程中，多模态判别器的输入是一个四维的张量，分别为（批次大小，通道数，高度，宽度）。这个张量通常表示一批图像，其中每个图像都由多个通道的像素值组成。这个判别器的输出是一个二维的张量，这个张量表示每个输入图像在每个子判别器上被判别为真实的概率。多模态判别器的主要组成部分是一系列的子判别器。每个子判别器都是一个卷积神经网络，包含一系列的卷积层和激活函数。这些子判别器的输入是原始输入的不同尺度版本，这是通过在每个子判别器之间添加一个平均池化层来实现的。这个平均池化层的作用是将输入的尺寸减小一半，从而实现在不同尺度上对输入进行判别。在每个子判别器中，输入首先通过一个卷积层和一个激活函数进行处理。卷积层的作用是提取输入的特征，而LeakyReLU激活函数的作用是增加模型的非线性，使得模型能够学习更复杂的特征。然后，输入通过三个卷积块进行处理。每个卷积块都包含一个卷积层，一个批量归一化层和一个LeakyReLU激活函数。这些卷积块的作用是进一步提取输入的特征，并通过批量归一化层进行归一化，以提高模型的稳定性和训练速度。最后，输入通过一个卷积层和一个S激活函数输出一个判别结果。这个卷积层的作用是将提取到的特征映射到一个值，而S激活函数的作用是将这个值映射到（0，1）范围，表示输入被判别为真实的概率。在所有的子判别器都处理完输入后，它们的输出会被调整到相同的尺寸，然后沿着批次维度进行连接。这样，最终的输出是所有子判别器输出的集合，它们共同表示输入在不同尺度上被判别为真实的概率。

步骤4. 训练网络模型：

首先，输入的动漫图像经过预处理模块进行统一裁剪，并进行归一化和调整通道维度，目的是为了方便后续的数据处理。此时，分两步进行。在第一步，将预处理过的图像输入到跳跃网络架构的生成器中，它的特点是具有对称性，由两个部分组成，一个编码器和一个解码器。编码器将输入数据压缩成潜在表示，解码器则将潜在表示解码为输出数据。在编码器中先使用双特征注意力模块通过学习为每个通道分配重要性权重。通过这样做，可以获得每个通道的权重，并将不同通道中丰富的特征赋予不同的层次重要性。第二步，将输入特征传输到MFG-Net模块，通过具有五个卷积层的融合块来聚合特征，其中前四个卷积层包含卷积运算、批量归一化和ReLU激活函数，而最后一个卷积层则包含卷积运算和Tanh激活函数，其中每层接收来自所有先前层的激活信息。在第二步中本发明将生成的图像与原始输入图像同时输入判别器进行训练，以使判别器进行真假判断。在此过程中，本发明通过计算损失函数，反向传播更新参数等方法对网络模型不断进行迭代优化。

步骤5.性能评估阶段：

在训练完成后，该网络模型可以使用生成器来生成新的动漫人像图片或者将动漫人像图片转换为真实的人像图片。在评估模型性能时，使用一组未在训练集中出现的真实和动漫人像图片进行测试。

该网络通过比较生成的动漫人像图片与原始的动漫人像图片，以及转换的真实人像图片与原始的真实人像图片来评估模型的性能。本发明的实验结果的评估方式从一下几个角度来评估：图像之间像素级别的差异大小的相似性、图像的清晰度与多样性、图像之间的结构相似性以及感官上的质量差异。系统的每个源图像都有相应的目标图像，所以生成的图像和目标图像应该彼此相似。从计算机的角度来看，衡量两张图像的差异主要是对比图像像素之间的差异。而从人眼视觉的角度来看，衡量两张图像的差异则需要综合图像之间的亮度、对比度、图像信息等等。在生成对抗网络领域，有几种评估指标通常用于评估生成图像的质量。在这种情况下，本发明选择四个代表性的指标，Peak Signal-to-NoiseRatio (PSNR)，(structural similarity index)（SSIM），Fréchet Inception Distance（FID）和Inception Score（IS）、Mean Square Error (MSE)。在基于评价指标的反映结果后，需要调整模型架构、调整训练过程、优化损失函数等来提高模型的性能。

定量分析：将本发明方法与其它基于GAN的风格转换模型的方法进行了定量性能分析比较。结果如表1所示。从统计结果可以看出，本发明的指标参数结果在PSNR、IS方面表现最好，尤其在PSNR比第二名有了显著的提升。同时，本发明的方法保持了SSIM的第二名。此外，在FID评价指标上来看，本发明的方法与第二名得出了相近的性能结果。这表明本发明的大多数指标都达到了最好或第二好的结果。并且在MSE指标上来看，本发明的方法取得了较为一致的性能。上述定性数据表明，本发明的方法取得了良好的图像风格转换性能。

表1 各评价指标在不同实验算法之间的比较

在进行模型训练时，生成器的损失值从一开始的较高值，先快速下降到15.467范围附近，再经过900个批次的训练后，逐步下降并趋于稳定值3.264，如图4所示。判别器的损失值也从较高的初始值，先快速下降到2.451范围附近，再经过900个批次的训练后，逐步下降并趋于稳定值0.934，如图5所示。

复杂度分析

为了全面分析本发明方法的计算复杂性，本发明对所有四种方法和本发明方法的时间复杂性和空间复杂性进行了分析，如表2所示。在时间复杂度方面，本发明的方法达到了第二名的运行速度，仅比第一名DiscoGAN多2.1ms。此外，在空间复杂度方面，本发明方法实现了第三名的参数大小。尽管Pix2Pix的参数大小很小，但其运行时间远大于其他算法，达到127.4ms. 本发明的参数大小仅比排名第二的Pix2Pix大0.04M。这显示了本发明方法的高效性。

表2 所有的四种方法和本发明计算效率的比较

实施例三：

一种生成对抗网络的训练装置，包括：

本发明实施例所提供的生成对抗网络的训练装置可执行本发明任意实施例所提供的生成对抗网络的训练方法，具备执行方法相应的功能模块和有益效果。

实施例四：

本发明实施例还提供了一种双向图像风格转换装置，包括：

第二获取模块：用于获取待转换的第一风格图像；

所述预先训练好的生成对抗网络为通过实施例一所述的生成对抗网络的训练方法训练后得到。

本发明实施例所提供的双向图像风格转换装置可执行本发明任意实施例所提供的双向图像风格转换方法，具备执行方法相应的功能模块和有益效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种生成对抗网络的训练方法，其特征是，包括：

2.根据权利要求1所述的生成对抗网络的训练方法，其特征是，所述判别网络包括多模态判别器，所述多模态判别器包括多个结构相同、输入特征图尺寸不同的判别器，所述多模态判别器用于将多个判别器的输出加权相加后获得最终的判别输出；

其中，生成对抗网络的损失函数的构建方法，包括：

3.根据权利要求2所述的生成对抗网络的训练方法，其特征是，确定的第一损失函数，包括：

，

式中，训练图像的配对数据集由（x，y）表示，x为真实第一风格图像，y是真实第二风格图像，E为分布函数的数学期望，G(x)表示生成网络 G 生成的生成第二风格图像；

确定的第二损失函数，包括：

，

式中，D(x,y)表示判别网络D对于真实样本的预测概率，D(x,G(x,z))表示判别器对于生成样本的预测概率，为真实标签，对于真实样本为1，对于生成样本为 0，z为随机噪声，是判别网络D对于真实第一风格图像和真实第二风格图像预测概率的数学期望，/>是判别网络D对于真实第一风格图像和生成第二风格图像预测概率的数学期望；

确定的生成对抗网络的损失函数，包括：

，

4.一种双向图像风格转换方法，其特征是，包括：

获取待转换的第一风格图像；

所述预先训练好的生成对抗网络为通过权利要求1-3任一项所述的生成对抗网络的训练方法训练后得到；

其中所述生成网络包括卷积层、转置卷积层、反卷积层和特征二维注意力模块；所述卷积层用于对第一风格图像进行卷积运算，获得第一风格的初始特征图；所述转置卷积层用于将初始特征图转换为第二风格的中间特征图；所述特征二维注意力模块用于对中间特征图进行通道和空间上的注意力计算获得注意力特征图；所述反卷积层用于对注意力特征图进行反卷积运算，以获得生成的第二风格图像。

5.根据权利要求4所述的双向图像风格转换方法，其特征是，所述注意力特征图的获得方法，包括：

6.根据权利要求5所述的双向图像风格转换方法，其特征是，所述生成网络还包括MFG网络模块，所述MFG网络模块用于增强特征二维注意力模块获得的注意力特征图的特征表示，包括：

将注意力特征图进行分组，每一组并行进行操作；

7.根据权利要求6所述的双向图像风格转换方法，其特征是，所述生成网络为跳跃网络架构。

8.根据权利要求7所述的双向图像风格转换方法，其特征是，

所述第一风格包括动漫/真实人像风格；

9.一种生成对抗网络的训练装置，其特征在于，包括：

10.一种双向图像风格转换装置，其特征在于，包括：

第二获取模块：用于获取待转换的第一风格图像；

所述预先训练好的生成对抗网络为通过权利要求1-3任一项所述的生成对抗网络的训练方法训练后得到。