CN115239967A

CN115239967A - 一种基于Trans-CSN生成对抗网络的图像生成方法及装置

Info

Publication number: CN115239967A
Application number: CN202210794055.9A
Authority: CN
Inventors: 钱惠敏; 毛邱凌; 陶源; 王政琦; 申闻宇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-25

Abstract

本发明公开了一种基于Trans‑CSN生成对抗网络的图像生成方法及装置，旨在解决纯Transformer生成对抗网络训练慢和判别器不能得到充分训练的问题。方法包括：设计基于生成对抗网络的模型，其中包括基于Transformer的生成器模型和基于CSN的判别器模型；将基于Transformer的生成器模型和基于CSN的判别器模型进行对抗训练，轮流训练至模型收敛；将随机噪声输入到训练好的生成器模型中，得到和训练时输入判别器的数据集相似的生成图像。

Description

一种基于Trans-CSN生成对抗网络的图像生成方法及装置

技术领域

本发明涉及一种基于Trans-CSN生成对抗网络的图像生成方法及装置，属于计算机视觉技术领域。

背景技术

生成对抗网络(Generative adversarial network,GAN)自2014年由IanGoodfellow等人提出后，就越来越受到学术界和工业界的重视。而随着GAN在理论与模型上的高速发展，它在计算机视觉、自然语言处理、人机交互等领域有着越来越深入的应用，并不断向着其它领域继续延伸。其中，GAN在图像生成上取得了巨大的成功，这取决于GAN在博弈下不断提高建模能力，最终实现以假乱真的图像生成。

但是纯Transformer生成对抗网络训练慢，判别器不能得到充分训练，因此导致生成的图像质量不够高。

发明内容

针对纯Transformer生成对抗网络训练慢和判别器不能得到充分训练的问题，本发明提出了一种基于Trans-CSN生成对抗网络的图像生成方法及装置，采用基于CSN的判别器模型，该模型基于一些基础的卷积操作和谱归一化操作，旨在解决上述问题。

本发明采用了如下技术手段：

第一方面，一种基于Trans-CSN生成对抗网络的图像生成方法，包括：

获取数据集和随机噪声矩阵z，其中所述随机噪声矩阵满足标准正态分布；

将随机噪声矩阵z输入预训练好的基于Transformer的生成器模型，生成得到与所述数据集中相同类型的图像；

其中，所述基于Transformer的生成器模型的训练方法包括：

将随机噪声矩阵z输入到基于Transformer的生成器模型中，生成第一图像；

将第一图像和数据集输入到基于CSN的判别器模型中，得到基于CSN的判别器模型依据数据集对第一图像的判断结果；

重复该步骤N次进行迭代优化直至满足迭代停止条件，得到训练好的基于Transformer的生成器模型和基于CSN的判别器模型；所述迭代停止条件为：基于CSN的判别器模型无法区分基于Transformer的生成器模型生成的图像与来自数据集的真实图像的区别。

在一些实施例中，基于Transformer的生成器模型包括：

前馈神经网络层，被配置为接收输入的随机噪声矩阵z，并将随机噪声矩阵z转化成8*8分辨率的特征图；

多个Transformer编码器，被配置为学习输入数据集图像的特征；

上采样层，被配置为将生成图像的尺寸逐步恢复到与输入数据集图像相同的尺寸；

其中，所述Transformer编码器采用多头自注意力机制对数据集图像提取特征。自注意力机制能够更全面的兼顾到输入图像的每一个像素，而多头自注意力机制能够在此基础上更好的防止过拟合。

进一步的，在一些实施例中，基于Transformer的生成器模型生成图像的方法包括：

步骤3-1，将随机噪声矩阵z输入到前馈神经网络层，前馈神经网络层将随机噪声矩阵z转化成8*8分辨率的特征图；

步骤3-2，将特征图对应的64个tokens和可学习的位置编码相加，送入到Transformer编码器中；

步骤3-3，将通过Transformer编码器的特征图进行上采样，使特征图的分辨率变为原来的两倍，即16*16分辨率；

步骤3-4，将上采样后的特征图送入到Transformer编码器当中；

重复步骤3-3至步骤3-4，直至特征图的分辨率和输入数据集的分辨率相同为止。

在一些实施例中，基于CSN的判别器模型包括多个CSN模块，CSN模块包括卷积层和谱归一化层；

其中，卷积层是包括3×3的卷积层、1×1的卷积层；

谱归一化层将上一卷积层的参数矩阵作奇异值分解，并基于最大奇异值归一化参数矩阵，使满足1-Lipschitz条件。

在一些实施例中，基于CSN的判别器模型主要由多个3*3的卷积层组成，这个模型的重点在于几乎在每一个3*3的卷积层后面增加了一个谱归一化操作，防止出现判别器训练越好，生成器梯度消失越严重这类问题，并在谱归一化操作之后进行平均池化的操作。最后通过一个全连接层将输出的维数降为1维，并通过Sigmoid函数来进行预测。

所述基于CSN的判别器模型的判别过程包括：

步骤4-1，输入数据集的图像至判别器模型中；

步骤4-2，将图像输入到卷积层中，卷积层包括两个3*3的卷积层，每个3*3的卷积层后进行谱归一化操作，然后进行一次平均池化操作；其中谱归一化包括：将神经网络的每一层的参数W作奇异值分解，将最大的奇异值限定为1，满足1-Lipschitz条件；

经过谱归一化之后，神经网络的每一层g_l(x)权重，都满足:

以此实现使得整个神经网络f(x)＝g_N(x)满足Lipschitz连续性；其中x、y分别为神经网络层的任意的输入，f(x)为整个神经网络，g_N(x)为第N层的神经网络层；

步骤4-3，将图像输入到一个1*1的卷积层中，并进行谱归一化操作后与步骤4-2的结果相加；

步骤4-4，重复一次步骤4-2的操作；

步骤4-5，将步骤4-4的结果输入到卷积层中，卷积层包括四个3*3的卷积层，每个3*3的卷积层后进行谱归一化操作；

步骤4-6，将步骤4-5的结果进行全局池化操作；

步骤4-7，将步骤4-6的结果输入到全连接层中，将输入的维度变为1维；

步骤4-8，将步骤4-7的结果输入到Sigmoid函数中，获得输入数据集图像的预测结果；

步骤4-9，将生成器模型生成的图像输入到判别器模型中；

步骤4-10，重复步骤4-2至步骤4-8，获得生成图像的预测结果；

步骤4-11，对步骤4-8和步骤4-10的预测结果计算hinge损失，并根据反向传播算法优化hinge损失。

基于Transformer的生成器模型和基于CSN的判别器模型交替训练。

在一些实施例中，基于CSN的判别器的训练过程包括:

初始化生成器，输入满足标准正态分布的随机噪声矩阵；

生成器生成一个批次的图像集，并把这些图像的标签标注为0，表示假图像；从给定数据集中选择相同批次数量的图像，并将这些图像的标签标注为1，表示真图像；

将标签为0的图像和标签为1的图像同时输入到判别器中训练判别器的参数，直至判别器对给定数据集中的图像给出接近1的高概率值，对生成器生成的图像给出接近于0的低概率值。

在一些实施例中，基于Transformer的生成器的训练过程包括:

向生成器输入满足标准正态分布的随机噪声矩阵；

生成器生成一个批次的图像集，并把这些图像的标签标注为1，表示将假图像标注为真图像；

将已标注图像输入到判别器中，已训练判别器会给这些生成的图像一个接近于0的较低概率值；

根据判别器的预测概率值与生成器给生成图像的标签之间的误差，反向传播至生成器，更新生成器参数；

当判别器的预测概率值与生成器给定的标签一致，基于Transformer的生成器训练完成。

在一些实施例中，所述基于Transformer的生成器模型的训练过程的总目标函数

表示为：

其中D(*)代表基于CSN的判别器判断的概率值；G(z)代表随机噪声矩阵z经过基于Transformer的生成器生成的图像；x-P_data(x)代表真实数据的分布，z-P_z(x)代表生成数据的分布，E(*)代表期望值。

第二方面，本发明提供了一种图像生成装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明创新性地提出基于生成对抗网络的图像生成方法。通过改进纯transformer的生成对抗网络，将判别器模型改成基于CSN的判别器模型，大大缩短了训练时间，使判别器获得了充足的训练，并且引入了谱归一化，增加了判别器训练的稳定性。在此基础上，训练出来的基于transformer的生成器模型成成图像的质量也获得了提高，能够解决在工程问题上训练样本不足等问题。

附图说明

图1是本发明的基于Trans-CSN生成对抗网络的图像生成方法流程示意图；

图2是基于Transformer的生成器模型结构；

图3是基于CSN的判别器模型结构；

图4是训练好的生成器模型生成的图像。

具体实施方式

下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1

一种图像生成方法，包括：

其中，所述基于Transformer的生成器模型的训练方法包括：

在一些实施例中，提供了一种基于Trans-CSN生成对抗网络的图像生成方法，其通过基于Transformer的生成器模型和基于CSN的判别器模型进行对抗训练，获得一个能够生成输入数据集相似的图像。如图1所示，包括如下步骤：

步骤1，将随机噪声矩阵z输入到基于Transformer的生成器模型中；

步骤2，将基于Transformer的生成器模型生成的图像和数据集同时输入到基于CSN的判别器模型中；

步骤3，步骤3中的基于CSN的判别器模型会依据数据集对基于Transformer的生成器模型生成的图像进行判断，并输出一个预测它是来自数据集的真实图像还是生成图像的预测结果；

步骤4，不断循环步骤2和3，直至步骤3中的基于CSN的判别器模型无法区分步骤2中基于Transformer的生成器模型生成的图像与来自数据集的真实图像的区别，代表基于Transformer的生成器模型训练完成；

步骤5，将随机噪声输入至步骤5中训练完成的基于Transformer的生成器模型中，便可生成与步骤2中输入数据集中的图像对比非常相似的图像。

随机噪声矩阵满足标准正态分布，随机噪声矩阵的尺寸由期望一次生成图像的张数和生成器模型中前馈神经网络隐藏层的个数的乘积确定。

在给定数据集、随机噪声矩阵和目标函数下训练生成器模型和判别器模型。基于CSN的判别器模型会依据数据集对基于Transformer的生成器模型生成的图片进行判断，并输出一个预测它是来自数据集的真实图片还是生成图片的预测结果，直到基于CSN的判别器模型无法区分基于Transformer的生成器模型生成的图片与来自数据集的真实图片的区别，代表基于Transformer的生成器模型训练完成。

训练完成后，将随机噪声矩阵输入已训练的生成器模型生成与给定数据集中相同类型的图像。

在一些实施例中，所述的基于Transformer的生成器模型和基于CSN的判别器模型具有如下结构：

在一些实施例中，基于Transformer的生成器模型主要是由多个Transformer编码器构成，具体包括前馈神经网络层，负责接收输入的随机噪声矩阵z，并将随机噪声矩阵z转化成8*8分辨率的特征图；Transformer编码器，负责学习输入数据集图像的特征；上采样层，负责将生成图像的尺寸逐步恢复到与输入数据集图像相同的尺寸。其中最主要的Transformer编码器主要是通过多头自注意力机制进行特征的提取，自注意力机制能够更全面的兼顾到输入图像的每一个像素，而多头自注意力机制能够在此基础上更好的防止过拟合。

基于CSN的判别器模型主要由多个3*3的卷积层组成，这个模型的重点在于几乎在每一个3*3的卷积层后面增加了一个谱归一化操作，防止出现判别器训练越好，生成器梯度消失越严重这类问题，并在谱归一化操作之后进行平均池化的操作。最后通过一个全连接层将输出的维数降为1维，并通过Sigmoid函数来进行预测。

在一些实施例中，所述基于Transformer的生成器模型生成图像的方法包括：

步骤3-1，将随机噪声矩阵z输入到前馈神经网络层，前馈神经网络会将随机噪声矩阵z转化成8*8分辨率的特征图；

步骤3-2，将特征图对应的64个tokens和可学习的位置编码相加，送入到Transformer编码器当中；

步骤3-3，将通过Transformer编码器的特征图进行上采样，使其分辨率变为原来的两倍，即16*16；

步骤3-4，将上采样后的特征图送入到Transformer编码器当中；

重复步骤3-3，步骤3-4，直至特征图的分辨率和输入数据集的分辨率相同为止。

所述的步骤4的基于CSN的判别器模型的判别过程包括：

步骤4-1，输入数据集的图像至判别器模型中；

步骤4-2，将图像输入到卷积层中，卷积层包括两个3*3的卷积层，每个3*3的卷积层后进行谱归一化操作，然后进行一次平均池化操作，其中谱归一化的具体做法是：

将神经网络的每一层的参数W作奇异值分解，然后将其最大的奇异值限定为1，满足1-Lipschitz条件，具体地，在每一次更新W之后都除以W最大的奇异值。这样，每一层对输入W最大的拉伸系数x不会超过1。

那么经过谱归一化之后，神经网络的每一层g_l(x)权重，都满足:

以此实现使得整个神经网络f(x)＝g_N(x)满足Lipschitz连续性；其中x、y、f(x)、g_N(x)分别为神经网络层的任意的输入，整个神经网络，第N层的神经网络层；

步骤4-4，重复一次步骤4-2的操作；

步骤4-6，将步骤4-5的结果进行全局池化操作；

步骤4-9，将生成器模型生成的图像输入到判别器模型中；

步骤4-10，重复步骤4-2至步骤4-8，获得生成图像的预测结果；

训练过程的总目标函数可以写为：一个形式为最大-最小值函数的公式V(D,G):

D(*)代表基于CSN的判别器判断的概率值，这是0-1之间的一个数，可以看成Sigmoid函数生成的结果，G(z)代表噪声z经过基于Transformer的生成器和生成的图像。x-P_data(x)代表真实数据的分布，z-P_z(x)代表生成数据的分布。E(*)代表期望值。判别器的目的是让公式V(D,G)最大，即公式中的第一项和第二项都要最大。第一项最大的意思是D(x)->1，真样本为真的概率接近1。而第二项最大的话，需要D(G(z))->0，假样本为真的概率为0。相反，生成器的目的是让公式最小，其第一项和第二项都要小，即D(x)->0，D(G(z))->1，这要求真样本为真的概率小，假样本为真的概率接近1，此时，生成的样本就可以假乱真。

与现有技术相比，本发明具有如下有益效果：本发明创新性地提出通过改进纯transformer的生成对抗网络，将判别器模型改成基于CSN的判别器模型，大大缩短了训练时间，使判别器获得了充足的训练，并且引入了谱归一化，增加了判别器训练的稳定性。在此基础上，训练出来的基于transformer的生成器模型成成图像的质量也获得了提高，能够解决在工程问题上训练样本不足等问题。

实施例2

第二方面，本实施例提供了一种图像生成装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于Trans-CSN生成对抗网络的图像生成方法，其特征在于，包括：

其中，所述基于Transformer的生成器模型的训练方法包括：

2.根据权利要求1所述的图像生成方法，其特征在于，基于Transformer的生成器模型包括：

其中，所述Transformer编码器采用多头自注意力机制对数据集图像提取特征。

3.根据权利要求2所述的图像生成方法，其特征在于，基于Transformer的生成器模型生成图像的方法包括：

步骤3-4，将上采样后的特征图送入到Transformer编码器当中；

4.根据权利要求1所述的图像生成方法，其特征在于，基于CSN的判别器模型包括多个CSN模块，CSN模块包括卷积层和谱归一化层；

其中，卷积层是包括3×3的卷积层、1×1的卷积层；

5.根据权利要求4所述的图像生成方法，其特征在于，所述基于CSN的判别器模型的判别过程包括：

步骤4-1，输入数据集的图像至判别器模型中；

经过谱归一化之后，神经网络的每一层g_l(x)权重，都满足:

步骤4-4，重复一次步骤4-2的操作；

步骤4-6，将步骤4-5的结果进行全局池化操作；

步骤4-9，将生成器模型生成的图像输入到判别器模型中；

步骤4-10，重复步骤4-2至步骤4-8，获得生成图像的预测结果；

6.根据权利要求1所述的图像生成方法，其特征在于，

7.根据权利要求6所述的图像生成方法，其特征在于，基于CSN的判别器的训练过程包括:

初始化生成器，输入满足标准正态分布的随机噪声矩阵；

8.根据权利要求6所述的图像生成方法，其特征在于，基于Transformer的生成器的训练过程包括:

向生成器输入满足标准正态分布的随机噪声矩阵；

9.根据权利要求1所述的图像生成方法，其特征在于，所述基于Transformer的生成器模型的训练过程的总目标函数

表示为：

10.一种图像生成装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1至9任一项所述方法的步骤。