CN115147272A

CN115147272A - 一种图像生成方法、计算机可读存储介质以及计算设备

Info

Publication number: CN115147272A
Application number: CN202210478046.9A
Authority: CN
Inventors: 王其; 马云鹏; 王磊; 倪世松; 张权; 陈明星
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-10-04

Abstract

本发明公开了一种图像生成方法、计算机可读存储介质以及计算设备，包括：获取低分辨率的草图；将低分辨率的草图输入预先通过对抗生成模型训练好的生成器中，输出由低分辨率的草图生成的高分辨率的完整图片。优点：本发明结合了多种对抗生成模型的优点，不仅确保了输入图像与最终输出图像的特征一致性，还确保了输出图像的多样性，可以由草图生成多种多样的具有高分辨率的完整图片，在训练过程中模型也始终保持稳定，不容易崩溃。

Description

一种图像生成方法、计算机可读存储介质以及计算设备

技术领域

本发明涉及一种图像生成方法、计算机可读存储介质以及计算设备，属于计算机视觉技术领域。

背景技术

图像生成一直是计算机视觉领域的研究重点之一，随着深度学习以及神经网络的长足发展，用于图像生成的生成模型也得到了巨大飞跃。目前有影响力的生成模型比如自回归模型、变分自编码器等虽然在图像生成上都是可行的，但是它们都存在着各种各样的问题，比如自回归模型需要按照像素点生成图像，计算成本过高，不利于处理大型数据；而变分自编码器存在着生成图像模糊的问题。

近年来由Goodfellow提出的对抗生成网络(GAN)得到了极大的关注，GAN网络利用生成器与优化器之间的博弈使得生成的图像与真实图像在分布上越来越相近。通过GAN网络生成的图像虽然比较清晰，但是在网络的训练过程中，直接生成具有高分辨率的图像会使得训练不稳定，容易崩溃。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种图像生成方法、计算机可读存储介质以及计算设备。

为解决上述技术问题，本发明提供一种图像生成方法，包括：

获取低分辨率的草图；

将低分辨率的草图输入预先通过对抗生成模型训练好的生成器中，输出由低分辨率的草图生成的高分辨率的完整图片。

进一步的，所述通过对抗生成模型训练好的生成器，包括：

S1、获取训练集D_train以及训练集D_train对应的草图数据集D_sketch；

构建包括生成器G1、生成器G2、判别器D1和判别器D2的对抗生成网络，其中，所述生成器G1以输入原始草图为触发条件，生成原始草图对应的伪造图片；生成器G2以输入原始草图对应的真实图片为触发条件，生成真实图片对应的伪造草图；判别器D1的输入为伪造图片以及真实图片，用于判断生成器G1生成的伪造图片是否为真；判别器D2的输入为伪造草图以及原始草图，用于判断生成器G2生成的伪造草图是否为真；所述生成器G1包括9个子生成模块g1～g9，分别对应9个由低分辨率到高分辨率的伪造图片；判别器D1包括9个子判别模块d1～d9，分别对应由高分辨率到低分辨率的伪造图片以及真实图片；

S2、固定生成器G1、生成器G2参数不变，利用训练集D_train及草图数据集D_sketch训练判别器D1、判别器D2；当判别器D1、判别器D2的损失函数无法减小或在多个训练周期后保持不变的时候，认为判别器D1、判别器D2的训练已经达到收敛；

S3、固定步骤S2中训练好的判别器D1、判别器D2参数不变，利用训练集D_train及草图数据集D_sketch训练生成器G1、生成器G2；当生成器G1，G2的损失函数无法减小或在多个训练周期后保持不变的时候，可以认为生成器G1，G2的训练已经达到收敛；

S4、重复步骤S2和S3直至对抗生成网络的整体损失函数达到纳什均衡或近似达到纳什均衡，确定对抗生成网络训练完毕；

S5、移除判别器D1、判别器D2、生成器G2，保留生成器G1为通过对抗生成模型训练好的生成器。

进一步的，每训练一次判别器D1、判别器D2，对应训练4次生成器G1、生成器G2。

进一步的，所述获取训练集D_train以及训练集D_train对应的草图数据集D_sketch的过程，包括：下载LSUN数据集作为训练数据集D_train，并使用PhotoSketch将来自LSUN数据集的图像转换为草图从而构建草图数据集D_sketch、D_train以及D_sketch中的图片存在对应关系。

进一步的，所述步骤S2，包括：

在每个训练周期内，将D_train中的数据标记为1，D_sketch中的数据标记为0；网络从D_train中采样出m张图片{x¹,x²,…,x^m,m∈N⁺}并从D_sketch中采样出成对的m张图片{z¹,z²,…,z^m,m∈N⁺}，xⁱ表示第i张完整的真实图片，zⁱ表示第i张完整的真实图片对应的第i张原始草图，N⁺表示正整数集合，i＝1,2,…,m；

将从D_sketch中采样到的m张原始草图通过生成器G1后得到完整的伪造图片

其中

表示第i张完整的伪造图片，伪造图片

与真实图片xⁱ一同输入判别器D1，判别器D1判断伪造图片是否为真；

真实图片xⁱ进入生成器G2生成m张对应的伪造草图

为第i张伪造草图，原始草图zⁱ以及伪造草图

一同输入判别器D2，判别器D2判断伪造草图是否为真；

根据判别器D1的损失函数L_D1以及判别器D2的损失函数L_D2是否收敛为依据，完成判别器D1、判别器D2的训练；

判别器D1的损失函数L_D1为：

其中，λ_k为第k个判别子模块对应的损失权重参数，

L_dk为第k个判别子模块的损失函数：

其中，

以及

分别表示来自D_train的真实图像数据以及由生成器G1生成的伪造图像数据概率，L(d_k,g_k)表示dk，gk相关的损失函数，d_k(xⁱ)表示xⁱ为真的概率，

表示由生成器生成的

为真的概率，D代表判别器；

判别器D2的损失函数为L_D2：

其中

以及

分别表示来自D_sketch的真实草图数据以及由生成器G2生成的伪造草图数据概率，L(D2,G2)表示D2，G2相关的损失函数，D2(zⁱ)表示zⁱ为真的概率，

表示由生成器生成的

为真的概率；

进一步的，所述将从D_sketch中采样到的m张原始草图通过生成器G1后得到完整的伪造图片，包括：

1)所述生成器G1具有9个生成子模块，用于分别生成4²、8²、16²、32²、64²、128²、256²、512²、1024²分辨率的伪造图片，对生成器G1中的生成子模块，从第一个生成子模块g1进行逐通道处理，第一通道上的特征图zⁱ变为

其中

及

是第1个子生成模块中第i张特征图的特征变量；

2)通过缩放卷积的原始权重w来对特征图进行调制，调制后权重表示为：

w′_ijk＝s_i·w_ijk

式中，w′_ijk为调制后权重，w_ijk为原始权重，s_i是对应于第i个输入特征图的尺度，j和k代表卷积的输出特征图以及卷积的空间足迹；

3)解调操作将调制后权重变为：

式中，w"_ijk为解调操作后的权重，是常数项；

4)输入特征图zⁱ通过子生成模块g1后变为输出特征图

式中，θ为偏置，以此类推可以得到g2～g9所对应的输出特征图；

5)输入图片经过子生成模块g1后，加入采样自高斯分布的噪声b1，进入子生成模块g2，接着通过pixel-shuffle将4²分辨率的特征图上采样至8²分辨率；

6)以此类推，得到1024²分辨率的完整的伪造图片

进一步的，所述固定判别器D1、判别器D2参数不变，利用训练集D_train及草图数据集D_sketch训练生成器G1、生成器G2，当生成器G1生成的伪造图片被判别器D1判别为真并且生成器G2生成的伪造草图被判别器D2判别为真时，生成器G1、G2训练完毕，包括：

生成器G1的损失函数L_G1为：

其中，λ_k为第k个生成子模块对应的损失权重参数，

L_gk为第k个生成子模块的损失函数：

其中

以及

表示由生成器生成的

为真的概率，G表示生成器；

生成器G2的损失函数为L_G2：

其中

以及

表示由生成器生成的

为真的概率；

网络的整体损失函数Loss如下：

进一步的，所述重复步骤S2和S3直至生成器G1、生成器G2以及判别器D1、判别器D2达到最佳性能，包括：

交替训练判别器D1，判别器D2以及生成器G1，生成器G2，并采用Adam优化器优化，直至达到最佳性能。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

一种计算设备，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

本发明所达到的有益效果：

本发明结合了多种对抗生成模型的优点，不仅确保了输入图像与最终输出图像的特征一致性，还确保了输出图像的多样性，可以由草图生成多种多样的具有高分辨率的完整图片，在训练过程中模型也始终保持稳定，不容易崩溃。

附图说明

图1是本发明的网络模型整体架构图；

图2是本发明的生成器G1架构图；

图3是本发明的生成器G1子生成模块连接图；

图4是本发明的生成器G1-判别器D1连接图；

图5是本发明的判别器D1架构图；

图6是本发明的实际应用图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提出一种图像生成方法，其整体网络架构如图1所示，包括以下步骤：

步骤1：将训练集D_train输入StyleGAN-Encoder从而将其投影至隐空间Z中，Z中的潜在变量z通过由8层全连接层组成的映射网络M进行特征解耦以生成中间向量集合W,W中的每个中间向量w通过仿射变换转化为能够代表特征的两个特征变量α和β。

步骤2：如图2所示，假设训练batch＝m，则生成器G1的输入图片为来自D_sketch的m张图片，G1的输入为zⁱ,i＝1,2,…,m。由于生成器G1具有9个生成子模块，分别对应4²～1024²分辨率的伪造图片，因此在G1的第一个子模块g1中，将对特征图进行逐通道处理，即将每个通道上的特征图zⁱ变为

其中

及

是第一个子生成模块中第i张特征图的特征变量，以此类推可以得到子生成模块g2～g9所对应的特征变量。

步骤3：如图2所示为了使得不同分辨率层级的特征图都尽量保持在相同的尺度s下，通过缩放卷积的原始权重w来对特征图进行调制。假设s_i是对应于第i个输入特征图的尺度，j和k代表卷积的输出特征图以及卷积的空间足迹，则调制后权重w′变为：

w′_ijk＝s_i·w_ijk

解调操作将权调制后权重w′变为：

则输入特征图zⁱ通过子生成模块1后变为输出特征图

θ为偏置，以此类推可以得到g2～g9所对应的输出特征图。

步骤4：如图2所示，输入图片经过子生成模块g1后，加入采样自高斯分布的噪声b1，进入子生成模块2。接着通过pixel-shuffle将4²分辨率的特征图上采样至8²分辨率。重复步骤4，步骤2，步骤3即可得到1024²分辨率的输出图片

步骤5：定生成器G1、生成器G2参数不变，利用训练集D_train及草图数据集D_sketch训练判别器D1、判别器D2。当判别器D1，D2的损失函数无法减小或在多个训练周期后保持不变的时候，可以认为判别器D1，D2的训练已经达到收敛。此时判别器D1应当能够准确判断出伪造图像是由生成器G1生成的虚假图像，判别器D2应当能够准确判断出伪造草图是由生成器G2生成的虚假草图。如图4所示，每个分辨率层级的子生成模块g1～g9与子判别模块d9～d1分别通过残差连接相连。如图5所示，在判别器D1中，每个子判别模块都将计算相应分辨率层级上的全局交叉熵，因此判别器D1的损失函数为子判别模块d1～d9的损失函数之和。因此判别器D1的损失函数L_D1为：

其中λ_k为第k个判别子模块对应的损失权重参数，

L_dk为第k个判别子模块的损失函数：

如图1所示，来自D_train的与输入相对应的真实图片xⁱ将通过生成器G2生成对应的伪造草图

判别器D2将判别草图输入zⁱ与伪造草图

的相似情况，因此判别器D2的损失函数为L_D2：

步骤6：固定步骤5中训练好的判别器D1、判别器D2参数不变，利用训练集D_train及草图数据集D_sketch训练生成器G1、生成器G2。为了稳定网络的训练，每训练一次判别器D1、D2，就训练4次生成器。当生成器G1，G2的损失函数无法减小或在多个训练周期后保持不变的时候，可以认为生成器G1，G2的训练已经达到收敛。此时生成器G1应当能够稳定生成可以被判别器D1判别为真的清晰伪造图片，生成器G2应当能够稳定生成可以被判别器D2判别为真的清晰伪造草图。

生成器G1的损失函数L_G1为：

其中，λ_k为第k个生成子模块对应的损失权重参数，

L_gk为第k个生成子模块的损失函数：

其中

以及

分别表示来自D_train的真实图像数据以及由生成器G1生成的伪造图像数据概率。

生成器G2的损失函数为L_G2：

其中

以及

分别表示来自D_sketch的真实草图数据以及由生成器G2生成的伪造草图数据概率。

网络的整体损失函数Loss如下：

步骤8：交替训练判别器D1，D2以及生成器G1，G2，并采用Adam优化器优化，直至网络的整体损失函数达到纳什均衡或近似达到纳什均衡，认为网络训练完毕。此时生成器G1应当可以依据输入原始草图稳定的生成清晰的对应伪造草图，生成器G2应当可以依据输入的原始草图对应的真实图片稳定的生成清晰的伪造图片。删去判别器D1，D2以及生成器G2，得到训练好的生成器G1，如图6所示，将人为绘制的草图输入生成器G1中，即可输出由草图生成的完整图片。

本发明中的生成器G1采用逐分辨率层级逐步生成输出图片的生成方式，可以由低分辨率图片逐步生成高分辨率图片，确保了训练的稳定性以及最终生成图片的精细度，解决了现有技术中直接生成高分辨率图片导致的训练模型不稳定以及输出图像模糊问题。

本发明中的判别器D1采用逐分辨率层级判别的判别方式，在每个分辨率层级上判别输出图片与真实样本的相似度。本发明加入生成器G2，将G1的输入图片对应的真实图片转换为草图输出，并通过判别器D2来判别G2的草图输出与G1的输入图片的相似度。从而保证生成器G1的输出图片与输入图片特征相似。通过生成器G1与判别器D1的博弈以及生成器G2与判别器D2的博弈，能够生成贴近输入图片特征的输出图片，解决了现有技术中存在的输出图片相比输入图片发生歪曲以及失真问题。

本发明中的生成器G1在生成输出图片的过程中，在每个子生成模块之间加入与分辨率层级相对应的随机噪声，从而在不同分辨率层级上逐步引入随机性，使得最终生成的图片多样化，即同一张输入图片可以生成多种输出图片，解决了现有生成方式中存在的输出图片单一化的问题。

由于不同分辨率的中间特征图对于最终输出图像的贡献不同，因此对于不同分辨率层级的损失计算也将以不同比例纳入到最终的损失中，损失函数更加合理。

通过变更D_train，可以实现输出图片的风格转换，即可以由通过控制D_train的风格使得草图生成具有不同风格的多样化图片。

网络采用端到端架构，将图像生成，风格迁移，随机生成等整合为一个完整的网络结构，减少了中间步骤可能带来的性能损失。

使用对抗生成模型，能够由草图生成更加真实，风格更加多样化的图片。

相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

相应的本发明还提供一种计算设备，包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种图像生成方法，其特征在于，包括：

获取低分辨率的草图；

2.根据权利要求1所述的图像生成方法，其特征在于，所述通过对抗生成模型训练好的生成器，包括：

3.根据权利要求2所述的图像生成方法，其特征在于，每训练一次判别器D1、判别器D2，对应训练4次生成器G1、生成器G2。

4.根据权利要求2所述的图像生成方法，其特征在于，所述获取训练集D_train以及训练集D_train对应的草图数据集D_sketch的过程，包括：下载LSUN数据集作为训练数据集D_train，并使用PhotoSketch将来自LSUN数据集的图像转换为草图从而构建草图数据集D_sketch、D_train以及D_sketch中的图片存在对应关系。

5.根据权利要求2所述的图像生成方法，其特征在于，所述步骤S2，包括：

其中

表示第i张完整的伪造图片，伪造图片

真实图片xⁱ进入生成器G2生成m张对应的伪造草图

为第i张伪造草图，原始草图zⁱ以及伪造草图

一同输入判别器D2，判别器D2判断伪造草图是否为真；

判别器D1的损失函数L_D1为：

其中，λ_k为第k个判别子模块对应的损失权重参数，

L_dk为第k个判别子模块的损失函数：

其中，

以及

表示由生成器生成的

为真的概率，D代表判别器；

判别器D2的损失函数为L_D2：

其中

以及

表示由生成器生成的

为真的概率。

6.根据权利要求2所述的图像生成方法，其特征在于，所述将从D_sketch中采样到的m张原始草图通过生成器G1后得到完整的伪造图片，包括：

其中

及

是第1个子生成模块中第i张特征图的特征变量；

w′_ijk＝s_i·w_ijk

3)解调操作将调制后权重变为：

式中，w"_ijk为解调操作后的权重，ε是常数项；

4)输入特征图zⁱ通过子生成模块g1后变为输出特征图

6)以此类推，得到1024²分辨率的完整的伪造图片

7.根据权利要求2所述的图像生成方法，其特征在于，所述固定判别器D1、判别器D2参数不变，利用训练集D_train及草图数据集D_sketch训练生成器G1、生成器G2，当生成器G1生成的伪造图片被判别器D1判别为真并且生成器G2生成的伪造草图被判别器D2判别为真时，生成器G1、G2训练完毕，包括：

生成器G1的损失函数L_G1为：