CN116563399A

CN116563399A - 一种基于扩散模型和生成对抗网络的图像生成方法

Info

Publication number: CN116563399A
Application number: CN202310705506.1A
Authority: CN
Inventors: 尤志强; 魏煜鑫; 钟志伟
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-08-08

Abstract

本发明公开了一种基于扩散模型和生成对抗网络的图像生成方法。该方法采用改进后的生成对抗网络模型的判别器对输入图像的信息进行提取，然后将中间状态输入到自注意力机制的扩散模型，最后经过生成器生成出一张完整的图片。对不同尺度的图像特征进行了融合，并提出了一种新的局部采样做法，可以更有效地捕捉图像细微的特征。在无附加条件的生成任务中，该模型可以根据一张图片输入，输出一张生成的图片；在有附加条件的图像生成领域比如图像超分辨率任务，将原始低分辨率的图像作为额外输入，则可以输出一张清晰度更高的高分辨率图像。

Description

一种基于扩散模型和生成对抗网络的图像生成方法

技术领域

本发明属于计算机视觉技术下的图像生成领域，具体是一种基于扩散模型和生成对抗网络的图像生成方法。

背景技术

图像生成算法作为当下比较热门的生成式深度学习模型，在人脸生成等领域应用广泛。早期生成对抗网络作为图像生成领域的首选模型，随着去噪扩散概率模型(简称扩散模型)的出现，图像生成的多样性再上一个台阶，如果可以将生成对抗网络的生成图像真实的特点和扩散模型多样性的特点结合起来，则可以得到一个更优秀的生成模型。

无附加条件的扩散模型，在推理时，输入一个符合标准高斯分布的随机噪声，还原出一张图像；有附加条件的扩散模型，不仅将噪声图像作为基础输入，还要输入附加条件，比如将一张低分辨率图像作为附加条件，这种作法可以用于生成一张更高分辨率的图像。

为实现上述技术，本发明基于扩散模型和生成对抗网络的优点，重新设计了一种图像生成算法。

发明内容

本发明旨在提供一种结合扩散模型和生成对抗网络模型特点的图像生成算法，为达到以上目的，本发明采用以下技术方案：

S1、将Stable Diffusion思想和生成对抗网络结合起来，Stable Diffusion允许将原始图像映射到一个更小但含有丰富信息的潜在空间进行扩散操作，在保证生成图像质量的前提下，加快了扩散模型的训练和推理速度，减少了反向扩散过程中计算量大、速度慢的问题。采用GAN的判别器取代VAE的编码器、生成器取代VAE的解码器。

S2、在Stable Diffusion的VAE中，解码是编码的逆过程，所以输出图像只能和输入图像的形状保持一致。而使用GAN取代VAE之后，生成器最终生成的图像的大小并没有受到限制，也就是说，在原始输入图像大小为256×256的情况下，生成器可以生成比如1024×1024甚至更高分辨率的图像，这取决于训练时的设置，这意味着我们的改进只需要更低分辨率的图像作为输入就可以生成分辨率大小更灵活的输出图像，并且这无疑减轻了训练时的硬件压力。

S3、更高像素的生成图像由GAN的生成器得到，并不直接借助于扩散模型，这可以减少扩散模型在大量数据运算中的耗时。

S4、将原始图像映射到潜在空间的过程可能忽略很多图像的微小细节，比如野生动物脸数据集中动物的毛发等，为了应对这一问题，本发明提出了一种局部采样(localsampling)的方法，并且将全局图像特征和局部图像特征融合互补作为输入。

附图说明

图1是本发明基于扩散模型和生成对抗网络的图像生成方法的模型结构图

图2是本发明实施例中用到的特征融合模块结构图

图3是使用本发明生成的一些人脸图像示例

具体实施方式

S1、在图1中，我们描述了模型的整体结构，如图所示，输入是一张大小为256×256×3的原始图像，其中X表示真实图像，X'表示由生成器输出的虚假图像。首先经过判别器主干网络对图像特征进行提取，在最后一层得到8192维度的向量，然后经过多层感知机和Leaky Relu激活函数得到一个0到1的分数预测，越接近于1代表判别器越认为输入是一张真实图片，越接近于0代表判别器认为输入是一张虚假图片。接下来，输入的原始图片会经过Feature Combination模块(如图2)，输出维度为8192的向量，然后与判别器输出的8192维向量进行点乘，再经过线性层和Sigmoid激活函数，得到一个512维度的向量Z，这个潜在空间表示Z就作为DDPM with Attention的输入，经过DDPM with Attention模块之后输出同样维度大小的潜在表示Z'，最后输入到生成器，由生成器还原出一张和原始图像同样大小的虚假图像。在训练阶段，我们采用Two-Steps方法，第一步训练判别器和生成器，在这个阶段中，判别器和生成器模型互相博弈，交错优化；第二步训练判别器和DDPM withAttention，在这个过程中，我们固定住判别器的网络参数，只调整DDPM with Attention的参数。采用Two-Steps的方法具有更高效和解耦合的特点。所以最终我们一共拥有三个模型，即判别器、DDPM with Attention和生成器。而在推理阶段，我们只需要关注DDPM withAttention和生成器这两个模型，即给定一个服从标准高斯分布的随机向量Z，将其输入到DDPM with Attention当中，然后由生成器直接生成虚假内容。

S2、特征融合部分如图2所示，输入是一张256×256×3的图像，依次得到全局特征G和局部特征L，对G和L做注意力计算，得到维度为256×1024的输出，将这个输出进行LayerNorm的操作；然后将局部特征L送入MLP，得到γ和β，再和Layer Norm操作之后的输出进行Scale,Shift操作，得到256×256的输出，经过线性层之后再将其展平，得到8192维度的向量输出。

S3、输入图像X经过Patchify和Pos-Embed(Position Embedding)操作得到张量G，G作为从图像提取得到的全局特征。

S4、输入图像X经过Local Sampling操作得到向量L，L作为从图像提取得到的局部特征。

S5、不同于resize操作的是，我们会固定采样一些小区域作为局部特征。为补充局部特征在原图中的位置信息，首先对原始图像X做sin-cos位置编码，在这里我们设置位置编码放缩因子C＝1，得到编码后的张量为X_p，然后将X_p的长和宽均分为k份，得到k²个小正方形区域(实验中设置k＝4)，然后在其中不放回随机抽样4个小正方形区域X_l，在通道数维度上将他们拼接，得到X_l'，然后经过局部特征编码模块输出X_l”，再将X_l”展平，最后经过一个线性层，输出局部特征L。

S6、我们将图片X分为256×256个像素点，每个像素点对应一个坐标(i,j)，i和j代表每个像素点归一化之后的坐标点，L表示位置编码的放缩因子，位置编码公式为：

pos(i,j)＝[sin¹(i),cos¹(i),sin¹(j),cos¹(j)…sin^L(i),cos^L(i),sin^L(j),cos^L(j)]

S7、局部特征编码模块采用ResNet-18结构(参考DB-Net模型的主干网络)，使用了跳跃连接的策略，对不同尺度的特征信息进行融合。

S8、Patchify操作。X为输入的原始图像，I＝256，p为patch size＝16，则T＝num_patches＝(I/p)²，隐藏层维度D＝1024，最终输出维度为T×D＝num_patches×embed_dim。

S9、注意力操作。根据adaLN-Zero的做法，我们由局部特征得到scale、shift和gate参数γ、β和α来进行adaptive layer norm操作，然后对Global Feature和LocalFeature的融合特征做多头自注意力计算，注意力计算和Vision Transformer的设计保持一致，设置Attention的head num＝4，具体细节如图2。

S10、在推理阶段，只需要将一张图片作为输入，经过编码器的提取，生成器将生成一张图片作为输出。生成的部分人脸图像效果如图3所示。

以上所述仅为本发明的核心步骤和执行思想，但本发明的保护范围并不局限于此，应当指出，对于本领域的技术人员来说，本申请可以有各种更改和变化。根据本发明的技术方案及其发明构思加以修改、等同替换、改进等，都应包含在本申请的保护范围之内。

Claims

1.一种基于扩散模型和生成对抗网络的图像生成方法，其特征是，包括以下步骤：

S1、输入一张大小为256×256×3的原始图像，其中一张为真实图像，另一张是由生成器输出的虚假图像。经过模型的判别器主干网络对图像特征进行提取，在最后一层得到8192维度的向量，然后经过多层感知机和Leaky Relu激活函数得到一个0到1的分数预测，越接近于1代表判别器越认为输入是一张真实图片，越接近于0代表判别器认为输入是一张虚假图片。

S2、输入的原始图片会经过Feature Combination模块，输出维度为8192的向量，然后与判别器输出的8192维向量进行点乘，再经过线性层和Sigmoid激活函数，得到一个512维度的向量Z，这个潜在空间表示Z就作为DDPM with Attention的输入，经过DDPM withAttention模块之后输出同样维度大小的潜在表示Z'，最后输入到生成器，由生成器还原出一张和原始图像同样大小的虚假图像。

S3、在训练阶段，采用Two-Steps方法，第一步训练判别器和生成器，在这个阶段中，判别器和生成器模型互相博弈，交错优化；第二步训练判别器和DDPM with Attention，在这个过程中，固定住判别器的网络参数，只调整DDPM with Attention的参数。采用Two-Steps的方法具有更高效和解耦合的特点。最终一共拥有三个模型，即判别器、DDPM withAttention和生成器。而在推理阶段，只需要关注DDPM with Attention和生成器这两个模型，即给定一个服从标准高斯分布的随机向量Z，将其输入到DDPM with Attention当中，然后由生成器直接生成虚假内容。

2.根据权利要求1中所述的一种基于扩散模型和生成对抗网络的图像生成方法，其特征在于，所述步骤S2包括：

S201、输入是一张256×256×3的图像，依次得到全局特征G和局部特征L，对G和L做注意力计算，得到维度为256×1024的输出，将这个输出进行Layer Norm的操作；然后将局部特征L送入MLP，得到γ和β，再和Layer Norm操作之后的输出进行Scale,Shift操作，得到256×256的输出，经过线性层之后再将其展平，得到8192维度的向量输出。

S202、输入图像X经过Patchify和Pos-Embed(Position Embedding)操作得到张量G，G作为从图像提取得到的全局特征。

S203、输入图像X经过Local Sampling操作得到向量L，L作为从图像提取得到的局部特征。

3.根据权利要求1中所述的一种基于扩散模型和生成对抗网络的图像生成方法，其特征在于，所述步骤S3包括：

S301、全局特征和局部特征之间的注意力操作。根据adaLN-Zero的做法，由局部特征得到scale、shift和gate参数γ、β和α来进行adaptive layer norm操作，然后对GlobalFeature和Local Feature的融合特征做多头自注意力计算，注意力计算和VisionTransformer的设计保持一致，设置Attention的head num＝4。

S302、在推理阶段，只需要将一张图片作为输入，经过编码器的提取，生成器将生成一张图片作为输出。