CN116563399A - 一种基于扩散模型和生成对抗网络的图像生成方法 - Google Patents

一种基于扩散模型和生成对抗网络的图像生成方法 Download PDF

Info

Publication number
CN116563399A
CN116563399A CN202310705506.1A CN202310705506A CN116563399A CN 116563399 A CN116563399 A CN 116563399A CN 202310705506 A CN202310705506 A CN 202310705506A CN 116563399 A CN116563399 A CN 116563399A
Authority
CN
China
Prior art keywords
image
attention
output
input
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310705506.1A
Other languages
English (en)
Inventor
尤志强
魏煜鑫
钟志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202310705506.1A priority Critical patent/CN116563399A/zh
Publication of CN116563399A publication Critical patent/CN116563399A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于扩散模型和生成对抗网络的图像生成方法。该方法采用改进后的生成对抗网络模型的判别器对输入图像的信息进行提取,然后将中间状态输入到自注意力机制的扩散模型,最后经过生成器生成出一张完整的图片。对不同尺度的图像特征进行了融合,并提出了一种新的局部采样做法,可以更有效地捕捉图像细微的特征。在无附加条件的生成任务中,该模型可以根据一张图片输入,输出一张生成的图片;在有附加条件的图像生成领域比如图像超分辨率任务,将原始低分辨率的图像作为额外输入,则可以输出一张清晰度更高的高分辨率图像。

Description

一种基于扩散模型和生成对抗网络的图像生成方法
技术领域
本发明属于计算机视觉技术下的图像生成领域,具体是一种基于扩散模型和生成对抗网络的图像生成方法。
背景技术
图像生成算法作为当下比较热门的生成式深度学习模型,在人脸生成等领域应用广泛。早期生成对抗网络作为图像生成领域的首选模型,随着去噪扩散概率模型(简称扩散模型)的出现,图像生成的多样性再上一个台阶,如果可以将生成对抗网络的生成图像真实的特点和扩散模型多样性的特点结合起来,则可以得到一个更优秀的生成模型。
无附加条件的扩散模型,在推理时,输入一个符合标准高斯分布的随机噪声,还原出一张图像;有附加条件的扩散模型,不仅将噪声图像作为基础输入,还要输入附加条件,比如将一张低分辨率图像作为附加条件,这种作法可以用于生成一张更高分辨率的图像。
为实现上述技术,本发明基于扩散模型和生成对抗网络的优点,重新设计了一种图像生成算法。
发明内容
本发明旨在提供一种结合扩散模型和生成对抗网络模型特点的图像生成算法,为达到以上目的,本发明采用以下技术方案:
S1、将Stable Diffusion思想和生成对抗网络结合起来,Stable Diffusion允许将原始图像映射到一个更小但含有丰富信息的潜在空间进行扩散操作,在保证生成图像质量的前提下,加快了扩散模型的训练和推理速度,减少了反向扩散过程中计算量大、速度慢的问题。采用GAN的判别器取代VAE的编码器、生成器取代VAE的解码器。
S2、在Stable Diffusion的VAE中,解码是编码的逆过程,所以输出图像只能和输入图像的形状保持一致。而使用GAN取代VAE之后,生成器最终生成的图像的大小并没有受到限制,也就是说,在原始输入图像大小为256×256的情况下,生成器可以生成比如1024×1024甚至更高分辨率的图像,这取决于训练时的设置,这意味着我们的改进只需要更低分辨率的图像作为输入就可以生成分辨率大小更灵活的输出图像,并且这无疑减轻了训练时的硬件压力。
S3、更高像素的生成图像由GAN的生成器得到,并不直接借助于扩散模型,这可以减少扩散模型在大量数据运算中的耗时。
S4、将原始图像映射到潜在空间的过程可能忽略很多图像的微小细节,比如野生动物脸数据集中动物的毛发等,为了应对这一问题,本发明提出了一种局部采样(localsampling)的方法,并且将全局图像特征和局部图像特征融合互补作为输入。
附图说明
图1是本发明基于扩散模型和生成对抗网络的图像生成方法的模型结构图
图2是本发明实施例中用到的特征融合模块结构图
图3是使用本发明生成的一些人脸图像示例
具体实施方式
S1、在图1中,我们描述了模型的整体结构,如图所示,输入是一张大小为256×256×3的原始图像,其中X表示真实图像,X'表示由生成器输出的虚假图像。首先经过判别器主干网络对图像特征进行提取,在最后一层得到8192维度的向量,然后经过多层感知机和Leaky Relu激活函数得到一个0到1的分数预测,越接近于1代表判别器越认为输入是一张真实图片,越接近于0代表判别器认为输入是一张虚假图片。接下来,输入的原始图片会经过Feature Combination模块(如图2),输出维度为8192的向量,然后与判别器输出的8192维向量进行点乘,再经过线性层和Sigmoid激活函数,得到一个512维度的向量Z,这个潜在空间表示Z就作为DDPM with Attention的输入,经过DDPM with Attention模块之后输出同样维度大小的潜在表示Z',最后输入到生成器,由生成器还原出一张和原始图像同样大小的虚假图像。在训练阶段,我们采用Two-Steps方法,第一步训练判别器和生成器,在这个阶段中,判别器和生成器模型互相博弈,交错优化;第二步训练判别器和DDPM withAttention,在这个过程中,我们固定住判别器的网络参数,只调整DDPM with Attention的参数。采用Two-Steps的方法具有更高效和解耦合的特点。所以最终我们一共拥有三个模型,即判别器、DDPM with Attention和生成器。而在推理阶段,我们只需要关注DDPM withAttention和生成器这两个模型,即给定一个服从标准高斯分布的随机向量Z,将其输入到DDPM with Attention当中,然后由生成器直接生成虚假内容。
S2、特征融合部分如图2所示,输入是一张256×256×3的图像,依次得到全局特征G和局部特征L,对G和L做注意力计算,得到维度为256×1024的输出,将这个输出进行LayerNorm的操作;然后将局部特征L送入MLP,得到γ和β,再和Layer Norm操作之后的输出进行Scale,Shift操作,得到256×256的输出,经过线性层之后再将其展平,得到8192维度的向量输出。
S3、输入图像X经过Patchify和Pos-Embed(Position Embedding)操作得到张量G,G作为从图像提取得到的全局特征。
S4、输入图像X经过Local Sampling操作得到向量L,L作为从图像提取得到的局部特征。
S5、不同于resize操作的是,我们会固定采样一些小区域作为局部特征。为补充局部特征在原图中的位置信息,首先对原始图像X做sin-cos位置编码,在这里我们设置位置编码放缩因子C=1,得到编码后的张量为Xp,然后将Xp的长和宽均分为k份,得到k2个小正方形区域(实验中设置k=4),然后在其中不放回随机抽样4个小正方形区域Xl,在通道数维度上将他们拼接,得到Xl',然后经过局部特征编码模块输出Xl”,再将Xl”展平,最后经过一个线性层,输出局部特征L。
S6、我们将图片X分为256×256个像素点,每个像素点对应一个坐标(i,j),i和j代表每个像素点归一化之后的坐标点,L表示位置编码的放缩因子,位置编码公式为:
pos(i,j)=[sin1(i),cos1(i),sin1(j),cos1(j)…sinL(i),cosL(i),sinL(j),cosL(j)]
S7、局部特征编码模块采用ResNet-18结构(参考DB-Net模型的主干网络),使用了跳跃连接的策略,对不同尺度的特征信息进行融合。
S8、Patchify操作。X为输入的原始图像,I=256,p为patch size=16,则T=num_patches=(I/p)2,隐藏层维度D=1024,最终输出维度为T×D=num_patches×embed_dim。
S9、注意力操作。根据adaLN-Zero的做法,我们由局部特征得到scale、shift和gate参数γ、β和α来进行adaptive layer norm操作,然后对Global Feature和LocalFeature的融合特征做多头自注意力计算,注意力计算和Vision Transformer的设计保持一致,设置Attention的head num=4,具体细节如图2。
S10、在推理阶段,只需要将一张图片作为输入,经过编码器的提取,生成器将生成一张图片作为输出。生成的部分人脸图像效果如图3所示。
以上所述仅为本发明的核心步骤和执行思想,但本发明的保护范围并不局限于此,应当指出,对于本领域的技术人员来说,本申请可以有各种更改和变化。根据本发明的技术方案及其发明构思加以修改、等同替换、改进等,都应包含在本申请的保护范围之内。

Claims (3)

1.一种基于扩散模型和生成对抗网络的图像生成方法,其特征是,包括以下步骤:
S1、输入一张大小为256×256×3的原始图像,其中一张为真实图像,另一张是由生成器输出的虚假图像。经过模型的判别器主干网络对图像特征进行提取,在最后一层得到8192维度的向量,然后经过多层感知机和Leaky Relu激活函数得到一个0到1的分数预测,越接近于1代表判别器越认为输入是一张真实图片,越接近于0代表判别器认为输入是一张虚假图片。
S2、输入的原始图片会经过Feature Combination模块,输出维度为8192的向量,然后与判别器输出的8192维向量进行点乘,再经过线性层和Sigmoid激活函数,得到一个512维度的向量Z,这个潜在空间表示Z就作为DDPM with Attention的输入,经过DDPM withAttention模块之后输出同样维度大小的潜在表示Z',最后输入到生成器,由生成器还原出一张和原始图像同样大小的虚假图像。
S3、在训练阶段,采用Two-Steps方法,第一步训练判别器和生成器,在这个阶段中,判别器和生成器模型互相博弈,交错优化;第二步训练判别器和DDPM with Attention,在这个过程中,固定住判别器的网络参数,只调整DDPM with Attention的参数。采用Two-Steps的方法具有更高效和解耦合的特点。最终一共拥有三个模型,即判别器、DDPM withAttention和生成器。而在推理阶段,只需要关注DDPM with Attention和生成器这两个模型,即给定一个服从标准高斯分布的随机向量Z,将其输入到DDPM with Attention当中,然后由生成器直接生成虚假内容。
2.根据权利要求1中所述的一种基于扩散模型和生成对抗网络的图像生成方法,其特征在于,所述步骤S2包括:
S201、输入是一张256×256×3的图像,依次得到全局特征G和局部特征L,对G和L做注意力计算,得到维度为256×1024的输出,将这个输出进行Layer Norm的操作;然后将局部特征L送入MLP,得到γ和β,再和Layer Norm操作之后的输出进行Scale,Shift操作,得到256×256的输出,经过线性层之后再将其展平,得到8192维度的向量输出。
S202、输入图像X经过Patchify和Pos-Embed(Position Embedding)操作得到张量G,G作为从图像提取得到的全局特征。
S203、输入图像X经过Local Sampling操作得到向量L,L作为从图像提取得到的局部特征。
3.根据权利要求1中所述的一种基于扩散模型和生成对抗网络的图像生成方法,其特征在于,所述步骤S3包括:
S301、全局特征和局部特征之间的注意力操作。根据adaLN-Zero的做法,由局部特征得到scale、shift和gate参数γ、β和α来进行adaptive layer norm操作,然后对GlobalFeature和Local Feature的融合特征做多头自注意力计算,注意力计算和VisionTransformer的设计保持一致,设置Attention的head num=4。
S302、在推理阶段,只需要将一张图片作为输入,经过编码器的提取,生成器将生成一张图片作为输出。
CN202310705506.1A 2023-06-15 2023-06-15 一种基于扩散模型和生成对抗网络的图像生成方法 Pending CN116563399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310705506.1A CN116563399A (zh) 2023-06-15 2023-06-15 一种基于扩散模型和生成对抗网络的图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310705506.1A CN116563399A (zh) 2023-06-15 2023-06-15 一种基于扩散模型和生成对抗网络的图像生成方法

Publications (1)

Publication Number Publication Date
CN116563399A true CN116563399A (zh) 2023-08-08

Family

ID=87503693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310705506.1A Pending CN116563399A (zh) 2023-06-15 2023-06-15 一种基于扩散模型和生成对抗网络的图像生成方法

Country Status (1)

Country Link
CN (1) CN116563399A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197294A (zh) * 2023-10-07 2023-12-08 成都武侯社区科技有限公司 一种结合生成对抗网络和扩散模型的人脸生成方法
CN117649351A (zh) * 2024-01-30 2024-03-05 武汉大学 一种基于扩散模型的工业缺陷图像仿真方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197294A (zh) * 2023-10-07 2023-12-08 成都武侯社区科技有限公司 一种结合生成对抗网络和扩散模型的人脸生成方法
CN117197294B (zh) * 2023-10-07 2024-05-14 成都武侯社区科技有限公司 一种结合生成对抗网络和扩散模型的人脸生成方法
CN117649351A (zh) * 2024-01-30 2024-03-05 武汉大学 一种基于扩散模型的工业缺陷图像仿真方法及装置
CN117649351B (zh) * 2024-01-30 2024-04-19 武汉大学 一种基于扩散模型的工业缺陷图像仿真方法及装置

Similar Documents

Publication Publication Date Title
Chen et al. The face image super-resolution algorithm based on combined representation learning
CN116563399A (zh) 一种基于扩散模型和生成对抗网络的图像生成方法
CN110084734A (zh) 一种基于物体局部生成对抗网络的大数据权属保护方法
Zhang et al. Sienet: Siamese expansion network for image extrapolation
Li et al. Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement
Xin et al. Residual attribute attention network for face image super-resolution
CN114820871B (zh) 字体生成方法、模型的训练方法、装置、设备和介质
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
Ma et al. SD-GAN: Saliency-discriminated GAN for remote sensing image superresolution
Li et al. Region-of-interest and channel attention-based joint optimization of image compression and computer vision
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN116363261A (zh) 图像编辑模型的训练方法、图像编辑方法和装置
CN116634242A (zh) 语音驱动的说话视频生成方法、系统、设备和存储介质
CN116205820A (zh) 图像增强方法、目标识别方法、设备及介质
CN116580278A (zh) 一种基于多注意力机制的唇语识别方法、设备及存储介质
CN117478978B (zh) 一种文本生成电影视频片段的方法、系统和设备
KR102288759B1 (ko) 적대적 생성신경망에서의 조절 가능한 데이터셋 생성 방법 및 장치
Liu et al. Facial image inpainting using multi-level generative network
CN116912367B (zh) 一种基于轻量级动态细化的文本生成图像方法及系统
Ding et al. Object counting for remote-sensing images via adaptive density map-assisted learning
Lu et al. Environment-aware multiscene image enhancement for internet of things enabled edge cameras
Zhang et al. Global Priors with Anchored-stripe Attention and MultiScale Convolution for Remote Sensing Images Compression
CN117094365A (zh) 图文生成模型的训练方法、装置、电子设备及介质
CN113781376B (zh) 一种基于分治融合的高清人脸属性编辑方法
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination