CN115222630A - 图像生成方法、图像去噪模型的训练方法和设备 - Google Patents

图像生成方法、图像去噪模型的训练方法和设备 Download PDF

Info

Publication number
CN115222630A
CN115222630A CN202210948018.9A CN202210948018A CN115222630A CN 115222630 A CN115222630 A CN 115222630A CN 202210948018 A CN202210948018 A CN 202210948018A CN 115222630 A CN115222630 A CN 115222630A
Authority
CN
China
Prior art keywords
image
noise
target
clean
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210948018.9A
Other languages
English (en)
Inventor
吴凌翔
王金桥
牛蕴方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210948018.9A priority Critical patent/CN115222630A/zh
Publication of CN115222630A publication Critical patent/CN115222630A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种图像生成方法、图像去噪模型的训练方法和设备,涉及图像生成技术领域,解决了如何生成与引导信息的信息内容相匹配的目标无噪声图像的问题。该方法包括:先获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息;引导信息包括语义轮廓图像,或者,包括语义轮廓图像和目标文本;并基于噪声图像、引导信息、目标加噪阶段及空引导信息,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与引导信息的信息内容的匹配度大于第一阈值。这样结合引导信息和空引导信息对噪声图像进行去噪处理,可以生成与引导信息的信息内容相匹配的目标无噪声图像,提高了生成的目标无噪声图像的准确度。

Description

图像生成方法、图像去噪模型的训练方法和设备
技术领域
本发明涉及图像生成技术领域,尤其涉及一种图像生成方法、图像去噪模型的训练方法和设备。
背景技术
在扩散模型场景下的图像去噪采样过程中,通常是将语义轮廓图像作为引导信息,基于生成对抗网络(Generative adversarial nets,GAN)生成与语义轮廓图像相匹配的目标无噪声图像,但是,生成的目标无噪声图像与语义轮廓图像的匹配度较差。
因此,如何生成与引导信息的信息内容相匹配的目标无噪声图像,从而提高生成的目标无噪声图像的准确度是本领域技术人员亟待解决的问题。
发明内容
本发明提供一种图像生成方法、图像去噪模型的训练方法和设备,可以生成与引导信息的信息内容相匹配的目标无噪声图像,从而提高了生成的目标无噪声图像的准确度。
本发明提供一种图像生成方法,该图像生成方法可以包括:
获取待处理的噪声图像、所述噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,所述引导信息包括语义轮廓图像;或者,所述引导信息包括语义轮廓图像和目标文本。
基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息,对所述噪声图像进行去噪处理,生成目标无噪声图像;其中,所述目标无噪声图像的图像内容与所述引导信息的信息内容匹配度大于第一阈值。
根据本发明提供的一种图像生成方法,所述基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息,对所述噪声图像进行去噪处理,生成目标无噪声图像,包括:
S1、将所述噪声图像、所述引导信息以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将所述噪声图像、所述空引导信息以及所述目标加噪阶段输入至所述图像去噪模型中,得到第二参数。
S2、根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
S3、更新所述目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值。
S4、在确定所述更新后的加噪阶段等于第二阈值的情况下,则将所述噪声图像在所述目标加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
S5、在确定所述更新后的加噪阶段大于所述第二阈值的情况下,则确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,并将所述前一次加噪阶段对应的噪声图像确定为所述待处理的噪声图像,将所述更新后的加噪阶段确定为所述目标加噪阶段,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将所述噪声图像在所述更新后的加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
根据本发明提供的一种图像生成方法,所述第一参数包括第一均值和第一方差,所述第二参数包括第二均值,所述根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像,包括:
对所述第一均值和所述第二均值进行融合,得到对应的目标均值。
根据所述目标均值和所述第一方差,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
根据本发明提供的一种图像生成方法,所述对所述第一均值和所述第二均值进行融合,得到对应的目标均值,包括:
确定所述第一均值和所述第二均值的差值,并确定所述差值与其对应的权重之前的乘积。
将所述第二均值与所述乘积的和,确定为所述目标均值。
根据本发明提供的一种图像生成方法,所述确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,包括:
根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差,生成所述前一次加噪阶段对应的噪声图像。
根据本发明提供的一种图像生成方法,所述根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一方差,生成所述前一次加噪阶段对应的噪声图像,包括:
根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像,以及所述第一方差确定第三均值。
基于所述第一方差确定第二方差。
根据所述第三均值和所述第二方差,生成所述前一次加噪阶段对应的噪声图像。
本发明还提供一种图像去噪模型的训练方法,该图像去噪模型的训练方法可以包括:
获取多个干净图像样本、所述多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在所述加噪阶段对应的噪声图像样本;其中,所述多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本,所述引导信息包括语义轮廓图像;或者,所述引导信息包括语义轮廓图像和目标文本。
将所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本、所述引导信息和所述加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。
根据所述多个干净图像样本,以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对所述初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。
根据本发明提供的一种图像去噪模型的训练方法,所述根据所述多个干净图像样本,以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对所述初始图像去噪模型的模型参数进行更新,包括:
根据所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,得到所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本。
根据所述多个干净图像样本、以及所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本,对所述初始图像去噪模型的模型参数进行更新。
根据本发明提供的一种图像去噪模型的训练方法,所述根据所述多个干净图像样本、以及所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本,对所述初始图像去噪模型的模型参数进行更新,包括:
针对各干净图像样本,根据所述干净图像样本的均值和所述干净图像样本在所述加噪阶段对应的预测干净图像样本的均值,构造所述干净图像样本对应的均方差损失;并根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本,构造所述干净图像样本对应的变分下界损失;根据所述干净图像样本对应的均方差损失和变分下界损失,确定所述干净图像样本对应的目标损失。
根据所述各干净图像样本对应的目标损失,对所述初始图像去噪模型的模型参数进行更新。
根据本发明提供的一种图像去噪模型的训练方法,所述根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本,构造所述干净图像样本对应的变分下界损失,包括:
在所述加噪阶段的取值为加噪阶段范围的下边界值的情况下,根据所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本确定离散高斯混合似然,并将所述离散高斯混合似然确定为所述干净图像样本对应的变分下界损失。
在所述加噪阶段的取值为非下边界值的情况下,根据所述干净图像样本在所述加噪阶段的前一个加噪阶段对应的第一预测噪声图像样本和第二预测噪声图像样本确定对应的目标散度;并基于所述目标散度,构造所述干净图像样本对应的变分下界损失;其中,所述第一预测噪声图像样本是基于所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的,所述第二预测噪声图像样本是基于所述干净图像样本在所述加噪阶段对应的预测干净图像样本、所述预测干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的。
根据本发明提供的一种图像去噪模型的训练方法,所述干净图像样本对应的语义轮廓图像为非空语义轮廓图像,所述根据所述干净图像样本对应的均方差损失和变分下界损失,确定所述干净图像样本对应的目标损失,包括:
根据所述干净图像样本对应的语义轮廓图像中,各像素所属的语义类别,确定所述语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积;并根据所述各语义类别对应的语义块的面积,确定所述语义轮廓图像对应的目标权重。
根据所述语义轮廓图像对应的目标权重,分别确定所述均方差损失对应的第一权重,以及所述变分下界损失对应的第二权重;并确定所述第一权重与所述均方差损失的第一乘积,以及所述第二权重与所述变分下界损失的第二乘积。
根据所述第一乘积和所述第二乘积,确定所述干净图像样本对应的目标损失。
根据本发明提供的一种图像去噪模型的训练方法,所述根据所述各语义类别对应的语义块的面积,确定所述语义轮廓图像对应的目标权重,包括:
针对所述各语义类别,根据所述语义类别对应的语义块的面积确定第一数值,并根据所述第一数值和所述多个语义类别中除所述语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值;将所述第一数值和所述第二数值的比值,确定为所述语义类别对应的语义块中各像素对应的权重。
所述多个语义类别中,各语义类别对应的语义块中各像素对应的权重构成所述语义轮廓图像对应的目标权重。
根据本发明提供的一种图像去噪模型的训练方法,获取所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本,包括:
将所述多个干净图像样本和所述多个干净图像样本各自对应的所述加噪阶段输入至所述初始扩散模型中的加噪处理算法中,得到所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本。
本发明还提供一种图像生成装置,该图像生成装置可以包括:
第一获取单元,用于获取待处理的噪声图像、所述噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,所述引导信息包括语义轮廓图像;或者,所述引导信息包括语义轮廓图像和目标文本。
生成单元,用于基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息,对所述噪声图像进行去噪处理,生成目标无噪声图像;其中,所述目标无噪声图像的图像内容与所述引导信息的信息内容匹配度大于第一阈值。
根据本发明提供的一种图像生成装置,所述生成单元,具体用于执行:
S1、将所述噪声图像、所述引导信息以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将所述噪声图像、所述空引导信息以及所述目标加噪阶段输入至所述图像去噪模型中,得到第二参数。
S2、根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
S3、更新所述目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值。
S4、在确定所述更新后的加噪阶段等于第二阈值的情况下,则将所述噪声图像在所述目标加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
S5、在确定所述更新后的加噪阶段大于所述第二阈值的情况下,则确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,并将所述前一次加噪阶段对应的噪声图像确定为所述待处理的噪声图像,将所述更新后的加噪阶段确定为所述目标加噪阶段,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将所述噪声图像在所述更新后的加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
根据本发明提供的一种图像生成装置,所述第一参数包括第一均值和第一方差,所述第二参数包括第二均值。
所述生成单元,具体用于对所述第一均值和所述第二均值进行融合,得到对应的目标均值;根据所述目标均值和所述第一方差,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
根据本发明提供的一种图像生成装置,所述生成单元,具体用于确定所述第一均值和所述第二均值的差值,并确定所述差值与其对应的权重之前的乘积;将所述第二均值与所述乘积的和,确定为所述目标均值。
根据本发明提供的一种图像生成装置,所述生成单元,具体用于根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差,生成所述前一次加噪阶段对应的噪声图像。
根据本发明提供的一种图像生成装置,所述生成单元,具体用于根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像,以及所述第一方差确定第三均值;基于所述第一方差确定第二方差;根据所述第三均值和所述第二方差,生成所述前一次加噪阶段对应的噪声图像。
本发明还提供一种图像去噪模型的训练装置,该图像去噪模型的训练装置可以包括:
第二获取单元,用于获取多个干净图像样本、所述多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在所述加噪阶段对应的噪声图像样本;其中,所述多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本,所述引导信息包括语义轮廓图像;或者,所述引导信息包括语义轮廓图像和目标文本。
第一生成单元,用于将所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本、所述引导信息和所述加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。
第二生成单元,用于根据所述多个干净图像样本,以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对所述初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。
根据本发明提供的一种图像去噪模型的训练装置,所述第二生成单元,具体用于根据所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,得到所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本;根据所述多个干净图像样本、以及所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本,对所述初始图像去噪模型的模型参数进行更新。
根据本发明提供的一种图像去噪模型的训练装置,所述第二生成单元,具体用于针对各干净图像样本,根据所述干净图像样本的均值和所述干净图像样本在所述加噪阶段对应的预测干净图像样本的均值,构造所述干净图像样本对应的均方差损失;并根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本,构造所述干净图像样本对应的变分下界损失;根据所述干净图像样本对应的均方差损失和变分下界损失,确定所述干净图像样本对应的目标损失;根据所述各干净图像样本对应的目标损失,对所述初始图像去噪模型的模型参数进行更新。
根据本发明提供的一种图像去噪模型的训练装置,所述第二生成单元,具体用于在所述加噪阶段的取值为加噪阶段范围的下边界值的情况下,根据所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本确定离散高斯混合似然,并将所述离散高斯混合似然确定为所述干净图像样本对应的变分下界损失;在所述加噪阶段的取值为非下边界值的情况下,根据所述干净图像样本在所述加噪阶段的前一个加噪阶段对应的第一预测噪声图像样本和第二预测噪声图像样本确定对应的目标散度;并基于所述目标散度,构造所述干净图像样本对应的变分下界损失;其中,所述第一预测噪声图像样本是基于所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的,所述第二预测噪声图像样本是基于所述干净图像样本在所述加噪阶段对应的预测干净图像样本、所述预测干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的。
根据本发明提供的一种图像去噪模型的训练装置,所述干净图像样本对应的语义轮廓图像为非空语义轮廓图像。
所述第二生成单元,具体用于根据所述干净图像样本对应的语义轮廓图像中,各像素所属的语义类别,确定所述语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积;并根据所述各语义类别对应的语义块的面积,确定所述语义轮廓图像对应的目标权重;根据所述语义轮廓图像对应的目标权重,分别确定所述均方差损失对应的第一权重,以及所述变分下界损失对应的第二权重;并确定所述第一权重与所述均方差损失的第一乘积,以及所述第二权重与所述变分下界损失的第二乘积;根据所述第一乘积和所述第二乘积,确定所述干净图像样本对应的目标损失。
根据本发明提供的一种图像去噪模型的训练装置,所述第二生成单元,具体用于针对所述各语义类别,根据所述语义类别对应的语义块的面积确定第一数值,并根据所述第一数值和所述多个语义类别中除所述语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值;将所述第一数值和所述第二数值的比值,确定为所述语义类别对应的语义块中各像素对应的权重;所述多个语义类别中,各语义类别对应的语义块中各像素对应的权重构成所述语义轮廓图像对应的目标权重。
根据本发明提供的一种图像去噪模型的训练装置,所述第二获取单元,具体用于将所述多个干净图像样本和所述多个干净图像样本各自对应的所述加噪阶段输入至所述初始扩散模型中的加噪处理算法中,得到所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的图像生成方法或者图像去噪模型的训练方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的图像生成方法或者图像去噪模型的训练方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的图像生成方法或者图像去噪模型的训练方法。
本发明提供的图像生成方法、图像去噪模型的训练方法和设备,在生成与引导信息的信息内容相匹配的目标无噪声图像时,可以先获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,引导信息包括语义轮廓图像,或者,包括语义轮廓图像和目标文本;并基于噪声图像、引导信息、目标加噪阶段及空引导信息,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与引导信息的信息内容的匹配度大于第一阈值。这样结合引导信息和空引导信息对噪声图像进行去噪处理,可以生成与引导信息的信息内容相匹配的目标无噪声图像,从而提高了生成的目标无噪声图像的准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的图像生成方法的流程示意图;
图2为本发明实施例提供的对噪声图像进行去噪处理的过程示意图;
图3为本发明实施例提供的一种图像去噪模型的输入示意图;
图4为本发明实施例提供的图像去噪模型的训练方法的流程示意图;
图5为本发明实施例提供的图像生成装置的结构示意图;
图6为本发明实施例提供的图像去噪模型的训练装置的结构示意图;
图7为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本发明的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
本发明实施例提供的技术方案可以应用于图像生成场景中,尤其可以应用于扩散模型中的去噪场景中。在扩散模型场景下的图像去噪采样过程中,通常是将语义轮廓图像作为引导信息,基于GAN生成与语义轮廓图像相匹配的目标无噪声图像,但是,生成的目标无噪声图像与语义轮廓图像的匹配度较差。
为了生成与引导信息的信息内容相匹配的目标无噪声图像,从而提高生成的目标无噪声图像的准确度,本发明实施例提供了一种图像生成方法,在图像去噪采样过程中,可以结合引导信息和空引导信息对噪声图像进行去噪处理,以生成与引导信息的信息内容相匹配的目标无噪声图像,从而提高了生成的目标无噪声图像的准确度。其中,引导信息包括语义轮廓图像,或者,包括语义轮廓图像和目标文本,实现了像素级图像的引导。
下面,将通过下述几个具体的实施例对本发明提供的图像生成方法行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例提供的图像生成方法的流程示意图,该图像生成方法可以由软件和/或硬件装置执行。示例的,请参见图1所示,该图像生成方法可以包括:
S101、获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本。
其中,噪声图像通常包括三个RGB通道,而语义轮廓图像为仅包含一个信道通道的灰度图像。语义轮廓图像可以理解为基于噪声图像,想要生成的无噪声图像的语义轮廓图像信息。目标文本可以理解为基于噪声图像,想要生成的无噪声图像的描述文本。可以理解的是,在本发明实施例中,引导信息和空引导信息共同作为去噪处理过程中的引导信息,以结合该引导信息和空引导信息生成与引导信息的信息内容相匹配的目标无噪声图像。
示例地,获取待处理的噪声图像时,可以从其他电子设备接收该噪声图像,可以从本地存储中查找获取该噪声图像,或者,也可以从其他第三方数据库中获取该噪声图像等,具体可以根据实际需要进行设置,在此,对于待处理的噪声图像的获取方法,本发明实施例不做具体限制。
其中,噪声图像可以理解为基于目标加噪阶段,对原始干净图像进行加噪处理得到的。假设在扩散模型场景下,设置的扩散步数为T步,目标加噪阶段用t表示,则可以确定加噪阶段范围为0-T,目标加噪阶段t为0-T内的一个随机数。示例地,假设随机确定出的目标加噪阶段为t=5,则扩散模型中的加噪处理算法,可以连续对原始干净图像进行五次加噪处理,其中,第二次加噪处理是在第一次加噪处理得到的噪声图像的基础上执行的,第三次加噪处理是在第二次加噪处理得到的噪声图像的基础上执行的,第四次加噪处理是在第三次加噪处理得到的噪声图像的基础上执行的,第五次加噪处理是在第四次加噪处理得到的噪声图像的基础上执行的,这样通过对原始干净图像进行五次加噪处理,就可以得到原始干净图像在目标加噪阶段t=5时的噪声图像。
示例地,扩散模型中的加噪处理算法,对原始干净图像进行加噪处理时,可以采用线性方式的噪声添加方法进行逐步加噪处理,这样可以使得噪声的添加过程更平稳,可以在扩散过程中较好地保留原始干净图像的相关信息;当然,也可以采用其他的噪声添加方法进行加噪处理,具体可以根据实际需要进行设置,在此,本发明实施例只是以采用线性方式的噪声添加方法进行加噪处理为例进行说明,但并不代表本发明实施例仅局限于此。
在分别获取到待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息后,就可以执行下述S102:
S102、基于噪声图像、引导信息、目标加噪阶段以及空引导信息,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。
其中,第一阈值的取值可以根据实际需要进行设置,在此,对于第一阈值的具体取值,本发明实施例不做具体限制。
通常情况下,在扩散模型场景下,可以先随机初始化一个符合高斯概率分布的目标加噪阶段,扩散模型中的加噪处理算法基于目标加噪阶段对原始干净图像进行逐步加噪处理,得到噪声图像后,可以通过逆扩散过程逐步对加噪处理得到的噪声图像进行层层去噪处理,以得到预测的目标无噪声图像。示例地,通过逆扩散过程逐步对加噪处理得到的噪声图像进行层层去噪处理时,可以基于目标加噪阶段的取值,对噪声图像进行层层去噪处理,即循环执行去噪处理操作,以得到预测的目标无噪声图像。可以理解的是,本发明实施例中,在基于目标加噪阶段的取值对噪声图像进行层层去噪处理的过程中,不同去噪阶段的噪声图像对应的引导信息和空引导信息相同。
示例地,基于噪声图像、引导信息、目标加噪阶段以及空引导信息,对噪声图像进行去噪处理时,其去噪处理过程可以包括:
S1、将噪声图像、引导信息以及目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将噪声图像、空引导信息以及目标加噪阶段输入至图像去噪模型中,得到第二参数,示例地,可参见图2所示,图2为本发明实施例提供的对噪声图像进行去噪处理的过程示意图,在得到第一参数和第二参数后,可执行下述S2:
S2、根据第一参数第二参数,生成噪声图像在目标加噪阶段对应的无噪声图像。
S3、更新目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值。
S4、在确定更新后的加噪阶段等于第二阈值的情况下,则将噪声图像在目标加噪阶段对应的无噪声图像,确定为目标无噪声图像。
S5、在确定更新后的加噪阶段大于第二阈值的情况下,则确定目标加噪阶段的前一次加噪阶段对应的噪声图像,并将前一次加噪阶段对应的噪声图像确定为待处理的噪声图像,将更新后的加噪阶段确定为目标加噪阶段,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将噪声图像在更新后的加噪阶段对应的无噪声图像,确定为目标无噪声图像。
其中,第二阈值的取值可以根据实际需要进行设置。示例地,当加噪阶段范围为0-T时,第二阈值为0。
示例地,图像去噪模型可以为UNet神经网络模型,UNet神经网络模型主要包含输入层、中间层和输出层。其中,输入层主要由若干残差块、注意力块和下采样块堆叠构成,用于提取噪声图像的特征;中间块由一个残差块、注意力块和另一个残差块组成,用于对提取的特征进行进一步的整和处理;输出块由若干残差块、注意力块和上采样块堆叠构成,用于对中间层整和处理的特征进行恢复,从而得到噪声图像所包含噪声的均值和方差。
示例地,图像去噪模型是基于多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像,对初始扩散模型中的初始图像去噪模型进行训练得到的,该初始图像去噪模型的训练过程将在后续进行详细描述。
示例地,在上述S1中,将噪声图像、引导信息以及目标加噪阶段输入至扩散模型中的图像去噪模型中时,考虑到噪声图像通常包括三个RGB通道,而引导信息中包括的语义轮廓图像为仅包含一个信道通道的灰度图像,因此,可以将语义轮廓图像作为第四通道拼接到噪声图像上,并将拼接好的多通道图像和目标加噪阶段输入至扩散模型中的图像去噪模型中,示例地,可参见图3所示,图3为本发明实施例提供的一种图像去噪模型的输入示意图,在将加噪阶段输入至图像去噪模型之前,可以先通过时间编码器对加噪阶段进行编码,得到时间编码特征,并将时间编码输入至图像去噪模型中的各个残差块中;此外,当引导信息包括目标文本时,目标文本作为补充条件,可以进一步提升生成的目标无噪声图像的准确度,在该种情况下,在将目标文本输入至图像去噪模型之前,可以先通过文本序列化器对目标文本进行序列化处理,得到序列化文本,并通过文本编码器对序列化文本进行编码,生成文本编码特征,再将文本编码特征输入至图像去噪模型中的注意力块中,采用注意力机制将文本编码特征进行融合,最终输出目标加噪阶段对应的噪声图像所包含的均值和方差,即第一参数,第一参数包括均值和方差可对应记为第一均值和第一方差。
类似的,将噪声图像、空引导信息以及目标加噪阶段输入至图像去噪模型中时,空引导信息中的语义轮廓图像可以采用一个值为0的矩阵表示,与空文本一同作为图像去噪模型的输入,考虑到噪声图像通常包括三个RGB通道,而空引导信息中包括的空语义轮廓图像为仅包含一个信道通道的灰度图像,因此,可以将空语义轮廓图像作为第四通道拼接到噪声图像上,并将拼接好的多通道图像和目标加噪阶段输入至扩散模型中的图像去噪模型中。在将加噪阶段输入至图像去噪模型之前,可以先通过时间编码器对加噪阶段进行编码,得到时间编码特征,并将时间编码输入至图像去噪模型中的各个残差块中;此外,当空引导信息包括空文本时,空文本作为补充条件,可以进一步提升生成的目标无噪声图像的准确度,在该种情况下,在将空文本输入至图像去噪模型之前,可以先通过文本序列化器对空文本进行序列化处理,得到序列化文本,并通过文本编码器对序列化文本进行编码,生成文本编码特征,再将文本编码特征输入至图像去噪模型中的注意力块中,采用注意力机制将文本编码特征进行融合,最终输出目标加噪阶段对应的噪声图像所包含的均值和方差,即第二参数,第二参数包括均值可对应记为第二均值,鉴于其包括的方差在后续处理过程中暂时未涉及,因此,可先不对其进行区分。
示例地,在上述S2中,根据第一参数和第二参数,生成噪声图像在目标加噪阶段对应的无噪声图像时,扩散模型可以采用无分类器引导的思想,先对第一均值和第二均值进行融合,得到对应的目标均值;再根据融合得到的目标均值和第一方差,生成噪声图像在目标加噪阶段对应的无噪声图像。这样采用无分类器引导的思想,生成噪声图像在目标加噪阶段对应的无噪声图像,相比较无引导的生成方法,可以在一定程度上提高生成的无噪声图像的图像质量和准确度。
示例地,对第一均值和第二均值进行融合时,可以先确定第一均值和第二均值的 差值,并确定差值与其对应的权重之间的乘积;将第二均值与乘积的和,确定为目标均值。 为了便于理解,示例地,在一种场景下,引导信息仅包括语义轮廓图像,假设目标加噪阶段 为t,
Figure 914331DEST_PATH_IMAGE001
表示目标加噪阶段t的噪声图像,
Figure 470077DEST_PATH_IMAGE002
表示引导信息中的语义轮廓图像,
Figure 599576DEST_PATH_IMAGE003
表示空引 导信息中的空语义轮廓图像,将目标加噪阶段t的噪声图像
Figure 240773DEST_PATH_IMAGE004
、语义轮廓图像
Figure 848341DEST_PATH_IMAGE005
、以及目标 加噪阶段t输入至图像去噪模型,其输出的第一均值可记为
Figure 648807DEST_PATH_IMAGE006
,将目标加噪阶 段t的噪声图像
Figure 699939DEST_PATH_IMAGE004
、空语义轮廓图像
Figure 80629DEST_PATH_IMAGE007
、以及目标加噪阶段t输入至图像去噪模型,其输出 的第二均值可记为
Figure 242620DEST_PATH_IMAGE008
,则对第一均值
Figure 22227DEST_PATH_IMAGE009
和第二均值
Figure 634473DEST_PATH_IMAGE010
进行融合,得到目标均值可参见下述公式1:
Figure 984683DEST_PATH_IMAGE011
其中,
Figure 199633DEST_PATH_IMAGE012
表示融合得到的目标均值,
Figure 584478DEST_PATH_IMAGE013
表示第一均值和第二均值的差 值对应的权重。
在另一种场景下,引导信息包括语义轮廓图像和目标文本,同样假设目标加噪阶 段为t,
Figure 512768DEST_PATH_IMAGE001
表示目标加噪阶段t的噪声图像,
Figure 350274DEST_PATH_IMAGE005
表示引导信息中的语义轮廓图像,
Figure 244280DEST_PATH_IMAGE014
表示空 引导信息中的空语义轮廓图像,
Figure 732899DEST_PATH_IMAGE015
表示引导信息中的目标文本,
Figure 562315DEST_PATH_IMAGE016
表示空引导信息中的空 文本,将目标加噪阶段t的噪声图像
Figure 136385DEST_PATH_IMAGE017
、语义轮廓图像
Figure 443869DEST_PATH_IMAGE018
、目标文本
Figure 930870DEST_PATH_IMAGE019
以及目标加噪阶段t 输入至图像去噪模型,其输出的第一均值可记为
Figure 914875DEST_PATH_IMAGE020
,将目标加噪阶段t的 噪声图像
Figure 726974DEST_PATH_IMAGE021
、空语义轮廓图像
Figure 352996DEST_PATH_IMAGE022
、空文本
Figure 566940DEST_PATH_IMAGE023
以及目标加噪阶段t输入至图像去噪模型,其输 出的第二均值可记为
Figure 862792DEST_PATH_IMAGE024
,则对第一均值
Figure 408524DEST_PATH_IMAGE025
和第二均值
Figure 57811DEST_PATH_IMAGE026
进行融合,得到目标均值可参见下述公式2:
Figure 375529DEST_PATH_IMAGE027
其中,
Figure 717648DEST_PATH_IMAGE028
表示融合得到的目标均值,
Figure 628973DEST_PATH_IMAGE029
表示第一均值和第二均 值的差值对应的权重。
在对第一均值和第二均值进行融合,得到对应的目标均值后,就可以根据目标均值和第一方差,生成噪声图像在目标加噪阶段对应的无噪声图像,其具体实现可参见现有技术中,基于均值和方差生成噪声图像在加噪阶段对应的无噪声图像的相关方法,在此,本发明实施例不再进行赘述。
在执行上述S2生成噪声图像在目标加噪阶段对应的无噪声图像后,不能直接将该 无噪声图像确定为对噪声图像进行去噪处理最终得到的目标无噪声图像,而是要进一步更 新加噪阶段,例如,每一次更新加噪阶段时,可以将目标加噪阶段的取值减1,得到更新后的 加噪阶段;并判断更新后的加噪阶段是否大于第二阈值,示例地,第二阈值可以设置为0,具 体可以根据实际需要进行设置。在确定更新后的加噪阶段等于第二阈值的情况下,则可以 直接将噪声图像在目标加噪阶段对应的无噪声图像,确定为最终的目标无噪声图像;相反 的,在确定更新后的加噪阶段大于第二阈值的情况下,需要进一步执行上述S5,确定目标加 噪阶段的前一次加噪阶段对应的噪声图像
Figure 331218DEST_PATH_IMAGE030
,并将前一次加噪阶段对应的噪声图像
Figure 254175DEST_PATH_IMAGE031
确定为上述S1中的待处理的噪声图像,将更新后的加噪阶段确定为目标加噪阶段, 重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将噪声图像在更新后的加噪 阶段对应的无噪声图像,确定为最终的目标无噪声图像。
示例地,在上述S5中,确定目标加噪阶段的前一次加噪阶段对应的噪声图像时,可以根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一参数中的第一方差,生成前一次加噪阶段对应的噪声图像,从而获取到前一次加噪阶段对应的噪声图像。
示例地,根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一方差,生成前一次加噪阶段对应的噪声图像时,可以根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像,以及第一方差确定第三均值;并基于第一方差确定第二方差;再根据第三均值和第二方差,生成前一次加噪阶段对应的噪声图像。
示例地,根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像,以及第一方差确定第三均值时,可参见公式3:
Figure 19393DEST_PATH_IMAGE032
其中,
Figure 293380DEST_PATH_IMAGE033
表示第三均值,
Figure 674682DEST_PATH_IMAGE034
表示目标加噪阶段t的噪声图像,
Figure 701413DEST_PATH_IMAGE035
表示噪 声图像
Figure 385335DEST_PATH_IMAGE036
在目标加噪阶段t对应的无噪声图像,
Figure 130306DEST_PATH_IMAGE037
表示目标加噪阶段t的噪声图像
Figure 925087DEST_PATH_IMAGE038
所 包含噪声的第一方差,
Figure 68974DEST_PATH_IMAGE039
,s表示 加噪阶段1-t中的第s个加噪阶段,
Figure 658218DEST_PATH_IMAGE040
表示加噪阶段s的噪声图像
Figure 31431DEST_PATH_IMAGE041
所包含噪声的方差。
示例地,基于第一方差确定第二方差时,可参见公式4:
Figure 879170DEST_PATH_IMAGE042
其中,
Figure 631225DEST_PATH_IMAGE043
表示目标加噪阶段t的噪声图像
Figure 906217DEST_PATH_IMAGE044
所包含噪声的第二方差。
示例地,根据第三均值和第二方差,生成前一次加噪阶段对应的噪声图像
Figure 376513DEST_PATH_IMAGE045
,可 参见公式5:
Figure 499714DEST_PATH_IMAGE046
其中,
Figure 496489DEST_PATH_IMAGE047
表示高斯过程,
Figure 958695DEST_PATH_IMAGE048
表示符合正态分布的随机噪声。
结合上述公式3、公式4以及公式5,就可以生成前一次加噪阶段对应的噪声图像。
可以看出,本发明实施例中,在生成与引导信息的信息内容相匹配的目标无噪声图像时,可以先获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,引导信息包括语义轮廓图像,或者,包括语义轮廓图像和目标文本;并基于噪声图像、引导信息、目标加噪阶段及空引导信息,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与引导信息的信息内容的匹配度大于第一阈值。这样结合引导信息和空引导信息对噪声图像进行去噪处理,可以生成与引导信息的信息内容相匹配的目标无噪声图像,从而提高了生成的目标无噪声图像的准确度。此外,采用本发明实施例提供的图像生成方法,还可以使得生成的目标无噪声图像的纹理细节更为丰富、物体形状更为规整。
上述图1所示的实施例详细地描述了在图像去噪采样过程中,如何生成与引导信息的信息内容相匹配的目标无噪声图像,下面,将通过下述图4所示的实施例,对如何训练生成图像去噪模型进行详细描述。
图4为本发明实施例提供的图像去噪模型的训练方法的流程示意图,该方法可以由软件和/或硬件装置执行。示例的,请参见图4所示,该图像去噪模型的训练方法可以包括:
S401、获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本;其中,多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本。
示例地,在获取多个干净图像样本和其对应的语义轮廓图像时,可以通过ADE20K数据集、COCO-Stuff数据集和Cityscapes数据集获取多个干净图像样本和其对应的语义轮廓图像,其中,ADE20K数据集和Cityscapes数据集中通常会包含干净图像样本和其对应的语义轮廓图像,COCO-Stuff数据集中还包括了干净图像样本对应的目标文本。
示例地,获取多个干净图像样本各自在加噪阶段对应的噪声图像样本时,可以将多个干净图像样本和多个干净图像样本各自对应的加噪阶段输入至初始扩散模型中的加噪处理算法中,加噪处理算法基于加噪阶段的取值对干净图像样本进行逐层加噪,得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。
其中,设置的扩散步数为T步,加噪阶段用t表示,则可以确定加噪阶段范围为0-T, 加噪阶段t为0-T内的一个随机数。示例地,T的最大值可以为1000,针对ADE20K数据集和 COCO-Stuff数据集,对应的batch_size可以设置为256,针对Cityscapes数据集,对应的 batch_size可以设置为32,干净图像样本在加噪阶段t对应的噪声图像样本可记为
Figure 634395DEST_PATH_IMAGE034
示例地,假设某个干净图像样本对应的加噪阶段t=5,则将该干净图像样本和对应的加噪阶段输入至初始扩散模型中的加噪处理算法中,扩散模型中的加噪处理算法可以连续对原始干净图像进行五次加噪处理,其中,第二次加噪处理是在第一次加噪处理得到的噪声图像的基础上执行的,第三次加噪处理是在第二次加噪处理得到的噪声图像的基础上执行的,第四次加噪处理是在第三次加噪处理得到的噪声图像的基础上执行的,第五次加噪处理是在第四次加噪处理得到的噪声图像的基础上执行的,这样通过对干净图像样本连续进行五次加噪处理,就可以得到该干净图像样本在加噪阶段t=5时的噪声图像样本。采用类似的方法,可以得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。
S402、将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。
示例地,初始图像去噪模型可以为UNet神经网络模型,UNet神经网络模型主要包含输入层、中间层和输出层。其中,输入层主要由若干残差块、注意力块和下采样块堆叠构成,用于提取噪声图像样本的特征;中间块由一个残差块、注意力块和另一个残差块组成,用于对提取的特征进行进一步的整和处理;输出块由若干残差块、注意力块和上采样块堆叠构成,用于对中间层整和处理的特征进行恢复,从而得到噪声图像样本所包含噪声的均值和方差。
示例地,在本发明实施例中,输入层可以由17个残差块、6个注意力块和10个下采样块组成;中间层可以由2个残差块和1个注意力块组成;输出层可以由23个残差块、9个注意力块和10个上采样块构成。
示例地,将噪声图像样本、引导信息以及目标加噪阶段输入至扩散模型中的图像去噪模型中时,可以将语义轮廓图像作为第四通道拼接到噪声图像上,并将拼接好的多通道图像和目标加噪阶段输入至扩散模型中的图像去噪模型中。图像去噪模型可以采用正弦编码方式,将时间步长嵌入到长度等于图像去噪模型信道的向量中,以将得到的编码特征叠加至图像去噪模型中的各个残差块中;此外,当引导信息包括文本时,文本作为补充条件,可以进一步提升生成的预测干净图像样本的准确度,在该种情况下,图像去噪模型还可以采用分词器对文本进行分词并序列化,并将序列化文本特征输入注意力块中,采用注意力机制将文本特征进行融合,最终输出多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。
在得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差后,就可以根据多个干净图像样本,以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,即执行下述S403:
S403、根据多个干净图像样本,以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。
可以理解的是,在本发明实施例中,对初始扩散模型进行更新时,仅对初始扩散模型中的初始图像去噪模型的模型参数进行更新,对于初始扩散模型中的加噪处理算法和其他计算方法中的参数通常不做更新。
示例地,根据多个干净图像样本,以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新时,扩散模型可以根据多个干净图像样本、以及多个干净图像样本各自在加噪阶段对应的预测干净图像样本,得到多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本;之后,再根据多个干净图像样本、以及多个干净图像样本在加噪阶段各自对应的预测干净图像样本,对初始图像去噪模型的模型参数进行更新。
示例地,根据多个干净图像样本、以及多个干净图像样本各自在加噪阶段对应的预测干净图像样本,对初始图像去噪模型的模型参数进行更新时,针对各干净图像样本,可以根据干净图像样本的均值和干净图像样本在加噪阶段对应的预测干净图像样本的均值,构造干净图像样本对应的均方差损失;并根据加噪阶段的取值和干净图像样本在加噪阶段对应的噪声图像样本,构造干净图像样本对应的变分下界损失;根据干净图像样本对应的均方差损失和变分下界损失,确定干净图像样本对应的目标损失;再根据各干净图像样本对应的目标损失,对初始图像去噪模型的模型参数进行更新。
示例地,根据加噪阶段的取值和干净图像样本在加噪阶段对应的噪声图像样本,构造干净图像样本对应的变分下界损时,可以分为两种情况进行讨论,在一种情况下,当加噪阶段的取值为加噪阶段范围的下边界值时,可以根据干净图像样本、干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本确定离散高斯混合似然,并将离散高斯混合似然确定为干净图像样本对应的变分下界损失,从而得到干净图像样本对应的均方差损失。
在另一种情况下,当加噪阶段的取值为非下边界值时,可以根据干净图像样本在加噪阶段的前一个加噪阶段对应的第一预测噪声图像样本和第二预测噪声图像样本确定对应的目标散度;并基于目标散度,构造干净图像样本对应的变分下界损失,从而得到干净图像样本对应的变分下界损失。
其中,第一预测噪声图像样本是基于干净图像样本、干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本生成的,第二预测噪声图像样本是基于干净图像样本在加噪阶段对应的预测干净图像样本、预测干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本生成的。
在分别确定出干净图像样本对应的均方差损失和变分下界损失后,就可以根据干净图像样本对应的均方差损失和变分下界损失,共同确定干净图像样本对应的目标损失。示例地,根据干净图像样本对应的均方差损失和变分下界损失,共同确定干净图像样本对应的目标损失,通常需要先分别确定均方差损失和变分下界损失各自对应的权重,为了区分均方差损失和变分下界损失各自对应的权重,示例地,在本发明实施例中,可将均方差损失对应的权重记为第一权重,变分下界损失对应的权重记为第二权重,在分别确定出均方差损失对应的第一权重,以及变分下界损失对应的第二权重后,可以确定第一权重与均方差损失的第一乘积,以及第二权重与变分下界损失的第二乘积;再根据第一乘积和第二乘积,确定干净图像样本对应的目标损失,可参见下述公式6:
Figure 840249DEST_PATH_IMAGE049
其中,
Figure 550585DEST_PATH_IMAGE050
表示干净图像样本对应的目标损失,
Figure 918112DEST_PATH_IMAGE051
表示一种均值计算方式,此处为中 括号
Figure 484704DEST_PATH_IMAGE052
内的矩阵元素的和除以对应权重矩阵元素的和,
Figure 212358DEST_PATH_IMAGE053
表示均方差损失对应的第一权 重,
Figure 793512DEST_PATH_IMAGE054
表示干净图像样本,
Figure 846787DEST_PATH_IMAGE055
表示干净图像样本的均值,
Figure 513392DEST_PATH_IMAGE056
表示干净图像样 本在加噪阶段t对应的预测干净图像样本
Figure 44736DEST_PATH_IMAGE057
的均值,
Figure 480397DEST_PATH_IMAGE058
表示变分下界损失对应的第二权 重,
Figure 317290DEST_PATH_IMAGE059
表示干净图像样本在加噪阶段1对应的噪声图像样本,
Figure 986038DEST_PATH_IMAGE060
表示干净图像样本
Figure 806226DEST_PATH_IMAGE061
在 加噪阶段t对应的噪声图像样本,
Figure 611240DEST_PATH_IMAGE062
表示干净图像样本
Figure 491471DEST_PATH_IMAGE063
在加噪阶段
Figure 257302DEST_PATH_IMAGE064
对应的第 一预测噪声图像样本,
Figure 150957DEST_PATH_IMAGE065
表示干净图像样本
Figure 561210DEST_PATH_IMAGE054
在加噪阶段
Figure 861610DEST_PATH_IMAGE066
对应的第二预测噪 声图像样本,
Figure 990103DEST_PATH_IMAGE067
表示散度函数。
示例地,在分别确定均方差损失对应的第一权重和变分下界损失对应的第二权重时,可以结合引导信息中的语义轮廓图像和空引导信息中的空语义轮廓图像这两个方面考虑,一方面,当语义轮廓图像为空引导信息中的空语义轮廓图像时,语义轮廓图像对应的目标权重为1;另一方面,当语义轮廓图像为引导信息中的非空语义轮廓图像时,可以根据干净图像样本对应的语义轮廓图像中,各像素所属的语义类别,确定语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积;并根据各语义类别对应的语义块的面积,确定语义轮廓图像对应的目标权重;根据语义轮廓图像对应的目标权重,分别确定均方差损失对应的第一权重,以及变分下界损失对应的第二权重,从而确定出均方差损失对应的第一权重,以及变分下界损失对应的第二权重。
示例地,上述根据各语义类别对应的语义块的面积,确定语义轮廓图像对应的目标权重时,针对各语义类别,根据语义类别对应的语义块的面积确定第一数值,并根据第一数值和多个语义类别中除语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值;将第一数值和第二数值的比值,确定为语义类别对应的权重,可参见下述公式7,该语义类别对应的权重即为语义类别对应的语义块中各像素对应的权重,多个语义类别中,各语义类别对应的语义块中各像素对应的权重构成语义轮廓图像对应的目标权重。
Figure 666941DEST_PATH_IMAGE068
其中,
Figure 931700DEST_PATH_IMAGE069
表示语义类别
Figure 543947DEST_PATH_IMAGE015
Figure 146354DEST_PATH_IMAGE070
表示语义轮廓图像中包括的语义类别的数量,
Figure 112036DEST_PATH_IMAGE071
表示
Figure 746149DEST_PATH_IMAGE072
个语义类别中的第
Figure 404663DEST_PATH_IMAGE071
个语义类别,
Figure 491437DEST_PATH_IMAGE073
表示语义类别
Figure 385443DEST_PATH_IMAGE069
对应的语义块的面积,
Figure 624795DEST_PATH_IMAGE074
表示第
Figure 700548DEST_PATH_IMAGE071
个语义类别对应的语义块的面积,
Figure 759771DEST_PATH_IMAGE075
表示第一数值,
Figure 582103DEST_PATH_IMAGE076
表示第 二数值,
Figure 66173DEST_PATH_IMAGE077
表示语义类别
Figure 66491DEST_PATH_IMAGE015
对应的权重。
结合上述公式6确定出语义轮廓图像对应的目标权重后,就可以根据语义轮廓图像对应的目标权重,分别确定均方差损失对应的第一权重,以及变分下界损失对应的第二权重。示例地,根据语义轮廓图像对应的目标权重,分别确定均方差损失对应的第一权重,以及变分下界损失对应的第二权重时,考虑到不同语义类别对应的面积大小可能会有较大的差异,这种面积大小差异可能会导致较小的语义类别在训练阶段没有得到足够重视,因此,在计算均方差损失和变分下界损失时,可以在确定出的语义轮廓图像对应的目标权重的基础上,适当增加较小面积对应的语义类别的权重,降低较大面积对应的语义类别的权重,以平衡面积大小差异,从而确定均方差损失对应的第一权重,以及变分下界损失对应的第二权重。
可以看出,本发明实施例中,在训练图像去噪模型时,可以先获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本;其中,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本;将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差;根据多个干净图像样本,以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。这样不仅可以提升图像去噪模型的训练效率,而且可以有效加强图像去噪模型的去噪性能。
图5为本发明实施例提供的图像生成装置50的结构示意图,示例的,请参见图5所示,该图像生成装置50可以包括:
第一获取单元501,用于获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本。
生成单元502,用于基于噪声图像、引导信息、目标加噪阶段以及空引导信息,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。
可选地,生成单元502,具体用于执行:
S1、将噪声图像、引导信息以及目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将噪声图像、空引导信息以及目标加噪阶段输入至图像去噪模型中,得到第二参数。
S2、根据第一参数第二参数,生成噪声图像在目标加噪阶段对应的无噪声图像。
S3、更新目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值。
S4、在确定更新后的加噪阶段等于第二阈值的情况下,则将噪声图像在目标加噪阶段对应的无噪声图像,确定为目标无噪声图像。
S5、在确定更新后的加噪阶段大于第二阈值的情况下,则确定目标加噪阶段的前一次加噪阶段对应的噪声图像,并将前一次加噪阶段对应的噪声图像确定为待处理的噪声图像,将更新后的加噪阶段确定为目标加噪阶段,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将噪声图像在更新后的加噪阶段对应的无噪声图像,确定为目标无噪声图像。
可选地,第一参数包括第一均值和第一方差,第二参数包括第二均值。
生成单元502,具体用于对第一均值和第二均值进行融合,得到对应的目标均值;根据目标均值和第一方差,生成噪声图像在目标加噪阶段对应的无噪声图像。
根据本发明提供的一种图像生成装置50,生成单元502,具体用于确定第一均值和第二均值的差值,并确定差值与其对应的权重之前的乘积;将第二均值与乘积的和,确定为目标均值。
可选地,生成单元502,具体用于根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一参数中的第一方差,生成前一次加噪阶段对应的噪声图像。
可选地,生成单元502,具体用于根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像,以及第一方差确定第三均值;基于第一方差确定第二方差;根据第三均值和第二方差,生成前一次加噪阶段对应的噪声图像。
本发明实施例提供的图像生成装置50,可以执行上述任一实施例中图像生成方法的技术方案,其实现原理以及有益效果与图像生成方法的实现原理及有益效果类似,可参见图像生成方法的实现原理及有益效果,此处不再进行赘述。
图6为本发明实施例提供的图像去噪模型的训练装置60的结构示意图,示例的,请参见图6所示,该图像去噪模型的训练装置60可以包括:
第二获取单元601,用于获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本;其中,多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本。
第一生成单元602,用于将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。
第二生成单元603,用于根据多个干净图像样本,以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。
可选地,第二生成单元603,具体用于根据多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,得到多个干净图像样本在加噪阶段各自对应的预测干净图像样本;根据多个干净图像样本、以及多个干净图像样本在加噪阶段各自对应的预测干净图像样本,对初始图像去噪模型的模型参数进行更新。
可选地,第二生成单元603,具体用于针对各干净图像样本,根据干净图像样本的均值和干净图像样本在加噪阶段对应的预测干净图像样本的均值,构造干净图像样本对应的均方差损失;并根据加噪阶段的取值和干净图像样本在加噪阶段对应的噪声图像样本,构造干净图像样本对应的变分下界损失;根据干净图像样本对应的均方差损失和变分下界损失,确定干净图像样本对应的目标损失;根据各干净图像样本对应的目标损失,对初始图像去噪模型的模型参数进行更新。
可选地,第二生成单元603,具体用于在加噪阶段的取值为加噪阶段范围的下边界值的情况下,根据干净图像样本、干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本确定离散高斯混合似然,并将离散高斯混合似然确定为干净图像样本对应的变分下界损失;在加噪阶段的取值为非下边界值的情况下,根据干净图像样本在加噪阶段的前一个加噪阶段对应的第一预测噪声图像样本和第二预测噪声图像样本确定对应的目标散度;并基于目标散度,构造干净图像样本对应的变分下界损失;其中,第一预测噪声图像样本是基于干净图像样本、干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本生成的,第二预测噪声图像样本是基于干净图像样本在加噪阶段对应的预测干净图像样本、预测干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本生成的。
可选地,干净图像样本对应的语义轮廓图像为非空语义轮廓图像。
第二生成单元603,具体用于根据干净图像样本对应的语义轮廓图像中,各像素所属的语义类别,确定语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积;并根据各语义类别对应的语义块的面积,确定语义轮廓图像对应的目标权重;根据语义轮廓图像对应的目标权重,分别确定均方差损失对应的第一权重,以及变分下界损失对应的第二权重;并确定第一权重与均方差损失的第一乘积,以及第二权重与变分下界损失的第二乘积;根据第一乘积和第二乘积,确定干净图像样本对应的目标损失。
可选地,第二生成单元603,具体用于针对各语义类别,根据语义类别对应的语义块的面积确定第一数值,并根据第一数值和多个语义类别中除语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值;将第一数值和第二数值的比值,确定为语义类别对应的语义块中各像素对应的权重;多个语义类别中,各语义类别对应的语义块中各像素对应的权重构成语义轮廓图像对应的目标权重。
可选地,第二获取单元601,具体用于将多个干净图像样本和多个干净图像样本各自对应的加噪阶段输入至初始扩散模型中的加噪处理算法中,得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。
本发明实施例提供的图像去噪模型的训练装置60,可以执行上述任一实施例中图像去噪模型的训练方法的技术方案,其实现原理以及有益效果与图像去噪模型的训练方法的实现原理及有益效果类似,可参见图像去噪模型的训练方法的实现原理及有益效果,此处不再进行赘述。
图7为本发明实施例提供的电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行图像生成方法或者图像去噪模型的训练方法。其中,图像生成方法可以包括:获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本;基于噪声图像、引导信息、目标加噪阶段以及空引导信息,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。
图像去噪模型的训练方法可以包括:获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本;其中,多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本;将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差;根据多个干净图像样本,以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的图像生成方法或者图像去噪模型的训练方法。其中,图像生成方法可以包括:获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本;基于噪声图像、引导信息、目标加噪阶段以及空引导信息,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。
图像去噪模型的训练方法可以包括:获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本;其中,多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本;将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差;根据多个干净图像样本,以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的图像生成方法或者图像去噪模型的训练方法。其中,图像生成方法可以包括:获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本;基于噪声图像、引导信息、目标加噪阶段以及空引导信息,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。
图像去噪模型的训练方法可以包括:获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本;其中,多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本,引导信息包括语义轮廓图像;或者,引导信息包括语义轮廓图像和目标文本;将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差;根据多个干净图像样本,以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (17)

1.一种图像生成方法,其特征在于,包括:
获取待处理的噪声图像、所述噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,所述引导信息包括语义轮廓图像;或者,所述引导信息包括语义轮廓图像和目标文本;
基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息,对所述噪声图像进行去噪处理,生成目标无噪声图像;其中,所述目标无噪声图像的图像内容与所述引导信息的信息内容匹配度大于第一阈值。
2.根据权利要求1所述的图像生成方法,其特征在于,所述基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息,对所述噪声图像进行去噪处理,生成目标无噪声图像,包括:
S1、将所述噪声图像、所述引导信息以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将所述噪声图像、所述空引导信息以及所述目标加噪阶段输入至所述图像去噪模型中,得到第二参数;
S2、根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像;
S3、更新所述目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值;
S4、在确定所述更新后的加噪阶段等于第二阈值的情况下,则将所述噪声图像在所述目标加噪阶段对应的无噪声图像,确定为所述目标无噪声图像;
S5、在确定所述更新后的加噪阶段大于所述第二阈值的情况下,则确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,并将所述前一次加噪阶段对应的噪声图像确定为所述待处理的噪声图像,将所述更新后的加噪阶段确定为所述目标加噪阶段,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将所述噪声图像在所述更新后的加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
3.根据权利要求2所述的图像生成方法,其特征在于,所述第一参数包括第一均值和第一方差,所述第二参数包括第二均值,所述根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像,包括:
对所述第一均值和所述第二均值进行融合,得到对应的目标均值;
根据所述目标均值和所述第一方差,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
4.根据权利要求3所述的图像生成方法,其特征在于,所述对所述第一均值和所述第二均值进行融合,得到对应的目标均值,包括:
确定所述第一均值和所述第二均值的差值,并确定所述差值与其对应的权重之前的乘积;
将所述第二均值与所述乘积的和,确定为所述目标均值。
5.根据权利要求2-4任一项所述的图像生成方法,其特征在于,所述确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,包括:
根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差,生成所述前一次加噪阶段对应的噪声图像。
6.根据权利要求5所述的图像生成方法,其特征在于,所述根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一方差,生成所述前一次加噪阶段对应的噪声图像,包括:
根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像,以及所述第一方差确定第三均值;
基于所述第一方差确定第二方差;
根据所述第三均值和所述第二方差,生成所述前一次加噪阶段对应的噪声图像。
7.一种图像去噪模型的训练方法,其特征在于,包括:
获取多个干净图像样本、所述多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在所述加噪阶段对应的噪声图像样本;其中,所述多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本,所述引导信息包括语义轮廓图像;或者,所述引导信息包括语义轮廓图像和目标文本;
将所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本、所述引导信息和所述加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差;
根据所述多个干净图像样本,以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对所述初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。
8.根据权利要求7所述的图像去噪模型的训练方法,其特征在于,所述根据所述多个干净图像样本,以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对所述初始图像去噪模型的模型参数进行更新,包括:
根据所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,得到所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本;
根据所述多个干净图像样本、以及所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本,对所述初始图像去噪模型的模型参数进行更新。
9.根据权利要求8所述的图像去噪模型的训练方法,其特征在于,所述根据所述多个干净图像样本、以及所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本,对所述初始图像去噪模型的模型参数进行更新,包括:
针对各干净图像样本,根据所述干净图像样本的均值和所述干净图像样本在所述加噪阶段对应的预测干净图像样本的均值,构造所述干净图像样本对应的均方差损失;并根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本,构造所述干净图像样本对应的变分下界损失;根据所述干净图像样本对应的均方差损失和变分下界损失,确定所述干净图像样本对应的目标损失;
根据所述各干净图像样本对应的目标损失,对所述初始图像去噪模型的模型参数进行更新。
10.根据权利要求9所述的图像去噪模型的训练方法,其特征在于,所述根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本,构造所述干净图像样本对应的变分下界损失,包括:
在所述加噪阶段的取值为加噪阶段范围的下边界值的情况下,根据所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本确定离散高斯混合似然,并将所述离散高斯混合似然确定为所述干净图像样本对应的变分下界损失;
在所述加噪阶段的取值为非下边界值的情况下,根据所述干净图像样本在所述加噪阶段的前一个加噪阶段对应的第一预测噪声图像样本和第二预测噪声图像样本确定对应的目标散度;并基于所述目标散度,构造所述干净图像样本对应的变分下界损失;其中,所述第一预测噪声图像样本是基于所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的,所述第二预测噪声图像样本是基于所述干净图像样本在所述加噪阶段对应的预测干净图像样本、所述预测干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的。
11.根据权利要求9或10所述的图像去噪模型的训练方法,其特征在于,所述干净图像样本对应的语义轮廓图像为非空语义轮廓图像,所述根据所述干净图像样本对应的均方差损失和变分下界损失,确定所述干净图像样本对应的目标损失,包括:
根据所述干净图像样本对应的语义轮廓图像中,各像素所属的语义类别,确定所述语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积;并根据所述各语义类别对应的语义块的面积,确定所述语义轮廓图像对应的目标权重;
根据所述语义轮廓图像对应的目标权重,分别确定所述均方差损失对应的第一权重,以及所述变分下界损失对应的第二权重;并确定所述第一权重与所述均方差损失的第一乘积,以及所述第二权重与所述变分下界损失的第二乘积;
根据所述第一乘积和所述第二乘积,确定所述干净图像样本对应的目标损失。
12.根据权利要求11所述的图像去噪模型的训练方法,其特征在于,所述根据所述各语义类别对应的语义块的面积,确定所述语义轮廓图像对应的目标权重,包括:
针对所述各语义类别,根据所述语义类别对应的语义块的面积确定第一数值,并根据所述第一数值和所述多个语义类别中除所述语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值;将所述第一数值和所述第二数值的比值,确定为所述语义类别对应的语义块中各像素对应的权重;
所述多个语义类别中,各语义类别对应的语义块中各像素对应的权重构成所述语义轮廓图像对应的目标权重。
13.根据权利要求7-10任一项所述的图像去噪模型的训练方法,其特征在于,获取所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本,包括:
将所述多个干净图像样本和所述多个干净图像样本各自对应的所述加噪阶段输入至所述初始扩散模型中的加噪处理算法中,得到所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本。
14.一种图像生成装置,其特征在于,包括:
第一获取单元,用于获取待处理的噪声图像、所述噪声图像对应的引导信息、目标加噪阶段和空引导信息;其中,所述引导信息包括语义轮廓图像;或者,所述引导信息包括语义轮廓图像和目标文本;
生成单元,用于基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息,对所述噪声图像进行去噪处理,生成目标无噪声图像;其中,所述目标无噪声图像的图像内容与所述引导信息的信息内容匹配度大于第一阈值。
15.一种图像去噪模型的训练装置,其特征在于,包括:
第二获取单元,用于获取多个干净图像样本、所述多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在所述加噪阶段对应的噪声图像样本;其中,所述多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本,所述引导信息包括语义轮廓图像;或者,所述引导信息包括语义轮廓图像和目标文本;
第一生成单元,用于将所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本、所述引导信息和所述加噪阶段输入至初始扩散模型中的初始图像去噪模型中,得到所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差;
第二生成单元,用于根据所述多个干净图像样本,以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差,对所述初始图像去噪模型的模型参数进行更新,以得到图像去噪模型。
16.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的图像生成方法,或者实现如权利要求7至13任一项所述的图像去噪模型的训练方法。
17.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的图像生成方法,或者实现如权利要求7至13任一项所述的图像去噪模型的训练方法。
CN202210948018.9A 2022-08-09 2022-08-09 图像生成方法、图像去噪模型的训练方法和设备 Pending CN115222630A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210948018.9A CN115222630A (zh) 2022-08-09 2022-08-09 图像生成方法、图像去噪模型的训练方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210948018.9A CN115222630A (zh) 2022-08-09 2022-08-09 图像生成方法、图像去噪模型的训练方法和设备

Publications (1)

Publication Number Publication Date
CN115222630A true CN115222630A (zh) 2022-10-21

Family

ID=83616058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210948018.9A Pending CN115222630A (zh) 2022-08-09 2022-08-09 图像生成方法、图像去噪模型的训练方法和设备

Country Status (1)

Country Link
CN (1) CN115222630A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965791A (zh) * 2022-12-19 2023-04-14 北京字跳网络技术有限公司 图像生成方法、装置及电子设备
CN116433501A (zh) * 2023-02-08 2023-07-14 阿里巴巴(中国)有限公司 图像处理方法及装置
CN116450873A (zh) * 2023-02-20 2023-07-18 阿里巴巴达摩院(杭州)科技有限公司 图像生成及扩散模型训练方法、电子设备及存储介质
CN116704269A (zh) * 2023-08-04 2023-09-05 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN116701692A (zh) * 2023-08-04 2023-09-05 浪潮(北京)电子信息产业有限公司 一种图像生成方法、装置、设备及介质
CN116797493A (zh) * 2023-08-02 2023-09-22 北京中科闻歌科技股份有限公司 一种图像去噪处理系统
CN116823597A (zh) * 2023-08-02 2023-09-29 北京中科闻歌科技股份有限公司 一种图像生成系统
CN117115453A (zh) * 2023-10-20 2023-11-24 光轮智能(北京)科技有限公司 目标图像生成方法、装置及计算机可读存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965791A (zh) * 2022-12-19 2023-04-14 北京字跳网络技术有限公司 图像生成方法、装置及电子设备
CN116433501B (zh) * 2023-02-08 2024-01-09 阿里巴巴(中国)有限公司 图像处理方法及装置
CN116433501A (zh) * 2023-02-08 2023-07-14 阿里巴巴(中国)有限公司 图像处理方法及装置
CN116450873A (zh) * 2023-02-20 2023-07-18 阿里巴巴达摩院(杭州)科技有限公司 图像生成及扩散模型训练方法、电子设备及存储介质
CN116823597B (zh) * 2023-08-02 2024-05-07 北京中科闻歌科技股份有限公司 一种图像生成系统
CN116797493A (zh) * 2023-08-02 2023-09-22 北京中科闻歌科技股份有限公司 一种图像去噪处理系统
CN116823597A (zh) * 2023-08-02 2023-09-29 北京中科闻歌科技股份有限公司 一种图像生成系统
CN116797493B (zh) * 2023-08-02 2024-01-26 北京中科闻歌科技股份有限公司 一种图像去噪处理系统
CN116704269A (zh) * 2023-08-04 2023-09-05 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN116704269B (zh) * 2023-08-04 2023-11-24 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN116701692B (zh) * 2023-08-04 2023-11-03 浪潮(北京)电子信息产业有限公司 一种图像生成方法、装置、设备及介质
CN116701692A (zh) * 2023-08-04 2023-09-05 浪潮(北京)电子信息产业有限公司 一种图像生成方法、装置、设备及介质
CN117115453A (zh) * 2023-10-20 2023-11-24 光轮智能(北京)科技有限公司 目标图像生成方法、装置及计算机可读存储介质
CN117115453B (zh) * 2023-10-20 2024-02-02 光轮智能(北京)科技有限公司 目标图像生成方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN115222630A (zh) 图像生成方法、图像去噪模型的训练方法和设备
CN115018954B (zh) 图像生成方法、装置、电子设备和介质
CN111476719B (zh) 图像处理方法、装置、计算机设备及存储介质
CN110349103A (zh) 一种基于深度神经网络和跳跃连接的无干净标签图像去噪方法
CN112949822B (zh) 一种基于双重注意力机制的低感知性对抗样本构成方法
CN110136135B (zh) 分割方法、装置、设备以及存储介质
CN110675339A (zh) 基于边缘修复和内容修复的图像修复方法及系统
CN110102051B (zh) 游戏外挂的检测方法及装置
CN111402257A (zh) 一种基于多任务协同跨域迁移的医学图像自动分割方法
CN110489574B (zh) 一种多媒体信息推荐方法、装置和相关设备
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN111696046A (zh) 一种基于生成式对抗网络的水印去除方法和装置
CN111291810A (zh) 基于目标属性解耦的信息处理模型生成方法及相关设备
CN112733777B (zh) 一种遥感图像的道路提取方法、装置、设备和存储介质
CN113971732A (zh) 小目标检测方法、装置、可读存储介质及电子设备
WO2024060839A1 (zh) 对象操作方法、装置、计算机设备以及计算机存储介质
US20230394306A1 (en) Multi-Modal Machine Learning Models with Improved Computational Efficiency Via Adaptive Tokenization and Fusion
CN106407991B (zh) 图像属性识别方法和系统以及相关网络训练方法和系统
CN117408910A (zh) 三维模型补全网络的训练方法、三维模型补全方法及装置
CN115812206A (zh) 用于高质量图像处理的机器学习
CN111861931A (zh) 模型训练、图像增强方法和装置、电子设备及存储介质
CN111753980A (zh) 将第一图像的特征转移到第二图像的方法
CN116091893A (zh) 一种基于U-net网络的地震图像反褶积方法及系统
CN116310356A (zh) 深度学习模型的训练方法、目标检测方法、装置及设备
KR102393761B1 (ko) 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination