CN115222630A

CN115222630A - 图像生成方法、图像去噪模型的训练方法和设备

Info

Publication number: CN115222630A
Application number: CN202210948018.9A
Authority: CN
Inventors: 吴凌翔; 王金桥; 牛蕴方
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-10-21

Abstract

本发明提供一种图像生成方法、图像去噪模型的训练方法和设备，涉及图像生成技术领域，解决了如何生成与引导信息的信息内容相匹配的目标无噪声图像的问题。该方法包括：先获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息；引导信息包括语义轮廓图像，或者，包括语义轮廓图像和目标文本；并基于噪声图像、引导信息、目标加噪阶段及空引导信息，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与引导信息的信息内容的匹配度大于第一阈值。这样结合引导信息和空引导信息对噪声图像进行去噪处理，可以生成与引导信息的信息内容相匹配的目标无噪声图像，提高了生成的目标无噪声图像的准确度。

Description

图像生成方法、图像去噪模型的训练方法和设备

技术领域

本发明涉及图像生成技术领域，尤其涉及一种图像生成方法、图像去噪模型的训练方法和设备。

背景技术

在扩散模型场景下的图像去噪采样过程中，通常是将语义轮廓图像作为引导信息，基于生成对抗网络（Generative adversarial nets，GAN）生成与语义轮廓图像相匹配的目标无噪声图像，但是，生成的目标无噪声图像与语义轮廓图像的匹配度较差。

因此，如何生成与引导信息的信息内容相匹配的目标无噪声图像，从而提高生成的目标无噪声图像的准确度是本领域技术人员亟待解决的问题。

发明内容

本发明提供一种图像生成方法、图像去噪模型的训练方法和设备，可以生成与引导信息的信息内容相匹配的目标无噪声图像，从而提高了生成的目标无噪声图像的准确度。

本发明提供一种图像生成方法，该图像生成方法可以包括：

获取待处理的噪声图像、所述噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，所述引导信息包括语义轮廓图像；或者，所述引导信息包括语义轮廓图像和目标文本。

基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息，对所述噪声图像进行去噪处理，生成目标无噪声图像；其中，所述目标无噪声图像的图像内容与所述引导信息的信息内容匹配度大于第一阈值。

根据本发明提供的一种图像生成方法，所述基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息，对所述噪声图像进行去噪处理，生成目标无噪声图像，包括：

S1、将所述噪声图像、所述引导信息以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中，得到第一参数；并将所述噪声图像、所述空引导信息以及所述目标加噪阶段输入至所述图像去噪模型中，得到第二参数。

S2、根据所述第一参数所述第二参数，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。

S3、更新所述目标加噪阶段，判断更新后的加噪阶段是否等于第二阈值。

S4、在确定所述更新后的加噪阶段等于第二阈值的情况下，则将所述噪声图像在所述目标加噪阶段对应的无噪声图像，确定为所述目标无噪声图像。

S5、在确定所述更新后的加噪阶段大于所述第二阈值的情况下，则确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像，并将所述前一次加噪阶段对应的噪声图像确定为所述待处理的噪声图像，将所述更新后的加噪阶段确定为所述目标加噪阶段，重复执行上述S1-S5，直至更新后的加噪阶段等于第二阈值，并将所述噪声图像在所述更新后的加噪阶段对应的无噪声图像，确定为所述目标无噪声图像。

根据本发明提供的一种图像生成方法，所述第一参数包括第一均值和第一方差，所述第二参数包括第二均值，所述根据所述第一参数所述第二参数，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像，包括：

对所述第一均值和所述第二均值进行融合，得到对应的目标均值。

根据所述目标均值和所述第一方差，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。

根据本发明提供的一种图像生成方法，所述对所述第一均值和所述第二均值进行融合，得到对应的目标均值，包括：

确定所述第一均值和所述第二均值的差值，并确定所述差值与其对应的权重之前的乘积。

将所述第二均值与所述乘积的和，确定为所述目标均值。

根据本发明提供的一种图像生成方法，所述确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像，包括：

根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差，生成所述前一次加噪阶段对应的噪声图像。

根据本发明提供的一种图像生成方法，所述根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一方差，生成所述前一次加噪阶段对应的噪声图像，包括：

根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像，以及所述第一方差确定第三均值。

基于所述第一方差确定第二方差。

根据所述第三均值和所述第二方差，生成所述前一次加噪阶段对应的噪声图像。

本发明还提供一种图像去噪模型的训练方法，该图像去噪模型的训练方法可以包括：

获取多个干净图像样本、所述多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在所述加噪阶段对应的噪声图像样本；其中，所述多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本，所述引导信息包括语义轮廓图像；或者，所述引导信息包括语义轮廓图像和目标文本。

将所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本、所述引导信息和所述加噪阶段输入至初始扩散模型中的初始图像去噪模型中，得到所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。

根据所述多个干净图像样本，以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对所述初始图像去噪模型的模型参数进行更新，以得到图像去噪模型。

根据本发明提供的一种图像去噪模型的训练方法，所述根据所述多个干净图像样本，以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对所述初始图像去噪模型的模型参数进行更新，包括：

根据所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，得到所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本。

根据所述多个干净图像样本、以及所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本，对所述初始图像去噪模型的模型参数进行更新。

根据本发明提供的一种图像去噪模型的训练方法，所述根据所述多个干净图像样本、以及所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本，对所述初始图像去噪模型的模型参数进行更新，包括：

针对各干净图像样本，根据所述干净图像样本的均值和所述干净图像样本在所述加噪阶段对应的预测干净图像样本的均值，构造所述干净图像样本对应的均方差损失；并根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本，构造所述干净图像样本对应的变分下界损失；根据所述干净图像样本对应的均方差损失和变分下界损失，确定所述干净图像样本对应的目标损失。

根据所述各干净图像样本对应的目标损失，对所述初始图像去噪模型的模型参数进行更新。

根据本发明提供的一种图像去噪模型的训练方法，所述根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本，构造所述干净图像样本对应的变分下界损失，包括：

在所述加噪阶段的取值为加噪阶段范围的下边界值的情况下，根据所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本确定离散高斯混合似然，并将所述离散高斯混合似然确定为所述干净图像样本对应的变分下界损失。

在所述加噪阶段的取值为非下边界值的情况下，根据所述干净图像样本在所述加噪阶段的前一个加噪阶段对应的第一预测噪声图像样本和第二预测噪声图像样本确定对应的目标散度；并基于所述目标散度，构造所述干净图像样本对应的变分下界损失；其中，所述第一预测噪声图像样本是基于所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的，所述第二预测噪声图像样本是基于所述干净图像样本在所述加噪阶段对应的预测干净图像样本、所述预测干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的。

根据本发明提供的一种图像去噪模型的训练方法，所述干净图像样本对应的语义轮廓图像为非空语义轮廓图像，所述根据所述干净图像样本对应的均方差损失和变分下界损失，确定所述干净图像样本对应的目标损失，包括：

根据所述干净图像样本对应的语义轮廓图像中，各像素所属的语义类别，确定所述语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积；并根据所述各语义类别对应的语义块的面积，确定所述语义轮廓图像对应的目标权重。

根据所述语义轮廓图像对应的目标权重，分别确定所述均方差损失对应的第一权重，以及所述变分下界损失对应的第二权重；并确定所述第一权重与所述均方差损失的第一乘积，以及所述第二权重与所述变分下界损失的第二乘积。

根据所述第一乘积和所述第二乘积，确定所述干净图像样本对应的目标损失。

根据本发明提供的一种图像去噪模型的训练方法，所述根据所述各语义类别对应的语义块的面积，确定所述语义轮廓图像对应的目标权重，包括：

针对所述各语义类别，根据所述语义类别对应的语义块的面积确定第一数值，并根据所述第一数值和所述多个语义类别中除所述语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值；将所述第一数值和所述第二数值的比值，确定为所述语义类别对应的语义块中各像素对应的权重。

所述多个语义类别中，各语义类别对应的语义块中各像素对应的权重构成所述语义轮廓图像对应的目标权重。

根据本发明提供的一种图像去噪模型的训练方法，获取所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本，包括：

将所述多个干净图像样本和所述多个干净图像样本各自对应的所述加噪阶段输入至所述初始扩散模型中的加噪处理算法中，得到所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本。

本发明还提供一种图像生成装置，该图像生成装置可以包括：

第一获取单元，用于获取待处理的噪声图像、所述噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，所述引导信息包括语义轮廓图像；或者，所述引导信息包括语义轮廓图像和目标文本。

生成单元，用于基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息，对所述噪声图像进行去噪处理，生成目标无噪声图像；其中，所述目标无噪声图像的图像内容与所述引导信息的信息内容匹配度大于第一阈值。

根据本发明提供的一种图像生成装置，所述生成单元，具体用于执行：

根据本发明提供的一种图像生成装置，所述第一参数包括第一均值和第一方差，所述第二参数包括第二均值。

所述生成单元，具体用于对所述第一均值和所述第二均值进行融合，得到对应的目标均值；根据所述目标均值和所述第一方差，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。

根据本发明提供的一种图像生成装置，所述生成单元，具体用于确定所述第一均值和所述第二均值的差值，并确定所述差值与其对应的权重之前的乘积；将所述第二均值与所述乘积的和，确定为所述目标均值。

根据本发明提供的一种图像生成装置，所述生成单元，具体用于根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差，生成所述前一次加噪阶段对应的噪声图像。

根据本发明提供的一种图像生成装置，所述生成单元，具体用于根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像，以及所述第一方差确定第三均值；基于所述第一方差确定第二方差；根据所述第三均值和所述第二方差，生成所述前一次加噪阶段对应的噪声图像。

本发明还提供一种图像去噪模型的训练装置，该图像去噪模型的训练装置可以包括：

第二获取单元，用于获取多个干净图像样本、所述多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在所述加噪阶段对应的噪声图像样本；其中，所述多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本，所述引导信息包括语义轮廓图像；或者，所述引导信息包括语义轮廓图像和目标文本。

第一生成单元，用于将所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本、所述引导信息和所述加噪阶段输入至初始扩散模型中的初始图像去噪模型中，得到所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。

第二生成单元，用于根据所述多个干净图像样本，以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对所述初始图像去噪模型的模型参数进行更新，以得到图像去噪模型。

根据本发明提供的一种图像去噪模型的训练装置，所述第二生成单元，具体用于根据所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，得到所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本；根据所述多个干净图像样本、以及所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本，对所述初始图像去噪模型的模型参数进行更新。

根据本发明提供的一种图像去噪模型的训练装置，所述第二生成单元，具体用于针对各干净图像样本，根据所述干净图像样本的均值和所述干净图像样本在所述加噪阶段对应的预测干净图像样本的均值，构造所述干净图像样本对应的均方差损失；并根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本，构造所述干净图像样本对应的变分下界损失；根据所述干净图像样本对应的均方差损失和变分下界损失，确定所述干净图像样本对应的目标损失；根据所述各干净图像样本对应的目标损失，对所述初始图像去噪模型的模型参数进行更新。

根据本发明提供的一种图像去噪模型的训练装置，所述第二生成单元，具体用于在所述加噪阶段的取值为加噪阶段范围的下边界值的情况下，根据所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本确定离散高斯混合似然，并将所述离散高斯混合似然确定为所述干净图像样本对应的变分下界损失；在所述加噪阶段的取值为非下边界值的情况下，根据所述干净图像样本在所述加噪阶段的前一个加噪阶段对应的第一预测噪声图像样本和第二预测噪声图像样本确定对应的目标散度；并基于所述目标散度，构造所述干净图像样本对应的变分下界损失；其中，所述第一预测噪声图像样本是基于所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的，所述第二预测噪声图像样本是基于所述干净图像样本在所述加噪阶段对应的预测干净图像样本、所述预测干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本生成的。

根据本发明提供的一种图像去噪模型的训练装置，所述干净图像样本对应的语义轮廓图像为非空语义轮廓图像。

所述第二生成单元，具体用于根据所述干净图像样本对应的语义轮廓图像中，各像素所属的语义类别，确定所述语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积；并根据所述各语义类别对应的语义块的面积，确定所述语义轮廓图像对应的目标权重；根据所述语义轮廓图像对应的目标权重，分别确定所述均方差损失对应的第一权重，以及所述变分下界损失对应的第二权重；并确定所述第一权重与所述均方差损失的第一乘积，以及所述第二权重与所述变分下界损失的第二乘积；根据所述第一乘积和所述第二乘积，确定所述干净图像样本对应的目标损失。

根据本发明提供的一种图像去噪模型的训练装置，所述第二生成单元，具体用于针对所述各语义类别，根据所述语义类别对应的语义块的面积确定第一数值，并根据所述第一数值和所述多个语义类别中除所述语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值；将所述第一数值和所述第二数值的比值，确定为所述语义类别对应的语义块中各像素对应的权重；所述多个语义类别中，各语义类别对应的语义块中各像素对应的权重构成所述语义轮廓图像对应的目标权重。

根据本发明提供的一种图像去噪模型的训练装置，所述第二获取单元，具体用于将所述多个干净图像样本和所述多个干净图像样本各自对应的所述加噪阶段输入至所述初始扩散模型中的加噪处理算法中，得到所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的图像生成方法或者图像去噪模型的训练方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的图像生成方法或者图像去噪模型的训练方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的图像生成方法或者图像去噪模型的训练方法。

本发明提供的图像生成方法、图像去噪模型的训练方法和设备，在生成与引导信息的信息内容相匹配的目标无噪声图像时，可以先获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，引导信息包括语义轮廓图像，或者，包括语义轮廓图像和目标文本；并基于噪声图像、引导信息、目标加噪阶段及空引导信息，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与引导信息的信息内容的匹配度大于第一阈值。这样结合引导信息和空引导信息对噪声图像进行去噪处理，可以生成与引导信息的信息内容相匹配的目标无噪声图像，从而提高了生成的目标无噪声图像的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图像生成方法的流程示意图；

图2为本发明实施例提供的对噪声图像进行去噪处理的过程示意图；

图3为本发明实施例提供的一种图像去噪模型的输入示意图；

图4为本发明实施例提供的图像去噪模型的训练方法的流程示意图；

图5为本发明实施例提供的图像生成装置的结构示意图；

图6为本发明实施例提供的图像去噪模型的训练装置的结构示意图；

图7为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本发明的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

本发明实施例提供的技术方案可以应用于图像生成场景中，尤其可以应用于扩散模型中的去噪场景中。在扩散模型场景下的图像去噪采样过程中，通常是将语义轮廓图像作为引导信息，基于GAN生成与语义轮廓图像相匹配的目标无噪声图像，但是，生成的目标无噪声图像与语义轮廓图像的匹配度较差。

为了生成与引导信息的信息内容相匹配的目标无噪声图像，从而提高生成的目标无噪声图像的准确度，本发明实施例提供了一种图像生成方法，在图像去噪采样过程中，可以结合引导信息和空引导信息对噪声图像进行去噪处理，以生成与引导信息的信息内容相匹配的目标无噪声图像，从而提高了生成的目标无噪声图像的准确度。其中，引导信息包括语义轮廓图像，或者，包括语义轮廓图像和目标文本，实现了像素级图像的引导。

下面，将通过下述几个具体的实施例对本发明提供的图像生成方法行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的图像生成方法的流程示意图，该图像生成方法可以由软件和/或硬件装置执行。示例的，请参见图1所示，该图像生成方法可以包括：

S101、获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，引导信息包括语义轮廓图像；或者，引导信息包括语义轮廓图像和目标文本。

其中，噪声图像通常包括三个RGB通道，而语义轮廓图像为仅包含一个信道通道的灰度图像。语义轮廓图像可以理解为基于噪声图像，想要生成的无噪声图像的语义轮廓图像信息。目标文本可以理解为基于噪声图像，想要生成的无噪声图像的描述文本。可以理解的是，在本发明实施例中，引导信息和空引导信息共同作为去噪处理过程中的引导信息，以结合该引导信息和空引导信息生成与引导信息的信息内容相匹配的目标无噪声图像。

示例地，获取待处理的噪声图像时，可以从其他电子设备接收该噪声图像，可以从本地存储中查找获取该噪声图像，或者，也可以从其他第三方数据库中获取该噪声图像等，具体可以根据实际需要进行设置，在此，对于待处理的噪声图像的获取方法，本发明实施例不做具体限制。

其中，噪声图像可以理解为基于目标加噪阶段，对原始干净图像进行加噪处理得到的。假设在扩散模型场景下，设置的扩散步数为T步，目标加噪阶段用t表示，则可以确定加噪阶段范围为0-T，目标加噪阶段t为0-T内的一个随机数。示例地，假设随机确定出的目标加噪阶段为t=5，则扩散模型中的加噪处理算法，可以连续对原始干净图像进行五次加噪处理，其中，第二次加噪处理是在第一次加噪处理得到的噪声图像的基础上执行的，第三次加噪处理是在第二次加噪处理得到的噪声图像的基础上执行的，第四次加噪处理是在第三次加噪处理得到的噪声图像的基础上执行的，第五次加噪处理是在第四次加噪处理得到的噪声图像的基础上执行的，这样通过对原始干净图像进行五次加噪处理，就可以得到原始干净图像在目标加噪阶段t=5时的噪声图像。

示例地，扩散模型中的加噪处理算法，对原始干净图像进行加噪处理时，可以采用线性方式的噪声添加方法进行逐步加噪处理，这样可以使得噪声的添加过程更平稳，可以在扩散过程中较好地保留原始干净图像的相关信息；当然，也可以采用其他的噪声添加方法进行加噪处理，具体可以根据实际需要进行设置，在此，本发明实施例只是以采用线性方式的噪声添加方法进行加噪处理为例进行说明，但并不代表本发明实施例仅局限于此。

在分别获取到待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息后，就可以执行下述S102：

S102、基于噪声图像、引导信息、目标加噪阶段以及空引导信息，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。

其中，第一阈值的取值可以根据实际需要进行设置，在此，对于第一阈值的具体取值，本发明实施例不做具体限制。

通常情况下，在扩散模型场景下，可以先随机初始化一个符合高斯概率分布的目标加噪阶段，扩散模型中的加噪处理算法基于目标加噪阶段对原始干净图像进行逐步加噪处理，得到噪声图像后，可以通过逆扩散过程逐步对加噪处理得到的噪声图像进行层层去噪处理，以得到预测的目标无噪声图像。示例地，通过逆扩散过程逐步对加噪处理得到的噪声图像进行层层去噪处理时，可以基于目标加噪阶段的取值，对噪声图像进行层层去噪处理，即循环执行去噪处理操作，以得到预测的目标无噪声图像。可以理解的是，本发明实施例中，在基于目标加噪阶段的取值对噪声图像进行层层去噪处理的过程中，不同去噪阶段的噪声图像对应的引导信息和空引导信息相同。

示例地，基于噪声图像、引导信息、目标加噪阶段以及空引导信息，对噪声图像进行去噪处理时，其去噪处理过程可以包括：

S1、将噪声图像、引导信息以及目标加噪阶段输入至扩散模型中的图像去噪模型中，得到第一参数；并将噪声图像、空引导信息以及目标加噪阶段输入至图像去噪模型中，得到第二参数，示例地，可参见图2所示，图2为本发明实施例提供的对噪声图像进行去噪处理的过程示意图，在得到第一参数和第二参数后，可执行下述S2：

S2、根据第一参数第二参数，生成噪声图像在目标加噪阶段对应的无噪声图像。

S3、更新目标加噪阶段，判断更新后的加噪阶段是否等于第二阈值。

S4、在确定更新后的加噪阶段等于第二阈值的情况下，则将噪声图像在目标加噪阶段对应的无噪声图像，确定为目标无噪声图像。

S5、在确定更新后的加噪阶段大于第二阈值的情况下，则确定目标加噪阶段的前一次加噪阶段对应的噪声图像，并将前一次加噪阶段对应的噪声图像确定为待处理的噪声图像，将更新后的加噪阶段确定为目标加噪阶段，重复执行上述S1-S5，直至更新后的加噪阶段等于第二阈值，并将噪声图像在更新后的加噪阶段对应的无噪声图像，确定为目标无噪声图像。

其中，第二阈值的取值可以根据实际需要进行设置。示例地，当加噪阶段范围为0-T时，第二阈值为0。

示例地，图像去噪模型可以为UNet神经网络模型，UNet神经网络模型主要包含输入层、中间层和输出层。其中，输入层主要由若干残差块、注意力块和下采样块堆叠构成，用于提取噪声图像的特征；中间块由一个残差块、注意力块和另一个残差块组成，用于对提取的特征进行进一步的整和处理；输出块由若干残差块、注意力块和上采样块堆叠构成，用于对中间层整和处理的特征进行恢复，从而得到噪声图像所包含噪声的均值和方差。

示例地，图像去噪模型是基于多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像，对初始扩散模型中的初始图像去噪模型进行训练得到的，该初始图像去噪模型的训练过程将在后续进行详细描述。

示例地，在上述S1中，将噪声图像、引导信息以及目标加噪阶段输入至扩散模型中的图像去噪模型中时，考虑到噪声图像通常包括三个RGB通道，而引导信息中包括的语义轮廓图像为仅包含一个信道通道的灰度图像，因此，可以将语义轮廓图像作为第四通道拼接到噪声图像上，并将拼接好的多通道图像和目标加噪阶段输入至扩散模型中的图像去噪模型中，示例地，可参见图3所示，图3为本发明实施例提供的一种图像去噪模型的输入示意图，在将加噪阶段输入至图像去噪模型之前，可以先通过时间编码器对加噪阶段进行编码，得到时间编码特征，并将时间编码输入至图像去噪模型中的各个残差块中；此外，当引导信息包括目标文本时，目标文本作为补充条件，可以进一步提升生成的目标无噪声图像的准确度，在该种情况下，在将目标文本输入至图像去噪模型之前，可以先通过文本序列化器对目标文本进行序列化处理，得到序列化文本，并通过文本编码器对序列化文本进行编码，生成文本编码特征，再将文本编码特征输入至图像去噪模型中的注意力块中，采用注意力机制将文本编码特征进行融合，最终输出目标加噪阶段对应的噪声图像所包含的均值和方差，即第一参数，第一参数包括均值和方差可对应记为第一均值和第一方差。

类似的，将噪声图像、空引导信息以及目标加噪阶段输入至图像去噪模型中时，空引导信息中的语义轮廓图像可以采用一个值为0的矩阵表示，与空文本一同作为图像去噪模型的输入，考虑到噪声图像通常包括三个RGB通道，而空引导信息中包括的空语义轮廓图像为仅包含一个信道通道的灰度图像，因此，可以将空语义轮廓图像作为第四通道拼接到噪声图像上，并将拼接好的多通道图像和目标加噪阶段输入至扩散模型中的图像去噪模型中。在将加噪阶段输入至图像去噪模型之前，可以先通过时间编码器对加噪阶段进行编码，得到时间编码特征，并将时间编码输入至图像去噪模型中的各个残差块中；此外，当空引导信息包括空文本时，空文本作为补充条件，可以进一步提升生成的目标无噪声图像的准确度，在该种情况下，在将空文本输入至图像去噪模型之前，可以先通过文本序列化器对空文本进行序列化处理，得到序列化文本，并通过文本编码器对序列化文本进行编码，生成文本编码特征，再将文本编码特征输入至图像去噪模型中的注意力块中，采用注意力机制将文本编码特征进行融合，最终输出目标加噪阶段对应的噪声图像所包含的均值和方差，即第二参数，第二参数包括均值可对应记为第二均值，鉴于其包括的方差在后续处理过程中暂时未涉及，因此，可先不对其进行区分。

示例地，在上述S2中，根据第一参数和第二参数，生成噪声图像在目标加噪阶段对应的无噪声图像时，扩散模型可以采用无分类器引导的思想，先对第一均值和第二均值进行融合，得到对应的目标均值；再根据融合得到的目标均值和第一方差，生成噪声图像在目标加噪阶段对应的无噪声图像。这样采用无分类器引导的思想，生成噪声图像在目标加噪阶段对应的无噪声图像，相比较无引导的生成方法，可以在一定程度上提高生成的无噪声图像的图像质量和准确度。

示例地，对第一均值和第二均值进行融合时，可以先确定第一均值和第二均值的差值，并确定差值与其对应的权重之间的乘积；将第二均值与乘积的和，确定为目标均值。为了便于理解，示例地，在一种场景下，引导信息仅包括语义轮廓图像，假设目标加噪阶段为t，

表示目标加噪阶段t的噪声图像，

表示引导信息中的语义轮廓图像，

表示空引导信息中的空语义轮廓图像，将目标加噪阶段t的噪声图像

、语义轮廓图像

、以及目标加噪阶段t输入至图像去噪模型，其输出的第一均值可记为

，将目标加噪阶段t的噪声图像

、空语义轮廓图像

、以及目标加噪阶段t输入至图像去噪模型，其输出的第二均值可记为

，则对第一均值

和第二均值

进行融合，得到目标均值可参见下述公式1：

其中，

表示融合得到的目标均值，

表示第一均值和第二均值的差值对应的权重。

在另一种场景下，引导信息包括语义轮廓图像和目标文本，同样假设目标加噪阶段为t，

表示目标加噪阶段t的噪声图像，

表示引导信息中的语义轮廓图像，

表示空引导信息中的空语义轮廓图像，

表示引导信息中的目标文本，

表示空引导信息中的空文本，将目标加噪阶段t的噪声图像

、语义轮廓图像

、目标文本

以及目标加噪阶段t 输入至图像去噪模型，其输出的第一均值可记为

，将目标加噪阶段t的噪声图像

、空语义轮廓图像

、空文本

以及目标加噪阶段t输入至图像去噪模型，其输出的第二均值可记为

，则对第一均值

和第二均值

进行融合，得到目标均值可参见下述公式2：

其中，

表示融合得到的目标均值，

表示第一均值和第二均值的差值对应的权重。

在对第一均值和第二均值进行融合，得到对应的目标均值后，就可以根据目标均值和第一方差，生成噪声图像在目标加噪阶段对应的无噪声图像，其具体实现可参见现有技术中，基于均值和方差生成噪声图像在加噪阶段对应的无噪声图像的相关方法，在此，本发明实施例不再进行赘述。

在执行上述S2生成噪声图像在目标加噪阶段对应的无噪声图像后，不能直接将该无噪声图像确定为对噪声图像进行去噪处理最终得到的目标无噪声图像，而是要进一步更新加噪阶段，例如，每一次更新加噪阶段时，可以将目标加噪阶段的取值减1，得到更新后的加噪阶段；并判断更新后的加噪阶段是否大于第二阈值，示例地，第二阈值可以设置为0，具体可以根据实际需要进行设置。在确定更新后的加噪阶段等于第二阈值的情况下，则可以直接将噪声图像在目标加噪阶段对应的无噪声图像，确定为最终的目标无噪声图像；相反的，在确定更新后的加噪阶段大于第二阈值的情况下，需要进一步执行上述S5，确定目标加噪阶段的前一次加噪阶段对应的噪声图像

，并将前一次加噪阶段对应的噪声图像

确定为上述S1中的待处理的噪声图像，将更新后的加噪阶段确定为目标加噪阶段，重复执行上述S1-S5，直至更新后的加噪阶段等于第二阈值，并将噪声图像在更新后的加噪阶段对应的无噪声图像，确定为最终的目标无噪声图像。

示例地，在上述S5中，确定目标加噪阶段的前一次加噪阶段对应的噪声图像时，可以根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一参数中的第一方差，生成前一次加噪阶段对应的噪声图像，从而获取到前一次加噪阶段对应的噪声图像。

示例地，根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一方差，生成前一次加噪阶段对应的噪声图像时，可以根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像，以及第一方差确定第三均值；并基于第一方差确定第二方差；再根据第三均值和第二方差，生成前一次加噪阶段对应的噪声图像。

示例地，根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像，以及第一方差确定第三均值时，可参见公式3：

其中，

表示第三均值，

表示目标加噪阶段t的噪声图像，

表示噪声图像

在目标加噪阶段t对应的无噪声图像，

表示目标加噪阶段t的噪声图像

所包含噪声的第一方差，

，s表示加噪阶段1-t中的第s个加噪阶段，

表示加噪阶段s的噪声图像

所包含噪声的方差。

示例地，基于第一方差确定第二方差时，可参见公式4：

其中，

表示目标加噪阶段t的噪声图像

所包含噪声的第二方差。

示例地，根据第三均值和第二方差，生成前一次加噪阶段对应的噪声图像

，可参见公式5：

其中，

表示高斯过程，

表示符合正态分布的随机噪声。

结合上述公式3、公式4以及公式5，就可以生成前一次加噪阶段对应的噪声图像。

可以看出，本发明实施例中，在生成与引导信息的信息内容相匹配的目标无噪声图像时，可以先获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，引导信息包括语义轮廓图像，或者，包括语义轮廓图像和目标文本；并基于噪声图像、引导信息、目标加噪阶段及空引导信息，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与引导信息的信息内容的匹配度大于第一阈值。这样结合引导信息和空引导信息对噪声图像进行去噪处理，可以生成与引导信息的信息内容相匹配的目标无噪声图像，从而提高了生成的目标无噪声图像的准确度。此外，采用本发明实施例提供的图像生成方法，还可以使得生成的目标无噪声图像的纹理细节更为丰富、物体形状更为规整。

上述图1所示的实施例详细地描述了在图像去噪采样过程中，如何生成与引导信息的信息内容相匹配的目标无噪声图像，下面，将通过下述图4所示的实施例，对如何训练生成图像去噪模型进行详细描述。

图4为本发明实施例提供的图像去噪模型的训练方法的流程示意图，该方法可以由软件和/或硬件装置执行。示例的，请参见图4所示，该图像去噪模型的训练方法可以包括：

S401、获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本；其中，多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本，引导信息包括语义轮廓图像；或者，引导信息包括语义轮廓图像和目标文本。

示例地，在获取多个干净图像样本和其对应的语义轮廓图像时，可以通过ADE20K数据集、COCO-Stuff数据集和Cityscapes数据集获取多个干净图像样本和其对应的语义轮廓图像，其中，ADE20K数据集和Cityscapes数据集中通常会包含干净图像样本和其对应的语义轮廓图像，COCO-Stuff数据集中还包括了干净图像样本对应的目标文本。

示例地，获取多个干净图像样本各自在加噪阶段对应的噪声图像样本时，可以将多个干净图像样本和多个干净图像样本各自对应的加噪阶段输入至初始扩散模型中的加噪处理算法中，加噪处理算法基于加噪阶段的取值对干净图像样本进行逐层加噪，得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。

其中，设置的扩散步数为T步，加噪阶段用t表示，则可以确定加噪阶段范围为0-T，加噪阶段t为0-T内的一个随机数。示例地，T的最大值可以为1000，针对ADE20K数据集和 COCO-Stuff数据集，对应的batch_size可以设置为256，针对Cityscapes数据集，对应的 batch_size可以设置为32，干净图像样本在加噪阶段t对应的噪声图像样本可记为

。

示例地，假设某个干净图像样本对应的加噪阶段t=5，则将该干净图像样本和对应的加噪阶段输入至初始扩散模型中的加噪处理算法中，扩散模型中的加噪处理算法可以连续对原始干净图像进行五次加噪处理，其中，第二次加噪处理是在第一次加噪处理得到的噪声图像的基础上执行的，第三次加噪处理是在第二次加噪处理得到的噪声图像的基础上执行的，第四次加噪处理是在第三次加噪处理得到的噪声图像的基础上执行的，第五次加噪处理是在第四次加噪处理得到的噪声图像的基础上执行的，这样通过对干净图像样本连续进行五次加噪处理，就可以得到该干净图像样本在加噪阶段t=5时的噪声图像样本。采用类似的方法，可以得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。

S402、将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中，得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。

示例地，初始图像去噪模型可以为UNet神经网络模型，UNet神经网络模型主要包含输入层、中间层和输出层。其中，输入层主要由若干残差块、注意力块和下采样块堆叠构成，用于提取噪声图像样本的特征；中间块由一个残差块、注意力块和另一个残差块组成，用于对提取的特征进行进一步的整和处理；输出块由若干残差块、注意力块和上采样块堆叠构成，用于对中间层整和处理的特征进行恢复，从而得到噪声图像样本所包含噪声的均值和方差。

示例地，在本发明实施例中，输入层可以由17个残差块、6个注意力块和10个下采样块组成；中间层可以由2个残差块和1个注意力块组成；输出层可以由23个残差块、9个注意力块和10个上采样块构成。

示例地，将噪声图像样本、引导信息以及目标加噪阶段输入至扩散模型中的图像去噪模型中时，可以将语义轮廓图像作为第四通道拼接到噪声图像上，并将拼接好的多通道图像和目标加噪阶段输入至扩散模型中的图像去噪模型中。图像去噪模型可以采用正弦编码方式，将时间步长嵌入到长度等于图像去噪模型信道的向量中，以将得到的编码特征叠加至图像去噪模型中的各个残差块中；此外，当引导信息包括文本时，文本作为补充条件，可以进一步提升生成的预测干净图像样本的准确度，在该种情况下，图像去噪模型还可以采用分词器对文本进行分词并序列化，并将序列化文本特征输入注意力块中，采用注意力机制将文本特征进行融合，最终输出多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。

在得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差后，就可以根据多个干净图像样本，以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新，即执行下述S403：

S403、根据多个干净图像样本，以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新，以得到图像去噪模型。

可以理解的是，在本发明实施例中，对初始扩散模型进行更新时，仅对初始扩散模型中的初始图像去噪模型的模型参数进行更新，对于初始扩散模型中的加噪处理算法和其他计算方法中的参数通常不做更新。

示例地，根据多个干净图像样本，以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新时，扩散模型可以根据多个干净图像样本、以及多个干净图像样本各自在加噪阶段对应的预测干净图像样本，得到多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本；之后，再根据多个干净图像样本、以及多个干净图像样本在加噪阶段各自对应的预测干净图像样本，对初始图像去噪模型的模型参数进行更新。

示例地，根据多个干净图像样本、以及多个干净图像样本各自在加噪阶段对应的预测干净图像样本，对初始图像去噪模型的模型参数进行更新时，针对各干净图像样本，可以根据干净图像样本的均值和干净图像样本在加噪阶段对应的预测干净图像样本的均值，构造干净图像样本对应的均方差损失；并根据加噪阶段的取值和干净图像样本在加噪阶段对应的噪声图像样本，构造干净图像样本对应的变分下界损失；根据干净图像样本对应的均方差损失和变分下界损失，确定干净图像样本对应的目标损失；再根据各干净图像样本对应的目标损失，对初始图像去噪模型的模型参数进行更新。

示例地，根据加噪阶段的取值和干净图像样本在加噪阶段对应的噪声图像样本，构造干净图像样本对应的变分下界损时，可以分为两种情况进行讨论，在一种情况下，当加噪阶段的取值为加噪阶段范围的下边界值时，可以根据干净图像样本、干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本确定离散高斯混合似然，并将离散高斯混合似然确定为干净图像样本对应的变分下界损失，从而得到干净图像样本对应的均方差损失。

在另一种情况下，当加噪阶段的取值为非下边界值时，可以根据干净图像样本在加噪阶段的前一个加噪阶段对应的第一预测噪声图像样本和第二预测噪声图像样本确定对应的目标散度；并基于目标散度，构造干净图像样本对应的变分下界损失，从而得到干净图像样本对应的变分下界损失。

其中，第一预测噪声图像样本是基于干净图像样本、干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本生成的，第二预测噪声图像样本是基于干净图像样本在加噪阶段对应的预测干净图像样本、预测干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本生成的。

在分别确定出干净图像样本对应的均方差损失和变分下界损失后，就可以根据干净图像样本对应的均方差损失和变分下界损失，共同确定干净图像样本对应的目标损失。示例地，根据干净图像样本对应的均方差损失和变分下界损失，共同确定干净图像样本对应的目标损失，通常需要先分别确定均方差损失和变分下界损失各自对应的权重，为了区分均方差损失和变分下界损失各自对应的权重，示例地，在本发明实施例中，可将均方差损失对应的权重记为第一权重，变分下界损失对应的权重记为第二权重，在分别确定出均方差损失对应的第一权重，以及变分下界损失对应的第二权重后，可以确定第一权重与均方差损失的第一乘积，以及第二权重与变分下界损失的第二乘积；再根据第一乘积和第二乘积，确定干净图像样本对应的目标损失，可参见下述公式6：

其中，

表示干净图像样本对应的目标损失，

表示一种均值计算方式，此处为中括号

内的矩阵元素的和除以对应权重矩阵元素的和，

表示均方差损失对应的第一权重，

表示干净图像样本，

表示干净图像样本的均值，

表示干净图像样本在加噪阶段t对应的预测干净图像样本

的均值，

表示变分下界损失对应的第二权重，

表示干净图像样本在加噪阶段1对应的噪声图像样本，

表示干净图像样本

在加噪阶段t对应的噪声图像样本，

表示干净图像样本

在加噪阶段

对应的第一预测噪声图像样本，

表示干净图像样本

在加噪阶段

对应的第二预测噪声图像样本，

表示散度函数。

示例地，在分别确定均方差损失对应的第一权重和变分下界损失对应的第二权重时，可以结合引导信息中的语义轮廓图像和空引导信息中的空语义轮廓图像这两个方面考虑，一方面，当语义轮廓图像为空引导信息中的空语义轮廓图像时，语义轮廓图像对应的目标权重为1；另一方面，当语义轮廓图像为引导信息中的非空语义轮廓图像时，可以根据干净图像样本对应的语义轮廓图像中，各像素所属的语义类别，确定语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积；并根据各语义类别对应的语义块的面积，确定语义轮廓图像对应的目标权重；根据语义轮廓图像对应的目标权重，分别确定均方差损失对应的第一权重，以及变分下界损失对应的第二权重，从而确定出均方差损失对应的第一权重，以及变分下界损失对应的第二权重。

示例地，上述根据各语义类别对应的语义块的面积，确定语义轮廓图像对应的目标权重时，针对各语义类别，根据语义类别对应的语义块的面积确定第一数值，并根据第一数值和多个语义类别中除语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值；将第一数值和第二数值的比值，确定为语义类别对应的权重，可参见下述公式7，该语义类别对应的权重即为语义类别对应的语义块中各像素对应的权重，多个语义类别中，各语义类别对应的语义块中各像素对应的权重构成语义轮廓图像对应的目标权重。

其中，

表示语义类别

，

表示语义轮廓图像中包括的语义类别的数量，

表示

个语义类别中的第

个语义类别，

表示语义类别

对应的语义块的面积，

表示第

个语义类别对应的语义块的面积，

表示第一数值，

表示第二数值，

表示语义类别

对应的权重。

结合上述公式6确定出语义轮廓图像对应的目标权重后，就可以根据语义轮廓图像对应的目标权重，分别确定均方差损失对应的第一权重，以及变分下界损失对应的第二权重。示例地，根据语义轮廓图像对应的目标权重，分别确定均方差损失对应的第一权重，以及变分下界损失对应的第二权重时，考虑到不同语义类别对应的面积大小可能会有较大的差异，这种面积大小差异可能会导致较小的语义类别在训练阶段没有得到足够重视，因此，在计算均方差损失和变分下界损失时，可以在确定出的语义轮廓图像对应的目标权重的基础上，适当增加较小面积对应的语义类别的权重，降低较大面积对应的语义类别的权重，以平衡面积大小差异，从而确定均方差损失对应的第一权重，以及变分下界损失对应的第二权重。

可以看出，本发明实施例中，在训练图像去噪模型时，可以先获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本；其中，引导信息包括语义轮廓图像；或者，引导信息包括语义轮廓图像和目标文本；将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中，得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差；根据多个干净图像样本，以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新，以得到图像去噪模型。这样不仅可以提升图像去噪模型的训练效率，而且可以有效加强图像去噪模型的去噪性能。

图5为本发明实施例提供的图像生成装置50的结构示意图，示例的，请参见图5所示，该图像生成装置50可以包括：

第一获取单元501，用于获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，引导信息包括语义轮廓图像；或者，引导信息包括语义轮廓图像和目标文本。

生成单元502，用于基于噪声图像、引导信息、目标加噪阶段以及空引导信息，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。

可选地，生成单元502，具体用于执行：

S1、将噪声图像、引导信息以及目标加噪阶段输入至扩散模型中的图像去噪模型中，得到第一参数；并将噪声图像、空引导信息以及目标加噪阶段输入至图像去噪模型中，得到第二参数。

可选地，第一参数包括第一均值和第一方差，第二参数包括第二均值。

生成单元502，具体用于对第一均值和第二均值进行融合，得到对应的目标均值；根据目标均值和第一方差，生成噪声图像在目标加噪阶段对应的无噪声图像。

根据本发明提供的一种图像生成装置50，生成单元502，具体用于确定第一均值和第二均值的差值，并确定差值与其对应的权重之前的乘积；将第二均值与乘积的和，确定为目标均值。

可选地，生成单元502，具体用于根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一参数中的第一方差，生成前一次加噪阶段对应的噪声图像。

可选地，生成单元502，具体用于根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像，以及第一方差确定第三均值；基于第一方差确定第二方差；根据第三均值和第二方差，生成前一次加噪阶段对应的噪声图像。

本发明实施例提供的图像生成装置50，可以执行上述任一实施例中图像生成方法的技术方案，其实现原理以及有益效果与图像生成方法的实现原理及有益效果类似，可参见图像生成方法的实现原理及有益效果，此处不再进行赘述。

图6为本发明实施例提供的图像去噪模型的训练装置60的结构示意图，示例的，请参见图6所示，该图像去噪模型的训练装置60可以包括：

第二获取单元601，用于获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本；其中，多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本，引导信息包括语义轮廓图像；或者，引导信息包括语义轮廓图像和目标文本。

第一生成单元602，用于将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中，得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差。

第二生成单元603，用于根据多个干净图像样本，以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新，以得到图像去噪模型。

可选地，第二生成单元603，具体用于根据多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，得到多个干净图像样本在加噪阶段各自对应的预测干净图像样本；根据多个干净图像样本、以及多个干净图像样本在加噪阶段各自对应的预测干净图像样本，对初始图像去噪模型的模型参数进行更新。

可选地，第二生成单元603，具体用于针对各干净图像样本，根据干净图像样本的均值和干净图像样本在加噪阶段对应的预测干净图像样本的均值，构造干净图像样本对应的均方差损失；并根据加噪阶段的取值和干净图像样本在加噪阶段对应的噪声图像样本，构造干净图像样本对应的变分下界损失；根据干净图像样本对应的均方差损失和变分下界损失，确定干净图像样本对应的目标损失；根据各干净图像样本对应的目标损失，对初始图像去噪模型的模型参数进行更新。

可选地，第二生成单元603，具体用于在加噪阶段的取值为加噪阶段范围的下边界值的情况下，根据干净图像样本、干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本确定离散高斯混合似然，并将离散高斯混合似然确定为干净图像样本对应的变分下界损失；在加噪阶段的取值为非下边界值的情况下，根据干净图像样本在加噪阶段的前一个加噪阶段对应的第一预测噪声图像样本和第二预测噪声图像样本确定对应的目标散度；并基于目标散度，构造干净图像样本对应的变分下界损失；其中，第一预测噪声图像样本是基于干净图像样本、干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本生成的，第二预测噪声图像样本是基于干净图像样本在加噪阶段对应的预测干净图像样本、预测干净图像样本的方差以及干净图像样本在加噪阶段对应的噪声图像样本生成的。

可选地，干净图像样本对应的语义轮廓图像为非空语义轮廓图像。

第二生成单元603，具体用于根据干净图像样本对应的语义轮廓图像中，各像素所属的语义类别，确定语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积；并根据各语义类别对应的语义块的面积，确定语义轮廓图像对应的目标权重；根据语义轮廓图像对应的目标权重，分别确定均方差损失对应的第一权重，以及变分下界损失对应的第二权重；并确定第一权重与均方差损失的第一乘积，以及第二权重与变分下界损失的第二乘积；根据第一乘积和第二乘积，确定干净图像样本对应的目标损失。

可选地，第二生成单元603，具体用于针对各语义类别，根据语义类别对应的语义块的面积确定第一数值，并根据第一数值和多个语义类别中除语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值；将第一数值和第二数值的比值，确定为语义类别对应的语义块中各像素对应的权重；多个语义类别中，各语义类别对应的语义块中各像素对应的权重构成语义轮廓图像对应的目标权重。

可选地，第二获取单元601，具体用于将多个干净图像样本和多个干净图像样本各自对应的加噪阶段输入至初始扩散模型中的加噪处理算法中，得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。

本发明实施例提供的图像去噪模型的训练装置60，可以执行上述任一实施例中图像去噪模型的训练方法的技术方案，其实现原理以及有益效果与图像去噪模型的训练方法的实现原理及有益效果类似，可参见图像去噪模型的训练方法的实现原理及有益效果，此处不再进行赘述。

图7为本发明实施例提供的电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行图像生成方法或者图像去噪模型的训练方法。其中，图像生成方法可以包括：获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，引导信息包括语义轮廓图像；或者，引导信息包括语义轮廓图像和目标文本；基于噪声图像、引导信息、目标加噪阶段以及空引导信息，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。

图像去噪模型的训练方法可以包括：获取多个干净图像样本、多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在加噪阶段对应的噪声图像样本；其中，多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本，引导信息包括语义轮廓图像；或者，引导信息包括语义轮廓图像和目标文本；将多个干净图像样本各自在加噪阶段对应的噪声图像样本、引导信息和加噪阶段输入至初始扩散模型中的初始图像去噪模型中，得到多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差；根据多个干净图像样本，以及多个干净图像样本在加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新，以得到图像去噪模型。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的图像生成方法或者图像去噪模型的训练方法。其中，图像生成方法可以包括：获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，引导信息包括语义轮廓图像；或者，引导信息包括语义轮廓图像和目标文本；基于噪声图像、引导信息、目标加噪阶段以及空引导信息，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图像生成方法或者图像去噪模型的训练方法。其中，图像生成方法可以包括：获取待处理的噪声图像、噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，引导信息包括语义轮廓图像；或者，引导信息包括语义轮廓图像和目标文本；基于噪声图像、引导信息、目标加噪阶段以及空引导信息，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与引导信息的信息内容匹配度大于第一阈值。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像生成方法，其特征在于，包括：

获取待处理的噪声图像、所述噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，所述引导信息包括语义轮廓图像；或者，所述引导信息包括语义轮廓图像和目标文本；

2.根据权利要求1所述的图像生成方法，其特征在于，所述基于所述噪声图像、所述引导信息、所述目标加噪阶段以及所述空引导信息，对所述噪声图像进行去噪处理，生成目标无噪声图像，包括：

S1、将所述噪声图像、所述引导信息以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中，得到第一参数；并将所述噪声图像、所述空引导信息以及所述目标加噪阶段输入至所述图像去噪模型中，得到第二参数；

S2、根据所述第一参数所述第二参数，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像；

S3、更新所述目标加噪阶段，判断更新后的加噪阶段是否等于第二阈值；

S4、在确定所述更新后的加噪阶段等于第二阈值的情况下，则将所述噪声图像在所述目标加噪阶段对应的无噪声图像，确定为所述目标无噪声图像；

3.根据权利要求2所述的图像生成方法，其特征在于，所述第一参数包括第一均值和第一方差，所述第二参数包括第二均值，所述根据所述第一参数所述第二参数，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像，包括：

对所述第一均值和所述第二均值进行融合，得到对应的目标均值；

4.根据权利要求3所述的图像生成方法，其特征在于，所述对所述第一均值和所述第二均值进行融合，得到对应的目标均值，包括：

确定所述第一均值和所述第二均值的差值，并确定所述差值与其对应的权重之前的乘积；

将所述第二均值与所述乘积的和，确定为所述目标均值。

5.根据权利要求2-4任一项所述的图像生成方法，其特征在于，所述确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像，包括：

6.根据权利要求5所述的图像生成方法，其特征在于，所述根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一方差，生成所述前一次加噪阶段对应的噪声图像，包括：

根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像，以及所述第一方差确定第三均值；

基于所述第一方差确定第二方差；

7.一种图像去噪模型的训练方法，其特征在于，包括：

获取多个干净图像样本、所述多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在所述加噪阶段对应的噪声图像样本；其中，所述多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本，所述引导信息包括语义轮廓图像；或者，所述引导信息包括语义轮廓图像和目标文本；

将所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本、所述引导信息和所述加噪阶段输入至初始扩散模型中的初始图像去噪模型中，得到所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差；

8.根据权利要求7所述的图像去噪模型的训练方法，其特征在于，所述根据所述多个干净图像样本，以及所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，对所述初始图像去噪模型的模型参数进行更新，包括：

根据所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差，得到所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本；

9.根据权利要求8所述的图像去噪模型的训练方法，其特征在于，所述根据所述多个干净图像样本、以及所述多个干净图像样本在所述加噪阶段各自对应的预测干净图像样本，对所述初始图像去噪模型的模型参数进行更新，包括：

针对各干净图像样本，根据所述干净图像样本的均值和所述干净图像样本在所述加噪阶段对应的预测干净图像样本的均值，构造所述干净图像样本对应的均方差损失；并根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本，构造所述干净图像样本对应的变分下界损失；根据所述干净图像样本对应的均方差损失和变分下界损失，确定所述干净图像样本对应的目标损失；

10.根据权利要求9所述的图像去噪模型的训练方法，其特征在于，所述根据所述加噪阶段的取值和所述干净图像样本在所述加噪阶段对应的噪声图像样本，构造所述干净图像样本对应的变分下界损失，包括：

在所述加噪阶段的取值为加噪阶段范围的下边界值的情况下，根据所述干净图像样本、所述干净图像样本的方差以及所述干净图像样本在所述加噪阶段对应的噪声图像样本确定离散高斯混合似然，并将所述离散高斯混合似然确定为所述干净图像样本对应的变分下界损失；

11.根据权利要求9或10所述的图像去噪模型的训练方法，其特征在于，所述干净图像样本对应的语义轮廓图像为非空语义轮廓图像，所述根据所述干净图像样本对应的均方差损失和变分下界损失，确定所述干净图像样本对应的目标损失，包括：

根据所述干净图像样本对应的语义轮廓图像中，各像素所属的语义类别，确定所述语义轮廓图像包括的多个语义类别中各语义类别对应的语义块的面积；并根据所述各语义类别对应的语义块的面积，确定所述语义轮廓图像对应的目标权重；

根据所述语义轮廓图像对应的目标权重，分别确定所述均方差损失对应的第一权重，以及所述变分下界损失对应的第二权重；并确定所述第一权重与所述均方差损失的第一乘积，以及所述第二权重与所述变分下界损失的第二乘积；

12.根据权利要求11所述的图像去噪模型的训练方法，其特征在于，所述根据所述各语义类别对应的语义块的面积，确定所述语义轮廓图像对应的目标权重，包括：

针对所述各语义类别，根据所述语义类别对应的语义块的面积确定第一数值，并根据所述第一数值和所述多个语义类别中除所述语义类别之外的其他语义类别各自对应的语义块的面积确定第二数值；将所述第一数值和所述第二数值的比值，确定为所述语义类别对应的语义块中各像素对应的权重；

13.根据权利要求7-10任一项所述的图像去噪模型的训练方法，其特征在于，获取所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本，包括：

14.一种图像生成装置，其特征在于，包括：

第一获取单元，用于获取待处理的噪声图像、所述噪声图像对应的引导信息、目标加噪阶段和空引导信息；其中，所述引导信息包括语义轮廓图像；或者，所述引导信息包括语义轮廓图像和目标文本；

15.一种图像去噪模型的训练装置，其特征在于，包括：

第二获取单元，用于获取多个干净图像样本、所述多个干净图像样本各自对应的引导信息和加噪阶段、以及各自在所述加噪阶段对应的噪声图像样本；其中，所述多个干净图像样本包括对应的引导信息为非空引导信息的干净图像样本和对应的引导信息为空引导信息的干净图像样本，所述引导信息包括语义轮廓图像；或者，所述引导信息包括语义轮廓图像和目标文本；

第一生成单元，用于将所述多个干净图像样本各自在所述加噪阶段对应的噪声图像样本、所述引导信息和所述加噪阶段输入至初始扩散模型中的初始图像去噪模型中，得到所述多个干净图像样本在所述加噪阶段各自对应的噪声图像样本所包含噪声的均值和方差；

16.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的图像生成方法，或者实现如权利要求7至13任一项所述的图像去噪模型的训练方法。

17.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的图像生成方法，或者实现如权利要求7至13任一项所述的图像去噪模型的训练方法。