CN116629336A

CN116629336A - 训练生成模型的方法、资源生成方法及装置

Info

Publication number: CN116629336A
Application number: CN202310401581.9A
Authority: CN
Inventors: 袁正; 苑洪意; 谭传奇; 黄非; 黄松芳
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-08-22

Abstract

本申请实施例公开了一种训练生成模型的方法、资源生成方法及装置。本申请在采用去噪扩散机制训练生成模型时，不再采用固定的线性函数来确定每一时间步的噪声进程，而是采用了一种全新的思路，即根据已经得到的每一时间步逆扩散处理对应的第一损失函数取值来确定后续每一步扩散对应的噪声进程，其中第一损失函数表征加噪扩散过程产生的样本分布与逆扩散过程产生的样本分布之间的差异。这种依据第一损失函数取值自适应确定噪声进程的方式能够有效提高生成模型的资源生成能力，进而提高模型效果。

Description

训练生成模型的方法、资源生成方法及装置

技术领域

本申请涉及自然语言处理和人工智能技术领域，特别是涉及一种训练生成模型的方法、资源生成方法及装置。

背景技术

去噪扩散概率模型已经被广泛的应用于图像生成，即利用去噪概率模型来训练生成模型，从而进行图像生成。去噪扩散概率模型通过构建向前的扩散过程在每一个时间步对真实样本增加噪声，并通过学习向后的逆扩散过程在每一个时间步去除噪声从而得到真实样本。其中，在去噪扩散过程中，每一个时间步的扩散处理在真实样本上增加的噪声比例称为噪声进程，不同的噪声进程对去噪扩散模型的样本质量和图像生成能力会产生不同的影响。目前大多采用固定的线性函数来确定每一时间步的噪声进程，这种方式造成生成模型的效果不佳。

发明内容

有鉴于此，本申请提供了一种训练生成模型的方法、资源生成方法及装置，以便于提高生成模型生成输出资源的效果。

本申请提供了如下方案：

第一方面，提供了一种训练生成模型的方法，所述方法包括：

获取包含多个训练样本的训练数据，所述训练样本包括输入样本和输出样本构成的样本对，所述输入样本和输出样本为图像或文本；

对样本对中输出样本进行加噪扩散处理，得到加噪后的样本；

将该样本对中输入样本和所述加噪后的样本输入生成模型，所述生成模型在训练过程中，基于输入样本和所述加噪后的样本模拟所述加噪扩散的逆扩散处理，以将所述输出样本作为目标输出；

其中，在所述加噪扩散处理中，每一时间步的扩散处理均在上一时间步的扩散处理得到的样本上加噪声，每一时间步的扩散处理对应的噪声进程与已经得到的每一时间步的逆扩散处理对应的第一损失函数取值相关，每一时间步的扩散处理对应的噪声进程为每一时间步的扩散处理在所述输出样本上增加的噪声比例，所述第一损失函数表征所述加噪扩散过程产生的样本分布与所述逆扩散过程产生的样本分布之间的差异。

根据本申请实施例中一可实现的方式，所述方法还包括：

利用已经采样得到的各时间步的逆扩散处理对应的第一损失函数取值和各时间步的噪声进程，确定第一损失函数取值与噪声进程之间的映射关系；

依据所述映射关系，确定在各时间步上呈均匀分布的所述第一损失函数取值对应的噪声进程分别作为后续各时间步的扩散处理对应的噪声进程。

根据本申请实施例中一可实现的方式，分别针对输出样本中的各元素Token分别确定每一时间步的扩散处理对应的噪声进程，第i个Token在各时间步的扩散处理对应的噪声进程与已经得到的第i个Token在每一时间步逆扩散处理对应的第一损失函数取值相关。

根据本申请实施例中一可实现的方式，在所述逆扩散处理中，各时间步的逆扩散处理得到的样本是在基于上一时间步的逆扩散处理得到的样本的后验分布上采样得到的；或者，

各时间步的逆扩散处理得到的样本是按照第一预设概率采用第一方式以及按照第二预设概率采用第二方式进行采样得到的，所述第一方式为在基于上一时间步的逆扩散处理得到的样本的后验分布上采样，所述第二方式为在基于预测得到的的先验分布上采样，所述/>为对第一步扩散处理得到的样本的预测结果。

根据本申请实施例中一可实现的方式，所述生成模型包括编码器和解码器；

所述编码器获取输入生成模型的输入样本的特征表示，所述解码器利用所述输入样本的特征表示和所述加噪后的样本进行所述逆扩散处理，得到所述输出样本；

所述训练的目标包括：最小化第一损失函数的取值。

根据本申请实施例中一可实现的方式，若所述输入样本和所述输出样本均为文本，则对样本对中输出样本进行加噪扩散处理，得到加噪后的样本包括：

获取所述输出样本的特征表示，对所述输出样本的特征表示进行加噪扩散处理，得到加噪后的特征表示作为所述加噪后的样本。

根据本申请实施例中一可实现的方式，所述训练的目标还包括：最小化第二损失函数的取值和/或第三损失函数的取值；

所述第二损失函数表征最后一时间步的扩散处理得到的样本分布与正态分布之间的差异；所述第三损失函数表征最后一时间步逆扩散得到的样本与所述输出样本之间的差异。

第二方面，提供了一种资源生成方法，所述方法包括：

获取输入资源；

将所述输入资源和随机噪声输入生成模型，由所述生成模型基于所述输入资源和所述随机噪声进行逆扩散处理，得到输出资源；

其中，所述输入资源和输出资源为图像或文本；所述生成模型采用如上第一方面所述的方法预先训练得到。

第三方面，提供了一种摘要生成方法，所述方法包括：

获取输入文本；

将所述输入文本和随机噪声输入生成模型，由所述生成模型基于所述输入文本和所述随机噪声进行逆扩散处理，得到所述输入文本的摘要；

其中，所述生成模型采用如上第一方面所述的方法预先训练得到。

第四方面，提供了一种机器翻译方法，所述方法包括：

获取采用第一语种的文本；

将所述采用第一语种的文本和随机噪声输入生成模型，由所述生成模型基于所述采用第一语种的文本和所述随机噪声进行逆扩散处理，得到采用第二语种的文本；

第五方面，提供了一种训练生成模型的装置，所述装置包括：

样本获取单元，被配置为获取包含多个训练样本的训练数据，所述训练样本包括输入样本和输出样本构成的样本对，所述输入样本和输出样本为图像或文本；

加噪扩散单元，被配置为对样本对中输出样本进行加噪扩散处理，得到加噪后的样本；

模型训练单元，被配置为将该样本对中输入样本和所述加噪后的样本输入生成模型，所述生成模型在训练过程中，基于输入样本和所述加噪后的样本模拟所述加噪扩散的逆扩散处理，以将所述输出样本作为目标输出；

其中，所述加噪扩散单元在所述加噪扩散处理中，每一时间步的扩散处理均在上一时间步的扩散处理得到的样本上加噪声，每一时间步的扩散处理对应的噪声进程与已经得到的每一时间步的逆扩散处理对应的第一损失函数取值相关，每一时间步的扩散处理对应的噪声进程为每一时间步的扩散处理在所述输出样本上增加的噪声比例，所述第一损失函数表征所述加噪扩散过程产生的样本分布与所述逆扩散过程产生的样本分布之间的差异。

第六方面，提供了一种资源生成装置，所述装置包括：

资源获取单元，被配置为获取输入资源；

资源生成单元，被配置为将所述输入资源和随机噪声输入生成模型，由所述生成模型基于所述输入资源和所述随机噪声进行逆扩散处理，得到输出资源；

其中，所述输入资源和输出资源为图像或文本，所述生成模型由上第五方面所述的装置预先训练得到。

根据第七方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

根据第八方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本申请在采用去噪扩散机制训练生成模型时，不再采用固定的线性函数来确定每一时间步的噪声进程，而是采用了一种全新的思路，即根据已经得到的每一时间步逆扩散处理对应的第一损失函数取值来确定每一步扩散对应的噪声进程，从而有效控制加噪扩散过程中添加到输出样本的噪声量，使得生成的资源质量更优。因此，这种依据第一损失函数取值自适应确定噪声进程的方式能够有效提高生成模型的资源生成能力，进而提高模型效果。

2)本申请将扩散概率生成机制引入文本生成领域，将文本生成过程模拟为加噪扩散的逆扩散处理，消除因噪声产生的信息丢失对文本生成所带来的影响，从而得到更好的文本生成效果。

3)本申请在实际预测过程中，编码器的输入和处理不变，也就是说，编码器仍然只需要进行一次神经网络的前馈计算，而不必参与逆扩散过程，逆扩散过程可能需要成百上千步的处理，因此可以极大地节省计算资源。

4)本申请的逆扩散处理中，在基于上一时间步的扩散处理得到的样本的后验分布上采样的基础上，融入一定概率的全新采样方式，该全新采样方式是基于对第一步扩散处理得到的样本的预测结果的先验分布上采样。这种采样方式能够在上述噪音进程的确定方式下，有效提高逆扩散过程中生成样本的多样性。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的系统架构图；

图2为本申请实施例提供的训练生成模型的方法流程图；

图3为本申请实施例提供的生成模型的训练原理示意图；

图4为本申请实施例提供的资源生成方法的流程图；

图5为本申请实施例提供的生成模型的预测原理示意图；

图6为本申请实施例提供的训练生成模型的装置的示意性框图；

图7为本申请实施例提供的资源生成装置的示意性框图；

图8为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统架构包括模型训练装置和生成装置。

其中，模型训练装置在离线阶段获取训练数据后，可以采用本申请实施例提供的方法进行模型训练，得到生成模型。

资源生成装置在线利用已经建立的生成模型，基于输入资源生成输出资源。其中，本申请实施例中涉及的输入资源和输出资源可以为图像或文本。例如，在输入文本的情况下，生成输出文本。再例如，在输入图像的情况下，生成输出图像。再例如，在输入文本的情况下，生成输出图像。再例如，在输入图像的情况下，生成输出文本。相应地，上述的生成模型可以是图像生成模型，也可以是文本生成模型。具体应用场景将在后续实施例中举例描述。

模型训练装置和资源生成装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPs，Virtual Private Server)服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和资源生成装置还可以设置于具有较强计算能力的计算机终端。

需要说明的是，上述资源生成装置除了在线上针对输入资源生成输出资源之外，也可以采用离线的方式针对输入资源生成输出资源，例如针对批量的输入资源生成输出资源。

应该理解，图1中的模型训练装置、资源生成装置以及生成模型的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、资源生成装置以及生成模型。

图2为本申请实施例提供的训练生成模型的方法流程图，该方法流程可以由图1所示系统中的模型训练装置执行。如图2中所示，该方法可以包括：

步骤202：获取包含多个训练样本的训练数据，训练样本包括输入样本和输出样本构成的样本对，输入样本和输出样本为图像或文本。

步骤204：对样本对中输出样本进行加噪扩散处理，得到加噪后的样本。

步骤206：将该样本对中输入样本和加噪后的样本输入生成模型，生成模型在训练过程中，基于输入样本和加噪后的样本模拟加噪扩散的逆扩散处理，以将输出样本作为目标输出。其中，在加噪扩散处理中，每一时间步的扩散处理均在上一时间步的扩散处理得到的样本上加噪声，每一时间步的扩散处理对应的噪声进程与已经得到的每一时间步逆扩散处理对应的第一损失函数取值相关，每一时间步的扩散处理对应的噪声进程为每一时间步的扩散处理在输出样本上增加的噪声比例。

由上述流程可以看出，本申请在采用去噪扩散机制训练生成模型时，不再采用固定的线性函数来确定每一时间步的噪声进程，而是采用了一种全新的思路，即根据已经得到的每一时间步逆扩散处理对应的第一损失函数取值来确定每一步扩散对应的噪声进程。这种依据第一损失函数取值自适应确定噪声进程的方式能够有效提高生成模型的资源生成能力，进而提高模型效果。

下面分别对上述流程中的各步骤进行详细描述。首先结合实施例对上述步骤202即“获取包含多个训练样本的训练数据”进行详细描述。

本申请实施例中涉及的训练数据包含多个训练样本，每个训练样本均为输入样本W_x和输出样本W_y构成的样本对。

依据不同的应用场景，上述输入样本和输出样本不同。

在图像生成场景下，例如，上述输入样本可以是文本，该文本可以是对图像的一段描述，输出样本为图像，该图像包含的内容与输入文本的描述相一致。这类型的样本对可以从诸如文章中的插图和文章中关于插图的描述语句中获得。再例如，上述输入样本可以为图像，输出样本为对输入的图像进行修复后得到的图像。等等。

在文本生成场景下，例如，上述输入样本可以是文本，输出样本也可以是文本。输入样本可以是一篇文章，输出样本可以是该文章的摘要。再例如，输入样本可以是采用第一语种的文本，输出文本可以是与输入样本对应的采用第二语种的文本。等等。

下面结合实施例对上述步骤204即“对样本对中输出样本进行加噪扩散处理，得到加噪后的样本”。

去噪扩散概率模型在图像生成领域已经被应用，达到了超越传统生成对抗模型的效果，但在自然语言处理领域仍处于空白。去噪扩散概率模型主要包括：向前加噪扩散和向后去噪两个过程，本步骤中是向前加噪扩散的过程，即在输出样本的基础上逐步增加噪声的过程。

在图像领域，可以首先对输出样本W_y施加多步的扩散过程。第一时间步的扩散处理在输出样本W_y上加噪声得到z₀。后续每一时间步的扩散处理均在上一时间步的扩散处理得到的样本上加噪声。各时间步的扩散处理得到的样本符合正态分布，也就是说，向前加噪扩散的过程可以看做是添加了一个额外的马尔科夫转换分布。

如图3中所示，第一时间步的扩散处理中的马尔科夫转换分布可以定义为q(z₀|W_y)，例如：

q(z₀|W_y)＝N(z₀；W_y,β₀I) (1)

后续其他步扩散中，以第t步为例的马尔科夫转换分布可以定义为q(z_t|z_t-1)：

q(z_t|z_t-1)＝N(z_t；z_t-1,β_tI) (2)

其中，N(z₀；W_y,β₀I)是关于z₀的分布，该分布是以W_y为均值、以β₀I为方差的正态分布。上述每一时间步的扩散处理中采用的β₀,β_t为预设的参数，I为单位矩阵。z_t是第t+1时间步和第t时间步的扩散处理得到的样本。通过预设时间步数(例如T+1个时间步)的扩散后，得到z_T，尽可能让z_T接近正态分布。其中扩散的步数越多，z_T越接近正态分布，效果越好，但相应对计算资源的占用越多，耗时越长，因此需要根据经验或实验取一个相对均衡的值，例如取2000步。

在自然语言处理领域，由于自然语言的离散化特点，并不能够直接将去噪扩散概率模型应用于自然语言生成任务上。本申请实施例中可以首先对输出样本W_y进行编码处理，将包含各Token(元素)构成的序列的W_y映射为连续的特征表示g_φ(W_y)，即由各Token的词向量构成的特征表示。其中，文本的各Token指的是构成文本的元素。对于文本而言，将文本切分为字符或者词语序列，则文本序列中的字符或者词语、以及起始符、分隔符均为Token。g_φ(W_y)∈R^n×d，n和d分别为W_y的长度和词向量的维度。

加噪扩散的过程是在输出样本的特征表示上施加的多步的扩散过程。第一时间步的扩散处理在输出样本的特征表示g_φ(W_y)上加噪声得到z₀。后续每一时间步的扩散处理均在上一时间步的扩散处理得到的特征表示上加噪声。也就是说，每一时间步得到的样本实际上均为特征表示。每一时间步加的噪声可以是从正态分布中采样得到的，也就是说，向前加噪扩散的过程可以看做是添加了一个额外的马尔科夫转换分布。

这种情况下，第一时间步的扩散处理中的马尔科夫转换分布可以定义为q_φ(z₀|W_y)，例如：

q_φ(z₀|W_y)＝N(z₀；g_φ(W_y),β₀I) (3)

其中，N(z₀；g_φ(W_y),β₀I)是关于z₀的分布，该分布是以g_φ(W_y)为均值、以β₀I为方差的正态分布。

后续其他步扩散中，以第t步为例的马尔科夫转换分布可以定义为q_φ(z_t|z_t-1)：

q_φ(z_t|z_t-1)＝N(z_t；z_t-1,β_tI) (4)

通过上述前向加噪扩散过程，将离散的文本类型的输出样本融入连续的去噪扩散概率模型中，逐渐在g_φ(W_y)上添加噪声来获得符合上述先验分布的样本z_T，本申请实施例中采用的先验分布为正态分布。

下面结合实施例对上述步骤206即“将该样本对中输入样本和加噪后的样本输入生成模型，生成模型在训练过程中，基于输入样本和加噪后的样本模拟加噪扩散的逆扩散处理，以将输出样本作为目标输出”进行详细描述。

生成模型的训练实际上是在上述向前去噪扩散的基础上模拟(即学习)逆扩散的过程，本申请实施例采用的生成模型的架构为编码器-解码器结构。如图3中所示，输入样本W_x输入编码器，编码器对W_x进行编码，获取输入样本W_x的特征表示。

若输入样本为图像，则上述编码器为图像编码模型。用以对输入的图像样本进行编码，得到输入的图像样本的特征表示。

若输入样本为文本，则上述编码器可以基于预训练语言模型实现，将诸如BERT(Bidirectional Encoder Representation from Transformers，基于转换的双向编码表示)、XLNet(一种通过排列语言模型实现双向上下文信息的自回归模型)、GPT(GenerativePre-Training，生成式预训练)模型等预训练语言模型作为初始的编码器，在此基础上进行进一时间步训练。其中，BERT是一种双向预训练语言模型，使用Transformer Encoder(转换编码器)作为模型结构，BERT能够很好地利用上下文信息进行特征学习。XLNet是一个类似BERT的模型，是一种更加泛化的自回归预训练模型。GPT使用Transformer Decoder(转换解码器)结构，并在Transformer Decoder中仅保留了掩码多头注意力。

Transformer(转换)网络是一个采用自注意力机制对输入的各Token进行编码以转换为特征表示的模型。另外，除了使用基于Transformer实现的编码器-解码器架构之外，还可以采用基于其他网络实现的编码器-解码器结构，例如基于RNN(Recurrent NeuralNetwork，循环神经网络)等实现。

解码器利用输入样本的特征表示和上述加噪后的样本进行逆扩散处理，得到输出样本。

对于生成任务，每个时间步可以看做是在输入样本为条件下，对上一时间步逆扩散得到的样本上去除噪声。其中对于第一时间步逆扩散而言，是在加噪后的样本z_T上去除噪声。去除噪声的过程是模拟加噪声处理的逆过程。

每一时间步去噪(即逆扩散处理)可以认为是模拟加噪处理的逆过程，即模拟向前加噪扩散过程的后验分布，表示为p_θ(z_t-1|z_t,W_x)，其遵循高斯分布族的形式。p_θ(z_t-1|z_t,W_x)可以表示为：

是关于z_t-1的分布，该分布的均值是/>方差为

其中，

β_t＝1-α_t (8)

其中，α_t表征在时间步t增加的噪声比例，则实际上就表征在时间步t对输出样本增加的噪声量占最终增加的噪声总量的比值，即本申请实施例中涉及的噪声进程。就是生成模型需要模拟的处理函数，也可以认为是模型学习到的去噪函数。

因为去噪过程是加噪扩散的逆过程，理想的情况就是生成模型完全学习到加噪扩散的逆过程从而预测得到W_y，因此本申请实施例中训练生成模型采用的训练目标主要包括：最小化加噪扩散过程产生的样本分布与逆扩散过程产生的样本分布之间的差异。可以依据该训练目标构建第一损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

其中，在每一个时间步，上述第一损失函数L1可以如下：

其中，上述公式中的E是取期望的处理，指的是在约束下取[]中内容的期望。q(z_t,z₀,W_x,W_y)指的是基于W_x,W_y,z₀的z_t符合q的分布。

更进一时间步地，在加噪扩散过程中，理想的状况是最后一时间步的扩散处理得到的样本与随机噪声一样，因此，上述训练目标还可以包括：最小化第二损失函数的取值，该第二损失函数表征最后一时间步的扩散处理得到的样本的分布与正态分布之间的差异。

更进一时间步地，在逆扩散(即去噪)过程中，理想的状况是完全模拟加噪扩散的逆过程，在最后一时间步逆扩散得到的样本与输出样本完全一致。因此，上述训练目标还可以包括最小化第三损失函数的取值，该第三损失函数表征最后一时间步逆扩散得到的样本与输出样本之间的差异。

在本说明书实施例中，可以依据上述训练目标构造一个总损失函数，在每一轮迭代中利用总损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

作为其中一种可实现的方式，可以构造总损失函数L如下：

若本申请实施例中上述输出样本为文本，则上述总损失函数可以如下：

其中，公式中的指的是在q_φ(z_t,z₀,W_x,W_y)约束下取[]中内容的期望。q_φ(z_t,z₀,W_x,W_y)指的是基于W_x,W_y,z₀的z_t符合q_φ的分布。

以及/> 体现的是逆扩散过程产生的分布与加噪扩散过程产生的分布之间的差异。/>表示最后一时间步的扩散处理得到的样本的期望值，以此能够体现最后一时间步的扩散处理得到的样本与正态分布的差异。/>表示在逆扩散处理得到的z₀的前提下预测得到W_y的概率，因此/>体现的实际上是最后一时间步逆扩散得到的样本与输出样本之间的差异。

在了解上述基本原理和训练结构的基础上，下面对本申请实施例提供的噪声进程的控制方式进行详述。本申请实施例中涉及的噪声进程是在加噪扩散处理中，每一时间步的扩散处理在输出样本上增加的噪声比例，即上面公式中涉及的相应地，噪声进程也表征了在逆扩散(即去噪)过程中每一时间步对应的去噪难度。

本申请中不再采用固定的线性函数的确定方式，而是采用另外一种思路。理论上来讲，预测第一个时间步的样本(假设利用/>来表征预测得到的第一个时间步的样本)的难度应该相对于时间步长线性增加，那么每个逆扩散时间步去除噪声的程度应该在不同的时间步之间均匀分布来达到更优的效果。因此可以采用时间步t对应的第一损失函数例如来衡量时间步t的去噪难度。因此可以设计一种/>的取值与已经得到的每一时间步逆扩散处理对应的第一损失函数取值相关。

作为其中一种可实现的方式，可以利用已经采样得到的各时间步逆扩散处理对应的第一损失函数取值和各时间步的噪声进程，确定第一损失函数取值与噪声进程之间的映射关系。然后依据该映射关系，确定在各时间步上呈均匀分布的第一损失函数取值对应的噪声进程分别作为各时间步的扩散处理对应的噪声进程。

上述映射关系可以通过拟合的方式得到，例如假设时间步t对应的第一损失函数用L_t表示，可以记录噪声各时间步的噪声进程与已经得到的L_t，然后记录的各时间步的噪声进程/>与已经得到的L_t拟合一个从噪声进程/>到第一损失函数的L_t的映射函数M()：

作为其中一种可实现的方式，可以采用线性插值的方式进行上述映射函数的拟合。除了该方式之外，也可以采用其他方式来确定上述映射函数。

更进一步地，还可以对上述映射函数进行平滑处理，即对各时间步t的L_t进行下采样，得到多个离散化的第一损失函数，按照同样的下采样步长对噪声进程也进行下采样得到多个离散化的噪声进程。利用离散化的噪声进程和离散化的第一损失函数来进行上述映射函数的拟合。

在得到拟合后的映射函数后，可以得到逆映射函数M^-1()：

然后可以通过在L_t上均匀取值来确定对应的从而在后续向前的扩散过程中采用确定出的各时间步的噪声进程，即/>例如，可以对得到的各时间步的L_t进行线性插值后拟合成一条曲线，然后在该曲线上针对各时间步进行取值，使得各时间步对应的取值均匀分布。

随着训练的进行，可以每训练一定时长或轮数，采用已经采样得到的第一损失函数重新确定噪声进程，并在后续过程中采用新确定的噪声进程，从而实现噪声进程的不断校准。

另外，呈均匀分布的各第一损失函数取值，随着均匀度越高，达到的效果越好。作为其中一种优选的实施方式，可以采用等间隔取值的方式。除了上面实施例中采用了在各时间步上呈均匀分布的第一损失函数取值对应的噪声进程之外，也可以采用其他类型的分布，只要使得每个时间步的第一损失函数取值之间的间隔差别较小即可。

另外，无论对于图像还是文本类型的输出样本，其都可以看做由多个元素(Token)构成。图像中的各Token可以是各图块，文本中的各Token可以是各字符或词语。考虑到不同位置的Token可能携带不同的信息量，在逆扩散过程中对应的生成难度也不同，每个Token对应不同的噪声进程会带来更好的效果。有鉴于此，可以分别针对输出样本中的各元素Token分别确定每一时间步的扩散处理对应的噪声进程，第i个Token在各时间步的扩散处理对应的噪声进程与已经得到的第i个Token在每一时间步逆扩散处理对应的第一损失函数取值相关。

这种情况下实际上是记录第i个Token在各时间步的噪声进程与已经得到的第i个Token在各时间步对应的损失函数/>然后记录的/>与已经得到的/>拟合一个从噪声进程/>到第一损失函数的/>的映射函数M()：

作为其中一种可实现的方式，可以采用线性插值的方式进行上述映射函数的拟合。

更进一步地，还可以对上述映射函数进行平滑处理，即对各时间步t的进行下采样，得到多个离散化的第一损失函数，按照同样的下采样步长对噪声进程/>也进行下采样得到多个离散化的噪声进程。利用离散化的噪声进程和离散化的第一损失函数来进行上述映射函数的拟合。

在得到拟合后的映射函数后，可以得到逆映射函数M^-1()：

然后可以通过在上均匀取值来确定对应的/>从而在后续向前的扩散过程中针对第i个Token采用确定出的各时间步的噪声进程，即/>随着训练的进行，可以每训练一定时长或轮数，采用已经得到的第一损失函数重新确定噪声进程，并在后续过程中采用新确定的噪声进程，从而实现噪声进程的不断校准。/>

基于上述描述可以看出，作为其中一种可实现的方式，在逆扩散处理中，各时间步的逆扩散处理得到的样本是在基于上一时间步的逆扩散处理得到的样本的后验分布上采样得到的。即z_t是在p_θ(z_t-1|z_t,W_x)上采样得到的。

通过上述方式确定的噪声进程可以提高生成输出样本的质量，但会降低多样性。为了弥补损失的多样性，本申请实施例提供了一种新的采样方式。各时间步的逆扩散处理得到的样本是按照第一预设概率采用第一方式以及按照第二预设概率采用第二方式进行采样得到的。其中，第一方式为在基于上一时间步的逆扩散处理得到的样本的后验分布上采样，第二方式为在基于预测得到的的先验分布上采样，/>为对第一步扩散处理得到的样本的预测结果。也就是说，在基于上述后验分布的基础上，以一定的概率随机插入基于先验分布的采样方式。

下面对上述第二种方式即基于先验分布的采样方式进行描述。加噪扩散过程中的各时间步均可以得到基于z₀的先验分布，表示为：

因此在逆扩散处理中，各时间步的逆扩散处理得到的样本z_t可以是在基于预测得到的的先验分布上采样得到的，/>为对第一步扩散处理得到的样本的预测结果。也就是说，每一步逆扩散处理都可以预测一个/>然后基于先验分布q(z_t|z₀)采样得到z_t。初始的是不准确的，但随着时间步的进行，对/>的预测越来越准确，并在最后一步逆扩散处理得到/>时，目标是使得/>与z₀一致。

由于对于样本z_t-1的预测，基于先验分布的采样方式对应的方差为1-基于后验分布方式对应的方差为/>根据公式(7)和公式(8)可以得到：

因此，显然这种采样方式能够得到较大的方差，从而在每一时间步产生更加多样性的样本。

在上述训练得到的生成模型的基础上，可以利用生成模型执行具体的资源生成任务。图4为本申请实施例提供的资源生成方法的流程图，该方法可以由图1所示系统中的资源生成装置执行。如图4中所示，该方法可以包括以下步骤：

步骤402：获取输入资源。

步骤404：将输入资源和随机噪声输入生成模型，由生成模型基于输入资源和随机噪声进行逆扩散处理，得到输出资源。其中，生成模型采用如图2所示的方法预先训练得到。

本申请实施例预先训练得到的生成模型的结构如图5中所示，包括编码器和解码器。

编码器获取输入资源的特征表示。

解码器利用输入资源的特征表示和随机噪声进行逆扩散处理，预测输出资源。

也就是说在实际预测过程中，编码器的输入和处理不变，编码器仍然只需要进行一次神经网络的前馈计算，而不必参与逆扩散过程，逆扩散过程可能需要成百上千步的处理，因此可以极大地节省计算资源。

解码器的输入除了是编码器的输出之外，还会将随机噪声输入解码器，解码器依据输入资源的特征表示逐步进行去噪处理，在最后一个时间步得到特征表示然后将/>进行映射得到输出资源。

上述资源生成过程中涉及的输入资源和输出资源可以为图像或文本。例如，输入资源为文本，输出资源为图像，即利用上述生成模型依据该文本生成图像。再例如，输入资源为图像，输出资源为图像，即利用上述生成模型依据输入图像生成输出图像。再例如，输入资源为图像，输出资源为文本，即利用上述生成模型依据输入图像生成文本。再例如，输入资源为文本，输出资源为文本，即利用上述生成模型依据输入文本生成输出文本。

作为其中一种可实现的方式，上述资源生成方法可以由云端服务器执行，也就是说在云端集成资源生成的功能。云端服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual PrivateServer)服务中存在的管理难度大，服务扩展性弱的缺陷。

当用户希望针对输入资源生成输出资源时，可以将输入资源通过用户终端上传至云端服务器。

上述用户终端可以是但不限于诸如：手机、平板电脑、笔记本电脑、PDA(PersonalDigital Assistant，个人数字助理)、可穿戴式设备、PC(Personal Computer，个人计算机)等。

云端服务器获取来自用户终端的输入资源；然后利用基于预先训练得到的生成模型利用该输入资源和随机噪声进行逆扩散处理，得到输出资源，并将该输出资源返回给用户终端。

本申请实施例提供的上述方法可以应用于多种应用场景，在此仅列举其中几种进行描述：

应用场景1：摘要生成场景

在本场景下，训练生成模型时，可以将一些文章作为输入样本，将这些文章的摘要作为输出样本，从而构成样本对。例如，可以将一些新闻文本作为输入样本，将新闻文本的摘要作为输出样本。再例如，可以将一些论文作为输入样本，将论文的摘要作为输出样本。上述新闻文本及其摘要、论文及其摘要等均是在网络上较为容易获取的，因此可以获得大量的训练样本来作为训练数据。

然后获取样本对中输出样本的特征表示，对输出样本的特征表示进行加噪扩散处理，得到加噪后的特征表示；将该样本对的输入样本和加噪后的特征表示输入生成模型，生成模型在训练过程中，基于输入样本和加噪后的特征表示模拟加噪扩散的逆扩散处理，以得到输出样本。具体训练过程可以参见方法实施例中针对图2和图3的相关记载，在此不做赘述。

在实际进行摘要生成时，获取输入文本，将输入文本和随机噪声输入预先训练得到的生成模型，由生成模型基于上述输入文本和随机噪声进行逆扩散处理，得到输入文本的摘要。

通过这种方式能够自动针对输入文本生成准确的摘要，可以在新闻文本、论文文本进行线上发布时，自动生成摘要并一并发布。也可以将文本生成装置作为工具提供给用户，由用户上传自己的文档作为输入文本，使用该工具获取自动生成的摘要。

应用场景2：机器翻译场景

在本场景下，训练生成模型时，可以将一些双语语料作为样本对，其中双语语料包括采用第一语种的文本作为输入样本，还包括采用第二语种的文本作为输出样本。例如，可以将一些中文文本和对应英文文本构成样本对，作为训练样本。

在实际进行机器翻译时，获取采用第一语种的文本，将采用第一语种的文本和随机噪声输入预先训练得到的生成模型，由生成模型基于上述采用第一语种的文本和随机噪声进行逆扩散处理，得到采用第二语种的文本。

通过这种方式能够自动将采用第一语种的文本翻译成第二语种的文本。例如可以在线上发布文本时，自动将文本翻译成另外一种语言，以便不同国家或地区的用户观看。再例如，可以将文本生成装置作为工具提供给用户，由用户上传要翻译的文档作为输入文本，使用该工具获取自动翻译得到的指定语种的文本。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种训练生成模型的装置。图6示出根据一个实施例的训练生成模型的装置的示意性框图，该装置即图1所示架构中的模型训练装置。如图6所示，该装置600可以包括：样本获取单元601、加噪扩散单元602和模型训练单元603。其中各组成单元的主要功能如下：

样本获取单元601，被配置为获取包含多个训练样本的训练数据，训练样本包括输入样本和输出样本构成的样本对，输入样本和输出样本为图像或文本。

加噪扩散单元602，被配置为对样本对中输出样本进行加噪扩散处理，得到加噪后的样本。

模型训练单元603，被配置为将该样本对中输入样本和加噪后的样本输入生成模型，生成模型在训练过程中，基于输入样本和加噪后的样本模拟加噪扩散的逆扩散处理，以将输出样本作为目标输出。

其中，加噪扩散单元602在加噪扩散处理中，每一时间步的扩散处理均在上一时间步的扩散处理得到的样本上加噪声，每一时间步的扩散处理对应的噪声进程与已经得到的每一时间步的逆扩散处理对应的第一损失函数取值相关，每一时间步的扩散处理对应的噪声进程为每一时间步的扩散处理在输出样本上增加的噪声比例，第一损失函数表征加噪扩散过程产生的样本分布与逆扩散过程产生的样本分布之间的差异。

作为其中一种可实现的方式，加噪扩散单元602可以利用已经采样得到的各时间步的逆扩散处理对应的第一损失函数取值和各时间步的噪声进程，确定第一损失函数取值与噪声进程之间的映射关系；依据映射关系，确定在各时间步上呈均匀分布的第一损失函数取值对应的噪声进程分别作为后续各时间步的扩散处理对应的噪声进程。

作为其中一种可实现的方式，加噪扩散单元602可以分别针对输出样本中的各元素Token分别确定每一时间步的扩散处理对应的噪声进程，第i个Token在各时间步的扩散处理对应的噪声进程与已经得到的第i个Token在每一时间步逆扩散处理对应的第一损失函数取值相关。

作为其中一种可实现的方式，生成模型在逆扩散处理中，各时间步的逆扩散处理得到的样本是在基于上一时间步的逆扩散处理得到的样本的后验分布上采样得到的。

作为另一种可实现的方式，生成模型在逆扩散处理中，各时间步的逆扩散处理得到的样本是按照第一预设概率采用第一方式以及按照第二预设概率采用第二方式进行采样得到的，第一方式为在基于上一时间步的逆扩散处理得到的样本的后验分布上采样，第二方式为在基于预测得到的的先验分布上采样，/>为对第一步扩散处理得到的样本的预测结果。

作为其中一种可实现的方式，上述生成模型包括编码器和解码器。

编码器获取输入生成模型的输入样本的特征表示，解码器利用输入样本的特征表示和加噪后的样本进行逆扩散处理，得到输出样本。训练的目标包括：最小化第一损失函数的取值。

作为其中一种较为典型的场景，若输入样本和输出样本均为文本，则加噪扩散单元602可以具体被配置为：获取输出样本的特征表示，对输出样本的特征表示进行加噪扩散处理，得到加噪后的特征表示作为加噪后的样本。

更进一步地，上述训练的目标还可以包括：最小化第二损失函数的取值和/或第三损失函数的取值。第二损失函数表征最后一时间步的扩散处理得到的样本分布与正态分布之间的差异；第三损失函数表征最后一时间步逆扩散得到的样本与输出样本之间的差异。

根据另一方面的实施例，提供了一种资源生成装置。图7示出根据一个实施例的资源生成装置的示意性框图。如图7所示，该装置700可以包括：资源获取单元701和资源生成单元702。其中各组成单元的主要功能如下：

文本获取单元701，被配置为获取输入资源。

文本生成单元702，被配置为将输入资源和随机噪声输入生成模型，由生成模型基于输入资源和随机噪声进行逆扩散处理，得到输出资源。

其中，上述输入资源和输出资源为图像或文本，生成模型由图6所示的装置预先训练得到。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图8示例性的展示出了电子设备的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821，用于控制电子设备800的低级别操作的基本输入输出系统(BIOS)822。另外，还可以存储网页浏览器823，数据存储管理系统824，以及模型训练装置/资源生成装置825等等。上述模型训练装置/资源生成装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线830包括一通路，在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种训练生成模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，分别针对输出样本中的各元素Token分别确定每一时间步的扩散处理对应的噪声进程，第i个Token在各时间步的扩散处理对应的噪声进程与已经得到的第i个Token在每一时间步逆扩散处理对应的第一损失函数取值相关。

4.根据权利要求1所述的方法，其特征在于，在所述逆扩散处理中，各时间步的逆扩散处理得到的样本是在基于上一时间步的逆扩散处理得到的样本的后验分布上采样得到的；或者，

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述生成模型包括编码器和解码器；

所述训练的目标包括：最小化第一损失函数的取值。

6.根据权利要求1至4中任一项所述的方法，其特征在于，若所述输入样本和所述输出样本均为文本，则对样本对中输出样本进行加噪扩散处理，得到加噪后的样本包括：

7.根据权利要求5所述的方法，其特征在于，所述训练的目标还包括：最小化第二损失函数的取值和/或第三损失函数的取值；

8.一种资源生成方法，其特征在于，所述方法包括：

获取输入资源；

其中，所述输入资源和输出资源为图像或文本；所述生成模型采用如权利要求1至7中任一项所述的方法预先训练得到。

9.一种摘要生成方法，其特征在于，所述方法包括：

获取输入文本；

其中，所述生成模型采用如权利要求1至7中任一项所述的方法预先训练得到。

10.一种机器翻译方法，其特征在于，所述方法包括：

获取采用第一语种的文本；

11.一种训练生成模型的装置，其特征在于，所述装置包括：

12.一种资源生成装置，其特征在于，所述装置包括：

资源获取单元，被配置为获取输入资源；

其中，所述输入资源和输出资源为图像或文本，所述生成模型由权利要求11所述的装置预先训练得到。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10中任一项所述的方法的步骤。