CN110546656A

CN110546656A - 前馈生成式神经网络

Info

Publication number: CN110546656A
Application number: CN201880027095.2A
Authority: CN
Inventors: A.G.A.范登奥德; K.西蒙扬; O.文雅尔斯
Original assignee: Yin Hui Technology Co Ltd
Current assignee: Yin Hui Technology Co Ltd
Priority date: 2017-05-20
Filing date: 2018-05-22
Publication date: 2019-12-06
Anticipated expiration: 2038-05-22
Also published as: US20180365554A1; EP3971786B1; CN117787346A; CN110546656B; EP3593290A1; TWI767000B; EP3971786A1; WO2018215404A1; EP3593290B1; US11934935B2; TW201901532A

Abstract

公开了一种前馈生成式神经网络，该前馈生成式神经网络生成在单个神经网络推理中包括特殊类型的多个输出示例的输出示例。可选地，生成可以以上下文输入为条件。例如，前馈生成式神经网络可以生成语音波形，语音波形是以文本片段的语言特征为条件的输入文本片段的语言化。

Description

前馈生成式神经网络

背景技术

本说明书涉及生成式神经网络。

神经网络是采用一层或多层非线性单元来预测所接收的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即下一个隐藏层或输出层)的输入。网络的每一层根据相应的一组参数的当前值从所接收的输入中生成输出。

发明内容

总的来说，本说明书描述了前馈生成式神经网络。前馈生成式神经网络是在单个神经网络推理中生成包括多个特殊类型的输出样本的输出示例的神经网络。可选地，生成可以以上下文输入为条件。例如，前馈生成式神经网络可以生成语音波形，语音波形是以文本片段的语言特征为条件的输入文本片段的语言化。

因此，在一个实施方案中，本说明书描述了一种训练前馈生成式神经网络的方法，该前馈生成式神经网络具有多个前馈参数，并且被配置为生成以第二类型的上下文输入为条件的第一类型的输出示例。每个输出示例包括在多个生成时间步骤的每一个处的相应的输出样本。前馈生成式神经网络被配置为接收包括上下文输入的前馈输入，并被配置为处理前馈输入以生成前馈输出，对于生成时间步骤中的每一个，该前馈输出定义在该生成时间步骤处的输出样本的可能值的相应的似然性分布。该训练包括获得训练上下文输入；根据前馈参数的当前值，使用前馈生成式神经网络处理包括该训练上下文输入的训练前馈输入，以生成训练前馈输出；以及使用经训练的自回归生成式神经网络处理训练上下文输入。对于多个生成时间步骤中的每一个，经训练的自回归生成式神经网络已被训练为自回归地生成自回归输出，该自回归输出定义了在该生成时间步骤处的以前一生成时间步骤处的输出样本为条件的输出样本的可能值的似然性分布。该方法还包括确定相对于前馈参数的第一梯度，以使散度损耗最小化。对于生成时间步骤中的每一个，散度损耗取决于来自由自回归输出定义的、该生成时间步骤的似然性分布和由训练的前馈输出定义的、该生成时间步骤的似然性分布(由自回归输出定义的、该生成时间步骤的似然性分布和由训练的前馈输出定义的、该生成时间步骤的似然性分布之间)的第一散度。该方法还包括至少部分基于第一梯度确定对前馈参数的当前值的更新。

此类方法的优点将稍后描述。通常，但并不一定，前馈输入还包括在生成时间步骤中的每一个处的相应的噪声输入。在一些实施方案中，这便于以并行方式生成一组样本的输出分布，因此这比自回归方法快得多。

例如，第一散度可以是KL散度或Jensen-Shannon散度。散度损耗可以至少部分地取决于在时间步骤中的每一个处的第一散度的总和。

该训练可以还包括获得训练上下文输入的真值输出示例，并且通过从概率分布采样来根据训练的前馈输出生成预测的输出示例。预测的输出示例可以用于确定训练的另一梯度。

因此，真值输出示例和预测的输出示例可以定义诸如语音波形的波形。然后，训练可以还包括生成真值输出示例的第一幅度谱；生成预测的输出示例的第二幅度谱；以及确定相对于前馈参数的第二梯度，以使取决于第一与第二幅度谱之间的差异的幅度损耗最小化。确定对前馈参数的当前值的更新可以包括至少部分地基于第二梯度来确定更新。幅度谱可以包括例如定义波形的振幅、能量或类似幅度谱(例如，表示不同频带中的功率)的数据。

附加地或可替换地，训练可以包括使用经训练的特征生成神经网络处理真值输出示例，以获得真值输出示例的特征。经训练的特征生成神经网络可以是以波形为输入的经预先训练的神经网络。该训练可以还包括使用经训练的特征生成神经网络处理预测的输出示例，以获得预测的输出示例的特征。然后，该方法可以包括确定相对于前馈参数的第三梯度，以使感知损耗最小化。感知损耗可以被定义为取决于真值输出示例的特征与预测的输出示例的特征之间的差异的量度的损耗。确定对前馈参数的当前值的更新可以包括至少部分地基于第三梯度来确定更新。

该特征生成神经网络可以包括语音识别神经网络，特别是当输出示例包括语音波形时。更一般地，该特征生成神经网络可以包括经训练的自回归生成式神经网络。在这些和其他实施方案中，这些特征可以是在特征生成网络中的中间层的输出。

该训练可以附加地或可替代地包括获得不同的上下文输入；使用经训练的自回归生成式神经网络处理不同的上下文输入，以获得多个生成时间步骤中的每一个的相应的不同的自回归输出；以及确定相对于前馈参数的第四梯度，以使对比损耗最大化。广义而言，此处，对比损耗定义了两种分布之间的相似性度量。因此，对于生成时间步骤中的每一个，对比损耗可以被定义为至少部分取决于来自由不同自回归输出定义的、该生成时间步骤的似然性分布和由训练的前馈输出定义的、该生成时间步骤的似然性分布的第二散度的损耗。确定对前馈参数的当前值的更新可以包括至少部分地基于第四梯度来确定更新。

这里还描述了生成输出示例的方法。该方法可以包括接收上下文输入并通过使用已经使用如上所述的方法训练的前馈生成式神经网络处理包括上下文输入的前馈网络输入来生成输出示例。前馈网络输入可以包括噪声输入。

这里还描述了一种方法，该方法包括接收生成波形的请求，该波形包括以调节张量为条件的多个样本，调节张量表示文本输入的特征；获得包括多个样本中的每一个的噪声值的随机噪声向量；以及使用前馈生成式神经网络处理随机噪声向量，以生成波形。前馈生成式神经网络可以包括一系列的卷积神经网络层群组。每个群组可以以调节张量为条件。每个群组可以被配置为接收输入波形，并将以调节张量为条件的波形转换成输出波形。

第一卷积神经网络层群组的输入波形可以是随机噪声向量。除第一群组之外的每个卷积神经网络层群组的输入波形可以是紧接在该群组之前的群组的输出波形。所生成的波形可以是最后一个卷积神经网络层群组的输出。

在一些实施方案中，卷积神经网络层群组可以包括具有由调节张量门控的激活函数的一个或多个层。例如，激活函数可以是调节张量与一个或多个可学习权重的卷积的函数。每个卷积层群组可以包括一个或多个残差块，一个或多个残差块各自包括一个或多个扩张卷积层，便于模拟长期因果相关性。例如，在一些实施方案中，每个卷积层群组可以具有类似于WaveNet(稍后引用)的结构，但是采用随机噪声向量作为输入。该系列的卷积神经网络层(convolutional neural network，CNN)群组可以包括输入和输出之间的一串CNN层群组。

前馈生成式神经网络可以生成定义多个样本中的每一个样本的可能值的相应似然性分布的输出。该处理可以还包括使用相应的概率分布为样本中的每一个选择值。

本说明书结合系统和计算机程序组件使用术语“配置”。一个或多个计算机的系统被配置为执行特殊的操作或动作意味着系统已经在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中导致系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作的意味着一个或多个程序包括指令，当这些指令由数据处理装置执行时使得该装置执行操作或动作。

本说明书中描述的主题的特定实施例可以被实施以便实现以下优点中的一个或多个。

自回归神经网络通过在每个时间步骤处执行前向传递来生成跨多个时间步骤的输出示例。在给定的时间步骤，自回归神经网络生成要包括在以已经生成的输出样本为条件的输出示例中的新输出样本。这可以产生高质量的输出示例，但是会消耗大量的计算资源并花费大量的时间，即，因为处理需要以在较早的时间步骤处执行的处理为条件的大量的时间步骤来执行。

另一方面，如本说明书中描述的前馈生成式神经网络可以比自回归生成式神经网络更快地生成输出示例，同时保持生成的输出示例的高质量。

具体地，所描述的前馈生成式神经网络在单个推理步骤中生成输出示例，即，利用通过神经网络的单个前向传递。相对于自回归神经网络消耗的时间，这大大减少了生成输出示例所需的时间和计算资源量。

附加地，由于前馈神经网络的结构、神经网络的训练方式或两者，前馈生成式神经网络可以生成与由经训练的自回归神经网络生成的那些输出示例质量相当的输出示例。

具体地，前馈神经网络可以接收噪声向量作为输入，并且通过多个卷积神经网络层群组(其以上下文输入为条件)处理噪声。由于这种架构，神经网络可以有效地以上下文输入为条件来生成高质量的输出示例。附加地，前馈神经网络可以具有比自回归神经网络更少的参数，并且在计算方面较不复杂。例如，自回归神经网络也可以是卷积神经网络，但是是比前馈神经网络具有更多参数的计算更复杂的神经网络。例如，自回归神经网络可以包括前馈神经网络中不存在的跳过连接、比前馈神经网络具有更多数量的隐藏单元、或者两者。尽管如此，由于本说明书中描述的技术，前馈神经网络仍然可以产生质量相当的输出示例。

此外，通过训练前馈神经网络以匹配由经训练的自回归神经网络生成的输出，前馈神经网络可以被训练成在很短时间内生成与经训练的自回归神经网络质量相当的样本。前馈神经网络的训练可以可选地使用其他损耗(例如，幅度损耗、感知损耗或对比损耗中的一个或多个)来进一步增强，以改善经训练的前馈神经网络的性能，而不增加前馈神经网络的计算量。

这可以允许前馈神经网络用于在需要生成具有低延迟的高质量输出示例的环境中或者当可用于执行神经网络的计算资源量有限时生成输出示例。例如，当神经网络被部署在具有有限处理能力和存储器的移动设备或专用个人计算设备(例如，智能扬声器或其他智能设备)上时，这可能发生。

本说明书中的主题的一个或多个实施例的细节在附图和以下描述中阐述。从描述、附图和权利要求书中，主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出了示例神经网络系统。

图2是用于生成输出示例的示例过程的流程图。

图3是用于训练前馈生成式神经网络的示例过程的流程图。

图4是用于确定前馈参数的当前值的更新的示例过程的流程图。

图5是用于训练前馈生成式神经网络110的自回归生成式神经网络130的图。

各个附图中相同的附图标记和名称指示相同的元件。

具体实施方式

图1示出了示例神经网络系统100。神经网络系统100是在一个或多个位置的一个或多个计算机上实施为计算机程序的系统的示例，其中可以实施下面描述的系统、组件和技术。

神经网络系统100接收上下文输入102和噪声104作为输入，并以上下文输入102和噪声104为条件生成输出示例112。

例如，上下文输入102可以是文本的语言特征，并且输出示例112可以是被语言化(即被讲出)的文本的波形。也就是说，输出示例可以是表征波形的一系列值，即一系列幅度值或者压缩或压扩幅度值。

作为另一示例，上下文输入102可以是文本，并且输出示例112可以是由文本描述的图像。

作为又一示例，上下文输入102可以是一系列视频帧，并且输出示例112可以是在该系列视频帧的最后一帧之后的视频帧。

具体地，神经网络系统100包括前馈生成式神经网络110。

前馈生成式神经网络110是被配置为接收上下文输入102和噪声104并生成定义输出示例112的前馈输出的神经网络。

输出示例112包括多个输出样本，即数值，并且前馈生成式神经网络110生成前馈输出，该前馈输出在单个推理步骤中(即在通过前馈生成式神经网络110的单个前向传递中)定义多个数值中的每一个，并且具体地，不以神经网络110在任何较早的推理步骤中执行的任何处理为条件。

通常，噪声是随机噪声向量，其包括输出示例中的样本中的每一个的噪声值。

具体地，对于输出示例112中的每个样本，前馈输出定义样本的可能值的相应概率分布。

例如，对于每个样本，前馈输出可以包括样本的预测值和/或样本的可能值的分布的参数。例如，参数可以是样本的可能值的逻辑分布的平均值和标准差。因此，在一些实施方案中，对于每个样本，前馈输出包括样本的预测值以及逻辑分布的平均值和标准差。其中，如下所述，CNN层群组按顺序堆叠，仅样品可以从一个层群组传递到下一个层群组，并且总的平均值和标准差可以根据每个群组输出的各个平均值和标准差来确定。在一些其他实施方案中，前馈输出可以不明确地包括预测样本值，但是预测样本值可以根据可能样本值的分布的参数来确定。例如，预测的样本值可以被确定为(i)样本的相对应的噪声值与样本的分布的平均值的乘积和(ii)样本的标准差的和。

当输出示例是波形时，前馈生成式神经网络110通常包括一系列的卷积神经网络层群组。每个群组以调节张量为条件，即以上下文输入102为条件，例如，提供语音和持续时间信息的语言特征。每个群组被配置为接收输入波形，并以调节张量为条件将输入波形转换成输出波形。在WAVENET:AGENERATIVE MODEL FOR RAW AUDIO(https：//arxiv.org/pdf/1609.03499.pdf处可获得)中描述了在调节张量上调节卷积层，其全部内容通过引用结合于此。因此，对于第一卷积层群组，输入波形是随机噪声向量，并且对于最后一个卷积层群组，输出是定义输出示例的前馈输出。

下面参考图5更详细地描述前馈生成式神经网络110的示例架构。下面参考图2更详细地描述使用前馈生成式神经网络110生成输出示例。

为了训练前馈生成式神经网络110以生成精确的前馈输出，神经网络系统100还包括训练子系统120，该训练子系统训练前馈生成式神经网络110以确定前馈生成式神经网络110的参数(在本说明书中称为“前馈参数”)的训练值。

一旦已经训练了前馈生成式神经网络110，网络110就可以被部署并用于为新接收的上下文输入生成输出示例。例如，网络110可以在具有有限的计算资源或者需要以极低的延迟生成语音的用户设备(例如，移动设备或专用智能设备)上实施。

具体地，训练子系统120使用经训练的自回归生成式神经网络130来训练前馈生成式神经网络110。

自回归生成式神经网络130还被配置为接收与前馈生成式神经网络110相同类型的上下文输入，并生成与由前馈生成式神经网络110生成的输出示例相同类型的输出示例。然而，自回归生成式神经网络130被配置为在多个时间步骤上以自回归方式生成输出示例中的值，即，以在较早时间步骤中生成的输出示例中的先前样本的值为条件生成输出示例中的每个样本。

例如，当输入是语言特征并且输出是波形时，自回归生成式神经网络130可以是自回归卷积神经网络。这种自回归神经网络的示例在https：//arxiv.org/pdf/1609.03499.pdf.处可获得的WAVENET:A GENERATIVE MODEL FOR RAW AUDIO中更详细地进行了描述。

通常，自回归生成式神经网络130一旦被训练，就能够生成非常高质量的输出。然而，因为前馈神经网络110在单个传递中生成输出示例，所以前馈神经网络110能够生成延迟比自回归神经网络130低得多的输出示例。

如下文将更详细描述的，当使用自回归生成式神经网络130训练前馈神经网络110时，训练子系统保持自回归神经网络130的参数值固定，并且使用由自回归神经网络130生成的输出来评估在训练期间由前馈神经网络110生成的输出的质量。

下面参考图5更详细地描述自回归生成式神经网络130的示例架构。

可选地，训练子系统120还使用特征生成神经网络140来训练前馈生成式神经网络110。

特征生成神经网络140是这样的神经网络，即其被配置为接收与由前馈生成式神经网络110和自回归生成式神经网络130生成的输出示例的类型相同的输入，并且作为处理输入的一部分生成输入的特征。特征生成神经网络140通常可以是处理输入以基于输入生成分数、分类或回归输出的任何神经网络。

具体地，训练子系统120在前馈生成式神经网络110的训练中使用由特征生成神经网络140生成的特征。这些特征可以是网络140的输出层的输出、网络140的中间层的输出、或者网络140的两层或更多层的输出的组合。

例如，特征生成神经网络140可以是将与输出示例的类型相同的输入转换成与上下文输入的类型相同的输出的神经网络，并且特征可以是特征生成神经网络140的一个或多个隐藏层的输出。

也就是说，当输出示例是波形并且上下文数据是文本时，特征生成神经网络140可以是将话语的波形转换成话语的转录的语音识别神经网络。

作为另一示例，特征生成神经网络140和自回归生成式神经网络130可以是相同的神经网络，并且特征可以是自回归生成式神经网络130的隐藏一个或多个层的输出，即，而不是自回归生成式神经网络130的输出层的输出的似然性分布。

特征生成神经网络140和自回归生成式神经网络130在用于前馈神经网络110的训练之前都经过了充分的训练。

下面参考图3和图4更详细地描述训练前馈生成式神经网络110。

图2是用于使用前馈生成式神经网络生成输出示例的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的神经网络系统(例如，图1的神经网络系统100)可以执行过程200。

系统接收呈调节张量形式的上下文输入(步骤202)。

系统获得用于生成输出示例的噪声(步骤204)。具体地，噪声是随机噪声向量，其包括输出示例中的样本中的每一个的噪声值。例如，系统可以从预定分布(例如，逻辑分布)中采样噪声向量中的每个噪声值。

系统使用前馈生成式神经网络处理噪声向量，以生成输出示例(步骤206)。也就是说，在神经网络以调节张量为条件的同时，系统使用前馈生成式神经网络处理噪声向量。当前馈生成式神经网络包括一系列的多个卷积层群组时，每个群组接收输入波形并将输入波形映射到定义输出波形的输出。对于第一群组，输入波形是噪声向量，对于其他群组，输入波形是由该系列中的前一群组的输出定义的波形。

图3是用于训练前馈生成式神经网络的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的神经网络系统(例如，图1的神经网络系统100)可以执行过程300。

系统获得指定经训练的自回归生成式神经网络的数据(步骤302)。

可选地，系统获得指定特征生成神经网络的数据(步骤304)。如上所述，特征生成神经网络可以是与自回归神经网络相同的网络或不同的网络。

该系统使用经训练的自回归生成式神经网络以及(可选地)经训练的特征生成神经网络来训练前馈生成式神经网络(步骤306)。

具体地，该系统训练前馈生成模型，以通过优化至少部分取决于由前馈生成模型生成的概率分布和由经训练的自回归生成式神经网络生成的概率分布之间的散度的目标函数，来根据前馈参数的初始值确定前馈参数的训练值。

在训练期间，系统在保持自回归参数的训练值固定以及(如果使用的话)特征生成参数的训练值固定的同时，调整前馈参数的值。

具体地，该系统训练前馈生成式神经网络以最小化损耗函数，该损耗函数包括散度损耗，并且可选地包括幅度损耗、感知损耗或对比损耗中的一个或多个。当损耗函数包括多个损耗时，损耗函数可以是损耗的加权和。下面将参考图4更详细地描述各个损耗。

图4是用于确定前馈参数的当前值的更新的示例过程400的流程图。为了方便，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的神经网络系统(例如，图1的神经网络系统100)可以执行过程400。

系统可以通过反复调整前馈参数的值，反复执行过程400来训练前馈生成式神经网络。

系统获得训练的上下文输入(步骤402)。例如，系统可以对一批训练的上下文输入进行采样，并且所获得的训练的上下文输入可以是该批中的输入中的一个。

该系统根据前馈参数的当前值，使用前馈生成式神经网络处理包括训练上下文输入的训练的前馈输入，以生成定义输出示例的训练的前馈输出(步骤404)。如上所述，训练的前馈输出包括生成时间步骤中的每一个的相应似然性分布的参数。

系统使用经训练的自回归生成式神经网络处理训练的上下文输入，以生成多个生成时间步骤中的每一个的相应自回归输出(步骤406)。如上所述，给定生成时间步骤的自回归输出还定义了该时间步骤的似然性分布。在每个时间步骤，系统在由前馈神经网络生成的输出示例的相对应的部分上调节自回归生成式神经网络，即，使得经训练的自回归生成式神经网络用于对由前馈神经网络生成的输出示例评分。也就是说，当生成对应于输出示例中的给定样本的自回归输出时，自回归生成式神经网络以训练的上下文输入为条件并且以输出示例中的给定样本之前的、由前馈神经网络生成的样本为条件。这在图5中以图形方式描述，并且在所附描述中更详细地描述。

该系统确定相对于前馈参数的散度损耗的梯度，即使散度损耗最小化的梯度。对于生成时间步骤中的每一个，散度损耗取决于从由自回归输出定义的、该生成时间步骤的似然性分布到由训练的前馈输出定义的、该生成时间步骤的似然性分布的散度(步骤408)。具体地，散度损耗可以是生成时间步骤中的每一个的散度的总和。该系统可以使用多种散度度量中的任何一个来度量一个概率分布与另一概率分布的发散程度。例如，散度可以是KL(Kullback-Leibler)散度。作为另一示例，散度可以是Jensen-Shannon散度。

通过最小化这种散度损耗，系统训练前馈网络去尝试在由生成式神经网络已经学习到的分布下匹配其自身样本的概率。

在采用KL散度D_KL的情况下，实际上可以通过从前馈分布和自回归分布的交叉熵H_FA减去前馈模型分布的熵H_F来计算散度损耗，D_KL＝H_FA-H_F，其中，H_F由下式给出：

对于T个样本，其中,s(z_<t,θ)是样本t的前馈模型的标准差(基于输出示例中t之前的样本的噪声值z并根据前馈参数θ的当前值生成)，并且T是输出示例中的样本的总数。交叉熵项H_FA由下式给出：

这里，对于从前馈模型分布p_F提取的每个样本x_t，可以并行地确定来自自回归模型的p_A值，并且然后对于每个时间步骤t，可以通过从p_F提取多个不同的样本x_t来评估熵项H(p_F,p_A)。

当输出示例是波形时，系统可选地还确定相对于前馈参数的幅度损耗(也称为功率损耗)的梯度，即相对于前馈参数使幅度损耗最小化的梯度(步骤410)。

具体地，为了确定这个梯度，系统获得训练的上下文输入的真值输出示例。真值输出示例是应该由自回归和前馈生成式神经网络为训练的上下文输入生成的输出示例，即训练的上下文输入的已知输出。然后，该系统生成真值训练示例的幅度谱。

该系统还根据训练的前馈输出生成预测输出示例，即，通过在生成时间步骤中的每一个处从概率分布中采样输出样本。该系统还生成预测的输出示例的幅度谱。

然后，系统确定幅度损耗的相对于前馈参数的梯度，该梯度取决于真值输出示例的幅度谱和预测的输出示例的幅度谱之间的差异，即，鼓励两个输出示例具有相似的幅度谱。例如，这可以是真值波形和预测的波形的短期傅立叶变换的平方差。包括这样的幅度损耗项可以帮助降低前馈生成模型崩溃为类似耳语的高熵模式的风险。

系统还可选地确定相对于训练的上下文输入的前馈参数的感知损耗的梯度(步骤412)。

为了确定这个梯度，系统使用经训练的特征生成神经网络处理真值输出示例以获得真值输出示例的特征，并且然后使用经训练的特征生成神经网络处理预测的输出示例以获得预测的输出示例的特征。

然后，系统确定梯度以最小化感知损耗，该感知损耗取决于真值输出示例的特征和预测的输出示例的特征之间的差异的度量。例如，当特征是尺寸为L_k x C_k的层的输出时，感知损耗loss_aux可以满足：

其中，是真值输出示例的特征，并且是预测的输出示例的特征。包括这样的感知损耗项可以帮助确保良好的特征表示，例如，特征可以包括用于识别电话以惩罚不良发音的特征。

作为另一示例，损耗可以是特征之间的欧几里德距离。

该系统还可选地确定相对于前馈参数的对比损耗的梯度(步骤414)。

为了确定这个梯度，系统获得不同的上下文输入，即，其真值输出示例与训练的上下文输入的真值输出示例不同的上下文输入。

该系统使用经训练的自回归生成式神经网络处理不同的上下文输入，以对于多个生成时间步骤中的每一个，获得相应的不同自回归输出。也就是说，系统在不同的上下文输入上调节经训练的自回归生成式神经网络，同时还继续在由前馈神经网络生成的输出样本上调节经训练的自回归生成式神经网络。

然后，系统确定相对于前馈参数的梯度，以使对比损耗最大化(或使对比损耗的负值最小化)，该对比损耗对于每个生成时间步骤来说，至少部分地取决于从由不同自回归输出定义的、该生成时间步骤的似然性分布到由训练的前馈输出定义的、该生成时间步骤的似然性分布的散度。例如，对比损耗可以是当调节向量相同时的散度损耗和当调节向量不同时的损耗之间的差异，可选地具有这些项的相对权重。像散度损耗一样，对比损耗可以是生成时间步骤中的每一个的各个散度的总和，并且散度度量可以与用于散度损耗的散度度量相同。因此，除了当前馈和自回归模型以相同的信息为条件时使散度损耗最小化之外，当模型以不同的信息为条件时对比损耗可以使散度损耗最大化。这惩罚了无论调节向量如何都具有高似然性的波形。

该系统确定前馈参数的当前值的更新(步骤416)。具体地，该系统根据散度损耗的梯度确定更新，并且当使用时，根据幅度损耗、感知损耗和对比损耗的梯度确定更新。如上所述，当使用多个损耗时，更新是损耗的加权和。

系统通常对一批训练的上下文输入中的每个训练的上下文输入重复过程400，以生成每个训练的上下文输入的当前值的相应更新，并且然后添加更新以生成最终更新。然后，系统可以使用最终更新来更新参数的当前值。系统更新当前值的方式取决于系统在更新参数时使用的优化器。例如，当使用随机梯度下降时，系统可以将学习速率应用于最终更新，并且然后将结果与参数的当前值相加或相减。

图5是用于训练前馈生成式神经网络110的自回归生成式神经网络130的图500。如图5所示，两个神经网络被配置为生成波形，并且两个神经网络的调节输入102是文本片段的语言特征。

附加地，如图5所示，两个神经网络是卷积神经网络。具体地，图5的简化示例示出了具有单个扩张卷积层群组的两个神经网络，其中，扩张在该群组中的每一层之后增加。但是，实际上，两个神经网络都可以包括一系列多个扩张卷积层群组，其中，每个群组被配置为接收输入波形并将以调节张量为条件(即以语言特征为条件)的波形转换为输出波形。具体地，两个神经网络中的卷积层具有门控激活函数，该激活函数不仅以由该层执行的卷积的输出为条件，而且还以调节张量为条件，如在https://arxiv.org/pdf/1609.03499.pdf处可获得的WAVENET:A GENERATIVE MODEL FOR RAW AUDIO描述的那样。也就是说，可以在每个群组中的最后一层之后重新设置扩张。在某些情况下，两个网络还包括从给定群组的输入到给定群组的输出的剩余连接。

一般来说，两个神经网络的架构可以大致相同。例如，两个网络可以包括相同数量的卷积层群组。然而，前馈生成式神经网络110被配置为接收噪声输入104，而自回归生成式神经网络130需要以部分生成的输出示例(图5的“生成的样本”)为条件。因此，前馈生成式神经网络110可以通过单个推理步骤生成输出示例，而自回归生成式神经网络130需要许多推理步骤来生成输出示例。

附加地，在一些实施方案中，前馈生成式神经网络110的架构与自回归生成式神经网络130的架构相比在计算方面较不复杂。例如，在两个网络具有相同数量的卷积层群组时，自回归生成式神经网络130可以具有连接每个卷积层群组的输出的跳跃连接，而前馈生成式神经网络110不具有。作为另一示例，前馈生成式神经网络110可以比自回归生成式神经网络130在网络的门控和剩余组件中具有更少的隐藏单元。

现在参考图5的示例，在前馈网络110的训练期间的给定迭代下，前馈网络110已经生成前馈输出502，前馈输出502定义了包括所生成的样本x₀至x_i的输出示例。例如，如上所述，前馈输出502对于每个输出样本可以包括输出样本的生成值和输出样本的可能值的分布的参数。作为另一示例，还如上所述，前馈输出502可以仅包括分布的参数，并且样本可以基于相对应的噪声值和参数来确定。

所生成的样本x₀至x_i-1(即，由前馈网络110生成的输出示例中x_i之前的所有样本)然后在给定的生成时间步骤处作为输入馈送到自回归网络130。在给定的生成时间步骤处，自回归网络130生成定义了输出示例中的输出样本i的可能值的似然性分布的自回归输出130。

两个概率分布(即，由前馈神经网络110生成的一个概率分布和由自回归神经网络130以由前馈神经网络110生成的输出样本为条件生成的一个概率分布)用于在不调整经训练的自回归神经网络130的情况下如上所述训练前馈神经网络110。因此，经训练的自回归神经网络130用于评估由前馈神经网络110生成的输出的质量。

本说明书中描述的主题、功能操作的实施例可以在数字电子电路系统中、有形体现的计算机软件或固件中、计算机硬件(包括本说明书中公开的结构和它们的结构等同物)中，或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以被实施为一个或多个计算机程序，即编码在有形非瞬时性程序载体上用于由数据处理装置执行或用于控制数据处理装置的操作的计算机程序指令的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以编码信息，以便于传输到合适的接收器装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储设备，或者它们中的一个或多个的组合。

术语“数据处理装置”涵括用于处理数据的各种装置、设备和机器，作为示例包括可编程处理器、计算机或多个处理器或计算机。该装置可以包括专用逻辑电路系统，例如FPGA(field programmable gate array，现场可编程门阵列)或ASIC(applicationspecific integrated circuit，专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(也可以称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释语言、声明或过程语言，并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件中(例如，存储一个或多个模块、子程序或部分代码的文件)。可以部署计算机程序以将其在一个计算机上或在位于一个站点处或分布在跨多个站点并通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行，该可编程计算机执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路系统来执行，并且装置也可以实施为专用逻辑电路系统，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适于执行计算机程序的计算机可以包括，作为示例，基于通用或专用微处理器或两者，或者任何其他类型的中央处理单元。一般而言，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。一般而言，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，或者被可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传送到一个或多个大容量存储设备，或者进行两者。然而，计算机不需要具有这样的设备。而且，计算机可以嵌入到另一设备中，例如移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器或便携式存储设备(例如通用串行总线(universal serial bus，USB)闪存驱动器)，仅举几个例子。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非-易失性存储器、介质和存储器设备，作为示例包括例如EPROM、EEPROM和闪存设备的半导体存储器设备、磁盘(例如，内部硬盘或可移动磁盘)、磁光盘、和CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或被并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备(例如CRT(cathode ray tube，阴极射线管)或LCD(liquid crystal display，液晶显示器)以及用户可以通过其向计算机提供输入的键盘和指示设备(例如，鼠标或轨迹球)。其他类型的设备也可以被用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学输入、语音输入或触觉输入。此外，计算机可以通过向用户使用的设备传送文档和从该设备接收文档来与用户交互，例如，通过响应于从web浏览器接收的请求向用户的用户端设备上的web浏览器传送网页。

本说明书中描述的主题的实施例可以在计算系统中实施，该计算系统包括例如作为数据服务器的后端组件、或者包括中间件组件(例如应用服务器)、或者包括前端组件(例如，具有用户可以通过其与本说明书中描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机)或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(local area network，LAN)、广域网(wide area network，WAN)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系由于在各个计算机上运行并且彼此具有的客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多具体的实施细节，但这些不应被解释为对任何发明的或所要求保护的范围的限制，而是作为对特定于特殊发明的特殊实施例的特征的描述。本说明书中在分离的实施例中的上下文中描述的某些特征也可以在单一实施例中以组合的方式实施。相反，在单一实施的上下文中描述的各种特征也可以被分开地在多个实施例中或在任何合适的子组合中实施。而且，尽管以上可以将特征描述为以某些组合起作用并且甚至由此最初要求保护这些特征，但是在某些情况下来自要求保护的组合的一个或多个特征可以从该组合中删去，并且要求保护的组合可以涉及子组合或子组合的变体。

类似地，虽然在附图中以特殊的顺序描绘了操作，但是这不应该被理解为要求以所示的特殊的顺序或按顺次的顺序来执行这些操作、或者执行所有示出的操作以实现期望的结果。在某些情况下，多任务处理和并行处理可以是有利的。而且，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解的是，描述的程序组件和系统总体上可以在单一软件产品中集成在一起或者被打包到多个软件产品当中。

已经描述了主题的特定实施例。其他实施例在以下权利要求的范围内。例如，权利要求中列举的动作可以以不同的顺序执行，并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定要求所示的特殊的顺序或顺次的顺序来实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种训练前馈生成式神经网络的方法，所述前馈生成式神经网络具有多个前馈参数，并且被配置为生成以第二类型的上下文输入为条件的第一类型的输出示例，

其中，每个输出示例包括在多个生成时间步骤中的每一个生成时间步骤处的相应的输出样本，

其中，所述前馈生成式神经网络被配置为接收包括上下文输入的前馈输入，并被配置为处理所述前馈输入以生成前馈输出，对于所述生成时间步骤中的每一个生成时间步骤，所述前馈输出定义在所述生成时间步骤处的输出样本的可能值的相应的似然性分布。

其中，所述训练包括：

获得训练上下文输入；

根据所述前馈参数的当前值，使用所述前馈生成式神经网络处理包括所述训练上下文输入的训练的前馈输入，以生成训练的前馈输出。

使用经训练的自回归生成式神经网络处理所述训练的上下文输入，

其中，对于所述多个生成时间步骤中的每一个生成时间步骤，所述经训练的自回归生成式神经网络已被训练为自回归地生成自回归输出，所述自回归输出定义在所述生成时间步骤处的以前一生成时间步骤处的输出样本为条件的输出样本的可能值的似然性分布；

确定相对于所述前馈参数的第一梯度以使散度损耗最小化，对于所述生成时间步骤中的每一个生成时间步骤，所述散度损耗取决于来自由所述自回归输出定义的、所述生成时间步骤的似然性分布和由所述训练的前馈输出定义的、所述生成时间步骤的似然性分布的第一散度；以及

至少部分地基于所述第一梯度确定对所述前馈参数的当前值的更新。

2.根据权利要求1所述的方法，其中，所述前馈输入还包括在所述生成时间步骤中的每一个生成时间步骤处的相应的噪声输入。

3.根据权利要求1或2中任一项所述的方法，其中，所述训练还包括：

获得所述训练的上下文输入的真值输出示例；以及

通过从所述概率分布采样来根据所述训练的前馈输出生成预测的输出示例。

4.根据权利要求3所述的方法，其中，所述真值输出示例和所述预测的输出示例是语音波形，其中，所述训练还包括：

生成所述真值输出示例的第一幅度谱；

生成所述预测的输出示例的第二幅度谱；

确定相对于所述前馈参数的第二梯度，以使取决于所述第一幅度谱和所述第二幅度谱之间的差异的幅度损耗最小化，并且其中，确定对所述前馈参数的当前值的更新包括至少部分地基于所述第二梯度确定更新。

5.根据权利要求3至4中任一项所述的方法，其中，所述训练还包括：

使用经训练的特征生成神经网络处理所述真值输出示例，以获得所述真值输出示例的特征，其中，所述经训练的特征生成神经网络是以波形为输入的经预先训练的神经网络；

使用所述经训练的特征生成神经网络处理所述预测的输出示例，以获得所述预测的输出示例的特征，

确定相对于所述前馈参数的第三梯度，以使取决于所述真值输出示例的特征和所述预测的输出示例的特征之间的差异的度量的感知损耗最小化，并且其中，确定对所述前馈参数的当前值的更新包括至少部分地基于所述第三梯度确定更新。

6.根据权利要求5所述的方法，其中，所述特征生成神经网络是语音识别神经网络。

7.根据权利要求5或6中任一项所述的方法，其中，所述特征是所述特征生成网络中的中间层的输出。

8.根据权利要求5至7中任一项所述的方法，其中，所述特征生成神经网络是经训练的自回归生成式神经网络。

9.根据权利要求1至8中任一项所述的方法，其中，所述训练还包括：

获得不同的上下文输入；

使用所述经训练的自回归生成式神经网络处理所述不同的上下文输入，以获得所述多个生成时间步骤中的每一个生成时间步骤的相应的不同自回归输出；以及

确定相对于所述前馈参数的第四梯度，以使对比损耗最大化，对于所述生成时间步骤中的每一个生成时间步骤，所述对比损耗至少部分地取决于来自由所述不同的自回归输出定义的、所述生成时间步骤的似然性分布和由所述训练的前馈输出定义的、所述生成时间步骤的似然性分布的第二散度，并且其中，确定对所述前馈参数的当前值的更新包括至少部分地基于所述第四梯度来确定更新。

10.根据权利要求1至9中任一项所述的方法，其中，所述第一散度是KL散度。

11.根据权利要求1至9中任一项所述的方法，其中，所述第一散度是Jensen-Shannon散度。

12.根据权利要求1至11中任一项所述的方法，其中，所述散度损耗至少部分地取决于所述时间步骤中的每一个时间步骤处的所述第一散度的总和。

13.一种生成输出示例的方法，所述方法包括：

接收上下文输入；以及

通过使用前馈生成式神经网络处理包括所述上下文输入的前馈网络输入来生成输出示例，所述前馈生成式神经网络已经使用根据权利要求1至12中任一项所述的方法进行训练。

14.根据权利要求13所述的方法，其中，所述前馈网络输入还包括噪声输入。

15.一种方法，包括：

接收生成波形的请求，所述波形包括以调节张量为条件的多个样本，所述调节张量表示文本输入的特征；

获得随机噪声向量，所述随机噪声向量包括所述多个样本中的每个样本的噪声值；

使用前馈生成式神经网络处理所述随机噪声向量以生成所述波形，其中，所述前馈生成式神经网络包括一系列卷积神经网络层群组，其中，每个群组以所述调节张量为条件，并且其中，每个群组被配置为接收输入波形，并将以所述调节张量为条件的波形转换成输出波形。

16.根据权利要求15所述的方法，其中，所生成的波形是最后一个卷积神经网络层群组的输出。

17.根据权利要求15或16中任一项所述的方法，其中，第一卷积神经网络层群组的输入波形是所述随机噪声向量。

18.根据权利要求15至17中任一项所述的方法，其中，除第一群组之外的每个卷积神经网络层群组的输入波形是紧接在所述群组之前的群组的输出波形。

19.根据权利要求15至18中任一项所述的方法，其中，所述前馈生成式神经网络生成输出，所述输出定义所述多个样本中的每一个样本的可能值的相应的概率分布，并且其中，所述处理还包括使用相应的概率分布为所述样本中的每一个样本选择值。

20.根据权利要求15至19中任一项所述的方法，其中，每个卷积层群组包括一个或多个残差块，所述一个或多个残差块各自包括一个或多个扩张卷积层。

21.根据权利要求15至19中任一项所述的方法，其中，所述前馈生成式神经网络已经使用根据权利要求1至12中任一项所述的方法进行训练。

22.存储指令的一个或多个计算机存储介质，当所述指令由一个或多个计算机实施时使得所述一个或多个计算机执行根据权利要求1至21中任一项所述的相应方法的操作。

23.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机实施时使得所述一个或多个计算机执行根据权利要求1-21中任一项所述的相应方法的操作。