CN113313183A

CN113313183A - 通过使用能量分值来训练语音合成神经网络

Info

Publication number: CN113313183A
Application number: CN202110631060.3A
Authority: CN
Inventors: 蒂姆·萨利曼斯; 阿列克谢·阿莱克谢耶维奇·格里岑科
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-06-05
Filing date: 2021-06-07
Publication date: 2021-08-27
Also published as: US12073819B2; US20210383790A1

Abstract

本公开涉及通过使用能量分值来训练语音合成神经网络。方法、系统和装置，包括被编码在计算机存储介质上的计算机程序，用于训练生成性神经网络，以通过使用能量分值而将条件文本输入转换为音频输出。

Description

通过使用能量分值来训练语音合成神经网络

相关申请的交叉引用

本申请要求于2020年6月5日提交的美国临时申请No. 63/035,553的优先权。该在先申请的公开内容被认为是本申请的公开内容的一部分，并且通过引用并入本申请的公开内容中。

技术领域

本申请与训练神经网络有关。

背景技术

神经网络是其中采用一个或多个非线性单元层来针对所接收的输入而预测输出的机器学习模型。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作在所述网络中的一个或多个其他层(即一个或多个其他隐藏层、输出层、或两者)的输入。所述网络的每个层根据相应参数集的当前值，由所接收的输入来生成输出。

发明内容

本说明书描述了一种被实施为在一个或多个位置中的一台或多台计算机上计算机程序的系统，该系统训练被配置为生成输出音频数据的神经网络。

在一些实施方式中，输出音频数据是包括在输出时间步序列的每一个处的音频波样本的输出音频示例。在给定时间步处的音频样本可以是音频波的幅度值，也可以是压缩或压扩的幅度值。

在一些其他实施方式中，输出音频数据是用于表示音频示例的频谱图。在这些实施方式中，在推断时，系统可以处理所生成的频谱图以生成相应的音频示例。例如，系统可以通过对生成的频谱图应用逆频谱图变换，将生成的频谱图线性地投影到波形空间。

本说明书中描述的主题可以在特定实施例中实施，以便实现以下优点中的一个或多个。

一些现有的语音合成系统依赖于对抗训练，即训练系统并行地训练语音合成神经网络和一个或多个鉴别器。这些生成性对抗网络可能难以训练，并且需要许多训练时期(epoch)才能收敛。使用能量分值来确定参数更新，如本说明书中所述，允许了系统实现稳定训练和快速收敛。

本说明书中描述的前馈生成性神经网络可以比依赖自回归生成性神经网络(例如WaveNet)的现有技术更快地生成输出示例，这对于其中快速批量推理很重要的应用来说很重要。自回归神经网络通过在每个输出时间步执行前向传递，来生成跨多个输出时间步的输出示例。在给定的输出时间步，自回归神经网络生成新的输出样本，以被包含在以已被生成的输出样本为条件的输出示例中。这会消耗大量计算资源并花费大量时间。另一方面，前馈生成性神经网络可以在单次前向传递中生成输出示例，同时保持生成的输出示例的高质量。相对于有多少时间被自回归神经网络所消耗，这大大减少了生成所述输出示例所需的时间和计算资源量。

其他现有技术依赖于可逆前馈神经网络，该网络通过使用概率密度来蒸馏(distilling)自回归模型而被训练(例如Parallel WaveNet)。以这种方式训练允许可逆前馈神经网络生成听起来逼真(realistic)并且对应于输入文本的语音信号，而无需对数据中发生的每个可能的变化进行建模。如在本说明书中描述的前馈生成性神经网络还可以生成忠实于输入文本的逼真音频样本，而无需对所述音频数据的数据分布进行显式建模，但在模型大小和训练时间两方面都可以更有效地做到这一点，并且不需要可逆前馈神经网络的蒸馏和可逆性要求。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。本主题的其他特征、方面和优点根据说明书、附图和权利要求将变得显而易见。

附图说明

图1是用于训练生成性神经网络的示例性训练系统的图。

图2是示出所述训练过程的图。

图3是用于训练生成性神经网络的示例性过程的流程图。

各个附图中相同的附图标记和名称表示相同的元件。

具体实施方式

本说明书描述了一个系统，该系统训练生成性神经网络，以通过使用条件文本输入来生成输出音频数据。该系统可以通过使用能量分值来训练生成性神经网络，如下文将更详细地描述。

图1是用于训练生成性神经网络110的示例性训练系统100的图。训练系统100是在一个或多个位置的一台或多台计算机上实施为计算机程序的系统的示例，其中，可以实施下文所述的系统、组件和技术。

训练系统100包括生成性神经网络110、能量分值生成系统120 和参数更新系统130。

训练系统100被配置为训练生成性神经网络110，以接收条件文本输入102并且处理所述条件文本输入102以生成音频输出112。在一些实施方式中，生成性神经网络110是前馈神经网络，即，生成性神经网络110在单次前向传递中生成所述音频输出112。

条件文本输入102表征输入文本，并且音频输出112描绘对应于输入文本的语音。

在一些实施方式中，条件文本输入102包括输入文本本身，例如输入文本的字符级或词级嵌入。替代地或附加地，条件文本输入可以包括用于表征文本输入的语言特征。例如，条件文本输入可以包括针对在输入时间步序列中的每个输入时间步的相应语言特征向量。作为特定示例，每个输入时间步的语言特征可以包括在所述输入时间步处的文本的i)音素和ii)持续时间。所述语言特征还可以包括音高信息；例如，音高可以由所述输入时间步的对数基频log F₀来表示。

生成性神经网络110还将噪声输入104接收为输入。

例如，可以从预定分布(例如正态分布)中随机采样所述噪声输入104。噪声输入104可以确保音频输出112的可变性。

在一些实施方式中，生成性神经网络110还可以将音频输出112 应该所属的类106的标识接收为输入。类106可以是一组可能的类的成员。例如，类106可以对应于音频输出112应当听起来像的特定说话者。即，音频输出112可以描绘说出所述输入文本的特定说话者。

通常，音频输出112(也被称为“输出音频数据”)表征音频，即语音，其中，由条件文本输入102表征的输入文本正在由说话者说出。

在一些实施方式中，输出音频数据112是输出音频示例，其包括在一系列输出时间步中的每一个处的音频波的音频样本。在给定输出时间步处的音频样本可以是音频波的幅度值或者压缩或压扩的幅度值。

在一些其他实施方式中，输出音频数据112是用于定义用于表示音频示例的频谱图的数据，即，用于指定被应用于音频示例的短时傅立叶变换(STFT)的幅度分量的数据。

在这些实施方式中，在推断时，系统100可以处理生成的频谱图以生成相应的音频示例。例如，系统可以通过向所生成的频谱图应用逆频谱图变换，而将所生成的频谱图线性投影到波形空间，来生成音频示例。

生成性神经网络110可以具有任何合适的神经网络架构。

作为特定示例，生成性神经网络110可以包括卷积神经网络层组 (被称为“生成器块”)的序列。在该生成器块序列中的第一个生成器块可以将条件文本输入(或条件文本输入的嵌入)接收为输入，并生成块输出。在所述生成器块序列中的每个后续生成器块都可以将由所述生成器块序列中的前一个生成器块生成的块输出接收为输入，并且生成后续块输出。

在下文中，将参考图2更详细地描述生成性神经网络110的示例性架构。

为了训练生成性神经网络110，系统100通过使用从一组训练数据采样的小批量训练示例，来重复地更新神经网络110的参数的值。

每个小批量包括一个或多个训练示例，每个训练示例又包括训练条件文本输入102和真值(ground-truth)音频输出108。

从下文的描述中可以明显看出，真值音频输出108可以是(i) 音频示例，其包括音频波的样本序列并且表示用于表征正由说话者说出的训练条件文本输入102的输入文本，或(ii)所述音频示例的频谱图，其表示用于表征正由说话者说出的训练条件文本输入102的输入文本。

在训练期间，系统100通过使用神经网络110，多次处理在每个训练示例中的条件文本输入102，每次生成相应的预测音频输出112。

特别地，系统100针对每个训练示例采样多个噪声输入104，例如z～N(0,I_d)，其中I是大小为d的单位矩阵。在一些实施方式中，系统100通过使用潜变量截断，对噪声输入进行采样。即，系统100对初始噪声输入进行采样，并且对于所述噪声输入中的绝对值超过特定阈值的每个元素，重新采样该元素以确保每个元素的幅值低于特定阈值，从而有效地截断分布以具有等于所述特定阈值的最大绝对值。

对于每个噪声输入104，然后，系统通过使用神经网络110来处理条件文本输入102和噪声输入104，以生成相应的音频输出112。因为噪声输入104通常会由于它们是来自相同分布的不同样本而不同，即使使用相同的条件文本输入102生成音频输出，相应的音频输出112通常也会不同。

然后，能量分值生成系统120通过使用用于训练示例的多个音频输出112和在所述训练示例中的真值输出108，来对小批量中的每个训练示例生成估计的能量分值122，并且将所述估计的能量分值122提供给参数更新系统130。

在下文中，将参考图2和3更详细地描述生成估计的能量分值。

参数更新系统130可以获得由能量分值生成系统120生成的估计能量分值122，并且根据用于表征跨在该小批量中的各训练示例的组合能量分值(例如，作为估计的能量分值122的总和或平均值)的损失函数来确定参数更新132。特别地，系统130可以关于损失函数的神经网络110的参数来计算梯度，然后将适当的优化器应用于该梯度，例如Adam优化器、rmsProp优化器、Adafactor优化器和SGD优化器等等，以确定参数更新132。

在一些实施方式中，损失函数还包括通过使用系统110的其他组件所生成的一个或多个其他项。例如，损失函数还可以包括其中使用一个或多个鉴别器神经网络的一个或多个对抗性损失项，该鉴别器神经网络试图预测所述音频输出112是来自训练数据的真值音频输出还是已经由神经网络110生成的输出。

训练系统100可以通过例如从所述参数的当前值添加或减去更新 132，来将参数更新132应用于所述生成性神经网络110的参数。

通过以这种方式重复地更新所述参数，训练系统100训练神经网络110，即确定所述神经网络110的参数的训练值，使得神经网络110 生成听起来逼真并准确地合成来自输入文本的语音的输出示例(或生成可以被用来生成输出示例的直方图)。

图2是示出神经网络110的训练的图。

特别地，图2图示了在包括训练条件文本输入c 102和真值音频输出x 108的训练示例上训练所述神经网络110(“模型f_θ”)。在图2的示例中，真值音频输出x直接定义了波形210，即，是音频波的样本序列。

在一些实施方式中，系统从训练数据中随机均匀地对训练示例进行采样。在一些其他实施方式中，系统以与训练示例的长度成比例的概率，从训练数据集采样训练示例。在一些实施方式中，系统仅处理采样的完整训练示例的一部分；即，系统将训练示例确定为较大的条件文本输入的固定大小子序列和针对较大的条件文本输入的真值音频输出的对应子序列。

在图2的示例中，系统对两个噪声输入进行采样，即：第一噪声输入z 220和第二噪声输入z′230。

然后，系统根据所述参数的当前值，通过使用神经网络110，来处理包括训练条件文本输入c和第一噪声输入z的第一训练生成性输入，以生成第一预测音频输出y 240，并且根据所述参数的当前值，通过使用神经网络110，来处理包括训练条件文本输入c和第二噪声输入z′ 的第二训练生成性输入，以生成第二预测音频输出y′250。

在一些实施方式中，例如，当音频输出是音频示例时，神经网络 110包括多个一维卷积神经网络层。例如，神经网络可以包括一个或多个“G块”，每个G块都包括增加扩张率的多个卷积神经网络层，如在 “High Fidelity Speech Synthesis with AdversarialNetworks”(使用对抗网络的高保真语音合成)中所述的，

等人，(arXiv：1909.11646)。在一些实施方式中，每个G块包括一个或多个最近邻上采样层和一个或多个条件批量归一化层，例如，以采样噪声嵌入为条件的条件批量归一化层。

在一些实施方式中，神经网络包括一个或多个滤波器响应归一化 (FRN)层，每个层将具有时间维度为t和c个通道的序列

作为输入，并且通过计算下述公式，来输出序列

其中，

和

是学习到的向量，∈是正标量，以及

是阈值。

在一些实施方式中，一个或多个特定FRN层以采样噪声输入为条件。例如，对于每个特定的FRN层，该层的参数γ和β可以是相应噪声嵌入的学习到的线性函数，即在神经网络训练期间被联合学习到的函数。作为特定的示例，对于每个特定的FRN层，可以通过对噪声输入z～N(0，I_d)进行采样并且计算以下内容来确定参数γ和β：

γ＝W_γz+(b_γ+1)

β＝W_βz+b_β

其中，

和

是特定于所述特定FRN层的。

在一些其他实施方式中，例如，当音频输出指定频谱图时，神经网络110包括内核大小为1的一维卷积，其用于将条件文本输入投影到每个小块的相应投影向量，其中，每个小块对应于预定数量的输入时间步。然后，将投影向量送入一堆瓶颈ResNet块。每个ResNet块由对于512个通道的内核大小为1的卷积、在512通道处的内核大小为5的2个卷积、然后是到固定数量的通道的投影组成。在卷积之间，神经网络110使用条件批量归一化来以噪声向量和可选的类输入为条件。

在ResNet块之后，神经网络110将输出向下投影到每个小块 240维。在这些维度中，一个维度用于以指数方式缩放剩余的239个特征。然后将(在缩放后的)剩余的239个特征解释为具有窗口大小 240和帧步长120的STFT的非冗余元素，即作为用于指定所述频谱图的音频输出。然后可以通过使用线性逆STFT变换，来将这些239 个特征投影到波形空间以生成波形。

在一些实施方式中，神经网络并行地生成所述多个预测音频输出中的每一个。

在神经网络生成多个不同的预测音频输出之后，系统可以确定用于表征在真值音频输出x与多个预测音频输出y和y′之间的距离的估计能量分值。

即，能量分值表征了在由真值音频输出表示的目标分布p与神经网络的生成性模型的估计分布q之间的相似性。在“Strictly Proper Scoring Rules,Prediction,andEstimation”(严格正确的评分规则、预测和估计),Gneiting等人(DOI:10.1198/016214506000001437)中更详细地讨论了能量分值和示例。

为了确定估计的能量分值，系统可以对于多个预测音频输出中的第一预测音频输出，i)根据距离度量来计算在第一预测音频输出和真值音频输出之间的距离；以及ii)根据所述距离度量来计算在第一预测音频输出和所述多个预测音频输出中的第二预测音频输出之间的距离。

估计能量分值的一个示例是：

2d(x_i,y_i)-d(y_i,y′_i)

其中，d是距离度量，x_i是真值音频输出，y_i是第一预测音频输出，以及y_i'是第二预测音频输出。

因为当在真值输出和第一预测音频输出之间的距离较大时，估计的能量分值较大，所以用于测量该距离的项可以被称为“吸引性”项260，因为将基于该估计能量分值的损失函数最小化会鼓励在真值和第一预测音频输出之间的距离更小。

因为当在第二预测音频输出和第一预测音频输出之间的距离较大时估计的能量分值较小，所以用于测量该距离的项可以被称为“排斥性” 项270，因为将基于该估计能量分值的损失函数最小化会鼓励在第一和第二预测输出之间的距离更大。

在损失中包括该排斥性项会鼓励多样化的样本并提供统计一致性保证。换句话说，排斥性项的存在对于损失成为用于学习音频给定语言特征的条件分布的适当评分规则是必要的，并且防止生成的样本在没有捕获可以对应于给定输入文本的可能样本的完整分布的情况下崩溃到单个点。

在一些实施方式中，系统通过组合每个训练示例的相应能量分值，通过使用小批量训练示例来确定对神经网络的参数的当前值的更新。例如，系统可以计算损失函数：

其中，M是小批量中的训练示例的数量。

在一些实施方式中，损失函数还包括通过使用系统的其他组件所生成的一个或多个其他项。例如，损失函数还可以包括一个或多个对抗性损失项，所述对抗性损失项使用一个或多个鉴别器神经网络，所述鉴别器神经网络试图预测所述音频输出是来自训练数据的真值音频输出、还是由神经网络110生成的输出。

通常，距离度量是负定的，这使得估计的能量分值成为“适当的评分规则”，即当q＝p时，将最小化所述估计的能量分值。例如，距离度量可以采用

的形式。如果α∈(0,2]且β∈(0,α]，那么估计的能量分值将是适当的评分规则。具有适当的评分规则的损失已被证明会得出统计上一致的学习方法并且能够从外部的小批量来计算，从而提高训练稳定性和得到更高质量的结果模型。

在一些实施方式中，距离函数d是对频谱图进行操作的频谱图距离函数，即，其测量在两个频谱图之间的距离。

特别地，在这些实施方式中，距离函数将在两个音频输出之间的距离测量为在对应于两个音频输出的频谱图之间的距离。

当音频输出指定频谱图时，与音频输出相对应的频谱图是由所述音频输出指定的频谱图。

当音频输出为音频示例时，与音频输出相对应的频谱图为由所述系统从所述音频输出(即从所述音频示例)生成的频谱图。即，系统可以首先生成对应于每个预测音频输出和真值音频输出的频谱图，并且在所生成的频谱图上计算所述距离函数。

即，虽然图2的示例示出了真值输出x和预测输出y和y′是波形，然后将它们转换为相应的频谱图，但在一些其他示例中，真值输出、预测输出、或两者都是频谱图，因此确实需要被转换。

系统可以通过使用任何适当的技术来确定音频示例的频谱图。然而，作为特定示例，系统可以使用具有Hann窗口的过完备傅立叶基来确定所述频谱图。

特别地，在一些实施方式中，系统可以通过对于每个频谱图窗口长度k，i)将音频输出裁剪为长度

以生成裁剪的音频输出；以及ii)确定裁剪后的音频输出的频谱图，来确定长度为N的音频输出x的频谱图。

所述系统可以使用各种频谱图距离度量中的任何一个来计算在音频输出之间的距离。

例如，频谱图距离度量可以是一个或多个距离函数的线性组合，每个距离函数的形式为

或

其中，x_i是第一音频输出，x_j是第二音频输出，以及s(x)是x的频谱图。如上所述，如果α∈(0，2]且β∈(0，α]，那么估计的能量分值是合适的评分规则。

作为具体的示例，频谱图距离度量可以是：

其中，k是频谱图的特定窗口长度，K是频谱图的窗口长度的集合， t是频谱图的时间点，

是在时间点t处的具有窗口长度k的音频输出x的频谱图的值，以及α_k是学习到的或预定的权重值。

作为另一个具体示例，频谱图距离度量可以是：

频谱图K的窗口长度的集合可以是几何间隔的窗口长度序列，例如2的幂序列。作为特定示例，K＝[2⁶，...，2¹¹]。

图3是用于训练生成性神经网络的示例性过程300的流程图。为方便起见，过程300将被描述为由位于一个或多个位置的一台或多台计算机的系统执行。例如，根据本说明书适当编程的训练系统(例如图1所示的训练系统100)可以执行过程300。

所述系统获得训练示例，该训练示例包括条件文本输入和用于训练示例的真值音频输出(步骤302)。训练条件文本输入可以包括在多个输入时间步中的每一个处的相应语言特征表示。例如，在每个输入时间步处的语言特征表示可以包括在该时间步处的音素、持续时间和对数基频。

系统通过使用生成性神经网络来处理在训练示例中的多个训练生成性输入，每个训练生成性输入包括训练条件文本输入，以生成用于所述训练示例的多个训练音频输出(步骤304)。

系统根据生成性神经网络的参数的当前值来生成训练音频输出。每个训练音频输出可以包括在多个输出时间步的每一个处的相应音频样本，或者可以指定音频示例的频谱图。

特别地，每个训练生成输入还包括噪声输入。该系统可以对多个不同的噪声输入进行采样，并且对于每个噪声输入，处理包括所述噪声输入和所述训练条件文本输入的训练生成输入，以生成相应的训练输出。

在一些实施方式中，生成输入还包括所述输出波应当所属的类的标识。在一些这样的实施方式中，在神经网络中的一层或多层进一步以所述类的标识为条件。

系统通过使用在训练示例中的真值音频输出和用于所述训练示例的多个训练音频输出，来确定用于所述训练示例的估计能量分值(步骤306)。如上所述，估计的能量分值表征在真值音频输出与多个预测音频输出之间的距离，并且至少基于(i)根据距离度量的在多个输出的第一预测音频输出与真值输出之间的距离，以及(ii)根据所述距离度量的在第一预测音频输出和第二预测音频输出之间的距离。

系统根据估计的能量分值来确定对参数当前值的更新(步骤308)。例如，系统可以对小批量中的每个训练示例来确定估计能量分值，然后通过计算用于测量用于所述训练示例的组合能量分值(例如，用于训练示例的能量分值的和或平均值)的损失函数的梯度来确定所述更新。然后，系统可以将优化器应用于该梯度，以确定对所述参数的当前值的更新。

本说明书连同系统和计算机程序组件一起使用术语"被配置"。对于要被配置成执行特定操作或动作的一个或多个计算机的系统，意指所述系统已在其上安装了在操作中使该系统执行这些操作或动作的软件、固件、硬件、或软件、固件、硬件的组合。对于要被配置成执行特定操作或动作的一个或多个计算机程序，意指该一个或多个程序包括指令，所述指令当由数据处理装置执行时，使该装置执行所述操作或动作。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形地实现的计算机软件或固件、包括本说明书中公开的结构及其结构等同物的计算机硬件、或者它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以被实施为一个或多个计算机程序，即，在有形非暂时性存储介质上编码以供数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储设备、或它们中的一个或多个的组合。替换地或附加地，程序指令可以被编码在人工生成的传播信号上，所述传播信号例如是机器生成的电、光或电磁信号，该传播信号被生成来对信息进行编码以用于传输到适合的接收器装置以供数据处理装置执行。

术语"数据处理装置"指代数据处理硬件并且包含用于处理数据的所有种类的装置、设备和机器，作为示例包括可编程处理器、计算机、或多个处理器或计算机。所述装置还可以是或者进一步包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。所述装置除了包括硬件之外还可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一个或多个的组合的代码。

也可以被称为或者描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码的计算机程序，可以用包括编译或解释语言或声明或过程语言的任何形式的编程语言编写；并且它可以被以任何形式部署，包括作为独立程序或者作为模块、组件、子例行程序或适合于在计算环境中使用的其它单元。程序可以但是不是必需对应于文件系统中的文件。程序可以被存储在用于保持其它程序或数据的文件的一部分中，例如存储在标记语言文档中的一个或多个脚本；在专用于所讨论程序的单个文件中或者在多个协调文件中，例如用于存储代码的一个或多个模块、子程序或部分的文件。可以将计算机程序部署成在一个计算机上、或者在位于一个站点处或者分布在多个站点上并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语"数据库"广泛地用于指代任何数据集：所述数据不需要被以任何特定方式构造，或者根本不被构造，并且它可被存储在一个或多个位置中的存储设备上。因此，例如，索引数据库可包括多个数据集，其中的每一个可以被不同地组织和访问。

类似地，在本说明书中术语"引擎"广泛地用于指代被编程来执行一个或多个具体功能的基于软件的系统、子系统或过程。通常，引擎将被实施为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定引擎；在其它情况下，可以在同一计算机或多个计算机上安装并运行多个引擎。

本说明书中描述的过程和逻辑流程可以由用于执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。所述过程和逻辑流程还可以由例如是FPGA 或ASIC的专用逻辑电路执行，或者通过专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机可以基于通用微处理器或专用微处理器或两者、或任何其它种类的中央处理器。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储设备。中央处理单元和存储器可以由专用逻辑电路补充或者并入在专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者操作上被耦合以从所述一个或多个大容量存储设备接收数据、或者将数据传送到所述一个或多个大容量存储设备、或者两者。然而，计算机不是必需具有这样的设备。此外，计算机可以被嵌入在另一设备中，所述另一设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制器、全球定位系统(GPS)接收器、或便携式存储设备，例如通用串行总线(USB)闪存驱动器等。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，作为示例包括：半导体存储设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。

为了提供与用户的交互，可以在计算机上实施本说明书中描述的主题的实施例，所述计算机具有用于向用户显示信息的显示设备以及用户可用来向该计算机提供输入的键盘和定点设备，所述显示设备例如是CRT(阴极射线管)或LCD(液晶显示器)监视器，所述定点设备例如是鼠标或轨迹球。其它种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声、语音或触觉输入。此外，计算机可以通过向由用户使用的设备发送文档并从由用户使用的设备接收文档，来与用户交互；例如，通过响应于从web浏览器接收到请求而向在用户的设备上的web浏览器发送网页。另外，计算机可以通过向个人设备发送文本消息或其它形式的消息、并且继而从用户接收响应消息，来与用户交互，所述个人设备例如是正在运行消息传送应用的智能电话。

用于实施机器学习模型的数据处理装置还可以包括例如用于处理机器学习训练或生产(即推理、工作负载)的公共和计算密集部分的专用硬件加速器单元。

可以通过使用机器学习框架来实施和部署机器学习模型。所述机器学习框架例如是TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或ApacheMXNet框架。

本说明书中描述的主题的实施例可以被实施在计算系统中，所述计算系统包括后端组件，例如作为数据服务器；或者包括中间件组件，例如应用服务器；或者包括前端组件，例如具有用户可用来与本说明书中描述的主题的实施方式进行交互的图形用户界面、web浏览器或 app的客户端计算机；或者包括一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过例如通信网络的任何形式或介质的数字数据通信来互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离并通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器向用户设备传输例如HTML页面的数据，例如以用于向与作为客户端的设备进行交互的用户显示数据并从该用户接收用户输入的目的。可以在服务器处从用户设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体实施方式细节，但是这些不应该被解释为对任何发明的或可能要求保护的范围的限制，而是相反地被解释为对可能特定于特定发明的特定实施例的特征的描述。也可以在单个实施例中组合地实施在本说明书中在分开的实施例的上下文中描述的某些特征。相反地，也可以分开地或者按照任何适合的子组合在多个实施例中实施在单个实施例的上下文中描述的各种特征。此外，尽管特征可能在上面被描述按照某些组合起作用并且甚至最初被如此要求保护，但是来自要求保护的组合的一个或多个特征可以在一些情况下被从该组合中除去，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然按照特定次序在附图中描绘并在权利要求书中记载操作，但是这不应该被理解为要求按照所示的特定次序或者以顺序次序执行这样的操作，或者要求执行所有图示的操作以实现所预期的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这样的分离，并且应该理解的是，所描述的程序组件和系统一般地可被一起集成在单个软件产品中或者包装到多个软件产品中。

已经描述所述了主题的特定实施例。其它实施例在所附权利要求的范围内。例如，权利要求中记载的动作可被以不同的次序执行并仍然实现所预期的结果。作为一个示例，附图中描绘的过程不一定要求所示的特定次序或顺序次序以实现所预期的结果。在一些情况下，多任务处理和并行处理可以是有利的。

Claims

1.一种用于训练神经网络的方法，所述神经网络具有多个参数并且被配置为通过使用条件文本输入来生成用于定义音频示例的音频输出，

其中，所述神经网络被配置为接收包括条件文本输入和噪声输入的生成性网络输入，并且处理所述生成性网络输入以生成音频输出，所述音频输出包括在多个输出时间步的每一个处的相应音频样本，以及

其中，所述训练包括：

获得训练示例，所述训练示例包括训练条件文本输入和相应的真值(ground-truth)音频输出；

通过对多个噪声输入中的每一个噪声输入，根据所述多个参数的当前值使用所述神经网络处理包括所述训练条件文本输入和所述噪声输入的训练生成性输入以生成相应的预测音频输出，来生成用于所述训练示例的多个预测音频输出；

确定用于表征在所述真值音频输出和所述多个预测音频输出之间的距离的估计能量分值，包括：

对于所述多个预测音频输出中的第一预测音频输出，根据距离度量来计算在所述第一预测音频输出与所述真值音频输出之间的距离；和

对于所述第一预测音频输出以及所述多个预测音频输出中的第二预测音频输出，根据所述距离度量，来计算在所述第一预测音频输出和所述第二预测音频输出之间的距离；以及

根据所述估计能量分值，确定对所述多个参数的当前值的更新。

2.如权利要求1所述的方法，其中，所述估计能量分值等于：

2d(x_i,y_i)-d(y_i,y′_i)，

其中，d是所述距离度量，x_i是所述真值音频输出，y_i是所述第一预测音频输出，以及y_i'是所述第二预测音频输出。

3.如权利要求2所述的方法，其中，根据所述估计能量分值确定对所述多个参数的当前值的更新包括：根据用于表征跨多个训练示例的组合能量分值的损失函数来确定所述更新，其中，所述损失函数为：

其中，M是训练示例的数量。

4.如权利要求1所述的方法，其中，所述距离度量是负定的。

5.如权利要求1所述的方法，其中，计算在第一音频输出和第二音频输出之间的距离包括：

根据频谱图距离度量，计算在对应于所述第一音频输出的频谱图和对应于所述第二音频输出的频谱图之间的距离。

6.如权利要求5所述的方法，其中，所述频谱图距离度量是一个或多个距离函数的线性组合，所述一个或多个距离函数中的每一个的形式是

或

其中，x_i是所述第一音频输出，x_j是所述第二音频输出，以及s(x)是x的频谱图。

7.如权利要求6所述的方法，其中，α∈(0,2]以及β∈(0,α]。

8.如权利要求7所述的方法，其中，所述频谱图距离度量为：

其中，k是频谱图的特定窗口长度，K是频谱图的窗口长度的集合，t是频谱图的时间点，

是在时间点t处具有窗口长度k的音频输出x的频谱图的值，以及α_k是学习到的或预定的权重值。

9.如权利要求7所述的方法，其中，所述频谱图距离度量为：

10.如权利要求8所述的方法，其中，K是几何间隔的窗口长度序列。

11.如权利要求5所述的方法，其中，所述第一音频输出和所述第二音频输出中的每一个包括音频波的相应多个样本，其中，计算在所述第一音频输出和所述第二音频输出之间的距离包括：

确定所述第一音频输出和第二音频输出中的每一个的相应频谱图。

12.如权利要求11所述的方法，其中，确定所述第一音频输出和第二音频输出中的每一个的相应频谱图包括通过使用过完备傅立叶基和Hann窗口来确定所述相应频谱图。

13.如权利要求11所述的方法，其中，确定长度为N的音频输出x的频谱图包括，对于每个频谱图窗口长度k：

将所述音频输出x裁剪为长度

以生成裁剪后的音频输出；以及

确定所述裁剪后的音频输出的频谱图。

14.如权利要求1所述的方法，其中，获得训练示例包括：

利用与完整训练示例的长度成正比的概率，从训练数据集中采样所述完整训练示例；以及

将所述训练示例确定为所采样的完整训练示例的固定大小部分。

15.如权利要求1所述的方法，其中，所述神经网络包括多个一维卷积神经网络层。

16.如权利要求1所述的方法，其中，所述神经网络包括一个或多个滤波器响应归一化层，所述一个或多个滤波器响应归一化层将序列

接收为输入，并且通过下述计算，输出序列

其中，

和

是学习到的向量，∈是正标量，

是阈值。

17.如权利要求16所述的方法，其中：

对于每个噪声输入，在处理包括所述噪声输入的所述训练生成性输入期间，一个或多个特定滤波器响应归一化层以所述噪声输入为条件。

18.如权利要求17所述的方法，其中，对于所述一个或多个特定滤波器响应归一化层的每一层，所述层的参数γ和β是所述噪声输入的学习到的线性函数。

19.如权利要求18所述的方法，其中，对于所述一个或多个特定滤波器响应归一化层的每一层，通过下述操作来确定所述层的参数γ和β：

对噪声输入z～N(0,I_d)进行采样，其中，I是大小为d的单位矩阵；以及

计算：

γ＝W_γz+(b_γ+1)

β＝W_βz+b_β

其中，

和

是特定于所述层的。

20.如权利要求1-19中的任一项所述的方法，其中，生成所述多个预测音频输出包括并行地生成所述多个预测音频输出中的每一个。

21.如权利要求1-19中的任一项所述的方法，其中，每个条件文本输入包括在多个输入时间步中的每一个处的相应语言特征表示。

22.如权利要求1-19中的任一项所述的方法，其中，生成所述多个预测音频输出包括从噪声分布来对所述多个噪声输入中的每一个进行采样。

23.如权利要求22所述的方法，其中，对所述多个噪声输入中的每一个进行采样包括：

对初始噪声输入进行采样；

确定所述初始噪声输入的一个或多个元素的绝对值高于预定阈值；以及

作为响应，对所确定的一个或多个元素进行重新采样。

24.一种通过使用神经网络来生成输出音频示例的方法，所述神经网络已经通过使用如权利要求1-23中的任一项所述的方法进行了训练。

25.一种包括一个或多个计算机以及存储指令的一个或多个存储设备的系统，所述指令在由所述一个或多个计算机执行时，使所述一个或多个计算机执行如权利要求1-24中的任一项所述的方法的相应操作。

26.一种或多种存储指令的计算机可读存储介质，所述指令在由一个或多个计算机执行时，使所述一个或多个计算机执行如权利要求1-24中的任一项所述的方法的相应操作。