CN116635934A

CN116635934A - 分离的语音内容和风格表示的无监督学习

Info

Publication number: CN116635934A
Application number: CN202180083495.7A
Authority: CN
Inventors: 庞若鸣; 安德罗斯·钱德拉; 张羽; 苅田茂木
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-12-11
Filing date: 2021-11-18
Publication date: 2023-08-22
Also published as: KR20230116877A; JP2023553993A; EP4244854A1; WO2022125290A1; US20220189456A1

Abstract

一种语言内容和说话风格分离模型(100)包括内容编码器(110)、风格编码器(130)和解码器(150)。内容编码器被配置为接收输入语音(102)作为输入并且为输入语音生成语言内容(120)的潜在表示作为输出。内容编码器被训练来从语言内容的潜在表示中分离说话风格信息。风格编码器被配置为接收输入语音作为输入并且为输入语音生成说话风格(140)的潜在表示作为输出。风格编码器被训练来从说话风格的潜在表示中分离语言内容信息。解码器被配置为基于输入语音的语言内容的潜在表示和相同或不同输入语音的说话风格的潜在表示来生成输出语音(152)。

Description

分离的语音内容和风格表示的无监督学习

技术领域

本公开涉及分离的语音内容和风格表示的无监督学习。

背景技术

语音波形是受许多底层因素影响的复杂、高维形式的数据，其可以大体地分类为语言内容和说话风格。从语音中学习分离的潜在表示在生成任务中有广泛的应用，包括语音合成、数据增强、话音传输和语音压缩。

发明内容

本公开的一个方面提供了一种语言内容和说话风格分离模型，包括内容编码器、风格编码器和解码器。内容编码器被配置为接收输入语音作为输入，并生成输入语音的语言内容的潜在表示作为输出。内容编码器被训练为从语言内容的潜在表示中分离说话风格信息。风格编码器被配置为接收相同或不同的输入语音作为输入，并为相同或不同的输入语音生成说话风格的潜在表示作为输出。风格编码器被训练为从说话风格的潜在表示中分离语言内容信息。解码器被配置为基于输入语音的语言内容的潜在表示和相同或不同输入语音的说话风格的潜在表示来生成输出语音。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，内容编码器生成语言内容的潜在表示作为语言内容的离散的每时间步的潜在表示，其丢弃输入语音中的说话风格变化。内容编码器可以包括：一个或多个卷积层，被配置为接收输入语音作为输入并生成语言内容的初始离散每时间步潜在表示；以及矢量量化(VQ)层，被配置为在语言内容的每个初始离散每时间步潜在表示上应用具有直通梯度的信息瓶颈，以生成语言内容的潜在表示作为表示语言内容形成输入语音的潜在变量的序列。这里，可以基于为每个时间步生成的语言内容的潜在表示，使用内容VQ损失来训练内容编码器，由此VQ损失促使内容编码器将输出和最近的码本之间的距离最小化。

在一些示例中，风格编码器包括：一个或多个卷积层，被配置为接收输入语音作为输入；以及，具有高斯后验的变分层，被配置为利用跨时间轴的全局平均池化操作来汇总来自所述一个或多个卷积层的输出，以提取与说话风格的潜在表示相对应的全局潜在风格变量。在这些示例中，在训练期间，全局潜在风格变量可以是从由风格编码器预测的风格潜在变量的均值和方差中采样的，并且在推理期间，全局潜在风格变量可以是从由风格编码器预测的全局潜在风格变量的均值中采样的。附加地或可替代地，可以基于由风格编码器预测的风格潜在变量的均值和方差使用风格正则化损失来训练风格编码器，其中，风格编码器使用风格正则化损失来将高斯后验与单位高斯先验之间的Kullback-Leibler(KL)散度最小化。

在一些实施方式中，解码器被配置为：接收输入语音的语言内容的潜在表示和相同输入语音的说话风格的潜在表示作为输入；并且生成包括输入语音的重构的输出语音作为输出。可以使用输入语音和从解码器输出的输入语音的重构之间的重构损失来训练模型。

在一些附加的实施方式中，解码器被配置为：接收输入语音的语言内容的潜在表示和不同输入语音的说话风格的潜在表示作为输入；并且，生成输出语音作为输出，该输出语音包括由输入语音指定的语言内容信息和由不同的输入语音指定的说话风格信息。可以使用互信息损失来训练内容编码器和风格编码器，以将在语言内容和说话风格的潜在表示中捕获的互信息最小化。

本公开的另一方面提供了一种计算机实现的方法，该计算机实现的方法当在数据处理硬件上执行时使数据处理硬件执行操作，该操作包括：接收输入语音；并且使用内容编码器处理输入语音以生成输入语音的语言内容的潜在表示。内容编码器被训练以从语言内容的潜在表示中分离说话风格信息。该操作也包括：使用风格编码器处理相同或不同的输入语音以针对相同或不同的输入语音生成说话风格的潜在表示，并且使用解码器处理输入语音的语言内容的潜在表示和相同或不同输入语音的说话风格的潜在表示，以生成输出语音。风格编码器被训练为从说话风格的潜在表示中分离语言内容信息。

该方面可以包括以下可选特征中的一个或多个。在一些实施方式中，处理输入语音以生成语言内容的潜在表示包括处理输入语音以生成语言内容的潜在表示作为语言内容的离散的每时间步的潜在表示，其丢弃输入语音中的说话风格变化。内容编码器可以包括：一个或多个卷积层，被配置为接收输入语音作为输入并生成语言内容的初始离散每时间步潜在表示；以及，矢量量化(VQ)层，被配置为在语言内容的每个初始离散每时间步潜在表示上应用具有直通梯度的信息瓶颈，以生成语言内容的潜在表示作为表示语言内容形成输入语音的潜在变量的序列。这里，可以基于为每个时间步生成的语言内容的潜在表示，使用内容VQ损失来训练内容编码器，由此VQ损失促使内容编码器将输出和最近的码本之间的距离最小化。

在一些示例中，风格编码器包括：一个或多个卷积层，被配置为接收输入语音作为输入；以及，具有高斯后验的变分层，被配置为利用跨时间轴的全局平均池化操作汇总来自所述一个或多个卷积层的输出，以提取与说话风格的潜在表示相对应的全局潜在风格变量。在这些示例中，该操作可以进一步包括：在训练期间，从由风格编码器预测的风格潜在变量的均值和方差中采样全局风格潜在变量，并且在推理期间，从由风格编码器预测的全局潜在风格变量的均值中采样全局风格潜在变量。附加地或可替代地，可以基于由风格编码器预测的风格潜在变量的均值和方差使用风格正则化损失来训练风格编码器，其中，风格编码器使用风格正则化损失来将高斯后验与单位高斯先验之间的Kullback-Leibler(KL)散度最小化。

本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及权利要求中显而易见。

附图说明

图1是用于从输入语音中分离语言内容和说话风格的潜在表示的示例系统的示意图。

图2是包括风格编码器、内容编码器和解码器的语言内容和说话风格分离模型的示意图。

图3是针对各种码本大小的与内容说话者ID和风格说话者ID相比的前k个说话者准确度的图。

图4A是根据图1和2的语言内容和说话风格分离模型实施风格编码器的示例说话者辨识模型的示意图。

图4B是根据图1和2的语言内容和说话风格分离模型实施内容编码器的示例语音辨识模型的示意图。

图5是用于生成输出语音的操作的示例布置的流程图。

图6是可用于实现本文描述的系统和方法的示例计算设备的示意图。

各个附图中相同的附图标记指示相同的元件。

具体实施方式

语音波形是受许多底层因素影响的复杂、高维形式的数据，其可以大体地分类为语言内容(例如，音素)和说话风格。从语音中学习语言内容和说话风格的分离潜在表示在生成任务中具有广泛的应用，包括语音合成、数据增强、语音传输和语音压缩。从语音中分离潜在表示也有助于下游任务，诸如自动语音辨识和说话者分类。

由于围绕收集标记语音数据的成本、复杂性和隐私问题，用于语音的无监督潜在表示学习的技术正在获得关注。值得注意的是，由于固有地无法用人类标签描述语音韵律，因此从无监督数据中学习说话风格的潜在表示特别令人感兴趣。从来自没有韵律标签的语音的嵌入字典中学习全局风格令牌提供了从整个语音序列中学习全局表示的能力。附加地，可以通过将自我监督学习应用于未标记的语音数据并提取可以针对语音辨识进行微调的局部潜在表示来学习语音的细粒度本地化表示。

本文中的实施方式针对通过学习全局和局部表示两者来进行语音的无监督表示学习。具体来说，实施方式针对使用包括内容编码器、风格编码器和解码器的自动编码器模型从语音中分离语言内容和说话风格的潜在表示。自动编码器模型可以互换地称为语言内容和说话风格分离模型。内容编码器与具有矢量量化(VQ)层的本地编码器相关联，该VQ层被配置为学习离散的每时间步(例如，每帧)潜在表示，其从输入语音中捕获语言内容；而风格编码器与变分自动编码器(VAE)相关联，该VAE被配置为提取每个话语的潜在表示，其从输入语音中捕获说话风格。在训练期间，解码器使用从内容和风格编码器输出的语言内容和说话风格的潜在表示将输入语音样本重构到内容和风格编码器。在推理期间，解码器可以通过组合从第一语音样本中提取的语言内容的潜在表示和从不同的第二语音样本中提取的说话风格的潜在表示来生成新的语音特征。

在附加的实施方式中，互信息损失被应用于内容和风格编码器以将来自从内容和风格编码器输出的语言内容和说话风格的潜在表示的互信息最小化。显而易见的是，对内容和风格编码器进行训练以将在它们相应的输出中提取互信息最小化进一步从语音中分离语言内容的潜在表示(例如，局部表示)和说话风格的潜在表示(例如，全局表示)。

自动编码器模型包括内容编码器、风格编码器130和解码器。解码器被配置为接收内容和风格潜在表示两者作为输入，并生成语音特征作为输出。也就是说，解码器被配置为将输入语音重构为输出语音特征。在一些应用中，经过训练的自动编码器模型可能会省略解码器的使用。

图1示出了用于训练自动编码器模型(例如，语言内容和说话风格分离模型)100以从输入语音102中分离语言内容120和说话风格140的潜在表示的示例系统10。输入语音102可以包括语音特征序列。在一些示例中，表示输入语音102的语音特征序列包括log-Mel-filterbank特征。系统10包括计算系统20，该计算系统20具有数据处理硬件22和与数据处理硬件22通信并存储使数据处理硬件22执行操作的指令的存储器硬件24。在一些实施方式中，计算系统20(例如，数据处理硬件22)执行训练过程以在与由一个或多个不同说话者所说的话语相对应的输入语音102的多个样本上训练自动编码器模型100。训练过程旨在通过对从输入语音102中提取并组合以生成对应的语音特征152的语言内容120和说话风格140的潜在表示进行解码来重构输入语音102的每个样本。训练过程可以存储从输入语音102的每个样本中提取的语言内容120和说话风格140的潜在表示，并且数据存储185中的对应输出语音特征152覆盖在存储器硬件24上。

在推理期间，计算系统20(例如，数据处理硬件22)或用户计算设备(未示出)执行包括内容编码器110、风格编码器130和解码器150的经训练的自动编码器模型100，以生成新的语音特征152作为合成语音，其传达从第一语音样本50,50a中提取的语言内容并且具有从第二语音样本50,50b中提取的说话风格。这里，内容编码器110被配置为从由第一说话者说出的第一语音样本50a预测语言内容120的每时间步潜在表示，而风格编码器130与变分自动编码器(VAE)相关联，该VAE被配置为从由不同说话者说出的不同第二语音样本50b提取说话风格140的每话语的潜在表示。值得注意的是，由不同说话者说出的第一和第二语音样本50a、50b可以包括不同的语言内容并且第一和第二说话者可以用不同的说话风格(例如韵律/口音)说话。在这种情况下，经过训练的自动编码器模型100适用于话音传输应用(例如，“像这样说(Say it like this)”)，其中，作为合成语音生成的新语音特征152保留了由第一说话者说出的第一语音样本50a的语言内容，但是是以第二说话者的话音和说话风格。在一些示例中，第一语音样本50a以与第二语音样本50b不同的语言说出。经过训练的自动编码器模型100可以类似地应用于数据增强应用，其中，说话风格140的潜在表示从由不同用户所说的语音样本中被提取并传达不同的说话风格以从解码器150产生新的语音特征152，其传达同一语言内容的合成语音的不同增强。

解码器150被配置为通过组合由内容编码器110输出的语言内容120的潜在表示和由风格编码器130输出的说话风格140的潜在表示来生成语音特征152作为输出。输出190可以从解码器150接收输出语音特征152。输出190可以包括在输出语音特征152上训练的语音辨识模型或说话者识别模型。可选地，输出190可以不接收语音特征152，而是代替地接收分别来自内容和风格编码器110、130的语言内容120和说话风格140的潜在表示。

图2示出了用于从输入语音102中分离语言内容120和说话风格140的潜在表示的自动编码器模型100的示例，自动编码器模型包括内容编码器110、风格编码器130和解码器150。解码器150被配置为接收内容和风格潜在表示120、140两者作为输入，并生成语音特征152作为输出。在一些应用期间，经过训练的自动编码器模型100可以省略解码器150的使用。

内容编码器110可以包括具有一个或多个卷积层112和矢量量化(VQ)层114的神经网络。在一些示例中，内容编码器110包括十(10)个具有残差连接的一维卷积层。可以在第三卷积层中应用时间步幅二，以将最终输出长度减半(例如，从T到T/2)。内容编码器110的所述一个或多个卷积层112接收输入语音102以从语音102生成初始潜在表示113，并且VQ层114在初始潜在表示113上应用具有直通梯度的信息瓶颈以捕获必要的本地化信息，诸如音素或类似子词的潜在表示，并丢弃说话风格的变化。因此，VQ层114从输入语音102中提取表示语言内容的潜在变量序列，因此，内容编码器110被训练以学习预测语言内容120(c₁,...,c_T)的离散的每时间步(例如，每帧)潜在表示，其丢弃输入语音102中的说话风格变化，或者否则从其分离出来。

在一些实施方式中，在训练期间，VQ损失模块122基于为每个时间步预测的语言内容120的潜在表示来确定内容编码器110的内容VQ损失124。内容VQ损失124促使内容编码器输出z以将其自身与最近的码本E_i之间的距离最小化。VQ损失模块122可以使用以下等式来确定内容VQ损失124。

其中，sg(·)表示停止梯度操作。内容VQ损失124与类似于聚类损失的自我监督损失相对应，其中，促使模型对连续数据点进行聚类并将其他数据点移动到靠近聚类的位置。

风格编码器130可以包括具有一个或多个卷积层132和具有高斯后验的变分层134的神经网络，该变分层134被配置为使用跨时间轴的全局平均池化操作来汇总来自卷积层132的输出。在一些示例中，风格编码器130在三个不同层上使用具有时间步幅二(2)的六(6)个残余一维卷积层来处理输入语音102以导致8×时间长度减少。全局平均池化操作从输入语音102中提取表示说话风格140的全局潜在风格变量在训练期间，与说话风格140的潜在表示相对应的全局潜在风格变量s被采样如下。

其中，s_μ表示由风格编码器130预测的风格变量的均值并且表示由风格编码器预测的风格变量的方差。在推理期间，全局潜在风格变量s可以简单地与由风格编码器130从输入语音102预测的风格变量s_μ的均值相对应。因此，风格编码器130被训练以学习提取从输入语音102中的语言内容120分离的说话风格140的每个话语的潜在表示。

在训练期间，风格损失模块142可以基于由风格编码器130预测的风格变量的均值s_μ和方差来确定风格正则化损失144/>风格编码器130使用风格正则化损失144来将高斯后验/>与单位高斯先验/>之间的Kullback-Leibler(KL)散度最小化。风格损失模块142可以使用以下等式来确定风格正则化损失144。

在一些实施方式中，解码器150被配置为接收分别从内容和风格编码器110、130输出的语言内容和说话风格120、140的潜在表示两者作为输入，并且在训练期间重构特征152，在训练期间，重构损失模块160在作为真实值的输入语音102，X和重构语音152，/>之间生成重构损失162，用于优化模型100以将X和/>之间的L1和L2范数平方距离两者最小化。在一些配置中，解码器150包括十(10)个具有残差连接的一维卷积层，其通过在第{1、3、5、7}层上的通道轴中连结说话风格140,s的潜在表示来被馈送说话风格信息。

虽然内容编码器110和风格编码器130各自被优化以预测它们的彼此分离的语言内容120和说话风格140的相应潜在表示，但是表示来自输入语音102的语言内容120的量化变量c₁,...,c_T可以固有地捕获非内容信息，诸如说话风格信息。在训练期间不使用显式标签的情况下，模型100可以根据从内容和风格编码器110、130输出的语言内容(c₁,...,c_T)120和说话风格140的相应潜在表示来估计最小互信息(MI)。因此，最小化互信息以减少编码器输出之间的相关量，这优化了模型100以进一步分离语言内容和说话风格的局部和全局表示。

在一些实施方式中，为了测量两个编码器输出之间的互信息，基于噪声对比估计(I_NCE)的损失被用于估计内容和风格之间的下界MI如下。

C_i＝AugPool(ConvC(X_i)) (4)

S_i＝AugPool(ConvS(X_i)) (5)

其中，K是跨不同话语上的样本数，Sc(·,·)是神经网络评分器，C_i是在量化之前来自内容编码器110的初始潜在表示，并且S_i是从风格编码器130输出的说话风格140的潜在表示。

此后，使用以下等式，I_NCE相对于Sc最大化，并且I_NCE相对于模型100的最终损失最小化。

可以基于内容VQ损失124、风格正则化损失144和重构损失162的组合和来确定模型100的最终损失/>最后，为了测量MI，自适应梯度缩放被应用来通过在每个时间步更新模型参数来稳定等式(7)的损失如下。

θ＝θ-(g_θ+g_b) (8)

可以应用互信息损失来进一步分离局部和全局表示。值得注意的是，由全局VAE捕获的全局风格表示从每个说话者的仅一个示例提供了足够的说话者信息，以允许在全局风格表示之上训练线性投影层以获得说话者分类模型。

实验表明，增加内容编码器110的VQ-VAE码本大小优化了模型100，用于保留来自输入语音102的语言内容。附加地，应用互信息损失以将由内容和风格编码器110、130捕获的互信息最小化进一步改进语言内容保留。在为测量模型100压缩语音的好坏程度进行优化的第一非混洗场景中，内容和风格编码器110、130各自接收相同的输入语音102，X_i，并且解码器150预测语音特征152，其与输入语音的重构相对应。在通过VQ-VAE码本为测量语言内容的保留进行优化的第二混洗场景中，内容编码器110接收输入语音X_i，并且风格编码器130接收不同的输入语音102，X_j，并且解码器150预测语音特征152，/>以确定语音特征/>保留原始语音X_i的语言内容的好坏程度。为了评估由解码器输出的预测语音特征与来自输入语音的原始语言内容相比的好坏程度，自动语音辨识器转录了预测语音特征/>并且利用被馈送到内容编码器110的原始输入语音X_i的真实值文本针对该转录计算了单词错误率。下面的表1描述了在具有和没有互信息丢失的情况下针对具有变化的码本大小的混洗和非混洗场景两者计算的单词错误率。

表1

实验进一步测量风格编码器如何从输入语音102中提取和保留原始说话风格。在这些实验中，内容和风格编码器110、130接收不同的输入语音X_i、X_j，并且解码器150基于从编码器110、130输出的语言内容和说话风格130、140的潜在表示来预测与生成的语音相对应的语音特征为了评估生成的语音与不同输入语音语音X_i、X_j之间的说话者相似性。使用输入语音X_i、X_j的真实值说话者标签来训练说话者辨识模型，并且根据由解码器150输出的预测语音特征/>来预测softmax输出。softmax输出预测被用于计算度量，诸如与在被馈送到风格编码器130的输入语音X_j上的真实值说话者相比的平均排名、前1、前3和前5准确度。

图3描绘了针对使用MI损失训练的模型的各种码本大小的前k个说话者准确度与内容(SRC)说话者ID和风格(TGT)说话者ID相比的图300。图200示出生成的语音捕获比被馈送到内容编码器110的输入语音X_i更接近于被馈送到风格编码器130的输入语音X_j的说话者风格。下面的表2还示出了在应用和不应用MI损失的情况下，针对变化的码本大小，说话者风格准确度如何针对被馈送到风格编码器130的输入语音X_j改变。具体来说，表2示出，随着码本大小的增加，风格和内容信息变得更加分离，而MI损失的应用改善了分离，尤其是对于较小的码本大小。因此，表1和表2揭示了在考虑码本大小时，内容重构和风格分离之间的权衡。

表2

在对模型100进行训练以从语音中学习语言内容和说话风格的分离潜在表示之后，经训练的模型100可以用于生成任务的广泛应用，包括语音合成、数据增强、语音传输和语音压缩。经训练的模型100从语音中分离这些潜在表示的能力也有助于下游任务，诸如训练自动语音辨识和/或说话者辨识/分类模型。通常，经训练的模型100可用于两组应用：仅编码器应用和编码器-解码器应用。在上文中参考图1讨论了编码器-解码器应用，诸如话音传输应用和数据增强应用。

图4A示出了值得注意的仅编码器应用，其包括使用经过训练的风格编码器130作为用于说话者辨识任务的说话者辨识模型400。这里，经过训练的风格编码器130通过在大量未标记数据上预训练风格编码器130而适用于说话者辨识应用，大量未标记数据包括与由一个或多个说话者所说的话语相对应的输入语音。然后，少量标记数据微调预训练风格编码器以执行少次(few-shot)说话者辨识任务。标记的数据可以改变每个说话者的语音示例402的数量，称为“1-shot”和“3-shot”。对于说话者辨识任务，线性投影层(例如，Softmax层)覆盖在风格编码器之上，以基于对于给定输入语音的从风格编码器130输出的说话风格140的潜在表示来计算说话者分类的分对数(logit)。在微调期间，除了投影层之外的所有参数都被冻结。风格编码器130和投影层450可以形成说话者辨识模型400。说话者辨识模型400a可以用于执行不同的说话者辨识任务，诸如但不限于检测不同的说话者(例如，话者分离(Diarization))、计算说话者ID以及/或者用于注册/验证的话音匹配。

图4B示出了另一个仅编码器的应用，其包括使用经过训练的内容编码器110作为语音辨识模型400b来为输入语音402生成语音辨识结果。可以充分利用内容编码器110来提取语言内容120的潜在表示以提供本地信息用于通过使用语言内容120的潜在表示和充分利用无监督数据来引导自动语音辨识(ASR)训练。在所示示例中，神经网络470覆盖在内容编码器110之上以提供语音辨识模型400b。在一些实施方式中，使用输入语音示例402的标记数据和对应的转录来重新训练内容编码器110和神经网络470。在这种布置中，内容编码器110用作特征提取器，用于对来自语音的语言内容进行编码以改进语音辨识准确度。

值得注意的编码器-解码器应用包括话音传输应用(例如，“像这样说”)和数据增强应用。在典型的话音传输应用中，内容编码器110会接收来自第一说话者的语音，而风格编码器130会接收来自第二说话者的不同语音。由第一说话者和第二说话者说出的语音可以包括不同的内容。在这种情况下，解码器150可以生成合成语音表示，其传达来自第一说话者的语音但以第二说话者的话音的语言内容。即，解码器150接收由内容编码器110针对来自第一说话者的语音编码的语言内容120的潜在表示和由风格编码器130针对来自第二说话者的语音编码的说话风格140的潜在表示作为输入，并生成合成语音作为输出，该合成语音保留了来自第一说话者的语音的语言内容和第二说话者的说话风格。在数据增强应用中，说话风格的潜在表示可能会有所不同，以便为相同的语言内容产生来自解码器的合成语音的不同增强。

图5是生成输出语音的方法500的示例操作布置的流程图。数据处理硬件22可以执行在存储器硬件24上存储的指令以使数据处理硬件执行方法500的操作。在操作502，方法500包括接收输入语音102，并且在操作504，方法500包括使用内容编码器110处理输入语音102为输入语音102生成语言内容120的潜在表示。内容编码器110被训练为从语言内容120的潜在表示中分离说话风格信息。

在操作506，方法500包括使用风格编码器130处理相同或不同的输入语音以生成相同或不同语音的说话风格140的潜在表示。风格编码器130被训练为从说话风格140的潜在表示中分离语言内容信息。在操作508，方法500包括使用解码器150处理输入语音102的语言内容120的潜在表示和相同或不同的语音的说话风格140的潜在表示以生成输出语音。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流应用、社交网络应用和游戏应用。

非暂时性存储器可以是用于在临时或永久基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

图6是可用于实现本文档中描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。此处所示的组件、它们的联系和关系以及它们的功能仅意味着是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速接口/控制器640、以及连接到低速总线670和存储设备630的低速接口/控制器660。组件610、620、630、640、660和660中的每一个都使用各种总线互连，并且可以安装在公共主板上或以其他适当的方式安装。处理器610可以处理用于在计算设备600内执行的指令，包括在存储器620中或存储设备630上存储以在诸如被耦合到高速接口640的显示器680的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息的指令。在其他实施方式中，可以适当地使用多个处理器和/或多条总线以及多个存储器和多种类型的存储器。此外，可以连接多个计算设备600，每个设备提供必要操作的部分(例如，作为服务器库、一组刀片服务器或多处理器系统)。

存储器620在计算设备600内非暂时性地存储信息。存储器620可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器620可以是用于在临时或永久的基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备630能够为计算设备600提供大容量存储。在一些实施方式中，存储设备630是计算机可读介质。在各种不同的实施方式中，存储设备630可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储器设备或设备阵列，包括在存储区域网络或其他配置中的设备。在附加的实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，这些指令在被执行时执行一个或多个方法，诸如上述方法。信息载体是计算机或机器可读介质，诸如存储器620、存储设备630或处理器610上的存储器。

高速控制器640管理计算设备600的带宽密集型操作，而低速控制器660管理较低带宽密集型操作。这种职责分配只是示范性的。在一些实施方式中，高速控制器640被耦合到存储器620、显示器680(例如，通过图形处理器或加速器)以及到高速扩展端口650——其可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器660被耦合到存储设备630和低速扩展端口690。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器被耦合到一个或多个输入/输出设备，诸如键盘、指点设备、扫描仪或联网设备，诸如交换机或路由器。

计算设备600可以以多种不同的形式实现，如图所示。例如，它可以被实现为标准服务器600a或在一组这样的服务器600a中多次实现，实现为膝上型计算机600b，或实现为机架服务器系统600c的一部分。

本文描述的系统和技术的各种实施方式可以在数字电子电路和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实施方式可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，该可编程系统包括至少一个可编程处理器，其可以是专用的或通用的，被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器语言来实现。如本文所使用的，术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、用于向可编程处理器提供机器指令和/或数据的可编程逻辑器件(PLD)，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器——也称为数据处理硬件——来执行。过程和逻辑流程也可以由专用逻辑电路——例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)——执行。例如，适合于执行计算机程序的处理器包括通用和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者可操作地耦合到其以从其接收数据或向其传送数据或两者。然而，计算机不需要具有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括：半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及，CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，可以在具有用于向用户显示信息的显示设备——例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏——并且可选地具有键盘和指点设备——例如鼠标或轨迹球——的计算机上实现本公开的一个或多个方面，用户可以通过其向计算机提供输入。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括听觉、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文件以及从用户使用的设备接收文件，例如，通过响应于从在用户客户端设备上的Web浏览器收到的请求，将网页发送到Web浏览器，来与用户进行交互。

已经描述了许多实施方式。然而，应当理解，在不脱离本公开的精神和范围的情况下可以进行各种修改。因此，其他实施方式在所附权利要求的范围内。

Claims

1.一种语言内容(120)和说话风格(140)分离模型(100)，所述模型(100)包括：

内容编码器(110)，所述内容编码器(110)被配置为：

接收输入语音(102)作为输入；以及

生成所述输入语音(102)的语言内容(120)的潜在表示作为输出，所述内容编码器(110)被训练为从语言内容(120)的所述潜在表示中分离说话风格信息；

风格编码器(130)，所述风格编码器(130)被配置为：

接收相同或不同的输入语音(102)作为输入；以及

生成所述相同或不同的输入语音(102)的说话风格(140)的潜在表示作为输出，所述风格编码器(130)被训练为从说话风格(140)的所述潜在表示中分离语言内容信息；以及

解码器(150)，所述解码器(150)被配置为基于所述输入语音(102)的语言内容(120)的所述潜在表示和所述相同或不同输入语音(102)的说话风格(140)的所述潜在表示来生成输出语音。

2.根据权利要求1所述的模型(100)，其中，所述内容编码器(110)生成语言内容(120)的所述潜在表示作为语言内容(120)的离散每时间步潜在表示，所述语言内容(120)的离散每时间步潜在表示丢弃所述输入语音(102)中的说话风格变化。

3.根据权利要求1或2所述的模型(100)，其中，所述内容编码器(110)包括：

一个或多个卷积层(112)，所述一个或多个卷积层(112)被配置为接收所述输入语音(102)作为输入，并生成所述语言内容(120)的初始离散每时间步潜在表示；以及

矢量量化VQ层，所述矢量量化VQ层被配置为在所述语言内容(120)的每个初始离散每时间步潜在表示上应用具有直通梯度的信息瓶颈，以生成语言内容(120)的所述潜在表示作为形成所述输入语音(102)的表示所述语言内容(120)的潜在变量的序列。

4.根据权利要求3所述的模型(100)，其中，所述内容编码器(110)基于为每个时间步生成的语言内容(120)的所述潜在表示使用内容VQ损失(124)而被训练，所述内容VQ损失(124)促使所述内容编码器(110)最小化输出与最近的码本之间的距离。

5.根据权利要求1至4中任一项所述的模型(100)，其中，所述风格编码器(130)包括：

一个或多个卷积层(132)，所述一个或多个卷积层(132)被配置为接收所述输入语音(102)作为输入；以及

具有高斯后验的变分层(134)，所述具有高斯后验的变分层(134)被配置为使用跨时间轴的全局平均池化操作汇总来自所述一个或多个卷积层(132)的输出，以提取与说话风格(140)的所述潜在表示相对应的全局潜在风格变量。

6.根据权利要求5所述的模型(100)，其中：

在训练期间，所述全局风格潜在变量是从由所述风格编码器(130)预测的风格潜在变量的均值和方差中采样的；以及

在推理期间，所述全局风格潜在变量是从由所述风格编码器(130)预测的所述全局潜在风格变量的所述均值中采样的。

7.根据权利要求5或6所述的模型(100)，其中，所述风格编码器(130)基于由所述风格编码器(130)预测的风格潜在变量的均值和方差使用风格正则化损失(144)而被训练，所述风格编码器(130)使用所述风格正则化损失(144)来将高斯后验与单位高斯先验之间的Kullback-Leibler(KL)散度最小化。

8.根据权利要求1至7中任一项所述的模型(100)，其中，所述解码器(150)被配置为：

接收所述输入语音(102)的语言内容(120)的所述潜在表示和相同输入语音(102)的说话风格(140)的所述潜在表示作为输入；以及

生成包括所述输入语音(102)的重构的所述输出语音作为输出。

9.根据权利要求8所述的模型(100)，其中，所述模型(100)使用在所述输入语音(102)和从所述解码器(150)输出的所述输入语音(102)的所述重构之间的重构损失(162)而被训练。

10.根据权利要求1至9中任一项所述的模型(100)，其中，所述解码器(150)被配置为：

接收所述输入语音(102)的语言内容(120)的所述潜在表示和所述不同输入语音(102)的说话风格(140)的所述潜在表示作为输入；以及

生成所述输出语音作为输出，所述输出语音包括由所述输入语音(102)指定的语言内容信息和由所述不同输入语音(102)指定的说话风格信息。

11.根据权利要求1至10中任一项所述的模型(100)，其中，所述内容编码器(110)和所述风格编码器(130)使用互信息损失而被训练，以将语言内容(120)和说话风格(140)的所述潜在表示中捕获的互信息最小化。

12.一种计算机实现的方法(500)，所述计算机实现的方法(500)在数据处理硬件(22)上执行时使所述数据处理硬件(22)执行操作，所述操作包括：

接收输入语音(102)；

使用内容编码器(110)处理所述输入语音(102)以生成所述输入语音(102)的语言内容(120)的潜在表示，其中，所述内容编码器(110)被训练以从语言内容(120)的所述潜在表示中分离说话风格信息；

使用风格编码器(130)处理相同或不同的输入语音(102)以针对所述相同或不同的输入语音(102)生成说话风格(140)的潜在表示，其中，所述风格编码器(130)被训练以从说话风格(140)的所述潜在表示中分离语言内容信息；以及

使用解码器(150)处理所述输入语音(102)的语言内容(120)的所述潜在表示和所述相同或不同输入语音(102)的说话风格(140)的所述潜在表示，以生成输出语音。

13.根据权利要求12所述的计算机实现的方法(500)，其中，处理所述输入语音(102)以生成语言内容(120)的所述潜在表示包括：处理所述输入语音(102)以生成语言内容(120)的所述潜在表示作为语言内容(120)的离散每时间步潜在表示，所述语言内容(120)的离散每时间步潜在表示丢弃所述输入语音(102)中的说话风格变化。

14.根据权利要求12或13所述的计算机实现的方法(500)，其中，所述内容编码器(110)包括：

15.根据权利要求14所述的计算机实现的方法(500)，其中，所述内容编码器(110)基于为每个时间步生成的语言内容(120)的所述潜在表示使用内容VQ损失(124)而被训练，所述内容VQ损失(124)促使所述内容编码器(110)将输出与最近的码本之间的距离最小化。

16.根据权利要求12至15中任一项所述的计算机实现的方法(500)，其中，所述风格编码器(130)包括：

17.根据权利要求16所述的计算机实现的方法(500)，其中，所述操作进一步包括：

18.根据权利要求16或17所述的计算机实现的方法(500)，其中，所述风格编码器(130)基于由所述风格编码器(130)预测的风格潜在变量的均值和方差使用风格正则化损失(144)而被训练)，所述风格编码器(130)使用所述风格正则化损失(144)来将高斯后验与单位高斯先验之间的Kullback-Leibler(KL)散度最小化。

19.根据权利要求12至18中任一项所述的计算机实现的方法(500)，其中，所述解码器(150)被配置为：

接收所述输入语音(102)的语言内容(120)的所述潜在表示和所述相同输入语音(102)的说话风格(140)的所述潜在表示作为输入；以及

处理所述输入语音(102)的语言内容(120)的所述潜在表示和所述相同输入语音(102)的说话风格(140)的所述潜在表示，以生成包括所述输入语音(102)的重构的所述输出语音作为输出。

20.根据权利要求19所述的计算机实现的方法(500)，其中，所述模型(100)使用在所述输入语音(102)和从所述解码器(150)输出的所述输入语音(102)的所述重构之间的重构损失(162)而被训练。

21.根据权利要求12至20中任一项所述的计算机实施方法(500)，其中，所述解码器(150)被配置为：

所述输入语音(102)的语言内容(120)的所述潜在表示和所述不同输入语音(102)的说话风格(140)的所述潜在表示生成所述输出语音作为输出，所述输出语音包括由所述输入语音(102)指定的语言内容信息和由所述不同输入语音(102)指定的说话风格信息。

22.根据权利要求12至21中任一项所述的计算机实施方法(500)，其中，所述内容编码器(110)和所述风格编码器(130)使用互信息损失而被训练，以将语言内容(120)和说话风格(140)的所述潜在表示中捕获的互信息最小化。