CN112689871A

CN112689871A - 使用神经网络以目标讲话者的话音从文本合成语音

Info

Publication number: CN112689871A
Application number: CN201980033235.1A
Authority: CN
Inventors: 贾晔; 陈智峰; 吴永辉; 乔纳森·沈; 庞若鸣; 罗恩·J·韦斯; 伊格纳西奥·洛佩斯·莫雷诺; 任飞; 张羽; 王泉; 帕特里克·安·蒲·阮
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-05-17
Filing date: 2019-05-17
Publication date: 2021-04-20
Also published as: EP3776530A1; US20210217404A1; US20240112667A1; KR102514990B1; WO2019222591A1; JP7427723B2; KR20210008510A; JP2021524063A; KR20230043250A; US11488575B2; JP2024038474A; JP2022137201A; US11848002B2; US20220351713A1; JP7106680B2

Abstract

用于语音合成的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。所述方法、系统和装置包括以下动作：获得目标讲话者的语音的音频表示；获得将要以目标讲话者的话音合成语音的输入文本；通过将所述音频表示提供给被训练以将讲话者彼此区分开的讲话者编码器引擎来生成讲话者矢量；通过将所述输入文本和讲话者矢量提供给已使用参考讲话者的话音进行训练以生成音频表示的声谱图生成引擎来生成以所述目标讲话者的话音讲出的所述输入文本的音频表示；以及提供以所述目标讲话者的话音讲出的所述输入文本的所述音频表示以进行输出。

Description

使用神经网络以目标讲话者的话音从文本合成语音

技术领域

本说明书一般涉及从文本合成语音。

背景技术

神经网络是采用多个操作层来从一个或多个输入预测一个或多个输出的机器学习模型。神经网络通常包括位于输入层与输出层之间的一个或多个隐藏层。每个隐藏层的输出被用作下一个层例如下一个隐藏层或输出层的输入。

神经网络的每个层指定要对该层的输入执行的一个或多个变换操作。一些神经网络层具有被称为神经元的操作。每个神经元接收一个或多个输入并且生成输出，所述输出将由另一神经网络层接收。通常，每个神经元接收来自其它神经元的输入，并且每个神经元向一个或多个其它神经元提供输出。

每个层使用用于该层的参数集的当前值来生成一个或多个输出。训练神经网络涉及对所述输入连续地执行前向传递、计算梯度值以及更新用于每个层的所述参数集的当前值。一旦神经网络被训练，就能够使用最后的参数集来在生产系统中进行预测。

发明内容

一种用于语音合成的基于神经网络的系统可以以许多不同讲话者的话音生成语音音频，所述讲话者包括在训练期间未见过的讲话者。所述系统能够使用来自目标讲话者的几秒钟的未转录参考音频来以目标讲话者的话音合成新语音，而无需更新所述系统的任何参数。所述系统可以使用序列到序列模型，该序列到序列模型从音素的序列或字素的序列生成幅度声谱图，以基于讲话者嵌入产生输出。可以通过使用独立地训练的讲话者编码器网络(在本文中也称为讲话者验证神经网络或讲话者编码器)来计算所述嵌入，该讲话者编码器网络将任意长度语音声谱图编码成固定维嵌入矢量。嵌入矢量是对数据进行编码或以其它方式表示数据的值集。例如，嵌入矢量可以由神经网络的隐藏层或输出层生成，在此情况下所述嵌入矢量对被输入到神经网络的一个或多个数据值进行编码。可以使用来自数千个不同讲话者的噪声语音的分别的数据集来在讲话者验证任务上训练所述讲话者编码器。所述系统可以能够利用由所述讲话者编码器学习到的讲话者可变性的知识，以便通过使用仅来自每个讲话者的几秒钟的音频来很好地概括并合成来自在训练期间从未见过的讲话者的自然语音。

更详细地，所述系统可以包括为讲话者验证任务所配置的独立地训练的讲话者编码器。可以有区别地训练所述讲话者编码器。可以通过使用广义的端到端损失来在来自数千个不同讲话者的未转录音频的大数据集上训练所述讲话者编码器。所述系统可以使网络解耦以使得能够在独立数据集上训练所述网络，这可以减轻在为了每个目的获得高质量训练数据时的一些困难。也就是说，能够通过独立地训练用于采集讲话者特性的空间的讲话者判别嵌入网络(即，讲话者验证神经网络)并且基于由讲话者验证神经网络学习到的表示在较小数据集上训练高质量文本至语音模型(在本文中称为声谱图生成神经网络)来使讲话者建模和语音合成解耦。例如，语音合成可以具有与文本无关讲话者验证的数据要求相比不同且更艰巨的数据要求，并且可能需要具有关联转录的数十小时的干净语音。相比之下，讲话者验证可以很好地利用包含混响和背景噪声的未转录和噪声的语音，但是可能需要足够大数目的讲话者。因此，获得适合于两个目的的单个高质量训练数据集可能比获得对相应目的来说高质量的两个不同训练数据集明显困难得多。

能够实施本说明书的主题以便实现以下优点中的一个或多个。例如，所述系统可以通过根据嵌入先验(单位超球体上的点)随机地采样来产生改善的自适应质量，并且使得能实现与在训练中使用的讲话者不同的全新讲话者的合成。在另一示例中，所述系统可以能够合成仅可获得其短的有限量的样本语音(例如，五秒钟的语音)的目标讲话者的语音。又一个优点可以是，所述系统可以能够在不可获得目标讲话者的语音样本的转录时以目标讲话者的话音合成语音。例如，所述系统可以能够从先前未获得语音样本的“John Doe”(约翰·杜)接收五秒钟语音样本，并且即使在没有该语音样本的转录的情况下，也针对任何任意文本以“John Doe”的话音生成语音。

再一个优点可以是，所述系统可以能够用与特定讲话者的可用样本语音的语言不同的语言生成语音。例如，所述系统可以能够用西班牙语从“John Doe”接收五秒钟语音样本，并且在没有来自“John Doe”的任何其它语音样本的情况下，用英语以“John Doe”的话音生成语音。

与常规系统不同，通过使讲话者建模和语音合成的训练解耦，即使当不可获得具有来自大量讲话者的语音的单个高质量语音数据集的情况下，所描述的系统也能够有效地使语音取决于不同讲话者。

虽然常规系统在能够以新目标讲话者的话音生成语音音频之前可能需要数小时的训练和/或微调，但是所描述的系统能够在无需附加训练或微调的情况下以新目标讲话者的话音生成语音音频。因此，当与常规系统相比时，所描述的系统能够更快地执行需要以最小等待时间以新讲话者的话音生成语音的任务，诸如语音到语音翻译，其中所生成的语音音频是原始讲话者的话音。

在下面的附图和描述中阐述本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书，主题的其它特征、方面和优点将变得显而易见。

在一些方面，本说明书中描述的主题可以以方法实施，所述方法可以包括以下动作：获得目标讲话者的语音的音频表示、获得要以目标讲话者的话音合成语音的输入文本、通过将所述音频表示提供给被训练来将讲话者彼此区分开的讲话者编码器引擎来生成讲话者矢量、通过将所述输入文本和讲话者矢量提供给使用参考讲话者的话音来训练以生成音频表示的声谱图生成引擎而生成以目标讲话者的话音讲出的输入文本的音频表示、以及提供以目标讲话者的话音讲出的输入文本的音频表示以供输出。

可以训练所述讲话者验证神经网络以生成在嵌入空间中靠近在一起的来自同一讲话者的语音的音频表示的讲话者嵌入矢量，同时生成来自彼此远离的不同讲话者的语音的音频表示的讲话者嵌入矢量。替换地或此外，可以与声谱图生成神经网络分开地训练讲话者验证神经网络。所述讲话者验证神经网络是长短期记忆(LSTM)神经网络。

生成讲话者嵌入矢量可以包括：向讲话者验证神经网络提供所述音频表示的多个重叠滑动窗口以生成多个单独的矢量嵌入；以及通过计算所述单独的矢量嵌入的平均值来生成讲话者嵌入矢量。

提供以目标讲话者的话音讲出的输入文本的音频表示以供输出可以包括：将以目标讲话者的话音讲出的输入文本的音频表示提供给声码器，以生成以目标讲话者的话音讲出的输入文本的时域表示；以及提供所述时域表示以供重放给用户。所述声码器可以是声码器神经网络。

所述声谱图生成神经网络可以是被训练来根据音素或字素输入的序列来预测梅尔声谱图的序列到序列注意力神经网络。所述声谱图生成神经网络可以任选地包括编码器神经网络、注意力层和解码器神经网络。所述声谱图生成神经网络可以将讲话者嵌入矢量与编码器神经网络的输出级联，所述输出被作为输入提供给注意力层。

所述讲话者嵌入矢量可以不同于在讲话者验证神经网络或声谱图生成神经网络的训练期间使用的任何讲话者嵌入矢量。在所述声谱图生成神经网络的训练期间，讲话者验证神经网络的参数可以是固定的。

另一个方面提供一种训练用于在语音合成中使用的神经网络的计算机实施的方法，该方法包括：训练讲话者验证神经网络以将讲话者彼此区分开；以及通过使用多个参考讲话者的话音来训练声谱图生成神经网络，以生成输入文本的音频表示。这个方面可以包括前述方面的特征中的任一个。

其它版本包括对应的系统、装置和计算机程序，所述计算机程序被配置为执行所述方法的动作，被编码在计算机存储设备上。

在下面的附图和描述中阐述一个或多个实施方式的细节。根据说明书、附图和权利要求书，其它潜在特征和优点将变得显而易见。

附图说明

图1是能够以目标讲话者的话音合成语音的示例系统的框图。

图2是在训练期间合成语音的示例系统的框图。

图3是在推理期间合成语音的示例系统的框图。

图4是用于生成以目标讲话者的话音讲出的文本的音频表示的示例过程的流程图。

图5是计算设备的示例的图。

在各个附图中，相似的附图标记和名称表示相似的元件。

具体实施方式

图1是描绘能够以目标讲话者的话音合成语音的示例语音合成系统100的框图。语音合成系统100可以作为计算机程序被实施在一个或多个位置中的一个或多个计算机上。语音合成系统100接收输入文本以及目标讲话者的音频表示，并且通过一系列神经网络来处理所述输入来以目标讲话者的话音生成与输入文本相对应的语音。例如，如果语音合成系统100以John Doe说“Hi my name is John Doe and I’m providing this sample ofspeech for testing purposes(嗨，我的名字是John Doe并且我正在提供这个语音样本以用于测试目的)”的五秒钟的音频接收一本书的一页的文本作为输入，则它能够处理这些输入来以John Doe的话音生成该页的口头叙述。在另一示例中，如果语音合成系统100以JaneDoe从另一本书叙述的六秒钟的音频接收一本书的一页的文本作为输入，则它能够处理这些输入来以Jane Doe的话音生成该页的口头叙述。

如图1中所示，系统100包括讲话者编码器引擎110和声谱图(spectrogram)生成引擎120。所述讲话者编码器引擎110接收目标讲话者讲话的音频表示并且对于目标讲话者输出讲话者矢量，也称作讲话者嵌入矢量或嵌入矢量。例如，所述讲话者编码器引擎110接收John Doe说的“Hello my name is John Doe(喂，我的名字是John Doe)”的音频记录，并且作为响应，输出具有标识John Doe的值的矢量。所述讲话者矢量也可以采集讲话者的特征讲话速率。

讲话者矢量可以是固定维嵌入矢量。例如，由讲话者编码器引擎110输出的讲话者矢量可以具有二百五十六个值的序列。讲话者编码器引擎110可以是被训练来将任意长度的语音声谱图编码成固定维嵌入矢量的神经网络。例如，讲话者编码器引擎110可以包括长短期记忆(LSTM)神经网络，该LSTM神经网络被训练来将来自用户的语音的梅尔声谱图(melspectrogram)或对数梅尔声谱图(log-mel spectrogram)表示编码成具有固定数目的元素(例如，二百五十六个元素)的矢量。尽管为了一致性和特异性起见在整个本公开中参考梅尔声谱图，但是可以理解，可以使用其它类型的声谱图或任何其它合适的音频表示。

可以用标记训练数据来训练讲话者编码器引擎110，该标记训练数据包括语音的音频和标记的对，所述标记针对所述音频标识所述讲话者，使得所述引擎110学习将音频分类为与不同讲话者相对应。讲话者矢量可以是LSTM神经网络的隐藏层的输出，其中来自具有更类似的话音的讲话者的音频产生彼此更类似的讲话者矢量，而来自具有更加不同的话音的讲话者的音频产生彼此更加不同的讲话者矢量。

声谱图生成引擎120可以接收要合成的输入文本并且接收由讲话者编码器引擎110确定的讲话者矢量，并且作为响应，以目标讲话者的话音生成该输入文本的语音的音频表示。例如，声谱图生成引擎120可以接收“Goodbye all(再见大家)”的输入文本以及由讲话者编码器引擎110根据John Doe说“Hello my name is John Doe”(喂，我的名字是约翰·杜)的梅尔声谱图表示确定的讲话者矢量，并且作为响应，以John Doe的话音生成“Goodbye all”的语音的梅尔声谱图表示。

声谱图生成引擎120可以包括神经网络，该神经网络是被训练来根据输入文本和目标讲话者的讲话者矢量来预测目标讲话者的话音中的梅尔声谱图的序列到序列注意力(attention)网络(也称作序列到序列合成器、序列到序列合成网络或声谱图生成神经网络)。可以用包括三元组的训练数据来训练神经网络，每个所述三元组包括文本、由特定讲话者进行的文本的语音的音频表示以及该特定讲话者的讲话者矢量。在训练数据中使用的讲话者矢量可以来自声谱图生成引擎120并且可能不必是来自针对该三元组的文本的语音的音频表示。例如，所述训练数据中包括的三元组可以包括“I like computers(我喜欢计算机)”的输入文本、来自John Smith(约翰·史密斯)说的“I like computers”的音频的梅尔声谱图、以及由讲话者编码器引擎110根据来自John Smith说“Hi my name is JohnSmith(嗨，我的名字是John Smith)”的音频的梅尔声谱图输出的讲话者矢量。

在一些实施方式中，可以在讲话者编码器引擎110被训练之后使用所述讲话者编码器引擎110来生成用于所述声谱图生成引擎120的训练数据。例如，成对的训练数据集可以原先仅包括输入文本和该文本的语音的梅尔声谱图的对。可以将已成对的训练数据的每对中的梅尔声谱图提供给训练后的讲话者编码器引擎110，该训练后的讲话者编码器引擎可以针对每个梅尔声谱图输出相应的讲话者矢量。所述系统100然后可以将每个讲话者矢量添加到已成对的训练数据中的相应的对以生成具有文本、由特定讲话者进行的文本的语音的音频表示和该特定讲话者的讲话者矢量的三元组的训练数据。

在一些实施方式中，可以将由声谱图生成引擎120生成的音频表示提供给声码器(vocoder)以生成音频。例如，John Doe说“Goodbye all”的Mel声谱图可以在频域中并被提供给另一神经网络，该另一神经网络被训练来接收频域表示并输出时域表示，并且该另一神经网络可以以John Doe的话音输出“Goodbye all”的时域波形。然后可以将所述时域波形提供给扬声器(例如，扩音器)，该扬声器产生以John Doe的话音讲出的“Goodbye all”的声音。

在一些实施方式中，所述系统100或另一系统可以用于执行用于以目标讲话者的话音合成语音的过程。所述过程可以包括以下动作：获得目标讲话者的语音的音频表示、获得要以目标讲话者的话音合成语音的输入文本、通过将音频表示提供给被训练来将讲话者彼此区分开的讲话者编码器引擎来生成讲话者矢量、通过将输入文本和讲话者矢量提供给使用参考讲话者的话音来训练以生成音频表示的声谱图生成引擎而生成以目标讲话者的话音讲出的输入文本的音频表示、以及提供以目标讲话者的话音讲出的输入文本的音频表示以供输出。

例如，所述过程可以包括讲话者编码器引擎110从Jane Doe说“I likecomputers”的音频获得梅尔声谱图并且针对Jane Doe生成讲话者矢量，该讲话者矢量与将针对John Doe说“I like computers”的梅尔声谱图所生成的讲话者矢量不同。声谱图生成引擎120可以接收Jane Doe的讲话者矢量并且获得“Hola como estas(喂，你好吗)”的输入文本，该输入文本可以是在英语中意思为“Hello,how are you(喂，你好吗)”的西班牙语，并且作为响应可以生成梅尔声谱图，该梅尔声谱图然后可以由声码器转换成以Jane Doe的话音的“Hola como estas”的语音。

在更详细示例中，所述系统100可以包括三个独立地训练的组件：用于讲话者验证的LSTM讲话者编码器，该LSTM讲话者编码器从任意长度语音信号输出固定维矢量；序列到序列注意力网络，该序列到序列注意力网络根据取决于讲话者矢量的音素或字素输入的序列来预测梅尔声谱图；和自回归神经声码器网络，该自回归神经声码器网络将梅尔声谱图转换成时域波形样本的序列。LSTM讲话者编码器可以是讲话者编码器引擎110并且所述序列到序列注意力网络可以是声谱图生成引擎120。

所述LSTM讲话者编码器用于在来自期望目标讲话者的参考语音信号上调节所述合成网络。通过使用采集不同讲话者的特性的参考语音信号能够实现良好的概括。良好的概括能够通过仅使用短自适应信号来导致对这些特性的识别，而与所述信号的语音内容和背景噪声无关。通过使用在文本无关讲话者验证任务上训练的讲话者判别模型来满足这些目标。LSTM讲话者编码器可以是不限于闭合讲话者集的讲话者判别音频嵌入网络。

LSTM讲话者编码器将根据任意长度的语音话音计算的梅尔声谱图帧的序列映射到称为d-矢量或讲话者矢量的固定维嵌入矢量。LSTM讲话者编码器可以被配置为使得给定的话语x，LSTM网络用于学习固定维矢量嵌入e_x＝f(x)。广义的端到端损失可以用于训练所述LSTM网络，使得来自同一讲话者的话语的d-矢量在嵌入空间中彼此靠近，例如，使得所述话语的d-矢量具有高余弦相似度，而来自不同讲话者的话语的d-矢量彼此远离。因此，给定任意长话语，可以在长度例如800毫秒的重叠滑动窗口上运行所述讲话者编码器，并且将L2归一化窗口嵌入的平均值用作整个话语的最终嵌入。

序列到序列注意力神经网络可以通过针对训练数据集中的每个音频示例x在将输出提供给所述注意力神经网络之前在每个时间步将与真实讲话者相关联的d维嵌入矢量与所述编码器神经网络的输出级联来对多个特定讲话者进行建模。提供给所述注意力神经网络的输入层的讲话者嵌入可能足以跨不同讲话者收敛。所述合成器可以是不依靠中间语言特征的端到端合成网络。

在一些实施方式中，可以在文本转录和目标音频的对上训练所述序列到序列注意力网络。在所述输入时，我们将所述文本映射到音素的序列，这导致更快收敛并改善诸如人名或地名的稀有单词的发音。在使用预训练的讲话者编码器(其参数被冻结)来从目标音频中提取讲话者嵌入的转移学习配置中训练所述网络，即讲话者参考信号与训练期间的目标语音相同。在训练期间不使用显式讲话者标识符标记。

附加地或替换地，所述网络的解码器可以包括在声谱图特征重构上的L2损失和附加L1损失两者。组合损失可能在噪声训练数据上更鲁棒。附加地或替换地，可以对目标执行通过谱减法例如以10个百分点减小噪声以让梅尔声谱图预测网络进一步使合成音频变得干净。

所述系统100可以从单个短音频片段采集以前从未见过的讲话者的独特特性并且按这些特性合成新语音。所述系统100可以实现：(1)合成语音的高自然度；和(2)与目标讲话者的高相似度。虽然高自然度通常需要大量的高质量语音转录对作为训练数据，但是实现高相似度通常需要对于每个讲话者的大量训练数据。然而，针对每个单独的讲话者记录大量的高质量数据是非常昂贵的或者甚至在实践中不可行。所述系统100可以将具有高自然度的文本至语音系统的训练与很好地采集讲话者特性的另一讲话者判别嵌入网络的训练分开。在一些实施方式中，在文本无关讲话者验证任务上训练所述讲话者判别模型。

神经声码器将由所述合成器发出的合成梅尔声谱图转换成时域波形。在一些实施方式中，声码器可以是逐个样本的自回归WaveNet(波网)。所述架构能够包括多个扩张卷积层。由合成器网络预测的梅尔声谱图采集各种话音的高质量合成所需的所有相关细节，以允许通过在来自许多讲话者的数据上简单地训练而无需显式地取决于讲话者矢量来构建多讲话者声码器。关于WaveNet架构的更多细节在van den Oord等人的“WaveNet：Agenerative model for raw audio(波网：原始音频的生成模型)”，CoRR abs/1609.03499,2016中有所描述。

图2是在训练期间合成语音的示例系统200的框图。示例系统200包括讲话者编码器210、合成器220和声码器230。所述合成器220包括文本编码器222、注意力神经网络224和解码器226。在训练期间，可以冻结其参数的分开地训练的讲话者编码器210可以从可变长度输入音频信号中提取讲话者的固定长度d-矢量。在训练期间，参考信号或目标音频可以是与文本平行的地面实况音频。d-矢量可以与文本编码器222的输出级联，并在多个时间步中的每个时间步处传递到注意力神经网络224。除了讲话者编码器210之外，所述系统200的其它部分也可以由来自解码器226的重建损失来驱动。合成器220根据输入文本序列预测梅尔声谱图，并且能够将该梅尔声谱图提供给声码器230。声码器230能够将梅尔声谱图转换成时域波形。

图3是在推理期间合成语音的示例系统300的框图。所述系统300包括讲话者编码器210、合成器220和声码器230。在推理期间，可以使用两种方法中的一种。在第一方法中，文本编码器222可以直接取决于来自其转录不需要与要合成的文本匹配的未见过和/或未转录音频的d-矢量。这可以允许所述网络从单个音频片段生成未见过的话音。由于要用于合成的讲话者特性是根据音频推理的，所以它可能取决于来自在训练集外部的讲话者的音频。在第二方法中，可以获得随机样本d-矢量，并且所述文本编码器222可能取决于所述随机样本d-矢量。由于可以从大量讲话者训练所述讲话者编码器，所以所述随机d-矢量也可以产生随机讲话者。

图4是用于生成以目标讲话者的话音讲出的文本的音频表示的示例过程400的流程图。所述示例过程被描述为由根据本说明书适当编程的系统执行。

该系统获得目标讲话者的语音的音频表示(405)。例如，所述音频表示可以是音频记录文件的形式，并且所述音频可以由一个或多个麦克风采集。

所述系统获得将要以目标讲话者的话音合成语音的输入文本(410)。例如，所述输入文本可以是文本文件的形式。

所述系统通过将所述音频表示提供给被训练以将讲话者彼此区分开的讲话者验证神经网络来生成讲话者嵌入矢量(415)。例如，所述讲话者验证神经网络可以是LSTM神经网络，并且所述讲话者嵌入矢量可以是LSTM神经网络的隐藏层的输出。

在一些实施方式中，所述系统将音频表示的多个重叠的滑动窗口提供给讲话者验证神经网络，以生成多个单独的矢量嵌入。例如，所述音频表示可以被分解成大约800ms长度的窗口(例如，750ms或更短、700ms或更短、650ms或更短)，而重叠可以是大约50％(例如，60％或更高、65％或更高、70％或更高)。然后，该系统可以通过计算各个矢量嵌入的平均值来生成讲话者嵌入矢量。

在一些实施方式中，对讲话者验证神经网络进行训练以生成在嵌入空间中靠近在一起的来自同一讲话者的语音的音频表示的讲话者嵌入矢量，例如，d矢量。所述讲话者验证神经网络也可以被训练以生成来自彼此远离的不同讲话者的语音的音频表示的讲话者嵌入矢量。

所述系统通过将输入文本和讲话者嵌入矢量提供给声谱图生成神经网络来生成以目标讲话者的话音讲出的输入文本的音频表示，所述声谱图生成神经网络通过使用参考讲话者的话音进行训练以生成音频表示(420)。

在一些实施方式中，在声谱图生成神经网络的训练期间，所述讲话者嵌入神经网络的参数是固定的。

在一些实施方式中，可以与讲话者验证神经网络分开地训练所述声谱图生成神经网络。

在一些实施方式中，所述讲话者嵌入矢量不同于在讲话者验证神经网络或声谱图生成神经网络的训练期间使用的任何讲话者嵌入矢量。

在一些实施方式中，所述声谱图生成神经网络是序列到序列注意力神经网络，其被训练以根据音素或音素输入序列来预测梅尔声谱图。例如，所述声谱图生成神经网络体系可以基于Tacotron2。关于Tacotron2神经网络架构的更多详细节在Shen等人在2018年Proc.IEEE国际声学、语音与信号处理会议(ICASSP)中发布的Natural TIS synthesis byconditioning WaveNet on mel spectrogram predictions(通过基于梅尔声谱图预测的波网进行自然TIS合成)中进行描述。

在一些实施方式中，所述声谱图生成神经网络包括声谱图生成神经网络，所述声谱图生成神经网络包括编码器神经网络、注意力层和解码器神经网络。在一些实施方式中，所述声谱图生成神经网络将讲话者嵌入矢量与编码器神经网络的输出级联，该编码器神经网络的输出被提供为所述注意力层的输入。

在一些实施方式中，可以在不平衡和不相交的讲话者集合上训练所述编码器神经网络和序列到序列注意力神经网络。可以训练所述编码器神经网络来在讲话者之间进行区分，这可以导致讲话者特性的更可靠传递。

所述系统提供以目标讲话者的话音讲出的输入文本的音频表示以用于输出(425)。例如，所述系统可以生成所述输入文本的时域表示。

在一些实施方式中，所述系统将以目标讲话者的话音讲出的输入文本的音频表示提供给声码器，以生成以目标讲话者的话音所讲出的输入文本的时域表示。该系统可以提供所述时域表示以回放给用户。

在一些实施方式中，所述声码器是声码器神经网络。例如，所述声码器神经网络可以是逐个样本的自回归WaveNet，其可以将所述合成网络生成的合成梅尔声谱图反转成时域波形。所述声码器神经网络可以包括多个扩张卷积层。

图5示出能够用于实施这里描述的技术的计算设备500和移动计算设备450的示例。计算设备500旨在代表各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。移动计算设备450旨在代表各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。此处示出的组件、它们的连接和关系以及它们的功能仅是示例，并不意味着限制。

计算设备500包括处理器502、存储器504、存储设备506、连接到存储器504和多个高速扩展端口510的高速接口508、以及连接到低速扩展接口514和存储设备506的低速接口512。所述处理器502、存储器504、存储设备506、高速接口508、高速扩展端口510和低速接口512中的每一个通过各种总线互连，并且可以安装在通用主板上或以其他合适的方式安装。处理器502可以处理用于在计算设备500内执行的指令，包括存储在存储器504中或存储在存储设备506上的指令，以在诸如耦合到高速接口508的显示器516的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息。在其他实施方式中，可以适当地使用多个处理器和/或多个总线，以及多个存储器和各种类型的存储器。而且，可以连接多个计算设备，每个设备提供必要操作的部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器504在计算设备500内存储信息。在一些实施方式中，存储器504是一个或多个易失性存储单元。在一些实施方式中，存储器504是一个或多个非易失性存储单元。存储器504也可以是另一种形式的计算机可读介质，诸如磁盘或光盘。

存储设备506能够为计算设备500提供大容量存储。在一些实施方式中，存储设备506可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、磁带设备、闪存或其他类似的固态存储设备或设备阵列，包括在存储区域网络或其他配置中的设备。指令可以存储在信息载体中。当指令由一个或多个处理设备(例如，处理器502)执行时，执行一种或多种方法，诸如上述那些方法。所述指令还可以由诸如计算机可读或机器可读介质的一个或多个存储设备(例如，存储器504、存储设备506或处理器502上的存储器)存储。

高速接口508管理用于计算设备500的带宽密集型操作，而低速接口512管理较低的带宽密集型操作。这种功能分配仅是示例。在一些实施方式中，高速接口508被耦合到存储器504、显示器516(例如，通过图形处理器或加速器)，并且被耦合到可以接受各种扩展卡(未示出)的高速扩展端口510。在所述实施方式中，低速接口512被耦合到存储设备506和低速扩展端口514。所述低速扩展端口514可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)，可以例如通过网络适配器被耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或诸如交换机或路由器的网络设备。

如附图中所示，可以以多种不同形式来实施计算设备500。例如，其可以被实施为标准服务器520，或者多次被实施为一组这样的服务器。另外，其可以在诸如膝上型计算机522的个人计算机中实施。其也可以作为机架服务器系统524的一部分实施。可替选地，来自计算设备500的组件可以与诸如移动计算设备450的移动设备(未示出)中的其他组件组合。每个这样的设备可以包含计算设备500和移动计算设备450中的一个或多个，并且整个系统可以由彼此通信的多个计算设备组成。

移动计算设备550包括处理器552、存储器564、诸如显示器554的输入/输出设备、通信接口566和收发器568、以及其他组件。移动计算设备550还可以被设置有存储设备，诸如微驱动器或其他设备，以提供附加的存储。处理器552、存储器564、显示器554、通信接口566和收发器568中的每一个使用各种总线互连，并且数个组件可以安装在通用主板上或以适当的其他方式安装。

处理器552可以在移动计算设备550内执行指令，包括存储在存储器564中的指令。处理器552可以被实施为包括分开的和多个模拟和数字处理器的芯片的芯片组。处理器552可以提供例如用于移动计算设备450的其他组件的协调，诸如对用户接口的控制、由移动计算设备450运行的应用程序以及由移动计算设备450进行的无线通信。

处理器552可以通过控制接口558和耦合到显示器554的显示接口556与用户通信。显示器554可以是例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其他合适的显示技术。显示接口556可以包括用于驱动显示器554以向用户呈现图形和其他信息的适当电路。控制接口558可以从用户接收命令并且将其进行转换以提交给处理器552。另外，外部接口562可以提供与处理器552的通信，使得能够实现移动计算设备450与其他设备的近距离通信。例如，外部接口562可以在一些实施方式中提供用于有线通信，或者在其他实施方式中提供用于无线通信，并且也可以使用多个接口。

存储器564在移动计算设备450内存储信息。存储器564可以被实施为一个或多个计算机可读介质、一个或多个易失性存储单元或者一个或多个非易失性存储单元中的一种或多种。还可以提供扩展存储器574，并通过扩展接口572被连接到移动计算设备450，该扩展接口572可以包括例如SIMM(单列存储模块)卡接口。扩展存储器574可以为移动计算设备450提供额外的存储空间，或者还可以为移动计算设备450存储应用程序或其他信息。具体地，扩展存储器574可以包括用于执行或补充上述过程的指令，并且还包括安全信息。因此，例如，扩展存储器574可以被设置为用于所述移动计算设备450的安全模块，并且可以用允许安全使用移动计算设备450的指令来编程。此外，可以经由SIMM卡安全地提供安全应用程序，以及其他信息，例如以不可入侵的方式在SIMM卡上放置标识信息。

所述存储器可包括例如闪存和/或NVRAM存储器(非易失性随机存取存储器)，如下面所讨论的。在一些实施方式中，指令被存储在信息载体中，该指令当被一个或多个处理设备(例如，处理器552)执行时，执行一种或多种方法，诸如上述那些方法。所述指令也可以由一个或多个存储设备存储，诸如一个或多个计算机或机器可读介质(例如，存储器564、扩展存储器574或处理器552上的存储器)。在一些实施方式中，可以例如通过收发器568或外部接口562以传播的信号来接收所述指令。

移动计算设备450可以通过通信接口566无线通信，该通信接口在必要时可以包括数字信号处理电路。通信接口566可以在各种模式或协议下提供通信，诸如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息服务)或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线电业务)等。例如，可以使用射频通过收发器568发生这种通信。另外，可以发生短距离通信，诸如使用蓝牙、WiFi或其他这样的收发器(未示出)。另外，GPS(全球定位系统)接收器模块570可以向移动计算设备450提供附加的导航和与位置有关的无线数据，其可以适当地由在移动计算设备450上运行的应用程序使用。

移动计算设备450还可以使用音频编解码器560进行听觉通信，该音频编解码器560可以从用户接收语音信息并将其转换为可用的数字信息。诸如通过扬声器，例如，在移动计算设备450的听筒中，音频编解码器560可以类似地为用户生成可听见的声音。这种声音可以包括来自语音电话呼叫的声音，可以包括记录的声音(例如语音消息、音乐文件等)，并且还可以包含由在移动计算设备450上运行的应用程序生成的声音。

移动计算设备450可以以多种不同的形式实施，如附图中所示。例如，其可以被实施为蜂窝电话580。其也可以被实施为智能电话582、个人数字助理或其他类似的移动设备的一部分。

这里描述的系统和技术的各种实施方式可以以数字电子电路、集成电路、专门设计的ASIC、计算机硬件、固件、软件和/或其组合来实施。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式，该计算机程序可以在包括至少一个可编程处理器的可编程系统上执行和/或解释，所述处理器可以是专用的或通用的，被耦合以从中接收数据和指令，并且向存储系统、至少一个输入设备和至少一个输出设备传输数据和指令。

这些计算机程序，也称为程序、软件、软件应用程序或代码，包括用于可编程处理器的机器指令，并且可以以高级过程语言和/或面向对象的编程语言和/或以汇编/机器语言实现。程序可以存储在保持其他程序或数据的文件的一部分(例如，标记语言文档中的一个或多个脚本)中、存储在专用于所讨论程序的单个文件中、或存储在多个协调文件(例如一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在一台计算机上执行，或者在位于一个站点上或分布在多个站点上并通过通信网络互连的多台计算机上执行。

如本文所使用的，术语“机器可读介质”、“计算机可读介质”是指用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、装置和/或设备，例如，磁盘、光盘、存储器、可编程逻辑设备(PLD)，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，本文描述的系统和技术可以在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)、以及通过其用户能够将输入提供给计算机的键盘和指示设备(例如，鼠标或轨迹球)的计算机上实施。其他种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。

能够在计算系统中实施本文描述的系统和技术，所述计算系统包括后端组件，例如，作为数据服务器，或包括中间件组件，诸如应用服务器，或包括前端组件，诸如具有通过其用户能够与本文描述的系统和技术的实施方式交互的图形用户界面或Web浏览器的客户端计算机，或者这种后端、中间件或前端组件的任何组合。所述系统的组件能够通过诸如通信网络的数字数据通信的任何形式或介质来互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。

所述计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

除以上描述之外，可以向用户提供控件，该控件允许用户就本文描述的系统、程序或特征是否以及何时可以被允许收集用户的信息(例如，关于用户的社交网络、社交动作或活动、专业、用户的偏好、或用户的当前位置的信息)、以及所述用户是否被从服务器发送了内容或通信做出选择。此外，某些数据可以在它被存储或者使用之前以一种或多种方式被处理，使得个人可识别的信息被移除。

例如，在一些实施方式中，可以处理用户的身份，使得对所述用户来说不能够确定个人可识别的信息、或者用户的地理位置可以在获得位置信息时被一般化(诸如到城市、邮政编码、或州级别)，使得不能够确定用户的特定位置。因此，所述用户可以具有对收集关于该用户的什么信息、如何使用该信息并且向该用户提供什么信息的控制。

已经描述了多个实施例。然而，可以理解的是，在不脱离本发明的精神和范围的情况下可以做出各种修改。例如，在对步骤进行重新排序、添加或移除的情况下，可以使用上面所示的各种形式的流程。而且，尽管已经描述了所述系统和方法的几种应用，但是应该认识到可以想到许多其他应用。因此，其他实施例在所附权利要求的范围内。

已经描述了所述主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在一些情况下，多任务和并行处理可能是有利的。

Claims

1.一种计算机实施的方法，包括：

获得目标讲话者的语音的音频表示；

获得将要以所述目标讲话者的话音合成语音的输入文本；

通过将所述音频表示提供给被训练以将讲话者彼此区分开的讲话者验证神经网络来生成讲话者嵌入矢量；

通过将所述输入文本和所述讲话者嵌入矢量提供给声谱图生成神经网络来生成以所述目标讲话者的话音讲出的所述输入文本的音频表示，所述声谱图生成神经网络使用参考讲话者的话音进行训练以生成音频表示；以及

提供以所述目标讲话者的话音讲出的所述输入文本的所述音频表示以进行输出。

2.根据权利要求1所述的方法，其中，所述讲话者验证神经网络被训练以生成来自在嵌入空间中靠近在一起的同一讲话者的语音的音频表示的讲话者嵌入矢量，同时生成来自彼此远离的不同讲话者的语音的音频表示的讲话者嵌入矢量。

3.根据前述权利要求中任一项所述的方法，其中，所述讲话者验证神经网络与所述声谱图生成神经网络分开地被训练。

4.根据前述权利要求中任一项所述的方法，其中，所述讲话者验证神经网络是长短期记忆(LSTM)神经网络。

5.根据前述权利要求中任一项所述的方法，其中，生成所述讲话者嵌入矢量包括：

向所述讲话者验证神经网络提供所述音频表示的多个重叠的滑动窗口，以生成多个单独的矢量嵌入；和

通过计算所述单独的矢量嵌入的平均值来生成所述讲话者嵌入矢量。

6.根据前述权利要求中任一项所述的方法，其中，提供以所述目标讲话者的话音讲出的所述输入文本的所述音频表示以进行输出包括：

将以所述目标讲话者的话音讲出的所述输入文本的所述音频表示提供给声码器，以生成以所述目标讲话者的话音讲出的所述输入文本的时域表示；以及

提供所述时域表示以向用户进行回放。

7.根据权利要求6所述的方法，其中，所述声码器是声码器神经网络。

8.根据前述权利要求中任一项所述的方法，其中，所述声谱图生成神经网络是序列到序列注意力神经网络，所述序列到序列注意力神经网络被训练以从音素或字素输入的序列来预测梅尔声谱图。

9.根据权利要求8所述的方法，其中，所述声谱图生成神经网络包括编码器神经网络、注意力层和解码器神经网络。

10.根据权利要求9所述的方法，其中，所述声谱图生成神经网络将所述讲话者嵌入矢量与所述编码器神经网络的输出级联，所述编码器神经网络的输出作为输入被提供给所述注意力层。

11.根据前述权利要求中任一项所述的方法，其中，所述讲话者嵌入矢量与在所述讲话者验证神经网络或所述声谱图生成神经网络的训练期间使用的任何讲话者嵌入矢量不同。

12.根据前述权利要求中任一项所述的方法，其中，在所述声谱图生成神经网络的训练期间，所述讲话者验证神经网络的参数是固定的。

13.一种训练神经网络以用于语音合成的计算机实施的方法，所述方法包括：

训练讲话者验证神经网络以将讲话者彼此区分；以及

使用多个参考讲话者的话音来训练声谱图生成神经网络，以生成输入文本的音频表示。

14.一种包括一个或多个计算机和一个或多个存储设备的系统，所述存储设备存储指令，所述指令当由所述一个或多个计算机执行时使所述一个或多个计算机执行根据前述权利要求中任一项所述的方法的操作。

15.一种或多种存储指令的计算机可读存储介质，所述指令当由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至13中的任一项所述的方法的操作。