CN113823257A

CN113823257A - 语音合成器的构建方法、语音合成方法及装置

Info

Publication number: CN113823257A
Application number: CN202110679577.XA
Authority: CN
Inventors: 阳珊; 苏丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-12-21
Anticipated expiration: 2041-06-18
Also published as: CN113823257B

Abstract

本公开提供了一种语音合成器的构建方法、语音合成方法、语音合成装置以及设备。语音合成器的构建方法包括：获取多个训练语音样本；利用多个训练语音样本对语音特征提取模型和语音合成模型进行联合训练，以获取多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布；利用多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布以及与多个训练语音样本对应的多个训练文本样本，对语音特征预测模型进行训练；以及利用所训练的语音特征预测模型和语音合成模型构建语音合成器。

Description

语音合成器的构建方法、语音合成方法及装置

技术领域

本公开涉及人工智能领域，并且更具体地涉及一种语音合成器的构建方法、语音合成方法、语音合成装置以及设备。

背景技术

在现今生活中，语音技术(Speech Technology)已被广泛应用。语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)、语音合成技术(Text toSpeech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

通常，语音合成系统可以包括声学模型和声码器两个部分，其中，声学模型的目的是实现从文本到语音特征的映射，声码器的目的则是基于语音特征来合成语音。在对声码器进行训练时，现有的声码器技术需要使用真实语音来提取诸如梅尔谱等的真实语音特征，然后用该真实语音特征对声码器的语音合成过程进行训练。然而，在实际应用语音合成系统进行从文本到语音的合成过程时，是利用声学模型从输入文本来预测语音特征。由于声学模型存在预测误差，利用声学模型预测得到的语音特征与从真实语音中提取到的真实语音特征之间存在较大的不匹配，这会导致声码器基于预测的语音特征合成的语音存在明显的沙哑或底噪问题。

发明内容

为了解决上述问题，本公开提供了一种语音合成器的构建方法、语音合成方法、语音合成装置以及设备。

根据本公开实施例的一个方面，提供了一种语音合成器的构建方法，所述构建方法包括：获取多个训练语音样本；利用所述多个训练语音样本对语音特征提取模型和语音合成模型进行联合训练，以获取所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布；利用所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布以及与所述多个训练语音样本对应的多个训练文本样本，对语音特征预测模型进行训练；以及利用所训练的所述语音特征预测模型和所述语音合成模型构建所述语音合成器。

根据本公开实施例的示例，其中，利用所述多个训练语音样本对语音特征提取模型和语音合成模型进行联合训练，以获取所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布包括：对于所述多个训练语音样本中的每个训练语音样本，利用所述语音特征提取模型获取所述训练语音样本的至少一个初始训练语音特征分布；利用所述语音合成模型，基于所述至少一个初始训练语音特征分布中的每个初始训练语音特征分布中的采样语音特征，生成对应于所述训练语音样本的合成训练语音；基于所述训练语音样本和所述合成训练语音对所述语音特征提取模型和所述语音合成模型进行联合训练，以及利用联合训练后的语音特征提取模型获取所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布。

根据本公开实施例的示例，其中，基于所述训练语音样本和所述合成训练语音对所述语音特征提取模型和所述语音合成模型进行联合训练包括：基于所述训练语音样本和所述合成训练语音确定语音合成损失函数；以及利用所述语音合成损失函数对所述语音特征提取模型和所述语音合成模型进行联合训练，其中，所述语音合成损失函数至少包括基于所述训练语音样本和所述合成训练语音生成的重构损失分量、以及基于采样过程的相对熵的采样损失分量。

根据本公开实施例的示例，其中，所述语音特征提取模型和所述语音合成模型构成生成式对抗网络的生成器，所述生成式对抗网络还包括至少一个判别器，其中，基于所述训练语音样本和所述合成训练语音对所述语音特征提取模型和所述语音合成模型进行联合训练还包括：基于所述训练语音样本和所述合成训练语音，分别计算生成器的损失函数和至少一个判别器的损失函数，其中，所述生成器的损失函数包括所述语音合成损失函数；以及利用所述生成器的损失函数和所述至少一个判别器的损失函数，对所述语音特征提取模型和所述语音合成模型进行联合对抗训练。

根据本公开实施例的示例，其中，所述生成器的损失函数还包括基于所述至少一个判别器对所述合成训练语音的判别结果的对抗损失分量，以及基于所述至少一个判别器对所述训练语音样本的判别结果和所述至少一个判别器对所述合成训练语音的判别结果生成的特征匹配损失分量。

根据本公开实施例的示例，其中，基于所述训练语音样本和所述合成训练语音对所述语音特征提取模型和所述语音合成模型进行联合训练还包括：利用基频预测模型，基于所述采样语音特征生成所述训练语音样本的预测基频信息；基于所述训练语音样本、所述合成训练语音、所述预测基频信息以及所述训练语音样本的真实基频信息，确定语音合成损失函数；以及利用所述语音合成损失函数对所述语音特征提取模型和所述语音合成模型进行联合训练。

根据本公开实施例的示例，其中，所述语音合成损失函数至少包括基于所述训练语音样本和所述合成训练语音生成的重构损失分量、基于采样过程的相对熵的采样损失分量、以及基于所述预测基频信息和所述训练语音样本的真实基频信息生成的基频预测损失分量。

根据本公开实施例的示例，其中，所述语音特征预测模型包括文本特征提取模型和特征映射模型，并且，利用所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布以及与所述多个训练语音样本对应的多个训练文本样本，对语音特征预测模型进行训练包括：对于与所述多个训练语音样本对应的多个训练文本样本中的每个训练文本样本：利用所述文本特征提取模型获取所述训练文本样本的至少一个训练文本特征分布；利用所述特征映射模型，将所述至少一个训练语音特征分布的多个采样语音特征映射为满足对应的训练语音样本的至少一个训练文本特征分布的多个映射文本特征；以及利用基于所述多个映射文本特征确定的损失函数，对所述语音特征预测模型进行训练。

根据本公开实施例的示例，其中，所述特征映射模型是可逆模型，其还用于将至少一个文本特征分布的采样文本特征逆映射为满足至少一个语音特征分布的映射语音特征。

根据本公开实施例的示例，在利用特征映射模型将所述至少一个训练语音特征分布的采样语音特征映射为满足所述至少一个训练文本特征分布的映射文本特征之前，所述构建方法还包括：将所述至少一个训练文本特征分布的数量与对应的训练语音样本的至少一个训练语音特征分布的数量对齐。

根据本公开实施例的另一方面，提供了一种语音合成方法，包括：接收输入文本；利用语音特征预测模型，确定所述输入文本的预测语音特征；利用语音合成模型，基于所述预测语音特征生成所述输入文本的合成语音，其中，所述语音特征预测模型包括文本特征提取模型和特征映射模型，并且，所述利用语音特征预测模型确定所述输入文本的预测语音特征包括：利用所述文本特征提取模型从所述输入文本提取至少一个文本特征分布；以及利用所述特征映射模型，将所述至少一个文本特征分布的采样文本特征映射为映射语音特征，并将所述映射语音特征作为所述预测语音特征；其中，所述语音特征预测模型和所述语音合成模型的训练语音样本符合统一的语音特征分布。

根据本公开实施例的示例，其中，在利用所述特征映射模型将所述至少一个文本特征分布的采样文本特征映射为映射语音特征之前，所述利用语音特征预测模型确定所述输入文本的预测语音特征还包括：将所述至少一个文本特征分布的数量与所述预测语音特征的长度对齐。

根据本公开实施例的示例，其中，所述语音合成模型和所述语音特征预测模型是通过以下方法进行构建的：获取多个训练语音样本；利用所述多个训练语音样本对语音特征提取模型和所述语音合成模型进行联合训练，以获取所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布；利用所述至少一个训练语音特征分布以及与所述多个训练语音样本对应的多个训练文本样本，对所述语音特征预测模型进行训练。

根据本公开实施例的另一方面，提供了一种语音合成装置，包括：输入单元，被配置为接收输入文本；语音特征预测单元，被配置为确定所述输入文本的预测语音特征；语音合成单元，被配置为基于所述预测语音特征生成所述输入文本的合成语音，其中，所述语音特征预测单元包括：文本特征提取单元，被配置为从所述输入文本提取至少一个文本特征分布；以及特征映射单元，被配置为将所述至少一个文本特征分布的采样文本特征映射为映射语音特征，并将所述映射语音特征作为所述预测语音特征；其中，所述语音特征预测单元和所述语音合成单元的训练语音样本符合相同的语音特征分布。

根据本公开实施例的示例，其中，所述语音特征预测单元还包括对齐单元，其被配置为在利用特征映射单元将至少一个文本特征分布的采样文本特征映射为映射语音特征之前，将至少一个文本特征分布的数量与预测语音特征的长度对齐。

根据本公开实施例的示例，其中，所述语音合成单元和所述语音特征预测单元是通过以下方法进行构建的：获取多个训练语音样本；利用所述多个训练语音样本对语音特征提取单元和所述语音合成单元进行联合训练，以获取所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布；利用所述至少一个训练语音特征分布以及与所述多个训练语音样本对应的多个训练文本样本，对所述语音特征预测单元进行训练。

根据本公开实施例的另一方面，提供了一种语音合成设备，包括：一个或多个处理器；以及一个或多个存储器，其中所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行上述各个方面中所述的方法。

根据本公开实施例的另一方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如本公开上述各个方面中任一项所述的方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，其中包括计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如本公开上述各个方面中任一项所述的方法。

利用根据本公开上述各个方面的语音合成器的构建方法、语音合成方法、装置、设备、计算机可读存储介质以及计算机程序产品，由于语音合成器的语音特征预测模型和语音合成模型的训练语音样本符合统一的语音特征分布，或者说，由于语音特征预测模型和语音合成模型的特征是相匹配的，相比于传统的语音合成方法，根据本公开实施例的语音合成方法可以生成更高质量的合成语音，并且对于新的说话人也具有非常好的鲁棒性，从而节省了大量的建模耗时和成本，便于快速地构建新说话人的合成语音。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开实施例的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据一个示例的语音合成系统的结构示意图；

图2示出了根据本公开实施例的语音合成器的构建方法的流程图；

图3示出了根据本公开实施例的示例的语音合成器的构建系统框架的示意图；

图4A示出了根据本公开实施例的示例的语音特征提取模型和语音合成模型的联合训练方法的流程图；

图4B示出了根据本公开实施例的示例的语音特征预测模型的训练方法的流程图；

图5示出了根据本公开实施例的语音合成方法的流程图；

图6示出了根据本公开实施例的语音合成装置的结构示意图；

图7示出了根据本公开实施例的示例性计算设备的架构的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

首先参照图1描述语音合成系统的一般结构。图1示出了根据一个示例的语音合成系统的结构示意图。如图1所述，语音合成系统100一般可以包括声学模型110和声码器120。其中，声学模型110可以实现从输入文本到语音特征的映射，声码器120则可以基于语音特征来合成语音。在将希望进行语音合成的文本输入到语音合成系统100之后，声学模型110从输入文本中预测语音特征，并将预测的语音特征输入到声码器120；声码器120则基于预测的语音特征来合成语音。

现今的声码器一般采用生成式模型，例如序列生成模型(WaveNet)，生成式对抗网络(Generative Adversarial Networks，GAN)或者流模型(Flow模型)等，它们分别以自回归或者对抗学习等方式进行建模，使得声码器能够实现语音合成。在对声码器进行建模训练时，一般从真实语音信号中提取诸如梅尔谱等的语音特征作为声码器的训练输入。如图1所示，在对声码器120进行训练时，首先从训练声音样本中提取真实语音特征(例如梅尔谱)作为声码器120的输入，然后基于该真实语音特征来还原语音。例如，这里将声码器120基于训练声音样本的真实语音特征还原的语音称为合成训练语音。之后，基于合成训练语音与训练声音样本之间的损失函数对声码器120进行多次训练。

利用上述方法训练得到的声码器能够从诸如梅尔谱的真实语音特征中较好地还原语音。然而，在实际使用语音合成系统100对输入文本进行语音合成时，声码器120所接收的是由声学模型110预测的语音特征。由于声学模型110存在预测损失，声码器120所接收的来自声学模型110的预测的语音特征与真实语音特征之间存在较大的不匹配，这导致声码器120所生成的合成语音并不理想，例如经常存在明显的沙哑或底噪问题。

现今的声学模型主要包括帧级声学模型和序列到序列声学模型，这两类声学模型一般采用均方根误差(Root Mean Square Error，RMSE)准则来优化模型参数，以期尽量减少预测的语音特征与真实语音特征之间的差异。然而，声学模型的预测特征与声码器的建模输入特征之间的不匹配问题仍然未能得到妥善解决。

为此，本公开提供了一种语音合成器的构建方法、语音合成方法、装置和设备。在根据本公开实施例的语音合成器的构建方法和语音合成方法中，声学模型和声码器的训练语音样本符合统一的语音特征分布，具体来说，声学模型的建模输出特征与声码器的建模输入特征均符合统一的语音特征分布，从而可以解决声学模型与声码器之间的不匹配问题，如下文将进一步详细描述的。

下面参照图2和图3描述根据本公开实施例的语音合成器的构建方法。图2示出了根据本公开实施例的语音合成器的构建方法200的流程图，图3示出了根据本公开实施例的示例的语音合成器的构建系统框架的示意图。

语音合成器300可以包括语音特征预测模型310和语音合成模型320，如图3所示，其中，构建语音特征预测模型310的目的是期望实现从输入文本中预测语音特征，即期望语音特征预测模型310可以实现声学模型的功能；构建语音合成模型320的目的则是期望实现基于语音特征来合成语音，即期望语音合成模型320可以实现声码器的功能。另外，构建了语音特征提取模型330，以期从语音信号中提取能够反映语音的音色、基本频率(基频)、振幅等各方面信息的语音特征分布，以用于训练语音特征预测模型310和语音合成模型320。

如图2所示，在步骤S210中，获取多个训练语音样本。其中，多个训练语音样本可以是来自任意一个或多个语音提供者的语音样本，语音提供者例如可以是说话的人，拟人声的动物或其他自然声源、机器声源等等。在获取多个训练语音样本时，可以根据需要实时采集来自一个或多个语音提供者的多个语音样本，例如，在希望语音合成器合成特定人的声音时，可以采集该特定人的语音作为训练语音样本；或者，可以从公开的语音语料库中获取多个训练语音样本，等等。

在步骤S220中，利用多个训练语音样本对语音特征提取模型330和语音合成模型320进行联合训练，以获取多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布。其中，训练语音特征分布可以反映训练语音样本的音色、基频、振幅等各方面信息。经过联合训练后的语音特征提取模型330可以从输入语音中提取可以精确反映语音特征的至少一个训练语音特征分布；同时，经过联合训练后的语音合成模型320则可以基于符合特定语音特征分布(即，与由语音特征提取模型330获取的语音特征分布相统一的分布)的任意语音特征来合成语音。对语音特征提取模型330和语音合成模型320进行联合训练的方法将在下文进一步详细描述。

在步骤S230中，利用多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布以及与多个训练语音样本对应的多个训练文本样本，对语音特征预测模型310进行训练。可以理解的是，多个训练语音样本中的每个训练语音样本都具有其对应的训练文本样本，该训练文本样本记载了训练语音样本的语音内容。通过利用从多个训练语音样本中的每个训练语音样本中提取的至少一个训练语音特征分布以及对应的多个训练文本样本，对语音特征预测模型310进行训练，使得语音特征预测模型310可以从任意输入文本中预测符合特定语音特征分布(即，与由语音特征提取模型330获取的语音特征分布相统一的分布)的语音特征，以提供给语音合成模型320来进行语音合成。对语音特征预测模型310进行训练的方法将在下文进一步详细描述。

由步骤S220和步骤S230可见，在根据本公开实施例的语音合成器的构建方法200中，语音合成器300的语音特征预测模型310和语音合成模型320的训练语音样本符合统一的语音特征分布，即均符合由语音特征提取模型330从训练语音样本中获取的语音特征分布。在完成对语音特征预测模型310和语音合成模型320的训练之后，在步骤S240中，利用所训练的语音特征预测模型310和语音合成模型320来构建语音合成器300。在利用上述方法构建得到的语音合成器300中，语音特征预测模型310的预测输出特征和语音合成模型320的输入特征是相匹配的，从而能够由输入文本生成高质量的合成语音。

下面参照图4A对步骤S220中对语音特征提取模型330和语音合成模型320进行联合训练的方法做进一步的详细描述。图4A示出了根据本公开实施例的示例的语音特征提取模型和语音合成模型的联合训练方法的流程图

如图4A所示，对于多个训练语音样本中的每个训练语音样本，利用该训练语音样本对语音特征提取模型330和语音合成模型320进行如下所述的联合训练处理。在步骤S221中，利用语音特征提取模型获取训练语音样本的至少一个初始训练语音特征分布。这里，为了与经过联合训练后的语音特征提取模型所获取的训练语音特征分布相区分，将训练过程中的语音特征提取模型所获取的训练语音特征分布称为初始训练语音特征分布。因此，应当理解的是，下文在训练过程中提到的训练语音特征分布均应理解为初始训练语音特征分布，并且针对初始训练语音特征分布的描述也可以适用于训练语音特征分布。

具体地，如图3所示，可以利用语音特征提取模型330来获取训练语音样本的至少一组语音特征参数，该至少一组语音参数可以表征训练语音样本的至少一个初始训练语音特征分布。在本公开实施例中，初始训练语音特征分布可以是高斯分布，则从训练语音样本中获取的至少一组语音特征参数为高斯分布的平均值Z_μ和方差Z_σ，但本公开实施例不限于此，初始训练语音特征分布也可以是其他类型的分布，并且相应的语音特征参数也可以是其他类型的参数。

结合具体示例进行说明，例如，训练语音样本可以是一条长度为100帧的语音，语音特征提取模型330可以从该训练语音样本中提取100组(Z_μ，Z_σ)，即得到了反映该训练语音样本的语音特征的100个初始训练语音特征分布。需要说明的是，在该示例中，从长度为100帧的训练语音样本中提取100个初始语音特征分布仅仅是作为示例，本公开实施例并不对从一条或一帧训练语音样本中提取的训练语音特征分布的数量作具体的限定，而是可以是任意合适的数值。

在步骤S222中，利用语音合成模型320，基于至少一个初始训练语音特征分布中的每个初始训练语音特征分布中的采样语音特征，生成对应于训练语音样本的合成训练语音。具体地，首先，对每个初始训练语音特征分布进行采样以得到采样语音特征，该采样过程例如可以是随机进行的，但本公开实施例对此不作具体限制。然后，利用语音合成模型320基于所得到的采样语音特征来还原语音。这里，将从采样语音特征还原的语音称为合成训练语音，如图3中的w’所示。

然后，在步骤S223中，基于训练语音样本和合成训练语音对语音特征提取模型330和语音合成模型320进行联合训练。例如，可以基于训练语音样本和合成训练语音来确定损失函数，例如可以称为语音合成损失函数；然后，利用语音合成损失函数对语音特征提取模型330和语音合成模型320进行联合训练。例如，可以通过使语音合成损失函数最小来对语音特征提取模型330和语音合成模型320进行联合训练；或者可以通过构建生成式对抗网络(GAN)，来对语音特征提取模型330和语音合成模型320进行联合对抗训练，如下文将进一步详细描述的。其中，语音合成损失函数至少包括基于训练语音样本和合成训练语音生成的重构损失分量、以及基于采样过程的相对熵的采样损失分量，如下文将进一步详细描述的。

对多个训练语音样本中的每个训练语音样本，均进行上述步骤S221、S222和S223中的训练处理，以对语音特征提取模型330和语音合成模型320进行联合训练，从而使得语音特征提取模型330能够从任意输入的语音信号中提取最精确的语音特征分布，同时使得语音合成模型320能够基于来自语音特征分布的采样语音特征来生成无限接近输入语音信号的合成语音。在完成联合训练后，可以利用联合训练后的语音特征提取模型330来获取多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布，以用于训练语音特征预测模型310。

另外，根据本公开实施例的示例，为了使得利用语音特征提取模型330获取的训练语音样本的语音特征可以进一步准确地反映训练语音样本的基频等的相关信息，在对语音特征提取模型330和语音合成模型320进行联合训练时，可以进一步引入基频预测模型350，如图3所示。在此情况下，上述步骤S223中基于训练语音样本和合成训练语音对语音特征提取模型和语音合成模型进行联合训练可以包括：利用基频预测模型，基于从至少一个初始语音特征分布获取的采样语音特征生成训练语音样本的预测基频信息；基于训练语音样本、合成训练语音、预测基频信息以及训练语音样本的真实基频信息确定语音合成损失函数，然后利用该语音合成损失函数对语音特征提取模型330和语音合成模型320进行联合训练。

也就是说，在联合训练过程中，通过从训练语音样本获取的真实基频信息，来对由基频预测模型350预测的预测基频信息进行监督训练，使得通过语音特征提取模型320获取的采样语音特征能够精确地反映训练语音样本的基频特性。此时，语音特征提取模型320、语音合成模型310以及基频预测器350共同组成了同时学习语音特征并利用学习到的语音特征合成语音的自适应模块，例如可以称为变分自编码(VAE)模块。其中，语音特征提取模型320、语音合成模型310以及基频预测器350可以通过诸如卷积神经网络(CNN)等的神经网络来构建，本公开实施例对此不作具体限制。

另外，根据本公开实施例的示例，可以通过构建生成式对抗网络(GAN)，来对语音特征提取模型330和语音合成模型320进行联合对抗训练。如图3所示，语音特征提取模型330、语音合成模型320以及可选的基频预测模型350可以构成生成式对抗网络的生成器。此外，生成式对抗网络还可以包括至少一个判别器340，如图3所示。例如，可以将所构建的用于对语音特征提取模型330和语音合成模型320进行联合对抗训练的生成式对抗网络称为WaveGAN模型。

在此情况下，上述步骤S223中基于训练语音样本和合成训练语音对语音特征提取模型和语音合成模型进行联合训练可以进一步包括：至少基于训练语音样本和合成训练语音，分别计算生成器的损失函数和至少一个判别器的损失函数；以及利用生成器的损失函数和至少一个判别器的损失函数，对语音特征提取模型和语音合成模型进行联合对抗训练。在联合对抗训练过程中，判别器340持续地判别每一次训练过程中生成的合成训练语音w’与训练语音样本w，并输出真或假的判定，直到判别器340无法区分合成训练语音w’与训练语音样本w，即完成了联合对抗训练。

下面具体描述根据本公开实施例的生成器的损失函数和判别器的损失函数。首先，生成器的损失函数包括上文所述的语音合成损失函数，即包括基于训练语音样本和合成训练语音生成的重构损失分量、以及基于采样过程的相对熵的采样损失分量。

重构损失分量是指由语音合成模型320生成的合成训练语音与训练语音样本之间的重构损失，可以表示为L_recon。例如，可以使用多尺度的短时傅里叶变换(STFT)计算合成训练语音和训练语音样本之间的曼哈顿距离(L1距离)作为L_recon。但本公开实施例不限于此，也可以采用其他方法来衡量合成训练语音与训练语音样本之间的重构损失。

另外，如前所述，在上述训练过程中，需要对由语音特征提取模型330获取的语音特征分布进行采样，以获得采样语音特征z。换句话说，采样语音特征z服从语音特征分布，可以表示为：

z～q(z|w) (1)

其中，w为输入的训练语音样本，q(z|w)为关于语音特征z的语音特征分布，该分布为后验分布。

在上述训练过程中，从语音特征分布q(z|w)中采样获得采样语音特征z，例如，通过对语音特征分布q(z|w)进行随机采样来获得采样语音特征z，以在下一步中由语音合成模型320来还原语音。然而，由于采样过程无法计算梯度，导致无法更新神经网络，因此，为了能够计算梯度来更新神经网络，在本公开实施例中引入了重参的方法。

具体地，首先对一个先验正态分布p(z)进行采样以获得初始采样x。该先验正态分布的均值和方差是已知的，例如先验正态分布可以是标准正态分布，则其均值和方差分别为0和1；然后，通过对初始采样进行变换来确定采样语音特征z。例如，在先验正态分布p(z)为标准正态分布的情况下，可以通过变换函数z＝Z_μ+Z_σ*x来从初始采样x变换到采样语音特征z，其中，Z_μ、Z_σ分别为语音特征分布q(z|w)的均值和方差。从而，通过对从初始采样x到采样语音特征z的变换函数求解梯度，可以获得用于更新神经网络的梯度。由这一重参采样过程引入的损失函数分量可以用相对熵(或者称为KL散度)来衡量，其是对两个概率分布之间的差异的非对称性度量，可以表示为L_kl＝DKL(q(z|w)||p(z))，其也构成了根据本公开实施例的生成器的损失函数的分量。

此外，在根据本公开实施例的生成器中引入基频预测模型350的情况下，由于由基频预测模型350预测的基频信息与真实基频信息之间存在误差，因此，这又引入了生成器的损失函数的另一分量，例如可以表示为L_pitch。可以基于预测基频信息与真实基频信息来计算L_pitch，例如，可以将预测基频信息与真实基频信息的均方根误差作为L_pitch，本公开实施例对此不作具体限制。

此外，在联合对抗训练过程中，生成器的目的是使得合成训练语音w’能够骗过判别器340，而判别器340的目的则是能够很好地区分合成训练语音w’与训练语音样本w。在此过程中，引入了生成器的损失函数的另一分量L_{adv_g}，即：

L_{adv_g}＝(D(G(w))-1)² (2)

其中，w为训练语音样本；G(w)表示合成训练语音w’；D(·)表示判别器将语音判定为真或假的概率，概率为1表示真，概率为0表示假。

另一方面，对抗器的损失函数L_{adv_d}可以表示为：

L_{adv_d}＝(D(w)-1)²+D(G(w))² (3)

对于生成器来说，希望判别器将合成训练语音w’判定为真的概率越大越好，即D(G(w))越接近于1越好，因此期望最小化其损失函数L_{adv_g}；而对于判别器来说，则希望将真实语音样本w判定为真的概率、以及将合成训练语音w’判定为假的概率越大越好，即D(w)越接近于1、且D(G(w))越接近于0越好，因此期望最小化其损失函数L_{adv_d}，二者不断对抗，最终使得生成器能够生成无限接近真实语音样本的合成训练语音。

此外，根据本公开实施例的示例，为了保证联合对抗训练过程的稳定性，进一步在判别器网络的隐层引入了特征匹配损失L_fm，即：

其中，N表示每个判别器的网络层数；w表示真实语音样本；G(w)表示合成训练语音w’；

表示第k个判别器中第i层网络的输出，即第k个判别器的第i层网络的判别结果，i＝1……N，k＝1……Q，Q表示判别器的个数；T表示真实语音样本w或合成训练语音w’的序列长度；||·||₁表示L1距离，

表示求期望。L_fm构成了生成器的损失函数的又一分量。

因此，根据本公开实施例的生成器的损失函数L可以表示为：

L＝λ₁L_recon+λ₂L_kl+λ₃L_{adv_g}+λ₄L_fm+λ₅L_pitch (5)

其中，λ₁至λ₅为各个损失函数分量的权重系数，其例如可以根据经验公式进行确定，本公开实施例对此不作具体限制；L_recon为重构损失分量；L_kl为采样损失分量；L_{adv_g}为对抗损失分量；L_fm为特征匹配损失分量；L_pitch为基频预测损失分量。

根据由上式(5)确定的生成器的损失函数和根据上式(3)确定的判别器的损失函数对包括语音特征提取模型330、语音合成模型320、至少一个判别器340等的对抗式生成网络进行对抗训练，直至使得生成器能够生成无限接近真实语音样本的合成训练语音，即完成了联合对抗训练。

利用上述方法联合训练并固定的语音特征提取模型330能够从任意语音样本中提取可以准确反映语音特性的语音特征分布。在实际情况下，真实语音的特征分布是未知的，也无法通过诸如数学公式的方式来定义。利用根据本公开实施例的上述构建方法300，对于每一个训练语音样本，都通过上述联合训练来获取可准确体现其语音特性的至少一个语音特征分布，例如如上所述的，获取表征其语音特征分布的一组语音特征参数。利用大量的训练语音样本对语音特征提取模型330进行联合训练，以获取各个训练语音样本的语音特征分布，这些不同训练语音样本的语音特征分布均可以视为能够反映任意语音的特性的一个宏观语音特征分布的一部分或不同的表现形式，或者说，这些不同训练语音样本的语音特征分布符合统一的宏观语音特征分布。因此，联合训练后的语音特征提取模型330在对任意语音样本进行特征提取时，可以获得准确反映其语音特性、并且符合统一的宏观分布的语音特征分布。

利用上述方法联合训练并固定的语音合成模型320可以基于语音特征来合成语音，即可以实现声码器的功能。在语音合成模型320的上述训练过程中，其训练输入均来自对从训练语音样本获取的语音特征分布的采样。如前面提到的，期望声学模型的预测输出特征与声码器的输入特征是相匹配的。在本公开实施例中，可以基于利用联合训练后的语音特征提取模型330获取的训练语音特征分布，来反向训练语音特征预测模型310，使得训练后的语音特征预测模型310能够从输入文本预测得到符合该语音特征分布的语音特征，从而使得根据本公开实施例的语音特征预测模型310的预测输出特征和语音合成模型320的输入特征是相匹配的。

下面参照图4B描述根据本公开实施例的语音特征预测模型的训练方法。图4B示出了根据本公开实施例的语音特征预测模型的训练方法的流程图。

如图4B所示，对于与多个训练语音样本对应的多个训练文本样本中的每个训练文本样本，利用该训练文本样本对语音特征预测模型310进行如下所述的训练处理。其中，如图3所示，语音特征预测模型310可以包括文本特征提取模型311和特征映射模型313。

在步骤231中，利用文本特征提取模型311获取该训练文本样本的至少一个训练文本特征分布。可以理解的是，多个训练语音样本中的每个训练语音样本都具有其对应的训练文本样本，该训练文本样本记载了训练语音样本的语音内容。对于每个训练文本样本，利用文本特征提取模型311获取该训练文本样本的至少一个训练文本特征分布，该至少一个训练文本特征分布反映了训练文本样本中的文本内容的统计分布特性。

具体地，可以利用文本特征提取模型311来获取训练文本样本的至少一组文本特征参数，该至少一组文本参数可以表征训练文本样本的至少一个训练文本特征分布。在本公开实施例中，训练文本特征分布可以是高斯分布，则从训练文本样本中获取的至少一组文本特征参数为高斯分布的平均值C_μ和方差C_σ，但本公开实施例不限于此，训练文本特征分布也可以是其他类型的分布，并且相应的文本特征参数也可以是其他类型的参数。在本公开实施例中，文本特征提取模型可以采用现有的模型，例如文本编码器等，但本公开实施例不限于此。

结合具体示例进行说明。例如，一条长度为100帧的训练语音样本，其对应的训练文本样本可以是内容为10个字的一句话，利用文本特征提取模型311可以从该训练文本样本中提取10组(C_μ，C_σ)，即得到了反映该训练文本样本的文本特征的10个训练文本特征分布。需要说明的是，在该示例中，从内容为10个字的训练文本样本中提取10个文本特征分布仅仅是作为示例，本公开实施例并不对从一定长度的训练文本样本中提取的训练文本特征分布的数量作具体的限定，而是可以是任意合适的数值。

由于训练语音样本和训练文本样本的对应性，来自至少一个训练语音特征分布的采样语音特征与来自至少一个训练文本特征分布的采样文本特征也应是对应的。对于语音特征预测模型310来说，期望实现的是从文本特征到语音特征的映射。现在，在步骤S220中完成对语音特征提取模型330的联合训练之后，可以认为由语音特征提取模型330获取的至少一个训练语音特征分布是已知的；另一方面，利用诸如文本编码器的文本特征提取模型311获取的至少一个文本特征分布也是已知的。因此，要实现的是从已知的至少一个文本特征分布到已知的至少一个训练语音特征分布的映射。

在本公开实施例中，为了确保语音特征预测模型310的输出特征与语音合成模型320的输入特征符合统一的分布，通过采用可逆的特征映射模型313来实现从语音特征到文本特征的映射，来反向训练语音特征预测模型310。由于特征映射模型313的可逆特性，在完成从语音特征到文本特征的映射训练之后，则相应地，特征映射模型313可以实现从文本特征到语音特征的映射。

在步骤S232中，利用特征映射模型313，将至少一个训练语音特征分布的多个采样语音特征映射为满足对应的训练语音样本的至少一个训练文本特征分布的多个映射文本特征。其中，特征映射模型313是可逆模型，其还可以用于将至少一个文本特征分布的采样文本特征逆映射为满足至少一个语音特征分布的映射语音特征。可逆的特征映射模型例如可以利用流(Flow)模型来实现，例如可以基于用于语音合成的生成式流模型(Glow-TTS)来实现，本公开实施例对此不作具体限制。具体地，例如，可以从每个训练语音特征分布(Z_μ，Z_σ)中随机采样得到一个训练语音特征z，并利用特征映射模型将该训练语音特征z映射为满足相应的训练文本特征分布(C_μ，C_σ)的一个文本特征c。

如在前面示例中提到的，一条长度为100帧的训练语音样本例如可以对应于内容为10个字的训练文本样本。为了使得语音的不同帧与文本的相应字之间彼此对应，在步骤S232之前，还需要执行对齐操作，来使得分别对各个训练语音特征分布进行采样而得到的语音特征序列中的语音特征能够被一一映射为相应的文本特征序列中的文本特征，即使得语音特征序列与文本特征序列是等长的。具体地，语音合成器300还可以包括对齐模型312，其可以将每个训练文本样本的至少一个训练文本特征分布的数量与对应的训练语音样本的至少一个训练语音特征分布的数量进行对齐，例如，使得至少一个训练文本特征分布的数量与至少一个训练语音特征分布的数量相等。在本公开实施例中，对齐模型312可以利用诸如单调对齐搜索(Monotonic Alignment Search,MAS)等的方法来实现对齐处理，本公开实施例对此不作具体限制。

例如，在前述示例中，利用文本特征提取模型311从内容为10个字的训练文本样本中获取了表征10个训练文本特征分布的10组文本特征参数(C_μ，C_σ)；另一方面，利用训练后的语音特征提取模型330从长度为100帧的训练语音样本中获取了表征100个训练语音特征分布的100组语音特征参数(Z_μ，Z_σ)，为了使得分别对100个训练语音特征分布进行采样而得到的语音特征序列可以被一一映射为等长的文本特征序列，可以通过对齐操作将10组(C_μ，C_σ)扩展为100组(C_μ，C_σ)，以使得训练文本特征分布的数量与训练语音特征分布的数量是相等的。

在步骤S233中，利用基于多个映射文本特征确定的损失函数，来对语音特征预测模型进行训练。例如，可以基于多个映射文本特征来确定损失函数，并通过使损失函数最小来对语音特征预测模型310进行训练。

语音特征预测模型310中引入损失的主要为文本特征提取模型311和特征映射模型313，即从训练文本样本获取文本特征分布并采样得到文本特征的过程，以及从语音特征到文本特征的映射过程。因此，在根据本公开实施例的示例中，可以利用下式，通过计算语音特征预测模型310的输出语音特征的log似然作为其损失函数：

其中，t表示输入的训练文本样本；PC(c|t)表示从训练文本样本获取的文本特征分布，其属于条件先验分布；c表示对文本特征分布PC(c|t)进行采样得到的文本特征；上式的第二项表示特征映射模型从语音特征到文本特征的可逆映射过程的log似然，其中，det()表示取行列式，

表示从语音特征z到文本特征c的逆映射。

可以利用上式(6)来评估语音特征预测模型310从输入文本t预测语音特征z的log似然，logPZ(z|t)，并将其作为损失函数来控制对语音特征预测模型310的训练。例如，通过使该损失函数最小，来对语音特征预测模型310进行训练，以使得语音特征预测模型310能够从输入文本预测到最准确的语音特征。如前所述，由于语音特征预测模型310中的特征映射模型313是可逆的，因此，通过上述方法训练后的语音特征预测模型310也可以实现从文本到语音特征的映射。

利用根据本公开实施例的语音合成器的构建方法200，基于由语音特征提取模型330从训练语音样本获取的语音特征分布，分别实现了对语音合成器300的语音合成模型320和语音特征预测模型310的构建，其中语音合成模型320的训练输入特征与语音特征预测模型310的训练输出特征符合从训练语音样本提取的统一的语音特征分布，从而可以有效解决传统的语音合成系统中声学模型的预测语音特征与声码器的输入特征之间的不匹配问题，极大地提升了语音合成的质量。

此外，利用根据本公开实施例的构建方法200构建的语音合成器的语音合成模型320具有很好的鲁棒性，即对来自新的说话人的新语音样本，或者说，语音合成模型320未对其进行过针对训练的语音样本，也能合成质量较高的语音。具体地，对于来自新的说话人的新语音样本，可以利用根据本公开实施例的语音合成器的构建方法200构建的语音特征提取模型330从该新语音样本中提取至少一个语音特征分布，然后针对该至少一个语音特征分布，利用在上述步骤S220中描述的方法来训练语音特征预测模型310，使得语音特征预测模型310能够基于任意的输入文本来预测符合该新的说话人的语音特性的语音特征，从而进一步利用语音合成模型320来合成对应于该新的说话人的合成语音。

为了验证根据本公开实施例的构建方法200构建的语音合成器300的性能，采用了真实语音以及现有技术中的高可靠声码器模型(HiFi-GAN)的语音合成结果作为对比验证，并且分别在单人语音集和多人语音集上进行了验证，即分别利用单人语音集和多人语音集对不同模型进行训练，并在训练后分别进行语音还原。在对合成语音进行评价时，采用了主观平均分数(Mean Opinion Score，MOS)对合成语音的质量进行打分。首先，利用从语音集中提取的语音特征，对根据本公开实施例的语音合成器300的语音合成模型320进行性能验证，其结果如表1所示：

表1从语音特征生成的合成语音的MOS对比

从表1可知，真实语音的主观MOS最高，这是理所当然的。在利用从语音集中提取的真实梅尔谱进行语音合成时，根据本公开实施例的语音特征合成模型320与HiFi-GAN的合成语音的主观MOS基本一致。但是，根据本公开实施例的语音特征合成模型320在对由语音特征提取模型330获取的语音特征进行语音合成时，其合成语音的主观MOS明显优于HiFi-GAN基于真实梅尔谱生成的合成语音。这表明，相比于梅尔谱，由根据本公开实施例的语音特征提取模型330所获取的语音特征可以更好地反映真实语音的特性。

接下来，对根据本公开实施例的语音合成器300从文本合成语音的性能进行验证，结果如下表2所示。其中，HiFi-GAN声码器模型采用由Glow-TTS模型预测的梅尔谱作为输入，根据本公开实施例的语音特征合成模型320分别采用由Glow-TTS模型预测的梅尔谱、以及利用语音特征预测模型310预测的语音特征作为输入。

表2从文本生成的合成语音的MOS对比

结合表1和表2可见，在使用由Glow-TTS模型预测的梅尔谱作为输入时，相比于使用真实梅尔谱时，HiFi-GAN模型或语音特征合成模型320的合成语音的主观MOS均明显下降(即表2的第3行和第4行)，这是由于特征不匹配所导致的。而根据本公开实施例的语音合成模型320在使用由语音特征提取模型330从文本预测的语音特征进行语音合成时，合成语音的主观MOS非常好，即使与采用由语音特征提取模型330从真实语音提取的语音特征相比，合成语音的主观MOS仅仅略微下降，并且仍然远远优于HiFi-GAN采用真实梅尔谱生成的合成语音的主观MOS(即表1的第三行)。这是由于根据本公开实施例的语音合成器300的语音合成模型320和语音特征预测模型310符合统一的训练语音分布，即二者之间是匹配的，从而能够获得高质量的合成语音。

另外，为了验证根据本公开实施例的语音合成器300的语音合成模型320的鲁棒性，还采用了来自新的说话人的语音进行了验证，结果如表3和表4所示。其中，没有用该新说话人的语音对HiFi-GAN或者语音特征合成模型320进行训练，在表3中是直接将从该新说话人的语音中提取的真实梅尔谱、或者直接将利用本公开的语音特征提取模型330从该新说话人的语音中提取的语音特征作为HiFi-GAN或者语音特征合成模型320的输入；在表4中则是将由Glow-TTS模型预测的梅尔谱、或者利用语音特征预测模型310预测的语音特征作为HiFi-GAN或者语音特征合成模型320的输入。其中，基于由语音特征提取模型330从该新说话人的语音中提取的语音特征分布，预先对语音特征预测模型310进行了针对训练。

表3针对新说话人的从语音特征生成的合成语音的MOS对比

表4针对新说话人的从文本生成的合成语音的MOS对比

从表3可以看出，无论是HiFi-GAN模型还是语音特征合成模型320，在从由该新说话人的语音提取的真实梅尔谱进行语音合成时，合成语音的主观MOS尚可(即表3的第3行和第4行)，并且二者的主观MOS基本一致。而语音特征合成模型320在对由语音特征提取模型330获取的语音特征进行语音合成时，其合成语音的主观MOS(即表3的最后一行)明显优于HiFi-GAN基于真实梅尔谱生成的合成语音，这表明相比于梅尔谱，由根据本公开实施例的语音特征提取模型330所获取的语音特征可以更好地反映该新说话人的语音的特征分布。

结合表3和表4可见，在使用由Glow-TTS模型预测的梅尔谱作为输入时，相比于使用真实梅尔谱时，HiFi-GAN模型或语音特征合成模型320的合成语音的主观MOS(即表4的第3行和第4行)均明显下降，这是由于特征不匹配所导致的。而根据本公开实施例的语音合成模型320在使用由语音特征提取模型330从文本预测的语音特征进行语音合成时，合成语音的主观MOS(即表4的最后一行)非常好，即使与采用由语音特征提取模型330从该新说话人的真实语音提取的语音特征相比，合成语音的主观MOS也仅仅略微下降，并且仍然远远优于HiFi-GAN采用真实梅尔谱生成的合成语音的主观MOS(即表3的第3行)；并且，与表2的最后一行(即对于进行过针对训练的说话人的合成语音)相比，针对新说话人的合成语音的主观MOS也基本相同。

通过上述对表3、表4的分析可知，根据本公开实施例的语音合成模型320对于未进行针对训练的新说话人的语音，也具有非常好的鲁棒性，这使得在对新的说话人构建合成语音时，无需重新训练语音合成模型320，从而节省了大量的建模耗时和成本，便于快速地构建新说话人的合成语音。

下面参照图5描述根据本公开实施例的语音合成方法。图5示出了根据本公开实施例的语音合成方法500的流程图。如图5所示，在步骤S510中，接收输入文本。这里，输入文本可以是任意希望将其转换为语音的文本，本公开实施例对此不作具体限制。

在步骤S520中，利用语音特征预测模型，确定输入文本的预测语音特征。具体地，语音特征预测模型可以包括文本特征提取模型和特征映射模型，并且步骤S520可以进一步包括步骤S521和S522。在步骤S521中，利用文本特征提取模型从输入文本提取至少一个文本特征分布，并在在步骤S522中，利用特征映射模型，将至少一个文本特征分布的采样文本特征映射为映射语音特征，并将该映射语音特征作为预测语音特征。这里，语音特征预测模型可以对应于上文参照图2至图4B描述的语音特征预测模型310，文本特征提取模型和特征映射模型则可以分别对应于上文描述的文本特征提取模型311和特征映射模型313，并且其中，特征映射模型是可逆模型，这里不再赘述。

此外，在利用特征映射模型将至少一个文本特征分布的采样文本特征映射为映射语音特征之前，利用语音特征预测模型确定输入文本的预测语音特征还包括：将至少一个文本特征分布的数量与预测语音特征的长度对齐，从而使得从至少一个文本特征分布中采用得到的采样文本特征可以被一一映射为预测语音特征。其中，预测语音特征的长度例如可以基于希望合成的语音的时长来确定。在本公开实施例的示例中，可以利用对齐模型来实现该对齐处理，对齐模型可以对应于上文参照图2至图4B描述的对齐模型312，这里不再赘述。

接下来，在步骤S530中，利用语音合成模型，基于预测语音特征生成输入文本的合成语音。这里，语音合成模型可以对应于上文参照图2-4描述的语音合成模型320，为了简单起见，这里不再赘述。

结合具体示例进行说明。例如，对于内容为10个字的输入文本，期望合成长度为100帧的合成语音。首先，可以利用文本特征提取模型从该输入文本中提取表征10个文本特征分布的10组文本特征参数(C_μ，C_σ)；之后，利用对齐模型将10组文本特征参数(C_μ，C_σ)扩展为100组文本特征参数(C_μ，C_σ)；分别从100组文本特征分布中每个分布中随机采样一个文本特征点，以生成采样文本特征(其序列长度为100)；利用特征映射模型从采样文本特征预测得到预测语音特征，并随后利用语音合成模型基于该预测语音特征生成合成语音。需要说明的是，该示例中的数值均作仅仅作为示例，而并非对本公开实施例构成任何意义上的限制。

在语音合成方法500中，语音特征预测模型和语音合成模型的训练语音样本符合统一的语音特征分布。具体地，语音特征预测模型的建模输出特征和语音合成模型的建模输入特征都是从来自相同的训练语音样本的语音特征分布采样获取的，从而语音特征预测模型和语音合成模型的特征是相匹配的。其中，语音特征预测模型和语音合成模型的构建方法可以参见上文结合图2至图4B详细描述的构建方法200，为了简单起见，这里不再重复描述。

利用根据本公开实施例的语音合成方法，由于语音特征预测模型和语音合成模型的训练语音样本符合统一的语音特征分布，或者说，由于语音特征预测模型和语音合成模型的特征是相匹配的，相比于传统的语音合成方法，根据本公开实施例的语音合成方法可以生成更高质量的合成语音，并且对于新的说话人也具有非常好的鲁棒性，从而节省了大量的建模耗时和成本，便于快速地构建新说话人的合成语音。

下面参照图6描述根据本公开实施例的语音合成装置。图6示出了根据本公开实施例的语音合成装置600的结构示意图。如图6所示，语音合成装置600可以包括输入单元610、语音特征预测单元620和语音合成单元630。除了这3个单元以外，语音合成装置600还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。另外，由于语音合成装置600的功能与上文参照图5描述的语音合成方法500的步骤的细节类似，因此为了简单起见，这里省略对部分内容的重复描述。

输入单元610被配置为接收输入文本。这里，输入文本可以是任意希望将其转换为语音的文本，本公开实施例对此不作具体限制。

语音特征预测单元620被配置为确定输入文本的预测语音特征。具体地，语音特征预测单元620可以包括文本特征提取单元621和特征映射单元623，并且，文本特征提取单元621被配置为从输入文本提取至少一个文本特征分布，特征映射单元623被配置为将至少一个文本特征分布的采样文本特征映射为映射语音特征，并将该映射语音特征作为预测语音特征。这里，语音特征预测单元620可以对应于上文参照图2至图4B描述的语音特征预测模型310，文本特征提取单元621和特征映射单元623则可以分别对应于上文描述的文本特征提取模型311和特征映射模型313，这里不再赘述。

此外，语音特征预测单元620还可以包括对齐单元622，对齐单元622可以被配置为在利用特征映射单元623将至少一个文本特征分布的采样文本特征映射为映射语音特征之前，将至少一个文本特征分布的数量与预测语音特征的长度对齐，从而使得从至少一个文本特征分布中采用得到的采样文本特征可以被一一映射为预测语音特征。其中，预测语音特征的长度例如可以基于希望合成的语音的时长来确定。对齐单元623可以对应于上文参照图2至图4B描述的对齐模型312，这里不再赘述。

语音合成单元630被配置为基于预测语音特征生成输入文本的合成语音。这里，语音合成单元630可以对应于上文参照图2至图4B描述的语音合成模型320，为了简单起见，这里不再赘述。

在语音合成装置600中，语音特征预测单元620和语音合成单元630的训练语音样本符合统一的语音特征分布。具体地，语音特征预测单元620的建模输出特征和语音合成单元630的建模输入特征都是从来自相同的训练语音样本的语音特征分布采样获取的，从而语音特征预测单元620和语音合成单元630的特征是相匹配的。其中，语音特征预测单元620和语音合成单元630的构建方法可以参见上文结合图2-图4B详细描述的构建方法200，为了简单起见，这里不再重复描述。

利用根据本公开实施例的语音合成装置，由于语音特征预测单元和语音合成单元的训练语音样本符合统一的语音特征分布，或者说，由于语音特征预测单元和语音合成单元的特征是相匹配的，相比于传统的语音合成装置，根据本公开实施例的语音合成装置可以生成更高质量的合成语音，并且对于新的说话人也具有非常好的鲁棒性，从而节省了大量的建模耗时和成本，便于快速地构建新说话人的合成语音。

此外，根据本公开实施例的设备(例如，语音合成设备等)也可以借助于图7所示的示例性计算设备的架构来实现。图7示出了根据本公开实施例的示例性计算设备的架构的示意图。如图7所示，计算设备700可以包括总线710、一个或多个CPU 720、只读存储器(ROM)730、随机存取存储器(RAM)740、连接到网络的通信端口750、输入/输出组件760、硬盘770等。计算设备700中的存储设备，例如ROM 730或硬盘770可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备700还可以包括用户界面780。当然，图7所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图7示出的计算设备中的一个或多个组件。根据本公开实施例的设备可以被配置为执行根据本公开上述各个实施例的语音合成器的构建方法以及语音合成方法，或者用于实现根据本公开上述各个实施例的语音合成装置。

本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的语音合成器的构建方法以及语音合成方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

根据本公开的实施例，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行上述各个实施例中描述的语音合成器的构建方法以及语音合成方法。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本公开和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

此外，本公开中使用了流程图用来说明根据本公开实施例的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作叠加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上对本公开进行了详细说明，但对于本领域技术人员而言，显然，本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下，可以作为修改和变更方式来实施。因此，本说明书的记载是以示例说明为目的，对本公开而言并非具有任何限制性的意义。

Claims

1.一种语音合成器的构建方法，所述构建方法包括：

获取多个训练语音样本；

利用所述多个训练语音样本对语音特征提取模型和语音合成模型进行联合训练，以获取所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布；

利用所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布以及与所述多个训练语音样本对应的多个训练文本样本，对语音特征预测模型进行训练；以及

利用所训练的所述语音特征预测模型和所述语音合成模型构建所述语音合成器。

2.根据权利要求1所述的构建方法，其中，利用所述多个训练语音样本对语音特征提取模型和语音合成模型进行联合训练，以获取所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布包括：

对于所述多个训练语音样本中的每个训练语音样本，

利用所述语音特征提取模型获取所述训练语音样本的至少一个初始训练语音特征分布；

利用所述语音合成模型，基于所述至少一个初始训练语音特征分布中的每个初始训练语音特征分布中的采样语音特征，生成对应于所述训练语音样本的合成训练语音；

基于所述训练语音样本和所述合成训练语音对所述语音特征提取模型和所述语音合成模型进行联合训练，以及

利用联合训练后的语音特征提取模型获取所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布。

3.根据权利要求2所述的构建方法，其中，基于所述训练语音样本和所述合成训练语音对所述语音特征提取模型和所述语音合成模型进行联合训练包括：

基于所述训练语音样本和所述合成训练语音确定语音合成损失函数；以及

利用所述语音合成损失函数对所述语音特征提取模型和所述语音合成模型进行联合训练，

其中，所述语音合成损失函数至少包括基于所述训练语音样本和所述合成训练语音生成的重构损失分量、以及基于采样过程的相对熵的采样损失分量。

4.根据权利要求3所述的构建方法，其中，所述语音特征提取模型和所述语音合成模型构成生成式对抗网络的生成器，所述生成式对抗网络还包括至少一个判别器，

其中，基于所述训练语音样本和所述合成训练语音对所述语音特征提取模型和所述语音合成模型进行联合训练还包括：

基于所述训练语音样本和所述合成训练语音，分别计算生成器的损失函数和至少一个判别器的损失函数，其中，所述生成器的损失函数包括所述语音合成损失函数；以及

利用所述生成器的损失函数和所述至少一个判别器的损失函数，对所述语音特征提取模型和所述语音合成模型进行联合对抗训练。

5.根据权利要求4所述的构建方法，其中，所述生成器的损失函数还包括基于所述至少一个判别器对所述合成训练语音的判别结果的对抗损失分量，以及基于所述至少一个判别器对所述训练语音样本的判别结果和所述至少一个判别器对所述合成训练语音的判别结果生成的特征匹配损失分量。

6.根据权利要求2-5中任一项所述的构建方法，其中，基于所述训练语音样本和所述合成训练语音对所述语音特征提取模型和所述语音合成模型进行联合训练还包括：

利用基频预测模型，基于所述采样语音特征生成所述训练语音样本的预测基频信息；

基于所述训练语音样本、所述合成训练语音、所述预测基频信息以及所述训练语音样本的真实基频信息，确定语音合成损失函数；以及

利用所述语音合成损失函数对所述语音特征提取模型和所述语音合成模型进行联合训练。

7.根据权利要求6所述的构建方法，其中，所述语音合成损失函数至少包括基于所述训练语音样本和所述合成训练语音生成的重构损失分量、基于采样过程的相对熵的采样损失分量、以及基于所述预测基频信息和所述训练语音样本的真实基频信息生成的基频预测损失分量。

8.根据权利要求1所述的构建方法，其中，所述语音特征预测模型包括文本特征提取模型和特征映射模型，并且，利用所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布以及与所述多个训练语音样本对应的多个训练文本样本，对语音特征预测模型进行训练包括：

对于与所述多个训练语音样本对应的多个训练文本样本中的每个训练文本样本：

利用所述文本特征提取模型获取所述训练文本样本的至少一个训练文本特征分布；

利用所述特征映射模型，将所述至少一个训练语音特征分布的多个采样语音特征映射为满足对应的训练语音样本的至少一个训练文本特征分布的多个映射文本特征；以及

利用基于所述多个映射文本特征确定的损失函数，对所述语音特征预测模型进行训练。

9.根据权利要求8所述的构建方法，其中，所述特征映射模型是可逆模型，其还用于将至少一个文本特征分布的采样文本特征逆映射为满足至少一个语音特征分布的映射语音特征。

10.根据权利要求8所述的构建方法，在利用特征映射模型将所述至少一个训练语音特征分布的采样语音特征映射为满足所述至少一个训练文本特征分布的映射文本特征之前，所述构建方法还包括：

将所述至少一个训练文本特征分布的数量与对应的训练语音样本的至少一个训练语音特征分布的数量对齐。

11.一种语音合成方法，包括：

接收输入文本；

利用语音特征预测模型，确定所述输入文本的预测语音特征；

利用语音合成模型，基于所述预测语音特征生成所述输入文本的合成语音，

其中，所述语音特征预测模型包括文本特征提取模型和特征映射模型，并且，所述利用语音特征预测模型确定所述输入文本的预测语音特征包括：

利用所述文本特征提取模型从所述输入文本提取至少一个文本特征分布；以及

利用所述特征映射模型，将所述至少一个文本特征分布的采样文本特征映射为映射语音特征，并将所述映射语音特征作为所述预测语音特征；

其中，所述语音特征预测模型和所述语音合成模型的训练语音样本符合统一的语音特征分布。

12.根据权利要求11所述的语音合成方法，其中，在利用所述特征映射模型将所述至少一个文本特征分布的采样文本特征映射为映射语音特征之前，所述利用语音特征预测模型确定所述输入文本的预测语音特征还包括：

将所述至少一个文本特征分布的数量与所述预测语音特征的长度对齐。

13.根据权利要求11所述的语音合成方法，其中，所述语音合成模型和所述语音特征预测模型是通过以下方法进行构建的：

获取多个训练语音样本；

利用所述多个训练语音样本对语音特征提取模型和所述语音合成模型进行联合训练，以获取所述多个训练语音样本中的每个训练语音样本的至少一个训练语音特征分布；

利用所述至少一个训练语音特征分布以及与所述多个训练语音样本对应的多个训练文本样本，对所述语音特征预测模型进行训练。

14.一种语音合成装置，包括：

输入单元，被配置为接收输入文本；

语音特征预测单元，被配置为确定所述输入文本的预测语音特征；

语音合成单元，被配置为基于所述预测语音特征生成所述输入文本的合成语音，

其中，所述语音特征预测单元包括：

文本特征提取单元，被配置为从所述输入文本提取至少一个文本特征分布；以及

特征映射单元，被配置为将所述至少一个文本特征分布的采样文本特征映射为映射语音特征，并将所述映射语音特征作为所述预测语音特征；

其中，所述语音特征预测单元和所述语音合成单元的训练语音样本符合相同的语音特征分布。

15.一种语音合成设备，包括：

一个或多个处理器；以及

一个或多个存储器，其中所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行如权利要求1-13中任一项所述的方法。