CN114299918A

CN114299918A - 声学模型训练与语音合成方法、装置和系统及存储介质

Info

Publication number: CN114299918A
Application number: CN202111582248.XA
Authority: CN
Inventors: 崔君君; 李秀林
Original assignee: Databaker Beijng Technology Co ltd
Current assignee: Databaker Beijng Technology Co ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-08

Abstract

本发明提供一种声学模型训练与语音合成方法、装置和系统及存储介质。训练方法包括：获取文本信息和初始真实声学信息，文本信息包括训练文本或与训练文本相关的文本特征序列，初始真实声学信息包括初始真实语音或与初始真实语音相关的初始真实声学特征序列；将文本信息输入声学模型，以获得声学模型输出的初始预测声学信息，初始预测声学信息与初始真实声学信息的形式一致；将初始真实声学信息和初始预测声学信息分别输入判别器，以获得判别器输出的真实判别结果和预测判别结果；至少基于真实判别结果和预测判别结果，对声学模型和判别器进行对抗训练。该方法可以提高训练获得的声学模型的性能，使其生成更准确、真实的声学信息。

Description

声学模型训练与语音合成方法、装置和系统及存储介质

技术领域

本发明涉及语音处理技术领域，具体地，涉及一种声学模型训练方法、装置和系统及存储介质与一种语音合成方法、装置和系统及存储介质。

背景技术

语音合成技术是一种将文字信息转化为声音信息的技术。语音合成技术可以为广大用户及目标应用提供语音合成服务。语音合成系统在如今有着较为广泛的应用。

语音合成需要用到声学模型来实现文本到语音的转换。在采用声学模型进行语音合成之前，通常需要对声学模型进行训练。

现有的声学模型在训练时，都是通过直接计算声学模型生成的预测声学信息与真实声学信息之间的差距来调整模型参数。这种训练方式相对比较简单，训练获得的声学模型性能不够好。

发明内容

为了至少部分地解决现有技术中存在的问题，提供一种声学模型训练方法、装置和系统及存储介质与一种语音合成方法、装置和系统及存储介质。

根据本发明一个方面，提供一种声学模型训练方法，包括：获取文本信息和初始真实声学信息，文本信息包括训练文本或与训练文本相关的文本特征序列，初始真实声学信息包括初始真实语音或与初始真实语音相关的初始真实声学特征序列；将文本信息输入声学模型，以获得声学模型输出的初始预测声学信息，其中，初始预测声学信息与初始真实声学信息的形式一致；将初始真实声学信息和初始预测声学信息分别输入判别器，以获得判别器输出的真实判别结果和预测判别结果，真实判别结果与初始真实声学信息相对应，预测判别结果与初始预测声学信息相对应；以及至少基于真实判别结果和预测判别结果，对声学模型和判别器进行对抗训练。

示例性地，至少基于真实判别结果和预测判别结果，对声学模型和判别器进行对抗训练包括：在声学模型固定的情况下，执行判别器训练操作，并在判别器固定的情况下，执行声学模型训练操作；其中，判别器训练操作包括：基于真实判别结果计算真实损失；基于预测判别结果计算预测损失；基于真实损失和预测损失计算判别器损失；基于判别器损失对判别器的参数进行优化；其中，声学模型训练操作包括：基于初始真实声学信息和初始预测声学信息计算信息损失；基于预测判别结果计算对抗损失；基于信息损失和对抗损失计算生成器损失；基于生成器损失对声学模型的参数进行优化。

示例性地，判别器包括n个子判别器，n为大于1的正整数，将初始真实声学信息和初始预测声学信息分别输入判别器，以获得判别器输出的真实判别结果和预测判别结果包括：对初始真实声学信息分别进行n-1个降采样操作，以分别获得n-1组降采样真实声学信息，其中，n-1个降采样操作中的任意两个降采样操作的降采样尺度不同；对初始预测声学信息分别进行n-1个降采样操作，以分别获得n-1组降采样预测声学信息；将初始真实声学信息以及n-1组降采样真实声学信息一一对应地输入n个子判别器，以获得n个子判别器输出的n个子真实判别结果，真实判别结果包括n个子真实判别结果；将初始预测声学信息以及n-1组降采样预测声学信息一一对应地输入n个子判别器，以获得n个子判别器输出的n个子预测判别结果，预测判别结果包括n个子预测判别结果。

示例性地，基于真实判别结果计算真实损失包括：

通过以下公式计算真实损失real-loss：

real-loss＝E_s[max(0,1-D_k(s))],k＝1,2,3…n；

基于预测判别结果计算预测损失包括：

通过以下公式计算预测损失fake-loss：

fake-loss＝E_x[max(0,1+D_k(G(x)))],k＝1,2,3…n；

基于预测判别结果计算对抗损失包括：

通过以下公式计算对抗损失adv-loss：

adv-loss＝E_x[-D_k(G(x))],k＝1,2,3…n；

其中，D_k代表n个子判别器中的第k个子判别器，s代表初始真实声学信息，x代表文本信息，G代表声学模型，G(x)代表初始预测声学信息，D_k(s)代表第k个子判别器所对应的子真实判别结果，D_k(G(x))代表第k个子判别器所对应的子预测判别结果。

示例性地，n-1个降采样操作中的第i个降采样操作用于将对应的声学信息降采样2i倍，i＝1,2,3……n-1。

示例性地，基于真实损失和预测损失计算判别器损失包括：将真实损失和预测损失加权求和，以获得判别器损失；和/或基于信息损失和对抗损失计算生成器损失包括：将信息损失和对抗损失加权求和，以获得生成器损失。

示例性地，基于初始真实声学信息和初始预测声学信息计算信息损失包括：将初始真实声学信息和初始预测声学信息代入均方误差函数或平方绝对误差函数，以计算信息损失。

根据本发明另一方面，还提供一种语音合成方法，包括：获取待合成文本；利用上述声学模型训练方法训练获得的声学模型对待合成文本进行语音合成，以获得目标语音。

根据本发明另一方面，还提供一种声学模型训练装置，包括：获取模块，用于获取文本信息和初始真实声学信息，文本信息包括训练文本或与训练文本相关的文本特征序列，初始真实声学信息包括初始真实语音或与初始真实语音相关的初始真实声学特征序列；第一输入模块，用于将文本信息输入声学模型，以获得声学模型输出的初始预测声学信息，其中，初始预测声学信息与初始真实声学信息的形式一致；第二输入模块，用于将初始真实声学信息和初始预测声学信息分别输入判别器，以获得判别器输出的真实判别结果和预测判别结果，真实判别结果与初始真实声学信息相对应，预测判别结果与初始预测声学信息相对应；以及训练模块，用于至少基于真实判别结果和预测判别结果，对声学模型和判别器进行对抗训练。

根据本发明另一方面，还提供一种语音合成装置，包括：获取模块，用于获取待合成文本；合成模块，用于利用通过上述声学模型训练方法训练获得的声学模型对待合成文本进行语音合成，以获得目标语音。

根据本发明另一方面，还提供一种声学模型训练系统，包括处理器和存储器，其中，存储器中存储有计算机程序指令，计算机程序指令被处理器运行时用于执行上述声学模型训练方法。

根据本发明另一方面，还提供一种存储介质，在存储介质上存储了程序指令，程序指令在运行时用于执行上述声学模型训练方法。

根据本发明另一方面，还提供一种语音合成系统，包括处理器和存储器，其中，存储器中存储有计算机程序指令，计算机程序指令被处理器运行时用于执行上述语音合成方法。

根据本发明另一方面，还提供一种存储介质，在存储介质上存储了程序指令，程序指令在运行时用于执行上述语音合成方法。

根据本发明实施例的声学模型训练方法、装置和系统及存储介质与语音合成方法、装置和系统及存储介质，将声学模型视作生成器，基于生成对抗网络架构来训练声学模型。这种方式训练获得的声学模型可以生成更加准确、清晰的声学信息，能够有效提高所生成的声学信息的真实程度，更大限度地接近真实的声学信息。因此，该训练方法可以大幅度减少声学模型生成声学信息的坏例。进一步地，在利用上述声学模型进行语音合成的情况下，可以生成更加优质的语音，这有助于提高语音合成系统的整体性能及用户体验。

在发明内容中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

以下结合附图，详细说明本发明的优点和特征。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施方式及其描述，用来解释本发明的原理。在附图中，

图1示出根据本发明一个实施例的声学模型训练方法的示意性流程图；

图2示出根据本发明一个实施例的声学模型训练的一种流程示意图；

图3示出根据本发明一个实施例的语音合成方法的示意性流程图

图4示出根据本发明一个实施例的声学模型训练装置的示意性框图；

图5示出根据本发明一个实施例的声学模型训练系统的示意性框图；

图6示出根据本发明一个实施例的语音合成装置的示意性框图；

图7示出根据本发明一个实施例的语音合成系统的示意性框图；。

具体实施方式

在下文的描述中，提供了大量的细节以便能够彻底地理解本发明。然而，本领域技术人员可以了解，如下描述仅示例性地示出了本发明的优选实施例，本发明可以无需一个或多个这样的细节而得以实施。此外，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行详细描述。

为了至少部分地解决上述技术问题，本发明实施例提供一种声学模型训练方法和装置。在本发明中，将声学模型视作生成器，并与判别器一起形成生成对抗网络来进行对抗训练。通过这种对抗训练，可以有效提升声学模型的性能，使得转换成的声学信息更加真实、准确。在将通过声学模型训练方法训练获得的声学模型应用于语音合成的情况下，上述方案有助于进一步提高后续语音合成的准确性，从而可大大提高语音合成系统的用户体验。

生成对抗网络(Generative Adversarial Network，简称GAN)是非监督式学习的一种方法，通过让两个神经网络相互博弈的方式进行学习。生成对抗网络由生成网络(即生成器)与判别网络(即判别器)组成。生成网络从潜在空间(latent space)中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。生成对抗网络大多用于图像领域，本发明的发明人创造性地想到将其用于声学模型的训练。下面描述这种基于生成对抗网络的声学模型训练方法。

根据本发明一个方面，提供一种声学模型训练方法。图1示出根据本发明一个实施例的声学模型训练方法100的示意性流程图。如图1所示，声学模型训练方法100包括步骤S110、S120、S130和S140。

在步骤S110，获取文本信息和初始真实声学信息，文本信息包括训练文本或与训练文本相关的文本特征序列，初始真实声学信息包括初始真实语音或与初始真实语音相关的初始真实声学特征序列。

传统语音合成的一种示例性流程为：先将文本转换为文本特征序列，随后通过声学模型将文本特征序列转换为声学特征序列，再将声学特征序列转换为语音波形。在这种情况下，声学模型是基于文本特征生成声学特征的特征转换模型。此外，语音合成还可以通过端到端的声学模型来实现，这种情况下可以无需单独提取文本特征序列，也无需单独基于声学特征序列生成语音波形。上述不同合成方式所需的声学模型均可以通过本发明提供的声学模型训练方法100进行训练。

在一个示例中，本文所述的声学模型可以是基于文本特征生成声学特征的特征转换模型，即其输入为文本特征(具体为文本特征序列)，而输出为声学特征(具体为声学特征序列)。在这种情况下，文本信息可以是或者包括与训练文本相关的文本特征序列，初始真实声学信息可以是或者包括与初始真实语音相关的初始真实声学特征序列。在另一个示例中，声学模型可以是端到端的语音合成模型，即其输入为文本，输出为基于文本合成的语音。在这种情况下，文本信息可以是或者包括训练文本，初始真实声学信息可以是或者包括初始真实语音。当然，可选地，声学模型还可以设置为实现其他转换功能，进而具有其他不同的输入输出组合。例如，声学模型可以用于将本文特征转换为语音，此时文本信息可以是或者包括与训练文本相关的文本特征序列，初始真实声学信息可以是或者包括初始真实语音。又例如，声学模型还可以用于将文本转换为声学特征，此时文本信息可以是或者包括训练文本，初始真实声学信息可以是或者包括与初始真实语音相关的初始真实声学特征序列。

文本特征序列与训练文本相关，是指二者具有互相对应关系，二者所表达的语义内容一致。在本文中，可以基于训练文本生成文本特征序列。例如，与训练文本相关的文本特征序列可以通过对训练文本进行文本分析来获得。示例性地，文本分析可以包括文本正则化、分词、词性预测、多音字消歧、韵律预测等操作。上述文本分析可以采用任何现有的或将来可能出现的文本分析方法实现，本发明不对此进行限制。

文本特征序列可以包括与多个帧一一对应的文本特征。本领域技术人员可以理解语音处理领域的“帧”的含义及其划分方法并可以理解“本文特征”的含义及其包含的信息，本文不做赘述。

初始真实声学特征序列与初始真实语音相关，是指二者具有互相对应关系，二者所表达的语义内容一致。在本文中，可以基于初始真实声学特征序列生成初始真实语音。

本文所述的各种声学特征序列(例如初始真实声学特征序列、初始预测声学特征序列、降采样真实声学特征序列、降采样预测声学特征序列等)均可以包括与多个帧一一对应的声学特征。本领域技术人员可以理解语音处理领域的“声学特征”的含义及其包含的信息，本文不做赘述。

示例性而非限制性地，本文所述的文本特征可以包括诸如音标和韵律等文本特征信息。示例性而非限制性地，本文所述的声学特征可以包括诸如梅尔频率倒谱系数(MFCC)和基频(F0)等声学特征信息。上述描述仅是示例而非对本发明的限制，任何合适的现有的或将来可能出现的语音领域采用的文本特征和声学特征均应落入本发明的保护范围内。

可选地，初始真实声学信息可以是与文本信息相对应的声学信息，即初始真实声学信息所表达的语义内容与文本信息所表达的语义内容一致。在这种情况下，初始真实声学信息可以理解为文本信息的标注数据(ground truth)。但是，需理解，上述实施例仅是示例而非对本发明的限制，本发明并不局限于这种实现方案。例如，初始真实声学信息所表达的语义内容也可以与文本信息所表达的语义内容不同。

在步骤S120，将文本信息输入声学模型，以获得声学模型输出的初始预测声学信息，其中，初始预测声学信息与初始真实声学信息的形式一致。

在初始真实声学信息是或者包括初始真实声学特征序列的情况下，初始预测声学信息是或者包括初始预测声学特征序列。在初始真实声学信息是或者包括初始真实语音的情况下，初始预测声学信息是或者包括初始预测语音。也就是说，初始预测声学信息与初始真实声学信息的形式保持一致。

声学模型用于将文本信息转换成对应的声学信息。本文所述的声学模型可以是任何合适的现有或将来可能出现的能够用于语音合成的声学模型，本文不对此进行限制。

示例性而非限制性地，本文所述的声学模型可以包括以下一种或多种网络模型：深度卷积神经网络(Deep Neural Networks,DNN)、FastSpeech1/2模型、tacotron1/2模型等。

步骤S120采用的声学模型可以是经过初始化的或者经过一定训练的声学模型，对此本发明不进行限制。

将文本信息输入声学模型，声学模型可以输出对应的初始预测声学信息。声学模型可以视为生成对抗网络中的生成器，其目的是尽量使输出的初始预测声学信息接近与文本特征序列相对应的真实声学信息

在步骤S130，将初始真实声学信息和初始预测声学信息分别输入判别器，以获得判别器输出的真实判别结果和预测判别结果，真实判别结果与初始真实声学信息相对应，预测判别结果与初始预测声学信息相对应。

判别器可以采用任何合适的现有或将来可能出现的判别器模型实现，本发明不对此进行限制。示例性而非限制性地，判别器可以采用卷积神经网络(CNN)、深度卷积神经网络(DNN)等实现。

判别器用于判断输入的声学信息是真实的还是虚假的(虚假是指由声学模型生成)。将初始真实声学信息输入判别器，可以获得其所对应的真实判别结果。将初始预测声学信息输入判别器，可以获得其所对应的预测判别结果。

判别器可以采用单一的网络结构实现。当然，判别器也可以采用多重网络结构实现。例如，判别器可以包括多个子判别器，这将在下文描述。

在步骤S140，至少基于真实判别结果和预测判别结果，对声学模型和判别器进行对抗训练。

对抗训练可以采用常规的对抗训练方式实现。本领域技术人员可以理解，对抗训练可以采用交替式训练方法实现，即声学模型和判别器二者可以在固定其中一者的情况下训练另一者，二者交替训练直至满足预设要求。该预设要求可以是例如整个生成对抗网络收敛至纳什均衡点。

示例性地，可以基于真实判别结果计算真实损失，并基于预测判别结果计算预测损失，并将这两种损失结合获得总的判别器损失，并基于判别器损失训练判别器。

示例性地，可以基于预测判别结果计算对抗损失，并至少基于对抗损失训练声学模型。在一个示例，可以单纯基于对抗损失训练声学模型，这在初始真实声学信息与文本信息相对应(即所表达的语音内容一致)或者二者不相对应(即所表达的语音内容不一致)的情况下均可实施。在另一个示例中，还可以基于真实声学信息与预测声学信息计算信息损失，并结合信息损失与对抗损失获得总的生成器损失。随后，可以基于该生成器损失训练声学模型。第二个示例可以在初始真实声学信息与文本信息相对应的情况下实施。

基于损失训练生成器或判别器的方案可以通过反向梯度传播算法实现。本领域技术人员可以理解基于损失训练生成器或判别器的实现方法，本文不做赘述。

现有的声学模型训练方法比较简单，所训练的声学模型性能差，非常容易存在一些随机的坏例(badcase)。而根据本发明实施例的声学模型训练方法，将声学模型视作生成器，基于生成对抗网络架构来训练声学模型。这种方式训练获得的声学模型可以生成更加准确、清晰的声学信息，能够有效提高所生成的声学信息的真实程度，更大限度地接近真实的声学信息。因此，该训练方法可以大幅度减少声学模型生成声学信息的坏例。进一步地，在利用上述声学模型进行语音合成的情况下，可以生成更加优质的语音，这有助于提高语音合成系统的整体性能及用户体验。

根据本发明实施例，至少基于真实判别结果和预测判别结果，对声学模型和判别器进行对抗训练(步骤S140)可以包括：在声学模型固定的情况下，执行判别器训练操作，并在判别器固定的情况下，执行声学模型训练操作；其中，判别器训练操作包括：基于真实判别结果计算真实损失；基于预测判别结果计算预测损失；基于真实损失和预测损失计算判别器损失；基于判别器损失对判别器的参数进行优化(即更新)；其中，声学模型训练操作包括：基于初始真实声学信息和初始预测声学信息计算信息损失；基于预测判别结果计算对抗损失；基于信息损失和对抗损失计算生成器损失；基于生成器损失对声学模型的参数进行优化(即更新)。

如上所述，在初始真实声学信息与文本信息相对应的情况下，可以选择进一步基于初始真实声学信息和初始预测声学信息计算信息损失，并进一步结合该信息损失来对声学模型进行训练。

常规的生成对抗网络在训练时，所采用的真样本和假样本之间通常并不要求一致性。假样本通常是在某些图像上叠加噪声来生成的。由于这种基于噪声的生成方式，现有的生成对抗网络在计算生成器的损失时，通常只计算假样本的预测结果所带来的损失。

而本发明的声学模型虽然被视为生成器，但是其与常规的生成器不同，其生成的初始预测声学信息并非单纯的“假样本”，而是本身就是对文本信息的对应声学信息的一种预测。因此，在初始真实声学信息与文本信息对应的情况下，初始真实声学信息与初始预测声学信息存在一致性关系，即二者越一致越好。因此，在这种情况下，可以基于初始真实声学信息与初始预测声学信息计算信息损失。

与传统的声学模型训练方法相比，上述基于多种损失进行对抗训练的方式训练获得的声学模型能够生成更加准确、真实的声学特征。而与传统的对抗生成网络的训练相比，上述综合多种损失(尤其是加入信息损失)的训练方案所获得的损失信息则更丰富，这有助于提高整个生成对抗网络的鲁棒性。

根据本发明实施例，判别器包括n个子判别器，n为大于1的正整数，将初始真实声学信息和初始预测声学信息分别输入判别器，以获得判别器输出的真实判别结果和预测判别结果(步骤S130)可以包括：对初始真实声学信息分别进行n-1个降采样操作，以分别获得n-1组降采样真实声学信息，其中，n-1个降采样操作中的任意两个降采样操作的降采样尺度不同；对初始预测声学信息分别进行n-1个降采样操作，以分别获得n-1组降采样预测声学信息；将初始真实声学信息以及n-1组降采样真实声学信息一一对应地输入n个子判别器，以获得n个子判别器输出的n个子真实判别结果，真实判别结果包括n个子真实判别结果；将初始预测声学信息以及n-1组降采样预测声学信息一一对应地输入n个子判别器，以获得n个子判别器输出的n个子预测判别结果，预测判别结果包括n个子预测判别结果。

在初始真实声学信息是或者包括初始真实声学特征序列的情况下，n-1组降采样真实声学信息可以是或者包括n-1个降采样真实声学特征序列，n-1组降采样预测声学信息可以是或者包括n-1个降采样预测声学特征序列。

判别器可以包括多个子判别器，每个子判别器分别用于判定具有不同采样尺度的声学信息的真实程度。可选地，这些子判别器可以具有相同的网络结构，但在不同大小的声学信息采样尺度上工作。任意两个不同的子判别器可以分别运算在不同的采样尺度上。本文所述的采样尺度可以理解为采样率。本文所述的降采样尺度可以理解为降采样倍数或者经降采样之后的采样率。

例如，用D_k代表n个子判别器中的第k个子判别器，k＝1,2,3……n。那么，D₁可以运算在原始声学信息(例如初始真实声学信息和初始预测声学信息)的采样尺度上，而D₂,D₃……D_n运算在原始声学信息被分别降采样之后的采样尺度上。示例性非限制性地，初始真实声学信息和初始预测声学信息可以与各自的来源音频具有相同的采样尺度。并且，初始真实声学信息和初始预测声学信息彼此具有相同的采样尺度。

图2示出根据本发明一个实施例的声学模型训练的一种流程示意图。需注意，虽然在图2中，示出文本信息为文本特征序列，初始真实声学信息为初始真实声学特征序列，但是如上所述，这仅是示例而非对本发明的限制。

参见图2，示出多个子判别器，即子判别器1、子判别器2……子判别器n。虽然未示出，但可以理解的是，在输入子判别器2～n之前，初始预测声学信息和初始真实声学信息可以进行降采样，以获得各自对应的降采样声学信息。当然，上述降采样方案仅是示例而非对本发明的限制。例如，每个子判别器所需的降采样操作也可以在该子判别器内部实施，即子判别器2～n各自内部可以包括各自所需的降采样层，用于实施对应的降采样操作。除降采样层以外，子判别器1～n各自包含的剩余网络层(子判别器1是全部网络层)可以具有相同的网络结构。当然，可选地，在子判别器外部实施降采样操作的方案中，子判别器1～n中任意两个子判别器彼此可以具有不同的网络结构。而在子判别器内部实施降采样操作的方案中，除降采样层之外，子判别器1～n中任意两个子判别器彼此包含的剩余网络层也可以具有不同的网络结构。

高频的声学信息比较稀疏，在训练时很难被有效地学习到。通过多个子判别器对不同采样尺度的声学信息进行反馈，可以更好地辅助声学模型的训练，更好地学习到声学信息的高频特征。因此，通过这种训练方式训练获得的声学模型能够生成更加清晰的声学谱图，这有助于大大减少最终合成的声音的底噪。

根据本发明实施例，n-1个降采样操作中的第i个降采样操作用于将对应的声学信息降采样2i倍，i＝1,2,3……n-1。

可以理解，在对初始真实声学信息分别进行n-1个降采样操作时，n-1个降采样操作中的第i个降采样操作用于将初始真实声学信息降采样2i倍。在对初始预测声学信息分别进行n-1个降采样操作时，n-1个降采样操作中的第i个降采样操作用于将初始预测声学信息降采样2i倍。

本实施例对降采样尺度的设定仅是示例而非对本发明的限制。每个降采样操作的降采样尺度可以根据需要设定成任何合适的降采样尺度。

根据本发明实施例，判别器包括n个子判别器，n个子判别器包括原始子判别器和n-1个降采样子判别器，n为大于1的正整数，将初始真实声学信息和初始预测声学信息分别输入判别器，以获得判别器输出的真实判别结果和预测判别结果(步骤S130)可以包括：将初始真实声学信息分别输入n个子判别器，以获得n个子判别器输出的n个子真实判别结果，真实判别结果包括n个子真实判别结果；以及将初始预测声学信息分别输入n个子判别器，以获得n个子判别器输出的n个子预测判别结果，预测判别结果包括n个子预测判别结果；其中，将初始真实声学信息分别输入n个子判别器，以获得n个子判别器输出的n个子真实判别结果包括：在当前子判别器是降采样子判别器的情况下，将初始真实声学信息输入当前子判别器的降采样层进行降采样操作，以获得与当前子判别器相对应的降采样真实声学信息，其中，n-1个降采样子判别器中的任意两个降采样子判别器的降采样尺度不同；将降采样真实声学信息输入当前子判别器的剩余网络层，以获得与当前子判别器相对应的子真实判别结果；其中，将初始预测声学信息分别输入n个子判别器，以获得n个子判别器输出的n个子预测判别结果包括：在当前子判别器是降采样子判别器的情况下，将初始预测声学信息输入当前子判别器的降采样层进行降采样操作，以获得与当前子判别器相对应的降采样预测声学信息；将降采样预测声学信息输入当前子判别器的剩余网络层，以获得与当前子判别器相对应的子预测判别结果。

根据本发明实施例，n-1个降采样子判别器中的第i个降采样子判别器的降采样层用于将对应的声学信息降采样2i倍，i＝1,2,3……n-1。

上文已经描述了在子判别器内部实施降采样的实施例，可以参考上文描述理解这种实施例，不再赘述。

根据本发明实施例，基于真实判别结果计算真实损失包括：

通过以下公式计算真实损失real-loss：

real-loss＝E_s[max(0,1-D_k(s))],k＝1,2,3…n 公式(1)

基于预测判别结果计算预测损失包括：

通过以下公式计算预测损失fake-loss：

fake-loss＝E_x[max(0,1+D_k(G(x)))],k＝1,2,3…n 公式(2)

基于预测判别结果计算对抗损失包括：

通过以下公式计算对抗损失adv-loss：

adv-loss＝E_x[-D_k(G(x))],k＝1,2,3…n 公式(3)

在采用多个子判别器进行训练的情况下，可以通过上述公式(1)-(3)对多个子判别器的判别结果进行综合，并基于综合结果计算真实损失、预测损失和对抗损失。

在本文的各公式中，E表示的是求平均。公式(1)代表的是针对每个子判别器，在0与(1-D_k(s))这二者之间取最大值，并对在k＝1,2,3…n的情况下各自计算的所有最大值结果(共n个最大值结果)求平均。

公式(2)代表的是针对每个子判别器，在0与(1+D_k(G(x)))这二者之间取最大值，并对在k＝1,2,3…n的情况下各自计算的所有最大值结果(共n个最大值结果)求平均。

公式(3)代表的是对-D_k(G(x))求平均。

根据本发明实施例，基于初始真实声学信息和初始预测声学信息计算信息损失包括：将初始真实声学信息和初始预测声学信息代入均方误差(MSE)函数或平方绝对误差(MAE)函数，以计算信息损失。

在一个示例中，可以通过以下公式计算信息损失mel-loss:

mel-loss＝E_(s,x)[(s-G(x))²] 公式(4)

在另一个示例中，可以通过以下公式计算信息损失mel-loss:

mel-loss＝E_(s,x)[|s-G(x)|] 公式(5)

根据本发明实施例，基于真实损失和预测损失计算判别器损失包括：将真实损失和预测损失加权求和，以获得判别器损失；和/或，基于信息损失和对抗损失计算生成器损失包括：将信息损失和对抗损失加权求和，以获得生成器损失。

示例性地，可以通过以下公式计算生成器损失g-loss：

g-loss＝mel-loss+adv-loss 公式(6)

示例性地，可以通过以下公式计算判别器损失d-loss：

d-loss＝real-loss+fake-loss 公式(7)

在公式(6)和(7)中，各损失的权重为1，但是这并非对本发明的限制。例如，可以根据需要为真实损失、预测损失、信息损失和对抗损失分别设置其他合适的权重。

图2示出了生成器损失和判别器损失的计算示例，可以参考图2理解上述实施例。

根据本发明另一方面，还提供一种语音合成方法。图3示出根据本发明一个实施例的语音合成方法300的示意性流程图。如图3所示，语音合成方法300包括步骤S310和S320。

在步骤S310，获取待合成文本。

在步骤S320，利用通过上述声学模型训练方法100训练获得的声学模型对待合成文本进行语音合成，以获得目标语音。

示例性地，声学模型可以是基于文本特征生成声学特征的特征转换模型。此时，步骤S320可以包括：对待合成文本进行文本分析，以获得待合成本文特征序列；将待合成文本特征序列输入通过上述声学模型训练方法100训练获得的声学模型，以获得声学模型输出的目标声学特征序列；将目标声学特征序列输入声码器中，以获得目标语音。

参考上文可知，语音合成过程可以分为前端过程和后端过程。前端过程可以包括对待合成文本进行文本分析，例如，进行文本的正则化、分词、词性预测、多音字消歧、韵律预测等。前端过程对同一种语言可以采用统一的前端模型。

后端过程可以包括利用声学模型和文本分析结果进行语音合成，以获得待合成文本所对应的语音数据。例如将分词、注音、韵律等信息输入目标对象的声学模型，可以得到对应语音的声学特征，诸如频谱包络、基频、时长等信息。声学特征是反映各对象音色的特征，不同对象的声学模型通常不一样，所获得的声学特征通常也不一样。随后可以将声学特征(目标声学特征序列)输入声码器，得到最终的波形文件(即语音数据)。

如上所述，根据本发明实施例的声学模型训练方法训练获得的声学模型可以生成更加准确、清晰的声学信息，能够有效提高所生成的声学信息的真实程度，更大限度地接近真实的声学信息。在利用上述声学模型进行语音合成的情况下，可以生成更加优质的语音，这有助于提高语音合成系统的整体性能及用户体验。

根据本发明另一方面，提供一种声学模型训练装置。图4示出了根据本发明一个实施例的声学模型训练装置400的示意性框图。

如图4所示，根据本发明实施例的声学模型训练装置400包括获取模块410、第一输入模块420、第二输入模块430和训练模块440。所述各个模块可分别执行上文中结合图1-2描述的声学模型训练方法100的各个步骤/功能。以下仅对该声学模型训练装置400的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块410用于获取文本信息和初始真实声学信息，文本信息包括训练文本或与训练文本相关的文本特征序列，初始真实声学信息包括初始真实语音或与初始真实语音相关的初始真实声学特征序列。

第一输入模块420用于将文本信息输入声学模型，以获得声学模型输出的初始预测声学信息，其中，初始预测声学信息与初始真实声学信息的形式一致。

第二输入模块430用于将初始真实声学信息和初始预测声学信息分别输入判别器，以获得判别器输出的真实判别结果和预测判别结果，真实判别结果与初始真实声学信息相对应，预测判别结果与初始预测声学信息相对应。

训练模块440用于至少基于真实判别结果和预测判别结果，对声学模型和判别器进行对抗训练。

根据本发明另一方面，提供一种声学模型训练系统。图5示出了根据本发明一个实施例的声学模型训练系统500的示意性框图。声学模型训练系统500包括处理器510和存储器520。

所述存储器520存储用于实现根据本发明实施例的声学模型训练方法100中的相应步骤的计算机程序指令。

所述处理器510用于运行所述存储器520中存储的计算机程序指令，以执行根据本发明实施例的声学模型训练方法100的相应步骤。

根据本发明另一方面，提供一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的声学模型训练方法100的相应步骤，并且用于实现根据本发明实施例的声学模型训练装置400中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

根据本发明另一方面，提供一种语音合成装置。图6示出了根据本发明一个实施例的语音合成装置600的示意性框图。

如图6所示，根据本发明实施例的语音合成装置600包括获取模块610和合成模块620。所述各个模块可分别执行上文中结合图4描述的语音合成方法400的各个步骤/功能。以下仅对该语音合成装置600的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块610用于获取待合成文本。

分析模块620用于利用通过上述声学模型训练方法100训练获得的声学模型对待合成文本进行语音合成，以获得目标语音。

根据本发明另一方面，提供一种语音合成系统。图7示出了根据本发明一个实施例的语音合成系统700的示意性框图。语音合成系统700包括处理器710和存储器720。

所述存储器720存储用于实现根据本发明实施例的语音合成方法400中的相应步骤的计算机程序指令。

所述处理器710用于运行所述存储器720中存储的计算机程序指令，以执行根据本发明实施例的语音合成方法400的相应步骤。

根据本发明另一方面，提供一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的语音合成方法400的相应步骤，并且用于实现根据本发明实施例的语音合成装置600中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的声学模型训练系统或语音合成系统中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种声学模型训练方法，包括：

获取文本信息和初始真实声学信息，所述文本信息包括训练文本或与所述训练文本相关的文本特征序列，所述初始真实声学信息包括初始真实语音或与所述初始真实语音相关的初始真实声学特征序列；

将所述文本信息输入声学模型，以获得所述声学模型输出的初始预测声学信息，其中，所述初始预测声学信息与所述初始真实声学信息的形式一致；

将所述初始真实声学信息和所述初始预测声学信息分别输入判别器，以获得所述判别器输出的真实判别结果和预测判别结果，所述真实判别结果与所述初始真实声学信息相对应，所述预测判别结果与所述初始预测声学信息相对应；以及

至少基于所述真实判别结果和所述预测判别结果，对所述声学模型和所述判别器进行对抗训练。

2.如权利要求1所述的方法，其中，所述至少基于所述真实判别结果和所述预测判别结果，对所述声学模型和所述判别器进行对抗训练包括：

在所述声学模型固定的情况下，执行判别器训练操作，并在所述判别器固定的情况下，执行声学模型训练操作；

其中，所述判别器训练操作包括：

基于所述真实判别结果计算真实损失；

基于所述预测判别结果计算预测损失；

基于所述真实损失和所述预测损失计算判别器损失；

基于所述判别器损失对所述判别器的参数进行优化；

其中，所述声学模型训练操作包括：

基于所述初始真实声学信息和所述初始预测声学信息计算信息损失；

基于所述预测判别结果计算对抗损失；

基于所述信息损失和所述对抗损失计算生成器损失；

基于所述生成器损失对所述声学模型的参数进行优化。

3.如权利要求2所述的方法，其中，所述判别器包括n个子判别器，n为大于1的正整数，所述将所述初始真实声学信息和所述初始预测声学信息分别输入判别器，以获得所述判别器输出的真实判别结果和预测判别结果包括：

对所述初始真实声学信息分别进行n-1个降采样操作，以分别获得n-1组降采样真实声学信息，其中，所述n-1个降采样操作中的任意两个降采样操作的降采样尺度不同；

对所述初始预测声学信息分别进行所述n-1个降采样操作，以分别获得n-1组降采样预测声学信息；

将所述初始真实声学信息以及所述n-1组降采样真实声学信息一一对应地输入所述n个子判别器，以获得所述n个子判别器输出的n个子真实判别结果，所述真实判别结果包括所述n个子真实判别结果；

将所述初始预测声学信息以及所述n-1组降采样预测声学信息一一对应地输入所述n个子判别器，以获得所述n个子判别器输出的n个子预测判别结果，所述预测判别结果包括所述n个子预测判别结果。

4.一种语音合成方法，包括：

获取待合成文本；

利用通过如权利要求1至3任一项所述的声学模型训练方法训练获得的声学模型对所述待合成文本进行语音合成，以获得目标语音。

5.一种声学模型训练装置，包括：

获取模块，用于获取文本信息和初始真实声学信息，所述文本信息包括训练文本或与所述训练文本相关的文本特征序列，所述初始真实声学信息包括初始真实语音或与所述初始真实语音相关的初始真实声学特征序列；

第一输入模块，用于将所述文本信息输入声学模型，以获得所述声学模型输出的初始预测声学信息，其中，所述初始预测声学信息与所述初始真实声学信息的形式一致；

第二输入模块，用于将所述初始真实声学信息和所述初始预测声学信息分别输入判别器，以获得所述判别器输出的真实判别结果和预测判别结果，所述真实判别结果与所述初始真实声学信息相对应，所述预测判别结果与所述初始预测声学信息相对应；以及

训练模块，用于至少基于所述真实判别结果和所述预测判别结果，对所述声学模型和所述判别器进行对抗训练。

6.一种语音合成装置，包括：

获取模块，用于获取待合成文本；

合成模块，用于利用通过如权利要求1至3任一项所述的声学模型训练方法训练获得的声学模型对所述待合成文本进行语音合成，以获得目标语音。

7.一种声学模型训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至3任一项所述的声学模型训练方法。

8.一种语音合成系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求4所述的语音合成方法。

9.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至3任一项所述的声学模型训练方法。

10.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求4所述的语音合成方法。