CN114299910B

CN114299910B - 语音合成模型的训练方法、使用方法、装置、设备及介质

Info

Publication number: CN114299910B
Application number: CN202111038601.8A
Authority: CN
Inventors: 苏丹; 阳珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2024-03-22
Anticipated expiration: 2041-09-06
Also published as: CN114299910A

Abstract

本申请公开了一种语音合成模型的训练方法、使用方法、装置、设备及介质，属于语音合成领域。该方法包括：获取第一样本语音数据和第二样本语音数据；提取所述第一样本语音数据的第一PPG特征，以及提取所述第二样本语音数据的第二PPG特征；采用所述第一样本语音数据对应的文本序列和所述第一PPG特征，训练得到文本到PPG模型；采用所述第二PPG特征和所述第二样本语音数据，训练得到PPG到语音模型。本申请提供了一种能够合成韵律自然且高质量的语音数据的语音合成模型。使用了低质量语音数据和高质量语音数据，共同训练语音合成模型，学习低质量语音数据中丰富的韵律信息，并保证语音合成模型输出的合成语音数据的高质量。

Description

语音合成模型的训练方法、使用方法、装置、设备及介质

技术领域

本申请涉及语音合成领域，特别涉及一种语音合成模型的训练方法、使用方法、装置、设备及介质。

背景技术

语音合成(Text To Speech，TTS)是将文本转化为拟人化语音的技术。

目前多使用基于机器学习的语音合成模型来进行语音合成。该语音合成模型需要预先采用文本和语音数据所组成的样本TTS音频库进行训练。互联网上存在非常多的低质量语音数据可以用于构建样本TTS音频库。相关技术中，先采用语音增强模型来对低质量语音数据进行增强，然后构建样本TTS音频库。

由于语音增强模型会破坏语音数据本身的音质，导致最终训练得到语音合成模型所合成的语音存在失真的问题。

发明内容

本申请提供了一种语音合成模型的训练方法、使用方法、装置、设备及介质，通过分别学习语音数据中的韵律信息，和保证语音数据的高质量，获得可以合成包含丰富韵律信息的高质量语音数据的语音合成模型。所述技术方案如下：

根据本申请的一方面，提供了一种语音合成模型的训练方法，所述方法包括：

获取第一样本语音数据和第二样本语音数据，所述第一样本语音数据的质量差于第二样本语音数据；

提取所述第一样本语音数据的第一音素后验(Phonetic Posteriorgrams，PPG)特征，以及提取所述第二样本语音数据的第二PPG特征；

采用所述第一样本语音数据对应的文本序列和所述第一PPG特征，训练得到文本到PPG模型，所述文本到PPG模型是用于将输入的文本序列转换为PPG特征的机器学习模型；

采用所述第二PPG特征和所述第二样本语音数据，训练得到PPG到语音模型，所述PPG到语音模型是用于将所述PPG特征转换为语音数据的机器学习模型。

根据本申请的另一方面，提供了一种语音合成模型的使用方法，所述方法包括：

所述语音合成模型的使用方法包括：

获取输入文本；

将所述输入文本输入至所述文本到PPG模型，得到所述输入文本的预测PPG特征；

将所述输入文本的预测PPG特征输入至所述PPG到语音模型，得到所述输入文本对应的预测语音数据；

输出所述预测语音数据。

根据本申请的另一方面，提供了一种语音合成模型的训练装置，所述装置包括：

数据获取模块，用于获取第一样本语音数据和第二样本语音数据，所述第一样本语音数据的质量差于第二样本语音数据；

特征提取模块，用于提取所述第一样本语音数据的第一音素后验PPG特征，以及提取所述第二样本语音数据的第二PPG特征；

第一训练模块，用于采用所述第一样本语音数据对应的文本序列和所述第一PPG特征，训练得到文本到PPG模型，所述文本到PPG模型是用于将输入的文本序列转换为PPG特征的机器学习模型；

第二训练模块，用于采用所述第二PPG特征和所述第二样本语音数据，训练得到PPG到语音模型，所述PPG到语音模型是用于将所述PPG特征转换为语音数据的机器学习模型。

在本申请的一个可选设计中，所述文本到PPG模型包括：编码器和解码器；

所述第一训练模块，还用于将所述第一样本语音数据对应的文本序列的特征表示输入到所述编码器中，得到所述文本序列的隐层特征表示；

将所述文本序列的隐层特征表示输入到所述解码器中，得到所述文本序列的预测PPG特征；

基于所述第一PPG特征和所述预测PPG特征之间的误差，对所述编码器和所述解码器进行后向误差传播训练，以得到训练后的所述文本到PPG模型。

在本申请的一个可选设计中，所述解码器是基于注意力机制的自回归模型。

在本申请的一个可选设计中，所述PPG到语音模型包括：PPG到语音特征模型和语音特征到语音模型；

所述第二训练模块，包括：

特征提取单元，用于提取所述第二样本语音数据中的样本语音特征；

第一预测单元，用于将所述第二PPG特征输入到所述PPG到语音特征模型，得到预测语音特征；

第一训练单元，用于基于所述样本语音特征和所述预测语音特征之间的误差，对所述PPG到语音特征模型进行后向误差传播训练，以得到训练后的所述PPG到语音特征模型；

第二预测单元，用于将所述样本语音特征输入到所述语音特征到语音模型，得到预测语音数据；

第二训练单元，用于基于所述第二样本语音数据和所述预测语音数据之间的误差，对所述语音特征到语音模型进行后向误差传播训练，以得到训练后的所述语音特征到语音模型。

在本申请的一个可选设计中，所述PPG到语音特征模型是帧级的自回归模型。

在本申请的一个可选设计中，所述语音特征到语音模型是对抗式生成网络模型，所述对抗式生成网络模型包括生成器和判别器，所述生成器用于根据所述样本语音特征生成所述预测语音数据，所述判别器用于判断待判别语音数据是所述第二样本语音数据还是所述预测语音数据；

所述第二训练单元，还用于：固定所述生成器的网络参数不变，基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果，对所述判别器进行后向误差传播训练；

固定所述判别器的网络参数不变，基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果，对所述生成器进行后向误差传播训练；交替执行上述两个步骤，直至满足训练结束条件。

在本申请的一个可选设计中，所述特征提取模块，还用于：

通过ASR声学模型提取所述第一样本语音数据的第一PPG特征；

通过所述ASR声学模型提取所述第二样本语音数据的第二PPG特征。

根据本申请的另一方面，提供了一种语音合成模型的使用装置，所述装置包括：

获取模块，用于获取输入文本；

第一预测模块，用于将所述输入文本输入至所述文本到PPG模型，得到所述输入文本的预测PPG特征；

第二预测模块，用于将所述输入文本的预测PPG特征输入至所述PPG到语音模型，得到所述输入文本对应的预测语音数据；

输出模块，用于输出所述预测语音数据。

所述第二预测模块，还用于：

将所述输入文本的预测PPG特征输入至所述PPG到语音特征模型，得到所述预测PPG特征的预测语音特征；

将所述预测语音特征输入至所述语音特征到语音模型，得到所述输入文本对应的所述预测语音数据。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的语音合成模型的训练方法和/或使用方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的语音合成模型的训练方法和/或使用方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现上述如上方面所述的语音合成模型的训练方法和/或使用方法。

本申请提供的技术方案带来的有益效果至少包括：

本申请的训练方法结合使用了大量的低质量语音数据和少量的高质量语音数据，共同训练语音合成模型。其中，利用PPG特征可以表达语音数据的韵律信息的特点，使用大量的低质量语音数据学习低质量语音数据中包含的丰富的韵律信息；利用高质量语音数据高质量的特点，保证语音合成模型输出的合成语音数据的高质量。解决了使用低质量语音数据学习韵律信息后合成语音数据的质量低下和存在失真的问题，获得了能够合成韵律自然且高质量的语音数据的语音合成模型。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的语音合成模型的训练和使用的计算机系统的框图；

图2是本申请一个示例性实施例提供的语音合成模型的训练方法的示意图；

图3是本申请一个示例性实施例提供的语音合成模型的训练方法的流程图；

图4是本申请一个示例性实施例提供的语音合成模型的训练方法的流程图；

图5是本申请一个示例性实施例提供的编码-解码网络模型的示意图；

图6是本申请一个示例性实施例提供的语音合成模型的训练方法的流程图；

图7是本申请一个示例性实施例提供的语音合成模型的训练方法的流程图；

图8是本申请一个示例性实施例提供的语音合成模型的训练方法的流程图；

图9是本申请一个示例性实施例提供的自动语音识别声学模型的示意图；

图10是本申请一个示例性实施例提供的语音合成模型的使用方法的流程图；

图11是本申请一个示例性实施例提供的语音合成模型的使用方法的流程图；

图12是本申请一个示例性实施例提供的语音合成模型的训练装置的结构框图；

图13是本申请一个示例性实施例提供的语音合成模型的使用装置的结构框图；

图14是本申请一个示例性实施例提供的服务器的结构框图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

图1示出了本申请一个实施例提供的语音合成模型的训练和使用的计算机系统的框图。该语音合成模型的训练系统可以包括：终端110、客户端120、服务器130、语音合成模型140、网络150。

客户端120用于获取用户输入信息，并将用户输入信息发送给服务器130。用户输入信息可以是文本信息或包含文本信息的其他信息，实现语音合成模型的使用过程；也可以是语音数据，实现语音合成模型的训练过程。语音合成模型的使用过程和训练过程可以通过一个客户端实现，也可以通过多个客户端分别实现。

客户端120可以是包括但不限于实现下述功能中的至少之一的应用软件：用于合成书刊的朗读音频、用于合成虚拟主播的演播音频、用于合成游戏解说的解说音频。客户端120可以安装在终端110上。示例性的，终端110包括但不限于下述计算机设备中的至少一种：智能手机、平板电脑、笔记本电脑、台式计算机。

服务器130是本申请构建的语音合成模型140的运行方和语音合成服务的提供方。服务器130可以接收客户端120发送的用户输入语句，进行语音合成后，将语音合成的语音结果发送给客户端120。服务器130还可以接收客户端120发送的语音数据，进行语音合成模型的训练后，更新语音合成模型140，并将语音合成模型140存储在服务器130上。可选的，服务器130可以将语音合成模型140发送给终端110。

服务器130具备承担响应语音合成模型的训练和使用的服务请求、承担语音合成模型的训练和使用、保障语音合成模型的训练和使用能力中的至少一种能力。

可选地，进行语音合成模型的训练和使用的过程中服务器130承担主要计算工作，终端110承担次要计算工作；或者，服务器130承担次要计算工作，终端110承担主要计算工作；或者，服务器130和终端110之间采用分布式计算架构进行协同计算。

终端110与服务器130之间的通信通过网络150实现，网络150的通信方式包括但不限于通过有线或无线方式，实现终端110与服务器130之间的直接或间接通信。

在语音合成模型学习语音数据的韵律信息的过程中，结合使用了大量的低质量语音数据和少量的高质量语音数据，共同训练语音合成模型。

低质量语音数据来源于低质量语音数据库，低质量语音数据库是包括了互联网上存在的大量的低质量语音数据的TTS音频库，低质量语音包括来源于日常生活对话的语音数据，其中包含有丰富的韵律信息。高质量语音数据来源于高质量语音数据库，高质量语音数据库是包括了高质量语音数据的TTS音频库，高质量语音数据库大部分是人工构建的，但也不排除是从互联网上存在的大量语音数据中经过筛选得到的。低质量语音数据的数量大于高质量语音数据的数量。

语音数据的质量是评价语音数据接近真实声音程度的指标。示例性的，影响语音数据的质量的参数包括但不限于下述参数中的至少一种：保真度、采样频率、本底噪声(Noise level)、动态范围(Dynamic range)、采样位数、声道数、比特率。

比如：第一样本语音数据的保真度低于第二样本语音数据、第一样本语音数据的采样频率低于第二样本语音数据、第一样本语音数据的本底噪声高于第二样本语音数据。

示例性的，影响语音数据质量的因素包括但不限于下述因素中的至少一种：环境噪声、采集设备噪声。

使用低质量语音数据，主要学习低质量语音数据中包含的丰富的韵律信息；使用高质量语音数据，保证语音合成模型输出的预测语音数据有高质量，可以避免低质量语音数据对预测语音数据的质量造成影响。

如图2所示，对于一个语音合成模型，分为训练过程210与使用过程220。

在训练过程210中，需要训练文本到PPG模型214和PPG到语音模型218。

从低质量语音数据库中获取低质量语音数据211，并提取低质量语音数据的相关信息，相关信息包括：低质量语音数据的PPG特征212和低质量语音数据的文本序列213。将低质量语音数据的文本序列213输入文本到PPG模型214，得到低质量语音数据的预测PPG特征215。基于低质量语音数据的预测PPG特征215和低质量语音数据的PPG特征212之间的误差，对文本到PPG模型214进行后向误差传播训练，得到训练后的文本到PPG模型222。

从高质量语音数据库中获取高质量语音数据216，并提取高质量语音数据的PPG特征217。将高质量语音数据的PPG特征217输入PPG到语音模型218，得到高质量语音数据的预测语音数据219。基于高质量语音数据的预测语音数据219和高质量语音数据216之间的误差，对PPG到语音模型218进行后向误差传播训练，得到训练后的PPG到语音模型223。

在使用过程220中，需要使用训练后的文本到PPG模型222和训练后的PPG到语音模型223。

获取输入文本221，将获取的输入文本输入训练后的文本到PPG模型222，获得输入文本221对应的预测PPG特征，将预测PPG特征输入训练后的PPG到语音模型223，获得输入文本的预测语音数据224，并输出输入文本的预测语音数据224。

图3示出了本申请一个语音合成模型的训练方法的流程图。该方法可以由计算机设备执行。该方法包括：

步骤302：获取第一样本语音数据和第二样本语音数据；

第一样本语音数据来源于低质量语音数据库，第二样本语音数据来源于高质量语音数据库；第一样本语音数据的质量差于第二样本语音数据。第一样本语音数据的数量大于第二样本语音数据的数量。

低质量语音数据库是包括了互联网上存在的大量的低质量语音数据的TTS音频库，低质量语音包括来源于日常生活对话的语音数据，其中包含有丰富的韵律信息。高质量语音数据库是包括了高质量语音数据的TTS音频库，高质量语音数据库大部分是人工构建的，但也不排除是从互联网上存在的大量语音数据中经过筛选得到的。低质量语音数据库的质量低于高质量语音数据库。

步骤304：提取第一样本语音数据的第一PPG特征，以及提取第二样本语音数据的第二PPG特征；

音素后验(Phonetic Posteriorgrams，PPG)特征是描述语音数据的每个时间帧与每个音素类别的后验概率的矩阵。语音数据是由语音数据的时间帧按照时间顺序依次排列得到的。由于语音数据中的每个时间帧都对应着固定时长的语音数据，且PPG特征包含语音数据的时序信息，PPG特征可以用于描述语音数据的信息包括但不限于至少以下信息：语音的内容、语音的韵律。

音素(Phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。示例性的，在汉语音素中，汉语词语：普通话，可以划分为8个音素，8个音素依次为：p，u，t，o，ng，h，u，a。

步骤306：采用第一样本语音数据对应的文本序列和第一PPG特征，训练得到文本到PPG模型；

文本到PPG模型是用于将输入的文本序列转换为PPG特征的机器学习模型。在本实施例中，对文本到PPG模型的实现方式不作出任何限制，示例性的，文本到PPG模型的实现方式包括但不限于下述方式中的至少一种：编码-解码(Encoder-Decoder)网络模型、时序网络模型、时间卷积网络(Temporal Convolutional Networks，TCN)模型。

将第一样本语音数据对应的文本序列作为样本文本序列输入至文本到PPG模型，输出样本文本序列对应的预测PPG特征，将第一PPG特征作为样本PPG特征，通过比较样本PPG特征与预测PPG特征之间的误差，基于误差使用后向传播算法更新文本到PPG模型的参数，使用多组包含样本文本序列和样本PPG特征的信息组，多次比较误差并更新文本到PPG模型的参数，提高预测PPG特征的准确度。

在本实施例中，对获取第一样本语音数据对应的文本序列的方法不作出任何限制，示例性的，第一样本语音数据对应的文本序列可以是通过人工标注的方法得到的；也可以是使用语音到文本的机器学习模型得到的；也可以是上述两种方法组合得到的，如：使用语音到文本的机器学习模型得到第一样本语音数据对应的文本序列后，通过人工标注查找和纠正文本序列中的错误。

步骤308：采用第二PPG特征和第二样本语音数据，训练得到PPG到语音模型。

PPG到语音模型是用于将PPG特征转换为语音数据的机器学习模型。需要说明的是：PPG到语音模型的具体实现方式可以是由一个机器学习模型单独实现的，也可以是由多个机器学习模型通过级联实现的。在本实施例中，对PPG到语音模型的实现方式不作出任何限制，示例性的，PPG到语音模型的实现方式包括但不限于下述方式中的至少一种：对抗式生成网络(Generative Adversarial Networks，GAN)模型、线性预测神经网络(LinearPrediction Neural Network，LPC Net)模型、音波的递归神经网络(Wave RecurrentNeural Networks，Wave RNN)模型。

将第二PPG特征作为样本PPG特征输入至PPG到语音模型，输出样本PPG特征对应的预测语音数据，将第二样本语音数据作为样本语音数据，通过比较样本语音数据与预测语音数据之间的误差，基于误差使用后向传播算法更新PPG到语音模型的参数，使用多组包含样本PPG特征和样本语音数据的信息组，多次比较误差并更新PPG到语音模型的参数，提高预测语音数据的准确度。

综上所述，本实施例提供的方法，本申请的训练方法结合使用了大量的低质量语音数据和少量的高质量语音数据，共同训练语音合成模型。其中，利用PPG特征可以表达语音数据的韵律信息的特点，使用大量的低质量语音数据学习低质量语音数据中包含的丰富的韵律信息；利用高质量语音数据高质量的特点，保证语音合成模型输出的合成语音数据的高质量。解决了使用低质量语音数据学习韵律信息后合成语音数据的质量低下和存在失真的问题，获得了能够合成韵律自然且高质量的语音数据的语音合成模型。

图4示出了本申请一个语音合成模型的训练方法的流程图。该方法可以由计算机设备执行。该方法包括：

步骤302、步骤304、步骤308参考上文图3示出的实施例中的步骤，在本实施例中不再赘述。

在本实施例中，文本到PPG模型包括：编码器和解码器。

步骤306a：将第一样本语音数据对应的文本序列的特征表示输入到编码器中，得到文本序列的隐层特征表示；

第一样本语音数据对应的文本序列的特征表示是与第一样本语音数据的音素序列对应的一组特征向量。基于本文的发音词典，对第一样本语音数据对应的文本序列进行映射，得到文本序列对应的音素序列。描述音素序列的一组特征向量即为第一样本语音数据对应的文本序列的特征表示。

编码器用于对第一样本语音数据对应的文本序列的特征表示进行编码，输出特征表示对应的隐层特征：

L＝Enc(x)

其中，L表示隐层特征，Enc表示编码器，x表示编码器的输入，在本实施例中，x即为第一样本语音数据对应的文本序列的特征表示。

步骤306b：将文本序列的隐层特征表示输入到解码器中，得到文本序列的预测PPG特征；

解码器用于对特征表示对应的隐层特征进行解码，输出隐层特征对应的PPG特征：

其中，表示解码器输出的预测PPG特征，Dec表示解码器，P表示样本PPG特征，在本实施例中，P即为第一PPG特征。

示例性的，在编码-解码网络模型中，解码器是基于注意力机制的自回归模型。

图5示出了编码-解码网络模型的示意图，在编码-解码网络模型中，解码器是基于注意力机制的自回归模型。

在编码-解码网络模型中，包括编码器510、解码器520、注意力机制530；将第一样本语音数据对应的文本序列的特征表示：g₁、g₂、g₃、g₄、g₅；输入编码器510，通过编码器的卷积层得到对应的隐层特征表示：h₁、h₂、h₃、h₄、h₅；隐层特征表示通过注意力机制530后输入解码器520，通过解码器的卷积层得到对应的预测PPG特征：p₁、p₂、p₃、p₄、p₅。

步骤306c：基于第一PPG特征和预测PPG特征之间的误差，对编码器和解码器进行后向误差传播训练，以得到训练后的文本到PPG模型。

对编码器和解码器进行后向误差传播训练的目的是最小化第一PPG特征和预测PPG特征之间的误差，示例性的，第一PPG特征和预测PPG特征之间的误差为最小均方误差，损失函数为：

其中，表示解码器输出的预测PPG特征，P表示样本PPG特征，在本实施例中，即为第一PPG特征。

综上所述，本实施例提供的方法，使用编码-解码网络模型搭建了文本到PPG模型，使用第一样本语音数据对应的文本序列的特征表示与第一PPG特征，对文本到PPG模型进行训练，充分利用了低质量语音数据中包含的韵律信息，构建了文本信息与PPG特征之间的关系，避免了低质量语音数据中语音质量低对合成语音数据时的音质造成负面影响。

图6示出了本申请一个语音合成模型的训练方法的流程图。该方法可以由计算机设备执行。该方法包括：

步骤302、步骤304、步骤306参考上文图3示出的实施例中的步骤，在本实施例中不再赘述。

在本实施例中，PPG到语音模型包括：PPG到语音特征模型和语音特征到语音模型。

步骤308a：提取第二样本语音数据中的样本语音特征；

语音特征用于描述语音数据，语音特征包含的语音数据信息至少包括但不限于：语音的内容、语音的音色、语音的韵律。

示例性的，语音特征包括：

梅尔频率倒谱(Mel-Frequency Cepstrum)特征；

或，滤波器组(Filter Bank，FBank)特征；

或，变分自编码器(Variational Autoencoder，VAE)隐层表示特征。

在本实施例中，对提取第二样本语音数据中的样本语音特征中的提取方法不作出任何限制，示例性的，提取第二样本语音数据中的样本语音特征的方法包括但不限于下述方法中的至少一种：

·对第二样本语音数据进行信号处理；

比如，对第二样本语音数据进行时序变换、频域变换、特征谱提取、平滑处理、卷积运算。

·将第二样本语音数据输入生成式网络结构。

比如，将第二样本语音数据输入编码网络得到隐层表示。

步骤308b：将第二PPG特征输入到PPG到语音特征模型，得到预测语音特征；

PPG到语音特征模型是用于将PPG特征转换为语音特征的机器学习模型；将第二PPG特征作为样本PPG特征输入至PPG到语音特征模型，输出样本PPG特征对应的预测语音特征，将第二样本语音数据中的样本语音特征作为样本语音特征，通过比较样本语音特征与预测语音特征之间的误差，基于误差使用后向传播算法更新PPG到语音特征模型的参数，使用多组包括样本PPG特征和样本语音特征的信息组，多次比较误差并更新PPG到语音特征模型的参数，提高预测语音特征的准确度。

可选的，PPG到语音特征模型是帧级的自回归模型。

帧级的自回归模型以预测语音数据的时间帧作为最小单位，逐个预测语音数据的每个时间帧。

接下来，在本实施例中，以提取第二样本语音数据中的样本语音特征是梅尔频率倒谱，PPG到语音特征模型是帧级的自回归模型为例，进行示例性的说明：

PPG到语音特征模型用于得到输入的样本PPG特征对应的预测梅尔谱特征：

其中，表示预测梅尔谱特征，f表示PPG到语音特征模型，M表示样本语音特征，P表示样本PPG特征，在本实施例中，P即为第二PPG特征。

步骤308c：基于样本语音特征和预测语音特征之间的误差，对PPG到语音特征模型进行后向误差传播训练，以得到训练后的PPG到语音特征模型；

对PPG到语音特征模型进行后向误差传播训练的目的是最小化预测梅尔谱特征和样本语音特征之间的误差，示例性的，预测梅尔谱特征和样本语音特征之间的误差为最小均方误差，损失函数为：

其中，表示预测梅尔谱特征，M表示样本语音特征。

步骤308d：将样本语音特征输入到语音特征到语音模型，得到预测语音数据；

语音特征到语音模型是用于将语音特征转换为语音数据的机器学习模型；将第二样本语音数据中的样本语音特征作为样本语音特征输入至语音特征到语音模型，输出样本语音特征对应的预测语音数据，将第二样本语音数据作为样本语音数据，通过比较样本语音数据与预测语音数据之间的误差，基于误差使用后向传播算法更新语音特征到语音模型的参数，使用多组包含样本语音特征和样本语音数据的信息组，多次比较误差并更新语音特征到语音模型的参数，提高预测语音数据的准确度。

步骤308e：基于第二样本语音数据和预测语音数据之间的误差，对语音特征到语音模型进行后向误差传播训练，以得到训练后的语音特征到语音模型。

对语音特征到语音模型进行后向误差传播训练的目的是最小化预测语音数据和样本语音数据之间的误差。

综上所述，本实施例提供的方法，将PPG到语音模型分为：PPG到语音特征模型和语音特征到语音模型，利用包含语音数据的内容、音色和韵律信息的语音特征，在PPG特征和语音数据之间搭建了桥梁，实现了使用样本PPG特征，输出高质量的预测语音数据。避免了使用低质量语音数据学习韵律信息时，预测语音数据质量低的问题。

图7示出了本申请一个语音合成模型的训练方法的流程图。该方法可以由计算机设备执行。该方法包括：

步骤302、步骤304、步骤306，参考上文图3示出的实施例中的步骤，步骤308a、步骤308b、步骤308c、步骤308d，参考上文图6示出的实施例中的步骤，在本实施例中不再赘述。

在本实施例中，语音特征到语音模型是对抗式生成网络模型，对抗式生成网络模型包括：生成器和判别器。生成器用于根据样本语音特征生成预测语音数据，判别器用于判断待判别语音数据是第二样本语音数据还是预测语音数据。

需要说明的是，在本实施例中，步骤308f、步骤308g是图6示出的实施例中步骤308e的具体下位。

步骤308f：固定生成器的网络参数不变，基于判别器对第二样本语音数据和预测语音数据的判断结果，对判别器进行后向误差传播训练；

对判别器进行后向误差传播训练，示例性的，判别器的对抗损失函数为：

L_{adv_d}＝(D(w)-1)²+D(G(M))²

其中，D表示判别器，w表示样本语音数据，G表示生成器，M表示样本语音特征；在本实施例中，D表示多尺度的频域判别器，w即为第二样本语音数据。

可选的，为了提高生成器生成的预测语音数据的质量，保证对抗式生成网络模型训练过程的稳定性，在判别器的隐层加入特征匹配损失，示例性的，特征匹配损失为：

其中，Ε表示计算数学期望，表示第k个判别器中第i层网络的输出，T表示判别器的网络层数量，N_i表示第i层网络的节点数量，x表示输入生成器和判别器的内容，在本实施例中，x可以是样本语音数据，也可以是样本语音特征。

步骤308g：固定判别器的网络参数不变，基于判别器对第二样本语音数据和预测语音数据的判断结果，对生成器进行后向误差传播训练。

对生成器进行后向误差传播训练，示例性的，生成器的对抗损失函数为：

L_{adv_g}＝(D(G(M))-1)²

其中，D表示判别器，G表示生成器，M表示样本语音特征；在本实施例中，D表示多尺度的频域判别器。

结合步骤308f中的判别器的对抗损失函数、特征匹配损失和本步骤中的生成器的对抗损失函数，得到生成器的损失函数为：

L＝λ₄L_{adv_g}+λ₅L_fm

其中，λ₄表示判别器的对抗损失函数的权重系数，λ₅表示特征匹配损失的权重系数，λ₄和λ₅的取值均为大于等于0且小于等于1的任意数值。

交替执行步骤308f、步骤308g，直至满足训练结束条件。

在本实施例中，对交替执行步骤308f、步骤308g的交替条件不作出任何限制，示例性的，交替条件包括但不限于满足下述条件中的至少之一：

·任一步骤中的后向误差传播训练次数达到目标次数；

示例性的，目标次数包括但不限于：样本语音数据数量的固定比例；或，固定数值。比如：步骤308g中生成器的后向误差传播训练次数达到10000次。

·任一步骤中的损失函数的变化率小于预设阈值；

示例性的，损失函数包括但不限于下述函数中的至少一种：判别器的对抗损失函数、判别器的特征匹配损失、生成器的对抗损失函数、生成器的损失函数。比如：步骤308g中生成器的对抗损失函数的变化率小于0.3‰。

综上所述，本实施例提供的方法，使用对抗式生成网络模型构建语音特征到语音模型，交替训练生成器与判别器，可以不断提高生成器生成预测语音数据的准确度，通过在判别器的隐层加入特征匹配损失，提高了生成器生成的预测语音数据的质量，保证了对抗式生成网络模型训练过程的稳定性。

图8示出了本申请一个语音合成模型的训练方法的流程图。该方法可以由计算机设备执行。该方法包括：

步骤302、步骤306、步骤308，参考上文图3示出的实施例中的步骤，在本实施例中不再赘述。

步骤304a：通过ASR声学模型提取第一样本语音数据的第一PPG特征，以及通过ASR声学模型提取第二样本语音数据的第二PPG特征。

自动语音识别(Automatic Speech Recognition，ASR)声学模型具有抗噪性和鲁棒性，可以去除语音数据中与语音本身无关的噪声信号和音色信息。

ASR模型是用于将样本语音数据转换为PPG特征的机器学习模型；将固定帧长的语音数据作为样本语音数据输入至ASR模型，输出样本语音数据属于不同音素类别的预测概率，通过比较预测概率与样本语音数据的音素类别之间的误差，基于误差使用后向传播算法更新ASR模型的参数，使用多组包含样本语音数据和样本语音数据的音素类别的信息组，多次比较误差并更新ASR模型的参数，提高预测样本语音数据的音素类别的准确度。

ASR模型可以使用不同类型的网络结构实现，在本实施例中，对ASR模型的实现结构不作出任何限制，示例性的，ASR模型的实现结构可以包括但不限于下述模型结构中的至少一种：卷积神经网络(Convolutional Neural Networks，CNN)、深层前馈顺序记忆网络(Deep Feedforward Sequential Memory Networks，DFSMN)、双向长时间短期记忆网络(Bi-directional Long Short-Term Memory，BLSTM)、转换网络(Transformer)。本领域技术人员可以理解，使用上述模型结构实现ASR模型时，可以使用单一的模型结构，也可以将多个模型结构相互混合使用。

图9示出了ASR模型的示意图，示例性的，ASR模型使用深层前馈顺序记忆网络实现。

ASR模型910示出了使用深层前馈顺序记忆网络实现ASR模型的网络结构示意图。声学特征通过ASR模型生成后验概率P_t，后验概率P_t是时间为t时，N个音素的后验概率：P_t ¹、P_t ²、…P_t ^N，PPG特征920中包括T个时刻的后验概率。

综上所述，本实施例提供的方法，充分利用了ASR声学模型的抗噪性和鲁棒性，提取样本语音数据的PPG特征，PPG特征保存了样本语音数据的内容和韵律信息，建立了样本语音数据与PPG特征之间的关系，为学习低质量语音数据中丰富的韵律信息提供了基础。

本领域普通技术人员可以理解，上述实施例可以独立实施，也可以将上述实施例进行自由组合，组合出新的实施例实现本申请的语音合成模型的训练方法。

图10示出了本申请一个语音合成模型的使用方法的流程图。该方法可以由计算机设备执行。该方法包括：

在本实施例中，语音合成模型包括：文本到PPG模型和PPG到语音模型。

步骤1002：获取输入文本；

输入文本是用户使用计算机设备的输入设备输入的文本。示例性的，计算机设备的输入设备包括但不限于下述设备中的至少一种：键盘、触控板、手写字符识别设备、光学字符识别(Optical Character Recognition，OCR)设备、语音识别设备。

步骤1004：将输入文本输入至文本到PPG模型，得到输入文本的预测PPG特征；

文本到PPG模型是用于将PPG特征转换为语音数据的机器学习模型；文本到PPG模型是采用第一样本语音数据对应的文本序列和第一PPG特征训练后得到的。

步骤1006：将输入文本的预测PPG特征输入至PPG到语音模型，得到输入文本对应的预测语音数据；

PPG到语音模型是用于将PPG特征转换为语音数据的机器学习模型；PPG到语音模型是采用第二PPG特征和第二样本语音数据训练后得到的。

步骤1008：输出预测语音数据。

预测语音数据保存在用户使用计算机设备的存储器上；可选的，预测语音数据通过用户使用计算机设备的音频输出设备播放。示例性的，计算机设备的声音音频设备包括但不限于下述设备中的至少一种：扬声器、外接音响设备、外接耳机。

综上所述，本实施例提供的方法，使用训练后的语音合成模型，得到输入文本对应的预测语音数据，文本到PPG模型保证了预测语音数据包含丰富的韵律信息，PPG到语音模型保持了预测语音数据的高质量，提高了语音合成模型合成语音数据的效果，能够合成出韵律自然且高音质的语音数据。

图11示出了本申请一个语音合成模型的使用方法的流程图。该方法可以由计算机设备执行。该方法包括：

步骤1002、步骤1004、步骤1008，参考上文图10示出的实施例中的步骤，在本实施例中不再赘述。

步骤1006a：将输入文本的预测PPG特征输入至PPG到语音特征模型，得到预测PPG特征的预测语音特征；

PPG到语音特征模型是用于将PPG特征转换为语音特征的机器学习模型；PPG到语音特征模型是采用第二PPG特征和第二样本语音数据中的样本语音特征训练后得到的。

示例性的，语音特征包括：

梅尔频率倒谱(Mel-Frequency Cepstrum)特征；

或，滤波器组(Filter Bank，FBank)特征；

或，变分自编码器(Variational Autoencoder，VAE)隐层表示特征。

步骤1006b：将预测语音特征输入至语音特征到语音模型，得到输入文本对应的所述预测语音数据。

语音特征到语音模型是用于将语音特征转换为语音数据的机器学习模型；语音特征到语音模型是采用第二样本语音数据和第二样本语音数据中的样本语音特征训练后得到的。

综上所述，本实施例提供的方法，利用包含语音数据的内容、音色和韵律信息的语音特征，在PPG特征和语音数据之间搭建了桥梁，实现了使用样本PPG特征，输出高质量的预测语音数据。避免了使用低质量语音数据学习韵律信息时，预测语音数据质量低的问题。

在一个示例中，将语音合成模型应用于合成书刊的朗读音频。

获取书刊的内容文本；将内容文本输入至文本到PPG模型，得到内容文本的预测PPG特征；将内容文本的预测PPG特征输入至PPG到语音模型，得到内容文本对应的预测语音数据；将预测语音数据输出为书刊的朗读音频。

需要说明的是，在本示例中，对获取书刊的内容文本的方法不作出任何限制，获取书刊的内容文本的方法包括但不限于下述方法：获取通过图像识别文字的机器学习模型得到的图像中的书刊的内容文本、获取通过人工撰写得到的书刊的内容文本。

在另一个示例中，将语音合成模型应用于合成虚拟主播的演播音频。

获取虚拟主播的演播词；将演播词输入至文本到PPG模型，得到演播词的预测PPG特征；将演播词的预测PPG特征输入至PPG到语音模型，得到演播词对应的预测语音数据；将预测语音数据输出为虚拟主播的演播音频。

需要说明的是，在本示例中，对获取虚拟主播的演播词的方法不作出任何限制，获取虚拟主播的演播词的方法包括但不限于下述方法：获取机器学习模型生成的虚拟主播的演播词、获取通过人工撰写得到的虚拟主播的演播词。

在另一个示例中，将语音合成模型应用于合成游戏解说的解说音频。

获取解说的解说文稿；将解说文稿输入至文本到PPG模型，得到解说文稿的预测PPG特征；将解说文稿的预测PPG特征输入至PPG到语音模型，得到解说文稿对应的预测语音数据；将预测语音数据输出为游戏解说的解说音频。

需要说明的是，在本示例中，对获取游戏解说的解说文稿的方法不作出任何限制，获取游戏解说的解说文稿的方法包括但不限于下述方法：获取机器学习模型生成的游戏解说的解说文稿、获取通过人工撰写得到的游戏解说的解说文稿。

图12示出了本申请一个示例性实施例提供的语音合成模型的训练装置的框图。该装置包括：

数据获取模块1210，用于获取第一样本语音数据和第二样本语音数据，所述第一样本语音数据的质量差于第二样本语音数据；

特征提取模块1220，用于提取所述第一样本语音数据的第一音素后验PPG特征，以及提取所述第二样本语音数据的第二PPG特征；

第一训练模块1230，用于采用所述第一样本语音数据对应的文本序列和所述第一PPG特征，训练得到文本到PPG模型，所述文本到PPG模型是用于将输入的文本序列转换为PPG特征的机器学习模型；

第二训练模块1240，用于采用所述第二PPG特征和所述第二样本语音数据，训练得到PPG到语音模型，所述PPG到语音模型是用于将所述PPG特征转换为语音数据的机器学习模型。

在本实施例的一个可选设计中，所述文本到PPG模型包括：编码器和解码器；

所述第一训练模块1230，还用于将所述第一样本语音数据对应的文本序列的特征表示输入到所述编码器中，得到所述文本序列的隐层特征表示；

在本实施例的一个可选设计中，所述解码器是基于注意力机制的自回归模型。

在本实施例的一个可选设计中，所述PPG到语音模型包括：PPG到语音特征模型和语音特征到语音模型；

所述第二训练模块1240，包括：

特征提取单元1241，用于提取所述第二样本语音数据中的样本语音特征；

第一预测单元1242，用于将所述第二PPG特征输入到所述PPG到语音特征模型，得到预测语音特征；

第一训练单元1243，用于基于所述样本语音特征和所述预测语音特征之间的误差，对所述PPG到语音特征模型进行后向误差传播训练，以得到训练后的所述PPG到语音特征模型；

第二预测单元1244，用于将所述样本语音特征输入到所述语音特征到语音模型，得到预测语音数据；

第二训练单元1245，用于基于所述第二样本语音数据和所述预测语音数据之间的误差，对所述语音特征到语音模型进行后向误差传播训练，以得到训练后的所述语音特征到语音模型。

在本实施例的一个可选设计中，所述PPG到语音特征模型是帧级的自回归模型。

在本实施例的一个可选设计中，所述语音特征到语音模型是对抗式生成网络模型，所述对抗式生成网络模型包括生成器和判别器，所述生成器用于根据所述样本语音特征生成所述预测语音数据，所述判别器用于判断待判别语音数据是所述第二样本语音数据还是所述预测语音数据；

所述第二训练单元1245，还用于：固定所述生成器的网络参数不变，基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果，对所述判别器进行后向误差传播训练；

固定所述判别器的网络参数不变，基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果，对所述生成器进行后向误差传播训练；

交替执行上述两个步骤，直至满足训练结束条件。

在本实施例的一个可选设计中，所述特征提取模块1220，还用于：

通过ASR声学模型提取所述第一样本语音数据的第一PPG特征；

图13示出了本申请一个示例性实施例提供的语音合成模型的使用装置的框图。所述语音合成模型包括：文本到PPG模型和PPG到语音模型；该装置包括：

获取模块1310，用于获取输入文本；

第一预测模块1320，用于将所述输入文本输入至所述文本到PPG模型，得到所述输入文本的预测PPG特征；

第二预测模块1330，用于将所述输入文本的预测PPG特征输入至所述PPG到语音模型，得到所述输入文本对应的预测语音数据；

输出模块1340，用于输出所述预测语音数据。

所述第二预测模块1330，还用于：

需要说明的一点是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的语音合成模型的训练方法。

可选地，该计算机设备为服务器。示例地，图14是本申请一个示例性实施例提供的服务器的结构框图。

通常，服务器1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1401所执行以实现本申请中方法实施例提供的语音合成模型的训练和/或使用方法。

在一些实施例中，服务器1400还可选包括有：输入接口1403和输出接口1404。处理器1401、存储器1402和输入接口1403、输出接口1404之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与输入接口1403、输出接口1404相连。输入接口1403、输出接口1404可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和输入接口1403、输出接口1404被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和输入接口1403、输出接口1404中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

本领域技术人员可以理解，图14中示出的结构并不构成对服务器1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片在计算机设备上运行时，用于实现上述方面所述的语音合成模型的训练方法和/或使用方法。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例提供的语音合成模型的训练方法和/或使用方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，当该程序代码由计算机设备的处理器加载并执行时，实现上述各方法实施例提供的语音合成模型的训练方法和/或使用方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成模型的训练方法，其特征在于，所述方法包括：

获取第一样本语音数据和第二样本语音数据，所述第一样本语音数据的质量差于第二样本语音数据，所述第一样本语音数据的数量大于所述第二样本语音数据的数量；

提取所述第一样本语音数据的第一PPG特征，以及提取所述第二样本语音数据的第二PPG特征，PPG特征是音素后验特征；

提取所述第二样本语音数据中的样本语音特征，所述样本语音特征包括滤波器组特征或变分自编码器隐层表示特征；

将所述第二PPG特征输入到PPG到语音特征模型，得到预测语音特征；

基于所述样本语音特征和所述预测语音特征之间的误差，对所述PPG到语音特征模型进行后向误差传播训练，以得到训练后的所述PPG到语音特征模型；

将所述样本语音特征输入到语音特征到语音模型，得到预测语音数据；

基于所述第二样本语音数据和所述预测语音数据之间的误差，对所述语音特征到语音模型进行后向误差传播训练，以得到训练后的所述语音特征到语音模型；

其中，PPG到语音模型包括：所述PPG到语音特征模型和所述语音特征到语音模型，所述PPG到语音模型是用于将所述PPG特征转换为语音数据的机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述文本到PPG模型包括：编码器和解码器；

所述采用所述第一样本语音数据对应的文本序列和所述第一PPG特征，训练得到文本到PPG模型，包括：

将所述第一样本语音数据对应的文本序列的特征表示输入到所述编码器中，得到所述文本序列的隐层特征表示；

3.根据权利要求2所述的方法，其特征在于，所述解码器是基于注意力机制的自回归模型。

4.根据权利要求1所述的方法，其特征在于，所述PPG到语音特征模型是帧级的自回归模型。

5.根据权利要求1所述的方法，其特征在于，所述语音特征到语音模型是对抗式生成网络模型，所述对抗式生成网络模型包括生成器和判别器，所述生成器用于根据所述样本语音特征生成所述预测语音数据，所述判别器用于判断待判别语音数据是所述第二样本语音数据还是所述预测语音数据；

所述基于所述第二样本语音数据和所述预测语音数据之间的误差，对所述语音特征到语音模型进行后向误差传播训练，以得到训练后的所述语音特征到语音模型，包括：

固定所述生成器的网络参数不变，基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果，对所述判别器进行后向误差传播训练；

交替执行上述两个步骤，直至满足训练结束条件。

6.根据权利要求1至5任一所述的方法，其特征在于，所述提取所述第一样本语音数据的第一PPG特征，包括：

通过自动语音识别ASR声学模型提取所述第一样本语音数据的第一PPG特征；

所述提取所述第二样本语音数据的第二PPG特征，包括：

7.一种语音合成模型的使用方法，其特征在于，所述语音合成模型包括：文本到PPG模型和PPG到语音模型，所述语音合成模型是上述权利要求1至6任一所述的方法训练得到的；所述方法包括：

获取输入文本；

输出所述预测语音数据。

8.根据权利要求7所述的方法，其特征在于，所述PPG到语音模型包括：PPG到语音特征模型和语音特征到语音模型；

所述将所述输入文本的预测PPG特征输入至所述PPG到语音模型，得到所述输入文本对应的预测语音数据，包括：

9.一种语音合成模型的训练装置，其特征在于，所述装置包括：

数据获取模块，用于获取第一样本语音数据和第二样本语音数据，所述第一样本语音数据的质量差于第二样本语音数据，所述第一样本语音数据的数量大于所述第二样本语音数据的数量；

特征提取模块，用于提取所述第一样本语音数据的第一PPG特征，以及提取所述第二样本语音数据的第二PPG特征，PPG特征是音素后验特征；

第二训练模块，用于提取所述第二样本语音数据中的样本语音特征，所述样本语音特征包括滤波器组特征或变分自编码器隐层表示特征；

10.一种语音合成模型的使用装置，其特征在于，所述语音合成模型包括：文本到PPG模型和PPG到语音模型，所述语音合成模型是上述权利要求1至6任一所述的方法训练得到的；所述装置包括：

获取模块，用于获取输入文本；

输出模块，用于输出所述预测语音数据。

11.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一段程序；所述处理器，用于执行所述存储器中的所述至少一段程序以实现如权利要求1至6任一所述的语音合成模型的训练方法，或如权利要求7或8所述的语音合成模型的使用方法。

12.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有可执行指令，所述可执行指令由处理器加载并执行以实现如权利要求1至6任一所述的语音合成模型的训练方法，或如权利要求7或8所述的语音合成模型的使用方法。

13.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现如权利要求1至6任一所述的语音合成模型的训练方法，或如权利要求7或8所述的语音合成模型的使用方法。