CN114566140A

CN114566140A - 语音合成模型训练方法、语音合成方法、设备及产品

Info

Publication number: CN114566140A
Application number: CN202210157576.3A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-31

Abstract

本申请涉及一种语音合成模型的训练方法、语音合成方法、设备和产品。所述语音合成模型的训练方法包括：获取训练语音对象的训练语音样本所对应的训练语谱信息；将训练语谱信息输入到待训练的语音合成模型中的第一编码模块，通过第一编码模块编码得到训练语谱信息对应的第一编码向量，确定第一编码向量对应的训练向量分布参数；基于训练向量分布参数得到训练语音对象对应的训练对象音色特征，根据训练对象音色特征和训练语音样本对应的训练文本信息得到第一合成语音；根据第一合成语音与训练语音样本之间的差异，得到第一模型损失值；根据第一模型损失值调整模型参数，得到预训练的语音合成模型，能有效提高合成语音对应音色与说话人音色的相似度。

Description

语音合成模型训练方法、语音合成方法、设备及产品

技术领域

本申请涉及语音合成技术领域，特别是涉及一种语音合成模型的训练方法、语音合成方法、计算机设备和计算机程序产品。

背景技术

随着人工智能技术的发展，语音合成的应用日益广泛。

在进行语音合成时，通过获取说话人对应的语料数据，并对该语料数据作进一步分析和处理，得到对应的语音合成模型，通过该模型，可以合成出具有说话人目标音色的声音，达到音色迁移的效果。然而，相关技术合成出的音色与说话人的音色仍然存在一定差异，存在合成得到的语音的音色不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种语音合成模型的训练方法、语音合成方法、计算机设备和计算机程序产品。

第一方面，本申请提供了一种语音合成模型的训练方法。所述方法包括：

获取训练语音对象的训练语音样本所对应的训练语谱信息；

将所述训练语谱信息输入到待训练的语音合成模型中的第一编码模块，通过所述第一编码模块编码得到所述训练语谱信息对应的第一编码向量，确定所述第一编码向量对应的训练向量分布参数；

基于所述训练向量分布参数得到所述训练语音对象对应的训练对象音色特征，根据所述训练对象音色特征和所述训练语音样本对应的训练文本信息得到第一合成语音；

根据所述第一合成语音与所述训练语音样本之间的差异，得到第一模型损失值；

根据所述第一模型损失值调整所述待训练的语音合成模型的模型参数，得到预训练的语音合成模型。

在其中一个实施例中，所述根据所述第一合成语音与所述训练语音样本之间的差异，得到第一模型损失值，包括：

根据所述第一合成语音与所述训练语音样本之间的差异，得到语音损失值；

将所述训练对象音色特征输入到对象分类网络中，得到对象分类结果；

基于所述对象分类结果得到对象分类损失值，所述对象分类损失值用于指示所述对象分类结果与标准分类结果的差异；

基于所述语音损失值与所述对象分类损失值得到所述第一模型损失值。

在其中一个实施例中，所述根据所述训练对象音色特征和所述训练语音样本对应的训练文本信息得到第一合成语音包括：

基于所述训练语音样本，获取所述训练语音样本的训练文本信息所对应的训练声学属性信息，并确定所述训练声学属性信息对应的第二编码向量；

将所述训练语谱信息、所述训练对象音色特征以及所述第二编码向量输入到所述待训练的语音合成模型中的解码网络，得到解码得到第一合成语音。

在其中一个实施例中，所述训练声学属性信息包括语音停顿结果以及情感特征信息，所述基于所述训练语音样本，获取所述训练语音样本的训练文本信息所对应的训练声学属性信息，包括：

获取所述训练语音样本对应的训练文本信息和所述训练文本信息对应的语音停顿结果；

基于所述训练语音样本，获取所述训练文本信息对应的情感特征信息。

第二方面，本申请还提供了一种语音合成方法。所述方法包括：

获取目标语音对象的目标语音样本所对应的目标语谱信息；

基于所述目标语谱信息对预训练的语音合成模型进行训练，得到所述目标语音对象的目标语音合成模型；所述预训练的语音合成模型根据如权利要求1-4任一项所述的语音合成模型的训练方法得到，所述目标语音合成模型用于合成具有所述目标语音对象音色特征的语音；

获取待合成语音的目标文本；

将所述目标文本输入到所述目标语音合成模型，得到所述目标语音合成模型输出的所述目标文本对应的目标合成语音。

在其中一个实施例中，所述预训练的语音合成模型基于多个训练语谱信息训练得到的，所述训练语谱信息关联有对应训练语音对象的对象标识；所述基于所述目标语谱信息对预训练的语音合成模型进行训练，得到所述目标语音对象的目标语音合成模型，包括：

获取所述预训练的语音合成模型对应的训练样本集合；所述训练样本集合包括所述多个训练语音对象各自对应的训练语谱信息；

从所述多个训练语音对象中确定出目标训练语音对象；所述目标训练语音对象的训练对象音色特征与所述目标语音样本的样本音色特征匹配；

将所述目标训练语音对象对应的目标对象标识与所述目标语谱信息关联；

基于关联有所述目标对象标识的目标语谱信息，对所述预训练的语音合成模型进行训练，得到所述目标语音对象的目标语音合成模型。

在其中一个实施例中，所述基于关联有所述目标对象标识的目标语谱信息，对所述预训练的语音合成模型进行训练，得到所述目标语音对象的目标语音合成模型，包括：

将关联有所述目标对象标识的目标语谱信息，输入到所述预训练的语音合成模型中的第一编码模块；

通过所述第一编码模块编码得到所述目标语谱信息对应的第三编码向量，并基于所述目标对象标识，确定所述目标训练语音对象的训练向量分布参数；

基于所述第三编码向量，对所述目标训练语音对象的训练向量分布参数进行调整，得到目标向量分布参数；

基于所述目标向量分布参数得到所述目标语音对象对应的目标对象音色特征，并根据所述目标对象音色特征和所述目标语音样本对应的目标文本信息得到第二合成语音；

根据所述第二合成语音与所述目标语音样本之间的差异，得到第二模型损失值；

根据所述第二模型损失值调整所述预训练的语音合成模型的模型参数，得到所述目标语音对象的目标语音合成模型。

在其中一个实施例中，所述从所述多个训练语音对象中确定出目标训练语音对象，包括：

获取所述目标语音样本对应的第一目标声纹特征和所述训练语音样本对应的第一训练声纹特征，根据所述第一目标声纹特征和所述第一训练声纹特征，确定所述目标语音对象和所述训练语音对象对应的第一音色相似度；所述第一目标声纹特征和所述第一训练声纹特征通过第一声纹识别模型提取得到；

获取所述目标语音样本对应的第二目标声纹特征和所述训练语音样本对应的第二训练声纹特征，根据所述第二目标声纹特征和所述第二训练声纹特征，确定所述目标语音对象和所述训练语音对象对应的第二音色相似度；所述第二目标声纹特征和所述第二训练声纹特征通过第二声纹识别模型提取得到；

基于所述第一音色相似度和所述第二音色相似度，确定每个训练语音对象与所述目标语音对象之间的音色相似度；

基于所述音色相似度，确定出目标训练语音对象。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述的方法的步骤。

第四方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上任一项所述的方法的步骤。

上述语音合成模型的训练方法、语音合成方法、计算机设备和计算机程序产品，可以获取训练语音对象的训练语音样本所对应的训练语谱信息，将训练语谱信息输入到待训练的语音合成模型中的第一编码模块，通过第一编码模块编码得到训练语谱信息对应的第一编码向量，确定第一编码向量对应的训练向量分布参数，基于训练向量分布参数得到训练语音对象对应的训练对象音色特征，根据训练对象音色特征和训练语音样本对应的训练文本信息得到第一合成语音，根据第一合成语音与训练语音样本之间的差异，得到第一模型损失值，根据第一模型损失值调整待训练的语音合成模型的模型参数，得到预训练的语音合成模型。在本申请中，能够基于训练向量分布参数确定具有说话人音色特征的训练对象音色特征，在语谱信息和文本信息的基础上，结合训练对象音色特征辅助语音合成，有效提高合成语音对应音色与说话人音色的相似度。

附图说明

图1为一个实施例中语音合成模型的训练方法和语音合成方法的应用环境图；

图2为一个实施例中语音合成模型的训练方法的流程示意图；

图3为一个实施例中确定第一模型损失值步骤的流程示意图；

图4为一个实施例中语音合成方法的流程示意图；

图5为另一个实施例中语音合成方法的流程示意图；

图6为一个实施例中语音合成模型的结构图；

图7为一个实施例中语音合成模型的训练装置的结构框图；

图8为一个实施例中语音合成装置的结构框图；

图9为一个实施例中计算机设备的内部结构图；

图10为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为本申请一个实施例提供的语音合成模型的训练方法及语音合成方法的应用环境图，如图1所示，在该应用环境中，可以包括终端110以及服务器120，并通过服务器120对待训练的语音合成模型进行训练，得到预训练的语音合成模型。服务器120在获取到预训练的语音合成模型后，可以对其进行存储，以利用预训练的语音合成模型进行语音合成，或者，可以在接收到终端110或其他服务器发送的模型加载请求后，将预训练的语音合成模型发送到对应的设备，例如服务器120可以将预训练的语音合成模型部署在语音合成应用中，终端110可以安装该语音合成应用，以对预训练的语音合成模型作进一步训练，得到目标语音合成模型，并通过目标语音合成模型合成出具有指定银色的语音。

其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

可以理解的是，上述应用场景仅是一种示例，并不能构成对本申请实施例提供的语音合成方法的限制，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现，其具体可以是物理服务器，也可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。

在一个实施例中，如图2所示，提供了一种语音合成模型的训练方法，以该方法应用于图1中的服务器120为例进行说明，当然，该方法也可以应用于终端110，通过终端110进行模型训练。具体地，可以包括以下步骤：

步骤S210，获取训练语音对象的训练语音样本所对应的训练语谱信息。

作为一示例，训练语音对象可以是在语音合成模型训练过程中提供训练语料的说话人，由训练语音对象发出的语音可以作为训练语音样本。其中，训练语音样本可以是具有语义的语音样本，能够表达具体的信息。

训练语谱信息可以是训练语音样本对应的语谱信息，其中，训练语谱信息可以是表征训练语音样本的原始信号特征的信息，例如，可以提取训练语音样本时域声音信号的频谱信息，作为语谱信息。当频谱为梅尔频谱时语谱信息还可以包括梅尔频率倒谱系数。

在实际应用中，可以获取训练语音对象发出的训练语音样本，并提取训练语音样本对应的训练语谱信息。

步骤S220，将训练语谱信息输入到待训练的语音合成模型中的第一编码模块，通过第一编码模块编码得到训练语谱信息对应的第一编码向量，确定第一编码向量对应的训练向量分布参数。

作为一示例，第一编码模块可以是用于获取分布参数的模块，向量分布参数也可以称为正态分布参数，包括均值和方差，训练向量分布参数为第一编码向量对应的向量分布参数。

具体地，第一编码模块可以是变分自编码器(Variational Auto-Encoder，VAE)，变分自编码器是一种获取真实样本的分布参数，并通过训练模型参数使其基于分布参数生成的结果与真实样本足够一致的神经网络模块。

在实际应用中，可以预先获取待训练的语音合成模型，该语音合成模型中可以包括第一编码模块，在得到训练语谱信息后，可以将训练语谱信息输入到待训练的语音合成模型的第一编码模块中，通过第一编码模块对输入的训练语谱信息进行编码，获取训练语谱信息对应的第一编码向量并确定第一编码向量对应的训练向量分布参数。通过第一编码模块获取每个训练对象对应的训练向量分布参数，基于训练语谱信息得到的训练向量分布参数与训练对象之间可以存在一一对应的关系。

在一实施例中，第一编码模块在接收到训练语谱信息后，可以通过第一编码模块中的二维卷积和循环神经网络，对输入的训练语谱信息进行编码，得到第一编码向量，并将第一编码向量输入到第一编码模块内部的全连接网络，触发全连接网络对输入的第一编码向量进行处理，由此，可以得到涵盖有训练对象发音特色的训练向量分布参数。

步骤S230，基于训练向量分布参数得到训练语音对象对应的训练对象音色特征，根据训练对象音色特征和所述训练语音样本对应的训练文本信息得到第一合成语音。

作为一示例，训练对象音色特征可以是表征训练对象音色特点的信息，训练对象音色特征与训练对象之间可以一一对应。

训练文本信息可以是训练语音样本中的语音内容所表达的文本，即训练语音样本中的说话内容，该文本可以是中文文本或英文文本，也可以是其他类型自然语言对应的文本。

在获取到训练向量分布参数后，可以基于训练向量分布参数，获取训练语音对象对应的训练对象音色特征，进而可以获取训练语音样本对应的训练文本信息，并利用训练对象音色特征和训练文本信息进行语音合成，得到第一合成语音。

步骤S240，根据第一合成语音与训练语音样本之间的差异，得到第一模型损失值。

在得到第一合成语音后，可以获取第一合成语音和训练语音样本之间的差异，并根据该差异，确定出待训练的语音合成模型当前的第一模型损失值。

步骤S250，根据第一模型损失值调整待训练的语音合成模型的模型参数，得到预训练的语音合成模型。

在确定第一模型损失值后，可以根据第一模型损失值调整待训练的语音合成模型的模型参数。在根据第一模型损失值调整模型参数时，可以采用梯度下降方法朝着使模型对应的损失值下降的方向对模型参数进行调整。具体地，由于第一合成语音是待训练的语音合成模型模拟训练对象声音音色而输出的语音，因此对于待训练的语音合成模型来说，第一合成语音与训练语音样本之间的差异越小越好，即使得待训练的语音合成模型可以更准确地合成出具有训练对象音色的语音。

因此，在根据第一合成语音和训练语音样本之间的差异，确定第一模型损失值后，可以朝着使第一模型损失值变小的方向调整语音合成模型的模型参数。在对待训练的语音合成模型进行训练的过程中，通过逐步地对模型参数进行调整，直到满足训练结束条件时，可以得到预训练的语音合成模型，该语音合成模型可以进行语音合成，得到具有训练对象音色的语音。

在本实施例中，可以获取训练语音对象的训练语音样本所对应的训练语谱信息，将训练语谱信息输入到待训练的语音合成模型中的第一编码模块，通过第一编码模块编码得到训练语谱信息对应的第一编码向量，确定第一编码向量对应的训练向量分布参数，基于训练向量分布参数得到训练语音对象对应的训练对象音色特征，根据训练对象音色特征和训练语音样本对应的训练文本信息得到第一合成语音，根据第一合成语音与训练语音样本之间的差异，得到第一模型损失值，根据第一模型损失值调整待训练的语音合成模型的模型参数，得到预训练的语音合成模型。在本实施例中，能够基于训练向量分布参数确定具有说话人音色特征的训练对象音色特征，在语谱信息和文本信息的基础上，结合训练对象音色特征辅助语音合成，有效提高合成语音对应音色与说话人音色的相似度。

在一个实施例中，如图3所示，在步骤S240中，根据第一合成语音与训练语音样本之间的差异，得到第一模型损失值，可以包括：

步骤S241，根据第一合成语音与训练语音样本之间的差异，得到语音损失值。

在实际应用中，在获取到第一合成语音后，可以将第一合成语音与训练语音样本进行比较，确定出第一合成语音与训练语音样本之间的差异，并根据该差异，确定出语音损失值。

步骤S242，将训练对象音色特征输入到对象分类网络中，得到对象分类结果。

此外，还可以将训练对象音色特征输入到对象分类网络中，根据对象分类网络的输出，得到对象分类结果。

具体地，该对象分类网络可以是待训练的语音合成模型中的一部分，第一编码模块在获取到训练向量分布参数后，可以将训练向量分布参数输入到待训练的语音合成模型中的全连接网络，通过全连接网络获取训练对象音色特征，进而可以由全连接网络将训练对象音色特征输入到对象分类网络中。该对象分类网络可以与待训练的语音合成模块中的各个网络一起进行训练，也可以是预先训练好的对象分类网络。

步骤S243，基于对象分类结果得到对象分类损失值，对象分类损失值用于指示对象分类结果与标准分类结果的差异。

在得到对象分类结果后，可以根据对象分类结果确定对象分类损失值。

具体而言，对象分类结果可以是训练对象音色特征与各个训练语音对象的关联概率，即对象分类网络预测的表征训练对象音色特征为对应训练语音对象的音色特征的概率。标准分类结果可以是训练对象音色特征对应的标签，该标签可以根据训练语音对象对应的对象编号确定。在具体实现中，在获取到关联概率后，可以根据该关联概率与对应的标签进行比较，例如将关联概率与标签对应的概率进行比较，并根据比较结果确定出对应的对象分类损失值。

步骤S244，基于语音损失值与对象分类损失值得到第一模型损失值。

在确定语音损失值和对象分类损失值后，则可以根据语音损失值和对象分类损失值，确定第一模型损失值。

在实际应用中，语音损失值与对象分类损失值可以与第一模型损失值正相关，即语音损失值和对象分类损失值越小，第一模型损失值就越小，基于当前语音合成模型得到的第一合成语音则越接近对应训练语音对象发出的语音。

在本实施例中，可以根据第一合成语音与训练语音样本之间的差异，得到语音损失值，将训练对象音色特征输入到对象分类网络中，得到对象分类结果，基于对象分类结果得到对象分类损失值，并基于语音损失值与对象分类损失值得到第一模型损失值。在本实施例的方案中，通过基于语音损失值和对象分类损失值，确定第一模型损失值，能够使语音合成模型输出的合成语音与训练语音对象发出的语音越来越相似，且能够区别于其他训练语音对象的音色，有效提高语音合成模型生成的合成语音的准确性。

在一个实施例中，在步骤S230中，所述根据训练对象音色特征和训练语音样本对应的训练文本信息得到第一合成语音，可以包括：

基于训练语音样本，获取训练语音样本的训练文本信息所对应的训练声学属性信息，并确定训练声学属性信息对应的第二编码向量；将训练语谱信息、对象音色特征以及第二编码向量输入到待训练的语音合成模型中的解码网络，得到解码得到第一合成语音。

作为一示例，声学属性信息可以表征文本信息中字符对应读音的处理方式，和/或，文本信息中多个字符之间的读音处理方式。

示例性地，声学属性信息可以包括韵律特征，韵律特征是语言的一种音系结构，与句法和语篇结构、信息结构等其他语言学结构相关；韵律特征可以包括三个要素：语调、时域分布和重音，通过超音段特征实现。超音段特征包括音高，强度以及时间特性，由音位或音位群负载。韵律是人类自然语言的一个典型特征，具有许多跨语言的共同特点，比如：音高下倾、重读、停顿等都普遍存在于不同的语言之中，韵律特征是语言和情绪表达的重要形式之一。训练声学属性信息为训练文本信息对应的声学属性信息。

在实际应用中，在获取训练语音样本后，可以获取训练语音样本对应的训练文本信息，并通过对训练语音样本对应的语音数据进行分析，确定训练语音对象在朗读训练文本信息时对应的朗读方式，得到训练文本信息对应的声学属性信息，进而可以确定训练声学属性信息。

在获取训练声学属性信息后，服务器120可以确定训练声学属性信息对应的第二编码向量，并将训练语谱信息、对象音色特征以及第二编码向量输入到待训练的语音合成模型中的解码网络，并基于解码网络对应的输出结果得到第一合成语音。

在一个实施例中，服务器在得到训练声学属性信息后，可以将训练声学属性信息输入到待训练的语音合成模型中的第二编码模块，第二编码模块可以由解码网络和注意力网络组成；训练声学属性信息经编码网络和注意力网络处理后，可以由注意力网络输出对应的第二编码向量。

在本实施例中，服务器120获取训练语音样本的训练文本信息所对应的训练声学属性信息，确定训练声学属性信息对应的第二编码向量，将训练语谱信息、训练对象音色特征以及第二编码向量输入到待训练的语音合成模型中的解码网络，得到解码得到第一合成语音，能够模仿训练对象对文本信息读音的处理方式生成第一合成语音，使得第一合成语音更加自然流程，符合人类语言习惯，提高语音合成的准确率。

在一个实施例中，所述训练声学属性信息包括语音停顿结果以及情感特征信息，所述基于训练语音样本，获取训练语音样本的训练文本信息所对应的训练声学属性信息，可以包括：

获取训练语音样本对应的训练文本信息和训练文本信息对应的语音停顿结果；基于训练语音样本，获取训练文本信息对应的情感特征信息。

作为一示例，语音停顿结果可以表征训练文本信息中各个字符对应的停顿位置，例如，语音停顿结果可以是对训练文本信息进行分词处理后，得到的分词结果。通过语音停顿结果，可以使合成的语音在字、词或短语等不同的文本里体现出抑扬顿挫的效果。

情感特征信息可以是用于控制合成语音所体现的情感的信息，具体而言，同一文本信息，采用不同的方式进行阅读能够体现出不同的情感。在一示例中，情感特征信息可以包括声调信息或韵律信息中的至少一种。

其中，声调信息用于指示字符对应语音的音调高低；韵律信息表征训练文本信息中字符的朗读节奏，通过获取韵律信息，可以确定训练语音对象在朗读训练文本信息时的节奏快慢，从而在进行语音合成时，可以使文本中的字符具有相应停顿的基础上，有快有慢。

在本实施例中，可以在获取训练语音样本后，获取对应的训练文本信息和训练文本信息对应的语音停顿结果。在实际应用中，在得到训练文本信息后，可以将训练文本信息转换为对应的音素，例如将汉字转换为拼音，将英文单词转为国际音标。

此外，可以基于训练语音样本，获取训练文本信息对应的情感特征信息。进而可以基于语音停顿结果和情感特征信息，得到训练文本信息对应的训练声学属性信息。

在本实施例中，可以将训练文本信息对应的语音停顿结果和情感特征信息，作为对应的训练声学属性信息，相较于相关技术中仅通过音素进行语音合成的方式，本实施例的方案可以使待训练的语音合成模型获取到文本朗读过程中涉及到的多种声学属性，有效增强模型的语音合成效果，得到与训练语音对象更加相似的合成语音。

在相关技术中，在合成具有目标音色的声音时，往往需要说话人提供足够多的语料数据，若说话人提供的语料数据不足，则难以准确合成出具有目标音色的声音，存在需要依赖大量语料数据的问题。为至少解决上述问题，如图4所示，本申请在一个实施例中提供了一种语音合成方法，该方法可以应用于图1中的终端110或服务器120。具体地，所述方法可以包括如下步骤：

步骤S410，获取目标语音对象的目标语音样本所对应的目标语谱信息。

作为一示例，目标语音对象可以是不同于训练语音对象的新的语音对象，即新的说话人，即在对待训练的语音合成模型进行训练、得到预训练的语音合成模型中未出现过的说话人。由目标语音对象发出的语音可以作为目标语音样本。其中，目标语音样本可以是具有语义的语音样本，能够表达具体的信息。

目标语谱信息可以是目标语音样本对应的语谱信息，其中，目标语谱信息可以是表征目标语音样本的原始信号特征的信息，如梅尔频谱。

在实际应用中，可以获取目标语音对象提供的目标语音样本。具体例如，用户可以在终端110录取其语音样本，并通过终端110将该语音样本发送到服务器120，服务器120可以将接收到的语音样本作为目标语音样本，并获取目标语音样本对应的目标频谱信息。在一示例中，目标语音样本的样本量可以少于预设的样本量阈值，该样本量阈值是从训练初始模型到获取到能够合成出指定对象的语音时，所需要的样本量。

步骤S420，基于目标语谱信息对预训练的语音合成模型进行训练，得到目标语音对象的目标语音合成模型。

其中，预训练的语音合成模型可以根据上述语音合成模型的训练方法得到，训练得到的目标语音合成模型可用于合成具有目标语音对象音色特征的语音。

具体实现中，由于可以获取到基于训练语谱信息预训练得到的预训练的语音合成模型，在获取到目标语音对象的目标语音样本所对应的目标语谱信息后，可以采用目标语谱信息对预训练的语音合成模型作进一步训练，得到对应的目标语音合成模型。

可以理解，一方面，在预训练的语音合成模型的获取过程中，是基于训练向量分布参数确定具有说话人音色特征的训练对象音色特征，从而有助于提高合成语音对应音色与说话人音色的相似度，增加最终得到预训练的语音合成模型的可靠性。另一方面，预训练的语音合成模型可以基于大量的训练语谱信息，对待训练的语音合成模型的模型参数进行调整得到，在此过程中，预训练的语音合成模型可以习得语谱信息与对应语音合成模型之间的具有共性和普适性的映射关系，当获取到新的、不同于训练语谱信息的目标语谱信息，通过采用目标语谱信息对预训练的语音合成模型进行训练，可以快速获取到对应的目标语音合成模型。

步骤S430，获取待合成语音的目标文本。

作为一示例，目标文本可以包括表达自然语言的文本，例如可以是汉语、英语等，可以包括字、词和句中的至少一种；当然，在另一示例中，目标文本也可以包括单独的、不具有语义的字符，如数字或标点符号等。

在实际应用中，响应于检测到的输入操作，可以获取待合成语音的目标文本。

在输入目标文本时，可以采用一种或多种方式输入，例如，响应于检测到文本输入操作，终端可以获取到用户直接输入目标文本。又或者，可以通过语音方式输入目标文本，具体例如，在检测到当前输入的语音后，可以通过自动语音识别技术(Automatic SpeechRecognition，ASR)获取当前输入语音对应的文本，作为目标文本，其中，当前输入的语音所对应的说话人和目标语音对象可以是同一对象，也可以是不同对象。

步骤S440，将目标文本输入到目标语音合成模型，得到目标语音合成模型输出的目标文本对应的目标合成语音。

在得到目标文本后，可以将目标文本输入目标语音合成模型，通过目标语音合成模型将目标文本转化为具有目标语音对象音色特征的目标合成语音，并获取目标语音合成模型最终输出的该目标合成语音。

上述语音合成方法中，可以获取目标语音对象的目标语音样本所对应的目标语谱信息，基于目标语谱信息对预训练的语音合成模型进行训练，得到目标语音对象的目标语音合成模型，其中，目标语音合成模型可用于合成具有目标语音对象音色特征的语音，进而可以获取待合成语音的目标文本，将目标文本输入到目标语音合成模型，得到目标语音合成模型输出的目标文本对应的目标合成语音。在本实施例中，通过获取目标语音对象的目标语谱信息，并基于目标语谱信息对预训练的语音合成模型进行训练，可以迅速得到表征目标语音对象音色特点的目标对象音色特征，并合成出具有目标语音对象音色的语音，无需依赖大量语料数据进行训练，在保证合成准确性的同时，快速实现大量用户的音色迁移。

在本实施例中，由于预训练的语音合成模型已经经过多个训练参考对象提供的训练语音样本，对初始的语音合成模型进行反复训练，在此基础上，通过获取目标训练对象提供的目标语音样本对应的目标频谱信息和目标文本信息再次对预训练的语音合成模型进行训练，能够使模块快速收敛的同时，得到与目标语音对象相关联的目标语音合成模型，从而可以在语料较少的情况下，快速得到目标语音对象对应的目标语音合成模型。

在一个实施例中，预训练的语音合成模型是基于多个训练语谱信息训练得到的，其中，每个训练语谱信息可以关联有对应训练语音对象的对象标识。具体例如，可以使用N个(N≥2)训练语音对象各自对应的训练语谱信息，训练语音对象的对象标识包括ID1、ID2、ID3……IDN，针对对象标识为ID1的训练语音对象，其训练语谱信息可以关联有对象标识ID1。

在步骤S420中，基于目标语谱信息对预训练的语音合成模型进行训练，得到目标语音对象的目标语音合成模型，可以包括如下步骤：

步骤S421，获取预训练的语音合成模型对应的训练样本集合；训练样本集合包括多个训练语音对象各自对应的训练语谱信息。

步骤S422，从多个训练语音对象中确定出目标训练语音对象；目标训练语音对象的训练对象音色特征与目标语音样本的样本音色特征匹配。

在具体实现中，可以通过训练样本集合对待训练的语音合成模型进行训练，训练样本集合中包括多个训练语音对象各自对应的训练语谱信息，通过使用多个训练语音对象各自的训练语谱信息进行模型训练，可以使得最终得到预训练的语音合成模型能够合成出具有任意训练语音对象音色特征的语音。

若接收到目标语音对象对应的目标语音样本，可以进一步获取本集合对应的多个训练语音对象，并基于多个训练语音对象各自对应的音色特征，从多个训练语音对象中确定出对应音色特征与目标语音样本的样本音色相匹配的训练语音对象，作为目标训练语音对象。

步骤S423，将目标训练语音对象对应的目标对象标识与目标语谱信息关联。

步骤S424，基于关联有目标对象标识的目标语谱信息，对预训练的语音合成模型进行训练，得到目标语音对象的目标语音合成模型。

在确定目标训练语音对象后，可以将目标训练语音对象对应的对象标识作为目标对象标识，并将该目标对象标识与目标语谱信息进行关联，进而可以基于关联有目标对象标识的目标语谱信息，对预训练的语音合成模型进行训练，得到目标语音对象的目标语音合成模型。

具体而言，由于预训练的语音合成模型是基于多个训练语音对象的训练语谱信息训练得到的，该预训练的语音模型针对每个训练语音对象，都构建了输入文本与合成语音(即包含该文本语义且具有该训练语音对象音色特征的合成语音)两者之间的映射关系，进而在获取到目标语音对象的目标语谱信息后，通过将目标语音对象的目标语谱信息，与音色特征相匹配的训练语音对象所对应的对象标识相关联，并输入到预训练的语音合成模型进行训练，能够使预训练的语音合成模型将当前输入目标语谱信息作为目标训练语音对象的训练素材，将预训练的语音合成模型中相关的参数，朝着使输出语音的音色特征与目标语音对象音色特征的更相似的方向进行调整。

并且，通过从多个训练语音对象中选取音色特征相匹配的训练语音对象作为目标训练语音对象，能够以音色更相似的训练语音对象所关联的模型参数作为调整基础，而避免将目标语谱信息与音色差距过大的其他训练语音对象的标识进行关联，能够有效缩短训练时间、减少所需要的训练素材，快速获取到能够合成出具有目标语音对象音色特征的目标语音合成模型。

在本实施例中，通过获取预训练的语音合成模型对应的训练样本集合，从该训练样本集合对应的多个训练语音对象中确定出目标训练语音对象，将目标训练语音对象对应的目标对象标识与目标语谱信息关联，基于关联有目标对象标识的目标语谱信息，对预训练的语音合成模型进行训练，得到目标语音对象的目标语音合成模型，能够有效缩短目标语音合成模型的获取时间，在使用较少语料的情况下，即可快速地获取到准确的目标语音合成模型。

在一个实施例中，在步骤S424中，基于关联有目标对象标识的目标语谱信息，对预训练的语音合成模型进行训练，得到目标语音对象的目标语音合成模型，可以包括如下步骤：

步骤S4241，将关联有目标对象标识的目标语谱信息，输入到预训练的语音合成模型中的第一编码模块。

预训练的语音合成模型是基于多个训练语音对象的训练语谱信息训练，换句话说，预训练的语音合成模型中可以包括有每个训练语音对象对应的模型参数，即预训练的语音合成模型可以包括具有共性的模型参数以及每个训练语音对象具有特性的模型参数，进而在接收文本时，可以基于指定训练语音对象的模型参数，合成出具有指定训练语音对象音色的合成语音。

当基于目标语谱信息对预训练的模型作进一步训练时，由于可以确定出音色与目标语音对象音色相匹配的训练语音对象，则在该训练语音对象的基础上，基于目标语谱信息对其对应的模型参数进行调整，将有效加快目标语音对象的语音合成模型的训练速度。而在使用关联有目标对象标识的目标语谱信息对预训练的语音合成模型进行训练时，将目标对象标示与目标语谱信息关联的处理，可以理解为是将目标语谱信息视为(或伪装为)目标训练语音对象的语谱信息的过程，通过该方式，可以使预训练的语音合成模型将目标训练语音对象所对应的模型参数，朝着与目标语音对象音色相匹配的方向进行调整。

具体地，可以将关联有目标对象标识的目标语谱信息，输入到预训练的语音合成模型中的第一编码模块，通过第一编码模块对目标语谱信息进行编码。

步骤S4242，通过第一编码模块编码得到目标语谱信息对应的第三编码向量，并基于目标对象标识，确定目标训练语音对象的训练向量分布参数。

在通过第一编码模块对目标语谱信息进行编码后，可以获取目标语谱信息对应的第三编码向量，并基于目标语谱信息所关联的目标对象标识，确定预训练模型在预训练过程中训练得到的目标训练语音对象所对应的训练向量分布参数。

步骤S4243，基于第三编码向量，对目标训练语音对象的训练向量分布参数进行调整，得到目标向量分布参数。

在确定出目标训练语音对象所对应的训练向量分布参数后，则可以基于当前的第三编码向量，对训练向量分布参数进行调整，得到目标向量分布参数。

步骤S4244，基于目标向量分布参数得到目标语音对象对应的目标对象音色特征，并根据目标对象音色特征和目标语音样本对应的目标文本信息得到第二合成语音。

在获取到目标向量分布参数后，则可以基于目标向量分布参数得到目标语音对象对应的目标对象音色特征，例如将目标向量分布参数作为目标对象音色特征，或者也可以在目标向量分布参数的基础上结合其他的信息，得到目标对象音色特征。进而，可以根据目标对象音色特征和目标语音样本，进行语音合成，例如将目标对象音色特征输入到解码网络，由解码网络基于输入的目标对象音色特征以及目标文本信息对应的编码信息进行解码，得到第二合成语音。

步骤S4245，根据第二合成语音与目标语音样本之间的差异，得到第二模型损失值。

步骤S4246，根据第二模型损失值调整预训练的语音合成模型的模型参数，得到目标语音对象的目标语音合成模型。

在得到第二合成语音后，可以获取第二合成语音和目标语音样本之间的差异，并根据该差异，确定出预训练的语音合成模型当前的第二模型损失值，进而可以根据第二模型损失值调整预训练的语音合成模型的模型参数，具体例如，可以根据第二模型损失值对预训练的语音合成模型中与目标训练语音对象相关联的模型参数进行调整，在调整时，可以采用梯度下降方法，朝着使第二模型损失值下降的方向对模型参数调整。

在本实施例中，可以将关联有目标对象标识的目标语谱信息，输入到预训练的语音合成模型中的第一编码模块，通过第一编码模块编码得到目标语谱信息对应的第三编码向量，并基于目标对象标识，确定目标训练语音对象的训练向量分布参数，基于第三编码向量，对目标训练语音对象的训练向量分布参数进行调整，得到目标向量分布参数，基于目标向量分布参数得到目标语音对象对应的目标对象音色特征，并根据目标对象音色特征和目标语音样本对应的目标文本信息得到第二合成语音，调整预训练的语音合成模型的模型参数，能够使模块快速收敛的同时，得到与目标语音对象相关联的目标语音合成模型，从而可以在语料较少的情况下，快速得到目标语音对象对应的目标语音合成模型。

在一个实施例中，在步骤S422中，从多个训练语音对象中确定出目标训练语音对象，可以包括：

获取目标语音样本对应的第一目标声纹特征和训练语音样本对应的第一训练声纹特征，根据第一目标声纹特征和所述第一训练声纹特征，确定目标语音对象和训练语音对象对应的第一音色相似度；获取目标语音样本对应的第二目标声纹特征和所述训练语音样本对应的第二训练声纹特征，根据第二目标声纹特征和第二训练声纹特征，确定目标语音对象和训练语音对象对应的第二音色相似度；基于第一音色相似度和第二音色相似度，确定每个训练语音对象与目标语音对象之间的音色相似度；基于音色相似度，确定出目标训练语音对象。

其中，第一目标声纹特征和第一训练声纹特征通过第一声纹识别模型提取得到；第二目标声纹特征和第二训练声纹特征通过第二声纹识别模型提取得到。第一声纹识别模型和第二声纹识别模型为不同的声纹识别模型。

在具体实现中，可以通过第一声纹识别模型分别对目标语音样本和训练语音样本进行声纹特征提取，得到第一目标声纹特征和第一训练声纹特征，并根据第一目标声纹特征和所述第一训练声纹特征，确定目标语音对象和训练语音对象对应的第一音色相似度。

同时，可以通过第二声纹识别模型分别对目标语音样本和训练语音样本进行声纹特征提取，得到第二目标声纹特征和第二训练声纹特征，并根据第二目标声纹特征和第二训练声纹特征，确定目标语音对象和训练语音对象对应的第二音色相似度。

针对每个训练语音对象，在确定对应的第一音色相似度和第二音色相似度后，可以基于第一音色相似度和第二音色相似度，确定该训练语音对象与目标语音对象之间的音色相似度，进而可以根据音色相似度，从多个训练语音对象中确定出目标训练语音对象。

在一个实施例中，第一声纹识别模型可以是基于高斯均值超矢量的声纹识别模型，例如高斯混合模型(Gaussian Mixture Model，GMM)或即GMM-UBM(UniversalBackground Model，通用背景模型)模型。第二声纹识别模型可以是神经网络模型，例如可以由以下至少一种类型的网络组成：卷积神经网络、循环神经网络、深度神经网络。

在进行音色匹配时，可以基于如下所示的公式确定音色相似度：

其中，ID为训练语音对象对应的训练对象编号；α是第一声纹识别模型对应的权重参数，β是第二声纹识别模型对应的权重参数，用于表征两种声纹识别模型对音色相似度结果的影响程度，示例性地，α和β可以分别配置为0.25和0.5。

Vec_n是N个训练语音对象中第n个训练语音对象对应的第一训练声纹特征，Vec_target是目标语音对象的第一目标声纹特征，cosine是计算两个矢量的余弦距离。其中，通过第一声纹识别模型提取的结果也可以称为i-vector(Identity-vector，身份认证向量)。

Emb_n是N个训练语音对象中第n个训练语音对象对应的第二训练声纹特征，Emb_target是目标语音对象的的第二目标声纹特征，softmax是计算两个向量的归一化指数。

在本实施例中，通过第一声纹识别模型获取第一音色相似度，以及，通过第二声纹识别模型获取第二音色相似度，并基于第一音色相似度和第二音色相似度，确定该训练语音对象与目标语音对象之间的音色相似度，能够避免单一声纹识别模型带来的识别误差，有效提高目标训练语音对象的准确性和可靠性，为后续快速获取与目标语音对象关联的目标语音识别模型提供基础。

以下结合图5，以一个具体的例子对本申请实施例提供的语音合成方法进行说明。

1、对待训练的语音合成模型进行训练。

具体实现中，待训练的语音合成模型也可以称为基础编解码网络，其具体是一种神经网络结构，示例性地，待训练的语音合成模型的模型结构如图6所示，可以包括变分自编码器网络、全连接网络、分类网络、编码网络、注意力网络和解码网络。

在获取到待训练的语音合成模型后，可以获取多个训练语音对象对应的训练语音样本，并获取训练语音样本对应的训练语谱信息和训练文本信息。

具体而言，在获取训练文本信息后，可以获取训练文本信息对应的音素、分词结果、声调、韵律和训练对象编号，并将音素、分词结果、声调、韵律和训练对象编号输入到编码网络中，其中，针对训练对象编号，在输入到编码网络前，可以对训练对象编号进行处理，得到对应的训练对象向量后再输入到解码网络中，以表征当前输入的多个信息与训练对象向量对应的训练语音对象对应。

同时，服务器120在获取到训练语谱信息后，可以将训练语谱信息输入到变分自编码网络，变分自编码网络在确定训练语谱信息对应的编码向量后，可以获取编码向量对应的均值和方差，作为正态分布参数(即训练向量分布参数)，并将正态分布参数输入到全连接网络，由全连接网络基于输入的正态分布参数生成对应的说话人向量(即训练对象音色特征)。变分自编码器可以基于输入的训练语谱信息，分别对不同训练语音对象进行建模，获得每一训练语音对象对应的正态分布参数。

全连接网络在确定说话人向量后，可以将说话人向量输入到解码网络；而音素、分词结果、声调、韵律和训练对象编号在输入到编码网络后，编码网络的输出结果经过注意力网络处理后，可以将注意力网络的输出结果输入到解码网络，解码网络可以在此基础上，同时结合说话人向量和训练语谱信息，进行解码处理，输出对应的语谱图，并利用该语谱图对训练文本信息进行语音合成，得到第一合成语音。在获取第一合成语音后，可以根据第一合成语音和训练样本语音之间的差异，确定语音损失值。

此外，全连接网络输出的说话人向量可以输入到分类网络，分类网络可以基于输入的说话人向量，确定多个训练语音对象各自与该说话人向量对应的预测概率，即预测该说话人向量与哪一个训练语音对象对应，进而可以根据该概率与真实概率确定对应的差异，基于该差异确定对应的对象分类损失值，并将对象损失值反馈给基础编解码网络。进而可以根据语音损失值和对象分类损失值对模型参数进行调整。

通过多个训练对象各自对应的训练语谱信息和训练文本信息，对基础编解码网络进行训练后，可以得到预训练的语音合成模型，该模型也称为预训练模型，可以实现针对任意训练语音对象的语音合成，例如，在对待训练的语音合成模型进行训练的过程中，使用了N个训练语音对象提供的语料(即训练语谱信息及其对应的训练文本信息)，则得到的预训练模型为多个训练语音对象对应的声学模型，能够实现N个训练语音对象中任意一个对象的语音合成。

2、从多个训练语音对象中确定出与当前目标语音对象音色匹配的目标训练语音对象。

在步骤1中得到了与多个训练语音对象对应的预训练的语音合成模型。当获取到不属于训练语音对象的新说话人(即目标语音对象)所提供的目标语音样本后，可以将目标语音对象与多个训练语音对象进行音色匹配，从多个训练语音对象中确定出与目标语音对象音色接近的目标训练语音对象。例如，用户在终端上根据提供的文本进行声音录制，以生成目标语音样本。

3、加载预训练的语音合成模型，并基于目标训练语音对象对应目标语音样本的目标语谱信息和目标文本信息，对预训练的语音合成模型进行训练。

在本步骤中，在确定目标训练语音对象后，可以采用目标训练语音对象的目标语谱信息和文本信息，对预训练的语音合成模型进行训练。具体地，训练样本集合中可以包括多个训练语音对象对应的训练语谱信息和训练文本信息，服务器120可以采用目标语谱信息和文本信息，对目标训练语音对象对应的训练语谱信息和训练文本信息进行替换，该过程可以理解为将目标语谱信息伪装为目标训练语音对象所对应的语谱信息，从而使得目标语谱信息可以与目标训练语音对象相关联。进而在对预训练模型进行训练，可以基于目标语谱信息对预训练的语音合成模型中目标训练语音对象的模型参数进行调整，得到目标语音对象的语音合成模型，该语音合成模型除了可以合成具有目标语音对象的音色的声音，也有合成具有其它N-1个训练语音对象音色的声音。

4、基于得到的目标语音合成模型合成语音。

用户在通过服务器120合成出与自己音色对应的目标语音合成模型后，可以输入想听的文本，并通过终端110发送到服务器，服务器120可以根据目标语音合成模型对应的目标对象音色特征，对文本进行处理，得到对应的目标合成语音，并将目标合成语音返回给终端110，以供用户收听。

当然，在另一示例中，也可以将目标语音合成模型加载到终端110中，终端在获取到用户输入的文本后，可以根据目标语音合成模型对应的目标对象音色特征，采用本地计算资源(如手机cpu、gpu)进行离线处理获得合成语音，并播放给用户。

在无网络情况下，通过终端设备，但是这种方案需要计算量较小、模型参数较少的情况，一般效果比服务器处理结果要差一些。建议在网络通畅的情况下使用服务器合成的方案。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了用于实现上述所涉及的语音合成方法的语音合成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音合成装置实施例中的具体限定可以参见上文中对于语音合成方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种语音合成模型的训练装置700，包括：

训练语谱信息获取模块701，用于获取训练语音对象的训练语音样本所对应的训练语谱信息；

分布参数获取模块702，用于将所述训练语谱信息输入到待训练的语音合成模型中的第一编码模块，通过所述第一编码模块编码得到所述训练语谱信息对应的第一编码向量，确定所述第一编码向量对应的训练向量分布参数；

合成模块703，用于基于所述训练向量分布参数得到所述训练语音对象对应的训练对象音色特征，根据所述训练对象音色特征和所述训练语音样本对应的训练文本信息得到第一合成语音；

损失值获取模块704，用于根据所述第一合成语音与所述训练语音样本之间的差异，得到第一模型损失值；

参数调整模块705，用于根据所述第一模型损失值调整所述待训练的语音合成模型的模型参数，得到预训练的语音合成模型。

在其中一个实施例中，所述损失值获取模块704，具体用于：

在其中一个实施例中，所述合成模块703包括：

第二编码向量获取子模块，用于基于所述训练语音样本，获取所述训练语音样本的训练文本信息所对应的训练声学属性信息，并确定所述训练声学属性信息对应的第二编码向量；

解码子模块，用于将所述训练语谱信息、所述训练对象音色特征以及所述第二编码向量输入到所述待训练的语音合成模型中的解码网络，得到解码得到第一合成语音。

在其中一个实施例中，所述训练声学属性信息包括语音停顿结果以及情感特征信息，所述第二编码向量获取子模块，具体用于：

在一个实施例中，如图8所示，提供了一种语音合成装置800，所述装置包括：

目标语谱信息获取模块801，用于获取目标语音对象的目标语音样本所对应的目标语谱信息；

目标语音合成模型训练模块802，用于基于所述目标语谱信息对预训练的语音合成模型进行训练，得到所述目标语音对象的目标语音合成模型；所述预训练的语音合成模型根据上任一项所述的语音合成模型的训练方法得到，所述目标语音合成模型用于合成具有所述目标语音对象音色特征的语音；

目标文本获取模块803，用于获取待合成语音的目标文本；

目标合成语音获取模块804，用于将所述目标文本输入到所述目标语音合成模型，得到所述目标语音合成模型输出的所述目标文本对应的目标合成语音。

在其中一个实施例中，所述预训练的语音合成模型基于多个训练语谱信息训练得到的，所述训练语谱信息关联有对应训练语音对象的对象标识；所述目标语音合成模型训练模块802，包括：

训练样本集合获取子模块，用于获取所述预训练的语音合成模型对应的训练样本集合；所述训练样本集合包括所述多个训练语音对象各自对应的训练语谱信息；

目标训练语音对象确定子模块，用于从所述多个训练语音对象中确定出目标训练语音对象；所述目标训练语音对象的训练对象音色特征与所述目标语音样本的样本音色特征匹配；

对象标识关联子模块，用于将所述目标训练语音对象对应的目标对象标识与所述目标语谱信息关联；

目标语音合成模型获取子模块，用于基于关联有所述目标对象标识的目标语谱信息，对所述预训练的语音合成模型进行训练，得到所述目标语音对象的目标语音合成模型。

在其中一个实施例中，所述目标语音合成模型获取子模块，具体用于：

在其中一个实施例中，所述目标训练语音对象确定子模块，具体用于：

基于所述音色相似度，确定出目标训练语音对象。

上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库可用于存储语谱信息(训练语谱信息和/或目标语谱信息)以及语音合成模型(待训练的语音合成模型和/或预训练的语音合成模型)。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述实施例中的方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述实施例中的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9或图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取训练语音对象的训练语音样本所对应的训练语谱信息；

在一个实施例中，处理器执行计算机程序时还实现上述各方法实施例中的步骤。

获取目标语音对象的目标语音样本所对应的目标语谱信息；

基于所述目标语谱信息对预训练的语音合成模型进行训练，得到所述目标语音对象的目标语音合成模型；所述预训练的语音合成模型根据如上任一项所述的语音合成模型的训练方法得到，所述目标语音合成模型用于合成具有所述目标语音对象音色特征的语音；

获取待合成语音的目标文本；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取训练语音对象的训练语音样本所对应的训练语谱信息；

在一个实施例中，计算机程序被处理器执行时还实现上述各方法实施例中的步骤。

获取目标语音对象的目标语音样本所对应的目标语谱信息；

获取待合成语音的目标文本；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取训练语音对象的训练语音样本所对应的训练语谱信息；

获取目标语音对象的目标语音样本所对应的目标语谱信息；

获取待合成语音的目标文本；

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音合成模型的训练方法，其特征在于，所述方法包括：

获取训练语音对象的训练语音样本所对应的训练语谱信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一合成语音与所述训练语音样本之间的差异，得到第一模型损失值，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述训练对象音色特征和所述训练语音样本对应的训练文本信息得到第一合成语音包括：

4.根据权利要求3所述的方法，其特征在于，所述训练声学属性信息包括语音停顿结果以及情感特征信息，所述基于所述训练语音样本，获取所述训练语音样本的训练文本信息所对应的训练声学属性信息，包括：

5.一种语音合成方法，其特征在于，所述方法包括：

获取目标语音对象的目标语音样本所对应的目标语谱信息；

获取待合成语音的目标文本；

6.根据权利要求5所述的方法，其特征在于，所述预训练的语音合成模型基于多个训练语谱信息训练得到的，所述训练语谱信息关联有对应训练语音对象的对象标识；所述基于所述目标语谱信息对预训练的语音合成模型进行训练，得到所述目标语音对象的目标语音合成模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于关联有所述目标对象标识的目标语谱信息，对所述预训练的语音合成模型进行训练，得到所述目标语音对象的目标语音合成模型，包括：

8.根据权利要求6所述的方法，其特征在于，所述从所述多个训练语音对象中确定出目标训练语音对象，包括：

基于所述音色相似度，确定出目标训练语音对象。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。