CN112365882B

CN112365882B - 语音合成方法及模型训练方法、装置、设备及存储介质

Info

Publication number: CN112365882B
Application number: CN202011375398.9A
Authority: CN
Inventors: 王俊超; 陈昌滨; 袁俊; 聂志朋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-09-22
Anticipated expiration: 2040-11-30
Also published as: CN112365882A

Abstract

本申请公开了一种语音合成方法及模型训练方法、装置、设备及存储介质，涉及机器学习与智能语音等人工智能技术领域。具体实现方案为：基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息；基于所述待合成语音的声学特征信息，采用预先训练的声码器，合成相应的语音。采用本申请的技术方案，在合成语音时，可以采用任意的文本信息、音色信息和韵律信息，任意组合，合成想要的语音，合成语音的方式非常灵活、方便。

Description

语音合成方法及模型训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及机器学习与智能语音等人工智能技术领域，尤其涉及一种语音合成方法及模型训练方法、装置、设备及存储介质。

背景技术

近年来，随着语音技术的日趋成熟，语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域，合成音作为一种声音的展现，给社会生活带来便利与丰富性，具有潜在广阔的使用价值。

现有的语音合成技术是利用大量的高质量语音数据来训练对应的模型，但是高质量语音数据获取成本很高。个性化语音合成能够利用目标发音人少量的录音和文本数据快速构建合成系统，产生目标发音人音色的合成语音。随着个性化语音合成在市场上变得越来越受关注，用户对个性化语音对需求也变得越来越丰富，其中韵律、音色、内容是语音中的三种重要信息，如何将这些信息任意进行组合是个性化语音合成的未来方向之一。

发明内容

本申请提供了一种语音合成方法及模型训练方法、装置、设备及存储介质。

根据本申请的一方面，提供了一种语音合成方法，其中，所述方法，包括：

基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息；

基于所述待合成语音的声学特征信息，采用预先训练的声码器，合成相应的语音。

根据本申请的另一方面，提供了一种语音合成模型的训练方法，其中，所述方法包括：

基于采集的数条训练语音的音频，构建第一训练数据集；

基于所述第一训练数据集，对包括语音转换编码器和语音转换解码器的语音转化模型进行训练，以实现对所述语音合成模型中的所述语音转换解码器进行训练；

基于采集的数条训练文本、描述各所述训练文本的训练语音的音频以及已训练的所述语音转换编码器，构建第二训练数据集；

基于所述第二训练数据集，对所述语音合成模型中的深度信息合成模块进行训练。

根据本申请的再一方面，提供了一种语音合成装置，其中，所述装置，包括：

生成模块，用于基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息；

合成模块，用于基于所述待合成语音的声学特征信息，采用预先训练的声码器，合成相应的语音。

根据本申请的又一方面，提供了一种语音合成模型的训练装置，其中，所述装置包括：

第一构建模块，用于基于采集的数条训练语音的音频，构建第一训练数据集；

第一训练模块，用于基于所述第一训练数据集，对包括语音转换编码器和语音转换解码器的语音转化模型进行训练，以实现对所述语音合成模型中的所述语音转换解码器进行训练；

第二构建模块，用于基于采集的数条训练文本、描述各所述训练文本的训练语音的音频以及已训练的所述语音转换编码器，构建第二训练数据集；

第二训练模块，用于基于所述第二训练数据集，对所述语音合成模型中的深度信息合成模块进行训练。

根据本申请的再另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本申请的再又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的又另一方面，提供了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如上所述的方法。

根据本申请的技术，在合成语音时，可以采用任意的文本信息、音色信息和韵律信息，任意组合，合成想要的语音，合成语音的方式非常灵活、方便。

根据本申请的技术，在对语音合成模型进行训练时，通过分别对语音合成模型中的语音转换解码器和深度信息合成模块进行训练，进而实现对语音合成模型的训练，能够有效地保证训练的语音合成模型的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是本申请的语音合成模型的架构图

图4是根据本申请第三实施例的示意图；

图5是根据本申请第四实施例的示意图；

图6是本申请的语音转换模型的训练架构图；

图7是本申请的深度信息合成模块的训练架构图；

图8是根据本申请第五实施例的示意图；

图9是根据本申请第六实施例的示意图；

图10是根据本申请第七实施例的示意图；

图11是根据本申请第八实施例的示意图；

图12是用来实现本申请实施例的上述方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图；如图1所示，本实施例提供一种语音合成方法，具体可以包括如下步骤：

S101、基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息；

S102、基于待合成语音的声学特征信息，采用预先训练的声码器，合成相应的语音。

本实施例的语音合成方法的执行主体为语音合成装置，该语音合成装置可以为电子实体，或者也可以为采用软件集成的应用。该语音合成装置，可以基于任意的文本信息，采用要合成的音色信息和韵律信息，可以生成待合成的语音。

本实施例中，语音合成装置基于语音的三个重要信息如文本信息、音色信息和韵律信息，合成相应的语音。其中音色表示语音中发音人的声音特色；同一个发音人的音色相同，不同发音人的音色不同。韵律表示语音中发音人的发音节奏；文本信息即指的是发音人说话的内容信息。

具体地，将待合成语音的文本信息、音色信息和韵律信息，输入至预先训练的语音合成模型中，该语音合成模型可以基于输入的信息，生成并输出待合成语音的声学特征信息，该待合成语音的声学特征信息中可以携带文本信息、音色信息和韵律信息，具体可以采用梅尔(mel)频谱序列的形式。然后再将待合成语音的声学特征信息输入至预先训练的声码器中，由该声码器合成相应的语音。

本实施例的声码器采用的是神经网络模型，需要经过预先训练，其训练过程与使用过程相似。例如，需要预先采集数条训练数据，每一条训练数据中包括训练语音的音频和对应提取的声学特征信息。训练时，将各条训练数据的训练声学特征信息输入至该声码器中，该声码器合成预测语音的音频。然后比对预测语音的音频和训练语音的音频是否一致，若不一致，调整声码器，使得两者趋于一致。按照上述方式，采用数条训练数据，不断地对声码器进行训练，直至预测语音的音频和训练语音的音频始终一致，确定声码器的参数，进而确定声码器，训练结束。

例如，本实施例的声码器具体可以采用WaveRNN模型来实现，详细可以参考相关技术的介绍。

需要说明的是，本实施例的要合成的音色信息和韵律信息需要为语音合成模型的训练数据集中训练过的音色信息和韵律信息，即需要是在语音合成模型中注册过的音色信息和韵律信息。实际应用中，语音合成模型在训练时，可以采用成千上万、甚至百万级以上的训练数据对模型进行训练。所以在语音合成模型的训练数据集中包括较多的音色信息和韵律信息。所以，本实施例中，在合成语音时，可以对于任意的文本信息，采用训练数据集中的任意的音色信息和韵律信息，合成相应的语音。

本实施例的语音合成方法，通过基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息；基于待合成语音的声学特征信息，采用预先训练的声码器，合成相应的语音。本实施例在合成语音时，可以采用任意的文本信息、音色信息和韵律信息，任意组合，合成想要的语音，合成语音的方式非常灵活、方便。

图2是根据本申请第二实施例的示意图；如图2所示，本实施例的语音合成方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。如图2所示，本实施例的语音合成方法，具体可以包括如下步骤：

S201、基于待合成语音的文本信息和韵律信息，采用预先训练的语音合成模型中的深度信息合成模块，生成待合成语音的深度内容信息；

S202、基于待合成语音的深度内容信息和音色信息，采用预先训练的语音合成模型中的语音转换解码器，生成待合成语音的声学特征信息；

S203、基于待合成语音的声学特征信息，采用预先训练的声码器，合成相应的语音。

上述步骤S201和步骤S202为上述图1所示实施例的步骤S101的一种实现方式。

进一步可选地，其中步骤S201，具体可以包括如下步骤：

(a1)基于待合成语音的文本信息，采用深度信息合成模块中的文本编码单元，生成文本编码特征信息；

(a2)采用韵律信息对文本编码特征信息进行调整；

(a3)基于调整后的文本编码特征信息，采用深度信息合成模块中的自回归解码单元，生成待合成语音的深度内容信息。

图3是本申请的语音合成模型的架构图。如图3所示，本实施例的语音合成模型中包括深度信息合成模块和语音转换解码器。其中深度信息合成模块可以进一步包括文本编码单元和自回归解码单元。

如图3所述，将待合成语音的文本信息输入至深度信息合成模块中的文本编码单元，该文本编码单元可以对该文本信息进行编码，得到文本编码特征信息。该文本编码特征信息具体可以为矩阵的形式。

本实施例的韵律信息也为深度信息合成模型训练过程中训练好的。同一个发音人讲话的节奏是相同的，对应的韵律信息也是相同。该韵律信息可以采用一个注意力(attention)矩阵的形式来表示，用于限定发音人的发音节奏。另外，本实施例中，采用韵律信息对文本编码特征信息进行调整，可以使得调整后的文本编码信息和深度内容信息对齐。所以该attention矩阵也可以称之为attention对齐矩阵。

例如，输入的文本信息abc经过文本编码单元编码后，得到的文本编码特征信息可以为一个3*256维的文本矩阵。若attention矩阵指定a持续时间有40帧，b持续时间有10帧，c持续时间有50帧。则采用attention矩阵对文本编码特征信息调整后，得到的文本矩阵的大小可以是100*256。经过该调整，可以使得调整后的文本编码特征信息携带了韵律信息。

接下来，将调整后的文本编码特征信息输入深度信息合成模块中的自回归解码单元中。该自回归解码单元可以认为调用了N次解码单元，其中N为大于或者等于2的正整数。使用时，也可以认为是该自回归解码单元中包括了依次串接的N个解码单元。其中，第一次调用解码单元时，向解码单元输入的信息是调整后的文本编码特征信息中当前要处理的帧对应的文本向量；其后每次调用解码单元时，输入的是解码单元的前一次的输出和调整后的文本编码特征信息中当前要处理的帧对应的文本向量。本实施例的自回归解码单元需要自回归的次数，与attention矩阵中确定的总帧数有关。例如。每次解码单元预测一帧，总帧数有多少就回归多少次。如果解码单元一次预测3帧，就回归总帧数/3次。也就是说，解码单元每次回归仅预测部分帧的深度内容信息。最后将解码单元每次回归输出的深度内容信息按照先后顺序拼接，便可以得到待合成语音的深度内容信息。

本实施例中，以本实施例中，以深度信息合成模块中包括文本编码单元和自回归解码单元为例，来介绍步骤S201的详细实现过程。实际应用中，该深度信息合成模块也可以为一个端到端的模块，直接基于待合成语音的文本信息和韵律信息，生成待合成语音的深度内容信息。

进一步地，可以将得到的待合成语音的深度内容信息和音色信息，输入至语音合成模型的语音转换解码器中，该语音转换解码器可以基于深度内容信息和音色信息，生成待合成语音的声学特征信息。该声学特征信息可以为mel频谱序列的形式。最后将得到的待合成语音的声学特征信息，输入至声码器中，该声码器基于该声学特征信息合成待合成语音的音频。

本实施例的语音合成方法，通过采用上述技术方案，在合成语音时，可以采用任意的文本信息、音色信息和韵律信息，任意组合，合成想要的语音，合成语音的方式非常灵活、方便。

而且，本实施例中，可以基于待合成语音的文本信息和韵律信息，采用预先训练的语音合成模型中的深度信息合成模块，生成待合成语音的深度内容信息；并基于待合成语音的深度内容信息和音色信息，采用预先训练的语音合成模型中的语音转换解码器，生成待合成语音的声学特征信息，可以分步骤地实现待合成语音的声学特征信息的生成过程，有效地保证生成的待合成语音的声学特征信息的准确性。

进一步地，本实施例中，还可以基于待合成语音的文本信息，采用深度信息合成模块中的文本编码单元，生成文本编码特征信息；采用韵律信息对文本编码特征信息进行调整，使得调整后的文本编码特征信息携带韵律信息；基于调整后的文本编码特征信息，采用深度信息合成模块中的自回归解码单元，生成待合成语音的深度内容信息，能够有效地保证生成的待合成语音的深度内容信息的生成效率和准确性。

图4是根据本申请第三实施例的示意图；如图4所示，本实施例提供一种语音合成模型的训练方法，具体可以包括如下步骤：

S401、基于采集的数条训练语音的音频，构建第一训练数据集；

S402、基于第一训练数据集，对包括语音转换编码器和语音转换解码器的语音转化模型进行训练，以实现对语音合成模型中的语音转换解码器进行训练；

S403、基于采集的数条训练文本、描述各训练文本的训练语音的音频以及已训练的语音转换编码器，构建第二训练数据集；

S404、基于第二训练数据集，对语音合成模型中的深度信息合成模块进行训练。

本实施例的语音合成模型的训练方法的执行主体为语音合成模型的训练装置。该语音合成模型的训练装置可以为电子实体，或者也可以为采用软件集成的应用。本实施例的语音合成模型为上述图1所述实施例所采用的语音合成模型。该语音合成模型可以包括语音转换解码器和深度信息合成模块两块。虽然使用时，该语音合成模型为一个端到端的模型，但是本实施例在训练语音合成模型时，语音转换解码器和深度信息合成模块并非同时进行训练。而是将包括的语音转换编码器和语音转换解码器的语音转化模型单独进行训练，从而实现对语音合成模型中的语音转换解码器进行训练。然后再单独对语音合成模型中的深度信息合成模块进行训练。这样，将训练后的语音转换解码器和深度信息合成模块拼接在一起，便可以得到本实施例的语音合成模型。基于此，可以得知本实施例对语音合成模型的训练拆分为两个训练。

首先，基于采集的数条训练语音的音频，构建第一训练数据集，对包括语音转换编码器和语音转换解码器的语音转化模型进行训练。这样，语音转化模型训练好之后，该语音合成模型中的语音转换解码器必然训练好了。

接下来，基于采集的数条训练文本、描述各训练文本的训练语音的音频以及已训练的语音转换编码器，构建第二训练数据集，对语音合成模型中的深度信息合成模块进行训练，至此，便完成语音合成模型的训练。

本实施例中，构建的第一训练数据集和第二训练数据集中包括的训练数据的条数可以达到成千上万，甚至百万级以上，采集的训练数据越多，训练的对应的模型的准确性就越好。

本实施例的语音合成模型的训练方法，通过采用上述技术方案，基于采集的数条训练语音的音频，构建第一训练数据集，对包括语音转换编码器和语音转换解码器的语音转化模型进行训练，以实现对语音合成模型中的语音转换解码器进行训练；基于采集的数条训练文本、描述各训练文本的训练语音的音频以及已训练的语音转换编码器，构建第二训练数据集，对语音合成模型中的深度信息合成模块进行训练，采用本实施例的技术方案，通过分别对语音合成模型中的语音转换解码器和深度信息合成模块进行训练，进而实现对语音合成模型的训练，能够有效地保证训练的语音合成模型的准确性。

图5是根据本申请第四实施例的示意图；如图5所示，本实施例的语音合成模型的训练方法，在上述图4所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。如图5所示，本实施例的语音合成模型的训练方法，具体可以包括如下步骤：

S501、基于数条训练语音的音频中的各训练语音的音频，提取对应的目标声学特征信息和音色信息，作为一条第一训练数据，共得到数条第一训练数据，构成第一训练数据集；

本实施例中可以从各训练语音的音频中提取对应的目标声学特征信息。该目标声学特征信息中可以携带对应的训练语音的音频中的音色、韵律以及内容等音频中的所有声学特征信息。该目标声学特征信息可以采用mel频谱序列的形式。另外，本实施例中，可以通过声纹系统或音色提取器从各训练语音的音频中提取训练语音的音色信息。本实施例的音色信息可以采用向量的形式来表示。

S502、对于第一训练数据集的各第一训练数据，基于第一训练数据中的目标声学特征信息，采用语音转换编码器进行编码处理，去除音色信息，获取编码后的训练深度内容信息；

本实施例的语音转换编码器的原理是用于去除目标声学特征信息中的音色信息，进而得到对应的训练深度内容信息。即该训练深度内容信息中可以包括韵律以及内容等声学特征信息。

S503、基于训练深度内容信息和第一训练数据中的音色信息，采用语音转换解码器，生成预测声学特征信息；

本实施例的语音转换解码器用于基于训练深度内容信息和音色信息，重构并恢复声学特征信息。但是由于在语音转换编码器和语音转换解码器未训练完毕时，重构的声学特征信息与从对应的训练语音的音频中提取的目标声学特征信息未必完全一致，所以将重构的声学特征信息成为预测声学特征信息。

S504、基于目标声学特征信息和预测声学特征信息，构建第一损失函数；

S505、检测第一损失函数是否收敛；若未收敛，执行步骤S506；若收敛，执行步骤S507；

S506、调整语音转换编码器和语音转换解码器的参数，使得第一损失函数趋于收敛；返回步骤S502，选择下一条训练数据，继续训练；

S507、检测在连续预设轮数的训练中第一损失函数是否始终收敛、或者训练轮数是否到达预设阈值；若是，确定语音转化模型中的语音转换编码器和语音转换解码器的参数，进而确定语音转化模型中的语音转换编码器和语音转换解码器，执行步骤S508；否则返回步骤S502，选择下一条训练数据，继续训练；

步骤S502-S506为对包括语音转换编码器和语音转换解码器的语音转换模型的训练过程。

图6是本申请的语音转换模型的训练架构图。如图6所示，该语音转换模型中包括语音转换编码器和语音转换解码器。参考上述步骤S502-S506的训练原理，可以得知该语音转换编码器用于去除目标声学特征信息的音色信息，进而实现将音色信息和训练深度内容信息解耦。进一步地，语音转换解码器可以基于训练深度内容信息和音色信息，重构声学特征信息。基于此，可以实现对音色信息进行单独控制，从而在语音转换解码器中输入不同与训练语音中的音色信息时，可以实现语音的转换。

步骤S507为语音转换模型的训练截止条件。本实施例中以训练截止条件包括两种情况为例，第一种训练截止条件中，在连续预设轮数的训练中第一损失函数是否始终收敛，若始终收敛，则可以认为该语音转化模型已经训练完毕。其中该连续预设轮数可以根据实际需求来设置，例如可以为连续80轮、100轮、200轮或者其他正整数，在此不做限定。第二种训练截止条件中，防止第一损失函数一直在趋于收敛，但是永远无法达到收敛的情况。此时，可以设置一个训练的最大轮数，在训练轮数达到最大训练轮数时，可以认为语音转化模型已经训练完毕。例如根据实际需求，预设阈值可以设置为百万级或者其他更大数量级的数值，在此不做限定。

S508、基于采集的描述的数条训练文本中各训练文本的训练语音的音频，提取对应的声学特征信息；

本实施例的训练过程中，由于同一个发音人的说话节奏是相同的，所以同一个发音人的训练语音的音频中包括的韵律信息是相同的。为了能够在训练数据集中标识每个发音人的韵律信息，还可以在训练数据中标识每个训练语音的音频对应的发音人的标识如ID。

S509、基于声学特征信息，采用训练好的语音转换编码器进行编码处理，去除音色信息，获取编码后的目标深度内容信息；

S510、将各训练文本以及对应的目标深度内容信息，作为一条第二训练数据，共得到数条第二训练数据，构成第二训练数据集；

步骤S508-S510为上述图4所示实施例的步骤S403的一种实现方式。

S511、对于第二训练数据集的各第二训练数据，基于第二训练数据中的训练文本以及对应的目标深度内容信息，采用深度信息合成模块生成预测深度内容信息；

S512、基于预测深度内容信息和目标深度内容信息，构建第二损失函数；

S513、检测第二损失函数是否收敛；若未收敛，执行步骤S514；若收敛，执行步骤S515；

S514、调整深度信息合成模块的参数，使得第二损失函数趋于收敛；返回步骤S511，选择下一条训练数据，继续训练；

S515、检测在连续预设轮数的训练中第二损失函数是否始终收敛、或者训练轮数是否到达预设阈值；若是，确定深度信息合成模块的参数，进而确定深度信息合成模块，结束；否则返回步骤S511，选择下一条训练数据，继续训练。

步骤S511-S514为对深度信息合成模块的训练过程。步骤S515为深度信息合成模块的训练截止条件，其实现原理与上述步骤S507相同，详细亦可以参考上述步骤S507的相关记载，在此不再赘述。

图7是本申请的深度信息合成模块的训练架构图。如图7所示，本实施例中还可以以深度信息合成模块中包括文本编码单元和自回归解码单元为例，来描述该深度信息合成模块的训练过程。当然，可选地，实际应用中，该深度信息合成模块也可以为一个端到端的模块，直接采用上述步骤S511-S515进行训练即可。

结合上述图7所示的深度信息合成模块的结构，其中步骤S511生成预测深度内容信息，具体可以包括如下步骤：

(a2)对于第二训练数据集的各第二训练数据，基于第二训练数据中的训练文本，采用深度信息合成模块中的文本编码单元，生成文本编码特征信息；例如，生成的文本编码特征信息可以采用矩阵的形式。

(b2)基于第二训练数据中的目标深度内容信息，对文本编码特征信息进行调整，使得调整后的文本编码特征信息与目标深度内容信息对齐；

例如，该步骤中，可以先基于第二训练数据中的目标深度内容信息和文本编码特征信息，生成训练韵律信息；基于训练韵律信息对文本编码特征信息进行调整，使得文本编码特征信息与目标深度内容信息对齐。该训练韵律信息为一个attention对齐矩阵，根据该attention对齐矩阵对文本编码特征信息进行调整，可以使得调整后的文本编码特征信息与目标深度内容信息对齐，并在调整后的文本编码特征信息中携带韵律信息。

(c2)基于调整后的文本编码特征信息，采用深度信息合成模块中的自回归解码单元，生成预测深度内容信息。

由于调整后的文本编码特征信息中携带有韵律信息，将调整后的文本编码特征信息输入至自回归解码单元中，该自回归解码单元可以生成并输出预测深度内容信息。该预测深度内容信息中携带韵律信息和内容信息。

具体地，参考上述图7所示的结构，以自回归解码单元中可以进行N次自回归为例。其中N为大于或者等于2的正整数。与上述图2所示实施例中使用时相同，自回归解码单元需要自回归的次数，与attention对齐矩阵或者目标深度内容信息中确定的总帧数有关。由于attention对齐矩阵是基于目标深度内容信息和文本编码特征信息获取的，attention对齐矩阵的总帧数与目标深度内容信息所标识的总帧数是相同的。每次解码单元预测一帧，总帧数有多少就回归多少次。如果解码单元一次预测3帧，就回归总帧数/3次。如果解码单元一次预测M帧，就回归总帧数/M次。第一次调用解码单元时，向解码单元输入的信息是调整后的文本编码特征信息中当前要处理的帧对应的文本向量；其后每次调用解码单元时，输入的是解码单元的前一次的输出和调整后的文本编码特征信息中当前要处理的帧对应的文本向量。这样，解码单元每次回归仅预测部分帧的深度内容信息。最后将解码单元每次回归输出的深度内容信息按照先后顺序拼接，便可以得到预测深度内容信息。

需要说明的是，在每一轮训练过程中，得到预测深度内容信息之后，都需要按照步骤S512-S514继续执行训练过程，此时对应的若需要调整参数时，具体调整的是深度信息合成模块中的文本编码单元和自回归解码单元的参数。且该过程中，每次参数调整，对应地训练韵律信息即attention对齐矩阵也在不断地学习和调整，直至训练结束，便能确定对应训练语音的音频对应的发音人的韵律信息。假如第二训练数据集的训练数据中的目标深度内容信息是基于300个发音人的训练语音的音频提取的，便对应得到300个发音人的韵律信息。进一步地，实际应用中，若要在该深度信息合成模块中注册第二训练数据集的集外的韵律信息，可以由这个集外人挑100句训练文本，再在该深度信息合成模块上训练，便可以让深度信息合成模块学会该集外人的韵律信息。

通过本实施例的上述训练方法，可以在训练结束后，得到训练数据集中各个发音人的韵律信息，进而在语音合成时，可以采用任意发音人的韵律信息，实现韵律可控的语音合成，实用性非常强。

需要说明的是，为了能够清晰描述训练原理，本实施例的上述训练过程中是以训练过程中每次采用一条训练数据为例，实际应用中，为了提高训练效率和效果，每次训练过程中，可以选择一组训练数据同时进行训练，训练原理同上，在此不再赘述。

按照本实施例的上述训练过程，可以通过对图6所示的语音转换模型和图7所示的深度信息合成模块进行训练。实现对图3所示的包括语音转换模型中的语音转换解码器和图7所示的深度信息合成模块构成的语音合成模型进行训练。

本实施例的语音合成模型的训练方法，通过对语音转换模型和深度信息合成模块进行训练。实现对包括语音转换模型中的语音转换解码器和深度信息合成模块构成的语音合成模型进行训练，能够有效地保证训练的语音合成模型的准确性。

进一步地，本实施例中，还通过对深度信息合成模块中的文本编码单元和自回归解码单元进行训练，实现对深度信息合成模块，能够有效地提高深度信息合成模块的准确性，进而提高语音合成模型的准确性。

图8是根据本申请第五实施例的示意图；如图8所示，本实施例提供一种语音合成装置800，包括：

生成模块801，用于基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息；

合成模块802，用于基于待合成语音的声学特征信息，采用预先训练的声码器，合成相应的语音。

本实施例的语音合成装置800，通过采用上述模块实现语音合成的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图9是根据本申请第六实施例的示意图；如图9所示，本实施例的语音合成装置800，在上述图8所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。

如图9所示，本实施例的语音合成装置800中，生成模块801，包括：

第一生成单元8011，用于基于待合成语音的文本信息和韵律信息，采用预先训练的语音合成模型中的深度信息合成模块，生成待合成语音的深度内容信息；

第二生成单元8012，用于基于待合成语音的深度内容信息和音色信息，采用预先训练的语音合成模型中的语音转换解码器，生成待合成语音的声学特征信息。

进一步地，第一生成单元8011，用于：

基于待合成语音的文本信息，采用深度信息合成模块中的文本编码单元，生成文本编码特征信息；

采用韵律信息对文本编码特征信息进行调整；

基于调整后的文本编码特征信息，采用深度信息合成模块中的自回归解码单元，生成待合成语音的深度内容信息。

图10是根据本申请第七实施例的示意图；如图10所示，本实施例提供一种语音合成模型的训练装置1000，包括：

第一构建模块1001，用于基于采集的数条训练语音的音频，构建第一训练数据集；

第一训练模块1002，用于基于第一训练数据集，对包括语音转换编码器和语音转换解码器的语音转化模型进行训练，以实现对语音合成模型中的语音转换解码器进行训练；

第二构建模块1003，用于基于采集的数条训练文本、描述各训练文本的训练语音的音频以及已训练的语音转换编码器，构建第二训练数据集；

第二训练模块1004，用于基于第二训练数据集，对语音合成模型中的深度信息合成模块进行训练。

本实施例的语音合成模型的训练装置1000，通过采用上述模块实现语音合成模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图11是根据本申请第八实施例的示意图；如图11所示，本实施例的语音合成模型的训练装置1000，在上述图10所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。

例如，本实施例的语音合成模型的训练装置1000中，第一构建模块1001，用于：

基于数条训练语音的音频中的各训练语音的音频，提取对应的目标声学特征信息和音色信息，作为一条第一训练数据，共得到数条第一训练数据，构成第一训练数据集。

进一步可选地，如图11所示，本实施例的语音合成模型的训练装置1000中，第一训练模块1002，包括：

第一编码单元1002a，用于对于第一训练数据集的各第一训练数据，基于第一训练数据中的目标声学特征信息，采用语音转换编码器进行编码处理，去除音色信息，获取编码后的训练深度内容信息；

解码单元1002b，用于基于训练深度内容信息和第一训练数据中的音色信息，采用语音转换解码器，生成预测声学特征信息；

第一构建单元1002c，用于基于目标声学特征信息和预测声学特征信息，构建第一损失函数；

第一检测单元1002d，用于检测第一损失函数是否收敛；

第一调整单元1002e，用于若未收敛，调整语音转换编码器和语音转换解码器的参数，使得第一损失函数趋于收敛。

进一步可选地，如图11所示，本实施例的语音合成模型的训练装置1000中，第二构建模块1003，包括：

提取单元1003a，用于基于采集的描述的数条训练文本中各训练文本的训练语音的音频，提取对应的声学特征信息；

第二编码单元1003b，用于基于声学特征信息，采用已训练的语音转换编码器进行编码处理，去除音色信息，获取编码后的目标深度内容信息；

构成单元1003c，用于将各训练文本以及对应的目标深度内容信息，作为一条第二训练数据，共得到数条第二训练数据，构成第二训练数据集。

进一步可选地，如图11所示，本实施例的语音合成模型的训练装置1000中，第二训练模块1004，包括：

生成单元1004a，用于对于第二训练数据集的各第二训练数据，基于第二训练数据中的训练文本以及对应的目标深度内容信息，采用深度信息合成模块生成预测深度内容信息；

第二构建单元1004b，用于基于预测深度内容信息和目标深度内容信息，构建第二损失函数；

第二检测单元1004c，用于检测第二损失函数是否收敛；

第二调整单元1004d，用于若未收敛，调整深度信息合成模块的参数，使得第二损失函数趋于收敛。

进一步可选地，生成单元1004a，用于：

对于第二训练数据集的各第二训练数据，基于第二训练数据中的训练文本，采用深度信息合成模块中的文本编码单元，生成文本编码特征信息；

基于第二训练数据中的目标深度内容信息，对文本编码特征信息进行调整，使得调整后的文本编码特征信息与目标深度内容信息对齐；

基于调整后的文本编码特征信息，采用深度信息合成模块中的自回归解码单元，生成预测深度内容信息。

进一步可选地，生成单元1004a，具体用于：

基于第二训练数据中的目标深度内容信息和文本编码特征信息，生成训练韵律信息；

基于训练韵律信息对文本编码特征信息进行调整，使得调整后的文本编码特征信息与目标深度内容信息对齐。…

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质以及一种计算机程序产品。

如图12所示，是本申请实施例的实现上述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，该电子设备包括：一个或多个处理器1201、存储器1202，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1201为例。

存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音合成方法或者语音合成模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音合成方法或者语音合成模型的训练方法。

存储器1202作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音合成方法或者语音合成模型的训练方法对应的程序指令/模块(例如，附图8、附图9、附图10和附图11所示的相关模块)。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音合成方法或者语音合成模型的训练方法。

存储器1202可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实现语音合成方法或者语音合成模型的训练方法的电子设备的使用所创建的数据等。此外，存储器1202可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1202可选包括相对于处理器1201远程设置的存储器，这些远程存储器可以通过网络连接至实现语音合成方法或者语音合成模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现语音合成方法或者语音合成模型的训练方法的电子设备还可以包括：输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接，图12中以通过总线连接为例。

输入装置1203可接收输入的数字或字符信息，以及产生与实现语音合成方法或者语音合成模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，通过基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息；基于待合成语音的声学特征信息，采用预先训练的声码器，合成相应的语音。本实施例在合成语音时，可以采用任意的文本信息、音色信息和韵律信息，任意组合，合成想要的语音，合成语音的方式非常灵活、方便。

根据本申请实施例的技术方案，可以基于待合成语音的文本信息和韵律信息，采用预先训练的语音合成模型中的深度信息合成模块，生成待合成语音的深度内容信息；并基于待合成语音的深度内容信息和音色信息，采用预先训练的语音合成模型中的语音转换解码器，生成待合成语音的声学特征信息，可以分步骤地实现待合成语音的声学特征信息的生成过程，有效地保证生成的待合成语音的声学特征信息的准确性。

根据本申请实施例的技术方案，还可以基于待合成语音的文本信息，采用深度信息合成模块中的文本编码单元，生成文本编码特征信息；采用韵律信息对文本编码特征信息进行调整，使得调整后的文本编码特征信息携带韵律信息；基于调整后的文本编码特征信息，采用深度信息合成模块中的自回归解码单元，生成待合成语音的深度内容信息，能够有效地保证生成的待合成语音的深度内容信息的生成效率和准确性。

根据本申请实施例的技术方案，通过采用上述技术方案，基于采集的数条训练语音的音频，构建第一训练数据集，对包括语音转换编码器和语音转换解码器的语音转化模型进行训练，以实现对语音合成模型中的语音转换解码器进行训练；基于采集的数条训练文本、描述各训练文本的训练语音的音频以及已训练的语音转换编码器，构建第二训练数据集，对语音合成模型中的深度信息合成模块进行训练，采用本实施例的技术方案，通过分别对语音合成模型中的语音转换解码器和深度信息合成模块进行训练，进而实现对语音合成模型的训练，能够有效地保证训练的语音合成模型的准确性。

根据本申请实施例的技术方案，通过对语音转换模型和深度信息合成模块进行训练。实现对包括语音转换模型中的语音转换解码器和深度信息合成模块构成的语音合成模型进行训练，能够有效地保证训练的语音合成模型的准确性。

根据本申请实施例的技术方案，，还通过对深度信息合成模块中的文本编码单元和自回归解码单元进行训练，实现对深度信息合成模块，能够有效地提高深度信息合成模块的准确性，进而提高语音合成模型的准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音合成模型的训练方法，其中，所述方法包括：

基于采集的数条训练语音的音频，构建第一训练数据集；

基于所述第二训练数据集，对所述语音合成模型中的深度信息合成模块进行训练；

其中，基于所述第二训练数据集，对所述语音合成模型中的深度信息合成模块进行训练，包括：

对于所述第二训练数据集的各所述第二训练数据，基于所述第二训练数据中的所述训练文本以及目标深度内容信息，采用所述深度信息合成模块生成预测深度内容信息；所述目标深度内容信息为基于所述训练文本的训练语音的音频，提取对应的声学特征信息；并基于所述声学特征信息，采用已训练的所述语音转换编码器进行编码处理，去除音色信息，得到的编码后的信息。

2.根据权利要求1所述的方法，其中，基于采集的数条训练语音的音频，构建第一训练数据集，包括：

基于所述数条训练语音的音频中的各所述训练语音的音频，提取对应的目标声学特征信息和音色信息，作为一条第一训练数据，共得到数条第一训练数据，构成所述第一训练数据集。

3.根据权利要求2所述的方法，其中，基于所述第一训练数据集，对包括语音转换编码器和语音转换解码器的语音转化模型进行训练，包括：

对于所述第一训练数据集的各所述第一训练数据，基于所述第一训练数据中的目标声学特征信息，采用所述语音转换编码器进行编码处理，去除所述音色信息，获取编码后的训练深度内容信息；

基于所述训练深度内容信息和所述第一训练数据中的音色信息，采用所述语音转换解码器，生成预测声学特征信息；

基于所述目标声学特征信息和所述预测声学特征信息，构建第一损失函数；

检测所述第一损失函数是否收敛；

若未收敛，调整所述语音转换编码器和所述语音转换解码器的参数，使得所述第一损失函数趋于收敛。

4.根据权利要求1所述的方法，其中，基于采集的数条训练文本、描述各所述训练文本的训练语音的音频以及已训练的所述语音转换编码器，构建第二训练数据集，包括：

基于采集的描述的所述数条训练文本中各所述训练文本的训练语音的音频，提取对应的声学特征信息；

基于所述声学特征信息，采用已训练的所述语音转换编码器进行编码处理，去除音色信息，获取编码后的目标深度内容信息；

将各所述训练文本以及对应的所述目标深度内容信息，作为一条第二训练数据，共得到数条第二训练数据，构成所述第二训练数据集。

5.根据权利要求4所述的方法，其中，基于所述第二训练数据集，对所述语音合成模型中的深度信息合成模块进行训练，还包括：

对于所述第二训练数据集的各所述第二训练数据，基于对应的所述预测深度内容信息和所述目标深度内容信息，构建第二损失函数；

检测所述第二损失函数是否收敛；

若未收敛，调整所述深度信息合成模块的参数，使得所述第二损失函数趋于收敛。

6.根据权利要求5所述的方法，其中，对于所述第二训练数据集的各所述第二训练数据，基于所述第二训练数据中的所述训练文本以及对应的所述目标深度内容信息，采用所述深度信息合成模块生成预测深度内容信息，包括：

对于所述第二训练数据集的各所述第二训练数据，基于所述第二训练数据中的所述训练文本，采用所述深度信息合成模块中的文本编码单元，生成文本编码特征信息；

基于所述第二训练数据中的所述目标深度内容信息，对所述文本编码特征信息进行调整，使得调整后的所述文本编码特征信息与所述目标深度内容信息对齐；

基于调整后的所述文本编码特征信息，采用所述深度信息合成模块中的自回归解码单元，生成所述预测深度内容信息。

7.根据权利要求6所述的方法，其中，基于所述第二训练数据中的所述目标深度内容信息，对所述文本编码特征信息进行调整，使得调整后的所述文本编码特征信息与所述目标深度内容信息对齐，包括：

基于所述第二训练数据中的所述目标深度内容信息和所述文本编码特征信息，生成训练韵律信息；

基于所述训练韵律信息对所述文本编码特征信息进行调整，使得调整后的所述文本编码特征信息与所述目标深度内容信息对齐。

8.一种语音合成方法，其中，所述方法，包括：

基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息；所述语音合成模型采用权利要求1-7任一所述的方法进行训练得到；

9.根据权利要求8所述的方法，其中，基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息，包括：

基于所述待合成语音的所述文本信息和所述韵律信息，采用预先训练的所述语音合成模型中的深度信息合成模块，生成待合成语音的深度内容信息；

基于所述待合成语音的所述深度内容信息和所述音色信息，采用预先训练的所述语音合成模型中的语音转换解码器，生成待合成语音的声学特征信息。

10.根据权利要求9所述的方法，其中，基于所述待合成语音的所述文本信息和所述韵律信息，采用预先训练的所述语音合成模型中的深度信息合成模块，生成待合成语音的深度内容信息，包括：

基于所述待合成语音的所述文本信息，采用所述深度信息合成模块中的文本编码单元，生成文本编码特征信息；

采用所述韵律信息对所述文本编码特征信息进行调整；

基于调整后的所述文本编码特征信息，采用所述深度信息合成模块中的自回归解码单元，生成所述待合成语音的深度内容信息。

11.一种语音合成模型的训练装置，其中，所述装置包括：

第二训练模块，用于基于所述第二训练数据集，对所述语音合成模型中的深度信息合成模块进行训练；

所述第二训练模块，包括：

生成单元，用于对于所述第二训练数据集的各所述第二训练数据，基于所述第二训练数据中的所述训练文本以及目标深度内容信息，采用所述深度信息合成模块生成预测深度内容信息；所述目标深度内容信息为基于所述训练文本的训练语音的音频，提取对应的声学特征信息；并基于所述声学特征信息，采用已训练的所述语音转换编码器进行编码处理，去除音色信息，得到的编码后的信息。

12.根据权利要求11所述的装置，其中，所述第一构建模块，用于：

13.根据权利要求12所述的装置，其中，所述第一训练模块，包括：

第一编码单元，用于对于所述第一训练数据集的各所述第一训练数据，基于所述第一训练数据中的目标声学特征信息，采用所述语音转换编码器进行编码处理，去除所述音色信息，获取编码后的训练深度内容信息；

解码单元，用于基于所述训练深度内容信息和所述第一训练数据中的音色信息，采用所述语音转换解码器，生成预测声学特征信息；

第一构建单元，用于基于所述目标声学特征信息和所述预测声学特征信息，构建第一损失函数；

第一检测单元，用于检测所述第一损失函数是否收敛；

第一调整单元，用于若未收敛，调整所述语音转换编码器和所述语音转换解码器的参数，使得所述第一损失函数趋于收敛。

14.根据权利要求11所述的装置，其中，所述第二构建模块，包括：

提取单元，用于基于采集的描述的所述数条训练文本中各所述训练文本的训练语音的音频，提取对应的声学特征信息；

第二编码单元，用于基于所述声学特征信息，采用已训练的所述语音转换编码器进行编码处理，去除音色信息，获取编码后的目标深度内容信息；

构成单元，用于将各所述训练文本以及对应的所述目标深度内容信息，作为一条第二训练数据，共得到数条第二训练数据，构成所述第二训练数据集。

15.根据权利要求14所述的装置，其中，所述第二训练模块，还包括：

第二构建单元，用于对于所述第二训练数据集的各所述第二训练数据，基于对应的所述预测深度内容信息和所述目标深度内容信息，构建第二损失函数；

第二检测单元，用于检测所述第二损失函数是否收敛；

第二调整单元，用于若未收敛，调整所述深度信息合成模块的参数，使得所述第二损失函数趋于收敛。

16.根据权利要求15所述的装置，其中，所述生成单元，用于：

17.根据权利要求16所述的装置，其中，所述生成单元，具体用于：

18.一种语音合成装置，其中，所述装置，包括：

生成模块，用于基于待合成语音的文本信息、音色信息和韵律信息，采用预先训练的语音合成模型，生成待合成语音的声学特征信息；所述语音合成模型采用权利要求11-17任一所述的装置进行训练得到；

19.根据权利要求18所述的装置，其中，所述生成模块，包括：

第一生成单元，用于基于所述待合成语音的所述文本信息和所述韵律信息，采用预先训练的所述语音合成模型中的深度信息合成模块，生成待合成语音的深度内容信息；

第二生成单元，用于基于所述待合成语音的所述深度内容信息和所述音色信息，采用预先训练的所述语音合成模型中的语音转换解码器，生成待合成语音的声学特征信息。

20.根据权利要求19所述的装置，其中，所述第一生成单元，用于：

采用所述韵律信息对所述文本编码特征信息进行调整；

21.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的语音合成模型训练方法，或者，执行权利要求8-10中任一项所述的语音合成方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的语音合成模型训练方法，或者，执行权利要求8-10中任一项所述的语音合成方法。