CN112037754A

CN112037754A - 一种语音合成训练数据的生成方法及相关设备

Info

Publication number: CN112037754A
Application number: CN202010940049.0A
Authority: CN
Inventors: 黄杰雄; 周鸿斌; 戴长军; 贺天威
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-04
Anticipated expiration: 2040-09-09
Also published as: CN112037754B

Abstract

本申请提供一种语音合成训练数据的生成方法及相关设备，通过获取原始训练数据，并确定原始训练数据的语音类型所对应的预先建立的音色转换网络，预先建立的音色转换网络至少包括语音内容识别模型、语音说话人识别模型、声码器模型和音色转换模型，其中，至少音色转换模型基于目标音色数据集进行训练调整得到；将原始训练数据输入预先建立的音色转换网络进行音频转换，输出转换成指定目标音色的音频数据，并将音频数据作为语音合成TTS训练数据，音频数据具有与原始训练数据相同的拼音标注和韵律标注。本申请能够实现在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的目的。

Description

一种语音合成训练数据的生成方法及相关设备

技术领域

本申请涉及语音处理技术领域，更具体地说，涉及一种语音合成训练数据的生成方法及相关设备。

背景技术

语音合成技术(Textto Speech，简称TTS)可以让机器根据文字的内容自动合成高质量的逼近人声的合成语音。传统的TTS技术利用拼接法或者参数法来实现机器的自动合成语音，但是利用传统的TTS技术合成的语音机械感强，自然度差，音频的音质也不高。

现有的TTS技术通过利用序列到序列建模的神经网络模型实现机器的自动合成语音，合成的语音的音频音质高，自然度好，非常接近人声。但是，想要训练好一个神经网络的语音合成模型需要大量的高质量TTS训练数据。生成神经网络的语音合成模型的TTS训练数据有以下两种方式，第一种是指定数据公司提供的某个音色，让数据公司录制音频，并人工针对音频的内容和朗读韵律对所录制的音频对应的文本做相对应的标注工作，但是这种收集方式耗时长，且成本高；第二种是使用一些开源的高质量的TTS训练数据，但是开源的高质量的TTS训练数据的音色和数量有限，大大限制了神经网络的语音合成模型的训练。

综上所述，采用现有的生成TTS训练数据的方式，存在无法在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的问题。

发明内容

有鉴于此，本申请提供一种语音合成训练数据的生成方法及相关设备，以解决现有技术中存在的无法在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的问题。技术方案如下所示：

本申请第一方面公开了一种语音合成训练数据的生成方法，所述方法包括：

获取原始训练数据，并确定所述原始训练数据的语音类型所对应的预先建立的音色转换网络，所述预先建立的音色转换网络至少包括语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型，其中，至少所述音色转换模型基于指定目标音色数据集进行训练调整得到；

将所述原始训练数据输入所述语音内容识别模型进行处理，输出内容特征矩阵，将指定目标音色输入所述语音说话人识别模型进行处理，输出说话人信息特征矩阵；

将所述内容特征矩阵和所述说话人信息特征矩阵输入所述音色转换模型进行音色转换，输出指定目标音色的声学特征；

将所述指定目标音色的声学特征输入所述声码器模型进行音频转换，输出转换成指定目标音色的音频数据，并将所述音频数据作为语音合成TTS训练数据，所述音频数据具有与所述原始训练数据相同的拼音标注和韵律标注。

可选的，所述获取原始训练数据，并确定所述原始训练数据的语音类型所对应的预先建立的音色转换网络，包括：

获取原始训练数据，并确定所述原始训练数据的语音类型；

若所述原始训练数据的语音类型为中文，确定预先建立的用于生成中文语音合成TTS训练数据的中文音色转换网络；

若所述原始训练数据的语音类型为外文，确定预先建立的用于生成外文语音合成TTS训练数据的外文音色转换网络。

可选的，所述预先建立的音色转换网络的建立过程包括：

获取预先建立的初始音色转换网络和目标音色数据集，所述预先建立的初始音色转换网络包括基于第一数据集训练得到的语音内容识别模型和语音说话人识别模型，以及基于第二数据集训练得到的初始音色转换模型和声码器模型；

将目标音色数据集输入所述语音内容识别模型得到目标音色数据集对应的目标语音内容特征矩阵；

将所述目标音色数据集输入所述语音说话人识别模型得到目标音色数据集对应的目标语音信息特征矩阵；

将所述目标语音内容特征矩阵和所述目标语音信息特征矩阵作为所述初始音色转换模型的输入，输出所述目标音色数据集的预测声学特征；

基于所述预测声学特征和所述目标音色数据集对应的真实声学特征的绝对差值对所述初始音色转换模型进行调整，直至所述绝对差值处于预设范围内，得到音色转换模型；

基于所述语音内容识别模型、所述语音说话人识别模型、所述音色转换模型和所述声码器模型构建音色转换网络。

可选的，所述输出所述目标音色数据集的预测声学特征之后，还包括：

利用所述声码器模型将所述预测声学特征转换成预测目标音频；

利用所述声码器模型将所述目标音色数据集对应的真实声学特征转换成真实目标音频；

基于所述预测目标音频和所述真实目标音频的绝对差值对所述声码器模型进行调整，直至所述绝对差值处于预设范围内，得到调整后的声码器模型；

所述基于所述语音内容识别模型、语音说话人识别模型、所述音色转换模型和所述声码器模型构建音色转换网络，包括：

基于所述语音内容识别模型、所述语音说话人识别模型、所述音色转换模型和所述调整后的声码器模型构建音色转换网络。

可选的，所述预先建立的音色转换网络的建立过程包括：

获取目标音色数据集、第一数据集和第二数据集；

将所述第一数据集和所述目标音色数据集进行集合得到第三数据集，将所述第二数据集和所述目标音色数据集进行集合得到第四数据集；

基于所述第三数据集训练得到语音内容识别模型和语音说话人识别模型；

基于所述第四数据集训练得到音色转换模型和声码器模型；

本申请第二方面公开了一种语音合成训练数据的生成装置，所述生成装置包括：

获取单元，用于获取原始训练数据，并确定所述原始训练数据的语音类型所对应的预先建立的音色转换网络；

由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型预先建立的音色转换网络，其中，所述音色转换模型基于目标音色数据集进行训练调整得到；

所述语音内容识别模型，用于对输入的原始训练数据进行处理，输出内容特征矩阵；

所述语音说话人识别模型，用于对输入的指定目标音色进行处理，输出说话人信息特征矩阵；

所述音色转换模型，用于对输入的所述内容特征矩阵和所述说话人信息特征矩阵进行音色转换，输出指定目标音色的声学特征；

所述声码器模型，用于对输入的所述指定目标音色的声学特征进行音频转换，输出转换成指定目标音色的音频数据，并将所述音频数据作为语音合成TTS训练数据，所述音频数据具有与所述原始训练数据相同的拼音标注和韵律标注。

可选的，还包括：第一构建单元；

所述第一构建单元，包括：

初始音色转换网络构建模块，用于基于第一数据集训练得到的语音内容识别模型和语音说话人识别模型，以及基于第二数据集训练得到的初始音色转换模型和声码器模型，并基于所述语音内容识别模型、语音说话人识别模型、初始音色转换模型和声码器模型构建初始音色转换网络；

第一调整模块，用于获取目标音色数据集，并将所述目标音色数据集分别输入所述语音内容识别模型和语音说话人识别模型，得到所述目标音色数据集对应的目标语音内容特征矩阵和目标语音信息特征矩阵，将所述目标语音内容特征矩阵和所述目标语音信息特征矩阵作为所述初始音色转换模型的输入，输出所述目标音色数据集的预测声学特征，基于所述预测声学特征和所述目标音色数据集对应的真实声学特征的绝对差值对所述初始音色转换模型进行调整，直至所述绝对差值处于预设范围内，得到音色转换模型；

第一构建模块，用于基于所述语音内容识别模型、所述语音说话人识别模型、所述音色转换模型和所述声码器模型构建音色转换网络。

可选的，还包括：第二构建单元；

所述第二构建单元，包括：

获取模块，用于获取目标音色数据集、第一数据集和第二数据集；将所述第一数据集和所述目标音色数据集进行集合得到第三数据集，将所述第二数据集和所述目标音色数据集进行集合得到第四数据集；

第二构建模块，用于基于所述第三数据集训练得到语音内容识别模型和语音说话人识别模型；基于所述第四数据集训练得到音色转换模型和声码器模型；基于所述语音内容识别模型、所述语音说话人识别模型、所述音色转换模型和所述声码器模型构建音色转换网络。

本申请第三方面示出了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储生成TTS训练数据的程序代码和数据，所述处理器用于调用所述存储器中的程序指令执行如本申请第一方面示出的一种语音合成训练数据的生成方法。

本申请第四方面示出了一种存储介质，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如本申请第一方面示出的一种语音合成训练数据的生成方法。

本申请实施例公开的语音合成训练数据的生成方法及相关设备，通过基于目标音色数据集进行训练调整后得到的预先建立的音色转换网络，对原始训练数据进行音频转换，输出转换成指定目标音色的音频数据，其中，该预先建立的音色转换网络的语音类型与原始训练数据的语音类型对应，预先建立的音色转换网络至少包括语音内容识别模型、语音说话人识别模型、声码器模型和音色转换模型，其中，至少音色转换模型基于目标音色数据集进行训练调整后得到。在本方案中，利用基于目标音色数据集进行调整后的音色转换网络可以在较短时间内得到大量、高质量的指定目标音色的音频数据，不需要因为多个音色重复录制数据，实现在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的生成语音合成训练数据的应用架构图；

图2为本申请实施例提供的一种语音合成训练数据的生成方法的流程示意图；

图3为本申请实施例提供的音色转换网络的架构图；

图4为本申请实施例提供的一种预先建立音色转换网络的方法的流程示意图；

图5为本申请实施例提供的一种基于第二数据集训练得到初始音色转换模型的方法流程示意图；

图6为申请实施例提供的一种基于分离门卷积层、双向长短时记忆网络和全连接层对语音内容特征矩阵和语音信息特征矩阵进行训练，得到初始音色转换模型的方法的流程示意图；

图7为本申请实施例提供的音色转换模型的原理结构图；

图8为本申请实施例提供的分离门卷积层的原理结构图；

图9为本申请实施例提供的另一种预先建立音色转换网络的方法的流程示意图；

图10为本申请实施例提供的另一种预先建立音色转换网络的方法的流程示意图；

图11为本申请实施例提供的一种语音合成训练数据的生成装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

参见图1，为本申请实施例提供的生成语音合成训练数据的应用架构图；

通过用户1、用户2、数据库1或者数据库2为语音合成训练数据的生成装置提供原始训练数据和目标音色。

语音合成训练数据的生成装置可以将原始训练数据转换至指定目标音色的音频数据，以便将得到的音频数据作为语音合成TTS训练数据。

语音合成训练数据的生成装置包括获取单元和预先建立的音色转换网络；该音色转换网络包括语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型。

其中，语音内容识别模型和语音说话人识别模型为利用开源的语音数据集LibriSpeech进行训练得到；音色转换模型和声码器模型为利用开源的音频数据集LibriTTS和目标音色数据进行训练得到。

需要说明的是，开源的语音数据集LibriSpeech包括2400多个音色，及总时长1000多小时的高质量语音数据集。开源的音频数据集LibriTTS包含2400多个音色，及音频总时长为500多小时的高质量音频数据集。目标音色数据集可以为包含3个男声3个女声共6个音色的目标音色数据集，每个音色有50句高质量的音频数据。

本申请上述示出的应用架构可以用于智能家居的语音合成、工业生产的语音合成等领域的场景中。基于图1示出的应用架构可知，该语音合成训练数据的生成装置的音频来源可以通过采集用户1或用户2的原声，也可以从数据库1或数据库2中获取音频数据集。

例如，基于图1示出的应用架构，以从数据库1中获取音频数据集实现语音合成训练数据的生成过程包括：

通过语音合成训练数据的生成装置从数据库1中获取原始训练数据bznsyp和目标音色，并将所获取的原始训练数据bznsyp和目标音色输入预先建立的音色转换网络。

音色转换网络中的语音内容识别模型对原始训练数据bznsyp进行处理，输出内容特征矩阵，利用语音说话人识别模型对目标音色进行处理，输出说话人信息特征矩阵；将内容特征矩阵和说话人信息特征矩阵进行合并，得到组合矩阵；将组合矩阵输入音色转换模型，以便音色转换模型利用组合矩阵进行音色转换，输出指定目标音色的声学特征；将指定目标音色的声学特征输入声码器，以便声码器利用执行目标音色的声学特征进行音频转换，输出转换成高质量且带有正确拼音标注和韵律标注的目标音色的音频数据，并将该音频数据作为语音合成TTS训练数据。

其中，原始训练数据bznsyp为：总时长约12小时，且带有正确的拼音标注和韵律标注，以及正确的音频内容的单一音色的开源的高质量训练数据。

在本申请实施例中，利用基于目标音色数据集进行调整后的音色转换网络可以在较短时间内得到大量、高质量的指定目标音色的音频数据，不需要因为多个音色重复录制数据，实现在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的目的。

参见图2，示出了本申请实施例提供的一种语音合成训练数据的生成方法流程示意图，该语音合成训练数据的生成方法具体包括以下步骤：

在本申请实施例中，基于图2示出的语音合成训练数据的生成方法的流程示意图，相应的，本申请实施例还对应公开了结合音色转换网络结构进行语音合成训练数据的生成的流程示意图，该音色转换网络架构如图3所示。

该基于预先建立的音色转换网络对原始训练数据进行音色转换，得到转换后的目标音色的音频数据的过程包括以下步骤：

S201：获取原始训练数据，并确定原始训练数据的语音类型所对应的预先建立的音色转换网络。

在本申请实施例中，训练数据的语音类型可以为中文或者外文，若训练数据的语音类型为中文，需要利用中文音色转换网络才能实现将训练数据转换成中文语音合成TTS训练数据；若训练数据的语音类型为外文，需要利用外文音色转换网络才能实现将训练数据转换成外文语音合成TTS训练训数据。

需要说明的是，预先建立的音色转换网络至少包括语音内容识别模型、语音说话人识别模型、声码器模型和音色转换模型，其中，至少音色转换模型基于目标音色数据集进行训练调整得到。

此外，预先建立的音色转换网络根据训练数据的语音类型不同，可以得到中文音色转换网络和外文音色转换网络，中文音色转换网络和外文音色转换网络的结构和训练方式一样。

在本申请实施例中，原始训练数据可以为bznsyp数据集。其中，bznsyp数据集为开源的高质量训练数据，总时长约12小时，且带有正确的和音频内容对应的拼音标注和韵律标注，但是音色只有一个单一女声。

在具体执行步骤S201的过程中，在获取原始训练数据后，确定所获取的原始训练数据的语音类型，若原始训练数据的语音类型为中文，确定预先建立的用于生成中文语音合成TTS训练数据的中文音色转换网络；若原始训练数据的语音类型为外文，确定预先建立的用于生成外文语音合成TTS训练数据的外文音色转换网络。

S202：将原始训练数据输入语音内容识别模型进行处理，输出内容特征矩阵，将指定目标音色输入语音说话人识别模型进行处理，输出说话人信息特征矩阵。

在具体执行步骤S202的过程中，在确定原始训练数据的语音类型所对应的预先建立的音色转换网络后，将原始训练数据输入语音内容识别模型中，以便语音内容识别模型对原始训练数据进行处理得到该原始训练数据的内容特征矩阵；确定目标音色，将所确定的目标音色输入语音说话人识别模型中，以便语音说话人识别性对目标音色进行处理得到该目标音色的说话人信息特征矩阵。

S203：将内容特征矩阵和说话人信息特征矩阵输入音色转换模型进行音色转换，输出指定目标音色的声学特征。

在本申请实施例中，在得到原始训练数据的内容特征矩阵和目标音色的说话人信息特征矩阵后，将原始训练数据的内容特征矩阵和目标音色的说话人信息特征矩阵合并，得到组合矩阵；然后将组合矩阵输入音色转换模型中，以便音色转换模型利用组合矩阵进行音色转换，得到指定目标音色的声学特征。

S204：将指定目标音色的声学特征输入声码器模型进行音频转换，输出转换成指定目标音色的音频数据，并将音频数据作为语音合成TTS训练数据，音频数据具有与原始训练数据相同的拼音标注和韵律标注。

在具体执行步骤S204的过程中，在利用音色转换模型对原始训练数据的内容特征矩阵和目标音色的说话人信息特征矩阵进行合并的组合矩阵进行音色转换，得到指定目标音色的声学特征后，将得到的指定目标音色声学特征输入声码器模型，以便声码器模型利用目标音色的声学特征进行音频转换，得到转成指定目标音色的音频数据，进而可以将得到的音频数据作为语音合成TTS训练数据。

在本申请实施例中，预先建立的音色转换网络可以将原始训练数据转换成指定目标音色的高质量的音频数据，且得到的音频数据不仅内容和原始训练数据的内容一致，还具有与原始训练数据相同的拼音标注和韵律标注，即转换后得到的音频数据的内容在时间序列上与原始训练数据的内容在时间序列上一一对应。

例如，在原始训练数据的1.2秒到1.3秒处朗读有一个停顿，那么转换后得到的音频数据也会在1.2秒到1.3秒处有一个停顿；如果在原始训练数据的2.5秒到2.6秒处朗读了一个“啊”，那么同样在转换后得到的音频数据的2.5秒到2.6秒处也会朗读一个“啊”，只是音色被转换成了目标音色。

若原始训练数据为bznsyp数据集，利用本申请提供的预先建立的音色转换网络可以将bznsyp数据集中的全部音频转换成指定的各个目标音色的音频数据，且得到的音频数据的拼音标注和韵律标注与bznsyp数据集中的拼音标注和韵律标注是一模一样的。

若目标音色数据集为包含3个男声3个女声共6个音色的目标音色数据集，利用申请提供的预先建立的音色转换网络转换bznsyp数据集，可以在短时间内得到6个不同音色的、每个音色时长为12小时，且带有正确的评标注和韵律标注的高质量的语音合成TTS训练数据。

本申请实施例公开的语音合成训练数据的生成方法，通过基于目标音色数据集进行训练调整后得到的预先建立的音色转换网络，对原始训练数据进行音频转换，输出转换成指定目标音色的音频数据，其中，该预先建立的音色转换网络的语音类型与所述原始训练数据的语音类型对应，所述预先建立的音色转换网络至少包括语音内容识别模型、语音说话人识别模型、声码器模型和音色转换模型，其中，至少所述音色转换模型基于目标音色数据集进行训练调整后得到。在本方案中，利用基于目标音色数据集进行调整后的音色转换网络可以在较短时间内得到大量、高质量的指定目标音色的音频数据，不需要因为多个音色重复录制数据，实现在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的目的。

基于上述本申请实施例公开的语音合成训练数据的生成方法中所涉及的预先建立的音色转换网络，参见图4，示出了本申请实施例提供的一种预先建立音色转换网络的方法的流程示意图。预先建立的音色转换网络的建立过程具体包括以下步骤：

S401：获取预先建立的初始音色转换网络和目标音色数据集；

在本申请实施例中，预先建立的初始音色转换网络包括基于第一数据集训练得到的语音内容识别模型和语音说话人识别模型，以及基于第二数据集训练得到的初始音色转换模型和声码器模型。

在本申请实施例中，基于第一数据集训练得到的语音内容识别模型和语音说话人识别模型，以及基于第二数据集训练得到的初始音色转换模型和声码器模型预先构建初始音色转换网络的过程可以为：

提取第一数据集中每一句语音所表达的音频内容，并按照预设规则分成不同的类别；利用循环神经网络模型来对不同的类别的音频内容进行训练，以得到语音内容识别模型；提取第一数据集中每一句音频的每一音色，并利用循环神经网络模型来对每一音色进行训练，以得到语音说话人识别模型；提取第二数据集中每一句语音的20维声学特征；并利用每一句语音的20维声学特征充分训练声码器模型，以得到声码器模型；通过训练好的语音内容识别模型和语音说话人识别模型对第二数据集进行处理，得到每一句音频的对应的内容特征矩阵和语音信息特征矩阵。再通过每一句音频的对应的内容特征矩阵和语音信息特征矩阵训练得到初始音色转换模型，进而利用训练好的语音内容识别模型、语音说话人识别模型、初始音色转换模型和声码器模型构建初始音色转换网络。

需要说明的是，若音频内容的类型为英文时，预设规则可设置为英文发音的音素；若音频内容的类型为中文时，预设规则可设置为拼音的声韵母，且该韵母是带声调的。若音频内容的类型为其他类型的外文或方言时，可经过其他类型的外文或方言的发音方式设置预设规则。每一句音频对应的内容特征数据矩阵的矩阵维度为T*256，T为每句音频的长度。其中，每一T*256的矩阵表示时间长度为T的音频每一时刻下的音素内容。每一音色的语音信息特征矩阵的矩阵维度为1*256。在本申请实施例中，根据音频的长度T对语音信息特征矩阵的矩阵维度进行复制，得到T*256维的语音信息特征矩阵。

S402：将目标音色数据集输入语音内容识别模型得到目标音色数据集对应的目标语音内容特征矩阵。

在具体执行步骤S402的过程中，将目标音色数据集输入语音内容识别模型，通过语音说话人识别模型对目标音色数据集进行识别，输出该目标音色数据集的目标语音内容特征矩阵。

S403：将目标音色数据集输入语音说话人识别模型得到目标音色数据集对应的目标语音信息特征矩阵。

在具体执行步骤S403的过程中，将目标音色数据集输入语音说话人识别模型，通过语音说话人识别模型对目标音色数据集进行识别识，输出该目标音色数据集的目标语音信息特征矩阵。

S404：将目标语音内容特征矩阵和目标语音信息特征矩阵作为初始音色转换模型的输入，输出目标音色数据集的预测声学特征。

在本申请实施例中，首先，将得到的语音内容特征矩阵和语音信息特征矩阵进行矩阵合并，得到组合矩阵；然后将合并后的组合矩阵输入初始音色转换模型，初始音色转换模型对组合矩阵进行识别处理，得到该目标音色数据集的预测声学特征。

S405：基于预测声学特征和目标音色数据集对应的真实声学特征的绝对差值对初始音色转换模型进行调整，直至绝对差值处于预设范围内，得到音色转换模型。

在本申请实施例中，在利用初始音色转换模型对输入该初始音色转换模型的目标语音内容特征矩阵和目标语音信息特征矩阵进行识别处理，得到目标音色数据集的预测声学特征后，基于预测声学特征和该目标音色数据集对应的真实声学特征的绝对差值对初始音色转换模型进行调整，直至绝对差值处于预设范围内，得到音色转换模型。

S406：基于语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建音色转换网络。

在本申请实施例中，在得到调整后的音色转换模型后，根据语音内容识别模型、语音说话人识别模型、调整后音色转换模型和声码器构建音色转换网络。

在本申请实施例中，利用目标音色数据集对初始音色转换模型做进一步的调整能够将初始音色转换模型的音色转换能力迁移到目标音色数据集中的音色的能力，进而利用语音内容识别模型、语音说话人识别模型、调整后音色转换模型和声码器构建音色转换网络能够在短时间内生成具有更多音色的TTS训练数据。

基于上述本申请实施例公开的预先建立的音色转换网络过程中所涉及的基于第二数据集训练得到初始音色转换模型，参见图5，示出了本申请实施例提供的一种基于第二数据集训练得到初始音色转换模型的方法的流程示意图，具体过程包括以下步骤：

步骤S501：将第二数据集输入语音内容识别模型得到音频对应的语音内容特征矩阵，将第二数据集输入语音说话人识别模型得到音频对应的语音信息特征矩阵。

在具体实现步骤S501的过程中，利用上述训练好的语音内容识别模型对第二数据集中每一句音频进行识别，从而提取每一句音频对应的内容特征矩阵；利用上述训练好的语音说话人识别模型对第二数据集中每一句音频进行识别，从而提取每一句音频的对应的语音信息特征矩阵。

步骤S502：基于分离门卷积层、双向长短时记忆网络和全连接层对语音内容特征矩阵和语音信息特征矩阵进行训练，得到初始音色转换模型。

在具体实现步骤S502的过程中，利用分离门卷积层、双向长短时记忆网络和全连接层对每一句音频对应的语音内容特征矩阵和语音信息特征矩阵进行训练，得到音色转换模型。其中，分离门卷积层、双向长短时记忆网络和全连接层的数量为大于等于1的正整数。

参见图6，示出了本申请实施例提供的一种基于分离门卷积层、双向长短时记忆网络和全连接层对语音内容特征矩阵和语音信息特征矩阵进行训练，得到初始音色转换模型的方法的流程示意图，该方法具体包括以下步骤：

步骤S601：基于分离门卷积层、双向长短时记忆网络和全连接层构建原始音色转换模型。

在具体实现步骤S601的过程中，使用N个分离门卷积层、M个双向长短时记忆网络和1个全连接层搭建原始音色转换模型，如图7所示。

其中，N个分离门卷积层包括分离门卷积层1、分离门卷积层2…分离门卷积层N共N个分离门卷积层；M个双向长短时记忆网络包括双向长短时记忆网络1、双向长短时记忆网络2至双向长短时记忆网络M共M个双向长短时记忆网络。

可选的，若N和M的数值，则音色转换模型识别的计算量也随之增加，但是，当N和M的增大到一定数值后，音色转换模型的转换效果反而呈现下降的趋势。为了音色转换模型能够达到更好的识别转换效果，且确定最佳的计算量，需要对音色转换模型的转换效果和计算量进行多次实验。因此，本申请在经过多次实验后，根据音色转换模型的转换计算量和转换效果，优选的，将N设置为4，M设置为2。对于N和M的设置，也可以根据技术人员的经验进行设置。

步骤S602：将语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵。

在本申请实施例中，分离门卷积层的原理结构图如图8所示，参考图8，将语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵的过程可以为：将该语音内容特征矩阵和语音信息特征矩阵分别进行维度扩充，并将扩充后的矩阵进行合并，得到语音内容特征矩阵和语音信息特征矩阵的组合矩阵；将语音内容特征矩阵和语音信息特征矩阵的组合矩阵输入卷积层，得到第一特征数据；按照卷积层的通道数对第一特征数据进行平均分配得到特征数据集，进而利用线性整流ReLU激活函数对一份的特征数据集进行激活，利用非线性Sigmoid激活函数对另一份的特征数据集进行激活；并计算两个激活后的特征数据集的乘积，得到初始特征矩阵；通过残差连接卷积层对语音内容特征矩阵和语音信息特征矩阵计算得到第二特征数据，进而基于第二特征数据对初始特征矩阵进行非线性组合，得到第一特征矩阵。

需要说明的是，残差连接卷积层是卷积核为1的卷积，该残差连接卷积层对应的通道数可为C，因此残差连接卷积层的大小为1*1*C。卷积层是卷积核为K的卷积，该卷积层的对应的通道数可为2*C，因此卷积层的大小为K*K*2C。其中，K可设置为5，C可设置为256。

步骤S603：利用双向长短时记忆网络对第一特征矩阵进行训练，得到的第二特征矩阵。

在具体实现步骤S603的过程中，将分离门卷积层输出的数据输入的M个双向长短时记忆网络中的第一个双向长短时记忆网络进行训练，并将训练后的第一特征矩阵输入下一双向长短时记忆网络，直至第M个双向长短时记忆网络对上一个双向长短时记忆网络输出的训练后的第一特征矩阵进行训练，得到第二特征矩阵。其中，双向长短时记忆网络属于神经网络模型。

在本申请实施例中，双向长短时记忆网络能够为输出层输入序列中每个结点完整的过去和未来的上下文信息。

步骤S604：全连接层对第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征。

在具体实现步骤S604的过程中，全连接层对经过分离门卷积层和双向长短时记忆网络的每一句音频进行训练后得到的第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征。

需要说明的是，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。

步骤S605：计算预测的目标人音色的声学特征与目标声学特征的绝对差值。

为了更好的监督音色转换模型的识别效果，需要通过目标人音色的声学特征与目标声学特征的绝对差值来监督音色转换模型的识别效果，在具体实现步骤S605的过程中，将预测的目标人音色的声学特征与目标声学特征进行计算，确定预测的目标人音色的声学特征与目标声学特征的绝对差值，即预测的目标人音色的损失函数。其中，目标声学特征是将第二数据集输入声码器模型进行识别得到的。

步骤S606：判断预测的目标人音色的声学特征与目标声学特征的绝对差值是否在预设范围内。若绝对差值在预设范围内，则执行步骤S607，若绝对差值在预设范围之外，则执行步骤S608。

在具体实现步骤S606的过程中，确定损失函数是否在预设范围内。若绝对差值在预设范围内，则执行步骤S607，若绝对差值在预设范围之外，则执行步骤S608。

步骤S607：确定当前的音色转换模型为初始音色转换模型。

在具体实现步骤S607的过程中，说明此时初始音色转换模型的识别效果最好，因此确定当前的原始音色转换模型为初始音色转换模型。

步骤S608：对绝对差值进行迭代计算，直至绝对差值处于预设范围内，得到训练完成的初始音色转换模型。

在本申请实施例中，通过观察在训练过程中的监测指标，即损失函数来判断当前音色转换模型处于什么样的状态，通过超参数来调整损失函数，使得损失函数收敛到最小值，进而使音色转换模型处于识别效果最好的状态。

其中，超参数包括学习率、训练批次大小batch_size和迭代次数。

需要说明的是，学习率用于表示更新音色转换模型的权重的幅度大小。学习率过大会导致音色转换模型不收敛；学习率过小会导致音色转换模型收敛速度偏慢，需要更长的时间训练。因此，本申请实施例将学习率预先设置为0.0003。

训练批次大小BATCH_SIZE是每一次训练音色转换模型所需要的语音内容特征矩阵和语音信息特征矩阵。在卷积神经网络中，训练批次能使音色转换模型更快收敛，以达到识别效果更好的音色转换模型。因此，本申请实施例常将训练批次大小设置为32。

迭代次数是指整个训练批次大小输入到音色转换模型进行训练的次数，当预测的目标人音色的声学特征与目标声学特征的绝对值相差较小时，能够使损失函数收敛到最小值，此时音色转换模型的识别效果最好。因此，本申请实施例常将迭代次数设置为1000000。

在具体实现步骤S608的过程中，采用时刻估计算法ADAM，基于学习率对训练批次大小batch_size的语音内容特征矩阵语音信息特征矩阵进行训练，并将训练后的训练批次大小batch_size的语音内容特征矩阵语音信息特征矩阵输入原始音色转换模型进行迭代训练，以确定损失函数是否收敛到最小值，若否，则继续将训练后的训练批次大小batch_size的语音内容特征矩阵语音信息特征矩阵输入原始音色转换模型进行迭代训练，以使得损失函数收敛到最小值，即绝对差值处于预设范围内，得到训练完成音色转换模型，即得到初始音色转换模型。

基于上述本申请实施例公开的语音合成训练数据的生成方法中所涉及的预先建立的音色转换网络，参见图9，示出了本申请实施例提供的另一种预先建立音色转换网络的方法的流程示意图。预先建立的音色转换网络的建立过程具体包括以下步骤：

S901：获取预先建立的初始音色转换网络和目标音色数据集。

S902：将目标音色数据集输入语音内容识别模型得到目标音色数据集对应的目标语音内容特征矩阵。

S903：将目标音色数据集输入语音说话人识别模型得到目标音色数据集对应的目标语音信息特征矩阵。

S904：将目标语音内容特征矩阵和目标语音信息特征矩阵作为初始音色转换模型的输入，输出目标音色数据集的预测声学特征。

S905：基于预测声学特征和目标音色数据集对应的真实声学特征的绝对差值对初始音色转换模型进行调整，直至绝对差值处于预设范围内，得到音色转换模型。

在具体执行步骤S901至步骤S905的过程中，步骤S901至步骤S905的具体执行过程和实现原理与上述本申请公开的图4的步骤S401至步骤S405的具体执行过程和实现原理相同，可参见图4中相应的部分，这里不再进行赘述。

S906：利用声码器模型将预测声学特征转换成预测目标音频。

在本申请实施例中，在利用初始音色转换模型对输入该初始音色转换模型的目标语音内容特征矩阵和目标语音信息特征矩阵进行识别处理，得到目标音色数据集的预测声学特征后，可以预测声学特征输入声码器，利用声码器将预测声学特征转换成预测目标音频。

其中，声码器模型可以利用音频的每个时刻的20维声学特征还原回时域音频信号。

S907：利用声码器模型将目标音色数据集对应的真实声学特征转换成真实目标音频。

在本申请实施例中，通过将目标音色数据集对应的真实声学特征输入声码器模型，利用声码器模型将目标音色数据集对应的真实声学特征转换成真实目标音频。

S908：基于预测目标音频和真实目标音频的绝对差值对声码器模型进行调整，直至绝对差值处于预设范围内，得到调整后的声码器模型。

在本申请实施例中，在利用声码器分别对预测声学特征和目标音色数据集对应的真实声学特征进行处理得到目标音频和真实目标音频后，根据预测目标音频和真实目标音频的绝对差值对声码器模型进行调整，直至绝对差值处于预设范围内，得到调整后的声码器模型。

在本申请实施例中，在执行步骤S905至步骤S908的过程中，步骤S905与步骤S906至步骤S908可以同时进行。

S909：基于语音内容识别模型、语音说话人识别模型、音色转换模型和调整后的声码器模型构建音色转换网络。

在本申请实施例中，在得到调整后的声码器后，根据语音内容识别模型、语音说话人识别模型、调整后的音色转换模型和调整后的声码器模型构建音色转换网络。

在本申请实施例中，利用目标音色数据集对声码器做进一步的的调整后，使用调整后的声码器能够转换出质量更高的音频数据，进而利用调整后的音色转换模型、调整后的声码器、语音内容识别模型、语音说话人识别模型构建的音色转换网络，可以在较短时间内得到大量、高质量的指定目标音色的音频数据，不需要因为多个音色重复录制数据，实现在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的目的。

基于上述本申请实施例公开的语音合成训练数据的生成方法中所涉及的预先建立的音色转换网络，参见图10，示出了本申请实施例提供的另一种预先建立音色转换网络的方法的流程示意图，预先建立的音色转换网络的建立过程具体包括以下步骤：

S1001：获取目标音色数据集、第一数据集和第二数据集。

在本申请实施例中，第一数据集可以是开源的语音数据集LibriSpeech，该开源的语音数据集LibriSpeech包括2400多个音色，及总时长1000多小时的高质量语音数据集。第二数据集可以是开源的音频数据集LibriTTS，该开源的音频数据集LibriTTS包含2400多个音色，及音频总时长为500多小时的高质量音频数据集。目标音色数据集可以为包含3个男声3个女声共6个音色的目标音色数据集，每个音色有50句高质量的音频数据。

S1002：将第一数据集和目标音色数据集进行集合得到第三数据集，将第二数据集和目标音色数据集进行集合得到第四数据集。

在本申请实施例中，在获取到目标音色数据集、第一数据集和第二数据集后，将第一数据集和目标音色数据集进行集合得到第三数据集，将第二数据集和目标音色数据集进行集合得到第四数据集。

S1003：基于第三数据集训练得到语音内容识别模型和语音说话人识别模型。

在本申请实施例中，提取第三数据集中每一句语音所表达的音频内容，并按照预设规则分成不同的类别；利用循环神经网络模型来对不同的类别的音频内容进行训练，以得到语音内容识别模型；提取第三数据集中每一句音频的每一音色，并利用循环神经网络模型来对每一音色进行训练，以得到语音说话人识别模。

S1004：基于第四数据集训练得到音色转换模型和声码器模型。

在本申请实施例中，提取第四数据集中每一句语音的20维声学特征；并利用每一句语音的20维声学特征充分训练声码器模型，以得到语音内容识别模型；通过训练好的语音内容识别模型和语音说话人识别模型对第四数据集进行处理，得到每一句音频的对应的内容特征矩阵和语音信息特征矩阵。再通过每一句音频的对应的内容特征矩阵和语音信息特征矩阵训练得到音色转换模型。其中，基于第四训练集得到音色转换模型的具体过程可参见图5示出的一种基于第二数据集训练得到初始音色转换模型的过程，这里不再进行赘述。

S1005：基于语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建音色转换网络。

在本申请实施例中，在基于第三数据集训练得到语音内容识别模型和语音说话人识别模型和基于第四数据集训练得到音色转换模型和声码器模型后，基于语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建音色转换网络。

在本申请实施例中，通过将第一数据集和所述目标音色数据集进行集合得到第三数据集，将第二数据集和目标音色数据集进行集合得到第四数据集，以便利用基于第三数据集训练得到语音内容识别模型和语音说话人识别模型以及基于第四数据集训练得到音色转换模型和声码器模型构建的音色转换网络，对原始训练数据进行音频转换，输出转换成指定目标音色的音频数据。在本方案中，利用加入目标音色数据集进行训练的音色转换网络可以在较短时间内得到大量、高质量的指定目标音色的音频数据，不需要因为多个音色重复录制数据，实现在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的目的。

与上述本申请实施例公开的语音合成训练数据的生成方法相对应，本申请实施例还对应公开了一种语音合成训练数据的生成装置的结构示意图，如图11所示，生成装置包括：

获取单元111，用于获取原始训练数据，并确定原始训练数据的语音类型所对应的预先建立的音色转换网络；由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型预先建立的音色转换网络，其中，音色转换模型基于目标音色数据集进行训练调整得到；

语音内容识别模型112，用于对输入的原始训练数据进行处理，输出内容特征矩阵；

语音说话人识别模型113，用于对输入的指定目标音色进行处理，输出说话人信息特征矩阵；

音色转换模型114，用于对输入的内容特征矩阵和说话人信息特征矩阵进行音色转换，输出指定目标音色的声学特征；

声码器模型115，用于对输入的指定目标音色的声学特征进行音频转换，输出转换成指定目标音色的音频数据，并将音频数据作为语音合成TTS训练数据，音频数据具有与原始训练数据相同的拼音标注和韵律标注。

需要说明的是，上述本申请实施例公开的语音合成训练数据的生成装置中的各个单元具体的原理和执行过程，与上述本申请实施示出的语音合成训练数据的生成方法相同，可参见上述本申请实施例公开的语音合成训练数据的生成方法中相应的部分，这里不再进行赘述。

优选的，获取单元，包括：

获取子单元，用于获取原始训练数据，并确定原始训练数据的语音类型；

第一确定单元，用于若原始训练数据的语音类型为中文，确定预先建立的用于生成中文语音合成TTS训练数据的中文音色转换网络；

第二确定单元，用于若原始训练数据的语音类型为外文，确定预先建立的用于生成外文语音合成TTS训练数据的外文音色转换网络。

进一步的，本申请实施例提供的语音合成训练数据的生成装置，还包括：第一构建单元；

第一构建单元，包括：

初始音色转换网络构建模块，用于基于第一数据集训练得到的语音内容识别模型和语音说话人识别模型，以及基于第二数据集训练得到的初始音色转换模型和声码器模型，并基于语音内容识别模型、语音说话人识别模型、初始音色转换模型和声码器模型构建初始音色转换网络；

第一调整模块，用于获取目标音色数据集，并将目标音色数据集分别输入语音内容识别模型和语音说话人识别模型，得到目标音色数据集对应的目标语音内容特征矩阵和目标语音信息特征矩阵，将目标语音内容特征矩阵和目标语音信息特征矩阵作为初始音色转换模型的输入，输出目标音色数据集的预测声学特征，基于预测声学特征和目标音色数据集对应的真实声学特征的绝对差值对初始音色转换模型进行调整，直至绝对差值处于预设范围内，得到音色转换模型；

第一构建模块，用于基于语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建音色转换网络。

进一步的，本申请实施例提供的语音合成训练数据的生成装置，还包括：

目标音频转换单元，用于利用声码器模型将预测声学特征转换成预测目标音频；

真实目标音频转换单元，用于利用声码器模型将目标音色数据集对应的真实声学特征转换成真实目标音频；

第二调整模块，用于基于预测目标音频和真实目标音频的绝对差值对声码器模型进行调整，直至绝对差值处于预设范围内，得到调整后的声码器模型；

第一构建模块，还用于基于语音内容识别模型、语音说话人识别模型、音色转换模型和调整后的声码器模型构建音色转换网络。

进一步的，本申请实施例提供的语音合成训练数据的生成装置，还包括：第二构建单元；

第二构建单元，包括：

获取模块，用于获取目标音色数据集、第一数据集和第二数据集；将第一数据集和目标音色数据集进行集合得到第三数据集，将第二数据集和目标音色数据集进行集合得到第四数据集；

第二构建模块，用于基于第三数据集训练得到语音内容识别模型和语音说话人识别模型；基于第四数据集训练得到音色转换模型和声码器模型；基于语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建音色转换网络。

本申请实施例提供了一种电子设备，电子设备包括处理器和存储器，存储器用于存储语音音色转换的程序代码和数据，处理器用于调用存储器中的程序指令执行实现如上述实施例中语音合成训练数据的生成方法所示的步骤。

本申请实施例提供了一种存储介质，存储介质包括存储程序，其中，在程序运行时控制存储介质所在设备执行上述实施例示出的语音合成训练数据的生成方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音合成训练数据的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取原始训练数据，并确定所述原始训练数据的语音类型所对应的预先建立的音色转换网络，包括：

获取原始训练数据，并确定所述原始训练数据的语音类型；

3.根据权利要求1或2所述的方法，其特征在于，所述预先建立的音色转换网络的建立过程包括：

4.根据权利要求3所述的方法，其特征在于，所述输出所述目标音色数据集的预测声学特征之后，还包括：

5.根据权利要求1或2所述的方法，其特征在于，所述预先建立的音色转换网络的建立过程包括：

获取目标音色数据集、第一数据集和第二数据集；

基于所述第四数据集训练得到音色转换模型和声码器模型；

6.一种语音合成训练数据的生成装置，其特征在于，所述生成装置包括：

7.根据权利要求6所述的装置，其特征在于，还包括：第一构建单元；

所述第一构建单元，包括：

8.根据权利要求6所述的装置，其特征在于，还包括：第二构建单元；

所述第二构建单元，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储生成TTS训练数据的程序代码和数据，所述处理器用于调用所述存储器中的程序指令执行如权利要求1-5中任一所述的一种语音合成训练数据的生成方法。

10.一种存储介质，其特征在于，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一所述的一种语音合成训练数据的生成方法。