CN111627418A

CN111627418A - 语音合成模型的训练方法、合成方法、系统、设备和介质

Info

Publication number: CN111627418A
Application number: CN202010463946.7A
Authority: CN
Inventors: 周明康; 罗超; 吉聪睿; 李巍; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-04
Anticipated expiration: 2040-05-27
Also published as: CN111627418B

Abstract

本发明公开了一种语音合成模型的训练方法、合成方法、系统、设备和介质，该训练方法包括：获取若干个历史文本信息及其历史语音信息；获取历史文本信息的历史文本向量；基于CNN网络和双向LSTM网络构建初始声学模型；基于历史文本向量及其历史语音信息的第一梅尔谱，对初始声学模型进行模型训练以得到目标声学模型；基于第二梅尔谱以及历史语音信息，对预设神经网络模型进行模型训练以得到目标声码器模型。本发明中通过基于CNN网络、双向LSTM网络以及线性层搭建声学模型，基于生成式对抗网络GAN构建声码器模型，实现在保证语音合成质量的同时，大大地提升了语音合成速度，从而能够满足电商平台对大量外呼的需求。

Description

语音合成模型的训练方法、合成方法、系统、设备和介质

技术领域

本发明涉及语音处理技术领域，特别涉及一种语音合成模型的训练方法、合成方法、系统、设备和介质。

背景技术

对于电商服务平台，每天都需要外呼大量的电话给酒店和客户，为了节省人力成本，现有主要通过语音合成技术实现对酒店和客户的智能外呼。

目前主要基于拼接法实现语音合成，该拼接法是基于预先录制好大量的语音，然后根据需要合成的文本选择所需的基本单位的语音进行拼接以合成语音，该方法虽然合成的语音质量较高，但是需要录制的音频数据量巨大，成本很高。另外，现有的语音合成系统合成的语音速度较慢，无法满足电商平台每天大量的订单呼叫要求。

发明内容

本发明要解决的技术问题是为了克服现有技术中语音合成技术成本较高、合成速度较慢，无法满足实际的订单呼叫要求的缺陷，目的在于提供一种语音合成模型的训练方法、合成方法、系统、设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种语音合成模型的训练方法，所述训练方法包括：

获取若干个历史文本信息以及所述历史文本信息对应的历史语音信息；

获取每个所述历史文本信息对应的历史文本向量；

基于CNN网络(卷积神经网络)和双向LSTM网络(长短期记忆人工神经网络)构建初始声学模型；

基于所述历史文本向量以及所述历史文本向量对应的所述历史语音信息的第一梅尔谱，对所述初始声学模型进行模型训练以得到目标声学模型；

其中，所述目标声学模型用于输出每个所述历史文本信息对应的第二梅尔谱；

基于所述第二梅尔谱以及所述历史语音信息，对预设神经网络模型进行模型训练以得到目标声码器模型；

其中，所述语音合成模型包括所述目标声学模型和所述目标声码器模型。

较佳地，所述基于CNN网络和双向LSTM网络构建初始声学模型的步骤包括：

通过第一CNN网络、第二CNN网络、第一双向LSTM网络和第二双向LSTM网络依次连接以形成所述初始声学模型的编码器结构；

通过第三CNN网络、第三双向LSTM网络、第四双向LSTM网络、第五双向LSTM网络和线性层依次连接以形成所述初始声学模型的解码器结构；

其中，所述第二双向LSTM网络的输出与所述第三双向LSTM网络的输入连接；

所述第一CNN网络用于输入所述历史文本向量；

所述第三CNN网络用于输入所述历史语音信息的所述第一梅尔谱；

所述线性层用于输出每个所述历史文本信息对应的所述第二梅尔谱。

较佳地，所述基于所述第二梅尔谱以及所述历史语音信息，对预设神经网络模型进行模型训练以得到目标声码器模型的步骤包括：

基于生成式对抗网络构建初始声码器模型；

其中，所述初始声码器模型包括生成模型和判别模型；

采用所述生成模型将所述第二梅尔谱转换为预测语音信息；

采用所述判别模型计算得到同一所述历史文本信息对应的所述预测语音信息相对于所述历史语音信息的损失度，并在所述损失度不满足预设条件时进行迭代处理，直至所述损失度满足所述预设条件以得到所述目标声码器模型。

较佳地，所述生成模型包括多个依次连接第一全卷积网络结构；

所述判别模型包括多个依次连接第二全卷积网络结构；

其中，所述第一全卷积网络结构和所述第二全卷积网络结构均包括多个CNN网络。

较佳地，所述获取每个所述历史文本信息对应的历史文本向量的步骤包括：

对所述历史文本信息进行预处理；

对预处理后的所述历史文本信息进行分词处理，获取多个分词；

获取每个所述分词中每个文字的音节信息和声调信息；

对所述音节信息和所述声调信息进行转换处理以得到对应的数字序列；

通过embedding层(嵌入层)将每个所述历史文本信息对应的所述数字序列转换成对应的所述历史文本向量。

本发明还提供一种语音合成方法，所述语音合成方法采用上述的语音合成模型的训练方法实现，所述语音合成方法包括：

获取目标文本信息；

根据所述目标文本信息生成目标文本向量；

将所述目标文本向量输入至所述语音合成模型中的所述目标声学模型，通过所述目标声学模型根据输入的所述目标文本向量输出目标梅尔谱并传递至所述目标声码器模型；

通过所述目标声码器模型将所述目标梅尔谱转换得到所述目标文本信息对应的目标语音合成信息。

本发明还提供一种语音合成模型的训练系统，所述训练系统包括：

历史信息获取模块，用于获取若干个历史文本信息以及所述历史文本信息对应的历史语音信息；

历史向量获取模块，用于获取每个所述历史文本信息对应的历史文本向量；

第一模型构建模块，用于基于CNN网络和双向LSTM网络构建初始声学模型；

声学模型获取模块，用于基于所述历史文本向量以及所述历史文本向量对应的所述历史语音信息的第一梅尔谱，对所述初始声学模型进行模型训练以得到目标声学模型；

声码器模型获取模块，用于基于所述第二梅尔谱以及所述历史语音信息，对预设神经网络模型进行模型训练以得到目标声码器模型；

较佳地，所述第一模型构建模块包括：

编码器结构构建单元，用于通过第一CNN网络、第二CNN网络、第一双向LSTM网络和第二双向LSTM网络依次连接以形成所述初始声学模型的编码器结构；

解码器结构构建单元，用于通过第三CNN网络、第三双向LSTM网络、第四双向LSTM网络、第五双向LSTM网络和线性层依次连接以形成所述初始声学模型的解码器结构；

所述第一CNN网络用于输入所述历史文本向量；

较佳地，所述声码器模型获取模块包括：

模型构建单元，用于基于生成式对抗网络构建初始声码器模型；

其中，所述初始声码器模型包括生成模型和判别模型；

预测语音获取单元，用于采用所述生成模型将所述第二梅尔谱转换为预测语音信息；

目标声码器模型获取单元，用于采用所述判别模型计算得到同一所述历史文本信息对应的所述预测语音信息相对于所述历史语音信息的损失度，并在所述损失度不满足预设条件时进行迭代处理，直至所述损失度满足所述预设条件以得到所述目标声码器模型。

所述判别模型包括多个依次连接第二全卷积网络结构；

较佳地，所述历史向量获取模块包括：

预处理单元，用于对所述历史文本信息进行预处理；

分词处理单元，用于对预处理后的所述历史文本信息进行分词处理，获取多个分词；

信息获取单元，用于获取每个所述分词中每个文字的音节信息和声调信息；

数字序列获取单元，用于对所述音节信息和所述声调信息进行转换处理以得到对应的数字序列；

历史向量获取单元，用于通过embedding层将每个所述历史文本信息对应的所述数字序列转换成对应的所述历史文本向量。

本发明还提供一种语音合成系统，所述语音合成系统采用上述的语音合成模型的训练系统实现；

当所述目标声码器模型包括生成模型时，所述语音合成系统包括：

目标信息获取模块，用于获取目标文本信息；

目标向量生成模型，用于根据所述目标文本信息生成目标文本向量；

目标梅尔谱获取模块，用于将所述目标文本向量输入至所述语音合成模型中的所述目标声学模型，通过所述目标声学模型根据输入的所述目标文本向量输出目标梅尔谱并传递至所述目标声码器模型；

目标语音获取模块，用于通过所述目标声码器模型中的所述生成模型将所述目标梅尔谱转换得到所述目标文本信息对应的目标语音合成信息。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现上述的语音合成模型的训练方法，和/或，实现上述的语音合成方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音合成模型的训练方法的步骤，和/或，实现上述的语音合成方法的步骤。

本发明的积极进步效果在于：

本发明中，基于CNN网络、双向LSTM网络以及线性层(即全连接层)搭建声学模型，形成encoder-decoder(编码器-译码器)的网络结构，其中encoder结构中采用两层CNN网络和两层双向LSTM网络；decoder结构中采用一层CNN网络和三层双向LSTM网络，在最后一层双向LSTM网络后连接线性层以生成指定维度的梅尔谱，即摒弃了传统的残差连接结构，在简化了网络结构的同时，提升了数据处理速率；另外，基于生成式对抗网络GAN构建声码器模型，在保证语音合成质量的同时，大大地提升了语音合成速度，从而能够满足电商平台对大量外呼的需求。

附图说明

图1为本发明的实施例1的语音合成模型的训练方法的流程图。

图2为本发明的实施例2的语音合成模型的训练方法的流程图。

图3为本发明的实施例2的语音合成模型中声学模型的网络结构示意图。

图4为本发明的实施例2的声码器模型中生成模型的网络结构示意图。

图5为本发明的实施例2的声码器模型中判别模型的网络结构示意图。

图6为本发明的实施例3的语音合成方法的流程图。

图7为本发明的实施例4的语音合成模型的训练系统的模块示意图。

图8为本发明的实施例5的语音合成模型的训练系统的模块示意图。

图9为本发明的实施例6的语音合成系统的模块示意图。

图10为本发明实施例7中的实现语音合成模型的训练方法的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例的语音合成模型的训练方法包括：

S101、获取若干个历史文本信息以及历史文本信息对应的历史语音信息；

其中，历史文本信息从电商平台的酒店客服以及酒店商家的通话记录中统计得到；历史文本信息对应的历史语音信息(历史音频文件)为专门的人工客服在录音棚中录制得到。例如，总共录制了10000条16KHz的历史音频文件，音频总时长约10小时，每条音频对应的文本由专门的人工进行核对。

S102、获取每个历史文本信息对应的历史文本向量；

S103、基于CNN网络和双向LSTM网络构建初始声学模型；

S104、基于历史文本向量以及历史文本向量对应的历史语音信息的第一梅尔谱，对初始声学模型进行模型训练以得到目标声学模型；

其中，目标声学模型用于输出每个历史文本信息对应的第二梅尔谱；

S105、基于第二梅尔谱以及历史语音信息，对预设神经网络模型进行模型训练以得到目标声码器模型；

其中，语音合成模型包括目标声学模型和目标声码器模型。

本实施例中，基于CNN网络和双向LSTM网络搭建声学模型，形成encoder-decoder的网络结构；同时对预设神经网络模型进行模型训练以获取目标声码器模型，摒弃了传统的残差连接结构，在简化了网络结构以及保证语音合成质量的同时，大大地提升了语音合成速度，从而能够满足电商平台对大量外呼的需求。

实施例2

如图2所示，本实施例的语音合成模型的训练方法是对实施例1的进一步改进，具体地：

步骤S102包括：

S1021、对历史文本信息进行预处理；

预处理操作包括去除历史文本信息中的乱码及非标准标点符号、将中文标点转为英文标点；考虑到数字在不同的场景中发音不同，因此根据匹配统计的关键词替换数字为不同的汉字；其中，不同场景的数字转换规则不一致，例如：“房价为318元”应转为“房价为三百一十八元”，“房间号318”应转为“房间号三一八”。

S1022、对预处理后的历史文本信息进行分词处理，获取多个分词；

S1023、获取每个分词中每个文字的音节信息和声调信息；

其中，可以采用正则表达式对历史文本信息进行分词处理，当然也可以采用其他能够实现对历史文本信息进行分词的方式。

例如，历史文本信息为“你好我是携程平台的会员”，经过分词处理获取“你好”、“我”、“是”、“携程”、“平台”、“的”、“会员”；以“你好”为例，“你好”对应的拼音为“ni3hao3”，音节信息为“ni”对应的声调信息“3”，音节信息为“hao”对应的声调信息“3”。数字3表示声调为上声，其他声调依次类推就不再赘述。

S1024、对音节信息和声调信息进行转换处理以得到对应的数字序列；

S1025、通过embedding层将每个历史文本信息对应的数字序列转换成对应的历史文本向量。

通过事先建立不同的音素(包括音节、声调、标点等)对应的数字标识信息，得到对应的字典索引，即基于该字典索引能够将每个历史文本信息转换为一个数字序列，然后通过一个embedding层将数字序列转换为后续声学模型能够处理的文本向量。

步骤S103包括：

S1031、通过第一CNN网络、第二CNN网络、第一双向LSTM网络和第二双向LSTM网络依次连接以形成初始声学模型的编码器结构；

S1032、通过第三CNN网络、第三双向LSTM网络、第四双向LSTM网络、第五双向LSTM网络和线性层依次连接以形成初始声学模型的解码器结构；

其中，第二双向LSTM网络的输出与第三双向LSTM网络的输入连接；

第一CNN网络用于输入历史文本向量；

第三CNN网络用于输入历史语音信息的第一梅尔谱；

线性层用于输出每个历史文本信息对应的第二梅尔谱。

具体如图3所示，虚框A对应编码器encoder结构，虚框B对应解码器decoder结构，C对应历史语音信息的第一梅尔谱，D对应目标声学模型输出的第二梅尔谱。

在编码器结构和解码器结构中加入Attention注意力机制，用于学习文本单词之间的相关性。另外，在每两个网络之间使用ReLU激活函数进行非线性激活。

encoder结构中采用两层CNN网络和两层双向LSTM网络；decoder结构中采用1层CNN网络和三层双向LSTM网络，在最后一层双向LSTM网络后连接线性层以生成指定维度的梅尔谱(如160维)，即本实施例设计的网络中去除了传统的残差连接结构，卷积层只使用了256维度，LSTM隐状态使用128维。

步骤S105包括：

S1051、基于生成式对抗网络构建初始声码器模型；

其中，初始声码器模型包括生成模型和判别模型；

生成模型采用全卷积的网络结构，生成模型包括多个依次连接第一全卷积网络结构；

判别模型包括多个依次连接第二全卷积网络结构；

其中，第一全卷积网络结构和第二全卷积网络结构均包括多个CNN网络。

优选地，生成模型包括三组第一全卷积网络结构，判别模型包括三组第二全卷积网络结构。

具体如图4所示，E表示生成模型中的第一全卷积网络结构；D对应目标声学模型输出的第二梅尔谱，G为生成模型输出的预测合成语音的图谱；如图5所示，F表示判别模型中的第二全卷积网络结构，G为生成模型输出的预测合成语音的图谱。生成模型采用全卷积的网络结构，卷积操作可以在GPU(图形处理器)上并行计算，并且接收任意长度的输入，输出任意长度；判别模型采用分组卷积，使用不同大小的核函数，这样也减少了模型参数。

S1052、采用生成模型将第二梅尔谱转换为预测语音信息；

S1053、采用判别模型计算得到同一历史文本信息对应的预测语音信息相对于历史语音信息的损失度，并在损失度不满足预设条件时进行迭代处理，直至损失度满足预设条件以得到目标声码器模型。

即基于生成式对抗网络的思想，设计了生成器和判别器，生成器用于将梅尔谱转为音频，判别器用于判断转成的音频是否符合要求，采用这种生成对抗的思想对生成模型进行不断优化，直至生成符合要求的音频。生成器和判别器均有基于CNN网络搭建，是全卷积网络模型结果，可以接受任意长度的梅尔谱输入，输出任意长度的音频，即不受梅尔谱输入的长度以及输出的长度的限制，能够满足更高的实际使用需求。

本实施例中，声学模型和声码器模型需要分别单独训练。

对于构建的声学模型，使用英伟达生产的V1001 GPU进行训练，batchsize(批量大小)设置为48，合成的梅尔谱采用160维。在训练时，在声学模型的编码器结构中输入前端处理的文本向量，解码器结构的输入不仅包括编码器结构的输出，还包括用于训练专门录制的历史语音信息(即真实的音频)对应的梅尔谱。因为解码器结构是一个自回归网络，当前的预测结果会依赖于之前的预测结果，在训练过程中，若模型未收敛则预测结果比较差，因此对后续的预测结果产生了很大的影响，导致模型比较难训练；当输入真实音频对应的梅尔谱时可以加速模型收敛的速度。模型迭代训练十万次后，开始在验证集上进行测试，每迭代一万次进行测试一次，观察loss(损失度)的下降趋势，并且查看文本信息和梅尔谱的对齐效果。例如，当总共训练了40万次，loss基本不再下降，文本和梅尔谱完美的对齐，则确定模型收敛，达到预期效果，此时获取到目标声学模型。另外，在实际预测时，解码器结构的输入仅包括编码器结构的输出。

对于构建的声码器模型，在训练时，声码器模型使用声学模型生成的梅尔谱和真实音频进行训练，其中梅尔谱作为生成器(生成模型)的输入，经过生成器合成音频；将生成器合成的音频和真实的音频一起送入判别器(判别模型)，让判别器判断真实音频和合成音频以计算得到loss，并在loss不满足预设条件时不断迭代更新，直至生成器合成的音频和真实音频基本一样，判别器无法判别。另外，在实际预测时，只用生成器将梅尔谱合成音频即可。

基于构建的目标声学模型将输入的文本向量合成出对应的梅尔谱，基于目标声码器模型中搭建的全卷积生成器将梅尔谱转换为合成的音频，实现最终合成的音频接近人声，有效地提高了语音合成的质量，同时合成速度为现有的语音合成速度的2倍，缓解了电商平台大量外呼的需求的压力，同时及时配合用户，提升了用户的使用体验。

本实施例中，基于CNN网络和双向LSTM网络搭建声学模型，形成encoder-decoder的网络结构；同时对预设神经网络模型进行模型训练以获取目标声码器模型，摒弃了传统的残差连接结构，在简化了网络结构的同时，提升了数据处理速率；另外，基于生成式对抗网络GAN构建声码器模型，在保证语音合成质量的同时，大大地提升了语音合成速度，从而能够满足电商平台对大量外呼的需求。

实施例3

本实施例的语音合成方法采用实施例1或2中的语音合成模型的训练方法实现。

如图6所示，当目标声码器模型包括生成模型时，本实施例的语音合成方法包括：

S201、获取目标文本信息；

S202、根据目标文本信息生成目标文本向量；

S203、将目标文本向量输入至语音合成模型中的目标声学模型，通过目标声学模型根据输入的目标文本向量输出目标梅尔谱并传递至目标声码器模型；

S204、通过目标声码器模型中的生成模型将目标梅尔谱转换得到目标文本信息对应的目标语音合成信息。

本实施例中，基于训练得到的语音合成模型及时且准确地获取目标文本信息对应的目标语音合成信息，在保证语音合成质量的同时，大大地提升了语音合成速度，从而能够满足电商平台对大量外呼的需求。

实施例4

如图7所示，本实施例的语音合成模型的训练系统包括历史信息获取模块1、历史向量获取模块2、第一模型构建模块3、声学模型获取模块4和声码器模型获取模块5。

历史信息获取模块1用于获取若干个历史文本信息以及历史文本信息对应的历史语音信息。

历史向量获取模块2用于获取每个历史文本信息对应的历史文本向量；

第一模型构建模块3用于基于CNN网络和双向LSTM网络构建初始声学模型；

声学模型获取模块4用于基于历史文本向量以及历史文本向量对应的历史语音信息的第一梅尔谱，对初始声学模型进行模型训练以得到目标声学模型；

声码器模型获取模块5用于基于第二梅尔谱以及历史语音信息，对预设神经网络模型进行模型训练以得到目标声码器模型；

其中，语音合成模型包括目标声学模型和目标声码器模型。

实施例5

如图8所示，本实施例的语音合成模型的训练系统是对实施例4的进一步改进，具体地：

历史向量获取模块2包括预处理单元6、分词处理单元7、信息获取单元8、数字序列获取单元9和历史向量获取单元10。

预处理单元6，用于对历史文本信息进行预处理；

分词处理单元7用于对预处理后的历史文本信息进行分词处理，获取多个分词；

信息获取单元8用于获取每个分词中每个文字的音节信息和声调信息；

例如，历史文本信息为“你好我是携程平台的会员”，经过分词处理获取“你好”、“我”、“是”、“携程”、“平台”、“的”、“会员”；以“你好”为例，“你好”对应的拼音为“ni3hao3”，音节信息为“ni”对应的声调信息“3”，音节信息为“hao”对应的声调信息“3”。数字3表示声调为上声。

数字序列获取单元9用于对音节信息和声调信息进行转换处理以得到对应的数字序列；

历史向量获取单元10用于通过embedding层将每个历史文本信息对应的数字序列转换成对应的历史文本向量。

第一模型构建模块3包括编码器结构构建单元11和解码器结构构建单元12。编码器结构构建单元11，用于通过第一CNN网络、第二CNN网络、第一双向LSTM网络和第二双向LSTM网络依次连接以形成初始声学模型的编码器结构；

解码器结构构建单元12，用于通过第三CNN网络、第三双向LSTM网络、第四双向LSTM网络、第五双向LSTM网络和线性层依次连接以形成初始声学模型的解码器结构；

第一CNN网络用于输入历史文本向量；

第三CNN网络用于输入历史语音信息的第一梅尔谱；

线性层用于输出每个历史文本信息对应的第二梅尔谱。

声码器模型获取模块5包括模型构建单元13、预测语音获取单元14和声码器模型获取单元15。

模型构建单元13用于基于生成式对抗网络构建初始声码器模型；

其中，初始声码器模型包括生成模型和判别模型；

判别模型包括多个依次连接第二全卷积网络结构；

具体如图4所示，E表示生成模型中的第一全卷积网络结构；D对应目标声学模型输出的第二梅尔谱，G为生成模型输出的预测合成语音的图谱；如图5所示，F表示判别模型中的第二全卷积网络结构，G为生成模型输出的预测合成语音的图谱。生成模型采用全卷积的网络结构，卷积操作可以在GPU上并行计算，并且接收任意长度的输入，输出任意长度；判别模型采用分组卷积，使用不同大小的核函数，这样也减少了模型参数。

预测语音获取单元14用于采用生成模型将第二梅尔谱转换为预测语音信息；

声码器模型获取单元15用于采用判别模型计算得到同一历史文本信息对应的预测语音信息相对于历史语音信息的损失度，并在损失度不满足预设条件时进行迭代处理，直至损失度满足预设条件以得到目标声码器模型。

实施例6

本实施例的语音合成系统采用实施例4或5中的语音合成模型的训练系统实现。

如图9所示，当目标声码器模型包括生成模型时，本实施例的语音合成系统包括目标信息获取模块16、目标向量生成模型17、目标梅尔谱获取模块18和目标语音获取模块19。

目标信息获取模块16，用于获取目标文本信息；

目标向量生成模型17，用于根据目标文本信息生成目标文本向量；

目标梅尔谱获取模块18，用于将目标文本向量输入至语音合成模型中的目标声学模型，通过目标声学模型根据输入的目标文本向量输出目标梅尔谱并传递至目标声码器模型；

目标语音获取模块19，用于通过目标声码器模型将目标梅尔谱转换得到目标文本信息对应的目标语音合成信息。

实施例7

图10为本发明实施例7提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例1或2中任意一实施例中的语音合成模型的训练方法。图10显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或2中任意一实施例中的语音合成模型的训练方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例8

本发明实施例8提供了一种电子设备，电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例3中的语音合成方法，该电子设备的具体结构参照实施例7中的电子设备，其工作原理与实施例7中的电子设备的工作原理基本一致，在此不再赘述。

实施例9

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1或2中任意一实施例中的语音合成模型的训练方法中的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1或2中任意一实施例中的语音合成模型的训练方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

实施例10

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例3中的语音合成方法中的步骤。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例3中的语音合成方法中的步骤。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种语音合成模型的训练方法，其特征在于，所述训练方法包括：

获取每个所述历史文本信息对应的历史文本向量；

基于CNN网络和双向LSTM网络构建初始声学模型；

2.如权利要求1所述的语音合成模型的训练方法，其特征在于，所述基于CNN网络和双向LSTM网络构建初始声学模型的步骤包括：

所述第一CNN网络用于输入所述历史文本向量；

3.如权利要求1所述的语音合成模型的训练方法，其特征在于，所述基于所述第二梅尔谱以及所述历史语音信息，对预设神经网络模型进行模型训练以得到目标声码器模型的步骤包括：

基于生成式对抗网络构建初始声码器模型；

其中，所述初始声码器模型包括生成模型和判别模型；

采用所述生成模型将所述第二梅尔谱转换为预测语音信息；

4.如权利要求3所述的语音合成模型的训练方法，其特征在于，所述生成模型包括多个依次连接第一全卷积网络结构；

所述判别模型包括多个依次连接第二全卷积网络结构；

5.如权利要求1所述的语音合成模型的训练方法，其特征在于，所述获取每个所述历史文本信息对应的历史文本向量的步骤包括：

对所述历史文本信息进行预处理；

获取每个所述分词中每个文字的音节信息和声调信息；

通过embedding层将每个所述历史文本信息对应的所述数字序列转换成对应的所述历史文本向量。

6.一种语音合成方法，其特征在于，所述语音合成方法采用权利要求1-5中任意一项所述的语音合成模型的训练方法实现，所述语音合成方法包括：

获取目标文本信息；

根据所述目标文本信息生成目标文本向量；

7.一种语音合成模型的训练系统，其特征在于，所述训练系统包括：

8.如权利要求7所述的语音合成模型的训练系统，其特征在于，所述第一模型构建模块包括：

所述第一CNN网络用于输入所述历史文本向量；

9.如权利要求7所述的语音合成模型的训练系统，其特征在于，所述声码器模型获取模块包括：

其中，所述初始声码器模型包括生成模型和判别模型；

10.如权利要求9所述的语音合成模型的训练系统，其特征在于，所述生成模型包括多个依次连接第一全卷积网络结构；

所述判别模型包括多个依次连接第二全卷积网络结构；

11.如权利要求7所述的语音合成模型的训练系统，其特征在于，所述历史向量获取模块包括：

预处理单元，用于对所述历史文本信息进行预处理；

12.一种语音合成系统，其特征在于，所述语音合成系统采用权利要求7-11中任意一项所述的语音合成模型的训练系统实现；

目标信息获取模块，用于获取目标文本信息；

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1-5中任一项所述的语音合成模型的训练方法，和/或，实现权利要求6所述的语音合成方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的语音合成模型的训练方法的步骤，和/或，实现权利要求6所述的语音合成方法的步骤。