CN113707123B

CN113707123B - 一种语音合成方法及装置

Info

Publication number: CN113707123B
Application number: CN202110941865.8A
Authority: CN
Inventors: 张句; 贡诚; 王宇光; 关昊天
Original assignee: Huiyan Technology Tianjin Co ltd
Current assignee: Huiyan Technology Tianjin Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-10-20
Anticipated expiration: 2041-08-17
Also published as: CN113707123A

Abstract

本申请提供一种语音合成方法及装置，涉及音频技术领域，能够提升语音合成的实时率，并且能够提升所合成的语音的音质。该方法包括：基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型，该第一训练样本集包括多个文本和该多个文本对应的声学特征，该预设学生声学模型为轻量级的声学模型；并且采用目标学生声学模型对目标文本进行特征提取，得到目标文本的声学特征；以及通过声码器对目标文本的声学特征进行处理，得到目标文本对应的语音。其中，教师声学模型、预设学生声学模型以及目标学生声学模型均用于提取文本的声学特征。

Description

一种语音合成方法及装置

技术领域

本申请涉及音频技术领域，尤其涉及一种语音合成方法及装置。

背景技术

语音合成是将文字转为语音的服务，语音合成技术赋予了机器可以发声的能力，将机器接收到的文字信息转换成为自然流畅的语音信息，反馈并传递给用户。智能时代的到来，使得越来越多的智能设备需要搭载智能语音合成技术，以提高设备的交互性和友好度。

然而，对于现有的语音合成模型(包括声学模型和声码器)，一方面，语音合成模型的结构复杂，基于该模型进行语音合成需要消耗大量的计算资源，很难在嵌入式设备上实现实时的语音合成，也难以在低计算资源下实现离线的语音合成。另一方面，现有的语音合成模型的处理效果还有待提升。但是该优化方法会使得模型合成的音频质量产生较大损失。

发明内容

本申请实施例提供一种语音合成的方法、装置及系统，能够提升语音合成的实时率，并且能够提升所合成的语音的音质。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，本申请提供一种语音合成方法，应用于电子设备，该方法包括：电子设备基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型，上述第一训练样本集包括多个文本和该多个文本对应的声学特征，上述预设学生声学模型为轻量级的声学模型；并且采用上述目标学生声学模型对目标文本进行特征提取，得到该目标文本的声学特征；以及通过声码器对该目标文本的声学特征进行处理，得到该目标文本对应的语音。其中，教师声学模型、预设学生声学模型以及目标学生声学模型均用于提取文本的声学特征。

本申请实施例中，一方面，根据轻量级的预设学生声学模型训练得到的目标学生声学模型也为轻量级的声学模型，由于轻量级的声学模型结构更为简单，运算复杂度较低，因此基于目标学生声学模型可以快速完成语音合成，即通过本申请实施例提供的技术方案能够提升语音合成的实时率；另一方面，根据第一训练样本集和教师声学模型对预设学生声学模型进行训练，能够将教师声学模型的知识迁移至学生声学模型，得到目标学生声学模型，该目标学生声学模型输出的声学特征更加准确，因此，基于该目标学生声学模型进行语音合成得到语音的音质较好，即通过本申请实施例提供的技术方案能够提升所合成的语音的音质。

在第一方面的一种实现方式中，上述基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型的方法包括：电子设备确定第一训练样本集中的文本经教师声学模型处理的情况下，该教师声学模型的损失；确定第一训练样本集中的文本经预设学生声学模型处理的情况下，该预设学生声学模型的损失；根据教师声学模型的损失和预设学生声学模型的损失，确定目标损失；基于该目标损失，对预设学生声学模型进行更新，得到目标学生声学模型。

在第一方面的一种实现方式中，上述轻量级的声学模型包括对预设声学模型进行下述至少一种处理所得到的声学模型：

对上述预设声学模型进行结构裁剪；

增加上述预设声学模型所处理的数据帧的帧长；

增加上述预设声学模型单次处理的数据帧的数量。

在本申请中，对上述预设声学模型进行结构裁剪指的是对预设学生声学模型的解码器中的两层长短期记忆网络(Long Short-Term Memory，LSTM)中的神经元的数量进行裁剪，对预设声学模型进行结构裁剪得到轻量级的声学模型。

在第一方面的一种实现方式中，上述方法还包括：电子设备基于第二训练样本集，对预设教师声学模型进行训练，得到教师声学模型，第二训练样本集包括多个文本和该多个文本对应的声学特征。

在第一方面的一种实现方式中，上述方法还包括：电子设备根据第三训练样本集，确定第一训练样本集，上述第三训练样本集包括多个文本和该多个文本对应的语音。

在第一方面的一种实现方式中，上述根据第三训练样本集，确定第一训练样本集，包括：

从第三训练样本集中的多个文本对应的语音中提取该多个文本对应的声学特征；并且将第三训练样本集中的多个文本和该多个文本对应的声学特征组成的训练样本集作为第一训练样本集。

在第一方面的一种实现方式中，上述方法还包括：电子设备基于第四训练样本集，对预设声码器进行训练，得到声码器，第四训练样本集包括多个文本对应的声学特征和该多个文本对应的语音。

在第一方面的一种实现方式中，上述预设声码器为经结构裁剪的声码器。

第二方面，本申请提供一种语音合成装置，包括：第一训练模块、特征提取模块、语音合成模块。其中，第一训练模块用于基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型，该预设学生声学模型为轻量级的声学模型；特征提取模块用于采用目标学生声学模型对目标文本进行特征提取，得到目标文本的声学特征；语音合成模块用于通过声码器对所述目标文本的声学特征进行处理，得到目标文本对应的语音，其中，第一训练样本集包括多个文本和多个文本对应的声学特征，教师声学模型、预设学生声学模型以及目标学生声学模型均用于提取文本的声学特征。

在第二方面的一种实现方式中，上述第一训练模块具体用于确定第一训练样本集中的文本经教师声学模型处理的情况下，教师声学模型的损失；并且确定第一训练样本集中的文本经预设学生声学模型处理的情况下，预设学生声学模型的损失；以及根据教师声学模型的损失和预设学生声学模型的损失，确定目标损失；进而基于目标损失，对预设学生声学模型进行更新，得到目标学生声学模型。

在第二方面的一种实现方式中，上述轻量级的声学模型包括对预设声学模型进行下述至少一种处理所得到的声学模型：对预设声学模型进行结构裁剪、增加预设声学模型所处理的数据帧的帧长、增加预设声学模型单次处理的数据帧的数量。

在第二方面的一种实现方式中，本申请实施例提供的语音合成装置还包括第二训练模块；该第二训练模块用于基于第二训练样本集，对预设教师声学模型进行训练，得到教师声学模型，第二训练样本集包括多个文本和该多个文本对应的声学特征。

在第二方面的一种实现方式中，本申请实施例提供的语音合成装置还包括确定模块，该确定模块用于根据第三训练样本集，确定第一训练样本集，第三训练样本集包括多个文本和该多个文本对应的语音。

在第二方面的一种实现方式中，确定模块具体用于从第三训练样本集中的多个文本对应的语音中提取该多个文本对应的声学特征；并且将第三训练样本集中的多个文本和该多个文本对应的声学特征组成的训练样本集作为所述第一训练样本集。

在第二方面的一种实现方式中，本申请实施例提供的语音合成装置还包括第三训练模块，该第三训练模块用于基于第四训练样本集，对预设声码器进行训练，得到声码器，第四训练样本集包括多个文本对应的声学特征和该多个文本对应的语音。

在第二方面的一种实现方式中，上述预设声码器为经结构裁剪的声码器。

第三方面，本申请提供一种电子设备，包括：处理器和与处理器耦合连接的存储器；存储器用于存储计算机指令，当电子设备运行时，处理器执行存储器存储的所述计算机指令，以使得所述电子设备执行上述第一方面及其各实现方式中所述的方法。

第四方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质包括计算机程序，当计算机程序在计算机上运行时，以执行上述第一方面及其各实现方式中所述的方法。

需要说明的是，上述第二方面至第四方面的技术效果可以参考第一方面及其各种可选的实现方式的技术效果的相关描述，此处不再赘述。

附图说明

图1为本申请实施例提供的语音合成的过程的示意图；

图2为本申请实施例提供的一种语音合成方法示意图；

图3为本申请实施例提供的一种目标学生声学模型的训练过程示意图；

图4为本申请实施例提供的一种确定目标学生声学模型的方法示意图；

图5为本申请实施例提供的一种对预设教师声学模型进行训练得到教师声学模型的过程示意图；

图6为本申请实施例提供的一种确定第一训练样本集的方法示意图；

图7为本申请实施例提供的根据第三训练样本集确定第一训练样本集的过程示意图；

图8为本申请实施例提供的对预设声码器进行训练得到声码器的过程示意图；

图9为本申请实施例提供的一种语音合成装置的结构示意图。

具体实施方式

本申请的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一训练样本集和第二训练样本集等是用于区别不同的训练样本集，而不是用于描述训练样本集的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个文本是指两个或两个以上的文本。

下面首先对本申请实施例涉及的一些概念进行解释说明。

语音合成：是将文本转为语音的服务，应理解，可以基于语音合成模型实现文本转语音，语音合成模型包括声学模型和声码器。具体的，参考图1，语音合成的过程包括：用于语音合成的装置基于声学模型提取文本的声学特征，然后再通过声码器将文本的声学特征转换为语音。

为了解决现有技术中，由于语音合成模型结构复杂而导致计算资源的消耗量大，以及由于模型本身的缺陷而导致所合成的语音的音质较差的问题，本申请实施例提供了一种语音合成的方法及装置，电子设备基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型，该预设学生声学模型为轻量级的声学模型；并且采用目标学生声学模型对目标文本进行特征提取，得到目标文本的声学特征；以及通过声码器对目标文本的声学特征进行处理，得到目标文本对应的语音。通过本申请实施例提供的技术方案，能够提升语音合成的实时率，并且能够提升所合成的语音的音质。

本申请实施例提供的语音合成方法可以应用于具有语音合成功能的电子设备，例如智能音箱、智能对话机器人、智能手机、穿戴设备等，并且可以应用在地图语音导航，医院、机场、车站的智能服务等场景中。

如图2所示，本申请实施例提供的语音合成方法，应用于电子设备，该方法包括S201-S203。

S201、电子设备基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型。

本申请实施例中，目标学生声学模型是基于预设学生声学模型训练得到的，用于训练目标学生声学模型的第一训练样本集包括多个文本和多个文本对应的声学特征。

上述教师声学模型、预设学生声学模型以及目标学生声学模型均用于提取文本的声学特征，应理解，这些声学模型的输入为文本，声学模型的输出为文本的声学特征。

可选的，本申请实施例中的声学模型(包括上述教师声学模型、预设学生声学模型以及目标学生声学模型)可以为基于端到端的语音合成的Tacotron模型 (是一种神经网络模型)，例如Tacotron1、Tacotron2模型，声学模型也可以为Fastspeech,Deepvoice等，具体可以根据实际需求进行选择，本申请实施例不做限定。在本申请实施例中，以声学模型为Tacotron2为例进行说明，当声学模型为Tacotron2模型时，该声学模型输出的声学特征是梅尔谱特征。

需要说明的是，本申请实施例中的预设学生声学模型为轻量级的声学模型，那么基于该预设学生声学模型训练得到的目标学生声学模型也为轻量级的声学模型，轻量级的声学模型指的是经结构简化、模型参数优化等方式处理之后的声学模型，轻量级的声学模型结构更为简单，运算复杂度较低。

本申请实施例中，轻量级的声学模型可以包括对预设声学模型(该预设声学模型是未被简化的声学模型)进行下述至少一种处理所得到的声学模型(对应处理方式1-处理方式3中的至少一种)。

处理方式1、对预设声学模型进行结构裁剪。

本申请实施例中，声学模型(例如Tacotron2模型)由编码器(encoder)、注意力机制(attention)和解码器(decoder)三部分构成。编码器用于对输入的文本进行编码，输出上下文向量，注意力机制用于计算解码器上一次(也可以称为上一时刻)输出的声学特征和编码器输出的上下文向量之间的权重，得到加权后的注意力向量，解码器用于根据上一次输出的声学特征和加权后的注意力向量输出当前的声学特征。可以理解的是，在声学模型中，解码器的结构较为复杂，语音合成的耗时主要取决于解码器的处理时长，因此，在本申请实施例中，对预设声学模型进行结构裁剪指的是对Tacotron2模型中的解码器(decoder)中的神经元数量进行裁剪，即减少解码器中的神经元的数量。

具体的，对解码器(decoder)中的神经元数量进行裁剪主要是裁剪解码器(decoder)中的两层长短期记忆网络(Long Short-Term Memory，LSTM)中的神经元的数量。示例性的，未裁剪的LSTM中，每一个神经网络层的神经元的数量为1024，可以将每一个神经网络层的神经元数量裁剪至512、256或128 等。

按照处理方式1对预设声学模型进行结构裁剪，可以简化解码器(decoder) 中的LSTM的结构，得到轻量级的声学模型，基于轻量级的声学模型进行语音合成能够减少计算量，以快速完成语音合成，也就是说，对预设声学模型进行结构裁剪能够提升语音合成的实时率。进一步的，对预设声学模型进行结构裁剪，能够减少语音合成过程中的计算量，从而节约计算资源。

处理方式2、增加预设声学模型所处理的数据帧的帧长。

文本数据的处理是按照数据帧的先后顺序逐帧处理的，基于声学模型对文本数据进行处理的过程中，声学模型中的解码器对数据进行解码时，解码次数等于文本数据包含的数据帧的帧数。应理解，一段本文数据的长度是该文本数据包含的数据帧的帧数与帧长的乘积，在文本数据的长度一定的情况下，对于一段文本数据，帧长越大，则文本数据所划分的帧数越少。

示例性的，可以将预设声学模型所处理的数据帧的帧长由5ms增加至10ms，甚至20ms等。

本申请实施例中，上述处理方式2中增加预设声学模型所处理的数据帧的帧长，可以得到参数优化后的轻量级的声学模型。该轻量级的声学模型对应的帧长增大，则数据帧的帧数减少，如此可以缩短数据的解码时间，以快速完成语音合成，即通过增加预设声学模型所处理的数据帧的帧长能够提升语音合成的实时率。

处理方式3、增加预设声学模型单次处理的数据帧的数量。

通常，预设声学模型中的解码器(decoder)对数据解码的过程中，解码器一次只能解码预测一帧，即根据前一帧的梅尔谱特征来预测当前帧的梅尔谱特征。

本申请实施例中，增加预设声学模型单次处理的数据帧的数量的一种实现方式是：将多个帧的梅尔谱特征进行拼接，一次性预测出后续的多个帧的梅尔谱特征。例如，将第n-2帧的梅尔谱特征和第n-1帧的梅尔谱特征拼接之后，一次性预测出第n帧的梅尔谱特征和第n+1帧的梅尔谱特征。

可选的，在实际应用中，也可以将更多帧的梅尔谱特征进行拼接。

本申请实施例中，按照上述处理方式3增加预设声学模型单次处理的数据帧的数量，可以得到参数优化后的轻量级的声学模型。该轻量级的声学模型对应的单次处理的数据帧的数量增大，则可以实现多帧并行处理，能够快速完成语音合成，即通过增加预设声学模型单次处理的数据帧的数量能够提升语音合成的实时率。

可选的，结合图3所示的目标学生声学模型的训练过程示意图，如图4所示，上述S201可以通过下述S201a-S201d实现。

S201a、电子设备确定第一训练样本集中的文本经教师声学模型处理的情况下，教师声学模型的损失。

具体的，将第一训练样本集中的文本输入至教师声学模型中，预测得到文本对应的梅尔谱特征，记为Y_pt，该文本的真实的梅尔谱特征记为Y_r，教师声学模型的损失L₀可以用如下公式表示：

L ₀ ＝RMSE(Y_r，Y_pt)

其中，RMSE(Y_r，Y_pt)表示的是文本的真实的梅尔谱特征与经教师声学模型预测得到的该文本的梅尔谱特征之间的均方根误差。

S201b、电子设备确定第一训练样本集中的文本经预设学生声学模型处理的情况下，预设学生声学模型的损失。

具体的，将第一训练样本集中的同一文本输入预设学生声学模型中，预测得到文本对应的梅尔谱特征，记为Y_ps，该文本的真实的梅尔谱特征记为Y_r，预设学生声学模型的损失L_k可以用如下公式表示：

L_k＝RMSE(Y_r，Y_ps)

其中，RMSE(Y_r，Y_ps)表示文本的真实的梅尔谱特征与经预设学生声学模型预测得到的文本的梅尔谱特征之间的均方根误差。

S201c、电子设备根据教师声学模型的损失和预设学生声学模型的损失，确定目标损失。

本申请实施例中，目标损失为学生声学的损失与教师声学模型的损失之和，即L_f＝L₀₊L_k，L_f表示目标损失。

S201d、电子设备基于目标损失，对预设学生声学模型进行更新。

本申请实施例中，电子设备基于目标损失，对预设学生声学模型进行更新具体指对预设学生声学模型的参数进行更新。

综上所述，电子设备循环执行上述S201a-S201d，执行次数达到预设的训练次数或者目标损失满足预设条件的情况下，结束模型训练，得到目标学生声学模型。

本申请实施例中，通过上述S201a-S201d训练得到的目标声学模型的过程是一种知识蒸馏的过程，可以将教师声学模型的知识迁移至学生声学模型，得到目标学生声学模型，该目标学生声学模型输出的声学特征更加准确，因此，基于目标学生声学模型进行语音合成得到语音的音质较好。

S202、电子设备采用目标学生声学模型对目标文本进行特征提取，得到目标文本的声学特征。

可选的，本申请实施例中，电子设备获取到目标文本之后，首先对目标文本进行预处理，然后将经预处理之后的目标文本输入至目标学生声学模型。

本申请实施例中，以目标文本为中文为例，对目标文本进行预处理可以包括：汉字转拼音、多音字消歧、文本正则、韵律标注等。

其中，韵律标注指标注句子内部的停顿位置，例如对于句子“卡尔普陪外孙玩滑梯”，可以将其标注为“卡尔普#1陪#1外孙#1玩滑梯。#3”，其中，#1 表示较短的停顿，#3在句尾表示为较长的停顿。

多音字消歧：在汉语中同一个字可能有不同的发音，例如目标文本为“重庆大学是重点大学”，两个“重”字的发音是不同的，因此需要对目标文本进行多音字消歧。具体的，可以对目标文本进行语义分析来准确预测目标文本中的多音字的发音，例如经过多音字消歧，上述目标文本则可被标注为“重(chong2) 庆大学是重(zhong4)点大学”，最终经预处理后的文本为“chong2 qing4 da4 xue2#1 shi4#1 zhong4 dian3 da4 xue2#3”。

文本正则：指的是将文本中一些特殊的数字和符号转化为合理的发音，例如目标文本为“上午11:30”，可以将其转化为“上午十一点三十”，最终经预处理后的文本为“shang4 wu3#1 shi2 yi1 dian3 san1 shi2#3”。又例如，目标文本为“3kg”,可以将其转化为“三千克”，最终经预处理后的文本为“san1 qian1 ke4#3”。对目标文本进行文本正则能够使得目标文本对应的语音更加合理。

S203、电子设备通过声码器对目标文本的声学特征进行处理，得到目标文本对应的语音。

可选的，本申请实施例中，声码器可以采用LPCNet、WaveRNN、WaveNet、 WaveGlow等神经网络模型中的任一种。示例性的，本申请实施例以预设声码器模型为LPCNet为例，其结构公式如下：

S＝f_l(Mel)

其中，f_l是声码器模型，Mel表示输入至该声码器的梅尔谱特征，S表示声码器输出的语音，即最终合成的语音。

综上，本申请实施例提供的语音合成方法中，电子设备可以基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型，该第一训练样本集包括多个文本和该多个文本对应的声学特征，该预设学生声学模型为轻量级的声学模型；并且采用目标学生声学模型对目标文本进行特征提取，得到目标文本的声学特征；以及通过声码器对目标文本的声学特征进行处理，得到目标文本对应的语音。本申请实施例中，一方面，根据轻量级的预设学生声学模型训练得到的目标学生声学模型也为轻量级的声学模型，由于轻量级的声学模型结构更为简单，运算复杂度较低，因此基于目标学生声学模型可以快速完成语音合成，即通过本申请实施例提供的技术方案能够提升语音合成的实时率；另一方面，根据第一训练样本集和教师声学模型对预设学生声学模型进行训练，能够将教师声学模型的知识迁移至学生声学模型，得到目标学生声学模型，该目标学生声学模型输出的声学特征更加准确，因此，基于该目标学生声学模型进行语音合成得到语音的音质较好，即通过本申请实施例提供的技术方案能够提升所合成的语音的音质。

可选地，结合图2，如图5所示，在上述S201(电子设备基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型) 之前，本申请实施例提供的语音合成方法还包括S204。

S204、电子设备基于第二训练样本集，对预设教师声学模型进行训练，得到教师声学模型。

其中，第二训练样本集包括多个文本和多个文本对应的声学特征。

可选的，预设教师声学模型也可以为Tacotron2模型。

可选地，结合图5，如图6所示，在上述S201(电子设备基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型) 之前，本申请实施例提供的语音合成方法还包括S205。

S205、电子设备根据第三训练样本集，确定第一训练样本集(包括多个文本和多个文本对应的声学特征)。

其中，第三训练样本集包括多个文本和该多个文本对应的语音。

可选的，结合图6，如图7所示，上述S205可以通过S2051-S2052实现。

S2051、从第三训练样本集中的多个文本对应的语音中提取多个文本对应的声学特征。

本申请实施例中，可以采用python的常用音频处理工具包librosa，对预处理后的文本经过分帧、加窗、预加重等处理，从预处理后的文本中提取梅尔谱特征(该梅尔谱特征为真实的梅尔谱特征)。

S2052、将第三训练样本集中的多个文本和多个文本对应的声学特征组成的训练样本集作为第一训练样本集。

可选的，上述第二训练样本集可以按照上述确定第一训练样本集类似的方法得到，例如确定第二训练样本集的方法包括：从第五训练样本集中的多个文本对应的语音中提取多个文本对应的声学特征，将第五训练样本集中的多个文本和多个文本对应的声学特征组成的训练样本集作为第二训练样本集。

可选地，结合图2，如图8所示，在上述S203(通过声码器对目标文本的声学特征进行处理，得到目标文本对应的语音)之前，本申请实施例提供的语音合成方法还包括S206。

S206、基于第四训练样本集，对预设声码器进行训练，得到声码器。

第四训练样本集包括多个文本对应的声学特征和该多个文本对应的语音。

可选的，确定上述第四训练样本集的方法包括：从第六训练样本集中的多个文本对应的语音中提取多个文本对应的声学特征；将第六训练样本集中的多个文本对应的声学特征和该多个文本对应的语音组成的训练样本集作为第四训练样本集。

可选的，上述第三训练样本集、第五训练样本集、第六训练样本集所包含的样本可以相同也可以不同。

可选的，上述预设声码器为经结构裁剪的声码器。

本申请实施例中，声码器(例如LPCNet模型)由帧网络和采样点网络两部分构成，帧网络用于生成表示当前帧的特征向量，采样点网络用于循环生成一帧中的所有采样点。可以理解的是，在声码器中，采样点网络的结构较为复杂，语音合成的耗时主要取决于采样点网络的处理时长，因此，在本申请实施例中，对预设声码器进行结构裁剪的指的是对LPCNet模型中的采样点网络中的神经元数量进行裁剪，即减少编码器(encoder)中的神经元的数量。

具体地，采样点网络中的神经元数量进行裁剪主要是裁剪采样点网络中的门控循环单元(Gated Recurrent Unit，GRU)神经元的数量。示例性的，未裁剪的GRU中，每一个神经网络层的神经元的数量为384，可以将每一个神经网络层的神经元数量裁剪至256或192等。

按照上述方式对预设声码器进行结构裁剪，可以简化采样点网络中的GRU 的结构，得到轻量级的声码器，基于轻量级的声码器进行语音合成能够减少计算量，以快速完成语音合成，也就是说，对声码器进行结构裁剪能够进一步提升语音合成的实时率，进一步地，对声码器进行结构裁剪，能够降低语音合成过程中的计算复杂度，从而节约计算资源。

可选的，采用本申请实施例的语音合成方法对不同语言的文本进行语音合成，采用主观评价(Mean Opinion Score，MOS)法对语音合成的结果进行评分(评分越高表示音质越好)以评价合成的语音的音质。

可选的，还可以采用客观评价法对语音合成的速度进行评价，客观评价采用的是实时率RTF(Real-time-ratio)作为评价指标，实时率的值越小表示语音合成的速度越快，实时率的计算公式如下：

RTF＝Time_syn/Time_gt

其中，Time_syn指的是系统合成音频所需的时间，Time_gt指的是音频的时长。

相应的，本申请实施例提供一种语音合成装置，如图9所示，该语音合成装置包括第一训练模块901、特征提取模块902、语音合成模块903。其中，第一训练模块901用于基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型，例如执行上述方法实施例中的S201。特征提取模块902用于基于目标声学模型对目标文本进行特征提取，得到目标文本的声学特征，例如执行上述方法实施例中的S202。语音合成模块903用于基于声码器对目标文本的声学特征进行处理，得到目标文本对应的语音，例如执行上述方法实施例中的S203。

可选的，上述第一训练模块901具体用于确定第一训练样本集中的文本经教师声学模型处理的情况下，教师声学模型的损失；并且确定第一训练样本集中的文本经预设学生声学模型处理的情况下，预设学生声学模型的损失；以及根据教师声学模型的损失和预设学生声学模型的损失，确定目标损失；进而基于该目标损失，对上述预设学生声学模型进行更新，得到目标学生声学模型，例如执行上述方法实施例中的S201a-S201d。

可选的，本申请实施例提供的语音合成装置还包括第二训练模块904；该第二训练模块904用于基于第二训练样本集，对预设教师声学模型进行训练，得到教师声学模型，上述第二训练样本集包括多个文本和该多个文本对应的声学特征，例如执行上述方法实施例中的S204。

可选的，本申请实施例提供的语音合成装置还包括确定模块905，该确定模块905用于根据第三训练样本集，确定第一训练样本集，例如执行上述方法实施例中的S205。上述第三训练样本集包括多个文本和该多个文本对应的语音。

可选的，所述确定模块905具体用于从第三训练样本集中的多个文本对应的语音中提取该多个文本对应的声学特征，例如执行上述方法实施例中的S2051；并且将第三训练样本集中的多个文本和该多个文本对应的声学特征组成的训练样本集作为第一训练样本集，例如执行上述方法实施例中的S2052。

可选的，本申请实施例提供的语音合成装置还包括第三训练模块906，该第三训练模块906用于基于第四训练样本集，对预设声码器进行训练，得到声码器，第四训练样本集包括多个文本对应的声学特征和该多个文本对应的语音，例如执行上述方法实施例中的S206。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，包括步骤：

S1、基于第一训练样本集和教师声学模型，对预设学生声学模型进行训练，得到目标学生声学模型；

S2、采用目标学生声学模型对目标文本进行特征提取，得到目标文本的声学特征；

S3、通过声码器对目标文本的声学特征进行处理，得到目标文本对应的语音；

其特征在于：

所述S1前存在下述处理步骤：

SA1、电子设备基于第二训练样本集，对预设教师声学模型进行训练，得到教师声学模型；

SA2、电子设备根据第三训练样本集，确定第一训练样本集；

SA21、从第三训练样本集中的多个文本对应的语音中提取多个文本对应的声学特征；

SA22、将第三训练样本集中的多个文本和多个文本对应的声学特征组成的训练样本集作为第一训练样本集；

所述S2与S3间，存在下述处理步骤：

SB1、基于第四训练样本集，对预设声码器进行训练，得到声码器；

所述S1中，对预设学生声学模型进行训练的方法为：

裁剪所述预设学生声学模型的结构：

裁剪解码器中的两层长短期记忆网络中的神经元的数量，将LSTM神经网络层中1024个神经元，裁剪为512、256或128中的一种；

增加所述预设学生声学模型处理的数据帧的帧长：

将所述预设学生声学模型所处理的数据帧的帧长由5 ms增加至10 ms或20ms中的一种；

增加所述预设学生声学模型单次处理的数据帧的数量：

将多个帧的梅尔谱特征进行拼接，一次性预测出后续的多个帧的梅尔谱特征。

2.如权利要求1的所述的一种语音合成方法，其特征在于，所述SB1中，预设声码器的训练方法为：

将声码器采样点网络GRU中每一个神经网络层中的384个神经元，裁剪为256或192中的一种。

3.一种电子设备，其特征在于，包括处理器和与所述处理器耦合连接的存储器；所述存储器用于存储计算机指令，当所述电子设备运行时，所述处理器执行存储器存储的所述计算机指令，以使得所述电子设备执行如权利要求1所述的方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，当所述计算机程序在计算机上运行时，以执行如权利要求1所述的方法。