CN112466276A

CN112466276A - 一种语音合成系统训练方法、装置以及可读存储介质

Info

Publication number: CN112466276A
Application number: CN202011361466.6A
Authority: CN
Inventors: 江明奇; 杨喜鹏; 张旭; 陈云琳; 殷昊
Original assignee: Go Out And Ask Suzhou Information Technology Co ltd
Current assignee: Go Out And Ask Suzhou Information Technology Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-09

Abstract

本发明公开了一种语音合成系统训练方法、装置以及可读存储介质，包括：获取针对目标说话人的第一音频数据和对应的文本数据，其中第一音频数据为低质量的数据；获取表征目标话说人唯一身份的特征数据；将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统；其中多说话人语音合成系统预先基于高质量的第二音频数据进行预训练，并且第一音频数据数量少于第二音频数据数量。由此，在已经利用高质量音频数据训练的多说话人语音合成系统基础上再次进行低质量音频数据的训练，经本方案所生成目标说话人语音合成系统在输出目标说话人时会提高音质，并且减少了训练时间。

Description

一种语音合成系统训练方法、装置以及可读存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成系统训练方法、装置以及可读存储介质。

背景技术

传统的语音合成技术都是基于单个说话人数据训练模型，该方案为每个说话人训练不同的模型，最后会得到多个不同的语音合成系统。单说话人语音合成系统有诸多缺陷，如所需数据量大，成本高，鲁棒性差，模型冗余。

多说话人语音合成技术可以解决上述问题，但针对低质量小样本手机录音时，若直接使用多说话人语音合成技术，否则会导致在手机录音方面的语音合成系统音质差以及整个多说话人语音合成系统训练耗时长的问题。

发明内容

本发明实施例提供了一种语音合成系统训练方法、装置以及可读存储介质，具有提升语音合成的音质，同时减少训练时间的技术效果。

本发明一方面提供一种语音合成系统训练方法，所述方法包括：获取针对目标说话人的第一音频数据和对应的文本数据，其中所述第一音频数据为低质量的数据；获取表征所述目标话说人唯一身份的特征数据；将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统；其中所述多说话人语音合成系统预先基于高质量的第二音频数据进行预训练，并且所述第一音频数据数量少于所述第二音频数据数量。

在一可实施方式中，所述获取针对目标说话人的第一音频数据，包括：获取所述第二音频数据所对应的说话人特征数据；根据所获取的说话人特征数据，选取与所述说话人特征数据相同或者相似的第一音频数据。

在一可实施方式中，所述说话人特征数据至少包括年龄信息、音色信息和性别信息中的一个或多个。

在一可实施方式中，在获取针对目标说话人的第一音频数据的过程中，所述方法还包括：对所述第一音频数据至少进行降噪和去回响处理。

在一可实施方式中，所述将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统，包括：所述多说话人语音合成系统根据所述第一音频数据和文本数据生成第三音频数据；获取所述第一音频数据所对应的第一声学特征和所述第三音频数据所对应的第二声学特征；若所述第一声学特征和第二声学特征满足预设条件，则训练停止，得到目标说话人语音合成系统。

在一可实施方式中，所述若所述第一声学特征和第二声学特征满足预设条件，则训练停止：所述第一声学特征和第二声学特征的相似度值高于预设阈值，则训练停止。

本发明另一方面提供一种语音合成系统训练装置，所述装置包括：训练数据获取模块，用于获取针对目标说话人的第一音频数据和对应的文本数据，其中所述第一音频数据为低质量的数据；特征数据获取模块，用于获取表征所述目标话说人唯一身份的特征数据；数据训练模块，用于将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统；其中所述多说话人语音合成系统预先基于高质量的第二音频数据进行预训练，并且所述第一音频数据数量少于所述第二音频数据数量。

在一可实施方式中，所述训练数据获取模块具体用于：获取所述第二音频数据所对应的说话人特征数据；根据所获取的说话人特征数据，选取与所述说话人特征数据相同或者相似的第一音频数据。

在一可实施方式中，所述数据训练模块具体用于：所述多说话人语音合成系统根据所述第一音频数据和文本数据生成第三音频数据；获取所述第一音频数据所对应的第一声学特征和所述第三音频数据所对应的第二声学特征；若所述第一声学特征和第二声学特征满足预设条件，则训练停止，得到目标说话人语音合成系统。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的语音合成系统训练方法。

在本发明实施例中，在已经利用高质量音频数据训练的多说话人语音合成系统基础上再次进行低质量音频数据的训练，在训练过程中会参考已有权重参数，使得相比较于全部利用低质量音频数据训练语音合成系统而言，经本方案所生成目标说话人语音合成系统在输出目标说话人时会提高音质，并且训练时间也大大减少。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种语音合成系统训练方法的实现流程示意图；

图2为本发明实施例一种语音合成系统训练方法的具体实现示例图；

图3为本发明实施例一种语音合成系统训练装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图2为本发明实施例一种语音合成系统训练方法的具体实现示例图。

结合图1和图2所示，本发明一方面提供一种基于多说话人的语音合成系统训练方法，方法包括：

步骤101，获取针对目标说话人的第一音频数据和对应的文本数据，其中第一音频数据为低质量的数据；

步骤102，获取表征目标话说人唯一身份的特征数据；

步骤103，将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统；其中多说话人语音合成系统预先基于高质量的第二音频数据进行预训练，并且第一音频数据数量少于第二音频数据数量。

本实施例中，在步骤101中，第一音频数据包括是手机或者电脑录音数据，也可以是通过语音合成或者语音拼接技术得到的音频数据，低质量的音频数据可以表征为音频的强度或幅度低、失真度高、频率低和信噪比低等等中的其中一种或者多种。对应的文本数据可通过语音识别系统对第一音频数据进行识别得到，也可以人工手写得到。

在步骤102中，特征数据包括目标说话人的身份ID，指纹数据、瞳孔数据以及人脸数据的其中一种或多种。

在步骤103中，多说话人语音合成系统是预先通过高质量的第二音频数据进行过预训练，具体为事先将大量且高质量的第二音频数据、对应的文本数据以及对应说话人的特征数据输入到多说话人语音合成系统进行训练，以调整多说话人语音合成系统中的权重参数。

再将少量且低质量的第一音频数据、对应的文本数据以及特征数据输入到多说话人语音合成系统中再次进行训练，得到目标说话人语音合成系统，其中目标说话人语音合成系统用于接收文本数据以及特征数据，并输出与目标说话人音色相同或者相近的音频数据。

由此，在已经利用高质量音频数据训练的多说话人语音合成系统基础上再次进行低质量音频数据的训练，在训练过程中会参考已有权重参数，使得相比较于全部利用低质量音频数据训练语音合成系统而言，经本方案所生成目标说话人语音合成系统在输出目标说话人时会提高音质，并且训练时间也大大减少。

在一可实施方式中，获取针对目标说话人的第一音频数据，包括：

获取第二音频数据所对应的说话人特征数据；

根据所获取的说话人特征数据，选取与说话人特征数据相同或者相似的第一音频数据。

本实施例中，说话人特征数据至少包括年龄信息、音色信息和性别信息中的其中一个或多个，在选取第一音频数据时，优先选取与说话人特征数据相同或者相似的第一音频数据，其中数据相同包括年龄相同或者性别相同，相似包括音色信息中的频率相近或者幅度相近。比如若多说话人语音合成系统在预训练过程中选择的第二音频数据为男性，那么第一音频数据对应的目标说话人也优选为男性，从这可以使多说话人语音合成系统再次训练过程中减少已有权重参数的变动幅度，进而使得目标说话人语音合成系统所输出的音频数据仍能保持很高的质量。

在一可实施方式中，在获取针对目标说话人的第一音频数据的过程中，方法还包括：

对第一音频数据至少进行降噪和去回响处理。

本实施例中，降噪处理具体可以利用现有的音频降噪算法对第一音频数据进行降噪，比如维纳滤波降噪、LMS自适应滤波器降噪等。去回响处理可以通过现有的自适应滤波器和自适应算法进行去除。

在一可实施方式中，将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统，包括：

多说话人语音合成系统根据第一音频数据和文本数据生成第三音频数据；

获取第一音频数据所对应的第一声学特征和第三音频数据所对应的第二声学特征；

若第一声学特征和第二声学特征满足预设条件，则训练停止，得到目标说话人语音合成系统。

本实施例中，第一声学特征和第二声学特征包括基频特征、共振峰特征、梅尔频率倒谱系数等等，其中基频特征的提取方式有自相关函数法、平均幅度差法或者小波法；共振峰提取方式有倒谱法、线性预测分析方法或者带通滤波组法；梅尔频率倒谱系数可以通过先对音频数据进行预加重、分帧和加窗等预处理，再对每一个短时分析窗，通过FFT得到对应的频谱；将频谱通过梅尔滤波器组得到梅尔频谱；在梅尔频谱上面进行倒谱分析得到。

在一可实施方式中，若第一声学特征和第二声学特征满足预设条件，则训练停止：

第一声学特征和第二声学特征的相似度值高于预设阈值，则训练停止。

本实施例中，声学特征包括基频特征、共振峰特征、梅尔频率倒谱系数等等，那么可以具体选取基频特征、共振峰特征、梅尔频率倒谱系数中的一个或多个进行相似度计算，得到单个或者多个相似度值，若单个相似度值或者多个相似度值高于预设阈值，说明所生成的第二音频数据已经接近表征真实数据的第一音频数据，此时训练停止；反之，则继续选取其他音频数据、对应的文本数据和特征数据继续训练。

结合图3所示，本发明实施例另一方面提供一种语音合成系统训练装置，装置包括：

训练数据获取模块201，用于获取针对目标说话人的第一音频数据和对应的文本数据，其中第一音频数据为低质量的数据；

特征数据获取模块202，用于获取表征目标话说人唯一身份的特征数据；

数据训练模块203，用于将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统；其中多说话人语音合成系统预先基于高质量的第二音频数据进行预训练，并且第一音频数据数量少于第二音频数据数量。

本实施例中，在训练数据获取模块201中，第一音频数据包括是手机或者电脑录音数据，也可以是通过语音合成或者语音拼接技术得到的音频数据，低质量的音频数据可以表征为音频的强度或幅度低、失真度高、频率低和信噪比低等等中的其中一种或者多种。对应的文本数据可通过语音识别系统对第一音频数据进行识别得到，也可以人工手写得到。

在特征数据获取模块202中，特征数据包括目标说话人的身份ID，指纹数据、瞳孔数据以及人脸数据的其中一种或多种。

在数据训练模块203中，多说话人语音合成系统是预先通过高质量的第二音频数据进行过预训练，具体为事先将大量且高质量的第二音频数据、对应的文本数据以及对应说话人的特征数据输入到多说话人语音合成系统进行训练，以调整多说话人语音合成系统中的权重参数。

在一可实施方式中，训练数据获取模块201具体用于：

获取第二音频数据所对应的说话人特征数据；

在一可实施方式中，数据训练模块203具体用于：

本实施例中，第一声学特征和第二声学特征包括基频特征、共振峰特征、梅尔频率倒谱系数等等，其中基频特征的提取方式有自相关函数法、平均幅度差法或者小波法；共振峰提取方式有倒谱法、线性预测分析方法或者带通滤波组法；梅尔频率倒谱系数可以通过先对音频数据进行预加重、分帧和加窗等预处理，再对每一个短时分析窗，通过FFT得到对应的频谱；将频谱通过梅尔滤波器组得到梅尔频谱；在梅尔频谱上面进行倒谱分析得到。满足预设条件包括：具体选取基频特征、共振峰特征、梅尔频率倒谱系数中的一个或多个进行相似度计算，得到单个或者多个相似度值，若单个相似度值或者多个相似度值高于预设阈值，说明所生成的第二音频数据已经接近表征真实数据的第一音频数据，此时训练停止；反之，则继续选取其他音频数据、对应的文本数据和特征数据继续训练。

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的语音合成系统训练方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于，获取针对目标说话人的第一音频数据和对应的文本数据，其中第一音频数据为低质量的数据；获取表征目标话说人唯一身份的特征数据；将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统；其中多说话人语音合成系统预先基于高质量的第二音频数据进行预训练，并且第一音频数据数量少于第二音频数据数量。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成系统训练方法，其特征在于，所述方法包括：

获取针对目标说话人的第一音频数据和对应的文本数据，其中所述第一音频数据为低质量的数据；

获取表征所述目标话说人唯一身份的特征数据；

将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统；其中所述多说话人语音合成系统预先基于高质量的第二音频数据进行预训练，并且所述第一音频数据数量少于所述第二音频数据数量。

2.根据权利要求1所述的方法，其特征在于，所述获取针对目标说话人的第一音频数据，包括：

获取所述第二音频数据所对应的说话人特征数据；

根据所获取的说话人特征数据，选取与所述说话人特征数据相同或者相似的第一音频数据。

3.根据权利要求2所述的方法，其特征在于，所述说话人特征数据至少包括年龄信息、音色信息和性别信息中的一个或多个。

4.根据权利要求1或2所述的方法，其特征在于，在获取针对目标说话人的第一音频数据的过程中，所述方法还包括：

对所述第一音频数据至少进行降噪和去回响处理。

5.根据权利要求1所述的方法，其特征在于，所述将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统，包括：

所述多说话人语音合成系统根据所述第一音频数据和文本数据生成第三音频数据；

获取所述第一音频数据所对应的第一声学特征和所述第三音频数据所对应的第二声学特征；

若所述第一声学特征和第二声学特征满足预设条件，则训练停止，得到目标说话人语音合成系统。

6.根据权利要求5所述的方法，其特征在于，所述若所述第一声学特征和第二声学特征满足预设条件，则训练停止：

所述第一声学特征和第二声学特征的相似度值高于预设阈值，则训练停止。

7.一种语音合成系统训练装置，其特征在于，所述装置包括：

训练数据获取模块，用于获取针对目标说话人的第一音频数据和对应的文本数据，其中所述第一音频数据为低质量的数据；

特征数据获取模块，用于获取表征所述目标话说人唯一身份的特征数据；

数据训练模块，用于将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练，得到目标说话人语音合成系统；其中所述多说话人语音合成系统预先基于高质量的第二音频数据进行预训练，并且所述第一音频数据数量少于所述第二音频数据数量。

8.根据权利要求7所述的装置，其特征在于，所述训练数据获取模块具体用于：

获取所述第二音频数据所对应的说话人特征数据；

9.根据权利要求7所述的装置，其特征在于，所述数据训练模块具体用于：

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-6任一项所述的语音合成系统训练方法。