CN105118498A

CN105118498A - 语音合成模型的训练方法及装置

Info

Publication number: CN105118498A
Application number: CN201510559930.5A
Authority: CN
Inventors: 康永国; 盖于涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-06
Filing date: 2015-09-06
Publication date: 2015-12-02
Anticipated expiration: 2035-09-06
Also published as: CN105118498B

Abstract

本发明实施例公开了一种语音合成模型的训练方法及装置。所述方法包括：初始化将用于语音合成的深层神经网络模型；利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型；利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络模型，以得到最终应用于语音合成的深层神经网络模型。本发明实施例提供的语音合成模型的训练方法及装置提高了使用少量样本语料数据的语音合成系统的合成语音质量。

Description

语音合成模型的训练方法及装置

技术领域

本发明实施例涉及语音合成技术领域，尤其涉及一种语音合成模型的训练方法及装置。

背景技术

随着多媒体通信技术的不断发展，作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点收到了研究者的广泛关注。语音合成的目标是使合成的语音可懂、清晰、自然而富有表现力。为了使合成的语音更加清晰、自然、富有表现力，现有的语音合成系统一般都会选择一个目标发音人，录制这个目标发音人的大量的发音数据，并将这些发音数据作为语音合成的基础数据。这种方式的优点在于，合成语音的音质、音色会与发音人本身发出的语音更为相似，其清晰度和自然度会大大提高，但缺点在于，用于语音合成的基础语料的规模太大，这些基础数据的采集工作也需要耗费大量的物力、财力。

现有的使用少量录音数据的语音合成方法可以大致分为直接建模方法和自适应建模方法两类。直接建模的处理方法和大数据的一致，即直接使用常规大数据的建模方法对文本特征和声学特征进行映射建模，其方法包括隐马尔科夫模型(Hiddenmarkovmodel,HMM)和深度神经网络(Deepneuralnetwork,DNN)等。这种建模方法本身不考虑所处理的数据规模。其结果是，因为少量数据在语境信息上的覆盖有限，学习得到的模型合成与训练数据相差较大的文本时合成效果会下降很多。

自适应建模方法主要基于HMM模型，其方案是首先收集多名基础发音人的大量发音数据训练基础模型，然后使用受限最大似然线性回归(Constrainedmaximumlikelihoodlinearregression，CMLLR)等技术将基础模型自适应到个性化语音的少量数据上。依照这种方法训练出来的个性化模型合成效果不稳定，音质较差，和个性化发音人本身的音色相差较远。综上所述，现有的使用少量录音数据的语音合成方法普遍存在着合成语音质量较差的问题。

发明内容

针对上述技术问题，本发明实施例提供了一种语音合成模型的训练方法及装置，以提高使用少量样本语料数据的语音合成系统的合成语音质量。

第一方面，本发明实施例提供了一种语音合成模型的训练方法，所述方法包括：

初始化将用于语音合成的深层神经网络模型；

利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型；

利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络模型，以得到最终应用于语音合成的深层神经网络模型。

第二方面，本发明实施例还提供了一种语音合成模型的训练装置，所述装置包括：

初始化模块，用于初始化将用于语音合成的深层神经网络模型；

初步训练模块，用于利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型；

个性化训练模块，用于利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络模型，以得到最终应用于语音合成的深层神经网络模型。

本发明实施例提供的语音合成模型的训练方法和装置，通过初始化将用于语音合成的深层神经网络模型，利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以及利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络模型，得到了最终应用于语音合成的深层神经网络模型，从而提高了使用少量样本语料数据的语音合成系统的合成语音质量。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明第一实施例提供的语音合成模型的训练方法的流程图；

图2是本发明第一实施例提供的深层神经网络模型的结构示意图；

图3是本发明第二实施例提供的语音合成模型的训练方法中初步训练的流程图；

图4是本发明第三实施例提供的语音合成模型的训练方法中个性化训练的流程图；

图5是本发明第四实施例提供的语音合成模型的训练方法的流程示意图；

图6是本发明第五实施例提供的语音合成模型的训练装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

第一实施例

本实施例提供了语音合成模型的训练方法的一种技术方案。所述语音合成模型的训练方法由语音合成模型的训练装置执行。

参见图1，所述语音合成模型的训练方法包括：

S11，初始化将用于语音合成的深层神经网络(Deepneuralnetwork,DNN)模型。

在本发明中，使用一个深层神经网络作为用来预测合成语音的声学参数的预测模型，也就是语音合成模型。从本质上来讲，深层神经网络是一个多层感知器(Multilayerperceptron,MLP)。图2示出了本发明所采用的深层神经网络的拓扑结构。参见图2，所述深层神经网络至少包括一个输入层21，用于获取输入参数。所述深层神经网络还至少包括一个输出层23，用于对外输出作为预测结果的输出参数。另外，所述深层神经网络还包括至少两个隐藏层22。每个隐藏层接收前一层的运算结果，经过自身的运算，对下一层输出本层的运算结果。

在声学参数预测的场景下，所述深层神经网络的输入参数是对输入文本进行文本分析而得到的各种文本特征。所述文本分析可以是词法分析，或者句法分析。所述文本特征包括：音子序列、词性、词长以及韵律停顿。

所述输出参数是预测得到的声学参数。所述声学参数包括：谱参数、时长以及基频。

可以理解的是，期望所述深层神经网络模型能够针对不同的输入文本给出自然、准确的输出语音，需要利用包括大量语音数据的训练语料对其进行训练。而期望所述深层神经网络模型给出与目标发音人的自然语音相类似的合成语音，需要利用发音人的语音样本对所述深层神经网络模型进行训练。

而在具体执行上述训练操作之前，需要对所述深层神经网络模型进行初始化。具体的，上述初始化的操作可以包括对所述深层神经网络中不同神经元的初始化，所述深层神经网络的拓扑结构的搭建，以及所述深层神经网络上各种参数的初始化。

S12，利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型。

经过初始化操作之后，利用大规模语料数据对经过初始化的所述深层神经网络模型进行训练。所述大规模语料数据不仅包括语音数据，还包括语音数据对应的输入文本。而且，所述语音数据通常情况下并不来源与同一个发音人。

所述大规模语料数据的数据规模是相对较大的。具体来说，所述大规模语料数据中包含的语音数据的播放时长总计应该在5个小时以上。

可以理解的是，通过利用大规模语料数据的训练之后，所述深层神经网络的状态发生了改变。这种改变具体体现在所述深层神经网络的传递参数的取值的变化。发生了上述改变的深层神经网络模型被称为初步的深层神经网络模型。

而且，由于经过了来自不同发音人的语料数据的训练，所述深层神经网络中的参数已经适应于不同发音人的语料数据的普适特征。但是，这些参数被不适应于特定目标发音人的语音的声学特征。

S13，利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络模型，以得到最终应用于语音合成的深层神经网络模型。

经过大规模语料数据的训练，得到初步的深层神经网络之后，利用来源于目标发音人的小规模语料数据对上述初步的深层神经网络进行进一步的训练。对模型进行进一步训练的目的在于，对初步的深层神经网络模型的传递参数进行微调，使得深层神经网络的输出参数更为贴近于目标发音人的真实语音的声学参数。

在进一步的训练操作中使用的来源于目标发音人的语料数据的数据规模相对较小。具体来说，上述来源于目标发音人的语料数据中包含的语音数据的播放时长总计应该在1个小时以内。

本实施例通过初始化将用于语音合成的深层神经网络模型，利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以及利用目标发音人的小规模语料数据中提取的文本特征及声学特征，训练经过初步训练的深层神经网络模型，从而通过两次模型训练使得深层神经网络模型输出的声学特征更为贴近目标发音人的自然语音的声学特征，提高了使用少量样本语料数据的语音合成系统的合成语音质量。

第二实施例

本实施例以本发明的上述实施例为基础，进一步的提供了语音合成模型的训练方法中初步训练的一种技术方案。在该技术方案中，利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型包括：提取至少一个发音人的大规模语料数据中的文本特征及声学特征；利用所述大规模语料数据的文本特征及声学特征训练经过初始化的深层神经网络。

参见图3，利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型包括：

S31，提取至少一个发音人的大规模语料数据中的文本特征及声学特征。

对所述文本特征提取可以是通过对输入文本的文本分析结果的各种特征的获取，实现对文本特征的提取。一般情况下，在执行对输入文本的文本分析时，能够获得所述输入文本的词性、词长等文本特征。直接获取上述文本分析的结果，就获取到了所述大规模语料数据中的文本特征。

对所述声学特征的提取可以通过获取到所述输入文本对应的语音数据，再对所述语音数据的声学特征参数进行统计而实现。

S32，利用所述大规模语料数据的文本特征及声学特征训练经过初始化的深层神经网络。

提取到所述大规模语料数据的文本特征及声学特征之后，将所述文本特征作为所述深层神经网络的输入参数，并将所述声学特征作为所述深层神经网络的输出参数，对所述深层神经网络模型进行训练，即可得到所述初步的深层神经网络模型。

经过上述训练，所述初步的深层神经网络中的各种参数适应于所述大规模语料数据中不同发音人的语音的共性特征。

本实施例通过提取至少一个发音人的大规模语料数据中的文本特征及声学特征，利用所述大规模语料数据的文本特征及声学特征训练经过初始化的深层神经网络，实现了对所述深层神经网络的初步的训练，使得经过初步训练的深层神经网络模型中的参数能够适应于所述大规模语料数据中不同发音人的语音的共性特征。

第三实施例

本实施例以本发明的上述实施例为基础，进一步的提供了语音合成模型的训练方法中个性化训练的一种技术方案。在该技术方案中，利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络，以得到最终应用于语音合成的深层神经网络模型包括：提取目标发音人的小规模语料数据中的文本特征及声学特征；利用所述小规模语料数据的文本特征及声学特征训练所述初步的深层神经网络。

参见图4，利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络，以得到最终应用于语音合成的深层神经网络模型包括：

S41，提取目标发音人的小规模语料数据中的文本特征及声学特征。

与第二实施例相同，所述文本特征的提取也可以通过获取文本数据的文本分析结果的各种特征而实现；所述声学特征的提取也可以通过对文本数据对应的语音数据中各种声学特征的统计而实现。

可以理解的是，由于所述小规模语料数据本身的数据规模较小，所以从中提取到的文本特征及声学特征的数量也较少。

S42，利用所述小规模语料数据的文本特征及声学特征训练所述初步的深层神经网络。

与本发明第二实施例相同，将所述文本特征作为所述初步的深层神经网络模型的输入参数，并将所述声学特征作为所述初步的深层神经网络模型的输出参数，对所述初步的深层神经网络模型进行训练。

需要强调的是，上述训练操作是以初步的深层神经网络模型为基础的。也就是说，只有经过了利用从所述大规模语料数据中提取的文本特征及声学特征的初步训练的深层神经网络，才能执行上述的进一步的训练操作。

经过上述训练，所述深层神经网络中的各种参数适应于目标发音人自身的特有特征。这样，经过上述训练的所述深层神经网络在语音合成过程中输出的合成语音就会与目标发音人的自然语音十分相似。

本实施例通过提取目标发音人的小规模语料数据中的文本特征及声学特征，利用所述小规模语料数据的文本特征及声学特征训练所述初步的深层神经网络，使得所述深层神经网络中的参数适应于目标发音人的语音的特性特征，从而提高了使用少量样本语料数据的语音合成系统的合成语音质量。

第四实施例

本实施例提供了语音合成模型的训练方法的一种技术方案。在该技术方案中，所述语音合成模型的训练方法包括：利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型；利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络模型，以得到最终应用于语音合成的深层神经网络模型；利用所述深层神经网络模型进行声学参数预测，进而生成合成语音。

参见图5，所述语音合成模型的训练方法包括：

S51，利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型。

通常情况下，所述大规模语料数据中的语音数据并不来源与同一个发音人。而且，语音数据的播放时长总计应该在5个小时以上。

上述利用从大规模语料数据中提取的文本特征及声学特征训练所述深层神经网络的操作又称为初步训练操作。经过上述的初步训练操作，所述深层神经网络适应于来源于不同发音人的大规模语料数据中的普适特征。

S52，利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络模型，以得到最终应用于语音合成的深层神经网络模型。

所述小规模语料数据中的语音数据来源于所述目标发音人，也就是同一个发音人。并且，所述语音数据的播放时长总计应该在1个小时以内。

上述利用从大规模语料数据中提取的文本特征及声学特征训练所述深层神经网络的操作又称为个性化训练操作。经过上述的个性化训练操作，所述深层神经网络适应于来源于目标发音人的语音数据中的特性特征。

S53，利用所述深层神经网络模型进行声学参数预测，进而生成合成语音。

由于所述深层神经网络模型既经过了初步训练，又经过了个性化训练，其预测的声学参数更为贴近目标发音人的自然语音的声学参数。因而依据所述深层神经网络模型而生成的合成语音听上去与目标发音人的自然语音会十分相似。也就是说，合成语音的语音质量得到了提高。

本实施例通过利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络模型，以及利用所述深层神经网络模型进行声学参数预测，进而生成合成语音，提高了使用少量样本语料数据的语音合成系统的合成语音质量。

第五实施例

本实施例提供了语音合成模型的训练装置的一种技术方案。参见图6，所述语音合成模型的训练装置包括：初始化模块61、初步训练模块62以及个性化训练模块63。

所述初始化模块61用于初始化将用于语音合成的深层神经网络模型。

所述初步训练模块62用于利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型。

所述个性化训练模块63用于利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络模型，以得到最终应用于语音合成的深层神经网络模型。

可选的，所述初步训练模块62包括：第一特征提取单元以及第一训练单元。

所述第一特征提取单元用于提取至少一个发音人的大规模语料数据中的文本特征及声学特征。

所述第一训练单元用于利用所述大规模语料数据的文本特征及声学特征训练经过初始化的深层神经网络。

可选的，所述个性化训练模块63包括：第二特征提取单元以及第二训练单元。

所述第二特征提取单元用于提取目标发音人的小规模语料数据中的文本特征及声学特征。

所述第二训练单元用于利用所述小规模语料数据的文本特征及声学特征训练所述初步的深层神经网络。

可选的，所述文本特征包括：音子序列、词性、词长以及韵律停顿。

可选的，所述声学特征包括：谱参数、时长以及基频。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括：

初始化将用于语音合成的深层神经网络模型；

2.根据权利要求1所述的方法，其特征在于，利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征，训练经过初始化的深层神经网络模型，以得到初步的深层神经网络模型包括：

提取至少一个发音人的大规模语料数据中的文本特征及声学特征；

利用所述大规模语料数据的文本特征及声学特征训练经过初始化的深层神经网络。

3.根据权利要求1所述的方法，其特征在于，利用从目标发音人的小规模语料数据中提取的文本特征及声学特征，训练所述初步的深层神经网络，以得到最终应用于语音合成的深层神经网络模型包括：

提取目标发音人的小规模语料数据中的文本特征及声学特征；

利用所述小规模语料数据的文本特征及声学特征训练所述初步的深层神经网络。

4.根据权利要求1至3任一所述的方法，其特征在于，所述文本特征包括：音子序列、词性、词长以及韵律停顿。

5.根据权利要求1至3任一所述的方法，其特征在于，所述声学特征包括：谱参数、时长以及基频。

6.一种语音合成模型的训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述初步训练模块包括：

第一特征提取单元，用于提取至少一个发音人的大规模语料数据中的文本特征及声学特征；

第一训练单元，用于利用所述大规模语料数据的文本特征及声学特征训练经过初始化的深层神经网络。

8.根据权利要求6所述的装置，其特征在于，所述个性化训练模块包括：

第二特征提取单元，用于提取目标发音人的小规模语料数据中的文本特征及声学特征；

第二训练单元，用于利用所述小规模语料数据的文本特征及声学特征训练所述初步的深层神经网络。

9.根据权利要求6至8任一所述的装置，其特征在于，所述文本特征包括：音子序列、词性、词长以及韵律停顿。

10.根据权利要求6至8任一所述的装置，其特征在于，所述声学特征包括：谱参数、时长以及基频。