CN102752239B

CN102752239B - 一种提供音库混合训练模型的方法和系统

Info

Publication number: CN102752239B
Application number: CN201210220059.2A
Authority: CN
Inventors: 李健; 郑晓明; 张连毅; 武卫东
Original assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Current assignee: Beijing InfoQuick SinoVoice Speech Technology Corp.
Priority date: 2012-06-28
Filing date: 2012-06-28
Publication date: 2015-08-12
Anticipated expiration: 2032-06-28
Also published as: CN102752239A

Abstract

本发明公开了一种提供音库混合训练模型的方法，包括：根据选择用作样本的录音语料，采集至少两位发音人的声音信号，得到至少两组录音数据；从所述各组录音数据中提取出声音的参数信息，包括音高、谱、时长中至少之一；对语音参数进行统计分析，得到参数模型。本发明还公开相应的提供音库混合训练模型的系统。根据本发明，在现有语音合成技术的基础上，在训练模型时，将多个音库混合训练模型，即将几个发音人的音库数据放在一起训练，最终训练出的模型趋向于一种多发音人平均或者单个发音人最优的参数，从而得到一个较稳定的模型。可降低对录音人的要求，减少录音的成本，同时，可以更加容易的完成训练模型过程，使得合成的语音更加自然。

Description

一种提供音库混合训练模型的方法和系统

技术领域

本发明涉及技术领域，具体地说，涉及一种提供音库混合训练模型的方法和系统。

背景技术

语音合成是实现自然高效的人机交互的一项重要技术。语音合成技术即TTS，简单说，就是让计算机“开口讲话”，是利用计算机将任意组合的文本文件转化为声音文件，并通过多媒体设备将声音输出，即将任意的文本自动转换成为语音信息播放给用户。现今最为常见的语音合成方法有两种，一种是基于单元挑选与波形拼接的合成方法，另外一种是基于声学统计模型的参数合成方法。

在传统的单元挑选算法中，目标代价与连接代价往往是通过计算单元间的上下文属性的差异或者备选单元声学参数与预测目标之间的距离来实现的。这样造成的结果是，代价函数的设计往往需要语种相关的语音学专家的参与，进行大量的手工调试，使得系统构建的自动化程度收到限制；并且设计的代价函数难以保证普适性，往往会产生合成效果不稳定的问题。

近十年来，一种基于统计声学模型(主要是隐马尔柯夫模型HMM，Hidden Markov Model)的参数语音合成方法，得到了迅速的发展。这种方法分为训练和合成两个阶段。在模型训练阶段，得到各音素在不同上下文环境下所对应的频谱和基频参数的声学统计模型；在合成阶段，通过基于最大似然准则的参数生成方法，来预测合成语音所需的频谱和韵律参数，最终经过参数合成器生成语音。整个系统可以实现训练的自动化和语种的无关性，并且合成语音的连续性、稳定性和韵律的自然度都相当高。但是由于参数合成器的限制，使得这种合成方法最终恢复语音的音质往往不很理想。

在传统的语音合成的模型训练中，对发音人录音的水平要求比较高，需要选择水平较高的播音员进行录音。在语音合成中，一般的做法是选择一发音人录制音库、根据音库训练模型，最终根据训练好的模型来合成声音。由于对发音人录音的水品要求比较高，因此需要水平较高的播音员，且代价成本较高。

发明内容

本发明提供一种提供音库混合训练模型的方法和系统，可提供一个较稳定的模型。同时，可以更加容易完成训练模型过程，使得合成的语音更加自然，效果更佳。

本发明提供的一种提供音库混合训练模型的方法，包括：

根据选择用作样本的录音语料，采集至少两位发音人的声音信号，得到至少两组录音数据；

从所述各组录音数据中提取出声音的参数信息，包括音高、谱、时长中至少之一；

对所提取的语音参数进行统计分析，得到参数模型。

优选地，通过混合训练，将每个发音人不同的优势特征参数进行组合，得到优选的参数模型。

本发明提供的一种提供音库混合训练模型的系统，包括：

录音模块，用于根据选择用作样本的录音语料，采集至少两位发音人的声音信号，得到至少两组录音数据；

参数提取模块，用于从所述各组录音数据中提取出声音的参数信息，包括基频（即音高）、谱、时长中至少之一；

统计训练模块，对所提取的语音参数进行统计分析，得到参数模型。

跟适宜地，该系统还包括：

录音语料设计模块，用于选择用作样本的录音语料；

所述录音语料覆盖预定的音节、调联和/或每个音节的各种发音信息。

优选地，该系统还包括：

参数调整模块，根据应用需要，在模型训练阶段对提取出的参数中至少之一进行调整；

本发明还提供一种语音合成方法，包括：

采用前述所提供的音库混合训练模型；基于所述音库混合训练模型来合成声音。

本发明在现有语音合成技术的基础上，在训练模型时，将多个音库混合训练模型，即将几个发音人的音库数据放在一起训练，将单个发音人的缺点模糊掉，最终训练出的模型趋向于一种多发音人平均或者单个发音人最优的参数，从而得到一个较稳定的模型。因此，与现有技术相比，本发明采用的音库混合训练模型的方法，降低了对录音人的要求，也减少了录音的成本，同时，可以更加容易的完成训练模型过程，使得合成的语音更加自然。

附图说明

图1为本发明提供的一种提供音库混合训练模型的方法流程图；

图2为本发明的具体实施方案中提供的得到音库混合训练模型示意图；

图3为本发明实施例中整个模型训练的流程图；

图4为本发明提供的一种提供音库混合训练模型的系统架构图。

具体实施方式

鉴于现有技术中存在的不足，本发明提出一种音库混合训练模型的方法，可以解决前述部分或全部的问题，并可以建立较为稳定的模型。本发明提供的一种混合训练模型的方法：先选择几个发音人录制音库，在训练模型时，将多个音库混合训练模型，即将几个发音人的音库数据放在一起训练。其优点在于：采用多个发音人训练，会将单个发音人的缺点模糊掉，最终训练出的模型趋向于一种多发音人平均的方向，从而得到一个较稳定的模型。其次，每个发音人都有其各自的特点，通过混合训练，可将不同的优势特征组合。第三，真实发音人在参数特征达不到最优，采用多个发音人训练可使语音合成效果得到明显优化。

按照语音理论，对所有合成单元的语音进行分析，提取有关语音参数，这些参数经统计训练后组成一个合成语音参数库；合成时，根据待合成的文本信息和参数库，规划出相应的合成参数，然后送入语音合成器合成，最终将语音波形生成出来。

参照图1，本发明提供的一种提供音库混合训练模型的方法，包括如下步骤：

S01，根据选择用作样本的录音语料，采集至少两位发音人的声音信号，得到至少两组录音数据；

基于录音语料进行录音，得到录音数据，其中包括有多位发音人录制的语音数据。

S02，从所述各组录音数据中提取出声音的参数信息，包括基频（即音高）、谱、时长中至少之一；

S03，对所提取的语音参数进行统计分析，得到参数模型。

在采集发音人的声音信号之前，需要预先选择录音语料用作样本；

该录音语料要尽可能地覆盖所有音节、调联和/或每个音节的各种发音信息。所述发音信息，如在句首、句中、句末、韵首、韵中、韵末、词首、词中、词末等等。

下面对本发明进行详细描述，如图2所示，本发明的具体实施方案中得到音库混合训练模型步骤如下：

1）录音语料设计；

选择用作样本的录音语料，录音语料要尽可能的覆盖所有音节、调联等情况，以及每个音节的各种发音情况，如在句首、句中、句末、韵首、韵中、韵末、词首、词中、词末等等情况。

2）录音；

根据所选择作为样本的录音语料，请多位发音人进行录音，得到多组录音数据。

3）参数提取；

从多组录音数据中提取出声音的参数信息，如基频（即音高）、谱、时长等参数。这些参数信息的提取通常是分帧处理，常见的是1ms或者5ms一帧。具体的，可采用本领域技术人员熟知的参数提取方法进行提取，在此不再详述。

4）模型训练

在隐马尔柯夫模型HMM训练前，首先要对一些建模参数配置，包括建模单元的尺度、模型拓扑结构、状态数目等。在配置好建模参数后，还需要进行数据准备，一般训练数据包括两部分:声学数据以及标注数据，其中声学数据包括谱和基频，这都可以从wav数据中通过STRAIGHT分析得到；标注数据主要包括音段切分和韵律标注，现在采用的都是人工标注的，。

模型训练前还需对上下文属性集和用于决策树聚类的问题集进行设计，即根据先验知识来选择一些对声学参数(谱、基频和时长)有一定影响的上下文属性并设计相应的问题集，比如前后调、前后声韵母等。

整个模型训练的流程如图3所示，下面分别对流程中的每一个步骤的功能实现作简单介绍:

l)方差下限估计:在后面的上下文相关模型训练中，由于上下文属性可能的组合数远远大于训练数据的数目，每个上下文相关模型对应的训练数据只有一到两个，使得模型方差接近于零。为了避免方差过于接近于O，需要预先设定一个方差下限。由于我们采用谱参数和基频参数以及相应的差分系数来进行MSD-HMM建模，对不同的参数需要设定不同的方差下限。对此，我们根据所有数据的统计属性来自动计算各阶参数对应的方差下限。

2)单音素模型训练:在进行方差下限估计后，首先对单音素HMM进行初始化和训练，得到的模型用于进行上下文相关模型的扩展和初始化;一般先进行Viterbi训练，然后再进行Embedded训练。

3)上下文相关模型训练:在得到训练好的单音素模型后，首先根据上下文属性集合进行模型扩展，然后对扩展后的模型进行Embdedde训练。正如上面提到的，由于我们采用的上下文属性的组合数远远大于训练数据的数目，对于每一个上下文相关模型，其对应的训练数据非常有限(一到两个)。

4)基于决策树的模型聚类:由于对于每一个上下文相关模型，其对应的训练数据可能只有一到两个，导致模型的参数在训练后基本上都“过拟和”到那一两个数据上。对此，我们采用基于决策树的聚类方法对上下文相关模型进行聚类，以提高模型的鲁棒性以及模型复杂度和训练数据量之间的均衡性。

5)聚类后模型训练:在进行模型聚类后，需要对聚类后的模型进行进一步的训练，以优化其模型参数，其训练算法与上下文相关模型训练相同;同时输出各个状态模型的状态停留时间的统计数据。

6)时长建模:首先根据各个状态模型的停留时间统计信息来对上下文相关时长模型进行初始化，然后同样采用决策树的方法对模型进行聚类。

通过上面的训练流程，最后训练得到的模型包括谱、基频和时长参数的聚类HMM以及各自的决策树。

具体实施例中，对所提取的语音参数进行统计分析，得到参数模型。假定，录音数据中有100个音节“de”，则统计出这100个“de”的谱参数的均值、方差等。例如，两个或多个人的参数进行训练，发音人A有100个“de”，发音人B有100个“de”，然后用这200个训练“de”模型。此外，在实际的模型训练中，决策树可能会根据音节位置将这100个“de”分为“句首”、“句末”两类，等等处理。

在另一具体实施例中，对于“de”，有的发音人会读的特别短而且发音不完全，若只用该发音人的音库来训练模型，则最终的合成声音中，“de”会读的不好。而多个音库混合训练时，若其他发音人的“de”读的较好，由于最终的模型是由多个发音人“平均”得到的，训练时会将一些不好的数据进行“平均”，从而会改善最终的合成效果。

第二种，在训练中可以通过一种评价（或者听音）方法，来确定特定人（比如说A）的特定音节（比如说“de”），发音好，或者发音差，基于此种判断，可以决定混合训练是使用A的数据，还是不是用A的数据。

经过上述处理，就得到了用于语音合成的参数模型，而且该参数模型是经过多个音库混合训练后统计分析得到的模型。

本发明还提供一种提供音库混合训练模型的系统100，参照图4，该系统包括：

录音模块10，用于根据选择用作样本的录音语料，采集至少两位发音人的声音信号，得到至少两组录音数据；

参数提取模块20，用于从所述各组录音数据中提取出声音的参数信息，包括基频（即音高）、谱、时长中至少之一；

参数调整模块（可选）30，根据应用需要，在模型训练阶段对提取出的参数中至少之一进行调整；

统计训练模块40，对所提取的语音参数（若采用参数调整模块，则对调整后的语音参数）进行统计分析，得到参数模型。

该系统100还包括：

录音语料设计模块00，用于选择用作样本的录音语料；

所述录音语料覆盖所有音节、调联和/或每个音节的各种发音信息。

本系统中，主要对影响语音合成效果较大的谱参数进行了调整，即将谱参数的变化调的更大一些。经过试验证明，谱增强后再进行参数的统计，得到的谱参数反而比较接近真实的声音谱参数。而现有技术统计得到的谱参数比较平均，得到的谱线与真实的声音谱线偏差较大。

例如，录音数据中有100个音节“de”，则统计出这100个“de”的谱参数的均值、方差等。此外，在实际的模型训练中，还需考虑是否根据音节位置将这100个“de”分为“句首”、“句末”两类，等等处理。经过上述处理，就得到了用于语音合成的参数模型。

本发明提供的技术方案中，同时由多位发音人录制音频数据；多个语音音库数据混合训练模型；最终训练出的模型趋向于一种多发音人平均的方向，从而得到一个较稳定的模型。最终训练出的模型，在某个具体参数特征上（比如说基频，时长，谱等）也可以是从单一最优发音人上训练而成的。

因此，选择发音人的标准降低，发音人的选择范围广和录音成本降低；多位发音人录制音频数据可以混合训练模型；训练出的模型趋向于一种多发音人平均或者单个最优发音人的方向；训练出的模型是一个较稳定的模型。同时，可以更加容易的完成训练模型过程，使得合成的语音更加自然，效果更佳。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种提供音库混合训练模型的方法，其特征在于，包括：

对所提取的语音参数进行统计分析，通过混合训练，将每个发音人不同的优势特征参数进行组合，得到参数模型。

2.如权利要求1所述的方法，其特征在于，在采集发音人的声音信号之前，还包括：

预先选择文本作为录音语料；

3.如权利要求1所述的方法，其特征在于，所述提取出声音的参数信息采用分帧处理方式。

4.一种提供音库混合训练模型的系统，其特征在于，包括：

参数提取模块，用于从所述各组录音数据中提取出声音的参数信息，包括音高、谱、时长中至少之一；

统计训练模块，对所提取的语音参数进行统计分析，通过混合训练，将每个发音人不同的优势特征参数进行组合，得到参数模型。

5.如权利要求4所述的系统，其特征在于，还包括：

录音语料设计模块，用于选择用作样本的录音语料；

6.如权利要求4所述的系统，其特征在于，还包括：

7.一种语音合成方法，其特征在于，包括：

采用如权利要求1至3中任一项所提供的音库混合训练模型；

基于所述音库混合训练模型来合成声音。