CN102270449A

CN102270449A - 参数语音合成方法和系统

Info

Publication number: CN102270449A
Application number: CN2011102290132A
Authority: CN
Inventors: 吴凤梁; 职振华
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2011-08-10
Filing date: 2011-08-10
Publication date: 2011-12-07
Also published as: EP2579249A1; KR101420557B1; EP2579249A4; JP5685649B2; CN102385859B; KR20130042492A; US20130066631A1; CN102385859A; WO2013020329A1; DK2579249T3; US8977551B2; EP2579249B1; JP2013539558A

Abstract

本发明提供了一种参数语音合成方法，包括：根据对输入文本的分析获取包含上下文信息的音素序列；依次取出音素序列中的一个音素，在统计模型库中搜索该音素的各声学参数对应的统计模型，按帧取出该音素的各统计模型作为待合成语音参数的粗略值；使用滤波器组对待合成语音参数的粗略值进行参数平滑，得到平滑后的语音参数；使用全局参数优化器对平滑后的语音参数进行全局参数优化，得到优化后的语音参数；然后利用参数语音合成器进行合成，输出一帧合成语音；重复上述处理直至处理完所述音素序列中的所有音素的所有帧。利用本发明，能够使语音合成所需要的RAM不会随着合成语音长度的增加而增加，合成语音的时长不再受到RAM的限制。

Description

参数语音合成方法和系统

技术领域

本发明涉及参数语音合成技术领域，更为具体地，涉及一种连续合成任意时长语音的参数语音合成方法和系统。

背景技术

语音合成是使人机交互更加自然的重要技术。当前常见的有两类，一类是基于单元挑选和波形拼接的合成方法，另一类是基于声学统计模型的参数合成方法。而在小型电子设备应用中，由于存储空间小，参数合成方法比波形拼接方法更为适合。

在参数合成方法中，基于声学统计模型(主要是隐马尔可夫模型，HiddenMarkov Model，HMM)的参数合成方法最为流行。该方法分为训练与合成两个阶段。在训练阶段，首先提取出语料库中所有语音的声学参数，这包括频谱包络参数及其一阶和二阶差分参数、基音频率参数及其一阶和二阶差分参数；然后为每个音素根据其上下文标注信息训练出对应的声学统计模型，同时训练出针对整个语料库的全局方差模型；最后由所有音素的声学统计模型及全局方差模型组成模型库。在合成阶段，采用分层离线处理的方式，进行语音的合成。

图1为现有技术中基于动态参数及最大似然准则的参数语音合成方法流程示意图。如图1所示，参数语音合成的流程主要包括两个阶段：训练阶段和合成阶段，其中在合成阶段又细分为五个层次。其中，文本分析为第一层，分析输入的整段文本得到所有带上下文信息的音素组成音素序列；目标模型搜索为第二层，从训练好的模型库中提取音素序列中每个音素对应的模型组成模型序列；第三层为参数预测，使用最大似然算法从模型序列中预测出每一帧语音对应的声学参数组成语音参数序列；第四层为参数优化，使用全局方差模型对语音参数序列进行整体优化；第五层为语音合成，将所有优化后的语音参数序列输入到参数语音合成器生成最终的合成语音。

图1所示的这种参数合成方法合成出的语音具有比较高的连续性、一致性和自然度。但是，由于上述方法的每一层在实现时需要的RAM(randomaccess memory随机存储器)都会随着合成语音长度的增加呈正比例增加，其中，由于第三层在运用最大似然算法从模型序列中预测出语音参数序列的实施过程必须通过逐帧前向递推和后向递推两步来实现，因此第三层与第四层对RAM的需求不可避免，并直接决定语音合成方法在RAM的芯片上是否可用。

图4为现有技术中基于动态参数的最大似然参数预测示意图。如图4所示，在第一步递推过程结束后，会为每帧语音产生对应的临时参数。所有帧的临时参数再输入到第二步的反向递推过程才能预测出所需的参数序列。当合成语音时长越长时，对应的语音帧数就越多，预测每帧语音参数时都会产生一帧对应的临时参数。所有帧的临时参数都必须保存在RAM中，才能完成第二步的递推预测过程。

第四层需要从第三层输出的所有帧语音参数中计算出均值与方差，再运用全局方差模型对语音参数的平滑值进行整体优化生成最终的语音参数。因此，也需要相应帧数的RAM保存第三层输出的所有帧的语音参数。

而芯片RAM的大小是固定的，而且很多应用中芯片的RAM小到不足100K字节。此时上述方法在参数预测部分存在这样的不足：在小RAM的芯片上不能连续合成出任意时长的语音。

发明内容

鉴于上述问题，本发明的目的是解决原有的语音合成过程中需要的RAM大小随着合成语音长度呈正比例增加、进而无法在小RAM的芯片上连续合成出任意时长语音的问题。

根据本发明的一个方面，提供了一种参数语音合成方法，包括训练阶段和合成阶段，其中所述合成阶段具体包括：

根据对输入文本的分析获取包含上下文信息的音素序列；

依次取出所述音素序列中的一个音素，在统计模型库中搜索所述音素的各声学参数对应的统计模型，按帧取出所述音素的各统计模型作为待合成语音参数的粗略值；

使用滤波器组对所述待合成语音参数的粗略值进行参数平滑，得到平滑后的语音参数；

使用全局参数优化器对所述平滑后的语音参数进行全局参数优化，得到优化后的语音参数；

利用参数语音合成器对所述优化后的语音参数进行合成，输出一帧合成语音；

对所述音素的下一帧重复上述语音合成处理，直至处理完所述音素序列中的所有音素的所有帧。

其中，优选的方案是，所述统计模型库通过提取训练语料库中语音的声学参数，并根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型获得，并且，在所述训练语料库中提取的语音的声学参数为静态参数或者静态参数和表征前后帧参数变化的动态参数；在所述统计模型库中仅保存各声学参数对应的统计模型的静态均值参数。

其中，优选的方案是，在使用滤波器组对所述待合成语音参数的粗略值进行参数平滑的过程中，利用一组低通滤波器分别预测所述待合成语音参数的频谱包络参数、基音频率参数和子带浊音度参数。

其中，优选的方案是，在利用一组低通滤波器分别预测所述待合成语音参数的过程中，某一时刻的输出帧仅依赖于该时刻及之前的输入帧或者前一时刻的输出帧，而与将来的输入或者输出帧无关。

此外，优选的方案是，利用所述参数语音合成器输出一帧合成语音的过程包括：

根据语音参数中的基音频率参数构造准周期性脉冲序列，由白噪声构造随机序列；

通过由浊音度构造的浊音子带滤波器从所述准周期脉冲序列中得到信号的浊音成分，通过由浊音度构造的清音子带滤波器从所述随机序列中得到信号的清音成分；

将所述得到的浊音成分与所述清音成分相加确定混合激励信号；

将所述混合激励信号通过由频谱包络参数构造的合成滤波器滤波后输出一帧合成语音波形。

根据本发明的另一方面，提供了一种参数语音合成系统，包括：

输入文本分析单元，用于分析输入文本，，并根据对所述输入文本的分析获取包含上下文信息的音素序列；

粗略搜索单元，用于依次取出所述音素序列中的一个音素，并在统计模型库中搜索所述输入文本分析单元所获取的所述音素的各声学参数对应的统计模型，按帧取出所述音素的各统计模型作为待合成语音参数的粗略值；

平滑滤波单元，用于使用滤波器组对所述粗略搜索单元所确定的待合成语音参数的粗略值进行参数平滑，得到平滑后的语音参数；

全局优化单元，用于使用全局参数优化器对所述平滑滤波单元平滑后的语音参数进行全局参数优化，得到优化后的语音参数；

参数语音合成单元，用于利用参数语音合成器对所述全局优化单元优化后的语音参数进行合成，输出一帧合成语音；

循环判断单元，连接在所述参数语音合成单元和所述粗略搜索单元之间，用于在完成一帧合成语音的输出之后，判断所述音素中是否存在未处理的帧，如果存在，则对所述音素的下一帧重复利用所述粗略搜索单元、平滑滤波单元、全局优化单元和参数语音合成单元进行语音合成处理，直至处理完所述音素序列中的所有音素的所有帧。

其中，优选的结构是，参数语音合成单元进一步包括：

准周期脉冲发生器，用于根据语音参数中的基音频率参数构造准周期性脉冲序列；

白噪声发生器，用于通过白噪声构造随机序列；

浊音子带滤波器，用于根据子带浊音度从所构造的准周期脉冲序列中确定信号的浊音成分；

清音子带滤波器，用于根据子带浊音度从随机序列中确定信号的清音成分；

加法器，用于将所述浊音子带滤波器和所述清音子带滤波器确定的浊音成分与清音成分相加，输出混合激励信号；

合成滤波器，用于将所述加法器输出的混合激励信号合成滤波，输出一帧合成语音波形。

本发明所提供的参数语音合成方法和系统，采用纵向处理的合成方法，即每一帧语音的合成都需要经过取出统计模型粗略值、滤波得平滑值、全局优化得优化值、参数语音合成得语音四个步骤，之后每一帧语音的合成都再次重复这四个步骤，从而在参数语音合成处理的过程中仅需要保存当前帧需要的固定存储容量的参数即可，使语音合成所需要的RAM不会随着合成语音长度的增加而增加，合成语音的时长不再受到RAM的限制。

另外，本发明中所采用的声学参数为静态参数，在模型库中也仅保存各模型的静态均值参数，从而能够有效减少统计模型库的大小。

再者，本发明在合成语音的过程中使用多子带清浊混合激励，使每个子带中清音与浊音按照浊音度进行混合，从而使清音和浊音在时间上不再有明确的硬边界，避免了语音合成后音质的明显畸变。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为现有技术中基于动态参数及最大似然准则的参数语音合成方法分阶段示意图；

图2为本发明实施例的参数语音合成方法的流程图；

图3为本发明实施例的参数语音合成方法分阶段示意图；

图4为现有技术中基于动态参数的最大似然参数预测示意图；

图5为本发明基于静态参数的滤波平滑参数预测示意图；

图6为根据本发明实施例的基于混合激励的合成滤波器示意图；

图7为现有技术中基于清/浊判决的合成滤波示意图；

图8为本发明实施例的参数语音合成系统的方框示意图；

图9为本发明实施例的参数语音合成单元的逻辑结构示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

以下将结合附图对本发明的具体实施例进行详细描述。

图2示出了根据本发明实施例的参数语音合成方法的流程图。

如图2所示，本发明所提供的能够连续合成任意时长语音的参数语音合成方法的实现包括如下步骤：

S210：分析输入文本，根据对输入文本的分析获取包含上下文信息的音素序列；

S220：依次取出上述音素序列中的一个音素，在统计模型库中搜索所述音素的各声学参数对应的统计模型，按帧取出所述音素的各统计模型作为待合成语音参数的粗略值；

S230：使用滤波器组对上述待合成语音参数的粗略值进行参数平滑，得到平滑后的语音参数；

S240：使用全局参数优化器对所述平滑后的语音参数进行全局参数优化，得到优化后的语音参数；

S250：利用参数语音合成器对所述优化后的语音参数进行合成，输出一帧合成语音；

S260：判断所述音素的所有帧是否都处理完毕，如果没有，则对所述音素的下一帧重复步骤S220～S250的语音合成处理，直至处理完所述音素序列中的所有音素的所有帧。

为了能够进一步清楚的对本发明的参数语音合成技术进行说明，以突出本发明的技术特点，下面将分阶段、分步骤与现有技术中的参数语音合成方法逐一进行对比说明。

图3为本发明实施例的参数语音合成方法分阶段示意图。如图3所示，与现有技术中基于动态参数及最大似然准则的参数语音合成方法相类似，本发明的参数语音合成的实现也包括训练和合成两个阶段，其中，训练阶段用于通过语料库中的语音信息提取语音的声学参数，并根据所提取的声学参数训练出每个音素在每个上下文信息时对应的统计模型，形成合成阶段所需要的音素的统计模型库。步骤S210～S260属于合成阶段，在合成阶段，主要包括文本分析、参数预测和语音合成三部分，其中参数预测部分又可以细分为目标模型搜索、参数生成和参数优化三个环节。

首先，在训练阶段提取训练语料库的声学参数的过程中，本发明与现有参数语音合成技术的主要区别在于：现有技术中所提取的声学参数中包含动态参数，而本发明中所提取的声学参数可以全部为静态参数，也可以包含表征前后帧参数变化的动态参数，如一阶或二阶差分参数，以提高模型训练后的精度。

具体地，本发明从语料库中提取的声学参数至少包括三种静态参数：频谱包络参数、基音频率参数、子带浊音度参数，还可以选择性地包括其它如共振峰频率等参数。

其中，频谱包络参数可以是线性预测系数(LPC)或其衍生参数，如线谱对参数(LSP)，也可以是倒谱类参数；还可以是前几个共振峰的参数(频率、带宽、幅值)或者离散傅立叶变换系数。另外，还可以使用这些频谱包络参数在美尔域的变种，以改善合成语音的音质。基音频率使用对数基音频率，子带浊音度为子带中浊音所占比重。

除了上述静态参数外，从语料库中提取的声学参数还可以包括表征前后帧声学参数变化的动态参数，如前后几帧基音频率间的一阶或二阶参数。训练时要将各音素自动对齐到语料库中大量的语音片段上，然后从这些语音片段中统计出该音素对应的声学参数模型。联合使用静态参数和动态参数进行自动对齐的精度略高于仅使用静态参数的情形，使得模型的参数更准确。但是，由于本发明在合成阶段并不需要模型中的动态参数，因此，本发明在最终训练出的模型库中仅保留静态参数。

在根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型的过程中，采用隐马尔可夫模型(HMM，Hidden MarkovModel)对各声学参数进行建模。具体地，对于频谱包络参数与子带浊音度参数，使用连续概率分布的HMM建模，而对于基音频率则采用多空间概率分布的HMM建模。这种建模方案为现有技术中已有的建模方案，因此在下面的表述中只对该建模方案作简单的说明。

HMM是一种典型的统计信号处理方法，由于其随机性、可以处理未知字长的字符串输入、可以有效的避开切分的问题以及具有大量快速有效的训练和识别算法等特点，被广泛应用于信号处理的各个领域。HMM的结构为5个状态左右型，每个状态上观察概率的分布为单高斯密度函数。而该函数由参数的均值和方差唯一确定。所述的均值由静态参数的均值、动态参数(一阶与二阶差分)的均值组成。所述的方差由静态参数的方差、动态参数(一阶与二阶差分)的方差组成。

训练时根据上下文信息为每个音素的各声学参数训练出一个模型，为了提高模型训练的稳健性，需要根据音素的上下文信息对相关的音素进行聚类，如采用基于决策树的聚类方法。在上述声学参数对应的模型训练完成之后，再使用这些模型对训练语料库中的语音进行帧到状态的强制对齐，然后利用对齐过程中产生的时长信息(即各状态对应的帧数)，训练音素在不同上下文信息时采用决策树聚类后的状态时长模型，最终由每个音素在不同上下文信息时的各声学参数对应的统计模型形成统计模型库。

在训练完成后，本发明在模型库中仅保存各模型的静态均值参数。而现有的参数语音合成方法则需要保留静态均值参数、一阶差分参数、二阶差分的均值参数及这些参数所对应的方差参数，统计模型库较大。实践证明，在本发明中，仅保存各模型的静态均值参数的统计模型库的大小只有现有技术中形成的统计模型库的约1/6，极大地减少了统计模型库的存储空间。其中，所减少的数据虽然在现有的参数语音合成技术中是必须的，但对于本发明提供的参数语音合成技术方案则是不需要的，因此，数据量的减少并不会影响本发明参数语音合成的实现。

在合成阶段，首先需要对输入的文本进行分析，以便从中提取出包含上下文信息的音素序列(步骤S210)，作为参数合成的基础。

在此，音素的上下文信息指的是与当前音素前后相邻的音素的信息，这些上下文信息可以是其前后一个或几个音素的名称，也可以包含其它语言层或音韵层的信息。比如，一个音素的上下文信息包括当前音素名、前后两个音素名、所在音节的音调或者重音，还可以选择性地包括所在词的词性等。

在确定了输入文本中包含上下文信息的音素序列之后，就可以依次取出序列中的一个音素，在统计模型库中搜索该音素的各声学参数对应的统计模型，然后按帧取出该音素的各统计模型作为待合成语音参数的粗略值(步骤S220)。

在目标统计模型的搜索过程中，将音素的上下文标注信息输入到聚类决策树中，即可搜索出频谱包络参数、基音频率参数、子带浊音度参数、状态时长参数对应的统计模型。其中的状态时长参数不是从原始语料库中提取的静态声学参数，它是在训练中作状态与帧的对齐时生成的新参数。从模型各状态中依次取出所保存的静态参数的均值即为各参数对应的静态均值参数。其中，状态时长均值参数被直接用于确定待合成的某个音素中各状态该持续多少帧，而频谱包络、基音频率、子带浊音度等静态均值参数就是待合成语音参数的粗略值。

在确定了待合成语音参数的粗略值之后，基于滤波器组对所确定的语音参数粗略值进行滤波，从而预测语音参数(步骤S230)。在这一步骤中，利用一组专门的滤波器分别对频谱包络、基音频率和子带浊音度进行滤波，以预测合成效果更好的语音参数值。

本发明在步骤S230中所采用的滤波方法为基于静态参数的平滑滤波方法。图5为本发明基于静态参数的滤波平滑参数预测示意图，如图5所示，本发明用这组参数预测滤波器取代了现有的参数语音合成技术中的最大似然参数预测器，利用一组低通滤波器用以分别预测待合成语音参数的频谱包络参数、基音频率参数、子带浊音度参数。处理过程如公式(1)所示：

y_t＝h_t*x_t (1)

其中，t表示时间为第t帧，x_t是从模型中得到的某个语音参数在第t帧时的粗略值，y_t为经过滤波平滑后的值，运算符*表示卷积，h_t为预先设计好的滤波器的冲击响应。对于不同类型的声学参数，由于参数特性不同，h_t可以被设计成不同的表示。

对于频谱包络参数、子带浊音度参数，可使用公式(2)所示的滤波器进行参数的预测。

y_t＝α·y_t-1+(1-α)·x_t (2)

其中，α为预先设计好的固定的滤波器系数，α的选择可根据实际语音中频谱包络参数、子带浊音度随时间变化的快慢程度由实验确定。

对于基音频率参数，则可使用公式(3)所示的滤波器进行参数的预测。

y_t＝β·y_t-1+(1-β)·x_t (3)

其中，β为预先设计好的固定的滤波器系数，β的选择可根据实际语音中基音频率参数随时间变化的快慢程度由实验确定。

可以看出，本发明所使用的这组滤波器在预测待合成语音参数的过程中所涉及的参数不会延及将来的参数，某一时刻的输出帧仅仅依赖于该时刻及之前的输入帧或前一时刻的输出帧，而与将来的输入或输出帧无关，从而使滤波器组所需要的RAM大小能够事先固定。也就是说，在本发明中，运用公式(2)和(3)预测语音的声学参数时，当前帧的输出参数仅依赖于当前帧的输入及前一帧的输出参数。这样，整个参数的预测过程使用固定大小的RAM缓存即可现实，不会随着待合成语音时长的增加而增加，从而就可以连续预测出任意时长的语音参数，解决了现有技术中运用最大似然准则预测参数过程中所需RAM随合成语音时长呈正比例增长的问题。

在预测出语音参数的平滑值之后，就可以使用全局参数优化器对平滑后的各语音参数进行优化，进而确定优化后的语音参数(步骤S240)。

为了使合成语音参数的方差与训练语料库中语音参数的方差一致，改善合成语音的音质，本发明在优化语音参数的过程中，使用下面的公式(4)对合成语音参数的变化范围进行调节。

{\tilde{y}}_{t} = r \cdot (y_{t} - m) + m

(4)

z_{t} = w \cdot ({\tilde{y}}_{t} - y_{t}) + y_{t}

其中，y_t为t时刻的语音参数在优化前的平滑值，

为初步优化后的值，z_t为最终优化后的值，m为合成语音的均值，r是训练语音与合成语音标准差的比值，w为控制调节效果的一个固定权重。

然而，现有的参数语音合成方法在确定m和r时，需要利用到某个语音参数在所有帧对应的值来计算均值和方差，然后才能运用全局方差模型来调整所有帧的参数，使得调整后合成语音参数的方差与全局方差模型一致，达到提高音质的目的。如公式(5)所示。

m = \frac{1}{T} Σ_{t = 1}^{T} x_{t}

r = \frac{σ_{c}}{σ_{s}} = \frac{σ_{c}}{\sqrt{\frac{1}{T} Σ_{t = 1}^{T} {(x_{t} - m)}^{2}}} - - - (5)

其中，T表示待合成语音总时长为T帧，σ_c为某个语音参数在训练语料库中所有语音上统计得到的标准差(由全局方差模型提供)，σ_s为当前待合成语音参数的标准差，每合成一段文本，σ_s都需要重新计算。由于m和r的计算需要用到调整前合成语音所有帧的语音参数值，需要RAM保存所有帧未优化时的参数，因此，所需要的RAM会随着待合成语音时长的增加而增加，从而导致固定大小的RAM无法满足连续合成任意时长语音的需要。

针对现有技术中存在的这种缺陷，本发明在对参数语音进行优化时，重新设计了全局参数优化器，使用如下的公式(6)对参数语音进行优化。

m＝M

r＝R (6)

其中，M和R均为常数，其值为从大量合成语音中分别统计出来的某个参数的均值及标准差比。优选的确定方法是，在不加全局参数优化时，合成一段较长的语音，例如一小时左右的合成语音，然后使用公式(5)计算出各声学参数对应的均值与标准差的比值，并将其作为固定值赋予各声学参数对应的M和R。

可以看出，本发明所设计的全局参数优化器包含全局均值及全局方差比，用全局均值表征合成语音各声学参数的均值，用全局方差比表征合成语音与训练语音的参数在方差上的比例。使用本发明中的全局参数优化器，在每次合成时，可以对输入的一帧语音参数直接进行优化，不再需要从所有合成语音帧中重新计算语音参数的均值及标准差比，因而不需要保存待合成语音参数所有帧的值。以固定的RAM解决了现有的参数语音合成方法RAM随合成语音时长呈正比例增长的问题。另外，本发明对每次合成的语音采用相同的m和r进行调节，而原方法在每次合成中使用新计算的m和r进行调节，因而本发明在合成不同文本时合成语音间的一致性比原方法要好。并且，可以明显看出本发明的计算复杂度低于原方法。

在确定了优化后的语音参数之后，就可以利用参数语音合成器对所述优化后的语音参数进行合成，合成出一帧语音波形(步骤S250)。

图6为根据本发明实施例的基于混合激励的合成滤波器示意图，图7为现有技术中基于清/浊判决的合成滤波示意图。如图6和图7所示，本发明采用的基于混合激励的合成滤波器采用源-滤波器形式；而现有技术中的滤波激励为简单的二元激励。

现有的参数语音合成技术中，在运用参数合成器合成语音时所采用的技术是基于清/浊判决的参数语音合成，需要使用一个预先设定的门限做清/浊音的硬判决，将某帧合成语音要么判定为浊音，要么判定为清音。这就导致在合成出的某些浊音中间突然出现清音帧，听感上会有明显的音质畸变。在图7所示的合成滤波示意图中，合成语音前先进行清/浊音预测，然后分别进行激励，清音时采用白噪声作为激励，浊音时采用准周期性脉冲作为激励，最后将此激励通过合成滤波器得到合成语音的波形。不可避免地，这种激励合成方法会导致合成出的清音和浊音在时间上有明确的硬边界，从而使合成语音中存在音质明显畸变。

但在如图6所示的采用本发明提供的基于混合激励的合成滤波示意图中，使用多子带清浊混合激励，不再进行清/浊预测，而是将每个子带中清音与浊音按浊音度进行混合，因而清音和浊音在时间上不再有明确的硬边界，解决了原方法在某些浊音中间因突然出现清音而导致音质明显畸变的问题。可以通过下面的公式(7)从原始语料库的语音中提取某个子带当前帧的浊音度：

c_{τ} = \frac{Σ_{t = 0}^{T - 1} | s_{t} s_{t - τ} |}{\sqrt{Σ_{t = 0}^{T - 1} s_{t}^{2} Σ_{t = 0}^{T - 1} s_{t + τ}^{2}}} - - - (7)

其中，S_t是某个子带当前帧第t个语音样本的值，S_t+τ为和t间隔为τ时的语音样本的值，T为一帧的样本数，当τ取基音周期时，c_τ为就为当前子带当前帧的浊音度。

具体地，如图6所示，经过全局优化后生成的语音参数，输入参数语音合成器中，首先根据语音参数中的基音频率参数构造准周期性脉冲序列，由白噪声构造随机序列；然后经过由浊音度构造的浊音子带滤波器产品从所构造的准周期脉冲序列中得到信号的浊音成分，经过由浊音度构造的清音子带滤波器从随机序列中得到信号的清音成分；将浊音成分与清音成分相加即可得到混合激励信号。最后将混合激励信号通过由频谱包络参数构造的合成滤波器后输出一帧合成语音波形。

当然，在确定了优化后的语音参数之后，也可以依然先作清/浊音判决，浊音时使用混合激励，清音时仅使用白噪声。但此方案同样有硬边界致音质畸变的问题，因此，本发明优选上述不进行清/浊预测、使用多子带清浊混合激励的实施方式。

由于本发明在连续合成任意时长语音方面的优势，因此，在完成一帧语音波形的输出之后，还可以继续循环处理下一帧语音。由于下一帧优化后的语音参数没有预先生成并存储在RAM中，因此，在当前帧处理完之后，需要返回步骤S220，从模型中取出该音素的下一帧语音参数的粗略值，重复进行步骤S220～S250，对该音素的下一帧进行语音合成处理，才能最终输出下一帧的语音波形。这样循环处理，直至所有音素模型的所有帧的参数都处理完成、合成出所有的语音。

本发明的上述参数语音合成方法，可以采用软件实现，也可以采用硬件实现，或采用软件和硬件组合的方式实现。

图8示出了根据本发明的参数语音合成系统800的方框示意图。如图8所示，参数语音合成系统800包括输入文本分析单元830、粗略搜索单元840、平滑滤波单元850、全局优化单元860、参数语音合成单元870和循环判断单元880。其中，还可以包括用于语料训练的声学参数提取单元和统计模型训练单元(图中未示出)。

其中，声学参数提取单元用于提取训练语料库中语音的声学参数；统计模型训练单元用于根据声学参数提取单元所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型，并将该统计模型保存在统计模型库中。

输入文本分析单元830用于分析输入的文本，并根据对所述输入文本的分析获取包含上下文信息的音素序列；粗略搜索单元840用于依次取出音素序列中的一个音素，并在统计模型库中搜索输入文本分析单元830所获取的所述音素的各声学参数对应的统计模型，按帧取出该音素的各统计模型作为待合成语音参数的粗略值；平滑滤波单元850用于使用滤波器组对待合成语音参数的粗略值进行滤波，得到平滑后的语音参数；全局优化单元860用于使用全局参数优化器对平滑滤波单元850所平滑后的各语音参数进行全局参数优化，得到优化后的语音参数；参数语音合成单元870用于利用参数语音合成器对全局优化单元860所优化后的语音参数进行合成，输出合成语音。

循环判断单元880连接在参数语音合成单元870和粗略搜索单元840之间，用以在完成一帧语音波形的输出之后，判断音素中是否存在未处理的帧，如果存在，则对该音素的下一帧重复利用所述粗略搜索单元、平滑滤波单元、全局优化单元和参数语音合成单元继续进行搜索取得声学参数对应的统计模型粗略值、滤波得平滑值、全局优化、参数语音合成的循环处理，直至处理完所述音素序列中的所有音素的所有帧。

由于下一帧优化后的语音参数没有预先生成并存储在RAM中，因此，在当前帧处理完之后，需要返回粗略搜索单元840，从模型中取出该音素的下一帧，重复利用粗略搜索单元840、平滑滤波单元850、全局优化单元860和参数语音合成单元870进行语音合成处理，才能最终输出下一帧的语音波形。这样循环处理，直至所有音素序列中的所有音素的所有帧的参数都处理完成、合成出所有的语音。

其中，与上述方法相对应，在本发明的一个优选实施方式中，统计模型训练单元进一步包括声学参数模型训练单元、聚类单元、强制对齐单元、状态时长模型训练单元以及模型统计单元(图中未示出)，具体的：

声学参数模型训练单元，用于根据每个音素的上下文信息为每个音素的各声学参数训练出一个模型；

聚类单元，用于根据所述音素的上下文信息对相关的音素进行聚类；

强制对齐单元，用于使用所述模型对训练语料库中的语音进行帧到状态的强制对齐；

状态时长模型训练单元，用于利用所述强制对齐单元在强制对齐过程中产生的时长信息训练音素在不同上下文信息时聚类后的状态时长模型；

模型统计单元，用于将每个音素在不同上下文信息时的各声学参数对应的统计模型形成统计模型库。

图9示出了根据本发明一个优选实施例的参数语音合成单元的逻辑结构示意图。如图9所示，参数语音合成单元870进一步包括准周期脉冲发生器871、白噪声发生器872、浊音子带滤波器873、清音子带滤波器874、加法器875和合成滤波器876，其中，准周期脉冲发生器871用于根据语音参数中的基音频率参数构造准周期性脉冲序列；白噪声发生器872用于通过白噪声构造随机序列；浊音子带滤波器873用于根据子带浊音度从所构造的准周期脉冲序列中确定信号的浊音成分；清音子带滤波器874用于根据子带浊音度从随机序列中确定信号的清音成分；然后将浊音成分与清音成分通过加法器875相加即可得到混合激励信号。最后将混合激励信号通过由频谱包络参数构造的合成滤波器876合成滤波后即可输出对应的一帧合成语音波形。

可以看出，本发明采用的合成方法是纵向处理，即每一帧语音的合成，都需要经过取出统计模型粗略值、滤波得平滑值、全局优化得优化值、参数语音合成得语音这处理四个环节，之后每一帧语音的合成都再次重复这四个处理环节。而现有的参数语音合成方法采用的是横向离线处理，即取出所有模型的粗略参数、以最大似然算法生成所有帧的平滑参数、以全局方差模型得到所有帧的优化参数，最后从参数合成器输出所有帧的语音。与现有的参数语音合成方法中每一层都需要保存所有帧的参数相比，本发明的纵向处理方式仅需要保存当前帧需要的固定存储容量的参数即可，因此本发明的纵向处理方式也解决了原有方法采用横向处理方式所导致的合成语音时长有限的问题。

另外，本发明通过在合成阶段仅仅使用静态参数，不再使用动态参数及方差信息，将模型库的大小减小为原有方法的约1/6。通过使用专门设计的滤波器组取代最大似然参数方法进行参数的平滑生成，并使用新的全局参数优化器取代原有方法中的全局方差模型进行语音参数的优化，结合纵向处理结构实现了使用固定大小的RAM连续预测出任意时长语音参数的功能，解决了原有方法在小RAM芯片上不能连续预测出任意时长语音参数的问题，并且有助于扩大语音合成方法在小存储空间芯片上的应用。通过在每一时刻均使用清浊音混合激励，取代原有方法在合成语音波形前先做清/浊音硬判决，解决了原有方法在合成某些浊音的中间突然出现清音而产生音质畸变的问题，使得产生的语音更加一致连贯。

如上参照附图以示例的方式描述根据本发明的参数语音合成方法和系统。但是，本领域技术人员应当理解，对于上述本发明所提出的参数语音合成方法和系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种参数语音合成方法，包括：

根据对输入文本的分析获取包含上下文信息的音素序列；

2.如权利要求1所述的参数语音合成方法，其中，

所述统计模型库通过提取训练语料库中语音的声学参数，并根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型获得；并且，

在所述训练语料库中提取的语音的声学参数为静态参数或者静态参数和表征前后帧参数变化的动态参数；在所述统计模型库中仅保存各声学参数对应的统计模型的静态均值参数。

3.如权利要求1所述的参数语音合成方法，其中，在使用滤波器组对所述待合成语音参数的粗略值进行参数平滑的过程中，

利用一组低通滤波器分别预测所述待合成语音参数的频谱包络参数、基音频率参数和子带浊音度参数。

4.如权利要求3所述的参数语音合成方法，其中，

在利用一组低通滤波器分别预测所述待合成语音参数的过程中，某一时刻的输出帧仅依赖于该时刻及之前的输入帧或者前一时刻的输出帧，而与将来的输入或者输出帧无关。

5.如权利要求1所述的参数语音合成方法，其中，所述全局参数优化器包含全局均值及全局方差比，其中，

所述全局均值表征合成语音各声学参数的均值；

全局方差比表征合成语音与训练语音的参数在方差上的比例；并且，

所述全局参数优化器在每次合成时采用相同的全局均值和全局方差比对输入的一帧语音参数直接进行优化。

6.如权利要求1所述的参数语音合成方法，其中，利用所述参数语音合成器输出一帧合成语音的过程包括：

7.一种参数语音合成系统，包括：

输入文本分析单元，用于分析输入文本，并根据对所述输入文本的分析获取包含上下文信息的音素序列；

8.如权利要求7所述的参数语音合成系统，所述统计模型库通过提取训练语料库中语音的声学参数，并根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型获得；并且，

在所述训练语料库中提取的语音的声学参数为静态参数或者静态参数和表征前后帧参数变化的动态参数，在所述统计模型库中仅保存各声学参数对应的统计模型的静态均值参数。

9.如权利要求7所述的参数语音合成系统，其中，所述平滑滤波单元包括一组低通滤波器，用于分别预测所述待合成语音参数的频谱包络参数、基音频率参数和子带浊音度参数。

10.如权利要求9所述的参数语音合成系统，其中，所述低通滤波器组在预测所述待合成语音参数的过程中，某一时刻的输出帧仅依赖于该时刻及之前的输入帧或者前一时刻的输出帧，而与将来的输入或者输出帧无关。

11.如权利要求7所述的参数语音合成系统，所述全局优化单元中的全局参数优化器包含全局均值及全局方差比，其中，

所述全局均值表征合成语音各声学参数的均值；

12.如权利要求7所述的参数语音合成系统，其中，所述参数语音合成单元进一步包括：

白噪声发生器，用于通过白噪声构造随机序列；