CN102592594A

CN102592594A - 基于统计参数模型的增量式语音在线合成方法

Info

Publication number: CN102592594A
Application number: CN2012100576093A
Authority: CN
Inventors: 俞凯; 王欢良; 钱诗君
Original assignee: Suzhou Speech Information Technology Co Ltd
Current assignee: Suzhou Speech Information Technology Co Ltd
Priority date: 2012-04-06
Filing date: 2012-04-06
Publication date: 2012-07-18

Abstract

本发明公开了一种基于统计参数模型的增量式语音在线合成方法，其步骤包括：文本分析，获得用户输入合成文本对应的模型状态集参数序列；状态序列分段，寻找声学模型状态序列的最佳分段位置，并依照分段位置对状态级参数序列进行切分；将分段后的各个状态级参数序列片段，依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输，在线输出连续的合成语音。本发明所述的基于统计参数模型的增量式语音在线合成方法，缩短了合成一段文本语音并播放或传输所需的时间延迟，并可以根据实际需要非常灵活地改变合成速度，同时其最大程度地控制了分段造成的动态信息损失，保证了合成语音的质量。

Description

基于统计参数模型的增量式语音在线合成方法

技术领域

本发明涉及了语音技术领域，尤其涉及了一种基于统计参数模型的增量式语音在线合成方法。

背景技术

基于统计参数模型的语音合成方法是目前主流的语音合成技术之一。基于统计参数模型的语音合成方法[A. Black, Statistical parametric speech synthesis, 2007]，首先需要对语音信号进行参数化分析，一般包括表征激励信息的基音频率参数及非周期成分和表征声道滤波器谱特征的频谱参数，然后对分析所得的参数进行统计建模，统计模型一般采用隐马尔科夫模型（HMM）。在合成时利用训练的模型进行相关声学参数的预测，最终通过参数合成器还原语音信号。这种方法的自动化程度较高，可以在不需要人工干预的情况下，自动快速地构建合成系统，而且对于不同发音人、不同发音风格、甚至不同发音语种的依赖性非常小，并且能够取得较好的合成语音的流畅度和自然度。

但是由于在传统基于HMM语音合成中，参与模型训练的声学参数要同时结合前后帧参数之间的动态关联信息，因此HMM一般是针对待合成的整段或整句进行建模，导致在实际应用中一般需要等到整个句子完全生成后，才能进行下一步的播放或传送；如果对合成文本进行随机地分段，每次只生成一小段语音，合成语音的质量则会有较大下降，这使得传统基于HMM的语音合成无法适用于实时性要求较高的在线应用。

对于这一问题，目前国内外研究的技术解决方案较少，主要方法是强制捆绑若干音素模型序列来分段合成语音[T. Dutoit, A Streaming Architecture for Statistical Parametric Speech Synthesis, 2011]，捆绑音素的数目是人为设定的，不够灵活，且对合成质量有较大影响。国内外尚未有相关专利涉及这一问题。本发明针对传统HMM语音合成中的这一问题，提出依据模型参数方差阈值对合成内容进行合理分段的方法，增量式地生成合成语音。本发明提出的分段准则较为灵活，可以调整合成速度，并最大程度保证最终合成语音的质量没有下降。

发明内容

本发明主要是针对现有技术的不足，提供了一种实时性强、质量更好的基于统计参数模型的增量式语音在线合成方法。

为了实现上述目的，本发明提供以下技术方案：

一种基于统计参数模型的增量式语音在线合成方法，包括：文本分析，获得用户输入合成文本对应的整段模型序列参数；状态序列分段，寻找声学模型状态序列的最佳分段位置，并根据分段位置对状态序列进行切分；将分段后的各个状态级参数序列片段，依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输三个步骤，并在线输出连续的合成语音。

作为本发明的一优选实施例，所述状态序列分段包括以下步骤：

第一级模型序列分组，根据合成文本中的标点符号，将各个声学特征模型序列切分成对应的组；

第二级模型状态序列分段，确定声学模型状态序列的分段位置，对经过标点符号分组后的每组模型序列，确定谱特征模型中动态特征参数的方差小于给定阈值的状态位置为候选状态分段位置；

声学模型状态序列分段，根据预设的分段数从候选状态分段位置中选择最优分段位置，将该组中各声学特征的模型状态序列切分为对应的状态序列片段流。

作为本发明的一优选实施例，所述的各种声学特征包括基频特征、谱特征和非周期能量成分特征。

作为本发明的一优选实施例，所述的谱特征模型中动态特征参数的方差根据下式来计算：

Figure 2012100576093100002DEST_PATH_IMAGE001

其中，

为

时刻对应模型状态上第

维谱特征的第

阶动态特征的方差参数，

Figure 2012100576093100002DEST_PATH_IMAGE007

为特征总维数。

作为本发明的一优选实施例，参数生成、语音合成和音频播放/传输三个步骤具体包括：

参数生成，按最大似然参数生成准则，生成每段声学模型状态序列对应的语音参数序列，并利用上一段语音参数序列的段尾部分数据对当前分段生成的语音参数序列的段首部分进行平滑处理；

语音合成，将当前分段的语音参数序列送入参数化语音合成滤波器中合成出当前分段对应的语音信号；

音频播放/传输，将当前分段生成的语音信号进行播放或传输，同时生成后续分段的语音参数和语音信号。

作为本发明的一优选实施例，分段边界处的语音参数平滑处理通过利用前一段段尾语音参数对当前段段首若干帧声学特征的静态参数按维进行插值操作来完成。

作为本发明的一优选实施例，通过分段数目和方差阈值两个参数来调控合成延迟和合成质量之间的平衡。

作为本发明的一优选实施例，对分段后的声学模型状态序列片段流进行后处理：如果当前状态序列片段的时长大于前一状态序列片段时长的设定倍数，则合并当前片段和前一片段。

从上述技术方案可以看出，所述基于统计参数模型的增量式语音在线合成方法，通过提出能够保证合成质量的模型序列分段方法，克服了传统合成语音的局限性；并进一步提出流水线的工作方式，结合段间参数平滑处理，提高了文语转换的实时性；另外，其可以根据实际需要非常灵活地改变合成的速度，同时其最大程度地控制了分段造成的动态信息损失，保证了合成语音的质量。

附图说明

图1是本发明所述的增量式的基于统计参数模型的语音在线合成系统的工作流程图；

图2是本发明所述模型状态序列分段方法的工作流程图；

图3是本发明所述参数生成、语音合成、音频播放/传输流水线的工作流程图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

参阅图1、图2和图3，图1是本发明所述的增量式的基于统计参数模型的语音在线合成系统的工作流程图；图2是本发明所述模型序列分段方法的工作流程图；图3是本发明所述参数生成、语音合成、音频播放/传输流水线的工作流程图。

一种基于统计参数模型的增量式语音在线合成方法，其包括：文本分析，获得用户输入合成文本对应的整段模型序列参数；状态序列分段，寻找声学模型状态序列的最佳分段位置，并根据分段位置对状态序列进行切分；将分段后的各个状态级参数序列片段，依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输三个步骤，并在线输出连续的合成语音。

为了保证以流水线方式增量合成语音的质量，对分段后的声学模型状态序列片段流进行后处理：如果当前状态序列片段的时长大于前一状态序列片段时长的设定倍数，则合并当前片段和前一片段。所述对分段后的状态序列的后处理，具体是按从前向后的顺序扫描模型状态序列，判断当前分段与前一分段的长度之差，若长度之差大于前一分段的

倍，也就是说前一分段较当前分段过短，本分段模型状态序列合成所需时间将超过前一分段的播放时间，则将本分段模型序列与前一分段合并，作为新的模型序列分段。根据统计的实时率，

的优选取值为9。

所述的各种声学特征包括基频特征、谱特征和非周期能量成分特征。

所述基于统计参数模型的增量式语音在线合成方法的具体步骤包括：首先，对输入的文本进行文本分析，得到每个目标音素的上下文环境描述信息，然后将这些信息输入模型聚类决策树，得到每个目标音素对应的谱特征、基频特征和非周期成分特征的模型和模型状态参数，其中，模型状态参数包括各特征参数的均值和方差。

所述基于统计参数模型的增量式语音在线合成方法的模型采用了隐马尔科夫模型，模型参数包括静态、动态特征的参数均值和参数方差，其中动态特征用来表征前后帧参数变化的关联信息。

其次，所述状态序列分段包括以下步骤：

第一步，第一级模型序列分组，根据合成文本中的标点符号，将各个声学特征模型序列切分成对应的组；

第二步，第二级模型状态序列分段，确定声学模型状态序列的分段位置，对经过标点符号分组后的每组模型序列，确定谱特征模型中动态特征参数的方差小于给定阈值的状态位置为候选状态分段位置；

参数包括静态特征与动态特征，静态特征是指从语音信号中提出的各种声学特征参数，而动态特征是指用来表示前后帧的静态特征参数之间关系的动态信息，包括静态特征的一阶差分和二阶差分；某时刻的模型参数方差是指一个

Figure 2012100576093100002DEST_PATH_IMAGE009

维对角矩阵，其中后维子对角矩阵是动态特征的参数方差，并用矩阵范数计算其大小，其中是静态特征的维数。

先设定谱特征的动态方差阈值

，再对谱特征模型序列所有时刻的动态特征参数方差进行扫描，某

时刻的动态特征参数方差是一个

维对角矩阵

，

为

时刻对应模型状态上第

维谱特征的第阶动态特征的方差参数。动态特征参数的方差大小的计算式为

（1）

记录上式的结果小于设定阈值，即的位置，并将所有分组分段位置记录为，且

，其中是分组位置的数目，

是分组位置的数目。设置分组位置对应动态特征参数方差为0。对上述分段位置根据其动态特征参数方差由大到小进行排序，作为候选状态分段位置。

第三步，声学模型状态序列分段，根据预设的分段数从候选状态分段位置中选择最优分段位置，将该组中各声学特征的模型状态序列切分为对应的状态序列片段流。

确定分段位置参考的声学特征是谱特征，选取谱特征动态方差最小的位置作为状态序列分段位置是基于如下两点分析：

（A）根据最大似然参数生成准则[K. Tokuda, Speech parameter generation from hmm using dynamic features, 1995]，预测语音特征参数向量序列的计算式为

（2）

其中

和

分别是模型状态序列中第

个的方差和均值，而

是表征前后帧关系动态信息的窗函数，具有如下形式

其中是用来表示前后帧参数动态关联信息的系数，通常选取的一组系数为

。因此，对整段模型序列进行切分，将损失分段处的动态信息。

（B）选取动态特征的方差较小的位置，可以使分段造成的动态特性损失控制在较小的范围内；对于每段模型状态序列，在后续参数生成步骤中，实际需要将段首帧和段末帧的动态参数方差置零；另一方面，窗函数

中静态特征部分通过单位矩阵刻画，因此分段无需考虑静态参数方差。

所述分段过程采用了动态特征的方差阈值作为准则，其是一种非常灵活的分段方法，可以根据实际应用场景对合成速度的需要，机动地调整方差阈值。所设方差阈值越大，则状态序列分段越多，合成速度越快；反之，方差阈值越小，合成速度则越慢；另外，本发明对合成内容在谱特征模型状态序列动态方差最小的位置进行切分，最大程度上控制了分段造成的动态信息损失，保证了合成语音的质量。

所述的进行参数生成、语音合成和音频播放/传输，包括以下步骤：

第一步，参数生成，按最大似然参数生成准则，生成每段声学模型状态序列对应的语音参数序列，并对当前分段生成的语音参数序列的段首部分，与上一段的语音参数序列的段尾部分一起进行平滑处理；

第二步，语音合成，将当前分段的语音参数序列送入参数化语音合成滤波器中合成出当前分段对应的语音；

所述参数化语音合成滤波器的选择取决于所采用的谱特征类型和是否支持非周期能量成分特征；若当前段对应合成文本顺序的最后一段，则无需进行下一分段的参数生成与平滑处理。

第三步，音频播放/传输，将当前分段生成的语音进行播放或传输，同时生成后续分段的语音参数和语音信号。

设在某时刻，第

分段正在进行参数生成，第

分段正在进行语音合成，第分段正在进行音频播放/传输，这三者是同时进行的。

（1）第分段参数生成

根据最大似然参数生成准则，预测第

分段语音特征参数向量序列为

（3）

第

分段语音特征参数生成后，将第

分段段首与第

分段段尾作段间参数平滑处理。平滑处理过程如下：

记第

分段的最末两帧的第d维谱参数分别为

和

，第

分段生成的前

帧第d维谱特征参数为

，经过平滑后的对应参数为

（4）

平滑处理只需对段首若干帧进行，可以依照（4）式迭代计算下去。

若参数生成当前段为第一段，则不需进行段首参数平滑。

（2）第

分段语音合成

对第分段的参数，包括分段的基频参数，谱参数和非周期能量成分参数送入参数化语音合成滤波器中合成出当前分段对应的音频。参数化语音合成滤波器的选择取决于所采用的谱特征类型和是否支持非周期能量成分特征。比如，若谱特征采用的是MCEP特征，则可以用梅尔对数谱估计（MLSA）滤波器；若谱特征采用的是MGC或MGC-LSP特征，则可以采用梅尔广义对数谱估计（MGLSA）滤波器；若谱特征采用的是LPC或LSP特征，则可以采用全极点滤波器；另外STRAIGHT分析合成器可以支持非周期能量成分的使用。

（3）第分段音频播放/传输

将合成完的第

分段的音频通过特定播放设备进行播放，或通过特定传输工具进行传输。

在流形式工作中，在第

分段播放/传输完成前、第分段语音合成完成后，需等待至第分段播放/传输完成，再开始第

分段的播放/传输；在第分段语音合成完成前、第

分段参数生成完成后，需等待至在第分段语音合成完成，再开始第

分段的语音合成。

此外，基于以上各步骤，在具体实施例中，本发明可以进一步调整设定谱特征动态参数的方差阈值

，以灵活调控合成的速度。具体地，当对合成速度或合成实时性要求较高时，可提高设定的阈值

，以取得更多的分段，若分段数目已达设定上限，则适当提高该上限；相反地，若对合成速度要求较低，则可降低设定的阈值，以保证更好的合成质量。

假设在具体实施例中，总分段数为

并最终生成了连续播放的语音。若用

来代表在每个步骤每个分段所需要的时间，其中

分别代表参数生成、语音合成和音频播放三个阶段，

为合成语音的播放时间。传统的合成方法中，总耗时为

（5）

由于在实际的语音合成中，统计到一般语音合成的实时率为0.1，也即是说，例如一段常速播放需要10秒的语音，其整个合成流程需要的时间为1秒左右。因此对于本发明的流水线工作模式部分，第分段参数生成和第

分段语音合成两个步骤的时间均远小于第

分段音频播放的时间，即

（6）

因而采用本发明所需的总时间为

（7）

其中为分段算法所耗费的时间，而这一耗时事实上是非常小的。因此，本发明可节省的时间为

，即将语音合成的时间节约了约

倍，用户只需等待第一分段合成完便可以开始播放或传输整段语音的音频。

所述基于统计参数模型的增量式语音在线合成方法，通过提出能够保证合成质量的模型序列分段方法，克服了传统合成语音的局限性；并进一步提出流水线的工作方式，结合段间参数平滑处理，提高了文语转换的实时性；另外，其可以根据实际并且非常灵活的改变合成的速度，同时其最大程度地控制了分段造成的动态信息损失，保证了合成语音的质量。

以上所述，仅为本发明优选实施例的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。