CN102496363B

CN102496363B - 一种用于汉语语音合成的音调修正方法

Info

Publication number: CN102496363B
Application number: CN2011103562596A
Authority: CN
Inventors: 那兴宇; 王朝民; 谢湘; 何娅玲
Original assignee: BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd
Current assignee: BEIJING YUYIN TIANXIA TECHNOLOGY CO LTD; Zhuhai Hi-tech Angel Venture Capital Co.,Ltd.
Priority date: 2011-11-11
Filing date: 2011-11-11
Publication date: 2013-07-17
Anticipated expiration: 2031-11-11
Also published as: CN102496363A

Abstract

本发明公开了一种用于汉语语音合成的音调修正方法，由文本分析模块接收待合成的任意文本信息，根据音节和韵律层级结构输出完整的合成标注信息；参数语音合成模块接收文本分析模块的合成标注信息，使用考虑参考音调的参数生成的方法输出合成的语音信号；离线训练模块负责各种隐马尔科夫模型的训练，参考音调模型用于生成单个音节的参考基频包络，合成参数模型用于得到合成的参数序列。依据本发明可以解决基于隐马尔科夫模型的汉语语音合成中音调不稳定的问题，使合成语音的自然度和韵律感得到极大地改善。

Description

一种用于汉语语音合成的音调修正方法

技术领域

本发明设计一种参数化语音合成方法，具体地涉及一种用于汉语语音合成的音调修正方法。

背景技术

语音合成技术的目标是使电子设备向人类一样发声。随着语音合成技术的发展，合成声音的音质、自然度、智能度都有了很大提高，其中发展最为迅速的是基于参数化统计模型的语音合成技术。基于隐马尔科夫模型的参数化统计语音合成技术是这一类方法的代表，其合成音质具有较高的连贯度和灵活度，所需的资源占用空间较小，具有极大的实用和研究价值。这种方法分为两个部分，一是离线的模型训练部分，一是在线的语音合成部分。在离线训练部分，首先将训练语料进行参数化表示，通常表示为基频、增益和声道谱系数。为指导隐马尔科夫模型的训练，要事先对每条训练语料进行标注，标注内容包括音节、音调和韵律层级结构等。在在线合成部分，对任意合成文本进行分析得到合成标注，然后使用参数模型进行参数结算及合成滤波，最终输出语音。

由于在汉语合成中单个音节的音调准确率对于合成语音的可懂度和自然度都有着至关重要的作用，而隐马尔科夫模型属于一种按状态分段的分段模型，各个分段之间相互独立，造成在一个音节内的基频出现不平滑的现象，导致可懂度和自然度的明显下降。因此，需要一种新的算法，能够对音节的整体基频包络进行可训练的描述，以捕捉不同说话人在发声过程中的不同语境下的不同音调表现，并能够在合成时对状态模型生成的基频包络进行修正，改善合成语音的音调准确率，进而提高可懂度和韵律表现力。

发明内容

为了解决现有的技术缺陷，本发明的目的是要提出一种算法，能够对音节的整体基频包络进行可训练的描述，以捕捉不同说话人在发声过程中的不同语境下的不同音调表现，并能够在合成时对状态模型生成的基频包络进行修正，改善合成语音的音调准确率，进而提高可懂度和韵律表现力。为此，本发明构建一种用于汉语语音合成的音调修正方法。

为实现上述目的，本发明的一种用于汉语语音合成的音调修正方法，利用各种计算机和数字设备的输入，将所接收到的任意文字串转化为语音输出，其特征在于：由离线训练模块和参数语音合成模块组成，其中：

具有一离线训练模块，负责参考音调模型和增益、基频、声道谱和时长的参数生成模型的训练；

具有一参数语音合成模块，输入端接受文本信息，负责进行文本分析并根据文本分析的结果生成增益、声道谱系数序列和音调修正的基频序列，并进一步合成语音信号；具有一输出端输出合成的语音信号；

根据本发明的实施例，所述离线训练模块包括：

具有一参考音调模型训练模块，负责提取训练语料的参数化音调，使用基于上下文的隐马尔科夫模型进行参考音调模型的训练；

具有一连续隐马尔科夫训练模块，使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练；

具有一多空间隐马尔科夫模型训练模块，使用多空间概率隐马尔科夫模型进行基频生成模型的训练。

根据本发明的实施例，所述参考音调模型训练模块包括：

具有一基频提取模块，负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线；

具有一基频参数化模块，负责对全部训练语料的基频进行以音节为单位的参数化表示；

具有一基于上下文的参考音调模型训练模块，负责训练得到基于完整上下文的参考音调模型；

具有一基于上下文的决策树聚类模块，负责根据上下文特征对参考音调模型进行决策树聚类；

根据本发明的实施例，所述基频参数化模块包括：

具有一基频归一化模块，负责对训练语料的基频进行归一化处理，具有一输出端负责输出归一化后的分段基频包络；

具有一基频参数提取模块，负责对归一化的基频包络进行参数化表示，具有一输出端负责输出归一化分段基频的包络参数；

根据本发明的实施例，所述基于上下文的参考音调模型训练模块包括：

具有一上下文信息统计模块，负责统计训练语料中不同上下文的数目；

具有一均值累加计算模块，负责针对输入的每条训练语料进行相应模型均值的累加计算；

具有一方差计算模块，负责计算参考音调模型的全局方差；

具有一状态累加模块，负责统计每种上下文模型在训练语料中出现的次数；

根据本发明的实施例，所述参数语音合成模块包括：

具有一文本分析模块，负责接收所要合成的任意文字串，进行音节和韵律层级结构分析，具有一输出端负责输出完整的合成标注信息；

具有一时长预测模块，负责接收文本分析模块输出的合成标注信息，使用时长生成模型进行状态时长预测，具有一输出端负责输出状态时长预测结果；

具有一基频预测模块，负责接收文本分析模块输出的合成标注信息，使用基频生成模型进行清浊音判决、基频包络预测和逆归一化因子的计算；

具有一音调调整模块，负责接收基频预测模块的清浊音判决结果、基频包络预测结果和逆归一化因子，使用参考音调模型计算参考基频包络，并进行基频包络修正；

具有一声道参数生成模块，负责接收文本分析模块输出的合成标注信息，使用增益和声道谱参数生成模型，计算增益和声道谱参数序列；

具有一波形生成模块，负责接收音调调整模块输出的修正基频包络和声道参数生成模块输出的基频、增益和声道谱参数序列，使用相应的滤波器合成语音波形；

根据本发明的实施例，所述基频预测模块包括；

具有一清浊音判决模块，根据多空间基频生成模型中清音空间和浊音空间的权重比，进行状态清浊音判决；

具有一基频包络预测模块，根据清浊音判决结果计算浊音部分的基频值；

具有一逆归一化因子计算模块，根据浊音部分的基频值计算逆归一化因子；

根据本发明的实施例，所述音调调整模块包括：

具有一音调预测模块，负责接收文本分析模块输出的合成标注信息，使用参考音调模型计算音节音调参数；

具有一逆参数化模块，负责接收音调预测模块输出的音节音调参数，生成参考基频包络；

具有一基频修正模块，负责接收逆参数化模块输出的参考基频包络，生成修正的基频包络；

根据本发明的实施例，所述逆参数化模块包括：

具有一包络重构模块，负责接收音调预测模块输出的音节音调参数，进行基频包络重构；

具有一逆归一化模块，负责接收包络重构模块输出的基频包络和逆归一化因子计算模块输出的逆归一化因子，进行参考基频包络的计算；

本发明的有益效果：本发明的第一方面，为实现上述目的，在该方法中，使用音节基频包络的参数化表示进行统计建模，解决状态模型中各个状态独立带来的基频建模不连续问题。通过在训练过程中考虑上下文语境，充分的对不同语境下的音调基频变化进行了估计。

本发明的第二方面，为实现上述目的，本发明再合成阶段，设计了一个音调基频修正算法：利用参考音调模型预测一个音调基频包络，并根据基频生成模型得到逆归一化因子，进一步得到参考基频包络，使用参考基频包络对生成的基频值进行修正。通过上述算法，既保留了不同上下文语境中基频的变化趋势，又提高了生成语音的音调准确率，改善了可懂度和韵律表现力。

附图说明

通过以下结合附图的详细描述，本发明的上述和其他方面、特征和优点将变得更加显而易见。附图中：

附图1是本发明所提出的用于汉语语音合成的音调修正方法的总体框图

附图2是本发明离线训练模块的框图

附图3是本发明参考音调模型训练模块的框图

附图4是本发明基频参数化模块的框图

附图5是本发明基于上下文的参考音调模型训练模块的框图

附图6是本发明参数语音合成模块的框图

附图7是本发明基频预测和音调调整模块的框图

图中1.训练语音库，2.离线训练模块，3.参考音调模型，4.合成参数模型，5.文本输入，6.参数语音生产模块，7.合成语音输出，8.参考音调模型训练模块，9.连续隐马尔科夫训练模块，10.多空间隐马尔科夫模型训练模块，11.基频提取模块，12.基频参数化模块，13.基于上下文的参考音调模型训练模块，14.基于上下文的决策树聚类模块，15.训练语音提取的基频，16.基频参数提取模块，18.是否处理完所有语料？，19.归一化分段基频的包络参数，20.上下文信息统计模块，21.均值累加计算模块，22.状态累加模块，23.是否处理完所有模型？，24.方差计算模块，25.文本分析模块，26.时长预测模块，27.基频预测模块，28.音调调整模块，29.声道参数生成模块，30.波形生成模块，31.合成标注信息，32.清浊音判决模块，33.基频包络预测模块，34.逆归一化因子计算模块，35.音调预测模块，36.包络重构模块，37.逆归一化模块，38.基频修正模块，39.修正基频包络，40.逆参数化模块。

具体实施方式

下面结合附图和实例对本发明进一步说明，通过结合附图对方法各关键步骤的详细说明将会更好地描述实现本发明的步骤和过程。应该指出，所描述的实例仅仅视为说明的目的，不是对本发明的限制。

附图1是本发明所提出的用于汉语语音合成的音调修正方法示意图。实现的方法以标准C语言编写，在windows平台和unix平台下均可编译运行。在附图1本发明的优选实施方案中，本方法分为两个部分：离线训练模块2和参数语音合成模块6组成。其中，离线训练模块2与参数语音合成模块6无连接，仅用于线下生成语音合成系统所使用的参考音调模型3和合成参数模型3。

具有一离线训练模块2，负责参考音调模型和增益、基频、声道谱和时长的参数生成模型的训练；

具有一参数语音合成模块6，输入端接受文本信息，负责进行文本分析并根据文本分析的结果生成增益、声道谱系数序列和音调修正的基频序列，并进一步合成语音信号；具有一输出端输出合成的语音信号。

如附图2离线训练模块的框图所示，离线训练模块2由参考音调模型训练模块8、连续隐马尔科夫训练模块9、多空间隐马尔科夫模型训练模块10组成。

参考音调模型训练模块8：负责对每条训练语料中的每个音节提取归一化基频包络参数，并训练参考音调模型。

连续隐马尔科夫训练模块9：使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练。本发明的应用于以音节为建模基元的合成系统中，因此本实例采用隐半马尔科夫模型(HSMM)作为音节基元参数模型，模型状态数为12，其中包含1个入口状态和1个出口状态，中间10个状态输出声学参数。采用基于加权自适应谱插值(STRAIGHT)的24维美尔广义倒谱系数(MGC)。

多空间隐马尔科夫模型训练模块10：使用多空间概率隐马尔科夫模型进行基频生成模型的训练。本实例采用对数基频作为基频的表示方法，在多空间概率模型中，采用一个0维的清音空间和一个1维的浊音空间对清浊音在统一的框架下进行基频建模。

如附图3参考音调模型训练模块的框图所示，参考音调模型训练模块8由基频提取模块11，基频参数化模块12，基于上下文的参考音调模型训练模块13，基于上下文的决策树聚类模块14组成。

基频提取模块11：负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线。本实例采用基于STRAIGHT的基频提取算法。

基频参数化模块12：负责对全部训练语料的基频进行以音节为单位的参数化表示。

基于上下文的参考音调模型训练模块13：负责训练得到基于完整上下文的参考音调模型。

基于上下文的决策树聚类模块14：负责根据上下文特征对参考音调模型进行决策树聚类。本实例采用分类回归树(CART)进行基于上下文的音调模型聚类，采用最大似然准则(ML)作为节点分裂准则，采用最小描述长度准则(MDL)作为聚类终止准则。

如附图4基频参数化模块的框图所示，基频参数化模块12由基频归一化模块16，基频参数提取模块17组成。

基频归一化模块16：负责对训练语料的基频进行归一化处理，具有一输出端负责输出归一化后的分段基频包络。归一化基频的计算方法为：

nF0_t＝F0_t*nf

其中，nf为归一化因子。采用按句子级别的归一化方法，其计算方法为：

nf = \frac{1}{\frac{1}{\underset{t &Element; v_{t} &equiv; 1}{Σ} 1} \underset{t &Element; v_{t} &equiv; 1}{Σ} F 0_{t}}

基频参数提取模块17：负责对归一化的基频包络进行参数化表示，具有一输出端负责输出归一化分段基频的包络参数。本实例中采用离散余弦变换(DCT)作为归一化分段基频的包络参数化表示方法，其计算方法为：

c_{m} = \frac{2}{T_{s}} Σ_{t = 0}^{T_{s} - 1} nF 0_{t} \cos [\frac{π}{T_{s}} m (t + \frac{1}{2})]

其中cm为第m维DCT系数，Ts为第s段归一化基频包络的长度。在本实例中，采用7维DCT参数作为音节基频包络的表示方法。

如附图5基于上下文的参考音调模型训练模块13由上下文信息统计模块20，均值累加计算模块21，方差计算模块24，状态累加模块22组成。

上下文信息统计模块20：负责统计训练语料中不同上下文的数目，考虑到的语境参数越多，则分类越细致。本实例考虑的语境参数为三音节的声韵母、音调、本音节所在韵律结构在韵律层级中的位置和数目。最终得到的上下文数目即是基于上下文的参考音调模型的数目。

均值累加计算模块21：负责针对输入的每条训练语料进行相应模型均值的累加计算。在本实例中，采用单高斯模型作为DCT系数的统计模型，将均值作为高斯模型的均值，其中某个模型的均值计算方法为：

μ = \frac{1}{N} Σ_{n = 1}^{N} c_{n}

其中cn为属于这种上下文模型的一个DCT样本矢量，N为属于这种上下文模型的所有样本的数目。

方差计算模块24：负责计算参考音调模型的全局方差。本实例采用对角方差矩阵的单高斯模型，使用全局方差作为每一个上下文模型的方差矢量。其计算方法为：

σ = \frac{1}{L} Σ_{l = 1}^{L} Σ_{n = 1}^{N_{l}} {(c_{n} - μ)}^{2}

状态累加模块22：负责统计每种上下文模型在训练语料中出现的次数。其结果将用于基于上下文的决策树聚类模块14。

如附图6参数语音合成模块2由文本分析模块25，时长预测模块26，基频预测模块27，音调调整模块28，声道参数生成模块29，波形生成模块30组成。

文本分析模块25：负责接收所要合成的任意文字串，进行音节和韵律层级结构分析，具有一输出端负责输出完整的合成标注信息。

时长预测模块26：负责接收文本分析模块输出的合成标注信息，使用时长生成模型进行状态时长预测，具有一输出端负责输出状态时长预测结果。

基频预测模块27：负责接收文本分析模块输出的合成标注信息，使用基频生成模型进行清浊音判决、基频包络预测和逆归一化因子的计算。

音调调整模块28：负责接收基频预测模块的清浊音判决结果、基频包络预测结果和逆归一化因子，使用参考音调模型计算参考基频包络，并进行基频包络修正。

声道参数生成模块29：负责接收文本分析模块输出的合成标注信息，使用增益和声道谱参数生成模型，计算增益和声道谱参数序列。

波形生成模块30：负责接收音调调整模块输出的修正基频包络和声道参数生成模块输出的基频、增益和声道谱参数序列，使用相应的滤波器合成语音波形。本实例中，首先对生成的声道谱MGC序列进行后滤波，然后采用美尔对数谱近似(MLSA)滤波器进行声音信号的生成。

如附图7基频预测模块27由清浊音判决模块32，基频包络预测模块33，逆归一化因子计算模块34组成。

清浊音判决模块32根据多空间基频生成模型中清音空间和浊音空间的权重比，进行状态清浊音判决。本实例中，采用优选清浊音转换点的方法，使得每个汉语音节中只包含一个清音到浊音的转换点，采用的清浊音判决阈值为0.4。

基频包络预测模块33根据清浊音判决结果计算浊音部分的基频值。

逆归一化因子计算模块34根据浊音部分的基频值计算逆归一化因子。逆归一化采用句子级别的逆归一化方法，其因子计算方法为：

nf = \frac{1}{\underset{t &Element; v_{t} &equiv; 1}{Σ} 1} \underset{t &Element; v_{t} &equiv; 1}{Σ} F 0_{t}

如附图7音调调整模块28由音调预测模块35，逆参数化模块40，基频修正模块38组成。

音调预测模块35负责接收文本分析模块输出的合成标注信息，使用参考音调模型计算音节音调参数。在本实例中，该模块输出每个合成音节的DCT系数预测结果。

逆参数化模块40负责接收音调预测模块输出的音节音调参数，生成参考基频包络。

基频修正模块38负责接收逆参数化模块输出的参考基频包络，具有一输出端输出修正的基频包络。修正过程由一个经验化修正因子控制，修正方法为：

F0′_t＝F0_t+α(F0″_t-F0_t)

其中F0t为基频包络预测模块33输出的基频值，F0”t为参考基频包络中的基频值，F0’t为修正后的基频值。

如附图7逆参数化模块40由包络重构模块36，逆归一化模块37组成。

包络重构模块36：负责接收音调预测模块输出的音节音调参数，进行基频包络重构。本实例中采用DCT作为基频包络表示方法，因此在重构时使用逆DCT进行参考包络的求取，其计算方法为：

nF 0_{t}^{''} = \frac{1}{2} c_{0} + Σ_{m = 1}^{M} c_{m} \cos [\frac{π}{T} m (t + \frac{1}{2})]

其中T为所重构的音节基频包络长度。

逆归一化模块37：负责接收包络重构模块输出的基频包络和逆归一化因子计算模块输出的逆归一化因子，进行参考基频包络的计算。

F0″_t＝nF0_t*nf

上述实施例为本发明的较佳实施例，本发明的应用不仅限于计算机终端，还可以应用到嵌入式设备和各种其他手持和移动设备中。根据本发明的主要构思，本领域普通技术人员均可以生产多种类似的或等价的应用，为此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围内的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1.一种用于汉语语音合成的音调修正方法，利用各种计算机和数字设备的输入，将所接收到的任意文字串转化为语音输出，其特征在于：由离线训练模块和参数语音合成模块组成，其中：

所述离线训练模块负责参考音调模型和增益、基频、声道谱和时长的参数生成模型的训练；所述离线训练模块包括参考音调模型训练模块、连续隐马尔科夫训练模块和多空间隐马尔科夫模型训练模块，其中：

所述参考音调模型训练模块，负责提取训练语料的参数化音调，使用基于上下文的隐马尔科夫模型进行参考音调模型的训练；所述参考音调模型训练模块包括基频提取模块、基频参数化模块、基于上下文的参考音调模型训练模块和基于上下文的决策树聚类模块，其中：

所述基频提取模块，负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线；

所述基频参数化模块，负责对全部训练语料的基频进行以音节为单位的参数化表示；

所述基于上下文的参考音调模型训练模块，负责训练得到基于完整上下文的参考音调模型；

所述基于上下文的决策树聚类模块，负责根据上下文特征对参考音调模型进行决策树聚类；

所述连续隐马尔科夫训练模块，使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练；

所述多空间隐马尔科夫模型训练模块，使用多空间概率隐马尔科夫模型进行基频生成模型的训练；

所述参数语音合成模块，输入端接受文本信息，负责进行文本分析并根据文本分析的结果生成增益、声道谱系数序列和音调修正的基频序列，并进一步合成语音信号；具有一输出端输出合成的语音信号。

2.根据权利要求1所述的一种用于汉语语音合成的音调修正方法，其特征在于：所述基频参数化模块包括：

具有一基频参数提取模块，负责对归一化的基频包络进行参数化表示，具有一输出端负责输出归一化分段基频的包络参数。

3.根据权利要求1所述的一种用于汉语语音合成的音调修正方法，其特征在于：所述基于上下文的参考音调模型训练模块包括：

具有一方差计算模块，负责计算参考音调模型的全局方差；

具有一状态累加模块，负责统计每种上下文模型在训练语料中出现的次数。

4.根据权利要求1所述的一种用于汉语语音合成的音调修正方法，其特征在于：所述参数语音合成模块包括：

具有一波形生成模块，负责接收音调调整模块输出的修正基频包络和声道参数生成模块输出的基频、增益和声道谱参数序列，使用相应的滤波器合成语音波形。

5.根据权利要求4所述的一种用于汉语语音合成的音调修正方法，其特征在于：所述基频预测模块包括；

具有一逆归一化因子计算模块，根据浊音部分的基频值计算逆归一化因子。

6.根据权利要求4所述的一种用于汉语语音合成的音调修正方法，其特征在于：所述音调调整模块包括：

具有一基频修正模块，负责接收逆参数化模块输出的参考基频包络，生成修正的基频包络。

7.根据权利要求6所述的一种用于汉语语音合成的音调修正方法，其特征在于：所述逆参数化模块包括：

具有一逆归一化模块，负责接收包络重构模块输出的基频包络和逆归一化因子计算模块输出的逆归一化因子，进行参考基频包络的计算。