CN102222501B

CN102222501B - 语音合成中时长参数的生成方法

Info

Publication number: CN102222501B
Application number: CN201110160419XA
Authority: CN
Inventors: 陶建华; 潘诗锋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-06-15
Filing date: 2011-06-15
Publication date: 2012-11-07
Anticipated expiration: 2031-06-15
Also published as: CN102222501A

Abstract

本发明涉及一种语音合成中时长参数的生成方法，用于基于隐马尔可夫模型的语音合成中进行状态时长参数的生成，对于输入的上下文相关隐马尔可夫模型序列生成各模型的各个状态的时长，即各状态的驻留时间，在生成状态时长参数时结合了隐马尔可夫模型中的状态时长模型和时长整体方差模型。创建时长整体方差模型训练语料库，利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本，利用整体方差训练样本训练时长整体方差模型。本发明较好的克服了基于隐马尔可夫模型的语音合成中生成的状态时长参数过于平均的问题，合成结果在时长分布上更加自然、具有表现力。

Description

语音合成中时长参数的生成方法

技术领域

本发明涉及一种基于隐马尔可夫模型(Hidden Markov Model，HMM)语音合成中的状态时长参数生成方法，尤指一种结合时长整体方差的状态时长参数生成方法。

背景技术

和谐人机交互技术一直都是人们关注的对象，而语音合成技术则是其重要组成部分，其目标是使得计算机能够像人一样产生自然的语音。由于语音是人类交流的重要手段，是互相传递信息最直接、最有效的手段，因此，其研究成果对自然和谐的人机交互等方向的发展具有重要的意义

作为语音合成中的一个主流方法，基于HMM的语音合成因为具有输出语音平滑、稳定，适合实现多种发音风格的控制，合成系统构建的自动化程度很高，计算和存储资源需求小等优点而获得了极为广泛的应用。然而，目前基于HMM的语音合成方法生成的语音在韵律表现上较为平淡，一个重要的原因就是各个音节的时长分布过于平均，显得较为机械化，而相比而言自然语流中音节时长的分布则明显长短错落有致。这是由于统计参数语音合成中对语音参数进行统计建模时，是基于短时结构的，它能对短时的语音特征参数进行较好的统计建模，但缺乏对更高韵律层级上特征信息的有效获取和建模，从而在生成时长参数时无法给予各个语音单元来自高韵律级别上的指导和约束，导致时长分布的过于平均。

为了克服基于HMM的语音合成中生成的状态时长参数过平均的问题，有学者提出了将HMM状态时长模型与声韵母时长模型相结合的方法进行状态时长的生成(吴义坚，王仁华.基于HMM的可训练中文语音合成.中文信息学报.2006年04期)。该方法通过加入声韵母时长模型似然值的约束来抑制生成的状态时长参数过平均的问题。尽管该方法能够在一定程度上抑制生成的状态时长参数过平均的问题，不过由于所建立的声韵母时长模型也存在较强的统计平均，且声韵母单元也是一种较短的语音单元，而对普通话感知而言音节才是更加重要的语音单元，因此该方法对状态时长参数过平均问题的抑制能力有限。

发明内容

为了解决当前基于HMM的语音合成中生成的时长参数过于平均从而导致合成语音自然度质量下降的技术问题，本发明目的是要提出一种方法，可以在高层韵律级别上(如短语级别、句子级别等，而非HMM建模中常用的音素单元)对语音单元时长的分布进行统计建模；在状态时长参数生成阶段，在传统HMM状态时长模型基础之上结合该模型进行时长参数的生成，后者将惩罚单纯由HMM时长模型生成的时长参数在高韵律层级上与自然语音时长分布特点的不匹配从而抑制生成的时长参数过于平均的问题。

为实现上述目的，本发明采用整体方差来对训练语句在句子级别上统计语音单元时长的分布性，构建一个上下文相关的时长整体方差模型；在状态时长参数生成阶段中最大化由HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数。

本发明提供的语音合成中状态时长参数的生成方法，所述生成状态时长参数的步骤包括：

步骤Sa：对待合成的文本进行文本分析，提取与HMM模型相关的上下文特征信息以及与时长整体方差模型相关的上下文特征信息，根据整体方差建模规范中确定的上下文特征信息项对待合成文本进行与时长整体方差模型相关的上下文特征信息提取，将与HMM模型相关的上下文特征信息依序组合成为上下文相关的HMM模型序列；

步骤Sb：利用HMM状态时长模型集对上下文相关的HMM模型序列进行决策，得到HMM状态时长模型序列；

步骤Sc：利用时长整体方差模型集对提取出的时长整体方差模型相关的上下文特征信息进行决策，得到一个时长整体方差模型；

步骤Sd：通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数；其中在计算时长整体方差模型似然值时，时长整体方差值的计算需根据整体方差建模规范中确定的语音单元级别来生成该语音单元级别上的时长整体方差值。

优选地，构建时长整体方差模型的步骤包括：

创建时长整体方差模型训练语料库，选择合适的时长整体方差建模规范，利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本；

训练生成时长整体方差模型是利用全部时长整体方差训练样本进行时长整体方差模型的估计；

基于HMM状态时长模型和训练得到的时长整体方差模型执行生成状态时长参数。

优选地，所述选择合适的时长整体方差建模规范是确定时长整体方差建模的语音单元级别；确定与时长整体方差相关的上下文特征信息项。

优选地，所述时长整体方差训练样本是对每个训练语句根据整体方差建模规范中确定的语音单元级别生成该语音单元级别上的时长整体方差值；根据整体方差建模规范中确定的上下文特征信息项生成每个训练语句的上下文特征信息。

优选地，所述时长整体方差模型训练是生成一组上下文相关的时长整体方差模型集。

本发明的有益效果：本发明采用整体方差来度量高层韵律层级级别中各个语音单元时长的分布性。因为自然语音中各语音单元(如音节)的时长长短分布错落有致，听感自然流畅；HMM语音合成中生成的语音，虽然每个语音单元的时长都很平稳，但从总体上来看其分布则较为平均，表现力不足。而整体方差则可以较好的区分出这两种语音在整体上的差异。实验统计数据表明前者的总体方差明显大于后者。因此在模型训练阶段，除了进行HMM模型训练，还对训练数据中的时长总体方差也进行建模，该模型与HMM模型中时长模型一并在高韵律层级和短时结构上对时长信息进行联合建模。

本发明的在语音合成阶段中的时长参数生成阶段，建立一个由HMM时长模型的似然值和时长整体方差模型的似然值组成的似然函数，后者可以惩罚生成的时长参数在整体方差上的降低；通过最大化这样一个似然函数来生成的时长参数可以使得时长过平均的问题得到改善，从而合成语音的提高表现力。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中：

图1是本发明基于隐马尔可夫模型的语音合成中结合时长整体方差的时长参数生成方法的执行过程示意图。

图2是本发明基于隐马尔可夫模型的语音合成中结合时长整体方差的时长参数生成方法的模型训练示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1示出本发明基于隐马尔可夫模型的语音合成中结合时长整体方差的时长参数生成方法的模型训练示意图，具体的训练步骤包括：创建时长整体方差模型训练语料库、提取时长整体方差训练样本、训练生成时长整体方差模型。

如图2示出本发明基于隐马尔可夫模型的语音合成中结合时长整体方差的时长参数生成方法的执行过程示意图，具体的执行过程步骤包括：文本、文本分析、时长整体方差模型、隐马尔可夫模型中的状态时长模型、状态时长参数生成算法、状态时长参数。

下面结合附图来说明本发明的优选实施例。

续请参考图1所示：训练步骤：创建整体方差模型训练语料库，利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本，利用整体方差训练样本训练时长整体方差模型；

续请参考图2所示：执行过程步骤：对于待合成的文本，进行文本分析提取与HMM模型相关的上下文特征信息以及与时长整体方差模型相关的上下文特征信息，将与HMM模型相关的上下文特征信息依序组合成为上下文相关的HMM模型序列；根据提取出的带上下文特征信息的HMM模型序列，通过HMM时长模型集决策出与其相对应的HMM状态时长模型序列；根据提取出的时长整体方差模型相关的上下文特征信息，通过时长整体方差模型集决策出与其相对应的时长整体方差模型；通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数。

下面根据本发明从五个方面叙述优选实施例：1.创建时长整体方差训练语料库，2.时长整体方差训练样本提取，3.训练生成时长整体方差模型，4.系统实现。

1.创建时长整体方差训练语料库

根据本发明，所述训练语料库：选用一个标注有韵律短语边界信息的文本语料库及按此语料库进行录音的语音库。要求，标注韵律短语边界一定是要从感知上能感觉到明显的停顿的，且语音库中每句录音需要有音节边界位置标注信息。

例如文本标注实例：

其中，‘|’表示韵律短语的位置。

语音音节边界标注实例：

250ms他

150ms又

其中前面一项为音节的时长，后一项为音节对应的汉字。

2.时长整体方差训练样本提取

包括：选择合适的时长整体方差建模规范，利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本。

所述选择合适的时长整体方差建模规范，是确定以何种尺寸的语音单元以基本单元进行时长整体方差的统计，可选的单元包括音素、声韵母、音节；以及确定与时长整体方差相关的上下文特征信息项，可选的上下文特征信息项包括整个语句中音节个数，整个语句中韵律短语的个数，最短韵律短语中的音节个数、最长韵律短语中的音节个数。

具体地，在本实施例中，选择以音节为基本单元进行时长整体方差的统计；与时长整体方差相关的上下文特征信息项选择整个语句中音节个数以及整个语句中韵律短语的个数。

所述生成时长整体方差训练样本，是按照确定的时长整体方差建模规范利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本，包括时长整体方差值及其对应语句的上下文特征信息。

具体地，所述整体方差计算方法为：

v (d) = \frac{1}{R} Σ_{r = 1}^{R} {(d_{r} - \overset{&OverBar;}{d})}^{2} - - - (1)

\overset{&OverBar;}{d} = \frac{1}{R} Σ_{r = 1}^{R} d_{r} - - - (2)

公式(1)中，d＝[d₁，d₂，...d_r，d_R]^T为一个语句中全部R个音节的时长组成的向量，d_r为第r个音节的时长，v(d)为对时长向量d计算得到的时长整体方差，

为R个音节的时长均值，可根据公式(2)计算得到。

3.训练生成时长整体方差模型

所述训练生成时长整体方差模型，是训练生成一组上下文相关的整体方差模型集；

每一个上下文相关的整体方差模型的分布都采用一个单高斯分布

其中μv为均值，

为方差。

4.系统实现

如图2所示：基于HMM状态时长模型和训练得到的时长整体方差模型执行生成状态时长参数。

具体地，对于待合成的文本，进行文本分析提取与HMM模型相关的上下文特征信息以及与时长整体方差模型相关的上下文特征信息，将与HMM模型相关的上下文特征信息依序组合成为上下文相关的HMM模型序列；

具体地，根据提取出的带上下文特征信息的HMM模型序列，通过HMM时长模型集决策出与其相对应的HMM状态时长模型序列；

具体地，根据提取出的时长整体方差模型相关的上下文特征信息，通过时长整体方差模型集决策出与其相对应的时长整体方差模型；

具体地，通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数；

该似然函数如下所示：这个似然函数在权利要求的步骤Sd中有一句话描述，即“通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数”，

L＝log(P(d|λ_d)P(v(d)|λ_v)^ω) (3)

其中，L为似然函数值，λ_d为HMM状态时长模型，λ_v为时长整体方差模型，ω为时长整体方差似然值在整个似然函数中占的权重；d＝[d₁，d₂，...d_r，d_R]^T为待合成语句中全部R个音节的时长组成的向量，v(d)为对d计算得到的整体方差，d为全部R个音节中各个HMM模型的各个状态时长d_ikj组成的向量，P(d|λ_d)为d相对于HMM状态时长模型λ_d的似然值，P(v(d)|λ_v)为v(d)相对于时长整体方差模型λ_v的似然值，log(·)为取对数函数，音节时长(即d中的元素)和状态时长(即d中的元素)的关系为：

d_{i} = Σ_{k = 1}^{K_{i}} Σ_{j = 1}^{N} d_{ikj} - - - (4)

公式(4)中d_i为第i个音节的时长，K_i为第i个音节中含有的HMM模型的数量，N为HMM拓扑状态数，d_ikj为第i个音节中第k个HMM的第j个状态的时长。

最优时长参数d^＊是使得以上似然函数L最大化时的时长参数，即

d^{*} = \arg \max_{d} L - - - (5)

由于公式(5)无法解析求解，可以通过梯度下降方法来迭代求解，即

d^{(i + 1) - th} = d^{(i) - th} + {\frac{&PartialD; L}{&PartialD; d} |}_{d = d^{(i) - th}} - - - (6)

其中d^(i)-th为第i次迭代之后的时长参数向量，d^(i+1)-th为第(i+1)次迭代之后的时长参数向量，

为梯度向量，梯度向量中的每一项元素可由下式计算：

\frac{&PartialD; L}{&PartialD; d_{ikj}} = - σ_{ikj}^{- 2} (d_{ikj} - μ_{ikj}) - \frac{2 ω σ_{v}^{- 2}}{R} (v (d) - μ_{v}) (d_{i} - \overset{&OverBar;}{d}) - - - (7)

其中

为似然函数L相对于状态时长d_ikj的梯度值，μ_ikj和

分别为第i个音节中第k个HMM的第j个状态的时长分布均值和方差，μ_v和

为时长整体方差分布的均值和方差，R为该合成语句中音节的个数，v(d)、d_i和分别为时长整体方差，第i个音节的时长和全部音节时长的均值，其表达式如公式(1)、(4)和(2)所示。

当迭代收敛时，即可得到最优的状态时长参数。

基于HMM的可训练中文语音合成的技术方案叙述如下：

似然函数定义为：

L = Σ_{n = 1}^{N} (Σ_{k = 1}^{K_{n}} \log p_{n, k} (d_{n, k}) + ω \log p_{n} (d_{n})) - - - (8)

其中L为似然函数值，N为待合成语句中声韵母单元的个数，K_n为第n个声韵母单元中包含的HMM状态个数，d_n，k为第n个声韵母单元中第k个HMM状态的时长，p_n，k(d_n，k)为d_n，k相对于第n个声韵母单元中第k个HMM状态时长模型的似然值，d_n为第n个声韵母单元的时长，p_n(d_n)为d_n相对于第n个声韵母单元时长模型的似然值，ω为权重，log()为取对数函数，d_n和d_n，k之间的关系为：

d_{n} = Σ_{k = 1}^{K_{n}} d_{n, k} - - - (9)

其中K_n为第n个声韵母单元中包含的HMM状态个数。

最大化公式(8)所定义的似然函数即可获得最优状态时长参数。当HMM状态时长模型和声韵母单元时长模型均采用高斯分布，即第n个声韵母单元的第k个状态的时长模型采用均值为m_n，k方差为

的高斯分布

声韵母单元时长模型采用均值为m_n方差为

的高斯分布该最优解可以表示为：

d_{n, k} = m_{n, k} + ρ_{n} σ_{n, k}^{2} - - - (10)

ρ_{n} = \frac{ω (m_{n} - Σ_{k = 1}^{K_{n}} m_{n, k})}{σ_{n}^{2} + ω Σ_{k = 1}^{K_{n}} σ_{n, k}^{2}} - - - (11)

其中d_n，k为第n个声韵母单元中第k个HMM状态的时长，m_n，k和分别为第n个声韵母单元的第k个HMM状态的时长模型的均值和方差，m_n和声韵母单元时长模型的均值和方差，K_n为第n个声韵母单元中包含的HMM状态个数，ω为权重。

本发明提出了基于隐马尔可夫模型的语音合成中一种新的状态时长参数生成方法，结合时长整体方差的时长参数生成方法。基于隐马尔可夫模型的语音合成中传统的状态时长参数生成方法是根据HMM状态时长模型来确定的，由于HMM的状态时长模型的建立是基于短时结构，缺乏对更高韵律层级上时长分布特征信息的有效获取和建模，从而导致时长分布的过于平均。而时长整体方差模型则是在句子级别上对全部音节时长的分布特征进行了统计建模，因此较好的描述了整句语句中各音节时长的分布特点。将时长整体方差模型与HMM状态时长模型结合起来进行状态时长参数的生成，使得生成的状态时长在具有较好稳定性的基础(由HMM状态时长模型贡献)上具有更好的长短分布特性(由时长整体方差模型贡献)，合成语音在时长方面更加自然，具有表现力。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内。

Claims

1.语音合成中时长参数的生成方法，其特征在于，所述语音合成中时长参数的生成步骤包括：

2.如权利要求1所述的语音合成中时长参数的生成方法，其特征在于：所述得到一个时长整体方差模型的步骤包括：

3.根据权利要求2所述的语音合成中时长参数的生成方法，其特征在于，所述选择合适的时长整体方差建模规范是确定时长整体方差建模的语音单元级别；确定与时长整体方差相关的上下文特征信息项。

4.根据权利要求2所述的语音合成中时长参数的生成方法，其特征在于，所述时长整体方差训练样本是对每个训练语句根据整体方差建模规范中确定的语音单元级别生成该语音单元级别上的时长整体方差值；根据整体方差建模规范中确定的上下文特征信息项生成每个训练语句的上下文特征信息。

5.根据权利要求1所述的语音合成中时长参数的生成方法，其特征在于，所述时长整体方差模型是生成一组上下文相关的时长整体方差模型集。