CN101178896B

CN101178896B - 基于声学统计模型的单元挑选语音合成方法

Info

Publication number: CN101178896B
Application number: CN2007101910786A
Authority: CN
Inventors: 凌震华; 胡郁; 胡国平; 吴晓如; 刘庆峰; 王仁华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2007-12-06
Filing date: 2007-12-06
Publication date: 2012-03-28
Anticipated expiration: 2027-12-06
Also published as: CN101178896A

Abstract

本发明涉及基于声学统计模型的单元挑选语音合成方法，其方法包括提取训练语料库各声学特征；结合训练语料库中各句话的音段、韵律等标注信息，训练各种声学特征所对应的统计模型，在合成时通过对输入文本进行文本分析，得到待合成句子中各音素对应的各种声学特征的统计模型。以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则，搜索最优的备选单元；使用声学统计模型间的KLD来实现合成单元的快速预挑选；最终通过对各个音素的最优备选单元的波形进行平滑和拼接，得到该句话的合成语音。本发明提高合成语音音质；同时提高传统拼接合成方法的合成效果，并且可以实现系统的自动构建和语种的无关性。

Description

基于声学统计模型的单元挑选语音合成方法

技术领域

本发明涉及波形拼接语音合成中的单元挑选方法，具体是通过设计、训练一组声学统计模型来指导语音片断单元的挑选方法。

背景技术

语音合成是实现自然高效的人机交互的一项重要技术。现今最为常见的语音合成方法有两种，一种是基于单元挑选与波形拼接的合成方法，另外一种是基于声学统计模型的参数合成方法。

在传统的单元挑选算法中，目标代价与连接代价往往是通过计算单元间的上下文属性的差异或者备选单元声学参数与预测目标之间的距离来实现的。这样造成的结果是，代价函数的设计往往需要语种相关的语音学专家的参与，进行大量的手工调试，使得系统构建的自动化程度收到限制；并且设计的代价函数难以保证普适性，往往会产生合成效果不稳定的问题。

近十年来，一种基于统计声学模型(主要是隐马尔柯夫模型，Hidden MarkovModel，HMM)的参数语音合成方法，得到了迅速的发展。这种方法分为训练和合成两个阶段。在模型训练阶段，得到各音素在不同上下文环境下所对应的频谱和基频参数的声学统计模型；在合成阶段，通过基于最大似然准则的参数生成方法，来预测合成语音所需的频谱和韵律参数，最终经过参数合成器生成语音。整个系统可以实现训练的自动化和语种的无关性，并且合成语音的连续性、稳定性和韵律的自然度都相当高。但是由于参数合成器的限制，使得这种合成方法最终恢复语音的音质往往不很理想。

发明的内容

本发明的目的就是将对声学参数统计建模的思想引入到单元挑选与波形拼接合成的过程中；摆脱基于统计建模的参数合成对于合成器的依赖，提高合成语音音质；同时提高传统拼接合成方法的合成效果，并且可以实现系统的自动构建和语种的无关性。

本发明是通过以下技术方案实现的：

基于声学统计模型的单元挑选语音合成方法，该方法包括以下步骤实现：

(1)对于训练语料库，提取其频谱、基频、时长的声学特征；

(2)结合训练语料库中各句话的音段、韵律标注信息，训练各个音素在不同上下文环境中，各种声学特征所对应的统计模型；

(3)在合成时通过对输入文本进行文本分析，得到待合成句子中各音素对应的各种声学特征的统计模型；

(4)在单元挑选的过程中，以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则，搜索最优的备选单元；

(5)通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离，来度量备选单元和目标单元上下文环境之间的差异程度，以此来进行合成单元的预挑选；

(6)最终通过对各个音素的最优备选单元的波形进行拼接，得到该句话的合成语音。

基于声学统计模型的单元挑选语音合成方法，所述的上述步骤(1)中在静态参数的基础上加入了表征前后帧参数变化的动态参数。

基于声学统计模型的单元挑选语音合成方法，所述的上述步骤(1)中使用的频谱参数为美尔倒谱参数。

基于声学统计模型的单元挑选语音合成方法，所述的上述步骤(1)中基频参数为对数F0数值。

基于声学统计模型的单元挑选语音合成方法，所述的上述步骤(1)中对于其中的频谱参数部分采用连续概率分布HMM进行建模，而对于基频部分采用多空间概率分布HMM进行建模。

基于声学统计模型的单元挑选语音合成方法，所述的上述步骤(2)中所使用的模型形式为隐马尔柯夫模型。

基于声学统计模型的单元挑选语音合成方法，所述的上述步骤(3)中各种声学特征的统计模型是经过文本分析后得到每个目标音素的上下文环境描述信息，然后将这些信息输入模型聚类决策树而得到的。

基于声学统计模型的单元挑选语音合成方法，所述的上述步骤(4)中满足的似然值最大准则采用如下算法得到最优备选单元：

u^{*} = \underset{u}{\arg \max} Σ_{n = 1}^{N} [W_{s} \cdot \log P (s (u_{n}) | λ_{n}^{s}) + W_{p} \cdot \log P (p (u_{n}) | λ_{n}^{p})

+ W_{d} \cdot \log P (T_{n} | λ_{n}^{d})]

(1)

其中，u^*为最优备选单元序列，其中W_s，W_p和W_d分别为频谱、基频和时长模型似然值的权值，输入的一句待合成语句中音素的个数为N；第n个目标音素(n＝1，...，N)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为λ_n ^s，λ_n ^p和λ_n ^d；对于音素n的某一个备选u_n，其对应的频谱和基频特征向量序列参数记为

s (u_{n}) = {[s_{n, 1}^{T}, . . ., s_{n, T_{n}}^{T}]}^{T}

和

p (u_{n}) = {[p_{n, 1}^{T}, . . ., p_{n, T_{n}}^{T}]}^{T}

其中T_n表示单元u_n的帧数，s_n，i和p_n，i分别表示单元u_n中第i帧对应的频谱和基频特征向量。

基于声学统计模型的单元挑选语音合成方法，所述式(1)可以改写成各个备选音素的目标代价和相邻备选音素连接代价之和的形式，再使用维特比算法实现最优单元序列的搜索。

基于声学统计模型的单元挑选语音合成方法，所述的上述步骤(5)中计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离是通过以下算式计算得出的：

KLD (u_{n}) = W_{s} \cdot KLD (λ_{n}^{5}, {\tilde{λ}}_{n}^{s}) + W_{p} \cdot KLD (λ_{n}^{p}, {\tilde{λ}}_{n}^{p}) + W_{d} \cdot KLD (λ_{n}^{d}, {\tilde{λ}}_{n}^{d})

其中

和为备选单元在其上下文环境下所对应的频谱、基频和时长模型。

基于声学统计模型的单元挑选语音合成方法，所述的上述步骤(6)中对各个音素的最优备选单元采用了平移加窗叠加的方法进行波形拼接。

基于声学统计模型的单元挑选语音合成方法，所述的平移加窗叠加的方法为：首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置，然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。

本发明通过将对声学参数统计建模的思想引入到单元挑选与波形拼接合成的过程中；摆脱基于统计建模的参数合成对于合成器的依赖，提高合成语音音质；同时提高传统拼接合成方法的合成效果，并且可以实现系统的自动构建和语种的无关性。在传统的基于统计建模的参数合成器系统中，因为统计建模的平滑作用和合成器生成语音的质量，导致了合成语音质量较差。而传统波形拼接系统因为不能充分利用统计建模思想和方法的能力，在合成语音的自然度上经常出现不自然的跳动，但是因为采用真实的波形构成语音，合成语音音质较好。该发明利用声学统计建模对数据建立了高度综合的统计模型，可以非常好的学习到自然语音中的语音规律，同时结合基于概率模型的单元选择，使在语音合成单元搜索过程中的很多权值可以自动化的进行设置，解决了系统自动构建以及不依赖语种进行系统调试的问题。同时，采用自然的波形单元进行拼接，直接利用自然语音中的细节语谱特征，不使用语音合成器，最后获得高质量的输出语音。

我们在一个28000句的中文女声音库上进行了系统建立的实验，对比了本发明中提到的方法和传统的单元挑选与波形拼接合成方法。使用两种方法分别合成11个语音合成典型应用领域内的各20句文本，由5名测听人员进行MOS分的评分，最终的评测结果可以看出，在使用了基于统计声学模型的单元挑选方法后，合成效果在所有领域内均有一致性的提升，平均的MOS分增加在0.5分左右。

术语解释：

语音合成(Text-To-Speech)：又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科，是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是：如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，目的是让计算机能够产生高清晰度、高自然度的连续语音。

最大似然估计(Maximum Likelihood Estimation)：假设随机变量X的分布函数为F(X，θ)，密度函数为p(X，θ)，θ为参数，θ＝(θ₁，...θ_m)∈Θ，X₁，...，X_n来源于分布族{F(X，θ)：θ∈Θ}，定义似然函数

L (θ) = Π_{i = 1}^{n} p (x_{i}, θ)

是θ＝(θ₁，...θ_m)的函数，若

是L(θ)的唯一最大值点，则称为θ的最大似然估计。

Kullback-Leibler距离(Kullback-Leibler Divergence，KLD)：是用来表征两个分布模型之间的差异性，假设

和

分别表示两个N维特征的统计模型，它们之间的KLD可以使用

进行计算，也可以定义对称形式的KLD为

附图说明

附图为基于统计声学模型的单元挑选合成方法流程图。

具体实施方式

参见附图所示。基于声学统计模型的单元挑选语音合成方法，其实现方法包括以下步骤：

(1).提取训练语料库的声学特征

我们这里提取的声学特征包括各帧对应的频谱、基频特征参数，这里我们使用的频谱参数为mel-cepstrum参数，基频参数为对数F0数值，并且在静态参数的基础上加入了表征前后帧参数变化的动态参数。以音素n第i帧的频谱特征s_n，i为例，

s_{n, i} = {[c_{n, i}^{T}, Δ c_{n, i}^{T}, Δ^{2} c_{n, i}^{T}]}^{T}

Δc_n，i＝-0.5c_n，i-1+0.5c_n，i+1 (2)

Δ²c_n，i＝0.25c_n，i-1-0.5c_n，i+0.25c_n，i+1 (3)

其中c_n，i为音素n第i帧频谱的静态特征。

(2).进行声学统计模型的训练

我们对于其中的频谱参数部分采用连续概率分布HMM进行建模，而对于基频部分采用多空间概率分布HMM(MSD-HMM)进行建模。HMM中各状态的观测概率密度函数均为单高斯正态分布，并且我们对所有HMM模型中的状态转移概率矩阵进行了依赖单音素的绑定。此外，在上下文相关模型训练过程中，我们还使用决策树来对频谱和基频HMM模型各状态的观测概率密度函数分别进行聚类，以保证最终模型参数估计的鲁棒性，聚类决策树使用的问题集主要依据语料库中包含的音段和韵律属性标注来进行设计。在频谱和基频参数的HMM模型训练完成以后，使用用此模型对语料库中语音数据进行帧/状态的强制对齐，并且以对齐后得到的音素切分结果为训练数据来训练音素时长的HMM模型，这里同样会使用基于决策树的模型聚类策略。

(3).待合成句音素声学统计模型的决策

在合成时，对于输入文本首先经过文本分析，得到每个目标音素的上下文环境描述信息，然后将这些信息输入模型聚类决策树，得到每个目标音素对应的频谱、基频和时长模型λ_n ^sλ_n ^p和λ_n ^d。

(4).基于声学统计模型似然值准则的单元挑选

假设输入的一句待合成语句中音素的个数为N；第n个目标音素(n＝1，...，N)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为λ_n ^s，λ_n ^p和λ_n ^d；对于音素n的某一个备选u_n，其对应的频谱和基频特征向量序列参数记为

s (u_{n}) = {[s_{n, 1}^{T}, . . ., s_{n, T_{n}}^{T}]}^{T}

和

p (u_{n}) = {[p_{n, 1}^{T}, . . ., p_{n, T_{n}}^{T}]}^{T}

其中T_n表示单元u_n的帧数，s_n，i和p_n，i分别表示单元u_n中第i帧对应的频谱和基频特征向量；这里的特征向量除了各帧声学参数对应的静态参数外，还包含依据相邻帧计算得到的动态特征；对于整句话，我们记挑选得到的备选单元序列为u＝[u₁，...，u_N]。最终，我们希望搜索得到的最优备选单元序列u^*，满足以下的似然值最大准则

u^{*} = \underset{u}{\arg \max} Σ_{n = 1}^{N} [W_{s} \cdot \log P (s (u_{n}) | λ_{n}^{s}) + W_{p} \cdot \log P (p (u_{n}) | λ_{n}^{p})

+ W_{d} \cdot \log P (T_{n} | λ_{n}^{d})]

(4)

其中W_s，W_p和W_d分别为频谱、基频和时长模型似然值的权值。为了计算s(u_n)和p(u_n)相对λ_n ^s和λ_n ^p似然值，我们需要考虑u_n对于目标模型的所有可能的帧/状态分配结果；出于简化计算的目的，这里我们使用音库中u_n的状态切分结果来作为唯一的帧/状态对齐路径。在状态分配确定以后，我们可以得到备选单元u_n的第i帧对应的正态观测概率密度函数分别为和

则式(4)可以改写为

u^{*} = \underset{u}{\arg \max} Σ_{n = 1}^{N} [W_{s} \cdot \frac{m_{n}^{d}}{T_{n}} \cdot Σ_{i = 1}^{T_{n}} LL (s_{n, i}, m_{n, i}^{s}, Σ_{n, i}^{s})

+ W_{p} \cdot \frac{m_{n}^{d}}{T_{n}} \cdot Σ_{i = 1}^{T_{n}} LL (p_{n, i}, m_{n, i}^{p}, Σ_{n, i}^{p}) + W_{d} \cdot LL (T_{n}, m_{n}^{d}, σ_{n}^{d 2})]

(5)

其中

= - \frac{D}{2} \log 2 π - \frac{1}{2} \log | Σ | - \frac{1}{2} {(o - m)}^{T} Σ^{- 1} (o - m)

(6)

式(5)中对于频谱和基频参数似然值的计算，依据备选音素时长和预测的目标时长进行了规整；式(6)中D表示特征o的维数。考虑到各帧的声学特征s_n，i和p_n，i包含有依赖于前后帧的动态参数，因此音素边界帧对应声学参数的似然值计算依赖相邻的其他音素，我们也可以据此将式(5)改写成单元挑选算法中常用的连接代价和目标代价和的形式：

u^{*} = \underset{u}{\arg \min} {Σ_{n = 1}^{N} TC (u_{n}) + Σ_{n = 2}^{N} CC (u_{n - 1}, u_{n})}

(7)

其中TC(u_n)和CC(u_n-1，u_n)分别代表单元u_n的目标代价和单元u_n-1与u_n之间的连接代价，各自的计算如下：

TC (u_{n}) = - W_{s} \cdot \frac{m_{n}^{d}}{T_{n}} \cdot Σ_{i = 2}^{T_{n} - 1} LL (s_{n, i}, m_{n, i}^{s}, Σ_{n, i}^{s})

- W_{p} \cdot \frac{m_{n}^{d}}{T_{n}} \cdot Σ_{i = 2}^{T_{n} - 1} LL (p_{n, i}, m_{n, i}^{p}, Σ_{n, i}^{p}) - W_{d} \cdot LL (T_{n}, m_{n,}^{d}, σ_{n}^{d 2})

(8)

CC (u_{n - 1}, u_{n}) = - W_{s} \cdot \frac{m_{n}^{d}}{T_{n}} \cdot LL (s_{n, 1}, m_{n, 1}^{s}, Σ_{n, 1}^{s})

- W_{s} \cdot \frac{m_{n - 1}^{d}}{T_{n - 1}} \cdot LL (s_{n - 1, T_{n - 1},} m_{n - 1, T_{n - 1}}^{s}, Σ_{n - 1, T_{n - 1}}^{s})

- W_{p} \cdot \frac{m_{n}^{d}}{T_{n}} \cdot LL (p_{n, 1}, m_{n, 1}^{p}, Σ_{n, 1}^{p})

- W_{p} \cdot \frac{m_{n - 1}^{d}}{T_{n - 1}} \cdot LL (p_{n - 1, T_{n - 1},} m_{n - 1, T_{n - 1}}^{p}, Σ_{n - 1, T_{n - 1}}^{p})

(9)

依据式(7)~(9)对于目标代价和连接代价的定义，我们可以使用常用的Viterbi搜索方法来进行最优单元序列的搜索。区别于传统的代价函数计算方法，这里的连接代价和目标代价的计算均由声学统计模型基于最大似然准则导出。

(5).基于Kullback-Leibler距离的单元预选

我们通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离，来度量备选单元和目标单元上下文环境之间的差异程度，从而达到单元预选和提高运算效率的目的。对每个备选单元u_n计算

KLD (u_{n}) = W_{s} \cdot KLD (λ_{n}^{5}, {\tilde{λ}}_{n}^{s}) + W_{p} \cdot KLD (λ_{n}^{p}, {\tilde{λ}}_{n}^{p}) + W_{d} \cdot KLD (λ_{n}^{d}, {\tilde{λ}}_{n}^{d})

(10)

其中和

为备选单元在其上下文环境下所对应的频谱、基频和时长模型。通过对每个目标音素的所有备选样本计算式(10)，可以得到使KLD(u_n)最小的K个备选，再进入代价计算和Viterbi搜索。对于两个HMM模型之间的KLD里我们使用两个其上限来估计，如式(11)所示：

(11)

其中s是HMM中的状态数；

和

分别表示模型λ和中第i状态的观测概率密度函数；a_ij和

表示λ和

的状态转移概率。因为在单元挑选过程中目标单元和备选样本对应同一个单音素，并且我们在训练过程中的状态转移概率矩阵是按照单音素绑定的，所以这里

式(11)也可以随之简化为

(12)

对每个状态，两个单高斯的正态分布之间的KLD可以使用通过式(13)进行计算：

+ \frac{1}{2} {({\tilde{m}}_{i} - m_{i})}^{T} {\tilde{Σ}}_{i}^{- 1} ({\tilde{m}}_{i} - m_{i})

(13)

由于我们在模型训练过程中对于频谱、基频和时长模型各状态的输出概率密度函数进行了基于决策树的聚类，因此所有的

和

均为已知的，式(13)可以在模型训练完成之后独立于单元挑选过程离线计算，从而使得整个基于KLD的单元预选过程可以较快的实现。

(6).各音素最优备选波形的拼接。在单元挑选完成之后，我们会对挑选得到的合成单元通过波形拼接的方法合成最终的语音。这里对于相邻音素边界处的波形拼接，采用了平移加窗叠加的方法。首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置，然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。

Claims

1.基于声学统计模型的单元挑选语音合成方法，其特征在于包括以下步骤实现：

(1)对于训练语料库，提取其频谱、基频、时长的声学特征；

(4)在单元挑选的过程中，以备选单元序列包含的声学参数相对于待合成句子的声学统计模型具有最大的似然值为准则，搜索最优的备选单元；

(6)最终通过对各个音素的最优备选单元的波形进行拼接，得到待合成句子的合成语音。

2.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的步骤(1)中在静态参数的基础上加入了表征前后帧参数变化的动态参数。

3.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的步骤(1)中使用的频谱为美尔倒谱参数。

4.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的步骤(1)中基频为对数F0数值。

5.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的步骤(1)中对于其中的频谱部分采用连续概率分布HMM进行建模，而对于基频部分采用多空间概率分布HMM进行建模。

6.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的步骤(2)中所使用的模型形式为隐马尔柯夫模型。

7.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的步骤(3)中各种声学特征的统计模型是经过文本分析后得到每个目标音素的上下文环境描述信息，然后将这些信息输入模型聚类决策树而得到的。

8.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的步骤(4)中满足的似然值最大准则采用如下算法得到最优备选单元：

u^{*} = \underset{u}{\arg \max} Σ_{n = 1}^{N} [W_{s} \cdot \log P (s (u_{n}) | λ_{n}^{s}) + W_{p} \cdot \log P (p (u_{n}) | λ_{n}^{p})

+ W_{d} \cdot \log P (T_{n} | λ_{n}^{d})] - - - (1)

其中，u^*为最优备选单元序列，其中W_s，W_p和W_d分别为频谱、基频和时长模型似然值的权值，输入的一句待合成句子中音素的个数为N；第n个目标音素(n＝1，...，N)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为

和

对于音素n的某一个备选u_n，其对应的频谱和基频特征向量序列参数记为

和

9.根据权利要求8所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述式(1)可以改写成各个备选音素的目标代价和相邻备选音素连接代价之和的形式，再使用维特比算法实现最优单元序列的搜索。

10.根据权利要求8所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的步骤(5)中计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离是通过以下算式计算得出的：

KLD (u_{n}) = W_{s} \cdot KLD (λ_{n}^{s}, {\tilde{λ}}_{n}^{s}) + W_{p} \cdot KLD (λ_{n}^{p}, {\tilde{λ}}_{n}^{p}) + W_{d} \cdot KLD (λ_{n}^{d}, {\tilde{λ}}_{n}^{d})

其中

和

为备选单元在其上下文环境下所对应的频谱、基频和时长模型。

11.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的步骤(6)中对各个音素的最优备选单元采用了平移加窗叠加的方法进行波形拼接。

12.根据权利要求11所述的基于声学统计模型的单元挑选语音合成方法，其特征在于所述的平移加窗叠加的方法为：首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置，然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。