CN103226946B

CN103226946B - 一种基于受限玻尔兹曼机的语音合成方法

Info

Publication number: CN103226946B
Application number: CN201310099895.4A
Authority: CN
Inventors: 凌震华; 陈凌辉; 戴礼荣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2013-03-26
Filing date: 2013-03-26
Publication date: 2015-06-17
Anticipated expiration: 2033-03-26
Also published as: CN103226946A

Abstract

本发明公开了一种基于受限玻尔兹曼机的语音合成方法。使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模；利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分；利用切分得到的各状态起止时间，对提取的训练数据库中的原始频谱包络特征进行切分，收集得到上下文相关HMM模型中各状态对应的频谱包络数据；利用Gaussian-HMM模型进行基频特征的预测，并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度，从而改善合成语音的音质与自然度。

Description

一种基于受限玻尔兹曼机的语音合成方法

技术领域

本发明涉及信号处理技术领域，尤其涉及一种基于受限玻尔兹曼机的语音合成方法。

背景技术

目前，语音合成实现文字到语音的转换，是智能人机交互的核心技术之一。基于隐马尔科夫模型（Hidden Markov Model,HMM）的参数语音合成是现阶段一种主流的语音合成方法。该方法在训练时首先提取训练语音数据库中的频谱、基频等声学特征，然后使用统一的HMM框架对声学特征进行建模；在合成时，首先利用训练得到的统计模型基于最大输出概率准则进行各种声学特征的预测，再将预测的声学特征送入参数合成器重构合成语音。该方法可以合成高可懂度与流畅度的语音。但是合成语音的音质往往不够理想，造成整体自然度欠佳。

上述传统基于HMM参数语音合成方法在频谱建模上的不足，是造成合成语音音质不理想的重要原因。具体来说，由于在传统频谱建模中使用的频谱特征往往是一些高层的频谱特征，例如梅尔倒谱（Mel Cepstra）、线谱对（Line Spectral Pairs）等，这些特征都是对原始语音频谱的一种模型化或者近似化表征，在特征提取的过程中已经造成了频谱细节信息的丢失；同时，由于传统频谱建模方法通常使用单高斯分布来描述HMM中每个状态的频谱特征输出概率，在合成阶段基于最大输出概率准则进行频谱特征的预测，由于单高斯分布的均值具有最大的输出概率，因此参数生成结果很接近于模型的均值，而该均值是在训练阶段基于最大似然准则通过对训练样本的平均化来估计得到的，这样造成了预测的频谱特征往往过于平滑，从而影响了最终合成语音的音质。

发明内容

本发明的目的是提供一种基于受限玻尔兹曼机的语音合成方法，该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度，从而改善合成语音的音质与自然度。

本发明的目的是通过以下技术方案实现的，一种基于受限玻尔兹曼机的语音合成方法，所述方法包括：

在模型训练阶段，使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模；

利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息，依据基于隐马尔科夫模型HMM的参数语音合成方法，进行上下文相关单高斯的HMM训练；

在单高斯的HMM训练完成后，利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分，得到每个状态对应的起止时间；

利用切分得到的各状态起止时间，对提取的训练数据库中的原始频谱包络特征进行切分，收集得到上下文相关HMM模型中各状态对应的频谱包络数据，并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况；

在语音合成阶段，通过高斯近似进行HMM各状态输出概率的重估，再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测；

利用Gaussian-HMM模型进行基频特征的预测，并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。

所述通过高斯近似进行HMM各状态输出概率的重估，具体包括：

使用单高斯分布N(v;μ，Σ)来拟合逼近受限波尔兹曼机RBM所描述的概率密度函

数，其中高斯均值向量μ为：

μ = \underset{v}{\arg \max \log} P (v)

高斯协方差矩阵Σ为对角阵，通过统计训练样本的协方差得到；P(v)为RBM所描述的概率密度函数。

所述使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况，具体包括：使用受限玻尔兹曼机取代单高斯分布用于表征频谱特征的HMM状态输出概率。

所述利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息，依据基于隐马尔科夫模型HMM的参数语音合成方法，进行上下文相关单高斯的HMM训练，具体包括：

采用协方差矩阵为对角阵的单高斯分布来描述每个HMM状态的高层频谱特征输出概率；

采用多空间概率分布MSD来描述每个HMM状态的基频特征输出概率；

采用基于决策树的模型聚类方法实现对于不同上下文相关模型参数的绑定训练。

由上述本发明提供的技术方案可以看出，在模型训练阶段，使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模；利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息，依据基于隐马尔科夫模型HMM的参数语音合成方法，进行上下文相关单高斯的HMM训练；在单高斯的HMM训练完成后，利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分，得到每个状态对应的起止时间；利用切分得到的各状态起止时间，对提取的训练数据库中的原始频谱包络特征进行切分，收集得到上下文相关HMM模型中各状态对应的频谱包络数据，并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况；在语音合成阶段，通过高斯近似进行HMM各状态输出概率的重估，再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测；利用Gaussian-HMM模型进行基频特征的预测，并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度，从而改善合成语音的音质与自然度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于受限玻尔兹曼机的语音合成方法流程示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实施例作进一步地详细描述，如图1所示为本发明实施例提供的基于受限玻尔兹曼机的语音合成方法流程示意图，所述方法包括：

步骤11：在模型训练阶段，使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模。

在该步骤中，在模型训练阶段，可以使用自适应加权谱内插STRAIGHT合成器进行训练语音数据库的声学特征提取。具体来说，在提取每帧语音对应的基频与高层频谱特征（这里使用线谱对特征）的同时，进一步提取STRAIGHT分析得到的每帧语音的原始频谱包络，用于后续的频谱建模。

步骤12：利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息，依据传统基于隐马尔科夫模型HMM的参数语音合成方法，进行上下文相关单高斯HMM训练。

在该步骤中，首先在提取的声学特征中加入动态参数。

举例来说：假设为用于模型训练的声学特征序列，其中(·)^T表示矩阵转置，N为序列帧数。其中第t帧的声学特征向量o_t∈R^3D包括提取的静态声学特征c_t∈R^D及其一阶与二阶差分，具体如下：

o_{t} = {[c_{t}^{T}, {Δc}_{t}^{T}, Δ^{2} c_{t}^{T}]}^{T} - - - (1)

其中，D为特征提取阶段得到的静态声学特征维数，动态参数的计算方法如下：

\begin{matrix} {Δc}_{t} = 0.5 c_{t + 1} - 0.5 c_{t - 1} & &ForAll; t &Element; [2, N - 1] - - - (2) \end{matrix}

Δc₁=Δc₂,Δc_N=Δc_N-1 (3)

\begin{matrix} Δ^{2} c_{t} = c_{t + 1} - 2 c_{t} + c_{t - 1} & &ForAll; t &Element; [2, N - 1] - - - (4) \end{matrix}

Δ²c₁=Δ²c_z,Δ²c_N=Δ²c_N-1 (5)

然后，基于最大似然准则进行上下文相关HMM模型参数的估计。

这里的HMM采用自左至右无跳转的模型结构；使用协方差矩阵为对角阵的单高斯分布来描述每个HMM状态的高层频谱特征输出概率；使用多空间概率分布（Multi-Spaceprobability Distribution,MSD）来描述每个HMM状态的基频特征输出概率；为了解决上下文相关模型训练造成的数据稀疏问题，我们采用基于决策树的模型聚类方法实现对于不同上下文相关模型参数的绑定训练。

步骤13：在单高斯HMM训练完成后，利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分，得到每个状态对应的起止时间。

步骤14：利用切分得到的各状态起止时间，对提取的训练数据库中的原始频谱包络特征进行切分。

在该步骤中，进一步采用步骤13收集得到的各状态起止时间对提取的训练数据库中的原始频谱包络特征进行切分，收集得到上下文相关HMM模型中各状态对应的频谱包络数据，并使用受限波尔兹曼机（RBM）来描述各状态对应的频谱包络的分布情况。这里，使用受限波尔兹曼机（RBM）来描述各状态对应的频谱包络的分布情况，具体为使用受限玻尔兹曼机取代单高斯分布用于表征频谱特征的HMM状态输出概率。

举例来说，在收集每帧频谱包络向量时，参考上述式(2)-(5)加入其一阶二阶差分参数，然后，使用受限波尔兹曼机（RBM）来描述各状态对应的频谱包络特征的分布情况。

这里，受限波尔兹曼机RBM是一种用于描述一组随机变量间相互依赖关系的具有双层结构的无向图模型，其中对应可见随机变量v=[v₁,...,v_V]^T的节点与对应隐含随机变量h=[h₁,...,h_H]^T的节点互相连接，V和H分别为可见随机变量节点与隐含随机变量节点的维数。在本实施例中，使用RBM来描述每个HMM状态中的频谱包络特征分布概率，即可见随机变量v对应一帧数据的频谱包络向量。

采用Gaussian-Bernoulli形式的RBM，即可见随机变量为连续实数而隐含随机变量为{0,1}二值。这时，状态{v,h}对应的能量函数定义为

E (v, h) = Σ_{i = 1}^{V} \frac{{(v_{i} - a_{i})}^{2}}{2} - Σ_{j = 1}^{H} b_{j} h_{j} - Σ_{i = 1}^{V} Σ_{j = 1}^{H} w_{ij} v_{i} h_{j} - - - (6)

其中a=(a₁,...,a_V]^T,b=[b₁，...,b_H]^T,w={w_ij}_V×H为需要估计的RBM模型参数。可见随机变量v的概率密度函数可以表示为

其中

利用收集得到的每个状态对应的频谱包络特征训练数据，依据最大似然准则，采用Contrastive Divergence(CD)算法进行模型参数{a,b,w}的估计。

步骤15：在语音合成阶段，通过高斯近似进行HMM各状态输出概率的重估，再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测。

在该步骤中，在语音合成阶段，由于采用了式(7)所示的RBM取代单高斯用以表征各状态频谱特征的输出概率，所以传统的最大输出概率参数生成算法不再有闭合解。为了提高合成端的参数生成效率，本实施例采用了高斯近似的方法，即使用单高斯分布N(v;μ,Σ)来拟合逼近式(7)所示的RBM概率密度函数。其中高斯均值向量

μ = \underset{v}{\arg \max \log} P (v) - - - (9)

高斯协方差矩阵Σ为对角阵，通过统计训练样本的协方差得到。

采用梯度下降算法来求解式(9)，即

v^{(i + 1)} = v^{(i)} + α \cdot \frac{&PartialD; \log P (v)}{&PartialD; v} |_{v = v^{(i)}} - - - (10)

其中i为迭代步数，α为迭代步长，梯度偏导

由公式(9-11)可见，通过RBM的高斯近似得到的高斯分布均值不再是样本均值，从而起到了改善合成语音过平滑问题的目的。

步骤16：利用Gaussian-HMM模型进行基频特征的预测，并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。

在该步骤中，Gaussian-HMM表示使用单高斯作为状态输出概率表征的HMM模型；RBM-HMM表示使用受限玻尔兹曼机作为状态输出概率表征的HMM模型。

在上述步骤15中RBM-HMM的高斯近似完成后，可以在合成阶段利用传统的最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测。该算法考虑了一阶与二阶差分参数的约束作用，从而可以保证生成的频谱特征的平滑性。

进一步的，本实施例利用Gaussian-HMM模型进行基频特征的预测，并将预测的频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。

综上所述，本发明实施例所述基于受限玻尔兹曼机的语音合成方法，能够提高基于HMM的参数语音合成方法中的频谱特征建模精度，从而改善合成语音的音质与自然度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于受限玻尔兹曼机的语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于受限玻尔兹曼机的语音合成方法，其特征在于，所述通过高斯近似进行HMM各状态输出概率的重估，具体包括：

使用单高斯分布N(v；μ，Σ)来拟合逼近受限波尔兹曼机RBM所描述的概率密度函数，其中高斯均值向量μ为：

μ = \arg \max_{v} \log P (v)

高斯协方差矩阵Σ为对角阵，通过统计训练样本的协方差得到；P(v)为RBM所描述的概率密度函数，其中v为可见随机变量。

3.根据权利要求1所述基于受限玻尔兹曼机的语音合成方法，其特征在于，所述使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况，具体包括：

使用受限玻尔兹曼机取代单高斯分布用于表征频谱特征的HMM状态输出概率。

4.根据权利要求1所述基于受限玻尔兹曼机的语音合成方法，其特征在于，所述利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息，依据基于隐马尔科夫模型HMM的参数语音合成方法，进行上下文相关单高斯的HMM训练，具体包括：