CN1815553A

CN1815553A - 基于生成参数听感误差最小化的声学模型训练方法

Info

Publication number: CN1815553A
Application number: CNA2006100385902A
Authority: CN
Inventors: 凌震华; 吴义坚; 王仁华
Original assignee: ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Current assignee: ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Priority date: 2006-02-28
Filing date: 2006-02-28
Publication date: 2006-08-09

Abstract

本发明公开了一种用于语音合成的基于生成参数听感误差最小化的声学模型训练方法，包括结合听感实验确定合理的声学参数听感距离计算方式；依据声学模型生成训练数据文本对应的声学参数，并计算其相对于训练数据声学参数的听感距离；基于听感误差最小化对模型参数进行逐次的迭代调整；最终达到提高合成语音音质与自然度的目的。

Description

基于生成参数听感误差最小化的声学模型训练方法

技术领域

本发明涉及语音合成方法，具体是在对声学参数利用统计概率模型进行建模的训练过程中，将最小化训练数据对应生成参数的听感误差作为模型参数估计的准则，以满足语音合成对于声学模型的实际要求，提高模型的合理性和合成语音的效果。

背景技术

现有的语音合成技术主要有基于波形拼接的语音合成方法和基于参数合成的语音合成方法两大类。前者通过利用包含自然声学样本的语音音库和在合成时进行单元选择的方法可以取得较高的合成语音的音质与自然度。但是由于语音音库的使用，往往在存储量上有比较大的消耗，难以实现在嵌入式平台等资源受限领域的使用。

另一种基于参数合成的语音合成方法首先对训练使用的语音数据进行参数化分析，然后对分析得到的声学参数利用统计方法进行建模，在合成时利用声学模型进行参数的生成与预测，最终通过参数合成器还原语音信号。这种方法同样可以实现较为自然流畅的合成语音输出，并且由于在合成时不需要庞大的语音音库，因此对于存储量的需求较小，在资源受限平台上的使用有明显优势。

统计模型(如隐马尔可夫模型等)在语音中的应用最早开始于语音识别领域，通常使用最大似然准测或者最小分类误差准则等来实现对于模型参数的估计，而最初这些准则的引入往往为了满足语音识别的目标，保证模型在似然度或者区分度上的优势，这和语音合成的要求并不相同。在语音合成中更希望的是，在利用训练得到的模型进行合成时，能够生成和自然语音最为接近的声学参数，以保证合成语音的自然度与音质。

因此，我们针对语音合成的需求，提出了以最小化训练数据对应生成参数的听感误差作为准则的声学模型参数训练方法，以提高语音合成系统的整体效果。

发明内容

本发明的目的就是为了提供一种用于语音合成的基于生成参数听感误差最小化的声学模型训练方法，以达到提高合成语音效果的目的。

本发明的技术方案如下：

基于生成参数听感误差最小化的声学模型训练方法，其特征在于利用声学模型由原始训练数据的文本信息生成合成语音时使用的声学参数；对于不同的语音声学参数，通过听感试验确定其变化对于人耳听感影响的强弱，并最终综合出对于任意两组语音声学参数之间的听感误差计算公式；以听感误差计算公式计算生成的合成语音时使用的声学参数与原始训练数据的声学参数之间的听感距离；以最小化听感距离为目标，利用梯度下降算法，通过逐次迭代的方法，更新声学模型中包含的参数，以保证每次迭代后模型生成参数听感距离的逐渐降低，最终实现基于生成参数听感误差最小化的模型训练过程。

本发明使用隐马尔可夫模型作为声学模型，基于最大似然的参数生成方法，建模采用的声学参数为线谱频率参数，听感误差计算公式可以是：

D (C, C^{%} (λ)) =

Σ_{t = 1}^{T} Σ_{p = 1}^{N} {({lsf}_{t, p} - {lsf}_{t, p}^{%})}^{2} / \min ({lsf}_{t, p} - {lsf}_{t, p - 1}, {lsf}_{t, p + 1} - {lsf}_{t - p})

C：原始训练数据的声学参数，合成语音时使用的声学参数，lsf_1，p：语音数据第t帧的第p阶线谱频率参数，(lsF_1，p右上角的标号含义同上述右上角标号的含义)

N：线谱频率参数的阶数，T：总帧数。

从合成语音的效果来看，使用该算法后，合成语音在自然度和音质上都有一定程度的提高；在对合成语音的倾向性主观测听中，认为使用该算法后的合成语音质量要高于单纯最大似然训练结果的比例占了80％以上。

术语解释

语音合成(Text-To-Speech)：又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科，是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是：如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，目的是让计算机能够产生高清晰度、高自然度的连续语音。

隐马尔可夫模型(Hidden Markov Model)：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。用隐马尔可夫刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态(或当前的状态转移)有关，这两个假设大大降低了模型的复杂度。

最大似然估计(Maximum Likelihood Estimation)：假设随机变量X的分布函数为F(X，θ)，密度函数为p(X，θ)，θ为参数，θ＝(θ₁，...θ_m)∈Θ，X₁，...，X_n来源于分布族{F(X，θ)：θ∈Θ}，定义似然函数

L (θ) = Π_{i = 1}^{n} p (x_{i}, θ)

是θ＝(θ₁，...θ_m)的函数，若

是L(θ)的唯一最大值点，则称

为θ的最大似然估计。

梯度下降算法(Gradient Descent Algorithm)：一种用于求解函数无约束极值问题的基本算法，它选择函数的负梯度方向(最速下降方向)作为迭代时的搜索方向。

附图说明

图1：训练流程框图

具体实施方式

基于生成参数听感误差最小化的声学模型训练方法，其具体算法是：

(1)、计算训练数据的文本信息对应的生成参数听感误差

a、利用声学模型生成训练数据对应的声学参数

将训练数据对应的文本以及相关的上下文信息输入声学模型λ中，利用最大似然准则或其他方法，预测与训练数据的声学参数C各帧相对应的用于生成合成语音的声学参数

其中：

C＝[c₁，c₂，...，c_T]

C^{%} (λ) = [c_{1}^{%}, c_{2}^{%}, . . ., c_{7}^{%}

T为总帧数，使用隐马尔可夫模型作为声学模型和基于最大似然的参数生成方法，建模采用的声学参数为线谱频率参数，即：

c_t＝[lsf_t，1，...，lsf_t，N]

c_{t}^{%} = [{lsf}_{t, 1}^{%}, . . ., {lsf}_{t, N}^{%}]

其中N为线谱频率参数的阶数，N为24；

b、计算声学参数之间的听感距离

依据使用声学参数的不同，确定能够较为适当的反映两组声学参数之间听感差异情况的听感误差计算公式，为了保证这种听感差异度量的合理性，可以结合一定的听感实验来进行主观听感差异与参数距离之间的相关性测试；线谱频率参数使用以下公式来计算训练数据声学参数C与生成参数之间的听感距离：

D (C, C^{%} (λ)) =

Σ_{t = 1}^{T} Σ_{p = 1}^{N} {({lsf}_{t, p} - {lsf}_{t, p}^{%})}^{2} / \min ({lsf}_{t, p} - {lsf}_{t, p - 1}, {lsf}_{t, p + 1} - {lsf}_{t, p})

(2)、以最小化听感距离为目标，调整声学模型参数为了求解听感距离最小时的所对应的模型参数λ，通过采用梯度下降的方法来对声学模型参数进行逐步的调整，即：

λ_{n + 1} = λ_{n} - ϵ_{n} \frac{&PartialD; D (C, C^{%} (λ))}{&PartialD; λ} | λ = λ_{n}

具体的参数更新方法可以由上式结合听感误差计算公式进行推导确定，其中n为迭代次数，ε_n为每一步的迭代步长，λ_n表示第n次迭代后的声学模型参数。

(3)、对步骤(1)和(2)进行反复迭代，直至模型参数收敛，迭代次数为20次，最终实现完整的基于生成参数听感误差最小化的模型训练过程。

本发明利用以上算法进行了参数模型训练与语音合成实验，选择的频谱参数为24阶的线谱频率参数；为了实现对听感误差的有效度量，在计算两组线谱频率之间的距离时，利用阶间差分倒数对各阶线谱频率的欧氏距离进行了加权；使用隐马尔可夫模型作为声学参数模型；在训练过程中使用最大似然估计的结果作为模型的初始值，再利用最小化生成参数听感误差方法对模型参数进行迭代调整。

实验结果表明，利用以上算法经过10～20次迭代后，模型参数会得到有效收敛；对于集外数据的测试表明，利用最小化生成参数听感误差算法训练后的模型可以取得相对单纯的最大似然模型训练10％左右的听感误差减小程度。

Claims

1、基于生成参数听感误差最小化的声学模型训练方法，其特征在于利用声学模型由原始训练数据的文本信息生成合成语音时使用的声学参数；对于不同的语音声学参数，通过听感试验确定其变化对于人耳听感影响的强弱，并最终综合出对于任意两组语音声学参数之间的听感误差计算公式；以听感误差计算公式计算生成的合成语音时使用的声学参数与原始训练数据的声学参数之间的听感距离；以最小化听感距离为目标，利用梯度下降算法，通过逐次迭代的方法，更新声学模型中包含的参数，以保证每次迭代后模型生成参数听感距离的逐渐降低，最终实现基于生成参数听感误差最小化的模型训练过程。

2、根据权利要求1所述的方法，其特征在于使用隐马尔可夫模型作为声学模型，基于最大似然的参数生成方法，建模采用的声学参数为线谱频率参数，听感误差计算公式是：

D (C, C^{%} (λ)) =

Σ_{t = 1}^{T} Σ_{p = 1}^{N} {({lsf}_{t, p} - {lsf}_{t, p}^{%})}^{2} / \min ({lsf}_{t, p} - {lsf}_{t, p - 1}, {lsf}_{t, p + 1} - {lsf}_{t, p})

C：原始训练数据的声学参数，合成语音时使用的声学参数，

lsf_t，p：语音数据第t帧的第p阶线谱频率参数，

N：线谱频率参数的阶数，T：总帧数。

3、根据权利要求1所述的方法，其特征在于具体步骤为：

(1)、计算训练数据的文本信息对应的生成参数听感误差

a、利用声学模型生成训练数据对应的声学参数

将训练数据对应的文本以及相关的上下文信息输入声学模型λ中，利用最大似然准则或其他方法，预测与训练数据的声学参数C各帧相对应的声学参数其将用于生成合成语音时使用，其中：

C＝[c₁，c₂，...，c_T]

C^{%} (λ) = [c_{1}^{%}, c_{2}^{%}, . . ., c_{T}^{%}]

T为总帧数，使用隐马尔可夫模型作为声学模型和基于最大似然的参数生成方法，建模采用的声学参数为线谱频率参数lsf，即：

c_t＝[lsf_t，1，...，lsf_t，N]

c_{t}^{%} = [{lsf}_{t, 1}^{%}, . . ., {lsf}_{t, N}^{%}]

其中N为线谱频率参数的阶数，N为24；

b、计算声学参数之间的听感距离依据使用声学参数的不同，确定能够较为适当的反映两组声学参数之间听感差异情况的听感误差计算公式，线谱频率参数使用以下公式来计算训练数据声学参数C与生成参数之间的听感距离：

D (C, C^{%} (λ)) =

Σ_{t = 1}^{T} Σ_{p = 1}^{N} {({lsf}_{t, p} - {lsf}_{t, p}^{%})}^{2} / \min ({lsf}_{t, p} - {lsf}_{t, p - 1}, {lsf}_{t, p + 1} - {lsf}_{t, p})

λ_{n + 1} = λ_{n} - ϵ_{n} \frac{&PartialD; D (C, C^{%} (λ))}{&PartialD; λ} |_{{λ = λ}_{n}}

具体的参数更新方法可以由上式结合听感误差计算公式进行推导确定，其中n为迭代次数，ε_n为每一步的迭代步长，λ_n表示第n次迭代后的声学模型参数；

(3)、对步骤(1)和(2)进行反复迭代，直至模型参数收敛，最终实现完整的基于生成参数听感误差最小化的模型训练过程。