CN104538026A

CN104538026A - 一种用于参数化语音合成的基频建模方法

Info

Publication number: CN104538026A
Application number: CN201510015224.4A
Authority: CN
Inventors: 谢湘; 那兴宇
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2015-01-12
Filing date: 2015-01-12
Publication date: 2015-04-22
Anticipated expiration: 2035-01-12
Also published as: CN104538026B

Abstract

本发明涉及一种用于参数化语音合成的基频建模方法，能够对音节的整体基频包络进行可训练的参数化描述，以捕捉目标说话人在不同语境和情绪下的长时基频包络变化，进而提高合成语音的韵律表现力；属于语音合成技术领域。本发明方法首先提取训练语料的基频，并对基频目标参数s、r和ω⁰进行估计；然后对基频目标参数进行统计建模得到音节基频目标模型λ_u与短时基频模型λ_f；最后采用最大似然参数生成算法生成基频包络f。对比现有技术，本发明方法不带有明显的说话人总体特征(如性别、年龄等)，但体现有说话人的时效特征(如情绪、语境等)；且本发明方法可以直接用于语音合成，使用本发明方法的语音合成自然度有明显提升。

Description

一种用于参数化语音合成的基频建模方法

技术领域

本发明涉及一种基频建模方法，特别涉及一种用于参数化语音合成的基频建模方法，属于语音合成技术领域。

背景技术

在参数化语音合成技术中，语音信号由声学参数生成，包括频谱特征和韵律特征。在自然语音中，频谱特征的变化是相对稳定的，因为频谱往往与语义直接相关。而韵律特征属于长时特征，会随着语境和情感的变化出现较大的波动，相关的参数需要由其在各种韵律层级结构中的变化模式描述。但在参数化语音合成技术中，这两类参数都由一种描述短时特征的HMM建模。

韵律特征中对于感知影响最大的是基音频率。从人类发音过程中对基频的控制机理来看，仅使用HMM对短时基频建模是不足的。比如在汉语中，声调会受到音调和语调的影响。音调特征携带着语义信息，不同音调的音节具有不同的含义，同时还会受到上下文的影响产生变调现象。语调特征在不同语言中的定义也不同，它决定了生成语音的句式和情绪。这些特性都是由基音频率决定的。

因此，使用长时基频模型对HMM的短时基频模型进行补充是符合自然语音产生机理的。长时基频包络受到短时基频波动的影响小，可以用于对语音的韵律进行分析。而且，将长时基频参数与短时HMM相结合，探索其在参数生成以及自适应方面的优势，对于进行多尺度的声学建模具有重要意义。但是，现有的长时基频模型，如Fujisaki模型和目标逼近模型，不适用于统计建模。需要一种新的长时基频参数化方法，使得长时基频参数能够与短时声学特征统计模型结合，从而提高合成语音的自然度。

发明内容

为了改善用于参数语音合成的基频模型，本发明的目的是提供一种基频参数化和统计建模方法，能够对音节的整体基频包络进行可训练的参数化描述，以捕捉目标说话人在不同语境和情绪下的长时基频包络变化，进而提高合成语音的韵律表现力。

本发明的目的是通过以下技术方案实现的：

一种用于参数化语音合成的基频建模方法，包括以下步骤：

步骤一，基频目标参数s、r和ω₀估计，包括以下步骤：

1.1提取训练语料的基频；

1.2初始化全局线性变换系数ω₀；

1.3使用最速下降法估计所有音节的目标参数s和r；

1.4根据下式计算全局评价指标m；

m＝||e||+1-c；

其中，||e||为所有音节的均方根误差的平均，c为所有音节的相关系数的平均；

1.5如果m的值较前次迭代减小，使用网格搜索的方法估计ω₀，转步骤1.3；否则，记录此时所有音节的目标参数s和r，以及全局线性变换系数ω₀；

步骤二，对步骤一得到的目标参数进行统计建模得到音节基频目标模型λ_u与短时基频模型λ_f；

步骤三，根据下式生成基频包络f：

\hat{u} = \arg \max_{u} p (u | q, λ_{u})

f_{\max} = \arg \max_{f} p (f | u, q, λ_{f})

p (f | \hat{u}, \hat{q}, λ_{f}) = N (f | A^{- 1} \hat{u} + ϵ_{f}, σ_{f})

其中，u为待生成的基频目标，为由最大似然方法估计得到的最优值，f为待生成的基频包络，f_max为由最大似然方法估计得到的最优值，q表示由短时基频模型确定的状态序列，表示最优状态序列的估计，λ_u和λ_f为由上述步骤二得到的音节基频目标模型和短时基频模型，ε_f和σ_f为短时基频残差模型的均值和方差，P()表示似然度，P(u|q，λ_u)表示基频目标似然度，P(f|u，q，λ_f)表示基频包络似然度，N()表示基频包络f服从正态分布，A^-1为目标估计矩阵，其逆矩阵A^-1为目标实现矩阵，A^-1表示如下：

其中，t₀为离散采样周期。

作为优选，所述步骤1.3使用最速下降法估计所有音节的目标参数s和r，对于每一个音节，通过下述步骤获取最优s和r：

2.1初始化s和r；

2.2根据下式计算误差ε；＝(A^-1u-f)^T(A^-1u-f)

ε＝(A^-1u-f)^T(A^-1u-f)；

其中，f为从原始语料中提取的基频值，()^T表示矩阵转置，u为音节基频目标，通过下式计算：

u＝st+r；

其中，t表示由该音节所处时间刻度组成的矢量；

\hat{s} = s - γ &dtri; ϵ (s)

\hat{r} = r - γ &dtri; ϵ (r);

&dtri; ϵ (s) = \frac{&PartialD; ϵ}{&PartialD; u} \frac{&PartialD; u}{&PartialD; s} = 2 {(A^{- 1} u - f)}^{T} A^{- 1} t

&dtri; ϵ (r) = \frac{&PartialD; ϵ}{&PartialD; u} \frac{&PartialD; u}{&PartialD; r} = 2 {(A^{- 1} u - f)}^{T} A^{- 1} 1_{N};

其中，γ表示迭代步长，1_N表示长度为N的单位矢量；转步骤2.2；否则，记录该音节此时的s和r。

本发明方法的原理为：

本发明专利从人类声带控制机理出发，提出一个基频长时参数化方法。声带为膜结构，但在绷紧状态下，其振动规律相当于弦。根据弦的震动频率公式，声带的振动频率F₀为：

F_{0} = \frac{1}{2 L} \sqrt{\frac{T_{s}}{ρ}} - - - (1)

其中，L为声带的面积，T_s为声带的内部纵向张力，ρ为声带薄膜的密度。膜的张力与附着在膜上的骨骼肌刚性存在线性关系，由此可得

s＝a+bT_s (2)

其中s为骨骼肌的刚性，a为膜的张力T_s为0时的肌肉刚性，b为调整参数。根据刚性的定义

s = \frac{d T_{s}}{dx} - - - (3)

其中，x为膜的形变。求解式(2)与(3)组成的微分方程可得

T_{s} = (T_{0} + \frac{a}{b}) \exp (bx) - \frac{a}{b} - - - (4)

其中，T₀为声带肌不收缩时声带的张力。根据声带张力特性，T₀远远大于a/b，所以式(4)等同于

T_s＝T₀exp(bx) (5)

将式(5)代入式(1)并在等式两侧取对数可得

\log (F_{0}) = \log (\frac{1}{2 L} \sqrt{\frac{T_{0}}{ρ}}) + \frac{b}{2} x - - - (6)

音高是语音信号基频的函数。在语音合成的研究中，通常使用对数基频来表示音高。这样处理的原因是，虽然合成语音的最终目的仍然由人耳感知，但是对于基频的建模应当以感知特性为基础。由式(6)可知，对数基频与声带的形变之间存在线性关系。因此声带的控制系统可以直接用作基频或音高的控制系统。其输入为由言语功能神经所设定的目标基频或音高，用于表达特定语义和韵律信息，输出为实际基频或音高。

因此，人类对于声带长度的控制系统可以用于描述基频的控制机制，也称为基频生成系统。其传递函数为

F (s) = \frac{ω_{0}^{2}}{s^{2} + 2 ω_{0} s + ω_{0}^{2}} - - (7)

其中，U(s)为输入即目标基频的拉普拉斯变换，F(s)为输出即实际基频的拉普拉斯变换。ω₀为系统的自然震荡频率。在统计建模中，基频信号属于离散信号。因此，需要将基频生成系统的S域传递函数转换为Z域。使用一阶后向Pade近似，将

S \approx \frac{1 - Z^{- 1}}{t_{0}} - - - (8)

代入式(7)中，可得离散系统的传递函数

其中，

在连续系统离散化的转换中，t₀为离散采样周期。对于基频信号而言，离散采样周期可以认为是帧长。将式(9)转换为差分方程，即设系统的输入为离散时间域的基频目标u[n]，输出为离散时间域的实际基频f[n]，可得

u[n]＝a₂f[n-2]+a₁f[n-1]+a₀f[n],1≤n≤N (11)

其中

将基频目标的实现过程表示为矩阵形式，即

f＝A^-1u (13)

其中

A^-1为目标估计矩阵，其逆矩阵A^-1为目标实现矩阵。音节的基频目标矢量定义为

u＝st+r (15)

由式(10)、(11)和(12)可知，离散的目标实现可以用目标与基频的线性变换表示。A仅由一个超参数决定，即目标实现滤波器的系数ω₀，同时也是S域系统传递函数的自然振荡频率。在此，称其为全局线性变换系数。

根据本发明的具体实施例，提出一种在语音合成的参数合成阶段，将长时基频模型与短时基频模型HMM结合的方法。在传统的统计参数语音合成中，基频的生成准则为最大化基频模型似然度p(f|q,λ)，即

f_{\max} = \arg \max_{f} p (f | q, λ) - - - (16)

其中λ为已有训练好的模型，q为对应的状态序列。最佳的生成基频包络f应当具有最大的条件似然度。在此基础上，假设训练的模型包含两部分，即基频目标λ_u与短时基频λ_f。那么其联合似然度可以定义为

p(f,u|q,λ)＝p(f|u,q,λ_f)p(u|λ_u) (17)

其中，状态序列q是由时长模型和短时基频模型的上下文决策树决定的。在将长时模型与短时模型结合的过程中，模型间的对齐是重要的因素。本专利中，状态序列确定了与短时基频模型对齐的音节基频目标模型的边界。使用联合概率密度估计生成基频时，目标仍然是最佳的输出表层基频，而不是底层目标。因此，基频的似然度可以使用边缘概率密度函数表示，即对所有可能的u的概率密度积分，可得

\begin{matrix} p (f | q, λ) = &Integral; p (f, u | q, λ) du \\ = &Integral; p (f | u, q, λ_{f}) p (u | λ_{u}) du \end{matrix} - - - (18)

已知模型参数集合时，输出观测矢量是由最大化给定状态序列q的条件似然度得到的，而条件似然度的最大化可以分步求取。在合成阶段，首先由状态序列确定音节基频目标的起止时间，然后由音节级的基频目标参数根据式(15)生成基频目标u。因此，在计算似然度时，可以使用短时基频模型的状态序列作为联合基频模型的状态序列，即定义

\begin{matrix} p (f | λ) = &Integral; &Integral; p (f, u, q | λ) dudq \\ = &Integral; &Integral; p (f | u, q, λ_{f}) p (u | {q, λ}_{u}) p (q | λ_{f}) dudq \end{matrix} - - - (19)

为给定表层短时基频模型和长时基频目标模型的条件下，生成基频序列的似然度函数。按式(19)计算似然度需要遍历所有的状态序列和生成目标参数，这从计算复杂度的角度来说是不可行的。因此，使用最优值代替积分，得到次优的生成参数序列，即

\begin{matrix} p (f | \hat{q}, λ) = &Integral; p (f, u | \hat{q}, λ) du \\ = &Integral; p (f | u, \hat{q}, λ_{f}) p (u | \hat{q}, λ_{u}) du \end{matrix} - - - (20)

为已知最优状态序列和基频模型参数时，输出基频序列的似然度。其中，为最优状态序列，相当于式(17)中的q。区别在于，式(20)将作为生成基频目标的先验知识参与计算。按照同样的方法，可以用最优基频目标代替式(19)中对于u的积分。因此，基频序列的生成可以分为两步

\hat{u} = \arg \max_{u} p (u | q, λ_{u})

f_{\max} = \arg \max_{f} p (f | u, q, λ_{f}) - - - (21)

即首先生成最优目标，然后生成基频序列。状态序列由时长模型和基频决策树共同决定。其中，第一步基频目标的概率分布为

p (u | \hat{q}, λ_{u}) = N (u | μ_{u}, Σ_{u}) - - - (22)

在已知最优基频目标时，引入基频实现矩阵可得基频的条件概率函数为

p (f | \hat{u}, \hat{q}, λ_{f}) = N (f | A^{- 1} \hat{u} + ϵ_{f}, σ_{f}) - - - (23)

该条件概率分布定义为基频目标概率分布的线性变换。由于基频目标重构得到的基频包络存在重构误差，因此需要在条件概率分布中引入噪声成分。由式(21)-(23)定义的基频生成方法称为目标相关基频生成。这个框架所使用的模型包括两部分，第一部分是目标参数模型，由训练语料的目标参数估计得到；第二部分是短时基频模型，由训练语料的基频重构误差估计得到。

有益效果

对比现有技术，本发明具有以下特点：

第一，与现有的长时基频参数模型，如命令相应模型和目标逼近模型不同，根据本模型得到的基频目标不带有明显的说话人总体特征(如性别、年龄等)，其说话人特性由声带控制系统频率ω₀决定。而生成的基频受到初始状态的影响，获得不同的基频包络，以体现说话人的时效特征(如情绪、语境等)；

第二，本专利提出的基频参数化方法可以直接用于语音合成，这是现有的其他方法所不具备的特性。使用本专利方法的语音合成自然度有明显提升。

附图说明

图1为本发明方法实施例的流程示意图。

具体实施方式

下面结合实例对本发明进一步说明，通过对方法各关键步骤的详细说明将会更好地描述实现本发明的步骤和过程。

在本发明的实施方案中，本方法分为三个部分：基频目标估计、目标参数建模和基频包络生成。其中，基频目标估计和目标参数建模离线进行，目的是由训练语料得到合成阶段所需的声学模型。这两部分可以作为传统基于HMM语音合成建模过程中基频建模的补充或替代方案。基频包络生成以离线训练部分得到的模型为基础，作为传统基于HMM语音合成器的补充。

第一步：基频目标估计

首先，使用任意基频提取算法获得训练语料的基频。

作为优选，在本实施例中，将得到的基频进行对数域转换。

然后，进行目标参数估计。根据公式(13)-(15)，音节序列的基频包络可以由三个参数描述。其中，定义目标参数s和r为基于音节的，而目标实现全局线性变换系数ω₀是由说话人决定的。因此，这三种参数的估计无法同时进行。本实施例中，先使用最速下降法估计目标参数s和r，再使用网格搜索的方法估计滤波器参数ω₀。为使用最速下降法，定义基频重构误差ε为

ε＝(A^-1u-f)^T(A^-1u-f) (24)

其中，A^-1为由ω₀确定的目标估计矩阵的逆矩阵，u为音节基频目标u＝st+r，f为从原始语料中提取的基频值。^T表示转置。目标参数s和r的迭代估计公式为

\hat{s} = s - γ &dtri; ϵ (s)

\hat{r} = r - γ &dtri; ϵ (r) - - - (25)

其中γ为预定义的迭代步长，定义下降方向为

\begin{matrix} &dtri; ϵ (s) = \frac{&PartialD; ϵ}{&PartialD; u} \frac{&PartialD; u}{&PartialD; s} = 2 {(A^{- 1} u - f)}^{T} A^{- 1} t \\ &dtri; ϵ (r) = \frac{&PartialD; ϵ}{&PartialD; u} \frac{&PartialD; u}{&PartialD; r} = 2 {(A^{- 1} u - f)}^{T} A^{- 1} 1_{N} \end{matrix} - - - (26)

其中，t表示由该音节所处时间刻度组成的矢量，1_N为长度为N的单位矢量。在估计每个音节的基频目标参数时，先随机初始化一个ω₀，即给定矩阵A，通过公式(24)至(26)即可得到每个音节的基频目标参数。具体步骤如下：

循环训练数据中所有音节：

初始化s和r；

判断迭代误差变化小于阈值：

使用式(26)计算梯度；

使用式(25)调整参数；

使用式(24)计算新的基频重构误差；

迭代结束

循环结束

最后，为估计全局线性变换系数ω₀，定义全局评价指标m为

m＝||e||+1-c (27)给定数据的原始基频和生成基频，||e||为所有音节的均方根误差的平均，c为所有音节的相关系数的平均。m值越小，说明生成基频在短时误差和长时包络相似度这两种尺度的联合评价下越接近原始基频。反之，则说明生成基频的误差较大，即模型参数不够合理。以此指标为基础，使用网格搜索算法找到m值最小点，搜索范围由经验确定，最小点对应的值为估计目标说话人的ω₀，完成一轮迭代。此迭代可以多次进行，当最优m的值不再减小时，终止迭代。

第二步：目标参数建模

目标参数建模指的是对s和r进行统计建模。首先，使用传统的HMM建模方法，由s和r组成特征矢量，进行音节建模，得到基频目标模型λ_u。然后，求取训练语料的基频重构误差，使用HMM短时建模方法，得到短时基频模型λ_f。

第三步：基频包络生成

在语音合成阶段，首先根据上下文，由短时基频模型的决策树得到状态序列q。然后根据式(21)，使用最大似然参数生成算法，生成基频目标和基频残差。最后，使用式(23)定义的概率分布函数，结合式(21)，使用最大似然参数生成算法，得到生成的基频包络。

\begin{matrix} \hat{u} = \arg \max_{u} p (u | q, λ_{u}) \\ f_{\max} = \arg \max_{f} p (f | u, q, λ_{f}) \end{matrix} - - - (21)

p (f | \hat{u}, \hat{q}, λ_{f}) = N (f | A^{- 1} \hat{u} + ϵ_{f}, σ_{f}) - - - (23)

其中，u为待生成的基频目标，为由最大似然方法估计得到的最优值，f为待生成的基频包络，f_max为由最大似然方法估计得到的最优值。q表示由短时基频模型确定的状态序列，表示最优状态序列的估计。λ_u和λ_f为上述第二步训练得到的音节基频目标模型和短时基频模型。ε_f和σ_f为短时基频残差模型的均值和方差。p()表示似然度，p(u|q,λ_u)表示基频目标似然度，p(f|u,q,λ_f)表示基频包络似然度，N()表示基频包络f服从正态分布。

本方法得到的基频包络可以用于与基于HMM语音合成方法得到的其他声学参数结合用于语音合成。在不同的应用场景下，本发明方法得到的基频包络的均方生成误差比传统基于HMM的语音合成方法低5～10Hz。

上述实施例为本发明的较佳实施例。目标参数估计方法不限于最速下降和网格搜索。此外，该基频生成算法不限于实施例中的使用方法，也可以与其他参数化语音合成方法结合。为此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围内的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1.一种用于参数化语音合成的基频建模方法，其特征在于，包括如下步骤：