CN104485099A

CN104485099A - 一种合成语音自然度的提升方法

Info

Publication number: CN104485099A
Application number: CN201410828928.9A
Authority: CN
Inventors: 高丽; 凌震华; 陈凌辉
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2015-04-01

Abstract

本发明公开了一种合成语音自然度的提升方法，该方法包括：构建一个基于隐马尔科夫模型HMM的语音合成系统，并基于该语音合成系统及自然录音获得一合成语音；分别提取该合成语音及自然录音的基频特征，并进行高斯双向联想贮存器GBAM模型训练；利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换；结合频谱和转换后的基频特征，利用STRAIGHT合成最终的语音。通过采用本发明公开的方法，可以提高合成语音的自然度，使之更为真实、生动。

Description

一种合成语音自然度的提升方法

技术领域

本发明涉及音频处理技术领域，尤其涉及一种合成语音自然度的提升方法。

背景技术

近几年来，在从文本到语音(TTS)的合成领域，基于隐马尔科夫模型(HMM)的语音合成已经发展成为一种主流的合成方法。它能够合成拥有高可懂度的高质量语音，但是在自然度上，由于合成的基频曲线过于平滑，因此与自然录音相比依然比较单调乏味。造成这一现象的一个重要原因是由于采用高斯声学模型时所产生的平均效应，而且基频F0是一种超音段的声学特征，拥有丰富的长时性特征，例如音节音调、短语语调等。

现有技术致力于从改变基频建模的模型结构和参数生成准则的角度来提高合成语音的自然度；然而，传统的基于HMM的语音合成系统在基频建模时一直把音素作为最基本建模单元，把帧一级的基频作为模型观测值，这就导致传统模型对基频长时特征不具备很好的建模能力，也就使得合成语音听起来没有自然语言那样生动形象。

发明内容

本发明的目的是提供一种合成语音自然度的提升方法，可以提高合成语音的自然度，使之更为真实、生动。

本发明的目的是通过以下技术方案实现的：

(与权利要求相对应)。

由上述本发明提供的技术方案可以看出，采用基于GBAM的基频后滤波方法来提高合成语音的自然度，该方法用一个类高斯的联合分布来描述合成基频参数和自然基频参数之间的关系，联合分布的参数通过训练数据预测而得。在转换阶段，根据已获得的GBAM得到条件分布和传统方法所获得的基频特征，来完成从合成基频到自然基频的转换，从而可以提高合成语音的自然度，使之更为真实、生动。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种合成语音自然度的提升方法的流程图；

图2为本发明实施例提供的目标逼近模型的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

实施例

图1为本发明实施例提供的一种合成语音自然度的提升方法的流程图。如图1所示该方法主要包括如下步骤：

步骤1、构建一个基于隐马尔科夫模型HMM的语音合成系统，并基于该语音合成系统及自然录音获得合成语音。

步骤2、分别提取该合成语音及自然录音的基频特征，并进行高斯双向联想贮存器GBAM模型训练。

本发明实施例中，提取的基频特征包括：长度规整的对数F0向量(FV)和定量目标逼近模型(qTA)参数；

其中，提取FV包括：根据音节的边界对每句话进行音节切分，再检测每个音节的浊音段边界；然后，基于声学建模考虑，对每个音节内浊音段的基频取对数，并将其规整到M个点，获得FV，表示为F＝[f₁,f₂,...,f_M]^T。

qTA参数的提取依据目标逼近(TA)模型和定量目标逼近(qTA)模型。传统的TA模型模拟基频产生的内在机制，假设基频运动的音高目标与音节同步，如图2所示。中间的竖线表示音节边界，虚线表示潜在的音高目标，实线表示基频轨迹；TA模型强调在每个音节的结尾处，基频轨迹都将不断逼近音高目标。TA模型假设有动态和静态两种类型的音高目标。

中文是一种很有代表性的声调语言，它包含四种声调：阴平、阳平、上声和去声。在TA模型中，阴平和上声对应于静态目标，阳平和去声对应于动态目标。

qTA模型是TA模型的定量模型之一，它是一个三阶临界阻尼线性系统，可以用下述公式表示：

f(t)＝T(t)+(c₀+c₁t+c₂t²)e^-λt；

其中，t表示相对于音节起始位置的相对时间，f(t)是完整的基频表达形式，T(t)表示潜在的音高目标，可用下式表示：

T(t)＝st+h；

其中，s与h分别表示音高目标的斜率和高度，f(t)表达式中的多项式部分是瞬态响应，λ表示基频逼近音高目标的速度，三个瞬态系数c₀、c₁与c₂分别可由下面三式获得：

c₀＝f₀-h；

c₁＝f₀'(0)+c₁λ-s；

c₂＝(f₀″(0)+2c₀λ-c₁λ²)/2；

其中，f₀、f₀'与f₀″为每个音节的初始状态，传统的qTA模型假设基频曲线是连续的，并在清音段采用线性内插来形成连续的基频曲线。因此当前音节的f₀、f₀'与f₀″均可以从上一个音节的结束状态继承而得，但是对于一句话的首音节，f₀需要预测，f₀'与f₀″一般被设为零。因此在传统的qTA模型中，对于每句话，我们需要知道该句话起始F0(基频)值以及每个音节的s、h与λ就可以重构出完整的基频曲线。

但是在中文的连续语流中，音节之间基频的协同发音现象非常严重，因此在清音段用线性内插来形成连续的基频曲线并不可靠，另外，为了去除时长对qTA参数提取的影响，我们用长度规整的对数F0向量(FV)来提取qTA参数；从前述FV的表达式可以看出，FV包含了M个基频值，所述M个基频值可以形成一条基频曲线；用数学模型来模拟这条基频曲线，qTA参数则为该数学模型对应的参数；本发明实施例中，将每个音节的浊音段作为基础单元来提取qTA参数。这样对每个音节来说，除了s、h与λ，我们还需要知道每个音节f₀，此时每个音节的qTA参数可以表示为T＝[f₀,s,h,λ]^T。在实验中，我们把每个音节的f₀'与f₀″都设为零，但是如果当前音节和前一个音节浊音段连续，则当前音节的f_0、f₀'与f₀″仍然从前一个音节的末尾状态继承。

进行高斯双向联想贮存器GBAM模型训练的方法如下：

BAM是一种两层的随机反馈神经网络，已经被成功地用于模式识别和信号处理领域。在BAM中，两种模式，x＝[x₁,...,x_L]^T和y＝[y₁,...,y_P]^T分别作为L维的原始特征和P维的目标特征。BAM一旦被激活，便会快速到达稳定状态，此时两种模式处于混响状态。该状态下两种模式之间的相互关系可以用权重矩阵W＝{ω_i,j}表示，并且此时的系统能量达到局部最小值。当BAM的神经元是零均值的高斯随机变量时，这个模型被叫做高斯BAM(GBAM)，其能量函数记作：

E (x, y) = Σ_{i = 1}^{L} \frac{x_{i}^{2}}{2 σ_{x, i}^{2}} + Σ_{j = 1}^{P} \frac{y_{j}^{2}}{2 σ_{y, j}^{2}} - Σ_{i = 1}^{L} Σ_{j = 1}^{P} ω_{i, j} \frac{x_{i}}{σ_{x, i}} \frac{y_{i}}{σ_{y, j}};

其中，与分别代表源特征x(合成语音的基频特征)和目标特征y(自然语音的基频特征)的协方差矩阵。二者之间的联合分布表示为：

其中，表示配分函数。

如果BAM的输入随机变量(即神经元)是连续的，并且规整到零均值，则上述P(x,y)表达式定义的分布便可以被重新整理成一个零均值的类高斯形式：

其中，C是精度矩阵，表示为：

C = Σ^{- \frac{1}{2}} [\begin{matrix} I & - W \\ {- W}^{T} & I \end{matrix}] Σ^{- \frac{1}{2}};

其中，Σ是[x^T,y^T]^T的对角协方差矩阵，W为权重矩阵，W^T为权重矩阵W的转置。如果C是正定矩阵，则GBAM等价于一个高斯分布。

在训练阶段，首先预测源特征x的每个子空间的类高斯联合分布P(x,y)，然后基于最大似然(ML)准则，利用CD(contrastive divergence，比较分歧)算法最优化权重矩阵W。

步骤3、利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换。

在转换阶段，应用贝叶斯理论获得给定源特征x时的目标特征y的条件分布，即

其中，表示训练好的GBAM模型预测的最优权重矩阵；表示高斯分布；

通过最大化条件概率完成合成语音的基频特征向自然录音的基频特征的转换，表示为：

本发明实施例中，基于训练好的GBAM模型分别对基频特征中的FV与qTA参数进行转换，记为GBAM-FV与GBAM-qTA；

对于GBAM-FV，最终的输出基频曲线(基频特征对应的曲线)由转换得到的FV直接进行反规整得到；

对于GBAM-qTA，利用转换得到的qTA参数重新构造FV；然后，将该FV进行反规整到真实的时长；再将提取该qTA参数时的残差与获得的真实时长相加得到最终的输出基频曲线。需要强调的是在qTA模型中，λ并不等价于基频特征的速度，因为如果f₀，s与h不相同，即使相同的λ也会导致不同的基频特征速度。初步的实验结果表明同时转换λ，f₀，s与h没有仅转换f₀，s与h的效果好，同时对λ的不恰当转换也可能造成非常不合理的基频特征速度。因此在最后实现中，我们仅转换f₀，s与h三个参数。

步骤4、结合频谱和转换后的基频特征，利用STRAIGHT合成最终的语音。

本发明实施例采用基于GBAM的基频后滤波方法来提高合成语音的自然度，该方法用一个类高斯的联合分布来描述合成基频参数和自然基频参数之间的关系，联合分布的参数通过训练数据预测而得。在转换阶段，根据已获得的GBAM得到条件分布和传统方法所获得的基频特征，来完成从合成基频到自然基频的转换，从而可以提高合成语音的自然度，使之更为真实、生动。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种合成语音自然度的提升方法，其特征在于，该方法包括：

构建一个基于隐马尔科夫模型HMM的语音合成系统，并基于该语音合成系统及自然录音获得合成语音；

分别提取该合成语音及自然录音的基频特征，并进行高斯双向联想贮存器GBAM模型训练；

利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换；

结合频谱和转换后的基频特征，利用STRAIGHT合成最终的语音。

2.根据权利要求1所述的方法，其特征在于，提取的基频特征包括：长度规整的对数F0向量FV和定量目标逼近模型qTA参数；

其中，提取FV包括：根据音节的边界对每句话进行音节切分，再检测每个音节的浊音段边界；然后，基于声学建模，对每个音节内浊音段的基频取对数，并将其规整到M个点，获得FV，表示为F＝[f₁,f₂,...,f_M]^T；

提取qTA参数包括：利用FV来提取qTA参数，将每个音节的浊音段作为基础单元来提取qTA参数，每个音节的qTA参数表示为T＝[f₀,s,h,λ]^T；其中，f₀为每个音节的初始状态，s与h分别表示音高目标的斜率和高度，λ表示基频逼近音高目标的速度。

3.根据权利要求1或2所述的方法，其特征在于，所述进行高斯双向联想贮存器GBAM模型训练包括：

预测合成语的基频特征x的每个子空间的类高斯联合分布P(x,y)，然后基于最大似然ML准则，利用比较分歧算法CD最优化权重矩阵W，表示为：

其中，y表示自然录音的基频特征，表示配分函数，E(x,y)表示GBAM模型的能量函数；C是精度矩阵，表示为：

C = Σ^{- \frac{1}{2}} [\begin{matrix} I & - W \\ {- W}^{T} & I \end{matrix}] Σ^{- \frac{1}{2}};

其中，Σ是[x^T，y^T]^T的对角协方差矩阵，W^T为权重矩阵W的转置；如果C为正定矩阵，则GBAM等价于一个高斯分布。

4.根据权利要求1或2所述的方法，其特征在于，所述利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换包括：

应用贝叶斯理论计算获得合成语音的基频特征时自然录音的基频特征的条件分布，表示为：

5.根据权利要求4所述的方法，其特征在于，

基于训练好的GBAM模型分别对基频特征中的FV与qTA参数进行转换，记为GBAM-FV与GBAM-qTA；

对于GBAM-FV，最终的输出基频曲线由转换得到的FV直接进行反规整得到；

对于GBAM-qTA，利用转换得到的qTA参数重新构造FV；然后，将该FV进行反规整到真实的时长；再将提取该qTA参数时的残差与获得的真实时长相加得到最终的输出基频曲线。