CN101710488A

CN101710488A - 语音合成方法及装置

Info

Publication number: CN101710488A
Application number: CN200910222899A
Authority: CN
Inventors: 凌震华; 江源; 胡郁; 胡国平; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: Jilin Kexun Information Technology Co ltd
Priority date: 2009-11-20
Filing date: 2009-11-20
Publication date: 2010-05-19
Anticipated expiration: 2029-11-20
Also published as: CN101710488B

Abstract

本发明公开了一种语音合成方法及装置，用于利用预先建立的音库对输入的待合成语句进行语音合成，其中的方法包括：使用HMM模型预测待合成语句的声学参数，根据所述待合成语句的声学参数确定待合成语句中的关键帧；从音库中搜索合成所述关键帧所需的语音波形片段；对所述语音波形片段进行波形内插处理，并对内插处理后的语音波形进行拼接合成，恢复波形得到合成语音。本发明通过搜索音库得到关键帧处的合成样本，并通过内插得到关键帧间的各帧波形，可提高处理效率，并改善合成语音质量。

Description

语音合成方法及装置

技术领域

本发明涉及计算机技术领域，尤其提供一种语音合成方法及装置。

背景技术

语音合成系统或称为文语转换系统(Text-to-Speech，TTS)，即将文字转化为语音的技术，它赋予计算机像人一样自如说话的能力，令人类与机器间的信息沟通更加舒服自然。随着技术的进步和社会的发展，语音合成技术一直在追求更高质量和更自然的效果。

当今语音合成技术有两大技术路线：1)基于隐马尔可夫模型(HiddenMarkov Model，HMM)的参数语音合成；2)基于单元挑选的波形拼接语音合成。二者各有特点，下面分别介绍：

1、基于HMM的参数语音合成方案

其基本思路是对语音信号进行参数化分解，并建立各参数对应的统计模型，合成时利用训练得到的统计模型预测待合成文本的语音参数，这些参数被输入参数合成器，最终得到合成的语音。此方法的优势体现在系统构建需要的数据量少，语种相关性弱，较少需要人工干预，合成语音平滑流畅，鲁棒性高，但是，基于HMM参数语音合成方法也有其先天不足：1)参数合成语音的音质不高：声学参数的提取会损失语音中的细节信息，令合成器输出带有较强的机器味，统计建模中的平滑效应进一步使得合成语音显得沉闷；2)合成语音的韵律过于平淡：基于统计模型的预测方法使得合成语音的韵律特征很稳定，这也使得合成语音的变化不够丰富，显得平淡。

2、基于单元挑选的波形拼接语音合成方案

其基本思路是根据输入文本信息，从标注好的语音库中挑选合适的单元(音节、音素、状态、帧等)，拼接得到最终的合成语音。在方法最初提出时，受到音库容量以及单元调整算法性能的限制，造成合成语音自然度不高，随着计算机运算和存储能力的发展，运用更大规模的音库以及引入更精细的单元挑选策略，不连续现象得到了很大改善。但是，波形拼接语音合成方法仍存在以下不足：1)合成效果强依赖于音库规模：当音库中样本单元数量过少或者语境环境单一时，很可能出现挑选不到合适单元的情况，导致效果严重下降；2)音库的构建工作量大：一个大规模的音库制作周期较长，其中韵律和音段标注需要手工标注，最终使用的系统还需要专家人员的经验调整；3)拼接单元尺寸和音库样本难以平衡：选取大尺寸拼接单元时，合成音质高，但样本数量少、单元覆盖率低，可能会导致系统难以找到合适样本，选取小尺寸拼接单元时，样本数量少，可以降低音库规模，但所需挑选拼接单元数量多，合成效率下降。

因此，如何利用小容量音库实现较高质量的语音合成一直是亟待解决的问题。

在现有的使用小容量音库构建语音合成系统的方案中，有一种使用语音帧作为基本单元的单元挑选与波形拼接合成方法。此方法通过使用语音帧作为基本拼接单元，利用声学参数统计模型指导单元挑选，可以有效改善传统拼接合成方法在使用音素作为基本拼接单元处理小容量音库时存在的备选单元覆盖率不足的问题。但是由于此方法在进行合成时需要对待合成语句中每帧语音都进行挑选，造成单元挑选效率极低，难以满足实际应用需求，以一句10s的语音段为例，当取帧长为5ms时，一共需要对2000帧数据进行单元挑选，加上前后单元的波形拼接处理，计算消耗非常大，并且由于帧单元长度小，造成合成语音的平滑性较差，影响合成语音质量。

发明内容

本发明提供一种语音合成方法及装置，以解决基于小容量音库的语音合成效率低、质量不高的问题。

为此，本发明实施例采用如下技术方案：

一种语音合成方法，用于利用预先建立的音库对输入的待合成语句进行语音合成，包括：

利用HMM模型预测待合成语句的声学参数，根据所述待合成语句的声学参数确定待合成语句中的关键帧；

从音库中搜索合成所述关键帧所需的语音波形片段；

对所述语音波形片段进行波形内插处理，并对内插处理后的语音波形进行拼接合成，恢复波形得到合成语音。

所述利用HMM模型预测待合成语句的声学参数包括：

确定HMM模型：提取所述音库中语音数据的声学参数，结合音库的上下文标注信息，训练声学参数的统计模型；根据待合成语句的上下文属性信息，得到时长、频谱和基频参数的目标HMM模型；

利用所述目标HMM模型对待合成语句的基频F0参数和线谱频率LSF参数进行预测。

所述根据所述待合成语句的声学参数确定待合成语句中的关键帧包括：

利用所述待合成语句的LSF参数，确定待合成语句的关键帧位置；

选定各关键帧一定数量的备选单元；

挑选最优的关键帧样本序列。

所述关键帧位置的选取准则是，在预测的LSF参数序列中选择某些帧，使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。

所述对所述语音波形片段进行波形内插处理，并对内插处理后的语音波形进行拼接合成包括：

使用正弦分析方法提取关键帧的复数频谱包络；

通过时域内插得到关键帧之间各帧的复数频谱包络。

所述恢复波形得到合成语音包括：

利用各帧复数频谱包络以及结合预测的基频值，恢复出各帧的波形；

通过对各帧波形的加窗叠加，得到最终的合成语音。

一种语音合成装置，用于利用预先建立的音库对输入的待合成语音进行语音合成，包括：

关键帧确定单元，用于利用HMM模型预测待合成语句的声学参数，根据所述待合成语句的声学参数确定待合成语句中的关键帧；

波形片段搜索单元，用于从音库中搜索合成所述关键帧所需的语音波形片段；

波形处理单元，用于对所述语音波形片段进行波形内插处理，并对内插处理后的语音波形进行拼接合成，恢复波形得到合成语音。

所述关键帧确定单元包括：

目标HMM模型确定子单元，用于提取所述音库中语音数据的声学参数，结合音库的上下文标注信息，训练声学参数的统计模型，并根据待合成语句的上下文属性信息，得到时长、频谱和基频参数的目标HMM模型；

声学参数预测子单元，利用所述目标HMM模型对待合成语句的F0和LSF参数进行预测；

关键帧选取子单元，根据所述待合成语句的LSF参数确定待合成语句中的关键帧。

所述关键帧选取子单元选取关键帧的准则是，在预测的LSF参数序列中选择某些帧，使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。

所述波形处理单元包括：

内插及拼接子单元，用于使用正弦分析方法提取关键帧的复数频谱包络，并通过时域内插得到关键帧之间各帧的复数频谱包络；

合成子单元，用于利用各帧复数频谱包络以及结合预测的基频值，恢复出各帧的波形，并通过对各帧波形的加窗叠加，得到最终的合成语音。

可见，本发明在语音合成时首先确定待合成语句中的关键帧位置，通过搜索音库得到关键帧的合成样本，并通过内插得到关键帧间的各帧波形，最终通过波形拼接合成语音。由此，由于选择的关键帧数量有限，因此与选择每个帧的现有方案而言，可以提高处理效率数倍以上，并结合波形内插处理的平滑作用，可以有效提升合成语音的长时平滑性，改善合成语音质量。

附图说明

图1为本发明语音合成方法流程图；

图2为本发明语音合成方法实施例流程图；

图3为本发明上下文相关音素5状态HMM的决策模型聚类示意图；

图4为本发明语音合成装置内部结构示意图。

具体实施方式

与现有使用语音帧作为基本单元的单元挑选与波形拼接合成方法不同，本发明只对关键帧而不是全部帧做挑选，因此可以提高处理效率数倍以上，结合波形内插处理的平滑作用，可以有效提升合成语音的长时平滑性，改善合成语音质量。

参见图1，为本发明语音合成方法流程图，包括：

S001：使用HMM模型预测待合成语句的声学参数，根据待合成语句的声学参数确定待合成语句中的关键帧；

S002：从音库中搜索合成关键帧所需的语音波形片段；

S003：对语音波形片段进行波形内插处理，并对内插处理后的语音波形进行拼接合成，恢复波形得到合成语音。

本发明的整体算法框架如图2所示，本发明方法实施例的步骤如下：

1)提取音库中语音数据的声学参数

101)提取基频(F0)参数

102)提取线谱频率(LSF)参数

103)计算F0和LSF的一阶二阶动态参数

2)结合音库的上下文标注信息，训练声学参数的统计模型

201)训练频谱和基频参数的HMM模型

202)训练状态时长参数的概率模型

3)目标语音参数预测和关键帧确定

301)根据待合成句文本属性信息，得到时长、频谱、基频参数的目标HMM模型

302)利用目标模型进行时长、频谱、基频参数的预测

303)确定待合成句中的关键帧位置

4)关键帧挑选

401)通过预选步骤，选定每个关键帧一定数量的备选单元

402)通过动态规划搜索挑选最优的关键帧样本序列

5)关键帧间内插与波形拼接合成

501)使用正弦分析方法提取关键帧的复数频谱包络

502)通过时域内插得到关键帧之间各帧的复数频谱包络

6)恢复波形拼接合成

601)由各帧复数频谱包络，结合预测基频值，恢复各帧波形

602)通过对各帧波形的加窗叠加，得到最终合成语音

各步骤的具体实施方案如下：

步骤101：利用自相关函数法提取音库中每句语音的基频(F0)，例如，设定帧移为5ms。

步骤102：利用格型法提取音库中每句语音的线性预测系数(LPC)，设定帧移为5ms，预测阶数24阶，再通过多项式求根法将LPC参数转为线谱频率(LSF)参数。

步骤103：计算F0和LSF的一阶和二阶差分参数。假设

表示步骤101与步骤102中分析得到的第t帧语音的LSF(或F0)参数，则其对应的一阶差分参数

与二阶差分参数动态参数

的计算公式为：

{Δx}_{s_{t}} = 0.5 x_{s_{t}} - 0.5 x_{s_{t-1}}

Δ^{2} x_{s_{t}} = x_{s_{t + 1}} - {2 x}_{s_{t}} + x_{s_{t - 1}}

最终第t帧完整的LSF(或F0)特征向量表示为

x_{t} = {[x_{s_{t}}^{T}, {Δx}_{s_{t}}^{T}, Δ^{2} x_{s_{t}}^{T}]}^{T},

其中符号T表示矩阵转置操作。

步骤201：训练频谱和基频参数的HMM模型。使用的特征为步骤103给出的每帧完整LSF与F0特征；模型结构为五状态从左到右各态历经的拓扑形式；每个状态的观测概率密度函数使用单高斯分布来表示；以音素为建模单位，并对其依据所在的上下文环境进行模型扩展；使用基于最大似然准则的Baum-Welch算法进行模型训练；通过基于最小描述长度(MDL)准则训练决策树对上下文扩展后的音素频谱与基频模型进行聚类，如图3所示。

步骤202：训练状态时长的概率模型。使用步骤201中的频谱与基频模型训练结果，通过强制对齐(Force Alignment)对音库中语音进行HMM状态的自动切分，基于切分结果训练状态时长的单高斯概率模型，同样构建决策树对上下文扩展模型后的状态时长模型进行聚类。

步骤301：待合成文本经文本分析器得到其上下文属性信息，再通过各模型聚类决策树确定待合成句对应的目标状态时长模型和目标LSF与F0参数HMM模型。

步骤302：利用步骤301中给出的各参数目标模型，通过结合动态特性的最大似然参数生成算法来预测待合成句的LSF与F0参数序列。其中预测的LSF参数序列用于步骤303确定句中关键帧位置，预测的F0参数序列用于步骤601合成时的语音基频调整。

步骤303：确定合成语中的关键帧位置。关键帧选取的准则是在步骤302预测的LSF参数序列中选择某些帧，使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。假设预测得到的LSF参数序列为[a₁，a₂，....，a_T]，T为总帧数，a_t，t∈[1，T]为每帧对应的24维LSF矢量；m₁，m₂，....，m_K为K个关键帧位置，那么第t帧通过前后关键帧内插得到的LSF参数可以表示为：

{\overset{&OverBar;}{a}}_{t} = a_{m_{k}} φ_{k} (t) + a_{m_{k + 1}} (1 - φ_{k} (t)), m_{k} \leq t < m_{k + 1}

其中φ_k(t)表示使用第k个关键帧恢复第t帧时使用的线性内插函数：

φ(t)＝(m_k+1-t)/(m_k+1-m_k)

定义第t帧的LSF参数恢复误差为：

E(t)＝||a_t-a_t||²

通过逐段最小化恢复误差可以确定各关键帧位置，其算法如下：

Step1)令关键帧数目K＝2，关键帧位置m₁＝1，m₂从m₁+1至总帧数T逐一循环，直到有某一帧t∈(m₁，m₂)对应E(t)大于预先设定的门限值ε＝5e-4时跳出循环，计算m₂＝m₂-1；如果循环至m₂＝T时仍不存在E(t)＞ε，t∈(m₁，m₂)的帧，则令m₂＝T，关键帧搜索过程结束退出；

Step2)n从m_K+1至总帧数T逐一循环，直到有某一帧t∈(m_K，n)对应E(t)大于预先设定的门限值ε时跳出循环，计算n＝n-1；如果循环至n＝T时仍不存在E(t)＞ε，t∈(m_K，n)的帧，则令n＝T；

Step3)在(m_K-1，n)范围内逐一搜索计算新的m_K，使得第m_K-1与第n帧之间的恢复误差

最小；

Step4)K＝K+1，m_K＝n；

Step5)如果m_K＝T，关键帧搜索过程结束退出，否则返回Step2)继续执行。

由此可以求取各关键帧的位置m_k，k＝1，2，...，K。

步骤401：通过快速预选，确定每个关键帧一定数量的备选单元。由于使用了帧级小尺寸单元，如果对每一关键帧都使用音库中所有备选语音帧进行单元挑选，则计算消耗很大。快速预选算法为：对于每一关键帧，限制其使用的音库中备选帧样本所在状态与关键帧所在待合成句中状态必须共享LSF模型聚类决策树中相同的叶子节点，如果满足条件的备选帧数目大于100，则强制选择前100个满足条件的备选帧用于步骤402中的单元挑选。

步骤402：最优关键帧样本序列的挑选。假设u＝[i₁，u₂，...，u_K]为挑选得到的K个关键帧对应的备选样本序列，则最优样本序列u^＊通过以下准则确定

u^{*} = \underset{u}{\arg \min} {Σ_{k = 1}^{K} TC (u_{k}) + Σ_{k = 2}^{N} CC (u_{k - 1}, u_{k})}

其中函数TC(u_k)为使用备选样本帧u_k合成第k个关键帧时的目标代价，由合成句的上下文信息通过HMM模型决策树来预测关键帧k所属状态以及其状态对应的LSF声学参数模型l_k，计算样本u_k在实际语流中的LSF参数相对模型l_k的对数似然值作为该单元的目标代价；函数CC(u_k-1，u_k)为备选样本帧u_k-1与u_k之间的连接代价，通过u_k-1与u_k内插得到一系列的中间过渡帧LSF参数，计算此参数序列相对中间各帧所在状态LSF模型的对数似然值来得到。最终，上式可以通过动态规划搜索来进行求解。

步骤501：使用正弦信号模型将搜索得到的第k关键帧样本对应波形s_k(n)表示形式为

其中ω_l＝2πlf₀/f_s为第/次谐波频率，f₀为当前帧基频，对于清音使用固定频率100Hz，f_s为语音采样率，使用的语音数据库为16kHz采样；N为每帧的采样点数，这里使用的5ms帧长对应N＝80；

为谐波个数；A_l与

为第/次谐波的幅度与相位，可以通过正弦分析方法求解得到。当相邻关键帧为浊音时，为了保证之间内插时的相位对齐，通过寻找相邻关键帧波形的最大互相关位置，进行最优偏移值n_s ^*的求取，如下

n_{s}^{*} = \arg \max Σ_{n = 0}^{N} s_{k - 1} (n) s_{k} (n + n_{s}), - T_{0} < n_{s} < T_{0}

其中T₀＝f_s/f₀为当前帧的基音周期长度。依据搜索得到的n_s ^*对第k关键帧中的谐波相位

进行如下调整

对由A_l与

表示的各谐波频率ω_l，l＝0，...，L处的频谱进行频域内插，得到整个频域上的复数频谱S_k(ω)，ω∈[0，π)。为保证频域谱内插的平滑性，分别对虚实部采用三次样条内插的方式。当关键帧为浊音时，最高次谐波ω_L与最高频率π之间可能出现无法内插的空白，此时复制最高次谐波数据给空白段。

步骤502：对步骤501中得到的K个关键帧处的复数频谱包络S_k(ω)，k＝1，2，...，K进行时域的线性内插，内插分实部和虚部分别进行，最终恢复得到句中所有T帧的复数频谱包络S_t(ω)，t＝1，2，...，T。

步骤601：假设步骤302中预测得到的第t帧基频f₀(如果为清音则使用固定频率100Hz)，则使用谐波频率ω_l＝2πlf₀/f_s对S_t(ω)进行采样，得到各谐波频率处的幅度A_l与相位

当第t帧为浊音时，对于4kHz以下频段，使用正弦参数恢复波形，如下

其中

对于4kHz以上频段，使用高斯白噪声通过S_t(ω)中4KHz以上频谱对应的高通滤波器，得到高频段波形s_t ^High(n)，最终第t帧的合成波形为

\overset{&OverBar;}{s_{t}} (n) = \overset{&OverBar;}{s_{t}^{Low}} (n) + \overset{&OverBar;}{s_{t}^{High}} (n) .

当第t帧为清音时，使用高斯白噪声通过S_t(ω)完整频谱对应的滤波器得到波形s_t(n)。

此外，为了满足步骤602中波形叠加平滑的需要，这里每帧生成的波形s_t(n)长度均为2N点。

步骤602：为消除逐帧过渡时的跳变，对于t＞1时的每帧通过加窗叠加前帧波形来拼接输出最终合成语音s(n)。这里使用长度为2N点的三角窗w_s(n)来进行，如下

S(n)＝w(n+N)S_t-1(n+N)+w(n)S_t(n) n＝1，2，...，N

与上述方法相对应，本发明还提供一种语音合成装置，该装置用于利用预先建立的音库对输入的待合成语音进行语音合成，在实现上，可通过软件、硬件或软硬件结合实现本装置的功能。

参见图4，为本发明装置内部结构示意图，包括：

关键帧确定单元401，用于使用HMM模型预测待合成语句的声学参数，根据所述待合成语句的声学参数确定待合成语句中的关键帧；

波形片段搜索单元402，用于从音库中搜索合成关键帧确定单元401确定的关键帧所需的语音波形片段；

波形处理单元403，用于对波形片段搜索单元402搜索的语音波形片段进行波形内插处理，并对内插处理后的语音波形进行拼接合成，恢复波形得到合成语音。

其中，关键帧确定单元401进一步可包括：

目标HMM模型确定子单元4011，用于提取所述音库中语音数据的声学参数，结合音库的上下文标注信息，训练声学参数的统计模型，并根据待合成语句的上下文属性信息，得到时长、频谱和基频参数的目标HMM模型；

声学参数预测子单元4012，利用目标HMM模型确定子单元4011确定的目标HMM模型，对待合成语句的F0参数和LSF参数进行预测；

关键帧选取子单元4013，根据声学参数预测子单元4012确定的待合成语句的LSF参数，确定待合成语句中的关键帧。关键帧选取子单元4013选取关键帧的准则是，在预测的LSF参数序列中选择某些帧，使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。

其中，波形处理单元403进一步可包括：

内插及拼接子单元4031，用于使用正弦分析方法提取关键帧的复数频谱包络，并通过时域内插得到关键帧之间各帧的复数频谱包络；

合成子单元4032，用于利用内插及拼接子单元4031获得的各帧复数频谱包络以及结合预测的基频值，恢复出各帧的波形，并通过对各帧波形的加窗叠加，得到最终的合成语音。

可见，本发明在语音合成时首先确定待合成语句中的关键帧位置，通过搜索音库得到关键帧处的合成样本，并通过内插得到关键帧间的各帧波形，最终通过波形拼接合成语音。由此，可以提高处理效率数倍以上，并结合波形内插处理的平滑作用，可以有效提升合成语音的长时平滑性，改善合成语音质量。

本领域普通技术人员可以理解，实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如：ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音合成方法，用于利用预先建立的音库对输入的待合成语句进行语音合成，其特征在于，包括：

从音库中搜索合成所述关键帧所需的语音波形片段；

2.根据权利要求1所述方法，其特征在于，所述利用HMM模型预测待合成语句的声学参数包括：

3.根据权利要求2所述方法，其特征在于，所述根据所述待合成语句的声学参数确定待合成语句中的关键帧包括：

选定各关键帧一定数量的备选单元；

挑选最优的关键帧样本序列。

4.根据权利要求3所述方法，其特征在于，所述关键帧位置的选取准则是，在预测的LSF参数序列中选择某些帧，使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。

5.根据权利要求1至4任一项所述方法，其特征在于，所述对所述语音波形片段进行波形内插处理，并对内插处理后的语音波形进行拼接合成包括：

使用正弦分析方法提取关键帧的复数频谱包络；

通过时域内插得到关键帧之间各帧的复数频谱包络。

6.根据权利要求5所述方法，其特征在于，所述恢复波形得到合成语音包括：

通过对各帧波形的加窗叠加，得到最终的合成语音。

7.一种语音合成装置，用于利用预先建立的音库对输入的待合成语音进行语音合成，其特征在于，包括：

8.根据权利要求7所述装置，其特征在于，所述关键帧确定单元包括：

9.根据权利要求8所述装置，其特征在于，所述关键帧选取子单元选取关键帧的准则是，在预测的LSF参数序列中选择某些帧，使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。

10.根据权利要求7、8或9所述装置，其特征在于，所述波形处理单元包括：