CN102122505A

CN102122505A - 一种提高语音合成系统表现力的建模方法

Info

Publication number: CN102122505A
Application number: CN2010100465195A
Authority: CN
Inventors: 王程程
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-01-08
Filing date: 2010-01-08
Publication date: 2011-07-13

Abstract

本发明公布了一种提高语音合成系统表现力的建模方法，本发明的特征是在Trainable TTs中引入了基频和频谱两个声学特征异步建模的概念，保证基频与频谱的音素边界相同的情况下进行独立的模型训练，最后通过参数生成算法各自生成出参数然后进行语音合成，实现了合成语音在音质的表现力方面的提升。

Description

一种提高语音合成系统表现力的建模方法

技术领域

本发明涉及语音合成领域，具体是提出一种对语音合成中基频和频谱两个声学特征异步建模的方法，达到提高合成语音的音质，使其韵律更加丰富的目的。

背景技术

语音合成技术的研究已有两百多年的历史，但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中，早期的研究主要是采用参数合成方法，后来随着计算机技术的发展又出现了波形拼接的合成方法。

在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980)，只要精心调整参数，这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk(1987)。但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。基于隐马尔可夫模型(HMM-based TrainableTTS)方法就是将HMM用于语音信号的建模和预测的参数合成方法，它能够实现稳定平滑的语音合成，但是由于参数模型是预测的，所以他合成出来的语音的音质存在一定缺陷。

在基于HMM的参数语音合成中，需要对频谱参数和基频参数同时进行建模和预测。传统方法是使用一个多流的HMM来对这两种参数进行同步建模，即：频谱参数和基频参数共享同样的一个状态序列；在状态序列给定的情况下，基频特征和频谱特征是独立的。也就是说，传统的Trainable TTS系统是同步和独立的。这样的同步假设是否会带来一些问题？我们知道，基频和频谱产生的生理机理是不同的，基频是说话时声带振动，产生基音的频率。而频谱反映了声道的形状。不同的发音器官器官决定了基频和频谱本应该是有异步性的。如果假设为同步会带来什么影响呢？我们知道，传统方法在HMM训练时，通过训练数据调整模型参数，包括状态转移和输出的概率分布，使模型创建的输出序列具有最大的概率，而状态占有率的计算是基频参数和谱参数结合在一起进行的：

r_t(i)＝P(q_t＝S_i|O₁，O₂，λ)其中，r_t(i)为t时刻是状态S_i的概率，O₁，O₂分别为频谱和基频参数的观测值，λ为HMM模型。

由于谱参数(O₁)的维数(一般123维)大大于基频参数(O₂)的维数(一般3维)，所以谱参数基本决定了状态占有率，对模型状态的分布及参数的更新起导向性作用。这样一起进行建模势必会影响到维数较小的基频模型的准确性。所以，我们提出基频与频谱异步独立建模的思想，使基频解除频谱的这种束缚，独立的根据训练数据的基频参数统计建模。

基于上面的分析，为了达到合成语音在音质的表现力方面的提升，提出基频与频谱异步独立建模的思想，从而提高了语音合成的系统的总体水平。

发明内容

本发明提供了一种提高语音合成系统表现力的建模方法，本发明的特征是在Trainable TTS中引入了基频和频谱两个声学特征异步建模的概念，保证基频与频谱的音素边界相同的情况下进行独立的模型训练，最后通过参数生成算法各自生成出参数然后进行语音合成，实现了合成语音在音质的表现力方面的提升。

本发明的技术方案如下：

(1)、模型训练：在保证基频与频谱的音素边界与原来基线系统相同的情况下，通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上，这是一种半异步的做法，之所以没有完全异步，我们是考虑到以下问题：如果基频与频谱在没有相同音素边界的限定的情况下建模，基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准；在合成时，我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下：

I.训练开始，最初步骤与原来同步建模系统相同，直到训练出初始的聚类隐马尔可夫模型(HMMs)。

II.用Baum-Welch参数更新算法深入训练后的同步模型来确定音素的边界，作为后面基频和频谱异步建模的公共的一致性的边界。

III.确定音素边界后，对基频和频谱分别进行深入训练，即在音素边界固定的情况下，对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。

IV.得到基频和频谱的各自音素内部的状态划分，训练音素时长，频谱状态时长，基频状态时长模型。

(2)、参数生成：基频和频谱参数生成就是在给定HMM集合λ的前提下，对目标矢量参数O₁，O₂(这里为频谱和基频参数)进行预测，相当于最大化P(O₁，O₂|λ)，而此式可写作：

在传统同步建模中，状态序列q₁＝q₂＝q；而在异步建模中，q₁≠q₂。所以，在异步系统中，参数生成可近似的分为以下两步最大化操作：

接下来使用一阶，二阶动态参数的参数生成算法与原基线系统一致。

参数生成时的时长预测问题，涉及到音素时长，频谱和基频的状态时长的加权。对目标参数d_i，d_i′的预测，相当于最大化下面的似然值：

似然值：

约束条件：

\underset{i}{Σ} d_{i} = d

\underset{i}{Σ} d_{i}^{'} = d

其中：似然值F式子的第一部分是频谱状态时长的似然值，第二部分是基频状态时长的似然值，第三部分为音素时长的似然值，三部分通过w₁和w₂这两个权值加权到一起，目的是在F式最大的情况下生成时长参数。d_i为预测的频谱时长，d_i′为预测的基频时长，d为预测的音素时长。

P_{i} = N (d_{i} | m_{i}, σ_{i}^{2})

为频谱时长的模型分布，

P_{i}^{'} = N (d_{i}^{'} | m_{i}^{'}, σ_{i}^{' 2})

为基频时长的模型分布，P＝N(d|m，σ²)为音素时长的模型分布。

由拉格朗日：

解上面这个方程，得到最终预测的时长：

d_{i}^{*} = m_{i} + ρ_{1} \cdot σ_{i}^{2}

d_{i}^{' *} = m_{i}^{'} + ρ_{2} \cdot σ_{i}^{' 2}

其中：

ρ_{1} = \frac{d - \underset{i}{Σ} m_{i}}{\underset{i}{Σ} σ_{i}^{2}}

ρ_{2} = \frac{w_{1} (d - \underset{i}{Σ} m_{i}^{'})}{\underset{i}{Σ} σ_{i}^{' 2}}

w₁和w₂值选取不同，得到的效果也就各不相同。

经过了上面的流程之后，频谱，基频，时长等参数得以生成，进而最后的语音合成得以实现。

发明的效果：

本发明的方法嵌套在Trainable TTS系统中，在其中添加了相关处理模块，具有可扩展性；

客观误差的降低：经过了这种方法的改进后，其基频方面的客观误差明显降低，基频曲线更加接近原始分析的参数。

主观音质的提高：经过了这种方法的改进后，合成语音的音质有了明显的提高，韵律更加丰富，音色更加像自然发音人。

术语解释

语音合成：语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统)，如磁带录音机，是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。

可训练语音合成(Trainable TTS)：就是可自动训练的语音合成，其基本原理就是基于一套自动化的流程，根据输入的语音数据进行训练，最后形成一个相应的语音合成系统。

隐马尔可夫模型(Hidden Markov Model，HMM)：隐马尔可夫模型作为一种统计分析模型，创立于20世纪70年代。80年代得到了传播和发展，成为信号处理的一个重要方向，现已成功地用于语音识别，行为识别，文字识别以及故障诊断等领域。隐马尔可夫模型是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以，隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来，HMM被应用于语音识别，取得重大成功。到了90年代，HMM还被引入计算机文字识别和移动通信核心技术“多用户的检测”。近年来，HMM在生物信息科学、故障诊断等领域也开始得到应用。

附图说明

附图：一种提高语音合成系统表现力的基频频谱异步建模方法的流程图

具体实施方式

似然值：

约束条件：

\underset{i}{Σ} d_{i} = d

\underset{i}{Σ} d_{i}^{'} = d

P_{i} = N (d_{i} | m_{i}, σ_{i}^{2})

为频谱时长的模型分布，

P_{i}^{'} = N (d_{i}^{'} | m_{i}^{'}, σ_{i}^{' 2})

由拉格朗日：

解上面这个方程，得到最终预测的时长：

d_{i}^{*} = m_{i} + ρ_{1} \cdot σ_{i}^{2}

d_{i}^{' *} = m_{i}^{'} + ρ_{2} \cdot σ_{i}^{' 2}

其中：

ρ_{1} = \frac{d - \underset{i}{Σ} m_{i}}{\underset{i}{Σ} σ_{i}^{2}}

ρ_{2} = \frac{w_{1} (d - \underset{i}{Σ} m_{i}^{'})}{\underset{i}{Σ} σ_{i}^{' 2}}

w₁和w₂值选取不同，得到的效果也就各不相同。

Claims

1.一种提高语音合成系统表现力的建模方法，即基频和频谱两个声学特征异步建模的方法，其特征是具体的实现方式如下：

I．训练开始，最初步骤与原来同步建模系统相同，直到训练出初始的聚类隐马尔可夫模型(HMMs)。

II．用Baum-Welch参数更新算法深入训I练后的同步模型来确定音素的边界，作为后面基频和频谱异步建模的公共的一致性的边界。

III．确定音素边界后，对基频和频谱分别进行深入训练，即在音素边界固定的情况下，对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。

IV．得到基频和频谱的各自音素内部的状态划分，训练音素时长，频谱状态时长，基频状态时长模型。

P (O_{1}, O_{2} | λ) = \underset{q_{1}, q_{2}}{Σ} P (O_{1}, O_{2} | λ, q_{1}, q_{2}) P (q_{1}, q_{2} | λ)

= \underset{q_{1}, q_{2}}{Σ} P (O_{1} | λ, q_{1}) P (O_{2} | λ, q_{2}) P (q_{1}, q_{2} | λ)

[q_{1}^{*}, q_{2}^{*}] = \arg \max_{q_{1}, q_{2}} P (q_{1} | λ) P (q_{2} | λ)

[O_{1}^{*}, O_{2}^{*}] = \arg \max_{O_{1}, O_{2}} P (O_{1} | λ, q_{1}^{*}) P (O_{2} | λ, q_{2}^{*})

似然值：

F = \underset{i}{Σ} \log P (d_{i} | λ_{i}) + w_{1} \underset{i}{Σ} \log P (d_{i}^{'} | λ_{i}^{'}) + w_{2} \underset{i}{Σ} \log P (d | λ)

约束条件：

\underset{i}{Σ} d_{i} = d

\underset{i}{Σ} d_{i}^{'} = d

P_{i} = N (d_{i} | m_{i}, σ_{i}^{2})

为频谱时长的模型分布，

P_{i}^{'} = N (d_{i}^{'} | m_{i}^{'}, σ_{i}^{' 2})

由拉格朗日：

F = - \frac{1}{2} \underset{i}{Σ} \frac{{(d_{i} - m_{i})}^{2}}{σ_{i}^{2}} - \frac{w_{1}}{2} \underset{i}{Σ} \frac{{(d_{i}^{'} - m_{i}^{'})}^{2}}{σ_{i}^{' 2}} - \frac{w_{2}}{2} \underset{i}{Σ} \frac{{(d - m)}^{2}}{σ^{2}} + λ_{1} (\underset{i}{Σ} d_{i} - d) + λ_{2} (\underset{i}{Σ} d_{i}^{'} - d)

解上面这个方程，得到最终预测的时长：

d_{i}^{*} = m_{i} + ρ_{i} \cdot σ_{i}^{2}

d_{i}^{' *} = m_{i}^{'} + ρ_{2} \cdot σ_{i}^{' 2}

其中：

ρ_{1} = \frac{d - \underset{i}{Σ} m_{i}}{\underset{i}{Σ} σ_{i}^{2}}

ρ_{2} = \frac{w_{1} (d - \underset{i}{Σ} m_{i}^{'})}{\underset{i}{Σ} σ_{i}^{' 2}}

w₁和w₂值选取不同，得到的效果也就各不相同。