CN1835074B

CN1835074B - 一种结合高层描述信息和模型自适应的说话人转换方法

Info

Publication number: CN1835074B
Application number: CN200610039680A
Authority: CN
Inventors: 秦龙; 凌震华; 王仁华
Original assignee: ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Current assignee: iFlytek Co Ltd
Priority date: 2006-04-07
Filing date: 2006-04-07
Publication date: 2010-05-12
Anticipated expiration: 2026-04-07
Also published as: CN1835074A

Abstract

本发明公开了一种结合高层描述信息和模型自适应的说话人转换方法，包括原始说话人声学模型的训练，使用结合高层描述信息和最大似然线性回归的自适应方法对原始说话人声学模型进行调整，以及由自适应得到的目标说话人模型进行参数生成并合成目标语音三个主要阶段。使用本发明中的说话人转换方法，可以提高合成语音的音质，增强合成语音中目标说话人的特征，实现具有多表现力的语音合成系统。

Description

一种结合高层描述信息和模型自适应的说话人转换方法

技术领域

本发明涉及语音合成中说话人转换的方法，具体是通过高层韵律描述信息和模型自适应方法使语音合成系统可以合成多音色、多风格的语音。

背景技术

随着语音合成技术的飞速发展，合成语音的音质和自然度都有了很大的提高，人们已经不再满足一个语音合成系统仅可合成单一音色、单一风格的语音的情形。为了使语音合成系统可以合成出多种音色、多种风格的语音，如果使用传统的语音合成技术，则需要录制多个说话人的不同发音风格的音库，然而音库的录制是一个成本非常大且需要很长的时间才能完成的工作。为了实现具有多表现力的语音合成系统，同时又不至于录制更多更大的音库，说话人转换技术被提出和广泛研究。

目前应用较为广泛的说话人转换方法有基于码本映射(Codebook Mapping)的方法和基于混合高斯模型(Gaussian Mixture Model)的方法。码本映射和基于混合高斯模型的说话人转换方法，一般都需要目标说话人的语音数据和原始说话人的语音数据在文本上相对应，这样就可以利用原始说话人与目标说话人的声学参数之间的对应关系，在参数空间建立起由原始说话人到目标说话人之间的一对一的映射。不过，要求文本和目标说话人语音对应增加了实际系统的使用难度。同时，采用这两种方法转换得到的目标说话人的合成语音中，往往普遍的存在频谱不连续的现象，造成了合成语音音质的降低。

基于隐马尔可夫模型(Hidden Markov Model)的方法也是一种较为广泛应用的说话人转换方法。基于隐马尔可夫模型的说话人转换方法，在进行参数生成的时候充分考虑了语音参数的动态特征，可以生成较为平滑的语音频谱，很好的解决合成语音中的不连续现象。但一般的基于隐马尔可夫模型的说话人转换方法，在进行模型自适应调整时，只是简单的使用数据驱动的方法对原始说话人的声学模型进行绑定，忽略了语音特征的高层描述信息，导致一些完全不相关的模型却进行相同的调整，造成了合成语音中目标说话人的特征不明显、音质下降等问题。

发明内容

本发明的目的就是提出一种结合高层描述信息和模型自适应的基于隐马尔可夫模型的说话人转换方法，提高合成语音的音质，增强合成语音中目标说话人的特征，使语音合成系统可以合成多种音色、多种风格的语音。

一种结合高层描述信息和模型自适应的说话人转换方法，其特征是包括训练阶段和合成阶段，在训练阶段，首先，使用原始说话人的语音数据，训练得到原始说话人频谱、基频和时长隐马尔可夫模型；然后，使用结合高层描述信息和最大似然线性回归的自适应方法，分别对训练得到的原始说话人的频谱、基频和时长模型进行自适应调整，从而得到目标说话人的频谱、基频和时长参数的隐马尔可夫模型；合成阶段则是根据得到的目标说话人的频谱、基频和时长模型，采用考虑参数动态特征的参数生成算法，相应的生成目标说话人的频谱、基频和时长参数，并将其输入到参数合成器中，由参数合成器合成出最终的目标说话人的语音.具体实现步骤为：

(1)、训练阶段的具体实现过程如下：

1)对原始说话人的语音数据进行分帧处理以及语音参数分析和提取，得到原始说话人每一帧语音的线谱频率和基频参数；并对每一帧的线谱频率参数计算其动态参数，即一阶差分、二阶差分参数，由线谱频率参数及其一阶差分、二阶差分参数作为原始说话人的频谱参数；使用多空间概率分布隐马尔可夫模型对频谱和基频参数进行建模，从而得到原始说话人的频谱和基频的隐马尔可夫模型；

2)使用1)中训练得到的原始说话人的频谱和基频隐马尔可夫模型，对原始说话人的语音数据进行隐马尔可夫模型状态切分，从而得到了原始说话人的时长参数，进而训练得到原始说话人的隐马尔可夫时长模型；

3)充分考虑合成系统中能够提供的对于语音单元的高层描述信息，如上下文相关的韵律信息，这些高层描述信息可以有效辅助建立原始说话人和目标说话人的声学参数的映射关系；根据最大似然准则，利用语音单元的高层描述信息，分别为原始说话人的各声学状态的频谱模型建立一棵上下文相关的决策树；具体做法是，在使用决策树对原始说话人的某一状态的频谱模型进行聚类的过程中，每个节点分裂时，总是选择可以使状态输出似然值的增加值最大的问题，对该节点中的所有频谱模型进行决策分类；

4)将3)中生成的各状态频谱模型的决策树合并为一棵决策树，实际上就是在一个根节点下挂载着3)中得到的各状态的决策树，在使用这棵决策树进行模型绑定时，首先通过决策问题将不同状态的模型分开，然后对应每个状态的频谱模型则可以使用3)中得到的各状态的决策树对原始说话人的相应状态的频谱模型进行绑定；

5)使用参数分析算法，对目标说话人的语音进行分析，提取目标说话人的频谱参数(线谱频率及其一阶差分、二阶差分参数)，采用自顶向下(Top-Down)或自底向上(Bottoom-Up)的方式遍历4)中生成的决策树；对于那些有足够的数据并且是叶子节点或者其所有子节点均没有足够的数据来进行调整的节点作为一个回归节点。

6)对5)中得到的各回归节点中的模型进行线性调整，主要是通过求得表征原始说话人频谱模型与目标说话人频谱模型之间映射关系的回归矩阵来实现的；这样便得到了目标说话人的频谱模型；

7)对于原始说话人的基频模型，采用与频谱模型相同的如上3)、4)、5)、6)中所述的调整方法，进而得到目标说话人的基频模型；

8)由得到的目标说话人的频谱和基频模型对目标语音进行隐马尔可夫模型状态切分，得到用于训练的目标说话人的时长数据；

9)采用与频谱和基频相同的模型调整方法，对原始说话人的状态时长模型进行调整，从而得到目标说话人的时长模型；

(2)、合成阶段具体采用如下的方法：

1)按照对输入文本分析的结果，找得对应的目标说话人的频谱、基频和时长模型序列。

2)对这些模型使用考虑语音参数动态特征的参数生成方法，具体方法为根据最大似然准则，最大化输出概率其中0为语音参数矢量(包括静态参数和动态参数)，Q为状态高斯序列指出每个高斯属于哪个状态，λ为训练阶段得到的目标说话人的频谱、基频和时长隐马尔可夫模型，假设在P(Q|λ)最大的条件下，上述最大化输出概率等同于最大化，其中U为相应高斯模型的协方差矩阵组成的对角矩阵，M为由相应高斯模型的均值序列组成的矩阵，O＝WC，其中C为语音静态参数矢量，W为由静态参数生成包括静态特征和动态特征的参数矢量的计算矩阵，则可以通过

求得最终生成的语音静态参数为C＝(W^TU^-1W)^-1W^TU^-1M^T，按照这种考虑语音动态特征的参数生成算法，分别生成目标说话人的线谱频率、基频和时长参数；

3)将生成的线谱频率、基频和时长参数输入到线谱参数合成器，合成出目标说话人的语音。

发明的效果

语音高层描述信息的使用，避免了一些完全不相关的模型却使用相同的回归矩阵进行调整所造成的合成语音的音质降低。同时，也增强了合成语音中目标说话人的特征。

结合高层描述信息和模型自适应的说话人转换方法，使语音合成系统可以合成出多个说话人的语音，同时又不增加太大的成本和音库的存储空间，合成系统建立的周期也大大缩短。

结合高层描述信息和模型自适应的说话人转换方法，也可以帮助合成系统合成出不同风格，如不同的情感、不同年龄、不同发音方式的语音。

术语解释

语音合成(Text-To-Speech)：又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科，是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是：如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，目的是让计算机能够产生高清晰度、高自然度的连续语音。

说话人转换(Voice Conversion)：它是近年来语音合成领域中的一个研究热点，主要是对一个人(原始说话人)的语音进行处理，使它听起来像另一个人(目标说话人)说出来的一样。它可以应用商业、军事、娱乐等多个领域。

语音特征的高层描述信息：主要是指自然语音中一些上下文相关的信息，如前后音素环境、在韵律层次中的位置等。各种语音参数如频谱参数、基频参数都和高层描述信息有很大的相关性。

隐马尔可夫模型(Hidden Markov Model)：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。用HMM刻画语音信号需做出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态(或当前的状态转移)有关，这两个假设大大降低了模型的复杂度。

附图说明

图1：本发明的系统工作流程框图。

图2：上下文相关的决策树。

具体实施方式

参见附图，结合高层描述信息和模型自适应的说话人转换方法，包括训练阶段和合成阶段，

1、训练阶段的具体实现过程如下：

1)原始说话人的语音数据进行分帧处理以及语音参数分析和提取，得到原始说话人每一帧语音的线谱频率和基频参数。并对每一帧的线谱频率参数计算其动态参数，即一阶差分、二阶差分参数，由线谱频率参数及其一阶差分、二阶差分参数作为原始说话人的频谱参数。使用多空间概率分布隐马尔可夫模型对频谱和基频参数进行建模，采用的是5状态的隐马尔可夫模型，从而得到原始说话人的频谱和基频的隐马尔可夫模型。

2)使用1)中训练得到的原始说话人的频谱和基频隐马尔可夫模型，对原始说话人的语音数据进行隐马尔可夫模型状态切分，从而得到了原始说话人的时长参数，进而训练得到原始说话人的时长模型。

3)充分考虑合成系统中能够提供的对于语音单元的高层描述信息，如上下文相关的韵律信息，这些高层描述信息可以有效辅助建立原始说话人和目标说话人的声学参数的映射关系。根据最大似然准则，分别为原始说话人的各状态的频谱模型建立一棵上下文相关的决策树。具体做法是，在使用决策树对原始说话人的各状态模型进行聚类的过程中，每个节点分裂时，总是选择可以使状态输出似然值的增加值最大的问题，对该节点中的所有模型进行决策分类。

4)将3)中生成的各状态频谱模型的决策树合并为一棵决策树，也就是首先通过决策问题将不同状态的模型分开，然后对应每个状态则使用3)中得到的各状态的回归树，并由这棵决策树对原始说话人的频谱模型进行绑定。

5)提取目标说话人的频谱参数(线谱频率及其一阶差分、二阶差分参数)，采用自顶向下(Top-Down)或自底向上(Bottom-Up)的方式遍历4)中生成的决策树。对于那些有足够的数据并且是叶子节点或者其所有子节点均没有足够的数据来进行调整的节点作为一个回归节点。

6)对5)中得到的各回归节点中的模型进行线性调整，主要是求得表征原始说话人频谱模型与目标说话人频谱模型之间映射关系的回归矩阵。这样便得到了目标说话人的频谱模型。

7)对于原始说话人的基频模型，采用与频谱模型相同的自适应调整方法，进而得到目标说话人的基频模型。

8)由自适应得到的目标说话人的频谱和基频模型对目标语音进行隐马尔可夫模型状态切分，得到用于自适应的目标说话人的时长数据。

9)采用与频谱和基频相同的自适应方法，对原始说话人的状态时长模型进行自适应调整，从而得到目标说话人的时长模型。

2、合成阶段具体采用如下的方法：

1)按照输入文本分析的结果，生成原始说话人的频谱、基频和时长参数。

2)对这些参数使用考虑语音参数动态特征的参数生成方法，根据最大似然准则，由训练阶段得到的目标说话人的频谱、基频和时长隐马尔可夫模型，分别生成目标说话人的线谱频率、基频和时长参数。

Claims

1.一种结合高层描述信息和模型自适应的说话人转换方法，其特征是包括训练阶段和合成阶段：

(1)、训练阶段的具体实现过程如下：

5)使用参数分析算法，对目标说话人的语音进行分析，提取目标说话人的频谱参数(线谱频率及其一阶差分、二阶差分参数)，采用自顶向下(Top-Down)或自底向上(Bottom-Up)的方式遍历4)中生成的决策树；对于那些有足够的数据并且是叶子节点或者其所有子节点均没有足够的数据来进行调整的节点作为一个回归节点；

7)对于原始说话人的基频模型，采用与频谱模型相同的如上3)、4)、5)、

6)中所述的调整方法，进而得到目标说话人的基频模型；

(2)、合成阶段具体采用如下的方法：

1)按照对输入文本分析的结果，找得对应的目标说话人的频谱、基频和时长模型序列；

a)对这些模型使用考虑语音参数动态特征的参数生成方法，具体方法为根据最大似然准则，最大化输出概率其中O为语音参数矢量(包括静态参数和动态参数)，Q为状态高斯序列指出每个高斯属于哪个状态，λ为训练阶段得到的目标说话人的频谱、基频和时长隐马尔可夫模型，假设在P(Q|λ)最大的条件下，上述最大化输出概率等同于最大化，

其中U为相应高斯模型的协方差矩阵组成的对角矩阵，M为由相应高斯模型的均值序列组成的矩阵，O＝WC，其中C为语音静态参数矢量，W为由静态参数生成包括静态特征和动态特征的参数矢量的计算矩阵，则可以通过

2)将生成的线谱频率、基频和时长参数输入到线谱参数合成器，合成出目标说话人的语音。