CN102930863B

CN102930863B - 一种基于简化自适应内插加权谱模型的语音转换及重构方法

Info

Publication number: CN102930863B
Application number: CN201210401029.1A
Authority: CN
Inventors: 汤一彬; 高远; 徐宁; 单鸣雷; 朱昌平; 蒋爱民; 韩庆邦; 殷澄
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2012-10-19
Filing date: 2012-10-19
Publication date: 2014-05-28
Anticipated expiration: 2032-10-19
Also published as: CN102930863A

Abstract

本发明公开了一种基于简化自适应内插加权谱模型的语音转换及重构方法。在语音分析阶段省略了非周期成分的提取过程，从而简化并避免了非周期成分参数的输出。同时，在语音合成阶段又基于平滑功率谱参数建立高斯混合模型，对非周期成分参数进行估计和重构，从而满足原传统模型的输入参数要求。该简化模型与传统模型相比，其合成语音质量总体相当，在男声语音方面甚至更优于传统模型。此外，由于在分析阶段中省略了复杂的非周期成分提取过程，使得简化方法模型的计算量大为减小。

Description

一种基于简化自适应内插加权谱模型的语音转换及重构方法

技术领域

本发明属于语音信号处理技术领域，涉及一种语音转换和重构模型，特别涉及一种基于自适应内插加权谱的语音转换及重构（STRAIGHT）模型。

背景技术

语音参数化和重构是一个重要且具有一定挑战性的问题。其对应的语音分析-合成系统被广泛用于各种应用，如语音编码，转换等。在H.Kawahara,I.M.Katsuse,A.d.Cheveigne,“Restructuring speech representations using a pitchadaptive time-frequency smoothing and an instantaneous-frequency-based F0extraction:Possible role of a repetitive structure in sounds,”J.SpeechCommunication,vol.27,no.3-4,pp.187–207,April.1999发表的文献中表明，基于自适应内插加权谱的语音转换及重构（Speech Transformati on andRepresentation using Adaptive Interpolation of weiGHTed spectrum,STRAIGHT）模型，抛弃了传统语音模型中声门、声道的构造，直接提取语音的功率谱,获得了高质量的语音合成效果。其逐渐成为目前主流的语音分析合成模型，广泛应用在语音合成、语音转换等各方面。其采用以VOCODER为原型的源滤波器的思想来表征语音信号，把语音信号看作激励信号通过时变线性滤波器后输出的结果。在分析得到各帧的语音功率谱后，对该功率谱进行时频域上的平滑处理，同时在时间轴和频率轴上进行过采样，保证合成阶段对语音的高质量重构。

STRAIGHT模型本身也存在一些缺陷。STRAIGHT模型一开始是针对宽带语音合成提出的，其在多方面进行了较为精密的计算。如在非周期成分参数的提取过程中就包含相位弯曲映射，功率谱计算，功率谱上下边包络提取，上下边包络等价直角带宽（ERB）域计算,下边包络增强等一系列复杂的计算。因此，STRAIGHT模型的高计算量成为制约该模型进一步应用和发展的一个重要问题。

发明内容

本发明的目的是实现在保持合成语音质量基本不变的同时，使STRAIGHT模型输出参数种类个数的减少，减小STRAIGHT模型计算量，简化非周期成分参数的分析和输出。

本发明的技术方案从以下方面考虑：STRAIGHT模型是一种基于功率谱的语音模型。其平滑功率谱参数为一种经过时频域补偿后的功率谱，而非周期成分参数为对功率谱上下边包络处理后所提取的参数。从本质上说，两者都是原始功率谱的一种表现形式，存在一定相关性，因此可通过GMM模型构建两者的相关性，并最终达到从平滑功率谱参数中估计出非周期成分参数的目的。

本发明的主要技术内容如下：

一种基于简化自适应内插加权谱模型的语音转换及重构方法，其特征在于，在分析部分省略了原STRAIGHT模型中的非周期成分参数提取模块，在合成部分增加非周期成分参数重构过程。

所述的非周期成分参数重构过程，其包括美尔倒谱系数（MFCC）获取模块，高斯混合模型模块，美尔倒谱系数分类模块，平滑功率谱分类模块，非周期成分分类及其估计模块。

所述的非周期成分参数重构过程，包含以下步骤：

（1）、训练阶段：

（1a）、在美尔倒谱系数MFCC获取模块中输入平滑功率谱参数的训练集{P_i(w)}，1≤i≤T，获得对应的美尔倒谱MFCC系数集{M_i}，其中M_i=DCT{logΦP_i(w)}，Φ为人类听觉感知的权重函数,DCT{.}表示离散余弦变换，T为语音总帧数；

（1b）、在高斯混合模型GMM模块中对MFCC系数集采用进行最大期望值EM算法训练，更新高斯混合模型GMM中各状态参数，直至参数稳定为止，并记录GMM中的各状态参数，备重构阶段使用；

对于高斯混合模型GMM，设输入参数集为{x_i}＝{M_i}，1≤i≤T，设输入参数为x的概率分布p(x)为：

p (x) = Σ_{q = 1}^{Q} α_{q} N (x; μ_{q}; Σ_{q}),

约束条件为

Σ_{q = 1}^{Q} α_{q} = 1,

α_q≥0,

其中,Q,α_q分别为高斯成分数量及对应权重系数，μ_q，∑_q分别为第q个D维高斯正态分布N(x；μ_q;∑_q)的均值和协方差矩阵，1≤q≤Q，正态分布N(x；μ_q;∑_q)定义为：

N (x; μ_{q}; Σ_{q}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{q} |}^{1 / 2}} \exp [- \frac{1}{2} {(x - μ_{q})}^{T} Σ_{q}^{- 1} (x - μ_{q})],

其中，(.)^T和(.)^-1分别代表矩阵转置和求逆，

对第i个输入参数x_i，利用最大期望值EM算法的更新准则：

β_{q} (x_{i}) = \frac{α_{q} N (x_{i}; μ_{q}; Σ_{q})}{Σ_{j = 1}^{Q} α_{j} N (x_{i}; μ_{j}; Σ_{j})},

μ_{q} = \frac{Σ_{i = 1}^{T} β_{q} (x_{i}) x_{i}}{Σ_{i = 1}^{T} β_{q} (x_{i})},

Σ_{q} = \frac{Σ_{i = 1}^{T} β_{q} (x_{i}) {(x_{i} - μ_{q})}^{T} (x_{i} - μ_{q})}{D Σ_{i = 1}^{T} β_{q} (x_{i})},

α_{q} = \frac{1}{T} Σ_{i = 1}^{T} β_{q} (x_{i}),

其中，β_q(x_i)为x_i所属为第q类时的后验概率，α_j，μ_j，∑_j分别对应为第j个高斯成分的权重系数，第j个D维高斯正态分布N(x；μ_j;∑_j)的均值和协方差矩阵；

（1c）、美尔倒谱系数分类模块中，对输入美尔倒谱系数MFCC集按高斯混合模型GMM中的最大后验概率准则进行分类；对输入参数x_i＝M_i，则将M_i分入第J类，准则为在所有的类中，1≤q≤Q，寻找后验概率最大的β_q(x_i)，获取此时对应的q，并将q的数值赋给J,即

（1d）、平滑功率谱分类模块中，对与美尔倒谱系数MFCC相对应的各平滑功率谱参数进行分类，若美尔倒谱系数MFCC的M_i分入第J类，则对应的平滑功率谱参数P_i(w)也分入第J类；

（1e）、非周期成分分类及其估计模块中，对与平滑功率谱参数P_i(w)相对应的训练非周期成分参数ap_i进行分类，计算各类的中心数值，并作为各类非周期成分参数的估计值，若平滑功率谱参数P_i(w)分入第J类，则对应的非周期成分参数ap_i也分入第J类，其第J类的非周期成分的中心数值为

（2）、重构阶段：

（2a）、在美尔倒谱系数MFCC获取模块中输入所需重构的非周期成分参数对应的平滑功率谱参数P_i(w)，获得对应的MFCC系数M_i；

（2b）、在高斯混合模型GMM模块中，对输入MFCC系数，x_i＝M_i，计算各高斯成分所对应的概率

β_{q} (x_{i}) = \frac{α_{q} N (x_{i}; μ_{q}; Σ_{q})}{Σ_{j = 1}^{Q} α_{j} N (x_{i}; μ_{j}; Σ_{j})};

（2c）、美尔倒谱系数分类模块中，对输入MFCC系数M_i按GMM中的最大后验概率确定其所属第J类，

（2d）、平滑功率谱分类模块中，对与MFCC系数M_i相对应的平滑功率谱参数P_i(w)确定其所属第J类；

（2e）、非周期成分分类及其估计模块中，将平滑功率谱参数P_i(w)所属第J类对应的非周期成分参数的估计值作为该非周期成分参数的重构数值，

本发明所达到的有益效果：

本发明将高斯混合模型（GMM）与简化的自适应内插加权谱的语音转换及重构（STRAIGHT）模型相结合，利用语音平滑功率谱和非周期成分的相关性，通过平滑功率谱对非周期成分进行估计和重构。该简化STRAIGHT模型与传统模型相比，其合成语音质量总体相当，在男声语音方面甚至更优于传统模型。此外，由于在分析阶段中省略了复杂的非周期成分提取过程，使得简化模型的计算量大为减小。

附图说明

图1是本发明的一种基于非周期成分参数简化的基于自适应内插加权谱的语音转换及重构模型的框架图，图（a）是分析部分，图（b）是合成部分；

图2是本发明的基于语音平滑功率谱的非周期成分估计框图；

图3是本发明中对男女声合成语音的语谱图；

图4是本发明中不同高斯成分数目时合成语音质量统计图。

具体实施方式

下面结合附图，对本发明的一种基于非周期成分参数简化的基于自适应内插加权谱的语音转换及重构（STRAIGHT）模型作进一步阐述。

如图1所示，一种基于非周期成分参数简化的自适应内插加权谱的语音转换及重构（STRAIGHT）模型。其在分析部分简化并省略了原STRAIGHT模型中的非周期成分参数提取模块，在合成部分增加非周期成分参数重构模块。

如图2所示，非周期成分参数重构模块，其包括美尔倒谱系数（MFCC）获取模块，高斯混合模型模块，美尔倒谱系数分类模块，平滑功率谱分类模块，非周期成分分类及其估计模块。

如图2所示，所述的非周期成分参数重构模块，包含以下步骤：

（1）、训练阶段（实线及虚线流程部分）：

（1a）、在美尔倒谱系数（MFCC）获取模块中输入平滑功率谱参数的训练集{P_i(w)}，1≤i≤T，获得对应的MFCC系数集{M_i}，其中M_i=DCT{logΦP_i(w)}，Φ为人类听觉感知的权重函数,DCT{.}表示离散余弦变换，MFCC系数的个数取为20；

（1b）、在高斯混合模型（GMM）模块中对MFCC系数集采用进行最大期望值（EM）算法训练，更新GMM中各状态参数，直至参数稳定为止，并记录GMM中的各状态参数，备重构阶段使用；

对于GMM模型，设输入参数集为{x_i}＝{M_i}，1≤i≤T，设输入参数为x的概率分布p(x)为：

p (x) = Σ_{q = 1}^{Q} α_{q} N (x; μ_{q}; Σ_{q}),

约束条件为

Σ_{q = 1}^{Q} α_{q} = 1,

α_q≥0,

其中,Q,α_q分别为高斯成分数量及对应权重系数，Q＝150，μ_q，∑_q分别为第q个D维高斯正态分布N(x；μ_q;∑_q)的均值和协方差矩阵，1≤q≤Q，正态分布N(x；μ_q;∑_q)定义为：

N (x; μ_{q}; Σ_{q}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{q} |}^{1 / 2}} \exp [- \frac{1}{2} {(x - μ_{q})}^{T} Σ_{q}^{- 1} (x - μ_{q})] .

其中，(.)^T和(.)^-1分

别代表矩阵转置和求逆。

则利用EM算法的更新准则：

β_{q} (x_{i}) = \frac{α_{q} N (x_{i}; μ_{q}; Σ_{q})}{Σ_{j = 1}^{Q} α_{j} N (x_{i}; μ_{j}; Σ_{j})},

μ_{q} = \frac{Σ_{i = 1}^{T} β_{q} (x_{i}) x_{i}}{Σ_{i = 1}^{T} β_{q} (x_{i})},

Σ_{q} = \frac{Σ_{i = 1}^{T} β_{q} (x_{i}) {(x_{i} - μ_{q})}^{T} (x_{i} - μ_{q})}{D Σ_{i = 1}^{T} β_{q} (x_{i})},

α_{q} = \frac{1}{T} Σ_{i = 1}^{T} β_{q} (x_{i}),

其中，β_q(x_i)为x_i所属为第q类时的后验概率，α_j，μ_j，∑_j分别对应为第j个高斯成分的权重系数，第j个D维高斯正态分布N(x；μ_j；∑_j)的均值和协方差矩阵；

（1c）、美尔倒谱系数分类模块中，对输入MFCC系数集按GMM中的最大后验概率准则进行分类；对输入参数x_i＝M_i，则将其分入第J类，准则为

J = \underset{q}{\arg} \max β_{q} (x_{i}) .

（1d）、平滑功率谱分类模块中，对与MFCC系数相对应的各平滑功率谱参数进行分类。若MFCC系数M_i分入第J类，则对应的平滑功率谱参数P_i(w)也分入第J类；

（1e）、非周期成分分类及其估计模块中，对与平滑功率谱参数相对应的训练非周期成分参数进行分类，计算各类的中心的数值，并作为各类非周期成分参数的估计值。若平滑功率谱参数P_i(w)分入第J类，则对应的非周期成分参数ap_i也分入第J类。其第J类的非周期成分的中心为

（2）、重构阶段（实线流程部分）：

（2a）、在美尔倒谱系数（MFCC）获取模块中输入所需重构的非周期成分参数对应的平滑功率谱参数P_i(w)，获得对应的MFCC系数M_i；

（2b）、在高斯混合模型（GMM）模块中，对输入MFCC系数，x_i＝M_i，计算各高斯成分所对应的概率，

β_{q} (x_{i}) = \frac{α_{q} N (x_{i}; μ_{q}; Σ_{q})}{Σ_{j = 1}^{Q} α_{j} N (x_{i}; μ_{j}; Σ_{j})};

本发明的效果可以通过以下实验进一步说明：

1）实验条件

本实验采用TIMIT语音库中语音作为实验数据，语音采样速率为8kHz,语音帧长为30ms，帧移位1ms，频谱分析采用1024点的快速傅里叶变换。采用MatlabR2010a作为仿真工具，计算机配置为Intel酷睿i2410/2G。

2）实验内容

分别利用原STRAIGHT模型和本发明的简化的STRAIGHT模型，对男女声语音进行语音参数分解和基于该参数的语音合成。其中，原STRAIGHT模型分解出的语音参数为基音，平滑功率谱和非周期成分三参数，简化的STRAIGHT模型分解出的语音参数为基音和平滑功率谱两参数。

首先，对合成男女声语音进行语谱图比较，结果如图3所示，其中图3（a），（d）分别为原始男﹑女声语音，图3（b），（e）分别为原STRAIGHT模型的合成语音，图3（c），（f）分别为简化的STRAIGHT模型的合成语音，其中GMM中高斯成分数目设为150；

其次，对不同高斯成分数目时的男女声合成语音质量比较，结果如图4所示。

3)实验结果分析

从图3可以看出，本发明由于进行了非周期成分估计，使得语音的谐波性能增强，如图中画圈处指示。对于谐波性较强且规律的男声语音，本发明能增强其语音质量；对于谐波性变化较大的女声语音，谐波性能增强可能使得女生合成语音变得机械，因此本发明产生的女生语音质量可能略差与原STRAIGHT模型产生的女生语音；

从图4可以看出，在不同的高斯成分数目时，本发明的简化STRAIGHT模型合成语音质量的性能不同，对男女声的合成质量也有所差异。语音质量的评定采用语音感受质量评估（PESQ）为客观评价指标。图中可见，对于男声语音，采用150个高斯成分重构非周期成分参数时，其合成语音质量最佳，比原STRAIGHT模型高出约0.1左右。其后，因为GMM产生了过适应（over-fitting）问题,高斯成分数目的增加反而造成了语音质量的下降。对于女声语音，本发明的简化的模型合成语音质量略差于原STRAIGHT模型，但随着高斯成分的增加，其合成质量性能趋近于原STRAIGHT模型。这是由于女声语音的频谱动态变化范围较大，较少的高斯成分数目很难通过平滑功率谱对非周期成分进行准确分类，从而影响的合成语音质量。但总体说来，本发明的简化STRAIGHT模型与原传统模型相比，其合成语音质量总体相当，在男声语音方面甚至更优于传统模型。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于简化自适应内插加权谱模型的语音转换及重构方法，其特征在于，包括非周期成分参数重构过程，所述的非周期成分参数重构过程，包含以下步骤：

（1）、训练阶段：

（1b）、在高斯混合模型GMM模块中对MFCC系数集采用进行最大期望值EM算法训练，更新高斯混合模型GMM中各状态参数，直至参数稳定为止，并记录高斯混合模型GMM中的各状态参数，备重构阶段使用；

对于高斯混合模型GMM，设输入参数集为{x_i}={M_i}，1≤i≤T，设输入参数为x的概率分布p(x)为：

p (x) = Σ_{q = 1}^{Q} α_{q} N (x; μ_{q}; Σ_{q}),

约束条件为

Σ_{q = 1}^{Q} α_{q} = 1, α_{q} &GreaterEqual; 0,

其中,Q,α_q分别为高斯成分数量及对应权重系数，μ_q，Σ_q分别为第q个D维高斯正态分布N(x;μ_q;Σ_q)的均值和协方差矩阵，1≤q≤Q，正态分布N(x;μ_q;Σ_q)定义为：

N (x; μ_{q}; Σ_{q}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{q} |}^{1 / 2}} \exp [- \frac{1}{2} {(x - μ_{q})}^{T} Σ_{q}^{- 1} (x - μ_{q})],

其中，(.)^T和(.)^-1分别代表矩阵转置和求逆，

对第i个输入参数x_i，利用最大期望值EM算法进行更新，更新准则：

β_{q} (x_{i}) = \frac{α_{q} N (x_{i}; μ_{q}; Σ_{q})}{Σ_{j = 1}^{Q} α_{j} N (x_{i}; μ_{j}; Σ_{j})},

μ_{q} = \frac{Σ_{i = 1}^{T} β_{q} (x_{i}) x_{i}}{Σ_{i = 1}^{T} β_{q} (x_{i})},

Σ_{q} = \frac{Σ_{i = 1}^{T} (x_{i}) {(x_{i} - μ_{q})}^{T} (x_{i} - μ_{q})}{D Σ_{i = 1}^{T} β_{q} (x_{i})},

α_{q} = \frac{1}{T} Σ_{i = 1}^{T} β_{q} (x_{i}),

其中，β_q(x_i)为x_i所属为第q类时的后验概率，α_j，μ_j，Σ_j分别对应为第j个高斯成分的权重系数，第j个D维高斯正态分布N(x;μ_j;Σ_j)的均值和协方差矩阵；

（1c）、美尔倒谱系数分类模块中，对输入美尔倒谱系数MFCC集按高斯混合模型GMM中的最大后验概率准则进行分类；对输入参数x_i=M_i，则将M_i分入第J类，准则为在所有的类中，1≤q≤Q，寻找后验概率最大的β_q(x_i)，获取此时对应的q，并将q的数值赋给J,即

（1e）、非周期成分分类及其估计模块中，对与平滑功率谱参数P_i(w)相对应的训练非周期成分参数ap_i进行分类，计算各类的中心数值，并作为各类非周期成分参数的估计值，若平滑功率谱参数P_i(w)分入第J类，则对应的非周期成分参数api也分入第J类，其第J类的非周期成分的中心数值为

（2）、重构阶段：

（2b）、在高斯混合模型GMM模块中，对输入MFCC系数，x_i=M_i，计算各高斯成分所对应的概率

β_{q} (x_{i}) = \frac{α_{q} N (x_{i}; μ_{q}; Σ_{q})}{Σ_{j = 1}^{Q} α_{j} N (x_{i}; μ_{j}; Σ_{j})};