CN101751921A

CN101751921A - 一种在训练数据量极少条件下的实时语音转换方法

Info

Publication number: CN101751921A
Application number: CN200910263101A
Authority: CN
Inventors: 徐宁; 杨震
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2009-12-16
Filing date: 2009-12-16
Publication date: 2010-06-23
Anticipated expiration: 2029-12-16
Also published as: CN101751921B

Abstract

本发明提出了一种在训练数据量极少条件下的实时语音转换方法，利用集成学习理论(Ensemble Learning，EL)对采集到的数据进行高斯混合模型(Gaussian Mixture Model，GMM)的建模，并在均方误差最小(Minimum Mean Square Error，MMSE)的准则下设计映射函数。避免了标准的GMM模型在数据量极少的情况下容易产生过拟合(Over-fitting)的问题，提高了语音转换算法对数据量问题的鲁棒性。同时本发明方法在估算GMM参数的过程中的运算复杂度较标准的GMM低，因此适用于进行实时的语音转换。

Description

一种在训练数据量极少条件下的实时语音转换方法

技术领域

本发明涉及语音转换技术(Voice conversion，VC)，尤其涉及一种在训练数据量极少条件下的实时语音转换方法，是用于文语转换系统和机器人发声系统的基于统计分析模型的语音转换方案，属于信号处理特别是语音信号处理技术领域。

背景技术

本专利所涉及的知识领域被称为语音转换技术，是语音信号处理领域近年来新兴的研究分支，涵盖了说话人识别和语音合成的核心技术，并使之结合到一起以达到统一的目标，即：在保持语义内容不变的情况下，通过改变一个特定说话人(被称为源说话人，Sourcespeaker)的话音个性特征，使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人，Target speaker)说的话。简而言之，语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换，然后将变换后的参数重构成语音。在这过程中，既要保持重构语音的听觉质量，又要兼顾转换后的个性特征是否准确。

经过多年的发展，语音转换领域虽然已经涌现出大量的算法，但是这些算法都只是在实验室环境下才能运行的，即需要充足的训练数据。但是现实情况往往比较“残酷”，特别是目标说话人的语音数据常常难以收集，或者只能采集到一小部分，例如几秒钟。在这种恶劣的环境下，如果直接套用传统的语音转换算法，就会导致系统不稳定或者崩溃。之所以会产生这样的问题，原因不外乎以下两点：①在训练数据量较少，待估计的模型参数较多的情况下，系统形成了一种所谓的“欠学习”的情况，即估计得到的模型对数据“拟合”的不理想，或者虽然对这部分数据“拟合”的比较理想，但是对其他数据的“预测”性能却不佳。这种现象也常常被称为“模型的过拟合”(Over-fitting)问题。②传统的最常用的估计模型参数的方法是最大似然估计(Maximum Likelihood，ML)和最大后验概率估计(Maximum a Posterior，MAP)。但遗憾的是，这两种方法都是“点估计”方法，即它们选取的最优参数往往是使似然函数或后验概率函数取局部最大值的那个值。如果训练数据量较多，尚有一定的普适性，但在数据量较少的情况下，以上两种方法选取的最优点常常不具有代表性，即它们只能代表这些已有的一小部分数据的最优，而不能代表其他众多数据的最优值。

一般来说，语音转换系统的核心步骤之一是对采集的数据进行统计建模，即用统计概率模型(Statistical Model)来拟合数据的概率分布，进而得到与之有关的信息，方便后续步骤加以利用。在这个过程中，如何利用已有数据来“学习”或“预测”模型的参数就成为了最为关键的问题。期望最大化算法(Expectation Maximization，EM)被公认为一种学习统计模型参数的优秀算法，因此被广泛采用。但是由于它是一种局部优化算法，因此往往会使结果陷入局部最小值的误区，特别是在训练数据量较少的情况下，这个问题更为明显，这种现象亦被称为“模型的过拟合”问题(Over-fitting)。考虑到在现实的环境下，我们收集到的语音数据往往是稀疏的，即数据量较少，因此经典的EM算法肯定是不适用的。

目前国际、国内尚未出现研究如何在训练数据稀少情况下进行语音转换的课题，发明内容在该领域尚属首创。

发明内容

针对现有技术之不足，本发明提出了一种在训练数据量极少条件下的实时语音转换方法，该方法在采集到的语音数据(训练数据)数量特别少的恶劣情况下，能保证语音转换系统的正常运行。

本发明的技术方案是：一种在训练数据量极少条件下的实时语音转换方法，其特征在于：利用集成学习理论对采集到的训练数据进行高斯混合模型的建模，并在均方误差最小的准则下设计映射函数，用映射函数对源的语音进行映射，实现实时语音转换；其步骤是：第一步，选用谐波加噪声模型作为语音分析合成模型对源和目标的语音进行分析，得到语音的基频轨迹和谐波幅度值和相位值，然后进一步提取其中的线性谱频率作为特征参数；第二步，将源和目标的特征参数按照所属音素内容的不同进行划分，并在语音帧的层面进行对齐，即使得源和目标人数量不一样的特征参数集合通过归一化处理，使其在集合数据之间产生一一对应的关系；第三步，利用高斯混合模型针对对齐后的特征参数进行建模，即利用对齐后的特征参数来估计该高斯混合模型的参数，这时的高斯混合模型的参数是在集成学习理论的框架下估计得到的，接着，根据高斯混合模型估计得到的参数，在均方误差最小的准则下估计回归函数，将其作为最终的映射函数；第四步，当完成了以上所有步骤之后，用上述的映射函数对任意的源的语音进行映射，得到转换后的目标说话人语音；上述第一步～第三步为训练阶段，第四步为转换阶段。

所说第二步中将源和目标的特征参数按照所属音素内容的不同进行划分，采用人工对语音波形进行标注，将不同的声母韵母区分开来的方式。

估计高斯混合模型参数的步骤如下：

首先确定优化目标：首先确定优化目标：

\log p (Y) = \log &Integral; dθdXp (X, Y, θ)

= \log &Integral; dθdXq (X, θ) \cdot \frac{p (X, Y, θ)}{q (X, θ)} - - - (1)

&GreaterEqual; &Integral; dθdXq (X, θ) \cdot \log \frac{p (X, Y, θ)}{q (X, θ)}

这里用到一个技巧：(1)式中q(X，θ)不再取使不等号变成等号的那个后验概率了，而是另取一个任意的概率形式，前提是易于求解。同时为了便于计算，认为它可以因式分解为q(X，θ)＝q_X(X)q_θ(θ)，这样(1)式可以进一步改写为：

\log p (Y) &GreaterEqual; &Integral; dθdXq (X) q (θ) \cdot \log \frac{p (X, Y, θ)}{q (X) q (θ)}

= &Integral; dθq (θ) [&Integral; dXq (X) \log \frac{p (X, Y | θ)}{q (X)} + \log \frac{p (θ)}{q (θ)}] - - - (2)

= F (q (X), q (θ))

于是，优化logp(Y)的问题转换为了优化它的下限F(q(X)，q(θ))的问题。求取分布函数q(X)和q(θ)的过程，可以用一种迭代的方式来进行，分别被称为集成学习期望化(EL-Expectation，ELE)和集成学习最大化(EL-Maximization，ELM)步骤：

ELE：

q^{(t + 1)} (X) = \frac{1}{Z_{X}} \exp [&Integral; dθ q^{(t)} (θ) \log p (X, Y | θ)] - - - (3)

ELM：

q^{(t + 1)} (θ) = \frac{1}{Z_{θ}} p (θ) \exp [&Integral; dX q^{(t + 1)} (X) \log p (X, Y | θ)] - - - (4)

式中的t表示迭代步骤。

上述的集成学习通用算法可以用来学习一些模型的参数，在本专利中，将它用来学习高斯混合模型的参数。即对于某个观测变量y，假设它服从M个混合度的高斯分布，用数学式子可表示如下：

p (y) = Σ_{m = 1}^{M} π_{m} N (y; μ_{m}, Σ_{m}) - - - (5)

其中π_m为混合系数，μ_m和∑_m分别为第m个混合度的均值和方差。用这样一个模型可以很方便的描述现实中的一大部分数据的概率分布，正是由于这个原因，语音转换中也采用这个模型对数据进行建模。现在假设获得了观测数据序列Y＝{y₁，y₂，…，y_T}，再假设有一个与之相对应的隐变量数据序列X＝{x₁，x₂，…，x_T}用来表示在某一时刻t，数据y_t是从哪个混合度产生出来的，也就是说x_t∈{1，2，…，M}。根据高斯混合模型的特点，待估计的参数集合θ可定义为：θ＝{π_m，μ_m，∑_m，m＝1，2，…，M}。

我们知道，在集成学习理论框架下，所有的参数和隐变量都有各自的概率分布函数，且根据上述的公示推导，q(X)和q(θ)都是自由分布函数，即它们可以是任何概率形式。为了方便后续计算，不失一般性，不妨假设混合系数{π_m}服从联合Dirichlet分布，即p({π_m})＝D(λ₀)；均值服从正态分布，即

p (π_{m} | Σ_{m}^{- 1}) = N (ρ_{0}, β_{0} Σ_{m}^{- 1});

协方差矩阵的逆服从Wishart分布，即

p (Σ_{m}^{- 1}) = W (v_{0}, Φ_{0}) .

同时，假设

q (θ) = q ({π_{m}}) \underset{m}{Π} q (μ_{m}, Σ_{m}),

于是根据公式(3)(4)可以计算得到：

{\overset{&OverBar;}{π}}_{m} = \frac{1}{T} Σ_{t = 1}^{T} γ_{m}^{t},

{\overset{&OverBar;}{μ}}_{m} = \frac{1}{{\overset{&OverBar;}{T}}_{m}} Σ_{t = 1}^{T} γ_{m}^{t} y_{t},

{\overset{&OverBar;}{Σ}}_{m} = \frac{1}{{\overset{&OverBar;}{T}}_{m}} Σ_{t = 1}^{T} γ_{m}^{t} C_{m}^{t} - - - (6)

其中，

γ_{m}^{t} = p (x_{t} = m | y_{t}),

T_m＝Tπ_m，

C_{m}^{t} = (y_{t} - {\overset{&OverBar;}{μ}}_{m}) {(y_{t} - {\overset{&OverBar;}{μ}}_{m})}^{T} .

传统的估计算法在得到(6)式之后就结束了，而集成学习理论不同于传统算法的地方正是将所有的未知变量看作随即变量，因此具有一定的分布概率。于是还要用(6)式的结果继续更新模型，即估计未知参数的概率分布。考虑到之前为高斯混合模型参数假设的概率分布函数属于共轭先验函数集，因此它们的后验概率分布应该和先验分布属于同一种类型，不同之处只是在参数的取值上。也就是说有：q({π_m})＝D(λ_m)，

q (π_{m} | Σ_{m}^{- 1}) = N (ρ_{m}, β_{m} Σ_{m}^{- 1}),

q (Σ_{m}^{- 1}) = W (v_{m}, Φ_{m}) .

然后应用以下规律更新分布参数：

λ_m＝T_m+λ₀，ρ_m＝(T_mμ_m+β₀ρ₀)/(T_m+β₀)，β_m＝T_m+β₀ (7)

v_m＝T_m+v₀，Φ_m＝T_m∑_m+T_mβ₀(μ_m-ρ₀)(μ_m-ρ₀)^T/(T_m+β₀)+Φ₀ (8)

式(7)(8)就是集成学习理论下高斯混合模型参数的求取公式。

一般来说，语音转换系统可以分为两个实施阶段：训练阶段和转换阶段。

在训练阶段：

①源和目标人的语音通过谐波加噪声模型(Harmonic plus noise model，HNM)进行分解，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。具体细节描述如下：

a.对语音信号进行分帧，帧长20ms，帧重叠间隔10ms。

b.在每帧中，用自相关法估计基频，若该帧为清音帧，则设置基频等于零。

c.对于浊音帧(即基频不为零的帧)，假设语音信号可以由一系列的正弦波叠加而成：

s_{h} (n) = Σ_{l = - L}^{L} C_{l} e^{j ω_{0} n} - - - (9)

式中L为正弦波的个数，{C_l}为正弦波的复幅度。令s_h表示s_h(n)在一帧内的样点所组成的矢量，则(9)式可以改写成：

s_h＝Bx，

x = [\begin{matrix} C_{L}^{*} \\ C_{L - 1}^{*} \\ . \\ . \\ . \\ C_{L} \end{matrix}] - - - (10)

通过最小二乘算法可以确定以上的{C_l}：

ϵ = Σ_{n = - \frac{N}{2}}^{\frac{N}{2}} w^{2} (n) \cdot {(s (n) - s_{h} (n))}^{2} - - - (11)

其中s(n)是真实语音信号，w(n)是窗函数，一般取汉明窗。将窗函数也改写成矩阵形式：

W = [\begin{matrix} w^{2} (- N / 2) \\ w^{2} (- N / 2 + 1) \\ . \\ . \\ . \\ w^{2} (N / 2) \end{matrix}] - - - (12)

则最优的x可以这样得到：

WBx = Ws &DoubleRightArrow; x_{opt} = B^{H} W^{H} Ws - - - (13)

d.得到了{C_l}，则谐波幅度和相位值如下：

A_l＝2|C_l|＝2|C_-l|，

②由于原始谐波加噪声模型参数维数较高，不便于后续计算，因此必须对其进行降维。由于基频轨迹是一维参数，因此，降维的主要对象是声道幅度谱参数和相位参数。同时，降维的目标是将声道参数转化为经典的线性预测参数(Linear Prediction Coefficient，LPC)，进而产生适用于语音转换系统的线性谱频率参数(Linear Spectrum Frequency，LSF)。求解步骤概括如下：

a.分别求取离散的L个幅度值A_l的平方，并将其认为是离散功率谱的采样值P(ω_l)。

b.根据帕斯卡定律，功率谱密度函数和自相关函数是一对傅立叶变换对，即

R_{n} &Proportional; {&Integral;}_{- π}^{π} P (ω) e^{jωn} dω,

因此我们可以通过求解下式得到对线性预测参数系数的初步估值：

其中a₁，a₂，…，a_p是p阶线性预测参数系数。

c.将p阶线性预测参数系数代表的全极点模型转换成时域冲激响应函数h^*[n]：

h^{*} [n] = \frac{1}{L} Re {\underset{l}{Σ} \frac{1}{A (e^{j ω_{l}})} e^{j ω_{l} n}} - - - (16)

其中

A (e^{{jω}_{l}}) = A {(z)}_{| z = e^{j ω_{l}}} = 1 + a_{1} z^{- 1} + a_{2} z^{- 2} + \cdot \cdot \cdot + a_{p} z^{- p} .

可以证明，h^*和估计得到的自相关序列R^*满足：

Σ_{i = 0}^{p} a_{i} R^{*} (n - i) = h^{*} [- n] - - - (17)

在满足板仓-斋田距离(Itakura-Satio，IS)距离最小化的情况下，有真实的R和估计的R^*的关系如下：

Σ_{i = 0}^{p} a_{i} R^{*} (n - i) = Σ_{i = 0}^{p} a_{i} R (n - i) - - - (18)

d.于是将(17)式代替(18)式，并重估计(15)式，有：

e.用IS准则评估误差，如果误差大于设定的阈值，则重复步骤c～e。反之，则停止迭代。

得到的线性预测参数系数通过联立求解下面两个等式，转化为线性谱频率参数：

P(z)＝A(z)+z^-(p+1)A(z^-1)

(20)

Q(z)＝A(z)-z^-(p+1)A(z^-1)

③通过②骤得到的源和目标的线性谱频率参数，用动态时间规整算法(Dynamic TimeWarping，DTW)进行对齐。所谓的“对齐”是指：使得对应的源和目标的线性谱频率在设定的失真准则上具有最小的失真距离。这样做的目的是：使得源和目标人的特征序列在参数的层面上关联，便于后续统计模型学习其中的映射规律。动态时间规整算法步骤简要概述如下：

对于同一个语句的发音，假定源说话人的声学个性特征参数序列为x₁，x₂，…，

，…，

，而目标说话人的特征参数序列为y₁，y₂，…，

，…，

，且N_x≠N_y。设定源说话人的特征参数序列为参考模板，则动态时间规整算法就是要寻找时间规整函数

使得目标特征序列的时间轴n_y非线性地映射到源特征参数序列的时间轴n_x，从而使得总的累积失真量最小，在数学上可以表示为：

其中

表示第n_y帧的目标说话人特征参数和第

帧源说话人特征参数之间的某种测度距离。在动态时间规整的规整过程中，规整函数

是要满足以下的约束条件的，有边界条件和连续性条件分别为：

动态时间规整是一种最优化算法，它把一个N阶段决策过程化为N个单阶段的决策过程，也就是转化为逐一做出决策的N个子问题，以便简化计算。动态时间规整的过程一般是从最后一个阶段开始进行，也即它是一个逆序过程，其递推过程可以表示为：

D(n_y+1，n_x)＝d(n_y+1，n_x)+min[D(n_y，n_x)g(n_y，n_x)，D(n_y，n_x-1)，D(n_y，n_x-2)] (24)

其中

g(n_y，n_x)是为了n_y，n_x的取值满足时间规整函数的约束条件。

④计算平均基频比：认为源和目标的基频序列服从单高斯分布，然后估计高斯模型的参数，即均值μ和方差σ。

⑤用高斯混合模型对动态时间规整对齐后的特征参数进行建模，集成学习理论估计模型参数。即首先将源和目标矢量组合成一个扩展矢量，即

z_{t} = {[x_{t}^{T}, y_{t}^{T}]}^{T},

然后用(6)-(8)式对z_t估计模型参数，得：

μ_{m}^{z} = [\begin{matrix} μ_{m}^{X} \\ μ_{m}^{Y} \end{matrix}],

Σ_{m}^{Z} = [\begin{matrix} Σ_{m}^{XX} & Σ_{m}^{XY} \\ Σ_{m}^{YX} & Σ_{m}^{YY} \end{matrix}],

m＝1，2，…，M (25)

在转换阶段：

①待转换的语音用谐波加噪声模型进行分析，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值，该过程和训练阶段中的第一步相同。

②和训练阶段一样，将谐波加噪声模型参数转换为线性谱频率参数。

③利用训练阶段得到的有关基频的模型参数，设计基频转换函数为：

\log f_{0}^{'} = μ^{y} + \frac{σ^{y}}{σ^{x}} (\log f_{0} - μ^{x}) - - - (26)

其中f′₀是转换后的基频，μ^y，μ^x分别是训练出来的源和目标高斯模型的均值，同样，σ^y，σ^x分别是源和目标高斯模型的方差。

④在均方误差最小的准则下设计声道线性谱频率参数的转换函数如下：

{\hat{y}}_{t} = E [y_{t} | x_{t}] = Σ_{m = 1}^{M} p_{m} (x_{t}) \cdot [μ_{m}^{Y} + Σ_{m}^{YX} {(Σ_{m}^{XX})}^{- 1} (x_{t} - μ_{m}^{X})] - - - (27)

其中

p_{m} (x_{t}) = π_{m} N (x_{t}; μ_{m}^{X}, Σ_{m}^{XX}) / \underset{m}{Σ} π_{m} N (x_{t}; μ_{m}^{X}, Σ_{m}^{XX}) .

⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数，然后和修改后的基频轨迹一起合成转换后的语音，详细步骤如下：

a.将获得的A_l，f₀，

用正弦模型的定义合成第k的语音，即：

b.为了减少帧间交替时产生的误差，采用叠接相加法合成整个语音，即对于任意相邻的两帧，有：

s (kN + m) = (\frac{N - m}{N}) \cdot s^{(k)} (m) + (\frac{m}{N}) \cdot s^{(k + 1)} (m - N), 0 \leq m \leq N - - - (29)

其中N表示一帧语音中包含的样点数。

本发明的优点及显著效果：集成学习理论能在学习过程中逐步对模型结构进行“自我调整”，优化模型参数的分布，从而使得参数的个数和维度保持在一定的复杂度之内。这个特点对于较少数据量的学习过程非常有效，因为它不会产生少数据量对应高复杂度模型的情况，也就是避免了过拟合问题。集成学习法(Ensemble Learning，EL)来对模型进行学习认知，其中的统计模型我们选择高斯混合模型(Gaussian Mixture Model，GMM)。集成学习算法的特点在于：它能在学习过程中逐步对模型结构进行“自我调整”，优化模型参数的分布，从而使得参数的个数和维度保持在一定的复杂度之内。这个特点对于较少数据量的学习过程非常有效，因为它不会产生少数据量对应高复杂度模型的情况，也就是避免了过拟合。

附图说明

图1是现有语音转换系统结构图；

图2是本发明提出的语音转换系统详细框图。

具体实施方式

已公开的语音转换系统结构如图1所示。从横向来看，该系统可以分为两大主要部分：训练阶段和转换阶段。在训练阶段，源和目标的语音数据被采集、分析、提取特征参数、学习转换规则并加以保存；在转换阶段，新的待转换的源语音数据同样被采集、分析、提取参数，随后将训练阶段得出的转换规则用于其上，最后将变换后的所有参数通过语音合成模块合成语音。一般来说，训练阶段是非实时阶段，即是离线模式；而转换阶段是实时阶段，即在线模式。从纵向来看，该系统又可以被分为信号的分析与合成、参数选择和提取、参数对齐算法、转换函数设计四大步骤。每一步骤都在整个语音转换系统中发挥着独特的作用，缺一不可。

本专利提出的语音转换系统框图如图2所示。

在训练阶段：

①源和目标人的语音通过谐波加噪声模型进行分解，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。

②由于原始谐波加噪声模型参数维数较高，不便于后续计算，因此必须对其进行降维。由于基频轨迹是一维参数，因此，降维的主要对象是声道幅度谱参数和相位参数。同时，降维的目标是将声道参数转化为经典的线性预测参数，进而产生适用于语音转换系统的线性谱频率参数。

③通过②骤得到的源和目标的线性谱频率参数，用动态时间规整算法进行对齐。这样做的目的是：使得源和目标人的特征序列在参数的层面上具有一定的联系，便于后续统计模型学习其中的映射规律。

④计算平均基频比：认为源和目标的基频序列服从单高斯分布，然后估计高斯模型的参数，即均值和方差。

⑤用高斯混合模型对动态时间规整对齐后的特征参数进行建模，并用集成学习理论估计模型参数。

在转换阶段：

①待转换的语音用谐波加噪声模型进行分析，得到有关的参数。

②将谐波加噪声模型参数转换为线性谱频率参数。

③利用训练阶段得到的有关基频的模型参数，对源的基频进行转换。

④在均方误差最小的准则下转换声道线性谱频率参数。

⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数，然后和修改后的基频轨迹一起合成转换后的语音。

Claims

1.一种在训练数据量极少条件下的实时语音转换方法，其特征在于：利用集成学习理论对采集到的训练数据进行高斯混合模型的建模，并在均方误差最小的准则下设计映射函数，用映射函数对源的语音进行映射，实现实时语音转换；其步骤是：第一步，选用谐波加噪声模型作为语音分析合成模型对源和目标的语音进行分析，得到语音的基频轨迹和谐波幅度值和相位值，然后进一步提取其中的线性谱频率作为特征参数；第二步，将源和目标的特征参数按照所属音素内容的不同进行划分，并在语音帧的层面进行对齐，即使得源和目标人数量不一样的特征参数集合通过归一化处理，使其在集合数据之间产生一一对应的关系；第三步，利用高斯混合模型针对对齐后的特征参数进行建模，即利用对齐好的特征参数来估计该高斯混合模型的参数，这时的高斯混合模型的参数是在集成学习理论的框架下估计得到的，接着，根据高斯混合模型估计得到的参数，在均方误差最小的准则下估计回归函数，将其作为最终的映射函数；第四步，当完成了以上所有步骤之后，用上述的映射函数对任意的源的语音进行映射，得到转换后的目标说话人语音；上述第一步～第三步为训练阶段，第四步为转换阶段。

2.根据权利要求1所述的在训练数据量极少条件下的实时语音转换方法，其特征在于：第二步中将源和目标的特征参数按照所属音素内容的不同进行划分，采用人工对语音波形进行标注，将不同的声母韵母区分开来的方式。

3.根据权利要求1或2所述的在训练数据量极少条件下的实时语音转换方法，其特征在于：估计高斯混合模型参数的步骤如下：

首先确定优化目标：

\log p (Y) = \log &Integral; dθdXp (X, Y, θ)

= \log &Integral; dθdXq (X, θ) \cdot \frac{p (X, Y, θ)}{q (X, θ)} - - - (1)

&GreaterEqual; &Integral; dθdXq (X, θ) \cdot \log \frac{p (X, Y, θ)}{q (x, θ)}

式中q(X，θ)取一个易于求解任意的概率形式，它可以因式分解为q(X，θ)＝q_X(X)q_θ(θ)，这样(1)式可以进一步改写为：

\log p (Y) &GreaterEqual; &Integral; dθdXq (X) q (θ) \cdot \log \frac{p (X, Y, θ)}{q (X) q (θ)}

= &Integral; dθq (θ) [&Integral; dXq (X) \log \frac{p (X, Y | θ)}{q (X)} + \log \frac{p (θ)}{q (θ)}] - - - (2)

= F (q (X), q (θ))

于是，优化logp(Y)的问题转换为了优化它的下限F(q(X)，q(θ))及求取分布函数q(X)和q(θ)的过程，用一种迭代的方式来进行，分别被称为集成学习期望化EL-Expectation，ELE和集成学习最大化EL-Maximization，ELM步骤：

ELE : q^{(t + 1)} (X) = \frac{1}{Z_{x}} \exp [&Integral; dθ q^{(t)} (θ) \log p (X, Y | θ)] - - - (3)

ELM : q^{(t + 1)} (θ) = \frac{1}{Z_{θ}} p (θ) \exp [&Integral; dX q^{(t + 1)} (X) \log p (X, Y | θ)] - - - (4)

式中的t表示迭代步骤；

将上述集成学习通用算法用于学习高斯混合模型的参数，即对于任意一个观测变量y，假设它服从M个混合度的高斯分布，用数学式子可表示如下：

p (y) = Σ_{m = 1}^{M} π_{m} N (y; μ_{m}, Σ_{m}) - - - (5)

假设获得了观测数据序列Y＝{y₁，y₂，…，y_T}，再假设有一个与之相对应的隐变量数据序列X＝{x₁，x₂，…，x_T}用来表示在某一时刻t，数据y_t是从哪个混合度产生出来的，也就是说x_t∈{1，2，…，M}，根据高斯混合模型的特点，待估计的参数集合θ可定义为：

θ＝{π_m，μ_m，∑_m，m＝1，2，…，M}；

在集成学习理论框架下，所有的参数和隐变量都有各自的概率分布函数，且根据上述的公示推导，q(X)和q(θ)都是自由分布函数，即它们可以是任何概率形式，为了方便后续计算，不失一般性，假设混合系数{π_m}服从联合Dirichlet分布，即p({π_m})＝D(λ₀)；均值服从正态分布，即

p (π_{m} | Σ_{m}^{- 1}) = N (ρ_{0}, β_{0} Σ_{m}^{- 1});

协方差矩阵的逆服从Wishart分布，即

p (Σ_{m}^{- 1}) = W (v_{0}, Φ_{0});

同时，假设

q (θ) = q ({π_{m}}) \underset{m}{Π} q (μ_{m}, Σ_{m}),

于是根据公式(3)(4)可以计算得到：

{\overset{&OverBar;}{π}}_{m} = \frac{1}{T} Σ_{t = 1}^{T} γ_{m}^{t},

{\overset{&OverBar;}{μ}}_{m} = \frac{1}{{\overset{&OverBar;}{T}}_{m}} Σ_{t = 1}^{T} γ_{m}^{t} y_{t},

{\overset{&OverBar;}{Σ}}_{m} = \frac{1}{{\overset{&OverBar;}{T}}_{m}} Σ_{t = 1}^{T} γ_{m}^{t} C_{m}^{t} - - - (6)

其中，

γ_{m}^{t} = p (x_{t} = m | y_{t}),

T_m＝Tπ_m，

C_{m}^{t} = (y_{t} - {\overset{&OverBar;}{μ}}_{m}) {(y_{t} - {\overset{&OverBar;}{μ}}_{m})}^{T};

用(6)式的结果继续更新模型，即估计未知参数的概率分布，考虑到之前为高斯混合模型参数假设的概率分布函数属于共轭先验函数集，因此它们的后验概率分布应该和先验分布属于同一种类型，不同之处只是在参数的取值上，也就是说有：q({π_m})＝D(λ_m)，

q (π_{m} | Σ_{m}^{- 1}) = N (ρ_{m}, β_{m} Σ_{m}^{- 1}),

q (Σ_{m}^{- 1}) = W (v_{m}, Φ_{m}),

然后应用以下规律更新分布参数：

式(7)(8)就是集成学习理论下高斯混合模型参数的求取公式。

3、根据权利要求1或2所述的在训练数据量极少条件下的实时语音转换方法，其特征在于：

在训练阶段

①源和目标人的语音通过谐波加噪声模型进行分解，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值，具体步骤如下：

a.对语音信号进行分帧，帧长20ms，帧重叠间隔10ms；

b.在每帧中，用自相关法估计基频，若该帧为清音帧，则设置基频等于零；

c.对于基频不为零的浊音帧，假设语音信号由一系列的正弦波叠加而成：

s_{h} (n) = Σ_{l = - L}^{L} C_{l} e^{j ω_{0} n} - - - (9)

式中L为正弦波的个数，{C_l}为正弦波的复幅度，令s_h表示s_h(n)在一帧内的样点所组成的矢量，则(9)式可以改写成：

s_{h} = Bx, B = [\begin{matrix} e^{- jL ω_{0} (- N / 2)} & e^{- j (L - 1) ω_{0} (- N / 2)} & \cdot & \cdot & \cdot & e^{jL ω_{0} (- N / 2)} \\ e^{- jL ω_{0} (- N / 2 + 1)} & e^{- j (L - 1) ω_{0} (- N / 2 + 1)} & \cdot & \cdot & \cdot & e^{jL ω_{0} (- N / 2 + 1)} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ e^{- jL ω_{0} (N / 2)} & e^{- j (L - 1) ω_{0} (N / 2)} & \cdot & \cdot & \cdot & e^{jL ω_{0} (N / 2)} \end{matrix}], x = [\begin{matrix} C_{L}^{*} \\ C_{L - 1}^{*} \\ \cdot \\ \cdot \\ \cdot \\ C_{L} \end{matrix}] - - - (10)

通过最小二乘算法可以确定以上的{C_l}：

ϵ = Σ_{n = - \frac{N}{2}}^{\frac{N}{2}} w^{2} (n) \cdot {(s (n) - s_{h} (n))}^{2} - - - (11)

其中s(n)是真实语音信号，w(n)是窗函数，取汉明窗，将窗函数也改写成矩阵形式：

W = [\begin{matrix} w^{2} (- N / 2) \\ w^{2} (- N / 2 + 1) \\ \cdot \\ \cdot \\ \cdot \\ w^{2} (N / 2) \end{matrix}] - - - (12)

则最优的x可以这样得到：

WBx = Ws &DoubleRightArrow; x_{opt} = B^{H} W^{H} Ws - - - (13)

d.得到了{C_l}，则谐波幅度和相位值如下：

A_l＝2|C_l|＝2|C_-l|，

②由于原始谐波加噪声模型参数维数较高，不便于后续计算，因此必须对其进行降维，由于基频轨迹是一维参数，因此，降维的主要对象是声道幅度谱参数和相位参数，同时，降维的目标是将声道参数转化为经典的线性预测参数，进而产生适用于语音转换系统的线性谱频率参数，求解如下：

a.分别求取离散的L个幅度值A_l的平方，并将其认为是离散功率谱的采样值P(ω_l)；

b.根据帕斯卡定律，功率谱密度函数和自相关函数是一对傅立叶变换对，即因此我们可以通过求解下式得到对线性预测参数系数的初步估值：

[\begin{matrix} R_{0} & R_{1} & \cdot & \cdot & \cdot & R_{p - 1} \\ R_{1} & R_{0} & \cdot & \cdot & \cdot & R_{p - 2} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ R_{p - 1} & R_{p - 2} & \cdot & \cdot & \cdot & R_{0} \end{matrix}] [\begin{matrix} a_{1} \\ a_{2} \\ \cdot \\ \cdot \\ \cdot \\ a_{p} \end{matrix}] = [\begin{matrix} - R_{1} \\ - R_{2} \\ \cdot \\ \cdot \\ \cdot \\ - R_{p} \end{matrix}] - - - (15)

其中a₁，a₂，…，a_p是p阶线性预测参数系数；

h^{*} [n] = \frac{1}{L} Re {\underset{l}{Σ} \frac{1}{A (e^{j ω_{l}})} e^{j ω_{l} n}} - - - (16)

其中

A (e^{j ω_{l}}) = A {(z)}_{| z = e^{j ω_{l}}} = 1 + a_{1} z^{- 1} + a_{2} z^{- 2} + . . . + a_{p} z^{- p} .

可以证明，h^*和估计得到的自相关序列R^*满足：

Σ_{i = 0}^{p} a_{i} R^{*} (n - i) = h^{*} [- n] - - - (17)

在满足板仓-斋田距离Itakura-Satio，IS距离最小化的情况下，有真实的R和估计的R^*的关系如下：

Σ_{i = 0}^{p} a_{i} R^{*} (n - i) = Σ_{i = 0}^{p} a_{i} R (n - i) - - - (18)

d.将(17)式代替(18)式，并重估计(15)式，有：

[\begin{matrix} R_{0} & R_{- 1} & \cdot & \cdot & \cdot & R_{- p} \\ R_{1} & R_{0} & \cdot & \cdot & \cdot & R_{- p + 1} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ R_{p} & R_{p - 1} & \cdot & \cdot & \cdot & R_{0} \end{matrix}] [\begin{matrix} a_{0} \\ a_{2} \\ \cdot \\ \cdot \\ \cdot \\ a_{p} \end{matrix}] = [\begin{matrix} h^{*} [0] \\ h^{*} [- 1] \\ \cdot \\ \cdot \\ \cdot \\ h^{*} [- p] \end{matrix}] - - - (19)

e.用IS准则评估误差，如果误差大于设定的阈值，则重复步骤c～e；反之，则停止迭代；

P(z)＝A(z)+z^-(p+1)A(z^-1)

(20)

Q(z)＝A(z)-z^-(p+1)A(z^-1)

③通过②得到的源和目标的线性谱频率参数，用动态时间规整算法进行对齐，使得对应的源和目标的线性谱频率在设定失真准则上具有最小的失真距离，使得源和目标人的特征序列在参数的层面上关联，便于后续统计模型学习其中的映射规律，动态时间规整算法如下：

，…，

，而目标说话人的特征参数序列为y₁，y₂，…，

，…，

，且N_x≠N_y，设定源说话人的特征参数序列为参考模板，则动态时间规整算法就是要寻找时间规整函数

其中

表示第n_y帧的目标说话人特征参数和第帧源说话人特征参数之间的某种测度距离，在动态时间规整的规整过程中，规整函数

是要满足一定的约束条件的，有边界条件和连续性条件分别为：

动态时间规整是一种最优化算法，它把一个N阶段决策过程化为N个单阶段的决策过程，也就是转化为逐一做出决策的N个子问题，以便简化计算；动态时间规整的过程一般是从最后一个阶段开始进行，也即它是一个逆序过程，其递推过程可以表示为：

其中

g(n_y，n_x)是为了n_y，n_x的取值满足时间规整函数的约束条件；

④计算平均基频比：认为源和目标的基频序列服从单高斯分布，然后估计高斯模型的参数，即均值μ和方差σ；

⑤用高斯混合模型对动态时间规整对齐后的特征参数进行建模，并用第2点权利要求中提出的集成学习理论估计模型参数。即首先将源和目标矢量组合成一个扩展矢量，即

z_{t} = {[x_{t}^{T}, y_{t}^{T}]}^{T},

然后用(6)-(8)式对z_t估计模型参数，得：

μ_{m}^{z} = [\begin{matrix} μ_{m}^{X} \\ μ_{m}^{Y} \end{matrix}],

Σ_{m}^{Z} = [\begin{matrix} Σ_{m}^{XX} & Σ_{m}^{XY} \\ Σ_{m}^{YX} & Σ_{m}^{YY} \end{matrix}], m = 1,2, . . ., M - - - (25);

在转换阶段

①待转换的语音用谐波加噪声模型进行分析，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值，该过程和训练阶段中的①相同；

②和训练阶段一样，将谐波加噪声模型参数转换为线性谱频率参数；

\log f_{0}^{'} = μ^{y} + \frac{σ^{y}}{σ^{x}} (\log f_{0} - μ^{x}) - - - (26)

其中f′₀是转换后的基频，μ^y，μ^x分别是训练出来的源和目标高斯模型的均值，同样，σ^y，σ^x分别是源和目标高斯模型的方差；

{\hat{y}}_{t} = E [y_{t} | x_{t}] = Σ_{m = 1}^{M} p_{m} (x_{t}) \cdot [μ_{m}^{Y} + Σ_{m}^{YX} {(Σ_{m}^{XX})}^{- 1} (x_{t} - μ_{m}^{X})] - - - (27)

其中

p_{m} (x_{t}) = π_{m} N (x_{t}; μ_{m}^{X}, Σ_{m}^{XX}) / \underset{m}{Σ} π_{m} N (x_{t}; μ_{m}^{X}, Σ_{m}^{XX});

⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数，然后和修改后的基频轨迹一起合成转换后的语音：

a.将获得的A_l，f₀，

用正弦模型的定义合成第k的语音，即：

s (kN + m) = (\frac{N - m}{N}) \cdot s^{(k)} (m) + (\frac{m}{N}) \cdot s^{(k + 1)} (m - N), 0 \leq m \leq N - - - (29)

其中N表示一帧语音中包含的样点数。