CN105261367A

CN105261367A - 一种说话人识别方法

Info

Publication number: CN105261367A
Application number: CN201410334124.3A
Authority: CN
Inventors: 周若华; 许云飞; 颜永红; 杨琳
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2014-07-14
Filing date: 2014-07-14
Publication date: 2016-01-20
Anticipated expiration: 2034-07-14
Also published as: CN105261367B

Abstract

本发明涉及一种说话人识别方法，该方法首先生成说话人识别模型，把背景语音和目标说话人语音作为训练数据，训练出第一高斯混合-通用背景模型，总变化空间，第二高斯混合-通用背景模型，局部线性鉴别分析模型；利用第一高斯混合-通用背景模型，总变化空间，第二高斯混合-通用背景模型计算出待识别语音的总变化因子和总变化因子的后验概率，输入局部线性鉴别分析模型进行转换，得到维数更低的矢量，输入后端识别器输出识别结果。本方法增加了说话人间的鉴别性，可提高说话人识别性能；同时该方法可以对总变化因子进行降维，提升了识别速度，具有很高的实用性。

Description

一种说话人识别方法

技术领域

本发明涉及语音数据中说话人信息的识别方法，更具体地说，本发明涉及一种基于局部线性鉴别分析的说话人识别方法。

背景技术

随着现代社会信息的全球化，说话人识别已经成为语音识别技术研究热点之一。说话人识别技术是身份验证技术---生物特征识别技术的一种，与其他身份验证技术相比，说话人识别更加方便、自然，且具有比较低的用户侵犯性。说话人识别任务根据实际应用的类型不同，可以分为说话人辨认和说话人确认。其中，说话人辨认在全部目标说话人的范围内进行，其性能与目标人数目有关，随着人数的增加性能逐步下降。与此同时，在实际应用中往往需要处理大量的语音数据，速度成为需要考虑的因素之一。如何利用有限的训练数据，训练具有说话人鉴别性的模型，并快速准确地识别出语音中说话人信息的说话人识别技术成为一个研究重点。

文献[1](D.A.Reynolds,T.F.Quatieri,R.B.Dunn.Speakerverificationusingadaptedgaussianmixturemodels.DigitalSignalProcessing,2000,10(1–3):19-41.)指出，对于各语种各信道下语音数据的声学谱特征，通过采用高斯混合-通用模型进行建模，然后针对每一句语音计算在其上面的后验统计量，通过自适应得到一个说话人相关的高斯混合-通用模型，该模型可以有效识别语音数据中的说话人信息。基于高斯混合-通用模型可以计算出语音数据的总变化因子。

目前，总变化因子技术已广泛的应用于说话人识别技术中。然而，由于信道，背景，语言，感情，年龄，健康等因素的影响，总变化因子的分布常常表现出多模态特性，甚至可能出现异常值。文献[2](N.Dehak,P.Kenny,R.Dehak,P.Dumouchel,P.Ouellet.Front-endfactoranalysisforspeakerverification.IEEETransactionsonAudio,SpeechandLanguageProcessing,2011,19(4):788-798.)提出：对总变化因子使用类内协方差规整技术和线性鉴别分析降维技术可以有效的补偿信道损失并加入鉴别性信息。但线性鉴别分析技术对总变化因子的信道损失补偿是有限的，无法有效地处理上述问题。

文献[3](Kim,Tae-KyunandKittler,Josef.Locallylineardiscriminantanalysisformultimodallydistributedclassesforfacerecognitionwithasinglemodelimage.IEEETransactionsonPatternAnalysisandMachineintelligence,2005,27(3):318-327.)提出了局部线性鉴别分析技术(线性鉴别分析技术是高斯数目为1时的特例)，这个技术已成功有效地应用在人脸识别上。在传统的说话人识别系统中，由于语音数据的维度很高，导致计算量加大，内存的需求急剧上升，导致局部线性鉴别分析技术无法应用到说话人识别中。

由于总变化因子技术的出现，一段语音可以用低维的特征矢量表示(通常在400-600维)，这为局部线性鉴别分析技术应用在说话人识别上提供了帮助。

发明内容

本发明的目的在于克服现有说话人识别方法中总变化因子存在整体分布上表现为多模态；且受信道、语言等影响可能出现异常值的缺陷，从而提供一种可以有效提升说话人识别系统的识别性能和速度的方法。

为了实现上述目的，本发明提供一种基于局部线性鉴别分析的说话人识别方法。首先生成说话人识别模型，说话人识别模型生成方法包括如下步骤：

步骤1-1)，采集一定数量的目标说话人语音数据和大量背景语音数据，提取语音声学谱特征；

步骤1-2)，利用一部分背景语音的声学谱特征训练第一高斯混合-通用背景模型；

步骤1-3)，在第一高斯混合-通用背景模型上计算出背景语音和目标说话人语音的声学谱特征所对应的后验统计量；

步骤1-4)，利用背景语音的后验统计量训练得到一个总变化因子空间，在该空间上将背景语音和目标说话人语音的后验统计量映射为一个总变化因子；

步骤1-5)，在总变化因子空间训练得到第二高斯混合-通用背景模型，然后计算出目标说话人语音的总变化因子在各个高斯分量上的后验概率；

若某条语音数据对应的总变化因子为x，假设其维数为d，那么用于计算其似然函数的高斯混合-通用背景模型定义为公式：

p (x | λ) = Σ_{i = 1}^{M} w_{i} p_{i} (x) - - - (1)

该密度函数由M个单高斯密度函数p_i(x)加权得到，每一个高斯分量由d维的均值μ_i和d×d维的协方差Σ_i构成，如公式：

p_{i} (x) = \frac{1}{{{(2 π)}^{d / 2} | Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i})} - - - (2)

其中混合权重w_i满足λ为模型参数的集合λ＝{w_i,μ_i,Σ_i|i＝1,…,M}，该模型通过期望最大化(EM)迭代训练得到。

对于一个总变化因子x，其后验概率计算如下公式：

\Pr (i | x) = \frac{w_{i} p_{i} (x)}{Σ_{j = 1}^{M} w_{j} p_{j} (x)} - - - (3)

步骤1-6)，利用步骤1-4)得到的总变化因子以及步骤1-5)得到的对应的后验概率，训练一个局部线性转换矩阵，由此生成局部线性鉴别分析模型；

假设有总变化因子数据集合X＝{x₁,x₂,...,x_n}分别属于C个目标说话人{X₁,X₂,...,X_C}，定义如下局部线性变换：

y_{i} = \overset{M}{Σ} \Pr (k | x_{i}) U_{k}^{T} (x_{i} - μ_{k}) - - - (4)

其中，μ_k表示第k个聚类中心的均值：

μ_{k} = (Σ_{i = 1}^{n} \Pr (k | x_{i}) x_{i}) / (Σ_{i = 1}^{n} \Pr (k | x_{i})) - - - (5)

局部线性转换矩阵U_k＝[u_k1,u_k2,…u_kl](其中l＜d)满足目标函数取最大值。其中，和分别表示在局部线性变换空间中的类间协方差和类内协方差矩阵。所有总变化因子的全局均值为:

\overset{&OverBar;}{m} = \frac{1}{n} Σ_{i = 1}^{n} y_{i} = \frac{1}{n} Σ_{i = 1}^{n} Σ_{k = 1}^{M} \Pr (k | x_{i}) U_{k}^{T} (x_{i} - μ_{k}) - - - (6)

第c个说话人包含n_c个总变化因子，n_c是第c个目标说话人的语句个数，其均值定义为：

\overset{&OverBar;}{m_{c}} = \frac{1}{n_{c}} \underset{x &Element; X_{c}}{Σ} y = Σ_{k = 1}^{M} U_{k}^{T} m_{ck} - - - (7)

m_{ck} = \frac{1}{n_{c}} \underset{x &Element; X_{c}}{Σ} \Pr (k | x) (x - μ_{k}) - - - (8)

根据公式(6)、(7)和(8)，类间协方差矩阵表示如：

\begin{matrix} \overset{&OverBar;}{B} = Σ_{c = 1}^{C} n_{c} (\overset{&OverBar;}{m_{c}} - \overset{&OverBar;}{m}) {(\overset{&OverBar;}{m_{c}} - \overset{&OverBar;}{m})}^{T} \\ = Σ_{k = 1}^{M} U_{k}^{T} B_{k} U_{k} + Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} B_{ij} U_{j} + {(Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} B_{ij} U_{j})}^{T} \end{matrix} - - - (9)

其中，

B_{k} = Σ_{c = 1}^{C} n_{c} m_{ck} m_{ck}^{T} - - - (10)

B_{ij} = Σ_{c = 1}^{C} n_{c} m_{ci} m_{cj}^{T} - - - (11)

类内协方差矩阵表示如：

\begin{matrix} \overset{&OverBar;}{W} = Σ_{c = 1}^{C} n_{c} (y - \overset{&OverBar;}{m_{c}}) {(y - \overset{&OverBar;}{m_{c}})}^{T} \\ = Σ_{k = 1}^{M} U_{k}^{T} W_{k} U_{k} + Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} W_{ij} U_{j} + {(Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} W_{ij} U_{j})}^{T} \end{matrix} - - - (12)

其中，

W_{k} = Σ_{c = 1}^{C} \underset{x &Element; X_{c}}{Σ} (\Pr (k | x) (x - μ_{k}) - m_{ck}) {(\Pr (k | x) (x - μ_{k}) - m_{ck})}^{T} - - - (13)

W_{ij} = Σ_{c = 1}^{C} \underset{x &Element; X_{c}}{Σ} (\Pr (i | x) (x - μ_{i}) - m_{ci}) {(\Pr (k | x) (x - μ_{j}) - m_{cj})}^{T} - - - (14)

学习算法流程如下：

随机初始化M个矩阵U₁,…,U_M；

令p为索引，依次从1到l学习u_kp,k＝1,…,M

①计算目标函数对各个变量u_kp的梯度：

\frac{&PartialD; J}{&PartialD; u_{kp}} = (2 {\overset{&OverBar;}{B}}^{- 1} B_{k} - 2 {\overset{&OverBar;}{W}}^{- 1} W_{k}) u_{kp} + Σ_{i = 1, i &NotEqual; k}^{M} (2 {\overset{&OverBar;}{B}}^{- 1} B_{ki} - 2 {\overset{&OverBar;}{W}}^{- 1} W_{ki}) u_{kp}

②更新映射矩阵，η表征学习的速率

Δ u_{kp} &LeftArrow; η \frac{&PartialD; J}{&PartialD; u_{kp}}

③正交化

u_{kp} &LeftArrow; u_{kp} - Σ_{i = 1}^{p - 1} (u_{kp}^{t} u_{ki}) u_{ki}

④归一化

u_kp←u_kp/‖u_kp‖

重复步骤①～④，至算法收敛到一个稳定点，令p:＝p+1返回步骤①执行。

步骤1-7)，生成说话人识别模型，包括：第一高斯混合-通用背景模型、总变化因子空间、第二高斯混合-通用背景模型，局部线性鉴别分析模型。

本发明提供的一种说话人识别方法，该方法基于上述技术方案生成的说话人识别模型，包括如下步骤：

步骤2-1)，提取待识别语音的声学谱特征；

步骤2-2)，在步骤1-2)训练得到的高斯混合-通用背景模型上计算出待识别语音声学谱特征的后验统计量，

步骤2-3)，在步骤1-4)训练得到的总变化因子空间上将后验统计量映射为一个总变化因子；

步骤2-4)，在步骤1-5)训练得到的高斯混合-通用背景模型上计算出总变化因子在各个高斯分量上的后验概率，

步骤2-5)，在步骤1-6)得到的局部线性鉴别分析模型上将待识别语音的总变化因子进行变换，得到维数更低的矢量，输入后端识别器输出识别结果。

本发明的优点在于：

1、该方法优于基于传统的线性鉴别分析的说话人识别方法；

2、在仅依靠少量训练数据前提下，提高说话人识别系统的识别性能；

3、提高说话人识别系统的识别速度；

附图说明

图1是一种说话人识别模型生成方法的流程框图；

图2是一种说话人识别方法的实施流程框图。

具体实施方式

现结合附图对本发明做进一步详细描述：

参考图1，一种说话人识别模型生成方法的流程包括：

步骤1-1)，采集一定数量的背景语音数据和目标说话人语音数据作为训练语音数据，从所述训练语音数据中提取声学谱特征；该步骤包括：

对所述步骤1-1)的训练语音数据做前端处理，所述训练语音数据前端处理包括对训练数据切除静音、音乐等无效语音，保留有效语音；然后从经过前端处理的训练语音数据中提取通用的美尔倒谱特征(MFCC)，并对该特征进行动态扩展得到二阶差分倒谱特征，由此训练语音数据的每一帧包括60维特征向量，这些特征向量就是训练语音数据的声学谱特征。

步骤1-2)，利用一部分背景语音的声学谱特征训练第一高斯混合-通用背景模型。

训练高斯混合-通用背景模型时可采用最大似然估计，目标函数L为所有背景数据对数似然之和。高斯混合-通用背景模型的协方差为对角协方差，高斯数为256：

L = \underset{f}{Σ} \ln (F_{f} | λ)

F_f表示第f帧特征，λ表示模型参数。

步骤1-3)，在第一高斯混合-通用背景模型上计算出背景语音和目标说话人语音的声学谱特征所对应的后验统计量：

\overset{&OverBar;}{N_{i}} = \underset{f}{Σ} \Pr (i | F_{f})

\overset{&OverBar;}{F_{i}} = \frac{1}{\overset{&OverBar;}{N_{i}}} \underset{f}{Σ} \Pr (i | F_{f}) F_{f}

其中为零阶统计量，为一阶统计量。

步骤1-4)，利用背景语音的后验统计量训练得到一个总变化空间T，在该空间上将背景语音和目标说话人语音的后验统计量映射为一个总变化因子x:

x = {(I + T^{T} Σ^{- 1} \overset{&OverBar;}{N} T)}^{- 1} T^{T} Σ^{- 1} \overset{&OverBar;}{F}

其中，为M个拼接而成的超向量；Σ为对角块矩阵，由协方差矩阵Σ_i组成，Σ_i为高斯混合-通用背景模型的对角协方差矩阵；为对角块矩阵，其对角元素由构成；x的维数为400。

步骤1-5)，在总变化因子空间训练得到第二高斯混合-通用背景模型，然后计算出目标说话人语音的总变化因子在各个高斯分量上的后验概率。其中训练得到的高斯混合-通用背景模型的高斯混合数为4，采用对角协方差矩阵，每个高斯共享同一个协方差矩阵。

若某条语音数据对应的总变化因子为x，计算其似然函数的高斯混合-通用背景模型定义为公式：

p (x | λ) = Σ_{i = 1}^{M} w_{i} p_{i} (x)

该密度函数由4个单高斯密度函数p_i(x)加权得到，每一个高斯分量由400维的均值μ_i和400×400维的协方差Σ构成，如公式：

p (x) = \frac{1}{{{(2 π)}^{d / 2} | Σ |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{T} Σ^{- 1} (x - μ_{i})}

其中混合权重w_i满足λ为模型参数的集合λ＝{w_i,μ_i|i＝1,…,M,Σ}，该模型通过期望最大化(EM)迭代训练得到。

对于一个总变化因子x，其后验概率计算如下公式：

\Pr (i | x) = \frac{w_{i} p_{i} (x)}{Σ_{j = 1}^{M} w_{j} p_{j} (x)} .

步骤1-6)，利用第四步得到的总变化因子以及第五步得到的对应的后验概率，训练出一个局部线性转换矩阵，由此生成局部线性鉴别分析模型；

y_{i} = Σ_{k = 1}^{M} \Pr (k | x_{i}) U_{k}^{T} (x_{i} - μ_{k})

其中，μ_k表示第k个聚类中心的均值：

μ_{k} = (Σ_{i = 1}^{n} \Pr (k | x_{i}) x_{i}) / (Σ_{i = 1}^{n} \Pr (k | x_{i}))

局部线性转换矩阵U_k＝[u_k1,u_k2,…u_kl](其中l＝300)满足目标函数取最大值。其中，和分别表示在局部线性变换空间中的类间协方差和类内协方差矩阵。所有总变化因子的全局均值为:

\overset{&OverBar;}{m} = \frac{1}{n} Σ_{i = 1}^{n} y_{i} = \frac{1}{n} Σ_{i = 1}^{n} Σ_{k = 1}^{M} \Pr (k | x_{i}) U_{k}^{T} (x_{i} - μ_{k})

\overset{&OverBar;}{m_{c}} = \frac{1}{n_{c}} \underset{x &Element; X_{c}}{Σ} y = Σ_{k = 1}^{M} U_{k}^{T} m_{ck}

m_{ck} = \frac{1}{n_{c}} \underset{x &Element; X_{c}}{Σ} \Pr (k | x) (x - μ_{k})

类间协方差矩阵表示如：

\begin{matrix} \overset{&OverBar;}{B} = Σ_{c = 1}^{C} n_{c} (\overset{&OverBar;}{m_{c}} - \overset{&OverBar;}{m}) {(\overset{&OverBar;}{m_{c}} - \overset{&OverBar;}{m})}^{T} \\ = Σ_{k = 1}^{M} U_{k}^{T} B_{k} U_{k} + Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} B_{ij} U_{j} + {(Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} B_{ij} U_{j})}^{T} \end{matrix}

其中，

B_{k} = Σ_{c = 1}^{C} n_{c} m_{ck} m_{ck}^{T}

B_{ij} = Σ_{c = 1}^{C} n_{c} m_{ci} m_{cj}^{T}

类内协方差矩阵表示如：

\begin{matrix} \overset{&OverBar;}{W} = Σ_{c = 1}^{C} n_{c} (y - \overset{&OverBar;}{m_{c}}) {(y - \overset{&OverBar;}{m_{c}})}^{T} \\ = Σ_{k = 1}^{M} U_{k}^{T} W_{k} U_{k} + Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} W_{ij} U_{j} + {(Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} W_{ij} U_{j})}^{T} \end{matrix}

其中，

W_{k} = Σ_{c = 1}^{C} \underset{x &Element; X_{c}}{Σ} (\Pr (k | x) (x - μ_{k}) - m_{ck}) {(\Pr (k | x) (x - μ_{k}) - m_{ck})}^{T}

W_{ij} = Σ_{c = 1}^{C} \underset{x &Element; X_{c}}{Σ} (\Pr (i | x) (x - μ_{i}) - m_{ci}) {(\Pr (k | x) (x - μ_{j}) - m_{cj})}^{T}

学习算法流程如下：

随机初始化M个矩阵U₁,…,U_M；

令p为索引，依次从1到l学习u_kp,k＝1,…,M

①计算目标函数对各个变量u_kp的梯度：

\frac{&PartialD; J}{&PartialD; u_{kp}} = (2 {\overset{&OverBar;}{B}}^{- 1} B_{k} - 2 {\overset{&OverBar;}{W}}^{- 1} W_{k}) u_{kp} + Σ_{i = 1, i &NotEqual; k}^{M} (2 {\overset{&OverBar;}{B}}^{- 1} B_{ki} - 2 {\overset{&OverBar;}{W}}^{- 1} W_{ki}) u_{kp}

②更新映射矩阵，η表征学习的速率

Δ u_{kp} &LeftArrow; η \frac{&PartialD; J}{&PartialD; u_{kp}}

③正交化

u_{kp} &LeftArrow; u_{kp} - Σ_{i = 1}^{p - 1} (u_{kp}^{t} u_{ki}) u_{ki}

④归一化

u_kp←u_kp/‖u_kp‖

每个局部线性鉴别分析转换矩阵的维数为400×300，经过转换后，总变化因子的维数降到300。

参考图2，一种说话人识别方法的流程包括：

步骤2-1)，提取待识别语音声学谱特征；

步骤2-2)，在步骤1-2)得到的高斯混合-通用背景模型上计算出待识别语音语音的声学谱特征所对应的后验统计量；

步骤2-3)，在步骤1-4)得到的总变化空间上将待识别语音的后验统计量映射为一个总变化因子；

步骤2-4)，在步骤1-5)得到的高斯混合-通用背景模型上计算出待识别语音的总变化因子在各个高斯分量上的后验概率；

步骤2-5)，在步骤1-6)得到的局部线性鉴别分析模型上将待识别语音的总变化因子进行转换，得到维数更低的矢量，输入后端识别器输出识别结果。

表1为两个待识别语音集A、B在使用传统总变化因子技术方法和本发明技术方法得到的识别结果对比表。

表1

在用局部线性鉴别分析对总变化因子建模时，总变化因子由400维降到300维，计算量减少44％。

在本发明提供的一种说话人识别方法中，用高斯混合-通用背景模型对总变化因子进行建模，这个过程可以看成是对总变化因子的一种模糊聚类；混合数目越多，对应在每个类别的总变化因子子空间中，线性数据结构越加明显。通过增大类间协方差同时减小类内协方差，在变换后的空间中，有效地加入了说话人间的鉴别性，从而提升说话人识别的识别性能。

相比传统的鉴别性说话人模型训练方法，本发明的说话人识别方法需要更少的训练数据。我们在美国国家标准与技术局说话人评测任务中的测试集下进行了大量测试，结果显示：当训练数据不多时，该方法在识别性能方面优于传统的线性鉴别训练方法；当训练数据充足时，该方法在识别性能方面比传统的线性鉴别训练方法更有优势；与其它说话人识别方法相比，本发明提供的说话人识别方法在识别性能有5％-10％的提升，在识别速度上也有较为明显的提升。

Claims

1.一种说话人识别模型生成方法，包括如下步骤：

步骤1-6)，利用步骤1-4)得到的总变化因子以及步骤1-5)得到的总变化因子对应的后验概率，训练出一个局部线性转换矩阵，由此生成局部线性鉴别分析模型；

2.按权利要求1所述的说话人识别模型生成方法，其特征在于，

所述步骤1-5)的计算过程为：若某条语音数据对应的总变化因子为x，假设其维数为d，那么用于计算其似然函数的高斯混合-通用背景模型定义为公式：

p (x | λ) = Σ_{i = 1}^{M} w_{i} p_{i} (x)

p_{i} (x) = \frac{1}{{{(2 π)}^{d / 2} | Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i})}

其中混合权重w_i满足λ为模型参数的集合λ＝{w_i,μ_i,Σ_i|i＝1,…,M}，该模型通过期望最大化迭代训练得到；

对于一个总变化因子x，其后验概率计算如下公式：

\Pr (i | x) = \frac{w_{i} p_{i} (x)}{Σ_{j = 1}^{M} w_{j} p_{j} (x)} .

3.按权利要求1所述的说话人识别模型生成方法，其特征在于，

所述步骤1-6)中的计算过程为：假设有总变化因数据集合X＝{x₁,x₂,...,x_n}分别属于C个目标说话人{X₁,X₂,...,X_C}，定义如下局部线性变换：

y_{i} = Σ_{k = 1}^{M} \Pr (k | x_{i}) U_{k}^{T} (x_{i} - μ_{k})

其中，μ_k表示第k个聚类中心的均值：

μ_{k} = (Σ_{i = 1}^{n} \Pr (k | x_{i}) x_{i}) / (Σ_{i = 1}^{n} \Pr (k | x_{i}))

局部线性转换矩阵U_k＝[u_k1,u_k2,…u_kl](其中l＜d)满足目标函数取最大值；其中，和分别表示在局部线性变换空间中的类间协方差和类内协方差矩阵，所有总变化因子的全局均值为:

\overset{&OverBar;}{m} = \frac{1}{n} Σ_{i = 1}^{n} y_{i} = \frac{1}{n} Σ_{i = 1}^{n} Σ_{k = 1}^{M} \Pr (k | x_{i}) U_{k}^{T} (x_{i} - μ_{k})

\overset{&OverBar;}{m_{c}} = \frac{1}{n_{c}} \underset{x &Element; X_{c}}{Σ} y = Σ_{k = 1}^{M} U_{k}^{T} m_{ck}

m_{ck} = \frac{1}{n_{c}} \underset{x &Element; X_{c}}{Σ} \Pr (k | x) (x - μ_{k})

类间协方差矩阵表示如：

\begin{matrix} \overset{&OverBar;}{B} = Σ_{c = 1}^{C} n_{c} (\overset{&OverBar;}{m_{c}} - \overset{&OverBar;}{m}) {(\overset{&OverBar;}{m_{c}} - \overset{&OverBar;}{m})}^{T} \\ = Σ_{k = 1}^{M} U_{k}^{T} B_{k} U_{k} + Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} B_{ij} U_{j} + {(Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} B_{ij} U_{j})}^{T} \end{matrix}

其中，

B_{k} = Σ_{c = 1}^{C} n_{c} m_{ck} m_{ck}^{T}

B_{ij} = Σ_{c = 1}^{C} n_{c} m_{ci} m_{cj}^{T}

类内协方差矩阵表示如：

\begin{matrix} \overset{&OverBar;}{W} = Σ_{c = 1}^{C} n_{c} (y - \overset{&OverBar;}{m_{c}}) {(y - \overset{&OverBar;}{m_{c}})}^{T} \\ = Σ_{k = 1}^{M} U_{k}^{T} W_{k} U_{k} + Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} W_{ij} U_{j} + {(Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} U_{i}^{T} W_{ij} U_{j})}^{T} \end{matrix}

其中，

W_{k} = Σ_{c = 1}^{C} \underset{x &Element; X_{c}}{Σ} (\Pr (k | x) (x - μ_{k}) - m_{ck}) {(\Pr (k | x) (x - μ_{k}) - m_{ck})}^{T}

W_{ij} = Σ_{c = 1}^{C} \underset{x &Element; X_{c}}{Σ} (\Pr (i | x) (x - μ_{i}) - m_{ci}) {(\Pr (k | x) (x - μ_{j}) - m_{cj})}^{T}

学习算法流程如下：

随机初始化M个矩阵U₁,…,U_M；

令p为索引，依次从1到l学习u_kp,k＝1,…,M

①计算目标函数对各个变量u_kp的梯度：

\frac{&PartialD; J}{&PartialD; u_{kp}} = (2 {\overset{&OverBar;}{B}}^{- 1} B_{k} - 2 {\overset{&OverBar;}{W}}^{- 1} W_{k}) u_{kp} + Σ_{i = 1, i &NotEqual; k}^{M} (2 {\overset{&OverBar;}{B}}^{- 1} B_{ki} - 2 {\overset{&OverBar;}{W}}^{- 1} W_{ki}) u_{kp}

②更新映射矩阵，η表征学习的速率

Δ u_{kp} &LeftArrow; η \frac{&PartialD; J}{&PartialD; u_{kp}}

③正交化

u_{kp} &LeftArrow; u_{kp} - Σ_{i = 1}^{p - 1} (u_{kp}^{t} u_{ki}) u_{ki}

④归一化

u_kp←u_kp/‖u_kp‖

4.一种说话人识别方法，该方法基于权利要求1-3之一所述的说话人识别模型生成方法所得到的说话人识别模型实现，该方法包括如下步骤：

步骤2-1)，提取待识别语音的声学谱特征；

步骤2-2)，在所述说话人识别模型中的第一高斯混合-通用背景模型上计算出待识别语音声学谱特征的后验统计量；

步骤2-3)，在所述说话人识别模型中的总变化因子空间上将后验统计量映射为一个总变化因子；

步骤2-4)，在所述说话人识别模型中的第二高斯混合-通用背景模型上计算出总变化因子在各个高斯分量上的后验概率；

步骤2-5)，在所述说话人识别模型中的局部线性鉴别分析模型上将待识别语音的总变化因子进行转换，得到维数更低的矢量，输入后端识别器输出识别结果。