CN1787075A

CN1787075A - 基于内嵌gmm核的支持向量机模型的说话人识别方法

Info

Publication number: CN1787075A
Application number: CNA200510061953XA
Authority: CN
Inventors: 杨莹春; 吴朝晖; 雷震春
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2005-12-13
Filing date: 2005-12-13
Publication date: 2006-06-14
Anticipated expiration: 2025-12-13
Also published as: CN100570710C

Abstract

本发明涉及一种基于内嵌GMM核的支持向量机模型的说话人识别方法，首先对每个说话人的语音进行特征提取，然后根据每个说话人的语音训练得到一个高斯混合模型，根据此高斯混合模型，可以将一条语句映射到一个固定大小的高维向量上，并将此向量作为支持向量机的输入进行训练与识别。本发明有益的效果是：结合GMM模型和支持向量机的方法，在说话人识别上获得比GMM模型更好的性能。

Description

基于内嵌GMM核的支持向量机模型的说话人识别方法

技术领域

本发明涉及信号处理和模式识别领域，主要是一种基于内嵌GMM核的支持向量机模型的说话人识别方法。

背景技术

说话人识别是指通过对语音信号的分析和特征提取，自动地确定说话人十分在所登记的说话人集合中，以及说话的人是谁的过程。说话人识别包括两个方面的基本内容：说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。说话人辨认是鉴别输入的声音究竟是预先登录好的谁的声音，说话人确认是要判断输入的声音是否是自称是说话人本人的声音。

说话人识别基本原理都是为每个说话人建立一个能够描述这一说话人个性特征的模型，在目前语义特征与说话人个性特征还不能很好地从语音特征中得到分离的情况下，实际上是话者的语音特征模型。当前应用较广泛的说话人模型主要有模板模型，向量量化模型(VQ)，高斯混合模型(GMM)，隐马可夫模型(HMM)等。

支持向量机(Support Vector Machine)是上世纪九十年代发展出来的一种基于统计学习理论的模式识别方法，它采用分类间隔最大的最优分类超平面实现结构风险最小化原则，由于它具有良好的理论基础，得到越来越多的研究，并应用到各个领域中去。

发明内容

本发明要解决上述技术所存在的缺陷，提供一种基于内嵌GMM核的支持向量机模型的说话人识别方法，通过结合高斯混合模型和支持向量机的方法，构造一类新的混合模型用于说话人识别中。

本发明解决其技术问题所采用的技术方案：这种基于内嵌GMM核的支持向量机模型的说话人识别方法，首先对每个说话人的语音进行特征提取，然后根据每个说话人的语音训练得到一个高斯混合模型，根据此高斯混合模型，可以将一条语句映射到一个固定大小的高维向量上，并将此向量作为支持向量机的输入进行训练与识别。

本发明解决其技术问题所采用的技术方案还可以进一步完善。所述多类的方法在本方案中采用的是一对其他的方式，也可以采用一对一的方式或者其他方式进行。

本发明有益的效果是：结合GMM模型和支持向量机的方法，在说话人识别上获得GMM模型更好性能。

具体实施方式

下面结合实施例对本发明作进一步描述。本发明的方法共分六步。

第一步：语音预处理

语音预处理分为采样量化，去零漂，预加重和加窗三个部分。

1、采样量化

A)、用锐截止滤波器对语音信号进行滤波，使其奈奎斯特频率F_N为4KHZ；

B)、设置语音采样率F＝2F_N；

C)、对语音信号s_a(t)按周期进行采样，得到数字语音信号的振幅序列

s (n) = s_{a} (\frac{n}{F});

D)、用脉冲编码调制(PCM)对s(n)进行量化编码，得到振幅序列的量化表示s’(n)。

2、去零漂

A)、计算量化的振幅序列的平均值s；

B)、将每个振幅值减去平均值，得到去零漂后平均值为0的振幅序列s”(n)。

3、预加重

A)、设置数字滤波器的Z传递函数H(z)＝1-αz^-1中的预加重系数α，α可取1或比1稍小的值；

B)、s”(n)通过数字滤波器，得到语音信号的高、中、低频幅度相当的振幅序列s(n)。

4、加窗

A)、计算语音帧的帧长N(32毫秒)和帧移量T(10毫秒)，分别满足：

\frac{N}{F} = 0.032

\frac{T}{F} = 0.010

这里F是语音采样率，单位为Hz；

B)、以帧长为N、帧移量为T，把s(n)划分成一系列的语音帧F_m，每一语音帧包含N个语音信号样本；

C)、计算哈明窗函数：

D)、对每一语音帧F_m加哈明窗：

ω(n)×F_m(n){F_m′(n)|n＝0，1，…，N-1}。

第二步：特征提取

语音帧上的特征提取采用线性预测系数倒谱(LPCC)的提取。

语音的p阶线性预测是用过去p个时刻的语音采样值的线性组合以最小的预测误差预测下一时刻的语音信号采样值。

设{s_n|n＝0，1，...，N-1}为一帧的语音采样序列，则s_n的预测值为：

{\hat{s}}_{n} = - Σ_{i = 1}^{p} α_{i} s_{n - i}

其中α_i(i＝1，2，...，p)称为p阶线性预测的预测系数，可由使这一帧的预测误差的平方和最小得到：

E = Σ_{n = 0}^{N - p - 1} {[s_{n} + Σ_{i = 1}^{p} α_{i} s_{n - i}]}^{2}

一般采用自相关法和协方差法进行求取。语音信号的倒谱特征与语音信号的LPC特征是有关系的，可以先求取LPC特征，然后计算倒谱。

整个计算过程如下：

A)设置线性预测系数的阶数p；

B)在一帧语音信号数据里面计算信号自相关函数：

R_{i} = Σ_{n = i}^{N} s_{n} s_{n - i}

C)计算此帧计算协方差函数：

ψ_{ik} = Σ_{n = 0}^{N - 1} s_{n - i} s_{n - k}

D)将上面两步中的结果代入下面方程：

[\begin{matrix} \underset{n}{Σ} s_{n - 1} s_{n - 1} & \underset{n}{Σ} s_{n - 1} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - 1} s_{n - p} \\ \underset{n}{Σ} s_{n - 2} s_{n - 1} & \underset{n}{Σ} s_{n - 2} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - 2} s_{n - p} \\ \cdot \cdot \cdot \cdot \cdot \cdot & \cdot \cdot \cdot \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \cdot \cdot \cdot \\ \underset{n}{Σ} s_{n - p} s_{n - 1} & \underset{n}{Σ} s_{n - p} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - p} s_{n - p} \end{matrix}] [\begin{matrix} α_{1} \\ α_{2} \\ \cdot \cdot \cdot \\ α_{p} \end{matrix}] = - [\begin{matrix} \underset{n}{Σ} s_{n} s_{n - 1} \\ \underset{n}{Σ} s_{n} s_{n - 2} \\ \cdot \cdot \cdot \\ \underset{n}{Σ} s_{n} s_{n - p} \end{matrix}]

其中∑是对n＝0～N-p-1求和。

E)计算线性预测倒谱特征：

LPC倒谱特征c_i(i＝1，2，...，p)可以通过下面等式获得：

\{\begin{matrix} c_{1} = α_{1} \\ c_{n} = Σ_{k = 1}^{n - 1} (1 - \frac{k}{n}) α_{k} c_{n - k} + α_{n} & (1 < n \leq p) \end{matrix}

第三步、训练说话人的高斯混合模型

M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布，即：

p (x) = Σ_{i = 1}^{M} P_{i} b_{i} (x)

其中

b_{i} (x) = N (x, μ, R_{i}) = \frac{1}{{(2 π)}^{p / 2} {| R_{i} |}^{1 / 2}} \exp (- \frac{1}{2} {(x - μ_{i})}^{T} R_{i}^{- 1} (x - μ_{i}))

其中，p为特征维数，bb_i(x)称为核函数，是均值向量为μ_i、协方差矩阵为R_i的高斯分布函数，M称为GMM模型的阶数。高斯混合分布的加权系数P₁满足

Σ_{i = 1}^{M} P_{i} = 1

每个说话人的个性特征都可以由形式一致的高斯混合概率密度函数中的参数λ唯一确定，故为每个说话人建立一个GMM模型就是用这一说话人的语音特征训练这一说话人的GMM模型，从而获得GMM模型中的参数λ。

在本方案中，采用EM(Expectation Maximization)算法来获得这些参数，算法描述如下：

A)首先设定高斯混合模型的阶数M，设定初始状态各高斯分布的加权系数P_i＝1/M，各个高斯分布的协方差矩阵R_i为单位矩阵，均值向量μ_i＝ μ+Δμ_i，其中 μ为说话人训练样本的均值向量，Δμ_i为较小的随即向量。

B)设某说话人训练语音的特征为{x_t|t＝1，2，...，T}，按照下面公式对高斯混合模型参数进行重新估计，：

{P^{'}}_{i} = \frac{1}{T} Σ_{t = 1}^{T} \frac{P_{i} b_{i} (x_{t})}{{Σ_{i = 1}^{M} P}_{i} b_{i} (x_{t})}

μ^{'} = \frac{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ) x_{t}}{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ)}

{R^{'}}_{i} = \frac{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ) {(x_{t} - {μ^{'}}_{i})}^{T} (x_{t} - {μ^{'}}_{i})}{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ)}

C)重复B步骤，直到待估计参数的变化小于某个设定值。

第四步、建立支持向量机模型

支持向量机是在统计学习理论的基础上发展出来的一种较新的模式识别方法，它实现了结构风险最小化思想

支持向量机是从线性可分情况下的最优分类面提出的。设线性可分样本集为(x_i，y_i)，i＝1，...，n，x∈R^d，y∈{+1，-1}是类别标号，d维空间中线性判别函数的一般形式为g(x)＝w·x+b，分类面方程为：

w·x+b＝0

将判别函数归一化，使两类所有样本都满足|g(x)|≥1，即使离分类面最近的样本|g(x)|＝1，这样分类间隔等于2/‖w‖，因此使得间隔最大等价于使‖w‖最小；而要求分类线对所有样本正确分类，就是要求它满足：

y_i(w·x_i+b)-1≥0，i＝1，2，...，n

满足上述条件且使得‖w‖²最小的分类面就是最优分类面，其对偶问题为：

\max_{α} Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot y_{i})

Σ_{i = 1}^{n} y_{i} α_{i} = 0

α_i≥0，i＝1，2，...，n

求解α^*得为最优解，则权系数是训练样本向量的线性组合：

w^{*} = Σ_{i = 1}^{n} α_{i}^{*} y_{i} x_{i}

最优分类函数是：

f (x) = sgn (w^{*} \cdot x + b) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*})

在线性不可分的情况下，增加一个松弛项ξ_i≥0，分类条件变成

y_i(w·x_i+b)-1+ξ_i≥0 i＝1，2，...n

最优分类面问题演化为求取下列函数的极小值：

φ (w, ξ) = \frac{1}{2} (w \cdot w) + C (Σ_{i = 1}^{n} ξ_{i})

其中C为常数，控制错分样本惩罚的程度。

进一步用内积K(x，x′)代替最优分类面中的点积，相当于把原特征空间变换到了某一新的特征空间，优化函数变成：

\max_{α} Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i}, y_{i})

相应的判别函数变成：

f (x) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} K (x_{i}, x) + b^{*})

内积函数形式一般有多项式、径向基等，在我们的试验中采用径向基函数形式：

K (x, x_{i}) = \exp (- \frac{{| x - x_{i} |}^{2}}{σ^{2}})

我们结合高斯混合模型和支持向量机的方法，构造出一类新的用于说话人识别的混合模型。首先是利用前面训练好的GMM模型将长度不一样的语句映射到一个固定大小的向量上；然后将映射后的向量作为支持向量机的输入进行训练。整个过程如下：

A)对于某帧向量x_i，找到高斯混合模型λ＝{w_i，μ_i，∑_i}中得分最大的高斯分布

w_{t} p_{t} (x_{i}) = \underset{j = 1 . . . M}{\arg \min} {w_{j} p_{j} (x_{i})}

B)将x_i映射到一个矩阵

Z(x_i)＝[v₁·z₁，...，v_M-z_M]

其中

z_{k} = \{\begin{matrix} x_{i} - μ_{t}, k = t \\ 0, else \end{matrix}

v_i＝w_i·sqrt(diag(∑_i)^-1)

v_i是权重系数，∑_i是高斯混合模型的方差矩阵，w_i是高斯混合模型中的各个高斯分布权重。

C)对语句的每帧累计其映射矩阵就可以得到语句的映射矩阵：

Φ (X) = \frac{1}{n} Σ_{i = 1}^{n} Z (x_{i})

D)通过简单的将矩阵Φ(X)扩展为一个一维向量，此向量就是语句映射后的向量。将此向量作为支持向量机的输入，采用不同类型的核函数进行训练。也可以直接根据矩阵值来得到两条语句的内积函数：

K_{linear} (X, Y) = Σ_{i = 1}^{d} Σ_{j = 1}^{M} Φ {(X)}_{ij} \cdot Φ {(Y)}_{ij}

类似的多项式核与径向基核如下所示：

K_{poly} (X, Y) = {(Σ_{i = 1}^{d} Σ_{j = 1}^{M} (Φ {(X)}_{ij} \cdot Φ {(Y)}_{ij}) + 1)}^{n}

K_{rbf} (X, Y) = \exp [- \frac{1}{2} \cdot \frac{Σ_{i = 1}^{d} Σ_{j = 1}^{M} {(Φ {(X)}_{ij} - Φ {(Y)}_{ij})}^{2}}{σ^{2}}]

其中σ和n分别示径向基函数和多项式函数的参数。

第五步、说话人识别

说话人识别可分为说话人确认(Speaker Verification)和说话人辨认(SpeakerIdentification)两方面。在说话人确认中，对于一条新的语句，经过特征提取之后得到语句的特征序列，然后利用自称的说话人的高斯混合模型将它映射到一个向量上去，然后将此向量作为自称说话人的支持向量机模型的输入，支持向量机的输出S作为此语句的得分，并将S与某个阈值T相比较，若S＞T，则接受这条语句是自称说话人所说的，否则拒绝自称的说话人，即认为这个自称的说话人是冒认者。在这里我们采用等错误率(equal error rate)来评价说话人确认性能。

在说话人辨别中，这条语句对于所有的说话人模型都进行评分，对于某个说话人来说，首先将语句的特征向量序列根据这个说话人的高斯混合模型映射成为一个向量，把此向量输入这个说话人的支持向量机模型中，支持向量机的输出作为这条语句在这个说话人模型上的得分。这样对每个说话人进行评分后，取最大的那个得分的说话人作为此语句的说话人。在这里我们采用错误率来评判说话人辨认性能。

对于一条新的语句的说话人识别阶段可分两步：

A)根据指定说话人的高斯混合模型将语句映射到一个向量上去，并作为指定说话人的支持向量机的输入，在分类判别函数前的输出作为指定说话人的得分值。在说话人辨认中则需要根据各自的高斯混合模型进行映射与计分。

B)在说话人确认中，将指定说话人的得分值与某个阈值比较，若大于此阈值则接受，否则拒绝。在说话人辨认中则选取最大得分的说话人作为结果。

实验结果

本方法YOHO库上进行了实验。该库由138个说话人语音组成，每条都是6个数字的英文发音，长度约为2到3秒。在YOHO库中，每个说话人训练语音分4个部分，每部分有24条语句，测试语音分10个部分，每个部分是4条语句该数据库的，每个说话人的训练语音分4个部分，每个部分是24条语句。特征提取采用12阶的LPCC及其微分，组成24维的特征向量，帧长为30ms，每10ms取一帧，经过去静音，预加重后得到。

支持向量机一般用于解决一个二类分类问题，对于多类的分类，人们一般采用一对一或者一对多的方式进行。采用一对一时候需要构造n*(n-1)/2个分类器，分别将每两类数据进行分类；用一对多是只需要构造n个分类器，将每类数据和其他所有数据进行分开。在我们试验中采用一对多的方式，这样我们只要为每个说话人构造一个支持向量机，其正样本是某个说话人语句在自己的码本上映射后的向量，负样本是其他所有说话人语句在这个说话人的码本上映射后的向量。

我们采用数据库中的前50人进行试验，对每个说话人采用EM算法在所有训练数据上得到一个GMM模型，然后所有说话人的语句用这个GMM模型上进行映射得到训练样本，作为支持向量机的输入。对于多类问题，我们这里采用一对其他的方式进行，这样我们只需要为每个人构造一个支持向量机。

表1显示了模型在YOHO库上进行说话人辨认的试验结果：

表格1 SVM/GMM模型在YOHO库上说话人辨认性能(错误率)

模型	64阶(％)	128阶(％)
模型	64阶(％)	128阶(％)	SVM/GMM(线性核)SVM/GMM(径向基核)SVM/GMM(多项式核)基本GMM	3.52.92.55.4	2.82.52.23.2

Claims

1、一种基于内嵌GMM核的支持向量机模型的说话人识别方法，其特征在于：首先对每个说话人的语音进行特征提取，然后根据每个说话人的语音训练得到一个高斯混合模型，根据此高斯混合模型，可以将一条语句映射到一个固定大小的高维向量上，并将此向量作为支持向量机的输入进行训练与识别。

2、根据权利要求1所述的基于内嵌GMM核的支持向量机模型的说话人识别方法，其特征在于：所述多类的方法采用的是一对其他的方式。

3、根据权利要求1或2所述的基于内嵌GMM核的支持向量机模型的说话人识别方法，其特征在于：该方法的主要步骤：

3.1)、音频预处理：音频预处理分为采样量化，去零漂，预加重和加窗四个部分；

3.2)、语音帧上的特征提取：采用线性预测系数倒谱的提取，先求取语音信号的LPC特征，即线性预测系数特征，然后计算语音信号的倒谱特征；

3.3)、训练说话人的高斯混合模型：为每个说话人建立一个GMM模型，由形式一致的高斯混合概率密度函数中的参数λ唯一确定每个说话人的个性特征，用这一说话人的语音特征训练这一说话人的GMM模型，从而获得GMM模型中的参数λ；

M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间

中的分布，即：

p (x) = Σ_{i = 1}^{M} P_{i} b_{i} (x)

其中

b_{i} (x) = N (x, μ, R_{i}) = \frac{1}{{(2 π)}^{p / 2} {| R_{i} |}^{1 / 2}} \exp (- \frac{1}{2} {(x - μ_{i})}^{T} R_{i}^{- 1} (x - μ_{i}))

其中，p为特征维数，bb_i(x)称为核函数，是均值向量为μ_i、协方差矩阵为R_i的高斯分布函数，M称为GMM模型的阶数；高斯混合分布的加权系数P_i满足

Σ_{i = 1}^{M} P_{i} = 1;

3.4)、建立支持向量机模型：

3.4.1)、在线性可分情况下：支持向量机是从线性可分情况下的最优分类面提出的。设线性可分样本集为(x_i，y_i)，i＝1，...，n，x∈R^d，y∈{+1，-1}是类别标号，d维空间中线性判别函数的一般形式为g(x)＝w·x+b，分类面方程为：w·x+b＝0

y_i(w·x_i+b)-1≥0，i＝1，2，...，n

\max_{α} Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot y_{i})

Σ_{i = 1}^{n} y_{i} α_{i} = 0

α_i≥0，i＝1，2，...，n

求解α^*得为最优解，则权系数是训练样本向量的线性组合：

w^{*} = Σ_{i = 1}^{n} α_{i}^{*} y_{i} x_{i}

最优分类函数是：

f (x) = sgn (w^{*} \cdot x + b) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*})

3.4.2)、在线性不可分的情况下，增加一个松弛项ξ_i≥0，分类条件变成

y_i(w·x_i+b)-1+ξ_i≥0 i＝1，2，...n

最优分类面问题演化为求取下列函数的极小值：

φ (w, ξ) = \frac{1}{2} (w \cdot w) + C (Σ_{i = 1}^{n} ξ_{i})

其中C为常数，控制错分样本惩罚的程度；

\max_{α} Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} k (x_{i}, y_{i})

相应的判别函数变成：

f (x) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} K (x_{i}, x) + b^{*})

3.5)、结合高斯混合模型和支持向量机的方法，构造出用于说话人识别的混合模型：首先是利用前面训练好的GMM模型将长度不一样的语句映射到一个固定大小的向量上；然后将映射后的向量作为支持向量机的输入进行训练；

3.6)、说话人识别：说话人识别分为说话人确认和说话人辨认两方面；

3.6.1)、在说话人确认中，对于一条新的语句，经过特征提取之后得到语句的特征序列，然后利用自称的说话人的高斯混合模型将它映射到一个向量上去，然后将此向量作为自称说话人的支持向量机模型的输入，支持向量机的输出S作为此语句的得分，并将S与某个阈值T相比较，若S＞T，则接受这条语句是自称说话人所说的，否则拒绝自称的说话人，即认为这个自称的说话人是冒认者；

3.6.2)、在说话人辨别中，这条语句对于所有的说话人模型都进行评分，对于某个说话人来说，首先将语句的特征向量序列根据这个说话人的高斯混合模型映射成为一个向量，把此向量输入这个说话人的支持向量机模型中，支持向量机的输出作为这条语句在这个说话人模型上的得分；这样对每个说话人进行评分后，取最大的那个得分的说话人作为此语句的说话人。

4、根据权利要求3所述的基于混合支持向量机的说话人识别的方法，其特征在于：在语音帧上的特征提取的步骤中：语音的p阶线性预测是用过去p个时刻的语音采样值的线性组合以最小的预测误差预测下一时刻的语音信号采样值；

{\hat{s}}_{n} = - Σ_{i = 1}^{p} α_{i} s_{n - i}

E = Σ_{n = 0}^{N - p - 1} {[s_{n} + Σ_{i = 1}^{p} α_{i} s_{n - i}]}^{2};

整个计算过程具体如下：

A)、设置线性预测系数的阶数p；

B)、在一帧语音信号数据里面计算信号自相关函数：

R_{i} = Σ_{n = i}^{N} s_{n} s_{n - i}

C)、计算此帧计算协方差函数：

ψ_{ik} = Σ_{n = 0}^{N - 1} s_{n - i} s_{n - k}

D)、将上面两步中的结果代入下面方程：

[\begin{matrix} \underset{n}{Σ} s_{n - 1} s_{n - 1} & \underset{n}{Σ} s_{n - 1} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - 1} s_{n - p} \\ \underset{n}{Σ} s_{n - 2} s_{n - 1} & \underset{n}{Σ} s_{n - 2} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - 2} s_{n - p} \\ \cdot \cdot \cdot \cdot \cdot \cdot & \cdot \cdot \cdot \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \cdot \cdot \cdot \\ \underset{n}{Σ} s_{n - p} s_{n - 1} & \underset{n}{Σ} s_{n - p} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - p} s_{n - p} \end{matrix}] [\begin{matrix} α_{1} \\ α_{2} \\ \cdot \cdot \cdot \\ α_{p} \end{matrix}] = [\begin{matrix} \underset{n}{Σ} s_{n} s_{n - 1} \\ \underset{n}{Σ} s_{n} s_{n - 2} \\ \cdot \cdot \cdot \\ \underset{n}{Σ} s_{n} s_{n - p} \end{matrix}]

其中∑是对n＝0～N-p-1求和；

E)、计算线性预测倒谱特征：

LPC倒谱特征c_i(i＝1，2，...，p)可以通过下面等式获得：

\{\begin{matrix} c_{1} = α_{1} \\ c_{n} = Σ_{k = 1}^{n - 1} (1 - \frac{k}{n}) α_{k} c_{n - k} {+ α}_{n}, (1 < n \leq p) \end{matrix} .

5、根据权利要求3所述的基于内嵌GMM核的支持向量机模型的说话人识别方法，其特征在于：采用EM算法来获得GMM模型中的参数λ，算法描述如下：

A)首先设定高斯混合模型的阶数M，设定初始状态各高斯分布的加权系数P_i＝1/M，各个高斯分布的协方差矩阵R_i为单位矩阵，均值向量μ_i＝ μ+Δμ_i，其中 μ为说话人训练样本的均值向量，Δμ_i为较小的随即向量；

B)设某说话人训练语音的特征为{x_t|t＝1，2，...，T}，按照下面公式对高斯混合模型参数进行重新估计：

{P^{'}}_{i} = \frac{1}{T} Σ_{t = 1}^{T} \frac{P_{i} b_{i} (x_{t})}{Σ_{i = 1}^{M} P_{i} b_{i} (x_{t})}

μ^{'} = \frac{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ) x_{t}}{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ)}

{R^{'}}_{t} = \frac{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ) {(x_{t} - {μ^{'}}_{i})}^{T} (x_{t} - {μ^{'}}_{i})}{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ)}

C)重复B步骤，直到待估计参数的变化小于某个设定值。

6、根据权利要求3所述的基于混合支持向量机的说话人识别的方法，其特征在于：在

3.5)步骤中的整个过程如下：

w_{t} p_{t} (x_{i}) = \underset{j = 1 . . . M}{\arg \min} {w_{j} p_{j} (x_{i})}

B)将x_i映射到一个矩阵

Z(x_i)＝[v₁·z₁，...，v_M·z_M]

其中

z_{k} = \{\begin{matrix} x_{i} - μ_{t}, k = t \\ 0, else \end{matrix}

v_i＝w_i·sqrt(diag(∑_i)^-1)

Φ (X) = \frac{1}{n} Σ_{i = 1}^{n} Z (x_{i})

D)通过简单的将矩阵Ф(X)扩展为一个一维向量，此向量就是语句映射后的向量。将此向量作为支持向量机的输入，采用不同类型的核函数进行训练。也可以直接根据矩阵值来得到两条语句的内积函数：

K_{linear} (X, Y) = Σ_{i = 1}^{d} Σ_{j = 1}^{M} Φ {(X)}_{ij} \cdot Φ {(Y)}_{ij}

类似的多项式核与径向基核如下所示：

K_{poly} (X, Y) = {(Σ_{i = 1}^{d} Σ_{j = 1}^{M} (Φ {(X)}_{ij} \cdot Φ {(Y)}_{ij}) + 1)}^{n}

K_{rbf} (X, Y) = \exp [- \frac{1}{2} \cdot \frac{Σ_{i = 1}^{d} Σ_{j = 1}^{M} {(Φ {(X)}_{ij} - Φ {(Y)}_{ij})}^{2}}{σ^{2}}]

其中σ和n分别示径向基函数和多项式函数的参数。

7、根据权利要求3所述的基于内嵌GMM核的支持向量机模型的说话人识别方法，其特征在于：在步骤3.6)中，对于一条新的语句的说话人识别阶段可分两步：

A)、根据指定说话人的高斯混合模型将语句映射到一个向量上去，并作为指定说话人的支持向量机的输入，在分类判别函数前的输出作为指定说话人的得分值，在说话人辨认中则需要根据各自的高斯混合模型进行映射与计分；

B)、在说话人确认中，将指定说话人的得分值与某个阈值比较，若大于此阈值则接受，否则拒绝，在说话人辨认中则选取最大得分的说话人作为结果。