CN1787076A

CN1787076A - 基于混合支持向量机的说话人识别方法

Info

Publication number: CN1787076A
Application number: CNA2005100619544A
Authority: CN
Inventors: 杨莹春; 吴朝晖; 雷震春
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2005-12-13
Filing date: 2005-12-13
Publication date: 2006-06-14
Anticipated expiration: 2025-12-13
Also published as: CN100570711C

Abstract

本发明涉及一种基于混合支持向量机的说话人识别的方法，是为每个说话人建立一个混合支持向量机模型，首先对每个说话人的语音进行特征提取，然后将每个说话人的所有训练样本数据采用聚类方法进行分区，每个区训练出一个支持向量机，在训练支持向量机的过程中，正样本为该说话人在这个分区里面的样本，负样本为冒认者的语音特征向量；在识别阶段，一条新的语句的每帧的得分值要综合所有支持向量机的输出，可以分别采用距离和概率两种方式得到。本发明有益的效果是：采用多个支持向量机混合的方法，在说话人识别上获得比采用单个支持向量机更好性能，同时其性能也优于相同高斯分量数目的高斯混合模型。

Description

基于混合支持向量机的说话人识别方法

技术领域

本发明涉及信号处理和模式识别领域，主要是一种基于混合支持向量机的说话人识别的方法。

背景技术

说话人识别技术是指通过对语音信号的分析和特征提取，自动地确定说话人身份的技术。说话人识别包括两个基本任务：说话人辨认(Speaker Identification)和说话人确认(SpeakerVerification)。说话人辨认是判别输入的声音是预先登记的说话人集合中的哪个用户所说，说话人确认是要确定输入的声音是否是申明的说话人的声音。

说话人识别基本原理都是为每个说话人建立一个能够描述这一说话人个性特征的模型，在目前语义特征与说话人个性特征还不能很好地从语音特征中得到分离的情况下，实际上是话者的语音特征模型。当前应用较广泛的说话人模型主要有模板模型，向量量化模型(VQ)，高斯混合模型(GMM)，隐马尔可夫模型(HMM)等。

支持向量机(Support Vector Machine)是上世纪九十年代发展出来的一种基于统计学习理论的模式识别方法，它采用分类间隔最大的最优分类超平面实现结构风险最小化原则，由于它具有良好的理论基础，得到越来越多的研究，并被应用到多个领域中。

发明内容

本发明要解决上述技术所存在的缺陷，提供一种基于混合支持向量机的说话人识别的方法，通过多个支持向量机混合的方法，构造一类新的混合模型用于说话人识别中。

本发明解决其技术问题所采用的技术方案：这种基于混合支持向量机的说话人识别的方法，是为每个说话人建立一个混合支持向量机模型，首先对每个说话人的语音进行特征提取，然后将每个说话人的所有训练样本数据采用聚类方法进行分区，每个区训练出一个支持向量机，在训练支持向量机的过程中，正样本为该说话人在这个分区里面的样本，负样本为冒认者的语音特征向量；在识别阶段，一条新的语句的每帧的得分值要综合所有支持向量机的输出，可以分别采用距离和概率两种方式得到。

本发明解决其技术问题所采用的技术方案还可以进一步完善。针对多类分类的方法在本方案中采用的是一对其他的方式，也可以采用一对一的方式或者其他方式进行；所述的分区方法在本方案中采用的是k-means聚类的方法，每类就是一个分区，然后在每类构造一个支持向量机。

本发明有益的效果是：采用多个支持向量机混合的方法，在说话人识别上获得比采用单个支持向量机更好性能，同时其性能也优于相同高斯分量数目的高斯混合模型。

附图说明

图1是本发明混合支持向量机模型的说话人识别拓扑结构图；

具体实施方式

下面结合附图和实施例对本发明作进一步介绍：本发明的方法共分四步。

第一步：语音预处理

语音预处理分为采样量化，去零漂，预加重和加窗三个部分。

1、采样量化

A)、用锐截止滤波器对语音信号进行滤波，使其奈奎斯特频率F_N为4KHZ；

B)、设置语音采样率F＝2F_N；

C)、对语音信号s_a(t)按周期进行采样，得到数字语音信号的振幅序列

s (n) = s_{a} (\frac{n}{F});

D)、用脉冲编码调制(PCM)对s(n)进行量化编码，得到振幅序列的量化表示s’(n)。

2、去零漂

A)、计算量化的振幅序列的平均值s；

B)、将每个振幅值减去平均值，得到去零漂后平均值为0的振幅序列s”(n)。

3、预加重

A)、设置数字滤波器的Z传递函数H(z)＝1-αz^-1中的预加重系数α，α可取1或比1稍小的值；

B)、s”(n)通过数字滤波器，得到语音信号的高、中、低频幅度相当的振幅序列s(n)。

4、加窗

A)、计算语音帧的帧长N(32毫秒)和帧移量T(10毫秒)，分别满足：

\frac{N}{F} = 0.032

\frac{T}{F} = 0.010

这里F是语音采样率，单位为Hz；

B)、以帧长为N、帧移量为T，把s(n)划分成一系列的语音帧F_m，每一语音帧包含N个语音信号样本；

C)、计算哈明窗函数：

D)、对每一语音帧F_m加哈明窗：

ω(n)×F_m(n){F_m(n)|n＝0，1，…，N-1}。

第二步：特征提取

语音帧上的特征提取采用线性预测系数倒谱(LPCC)的提取。

语音的p阶线性预测是用过去p个时刻的语音采样值的线性组合以最小的预测误差预测下一时刻的语音信号采样值。

设{s_n|n＝0，1，...，N-1}为一帧的语音采样序列，则s_n的预测值为：

{\hat{s}}_{n} = - Σ_{i = 1}^{p} α_{i} s_{n - i}

其中α_i(i＝1，2，...，p)称为p阶线性预测的预测系数，可由使这一帧的预测误差的平方和最小得到：

E = Σ_{n = 0}^{N - p - 1} {[s_{n} + Σ_{i = 1}^{p} α_{i} s_{n - i}]}^{2}

一般采用自相关法和协方差法进行求取。语音信号的倒谱特征与语音信号的LPC特征是有关系的，可以先求取LPC特征，然后计算倒谱。

整个计算过程如下：

A)设置线性预测系数的阶数p；

B)在一帧语音信号数据里面计算信号自相关函数：

R_{i} = Σ_{n = i}^{N} s_{n} s_{n - i}

C)计算此帧计算协方差函数：

ψ_{ik} = Σ_{n = 0}^{N - 1} s_{n - i} s_{n - k}

D)将上面两步中的结果代入下面方程：

[\begin{matrix} \underset{n}{Σ} s_{n - 1} s_{n - 1} & \underset{n}{Σ} s_{n - 1} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - 1} s_{n - p} \\ \underset{n}{Σ} s_{n - 2} s_{n - 1} & \underset{n}{Σ} s_{n - 2} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - 2} s_{n - p} \\ \cdot \cdot \cdot \cdot \cdot \cdot & \cdot \cdot \cdot \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \cdot \cdot \cdot \\ \underset{n}{Σ} s_{n - p} s_{n - 1} & \underset{n}{Σ} s_{n - p} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - p} s_{n - p} \end{matrix}] [\begin{matrix} α_{1} \\ α_{2} \\ \cdot \cdot \cdot \\ α_{p} \end{matrix}] = - [\begin{matrix} \underset{n}{Σ} s_{n} s_{n - 1} \\ \underset{n}{Σ} s_{n} s_{n - 2} \\ \cdot \cdot \cdot \\ \underset{n}{Σ} s_{n} s_{n - p} \end{matrix}]

其中∑是对n＝0～N-p-1求和。

E)计算线性预测倒谱特征：

LPC倒谱特征c_i(i＝1，2，...，p)可以通过下面等式获得：

\{\begin{matrix} c_{1} = α_{1} \\ c_{n} = Σ_{k = 1}^{n - 1} (1 - \frac{k}{n}) α_{k} c_{n - k} + α_{n} & (1 < n \leq p) \end{matrix}

第三步、说话人的混合支持向量机模型

支持向量机是在统计学习理论的基础上发展出来的一种较新的机器学习方法，它实现了结构风险最小化思想

支持向量机是从线性可分情况下的最优分类面提出的。设线性可分样本集为(x_i，y_i)，i＝1，...，n，x∈R^d，y∈{+1，-1}是类别标号，d维空间中线性判别函数的一般形式为g(x)＝w·x+b，分类面方程为：

w·x+b＝0

将判别函数归一化，使两类所有样本都满足|g(x)|≥1，即使离分类面最近的样本|g(x))|＝1，这样分类间隔等于2/‖w‖，因此使得间隔最大等价于使‖w‖最小；而要求分类线对所有样本正确分类，就是要求它满足：

y_i(w·x₁+b)-1≥0，i＝1，2，...，n

满足上述条件且使得‖w‖²最小的分类面就是最优分类面，其对偶问题为：

\max_{α} Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot y_{i})

Σ_{i = 1}^{n} y_{i} α_{i} = 0

α_i≥0，i＝1，2，...，n

求解α^*得为最优解，则权系数是训练样本向量的线性组合：

w^{*} = Σ_{i = 1}^{n} α_{i}^{*} y_{i} x_{i}

最优分类函数是：

f (x) = sgn (w^{*} \cdot x + b) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*})

在线性不可分的情况下，增加一个松弛项ξ₁≥0，分类条件变成

y_i(w·x_i+b)-1+ξ₁≥0i＝1，2，...n

最优分类面问题演化为求取下列函数的极小值：

φ (w, ξ) = \frac{1}{2} (w \cdot w) + C (Σ_{i = 1}^{n} ξ_{i})

其中C为常数，控制错分样本惩罚的程度。

进一步用内积K(x，x′)代替最优分类面中的点积，相当于把原特征空间变换到了某一新的特征空间，优化函数变成：

\max_{α} Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i}, y_{i})

相应的判别函数变成：

f (x) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} K (x_{i}, x) + b^{*})

内积函数形式一般有多项式、径向基等，在我们的试验中采用径向基函数形式：

K (x, x_{i}) = \exp (- \frac{{| x - x_{i} |}^{2}}{σ^{2}})

在为每个说话人建立一个混合支持向量机模型时候，首先对该说话人的所有训练样本数据进行聚类，在本试验中我们采用k-mean聚类的方式，每类就是一个分区，然后在每类构造一个支持向量机，在训练支持向量机的过程中，正样本为该说话人在这个分区里面的样本，负样本为冒认者的语音特征向量。

我们采用两种不同的方式对说话人的所有支持向量机的输出进行组合：

A)距离模型

在计分阶段，帧向量x_i的得分为该说话人模型里面所有支持向量机的输出的最大值，一条语句X的得分S为所有帧得分值的平均值：

S = \frac{1}{T} Σ_{i = 1}^{T} \max_{j} (d (x_{i}, {SVM}_{j}))

其中的d为帧向量在SVM上的软输出：

d (x_{i}, {SVM}_{j}) = \underset{k}{Σ} (α_{jk} y_{jk} k (x_{jk}, x_{i}) + b_{jk})

B)概率混合模型

对于一个帧向量，它的得分采用概率的表达方式为

p (x | λ) = Σ_{i = 1}^{M} w_{i} p_{i} (d (x, {SVM}_{i}))

其中d为帧向量在SVM上的软输出，将其转化为概率输出：

p (d) = \frac{1}{1 + \exp (Ad + B)}

其中A和B为参数。

权重w的值定义为：

这样对于整条语句，其得分值S为：

S = \log p (X | λ) = Σ_{t = 1}^{T} \log (p (x_{t} | λ))

第四步、说话人识别

说话人识别可分为说话人确认(Speaker Verification)和说话人辨认(SpeakerIdentification)两方面。在说话人确认中，对于一条新的语句，经过特征提取后得到一个特征向量序列，利用申明的说话人的混合支持向量机模型对每帧的特征向量进行打分，然后取所有帧的得分的平均值S作为此语句的得分，并将S与某个阈值T相比较，若S＞T，则接受这条语句是自称说话人所说的，否则拒绝自称的说话人，即认为这个自称的说话人是冒认者。在这里我们采用等错误率(equal error rate)来评价说话人确认性能。

在说话人辨别中，这条语句对于所有的说话人模型都进行评分，对于某个说话人来说，首先将语句的每帧的特征向量采用这个说话人的混合支持向量机模型进行计分，语句所有帧得分的平均值作为这条语句在这个说话人模型上的得分。这样对每个说话人进行评分后，取最大的那个得分的说话人作为此语句的说话人。在这里我们采用错误率来评判说话人辨认性能。

实验结果

本方法YOHO库上进行了实验。该库由138个说话人语音组成，每条都是6个数字的英文发音，长度约为2到3秒。在YOHO库中，每个说话人训练语音分4个部分，每部分有24条语句，测试语音分10个部分，每个部分是4条语句该数据库的，每个说话人的训练语音分4个部分，每个部分是24条语句。特征提取采用12阶的LPCC及其微分，组成24维的特征向量，分析帧长为30ms，每10ms取一帧，经过去静音，预加重后得到。

支持向量机一般用于解决一个二类分类问题，对于多类的分类，人们一般采用一对一或者一对多的方式进行。在我们试验中采用一对多的方式，其正样本是某个说话人的向量，负样本是其他所有说话人语句的向量。

我们采用数据库中的前50人进行试验，对每个说话人首先采用K-means聚类将语音数据聚成M类，在每个类上面采用支持向量机进行训练，其负样本是其他所有人语音数据聚类的中心，在我们试验中负样本个数为49×100。若正样本数目太多，我们也采用聚类的方式来选取代表性的样本点作为支持向量机的输入。

试验分别采用基于距离输出和概率输出两种模式，结果如下表所示：

表格1 混合支持向量机在YOHO库上进行的说话人辨认的错误率

M	距离模型(％)	概率混合模型(％)	基本GMM(％)
M	距离模型(％)	概率混合模型(％)	基本GMM(％)	2481632	8.65.54.43.73.3	11.35.83.82.92.4	30.626.117.211.47.8

表2显示了50人在YOHO库上进行的说话人确认的试验结果。

表格2 混合支持向量机在YOHO库上进行的说话人确认的等错误率

M	距离模型(％)	概率混合模型(％)
M	距离模型(％)	概率混合模型(％)	2481632	8.34.83.01.71.5	5.83.42.22.11.9

Claims

1、一种基于混合支持向量机的说话人识别的方法，其特征在于：为每个说话人建立一个混合支持向量机模型，首先对每个说话人的语音进行特征提取，然后将每个说话人的所有训练样本数据采用聚类方法进行分区，每个区训练出一个支持向量机，在训练支持向量机的过程中，正样本为该说话人在这个分区里面的样本，负样本为冒认者的语音特征向量；在识别阶段，一条新的语句的每帧的得分值要综合所有支持向量机的输出，可以分别采用距离和概率两种方式得到。

2、根据权利要求1所述的基于混合支持向量机的说话人识别的方法，其特征在于：针对多类分类的方法采用的是一对其他的方式；所述的分区方法在本方案中采用的是k-means聚类的方法，每类就是一个分区，然后在每类构造一个支持向量机。

3、根据权利要求1或2所述的基于混合支持向量机的说话人识别的方法，其特征在于：该方法的主要步骤：

3.1)、语音预处理：语音预处理分为采样量化，去零漂，预加重和加窗四个部分；

3.2)、语音帧上的特征提取：采用线性预测系数倒谱的提取，先求取语音信号的线性预测系数(LPC)，然后计算语音信号的倒谱特征；

3.3)、说话人的支持向量机混合模型，对说话人的所有支持向量机的输出进行组合：

3.3.1)、在线性可分情况下：设线性可分样本集为(x_i，y_i)，i＝1，...，n，x∈R^d，y∈{+1，-1}是类别标号，d维空间中线性判别函数的一般形式为g(x)＝w·x+b，分类面方程为：w·x+b＝0

将判别函数归一化，使两类所有样本都满足|g(x)|≥1，即使离分类面最近的样本|g(x)|＝1，这样分类间隔等于2/‖w‖，使得间隔最大等价于使‖w‖最小；而要求分类线对所有样本正确分类，就是要求它满足：

y_i(w·x_i+b)-1≥0，i＝1，2，...，n

\max_{α} Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot y_{i})

Σ_{i = 1}^{n} y_{i} α_{i} = 0

α_i≥0，i＝1，2，...，n

求解α^*得为最优解，则权系数是训练样本向量的线性组合：

w^{*} = Σ_{i = 1}^{n} α_{i}^{*} y_{i} x_{i}

最优分类函数是：

f (x) = sgn (w^{*} \cdot x + b) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*});

3.3.2)、在线性不可分的情况下，增加一个松弛项ξ_i≥0，分类条件变成

y_i(w·x_i+b)-1+ξ_i≥0 i＝1，2，...n

最优分类面问题演化为求取下列函数的极小值：

φ (w, ξ) = \frac{1}{2} (w \cdot w) + C (Σ_{i = 1}^{n} ξ_{i})

其中C为常数，控制错分样本惩罚的程度；

\max_{α} Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i} {, y}_{i})

相应的判别函数变成：

f (x) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} K (x_{i}, x) + b^{*});

第四步、说话人识别：说话人识别可分为说话人确认和说话人辨认两方面；

A)、在说话人确认中，对于一条新的语句，经过特征提取后得到一个特征向量序列，利用说话人的支持向量机混合模型对每帧的特征向量进行打分，然后取所有帧的得分的平均值S作为此语句的得分，并将S与某个阈值T相比较，若S＞T，则接受这条语句是此说话人所说的，否则拒绝，即认为这个说话人是冒认者；

B)、在说话人辨别中，这条语句对于所有的说话人模型都进行评分，对于某个说话人来说，首先将语句的每帧的特征向量采用这个说话人的支持向量混合模型进行计分，语句所有帧得分的平均值作为这条语句在这个说话人模型上的得分，这样对每个说话人进行评分后，取最大的那个得分的说话人作为此语句的说话人。

4、根据权利要求3所述的基于混合支持向量机的说话人识别的方法，其特征在于：在语音帧上的特征提取的步骤中：语音的p阶线性预测是用过去p个时刻的语音采样值的线性组合以最小的预测误差预测下一时刻的语音信号采样值；

{\hat{s}}_{n} = - Σ_{i = 1}^{p} α_{i} s_{n - i}

E = Σ_{n = 0}^{N - p - 1} {[s_{n} + Σ_{i = 1}^{p} α_{i} s_{n - i}]}^{2};

整个计算过程具体如下：

A)、设置线性预测系数的阶数p；

B)、在一帧语音信号数据里面计算信号自相关函数：

R_{i} = Σ_{n = i}^{N} s_{n} s_{n - i}

C)、计算此帧计算协方差函数：

Ψ_{ik} = Σ_{n = 0}^{N - 1} s_{n - i} s_{n - k}

D)、将上面两步中的结果代入下面方程：

[\begin{matrix} \underset{n}{Σ} s_{n - 1} s_{n - 1} & \underset{n}{Σ} s_{n - 1} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - 1} s_{n - p} \\ \underset{n}{Σ} s_{n - 2} s_{n - 1} & \underset{n}{Σ} s_{n - 2} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - 2} s_{n - p} \\ \cdot \cdot \cdot \cdot \cdot \cdot & \cdot \cdot \cdot \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \cdot \cdot \cdot \\ \underset{n}{Σ} s_{n - p} s_{n - 1} & \underset{n}{Σ} s_{n - p} s_{n - 2} & \cdot \cdot \cdot & \underset{n}{Σ} s_{n - p} s_{n - p} \end{matrix}] [\begin{matrix} α_{1} \\ α_{2} \\ \cdot \cdot \cdot \\ α_{p} \end{matrix}] = [\begin{matrix} \underset{n}{Σ} s_{n} s_{n - 1} \\ \underset{n}{Σ} s_{n} s_{n - 2} \\ \cdot \cdot \cdot \\ \underset{n}{Σ} s_{n} s_{n - p} \end{matrix}]

其中∑是对n＝0～N-p-1求和；

E)、计算线性预测倒谱特征：

LPC倒谱特征c_i(i＝1，2，...，p)可以通过下面等式获得：

\{\begin{matrix} c_{1} = α_{1} \\ c_{n} = Σ_{k = 1}^{n - 1} (1 - \frac{k}{n}) α_{k} c_{n - k} {+ α}_{n}, (1 < n \leq p) \end{matrix} .

5、根据权利要求3所述的基于混合支持向量机的说话人识别的方法，其特征在于：采用距离模型对说话人的所有支持向量机的输出进行组合：

S = \frac{1}{T} Σ_{i = 1}^{T} \max_{j} (d (x_{i}, {SVM}_{j}))

其中的d为帧向量在SVM上的软输出：

d (x_{i}, {SVM}_{j}) = \underset{k}{Σ} (α_{jk} y_{jk} k (x_{jk}, x_{i})) + b_{jk} .

6、根据权利要求3所述的基于混合支持向量机的说话人识别的方法，其特征在于：采用概率混合模型对说话人的所有支持向量机的输出进行组合：

对于一个帧向量，它的得分采用概率的表达方式为

p (x | λ) = Σ_{i = 1}^{M} w_{i} p_{i} (d (x, {SVM}_{i}))

其中d为帧向量在SVM上的软输出，将其转化为概率输出：

p (d) = \frac{1}{1 + \exp (Ad + B)}

其中A和B为参数；

权重w的值定义为：

这样对于整条语句，其得分值S为：

S = \log p (X | λ) = Σ_{t = 1}^{T} \log (p (x_{t} | λ)) .