CN102664011B

CN102664011B - 一种快速说话人识别方法

Info

Publication number: CN102664011B
Application number: CN201210152435.9A
Authority: CN
Inventors: 林琳; 金焕梅; 陈虹; 姜宏; 孙晓颖; 陈建; 魏晓丽
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2012-05-17
Filing date: 2012-05-17
Publication date: 2014-03-12
Anticipated expiration: 2032-05-17
Also published as: CN102664011A

Abstract

本发明提供一种快速说话人识别方法，属于说话人识别方法该方法。结合高斯混合模型，以高斯混合模型超向量作为说话人的特征参数。将高斯混合模型超向量作为输入，设计一种一类分类的支持向量机分类器。对于N个说话人，训练N个分类器，每个分类器由一个说话人的语音样本训练得到。本发明提高了说话人识别的速度。每增加一个注册说话人，只需要为新的说话人训练一个一类支持向量机模型，使说话人识别系统有很好的扩展性。

Description

一种快速说话人识别方法

技术领域

本发明涉及一种说话人识别方法。

背景技术

说话人识别，又称为声纹识别，是以语音对说话人进行区分，从而进行身份鉴别和认证的一种生物识别技术。目前基于支持向量的说话人识别方法已成为一种主流的说话人识别方法。

对于支持向量机而言，它是一个两类分类器，当要应用到说话人识别系统中时，需要完成两类到多类分类的转化。两类支持向量机分类器可以采用两种方式实现多类分类，一种是一对一的实现方法。这种方式是比较常用的一种多类分类方式。专利CN1787075、专利CN102201237A中采用的支持向量机多类分类器就是采用这种方式实现的。对于一对一的多类分类方式，对于N个类样本，分别进行两两分类，共需要构造

个分类器。尽管每个支持向量机分类器只需要两类样本训练就可以得到，样本数据量小，但随着分类类别数的增加，需要构造的两类支持向量机分类器的数目急剧增加，使得系统的运算量和存储量大大增加，同时其判决的速度也会较慢。当加入新的类别时，由于在分类的过程中，需要两两分类，因此新增加的类别样本需要与所有的其余类样本分别再设计N个分类器，当类别数N较大时，需要重新训练分类器的个数较多，在实际的应用环境中可能导致系统更新速度慢。

另一种多类支持向量机分类器的实现采用一对多对的方式。这种方式是支持向量机最早实现多类分类的方式，对于N个类样本，构造N个分类器。每个分类器以其自己的对应的样本为正样本，剩余的所有样本作为负样本进行分类器的训练。尽管一对多的实现方法简单直观，需要构造两类支持向量机数量少，但它将所有其他类的样本作为负样本，导致正负样本不均衡，负的训练样本过大，训练时间较长。尤其是当加入新的类别时，负样本发生变化，所有支持向量机都需要重新训练，导致系统的可扩展性不好。

发明内容

本发明提供一种快速说话人识别方法，以解决上述技术存在的缺陷，以高斯混合模型超向量作为说话人的特征参数，设计一种一类分类的支持向量机分类器实现说话人识别。

本发明采用的技术方案包括下列步骤：

（一）语音信号的预处理：包括语音信号的预滤波、端点检测、预加重，分帧；

（二）特征参数提取的过程如下：

（1）提取MFCC特征参数作为说话人的第一特征参数

，

为

维矩阵，

为语音数据经预处理后的帧数，

为特征参数的维数；

（2）利用第一特征参数生成GMM超向量，首先，将第一特征参数

划分为若干个小的矩阵，每个小的矩阵包含50帧语音数据的特征参数，表示为

，

为小于或等于

的最大整数；其次，利用依次对UBM模型进行自适应，得到相应的GMM超向量特征参数

，其中UBM是一个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型，具体的过程如下：

1）UBM模型为

其中

，

、

和

为UBM模型的参数，分别表示每个高斯函数的权重、均值和协方差，M为高斯函数的个数；

按以下公式对UBM模型参数、、

进行更新

设更新后的GMM-UBM模型的参数为

、

、

，由下面的公式计算

其中

，

采用下面公式计算得到

其中

= 16；

将

、

、

作为GMM-UBM模型的参数，GMM-UBM模型表示为

；

2）将每个混合度的均值向量连接在一起形成GMM超向量

；

3）最终得到说话人的所有的GMM超向量，构成说话人的特征参数

；

（三）模型训练为每个说话人训练一个一类支持向量机模型，得到对应的判决函数，并将判决函数存入模型数据库，对于第n个说话人，模型训练的具体过程如下：

（1）输入第n说话人的一段语音，经过上述预处理和特征参数提取得到特征参数

，

表示第

个说话人的第

个特征参数，

为特征参数的个数；

（2）求解优化问题

约束于

其中

和

为变量，

，为松弛因子，

为映射函数，将上述优化问题转化为如下对偶问题：

约束于

其中

是核函数，为Lagrange系数，求解上述对偶问题得到最优解

；

（3）得到判决函数的表达式

其中，

为满足的样本；

（四）识别过程包括以下步骤：

（1）输入待识别语音，经过预处理和特征参数提取得到特征参数

，

表示带测试语音的第个特征参数，

，

为特征参数的个数；

（2）对每一个特征参数进行分类，将

依次代入入训练阶段得到的N个判决函数

中，然后根据下式进行判决：

最大值对应的即为

对应的说话人所属的类别；

对所有特征参数分类后，统计属于各个类别的特征参数的个数，将最多特征参数所属的类别作为识别结果。

本发明以高斯混合模型超向量作为说话人的特征参数；在模型训练阶段，为每个说话人训练一个分类器，每个分类器训练只需要一个说话人的语音数据，减少了计算数据量，提高了模型训练的速度；在识别阶段，输入待识别语音，经过预处理和特征参数提取得到特征参数，对所有特征参数进行分类，统计属于各个类别的特征参数的个数，将最多特征参数所属的类别作为识别结果。

本专利发明设计了一种一类分类的支持向量机分类器实现说话人识别方法，能够解决多类支持向量机分类器的实现采用一对多对的方式中存在的问题。基于一类分类的支持向量机分类器，对于N个类样本，采用N个分类器，训练每个分类器只需要该分类器对应说话人的语音数据，无需其他说话人的语音数据，避免了训练过程中正负样本不均衡的问题，减少了计算时需要的存储量和数据量。当有新的类别加入时，只需要训练新类别对应的分类器即可，不需要再进行其他分类器设计，更不需要对所有分类器进行重新设计，系统可扩展性好，更适合于说话人识别系统的实用化发展。

本专利与传统的支持向量机相比较，该方法实现说话人识别需要训练的分类器少，训练每个分类器只需一个说话人的语音数据，训练数据量少，减少了运算时间，提高了说话人识别的速度。每增加一个注册说话人，只需要为新的说话人训练一个一类支持向量机模型，使说话人识别系统有很好的扩展性。

本发明的优点在于：

1、为每个说话人训练一个分类器，每个分类器训练只需要一个说话人的语音数据，计算数据量少，训练与识别速度快。

2、每增加一个注册说话人，只需要为新的说话人训练一个一类支持向量机模型，使说话人识别系统有很好的扩展性。

3、以高斯混合模型超向量作为说话人的特征参数，在语音数据较少的情况下仍然可以取得较好的识别率。

附图说明

图1是本发明的语音信号预处理的流程图；

图2是本发明的特征参数提取的流程图；

图3是本发明的模型训练流程图；

图4是本发明的识别流程图。

具体实施方案

本发明包括以下步骤：

（一）语音信号的预处理，如图1所示，该流程包括：输入语音信号，对其进行预滤波、端点检测、预加重、分帧，预加重系数为0.95；采用汉明窗分帧，其中窗宽256个采样点，窗移128个采样点；

（二）特征参数提取流程，如图2所示，该流程包括两步：

（1）提取美尔倒谱系数(Mel-Frequency Cepstrum Coefficient)MFCC特征参数作为说话人的第一特征参数，

为

维矩阵，

为语音数据经预处理后的帧数，

为特征参数的维数；

（2）利用第一特征参数

生成GMM超向量，作为说话人的特征参数，具体步骤如下：

1)将第一特征参数

，为小于或等于

的最大整数；

2)利用

依次对通用背景模型（Universal Background Model）UBM模型进行自适应，得到相应的GMM超向量

，其中UBM是一个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型，具体步骤如下：

UBM模型为

其中

，

、

和

按以下公式对UBM模型参数、

、进行更新

设更新后的GMM-UBM模型的参数为

、

、

，由下面的公式计算：

其中，

采用下面公式计算得到：

其中

= 16；

将、

、作为GMM-UBM模型的参数，得到说话人的GMM-UBM模型

，

3)将每个混合度的均值向量

连接在一起形成GMM超向量

；

4)得到说话人的所有的GMM超向量，构成说话人的特征参数

；

（三）一种快速说话人识别方法的训练流程如图3所示，包括以下步骤：

设有N个说话人需要注册；

(1)

；

(2)输入第个说话人的一段语音，经过预处理流程和特征参数提取流程，得到特征参数

，

表示第

个说话人的第

个特征参数，

为特征参数的个数；

(3)求解如下的优化问题

约束于

其中

和

为变量，

，

为松弛因子，为映射函数，将上述优化问题转化为如下对偶问题：

约束于

其中

是核函数，为Lagrange系数，求解上述对偶问题得到最优解

；

得到判决函数的表达式

其中，为满足

的样本；

(4)将判决函数

存入模型数据库；

(5)若

，则

，执行 (2) (3) (4)；若

，训练结束；

（四）一种快速说话人识别方法的识别流程如图4所示，包括以下步骤：

输入待识别语音，经过预处理和特征参数提取得到特征参数

，表示带测试语音的第个特征参数，

，

为特征参数的个数；

设，L为N维向量；

(1)

；

(2)将特征参数

带入模型数据库中存储的各个判决函数

中，然后根据下式进行判决

即为

所属的类别；

(3)；

(4)如果

，

，执行(1) (2) (3)；否则执行下一步；

(5)采用投票决策判决，

， Label的值即为识别输出结果。

Claims

1.一种快速说话人识别方法，其特征在于包括下列步骤：

（二）特征参数提取的过程如下：

（1）提取MFCC特征参数作为说话人的第一特征参数Yc，Yc为l×d维矩阵，l为语音数据经预处理后的帧数，d为特征参数的维数；

（2）利用第一特征参数生成GMM超向量，首先，将第一特征参数Yc划分为若干个小的矩阵，每个小的矩阵包含50帧语音数据的特征参数，表示为x_t,t=1,...,fnum，fnum为小于或等于

的最大整数；其次，利用x₁,...,x_fnum依次对UBM模型进行自适应，得到相应的GMM超向量特征参数X=[X₁,...,X_fnum]，其中UBM是一个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型，具体的过程如下：

1）UBM模型为

g (x) = Σ_{i = 1}^{M} w_{i} p_{i} (x)

其中

p_{i} (x) = \frac{1}{{(2 π)}^{d / 2} {{| σ}_{i}^{2} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{T} {(σ_{i}^{2})}^{- 1} (x - μ_{i})},

w_i、μ_i和

按以下公式对UBM模型参数

进行更新

\Pr (i | x_{t}) = \frac{w_{i} p_{i} (x_{t})}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t})}

n_{i} = Σ_{t = 1}^{T} \Pr (i | x_{t})

E_{i} (x) = \frac{1}{n_{i}} Σ_{t = 1}^{T} \Pr (i | x_{t}) x_{t}

E_{i} (x^{2}) = \frac{1}{n_{i}} Σ_{t = 1}^{T} \Pr (i | x_{t}) x_{t}^{2}

设更新后的GMM-UBM模型的参数为

由下面的公式计算

{\hat{w}}_{i} = α_{w} n_{i} + (1 - α_{w}) w_{i}

{\hat{μ}}_{i} = α_{μ} E_{i} (x) + (1 - α_{μ}) μ_{i}

{\hat{σ}}_{i}^{2} = α_{σ} E_{i} (x^{2}) + (1 - α_{σ}) (σ_{i}^{2} + μ_{i}^{2}) - {\hat{μ}}_{i}^{2}

其中α_p，p∈{w,μ,σ}采用下面公式计算得到

α_{p} = \frac{n_{i}}{n_{i} + r_{p}}

其中r_p=16；

将

作为GMM-UBM模型的参数，GMM-UBM模型表示为

Λ = {{\hat{w}}_{i}, {\hat{μ}}_{i}, {\hat{σ}}_{i}^{2}}, i = 1, . . ., M;

2）将每个混合度的均值向量连接在一起形成GMM超向量

X = [X_{1}, . . ., X_{fnum];}

表示第n个说话人的第i个特征参数，m为特征参数的个数；

（2）求解优化问题

\min_{c, r, ξ_{1}, . . . ξ_{m}} r^{2} + \frac{1}{mv} Σ_{i = 1}^{m} ξ_{i}

约束于

{| | φ ({Xr}_{ni}) - c | |}^{2} \leq r^{2} + ξ_{i}

ξ_{i} &GreaterEqual; 0, i = 1, . . ., m

其中r和c为变量，ν∈(0,1)，ξ_i为松弛因子，φ为映射函数，将上述优化问题转化为如下对偶问题：

\min_{α_{1}, . . . α_{m}} Σ_{i = 1}^{m} Σ_{j = 1}^{m} α_{j} α_{j} k ({Xr}_{ni}, {Xr}_{nj}) - Σ_{i = 1}^{m} α_{i} k ({Xr}_{ni}, {Xr}_{ni})

约束于

Σ_{i = 1}^{m} α_{i} = 1

0 \leq α_{i} \leq \frac{1}{mv}; i = 1, . . ., m

其中k(x,y)=φ(x)·φ(y)是核函数，α_i为Lagrange系数，求解上述对偶问题得到最优解

（3）得到判决函数的表达式

f_{n} (x) = [- 2 Σ_{i = 1}^{m} α_{i} k ({Xr}_{ni}, y) + k (y, y)] - [- 2 Σ_{i = 1}^{m} α_{i} k ({Xr}_{ni}, x) + k (x, x)]

其中，y为满足

的样本；

（四）识别过程包括以下步骤：

（1）输入待识别语音，经过预处理和特征参数提取得到特征参数Xt=[Xt₁,...,Xt_S]，Xt_s表示待识别语音的第s个特征参数，s=1,...,S，S为特征参数的个数；

（2）对每一个特征参数进行分类，将Xt_s依次代入训练阶段得到的N个判决函数f_n(x)中，N是说话人的个数，然后根据下式进行判决：

e = \underset{n = 1, . . ., N}{\arg} \max f_{n} ({Xt}_{s})

最大值对应的e即为Xt_s对应的说话人所属的类别；