CN102324232A

CN102324232A - 基于高斯混合模型的声纹识别方法及系统

Info

Publication number: CN102324232A
Application number: CN201110267690A
Authority: CN
Inventors: 霍春宝; 张健; 赵立辉; 刘春玲; 张彩娟
Original assignee: Liaoning University of Technology
Current assignee: Liaoning University of Technology
Priority date: 2011-09-12
Filing date: 2011-09-12
Publication date: 2012-01-18

Abstract

一种基于高斯混合模型的声纹识别方法及系统，步骤如下：语音信号采集；语音信号预处理；语音信号特征参数提取：采用梅尔频率倒谱系数(MFCC)，MFCC的阶数通常取为12~16；模型训练：采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM)，模型的参数初始化方法选用k-means算法；声纹辨识：将采集到的待识别语音信号特征参数与已建立的说话人语音模型进行比较，并根据最大后验概法进行判断，若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率，则识别出说话人。该方法采用了基于概率统计的高斯混合模型，能很好的反映说话人的语音在特征空间的分布，其概率密度函数比较常见，模型中的参数易于估计和训练，而且具有良好识别性能和抗噪能力。

Description

基于高斯混合模型的声纹识别方法及系统

技术领域

本发明属于语音信号处理装置，涉及到一种用说话人的语音信号来辨识说话人身份的基于高斯混合模型的声纹识别方法及系统。

背景技术

近年来，随着信息处理与人工智能技术的广泛应用，以及人们对快速有效身份验证的迫切要求，传统密码认证的身份识别已经逐渐失去了他的地位，而在生物识别领域中，基于说话人语音的身份识别技术却受到了越来越多的人的青睐。

由于每个人的发音器官的生理差异以及后天形成的行为差异导致发音方式和说话习惯各不相同，因此用说话人的语音来识别身份成为可能。声纹识别除了具有不会遗忘、不需记忆、使用方便等优点外，还具有下列特性：首先，它的认证方式易于接受，使用的“密码”为声音，开口即得；其次，识别文本的内容可以随机，不易窃取，安全性能比较高；第三，识别使用的终端设备为麦克风或电话，成本低廉且易于和现有通信系统相结合。因此，声纹识别的应用前景非常广阔：在经济活动中，可以实现各银行的汇款、余额查询、转账等；在保密安全中，可以用指定的声音检查秘密场所的人员，其只响应特定说话人；在司法鉴定中，可以根据即时录音判断疑犯中作案者的真实身份；在生物医学中，可以使该系统只响应患者的命令，从而实现对使用者假肢的控制。

声纹识别的关键技术主要是语音信号特征参数提取和模型匹配。语音信号特征参数大体可分为两类：一类是主要体现说话人发音器官生理特性的低层特征，如根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC)，根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC)等；另一类是主要体现说话人用语习惯、发音特点的高层特征，如反映说话人语音抑扬顿挫的韵律特征(Prosodic Features)、反映说话人习惯用语中音素统计规律的音素特征(Phone Features)等。LPCC是基于语音信号的发音模型建立的，容易受到假设模型的影响，高层特征虽然有些文献中使用，但识别率并不是很高。

针对各种语音信号特征参数而提出的模型匹配方法主要有动态时间规整(DTW)法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神经网络(ANN)法等。其中DTW模型依赖于参数的时间顺序，实时性能较差，适合基于孤立字(词)的说话人识别；在VQ模型中，聚类的矢量仅用一个中心来表示，并且各个码本对距离的贡献相等，因此在语音信号很短的情况下，识别率会急剧下降。在ANN模型中，对最佳模型拓扑结构的设计的训练算法并不一定能保证收敛，而且会存在过学习的问题。GMM是在说话人的语音信号中提取出反映说话人个性的特征参数，并以此为基础根据概率统计特性建立相应的数学模型，从而有效的反映说话人的语音信号特征参数在特征空间的分布。而且其概率密度函数比较常见，模型中的参数易于估计和训练。但是在传统基于GMM的声纹识别中，模型初始参数的选取比较随机，这严重影响了系统的识别率。

发明内容

本发明要解决的技术问题是提出一种基于高斯混合模型的声纹识别方法及系统。该方法采用了基于概率统计的高斯混合模型，能很好的反映说话人的语音在特征空间的分布，其概率密度函数比较常见，模型中的参数易于估计和训练，而且具有良好识别性能和抗噪能力。

一种基于高斯混合模型的声纹识别方法，具体步骤如下：

1、语音信号的采集：以程控交换综合实验箱的话机作为采集语音信号的终端设备，通过语音卡采集语音信号；

2、语音信号的预处理：通过计算机将提取的语音信号进行分帧加窗操作，在分帧过程中一帧包括256个采样点，帧移为128个采样点，所加的窗函数为汉明窗；端点检测，采用基于短时能量和短时过零率法相结合的端点检测法；预加重，加重系数的范围为0.90~1.00；

3、语音信号特征参数提取：采用梅尔频率倒谱系数(MFCC)，MFCC的阶数通常取为12~16；

4、模型训练：采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM)，模型的参数初始化方法选用k-means算法；

5、声纹辨识：通过将采集到的待识别语音信号特征参数与库中通过上述步骤1、2、3、4已建立的说话人语音模型进行比较，并根据最大后验概法进行判断，若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则认为识别出说话人。

上述的语音信号特征参数提取步骤如下：

（1）将预处理后的语音信号进行短时傅里叶变换（DFT）得到其频谱X(k)，语音信号的DFT公式为：

(1)

其中，

为输入的以帧为单位的语音信号，N为傅里叶变换的点数，取256；

（2）求频谱

的平方，即能量谱

，然后通过Mel频率滤波器对语音信号的频谱进行平滑，并消除谐波，凸显原先语音的共振峰；

Mel频率滤波器是一组三角带通滤波器，中心频率为

，

=1，2，…，Q， Q为三角带通滤波器的个数，Mel滤波器表示如下：

(2)

（3）对滤波器组输出的Mel频谱取对数：压缩语音频谱的动态范围；将频域中噪声的乘性成分转换成加性成分，对数Mel频谱

如下：

(3)

（4）离散余弦变换(DCT)

将步骤（3）获得的对数Mel频谱

变换到时域，其结果为Mel频率倒谱系数(MFCC)，第n个系数的计算如下式:

(4)

其中，L为MFCC参数的阶数，Q为Mel滤波器的个数，L通常取12~16，Q取23~26，本发明依据实验情况取L=13，Q=25；

上述的模型训练时所采用的EM算法的具体步骤描述如下：

一个具有M阶混合分量的D维高斯混合模型(GMM)表示如下：

(5)

式中，

是混合权重，

是D维联合高斯概率分布，表示为：

(6)

式中

是均值，

是协方差矩阵，完整的GMM用

表述为：

；

一组长度为T的训练矢量序列

的似然函数函数为

：

(7)

为说话人建立GMM，就是通过EM算法训练模型的参数，实质上就是通过寻找一个模型参数，使

，然后再以新的

为当前参数进行迭代，直到模型收敛为止，收敛条件，具体步骤如下：

（1）GMM初始化：设定GMM的高斯分量的阶数M和初始模型

；

（2）E步，求期望：求解

函数

是在X已知且给定

的情况下，完成对数似然函数

对i求期望，即：

(8)

整理得

(9)

根据贝叶斯公式，求得训练数据在i的概率为：

(10)

M步，最大化：根据函数估计

；

首先计算

，由于

存在约束条件

，故引入拉格朗日因子

，并解如下方程：

(11)

得到：

(12)

计算

，因

(13)

上式中右边的第一项与参数

无关，故只需对

进行最大化：

(14)

对参数

求偏导可得：

(15)

整理得到

(16)

对参数

求偏导可得

(17)

整理得到

(18)

（3）EM算法迭代GMM

用EM算法迭代估计GMM的参数，当似然函数的值达到最大时停止迭代，即当

值相对上次迭代时的值增幅小于设定的阈值（10^-4），则迭代终止，得到最终的模型参数：

混合权重：

(19)

均值

： (20)

方差

：

(21)

上述在用EM算法训练GMM时，初始参数的选取采用改进的k-means算法，具体为：

设长度为N的M维特征矢量序列为：

, 其中第

个矢量可记为：，,它可以被看作是语音信号中某一帧参数所组成的矢量；

说话人语音信号特征矢量的分布各不相同，其中第m维矢量的方差

为：

(22)

式中，M为特征矢量的维数。

为第n个矢量的第m维参数，

为第n个矢量的平均值，第m维矢量的权值

为：

(23)

相应的基于方差的加权欧氏距离公式为：

(24)

式中，

为待分类的特征矢量

中的第m个参数，为第K个类的聚类中心；

对于初始聚类中心的选取采用欧氏距离法，计算矢量集中矢量两两之间的距离，选择距离最大的两个矢量作为两个类的聚类中心，再从剩余的矢量集中选出到两个聚类中心距离最大的矢量作为另一个类的中心，如此反复直到选出K个聚类中心。

上述的改进的K-means聚类算法的具体步骤如下：

从已有的K个聚类中心出发，利用公式，计算样本集中的矢量与各个聚类中心的距离，把剩余矢量划分到离它距离最近的类中，形成初始聚类；

按照步骤

的聚类，更新各个类的聚类中心；

以新的聚类中心为参照点不断执行步骤

和

，直到聚类中心不再变化或变化微小时停止；

得到初始GMM参数：

(25)

(26)

(27)

其中，

是第k个类的中心，

是类k的第j个矢量，

是类k中矢量总数。

上述进行离散余弦变换时，根据实验确定为L=13，Q=25。

一种基于高斯混合模型的声纹识别系统，组成如下：

语音信号采集模块、语音信号预处理模块，语音信号特征参数提取模块，语音模型训练模块和声纹识别模块。

本发明与现有技术相比的有益效果是：

采用改进的GMM作为说话人语音信号的模型，通过语音卡采集语音信号，利用语音信号处理技术对采集到的语音信号进行预处理，然后提取语音信号特征参数，利用高斯混合模型对得到的语音信号特征参数建立语音模型从而构建一个说话人识别系统。采用MFCC参数，具有良好识别性能和抗噪能力且能充分模拟人耳感知能力；采用高斯混合模型，更具有灵活性，其概率密度函数比较常见，模型中的参数易于估计和训练，而且具有良好识别性能。

附图说明

图1 是本发明的系统框图；

图2是本发明的主流程图；

图3 是EM算法训练GMM流程图；

图4 是k-means聚类算法初始GMM参数流程图；

图5是基于高斯混合模型的声纹识别人机交互界面。

具体实施方式

如附图1所示，该基于高斯混合模型的声纹识别系统，组成如下：

如图2-图4所示，该基于高斯混合模型的声纹识别方法的具体步骤如下：

1、语音信号的采集

语音信号的采集是将原始的语音模拟信号转换为数字信号，设置通道号、采样频率，本发明采用杭州三汇公司生产的SHT-8B/PCI型语音卡进行语音信号的采集，通道号为2(语音卡默认通道号为2)，采样频率为8KHz(语音卡默认采样频率)。识别的终端设备为程控交换综合实验箱的电话机，且程控交换实验箱的的交换方式为空分交换，话路为甲二路(共四路：甲一路，甲二路，乙一路，乙二路，本发明随机选取甲二路，对实验结果无影响)。

2、语音信号的预处理

（1）加窗分帧

语音信号的时变特性决定对其进行处理必须在一小段语音上进行，因此要对其进行分帧处理，同时为了保证语音信号不会因为分帧而导致信息的丢失，帧与帧之间要保证一定的重叠，即帧移，帧移与帧长的比值一般在0~1/2之间。本发明中使用的帧长为256个采样点，帧移为128个采样点。窗函数

采用平滑特性较好的汉明窗函数，如下所示：

(28)

式中N为窗口长度，本发明为256个点。

（2）端点检测

本发明采用基于短时能量和短时平均过零率相结合的端点检测法对语音信号进行端点检测，从而判断语音信号的起始点和终止点。短时能量检测浊音，过零率检测清音。假设

为语音信号，

为汉明窗函数，则定义短时能量

为

(29)

式中，

为窗函数，

，

表示语音信号的第n个点开始加窗函数时的短时能量。

短时平均过零率为：

(30)

式中，N是窗函数长度，

是符号函数，

（3）预加重

由于语音信号的平均功率谱受到声门激励和口鼻辐射的影响，高频端大约在8000Hz以上按6dB/倍程跌落，为此要进行预加重处理以提升语音信号的高频部分，使信号的频谱变得平坦。预加重用6dB/倍程的具有提升高频特性的数字滤波器来实现，它一般是一阶的数字滤波器

，即

(31)

其中u取值在0.90~1.00之间系统的识别率最高，本发明取u=0.97。

3、语音信号特征参数提取

语音信号特征参数提取就是从说话人的语音信号中提取出能够反映说话人个性的参数，具体过程如下：

（1）将预处理后的语音信号进行短时傅里叶变换（DFT）得到其频谱X(k)。语音信号的DFT公式为：

(32)

其中，

为输入的以帧为单位的语音信号， N为傅里叶变换的点数，取256。

（2）求频谱

的平方，即能量谱

，然后将它们通过Mel滤波器，以实现对语音信号的频谱进行平滑，并消除谐波，凸显原先语音的共振峰。

Mel频率滤波器是一组三角带通滤波器，中心频率为

，

=1，2，…，Q， Q为三角带通滤波器的个数，Mel滤波器

表示如下：

(33)

（3）对滤波器组的输出取对数：压缩语音频谱的动态范围；将频域中的噪声的乘性成分转换成加性成分，得到的对数Mel频谱

如下：

(34)

（4）离散余弦变换(DCT)

将步骤（3）获得的Mel频谱

变换到时域，其结果就是Mel频率倒谱系数(MFCC)。第n个系数

的计算如下式:

(35)

其中，L为MFCC的阶数，Q 为Mel滤波器的个数，二者取值常依据实验情况来定。本发明取L=13，Q=25。

4 、模型训练

（1）基本原理

基于高斯混合模型（GMM）的声纹识别的基本原理是为说话人集合中的每一个说话人的语音信号建立一个模型，模型的参数由说话人语音信号特征参数的空间分布决定。不同说话人的语音信号特征参数的统计分布不同，因此通过比较不同的说话人的GMM，就可以判别出不同的说话人。

GMM本质上是一种多维概率密度函数的线性加权组合。一个具有M阶混合分量的D维GMM表示如下：

(36)

式中，

是混合权重，代表每个高斯分布的幅度大小，且

。

是D维的联合高斯概率分布，表示为：

(37)

上式中

是均值，代表每个高斯分布的位置，

是协方差矩阵，代表高斯分布的范围。完整的GMM用

表述为：

。在GMM中，协方差矩阵

是对角矩阵。

（2）模型训练

在发明中，为说话人建立GMM，实际上就是通过EM算法训练估计模型的参数。对于一组长度为T的训练矢量序列

，它的似然函数为

：

(38)

训练的目的就是找到一组模型参数

，使

，然后再以新的为当前参数进行迭代，直到模型收敛为止（收敛条件

）。具体步骤如下：

1）GMM初始化：设定GMM的高斯分量的阶数M和初始模型

；

2）E步，求期望：求解

函数

是在X已知且给定

的情况下，完成对数似然函数

对i求期望，即：

(39)

整理得

(40)

根据贝叶斯公式，求得训练数据在i的概率为：

(41)

M步，最大化：根据

函数估计

；

首先计算

，由于

存在约束条件

，故引入拉格朗日因子

，并解如下方程：

(42)

得到：

(43)

计算

，因

(44)

上式中右边的第一项与参数无关，故只需对进行最大化：

(45)

对参数

求偏导可得：

(46)

整理后得到

(47)

对参数求偏导可得

(48)

整理后得到

(49)

3）EM算法迭代估计GMM

用EM算法反复迭代估计GMM的参数，当似然函数的值达到最大时迭代停止，即当

值相对上次迭代时的

值增幅小于设定的阈值（10^-4），则迭代终止，得到最终的模型参数：

混合权重

： (50)

均值

：

(51)

方差：

(52)

EM算法训练GMM的流程图见附图2。

在用EM算法训练GMM时，初始参数的选取本发明采用改进的k-means算法。

设长度为N的M维特征矢量序列为：

, 其中第

个矢量可记为：，它可以被看作是语音信号中某一帧参数所组成的矢量。

为：

(53)

式中，M为特征矢量的维数。

为第n个矢量的第m维参数，为第n个矢量的平均值，第m维矢量的权值

为：

(54)

相应的基于方差的加权欧氏距离公式

为：

(55)

式中，

为待分类的特征矢量中的第m维参数，为第K个类的聚类中心。

对于初始聚类中心的选取采用欧氏距离法，计算矢量集中对象两两之间的距离，选择距离最大的两个矢量作为两个类的聚类中心，再从剩余的矢量集中选出到两个聚类中心距离最大的矢量作为另一个类的中心，如此反复直到选出K个聚类中心。

改进的K-means聚类算法的具体步骤如下：

从已有的K个聚类中心出发，利用公式，计算样本集中的矢量与各个聚类中心的距离，把剩余样本矢量划分到离它距离最近的类中，形成初始聚类；

按照步骤

的聚类，更新各个类的聚类中心；

以新的聚类中心为参照点不断执行步骤和，直到聚类中心不再变化或变化微小时停止；

得到初始GMM参数：

(56)

(57)

(58)

其中，

是第k个类的中心，

是类k的第j个矢量，

是类k中矢量总数。

k-means 聚类算法初始化GMM参数的流程图见附图3。

5、声纹辨识

对于一个声纹识别系统，若有N个说话人，其对应的M阶的GMM分别为

。在辨识阶段，给定一个待识别的语音样本的特征矢量序列

，则这段语音属于第n个说话人的最大后验概率为：

(59)

式中为所有说话人条件下特征矢量序列X的概率密度，

为特征矢量序列X是第n个人产生的条件概率，且有

(60)

为第n个人说话的先验概率，假定该语音信号出自封闭集里的每个人的可能性相等，则有：

(61)

对于一个确定的观察矢量序列X，

是一个确定的常数值，对所有的话者来说都相等，因此求取后验概率的最大值可以通过求取

获得，识别结果为：

(62)

为识别出的说话人，即判决结果。

在实际应用中，常采用对数似然函数：

(63)

因此最终的识别结果为：

(64)

本系统属于闭集识别，也就是说所有待识别的说话人都属于已知的说话人集合。说话人识别的人机交互界面如附图4所示。在声纹识别系统的人机交互界面中，“语音卡状态显示”列表视图显示当前语音卡可用的语音通道号及通道状态；“语音样本库”列表视图显示当前语音样本库中的说话人样本数目及说话人姓名。“声纹识别参数设置”一栏显示语音采集所要设置的参数，包括：训练时长(默认23s)，测试时长(默认15s)以及候选人个数(默认 1)。

如图5所示，以下结合实例进行具体说明：假设语音样本库中预先存了100个人的语音，当张XX拨通电话时，其声音如何识别的过程。

1、若张XX不属于已知的语音样本库

（1）语音信号的采集：以程控交换综合实验箱的话机作为采集语音的终端设备，通过语音卡采集语音；

首先,设置需要采集的训练语音的“训练时长”参数(范围：10-39s)，然后在姓名编辑框中添加说话人的姓名“张XX”，点击“添加说话人”按钮。添加完成后点击“确定”，然后拨通程控交换综合实验箱的电话(号码：8700)，接通后，语音卡通道2(默认为通道2)的状态更新为“录音中”，此时语音卡就可以进行采集语音。采集的语音达到预定的训练时长，电话会自动挂断；

（2）语音信号的预处理：通过计算机和VC软件结合对提取的语音信号进行分帧加窗操作，在分帧过程中一帧包括256个采样点，帧移为128个采样点，所加的窗函数为汉明窗；端点检测，采用基于短时能量和短时过零率法相结合的检测法；预加重，加重系数的值为0.97；

（3）提取特征参数：利用计算机与VC软件结合提取13阶的MFCC参数；

（4）模型训练：选用k-means算法对模型参数进行初始化,然后采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM)；

（5）说话人识别

首先,设置需要采集的测试语音的“测试时长”参数(范围：5-20s)，拨通程控交换综合实验箱的电话(号码：8700)，利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长，电话会自动挂断；

然后软件禁止“进行说话人辨识”按钮使用，对说话人的语音进行步骤（2）、（3）的操作，最后将提取的待测试的说话人的语音与库中的语音模型进行比较，点击 “进行说话人辨识”按钮，选择要显示的候选人数(范围1-3)，若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则认为识别出说话人，同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。

2、若张XX属于已知的语音样本库

若张XX属于已知的语音样本库则直接进行说话人辨识：首先,设置需要采集的测试语音的“测试时长”参数(范围：5-20s)，拨通程控交换综合实验箱的电话(号码：8700)，利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长，电话会自动挂断；

然后软件禁止“进行说话人辨识”按钮使用，对说话人的语音进行步骤（2）、（3）的操作，最后将提取的待测试的说话人的语音与库中的语音模型进行比较，点击 “进行说话人辨识”按钮，选择要显示的候选人数(范围1-3)，若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率，则认为识别出说话人，同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。