CN108806697A

CN108806697A - 基于ubm和svm的说话人身份识别系统

Info

Publication number: CN108806697A
Application number: CN201710302853.4A
Authority: CN
Inventors: 申子健; 徐波; 陈爱月
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2018-11-13

Abstract

基于UBM和SVM的说话人身份识别系统。系统包括：语音格式转换，目的是将原始的语音信号转为适合开发环境的格式；均值特征向量提取系统，目的是便于应用于SVM的计算环境；向量机得分计算系统，主要功能是完成测试语音和训练语音的匹配，从而确定说话人的身份。

Description

基于UBM和SVM的说话人身份识别系统

技术领域

本发明涉及到不基于文本的说话人身份识别。

背景技术

近年来，各种身份识别方式层出不穷，常见的有人脸识别、指纹识别、语音识别等，这些都是为了识别身份，所谓身份识别技术，就是建立在一定的科技手段上，利用一些模型、算法，并借助于高端设备对人的身份进行鉴定识别。

手机的屏幕解锁采用指纹识别，登录支付宝账户采用人脸识别，但不管是哪一种识别技术，都不能保证百分之百的准确率，只能通过不断提高科技手段，算法复杂度，来提高识别准确率。说话人身份识别就是基于语音识别的技术，识别说话人身份。

与文本无关的说话人身份识别已经从基于高斯混合模型(GMM)的方式变为利用i-voctor特征参数来进行研究的方式，可以把这种变化看成是从概率模型计算到高维向量的转变。

在研究GMM模型的过程中，我们对采集的语音信号进行特征提取，计算中使用的主要算法包括极大似然估计算法(EM)，用于求取通用背景模型(UBM)的GMM，还有最大后验准则(MAP)的方式，用于求取说话人的GMM，最后用后验概率计算说话人得分，该方法又称为GMM-UBM。

对于语音信号，我们的前段处理主要包含两个部分，分别为求取Mel倒谱系数，以及进行HTK封装。目的是将模拟语音信号转为数字信号，为后续的识别过程做基础。

极大似然估计算法(EM)是另外一种求估计的方法，首先由德国数学家C.F.Gauss(高斯)在1821年提出，但这个方法通常被归功于英国的统计学家R.A.Fisher(罗纳德·费希尔)，他在1922年的论文On the mathematical foundations of theoreticalstatistics,reprinted in Contributions to Mathematical Statistics(byR.A.Fisher),1950,J.Wiley&Sons,New York中再次提出了这个思想，并且首先探讨了这种方法的一些性质，极大似然估计这一名称也是费希尔给的，这种方法目前仍然得到广泛地应用。

通用背景模型(UBM)是由大量的冒认者语音使用EM算法训练得到的，因为UBM模型的训练来自大量不同的说话人，因而可以认为UBM模型是一个与任何一个单独的说话人都无关的模型。

最大后验准则算法(MAP)可以看成是在EM算法的基础上利用UBM模型完成对少量语音的GMM求解，在语音识别领域应用广泛，当我们采集同一个说话人的少量语音数据后，就可求出这些语音的GMM参数。Mel倒谱系数Mel-scaled Cepstrum Coefficients(MFCC)的目的是模拟人的听觉系统来描绘语音信号的特征，主要步骤有预加重，分帧加窗处理，各帧信号的FFT变换以及滤波等步骤。

HTK格式主要是针对语言文件和语音标签数据文件的处理，是在工程中建立隐性马尔科夫模型(HMMS)的工具，比较适合在基于GMM的识别中使用，同时在MATLAB的研究环境下配有voicebox工具箱来进行格式转换。

发明内容

本发明的至少一个目的在于提供一种说话人身份识别的计算方式，至少能克服上述现有技术的缺点和不足，以提高说话人身份识别的准确度。

本发明的一个实施例是一种说话人身份识别的算法系统，可以在计算机上进行仿真实，包括语音数据输入部分，将输入的语音转为标准的HTK格式。还包括识别过程，能够将语音库的说话人和外部输入的测试语音进行识别，可以提高对库中说话人的识别精度。

在说话人身份识别的系统中，还应包括语音数据均值向量化的过程，并且结合一套基于SVM算法的识别方式。

在说话人身份识别的算法系统中，说话人的测试语音要通过高斯混合模型、EM算法、MAP算法，转化为待处理的数据。

在说话人身份识别的算法系统中，测试语音不需要知道具体说的内容，只要有声纹特征，即可参与识别。

在说话人身份识别的算法系统中，我们选取GMM模型中的均值向量作为所要提取的数据。

在说话人身份识别的算法系统中，我们利用SVM的超平面搭建，选择的是通用背景模型(UBM)的均值向量和训练语音的均值向量进行搭建。

本发明的一个实例，是在TIMIT语音库对100名说话人实现精度较高的实验。

该方法的具体实施过程，是将输入的测试语音的均值向量投入UBM和训练语音搭建的超平面里，根据数值反馈的大小情况确定测试语音是否是训练语音的可能性。

该方法支持各种规模的数据库情况。

该方法的实质上是一个向量机的优化算法，提高计算的效率。

该方法没有严格地按照标准的向量机匹配方式，选取通用背景模型作为超平面的搭建者，主要原因是实验当中发现测试语音向量很容易偏向UBM，这是因为每次测试语音只有一句，经过MAP算法后，会造成测试语音靠近UBM。

根据本发明的实施例，能够基于一般说话人身份识别的统计方式来提高识别准确度。

附图说明

参照下面结合附图对本发明的说明，会更加容易理解本发明的以上和其它的目的、特点、和优点。在附图中，相同的或对应的技术特征或流程将采用相同或对应的附图标记来表示。

图1示出MFCC特征提取及HTK封装的流程。

图2示出数据向量化的过程。

图3示出UBM+训练语音“类”SVM搭建平面的过程。

图4示出Mel滤波器组的结构。

具体实施方式

下面参照附图来说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

发明人在对传统的基于概率模型的文本无关的说话人身份识别方法(GMM-UBM的方法)研究后了解到：这个传统的方法易受到噪音，说话人发音变化等因素的影响，降低其可靠性，且计算量比较大，运算时间比较长。

下面将结合附图详细说明本发明的具体实施方式。

采集到测试语音信号以后，首先进行MFCC特征提取与HTK封装。

图1示出MFCC特征提取及HTK封装的过程。

如图1所示，MFCC特征提取流程包括预加重、分帧、加窗、FFT变换、Mel滤波器组、对数运算。

预加重处理其实是将语音信号通过一个高通滤波器，以此来提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

分帧处理将N个语音采样点集合成一个观测单位。通常情况下N的值为256或512，两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。

加窗处理将每一帧乘以汉明窗，以增加帧左端和右端的连续性。

乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。语音信号的FFT为：

其中x(n)为输入的语音信号，N表示傅里叶变换的点数。

将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽。

图4示出Mel滤波器组的结构。

三角滤波器的频率响应定义为:

其中：

计算每个滤波器组输出的对数能量为：

经离散余弦变换(DCT)得到MFCC系数：

将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，通常取12-16。这里M是三角滤波器个数。

Matlab软件中含有一个专门进行语音信号处理的工具箱VoiceBox可以将经过MFCC处理后的语音信号转换为HTK模式，这方面有很多文献都有详细论述，发明人不再赘述。

图2示出的是求取UBM的GMM模型以及训练语音的GMM模型和将语音信号向量化的过程。

在经典的GMM-UBM中，需要完成对UBM的搭建，在一般情况下，由于搭建UBM的目的是模拟一般的语音环境，所以参与计算的语音信号较多，可以直接使用EM算法求取UBM的GMM模型。

极大似然估计算法主要分为两步。

第一步：在参与搭建UBM的样本集x以及GMM模型参数λ已知的情况下，求取样本x_i在第i个GMM模型中的后验概率，其中k表示循环次数，M为GMM混合的个数，通常取2的整数次方，例如128，256，512，1024等，一般表达式为：

第二步是在上式的基础上求解使得似然函数最大化的模型参数，对于第i个高斯模型来说主要有三个参数，分别是加权系数，均值矢量，方差矢量,D为样本个数，表达式如下：

测试语音的GMM模型则是在UBM的基础上作自适应处理，这是因为测试语音的模型往往时间较短，没有足够的数据直接进行EM算法，利用最大后验准则(MAP)使得每一个说话人可以从UBM中提取各自的GMM。

经过MAP之后对步骤【55】、【56】、【57】修正得到如下三式：

其中o表示一帧语音的特征参数，γ为权重的规整因子，为权重规划系数，为均值的规划系数，为方差规划系数。

至此，我们已经得到训练语音的GMM模型、UBM的GMM模型，以及测试语音的GMM模型。

GMM模型主要有三个参数，分别为：加权系数ω，均值矢量μ，方差矢量σ²。我们选取的是每一个是M×N的矩阵，M是GMM混合的个数，N是MFCC参数的维数。为了便于SVM的使用，我们用一个向量对进行表示，该向量的大小即为(M×N)×1，记为同理，测试语音的均值向量与训练语音也按照如此方式推导。

至此，我们已经得到测试语音的均值向量、UBM的均值向量、训练语音的均值向量，它们都是1024×40×1维的向量。

图3所示的是超平面的生成以及将测试语音投入超平面计算的分确定说话人的过程。

生成超平面的过程并没有严格地按照标准的向量机匹配方式，而是选取通用背景模型(UBM)的均值向量和训练语音的均值向量进行搭建。主要原因是实验当中发现测试语音向量很容易偏向UBM，这是因为每次测试语音只有一句，经过MAP算法后，会造成测试语音比较靠近UBM。

将输入的测试语音的均值向量投入UBM和训练语音搭建的超平面里，由于测试语音向量靠近UBM向量的程度不同，测试语音距离超平面的距离也就不同，本发明就是分别计算第n个人的测试语音向量与由第m个训练语音向量与UBM向量生成的超平面的距离来确定测试语音是否与训练语音是同一个说话人的可能性。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。

Claims

1.一个说话人身份识别系统，包括：

语音转换系统，将输入的原始语音进行格式转换，转换成符合系统运行条件的格式；

得分计算系统，能够将测试语音和原先存在的训练语音进行比对，来确定是否为说话人。

2.根据权利要求1所述的说话人身份识别系统，其中单次输入的语音一般情况下为同一个说话人所说。

3.根据权利要求1所述说话人身份识别系统，事先要对待识别的说话人进行语音库搭建。

4.根据权利要求1所述的说话人身份识别系统，输入的测试语音对其具体内容不需要事先准备，只要保证2秒以上的时长即可。

5.根据权利要求1所述的说话人身份识别系统，语音库当中的训练语音，要求每人至少要有10句的训练量。

6.根据权利要求5中的训练语音，一般情况下我们会选择让所有训练语音都在同样的标准下进行训练。

7.一种进行说话人身份识别的方法，包括：

测试语音和不同的训练语音之间计算的结果具有差异性；

通用背景模型需要有足够的语音数据支撑，理想情况下匹配程度越高，越容易说明说话人的身份，但实际情况下语音识别一般是选取概率较高的几组数据，识别精度也是一种概率模型的体现。

8.根据权利要求7所述的方法，训练语音不能直接和测试语音进行比对，主要是因为这样做计算量较大。

9.根据权利要求7所述的方法，训练语音和通用背景模型两组向量之间找到超平面之后，才能代入测试语音。

10.根据权利要求9所述的方法，选取UBM作为搭建超平面的数据来源，主要是考虑到测试语音是通过UBM进行MAP算法得到的，在向量的构造上偏向于UBM，而训练语音的不同会改变这种偏向。

11.根据权利要求10所述，当选取的训练语音和测试语音来自于同一个说话人时，会使得测试语音更接近于使用类SVM方式搭建的超平面，这是最终得分的来源。

12.根据权利要求11所述，本次实验所有的超矢量都是同一维度，我们选取的高斯混合模型的混合个数为1024，测试语音特征提取的维度为40维。