CN108922541B

CN108922541B - 基于dtw和gmm模型的多维特征参数声纹识别方法

Info

Publication number: CN108922541B
Application number: CN201810515482.2A
Authority: CN
Inventors: 邓立新; 李秀
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2023-06-02
Anticipated expiration: 2038-05-25
Also published as: CN108922541A

Abstract

一种基于DTW和GMM模型的多维特征参数声纹识别方法，包括如下步骤：S1、语音信号采样，S2、语音信号预处理，S3、语音信号特征参数提取，S4、语音信号模型训练，S5、待识别语音信号匹配识别。本发明通过在MFCC的基础上引入基音周期的方式，构造出经过改进的多维特征参数，不仅有效地提升了声纹识别的识别率，而且也避免了现有技术中因单独使用MFCC参数所造成的易被模仿的缺陷。同时，本发明采用了两步匹配识别算法，第一步运用DTW法部分匹配基音周期这个特征参数，进行初步识别，筛选掉数据库中不匹配的模板；第二步运用GMM匹配识别MFCC参数，从而在不影响识别率的前提下，极大缩减匹配识别的时间。

Description

基于DTW和GMM模型的多维特征参数声纹识别方法

技术领域

本发明涉及一种声纹识别方法，尤其涉及一种基于DTW和GMM模型的多维特征参数声纹识别方法，属于信号识别与处理领域。

背景技术

随着信息技术的快速发展和迅速普及，信息安全问题越来越受到人们的关注，如何快速、准确地认证使用者的身份，保护个人隐私和保障信息安全，也日益成为目前信息安全领域亟待解决的一个重要问题。与传统身份认证方式相比，生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特性，通过生物特征来进行身份认证，不仅认证过程快捷、方便，而且认证结果也十分准确、可靠。

在种类繁多的生物特征识别技术中，声纹识别技术可以称得上是当前最热门的生物特征识别技术之一，由于其在远程认证等应用领域中具有独特优势，因此受到了业内的持续关注。

声纹识别又可以称作说话人识别，简单来说，其基本原理是把待检测的说话人和已经建立的说话人库中所有的语音信号进行比较，并加以判断，确立是否为其中一员。目前，大多数的声纹识别系统一般都只提取梅尔倒谱系数作为说话人语音信号的特征参数，并用高斯混合模型作为模型对语音信号的进行训练和识别。

例如中国专利CN102324232A揭示了一种基于高斯混合模型的声纹识别方法及系统，步骤包括：语音信号采集；语音信号预处理；语音信号特征参数提取：采用梅尔频率倒谱系数(MFCC)，MFCC的阶数通常取为12～16；模型训练：采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM)，模型的参数初始化方法选用k-means算法；声纹辨识：将采集到的待识别语音信号特征参数与已建立的说话人语音模型进行比较，并根据最大后验概法进行判断，若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率，则识别出说话人。

虽然上述技术方案具备一定的识别性能和抗噪能力，但是仍然存在着诸多不足。具体而言，梅尔倒谱系数(MFCC)虽然可以描述语音频率结构的时间变化信息，反应出声道运动的动态特征(发音方式、发音习惯等)，但是其描述的特征很容易被模仿，在应用过程中很容易出现误判情况。此外，使用高斯混合模型(GMM)来表述说话人样本在声学特征空间中的分布,虽然在语音信号的训练和匹配识别研究中取得了很好的效果，但是其计算量较大，所需要的匹配识别时间一般都很长，这一点在实际的应用过程中也会是一项缺陷。

为了应对和解决上述问题，技术人员开始尝试将动态时间规整法(DTW) 应用于声纹识别中，动态时间规整法可以把两个不同长度的语音信号的特征进行时间上的“对齐”，进而计算其最短路径，来判断两个语音是否相似。但是目前，将这一技术应用于声纹识别还处于理论阶段，仍存在着诸多的不完善。

综上所述，人们亟待一种能够充分利用DTW模型、实现识别正确率和匹配识别时间共同优化的声纹识别方法，以满足实际的使用需要。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种基于DTW和GMM模型的多维特征参数声纹识别方法。

一种基于DTW和GMM模型的多维特征参数声纹识别方法，包括如下步骤：

S1、语音信号采样，对训练语音和来自说话人的待识别语音进行采样收集；

S2、语音信号预处理，将所采样的训练语音和待识别语音进行预处理；

S3、语音信号特征参数提取，对训练语音及待识别语音进行特征参数提取，分别提取出梅尔倒谱系数和基音周期；

S4、语音信号模型训练，对所采样的训练语音通过最大似然概率估计法得到高斯混合模型的均值、协方差矩阵和加权系数，记录得到的数据，保存相对应的高斯混合模型；

S5、待识别语音信号匹配识别，先运用动态时间规整法匹配识别待识别语音，再运用高斯混合模型来匹配识别待识别语音，得出识别结果。

优选地，所述S2包括如下步骤：

S21、对训练语音和待识别语音进行预加重，预加重表达式为，

S(n)＝S₁(n)-a*S₁(n)

其中，S₁(n)表示语音的时域的信号，a表示预加重系数；

S22、对训练语音和待识别语音进行分帧，选择帧长为25ms,帧移为 10ms，采样点个数为25；

S23、对训练语音和待识别语音进行加窗，将分得的每一帧都乘上窗函数，窗函数为海明窗，窗函数表达式为，

其中，N为分帧后的取样个数，a’表示海明窗系数；

S24、对训练语音和待识别语音进行端点检测，去除语音信号中的无声部分，采用双门限法分别计算出语音信号的短时平均能量和短时平均过零率，通过设置阈值来去除无声部分，

短时平均能量公式为

其中，E_i表示第i帧的短时能量，s(n)表示语音的时域信号，w(n)表示加窗函数，h(n)表示单位冲冲激响应，

短时平均过零率公式如下：

其中，Z_i表示第i帧的短时过零率，w(n)表示加窗函数。

优选地，所述S3包括如下步骤：

S31、对训练语音及待识别语音进行梅尔倒谱系数提取；

S32、对训练语音及待识别语音进行基音周期提取。

优选地，所述S31包括如下步骤：

S311、快速傅里叶变换，快速傅里叶变换的公式为，

其中，S_i为第i个帧的向量，N为分帧后的取样个数；

S312、三角带通滤波，所使用的三角滤波器函数表达式为，

其中，f[i]为第i个三角带通滤波的频率中心值，H_i(k)为第i个三角带通滤波的加权系数；

S313、对数变化，将三角带通滤波器处理得到的语音信号进行对数运算；

S314、离散余弦变换，离散余弦变换的表达式为，

其中，S_i表示为第i个帧向量在频域的成分表，N表示分帧后的取样个数，C_i(n)表示第i个帧的梅尔倒谱系数。

优选地，所述S32包括如下步骤：

S321、对清音和浊音识别判断，提取出浊音段；

S322、将提取得到的浊音段信号进行中心削波处理，中心削波的表达式为，

其中，C_L表示削波电平，本发明取最大幅度的53％，x表示该点的幅度；

S323、将得到的语音信号进行自相关运算，即计算峰值与原点之间的距离，得到基音周期。

优选地，所述S4中所述高斯混合模型的表达式为，

其中，ω_i表示第i个高斯分量的加权系数，Φ表示单一高斯分布函数，μ_i表示第i个高斯分量的均值，Σ_i表示第i个高斯分量的方差，x表示短时语音特征。

优选地，所述S5包括如下步骤，

S51、动态时间规整法匹配识别，以从待识别语音中提取出的基音周期作为x轴、训练语音的基音周期作为y轴，将规整函数局限在一个平行四边形内，将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为 0.5，分别将训练语音和待识别语音的头部相对齐、尾部相对齐，以点(1,1) 为起点开始行进，所经历的路线必须为0或1或2，最终到达终点,计算得出行进距离，将行进距离数据进行从小到大排序，筛选出位于前30％的训练语音作为训练模板；

S52、高斯混合模型匹配识别，将待识别语音中每一帧的梅尔倒谱系数分别与训练模板进行匹配，通过最大似然概率法得到高斯混合模型的识别结果，最后结合匹配结果得出最终识别结果。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明通过在MFCC的基础上引入基音周期的方式，构造出经过改进的多维特征参数，不仅有效地提升了声纹识别的识别率，而且也避免了现有技术中因单独使用MFCC参数所造成的易被模仿的缺陷。

同时，本发明采用了两步匹配识别算法，第一步运用DTW法部分匹配基音周期这个特征参数，进行初步识别，筛选掉数据库中不匹配的模板；第二步运用GMM匹配识别MFCC参数，从而在不影响识别率的前提下，极大缩减匹配识别的时间。

综上所述，本发明提出了一种能够充分利用DTW模型、实现识别正确率和匹配识别时间共同优化的声纹识别方法，具有很高的推广价值。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1是本发明的流程图；

图2是本发明中动态时间规整法的原理图；

图3是本发明中高斯混合模型的原理图。

具体实施方式

如图所示，本发明揭示了一种基于DTW和GMM模型的多维特征参数声纹识别方法，包括如下步骤：

S1、语音信号采样，对训练语音和来自说话人的待识别语音进行采样收集。

S2、语音信号预处理，将所采样的训练语音和待识别语音进行预处理。

S3、语音信号特征参数提取，对训练语音及待识别语音进行特征参数提取，分别提取出梅尔倒谱系数和基音周期。

S4、语音信号模型训练，对所采样的训练语音通过最大似然概率估计法得到高斯混合模型的均值、协方差矩阵和加权系数，记录得到的数据，保存相对应的高斯混合模型。

本发明所用训练语音和待识别语音数据是在实验室环境下采样的，音频格式为PCM编码，采样频率为8kHz，采样精度为16bit，保存格式为wav音频格式。一共有10组训练语音，每段长度为50s。20段待识别语音，每段长度5- 10s不等。所录制语音内容随机，并且不重复。

所述S2包括如下步骤：

S21、对训练语音和待识别语音进行预加重，预加重的目的在于弥补高频传播的能量损失，预加重表达式为，

S(n)＝S₁(n)-a*S₁(n)

其中，S₁(n)表示语音的时域的信号，a表示预加重系数。在本发明中，所述预加重系数的取值为0.95。

S22、对训练语音和待识别语音进行分帧，选择帧长为25ms,帧移为 10ms，采样点个数为25。

其中，N为分帧后的取样个数，a’表示海明窗系数。在本发明中，所述海明窗系数取值为0.45。

短时平均能量公式为

短时平均过零率公式如下：

其中，Z_i表示第i帧的短时过零率，w(n)表示加窗函数。

所述S3包括如下步骤：

S31、对训练语音及待识别语音进行梅尔倒谱系数提取。

S32、对训练语音及待识别语音进行基音周期提取。

所述S31包括如下步骤：

S311、快速傅里叶变换，快速傅里叶变换的公式为，

其中，S_i为第i个帧的向量，N为分帧后的取样个数。

S312、三角带通滤波，这一步骤的目的在于模拟人耳听觉系统，将所得语音信号划分成特定的适合人耳的频率范围。所使用的三角滤波器函数表达式为，

其中，f[i]为第i个三角带通滤波的频率中心值，H_i(k)为第i个三角带通滤波的加权系数。

在本发明的实施例中，选取20个三角带通滤波器。

S313、对数变化，将三角带通滤波器处理得到的语音信号进行对数运算。

S314、离散余弦变换，离散余弦变换的表达式为，

在本发明中，因为选取了20个三角带通滤波，所以得到了20维梅尔倒谱系数，舍去首两维和末三维，将第3-17维特征参数作为MFCC参数进行保存。

所述S32包括如下步骤：

S321、对清音和浊音识别判断，提取出浊音段。

其中，C_L表示削波电平，本发明取最大幅度的53％，x表示该点的幅度。

本发明所采用的语音模型训练方法为基于高斯混合模型的梅尔倒谱系数的模型训练。S4中将提取的每一帧梅尔倒谱系数当做单一的高斯模型，对其进行加权(即设置相应的加权系数)，将单一的高斯模型转变为为高斯混合模型，通过最大似然概率估计法得到高斯混合模型的均值、协方差矩阵和加权系数。记录下这些得到的数据，即保存了语音信号对应的高斯混合模型。

所述S4中所述高斯混合模型的表达式为，

所述S5包括如下步骤，

S51、动态时间规整法匹配识别，以从待识别语音中提取出的基音周期作为x轴、训练语音的基音周期作为y轴，将规整函数局限在一个平行四边形内，将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为 0.5，分别将训练语音和待识别语音的头部相对齐、尾部相对齐，以点(1,1) 为起点开始行进，所经历的路线必须为0或1或2，最终到达终点(终点为N),计算得出行进距离，将行进距离数据进行从小到大排序，筛选出位于前30％的训练语音作为训练模板。

S52、高斯混合模型匹配识别，将待识别语音中每一帧的梅尔倒谱系数分别与训练模板进行匹配，通过最大似然概率法得到高斯混合模型的识别结果，最后结合匹配结果得出最终识别结果。即使用高斯混合模型待识别语音中梅尔倒谱系数在训练模板中的最大似然概率，再对这个识别结果进行判断(即该结果是否为基音周期检测中距离最小的)，如果相同则判断确认说话人，否则结果为陌生人。

在本发明中，将20段待识别语音都进行匹配识别，并记录下识别时间和正确性。

计算正确率的公式如下：

根据结果绘制表格，

	GMM模型匹配MFCC系数	DTW+GMM模型匹配多维特征参数
			识别时间	7.13s	3.16s
识别率	84.74％	91.25％

从上表中可明显地看出按照本发明提出的方法对语音信号进行识别，识别时间和识别率均得到了优化。

同时，本发明采用了两步匹配识别算法，第一步运用DTW法部分匹配基音周期这个特征参数，进行初步识别，筛选掉数据库中不匹配的模板。第二步运用GMM匹配识别MFCC参数，从而在不影响识别率的前提下，极大缩减匹配识别的时间。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于DTW和GMM模型的多维特征参数声纹识别方法，其特征在于，包括如下步骤：

S5、待识别语音信号匹配识别，先运用动态时间规整法匹配识别待识别语音，再运用高斯混合模型来匹配识别待识别语音，得出识别结果，包括如下步骤：

S51、动态时间规整法匹配识别，以从待识别语音中提取出的基音周期作为x轴、训练语音的基音周期作为y轴，将规整函数局限在一个平行四边形内，将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为0.5，分别将训练语音和待识别语音的头部相对齐、尾部相对齐，以点(1,1)为起点开始行进，所经历的路线必须为0或1或2，最终到达终点,计算得出行进距离，将行进距离数据进行从小到大排序，筛选出位于前30％的训练语音作为训练模板；

2.根据权利要求1所述的基于DTW和GMM模型的多维特征参数声纹识别方法，其特征在于，所述S2包括如下步骤：

S(n)＝S₁(n)-a*S₁(n)

其中，S₁(n)表示语音的时域的信号，a表示预加重系数；

S22、对训练语音和待识别语音进行分帧，选择帧长为25ms,帧移为10ms，采样点个数为25；