CN108335699A

CN108335699A - 一种基于动态时间规整和语音活动检测的声纹识别方法

Info

Publication number: CN108335699A
Application number: CN201810050276.9A
Authority: CN
Inventors: 唐滢淇; 董树锋
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-01-18
Filing date: 2018-01-18
Publication date: 2018-07-27

Abstract

本发明公开了一种基于动态时间规整和语音活动检测的声纹识别方法，首先，采用语音活动检测方法录制语音，并对语音进行裁剪处理，滤除空白语音和异常语音；然后计算所得样本的梅尔倒谱系数，提取目标语音的特征；再者，录制模板语音，并使用动态时间归整算法计算差异度；最后所述语音录制方法录制待识别语音，并使用所述目标语音特征提取方法提取语音特征，再将目标语音逐一与已存在的模板语音进行比对，实现声纹识别的目标。与现有的声纹识别方法相比，本发明提出的声纹识别方法不需要过多的语音样本来建立声纹识别模型，同时对于低性能处理器和便携式设备友好，能够加快识别速度，减少资源占用，实现声纹离线识别。

Description

一种基于动态时间规整和语音活动检测的声纹识别方法

技术领域

本发明属于机器学习和人工智能中的声纹识别技术领域，涉及动态时间规整算法领域和语音活动检测方法领域；具体涉及一种能在便携式平台或低性能处理器上快速进行声纹识别的技术。

背景技术

声纹识别是生物识别技术的一种，也称为说话人识别。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号，再用计算机进行识别的一种技术。

声纹识别包括两个关键问题，一是特征提取，二是模式匹配。然而，目前使用的大多数声纹识别方法中，在模式匹配环节采用较为复杂的神经网络、隐式马尔可夫模型(Hidden Markov Model，HMM)或多项式分类器等方法，这些方法首先需要占用较多的处理器资源和内存资源，其次，这些方法在训练阶段需要提供大量的语音数据，通过反复计算才能得到模型参数。对于便携式设备或低性能处理器无法满足快速建立模型并且识别的要求，再者，一些常用命令可以归于孤立词的范围，使用所述较为复杂的神经网络算法处理孤立词语音，会造成资源的极大浪费，可行性不强。

针对这一性能上的缺失，已经有人提出使用动态时间归整(Dynamic TimeWarping，DTW)算法解决孤立词语音识别的问题，DTW算法是一种衡量两个长度不同的时间序列的差异度的方法，主要应用在模板匹配中，例如数据挖掘和信息检索等领域。所述动态时间规整算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别中经典的一种算法。在DTW算法的训练中几乎不需要额外的计算，所以在孤立词语音识别中，DTW算法仍然得到广泛的应用，同时它也满足便携式设备和低性能处理器对于语音识别的需求。

尽管如此，在输入语音信号过长、录制语音中空白部分多或者录制语音过程出错的情况下，采用特征提取得到的声纹特征矩阵较大，在DTW算法的运算过程中消耗处理器的资源过多，且识别速度过慢，不能满足便携式设备或者低性能处理器对于声纹快速识别的需求。

与此同时，也有人提出使用“云计算”等互联网分布式计算模式实现声纹识别，但是考虑到目前便携式设备或低性能处理器多不具备网络连接功能，接入互联网的成本太大，因此更需要一种离线的快速声纹识别方法。

总的来说，当前的声纹识别技术要么采用的是复杂的深度学习神经网络算法，需要的语音样本过多，消耗资源过大，建立识别模型需要的时间过长；要么采用的是单纯的动态时间规整算法，对于异常语音或空白语音不能有效地加快识别速度，处理性能较低；要么需要连接互联网，不便于离线的快速声纹识别。这些缺点和不足，使得对声纹识别方法的综合改进成为本发明的核心。

发明内容

为了解决传统声纹识别方法中存在的问题和不足，本发明设计了一种新的声纹识别方法，以减小所述模式匹配部分算法的运算量，达到加快声纹识别速度，提高声纹识别准确性，降低声纹识别过程中对于处理器和内存资源的消耗，减少声纹识别模型建立过程中对于语音样本的需求度，并应用于便携式设备和低性能处理器的目的。

本发明的目的是通过以下技术方案来实现的：一种基于动态时间规整和语音活动检测的声纹识别方法，其特征在于，包括以下步骤：

步骤1：采用语音活动检测(又称静音抑制，Voice Activity Detection，VAD)方法录制语音，并对语音进行裁剪处理，滤除空白语音和异常语音，获得语音样本；

步骤2：计算步骤1所得样本的梅尔倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)，提取上述语音样本的特征，即获得语音样本的二维矩阵；

步骤3：反复进行步骤1、2共至少3次，获得至少三个语音样本二维矩阵，使用动态时间归整算法计算两两之间的最短距离，即差异度，判断所有获得的差异度之中的最大值是否小于预先设定的阈值A，若满足小于则记录差异度最小的两个模板特征矩阵，否则重新开始步骤3。

步骤4：使用步骤1所述方法录制目标待识别语音，获得待测语音样本，使用步骤2所述方法提取上述待测样本的特征，再将目标语音逐一与经步骤3后获得的模板特征矩阵进行比对，采用动态时间归整算法计算目标语音和正在比对的模板语音的最短距离，即差异度，判断差异度是否小于预先设定阈值B，若小于，则退出判断，所述目标语音和正在比对的模板语音相匹配，确定相应声纹的匹配，达到声纹识别的目标。若不满足上述条件，则继续将目标语音与下一模板语音进行比对，直到完成与所有语音模板的比对。

所述的阈值A及阈值B依据经验值设定，且该值可根据实验测试结果不断调整优化。

本发明的有益效果是：

1.采用梅尔倒谱系数提取目标语音的特征，能够在相当大的程度上提取出语音的关键特征，便于后续模板匹配算法对于语音的识别和判断。

2.采用动态时间规划算法进行模板匹配，能够节省语音模型建立过程中需要的语音样本数量，极大程度方便了程序的移植和复用，节省了搜集样本所需要耗费的人力物力，减少了运算过程中需要的处理器资源和内存资源，适用于便携式设备和低性能处理器对于声纹进行快速识别和处理。

3.采用语音活动检测方法删除待处理语音中的空白部分和异常部分，进一步减少了声纹处理过程中需要的处理器资源和内存资源，加快了声纹识别速度，同时对于声纹干扰部分的过滤也在一定程度上提升了声纹识别的精准度。

附图说明

图1是本发明实施例的MFCC三角带通滤波器示意图；

图2是本发明实施例的MFCC特征参数提取过程流程图；

图3是本发明实施例的DTW算法累计矩阵路径示意图；

图4是本发明实施例的DTW算法动态规划过程中某一步的路径选择示意图；

图5是本发明实施例的DTW算法最短距离计算程序流程图；

图6是本发明实施例的声纹识别程序总体流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施此发明，下面结合附图及实施例对本发明作进一步的详细阐述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明是一个运用梅尔倒谱系数特征提取、动态时间规整算法和语音活动检测方法的声纹识别方法，选用梅尔倒谱系数提取出来的语音特征作为动态时间规整算法的序列的组成部分，存储提取到的相似声纹模型，最后通过动态时间规整算法值来进行声纹识别检测触发动作的方法。

本发明采用前置的语音活动检测方法对录制的语音进行预处理，删除待处理语音中的空白部分和异常部分，进一步减少了声纹处理过程中需要的处理器资源和内存资源，加快了声纹识别速度，同时对于声纹干扰部分的过滤也在一定程度上提升了声纹识别的精准度。

本实施例以一次声纹模型的建立和识别的过程对本发明进行详细说明。

本实施例提供的一种基于动态时间规整和语音活动检测的声纹识别方法，包括以下步骤：

步骤1：采用语音活动检测方法录制语音，并对语音进行裁剪处理，滤除空白语音和异常语音。通过短时能量和过零率的双门限端点检测，获取经过处理的语音信号，得到语音样本。

所述语音活动检测方法采用了高斯模型，在编程过程中的具体实现方法如下：

首先，分别对短时能量和过零率设置两个门限值energy_low,energy_high和zcr_low,zcr_high，其约束条件如下：energy_high>energy_low，zcr_high>zcr_low。接着，计算一帧的短时能量和过零率，若此帧的短时能量大于设定的短时能量最小门限值，同时此帧的过零率大于设定的过零率最小门限值，则进入过渡段。随后，计算一帧的短时能量和过零率，若此帧的短时能量大于设定的短时能量最大门限值，同时此帧的过零率大于设定的过零率最大门限值，此时应该继续计算几帧短时能量和过零率才能断定语音开始。若连续几帧语音的短时能量大于设定的短时能量最大门限值，同时过零率大于设定的过零率最大门限值，并且按照上述高斯模型计算语音的概率超过阈值，则可判定语音开始。在语音录制过程中不断计算目标帧的短时能量和过零率，若此帧的短时能量大于设定的短时能量最大门限值，同时此帧的过零率大于设定的过零率最大门限值，则认为语音尚未结束。若此帧的短时能量小于设定的短时能量最大门限值，同时此帧的过零率小于设定的过零率最大门限值，则进入过渡阶段，随后，计算一帧的短时能量和过零率，若此帧的短时能量小于设定的短时能量最小门限值，同时此帧的过零率小于设定的过零率最小门限值，此时应该继续计算几帧短时能量和过零率才能断定语音结束。若连续几帧语音的短时能量小于设定的短时能量最小门限值，同时过零率小于设定的过零率最小门限值，并且按照上述高斯模型计算是噪声的概率超过阈值，则判定语音结束。此时，语音录制的一个周期完成。

针对可能出现的语音过长或语音异常的问题，加入语音长度阈值检测，当检测到语音的长度大于所设定的阈值时，丢弃此语音，并进入下一次识别过程。

步骤2：计算步骤1所得样本的梅尔倒谱系数(MFCC)，提取上述语音样本的特征，即获得语音样本的二维矩阵。梅尔倒谱系数的计算过程请见图2，采用现有的方法即可完成语音样本的特征提取。

步骤3：反复进行步骤1、2共至少3次，获得至少三个语音样本二维矩阵，使用动态时间归整算法计算两两之间的最短距离，即差异度。通过之前的梅尔倒谱系数特征提取之后，可以得到抽象为一个二维矩阵的语音信号特征。比较模板语音信号之间的差异度，计算它们之间的最短距离D[T,R]，其中T、R为待计算的两个矩阵，距离越小则差异度越低。计算所述失真距离的方法如下：

先从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号，d[n,m]表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量，在动态时间归整算法中通常采用欧氏距离。上述关系可表示为：

其中(n_i，m_i)为最佳路径在二维平面上表示时通过的格点，N为语音样本中的帧个数。η表示三个约束条件：

(n_i，m_i)＝(n_i-1，m_i-1+1)

(n_i，m_i)＝(n_i-1+1,m_i-1)

(n_i，m_i)＝(n_i-1+1,m_i-1+1)

这样可以(n₁，m₁)＝(1,1)出发搜索(n₂，m₂)，再搜索(n₃，m₃)......，对每一个(n_i，m_i)都存储相应的前一格点(n_i-1，m_i-1)及相应的帧匹配距离d[n_i，m_i]。搜索到(n_N，m_N)时，只保留一条最佳路径。

以模板语音1和模板语音2为例，通过之前的梅尔倒谱系数特征提取之后，可以分别得到抽象为一个二维矩阵的音频信号模板特征1和模板特征2。设模板特征1的特征序列为：

Voice_模板1＝{M[1],M[2],…,M[n-1],M[n]}

设模板特征2的特征序列为：

Voice_模板2＝{N[1],N[2],…,N[n-1],N[n]}

然后将两序列放入DTW矩阵中进行动态时间规整算法的失真距离计算如图3。在图3的DTW矩阵中每个小格子应当存放的是比较的两序列两两元素之间的距离，而对于这种向量与向量之间的距离表征，本实施例中采用欧氏距离。通过下面公式计算的最小距离累计值即为两个模板差异度的值：

按照所述的DTW距离计算方法计算至少3个模板语音两两之间的差异度，判断所有获得的差异度之中的最大值是否小于预先设定的阈值A，若满足则记录差异度最小的两个模板特征矩阵，否则重新开始步骤3。

步骤4：使用步骤1所述方法录制目标待识别语音，获得待测语音样本，使用步骤2所述方法提取上述待测样本的特征，再将目标语音逐一与经步骤3后获得的模板特征矩阵进行比对，采用动态时间归整算法计算目标语音和正在比对的模板语音的最短距离，即差异度，判断差异度是否小于预先设定阈值B。若小于，则退出判断，所述目标语音和正在比对的模板语音相匹配，确定相应声纹的匹配，达到声纹识别的目标。若不满足上述条件，则继续将目标语音与下一模板语音进行比对，直到完成与所有语音模板的比对。

所述的动态时间归整算法采用如图5所示的思路。

本实施例可以对声纹识别通过与否的阈值进行设定，并通过阈值与计算所得值的比较判断得到声纹识别结果。通过在树莓派(Raspberry Pi3)上编写的Python程序进行对声纹的识别测试，在声纹样本数为15时(其中有一个干扰样本)在5秒内能完成对于声纹测试样本的识别匹配，识别准确率高。本发明相对于传统的采用深度学习或马尔可夫模型的声纹识别方法，具有不依赖于声纹样本的数量，对处理器的要求较低，训练时间较短，识别准确率较高等优势。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以作出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应该以所附权利要求为准。

Claims

1.一种基于动态时间规整和语音活动检测的声纹识别方法，其特征在于，包括以下步骤：

步骤1：采用语音活动检测方法录制语音，并对语音进行裁剪处理，滤除空白语音和异常语音；获得语音样本；

步骤2：计算步骤1所得样本的梅尔倒谱系数，提取上述语音样本的特征，即获得语音样本的二维矩阵；

步骤3：反复进行步骤1、2多次，并使用动态时间归整算法计算各语音样本之间的差异度，确定模板语音；

步骤4：使用步骤1所述方法录制目标待识别语音，并使用步骤2所述方法提取该目标语音的特征，再将目标语音逐一与步骤3获得的模板语音进行比对，实现声纹识别的目标。

2.根据权利要求1所述的一种基于动态时间规整和语音活动检测的声纹识别方法，其特征在于：步骤1中，所述的语音活动检测方法采用基于短时能量和过零率的双门限检测法。

3.根据权利要求1所述的一种基于动态时间规整和语音活动检测的声纹识别方法，其特征在于：所述的步骤3具体为：

反复进行步骤1、2共至少3次，获得至少三个语音样本二维矩阵，使用动态时间归整算法计算两两之间的差异度，判断所有获得的差异度之中的最大值是否小于预先设定的阈值，若满足小于则记录差异度最小的两个模板特征矩阵，否则重新开始步骤3。

4.根据权利要求3所述的一种基于动态时间规整和语音活动检测的声纹识别方法，其特征在于：所述的使用动态时间归整算法计算两两矩阵之间的差异度具体为计算两两矩阵之间的最短距离。

5.根据权利要求1所述的一种基于动态时间规整和语音活动检测的声纹识别方法，其特征在于：所述的步骤4具体为：

使用步骤1所述方法录制目标待识别语音，获得待测语音样本，使用步骤2所述方法提取上述待测样本的特征，再将目标语音逐一与经步骤3后获得的模板特征矩阵进行比对，采用动态时间归整算法计算目标语音和正在比对的模板语音的最短距离，即差异度，判断差异度是否小于预先设定的阈值，若小于，则退出判断，所述目标语音和正在比对的模板语音相匹配，确定相应声纹的匹配，达到声纹识别的目标；若不满足上述条件，则继续将目标语音与下一模板语音进行比对，直到完成与所有语音模板的比对。