CN109887510A

CN109887510A - 一种基于经验模态分解与mfcc的声纹识别方法及装置

Info

Publication number: CN109887510A
Application number: CN201910234983.8A
Authority: CN
Inventors: 罗庆; 包亚萍; 徐振宇
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-06-14

Abstract

本发明实例公开了一种基于经验模态分解与MFCC(Mel Frequency Cepstrum Coefficient，MFCC)的声纹识别方法及装置，涉及语音信号处理及计算机技术领域，该方法通过提取经验模态分解之后的语音信号的瞬时特征参数，与传统梅尔特征参数融合，构成改进特征参数用于声纹识别；该装置包括数据采集模块、高速数据传输模块、算法实现模块、数据存储模块及用户界面模块。本发明能够提高身份认证的效率及其准确性，改善系统的噪声鲁棒性，缩短响应时间的同时带来较好的用户体验。

Description

一种基于经验模态分解与MFCC的声纹识别方法及装置

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于经验模态分解与MFCC的声纹识别方法及装置。

背景技术

声纹识别技术是信息科学和人工智能的重要组成部分，分为说话人确认技术与说话人辨认技术两个方面，通常理解的都是说话人辨认技术，常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等，说话人确认技术常常应用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。声纹识别技术的关键问题有两个，一是特征提取，二是模式匹配，其中特征提取尤为重要，会直接影响到整个系统的性能

目前声纹识别涉及的语音特征常用表征包括线性预测倒谱系数 (LinearPrediction Cepstrum Coefficient，LPCC)、梅尔频率倒谱系数(MFCC)、耳蜗频率倒谱系数(Gammatone Frequency Cepstrum Coefficient，GFCC)等。其中，Mel滤波器组是模仿人耳的带通滤波器组特性而设计的，从Mel滤波器组获得的MFCCs仍然是大多数语音处理应用的基石，包括声纹识别技术。

但是MFCC主要描述声道特征，其中蕴含的语义信息往往要强于声纹信息，而且通过观察使用MFCC作为特征时，在实际具有挑战性的测试条件下，如噪声等条件下，系统性能出现明显的退化；同时目前以MFCC特征构建的声纹系统装置实现起来有较大的延时，用户声纹特征存取方面也有不足之处，这些都会影响系统性能与用户体验。

发明内容

本发明的目的在于解决上述现有技术的不足，提出一种基于经验模态分解与MFCC的声纹识别方法及装置，提高声纹识别性能，缩短系统响应时间，改善用户体验。

本发明的技术方案如下：

第一方面，本发明提供了一种基于经验模态分解与MFCC的声纹识别方法，该方法包括：

先对采集的语音信号进行梅尔特征参数提取，取39维梅尔特征参数，然后对预处理过后的语音信号进行经验模态分解，经过筛选之后得到与声纹信息有关的固有模态函数分量，对固有模态函数分量经希尔伯特分析提取瞬时特征参数，降维处理后与39维梅尔特征参数融合构成新的特征参数，用于声纹识别系统。

另一方面，本发明提供了一种声纹识别装置，该装置包括：

数据采集模块据，该模块包括：

采集子单元，用于获取用户输入的语音信号，采集时长可以设置；

预处理子单元，对语音信号预处理，同时进行基于能量的端点检测。

高速数据传输模块，该模块包括：

传输子单元，高速数据传输总线协议；

加速子单元，用于对所述语音信号的快速傅里叶变换进行加速。

算法实现模块，该模块包括：

第一计算子单元，用于计算语音信号的梅尔倒谱特征参数；

第二计算子单元，用于计算语音信号的瞬时特性参数；

融合单元，用于融合第一计算单元与第二计算单元的特征参数作为用户唯一特征标识；

判别单元，用于判定当前采集声纹特征所属用户身份。

数据存储模块，该模块包括：

文件系统单元，用于保存不同用户的数据以及系统的重复高效运行。

用户界面模块，该模块包括：

语音唤醒开关单元，检测到达到阈值的声音时自动唤醒系统；

用户界面单元，用于用户进行简单有效的声纹识别操作。

再一方面，本发明实施例还提供了一种硬件设备，包括处理器、硬化加速器、存储器和操作系统，该设备执行所述程序与指令时实现如上所述的声纹识别方法。

有益效果

本发明将通过经验模态分解自语音信号的分量提取有效地瞬时特征参数，与梅尔倒谱参数融合成新的声纹特征参数，不仅提高了声纹识别系统的效率，更有效地改善了系统的噪声鲁棒性，相比于其他特征参数有更好的效果；此外，本发明实例还公开了一种实现该系统的装置，不仅在技术层面上缩短系统响应时间，还提供了更好的用户体验。

附图说明

图1是本发明的声纹识别流程图。

图2是本发明改进的特征提取方式示意图。

图3是本发明声纹识别装置的系统功能框图。

图4是本发明硬件设备的系统单元框图。

图5是本发明用户操作及响应步骤流程图。

具体实施方式

下面结合附图对本发明创造做进一步的详细说明。

如图1所示，本发明是一种基于经验模态分解与MFCC的融合声纹识别方法。侧重于与文本相关的声纹识别，基于传统的声纹识别模式，针对特征提取阶段加以改进，主要包括三个部分：语音信号采集及预处理、特征参数提取、识别，下面将具体描述三个部分，其中传统方法部分不做赘述。

本发明具体实施步骤如下：

第一步：对语音信号采集并进行预处理

语音信号采集，是指通过麦克风等设备采集用户在有效时间段内的声音，语音信号的预处理主要包括预加重、分帧加窗、端点检测。本发明对于预加重和分帧加窗的实施方法不做详细说明，具体说明端点检测的实施。

端点检测的主要目的是从已经分帧过的语音信号中检测语音信号的起止帧，排除沉默帧的干扰，从而提高识别的精度，端点检测根据排除帧的位置具体划分为两种，一种是终点检测(End-point Detection，EPD)，目的是消除采集语音信号开头与结尾的沉默帧，另一种是语音活动检测(Voice Activity Detection， VAD)，目的是消除整个采集到的语音段中的沉默帧。对于与文本相关的声纹识别而言，VAD并不适用，因为字句的停顿同样也是声纹特征，而且本发明应用了动态时间规整(Dynamic Time Warping，DTW)匹配识别方法，由于DTW匹配特性和特性的时间序列，本发明的声纹识别方法采用EPD进行预处理。

第二步：特征参数提取，如图2所示，特征提取分为两个方面，梅尔特征参数提取和瞬时特性特征参数提取：

梅尔特征参数提取。语音信号的特征提取是声纹识别的必经步骤，它直接影响到整个系统的性能。梅尔滤波器组是基于人的听觉特性而设计的， MFCCs是在Mel标度频率域内提取出来的倒谱特征参数，它至今仍是众多语音处理应用的基石。语音信号的梅尔特征参数提取步骤如下：

(1)对预处理过后的语音信号作快速傅立叶变换，获得频谱分布信息；

其中s(t)为输入的语音信号，N为FFT点数；

(2)再求频谱幅度的平方，得到能量谱；

(3)将能量谱通过一组Mel尺度的三角形滤波器组(取24阶)；

(4)计算每个滤波器组输出的对数能量；

H_mel(k)为三角滤波器组的频率响应。

(5)经过离散余弦变换(DCT)去相关性得到MFCC系数。

第0阶倒谱系数反映的是频谱能量，一般不作为倒谱系数，用对数能量来代替。本发明取前13阶的倒谱系数，分别计算其一阶、二阶差分，组成39 维特征向量。

经验模态分解与瞬时特性特征参数提取。

经验模态分解(Empirical Mode Decomposition，EMD)具有在时域中提取信号固有模态函数(Intrinsic Mode Function，IMF)的能力，由于EMD的后验性与自适应基函数特性，它在信号分析处理领域得到了广泛认可。利用经验模态分解提取语音的瞬时特性参数步骤如下：

(1)对语音信号进行经验模态分解，筛选获取固有模态函数分量，通过限制从两个连续筛选结果计算的标准偏差SD的大小来停止筛选过程。SD通常取0.2-0.3，本发明取0.26；

(2)根据固有模态分量与语音信号之间的相关系数大小来剔除冗余的分量，获得与用户声纹信息相关的高阶分量。本发明中根据相关系数，保留了前四阶分量；

(3)从选取的四个IMF分量中利用希尔伯特变换提取瞬时能量与瞬时频率，作为声纹识别系统的特征参数。其中H代表希尔伯特变换，f_k(t)代表信号的瞬时频率，为信号的瞬时幅度平方；

(4)对提取的瞬时频率与瞬时能量(瞬时幅度平方代表瞬时能量)进行降维处理，AF_k作为瞬时特征参数；

(5)将梅尔特征参数与瞬时特征参数经零均值化与方差归一化之后融合，形成新的特征参数。

第三步：基于动态时间规整方法的识别

本发明采用动态时间规划方法(DTW)进行声纹的匹配识别，分为三个阶段：获得训练模板、获取模板阈值、根据阈值匹配当前采集用户声纹。

(1)采集重复输入的用户语音信号，一般以4-6次为宜，提取其特征参数，保存进内存中。

(2)对于提取的特征参数，采用DTW算法两两分别作为测试模板与训练模板，得出D_min为两个特征参数之间的匹配距离，获得多个D_min求其平均值作为该用户特定语段的模板阈值。

(3)当再次采集用户信号时，获得的特征参数与模板特征为一组求得匹配距离，如果小于步骤(2)得出模板阈值，则证明匹配成功，反之则匹配失败。

不同用户的不同语音段的模板可以被多次保存，删除，即不同声纹特征的阈值将存在于内存当中，通过调整模式可以完成说话人确认与说话人辨认任务，实现声纹识别功能。

进一步的，作为对上述图1、图2方法的实现，本发明实例提供了一种基于经验模态分解与MFCC的声纹识别装置，该装置实施实例与前述方法对应，下面将结合图3所示，对该装置进行详细说明，该装置包括：

数据采集模块

第一步：采集到语音数据之后首先使用FIR高通滤波器进行预加重处理，高通滤波器系统函数为H(z)＝1-uz^-1，u为预加重系数，介于0.9-1之间，一般u＝0.98；

第二步：为提取MFCCs特征向量需要对信号进行短时傅里叶变换，短时傅里叶变换需要先对语音信号分帧，取256点为一帧，每帧间隔128点，分帧操作可以通过处理器或者FIFO(First Input First Output)实现；

第三步：对每一帧加汉明窗，目的是为了减轻截断的影响，加窗操作用一个ROM保存加窗数据，之后再与数据相乘完成。

高速数据传输模块，对于大量数据的传输需要通过DMA(Direct Memory Access，直接内存存取)等方式，所以各个模块需要统一高速传输协议，如 AXIstream等协议。在获得采集模块的每帧数据之后，需要进行快速傅里叶变换操作，此部分计算量巨大，所以需要硬化，例如利用FPGA的高速并行运算特性进行运算，之后将数据传回处理器进行下一步的操作。

算法实现模块，该模块装置实施例与前述方法实施例以及图2所示对应，因此不再对前述方法实施例中的细节内容进行逐一赘述。

数据存储模块与用户界面模块，首先，必须有办法保存不同用户的数据；其次，必须方便用户多次运行。所以嵌入式操作系统是本模块的合适选择，但是由于操作系统不能直接访问底层模块的物理地址，因此涉及驱动开发，本发明装置需要三个驱动：数据传输驱动、地址分配驱动、音频采集驱动，对于驱动的具体的内容不做逐一赘述。如图4，是对图3的进一步解释，为本发明硬件设备的系统子单元框图。

如图5，为用户使用该声纹识别装置及系统响应的流程图。

第一步：采集到达到阈值的任意用户声音时，该装置自行启动；

第二步：装置启动后，首先打开各单元，如音频采集接受模块、快速傅里叶变换单元和内存分配驱动；

第三步：内存分配驱动分配物理地址，一块内存保存音频数据、一块保存快速傅里叶变换数据、一块保存声纹特征、一块保存阈值；

第四步：装置采集语音信号，进行预处理操作；

第五步：算法实现模块计算当前用户声纹特征；

第六步：装置进行模式判断，完成声纹识别操作，或者完成保存特征库及阈值操作。

本发明及装置不局限于以上实例，不以任何方式限制本发明，凡在不背离本发明原则的范围内，任何根据以上实例修改，等同替换所得到的技术方案及装置，均应包含在本发明的保护权利范围内。

Claims

1.一种基于经验模态分解与MFCC的声纹识别方法，其特征在于，先对采集的语音信号进行梅尔特征参数提取，取39维梅尔特征参数，然后对预处理过后的语音信号进行经验模态分解，经过筛选之后得到与声纹信息有关的固有模态函数分量，对固有模态函数分量经希尔伯特分析提取瞬时特征参数，降维处理后与39维梅尔特征参数融合构成新的特征参数，用于声纹识别系统。

2.如权利要求1所述的方法，其特征在于，特征提取阶段具体步骤如下：

步骤1：梅尔特征参数提取，取13阶的梅尔倒谱参数，分别计算器一阶、二阶差分，组成39维特征参数；

步骤2：对预处理过后语音信号进行经验模态分解，筛选获取固有模态函数分量，通过限制从两个连续筛选结果计算的标准偏差SD的大小来停止筛选。SD通常取0.2-0.3；

步骤3：根据固有模态分量与语音信号之间的相关系数来剔除冗余的分量，获得与用户声纹信息相关的高阶分量；

步骤4：从选取的IMF分量中利用希尔伯特变换提取瞬时能量与瞬时频率，作为声纹识别系统的特征参数。其中H代表希尔伯特变换，f_k(t)代表信号的瞬时频率，为信号的瞬时幅度平方；

步骤5：对提取的瞬时频率与瞬时能量(瞬时幅度平方代表瞬时能量)进行降维处理，AF_k作为瞬时特征参数；

步骤6：将梅尔特征参数与瞬时特征参数经零均值化与方差归一化之后融合成新的特征参数。

3.一种声纹识别装置，其特征在于，所述装置包括：

数据采集模块，用于采集用户语音数据并进行预处理；

高速数据传输模块，用于高速传输语音等数据，并进行语音信号时域到频域转化的加速，即快速傅里叶变换的加速；

算法实现模块，用于对用户语音提取融合声纹特征及识别；

数据存储模块，用于保存语音数据，以及保存多个提取的特征以待调用；

用户界面模块，用于为非开发人员的操作使用提供便利。

4.如权利要求3所述的装置，其特征在于，数据采集模块据，包括：

预处理子单元，对语音信号进行预处理，同时进行基于能量的端点检测。

5.如权利要求3所述的装置，其特征在于，高速数据传输模块，包括：

传输子单元，高速数据传输总线协议；

加速子单元，用于对所述语音信号的快速傅里叶变换进行加速；

6.如权利要求3所述的装置，其特征在于，算法实现模块，包括：

第一计算子单元，用于计算语音信号的梅尔倒谱特征参数；

第二计算子单元，用于计算语音信号的瞬时特性参数；

判别单元，用于判定当前采集声纹特征所属用户身份。

7.如权利要求3所述的装置，其特征在于，数据存储模块，包括：

文件系统单元，用于保存不同用户的数据以及系统的重复高效运行；

8.如权利要求3所述的装置，其特征在于，用户界面模块，包括：

用户界面单元，用于用户进行简单有效的声纹识别操作。

9.一种硬件设备，包括处理器、硬化加速器、存储器和操作系统，其特征在于，所述设备执行所述程序与指令时实现如权利要求1-2任一所述的声纹识别方法。