CN106782500A

CN106782500A - 一种基于基音周期和mfcc的融合特征参数提取方法

Info

Publication number: CN106782500A
Application number: CN201611215760.XA
Authority: CN
Inventors: 何兴高; 张效藩; 李蝉娟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2017-05-31

Abstract

本发明提出了一种融合基音周期和Mel倒谱参数的融合特征参数PITCHMFCC。通过增加Mel倒谱参数的维度来提高声纹识别效率的方法。基音周期是基于人体发声结构提出，而Mel倒谱参数通过人耳听觉结构提出，结合这两种特征得到的混合特征参数更符合人体生理结构。方法是通过每一帧语音数据获得该帧语音的Mel倒谱参数，Mel倒谱参数的一阶差分参数，二阶差分参数以及该帧的说话人基音周期参数。将这四个参数结合成一个(3L+1)维的特征矢量。这样更逼近语音的动态特征和人体的生理结构，可以提高声纹识别的效率。

Description

一种基于基音周期和MFCC的融合特征参数提取方法

技术领域

本发明提出了一种利用基音周期特征参数来增加Mel倒谱参数维度进而提高声纹识别效率的方法。使用此方法提取的语音特征更具动态性，同时此特征参数结合了人体的发声结构及听觉结构，可以提高声纹识别的效率。

背景技术

近年来人们对隐私安全越来越重视，单一的字符型密码已经无法满足人们的需求，从而致使声纹、指纹、虹膜等生物特征识别快速发展。而声纹因为其易获取，低成本的特性获得了很大的重视，市场需求极其广泛。但是声纹识别同时也有一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响；比如不同的麦克风和信道对识别性能有影响；比如环境噪音对识别有干扰；又比如混合说话人的情形下人的声纹特征不易提取等等。因此寻找更有效的语音特征成为了声纹识别的首要任务。本方法结合了较为常用的两个语音特征基音周期和MFCC(Mel Frequency Cepstral Coefficents梅尔频率倒谱系数)。基音周期是根据人体发声器官提取的特征，获取容易，但是人体在情绪发生变化或者生病的时候声道会发怔变化，因此基音周期是不稳定的。所以我们又引入了相对更加稳定的Mel频率倒谱参数(MFCC)。Mel频率是基于人耳听觉特性而提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征，代表根据人体声音的接收器官提取出的特征。而Mel频率倒谱参数(MFCC)是由每一帧的语音信号得到的，仅代表了该帧的特征，不具动态性，所以一般会在提取出Mel频率倒谱参数(MFCC)的基础上，再次提取其一阶差分，二阶差分，将所得的三种特征结合起来作为新的MFCC特征，使之具有动态特性。大体流程如图1所示。本方法结合语音的发声结构和听觉结构，可以获得更好的识别效果。

发明内容

本发明最终目的是基于两种声纹特征融合Mel倒谱参数及其一阶偏导，二阶偏导以及基音周期从而生成一个3L+1维度的矢量，结合语音的发声结构和听觉结构，从而获得更好的识别效果。

为实现上述目的，本发明的实施方案如下：

1)获得单人语音数据；

2)对语音数据进行预处理，包括预加重，分帧加窗等；

3)提取第一帧语音数据，并用自相关法获得其基音周期参数P；

4)计算获得第一帧语音数据的MFCC特征参数M；

5)判断如果不是最后一帧的话则计算下一帧的基音周期和MFCC参数；

6)遍历到最后一帧，获得每一帧的基音周期和MFCC参数；

7)根据每一帧的MFCC特征参数计算其一阶偏导F；

8)根据上一步获得的MFCC特征参数的一阶偏导，计算其二阶偏导S；

9)将每一帧的MFCC参数及其一阶偏导，二阶偏导和对应基音周期结合成3X+1维的矢量作为该帧的混合特征参数；

10)后续处理，如训练和识别；

附图说明

图1是本发明所述的基于基音周期和MFCC的融合特征参数获取流程示意图。图2是获取本发明所述基于基音周期和MFCC的融合特征参数的具体流程图。

具体实施步骤

下面结合说明书附图中的图1和图2及具体实施方式对本发明做进一步详细说明。需要注意的是，实施步骤中会省略部分已知的功能和描述，而着重突出对本发明的描述。

图2是本发明基于基音周期和MFCC的融合特征参数的具体处理过程。首先对语音数据进行预加重处理去除低频，从而突出语音的高频特性。然后进行分帧加窗处理，根据语音的短时平稳性取10‐30ms一帧，帧间重叠1/2帧长或1/3帧长，再乘上每帧的窗函数来增加语音帧之间的连续性。

然后对预处理后的语音进行处理分别提取基音周期和MFCC参数，具体步骤如下：

1)提取一帧语音数据

2)根据自相关函数计算各帧的基音周期，其中S_n(m)是加窗后的语音信号，k是采样点间隔个数，m是采样点数。

3)对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱，并对语音频谱平方得到语音信号功率谱。

4)定义一个有M(22‐26)个带通三角滤波器的滤波器组，将功率谱通过该滤波器组从而将频谱平滑化。

5)计算每个滤波器组输出的对数能量，然后将上述对数能量带入离散余弦变换(DCT)，DCT公式如下：求出L阶的MFCC参数。此时得到了每一帧的MFCC和基音周期参数。

标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。因此再求的MFCC的一阶差分以及二阶差分参数。最后将一帧的基音周期，MFCC,一阶差分及其二阶差分组合起来就得到了3L+1维的融合特征矢量PITCHMFCC。而一段语音有X帧，则可以得到X*(3L+1)维的一个矩阵。并可用于后续的训练和识别过程。

上述描述了本发明PITCHMFCC具体实施步骤，以便本领域技术研究所人员理解本发明，但应清楚本发明不局限于具体实施方式的范围，对于各种利用本发明构思的发明均在保护之列。

Claims

1.特征参数的提取是声纹识别中最重要的一个环节，一种基于是基音周期和MFCC的融合特征参数提取方法，其特征在于，包括如下步骤：

a.获得单人语音数据；

b.对语音数据进行预处理，包括预加重，分帧加窗等；

c.提取第一帧语音数据，并用自相关法获得其基音周期参数P；

d.计算获得第一帧语音数据的MFCC特征参数M；

e.判断如果不是最后一帧的话则计算下一帧的基音周期和MFCC参数；

f.遍历到最后一帧，获得每一帧的基音周期和MFCC参数；

g.根据每一帧的MFCC特征参数计算其一阶偏导F；

h.根据上一步获得的MFCC特征参数的一阶偏导，计算其二阶偏导S；

i.将每一帧的MFCC参数及其一阶偏导，二阶偏导和对应基音周期结合成3X+1维的矢量作为该帧的混合特征参数。

2.如权利要求1所描述的一种基于是基音周期和MFCC的融合特征参数提取方法，其特征在于，所述步骤i包括：

i1.根据步骤a‐h，每一帧语音数据都能得到的L(L处于12到16之间)维静态MFCC特征参数，L维(与MFCC静态参数等维)的一阶差分和二阶差分动态参数以及1维基音周期参数。

i2.将四种参数结合在一起组成3L+1维的PITCHMFCC特征参数。

i3.将此融合参数用于后续的训练和识别。