CN103021405A

CN103021405A - 基于music和调制谱滤波的语音信号动态特征提取方法

Info

Publication number: CN103021405A
Application number: CN2012105151719A
Authority: CN
Inventors: 韩志艳; 伦淑娴; 王健; 郭艳东; 王东; 郭兆正; 王丽君
Original assignee: Bohai University
Current assignee: Bohai University
Priority date: 2012-12-05
Filing date: 2012-12-05
Publication date: 2013-04-03

Abstract

一种基于MUSIC和调制谱滤波的语音信号动态特征提取方法，其主要包括：语音信号预处理、MUSIC谱估算、调制谱滤波、调制谱能量和计算、对数能量计算（Log）及离散余弦变换（DCT）。由于调制谱具有时频集聚性，它不仅可以充分地反映语音之间的动态特征而且对语音环境的敏感度较低，所以根据干扰信号与语音信号在调制信息中不同的反映，采用基于多信号分类法谱估算技术，并对得到的MUSIC谱进行调制谱滤波，然后提取其倒谱系数作为特征参数。与现有方法相比，具有很好的鲁棒性，不仅使语音识别系统的识别率有了显著的提高，而且对语音信号的后续研究起到了很好的铺垫作用。

Description

基于MUSIC和调制谱滤波的语音信号动态特征提取方法

技术领域

本发明涉及一种汉语音信号动态特征参数提取方法，特别涉及一种基于MUSIC和调制谱滤波的语音信号动态特征参数提取方法。

背景技术

语音识别最基础最重要的开发环节是语音信号特征参数的提取。早在上世纪40年代，R.K.Potter等人提出了“Visible Speech”的概念，指出语谱图对语音信号有很强的描述能力，并且试着用语谱信息进行语音识别，这就形成了最早的语音特征。到了50年代，人们发现要对语音信号进行识别就必须从语音波形中提取能够反映语音特性的某些参数，这样不仅可以减小模板数目、运算量及存储量，而且可以滤除语音信号中无用的冗余信息，于是就出现了幅度、短时帧平均能量、短时帧过零率、短时自相关系数等。随着识别技术的发展，人们发现时域中的特征参数其稳定性和区分能力都不是很好，于是开始利用频域参数作为语音信号的特征，比如基音周期、共振峰频率、线性预测系数(LPC)、线谱对(LSP)、倒谱系数等，目前使用最为广泛的特征参数是基于人耳听觉模型的美尔倒谱系数(MFCC)。但是这些参数一旦应用于噪声环境时，其性能会急剧下降。

而且上面所提出的特征参数都反映语音的静态特征，语音信号的动态特性是指从连续几帧语音中提取的特征参数，比如可以通过静态特征的差分参数和加速度参数来获取，但差分参数和加速度参数并不能将动态信息挖掘得很充分，所以它们尚不能很好地反映语音信号的动态特性。

发明内容

本发明所要解决的技术问题是提供一种简单且高鲁棒的基于MUSIC和调制谱滤波的语音信号动态特征参数提取方法，通过使用该方法，使语音识别系统的性能在低信噪比环境下有了显著的提高。

本发明的技术解决方案是：

一种基于MUSIC和调制谱滤波的语音信号动态特征提取方法，包括以下步骤：

1、语音信号预处理

通过麦克风输入语音信号，由处理单元采样量化后获得相应语音数据，然后进行预加重、分帧加窗和端点检测；

2、MUSIC谱估算

根据矩阵理论，获得预处理后每帧数据向量的自相关矩阵特征值和特征矢量，将特征矢量空间分解为信号子空间和噪声子空间，进而根据这两个空间之间的正交关系来估算信号谱，其功率谱函数为：

其中，ω为频率；

为数据自相关矩阵的特征矢量，

， N为帧长，设定

所张成的线性空间为信号子空间，

所张成的线性空间为噪声子空间，

；，

是虚数单位，

为常数，近似值为2.7；

3、调制谱滤波

调制谱反映了语音谱分量随时间变化的规律，设时刻t处的语音的MUSIC谱为P_MUSIC（t，ω），其加平滑窗函数后的调制谱M^SP(ω, η)为：

其中，ω和η分别为语音频率和调制频率；W(t)为所加时间窗函数；

求得语音信号的调制谱后，再对其利用IIR滤波器进行滤波处理；

4、调制谱能量和计算

对经调制谱滤波处理后的信号，以32帧为一个处理单元，每帧信号为一个列向量，32帧信号构成一个256×32的矩阵，把矩阵同一行的数据平方相加，即为调制谱能量和，获得的列向量即为调制谱能量和向量；

5、对数能量计算（Log）

将获得的调制谱能量和取对数，即可获得对数能量和S(m)，其中0≤m＜N，N为帧长；

6、离散余弦变换（DCT）

对上述对数能量和S(m)经过离散余弦变换到倒频谱域，即可得到动态特征参数c(n)：

其中，1≤n≤L，L为设定的倒谱系数个数，L=12~16。

所述语音信号预处理时，采样量化由处理单元以11.025kHz的采样频率、16bit的量化精度进行；预加重是通过一阶数字预加重滤波器实现，其预加重滤波器的系数取值为0.93-0.97之间；以帧长N=256点的标准进行分帧，并对分帧后的数据加汉明窗处理，端点检测是利用短时能零积法进行。

所述MUSIC谱估算时，采用基于奇异值分解的方法确定数据的自相关矩阵的特征值。

所述调制谱滤波时，采用加汉明窗平滑后的结果；采用的滤波器为：

其中，z为一复变量；H(z)为滤波器的转移函数。

所述调制谱能量和计算时，采用每帧的前15帧和后16帧以及当前帧共32帧作为当前帧的调制谱计算数据。

所述预加重滤波器的系数取值为0.9375。

所述离散余弦变换时，倒谱系数个数L=12。

本发明与现有技术相比的有益效果如下：

（1）本发明获得的语音动态特征参数主要应用于计算机的听写机，以及与电话网或者互联网相结合的语音信息查询服务系统，另外还可应用在小型化、便携式的语音产品中，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面。

（2）本发明提取的是语音信号的动态特征，它具有时间相关性，揭示了语音信号前后以及相邻之间存在的密切关联，相比于传统的MFCC方法，大大提高了语音识别的性能。

（3）本发明充分的利用了调制谱的时频集聚性，它不仅可以充分地反映语音之间的动态特征而且对语音环境的敏感度较低，这样得到的特征参数鲁棒性更好。

（4）本发明采用MUSIC的谱估算技术来代替传统的谱估算方法，以观测数据为基础，将观测空间分解为信号子空间和噪声子空间，进而根据这两个空间之间的正交关系来估算空间谱。这种谱估算方法在噪声环境下检测信号的频谱其鲁棒性是相当好的。

（5）本发明采用基于奇异值分解的方法确定数据的自相关矩阵的特征值，从而避免了过去利用自相关矩阵特征根倒数所出现的不稳定现象。

附图说明

图1为本发明特征参数提取流程图；

图2为白噪声情况下参数识别性能曲线比较图；

图3为粉噪声情况下参数识别性能曲线比较图；

图4为街道噪声情况下参数识别性能曲线比较图；

图5为坦克噪声情况下参数识别性能曲线比较图；

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作详细说明：

如图1所示，该方法包括语音信号预处理、MUSIC谱估算、调制谱滤波、调制谱能量和计算、对数能量计算（Log）及离散余弦变换（DCT），具体过程如下：

一、语音信号预处理

通过麦克风输入语音信号进行采样，采样频率可以是8kHz、11.025kHz、16kHz、22.050kHz，量化精度可为8bit或16bit，本实例由处理单元以11.025kHz的采样频率、16bit的量化精度进行采样量化，获得相应语音数据，然后用一阶数字预加重滤波器实现预加重，其预加重滤波器的系数取值范围为0.93-0.97之间，本实例取0.9375。接下来以帧长N点的标准进行分帧，其帧长N的取值范围为

之间的偶数，

为采样频率，本实例取N=256，并对分帧后的数据加汉明窗处理（也可用矩形窗），再利用短时能零积法进行端点检测。所述的处理单元可采用计算机、单片机或DSP芯片等，本实例以计算机为例。

二、MUSIC谱估算

根据矩阵理论，采用基于奇异值分解的方法获得预处理后每帧数据向量的自相关矩阵特征值和特征矢量，将特征矢量空间分解为信号子空间和噪声子空间，这里前N/2个较大特征值对应的特征矢量空间为信号子空间，后N/2个较小特征值对应的特征矢量空间为噪声子空间。其功率谱函数为：

其中，ω为频率；

为数据自相关矩阵的特征矢量，

，设定所张成的线性空间为信号子空间，

所张成的线性空间为噪声子空间，

；，

是虚数单位，

为常数，近似值为2.7；由于信号子空间的特征矢量与噪声子空间的特征矢量是正交关系，当

，时，P_MUSIC（ω）将为很大的峰值，得到正弦信号频率的估算值，其中

为

个正弦信号的频率；

三、调制谱滤波

调制谱反映了语音谱分量随时间变化的规律，设时刻t处的语音的MUSIC谱为P_MUSIC（t，ω），其加平滑窗函数后的调制谱为：

其中，M^SP(ω, η)为平滑后的调制谱；ω和η分别为语音频率和调制频率；W(t)为所加时间窗函数。合理地选择平滑窗函数可对干扰有明显抑制作用，本实例选择汉明窗作为窗函数，也可采用矩形窗。

求得语音信号的调制谱后，对其利用IIR滤波器或FIR滤波器）进行滤波处理以尽可能获得对识别有用的信息，抑制干扰成分。本实例采用IIR滤波器，其滤波器的转移函数为：

其中，z为一复变量；H(z)为滤波器的转移函数。

四、调制谱能量和计算

对经调制谱滤波处理后的信号，以32帧为一个处理单元，每帧信号为一个列向量，32帧信号构成一个256×32的矩阵，把矩阵同一行的数据平方相加，即为调制谱能量和，获得的列向量即为调制谱能量和向量。本实例取32帧数据即每帧的前15帧和后16帧以及当前帧作为当前帧的调制谱计算数据。

五、对数能量计算（Log）

为了使结果对噪声和谱估算误差有更好的鲁棒性，将上述获得的调制谱能量和取对数，即可获得对数能量和S(m)，其中0≤m＜N，N为帧长，N=256。

六、离散余弦变换（DCT）

其中，1≤n≤L，L为设定的倒谱系数个数，取12~16，本实施例去L=12。

参数识别结果举例如下：

1、本实例采用50个典型的汉语词汇来进行实验。由于考虑识别系统容易受环境噪声、信道变化和说话人变化等因素的影响，所以本实例的训练集采用安静环境下的语音数据，而测试集采用含有噪声的数据。为了验证该特征参数对不同说话人变化的鲁棒性，训练集数据由前后两次录成，共50人，每人每词发音一遍，共获得5000个数据，测试集数据也是分两次录成，共30人，每人每词发音一遍，共3000个数据；为了验证该特征参数对不同信道变化的鲁棒性，每次使用不同的麦克风来录音；为了验证该特征参数对不同环境噪声变化的鲁棒性，本实例在测试集的每个语音中手工加入了四种噪声，包括：白噪声、粉噪声、街道噪声、坦克噪声，构成信噪比为15dB，10dB，5dB，0dB，-5dB的含噪语音信号，利用本实例方法获得语音动态参数。本实例采用基于遗传算法改进的小波神经网络来作为分类器，网络输入层有72个神经元，输出层有50个神经元，隐含层结点个数的通过遗传算法确定。

2、图2，3，4，5为采用与本实例相同条件的MFCC方法和本实例方法分别在白噪声、粉噪声、街道噪声和坦克噪声干扰下的系统识别性能曲线。从图中可以看出，在信噪比较低的时候，本发明方法与MFCC方法相比识别率提高了很多，这是因为利用了MUSIC谱估算技术和调制谱的原因，调制谱不仅反映了语音之间的动态特性而且对语音环境的敏感度较低。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims

1.一种基于MUSIC和调制谱滤波的语音信号动态特征提取方法，其特征是：包括以下步骤：

1.1、语音信号预处理

1.2、MUSIC谱估算

Figure 2012105151719100001DEST_PATH_IMAGE001

其中，ω为频率；为数据自相关矩阵的特征矢量，

Figure 2012105151719100001DEST_PATH_IMAGE003

， N为帧长，设定

所张成的线性空间为信号子空间，

所张成的线性空间为噪声子空间，

；

，

是虚数单位，

为常数，近似值为2.7；

1.3、调制谱滤波

1.4、调制谱能量和计算

1.5、对数能量计算（Log）

1.6、离散余弦变换（DCT）

其中，1≤n≤L，L为设定的倒谱系数个数，L=12~16。

2.根据权利要求1所述的基于MUSIC和调制谱滤波的语音信号动态特征提取方法，其特征是：所述语音信号预处理时，采样量化由处理单元以11.025kHz的采样频率、16bit的量化精度进行；预加重是通过一阶数字预加重滤波器实现，其预加重滤波器的系数取值为0.93-0.97之间；以帧长N=256点的标准进行分帧，并对分帧后的数据加汉明窗处理，端点检测是利用短时能零积法进行。

3.根据权利要求1所述的基于MUSIC和调制谱滤波的语音信号动态特征提取方法，其特征是：所述MUSIC谱估算时，采用基于奇异值分解的方法确定数据的自相关矩阵的特征值。

4.根据权利要求1所述的基于MUSIC和调制谱滤波的语音信号动态特征提取方法，其特征是：所述调制谱滤波时，采用加汉明窗平滑后的结果；采用的滤波器为：

Figure 2012105151719100001DEST_PATH_IMAGE012

其中，z为一复变量；H(z)为滤波器的转移函数。

5.根据权利要求1所述的基于MUSIC和调制谱滤波的语音信号动态特征提取方法，其特征是：所述调制谱能量和计算时，采用每帧的前15帧和后16帧以及当前帧共32帧作为当前帧的调制谱计算数据。

6.根据权利要求2所述的基于MUSIC和调制谱滤波的语音信号动态特征提取方法，其特征是：所述预加重滤波器的系数取值为0.9375。

7.根据权利要求1所述的基于MUSIC和调制谱滤波的语音信号动态特征提取方法，其特征是：所述离散余弦变换时，倒谱系数个数L=12。