CN103985390A

CN103985390A - 一种基于伽马通相关图语音特征参数提取方法

Info

Publication number: CN103985390A
Application number: CN201410215133.0A
Authority: CN
Inventors: 马多佳; 刘孟美; 杨杨
Original assignee: Logical Science And Technology Ltd Co Of Intelligent Sound Is Pacified In Beijing
Current assignee: Logical Science And Technology Ltd Co Of Intelligent Sound Is Pacified In Beijing
Priority date: 2014-05-20
Filing date: 2014-05-20
Publication date: 2014-08-13

Abstract

本发明涉及自动语音信号处理领域，特别是一种基于听觉滤波器组相关图提取语音特征的方法。该方法的特征在于通过利用听觉滤波器相关图对表现语音共振峰和基频等特性的优势对语音信号中包含更多内容、声学特点等信息的浊音进行多通道扩展处理，这在刻画语音的声学特性方面具有克服了仅依赖于信号某一方面特性的特征集在环境发生改变时性能会急剧下降的问题。在现有的听觉模型都在表示谱包络和幅度调制的特征基础上，增加了表示相位谱（即频率调制）的信息。因此利用合适的听觉滤波器的相关图可以提高语音信号的鲁棒性。

Description

一种基于伽马通相关图语音特征参数提取方法

技术领域

本发明涉及自动语音处理领域，具体而言，是一种基于相关图语音特征参数提取方法及应用。

背景技术

语音是人类最自然、最灵活、最频繁的信息交流方式。语音中蕴含多层信息，如何自动提取这些信息便成为当前语音信号处理领域的主要研究内容。作为该领域的一个重要分支，自动从语音片段中提取表征内容、身份等信息的识别技术，在汽车导航、计算机控制、玩具等诸多领域有广泛的应用。

语音信号处理从本质上讲就是要尽可能的模拟人耳的听觉过程。而在人耳的听觉系统中，耳蜗对声音的感知一直是研究的热点之一。耳蜗通常被描述维一组带通滤波器，且滤波器组的每个频带具有尖锐的频率选择性，通过采用这样的滤波器组模拟耳蜗基底膜分频作用。研究发现，人耳听觉系统对频率调制信号非常敏感，比如警车声、救护车声就特别容易引起人耳的注意，因此，现有的听觉模型都在表示谱包络和幅度调制的特征基础上，增加了表示相位谱（即频率调制）的信息。基于伽玛函数的滤波器参数简单，阶数低，可以采用简单的时域函数实现。借用相关图的概念引入听觉滤波器相关图（Cochlear Correlogram）。所谓听觉滤波器相关图就是考虑到语音信号通过听觉滤波器后表现为多通道信号的叠加，为了动态描述各个通道滤波器在频域和时域的相互关系而引入的概念。听觉滤波器相关图特征提取方法就是通过对滤波器组的各个通道相关图所表现出来的特性对语音信号的内容等信息进行描述。

一般的语音产生模型包括三个部分：激励源，声道模型和辐射模型。在传统语音信号处理方法中，基音频率在一帧范围内被视为常数，从而浊音的激励信号可以用一个周期脉冲发生器来产生。实际上，对于语音信号，特别是有调语言的语音信号，基音频率在一帧之内也是连续变化的。考虑到语音的谐波结构与基音值的变化，浊音可以建模为一个调幅调频信号。

目前，语音信号处理的应用主要集中在语音识别和语音合成等方面，主要利用对所提取的特征进行统计分析的方法。例如语音识别和语音合成技术（基于HMM的参数合成方法）中的训练和测试两个阶段的建模和分类过程。在训练阶段的三个步骤为：前端处理，特征提取和建立模型；测试阶段的四个步骤：前端处理，特征提取，模型匹配和分数判决。通常而言，

（1）前端处理：包括语音增强、活动语音检测和语音切分等信号处理技术；

（2）特征提取：通常选择线性预测倒谱系数 (Linear Predictive Cepstral Coefficients，LPCC)、梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficient，MFCC)或感知线性预测 (Perceptual Linear Prediction，PLP)；

（3）建模方法（建立模型和模型匹配）：主流技术是隐含马尔科夫模型 (Hidden Markov Model，HMM)；

（4）分数判决：根据阈值，对分数进行比较，对HMM的输出分数进行处理，给出识别结果。

在上述过程中，特征提取作为训练和测试中基础环节，对语音信号处理的效果影响显而易见。根据人耳对不同频率的声波有不同的听觉灵敏度的特点所发展起来的MFCC为现今语音识别广泛采用的一种特征参数，它反映了人耳听觉系统的某些频率特性，但是，MFCC以及多数在语音识别中采用的特征参数由于仅反映了谱特性、缺乏时间信息，而导致对语音中迅速变化的成分（如爆破音）无法处理。另外，在语音感知中起重要作用的共振峰间的过渡，在MFCC参数中也只是间接地有所反映。由于声调或协同发音等的影响，基音和谐波都是随时间变化的，因此在计算谱包络时，若将这些变化因素体现到能量分布计算中，有望得到更具区分性的特征以改善语音识别率。目前大部分语音识别系统中所采用的声学特征，无论MFCC或是PLP，都仅仅体现了信号的幅度调制即包络特性。一般来讲，在实际的传输环境中，仅依赖于信号某一方面特性的特征集在环境发生改变时，性能会急剧下降，而若是将体现信号不同方面特性的特征结合起来，则可在环境变化时表现出较好的鲁棒性。

发明内容

本发明的目的在于：考虑到语音信号通过听觉滤波器后表现为多通道信号的叠加，为了动态描述各个通道滤波器在频域和时域的相互关系而引入听觉滤波器相关图（Cochlear Correlogram）的概念。本发明利用听觉滤波器组在时域将单通道语音分解成多个不同频段的时域信号，这相当于用单通道信号构建出不同频率成分的多通道信号。这样获得的时域信号，分别包含了基音和各个共振峰等信息。再利用听觉滤波器相关图将语音中基频和共振峰的信息提取出来。

发明的具体步骤如下：

（1.1）前端处理

包括语音增强，用于抑制背景噪声，提升语音部分的可懂度，以便后端能够更好的区分语音信号和非语音信号。采用的方法是频域的维纳滤波；活动语音检测，用于区分语音信号和非语音信号，去除非语音信号，以便后端对语音信号的识别。采用的方法有G723.1、G723.9等。语音声韵母切分，并对检测到的语音信号分帧处理，以便后续的特征提取；

（1.2）清音特征提取

在语音信号中，由于发音方式的不同，可以分为清音和浊音。清音的本质是噪声发生器，在频域上没有明显的特征表现，因此对语音的清音部分仍然采用传统的MFCC特征提取方法：提取12维MFCC基本特征和能量构成13维特征。该13维特征是静态特征，为了反映语音的动态特性，利用静态特征构造差分特征。将1阶、2阶差分特征附到静态特征后，构成用于建模的39维MFCC特征；

（1.3）浊音特征提取：

伽马通（Gammatone）滤波器是一个标准的耳蜗听觉滤波器，该滤波器的时域脉冲响应可以表示为

其中k表示滤波器输出增益，B表示滤波器的带宽，n是滤波器的阶数并决定了边缘处的斜度，f_c是滤波器的中心频率，Φ是相位，简化模型中一般取Φ= 0；

采用的Gammatone滤波器为4阶线性滤波器为例，它基于冲激响应不变法的全极点设计，输出为复值的解析信号。将若干个该类型的滤波器在等价矩形带宽（Equivalent Rectangular Bandwidth, ERB）尺度上均匀放置形成本文采用的听觉滤波器组。ERB与临界带宽紧密相关，但是不是基于传统掩蔽实验得出，因此不易被信号和掩蔽信号之间的互调所影响，而且它比MFCC所采用的尺度表现更平滑。

ERB的选择决定了脉冲响应的衰减速度，与滤波器带宽有关，而每个滤波器带宽都与人耳听觉临界频带（Critical Band，CB）有关，ERB尺度由某个频率下的ERB数目确定，从听觉心理学得到ERB与以赫兹为单位的线性频率关系为

定义：

每一个ERB通带的带宽可以定义为中心频率f_c的函数。通常会为选择几十个最多几百个滤波器叠加组成多通道Gammatone滤波器组来模拟耳蜗滤波器模型。每个Gammatone滤波器的中心频率按照ERB的关系，在30Hz至4000Hz之间分布；

听觉滤波器的相关图的定义为对每个听觉滤波器中心频率的频率响应的自相关，即：

这里，是听觉滤波器模型的输出，是窗长为的矩形窗，窗长的选择需要考虑至少包含一个基频周期。

对于浊音这种类似周期的语音信号，在听觉滤波器相关图中会在激励周期位置的中心上出现明显的峰值效应。通过对听觉滤波器相关图中的各个通道在频率方向上进行求和后这种峰值效应会被强化，而这种求和后的关系可以通过合并相关图（Pooled correlogram）显示。定义在第j帧时间在滞后时长为时的合并相关为：

应用合并相关的峰值点进行基音周期估计可以取得很好的效果。另外，合并相关峰值的大小也可以作为基频能量的度量值。同时在合并相关图上这种峰值会相隔近似相等的间隔出现，这正是语音（浊音）基频周期的位置；

听觉滤波器在接近基频谐波和共振峰的通道位置上也具有和合并相关相似的特性。合并相关加上这个信息可以用来对同样声学成分激励的滤波器通道输出进行分类。这可以通过计算两个相邻滤波器通道交叉相关矩阵来定义两个通道的相似度。因此，对第i个滤波器通道第j个时间帧定义交叉相关为：

为了确保交叉相关只反映相关图的周期特性，这里使用听觉滤波器相关经过归一化成为单位方差零均值的；

在语音浊音部分，采用听觉滤波器的交叉相关和合并相关来提取包含共振峰的12维特征以及基频信息的静态特征，其提取方法的流程与提取MFCC参数相同。并提取1阶、2阶差分特征附到静态特征后，组成39维特征。

附图说明

图1是本发明方法的流程图。

图2是本发明方法的装置图。

具体实施方式

本发明的方法在数字集成电路芯片中按以下步骤实现的。

步骤1：前端处理模块，包括语音增强子模块、活动语音检测子模块和语音切分子模块，

步骤1.1：语音增强子模块，采用频域维纳滤波，在一定程度上抑制非语音部分；

步骤1.2：活动语音检测子模块，采用G723.9，标记语音和非语音的时间索引；

步骤1.3：语音声韵母切分子模块，对语音进行声韵母切分，以便后续的特征提取。

步骤2：特征提取模块，包括提取声母（清音）特征子模块和韵母（浊音）特征子模块，

步骤2.1：提取清音部分基本特征子模块：提取12维MFCC基本特征和能量，构成13维基本特征；

步骤2.2：差分子模块，利用基本特征构造1阶和2阶差分特征，并附到基本特征后，构成39维特征；

步骤2.3：提取浊音部分基本特征子模块：利用Gammatone听觉滤波器组相关图得到12维共振峰特征和基频特征，构成13维基本特征；

步骤2.4：差分子模块，利用基本特征构造1阶和2阶差分特征，并附到基本特征后，构成39维特征。

Claims

1.一种基于听觉滤波器相关图的语音特征参数提取的方法，其特征在于，将听觉滤波器组相关图应用于语音特征提取中，从而降低语音数据中体现基频特性的韵母对色噪声的敏感性，提升系统的识别性能。

2.根据权利要求1所述的，基于听觉滤波器组相关图语音特征参数提取方法，其特征在于所述方法适用各种语音的浊音（或韵母）。

3.根据权利要求1所述的，基于听觉滤波器组相关图特征参数提取方法与语种无关。

4.根据权利要求1所述的，基于听觉滤波器组相关图特征参数提取方法适用于需要提取语音特征的各种应用，包括但不限于语音识别、语音合成以及声纹识别等应用。

5.基于听觉滤波器组相关图特征参数提取方法，其特征在于，该方法分为5个模块：清浊音切分模块、听觉滤波器组滤波器组模块、听觉滤波器组滤波器相关图谱模块、特征提取模块。