CN104778948A

CN104778948A - 一种基于弯折倒谱特征的抗噪语音识别方法

Info

Publication number: CN104778948A
Application number: CN201510212759.0A
Authority: CN
Inventors: 黄丽霞; 张雪英; 黄少龙; 王一平; 孙颖; 胡杰; 李刚; 刘雪艳; 张晓丹; 王亚楠
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2015-07-15
Anticipated expiration: 2035-04-29
Also published as: CN104778948B

Abstract

本发明涉及听觉滤波器的抗噪性能和抗噪语音识别特征提取，属于电子信息技术中的信号处理技术领域，具体涉及一种基于弯折倒谱特征的抗噪语音识别方法。针对现有滤波器带宽不满足非对称性分布，对应的提取特征无法准确表征人耳听觉特性的不足，本发明的主要目的在于提供一种基于弯折倒谱特征的抗噪语音识别方法，将WFBs（弯折滤波器组）应用于信号频谱的分析中，有效利用带宽的非对称性，充分使用一阶全通变换的弯折因子来控制频带分布，从而在不同听觉尺度上研究听觉特性滤波器的抗噪性能，提高抗噪特征的识别率。

Description

一种基于弯折倒谱特征的抗噪语音识别方法

技术领域

本发明涉及听觉滤波器的抗噪性能和抗噪语音识别特征提取，属于电子信息技术中的信号处理技术领域，具体涉及一种基于弯折倒谱特征的抗噪语音识别方法。

背景技术

语音识别系统在干净环境下识别性能良好，但在噪声环境下，识别结果则大幅降低。目前，国内外研究的热点主要集中在抗噪特征的提取和后端抗噪识别网络两大方面。而对于抗噪特征的提取，研究者们主要采用现有特征的差分改进和多种特征的拼接组合，对提取特征的前端滤波器关注不多。提取特征的前端滤波器，由一组带通滤波器构成，用来模拟人耳的听觉特性，常见的有FIR滤波器、MEL滤波器、Gammatone滤波器等。人耳具有很强的噪音鲁棒性，因此能够更好模拟人耳听觉特性的滤波器将更有利于提取抗噪特征。

耳蜗具备频率选择功能，即不同频率映射到基底膜的不同位置，因此常被认为由一组带通滤波器组成。耳蜗的频率选择性表现为：基底膜上的每一个位置对应着一个特征频率，将此频率下的纯音信号输入耳蜗时，基底膜对应位置会发生最大幅度的振动。耳蜗作为一个滤波器组，呈现以下特征：1)滤波器带宽不同：低频处的带宽较窄，而高频处带宽较宽；2)单个滤波器的频率响应非对称分布：基底膜的每个位置对应一个特征频率，该位置对此频率的响应幅度最大。特征频率的左侧斜率比较平缓，特征频率的右侧斜率较陡；3)单个滤波器的频率响应同刺激声的强度相关：基底膜的振动特性是呈压缩非线性的。

D.S.Kim早期采用窗函数设计法设计16通道的FIR滤波器，用来仿真耳蜗基底膜的作用，达到了良好的识别结果。滤波器的中心频率为f＝165.4(10^2.1x-1)，其中f是中心频率，单位Hz，x是基底膜归一化距离，0＜x＜1。滤波器的频带划分根据等值矩形带宽(Equivalent Rectangular Bandwidth,ERB)ERB＝6.23(f/1000)²+93.39(f/1000)+28.52确定，式中f是中心频率，单位Hz。但由于FIR滤波器仅满足各个滤波器带宽不同这一特征，而无法满足其他两条特征，因此仍存在改进的空间。

MEL滤波器是一组三角带通滤波器，Stevens和Volkman1940年指出，人的主观感知频域的划定是非线性的，F_mel＝1125log(1+f/700)，式中的F_mel是以美(Mel)为单位的感知频率，f是以Hz为单位的实际频率。其带宽按临界带(Critical Band)的划分，将语音在频域上划分成一系列的频率群组成了三角形的滤波器组，即Mel滤波器。其滤波器分布在MEL域是均匀分布，带宽呈对称性分布。

GT滤波器最早由Johannesma于1972年提出，用来描述猫的听神经生理学冲激响应数据的特性，通过“逆相关”法可以证明GT函数的波形与猫听觉神经数据形状是一致的。GT滤波器用一个因果的冲激响应来描述滤波器特性，其时域表达式为：g(t)＝Bⁿt^n-1exp(-2πBt)cos(2πf_it+φ)u(t)，其中B＝b₁ERB(f_i)，

u (t) = \{\begin{matrix} 1, & t &GreaterEqual; 0 \\ 0, & t < 0 \end{matrix} .

但其带宽却呈对称性分布，且频率响应无法反映与刺激声强度的关系。

发明内容

有鉴于此，针对现有滤波器带宽不满足非对称性分布，对应的提取特征无法准确表征人耳听觉特性的不足，本发明的主要目的在于提供一种基于弯折倒谱特征的抗噪语音识别方法，将WFBs(弯折滤波器组)应用于信号频谱的分析中，有效利用带宽的非对称性，充分使用一阶全通变换的弯折因子来控制频带分布，从而在不同听觉尺度上研究听觉特性滤波器的抗噪性能，提高抗噪特征的识别率。

为达到上述目的，本发明采用的技术方案如下：

一种基于弯折倒谱特征的抗噪语音识别方法，该方法利用带宽非对称性分布的弯折滤波器提取信号的倒谱特征并使用径向基神经网络进行非特定人识别，包括以下步骤：

预处理语料库语音信号，包括预加重、分帧和加窗过程；

计算信号功率谱；

弯折滤波器下进行信号功率谱映射；

对数和离散余弦变化；以及

对弯折倒谱特征进行后端径向基函数神经网络识别。

上述方案中，所述语料库语音信号预处理的步骤，具体包括：

预加重，采用预加重系数为0.9375的高通滤波器H(z)＝1-αz^-1消除口唇辐射造成的信号衰减，提升信号的高频部分；

对预加重后的信号进行分帧，一般分帧帧长为10ms～30ms，本发明中的语音采样频率为f_s＝11025Hz，帧长256样点，帧移128样点；

加窗，采用汉明窗对每帧信号x(n)进行平滑，即y(n)＝x(n)*w(n)，从而去除吉布斯效应。

上述方案中，所述计算信号功率谱的具体步骤为：采用傅里叶变换得到信号的频谱Y(ω)＝fft(y(n))＝fft(x(n)*w(n))，并对频谱的模值求平方PS＝|Y(ω)|²。

上述方案中，所述弯折滤波器下进行信号功率谱映射的步骤，具体包括：

将语音帧的功率谱与弯折滤波器16个子带带通滤波器分别卷积；

对映射到16通道滤波器中每一通道的功率谱求和。

上述方案中，所述弯折滤波器下信号功率谱映射过程，进一步包括：

弯折滤波器的设计，利用一阶全通变换取代公式中的z^-1，其中h(n)为长度为N的序列，M为滤波器组的通道数；则新的传递函数为实现频率从z域变换到ζ域的转换，即弯折滤波器的传递函数为令z＝e^jω，则弯折滤波器组的频率响应为

H_{m} (ω) = Σ_{n = 0}^{N - 1} h (n) {(\frac{- ρ + e^{- jω}}{1 - {ρe}^{- jω}})}^{n} e^{j \frac{2 π}{M} mn},

ρ为弯折因子。

不同弯折因子下的弯折滤波器，公式和分别给出采用采用一阶全通变换模拟Bark和ERB频率尺度时对应的弯折因子，其中f_s为采样频率，单位kHz；当采样率f_s＝11.025kHz时，ρ＝0.48和ρ＝0.63时分别模拟Bark尺度和ERB尺度。而ρ＝0时弯折滤波器为一组均匀滤波器组，带宽呈对称性分布。

本发明采用一阶全通变换函数设计的带宽呈非对称分布的弯折滤波器组(Warped Filter Banks,WFBs)，采用全通函数中的弯折因子ρ控制滤波器中心频率和带宽的分布，典型的弯折因子ρ＝0.48，ρ＝0.63分别对应Bark和ERB尺度的滤波器。其带宽低频处较窄，高频处较宽，且呈非对称性分布，与FIR、MEL和Gammatone滤波器相比(附图2、3、4)，更符合人耳听觉特性(附图6、7)。因此本发明以WFBs滤波器为基础提取抗噪特征，分析待识别语音信号的特征分布，进而研究听觉特性滤波器的抗噪性能对语音识别的作用。

每一通道的滤波器功率谱求和，记为WFBs_m{x}＝∑H_m(ω)*|fft(x(n)*w(n))|²，其中m为滤波器通道数，H_m(ω)为弯折滤波器频率响应；当m＝k,k＝1,2...,16时，WFBs_m{x}为一帧信号x(n)在第k通道滤波器的映射。

上述方案中，所述对数和离散余弦变换的步骤，具体包括：

将弯折滤波器的输出求以自然数为底的对数，计算公式为：s(m)＝ln(WFB_m{x}),m＝1,2,...,16；

进一步，将对数谱s(m)作离散余弦变换(Discrete Cosine Transform-DCT)，计算公式为：求取一帧信号的倒谱系数，得到16维弯折倒谱特征(Warped FilterCepstral Coefficient-WFCC)。

上述方案中，所述对弯折倒谱特征WFCC进行后端径向基函数(Radial Basis Function，RBF)神经网络识别的步骤，具体包括：

对弯折倒谱特征WFCC特征进行时间和幅度归一化，由于每个语音文件的长短不同，分帧后的帧数各不相同，无法作为RBF网络的输入，因此将每个语音文件帧数统一为64帧，每一帧提取16维特征，得到1024维特征作为识别网络的输入；

RBF网络结构由三层结构组成，将训练文件的特征作为RBF输入，得到训练RBF神经网络，然后将测试文件的特征作为输入，得到测试RBF神经网络，与训练RBF网络按照一定的匹配规则进行模式匹配，得到识别结果。

上述方案中，所述语料库语音信号是韩语语料库，词语内容为数字和简单控制性语句。此语料库包括10词、20词、30词、40词以及50词五种不同的子库，每一子库分别在不同的信噪比15dB，20dB，25dB，30dB以及clean下录制完成。本语料库由16名男性发声构成，每人每词发音3遍，在完全闭集的非特定人识别中，采用9人的发音作为训练语料库，而另外7人的发音作为测试语料库进行实验。

上述方案中，所述后端径向基函数神经网络结构，具体包括：RBF由输入层、隐层和输出层组成的前向神经网络模型，具体第一层为输入层，由信号源节点组成；第二层为隐含层，采用高斯函数作为径向基函数，作为隐单元的“基”构成隐含层空间；第三层为输出层，输出节点为线性求和单元，它对输入模式的作用做出响应。每个语音文件是1024维特征，作为RBF网络的输入，则RBF输入层节点数为1024。RBF网络隐层节点数则根据识别词汇量变化，10词对应10个隐节点，50词对应50个隐节点；输出层节点数与隐层节点数相同。

上述方案中，所述按照一定的匹配规则进行模式匹配得到识别结果，具体步骤为：

训练RBF神经网络模型确定后，将测试集的单词输入网络分别进行识别测试。每输入一个单词的1024维特征矢量，经过隐层、输出层的计算后就可以得到每个单词的分类号，将这个分类号与输入特征矢量自带的分类号比较，相等则识别正确，反之，识别错误。最后将识别正确的个数与所有待识别单词数做比值即可得到最终的识别率。

从本发明所述技术方案可以看出，本发明使用带宽非对称分布的弯折滤波器提取倒谱特征进行抗噪语音识别，充分利用人耳听觉特性的抗噪鲁棒性，提取不同听觉尺度的弯折倒谱特征参数，有效提高抗噪识别率，具有以下有益效果：

1)弯折倒谱特征更全面地刻画语音在人耳听觉感知上的特性，弥补传统特征的不足，具体来说，传统特征是映射在带宽对称分布的滤波器下，而弯折倒谱特征在非对称分布带宽Bark和ERB尺度下的映射，与均匀对称分布尺度相比，Bark尺度下更符合人耳听觉特性，识别效果最好，且在低信噪比时高于传统的MFCC特征，识别结果如表1～表5所示；

表1.Bark尺度(ρ＝0.48)WFCC识别结果

表2.ERB尺度(ρ＝0.63)WFCC识别结果

表3.对称分布(ρ＝0)WFCC识别结果

表4.MFCC识别结果

2)本发明涉及的弯折滤波器的弯折因子，可以根据实际情况进行设置，自适应于待识别的语料库，得到最优识别结果；

3)本发明对语料库的语言语种、话者性别等没有限制，可以适用于其他语料库，提高抗噪语音识别的通用性。

附图说明

图1是本发明基于弯折倒谱特征的抗噪语音识别系统框图。

图2是现有的FIR滤波器的频率响应图。

图3是现有的MEL滤波器的频率响应图。

图4是现有的Gammatone(GT)滤波器的频率响应图。

图5是本发明WFBs滤波器弯折因子ρ＝0的频率响应图。

图6是本发明WFBs滤波器弯折因子ρ＝0.48的频率响应图。

图7是本发明WFBs滤波器弯折因子ρ＝0.63的频率响应图。

具体实施方式

本发明的核心内容是：利用带宽非对称分布的弯折滤波器提取倒谱特征，充分利用人耳听觉特性的抗噪鲁棒性，提取不同听觉尺度的弯折倒谱特征参数，并进行后端RBF网络识别，包括以下步骤：预处理语料库语音信号，包括预加重、分帧和加窗过程；计算信号功率谱；弯折滤波器下进行信号功率谱映射；对数和离散余弦变化；以及对弯折倒谱特征进行后端径向基函数神经网络识别。

所述预处理语料库语音信号的步骤，具体包括：预加重，采用预加重系数为0.9375的高通滤波器H(z)＝1-αz^-1消除口唇辐射造成的信号衰减，提升信号的高频部分；对预加重后的信号进行分帧，一般分帧帧长为10ms～30ms，本发明中的语音采样频率为f_s＝11025Hz，帧长256样点，帧移128样点；加窗，采用汉明窗对每帧信号x(n)进行平滑，即y(n)＝x(n)*w(n)，从而去除吉布斯效应。

所述计算信号功率谱的具体步骤为：采用傅里叶变换得到信号的频谱Y(ω)＝fft(y(n))＝fft(x(n)*w(n))，并对频谱的模值求平方PS＝|Y(ω)|²。

所述弯折滤波器下进行信号功率谱映射的步骤，具体包括：将语音帧的功率谱与弯折滤波器16个子带带通滤波器分别卷积；对映射到16通道滤波器中每一通道的功率谱求和。

所述弯折滤波器下信号功率谱映射过程，进一步包括：弯折滤波器的设计，利用一阶全通变换

ζ^{- 1} = \frac{- ρ + z^{- 1}}{1 - {ρz}^{- 1}}

取代公式

H_{m} (z) = Σ_{n = 0}^{N - 1} h (n) z^{- n} e^{j \frac{2 π}{M} mn}, m = 0,1, . . ., M - 1

中的z^-1，其中h(n)为长度为N的序列，M为滤波器组的通道数。则新的传递函数为实现频率从z域变换到ζ域的转换。即弯折滤波器的传递函数为令z＝e^jω，则弯折滤波器组的频率响应为ρ为弯折因子；不同弯折因子下的弯折滤波器，公式

ρ = 1.0674 {[\frac{2}{π} \arctan (0.06583 f_{s})]}^{\frac{1}{2}} - 0.1916

和

ρ = 0.7446 {[\frac{2}{π} \arctan (0.1418 f_{s})]}^{\frac{1}{2}} - 0.03237

分别给出采用采用一阶全通变换模拟Bark和ERB频率尺度时对应的弯折因子，其中f_s为采样频率，单位kHz。当采样率f_s＝11.025kHz时，ρ＝0.48和ρ＝0.63时分别模拟Bark尺度和ERB尺度。而ρ＝0时弯折滤波器为一组均匀滤波器组，带宽呈对称性分布；每一通道的滤波器功率谱求和，记为WFBs_m{x}＝∑H_m(ω)*|fft(x(n)*w(n))|²，其中m为滤波器通道数，H_m(ω)为弯折滤波器频率响应。当m＝k,k＝1,2...,16时，WFBs_m{x}为一帧信号x(n)在第k通道滤波器的映射。

所述对数和离散余弦变换的步骤，具体包括：

将弯折滤波器的输出求以自然数为底的对数，计算公式为：s(m)＝ln(WFB_m{x}),m＝1,2,...,16；进一步，将对数谱s(m)作离散余弦变换(Discrete Cosine Transform-DCT)，计算公式为：求取一帧信号的倒谱系数，得到16维弯折倒谱特征(Warped FilterCepstral Coefficient-WFCC)。

所述对弯折倒谱特征WFCC进行后端径向基函数(Radial Basis Function，RBF)神经网络识别的步骤，具体包括：对弯折倒谱特征WFCC特征进行时间和幅度归一化，由于每个语音文件的长短不同，分帧后的帧数各不相同，无法作为RBF网络的输入，因此将每个语音文件帧数统一为64帧，每一帧提取16维特征，得到1024维特征作为识别网络的输入；RBF网络结构由三层结构组成，将训练文件的特征作为RBF输入，得到训练RBF神经网络，然后将测试文件的特征作为输入，得到测试RBF神经网络，与训练RBF网络按照一定的匹配规则进行模式匹配，得到识别结果。

所述语料库语音信号是韩语语料库，词语内容为数字和简单控制性语句。此语料库包括10词、20词、30词、40词以及50词五种不同的子库，每一子库分别在不同的信噪比15dB，20dB，25dB，30dB以及clean下录制完成。本语料库由16名男性发声构成，每人每词发音3遍，在完全闭集的非特定人识别中，采用9人的发音作为训练语料库，而另外7人的发音作为测试语料库进行实验。

所述后端径向基函数神经网络结构，具体包括：RBF由输入层、隐层和输出层组成的前向神经网络模型，具体第一层为输入层，由信号源节点组成；第二层为隐含层，采用高斯函数作为径向基函数，作为隐单元的“基”构成隐含层空间；第三层为输出层，输出节点为线性求和单元，它对输入模式的作用做出响应。每个语音文件是1024维特征，作为RBF网络的输入，则RBF输入层节点数为1024。RBF网络隐层节点数则根据识别词汇量变化，10词对应10个隐节点，50词对应50个隐节点；输出层节点数与隐层节点数相同。

所述按照一定的匹配规则进行模式匹配得到识别结果，具体步骤为：训练RBF神经网络模型确定后，将测试集的单词输入网络分别进行识别测试。每输入一个单词的1024维特征矢量，经过隐层、输出层的计算后就可以得到每个单词的分类号，将这个分类号与输入特征矢量自带的分类号比较，相等则识别正确，反之，识别错误。最后将识别正确的个数与所有待识别单词数做比值即可得到最终的识别率。

Claims

1.一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，该方法利用弯折滤波器提取语音倒谱特征参数描述声音信号在人耳听觉空间的分布和映射并使用径向基神经网络对非特定人进行识别，包括以下步骤：

预处理语料库语音信号，包括预加重、分帧和加窗过程；

计算信号功率谱；

弯折滤波器下进行信号功率谱映射；

对数和离散余弦变化；以及

对弯折倒谱特征进行后端径向基函数神经网络识别。

2.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，所述预处理语料库语音信号的步骤，具体包括：

3.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，所述计算信号功率谱的具体步骤为：采用傅里叶变换得到信号的频谱Y(ω)＝fft(y(n))＝fft(x(n)*w(n))，并对频谱的模值求平方PS＝|Y(ω)|²。

4.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，所述弯折滤波器下进行信号功率谱映射的步骤，具体包括：

对映射到16通道滤波器中每一通道的功率谱求和。

5.根据权利要求4所述的一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，所述弯折滤波器下信号功率谱映射过程，进一步包括：

弯折滤波器的设计，利用一阶全通变换取代公式m＝0,1,...,M-1中的z^-1，其中h(n)为长度为N的序列，M为滤波器组的通道数，则新的传递函数为实现频率从z域变换到ζ域的转换，即弯折滤波器的传递函数为令z＝e^jω，则弯折滤波器组的频率响应为

H_{m} (ω) = Σ_{n = 0}^{N - 1} h (n) {(\frac{- ρ + e^{- jω}}{1 - {ρe}^{- jω}})}^{n} e^{j \frac{2 π}{M} mn},

ρ为弯折因子；

不同弯折因子下的弯折滤波器，公式和分别给出采用采用一阶全通变换模拟Bark和ERB频率尺度时对应的弯折因子，其中f_s为采样频率，单位kHz；当采样率f_s＝11.025kHz时，ρ＝0.48和ρ＝0.63时分别模拟Bark尺度和ERB尺度；而ρ＝0时弯折滤波器为一组均匀滤波器组，带宽呈对称性分布；

每一通道的滤波器功率谱求和，记为WFBs_m{x}＝ΣH_m(ω)*|fft(x(n)*w(n))|²，其中m为滤波器通道数，H_m(ω)为弯折滤波器频率响应；当m＝k,k＝1,2...,16时，WFBs_m{x}为一帧信号x(n)在第k通道滤波器的映射。

6.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，所述对数和离散余弦变换的步骤，具体包括：

进一步，将对数谱s(m)作离散余弦变换，计算公式为：求取一帧信号的倒谱系数，得到16维弯折倒谱特征。

7.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，所述对弯折倒谱特征WFCC进行后端径向基函数神经网络识别的步骤，具体包括：

8.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，所述语料库语音信号是韩语语料库，词语内容为数字和简单控制性语句；此语料库包括10词、20词、30词、40词以及50词五种不同的子库，每一子库分别在不同的信噪比15dB，20dB，25dB，30dB以及clean下录制完成；本语料库由16名男性发声构成，每人每词发音3遍，在完全闭集的非特定人识别中，采用9人的发音作为训练语料库，而另外7人的发音作为测试语料库进行实验。

9.根据权利要求7所述的一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，所述后端径向基函数神经网络结构，具体包括：

RBF由输入层、隐层和输出层组成的前向神经网络模型，具体第一层为输入层，由信号源节点组成；第二层为隐含层，采用高斯函数作为径向基函数，作为隐单元的“基”构成隐含层空间；第三层为输出层，输出节点为线性求和单元，它对输入模式的作用做出响应；每个语音文件是1024维特征，作为RBF网络的输入，则RBF输入层节点数为1024；RBF网络隐层节点数则根据识别词汇量变化，10词对应10个隐节点，50词对应50个隐节点；输出层节点数与隐层节点数相同。

10.根据权利要求7所述的一种基于弯折倒谱特征的抗噪语音识别方法，其特征在于，所述按照一定的匹配规则进行模式匹配得到识别结果，具体步骤为：

训练RBF神经网络模型确定后，将测试集的单词输入网络分别进行识别测试；每输入一个单词的1024维特征矢量，经过隐层、输出层的计算后就可以得到每个单词的分类号，将这个分类号与输入特征矢量自带的分类号比较，相等则识别正确，反之，识别错误；最后将识别正确的个数与所有待识别单词数做比值即可得到最终的识别率。