CN108198545B

CN108198545B - 一种基于小波变换的语音识别方法

Info

Publication number: CN108198545B
Application number: CN201711370166.2A
Authority: CN
Inventors: 胡宁; 程海峰; 胡晓宁; 王晏平; 王海涛; 王庚; 马进伟
Original assignee: China Mobile Group Anhui Co Ltd; Anhui Jianzhu University
Current assignee: China Mobile Group Anhui Co Ltd; Anhui Jianzhu University
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2021-11-02
Anticipated expiration: 2037-12-19
Also published as: CN108198545A

Abstract

本发明公开了一种基于小波变换的语音识别方法，声音输入设备输入语音信号；预处理模块对输入的信号进行预处理；特征提取模块提出基于小波变换的特征参数；训练模块将特征参数提取后的特征矢量参数，然后通过特征建模模块建立训练语音的参考模型库；识别模块将输入语音的特征矢量参数和参考模型库的模型进行比较，将相似度最高的模型作为识别候选结果输出；后处理模块对步骤（5）中的识别候选结果通过语音输出模块处理得到最终的识别结果。本发明小波变换对不同的频率在时域上的取样步长是可调节的，它比傅氏变换具有更好的时频窗口特性，较易扑捉细节。同时，将上述参数用于单元音识别中，也取得较好的效果。

Description

一种基于小波变换的语音识别方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于小波变换的语音识别方法。

背景技术

计算机技术的飞速发展，使人与机器用自然语言进行对话的梦想逐渐接近现实。语音识别就是研究让机器听懂人类语言的一门科学,也是人机交互最重要的一步。在语音识别系统中，特征参数提取是关键环节之一。语音识别中信号处理一般都采用的是傅里叶变换。傅里叶变换物理意义直观、计算简捷，广泛应用在信号的谱分析中。但是也有严重的不足。傅里叶变换表示了信号频谱的统计特性，它是信号在整个时域内的积分，信号的频谱表征了信号中频率分量的总强度，但却不能表明这些频率分量是何时产生的，没有局部分析信号的功能，不具备瞬变信息。而在对时变或非平稳语音信号(尤其辅音)的分析中，应当尽可能的知道信号在任意时刻附近的频域特征，因此将一维的时域信号映射到一个二维的时频平面来观察信号的时频特性，即构建信号的相空间，则形成信号的时频分析。小波变换对不同的频率成分在时频域上的取样步长是调节性的，它在高频时取样步长小，而在低频时取样步长大。小波变换在时频域都有局部分析能力，正是这些特性，使得小波变换在语音信号处理中有更大的优势。

(1)傅氏变换处理平稳信号较好，而对非平稳信号处理效果差，如辅音。对辅音在时频域变化快的信号，小波变换是较好的选择。Farooq等人^[1]提出用小波包得到局部频率段特征，小波包将频率划分为多个子带，子带能量值作为特征参数，在塞音识别中，识别率比参数MFCC提高了10个百分点。有噪语音相对于干净语音上在时频域上叠加了干扰值，在特征参数中提取中减去一个定值，这个值相当于白噪声的频谱值，和干净语音特性接近^[2]；Farooq^[3]又用离散小波变换划分局部频率段，低频部分得到较细的划分，在音素识别中元音识别率最好。生理学研究证明，对听觉起关键作用的耳蜗内基底膜，其作用相当于一组建立在薄膜振动基础上的恒Q的带通频率分析器。并且生理信号被分解后长表现出高频分量持续时间较短，低频分量持续时间较长的特点。这也正和小波分析的性质互相吻合。为此，张学英等人^[4]提出基于Bark域小波包分解，应用在语音识别中，在噪音中识别率比参数MFCC高10个百分点。Farooq O.^[5]和Ruhi Sarikaya^[6]提出了基于Mel域小波包分解,分别在语音识别中和说话人识别中取得了较好的识别效果。小波包分解在小波空间和尺度空间进行分解，得到众多频段，从信号处理的观点看，用尽量少的系数，反映尽可能多的信息，这需要优化小波包分解。Jorge Silva^[7]提出最低代价树裁剪算法进行小波包分解，在音素识别中取得较好的效果。

(2)一帧语音信号可能包含两个音素，假如前一个音素是辅音，后一个音素为元音，则前一个音素频率的低频和高频受到后一个音素低频和高频的影响，MFCC参数提取是对整个频段处理，无法克服临近音素的影响。而离散小波变换捕捉到音素过渡的信息，而这种过渡信息可能只出现在一些局部频率段，Nehe N.S.^[8]用离散小波变换对信号频段划分，在子带做LPCC(Linear Predictive Cepstral Coefficient)，对语音识别取得了较好的结果。同样Weaam Alkhaldi^[9]应用在在阿拉伯语识别和电话语音识别^[10]系统中。Malik^[11]用同样的方法运用在说话人识别中。Mangesh S.Deshpande^[12]用小波包分解划分频段，Jian-Da Wu^[13]用不规则小波包分解划分频段，在说话人识别中都取得了较好的效果。

(3)基于听觉机理的小波包分解。人的听觉系统有一个重要特性，就是耳蜗对于声信号的时频分析特性。1999年，Doh-Suk Kim^[14]提出一种听觉模型，它主要由耳蜗带通滤波器和非线性压缩组成，耳蜗带通滤波器组模仿耳蜗对声信号的时频分析特性，非线性压缩则模仿基底膜的机械振动造成听觉神经的发放，提出参数ZCPA(Zero-Crossings withPeak Amplitudes)，即过零点间的峰值。相邻神经发放时间间隔倒数被视为频率直方图，相邻零点间的峰值作为一个非线性加权因子模仿听觉神经的发放速度。小波滤波器具有旁瓣长度短、划分严格等特点，P.K.Sahu等人提出基于Bark域小波包分解^[15][16]取代耳蜗带通滤波器组，再提取参数，在孤立词识别中识别效果较佳，尤其在噪音环境中。

传统处理信号的分析方法有傅氏变换，傅氏变换是信号的统计特性，它是信号在整个时域内的积分。一旦窗函数选定，信号的时频特性也就确定了，辅音是一种动态性较强的音，傅氏变换处理辅音效果不佳。小波变换具有多分辨率的特点，可以由粗到细逐步观察信号，尤其是对于辅音这类在时频域变化快的信号，小波变换是一种较好的分析工具。

发明内容

本发明目的就是为了弥补已有技术的缺陷，提供一种基于小波变换的语音识别特征参数的处理方法。

本发明是通过以下技术方案实现的：

一种基于小波变换的语音识别方法，具体步骤如下：

(1)声音输入设备输入语音信号；

(2)预处理模块对输入的信号进行预处理；

(3)特征提取模块提出基于小波变换的特征参数；

(4)训练模块将特征参数提取后的特征矢量参数，然后通过特征建模模块建立训练语音的参考模型库；

(5)识别模块将输入语音的特征矢量参数和参考模型库的模型进行比较，将相似度最高的模型作为识别候选结果输出；

(6)后处理模块对步骤(5)中的识别候选结果通过语音输出模块处理得到最终的识别结果。

步骤(3)中提取出基于小波变换的特征参数，具体步骤如下：

1)对输入的信号进行预处理，提升信号高频部分，使信号的频谱更加平坦，再进行分帧、加汉明窗函数；

2)将每帧加窗的信号进行小波包变换，获得子频带；辅音高频段信息量丰富，而元音在低频信息信息量大，再对每个子频带取傅氏变换；

3)对每个子频带取傅里叶变换，再进行频率合成；

4)用M个Mel带通滤波器对其滤波，将每个滤波器的输出取对数，得到相应频带的对数功率谱，并进行离散余弦变换，得到13维Mel频率倒谱系数。

输入汉语元音、辅音x(t)，t为时间变量，

语音信号进行采样：对输入语音信号进行采样频率f_s.为8kHz的采样，采样后的信号为X(t)，

，再进行预加重1-0.98Z^-1的处理，1-0.98Z^-1的时域形式为

预加重后的语音信号

其中，

为冲激函数；

用窗长10ms，窗移8ms的汉明窗对语音信号进行加窗处理，分帧采用交叠分段的方法，前一帧和后一帧的交叠部分为帧移，用可移动的有限长度窗口进行加权的方法实现，即用窗函数w′(t)来乘预加重后的语音信号a(t)，从而形成加窗语音信号b(t)，

b(t)＝a(t)×w′(t)

其窗函数为：

N为窗长，窗长即为帧长，加窗分帧处理后得到的第i帧信号为

x_d(t)＝w′(t)b(t)，0≤t≤N-1

特征参数提取阶段：

对预处理后的每一帧语音信号分别取2或3层小波包变换，得到4或8个子频带，再对每个子频带求64个点FFT，再对各个频带进行合成；

参数MFCC是通过傅氏变换求得，Mel频率与实际频率的具体关系用下式表示：

Mel(f)＝2595*lg(1+f/700) (1)

根据Zwicker的分析，临界频率带宽随着频率的变化而变化，并与Mel频率的增长一致，在1000Hz以下，呈线性分布，带宽为100Hz左右；在1000Hz以上呈对数增长，类似于临界频带的划分，将语音频率划分成一系列三角形的滤波器序列，即Mel滤波器组，取每个三角形的滤波器频率带宽内所有信号幅度加权作为某个带通滤波器的输出，然后对所有的滤波器输出做对数运算，再进一步做离散余弦变换DCT,即得到频率倒谱系数WPMFCC；

根据式将实际频率尺度转换为Mel频率尺度；

在Mel频率轴上配置L个通道的三角形滤波器组，L的个数由信号的截止频率决定，每一个三角形滤波器的中心频率c(l)在Mel频率上等间隔分配，设分别是第l个三角形滤波器的下限、中心和上限频率，则相邻三角形滤波器之间的下限、中心和上限频率有如图所示的如下关系成立：

c(l)＝h(l-1)＝o(.+1)

根据语音信号幅度谱X_n(k)求每一个三角形滤波器的输出：

对所有滤波器输出做对数运算，再进一步做离散余弦变换即可得到MFCC；

以单词作为一个识别单元，利用模板匹配方法进行识别，在训练阶段，将训练数据中每个单词提取的特征矢量时间序列作为模板存入模板库，在识别阶段，将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

本发明的优点是：本发明提出了参数WPMFCC，将该参数用于辅音和元音识别，在变化快的辅音(塞音、清擦音、塞擦音)识别率较高，这些辅音在时频域变化较快，傅氏变换不能扑捉某些信息，小波变换对不同的频率在时域上的取样步长是可调节的，它比傅氏变换具有更好的时频窗口特性，较易扑捉细节。同时，将上述参数用于单元音识别中，也取得较好的效果。

附图说明

图1为本发明的流程图。

图2为本发明的硬件结构图。

具体实施方式

如图1、2所示，一种基于小波变换的语音识别方法，具体步骤如下：

(1)声音输入设备1输入语音信号；

(2)预处理模块2对输入的信号进行预处理；

(3)特征提取模块3提出基于小波变换的特征参数；

(4)训练模块4将特征参数提取后的特征矢量参数，然后通过特征建模模块建立训练语音的参考模型库；

(5)识别模块5将输入语音的特征矢量参数和参考模型库的模型进行比较，将相似度最高的模型作为识别候选结果输出；

(6)后处理模块6对步骤(5)中的识别候选结果通过语音输出模块7处理得到最终的识别结果。

步骤(3)中提取出基于小波变换的特征参数，具体步骤如下：

3)对每个子频带取傅里叶变换，再进行频率合成；

输入汉语元音、辅音x(t)，t为时间变量，

预处理与特征提取

语音信号进行采样：对输入语音信号进行采样频率f_s.为8kHz的采样，采样后的信号为x(t)′，

，再进行预加重1-0.98Z^-1的处理，1-0.98Z^-1的时域形式为

预加重后的语音信号

其中，

为冲激函数。

b(t)＝a(t)×w′(t)

其窗函数为：

x_d(t)＝w′(t)b(t)，0≤t≤N-1

特征参数提取阶段

对预处理后的每一帧语音信号分别取2或3层小波包变换，得到4或8个子频带，再对每个子频带求64个点FFT(快速傅里叶变换)，再对各个频带进行合成。

参数MFCC(Mel-Frequency Cepstral Coefficients)主要是通过傅氏变换求得，傅氏变换是信号的统计特性，对信号的细节描述差。MFCC的分析着眼于人耳的听觉特性，人耳所听到声音的高低与声音的频率并不成线性正比关系，而用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度，它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可用下式表示：

Mel(f)＝2595*lg(1+f/700) (1)

根据Zwicker的分析，临界频率带宽随着频率的变化而变化，并与Mel频率的增长一致，在1000Hz以下，大致呈线性分布，带宽为100Hz左右；在1000Hz以上呈对数增长。类似于临界频带的划分，可用将语音频率划分成一系列三角形的滤波器序列，即Mel滤波器组，取每个三角形的滤波器频率带宽内所有信号幅度加权作为某个带通滤波器的输出，然后对所有的滤波器输出做对数运算，再进一步做离散余弦变换(DCT),即得到WPMFCC。

根据式将实际频率尺度转换为Mel频率尺度。

在Mel频率轴上配置L个通道的三角形滤波器组，L的个数由信号的截止频率决定。每一个三角形滤波器的中心频率c(l)在Mel频率上等间隔分配。设分别是第l个三角形滤波器的下限、中心和上限频率，则相邻三角形滤波器之间的下限、中心和上限频率有如图所示的如下关系成立：

c(l)＝h(l-1)＝o(.+1)

根据语音信号幅度谱X_n(k)求每一个三角形滤波器的输出：

对所有滤波器输出做对数运算，再进一步做离散余弦变换(DCT)即可得到MFCC。

语音识别

Claims

1.一种基于小波变换的语音识别方法，其特征在于：具体步骤如下：

(1)声音输入设备输入语音信号；

(2)预处理模块对输入的信号进行预处理；

(3)特征提取模块提出基于小波变换的特征参数；

(6)后处理模块对步骤(5)中的识别候选结果通过语音输出模块处理得到最终的识别结果；

步骤(3)中提取出基于小波变换的特征参数，具体步骤如下：

1)对输入的信号进行预处理、分帧、加汉明窗函数；

2)将每帧加窗的信号进行小波包变换，获得子频带；

3)对每个子频带取傅里叶变换，再进行频率合成；

2.根据权利要求1所述的一种基于小波变换的语音识别方法，其特征在于：步骤(3)的具体步骤如下：

输入汉语元音、辅音x(t)，t为时间变量，

语音信号进行采样：对输入语音信号进行采样频率f_s为8kHz的采样，采样后的信号为x(t)′，

，

再进行预加重1-0.98Z^-1的处理，1-0.98Z^-1的时域形式为

预加重后的语音信号

其中，

为冲激函数；

b(t)＝a(t)×w′(t)

其窗函数为：

N为窗长，窗长即为帧长，加窗分帧处理后得到的第i帧信号为x_i(t)＝w′(t)b(t)，0≤t≤N-1

特征参数提取阶段：

Mel(f)＝2595*lg(1+f/700) (1)

根据Zwicker的分析，临界频率带宽随着频率的变化而变化，并与Mel频率的增长一致，在1000Hz以下，呈线性分布，带宽为100Hz左右；在1000Hz以上呈对数增长，类似于临界频带的划分，将语音频率划分成一系列三角形的滤波器序列，即Mel滤波器组，取每个三角形的滤波器频率带宽内所有信号幅度加权作为某个带通滤波器的输出，然后对所有的滤波器输出做对数运算，再进一步做离散余弦变换DCT，即得到频率倒谱系数WPMFCC；

根据式(1)将实际频率尺度转换为Mel频率尺度；

在Mel频率轴上配置L个通道的三角形滤波器组，L的个数由信号的截止频率决定，每一个三角形滤波器的中心频率c(l)在Mel频率上等间隔分配，设分别是第1个三角形滤波器的下限、中心和上限频率，则相邻三角形滤波器之间的下限、中心和上限频率有如图所示的如下关系成立：

c(l)＝h(l-1)＝o(l+1)

根据语音信号幅度谱X_n(k)求每一个三角形滤波器的输出：

对所有滤波器输出做对数运算，再进一步做离散余弦变换即可得到参数MFCC；