CN1212602C

CN1212602C - 基于语音增强的语音识别方法

Info

Publication number: CN1212602C
Application number: CNB031570739A
Authority: CN
Inventors: 杜利民; 阎兆立
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2003-09-12
Filing date: 2003-09-12
Publication date: 2005-07-27
Anticipated expiration: 2023-09-12
Also published as: CN1490787A

Abstract

本发明公开了一种基于语音增强的语音识别方法，包括步骤：(1)用训练数据进行隐含马尔可夫模型训练；(2)用训练后的隐含马尔可夫模型对测试数据进行识别；其中，步骤(1)中的训练数据和步骤(2)中的测试数据都经过语音增强处理。由于本发明的语音识别方法对训练数据和测试数据都作了基音及其谐波的增强，最大限度地降低了增强后测试语音和模型间的失配问题，提高了语音识别的正确率。

Description

基于语音增强的语音识别方法

技术领域

本发明涉及计算机技术应用领域的语音识别技术，更具体地说，本发明涉及一种基于语音增强的语音识别方法

背景技术

人们发浊音时的会引起声带振动，其振动频率就被称为基音频率。基音频率是语音信号最重要的参数之一。根据加窗的短时语音帧来估计基音周期，在语音编译码、语音识别、说话人确认和辨识以及生理缺陷人辅助系统等许多领域都是重要的一环。为了说明基音，在这里，引入纯音、复音和谐音的概念。纯音是指单一正弦振荡的声波；复音则是多个正弦波组成的声音，其中各个频率的最大公约数称为基音频率，它对应的声波成分就称为基音。频率相当于基音频率的整数倍的正弦声波称为谐音(或泛音)。乐音和语音中的浊音都可近似地看作是含有许多谐波分量的复音。

现实中的噪声多是宽带噪声，因此可以用梳状滤波器对语音中基音及其谐波成分进行增强，而保留其他频率成分不变，这样达到语音增强的目的。

国内外对基音的研究比较早，也有人提出通过跟踪基音频率进行语音分离，或者直接进行语音中浊音部分的增强的方法(参见文献[1]：姚天任.数字语音处理.武汉：华中理工大学出版社，1999)，大致可分为如下几个步骤：

1)通过各种基音检测算法，得到语音信号每帧的基音频率。基音检测从70年代就已经被Rabiner L. R.用自相关算法研究了。

2)根据基音频率，确定梳状滤波器延迟参数，使得滤波器波峰对应于语音信号的基音及其谐波频率，滤波后得到增强语音。

根据语音基音频率，通过调整梳状滤波器的延迟参数，对语音的基音及其各次谐波进行增强，同时保留其它频率成分不变，这样就相对的削弱了噪声，达到语音增强的目的。但是由于该方法只增强语音中的浊音部分，这样就改变了语音中清、浊音能量的对比关系。

现有的语音识别方法，是用训练数据进行隐含马尔可夫模型(HMM)训练；然后用训练后的隐含马尔可夫模型对测试数据进行识别。但是如果只是直接将语音增强应用于测试数据，那么这种增强语音中清、浊音能量的对比关系的改变，会引起其与识别模型之间的失配(mismatch)，降低语音识别正确率。

发明内容

本发明的目的在于克服现有的语音识别方法的缺点和不足，将语音增强技术应用于语音识别，从而提供一种基于语音增强的语音识别方法。

为了实现上述发明目的，本发明提供的一种基于语音增强的语音识别方法，包括步骤：

(1)用训练数据进行隐含马尔可夫模型训练；

(2)用训练后的隐含马尔可夫模型对测试数据进行识别；

其中，步骤(1)中的训练数据和步骤(2)中的测试数据都经过语音增强处理。

所述的语音增强处理为用梳状滤波器进行梳状滤波。所述梳状滤波器为FIR梳状滤波器或IIR梳状滤波器。所述梳状滤波器的的增强倍数在1.3～1.7之间。

由于本发明的语音识别方法对训练数据和测试数据都作了基音及其谐波的增强，最大限度地降低了增强后测试语音和模型间的失配问题，提高了语音识别的正确率。

附图说明

图1是FIR梳状滤波器传递函数的幅频响应和零点图；

图2是IIR梳状滤波器传递函数的幅频响应和零点-极点图；

图3是IIR梳状滤波器语音增强时语音数据的周期延拓示意图；

图4是一段语音的语谱图的对比示意图，其中(a)是一段含噪语音的语谱图，(b)是该段语音做语音增强后的语音的语谱图。

具体实施方式

下面结合附图和具体实施方式对发明作进一步详细描述。

在本实施例中，训练数据和将要被识别的测试数据均使用梳状滤波器进行梳状滤波，从而实现语音的增强。在这里，首先介绍两类梳状滤波器。

1)FIR梳状滤波器

最简单的梳状滤波器可看作一信号与其反射回声的叠加：

y(i)＝x(i)+ax(i-D) (1)

其中，a表示衰减系数，|a|≤1。D表示反射信号的延迟。

FIR梳状滤波器的传递函数是

H(z)＝1+az^-D (2)

其幅频响应函数是

| H (ω) | = | + a \cos (ωD) - ja \sin (ωD) | = \sqrt{1 + 2 a \cos (ωD) + a^{2}} - - - (3)

其中，ω是角频率。

信号采样率为f_s，上述滤波器在基频f₁＝f_s/D的整数倍上呈现峰值。也就是当ω＝2kπ/D时，得到|H(ω)|的最大值1+a。当ω＝(2k+1)π/D时，得到传递函数的零点，也就对应|H(ω)|的最小值1-a。图1是FIR梳状滤波器传递函数幅频响应和零点图。

2)IIR梳状滤波器

IIR梳状滤波器的传递函数

H(z)＝(1-bz^-D)/(1-az^-D)(0＜b＜a＜1) (4)

该滤波器的幅频响应和零极点图如图2所示。该滤波器幅频响应的波谷更加平坦，波峰更加尖锐。ω_k＝2πk/D时对应最大值

max＝(1-b)/(1-a) (5)

ω_k＝(2k+1)π/D时对应最小值

min＝(1+b)/(1+a) (6)

其中k＝0、1、…、D-1。

在使用上述两类梳状滤波器进行语音增强时，IIR梳状滤波器具有很好的幅频响应特性，但是考虑到其边缘效应，滤波过程较为复杂；FIR梳状滤波器虽然幅频响应曲线不好，但是边缘效应很容易消除。下面首先详细介绍用IIR梳状滤波器进行语音增强时的处理步骤：

IIR梳状滤波器幅频响应峰值由式(5)计算，它决定了基音以及谐波的增强倍数。从图2不难看出，幅频响应曲线中，峰值以外的大部分略小于1，接近其最小值(见公式(6))，为保持这部分信号不变，可给滤波器乘以一个补偿系数(1+a)/(1+b)，得到

H (z) = \frac{1 - {bz}^{- D}}{1 - {az}^{- D}} \times \frac{1 + a}{1 + b} (0 < b < a < 1) - - - (7)

式中延迟量D由下式得到

D＝f_s/f_b (8)

其中f_s是信号采样率，f_b是当前帧的基音频率。

相应地，增强倍数m为

m = \frac{(1 - b) (1 + a)}{(1 - a) (1 + b)} - - - (9)

在实际滤波时，由于边缘效应，输出必须经过一定延迟后才达到稳定。实验表明，在采样率f_s＝16kHz，基频f_b＝160Hz时，经过6000到8000点输出才趋于稳定，而事实上，实验中每帧滤波数据只有160点，因此要对其先做周期延拓。定义T_d为延拓的周期长度

T_d＝ceil(160/T_b)*T_b (10)

其中T_b＝f_s/f_b，是基音周期；ceil(A)是一个MATLAB函数，返回不小于变量A的最近的整数，这样保证了T_d＞＝160。然后经过若干次的延拓，得到一个8000左右的数据序列，做滤波运算。取输出序列的最后一个延拓周期的前160点作为输出结果(见图3)。这样完成了一次滤波过程。对数据做逐帧处理，最后得到增强后的语音。

用FIR梳状滤波器进行滤波要比前述的IIR滤波器简单的多，它无须做周期延拓，不过为了消除滤波器的边缘效应，每次都要保留前一帧数据中最后与滤波器长度相当的部分。延迟量D仍由公式(8)确定。其增强倍数

m = \frac{1 + a}{1 - a} - - - (11)

图4是一句语音增强前后的语谱图的比较，可以明显看出其中的区别，增强后的语音中噪声得到明显抑制。增强过程用IIR梳状滤波器实现。需要强调的是，在具体实施中，为了保留清音的信息，梳状滤波器的增强倍数m应限制在一定范围内，实验验证一般m取值在1.3到1.7之间为宜(与信噪比有关)。

通过前述的方法即可实现语音的增强，但是这种增强改变了语音中清、浊音能量的对比关系，这会影响语音识别的正确率。为了对此加以补偿，本发明在做HMM(隐含马尔可夫模型)训练前，把训练数据也做梳状滤波，使得训练数据和测试数据的清、浊音能量的对比关系相近，以期减少识别语音和模型之间的失配，降低梳状滤波的负面影响。这样得到的隐含马尔科夫模型称为语音增强隐含马尔科夫模型(SE-HMM，Speech Enhanced Hidden Markov Model)。

为了说明本发明所提供的方法的效果，在下面的实验中，训练了HMM和SE-HMM两个模型，观测矢量39维，7个混合高斯密度，其中HMM训练数据取自863数据库，男女声各79人，每人650句子；SE-HMM由上面训练数据经梳状滤波后的结果训练而成。测试数据是集外，650句/人，共2人。全音节(404)网络识别。

首先验证在纯净语音下，语音增强本身对识别结果的不利影响。测试数据是2个人语音，表1是实验结果。

表1纯净语音识别结果对比

	正确率(Word Corr.)	准确率(Word Acc.)
	正确率(Word Corr.)	准确率(Word Acc.)	m＝1.0，HMM	78.12％	75.83％
m＝1.3，SE-HMM	77.49％	75.70％	m＝1.0，HMM	78.12％	75.83％

第一行是原始纯净语音用HMM识别的结果(m＝1.0表示没有经过梳状滤波器的增强处理)，第二行是经梳状滤波后的语音用SE-HMM识别的结果(m＝1.3)。从实验看出，虽然该语音增强改变了清、浊音的原有能量对比关系，但是通过对训练语音的浊音增强等措施，能将它的不利影响降到很低。可以设想，在噪声环境下，增强后的识别效果会优于增强前。

然后是对带噪语音的识别。背景噪声事先在实验室录得，包括计算机风扇、空调和来自窗外的其他噪声等。把语音和噪声按不同比例混合得到不同信噪比的语音。表2大体上说明了信噪比SNR、增强倍数m和语音识别率之间的关系。表中实验结果每一栏包含两个数据，前者是正确率，后者是准确率(Corr./Acc.)。实验结果显示，增强倍数m是和信噪比SNR相关的，信噪比越低，m取值越大。如果SNR＝13，m取1.3为宜，而SNR＝6.5时，m则取到1.5。识别结果正确率和准确率分别提高5％和7％左右，表中第一行是增强前的识别结果(用HMM模型)，黑体部分是增强后的较理想结果(用SE-HMM模型)。详情见表2。

表2带噪语音识别结果对比

增强倍数m	模型	SNR＝13	SNR＝6.5
增强倍数m	模型	SNR＝13	SNR＝6.5	1.0	HMM	50.47％/30.27％	28.70％/3.78％
1.3	SE-HMM	54.51％/36.69％	32.23％/11.21％	1.0	HMM	50.47％/30.27％	28.70％/3.78％
1.3	SE-HMM	54.51％/36.69％	32.23％/11.21％	1.5	SE-HMM	53.10％/34.99％	33.10％/11.20％

从以上的实验可知，基于语音增强的语音识别方法是可行有效的。它对各种噪声适应面比较大，对噪声的特性(如平稳性)没有要求，能在一定程度上提高识别率。

Claims

1、一种基于语音增强的语音识别方法，包括步骤：

(1)用训练数据进行隐含马尔可夫模型训练；

(2)用训练后的隐含马尔可夫模型对测试数据进行识别；

其特征在于，步骤(1)中的训练数据和步骤(2)中的测试数据都经过语音增强处理，所述的语音增强处理为用梳状滤波器进行梳状滤波。

2、根据权利要求1所述的语音识别方法，其特征在于，所述梳状滤波器为FIR梳状滤波器或IIR梳状滤波器。

3、根据权利要求1或2所述的语音识别方法，其特征在于，所述梳状滤波器的的增强倍数在1.3～1.7之间。