CN101320560A

CN101320560A - 语音识别系统应用采样速率转化提高识别率的方法

Info

Publication number: CN101320560A
Application number: CNA2008100400136A
Authority: CN
Inventors: 黄振华; 侯丽敏
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2008-07-01
Filing date: 2008-07-01
Publication date: 2008-12-10

Abstract

涉及一种语音识别系统应用采样速率转化提高识别率的方法。本方法提出对识别前的语音的采样速率进行采样速率归一化，使测试语音与训练时语音采样速率一致，减少采样速率不一致导致的误识率。并针对分数采样率转换提出一种新的采样率转换结构，与现有方法不同的是，它能完整的保留原始频谱，避免采样率转换时频谱高频部分的丢失。因此利用它来改善大词汇量的孤立词识别系统中采样速率不一致而导致的误识率是非常有效的。

Description

语音识别系统应用采样速率转化提高识别率的方法

技术领域

本发明涉及一种语音识别系统提高识别率的方法，特别是一种语音识别系统采用速率转化提高识别率的方法。

背景技术

一个完整的语音识别系统通常分为两个阶段：训练阶段和识别阶段。在训练阶段，对大量的语音提取特征参数并进行相应的处理，获得表示识别基本单元共性特点的标准数据，以此构成参考模型，将所有能识别的基本单元的参考模型结合在一起，形成参考模型库；在识别阶段，将待识别的语音经特征提取后逐一与参考模型库中的各个模板按某种原则进行比较，找出最相似的参考模型所对应的发音，即为识别结果。

小词汇量的孤立词语音识别系统常将词或短语作为一个基本的语音单元，这对于简化识别系统的结构和训练过程是非常有效的。但当需要添加新的词汇时，就必须对这个词进行重新训练。另外以词为基本单元的训练，词内的各音素重复出现，造成大量不必要的冗余存储和计算，因此在大词汇量的孤立词识别系统中^[1]，常采用比词小的子词识别基元，如音素。一般来说，声学单元越小，其数量就越少，训练的工作量也就越小，但是，单元越小，对于上下文的敏感性越大，越容易受到前后相邻的影响而产生变异，因此其类型的设计和训练样本的采集更困难。由子词单元构成的声学模型库，可用一部字典来规定词表中的每个词是用哪些子词单元以何种方式构成，通过添加和删除识别词表，就能将语音识别系统方便地应用于不同的领域。

从上可知，要得到一个稳定通用的声学模型库通常需要花费大量时间进行样本的采集和训练。但是识别时语音的采样速率与训练阶段采用的语音的采样速率并不一定是一致的，因为训练时采用的语音采样率已经固定(本文中训练采用的语音采样率为12kHz)，而识别时的语音采样率是可变的。比如电话语音的采样率通常为8kHz，CD采用的采样速率一般为22.025kHz或44.1kHz，如果采用与训练时不一致采样率的语音来进行语音识别实验，通过实验分析，识别率会大大降低。导致这个问题的原因是有两个：

1)参数问题：无论是训练还是测试，都必须对语音信号进行预处理，并提取频域参数^[2](MFCC参数)，当训练与测试语音的采样率不相同时，对于同样阶次的MFCC参数的提取，必然出现训练与测试MFCC参数的Mel滤波器组的中心频率有很大的不同，因此导致匹配不准确。

2)频谱问题：观察同一语音在采样率为8kHz和采样率12kHz的频谱，发现前者与后者相比丢失了2kHz的高频信息，这部分信息的缺失对识别率也有很大的影响。

因此如何对识别前的语音的采样速率进行采样速率归一化，使之与训练时语音采样速率一致，减少采样速率不一致导致的误识率是本发明的重点。

发明内容

本发明的目的在于针对已有技术存在的缺陷，提供一种语音识别系统应用采样速率转化提高识别率的方法。本方法是对识别的语音的采样速率进行归一化，使之与训练时语音采样速率一致，减少因为采样速率不一致导致的误识率。本发明原始训练的语音采样速率为12KHz，现采用电话中采集的语音作为识别语音，其采样速率为8KHz。为了尽可能地利用已训练好的语音声学库，避免重新训练带来的资源和时间的浪费，本发明采用了采样速率转换，并提出一种新的高效转换结构，并将它应用于大词汇量孤立词语音识别系统。通过实验证明这种方法对识别率的提高是非常有效的。

为达到上述的目的，本发明的构思是：如图1所示，对于输入语音，首先提取并查看其采样速率是否与训练时语音采样速率一致，如果不一致，就经过一个采样速率转换模块将其采样速率进行归一化处理，使之与训练时一致。

上述构思的原理是：从上分析可知，本发明需要实现的采样速率转换为一个分数倍(3/2)的抽样率转换。比值为3/2倍采样率转换的过程如图2所示，从时域来看，抽样率转换是按下述方法进行的。先对x(n₁T₁)进行3倍零值内插，即相邻抽样点之间等间距地插补上2个0值点，变为v(rT₃)，v(rT₃)经过一个通带边缘频率较低的一个滤波器h(rT₃)变成u(rT₃)，对u(rT₃)进行2倍抽取得到y(n₂T₂)。y(n₂T₂)就是所需要的结果。其中波器常采用FIR滤波器，它有两方面优势，一，它是绝对稳定的并且有很容易做成线性相位的优点，另外它容易实现时变网络的高效结构。

直接结构是先对信号进行上采样，然后再抽取，容易看出这种分解方法并不是最有效的，因为滤波器的乘法运算仍然是在采样频率最高的地方进行的，这样使得每秒钟的乘法次数很高，而且滤波器后的抽取过程只会保留一部分点的数据，这样造成许多计算工作量是徒劳的。利用原始框图直接实现并不是一个好的方案，从图2可以看出，这个系统的主要运算集中在滤波器的实现部分，实际运用到识别系统时，滤波器的运算是在最高采样率24kHz实现的，另外经过滤波器运算的部分值在进行抽取时将被丢弃，因此直接实现存在很多的资源浪费。为了减少计算量，常采用多相结构或时变网络高效结构对系统进行简化^[3][4]。

比值为3/2倍采样率转换器的时变网络如图3(a)所示。

其中选择器S₀，S₁，...S_Q只有当

时才同时开通。由于

中含有

随着n₂的不同，

具有0，1，2三个不同的数值，即将

分为三组，每组个数为Q，求不同的y(n2T2)所用到的滤波器系数按组别循环出现，所以整个系统是一个周期时变的系统，它包括了零值内插、滤波和抽取。滤波运算在输出抽样率下(12kHz)进行，因此是一个高效的系统，运算中使用的h[·]最少，这是分数倍抽样率转换系统的最经济的实现方法之一。时变网络结构的具体实现如图3(b)所示，整个设计由五个单元构成：系数地址产生单元，系数存储和缓冲单元，输入数据缓冲单元，运算单元及输出数据缓冲单元。系数地址产生单元由一个最大计数为N-1的计数器构成，循环产生系数地址0到N-1；系数存储和缓冲单元用于存储滤波器系数，并按系数地址将滤波器系数顺序读出，再通过Q＝N/2级缓存，将一路系数输出转换为Q路系数输出，滤波器系数在存储器中每Q个组，按

顺序存放；输入数据缓冲单元通过Q级缓存，完成一路信号输入到Q路信号输出的转换；运算单元完成Q路滤波器系数与Q路输入数据的乘法运算，并将乘积累加；输出数据缓冲单元将运算单元的乘加结果进行缓冲，以得到输出数据。

对采样率转换器转换效果的检验一般从两方面进行，一方面是计算量的大小，对于实时语音识别系统，除了高识别率以外，如何快速得到识别结果也是系统实施时必须考虑的关键问题；另一方面是转换前后的频谱效果的分析，这一部分反映了采样率转换器中的滤波器是否能符合设计对语音频谱的需求。一般来说，要得到理想的频谱滤波效果，计算量必然相应增加，反之亦然。

为了检验采样速率的转换效果，对转换前后的语音进行频谱分析，输入采样率为8kHz的白噪声，经过采样率转换后得到12kHz的噪声信号，分析其频谱结构，如图4(a)所示：

从图4(a)可以看出，在4kHz频谱衰减非常快，但是在3.6kHz~4kHz有一个过渡带，这个过渡带导致3.6kHz~4kHz高频信息存在不同程度的衰减，理想的频谱响应应不存在过渡带，但是这种矩形滤波在现实中是无法实现的，因为滤波器的阶数与过渡带是成反比的，过渡带越大，滤波器阶数就越少，实现起来就越容易，反之依然。为了解决这个问题，本发明提出一种新的多级滤波的结构。

两级采样率转换结构采用两级滤波，其实现框图如图5所示。第一级采用时变网络结构对采样速率进行转换，滤波器采用不影响原始信号情况下的最宽的过渡带(过渡带为2kHz)，滤波时在高频不管带处引入混叠失真；第二级滤波器在频域实现高阶，窄过渡带的高效滤波，综合两者实现近乎理想的滤波效果。其频谱响应如图4(b)所示。

分析以上三种结构的计算量，从整个采样速率转换过程分析，采样速率转换的计算量主要集中在滤波器的实现上，表1给出了直接结构，时变网络结构以及二级滤波结构的运算量比较。其中需要的运算量定义为每秒需要的乘法数量(定义为滤波器阶数*滤波器工作频率^[5])。

这里主要对二级滤波计算量进行详细分析，由于第一级滤波器选择的过渡带很宽，所以滤波器阶数为22阶，第一级实现采样速率转换，采用时变网络结构。第二级滤波器采用16384阶频域滤波器实现100Hz过渡带的滤波。从上分析可知，第一阶滤波器输出的信号的采样率已经被转换为12kHz，但是在“不管带”引入了噪声(不管带即原始语音频率带外的频段，这里为4kHz~6kHz频段)。第二级滤波器实现噪声的滤除，由于只需要进行滤波，所以可以转换到频域进行，减少高阶时域滤波的计算量。

表1运算量比较

	滤波器阶数	每秒乘法次数(Mps)
	滤波器阶数	每秒乘法次数(Mps)	直接结构	73	1752000
时变网络结构	73	876000	直接结构	73	1752000
时变网络结构	73	876000	二级结构	22+16384	822912

从表1中，容易看出，时变网络结构的运算量比直接结构少一半，在时间节约一半，容易实现实时处理。而本文提出的二级结构，经计算得出第一级滤波器每秒乘法数目为528000，第二级滤波器每秒乘法数目为294912，二级滤波结构总的计算量为822912。这种方法计算量小于一级时变网络结构，同上输入采样率为8kHz的噪声，分析转换后的噪声频谱，如图4(b)，其效果近乎于理想情况。

根据上述的发明构思及原理，本发明采用下述技术方案：

一种语音识别系统应用采样速率转化提高识别率的方法，其特征在于对识别前的语音的采样速率进行采样速率归一化，使测试语音与训练时语音采样速率一致，减少采样速率不一致导致的误识率；并针对分数采样率转换提出一种采样率转换结构，能完整的保留原始频谱，避免采样率转换时频谱高频部分的丢失；因此利用它来有效改善大词汇量的孤立词识别系统中采样速率不一致而导致的误识率；其具体操作步骤是：

1)对输入进来的语音，首先进行采样速率判断，看是否需要进行采样速率转换；

2)对需要进行采样速率转换的语音进行采样速率转换；

3)对归一化后的语音进行MFCC参数提取；

4)将语音参数送入识别模块，进行语音识别；

5)最后根据得分高低得到识别结果。

上述步骤2)中的采样速率转换的实施步骤如下：

根据权利要求1所述的语音识别系统应用采样速率转化提高识别率的方法，其特征在于步骤2)中的采样速率转换的实施步骤如下：

(1)利用时变网络结构实现分数倍采样速率转换，在不管带引入大量噪声；

(2)对变换后的语音进行傅立叶变换，转换到频域，同时计算第二级滤波器的系数，也进行傅立叶变换，得到频域系数；

(3)对采样速率转换后的语音在频域进行滤波处理；

(4)最后得到转换后的语音。

上述步骤(1)中的利用时变网络结构实现分数倍采样速率转换的具体步骤如下：

①输入数据x(n₁T₁)经过输入数据缓冲单元后，产生计算一个输出所需要的Q路数据，并将它们送入运算单元；

②同时，Q路滤波器系数也进入运算单元，与Q路输入数据进行相应的乘加运算；

③乘加的结果经过数据缓冲单元后得到输出y(n₂T₂)。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

本发明对识别前的语音的采样速率进行采样速率归一化，使测试语音与训练时语音采样速率一致，减少采样速率不一致导致的误识率。并针对分数采样率转换提出一种新的采样率转换结构，与现有方法不同的是，它能完整的保留原始频谱，避免采样率转换时频谱高频部分的丢失。因此利用它来改善大词汇量的孤立词识别系统中采样速率不一致而导致的误识率是非常有效的。

附图说明

图1是本发明的采样速率转换在语音识别系统中的应用的整体结构框图。

图2是直接结构采样速率转换的框图。

图3是时变网络结构的采样速率转换的网络结构及实现框图。

图4是时变网络结构及二级滤波结构频谱分析图。

图5是本发明提出的两级滤波的采样速率转换结构框图。

具体实施方式

本发明的一个实施例结合附图详述如下：

参见图1，本语音识别系统应用采样速率转化提高识别率的方法具体操作步骤是：

2)对需要进行采样速率转换的语音进行采样速率转换；

3)对归一化后的语音进行MFCC参数提取；

4)将语音参数送入识别模块，进行语音识别；

5)最后根据得分高低得到识别结果。

上述步骤2)中的采样速率转换的实施步骤如下，参见图5：

(3)对采样速率转换后的语音在频域进行滤波处理；

(4)最后得到转换后的语音。

上述步骤(1)中的利用时变网络结构实现分数倍采样速率转换的具体步骤：参见图3。

③乘加的结果经过数据缓冲单元后得到输出y(n₂T₂)。

下面给出采样率转换的应用效果：

对于已有的孤立词基线识别系统：

1)训练条件：采样率为12kHz的语音，提取MFCC参数；

2)模型：基于隐马尔可夫(HMM)的音素模型；

3)词典：根据音素和发音词典可随意添加孤立词，实验采用的词典中词的数目为300。

识别语音分别为采样率为12kHz的语音，采样率为8kHz的语音，经过采样率转换转换的采样率为12kHz的语音，分别将这些语音输入基线识别系统进行测试测试结果如表2所示：

表2不同测试人的测试结果

从上表可以看出，经过采样率转换的语音识别率比直接采用8kHz的语音的识别率大有提高，测试者1比转换前提高7.8％，而且识别率比原始12kHz的语音的识别率也高出7.2％。测试者1比转换前提高28％，而且识别率比原始12kHz的语音的识别率高出2％。对于不同人，由于口音清晰度不一致，所以导致对有些人的识别率提高的非常显著，但整体来讲，采样率转换对解决训练，识别采样率不一致造成的语音识别率下降是非常有用的。

Claims

1.一种语音识别系统应用采样速率转化提高识别率的方法，其特征在于对识别前的语音的采样速率进行采样速率归一化，使测试语音与训练时语音采样速率一致，减少采样速率不一致导致的误识率；并针对分数采样率转换提出一种采样率转换结构，能完整的保留原始频谱，避免采样率转换时频谱高频部分的丢失；因此利用它来有效改善大词汇量的孤立词识别系统中采样速率不一致而导致的误识率；

其具体操作步骤是：

a.对输入进来的语音，首先进行采样速率判断，看是否需要进行采样速率转换；

b.对需要进行采样速率转换的语音进行采样速率转换；

c.对归一化后的语音进行MFCC参数提取；

d.将语音参数送入识别模块，进行语音识别；

e.最后根据得分高低得到识别结果。

2.根据权利要求1所述的语音识别系统应用采样速率转化提高识别率的方法，其特征在于步骤2)中的采样速率转换的实施步骤如下：

a.利用时变网络结构实现分数倍采样速率转换，在不管带引入大量噪声；

b.对变换后的语音进行傅立叶变换，转换到频域，同时计算第二级滤波器的系数，也进行傅立叶变换，得到频域系数；

c.对采样速率转换后的语音在频域进行滤波处理；

d.最后得到转换后的语音。

3.根据权利要求2所述的语音识别系统应用采样速率转化提高识别率的方法，其特征在于步骤(1)中的时变网络结构实现分数倍采样速率转换的具体步骤如下：

a.输入数据x(n₁T₁)经过输入数据缓冲单元后，产生计算一个输出所需要的Q路数据，并将它们送入运算单元；

b.同时，Q路滤波器系数也进入运算单元，与Q路输入数据进行相应的乘加运算；

c.乘加的结果经过数据缓冲单元后得到输出y(n₂T₂)。