CN1983388A

CN1983388A - 一种基于dsp的语音识别及优化方法

Info

Publication number: CN1983388A
Application number: CNA2005101264949A
Authority: CN
Inventors: 李成荣; 岳红强
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2005-12-14
Filing date: 2005-12-14
Publication date: 2007-06-20

Abstract

本发明涉及嵌入式语音识别技术及应用领域，特别是一种基于TMS320VC5509A芯片的DSP语音交互模块的语音识别方法，该方法以大词汇量连续语音识别(LVCSR)的命令词语音识别方法为基础，在不降低语音识别率的前提下，采用了简化的声学模型，在不降低抗噪声性能的前提下，采用优化的抗噪声方法，并结合DSP语音交互模块的实际的硬件环境，对方法进行了优化，使DSP语音交互模块上的语音识别达到了良好的性能。

Description

一种基于DSP的语音识别及优化方法

技术领域

本发明涉及嵌入式语音识别技术领域，特别是一种基于TMS320VC5509A芯片的DSP语音交互模块的语音识别及优化方法。

背景技术

在基于TMS320VC5509A芯片的DSP语音交互模块上实现语音识别方法，会受到DSP平台资源的限制。采用基于整词建模的DTW匹配方法或其他简单的匹配方法，虽然能够在DSP语音交互模块上实时实现，并且能够取得比较高的语音识别性能，但是其缺点是：如果更换词表，就要求采集大量的数据来重新训练模型，导致使用起来很不方便；主流的基于Triphone(三音子)的大词汇量连续语音识别(LVCSR)的命令词语音识别方法语音识别率高，能识别的词汇量大，而且替换词表不需要重新训练模型，但是方法对硬件平台资源的要求很高，大词汇量连续语音识别(LVCSR)的命令词语音识别方法在DSP语音交互模块上难以直接实时实现。

发明内容

本发明的目的在于提供一种基于DSP的语音识别及优化方法。

一种基于TMS320VC5509A芯片的DSP语音识别方法，语音识别方法以大词汇量连续语音识别(LVCSR)的命令词语音识别方法为基础。

所述的DSP语音识别方法，声学模型采用基于SDCHMM(子空间分布聚类隐马尔可夫模型)Triphone(三音子)模型。

所述的DSP语音识别方法，在提取声学特征之前采用一步Wiener滤波方法进行抗所述的DSP语音识别方法，语音识别所用特征是39维MFCC系数。

所述的DSP语音识别方法，语音识别采用Onepass(一遍搜索)方法。所述的DSP语音识别方法，语音识别方法以充分利用TMS320VC5509A硬件资源(如双核结构、指数运算器等)为原则，对方法进行了结合实际硬件环境的优化。

为了充分利用基于Triphone(三音子)的大词汇量连续语音识别(LVCSR)的命令词语音识别方法在语音识别上语音识别率高、能识别的词汇量大、替换词表不需要重新训练模型等优点，克服基于TMS320VC5509A的DSP语音交互模块在硬件资源上的不足，本发明提出一种基于TMS320VC5509A的语音识别方法，该方法以基于Triphone(三音子)的大词汇量连续语音识别(LVCSR)的命令词语音识别方法为基础，通过使用简化的声学模型，和优化的抗噪声方法，并结合具体的DSP硬件环境对方法进行优化，在保证方法在DSP语音交互模块上实时实现的基础上，使语音识别达到了很高的性能。

1.基于TMS320VC550的DSP电路模块装置

DSP语音交互模块上的硬件资源描述如下：

(1)采用TMS320VC5509A作为处理器。TMS320VC5509A是典型的高性能、低功耗、16位定点的DSP处理器之一，它有两个独立的乘加单元(MAC)，一个指数运算器，运行速度最高可达200MIPS。

(2)两片1M字的16位的FLASH，支持16位BOOTLOADER模式，在DSP语音交互模块中用来存放程序、声学模型、编码语音数据。

(3)外扩4M字SRAM，在系统初始化的时候，把FLASH中的声学模型装载到片外SRAM，这是因为DSP访问片外SRAM的速度比访问片外FLASH的速度要快得多。

(4)AD/DA采用TI公司的高速模拟接口芯片TLC320AD50，它是16位音频codec(编解码器，coder-decoder)芯片，该芯片支持多种采样率，包括16kHz和8KHz，支持16位精度的采样，动态范围为91dB。

2.基于DSP语音交互模块的语音识别方法

2.1语音识别方法引擎简介

图1给出了语音识别系统的结构图。

(1)它采用基于SDCHMM(子空间分布聚类隐马尔可夫模型)的不带声调的上下文相关的Triphone(三音子)模型，相比传统的CDHMM(连续隐马尔可夫模型)模型而言，SDCHMM(子空间分布聚类隐马尔可夫模型)可以减少系统计算声学得分的计算量和节省存储空间；而基于Triphone(三音子)声学模型相对于Monophone(单音子)模型而言对声学模型描述的精度更高，识别率更高。

(2)训练声学模型的数据由加噪语音经过抗噪处理后得到，相对于纯净语音数据而言，可以增加系统的抗噪声性能，其中抗噪处理方法采用ETSI(欧洲电信标准协会)提出的标准的两阶段Wiener滤波方法(AFE)。

(3)在语音识别前端加上了抗噪方法，抗噪方法采用一步Wiener滤波方法，相对于ETSI(欧洲电信标准协会)提出的标准的两步Wiener滤波方法而言，它能够在几乎不降低抗噪性能的基础上，节省60％左右的计算量，这对在资源不是很丰富嵌入式平台实现是非常有利的。

(4)系统以8KHz的采样率采样语音数据，提取的特征参数为能量加上12维MFCC及其一阶、二阶差分共39维特征。

(5)识别方法采用Onepass(一遍搜索)方法。

2.2一步Wiener滤波方法

2.2.1一步Wiener滤波方法说明

ETSI公布的分布式语音识别(DSR)标准中，其前端抗噪方法(AFE)采用了包含两步Wiener滤波和盲均衡的方案。第一步滤波的作用是消除白噪声并且白化有色噪声。第二步滤波去除残余的白噪声。在去除完加性噪声之后采用盲均衡的自适应方法去除乘性噪声。

这种消除噪声的方法在实际应用中能够起到很好的应用效果，抗噪声性能好。但是两次Wiener滤波运算对计算量的消耗非常大，在嵌入式平台下实时实现存在一定的难度，为此本发明提出了一步Wiener滤波方法。

一步Wiener滤波方法在ETSI公布的标准的两步Wiener滤波方法的基础上，对含噪语音只进行一次Wiener滤波，消除白噪声并且白化有色噪声，为了节省计算量，不再进行第二步Wiener滤波。图2给出了一步Wiener滤波方法的系统结构图。实验证明：一步Wiener滤波方法能够在几乎不降低抗噪性能的前提条件下，使计算量减少60％。

2.2.2一步Wiener滤波方法测试

为了测试一步Wiener方法抗噪声性能，我们对方法进行了实验测试。实验测试环境描述如下：词表大小为200词；训练声学模型的数据通过加噪语音通过抗噪处理之后得到；测试集采用实验室采集的孤立词测试集，共2000个孤立词，由10个说话人(5男，5女)采集得到。测试时把2000个孤立词语音分别以5dB、10dB、15dB、20dB的信噪比加入babble、white、leopard、factory四种不同的噪声，试验结果取其平均值。测试

结果如表1：

	5dB(％)	10dB(％)	15dB(％)	20dB(％)
	5dB(％)	10dB(％)	15dB(％)	20dB(％)	无抗噪	68.27	85.88	89.54	90.03％
两步Wiener滤波(AFE)	83.80	87.71	87.82	87.51	无抗噪	68.27	85.88	89.54	90.03％
两步Wiener滤波(AFE)	83.80	87.71	87.82	87.51	改进Wiener滤波	85.02	88.38	88.86	88.58

表1改进Wiener滤波方法性能测试结果

测试结果表明：

(1)两步Wiener滤波和一步Wiener滤波与不加任何抗噪方法相比，特别是在信噪比(SNR)比较低的情况下，对识别率有明显改善作用。

(2)从试验结果看一步Wiener滤波的效果要比两步Wiener滤波效果好，经分析这是由于两步Wiener滤波是以提高语音质量为目的的，在以含噪语音训练出来的声学模型的语音识别器中，语音质量的提高并不一定会带来语音识别率的提高。经过一步Wiener滤波后的语音，对含噪语音训练的声学模型匹配效果更好，因此识别率更高。

(3)总体上来看，一步Wiener滤波和两步Wiener滤波相比在抗噪性能上来讲，效果相差不大，但是一步Wiener滤波与两步Wiener滤波相比计算量减少了近60％，在计算速度上更有优势。

2.3.基于平台自身的优化及结果

嵌入式平台都有自己的特点，在嵌入式平台下提高方法的性能，非但要从方法本身入手，在不损失识别率的前提条件下寻找计算量更小、更易实现的方法，还要根据编译器和嵌入式平台自身的特点对方法进行优化。特别是在DSP平台下实现计算量非常庞大的连续语音识别的命令词语音识别引擎更是如此。图3给出了大词汇量连续语音识别(LVCSR)的命令词语音识别方法的基于DSP平台自身优化结构图。

2.3.1基于编译器的语音识别方法优化

编译器对语音识别方法的影响主要表现在：编译系统把方法代码转化为机器代码时往往不能充分利用嵌入式平台自身的特点，造成效率很低。

为了测试编译器对语音识别方法的影响，我们专门用C++、C、C&ASM分别搭建了方法的系统平台，其中C&ASM平台是把用C语言构建的平台中的耗时部分改成汇编语言的系统。对它们执行的效率进行了测试。测试用的数据采用十个集外词的平均测试结果，DSP模块的运行速度为160MIPS。

表2给出了比较结果(表中数据单位是<倍实时>)。

	C++	C	C&ASM
	C++	C	C&ASM	改进Wiener滤波	0.433	0.438	0.407
提取特征(feature)	0.246	0.225	0.143	改进Wiener滤波	0.433	0.438	0.407
提取特征(feature)	0.246	0.225	0.143	后端搜索(Onepass)	1.185	1.123	0.970
共计	1.864	1.786	1.520	后端搜索(Onepass)	1.185	1.123	0.970

表2各种平台下方法的实时性比较

测试结果说明：从执行速度上来讲：用C&ASM构建的语音识别系统大于C语言系统，而C语言系统的执行速度又大于C++语言系统。

2.3.2浮点运算定点化

TMS320VC5509A是典型的高性能、低功耗、16位定点DSP之一。处理器在处理定点运算上有得天独厚的优势，但是在浮点运算上必须进行优化处理，把浮点运算经过定标之后转化成定点运算，才能提高方法的运算性能，由TMS320VC5509A提供的指数运算器可以很方便地对浮点数进行定标。

表3给出了处理器在160MIPS的条件下，进行100次单精度浮点数的加、减、乘、除运算优化之前和优化之后的实验结果：

	时间
	时间			优化前(微秒)	优化后(微秒)
加	107.97	1.88		优化前(微秒)	优化后(微秒)
加	107.97	1.88	减	123.60	1.88
乘	116.72	1.88	减	123.60	1.88
乘	116.72	1.88	除	478.60	37.81

表3浮点运算优化结果表

测试结果说明：把浮点运算转化为定点运算可以极大提高方法的运行速度，但是在对浮点数进行定标的时候需要根据实际情况采用不同的定标策略，在速度与精度之间寻找最佳的平衡点。

2.3.3并行处理

对语音识别方法进行优化时还应该充分利用C55X系列DSP的并行处理机制。并行处理机制可以使两条不同的指令在一个时钟周期内同时完成，这是C55X区别于C54X的最大的地方之一。从理论上来讲，采用C55X的并行处理机制，可以使方法的速度提高一倍。

2.4.系统软件结构的优化

从表2的结果中我们可以看到即使对语音识别方法做了基于平台自身的优化之后，总体耗时仍为一倍实时以上。在DSP语音交互模块上实现大词汇量连续语音识别的命令词语音识别系统，还需要对语音识别方法的结构进行优化：在录音的同时非但进行前端处理而且还进行部分搜索，等语音完毕之后完成剩余部分的搜索。这样可以大大节省等待语音识别结果的时间，提高系统的实时性。

本发明的有益效果是：在基于TMS320VC5509A芯片的DSP交互模块上实时地实现了基于大词汇量连续语音识别(LVCSR)的命令词语音识别引擎，使DSP语音交互模块上的语音识别除了具有语音识别率高、能识别的词汇量大、替换词表方便等优点之外，还具有良好的抗噪声性能。

附图说明

下面结合附图和实施例对本实用新型进一步说明。

图1语音识别引擎流程图。

图2一步Wiener滤波方法结构图。

图3基于平台自身优化结构图。

具体实施方式

图1为语音识别软件流程图，其步骤如下：

步骤S1-1：语音输入，在软件系统中采用中断的方式采集输入的语音，这样可以在输入语音的同时，对已经采集到的语音数据进行噪声消除、特征提取和进行部分搜索，这样可以节省用户等待语音识别结果的时间；

步骤S1-2：Wiener滤波，这部分处理主要是为了提高语音识别系统的鲁棒性，增加语音识别部分的抗噪声性能而做出的处理。它采用了一步Wiener滤波方法，在由ETSI(欧洲电信标准协会)提出的标准的两步Wiener滤波方法(AFE)的基础上，只进行一步Wiener滤波，消除白噪声并白化有色噪声，为了节省计算量不在进行第二步Wiener滤波；

步骤S1-3：声学特征提取，语音识别系统所提取的声学特征为能量加上12维MFCC及其一阶、二阶差分共39维特征；

步骤S1-4：声学模型。语音识别引擎采用基于SDCHMM(子空间分布聚类隐马尔可夫模型)的不带声调的上下文相关的Triphone(三音子)模型，训练声学模型的数据由加噪语音经过抗噪处理后得到，相对于纯净语音数据而言，可以增加系统的抗噪声性能，其中抗噪处理方法采用ETSI(欧洲电信标准协会)提出的标准的两阶段Wiener滤波方法(AFE)；

步骤S1-5：解码搜索，语音识别系统所采用的解码搜索方法为OnePass(一遍搜索)方法；

步骤S1-6：结果输出。把语音识别引擎得到的语音识别的结果输出。

图2为一步Wiener滤波方法的结构图，其步骤如下：

步骤S2-1：语音输入；

步骤S2-2：Wiener滤波，对未进行任何处理的声音信号进行Wiener滤波处理；

步骤S2-3：消除直流偏移，对Wiener滤波的结果进行直流偏移噪声的消除；

步骤S2-4：语音输出。

图3为基于平台自身优化结构图，其步骤如下：

步骤S3-1：基于编译器的优化，编译器对C++语言编译的效率最低，C语言次之，ASM(汇编)语言效率最高，因此对方法耗时的部分采用ASM(汇编)语言进行优化；

步骤S3-2：浮点运算定点化，处理器处理定点运算的能力强，处理浮点运算的能力差，采用把浮点运算经过定标之后转成定点运算，可以在保证一定精度的范围内，极大地提高运算速度；

步骤S3-3：并行处理，并行处理是C55X区别C54X的最大的不同之处，充分利用TMS320VC5509A的并行处理机制可以提高方法的运算速度。

Claims

1.一种基于TMS320VC5509A芯片的DSP语音识别方法，其特征是：语音识别方法以大词汇量连续语音识别LVCSR的命令词语音识别方法为基础。

2.根据权利要求1所述的DSP语音识别方法，其特征是：声学模型采用基于SDCHMM子空间分布聚类隐马尔可夫模型Triphone三音子模型。

3.根据权利要求1所述的DSP语音识别方法，其特征是：在提取声学特征之前采用一步Wiener滤波方法进行抗噪声处理。

4.根据权利要求1所述的DSP语音识别方法，其特征是：语音识别所用特征是39维MFCC系数。

5.根据权利要求1所述的DSP语音识别方法，其特征是：语音识别采用Onepass一遍搜索方法。

6.根据权利要求1所述的DSP语音识别方法，其特征是：语音识别方法以充分利用TMS320VC5509A硬件资源为原则，对方法进行了结合实际硬件环境的优化。

7.一种基于DSP的语音识别方法，其步骤如下：

步骤S1-1：语音输入，在软件系统中采用中断的方式采集输入的语音，可以在输入语音的同时，对已经采集到的语音数据进行噪声消除、特征提取和进行部分搜索；

步骤S1-2：Wiener滤波，采用一步Wiener滤波方法，在由ETSI欧洲电信标准协会提出的标准的两步Wiener滤波方法AFE的基础上，只进行一步Wiener滤波；

步骤S1-4：声学模型，语音识别引擎采用基于SDCHMM子空间分布聚类隐马尔可夫模型的不带声调的上下文相关的Triphone三音子模型，训练声学模型的数据由加噪语音经过抗噪处理后得到，其中抗噪处理方法采用ETSI欧洲电信标准协会提出的标准的两阶段Wiener滤波方法AFE；

步骤S1-5：解码搜索，语音识别系统所采用的解码搜索方法为OnePass一遍搜索方法；

步骤S1-6：结果输出，把语音识别引擎得到的语音识别的结果输出。

8.根据权利要求7所述的基于DSP的语音识别方法，其特征在于，一步Wiener滤波方法，其步骤如下：

步骤S2-1：语音输入；

步骤S2-4：语音输出。

9.一种基于DSP的语音优化方法，其步骤如下：基于平台自身优化，其步骤如下：

步骤S3-1：基于编译器的优化，编译器对C++语言编译的效率最低，C语言次之，ASM汇编语言效率最高，因此对方法耗时的部分采用ASM汇编语言进行优化；

步骤S3-2：浮点运算定点化，处理器处理定点运算的能力强，处理浮点运算的能力差，采用把浮点运算经过定标之后转成定点运算；