CN101335005A

CN101335005A - 语音识别系统中的前导噪声处理

Info

Publication number: CN101335005A
Application number: CNA2007100429464A
Authority: CN
Inventors: 赵风光
Original assignee: Shanghai Voicetune Information Technology Ltd Co
Current assignee: Shanghai Voicetune Information Technology Ltd Co
Priority date: 2007-06-28
Filing date: 2007-06-28
Publication date: 2008-12-31

Abstract

一种利用说话环境中语言和噪声的位置关系，以增强语音识别系统抗噪性的方法。该方法增加了一个新的状态，称为噪声模板，并采用一种新的状态结构，该结构在语音状态的开始前和结束后各增加一个可选的噪声态，从而形成一个多路选择，增加了语音识别的概率，这种方式的引入，根本上解决了误把前导噪声当称第一个语音态的可能，在实践中取得了很好的抗噪效果。根据该方法还简单介绍了一种模型库系统用于建立语音识别的模式匹配。

Description

语音识别系统中的前导噪声处理

技术领域

本发明属于模式识别，数字信号处理和自然语言处理等技术领域，是一种利用说话环境中语言和噪声的位置关系，以增强语音识别系统抗噪性的方法，并据此建立了一种系统。

背景技术

在人的交流环境中，由于地点的不同会产生大量噪声源，譬如机器轰鸣，森林动物叫声，商场嘈杂的说话声，甚至人在说话时的咂嘴声等.语音数字信号处理的技术之一就是研究如何去除各种噪声，提取更有效的语音信号.在特定环境下，如果噪声源是稳定的，处理手段相对比较简单，一些简单的滤波技术就可去处大部噪声.但是语音识别的环境往往并非是特定的，其噪声源也非常不稳定，几乎没有办法找到一种通用的去噪手段，虽然目前针对提高系统抗噪性出现了很多解决办法，如谱减法，并行模型合并法，数据丢弃法等，但最终效果都不是很理想，本发明结合语音识别，提出了一种去除前导噪声和随机噪声的方法。

发明内容

目前流行的语音识别技术通常是建立在隐含马尔科夫模型(HMM)的基础之上，这种技术把人们说话过程看成一个状态机.人的每句话，总是按前后顺序一个音一个音发出，不同的人发不同的音的停留长度通常是不一样的，但停留的时间却符合某种随机过程.因此一句话的发声，可以用图1所示的状态关系来描述.其中每个圆Q1，Q2，Q3，Q4，Q5分别代表一个状态，箭头从一个状态转移到下一个状态，每个状态都存在一自身转移符号，也称为停留.这种方式跟我们的发声机理非常类似.使用这种模型做语音识别，可以取得很高的识别效果，特别是在静音环境下，其识别率甚至可达99％以上.但是如果有像咂嘴声和尾音，随机噪声等这类噪声，其识别率就会急剧下降.在前端根本无法处理，如果采用图1所示的状态结构，识别器就会把噪声误认为第一个状态，使第一个状态的识别结果受到很大影响，从而影响整个识别结果.

为了处理这种情况，本发明提出增加一个新的状态，称为噪声模板，并采用一种新的状态结构，如图2所示.该结构在语音状态的开始前和结束后各增加一个可选的噪声态Qm，从而形成一个多路选择.在没有噪声的情况下，语音识别算法自动从Q1-＞Q2-＞Q3-＞Q4-＞Q5依次走过，如果有噪声，则经过带噪声模板的状态图，有三个途径可供选择：Qm-＞Q1-＞Q2-＞Q3-＞Q4-＞Q5，Qm-＞Q1-＞Q2-＞Q3-＞Q4-＞Q5-＞Qm，Q1-＞Q2-＞Q3-＞Q4-＞Q5-＞Qm。这种方式的引入，根本上解决了误把前导噪声当称第一个语音态的可能，提高了识别率，在实践中取得了很好的抗噪效果。

本发明中采用的噪声模版可通过两种方式来建立，在具体实践中根据实际情况可以自由选择。

方式一：将采集到的所有语音、噪声数据全部当成噪声源数据进行统一训练，得到一训练模版，将该模版当成噪声模版用于识别匹配。

方式二：将语音数据和噪声数据通过同一个动态赋值网络进行Viterbi算法跟踪，分别计算各节点的值，最后从网络起点到网络终点确定出一条最佳路径，语音数据和噪声数据会在网络上各产生一输出值，如果语音数据从终点到起点能正确回溯表示所经过的路径为正确地识别结果，这时就可将噪声数据的输出值作为噪声模版用于识别匹配，否则需重新进行路径选择。

在语音识别中，其中一个关键技术就是模式匹配与模型训练技术，模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。利用本发明的语音状态转移方式进行模型训练而建立的模型库经实验证明在模式匹配过程中能获得更精确的匹配值，从而增强了语音识别系统的抗噪性，提高了系统的识别率。

本发明也包含了一个模型库系统的建立，该模型库系统主要包括两个模块：噪声模版和纯语音模版，其中纯语音模版部分可采用安静环境下语音模版的训练方式来实现，因为这种方式已相对成熟，这里不再赘述，而噪声模版部分则根据前面所述两种方式任选其一来建立，由于Viterbi算法对于本领域的技术人员来说并不陌生，所以具体算法的实现也不再做具体描述。该模型库系统把两个模版结合起来一起作为识别的匹配参数。

该系统的结构相对比较简单，实现也很方便，因此这里只对建立的思路做了一个简单描述，本领域的技术人员根据该思路可灵活建立自己的模型训练库，内容不限于上面提到的两个模块，为了增加系统的健壮性，可以有其它模块的加入，但是凡是用到上面提及的设计思路的都属于本发明的范围。

附图说明

下面结合附图和实施方式对本发明作进一步说明。

图1是常用的语音状态结构图。

图2是改进后的语音状态结构图，也即本发明采用的语音状态转移方式。

图3是一种变通的语音状态结构图。

图4是本实施过程的语音控制流程图

具体实施方式

本发明结合语音识别系统的软件部分和硬件部分一起实现噪声环境下的语音识别。在硬件部分，微处理器选用了凌阳单片机SPCE061A，它的CPU内核为μ’nSP^TM16位微处理器芯片，μ’nSP^TM的指令系统提供具有较高运算速度的16位×16位的乘法运算指令和内积运算指令，并具有DSP功能，这使得μ’nSP^TM家族可以实现复杂的数字信号处理。同时内含双通道10位的DAC输出通道可以实现音频输出。为降低成本，本发明的模型训练采用芯片外完成，并根据本发明的状态结构训练出语音模版，而语音识别和输出部分采用芯片内实现。

语音识别部分共有四个软件模块：控制接口程序S1，语音识别器S6，语音解码器S3和熵编码器S4，各软件模块协同工作，可以有效实现语音控制功能。首先程序被加载进入SPCE061A并正常运行后，控制接口程序S1就打开语音输入输出设备等待用户输入命令，同时监控语音输入口，一旦发现是正常语音，控制接口程序就会通知语音识别器S6处理输入语音。在识别引擎中语音是按幀处理的，每次处理一幀，一般每幀10毫秒。将处理过的语音与片外训练生成的模型库S7进行匹配对比，最后确定识别结果。片外训练生成的模型库S7以本发明采用的方式建立，包括噪声模版和纯语音模版两部分。控制接口程序S1一旦发现语音输入结束，就通知语音识别器S6，这时语音识别器S6就会将识别结果返回。识别结果包括错误状态信息S21和识别命令索引S22；如果识别到规定的命令，控制接口程序S1会把命令索引通过16位IO口输出，同时通知语音解码器S3播放一段相应录音。语音解码器S3根据命令索引，在ROM中查找到相应位置，通过熵编码器S4读出语音编码流，解出语音数据送入D/A，产生语音效果。如果识别结果不正确，控制接口程序转入错误处理。主要错误有：拒绝错误，该错误是由于读入的命令是非内置命令所产生；命令太长错误，该错误是因用户读的命令太长造成的；命令太短错误，该错误是因用户读的命令太短造成的。

本发明提出的以增加噪声模版的方式对语音识别中存在像咂嘴声和尾音，随机噪声等这类噪声时具有很好的识别效果，是一种低成本且十分有效的提高系统抗噪性，提高识别率的方式。

作为一种变通方式，还可以采用如图3所示的状态结构，这种结构不仅在语音状态的开始前和结束后加有噪声模版，还可将它加在各状态之间，用以滤除状态之间的噪声，当语音识别算法进入时将有更多途径可供选择，例如：Q1-＞Q2-＞Q3-＞Q4-＞Q5，Qm-＞Q1-＞Q2-＞Q3-＞Q4-＞Q5，Qm-＞Q1-＞Qm-＞Q2-＞Q3-＞Q4-＞Q5等，不过发明者根据多年的实践经验发现，采用图2的结构其抗噪性更好，在语音识别系统中更具通用性。

Claims

1.一种语音状态结构模型，用以解决当存在诸如咂嘴声和尾音，随机噪声等这类噪声时识别率不高的问题，其特征是增加一个新的状态，称为噪声模板，即在语音状态的开始前和结束后各增加一个可选的噪声态，从而形成一个多路选择，当有噪声时，可选带噪声模板的状态图，这样增加了识别的概率，提高了语音识别系统的抗噪能力。

2.根据权利要求1所述的语音状态结构模型，其特征是，噪声模版可采用两种方式来建立：

方式一：将采集到的所有语音、噪声数据全部当成噪声源数据进行统一训练，得到一训练模版，将该模版当成噪声模版用于识别匹配，

方式二：将语音数据和噪声数据通过同一个动态赋值网络进行Viterbi算法跟踪，分别计算各节点的值，最后从网络起点到网络终点确定出一条最佳路径，语音数据和噪声数据在网络上各有一输出值，如果语音数据从终点到起点能正确回溯表示所经过的路径为正确地识别结果，就可将噪声数据的输出值作为噪声模版用于识别匹配，否则需重新进行路径选择。

3.一种变通的语音状态结构模型，可以解决状态之间有噪声的问题，其特征是，除了在语音状态的开始前和结束后各增加一个可选的噪声态之外，还可以在各状态之间也加上噪声态。

4.根据权利要求3所述的变通的语音状态结构模型，其特征是，噪声模版可采用两种方式来建立：

5.一种模型库系统，用于建立语音识别的模式匹配，其特征是，包含噪声模版和纯语音模版两个模块，一起作为识别的匹配参数。

6.根据权利要求5所述的模型库系统，其特征是，噪声模版部分根据权利要求1和权利要求3所述的语音状态结构模型建立。