CN101335005A - 语音识别系统中的前导噪声处理 - Google Patents

语音识别系统中的前导噪声处理 Download PDF

Info

Publication number
CN101335005A
CN101335005A CNA2007100429464A CN200710042946A CN101335005A CN 101335005 A CN101335005 A CN 101335005A CN A2007100429464 A CNA2007100429464 A CN A2007100429464A CN 200710042946 A CN200710042946 A CN 200710042946A CN 101335005 A CN101335005 A CN 101335005A
Authority
CN
China
Prior art keywords
noise
masterplate
data
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100429464A
Other languages
English (en)
Inventor
赵风光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Voicetune Information Technology Ltd Co
Original Assignee
Shanghai Voicetune Information Technology Ltd Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Voicetune Information Technology Ltd Co filed Critical Shanghai Voicetune Information Technology Ltd Co
Priority to CNA2007100429464A priority Critical patent/CN101335005A/zh
Publication of CN101335005A publication Critical patent/CN101335005A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

一种利用说话环境中语言和噪声的位置关系,以增强语音识别系统抗噪性的方法。该方法增加了一个新的状态,称为噪声模板,并采用一种新的状态结构,该结构在语音状态的开始前和结束后各增加一个可选的噪声态,从而形成一个多路选择,增加了语音识别的概率,这种方式的引入,根本上解决了误把前导噪声当称第一个语音态的可能,在实践中取得了很好的抗噪效果。根据该方法还简单介绍了一种模型库系统用于建立语音识别的模式匹配。

Description

语音识别系统中的前导噪声处理
技术领域
本发明属于模式识别,数字信号处理和自然语言处理等技术领域,是一种利用说话环境中语言和噪声的位置关系,以增强语音识别系统抗噪性的方法,并据此建立了一种系统。
背景技术
在人的交流环境中,由于地点的不同会产生大量噪声源,譬如机器轰鸣,森林动物叫声,商场嘈杂的说话声,甚至人在说话时的咂嘴声等.语音数字信号处理的技术之一就是研究如何去除各种噪声,提取更有效的语音信号.在特定环境下,如果噪声源是稳定的,处理手段相对比较简单,一些简单的滤波技术就可去处大部噪声.但是语音识别的环境往往并非是特定的,其噪声源也非常不稳定,几乎没有办法找到一种通用的去噪手段,虽然目前针对提高系统抗噪性出现了很多解决办法,如谱减法,并行模型合并法,数据丢弃法等,但最终效果都不是很理想,本发明结合语音识别,提出了一种去除前导噪声和随机噪声的方法。
发明内容
目前流行的语音识别技术通常是建立在隐含马尔科夫模型(HMM)的基础之上,这种技术把人们说话过程看成一个状态机.人的每句话,总是按前后顺序一个音一个音发出,不同的人发不同的音的停留长度通常是不一样的,但停留的时间却符合某种随机过程.因此一句话的发声,可以用图1所示的状态关系来描述.其中每个圆Q1,Q2,Q3,Q4,Q5分别代表一个状态,箭头从一个状态转移到下一个状态,每个状态都存在一自身转移符号,也称为停留.这种方式跟我们的发声机理非常类似.使用这种模型做语音识别,可以取得很高的识别效果,特别是在静音环境下,其识别率甚至可达99%以上.但是如果有像咂嘴声和尾音,随机噪声等这类噪声,其识别率就会急剧下降.在前端根本无法处理,如果采用图1所示的状态结构,识别器就会把噪声误认为第一个状态,使第一个状态的识别结果受到很大影响,从而影响整个识别结果.
为了处理这种情况,本发明提出增加一个新的状态,称为噪声模板,并采用一种新的状态结构,如图2所示.该结构在语音状态的开始前和结束后各增加一个可选的噪声态Qm,从而形成一个多路选择.在没有噪声的情况下,语音识别算法自动从Q1->Q2->Q3->Q4->Q5依次走过,如果有噪声,则经过带噪声模板的状态图,有三个途径可供选择:Qm->Q1->Q2->Q3->Q4->Q5,Qm->Q1->Q2->Q3->Q4->Q5->Qm,Q1->Q2->Q3->Q4->Q5->Qm。这种方式的引入,根本上解决了误把前导噪声当称第一个语音态的可能,提高了识别率,在实践中取得了很好的抗噪效果。
本发明中采用的噪声模版可通过两种方式来建立,在具体实践中根据实际情况可以自由选择。
方式一:将采集到的所有语音、噪声数据全部当成噪声源数据进行统一训练,得到一训练模版,将该模版当成噪声模版用于识别匹配。
方式二:将语音数据和噪声数据通过同一个动态赋值网络进行Viterbi算法跟踪,分别计算各节点的值,最后从网络起点到网络终点确定出一条最佳路径,语音数据和噪声数据会在网络上各产生一输出值,如果语音数据从终点到起点能正确回溯表示所经过的路径为正确地识别结果,这时就可将噪声数据的输出值作为噪声模版用于识别匹配,否则需重新进行路径选择。
在语音识别中,其中一个关键技术就是模式匹配与模型训练技术,模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。利用本发明的语音状态转移方式进行模型训练而建立的模型库经实验证明在模式匹配过程中能获得更精确的匹配值,从而增强了语音识别系统的抗噪性,提高了系统的识别率。
本发明也包含了一个模型库系统的建立,该模型库系统主要包括两个模块:噪声模版和纯语音模版,其中纯语音模版部分可采用安静环境下语音模版的训练方式来实现,因为这种方式已相对成熟,这里不再赘述,而噪声模版部分则根据前面所述两种方式任选其一来建立,由于Viterbi算法对于本领域的技术人员来说并不陌生,所以具体算法的实现也不再做具体描述。该模型库系统把两个模版结合起来一起作为识别的匹配参数。
该系统的结构相对比较简单,实现也很方便,因此这里只对建立的思路做了一个简单描述,本领域的技术人员根据该思路可灵活建立自己的模型训练库,内容不限于上面提到的两个模块,为了增加系统的健壮性,可以有其它模块的加入,但是凡是用到上面提及的设计思路的都属于本发明的范围。
附图说明
下面结合附图和实施方式对本发明作进一步说明。
图1是常用的语音状态结构图。
图2是改进后的语音状态结构图,也即本发明采用的语音状态转移方式。
图3是一种变通的语音状态结构图。
图4是本实施过程的语音控制流程图
具体实施方式
本发明结合语音识别系统的软件部分和硬件部分一起实现噪声环境下的语音识别。在硬件部分,微处理器选用了凌阳单片机SPCE061A,它的CPU内核为μ’nSPTM16位微处理器芯片,μ’nSPTM的指令系统提供具有较高运算速度的16位×16位的乘法运算指令和内积运算指令,并具有DSP功能,这使得μ’nSPTM家族可以实现复杂的数字信号处理。同时内含双通道10位的DAC输出通道可以实现音频输出。为降低成本,本发明的模型训练采用芯片外完成,并根据本发明的状态结构训练出语音模版,而语音识别和输出部分采用芯片内实现。
语音识别部分共有四个软件模块:控制接口程序S1,语音识别器S6,语音解码器S3和熵编码器S4,各软件模块协同工作,可以有效实现语音控制功能。首先程序被加载进入SPCE061A并正常运行后,控制接口程序S1就打开语音输入输出设备等待用户输入命令,同时监控语音输入口,一旦发现是正常语音,控制接口程序就会通知语音识别器S6处理输入语音。在识别引擎中语音是按幀处理的,每次处理一幀,一般每幀10毫秒。将处理过的语音与片外训练生成的模型库S7进行匹配对比,最后确定识别结果。片外训练生成的模型库S7以本发明采用的方式建立,包括噪声模版和纯语音模版两部分。控制接口程序S1一旦发现语音输入结束,就通知语音识别器S6,这时语音识别器S6就会将识别结果返回。识别结果包括错误状态信息S21和识别命令索引S22;如果识别到规定的命令,控制接口程序S1会把命令索引通过16位IO口输出,同时通知语音解码器S3播放一段相应录音。语音解码器S3根据命令索引,在ROM中查找到相应位置,通过熵编码器S4读出语音编码流,解出语音数据送入D/A,产生语音效果。如果识别结果不正确,控制接口程序转入错误处理。主要错误有:拒绝错误,该错误是由于读入的命令是非内置命令所产生;命令太长错误,该错误是因用户读的命令太长造成的;命令太短错误,该错误是因用户读的命令太短造成的。
本发明提出的以增加噪声模版的方式对语音识别中存在像咂嘴声和尾音,随机噪声等这类噪声时具有很好的识别效果,是一种低成本且十分有效的提高系统抗噪性,提高识别率的方式。
作为一种变通方式,还可以采用如图3所示的状态结构,这种结构不仅在语音状态的开始前和结束后加有噪声模版,还可将它加在各状态之间,用以滤除状态之间的噪声,当语音识别算法进入时将有更多途径可供选择,例如:Q1->Q2->Q3->Q4->Q5,Qm->Q1->Q2->Q3->Q4->Q5,Qm->Q1->Qm->Q2->Q3->Q4->Q5等,不过发明者根据多年的实践经验发现,采用图2的结构其抗噪性更好,在语音识别系统中更具通用性。

Claims (6)

1.一种语音状态结构模型,用以解决当存在诸如咂嘴声和尾音,随机噪声等这类噪声时识别率不高的问题,其特征是增加一个新的状态,称为噪声模板,即在语音状态的开始前和结束后各增加一个可选的噪声态,从而形成一个多路选择,当有噪声时,可选带噪声模板的状态图,这样增加了识别的概率,提高了语音识别系统的抗噪能力。
2.根据权利要求1所述的语音状态结构模型,其特征是,噪声模版可采用两种方式来建立:
方式一:将采集到的所有语音、噪声数据全部当成噪声源数据进行统一训练,得到一训练模版,将该模版当成噪声模版用于识别匹配,
方式二:将语音数据和噪声数据通过同一个动态赋值网络进行Viterbi算法跟踪,分别计算各节点的值,最后从网络起点到网络终点确定出一条最佳路径,语音数据和噪声数据在网络上各有一输出值,如果语音数据从终点到起点能正确回溯表示所经过的路径为正确地识别结果,就可将噪声数据的输出值作为噪声模版用于识别匹配,否则需重新进行路径选择。
3.一种变通的语音状态结构模型,可以解决状态之间有噪声的问题,其特征是,除了在语音状态的开始前和结束后各增加一个可选的噪声态之外,还可以在各状态之间也加上噪声态。
4.根据权利要求3所述的变通的语音状态结构模型,其特征是,噪声模版可采用两种方式来建立:
方式一:将采集到的所有语音、噪声数据全部当成噪声源数据进行统一训练,得到一训练模版,将该模版当成噪声模版用于识别匹配,
方式二:将语音数据和噪声数据通过同一个动态赋值网络进行Viterbi算法跟踪,分别计算各节点的值,最后从网络起点到网络终点确定出一条最佳路径,语音数据和噪声数据在网络上各有一输出值,如果语音数据从终点到起点能正确回溯表示所经过的路径为正确地识别结果,就可将噪声数据的输出值作为噪声模版用于识别匹配,否则需重新进行路径选择。
5.一种模型库系统,用于建立语音识别的模式匹配,其特征是,包含噪声模版和纯语音模版两个模块,一起作为识别的匹配参数。
6.根据权利要求5所述的模型库系统,其特征是,噪声模版部分根据权利要求1和权利要求3所述的语音状态结构模型建立。
CNA2007100429464A 2007-06-28 2007-06-28 语音识别系统中的前导噪声处理 Pending CN101335005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100429464A CN101335005A (zh) 2007-06-28 2007-06-28 语音识别系统中的前导噪声处理

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100429464A CN101335005A (zh) 2007-06-28 2007-06-28 语音识别系统中的前导噪声处理

Publications (1)

Publication Number Publication Date
CN101335005A true CN101335005A (zh) 2008-12-31

Family

ID=40197562

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100429464A Pending CN101335005A (zh) 2007-06-28 2007-06-28 语音识别系统中的前导噪声处理

Country Status (1)

Country Link
CN (1) CN101335005A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104428832A (zh) * 2012-07-09 2015-03-18 Lg电子株式会社 语音识别装置及其方法
CN104463393A (zh) * 2013-09-17 2015-03-25 中国农业科学院农业信息研究所 一种基于语音的农产品价格的采集方法
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN107909715A (zh) * 2017-09-29 2018-04-13 嘉兴川森智能科技有限公司 自动售货机中的语音识别系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104428832A (zh) * 2012-07-09 2015-03-18 Lg电子株式会社 语音识别装置及其方法
CN104463393A (zh) * 2013-09-17 2015-03-25 中国农业科学院农业信息研究所 一种基于语音的农产品价格的采集方法
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN106328152B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN107909715A (zh) * 2017-09-29 2018-04-13 嘉兴川森智能科技有限公司 自动售货机中的语音识别系统及方法

Similar Documents

Publication Publication Date Title
US11620983B2 (en) Speech recognition method, device, and computer-readable storage medium
CN108922518B (zh) 语音数据扩增方法和系统
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
Lee From knowledge-ignorant to knowledge-rich modeling: A new speech research paradigm for next generation automatic speech recognition
CN103971686B (zh) 自动语音识别方法和系统
CN111916058B (zh) 一种基于增量词图重打分的语音识别方法及系统
CN107123417A (zh) 基于鉴别性训练的定制语音唤醒优化方法及系统
CN109754790B (zh) 一种基于混合声学模型的语音识别系统及方法
CN110875035A (zh) 新型多任务联合的语音识别训练架构和方法
CN105590625A (zh) 声学模型自适应方法及系统
CN103543979A (zh) 一种输出语音的方法、语音交互的方法及电子设备
CN110265012A (zh) 基于开源硬件可交互智能语音家居控制装置及控制方法
CN102436807A (zh) 自动生成重读音节语音的方法和系统
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
Yuanyuan et al. Single-chip speech recognition system based on 8051 microcontroller core
CN101335005A (zh) 语音识别系统中的前导噪声处理
CN111081219A (zh) 一种端到端的语音意图识别方法
CN101415257A (zh) 一种人机对话聊天方法
WO2016027909A1 (ja) データ構造、音声対話装置及び電子機器
Tran et al. Joint modeling of text and acoustic-prosodic cues for neural parsing
CN101742110A (zh) 采用语音识别系统进行设置的摄像机
WO2024108071A1 (en) End-to-end segmentation in a two-pass cascaded encoder automatic speech recognition model
CN103474062A (zh) 一种语音识别方法
CN204926573U (zh) 辅助练习普通话的智能机器人
CN111210812A (zh) 一种人工智能语音中转系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20081231