CN100369113C - 利用增益自适应提高语音识别率的方法 - Google Patents

利用增益自适应提高语音识别率的方法 Download PDF

Info

Publication number
CN100369113C
CN100369113C CNB2004101046579A CN200410104657A CN100369113C CN 100369113 C CN100369113 C CN 100369113C CN B2004101046579 A CNB2004101046579 A CN B2004101046579A CN 200410104657 A CN200410104657 A CN 200410104657A CN 100369113 C CN100369113 C CN 100369113C
Authority
CN
China
Prior art keywords
noise
gain
background
voice
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2004101046579A
Other languages
English (en)
Other versions
CN1801326A (zh
Inventor
徐波
谢传泉
张东泉
普剑涛
张亮
张建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CNB2004101046579A priority Critical patent/CN100369113C/zh
Publication of CN1801326A publication Critical patent/CN1801326A/zh
Application granted granted Critical
Publication of CN100369113C publication Critical patent/CN100369113C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及自动语音识别领域,特点是一种利用增益自适应提高语音识别率的方法。通过噪音评估,调节录音增益,调整端点检测方法参数来提高语音识别率。其具体步骤如下:步骤S1,评估背景噪音;步骤S2,根据步骤S1评估出来的背景噪音类型调整录音增益;步骤S3,在步骤S1,S2的基础上进行端点检测和语音识别。

Description

利用增益自适应提高语音识别率的方法
技术领域
本发明涉及自动语音识别领域,特别是一种利用增益自适应提高语音识别率的方法。
背景技术
近年来语音识别技术得到了巨大的发展,并且在手机等嵌入式领域大量普及,其中语音拨号程序更是逐渐成为高端智能手机的必备功能之一。使用语音拨号方便,快捷,不需记忆繁琐的电话号码,也不需要从屏幕上一页页的查找联系人,极大的提高了人们的沟通效率。但是现在各种语音识别方法以及产品在噪音环境中都表现不佳,主要存在以下几个方面的问题:一是噪音环境下的误触发问题,容易将吵闹的背景音误认为开始说话。二是噪音环境下的识别率问题:信噪比相对较低,因而导致识别率不高。三是噪音环境下的语音结束判断问题:容易将吵闹的背景音误认为一直在说话,从而很长时间都无法结束。四是噪音环境下的信道饱和问题:外部环境吵闹时信道容易饱和,从而使录音数据失真,影响语音识别。
发明内容
本发明的目的在于:提出一种新的噪音环境下的评估处理方法,以使得在各种噪音环境中仍然能够使用语音识别这一技术,并保证比较高的识别率。在噪音环境中提高手机语音识别率的方法,发明的基本特征是在噪音环境中通过对背景噪音的评估分析,相应调节手机的录音增益,调整端点检测方法参数,以达到抑止通道饱和,增加信噪比,进而提高语音识别率以及任务完成率。
该发明的技术要点是,在吵闹环境中,用户会自觉将手机靠近嘴说话,或者提高声音。因此,根据此时背景噪音的评估设置相应的麦克风增益,同时调节端点检测方法参数。如果环境很吵,则降低增益,否则提高增益,这样能够最大可能的压制噪音,提高信噪比。
利用增益自适应提高语音识别率的方法,其特征是通过噪音评估,调节录音增益,调整端点检测方法参数来提高语音识别率。
根据评估出来的背景设定不同的增益值,方法如下:在每种噪音环境中,通过调节录音增益,用背景音评估的方法分别测试并记录所有增益下的背景音评估值,然后从中选择使得背景噪音评估取值最小的增益值。这样就得到一个背景类型和增益值的对应表,增益的调节按照这个表来进行。
该方法主要由以下几个连续的流程组成:背景音评估,录音增益调整,端点检测,进行识别。具体说明如下:
1.背景音评估方法
本方法用于评估当前的背景环境噪声。用相互不叠加的长度为N=960(0.125秒)的矩形窗把语音分成K段,并计算每一段的子带能量Ei(i=0,1,...,K)。则在检测到第i个语音块时的背景噪声的计算公式为:B=[Bi+(ω-1)B]/ω,其中ω是一个正整数,我们取ω=10。根据计算出来的B值范围作等差分布,将背景环境划分为以下几个类型:
安静环境:如办公室
普通环境:如室外
吵闹环境:如公共汽车上
2.录音增益调整方法
在吵闹的背景中,用户习惯大声说话,而在安静的环境中用户通常会轻轻的说话。这样在用户的参与下,能够保证一定的信噪比,进而保证识别率。但是存在以下问题:在吵闹环境下说话声稍微提高就容易造成通道饱和,数据失真,从而降低识别率。另一方面,背景音的能量起伏变化很大,给语音的起始结束判断带来难度。
录音增益调整的目的是使得在任何环境下保证录下的背景噪音保持一个稳定的水平,从而解决上面提到的问题。方法的主要步骤如下:首先给定的手机必须能够设置录音增益。在步骤一中评估出来的每种噪音环境中,通过调节录音增益,用同样的方法分别测试并记录所有增益下的背景音评估值。然后从中选择使得背景噪音评估取值最小的增益值。这样就得到一个背景类型和增益值的对应表,增益的调节按照这个表来进行。对于不同型号的手机这个表不完全相同,需要通过该方法测试得到。下面是在某款手机上的实测数据(该手机的增益调节范围为1到30):
    背景类型     增益值
    安静环境     17
    普通环境     4
    吵闹环境     1
3.端点检测方法
本端点检测方法对语音的首尾端点分别采用不同的检测方法。
以往的研究结果表明,准确确定语音的尾端点更难,特别是对于某些被弱化了的语音结尾,很容易被丢失,从而造成识别错误。因此我们采用语音识别过程来决定语音的尾端点:当系统检测到语音,并且最佳路径已经到达词尾的静音模型并保持连续0.375秒,则判定语音结束,测试表明,该方法对尾端点的检测准确率接近100%,优于任何尾端点检测方法。
语音首端点的检测采用基于子带能量的方法,判决门限的计算公式为:T=λB,其中λ为一个常量,这里选择λ=14,B为评估的背景噪声值。判决方法:假设当前块语音的能量为E,首先更新背景噪声的值B;当E<=T时,表示是背景噪声,则并将最新的两块语音(0.25秒)保存下来;当E>T时,表示检测到语音,由于还保存了0.25秒的语音,因此将语音首端点向前推0.25秒,以保证语音不被丢失。
本发明的优点在于:能够有效解决噪音环境中使用语音识别遇到的系列问题,提高识别率和任务完成率。
实例
分别在电视机前,城铁,马路上录制一批数据,图1是使用本方法前后的任务完成率对比数据(百分比数据)。
以下专有名词:“噪音自适应”,“SEA(Smart EnvironmentAdaptation)”,其表现为在各种噪音环境中都能有效提高语音识别率。
利用使用者说话习惯,在吵闹环境中降低录音增益,抑止通道饱和。
附图说明
图1是使用本发明方法前后的任务完成率对比数据(百分比数据)图。
图2是本发明的利用增益自适应提高语音识别率方法流程图。
具体实施方式
图1是使用本方法前后的任务完成率对比数据(百分比数据)。分别在电视机前,城铁,马路上录制一批数据比较结果。在各种噪音环境中都能有效提高语音识别率。
图2的利用增益自适应提高语音识别率方法,其步骤如下:
步骤S1,评估背景噪音;
步骤S2,根据步骤S1评估出来的背景噪音类型调整录音增益;
步骤S3,在步骤S1,S2的基础上进行端点检测和语音识别。

Claims (4)

1.一种利用增益自适应提高语音识别率的方法,其特征是:通过噪音评估,调节录音增益,调整端点检测方法参数来提高语音识别率,具体步骤如下:
步骤S1,评估背景噪音;
步骤S2,根据步骤S1评估出来的背景噪音类型调整录音增益;
步骤S3,在步骤S1,S2的基础上进行端点检测和语音识别。
2.根据权利要求1所述的利用增益自适应提高语音识别率的方法,其特征是,所述噪音评估的背景音评估方法,是根据历史噪音和当前噪音将背景环境分类,具体方法为用相互不叠加的长度为N=960,对应时间长度为0.125秒的矩形窗把语音分成K段,并计算每一段的子带能量Ei,i=0,1,...,K,其中i表示用矩形窗分离出的第i个语音段,则在检测到第i个语音块时的背景噪声的计算公式为:B=[Ei+(ω-1)B]/ω,其中ω是一个正整数,我们取ω=10,将背景噪音划分为三种类型:安静环境,为办公室,普通环境,为室外,吵闹环境,为公共汽车上。
3.根据权利要求1和2所述的利用增益自适应提高语音识别率的方法,其特征是,所述录音增益调整方法,是根据评估出来的背景设定不同的增益值,方法如下:在每种噪音环境中,通过调节录音增益,用背景音评估方法分别测试并记录所有增益下的背景音评估值,然后从中选择使得背景噪音评估取值最小的增益值。这样就得到一个背景类型和增益值的对应表,增益的调节按照这个表来进行。
4.根据权利要求1所述的利用增益自适应提高语音识别率的方法,其特征是:所述端点检测方法,是首尾端点采用不同的检测方法,并根据背景评估出来的参数调节,采用语音识别过程来决定语音的尾端点:当系统检测到语音,并且最佳路径已经到达词尾的静音模型并保持连续0.375秒,则判定语音结束。语音首端点的检测采用基于子带能量的方法,判决门限的计算公式为:T=λB,其中λ为一个常量,这里选择λ=14,B为评估的背景噪声值。
CNB2004101046579A 2004-12-31 2004-12-31 利用增益自适应提高语音识别率的方法 Active CN100369113C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004101046579A CN100369113C (zh) 2004-12-31 2004-12-31 利用增益自适应提高语音识别率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004101046579A CN100369113C (zh) 2004-12-31 2004-12-31 利用增益自适应提高语音识别率的方法

Publications (2)

Publication Number Publication Date
CN1801326A CN1801326A (zh) 2006-07-12
CN100369113C true CN100369113C (zh) 2008-02-13

Family

ID=36811273

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004101046579A Active CN100369113C (zh) 2004-12-31 2004-12-31 利用增益自适应提高语音识别率的方法

Country Status (1)

Country Link
CN (1) CN100369113C (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI463859B (zh) * 2008-01-18 2014-12-01 Chi Mei Comm Systems Inc 攜帶式電子裝置
JP5817368B2 (ja) * 2011-09-13 2015-11-18 ソニー株式会社 情報処理装置及び情報処理方法
CN102394062B (zh) * 2011-10-26 2013-02-13 华南理工大学 一种自动录音设备源识别的方法和系统
CN102857650B (zh) * 2012-08-29 2014-07-02 苏州佳世达电通有限公司 动态调整语音的方法
CN103280215B (zh) * 2013-05-28 2016-03-23 北京百度网讯科技有限公司 一种音频特征库建立方法及装置
CN107086043B (zh) * 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
CN104064197B (zh) * 2014-06-20 2017-05-17 哈尔滨工业大学深圳研究生院 一种基于语音帧间动态信息提高语音识别鲁棒性的方法
CN104505095A (zh) * 2014-12-22 2015-04-08 上海语知义信息技术有限公司 闹钟的语音操控系统及方法
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
CN105355197B (zh) * 2015-10-30 2020-01-07 百度在线网络技术(北京)有限公司 用于语音识别系统的增益处理方法及装置
CN109448705B (zh) * 2018-10-17 2021-01-29 珠海格力电器股份有限公司 一种语音切分方法及装置、计算机装置和可读存储介质
CN110867184A (zh) * 2019-10-23 2020-03-06 张家港市祥隆五金厂 一种语音智能终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1331883A (zh) * 1998-12-23 2002-01-16 艾利森电话股份有限公司 用于通信系统中自适应信号增益控制的方法和装置
CN1427395A (zh) * 2001-12-17 2003-07-02 中国科学院自动化研究所 基于子带能量和特征检测技术的语音信号端点检测方法
WO2004057574A1 (en) * 2002-12-20 2004-07-08 International Business Machines Corporation Sensor based speech recognizer selection, adaptation and combination

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1331883A (zh) * 1998-12-23 2002-01-16 艾利森电话股份有限公司 用于通信系统中自适应信号增益控制的方法和装置
CN1427395A (zh) * 2001-12-17 2003-07-02 中国科学院自动化研究所 基于子带能量和特征检测技术的语音信号端点检测方法
WO2004057574A1 (en) * 2002-12-20 2004-07-08 International Business Machines Corporation Sensor based speech recognizer selection, adaptation and combination

Also Published As

Publication number Publication date
CN1801326A (zh) 2006-07-12

Similar Documents

Publication Publication Date Title
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
US9524735B2 (en) Threshold adaptation in two-channel noise estimation and voice activity detection
JP5089772B2 (ja) 音声活動を検出するための装置および方法
CN102687196B (zh) 用于检测语音段的方法
CN100369113C (zh) 利用增益自适应提高语音识别率的方法
JPH09325790A (ja) 音声処理方法および装置
US20050102134A1 (en) Speaking period detection device, voice recognition processing device, transmission system, signal level control device and speaking period detection method
US20060224382A1 (en) Noise reduction and audio-visual speech activity detection
CN105118522B (zh) 噪声检测方法及装置
Bou-Ghazale et al. A robust endpoint detection of speech for noisy environments with application to automatic speech recognition
CN101206858B (zh) 一种孤立词语音端点检测的方法及系统
US8924199B2 (en) Voice correction device, voice correction method, and recording medium storing voice correction program
WO2012083555A1 (en) Method and apparatus for adaptively detecting voice activity in input audio signal
CN105306673A (zh) 移动终端及其自动调整情景模式的方法
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
US9754606B2 (en) Processing apparatus, processing method, program, computer readable information recording medium and processing system
GB2347252A (en) Voice recognition system
CN111833902A (zh) 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
US20080172225A1 (en) Apparatus and method for pre-processing speech signal
CN110895930B (zh) 语音识别方法及装置
CN117294985A (zh) 一种tws蓝牙耳机控制方法
CN110197663B (zh) 一种控制方法、装置及电子设备
JP2003241788A (ja) 音声認識装置及び音声認識システム
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
CN111341351A (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20060712

Assignee: The purple winter of Beijing is voice technology company limited with keen determination

Assignor: Institute of Automation, Chinese Academy of Sciences

Contract record no.: 2015110000014

Denomination of invention: Method for adaptively improving speech recognition rate by means of gain

Granted publication date: 20080213

License type: Common License

Record date: 20150519

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20060712

Assignee: Taro Technology (Hangzhou) Co., Ltd.

Assignor: The purple winter of Beijing is voice technology company limited with keen determination

Contract record no.: 2015110000050

Denomination of invention: Method for adaptively improving speech recognition rate by means of gain

Granted publication date: 20080213

License type: Common License

Record date: 20151130

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model