CN102194452B - 复杂背景噪声中的语音激活检测方法 - Google Patents

复杂背景噪声中的语音激活检测方法 Download PDF

Info

Publication number
CN102194452B
CN102194452B CN2011100931866A CN201110093186A CN102194452B CN 102194452 B CN102194452 B CN 102194452B CN 2011100931866 A CN2011100931866 A CN 2011100931866A CN 201110093186 A CN201110093186 A CN 201110093186A CN 102194452 B CN102194452 B CN 102194452B
Authority
CN
China
Prior art keywords
voice
stat
frame
status
std
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011100931866A
Other languages
English (en)
Other versions
CN102194452A (zh
Inventor
梁峰
张凡
曹军勤
杨勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Fenghuo Communication Group Co Ltd
Original Assignee
Shaanxi Fenghuo Communication Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Fenghuo Communication Group Co Ltd filed Critical Shaanxi Fenghuo Communication Group Co Ltd
Priority to CN2011100931866A priority Critical patent/CN102194452B/zh
Publication of CN102194452A publication Critical patent/CN102194452A/zh
Application granted granted Critical
Publication of CN102194452B publication Critical patent/CN102194452B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Time-Division Multiplex Systems (AREA)

Abstract

本发明公开了一种复杂背景噪声中的语音激活检测方法,依次包括以下步骤:1)首先对数据进行TEO运算;2)对输入数据x(n)进行预加重;3)带通滤波;4)分帧加窗处理;5)计算每帧的自相关及其标准方差的开方值;6)计算初始阶段20帧的Stati及其均值mean(Stati)和标准方差std(Stati),将std(Stati)与预置门限比较,判断有无语音;7)计算后续数据;8)计算连续FrameN帧的Stati,根据其均值mean(Stati)和标准方差std(Stati),进行二次判决;9)考虑语音间隔及持续时间Speechmin=100~200ms,Silencemin=500~1000ms,在Statusfinal=0条件下,当出现连续Ns(该值与FrameN相关)个atatus=1时,判断语音出现;在Statusfinal=1条件下,当出现连续NE(该值同样与FrameN相关)个Status=0时,判断语音结束,最终判断语音的真正端点。

Description

复杂背景噪声中的语音激活检测方法
技术领域
本发明一般涉及数字信号处理系统,更具体地,本发明涉及复杂背景噪声中的语音激活检测(VAD,Voice Activity Detection)方法,尤其面向于计算资源受限的实时语音检测场合,如军用电台语音业务等。
背景技术
语音激活检测技术(VAD)又称端点检测EPD(End-Point Detection),其目的是能够正确区分语音与各种背景噪声,在语音信号处理(更一般的是声信号处理)领域有着十分重要的应用。在语音识别中,通常是先根据一定的端点检测算法,对语音信号中的有声片段和无声片段进行分割,而后再针对有声片段依据语音的某些特定特征进行识别。研究表明:即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。因此,作为语音识别系统的第一步,端点检测的关键性不容忽视,尤其是强背景噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的工作能否有效进行。语音和背景噪声的多样性使得VAD问题变得比较复杂。
从实质上来说,各种VAD检测技术的根本出发点在于寻找能够有效区分语音段与无语音噪声背景的统计量,且最终归结为门限判决。目前主要使用的传统统计特征量包括:短时能量、短时过零率、短时自相关函数、信息熵、倒谱及MEL系数等方法,不同VAD技术大多基于这几种方法的不同组合。随着数字信号处理技术的发展和相应处理设备计算能力的提高,出现一些新的VAD算法,如小波变换法、近视熵、支撑向量机SVM以及神经网络等方法。
一般来说,单一的统计判断量的检测效果并不理想,往往仅适合某些特定场合。由于不同环境下的背景噪声变化较大,且语音随者说话人的性别、年龄、语种、声调、声强、语速等变化而变化,因此,基于多统计量、多判决门限的联合判决准则成为VAD检测研究的方向。
在军用电台中,语音信号检测是军用电台完成静噪的前提。静噪是电台的基本功能之一,它保证在有接收信号时,打开接收机的音频输出,保持正常通信;而在无接收信号,只有噪声时,关断音频输出。它的基本过程是首先能够检测到信号的有无,然后再据此控制音频输出。在军用小型便携式电台设备中,受功耗所限,有效地使用VAD技术能够在无语音段降低功耗,延长设备使用时间。
发明内容
由于受到使用设备计算能力及功耗的限制,所采用的VAD算法不能过于复杂,同时处理延迟(主要是语音出现、语音结束的判决延迟)不能过大,即具备近实时处理能力。此外,该方法还应能在复杂背景噪声中正常工作,具备一定自适应性能,这些因素导致VAD算法必须实现简单、检测可靠。基于上述应用要求,本发明给出一种语音激活检测方法。采用如下技术方案:
一种复杂背景噪声中的语音激活检测方法,依次包括以下步骤:
1)、首先对数据进行TEO运算:TEO[x(n)]=x(n)2-x(n+1)x(n-1);
2)、对输入数据x(n)进行预加重,其传递函数为:
H(z)=1-μz-1,μ∈[0.92,0.96],x(n)=filter([1-μ],1,x(n));
3)、带通滤波:采用带通滤波,除去无用信号:x(n)=band_pass_filter(x(n))
4)、分帧加窗处理:帧长20ms,帧间重叠20%~40%。窗函数一般采用Hamming窗:xn(N)=xn(N).*Hamming(N);
5)、计算每帧的自相关及其标准方差的开方值:Stat=k*sqrt(std(xcorr(xn(N)))),k为系数,它与判决门限取值相关;
6)、计算初始阶段20帧的Stati及其均值mean(Stati)和标准方差std(Stati),将std(Stati)与预置门限比较,判断有无语音;判断根据:如果初始阶段无语音,则std(Stati)较小,否则std(Stati)较大;如初始阶段无语音,则计算该阶段的参考门限,作为后续数据的判决门限:Thref=mean(Stat(1:20))+m*std(Stat(1:20));
7)、计算后续数据,每帧判决一下:
8)、计算连续FrameN帧的Stati,根据其均值mean(Stati)和标准方差std(Stati),进行二次判决:或者采用多数判决原则次判断:
如8帧中超过5帧出现Statustemp=1,则判断Status=1,出现语音;
9)、考虑语音间隔及持续时间Speechmin=100~200ms,Silencemin=500~1000ms,在Statusfinal=0条件下,当出现连续Ns(该值与FrameN相关)个Status=1时,判断语音出现;在Statusfinal=1条件下,当出现连续NE(该值同样与FrameN相关)个Status=0时,判断语音结束,最终判断语音的真正端点。
与传统算法相比,该算法具有的优点如下:
①非线性Teager能量算子(TEO),能够有效提取语音信号的能量;
②采用自相关技术,有效区分话音与背景噪声;
③采用多个统计量和多个判断门限,有效减少VAD的虚检和漏检概率;
④算法简单可靠、计算复杂度低,具有较好的实时性,适于各种处理平台;
⑤自适应地调整判决门限,这样能够有效跟踪背景噪声变化情况,算法具有稳健性,适用多种场合。门限更新原则可以采用两类:1)利用更新的背景噪声数据,直接将计算得到的新门限作为参考门限;2)参考门限为旧门限与新门限的不同比例组合;
⑥算法具有一定的扩展性,在该算法基础上,可以采用双门限甚至多门限,设置门限的上、下边界,提高检测正确率,但代价是实现复杂度会适当增加。
附图说明
图1为纯语音与0dB白噪声下带噪语音的VAD检测结果;
图2为纯语音与不同信噪比白噪声下带噪语音的判断统计量;
图3为不同信噪比的坦克噪声下带噪语音的判断统计量;
图4为本发明VAD算法处理流程示意图。
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
由于噪声的随机性,其自相关值平均较小,其标准方差也小。相反,语音信号的自相关值平均较大,其标准方差也大,并且语音信号的不同帧信号之间的自相关的方差变化也较大。因此,利用自相关的方差这个特征及相应的统计量来判断有无语音,进行VAD检测。
通常情况下,语音抽样频率为8kHz,数据帧长为20ms(一般认为语音信号在10ms~30ms时间内基本平稳),每次处理点数为N=8000*0.02=160点。帧与帧之间的重叠为20%~50%,因此,每帧中的新数据实际长度为(50%~80%)*20ms=10~16ms。假设语音最少持续时间Speechmin=100~200ms,句与句之间的间隔Silencemin=500~1000ms。为了防止误将噪声判为语音,每连续处理FrameN帧判决一次。图1是纯语音与0dB高斯白噪声下带噪语音的VAD检测示意图。图2是纯语音与不同信噪比白噪声下带噪语音的统计量。
在高斯背景噪声且信噪比较高(SNR≥5dB)情况下,上述方法能够有效判断有无语音。为了能够在非平稳的背景中更有效检测语音,Kaiser提出一种较为有效的、非线性的算法“Teager能量算子(TEO)”,它能够有效对抗脉冲干扰,提取语音信号能量,其计算公式为:TEO[x(n)]=x(n)2-x(n+1)x(n-1)。图3表示不同信噪比下坦克噪声的带噪语音的判断统计量。从图上可以明显看出TEO能量算子对背景噪声具有较强的鲁棒性。如果不经过TEO运算,在这种情况下,即便具有较高的信噪比,也无法有效检测语音。因此,将TEO与上述方法结合起来,形成有效的VAD检测算法。
本发明主要涉及对语音信号的数字处理,假设在进行VAD处理之前已经进行了相应的预处理,如低通滤波,增益放大等。另外,本发明主要针对单通道语音信号处理,多通道的语音阵列信号处理情况亦不考虑。下面依照VAD方法的处理流程进行说明。
参考图4,图4给出了VAD算法的处理流程。
1)、首先对数据进行TEO运算:TEO[x(n)]=x(n)2-x(n+1)x(n-1);
2)、对输入数据x(n)进行预加重:由于语音信号的功率谱受声门激励和口鼻辐射的影响,大约在200~500Hz按6dB/倍频程下降,因此采用预加重处理,其传递函数为:
H(z)=1-μz-1,μ∈[0.92,0.96],x(n)=filter([1-μ],1,x(n));
3)、带通滤波:由于语音信号的频谱主要集中于100Hz~3400Hz,因此采用带通滤波,除去无用信号(尤其是低频段的各种干扰信号):x(n)=band_pass_filter(x(n))
4)、分帧加窗处理:帧长20ms,帧间重叠20%~40%。窗函数一般采用Hamming窗:
xn(N)=xn(N).*Hamming(N);
5)、计算每帧的自相关及其标准方差的开方值:Stat=k*sqrt(std(xcorr(xn(N)))),k为系数,它与判决门限取值相关;
6)、计算初始阶段20帧的Stati及其均值mean(Stati)和标准方差std(Stati),将std(Stati)与预置门限比较,判断有无语音。判断根据:如果初始阶段无语音,则std(Stati)较小,否则std(Stati)较大。如初始阶段无语音,则计算该阶段的参考门限,作为后续数据的判决门限:Thref=mean(Stat(1∶20))+m*std(Stat(1∶20));
7)、计算后续数据,每帧判决一下(初次判断):
Figure BSA00000473371200051
8)、计算连续FrameN帧的Stati,根据其均值mean(Stati)和标准方差std(Stati),进行二次判决:或者采用多数判决原则次判断:
Figure BSA00000473371200053
如8帧中超过5帧出现Statustemp=1,则判断Status=1,出现语音;
9)、考虑语音间隔及持续时间Speechmin=100~200ms,Silencemin=500~1000ms,在Statusfinal=0条件下,当出现连续Ns(该值与FrameN相关)个Status=1时,判断语音出现;在Statusfinal=1条件下,当出现连续NE(该值同样与FrameN相关)个Status=0时,判断语音结束,最终判断语音的真正端点。
上述算法每帧数据(M=N+2)的计算量估计(以乘法和加法为主),见表1所示。
表1VAD算法的计算复杂度估算
Figure BSA00000473371200061
对处理器的计算能力估计如下:假设一次乘法占用8个机器周期,则一帧乘法运算占用约128000个周期,一次加法占用2个机器周期,则一帧加法运算占用约32000个周期,因此一帧数据占用160000周期。假设一帧数据必须在10ms时间内处理完毕(相当于数据缓存区长度为一帧),则机器运算频率最少为:160000/0.01=16MHz,处理器一般都能满足。
对于端点检测的处理延迟考虑,主要有两个:1)语音出现时的判断延迟,由FrameN、Ns和每帧处理延迟Framedelay决定,假设每帧数据的实际时长FrameTime(该值与帧长和帧间重叠程度相关),则:Delays=FrameN*Ns*FrameTime+Framedelay;2)语音结束的判决延迟,由FrameN、NE和Framedelay决定,即:DelayE=FrameN*NE*FrameTime+Framedelay
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (1)

1.一种复杂背景噪声中的语音激活检测方法,其特征在于,依次包括以卜步骡:
1)、首先对数据进行TEO运算:TEO[x(n)]=x(n)2-x(n+1)x(n-1);
2)、对经过步骤1)处理后的输入数据x(n)进行预加重,其传递函数为:
H(z)=1-μz-1,μ∈[0.92,0.96],x(n)=filter([1-μ],1,x(n)):
3)、对经过步骤2)处理后的数据进行带通滤波,除去无用信号:x(n)=band_pass_filter(x(n))
4)、分帧加窗处理:帧长20ms,帧间重叠20%~40%;窗函数采用Hamming窗:xn(N)=xn(N).*Hamming(N);
5)、计算每帧的自相关及其标准方差的开方值:Stat=k*sqrt(std(xcorr(xn(N)))),k为系数,它与判决门限取值相关;
6)、计算初始阶段20帧的Stati及其均值mean(Stati)和标准方差std(Stati),将std(Stati)与预置门限比较,判断有无语音;判断根据:如果初始阶段无语音,则std(Stati)较小,否则std(Stati)较大;如初始阶段无语音,则计算该阶段的参考门限,作为后续数据的判决门限:Thref=mean(Stat(1:20))+m*std(Stat(1:20));
7)、计算后续数据,每帧判决一下: Status temp = 1 , Stat &GreaterEqual; Th ref 0 , Stat < Th ref ;
8)、计算连续FrameN帧的Stati,根据其均值mean(Stati)和标准方差std(Stati),进行二次判决: Status = 1 , mean ( Stat i ) &GreaterEqual; Th ref 0 , mean ( Stat i ) < Th ref ; 或者采用多数判决原则判断:
Status = 1 , sum ( Status temp ) &GreaterEqual; Frame thres 0 , sum ( Status temp ) < Frame thres , 当8帧中超过5帧出现Statustemp=1时,则判断Status=1,出现语音;
9)、考虑语音间隔Silencemin=500~1000ms及持续时间Speechmin=100~200ms,在Statusfinal=0条件下,当出现连续Ns个Status=1时,判断语音出现,Ns值与FrameN相关;在Statusfinal=1条件下,当出现连续NE个Status=0时,判断语音结束,最终判断语音的真正端点,NE值与FrameN相关。
CN2011100931866A 2011-04-14 2011-04-14 复杂背景噪声中的语音激活检测方法 Expired - Fee Related CN102194452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100931866A CN102194452B (zh) 2011-04-14 2011-04-14 复杂背景噪声中的语音激活检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100931866A CN102194452B (zh) 2011-04-14 2011-04-14 复杂背景噪声中的语音激活检测方法

Publications (2)

Publication Number Publication Date
CN102194452A CN102194452A (zh) 2011-09-21
CN102194452B true CN102194452B (zh) 2013-10-23

Family

ID=44602407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100931866A Expired - Fee Related CN102194452B (zh) 2011-04-14 2011-04-14 复杂背景噪声中的语音激活检测方法

Country Status (1)

Country Link
CN (1) CN102194452B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091603B (zh) * 2014-05-23 2017-06-09 普强信息技术(北京)有限公司 基于基频的端点检测系统及其计算方法
CN104200815B (zh) * 2014-07-16 2017-06-16 电子科技大学 一种基于相关分析的音频噪声实时检测方法
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
CN106443612B (zh) * 2016-05-27 2021-07-09 中国电子科技集团公司信息科学研究院 一种基于信息熵的多雷达混合检测方法
CN107564512B (zh) * 2016-06-30 2020-12-25 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN107919116B (zh) * 2016-10-11 2019-09-13 芋头科技(杭州)有限公司 一种语音激活检测方法及装置
CN106782613B (zh) * 2016-12-22 2020-01-21 广州酷狗计算机科技有限公司 信号检测方法及装置
CN108447472B (zh) * 2017-02-16 2022-04-05 腾讯科技(深圳)有限公司 语音唤醒方法及装置
CN108039182B (zh) * 2017-12-22 2021-10-08 西安烽火电子科技有限责任公司 一种语音激活检测方法
CN109559736B (zh) * 2018-12-05 2022-03-08 中国计量大学 一种基于对抗网络的电影演员自动配音方法
CN110047470A (zh) * 2019-04-11 2019-07-23 深圳市壹鸽科技有限公司 一种语音端点检测方法
CN110189747A (zh) * 2019-05-29 2019-08-30 大众问问(北京)信息科技有限公司 语音信号识别方法、装置及设备
CN110580919B (zh) * 2019-08-19 2021-09-28 东南大学 多噪声场景下语音特征提取方法及可重构语音特征提取装置
CN111128244B (zh) * 2019-12-31 2023-05-02 西安烽火电子科技有限责任公司 基于过零率检测的短波通信语音激活检测方法
CN112331178A (zh) * 2020-10-26 2021-02-05 昆明理工大学 一种用于低信噪比环境下的语种识别特征融合方法
CN117456984B (zh) * 2023-10-26 2024-08-06 杭州捷途慧声科技有限公司 一种基于声纹识别的语音交互方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0266962A2 (en) * 1986-11-06 1988-05-11 AT&T Corp. Voiceband signal classification
US20070110202A1 (en) * 2005-11-03 2007-05-17 Casler David C Using statistics to locate signals in noise

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201765819U (zh) * 2010-01-22 2011-03-16 西安烽火电子科技有限责任公司 一种低功耗话音端点检测模块

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0266962A2 (en) * 1986-11-06 1988-05-11 AT&T Corp. Voiceband signal classification
US20070110202A1 (en) * 2005-11-03 2007-05-17 Casler David C Using statistics to locate signals in noise

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
khun Tanyer and Hamza &Ouml
S. G&ouml
S. Gökhun Tanyer and Hamza Özer.Voice Activity Detection in Nonstationary Noise.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2000,第8卷(第4期),全文. *
zer.Voice Activity Detection in Nonstationary Noise.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2000,第8卷(第4期),全文.
胡艳芳,吴及,刘慧星.基于MLER的语音/音乐分类方法.《清华大学学报(自然科学版)》.2008,第48卷(第S1期), *
陈明义,黎华.基于Teager能量算子的语音激活检测.《重庆工学院学报(自然科学报)》.2007,第21卷(第10期),全文. *

Also Published As

Publication number Publication date
CN102194452A (zh) 2011-09-21

Similar Documents

Publication Publication Date Title
CN102194452B (zh) 复杂背景噪声中的语音激活检测方法
US10504539B2 (en) Voice activity detection systems and methods
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
US10475471B2 (en) Detection of acoustic impulse events in voice applications using a neural network
Ramirez et al. Voice activity detection. fundamentals and speech recognition system robustness
US9364669B2 (en) Automated method of classifying and suppressing noise in hearing devices
Mak et al. A study of voice activity detection techniques for NIST speaker recognition evaluations
US6289309B1 (en) Noise spectrum tracking for speech enhancement
US7499686B2 (en) Method and apparatus for multi-sensory speech enhancement on a mobile device
US7376558B2 (en) Noise reduction for automatic speech recognition
Ramırez et al. Efficient voice activity detection algorithms using long-term speech information
CN100505040C (zh) 基于决策树和说话人改变检测的音频分割方法
Ramırez et al. SVM-based speech endpoint detection using contextual speech features
US20090076814A1 (en) Apparatus and method for determining speech signal
US10115399B2 (en) Audio classifier that includes analog signal voice activity detection and digital signal voice activity detection
Chen et al. Improved voice activity detection algorithm using wavelet and support vector machine
Sreekumar et al. Spectral matching based voice activity detector for improved speaker recognition
US7299173B2 (en) Method and apparatus for speech detection using time-frequency variance
US20120265526A1 (en) Apparatus and method for voice activity detection
CN111128244B (zh) 基于过零率检测的短波通信语音激活检测方法
Torre et al. Noise robust model-based voice activity detection
Babu et al. Performance analysis of hybrid robust automatic speech recognition system
Ramírez et al. A new voice activity detector using subband order-statistics filters for robust speech recognition
EP3125244B1 (en) Audio classifier
Deng et al. Likelihood ratio sign test for voice activity detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
DD01 Delivery of document by public notice

Addressee: SHAANXI FENGHUO COMMUNICATION GROUP Co.,Ltd. Person in charge of patents

Document name: payment instructions

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: SHAANXI FENGHUO COMMUNICATION GROUP Co.,Ltd. Person in charge of patents

Document name: Notice of Termination of Patent Rights

DD01 Delivery of document by public notice
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131023

CF01 Termination of patent right due to non-payment of annual fee