CN105513614A - 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法 - Google Patents

一种基于噪声功率谱Gamma分布统计模型的有音区检测方法 Download PDF

Info

Publication number
CN105513614A
CN105513614A CN201510885221.6A CN201510885221A CN105513614A CN 105513614 A CN105513614 A CN 105513614A CN 201510885221 A CN201510885221 A CN 201510885221A CN 105513614 A CN105513614 A CN 105513614A
Authority
CN
China
Prior art keywords
noise
psd
value
vad
estimated value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510885221.6A
Other languages
English (en)
Other versions
CN105513614B (zh
Inventor
李宇
林胜义
谭洪舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Sun Yat Sen University
Priority to CN201510885221.6A priority Critical patent/CN105513614B/zh
Publication of CN105513614A publication Critical patent/CN105513614A/zh
Application granted granted Critical
Publication of CN105513614B publication Critical patent/CN105513614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于噪声功率谱Gamma分布统计模型的有音区检测(Voice?Activation?Detection,?VAD)方法,属于语音信号处理技术领域。现有基于统计模型的VAD算法通常不考虑语音统计信息,仅仅利用噪声功率谱(Power?Spectral?Density,PSD)的统计模型来检测活动语音,常用的噪声PSD统计模型为左右对称的Gaussian模型,不能较好地体现噪声PSD分布的长拖尾特性,不利于处理Babble等非平稳噪声。本发明采用伽玛分布(Gamma?Distribution)作为噪声分布统计模型,比高斯分布(Gaussian?Distribution)和瑞利分布(Rayleigh?Distribution)具有更好的长拖尾特性拟合效果,改进后的VAD算法性能更优。

Description

一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
技术领域
本发明涉及语音信号处理技术领域,更具体地,涉及一种基于噪声功率谱Gamma分布统计模型的有音区检测方法。
背景技术
活动语音检测(VoiceActivationDetection,VAD),又称有音区检测,是一种从传输语音信号中识别和消除长时间静音期(或者说从声音信号流里检测出有用信号)的技术。VAD技术的应用能避免无用信号的传输,从而降低了语音信号编码速率和节省了通信带宽,而且有利于维护语音端到端的时延、减少移动通信设备的能耗和加强噪声抑制能力,因此VAD被广泛用于语音编码、语音识别和语音增强等语音处理算法中。
基于统计模型的VAD算法是常用一种VAD方法,该方法假定语言和噪声分别服从某种统计分布模型,然后用似然比测试来检测活动语音。在该算法中,常用的假设统计模型为Gaussian或Laplacian模型,不能较好地体现噪声PSD分布的拖尾特性,而这种拖尾特征的缺失在非平稳噪声环境下表现得尤为突出,使得基于该假设统计模型的VAD算法不利于处理Babble等非平稳噪声。因此,采用合适的统计模型来实现VAD技术,是改善统计模型VAD算法性能的关键。
发明内容
针对基于Gaussian或Laplacian统计模型的VAD算法不能很好拟合噪声PSD分布特性而且不利于处理Babble等非平稳噪声的问题,本发明提出了一种基于噪声功率谱Gamma分布统计模型的有音区检测方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于噪声功率谱Gamma分布统计模型的有音区检测方法,包括:
1)获取含噪语音的信号z(n),并进行分帧处理,得到第k帧含噪的语音zk(n);
2)计算第k语音帧频率为fl时的功率谱密度(PSD)估计值Pzz,k(fl);
3)对PSD估计值Pzz,k(fl)进行高通滤波,得到高频带的PSD估计值P′ZZ,k(fl);判断当前语音帧是否为纯噪声,若是,则更新第k帧噪声频率为fl的PSD值Pvv,k(fl)为高频带的PSD估计值P′ZZ,k(fl)并跳转到步骤4);否则,则不更新噪声fl频率的PSD值Pvv,k(fl)跳转到步骤4);
4)对噪声fl频率的PSD估计值Pvv,k(fl)求指数平均值计算噪声PSD估计值Pvv,k(fl)的平方再取指数平均得噪声方差值varvk(fl);
5)用高频带PSD估计值P′ZZ,k(fl)和噪声PSD指数平均值计算信噪比(SignalNoiseRatio,SNR)测量值并求其指数平均值噪声PSD指数平均值结合噪声方差值varvk(fl)计算有音区检测(VoiceActivationDetection,VAD)阈值ηk(fl),再求其指数平均值
6)SNR测量值得指数平均与VAD阈值的指数平均进行比较,比较结果通过Hangover方法得出最终的VAD判决。
优选的,所述步骤2)采用低方差频谱估计的Welch方法来估计语音帧的PSD值,该PSD估计值用于SNR测量值和VAD阈值的计算。
优选的,所述步骤3)通过对PSD估计值Pzz,k(fl)进行高通滤波,得到高频带的PSD估计值P′ZZ,k(fl);检测当前VAD值是否为0,若VAD=0,则判断当前帧为纯噪声并更新噪声PSD估计值Pvv,k(fl),即将高频PSD估计值P′ZZ,k(fl)赋值给噪声PSD估计值Pvv,k(fl);若VAD≠0,则不更新噪声PSD估计值Pvv,k(fl),保留上一次更新的噪声PSD估计值Pvv,k(fl)。
优选的,所述步骤6)通过SNR测量值的指数平均与VAD阈值的指数平均值进行比较来作出VAD判决,若则VAD=1,由此判断该语音帧处于有音区,反之,则VAD=0,认为该语音帧为纯噪声;依据相邻语音帧之间强相关性,进行VAD阈值判断后串接Hangover方法来降低错误拒绝率。
与现有技术相比,本发明技术方案的有益效果是:本发明采用伽马分布(GammaDistribution)作为噪声PSD的统计模型,更好地拟合噪声PSD的长拖尾特性,克服了原基于Gaussian统计模型VAD算法的不足,改进统计模型VAD算法性能。
附图说明
图1为基于噪声功率谱伽玛分布(GammaDistribution)统计模型判决阈值更新的VAD方法示意图;
图2在Babble噪声环境下性噪比为20dB时本发明VAD算法的检测结果(红色方框所画区域为有音区)。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种基于噪声功率谱Gamma分布统计模型的有音区检测方法,其过程为:获取含噪语音信号z(n)进行分帧处理,得到第k帧含噪语音zk(n);采用Welch方法计算第k语音帧fl频率的PSD估计值Pzz,k(fl);Pzz,k(fl)经高通滤波后得到高频PSD估计值P′ZZ,k(fl),随后判断当前语音帧是否为纯噪声,即VAD值是否为0,若是,则更新噪声第k帧fl频率的PSD估计值Pvv,k(fl),将P′ZZ,k(fl)赋值给Pvv,k(fl),否则,不更新噪声第k帧fl频率的PSD估计值Pvv,k(fl);计算噪声PSD估计值的指数平均值用噪声PSD估计值Pvv,k(fl)的平方并取指数平均得方差值varvk(fl)。按照信噪比测量值定义计算得到SNR测量值并求指数平均值用基于Gamma分布统计模型的阈值更新公式来计算VAD阈值ηk(fl),并取其指数平均值比较并采用Hangover来方法得出最终VAD判决。
信噪比测量值的计算公式为:
式中,P′zz,k(fl)为语音帧的PSD值,为噪声的PSD指数平均值。
比较SNR测量值指数平均值和阈值指数平均值的所用判决式如下:
其中,H1代表检测到活动语音,而H0代表检测到静音(纯噪声),即:当SNR的指数平均大于阈值的指数平均时,检测到的是语音,VAD值为1;反之则当前帧为纯噪声,VAD值为0。
本发明所用的基于噪声功率谱Gamma分布统计模型VAD判决阈值更新表达式如下:
η k ( f l ) = g a min v ( 1 - P F A , E [ P v v , k ( f l ) ] 2 var v k , var v k E [ P v v , k ( f l ) ] ) P ^ v v , k ( f l ) - 1 - - - ( 4 )
式中,gaminv为MATLAB中的伽玛分布CDF逆函数来求阈值,表达式为:
X=gaminv(P,A,B)(5)
式(5)的A和B分别为伽玛分布的形状参数和尺度参数。
PFA为纯噪声的虚警概率(也就是将噪声误判成语音的概率),定义如下:
varvk为噪声方差,Pvv,k(fl)和分别为噪声的PSD值及其指数平均值。
图2为本发明算法对一段性噪比为20dB的含Babble噪声语音进行VAD检测的结果(红色方框所画区域为有音区)。从图中可以看出本发明算法能准确地区分出含噪语音的语音成分和噪声成分(非语音成分)。
针对基于Gaussian分布统计模型的VAD算法不能很好地拟合噪声PSD分布的长拖尾特性和非平稳噪声环境下VAD检测效果差等缺点,本发明提出了一种基于噪声功率谱Gamma分布统计模型的VAD算法,该算法对噪声PSD分布具有较好的拟合效果,并且能在非平稳噪声环境下准确地检测出语音信号的说话音成分和噪声成分(非语音成分)。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于噪声功率谱Gamma分布统计模型的有音区检测方法,其特征在于,包括以下步骤:
1)获取含噪语音的信号z(n),并进行分帧处理,得到第k帧含噪的语音zk(n);
2)计算第k语音帧频率为fl时的功率谱密度(PSD)估计值Pzz,k(fl);
3)对PSD估计值Pzz,k(fl)进行高通滤波,得到高频带的PSD估计值P′ZZ,k(fl);判断当前语音帧是否为纯噪声,若是,则将第k帧噪声频率为fl的PSD值Pvv,k(fl)更新为高频带的PSD估计值P′ZZ,k(fl)并跳转到步骤4);否则,则不更新第k帧噪声频率为fl的PSD值Pvv,k(fl)跳转到步骤4);
4)对第k帧噪声频率为fl的PSD估计值Pvv,k(fl)求指数平均值计算PSD估计值Pvv,k(fl)的平方再取指数平均得噪声方差值varvk(fl);
5)用高频带PSD估计值P′ZZ,k(fl)和噪声PSD指数平均值计算信噪比(SNR)测量值并求其指数平均值噪声PSD指数平均值结合噪声方差值varvk(fl)计算有音区检测(VAD)阈值ηk(fl),再求其指数平均值
6)SNR测量值得指数平均与VAD阈值的指数平均进行比较,比较结果通过Hangover方法得出最终的VAD判决。
2.根据权利要求1所述的检测方法,其特征在于,所述步骤2)采用低方差频谱估计的Welch方法来估计语音帧的PSD值,该PSD估计值用于SNR测量值和VAD阈值的计算。
3.根据权利要求1所述的检测方法,其特征在于,所述步骤3)通过对PSD估计值Pzz,k(fl)进行高通滤波,得到高频带的PSD估计值P′ZZ,k(fl);检测当前VAD值是否为0,若VAD=0,则判断当前帧为纯噪声并更新噪声PSD估计值Pvv,k(fl),即将高频PSD估计值P′ZZ,k(fl)赋值给噪声PSD估计值Pvv,k(fl);若VAD≠0,则不更新噪声PSD估计值Pvv,k(fl),保留上一次更新的噪声PSD估计值Pvv,k(fl)。
4.根据权利要求1所述的检测方法,其特征在于,所述步骤6)通过SNR测量值的指数平均与VAD阈值的指数平均值进行比较来作出VAD判决,若则VAD=1,由此判断该语音帧处于有音区,反之,则VAD=0,认为该语音帧为纯噪声;依据相邻语音帧之间强相关性,进行VAD阈值判断后串接Hangover方法来降低错误拒绝率。
CN201510885221.6A 2015-12-03 2015-12-03 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法 Active CN105513614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510885221.6A CN105513614B (zh) 2015-12-03 2015-12-03 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510885221.6A CN105513614B (zh) 2015-12-03 2015-12-03 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法

Publications (2)

Publication Number Publication Date
CN105513614A true CN105513614A (zh) 2016-04-20
CN105513614B CN105513614B (zh) 2019-05-03

Family

ID=55721540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510885221.6A Active CN105513614B (zh) 2015-12-03 2015-12-03 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法

Country Status (1)

Country Link
CN (1) CN105513614B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578785A (zh) * 2017-09-05 2018-01-12 哈尔滨工业大学 基于Gamma分布分析的音乐连续情感特征分析评价方法
CN108962284A (zh) * 2018-07-04 2018-12-07 科大讯飞股份有限公司 一种语音录制方法及装置
CN110537223A (zh) * 2018-03-26 2019-12-03 深圳市汇顶科技股份有限公司 语音检测的方法和装置
CN111626093A (zh) * 2020-03-27 2020-09-04 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
WO2020253073A1 (zh) * 2019-06-17 2020-12-24 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质
US11270720B2 (en) 2019-12-30 2022-03-08 Texas Instruments Incorporated Background noise estimation and voice activity detection system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006121180A2 (en) * 2005-05-09 2006-11-16 Kabushiki Kaisha Toshiba Voice activity detection apparatus and method
CN101079266A (zh) * 2006-05-23 2007-11-28 中兴通讯股份有限公司 基于多统计模型和最小均方误差实现背景噪声抑制的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006121180A2 (en) * 2005-05-09 2006-11-16 Kabushiki Kaisha Toshiba Voice activity detection apparatus and method
CN101079266A (zh) * 2006-05-23 2007-11-28 中兴通讯股份有限公司 基于多统计模型和最小均方误差实现背景噪声抑制的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GEORGE ALMPANIDIS ET AL.: "《Voice activity detection with generalized gamma distribution》", 《2006 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 *
LI YU ET AL.: "《Voice activity detection under rayleigh distribution》", 《JOURNAL OF ELECTRONICS(CHINA)》 *
李宇等: "《基于Rayleigh噪声统计分布的有音区检测》", 《信号处理》 *
王浩伟等: "《基于随机参数Gamma过程的剩余寿命预测方法》", 《浙江大学学报(工学版)》 *
王珊琪: "《变换域中基于广义伽玛分布的软语音活动检测算法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578785A (zh) * 2017-09-05 2018-01-12 哈尔滨工业大学 基于Gamma分布分析的音乐连续情感特征分析评价方法
CN107578785B (zh) * 2017-09-05 2020-08-14 哈尔滨工业大学 基于Gamma分布分析的音乐连续情感特征分析评价方法
CN110537223A (zh) * 2018-03-26 2019-12-03 深圳市汇顶科技股份有限公司 语音检测的方法和装置
CN110537223B (zh) * 2018-03-26 2022-07-05 深圳市汇顶科技股份有限公司 语音检测的方法和装置
CN108962284A (zh) * 2018-07-04 2018-12-07 科大讯飞股份有限公司 一种语音录制方法及装置
WO2020253073A1 (zh) * 2019-06-17 2020-12-24 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质
US11270720B2 (en) 2019-12-30 2022-03-08 Texas Instruments Incorporated Background noise estimation and voice activity detection system
CN111626093A (zh) * 2020-03-27 2020-09-04 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN111626093B (zh) * 2020-03-27 2023-12-26 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法

Also Published As

Publication number Publication date
CN105513614B (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN105513614A (zh) 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
CN109643552B (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
CN103646649B (zh) 一种高效的语音检测方法
Ramırez et al. SVM-based speech endpoint detection using contextual speech features
CN103559887B (zh) 用于语音增强系统的背景噪声估计方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN102194452B (zh) 复杂背景噪声中的语音激活检测方法
US11417353B2 (en) Method for detecting audio signal and apparatus
CN103646648B (zh) 一种噪声功率估计方法
JP2008534989A (ja) 音声アクティビティ検出装置および方法
CN105845150B (zh) 一种采用倒谱进行修正的语音增强方法及系统
Gerkmann et al. Empirical distributions of DFT-domain speech coefficients based on estimated speech variances
CN105575406A (zh) 一种基于似然比测试的噪声鲁棒性的检测方法
CN103730124A (zh) 一种基于似然比测试的噪声鲁棒性端点检测方法
CN103905656A (zh) 残留回声的检测方法及装置
CN101256772A (zh) 确定非噪声音频信号归属类别的方法和装置
US20120265526A1 (en) Apparatus and method for voice activity detection
Meduri et al. A survey and evaluation of voice activity detection algorithms
CN102637438B (zh) 一种语音滤波方法
US20220301582A1 (en) Method and apparatus for determining speech presence probability and electronic device
KR20060134882A (ko) 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법
CN103337245B (zh) 基于子带信号的信噪比曲线的噪声抑制方法及装置
CN110364187B (zh) 一种语音信号的端点识别方法和装置
Zhao et al. Adaptive wavelet packet thresholding with iterative Kalman filter for speech enhancement
Sanam et al. Teager energy operation on wavelet packet coefficients for enhancing noisy speech using a hard thresholding function

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant