CN1835073A - 基于语音特征判别的静音检测方法 - Google Patents
基于语音特征判别的静音检测方法 Download PDFInfo
- Publication number
- CN1835073A CN1835073A CNA2006100396964A CN200610039696A CN1835073A CN 1835073 A CN1835073 A CN 1835073A CN A2006100396964 A CNA2006100396964 A CN A2006100396964A CN 200610039696 A CN200610039696 A CN 200610039696A CN 1835073 A CN1835073 A CN 1835073A
- Authority
- CN
- China
- Prior art keywords
- quiet
- zero
- threshold
- voice
- crossing rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 12
- 238000012706 support-vector machine Methods 0.000 claims abstract description 8
- 150000001875 compounds Chemical class 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 11
- 239000002131 composite material Substances 0.000 abstract 3
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于语音特征识别的静音检测方法,首先提取一帧音频数据的多门限过零率;用加权多门限过零率对静音进行预判,判别出明显的静音;提取一帧音频数据的复合特征,复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数;用二分类支持向量机对音频的复合特征加以判别,一类结果为正常语音,另一类为静音。本发明可以提高静音检测成功率,并能对一些特殊语音加以识别。本发明广泛适用于网络语音通话中,特别是在语音聊天、视频会议中具有广阔的市场前景。
Description
一、技术领域
本发明涉及音频处理方法,具体地说是一种用于网络语音通话的基于语音特征判别的静音检测方法。
二、背景技术
在人说话过程中,其声音可以分为静音和话音两部分,平均有60%时间是静音。而在多人交谈时,每一时刻,基本上只有一人说话,而其他的人则表现为静音。静音及由语音采集设备引入的噪声(包括气流噪音)和语音数据一样均在网络中传输,引起语音质量的降低。使用静音抑制技术,可以消除静音部分,能够节约50%以上的传输带宽,减少网络拥塞。
现有的静音检测方法包括提取音频信号特征值和用预先设定好的门限值比较来判定静音,传统静音检测方法使用的参数包括短时过零率、短时能量、自相关系数、但语音信号和某些背景噪声信号具有非平稳性,因而系统识别率效果差;而且,由于门限值是固定的,不能很好的适应不同噪声,故这些检测系统识别率都不高。
另外,随着网络语音通话的普及,大部分的应用集中在个人电脑平台上,为了使用便利,发言方一般都会选择佩戴耳麦进行交流,这就造成麦克风离人的鼻、嘴非常近,人自然呼吸产生的气流会进入麦克风并产生音频流。虽然这种音频信号比较弱,但它也是一种语音,而目前常用的一些静音检测方法(例如G.729B,G.723.1A等)会将部分气流噪声识别为正常语音,进一步降低了检测系统识别率。
三、发明内容
本发明的目的是提供一种基于语音特征识别的静音检测方法,该静音检测方法可以提高静音检测成功率,并能对一些特殊语音加以识别。
本发明的目的是通过以下技术方案来实现的:
一种基于语音特征判别的静音检测方法,其特征在于它包含以下步骤:
(1)提取一帧音频数据的多门限过零率,并对其用优选的加权值求和。多门限过零率检测法设3个高低不同的门限T1、T2、T3,,且T1<T2<T3,对每一帧用式(1)分别求相应于T1、T2、T3的三种门限过零率Z1、Z2和Z3。
Zn=∑{|sgn[x(n)-Tn]-sgn[x(n-1)-Tn]|+|sgn[x(n)+Tn]-sgn[x(n-1)+Tn]|} (1)
总过零率Z由下式表示:*w(n-w)
Z=W1Z1+W2Z2+W3Z3
其中:W1、W2、W3为过零率权值;Z0定义为总过零率分界值。
(2)用多门限过零率加权和对静音进行预判,如果一帧音频数据的总过零率Z小于设定阈值Z0,就判断其为静音,否则将该帧交由步骤(3)处理。
(3)提取一帧音频数据的复合特征,复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数;基于变分辨率频谱的Mel尺度倒谱系数的计算包括:小波分解与重构、傅立叶变换、Mel尺度倒谱提取模块。Mel尺度倒谱系数(CMFCC)计算公式如下:
其中:
式中,o(1)、c(1)和h(1)分别是1个三角形滤波器的下限、中心和上限频率
(4)用二分类支持向量机对音频的复合特征加以判别,得到正常语音和静音两类结果,对于正常语音,压缩后传送到接收方,对于静音,只在部分帧中加入自适应噪声后压缩并传送到接收方。
本发明通过提取多种语音参数对语音进行分阶段检测,可以有效预判静音。对于在步骤(2)中未能识别的音频数据由后续步骤进行检测,步骤(3)中为了获得信号的整体频谱特征,先对该帧音频数据进行小波分解、重构和傅立叶变换组成变分辨率频谱,并提取该频谱的Mel尺度倒谱作为最终音频特征。步骤(4)中用支持向量机对音频数据的复合特征进行判别,得到最终判定结果。与现有技术相比,本发明使用支持向量机音频特征分类方法,相对于传统的分类方法,更具有严格的理论基础,该方法已在文本分类、图像识别等领域得到应用,取得了比传统的机器学习方法更好的分类效果,分类的正确率高,而且该方法具有较好的鲁棒性。
四、附图说明
图1是本发明方法的流程示意图;
图2是本发明中音频复合特征提取的原理图;
图3是本发明中小波分解树结构图;
五、具体实施方式
下面结合附图对本发明作详细说明。
一种本发明所述的基于语音特征判别的静音检测方法,见图1,具体检测过程中采用8kHz的采样频率,以80点作为一帧进行检测,每一帧10毫秒。它包含以下步骤:
(1)提取一帧音频数据的多门限过零率,并对其用优选的加权值求和。在步骤(1)中用到总过零率分界值Z0与最佳权重向量(W1、W2、W3),它们的值必须在静音检测之前就设置好。为了确定它们的值,要收集至少2000帧不同环境下音频数据,其中一半是静音,一半是讲话语音。以多门限过零率检测产生的静音误判率为目标函数,遍历每一个权重向量和门限值取值范围,找出产生误判率最低的权重向量和门限值,这就是最佳权重向量和门限值Z0。
(2)用多门限过零率加权和对静音进行预判,如果一帧音频数据的总过零率Z小于设定阈值Z0,就判断其为静音,否则将该帧交由步骤(3)处理。
(3)提取一帧音频数据的复合特征,复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数;基于变分辨率频谱的Mel尺度倒谱(MFCC)系数的提取如图2所示。对时域语音信号采用Daubechies4小波包变换把加窗信号分解成6个子带的系数,在各子带进行重构至第一次小波分解后系数尺寸,如图3所示。并对各子带系数进行归一化处理,随后对系数作FFT变换,将各子带系数求和组成变分辨率频谱,最后将变分辨率频谱送交MFCC提取模块。MFCC特征为L=12个,支持向量机的内积函数选用径向基函数(σ2=0.3),支持向量机的训练方法可以采用SMO方法,本发明对此并无限制。
(4)用二分类支持向量机对音频的复合特征加以判别,得到两类结果,一类结果为正常语音,另一类为静音(包括气流噪音)。对于正常语音,系统可以用g.729、g.723等语音压缩方法进行压缩并发送到网络接收方。
本发明中,对于步骤(2)、步骤(4)中被判别为静音的帧,在实际使用中,如果使静音期间完全不传输声音,会使得听者觉得不舒适,因此需要人为地加入一些噪声使得听者觉得通信没有中断,加入的噪声需要保证使得发送方与接受方的噪声功率一致,但不是每一帧静音时都传输噪声,只是传输连续静音的第一帧即可。至于如何传输噪声本发明对此并无限制。
Claims (3)
1、一种基于语音特征判别的静音检测方法,其特征在于它包含以下步骤:
(1)提取一帧音频数据的多门限过零率,并对其加权值求和,得到总过零率Z;
(2)用多门限过零率加权和对静音进行预判,一帧音频数据的总过零率Z小于设定阈值Z0,判断其为静音,否则再进行识别处理;
(3)提取一帧音频数据的复合特征,复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数;
(4)用二分类支持向量机对音频的复合特征加以判别,得到正常语音和静音两类结果,对于正常语音,压缩后传送到接收方,对于静音,只在部分帧中加入自适应噪声后压缩并传送到接收方。
2、根据权利1所述的基于语音特征判别的静音检测方法,其特征在于:步骤(1)中,提取音频数据的3个多门限过零率,并对其加权值求和。
3、根据权利1所述的基于语音特征判别的静音检测方法,其特征在于:步骤(4)中,所述静音包括气流噪音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100396964A CN100573663C (zh) | 2006-04-20 | 2006-04-20 | 基于语音特征判别的静音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100396964A CN100573663C (zh) | 2006-04-20 | 2006-04-20 | 基于语音特征判别的静音检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1835073A true CN1835073A (zh) | 2006-09-20 |
CN100573663C CN100573663C (zh) | 2009-12-23 |
Family
ID=37002788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100396964A Expired - Fee Related CN100573663C (zh) | 2006-04-20 | 2006-04-20 | 基于语音特征判别的静音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100573663C (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101764882A (zh) * | 2009-12-31 | 2010-06-30 | 深圳市戴文科技有限公司 | 一种ptt通话装置及实现ptt通话的方法 |
CN101548313B (zh) * | 2006-11-16 | 2011-07-13 | 国际商业机器公司 | 话音活动检测系统和方法 |
CN101393744B (zh) * | 2007-09-19 | 2011-09-14 | 华为技术有限公司 | 调整声音激活检测门限值的方法及装置 |
WO2011116569A1 (zh) * | 2010-03-23 | 2011-09-29 | 中兴通讯股份有限公司 | 手机静音识别装置以及手机静音消噪的方法和系统 |
WO2012000346A1 (zh) * | 2010-06-30 | 2012-01-05 | 中兴通讯股份有限公司 | 电话通路故障的检测方法及装置 |
CN102332269A (zh) * | 2011-06-03 | 2012-01-25 | 陈威 | 呼吸面具中呼吸噪声的消除方法 |
CN103262517A (zh) * | 2010-07-09 | 2013-08-21 | 谷歌公司 | 指示在呼叫中存在瞬态噪声的方法及其装置 |
CN103325388A (zh) * | 2013-05-24 | 2013-09-25 | 广州海格通信集团股份有限公司 | 基于最小能量小波框架的静音检测方法 |
WO2013177981A1 (zh) * | 2012-05-28 | 2013-12-05 | 中兴通讯股份有限公司 | 一种基于环境声音的场景识别方法、装置及移动终端 |
CN104112446A (zh) * | 2013-04-19 | 2014-10-22 | 华为技术有限公司 | 呼吸声检测方法及装置 |
CN105976831A (zh) * | 2016-05-13 | 2016-09-28 | 中国人民解放军国防科学技术大学 | 基于哭声识别的遗漏孩童检测方法 |
WO2016172363A1 (en) * | 2015-04-24 | 2016-10-27 | Cyber Resonance Corporation | Methods and systems for performing signal analysis to identify content types |
CN108242241A (zh) * | 2016-12-23 | 2018-07-03 | 中国农业大学 | 一种纯语音快速筛选方法及其装置 |
CN108447505A (zh) * | 2018-05-25 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 音频信号过零率处理方法、装置及语音识别设备 |
CN109859744A (zh) * | 2017-11-29 | 2019-06-07 | 宁波方太厨具有限公司 | 一种应用于吸油烟机中的语音端点检测方法 |
CN110310668A (zh) * | 2019-05-21 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 静音检测方法、系统、设备及计算机可读存储介质 |
CN110910905A (zh) * | 2018-09-18 | 2020-03-24 | 北京京东金融科技控股有限公司 | 静音点检测方法及装置、存储介质、电子设备 |
CN113225592A (zh) * | 2020-01-21 | 2021-08-06 | 华为技术有限公司 | 基于Wi-Fi P2P的投屏方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69831991T2 (de) * | 1997-03-25 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Verfahren und Vorrichtung zur Sprachdetektion |
US6223154B1 (en) * | 1998-07-31 | 2001-04-24 | Motorola, Inc. | Using vocoded parameters in a staggered average to provide speakerphone operation based on enhanced speech activity thresholds |
CN1128529C (zh) * | 2000-11-03 | 2003-11-19 | 国家数字交换系统工程技术研究中心 | 适用于包交换网络的多路64Kbps话音静音压缩方法 |
CN1136745C (zh) * | 2001-07-18 | 2004-01-28 | 华为技术有限公司 | 在通用移动电信系统中实现多种语音编解码的方法 |
CN1271593C (zh) * | 2004-12-24 | 2006-08-23 | 北京中星微电子有限公司 | 一种语音信号检测方法 |
-
2006
- 2006-04-20 CN CNB2006100396964A patent/CN100573663C/zh not_active Expired - Fee Related
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101548313B (zh) * | 2006-11-16 | 2011-07-13 | 国际商业机器公司 | 话音活动检测系统和方法 |
CN101393744B (zh) * | 2007-09-19 | 2011-09-14 | 华为技术有限公司 | 调整声音激活检测门限值的方法及装置 |
CN101764882A (zh) * | 2009-12-31 | 2010-06-30 | 深圳市戴文科技有限公司 | 一种ptt通话装置及实现ptt通话的方法 |
WO2011116569A1 (zh) * | 2010-03-23 | 2011-09-29 | 中兴通讯股份有限公司 | 手机静音识别装置以及手机静音消噪的方法和系统 |
WO2012000346A1 (zh) * | 2010-06-30 | 2012-01-05 | 中兴通讯股份有限公司 | 电话通路故障的检测方法及装置 |
CN103262517A (zh) * | 2010-07-09 | 2013-08-21 | 谷歌公司 | 指示在呼叫中存在瞬态噪声的方法及其装置 |
CN103262517B (zh) * | 2010-07-09 | 2016-01-27 | 谷歌公司 | 指示在呼叫中存在瞬态噪声的方法及其装置 |
CN102332269A (zh) * | 2011-06-03 | 2012-01-25 | 陈威 | 呼吸面具中呼吸噪声的消除方法 |
US9542938B2 (en) | 2012-05-28 | 2017-01-10 | Zte Corporation | Scene recognition method, device and mobile terminal based on ambient sound |
WO2013177981A1 (zh) * | 2012-05-28 | 2013-12-05 | 中兴通讯股份有限公司 | 一种基于环境声音的场景识别方法、装置及移动终端 |
CN103456301A (zh) * | 2012-05-28 | 2013-12-18 | 中兴通讯股份有限公司 | 一种基于环境声音的场景识别方法及装置及移动终端 |
CN104112446B (zh) * | 2013-04-19 | 2018-03-09 | 华为技术有限公司 | 呼吸声检测方法及装置 |
CN104112446A (zh) * | 2013-04-19 | 2014-10-22 | 华为技术有限公司 | 呼吸声检测方法及装置 |
CN103325388B (zh) * | 2013-05-24 | 2016-05-25 | 广州海格通信集团股份有限公司 | 基于最小能量小波框架的静音检测方法 |
CN103325388A (zh) * | 2013-05-24 | 2013-09-25 | 广州海格通信集团股份有限公司 | 基于最小能量小波框架的静音检测方法 |
WO2016172363A1 (en) * | 2015-04-24 | 2016-10-27 | Cyber Resonance Corporation | Methods and systems for performing signal analysis to identify content types |
US9653094B2 (en) | 2015-04-24 | 2017-05-16 | Cyber Resonance Corporation | Methods and systems for performing signal analysis to identify content types |
CN105976831A (zh) * | 2016-05-13 | 2016-09-28 | 中国人民解放军国防科学技术大学 | 基于哭声识别的遗漏孩童检测方法 |
CN108242241A (zh) * | 2016-12-23 | 2018-07-03 | 中国农业大学 | 一种纯语音快速筛选方法及其装置 |
CN109859744A (zh) * | 2017-11-29 | 2019-06-07 | 宁波方太厨具有限公司 | 一种应用于吸油烟机中的语音端点检测方法 |
CN109859744B (zh) * | 2017-11-29 | 2021-01-19 | 宁波方太厨具有限公司 | 一种应用于吸油烟机中的语音端点检测方法 |
CN108447505A (zh) * | 2018-05-25 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 音频信号过零率处理方法、装置及语音识别设备 |
CN110910905A (zh) * | 2018-09-18 | 2020-03-24 | 北京京东金融科技控股有限公司 | 静音点检测方法及装置、存储介质、电子设备 |
CN110910905B (zh) * | 2018-09-18 | 2023-05-02 | 京东科技控股股份有限公司 | 静音点检测方法及装置、存储介质、电子设备 |
CN110310668A (zh) * | 2019-05-21 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 静音检测方法、系统、设备及计算机可读存储介质 |
CN113225592A (zh) * | 2020-01-21 | 2021-08-06 | 华为技术有限公司 | 基于Wi-Fi P2P的投屏方法和装置 |
CN113225592B (zh) * | 2020-01-21 | 2022-08-09 | 华为技术有限公司 | 基于Wi-Fi P2P的投屏方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN100573663C (zh) | 2009-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100573663C (zh) | 基于语音特征判别的静音检测方法 | |
CN111508498B (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
US7684982B2 (en) | Noise reduction and audio-visual speech activity detection | |
Sailor et al. | Auditory Filterbank Learning for Temporal Modulation Features in Replay Spoof Speech Detection. | |
CN110120227A (zh) | 一种深度堆叠残差网络的语音分离方法 | |
KR101414233B1 (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
CA2492204A1 (en) | Similar speaking recognition method and system using linear and nonlinear feature extraction | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
Chavan et al. | Studies on implementation of wavelet for denoising speech signal | |
Sharma et al. | Study of robust feature extraction techniques for speech recognition system | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN1742322A (zh) | 噪声减小和视听语音活动检测 | |
Couvreur et al. | Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models | |
Biswas et al. | Hindi vowel classification using GFCC and formant analysis in sensor mismatch condition | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN110197657B (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
CN111341351A (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
Li et al. | An auditory system-based feature for robust speech recognition | |
Chin et al. | Improved voice activity detection for speech recognition system | |
CN112992131A (zh) | 一种在复杂场景下提取目标人声的乒乓球指令的方法 | |
CN116504226B (zh) | 一种基于深度学习的轻量化单通道声纹识别方法及系统 | |
Dendukuri et al. | Enhanced feature set calculation from emotional speech signals | |
Gao et al. | DNN Speech Separation Algorithm Based on Improved Segmented Masking Target | |
Fukuda et al. | Phone-duration-dependent long-term dynamic features for a stochastic model-based voice activity detection. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091223 Termination date: 20160420 |