CN103632681A - 一种谱包络静音检测方法 - Google Patents

一种谱包络静音检测方法 Download PDF

Info

Publication number
CN103632681A
CN103632681A CN201310561810.XA CN201310561810A CN103632681A CN 103632681 A CN103632681 A CN 103632681A CN 201310561810 A CN201310561810 A CN 201310561810A CN 103632681 A CN103632681 A CN 103632681A
Authority
CN
China
Prior art keywords
signal
noise
ratio
noise ratio
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310561810.XA
Other languages
English (en)
Other versions
CN103632681B (zh
Inventor
杨剑锋
郑晨熹
谢映海
林振华
刘绍华
苏全超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Haige Communication Group Inc Co
Original Assignee
Guangzhou Haige Communication Group Inc Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Haige Communication Group Inc Co filed Critical Guangzhou Haige Communication Group Inc Co
Priority to CN201310561810.XA priority Critical patent/CN103632681B/zh
Publication of CN103632681A publication Critical patent/CN103632681A/zh
Application granted granted Critical
Publication of CN103632681B publication Critical patent/CN103632681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种谱包络静音检测方法,该方法包括步骤:时域信号转换成频域信号,计算信号的谱能量分布;根据接收信号的状态对接收信号进行增益振荡检测,根据当前所处的状态选择相对应的更新方式更新底噪谱能量分布;利用接收信号的谱能量分布和底噪的谱能量分布计算帧信噪比,保存并更新最近一定时间内的帧信噪比;根据帧信噪比和谱包络信噪比记录,进行谱包络多状态转移,根据状态转移的状态输出判断输入信号是语音或是噪声。本方法可以快速检测语音信号的开始及结束,可为语音降噪、语音静默等语音信号处理提供依据。

Description

一种谱包络静音检测方法
技术领域
本发明涉及无线电通信的语音信号处理领域,特别涉及一种谱包络静音检测方法。
背景技术
静音检测是根据信号的特征分析,区分出语音信号和非语音信号,它在语音编码、语音增强、语音识别和无线通信等领域具有非常广泛的应用,例如在语音编码中,利用静音检测技术来区分有话音和无语音区,并对无语音区使用少量的比特进行编码,保证语音编码在相同质量的前提下,平均传输的速率更低。在语音增强中,通过静音检测识别话音的存在,对非话音段进行静默和噪声统计,对话音段进行语音降噪处理。在自动语音识别系统中,利用静音检测缩小识别系统识别的工作范围,从而减少系统中大量的运算并且减少误判率,使语音识别系统具有更好的实时性和更高的识别准确率。
这些语音处理技术都依赖于静音检测来判断是否有语音存在,从而实现对语音的编码、增强和识别。传统静音检测方法通过短时能量、过零率及相关性等手段检测,在高信噪比下具有良好的检测概率,但是在低信噪比下的检测不够准确,将噪声判断为语音或者将语音判断成噪声都会严重的影响语音编码、增强及识别的效果。因此,提高低信噪比下的静音检测性能具有十分重要的意义。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种谱包络静音检测方法,该方法能够在信噪比较低,甚至只能听到有话音而难以分辩话音内容的情况下准确的检测出语音信号,从而为语音降噪、语音静默等功能提供准确可靠的依据。
本发明的目的通过以下的技术方案实现:一种谱包络静音检测方法,包括以下步骤:
(1)将时域信号转换成频域信号,计算信号的谱能量分布;
(2)对底噪进行相应状态的谱能量分布更新;
(3)利用接收信号的谱能量分布和底噪的谱能量分布计算帧信噪比,保存并更新最近一定时间内的帧信噪比;并更新谱包络信噪比;
(4)根据帧信噪比和谱包络信噪比记录信息,进行谱包络多状态转移,根据多状态转移的状态输出判断输入信号是语音或是噪声。
优选的,在所述步骤(1)中,根据人类发声特性,将低于300Hz以及大于3400Hz的频谱能量置为零。从而可以减少后续的计算量。
优选的,在进行步骤(2)之前,先根据步骤(4)输出的状态判断是否需要对当前的接收信号进行增益振荡检测,如果需要则进行增益振荡检测。
更进一步的,所述进行增益振荡检测的具体步骤是:
(2-1)如果接收信号的状态为噪声状态,则先判断一定时间前信号是否为语音状态,如果不是,则不进行检测,否则获取其包络谱能量,进入步骤(2-3);
(2-2)如果接收信号的状态为语音状态,则获取其包络谱能量,进入步骤(1-3);
(2-3)判断帧能量是否大于包络能量10dB,如果是,则进行帧能量缩放,否则,则不进行检测。
具体的,所述步骤(2)中,对底噪进行相应状态的谱能量分布更新包括以下三种方式:谱分布初始化更新、谱分布正向更新和谱分布反向更新。
更进一步的,所述对底噪进行相应状态的谱能量分布更新时,如果是初始化状态则采用谱分布初始化更新;如果是噪声状态则采用谱分布正向更新;如果是信号状态则采用谱分布反向更新。
优选的,所述步骤(3)中,计算帧信噪比的公式为:
SNR = 10 lg Σ i = 0 L r 2 ( i ) Σ i = 0 L n 2 ( i ) - 1 ;
其中:SNR表示帧信噪比,r(i)表示接收信号,由发送信号和噪声信号组成,n(i)表示噪声信号;L表示统计周期内的样点个数,统计周期是由统计时间和采样率来决定。比如采样率为8Khz,统计时间为16毫秒,那么统计周期L就是128样点。
更新谱包络信噪比采用FIFO(先进先出)法,具体是只保存N帧信噪比,每当更新时,将最早输入的一帧信噪比舍去,其余的移位,最后得到的谱包络信噪比取谱包络信噪比记录数组中的最大值。
优选的,所述步骤(4)中,根据多状态转移的状态输出判断输入信号是语音或是噪声,其中先定义三个状态,噪声状态表示当前接收到信号为噪声,语音状态表示当前接收到信号为语音,过渡状态表示当前接收到的信号还需要进一步判断是噪声还是语音,具体判断过程是:
(4-1)设置第一门限和第二门限;初始化为噪声状态;
(4-2)判断当前的帧信噪比是否大于第一门限,如果是,则由噪声状态转移至过渡状态,进入步骤(4-3),否则继续保持为噪声状态;
(4-3)计算进入过渡状态的连续若干帧的平均信噪比,判断平均信噪比是否大于第二门限,如果是则进入语音状态,进入步骤(4-4),否则进入噪声状态;
(4-4)检测一定时间内的谱包络信噪比,判断此谱包络信噪比是否大于第一门限,如果是则保持为语音状态,否则进入过渡状态。
更进一步的,所述步骤(4-1)中,第一门限和第二门限是通过统计平稳噪声的能量熵分布得出。其具体值可根据静音检测实际使用环境调整,静音检测可检测信噪比低至-15dB时的信号。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明方法能够准确可靠的检测低信噪比下的语音信号,检测准确率高,虚警率低,能够弥补目前低信噪比下静音检测手段的不足。
2、本发明中,根据接收信号的状态判断对接收信号进行增益振荡检测,从而可以防止在信号由强变弱过程中由于接收机AGC控制而造成语音幅度剧烈的波动,影响静音检测的稳定性。
附图说明
图1是本发明方法流程示意图;
图2是本发明增益振荡检测流程示意图;
图3是本发明谱包络状态转移过程示意图;
图4是本发明谱包络信噪比的计算过程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例一种谱包络静音检测方法,具体包括步骤。
(1)通过快速傅立叶变换将收到的时域信号转为频域信号,计算信号频谱的能量分布。根据人类发声特性,将低于300Hz以及大于3400Hz的频谱能量置为零。
(2)根据接收信号的状态判断对接收信号进行增益振荡检测。增益振荡检测过程是为了防止由于接收机AGC控制而造成信号幅度上的剧烈变化,从而影响静音检测的准确性和稳定性。具体过程如图2所示,包括以下步骤:
(2-1)如果接收信号的状态为噪声状态,则先判断一定时间(例如1秒)前信号是否为语音状态,如果不是,则不进行检测,否则获取其包络谱能量,进入步骤(2-3);
(2-2)如果接收信号的状态为语音状态,则获取其包络谱能量,进入步骤(2-3);
(2-3)判断帧能量是否大于包络能量10dB,如果是,则进行帧能量缩放,否则,则不进行检测。
检测结束后根据当前所处的状态对底噪的谱能量分布进行更新,初始化状态采用谱分布初始化更新;噪声状态采用谱分布正向更新;信号状态采用谱分布反向更新。
(3)利用接收信号的谱能量分布和底噪的谱能量分布计算帧信噪比,保存并更新最近0.5秒钟内(在实际操作中不能超过2秒)的信噪比记录。
帧信噪比计算公式如下:
SNR = 10 lg Σ i = 0 L r 2 ( i ) Σ i = 0 L n 2 ( i ) - 1
其中:SNR表示帧信噪比,r(i)表示接收信号,由发送信号和噪声信号组成,n(i)表示噪声信号,L表示统计周期内的样点个数,统计周期是由统计时间和采样率来决定。比如采样率为8Khz,统计时间为16毫秒,那么统计周期L就是128样点。
然后采用FIFO(先进先出)法更新谱包络信噪比,原理如图4所示:只保存N帧信噪比,每当更新时,将最早输入的一帧信噪比(如图中的“1”)舍去,其余的移位,本实施例中得到的谱包络信噪比为谱包络信噪比记录数组中的最大值。
(4)根据帧信噪比和谱包络信噪比记录信息,进行谱包络多状态转移,根据多状态转移的状态输出判断输入信号是语音还是噪声。先定义三个状态,噪声状态表示当前接收到信号为噪声,语音状态表示当前接收到信号为语音,过渡状态表示当前接收到的信号还需要进一步判断是噪声还是语音,具体判断过程如图3所示:
(4-1)通过统计平稳噪声的能量熵分布设置第一门限和第二门限;初始化为噪声状态;
(4-2)判断当前的帧信噪比是否大于第一门限,如果是,则由噪声状态转移至过渡状态,进入步骤(4-3),否则继续保持为噪声状态;
(4-3)计算进入过渡状态的连续若干帧的平均信噪比,判断平均信噪比是否大于第二门限,如果是则进入语音状态,进入步骤(4-4),否则进入噪声状态;
(4-4)检测一定时间内的谱包络信噪比,判断此谱包络信噪比是否大于第一门限,如果是则保持为语音状态,否则进入过渡状态。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种谱包络静音检测方法,其特征在于,包括以下步骤:
(1)将时域信号转换成频域信号,计算信号的谱能量分布;
(2)对底噪进行相应状态的谱能量分布更新;
(3)利用接收信号的谱能量分布和底噪的谱能量分布计算帧信噪比,保存并更新最近一定时间内的帧信噪比;并更新谱包络信噪比;
(4)根据帧信噪比和谱包络信噪比记录信息,进行谱包络多状态转移,根据多状态转移的状态输出判断输入信号是语音或是噪声。
2.根据权利要求1所述的谱包络静音检测方法,其特征在于,在进行步骤(2)之前,先根据步骤(4)输出的状态判断是否需要对当前的接收信号进行增益振荡检测,如果需要则进行增益振荡检测。
3.根据权利要求2所述的谱包络静音检测方法,其特征在于,所述进行增益振荡检测的具体步骤是:
(2-1)如果接收信号的状态为噪声状态,则先判断一定时间前信号是否为语音状态,如果不是,则不进行检测,否则获取其包络谱能量,进入步骤(2-3);
(2-2)如果接收信号的状态为语音状态,则获取其包络谱能量,进入步骤(2-3);
(2-3)判断帧能量是否大于包络能量10dB,如果是,则进行帧能量缩放,否则,则不进行检测。
4.根据权利要求1所述的谱包络静音检测方法,其特征在于,所述步骤(2)中,对底噪进行相应状态的谱能量分布更新包括以下三种方式:谱分布初始化更新、谱分布正向更新和谱分布反向更新。
5.根据权利要求4所述的谱包络静音检测方法,其特征在于,所述对底噪进行相应状态的谱能量分布更新时,如果是初始化状态则采用谱分布初始化更新;如果是噪声状态则采用谱分布正向更新;如果是信号状态则采用谱分布反向更新。
6.根据权利要求1所述的谱包络静音检测方法,其特征在于,所述步骤(3)中,计算帧信噪比的公式为:
SNR = 10 lg Σ i = 0 L r 2 ( i ) Σ i = 0 L n 2 ( i ) - 1 ;
其中:SNR表示帧信噪比,r(i)表示接收信号,由发送信号和噪声信号组成,n(i)表示噪声信号,L表示统计周期内的样点个数,统计周期是由统计时间和采样率来决定;
更新谱包络信噪比采用FIFO法,具体是只保存N帧信噪比,每当更新时,将最早输入的一帧信噪比舍去,其余的移位,最后得到的谱包络信噪比取谱包络信噪比记录数组中的最大值。
7.根据权利要求1所述的谱包络静音检测方法,其特征在于,所述步骤(4)中,根据多状态转移的状态输出判断输入信号是语音或是噪声,其中先定义三个状态,噪声状态表示当前接收到信号为噪声,语音状态表示当前接收到信号为语音,过渡状态表示当前接收到的信号还需要进一步判断是噪声还是语音,具体判断过程是:
(4-1)设置第一门限和第二门限;初始化为噪声状态;
(4-2)判断当前的帧信噪比是否大于第一门限,如果是,则由噪声状态转移至过渡状态,进入步骤(4-3),否则继续保持为噪声状态;
(4-3)计算进入过渡状态的连续若干帧的平均信噪比,判断平均信噪比是否大于第二门限,如果是则进入语音状态,进入步骤(4-4),否则进入噪声状态;
(4-4)检测一定时间内的谱包络信噪比,判断此谱包络信噪比是否大于第一门限,如果是则保持为语音状态,否则进入过渡状态。
8.根据权利要求7所述的谱包络静音检测方法,其特征在于,所述步骤(4-1)中,第一门限和第二门限是通过统计平稳噪声的能量熵分布得出。其具体值可根据静音检测实际使用环境调整,静音检测可检测信噪比低至-15dB时的信号。
CN201310561810.XA 2013-11-12 2013-11-12 一种谱包络静音检测方法 Active CN103632681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310561810.XA CN103632681B (zh) 2013-11-12 2013-11-12 一种谱包络静音检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310561810.XA CN103632681B (zh) 2013-11-12 2013-11-12 一种谱包络静音检测方法

Publications (2)

Publication Number Publication Date
CN103632681A true CN103632681A (zh) 2014-03-12
CN103632681B CN103632681B (zh) 2016-09-07

Family

ID=50213655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310561810.XA Active CN103632681B (zh) 2013-11-12 2013-11-12 一种谱包络静音检测方法

Country Status (1)

Country Link
CN (1) CN103632681B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105810214A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音激活检测方法及装置
CN105827618A (zh) * 2016-04-25 2016-08-03 四川联友电讯技术有限公司 改善碎片化异步会议系统通话质量的方法
CN107071647A (zh) * 2016-11-18 2017-08-18 北京金锐德路科技有限公司 一种声音采集方法、系统和装置
CN108877776A (zh) * 2018-06-06 2018-11-23 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN109616098A (zh) * 2019-02-15 2019-04-12 北京嘉楠捷思信息技术有限公司 基于频域能量的语音端点检测方法和装置
CN112637423A (zh) * 2019-09-24 2021-04-09 鼎桥通信技术有限公司 一种实现音频数据监控的方法和装置
CN113270118A (zh) * 2021-05-14 2021-08-17 杭州朗和科技有限公司 语音活动侦测方法及装置、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1787079A (zh) * 2005-12-19 2006-06-14 北京中星微电子有限公司 一种噪声检测装置和方法
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
EP2362390A1 (en) * 2010-02-12 2011-08-31 Nxp B.V. Noise suppression

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1787079A (zh) * 2005-12-19 2006-06-14 北京中星微电子有限公司 一种噪声检测装置和方法
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
EP2362390A1 (en) * 2010-02-12 2011-08-31 Nxp B.V. Noise suppression

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张蔚蔚: "差分帧能量稳健语音信号活动性检测方法", 《电脑知识与技术》, vol. 5, no. 31, 30 November 2009 (2009-11-30), pages 8792 - 8794 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105810214A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音激活检测方法及装置
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
CN105827618A (zh) * 2016-04-25 2016-08-03 四川联友电讯技术有限公司 改善碎片化异步会议系统通话质量的方法
CN107071647A (zh) * 2016-11-18 2017-08-18 北京金锐德路科技有限公司 一种声音采集方法、系统和装置
CN108877776A (zh) * 2018-06-06 2018-11-23 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
WO2019232884A1 (zh) * 2018-06-06 2019-12-12 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN109616098A (zh) * 2019-02-15 2019-04-12 北京嘉楠捷思信息技术有限公司 基于频域能量的语音端点检测方法和装置
CN112637423A (zh) * 2019-09-24 2021-04-09 鼎桥通信技术有限公司 一种实现音频数据监控的方法和装置
CN113270118A (zh) * 2021-05-14 2021-08-17 杭州朗和科技有限公司 语音活动侦测方法及装置、存储介质和电子设备
CN113270118B (zh) * 2021-05-14 2024-02-13 杭州网易智企科技有限公司 语音活动侦测方法及装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN103632681B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN103632681A (zh) 一种谱包络静音检测方法
CN101968957B (zh) 一种噪声条件下的语音检测方法
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
CN101197130B (zh) 声音活动检测方法和声音活动检测器
CN105321528B (zh) 一种麦克风阵列语音检测方法及装置
JP3878482B2 (ja) 音声検出装置および音声検出方法
CN113724725B (zh) 一种蓝牙音频啸叫检测抑制方法、装置、介质及蓝牙设备
US20130191117A1 (en) Voice activity detection in presence of background noise
CN101641735B (zh) 估计通信系统中的噪声电平的方法
US20200365173A1 (en) Method for constructing voice detection model and voice endpoint detection system
CN103474074B (zh) 语音基音周期估计方法和装置
CN109412763A (zh) 一种基于信号能熵比的数字信号存在性检测方法
CN104616660A (zh) 基于环境噪音检测的智能语音播报系统及方法
CN103268766B (zh) 双麦克风语音增强方法及装置
CN1985301B (zh) 用于多路重合噪声检测的系统和方法
FI124869B (fi) Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten
CN109377982B (zh) 一种有效语音获取方法
US20190057705A1 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
CN103310800A (zh) 一种抗噪声干扰的浊语音检测方法及系统
CN101308651A (zh) 音频暂态信号的检测方法
CN100492495C (zh) 一种噪声检测装置和方法
CN103236863B (zh) 采用了硬限幅器的fm数字调制解调电路的静噪处理方法
CN103177731B (zh) 一种改进的模拟亚音ctcss尾音检测的方法与装置
CN105703850A (zh) 基于短时傅里叶变换数据链信号边沿检测方法
CN102624418B (zh) 一种水声二相调制直扩信号载频估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant