CN103632681B - 一种谱包络静音检测方法 - Google Patents
一种谱包络静音检测方法 Download PDFInfo
- Publication number
- CN103632681B CN103632681B CN201310561810.XA CN201310561810A CN103632681B CN 103632681 B CN103632681 B CN 103632681B CN 201310561810 A CN201310561810 A CN 201310561810A CN 103632681 B CN103632681 B CN 103632681B
- Authority
- CN
- China
- Prior art keywords
- signal
- noise ratio
- noise
- spectral
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Noise Elimination (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种谱包络静音检测方法,该方法包括步骤:时域信号转换成频域信号,计算信号的谱能量分布;根据接收信号的状态对接收信号进行增益振荡检测,根据当前所处的状态选择相对应的更新方式更新底噪谱能量分布;利用接收信号的谱能量分布和底噪的谱能量分布计算帧信噪比,保存并更新最近一定时间内的帧信噪比;根据帧信噪比和谱包络信噪比记录,进行谱包络多状态转移,根据状态转移的状态输出判断输入信号是语音或是噪声。本方法可以快速检测语音信号的开始及结束,可为语音降噪、语音静默等语音信号处理提供依据。
Description
技术领域
本发明涉及无线电通信的语音信号处理领域,特别涉及一种谱包络静音检测方法。
背景技术
静音检测是根据信号的特征分析,区分出语音信号和非语音信号,它在语音编码、语音增强、语音识别和无线通信等领域具有非常广泛的应用,例如在语音编码中,利用静音检测技术来区分有话音和无语音区,并对无语音区使用少量的比特进行编码,保证语音编码在相同质量的前提下,平均传输的速率更低。在语音增强中,通过静音检测识别话音的存在,对非话音段进行静默和噪声统计,对话音段进行语音降噪处理。在自动语音识别系统中,利用静音检测缩小识别系统识别的工作范围,从而减少系统中大量的运算并且减少误判率,使语音识别系统具有更好的实时性和更高的识别准确率。
这些语音处理技术都依赖于静音检测来判断是否有语音存在,从而实现对语音的编码、增强和识别。传统静音检测方法通过短时能量、过零率及相关性等手段检测,在高信噪比下具有良好的检测概率,但是在低信噪比下的检测不够准确,将噪声判断为语音或者将语音判断成噪声都会严重的影响语音编码、增强及识别的效果。因此,提高低信噪比下的静音检测性能具有十分重要的意义。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种谱包络静音检测方法,该方法能够在信噪比较低,甚至只能听到有话音而难以分辩话音内容的情况下准确的检测出语音信号,从而为语音降噪、语音静默等功能提供准确可靠的依据。
本发明的目的通过以下的技术方案实现:一种谱包络静音检测方法,包括以下步骤:
(1)将时域信号转换成频域信号,计算信号的谱能量分布;
(2)对底噪进行相应状态的谱能量分布更新;
(3)利用接收信号的谱能量分布和底噪的谱能量分布计算帧信噪比,保存并更新最近一定时间内的帧信噪比;并更新谱包络信噪比;
(4)根据帧信噪比和谱包络信噪比记录信息,进行谱包络多状态转移,根据多状态转移的状态输出判断输入信号是语音或是噪声。
优选的,在所述步骤(1)中,根据人类发声特性,将低于300Hz以及大于3400Hz的频谱能量置为零。从而可以减少后续的计算量。
优选的,在进行步骤(2)之前,先根据步骤(4)输出的状态判断是否需要对当前的接收信号进行增益振荡检测,如果需要则进行增益振荡检测。
更进一步的,所述进行增益振荡检测的具体步骤是:
(2-1)如果接收信号的状态为噪声状态,则先判断一定时间前信号是否为语音状态,如果不是,则不进行检测,否则获取其包络谱能量,进入步骤(2-3);
(2-2)如果接收信号的状态为语音状态,则获取其包络谱能量,进入步骤(1-3);
(2-3)判断帧能量是否大于包络能量10dB,如果是,则进行帧能量缩放,否则,则不进行检测。
具体的,所述步骤(2)中,对底噪进行相应状态的谱能量分布更新包括以下三种方式:谱分布初始化更新、谱分布正向更新和谱分布反向更新。
更进一步的,所述对底噪进行相应状态的谱能量分布更新时,如果是初始化状态则采用谱分布初始化更新;如果是噪声状态则采用谱分布正向更新;如果是信号状态则采用谱分布反向更新。
优选的,所述步骤(3)中,计算帧信噪比的公式为:
其中:SNR表示帧信噪比,r(i)表示接收信号,由发送信号和噪声信号组成,n(i)表示噪声信号;L表示统计周期内的样点个数,统计周期是由统计时间和采样率来决定。比如采样率为8Khz,统计时间为16毫秒,那么统计周期L就是128样点。
更新谱包络信噪比采用FIFO(先进先出)法,具体是只保存N帧信噪比,每当更新时,将最早输入的一帧信噪比舍去,其余的移位,最后得到的谱包络信噪比取谱包络信噪比记录数组中的最大值。
优选的,所述步骤(4)中,根据多状态转移的状态输出判断输入信号是语音或是噪声,其中先定义三个状态,噪声状态表示当前接收到信号为噪声,语音状态表示当前接收到信号为语音,过渡状态表示当前接收到的信号还需要进一步判断是噪声还是语音,具体判断过程是:
(4-1)设置第一门限和第二门限;初始化为噪声状态;
(4-2)判断当前的帧信噪比是否大于第一门限,如果是,则由噪声状态转移至过渡状态,进入步骤(4-3),否则继续保持为噪声状态;
(4-3)计算进入过渡状态的连续若干帧的平均信噪比,判断平均信噪比是否大于第二门限,如果是则进入语音状态,进入步骤(4-4),否则进入噪声状态;
(4-4)检测一定时间内的谱包络信噪比,判断此谱包络信噪比是否大于第一门限,如果是则保持为语音状态,否则进入过渡状态。
更进一步的,所述步骤(4-1)中,第一门限和第二门限是通过统计平稳噪声的能量熵分布得出。其具体值可根据静音检测实际使用环境调整,静音检测可检测信噪比低至-15dB时的信号。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明方法能够准确可靠的检测低信噪比下的语音信号,检测准确率高,虚警率低,能够弥补目前低信噪比下静音检测手段的不足。
2、本发明中,根据接收信号的状态判断对接收信号进行增益振荡检测,从而可以防止在信号由强变弱过程中由于接收机AGC控制而造成语音幅度剧烈的波动,影响静音检测的稳定性。
附图说明
图1是本发明方法流程示意图;
图2是本发明增益振荡检测流程示意图;
图3是本发明谱包络状态转移过程示意图;
图4是本发明谱包络信噪比的计算过程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例一种谱包络静音检测方法,具体包括步骤。
(1)通过快速傅立叶变换将收到的时域信号转为频域信号,计算信号频谱的能量分布。根据人类发声特性,将低于300Hz以及大于3400Hz的频谱能量置为零。
(2)根据接收信号的状态判断对接收信号进行增益振荡检测。增益振荡检测过程是为了防止由于接收机AGC控制而造成信号幅度上的剧烈变化,从而影响静音检测的准确性和稳定性。具体过程如图2所示,包括以下步骤:
(2-1)如果接收信号的状态为噪声状态,则先判断一定时间(例如1秒)前信号是否为语音状态,如果不是,则不进行检测,否则获取其包络谱能量,进入步骤(2-3);
(2-2)如果接收信号的状态为语音状态,则获取其包络谱能量,进入步骤(2-3);
(2-3)判断帧能量是否大于包络能量10dB,如果是,则进行帧能量缩放,否则,则不进行检测。
检测结束后根据当前所处的状态对底噪的谱能量分布进行更新,初始化状态采用谱分布初始化更新;噪声状态采用谱分布正向更新;信号状态采用谱分布反向更新。
(3)利用接收信号的谱能量分布和底噪的谱能量分布计算帧信噪比,保存并更新最近0.5秒钟内(在实际操作中不能超过2秒)的信噪比记录。
帧信噪比计算公式如下:
其中:SNR表示帧信噪比,r(i)表示接收信号,由发送信号和噪声信号组成,n(i)表示噪声信号,L表示统计周期内的样点个数,统计周期是由统计时间和采样率来决定。比如采样率为8Khz,统计时间为16毫秒,那么统计周期L就是128样点。
然后采用FIFO(先进先出)法更新谱包络信噪比,原理如图4所示:只保存N帧信噪比,每当更新时,将最早输入的一帧信噪比(如图中的“1”)舍去,其余的移位,本实施例中得到的谱包络信噪比为谱包络信噪比记录数组中的最大值。
(4)根据帧信噪比和谱包络信噪比记录信息,进行谱包络多状态转移,根据多状态转移的状态输出判断输入信号是语音还是噪声。先定义三个状态,噪声状态表示当前接收到信号为噪声,语音状态表示当前接收到信号为语音,过渡状态表示当前接收到的信号还需要进一步判断是噪声还是语音,具体判断过程如图3所示:
(4-1)通过统计平稳噪声的能量熵分布设置第一门限和第二门限;初始化为噪声状态;
(4-2)判断当前的帧信噪比是否大于第一门限,如果是,则由噪声状态转移至过渡状态,进入步骤(4-3),否则继续保持为噪声状态;
(4-3)计算进入过渡状态的连续若干帧的平均信噪比,判断平均信噪比是否大于第二门限,如果是则进入语音状态,进入步骤(4-4),否则进入噪声状态;
(4-4)检测一定时间内的谱包络信噪比,判断此谱包络信噪比是否大于第一门限,如果是则保持为语音状态,否则进入过渡状态。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种谱包络静音检测方法,其特征在于,包括以下步骤:
(1)将时域信号转换成频域信号,计算信号的谱能量分布;
(2)对底噪进行相应状态的谱能量分布更新;
(3)利用接收信号的谱能量分布和底噪的谱能量分布计算帧信噪比,保存并更新最近一定时间内的帧信噪比;并更新谱包络信噪比;
(4)根据帧信噪比和谱包络信噪比记录信息,进行谱包络多状态转移,根据多状态转移的状态输出判断输入信号是语音或是噪声;
在进行步骤(2)之前,先根据步骤(4)输出的状态判断是否需要对当前的接收信号进行增益振荡检测,如果需要则进行增益振荡检测;
所述进行增益振荡检测的具体步骤是:
(2-1)如果接收信号的状态为噪声状态,则先判断一定时间前信号是否为语音状态,如果不是,则不进行检测,否则获取其包络谱能量,进入步骤(2-3);
(2-2)如果接收信号的状态为语音状态,则获取其包络谱能量,进入步骤(2-3);
(2-3)判断帧能量是否大于包络能量10dB,如果是,则进行帧能量缩放,否则,则不进行检测。
2.根据权利要求1所述的谱包络静音检测方法,其特征在于,所述步骤(2)中,对底噪进行相应状态的谱能量分布更新包括以下三种方式:谱分布初始化更新、谱分布正向更新和谱分布反向更新。
3.根据权利要求2所述的谱包络静音检测方法,其特征在于,所述对底噪进行相应状态的谱能量分布更新时,如果是初始化状态则采用谱分布初始化更新;如果是噪声状态则采用谱分布正向更新;如果是信号状态则采用谱分布反向更新。
4.根据权利要求1所述的谱包络静音检测方法,其特征在于,所述步骤(3)中,计算帧信噪比的公式为:
其中:SNR表示帧信噪比,r(i)表示接收信号,由发送信号和噪声信号组成,n(i)表示噪声信号,L表示统计周期内的样点个数,统计周期是由统计时间和采样率来决定;
更新谱包络信噪比采用FIFO法,具体是只保存N帧信噪比,每当更新时,将最早输入的一帧信噪比舍去,其余的移位,最后得到的谱包络信噪比取谱包络信噪比记录数组中的最大值。
5.根据权利要求1所述的谱包络静音检测方法,其特征在于,所述步骤(4)中,根据多状态转移的状态输出判断输入信号是语音或是噪声,其中先定义三个状态,噪声状态表示当前接收到信号为噪声,语音状态表示当前接收到信号为语音,过渡状态表示当前接收到的信号还需要进一步判断是噪声还是语音,具体判断过程是:
(4-1)设置第一门限和第二门限;初始化为噪声状态;
(4-2)判断当前的帧信噪比是否大于第一门限,如果是,则由噪声状态转移至过渡状态,进入步骤(4-3),否则继续保持为噪声状态;
(4-3)计算进入过渡状态的连续若干帧的平均信噪比,判断平均信噪比是否大于第二门限,如果是则进入语音状态,进入步骤(4-4),否则进入噪声状态;
(4-4)检测一定时间内的谱包络信噪比,判断此谱包络信噪比是否大于第一门限,如果是则保持为语音状态,否则进入过渡状态。
6.根据权利要求5所述的谱包络静音检测方法,其特征在于,所述步骤(4-1)中,第一门限和第二门限是通过统计平稳噪声的能量熵分布得出,其具体值可根据静音检测实际使用环境调整,静音检测可检测信噪比低至-15dB时的信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310561810.XA CN103632681B (zh) | 2013-11-12 | 2013-11-12 | 一种谱包络静音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310561810.XA CN103632681B (zh) | 2013-11-12 | 2013-11-12 | 一种谱包络静音检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103632681A CN103632681A (zh) | 2014-03-12 |
CN103632681B true CN103632681B (zh) | 2016-09-07 |
Family
ID=50213655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310561810.XA Active CN103632681B (zh) | 2013-11-12 | 2013-11-12 | 一种谱包络静音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103632681B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105810214B (zh) * | 2014-12-31 | 2019-11-05 | 展讯通信(上海)有限公司 | 语音激活检测方法及装置 |
CN105827618A (zh) * | 2016-04-25 | 2016-08-03 | 四川联友电讯技术有限公司 | 改善碎片化异步会议系统通话质量的方法 |
CN106601227A (zh) * | 2016-11-18 | 2017-04-26 | 北京金锐德路科技有限公司 | 音频采集方法和装置 |
CN108877776B (zh) * | 2018-06-06 | 2023-05-16 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
CN109616098B (zh) * | 2019-02-15 | 2022-04-01 | 嘉楠明芯(北京)科技有限公司 | 基于频域能量的语音端点检测方法和装置 |
CN112637423A (zh) * | 2019-09-24 | 2021-04-09 | 鼎桥通信技术有限公司 | 一种实现音频数据监控的方法和装置 |
CN113270118B (zh) * | 2021-05-14 | 2024-02-13 | 杭州网易智企科技有限公司 | 语音活动侦测方法及装置、存储介质和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1354455A (zh) * | 2000-11-18 | 2002-06-19 | 深圳市中兴通讯股份有限公司 | 一种从噪声环境中识别出语音和音乐的声音活动检测方法 |
CN1787079A (zh) * | 2005-12-19 | 2006-06-14 | 北京中星微电子有限公司 | 一种噪声检测装置和方法 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
EP2362390A1 (en) * | 2010-02-12 | 2011-08-31 | Nxp B.V. | Noise suppression |
-
2013
- 2013-11-12 CN CN201310561810.XA patent/CN103632681B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1354455A (zh) * | 2000-11-18 | 2002-06-19 | 深圳市中兴通讯股份有限公司 | 一种从噪声环境中识别出语音和音乐的声音活动检测方法 |
CN1787079A (zh) * | 2005-12-19 | 2006-06-14 | 北京中星微电子有限公司 | 一种噪声检测装置和方法 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
EP2362390A1 (en) * | 2010-02-12 | 2011-08-31 | Nxp B.V. | Noise suppression |
Non-Patent Citations (1)
Title |
---|
差分帧能量稳健语音信号活动性检测方法;张蔚蔚;《电脑知识与技术》;20091130;第5卷(第31期);8792-8794 * |
Also Published As
Publication number | Publication date |
---|---|
CN103632681A (zh) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103632681B (zh) | 一种谱包络静音检测方法 | |
CN106130942B (zh) | 一种基于循环谱的无线通信信号调制识别及参数估计方法 | |
Aneeja et al. | Single frequency filtering approach for discriminating speech and nonspeech | |
CN103632676B (zh) | 一种低信噪比语音降噪方法 | |
CN101010722B (zh) | 用于检测语音信号中话音活动的设备和方法 | |
CN105321528B (zh) | 一种麦克风阵列语音检测方法及装置 | |
CN104143341B (zh) | 爆音检测方法和装置 | |
CN105469785A (zh) | 通信终端双麦克风消噪系统中的语音活动检测方法及装置 | |
CN106653062A (zh) | 一种低信噪比环境下基于谱熵改进的语音端点检测方法 | |
CN106205606A (zh) | 一种基于语音识别的动态定位监控方法及系统 | |
CN106303878A (zh) | 一种啸叫检测和抑制方法 | |
CN105810201B (zh) | 语音活动检测方法及其系统 | |
CN109412763A (zh) | 一种基于信号能熵比的数字信号存在性检测方法 | |
CN104464722A (zh) | 基于时域和频域的语音活性检测方法和设备 | |
CN106340305A (zh) | 自校准的远场语音交互设备及远场语音自校准方法 | |
CN109360585A (zh) | 一种语音激活检测方法 | |
CN107293287A (zh) | 检测音频信号的方法和装置 | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN109741759A (zh) | 一种面向特定鸟类物种的声学自动检测方法 | |
CN105916090A (zh) | 一种基于智能化语音识别技术的助听器系统 | |
CN108900267B (zh) | 基于特征值的单边右尾拟合优度检验频谱感知方法及装置 | |
KR20040075959A (ko) | 잡음 환경들에 대한 음성 활동도 검출기 및 밸리데이터 | |
CN108039182B (zh) | 一种语音激活检测方法 | |
CN103001714A (zh) | 一种快速的gsm-r干扰识别方法 | |
CN100492495C (zh) | 一种噪声检测装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |