CN103325388A - 基于最小能量小波框架的静音检测方法 - Google Patents
基于最小能量小波框架的静音检测方法 Download PDFInfo
- Publication number
- CN103325388A CN103325388A CN2013102001625A CN201310200162A CN103325388A CN 103325388 A CN103325388 A CN 103325388A CN 2013102001625 A CN2013102001625 A CN 2013102001625A CN 201310200162 A CN201310200162 A CN 201310200162A CN 103325388 A CN103325388 A CN 103325388A
- Authority
- CN
- China
- Prior art keywords
- frame
- signal
- detection method
- vad
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Noise Elimination (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于最小能量小波框架的静音检测方法,包括以下步骤:1)对受加性高斯白噪声污染的模拟语音信号进行抽样,得到数字语音抽样信号;2)在一个离散信号空间上,采用最小能量小波框架把数字语音抽样信号分解成多个子信号;3)对步骤2)分解的每个子信号同时进行分帧处理,分别计算每个子信号同一时间轴上的一帧的能量大小并进行相加,然后计算出VAD判决变量的具体数值;4)采用判决器对VAD判决变量的具体数值进行判决,得到三段式判决门限的初步判决结果,再采用判决结果平滑算法,得到最终VAD判决结果,从而判断信号中的语音信号静默区和语音信号活动区。本发明具有低计算复杂度、自适应性强、VAD效果准确率高和硬件代价低的特点。
Description
技术领域
本发明涉及一种静音检测方法,尤其是一种基于最小能量小波框架的静音检测方法,属于数字语音信号处理技术领域。
背景技术
静音检测(VAD)技术,是数字语音信号处理的一项重要技术,它通过采用各种算法检测出会话中的静默时间段和活动时间段,并根据检测结果对这两种信号采用不同的处理措施,从而提高语音信号处理的整体效果。
检测准确率是VAD算法的重要性能指标,保守的VAD算法会引入过多的纯噪声信号,激进的VAD算法则会损失部分语音信号;另外算法计算复杂度和实现代价也是考虑因素,前者对于手持设备尤其重要,低计算复杂度的算法可以延长电池的工作时间,而后者对于低端产品十分重要,低计算复杂度的算法对硬件的要求较低,可以降低产品成本,提高市场竞争力。传统的一些静音检测技术,如基于频域能量特征或基于谱熵的检测技术等,虽然检测准确率较高,但算法的计算复杂度较高,极大限制了相关技术的使用范围。
小波理论目前在语音信号处理领域有着广泛的应用,特别是其中的最小能量小波框架,既保持了单小波的优点,又克服了单小波的缺陷,把正交性、光滑性、紧支性、对称性等完美的结合起来,在很大程度上克服了正交基和双正交基的缺陷,而且具有正交基和双正交基所无法比拟的许多优良性质和良好的应用前景。
发明内容
本发明的目的,是为了解决上述现有技术的缺陷,提供一种具有低计算复杂度、自适应性强、VAD效果准确率高和硬件代价低特点的基于最小能量小波框架的静音检测方法。
本发明的目的可以通过采取如下技术方案达到:
基于最小能量小波框架的静音检测方法,其特征在于包括以下步骤:
1)对受加性高斯白噪声污染的模拟语音信号进行抽样,得到数字语音抽样信号;
2)利用一组最小能量小波框架把步骤1)得到的数字语音抽样信号分解成多个子信号;
3)对步骤2)分解的每个子信号同时进行分帧处理,分别计算每个子信号同一时间轴上的一帧的能量大小并进行相加,然后计算出VAD判决变量的具体数值;
4)采用判决器对VAD判决变量的具体数值进行判决,得到三段式的初步判决结果,再采用判决结果平滑算法,得到最终VAD判决结果,从而判断数字语音抽样信号中的语音信号静默区和语音信号活动区。
作为一种优选方案,所述数字语音抽样信号表示如下:
X[n]=S[n]+U[n] (1)
其中,S[n]为纯语音抽样信号,U[n]为背景噪声抽样信号。
作为一种优选方案,所述步骤2)中,最小能量小波框架由4个子数列组成,具体如下:
利用小波塔式分解算法对信号X[n]进行单层分解,分解式如下:
Fc(k)=[c[λ*(k-1)+1],c[λ*(k-1)+2],...,c[λ*(k-1)+λ]];
Fd1(k)=[d1 [λ*(k-1)+1],d1 [λ*(k-1)+2],...,d1 [λ*(k-1)+λ]];
Fd2(k)=[d2 [λ*(k-1)+1],d2 [λ*(k-1)+2],...,d2 [λ*(k-1)+λ]];
Fd3(k)=[d3 [λ*(k-1)+1],d3 [λ*(k-1)+2],...,d3 [λ*(k-1)+λ]];
分别计算Fc(k)、Fd1(k)、Fd2(k)和Fd3(k)的能量大小,记为:
Pc(k)=||Fc(k)||2
令
则针对X[n]信号的区间[X2λ*(k-1)+1,...,X2λ*(k-1)+2λ]的VAD初步判决变量的具体数值如下:
其中k≥1,λ≥128,Θ≥5;参数Θ的最佳值通过测试来设定。
作为一种优选方案,所述步骤4)中,采用判决器对VAD判决变量的具体数值进行判决,得到第k帧的初步判决结果:
再采用判决结果平滑算法,得到第k帧的最终VAD判决结果:
其中k≥1,Δ2>Δ1>0;0表示纯噪声帧,1表示语音帧,阈值Δ1和Δ2的最佳值通过测试来设定,N的值根据用途来设定。
本发明相对于现有技术具有如下的有益效果:
1、本发明的检测方法针对受高斯白噪声污染的数字语音信号,在一个离散信号空间上采用最小能量小波框架把数字语音信号进行分解,由于纯噪声区的信号和被噪声污染的语音活动区的信号分解后子信号的能量分布情况将存在明显的差异性,因此提出一种判决变量生成方式,通过三段式的判决门限和判决结果平滑算法,来最终判断信号中的语音信号静默区和语音信号活动区。
2、本发明的检测方法具有低计算复杂度的特点,在时域上进行信号分解,最小能量小波框架子数列的长度都仅为6,仅需要及其少量的实数线性加法和乘法运算即可完成整个静音检测过程(对应长度N的输入信号,计算复杂度仅为O(N)级)。
3、本发明的检测方法自适应性强,整个过程都无需噪声参数更新,算法对噪声的功率变化十分不敏感;VAD效果准确率高,在较低信噪比情况下仍具有较高的检测准确率;硬件代价低,整套算法仅需要极少量的线性加法和乘法运算,无需额外的硬件支持。
附图说明
图1为本发明的静音检测流程图。
图2为语音实验室产生的时间长度为300秒的纯净语音信号示意图。
图3为计算机产生的时间长度为300秒的功率时变的高斯白噪声信号示意图。
图4为语音实验室产生的纯净语音信号和计算机产生的功率时变的高斯白噪声信号混合后的加噪信号示意图。
图5为对加噪信号采用本发明VAD算法的效果示意图。
具体实施方式
实施例1:
本实施例的静音检测方法针对受高斯白噪声污染的数字语音信号,基于如下引理1实现:
引理1如果数列qi [k]:i=1,2,...,N生成了离散信号空间上一个和数列p[k]相联系的最小能量小波框架,则对任意数列c[j+1,k],有小波塔式分解算法如下:
其小波塔式重构算法如下:
及满足分解前后的能量不变性等式:
上述式(8)、(9)和(10),由于可以利用分解公式对数列进行逐层分解,因此数列c[j+1,k]的下标j+1表示层数,k表示整数轴。
如图1所示,本实施例的静音检测方法包括以下步骤:
1)对受加性高斯白噪声污染的模拟语音信号进行抽样,得到数字语音抽样信号,所述数字语音抽样信号表示如下:
X[n]=S[n]+U[n] (1)
其中,S[n]为纯语音抽样信号,U[n]为背景噪声抽样信号。
2)在一个离散信号空间上采用最小能量小波框架对数字语音抽样信号进行分解,所述最小能量小波框架由4个子数列组成,如下:
利用小波塔式分解算法对信号X[n]进行单层分解,分解式如下:
Fc(k)=[c[256*(k-1)+1],c[256*(k-1)+2],...,c[256*(k-1)+256]];
Fd1(k)=[d1 [256*(k-1)+1],d1 [256*(k-1)+2],...,d1 [256*(k-1)+256]];
Fd2(k)=[d2 [256*(k-1)+1],d2 [256*(k-1)+2],...,d2 [256*(k-1)+256]];
Fd3(k)=[d3 [256*(k-1)+1],d3 [256*(k-1)+2],...,d3 [256*(k-1)+256]];
分别计算Fc(k)、Fd1(k)、Fd2(k)和Fd3(k)的能量大小,记为:
Pc(k)=||Fc(k)||2
令
由于纯噪声区的信号和被噪声污染的语音活动区的信号分解后子信号的能量分布情况将存在明显的差异性,则针对X[n]信号区间[X512*(k-1)+1,...,X512*(k-1)+512]的VAD判决变量的具体数值如下:
其中k≥1。
4)采用判决器对VAD判决变量的具体数值进行判决,得到第k帧的初步判决结果,为三段式的判决门限:
所述式(6)中,系统把前面M帧信号都默认为纯噪声帧,即G(k)=0,1≤k≤M。
采用判决结果平滑算法,得到第k帧的最终VAD判决结果:
注:系统默认开机后至少存在1秒以上的纯噪声信号。
为提高算法检测准确率,判决平滑过程中存在N帧的拖尾保护,具体大小视VAD算法的具体用途自行设定(本实施例中N=15),其值过大会引入过多的纯噪声信号,过小则会损失部分语音信号,根据式(7)最终判断数字语音抽样信号X[n]中的语音信号静默区和语音信号活动区。
图2和图3分别给出了一段时间长度为300秒,语音实验室产生的干净语音信号和利用计算机产生的功率时变的高斯白噪声信号,可以看出在有语音活动区,噪声的功率明显是大于或等于信号的功率的,因此信号平均信噪比是明显小于0dB的。
图4是语音实验室产生的干净语音信号和利用计算机产生的功率时变的高斯白噪声信号两者加性混合后的信号(即加噪信号)情况,图5为对加噪信号采用本实施例提供的VAD算法得到的静音检测效果(此时拖尾保护长度为N=15),中心黑色虚线段部分表示语音活动区,其余部分表示静默区。从仿真结果看出,即使接收信号的信噪比已经明显低于0dB,但本实施例的VAD算法还是把99.3%以上的语音信号活动区间检测出来,仅因拖尾保护措施引入了少量的纯噪声区间,整体性能已经超过了现有的一些经典VAD算法。
以上所述,仅为本发明优选的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。
Claims (5)
1.基于最小能量小波框架的静音检测方法,其特征在于包括以下步骤:
1)对受加性高斯白噪声污染的模拟语音信号进行抽样,得到数字语音抽样信号;
2)利用一组最小能量小波框架把步骤1)得到的数字语音抽样信号分解成多个子信号;
3)对步骤2)分解的每个子信号同时进行分帧处理,分别计算每个子信号同一时间轴上的一帧的能量大小并进行相加,然后计算出VAD判决变量的具体数值;
4)采用判决器对VAD判决变量的具体数值进行判决,得到三段式的初步判决结果,再采用判决结果平滑算法,得到最终VAD判决结果,从而判断数字语音抽样信号中的语音信号静默区和语音信号活动区。
2.根据权利要求1所述的基于最小能量小波框架的静音检测方法,其特征在于:所述数字语音抽样信号表示如下:
X[n]=S[n]+U[n] (1)
其中,S[n]为纯语音抽样信号,U[n]为背景噪声抽样信号。
Fc(k)=[c[λ*(k-1)+1],c[λ*(k-1)+2],...,c[λ*(k-1)+λ]];
Fd1(k)=[d1 [λ*(k-1)+1],d1 [λ*(k-1)+2],...,d1 [λ*(k-1)+λ]];
Fd2(k)=[d2 [λ*(k-1)+1],d2 [λ*(k-1)+2],...,d2 [λ*(k-1)+λ]];
Fd3(k)=[d3 [λ*(k-1)+1],d3 [λ*(k-1)+2],...,d3 [λ*(k-1)+λ]];
分别计算Fc(k)、Fd1(k)、Fd2(k)和Fd3(k)的能量大小,记为:
Pc(k)=||Fc(k)||2
令
则针对X[n]信号的区间[X2λ*(k-1)+1,...,X2λ*(k-1)+2λ]的VAD初步判决变量的具体数值如下:
其中k≥1,λ≥128,Θ≥5;参数Θ的最佳值通过测试来设定。
5.根据权利要求4所述的基于最小能量小波框架的静音检测方法,其特征在于:所述步骤4)中,采用判决器对VAD判决变量的具体数值进行判决,得到第k帧的初步判决结果:
再采用判决结果平滑算法,得到第k帧的最终VAD判决结果:
其中k≥1,Δ2>Δ1>0;0表示纯噪声帧,1表示语音帧,阈值Δ1和Δ2的最佳值通过测试来设定,N的值根据用途来设定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310200162.5A CN103325388B (zh) | 2013-05-24 | 2013-05-24 | 基于最小能量小波框架的静音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310200162.5A CN103325388B (zh) | 2013-05-24 | 2013-05-24 | 基于最小能量小波框架的静音检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103325388A true CN103325388A (zh) | 2013-09-25 |
CN103325388B CN103325388B (zh) | 2016-05-25 |
Family
ID=49194084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310200162.5A Active CN103325388B (zh) | 2013-05-24 | 2013-05-24 | 基于最小能量小波框架的静音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103325388B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104934032A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
CN106101036A (zh) * | 2016-06-17 | 2016-11-09 | 广州海格通信集团股份有限公司 | 基于最小能量小波框架的bpsk宽带信号中单音和多音干扰去噪方法 |
CN106782617A (zh) * | 2016-11-22 | 2017-05-31 | 广州海格通信集团股份有限公司 | 一种针对受白噪声干扰语音信号的静音检测方法 |
CN107810529A (zh) * | 2015-06-29 | 2018-03-16 | 亚马逊技术公司 | 语言模型语音端点确定 |
CN108806707A (zh) * | 2018-06-11 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备及存储介质 |
CN110827852A (zh) * | 2019-11-13 | 2020-02-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
CN112513607A (zh) * | 2018-07-13 | 2021-03-16 | 斯塔内奥公司 | 用于确定结构和相关联的系统的损坏风险的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5572623A (en) * | 1992-10-21 | 1996-11-05 | Sextant Avionique | Method of speech detection |
CN1787071A (zh) * | 2004-12-07 | 2006-06-14 | 腾讯科技(深圳)有限公司 | 一种检测静音帧的方法 |
CN1835073A (zh) * | 2006-04-20 | 2006-09-20 | 南京大学 | 基于语音特征判别的静音检测方法 |
CN101149921A (zh) * | 2006-09-21 | 2008-03-26 | 展讯通信(上海)有限公司 | 一种静音检测方法和装置 |
-
2013
- 2013-05-24 CN CN201310200162.5A patent/CN103325388B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5572623A (en) * | 1992-10-21 | 1996-11-05 | Sextant Avionique | Method of speech detection |
CN1787071A (zh) * | 2004-12-07 | 2006-06-14 | 腾讯科技(深圳)有限公司 | 一种检测静音帧的方法 |
CN1835073A (zh) * | 2006-04-20 | 2006-09-20 | 南京大学 | 基于语音特征判别的静音检测方法 |
CN101149921A (zh) * | 2006-09-21 | 2008-03-26 | 展讯通信(上海)有限公司 | 一种静音检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
曹春红: "区间最小能量小波框架研究及其在信号去噪中的应用", 《中国优秀硕士学位论文数据库(电子期刊)》 * |
谢映海等: "离散空间上的最小能量框架及其在矩形脉冲信号去噪中的应用研究", 《物理学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104934032B (zh) * | 2014-03-17 | 2019-04-05 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
CN104934032A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
CN107810529B (zh) * | 2015-06-29 | 2021-10-08 | 亚马逊技术公司 | 语言模型语音端点确定 |
CN107810529A (zh) * | 2015-06-29 | 2018-03-16 | 亚马逊技术公司 | 语言模型语音端点确定 |
CN106101036B (zh) * | 2016-06-17 | 2019-10-18 | 广州海格通信集团股份有限公司 | 基于最小能量小波框架的bpsk宽带信号中单音和多音干扰去噪方法 |
CN106101036A (zh) * | 2016-06-17 | 2016-11-09 | 广州海格通信集团股份有限公司 | 基于最小能量小波框架的bpsk宽带信号中单音和多音干扰去噪方法 |
CN106782617A (zh) * | 2016-11-22 | 2017-05-31 | 广州海格通信集团股份有限公司 | 一种针对受白噪声干扰语音信号的静音检测方法 |
CN108806707A (zh) * | 2018-06-11 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备及存储介质 |
CN108806707B (zh) * | 2018-06-11 | 2020-05-12 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备及存储介质 |
US10839820B2 (en) | 2018-06-11 | 2020-11-17 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice processing method, apparatus, device and storage medium |
CN112513607A (zh) * | 2018-07-13 | 2021-03-16 | 斯塔内奥公司 | 用于确定结构和相关联的系统的损坏风险的方法 |
CN112513607B (zh) * | 2018-07-13 | 2024-06-11 | 信号采集测量公司 | 用于确定结构和相关联的系统的损坏风险的方法 |
CN110827852A (zh) * | 2019-11-13 | 2020-02-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
CN110827852B (zh) * | 2019-11-13 | 2022-03-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
US12039999B2 (en) | 2019-11-13 | 2024-07-16 | Tencent Music Entertainment Technology (Shenzhen) Co., Ltd. | Method and apparatus for detecting valid voice signal and non-transitory computer readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN103325388B (zh) | 2016-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103325388A (zh) | 基于最小能量小波框架的静音检测方法 | |
Li et al. | A novel noise reduction technique for underwater acoustic signals based on complete ensemble empirical mode decomposition with adaptive noise, minimum mean square variance criterion and least mean square adaptive filter | |
Liang et al. | Maximum average kurtosis deconvolution and its application for the impulsive fault feature enhancement of rotating machinery | |
CN104483127A (zh) | 一种行星齿轮微弱故障特征信息提取方法 | |
CN107832777B (zh) | 一种采用时域压缩多分辨率快速s变换特征提取的电能质量扰动识别方法 | |
CN103746722B (zh) | 一种跳频信号跳周期和起跳时间估计方法 | |
Li et al. | Research on test bench bearing fault diagnosis of improved EEMD based on improved adaptive resonance technology | |
CN106441897A (zh) | 基于字典学习的形态分量轴承故障诊断方法 | |
CN107886078A (zh) | 一种基于分层自适应阈值函数的小波阈值降噪方法 | |
CN105510711A (zh) | 一种改进的经验模态分解的谐波分析法 | |
CN103531205A (zh) | 基于深层神经网络特征映射的非对称语音转换方法 | |
CN103258543B (zh) | 一种人工语音带宽扩展的方法 | |
CN110488152B (zh) | 一种基于自适应神经模糊推理系统的配电网故障选线方法 | |
CN101900761B (zh) | 一种高准确度非整周期采样谐波分析测量方法 | |
Zhang et al. | A method for modulation recognition based on entropy features and random forest | |
CN105825289A (zh) | 风功率时间序列的预测方法 | |
CN106706320B (zh) | 一种基于前馈控制随机共振的轴承早期故障诊断方法 | |
CN102891770A (zh) | 一种利用短相关模型预测长相关序列的方法 | |
CN104095630A (zh) | 一种基于脑电相位同步的疲劳检测方法 | |
CN103915102B (zh) | 一种lfm水声多途信号的噪声抑制方法 | |
CN110428848A (zh) | 一种基于公共空间语音模型预测的语音增强方法 | |
CN101308651B (zh) | 音频暂态信号的检测方法 | |
CN104658547A (zh) | 一种人工语音带宽扩展的方法 | |
CN103175687A (zh) | 一种活齿减速器故障定位方法 | |
CN105466670A (zh) | 基于叶片电机电流信号的多叶准直器的健康状态监控方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |