CN103440871A - 一种语音中瞬态噪声抑制的方法 - Google Patents
一种语音中瞬态噪声抑制的方法 Download PDFInfo
- Publication number
- CN103440871A CN103440871A CN2013103699865A CN201310369986A CN103440871A CN 103440871 A CN103440871 A CN 103440871A CN 2013103699865 A CN2013103699865 A CN 2013103699865A CN 201310369986 A CN201310369986 A CN 201310369986A CN 103440871 A CN103440871 A CN 103440871A
- Authority
- CN
- China
- Prior art keywords
- frame
- signal
- pitch period
- voice
- gamma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明公开了一种语音中瞬态噪声抑制的方法,属于信号处理技术领域。一种语音中瞬态噪声抑制的方法,其特征在于:包括三个模块:伽马通频率倒谱系数提取模块、瞬态噪声检测模块、语音信号重建模块;所述的伽马通频率倒谱系数提取模块输入端接收含噪的语音信号,输出端与瞬态噪声检测模块输入端相连,所述的瞬态噪声检测模块输出端与语音信号重建模块的输入端相连,所述的语音信号重建模块的输入端初接收含噪的语音信号外,还与所述的瞬态噪声检测模块输出端相连,语音信号重建模块输出为去噪后的语音。
Description
技术领域
本发明涉及一种语音中瞬态噪声抑制的方法,属于信号处理技术领域。
背景技术
瞬态噪声存在于很多应用场合中,如助听器、免提组件、手机及视讯会议设备等语音通信终端设备中。瞬态噪声的存在严重影响语音质量,使语音信号清晰度和可懂度下降,引起听觉疲劳。语音中的瞬态噪声通常是加性噪声,也称为暂态噪声。瞬态噪声在时域中通常具有突发性、脉冲性等特点,其能量通常集中在较短的时域区间内,而在频域分布则很宽。典型的瞬态信号通常由一个初始的峰值和一段持续时间约为10~50ms衰减的短时振荡过程构成,如敲门、鼠标点击、节拍器、键盘敲击、锤子击打声等都属于瞬态噪声。多数情况下,瞬态噪声的消除比较困难,因为多数瞬态噪声与语音信号在时频域完全混叠,且具有非连续性等特点。目前的语音噪声抑制算法绝大多数是针对稳态噪声和连续噪声的,如谱减方法、自适应滤波方法、维纳滤波方法等,此类算法对瞬态噪声抑制效果很差。因此,有必要发明对瞬态噪声环境下的语音噪声抑制技术。
因为语音噪声抑制效果的最终度量是人的主观感受,因此有必要考虑人耳的听觉感知特性对语音噪声抑制性能的影响。在听觉感知形成的过程中,人耳基底膜发挥了重要的作用,基底膜具有良好的频率选择和分辨特性。基于这一特性,可以通过设计带通滤波器组来实现耳蜗基底膜的分频作用,这种滤波器组就称为人耳听觉滤波器。Johannesma于1972年提出了伽马通(Gammatone,GT)滤波器模型,它是基于听觉模型中的耳蜗基底膜模型实现的,最先用于描述猫的听觉神经的生理学冲激响应的特性。该滤波器能够较好地模拟人耳听觉的频率响应,符合人耳的听觉感知特性。其冲激响应函数的时域表达式为
g(t)=[Bntn-1e-2πBtcos(2πfit+φ)]u(t)
B=b1·ERB(fi)
其中,参数Bn为滤波器增益;n为滤波器阶数;n=4的伽马通滤波器就能很好地模拟基底膜的滤波特性;为初始相位,u(t)为单位阶跃函数;fi为中心频率;ERB(fi)为伽马通滤波器的等价矩形带宽,其与中心频率fi的关系为:
ERB(fi)=24.7+0.108fi
伽马通滤波器的中心频率决定了滤波器的等价带宽、频率响应等特性,而由人耳感知特性可知,各伽马通滤波器的中心频率满足对数均匀分布,中心频率可通过下式确定:
其中,参数v为各滤波器之间的重叠因子,用来表示各滤波器之间的重叠程度,参数fL、fH为滤波器组的截止频率,CH表示伽马通滤波器组的通道数。对该伽马通滤波器冲激相应作Laplace变换,得到4阶伽马通滤波器在连续域的传递函数为:
其中,ωi=2πfi,表示各滤波器的中心角频率。通过冲激响应不变法,将伽马通滤波器冲激响应的Laplace变换G(s)转换到Z域,则有:
由上式可知,4阶的伽马通滤波器可由4个二阶传递函数级联实现,分别对4个二阶传递函数进行反变换,得到4个二阶滤波器的冲激响应,即:g1,i(n)、g2,i(n)、g3,i(n)、g4,i(n)。将语音信号分别与各冲激响应卷积后,得到伽马通滤波器的滤波输出。48kHz采样率下的64通道伽马通滤波器幅频响应曲线如说明书的附图1所示。
(2)信包丢失隐藏
VoIP即通过IP网络传输语音的数据包,作为传统公共交换电话网(PSTN)替代通信方式,其得到越来越多的关注。由于网络拥塞或传输过程延迟抖动会造成信包丢失,亦即某些信包不能及时出现在接收端,这种情况称作信包丢失。设计良好的解决丢包问题的技术,能大大提高语音传输质量。这类技术可以分为基于发送端的丢包恢复技术(PLR)和基于接收端的丢包隐藏技术(PLC)。丢包恢复技术包括前向纠错(FEC)和交织(interleaving)等。一般来说,采用基于发送端恢复技术的效果比基于接收端隐藏技术的好,但该技术较复杂,同时会增加网络带宽和传输时延。考虑到实时性的因素,许多实用的VoIP系统采用了丢包隐藏技术。常用的PLC算法有静音替代、包复制技术、模式匹配、基音波形复制和线性预测等。本发明将采用双向线性预测(Bidirectional Linear Prediction,BLP)的丢包隐藏方法抑制瞬态噪声。
Vaseghi等提出了基于线性预测模型与插值算法的脉冲噪声检测及抑制算法。该算法分为脉冲噪声检测和信号插值修复两部分,检测部分包含基于AR模型的线性预测分析、逆滤波器和门限检测器。检测器的输出是二进制开关值,用来控制插值器,如果检测到脉冲噪声存在,插值器被激活并替换被污染的样值,该方法功能框图如说明书的附图2所示。
在专著“Advanced Digital Signal Processing and Noise Reduction”(3rd editor.NewYork:Wiley,2006)中,S.V.Vaseghi给出了一种脉冲噪声的检测和抑制方法,该方法的主要缺点:(a)由于很多一维信号(如语音)的精确模型不易获得,容易引入谐波失真;(b)无法检测幅度较小的脉冲信号。
Phillip A.Hetherington和Shreyas A.Paranjpe在发明专利“Repetitive transientnoise removal”(US patent:2006116873,2003)中提出了根据噪声特点进行建模,然后利用建模的信号与待检测信号的相关系数来确定待检测数据是否含有噪声,若存在噪声,则根据建模信号将待检测信号中的噪声成分移除。该方法的流程图如说明书附图图3所示。
该技术适合于去除具有重复性的噪声。而瞬态噪声的类型多种多样,当短时间内存在多种不同类型的瞬态噪声时,会造成建模不准确,影响去噪效果。
发明内容
本发明针对以上问题的提出,而研制一种语音中瞬态噪声抑制的方法。本发明针对语音中的瞬态噪声,基于检测-修复的思想,采用伽马通频率倒谱系数(GFCC)和语音信号重建方法,以提高瞬态噪声的检测精度,提出了一种语音瞬态噪声去噪方法,提高语音信号的语音质量。
本发明采取的技术方案如下:
一种语音中瞬态噪声抑制的方法:包括三个模块:伽马通频率倒谱系数提取模块、瞬态噪声检测模块、语音信号重建模块;
所述的伽马通频率倒谱系数提取模块输入端接收含噪的语音信号,输出端与瞬态噪声检测模块输入端相连,所述的瞬态噪声检测模块输出端与语音信号重建模块的输入端相连,所述的语音信号重建模块的输入端初接收含噪的语音信号外,还与所述的瞬态噪声检测模块输出端相连,语音信号重建模块输出为去噪后的语音;所述的伽马通频率倒谱系数提取模块从输入可能含噪的语音信号中提取伽马通频率倒谱系数,所述的瞬态噪声检测模块根据相邻帧伽马通频率倒谱系数的差别来判决当前语音帧中是否含有瞬态噪声,若含有瞬态噪声,则使用语音信号重建模块重建当前语音帧,并用该重建语音帧替换当前语音帧,并输出;若不含有瞬态噪声,则对当前语音帧不做处理,直接输出。
本发明原理及有益效果:由附图说明中的图12可见,传统的检测——修复技术存在瞬态噪声漏检的情况,且修复后的语音平滑性不好,容易引入新的频率分量;由图13可见,本发明能有效地检测噪声并重建语音信号,重建后的噪声残留较传统算法少。
附图说明
图164通道的GT滤波器幅频响应曲线。
图2专著《Advanced Digital Signal Processing and Noise Reduction》(3rd editor.New York:Wiley,2006)给出的一种脉冲噪声的检测和抑制方法框图。
图3发明专利“Repetitive transient noise removal”(US patent:2006116873,2003)方法的流程图。
图4本发明的功能框图。
图5伽马通频率倒谱系数(GFCC)提取功能框图。
图6基于双向线性预测的语音信号重建方法的功能框图。
图7前向基音周期检测方法的功能框图。
图8瞬态噪声抑制效果(使用SNRSeg指标评价)。
图9瞬态噪声抑制效果(使用分段对数谱失真LSDSeg评价)。
图10不含瞬态噪声语音的语谱图示例。
图11在图11语音中加入噪声后语音语谱图。
图12使用S.V.Vaseghi在专著“Advanced Digital Signal Processing andNoise Reduction”(3rd editor.New York:Wiley,2006)中给出的一种脉冲噪声的检测和抑制方法处理图11语音的结果的语谱图。
图13使用本发明处理图11语音的结果的语谱图。
具体实施方式
下面结合附图对本发明做进一步说明:灰度图能够说明本发明的技术效果,特提供灰度图来说明本发明的技术效果,同时也为审查员更好的审查本发明的技术效果。灰度图为图10至图13。
本发明方案主要包括伽马通频率倒谱系数提取模块、瞬态噪声检测模块、语音信号重建模块,如图4所示。在瞬态噪声检测阶段,利用模拟人耳耳蜗听觉模型的伽马通(Gammatone)滤波器提取伽马通频率倒谱系数(GFCC),根据相邻帧间的伽马通频率倒谱系数差异来检测瞬态噪声;若检测为含噪声帧,利用语音信号的相关性及短时平稳性,采用基于双向线性预测的接收端丢包隐藏(PLC)算法,通过邻近帧的信息对含噪语音帧进行波形重建。若检测为非噪声帧,则不做额外处理,直接输出。
输入采样率fs=48kHz的单声道语音信号。将含噪输入语音信号x(n)表示为
x(n)=s(n)+d(n),
其中,s(n)为纯净语音信号,d(n)为瞬态噪声。下面对本发明技术方案进行详细说明。
伽马通频率倒谱系数(GFCC)提取
具体伽马通频率倒谱系数(GFCC)提取功能框图如图5所示,步骤如下:
(a)对原始含噪语音x(n)进行预加重,增强高频分量,
xe(n)=x(n)-αx(n-1),
其中,α为预加重系数,其取值范围是0<α<1,本发明建议α取值为0.97,
(b)伽马通(Gammatone)滤波器组滤波,使用如下伽马通滤波器组滤波,
a1=cos(ωiTs),1≤i≤CH
a2=sin(ωiTs),1≤i≤CH
ωi=2πfi,1≤i≤CH
其中,Ts为采样周期,CH表示伽马通滤波器组的通道数,本发明建议CH=64。参数v为各滤波器之间的重叠因子,用来表示各滤波器之间的重叠程度,fH为滤波器组的截止频率,其取值是输入信号的采样率,而fL的取值范围为10~100Hz,本发明建议取50Hz;将xw(n)分别通过64个滤波器,得到滤波后输出yi(n);
yi(n)=xw(n)*g1,i(n)*g2,i(n)*g3,i(n)*g4,i(n),i=0,1,…,63
其中,′*′表示数字信号处理领域中的卷积操作;
(c)求各通道频域信号的能量,对GT滤波器组输出信号进行分帧,帧长为N,N的取值范围是240≤N≤960,本发明建议N取为480(采样频率为48KHz时,等效时间长度为10毫秒),计算当前帧中各通道滤波器输出分量的对数能量和;
其中,strat表示当前帧在信号x(n)中的开始位置;
(d)用离散余弦变换对各通道倒谱能量进行压缩,得到伽马通频率倒谱系数(Gammatone frequency cesptrum coefficient,GFCC)。
其中,L为伽马通频率倒谱系数(GFCC)的阶数,L的取值范围是16≤L≤64,本发明建议L取32。
噪声检测
通过比较相邻帧间伽马通频率倒谱系数的差异,来区分语音帧和噪声帧。具体过程如下:
其中,0<β<1,是伽马通频率倒谱系数矢量平滑因子,本发明建议β=0.6;
采用基于噪声能量的软阈值判决方法对噪声帧进行检测,首先计算当前帧与前一帧输入信号能量E(p)、E(p-1),根据信号能量设定阈值thres=q[E(p)+E(p-1)]/2,q的取值范围是0.01≤q≤100,本发明建议q取0.25,当伽马通频率倒谱系数矢量距离值Dis大于阈值thres时,即判定当前帧存在瞬态噪声。
基于双向线性预测的语音信号重建
根据相邻语音的波形,采用插值重建算法生成被噪声污染的语音帧,首先对含噪语音帧的前后帧进行双向线性预测,并根据线性预测系数设计逆滤波器,计算残差信号;再将残差信号通过基音周期检测算法计算基音周期,根据相邻帧的残差信号及基音周期,产生当前含噪帧的激励信号,根据激励信号及前一帧的线性预测系数,重建当前帧语音信号,并与相邻帧信号进行淡入、淡出方式的数据平滑,达到抑制语音中瞬态噪声的目的;基于双向线性预测的语音信号重建方法的功能框图如图6所示。
设D表示输出信号的延时,用于当前帧信号与相邻帧进行边界融合,D的取值范围是16≤D≤48,Lev表示线性预测滤波器的阶数,Lev的取值范围是10≤D≤30;
基于双向线性预测的语音信号重建方法通过相邻帧的采样点产生当前帧的估计值,故需要存储与当前帧最近的B个样点作为历史数据,用于估计前向线性预测系数及前向激励信号,记为相应地,为当前帧之后的B个样点数据,用于估计后向线性预测系数及后向激励信号,本发明建议D、Lev、B的取值分别为24,20,1.5N;为了叙述及书写简便,权利要求书剩余部分所有符号均用于当前帧,不再标注帧序号p,
具体方法如下:
(1)用瞬态噪声检测模块的检测结果,当检测到当前帧为含噪帧,而前一帧为非含噪帧时,对缓冲区中的历史数据进行线性预测分析;首先对xe(n)加窗,得到加窗后的信号xw(n)=xe(n)·w(n),窗函数选择为汉明窗w(n)=0.54-0.46cos[(2n+1)π/N],n=0,1,…,N-1,xw(n)的自相关函数为,
(3)前向基音周期检测
本方法采用残差信号进行基音周期检测;前向基音周期检测的功能框图如图7所示。基音周期检测如下:
(a)低通滤波
由于基音周期检测结果常受到共振峰频率的影响,为了尽量消除共振峰的影响,首先对残差信号进行低通滤波,尽量滤除高频率的共振峰,对于不同说话人,基音周期一般分布在2~12ms内,该低通滤波器的通带截止频率fp的取值范围是0.8kHz<fp<1.2kHz,本发明设置fp为0.9kHz,
(b)中心削波处理;
语音信号的基音信息主要隐藏在包络中,而共振峰信息大量存在于低幅值部分,为减小共振峰的影响,采用中心削波函数对低通滤波后的残差信号进行非线性处理,中心削波函数定义如下:
其中,阈值Tc为削波电平,Tc=γ·max{efc(n),0≤n<B-Lev},本发明建议设置γ为0.4;
(c)基音周期估计
计算efc(n)的归一化自相关运算,即在(PMIN,PMAX)范围中搜索自相关最大值位置,作为基音周期估计值Pf,
其中,C为自相关运算的平均长度,PMIN、PMAX分别表示基音周期搜索的最小值和最大值,建议C取值为150,而PMIN、PMAX的取值分别为2ms和12ms对应的样点数96和576;
(4)后向基音周期检测
若检测当前帧为非含噪帧,采用与步骤(3)中前向基音周期检测类似的方法和步骤,检测后向基音周期;首先对后向缓冲区中的数据作线性预测分析,得到后向线性预测系数,并根据后向线性预测系数设计后向逆滤波器,对进行后向滤波,得到后向残差信号,并对后向残差信号进行基音检测,得到后向基音周期估计值Pb,
(5)基音周期修正
为防止倍频导致的基音周期估计不准的情况,本发明对前向基音周期Pf和后向基音周期Pb进行平滑处理,并根据平滑后的基音周期估计当前帧的基音周期Pc,具体过程为,
其中,δ为基音周期差异判决阈值,由语音信号相邻帧基音周期的差值决定,本发明建议δ取值为10;
(6)当前帧激励信号的产生;
为了将重建信号与相邻帧进行重叠相加,实现边界平滑,本发明设定激励信号长度为N+2D,D即为重叠区域的长度,
(7)波形重建;
通过产生的激励信号及相应的线性预测模型系数,重建当前帧语音信号,
重建信号的中间N个样点替换当前含噪帧,两端的D个样点用于与前后帧进行重叠相加,进行淡入淡出处理,平滑重建信号,保证重建信号与两侧数据具有连续性,
(8)重建信号与前后帧边界融合
(a)线性加权
前向线性预测信号对于预测当前帧前半部分的精确度较高,而后向线性预测信号正好相反,基于此,对两个预测信号进行线性加权得到最终的重建信号,而当后向线性预测缺失时,仅用前向线性预测信号对含噪语音帧进行替换,
(b)连续多帧信号含噪情况:
当出现此类情况时,不再计算前一帧的LP系数及激励信号,而是用前一帧的相应估计值进行代替,然后进行步骤(6)~(8)中的合成滤波、边界融合以及线性加权。
本发明技术方案带来的有益效果
使用分段信噪比SNRSeg和分段对数谱失真LSDSeg进行瞬态噪声抑制结果评估。分段信噪比、分段对数谱失真定义分别为
其中,X为原始语音的短时DFT傅里叶变换,为待测语音的短时傅里叶变换,Nt为待测语音帧的帧数,TX定义如下:
TX(k,l)=max{|X(k,l)|2,δ},
本发明中可以取得的有益效果
这里将本发明的技术方案与S.V.Vaseghi在专著“Advanced Digital SignalProcessing and Noise Reduction”(3rd editor.New York:Wiley,2006)中给出的一种脉冲噪声的检测和抑制方法进行了比较,分段信噪比和分段谱失真的结果见图8、图9。由图8可见,本发明方案在三种不同的输入信噪比下,其分段信噪比的提高量均要高于传统的检测——修复技术;由图9可见,本发明方案的分段谱失真要小于传统的检测——修复技术方案,说明在频域失真方面,该方案的性能要优于传统技术方案,但与原始语音仍有一定差距,这主要是因为所有瞬态噪声帧全部被正确检出的情况下,重建信号仍存在频谱失真;
在语谱图方面,图10~图13分别为:原始语音语谱图示例、在图10语音加入噪声后语音语谱图、使用S.V.Vaseghi在专著“Advanced Digital SignalProcessing and Noise Reduction”(3rd editor.New York:Wiley,2006)中给出的一种脉冲噪声的检测和抑制方法处理图11语音的结果的语谱图、使用本发明处理图11语音的结果的语谱图。
由图12可见,传统的检测——修复技术存在瞬态噪声漏检的情况,且修复后的语音平滑性不好,容易引入新的频率分量;由图13可见,本发明能有效地检测噪声并重建语音信号,重建后的噪声残留较传统算法少。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,如采样频率由48KHz改为44.1KHz、32KHz、16KHz、8KHz等,都应涵盖在本发明的保护范围之内。
本发明涉及的缩略语和关键术语定义如下:
AR模型:AutoRegressive,自回归模型。
BLP:Bidirectional Linear Prediction,双向线性预测。
DCT:Discrete Cosine Transform,离散余弦变换。
FEC:Forward Error Correction,前向纠错技术。
GFCC:Gammatone Frequency Cepstrum Coefficient,Gammatone频率倒谱系数。
LPF:Low Pass Filter,低通滤波器。
LSD:Log-spectrum Distortion,对数谱失真。
PLC:Packet Loss Concealment,丢包隐藏技术。
PLR:Packet Lost Recovery,丢包恢复技术。
PSTN:Public Switched Telephone Network,公共交换电话网。
PWR:Pitch Waveform Replication,基因周期波形复制。
SNR:Signal Noise Ratio,信噪比。
VoIP:Voice over IP,基于IP网的语音。
Claims (4)
1.一种语音中瞬态噪声抑制的方法,其特征在于:包括三个模块:伽马通频率倒谱系数提取模块、瞬态噪声检测模块、语音信号重建模块;所述的伽马通频率倒谱系数提取模块输入端接收含噪的语音信号,输出端与瞬态噪声检测模块输入端相连,所述的瞬态噪声检测模块输出端与语音信号重建模块的输入端相连,所述的语音信号重建模块的输入端初接收含噪的语音信号外,还与所述的瞬态噪声检测模块输出端相连,语音信号重建模块输出为去噪后的语音;所述的伽马通频率倒谱系数提取模块从输入可能含噪的语音信号中提取伽马通频率倒谱系数,所述的瞬态噪声检测模块根据相邻帧伽马通频率倒谱系数的差别来判决当前语音帧中是否含有瞬态噪声,若含有瞬态噪声,则使用语音信号重建模块重建当前语音帧,并用该重建语音帧替换当前语音帧,并输出;若不含有瞬态噪声,则对当前语音帧不做处理,直接输出。
2.根据权利要求1所述的一种语音中瞬态噪声抑制的方法,其特征在于:伽马通频率倒谱系数提取模块的处理步骤如下:
(a)对原始含噪语音x(n)预加重,增强高频分量;定义原始含噪语音信号为x(n),预加重后的语音信号为xe(n),
xe(n)=x(n)-ax(n-1),
其中,a为预加重系数,α取值为0.97;
(b)伽马通滤波器组滤波,使用如下伽马通滤波器组滤波,
a1=cos(ωiTs),1≤i≤CH,
a2=sin(ωiTs),1≤i≤CH,
ωi=2πfi,1≤i≤CH,
其中,Ts为采样周期,CH表示伽马通滤波器组的通道数,CH=64;参数v为各滤波器之间的重叠因子,用来表示各滤波器之间的重叠程度,fH为滤波器组的截止频率,其取值是输入信号的采样率,而fL的取值范围为10~100Hz,fL取50Hz;将xw(n)分别通过64个滤波器,得到滤波后输出yi(n);
yi(n)=xw(n)*g1,i(n)*g2,i(n)*g3,i(n)*g4,i(n),i=0,1,…,63;
其中,′*′表示数字信号处理领域中的卷积操作;
(c)求各通道频域信号的能量,对GT滤波器组输出信号进行分帧,帧长为N,N的取值范围是240≤N≤960,N取为480,在采样频率为48KHz时,其等效时间长度为10毫秒,计算当前帧中各通道滤波器输出分量的对数能量和;
其中,strat表示当前帧在信号x(n)中的开始位置;
(d)用离散余弦变换对各通道倒谱能量进行压缩,得到伽马通频率倒谱系数;
其中,L为伽马通频率倒谱系数的阶数,L的取值范围是16≤L≤64,L取32。
3.根据权利要求1所述的一种语音中瞬态噪声抑制的方法,其特征在于:瞬态噪声检测模块的检测过程如下:
其中,β是伽马通频率倒谱系数的平滑因子,其β=0.6;采用基于噪声能量的软阈值判决方法对噪声帧进行检测,首先计算当前帧与前一帧输入信号能量E(p)、E(p-1),根据信号能量设定阈值thres=q[E(p)+E(p-1)]/2,q取0.25,当伽马通频率倒谱系数矢量距离值Dis大于阈值thres时,即判定当前帧存在瞬态噪声。
4.根据权利要求1所述的一种语音中瞬态噪声抑制的方法,其特征在于:语音信号重建模块的处理方法如下:
根据相邻语音的波形,采用插值重建算法生成被噪声污染的语音帧,首先对含噪语音帧的前后帧进行双向线性预测,并根据线性预测系数设计逆滤波器,计算残差信号;再将残差信号通过基音周期检测算法计算基音周期,根据相邻帧的残差信号及基音周期,产生当前含噪帧的激励信号,根据激励信号及前一帧的线性预测系数,重建当前帧语音信号,并与相邻帧信号进行淡入、淡出方式的数据平滑,达到抑制语音中瞬态噪声的目的;设D表示输出信号的延时,用于当前帧信号与相邻帧进行边界融合,D的取值范围是16≤D≤48,Lev表示线性预测滤波器的阶数,Lev的取值范围是10≤D≤30;基于双向线性预测的语音信号重建方法通过相邻帧的采样点产生当前帧的估计值,故需要存储与当前帧最近的B个样点作为历史数据,用于估计前向线性预测系数及前向激励信号,记为相应地,为当前帧之后的B个样点数据,用于估计后向线性预测系数及后向激励信号,D、Lev、B的取值分别为24,20,1.5N;为了叙述及书写简便,权利要求书剩余部分所有符号均用于当前帧,不再标注帧序号p,
具体方法如下:
(1)用瞬态噪声检测模块的检测结果,当检测到当前帧为含噪帧,而前一帧为非含噪帧时,对缓冲区中的历史数据进行线性预测分析;首先对xe(n)加窗,得到加窗后的信号xw(n)=xe(n)w(n),窗函数选择为汉明窗w(n)=0.54-0.46cos[(2n+1)π/N],n=0,1,…,N-1,xw(n)的自相关函数为,
(3)前向基音周期检测
本方法采用残差信号进行基音周期检测;基音周期检测如下:
(a)低通滤波
由于基音周期检测结果常受到共振峰频率的影响,为了尽量消除共振峰的影响,首先对残差信号进行低通滤波,尽量滤除高频率的共振峰,对于不同说话人,基音周期一般分布在2~12ms内,因此,该低通滤波器的通带截止频率fp的取值范围是0.8kHz<fp<1.2kHz,fp为0.9kHz,
(b)中心削波处理
语音信号的基音信息主要隐藏在包络中,而共振峰信息大量存在于低幅值部分,为减小共振峰的影响,采用中心削波函数对低通滤波后的残差信号进行非线性处理,中心削波函数定义如下:
其中,阈值Tc为削波电平,Tc=γ·max{efc(n),0≤n<B-Lev},γ为0.4;
(c)基音周期估计
计算efc(n)的归一化自相关运算,即在(PMIN,PMAX)范围中搜索自相关最大值位置,作为基音周期估计值Pf,
其中,C为自相关运算的平均长度,C的取值范围是120<C<240,C取值为150,PMIN、PMAX分别表示基音周期搜索的最小值和最大值,而PMIN、PMAX的取值分别为2ms和12ms对应的样点数96和576;
(4)后向基音周期检测
若检测当前帧为非含噪帧,采用与步骤(3)中前向基音周期检测类似的方法和步骤,检测后向基音周期;首先对后向缓冲区中的数据作线性预测分析,得到后向线性预测系数并根据后向线性预测系数设计后向逆滤波器,对进行后向滤波,得到后向残差信号并对后向残差信号进行基音检测,得到后向基音周期估计值Pb;
(5)基音周期修正
为防止倍频导致的基音周期估计不准的情况,对前向基音周期Pf和后向基音周期Pb进行平滑处理,并根据平滑后的基音周期估计当前帧的基音周期Pc,具体过程为,
其中,δ为基音周期差异判决阈值,由语音信号相邻帧基音周期的差值决定,δ取值为10;
(6)当前帧激励信号的产生;
为了将重建信号与相邻帧进行重叠相加,实现边界平滑,设定激励信号长度为N+2D,D即为重叠区域的长度,
(7)波形重建
通过产生的激励信号及相应的线性预测模型系数,重建当前帧语音信号,
重建信号的中间N个样点替换当前含噪帧,两端的D个样点用于与前后帧进行重叠相加,进行淡入淡出处理,平滑重建信号,保证重建信号与两侧数据具有连续性,
(8)重建信号与前后帧边界融合
(a)线性加权
前向线性预测信号对于预测当前帧前半部分的精确度较高,而后向线性预测信号正好相反,基于此,对两个预测信号进行线性加权得到最终的重建信号,而当后向线性预测缺失时,仅用前向线性预测信号对含噪语音帧进行替换,
(b)连续多帧信号含噪情况:
当出现此类情况时,不再计算前一帧的LP系数及激励信号,而是用前一帧的相应估计值进行代替,然后进行步骤(6)~(8)中的合成滤波、边界融合以及线性加权。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310369986.5A CN103440871B (zh) | 2013-08-21 | 2013-08-21 | 一种语音中瞬态噪声抑制的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310369986.5A CN103440871B (zh) | 2013-08-21 | 2013-08-21 | 一种语音中瞬态噪声抑制的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103440871A true CN103440871A (zh) | 2013-12-11 |
CN103440871B CN103440871B (zh) | 2016-04-13 |
Family
ID=49694562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310369986.5A Expired - Fee Related CN103440871B (zh) | 2013-08-21 | 2013-08-21 | 一种语音中瞬态噪声抑制的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103440871B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104034847A (zh) * | 2013-12-30 | 2014-09-10 | 阿默思(天津)科技发展有限公司 | 一种基于快速离散频域分析理论的准确气味指纹检测方法 |
CN104599677A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院上海高等研究院 | 基于语音重建的瞬态噪声抑制方法 |
CN104715771A (zh) * | 2013-12-12 | 2015-06-17 | 展讯通信(上海)有限公司 | 信号降噪 |
CN104935388A (zh) * | 2015-04-30 | 2015-09-23 | 中国电子科技集团公司第七研究所 | 背景干扰噪声电平预测方法及系统 |
CN105208187A (zh) * | 2014-06-25 | 2015-12-30 | Vine公司 | 宽带及窄带语音清晰度提高装置 |
CN105900171A (zh) * | 2014-03-31 | 2016-08-24 | 谷歌公司 | 依赖于情境的瞬态抑制 |
CN105938714A (zh) * | 2015-03-03 | 2016-09-14 | 大陆汽车系统公司 | 在免提通信中的重噪声条件下改善话音质量 |
CN106486110A (zh) * | 2016-10-21 | 2017-03-08 | 清华大学 | 一种支持语音实时分解/合成的伽马通滤波器组芯片系统 |
CN106575511A (zh) * | 2014-07-29 | 2017-04-19 | 瑞典爱立信有限公司 | 音频信号中背景噪声的估计 |
CN106601249A (zh) * | 2016-11-18 | 2017-04-26 | 清华大学 | 一种基于听觉感知特性的数字语音实时分解/合成方法 |
CN107103916A (zh) * | 2017-04-20 | 2017-08-29 | 深圳市蓝海华腾技术股份有限公司 | 一种应用于音乐喷泉的音乐开始和结束检测方法及系统 |
CN107924684A (zh) * | 2015-12-30 | 2018-04-17 | 谷歌有限责任公司 | 使用半盲自适应滤波器模型的通信终端的声学击键瞬态消除器 |
CN108899043A (zh) * | 2018-06-15 | 2018-11-27 | 深圳市康健助力科技有限公司 | 数字助听器瞬时噪声抑制算法的研究及实现 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109065068A (zh) * | 2018-08-17 | 2018-12-21 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置及存储介质 |
CN109817241A (zh) * | 2019-02-18 | 2019-05-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
CN110398647A (zh) * | 2019-06-26 | 2019-11-01 | 深圳供电局有限公司 | 变压器状态监测方法 |
CN110455530A (zh) * | 2019-09-18 | 2019-11-15 | 福州大学 | 谱峭度结合卷积神经网络的风机齿轮箱复合故障诊断方法 |
CN111081269A (zh) * | 2018-10-19 | 2020-04-28 | 中国移动通信集团浙江有限公司 | 通话过程中的噪声检测方法及系统 |
CN111326166A (zh) * | 2020-02-25 | 2020-06-23 | 网易(杭州)网络有限公司 | 语音处理方法及装置、计算机可读存储介质、电子设备 |
CN111986694A (zh) * | 2020-09-01 | 2020-11-24 | 平安科技(深圳)有限公司 | 基于瞬态噪声抑制的音频处理方法、装置、设备及介质 |
CN112198509A (zh) * | 2020-08-28 | 2021-01-08 | 北京理工大学 | 多通道星载sar星上实时处理的方位频谱逆滤波重建方法 |
CN117727314A (zh) * | 2024-02-18 | 2024-03-19 | 百鸟数据科技(北京)有限责任公司 | 用于生态音频信息的滤波增强方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808570A (zh) * | 2004-12-08 | 2006-07-26 | 哈曼贝克自动系统-威美科公司 | 抑制雨噪声的系统 |
US7869994B2 (en) * | 2007-01-30 | 2011-01-11 | Qnx Software Systems Co. | Transient noise removal system using wavelets |
CN102341847A (zh) * | 2009-01-30 | 2012-02-01 | 弗劳恩霍夫应用研究促进协会 | 用于操纵包括暂态事件的音频信号的装置、方法和计算机程序 |
CN102436820A (zh) * | 2010-09-29 | 2012-05-02 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
-
2013
- 2013-08-21 CN CN201310369986.5A patent/CN103440871B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808570A (zh) * | 2004-12-08 | 2006-07-26 | 哈曼贝克自动系统-威美科公司 | 抑制雨噪声的系统 |
US7869994B2 (en) * | 2007-01-30 | 2011-01-11 | Qnx Software Systems Co. | Transient noise removal system using wavelets |
CN102341847A (zh) * | 2009-01-30 | 2012-02-01 | 弗劳恩霍夫应用研究促进协会 | 用于操纵包括暂态事件的音频信号的装置、方法和计算机程序 |
CN102436820A (zh) * | 2010-09-29 | 2012-05-02 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715771A (zh) * | 2013-12-12 | 2015-06-17 | 展讯通信(上海)有限公司 | 信号降噪 |
CN104034847A (zh) * | 2013-12-30 | 2014-09-10 | 阿默思(天津)科技发展有限公司 | 一种基于快速离散频域分析理论的准确气味指纹检测方法 |
CN104034847B (zh) * | 2013-12-30 | 2016-03-30 | 阿默思(天津)科技发展有限公司 | 一种基于快速离散频域分析理论的准确气味指纹检测方法 |
CN105900171A (zh) * | 2014-03-31 | 2016-08-24 | 谷歌公司 | 依赖于情境的瞬态抑制 |
CN105900171B (zh) * | 2014-03-31 | 2019-10-18 | 谷歌有限责任公司 | 依赖于情境的瞬态抑制 |
CN105208187A (zh) * | 2014-06-25 | 2015-12-30 | Vine公司 | 宽带及窄带语音清晰度提高装置 |
CN106575511A (zh) * | 2014-07-29 | 2017-04-19 | 瑞典爱立信有限公司 | 音频信号中背景噪声的估计 |
US11636865B2 (en) | 2014-07-29 | 2023-04-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimation of background noise in audio signals |
US11114105B2 (en) | 2014-07-29 | 2021-09-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimation of background noise in audio signals |
CN106575511B (zh) * | 2014-07-29 | 2021-02-23 | 瑞典爱立信有限公司 | 用于估计背景噪声的方法和背景噪声估计器 |
CN104599677B (zh) * | 2014-12-29 | 2018-03-09 | 中国科学院上海高等研究院 | 基于语音重建的瞬态噪声抑制方法 |
CN104599677A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院上海高等研究院 | 基于语音重建的瞬态噪声抑制方法 |
CN105938714B (zh) * | 2015-03-03 | 2022-09-30 | 大陆汽车系统公司 | 在免提通信中的重噪声条件下改善话音质量 |
US11295753B2 (en) | 2015-03-03 | 2022-04-05 | Continental Automotive Systems, Inc. | Speech quality under heavy noise conditions in hands-free communication |
CN105938714A (zh) * | 2015-03-03 | 2016-09-14 | 大陆汽车系统公司 | 在免提通信中的重噪声条件下改善话音质量 |
CN104935388A (zh) * | 2015-04-30 | 2015-09-23 | 中国电子科技集团公司第七研究所 | 背景干扰噪声电平预测方法及系统 |
CN107924684A (zh) * | 2015-12-30 | 2018-04-17 | 谷歌有限责任公司 | 使用半盲自适应滤波器模型的通信终端的声学击键瞬态消除器 |
CN106486110B (zh) * | 2016-10-21 | 2019-11-08 | 清华大学 | 一种支持语音实时分解/合成的伽马通滤波器组芯片系统 |
CN106486110A (zh) * | 2016-10-21 | 2017-03-08 | 清华大学 | 一种支持语音实时分解/合成的伽马通滤波器组芯片系统 |
CN106601249B (zh) * | 2016-11-18 | 2020-06-05 | 清华大学 | 一种基于听觉感知特性的数字语音实时分解/合成方法 |
CN106601249A (zh) * | 2016-11-18 | 2017-04-26 | 清华大学 | 一种基于听觉感知特性的数字语音实时分解/合成方法 |
CN107103916A (zh) * | 2017-04-20 | 2017-08-29 | 深圳市蓝海华腾技术股份有限公司 | 一种应用于音乐喷泉的音乐开始和结束检测方法及系统 |
CN108899043A (zh) * | 2018-06-15 | 2018-11-27 | 深圳市康健助力科技有限公司 | 数字助听器瞬时噪声抑制算法的研究及实现 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109065068A (zh) * | 2018-08-17 | 2018-12-21 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置及存储介质 |
CN111081269A (zh) * | 2018-10-19 | 2020-04-28 | 中国移动通信集团浙江有限公司 | 通话过程中的噪声检测方法及系统 |
CN109817241B (zh) * | 2019-02-18 | 2021-06-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
CN109817241A (zh) * | 2019-02-18 | 2019-05-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
CN110398647A (zh) * | 2019-06-26 | 2019-11-01 | 深圳供电局有限公司 | 变压器状态监测方法 |
CN110455530B (zh) * | 2019-09-18 | 2021-08-31 | 福州大学 | 谱峭度结合卷积神经网络的风机齿轮箱复合故障诊断方法 |
CN110455530A (zh) * | 2019-09-18 | 2019-11-15 | 福州大学 | 谱峭度结合卷积神经网络的风机齿轮箱复合故障诊断方法 |
CN111326166A (zh) * | 2020-02-25 | 2020-06-23 | 网易(杭州)网络有限公司 | 语音处理方法及装置、计算机可读存储介质、电子设备 |
CN112198509A (zh) * | 2020-08-28 | 2021-01-08 | 北京理工大学 | 多通道星载sar星上实时处理的方位频谱逆滤波重建方法 |
CN112198509B (zh) * | 2020-08-28 | 2024-02-09 | 北京理工大学 | 多通道星载sar星上实时处理的方位频谱逆滤波重建方法 |
WO2021143249A1 (zh) * | 2020-09-01 | 2021-07-22 | 平安科技(深圳)有限公司 | 基于瞬态噪声抑制的音频处理方法、装置、设备及介质 |
CN111986694A (zh) * | 2020-09-01 | 2020-11-24 | 平安科技(深圳)有限公司 | 基于瞬态噪声抑制的音频处理方法、装置、设备及介质 |
CN111986694B (zh) * | 2020-09-01 | 2023-12-22 | 平安科技(深圳)有限公司 | 基于瞬态噪声抑制的音频处理方法、装置、设备及介质 |
CN117727314A (zh) * | 2024-02-18 | 2024-03-19 | 百鸟数据科技(北京)有限责任公司 | 用于生态音频信息的滤波增强方法 |
CN117727314B (zh) * | 2024-02-18 | 2024-04-26 | 百鸟数据科技(北京)有限责任公司 | 用于生态音频信息的滤波增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103440871B (zh) | 2016-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103440871B (zh) | 一种语音中瞬态噪声抑制的方法 | |
CN104658544A (zh) | 一种语音中瞬态噪声抑制的方法 | |
CN103854662B (zh) | 基于多域联合估计的自适应语音检测方法 | |
US10832701B2 (en) | Pitch detection algorithm based on PWVT of Teager energy operator | |
CN103440872B (zh) | 瞬态噪声的去噪方法 | |
KR101461774B1 (ko) | 대역폭 확장기 | |
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
US20050288923A1 (en) | Speech enhancement by noise masking | |
Krishnamoorthy et al. | Enhancement of noisy speech by temporal and spectral processing | |
US20030050786A1 (en) | Method and apparatus for synthetic widening of the bandwidth of voice signals | |
CN103413547B (zh) | 一种室内混响消除的方法 | |
Daqrouq et al. | An investigation of speech enhancement using wavelet filtering method | |
Drugman | Residual excitation skewness for automatic speech polarity detection | |
CN110349598A (zh) | 一种低信噪比环境下的端点检测方法 | |
Kim et al. | End-to-end multi-task denoising for joint SDR and PESQ optimization | |
CN101882442A (zh) | 历史音频噪声检测与消除方法 | |
Gomez et al. | Improving objective intelligibility prediction by combining correlation and coherence based methods with a measure based on the negative distortion ratio | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
May et al. | Assessment of broadband SNR estimation for hearing aid applications | |
EP0336685A2 (en) | Impulse noise detection and supression | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
Govind et al. | Epoch extraction in high pass filtered speech using hilbert envelope | |
Hasan et al. | An approach to voice conversion using feature statistical mapping | |
Ding | Speech enhancement in transform domain | |
Gliznitsa et al. | Application of R-CED Model to Remove Noise from Recordings of Industrial Machine Sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160413 Termination date: 20180821 |