CN104599677B - 基于语音重建的瞬态噪声抑制方法 - Google Patents

基于语音重建的瞬态噪声抑制方法 Download PDF

Info

Publication number
CN104599677B
CN104599677B CN201410857049.9A CN201410857049A CN104599677B CN 104599677 B CN104599677 B CN 104599677B CN 201410857049 A CN201410857049 A CN 201410857049A CN 104599677 B CN104599677 B CN 104599677B
Authority
CN
China
Prior art keywords
frame
waveform
transient noise
signal
package
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410857049.9A
Other languages
English (en)
Other versions
CN104599677A (zh
Inventor
厉剑
郑成诗
李晓东
杨鹤飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Shanghai Advanced Research Institute of CAS
Original Assignee
Institute of Acoustics CAS
Shanghai Advanced Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Shanghai Advanced Research Institute of CAS filed Critical Institute of Acoustics CAS
Priority to CN201410857049.9A priority Critical patent/CN104599677B/zh
Publication of CN104599677A publication Critical patent/CN104599677A/zh
Application granted granted Critical
Publication of CN104599677B publication Critical patent/CN104599677B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于语音重建的瞬态噪声抑制方法,涉及音频处理技术领域,所解决的是抑制瞬态噪声的技术问题。该方法通过瞬态噪声检测和瞬态噪声抑制两个部分,消除瞬态噪声的影响;首先,利用传统方法去除信号中的平稳态噪声,并基于白化后语音信号和瞬态噪声信号不同的分布特性对瞬态噪声进行检测;其次,检测出瞬态噪声后,提出基于语音信号重建的算法对瞬态噪声进行抑制,将含有瞬态噪声的帧丢弃,利用前后相邻的未受干扰的信号进行波形重建,替换掉原有的信号,从而在没有明显语音失真的情况下完全地消除瞬态噪声。本发明提供的方法,适用处理含有瞬态噪声的语音信号。

Description

基于语音重建的瞬态噪声抑制方法
技术领域
本发明涉及音频处理技术,特别是涉及一种基于语音重建的瞬态噪声抑制方法的技术。
背景技术
在手机、助听器、免提电话等语音通讯终端设备中,瞬态噪声如键盘声、鼠标声以及敲击声等会严重影响语音质量和音频品质,因此必须进行相应的检测和抑制。瞬态噪声是一种加性噪声,属于强非平稳态噪声,典型的瞬态噪声是一段突发脉冲式的信号,并伴随持续时间10-50ms的衰减振荡过程,由于其频带较宽,与语音信号在时频域有较多重叠,且具有非连续性的特点,因此传统的单通道和多通道语音增强方法都不能很好地抑制瞬态噪声,还可能引入失真。
近年来,国内外研究者提出了一些用于瞬态噪声抑制的方法,Talmon等提出了一类瞬态噪声抑制方法,通过采用非局部(Non-local,NL)扩散滤波器和最优改进对数谱幅度估计算法(Optimally-Modified-Log Spectral-Amplitude,OM-LSA)。Zheng等在时域、频率域和小波域等提出了一些基于变化域的瞬态噪声检测及抑制方法。这些方法主要通过学习瞬态噪声的特性,以实现瞬态噪声的检测,最终实现瞬态噪声的抑制。但是此类方法存在时延和噪声残留,并且只适用于部分类型的瞬态噪声,因此在实时语音通信系统应用中不具普遍适用性,而且由于人耳的听觉特性,对残留的瞬态噪声异常敏感,现有的方法都无法完全地消除瞬态噪声。
发明内容
针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种能有效地抑制瞬态噪声,在语音信号和瞬态噪声同时存在时能完全地消除瞬态噪声的基于语音重建的瞬态噪声抑制方法。
为了解决上述技术问题,本发明所提供的一种基于语音重建的瞬态噪声抑制方法,其特征在于,具体步骤如下:
1)利用传声器拾取声信号,并对传声器所拾取的声信号进行预处理,忽略其中的平稳态噪声残留ds(n),得到预处理后的声信号为:
x(n)=s(n)+dt(n);
其中,x(n)为预处理后的声信号,s(n)为预处理后的声信号中的目标语音成分,dt(n)为预处理后的声信号中的瞬态噪声成分;
2)对x(n)进行分帧、预白化处理,基于预白化后浊音和瞬态噪声的波形分布特性差异,对x(n)逐帧检测是否含有瞬态噪声;
3)对x(n)进行重建,瞬态噪声与语音信号同时存在时,将x(n)中包含有瞬态噪声的帧丢弃,或将x(n)中包含有瞬态噪声的帧及其后的2-3帧一并舍弃,再利用去除帧的前后相邻的未受干扰帧进行波形重建,替换掉原有的信号。
进一步的,所述步骤2)中,对x(n)逐帧检测是否含有瞬态噪声的步骤如下:
2.1)对x(n)进行分帧、预白化处理,得到x(n)的白化信号,将x(n)的白化信号中的各帧信号记为:
其中,为x(n)的白化信号中的第l帧信号的第k个样本点,x(k,l)为原始信号进行分帧处理后的第l帧信号的第k个样本点,P为线性预测的阶数,为第l帧信号的线性预测系数,x(k-p,l)为原始信号进行分帧处理后的第l帧信号的第k-p个样本点;
2.2)加入窗函数计算x(n)的白化信号各帧的重心,具体计算公式为:
其中,C(l)为x(n)的白化信号第l帧的重心,w(k)为汉宁窗,N为x(n)的白化信号中每帧的采样点数量;
2.3)以C(l)为中心,计算包含E%能量所需的时间长度B(l),具体计算公式为:
其中,是指取能使成立的v的最小取值,E%=90%;
2.4)根据B(l)值判断信号中是否存在瞬态噪声,如果B(l)<thr,则判定信号中存在瞬态噪声,thr为预先设定的瞬态噪声判断门限。
进一步的,所述步骤2.2)中,N=512。
进一步的,所述步骤2.4)中,thr=150。
进一步的,所述步骤3)中,对x(n)进行重建的步骤如下:
3.1)利用基音周期检测方法对丢弃帧之前的封包进行基音周期检测,得到的前向基音周期Pf,对丢弃帧之后的封包进行基音周期检测,得到后向基音周期Pb,并确定丢弃帧前一封包的周期波形及后一封包的周期波形;
对于x(n)中的丢弃帧,对这些丢弃帧之前的封包与之后的封包进行基音检测,并判断是否为浊音,如果前后帧都是浊音,则转至步骤3.2),反之则转至步骤3.3);
3.2)在丢弃帧的前、后封包均为浊音的情况下,先对前、后封包的周期波形进行相位同步,再根据丢弃帧长度确定该丢弃帧所需的重建周期波形个数及各重建周期波形长度,然后进行周期波形内差重建语音,具体重建方法如下:
3.2.1)在丢弃帧前向封包中,选择与丢弃帧最近的Pf个数据作为丢弃帧的前向周期波形PPW,在丢弃帧的后向封包中,选择与丢弃帧最近的Pb个数据作为丢弃帧的后向周期波形NPW,则丢弃帧所需的重建波形周期数量为:
其中,Np为丢弃帧所需的重建波形周期数量,round()为四舍五入函数,r为所有需要重建的数据点数量;
3.2.2)计算各个重建波形周期的长度,具体计算公式为:
其中,Pi为第i个重建波形周期的长度;
如果各重建波形周期的长度之和与r的值有偏差,则对各重建波形周期的长度进行修正,将各重建波形周期的长度之和修正为与r值一致;
3.2.3)对各个重建波形周期采用内插法修正,修正方法如下:
3.2.3.1)对丢弃帧的各个前向周期波形、后向周期波形进行延展或压缩,使得它们与长度与对应的重建波形周期的长度相同;
3.2.3.2)对修正后的前向周期修正波形、后向周期修正波形进行加权计算,具体计算公式为:
其中,RPWi(k)为重建信号在第i个周期波形中第k个样本点的数值,为前向周期修正波形在重建信号中第i个周期波形中第k个样本点对应的数值,为后向周期修正波形在重建信号中第i个周期波形中第k个样本点对应的数值,r为丢弃帧的长度,g为需重建的RPW样本点在丢弃帧中的位置;
3.2.4)将各个按顺序相连,得到最后的重建波形;
3.3)在丢弃帧的前、后封包中至少有一个不是浊音的情况下,采用延拓和加权方式重建语音;
3.3.1)如果丢弃帧的前一帧是浊音,且后一帧不是浊音,则将浊音段向后进行周期延拓,直至充满整个丢失帧,得到延拓波形PPW(k),浊音段延拓周期为Pf,将非浊音段向前进行周期延拓,直至充满整个丢失帧,得到延拓波形NPW(k),非浊音段延拓周期为固定值,这里设为一帧的长度,其中的k为重建波形中的第k个样本点,再根据延拓波形PPW(k)、NPW(k)重建丢弃帧波形,重建的丢弃帧波形为:
RPW(k)=wf(k)·PPW(k)+wb(k)·NPW(k)
k=1,2,3...r
如果则,wb(k)=0,反之则
其中,RPW(k)为重建的丢弃帧波形中的第k个样本点的数值;
如果丢弃帧的后一帧是浊音,且前一帧不是浊音,则将浊音段向前进行周期延拓,直至充满整个丢失帧,得到延拓波形NPW(k),浊音段延拓周期为Pb,将非浊音段向后进行周期延拓,直至充满整个丢失帧,得到延拓波形PPW(k),延拓周期为固定值,这里设为一帧的长度,其中的k为重建波形中的第k个样本点,再根据延拓波形PPW(k)、NPW(k)重建丢弃帧波形,重建的丢弃帧波形为:
RPW(k)=wf(k)·PPW(k)+wb(k)·NPW(k)
k=1,2,3...r
如果则,反之则wf(k)=0;
其中,RPW(k)为重建的丢弃帧波形中的第k个样本点的数值;
如果丢弃帧的前后帧都不是浊音,则将前帧封包向后进行周期延拓,直至充满整个丢失帧,得到延拓波形PPW(k),延拓周期为固定值,这里设为一帧的长度,将后帧封包向前进行周期延拓,直至充满整个丢失帧,得到延拓波形NPW(k),延拓周期为固定值,这里设为一帧的长度,其中的k为重建波形中的第k个样本点,再根据延拓波形PPW(k)、NPW(k)重建丢弃帧波形,重建的丢弃帧波形为:
RPW(k)=wf(k)·PPW(k)+wb(k)·NPW(k)
k=1,2,3...r
其中,RPW(k)为重建的丢弃帧波形中的第k个样本点的数值。
进一步的,所述步骤3.1)中,所采用的基音周期检测方法是利用归一化自相关函数检测前封包及后封包的基音周期,具体检测公式为:
如果则L=τ,如果则L=N-τ;
其中,CNAC(τ)为归一化自相关函数,s(n)为封包的语音信号,τ为s(n)的基音周期长度,τmin为s(n)的基音可能周期长度最小值,τmax为s(n)的基音可能周期长度最大值,L为自相关运算的范围,N为每一帧语音样本点数;
判断一个帧是否为浊音的步骤如下:
3.1.1)将满足τmin-1<τ<τmax+1的所有τ值代入公式,计算归一化自相关函数CNAC(τ)的最大值;
3.1.2)找出CNAC(τ)函数的峰值,判断此峰值是否大于PeakTH,当τ<100时,PeakTH=0.8,当τ≥100时,PeakTH=0.6,找出所有满足条件的峰值,记录下它们对应的τ值;
3.1.3)从所有τ值中,找出最小的τ值作为基音周期暂定值,并设定一个误差范围,再在该误差范围内验证其他的τ值是否为基音周期暂定值的倍数,如果验证结果为是,则判决此帧为浊音,并将基音周期暂定值设定为此帧的基音周期长度,如果s(n)为前封包的语音信号,则此基音周期长度即为前向基音周期Pf,如果s(n)为后封包的语音信号,则此基音周期长度即为后向基音周期Pb
进一步的,所述步骤3.1)中,τmin=40,τmin=240,N=512。
本发明提供的基于语音重建的瞬态噪声抑制方法,利用预白化后浊音和瞬态噪声的波形分布特性差异来检测瞬态噪声,并在瞬态噪声与语音信号同时存在时,将包含有瞬态噪声的帧丢弃,利用去除帧的前后相邻的未受干扰帧进行波形重建,替换掉原有的信号,可以有效地、完全地抑制瞬态噪声,尤其是语音信号和瞬态噪声同时存在时,可以完全地消除瞬态噪声。
附图说明
图1是四种原始声信号的波形图,图1中各波形图的横轴为时间轴,纵轴为幅值轴,其中的波形图a为浊音波形图,波形图b为瞬态噪声波形图,波形图c为浊音加瞬态噪声的波形图,波形图d为清音波形图;
图2是将图1的四种原始声信号预白化后的波形图,图2中各波形图的横轴为时间轴,纵轴为幅值轴,其中的波形图a为浊音波形图,波形图b为瞬态噪声波形图,波形图c为浊音加瞬态噪声的波形图,波形图d为清音波形图;
图3是含有瞬态噪声的原始信号波形与其B(l)值的对照图,图3中各波形图的横轴为时间轴,纵轴为幅值轴,其中的波形图b为含有瞬态噪声的原始信号波形图,波形图a为波形图b所示波形的B(l)值图;
图4是本发明实施例的基于语音重建的瞬态噪声抑制方法的流程图;
图5是前后封包不同情况的时域波形图,图5中各波形图的横轴为时间轴,纵轴为幅值轴,其中的波形图a为前后封包均为浊音的情况,波形图b为前一封包为浊音且后一封包为非浊音的情况,波形图c为前一封包为非浊音且后一封包为浊音的情况,波形图d为前后封包均为浊音的情况;
图6是前后封包不同情况的延拓加权系数示意图,图6中各波形图的横轴为时间轴,纵轴为幅值轴;
图7是采用本发明实施例的基于语音重建的瞬态噪声抑制方法对实际语音信号进行测试的测试效果时域图,图7中各波形图的横轴为时间轴,纵轴为幅值轴,其中的波形图a为原始信号波形,波形图b为受瞬态噪声污染信号的波形,波形图c为重建信号的波形。
具体实施方式
以下结合附图说明对本发明的实施例作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围。
如图1所示,本发明实施例所提供的一种基于语音重建的瞬态噪声抑制方法,其特征在于,具体步骤如下:
1)利用传声器拾取声信号,并对传声器所拾取的声信号进行预处理,忽略其中的平稳态噪声残留ds(n),得到预处理后的声信号为:
x(n)=s(n)+dt(n);
其中,x(n)为预处理后的声信号,s(n)为预处理后的声信号中的目标语音成分,dt(n)为预处理后的声信号中的瞬态噪声成分;
2)对x(n)进行分帧、预白化处理,基于预白化后浊音和瞬态噪声的波形分布特性差异,对x(n)逐帧检测是否含有瞬态噪声,具体检测步骤如下:
2.1)对x(n)进行分帧、预白化处理,分帧采样率为16kHz,每帧为512个采样点,每帧重复率为50%,并利用莱文森-德宾(Levinson–Durbin)算法估计AR系数,得到x(n)的白化信号,将x(n)的白化信号中的各帧信号记为:
其中,为x(n)的白化信号中的第l帧信号的第k个样本点,x(k,l)为原始信号进行分帧处理后的第l帧信号的第k个样本点,P为线性预测的阶数,为第l帧信号的线性预测系数,x(k-p,l)为原始信号进行分帧处理后的第l帧信号的第k-p个样本点;
假设瞬态噪声的主要能量在时间上集中于较小的范围内,且瞬态噪声的能量应明显大于同一分析窗中的语音信号能量;基于以上假设,相对于其它随机信号,瞬态噪声持续时间较短,具有更好的稳定性;清音和瞬态噪声可通过频域相关性进行区别,浊音和瞬态噪声可以通过语音谐频和连续性进行区别;但当浊音和瞬态噪声同时存在时,瞬态噪声检测变得困难;研究发现,浊音经预白化后的残差信号表现为连续周期脉冲,而对瞬态噪声经预白化后变化不明显,基于预白化后浊音和瞬态噪声的波形分布特性差异,可在瞬态噪声和浊音同时存在时,检测出瞬态噪声;
研究发现,预白化后瞬态噪声和语音的时域波形分布存在较大差异,具体分布如图1、图2所示,图1是四种原始声信号的波形图,图2是将图1的四种原始声信号预白化后的波形图,通过对比可以发现,浊音白化后变为周期脉冲信号,能量集中在几个脉冲点附近;瞬态噪声白化后能量分布变化不明显,还是集中于一定的时间段内;当浊音和瞬态噪声同时存在时,混合信号预白化后能量还是相对集中,浊音脉冲特性已不明显;清音白化后能量分布于整个时间轴,利用白化后信号的不同分布,可以对瞬态噪声进行检测;
2.2)为了使得信号能量更加集中,提高检测概率,加入窗函数计算x(n)的白化信号各帧的重心,具体计算公式为:
其中,C(l)为x(n)的白化信号第l帧的重心,w(k)为汉宁窗,N为x(n)的白化信号中每帧的采样点数量,这里N=512;
2.3)以C(l)为中心,计算包含E%能量所需的时间长度B(l),具体计算公式为:
其中,是指取能使成立的v的最小取值,E%=90%;
2.4)根据B(l)值判断信号中是否存在瞬态噪声,如果B(l)<thr,则判定信号中存在瞬态噪声,thr为预先设定的瞬态噪声判断门限,在分帧采样率为16kHz,每帧为512个采样点情况下,thr=150;
图3是含有瞬态噪声的原始信号波形与其B(l)值的对照图,其中的波形图a中的虚线代表门限值thr,从图3可以看出含有瞬态噪声帧的B(l)值较小,语音帧的B(l)值较大,当浊音和瞬态噪声同时存在于某一帧时,B(l)值也相对较小;由于语音的起始或结束段语音能量也相对集中,容易被误判为瞬态噪声,可通过在原始信号中加入适当的稳态噪声进行掩蔽,减小虚警概率;
3)对x(n)进行重建,瞬态噪声与语音信号同时存在时,瞬态噪声抑制效果下降,处理后信号存在可听瞬态噪声残留成分,将x(n)中包含有瞬态噪声的帧丢弃,实际应用中,检测到瞬态噪声帧后,为了彻底消除其影响,应将其后的2-3帧也一同去除,利用去除帧的前后相邻的未受干扰帧进行波形重建,替换掉原有的信号,具体重建步骤如下:
3.1)利用基音周期检测方法对丢弃帧之前的封包进行基音周期检测,得到的前向基音周期Pf,对丢弃帧之后的封包进行基音周期检测,得到后向基音周期Pb,并确定丢弃帧前一封包的周期波形及后一封包的周期波形,考虑到利用丢弃帧前后封包的周期波形作内差,需先对丢弃帧前后周期波形的波峰位置进行相位同步(相位同步方法为现有技术);
对于x(n)中的丢弃帧,对这些丢弃帧之前的封包与之后的封包进行基音检测,并判断是否为浊音,如果前后帧都是浊音,则转至步骤3.2),反之则转至步骤3.3);由于瞬态噪声一般不超过50ms,这里将丢弃帧的长度设为32ms或48ms;
本发明实施例采用归一化自相关函数检测前封包及后封包的基音周期,具体检测公式为:
如果则L=τ,如果则L=N-τ;
其中,CNAC(τ)为归一化自相关函数,s(n)为封包的语音信号,τ为s(n)的基音周期长度,τmin为s(n)的基音可能周期长度最小值,τmax为s(n)的基音可能周期长度最大值,这里取τmin=40,τmin=240,L为自相关运算的范围,N为每一帧语音样本点数,这里取N=512;
判断一个帧是否为浊音的步骤如下:
3.1.1)将满足τmin-1<τ<τmax+1的所有τ值代入公式,计算归一化自相关函数CNAC(τ)的最大值;
3.1.2)找出CNAC(τ)函数的峰值,判断此峰值是否大于PeakTH,当τ<100时,PeakTH=0.8,当τ≥100时,PeakTH=0.6,找出所有满足条件的峰值,记录下它们对应的τ值;
3.1.3)从所有τ值中,找出最小的τ值作为基音周期暂定值,并设定一个误差范围,再在该误差范围内验证其他的τ值是否为基音周期暂定值的倍数,如果验证结果为是,则判决此帧为浊音,并将基音周期暂定值设定为此帧的基音周期长度,如果s(n)为前封包的语音信号,则此基音周期长度即为前向基音周期Pf,如果s(n)为后封包的语音信号,则此基音周期长度即为后向基音周期Pb
本发明其它实施例中,也可以采用其它基音检测方法,对丢失帧之前的封包与之后的封包进行基音检测,并判断是否为浊音,前后封包分为4种不同的情况,情况1是前后帧均为浊音;情况2是前一帧为浊音,而后一帧不是浊音;情况3是后一帧为浊音,而前一帧不是浊音;情况4是前后帧都不是浊音;
3.2)在丢弃帧的前、后封包均为浊音的情况下(如图5中的波形a所示),先对前、后封包的周期波形进行相位同步,再根据丢弃帧长度确定该丢弃帧所需的重建周期波形个数及各重建周期波形长度,然后进行周期波形内差重建语音,具体重建方法如下(步骤3.2.1至步骤3.2.4):
3.2.1)在丢弃帧前向封包中,选择与丢弃帧最近的Pf个数据作为丢弃帧的前向周期波形PPW,在丢弃帧的后向封包中,选择与丢弃帧最近的Pb个数据作为丢弃帧的后向周期波形NPW,则丢弃帧所需的重建波形周期数量为:
其中,Np为丢弃帧所需的重建波形周期数量,round()为四舍五入函数,r为所有需要重建的数据点数量;
3.2.2)计算各个重建波形周期的长度,具体计算公式为:
其中,Pi为第i个重建波形周期的长度;
如果各重建波形周期的长度之和与r的值有偏差(即),则对各重建波形周期的长度进行修正,将各重建波形周期的长度之和修正为与r值一致,修正方法是从第一个重建波形周期开始,将各重建波形周期的长度逐次递减或逐次递增,直至各重建波形周期的长度之和修正为与r值一致;
3.2.3)对各个重建波形周期采用内插法修正,修正方法如下:
3.2.3.1)对丢弃帧的各个前向周期波形、后向周期波形进行延展或压缩,使得它们与长度与对应的重建波形周期的长度相同;
3.2.3.2)对修正后的前向周期修正波形、后向周期修正波形进行加权计算,具体计算公式为:
其中,RPWi(k)为重建信号在第i个周期波形中第k个样本点的数值,为前向周期修正波形在重建信号中第i个周期波形中第k个样本点对应的数值,为后向周期修正波形在重建信号中第i个周期波形中第k个样本点对应的数值,r为丢弃帧的长度,g为需重建的RPW样本点在丢弃帧中的位置;
3.2.4)将各个按顺序相连,得到最后的重建波形;
3.3)在丢弃帧的前、后封包中至少有一个不是浊音的情况下(如图5中的波形b、c、d所示),采用延拓和加权方式重建语音;
3.3.1)如果丢弃帧的前一帧是浊音,且后一帧不是浊音,则将浊音段向后进行周期延拓,直至充满整个丢失帧,得到延拓波形PPW(k),浊音段延拓周期为Pf,将非浊音段向前进行周期延拓,直至充满整个丢失帧,得到延拓波形NPW(k),非浊音段延拓周期为固定值,这里设为一帧的长度,其中的k为重建波形中的第k个样本点,再根据延拓波形PPW(k)、NPW(k)重建丢弃帧波形,重建的丢弃帧波形为:
RPW(k)=wf(k)·PPW(k)+wb(k)·NPW(k)
k=1,2,3...r
如果则,wb(k)=0,反之则
其中,RPW(k)为重建的丢弃帧波形中的第k个样本点的数值,假设需重建样本点数为100,则加权方式如图6中的波形图a所示;
如果丢弃帧的后一帧是浊音,且前一帧不是浊音,则将浊音段向前进行周期延拓,直至充满整个丢失帧,得到延拓波形NPW(k),浊音段延拓周期为Pb,将非浊音段向后进行周期延拓,直至充满整个丢失帧,得到延拓波形PPW(k),延拓周期为固定值,这里设为一帧的长度,其中的k为重建波形中的第k个样本点,再根据延拓波形PPW(k)、NPW(k)重建丢弃帧波形,重建的丢弃帧波形为:
RPW(k)=wf(k)·PPW(k)+wb(k)·NPW(k)
k=1,2,3...r
如果则,反之则wf(k)=0;
其中,RPW(k)为重建的丢弃帧波形中的第k个样本点的数值,假设需重建样本点数为100,则加权方式如图6中的波形图b所示;
如果丢弃帧的前后帧都不是浊音,则将前帧封包向后进行周期延拓,直至充满整个丢失帧,得到延拓波形PPW(k),延拓周期为固定值,这里设为一帧的长度,将后帧封包向前进行周期延拓,直至充满整个丢失帧,得到延拓波形NPW(k),延拓周期为固定值,这里设为一帧的长度,其中的k为重建波形中的第k个样本点,再根据延拓波形PPW(k)、NPW(k)重建丢弃帧波形,重建的丢弃帧波形为:
RPW(k)=wf(k)·PPW(k)+wb(k)·NPW(k)
k=1,2,3...r
其中,RPW(k)为重建的丢弃帧波形中的第k个样本点的数值,假设需重建样本点数为100,则加权方式如图6中的波形图c所示。
本发明实施例中,所有计算公式中的英文字母均区分大小写。
本发明实施例以实际语音信号进行测试,图7给出了瞬态噪声抑制前后的时域波形对比;结果显示,本发明实施例提出的方法可以完全抑制瞬态噪声,同时对语音的影响较小。对处理前后的语音进行了客观指标测试,评价指标为瞬态噪声降噪量和语音质量感观评价(PESQ)得分,具体见表1;
表1:
客观指标测试结果表明,本发明实施例提出的方法可以大幅降低瞬态噪声,并大幅提高PESQ得分,改善语音质量。

Claims (7)

1.一种基于语音重建的瞬态噪声抑制方法,其特征在于,具体步骤如下:
1)利用传声器拾取声信号,并对传声器所拾取的声信号进行预处理,忽略其中的平稳态噪声残留ds(n),得到预处理后的声信号为:
x(n)=s(n)+dt(n);
其中,x(n)为预处理后的声信号,s(n)为预处理后的声信号中的目标语音成分,dt(n)为预处理后的声信号中的瞬态噪声成分;
2)对x(n)进行分帧、预白化处理,基于预白化后浊音和瞬态噪声的波形分布特性差异,对x(n)逐帧检测是否含有瞬态噪声;
3)对x(n)进行重建,瞬态噪声与语音信号同时存在时,将x(n)中包含有瞬态噪声的帧丢弃,或将x(n)中包含有瞬态噪声的帧及其后的2-3帧一并舍弃,再利用去除帧的前后相邻的未受干扰帧进行波形重建,替换掉原有的信号。
2.根据权利要求1所述的基于语音重建的瞬态噪声抑制方法,其特征在于,所述步骤2)中,对x(n)逐帧检测是否含有瞬态噪声的步骤如下:
2.1)对x(n)进行分帧、预白化处理,得到x(n)的白化信号,将x(n)的白化信号中的各帧信号记为:
其中,为x(n)的白化信号中的第l帧信号的第k个样本点,x(k,l)为原始信号进行分帧处理后的第l帧信号的第k个样本点,P为线性预测的阶数,为第l帧信号的线性预测系数,x(k-p,l)为原始信号进行分帧处理后的第l帧信号的第k-p个样本点;
2.2)加入窗函数计算x(n)的白化信号各帧的重心,具体计算公式为:
其中,C(l)为x(n)的白化信号第l帧的重心,w(k)为汉宁窗,N为x(n)的白化信号中每帧的采样点数量;
2.3)以C(l)为中心,计算包含E%能量所需的时间长度B(l),具体计算公式为:
其中,是指取能使成立的v的最小取值,E%=90%;
2.4)根据B(l)值判断信号中是否存在瞬态噪声,如果B(l)<thr,则判定信号中存在瞬态噪声,thr为预先设定的瞬态噪声判断门限。
3.根据权利要求2所述的基于语音重建的瞬态噪声抑制方法,其特征在于,所述步骤2.2)中,N=512。
4.根据权利要求2所述的基于语音重建的瞬态噪声抑制方法,其特征在于,所述步骤2.4)中,thr=150。
5.根据权利要求1所述的基于语音重建的瞬态噪声抑制方法,其特征在于,所述步骤3)中,对x(n)进行重建的步骤如下:
3.1)利用基音周期检测方法对丢弃帧之前的封包进行基音周期检测,得到的前向基音周期Pf,对丢弃帧之后的封包进行基音周期检测,得到后向基音周期Pb,并确定丢弃帧前一封包的周期波形及后一封包的周期波形;
对于x(n)中的丢弃帧,对这些丢弃帧之前的封包与之后的封包进行基音检测, 并判断是否为浊音,如果前后帧都是浊音,则转至步骤3.2),反之则转至步骤3.3);
3.2)在丢弃帧的前、后封包均为浊音的情况下,先对前、后封包的周期波形进行相位同步,再根据丢弃帧长度确定该丢弃帧所需的重建周期波形个数及各重建周期波形长度,然后进行周期波形内差重建语音,具体重建方法如下:
3.2.1)在丢弃帧前向封包中,选择与丢弃帧最近的Pf个数据作为丢弃帧的前向周期波形PPW,在丢弃帧的后向封包中,选择与丢弃帧最近的Pb个数据作为丢弃帧的后向周期波形NPW,则丢弃帧所需的重建波形周期数量为:
其中,Np为丢弃帧所需的重建波形周期数量,round()为四舍五入函数,r为所有需要重建的数据点数量;
3.2.2)计算各个重建波形周期的长度,具体计算公式为:
其中,Pi为第i个重建波形周期的长度;
如果各重建波形周期的长度之和与r的值有偏差,则对各重建波形周期的长度进行修正,将各重建波形周期的长度之和修正为与r值一致;
3.2.3)对各个重建波形周期采用内插法修正,修正方法如下:
3.2.3.1)对丢弃帧的各个前向周期波形、后向周期波形进行延展或压缩,使得它们与长度与对应的重建波形周期的长度相同;
3.2.3.2)对修正后的前向周期修正波形、后向周期修正波形进行加权计算,具体计算公式为:
其中,RPWi(k)为重建信号在第i个周期波形中第k个样本点的数值, 为前向周期修正波形在重建信号中第i个周期波形中第k个样本点对应的数值,为后向周期修正波形在重建信号中第i个周期波形中第k个样本点对应的数值,r为丢弃帧的长度,g为需重建的RPW样本点在丢弃帧中的位置;
3.2.4)将各个按顺序相连,得到最后的重建波形;
3.3)在丢弃帧的前、后封包中至少有一个不是浊音的情况下,采用延拓和加权方式重建语音;
3.3.1)如果丢弃帧的前一帧是浊音,且后一帧不是浊音,则将浊音段向后进行周期延拓,直至充满整个丢失帧,得到延拓波形PPW(k),浊音段延拓周期为Pf,将非浊音段向前进行周期延拓,直至充满整个丢失帧,得到延拓波形NPW(k),非浊音段延拓周期为固定值,这里设为一帧的长度,其中的k为重建波形中的第k个样本点,再根据延拓波形PPW(k)、NPW(k)重建丢弃帧波形,重建的丢弃帧波形为:
RPW(k)=wf(k)·PPW(k)+wb(k)·NPW(k)
k=1,2,3...r
如果则,wb(k)=0,反之则
其中,RPW(k)为重建的丢弃帧波形中的第k个样本点的数值;
如果丢弃帧的后一帧是浊音,且前一帧不是浊音,则将浊音段向前进行周期延拓,直至充满整个丢失帧,得到延拓波形NPW(k),浊音段延拓周期为Pb,将非浊音段向后进行周期延拓,直至充满整个丢失帧,得到延拓波形PPW(k),延拓周期为固定值,这里设为一帧的长度,其中的k为重建波形中的第k个样本点,再根据延拓波形PPW(k)、NPW(k)重建丢弃帧波形,重建的丢弃帧波形为:
RPW(k)=wf(k)·PPW(k)+wb(k)·NPW(k)
k=1,2,3...r
如果则,反之则wf(k)=0;
其中,RPW(k)为重建的丢弃帧波形中的第k个样本点的数值;
如果丢弃帧的前后帧都不是浊音,则将前帧封包向后进行周期延拓,直至充满整个丢失帧,得到延拓波形PPW(k),延拓周期为固定值,这里设为一帧的长度,将后帧封包向前进行周期延拓,直至充满整个丢失帧,得到延拓波形NPW(k),延拓周期为固定值,这里设为一帧的长度,其中的k为重建波形中的第k个样本点,再根据延拓波形PPW(k)、NPW(k)重建丢弃帧波形,重建的丢弃帧波形为:
RPW(k)=wf(k)·PPW(k)+wb(k)·NPW(k)
k=1,2,3...r
其中,RPW(k)为重建的丢弃帧波形中的第k个样本点的数值。
6.根据权利要求5所述的基于语音重建的瞬态噪声抑制方法,其特征在于,所述步骤3.1)中,所采用的基音周期检测方法是利用归一化自相关函数检测前封包及后封包的基音周期,具体检测公式为:
如果则L=τ,如果则L=N-τ;
其中,CNAC(τ)为归一化自相关函数,s(n)为封包的语音信号,τ为s(n)的基音周期长度,τmin为s(n)的基音可能周期长度最小值,τmax为s(n)的基音可能周期长度最大值,L为自相关运算的范围,N为每一帧语音样本点数;
判断一个帧是否为浊音的步骤如下:
3.1.1)将满足τmin-1<τ<τmax+1的所有τ值代入公式,计算归一化自相关函数CNAC(τ)的最大值;
3.1.2)找出CNAC(τ)函数的峰值,判断此峰值是否大于PeakTH,当τ<100时,PeakTH=0.8,当τ≥100时,PeakTH=0.6,找出所有满足条件的峰值,记录下它们对应的τ值;
3.1.3)从所有τ值中,找出最小的τ值作为基音周期暂定值,并设定一个误差范围,再在该误差范围内验证其他的τ值是否为基音周期暂定值的倍数,如果验证结果为是,则判决此帧为浊音,并将基音周期暂定值设定为此帧的基音周期长度,如果s(n)为前封包的语音信号,则此基音周期长度即为前向基音周期Pf,如果s(n)为后封包的语音信号,则此基音周期长度即为后向基音周期Pb
7.根据权利要求6所述的基于语音重建的瞬态噪声抑制方法,其特征在于,所述步骤3.1)中,τmin=40,τmin=240,N=512。
CN201410857049.9A 2014-12-29 2014-12-29 基于语音重建的瞬态噪声抑制方法 Expired - Fee Related CN104599677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410857049.9A CN104599677B (zh) 2014-12-29 2014-12-29 基于语音重建的瞬态噪声抑制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410857049.9A CN104599677B (zh) 2014-12-29 2014-12-29 基于语音重建的瞬态噪声抑制方法

Publications (2)

Publication Number Publication Date
CN104599677A CN104599677A (zh) 2015-05-06
CN104599677B true CN104599677B (zh) 2018-03-09

Family

ID=53125410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410857049.9A Expired - Fee Related CN104599677B (zh) 2014-12-29 2014-12-29 基于语音重建的瞬态噪声抑制方法

Country Status (1)

Country Link
CN (1) CN104599677B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105682209A (zh) * 2016-04-05 2016-06-15 广东欧珀移动通信有限公司 一种降低移动终端通话功耗的方法及移动终端
US10181321B2 (en) 2016-09-27 2019-01-15 Vocollect, Inc. Utilization of location and environment to improve recognition
CN107808655B (zh) * 2017-10-27 2021-02-12 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN108269579B (zh) * 2018-01-18 2020-11-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
CN109817241B (zh) * 2019-02-18 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN110838299B (zh) * 2019-11-13 2022-03-25 腾讯音乐娱乐科技(深圳)有限公司 一种瞬态噪声的检测方法、装置及设备
CN111768801A (zh) * 2020-06-12 2020-10-13 瑞声科技(新加坡)有限公司 气流杂音消除方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419977A (zh) * 2011-01-14 2012-04-18 展讯通信(上海)有限公司 瞬态音频信号的判别方法
CN103440871A (zh) * 2013-08-21 2013-12-11 大连理工大学 一种语音中瞬态噪声抑制的方法
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
CN104157295A (zh) * 2014-08-22 2014-11-19 中国科学院上海高等研究院 用于检测及抑制瞬态噪声的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9311927B2 (en) * 2011-02-03 2016-04-12 Sony Corporation Device and method for audible transient noise detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419977A (zh) * 2011-01-14 2012-04-18 展讯通信(上海)有限公司 瞬态音频信号的判别方法
CN103440871A (zh) * 2013-08-21 2013-12-11 大连理工大学 一种语音中瞬态噪声抑制的方法
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
CN104157295A (zh) * 2014-08-22 2014-11-19 中国科学院上海高等研究院 用于检测及抑制瞬态噪声的方法

Also Published As

Publication number Publication date
CN104599677A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN104599677B (zh) 基于语音重建的瞬态噪声抑制方法
Drugman et al. Joint robust voicing detection and pitch estimation based on residual harmonics
CN103440872B (zh) 瞬态噪声的去噪方法
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
CN103440869B (zh) 一种音频混响的抑制装置及其抑制方法
CN105261359B (zh) 手机麦克风的消噪系统和消噪方法
CN103413547B (zh) 一种室内混响消除的方法
EP3411876B1 (en) Babble noise suppression
CN105118522B (zh) 噪声检测方法及装置
CN104919525B (zh) 用于评估退化语音信号的可理解性的方法和装置
CN104658543A (zh) 一种室内混响消除的方法
JP4736632B2 (ja) ボーカル・フライ検出装置及びコンピュータプログラム
Upadhyay et al. An improved multi-band spectral subtraction algorithm for enhancing speech in various noise environments
CN109991520A (zh) 一种电缆振荡波局放检测系统用波速计算新方法
CN106663450A (zh) 用于评估劣化语音信号的质量的方法及装置
Mitev et al. Fundamental frequency estimation of voice of patients with laryngeal disorders
Kumar Mean-median based noise estimation method using spectral subtraction for speech enhancement technique
US20150162014A1 (en) Systems and methods for enhancing an audio signal
Ouzounov A robust feature for speech detection
CN112216285B (zh) 多人会话检测方法、系统、移动终端及存储介质
Zhang et al. Speech enhancement for nonstationary noise environments
Wenlu et al. Modified Wiener filtering speech enhancement algorithm with phase spectrum compensation
Deisher et al. Speech enhancement using state-based estimation and sinusoidal modeling
Li et al. Robust speech endpoint detection based on improved adaptive band-partitioning spectral entropy
Li et al. Sub-band based log-energy and its dynamic range stretching for robust in-car speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180309