CN103559887B - 用于语音增强系统的背景噪声估计方法 - Google Patents

用于语音增强系统的背景噪声估计方法 Download PDF

Info

Publication number
CN103559887B
CN103559887B CN201310538432.3A CN201310538432A CN103559887B CN 103559887 B CN103559887 B CN 103559887B CN 201310538432 A CN201310538432 A CN 201310538432A CN 103559887 B CN103559887 B CN 103559887B
Authority
CN
China
Prior art keywords
noise estimation
speech
noise
voice
enhancement system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310538432.3A
Other languages
English (en)
Other versions
CN103559887A (zh
Inventor
张勇
刘轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Original Assignee
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PKU-HKUST SHENZHEN-HONGKONG INSTITUTION filed Critical PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority to CN201310538432.3A priority Critical patent/CN103559887B/zh
Publication of CN103559887A publication Critical patent/CN103559887A/zh
Application granted granted Critical
Publication of CN103559887B publication Critical patent/CN103559887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开一种用于语音增强系统的背景噪声估计方法,包括如下步骤:对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换,得到目标信号的频域表示:Y(k,l)=X(k,l)+D(k,l);将所述目标信号根据语音出现与否划分为语音出现状态H1(k,l)和语音缺失状态H0(k,l),并按照如下公式分别估计噪声上述方法中,引入了残差噪声In(k,l),残差噪声In(k,l)的本质是在噪声估计算法中引入反馈机制对估计的噪声进行自适应调节,因此解决了在语音出现状态下的噪声估计不准确的问题。

Description

用于语音增强系统的背景噪声估计方法
技术领域
本发明涉及语音增强处理技术领域,特别是涉及一种用于语音增强系统的背景噪声估计方法。
背景技术
在语音增强处理的过程中,比较关键的一步就是对背景噪声的估计。噪声估计过高,在滤除噪声时微弱语音将被去掉,使得经过增强处理的语音产生大的失真;而噪声估计过低,在滤除噪声后会残留过多的背景噪声。当背景噪声为平稳噪声时,通过对静音段的噪声功率谱取均值可得噪声的估计值。当背景噪声为非平稳噪声时,由于噪声随时间快速变化,噪声的估计就比较困难,要克服这个问题,需要对噪声进行连续跟踪与修正。
传统的噪声估计法是基于语音活动检测(Voice Activity Detector,VAD)的噪声估计方法。该方法在信噪比较高的情况下可以得到较好的噪声估计,但是在低信噪比的情况下,对语音信号的检测变得比较难,VAD的误检率很高,噪声估计不准确。
实际噪声通常是非平稳的,在语音存在期间噪声也可能发生变化,要想取得好的语音增强效果,就必须随时跟踪噪声的变化,及时更新噪声估计。Doblinger通过比较前帧带噪语音子带平滑功率谱最小值和后帧带噪语音子带平滑功率谱之间大小,对带噪语音子带平滑功率谱最小值每帧进行追踪和更新,并将其作为估计的噪声谱,该噪声谱估计方法计算效率高,能快速适应背景噪声的变化,但它直接把带噪语音子带平滑功率谱最小值作为估计的噪声谱,使得估计的噪声谱准确度不高,同时它会将带噪语音中语音电平的突然上升当作噪声电平突变的情况来处理,造成噪声的过估计。
Martin提出了基于最优平滑和最小统计的噪声估计算法,它依据带噪语音能量可以衰减到噪声能量级的思想,通过对平滑后的带噪语音的短时功率谱取最小值来获得噪声功率估计。然而,该方法在估计噪声时,当搜索窗较小时会削弱语音能量,当搜索窗太大时,其噪声估计更新较慢难以实时估计噪声。
Israel Cohen提出了改进的最小受控递归平均(Improved Minima ControlledRecursive Average,IMCRA)噪声估计法,其可以进行连续的噪声估计。算法使用一个时变频率依赖的平滑因子对过去信号帧的功率谱进行平均后估计噪声,该平滑因子依据语音信号存在概率调整。语音出现概率的估计基于高斯统计模型,但受平滑周期图的最小值控制控制。该算法包括两次平滑和最小值跟踪过程。第一次平滑过程对每个频带语音出现情况做粗略的估计,然后在第二次平滑过程中通过最小值跟踪剔除强语音分量,对噪声谱进行平滑。但是,现有的IMCRA噪声估计方法是在语音缺失段对噪声进行递归平滑而在语音段则对噪声的估计保持不变。然而,在实际情况中,噪声通常是非平稳的,即使在语音信号存在期间,噪声也可能会发生变化。
发明内容
基于此,有必要提供一种能够实时跟踪带噪语音中的噪声变化的背景噪声估计方法。
一种语音噪声估计方法,包括如下步骤:
对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换,得到目标信号的频域表示:Y(k,l)=X(k,l)+D(k,l);其中Y(k,l)是带噪语音信号进行快速傅立叶变换变换后的频谱,X(k,l)是纯语音信号进行快速傅立叶变换变换后的频谱,D(k,l)是与语音信号无关的加性噪声进行快速傅立叶变换变换后的频谱;k表示频谱序号,l表示帧序号;
将所述目标信号根据语音出现与否划分为语音出现状态H1(k,l)和语音缺失状态H0(k,l),并按照如下公式估计噪声:
H 0 ( k , l ) : λ ‾ d ( k , l + 1 ) = α d λ ‾ d ( k , l ) + ( 1 - α d ) | Y ( k , l ) | 2 ;
H 1 ( k , l ) : λ ‾ d ( k , l + 1 ) = α p λ ‾ d ( k , l ) + ( 1 - α p ) | I n ( k , l ) | 2 ;
得到:
λ ‾ d ( k , l + 1 ) = [ α p λ ‾ d ( k , l ) + ( 1 - α p ) | I n ( k , l ) | 2 ] p ( k , l ) + [ α d λ ‾ d ( k , l ) + ( 1 - α d ) | Y ( k , l ) 2 | ] ( 1 - p ( k , l ) )
其中:为第l+1帧的噪声估计,为第l帧的噪声估计,αd和αp为根据不同的背景噪声取不同的常数的平滑因子,|Y(k,l)|为目标信号的谱幅度,|In(k,l)|为残差信号的谱幅度;p(k,l)为语音信号出现概率;
所述残差信号为:
In(k,l)=(1-G(k,l))|Y(k,l)|2
其中:G(k,l)为语音增强系统中的谱增益函数。
在其中一个实施例中,所述短时傅立叶变换基于假定变换系数为复高斯分布的前提下。
在其中一个实施例中,进一步包括:
利用条件语音出现概率对噪声估计进行递归平均得到:
其中:
p(k,l)=P(H1(k,l)|Y(k,l))为语音存在概率。
在其中一个实施例中,进一步地,
&phi; = ( 1 - &alpha; p ) p ( k , l ) p ( k , l ) &GreaterEqual; &phi; 0 0 p ( k , l ) < &phi; 0 ;
其中,φ0为根据需要取常数的概率门限阈值。。
在其中一个实施例中,进一步对噪声估计进行偏差补偿:
&lambda; ^ d ( k , l + 1 ) = &beta; &CenterDot; &lambda; &OverBar; d ( k , l + 1 )
其中β为补偿因子,其定义为:
&beta; = &lambda; d ( k , l ) E { &lambda; &OverBar; d ( k , l ) } | &xi; ( k , l ) = 0 ;
λx(k,l)=E{|X(k,l)|2|H1(k,l)},λd(k,l)=E{|D(k,l)|2},分别代表第k个频谱分量的方差,ξ(k,l)为先验信噪比;
&xi; ( k , l ) = &lambda; x ( k , l ) &lambda; d ( k , l ) .
在其中一个实施例中,αp为0.998。
在其中一个实施例中,进一步包括最小受控估计的步骤,所述最小受控估计的步骤用于估计先验语音不存在概率q(k,l),且p(k,l)+q(k,l)=1。
在其中一个实施例中,所述噪声估计方法基于采用维纳滤波法的语音增强系统,所述谱增益函数G(k,l)为:
G ( k , l ) = &xi; ( k , l ) 1 + &xi; ( k , l ) ;
λx(k,l)=E{|X(k,l)|2|H1(k,l)},λd(k,l)=E{|D(k,l)|2},分别代表第k个频谱分量的方差,ξ(k,l)为先验信噪比;
&xi; ( k , l ) = &lambda; x ( k , l ) &lambda; d ( k , l ) .
在其中一个实施例中,所述噪声估计方法基于采用谱减法的语音增强系统,所述谱增益函数G(k,l)为:
G ( k , l ) = 1 - 1 &gamma; ( k , l ) .
式中λd(k,l)=E{|D(k,l)|2}代表第k个频谱分量的方差,Y(k,l)是带噪语音信号进行快速傅里叶变换变换后的频谱,γ(k,l)定义为后验信噪比:
&gamma; ( k , l ) = | Y ( k , l ) | 2 &lambda; d ( k , l ) .
在其中一个实施例中,所述噪声估计方法基于采用MMSE-LSA估计法的语音增强系统,所述谱增益函数G(k,l)为:
G ( k , l ) = &xi; ( k , l ) 1 + &xi; ( k , l ) exp { 1 2 &Integral; v ( k ) &infin; e - t t dt } ;
式中,λx(k,l)=E{|X(k,l)|2|H1(k,l)},λd(k,l)=E{|D(k,l)|2},分别代表第k个频谱分量的方差,ξ(k,l)为先验信噪比;
&xi; ( k , l ) = &lambda; x ( k , l ) &lambda; d ( k , l ) .
上述方法中,引入了残差噪声In(k,l),残差噪声In(k,l)的本质是在噪声估计算法中引入反馈机制对估计的噪声进行自适应调节,因此解决了在语音出现状态下的噪声估计不准确的问题。
附图说明
图1为噪声估计过程框图;
图2为一实施例的噪声估计方法流程图。
具体实施方式
如图1所示,为噪声估计框图。其过程大致如下。
对带噪语音进行包括增益处理在内的处理得到残差噪声。
依据该带噪语音和残差噪声分别处理语音出现状态和语音缺失状态下的实时噪声估计。
还可以包括最小受控估计的步骤。
如图2所示,一实施例的噪声估计方法流程图。该方法包括如下步骤。
步骤S101:对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换。
用x(n)和d(n)分别表示纯语音信号和非相关的加性噪声,令目标信号(带噪语音信号)为y(n),即y(n)=x(n)+d(n)。对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换,在频域可以得到:
Y(k,l)=X(k,l)+D(k,l) (1)
式(1)中k表示频谱序号,l表示帧序号。
步骤S102:将所述目标信号根据语音出现与否划分为语音出现状态和语音缺失状态,并分别估计两种状态下的噪声。
对带噪语音信号根据语音是否存在划分为2个状态,并假设H1(k,l)代表语音出现状态,H0(k,l)代表语音缺失状态。同时,假定语音和噪声的短时傅立叶变换系数为复高斯分布的情况下,可以得到目标信号的条件概率密度函数:
f ( Y ( k , l ) | H 0 ( k , l ) ) = 1 &pi;&lambda; d ( k , l ) exp { - | Y ( k , l ) | 2 &lambda; d ( k , l ) } - - - ( 2 )
f ( Y ( k , l ) | H 1 ( k , l ) ) = 1 &pi; ( &lambda; x ( k , l ) + &lambda; d ( k , l ) ) exp { - | Y ( k , l ) | 2 &lambda; x ( k , l ) + &lambda; d ( k , l ) } - - - ( 3 )
式(2)和式(3)中λx(k,l)=E{|X(k,l)|2|H1(k,l)},λd(k,l)=E{|D(k,l)|2},分别代表第k个频谱分量的方差。
假定ξ(k,l)、γ(k,l)分别为先验信噪比和后验信噪比,其定义为:
&xi; ( k , l ) = &lambda; x ( k , l ) &lambda; d ( k , l ) - - - ( 4 )
&gamma; ( k , l ) = | Y ( k , l ) | 2 &lambda; d ( k , l ) - - - ( 5 )
基于上述先验信噪比和后验信噪比的定义,后验信噪比的概率密度函数可以表示为:
f(γ(k,l)|H0(k,l))=e-γ(k,l)u(γ(k,l)) (6)
f ( &gamma; ( k , l ) | H 1 ( k , l ) ) = 1 1 + &xi; ( k , l ) &CenterDot; exp { - &gamma; ( k , l ) 1 + &xi; ( k , l ) } u ( &gamma; ( k , l ) ) - - - ( 7 )
式(6)和式(7)中u(·)是单位阶跃函数,即当γ≥0时u(γ)=1,其它情况下u(γ)=0。
假设q(k,l)=P(H0(k,l))为先验语音不存在概率,定义p(k,l)=P(H1(k,l)|Y(k,l))为语音存在概率,定义Λ(k,l)为归一化的释然率,即:
&Lambda; ( k , l ) = 1 - q ( k , l ) q ( k , l ) p ( Y ( k , l ) | H 1 ( k , l ) ) p ( Y ( k , l ) | H 0 ( k , l ) ) - - - ( 8 )
对语音存在概率应用贝叶斯定理可得:
P ( H 1 ( k , l ) | Y ( k , l ) ) = p ( k , l ) &CenterDot; P ( Y ( k , l ) | H 1 ( k , l ) ) p ( k , l ) &CenterDot; P ( Y ( k , l ) | H 1 ( k , l ) ) + q ( k , l ) &CenterDot; P ( Y ( k , l ) | H 0 ( k , l ) ) - - - ( 9 )
由式(8)和式(9)可得:
p ( k , l ) = P ( H 1 ( k , l ) | Y ( k , l ) ) = &Lambda; ( k , l ) 1 + &Lambda; ( k , l ) - - - ( 10 )
将式(2)和式(3)代入式(8)和式(10)化简可得:
p ( k , l ) = { 1 + q ( k , l ) 1 - q ( k , l ) ( 1 + &xi; ( k , l ) ) exp ( - v ( k , l ) ) } - 1 - - - ( 11 )
式(11)中 v ( k , l ) = &gamma; ( k , l ) &xi; ( k , l ) 1 + &xi; ( k , l ) .
对于噪声估计,针对2个状态的不同特点分别进行噪声估计。对语音缺失状态H0(k,l)有:
H 0 ( k , l ) : &lambda; &OverBar; d ( k , l + 1 ) = &alpha; d &lambda; &OverBar; d ( k , l ) + ( 1 - &alpha; d ) | Y ( k , l ) | 2 - - - ( 12 )
对语音出现状态H1(k,l)则有:
H 1 ( k , l ) : &lambda; &OverBar; d ( k , l + 1 ) = &alpha; p &lambda; &OverBar; d ( k , l ) + ( 1 - &alpha; p ) | I n ( k , l ) | 2 - - - ( 13 )
式(13)中αp为平滑因子,其为一个常数,In(k,l)为残差噪声,其定义为:
In(k,l)=(1-G(k,l))|Y(k,l)|2 (14)
式(14)中,G(k,l)定义为语音增强算法中的谱增益函数。
不同的语音增强系统,其对应的谱增益函数G(k,l)不同。例如,对于维纳滤波法,其增益函数为:
G ( k , l ) = &xi; ( k , l ) 1 + &xi; ( k , l ) ;
对于谱减法,其增益函数为:
G ( k , l ) = 1 - 1 &gamma; ( k , l ) ;
对于MMSE-LSA估计法,其增益函数为:
G ( k , l ) = &xi; ( k , l ) 1 + &xi; ( k , l ) exp { 1 2 &Integral; v ( k ) &infin; e - t t dt } .
结合输入信号的2状态划分,在语音出现不确定的条件下利用条件语音出现概率对噪声估计进行递归平均可以得到:
&lambda; &OverBar; d ( k , l + 1 ) = [ &alpha; p &lambda; &OverBar; d ( k , l ) + ( 1 - &alpha; p ) | I n ( k , l ) | 2 ] p ( k , l ) + [ &alpha; d &lambda; &OverBar; d ( k , l ) + ( 1 - &alpha; d ) | Y ( k , l ) 2 | ] ( 1 - p ( k , l ) ) - - - ( 15 )
对式(15)化简可得:
其中,式(16)中有:
τ=αd+(αpd)p(k,l) (17)
&phi; = ( 1 - &alpha; p ) p ( k , l ) - - - ( 18 )
从式(16)可以看到,相比于传统算法,新算法增加了残差噪声In(k,l),In(k,l)考虑到了带噪语音中含有语音时的噪声变化。针对式(18),我们可以进一步得到:
&phi; = ( 1 - &alpha; p ) p ( k , l ) p ( k , l ) &GreaterEqual; &phi; 0 0 p ( k , l ) < &phi; 0 - - - ( 20 )
式(20)和式(17)中,一个推荐值为φ0=0.99,αp=0.998,该值可以背景噪声的不同进行调整。
由式(16)可知,平滑系数受语音出现概率调节,而语音出现概率的估计基于带噪语音。同时语音出现概率也修正了纯净语音信号谱估计,因此在算法中往往取偏大值以避免语音失真,相应的利用式(16)估计噪声会噪声估计值偏小,因此需要在噪声估计中用一个偏差补偿系数。
&lambda; ^ d ( k , l + 1 ) = &beta; &CenterDot; &lambda; &OverBar; d ( k , l + 1 ) - - - ( 21 )
式(21)中为第l帧信号第k个频谱的估计噪声,β为补偿因子,其定义为:
&beta; = &lambda; d ( k , l ) E { &lambda; &OverBar; d ( k , l ) } | &xi; ( k , l ) = 0 - - - ( 22 )
传统的方法由于在语音存在期间不对噪声进行更新,因此遇到此种情况,噪声就会被低估或高估,增强后的语音信号中就会含有比较多的残留噪声(噪声低估情况)或者造成严重的语音失真(噪声高估情况),无论哪种情况都会极大降低语音增强算法的增强效果。上述方法中,引入了残差噪声In(k,l),残差噪声In(k,l)的本质是在噪声估计算法中引入反馈机制对估计的噪声进行自适应调节,因此解决了在语音出现状态下的噪声估计不准确的问题。
最小受控估计主要用于先验语音不存在概率的估计(即公式(11)中的q(k,l)计算)。先验语音不存在概率和先验语音存在概率的加和为1,也即p(k,l)+q(k,l)=1。这里用表示对的q(k,l)估计,并作为q(k,l)的值。通过获得先验语音不存在概率得到先验语音存在概率,继而完成前述计算。该估计方法包括两次平滑和最小值跟踪:第一次粗略估计每个频带语音出现情况,第二次平滑利用最小值跟踪剔除语音分量并用相对大的平滑窗进行平滑。p(k,l)并不限于利用q(k,l)计算获得,还可以采用其他公开或已知的技术。同时q(k,l)的计算也可以采用其他可行的方法。
令αs(0<αs<1)表示平滑系数,b表示长度为2w+1的归一化窗函数,并且则每帧噪声功率谱频域平滑定义如下:
S f ( k , l ) = &Sigma; i = - w w b ( i ) | Y ( k - i , l ) | 2 - - - ( 23 )
相应的时域一阶递归平滑为:
S(k,l)=αsS(k,l-1)+(1-αs)Sf(k,l) (24)
S(k,l)的最小值在一个长度为D的有限窗内得到,因此对每个频点:
Smin(k,l)=min{S(k,l′)|l-D+1≤l′≤l} (25)
定义γmin(k,l)以及ζ(k,l):
&gamma; min ( k , l ) = | Y ( k , l ) | 2 B min S min ( k , l ) &zeta; ( k , l ) = S ( k , l ) B min S min ( k , l ) - - - ( 26 )
式(26)中Bmin为一个独立于噪声功率谱的常数因子,其与D、αs、w及谱分析参数相关,其定义为:
B min = &lambda; d ( k , l ) E { S min ( k , l ) | &xi; ( k , l ) = 0 } - - - ( 27 )
由于假设信号谱和噪声谱都服从高斯分布,则有可以得到γmin(k,l)以及ζ(k,l)的概率密度函数:
f ( &gamma; min ( k , l ) | H 0 ( k , l ) ) &ap; e - &gamma; min ( k , l ) u ( &gamma; min ( k , l ) ) - - - ( 28 )
f ( &zeta; ( k , l ) | H 0 ( k , l ) ) &ap; 1 ( 2 / &mu; ) &mu; / 2 &Gamma; ( &mu; / 2 ) &zeta; ( k , l ) &mu; / 2 - 1 &CenterDot; exp { - &mu;&zeta; ( k , l ) 2 } u ( &zeta; ( k , l ) ) - - - ( 29 )
式(29)中Γ(·)为伽玛函数,μ为等价自由度。
基于第一次平滑和最小值跟踪可以粗略估计每个频带语音出现情况,即:
式(30)中初始值γ0和ζ0满足:
P(γmin(k,l)≥γ0|H0(k,l))<ε (31)
P(ζ(k,l)≥ζ0|H0(k,l))<ε (32)
由式(28)和式(29),可以得到:
γ0=-logε (33)
&zeta; 0 = 1 &mu; F &chi; 2 ; &mu; - 1 ( 1 - &mu; ) - - - ( 34 )
式(34)中表示自由度为μ的标准chi-square卷积分布函数。通常可以设ε=0.01,μ=0.32,因而由式(33)和式(34)计算可得γ0=4.6,ζ0=1.67。
经过第一次平滑后,第二次平滑只对包含主要噪声的功率谱分量进行平滑,设第一帧的初始值为然后对l>0的信号帧结合第一次平滑中得到的语音检测结果在频域中对信号谱进行平滑,可以得到:
在进行频域平滑后,对平滑谱再进行一阶时域平滑:
S ~ ( k , l ) = &alpha; s S ~ ( k , l - 1 ) + ( 1 - &alpha; s ) S ~ f ( k , l ) - - - ( 36 )
由式(35)和式(36)可以看出,在平滑过程中剔除较强语音分量能够改进最小值跟踪,特别是平滑系数αs较大而搜索窗D较小时,可以减小最小值方差以及噪声功率增加时的延时,改进了噪声估计的跟踪能力。
为第二次最小值跟踪结果,即:
S ~ min ( k , l ) = min { S ~ ( k , l ) | l - D + 1 &le; l &prime; &le; l } - - - ( 37 )
定义以及
&gamma; ~ min ( k , l ) = | Y ( k , l ) | 2 B min S ~ min ( k , l ) &zeta; ~ ( k , l ) = S ( k , l ) B min S ~ min ( k,l ) - - - ( 38 )
由于在第一次平滑中采用了较小的值(ε=0.01),因此噪声段的VAD影响可以忽略不计,也就是说在平滑过程中剔除强语音分量的影响是可以忽略的。因此,在语音缺失段以及的概率密度函数近似于γmin(k,l)和ζ(k,l)的概率密度函数。因此,可以采用如下的先验语音缺失概率的软判决准则:
设定阈值γ1满足:
P ( &gamma; ~ min ( k , l ) > &gamma; 1 | H 0 ( k , l ) ) < &epsiv; 1 &DoubleRightArrow; &gamma; 1 &ap; - log ( &epsiv; 1 ) - - - ( 40 )
通常设定ε1=0.05,γ1=3。
式(39)中假定或者时语音出现,即先验语音概率缺失,时语音缺失,即先验语音概率存在,
结合的目的是防止当语音信号较弱时噪声估计变大,特别是当输入信噪比比较小时。当用提取弱语音分量,弱到小于ζ0时,大部分语音分量被排除在平均过程之外,残留的语音分量由于与噪声功率相比很小,因而对噪声估计的影响不大。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种用于语音增强系统的背景噪声估计方法,包括如下步骤:
对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换,得到目标信号的频域表示:Y(k,l)=X(k,l)+D(k,l);其中Y(k,l)是带噪语音信号进行快速傅立叶变换后的频谱,X(k,l)是纯语音信号进行快速傅立叶变换后的频谱,D(k,l)是与语音信号无关的加性噪声进行快速傅立叶变换后的频谱;k表示频谱序号,l表示帧序号;
将所述目标信号根据语音出现与否划分为语音出现状态H1(k,l)和语音缺失状态H0(k,l),并按照如下公式估计噪声:
得到:
其中:为第l+1帧的噪声估计,为第l帧的噪声估计,αd和αp为根据不同的背景噪声取不同的常数的平滑因子,|Y(k,l)|为目标信号的谱幅度,|In(k,l)|为残差信号的谱幅度;p(k,l)为语音信号出现概率;
所述残差信号为:
In(k,l)=(1-G(k,l))|Y(k,l)|2
其中:G(k,l)为语音增强系统中的谱增益函数。
2.根据权利要求1所述的用于语音增强系统的背景噪声估计方法,其特征在于,所述短时傅立叶变换基于假定变换系数为复高斯分布的前提下。
3.根据权利要求2所述的用于语音增强系统的背景噪声估计方法,其特征在于,进一步包括:
利用条件语音出现概率对噪声估计进行递归平均得到:
其中:τ=αd+(αpd)p(k,l)、φ=(1-αp)p(k,l)、
p(k,l)=P(H1(k,l)|Y(k,l))为语音存在概率。
4.根据权利要求3所述的用于语音增强系统的背景噪声估计方法,其特征 在于,进一步地,
其中,φ0为根据需要取常数的概率门限阈值。
5.根据权利要求3所述的用于语音增强系统的背景噪声估计方法,其特征在于,进一步对噪声估计进行偏差补偿:
其中β为补偿因子,其定义为:
λx(k,l)=E{|X(k,l)|2|H1(k,l)},λd(k,l)=E{|D(k,l)|2},分别代表第k个频谱分量的方差,ξ(k,l)为先验信噪比;
6.根据权利要求1所述的用于语音增强系统的背景噪声估计方法,其特征在于,进一步包括最小受控估计的步骤,所述最小受控估计的步骤用于估计先验语音不存在概率q(k,l),且p(k,l)+q(k,l)=1。
7.根据权利要求1所述的用于语音增强系统的背景噪声估计方法,其特征在于,所述噪声估计方法基于采用维纳滤波法的语音增强系统,所述谱增益函数G(k,l)为:
λx(k,l)=E{|X(k,l)|2|H1(k,l)},λd(k,l)=E{|D(k,l)|2}分别代表第k个频谱分量的方差,ξ(k,l)为先验信噪比;
8.根据权利要求1所述的用于语音增强系统的背景噪声估计方法,其特征在于,所述噪声估计方法基于采用谱减法的语音增强系统,所述谱增益函数G(k,l)为:
式中λd(k,l)=E{|D(k,l)|2}代表第k个频谱分量的方差,Y(k,l)是带噪语音信号进行快速傅立叶变换变换后的频谱,γ(k,l)定义为后验信噪比:
9.根据权利要求1所述的用于语音增强系统的背景噪声估计方法,其特征在于,所述噪声估计方法基于采用MMSE-LSA估计法的语音增强系统,所述谱增益函数G(k,l)为:
式中,λx(k,l)=E{|X(k,l)|2|H1(k,l)},λd(k,l)=E{|D(k,l)|2},分别代表第k个频谱分量的方差,ξ(k,l)为先验信噪比,γ(k,l)定义为后验信噪比;
CN201310538432.3A 2013-11-04 2013-11-04 用于语音增强系统的背景噪声估计方法 Active CN103559887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310538432.3A CN103559887B (zh) 2013-11-04 2013-11-04 用于语音增强系统的背景噪声估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310538432.3A CN103559887B (zh) 2013-11-04 2013-11-04 用于语音增强系统的背景噪声估计方法

Publications (2)

Publication Number Publication Date
CN103559887A CN103559887A (zh) 2014-02-05
CN103559887B true CN103559887B (zh) 2016-08-17

Family

ID=50014117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310538432.3A Active CN103559887B (zh) 2013-11-04 2013-11-04 用于语音增强系统的背景噪声估计方法

Country Status (1)

Country Link
CN (1) CN103559887B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871421B (zh) * 2014-03-21 2018-02-02 厦门莱亚特医疗器械有限公司 一种基于子带噪声分析的自适应降噪方法与系统
CN105390142B (zh) * 2015-12-17 2019-04-05 广州大学 一种数字助听器语音噪声消除方法
CN105788606A (zh) * 2016-04-03 2016-07-20 武汉市康利得科技有限公司 一种用于拾音器的基于递归最小追踪的噪声估计方法
CN108024188A (zh) * 2017-09-30 2018-05-11 天津大学 一种基于智能终端的高可懂度语音降噪算法
CN107610712B (zh) * 2017-10-18 2020-07-03 会听声学科技(北京)有限公司 一种结合mmse和谱减法的语音增强方法
CN110136738A (zh) * 2019-06-13 2019-08-16 苏州思必驰信息科技有限公司 噪声估计方法及装置
CN111009255B (zh) * 2019-11-29 2022-04-22 深圳市无限动力发展有限公司 消除内部噪音干扰的方法、装置、计算机设备及存储介质
CN111128215B (zh) * 2019-12-24 2022-06-07 声耕智能科技(西安)研究院有限公司 一种单通道实时降噪方法及系统
CN111445919B (zh) * 2020-03-13 2023-01-20 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、系统、电子设备和介质
CN111968659B (zh) * 2020-07-23 2023-10-31 天津大学 一种基于优化imcra的麦克风阵列语音增强方法
CN112289337B (zh) * 2020-11-03 2023-09-01 北京声加科技有限公司 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN113808607A (zh) * 2021-03-05 2021-12-17 北京沃东天骏信息技术有限公司 基于神经网络的语音增强方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763846A (zh) * 2005-11-23 2006-04-26 北京中星微电子有限公司 一种语音增益因子估计装置和方法
CN101271686A (zh) * 2007-03-22 2008-09-24 三星电子株式会社 使用语音信号的谐波估计噪声的方法和设备
CN101802910A (zh) * 2007-09-12 2010-08-11 杜比实验室特许公司 利用话音清晰性的语音增强
CN102543092A (zh) * 2010-12-29 2012-07-04 联芯科技有限公司 一种噪声估计方法及装置
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100821177B1 (ko) * 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
WO2008115435A1 (en) * 2007-03-19 2008-09-25 Dolby Laboratories Licensing Corporation Noise variance estimator for speech enhancement
JP5131149B2 (ja) * 2008-10-24 2013-01-30 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763846A (zh) * 2005-11-23 2006-04-26 北京中星微电子有限公司 一种语音增益因子估计装置和方法
CN101271686A (zh) * 2007-03-22 2008-09-24 三星电子株式会社 使用语音信号的谐波估计噪声的方法和设备
CN101802910A (zh) * 2007-09-12 2010-08-11 杜比实验室特许公司 利用话音清晰性的语音增强
CN102543092A (zh) * 2010-12-29 2012-07-04 联芯科技有限公司 一种噪声估计方法及装置
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Improved MMSE-LSA speech enhancement algorithm based on human auditory masking property;Yong Zhang, et al.;《2013 International Conference on Asian Language Processing》;20130819;151-154 *
Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging;Israel Cohen;《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;20030930;第11卷(第5期);466-475 *

Also Published As

Publication number Publication date
CN103559887A (zh) 2014-02-05

Similar Documents

Publication Publication Date Title
CN103559887B (zh) 用于语音增强系统的背景噪声估计方法
CN103456310B (zh) 一种基于谱估计的瞬态噪声抑制方法
EP3696814A1 (en) Speech enhancement method and apparatus, device and storage medium
US9799331B2 (en) Feature compensation apparatus and method for speech recognition in noisy environment
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN106340292B (zh) 一种基于连续噪声估计的语音增强方法
EP3118852B1 (en) Method and device for detecting audio signal
WO2020177374A1 (zh) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN103531204A (zh) 语音增强方法
CN105390142B (zh) 一种数字助听器语音噪声消除方法
CN101778322A (zh) 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
Gerkmann et al. Empirical distributions of DFT-domain speech coefficients based on estimated speech variances
CN105427859A (zh) 一种用于对说话人识别的前端语音增强方法
CN105513614A (zh) 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
Park et al. Noise Cancellation Based on Voice Activity Detection Using Spectral Variation for Speech Recognition in Smart Home Devices.
CN109991520A (zh) 一种电缆振荡波局放检测系统用波速计算新方法
CN109087657B (zh) 一种应用于超短波电台的语音增强方法
Poovarasan et al. Speech enhancement using sliding window empirical mode decomposition and hurst-based technique
KR20160116440A (ko) 음성인식 시스템의 신호대잡음비 추정 장치 및 방법
CN109934050A (zh) 一种改进的基于emd分解的海杂波抑制算法
CN102637438B (zh) 一种语音滤波方法
CN102664658B (zh) 一种基于扩频系统的跳频gsm干扰抑制方法及其系统
CN112102818B (zh) 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
Tupitsin et al. Two-step noise reduction based on soft mask for robust speaker identification
Freudenberger et al. Time-frequency dependent voice activity detection based on a simple threshold test

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant