CN102969000B - 一种多通道语音增强方法 - Google Patents

一种多通道语音增强方法 Download PDF

Info

Publication number
CN102969000B
CN102969000B CN201210514867.XA CN201210514867A CN102969000B CN 102969000 B CN102969000 B CN 102969000B CN 201210514867 A CN201210514867 A CN 201210514867A CN 102969000 B CN102969000 B CN 102969000B
Authority
CN
China
Prior art keywords
log
correlation matrix
cross
gamma
clean speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210514867.XA
Other languages
English (en)
Other versions
CN102969000A (zh
Inventor
刘文举
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201210514867.XA priority Critical patent/CN102969000B/zh
Publication of CN102969000A publication Critical patent/CN102969000A/zh
Application granted granted Critical
Publication of CN102969000B publication Critical patent/CN102969000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种F范数表征信号子空间维度的多通道语音增强方法,该方法包括:步骤1:通过N个麦克风组成的麦克风阵列采集带噪声的多路语音信号y(t),并计算该多路语音信号y(t)的带噪语音互相关矩阵Ryy,其中,t表示离散时间点;步骤2:利用噪声估计算法估计加性噪声互相关矩阵 步骤3:利用所述带噪语音互相关矩阵Ryy和加性噪声互相关矩阵估计纯净语音互相关矩阵 步骤4:利用所述纯净语音互相关矩阵估计信号子空间的维度 步骤5:对进行广义特征值分解,并结合信号子空间的维度和拉格朗日乘子μ获得时域约束线性信号估计器;步骤6:利用时域约束线性信号估计器对多路语音信号y(t)进行滤波获得增强后的语音

Description

一种多通道语音增强方法
技术领域
本发明涉及语音增强和噪声消除的语音信号处理领域,特别涉及一种多通道语音增强方法。
背景技术
信号子空间方法(Signal Subspace Approach,SSA)主要基于矩阵正交分解理论,利用特征值分解(Eigenvalue Decomposition,EVD或奇异值分解(Singular Value Decomposition,SVD),将带噪语音信号的向量空间分解为彼此正交的两部分:信号子空间(信号+噪声)和噪声子空间(只有噪声)。其中,EVD利用信号的自相关矩阵,实现由时域到特征域的变换,被视为依赖于信号的变换,其经常被称作Karhunen-Loeve变换(KLT)。本质上,基于SSA的语音增强是将噪声子空间置零,同时去除信号子空间中的噪声成分。
SSA首先被引入到单通道语音增强领域(参考文献1:Y.Ephraim andH.L.Van Trees,“A signal subspace approach for speech enhancement,”IEEETrans.Speech Audio Process.,vol.3,no.4,pp.251-266,Jul.1995),在Karhunen-Loeve域上设计了多种有约束的线性滤波器,很好的处理了白噪声污染的语音信号。Hu等人(参考文献2:Y.Hu and P.C.Loizou,“Ageneralized subspace approach for enhancing speech corrupted by colorednoise,”IEEE Trans.Speech Audio Process.,vol.11,no.4,pp.334-341,Jul.2003)利用广义特征值分解(Generalized Eigenvalue Decomposition,GEVD)的方法,提高了SSA处理有色噪声的能力。程宁等人(参考文献3:N.Cheng,W.Liu and L.Wang,“Masking Property Based Microphone Array Post-filterDesign”,Interspeech,2010)将人耳的听觉掩蔽效应应用到了SSA中,精确了约束条件,使算法性能进一步得到提升。
Doclo等人(参考文献4:S.Doclo and M.Moonen,“GSVD-basedoptimal filtering for single and multimicrophone speech enhancement,”IEEETrans.Signal Process.,vol.50,no.9,pp.2230-2244,Sep.2002)将SSA应用到多通道语音增强算法中,它以广义奇异值分解(Generalized SingularValue Decomposition,GSVD)为工具,推导了在多通道环境下SSA的最优线性滤波器。Kim等人为提高语音识别系统的性能,先后提出了子频带独立插值方法(参考文献5:G.Kim and N.I.Cho,Principal subspacemodification for multi-channel wiener filter in multi-microphone noisereduction,Proc.IEEE Int.Conference on Acoustics,Speech and SignalProcessing,2008)和将多干扰源分离到不同的子空间中的子空间建模方法(参考文献6:G.Kim and P.C.Loizou,Improving Speech Intelligibility inNoise Using Environment-Optimized Algorithms,IEEE Trans.Audio,Speech,And Language Process.,vol.18,no.8,pp.2080-2090,2010)。
多通道SSA也存在着诸多缺陷,主要包括:在实际环境中应用KLT时,信号子空间维度的难以精确估计;处理有色噪声时的广义特征向量矩阵并不是正交阵,因此在特征值域上设计的线性信号估计器会引入语音畸变;多通道条件下GEVD的计算复杂度极高,不利于SSA在实时系统中应用,而现有的快速算法并不能保证算法的性能。
从先验知识的角度来审视SSA,其基于这样一个假设:一个长为p的随机序列可以由长为Q<p的随机序列的线性变换得到,称之为低秩模型。由自回归(AutoRegressive,AR)模型模型和线性预测系数(Linear PredictionCoefficients,LPC)等知识,我们知道这个假设对于语音信号是成立的。但将这个假设应用到语音增强算方法中,却必须非常小心,对信号子空间(低秩模型)的维度必须精确估计。一方面,对信号子空间维度的过估计会导致信号子空间中噪声成分增加,从而在增强后的语音中保留了过多残余噪声;另一方面,对信号子空间的欠估计又会导致语音成分的丢失,从而增大语音畸变,降低语音感知质量。因此,精确的信号子空间维度估计是SSA优异性能的保证,并直接影响到算法后续过程的有效性。但在实际应用,由于房间回声和非平稳噪声等因素的影响,信号子空间的维度往往难以精确估计,因此低秩模型的先验知识难以准确运用。
信号子空间维度估计的传统方法的根本缺陷在于过分依赖噪声估计,而忽略了信号子空间维度自身的变化规律。当基于SSA的语音增强算法工作在真实环境中时,由于噪声的干扰,SVD或EVD都会产生大量接近于零的奇异值或特征值,而且其值变化具有连续性,这也信号子空间维度的确定增加了难度。
发明内容
(一)要解决的技术问题
针对传统的信号子空间维度估计方法在真实环境中难以有效工作,其原因是过分依赖噪声的估计,本发明充分利用语音离散傅里叶变换(Discrete Fourier Transform,DFT)数幅值的超高斯分布特性和麦克风之间的相关性,提出了一种新的信号子空间维度估计方法,目的在于精确估计信号子空间的维度。
(二)技术方案
本发明为解决上述问题而提出的一种F范数表征信号子空间维度的多通道语音增强方法,其包括下列步骤:
步骤1:通过N个麦克风组成的麦克风阵列采集带噪声的多路语音信号y(t),并计算该多路语音信号y(t)的带噪语音互相关矩阵Ryy,其中,t表示离散时间点;
步骤2:利用噪声估计算法估计加性噪声互相关矩阵
步骤3:利用所述带噪语音互相关矩阵Ryy和加性噪声互相关矩阵估计纯净语音互相关矩阵
步骤4:利用所述纯净语音互相关矩阵估计信号子空间的维度
步骤5:对进行广义特征值分解,并结合信号子空间的维度和拉格朗日乘子μ获得时域约束线性信号估计器;
步骤6:利用时域约束线性信号估计器对多路语音信号y(t)进行滤波获得增强后的语音
(三)有益效果
本发明充分利用了语音DFT系数幅值的超高斯分布特性和麦克风之间的相关性。首先利用超高斯分布模型来更好地拟合各个频点上语音幅值谱的统计柱状图。其次,利用麦克风之间的相关性和正交变换不改变矩阵F范数的特点,获得了语音互相关矩阵F范数的高斯分布模型。然后,利用一种基于最大化原则的估计策略,在接受原假设的前提下最大化信号子空间的维度。通过以上步骤,本发明能够克服真实环境中噪声能量波动的不利影响,更精确地估计信号子空间的维度,使SSA可以在语音畸变和噪声消除之间建立更合理的折中。
附图说明
图1是本发明中F范数表征信号子空间维度的多通道语音增强方法流程图;
图2是本发明中基于F范数的估计信号子空间维度的方法流程图;
图3是本发明中TDC线性信号估计器的设计流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明提供一种基于F范数的信号子空间维度估计方法,该方法的具体步骤如下:
步骤S1:通过N个麦克风组成的麦克风阵列采集多路带噪语音信号y(t),具体包括:
步骤S11:采集信号所用的麦克风阵列,其由N个等间距的麦克风组成。假设第n个麦克风在时刻t采集到的带噪语音信号yn(t)为xn(t)与vn(k)之和,即
yn(t)=gn*s(t)+vn(t)=xn(t)+vn(t)    (1)
其中,gn是声源s(t)到第n个麦克风的冲击响应,xn(t)是第n个麦克风采集到的纯净语音,vn(t)是第n个麦克风采集到的加性噪声,t表示离散时间点。
步骤S12:利用长为L的汉宁窗对信号进行截短。信号模型可表示为向量形式:
yn=xn+vn,n=1,2,…,N    (2)
其中,yn=[yn(t)yn(t-1)...yn(t-L+1)]T,其包含了带噪语音信号yn(t)最近的L个采样,vn和xn类比定义。那么,所有麦克风采集到的带噪语音信号的全局向量形式为:
y=x+v    (3)
其中,
y = y 1 T y 2 T . . . y N T T
x = x 1 T x 2 T . . . x N T T - - - ( 4 )
v = v 1 T v 2 T . . . v N T T
同时,利用长度为75ms的带噪语音信号通过短时平均计算互相关矩阵Ryy
Ryy=E{yyT}        (5)
其中,E{·}是求期望算子,[·]T是转置算子,Ryy的阶数为NL×NL。
步骤S2:计算当前帧的后验信噪比(Signal-to-Noise Ratio,SNR)γ:
γ = 10 · log R yy ( 1,1 ) R ^ vv , k - 1 ( 1,1 ) - - - ( 6 )
其中,log{·}是求自然对数算子,是前一帧中加性噪声互相关矩阵中第1行第1列元素的估计。
步骤S3:利用噪声估计算法,例如语音激活检测(Voice ActivityDetection,VAD)方法,更新加性噪声互相关矩阵的估计具体包括:
根据有声段的SNR的下限阈值γth,更新加性噪声互相关矩阵的估计值如下:
R ^ vv , k = R ^ vv , k - 1 if γ k > γ th 0.98 · R ^ vv , k - 1 + R yy else - - - ( 7 )
其中,γth为SNR的下限阈值,γk为第k帧的SNR;所述是前一帧的加性噪声互相关矩阵的估计值,Ryy是当前帧的带噪语音的互相关矩阵,k是帧号。
步骤S4:利用麦克风间纯净语音互相关矩阵F范数的概率密度分布模型,估计信号子空间的维度具体包括:
步骤S41:初步估计纯净语音的互相关矩阵并进行特征值分解(EVD),获得特征值和特征向量其中,q=1,2,...,NL;具体包括:
步骤S411:利用步骤S12中带噪语音互相关矩阵Ryy和步骤S3中加性噪声的互相关矩阵估计纯净语音的互相关矩阵如下:
R ^ xx = R yy - R ^ vv , k - - - ( 8 )
步骤S412:对进行特征值分解(EVD),得到特征值集合 λ ^ x , q ( q = 1,2 , . . . , NL ) 和特征向量集合 b ^ x , q ( q = 1,2 , . . . , NL ) .
步骤S42:计算当前帧的纯净语音互相关矩阵的拒绝水平δ,并计算相对应的F范数阈值。具体步骤如下:
步骤S421:利用广义超高斯分布模型来拟合纯净语音离散傅里叶变换DFT系数幅值的统计柱状图,以得到纯净语音离散傅里叶变换DFT系数幅值的超高斯分布模型。
其中,所述纯净语音离散傅里叶变换DFT系数幅值的超高斯分布模型定义为:
p ( α x ) = η θ + 1 Γ ( θ + 1 ) α x θ σ x θ + 1 exp { - η α x σ x } - - - ( 9 )
其中,θ和η是可调参数,αx是纯净语音离散傅里叶变换DFT系数的幅值,σx是纯净语音的标准差,Γ是Gamma函数,exp{·}是指数算子。
本发明的一个实施例中通过1小时的纯净语音数据训练得到纯净语音DFT系数幅值的统计柱状图po。并通过将超高斯分布模型和纯净语音DFT系数幅值的统计柱状图之间的Kullback-Leibler距离(Kullback-LeiblerDivergence,KLD)最小化,得到最佳参数组合(θ,η)。其中,KLD J(αx:o)可如下计算:
J ( α x : o ) = ∫ 0 M ( p o ( m ) - p α x ( m ) ) log ( p o ( m ) p α x ( m ) ) dm - - - ( 10 )
其中,po(m)是纯净语音DFT系数幅值的统计柱状图,是所述纯净语音离散傅里叶变换DFT系数幅值的超高斯分布模型,log{·}是求自然对数算子,m是纯净语音DFT系数幅值的统计柱状图中纯净语音DFT系数幅值的可能值,其取值范围从0到M。
通过在纯净语音DFT的每个频点上最小化(10)式,我们可以得到每个频点上纯净语音DFT系数幅值的超高斯分布参数θ和η,也就是说,得到公式(9)表示的纯净语音离散傅里叶变换DFT系数幅值的超高斯分布模型的精确表达。
步骤S422:推导麦克风间互相关矩阵(也称作全局互相关矩阵)F范数与单通道纯净语音DFT系数幅值的函数关系。
由于不同麦克风的自功率谱矩阵具有相等的F范数,同时,不同组合的麦克风间的互相关矩阵的F范数相等,但小于自相关矩阵的F范数。那么可以得到每一个自/互相关矩阵的F范数为:
| | R xx , ij | | f = | | R xx , 11 | | f , ifi = j β 1 | | R xx , 11 | | f , else - - - ( 11 )
其中,Rxx,11是第一个麦克风的自相关矩阵,||·||f是矩阵F范数算子,β1是麦克风间相关系数。
那么全局纯净语音互相关矩阵的F范数可如下计算:
| | R xx | | f = Σ i , j = 1 N | | R xx , ij | | f 2
= N ( N - 1 ) β 1 + N | | R xx , 11 | | f
= [ N ( N - 1 ) β 1 + N ] L · Σ ω = 0 L - 1 R xx , 11 2 ( ω ) - - - ( 12 )
= β 2 Σ ω = 0 L - 1 α x 4 ( ω )
其中,∑{·}是求和算子,αx(ω)是在长为L的纯净语音DFT系数中频点ω处的幅值, β 2 = [ N ( N - 1 ) β 1 + N ] L .
步骤S423:利用步骤S421中所述纯净语音DFT系数幅值的超高斯分布模型和步骤S423中推导得出的麦克风间互相关矩阵F范数表示的麦克风间的相关性,获得纯净语音互相关矩阵F范数的概率密度分布模型,并用高斯分布拟合。具体过程如下:
首先,为简化表达,定义fx=||Rxx||f。那么,fx的概率密度分布函数p(fx)可以由(8)式中的p(αx(ω))结合(11)式得到。但此计算的变量太多,难以得到清晰的解析解。马尔柯夫链蒙特卡洛(Markov chain Monte Carlo,MCMC)方法恰到好处地用来计算p(fx)的统计解。通过MCMC算法产生1,000,000个服从p(αx(ω))分布的观测值,从而得到相同数量的fx计算结果。然后,为清晰的描述此分布,本发明将fx对应到对数域内,即定义flog=log10fx。从而获得了对数域上的统计柱状图。flog的统计柱状图具有明显的高斯特性,因此本发明利用高斯分布来拟合flog的统计柱状图,得到纯净语音互相关矩阵F范数的高斯分布模型pk(flog):
p k ( f log ) = 1 π σ log exp { - ( f log - μ ^ log ( k ) ) 2 σ log 2 } - - - ( 13 )
其中,flog是多通道纯净语音互相关矩阵Rxx的F范数的对数,σlog是flog高斯分布模型的方差,π是圆周率,k表示当前帧号,是数学期望,如下计算:
μ ^ log ( k ) = mean { log | | R ^ xx ( k ) | | f , . . . , log | | R ^ xx ( k - D + 1 ) | | f } - - - ( 14 )
其中,log{·}是取对数算子,||·||f是取F范数算子,mean{·}是取均值算法,D是取均值的帧数,是对纯净语音互相关矩阵Rxx的初步估计。步骤S424:计算当前帧语音互相关矩阵的拒绝水平δ,其利用了步骤S2估计的SNRγ。方法如下:
&delta; = &delta; max for &gamma; < &gamma; min &delta; max - &delta; min 10 &gamma; max 10 - 10 &gamma; min 10 for &gamma; min &le; &gamma; &le; &gamma; max &delta; min for &gamma; > &gamma; max - - - ( 15 )
其中,γmax=10dB,γmin=-10dB,δmax=0.5,δmin=0.05。
步骤S425:利用(13)式获得当前帧的纯净语音互相关矩阵F范数的高斯分布,并利用(15)给定的阈值,解下面的方程,获得F范数的上限阈值fδ:
&Integral; f &delta; + &infin; p k ( f log ) df log = &delta; - - - ( 16 )
其中,δ是拒绝水平,pk(flog)是F范数的高斯分布模型。
步骤S43:利用最大化估计器来估计信号子空间维度。具体为:
基于信号子空间应尽可能最大限度地包含所有语音信息的估计策略,利用最大化信号子空间维度估计器从过估计的方向逼近真实维度,并基于如下考虑:由于信号子空间维度的过估计所带来的残留噪声可以被滤波器部分消除,而低估计引起的语音畸变却难以修复。因此,信号子空间的维度可如下估计:
Q ^ = arg max 1 &le; q &le; NL { 1 2 log ( &Sigma; i = 1 q &lambda; ^ x , i 2 ) &le; f &delta; } - - - ( 17 )
其中,表示对进行特征值分解(EVD)后得到的第i个特征值,argmax{·}是取最大值坐标的算法,∑[·]是有限范围求和算子,q为在1到NL之间取值的整数。
步骤S5:对进行广义特征值分解(GEVD),并结合信号子空间的维度和拉格朗日乘子μ设计时域约束(Time Domain Constraint,TDC)线性信号估计器,具体包括:
步骤S51:设计TDC线性信号估计器。具体包括:
步骤S51:对进行广义特征值分解GEVD:
利用步骤S3中加性噪声互相关矩阵和步骤S411中纯净语音互相关矩阵进行矩阵乘法运算,得到
R ^ vx = R ^ vv - 1 R ^ xx - - - ( 18 )
进行广义特征值分解GEVD,得到特征向量矩阵W和特征值矩阵Λ。
步骤S52:利用步骤S2中得到的SNR计算拉格朗日乘子μ,如下:
&mu; = 5 for &gamma; &le; - 5 dB 4.2 - &gamma; 6.25 for - 5 dB < &gamma; < 20 dB 1 for &gamma; &GreaterEqual; 20 dB - - - ( 19 )
步骤S53:设计TDC线性信号估计器:
计算阶增益矩阵GTDC,其每个元素可如下获得:
g TDC , i = &lambda; xv , i &lambda; xv , i + &mu; , for i = 1,2 , . . . , Q ^ - - - ( 20 )
其中,λxv,i是对进行广义特征值分解GEVD后得到的第i个特征值,μ是拉格朗日乘子。
按照TDC规则生成线性信号估计器,如下:
H = UW 1 G TDC W 1 T - - - ( 21 )
其中,矩阵W1是特征向量矩阵W中的前个特征向量组成的列满秩矩阵,U=[IL×L0L×L…0L×L]是L×NL的矩阵,IL×L是L阶单位阵。
步骤S6:利用TDC线性信号估计器对多路语音信号y(t)进行滤波,如下式所示:
x ^ ( t ) = Hy ( t ) - - - ( 22 )
步骤S7:对滤波后语音信号进行帧间重叠获得增强后语音,其中重叠率为75%。
本发明的实施例使用卡内基美隆大学(Carnegie Mellon University,CMU)语音数据库中的8通道的阵列信号(10个说话人,每人13句话)中进行了测试。SNR大约在-6dB左右,采样率fs为8KHz。采用oSNR,LLR和PESQ作为语音增强算法的客观评价性能指标。对比试验表明所提算法可以更精确地估计信号子空间的维度,在噪声消除和语音畸变之间进行更好的折中,从而得到了最高的PESQ得分。
表1在CMU阵列数据库(inputSNR≈-6dB)下的算法性能
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种F范数表征信号子空间维度的多通道语音增强方法,其特征在于,包括下列步骤:
步骤1:通过N个麦克风组成的麦克风阵列采集带噪声的多路语音信号y(t),并计算该多路语音信号y(t)的带噪语音互相关矩阵Ryy,其中,t表示离散时间点;
步骤2:利用噪声估计算法估计加性噪声互相关矩阵
步骤3:利用所述带噪语音互相关矩阵Ryy和加性噪声互相关矩阵估计纯净语音互相关矩阵
步骤4:利用所述纯净语音互相关矩阵估计信号子空间的维度
步骤5:对进行广义特征值分解,并结合信号子空间的维度和拉格朗日乘子μ获得时域约束线性信号估计器;
步骤6:利用时域约束线性信号估计器对多路语音信号y(t)进行滤波获得增强后的语音
其中,步骤4中所述估计信号子空间的维度具体包括:
步骤41:计算纯净语音离散傅里叶变换系数幅值的超高斯分布模型:
p ( &alpha; x ) = &eta; &theta; + 1 &Gamma; ( &theta; + 1 ) &alpha; x &theta; &sigma; x &theta; + 1 exp { - &eta; &alpha; x &sigma; x }
其中,θ和η是可调参数,αx是纯净语音离散傅里叶变换系数的幅值,σx是纯净语音的标准差,Γ是Gamma函数,exp{·}是指数算子;
步骤42:利用所述纯净语音离散傅里叶变换系数幅值的超高斯分布模型获得纯净语音互相关矩阵的F范数:
| | R xx | | f = &beta; 2 &Sigma; &omega; = 0 L - 1 &alpha; x 4 ( &omega; )
其中,∑{·}是求和算子,αx(ω)是纯净语音在频点ω处的离散傅里叶变换系数的幅值, &beta; 2 = [ N ( N - 1 ) &beta; 1 + N ] L
步骤43:获取纯净语音互相关矩阵F范数的高斯分布模型:
p k ( f log ) = 1 &pi; &sigma; log exp { - ( f log - &mu; ^ log ( k ) ) 2 &sigma; log 2 }
其中,flog是纯净语音互相关矩阵Rxx的F范数的对数,即fx=||Rxx||f,flog=log10fx,σlog是flog高斯分布模型的方差,π是圆周率,k表示当前帧号,是数学期望,如下计算:
&mu; ^ log ( k ) = mean { log | | R ^ xx ( k ) | | f , &CenterDot; &CenterDot; &CenterDot; , log | | R ^ xx ( k - D + 1 ) | | f }
其中,log{·}是取对数算子,||·||f是取F范数算子,mean{·}是取均值算法,D是取均值的帧数;
步骤44:估计信号子空间维度
Q ^ = arg max 1 &le; q &le; NL { 1 2 log ( &Sigma; i = 1 q &lambda; ^ x , i 2 ) &le; f &delta; }
其中,表示对纯净语音互相关矩阵的估计进行特征值分解(EVD)得到的第i个特征值,q为在1到NL之间取值的整数,argmax{·}是取最大值坐标的算法,∑[·]是有限范围求和算子,fδ是当前高斯分布模型下flog的上限阈值,如下计算:
&Integral; f &delta; + &infin; p k ( f log ) df log = &delta;
其中,δ是纯净语音互相关矩阵的估计的拒绝水平,pk(flog)是所述纯净语音互相关矩阵F范数的高斯分布模型;
所述步骤5具体包括以下内容:
步骤51、对进行广义特征值分解(GEVD),得到特征向量矩阵W和特征值矩阵Λ:
步骤52、利用信噪比SNRγ计算拉格朗日乘子μ:
&mu; = 5 for &gamma; &le; - 5 dB 4.2 - &gamma; 6.25 for - 5 dB < &gamma; < 20 dB 1 for &gamma; &GreaterEqual; 20 dB
步骤S53、生成TDC线性信号估计器:
H = UW 1 G TDC W 1 T
其中,矩阵W1是前个特征向量组成的列满秩矩阵,U=[IL×L 0L×L … 0L×L]是L×NL的矩阵,IL×L是L阶单位阵,GTDC阶增益矩阵GTDC,其每个元素如下计算:
g TDC , i = &lambda; xv , i &lambda; xv , i + &mu; , fori = 1,2 , . . . , Q ^
其中,λxv,i是对进行广义特征值分解(GEVD)后得到的第i个特征值,μ是拉格朗日乘子。
2.如权利要求1所述的方法,其特征在于,所述麦克风阵列由N个等间距的麦克风组成,利用长为L的汉宁窗对语音信号进行截短,所述带噪语音互相关矩阵Ryy的阶数为NL×NL。
3.如权利要求1所述的方法,其特征在于,所述步骤2中加性噪声互相关矩阵的估计通过下式得到:
R ^ vv , k = R ^ vv , k - 1 if&gamma; k > &gamma; th 0.98 &CenterDot; R ^ vv , k - 1 + R yy else
其中,γth为SNR的下限阈值,γk为第k帧的SNR;所述是前一帧加性噪声互相关矩阵的估计,Ryy是当前帧带噪语音互相关矩阵,k是帧号。
4.如权利要求1所述的方法,其特征在于,所述步骤41还包括:
利用纯净语音数据训练得到纯净语音离散傅里叶变换系数幅值的统计柱状图po
通过将所述纯净语音离散傅里叶变换系数幅值的超高斯分布模型和纯净语音离散傅里叶变换系数幅值的统计柱状图po之间的KLD距离最小化,得到最佳参数组合(θ,η),其中,KLD距离如下计算:
J ( &alpha; x : o ) = &Integral; 0 M ( p o ( m ) - p &alpha; x ( m ) ) log ( p o ( m ) p &alpha; x ( m ) ) dm
其中,是所述纯净语音离散傅里叶变换DFT系数幅值的超高斯分布模型,po是纯净语音离散傅里叶变换系数幅值的统计柱状图,log{·}是求自然对数算子,m是纯净语音DFT系数幅值的统计柱状图中纯净语音DFT系数幅值的可能值,其取值范围从0到M。
5.如权利要求1所述的方法,其特征在于,所述当前帧语音互相关矩阵的拒绝水平δ如下计算:
&delta; = &delta; max for &gamma; < &gamma; min &delta; max - &delta; min 10 &gamma; max 10 - 10 &gamma; min 10 &CenterDot; ( 10 &gamma; max 10 - 10 &gamma; 10 ) for &gamma; min &le; &gamma; &le; &gamma; max &delta; min for &gamma; > &gamma; max
其中,γmax=10dB,γmin=-10dB,δmax=0.5,δmin=0.05,γ为当前帧的后验信噪比SNR。
6.如权利要求3-5中任一项所述的方法,其特征在于,所述当前帧的后验信噪比SNRγ如下计算:
&gamma; = 10 &CenterDot; log R yy ( 1,1 ) R ^ vv , k - 1 ( 1,1 )
其中,log{·}是求自然对数算子,是前一帧加性噪声互相关矩阵中第1行第1列元素的估计。
7.如权利要求1所述的方法,其特征在于,所述步骤6具体为:利用所述TDC线性信号估计器H对所述多路语音信号y(t)进行滤波,并对得到的滤波后的语音信号进行帧间重叠获得增强后语音,其中滤波如下公式所示:
x ^ ( t ) = Hy ( t ) .
8.如权利要求1所述的方法,其特征在于,所述步骤3中纯净语音互相关矩阵如下估计:
R ^ xx = R yy - R ^ vv , k .
CN201210514867.XA 2012-12-04 2012-12-04 一种多通道语音增强方法 Active CN102969000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210514867.XA CN102969000B (zh) 2012-12-04 2012-12-04 一种多通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210514867.XA CN102969000B (zh) 2012-12-04 2012-12-04 一种多通道语音增强方法

Publications (2)

Publication Number Publication Date
CN102969000A CN102969000A (zh) 2013-03-13
CN102969000B true CN102969000B (zh) 2014-10-22

Family

ID=47799102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210514867.XA Active CN102969000B (zh) 2012-12-04 2012-12-04 一种多通道语音增强方法

Country Status (1)

Country Link
CN (1) CN102969000B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575511B (zh) * 2013-10-22 2019-05-10 陈卓 语音增强方法及装置
CN103986498B (zh) * 2014-05-14 2016-04-27 北京理工大学 一种基于图论的伪随机码优化方法
CN104952459B (zh) * 2015-04-29 2018-05-15 大连理工大学 一种基于分布式一致性和mvdr波束形成的分布式语音增强方法
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
CN110782911A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 音频信号处理方法、装置、设备和存储介质
CN109036452A (zh) * 2018-09-05 2018-12-18 北京邮电大学 一种语音信息处理方法、装置、电子设备及存储介质
CN111081269B (zh) * 2018-10-19 2022-06-14 中国移动通信集团浙江有限公司 通话过程中的噪声检测方法及系统
CN111863003B (zh) * 2020-07-24 2022-04-15 思必驰科技股份有限公司 语音数据增强方法和装置
CN112037825B (zh) * 2020-08-10 2022-09-27 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN113409804B (zh) * 2020-12-22 2024-08-09 声耕智能科技(西安)研究院有限公司 一种基于变张成广义子空间的多通道频域语音增强算法
CN113257270B (zh) * 2021-05-10 2022-07-15 中国科学技术大学 一种基于参考麦克风优化的多通道语音增强方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009086017A1 (en) * 2007-12-19 2009-07-09 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
CN101777349A (zh) * 2009-12-08 2010-07-14 中国科学院自动化研究所 基于听觉感知特性的信号子空间麦克风阵列语音增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009086017A1 (en) * 2007-12-19 2009-07-09 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
CN101777349A (zh) * 2009-12-08 2010-07-14 中国科学院自动化研究所 基于听觉感知特性的信号子空间麦克风阵列语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于F范数的信号子空间维度估计的多通道语音增强算法》;李超;《声学学报》;20110731;第36卷(第4期);文章第452页左栏第3段至455页左栏倒数第3段 *
李超.《基于F范数的信号子空间维度估计的多通道语音增强算法》.《声学学报》.2011,第36卷(第4期),451-460.

Also Published As

Publication number Publication date
CN102969000A (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
CN102969000B (zh) 一种多通道语音增强方法
CN106340292B (zh) 一种基于连续噪声估计的语音增强方法
Inoue et al. Theoretical analysis of musical noise in generalized spectral subtraction based on higher order statistics
US20150340027A1 (en) Voice recognition system
Huang et al. An energy-constrained signal subspace method for speech enhancement and recognition in white and colored noises
Mowlaee et al. On phase importance in parameter estimation in single-channel speech enhancement
Miyazaki et al. Musical-noise-free blind speech extraction integrating microphone array and iterative spectral subtraction
Saleem et al. Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Saleem et al. Deep neural network based supervised speech enhancement in speech-babble noise
Elshamy et al. An iterative speech model-based a priori SNR estimator
Wang et al. Improving denoising auto-encoder based speech enhancement with the speech parameter generation algorithm
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
Nower et al. Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement
Bao et al. Noise masking method based on an effective ratio mask estimation in Gammatone channels
Bavkar et al. PCA based single channel speech enhancement method for highly noisy environment
Meutzner et al. A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition
Jamal et al. A hybrid approach for single channel speech enhancement using deep neural network and harmonic regeneration noise reduction
Liu et al. Speech enhancement of instantaneous amplitude and phase for applications in noisy reverberant environments
López-Espejo et al. Unscented transform-based dual-channel noise estimation: Application to speech enhancement on smartphones
Miyazaki et al. Musical-noise-free blind speech extraction using ICA-based noise estimation and iterative spectral subtraction
Saleem et al. Regularized sparse decomposition model for speech enhancement via convex distortion measure
Joshi et al. Enhanced denoising auto-encoder for robust speech recognition in unseen noise conditions
Nower et al. Restoration of instantaneous amplitude and phase using Kalman filter for speech enhancement
Hepsiba et al. Computational intelligence for speech enhancement using deep neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant