CN105741849A

CN105741849A - 数字助听器中融合相位估计与人耳听觉特性的语音增强方法

Info

Publication number: CN105741849A
Application number: CN201610125876.8A
Authority: CN
Inventors: 李如玮; 王帅
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-03-06
Filing date: 2016-03-06
Publication date: 2016-07-06
Anticipated expiration: 2036-03-06
Also published as: CN105741849B

Abstract

本发明公开数字助听器中融合相位估计与人耳听觉特性的语音增强方法，该方法首先通过傅里叶变换得到含噪语音的频域表达式；采用最小值控制递归平均方法获得噪声功率谱；获得初步增强语音和噪声的幅度谱；通过可改善低信噪比环境下语音失真的相位估计来修正语音和噪声的相位，获得初步增强语音和噪声；其次，将初步增强语音和噪声分别通过模拟人工耳蜗工作机理的gammatone滤波器组，进行滤波处理，对其时频分析，得到有时频单元组成的时频表示形式；最后，利用人耳的听觉特性，计算含噪语音在时频域的二值掩蔽，利用掩蔽值合成得到增强后的语音。该方法结合了人耳听觉特性，使数字助听器的输出语音信号的质量得到了很大的提高。

Description

数字助听器中融合相位估计与人耳听觉特性的语音增强方法

技术领域

本发明属于语音信号处理技术领域，涉及到数字助听器中相位估计，语音增强两个语音信号处理技术。

背景技术

语言是人类相互沟通信息的重要工具。然而随着社会的不断发展，人们对信息需求越来越来高，耳聋阻碍着人类正常的信息交流，据统计，我国现有听力残疾人约2780万，其中，0至6岁听障儿童约13.7万，且每年以2.3万的数量递增。这是一个数量众多、困难突出的社会群体，听力损伤与耳聋已成为影响我国人口素质的重要因素之一。随着科技的进步，助听器越来越被人们重视，目前的医疗条件下使用助听器是听力患者克服听力障碍的主要方式。随着科学技术的发展，助听器技术也得到了不断地的提高和细化。数字助听器以数字信号处理器为核心，数字信号处理器的强大之处在于有着自适应、高信噪比、动态调整增益等功能。数字信号处理技术前所未有的优势给听力障碍患者带来了希望。与传统的模拟式助听器相比，数字助听器将声音分为多个频段，灵活划分频段，分别对其进行调试，选配更加灵活，解决了普通助听器难以克服的难题。并且数字助听器更具优势的是其灵活的算法，整体上摆脱了模拟电路固定化的算法制约，使其能够更加准确而又迅速的处理声源信号，更好的完成既定目标。可以说借着数字集成电路及数字信号处理技术的发展，数字助听器得到了迅速发展。

数字助听器的基本工作原理，如图2所示。首先，数字助听器主要有麦克风，A/D转化器、数字信号处理芯片、D/A转化器和扬声器5部分组成。外界的声音信号经麦克风进行采集，麦克风将外界的声音信号转换成模拟信号，然后，通过数字助听器中内置的放大器将信号进行放大，接着通过A/D转换器，将模拟信号转换为数字信号。在经过数字信号处理芯片对含噪语音信号进行处理，接着将处理后的数字信号再通过D/A转换器，将处理后的数字信号转换为模拟信号，最后在经过放大输出至佩戴者耳中。

在整个数字助听器工作过程中，数字信号处理芯片中的算法是数字助听器的核心内容。通过语音处理算法提高语音的信噪比，改变语音的频谱分布，使语音能让患者感知到；自动适应环境，有效降低噪声，提高言语的清晰度；模仿人类正常耳蜗功能，提高患者对不同声音环境的适应性。

如何在保证可懂度的情况下尽可能的降低噪声是数字助听器设计的一大难题。目前数字助听器大多采用的语音增强算法都是基于短时谱估计的语音增强算法。该类方法与其他方法相比，其原理简单，易于在硬件系统上实现。虽然这类算法在实际应用中具备一定的优势，但是此类算法在增强之后会残留一定的“音乐噪声”，会严重影响语音信号的清晰度和可懂度，造成语音信号的部分频率成分的丢失和失真。在保证语音可懂度的情况下降低背景噪声对提高数字助听器的性能具有重大意义。现实生活中，人们需要实时的进行沟通交流，数字助听器也需要很高的实时处理性，这就对数字助听器的算法提出了一定特殊要求，算法的低复杂度，低功耗，高效实时性等等。使耳障患者不仅有对言语可懂度的提高也具备一定的听觉舒适度。

本发明提出一种相位估计、语音增强与人耳听觉特性相结合的数字助听器方法，该方法利用了人耳的听觉掩蔽特性，结合相位估计和人耳听觉特性的优点，首先，通过傅里叶变换得到含噪语音的频域表达式；接着，采用最小值控制递归平均方法获得噪声功率谱；然后，通过对数幅度谱估计，得到增强语音和噪声的幅度谱增益函数，获得初步增强语音和噪声；其次，将初步增强语音和噪声分别通过模拟人工耳蜗工作机理的gammatonel滤波器组，对其进行时频分析，得到有时频单元组成的时频表示形式；然后，利用人耳的听觉特性，计算含噪语音在时频域的二值掩蔽；最后，利用语音合成得到增强后的语音。

发明内容

本发明针对现有数字助听器中语音增强算法在非平稳的外界噪声环境下，尤其是在低信噪比环境下，残留大量的背景噪声，还引入了“音乐噪声”，影响语音信号的清晰度，造成语音信号的部分频率成分的丢失和失真，致使数字助听器佩戴者对言语可懂度和舒适度不理想等问题，提出了一种相位估计、语音增强与人耳听觉特性相结合的数字助听器方法，该方法利用了人耳的听觉掩蔽特性，结合相位估计和人耳听觉特性的优点，能够有效的去除大量“音乐噪声”，克服了低信噪比环境下语音失真大等问题，改善了语音的质量，使输出语音信号的信噪比和可懂度都得到了较大的提高。

为了解决以上所述的问题，本发明采用的技术方案是：通过对数幅度谱估计和语音相位估计修正初步增强语音的相位，获得较为准确的语音信号和噪声，接着通过基于可以模拟人耳听觉特性，能对人耳基底膜进行仿真的gammatone滤波器组，对语音信号和噪声进行时频分析，计算二值掩蔽，利用了人耳听觉感知理论，结合了人耳听觉掩蔽特性。具体过程包括步骤如下：

步骤一，数字助听器的输入信号进行预处理，首先对输入信号进行去均值、归一化、预加重、分帧、加窗处理；

步骤二，通过傅里叶变换计算出含噪语音信号的频谱；

步骤三，通过最小值控制递归平均算法，计算出含噪语音信号中的噪声分量即噪声功率；

步骤四，通过估计出来的噪声功率得到后验信噪比，利用判决引导法得到先验信噪比；

步骤五，通过先验信噪比和后验信噪比得出对数幅度谱估计器增益函数，利用对数幅度谱估计器从含噪语音中得到初步增强的语音信号的幅度谱；

步骤六，根据语音和噪声频谱的统计模型的对称性得到用先验信噪比倒数形式表示的噪声频谱估计值，推导出噪声的增益函数，进而从含噪语音中得到噪声信号的幅度谱；

步骤七，相位估计，利用噪声相位和步骤五、步骤六得到的语音信号幅度谱和噪声幅度谱估计出其相位修正值，得到语音信号和噪声的相位；

步骤八，进行傅里叶逆变换，将初步增强的语音信号幅度谱和噪声幅度谱，乘以从步骤七中修正后的相位，然后通过傅里叶逆变换分别得到初步增强的语音信号和噪声信号；

步骤九，时频处理，利用人耳听觉感知理论，结合人耳的听觉特性和耳蜗的工作机理，将初步增强的语音信号和噪声信号分别通过可以模拟人工耳蜗模型的gammatone滤波器组进行滤波处理，将其频谱范围非均匀地分为N个频带，得到由时频单元组成的时频表达形式；

步骤十，利用人耳的听觉掩蔽特性，计算出含噪语音在时频域的二值掩蔽；

步骤十一，时频掩蔽，利用步骤十得到的掩蔽值得到最终的输出信号。

有益效果

本发明提出一种相位估计、语音增强与人耳听觉特性相结合的数字助听器算法，该算法利用了人耳的听觉掩蔽特性，结合相位估计和人耳听觉特性的优点，首先，通过傅里叶变换得到含噪语音的频域表达式；接着，采用最小值控制递归平均算法获得噪声功率谱；然后，通过对数幅度谱估计，得到增强语音和噪声的幅度谱增益函数，获得初步增强语音和噪声的幅度谱；然后通过可改善低信噪比环境下语音失真的相位估计算法修正增强语音和噪声的相位，从而获得初步增强语音和噪声；其次，将初步增强语音和噪声分别通过模拟人工耳蜗工作机理的gammatonel滤波器组，进行滤波处理，对其时频分析，得到有时频单元组成的时频表示形式；然后，利用人耳的听觉特性，计算含噪语音在时频域的二值掩蔽；最后，利用掩蔽值合成得到增强后的语音。该方法利用了低信噪比环境下修正语音相位可减少语音失真和对数幅度谱估计提高听觉舒适度的特点，结合了人耳听觉特性，保留了语音特征，使数字助听器的输出语音信号的质量得到了很大的提高。

附图说明

图1本发明的实现流程图。

图2数字助听器工作原理框图。

图3gammatone滤波器组中各个滤波器的频响。

具体实施方式

步骤一，对数字助听器的输入信号进行预处理，即去均值、归一化、预加重、分帧、加窗；

数字助听器的模拟输入信号x(t)，在模/数转换过程中，采样率为16kHz的采样率，转换后的数字信号为x(n)，n表示时域的序列号；为了消除直流分量，采用去均值；避免因为输入输出数据数量级差别较大而造成较大误差，对数据进行归一化；由于语音信号的高频段能量小，造成高频传输衰弱，预加重针对高频部分进行加重，提高信号传输质量。去均值公式如式(1)，归一化公式如式(2)，预加重公式如式(3)所示。

x₁(n)＝x(n)-mean(x(n))(1)

式中，n为样点数，mean(x(n))是x(n)序列的平均值，x₁(n)是去均值后的信号。

x_{2} (n) = \frac{x_{1} (n) - x_{m i n}}{x_{\max} - x_{m i n}} - - - (2)

式中，n为样点数，x_max是x(n)序列的最大值，x_min是x(n)序列的最小值，x₂(n)是归一化后的信号。

x₃(n)＝x₂(n)-a×x₂(n-1)(3)

式中，n为样点数，a是系数，这里取0.9375，x₃(n)是预加重之后的信号。

利用哈明窗对x₃(n)进行分帧、加窗，根据语音信号的短时平稳特性，取20ms为一帧的长度，帧移长度为10ms，哈明窗函数定义如式(4)，分帧、加窗定义如式(5)所示。

式中，n为样点数，w(n)是哈明窗函数，L为窗长。

y(n)＝x₃(n)×w(n)0≤n≤L-1(5)

式中，n为样点数，y(n)是分帧、加窗后的信号，x₃(n)是预加重之后的信号，w(n)是哈明窗函数。

步骤二，通过傅里叶变换计算出含噪语音信号的频谱Y(λ,k)，对每帧含噪语音信号进行2N点离散傅立叶变换傅里叶变换得到每帧含噪语音信号的频谱，如式(6)所示；

Y (λ, k) = \frac{1}{2 N} Σ_{n = 0}^{2 N - 1} y (λ, n) e^{- j \frac{2 π k n}{2 N}}, k = 0, 1, 2, ..., 2 N - 1 - - - (6)

式(6)中Y(λ,k)表示第λ帧在频点为k处的频谱，k表示频域的序列号；

带噪语音信号频谱Y(λ,k)表示为复指数形式为：

|Y(λ,k)|、|X(λ,k)|、|D(λ,k)|分别代表带噪语音、纯净语音、噪声分量的谱幅度，表示第λ帧频域第k个频谱分量的相位。

步骤三，通过最小值控制递归平均算法，估计出含噪语音信号中的噪声功率谱

本发明中噪声估计采用最小值控制递归平均算法，该方法利用无语音段来更新噪声估计，有语音段则保持不变，考虑了语音存在概率，能够实时跟踪快速变化的噪声，具有较好的鲁棒性，利于减小信号的失真。

噪声功率的估计基于公式(7)以下两个略作修改的假设：

\{\begin{matrix} H_{0}^{k} : \hat{D^{2}} (λ, k) = α (λ - 1, k) + (1 - α) {| Y (λ, k) |}^{2} \\ H_{1}^{k} : \hat{D^{2}} (λ, k) = \hat{D^{2}} (λ - 1, k) \end{matrix} - - - (7)

其中，表示语音不存在，表示语音存在，λ表示分帧后帧信号的序列号，k表示离散频率点的序列号,表示当前分析的第λ帧在频率点k处的噪声估计功率谱。α是一个固定值，0到1的取值范围，在本发明中取为0.97；|Y(λ,k)²表示当前分析的第λ帧在频率点k处含噪语音信号的功率谱。

噪声功率谱密度的均方估计表示如公式(8)：

\begin{matrix} {\hat{D}}^{2} (λ, k) = E [{\hat{D}}^{2} (λ, k) | Y (λ, k)] \\ = [{\hat{D}}^{2} (λ, k) | H_{0}] p (H_{0} | Y (λ, k)) + [{\hat{D}}^{2} (λ, k) | H_{1}] p (H_{1} | Y (λ, k)) \end{matrix} - - - (8)

基于公式(7)的两个假设，可以将表示为式(9)

{\hat{D}}^{2} (λ, k) = α_{d} (λ, k) {\hat{D}}^{2} (λ - 1, k) + (1 - α_{d} (λ, k)) {| Y (λ, k) |}^{2} - - - (9)

其中α_d(λ,k)＝α+(1-α)p(λ,k)其取值范围为α≤α_d(λ,k)≤1，需要计算所需的p(λ,k)以估计平滑因子α_d(λ,k),各频点存在语音的概率p(λ,k)通过带噪语音功率谱与其局部最小值之比来计算。带噪语音功率谱密度的平滑估计计算如下：

S(λ,k)＝α_dS(λ-1)+(1-α_s)S_f(λ,k)(10)

其中为α_s平滑因子本发明中取0.6，其中为窗函数，窗长为2L_w+1，局部最小值S_min(λ,k)通过在一个D帧的固定窗口长度上，通过与过去每一个S(λ,k)值进行对比得到，平滑的语音功率谱S(λ,k)与其局部最小值S_min(λ,k)之比表示为：将该比值与一阈值δ进行比较得到频谱上存在语音的区域：

ifS_r(λ,k)≥δ

P(λ,k)＝1语音存在

else

p(λ,k)＝0语音不存在

end

语音的存在概率通过下面的递归公式(11),在时间上进行平滑，计算出语音存在概率p(λ,k)

\hat{p} (λ, k) = α_{p} \hat{p} (λ - 1, k) + (1 - α_{p}) p (λ, k) - - - (11)

最后，将其代入公式中得到估计噪声功率谱

步骤四，通过步骤三估计出来的噪声功率得到后验信噪比γ_k，如式所示，利用判决引导法得到先验信噪比ξ_k；判决引导法它是基于ξ_k的定义及其后验信噪比γ_k的关系，ξ_k的更新是根据上一次的幅度估计的信息，算法如式(12)所示：

ξ_{k} (n) = α \frac{\hat{{X_{k}}^{2}} (n - 1)}{λ_{d} (K, n - 1)} - (1 - α) m a x [γ_{k} (n) - 1, 0] - - - (12)

其中表示后验信噪比，

步骤五，通过先验信噪比ξ_k和后验信噪比γ_k得出对数幅度谱估计器增益函数G_LSA(ξ_k,γ_k)，采用公式(13)得到初步增强语音信号的幅度谱；

{\hat{X}}_{k} = \frac{ξ_{k}}{ξ_{k} + 1} \exp {{&Integral;}_{{&upsi;}_{k}}^{\infty} \frac{1}{2} \frac{e^{- t}}{t} d t} Y_{k} - - - (13)

其中

{&upsi;}_{k} = \frac{ξ_{k}}{1 + ξ_{k}} γ_{k}, G_{L S A} (ξ_{k}, γ_{k}) = \frac{ξ_{k}}{ξ_{k} + 1} \exp {{&Integral;}_{{&upsi;}_{k}}^{\infty} \frac{1}{2} \frac{e^{- t}}{t} d t}

步骤六，根据语音和噪声频谱的统计模型的对称性得到用先验信噪比倒数形式表示的噪声频谱估计值，推导出噪声的增益函数H_LSA(ξ_k,γ_k)，噪声幅度可用公式(14)表示：

| \hat{D} (λ, k) | = H_{L S A} (λ, k) (ξ_{d} (λ, k), γ_{d} (λ, k)) | Y (λ, k) | - - - (14)

其中

ξ_{d} (λ, k) = \frac{λ_{d} (λ, k)}{λ_{x} (λ, k)} = \frac{1}{ξ_{k}}, γ_{d} (λ, k) = \frac{λ_{d} (λ, k)}{{| Y (λ, k) |}^{2}} = \frac{1}{γ_{k}}

将上述两式带入公式(13)可得噪声的幅度谱：

\hat{D_{k}} = \frac{1}{1 + ξ_{k}} \exp {\frac{1}{2} {&Integral;}_{{&upsi;}_{k}^{'}}^{\infty} \frac{e^{- t}}{t} d t} Y_{k} - - - (15)

其中，

{&upsi;}_{k}^{'} = \frac{1}{1 + ξ_{k}} γ_{k}

步骤八，进行傅里叶逆变换，将初步增强的语音信号幅度谱和噪声幅度谱，乘以从步骤七中修正后的语音的相位，然后通过傅里叶逆变换，公式(17)、(18)，分别得到初步增强的语音信号和噪声信号；

x (λ, n) = \frac{1}{2 N} Σ_{k = 0}^{2 N - 1} \hat{X} (λ, k) e^{j \frac{2 π k n}{N}}, n = 0, 1, 2, ..., 2 N - 1 - - - (17)

d (λ, n) = \frac{1}{2 N} Σ_{k = 0}^{2 N - 1} \hat{D} (λ, k) e^{j \frac{2 π k n}{2 N}}, n = 0, 1, 2, ..., 2 N - 1 - - - (18)

步骤九，时频处理，利用人耳听觉感知理论，结合人耳的听觉特性和耳蜗的工作机理，将初步增强的语音信号和噪声信号分别通过模拟人工耳蜗模型的gammatone滤波器组进行滤波处理，将其频谱范围非均匀地分为N个频带，得到由时频单元组成的时频表达形式，使用公式(19)、(20)得到；

Band_x(λ,i,n)＝x(λ,n)*g(n,f(i))i＝1,2,3,…,128(19)

Band_d(λ,i,n)＝d(λ,n)*g(n,f(i))i＝1,2,3,…,128(20)

其中，Band_x(λ,i,n)表示初步增强语音信号x(λ,n)在第λ帧的第i频带的信号，Band_d(λ,i,n)表示估计噪声信号d(λ,n)在第λ帧的第i频带的信号；g(n,f(i))表示gammatone滤波器组，中心频率为f(i)。gammatone滤波器组可模拟耳蜗中的基底膜对输入信号进行滤波，耳蜗对声音的频率分辨率是非均匀的，在80HZ～5000HZ范围，gammatone滤波器组的中心频率内以准对数形式分布，并以等距形带宽的方式均匀地分布在语音信号所占据的频率范围内。gammatone滤波器的脉冲响应如图2所示，具有以下形式：

g (n, f (i)) = \{\begin{matrix} b^{a} (f (i) n^{a - 1} e^{- 2 π b (f (i)) n} c o s (2 π f (i) n)) & \begin{matrix} i f & n &GreaterEqual; 0 \end{matrix} \\ 0 & e l s e \end{matrix} - - - (21)

式中a＝4,表示滤波器的阶数。b(f)表示中心频率为f时的等距形带宽，随着f的增加而变宽。

步骤十，利用人耳的听觉掩蔽特性，计算出含噪语音在时频域的掩蔽值，得到最终的输出信号。理想二值掩蔽是为了保留混合信号中由目标语音主导的声音分量，去除由噪声主导的声音分量，从而实现目标语音信号和噪声信号的分离。首先将混合信号中的初步增强语音和估计噪声信号都分解为时频域二维表示形式，然后，计算出每个时频单元的能量，本发明中利用式(22)计算估计二值掩蔽。

式中，表示初步增强语音信号的能量，表示噪声信号的能量，表示估计的信噪比。如果时频单元内目标语音的能量大于噪声的能量，该时频单元为‘1’，否则为‘0’。

最后将每个频带的时频掩蔽值分别乘以该频带的信号，最后将所有频带相加得到最终的输出信号，如公式(23)。

如图3所示为gammatone滤波器组中各个滤波器的频响。

Claims

1.数字助听器中融合相位估计与人耳听觉特性的语音增强方法，其特征在于：通过对数幅度谱估计和语音相位估计修正初步增强语音的相位，获得较为准确的语音信号和噪声，接着通过基于可以模拟人耳听觉特性，能对人耳基底膜进行仿真的gammatone滤波器组，对语音信号和噪声进行时频分析，计算二值掩蔽，利用了人耳听觉感知理论，结合了人耳听觉掩蔽特性；具体过程包括步骤如下，

步骤二，通过傅里叶变换计算出含噪语音信号的频谱；

2.根据权利要求1所述的数字助听器中融合相位估计与人耳听觉特性的语音增强方法，其特征在于：步骤一，对数字助听器的输入信号进行预处理，即去均值、归一化、预加重、分帧、加窗；

数字助听器的模拟输入信号x(t)，在模/数转换过程中，采样率为16kHz的采样率，转换后的数字信号为x(n)，n表示时域的序列号；为了消除直流分量，采用去均值；避免因为输入输出数据数量级差别较大而造成较大误差，对数据进行归一化；由于语音信号的高频段能量小，造成高频传输衰弱，预加重针对高频部分进行加重，提高信号传输质量；去均值公式如式(1)，归一化公式如式(2)，预加重公式如式(3)所示；

x₁(n)＝x(n)-mean(x(n))(1)

式中，n为样点数，mean(x(n))是x(n)序列的平均值，x₁(n)是去均值后的信号；

x_{2} (n) = \frac{x_{1} (n) - x_{m i n}}{x_{\max} - x_{m i n}} - - - (2)

式中，n为样点数，x_max是x(n)序列的最大值，x_min是x(n)序列的最小值，x₂(n)是归一化后的信号；

x₃(n)＝x₂(n)-a×x₂(n-1)(3)

式中，n为样点数，a是系数，这里取0.9375，x₃(n)是预加重之后的信号；

利用哈明窗对x₃(n)进行分帧、加窗，根据语音信号的短时平稳特性，取20ms为一帧的长度，帧移长度为10ms，哈明窗函数定义如式(4)，分帧、加窗定义如式(5)所示；

式中，n为样点数，w(n)是哈明窗函数，L为窗长；

y(n)＝x₃(n)×w(n)0≤n≤L-1(5)

式中，n为样点数，y(n)是分帧、加窗后的信号，x₃(n)是预加重之后的信号，w(n)是哈明窗函数；

Y (λ, k) = \frac{1}{2 N} Σ_{n = 0}^{2 N - 1} y (λ, n) e^{- j \frac{2 π k n}{2 N}}, k = 0, 1, 2, ..., 2 N - 1 - - - (6)

带噪语音信号频谱Y(λ,k)表示为复指数形式为：

|Y(λ,k)|、|X(λ,k)|、|D(λ,k)|分别代表带噪语音、纯净语音、噪声分量的谱幅度，表示第λ帧频域第k个频谱分量的相位；

本方法中噪声估计采用最小值控制递归平均算法，该方法利用无语音段来更新噪声估计，有语音段则保持不变，考虑了语音存在概率，能够实时跟踪快速变化的噪声，具有较好的鲁棒性，利于减小信号的失真；

噪声功率的估计基于公式(7)以下两个略作修改的假设：

\{\begin{matrix} H_{0}^{k} : \hat{D^{2}} (λ, k) = α (λ - 1, k) + (1 - α) | Y (λ, k) |^{2} \\ H_{1}^{k} : \hat{D^{2}} (λ, k) = \hat{D^{2}} (λ - 1, k) \end{matrix} - - - (7)

其中，表示语音不存在，表示语音存在，λ表示分帧后帧信号的序列号，k表示离散频率点的序列号,表示当前分析的第λ帧在频率点k处的噪声估计功率谱；α是一个固定值，0到1的取值范围，在本方法中取为0.97；|Y(λ,k)|²表示当前分析的第λ帧在频率点k处含噪语音信号的功率谱；

噪声功率谱密度的均方估计表示如公式(8)：

\begin{matrix} {\hat{D}}^{2} (λ, k) = E [{\hat{D}}^{2} (λ, k) | Y (λ, k)] \\ = E [{\hat{D}}^{2} (λ, k) | H_{0}] p (H_{0} | (λ, k)) + [{\hat{D}}^{2} (λ, k) | H_{0}] p (H_{1} | Y (λ, k)) \end{matrix} - - - (8)

基于公式(7)的两个假设，可以将表示为式(9)

{\hat{D}}^{2} (λ, k) = α_{d} (λ, k) {\hat{D}}^{2} (λ - 1, k) + (1 - α_{d} (λ, k)) | Y (λ, k) |^{2} - - - (9)

其中α_d(λ,k)＝α+(1-α)p(λ,k)其取值范围为α≤α_d(λ,k)≤1，需要计算所需的p(λ,k)以估计平滑因子α_d(λ,k),各频点存在语音的概率p(λ,k)通过带噪语音功率谱与其局部最小值之比来计算；带噪语音功率谱密度的平滑估计计算如下：

S(λ,k)＝α_dS(λ-1)+(1-α_s)S_f(λ,k)(10)

其中为α_s平滑因子本方法中取0.6，其中为窗函数，窗长为2L_w+1，局部最小值S_min(λ,k)通过在一个D帧的固定窗口长度上，通过与过去每一个S(λ,k)值进行对比得到，平滑的语音功率谱S(λ,k)与其局部最小值S_min(λ,k)之比表示为：将该比值与一阈值δ进行比较得到频谱上存在语音的区域：

ifS_r(λ,k)≥δ

P(λ,k)＝1语音存在

else

p(λ,k)＝0语音不存在

end

\hat{p} (λ, k) = α_{p} \hat{p} (λ - 1, k) + (1 - α_{p}) p (λ, k) - - - (11)

最后，将其代入公式中得到估计噪声功率谱

ξ_{k} (n) = α \frac{\hat{{X_{k}}^{2}} (n - 1)}{λ_{d} (K, n - 1)} - (1 - α) m a x [γ_{k} (n) - 1, 0] - - - (12)

其中表示后验信噪比，

{\hat{X}}_{k} = \frac{ξ_{k}}{ξ_{k} + 1} \exp {{&Integral;}_{{&upsi;}_{k}}^{\infty} \frac{1}{2} \frac{e^{- t}}{t} d t} Y_{k} - - - (13)

其中

{&upsi;}_{k} = \frac{ξ_{k}}{1 + ξ_{k}} γ_{k}, G_{L S A} (ξ_{k}, γ_{k}) = \frac{ξ_{k}}{ξ_{k} + 1} \exp {{&Integral;}_{{&upsi;}_{k}}^{\infty} \frac{1}{2} \frac{e^{- t}}{t} d t}

| \hat{D} (λ, k) | = H_{L S A} (λ, k) (ξ_{d} (λ, k), γ_{d} (λ, k)) | Y (λ, k) | - - - (14)

其中

ξ_{d} (λ, k) = \frac{λ_{d} (λ, k)}{λ_{x} (λ, k)} = \frac{1}{ξ_{k}}, γ_{d} (λ, k) = \frac{λ_{d} (λ, k)}{| Y (λ, k) |^{2}} = \frac{1}{γ_{k}}

将上述两式带入公式(13)可得噪声的幅度谱：

\hat{D_{k}} = \frac{1}{1 + ξ_{k}} \exp {\frac{1}{2} {&Integral;}_{{&upsi;}_{k}^{'}}^{\infty} \frac{e^{- t}}{t} d t} Y_{k} - - - (15)

其中，

x (λ, n) = \frac{1}{2 N} Σ_{k = 0}^{2 N - 1} \hat{X} (λ, k) e^{j \frac{2 π k n}{2 N}}, n = 0, 1, 2, ..., 2 N - 1 - - - (17)

d (λ, n) = \frac{1}{2 N} Σ_{k = 0}^{2 N - 1} \hat{D} (λ, k) e^{j \frac{2 π k n}{2 N}}, n = 0, 1, 2, ..., 2 N - 1 - - - (18)

Band_x(λ,i,n)＝x(λ,n)*g(n,f(i))i＝1,2,3,…,128(19)

Band_d(λ,i,n)＝d(λ,n)*g(n,f(i))i＝1,2,3,…,128(20)

其中，Band_x(λ,i,n)表示初步增强语音信号x(λ,n)在第λ帧的第i频带的信号，Band_d(λ,i,n)表示估计噪声信号d(λ,n)在第λ帧的第i频带的信号；g(n,f(i))表示gammatone滤波器组，中心频率为f(i)；gammatone滤波器组可模拟耳蜗中的基底膜对输入信号进行滤波，耳蜗对声音的频率分辨率是非均匀的，在80HZ～5000HZ范围，gammatone滤波器组的中心频率内以准对数形式分布，并以等距形带宽的方式均匀地分布在语音信号所占据的频率范围内；gammatone滤波器的脉冲响应具有以下形式：

g (n, f (i)) = \{\begin{matrix} b^{a} (f (i) n^{a - 1} e^{- 2 π b (f (i)) n} c o s (2 π f (i) n)) & i f n &GreaterEqual; 0 \\ 0 & e l s e \end{matrix} - - - (21)

式中a＝4,表示滤波器的阶数；b(f)表示中心频率为f时的等距形带宽，随着f的增加而变宽；

步骤十，利用人耳的听觉掩蔽特性，计算出含噪语音在时频域的掩蔽值，得到最终的输出信号；理想二值掩蔽是为了保留混合信号中由目标语音主导的声音分量，去除由噪声主导的声音分量，从而实现目标语音信号和噪声信号的分离；首先将混合信号中的初步增强语音和估计噪声信号都分解为时频域二维表示形式，然后，计算出每个时频单元的能量，本方法中利用式(22)计算估计二值掩蔽；

式中，表示初步增强语音信号的能量，表示噪声信号的能量，表示估计的信噪比；如果时频单元内目标语音的能量大于噪声的能量，该时频单元为‘1’，否则为‘0’；

最后将每个频带的时频掩蔽值分别乘以该频带的信号，最后将所有频带相加得到最终的输出信号，如公式(23)；

。