CN103778920B

CN103778920B - 数字助听器中语音增强和频响补偿相融合方法

Info

Publication number: CN103778920B
Application number: CN201410049180.2A
Authority: CN
Inventors: 李如玮; 曹龙涛; 鲍长春; 吴水才
Original assignee: Beijing University of Technology
Current assignee: Science and technology innovation service center of Hunan Miluo circular economy industrial park
Priority date: 2014-02-12
Filing date: 2014-02-12
Publication date: 2016-03-09
Anticipated expiration: 2034-02-12
Also published as: CN103778920A

Abstract

本发明提出了数字助听器中语音增强和频响补偿相融合方法。该方法首先，采用MCRA法获得估计噪声和初步增强语音；将估计噪声和初步增强语音分别通过gammatone滤波器组进行滤波处理，利用耳蜗对信号的感知机理，把信号分为M个频带，同时得到信号的时频表示形式；然后，利用人耳的听觉掩蔽特性和频带信噪比等因素计算各个频带的掩蔽阈值；其次，利用耳障者的听力曲线动态地计算含噪语音在时频域的掩蔽值，使语音增强和频响补偿同时处理；最后，利用掩蔽值合成助听器输出语音。该算法充分利用了人耳的工作机理，保留了语音特征，去除了谱减法引入的“音乐噪声”，使助听器输出信号的可懂度得到很大的提高，低复杂度，低功耗。

Description

数字助听器中语音增强和频响补偿相融合方法

技术领域

本发明属于语音信号处理技术领域，涉及到数字助听器中语音增强和频响补偿两个关键的语音信号处理技术。

背景技术

耳障已经成为世界性问题，但在目前的医疗条件下，对于大多数耳障者，选配合适的数字助听器是有效提高其听力水平的最好的方法。随着近几十年来科学技术的迅速发展，数字助听器的性能得到了不断的完善，数字助听器的基本工作原理，如图2所示，外界的声音信号，进入麦克风从声能转化成电能，通过模/数转化器转化为数字信号，然后在数字微处理器和数字滤波器中运用预先设置好的运算法则对这一数字信号进行计算，一个计算法则是一系列确认和计算的过程，数字化助听器需要有尽可能多的字符,利用不同的运算关系的数据符来进行计算与判断，以获得对某种听力损失性质的再现。计算法则同样被用于标定数字化助听器中的处理器，以满足在特定条件中应进行的切换或调整。助听器独立执行的分析通过应用计算法则来实施和鉴定。处理后的数字电信号需要经过数/模转换器转换成模拟电信号，最后由受话器再将其转化为声能输入至佩戴者耳中。

在整个数字助听器工作过程中，DSP中的算法是数字助听器的核心内容，而算法也是根据耳障者的病症提出的。比如，耳障者的病症主要病症为：听域上升，言语识别率降低。对于以上症状，提出频响补偿算法来解决耳障者听域上升的问题，但是，在噪声环境下，仅采用频响补偿算法还是不能提高数字助听器佩戴者的言语可懂度，因此，在频响补偿算法之前还需要采用语音增强算法消除背景噪声，从而实现更好的提高数字助听器佩戴者的言语可懂度。另外，为了保持数字助听器的稳定性，还需反馈消除算法，防止数字助听器“啸叫”。除此之外，在高性能的助听器还有一些声源定位等算法。在以上分析的算法中，频响补偿和语音增强是数字助听器中十分重要和关键的两项技术，这两种技术直接决定着数字助听器性能的优劣。

在噪声环境下，一些语音增强算法对言语可懂度的提高程度仍十分有限。因此，环境噪声是数字助听器设计中的最大障碍。目前大多数数字助听器中采用的语音增强方法是谱减法，该方法在去除噪声的同时会产生“音乐噪声”，导致在数字助听器的频响补偿阶段，语音幅度放大的同时噪声也放大，不利于助听器提高耳障者对言语的可懂度，严重影响助听器的效果。对于频响补偿技术，几乎所有的数字助听器都采用了多通道频响补偿的方案。多通道频响补偿方法利用滤波器组将信号整个频段分为N通道，然后在各个通道内，根据患者听力损伤的情况对不同频段加以不同的放大处理，最后再将不同频率的声音段合成在一起，形成完整的声音。由于多通道不同的压缩比率使听力补偿更吻合患者听力损失情况。但是，由于子带划分会在频带交界处带来的信号失真，同时使语音的共振峰发生形变，破坏了语音的结构，不利于可懂度的提高。共振峰是区别不同元音最主要的特征，对提高耳聋患者的语言识别率具有重要意义。

由于数字助听器是一种便携式设备，同时它也需要很高的实时性，因此，数字助听器对算法有一定的特殊要求，比如，算法低复杂度，低功耗和实时性等要求。最终让数字助听器佩戴者有最高的言语可懂度和听觉舒适度。其中语音增强和频响补偿两个技术是影响数字助听器佩戴者舒适度和可懂度十分关键的技术。对于大多数数字助听器中的语音增强和频响补偿两种技术是相互独立的，这无形中增加了数字助听器算法的复杂度。

本发明提出一种语音增强和频响补偿相融合的数字助听器算法，该算法结合谱减法和时频掩蔽的优点，首先，分析非平稳噪声的时频特性，研究在不同噪声环境下的噪声估计准确度，并优化时频掩蔽阈值，减少语音信号的失真；然后，依据耳障者的病变机理，结合VAD和耳障者的听力曲线动态地调整不同通道的掩蔽值，使语音增强和频响补偿同时处理，减少算法复杂度；最后，利用掩蔽值合成语音信号。

发明内容

本发明针对现有的数字助听器语音增强算法在非平稳噪声环境下，残留大量背景噪声还引入了“音乐噪声”，同时大多数多通道频响补偿算法使语音结构发生失真，致使数字助听器佩戴者对言语可懂度和舒适度不理想等问题，提出了一种语音增强和频响补偿两种技术相融合的方法，该算法充分利用了人耳的工作机理，保留了语音特征，去除了谱减法引入的“音乐噪声”，使助听器输出信号的可懂度得到很大的提高；由于此算法是在谱减法的基础上进行了，因此，算法实现简单，低复杂度，低功耗。

为了解决以上所述的问题，本发明采用的技术方案是：基于可以模拟人耳听觉系统中的基底膜和听觉神经的工作机理的gammatone滤波器和meddis的内毛细胞模型，把信号频带非均匀地分为N个通道的频响补偿算法，以及利用人耳听觉感知理论，结合人耳的听觉特性和耳蜗的工作机理，最终实现语音增强和频响补偿相融合。具体过程包括步骤如下：

步骤一，数字助听器的输入信号进行预处理，首先对输入信号进行分帧处理，然后计算每帧信号的频谱；

步骤二，提取含噪语音信号的相位信息，利用人耳对相位信息的改变并不敏感，因此，利用含噪语音信号的相位信息代替最终合成的语音信号的相位；

步骤三，在每帧信号的频域范围内，估计含噪信号的噪声幅度谱；

步骤四，利用谱减法的基本思想，让含噪语音信号的幅度谱减去估计噪声的幅度谱，得到初步增强的语音幅度谱；

步骤五，傅里叶逆变换，初步增强的语音幅度谱和估计噪声幅度谱分别乘以含噪语音的相位，然后通过傅里叶逆变换分别得到初步增强的语音信号和估计噪声信号；

步骤六，时频分析，利用人耳听觉感知理论，结合人耳的听觉特性和耳蜗的工作机理，把初步增强的语音信号和估计噪声信号的频谱范围非均匀地分为M个频带；

步骤七，计算频带信噪比，计算初步增强语音信号通过时频分析得到的M个频带的信噪比；

步骤八，计算掩蔽域值，利用由步骤七得到每个频带的信噪比和人耳对不同频带的感知特性，计算不同频带的掩蔽域值；

步骤九，测试耳障者的听域曲线和痛域曲线，利用不同频率特征点测试耳障者的听域声压级和痛域声压级，然后利用插值的方法得到整个频率范围的听力曲线；

步骤十，计算掩蔽值，利用步骤八和步骤九得到的掩蔽阈值和听力曲线，动态地调整掩蔽值的大小；

步骤十一，时频掩蔽，利用步骤十得到的掩蔽值得到最终的输出信号。

本发明提出了数字助听器中语音增强和频响补偿相融合方法。该方法利用人耳听觉感知理论，结合人耳的听觉特性和耳蜗的工作机理。首先，采用最小值控制递归平均（Minima-ControlledRecursiveAveraging,MCRA）算法获得估计噪声和初步增强语音；接着，将估计噪声和初步增强语音分别通过可以模拟人工耳蜗模型的gammatone滤波器组进行滤波处理，利用耳蜗对信号的感知机理，把信号分为M个频带，同时得到信号的时频表示形式；然后，利用人耳的听觉掩蔽特性和频带信噪比等因素计算各个频带的掩蔽阈值；其次，利用耳障者的听力曲线和VAD(VoiceActivityDetection)动态地计算含噪语音在时频域的掩蔽值，使语音增强和频响补偿同时处理；最后，利用掩蔽值合成助听器输出语音。该算法充分利用了人耳的工作机理，保留了语音特征，去除了谱减法引入的“音乐噪声”，使助听器输出信号的可懂度得到很大的提高；由于此算法是在谱减法的基础上进行了，因此，算法实现简单，低复杂度，低功耗。

附图说明

图1本发明的实现流程图

图2gammatone滤波器组中每个滤波器的频率相应

图3gammatone滤波器组中每个滤波器合成后的频率相应

具体实施方式

步骤一，数字助听器输入的含噪信号进行预处理，首先对输入的含噪信号进行分帧处理，然后计算每帧信号的频谱；

（1）数字助听器输入的含噪信号y(t)，t表示时间，在模数转换过程中，采用16kHz的采样率，输出表示为时域数字信号y(n)，n表示的序列号；

（2）含噪信号y(n)通过哈明窗进行分帧，取320点即20ms为一帧，帧移为160点即10ms，可采用式（1）进行分帧，得到每帧信号y(λ,n)；

y (λ, n) = y (n) w (n - λ \frac{N}{2}) - - - (1)

式（1）中λ表示帧的序列号，N表示采样点数，其中N的取值为320，则y(λ,n)表示含噪信号y(n)经过哈明窗分帧后得到的第λ帧含噪信号；式中w(n)表示哈明窗，如式（2）所示，表示计算第λ帧时，哈明窗平移

w (n) = \{\begin{matrix} [0.54 - 0.46 \cos (\frac{2 πn}{N - 1}) & if 0 \leq n \leq N - 1 \\ 0 & else \end{matrix} - - - (2)

（3）每帧含噪信号的频谱通过对每帧含噪信号y(λ,n)进行2N点离散傅里叶变换得到，如式（3）所示：

Y (λ, k) = \frac{1}{2 N} Σ_{n = 0}^{2 N - 1} y (λ, n) e^{- j \frac{2 πkn}{2 N}} k = 0,1, \cdot \cdot \cdot, 2 N - 1 - - - (3)

式（3）中Y(λ,k)表示第λ帧在频率点为k处的频谱，j是虚部；

步骤二，通过步骤一得到每帧含噪信号的频域表示形式Y(λ,k)，利用人耳对相位信息的改变并不敏感，提取含噪语音信号的相位信息θ_n(λ)，把含噪语音信号的相位信息保留下来，利用含噪语音信号的相位信息代替最终合成的语音信号的相位；

步骤三，在每帧含噪信号的频域表示形式下，估计每帧含噪信号的噪声幅度谱D(λ,k)；

本发明利用最小值控制递归平均（Minima-ControlledRecursiveAveraging,MCRA）方法进行噪声估计，该方法在噪声估计时考虑了语音存在概率，对清音及过渡成分能够有效减小噪声的过估计，并能快速跟踪急剧变化的噪声，对平稳噪声和非平稳噪声都有比较好的鲁棒性，能够减小信号失真。

此算法中，当前分析帧的噪声功率谱估计是基于公式（4）的两个修正假设：当语音不存在时，对当前分析帧的噪声功率谱进行更新，否则，噪声功率谱不变。

\{\begin{matrix} H_{0}^{k} : {\hat{D}}^{2} (λ, k) = α {\hat{D}}^{2} (λ - 1, k) + (1 - α) {| Y (λ, k) |}^{2} \\ H_{1}^{k} : {\hat{D}}^{2} (λ, k) = {\hat{D}}^{2} (λ - 1, k) \end{matrix} - - - (4)

其中，表示语音不存在，表示语音存在，λ表示分帧后帧信号的序列号，k表示离散频率点的序列号,表示当前分析的第λ帧在频率点k处的噪声估计功率谱。α是一个固定常数，代表前一帧噪声估计对当前噪声估计的影响权重，本发明中α取值为0.97；|Y(λ,k)|²表示当前分析的第λ帧在频率点k处含噪语音信号的功率谱。

估计噪声功率谱可以通过公式(5)计算得到：

\begin{matrix} {\hat{D}}^{2} (λ, k) = E [{\hat{D}}^{2} (λ, k) | Y (λ, k)] \\ = E [{\hat{D}}^{2} (λ, k) | H_{0}] p (H_{0} | Y (λ, k) + E [{\hat{D}}^{2} (λ, k) | H_{1}] p (H_{1} | Y (λ, k) \end{matrix} - - - (5)

式（5）中，E[·]表示求期望，p(H₀|Y(λ,k)表示给定含噪语音频谱信息Y(λ,k)时，语音不存在的概率，p(H₁|Y(λ,k)表示给定含噪语音频谱信息Y(λ,k)时，语音存在的概率。对于这两个条件概率，有以下已知关系：p(H₀|Y(λ,k)+p(H₁|Y(λ,k)=1，因此式（5）可以改写为式（6）：

\begin{matrix} {\hat{D}}^{2} (λ, k) = E [{\hat{D}}^{2} (λ, k) | Y (λ, k)] \\ = E [{\hat{D}}^{2} (λ, k) | H_{1}] p (H_{1} | Y (λ, k) + E [{\hat{D}}^{2} (λ, k) | H_{0}] (1 - p (H_{1} | Y (λ, k)) \end{matrix} - - - (6)

将式（4）代入式（6）中，即有：

{\hat{D}}^{2} (λ, k) = α_{d} (λ, k) {\hat{D}}^{2} (λ - 1, k) + (1 - α_{d} (λ, k)) {| Y (λ, k) |}^{2} - - - (7)

式中，表示当前分析的λ帧在频率点k处的噪声估计功率谱。|Y(λ,k)|²表示当前分析的λ帧中频点k处含噪语音信号的功率谱。α_d(λ,k)=α+(1-α)p(λ,k)代表前一帧噪声估计对当前帧噪声估计的影响权重，α是一个固定常数，本发明中α取值为0.97，其中p(λ,k)=p(H₁|Y(λ,k))表示语音存在的概率。因此，需要进一步计算语音存在的概率p(λ,k)。

语音存在概率p(λ,k)由当前时刻含噪语音信号功率谱与功率谱最小值的比值进行估计。首先将含噪语音信号的功率谱进行频域上的平滑得到S_f(λ,k)，采用式（8）计算：

S_{f} (λ, k) = Σ_{n = - L_{w}}^{L_{w}} w (n) {| Y (λ, k - n) |}^{2} - - - (8)

其中，w(n)是长度为2L_w+1的哈明窗，本发明中L_w取1，n表示序列号，Y(λ,k-n)表示当前分析的第λ帧中频点k处进行n个单位的平移。

然后对S_f(λ,k)进行时域平滑得到S(λ,k)，采用式（9）计算：

S(λ,k)=α_sS(λ-1)+(1-α_s)S_f(λ,k)(9)

其中，α_s为平滑因子，表示前一帧的平滑功率谱对当前帧的平滑功率谱的影响权重，本发明中α_s取值为0.6；。最后得到当前帧含噪语音的功率值与最小功率值的比值，记为S_r(λ,k)：

S_{r} (λ, k) = \frac{S (λ, k)}{S_{\min} (λ, k)} - - - (10)

其中，S_min(λ,k)为当前时刻含噪语音功率谱的最小值，其采用一种有效的搜索方法，该方法在一个长度为D的窗口内搜索功率谱的最小值，其搜索过程如下：

if \mod (\frac{λ}{D}) = 0

P_min(λ,k)=min{P_tmp(λ-1,k),P(λ,k)}

P_tmp(λ,k)=P(λ,k)

else

P_min(λ,k)=min{P_min(λ-1,k),P(λ,k)}

P_tmp(λ,k)=min{P_tmp(λ-1,k),P(λ,k)}

end

其中，λ是帧号，D是搜索窗口的长度，本发明中D取值为20；是将λ对D球模，P_tmp(λ,k)是当前搜索窗口中频点k处的功率谱最小值，P_min(λ,k)是各个搜索窗中连续进行更新的功率谱最小值。

之后，通过将S_r(λ,k)与一个特定的阈值δ相比，本发明中阈值δ取值为2.25，可以得到当前分析帧在频率点k处的局部语音存在概率p，其表达式为：

ifS_r(λ,k)≥δ

p=1表示语音存在

ifS_r(λ,k)≤δ

p=0表示语音不存在

end

最终，将得到的概率谱p通过平滑因子为α_p的平滑运算，将得到的概率p(λ,k)，本发明中α_p取值为0.2：

p(λ,k)=α_pp(λ-1,k)+(1-α_p)p(11)

通过以上过程，最终得到了语音存在概率p(λ,k)的估计。最后，把公式（11）带入公式（7）中，得到估计噪声功率谱最后对噪声功率谱进行开方得到估计噪声的幅度谱

步骤四，由步骤三得到估计噪声的幅度谱然后利用谱减法的基本思想，让含每帧含噪语音信号的幅度谱减去每帧估计噪声的幅度谱，得到每帧初步增强的语音幅度谱|s₁(λ,n)|；

为了更好地得到每帧初步增强语音信号s₁(λ,n)，其利用步骤三得到的估计噪声幅度谱采用一种过谱减算法，对含噪语音进行初步增强；该算法引入了过谱减系数和谱地板系数两个参数，算法如式（18）所示；

{| S_{1} (λ, k) |}^{2} = \{\begin{matrix} {| Y (λ, k) |}^{2} - α_{s} (λ) {| D (λ, k) |}^{2} & if {| Y (λ, k) |}^{2} > (α_{s} (λ) + β_{s}) {| D (λ, k) |}^{2} \\ β_{s} {| D (λ, k) |}^{2} & else \end{matrix} - - - (18)

式中，α_s(λ)是过减系数，取值范围是α_s(λ)≥1,其随着不同帧的信噪比而发生变化；β_s是谱地板系数，取值范围是0<β_s≤1，本发明中β_s取值为0.2；过减系数α_s(λ)决定了算法对语音成分造成的损失程度。当α_s(λ)取值较小时，由算法造成的语音失真较小；当α_s(λ)取值较大时，算法造成的语音失真较大，但同时残留的“音乐噪声”音调结构也就越就不显。谱地板系数β_s影响着增强语音中背景噪声的残留量，如果β_s取值较大，残留的背景噪声也就越多；如果β_s取值较小，背景噪声的残留量也就越少。

为了达到较好的增强效果，过减系数α_s(λ)的选择应遵循如下规则：信噪比（SNR）高的部分，α_s(λ)取值较小；信噪比（SNR）的部分，α_s(λ)取值较大；这充分考虑了α_s(λ)和语音失真度的联系，信噪比高的部分应该保留较高的语音质量，那么所允许的语音失真度应该较小；信噪比低的部分，应该最大限度的提取语音信息，在保证语音可懂度的前提下允许一定的语音失真。因此，α_s(λ)采用式（19）计算得到：

\begin{matrix} α_{s} (λ) = α_{0} - \frac{3}{20} {SNR}_{post} (λ) & - 5 dB \leq {SNR}_{post} (λ) \leq 20 dB \end{matrix} - - - (19)

式中，α₀是含噪语音的信噪比为0dB时对应的过减系数，本发明中α₀取值为6；SNR是一帧信号的信噪比，其定义如下：

{SNR}_{post} (λ) = \frac{Σ_{k = 0}^{2 N - 1} {| Y (λ, k) |}^{2}}{Σ_{k = 0}^{2 N - 1} {| D (λ, k) |}^{2}} - - - (20)

步骤五，傅里叶逆变换，由步骤三得到的估计噪声幅度谱和步骤四得到的初步增强的语音幅度谱|S₁(λ,k)|分别乘以由步骤二得到的含噪语音的相位θ_n(λ)，得到估计噪声和S₁(λ,k)，然后通过公式（21）（22）傅里叶逆变换分别得到每帧初步增强的语音信号和估计噪声信号；

s_{1} (λ, n) = \frac{1}{2 N} Σ_{k = 0}^{2 N - 1} S_{1} (λ, k) e^{j \frac{2 πkn}{2 N}} n = 0,1, \cdot \cdot \cdot, 2 N - 1 - - - (21)

\hat{d} (λ, n) = \frac{1}{2 N} Σ_{k = 0}^{2 N - 1} \hat{D} (λ, k) e^{j \frac{2 πkn}{2 N}} n = 0,1, \cdot \cdot \cdot, 2 N - 1 - - - (22)

步骤六，时频分析，利用人耳听觉感知理论，结合人耳的听觉特性和耳蜗的工作机理，把步骤五得到初步增强的语音信号s₁(λ,n)和估计噪声信号d(λ,n)在频域范围内非均匀地分为M个频带，M为128个频带，采用公式（23）（24）得到：

Band_s(λ,i,n)=s₁(λ,n)*g(n,f(i))i=1,2,…128(23)

{Band}_{d} (λ, i, n) = \hat{d} (λ, n) * g (n, f (i)) i = 1,2, \cdot \cdot \cdot 128 - - - (24)

式（23）中，Band_s(λ,i,n)表示初步增强语音信号s₁(λ,n)在第λ帧的第i频带的信号；同理，Band_d(λ,i,n)表示估计噪声信号在第λ帧的第i频带的信号；g(n,f(i))表示gammatone滤波器组，其中心频率为f(i)，本发明采用的gammatone滤波器组在下文展开解释。

本发明采用一种gammatone滤波器组对耳蜗中的基底膜进行仿真，用此滤波器组对输入的信号进行滤波。由于耳蜗是人耳听觉系统中重要的器官，而基底膜是耳蜗感知声音的重要组织。基底膜对声音具有频谱分析特性：对于输入复合音信号，基底膜能够把不同频率转化为不同的耳蜗位置，从而可以自动分离出复合音中不同频率成分和对应的幅度，完成耳蜗对声音频率和强度的编码。人耳能够分辨出语音中的不同频率和强度信息，其与基底膜的频谱分析特性是分不开的。除此之外，耳蜗对声音的频率分辨率也是非均匀的，在80Hz～5000Hz范围，gammatone滤波器组的中心频率内以准对数形式分布，并以等矩形带宽(equivalentrectangularbandwidth,ERB)的方式均匀地分布在语音信号所占据的频率范围内。因此，根据人耳对信号频率的不同分辨率和感知能力，并利用人耳的听觉特性，采用gammatone滤波器组对信号进行滤波，把信号的频率范围非均匀的分为M个频带，在进行信号掩蔽时，确保在语音失真最小和可懂度最高的情况下，把背景噪声和“音乐噪声”去除干净，同时提高言语可懂度。gammatone滤波器的脉冲响应具有以下形式，如图2所示:

g (n, f (i)) = \{\begin{matrix} b^{a} (f (i)) n^{a - 1} e^{- 2 πb (f (i)) n} \cos (2 πf (i) n) & ifn &GreaterEqual; 0 \\ 0 & else \end{matrix} - - - (25)

式中a=4，表示滤波器的阶数。b(f(i))表示中心频率为f(i)时的等矩形带宽，随着f(i)的增加而变宽，使时频分析后的信号低频分辨率较高，可以很好分辨出语音低频中的前5个共振峰。由于共振峰是区别不同元音最主要的特征，对提高耳聋患者的语言识别率具有重要意义。因此，该滤波器有益于提高言语可懂度。另外，为了模拟人耳的外耳和中耳的压力增益，等响度曲线被用来对滤波器的增益进行调整。耳障者的等响度曲线不同于正常人的等响度曲线，可以测试耳障者的等响度曲线，去调整滤波器的增益。通过此滤波器实现时频分析，同时还可以对不同的耳障者进行初步的频响补偿，很大程度上减少助听器整体算法复杂度。

步骤七，计算频带信噪比，初步增强语音信号由步骤七的时频分析得到的M个频带,并采用公式（26）计算每个频带的信噪比(dB)；

SNR (λ, i) = 10 \log \frac{Σ {Band}_{s}^{2} (λ, i, n)}{Σ {Band}_{d}^{2} (λ, i, n)} - - - (26)

Band_s(λ,i,n)表示初步增强语音信号s₁(λ,n)在第λ帧的第i频带的信号；同理，Band_d(λ,i,n)表示估计噪声信号在第λ帧的第i频带的信号；

步骤八，计算掩蔽域值，利用由步骤七得到每个频带的信噪比和人耳对不同频带的感知特性，计算不同频带的掩蔽域值；采用式（27）：

LC = 20 \log (\frac{Std ({Band}_{s} (λ, i, n))}{Std ({Band}_{d} (λ, i, n)}) - SNR (λ, i) - - - (27)

式中，Std(·)表示求标准差。

步骤九，测试耳障者的听域曲线和痛域曲线，利用不同频率特征点测试耳障者的听域声压级和痛域声压级，然后利用插值的方法得到整个频率范围的听力曲线Up(λ,f(i))，同理得到正常人的听力曲线Np(λ,f(i))；

步骤十，计算掩蔽值，由步骤八得到的掩蔽阈值LC和步骤九得到的听力曲线Up(λ,f(i))和Np(λ,f(i))，动态的调整掩蔽值的大小；利用式（30）计算估计的掩蔽值Mask(λ,f(i))；

Mask (λ, f (i)) = \{\begin{matrix} \frac{Up (λ, f (i))}{Np (λ, f (i))} & if \frac{{\hat{E}}_{s} (λ, b (f (i))}{{\hat{E}}_{n} (λ, b (f (i))} > LC \\ 0 & else \end{matrix} - - - (30)

式中，Up(λ,f(i))表示耳障者在中心频率为f(i)的声压级，Np(λ,f(i))表示正常人在中心频率为f(i)的声压级，表示初步增强语音信号在第λ频带、等矩形带宽为b(f(i))内的能量，表示估计噪声在第λ频带、等矩形带宽为b(f(i))内的能量，和LC都用dB表示；

从公式（30）中可以看出，如果不满足条件时，掩蔽值Mask(λ,f(i))为0，否则掩蔽值为即耳障者在中心频率为f(i)时的声压级和正常人在中心频率为f(i)时的声压级的比值，也就是在满足条件的情况下，Mask(λ,f(i))是根据耳障者要达到和正常人一样的听力水平，外界声音需要进行放大或者压缩的比值；当Mask(λ,f(i))为0，表示对外界噪声信号进行掩蔽，也就是对每帧含噪信号进一步进行语音增强，当Mask(λ,f(i))的取值大于0时，表示对外界的每帧信号进行放大或者压缩，也就是对增强语音进行频响补偿；因此，实现了语音增强和频响补偿相融合的方法。

步骤十一，时频掩蔽；

由步骤十得到的每帧信号的每个频带的时频掩蔽值Mask(λ,f(i))分别乘以该频带的信号Band_s(λ,i,n)，最后所有频带相加之后，得到最终的输出信号y(λ,n)，如公式（31）：

y (λ, n) = Σ_{i = 1}^{128} Mask (λ, f (i)) \cdot {Band}_{s} (λ, i, n) - - - (31);

Claims

1.数字助听器中语音增强和频响补偿相融合方法，其特征在于包括步骤如下：

步骤二，提取含噪语音信号的相位信息，利用人耳对相位信息的改变并不敏感这个性质，因此，利用含噪语音信号的相位信息代替最终合成的语音信号的相位；

步骤八，计算掩蔽阈值，利用由步骤七得到每个频带的信噪比和人耳对不同频带的感知特性，计算不同频带的掩蔽阈值；

步骤十一，时频掩蔽，利用步骤十得到的掩蔽值得到最终的输出信号；

2.根据权利要求1所述的数字助听器中语音增强和频响补偿相融合方法，其特征在于包括步骤如下：

(1)数字助听器输入的含噪信号y(t)，t表示时间，在模数转换过程中，采用16kHz的采样率，输出表示为时域数字信号y(n)，n表示时域的序列号；

(2)含噪信号y(n)通过哈明窗进行分帧，取320点即20ms为一帧，帧移为160点即10ms，采用式(1)进行分帧，得到每帧信号y(λ,n)；

y (λ, n) = y (n) w (n - λ \frac{N}{2}) - - - (1)

式(1)中λ表示帧的序列号，N表示采样点数，其中N的取值为320，则y(λ,n)表示含噪信号y(n)经过哈明窗分帧后得到的第λ帧含噪信号；式中w(n)表示哈明窗，如式(2)所示，表示计算第λ帧时，哈明窗平移

w (n) = \{\begin{matrix} [0.54 - 0.46 c o s (\frac{2 π n}{N - 1})] & i f 0 \leq n \leq N - 1 \\ 0 & e l s e \end{matrix} - - - (2)

(3)每帧含噪信号的频谱通过对每帧含噪信号y(λ,n)进行2N点离散傅里叶变换得到，如式(3)所示：

Y (λ, k) = \frac{1}{2 N} Σ_{n = 0}^{2 N - 1} y {(λ, n)}^{- j \frac{2 π k n}{2 N}}, k = 0, 1, ..., 2 N - 1 - - - (3)

式(3)中Y(λ,k)表示第λ帧在频率点为k处的频谱，k表示频域的序列号，j是虚部；

步骤二，通过步骤一得到每帧含噪信号的频域表示形式Y(λ,k)，利用人耳对相位信息的改变并不敏感这个性质，提取含噪语音信号的相位信息θ_n(λ)，把含噪语音信号的相位信息保留下来，利用含噪语音信号的相位信息代替最终合成的语音信号的相位；

步骤三，在每帧含噪信号的频域表示形式下，利用最小值控制递归平均方法进行噪声估计，得到估计噪声功率谱最后对噪声功率谱进行开方得到估计噪声的幅度谱

为了更好地得到每帧初步增强语音信号s₁(λ,n)，其利用步骤三得到的估计噪声幅度谱采用一种过谱减算法，对含噪语音进行初步增强；该算法引入了过谱减系数和谱地板系数两个参数，算法如式(18)所示；

| S_{1} (λ, k) |^{2} = \{\begin{matrix} | Y (λ, k) |^{2} - α_{s} (λ) | D (λ, k) |^{2} & i f | Y (λ, k) |^{2} > (α_{s} (λ) + β_{s}) | D (λ, k) |^{2} \\ β_{s} | D (λ, k) |^{2} & e l s e \end{matrix} - - - (18)

式中，α_s(λ)是过减系数，取值范围是α_s(λ)≥1,其随着不同帧的信噪比而发生变化；β_s是谱地板系数，取值范围是0<β_s≤1，

过减系数α_s(λ)，α_s(λ)采用式(19)计算得到：

\begin{matrix} α_{s} (λ) = α_{0} - \frac{3}{20} {SNR}_{p o s t} (λ) & - 5 d B \leq {SNR}_{p o s t} (λ) \leq 20 d B \end{matrix} - - - (19)

式中，α₀是含噪语音的信噪比为0dB时对应的过减系数，其中α₀取值为6；SNR是一帧信号的信噪比，其定义如下，

{SNR}_{p o s t} (λ) = \frac{Σ_{k = 0}^{2 N - 1} | Y (λ, k) |^{2}}{Σ_{k = 0}^{2 N - 1} | D (λ, k) |^{2}} - - - (20)

步骤五，傅里叶逆变换，由步骤三得到的估计噪声幅度谱和步骤四得到的初步增强的语音幅度谱|S₁(λ,k)|分别乘以由步骤二得到的含噪语音的相位θ_n(λ)，得到估计噪声和S₁(λ,k)，然后通过公式(21)(22)傅里叶逆变换分别得到每帧初步增强的语音信号和估计噪声信号；

s_{1} (λ, n) = \frac{1}{2 N} Σ_{k = 0}^{2 N - 1} S_{1} (λ, k) e^{j \frac{2 π k n}{2 N}}, n = 0, 1, ..., 2 N - 1 - - - (21)

\hat{d} (λ, n) = \frac{1}{2 N} Σ_{k = 0}^{2 N - 1} \hat{D} (λ, k) e^{j \frac{2 π h}{2 N}}, n = 0, 1, ..., 2 N - 1 - - - (22)

步骤六，时频分析，利用人耳听觉感知理论，结合人耳的听觉特性和耳蜗的工作机理，把步骤五得到初步增强的语音信号s₁(λ,n)和估计噪声信号d(λ,n)在频域范围内非均匀地分为M个频带，M为128个频带，采用公式(23)(24)得到：

Band_s(λ,i,n)＝s₁(λ,n)*g(n,f(i))i＝1,2,…128(23)

{Band}_{d} (λ, i, n) = \hat{d} (λ, n) * g (n, f (i)), i = 1, 2, ... 128 - - - (24)

式(23)中，Band_s(λ,i,n)表示初步增强语音信号s₁(λ,n)在第λ帧的第i频带的信号；同理，Band_d(λ,i,n)表示估计噪声信号在第λ帧的第i频带的信号；g(n,f(i))表示gammatone滤波器组，其中心频率为f(i)；

步骤七，计算频带信噪比，初步增强语音信号有步骤六的时频分析得到的M个频带,并采用公式(26)计算每个频带的信噪比；

S N R (λ, i) = 10 l o g \frac{{ΣBand}_{s}^{2} (λ, i, n)}{{ΣBand}_{d}^{2} (λ, i, n)} - - - (26)

步骤八，计算掩蔽阈值，利用由步骤七得到每个频带的信噪比和人耳对不同频带的感知特性，计算不同频带的掩蔽阈值；采用式(27)：

L C = 20 l o g (\frac{S i d ({Band}_{s} (λ, i, n))}{S t d ({Band}_{d} (λ, i, n))}) - S N R (λ, i) - - - (27)

式中，Std(·)表示求标准差；

步骤十，计算掩蔽值，由步骤八得到的掩蔽阈值LC和步骤九得到的听力曲线Up(λ,f(i))和Np(λ,f(i))，动态的调整掩蔽值的大小；利用式(30)计算估计的掩蔽值Mask(λ,f(i))；

M a s k (λ, f (i)) = \{\begin{matrix} \frac{U p (λ, f (i))}{N p (λ, f (i))} & i f & \frac{{\hat{E}}_{s} (λ, b (f (i))}{{\hat{E}}_{n} (λ, b (f (i))} > L C \\ 0 & e l s e \end{matrix} - - - (30)

步骤十一，时频掩蔽

由步骤十得到的每帧信号的每个频带的时频掩蔽值Mask(λ,f(i))分别乘以该频带的信号Band_s(λ,i,n)，最后所有频带相加之后，得到最终的输出信号y(λ,n)，如公式(31)：

y (λ, n) = Σ_{i = 1}^{128} M a s k (λ, f (i)) \cdot {Band}_{s} (λ, i, n) - - - (31);