CN1684143A

CN1684143A - 一种语音增强的方法

Info

Publication number: CN1684143A
Application number: CNA2004100345056A
Authority: CN
Inventors: 余水安
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2004-04-14
Filing date: 2004-04-14
Publication date: 2005-10-19
Anticipated expiration: 2024-04-14
Also published as: CN1322488C

Abstract

本发明提供一种语音增强的方法包括步骤：1.对信号进行分帧，加权预处理后，加窗变换到频域；2.对频域信号进行分子带，计算各个子带的能量；3.计算各个子带的信噪比；4.对当前帧进行判决，判断是否是噪声；5.根据计算的子带能量，计算自动增益控制增益；6.计算全带信噪比或者部分子带加权信噪比，计算全带信噪比；7.根据计算的全带信噪比和各个子带信噪比进行估计各个子带的衰减增益，利用以前帧计算出的子带衰减增益，对计算的各个子带衰减增益进行平滑处理；8.用计算的自动增益控制增益，对频谱进行处理；9.根据噪声判决，对噪声进行更新；10.把处理后的频谱信号变换到时间域，进行加权处理，变成输出信号。

Description

一种语音增强的方法

技术领域

本发明涉及多媒体技术领域，具体指一种语音增强的方法。

背景技术

会议电视终端是会议电视系统组成的不可缺少部分，但由于终端使用过程中，经常会有背景噪声，包括空调噪声，风扇噪声等，所述的背景噪声将会使语音的质量明显下降。而且在现在一些编码器中，采用了基于模型的编码，如果背景噪声比较大，信噪比比较低时，基于模型的编码不可避免的会出现质量下降和性能恶化。

为提高语音质量，现有技术中有如下几种语音增强方法，典型的有以下几种：

第一种方法是通过静音检测来进行语音增强，具体为：通过分帧进行静音检测，划分噪声帧和语音帧，在噪声帧中，衰减噪声，而在语音帧中，不衰减或者部分衰减，进而达到语音增强的目的。

第二中方法是噪声对消法，基本原理是从带噪的语音中减去噪声，采用阵列麦克风或者噪声检测方法来估计噪声，在时域或者频域中从语音中减去估计的噪声，来达到语音增强的效果。

第三种方法是基于语音生成模型的方法，众所周知，语音的发声过程可以模型化为激励源作用于一个线性时变滤波器，激励源分为浊音和清音两类，浊音有明显的周期性，采用具有一定周期的脉冲信号作为激励信号；而清音没有明显的周期性，一般采用白噪声作为激励信号，线性时变滤波器则通常采用零极点模型，通过估计参数，利用分析-合成方法，进行语音增强。

第四种方法是基于短时谱估计的增强方法。由于语音通常是一种非平稳过程，但是在10-30ms是时间内可以近似认为是平稳的，从带噪语音的短时谱中估计出“纯净”语音的短时谱，可以达到语音增强的目的。另外噪声也是随机过程，可以近似的认为其具有白噪声和高斯噪声的特性，利用人耳感知对语音频谱分量的相位不敏感的特性，可以针对带噪语音的短时谱幅度进行处理。

第五种方法，基于人耳听觉掩蔽特性进行语音增强，人耳听觉掩蔽特性已经在音频编码中获得广泛的应用，即在计算语音信号的掩蔽阈值时，首先利用传统的谱减法来近似模拟语音信号，利用模拟的语音信号来计算掩蔽模型的阈值，一般选择成熟的MPEG音频中的掩蔽模型1和掩蔽模型2。

上述方法虽然能在一定程度上使语音得以增强，提高语音的质量，但仍分别存在如下缺点：

第一种方法的缺点：采用静音检测方法进行语音增强虽然导致噪声帧的噪声小，但语音帧的噪声则比较大，人耳的主观感觉是语音增强后的噪声不平稳，存在起伏，而且人耳主观感觉对突变的效果感觉更差。

第二种方法的缺点：采用噪声对消法，可能会导致存在“音乐”噪声，即语音增强后，噪声的某些频率幅度大，而有的频率幅度小，进而使人耳主观感觉不舒服。

第三种方法的缺点：基于语音生成模型的语音增强算法时由于“纯净”语音的参数无法准确估计，所以只能采取一些折中的方法，但这会导致合成后的语音可懂度变差。

第四种方法的缺点：采用短时谱估计的方法进行语音增强，虽然在本地信噪比比较高时，对语音的损伤不大，但是在信噪比比较低时，由于衰减噪声比较多，不可避免的损伤语音，结果是增强后的语音失真度比较大，主观感觉差。

第五种方法的缺点：基于人耳听觉掩蔽特性进行语音增强，由于采用传统的谱减法来模拟“纯净语音”，所以在计算掩蔽阈值时就存在偏差，而且采用掩蔽模型计算量方面会增加很多，不利用很多场合的使用。

发明内容

本发明目的在于提供一种语音增强的系统及方法，以解决现有技术方案不能既能全面有效地提高语音质量的问题。

为解决上述问题，本发明提供如下的技术方案：

一种语音增强的方法，包括如下步骤：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

4、对当前帧进行判决，判断是否是噪声；

5、根据计算的子带能量，计算自动增益控制增益；

6、根据各个子带的信噪比或者背景噪声能量和当前帧能量，计算全带信噪比或者部分子带加权信噪比，计算全带信噪比；

7、根据计算的全带信噪比和各个子带信噪比进行估计各个子带的衰减增益，利用以前帧计算出的子带衰减增益，对计算的各个子带衰减增益进行平滑处理；

8、用计算的自动增益控制增益，对频谱进行处理，达到自动增益控制，利用计算的各个子带衰减增益对各个子带的频谱进行处理，达到去噪的目的；

9、根据噪声判决，对噪声进行更新；

10、把处理后的频谱信号变换到时间域，进行加权处理，变成输出信号。

所述步骤5中的计算自动增益控制增益具体包括如下的步骤：

51、计算全带或者部分子带的加权能量；

52、当当前帧为非噪声帧的一次帧时，用计算的全带或者部分子带的加权能量对短时能量和长时能量进行初始化；

53、当前帧不是非噪声帧的第一帧时，先对短时能量进行加权平滑更新；

54、利用短时能量对长时能量进行加权平滑更新；

55、计算长时能量与目标能量阈值进行相减，得到自动的衰减增益；

56、利用前一帧的衰减增益，对当前帧计算的自动衰减增益进行平滑；

57、对计算的自动衰减增益进行限幅。

所述的步骤54中利用短时能量对长时能量进行加权平滑更新时，如果短时能量小于长时能量，则采用第一加权平滑因子α₁；如果短时能量大于长时能量，采用第二加权平滑因子α₂。

所述的第一加权平滑因子α₁＝0.9，第二加权平滑因子α₂＝0.99。

所述步骤6中计算全带信噪比具体包括如下的步骤：

61、计算当前帧的全带信噪比；

62、对计算的当前帧的全带信噪比进行限幅；

63、用计算的当前帧的全带信噪比对最终的长时全带信噪比进行加权平滑。

所述步骤61中计算当前帧的全带信噪比，具体有四种方式：

第一种、对所有的子带的信噪比进行平均。

第二种、对所有的子带的信噪比进行加权平均，权值可以为0。

第三种、取全带能量和估计的全带噪声能量的比值。

第四种、可以取各个子带能量进行加权的全带能量于子带噪声能量进行加权的全带噪声能量的比值，权值可以为0。

所述步骤63中用计算的当前帧的信噪比对最终的长时全带信噪比进行加权平滑，具体包括如下步骤：

631、先利用计算的当前帧的全带信噪与前一帧的短时全带信噪比进行加权，计算当前帧的短时全带信噪比；

632、利用短时全带信噪比与前一帧的长时全带信噪比进行加权，计算当前帧的长时全带信噪比。

所述步骤632的在计算当前帧的长时全带信噪比时，需比较短时全带信噪比与前一帧的长时全带信噪比，如果短时全带信噪比小于或者小于等于长时全带信噪比，采用第一加权因子β₁；否则，采用第二加权因子β₂。

所述第一加权因子β₁＝0.995，第二加权因子β₂＝0.99。

所述步骤7中根据计算的全带信噪比和各个子带信噪比进行估计各个子带的衰减增益具体包括：

71、利用各个子带的信噪比计算各个子带的初始的去噪衰减增益；

72、利用全带信噪比对各个子带的初始去噪衰减增益进行调整，得到中间去噪衰减增益，在全带信噪比高，衰减增益调高，或者调低；

73、利用前面一定数目帧的子带去噪衰减增益对子带的中间的去噪衰减增益进行调整，当以前一定数目的帧的信号特征是缓慢变化时，限制中间的去噪衰减增益大的变化率；在以前一定数目的帧的信号特征是快速变化时，则反之。

一种语音增强的方法，包括如下步骤：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

4、根据计算的信噪比和子带能量，计算声音度量和频谱偏离，从而进行噪声判决，根据噪声判决的结果进行判断是否需要进行强制更新判决；

5、根据计算的子带能量，计算自动增益控制增益；

6、对估计的各个子带信噪比进行调整；

7、根据各个子带的信噪比或者背景噪声能量和当前帧能量，计算全带信噪比或者部分子带加权信噪比，计算全带信噪比；

8、根据计算的全带信噪比，各个子带信噪比进行估计各个子带的衰减增益，利用以前帧计算出的子带衰减增益，对计算的各个子带衰减增益进行平滑处理；

9、用计算的自动增益控制增益，对频谱进行处理，达到自动增益控制，利用计算的各个子带衰减增益对各个子带的频谱进行处理，达到去噪的目的；

10、根据噪声判决和强制更新判决，对噪声进行更新；

11、把处理后的频谱信号变换到时间域，进行加权处理，变成输出信号。

所述步骤4中的强制更新判决，具体由下列步骤组成：

4l、启动一个计数器，在更新判决当前帧为非噪声帧时，开始进行强制更新判决；

42、当计数器为0时，对强制更新的噪声进行赋值，赋值为当前帧的各个子带能量；

43、当计数器不等于0时，在各个子带，对强制更新的噪声和当前帧的能量进行比较，取其最小值；

44、计数器加1，当计数器等于一个阈值，用计算的强制更新噪声去更新噪声，同时计数器清0。

所述的方法还包括回声帧判断的自动增益控制计算增益的步骤，具体为：

A、计算全带或者部分子带的加权能量；

B、当当前帧为非噪声帧和回声帧的一次帧时，用计算的全带或者部分子带的加权能量对短时能量和长时能量进行初始化；

C、当前帧不是非噪声帧和回声帧的第一帧时，先对短时能量进行加权平滑更新；

D、利用短时能量对长时能量进行加权平滑更新；

E、计算长时能量与目标能量阈值进行相减，得到自动的衰减增益；

F、利用前一帧的衰减增益，对当前帧计算的自动衰减增益进行平滑；

G、对计算的自动衰减增益进行限幅。

一种语音增强的方法，包括如下步骤：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

4、根据计算的信噪比和子带能量，计算声音度量和频谱偏离，从而进行噪声判决，根据噪声判决的结果进行判断是否需要进行强制噪声判决；

5、对估计的各个子带信噪比进行调整；

7、根据计算的全带信噪比，各个子带信噪比进行估计各个子带的衰减增益，利用以前帧计算出的子带衰减增益，对计算的各个子带衰减增益进行平滑处理；

8、利用计算的各个子带衰减增益对各个子带的频谱进行处理，达到去噪的目的；

9、根据噪声判决和强制更新判决，对噪声进行更新；

一种语音增强的方法，包括如下步骤：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

4、对当前帧进行判决，确认是否为噪声帧；

5、根据计算的子带能量，计算自动增益控制增益；

6、用计算的自动增益控制增益，对频谱进行处理，达到自动增益控制；

7、根据噪声判决和强制更新判决，对噪声进行更新；

8、把处理后的频谱信号变换到时间域，进行加权处理，变成输出信号。

一种语音增强的方法，包括如下步骤：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

4、对当前帧进行判决，确认是否为当前帧；

5、对估计的各个子带信噪比进行调整；

6、根据各个子带信噪比进行估计各个子带的衰减增益，利用以前帧计算出的子带衰减增益，对计算的各个子带衰减增益进行平滑处理；

7、利用计算的各个子带衰减增益对各个子带的频谱进行处理，达到去噪的目的；

8、根据噪声判决和强制更新判决，对噪声进行更新；

9、把处理后的频谱信号变换到时间域，进行加权处理，变成输出信号。

通过上述的技术方案，本发明的语音增强的系统及方法具有如下优点：

在输入的信噪比比较高时，去噪衰减多；在输入信噪比比较低时，去噪衰减少，这样保证在一定衰减的同时，尽量降低对语音的损伤，造成失真。

可以防止在子带衰减增益的变化比较大的，来达到在失真很小或者不可觉察的情况下，增强去噪效果。

可以保证经过语音增强后噪声的平稳性，几乎没有音乐噪声。

结合自动增益控制，可以进一步衰减噪声。在存在语音时，可以尽量提高语音的可懂度。

附图说明

图1为本发明方法具体实施例应用的系统结构图。

具体实施方式

在具体介绍本发明的一种语音增强系统及方法之前，先就本发明的总体思想作一介绍：本发明主要是根据本地的信噪比，自适应的降低本地背景噪声，增强语音的可懂度，而且不损伤语音音质。通过连续估计各个子带的背景噪声的频谱、信噪比及全带信号的信噪比，自适应的调整各个子带的衰减因子，在保证语音质量的基础上，极大的降低噪声，同时在频域中估计语音能量，对语音信号进行自适应增益控制，稳定输出语音信号的电平，进一步降低噪声，提高语音质量。

本发明的语音增强的系统先对信号进行分帧，由于背景噪声大部分能量集中在低频带中，所以先经过一个高通滤波器进行滤波，对经过滤波后的信号进行频域变换，在频域中对分帧后的信号分子带处理，从而实现两个方面的功能：自动增益控制和降噪，介绍如下：

根据计算的子带能量，噪声更新判断标志计算全带(或者部分子带)的能量，从而计算自动增益控制的增益，稳定语音输出信号电平。

根据计算的子带信号的能量，背景噪声估计器估计的子带的噪声能量，计算信噪比，经过修正后，计算各个子带的增益，对频域的频率幅度处理，来达到降噪的目的。

在如下的具体实施例介绍中，语音增强的系统的输入为16KHz采样率，16bits进度的语音分帧数据，分帧为10ms。

请参考图1，为本发明方法具体实施例应用的系统结构图，其中实线表示为语音增强系统内部的数据流和控制流；虚线表示为外部输入的控制流，所述的提高语音质量的系统包括：

高通滤波器，所述的高通滤波器接收采样率为16KHz的语音，由于语音中背景噪声在低频部分能量一般较大，所以利用所述高通滤波器可以衰减低频部分的分量。在具体选用高通滤波器时可以采用FIR(finite impulse response)滤波器或者IIR(infinite impulse response)滤波器，截止频率可以为100Hz。

频域变换模块，与所述的高通滤波器相连，并接收来自所述高通滤波器的语音信号，在对所述语音信号进行频域变换以前，先对信号进行加窗处理。

在加窗以前处理前，在加窗的本帧数据有D个数据为前一帧数据的部分数据，其中混叠部分描述如下：

d(m，n)＝d(m-1，L+n)； 0≤n＜D其中，L＝160，为数据帧长度，D＝48，为混叠数据长度；m表示本帧；n表示数据索引。

而本帧中的其他数据，为对经过所述的高通滤波器处理后的数据S(n)进行加权处理后的数据，具体描述如下：

d(m，D+n)＝S(n)+ζ×S(n-1)；其中，0≤n＜L；ζ＝-0.8。

对所述d(n)数据进行加窗处理，输出为g(n)，具体如下：

g(n)＝{

d(m，n)×sin²(π(n+0.5)/2D)；其中，0＜＝n＜D，D＝48，

d(m，n)；其中，D＜＝n＜L，L＝160，

d(m，n)×sin²(π(n-L+D+0.5)/2D)；其中，L＜＝n＜D+L，D+L＝208，；D+L＜＝n＜M，M＝256，}

子带能量估计模块，与所这的频域变换模块相连，接收来自所述频域变换模块的经过频域变换的语音信号，并对其进行能量估计，具体估计采用如下方式进行：

G (k) = \frac{2}{M} * Σ_{n = 0}^{M - 1} g (n) e^{- j 2 πnk / M}, 0 \leq k < M

其中，M＝256，为DFT(Discrete Fourier Transform)计算长度。

E_{ch} (m, i) = \max {E_{\min}, α_{ch} (m) E_{ch} (m - 1) + (1 - α_{ch} (m) \frac{1}{f_{h} (i) - f_{l} (i) + 1} Σ_{k = f_{l} (i)}^{f_{h} (i)} {| G (k) |}^{2}}

其中，0≤i≤N_c；E_min＝0.0625，为子带内最小的能量；α_ch(m)是子带能量平滑因子；N_c＝26，为子带的数目；f_h(i)为第i子带内的最高频谱点；f_l(i)为第i子带内的最低的频谱点，所述的：

f_l＝{2，4，6，8，10，12，14，17，20，23，27，31，36，42，49，56，64，72，79，86，93，100，107，114，121}

f_h＝{3，5，7，9，11，13，16，19，22，26，30，35，41，48，55，63，71，78，85，92，99，106，113，120，127}

所述的子带能量平滑因子α_ch(m)，定义如下：

α_{ch} (m) = \{\begin{matrix} 0; m \leq 1, \\ 0.45; m > 1, \end{matrix}

其中第一帧m＝1，假设α_ch(m)为0，在以后所有帧中，α_ch(m)为0.45。

子带信噪比估计器，与所述的子带能量估计模块相连，接收经所述子带能量估计模块处理过的语音信号，并对所述语音信号中子带信噪比进行估计，具体估计方式为：

σ_{q} (i) = \max {0, \min {89, round {10 lo g_{10} (\frac{E_{ch} (m, i)}{E_{n} (m, i)}) / 0.375}}};

其中，0≤i＜N_c；E_n(m)是估计的当前帧的背景噪声能量；σ_q限幅在0到89之间。

频谱偏离估计器，其作用为：计算本帧能量与长时平均能量的差值，作为噪声判决条件之一，具体实现方式为：

步骤有：首先计算子带频谱能量的对数能量，即为：

E_dB(m，i)＝10log₁₀(E_ch(m，i))；其中，0≤I＜N_b

然后计算本帧能量与长时间平均能量的差值，即为：

Δ_{E} (m) = Σ_{i = 0}^{N_{b} - 1} | E_{dB} (m, i) - {\overset{&OverBar;}{E}}_{dB} (m, i) |

其中 (m)是利用前面数据帧计算得到的长时间能量。而在第一帧中，计算如下：

\overset{&OverBar;}{E_{dB}} = E_{dB} (m);

对于当前帧m，计算所有子带能量和的对数能量，计算公式如下：

E_{tot} (m) = 10 \log_{10} (Σ_{i = 0}^{N_{b} - 1} E_{ch} (m, i))

计算加窗因子：

α (m) = α_{H} - \frac{α_{H} - α_{L}}{E_{H} - E_{L}} (E_{H} - E_{tot} (m))

然后对计算出来的加窗因子进行限幅。

α(m)＝max{α_L，min{α_H，α(m)}}

其中E_H和E_L是E_tot的最大和最小值点。而加窗因子限幅为α_L≤α(m)≤α_H。

这些常数定义为：E_H＝50dB，E_L＝30dB，α_H＝0.99，α_L=0.50。N_b＝16。

在下一帧中，更新长时间平均能量的公式为：

{\overset{&OverBar;}{E}}_{dB} (m + 1, i) = α (m) \overset{&OverBar;}{E_{dB}} (m, i) + (1 - α (m)) E_{dB} (m, i)

声音度量估计器，与所述的子带信噪比估计器相连，接收来自所述子带信噪比估计器的语音信号，并对其声音度量进行估计，具体实现方式为：

v (m) = Σ_{i = 0}^{N_{b} - 1} V (σ_{q} (i))

其中V(k)是下面90个元素的度量表V中的第k个值，定义如下：

V＝{2，2，2，2，2，2，2，2，2，2，2，3，3，3，3，3，4，4，4，5，5，5，6，6，7，7，7，8，8，9，9，10，10，11，12，12，13，13，14，15，15，16，17，17，18，19，20，20，21，22，23，24，24，25，26，27，28，28，29，30，31，31，32，33，34，35，36，37，37，38，39，40，41，42，43，44，45，46，47，48，49，50，50，50，50，50，50，50，50，50，50}

噪声更新判决模块，分别与所述的声音度量估计器和频谱背离估计器相连，其作用为：利用声音度量估计器的结果和频谱背离估计器的结果，进行判决本帧是否为噪声帧。

update_flag＝FALSE

if(v(m)＜＝UPDATE_THLD)

{
        <!-- SIPO <DP n="11"> -->
        <dp n="d11"/>
    update_flag＝TRUE

    update_cnt＝0

}

else if(Etot(m)＞NOISE_FLOOR_CHAN&& ΔE(m)＜DEV_THLD)

{

    update_cnt++

    if(update_cnt＞＝UPDATE_CNT_THLD)

        update_flag＝TRUE

}

if(update_cnt＝＝last_update_cnt)

    hyster_cnt++

else

    hyster_cnt＝0

last_update_cnt＝update_cnt

if(hyster_cnt＞HYSTER_CNT_THLD)

    update_cnt＝0

强制更新判决模块，与所述的噪声更新判决模块相连，其作用为：监控所述的噪声更新判决模块，在数据中存在静音期，将导致长时间背景噪声无法更新，如果长时间噪声更新判决模块无法判决到更新状态，则当计时器计数值大于一规定值时，将强制更新，更新的背景噪声取这段时间内能量的最小值。

自动增益控制模块，分别与所述的子带能量估计模块和频域变换模块相连，其作用为：依据输入声音的能量，来控制输出声音的大小，调整输出声音的电平。另外外部的回声抵消模块也可以提供一个标志：echo_flag，如果echo_flag为TRUE，表示输入中没有本地语音输入。具体实现方式为：

E_{gain} = {10 \log}_{10} Σ_{i = 0}^{N_{c} - 1} (E_{ch} (m, i) \times (f_{H} (i) - f_{L} (i) + 1))

计算出全带或者部分子带的能量和以后，计算自动增益控制的增益因子：

如下描述的伪代码：

if((update_flag＝＝FALSE)&&(echo_flag＝＝FALSE))

{

    if(first_time＝＝TRUE)

    {

       first_time＝FALSE；

        short_dB＝Egain；

        long_dB＝Egain；

    }

    if(first_time＝＝FALSE)

    {

        short_dB＝α1×short_dB+(1-α1)×Egain

        if(short_dB＜long_dB)

            long_dB＝α2×long_dB+(1-α2)×short_dB

        else

            long_dB＝α3×long_dB+(1-α3)×short_dB

        gain_dB＝β×gain_dB+(1-β)×(targ et_dB-long_dB)

        gain_dB＝max{0，min{-12，gain_dB}}

    }

}

其中α₁可以定义为0.8，为短时加权因子。

α₂可以定义为0.9；α₃可以定义为0.99，这两个参数为长时加权因子。

β定义为0.8，为增益平滑因子，防止增益的突变，造成经过增益自动控制后，语音信号的起伏。

最后对自动增益控制的增益因子进行限幅。

子带信噪比修正模块，分别与所述的声音度量估计器、噪声更新判决模块及子带信噪比估计器相连，其作用为：针对需要调整的子带信噪比，进行判断和调整，其具体过程为：

index_cnt＝0

for(i＝NM to Nc-1 step 1)

    {

        if(σq(i)≥INDEX_THLD)

            index_cnt＝index_cnt+1

    }
        <!-- SIPO <DP n="13"> -->
        <dp n="d13"/>
    if(index_cnt＜INDEX_CNT_THLD)

        modify_flag＝TRUE；

    else

        modify_flag＝FALSE

    if(modify_flag＝＝TRUE)

        for(i＝0 to Nc-1 step 1)

            if((v(m)≤METRIC_THLD)or(σq(i)≤SETBACK_THLD))

                σq′(i)＝1

            else

                σq′(i)＝σq(i)

    else

        {σq′}＝{σq}
    for(i＝0 to Nc-1 step 1)

    if(σq′(i)＜σth)

        σq″＝σth

    else

        σq″＝σth′

全带信噪比计算模块，与所述的子带信噪比修正模块相连，计算过程为：

首先计算全带信噪比，并进行限幅，计算公式为：

σ_{all} = 0.375 \times \frac{1}{N_{H} - N_{L} + 1} Σ_{i = N_{L}}^{N_{H}} σ_{q}^{''}

σ_all＝max{σ_{all_min}，σ_all}

其中，最小值常数σ_{all_min}＝6。

然后对计算出的全带信噪比进行长时平滑

子带增益计算模块，分别与所述的子带信噪比修正模块及全带信噪比计算模块相连，作用为计算各个子带的衰减增益，其中，为了防止在不同信噪比情况下，衰减增益过大，造成语音的失真，在计算增益时，要进行加权平滑。另外还在前一帧的子带衰减增益对当前帧子带增益进行加权，以缓和前后帧之间的衰减增益的突变，防止因衰减，造成的主观听觉感觉的不适。

背景噪声估计器，分别与所述的子带增益计算模块、子带信噪比估计器及频谱偏离估计器相连，作用为：实时的估计输入噪声的能量，具体的估计过程如下：

if(signal_number＝＝FALSE)

if(update_flag＝TRUE)

E_n(m+1，i)＝max{E_min，α_nE_n(m，i)+(1-α_n)E_ch(m，i)}

else

E_n(m+1，i)＝max{E_min，α_nE_n(m，i)+(1-α_n)noise_temp(m，i)}

在开始的四帧中，E_n(m，i)初始化为：

E_n(m，i)＝max{E_init，E_ch(m，i)}

其中E_init＝0.0625

频域滤波器，与所述的自动增益控制模块相连，其作用为：对各个子带进行增益控制，达到降噪的目的，具体的实现方式如下：

H (k) = \{\begin{matrix} γ_{gain} (i) G (k) \\ G (k) \end{matrix}

f_L(i)≤k≤f_H(i)0≤i≤N_c

else

H′(k)＝gain_dB×H(k)

时域变换模块，与所述的子带增益计算模块相连，接收经过频域变换的语音信号并将其转换为时域信号并输出。具体的变换方式如下：

h (m, n) = \frac{1}{2} Σ_{k = 0}^{M - 1} H (k) e^{j 2 πnk / M}

h^{'} (n) = \{\begin{matrix} h (m, n) + h (m - 1, n + L); & 0 \leq n < M - L \\ h (m, n); & M - L \leq n < L \end{matrix}

然后再对上述输出信号进行后处理，进行加权计算：

S(n+1)＝h′(n)+ζ_dS(n-1)

结合上述的系统，下面对本发明的语音增强的方法作详细说明：

第一实施例：一种语音增强的方法包括如下步骤：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

4、对当前帧进行判决，判断是否是噪声；

5、根据计算的子带能量，计算自动增益控制增益；

9、根据噪声判决，对噪声进行更新；

所述步骤5中的计算自动增益控制增益具体包括如下的步骤：

51、计算全带或者部分子带的加权能量；

54、利用短时能量对长时能量进行加权平滑更新；

57、对计算的自动衰减增益进行限幅。

所述的步骤54中利用短时能量对长时能量进行加权平滑更新时，如果短时能量小于长时能量，则采用第一加权平滑因子α₁；如果短时能量大于长时能量，采用第二加权平滑因子α₂，在具体应用时，所述的第一加权平滑因子α₁＝0.9，第二加权平滑因子α₂＝0.99，另外，第一加权平滑因子也可以设置为0.8。

所述步骤6中计算全带信噪比具体包括如下的步骤：

61、计算当前帧的全带信噪比；

62、对计算的当前帧的全带信噪比进行限幅；

所述步骤61中计算当前帧的全带信噪比，具体有四种方式：

第一种、对所有的子带的信噪比进行平均。

第三种、取全带能量和估计的全带噪声能量的比值。

631、先利用计算的当前帧的全带信噪与前一帧的短时全带信噪比进行加权，计算当前帧的短时全带信噪比，加权因子为β，具体应用时可选加权因子β＝0.98；

所述步骤632的在计算当前帧的长时全带信噪比时，需比较短时全带信噪比与前一帧的长时全带信噪比，如果短时全带信噪比小于或者小于等于长时全带信噪比，采用第一加权因子β₁；否则，采用第二加权因子β₂，在具体应用时，所述第一加权因子β₁＝0.995，第二加权因子β₂＝0.99。

73、利用全带信噪比对各个子带的初始去噪衰减增益进行调整，得到中间去噪衰减增益，在全带信噪比高，衰减增益调高，或者调低；

74、利用前面一定数目帧的子带去噪衰减增益对子带的中间的去噪衰减增益进行调整，当以前一定数目的帧的信号特征是缓慢变化时，限制中间的去噪衰减增益大的变化率；在以前一定数目的帧的信号特征是快速变化时，则反之。

第二实施例，一种语音增强的方法，由下面步骤构成：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

5、根据计算的子带能量，计算自动增益控制增益；

6、对估计的各个子带信噪比进行调整；

10、根据噪声判决和强制更新判决，对噪声进行更新；

所述步骤4中的强制更新判决，具体由下列步骤组成：

41、启动一个计数器，在更新判决当前帧为非噪声帧时，开始进行强制更新判决；

43、当计数器不等于0时，在各个子带，对强制更新的噪声和当前帧的能量进行比较，取其最小值。

另外由于输入数据中可能包括电回声或者声学回声，所以，自动增益控制除了判断是否是噪声帧外，由于在非噪声帧中可能还包括回声帧，还应增加回声帧判断的自动增益控制计算增益的步骤，具体为：

A、计算全带或者部分子带的加权能量；

D、利用短时能量对长时能量进行加权平滑更新；

G、对计算的自动衰减增益进行限幅。

第三实施例，一种语音增强的方法，由下面步骤构成：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

5、对估计的各个子带信噪比进行调整；

9、根据噪声判决和强制更新判决，对噪声进行更新；

第四实施例，一种语音增强的方法，由下面步骤构成：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

4、对当前帧进行判决，确认是否为噪声帧；

5、根据计算的子带能量，计算自动增益控制增益；

7、根据噪声判决和强制更新判决，对噪声进行更新；

第五实施例，一种语音增强的方法，由下面步骤构成：

1、对信号进行分帧，加权预处理后，加窗变换到频域；

2、对频域信号进行分子带，计算各个子带的能量；

3、计算各个子带的信噪比；

4、对当前帧进行判决，确认是否为当前帧；

5、对估计的各个子带信噪比进行调整；

8、根据噪声判决和强制更新判决，对噪声进行更新；

Claims

1、一种语音增强的方法，其特征在于，包括如下步骤：

(1)对信号进行分帧，加权预处理后，加窗变换到频域；

(2)对频域信号进行分子带，计算各个子带的能量；

(3)计算各个子带的信噪比；

(4)对当前帧进行判决，判断是否是噪声；

(5)根据计算的子带能量，计算自动增益控制增益；

(6)根据各个子带的信噪比或者背景噪声能量和当前帧能量，计算全带信噪比或者部分子带加权信噪比，计算全带信噪比；

(7)根据计算的全带信噪比和各个子带信噪比进行估计各个子带的衰减增益，利用以前帧计算出的子带衰减增益，对计算的各个子带衰减增益进行平滑处理；

(8)用计算的自动增益控制增益，对频谱进行处理，达到自动增益控制，利用计算的各个子带衰减增益对各个子带的频谱进行处理，达到去噪的目的；

(9)根据噪声判决，对噪声进行更新；

(10)把处理后的频谱信号变换到时间域，进行加权处理，变成输出信号。

2、如权利要求1所述的方法，其特征在于，所述步骤(5)中的计算自动增益控制增益具体包括如下的步骤：

(51)计算全带或者部分子带的加权能量；

(52)当当前帧为非噪声帧的一次帧时，用计算的全带或者部分子带的加权能量对短时能量和长时能量进行初始化；

(53)当前帧不是非噪声帧的第一帧时，先对短时能量进行加权平滑更新；

(54)利用短时能量对长时能量进行加权平滑更新；

(55)计算长时能量与目标能量阈值进行相减，得到自动的衰减增益；

(56)利用前一帧的衰减增益，对当前帧计算的自动衰减增益进行平滑；

(57)对计算的自动衰减增益进行限幅。

3、如权利要求2所述的方法，其特征在于，所述的步骤(54)中利用短时能量对长时能量进行加权平滑更新时，如果短时能量小于长时能量，则采用第一加权平滑因子α₁；如果短时能量大于长时能量，采用第二加权平滑因子α₂。

4、如权利要求3所述的方法，其特征在于，所述的第一加权平滑因子α₁＝0.9，第二加权平滑因子α₂＝0.99。

5、如权利要求1至4中任一项所述的方法，其特征在于，所述步骤(6)中计算全带信噪比具体包括如下的步骤：

(61)计算当前帧的全带信噪比；

(62)对计算的当前帧的全带信噪比进行限幅；

(63)用计算的当前帧的全带信噪比对最终的长时全带信噪比进行加权平滑。

6、如权利要求5所述的方法，其特征在于，所述步骤(61)中计算当前帧的全带信噪比，具体有四种方式：

第一种、对所有的子带的信噪比进行平均；

第二种、对所有的子带的信噪比进行加权平均，权值可以为0；

第三种、取全带能量和估计的全带噪声能量的比值；

7、如权利要求6所述的方法，其特征在于，所述步骤(63)中用计算的当前帧的信噪比对最终的长时全带信噪比进行加权平滑，具体包括如下步骤：

(631)先利用计算的当前帧的全带信噪与前一帧的短时全带信噪比进行加权，计算当前帧的短时全带信噪比；

(632)利用短时全带信噪比与前一帧的长时全带信噪比进行加权，计算当前帧的长时全带信噪比。

8、如权利要求7所述的方法，其特征在于，所述步骤(632)的在计算当前帧的长时全带信噪比时，需比较短时全带信噪比与前一帧的长时全带信噪比，如果短时全带信噪比小于或者小于等于长时全带信噪比，采用第一加权因子β₁；否则，采用第二加权因子β₂。

9、如权利要求8所述的方法，其特征在于，所述第一加权因子β₁＝0.995，第二加权因子β₂＝0.99。

10、如权利要求1至4中任一项所述的方法，其特征在于，所述步骤(7)中根据计算的全带信噪比和各个子带信噪比进行估计各个子带的衰减增益具体包括：

(71)利用各个子带的信噪比计算各个子带的初始的去噪衰减增益；

(72)利用全带信噪比对各个子带的初始去噪衰减增益进行调整，得到中间去噪衰减增益，在全带信噪比高，衰减增益调高，或者调低；

(73)利用前面一定数目帧的子带去噪衰减增益对子带的中间的去噪衰减增益进行调整，当以前一定数目的帧的信号特征是缓慢变化时，限制中间的去噪衰减增益大的变化率；在以前一定数目的帧的信号特征是快速变化时，则反之。

11、一种语音增强的方法，其特征在于，包括如下步骤：

(1)对信号进行分帧，加权预处理后，加窗变换到频域；

(2)对频域信号进行分子带，计算各个子带的能量；

(3)计算各个子带的信噪比；

(4)根据计算的信噪比和子带能量，计算声音度量和频谱偏离，从而进行噪声判决，根据噪声判决的结果进行判断是否需要进行强制更新判决；

(5)根据计算的子带能量，计算自动增益控制增益；

(6)对估计的各个子带信噪比进行调整；

(7)根据各个子带的信噪比或者背景噪声能量和当前帧能量，计算全带信噪比或者部分子带加权信噪比，计算全带信噪比；

(8)根据计算的全带信噪比，各个子带信噪比进行估计各个子带的衰减增益，利用以前帧计算出的子带衰减增益，对计算的各个子带衰减增益进行平滑处理；

(9)用计算的自动增益控制增益，对频谱进行处理，达到自动增益控制，利用计算的各个子带衰减增益对各个子带的频谱进行处理，达到去噪的目的；

(10)根据噪声判决和强制更新判决，对噪声进行更新；

(11)把处理后的频谱信号变换到时间域，进行加权处理，变成输出信号。

12、如权利要求11所述的方法，其特征在于，所述步骤(4)中的强制更新判决包括下述步骤：

(41)启动一个计数器，在更新判决当前帧为非噪声帧时，开始进行强制更新判决；

(42)当计数器为0时，对强制更新的噪声进行赋值，赋值为当前帧的各个子带能量；

(43)当计数器不等于0时，在各个子带，对强制更新的噪声和当前帧的能量进行比较，取其最小值；

(44)计数器加1，当计数器等于一个阈值，用计算的强制更新噪声去更新噪声，同时计数器清0。

13、如权利要求11所述的方法，其特征在于，所述的方法还包括回声帧判断的自动增益控制计算增益的步骤，具体为：

A、计算全带或者部分子带的加权能量；

D、利用短时能量对长时能量进行加权平滑更新；

G、对计算的自动衰减增益进行限幅。

14、一种语音增强的方法，其特征在于，包括如下步骤：

(1)对信号进行分帧，加权预处理后，加窗变换到频域；

(2)对频域信号进行分子带，计算各个子带的能量；

(3)计算各个子带的信噪比；

(4)根据计算的信噪比和子带能量，计算声音度量和频谱偏离，从而进行噪声判决，根据噪声判决的结果进行判断是否需要进行强制噪声判决；

(5)对估计的各个子带信噪比进行调整；

(7)根据计算的全带信噪比，各个子带信噪比进行估计各个子带的衰减增益，利用以前帧计算出的子带衰减增益，对计算的各个子带衰减增益进行平滑处理；

(8)利用计算的各个子带衰减增益对各个子带的频谱进行处理，达到去噪的目的；

(9)根据噪声判决和强制更新判决，对噪声进行更新；

15、一种语音增强的方法，其特征在于，包括如下步骤：

(1)对信号进行分帧，加权预处理后，加窗变换到频域；

(2)对频域信号进行分子带，计算各个子带的能量；

(3)计算各个子带的信噪比；

(4)对当前帧进行判决，确认是否为噪声帧；

(5)根据计算的子带能量，计算自动增益控制增益；

(6)用计算的自动增益控制增益，对频谱进行处理，达到自动增益控制；

(7)根据噪声判决和强制更新判决，对噪声进行更新；

(8)把处理后的频谱信号变换到时间域，进行加权处理，变成输出信号。

16、一种语音增强的方法，其特征在于，包括如下步骤：

(1)对信号进行分帧，加权预处理后，加窗变换到频域；

(2)对频域信号进行分子带，计算各个子带的能量；

(3)计算各个子带的信噪比；

(4)对当前帧进行判决，确认是否为当前帧；

(5)对估计的各个子带信噪比进行调整；

(6)根据各个子带信噪比进行估计各个子带的衰减增益，利用以前帧计算出的子带衰减增益，对计算的各个子带衰减增益进行平滑处理；

(7)利用计算的各个子带衰减增益对各个子带的频谱进行处理，达到去噪的目的；

(8)根据噪声判决和强制更新判决，对噪声进行更新；

(9)把处理后的频谱信号变换到时间域，进行加权处理，变成输出信号。