CN101802910A

CN101802910A - 利用话音清晰性的语音增强

Info

Publication number: CN101802910A
Application number: CN200880106534A
Authority: CN
Inventors: 俞容山; C·菲利普·布朗
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2007-09-12
Filing date: 2008-09-10
Publication date: 2010-08-11
Anticipated expiration: 2028-09-10
Also published as: EP2191466B1; JP2010539539A; WO2009035614A1; BRPI0816792A2; RU2469423C2; EP2191466A1; BRPI0816792B1; JP5302968B2; RU2010114272A; US20100211388A1; CN101802910B; US8583426B2

Abstract

一种用于增强由语音成分和噪声成分组成的音频信号的语音成分的方法对该语音信号的子带进行处理，该处理包括：控制音频信号在子带中的多个子带内的增益，其中，至少通过用于传送增益上的加性/减性的差或增益的相乘的比率的处理来控制子带内的增益，以随着在子带内噪声成分的电平相对于语音成分的电平增大而减小子带内的增益，以及当在音频信号的各子带内存在语音成分时增大子带内的增益，这些处理均响应于音频信号的子带并彼此独立地控制增益，以提供经处理的子带音频信号。

Description

利用话音清晰性的语音增强

技术领域

本发明涉及音频信号处理。更具体地，本发明涉及一种用于带噪音频语音信号(noisy audio speech signal)的语音增强和清晰性的处理方法或处理器。本发明还涉及用于实现这类方法或者控制这类设备的计算机程序。

所结合的参考文件

以下公开文件均通过引用的方式整体结合于此。

[1]S.F.Boll，“Suppression of acoustic noise in speech using spectralsubtraction，”IEEE Trans.Acoust.，Speech，Signal Processing，vol.27，pp.113-120，Apr.1979.

[2]Y.Ephraim，H.Lev-Ari和W.J.J.Roberts，“A brief survey of SpeechEnhancement，”The Electronic Handbook，CRC Press，April 2005.

[3]Y.Ephraim和D.Malah，“Speech enhancement using a minimummean square error short time spectral amplitude estimator，”IEEE Trans.Acoust.Speech，Signal processing，vol.32，pp.1109-1121，Dec.1984.

[4]Thomas，I.和Niederjohn，R.，“Preprocessing of Speech for AddedIntelligibility in High Ambient Noise”，34th Audio Engineering SocietyConvention，March 1968.

[5]Villchur，E.，“Signal Processing to Improve Speech Intelligibility forthe Hearing Impired”，99th Audio Engineering Society Convention，September 1995.

[6]N.Virag，“Single channel speech enhancement based on maskingproperties of the human auditory system”，IEEE Tran.Speech and AudioProcessing，vol.7，pp.126-137，Mar.1999.

[7]R.Martin，“Spectral subtraction based on minimum statistics”，in Proc.EUSIPCO，1994，pp.1182-1185.

[8]P.J.Wolfe和S.J.Godsill，“Efficient alternatives to Ephraim andMalah suppression rule for audio signal enhancement”，EURASIP Journalon Applied Signal Processing，vol.2003，Issue 10，Pages 1043-1051，2003.

[9]B.Widrow和S.D.Stearns，Adaptive Signal Processing.EnglewoodCliffs，NJ：Prentice Hall，1985.

[10]Y Ephraim和D.Malah，“Speech enhancement using a minimummean square error Log-spectral amplitude estimator”，IEEE Trans.Acoust.，Speech，Signal Processing，vol.33，pp.443-445，Dec.1985.

[11]E.Terhardt，“Calculating Virtual Pitch”，Hearing Research，pp.155-182，1，1979.

[12]ISO/IEC JTC1/SC29/WG11，Information technology-Coding ofmoving pictures and associated audio for digital storage media at up to about1.5Mbit/s-Part3：Audio，IS 11172-3，1992.

[13]J.Johuston，“Transform coding of audio signals using perceptualnoise criteria”，IEEE.J Select.Areas Commun.，vol.6，pp.314-323，Feb.1998.

[14]S.Gustfsson，P.Jax，P Vary，“A novel psychoacoustically motivatedaudio enhancement algorithm preserving background noisecharacteristics”，Proceedings of the 1998 IEEE International Conferenceon Acoustics，Speech，and Signal Processing，1998.ICASSP’98.

[15]Yi Hu和P.C.Loizou，“Incorporating a psychoacoustic model infrequency domain speech enhancement”，IEEE Signal Processing Letter，pp.270-273，vol.11，no.2，Feb.2004.

[16]L.Lin，W.H.Holmes，和E.Ambikairajah，“Speech denoising usingperceptual modification of Wiener filtering”，Electronics Letter，pp1486-1487，vol.38，Nov，2002.

[17]A.M.Kondoz，“Digital Speech：Coding for Low Bit RateCommunication System”，John Wiley&Sons，Ltd.，2^nd Edition，2004，Chichester，England，Chapter 10：Voice Activity Detection，pp.357-377.

发明内容

根据本发明的第一方面，对由语音成分和噪声成分组成的音频信号的语音成分进行增强。将音频信号从时域改变为频域内的多个子带。随后，对音频信号的子带进行处理。该处理包括：控制音频信号在所述子带中的多个子带内的增益，其中，至少通过用于传送(convey)增益上的加性/减性的差或增益的相乘比率的处理来控制子带内的增益，以(1)随着在子带内噪声成分的电平相对于语音成分的电平增大而减小子带内的增益，以及(2)当在音频信号的子带内存在语音成分时增大子带内的增益。这些处理均响应于音频信号的子带并彼此独立地控制增益，以提供经处理的子带音频信号。将经处理的子带音频信号从频域改变为时域，以提供增强了语音成分的音频信号。

这些处理可以包括语音增强处理，语音增强处理响应于音频信号的子带，以随着在这些子带内的噪声成分的电平相对于语音成分的电平增大而减小这些子带内的增益。

这些处理可以包括话音清晰性处理，话音清晰性处理响应于音频信号的子带，以当在音频信号的子带内存在语音成分时增大子带中的多个子带内的增益。当从存在语音成分转变为不存在语音成分时，可以根据时间平滑减小增益增量。

这些处理还可以包括话音活动检测处理，话音活动检测处理响应于音频信号的子带，以确定何时在带噪语音信号内存在语音，话音清晰性处理还响应于所述话音活动检测处理。

当这些处理包括响应于音频信号的子带以确定何时在带噪语音信号内存在语音的话音活动检测处理时，所述语音增强处理和话音清晰性处理中的每一个还可以响应于话音活动检测处理。

根据本发明的另一方面，对由语音成分和噪声成分组成的音频信号的语音成分进行增强。将音频信号从时域改变为频域内的多个子带。随后，对音频信号的子带进行处理。该处理包括：当在音频信号的子带内存在语音成分时增大子带内的增益，以提供经处理的子带音频信号。对经处理的子带音频信号的子带进行处理，该处理包括控制经处理的子带音频信号在所述子带的多个子带内的增益，其中，随着在子带内噪声成分的电平相对于语音成分的电平增大而减小子带内的增益，以提供经进一步处理的子带音频信号。将该经进一步处理的子带音频信号从频域改变为时域，以提供增强了语音成分的音频信号。

处理可以包括语音增强处理，语音增强处理响应于音频信号中经处理的子带，以随着在这些子带内噪声成分的电平相对于语音成分的电平增大而减小这些子带内的增益。

进一步处理可以包括话音清晰性处理，话音清晰性处理响应于音频信号的子带，以当在音频信号的子带内存在语音成分时增大子带中的多个子带内的增益。当从存在语音成分转变为不存在语音成分时，可以根据时间平滑减小增益增量。

处理和/或进一步处理可以包括话音活动检测处理，话音活动检测处理响应于音频信号的子带，以确定何时在带噪语音信号内存在语音，话音清晰性处理还响应于话音活动检测处理。

处理和/或进一步处理可以包括话音活动检测处理，话音活动检测处理响应于音频信号的子带，以确定何时在带噪语音信号内存在语音，所述语音增强处理和所述话音清晰性处理中的每一个还响应于话音活动检测处理。

处理可以包括语音活动检测处理，其响应于音频信号的子带，以确定何时在带噪语音信号内存在语音，所述语音增强处理和话音清晰性处理中的每一个还响应于所述话音活动检测处理。

附图说明

图1是示出本发明的示例性实施例的功能框图。

图2是示出本发明的可选示例性实施例的功能框图。

图3是示出作为E_k(m)/E_max(m)的函数的GVC_k(m)的值的曲线图。

图4是与图1的示例性实施例有关的流程图。

图5是与图2的示例性实施例有关的流程图。

具体实施方式

图1示出根据第一拓扑功能配置的本发明的各方面的示例性实施例。通过对既包括干净语音又包括噪声的模拟语音信号进行数字化来生成输入。然后，将未改变的音频信号y(n)(“带噪语音”)(其中，n＝0，1，...是时间指数)发送至解析滤波器组装置或功能(“解析滤波器组”)2，从而产生K多个子带信号Y_k(m)，k＝1，...，K，m＝0，1，...，∞，其中，k是子带号，m是每个子带信号的时间指数。解析滤波器组2将该音频信号从时域改变为频域中的多个子带。

将子带信号应用于噪声降低装置或功能(“语音增强”)4、话音活动检测器或检测功能(“VAD”)6和话音清晰性改善器或者改善功能(“话音清晰性”)8。

响应于所输入的子带信号并且可选地响应于VAD 6，语音增强4控制用于对子带信号的幅度进行定标(scale)的增益定标因数GNR_k(m)。这种增益定标因数向子带信号的应用由乘法器符号10象征性地示出。为了表示清楚，附图示出了生成增益定标因数并将该增益定标因数应用于多个子带信号(k)中的仅一个子带信号的详情。

通过语音增强4来控制增益定标因数GNR_k(m)的值，从而大大地抑制噪声成分(低信噪(“SNR”))占支配地位的子带，而保留受语音(高SNR)支配的子带。GNR_k(m)的值在信噪比(SNR)减小的频率区域内减小(较强抑制)，反之亦然。

响应于所输入的子带信号，VAD 6确定何时在带噪语音信号y(n)内存在语音，例如，假设存在语音时VAD＝1输出，而不存在语音时VAD＝0输出。

响应于所输入的子带信号并响应于VAD 6，话音清晰性8控制用于对子带信号的幅度进行定标的增益定标因数GVC’_k(m)。这种将增益定标因数应用于子带信号由乘法器符号12象征性地示出。通过话音清晰性8来控制增益定标因数GVC’_k(m)的值，以加强对语音的可懂度(intelligibility)重要的子带。通过VAD 6来控制话音清晰性8，从而增益因数GVC’_k(m)提供存在语音时的话音频谱的至少一部分内的加强。如下文进一步说明的，当在没有语音的情况下切断加强时，可以应用平滑以使可听伪像(audible artifact)的引入最小化。

因此，通过将增益定标因数GNR_k(m)和GVC’_k(m)应用于未增强的输入的子带信号Y_k(m)来提供增强后的子带语音信号

这可以表示为：

{\tilde{Y}}_{k} (m) = {GNR}_{k} (m) \cdot {GVC}_{k}^{'} (m) \cdot Y_{k} (m) - - - (1)

点符号(“·”)表示乘法。可以将增益定标因数GNR_k(m)和GVC’_k(m)以任一顺序应用于未增强的输入的子带信号Y_k(m)——语音增强4和语音清晰性8彼此去耦合并且对子带信号独立地进行运算。

然后，可以通过使用产生增强的语音信号

的合成滤波器组装置或处理(“合成滤波器组”)14，来将经处理的子带信号

转换到时域。合成滤波器组将经处理的音频信号从频域改变到时域。图4的流程图示出了基于图1的示例性实施例的处理。最后的步骤表示接着将时间指数m加一(“m←m+1”)并重复图4的处理。

子带音频装置和处理可以使用模拟技术或数字技术，或者这两种技术的混合。子带滤波器组可以通过一组数字带通滤波器或者通过一组模拟带通滤波器来实现。对于数字带通滤波器，在滤波之前对输入信号进行采样。使样本通过数字滤波器组，然后，对样本进行下采样以获得子带信号。每个子带信号包括代表输入信号谱的一部分的样本。对于模拟带通滤波器，将输入信号划分为几个模拟信号，其中，每一个模拟信号均具有对应于滤波器组带通滤波器带宽的带宽。子带模拟信号可以保持为模拟形式或者通过采样并量化而转换成数字形式。

可以使用实现几个时域到频域变换中的任一个的变换编码器(其起到一组数字带通滤波器的作用)来获得子带音频信号。在滤波之前将采样后的输入信号分割成“信号样本块”。可以将一个或多个相邻的变换系数或面元(bin)组合在一起，以限定具有作为各个变换系数带宽的总和的有效带宽的“子带”。

尽管可以使用模拟或数字技术或者甚至这些技术的混合配置来实现本发明，但是使用数字技术更方便地实现了本发明，并且本文中所公开的优选实施例是数字实施方式。因此，解析滤波器组2和合成滤波器组14可以分别通过任何适合的滤波器组和逆滤波器组或者变换或逆变换来实现。

图2示出根据可选的拓扑功能配置的本发明的示例性实施例。与图2中的装置和功能相对应的装置和功能采用相同的参考标号。

图2与图1不同之处在于，语音增强4和话音清晰性8彼此没有去耦合，并且没有对子带信号单独进行运算。首先，将子带信号应用于话音清晰性8和VAD 6。将话音清晰性增益定标因数GVC’_k(m)应用于乘法器12。如图1的拓扑结构，通过VAD 6来控制语音清晰性8，从而当存在语音时，增益因数GVC’_k(m)选择性地提供加强。不同于图1的拓扑结构，语音增强4接收在乘法器12的输出端处的经语音清晰性处理后的子带信号

并对该子带信号进行运算，而不是未增强的子带信号Y_k(m)。这可以表示为：

点符号(“·”)表示乘法。

图1的拓扑结构和图2的拓扑结构都允许使用噪声抑制和信号加强语音增强，而不是取消了噪声抑制的信号加强。

尽管在图1和图2中示出了用乘法控制子带幅度的增益定标因数，但是本领域的普通技术人员可以明了可以采用等价的加法/减法配置。

图6的流程图示出基于图2的示例性实施例的处理。如图5的流程图，最后的步骤表示接着将时间指数m加一(“m←m+1”)并重复图6的处理。

语音增强4

在本发明的实际实施例中，可以将各种谱增强装置和功能用于实现语音增强4。在这些谱增强装置和功能之中，有采用基于VAD的噪声电平估计器的装置和功能以及采用基于统计的噪声电平估计器的装置和功能。这些有用的谱增强装置和功能可以包括在上文所列出的参考文件1、2、3、6和7中以及在下列的四份美国临时专利申请中所述的装置和功能：

(1)Rongshan Yu的“Noise Variance Estimator for SpeechEnhancement”，S.N.60/918,964，于2007年3月19日提交；

(2)Rongshan Yu的“Speech Enhancement Employing a PerceptualModel”，S.N.60/918,986，于2007年3月19日提交；以及

(3)Rongshan Yu的“Speech Enhancement with Noise LevelEstimation Adjustment”，S.N.60/993,548，于2007年9月12日提交。

(4)C.Philip Brown的“Speech Enhancement”，S.N.60/993,601，于2007年9月12日提交。

可以将语音增强增益因数GNR_k(m)称为“抑制增益”，这是因为其目的是抑制噪声。一种控制抑制增益的方式被称为“谱减法”(参考文件[1]、[2]和[7])，其中，应用于子带信号Y_k(m)的抑制增益GNR_k(m)可以表示为：

{GNR}_{k} (m) = \sqrt{1 - a \frac{{λk}_{(m)}}{{| Y_{k} (m) |}^{2}}}, - - - (3)

其中，|Y_k(m)|是子带信号Y_k(m)的幅度，λ_k(m)是子带k内的噪声能量，以及a＞1是被选择用来确保应用了足够的抑制增益的“过减法”因数。在参考文件[7]的第2页和参考文件6的第127页进一步说明了“过减法”。

为了确定抑制增益的适当量，对输入信号内的子带进行噪声能量的精确估计是重要的。然而，当在输入信号中噪声信号与语音信号混合在一起时，这样做并不是平常的任务。解决这个问题的一种方式是使用基于话音活动检测的噪声电平估计器(其使用独立的话音活动检测器(VAD))，以确定在输入信号中是否存在语音信号。在不存在语音(VAD＝0)的时段期间更新噪声能量。例如，参见参考文件[3]。在这种噪声估计器中，关于时间m的噪声能量估计λ_k(m)可以通过下式给出：

λ_{k} (m) = \{\begin{matrix} β λ_{k} (m - 1) + (1 - β) {| Y_{k} (m) |}^{2} & VAD = 0; \\ λ_{k} (m - 1) & VAD = 1 . \end{matrix} - - - (4)

噪声能量估计λ_k(-1)的初始值可以被设定为零，或者设定为在该处理的初始化阶段期间所测量出的噪声能量。参数β是具有值0＜＜β＜1的平滑因数。当不存在语音(VAD＝0)时，可以通过对输入信号Y_k(m)的功率进行第一阶时间平滑器操作(有时称为“漏积分器”)，来获得噪声能量的估计。平滑因数β可以是比一略小的正值。通常，对于固定的输入信号，接近于一的β值会导致更精确的估计。另一方面，值β不应太接近于一，以避免当输入变为不固定时损失追踪噪声能量的变化的能力。在本发明的实际实施例中，已经找到值β＝0.98，用来提供令人满意的结果。然而，该值不是关键的。还可以通过使用可以是非线性或线性的更复杂的时间平滑器(诸如，多极低通滤波器)来估计噪声能量。

如在任何数字系统中，每个m的时间段是由子带的采样率来确定的。所以，其可以随着输入信号的采样率和所使用的滤波器组而变化。在实际的实施方式中，在具有8kHz语音信号并且滤波器组具有32的下采样因数的情况下，关于每个m的时间段是1(s)/8000＊32＝4ms。

话音活动检测器(VAD)6

已知多种话音活动检测器和检测器功能。在参考文件[17]的第10章及其目录中描述了适合的这类装置或功能。

话音清晰性6

在本发明的实际实施例中，各种话音清晰性装置和功能可以用于实现话音清晰性8。

语音由在感知时所使用的多个不同的提示(cue)组成。随着从肺中排出空气，声带振动。随着空气逸出，喉、嘴和鼻调节(modify)声能以产生各种各样的声音。“元音”具有强谐波能量的区域，并且利用未受阻碍的气流而生成。“辅音”(包括“无擦通音”、“摩擦音”和“塞音(stop)”)是通过增加的限制性的气流来生成的，并且具有比元音更高的频率含量(但具有更弱的能量)。长久以来就知道语音的辅音极大地有助于可懂度；并且尽管元音通常具有更强的能量，但是元音对于可懂度的贡献相对小。基于该事实，话音清晰性装置和功能通常使用诸如参考文件[4]中的均衡器、高通斜率滤波器(shelving filter)或高通滤波器来加强频率范围，在这些频率范围内，弱辅音通常存在于语音的更高频率，以便改善可懂度。如在参考文件[5]中，类似技术还在用于听力损伤听者(他们难以感知语音信号的高频成分)的助听器应用中使用。谱拉平方法诸如以下所描述的，于2007年9月12日提交的美国临时专利申请“，”C.Phillip Brown，序列号60/993,601。话音清晰性增益定标因数增大了语音信号中的相对弱成分的电平，使得它们被人类听者更好地感知。任何特定的话音清晰性装置或功能的选择对于本发明并不是关键的。

可以通过话音清晰性处理或装置来产生话音清晰性增益GVC’_k(m)，如下：

{GVC}_{k}^{'} (m) = \{\begin{matrix} {GVC}_{k} (m) & VAD = 1 \\ κ {GVC}_{k}^{'} (m - 1) + (1 - κ) & VAD = 0 \end{matrix} - - - (5)

GVC_k(m)是当输入为语音时的话音清晰性增益，0＜κ＜1是平滑因数。κ的值控制话音清晰性增益的速度，从而在语音的暂停期间减小至一(不加强)。可以通过实验来设定其最佳值。在本发明的实际实施例中，已找到κ＝0.9的值，用来提供良好的结果。然而，该值不是关键的。因此，当存在语音成分时，话音清晰性处理使增益增大，其中，一旦从存在语音成分转变为不存在语音成分，增益随着时间平滑而减小。

具有增益因数GVC_k(m)的目的是加强所选择的频率区域相对于其他频率区域的电平，从而改善语音信号的可懂度。在本发明的一种有用实施方式中，可以将GVC_k(m)计算为G_max或具有最高能量的子带内的能量与其他子带中的每一个内的能量的成比例的比率中的较小值：

{GVC}_{k} (m) = \min [{(\frac{E_{\max} (m)}{E_{k} (m)})}^{γ / 2}, G_{\max}], - - - (6)

其中

E_k(m)＝αE_k(m)+(1-α)|Y_k(m)|²，(7)

E_{\max} (m) = \max_{k = 1, . . ., K} (E_{k} (m)), - - - (8)

0＜γ＜1是预先选择的定标因数，0＜＜α＜1是平滑因数，G_max是预先选择的最大增益。可以将初始值E_k(-1)设定为零。在进行处理后，值γ决定语音中的弱成分的能量与强成分的能量之比。例如，如果γ＝0.5，则不管子带能量E_k(m)比E_max(m)小多少，都利用它们的差的一半来加强该子带能量——实际上用作针对该子带的2-1压缩器。G_max的值控制话音清晰性算法的最大可允许的加强量。值γ和G_max控制话音清晰性处理的积极性，这是因为它们共同地决定语音中的弱成分的加强量。它们的最佳值随着在处理的信号的特性、目标应用的听觉环境和用户偏好而变化。代替加强到固定幅度，可选地，加强可以面向取决于频率的幅度，诸如由高通倾斜响应所限定的幅度。

作为实例，图3示出作为E_k(m)/E_max(m)的函数的GVC_k(m)的值。在该实例中，γ＝1和G_max＝20dB。如关于上述的平滑因数，平滑因数α可以通过诸如单极低通滤波器(有时称为“漏积分器”)的第一阶时间平滑器或者可以非线性或线性(诸如，多极低通滤波器)的较复杂的时间平滑器来实现。

实施方式

本发明可以以硬件或软件、或者两者的结合(例如，可编程的逻辑阵列)来实现。除非另外指定，否则所包括的作为本发明的一部分的处理本质上并不与任何特定的计算机或其他设备相关。特别地，各种通用机器可以与根据本文中的教导所写的程序一起使用，或者其对于构造专用设备(例如，集成电路)以进行所需的方法步骤可以更加方便。因此，本发明可以以在一个或多个可编程计算机系统上运行的一个或多个计算机程序实现，其中，每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口以及至少一个输出装置或端口。程序代码应用于输入数据，以执行本文中所述的功能并生成输出信息。以已知的方式将输出信息应用于一个或多个输出装置。

每个这样的程序可以以任何期望的计算机语言(包括机器语言、汇编语言、或高级过程语言、逻辑语言、或面向对象的编程语言)实现，以与计算机系统进行通信。在任何情况下，语言可以是编译或解释语言。

应理解，在本文的各个实例中所示出和描述的各种装置、功能和处理可以以不同于本文的附图所示的方式的方式来组合或单独示出。例如，当由计算机软件指令序列实现时，可以通过在合适的数字信号处理硬件中运行的多线程软件指令序列来实现功能，在这种情况下，附图所示的实例中的各种装置和功能可以对应于软件指令的一部分。

优选地，将每个这种计算机程序存储在或下载到可由通用或专用的可编程计算机读取的存储介质或装置(例如，固态存储器或介质，或者磁性或光学介质)，以当通过计算机系统读取存储介质或装置时对计算机进行配置和操作，以执行本文中所描述的过程。还可以将本发明的系统作为配置有计算机程序的计算机可读存储介质来实现，其中，这样配置的存储介质使计算机系统以特定且预先限定的方式来操作，以执行本文中所述的功能。

已描述了本发明的多个实施例。然而，应该理解，在不背离本发明的精神和范围的情况下，可以进行各种修改。例如，本文中所述的一些步骤可以是顺序独立的，因此，可以以与所述的顺序不同的顺序来执行这些步骤。

Claims

1.一种用于增强由语音成分和噪声成分组成的音频信号的语音成分的方法，包括：

将所述音频信号从时域改变为频域内的多个子带，

对所述音频信号的子带进行处理，所述处理包括控制所述音频信号在所述子带中的一些子带内的增益，其中，至少通过用于传送增益上的加性/减性差或增益的相乘比率的处理来控制子带内的增益，以：

随着在子带内的噪声成分的电平相对于语音成分的电平增大而减小该子带内的增益，以及

当在所述音频信号的子带内存在语音成分时增大子带内的增益，

所述处理均响应于所述音频信号的子带并彼此独立地控制增益，以提供经处理的子带音频信号，以及

将所述经处理的子带音频信号从频域改变为时域，以提供增强了语音成分的音频信号。

2.根据权利要求1所述的方法，其中，所述处理包括语音增强处理，所述语音增强处理响应于所述音频信号的子带，以随着在这些子带内的噪声成分的电平相对于语音成分的电平增大而减小这些子带内的增益。

3.根据权利要求1或权利要求2所述的方法，其中，所述处理包括话音清晰性处理，所述话音清晰性处理响应于所述音频信号的子带，以当在所述音频信号的子带内存在语音成分时增大所述多个子带中的一些子带内的增益。

4.根据权利要求3所述的方法，其中，所述处理包括话音活动检测处理，所述话音活动检测处理响应于所述音频信号的子带，以确定何时在带噪语音信号内存在语音，所述话音清晰性处理还响应于所述话音活动检测处理。

5.根据权利要求2或权利要求3所述的方法，其中，所述处理包括话音活动检测处理，所述话音活动检测处理响应于所述音频信号的子带，以确定何时在带噪语音信号内存在语音，所述语音增强处理和所述话音处理中的每一个还响应于所述话音活动检测处理。

6.根据权利要求4或5所述的方法，其中，当语音成分存在时，所述话音清晰性处理增大增益，当从存在语音成分转变为不存在语音成分时，所述增益根据时间平滑而减小。

7.一种用于增强由语音成分和噪声成分组成的音频信号的语音成分的方法，包括：

将所述音频信号从时域改变为频域内的多个子带，

对所述音频信号的子带进行处理，所述处理包括当在所述音频信号的子带内存在语音成分时增大子带内的增益，以提供经处理的子带音频信号，

对所述经处理的子带音频信号的子带进行处理，所述对经处理的子带音频信号的子带进行处理包括控制所述经处理的子带音频信号在所述子带的一些子带内的增益，其中，随着在子带内噪声成分的电平相对于语音成分的电平增大而减小该子带内的增益，以提供经进一步处理的子带音频信号，以及

将所述经进一步处理的音频信号从频域改变为时域，以提供增强了语音成分的音频信号。

8.根据权利要求7所述的方法，其中，所述处理包括语音增强处理，所述语音增强处理响应于所述音频信号经处理的子带，以随着在这些子带内噪声成分的电平相对于语音成分的电平增大而减小这些子带内的增益。

9.根据权利要求7或权利要求8所述的方法，其中，所述进一步处理包括话音清晰性处理，所述话音清晰性处理响应于所述音频信号的子带，以当在所述音频信号的子带内存在语音成分时增大所述子带中的一些子带内的增益。

10.根据权利要求9所述的方法，其中，所述处理和/或所述进一步处理包括话音活动检测处理，所述话音活动检测处理响应于所述音频信号的子带，以确定何时在带噪语音信号内存在语音，所述话音清晰性处理还响应于所述话音活动检测处理。

11.根据权利要求8或权利要求9所述的方法，其中，所述处理和/或所述进一步处理包括话音活动检测处理，所述话音活动检测处理响应于所述音频信号的子带，以确定何时在带噪语音信号内存在语音，所述语音增强处理和所述话音清晰性处理中的每一个还响应于所述话音活动检测处理。

12.根据权利要求10或11所述的方法，其中，所述话音清晰性处理在语音成分存在时增大增益，当从存在语音成分转变为不存在语音成分时，所述增益根据时间平滑而减小。

13.一种用于执行权利要求1至12中的任一项所述的方法的设备。

14.一种存储在计算机可读介质上的计算机程序，用于使计算机执行权利要求1至12中的任一项所述的方法。