CN105940449A

CN105940449A - 音频信号处理

Info

Publication number: CN105940449A
Application number: CN201580006453.8A
Authority: CN
Inventors: K·V·索伦森
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-01-31
Filing date: 2015-01-28
Publication date: 2016-09-14
Anticipated expiration: 2035-01-28
Also published as: CN105940449B; EP3080807A1; WO2015116608A1; GB201401689D0; US20150222988A1; US9924266B2

Abstract

所公开的是一种音频信号处理过程，其包括用于接收具有噪声的音频信号的输入端、可变增益组件、以及噪声抑制组件。具有噪声的音频信号具有期望的音频成分以及噪声成分。可变增益组件和噪声抑制组件分别被配置为将增益过程和噪声抑制过程施加至音频信号，从而生成增益经调整、噪声经降低的音频信号。响应于所施加的增益的改变，噪声抑制过程的激进度快速改变。该改变是从当前值改变了与所施加的增益中的改变大体上相匹配的量而达到新的值的改变。激进度接着逐渐地返回至当前值。

Description

音频信号处理

背景技术

音频信号处理是指对音频信号的有意改变以达到期望的效果。这可以发生在模拟域中、数字域中、或两者的组合中，并且可以例如由运行音频处理代码的通用处理器、专用处理器(例如，具有适应这样的处理的架构的数字信号处理器)、或者专用音频信号处理硬件来实现。例如，作为语音通话或视频通话的一部分，可以在通过通信网络来传输由用户设备的麦克风所捕获的音频之前或之后对该音频进行处理。

音频信号可以由音频处理链来处理，所述音频处理链包括串联连接的多个音频信号处理组件(硬件和/或软件)；即，所述链的每个组件由此将特定类型的音频信号处理(例如，增益、动态范围压缩、回音消除等)施加至输入信号，并且将经处理的信号提供至链中的下一个组件以供进一步处理，而不是施加至第一个组件和最后一个组件，这些组件分别接收初始模拟信号(例如，如从麦克风等中所捕获的大体上未经处理的或“原始的”音频信号)作为输入以及提供链的最终输出(例如，用于提供至扬声器以供播出或者提供至通信网络以供传输)。因此，由链中的一个组件进行的处理中的变化可以产生该链中的随后的组件的输出中的变化。

可以在这样的链中使用的一种类型的音频处理组件是噪声抑制组件。音频信号可以包括期望的音频成分和不期望的噪声成分；噪声抑制组件目的是抑制不期望的噪声成分，同时保留期望的音频成分。例如，由用户设备的麦克风所捕获的音频信号可以捕获房间中的用户的话音，该话音在该实例中构成期望的成分。然而，其也可以捕获源自例如制冷风扇、环境系统、背景音乐等的不期望的背景噪声；其也可以捕获源自用户设备的扬声器的不期望的信号(例如，在使用通信客户端应用执行的与另一个用户的通话期间经由通信网络从另一个用户设备中所接收的信号，或者由在用户设备上执行的其它应用(例如，媒体应用)所输出的不期望的信号)，这些各种不期望的信号全都可以参与构成音频信号的不期望的噪声成分。

发明内容

所公开的是音频信号处理设备，其包括用于接收具有噪声的音频信号的输入端、可变增益组件、以及噪声抑制组件。具有噪声的音频信号具有期望的音频成分以及噪声成分。可变增益组件和噪声抑制组件分别被配置为将增益和噪声抑制过程施加至音频信号，从而生成增益经调整、噪声经降低的音频信号。响应于所施加的增益的改变，噪声抑制过程的激进度迅速改变。该改变是从当前值改变了与所施加的增益的改变大体上相匹配的量而达到新的值的改变。激进度接着逐渐地返回至当前值。

还公开了等同的方法以及被配置为实现该方法的计算机程序产品。

提供了该发明内容以用简化的形式引入了在下文的具体实施方式中进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或本质特征，也不旨在用于限制所要求保护的主题的范围。所要求保护的主题不限于解决了在背景技术部分中所指出的缺点中的任何一个或全部的实现。

附图说明

为了更好地理解本主题并且示出如何实行本主题，现在将作为示例对附图进行参考，其中：

图1是通信系统的示意图；

图2是用户设备的框图；

图3是音频信号处理技术的功能框图；

图4是噪声抑制技术的功能框图；

图5是音频信号处理方法的示意流程图；

图6A是时变的所施加的增益和时变的噪声抑制最小增益的示意图。

图6B是时变的所施加的增益和时变的噪声抑制最小增益在音频帧等级的示意图。

图6C是时变的所施加的增益和时变的噪声抑制最小增益的另一个示意图。

图7是重叠的音频帧的示意图。

具体实施方式

本公开考虑了这样的情况，其中可变增益组件和噪声抑制(噪声降低)组件串联连接，并且分别被配置为接收和处理具有噪声的音频信号(例如，麦克风信号)，该信号具有期望的音频成分(例如，话音信号)以及噪声成分(例如，背景噪声)。可变增益组件被配置为将可以改变的增益施加至其输入端。可变增益组件可以例如是被配置为自动调整所施加的增益以便维持期望的平均信号水平(自动增益控制是在本领域中公知的)的自动增益组件，或者是被配置为响应于合适的用户输入而调整所施加的增益的手动增益组件。噪声抑制组件被配置为将噪声抑制过程施加至其输入端，以便例如通过应用频谱减法技术来抑制音频信号中的噪声成分，利用该频谱减法技术，在话音不活动期间对噪声成分进行估计，并且使用该噪声成分估计来从具有噪声的音频信号中估计噪声经降低的信号(频谱减法是在本领域中公知的)。噪声抑制组件和可变增益组件构成了被配置为生成对期望的音频成分的增益经调整的估计的信号处理链。

为了改善感知质量，可以配置噪声抑制过程以使得噪声成分的水平相对于原来的噪声信号得到衰减，但有意没有全部移除(即使对噪声成分的估计接近完美)。即，使得在噪声经降低的信号估计中总是保持有噪声成分(尽管相对于有噪声的音频信号而言处于降低的水平)，从而有意不输出“完全”干净的信号。

尽管这对改善感知质量没有影响，但是无意的结果是：由可变增益组件所施加的增益的改变引起了噪声经降低的信号估计中剩余的噪声成分的水平中的显著改变；这对用户而言可能是令人不悦的。

根据本主题，噪声抑制组件被配置为以使得改变对用户较透明(较不显著)的方式来对由可变增益组件所施加的增益的中的改变做出响应。在一定程度上，所公开的主题关于对期望的音频成分以及噪声成分的等级的改变进行“去耦合”，从而使得一个增益适应速度用于改变期望的信号水平，而另一个用于改变噪声水平。在描述特定的实施例之前，将描述可以有用地应用该主题的上下文。

图1示出了通信系统100，其包括与第一用户设备104相关联的第一用户102(“用户A”)以及与第二用户设备110相关联的第二用户108(“用户B”)。在其它实施例中，通信系统100可以包括任何数量的用户以及相关联的用户设备。用户设备104和110可以通过通信系统100中的网络106进行通信，从而允许用户102和108通过网络106彼此进行通信。图1中所示出的通信系统100是基于分组的通信系统，但也可以使用其它类型的通信系统。网络106可以是例如互联网。用户设备104和用户设备110中的每个都可以是例如：移动电话、平板计算机、膝上型计算机、个人计算机(“PC”)(包括例如Window^TM、Mac OS^TM、以及Linux^TM PC)、游戏设备、电视机、个人数字助理(“PDA”)、或者能够连接至网络106的其它嵌入式设备。用户设备104被设置为从用户设备110的用户108处接收信息或者将信息输出至用户设备110的用户108。用户设备104包括诸如显示器和扬声器之类的输出单元。用户设备104还包括诸如小键盘、触摸屏、用于接收音频信号的麦克风、和/或用于捕获视频信号的图像的相机之类的输入单元。用户设备104被连接至网络106。

用户设备104执行由与通信系统100相关联的软件提供商所提供的通信客户端的实例。通信客户端是在用户设备104中的本地处理器上执行的软件程序。客户端执行在用户设备104处要求的处理，以便使用户设备104能通过通信系统100来发送或接收数据。

用户设备110对应于用户设备104，并且在本地处理器上执行通信客户端，该通信客户端对应于在用户设备104处执行的通信客户端。用户设备110处的客户端执行所要求的处理以允许用户108通过网络106进行通信，与用户设备104处的客户端执行所要求的处理以允许用户102通过网络106进行通信的方式相同。用户设备104和110是通信系统100中的终端点。

为了清楚起见，图1示出了仅仅两个用户(102和108)和两个用户设备(104和110)，但是在通信系统100中可以包括更多个用户和用户设备，并且可以使用在相应的用户设备上执行的相应的通信客户端来通过通信系统100进行通信。

通过网络106来传输由第一用户设备104的麦克风所捕获的音频信号，以用于由第二用户设备110来播出，例如作为在分别使用第一用户设备104和第二用户设备110的第一用户102与第二用户108之间进行的音频或视频通话的一部分。

图2示出了用户设备104的详细的视图，通信客户端的实例206在该用户设备104上执行以用于通过通信系统100进行通信。用户设备104包括中央处理单元(“CPU”)或者“处理模块”202，其上连接有：输出设备，例如可以被实现为触摸屏的显示器208，以及用于输出音频信号的扬声器(或者“扩音器”)210；输入设备，例如用于接收模拟音频信号的麦克风212、用于接收图像数据的相机216、以及小键盘218；用于存储数据的存储器214；以及用于与网络106进行通信的网络接口220(例如，调制解调器)。用户设备104可以包括除了在图2中所示出的那些之外的其它元件。可以如在图2中所示出的那样，将显示器208、扬声器210、麦克风212、存储器214、相机216、小键盘218、以及网络接口220集成到用户设备104中。在可替代的用户设备中，显示器208、扬声器210、麦克风212、存储器214、相机216、小键盘218、以及网络接口220中的一个或多个可以不集成到用户设备104中，并且可以经由相应的接口连接至CPU 202。这样的接口的一个示例是USB接口。如果用户设备104经由网络接口220到网络106的连接是无线连接，则网络接口220可以包括用于将信号无线地发送至网络106并且从网络106中无线地接收信号的天线。

图2还示出了在CPU 202上执行的操作系统(“OS”)204。在OS 204之上运行的是通信系统100的客户端实例206的软件。操作系统204管理计算机的硬件资源并且对经由网络接口220传输至网络106以及从网络106中传输的数据进行处理。客户端206与操作系统204进行通信并且管理通过通信系统的连接。客户端206具有客户端用户接口，其用于向用户102呈现信息并且从用户102处接收信息。通过该方式，客户端206执行所要求的处理以允许用户102通过通信系统100进行通信。

现在参考图3、图4和图5，其中描述了一种音频信号处理方法。图3是用户设备104的一部分的功能图。

如在图3中所示的，第一用户设备104包括麦克风212、以及音频信号处理系统300。系统300表示通过在设备104的CPU 202上执行通信客户端应用206而实现的音频信号处理功能。

系统300包括噪声抑制组件312和可变增益组件302。可变增益组件302具有连接至噪声降低组件312的输出端的第一输入端、连接以接收增益因子G_var(k)的第二输入端、以及连接以提供经处理的音频信号以供进一步处理的输出端，该进一步处理包括在通过网络106传输至第二用户设备108(例如，作为语音或视频通话的一部分)之前在第一用户设备104处进行分组。噪声抑制组件312具有连接以从麦克风212接收具有期望的音频成分s(t)和噪声成分n(t)的麦克风信号y(t)的第一输入端，以及连接以接收增益因子G_var(k)的第二输入端。噪声降低组件312和可变增益组件302因此串联连接并构成信号处理链，噪声降低组件的第一输入端是该链的输入端而可变增益组件的输出端是该链的输出端。

为了方便起见，麦克风212被示出为将麦克风信号直接提供至信号处理链。应当理解的是，麦克风可以实际上经由其它信号处理组件(例如，模拟到数字转换器组件)来提供麦克风信号y(t)。

可变增益组件302将由增益因子G_var(k)所定义的量的增益施加至其第一输入信号，以生成增益经调整的信号。噪声抑制组件将噪声抑制过程施加至其第一输入信号，以生成对其期望的音频成分的估计。这在下文中详细进行描述。

图4是更加详细地示出了噪声抑制组件312的功能图。噪声抑制组件包括噪声经降低的信号计算组件402、噪声抑制最小增益因子计算组件404、噪声抑制增益因子计算组件406、(离散)傅里叶变换组件408、以及(离散)傅里叶逆变换组件410。傅里叶变换组件408具有连接以接收麦克风信号y(t)的输入端。噪声经降低的信号计算组件具有连接至傅里叶变换组件408的输出端的第一输入端、以及连接至噪声抑制增益因子计算组件406的输出端的第二输入端。傅里叶逆变换组件具有连接至噪声经降低的信号计算组件410的输出端的输入端、以及连接至信号处理系统300的可变增益组件302的输出端。

噪声抑制最小增益因子计算组件404具有连接以接收增益因子G_var(k)的输入端、以及连接至噪声抑制增益因素计算组件406的第一输入端的输出端。噪声抑制增益因素计算组件406还具有连接以接收噪声信号功率估计|N_est(k，f)|²的第二输入端、以及连接至傅里叶变换组件408的输出端的第三输入端。

音频信号处理是由系统300逐帧执行的，每帧k、k+1、k+2……的长度在例如5ms到20ms之间。可变增益组件302和噪声抑制组件312每个都接收相应的输入音频信号作为多个输入序列音频帧，并且提供相应的输出信号作为多个输出序列音频帧。

傅里叶变换组件408对每个音频帧k执行离散傅里叶变换操作以计算针对该帧的频谱Y(k，f)。频谱Y(k，f)可以被认为是麦克风信号y(t)的帧k在频域中的表示。频谱Y(k，f)是以一组频谱仓(spectral bin)为形式的，例如，每帧64个仓到每帧256个仓之间，其中每个仓包含关于某一频率(在某一频段中)的信号成分的信息。为了处理带宽信号，可以对例如从0到8kHz的频率范围进行处理，将其分成例如64或32个频段。所述频段可以或可以不具有相等的宽度，即这些频段可以例如根据Bark尺度进行调整以更好地反映人类听力的重要频段。

噪声抑制最小增益因子计算组件404逐帧k来计算被提供至噪声降低增益因子计算组件406的噪声抑制最小增益因子G_min(k)。噪声降低增益因子计算组件406逐帧k来计算被提供至噪声经降低的信号计算组件402的噪声抑制增益因子G_limited(k，f)。噪声经降低的信号计算组件402计算被提供至可变增益组件302的频域的噪声经降低的信号估计Y_nr(k，f)。针对帧k的噪声经降低的信号估计Y_nr(k，f)是通过将针对该帧的频谱Y(k，f)调整由噪声抑制增益因子G_limited(k，f)所指定的量来计算的；即，通过跨频谱Y(k，f)而施加依赖频率的增益G_limited(k，f)，从而相对于对期望的音频成分s(t)的频谱的影响而降低噪声成分n(t)对麦克风信号y(t)的频谱的影响。

傅里叶逆变换组件对频域的噪声经降低的信号估计Y_nr(k，f)执行离散傅里叶逆变换操作(该操作是由傅里叶变换组件408所执行的傅里叶变换的逆操作)以计算时域的噪声经降低的信号估计y_nr(t)。噪声成分n(t)仍然(有意地)存在于噪声经降低的信号y_nr(t)中，但是处于低于在具有噪声的麦克风信号y(t)中的水平。噪声经降低的信号估计由噪声抑制组件提供以作为多个序列纯净信号估计的音频帧。傅里叶变换操作和傅里叶逆变换操作可以在实际中被实现为快速傅里叶变换操作。

将在下文中更加详细地描述这些噪声抑制组件的功能和交互。

可变增益组件302执行对噪声经降低的信号y_nr(t)的增益调整，以针对每一帧k而通过将由可变增益因子G_var(k)所定义的量的增益施加至时域的噪声经降低的信号估计y_nr(t)的该帧k来生成增益经调整的音频信号。增益经调整的音频信号由可变增益组件提供作为多个序列的增益经调整的信号的音频帧。可替代地，可以在系统300中将傅里叶逆变换设置在可变增益组件302之后，以使得增益调整是在频域中被执行的而不是在时域中被执行的。

在实施例中，增益因子G_var(k)可以在帧间变化，并且还可以在帧内变化(按逐个采样变化)。例如，G_var(k)可以通过平滑逼近修正值而在帧内变化。

可替代地，可变增益组件302和噪声降低组件312的位置可以相对于如在图3和图4中所描绘的它们的布置相反，以使得可变增益组件302和噪声抑制组件312仍然串联连接，但同时可变增益组件的第一输入端连接以接收麦克风信号y(t)，而噪声抑制组件312的第一输入端连接至可变增益组件302的输出端。即，可以反置组件302、312在信号处理链中的位置。在该情况下，可变增益组件将增益施加至麦克风信号y(t)以生成增益经调整的信号，并且噪声抑制组件将噪声抑制过程施加至增益经调整的信号以生成对其期望的音频成分的估计。

信号处理链还可以包括连接在噪声降低组件312和可变增益组件302之前、之后、和/或之间的其它信号处理组件(未示出)。即，通过执行通信客户端应用206而实现的信号处理功能可以包括比在图3中所示出的更多的信号处理功能，所述功能可以在由组件302、组件312进行处理的之前、之后、和/或之间来实现(其中，组件302、组件312的功能以相对于彼此的任意一种顺序来实现)。

作为信号处理方法的一部分，噪声降低组件和可变增益组件的聚合功能用于将增益和噪声降低过程的组合施加至噪声音频信号y(t)，从而生成具有相对于具有噪声的音频信号y(t)而言降低的噪声-信号功率比的增益经调整的、噪声经降低的音频信号。这是真实的而与其在信号处理链中的顺序和/或布置无关(即，无关于施加增益和噪声抑制过程相对彼此和/或相对于任何其它音频信号处理而串联施加的时间顺序，如果所述其它音频信号处理是与增益和噪声抑制的施加串联地对音频信号执行的)。

现在将参考图5详细地描述音频信号处理方法，其中，图5是该方法的流程图。

该方法涉及调整噪声抑制过程的激进度以在增益增加(并且对于降低是相反的)之后立即施加更多噪声降低，并且接着随后缓慢地回到“正常的”激进度，“正常的”激进度是选择来优化噪声抑制过程的感知质量的激进度的水平。这里，噪声抑制过程的“激进度”是噪声成分对整体的信号水平的影响被噪声抑制过程所降低的程度的测量，并且例如可以被量化为通过噪声抑制过程将噪声成分的信号功率相对于期望的音频成分的信号功率所降低的量。通常而言，“正常的”激进度将被设置以便确保总是保留一些噪声，而不是将噪声完全移除，尽管该噪声相对于在噪声降低之前的水平而言处于降低的水平，如在上文中所讨论的，这是出于增强感知质量的原因。

将噪声抑制过程的激进度改变与所施加的增益中的改变大体上相匹配的量。将噪声抑制的激进度的改变与所施加的增益的改变相匹配抵消了所施加的增益的改变否则将对噪声经降低的信号估计中剩余的噪声成分的水平的效果(即，防止否则将由于所施加的增益的“跳变”而产生的剩余的噪声的水平的“跳变”)，使得紧接着所施加的增益的改变之后，在噪声经降低的信号估计中剩余的噪声的水平大体上不改变，尽管所施加的增益中的改变，其中，所施加的增益从而仅作用于如所期望的那样改变期望的音频成分，而紧接着所施加的增益的改变之后不作用于噪声成分的水平。

仍然期望最终将激进度返回至“正常的”水平以保持最佳感知质量，这几乎必定会引起在信号估计中剩余的噪声的水平的改变；然而，对激进度进行逐渐的改变确保该噪声水平的改变也是逐渐的改变而不是快速的改变。因此，在噪声抑制之后的增益经调整的、噪声经降低的信号估计中剩余的可以听到的噪声的水平比其否则将会而言的更加缓慢地变化，从而在对增益做出用户不易察觉的调整的同时保留了对期望的音频成分的期望的调整。

背景噪声降低(BNR)(包括但不限于，功率谱减法、以及诸如幅度谱减法之类的其它形式的谱减法)通常施加噪声降低限制或者限制噪声降低的降低的“目标”，它们可以施加至具有噪声的音频信号以便生成噪声经降低的信号估计(即，其限制可以由噪声抑制过程来降低的噪声成分的幅度或功率的量)。在该情况下，限制设置噪声降低的激进度，因此可以通过调整该限制来调整激进度。通常，可以将该限制表达为最小增益或者最大衰减(当被表达为信号与增益经调整的信号的比时，它们是彼此的乘法逆元，而当在对数尺度(例如，dB)上被表达时，它们是彼此的加法逆元)，出于降低噪声成分的功率或幅度的目的，它们可以在任何给定的时间被施加至具有噪声的音频信号。较低的衰减(较大的增益)限制得出较不激进的噪声抑制，而较大的衰减(较低的增益)限制得出较激进的噪声抑制。限制可以取例如12dB的衰减(-12dB的增益)的常数值，12dB是可以施加至具有噪声的音频信号以生成噪声经降低的信号估计的可允许的最大噪声抑制衰减(-12dB是可允许的最小噪声抑制增益)。选择非零限制确保总是在噪声经降低的信号估计中保留一些噪声，而不是将噪声完全移除，尽管该噪声相对于原始的具有噪声的音频信号而言处于低的水平(在上文中所讨论的)。12dB广泛地被认为是在噪声降低与话音失真之间的好的权衡，作为比较，例如，18dB将被认为是有些太过激进了，并且将在极端的情况下导致音频话音失真。

在实施例中，该噪声降低衰减限制/目标从当前值(例如，12dB)快速增加(或降低)了与增益已经增加(或降低)的量大致相同的量，并且接着逐渐地返回当前值(例如，12dB)。例如，响应于所施加的增益的3dB的增加(或降低)，噪声降低衰减限制可以立即改变为12dB+3dB＝15dB(或12dB-3dB＝9dB)，并且接着逐渐返回至12dB。

在步骤S502处，客户端206从麦克风212中接收具有噪声的音频信号y(t)，该信号具有期望的音频成分s(t)和噪声成分n(t)。具有噪声的音频信号y(t)可以被认为是噪声成分n(t)与期望的成分s(t)的和。这里，期望的成分s(t)是由用户102发起的；噪声信号n(t)可以包括背景噪声信号和/或如上文中所讨论的从扬声器210中所输出的不期望的音频信号。

在步骤S504处，噪声抑制组件312将噪声抑制过程施加至音频信号y(t)。在该实施例中，噪声抑制组件施加一种类型的功率频谱减法。频谱减法在本领域中是公知的，并且涉及在话音非活动期间(即，当在麦克风信号y(t)中仅存在噪声成分n(t)时)估计噪声成分n(t)的功率。例如，可以在话音非活动期间(如使用已知的语音活动检测过程所检测的)来如下递归地计算针对帧k的噪声信号功率估计|N_est(k，f)|²，

|N_est(k，f)|²＝b*|N_est(k-1，f)|²+(1-b)*|Y(k，f)|²

其中，b是0到1之间的合适的衰减因子。即，如帧k-1的噪声信号功率估计|N_est(k-1，f)|²是由下一帧k的经计算的信号功率|Y(k，f)|²(被计算为帧k的频谱Y(k，f)的大小的平方)来更新的。

通过噪声降低信号计算组件402将如由噪声抑制增益因子G_limited(k，f)所定义的增益的量施加至音频信号谱Y(k，f)，而在音频信号y(t)中(部分地)抑制噪声成分n(t)，如下所示：

|Y_nr(k，f)|²＝G_limited(k，f)²*|Y(k，f)|²

非受限的噪声抑制增益因子G_unlimited(k，f)是通过噪声抑制增益因子组件406计算的，如：

G_{u n \lim i t e d} (k, f) = \sqrt{\frac{| Y (k, f) |^{2} - | N_{e s t} (k, f) |^{2}}{| Y (k, f) |^{2}}}

噪声抑制增益因子G_limited(k，f)被计算为：

G_limited(k，f)＝max[G_unlimited(k，f)，G_min(k)]

即，被计算为非受限的噪声抑制增益因子G_unlimited(k，f)和噪声抑制最小增益因子G_min(k)的最大值。因此，只有在高于针对该帧k的噪声抑制最小增益因子G_min(k)的情况下，才将非受限的噪声抑制增益因子施加至帧k。减小针对帧k的增益G_min(k)的增益下限会增大针对该帧k的噪声抑制过程的激进度，这是由于这允许更大量的噪声信号衰减；增大增益G_min(k)的增益下限会降低针对该帧k的噪声降低过程的激进度，这是由于这允许更少量的噪声信号衰减。

在没有其它考虑的情况下，例如-12dB的下限可以是好的以便改善感知的质量，并且由于该原因，在已知的频谱减法技术中下限通常固定在该值附近。相反，这里，下限G_min(k)可以逐帧地变化(并且，在实施例中，在给定的帧内变化，见下文)(即，噪声抑制过程的激进度可以逐帧地变化(或者在给定的帧内变化))如所要求的以便追踪在由可变增益组件所施加的增益中的任何改变，出于在上文中所讨论的原因并且以将在下文中详细讨论的方式。

在步骤S506处，通过可变增益组件302将由增益因子G_var(k)所定义的增益的量施加至噪声经降低的信号估计。该所施加的增益逐帧地变化(并且如所讨论的可以在给定的帧内变化)。增益因子G_var(k)作为自动增益控制(AGC)过程的一部分而自动发生变化，使得噪声经降低的信号估计s(t)的平均输出或峰值输出自动调整到期望的水平，例如在即使存在信号变化的情况下，也保持大体上恒定的峰值或平均水平。可以例如遍及语音或视频通话而采用自动增益控制过程，而所施加的增益因此在通话过程中的时间点处改变。可替代地或额外地，增益因子G_var(k)可以响应于用户输入(例如，用户102选择调整其麦克风的水平)而手动地变化。

在该实施例中，增益因子G_var(k)从初始值G_{var，initial}改变至新的目标值G_var，target。从初始值到目标值的变化是平滑的变化，其中，增益因子G_var(k)以具有第一时间常数τ₁的第一(陡峭的)时间函数而从初始值改变至目标值。时间常数τ₁是所施加的增益从初始值G_{var，initial}改变总量Δ₁的(1-1/e)≈63％所花费的时间，Δ₁是所施加的增益最终改变的量(即，Δ₁＝G_var，target-G_var.initial，即目标值与初始值之间的差)；即，τ₁是所施加的增益从G_{var，initial}改变至所花费的时间。这可以例如受到通过按照等式1来更新所施加的增益G_var(k)，而由对G_var(k)从初始值到目标值的一阶递归平滑影响的，如下所示：

G_var(k)＝G_var，target+d*[G_var(k-1)-G_var，target]

其中，0＜d＜1是平滑参数，该参数确定第一时间常数τ₁。当增益因子G_var(k)是按照等式1而被平滑的时，增益因子以指数方式向目标G_var，target改变，如(这是第一时间函数，其大体上是指数函数)，其中t表示时间，并且增益的改变在时间t₀处开始。

在所施加的增益从初始值到目标值的改变是平滑的同时，然而该改变也是快速的改变，其中第一时间常数具有大约50-250ms的值(其可以通过相应地设置等式1中的平滑参数d来实现)。换句话说，可变增益“目标”立即改变(例如，作为阶梯函数)至新的目标值G_var，target，并且所施加的增益G_var(k)跟随增益目标，在少量时间(该时间量取决于第一时间常数τ₁和所施加的增益改变的量Δ₁两者)内快速但平滑地向新的目标值移动。不期望噪声水平改变得这样快，尤其是如果所施加的增益改变较大时(因为这将引起噪声等级的对应的大且快速的改变)。

在图6A的图600中示出了G_var(k)中的示例性变化，该图示出了在大约100秒间隔的时间内G_var(k)随时间的示例性变化，并且在图6B的图600’中以帧等级(每一帧都持续例如5ms-20ms)示出了G_var(k)随时间的示例性变化。尽管为了简单起见，图600’将G_var(k)示出为逐帧改变但跨给定的帧k保持恒定，但在实践中，G_var(k)可以例如通过针对每个采样(而不每个帧)执行对增益因子G_var(k)的平滑而在帧内变化(逐采样)。在步骤S508处，响应于由可变增益组件302所施加的增益的改变，由噪声抑制组件312所执行的噪声抑制过程从当前值改变与所施加的增益中的改变大体上相匹配(即，为了与其效果相匹配)的量从而改变至新的值，并且接着返回(S510)至当前值。激进度快速地从当前值改变至新的值，但接着逐渐地返回至当前值，如在图6A的图602中所示，其示出了在大约100秒间隔的时间内G_var(k)随时间的示例性变化，并且在图6B的图602’中以帧等级(每一帧都持续例如5ms-20ms)示出了G_var(k)随时间的示例性变化。这受到以在下文中所描述的方式来改变噪声抑制最小增益因子G_min(k)的效果，如所讨论的，该噪声抑制最小增益因子G_min(k)设置噪声抑制过程的激进度。

如针对帧k所使用的噪声抑制最小增益因子G_min(k)在线性域中按照等式2来计算(更新)，如下：

其中，c是0到1之间的平滑因子。因此，例如，如果所施加的增益G_var(k)翻倍(或被减半)，则噪声抑制下限G_min(k)被减半(或翻倍)，以便匹配将增益因子G_min(k)翻倍(或减半)的效果。

即，只要所施加的增益G_var(k)在变化，则通过将噪声抑制最小增益从当前值(G_min)改变至新的值G_new的来匹配所施加的增益的改变，所述新的值G_new是当所施加的增益呈平稳状态时(例如在图6B的帧“k+3”处)噪声抑制下限达到的值：响应于从当前帧k-1到下一相邻帧k的所施加的增益G_var(k)中的改变(即，施加至当前帧k-1的G_var(k-1)不等于施加至下一相邻帧k的增益G_var(k))，如针对相同的下一帧k所使用的噪声抑制最小增益G_min(k)相对于针对当前帧所使用的噪声抑制最小增益G_min(k-1)而相应地改变了一个因子，该因子是线性域中所施加的增益的分数变化的乘法逆元(即，[G_var(k)/G_var(k-1)]^-1)，这可以等价地被表达为与对数域(dB)中的改变大小相等但符号相反的改变。这对应于图5的步骤S508并且在图6A中可见，图6A示出了(600)如在时间t_a和t_b处由可变增益组件300所施加的增益的示例性改变，该示例性改变被噪声抑制最小增益的对应的快速改变匹配(602)，该噪声抑制最小增益的改变与由可变增益组件302所施加的增益的改变大小相等但符号相反。这还可以在图6B中的帧等级(602’)处看到，其示出了发生在帧“k”处的所施加的增益的改变，该改变被针对该相同的帧“k”所使用的噪声抑制最小增益的相等且相反的改变匹配。尽管为了简单起见，602’将G_min(k)示出为逐帧地变化但跨给定的帧k保持恒定，但在实际中，G_min(k)可以在帧内(逐采样地)平滑地变化例如噪声抑制最小增益G_min(k)，该噪声抑制最小增益G_min(k)针对每个采样改变以在G_var(k)发生变化期间匹配所施加的增益G_var(k)中的任何每个采样的改变，和/或该噪声抑制最小增益G_min(k)在G_var(k)保持恒定的水平期间在帧内针对每个采样进行平滑。即，在实际中，噪声抑制过程的激进度可以逐采样地改变，其中对等式2的迭代的一些或全部针对每个音频信号采样来执行而不是针对每一帧k来执行。

噪声抑制下限的改变因此追踪所施加的增益的改变，使得所施加的增益和噪声抑制激进度从当前值到新的值的改变都是快速的并且具有大致相同的持续时间。

以上的等式2中的项c*[G_min(k-1)-G_min]是影响一阶递归平滑的一阶递归平滑项。在所施加的增益在改变之后逐帧地保持恒定期间(即，只要施加至当前的帧k-1的增益G_var(k-1)保持等于施加至下一相邻帧k的增益G_var(k))，一阶递归平滑用于逐渐地使噪声抑制最小增益因子返回恒定的水平G_min。因此，在引起噪声抑制最小增益的对应和快速的改变的所施加的增益的改变之后，噪声抑制最小增益(以及因此，噪声抑制过程的激进度)逐渐地返回恒定水平G_min。这对应于图5的步骤S510并且在图6A中被示出，其中可以看到在时间t_a和t_b处的快速改变之后的相应的逐渐返回，并且也可以在图6B中看到在帧“k”处的快速改变之后相应的逐渐返回。

该G_min值被选择为下限，其将在由可变增益组件302所施加的增益G_var(k)没有任何改变的情况下使感知质量最优化。常数G_min可以例如取-12dB的值或者其左右(即，+12dB的衰减或其左右)。

选择平滑因子c以影响至恒定的水平G_min的逐渐返回。即，使得噪声抑制下限G_min(k)作为具有第二时间常数τ₂的第二时间函数(大体上比第一时间函数浅)而变化，其中该第二时间常数τ₂大体上比之前的噪声抑制下限的快速改变的时间常数长，该第二时间常数τ₂大约例如10-40秒(＞＞τ₁≈50-250ms)，从而使得G_min(k)花费大约10-40秒而改变了常数值G_min(k)与新的值G_new之间的差Δ₂＝G_min-G_new(激进度的总改变)的(1-1/e)≈63％，即，从而使得G_min(k)花费τ₂≈10-40秒从G_new改变至当噪声抑制最小增益G_min(k)是按照等式2的第二行来平滑的时，增益因子以指数方式朝向常数G_min而返回，如 (这是第二时间函数，其大体上是指数函数)，其中t表示时间，并且逐渐的返回在时间t′₀处开始；平滑参数c确定第二时间常数τ₂，并且选择c以使得τ₂≈10-40秒。

在这段时间内，噪声经降低的信号估计y_nr(t)中剩余的噪声成分的水平将变化，但由于G_min(k)的逐渐的改变，它将会逐渐地变化，并且将因此较不容易被用户注意到。

因此，所施加的增益的快速的改变(其与激进度的快速的改变持续大体上相同的时间)比随后的逐渐返回快了大约τ₂/τ₁的因子，即，所施加的增益在第一时间间隔T₁上(部分地)改变了所施加的增益的总改变(即，从初始值G_{var，initial}到中间增益值G_{var，initial}+Δ₁*p)的0＜p＜1的分数(即，0％＜p％＜100％的百分比)，并且噪声抑制过程的激进度在第二时间间隔T₂上(部分地)改变了激进度的总改变(即，从新值G_new到中间激进度值)的相同的分数p，第二时间间隔T₂比第一时间间隔T₁长τ₂/τ₁的因子(即，T₂＝(τ₂/τ₁)*T₁≥大约40)。这对于范围(0，1)内的不同的p值(即，对于范围(0％，100％)内的不同的百分比，例如，1％、5％、10％、20％、50％、70％、90％等)而言都是正确的。这在图6C中示出。换句话说，完成噪声抑制激进度从新的值到当前值的随后的逐渐返回的百分比p比完成所施加的增益从初始值到目标值的快速改变的相同百分比p多花费大约40倍(或更多)的时间。

由于噪声抑制激进度的逐渐返回具有不小于10秒的第二时间常数τ₂，而噪声抑制激进度的快速改变具有不长于大约250ms＝0.25秒的第一时间常数即，因此第二间隔比第一间隔长至少大约40的因子。

一阶自动回归平滑器(在改变后具有指数输出)(例如，由等式1或等式2的第二行影响)接近输入值某一相对量(p％)的时间，将仅取决于由过滤系数(平滑参数b、c)所定义的时间常数(τ₁、τ₂)，而不取决于改变(增益/激进度)的大小。通常通过时间常数(τ₁、τ₂)来描述一阶平滑器的收敛时间；即，等式1的平滑器具有第一时间常数τ₁的收敛时间，而等式2的第二行的平滑器具有第二时间常数τ₂的收敛时间，其大体上比第一时间长(长至少大约40的因子)。

从严格的数学角度而言，如果其是不受约束的，则第一函数和第二函数将花费无限量的时间来分别收敛至目标增益值G_var，target以及恒定的噪声抑制最小水平G_min(它们都是渐进的值)。这当然不是在现实中的情况，例如，由于舍入错误。严格地讲要花费无限量的时间来达到输入值具有可忽略的重要性，这是可以接受的，并且无论如何平滑器的输出由输入来保持“追踪”。

激进度在第一(有限的)持续时间(图6A中的Δt₁)内从初始值大体上改变至当前值，该持续时间与所施加的增益的改变的持续时间大体上相同，并且使得激进度在第二(有限的)持续时间(图6A中的Δt₂)内大体上返回至当前值，该持续时间大体上比第一持续时间长。对于典型的增益改变(例如，大约1dB)，第一持续时间通常可以不长于例如250ms(例如，大约50ms与大约250ms之间)，而第二持续时间通常可以不短于例如大于10秒(例如，大约10秒与大约40秒之间)。因此，对于所施加的增益的典型的改变，第二持续时间可以比第一持续时间长至少大约40的因子(10秒/250ms)。在该实施例中，第一持续时间和第二持续时间取决于所施加的增益的改变的大小而变化(并且对于所施加的增益的改变的较小的大小而言持续时间较短，而对于所施加的增益的改变的较大的大小而言持续时间较长)。

通常而言，第一持续时间足够短以抵消所施加的增益的改变否则将对噪声水平的影响，而第二持续时间足够长以确保噪声水平的最终改变相比于其否则作为所施加的增益的改变的结果而言是可感知地更慢的。

作为示例，如果将所施加的增益增加3dB，则噪声抑制组件312将随后快速地施加15dB的噪声抑制(其是所施加的噪声抑制增益下限-15dB)，在接下来的20秒左右内逐渐地并且平滑地返回至较不激进的例如12dB的抑制。相反地，如果所施加的增益降低3dB，则噪声抑制组件312将施加9dB的噪声抑制(其是所施加的噪声抑制增益下限-9dB)，在接下来的20秒左右内逐渐地并且平滑地返回更激进的例如12dB的抑制。

在实际中，希望帧k、k+1、k+2……在一定程度上重叠。该重叠可以例如是帧长度(其大约可以是5ms到20ms)的25％到50％，这意味着大约1.25ms到10ms的重叠。即，将音频信号y(t)分割成音频帧，使得帧k中的音频的初始部分被复制为下一帧k+1的最终部分，这在图7中示出，图7示出了包含音频信号y(t)的部分重叠的部分的三个示例性帧k-1、k、k+1。可以在例如通过对相邻的帧的任何重叠的间隔的线性插值处理之后接着对帧进行组合，从而有效地从一帧到下一帧“渐变(fade)”以生成具有正确的定时的音频信号。这样的帧重叠技术在本领域中是公知的，并且可以阐明或降低否则可能由于处理或以其它方式产生的相邻帧之间的不连续性而出现的可听到的伪迹。

尽管在上文中，所施加的增益的改变是“平滑的”改变，原则上所施加的增益可以以阶梯函数而逐帧地改变。在该情况下，当所施加的增益因子G_var(k)以阶梯函数而逐帧地改变时，而帧重叠的结果仍将有效地“平滑”该阶梯函数，以使得所施加的增益在等于帧重叠的时间间隔(大约1ms-10ms)内有效地大体上连续地从初始值改变至目标值，如在图7中所示的那样。类似地，尽管噪声抑制最小增益因子G_min(k)以阶梯函数而逐帧地改变以匹配所施加的增益因子G_var(k)，但纯净信号估计的帧的帧重叠意味着噪声抑制最小增益的改变类似有效地在这些帧之间“平滑”，以使得噪声抑制最小增益G_min(k)从当前值改变到新的值，并且因此噪声抑制过程的激进度的改变可以被认为在等于帧重叠的时间间隔内有效地进行。这是大约1ms-10ms，再一次，显著地小于在大约10秒或以上的间隔内进行的到当前值的逐渐返回，如所讨论的。

如在本文中所使用的，短语“将噪声抑制过程的激进度改变与所施加的增益的改变大体上相匹配的量”(或类似短语)用于意指激进度的改变的影响匹配(即，抵消)所施加的增益的改变对噪声成分的影响(更加具体而言，当激进度的改变大体上抵消所施加的增益的改变对噪声成分的水平的影响时，使得在所施加的增益的改变之后紧接着的噪声经降低的信号中的噪声成分的水平大体上不改变)。

这不一定意味着变化的大小之间存在任何一个特定的数值关系，并且特别地，不一定意味着相应的变化的大小是相等的(可以是或可以不是该情况)。例如，所施加的增益从1dB到2dB的1dB的改变可以匹配将噪声抑制激进度改变-1dB(例如，从-12dB到-13dB)，在该情况下，所施加的增益的改变的影响匹配具有相等的dB大小的激进度的改变的影响，。然而，在线性域中所施加的增益从1到2的改变(在线性域中其是2-1＝1的改变)可以匹配在线性域中将噪声抑制激进度从例如0.25改变到1/2*0.25＝0.125(在线性域中其是0.25-0.125＝0.125的改变)，在该情况下，所施加的增益的改变的影响匹配与所施加的增益的改变大小不相等的激进度的改变的影响。此外，原则上所施加的增益可以在一个域(例如，线性域或对数域)中实现，而噪声抑制可以在不同的域(例如，对数域或线性域)中实现，其中在不同的域中投影相应的改变不太可能在大小上相等。即，当激进度的改变的影响与所施加的增益的改变的影响相匹配时，激进度的改变与所施加的增益的改变大体上相匹配，而无论增益和噪声抑制过程所施加于其中的相应的域。

尽管在上述的图5的方法中，噪声抑制组件被配置为将噪声抑制过程施加至音频信号以生成噪声经降低的信号估计，而可变增益组件被配置为将增益施加至噪声经降低的信号估计，但在可替代的实施例中，该顺序可以相反。即，可变增益组件可以被配置为将增益施加至音频信号以生成增益经调整的信号，而噪声抑制组件可以被配置为将噪声抑制过程施加至增益经调制的信号。在全部这两种情况中，可变增益组件和噪声抑制过程都是串联连接的，并且构成被配置以从具有噪声的音频信号来生成增益经调整、噪声经降低的音频信号的信号处理链。此外，无论哪种情况，如在上文中所指出的，该链可以包括被配置为执行额外的信号处理的其它信号处理组件，其包括这样的中间处理，该中间处理在噪声降低和增益施加之间进行，以使得噪声抑制组件和可变组件中的一个不直接作用于另一个的输出，而是使得一个的输出经由中间信号处理组件提供至另一个，并且因此在由一个处理之后并且由另一个处理之前受到中间信号处理。在信号处理链中组件302与组件312之间连接有额外的中间信号处理组件的情况下(即，在增益调整之后但在噪声抑制之前执行额外的处理的情况下，或者在噪声抑制之后但在增益调整之前执行额外的处理的情况下)，为了避免疑义应当理解的是，在本发明的意义上尽管他们可以因此经由额外的中间信号处理组件所连接(即，尽管在增益的施加和噪声抑制过程的施加之间可以执行额外的中间信号处理)，但可变增益组件和噪声抑制组件仍是“串联连接”的(即，增益和噪声降低将仍然被认为是“串联施加”的)。在本上下文中，术语信号处理组件(或过程)“串联连接(或施加)”是指两个或更多个信号处理组件的链，其中链中的每个组件都将特定类型的音频信号处理施加至输入信号，并且将经处理的信号提供至链中的下一个组件以供进一步处理，而不是第一个组件和最后一个组件，这些组件接收初始音频信号作为输入并提供链的最终输出，这样的链中的每个组件都被认为与该链中的每个其它组件是串联连接的。

此外，尽管在上文中，增益组件和噪声抑制组件是串联连接的，但可以设想，并联连接的增益/噪声抑制组件也可以达到类似的效果，即，至少一个增益组件和至少一个噪声抑制组件每个都“直接”作用于具有噪声的音频信号(而不是一个作用于另一个的输出)，以生成独立的相应的输出，所述输出接着被例如合并成和(可能是加权求和)以提供最终的输出音频信号。

此外，尽管在上文中，在通过通信网络传输至远端用户之前将所公开的技术施加至近端信号，但可替代地或额外地，可以将所公开的技术施加至通过通信网络从远端用户处所接收的远端信号，例如，在从近端扬声器(例如，210)输出之前。即，等效的信号处理链可以在经由扬声器210输出之前对从网络106中所接收到的音频信号执行等效的处理，以作为可替代或额外于在经由网络106发送之前对从设备300的麦克风212中所接收到的音频信号执行音频信号处理的信号处理链。因此，信号处理链可以具有连接以接收经由网络106从第二用户设备108所接收的音频信号的输入端，以及连接以将经处理的音频信号提供至设备104的扬声器210的输出端。

此外，尽管在上文中，噪声抑制过程的激进度响应于所施加的增益的改变而从当前值快速改变至新的值，接着以一阶递归平滑逐渐地返回至当前值，但该逐渐的返回可以通过任何数量的可替代方式实现。例如，逐渐的改变可以是回到当前值线性改变，例如在所施加的增益改变之后的10到40秒达到当前值，或者可以采用更高阶的递归平滑来实现逐渐返回。类似地，所施加的增益的快速改变可以是在例如50到250ms的持续时间内从初始值到目标值的线性改变，或者可以采用更高阶的递归平滑来实现快速改变。

具有噪声的音频信号可以被接收为多个(离散的)部分(例如，音频帧或音频采样)并且激进度和增益可以最多逐部分地更新(即，最多可以逐部分地计算其新的值，其中，一个经计算的值是针对给定的部分的整体而使用的)。

此外，尽管在上文中，主题是在实时通信系统的上下文中描述的，但应当理解的是，可以在既与“直播”有关又与预先记录的具有噪声的音频信号有关许多其它上下文中采用所公开的技术。此外，尽管在上文中，主题是由以用户设备(例如，个人计算机、膝上型计算机、平板计算、智能电话等)为形式的音频信号处理设备所实现的，但在可替代的实施例中，主题可以由诸如专用音频信号处理设备之类的任何形式的音频信号处理设备(例如，音频效果单元、机架等)来实现。

通常而言，可以使用软件、固件、硬件(例如，固定逻辑电路)、或这些实现的组合来实现在本文中所描述的功能中的任何一种功能。如在本文中所使用的术语“模块”、“功能”、“组件”和“逻辑”通常表示软件、固件、硬件、或其组合。这包括例如以上图3和图4中的组件。在软件实现的情况下，模块、功能、或逻辑表示当在处理器(例如，一个或多个CPU)上被执行时执行具体的任务的程序代码，所述具体的任务例如用于实现图5的方法步骤的任务(尽管图5的这些步骤可以由任何合适的硬件、软件、固件、或其组合来实现)。可以将程序代码存储在一个或多个计算机可读存储器设备中。在下文中所描述的技术的特征是依赖平台的，这意味着所述技术可以在具有多种处理器的多种商用计算平台上实现。

例如，用户设备还可以包括使得用户设备硬件执行操作(例如，处理器功能块等)的实体(例如，软件)。例如，用户设备可以包括计算机可读介质，其可以被配置为保存使得用户设备以及更特别地使得操作系统和相关联的用户设备的硬件执行操作的指令。因此，所述指令用于配置操作系统和相关联的硬件以执行操作，并且以这样的方式使得操作系统的变换和相关联的硬件来执行功能。可以由计算机可读介质通过多种不同的配置将指令提供至用户设备。

计算机可读介质的一种这样的配置是信号承载介质，并且因此被配置为将指令(例如，作为载波)传输至计算设备，例如，经由网络。计算机可读介质还可以被配置为计算机可读存储介质，并且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)、只读存储器(ROM)、光盘、闪速存储器、硬盘存储器、以及可以使用磁、光、和其它技术来存储指令和其它数据的其它存储器设备。

尽管已经用特定于结构特征和/或方法行为的语言描述了本主题，但应当理解的是，在所附权利要求中所定义的主题非必须限于在上文中所描述的具体的特征或行为。相反，在上文中所描述的具体的特征或行为是作为实现所述权利要求的示例形式而公开的。

Claims

1.一种音频处理设备，包括：

用于接收具有噪声的音频信号的输入端，所述具有噪声的音频信号具有期望的音频成分以及噪声成分；以及

可变增益组件以及噪声抑制组件，所述可变增益组件以及所述噪声抑制组件分别被配置为将增益和噪声抑制过程施加至所述具有噪声的音频信号，从而生成增益经调整的、噪声经降低的音频信号；

其中，响应于所施加的增益的改变，所述噪声抑制过程的激进度从当前值快速改变与所述所施加的增益的所述改变大体上相匹配的量至新的值，并且接着逐渐地返回至所述当前值。

2.根据权利要求1所述的音频信号处理设备，其中，所述噪声抑制组件被配置为将受限的噪声抑制增益施加至所述音频信号，所述受限的噪声抑制增益是非受限的噪声抑制增益和噪声抑制增益下限的最大值，并且所述噪声抑制增益下限从所述当前值快速改变至所述新的值，并且接着逐渐地返回至所述当前值；并且

其中，所述噪声抑制组件被配置为根据所述噪声成分的估计而评估所述非受限的噪声抑制增益。

3.根据前述任何一项权利要求所述的音频信号处理设备，其中，所述具有噪声的音频信号是作为构成部分的序列的多个部分而被接收的，并且所述激进度最多逐个部分地被更新；并且

其中，通过在所述序列的多个部分内将所述激进度从所述新的值递归地平滑至所述当前值，而使所述激进度逐渐地从所述新的值返回至所述当前值。

4.根据权利要求3所述的音频信号处理设备，其中，所述平滑是一阶递归平滑，从而，对于所述多个部分中的每个部分，所述激进度是针对该部分而根据所述当前值以及根据针对所述序列中紧接着该部分之前的一部分而先前计算的激进度来计算的，而不是根据针对所述序列中的任何其它部分而先前计算的激进度来计算的。

5.根据权利要求3或4所述的音频信号处理设备，其中，所述所施加的增益的所述改变受在所述序列中的多个其它部分上将所述所施加的增益从初始值递归地平滑至目标值的影响；并且

其中，所述所施加的增益是以第一收敛时间来平滑的，而所述激进度是以大体上比所述第一收敛时间长的第二收敛时间来平滑的。

6.根据前述任何一项权利要求所述的音频信号处理设备，其中，所述激进度在大约50ms到250ms之间的第一持续时间内从所述当前值大体上改变至所述新的值，和/或所述激进度在大约10秒到40秒之间的第二持续时间内从所述新的值大体上返回至所述当前值。

7.根据前述任何一项权利要求所述的音频信号处理设备，其中，在与所施加的增益的所述改变的持续时间大体上相等的第一持续时间内，所述激进度从所述当前值大体上改变至所述新的值。

8.根据前述任何一项权利要求所述的音频信号处理设备，其中，所施加的增益的改变从初始值开始；并且

其中，在第一时间间隔内所述所施加的增益从所述初始值改变了所施加的增益的总改变的百分比p％至中间增益值的部分改变，而在比所述第一时间间隔至少长大约四十因子的第二时间间隔内，所述激进度从所述新的值改变了激进度的总改变的相同的百分比p％至中间激进度值的部分改变。

9.根据前述任何一项权利要求所述的音频信号处理设备，其中，所施加的增益的改变受将所述所施加的增益以根据具有不大于大约250ms的时间常数的第一函数而进行变化的影响，和/或通过将所述激进度以根据具有不小于大约10秒的时间常数的第二函数而进行变化来将所述激进度从所述新的值返回至所述当前值。

10.存储可执行的程序代码的至少一个计算机可读介质，所述可执行的程序代码被配置为，当被执行时，实现音频信号处理方法，所述方法包括：

接收具有噪声的音频信号，所述具有噪声的音频信号具有期望的音频成分以及噪声成分；

通过将增益和噪声抑制过程施加至所述具有噪声的音频信号来生成增益经调整的、噪声经降低的音频信号；

响应于所施加的增益的改变，所述噪声抑制过程的所述激进度从当前值快速改变与所述所施加的增益的所述改变大体上相匹配的量至新的值；以及

接着，所述噪声抑制过程的所述激进度逐渐地返回至所述当前值。