CN103354937A

CN103354937A - 包括噪声抑制增益的中值滤波的后处理

Info

Publication number: CN103354937A
Application number: CN2012800082797A
Authority: CN
Inventors: G·N·迪金斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-02-10
Filing date: 2012-02-08
Publication date: 2013-10-16
Anticipated expiration: 2032-02-08
Also published as: EP2673777B1; EP2673778B1; CN103348408A; WO2012109385A1; CN103354937B; CN103348408B; WO2012109384A1; EP2673778A1; JP2014510452A; EP2673777A1; JP6002690B2

Abstract

本发明涉及对用于应用于音频信号的分带的增益进行后处理的方法、用于分带的经后处理的增益的设备、以及包括在运行时实现方法的指令的有形计算机可读存储介质。分带的增益通过对一个或更多个输入音频信号进行输入处理来确定。该方法包括对分带的增益进行后处理以产生分带的经后处理的增益，产生对于特定频带的特定的经后处理的增益，包括使用来自用于与所述特定频带相邻的频带的增益值的增益值的中值滤波。后处理的至少一个特性依赖于一个或更多个输入音频信号的分类。

Description

包括噪声抑制增益的中值滤波的后处理

相关专利申请

本申请要求2011年2月10日提交的美国临时申请No.61/441,611的优先权，其内容全部通过参考被并入于此。

本申请与同时提交的题为“COMBINED SUPPRESSION OFNOISE,ECHO,and OUT-OF-LOCATION SIGNALS”的国际申请No.PCT/US_/____有关，该国际申请No.PCT/US_/____具有案卷参考号（Docket/Ref.No.）D09110AWO01，并且也要求2011年2月10日提交的美国临时申请No.61/441,611的优先权。这个国际申请No.PCT/US_/____的内容全部通过参考被并入于此。

本申请与下面的均于2011年2月10日提交的美国临时专利申请有关：

·美国临时专利申请No.61/441,396，题为“VECTOR NOISECANCELLATION”，发明人为Jon C.Taenzer，案卷：60175-0060，客户参考号No.A09070USP1。

·美国临时专利申请No.61/441,397，题为“VECTOR NOISECANCELLATION”，发明人为Jon C.Taenzer和Steven H.Puthuff，案卷：60175-0087，客户参考号No.A09071USP1。

·美国临时专利申请No.61/441,528，题为“MULTI-CHANNELWIND NOISE SUPPRESSION SYSTEM AND METHOD”，发明人为Jon C.Taenzer，案卷：435372-000052，客户参考号No.D10025USP1。

·美国临时专利申请No.61/441,551，题为“SYSTEM ANDMETHOD FOR WIND DETECTION AND SUPPRESSION”，发明人为Glenn N.Dickins和Leif Jonas Samuelsson，案卷：435372-000053，客户参考号No:D10089USP1，这个临时专利申请No.61/441,551在此被称为“Wind Detection/SuppressionApplication”。

·美国临时专利申请No.61/441,633，题为“SPATIALADAPTATION FOR MULTI-MICROPHONE SOUND CAPTURE”，发明人为Leif Jonas Samuelsson，案卷：435372-000054，客户参考号No.D11008USP1。

技术领域

本公开通常涉及信号处理，特别地涉及音频信号的信号处理。

背景技术

声信号处理现今可适用于提高诸如来自麦克风的声音信号的质量。作为一个示例，许多装置（诸如电话听筒（handsets））在存在回声（echo）的源（例如，扬声器）的情况下操作。此外，来自麦克风的信号可能在嘈杂的环境中（例如，在汽车中或在存在其它噪声的情况下）出现。此外，可能有来自干扰位置的声音，例如，别人进行的位置外的（out-of-location）谈话或位置外的干扰、风等。因此声信号处理是发明的一个重要领域。

已知处理系统用于抑制噪声、抑制回声和增加空间选择性（spatial selectivity）中的一个或更多个。声噪声减少系统典型地包括用于确定抑制概率指示器（indicator）例如作为一组噪声减少增益的增益计算模块和噪声估计器，该组增益在例如一组频带上被确定，并且在变换到频域并且分带（banding）到该组频带之后被应用于（嘈杂的）输入音频信号以便衰减噪声分量。声噪声减少系统可以包括一个麦克风输入，或多个麦克风输入并且向下混合（downmix）（例如波束成形（beamform））以产生一个输入音频信号。声噪声减少系统可以还包括回声减少，并且可以还包括位置外信号减少。

已知存在音乐的噪声，并且该音乐的噪声可能由于对带中的一些中的增益造成的随时间的短期错误而出现。这种增益中错误可以被认为是统计的离群值（outlier），即，跨越（across）一组带的增益的值统计上位于预期的范围外，因此似乎“被孤立”。

这种统计的离群值可能出现在输入音频信号被变换和分带的其它类型的处理中。这种其它类型的处理包括基于感知域（perceptualdomain）的调平（leveling）、基于感知域的动态范围控制、和考虑了依赖于音频信号的再现电平的音频的感知的变化的基于感知域的动态均衡。参见例如国际申请PCT/US2004/016964，其作为WO2004111994公开。如下是可能的，即用于调平和/或动态均衡的对于每个带确定的增益包括统计的离群值，例如，孤立的值，并且这种离群值可能导致假象，诸如音乐的噪声。

对增益（例如，噪声减少增益）进行中值滤波、或者对跨越频带的增益进行调平和/或动态均衡可以减少音乐的噪声假象。

增益值可能在频率之间显著变化，并且在这种情况下，沿着频带运行相对宽的中值滤波具有破坏时间包络的连续性的风险，这是对于许多信号而言固有的性质并且对于感知也是关键的。虽然对于离群值提供更大的抗扰性，但是更长的中值滤波器可能减少处理的频谱选择性，并且可能地在跨越频率和时间的增益值中引入更大的不连续性或跳变。

在这个背景技术部分中描述的方法是可以被实行的方法，但不一定是先前已经被设想或者实行的方法。因此，除非另有指明，否则不应该仅仅由于它们包括在该部分中而假设在该部分中描述的任何方法有资格作为现有技术。类似地，除非另有指明，否则不应该基于该部分而假设与一个或更多个方案联系的问题已经在任何现有技术中被认识到。

附图说明

图1示出包括本发明的一个实施例的一组一个或更多个输入音频信号（例如，来自不同位置的麦克风的麦克风信号101）的处理的一个示例。

图2图解表示地示出本发明的中值滤波器的一个实施例的频率覆盖范围和原始的（raw）分带的（banded）增益的组。

图3A示出根据本发明实施例的包括中值滤波器的后处理器的简化框图。

图3B示出根据本发明实施例的包括中值滤波的后处理的方法的简化流程图。

图4示出设备实施例的一个示例，所述设备实施例被配置为确定用于抑制噪声、以及在一些版本中同时抑制回声、以及在一些版本中同时抑制位置外信号的一组经后处理的增益。

图5更详细地示出设备实施例的一个示例。

图6示出包括空间敏感的语音活动（activity）检测器和风活动检测器的增益计算元件的示例实施例。

图7示出操作处理设备以便抑制噪声和位置外信号以及在一些实施例中抑制回声的方法的实施例的流程图。

图8示出处理设备实施例的简化框图，所述处理设备实施例用于处理一个或更多个音频输入以便确定一组原始的增益、以便对原始的增益进行后处理（包括对所确定的原始的增益进行中值滤波）、以及以便产生已经通过应用经后处理的增益被修改的音频输出。

具体实施方式

概述

本发明的实施例包括方法、设备、以及在一个或更多个计算机可读的有形的介质中编码以便实现该方法的逻辑。

一个实施例包括对原始的分带的增益应用后处理以便改善用于应用于一个或更多个输入音频信号的原始的分带的增益的方法。通过对一个或更多个输入音频信号进行输入处理来确定在包括一个或更多个频率格（bin）的多个频带处的原始的分带的增益。原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个。该方法包括对原始的分带的增益应用后处理以便产生分带的经后处理的增益。用于特定频带的特定的经后处理的增益的产生至少包括使用用于与该特定频带相邻的频带的增益值的中值滤波。后处理根据一个或更多个特性，包括用于中值滤波的宽度以及结束条件（end condition）。后处理的至少一个特性依赖于一个或更多个输入音频信号的信号分类。

一个实施例包括处理一个或更多个输入音频信号的方法。该方法包括对一个或更多个输入音频信号进行输入处理以便确定用于应用于音频信号的原始的分带的增益，该原始的分带的增益在包括一个或更多个频率格的多个频带处。原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个。该方法还包括对原始的分带的增益应用后处理以便产生分带的经后处理的增益。用于特定频带的特定的经后处理的增益的产生至少包括使用用于与该特定频带相邻的频带的增益值的中值滤波。后处理根据一个或更多个特性，包括用于中值滤波的宽度以及结束条件。后处理的至少一个特性依赖于一个或更多个输入音频信号的信号分类。

一个实施例包括用于对用于应用于一个或更多个输入音频信号的原始的分带的增益后处理的设备。通过对一个或更多个输入音频信号进行输入处理来确定在包括一个或更多个频率格的多个频带处的原始的分带的增益。原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个。该设备包括后处理器，该后处理器接受原始的分带的增益并且将后处理应用于原始的分带的增益，以便产生用于应用于一个或更多个输入信号的分带的经后处理的增益。后处理器包括用于实现原始的分带的增益的中值滤波的中值滤波器。通过后处理器进行的用于特定频带的特定的经后处理的增益的产生包括使用用于与该特定频带相邻的频带的增益值的中值滤波。后处理根据一个或更多个特性，包括用于中值滤波的宽度以及结束条件。后处理的至少一个特性依赖于一个或更多个输入音频信号的信号分类。

一个实施例包括用于处理一个或更多个输入音频信号的设备。该设备包括输入处理器，该输入处理器接受一个或更多个输入音频信号并且对一个或更多个输入音频信号进行输入处理以便产生在包括一个或更多个频率格的多个频带处的原始的分带的增益。原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个。该设备还包括后处理器，该后处理器接受原始的分带的增益并且将后处理应用于原始的分带的增益以便产生用于应用于一个或更多个输入信号的分带的经后处理的增益。后处理器包括用于实现原始的分带的增益的中值滤波的中值滤波器。通过后处理器进行的用于特定频带的特定的经后处理的增益的产生包括使用用于与该特定频带相邻的频带的增益值的中值滤波。后处理根据一个或更多个特性，包括用于中值滤波的宽度以及结束条件。后处理的至少一个特性依赖于一个或更多个输入音频信号的信号分类。

一个实施例包括用于对原始的分带的增益进行后处理以便产生用于应用于音频信号的分带的经后处理的增益的系统。该系统包括用于对原始的分带的增益进行后处理以便产生分带的经后处理的增益的装置，原始的分带的增益是由用于对一个或更多个输入音频信号进行输入处理以便产生在包括一个或更多个频率格的多个频带处的原始的分带的增益的装置确定的。原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个。分带的经后处理的增益用于应用于一个或更多个音频信号。产生用于特定频带的特定的经后处理的增益至少包括使用用于与该特定频带相邻的频带的增益值的中值滤波。后处理根据一个或更多个特性，包括用于中值滤波的宽度以及结束条件。后处理的至少一个特性依赖于一个或更多个输入音频信号的信号分类。

一个实施例包括用于处理一个或更多个输入音频信号的系统。该系统包括用于对一个或更多个输入音频信号进行输入处理以便产生在包括一个或更多个频率格的多个频带处的原始的分带的增益的装置。原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个。该系统还包括用于对原始的分带的增益后处理以便产生用于应用于一个或更多个输入音频信号的分带的经后处理的增益以便实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个的装置。通过用于后处理的装置进行的用于特定频带的特定的经后处理的增益的产生至少包括使用用于与特定频带相邻的频带的增益值的中值滤波。通过用于后处理的装置应用的后处理根据一个或更多个特性，包括用于中值滤波的宽度和结束条件。后处理的至少一个特性依赖于一个或更多个输入音频信号的信号分类。

在一些实施例中，后处理包括频带到频带平滑和跨越时间平滑（smoothing across time）中的至少一个。

在一些实施例中，中值滤波的宽度和结束条件中的一个或两个依赖于一个或更多个输入音频信号的信号分类。在一些实施例中，分类包括输入音频信号是否可能是语音。在一些实施例中，分类包括输入音频信号是否可能是风。

在一些实施例中，频带为感知尺度或对数尺度（on perceptual orlogarithmic scale）。

在一些实施例中，根据一个或更多个输入音频信号确定的原始的分带的增益用于减少噪声。在一些实施例中，原始的分带的增益是根据多于一个输入音频信号确定的并且用于减少噪声和位置外信号。在一些实施例中，原始的分带的增益是根据一个或更多个输入音频信号和一个或更多个参考信号确定的，并且用于减少噪声和回声。

一个实施例包括有形的计算机可读的存储介质，其包括指令，该指令在由处理系统的一个或更多个处理器运行时使得处理硬件实现如在此描述的对用于应用于音频信号的原始的分带的增益进行后处理的方法。

一个实施例包括程序逻辑，该程序逻辑在由至少一个处理器运行时使得实现如在此描述的方法。

特定的实施例可以提供这些方面、特征或优点中的所有、一些或没有。特定的实施例可以提供一个或更多个其它方面、特征或优点，其中的一个或更多个对于本领域技术人员而言可以根据在本申请中的附图、说明书和权利要求而容易明白。

一些示例实施例

本发明的一个方面是一个或更多个输入音频信号的处理，包括输入处理，以便产生用于噪声减少或者用于其它形式的输入信号改善的原始的增益。该处理包括应用后处理于原始的增益，包括用于增益平滑的原始的增益的中值滤波。本发明的另一个方面是后处理，包括通过输入处理确定的例如用于噪声减少或者用于其它输入处理的原始的增益的中值滤波。中值滤波器利用预定义数量的原始的增益值的中值（例如，通过特定的原始的增益值和预定义的一组相邻原始的增益值的中值）代替特定的原始的增益值。中值滤波器具有一个或更多个特性，例如，确定中值的值的数量以及结束条件。该特性中的至少一个可以是与数据相关的。因此，在在此描述的一些示例中，可以存在用于一种类型的数据（例如，可能是噪声的数据）的第一中值滤波器、以及用于另一种类型的数据（例如，可能是语音的数据）的不同的中值滤波器。

图1示出包括本发明的一个实施例的一组一个或更多个输入音频信号（例如，来自不同位置的麦克风的麦克风信号101）的处理的一个示例。该处理利用多个（例如M个）样本的时间帧。在简单的实施例中，仅仅存在一个输入，例如，一个麦克风，并且在另一实施例中，存在P表示的多个输入，例如，麦克风信号101。输入处理器105接受采样的一个或更多个输入音频信号101并且形成用于多个（B个）频带的一个或更多个输入音频信号101的分带的瞬时频域振幅度量（metric）119。在其中存在多于一个的输入音频信号的一些实施例中，度量119是从输入音频信号向下混合的。振幅度量表示谱内容（spectral content）。在此描述的许多实施例中，谱内容为功率谱方面的内容。然而，本发明不限于处理功率谱值。相反地，可以使用任何谱振幅相关的度量。例如，如果直接使用振幅谱，则这种谱内容有时被称为谱包络。因此，有时在说明书中使用短语“功率（或者其它振幅度量）谱”。

在一个噪声减少实施例中，输入处理器105确定用于应用于瞬时振幅度量119的一组原始的分带的增益111。在一个实施例中，输入处理还包括确定一个或更多个输入音频信号的信号分类，例如，如由语音活动检测器（VAD）确定的一个或更多个输入音频信号是否可能是语音的指示、和/或如由风活动检测器（WAD）确定的一个或更多个输入音频信号是否可能是风的指示、和/或如例如由超过阈值的谱通量指示的信号能量正快速地变化的指示。

本发明的实施例的一个特征包括将后处理应用于原始的增益以便提高输出的质量。在一个实施例中，后处理包括通过输入处理确定的原始的增益的中值滤波。中值滤波器考虑一组原始的增益并且输出作为该组原始的增益的中值的增益。对于每个帧确定一组B个原始的增益，使得存在在B个频带上的B个原始的增益的组的时间序列。在一个实施例中，中值滤波器跨越频率延伸。

图2图解表示地示出多组原始的分带的增益，一个组用于当前时间、往回一个帧、往回两个帧、往回三个帧等中的每一个，并且还示出包括当前帧中的以频带b_c为中心的五个原始的增益值的示例中值滤波器的覆盖范围。对于滤波器宽度，我们意指频带域中的滤波器的宽度。

返回到图1，后处理产生被应用于瞬时功率（或者其它振幅度量）119的一组经后处理的增益125以便产生输出，例如作为多个经处理的频率格133。输出合成滤波器组135（或者用于后续的编码，变换器/重映射器）将这些频率格转换为期望的输出137。

输入处理元件105包括输入分析滤波器组以及原始的增益计算器。用于一个输入音频信号101的情况的输入分析滤波器组包括用于将帧的样本变换成频率格的变换器以及用于形成大多数包括多个频率格的频带的分带元件。用于多个输入音频信号101的情况的输入分析滤波器组包括用于将每个输入音频信号的帧的样本变换成频率格的变换器、用于向下混合多个成单个信号的向下混合器（例如波束成形器）、以及用于形成大多数包括多个频率格的频带的分带元件。

在一个实施例中，变换器实行短时间傅里叶变换（STFT）。为了计算效率，变换器使用由快速傅里叶变换（FFT）实行的离散有限长度傅里叶变换（DFT）。其它实施例使用不同的变换。

在一个实施例中，B个带处于其间隔单调地不减少的频率处。合理的数量（例如，90%）的频带包括来自多于一个频率格的贡献，并且在特定实施例中，每个频带包括来自两个或更多个频率格的贡献。在一些实施例中，带以对数状方式单调地增大。在一些实施例中，带为心理声学尺度（psycho-acoustic scale），即，频带利用与心理声学关键间隔（critical spacing）有关的缩放比例（scaling）被分隔，这种分带在此称为“感知分带（perceptually-banding）”。在特定实施例中，带间隔约为1ERB或者0.5Bark，或者等同的带具有大约10%的中心频率处的频率分离。频率间隔的合理范围是从5～20%或者大约0.5-2ERB。

在其中输入处理包括噪声减少的一些实施例中，输入处理，多个输入音频信号由输入处理器接受，并且输入处理包括减少位置外信号。包括减少位置外信号的输入处理的一个示例被描述在同时提交的题为“COMBINED SUPPRESSION OF NOISE,ECHO,andOUT-OF-LOCATION SIGNALS”的国际申请No.PCT/US_/____中，该国际申请也要求2011年2月10日提交的发明人为Dickins等的题为“COMBINED SUPPRESSION OF NOISE,ECHO,ANDOUT-OF-LOCATION SIGNALS”的美国临时申请No.61/441,611的优先权，这个国际申请和美国临时申请的内容通过参考被并入于此。结果得到的原始的分带的增益实现同时的回声减少和噪声减少。

在其中输入处理包括噪声减少的一些实施例中，输入处理还包括回声减少。在同时提交的国际申请No.PCT/US_/____中描述了包括回声减少的输入处理的一个示例。对于其中输入处理包括回声减少的那些实施例，一个或更多个参考信号还被包括并且用来获得回声的某个特性的估计值，例如，回声的功率（或者其它振幅度量）谱的估计值。结果得到的原始的分带的增益实现同时的回声减少和噪声减少。

在包括噪声减少和回声减少的一些实施例中，经后处理的增益由元件123接受，该元件123修改增益以便包括额外的回声抑制。结果是一组经后处理的增益125，其被应用于一个或更多个输入信号，例如，被用来在频域中处理输入音频信号（如果存在一个输入）、或者输入音频信号的向下混合（如果存在（例如，来自不同位置的麦克风的）多个输入音频信号），作为频率格。

增益应用模块131接受分带的经后处理的增益125并且应用这种增益于一个或更多个输入音频信号。在一个实施例中，分带的增益被内插并且应用于输入音频信号（如果一个）或者向下混合的输入音频信号（如果存在多于一个的输入音频信号）的频率格数据（表示为Y_n,n=0,1,...,N-1，其中N是频率格的数量）。Y_n,n=0,1,...,N-1是输入音频信号样本Y_m,m=1,,M的帧的频率格。经处理的数据133然后可以被输出合成滤波器组135转换回到样本域，以便制作M个信号样本137的帧。在一些实施例中，另外或者作为替代，信号133经受变换或者重映射例如到准备好根据某个编码方法编码的形式。

下面更详细地描述与包括用于减少噪声（以及可能地回声和位置外信号）的输入处理的PCT/US_/____类似的系统的示例实施例。

本发明当然不限于在国际申请No.PCT/US_/____、U.S.61/441,611中描述的输入处理和增益计算，或者甚至不限于噪声减少。

虽然在一个实施例中输入处理要减少噪声（并且可能地回声和位置外信号），在其它实施例中，输入处理可以另外或者主要要实现基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个，其考虑依赖于音频信号的再现电平的音频的感知的变化，如例如在共同拥有的WO2004111994中描述的。按照WO2004111994计算的原始的分带的增益被后处理（包括中值滤波），以便确定用于应用于（经变换的）输入的经后处理的增益125。

包括中值滤波的后处理

图3A示出包括根据本发明实施例的中值滤波器305的后处理器121的简化框图。后处理器121接受原始的增益111以及，在其中后处理根据信号分类改变的实施例中，接受一个或更多个信号分类指示器115（例如，VAD和WAD中的一个或更多个）的输出。虽然未被包括在所有实施例中，但是后处理器的一些实施例包括用于确保增益不低于预定义的可能依赖于频率的值的最小增益处理器303。此外虽然未被包括在所有实施例中，但是后处理器的一些实施例包括平滑滤波器307，其在中值滤波之后处理增益以便平滑频带到频带变化和/或平滑时间变化。图3B示出后处理310的方法的简化流程图，其在311中包括接受原始的增益，以及在其中后处理根据信号分类改变的实施例中，接受一个或更多个信号分类指示器115。后处理包括根据本发明实施例的中值滤波315。本发明人已经发现中值滤波是有效的非线性平滑技术，其在与仅仅使用平滑方法相比时对于消除不期望的离群值很适用。一些实施例包括在步骤313中确保增益不低于预定义的最小值，其可以是频带相关的。一些实施例还包括，在步骤317中，带到带和/或时间平滑，例如，使用例如加权移动平均（weighted movingaverage）的线性平滑。

因此，在本发明的一些实施例中，原始的分带的增益值的中值滤波器315的特征在于：1）包括以确定中值的原始的分带的增益的数量，2）被包括的原始的分带的增益的频带位置；3）结束条件，即，用来延伸原始的分带的增益以便允许在频带和时间的边缘处计算中值的条件；以及4）中值滤波器的特征如何受信号分类的影响，例如，语音的存在和风的存在中的一个或更多个。

一些实施例包括用于控制基于信号分类的频率和/或时间之上的中值滤波特性中的一个或更多个的机制。例如，在包括语音活动检测的一个实施例中，中值滤波特性中的一个或更多个根据输入是否由VAD确认为语音而变化。在包括风活动检测的一个实施例中，中值滤波特性中的一个或更多个根据输入是否由WAD确认为风而变化。

不同的边缘条件的示例包括（a）对于边缘的内部值的外插；（b）使用最小增益值来延伸边缘处的原始的分带的增益，（c）使用零增益值来延伸边缘处的原始的分带的增益（d）复制中心滤波器位置值以便延伸边缘处的原始的分带的增益，以及（e）使用最大增益值来延伸边缘处的原始的分带的增益。

额外的后处理

虽然未被包括在所有实施例中，但是在一些实施例中后处理器121包括实现步骤313以便确保增益不低于预定义的最小增益值的最小增益处理器303。在一些实施例中，最小增益处理器以频带相关的方式确保最小值。在一些实施例中，防止最小值的方式依赖于活动分类115，例如，是否语音。

在一个实施例中，由增益Gain′_b，s表示来自输入处理的所计算的原始的增益，在最小处理器之后的由Gain′_b，RAW表示的增益的一些可替代值（alternative）为

Gain′_b，RAW=Gain′_b，MIN+(1-Gain′_b，MIN·Gain′_b，S

Gain′_b，RAW=Gain'_b，MIN+Gain′_b,S

{Gain}_{b, RAW}^{'} = \{\begin{matrix} {Gain}_{b, MIN}^{'} & {Gain}_{b, S}^{'} < {Gain}_{b, MIN}^{'} \\ {Gain}_{b, S}^{'} & otherwise \end{matrix}

作为一个示例，在后处理器121和步骤310的一些实施例中，最大抑制深度或者最小增益的范围可以从-80dB到-5dB的范围并且是频率相关的。在一个实施例中抑制深度在200Hz以下的低频处大约是-20dB，在1kHz处变为大约-10dB并且在大约4kHz的上语音频率处放宽到仅仅-6dB。此外，在一个实施例中，如果VAD确定信号是语音，则增益Gain＇_b,MIN增大，例如，以频带相关的方式（或者在另一实施例中，通过对于每个带b相同的量）。在一个实施例中，最小值的增大的量在中频带（例如，500Hz到2kHz之间的带）中更大。

此外，虽然未被包括在所有实施例中，但是在一些实施例中后处理器121包括平滑滤波器307，例如，线性平滑滤波器，其实现频带到频带平滑和时间平滑中的一个或者两者。在一些实施例中，这种平滑化根据信号分类115而变化。

平滑化317的一个实施例使用具有固定核（kernel）的加权移动平均。一个示例使用用于加权移动平均的高斯加权核的二项近似。作为一个示例，5点二项式平滑器具有核

\frac{1}{16} [\begin{matrix} 1 & 4 & 6 & 4 & 1 \end{matrix}] .

实际上，当然，因子1/16可以省去，在需要时在一个点或另一个中实现缩放比例16。作为另一个示例，3点二项式平滑器具有核

\frac{1}{4} [\begin{matrix} 1 & 2 & 1 \end{matrix}] .

已知许多其它加权移动平均滤波器，并且任何这种滤波器可以适当地被修改以用于增益的带到带平滑。

在一个实施例中，通过信号分类控制带到带平滑。在一个实施例中，VAD（例如，空间选择性的VAD）被包括，并且如果VAD确定存在语音，则在检测到噪声时平滑的程度增大。在一个示例实施例中，在VAD指示检测到语音的情况下5点带到带加权平均平滑被执行，否则，在VAD确定不存在语音时，不执行平滑。

在一些实施例中，还包括增益的时间平滑。在一些实施例中，B个带中的每一个的增益被如下一阶平滑滤波器平滑：

{Gain}_{b, Smoothed} = α_{b} {Gain}_{b} + (1 - α_{b}) {Gain}_{{b, Smoothed}_{Prev}}

其中Gain_b是当前的时间帧增益，Gain_b,Smoothed是经时间平滑的增益，并且是来自前一M样本帧的Gain_b,Smoothed。α_b是可以与频带相关的并且典型地在20到500ms范围内的时间常数。在一个实施例中使用50ms的值。在一个实施例中，通过当前帧的信号分类来控制时间平滑的的量。在包括增益的一阶时间平滑的特定的实施例中，当前帧的信号分类被用来控制用于滤波每个带中的随时间的增益的一阶时间常数的值。在包括VAD的情况下，一个实施例在检测到语音的情况下停止时间平滑。

本发明人发现重要的是在语音的开始（onset）处中止积极的（aggressive）平滑。因此优选的是后处理的参数通过立即信号分类器（VAD，WAD）值来控制，该立即信号分类器（VAD，WAD）值具有低等待时间（latency）并且能够实现从噪声到语音（或者其它期望信号）模式中的后处理的快速转变。在检测到语音之后（即，在拖出（trail out）处）恢复（reinstate）更积极的后处理的速度已经被认为是次要的，因为它更少程度地影响语音的可识度。

语音活动控制的示例

在一个实施例中，通过信号分类控制带到带中值滤波。在一个实施例中，包括VAD，并且如果VAD确定很可能不存在语音，则实现具有5点带到带和3点时间中值滤波的7点T形中值滤波器，其具有包括在边缘处延伸最小增益值或者零值以便计算中值的边缘处理。如果VAD确定很可能存在语音，则在第一版本（version）中，5点T形时间-频率中值滤波在当前的时间帧中利用三个频带被实现，并且使用两个先前时间帧，并且在第二实施例中，使用三点少存储仅频带中值滤波器，具有在边缘处外插以便计算中值的边界值。在一个这种组的实施例中，中值是中值，使得中值滤波器是中值滤波器。

风活动控制的示例

本发明的一个特征在于，后处理，例如，中值滤波依赖于信号的分类，并且在一些实施例中，一个这种分类是是否存在风。在一些实施例中，包括WAD，并且如果WAD确定不存在风，并且VAD指示不存在语音，则更少原始的增益值被包括在中值滤波器内。当包括WAD和VAD时，如果WAD确定可能不存在风并且VAD确定语音是可能的，则中值滤波应该更短，例如通过使用3点带到带中值滤波器，其具有外插在边缘处施加的边界值。如果WAD指示风是不太可能的，并且VAD指示语音也是不太可能的，则可以使用更多中值滤波，例如，实现5点带到带中值滤波，其具有包括在边缘处延伸最小增益值或者零值以便计算中值的边缘处理。如果WAD指示风是可能，并且VAD指示语音是不太可能的，则可以使用甚至更多的中值滤波，例如，可以实现7点带到带中值滤波，其具有包括在边缘处延伸最小增益值或者零值以便计算中值的边缘处理。

示例声噪声减少系统

声噪声减少系统典型地包括用于确定一组噪声减少增益的噪声估计器和原始增益计算模块，该组增益例如在一组频带上被确定并且在变换到频域并且分带到该组频带之后被应用于（嘈杂的）输入音频信号以便衰减噪声分量。声噪声减少系统可以包括一个麦克风，或来自不同位置的麦克风的多个输入并且向下混合（例如波束成形）以产生一个输入音频信号。声噪声减少系统可以还包括回声减少，并且可以还包括位置外信号减少。

图4示出设备的一个示例，所述设备被配置为确定用于抑制噪声、以及在一些版本中同时抑制回声、以及在一些版本中同时抑制位置外信号的一组后处理的增益。

这种系统例如被描述在国际申请PCT/US_/____中和在US61/441,611中。该输入包括一组一个或更多个输入音频信号101，例如，来自不同位置的麦克风的信号，每个信号对于每个帧有多组M个样本。当包括空间信息时，存在两个或更多个输入音频信号，例如，来自空间分开的麦克风的信号。当包括回声抑制时，也接受一个或更多个参考信号103，例如，在多帧的M样本中。这些可以是例如来自一个或更多个扬声器的一个或更多个信号，或者，在另一实施例中，被用来驱动一个或更多个扬声器的一个或更多个信号。第一输入处理级403确定P＇_b表示的分带的信号功率（或者其它振幅度量）谱413，以及Y＇_b表示的瞬时功率417的分带的测量。当包括多于一个输入音频信号时，瞬时的分带的测量417和谱413中的每一个具有在被向下混合器（例如，波束成形器）向下混合之后的输入。当包括回声抑制时，第一输入处理级403也确定E＇_b表示的回声415的分带的功率谱估计值，该确定根据使用具有一组自适应确定的滤波器系数的滤波器的回声的先前计算的功率谱估计值。在包括位置外信号抑制的那些版本中，第一输入处理级403也确定具有分带的位置概率指示器419形式的空间特征419，其可用于将信号空间地分离成来源于期望位置的分量和未来源于期望方向的那些分量。

来自第一级403的量被用在第二级405中，该第二级405确定原始增益，并且对该原始增益进行后处理，包括本发明的实施例的中值滤波，以便确定分带的经后处理的增益125。第二级405的实施例包括用于确定E＇_b表示的噪声功率（或者其它振幅度量）谱的测量的噪声功率（或者其它振幅度量）谱计算器421、以及用于确定信号分类115的信号分类器423，例如，语音活动检测器（VAD）、风活动检测器和功率通量计算器中的一个或更多个。图4示出包括VAD的信号分类器423。

图5更详细地示出图4的元件的一个实施例500，并且包括用于噪声、回声和位置外的噪声抑制的示例实施例的抑制器131和用于产生输出信号137的输出合成器（或者变换器或者重映射器）135，该抑制器131应用经后处理的增益125。

比较图4和图5，图4的第一级处理器403包括图5的元件503,505,507,509,511,513,515,517,521,523,525和527。更详细地，一个或更多个输入的一个或更多个帧101由一个或更多个输入变换器503变换，以便确定经变换的输入信号格，频率格的数量由N表示。在多于一个输入音频信号的情况下，这些频域信号由波束形成器507波束成形以便形成Y_n,n=1,…,N表示的输入频率格数据，并且输入频率格数据Y_n由谱分带元件509分带成B个谱带，在一个实施例中，感知分隔的谱带，以便产生功率X＇_b,b=1,...,B的瞬时分带的测量。在包括位置外的抑制以及多于一个输入音频信号的版本中，来自输入变换器503的频域信号由分带的空间特征计算器接受以便确定分带的位置概率指示器，每个在0与1之间。在包括回声抑制的版本中，如果存在多于一个的参考信号，称为Q个参考信号，信号由组合器511（在一个实施例中，加法器(summer)）组合以便产生经组合的参考输入。输入变换器513和谱分带器(bander)515将参考转换成对于B个带的由X＇_b,b=1,...,B表示的分带的参考谱内容。L抽头线性预测滤波器517使用L×B滤波器更新系数528来预测分带的回声谱内容E＇_b,b=1,...,B。信号谱计算器521计算（向下混合的）功率（或者其它振幅度量）谱P＇_b,b=1,...,B的测量值。在一些实施例中，Y＇_b被用作到P＇_b的足够好的近似。

用于滤波器517的LB滤波器系数由自适应滤波器更新器（updater）527确定，并且由噪声计算器523根据瞬时功率Y＇_b和来自信号谱计算器521的测量值来确定，该自适应滤波器更新器527使用当前的分带的回声谱内容E＇_b、（向下混合的）功率（或者其它振幅度量）谱P＇_b的测量值、N＇_b,b=1,...,B表示的分带的噪声功率（或者其它振幅度量）谱524。更新由S表示的如由语音活动检测器（VAD）525使用P＇_b（或者Y＇_b）、N＇_b和E＇_b确定的语音活动信号来触发。当S超过阈值时，该信号被假设为语音。回声更新语音活动检测器525和滤波器更新器527中推导的VAD用于控制回声预测的修改的特定目的。具有该目的的VAD或者检测器通常被称为双说话检测器。在一个实施例中，更新器527的回声滤波器系数更新被门控，在与预期的噪声和当前输入功率相比预期的回声显著时出现更新，如由VAD525确定并且由本地信号活动S的低值指示。

根据图4和图5的第一级403的元件在一些实施例中如何操作的细节如下。在一个实施例中，输入变换器503、511确定短时间傅里叶变换（STFT）。在另一实施例中，以下变换和逆对被用于元件503和511中以及输出合成元件135中的前向变换。

X_{2 n} = \frac{1}{\sqrt{N}} Σ_{n^{'} = 0}^{N - 1} e^{\frac{- iπn'}{2 N}} {(u_{n'} x_{n'} - {iu}_{N + n'} x_{N + n'}) e}^{\frac{- i 2 πnn'}{N}} n = 0 . . . N / 2 - 1

X_{2 n + 1} = \frac{1}{\sqrt{N}} Σ_{n^{'} = 0}^{N - 1} e^{\frac{- iπn'}{2 N}} {(u_{n'} x_{n'} - {iu}_{N + n'} x_{N + n'}) e}^{\frac{- i 2 πnn'}{N}} n = 0 . . . N / 2 - 1

y_{n} = v_{n} real [\frac{1}{\sqrt{N}} e^{\frac{iπn}{4 N}} (Σ_{n' = 0}^{N / 2 - 1} X_{n'} e^{\frac{i 4 πnn'}{N}} + Σ_{n' = N / 2}^{N - 1} \overset{&OverBar;}{X_{N - n' - 1}} e^{\frac{i 4 πnn'}{N}})] n = 0 . . . N - 1

y_{N + n} = {- v}_{N + n} imag [\frac{1}{\sqrt{N}} e^{\frac{iπn}{4 N}} (Σ_{n' = 0}^{N / 2 - 1} X_{n'} e^{\frac{i 4 πnn'}{N}} + Σ_{n' = N / 2}^{N - 1} \overset{&OverBar;}{X_{N - n' - 1}} e^{\frac{i 4 πnn'}{N}})] n = 0 . . . N - 1

其中i²=-1,u_n和v_n是适当的窗函数，x_n表示最后2N个输入样本，具有x_N-1表示最近的样本，X_n以增大频率顺序表示N个复数值的频率格。逆变换或者合成以最后二个等式方式表示。y_n表示由用于设计的窗口的在适当时在交迭、相加和丢弃之前的独立逆变换得到的2N个输出样本。应当注意，这个变换具有有效的实现方式作为块乘（blockmultiply）和FFT。注意，上述变换的表达式中的x_n和X_n的使用是为了方便起见。在这个公开内容的其它部分中，X_n,n=0,…,N－1表示代表参考信号的特征的信号的频率格，并且Y_n,n=0,…,N－1表示向下混合的输入音频信号的频率格。

在一个实施例中，在一个实施例中用于上述变换的窗函数u_n和v_n是正弦窗家族，其一个建议的实施例是

u_{n} = v_{n} = \sin (\frac{n + \frac{1}{2}}{2 N} π) n = 0 . . . 2 N - 1

本领域技术人员应该清楚的是，分析和合成窗口（也被称为原型滤波器）可以具有大于或小于在此给出的示例的长度。

虽然本发明在具有任何向下混合的信号的情况下工作，但是在一些实施例中，向下混合器是设计成实现朝向期望位置的某个空间选择性的波束形成器507。在一个实施例中，波束形成器507是线性时间不变处理，即，一般由用于每个输入声道的一组复数值的依赖于频率的增益定义的被动式的（passive）波束形成器。对于双麦克风阵列的示例，期望声源位于阵列的广侧（broad side），即，在中垂线处，一个实施例将确定两个输入声道的简单的和的被动式的波束形成器107用于波束形成器507。在一些版本中，波束形成器507通过一组复数值的权重对该组输入（作为频率格）加权。在一个实施例中，根据最大比率组合（MRC）确定波束形成器107的波束形成权重。在另一实施例中，波束形成器507使用通过使用迫零（zero – forcing）确定的权重。这种方法在本领域中是公知的。

谱分带元件509和514的分带可以通过如下描述

Y_{b}^{'} = W_{b} Σ_{n = 0}^{N - 1} w_{b, n} {| Y_{n} |}^{2}

其中Y＇_b是向下混合的、例如波束成形的信号的分带的瞬时功率，W_b是规格化（normalization）增益并且w_b,n是来自分带矩阵的元素。

在一个实施例中的信号谱计算器521通过如下平滑处理描述

P_{b}^{'} = α_{P, b} (Y_{b}^{'} + Y_{\min}^{'}) + (1 + α_{P, b,}) P_{b_{PREV}}^{'},

其中

是先前确定的、例如最近确定的信号功率（或其它频域振幅度量）估计值，α_P,b是时间信号估计值时间常数，并且Y＇_min是偏移（offset）。发现对于信号估计值时间常数α_P,b的合适的范围在20到200ms之间。在一个实施例中，偏移Y＇_min被添加以避免零电平功率谱（或其它振幅度量谱）估计值。Y＇_min可以被测量，或可以基于先验知识被选择。Y＇_min例如可以与听觉极限或器件噪声阈值有关。

在一个实施例中，自适应滤波器517包括通过使用由如下描述的L抽头自适应滤波器来确定对于带b由T＇_b表示的瞬时的回声功率谱（或其它振幅度量谱）

T_{b}^{'} = Σ_{l = 0}^{L - 1} F_{b, l} X_{b, l}^{'},

其中当前帧为X＇_b=X＇_b,0,其中X＇_b,0,…,X＇_b,l，…X＇_b,L-1是L个最近的帧的（组合的）分带的参考信号X＇_b,包括当前帧X＇_b=X＇_b,0，其中用于给定带b的L个滤波器系数分别由F_b,0,…,F_b,l,…F_b,L-1表示。

一个实施例包括来自回声预测滤波器517的瞬时的回声的时间平滑以便确定回声谱估计值E＇_b。在一个实施例中，一阶时间平滑滤波器被如下使用

E_{b}^{'} = T_{b}^{'} for T_{b}^{'} &GreaterEqual; E_{b_{Prev}}^{'},

以及

E_{b}^{'} = α_{E, b} T_{b}^{'} + (1 + α_{E, b}) E_{b_{Prev}}^{'},

对于

T_{b}^{'} < E_{b_{Prev}}^{'}

其中

是先前确定的回声谱估计值，例如，最近确定的回声谱估计值，或者其它先前确定的估计值，并且α_E,b是一阶平滑时间常数。

在一个实施例中，噪声功率谱计算器523使用具有指数生长的最小值跟随器：

N_{b}^{'} = \min (P_{b}^{'}, (1 + α_{N, b}) N_{b_{Prev}}^{'}),

在E＇_b。/小于时

N_{b}^{'} = N_{b_{Prev}}^{'},

其它情况，

其中α_N,b是指定最小值跟随器可以增加以跟踪噪声的任何增加的随时间的速率的参数。在一个实施例中，准则E＇_b小于

是在E′_b<N＇_bPrev/2的情况下，即在（经平滑的）回声谱估计值E＇_b小于N＇_b的先前值小3dB的情况下，在该情况下噪声估计值跟随生长或当前功率。否则，即，N＇_b被保持在N＇_b的先前值。参数α_N,b最好用最小值跟随器将跟踪的随时间速率表示。那个速率可以用dB/sec表示，其然后提供用于确定b的值的机制。范围是1到30dB/sec。在一个实施例中使用20dB/sec的值。

在其它实施例中，可以使用用于噪声估计的不同的近似。这种不同的近似的示例包括但不限于，确定信号观察的窗口之上的最小值的迭代法，例如1和10秒的窗口。另外或者可替代最小值，这种不同的近似可能还确定在它被分类为可能是噪声或者语音不太可能的时间期间的信号的变化和意思。

在一个实施例中，最小值跟随器的一个或更多个泄漏率参数由如由语音活动检测（VAD）确定存在的语音的概率控制。在一个实施例中，VAD元件525确定S表示的整个信号活动电平为

S = Σ_{b = 1}^{B} \frac{\max (0, Y_{b}^{'} - β_{N} N_{b}^{'} - β_{E} E_{b}^{'})}{Y_{b}^{'} + Y_{sens}^{'}}

其中β_N，β_B>1是分别用于噪声和回声的裕度并且Y＇_sens是可设置的灵敏度偏移。这些参数一般可以在各带之间变化。在一个实施例中，β_N，β_E的值在1与4之间。在特定的实施例中，β_N，β_E各是2。Y＇_sens被设置为在通过对典型的组件进行实验获得的预期麦克风和系统噪声电平附近。可替代地，可以使用听觉极限来确定用于Y_sens的值。

在一个实施例中，更新器527的回声滤波器系数更新被门控，如下。如果本地信号活动水平低，例如，在预定义的阈值S_thresh以下，即，如果S<S_thresh,则自适应滤波器系数被更新为：

F_{b, l} = F_{b, l} + μ \frac{(\max (0, Y_{b}^{'} - γ_{N} N_{b}^{'}) - T_{b}^{'}) X_{b, l}^{'}}{Σ_{l' = 0}^{L - 1} ({X_{b, l'}^{'}}^{2} + {X_{sens}^{'}}^{2})},

如果S<S_thresh,

其中γ_N是调整以便确保噪声与回声估计值之间的稳定性的调整参数。γ_N的代表值是1.4（+3dB）。可以使用1到4的数值范围。μ是影响回声估计值的稳定性与收敛速度的调整参数。0与1之间的值可能在不同的实施例中有用。在一个实施例中，μ=0.1与帧尺寸M无关。X＇_sens被设定为避免对于小参考信号的不稳定的修改。在一个实施例中X＇_sens与听觉极限有关。S_thresh的值的选择依赖于带的数量。S_thresh在1与B之间，并且对于具有24个带到8kHz的一个实施例，发现合适的范围在2与8之间，特定的实施例使用4的值。

本发明的实施例使用具有根据带b中的一个或更多个空间特征确定的一个或更多个测量值形式的空间信息，其与特定的带b具有从所关心的空间区域入射的这种能量的概率单调一致（monotonicwith）。这种量被称为空间概率指示器。在一个实施例中，一个或更多个空间概率指示器是输入音频信号的一个或更多个分带的加权的协方差矩阵的函数。假设P输入变换的输出X_p,n,p=1,...,P,具有N个频率格,n=0,...,N-1,我们构造一组加权协方差矩阵以便通过对于格n的跨越P个输入的输入向量与其共轭转置的积求和，并且通过具有元素w_b,n的分带矩阵W_b加权来对应

{R^{'}}_{b} = Σ_{n = 0}^{N - 1} w_{b, n} {[\begin{matrix} X_{1, n} & . . . & X_{P, n} \end{matrix}]}^{H} [\begin{matrix} X_{1, n} & . . . & X_{P, n} \end{matrix}] .

w_b,n提供每个格如何被加权以用于贡献于带的指示。在一些实施例中，一个或更多个协方差矩阵被随时间平滑。在一些实施例中，分带矩阵包括用于加权移动平均的时间依赖的加权，表示为具有元素w_b,n,l的W_b,l，其中l表示时间帧，使得，在L个时间帧之上，

{R^{'}}_{b} = Σ_{n = 0}^{N - 1} Σ_{l = 0}^{L - 1} w_{b, n, l} {[\begin{matrix} X_{1, n} & \cdot \cdot \cdot & X_{P, n} \end{matrix}]}^{H} [\begin{matrix} X_{1, n} & \cdot \cdot \cdot & X_{P, n} \end{matrix}] .

在两个输入的情况下，P=2,定义

R_{b}^{'} = [\begin{matrix} R_{b 11}^{'} & R_{b 12}^{'} \\ R_{b 21}^{'} & R_{b 22}^{'} \end{matrix}],

使得每个带协方差矩阵R＇_b是2x2Hermetian正定矩阵，

其中上划线被用来指示复共轭。

通过空间特征“比率”表示与分带的幅度

的比率单调一致的量。在一个实施例中，使用对数关系：

{Ratio}_{b}^{'} = {10 \log}_{10} \frac{R_{b 11}^{'} + σ}{R_{b 22}^{'} + σ}

其中σ是添加以避免奇异（singularities）的小偏移。σ可以被认为是对于R＇_b11的最小的预期值。在一个实施例中，它是用于麦克风和有关的电子设备的带b内的噪声功率（或者其它频域振幅度量）的确定或者估计（先验（priori））值。也就是说，使用任何预处理的最小灵敏度。

由空间特征相位表示与tan^-1R_＇b21单调一致的量。

Phase＇_b=tan^-1R＇_b21

由空间特征“相干（coherence）”表示与

单调一致的量。在一些实施例中，相干的有关的测量值可以被使用，诸如

或与调节、排序或协方差矩阵的本征值扩展有关的值。在一个实施例中，相干特征为

{Coherence}^{'}_{b} = \sqrt{\frac{R_{b 21}^{'} R_{b 12}^{'} + σ^{2}}{R_{b 11}^{'} R_{b 22}^{'} + σ^{2}}}

如上面定义的具有偏移σ。

噪声、回声和位置外信号抑制的一些实施例的一个特征在于，基于期望信号特征的先验预期或者当前估计值（例如，表示空间位置、从统计的数据收集的目标值），每个带中的每个空间特征可以被用来产生用于对于带b的特征的概率指示器。

在一个实施例中，对于期望位置的预期空间特征的分布被建模为高斯分布，其呈现捕获由每个空间特征和带导出的对于概率指示器的感兴趣区的稳健的方式。

三个空间概率指示器与这些三个空间特征有关，并且是RPI＇_b表示的比率概率指示器、PPI＇_b表示的相位概率指示器以及CPI＇_b表示的相干概率指示器，其中

{RPI}_{b}^{'} = f_{R_{b}} ({Ratio}_{b}^{'} - {Ratio}_{{t \arg et}_{b}}) = f_{R_{b}} ({ΔRatio}_{b}^{'}),

其中

{ΔRatio}_{b}^{'} = {Ratiob}_{b}^{'} - {Ratio}_{{t \arg er}_{b}},

并且

根据在前估计值或者对所使用的设备（例如耳机）进行的例如根据诸如图9A所示的数据获得的实验来确定。

函数

是平滑函数。在一个实施例中，比率概率指示器函数为

f_{R_{b}} ({ΔRatio}^{'}) = \exp {[- \frac{{ΔRatio}_{b}^{'}}{{Width}_{Ratio, b}}]}^{2},

其中Width_Ratio,b是以对数为单位（例如dB）表示的宽度调整参数。Width_Ratio,b相关于但是不要求根据实际数据来确定。它被设置为覆盖正常和嘈杂情形中的空间特征的预期变化，但是也仅仅需要与在整体系统的背景中实现期望抑制所需的那样窄。

对于相位概率指示器,

{PPI}_{b}^{'} = f_{R_{b}} ({Phase}_{b}^{'} - {Phase}_{{t \arg er}_{b}}) = f_{R_{b}} ({ΔPhase}_{b}^{'}),

其中

{ΔPhase}_{b}^{'} = {Phase}_{b}^{'} - {Phase}_{{t \arg er}_{b}}

并且

根据在前估计值或者对所使用的设备（例如耳机）进行的例如根据数据获得的实验来确定。

函数

是平滑函数。在一个实施例中，

f_{R_{b}} (Δ {Phase}_{b}^{'}) = \exp {[- \frac{{ΔPhase}_{b}^{'}}{{Width}_{Phase, b}}]}^{2}

其中Width_Phase,b是以相位单位表示的宽度调整参数。在一个实施例中，Width_Phase,b相关于但是不要求根据实际数据来确定。

对于相干概率指示器，不使用目标（target），并且在一个实施例中，

{CPI}_{b}^{'} = {(\frac{R_{b 21}^{'} R_{b 12}^{'} + σ^{2}}{R_{b 11}^{'} R_{b 22}^{'} + σ^{2}})}^{{CFactor}_{b}}

其中CFactor_b是可以为0.1～10范围内的恒定值的调整参数;在一个实施例中，发现0.25的值是有效的。

图6示出原始增益的元件529中的计算的一个示例，并且包括空间灵敏的语音活动检测器（VAD）621以及风活动检测器（WAD）623。噪声减少的可替代的版本可以不包括WAD，或者空间灵敏的VAD，并且还可以不包括回声抑制或者其它减少。此外，图6中示出的实施例包括额外的回声抑制，其可以不被包括在更简单的版本内。

在一个实施例中，空间概率指示器被用来确定被称为波束（beam）增益的由BeamGain＇_b表示的统计量，其可以被用来根据总功率例如使用波束外谱计算器603估计波束内和波束外功率，并且此外，可以被用来由空间抑制增益计算器611确定波束外抑制增益。按照惯例并且在在此呈现的实施例中，概率指示器被缩放（scale）使得波束增益具有最大值1。

在一个实施例中，波束增益是

BeamGain＇_b=BeamGain_min+(1-BeamGain_min)RPI＇_b·PPI＇_b·CPI＇_b.

一些实施例使用0.01到0.3(-40dB到-10dB)的BeamGain_min。一个实施例使用0.1的BeamGain_min。

波束内和波束外功率为:

Power＇_b,InBeam=BeamGain＇_b ²Y＇_b

Power＇_b,OutOfBeam=(1-BeamGain＇_b ²)Y＇_b.

注意Power＇_b,InBeam和Power＇_b,OutOfBeam是用于抑制的统计测量值。

在元件603的一个版本中，

Power＇_b,OutOfBeam=[0.1+1.9(1-BeamGain_n ²)]Y＇_b.

增益计算的一个版本使用空间选择性的噪声功率谱计算器605，其确定噪声功率（或者振幅的其它度量）谱的估计值。本发明的一个实施例使用泄漏的（leaky）最小值跟随器，其具有通过至少一个泄漏率（leak rate）参数确定的跟踪速度。泄漏率参数不必与在回声系数更新中使用的用于非空间选择性的噪声估计值的相同。由N＇_b,S表示空间选择性的噪声谱估计值。在一个实施例中，

N_{b, S}^{'} = \min ({Power}_{b}^{'}, OutOfBeam, (1 + α_{b}) N_{{b, S}_{Prev}}^{'}),

其中

已经被确定，即，N＇_b,S的先前值。泄漏率参数α_b以dB/s表示，使得对于以T表示的帧时间，(1+α_b/)1/T在语音概率低时在1.2与4之间，而在语音概率高时为1。α_b的标称值为3dB/s使得(1+α_b)，1/T=1.4。

在一些实施例中，为了避免将偏置加到噪声估计值，使用回声门控（gating），即，

N_{b, S}^{'} = \min ({Power}_{b, OutOfBeam}^{'}, (1 + α_{b}) N_{{b, S}_{Prev}}^{'}) if N_{{b, S}_{Prev}}^{'} > {2 E}_{b}^{'}, else

N_{b, S}^{'} = N_{b, S_{Prev}}^{'} .

也就是说，噪声估计值仅仅在先前噪声估计值表明噪声水平例如大于当前回声预测的两倍的情况下才被更新。否则回声会使噪声估计值偏离。

图4、5和6中示出的降噪器的一个特征包括同时抑制：1）基于空间选择性的噪声估计值的噪声，和2）波束外信号。增益计算器529包括元件613，其用于基于噪声功率（或者其它频域振幅度量）谱的空间选择性的估计值、并且进一步基于特定带中的瞬时的分带的输入功率Y＇_b，计算被表示为用于中间信号（例如，频率格Yn）的增益的概率指示器。为简单起见这个概率指示器被称为增益，由Gain_N表示。然而应当注意这个增益Gain_N不直接应用，而是在增益组合器615中与额外增益（即，额外概率指示器）相组合，以便实现用于应用于实现单个抑制的动作的单个增益。

元件613被示出具有回声抑制，而在一些版本中不包括回声抑制。

通过如下给出被认为在计算复杂性和效果方面是有效的表达式

{Gain}_{N}^{'} = {(\frac{\max (0, Y_{b}^{'} - β_{N}^{'} N_{b, S})}{Y_{b}^{'}})}^{GainExp}

其中Y＇_b是瞬时的分带的功率(或其它频域振幅度量),N＇_b,S是分带的空间选择性的（波束外的）噪声估计值,并且β＇_N是缩放参数,典型地在1到4的范围。在一个版本中，β＇_N=1.5。参数GainExp是积极性（aggressiveness）的控制或者抑制增益从抑制到传输的转变速率。这个指数一般采用0.25到4的范围内的值。在一个版本中，GainExp=2。

添加回声抑制

用于噪声减少的输入处理的一些实施例不仅包括噪声抑制，而且包括同时抑制回声。在增益计算器529的一些实施例中，元件613包括回声抑制并且在增益计算器529中，用于抑制回声的概率指示器被表示为增益Gain＇_b,N+E表示的增益。在还包括回声抑制的情况下上述噪声抑制增益表达式变为

{Gain}_{b, N + E}^{'} = {(\frac{\max (0, Y_{b}^{'} - β_{N}^{'} N_{b, S}^{'} - β_{E}^{'} E_{b}^{'})}{Y_{b}^{'}})}^{{GainExp}_{b}}

(”Gain 1”)

其中Y_b′也是瞬时的分带的功率，N′_b，S:E′_b是分带的空间选择性的噪声以及分带的回声估计值，并且β′_N。β′_E是在1到4范围内的缩放比例参数，用于允许噪声和回声估计值中的误差以及相应地偏移增益曲线。同样，它们的目的和幅度与VAD功能中使用的常数类似，但是它们不一定是相同的值。在一个实施例中合适的调整值是β′_N=1.5，β′_E=1.4，GainExp_b对于b的所有值为2。

对于在此描述的Gain′_N+E的几个表达式在分子和分母两者中具有瞬时的分带的输入功率（或者其它频域振幅度量）Y′_b。这在如在此描述的适当地设计分带而具有对数状或者感知分隔的频带时适用。在本发明的可替代实施例中，分母使用估计的分带的功率谱（或者其它振幅度量谱）P′_b，使得对于Gain′_b，N+E的上述表达式变为：

{Gain}_{b, N + E}^{'} = {(\frac{\max (0, Y_{b}^{'} - β_{N}^{'} N_{b, S}^{'} - β_{E}^{'} E_{b}^{'})}{P_{b}^{'}})}^{GainExp}

(“Gain 1_MOD”).

额外的回声抑制的单独控制

上面的抑制增益表达式可以被概括为瞬时的输入功率与预期不期望的信号功率（为简单起见有时称为“噪声”）的比率的域上的函数。在这些增益表达式中，不期望的信号功率是估计的（位置敏感的）噪声功率以及预测或估计的回声功率的和。以这种方式将噪声和回声组合在一起提供了单个概率指示器，其具有使得同时的衰减不期望的噪声和不期望的回声两者的抑制增益的形式。

在一些情况下，例如，在回声可以实现基本上高于噪声的电平的电平的情况中，这种抑制可能不引起足够的回声衰减。例如，在一些应用中，可以存在对仅仅温和的减少环境噪声的需要，虽然通常要求任何回声抑制在能听度以下。为了实现这种预期效果，在一个实施例中，概率指示器或增益的额外的缩放比例被使用，这种额外的缩放比例仅仅基于输入音频信号与回声功率的比率。

由f_A(·)，f_B(·)表示一对抑制增益函数，每个函数对于抑制增益具有期望特性，例如，如上所述，包括例如为平滑。作为一个示例，f_A(·)，、f_B(·)中的每一个具有S形的函数特性。在一些实施例中，并非被定义为

的增益表达，而替代地可以使用一对概率指示器，例如，增益

以及根据

和来确定组合的增益因子，其允许独立控制响应于噪声和回声信号功率的深度和积极性。在又一个实施例中，

可以被应用于噪声和回声抑制两者，并且

可以被应用于额外的回声抑制。

在一个实施例中，两个函数

或者在另一个实施例中，两个函数

被组合为乘积以便实现组合的概率指示器，作为抑制增益。

组合用于同时抑制位置外信号的抑制增益

在一个实施例中，用于波束内信号的表示为波束增益612的称为空间抑制增益的并且Gain＇_b,S表示的抑制概率指示器由元件529（图5）中的空间抑制增益计算器611确定为

Gain＇_b,S=BeamGain＇_b=BeamGain_min+(1-BeamGain_min)RPI＇_b·PPI＇_b·CPO＇_b.

空间抑制增益612在增益组合器615中与其它抑制增益组合以便形成表示为抑制增益的总体概率指示器。用于同时抑制噪声、回声和波束外信号的总体概率指示器（表示为增益Gain＇_b,RAW）在一个实施例中为增益的乘积：

Gain＇_b,RAW=Gain＇_b,S·Gain＇_b,N+E

在可替代实施例中，应用额外的平滑。在增益元件615的一个示例实施例中：

Gain＇_b，RAW=0.1+0.9Ggain＇_b,S·Gain＇_b,N+E。

其中最小增益0.1和0.9=(1-0.1)因子可以根据不同实施例而变化，以便实现对于增益的不同最小值，具有0.001～0.3(-60dB～-10dB)的建议范围。

对于Gain＇_b,RAW的上述表达式相等地抑制噪声和回声。如上所述，可以期望的是，不完全消除噪声，而是完全消除回声。在增益确定的一个这种实施例中，

{Gain}_{b, RAW}^{'} = 0.1 + 0.9 {Gain}_{b, S}^{'} \cdot f_{A} (\frac{Y_{b}^{'}}{N_{b, S}^{'} + E_{b}^{'}}) \cdot f_{B} (\frac{Y_{b}^{'}}{E_{b}^{'}}),

其中

实现对噪声和回声二者的（相对）适度的抑制，而

更多抑制回声。在不同实施例中，f_A(·)仅抑制噪声，而f_B(·）抑制回声。

在又一个实施例中，

Gain＇_b,RAW=0.1+0.9Gain＇_b,S·Gain＇_b,N+E，

其中

{Gain}_{b}^{'}, E + B = (0.1 + 0.9 f_{A} (\frac{Y_{b}^{'}}{N_{b, S}^{'} + E_{b}^{'}})) \cdot (0.1 + 0.9 f_{B} (\frac{Y_{b}^{'}}{E_{b}^{'}})) .

在一些实施例中，这个噪声和回声抑制增益与空间特征概率指示器或用于形成原始的组合的增益的增益组合，并且随后通过后处理器625和通过后处理步骤被后处理以便确保稳定性和其它期望性质。

在另一实施例中，专用于回声抑制的增益函数

被应用作为通过后处理器625进行后处理之后的增益。增益计算器529的一些实施例包括额外的回声抑制增益的确定器以及额外的回声抑制增益与经后处理的增益的组合器627，以便导致应用整个B增益。本发明人发现这种实施例可以提供更特定的和更深的回声的衰减，这是因为回声概率指示器或增益

不经历后处理施加的平滑和连续性。

图7示出操作处理设备100以便抑制噪声和位置外信号以及在一些实施例中回声的方法700的流程图，具有数量P≥1的信号输入101，例如，来自不同位置的麦克风。在包括回声抑制的实施例中，方法700包括处理Q≥1参考输入102，例如，要被呈现在Q个扬声器上的Q个输入，或者根据Q个扬声器获得的信号。

在一个实施例中，方法700包括：在处理设备中接受701多个采样的输入音频信号101，以及形成703、707、709用于多个频带的输入音频信号101的向下混合的分带的瞬时频域振幅度量417，该形成包括变换703成对于一组频率格的复数值的频域值。在一个实施例中，该形成包括在703中将输入音频信号变换为频率格，向下混合（例如，波束形成）707频率数据，以及在709中分带。在711中，该方法包括计算信号的功率（或者其它振幅度量）谱。在可替代实施例中，向下混合可以在变换之前，使得单个向下混合信号被变换。在可替代实施例中，系统可以利用分带的回声参考的估计值，或者实现的系统内的另一个处理组件或者源提供的回声参考的频域谱的相似表示。

该方法包括在705中确定分带的空间特征，例如，来自多个采样的输入音频信号的位置概率指示器419。

在包括同时的回声抑制的实施例中，该方法包括接受713一个或更多个参考信号以及在715和717中形成一个或更多个参考信号的分带的频域振幅度量表示。在一个实施例中的该表示为和。此外在包括回声抑制的实施例中，该方法包括在721中使用自适应确定的回声滤波器系数来预测回声415的分带的频域振幅度量表示。在一个实施例中的预测还包括语音活动检测—VAD—使用向下混合的信号413的分带的谱振幅度量、噪声的分带的谱振幅度量的估计值以及先前预测的回声谱内容415。根据语音活动检测的结果更新或者不更新系数。更新使用噪声的分带的谱振幅度量的估计值、先前预测的回声谱内容415、以及向下混合的信号413的分带的谱振幅度量的估计值。向下混合的信号的分带的谱振幅度量的估计值在一个实施例中为输入音频信号的向下混合的分带的瞬时频域振幅度量417，但是在其它实施例中，使用信号谱估计。

在一些实施例中，方法700包括：a）在723中计算原始的抑制增益，其包括使用两个或更多个空间特征419确定的位置外信号增益、以及使用空间选择性的噪声谱内容确定的噪声抑制增益；以及b）对于每个带组合原始的抑制抑制增益与第一组合的增益。在一些实施例中噪声抑制增益包括回声的抑制、以及其计算723还使用预测的回声谱内容415。

在一些实施例中，方法700还包括在725中实现使用两个或更多个空间特征419确定的空间选择性的语音活动检测，以便产生信号分类，例如是否语音。在一些实施例中，使用风检测使得信号分类还包括信号是否为风。

方法700还包括对带的第一组合增益实现后处理以便产生对于每个带的经后处理的增益125。在一些实施例中，后处理包括例如，以带相关的方式确保最小增益。本发明的实施例的一个特征在于，后处理包括实现组合增益的中值滤波，例如，以便确保不存在离群值增益。后处理的一些实施例包括通过实现时间和/或带到带平滑来确保平滑。

在一些实施例中，后处理725根据信号分类，例如，是否语音，或者是否风，以及在一些实施例中，中值滤波的特性根据信号分类而变化，例如，是否语音或者是否风。

在其中包括回声抑制的一个实施例中，方法包括在726中计算额外的回声抑制增益。在一个实施例中，额外的回声抑制增益被包括在被用作对于每个带的最终增益的第一组合增益内，以及在另一实施例中，额外的回声抑制增益与对第一组合增益应用后处理的结果组合以便产生对于每个带的最终增益。

方法包括在727中应用最终增益，包括对于格数据内插增益以便实现对向下混合的信号的格数据的抑制以便形成经抑制的信号数据133，并且在729中应用a)输出合成和变换以产生输出样本以及b）输出重映射以产生输出频率格中的一个或者两者。

典型地，P≥2并且Q≥1。然而，在本申请中公开的方法、系统和设备可以向下缩小（scale down），以便对于P=1，Q≥1以及P≥2，Q=0的更简单的情况仍然有效。在本申请中公开的方法和设备甚至对于P=1、Q=0也相当地适用。虽然这最后的示例是本发明的减少和或许琐碎的实施例，但是请注意提出的构架缩放的能力是有利的，并且此外实际上可能要求更低信号操作情况，如果输入音频信号或者参考信号中的一个或更多个例如由于传感器或者麦克风的失效而变为毁坏或者不可用的话。

虽然本公开呈现完整的噪声降低方法（图7）、包括抑制的所有方面（包括同时的回声、噪声和空间位置外的抑制）或者呈现为包括在由处理系统（参见下面描述的图8）的一个或更多个处理器运行时使得包括处理系统的处理设备实现诸如图7的方法的指令的计算机可读的存储介质的系统或者设备（图5、图6），但是注意，示例实施例还提供对于更简单应用和情形的可缩放的解决方案。此外，噪声减少仅仅是确定可以通过本发明的实施例中描述的包括中值滤波的后处理方法后处理的增益的输入处理的一个示例。

基于处理系统的设备

图8示出用于处理例如来自麦克风（未示出）的音频输入101中的一个或更多个的一个处理设备实施例800的简化框图。处理设备800要确定一组增益，后处理该增益（包括中值滤波所确定的增益），以及产生已经通过增益的应用修改的音频输出137。一个版本实现基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个，其考虑了依赖于音频信号的再现电平的音频的感知的变化。另一个版本实现噪声减少。

一个噪声减少版本包括回声减少，以及在这种版本中，处理设备还接受一个或更多个参考信号103，，例如，来自一个或更多个扬声器（未示出）或者来自到一个或更多个这种扬声器的一个或更多个供给（feed）。在一个这种噪声减少版本中，处理设备800要产生已经通过抑制在一个实施例中噪声以及位置外信号，以及在另一实施例中还有回声而被修改的音频输出137，如根据本发明的一个或更多个特征指定的。设备例如可以实现图6中示出的系统，以及其任何可替代方案，并且可以在操作时实现包括在此描述的方法的任何变化的图7的方法。这种设备可以被包括例如在耳机（headset）（诸如蓝牙耳机）中。音频输入101、一个或更多个参考输入103以及音频输出137被假设为具有采样数据的M个样本的帧的形式。在模拟输入的情况下，将存在包括模数转换器和量化器的数字化仪（digitizer）。对于音频回放，将存在去量化器和数模转换器。可能被包括在完整的音频处理系统（例如，耳机装置）内的这种和其它元件被省去，并且本领域技术人员将清楚如何包括这种元件。

图8中示出的实施例包括处理系统803，其在操作中被配置为实现在此描述的抑制方法。处理系统803包括至少一个处理器805，其可以是数字信号处理装置的一个或更多个处理单元，或者更通用的处理装置的CPU。处理系统803还包括典型地包括一个或更多个存储元件的存储子系统807。处理系统的元件例如通过图8中未示出的总线子系统或者其它一些互连机制耦接。处理系统803的一些元件可以被集成为单个电路，使用本领域技术人员公知的技术。

存储子系统807包括在由一个或更多个处理器805运行时使得实现在此描述的方法的指令811。

在一些实施例中，存储子系统807被配置为存储一个或更多个调整参数813，该调整参数可以被用来改变由处理系统803实现的一些处理步骤。

图8中示出的系统可以被并入专业化装置（诸如耳机，例如，无线蓝牙耳机）中。该系统还可以是通用计算机的一部分，例如，被配置为处理音频信号的个人计算机。

具有可设置的灵敏度的语音活动检测

在本发明的一些实施例中，通过如VAD确定的信号分类控制后处理，例如，中值滤波。本发明不限于任何特定的类型VAD，并且许多VAD在本领域中已知。当应用于抑制时，本发明人已经发现在抑制系统的不同的部件由不同的VAD控制时抑制工作得最好，每个这种VAD针对它被用在其中的抑制器的功能被定制设计，而不是对于所有使用具有“最佳的”VAD。因此，在针对噪声减少的输入处理的一些版本中，使用多个VAD，每个VAD由分离地控制灵敏度和选择性的小集合的调整参数控制，包括空间选择性，这种参数根据其中使用VAD的抑制元件被调整。多个VAD中的每一个是根据Y＇_b确定语音活动的指示的通用的VAD的例示。通用的VAD由一组参数控制并且使用噪声谱内容的估计值、回声的分带的频域振幅度量表示以及分带的空间特征。该组参数包括噪声谱内容的估计值是否是空间选择性的。特定的例示确定的语音活动的指示的类型由参数的选择控制。

一般的空间选择性的VAD结构的一个实施例（用于计算可以针对各种函数被调整的语音活动的通用的VAD）是

其中BeamGain＇_b=BeamGain_min-(1-BeamGain_min)RPI_b·PPI_b·CPI_b,BeamGainExp是对于更大值增加VAD的空间选择性的积极性的参数，并且对于非空间选择性的VAD是0,N＇_b∨N＇_b,S表示总噪声功率（或者其它频域振幅度量）估计值N＇_b或者使用波束外功率（或者其它频域振幅度量）确定的空间选择性的噪声估计值N＇_b,S,β_N，β_E>1是分别对于噪声和回声的裕度以及Y＇_sens是可设置的灵敏度偏移。β_N,β_E的值在1和4之间。beamGainExp在期望空间选择性时在0.5到2.0之间，并且对于空间选择性的VAD的一个实施例是1.5，例如，在本发明一些实施例中用于控制后处理。PPI＇_b,PPI＇_b,和CPI＇_b如上所述是三个空间概率指示器，即比率概率指示器，相位概率指示器以及相干概率指示器。

上述表达式还控制通用的语音活动检测方法的操作。

对于任何给出的用于产生语音指示器值S的一组参数，可以通过考虑如指示存在语音的测试S>S_tjresh来获得二元判定（binarydecision）或者分类器。还应该明白的是值S可以被用作瞬时的语音电平的连续指示器。此外，可以使用合适的“悬挂（hang over）”或者检测的事件之后的语音的继续指示的时段获得用于操作（诸如传输控制或者控制后处理）的改善的有用的通用的VAD。这种悬挂时段可以从0变化到500ms，并且在一个实施例中使用200ms的值。在悬挂时段期间，减少激活阈值（例如以2/3的因子减少）可以是有用的。一旦说话爆发（talk burst）已经开始，这产生对语音的增加的灵敏度以及稳定性。

对于用于控制一个或更多个后处理操作的空间选择性的语音活动检测，例如对于空间选择性的VAD，上述表达式中的噪声是使用功率（或者其它频域振幅度量）的波束外估计值确定的N＇_b,S。Y_sens被设定为通过对典型的组件进行实验获得的预期的麦克风以及系统噪声水平周围。

原则

除非具体陈述，否则，明白在整个说明书的讨论中使用诸如“产生”、“处理”、“计算”、“运算”、“确定”等之类的术语可以没有限制地指的是操纵和/或变换表示为物理量（诸如电子学量）的数据为类似地表示为物理量的其它数据的硬件（例如，电子电路，计算机或计算系统或者类似的电子计算装置）的动作和/或处理。

以类似的方式，术语“处理器”可以指的是处理例如来自寄存器和/或存储器的电子数据以便将该电子数据变换为例如可以被存储在寄存器和/或存储器中的其它电子数据的任何装置或者装置的部分。“计算机”或“计算机器”或“计算平台”可以包括一个或更多个处理器。

注意，在描述包括若干要素（例如，若干步骤）的方法时，除非具体地陈述，否则没有暗示这种要素（例如，这种步骤）的顺序。

在本申请中描述的方法论在一些实施例中是可由接受在一个或更多个计算机可读介质上编码的指令、逻辑的一个或更多个处理器执行的。在由一个或更多个处理器执行时，指令使得实现在本申请中描述的至少一个方法。包括能够执行指定要采取的动作的一组指令（顺序的或者其它）的任何处理器。因此，一个示例是包括一个或更多个处理器的典型的处理系统。每个处理器可以包括CPU或类似的元件、图形处理单元（GPU）、现场可编程门阵列、专用集成电路和/或可编程的DSP单元中的一个或更多个。处理系统还包括具有至少一个存储介质的存储子系统，其可以包括嵌入半导体装置中的存储器，或者包括主RAM和/或静态RAM、和/或ROM、以及还包括高速缓冲存储器的分离的存储器子系统。存储子系统还可以包括一个或更多个其它存储装置，诸如磁和/或光学和/或另外的固态存储装置。可以包括总线子系统以用于在组件之间进行通信。处理系统还可以是具有通过网络（例如，经由网络接口装置或无线网络接口装置）耦接的处理器的分布式处理系统。如果处理系统要求显示器，则可以包括这种显示器，例如，液晶显示器（LCD）、有机发光显示器（OLED）、或阴极射线管（CRT）显示器。如果要求手动的数据输入，则处理系统还包括诸如字母数字的输入单元（诸如键盘）、指向控制装置（诸如鼠标）等中的一个或更多个之类的输入装置。如果根据上下文是清楚的并且除非明确地陈述，否则，如本申请中使用的术语“存储装置”、“存储子系统”或“存储单元”还包括诸如盘驱动单元之类的存储系统。一些配置中的处理系统可以包括声音输出装置、以及网络接口装置。

在一些实施例中，非暂时的计算机可读介质被配置具有（例如被编码具有）指令（例如，逻辑），该指令在被处理系统（诸如包括至少一个处理器元件和存储子系统的数字信号处理装置或者子系统）的一个或更多个处理器执行时使得实现如在本申请中描述的方法。一些实施例具有逻辑本身的形式。非暂时的计算机可读介质是具体地不是暂时传播的信号或暂时的载波或其它一些暂时的传输介质的任何计算机可读介质。术语“非暂时的计算机可读介质”因此覆盖任何有形的计算机可读的存储介质。非暂时的计算机可读介质包括任何有形的计算机可读的存储介质，并且可以采取包括非易失性存储介质和易失性存储介质在内的许多形式。非易失性存储介质包括，例如静态RAM、光盘、磁盘以及磁光盘。易失性存储介质包括动态内存（诸如处理系统中的主内存），以及处理系统中的硬件寄存器。在如上所述的典型的处理系统中，存储子系统是计算机可读的存储介质，其被配置具有（例如被编码具有）指令，例如，逻辑，例如，软件，其在由一个或更多个处理器执行时使得实现在本申请中描述的方法步骤中的一个或更多个。软件可以存在于硬盘中，或还可以在其由计算机系统执行期间全部或至少部分地存在于内存（例如，RAM）内和/或处理器寄存器内。因此，内存以及处理器寄存器也构成其上可以被编码有指令以便使得在运行时实现方法步骤的非暂时的计算机可读介质。

虽然计算机可读介质在示例实施例中被示出为单个介质，但是术语“介质”应该被视为包括存储一个或更多个组的指令的单个介质或者多个介质（例如，若干内存、集中式或者分布式数据库、和/或关联的闪存和服务器）。

此外，非暂时的计算机可读介质，例如，计算机可读的存储介质可以形成计算机程序产品或者被包括在计算机程序产品内。

在可替代实施例中，一个或更多个处理器操作作为独立的装置或可以在网络连接的部署中连接（例如，网络连接）到一个或更多个其它处理器，其中一个或更多个处理器可以在服务器-客户端网络环境中以服务器的身分或客户端机器的身分操作，或者在对等或分布式网络环境中操作作为对等机器。除非在本申请中明确地排除，否则术语“处理系统”包括所有这样的可能性。一个或更多个处理器可以形成个人计算机（PC）、媒体回放装置、耳机装置、免提通信装置、平板PC、机顶盒（STB）、个人数字助理（PDA）、游戏机、蜂窝式电话、Web用具、网络路由器、开关或桥、或者能够执行指定要由该机器采取的动作的一组指令（顺序的或者其它）的任何机器。

注意，虽然一些图仅仅示出了单个处理器和单个存储子系统，例如，存储包括指令的逻辑的单个内存，但是本领域技术人员将理解上面描述的组件中的许多组件被包括，但为了不模糊有创造力的方面不明确地示出或描述。例如，虽然仅仅示出单个机器，但是术语“机器”应该还被视为包括独立地或联合地执行一组（或多组）指令以便执行在本申请中讨论的方法论中的任何一个或更多个的机器的任何集合。

因此，如本领域技术人员将明白的，本发明的实施例可以被具体实现为方法、设备（诸如特殊用途设备）、设备（诸如数据处理系统）、逻辑（例如，具体实现在非暂时的计算机可读介质中）、或者编码有指令的非暂时的计算机可读介质（例如，配置作为计算机程序产品的计算机可读存储介质）。计算机可读介质被配置具有在由一个或更多个处理器执行时使得实现方法步骤的一组指令。因此，本发明的方面可以采取方法、完全硬件实施例、完全软件实施例或者结合软件和硬件方面的实施例的形式。此外，本发明可以采取程序逻辑（例如，计算机可读的存储介质上的计算机程序）或者配置具有计算机可读的程序代码的计算机可读存储介质（例如，计算机程序产品）的形式。

还将理解，本发明的实施例不限于任何特定的实现方式或者编程技术并且本发明可以使用用于实现在本申请中描述的功能的任何适当的技术来实现。此外，实施例不限于任何特定的编程语言或者操作系统。

在整个本说明书期间提及“一个实施例”或者“实施例”意味着与该实施例结合描述的特定的特征、结构或者特性被包括在本发明的至少一个实施例内。因此，在整个本说明书中的各个地方中的短语“在一个实施例中”或者“在实施例中”的出现不一定都指的是同一个实施例，但是可能。此外，如本领域技术人员根据本公开会清楚的，可以在一个或更多个实施例中以任何合适的方式结合特定的特征、结构或者特性。

类似地，应当明白，在本发明的示例实施例的上述描述中，出于使本公开简单化并且帮助理解各个有独创性的方面中的一个或更多个的目的，本发明的各个特征有时被集合在一起在单个实施例、图或者其说明中。然而，公开的此方法不被解释为反映所要求保护的发明需要比每个权利要求中明确叙述的特征更多的特征的意图。相反，如下面的权利要求反映的，有独创性的方面依赖于小于单个在前公开的实施例的所有特征。因此，具体实施方式之后的权利要求由此被明确地并入本具体实施方式中，每个权利要求自身保持为单独的本发明的实施例。

此外，虽然在本申请中描述的一些实施例包括包含在其它实施例内的一些但不包括其它特征，但是不同的实施例的特征的组合意图在本发明范围内，并且形成不同的实施例，如本领域技术人员会理解的。例如，在下面权利要求中，能以任何组合来使用任何要求保护的实施例。

此外，在本申请中描述一些实施例作为能由计算机系统的处理器或者由实现该功能的其它部件实现的方法或者方法的要素的组合。因此，具有用于实现这种方法或者方法的要素的必需的指令的处理器形成用于实现方法或者方法的要素的部件。此外，在本申请中描述的设备实施例的元件是用于实现由出于实现发明的目的的元件执行的功能的部件的示例。

在本申请中提供的说明中，陈述了许多的具体细节。然而，应当理解本发明的实施例可以在没有这些具体细节的情况下被实践。在其它例子中，为了不模糊对该说明的理解，没有详细示出公知的方法、结构和技术。

如在此使用的，除非另有规定，用于描述共同的对象的顺序形容词“第一”、“第二”、“第三”等的使用仅仅指示类似的对象的不同的实例正在被提及，并不意图暗示如此描述的对象必须时间地、空间地、分等级地或者以任何其它方式具有给出的序列。

虽然在一个实施例中，短时间傅里叶变换（STFT）被用来获得频带，但是本发明不限于STFT。诸如STFT之类的变换通常被称为循环的（circulant）变换。循环的变换的最一般形式可以由缓冲、加窗、扭曲（twist）（实数值到复数值变换）以及DFT（例如FFT）代表。DFT之后的复数的扭曲可以被用来调节频域表示以便匹配具体的变换定义。本发明可以通过这类变换（包括修改DFT（MDFT）、短时间傅里叶变换（STFT）以及具有更长窗口和缠绕（wrapping）、共轭正交镜像滤波器（CQMF））中的任意一个实现。其它标准变换（诸如修改离散余弦变换（MDCT）和修改离散正弦变换（MDST））也可以被使用，具有频域格的额外的复数的扭曲，其不改变底层的变换的处理能力或者频率分辨率并且因此可以被保留直到处理链的结束，并且如果需要的话被应用在重映射中。

在本申请中引用的所有美国专利、美国专利申请、以及指定美国的国际（PCT）专利申请通过参考被并入于此，除了那些不容许通过参考并入的权限（jurisdiction）之外，在该情况下本申请人保留通过修改将所有这样的材料或者其任何部分插入说明书中而这种插入不被认为是新东西（new matter）的权利。在专利实施细则或者法规不容许通过参考并入本身通过参考并入信息的材料的情况下，在本申请中的材料的通过参考的并入在这种通过参考并入的材料中排除通过参考并入的任何信息，除非这种信息明确地通过参考并入于此。

本说明书中的其它任何现有技术的讨论决不应该被认为是在发明时这种现有技术是普遍已知的、公众已知的或者形成本领域中的常识的一部分的认可。

在下面的权利要求以及本申请中的说明中，术语“包括”、“由...组成”或者“包含”中的任何一个是开放术语，其意指至少包括随后的元件/特征，但不排除其它。因此，在权利要求中使用时，术语“包括”不应该被解释为限制其后列出的部件或者元件或者步骤。例如，表述“装置包括A和B”的范围不应该被限于仅由元件A和B组成的装置。如本文中使用的术语“包含”或者“其包含”或者“包含……的”中的任何一个也是开放术语，其也意指至少包含术语随后的元件/特征，但不排除其它。因此，“包含”和“包括”同义并且意指“包括”。

类似地，要注意，在权利要求中使用时，术语“耦接”不应该被解释为限制为仅仅直接连接。可以使用术语“耦接”和“连接”及其派生词。应当理解这些术语不意图作为彼此同义词，但是可以是。因此，表述“装置A耦接到装置B”的范围不应该限于其中装置A的输入或输出直接连接到装置B的输出或输入的装置或者系统。这意指在装置A和装置B之间存在可以是两者之间包含其它装置或者部件的路径的路径。此外，“耦接到”不暗示方向。因此，表述“装置A耦接到装置B”可以和表述“装置B耦接到装置A”同义。“耦接”可以意指两个或更多个元件直接物理接触或者电接触，或者两个或更多个元件不彼此直接接触但仍然合作或者彼此相互作用。

另外，“一（a）”或“一个（an）”的使用被用来描述在本申请中实施例的元件和组件。这仅仅为了方便起见进行并且给出本发明的一般含义。这个描述应该被阅读为包括一个或至少一个，并且单数也包括多个，除非很明显它意味着“一个”。

因此，虽然已经描述了被认为是本发明的优选实施例的实施例，但是本领域技术人员将认识到在不脱离本发明的精神的情况下可以对其进行其它和进一步修改，并且意图要求保护如落入本发明的范围内的所有这样的改变和修改。例如，上面给出的任何公式仅仅代表可以使用的过程。可以在框图中添加或者从框图中删除功能，并且可以在功能块之间交换操作。可以在本发明范围内对描述的方法添加或者删除步骤。

Claims

1.一种对原始的分带的增益应用后处理来改善用于应用于一个或更多个音频信号的原始的分带的增益以便实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个的方法，所述方法包括如下步骤：

对原始的分带的增益应用后处理来产生用于应用于一个或更多个音频信号的分带的经后处理的增益，原始的分带的增益通过对一个或更多个输入音频信号进行输入处理以便在包括一个或更多个频率格的多个频带处产生原始的分带的增益来确定，原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个，

其中对于特定频带的特定的经后处理的增益的产生至少包括使用用于与所述特定频带相邻的频带的原始的增益值的中值滤波，

其中后处理根据一个或更多个特性，所述一个或更多个特性包括用于中值滤波的宽度以及结束条件，以及

其中后处理的至少一个特性依赖于一个或更多个输入音频信号的信号分类。

2.一种处理一个或更多个输入音频信号的方法，所述方法包括如下步骤：

对一个或更多个输入音频信号进行输入处理，以便在包括一个或更多个频率格的多个频带处产生原始的分带的增益，原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个；以及

将后处理应用于原始的分带的增益，以便产生用于应用于一个或更多个输入音频信号的分带的经后处理的增益，

3.如权利要求1或2所述的方法，其中后处理还包括频带到频带平滑和跨越时间平滑中的至少一个。

4.如权利要求3所述的方法，其中频带到频带平滑和跨越时间平滑中的至少一个依赖于信号分类。

5.如权利要求1到4中任何一个所述的方法，其中信号分类包括一个或更多个输入音频信号是否可能是风。

6.如权利要求1到4中任何一个所述的方法，其中用于中值滤波的宽度和结束条件中的至少一个依赖于信号分类。

7.如权利要求6所述的方法，其中信号分类包括一个或更多个输入音频信号是否可能是语音。

8.如权利要求6所述的方法，其中信号分类包括一个或更多个输入音频信号是否可能是噪声。

9.如权利要求1到8中任何一个所述的方法，其中频带为感知尺度或对数尺度。

10.如权利要求1到9中任何一个所述的方法，其中输入处理要确定用于减少噪声的原始的分带的增益。

11.如权利要求1到9中任何一个所述的方法，其中输入处理要根据多于一个输入音频信号来确定用于减少噪声和位置外信号的原始的分带的增益。

12.如权利要求1到9中任何一个所述的方法，其中输入处理要根据一个或更多个输入音频信号以及一个或更多个参考信号来确定原始的分带的增益，所确定的增益用于减少噪声和回声。

13.如权利要求1到12中任何一个所述的方法，其中输入处理要确定用于基于感知域的调平、基于感知域的动态范围控制、和基于感知域的动态均衡中的一个或更多个的原始的分带的增益。

14.一种有形的计算机可读的存储介质，包括在由处理系统的至少一个处理器运行时使得实现如权利要求1到13中任何一个所述的方法的指令。

15.一种具体实现为有形的计算机可读的存储介质的程序逻辑，其中所述逻辑在由至少一个处理器运行时使得实现如权利要求1到13中任何一个所述的方法。

16.一种对用于应用于音频信号的原始的分带的增益进行后处理的设备，所述原始的分带的增益通过对一个或更多个输入音频信号进行输入处理而确定，所述设备包括一个或更多个处理器以及有形的计算机可读的存储介质，该有形的计算机可读的存储介质包括在由所述一个或更多个处理器中的至少一个处理器运行时使得实现如权利要求1到13中任何一个所述的方法的指令。

17.一种对用于应用于音频信号的原始的分带的增益进行后处理的设备，所述设备包括：

后处理器，接受通过由输入处理器对一个或更多个输入音频信号进行输入处理来确定的原始的分带的增益，所述后处理器对原始的分带的增益应用后处理以便产生用于应用于一个或更多个输入音频信号的分带的经后处理的增益，所述输入处理用于在包括一个或更多个频率格的多个频带处产生原始的分带的增益，原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个，

其中分带的经后处理的增益用于应用于一个或更多个输入音频信号，

其中后处理器包括用于实现原始的分带的增益的中值滤波的中值滤波器，

其中通过后处理器进行的用于特定频带的特定的经后处理的增益的产生包括使用用于与特定频带相邻的频带的原始的增益值的中值滤波，

18.一种处理一个或更多个输入音频信号的设备，所述设备包括：

输入处理器，接受一个或更多个输入音频信号并且对一个或更多个输入音频信号进行输入处理，以便在包括一个或更多个频率格的多个频带处产生原始的分带的增益，原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个；

后处理器，该后处理器接受原始的分带的增益并且将后处理应用于原始的分带的增益以便产生用于应用于一个或更多个输入信号的经后处理的原始的分带的增益，

19.如权利要求17或18所述的设备，其中后处理器包括用于使经中值滤波的增益平滑的平滑滤波器，该平滑包括频带到频带平滑和跨越时间平滑中的至少一个。

20.如权利要求17到19中任何一个所述的设备，还包括用于产生一个或更多个输入音频信号的信号分类的信号分类器，其中中值滤波的宽度依赖于一个或更多个输入音频信号的信号分类。

21.如权利要求20所述的设备，其中信号分类器包括语音活动检测器，使得信号分类包括输入音频信号是否可能是语音。

22.如权利要求17到21中任何一个所述的设备，其中中值滤波的宽度依赖于一个或更多个输入音频信号的谱通量。

23.如权利要求17到22中任何一个所述的设备，其中用于特定频带的中值滤波的宽度依赖于特定频带。

24.如权利要求17到23中任何一个所述的设备，其中频带为感知尺度或对数尺度。

25.如权利要求17到24中任何一个所述的设备，其中中值滤波依赖于一个或更多个输入音频信号的一个或更多个分类。

26.如权利要求17到25中任何一个所述的设备，其中通过输入处理确定的原始的分带的增益用于减少噪声。

27.如权利要求17到25中任何一个所述的设备，其中通过输入处理确定的原始的分带的增益是根据多于一个输入音频信号确定的并且用于减少噪声和位置外信号。

28.如权利要求17到25中任何一个所述的设备，其中输入处理器还接受一个或更多个参考信号，并且其中通过输入处理确定的原始的分带的增益是根据一个或更多个输入音频信号以及一个或更多个参考信号确定的，并且用于减少噪声和回声。

29.如权利要求17到28中任何一个所述的设备，其中通过输入处理确定的原始的分带的增益用于基于感知域的调平、基于感知域的动态范围控制、和基于感知域的动态均衡中的一个或更多个。

30.一种用于对原始的分带的增益进行后处理以便产生用于应用于音频信号的分带的经后处理的增益的系统，所述系统包括：

用于对原始的分带的增益进行后处理来产生分带的经后处理的增益的装置，原始的分带的增益由用于通过对一个或更多个输入音频信号进行输入处理以便在包括一个或更多个频率格的多个频带处产生原始的分带的增益的装置来确定，原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个，

其中分带的经后处理的增益被应用于一个或更多个音频信号以便实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个，

其中由用于后处理的装置应用的后处理根据一个或更多个特性，所述一个或更多个特性包括用于中值滤波的宽度和结束条件，以及

31.一种用于处理一个或更多个输入音频信号的系统，所述系统包括：

用于对一个或更多个输入音频信号进行输入处理以便在包括一个或更多个频率格的多个频带处产生原始的分带的增益的装置，原始的分带的增益用于实现减少噪声、减少位置外信号、减少回声、基于感知域的调平、基于感知域的动态范围控制以及基于感知域的动态均衡中的一个或更多个；

用于对原始的分带的增益进行后处理以便产生用于应用于一个或更多个输入音频信号的分带的经后处理的增益的装置，

通过用于后处理的装置应用的后处理根据一个或更多个特性，所述一个或更多个特性包括用于中值滤波的宽度以及结束条件，

32.如权利要求30或31所述的系统，其中后处理还包括频带到频带平滑和跨越时间平滑中的至少一个。

33.如权利要求32所述的系统，其中频带到频带平滑和跨越时间平滑中的至少一个依赖于信号分类。

34.如权利要求30到33中任何一个所述的系统，其中信号分类包括一个或更多个输入音频信号是否可能是风。

35.如权利要求30到33中任何一个所述的系统，其中用于中值滤波的宽度和结束条件中的至少一个依赖于信号分类。

36.如权利要求35所述的系统，其中信号分类包括一个或更多个输入音频信号是否可能是语音。

37.如权利要求35所述的系统，其中信号分类包括一个或更多个输入音频信号是否可能是噪声。

38.如权利要求30到37中任何一个所述的系统，其中频带为感知尺度或对数尺度。

39.如权利要求30到38中任何一个所述的系统，其中输入处理要确定用于减少噪声的原始的分带的增益。

40.如权利要求30到38中任何一个所述的系统，其中输入处理要根据多于一个输入音频信号确定用于减少噪声和位置外信号的原始的分带的增益。

41.如权利要求30到38中任何一个所述的系统，其中输入处理要根据一个或更多个输入音频信号以及一个或更多个参考信号确定原始的分带的增益，所确定的增益用于减少噪声和回声。

42.如权利要求30到41中任何一个所述的系统，其中输入处理要确定用于基于感知域的调平、基于感知域的动态范围控制、和基于感知域的动态均衡中的一个或更多个的原始的分带的增益。