CN104520925A

CN104520925A - 噪声降低增益的百分位滤波

Info

Publication number: CN104520925A
Application number: CN201280075031.2A
Authority: CN
Inventors: 孙学京; G·N·迪金斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-08-01
Filing date: 2012-08-01
Publication date: 2015-04-15
Anticipated expiration: 2032-08-01
Also published as: US9729965B2; JP2015529847A; EP2880655A1; EP2880655B8; EP2880655B1; CN104520925B; US20150215700A1; JP6014259B2; WO2014021890A1

Abstract

一种后处理用于应用到音频信号的分带增益的方法，一种后处理分带增益的装置，和包括当被执行时实行该方法的指令的有形计算机可读存储介质。通过输入处理一个或多个输入音频信号确定分带增益。该方法包括后处理分带增益以生成经后处理的增益，针对特定频带生成特定的经后处理的增益，包括使用来自一个或多个输入音频信号的一个或多个先前帧的和来自用于邻近该特定频带的频带的增益值的增益值的百分位滤波。

Description

噪声降低增益的百分位滤波

技术领域

本公开总体上地涉及信号处理，特别是音频信号的信号处理。

背景技术

声学噪声降低系统典型地包括噪声估计器和增益计算模块，该增益计算模块确定一组噪声降低增益，该组噪声降低增益在例如一组频带上被确定并在变换到频域和分带至该组频带之后被应用到(有噪声的)输入音频信号以削弱噪声成分。声学噪声降低系统可以包括一个麦克风或多个麦克风输入和下混(例如波束形成)以生成一个输入音频信号。声学噪声降低系统可以进一步包括回声降低并且可以进一步包括位置外(out-of-location)信号降低。

已知音乐噪声存在，并且可能由于在一些带中的增益上发生的随时间的短期错误而发生。这样的出错增益可以被认为统计学异常值，即，跨带组统计地位于预期范围之外的增益的值，所以显得“被孤立”。

这样的统计学异常值可能出现在其中输入音频信号被变换并分带的其它种类的处理中。这种其它种类的处理包括考虑了依赖于音频信号的重现水平的音频感知中的变化的基于感知域的校平(leveling)、基于感知域的动态范围控制和基于感知域的动态均衡。参见例如作为WO2004111994公开的的国际申请PCT/US2004/016964。用于校平和/或动态均衡的针对每个带确定的增益可能包括例如孤立值的统计学异常值，并且这种异常值可能引起诸如音乐噪声的伪像。

对增益(例如噪声降低增益)进行中值滤波或跨频带地校平和/或动态均衡增益可以降低音乐噪声伪像。

增益值可能随频率显著变化，并且在这种情形下，沿频带运行相对宽的中值滤波器有中断时域包络的连续性的风险，该时域包络的连续性为很多信号的固有特性并且对感知还很关键。在对异常值提供更大的豁免的同时，更长的中值滤波器可降低处理的谱选择性，并且潜在地在频率和时间上在增益中引入更大的不连续或跳跃。

在本部分中描述的方法是可从事的方法，但未必是以前已经构想或从事的方法。因此，除非另外指出，否则，不应仅凭借包含于本部分中而认为在本部分中描述的方法中的任一种为现有技术。类似地，除非另外指出，否则，关于一种或更多种方法识别的问题不应基于本部分而认为在任何现有技术中已被识别。

附图说明

图1示出了处理一个或多个输入音频信号(例如来自不同位置的麦克风的麦克风信号101)的集合的一个示例，包括本发明的实施例。

图2图解地示出了本发明的实施例的百分位滤波器的一个实施例的时-频覆盖和分带增益的集合。

图3A示出了包括根据本发明的实施例的百分位滤波器的后处理器的简化框图。

图3B示出了包括根据本发明的实施例的百分位滤波的后处理方法的简化流程图。

图4示出了被配置为确定用于噪声抑制、一些版本中的同时回声抑制以及一些版本中的同时位置外信号抑制的一组经后处理的增益的装置实施例的一个示例。

图5更详细地示出了装置实施例的一个示例。

图6示出了包括空间灵敏语音活动检测器和风活动检测器的增益计算元件的示例实施例。

图7示出了操作处理装置以抑制噪声和位置外信号以及一些实施例中的回声的方法的实施例的流程图。

图8示出了用于处理一个或多个音频输入从而确定一组增益、后处理该增益(包括对所确定的增益进行百分位滤波)以及生成已经通过应用增益而被修改的音频输出的处理装置实施例的简化框图。

图9示出了针对干净的演讲和汽车噪声的混合中的有噪声的演讲的示例输入波形和对应的语音活动检测器输出。

图10示出了使用包括本发明的实施例的不同中值滤波策略针对图9的信号的处理后波形的被表示为(a)到(e)的五张图。

图11示出了一段汽车噪声的示例输入波形和对应的语音活动检测器输出。

图12示出了使用包括本发明的实施例的不同中值滤波策略针对图11的信号的处理后波形的被表示为(a)到(e)的五张图。

具体实施方式

概述

本发明的实施例包括方法、装置和在一个或多个计算机可读有形介质中被编码以执行该方法的逻辑。

一个实施例包括对用于应用到音频信号的分带增益进行后处理的方法，该分带增益通过对一个或多个输入音频信号进行输入处理而被确定。该方法包括对分带增益进行后处理以生成经后处理的增益、针对特定频带生成特定的经后处理的增益(包括使用来自所述一个或多个音频信号的一个或多个先前帧的增益值和来自用于邻近所述特定频带的频带的增益值的增益值的百分位滤波)。

一个实施例包括对用于应用到音频信号的分带增益进行后处理的装置，该分带增益通过对一个或多个输入音频信号进行输入处理而被确定。该装置包括后处理器，该后处理器对分带增益进行后处理以生成经后处理的增益、针对特定频带生成特定的经后处理的增益(包括使用来自所述一个或多个音频信号的一个或多个先前帧的增益值和来自用于邻近所述特定频带的频带的增益值的增益值的百分位滤波)。

在一些实施例中，在百分位滤波之后，后处理包括频带到频带平滑化和跨时间平滑化的中的至少一个。

在一些实施例中，百分位滤波的宽度和深度之一或二者依赖于所述一个或多个输入音频信号的信号分类。在一些实施例中，该分类包括输入音频信号是否可能是语音。

在一些实施例中，百分位滤波的宽度和深度之一或二者依赖于所述一个或多个输入音频信号的谱通量(spectral flux)。

在一些实施例中，针对特定频带的百分位滤波的宽度或深度之一或二者依赖于正由百分位滤波确定的特定频带。

在一些实施例中，频带在感知尺度或对数尺度上。

在一些实施例中，百分位滤波具有百分位值，并且，例如该百分位值为中值。在一些实施例中，该百分位滤波具有百分位值，并且该百分位值依赖于所述一个或多个输入音频信号的一个或多个分类和所述一个或多个输入音频信号的谱通量。

在一些实施例中，百分位滤波是加权百分位滤波。

在一些实施例中，从一个或多个输入音频信号确定的分带增益被用于降低噪声。在一些实施例中，从多于一个的输入音频信号确定分带增益，并将其用于降低噪声和位置外信号。在一些实施例中，从一个或多个输入音频信号和一个或多个参考信号确定分带增益，并将其用于降低噪声和回声。

一个实施例包括有形的计算机可读存储介质，包括当由处理系统的一个或多个处理器执行时使得处理硬件实行如此处描述的对用于应用到音频信号的分带增益进行后处理的方法的指令。

一个实施例包括程序逻辑，该程序逻辑在被至少一个处理器执行时使得实行如此处描述的方法。

特定实施例可以提供这些方面、特征或优点的全部或一些或不提供这些方面、特征或优点。特定实施例可以提供一个或多个其它方面、特征或优点，从此处的附图、描述和权利要求，其中的一个或多个对于本领域技术人员而言可以是显而易见的。

一些示例实施例

本发明的一个方面包括用于增益平滑化(例如用于噪声降低或用于其它输入处理)的增益的百分位滤波。百分位滤波器将特定的增益值替换为预定义数量的值的预定义百分位，例如特定增益值和预定义的一组相邻增益值的预定义百分位。百分位滤波器的一个示例是中值滤波器，其中预定义百分位为第50个百分位。注意，预定义的百分位可以是参数，并且可以与数据相关。因此，在此处描述的一些示例中，针对一种类型的数据(例如，可能是噪声的数据)，可以是第一预定义的百分位，并且针对另一种类型的数据(例如，可能是语音的数据)，可以有不同的第二百分位值。有时，百分位滤波器被称为等级次序(rank order)滤波器，在这种情况下，使用预定义的等级次序而不是预定义的百分位。例如，针对9个值的整数，第三等级次序滤波器将输出9个值中第三大的值，而第五等级次序滤波器将输出第五大的值，其为中值，即第50个百分位。

图1示出了包括本发明的实施例的处理一组一个或多个输入音频信号(例如来自不同位置的麦克风的麦克风信号101)的一个示例。该处理是按数个(例如M个)采样的时间帧进行的。在简单的实施例中，只有例如一个麦克风的一个输入，并且在另一个实施例中，存在例如麦克风信号101的多个(表示为P)输入。输入处理器105接收经采样的输入音频信号101，并形成针对多个(B个)的频带的输入音频信号101的分带瞬时频域振振幅量119。在其中存在多于一个输入音频信号的一些实施例中，度量119被从输入音频信号下混。该振振幅量代表谱内容。在许多此处描述的实施例中，谱内容是关于功率谱的。然而，本发明并不限于处理功率谱值。相反，可以使用任何依赖于谱振幅的度量。例如，如果直接使用振幅谱，这种谱内容有时候被称为谱包络。因此，本描述中有时候使用短语“功率(或其它振振幅量)谱”。

注意，在一些实施例中，增益的后处理涉及使用带中额外的信号特性(诸如多个输入信道之间跨子带的相关性和/或相位或群延迟)的增益。

在一个噪声降低实施例中，输入处理器105确定一组分带增益111以应用到瞬时振幅度量119。在一个实施例中，输入处理进一步包括确定输入音频信号的信号分类，例如，如由语音活动检测器(VAD)确定的输入音频信号是否可能是语音的指示，和/或如由风活动检测器(WAD)确定的输入音频信号是否可能是风的指示，和/或如由例如谱通量超过阈值指示的信号能量正在快速变化的指示。

本发明的实施例的特征包括后处理该增益以提高输出的质量。在一个实施例中，后处理包括由输入处理确定的增益的百分位滤波。百分位滤波器考虑一组增益并输出作为该组增益的预定义百分位的增益。百分位滤波的一个示例是中值滤波器。另一个示例是在一组P个值(P为整数)上操作并选择第p个值(其中1<p<P)的百分位滤波器。每帧地确定一组B个增益，从而在B个频带上存在B个增益的集合的时间序列。虽然在一个实施例中，百分位滤波器跨频率扩展，但是在本发明的一些实施例中，百分位滤波器跨时间和频率两者扩展，并且针对当前处理的时间帧的特定频带确定预定义百分位值，例如中值，或以下的另一个百分位：1)当前时间的一组频带中的每一个的增益，该组频带包括特定频带和与该特定频带相邻的预定义数量的频带；以及2)在一个或多个先前时间帧的至少特定频率的增益。

图2图解地示出了分带增益的集合，当前时间、一帧之前、两帧之前、三帧之前等中的每一个各一组，并且进一步示出了示例百分位滤波器的覆盖范围，包括以当前帧中频带b_c附近为中心的五个增益值和两个先前时间帧处针对相同频带b_c的两个增益值。滤波器宽度指的是频带域中滤波器的宽度，滤波器深度指的是时域中滤波器的深度。无记忆的百分位滤波器仅对同一时间帧执行百分位滤波，所以滤波器深度为1。图6中示出的T形百分位滤波器宽度为5并且深度为3。

以下提供百分位滤波器和滤波的不同实施例的更多细节。

回到图1，后处理产生一组经后处理的增益125，其被应用到瞬时功率(或其它振幅度量)119以产生输出，例如多个经处理的频段(frequency bin)133。输出合成滤波器组135(或用于随后编码，变换器/重映射器)将这些频段转换为所希望的输出137。

输入处理元件105包括输入分析滤波器组和增益计算器。针对一个输入音频信号101的情况，该输入分析滤波器组包括用以将帧的采样变换为频段的变换器，以及用以形成频带的分带单元，大多数频带包括多个频段。针对多个输入音频信号101的情况，输入分析滤波器组包括用以将每个输入音频信号的帧的采样变换为频段的变换器、用以将该多个信号下混成单个信号的例如波束生成器的下混器、以及用以形成频带的分带元件，大多数频带包括多个频段。

在一个实施例中，变换器实现短时傅里叶变换(STFT)。为了计算效率，该变换器使用由快速傅里叶变换(FFT)实现的离散有限长度傅里叶变换。其它实施例使用不同的变换。

在一个实施例中，B个带位于间隔单调不减的频率处。合理数量(例如90％)的频带包括来自多于一个频段的贡献，并且在特定的实施例中，每个频带包括来自两个或更多个频段的贡献。在一些实施例中，该带以类似指数的方式单调增加。在一些实施例中，该带是在心理声学尺度上，即，通过与心理声学临界间隔相关的缩放来将频带隔开，此处这种分带被称为“感知间隔分带”。在特定的实施例中，该带间隔为大约1ERB或0.5Bark，或具有约中心频率的10％的频率分隔的等价带。频率间隔的合理范围是5-20％或大约0.5..2ERB。

在其中输入处理包括噪声降低的一些实施例中，输入处理还包括回声降低。发明人Dickins et al.的2011年2月10日提交的名称为“COMBINED SUPPRESSION OF NOISE,ECHO,ANDOUT-OF-LOCATION SIGNALS”的美国临时申请No.61/441611中描述了其中包括回声降低的输入处理的一个示例，该美国临时申请的内容通过引用并入此。针对其中输入处理包括回声降低的那些实施例，还包括一个或多个参考信号并将其用于获得回声的一些特性的估计，例如，回声的功率(或其他振幅度量)谱。作为结果的分带增益实现同时的回声降低和噪声降低。

在包括噪声降低和回声降低的一些实施例中，经后处理的增益被元件123接收，该元件123修改增益以包括额外的回声抑制。结果是一组经后处理的增益125，其被用于在频域中(例如作为频段)处理输入音频信号，如果存在例如来自不同位置的麦克风的多于一个的输入音频信号，那么在下混输入音频信号之后进行该处理。

增益应用模块131接受经后处理的分带增益125并应用这种增益。在一个实施例中，该分带增益被插值并应用到输入音频信号(在一个的情况下)或经下混的输入音频信号(在存在多于一个的输入音频信号的情况下)的频段数据，该频段数据被表示为Y_n，n＝0,1,…,N-1,其中N是频段的数量。Y_n，n＝0,1,…,N-1是输入音频信号采样Y_m，m＝0,1,…,M的帧的频段。经处理的数据133可随后被输出合成滤波器组135转换回采样域以产生M个信号采样137的帧。在一些实施例中，附加地或作为替代地，信号133经历变换或重映射，例如成为准备好根据一些编码方法进行编码的形式。

以下更详细地描述类似U.S.61/441,611的系统的包括用以降低噪声(和可能的回声和位置外信号)的输入处理的系统的示例实施例。

当然，本发明并不限于U.S.61/441,611中描述的输入处理和增益计算，或者甚至是噪声降低。

虽然在一个实施例中，输入处理是要降低噪声(和可能的回声和位置外信号)，但是在其它实施例中，输入处理可以附加地或主要地是要执行考虑了依赖于音频信号的重现水平的音频感知中的变化的基于感知域的校平(leveling)、基于感知域的动态范围控制和基于感知域的动态均衡中的一个或多个，如例如共同拥有的WO 2004111994中描述的。按照WO 2004111994计算的分带增益经后处理(包括百分位滤波)从而确定要应用到(经变换的)输入的经后处理的增益125。

示例百分位滤波器

图3A示出了包括根据本发明的实施例的百分位滤波器305的后处理器121的简化框图。后处理器121接受增益111，并且在其中后处理根据信号分类改变的实施例中接受一个或多个信号分类指标(indicator)115(例如，VAD、WAD或例如高谱通量的高能量变化速率的检测器中的一个或多个的输出)。虽然未被包括在所有的实施例中，但是后处理器的一些实施例包括最小增益处理器303，其用以确保增益不落到预定义的、可能依赖于频率的值之下。再一次，虽然未被包括在所有的实施例中，但是后处理器的一些实施例包括在百分位滤波之后处理增益以平滑化频带到频带变化和/或平滑化时间变化的平滑化滤波器307。图3B示出了后处理310的方法的简化流程图，该后处理包括在311中接受原始增益，并在其中后处理根据信号分类改变的实施例中接受一个或多个信号分类指标115。后处理包括根据本发明的实施例的百分位滤波315。发明人已经发现百分位滤波是强大的非线性平滑化技术，当与仅使用平滑化方法相比时，其针对消除不希望的异常值工作良好。一些实施例包括在步骤313中确保增益不落到预定义的最小值(可能依赖于频带)之下。一些实施例进一步包括在步骤317中进行带到带和/或时间平滑化，例如使用例如加权移动平均的线性平滑化。

因此，在本发明的一些实施例中，分带增益值的百分位滤波器315特征在于：1)包括的用以确定百分位值的分带增益的数量；2)被包括的分带增益的时间和频带位置；3)在根据增益值的时间和频率位置确定百分位时，如何计数每个增益值；4)边缘条件，即用于扩展分带增益以允许计算时间和频带边缘处的百分位的条件；5)百分位滤波器的特性如何被信号分类(例如，语音的出现、风的出现和如高谱通量指示的能量快速变化中的一个或更多)影响；6)一个或多个百分位滤波器特性如何在频带上变化；7)在百分位滤波器位于时间维度的情况下，时间延迟的增益值是是原始增益(直接的)还是一个或多个后处理步骤之后(例如，百分位滤波之后)的增益(递归的)。

一些实施例包括用以基于信号分类控制频率和/或时间上百分位滤波特性中的一个或多个的机构。例如，在包括语音活动检测的一个实施例中，百分位滤波特性中的一个或多个根据输入是否由VAD确认为语音而变化。在包括风活动检测的一个实施例中，百分位滤波特性中的一个或多个根据输入是否由WAD确认为风而变化，在还另一个实施例中，百分位滤波特性中的一个或多个根据信号中的能量改变多迅速(例如，如谱通量的测量所指示的)而变化。

不同的边缘条件的示例包括(a)对于边缘外推内部值；(b)使用最小增益值以扩展边缘处的分带增益；(c)使用零增益值以扩展边缘处的分带增益；(d)复制中心滤波器位置值以扩展边缘处的分带增益；以及(e)使用最大增益值以扩展边缘处的分带增益。

额外的后处理

虽然未被包括在所有实施例中，但是在一些实施例中，后处理器121包括执行步骤313以确保增益不落到预定义的最小增益值之下的最小值增益处理器303。在一些实施例中，最小值增益处理器以依赖于频带的方式确保最小值。在一些实施例中，防止最小值的方式依赖于活动分类115，例如，是否是语音。

在一个实施例中，由Gain′_b，S标记从输入处理计算的增益，用于最小值处理器之后的表示为Gain′_b，RAW的增益的一些替代为

Gain′_b，RAW＝Gain′_b，MIN+(1-Gain′_b，MIN)·Gain′_b，S

Gain′_b，RAW＝Gain′_b，MIN+Gain′_b，S

作为一个示例，在后处理器121和步骤310的一些实施例中，最大抑制深度或最小增益的范围可以从-80dB到-5dB并且依赖于频率。在一个实施例中，抑制深度在200Hz以下的低频处为大约-20dB，在1kHz处变化为大约-10dB并且在大约4kHz的上部语音频率处松弛成仅_-6dB。此外，在一个实施例中，如果VAD确定信号为语音，Gain′_b，MIN例如以依赖于频带的方式增加(或在另一个实施例中，针对每个带b增加相同的量)。在一个实施例中，在中频带(例如，500Hz到2kHz之间的带)中最小值的增加量较大。

此外，虽然不被包括在所有实施例中，但是在一些实施例中，后处理器121包括平滑化滤波器307，例如执行带到带平滑化和时间平滑化中的一个或二者的线性平滑化滤波器。在一些实施例中，这样的平滑化根据信号分类115而变化。

平滑化317的一个实施例使用具有固定内核的加权移动平均。一个示例使用用于加权移动平均的高斯加权内核的二项式近似。作为一个示例，5点二项式平滑器具有内核

\frac{1}{16} [\begin{matrix} 1 & 4 & 6 & 4 & 1 \end{matrix}] .

当然，实际上，通过根据所需在一点或另一点上执行缩放，因子1/16可能被略去。作为另一个示例，3点二项式平滑器具有内核

\frac{1}{4} [\begin{matrix} 1 & 2 & 1 \end{matrix}] .

已知许多其它的加权移动平均滤波器，并且任何这种滤波器可以被适当地修改以用于增益的带到带平滑化。

在一个实施例中，带到带中值滤波由信号分类控制。在一个实施例中，包括例如空间选择VAD的VAD，并且如果VAD确定存在语音，那么当检测到噪声时增加平滑化的程度。在一个示例实施例中，在VAD指示检测到语音的情况下，执行5点带到带加权平均平滑化，否则，当VAD确定没有语音时，不执行平滑化。

在一些实施例中，还包括增益的时间平滑化。在一些实施例中，由一阶平滑化滤波器平滑化B个带中的每一个的增益。

{Gain}_{b, Smoothed} = α_{b} {Gain}_{b} + (1 - α_{b}) {Gain}_{b, Smoothe d_{Prev}}

其中Gain_b是当前的时间帧增益，Gain_b，Smoothed是经时间平滑化的增益，并且是来自先前M-采样帧的Gain_b，Smoothed。α_b是可能依赖于频带的并且典型地位于20到500ms的范围中的时间常数。在一个实施例中使用50ms的值。在一个实施例中，由当前帧的信号分类控制时间平滑化的量。在包含增益的一阶时间平滑化的特定实施例中，当前帧的信号分类被用于控制用于在每个带中随时间对增益进行过滤的一阶时间常数的值。在包括VAD的情况下，一个实施例在检测到语音的情况下停止时间平滑化。

发明人发现重要的是积极(aggressive)的平滑化在语音的起始处不连续。因此优选地由即时信号分类器(VAD、WAD)值控制后处理的参数，这些值具有低延迟并且能够实现后处理从噪声模式到语音(或其他所希望的信号)模式的快速转变。已经发现在检测到噪声之后、即跟踪丢失(trail out)时恢复后处理的速度较为不重要，因为它对语音的可懂度的影响程度较小。

时间频率特性

当例如，由于所希望的噪声抑制或增益计算算法的选择性或活动或其它原因，所希望的增益值跨频率显著变化时，发明人发现沿频率轴运行百分位滤波器有中断时域包络的连续性的风险，其为许多信号的固有特性并且对于感知也非常关键。在对异常值提供更大的豁免的同时，更长的百分位滤波器可降低处理的谱选择性，并且潜在地在频率和时间上在增益值中引入更大的不连续或跳跃。为了最小化每个频带中的时间包络的不连续性，本发明的一些实施例使用2-D百分位滤波器，例如结合有时间和频率信息两者的中值滤波器。这种滤波器特征可在于围绕特定频带(“目标频带”)的用以为目标频带产生经滤波的值的时间-频率窗口。特别地，本发明的一些实施例使用其中对于每个目标带包括该目标带的先前时间值的T形滤波器。图2示出了7点T形滤波器的一个这样的实施例，其中包括该目标带的两个先前值。在这样一组实施例中，百分位值是中值，从而百分位滤波器是中值滤波器。

在一些实施例中，时间延迟的增益值是原始增益(直接的)，从而百分位滤波器在时间上是非递归的，而在使用时间和频率百分位滤波的其他实施例中，时间延迟的增益值是一个或多个后处理步骤之后(例如百分位滤波之后)的增益值，从而百分位滤波在时间上是递归的。

语音活动控制的示例

在一个实施例中，由信号分类控制带到带百分位滤波。在一个实施例中，包括VAD，并且如果VAD确定可能没有语音，那么实施具有5点带到带和3点时间百分位滤波的7点T形中值滤波器，并且边缘处理包括在边缘处扩展最小增益值或零值以计算百分位值。如果VAD确定可能出现语音，那么在第一版本中，通过当前时间帧中的三个频带并使用两个先前时间帧实施5点T形时间-频率百分位滤波，而在第二实施例中，使用3点无记忆仅频带百分位滤波器，其中边缘值在边缘处被外推以计算百分位。在这样的一组实施例中，百分位值是中值，从而百分位滤波器是中值滤波器。

风活动控制的示例

本发明的一个特征是百分位滤波依赖于信号的分类，并且一些实施例中，一种这样的分类是是否存在风。在一些实施例中，包括WAD，并且如果WAD确定没有风并且VAD指示没有语音，那么在百分位滤波器中包括更少的增益值。当出现风时，该组增益可能展现更大的时间变化，在更低频带尤其如此。当包括WAD和VAD时，如果WAD确定可能不是风并且VAD确定可能是语音，那么百分位滤波应该更短并且没有时间滤波，例如，使用3点无记忆带到带百分位滤波器，并且外推在边缘处应用的边缘值。如果WAD指示不太可能是风，并且VAD指示也不太可能是语音，那么可以使用更多的在频带和时间两者中的百分位滤波，例如，实行具有5点带到带和3点时间百分位滤波的7点T形中值滤波器，并且边缘处理包括在边缘处扩展最小增益值或零值以计算百分位值。如果WAD指示有可能是风，并且VAD指示不太可能是语音，那么可以使用甚至更多的在频带和时间两者中的百分位滤波，例如，可以实行具有7点带到带和3点时间百分位滤波的9点T形中值滤波器，并且边缘处理包括在边缘处扩展最小增益值或零值以计算百分位值。在一个实施例中，在WAD指示出现风并且可能是语音时的百分位滤波依赖于频率，针对较低频带(例如包括小于1kHz的带)使用7点带到带滤波，针对其它(较高)频带使用7点带到带百分位滤波，针对所有频带使用3点时间百分位滤波。较低频带处的这种更大的百分位滤波可以防止不定时发生的高增益普遍出现。当出现风和语音，百分位滤波将较不积极。在这样的一组实施例中，百分位值是中值，从而百分位滤波器是中值滤波器。注意，当出现风时，VAD可能较不可靠。

一般地，在一些实施例中，发现较低频率(<1kHz)处的中值滤波器扩展以覆盖较大的谱带范围(100-500Hz)和较长的持续时间(50-200ms)从而移除短的低频骤风(wind burst)是有用的。在出现风活动且出现语音概率低的情况下，这个更宽的滤波器可以扩展到更高的频率。由于该滤波可能对语音有影响，所以如果存在风活动并且出现语音的概率合理，那么会使用较短的滤波器。

时间频率特性的谱通量控制

信号的谱通量可以被用作确定信号的功率(或其它振幅度量)谱变化多快的准则(criterion)。在本发明的一些实施例中，谱通量被用于控制百分位滤波器的特性。如果信号谱变化过快，百分位滤波器的时域维度可能被减小，例如，如果谱通量高于预定义阈值，那么使用边缘处被外推的5点无记忆仅频带百分位滤波器。在还不同的实施例中，一般地，使用5点带到带和3点时间T形时间-频率百分位滤波，而如果谱通量高于预定义阈值，那么使用3×3的5点T形时间-频率百分位滤波器。

百分位值的控制

上述百分位滤波围绕例如3、5或7点的短内核滤波器操作。除了边缘限制和长度之外，一个可以变化的特征是计算哪个百分位值。例如，对于5点百分位滤波，第二大的值或第二高的值可以被选择，而不选择第50百分位，即中值。可以由信号分类控制百分位值。例如，在包括语音活动检测的一个实施例中，可以使用5点频带到频带无记忆百分位滤波，并且当VAD确定可能不出现语音时，第二小的值被选择，并且当VAD确定可能出现语音时，第二大的值被选择。使用其它值而不是严格的第50百分位还允许在每个百分位滤波器内核中使用偶数个数据点。例如在一个实施例中，使用频带域中具有5个抽头、在时域中具有2个抽头的6抽头T形百分位滤波器。在包括VAD的情况下，百分位滤波器被配置为在可能出现语音时以递增排序选择第三高的值(第60百分位)，并在可能不出现语音时选择第三小的值(第40百分位)。

对百分位计算进行加权

在一些实施例中，不是当前时间处目标频带周围的一组增益值的直接百分位，而是百分位滤波中使用的不同频带(和可能的时间)位置被不同地加权。例如，在一个实施例中，百分位滤波器群体中的中心增益抽头被复制。在这样的情况下，考虑图2的T形百分位滤波器，当前时间处标记为b_c的中心带被两次计数，从而总共存在其百分位值被用作百分位滤波器的输出的8个值。在其它实施例中，滤波器内核中的每个位置被计数整数次，并且所包括的全部次数的值的百分位值被计算。在其它实施例中，使用非整数权重。然而整数权重具有低计算复杂度的优点，因为不需要乘法来确定加权百分位增益值。

在一些实施例中，使得百分位滤波中使用的权重依赖于信号的分类。在其中包括语音活动检测的一个实施例中，例如，使得百分位滤波依赖于是否认为输入为语音。在一个示例实施例中，如果当前帧被分类为语音，可以在当前帧的中心带上施加比相邻带更多的权重，并且如果当前帧被分类为非语音，那么中心带和其相邻带可以被均匀地分配权重。在特定的实施例中，与语音活动检测器确定不太可能出现语音时所使用的权重相比，可能出现语音时中值滤波器中的中心抽头的权重加倍。

具有频带相关特性的百分位滤波器

在一些实施例中，使得百分位滤波器的一个或多个特性依赖于频带。例如，百分位滤波器的(时间)深度和/或百分位滤波器的(频带)宽度依赖于频带。已知，例如，人类演讲中的第二共振峰(F2)常常比其它共振峰变化更快。一个实施例改变百分位滤波器以使得百分位滤波器的(时间上的)深度和(频带上的)宽度在F2附近更小。在其中使用语音活动检测(VAD)的一个实施例中，仅在VAD指示输入音频信号可能是语音的情况下，降低F2附近的百分位滤波的量。

注意在上述实施例中，分带是在感知或指数尺度上的，并且实施例中建议的滤波器长度适合于大约1ERB或0.5Bark的滤波器带间隔，或等同地，适合于具有为中心频率的大约10％的频率分隔的带。显然，该方法也适用于其它分带结构，包括线性带分隔；然而滤波器长度的值应该相应地缩放。采用线性带结构，将与使得例如中值滤波器的百分位滤波器的长度随频率增加而增加更相关，建议了对数间隔的滤波器组上的单一长度中值滤波器的以上实施例暗示了这一点。

还应当注意，以上实施例中针对T形百分位中值滤波器建议的3个时间单位(帧)的深度与滤波器组的采样间隔有关。针对以上实施例，鉴于中值滤波的程度建议大约48到64ms的长度，使用16ms的采样间隔。由于滤波器组自身，较长的长度反映出时间上的扩散。

考虑到以上两点，针对任何中值或百分位滤波提供以下推荐。

在认为语音的概率低的噪声状况中，建议带中心频率的±20％附近(±10％到±30％的范围被认为合理)的频域上的中值滤波，并且时域上的范围为约48ms(32到64ms的范围合理，或者甚至更长(假如例如单独的可靠且低延时VAD的可靠且低延时VAD可用))。当VAD指示语音不太可能出现时，百分位滤波器应选择位于或低于中值(20％到50％的范围被认为合理)的增益。

在认为语音的概率高的语音状况中，建议带中心频率的±10％附近(5％到20％的范围被认为合理)的频域上的中值滤波器，并且时域上的范围仅使用当前时间(0ms，并且正使用的数据的0到48ms的范围是合理的)。当VAD指示噪声不太可能出现时，百分位滤波器应选择位于或高于中值(50％到80％的范围被认为合理)的增益。

示例声学噪声降低系统

声学噪声降低系统典型地包括噪声估计器和用以确定一组噪声降低增益的增益计算模块，该组噪声降低增益例如在一组频带上被确定，并在变换到频域并分带到该组频带之后被应用到(有噪声的)输入音频信号以削弱噪声成分。声学噪声降低系统可以包括一个麦克风或来自不同位置的麦克风的多个输入，并且进行例如波束形成的下混以生成一个输入音频信号。声学噪声降低系统可以进一步包括回声降低并且可以进一步包括位置外信号降低。

图4示出了被配置为确定一组经后处理的增益的装置的一个示例，该组经后处理的增益用于噪声抑制、以及一些版本中的同时的回声抑制、以及一些版本中的同时的位置外信号抑制。例如US61/441,611中描述了这种系统。输入包括一组一个或多个输入音频信号101，例如来自不同位置的麦克风的信号，每个都为每帧M个采样的集合的形式。当包括空间信息时，存在两个或更多个输入音频信号，例如，来自空间分离的麦克风的信号。当包括回声抑制时，还接受一个或多个参考信号103，例如为M个采样的帧的形式。这些可以是例如来自一个或多个扩音器的一个或多个信号，或在另一个实施例中是被用于驱动扩音器的信号。第一输入处理级403确定表示为P′_b的分带信号功率(或其它振幅度量)谱413，和表示为Y′_b的瞬时功率的分带测量值417。当包括多于一个输入音频信号时，谱413和瞬时分带测量值417中的每一个是被例如波束形成器的下混器下混之后的输入。当包括回声抑制时，第一输入处理级403还确定表示为E′_b的回声的分带功耗谱估计415，该确定是使用具有一组自适应确定的滤波器系数的滤波器从先前计算的回声的功率谱估计做出的。在包括位置外信号抑制的那些版本中，第一输入处理级403还确定为分带位置概率指标419的形式的空间特征419，其可用于空间地将信号分离成源自所希望的位置的成分和不来自所希望方向的成分。

来自第一级403的量被用在确定增益并后处理增益(包括本发明的实施例的百分位滤波)的第二级405中以确定分带的经后处理的增益125。第二级405的实施例包括用以确定表示为E′_b的噪声功率(或其它振幅度量)谱的测量值的噪声功率(或其它振幅度量)谱计算器421，以及用以确定信号分类115的信号分类器423，例如，语音活动检测器(VAD)、风活动检测器和功率流量计算器中的一个或多个。图4示出了包括VAD的信号分类器423。

图5更详细示出了图4的元件的一个实施例500，并且对于噪声、回声和位置外噪声抑制的示例实施例，包括被施加经后处理的增益125的抑制器131和135用以生成输出信号137的输出合成器(或变换器或重映射器)。

比较图4和图5，图4的第一级处理器403包括图5的元件503、505、507、509、511、513、515、517、521、523、525和527。更详细地，输入帧101被输入变换器503变换以确定经变换的输入信号段，频段数量表示为N。在多于一个输入音频信号的情况下，这些频域信号被波束形成器507形成波束以形成表示为Y_n，n＝1,…,N的输入频段数据，并且输入频段数据Y_n被谱分带元件509分带为B个频带(在一个实施例中为感知间隔的谱带)，以生成功率的瞬时分带测量值Y′_b，b＝1,…,B。在包括位置外抑制和多于一个输入音频信号的版本中，来自输入变换器503的频域信号被分带空间特征计算器接受以确定分带位置概率指标，每个都在0和1之间。在包括回声抑制的版本中，如果存在多于一个参考信号，比如Q个参考信号，那么信号由组合器511(一个实施例中为求和器)组合以生成组合的参考输入。输入变换器513和谱分带器515将参考转换为针对B个带的表示为X’_b，b＝1，…，B的分带参考谱内容。L-抽头线性预测滤波器517使用L×B个滤波器更新系数528来预测分带回声谱内容E′_b，b＝1,…,B。信号谱计算器521计算(经下混的)功率(或其它振幅度量)谱P′_b，b＝1,…,B的测量值。在一些实施例中，Y′_b被用作P′_b的足够好的近似。

用于滤波器517的L B个滤波器系数由自适应滤波器更新器527确定，该自适应滤波器更新器527使用当前分带回声谱内容E′_b、(下混的)功率(或其它振幅度量)谱P′_b的测量值、由噪声计算器523从瞬时功率Y′_b和来自信号谱计算器521的测量值确定的并且表示为N'_b，b＝1,…,B的分带噪声功率(或其它振幅度量)谱524。更新由表示为S的语音活动信号触发，该信号由语音活动检测器(VAD)525使用P′_b(或Y′_b)、N'_b和E′_b确定。当S超过阈值时，信号被认为是语音。回声更新语音活动检测器525和滤波器更新器527中得到的VAD为控制回声预测的自适应的具体目的服务。具有该目的的VAD或检测器通常被称为双通话检测器。在一个实施例中，更新器527的回声滤波器系数更新被门控，如VAD 525确定的并由本地信号活动S的低值指示地，当预期的回声与预期的噪声和当前的输入功率相比显著时，发生更新。

图4和5的第一级403的元件在一些实施例中如何操作的细节如下。在一个实施例中，输入变换器503、511确定短时傅里叶变换(STFT)。在另一个实施例中，对于元件503和511中以及输出合成元件135中的向前变换，以下变换和逆变换对被使用。

X_{2 n} = \frac{1}{\sqrt{N}} Σ_{n^{'} = 0}^{N - 1} e^{\frac{- iπ n^{'}}{2 N}} (u_{n^{'}} x_{n^{'}} - {iu}_{N + n^{'}} x_{N + n^{'}}) e^{\frac{- i 2 πn n^{'}}{N}} n = 0 . . . N / 2 - 1

X_{2 n + 1} = \frac{1}{\sqrt{N}} Σ_{n^{'} = 0}^{N - 1} e^{\frac{- iπ n^{'}}{2 N}} (u_{n^{'}} x_{n^{'}} + {iu}_{N + n^{'}} x_{N + n^{'}}) e^{\frac{- i 2 πn n^{'}}{N}} n = 0 . . . N / 2 - 1

y_{n} = v_{n} real [\frac{1}{\sqrt{N}} e^{\frac{iπn}{4 N}} (Σ_{n^{'} = 0}^{N / 2 - 1} X_{n^{'}} e^{\frac{i 4 π {nn}^{'}}{N}} + Σ_{n^{'} = N / 2}^{N - 1} \overset{&OverBar;}{X_{N - n^{'} - 1}} e^{\frac{i 4 π {nn}^{'}}{N}})] n = 0 . . . N - 1

y_{N + n} = {- v}_{N + n} imag [\frac{1}{\sqrt{N}} e^{\frac{iπn}{4 N}} (Σ_{n^{'} = 0}^{N / 2 - 1} X_{n^{'}} e^{\frac{i 4 π {nn}^{'}}{N}} + Σ_{n^{'} = N / 2}^{N - 1} \overset{&OverBar;}{X_{N - n^{'} - 1}} e^{\frac{i 4 π {nn}^{'}}{N}})] n = 0 . . . N - 1

其中i²＝-1，u_n和v_n是合适的窗口函数，x_n代表最后2N个输入采样，x_N-1代表最新的采样，X_n代表按频率增加排序的N个复数值频段。最后两个公式中代表逆变换或合成。y_n代表对于所设计的窗口合适的在重叠、相加和舍弃之前由单独逆变换所得到的2N个输出采样。应当注意，该变换具有高效的实现：块乘和FFT。注意在变换的以上表达中x_n和X_n的使用是为了方便。在本公开的其它部分，X_n，n＝0，…，N-1表示参考信号的信号代表的频段，并且Y_n，n＝0，…，N-1代表下混的输入音频信号的频段。

在一个实施例中，一个实施例中的针对以上变换的窗口函数u_n和v_n是正弦窗口族，其中一个被建议的实施例是

u_{n} = v_{n} = \sin (\frac{n + \frac{1}{2}}{2 N} π) n = 0 . . . 2 N - 1

对于本领域技术人员而言明显地是，该分析和合成窗口(还被已知为原型滤波器)可以具有比此处给出的示例更大或更小的长度。

虽然本发明对于任何下混的信号起作用，但是在一些实施例中，下混器是被设计为实现朝向所希望位置的某一空间选择性的波束形成器517。在一个实施例中，波束形成器507是线性时间不变过程，即，总体上由针对每个输入信道的复数值频率相关的增益的集合定义的被动波束形成器。针对两个麦克风阵列且所希望的声源位于阵列的宽侧(即在垂直二等分线上)的示例，一个实施例对于波束形成器507使用确定两个输入信道的简单和的被动波束形成器107。在一些版本中，波束形成器507通过一组复数值权重加权输入组(作为频段)。在一个实施例中，根据最大比组合(MRC)确定波束形成器107的波束形成权重。在另一个实施例中，波束形成器507使用利用迫零确定的权重。这种方法在本领域中是已知的。

谱分带元件509和514的分带可以如下描述

Y_{b}^{'} = W_{b} Σ_{n = 0}^{N - 1} w_{b, n} {| Y_{n} |}^{2}

其中Y′_b是经下混的(例如波束形成的)信号的分带瞬时功率，W_b是标准化增益且w_b，n是来自分带矩阵的元素。

通过平滑化过程描述一个实施例中的信号谱计算器521

P_{b}^{'} = α_{P, b} (Y_{b}^{'} + Y_{\min}^{'}) + (1 - α_{P, b}) P_{b_{PREV}}^{'}

其中是先前(例如最近)确定的信号功率(或其它频域振幅度量)估计，α_P，b是时间信号估计时间常数，且Y′_min是偏差。发现信号估计时间常数α_P，b的合适范围为20到200ms。在一个实施例中，添加偏差Y′_min以避免零水平功率谱(或其它振幅度量谱)估计。Y′_min可以被测量，或可以基于先验知识被选择。Y′_min，例如，可以与听力阈值或器件噪声阈值相关。

在一个实施例中，自适应滤波器517包括通过使用如下描述的L抽头自适应滤波器，确定带b的表示为T′_b的瞬时回声功率谱(或其它振幅度量谱)

T_{b}^{'} = Σ_{l = 0}^{L - 1} F_{b, l} X_{b, l}^{'}

其中当前帧为X′_b＝X′_b，0，其中X′_b，0，...，X′_b，l，...X′_b，L-1是(组合的)分带参考信号X′_b的L个最新的帧，包括当前帧X′_b＝X′_b，0，并且针对给定带b的L个滤波器系数被分别表示为F_b，0，...，F_b，l，...F_b，L-1。

一个实施例包括时间平滑化来自回声预测滤波器517的瞬时回声以确定回声谱估计E′_b。在一个实施例中，如下使用一阶时间平滑化滤波器

E_{b}^{'} = T_{b}^{'} for T_{b}^{'} &GreaterEqual; E_{b_{Prev}}^{'},

以及

其中是例如最新近的先前确定的回声谱估计或其它先前确定的估计，并且α_E，b是一阶平滑化时间常数。

在一个实施例中，噪声功率谱计算器523使用具有指数增长的最小值跟随器：

N_{b}^{'} = \min (P_{b}^{'}, (1 + α_{N, b}) N_{b_{Prev}}^{'}),

当E′_b小于

N_{b}^{'} = B_{b_{Prev}}^{'},

其它情况，

其中α_N，b是规定如下时间速率，该最小值跟随器可以该时间速率增加以跟踪噪声中的任何增加。在一个实施例中，准则E′_b小于是E′_b＜N′_bPrev/2，即，(经平滑化的)回声谱估计E′_b比N′_b的先前值小少于3dB的情况，在该情况下噪声估计跟随增长或当前功率。其它情况下，即，N′_b被保持在N′_b的先前值。参数α_N，b依据最小值跟随器将跟踪的时间速率被最好地表达。该速率可以以dB/sec表达，其随后提供用于确定α_N，b的值的机构。范围为1到30dB/sec。在一个实施例中，使用值20dB/sec。

在其它实施例中，可以使用不同的用于噪声估计的方法。这些不同方法的示例包括但不限于确定信号观察窗口(例如1和10秒的窗口)上最小值的替代方法。除了最小值之外或者作为最小值的替代，这种不同的方法还可以确定在被分类为可能为噪声或不太可能是语音期间信号的平均值和方差。

在一个实施例中，通过如由语音活动检测(VAD)确定的出现语音的概率控制最小值跟随器的一个或多个泄漏率参数。在一个实施例中，VAD元件525确定表示为S的整体信号活跃水平为

S = Σ_{b = 1}^{B} \frac{\max (0, Y_{b}^{'} - β_{N} N_{b}^{'} - β_{E} E_{b}^{'})}{Y_{b}^{'} + Y_{sens}^{'}}

其中β_N，β_B>1分别是用于噪声和回声的裕度，并且Y′_sens是可设置的灵敏度偏差。这些参数一般地可以跨带变化。在一个实施例中，β_N和β_E的值在1到4之间。在特定的实施例中，β_N和β_E均为2。Y′_sens被设置大约为由典型成分的试验获得的所期待的麦克风和系统噪声水平。作为替换地，可以使用听力阈值来确定Y_sens的值。

在一个实施例中，更新器527的回声滤波器系数更新被门控如下。如果本地信号活动水平为低，例如，低于预定义阈值S_thresh，即如果S＜S_thresh，那么自适应滤波器系数被更新为：

F_{b, l} = F_{b, l} + μ \frac{(\max (0, Y_{b}^{'} - γ_{N} N_{b}^{'}) - T_{b}^{'}) X_{b, l}^{'}}{Σ_{l^{''} = 0}^{L - 1} ({X_{{b, l}^{''}}^{'}}^{2} + {X_{sens}^{'}}^{2})}

如果S＜S_thresh，

其中γ_N是被调谐以确保噪声和回声估计之间稳定性的调谐参数。γ_N的典型值为1.4(+3dB)。可以使用范围为1到4的值。μ是影响回声估计的稳定性和收敛速率的调谐参数。在不同实施例中，0到1之间的值可以是有用的。在一个实施例中，μ＝0.1，与帧尺寸M无关。X′_sens被设置以避免针对小的参考信号的不稳定自适应。在一个实施例中，X′_sens与听力阈值有关。S_thresh值的选择依赖于带的数量。S_thresh在1和B之间，并且对于具有24个带的达8kHz的一个实施例，发现合适范围为2到8，并且特定的实施例使用值4。

本发明的实施例使用为从带b中的一个或多个空间特征确定的一个或多个测量值的形式的空间信息，该一个或多个测量值随特定带b具有从感兴趣的空间区域入射的这种能量的概率是单调的。这种量被称为空间概率指标。在一个实施例中，一个或多个空间概率指标是输入音频信号的一个或多个分带加权协方差矩阵的函数。假设P个输入的输出通过N个频段n＝0,…,N-1变换X_p，n，p＝1，...，P，，通过将针对段n的跨P个输入的输入向量与其共轭转置的乘积求和并用具有元素w_b，n的分带矩阵W_b进行加权来构建一组加权协方差矩阵以对应。

{R^{'}}_{b} = Σ_{n = 0}^{N - 1} w_{b, n} {[\begin{matrix} X_{1, n} & . . . & X_{P, n} \end{matrix}]}^{H} [\begin{matrix} X_{1, n} & . . . & X_{P, n} \end{matrix}]

w_b，n提供每个段如何针对对带的贡献被加权的指示。在一些实施例中，一个或多个协方差矩阵被时间平滑化。在一些实施例中，分带矩阵包括针对加权移动平均的依赖于时间的权重，其表示为具有元素w_b，n，l的W_b，l，其中l代表时间帧，从而在L个时间帧上，

{R^{'}}_{b} = Σ_{n = 0}^{N - 1} Σ_{l = 0}^{L - 1} w_{b, n, l} {[\begin{matrix} X_{1, n} & . . . & X_{P, n} \end{matrix}]}^{H} [\begin{matrix} X_{1, n} & . . . & X_{P, n} \end{matrix}] .

在两输入，P＝2的情况下，定义

R_{b}^{'} = [\begin{matrix} R_{b 11}^{'} & R_{b 12}^{'} \\ R_{b 21}^{'} & R_{b 22}^{'} \end{matrix}],

从而每个带协方差矩阵R'_b为2×2Hermetian正定矩阵，且其中上划线被用于指示复共轭。

使用空间特征“Ratio”表示随分带幅值的比率而单调的量。在一个实施例中，使用log关系：

{Ratio}_{b}^{'} = 10 \log_{10} \frac{R_{b 11}^{'} + σ}{R_{b 22}^{'} + σ}

其中σ是被添加以避免奇异的小偏差。σ可以被认作R′_b11的最小期待值。在一个实施例中，其为麦克风或相关电子器件的带b中噪声功率(或其它频域振幅度量)的确定值或估计(先验)值。即，所使用的任何预处理的最小灵敏度。

使用空间特征“Phase”表示随tan^-1R′_b21单调的量。

Phase′_b＝tan^-1R′_b21

使用空间特征“Coherence”表示随单调的量。在一些实施例中，可以使用诸如或与协方差矩阵的调整、秩或特征值扩散度相关的值的相干性的相关测量值。在一个实施例中，相干性特征为

{Coherence}^{'}_{b} = \sqrt{\frac{R_{b 21}^{'} R_{b 12}^{'} + σ^{2}}{R_{b 11}^{'} R_{b 22}^{'} + σ^{2}}}

其中偏差σ如上定义。

噪声、回声和位置外信号抑制的一些实施例的一个特征为，基于所希望的信号特征的先验预期或当前估计—从统计数据收集的例如代表空间位置的目标值—每个带中的每个空间特征可以被用于创造对于带b的该特征的概率指标。

在一个实施例中，用于所希望的位置的预期空间特征的分布被建模为高斯分布，其代表了捕捉从每个空间特征和带导出的概率指标的感兴趣区域的稳健的方式。

三个空间概率指标与这三个空间特征有关，并且是表示为RPI′_b的比率概率指标，表示为PPI′_b的相位概率指标，和表示为CPI′_b的相干性概率指标，并且

{RPI}_{b}^{'} = f_{R_{b}} ({Ratio}_{b}^{'} - {Ratio}_{{t \arg et}_{b}}) = f_{R_{b}} (Δ {Ratio}_{b}^{'}),

其中并且从在先估计或者例如耳机的所使用设备的试验确定例如从诸如图9A中示出的数据确定。

函数是平滑化函数。在一个实施例中，比率概率指标函数为

f_{R_{b}} (Δ {Ratio}^{'}) = \exp {[- \frac{Δ {Ratio}_{b}^{'}}{{Width}_{Ratio, b}}]}^{2},

其中Width_Ratio，b是以例如dB的log单位表达的宽度调谐参数。Width_Ratio，b与实际数据有关，但不必要从实际数据确定。其被设置为覆盖正常条件和噪声条件中空间特征的预期变化，而且仅需要为如整体系统的上下文中要求的那样窄以获得预期的抑制。

针对相位概率指标，

{PPI}_{b}^{'} = f_{P_{b}} ({Phase}_{b}^{'} - {Phase}_{{t \arg et}_{b}}) = f_{R_{b}} (Δ {Phase}_{b}^{'}),

其中并且从在先估计或者例如耳机的所使用设备的试验确定从例如数据获得。

函数为平滑化函数。在一个实施例中，

f_{R_{b}} (Δ {Phase}_{b}^{'}) = \exp {[- \frac{Δ {Phase}_{b}^{'}}{{Width}_{Phase, b}}]}^{2}

其中Width_Phase，b是以相位单位表达的宽度调谐参数。在一个实施例中，Width_Phase，b与实际数据有关，但不必要从实际数据确定。

针对相干性概率指标，不使用目标，并且在一个实施例中，

{CPI}_{b}^{'} = {(\frac{R_{b 21}^{'} R_{b 12}^{'} + σ^{2}}{R_{b 11}^{'} R_{b 22}^{'} + σ^{2}})}^{{CFactor}_{b}}

其中CFactor_b是可以为范围0.1到10中的常数值的调谐参数；在一个实施例中，发现值为0.25是有效的。

图6示出元件529中原始增益的计算的一个示例，并且包括空间灵敏语音活动检测器(VAD)621，和风活动检测器(WAD)623。噪声降低的替代版本可以不包括WAD，或空间灵敏VAD，并且进一步可以不包括回声抑制或其它降低。此外，图6中示出的实施例包括额外的回声抑制，其可能不被包括在更简单的版本中。

在一个实施例中，空间概率指标被用于确定被称为波束增益的被表示为BeamGain′_b的统计量，其可以被用于例如使用波束外谱计算器603来从总功率估计波束内功率和波束外功率，并且进一步可以被用于通过空间抑制增益计算器611来确定波束外抑制增益。按照惯例并且在此处呈现的实施例中，概率指标被缩放从而使得波束增益具有最大值1。

在一个实施例中，波束增益为

BeamGain′_b＝BeamGain_min+(1-BeamGain_min)RPI′_b·PPI′_b·CPI′_b

一些实施例使用0.01到0.3(-40dB到-10dB)的BeamGain_min。一个实施例使用0.1的BeamGain_min。

波束内功率和波束外功率为：

Power′_b，InBeam＝BeamGain′_b ²Y′_b

Power′_{b，OutOfBeam}＝(1-BeamGain′_b ²)Y′_b

注意，Power′_b，InBeam和Power′_{b，OutOfBeam}是用于抑制的统计测量值。

在元件603的一个版本中，

Power′_{b，OutOfBeam}＝[0.1+0.9(1-BeamGain_b ²)]Y′_b

增益计算的一个版本使用确定噪声功率(或其它振幅度量)谱的估计的空间选择噪声功率谱计算器605。本发明的一个实施例使用泄漏最小值跟随器，其跟踪速率由至少一个泄漏率参数确定。泄漏率参数不需要与回声系数更新中使用的非空间选择噪声估计的泄漏率参数相同。由N′_b，S表示空间选择噪声谱估计。在一个实施例中，

B_{b, S}^{'} = \min ({Power}_{b, OutOfBeam}^{'}, (1 + α_{b}) N_{b, S_{Prev}}^{'}),

其中为已经确定的，即N′_b，S的先前值。以dB/s表达泄漏率参数α_b从而针对表示为T的帧时间，如果语音的概率低，那么(1+α_b)1/T在1.2和4之间，并且如果语音的概率高，那么其为1。α_b的标称值为3dB/s从而(1+α_b)1/T＝1.4。

在一些实施例中，为了避免向噪声估计添加偏置，使用回声门控，即，

N_{b, S}^{'} = \min ({Power}_{b, OutOfBeam}^{'}, (1 + α_{b}) N_{b, S_{Prev}}^{'}),

如果

B_{b, S_{prev}}^{'} > 2 E_{b}^{'},

否则

N_{b, S}^{'} {= N}_{b, S_{prev}}^{'} .

即，只有当先前的噪声估计暗示噪声水平较大，例如，大于当前回声预测的两倍，那么噪声估计被更新。否则回声会偏置噪声估计。

图4、5和6中示出的噪声降低器的一个特征包括同时抑制：1)基于空间选择噪声估计的噪声，和2)波束外信号。增益计算器529包括元件613，该元件613用于基于噪声功率(或其它频域振幅度量)谱的空间选择估计并进一步基于特定带中的瞬时分带输入功率Y′_b，计算表达为用于例如频段Y_n的中间信号的增益的概率指标。出于简化目的，该概率指标被称为增益，表示为Gain_N。然而应当注意，该增益Gain_N并未被直接应用，而是与额外的增益(即额外的概率指标)在增益组合器615中被组合以获得单一增益，以应用而实现单一抑制动作。

元件613被示出具有回声抑制，并且在一些版本中不包括回声抑制。

发现在计算复杂度和效果方面有效的表达由下式给出

{Gain}_{N}^{'} = {(\frac{\max (0, Y_{b}^{'} - β_{N}^{'} N_{b, S})}{Y_{b}^{'}})}^{GainExp}

其中Y′_b为瞬时分带功率(或其它频域振幅度量)，N′_b，S为分带空间选择(波束外)噪声估计，并且β′_N为缩放参数，典型地位于1到4的范围中。在一个版本中，β′_N＝1.5。参数GainExp为从抑制到传输的抑制增益的过渡的速率或积极性的控制。该指数一般地采用0.25到4的范围中的值。在一个版本中，GainExp＝2。

添加回声抑制

用于噪声降低的输入处理的一些实施例不仅包括噪生抑制，还包括回声的同时抑制。在增益计算器529的一些实施例中，元件613包括回声抑制，并且在增益计算器529中，用于抑制回声的概率指标被表达为表示为Gain′_b，N+E的增益。在还包括回声抑制的情况下，以上噪声抑制增益表达变为

{Gain}_{b, N + E}^{'} = {(\frac{\max (0, Y_{b}^{'} - β_{N}^{'} N_{b, S} - β_{E}^{'} E_{b}^{'})}{Y_{b}^{'}})}^{GainEx p_{b}} (' Gain 1')

其中Y′_b还为瞬时分带功率，N′_b，S，E′_b为分带空间选择噪声和分带回声估计，并且β′_N，β′_E为范围1到4中的缩放参数，以考虑噪声和回声估计中的误差并相应地补偿增益曲线。再一次的，它们在目的和量级上类似于VAD函数中使用的常数，虽然它们并不必要是相同的值。在一个实施例中，对于b的所有值，被合适地调谐的值为β′_N＝1.5，β′_E＝1.4，GainExp_b ²。

此处描述的用于Gain′_b，N+E的表达中的一些在分子和分母中都具有瞬时分带输入功率(或其它频域振幅度量)Y′_b。这在分带如此处描述地被合适地设计时以及对于具有类似对数的频带或感知地间隔的频带良好地起作用。在本发明的替代实施例中，分母使用估计的分带功率谱(或其它振幅度量谱)P′_b，从而以上用于Gain′_b，N+E的表达变为：

{Gain}_{b, N + E}^{'} = {(\frac{\max (0, Y_{b}^{'} - β_{N}^{'} N_{b, S} - β_{E}^{'} E_{b}^{'})}{P_{b}^{'}})}^{GainEx p} (' Gain 1_{MOD}') .

回声抑制的额外独立控制

以上抑制增益表达可以被归纳为瞬时输入功率与预期的不希望的信号功率(有时候出于简化目的被称为“噪声”)的比率的域上的函数。在这些增益表达中，不希望的信号功率为估计的(位置灵敏)噪声功率和预测或估计的回声功率之和。以该方式将噪声和回声组合在一起提供了为抑制增益的形式的单一概率指标，其使得不希望的噪声和不希望的回声同时衰减。

在一些情况下，例如，在其中回声可以获得大幅高于噪声水平的水平的情况下，这种抑制可能不导致足够的回声衰减。例如，在一些应用中，可能仅需要对环境噪声的温和降低，同时一般要求任何回声被抑制到低于可听度。为了获得这种希望的效果，在一个实施例中，使用概率指标或增益的额外缩放，这种额外缩放仅仅基于输入音频信号与回声功率的比率。

由f_A(·)，f_B(·)表示一对抑制增益函数，各自具有用于抑制增益的所希望特性，例如，如上所述，包括例如平滑化。作为一个示例，每个f_A(·)，f_B(·)具有S形的函数特性。在一些实施例中，不是被定义为的增益表达，而是可以使用一对概率指标，例如增益并从和确定组合增益因子，其允许针对对于噪声和回声信号功率的响应进行深度和积极性的独立控制。还是在另一个实施例中，可以被应用于噪声和回声抑制两者，并且可以被应用于额外的回声抑制。

在一个实施例中，两个函数或者在另一个实施例中，两个函数和作为乘积被组合，以获得组合概率指标作为抑制增益。

组合用于位置外信号的同时抑制的抑制增益

在一个实施例中，被表示为Gain′_b，S、被称为空间抑制增益且被表达为波束增益612的用于波束内信号的抑制概率指标被空间抑制增益计算器611在元件529(图5)中确定为

Gain′_b，S＝BeamGain′_b＝BeamGain_min+(1-BeamGain_min)RPI′_b·PPI′_b·CPI′_b。

空间抑制增益612和其它抑制增益在增益组合器615中被组合以形成表达为抑制增益的整体概率指标。在一个实施例中，用于噪声、回声和波束外信号的同时抑制的、表达为增益Gain′_b，RAW的整体概率指标为增益的乘积：

Gain′_b，RAW＝Gain′_b，S·Gain′_b，N+E。

在替代实施例中，应用额外的平滑化。在增益元件615的一个示例实施例中：

Gain′_b，RAW＝0.1+0.9Gain′_b，S·Gain′_b，N+E。

其中针对不同的实施例，最小值增益0.1和0.9＝(1-0.1)因子可以变化以获得增益的不同的最小值，并且建议的范围为0.001到0.3(-60dB到-10dB)。

以上Gain′_b，RAW的表达对噪声和回声相等地抑制。如前所述，可能希望不完全消除噪声，但是希望完全消除回声。在增益确定的一个这种实施例中，

{Gain}_{b, RAW}^{'} = 0.1 + 0.9 {Gain}_{b, S}^{'} \cdot f_{A} (\frac{Y_{b}^{'}}{N_{b, S}^{'} + E_{b}^{'}}) \cdot f_{B} (\frac{Y_{b}^{'}}{E_{b}^{'}})

其中实现噪声和回声的(相对)适中的抑制，而更多地抑制回声。在不同的实施例中，f_A(·)仅抑制噪声，并且f_B(·)抑制回声。

在还另一个实施例中，

Gain′_b，RAW＝0.1+0.9Gain′_b，S·Gain′_b，N+E，

其中

{Gain}_{b, E + B}^{'} = (0.1 + 0.9 f_{A} (\frac{Y_{b}^{'}}{N_{b, S}^{'} + E_{b}^{'}})) \cdot (0.1 + 0.9 f_{B} (\frac{Y_{b}^{'}}{E_{b}^{'}})) .

在一些实施例中，噪声和回声抑制增益被与空间特征概率指标或增益组合以用于形成原始组合增益，并且随后被后处理器625和后处理步骤后处理以确保稳定性和其它所希望的行为。

在另一个实施例中，在由后处理器625后处理之后，专用于回声抑制的增益函数作为增益被应用。增益计算器529的一些实施例包括确定额外的回声抑制增益的确定器以及组合额外的回声抑制增益和经后处理增益以得到要应用的整体B个增益的组合器627。发明人发现这种实施例可以对噪声提供更专门的且更深的衰减，这是因为回声概率指标或增益并不承受后处理施加的平滑化和连续性。

图7示出了操作处理装置100以抑制例如来自不同位置的麦克风的P≥1个的信号输入101中的噪声和位置外信号以及一些实施例中的回声的方法700的流程图。在包括回声抑制的实施例中，方法700包括处理Q≥1个参考输入102，例如将在Q个扩音器上呈现的Q个输入，或从Q个扩音器获得的信号。

在一个实施例中，方法700包括：在处理装置中接受701多个采样输入音频信号101，并针对多个频带形成703、707、709输入音频信号101的下混分带瞬时频域振幅度量417，该形成包括变换703为用于一组频段的复数值频域值。在一个实施例中，该形成包括在703中将输入音频信号变换至频段、下混(例如波束形成707)该频率数据以及在709中进行分带。在711中，该方法包括计算信号的功率(或其它振幅度量)谱。在替代实施例中，下混可以在变换之前，从而变换单一的下混信号。在替代实施例中，系统可以利用分带回声参考的估计，或由实现的系统内的另一处理组件或源提供的回声参考的频域谱的类似表达。

该方法包括在705中确定分带空间特征，例如来自多个采样输入音频信号的位置概率指标419。

在包括同时回声抑制的实施例中，该方法包括接受713一个或多个参考信号并在715和717中形成一个或多个参考信号的分带频域振幅度量表示。在一个实施例中，该表示为和。还在包括回声抑制的实施例中，该方法包括在721中使用自适应确定的回声滤波器系数来预测回声415的分带频域振幅度量表示。一个实施例中的预测进一步包括使用下混信号413的分带谱振幅度量的估计、噪声的分带谱振幅度量的估计和先前预测的回声谱内容415的语音活动检测—VAD。根据语音活动检测的结果，系数被更新或不被更新。更新是使用噪声的分带谱振幅度量的估计、先前预测的回声谱内容415和下混信号413的分带谱振幅度量的估计进行的。在一个实施例中，下混信号的分带谱振幅度量的估计为输入音频信号的下混分带瞬时频域振幅度量417，而在其它实施例中，使用信号谱估计。

在一些实施例中，方法700包括：a)在723中计算原始抑制增益，包括使用空间特征419中的两个或更多个确定的位置外信号增益，和使用空间选择噪声谱内容确定的噪声抑制增益；b)将原始抑制增益组合为用于每个带的第一组合增益。在一些实施例中，该噪声抑制增益包括回声的抑制，并且其计算723还使用预测的回声谱内容415。

在一些实施例中，方法700进一步包括在725中执行使用空间特征419中的两个或更多个确定的空间选择语音活动检测以生成信号分类，例如，是否是语音。在一些实施例中，使用风检测从而使得信号分类进一步包括信号是否是风。

方法700进一步包括对带的第一组合增益执行后处理以生成用于每个带的经后处理的增益125。在一些实施例中，后处理包括例如以依赖于带的方式确保最小值。本发明的实施例的一个特征在于后处理包括执行组合增益的百分位滤波，例如，以确保不存在异常值增益。在一些实施例中，以时间-频率方式执行百分位滤波。后处理的一些实施例包括通过执行时间和/或带到带平滑化来确保平滑性。

在一些实施例中，后处理725是根据信号分类(例如，是否是语音或是否是风)进行的，并且在一些实施例中，百分位滤波的特性根据信号分类(例如，是否是语音或是否是风)而改变。

在其中包括回声抑制的一个实施例中，该方法包括在726中计算额外的回声抑制增益。在一个实施例中，额外的回声抑制增益被包括在被用作用于每个带的最终增益的第一组合增益中，并且在另一个实施例中，额外的回声抑制增益与后处理第一组合增益的结果相组合以生成用于每个带的最终增益。

该方法包括在727中应用最终增益，包括对于段数据内插增益以在下混信号的段数据上执行抑制从而形成被抑制的信号数据133，并在729中应用以下之一或二者：a)输出合成以及变换以生成输出采样，和b)输入重映射以生成输出频段。

典型地，P≥2且Q≥1。然而，此处公开的方法、系统和装置可以按比例缩小以对于更简单的情况P＝1、Q≥1和P≥2、Q＝0维持有效。此处公开的方法和装置甚至针对P＝1、Q＝0也表现地相当良好。虽然最终的示例为本发明的简化并且可能简单的实施例，但是应当注意，所提出的框架能够缩放是有益的，此外，如果一个或多个输入音频信号或参考信号例如由于传感器或麦克风的故障而被损坏或不可用，那么实际可能需要较低的信号操作情况。

尽管本公开对于包括所有方面的抑制(包括同时的回声、噪声和空间位置外抑制)的完整噪声降低方法(图7)、系统或装置(图5和6)被呈现，或被呈现为包括当由处理系统的一个或多个处理器(参见如下描述的图8)执行时使得包括该处理系统的处理装置执行诸如图7的方法的指令的计算机可读存储介质时，应注意，该示例实施例还提供了用于更简单应用和状况的可缩放解决方案。此外，噪声降低仅是确定如下增益的输入处理的一个示例，该增益可以被包括本发明的实施例中描述的百分位滤波的后处理方法后处理。

基于处理系统的装置

图8示出了用于处理例如来自麦克风(未示出)的一个或多个音频输入101的一个处理装置实施例800的简化框图。该处理装置800将确定一组增益，后处理该增益(包括百分位滤波该确定的增益)，并生成已经通过增益的应用被修改的音频输出137。一个版本实现以下之一个或多个：考虑了依赖音频信号的重现水平的音频感知中变化的基于感知域的校平、基于感知域的动态范围控制和基于感知域的动态均衡。另一个版本实现了噪声降低。

一个噪声降低版本包括回声降低，并且在这种版本中，处理装置还接受例如来自一个或多个扩音器(未示出)或来自向这种扩音器的馈送的一个或多个参考信号103。在一个这种噪声降低版本中，处理装置800将生成音频输出137，该音频输出137已通过如根据本发明的一个或多个特征规定地在一个实施例中抑制噪声和位置外信号以及在另一个实施例中还抑制回声被修改。例如，该装置可以实现图6中示出的系统以及它的任何替代，并且当操作时，可以执行包括此处描述的方法的任何变化的图7的方法。这种装置可以被包括在例如诸如蓝牙耳机的耳机套中。音频输入101、参考输入103和音频输出137被假设为采用采样数据的M个采样的帧的形式。在模拟输入的情况下，会存在包括模拟到数字的转换器和量化器的数字转换器。针对音频回放，会存在解量化器和数字到模拟转换器。可能被包括在完整的音频处理系统(例如耳机设备)中的这种和其它元件被省略，并且如何包括这种元件对于本领域技术人员而言是清楚的。

图8中示出的实施例包括被配置为在操作中执行此处描述的抑制方法的处理系统803。该处理系统803包括至少一个处理器805，其可以是数字信号处理设备的处理单元或更通用的处理设备的CPU。处理系统803还包括典型地包括一个或多个存储单元的存储子系统807。处理系统的元件例如通过总线子系统或图8中未示出的一些其它的互联机构被耦合。使用本领域技术人员公知的技术，处理系统803的一些元件可以被集成为单一电路。

存储子系统807包括当被处理器805执行时使得实行此处描述的方法的指令811。

在一些实施例中，存储子系统807被配置为存储可以被用于改变由处理系统803执行的处理步骤中的一些的一个或多个调谐参数813。

图8中示出的系统可以被包括在诸如耳机(例如无线蓝牙耳机)的专用设备中。该系统还可以是例如被配置为处理音频信号的个人计算机的通用计算机的一部分。

具有可设置灵敏度的语音活动检测

在本发明的一些实施例中，例如百分位滤波的后处理通过由VAD确定的信号分类被控制。本发明并不限于任何特定种类的VAD，并且本领域中已知许多VAD。当被应用到抑制时，发明人已经发现当抑制系统的不同部分通过不同的VAD被控制时抑制效果最好，其中每个这种VAD针对其被使用的抑制器的功能而定制设计，而不是具有针对所有用途“最优”的VAD)。因此，在针对噪声降低的输入处理的一些版本中，多个VAD，分别由一小组分离地控制包括空间选择性的选择性和灵敏度的调谐参数控制，这种参数根据其中使用VAD的抑制元件被调谐。多个VAD中的每一个为从Y′_b确定语音活动的指示的通用VAD的例示。通用VAD由一组参数控制，并且使用噪声谱内容的估计、回声的分带频域振幅度量表示和分带空间特征。该组参数包括噪声谱内容的估计是否是空间选择的。由参数的选择控制特定例示确定的语音活动的指示的类型。

一般的空间选择VAD结构的一个实施例—可以针对各种功能被调谐的计算语音活动的通用VAD—是

其中BeamGain′_b＝BeamGain_min+(1-BeamGain_min)RPI′_b·PPI′_b·CPI′_b，BeamGainExp为参数，它的较大值增加了VAD的空间选择性的积极性，并且针对非空间选择VAD其为0，N′_b∨N′_b，S表示总噪声功率(或其它频域振幅度量)估计N′_b或使用波束外功率(或其它频域振幅度量)确定的空间选择噪声估计N′_b，S，β_N，β_E＞1分别是用于噪声和回声的裕度，并且Y′_sens为可设置灵敏度偏差。β_N，β_E的值在1和4之间。BeamGainExp在希望空间选择性时在0.5和2.0之间，并且对于例如在本发明的一些实施例中用于控制后处理的空间选择VAD的一个实施例而言为1.5。如上，RPI′_b，PPI′_b和CPI′_b是三个空间概率指标，即比率概率指标、相位概率指标和相干性概率指标。

以上表达还控制通用语音活动检测方法的操作。

针对任何给定的用于生成语音指标值S的参数的集合，通过将测试S＞S_thresh看作指示语音的存在，可以获得二进制决策或分类器。还应当明显的是，值S可以被用作瞬时语音水平的连续指标。此外，在检测的事件之后使用语音的连续指示的合适“拖尾”或时间段可以获得用于诸如传输控制或控制后处理的操作的改进的有用的通用VAD。这种拖尾时间段可以从0到500ms变化，并且在一个实施例中使用200ms的值。在拖尾时间段期间，降低激活阈值是有用的，例如降低2/3。一旦开始突发通话，其使得对语音的灵敏度和稳定性增加。

针对用以控制一个或多个后处理操作的空间选择语音活动检测(例如针对空间选择VAD)，上述表达中的噪声为使用功率(或其它频域振幅度量)的波束外估计确定的N′_b，S。Y_sens被设置为在通过对典型成分的试验获得的预期麦克风和系统噪声水平附近。

百分位滤波结果的示例

图9示出了针对VAD的输入波形和相应的VAD值，其中0指示无声并且1指示有语音的演讲。有噪声的演讲是0dB信噪比(SNR)的干净的演讲和汽车噪声的混合。

图10示出了使用包括本发明的实施例的不同中值滤波策略得到的经处理的波形的表示为(a)到(e)的五张图。图10中的结果(a)是使用未经任何后处理的原始增益的结果。图10中的结果(b)是针对无声使用5点仅频率中值滤波器和针对有语音使用3点仅频率中值滤波器的结果。图10中的结果(c)是针对无声使用7点仅频率中值滤波器和针对有语音使用5点仅频率中值滤波器的结果。图10中的结果(d)是仅使用3点仅时间中值滤波器的结果。图10中的结果(e)是针对无声使用7点时间-频率中值滤波器和针对有语音使用5点时间-频率中值滤波器的结果。明显，使用本发明的百分位滤波方法的实施例的图10中的结果(e)与仅频率方法和仅时间中值滤波相比，展示出平滑化得多的时域包络。感知收听也确认本发明提出的滤波器生成包含更少伪像的更令人愉悦的输出。然而，发明人注意到，有时候在语音开始处存在比使用原始未经后处理增益的情况稍微更多的失真，但是在包括图10中所示的示例的大多数情况下，衰减几乎难以被注意。在改善的实施例中，例如使用空间选择参数来使VAD被调谐为更灵敏，并且消除了时域百分位滤波(即，当检测到语音开始时，百分位滤波器被改为仅频带滤波器)。

图9和图10的示例展示了用于语音信号的时间-频率中值滤波器的优点。为了进一步图解其对噪声的影响，处理一段汽车噪声。图11示出了一段汽车噪声的输入波形和相应的VAD值。图12示出了针对图11的汽车噪声段使用包括本发明的实施例的不同中值滤波方法的经处理的表示为(a)到(e)的输出。出于说明的目的，图11中的垂直轴已经被缩放为[-0.1，0.1]。图12中的结果(a)是使用未经任何后处理的原始增益的结果。图12中的结果(b)是针对无声使用5点仅频率中值滤波器(以及针对有语音使用3点仅频率中值滤波器，此处未发生)的结果。图12中的结果(c)是针对无声使用7点仅频率中值滤波器以及针对有语音使用5点仅频率中值滤波器(此处未出现有语音)的结果。图12中的结果(d)是仅使用3点仅时间中值滤波器的结果。图12中的结果(e)是是针对无声使用7点时间-频率中值滤波器以及针对有语音使用5点时间-频率中值滤波器(此处未出现有语音)的结果。明显，使用本发明的百分位滤波方法的实施例的图12中的结果(e)展现出平滑得多的结果，并且噪声基底更低。

一般原则

应当理解，贯穿说明书使用诸如“处理”、“计算”、“计算”和“确定”等的描述可以指的是电路或计算机或计算系统或类似的电子计算设备或操作表示为物理(诸如电子)量的数据和/或将其变换为类似地表示为物理量的其它数据的其它硬件的动作和/或处理，而不被限制。

以类似的方式，术语“处理器”可以指的是任何设备或设备的一部分，该设备处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可以被存储在寄存器和/或存储器的其它电子数据。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。

注意到，当描述包括若干要素(例如若干步骤)的方法时，除非具体说明，否则没有暗示这样的要素(例如这种步骤)的顺序。

此处描述的方法在一些实施例中可以由一个或多个处理器执行，该一个或多个处理器接收逻辑：一个或多个计算机可读介质上编码的指令。当该指令被一个或多个处理器执行时，其使得执行此处描述的至少一种方法。包括能够执行规定将采取的动作的一组指令(序列或其它)的任何处理器。因此，一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括以下之一或多个：CPU或类似元件、图形处理单元(GPU)、现场可编程门阵列、专用集成电路和/或可编程DSP单元。处理系统进一步包括具有至少一个存储介质的存储子系统，其可以包括嵌入在半导体器件中的存储器、或包括主RAM和/或静态RAM和/或ROM以及高速缓存存储器的分离存储器子系统。存储子系统可以进一步包括一个或多个其它存储器件，诸如磁和/或光和/或进一步的固态存储器件。可以包括总线子系统以用于组件之间的通信。处理系统进一步可以是具有通过网络(例如，经由网络接口设备或无线网络接口设备)耦合的处理器的分布式处理系统。如果处理系统需要显示器，那么可以包括如下这种显示器，例如，液晶显示器(LCD)、有机发光显示器(OLED)或阴极射线管(CRT)显示器。如果需要手动数据输入，那么该处理系统还包括输入设备，诸如字母数字输入单元(诸如键盘)、指示控制设备(诸如鼠标)等之一或更多。此处使用的术语存储设备、存储子系统和存储器单元中的每一个，如果从上下文清楚看出并且除非明确地另行说明，否则还包括诸如盘驱动单元的存储系统。在一些配置中的处理系统可以包括声音输出设备和网络接口设备。

在一些实施例中，使用指令(例如逻辑)配置(例如编码)非暂态计算机可读介质，该指令当被处理系统(诸如包括至少一个处理器元件和存储子系统的数字信号处理设备或子系统)的一个或多个处理器执行时，使得实行此处描述的方法。有些实施例采用逻辑本身的形式。非暂态计算机可读介质为不具体地是暂态传播的信号或暂态的载波或一些其它的暂态传输介质的任何计算机可读介质。从而术语“非暂态计算机可读介质”覆盖任何有形计算机可读存储介质。非暂态计算机可读介质包括任何有形计算机可读存储介质并且可以采用包括非易失存储介质和易失存储介质的多种形式。非易失存储介质包括例如静态RAM、光盘、磁盘和磁光盘。易失存储介质包括动态存储器，诸如处理系统中的主存储器和处理系统中的硬件寄存器。在如上所述的典型处理系统中，从而存储子系统为使用例如逻辑(例如软件)的指令配置(例如编码)的计算机可读存储介质，该指令当被一个或多个处理器执行时使得实行此处描述的一个或多个方法步骤。软件可以位于硬盘，或者也可完全或至少部分位于例如RAM的存储器内和/或在由计算机系统执行期间位于处理器寄存器内。因此，存储器和处理器寄存器还构成非暂态计算机可读介质，在其上可以编码当被执行时使得实行方法步骤的指令。

虽然在一个示例实施例中示出的计算机可读介质是单个介质，但是术语“介质”应当被认为包括单个介质或存储该一组或多组指令的多种介质(例如，若干存储器、集中式或分布式数据库，和/或相关联的高速缓存和服务器)。

此外，非暂态计算机可读介质(例如计算机可读存储介质)可以形成计算机程序产品或被包括在计算机程序产品中。

在替代实施例中，该一个或多个处理器作为单独的设备而操作，或在网络部署中可以被连接(例如连网)到其它处理器，或者该一个或多个处理器可以在服务器-用户网络环境中的服务器或用户机器的容量中操作，或者作为对等或分布式网络环境中的对等机器而操作。术语处理系统涵盖所有这样的可能性，除非此处明确排除地。该一个或多个处理器可以形成个人计算机(PC)、媒体回放设备、耳机设备、不必手操作的通信设备、平板PC、机顶盒(STB)、个人数字助理(PDA)、游戏机、移动电话、Web装置、网络路由器、交换机或桥或能够执行规定该机器将采取的动作的一组指令(序列或其它)的任何机器。

注意，虽然一些图仅仅示出单个处理器和单个存储子系统(例如存储包括指令的逻辑的单个存储器)，但是本领域技术人员将理解上述许多组件被包括，只是为了不掩盖创新性方面而未被明确示出或描述。例如，虽然仅仅图解了单个机器，但是术语“机器”还应当被认为包括各自或共同地执行一组(或多组)指令以执行此处讨论的一个或多个方法的机器的集合。

因此，如本领域技术人员将理解地那样，本发明的实施例可以被体现为方法、诸如专用装置的装置、诸如数据处理系统的装置、例如非暂态计算机可读介质中体现的逻辑或使用指令编码的计算机可读介质(例如被配置为计算机程序产品的计算机可读介质)。使用当被一个或多个处理器执行时使得实行方法步骤的一组指令配置该计算机可读介质。相应地，本发明的各方面可以采用方法、完全硬件实施例、完全软件实施例或组合软件和硬件方面的实施例的形式。此外，本发明可以采用程序逻辑(例如计算机可读存储介质上的计算机程序)或使用计算机可读程序代码配置的计算机可读存储介质(例如计算机程序产品)的形式。

还应当理解，本发明的实施例并不限于任何特定的实现或编程技术，并且可以使用用于实现此处描述的功能的任何合适的技术来实现本发明。此外，实施例并不限于任何特定的编程语言或操作系统。

贯穿本说明书，提到“一个实施例”或“实施例”指的是连同该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此，短语“在一个实施例中”或“在实施例中”在贯穿本说明书的各个地方的出现并不一定都指的是同一个实施例，但可能如此。此外，如本领域一般技术人员从本公开明了的，在一个或多个实施例中，特定的特征、结构和特性可以被以任何合适的方式结合。

类似地，应当理解，在本发明的示例实施例的以上描述中，出于精简本公开并帮助理解各种创造性方面中的一个或多个的目的，发明的各种特征有时被集合到单个实施例、图或其描述中。然而公开的本方法并不应被解读为反映所要求保护的发明需要比每个权利要求中明确表述的特征更多的特征的意图。如以下权利要求所反映的，创造性方面在于少于单个的以上公开的实施例的所有特征。因此，在“具体实施方式”之后的权利要求在此被明确地包括“具体实施方式”部分的描述中，并且每个权利要求自身作为本发明的单独实施例。

此外，虽然此处描述的一些实施例包括其它实施例中包括的一些但非其它特征，但是如本领域技术人员会理解地那样，不同实施例的特征的组合应当位于本发明的范围内并形成不同的实施例。例如，在以下权利要求中，可以使用任何要求保护的实施例的任何组合。

此外，一些实施例在此处被描述为方法或方法的要素的组合，该方法可以由计算机系统的处理器或执行功能的其它装置实现。因此，具有用于执行这种方法或方法的要素的必要指令的处理器形成用于执行该方法或方法的要素的装置。此外，装置实施例的此处描述的元件是用于实行出于实行本发明的目的而由元件执行的功能的装置的示例。

在此处提供的描述中，展出了很多具体的细节。然而，应当理解本发明的实施例可以在没有这些具体细节的情况下而实践。在其它例子中，为了不掩盖对本说明的理解而没有详细示出公知的方法、结构和技术。

如此处使用的，除非另行规定，否则使用序数形容词“第一”、“第二”和“第三”等描述共同的物体仅仅指示正在提及类似物体的不同实例，并不意在暗示如此描述的该物体必须在时间、空间的排行或其它任何方式上按照给定的顺序。

虽然在一个实施例中，短时傅里叶变换(STFT)被用于获得频带，但是本发明并不限于STFT。诸如STFT的变换通常被称为循环变换。缓冲、窗口、扭转(实数值到复数值的变换)和例如FFT的DFT可以代表循环变换的最一般形式。DFT之后的复数扭转可以被用于调整频域表达以匹配具体的变换定义。可以通过任何这类变换，包括修正DFT(MDFT)、短时傅里叶变换(STFT)并使用更长的窗口和卷绕、共轭正交镜像滤波器(CQMF)来实现本发明。还可以使用诸如修正离散余弦变换(MDCT)和修正离散正弦变换(MDST)的其它标准变换，并使用频域段的额外复数扭转，其不改变变换的基本频率分辨率或处理能力，并因此可以被保留直至处理链的末端，并且如果需要的话在重映射中被应用。

此处引用的指定美国的所有美国专利、美国专利申请和国际(PCT)专利申请通过引用并入此。在专利法或专利条例不允许通过引用并入自身通过引用并入信息的材料时，此处通过引入并入该材料不包括这种通过引用并入的材料中的通过引用并入的任何信息，除非这种信息在此处被明确地通过引用并入。

本说明中关于其它领域的任何讨论不应当被认为是承认在发明时这种领域广为人知、为公众所知或形成该领域中的公知常识。

在以下的权利要求和此处的说明书中，术语“包括”或“由..构成”中的任一个为开放术语，指的是至少包括随后的元件/特征，但并不排除其它。因此，当术语“包括”被用在权利要求中时，不应当被解读为被限于随后列出的装置或元件或步骤。例如，表达“设备包括A和B”的范围不应被限于设备仅由元件A和B组成。如此处使用的术语“包含”或“其包含”中的任一个也是开放术语，其也指的是至少包含跟随该术语的元件/特征，但不排除其它。因此，包含是包括的同义词，指的就是包括。

类似地，应当注意，当术语“耦合”被使用在权利要求中时，其不应该被解读为被限于仅直接的连接。可以使用术语“耦合”和“连接”以及它们的派生。应当理解，这些术语并不意在成为各自的同义词。因此，表达“设备A耦合到设备B”的范围不应被限于其中设备A的输出被直接连接到设备B的输入的设备或系统。它指的是A的输出和B的输入之间存在路径，其可以是包括其它设备或装置的路径。“耦合”可以指的是两个或更多元件或者直接物理或电接触，或者这两个或更多元件并不相互直接接触但仍然协同操作或相互互动。

因此，虽然已经描述了被认为是本发明的优选实施例的实施例，本领域技术人员将认识到在不偏离本发明的精神的情况下，可以对其做出其它或进一步的修改，并旨在要求所有这种改变和修改落入本发明的范围内。例如，以上给出的任何公式仅仅是可能被使用的过程的代表。可以向框图添加功能或从框图删除功能，并且功能框之间可以交换操作。可向在本发明的范围内描述的方法添加步骤，或从在本发明的范围内描述的方法删除步骤。

Claims

1.一种后处理分带增益以生成用于应用到音频信号的经后处理的增益的方法，所述分带增益通过输入处理一个或多个输入音频信号被确定，所述方法包括：

针对特定频带生成特定的经后处理的增益，至少包括使用来自所述一个或多个输入音频信号的一个或多个先前帧的增益值和来自用于邻近所述特定频带的频带的增益值的增益值进行百分位滤波，其中所述频带包括一个或多个频段。

2.根据权利要求1所述的方法，在百分位滤波之后，进一步包括频带到频带平滑化和时间平滑化中的至少一个。

3.根据权利要求1和2中的任一个所述的方法，其中百分位滤波的宽度和深度之一或二者依赖于所述一个或多个输入音频信号的信号分类。

4.根据权利要求3所述的方法，其中所述分类包括输入音频信号是否可能是语音。

5.根据权利要求1到4中任一个所述的方法，其中百分位滤波的宽度和深度之一或二者依赖于所述一个或多个输入音频信号的谱通量。

6.根据权利要求1到5中任一个所述的方法，其中针对特定频带的百分位滤波的宽度和深度之一或二者依赖于所述特定频带。

7.根据权利要求1到6中任一个所述的方法，其中所述频带是在感知尺度或对数尺度上的。

8.根据权利要求1到7中任一个所述的方法，其中所述百分位滤波具有百分位值，并且其中所述百分位值为中值。

9.根据权利要求1到7中任一个所述的方法，其中所述百分位滤波具有百分位值，并且其中所述百分位值依赖于以下之一或多个：所述一个或多个输入音频信号的分类以及所述一个或多个输入音频信号的谱通量。

10.根据权利要求1到9中任一个所述的方法，其中所述百分位滤波是加权百分位滤波。

11.根据权利要求1到10中任一个所述的方法，其中从一个或多个输入音频信号确定的所述分带增益用于降低噪声。

12.根据权利要求1到10中任一个所述的方法，其中所述分带增益从多于一个的输入音频信号被确定，并且被用于降低噪声和位置外信号。

13.根据权利要求1到10中任一个所述的方法，其中所述分带增益从一个或多个输入音频信号和一个或多个参考信号被确定，并且被用于降低噪声和回声。

14.根据权利要求1到10中任一个所述的方法，其中所述分带增益用于以下之一或多个：基于感知域的校平、基于感知域的动态范围控制和基于感知域的动态均衡。

15.一种有形计算机可读存储介质，包括如下指令：当被处理系统的一个或多个处理器执行时，该指令使得处理硬件实行根据权利要求1到14中任一个所述的用于后处理用于应用到音频信号的分带增益的方法。

16.一种程序逻辑，当所述程序逻辑被至少一个处理器执行时，使得实行根据权利要求1到14中任一个所述的方法。

17.一种后处理用于应用到音频信号的分带增益的装置，所述分带增益通过输入处理一个或多个输入音频信号被确定，所述装置包括：

后处理器，所述后处理器接受所述分带增益以生成经后处理的增益，针对特定频带生成特定的经后处理的增益，包括使用来自所述一个或多个输入音频信号的一个或多个先前帧的增益值和来自用于邻近所述特定频带的频带的增益值的增益值进行百分位滤波。

18.根据权利要求17所述的装置，其中所述后处理器包括用以平滑化经百分位滤波的增益的平滑化滤波器，包括频带到频带平滑化和时间平滑化中的至少一个。

19.根据权利要求17到18中任一个所述的装置，进一步包括用以生成所述一个或多个输入音频信号的信号分类的信号分类器，其中所述百分位滤波的宽度和深度之一或二者依赖于所述一个或多个输入音频信号的信号分类。

20.根据权利要求19所述的装置，其中所述信号分类器包括语音活动检测器，从而信号分类包括所述输入音频信号是否可能是语音。

21.根据权利要求17到20中任一个所述的装置，其中百分位滤波的宽度或深度之一或二者依赖于所述一个或多个输入音频信号的谱通量。

22.根据权利要求17到21中任一个所述的装置，其中针对所述特定频带的百分位滤波的宽度和深度之一或二者依赖于所述特定频带。

23.根据权利要求17到22中任一个所述的装置，其中所述频带是在感知尺度或对数尺度上。

24.根据权利要求17到23中任一个所述的装置，其中所述百分位滤波具有百分位值，并且其中百分位值是中值。

25.根据权利要求17到23中任一个所述的装置，其中所述百分位滤波具有百分位值，并且其中所述百分位值依赖于以下之一或多个：所述一个或多个输入音频信号的分类和所述一个或多个输入音频信号的谱通量。

26.根据权利要求17到25中任一个所述的装置，其中所述百分位滤波是加权百分位滤波。

27.根据权利要求17到26中任一个所述的装置，其中从一个或多个输入音频信号确定的所述分带增益用于降低噪声。

28.根据权利要求17到26中任一个所述的装置，其中所述分带增益从多于一个的输入音频信号被确定，并被用于降低噪声和位置外信号。

29.根据权利要求17到26中任一个所述的装置，其中所述分带增益从一个或多个输入音频信号和一个或多个参考信号被确定，并被用于降低噪声和回声。

30.根据权利要求17到26中任一个所述的装置，其中所述分带增益用于以下之一或多个：基于感知域的校平、基于感知域的动态范围控制和基于感知域的动态均衡。