CN108141502A

CN108141502A - 音频信号处理

Info

Publication number: CN108141502A
Application number: CN201680059682.0A
Authority: CN
Inventors: K·V·索伦森
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-10-12
Filing date: 2016-09-30
Publication date: 2018-06-08
Anticipated expiration: 2036-09-30
Also published as: WO2017065989A1; GB201518004D0; US20170103774A1; EP3348047A1; CN108141502B; EP3348047B1; US9870783B2

Abstract

声学系统的估计的系统增益谱被生成，并且被实时更新以响应于声学系统中的改变。随着所述估计的系统增益谱被实时更新而跟踪所述估计的系统增益谱中的峰值增益。基于所述跟踪，识别所述估计的系统增益谱在其处当前展示出峰值增益的至少一个频率。基于对所述至少一个频率的识别，控制音频均衡器以应用至要经由所述音频设备的音频输出设备播出的第一包含语音的信号和/或经由所述音频设备的音频输入设备接收的第二包含语音的信号，控制均衡滤波器以降低其谱中包括所识别的频率的部分中的包含语音的信号的电平。所述均衡滤波器贯穿所述包含语音的信号中的语音活动和语音不活动两者的间隔而被连续地应用。

Description

音频信号处理

背景技术

通信系统允许用户通过网络彼此进行通信。例如，所述网络可以是互联网或公共交换电话网络(PSTN)。可以在网络的节点之间发送音频信号，由此允许用户通过通信系统在通信会话中向彼此发送和接收音频信号(例如，语音数据)。

用户设备可以具有用于向近端用户输出音频信号的音频输出设备，例如扬声器或一组扬声器。用户可以进入到与另一用户的通信会话中，例如私人通话(在通话中仅有两个用户)或会议通话(在通话中有超过两个用户)。在通话期间可以通过网络从远端用户接收音频信号。用户设备还可以具有能够用于从用户接收诸如语音之类的音频信号的音频输入设备，例如麦克风或麦克风阵列。用户的语音在麦克风处被接收、处理，并且接着通过网络被发送给通话中的其他用户。

除了来自用户的音频信号之外，麦克风也可以接收其他音频信号，例如背景噪声和回声，它们是不期望的并且可能干扰从用户接收的音频信号。例如，在通话中，可以经由远端用户的扬声器输出经由网络在远端用户处接收的近端用户的麦克风信号。这进而可以由远端麦克风拾取，并且发送回近端设备，以使得近端用户自身的麦克风信号从其扬声器播出。这是声学循环的示例，当系统增益高时，其可能引起声学反馈。声学循环(由此麦克风信号由麦克风自身附近的扬声器输出，并且由麦克风接收)可以在其他上下文中产生，例如具有单个音频设备的声学系统。即，其他类型的声学系统也容易产生声学反馈。

发明内容

提供该发明内容以用简化的形式引入在以下的具体实施方式中进一步描述的概念的选择。该发明内容不旨在排他地标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

本主题的各个方面针对降低在包括至少一个音频设备的声学系统中的声学反馈。

声学系统的估计的系统增益谱被生成，并且被实时地更新以对声学系统中的改变进行响应。当实时地更新估计的系统增益谱时，跟踪估计的系统增益谱中的峰值增益。基于该跟踪，识别估计的系统增益谱当前在其处展示出峰值增益的至少一个频率。基于对所述至少一个频率的识别，控制音频均衡器以应用至要经由音频设备的音频输出设备播出的第一包含语音的信号(即，具有语音分量的第一音频信号)和/或经由音频设备的音频输入设备接收第二包含语音的信号(即，具有语音分量的第二音频信号)，控制均衡滤波器以降低包含语音的信号在所识别的频率处(即，在所述谱中包括所识别的频率的部分中)的电平。均衡滤波器贯穿包含语音的信号中的语音活动和语音不活动两者的间隔而被连续地应用。

附图说明

为了更好地理解本主题并且示出可以如何实施本主题，现在将作为示例来对附图进行参考，其中：

图1是通信系统的示意图；

图2是用户设备的框图；

图3是信号均衡过程的示意功能图；

图4A是在频率范围上的均衡器滤波器增益的曲线图；

图4B是在频率范围上的均衡器滤波器相移的曲线图；

图5示出了并行连接的多个均衡器滤波器，其并行地施加相应均衡器滤波器。

具体实施方式

在声学系统中可能产生的效果是“啸叫(howling)”。啸叫由系统中的声学反馈引起。其可以由多个因素引起并且在系统增益高时产生。

在本主题的以下详细描述的实施例中，描述了一种技术，其中对系统增益谱的估计是实时更新的。系统增益谱中的峰值的数量N(一个或多个)被实时跟踪，并且使用该跟踪来实时调整均衡滤波器的该数量N。通过相应的音频均衡器来应用N个均衡滤波器中的每个，以降低在谱的系统增益高的部分中的至少一个包含语音的信号的电平。即，在与N个峰值中相应的一个峰值的当前频率相匹配的相应频率处。当N个峰值中的一个峰值在频谱中移动或变得被新的较高峰值取代时，相应地实时地调整对应的均衡器滤波器以适应所述移动或新的峰值。

包含语音的信号指的是在至少一些间隔(音频信号的语音间隔)期间具有语音分量的音频。应当注意的是，在本文中所使用的术语“语音信号”作为“包含语音的信号”的简写。即，所述术语是等同的。

换句话说，具体地应用均衡器来降低系统增益谱的峰值：是具有最高增益的谱的部分将确定端点的某些组合对啸叫的鲁棒性，因此是那些谱区域被识别且被直接定向。所描述实施例的目标不是完全地使增益谱变平中的一个，因为这可能导致虚假的声音音频——尽可能小地改变跨其谱的语音信号的电平，即，仅需要足够提供对啸叫的鲁棒性的量，因为这可以改进感知质量。

在为了该特定目的而应用均衡滤波器时，识别谱中与最高峰值对应的最关键的频率，并且在这些频率处向均衡滤波器应用谱增益凹陷(dip)。在图4A中示出了合适的均衡器滤波器的示例，其中在与增益谱中的N个峰值中的一个峰值的频率匹配的频率fc处具有凹陷。也从系统增益谱确定每个凹陷的宽度(△f，图4)。可以级联多个均衡器，以使得可以应用任何期望数量的这样的滤波器，其每个将负责系统增益谱中的相同数量的峰值中的一个峰值。均衡器不放大谱的任何部分——每个均衡器仅仅减弱其被应用处的信号以降低其电平。每个凹陷仅仅是用于提供对啸叫的鲁棒性所需的深度和宽度，以便最小化对信号的可觉察的影响。每个峰值的深度和/或宽度被适当地实时地调节，以适应估计的系统增益谱中的改变。

对啸叫问题的先前的解决方案包括调整应用至每个频带中的音频信号的噪声抑制方法的激进度(aggressiveness)。在该方法中，在每个频带中应用可变增益以相对于信号中的语音分量而降低噪声分量。每个频带中的可变增益是有下限的，并且基于估计的系统增益来调整其相应的下限以防止啸叫。这在降低易于啸叫的频带中的系统增益时是有效果的，但是仅仅在每个频带内的信号中的语音不活动间隔期间；在每个频带内的语音活动间隔期间，系统增益估计对噪声抑制没有效果，这是因为增益高于其相应的下限。

相比之下，在本文中，在声学系统的信号链中，贯穿至少一个语音信号中的语音活动和语音不活动两者的间隔将均衡滤波器连续地应用至该语音信号。同样，尽管噪声降低方法利用与频带相匹配的频率分辨率来操作，但均衡滤波器也可以被设计有位于谱仓(spectral bin)之间的凹陷增益中心频率，和/或具有任意窄或宽的谱增益凹陷。

均衡滤波器应用到其的至少一个包含语音的信号可以是要经由声学系统的音频输出设备播出的包含语音的信号和/或经由声学系统的音频输入设备接收的包含语音的信号。

与将啸叫鲁棒性技术并入到在信号链中应用的某一其他信号处理中的技术(例如，噪声消除)相比，应用均衡滤波器的均衡器是专用均衡器，即专用于降低声学系统中的声学反馈以便在声学系统中提供对啸叫的鲁棒性。独立于在信号链和/或声学系统中应用的任何噪声消除(任何噪声抑制和/或任何噪声消除)而对那些包含语音的信号中的任一或两者应用均衡滤波器；在信号链和/或声学系统中的任何其他地方，其与应用至那些包含语音的信号中的任一或两者的任何噪声消除(应用于其的均衡滤波器两者中的无论哪一个)相分离。

在噪声抑制应用于包含语音的信号中的任何一个或两者的情况下，其可以独立于估计的系统增益谱而被应用，例如，如果噪声抑制被应用于语音信号，则可以在不依赖于估计的系统增益谱的每个频带中使用不变的增益下限。即，依赖于均衡滤波器而不是任何噪声消除来提供对啸叫的鲁棒性。

其他的现有系统运行对每个设备的单边测量，并基于离线的、脉冲响应的预先测量来对播出进行均衡，并且因此无法响应声学系统中引起改变的改变。此外，这些可能没有将房间(发生改变的地方，例如由于便携音频设备被移动导致的改变)的脉冲响应、或麦克风的脉冲响应考虑在内，或者将在驱动器中是否完成了任何成形考虑在内，其与设备特性被测量时不同。

其他可替代的解决方案可以依赖于基于计算成本更高的线性滤波器的回声消除器，以不断地从麦克风信号中减去对啸叫的估计。该方法主要适合具有快速CPU且没有来自扬声器和麦克风的太多非线性失真的高端设备。

在描述本主题的特定实施例之前，现在将参考图1来描述其中可以有用地应用本主题的上下文，其中图1示出了通信系统100。

通信系统的第一用户102(用户A/近端用户)操作用户设备104。用户设备104是计算机设备，其可以是例如台式或膝上型计算机设备、移动电话(例如，智能电话)、平板计算设备、可穿戴计算设备(耳机、智能手表等)、电视(例如，智能电视)、或其他壁装式设备(例如，视频会议设备)、机顶盒、游戏操纵杆等。

用户设备104包括由诸如单核或多核处理器之类的一个或多个处理单元(例如，中央处理单元(CPU))形成的处理器108。处理器108被配置为执行代码，例如用于通过通信系统100进行通信的通信客户端109。客户端109可以是直接在处理器108上运行的单独的通信客户端应用、或者是对在由另一应用提供的执行环境中在处理器108上运行的另一应用(例如，网络浏览器等)的插件。

代码109允许用户设备104通过通信系统100来参与通话和其他通信会话(例如，即时消息传送通信会话)。用户设备104可以经由网络106通过通信系统100来通信，网络106可以是例如互联网或其他基于分组的网络、或者是公共交换电话网络(PSTN)。用户设备104可以通过链路110向网络106发送数据并从网络106接收数据。

图1还示出了远程节点，用户设备104可以通过通信系统100与所述远程节点进行通信。在图1中所示出的示例中，远程节点是第二用户设备114，其能够由第二用户112(用户B/“远端”用户)使用，并且其包括处理器116，处理器116可以执行代码(例如，通信客户端)以便以用户设备104在通信系统100中通过通信网络106通信的相同的方式来通过通信网络106通信。台式或膝上型计算设备、移动电话(例如，智能电话)、平板计算设备、可穿戴计算设备(耳机、智能手表等)、电视(例如，智能电视)或其他壁式安装设备(例如，视频会议设备)、机顶盒、游戏操纵杆等。

用户设备114可以通过链接118向网络106发送数据并从网络106接收数据。因此，用户A 102和用户B 112可以通过通信网络106彼此可听地通信，由此用户设备104、112及其周围环境构成了声学系统。

图2更加详细地示出了近端扬声器处的用户设备104。特别地，图2示出了从用户102处接收语音信号201的麦克风202。麦克风202可以是单个麦克风或者是包括多个麦克风并且可选地包括波束成形器的麦克风阵列。如已知的，波束成形器从麦克风阵列中的麦克风接收音频信号并处理这些信号，以相比于被感知为来自不期望的方向的信号，尝试改进期望的方向上的信号。这涉及在期望的方向上应用较高的增益。

来自麦克风202(无论有或没有波束成形器)的信号经由设备104的音频接口206而被应用于信号处理阶段208。信号处理阶段208包括多个信号处理块，当被认为是合适的时，可以以硬件或软件或其组合来实现其每个。例如，所述块可以包括回声消除块210、均衡器块218、以及一个或多个其他信号处理块，例如数字信号处理(DSP)块212，例如，数字增益块或背景噪声衰减块，例如噪声抑制或噪声消除。在该示例中，块201、212、216、和218(见下文)表示当在处理器108上执行时由客户端软件109实现的功能。

在信号处理之后，发送由用户102输入且由麦克风202拾取的信号以用于与远端用户112进行通信。

提供至少一个扬声器204以提供用于用户102的音频信号205。这样的信号可以来自远端用户112以输出至用户102。在由扬声器发送之前，音频信号205可以由信号处理逻辑(例如，电路和/或软件处理)处理，并且为了方便起见，将扬声器示出为经由图2中的音频接口206连接至信号处理阶段208。

音频接口206表示诸如声卡206a之类的硬件以及诸如在处理器108上执行的声卡驱动程序206b之类的用户设备104的软件，它们协作以允许麦克风202和扬声器204执行其所描述的功能。在一些情况下，声卡206a和/或驱动程序206b可以执行额外的信号处理，例如均衡或动态范围压缩，其可以在客户端109的控制之外。

信号处理阶段208还包括系统增益估计块216。如之后更加详细地讨论的，块216估计声学系统的系统增益谱215。系统增益谱215表示作为频率的函数(作为离散或连续函数)的对系统增益的估计。即，不同频率处的估计的系统增益。对于离散函数，针对音频谱中多个频带中的每个频带生成相应的估计的系统增益；对于连续函数，系统增益被估计为音频谱上的连续函数。

使用针对不同的频率的系统增益的改变的实时跟踪来连续地调整对均衡块218的调谐。该跟踪功能是由信号处理阶段208的跟踪块220表示的，并且在下文中进一步详细描述。

啸叫是在频谱中的某处具有高于1的系统增益的反馈的症状。通过降低在处于或接近该限制的频率处的系统增益，可以停止或避免啸叫。

有时，扬声器、麦克风、或物理回声路径中的谐振频率将比平均值大很多且将是限制对啸叫的鲁棒性的东西。谐振还可以在信号处理链中的其他地方出现，例如，在DSP块208中、在音频接口206中(特别地在低成本声卡中)、或在远端，例如在远端回声路径或远端设备114中。

通过将在系统处理中涉及的块(当在场时，包括回声消除器210和其他DSP块212)考虑在内来估计系统增益，并且特别地，使用来自在回声消除块210中估计的回声路径的信息，该信息提供关于近端设备104所处的房间的信息。谱的形状通常由回声路径来决定，因为回声路径的传递函数包括谐振频率常常出现的扬声器的传递函数。在图2中，估计的回声路径是由箭头211表示的，并且采用回声路径模型的形式。

系统增益谱可以是单边的，或者也可以将所有其他端点(例如，远端设备114)考虑在内，其使用反馈机制，由此经由网络106接收关于在远端设备处的声学条件和/或信号处理的信息214(远端反馈)。

声学回声消除器以估计的回声路径幅度谱211的形式生成对其回声路径的估计，其是回声消除器210的回声路径的增益谱。即，回声消除器210的回声路径的增益是频率的函数。通过将参考信号与要向其应用回声消除的信号进行比较来生成回声路径估计。当被应用至回声消除器时，术语“回声路径”指的是从信号链中回声消除器采取其参考信号的点到信号链中其应用回声消除的点的信号路径(参见下文)。这包括“物理回声路径”，即从扬声器204到麦克风202的声学通道(声学路径)，以及在该回声路径中应用的信号处理。

通过将估计的回声路径幅度谱211与幅度谱进行组合、对在客户端109中由DSP块212执行的所有其他数字缩放或成形进行建模(由图2和3中的箭头213表示)来生成估计的系统增益谱215。当被接收时，远端反馈214也被考虑在系统增益估计215中。例如，远端反馈214可以包括远端系统的本地系统增益谱，其对在远端设备114处执行的远端信号处理的效果进行建模。远端系统增益谱的分量还可以对来自远端回声路径的贡献建模。

声学回声消除器210的回声路径可以包括音频接口206，其使得由音频接口206应用的音频信号处理被考虑在估计的回声路径211中，如在下文中所描述的示例中。在该情况下，将音频接口处理作为估计的回声路径211的分量而“自动地”被包括在估计的增益谱211中。

在其他情况下，音频接口206可以不被包括在回声路径中。例如，在从音频接口206可获得传达音频接口206的输出的所谓的“回路”信号的情况下，可以使用回路作为参考来估计回声路径，以便排除对在音频接口206中供应给扬声器204的信号的处理。回路信号的可用性可以取决于设备104的操作系统。在该情况下，音频接口206的幅度谱可以被计算并且与回声路径估计211、客户端传递函数213和(在适用的情况下)远端反馈214进行组合，以明确地包括由音频接口206在估计的系统增益谱215中进行的处理。

当在两个或多个设备之间进行免提通话时，啸叫的风险取决于系统的增益和应用在每个端点上的回声消除器的性能。系统的增益常常是依赖于频率的，这由于电声单元和回声路径的非扁平谱形状所致。在最坏的情况下，谐振频率在两个端点之间同时发生，并且作为结果，每当回声消除器没有完美地消除回声时，啸叫就容易增强。

这个问题可能对于基于抑制的线性回声消除器而更加显著，其正好也是否则针对低端设备的最适合的AEC(声学回声消除)设计。啸叫可以被听作增强语音电平的噪声。其常常是窄带的，但也可以是较宽带的。这全部取决于系统增益谱，以及所应用的回声消除器的类型。

图3示出了功能框图，其中功能框表示由近端用户设备104实现的用于降低声学反馈并且由此避免啸叫的功能。为了说明的目的，图3示出了在示例性信号处理链中连接的回声消除器块210、均衡器块218、系统增益估计块216、和峰值跟踪块220。

由声学回声消除器210使用的参考音频信号是第一包含语音的信号，表示为x(t)，其是经由网络106从远端设备114接收的包含语音的信号，其经由近端扬声器204输出(远端语音信号)。特别地，信号x(t)是远端语音信号的一版本，已经由均衡器块218向其应用了一个或多个均衡滤波器(如下文所描述的)，但是其尚未向音频接口206供应。即，参考信号x(t)在信号链中在均衡器块218之后但在由音频接口206进行的任何处理器之前的点处被取得。

在均衡之后，向音频接口206供应远端语音信号x(t)，以用于经由扬声器204来输出。通过箭头标记205来表示从扬声器204得出的输出。

声学回声消除器210还接收由近端麦克风202捕获的麦克风信号，由y(t)表示。回声消除器210基于参考x(t)将回声消除过程应用至麦克风信号y(t)。信号x(t)和y(t)是由多个数字采样形成的数字音频信号。

麦克风信号y(t)具有由拾取扬声器输出205的一部分的麦克风202所产生的回声分量。在近端语音活动的间隔期间(即，当近端用户102在说话时)，麦克风信号y(t)也具有语音分量，即用户的语音信号201。由回声消除器201的回声衰减块210b经由音频接口206来接收麦克风信号y(t)。

以下构成了回声消除器210的回声路径：从扬声器204到麦克风202的声学路径，加上从信号链中回声消除器210在其处取得参考信号x(t)的点到信号链中由回声消除器210在其处接收麦克风信号y(t)的点的信号链的部分。

回声消除器210的回声路径估计块210a将所接收的麦克风信号y(t)与参考信号x(t)进行比较，以便生成对回声路径211的估计。回声路径估计211对以下内容进行建模：从扬声器204到麦克风202的声学路径，加上例如由音频接口206在回声路径中应用至远端语音信号x(t)和/或近端麦克风信号y(t)的任何信号处理。

回声消除器210的回声衰减器块210b基于回声路径估计211来向麦克风信号y(t)应用回声衰减。这降低了麦克风信号y(t)中的回声分量相对于语音分量的电平。例如，回声衰减器块210b可以应用回声相减、回声抑制或两者的组合。如在本领域中已知的，回声相减指的是其中回声路径估计211用于生成从麦克风信号y(t)减去的回声分量的估计的回声消除形式。回声抑制指的是这样一种形式的回声消除，其中回声路径估计211用于确定不同频带中的相应增益，所述相应增益被应用于麦克风信号y(t)以使得回声分量相对于语音分量衰减。

经由网络106向远端设备114发送已经向其应用了回声消除的麦克风信号y(t)。在一些情况下，其可以受到由近端客户端109进行的额外处理，例如噪声抑制、数字增益、和/或分组化。

系统增益估计块218结合回声路径估计211、本地客户端幅度响应213、和远端反馈214，以用在上文中所描述的方式来估计系统增益谱215。在近端用户102与远端用户112之间的通话期间，系统增益估计块216实时地连续更新估计的系统增益谱215。

理论上，完美的回声消除器将来自麦克风信号y(t)的回声分量完全消除。因此，理论上，在近端和远端两者处的回声消除都可以避免其自身中的啸叫。然而，在实践中，例如由回声路径中的非线性导致的回声消除过程中的不完美在y(t)中留下了一些残余回声。的确，“不完美的”回声消除器有时可以是期望的，因为其使用较少的处理资源，或者因为过于激进的回声消除而可能导致感知质量的降低。

因此，由于不完美，即使在远端利用回声消除器210和类似的回声消除，系统在一些情况下仍然易于啸叫。特别地，在近端用户102和远端用户112之间的通话中，发送至远端的残余回声可以由远端扬声器输出、由远端麦克风拾取、并且发送回近端设备104以用于经由扬声器204输出，从而潜在地导致啸叫。

为了避免麦克风信号y(t)中的残余回声导致啸叫，当其被实时更新时，峰值跟踪块220实时地跟踪系统增益谱215中的数量N个最高峰值(局部极大值)，并且均衡器块218应用N个均衡器滤波器，其中每个具有中心在这些N个峰值中的不同峰值处的增益凹陷。

在这里，目的不是要使谱完全变平。由于谱包含来自从扬声器到麦克风之间的回声路径的贡献并且包括麦克风的效果，因此使谱完全变平不一定使得谱的形状在收听者的耳朵处变平，这潜在地导致不自然的声音并因此降低了感知质量。

由此，在应用均衡的间隔期间，仅仅通过分别在对应的频率处应用N个均衡器凹陷来抑制最主要的N(≥1)个(即，N个最高的)峰值，从而降低对信号的影响。每个增益凹陷仅为与避免啸叫所需的深度和宽度。即，均衡器尽可能少地修改信号。

可以动态地确定数量N(即，应用至该信号的均衡器凹陷的数量)，以使得仅仅足够高而有啸叫风险的这些峰值衰减。例如，可以识别高于增益阈值的任何峰值并且仅使得这些峰值衰减。因为只要没有高于阈值的增益峰值，就不应用均衡。

在使用增益阈值的地方，在一些情况下，将高于增益阈值的每个峰值的电平都降低至大体上与增益阈值匹配(即，匹配或大约匹配)的电平。

作为另一示例，可以将N个最高峰值的电平降低至大体上与第N+1个最高峰值的电平匹配的电平，以使得一旦已经应用了均衡器，N+1个最高峰值大体上具有相同的电平。

例如，每个均衡器滤波器可以是具有如在公式1中所定义的传递函数的双二阶滤波器：

为了处理多个峰值(N＞1)，级联N个这样的均衡器，直到已经抑制了足够数量的系统增益峰值为止。即，N个这样的均衡器可以串联地应用至x(t)。方程1中的术语“z”被定义为：

z＝r*exp(j*ω)

即，H(z)在频域中描述了系统。

在这里，b0、b1、b2、a2和a3是双二阶滤波器的传递函数的参数。即，每个均衡滤波器是通过一组5个均衡器滤波器系数来定义的——因此总共有5N个均衡器系数。基于跟踪块220生成每个均衡器滤波器的滤波器系数，并且当系统增益谱215改变时(例如，当N个峰值跨频谱移动或变得被增加幅度的其他峰值取代时)被实时更新。

图3示出了均衡器块218的两个这样的均衡器218a、218b，其串联连接。每个均衡器根据在实时跟踪块220中生成和更新的相应的均衡器参数集306a、306b应用相应的均衡滤波器。然而，这纯粹是示例性的，并且可以适当地将更多或更少的单个均衡器应用至系统增益谱的当前状态。即，可以基于跟踪来动态地改变均衡器的数量。

图4A和4B示出了一个这样的均衡滤波器的幅度和相位谱，其在频率fc(中心频率)处应用具有-6dB增益深度的增益凹陷。该凹陷在-3dB增益处具有宽度△f，如图所示。在该示例中，fc是采样速率的1/8倍并且宽度△f是麦克风信号y(t)的采样速率的1/32倍。

单位为Hz的信号y(t)的采样速率被定义为每秒的采样数。要注意的是，图4A和4B示出了采样速率被标准化为2的标准化频率，并且因此奈奎斯特频率被标准化为1。因此，fc在标准化频率处被示出为0.25。同样，还要注意的是，y轴在图4A中使用对数刻度。

公式1仅是一种合适的滤波器类型的示例，并且例如可以通过使用期望的滤波器的参数描述的双线性变换滤波器设计来发现滤波器系数。然而，可以使用不同类型的滤波器——参数的和非参数的两者。

上文描述的均衡器滤波器具有凹陷增益类型，并且被级联(即，均衡器滤波器被串联地应用)，其中，针对均衡器中的每一个，输出是在输入与来自均衡器的经滤波的输出之间的权重。这允许均衡滤波器的效果更加温和。可以通过同步来考虑滤波器中的任何延迟。

另一可能性是应用并联应用的带通型均衡器滤波器，其输出被缩放并且被加在一起。作为示例在图5的功能框图中示出，其示出了并联连接的三个均衡器218a、218b、218c(这个数量纯粹是示例性的)，每个被配置为将相应的带通滤波器514a、514b、514c并联地应用至远端音频信号的相应副本。缩放经带通滤波的版本，如由每个均衡器218a、218b、218c的相应缩放函数516a、516b、516c所表示的，并且组合经缩放的输出以生成x(t)，如由求和函数512所表示的。通过降低例如第二均衡器218b的输出的整体电平，可以降低谱的中部附近的电平x(t)。如将显而易见的，具有更大数量的并联的均衡器，每个应用更窄的带通提供了更高级别的控制。

在图3的示例中，在播出侧(即，应用至接收信号x(t)，在其经由扬声器204播出之前)并且在回声路径之前(即在已经应用均衡之后取得参考信号)应用均衡器块218。

可替代地，可以在回声路径中应用均衡块218；即，在AEC从扬声器信号中取得其参考信号副本之后并且在消除了麦克风信号y(t)中的回声之前。在该情况下，一但修改了均衡器设置就可以校正估计的回声路径，以立即从所应用的均衡器的改变预期回声路径改变。

当均衡器减小218在扬声器的谐振频率处的增益时，在播放侧上应用均衡器218可以潜在地改善播出信号x(t)。针对由房间引入的谐振频率也是这样的情况，因为即使均衡器是基于麦克风所记录的东西的(由于系统增益215对回声路径估计211的依赖性)，收听者耳朵的位置也将有可能受到相同谐振的影响。然而，这不是必要的，并且一般而言，均衡器218可以被应用在信号链中的任何地方。例如，可以在发送之前在近端设备104处、在回声路径中或在回声路径之后、或者在远端设备112处对麦克风信号y(t)应用全部或部分均衡。

如所指示的，无论在信号链中的什么地方应用，均衡都被连续地应用。在该上下文中，“连续地”指的是在时间间隔上，持续整个间隔。例如，持续通话或持续通话的部分的持续时间。该间隔可以包括语音活动的间隔以及语音不活动的间隔，语音活动的间隔即当近端用户102在麦克风信号y(t)的情况下说话时，当远端用户在输出信号x(t)的情况下说话时；语音不活动的间隔即当近端用户针对y(t)不说话时；当远端用户112针对x(t)不说话时。例如，时间间隔可以是系统增益谱215中的至少一个峰值保持在增益阈值之上的间隔。

可以以每帧为基础来执行在上文中所描述的实时信号处理。帧，例如可以在5到20毫秒的长度之间并且出于噪声抑制的目的而被划分成谱仓，例如，每帧32到256个谱仓之间。每个谱仓包含关于在某一频率处或在某一频带中的信号分量的信息。为了处理宽带信号，范围从0到8kHz的频率被处理以被划分成等宽度的64或32个频带。不需要频带具有相等的宽度——它们例如可以被调整以更好地反映例如由Bark阶(scale)完成的人听力的关键频带。

特别地，针对语音，可以实时处理每一帧并且每一帧从系统增益块218接收针对每一频率仓对系统增益的经更新的估计。因此，使用特定于该帧和该仓的频率的对系统增益的估计来处理每个仓。然而，这不是必要的并且其他类型的实时处理在该公开的范围之内。

在该上下文中，“实时”指的是在均衡器218对(实际)系统增益中的改变做出反应时没有可感知的延迟。例如，在实际系统增益的改变与均衡器做出反应之间的延迟可以是大约20毫秒或更少，所述实际系统增益的改变例如是由引起物理回声路径中的改变的设备104的移动所引起的。这可以通过每帧地更新估计的系统增益谱215和均衡器218的设置来实现，尽管这不是必要的。例如，在一些情况下，均衡器设置可以仅响应于检测到系统增益的显著改变而被更新——这意味着如果在系统增益谱中仅存在很小(可忽略的)改变(例如，增益和/或峰值频率的改变低于相应的阈值)，则在超过例如20ms的间隔中不会发生更新，但是一旦实质性地改变发生(例如，高于阈值)，则均衡器滤波器就在例如20ms或更少时间内响应。

本主题的第一方面涉及一种降低声学系统中的声学反馈的方法，所述声学系统包括至少一个音频设备，所述方法包括：生成所述声学系统的估计的系统增益谱，其中，所述估计的系统增益谱被实时更新以对所述声学系统中的改变进行响应；随着所述估计的系统增益谱被实时更新而跟踪所述估计的系统增益谱中的峰值增益；基于所述跟踪，识别所述估计的系统增益谱在其处当前展示出峰值增益的至少一个频率；以及基于对所述至少一个频率的所述识别，控制音频均衡器以应用至要经由所述音频设备的音频输出设备播出的第一包含语音的信号和/或经由所述音频设备的音频输入设备接收的第二包含语音的信号，控制均衡滤波器以降低其谱中包括所识别的频率的部分中的包含语音的信号的电平，其中，所述均衡滤波器贯穿所述包含语音的信号中的语音活动和语音不活动两者的间隔而被连续地应用。

在实施例中，可以通过将所述第一包含语音的信号与所述第二包含语音的信号进行比较来生成所述估计的系统增益谱。

该方法可以包括将回声消除过程应用于所述包含语音的信号中的至少一个包含语音的信号，以使得由所述声学系统中的回声路径创建的至少一个信号的回声分量衰减，由此所述均衡滤波器引起在所述谱的所述部分中的所述第一信号和/或所述第二信号中剩余的任何残余回声分量的电平降低。

要注意的是，这不意味着必须将均衡应用于回声消除器的输出(尽管这不被排除在外)——可以在回声消除器之前应用均衡器，并且仍然引起与在没有均衡器的情况下谱的该部分的中的其电平相比，谱的该部分中的残余回声的电平的降低。例如，可以将回声消除应用于麦克风信号，并且可以在信号由扬声器输出之前、在回声消除器的回声路径之前或之中将均衡器应用于该信号。

所述估计的系统增益谱可以包括对由所述回声消除过程所生成的所述回声路径的估计。

该方法可以还包括：接收与应用于所述包含语音的信号中的至少一个包含语音的信号的至少一个信号处理过程相关的信息，和/或接收与另一设备处的声学条件相关的信息，其中，所述第一包含语音的信号是在所述音频设备处从所述另一设备接收的；其中，所接收的信息用于生成所述估计的系统增益谱。

例如，可以在所述音频设备、或所述另一音频设备处应用至少一个信号处理过程。

多个音频均衡器可以被并联地应用，其中，每个均衡器将相应的带通均衡器滤波器应用于第一信号和/或所述第二信号的一版本；其中，经带通滤波的版本可以被缩放和组合，以在所述谱的所述部分中提供具有降低的电平的语音信号，所述降低是通过基于所述跟踪来调节所述缩放而获得的。

所述方法可以由所述音频设备例如由在所述音频设备的处理器上执行的代码来实现。

所述音频均衡器是参数均衡器，并且控制所述音频均衡器的步骤包括基于所述跟踪来调整所述均衡器的至少一个参数，以降低所述谱的所述部分中所述包含语音的信号的电平。

即，控制步骤可以包括对预先设计的均衡滤波器执行参数控制。要注意的是，可以以任何顺序应用缩放和滤波，或者可以将缩放并入到带通滤波器本身中。

控制音频均衡器的步骤可以包括：生成用于降低所识别的频率处的音频信号的电平的至少一个均衡参数，其中，所述均衡器可以根据均衡参数将均衡器滤波器应用于包含语音的信号，并且由此降低在所述谱的该部分中的包含语音的信号的电平。

所述均衡器是基于在所识别的频率处的峰值增益和/或在所识别的频率处的所述估计的系统增益谱中的峰值宽度而被控制的。

所述均衡器滤波器可以具有至少一个凹陷，其可以以所识别的频率为中心。

例如，所述凹陷具有基于在所识别的频率处的所述峰值增益所确定的深度和/或基于在所识别的频率处的所述峰值宽度所确定的宽度。

所述均衡器滤波器可以是双二阶滤波器。

所述识别步骤包括基于所述跟踪来识别由所述系统增益谱当前展示的复数数量个最高峰值增益，以及这些峰值增益中的每个峰值增益的相应频率；其中，所述数量的均衡器滤波器被应用于所述包含语音的信号，以每个由相应的音频均衡器来降低在这些频率处所述包含语音的信号的电平。

例如，N个均衡器可以降低在这些频率中的每一频率处的包含语音的信号的电平，以使得经降低的电平大体上与系统增益谱中的第(N+1)个最高增益峰值的电平相匹配。

可替代地或另外地，该方法可以包括识别所述系统增益谱中当前高于增益阈值的所有峰值增益，以及这些峰值增益中每个峰值增益的频率；其中，由相应的音频均衡器将相应的均衡器滤波器应用于所述第一包含语音的信号和/或所述第二包含语音的信号，以针对所识别的每个频率，降低所述谱中包括所述频率的相应部分中的所述包含语音的信号的电平。

所述均衡器滤波器可以降低在谱的所述部分中的每个部分中的包含语音的信号的电平，以使得经降低的电平大体上与增益阈值相匹配。

所述均衡滤波器可以是与应用于所述第一包含语音的信号和/或所述第二包含语音的信号的任何噪声消除独立地被应用的。

例如，可以独立于均衡器滤波器并且独立于估计的系统增益谱将噪声消除应用于第一噪声信号和/或第二噪声信号。

本主题的第二方面涉及一种用于在声学系统中使用的音频信号处理设备，所述设备包括：音频输出设备；音频输入设备；一个或多个处理器；能够由所述一个或多个处理器访问的存储器，所述存储器被配置为保存可执行的音频信号处理代码，其中，所述音频信号处理代码被配置为当由所述一个或多个处理器执行时，引起以下操作：生成所述声学系统的估计的系统增益谱，其中，所述估计的系统增益谱被实时更新以对所述声学系统中的改变进行响应；随着所述估计的系统增益谱被实时更新而跟踪所述估计的系统增益谱中的峰值增益；基于所述跟踪，识别所述估计的系统增益谱在其处当前展示出峰值增益的至少一个频率；以及基于对所述至少一个频率的所述识别，控制音频均衡器以应用至要经由音频输出设备播出的第一包含语音的信号和/或经由音频输入设备接收的第二包含语音的信号，控制均衡滤波器以降低其谱中包括所识别的频率的部分中的包含语音的信号的电平，其中，所述均衡滤波器贯穿所述包含语音的信号中的语音活动和语音不活动两者的间隔而被连续地应用。

在第二方面的实施例中，该代码还可以被配置为实现第一方面的实施例的特征中的任何一个特征。

根据本主题的第三方面，一种计算机程序产品，其包括可执行代码，所述可执行代码被存储在计算机可读存储介质上，并且被配置为当被执行时实现在本文中所公开的设备/系统功能的任何方法。

通常而言，可以使用软件、固件、硬件(例如，固定逻辑电路)、或这些实现的组合来实现在本文中所描述的任何功能。如在本文中所使用的术语“块”、“模块”、“功能”、“组件”和“逻辑”——例如图2和3中的功能块——通常表示软件、固件、硬件、或其组合。在软件实现的情况下，块、模块、功能、或逻辑表示当在处理器(例如，CPU或多个CPU)上执行时执行指定任务的程序代码。所述程序代码可以存储在一个或多个计算机可读存储设备中。在下文中所描述的技术的特征是与平台无关的，意思是上述技术可以在具有多种处理器的多种商业计算平台上实现。

例如，用户设备还可以包括使得用户设备的硬件执行操作的实体(例如，软件)，例如处理器功能块等。例如，用户设备可以包括计算机可读介质，计算机可读介质可以被配置成维护使得用户设备且更具体地，用户设备的操作系统和关联的硬件执行操作的指令。从而，上述指令用于配置操作系统和关联的硬件以执行操作且以此方式导致操作系统和关联硬件的变换以执行功能。上述指令可以由计算机可读介质通过各种不同的配置提供给用户设备。

计算机可读介质的一个这样的配置是信号承载介质，并且因此被配置为例如经由网络向计算设备发送指令(例如，作为载波)。计算机可读介质还可以被配置为计算机可读存储介质并且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)、只读存储器(ROM)、光盘、闪速存储器、硬盘存储器、以及可以使用磁性的、光学的、以及其他技术来存储指令和其他数据的其他存储器设备。

尽管已经用特定于结构特征和/或方法动作的语言描述了本主题，但是，应当理解的是，在所附权利要求中所定义的主题不一定限于在上文中所描述的具体特征或动作。相反，在上文中所描述的具体特征和动作是作为实现权利要求的示例形式而公开的。

Claims

1.一种降低声学系统中的声学反馈的方法，所述声学系统包括至少一个音频设备，所述方法包括：

生成所述声学系统的估计的系统增益谱，其中，所述估计的系统增益谱被实时更新以对所述声学系统中的改变进行响应；

随着所述估计的系统增益谱被实时更新而跟踪所述估计的系统增益谱中的峰值增益；

基于所述跟踪，识别所述估计的系统增益谱在其处当前展示出峰值增益的至少一个频率；以及

基于对所述至少一个频率的所述识别，控制音频均衡器以应用至要经由所述音频设备的音频输出设备播出的第一包含语音的信号和/或经由所述音频设备的音频输入设备接收的第二包含语音的信号，控制均衡滤波器以降低其谱中包括所识别的频率的部分中的包含语音的信号的电平，其中，所述均衡滤波器贯穿所述包含语音的信号中的语音活动和语音不活动两者的间隔而被连续地应用。

2.根据权利要求1所述的方法，其中，通过将所述第一包含语音的信号与所述第二包含语音的信号进行比较来生成所述估计的系统增益谱。

3.根据权利要求1或2所述的方法，还包括：

将回声消除过程应用于所述包含语音的信号中的至少一个包含语音的信号，以使得由所述声学系统中的回声路径创建的至少一个信号的回声分量衰减，由此所述均衡滤波器引起在所述谱的所述部分中的所述第一信号和/或所述第二信号中剩余的任何残余回声分量的电平降低。

4.根据权利要求3所述的方法，其中，所述估计的系统增益谱包括对由所述回声消除过程所生成的所述回声路径的估计。

5.根据前述权利要求中任何一项所述的方法，还包括：

接收与应用于所述包含语音的信号中的至少一个包含语音的信号的至少一个信号处理过程相关的信息，和/或

接收与另一设备处的声学条件相关的信息，其中，所述第一包含语音的信号是在所述音频设备处从所述另一设备接收的；

其中，所接收的信息用于生成所述估计的系统增益谱。

6.根据前述权利要求中的任何一项所述的方法，其中，多个均衡器被并联地应用，其中，每个均衡器将相应的带通均衡器滤波器应用于第一信号和/或所述第二信号的一版本；

其中，经带通滤波的版本可以被缩放和组合，以在所述谱的所述部分中提供具有降低的电平的语音信号，所述降低是通过基于所述跟踪来调节所述缩放而获得的。

7.根据前述权利要求中的任何一项所述的方法，其中，所述方法是通过所述音频设备实现的。

8.根据前述权利要求中的任何一项所述的方法，其中，所述音频均衡器是参数均衡器，并且控制所述音频均衡器的步骤包括基于所述跟踪来调整所述均衡器的至少一个参数，以降低所述谱的所述部分中所述包含语音的信号的电平。

9.一种计算机程序产品，其包括可执行代码，所述可执行代码被存储在计算机可读存储介质上，并且被配置为当被执行时实现前述或以下权利要求中的任何一项的方法。

10.一种用于在声学系统中使用的音频信号处理设备，所述设备包括：

音频输出设备；

音频输入设备；

一个或多个处理器；

能够由所述一个或多个处理器访问的存储器，所述存储器被配置为保存可执行的音频信号处理代码，其中，所述音频信号处理代码被配置为当由所述一个或多个处理器执行时，引起以下操作：

基于对所述至少一个频率的所述识别，控制音频均衡器以应用至要经由所述音频输出设备播出的第一包含语音的信号和/或经由所述音频输入设备接收的第二包含语音的信号，控制均衡滤波器以降低其谱中包括所识别的频率的部分中的包含语音的信号的电平，其中，所述均衡滤波器贯穿所述包含语音的信号中的语音活动和语音不活动两者的间隔而被连续地应用。

11.根据前述权利要求中的任何一项所述的方法，其中，所述均衡器是基于在所识别的频率处的峰值增益和/或在所识别的频率处的所述估计的系统增益谱中的峰值宽度而被控制的。

12.根据权利要求11所述的方法，其中，所述均衡器滤波器具有至少一个凹陷，所述凹陷以所识别的频率为中心；并且

其中，所述凹陷具有基于在所识别的频率处的所述峰值增益所确定的深度和/或基于在所识别的频率处的所述峰值宽度所确定的宽度。

13.根据前述权利要求中的任何一项所述的方法，

其中，所述识别步骤包括基于所述跟踪来识别由所述系统增益谱当前展示的复数数量个最高峰值增益，以及这些峰值增益中的每个峰值增益的相应频率；

其中，所述数量的均衡器滤波器被应用于所述包含语音的信号，以每个由相应的音频均衡器来降低在这些频率处所述包含语音的信号的电平。

14.根据前述权利要求中的任何一项所述的方法，包括识别所述系统增益谱中当前高于增益阈值的所有峰值增益，以及这些峰值增益中每个峰值增益的频率；

其中，由相应的音频均衡器将相应的均衡器滤波器应用于所述第一包含语音的信号和/或所述第二包含语音的信号，以针对所识别的每个频率，降低所述谱中包括所述频率的相应部分中的所述包含语音的信号的电平。

15.根据前述权利要求中的任何一项所述的方法，其中，所述均衡滤波器是与应用于所述第一包含语音的信号和/或所述第二包含语音的信号的任何噪声消除独立地被应用的。