CN103428385B

CN103428385B - 用于处理音频信号的方法及用于处理音频信号的电路布置

Info

Publication number: CN103428385B
Application number: CN201310281852.8A
Authority: CN
Inventors: C·耶姆德吉; N·埃文斯; C·博热安; L·莱波卢
Original assignee: Intel Mobile Communications GmbH
Current assignee: Intel Deutschland GmbH
Priority date: 2012-05-11
Filing date: 2013-05-10
Publication date: 2017-12-26
Anticipated expiration: 2033-05-10
Also published as: CN103428385A; US20130301840A1; US9768829B2

Abstract

提供一种用于处理音频信号的方法，其中包括：输出音频信号；经由第一接收通路来接收作为第一接收音频信号的输出音频信号；经由第二接收通路来接收作为第二接收音频信号的输出音频信号；基于第一接收音频信号和第二接收音频信号来确定回波抑制增益；以及基于第一接收音频信号和回波抑制增益来对音频信号的回波抑制进行滤波。

Description

用于处理音频信号的方法及用于处理音频信号的电路布置

相关申请的交叉引用

本申请要求2012年5月11日提交的美国临时专利申请序号61/645652的优先权，通过引用将其完整地结合到本文中。

技术领域

本公开涉及用于处理音频信号的方法以及用于处理音频信号的电路布置。

背景技术

在物理学上，回波可定义为波在其周围环境中的反射所产生的复制品。这种现象可在话音远程通信中发生。在电话终端中，声回波起因于终端的喇叭与话筒之间的耦合。因此，电话的话筒不仅包含有用的语音信号，而且还包含回波。如果在话筒通路上没有进行处理，则回波信号以及近端语音信号被传送给远端说话者，并且远端说话者听到他/她自己的声音的延迟版本。当回波信号的电平较高并且当原始信号与其回波之间的延迟较大时，因听到他/她自己的声音引起的烦恼增加。

为了保证良好的语音质量，在传输能够进行之前，可在话筒通路上实现某种处理。近年来主要研究声回波消除算法。声回波消除的方式可包括自适应滤波器，之后接着回波后滤波器。自适应滤波器产生声通路的复制品。这个回波通路估计则用于估计由话筒来拾取的回波信号。实际上，由于回波通路与其估计之间的失配，一些残余回波通常存在于自适应滤波器的输出。后滤波器常常用于使回波听不见。回波后滤波器可包括通过自适应回波消除被增益施加到误差信号的衰减。为了更好的双向通话性能，这个衰减能够在子带或频域中计算。然而，单通道回波消除的性能仍然可能受到限制，因为通常存在仅回波周期期间的回波抑制与双向通话周期期间的近端语音的低等级失真之间的折衷。

移动终端在历史上采用一个话筒来设计。因此，移动终端中使用的回波后滤波解决方案基于一个话筒观察来设计和优化。另外，在低近端信号回波比(即，与近端语音相比的高回波)的情况下，这些解决方案可具有受限性能。这个受限性能可引起双向通话周期期间的经处理的近端语音信号中的高失真以及因此产生不良通信质量。

此外，单通道回波后滤波问题至今已经着手处理了数十年，并且对于与回波后滤波器的解决方案有关的主要改进看来似乎没有更大空间，特别是对于计算复杂度由于某种原因受到限制的移动终端情况(例如与视频会议终端相比)。

因此，回波后滤波或者回波抑制的有效方法是合乎需要的。

发明内容

附图说明

附图中，相似的参考标号在不同视图中一般全表示相同的部件。附图不一定按比例绘制，重点而是一般在于示出本发明的原理。在以下描述中，参照以下附图来描述各个方面，其中：

图1是示出用于处理音频信号的方法的流程图。

图2是示出用于处理音频信号的方法的流程图。

图3示出用于处理音频信号的电路布置。

图4示出用于处理音频信号的电路布置。

图5示出遇到双通道回波的示范系统。

图6示出匹配声源与系统的换能器之间的物理交互的信号模型。

图7(a)示出喇叭与话筒之间的声通路的频率响应的示例。

图7(b)示出仿真头的嘴与话筒之间的频率响应的示例。

图8示出具有回波消除的用于处理音频信号的电路。

图9示出具有回波消除的用于使用一个自适应滤波器来处理音频信号的电路。

图10示出包括用于回波后滤波的装置以及具有换能器的系统的电路。

图11示出包括用于回波后滤波的备选装置以及具有换能器的系统的电路。

图12(a)示出仅回波和双向通话周期期间对残余回波功率谱密度(PSD)的估计误差。

图12(b)示出回波损耗增强(ERLE)曲线和语音衰减(SA)曲线。

图12(c)示出双向通话期间的倒谱距离的量度。

具体实施方式

以下具体实施方式参照附图，通过举例说明，附图示出可实施本发明的具体细节和方面。充分详细地描述这些方面，以便使本领域的技术人员能够实施本发明。可利用其它方面，并且可进行结构、逻辑和电气变更，而没有背离本发明的范围。各个方面不一定相互排斥，因为一些方面能够与一个或多个其它方面相结合以形成新的方面。

改进移动终端中的语音质量的方式可包括使用多话筒终端。多话筒终端可有利地提供关于近端声环境的空间信息。

在以下示例的一部分中，具体解决双通道话筒回波问题。自适应回波消除问题仍然可采用传统(或标准)自适应滤波器、例如归一化最小均方(NLMS)滤波器来解决，具体来说可使用两个自适应滤波器(即，各话筒通路一个)。

可提供双通道回波后滤波。

为此，后滤波器可使用多通道信息来计算对误差信号之一应用的功率谱密度(PSD)和回波抑制增益，以便实现残余回波抑制。在各个实施例中，多通道架构可以不一定要求任何波束形成，并且与传统(或标准)单通道回波后滤波相比可保持适度计算复杂度，同时改进回波抑制性能。

可使用任何波束形成方法，以便改进空间信息。

双通道后滤波器可扩展成使得与一个而不是两个自适应滤波器配合使用。自适应滤波器可放置在其上发生回波后滤波的话筒通路上。这可降低回波处理方案的计算复杂度，同时获得双通道架构的优点。

一般来说，可提供如图1所示用于处理音频信号的方法。

图1示出流程图100。

流程图100示出用于处理音频信号的方法。

在101，输出音频信号。例如，音频信号可经由喇叭来输出。

在102，输出音频信号经由第一接收通路作为第一接收音频信号来接收。例如，音频信号可经由第一话筒来接收。

在103，输出音频信号经由第二接收通路作为第二接收音频信号来接收。例如，输出音频信号可经由第二话筒来接收。

在104，回波抑制增益基于第一接收音频信号和第二接收音频信号来确定。

在105，音频信号的回波抑制基于第一接收音频信号和回波抑制增益来滤波。

在这个上下文中，术语“被忽略”可表示不考虑。术语“被确定”可表示例如计算或估计或者测量。

换言之，可提供处理音频信号、或者更具体来说执行回波消除和回波抑制的方法。该方法可包括来自换能器、例如产生声音的喇叭的输出信号，其中声音则将反射回到装置并且由此产生回波，回波可由话筒连同预期信号一起来捕获以便输入独立通路供处理。分离通路之一中的组合信号(它可以是预期信号、输出信号和噪声的组合)可用于确定或者得到值以便对另一个通路中的组合信号使用，使得可得到所产生的信号。所产生的信号可具有被抑制的回波(来自输出信号)，并且可与预期信号相似。

基于第一音频信号所确定的回波抑制增益可包括经滤波以产生第一回波误差信号的第一音频信号的回波、基于第一回波误差信号所确定的回波抑制增益以及基于第一回波误差信号所滤波的音频信号的回波抑制。

回波抑制增益例如可基于第一接收信号(例如在第一话筒)的残余回波功率谱密度的估计以及第一接收信号的信号回波比的估计来确定。

基于第二音频信号所确定的回波抑制增益可包括经滤波以产生第二回波误差信号的第二音频信号的回波以及基于第二回波误差信号所确定的回波抑制增益。

第一接收信号的残余回波功率谱密度(PSD)以及第一接收信号的信号回波比例如基于表征(例如在频域)第二回波误差信号与已经输出的音频信号的相关性相对于第一回波误差信号与已经输出的音频信号的相关性的相对传递函数的估计来确定。

第一接收信号的残余回波功率谱密度以及第一接收信号的信号回波比例如还可基于表征(例如在频域)第二回波误差信号与语音信号的相关性对第一回波误差信号与语音信号的相关性的相对传递函数的估计来确定。

回波的滤波可包括自适应回波滤波。例如，通过从第一接收音频信号中减去存在于第一接收音频信号的回波的第一估计，来确定第一回波误差信号。类似地，例如，通过从第二接收音频信号中减去存在于第二接收音频信号的回波的第二估计，来确定第二回波误差信号。

音频信号的回波抑制的滤波可包括忽略第二接收音频信号。

输出音频信号可包括经由喇叭来输出音频信号。

经由第一接收通路来接收作为第一音频信号的音频信号例如包括经由第一话筒来接收音频信号，以及经由第二接收通路来接收作为第二接收音频信号的输出音频信号例如包括经由第二话筒来接收输出音频信号。

该方法还可包括基于第一接收音频信号和第二接收音频信号所确定的残余回波功率。回波抑制增益可基于残余回波功率来确定。

多通道音频信号信息例如包括接收音频信号的多通道回波滤波信息。

回波的滤波例如包括自适应回波滤波。

输出音频信号可包括经由喇叭来输出音频信号。

接收音频信号例如至少经由第一话筒和第二话筒来接收。

如图1的流程图100所示的方法还可包括音频信号和经过波束形成的回波抑制之后的音频信号中的至少一个。

在这个上下文中，术语“经波束形成”或“波束形成”可一般表示用于定向信号传输或接收的信号处理技术。

图2示出流程图200。

流程图200示出用于处理音频信号的方法。

在201，可输出音频信号。例如，音频信号可经由喇叭来输出。

在202，回波抑制增益可基于表示经由不同接收通路所接收的接收音频信号的多通道音频信号信息来确定。例如，接收音频信号可至少经由第一话筒和第二话筒来接收。

在203，音频信号的回波抑制可基于表示经由单接收通路所接收的接收音频信号的单通道音频信号信息和所确定回波抑制增益来滤波。所确定回波抑制可基于多通道音频信号信息来确定。

多通道音频信号信息可包括接收音频信号的回波滤波信息或者接收音频信号的多通道回波滤波信息。回波的滤波可包括自适应回波滤波。

如图2的流程图200所示的方法还可包括音频信号和经过波束形成的回波抑制之后的音频信号中的至少一个。

一般来说，可提供如图3所示用于处理音频信号的电路布置。

图3示出用于处理音频信号的电路布置300。

用于处理音频信号的电路布置300包括：音频信号输出301，用于输出音频信号；第一接收通路302，配置成接收作为第一接收音频信号的输出音频信号301；第二接收通路303，配置成接收作为第二接收音频信号的输出音频信号301；确定器304，配置成基于第一接收音频信号和第二接收音频信号来确定回波抑制增益；以及回波抑制滤波器305，耦合到第一接收通路302和确定器304，配置成基于第一接收音频信号和回波抑制增益来对音频信号的回波抑制进行滤波。

例如，当基于第一回波误差信号来对音频信号进行滤波时，回波抑制滤波器305可配置成忽略第二接收音频信号。可如以上分别对于术语“被忽略”和“被确定”相似地定义术语“忽略”和“确定”。

电路布置300例如执行如图1所示的方法。

用于处理音频信号的电路布置300还可包括至少一个回波滤波器、例如至少一个自适应回波滤波器，该回波滤波器配置成对于第一接收音频信号进行滤波，以便产生第一回波误差信号。确定器304可配置成基于第一回波误差信号来确定回波抑制增益，以及回波抑制滤波器305可配置成基于第一回波误差信号来对音频信号的回波抑制进行滤波。

电路布置300还可包括至少一个回波滤波器，该回波滤波器配置成对于第二音频信号进行滤波，以便产生第二回波误差信号。确定器304可配置成基于第二回波误差信号来确定回波抑制增益。

例如，至少一个回波滤波器可包括自适应回波滤波器。

电路布置300还可包括连接到音频信号输出301的喇叭。

电路布置300还可包括连接到第一接收通路302的第一话筒以及连接到第二接收通路303的第二话筒。

电路布置300还可包括第二确定器，该第二确定器配置成基于第一接收音频信号和第二接收音频信号来确定残余回波。第二确定器可配置成基于第二接收音频信号来确定第二回波抑制增益。第二确定器可使用第一接收音频信号和第二接收音频信号来确定第二回波抑制增益。两个确定器可使用经由不同话筒所接收的音频信号。此外，确定器和第二确定器的输出可施加到波束形成电路。

电路布置300还可包括波束形成器，该波束形成器配置成对于音频信号和/或回波抑制滤波音频信号进行波束形成。例如，波束形成器可用于对所有多通道接收信号进行波束形成。

图4示出用于处理音频信号的电路布置400。

用于处理音频信号的电路布置400可包括：音频信号输出401，用于输出音频信号；多个接收通路402，耦合到音频信号输出401；确定器403，耦合到多个接收通路402，并且配置成基于表示经由接收通路402所接收的多个接收音频信号的多通道音频信号信息来确定回波抑制增益；以及回波抑制滤波器404，耦合到多个接收通路402的至少一个和确定器403，并且配置成基于表示经由单接收通路所接收的接收音频信号的单通道音频信号信息和回波抑制增益来对音频信号进行滤波。

电路布置400例如执行如图2所示的方法。

例如，多通道音频信号信息可包括多个音频信号的回波滤波信息或者多个音频信号的多通道回波滤波信息。

回波滤波器可包括自适应回波滤波器。

电路布置400还可包括连接到音频信号输出401的喇叭。

电路布置400还可包括：第一话筒，连接到多个接收通路402的一个接收通路；以及第二话筒，连接到多个接收通路402的另一个接收通路。

电路布置400还可包括波束形成器，该波束形成器配置成对于音频信号和/或回波抑制滤波音频信号进行波束形成。

应当注意，在图1所示方法的上下文中所述的方面和特征类似地对于图3所示方法以及图2和图4所示电路是有效的，反过来也是一样。

可提供回波和增益的计算规则。另外，可提供回波和增益的确定的软件实现或者混合实现(部分通过硬件以及部分通过软件)。

下面更详细描述流程图100所示方法以及电路布置300的示例。

下面描述遇到双通道回波的示范系统。

图5示出系统的示意表示。

图5中示出配备有一个喇叭501和两个话筒502、503的终端500的示例。话筒观察之一可被理解为主要观察，而另一个被理解为辅助观察。如图5所示，远端说话者声音由喇叭501向近端说话者504播放。这个喇叭信号的一部分可在近端环境505中反射，并且可在稍后由两个话筒502、503作为回波506来拾取。喇叭501与各话筒之间的耦合可定义一个声通路：两个话筒502、503的两个声通路。

话筒502、503可记录近端说话者声音或语音信号506以及最终记录背景噪声508。近端说话者声音507还可在由话筒502、503拾取之前在环境505中反射。由于两个话筒502、503均可不一定放在同一位置，所以近端说话者与各话筒之间的声通路可能必须建模。应当理解，图5不是示出话筒位置的限制性示例，并且话筒502、503可不同地放置在终端500上。

作为一个示例，话筒502、503可放在终端500的角部区域。与另一话筒503相比，喇叭501可放置成略微更靠近一个话筒502。因此，可以考虑，话筒502提供辅助话筒信号(或观察)，以及另一话筒503提供主要话筒信号(或观察)。

在一些示例中，终端500可以是配备有一个喇叭和两个或更多话筒的电信终端。

还应当理解，终端500可以并非仅局限于电信终端，而是终端500可扩展到也可能遇到回波抑制的膝上型电脑或平板电脑。终端500还可以是免提移动终端。

如图6所示来公式化表达双通道(DC)回波问题的信号模型。

图6示出匹配声源与如图5所示的系统的换能器之间的物理交互的信号模型的示意表示，示出如何确定主要和辅助话筒信号。

主要和辅助话筒信号600、601由话筒502、503来提供，并且分别表示为y_p(n)和y_s(n)。信号d_p(n)602和d_s(n)603表示分别由主要和辅助话筒502、503所拾取的回波信号。两者均由喇叭501的喇叭信号x(n)604来生成，其中h_p|s(n)由说明喇叭501与相应话筒502、503之间的声通路的卷积块605、606来表示。

信号s_p(n)607和s_s(n)608表示分别由主要和辅助话筒502、503所拾取的近端语音信号。两者均由近端语音信号s(n)609(或507)来生成，其中通过说明近端说话者504与主要或辅助话筒502、503之间的声通路的卷积块610、611来表示g_p|s(n)。

主要话筒信号y_p(n)600由求和块612所提供的s_p(n)607和d_p(n)602的和数来给出。辅助话筒信号y_s(n)601由求和块613所提供的s_s(n)608和d_s(n)603的和数来给出。

对于图6的信号模型，可得出下式：

y_p(n)＝g_p(n)*s(n)+h_p(n)*x(n) 等式(1)

y_s(n)＝g_s(n)*s(n)+h_s(n)*x(n) 等式(2)

其中：

-x(n)是喇叭信号604，

-y_p|s(n)分别表示主要或辅助话筒信号600、601，

-h_p|s(n)605、606表示喇叭501与主要或辅助话筒502、503之间的声通路

-s(n)609是近端说话者信号

-g_p|s(n)610、611表示近端说话者504与主要或辅助话筒502、503之间的声通路

-*表示卷积运算。

为了验证图6的信号模型，脉冲响应的测量采用模型电话在不同声环境中执行。具有嘴模拟器的仿真头(HEAD Acoustics HMS II.3)可用于模拟近端说话者。可使用电话的两个不同位置：一个是电话可放在仿真头的嘴的正前方大约30cm处，以及另一个是电话可放置于桌上。可通过电话放置成使得电话的两个话筒可处于仿真嘴的相等距离进行记录。要注意，以上所述可适用于不同声环境(办公室、小室、街道等)以及适用于例如免提模式以及手机模式的任何其它通信装置。

图7(a)示出喇叭与话筒之间的声通路的频率响应的示例。图7(a)示出，由话筒所接收的喇叭信号没有被各话筒的声环境同等地衰减。这可表明通过考虑图6的信号模型中的两个声回波通路(即，主要话筒700的声回波通路和辅助话筒701的声回波通路)来遭遇这些差异的必要性。

图7(b)示出仿真头的嘴与话筒之间的频率响应的示例。图7(b)示出，两种脉冲响应(即，主要话筒702的声回波通路和辅助话筒703的声回波通路)很相似。这个相似性可通过与仿真头嘴相比的话筒的位置来说明。由于这个原因，可假定g_p(n)＝g_s(n)。虽然前一个假设有助于降低计算复杂度，但是要注意，这个假设不是必要的。可在没有这个假设的情况下进行实现。

为了实现单通道(SC)回波消除，所考虑的回波消除电路800可包括其中包含两个自适应滤波器801、802的自适应滤波器部分，之后接着回波后滤波器803，如图8所示。

“电路”可被理解为实现可以是运行存储器中存储的软件、固件或者它们的任何组合的专用电路或处理器的实体的任何种类的逻辑。因此，“电路”可以是硬连线逻辑电路或者诸如可编程处理器之类的可编程逻辑电路，例如微处理器(例如复杂指令集计算机(CISC)处理器或者简化指令集计算机(RISC)处理器)。“电路”也可以是运行软件、如任何种类的计算机程序(例如使用诸如Java之类的虚拟机代码的计算机程序)的处理器。描述的相应功能的任何其它种类的实现也可被理解为“电路”。例如，电路布置的各种组件、例如确定器可由上述电路来实现。

图8示出具有回波消除的用于处理音频信号的电路800。电路800可包括声源(即，近端语音805、引起回波806的喇叭808信号和噪声807)的系统804以及换能器(即，喇叭808和两个话筒809、810)。系统804可表示图5的系统500，并且可由如图6所示的信号模型来表示。

对于各话筒809、810，回波的影响可被认为是与SC回波消除中相同的。因此，对于各话筒信号y_p|s(n)811、812，回波信号813、814的估计可通过使用如同SC情况中一样的自适应滤波器801、802来得到。

虽然一般来说可应用任何自适应回波消除过程、例如任何这种已知自适应回波消除算法，但是标准NLMS算法可用于估计回波信号。

由于如同SC情况中的相同原因，一些残余回波可存在于声回波消除(AEC)的输出处的误差信号e_p|s(n)815、816中。可通过由相应求和块817、818所提供的话筒信号y_p|s(n)811、812与回波信号813、814的相应估计之间的差，来得到误差信号e_p|s(n)815、816。后滤波器803可用于实现进一步回波抑制。后滤波器803可包括滤波器更新块819和回波后滤波块820。滤波器更新块819基于e_p|s(n)815、816以及喇叭808的喇叭信号x(n)822来产生输出821。例如，图8中，将这个输出821和e_p(n)815输入到回波后滤波块820中，以便给出回波抑制信号

电路800可表示图3的电路布置300。喇叭808的喇叭信号x(n)822可表示音频信号输出301；y_p(n)811可表示第一接收通路302；y_s(n)812可表示第二接收通路303；滤波器更新块819可表示确定器304；以及回波后滤波块820可表示回波抑制滤波器305。

类似地，电路800可表示图4的电路布置400。喇叭808的喇叭信号x(n)822可表示音频信号输出401；y_p|s(n)811、812可表示多个接收通路402；滤波器更新块819可表示确定器403；以及回波后滤波块820可表示回波抑制滤波器404。

图9示出回波消除电路900，其中包括可包含一个自适应滤波器901的自适应滤波器部分，之后接着回波后滤波器902。

图9示出具有回波消除的用于仅使用一个自适应回波滤波器来处理音频信号的电路900。电路900可包括声源(即，近端语音904、喇叭907信号和噪声906)以及换能器(即，喇叭907和两个话筒908、909)的系统903。系统903可表示图5的系统500，并且可由如图6所示的信号模型来表示。

图9中，可通过求和块911所提供的主要话筒信号y¹(n)913与回波信号912的估计之间的差，来得到误差信号e¹(n)910。可通过使喇叭信号x(n)914经过自适应滤波器901，来得到回波信号912的估计。后滤波器902可用于实现进一步回波抑制。后滤波器902可包括回波功率谱密度PSD和增益更新块915以及回波后滤波块916。回波PSD和增益更新块915基于e¹(n)910、辅助话筒信号y²(n)918和喇叭907的喇叭信号x(n)914来产生输出917。例如，图9中，将这个输出917和e¹(n)910输入到回波后滤波块916中，以便给出回波抑制信号这可被理解为近端语音信号s(n)904的估计。要注意，回波功率谱密度PSD和增益更新块915可等于如图8所示的滤波器更新块819。

电路900可表示图3的电路布置300。喇叭907的喇叭信号x(n)914可表示音频信号输出301；y¹(n)913可表示第一接收通路302；y²(n)918可表示第二接收通路303；回波PSD和增益更新块915可表示确定器304；以及回波后滤波块916可表示回波抑制滤波器305。

类似地，电路900可表示图4的电路布置400。喇叭907的喇叭信号x(n)914可表示音频信号输出401；y^1|2(n)913、918可表示多个接收通路402；回波PSD和增益更新块915可表示确定器403；以及回波后滤波块916可表示回波抑制滤波器404。

一般来说，电路900可按照与图8的电路800相似的方式来起作用，除了电路900中仅使用一个自适应滤波器901之外。仅使用一个自适应滤波器901可降低多通道回波后滤波器的计算复杂度。使用一个自适应滤波器901也可以是有利的，因为谱增益的计算可获益于喇叭信号x(n)914与其它话筒信号(对于图9的示例为y²(n)918)之间的高相关性，尽管对于具有降低的回波的信号(对于图9的示例为e¹(n)910)应用回波抑制本身。

电路800、900可扩展到多通道m。在包括多个接收通路、例如图4的多个接收通路402的多通道中，x(n)是喇叭信号，y^m(n)表示第m话筒信号，其中m的范围从1至M，即终端的话筒数量。各话筒信号包含回波d^m(n)和近端语音信号s^m(n)，h^m(n)是喇叭与第m话筒之间的声通路，使得d^m(n)＝h^m(n)*x(n)，是h^m(n)的估计，是来自第m话筒信号的自适应滤波的误差信号。在如同图9中一样仅使用一个自适应滤波器时，对于m≥2，e^m(n)＝y^m(n)。g^m(n)是近端说话者与第m话筒之间的声通路，使得s^m(n)＝g^m(n)*s(n)，是作为近端语音s(n)的估计的后滤波器的输出。

例如，回波抑制仍然可以仅应用于主要话筒通路。这表示仍然可使用现有SC回波抑制增益规则。增益规则的计算一般可需要残余回波PSD和近端PSD的估计。例如，可使用下列增益规则：

等式(3)

等式(4)

其中，是近端语音的PSD，是主要话筒处的残余回波的PSD，以及是主要话筒处的信号回波比(SER)。但是，要注意，可使用采用或需要近端语音PSD和/或残余回波PSD的估计的任何种类的增益规则。

应当理解和知道，计算子带回波后滤波器要求估计残余回波PSD和/或近端语音信号PSD。可引入估计DC或多通道情况回波后滤波问题中的残余回波和近端语音PSD的方法。

下面描述残余回波和近端PSD的新估计。对于双通道或多通道回波后滤波，这些PSD的计算要求了解相对传递函数(RTF)。

可提供残余回波和近端PSD估计。

残余回波和近端PSD的计算的差别在于使用至少两个话筒信号来代替一个话筒信号。在以下示例中，论述双通道情况的这些PSD的估计。

在两个自适应滤波器的情况下的后滤波器处的信号等式：

(a)时域中的误差信号等式

等式(4)

等式(5)

其中，表示回波通路失调向量。

(b)频域中的误差信号

等式(6)

等式(7)

其中：

-E_p(k，i)和E_s(k，i)分别是主要和辅助话筒的误差信号的傅立叶变换

-k和i分别表示帧和频率点索引

下文中，帧和频率索引为了清楚起见而将省略，并且将仅在必要时才使用。

(c)残余回波信号自PSD和互PSD

假定喇叭信号和近端语音信号不相关(即，它们的互PSD为零Φ^XS＝0)，下面可写作：

等式(8)

等式(9)

等式(10)

其中：

-和表示自PSD，以及是误差信号的互PSD

-Φ^SS和Φ^XX分别表示近端语音信号和喇叭自PSD。

两个RTFΓ和Θ可定义如下：

等式(11)

采用以上符号表示来重写等式(8)至(10)，可得到下式：

等式(12)

等式(13)

等式(14)

从等式(12)至(14)，残余回波和近端PSD的新估计可推断如下：

等式(15)

等式(16)

PSD估计的另一个集合可通过考虑误差信号互PSD来得出：

等式(17)

等式(18)

PSD估计的两个集合可用于在DC回波处理的情况下计算回波后滤波器增益。在任一种情况下(即，等式(15)和(16)的集合或者等式(17)和(18)的集合)，和的计算要求了解在实时系统是是未知并且因此需要估计的RTFΓ和Θ。应当知道和理解，等式(17)和(18)的集合需要不同RTF的模量和相位，而等式(15)和(16)的集合仅需要不同RTF的模量。语音处理中的相位修改应当小心处理，因为它可能易于引入失真。由于这个原因，可完全避免等式(15)和(16)的集合用于DC回波后滤波。

可需要估计RTF。估计RTF的方法可包括交叉谱方法、均方或最小平方误差最小化。

(a)近端语音声通路RTF估计

近端语音声通路Θ定义为：

等式(19)

Θ还可被理解为增益，使得：

S_s＝Θ·S_p 等式(20)

考虑仅近端语音活动周期(即，E_p＝S_p＝G_p·S和E_s＝S_s＝G_s·S)，Θ的估计可通过均方误差(MSE)或最小平方误差(LSE)最小化来得到。

用于得出的最小MSE(MMSE)估计的MMSE标准为：

其中等式(21)

的MMSE估计则表示为

等式(22)

采取自适应滤波器的形式的另一个估计可从下式(23)得出。在这种情况下，对于自适应滤波器具有许多选择，例如LMS、NLMS或FBLMS。应当理解，由于最小化标准(等式(23))处于频域中，所以使用LMS或NLMS可引起频域中的估计。证明是比较稳定和鲁棒的NLMS解决方案如下：

等式(23)

其中：

-是误差信号

-μ是步长，为了简洁起见可设置为固定值。

LSE最小化也可用于估计近端RTFΘ的LSE估计表示如下：

等式(24)

其中，给出沿时间的β的K个量度的集合。

稍后示出关于的推导的细节。在任一种情况下或可在仅近端活动周期期间执行更新。

对喇叭的活动检测可以检测仅近端活动周期。例如，可通过对喇叭和话筒信号能量应用阈值，来实现活动检测。对喇叭能量的阈值可避免远端活动周期期间的适应，而对话筒信号的阈值可避免近端静寂周期期间或者对低幅度话筒信号的适应。

(b)回波通路RTF估计

Γ定义为主要与辅助残余回波通路之间的比率：

等式(25)

与等式(19)和等式(20)中的Θ相似，Γ按照下列方式来定义主要和辅助话筒的残余回波之间的联系：

等式(26)

分别在等式(6)和(7)中引入等式(26)，可得到下式：

等式(27)

等式(28)

使用和均由喇叭信号x(n)来生成的事实，Γ可通过互相关来估计。假定喇叭和近端语音信号不相关(即，Φ^XS＝0)，Γ的互相关估计符表示如下：

等式(29)

其中，和分别是喇叭与主要和辅助话筒上的误差信号之间的互相关，并且表示如下：

等式(30)

最小平方也可用于得出回波RTFΓ的估计。在这种情况下，最小化标准写作如下：

等式(31)

Γ的LS估计表示如下：

等式(32)

Γ的LS估计的推导如下所示。要注意，如果对于最小平方标准最小化仅考虑一帧，则匹配

可提供涉及多话筒的PSD估计。可考虑配备有一个喇叭和M个话筒的通信终端。各话筒记录由喇叭来生成的回波信号以及近端语音信号。第m话筒信号上的信号可写作如下：

y_m(n)＝g_m(n)*s(n)+h_m(n)*x(n)等式(33)

其中

-y_m(n)是由第m话筒信号所拾取的信号

-h_m(n)是喇叭与第m话筒信号之间的声通路

-g_m(n)是近端说话者与第m话筒信号之间的声通路。

至于上述双通道情况，自适应滤波器可用于估计由第m话筒所拾取的回波信号。因此，多通道后滤波器可使用自适应滤波器信号作为输入来获得喇叭信号和话筒和/或话筒通路的误差。此外，多通道信息可以仅用于回波抑制的计算中，而回波抑制本身可在具有自适应滤波器的第m话筒通路上进行。

图10示出电路1000，其中包括用于回波后滤波的装置1001以及具有换能器(即，喇叭1003以及多通道话筒、例如两个话筒1004、1005)的系统1002，它们用于计算第m话筒通路的回波PSD估计1006、1007。相应话筒1004、1005上的点1008、1009可说明也许可能在回波后滤波器装置1001之前使用的自适应滤波器(图10中未示出)的存在。误差信号1006、1007可用于计算对第m话筒信号、例如y^1|2(n)1010、1011所应用的回波抑制增益，以便得到由相应话筒1004、1005所接收的近端语音的估计。近端语音的估计可由波束形成器1013来合成。

装置1001对于各接收通路可包括回波PSD和增益更新块1014、1015以及波束形成器1013之前的回波后滤波块1016、1017。

喇叭1003的喇叭信号x(n)1018可表示音频信号输出301；y¹(n)1010可表示第一接收通路302；y²(n)1011可表示第二接收通路303；回波PSD和增益更新块1014、1015可表示确定器304；以及回波后滤波块1016、1017可表示回波抑制滤波器305。

喇叭1003的喇叭信号x(n)1018可表示音频信号输出401；y^1|2(n)1010、1011可表示多个接收通路402；回波PSD和增益更新块1014、1015可表示确定器403；以及回波后滤波块1016、1017可表示回波抑制滤波器404。

用于多通道回波后滤波的另一个装置1100可如图11所示来提供。

图11示出包括装置1100的电路1101。电路1101可类似地称作图10的电路1000。

话筒通路1104、1105上的点1102、1103遭遇也许可能在回波后滤波器装置1100之前使用的自适应滤波器(图11中未示出)的存在。

与图10的装置1001相比，图11的装置1100可包括波束形成(1)1106，波束形成(1)1106可用于朝回波信号的方向来导引输入信号。这表示在这个块的输出处的信号应仅由回波组成。但是，因为波束形成器具有受限性能，所以近端语音信号的一部分可存在于波束形成(1)1106的输出处。波束形成(2)1107可具有与波束形成(1)1106相同的目的，除了它朝近端信号的方向来导引多通道信号之外。出于与波束形成(1)1106相同的原因，某个回波可存在于波束形成(2)1107块的输出处。双通道后滤波器1108可包括回波PSD和增益更新块1109以及回波后滤波块1110。双通道后滤波器1108可用于进一步降低存在于波束形成(2)1107块的输出处的回波。

图11能够被看到基于如下事实：任何多通道回波消除可简化为双通道回波抑制解决方案。当这种方案用于具有M个话筒的终端时，则将M个话筒信号作为输入给予两个波束形成器1103、1104，两个波束形成器1103、1104用于估计回波或近端信号。这些波束形成输出则可用作对回波PSD和增益更新块1105的输入。

对于图10和图11所示的方案，并且与对于图8和图9(它们表示双话筒情况)所得出的PSD估计相似，第m话筒通路的回波和近端PSD可估计如下：

等式(34)

等式(35)

其中：

-表示在自适应滤波器用于第m话筒时等于e^m(n)或者在没有使用自适应滤波器时等于y_m(n)的z^m(n)的自PSD，

-和是当计算第m话筒的PSD估计时的第k话筒的(残余)回波和近端语音相对传递函数。

-是第m话筒上的(残余)回波PSD，并且是计算第m话筒的回波抑制增益所需的

-是第m话筒上的近端语音信号PSD。

相对传递函数可定义如下：

等式(36)

其中在第m话筒通路上没有使用自适应滤波器的情况下等于0。

后滤波器的函数可表示如下：

等式(37)

等式(38)

前面的等式(等式(37)和(38))示出，后滤波器的计算要求估计第m话筒上的回波PSD和/或第m话筒上的近端PSD但是，可使用采用或需要近端语音PSD和残余回波PSD的估计的任何种类的增益规则。

在随后的多通道PSD估计的推导中，假定没有自适应滤波器供话筒通路上使用(要注意，这个假设并不是限制性的，而是仅为了说明的简洁而进行)。这意味着输入话筒信号为y_m(n)。给定话筒观察y_m(n)，其傅立叶变换可写作如下：

Y_m＝G_m·S+H_m·X 等式(39)

在上述示例中，双通道终端的残余回波和近端PSD的两个不同估计如等式(17)和(18)所述。虽然等式(17)和(18)中的估计的使用涉及专用于语音处理中的处理的相位信息，但是下面示出匹配两种形式(等式(15)和(16)的集合以及等式(17)和(18)的集合)的多通道回波和近端PSD估计。

PSD估计对于M＝2匹配等式(15)和(16)。假定喇叭信号和近端语音信号不相关(即，其互PSD为零Φ^XS＝0)，第1话筒自PSD表示如下：

等式(40)

其中，1是范围从1至M的话筒通道索引。

通过将等式(41)的RTF

等式(41)

引入等式(40)，可得到下式：

等式(42)

等式(42)示出，第1话筒自PSD可写作第m话筒的回波信号和近端信号PSD、即待估计和的函数。

考虑全部M个话筒信号，等式(42)可按照矩阵形式等效地写作如下：

等式(43)

Z＝A·V 等式(44)

采用如下符号表示

●

●表示第m话筒通路的回波抑制增益的计算所需的PSD。

从等式(44)，V的估计可推导为：

等式(45)

等式(45)的扩展引起下列回波和近端PSD估计：

等式(46)

等式(47)

PSD估计对于M＝2匹配等式(17)和(18)。

通过在等式(39)中引入等式(41)所定义的RTF，下面可写作：

Y_l＝Γ^m，l·H_m·X+Θ^m，l·G_m·S＝Γ^m，l·D_m+Θ^m，l·S_m 等式(48)

等式(48)示出，第1话筒信号可写作由第m话筒通道所接收的回波信号和近端信号的函数。

考虑全部M个话筒观察，等式(48)可按照矩阵形式等效地写作如下：

等式(49)

Y＝A·V 等式(50)

从等式(49)，话筒PSD矩阵可计算如下：

Φ^YY＝AΦ^VVA^H 等式(51)

其中

-Φ^YY＝Y·Y^H是话筒功率谱矩阵的估计

-包含感兴趣PSD和

Φ^VV的估计可表示为

等式(52)

等式(52)的扩展引起下列回波和近端PSD估计：

等式(53)

等式(54)

PSD估计可要求了解话筒信号自PSD。在实时实现中，话筒信号的估计可通过自回归平滑来得到。

PSD估计对于没有话筒信号在被后滤波器使用之前由自适应滤波器来处理的情况可以是有效的。

在另一个示例中，自适应滤波器可在后滤波器之前放置在话筒通路的部分或全部之上。第m话筒通路上的自适应滤波器的使用表示上式中y_m(n)变成e_m(n)，其中

等式(55)

可提供RTF估计。例如，可使用近端RTF的最小平方估计。假定仅近端活动周期以及近端声环境中的某个局部噪声的存在，第1话筒信号可写作如下：

y₁(n)＝g_l(n)*s(n)+b_l(n) 等式(56)

或者在频域中等效地：

Y_l＝H_l·X+B_i 等式(57)

其中，b_l(n)表示第1话筒所接收的环境噪声，以及B_l是其傅立叶变换。

通过将等式(41)所定义的近端RTF定义代入等式(57)，可得到下式：

等式(58)

近端RTF的最小平方估计可推导如下：

等式(59)

其中，给出沿时间的β的R个量度的集合。

可提供回波RTF的最小平方估计。假定仅远端活动周期以及近端声环境中的某个局部噪声的存在，第1话筒信号可写作如下：

y_l(n)＝h_l(n)*x(n)+b_l(n) 等式(60)

或者在频域中等效地：

Y_l＝H_l·X+B_l 等式(61)

通过将等式(60)所定义的回波RTF定义代入等式(61)，可得到下式：

等式(62)

可考虑向量[X Y₁…Y_M]^T以及可细分为时域中的R帧的观察窗口。考虑回波RTF在观察窗口中是固定的，可逐帧利用语音信号的非固定。对于观察间隔的每帧r，下列PSD可写作：

等式(63)

通过近端声环境中的环境噪声来定义，因此可假定它在统计上与喇叭无关(即，)。例如，量和可通过自回归平滑从观察信号来估计。考虑R帧的观察间隔，等式(63)可按照矩阵形式写作如下：

等式(64)

Z＝A·V 等式(65)

回波RTF的LS估计则定义如下：

其中，等式(66)

并且表示如下：

等式(67)

其中，给出沿时间的β的R个量度的集合。

上述双话筒残余回波PSD估计的性能可被评估并且针对现有估计来比较。

例如，如前面所述采用模型电话所记录的数据可用于生成话音信号的测试数据库。话筒信号可包含仅回波和双向通话周期两者。可对于主要话筒来设置和测量信号回波比(SER)，并且可相应地计算辅助话筒。SER的范围可从-5dB至10dB。可将双通道(DC)回波处理方法、例如图1和图2的方法与现有单通道(SC)回波处理方法(即，SC自适应滤波器之后接着后滤波器)进行比较。SC回波处理可以仅使用主要话筒。所考虑的自适应滤波器可以是具有可变步长的归一化最小均方自适应滤波器。对于所考虑的DC和SC回波后滤波器，子带增益可采用其中通过判定引导方式估计SER的维纳规则来计算。DC和SC后滤波器可通过残余回波PSD估计符来区分。

双通道(DC)回波处理方法的后滤波器的评估可通过两个步骤来执行。在一侧，双通道(DC)回波处理方法的PSD估计符可根据可表示如下的对称分段对数误差来评估：

等式(68)

其中，K表示帧数。

在另一侧，可根据回波损耗增强(ERLE)、语音衰减(SA)、倒谱距离(CD)和非正式监听测试来将DC后滤波器与SC后滤波器进行比较。ERLE可表示通过自适应滤波器以及后滤波器一起实现的回波抑制量，并且可在仅回波周期期间来测量。SA可用于测量双向通话周期期间由后滤波器对近端语音信号所引入的语音衰减量。SA可对于主要话筒作为纯净语音s_p(n)607与加权语音信号之间的衰减按下式来测量：

等式(69)

其中，L是可对其计算分段SA的帧的长度，并且表示发生双向通话期间的帧数。

加权语音信号可采用任何适当的现有方法来得到。当处理降级语音信号时，可存储已更新谱增益。这些增益可应用于子带域中的纯净近端语音s_p(n)，以便得到加权语音信号倒谱距离可类似地在s_p(n)与之间来测量。应当理解，可以不需要单独评估自适应滤波部分，因为可使用DC和SC回波处理的相同自适应滤波器。

例如，子带数量M可设置为256，并且子带转换可通过具有重叠增加的短期傅立叶变换进行。

可执行残余回波PSD估计评估。图12(a)示出仅回波和双向通话周期期间对残余回波PSD的估计误差。图12(a)示出，在仅回波周期期间，DC估计1200略胜过SC估计1201。对于DC估计1200、1202和SC估计1201、1203，误差随着SER增加而降低，但是可以观察到，这种降低是逐渐并且很缓慢的。

图12(a)还示出，在双向通话周期期间，误差随SER而增加。这可通过干扰PSD估计的近端语音信号的存在来说明。此外，高SER可意味着与回波(以及因此残余回波)相比的高近端语音信号以及因此残余回波估计符的更大扰动。从图12(a)还能够看到DC估计对于低SER实现比SC估计更好的性能。相反，在高SER(SER＞0dB)，SC估计可胜过DC估计符。DC的性能损失可通过如下事实来证明：在双向通话期间，近端的存在可干扰RTFΓ的估计，因为实际上用于其计算的互PSD可包含与近端语音信号相关的分量。

可提供残余回波抑制。

图12(b)示出ERLE曲线1204、1205和SA曲线1206、1207。ERLE曲线1204、1205示出，DC回波后滤波器1204实现比SC后滤波器1205要大的回波抑制。这可能是仅回波周期期间的PSD估计符精度的直接结果。SA曲线1206、1207示出，DC情况1206的SA随SER而增加，而对于SC情况1207降低。SA的这种增加可能是不合需要的效应。然而，与SC后滤波器相比，DC后滤波器可引入近端语音的较小衰减(总共5dB)，这在处理回波消除时是很大差异。

图12(c)示出双向通话期间的倒谱距离的量度。图12(c)示出，在低SER，DC后滤波器1208比SC后滤波器1209引入更小失真。在较高SER，SC后滤波器1209引入较少失真。倒谱距离的量度可能是PSD估计误差的结果。

此外，DC后滤波器1208可引入双向通话期间比SC后滤波器1209要小的近端语音衰减。在DC情况1208中，语音衰减随SER而增加，而对SC情况1209降低。语音衰减中的这种行为差异可直接在倒谱距离上反映，并且可说明它对DC情况1208的增加。非正式监听测试可表明，与双向通话周期期间的SC后滤波器1209相比，DC后滤波器1208产生略微更好的可懂度。SC后滤波器1209所引入的SA可以是可感知的，并且有时可引起语音的完全抑制。

虽然参照具体方面具体示出和描述了本发明，但是本领域的技术人员应当理解，可在其中进行形式和细节上的各种变更，而没有背离所附权利要求书所限定的本发明的精神和范围。因此，本发明的范围由所附权利要求书来表示，并且因此预计包含落入权利要求书的等效性的含意和范围之内的所有变更。

Claims

1.一种用于处理音频信号的方法，所述方法包括：

输出音频信号；

经由第一接收通路来接收作为第一接收音频信号的所述输出音频信号；

经由第二接收通路来接收作为第二接收音频信号的所述输出音频信号；

对所述第一接收音频信号的回波进行滤波，以产生第一回波误差信号；

对所述第二接收音频信号的回波进行滤波，以产生第二回波误差信号；

确定所述第一接收音频信号的残余回波功率谱密度的估计以及所述第一接收音频信号的信号回波比的估计，其中所述第一接收音频信号的残余回波功率谱密度以及所述第一接收音频信号的信号回波比基于表征第二回波误差信号与已经输出的音频信号的相关性相对于第一回波误差信号与已经输出的音频信号的相关性的相对传递函数的估计来确定；

基于所述第一接收音频信号的残余回波功率谱密度的估计以及所述第一接收音频信号的信号回波比的估计确定回波抑制增益；以及

基于所述第一接收音频信号和所述回波抑制增益来抑制所述已经输出的音频信号的回波。

2.如权利要求1所述的方法，

其中，回波的所述滤波包括自适应回波滤波。

3.如权利要求1所述的方法，

其中，抑制所述已经输出的音频信号的回波包括忽略所述第二接收音频信号。

4.如权利要求1所述的方法，

其中，输出音频信号包括经由喇叭来输出音频信号。

5.如权利要求1所述的方法，

其中，经由第一接收通路来接收作为第一接收音频信号的所述音频信号包括经由第一话筒来接收所述音频信号；以及

其中，经由第二接收通路来接收作为第二接收音频信号的所述输出音频信号包括经由第二话筒来接收所述输出音频信号。

6.如权利要求1所述的方法，还包括：

对所述已经输出的音频信号和回波抑制之后的所述已经输出的音频信号中的至少一个进行波束形成。

7.一种用于处理音频信号的电路布置，包括：

音频信号输出，用于输出音频信号；

第一接收通路，配置成接收作为第一接收音频信号的所述输出音频信号；

第二接收通路，配置成接收作为第二接收音频信号的所述输出音频信号；

第一滤波器，配置成对所述第一接收音频信号的回波进行滤波，以产生第一回波误差信号；

第二滤波器，配置成对所述第二接收音频信号的回波进行滤波，以产生第二回波误差信号；

确定器，配置成确定所述第一接收音频信号的残余回波功率谱密度的估计以及所述第一接收音频信号的信号回波比的估计，其中所述第一接收音频信号的残余回波功率谱密度以及所述第一接收音频信号的信号回波比基于表征第二回波误差信号与已经输出的音频信号的相关性相对于第一回波误差信号与已经输出的音频信号的相关性的相对传递函数的估计来确定；并且配置成基于所述第一接收音频信号的残余回波功率谱密度的估计以及所述第一接收音频信号的信号回波比的估计确定回波抑制增益；以及

回波抑制滤波器，耦合到所述第一接收通路，并且所述回波抑制滤波器配置成基于所述第一接收音频信号和所述回波抑制增益来抑制所述已经输出的音频信号的回波。

8.如权利要求7所述的电路布置，

其中，所述回波抑制滤波器包括自适应回波滤波器。

9.如权利要求7所述的电路布置，

所述回波抑制滤波器配置成在抑制所述已经输出的音频信号的回波时忽略所述第二接收音频信号。

10.如权利要求7所述的电路布置，还包括：

喇叭，连接到所述音频信号输出。

11.如权利要求7所述的电路布置，还包括：

第一话筒，连接到所述第一接收通路；以及

第二话筒，连接到所述第二接收通路。

12.如权利要求7所述的电路布置，还包括：

波束形成器，配置成对于所述已经输出的音频信号或者回波抑制之后的所述已经输出的音频信号或者它们两者进行波束形成。