CN102968999A

CN102968999A - 处理音频信号

Info

Publication number: CN102968999A
Application number: CN2012104627107A
Authority: CN
Inventors: K.V.索伦森
Original assignee: Skype Ltd Ireland
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-11-18
Filing date: 2012-11-16
Publication date: 2013-03-13
Anticipated expiration: 2032-11-16
Also published as: CN102968999B

Abstract

在一个实施例中，一种处理设备处的音频信号的方法包括：在设备的多个麦克风处接收音频信号；处理由所述多个麦克风接收的音频信号中的至少一个以便生成第一特性；波束形成器将波束形成器系数应用到接收的音频信号，从而生成波束形成器输出；处理波束形成器输出以便生成第二特性。将回声消除器应用于波束形成器输出，从而从波束形成器输出中抑制由从音频输出端输出的音频信号引起的回声。使用第一特性和第二特性之间的关系确定回声消除器的操作参数。

Description

处理音频信号

相关申请

本申请在35 U.S.C. §119或365下要求2011年11月18日提交的英国申请No. GB 1119932.0的优先权。上述申请的整个教导通过引用合并于此。

技术领域

本发明涉及处理设备处接收的音频信号。

背景技术

设备可能具有诸如麦克风之类的音频输入装置，该装置可以用来接收来自周围环境的音频信号。例如，用户设备的麦克风可以接收初级音频信号（例如来自用户的语音）以及其他音频信号。所述其他音频信号可能是设备的麦克风处接收的干扰音频信号，并且可能接收自干扰源或者可能是外界背景噪声或者麦克风自身噪声。干扰音频信号可以扰乱设备处接收的初级音频信号。设备可以出于许多不同的目的使用接收的音频信号。例如，在接收的音频信号为接收自用户的语音信号的情况下，语音信号可以由设备处理以便例如借助于通过网络将语音信号传输至另一个设备而在通信事件中使用，所述另一个设备可以与通信事件的另一个用户关联。可替换地或者此外，接收的音频信号可以用于本领域中已知的其他目的。

为了改善接收的音频信号（例如电话中使用的接收自用户的语音信号）的质量，希望的是抑制在用户设备的麦克风处接收的干扰音频信号（例如背景噪声以及接收自干扰音频源的干扰音频信号）。

其中多个麦克风作为单个音频输入装置而操作的立体声麦克风和其他麦克风阵列的使用正变得更加普通。设备处多个麦克风的使用允许除了可以从由单个麦克风接收的音频信号提取的信息之外还使用来自接收的音频信号的提取的空间信息。当使用这样的设备时，一种用于抑制干扰音频信号的方法是将波束形成器应用于由所述多个麦克风接收的音频信号。波束形成是一种通过应用信号处理以便与麦克风阵列处接收的音频信号的其余音频信号相比增强麦克风阵列处接收的来自一个或多个希望的位置（即方向和距离）的特定音频信号，而聚焦麦克风阵列接收的音频信号的过程。为了简单起见，将在这里描述具有仅仅单个希望的方向的情况，但是相同的方法将在存在更多感兴趣方向时适用。在麦克风阵列处接收希望的音频信号的角度（和/或距离）（所谓的到达方向（“DOA”）信息）可以在波束形成过程之前确定或者设置。可能有利的是将希望的到达方向设置为固定的，因为到达方向的估计可能是复杂的。然而，在可替换的情形下，可能有利的是使希望的到达方向适应变化的条件，并且因此可能有利的是在使用波束形成器时实时地执行希望的到达方向的估计。自适应波束形成器将一定数量的权重（或者“波束形成器系数”）应用到接收的音频信号。可以适应性调节这些权重以便考虑到DOA信息以处理由所述多个麦克风接收的音频信号以便形成“波束”，其中高的增益应用到由麦克风接收的来自希望的位置（即希望的方向和距离）的希望的音频信号，并且低的增益应用于到任何其他（例如干扰）信号源的方向。波束形成器也可以在可以适应性调节干扰源的抑制的意义上是“自适应的”，希望的源/观看方向的选择可以不必是能适应的。

除了具有多个用于接收音频信号的麦克风之外，设备也可以具有用于输出音频信号的音频输出装置（例如包括扩音器）。这样的设备例如在音频信号例如在通信事件期间要被输出到以及接收自设备的用户的情况下是有用的。例如，该设备可以是诸如电话、计算机或者电视之类的用户设备，并且可以包括允许用户参与电话会议所必需的装备。

在设备包括音频输出装置（例如包括扩音器）和音频输入装置（例如麦克风）二者的情况下，那么经常在接收的音频信号中存在回声时存在问题，其中回声由音频信号从扩音器输出并且在麦克风处被接收而引起。回声消除器可以用来消除麦克风处接收的音频信号中的回声。回声抑制和回声减损是实现回声消除器的两种方法。例如，回声消除器可以实现用来抑制麦克风处接收的音频信号中的回声的回声抑制器。音频信号从扩音器到麦克风的传播路径称为回声路径，回声抑制器可以将回声路径增益估计为时间和频率的函数，并且用其估计接收的音频信号中的回声功率。接收的音频信号中的回声功率的估计可以用来将接收的音频信号中的回声抑制到这样的水平，使得它们不可察觉。接收的音频信号中的回声功率的估计基于其中回声消除器正操作的扩音器-外壳-麦克风系统模型。该模型经常至少部分地为线性的，但是在一些情况下，该模型可以是非线性的。一种混合回声消除器由以级联的方式应用的回声减损器和回声抑制器组成。通过使用混合回声消除器，增加的双端通话透明度由回声减损器实现，并且如果需要的话，附加的回声抑制增益由回声抑制器实现。

回声消除的最优操作的常见要求是：

· 回声路径相对缓慢地变化，因为否则的话回声路径增益估计将很快就不精确；

· 系统是充分线性的，以便通过线性回声模型建模；以及

· 回声路径增益不应当被低估，因为低估将反过来也造成回声功率被低估。这将使得回声消除器施加太少的抑制并且从而通过不可忽略的残余回声。

要在接收的音频信号上实现波束形成器和回声消除器二者不是一个微不足道的任务。事实上，当结合自适应麦克风波束形成器（例如在电话会议应用中）时，需要小心仔细，使得回声消除器性能不被波束形成器的自适应行为降低。

在一起实现波束形成和回声消除的第一系统中，在执行波束形成之前将单独的回声消除器应用于每个麦克风信号。然而，由于多个回声消除器操作用于多个麦克风信号，该第一系统计算上非常复杂。此外，在麦克风信号上使用回声消除器可能扰乱波束形成器的波束形成过程。

在一起实现波束形成和回声消除的第二系统中，将回声消除器应用到波束形成器的输出。在该第二系统中，数据自适应波束形成器的行为优选地被约束为随着时间非常缓慢地变化，因为否则的话回声消除器中使用的回声路径的估计将受有害的影响，因为回声消除器试图响应于波束形成器行为的变化而调节回声路径估计。此外，在该第二系统中，波束形成器优选地被约束为线性的并且缓慢地变化以便防止可实现的回声消除性能的有害的降低。一些波束形成器是线性的，但是一些不是线性的，因此在第二系统中波束形成器的选择被限制（为线性波束形成器）。

因此，上面描述的第一系统和第二系统二者都存在问题。

此外，当结合声学回声消除器（AEC）应用波束形成器时，最后应用的一方需要考虑到另一方以便实现最佳的性能。当来自波束形成器的内部信息可用时，存在进行深度整合的若干方式，其中一个模块基本上完成AEC和波束形成二者。

另一方面，当没有内部信息可用时，在AEC中精确地补偿波束形成器带来的回声衰减变得更加困难。

发明内容

本发明的实施例允许将麦克风波束形成器与回声消除器一起使用，并且提供对于波束形成器的精确补偿而无需内部访问它。

依照本发明的第一方面，提供了一种处理设备处的音频信号的方法，该设备包括用于输出音频信号的音频输出端，该方法包括：

在设备的多个麦克风处接收音频信号；

处理由所述多个麦克风接收的音频信号中的至少一个以便生成第一特性；

波束形成器将波束形成器系数应用到接收的音频信号，从而生成波束形成器输出；

处理波束形成器输出以便生成第二特性；

将回声消除器应用于波束形成器输出，从而从波束形成器输出中抑制由从音频输出端输出的音频信号引起的回声；

使用第一特性和第二特性之间的关系确定回声消除器的操作参数。

可以在频带中确定第一特性和第二特性，使得它们的关系代表波束形成器增益谱。

在所描述的实施例中的一些实施例中，基于所述至少一个音频输入信号和从音频输出端输出的音频信号估计回声路径，并且使用估计的回声路径和波束形成器增益谱确定操作参数。

在其他实施例中，本发明也可以用来补偿回声路径适应。波束形成器按照其改变谱的上面提到的识别的增益（如通过比值所确定的）可以用来通过用波束形成器在该域中应用的增益除分析的谱系数而缩放波束形成器输出信号的拷贝。换言之，它将如其出现在输入信号中那样近似重新创建回声。因此，有可能在从波束形成器输出信号和波束形成器增益谱生成的人造信号上适应性调节回声消除器的回声路径。当估计回声时，波束形成器增益谱被用来产生波束形成器输出中的回声的估计以及因而所述操作参数。

所述方法可以包括确定接收的音频信号中的哪一个具有最强的回声的步骤。

具有最强回声的信号可能是“最强”音频信号，即接收的音频信号中具有随着时间的最高平均功率的音频信号，但是它可以是所述信号中的另一个信号。

使用具有最强回声的信号将确保识别的回声抑制增益谱将介于0与1之间。

使用具有最强回声的信号不是严格必要的，因为识别的波束形成器增益可能高于1。

操作参数可以包括由回声消除器（例如由回声消除器的回声抑制）应用到波束形成器输出的回声抑制水平。

优选实施例中用来整合波束形成器和AEC的方法是使用基于抑制的AEC在选择的输入信号和波束形成器输出二者上进行的相同谱分析。就此而论，“整合”意指使波束形成器和AEC自适应协作。在一些实施例中，这涉及将这两个频率谱转换成具有不同频带（槽）中的系数的功率谱。一旦谱分析和准备与基于抑制的AEC所做的相同，那么在每个带中将所述特性之间的关系确定为该带中的输入特性与输出特性之间的比值。对于每个带而言，当已经根据音频输出信号和选择的输入信号适应性调节了回声路径时，这些比值精确地描述了要在基于抑制的AEC中实现的对于波束形成的最佳的可能补偿。当不存在回声时，可以忽略增益，因为它们不描述回声的比值。当回声消除器降低回声降低增益以便抑制回声时，将该增益除以波束形成器的输出和输入之间的比值。即，如果在一个槽中回声期间的波束形成器输出为输入的功率的一半，那么回声降低增益除以一半。因此，增益的组合最终正好处于在不应用波束形成器的情况下回声消除器将应用的增益。

依照本发明的第二方面，提供了一种用于处理音频信号的设备，该设备包括：音频输出端，其用于输出音频信号；多个麦克风，其用于接收音频信号；波束形成器，其被配置成将波束形成器系数应用到接收的音频信号，从而生成波束形成器输出；回声消除器，其被配置成应用到波束形成器输出，从而从波束形成器输出中抑制由从音频输出端输出的音频信号引起的回声；以及处理器，其被配置成生成由所述多个麦克风接收的音频信号中的至少一个的第一特性，生成波束形成器输出的第二特性，并且使用第一特性和第二特性之间的关系确定回声消除器的操作参数。

回声消除器可以包括被设置成应用到波束形成器输出的回声抑制。

依照本发明的第三方面，提供了一种用于处理设备处的音频信号的计算机程序产品，该设备包括多个用于接收音频信号的麦克风以及用于输出音频信号的音频输出端，该计算机程序产品包含在非瞬态计算机可读介质上并且被这样配置，以便在设备的处理器上执行时执行上面限定的方法的步骤。

附图说明

现在，为了更好地理解本发明并且为了示出如何可以将本发明付诸实施，将通过实例的方式参照以下附图，在附图中：

图1示出了依照优选实施例的设备的示意图；

图2示出了依照优选实施例的系统；

图3示出了依照优选实施例的设备的元件的功能框图；

图4为依照优选实施例的处理音频信号的过程的流程图；

图5A为一个实施例的功能框图；以及

图5B为另一个实施例的功能框图。

具体实施方式

现在，将仅仅通过实例的方式描述本发明的优选实施例。可能希望的是在例如用于电话会议应用的设备处实现波束形成器和回声消除器二者。在本发明的下面的实施例中，描述了这样的技术，这些技术允许将波束形成器和回声消除器一起使用而不限制波束形成器类型或者波束形成器行为并且不影响回声消除器的性能，即使没有对于波束形成器的内部访问可用时，也是如此。

这意味着，甚至在没有对于波束形成器的内部访问的情况下，可以改变波束形成器的设计而不更新AEC整合。它也允许与第三方波束形成器协作。

可以如下对波束形成器建模。麦克风波束形成器的目的是组合若干麦克风信号以便产生波束形成器输出。波束形成器输出可以包括许多信号，但是为了简单起见，在以下描述的优选实施例中，将假设波束形成器产生一个单一输出。存在许多可以使用的不同波束形成算法，并且一种描述波束形成算法的常见模型是

，

其中y(t)为波束形成器输出，y_n(t)为来自麦克风阵列中的第n个麦克风的第n个输入信号，N为波束形成器输入信号的总数，并且f()为波束形成器函数。波束形成器函数f()可以采取许多不同形式之一，并且可以是线性的或者非线性的。对于延迟-求和波束形成器而言，波束形成算法由下式给出：

。

对于MVDR波束形成器而言，波束形成算法由下式给出：

，

其中g_n(t)为用于第n个输入信号的加权因子，并且M为每个延迟下MVDR滤波器的长度。

操作来消除单个麦克风输入信号y(t)中的回声的回声消除器可以如下建模。回声路径是扩音器信号x(t)到麦克风信号y(t)的传播路径。使用回声抑制的回声消除器可以通过对于时间t和频率f估计回声路径增益并且使用回声路径增益的估计

来估计接收的音频信号中的回声功率而操作。回声功率的这种估计可以基于回声消除器在其上操作的扩音器-外壳-麦克风系统的线性模型依照以下方程执行：

其中Y(t, f)为麦克风信号的短时傅立叶变换（STFT）系数，X(t, f)为用于扩音器信号的STFT系数，S(t, f)为用于回声信号的STFT系数，H(t, f)为回声路径的传递函数，并且N(t, f)为所有近端声音、麦克风噪声和建模误差（即所有接收的不同于回声的音频信号）的STFT系数。用于扩音器信号X(t, f)的STFT系数是已知的，因为设备将知道什么信号正从其扩音器输出。因此，为了确定回声功率，应当估计回声路径的传递函数H(t, f)。

回声路径增益估计可以根据所述模型在X(t, f)与N(t, f)不相关的假设下估计为Y(t, f)和X(t, f)的函数。此外，可以基于限制估计的可能精度的期望回声-近端比值调节估计速度或者估计中的置信度，即，主要在预期回声功率在麦克风信号中为强时更新估计。一种可以使用的估计方法是最小二乘估计方法。

回声路径增益估计

用来使用上面的模型估计回声功率

，即：

。

回声消除的最优操作的常见要求是：

· 回声路径相对缓慢地变化，因为否则的话回声路径增益估计将很快就不精确。

· 系统是充分线性的，以便通过上面的线性回声模型建模。

· 回声路径增益不应当被低估，即，因为低估将反过来也造成回声功率

被低估。这将使得回声消除器施加太少的抑制并且从而通过不可忽略的残余回声。

现在参照图1，图1图解说明了设备102的示意图。设备102可以是固定或者移动设备。设备102包括CPU 104，用于接收音频信号的麦克风阵列106、用于输出音频信号的音频输出装置110、用于向设备102的用户输出可视数据的诸如屏幕之类的显示器112以及用于存储数据的存储器114连接到该CPU。

现在，参照图2，图2图解说明了设备102在其中操作的实例环境200。

设备102的麦克风阵列106接收来自环境200的音频信号。例如，如图2中所示，麦克风阵列106接收来自用户202（图2中表示为d₁）的音频信号、来自另一个用户204（图2中表示为d₂）的音频信号、来自风扇206（图2中表示为d₃）的音频信号以及来自扩音器210（图2中表示为d₄）的音频信号。设备102的音频输出装置110包括音频输出处理装置208和扩音器210。音频输出处理装置208操作来将音频输出信号发送至扩音器210以便从扩音器210输出。音频输出处理装置208可以作为在CPU 104上执行的软件或者作为设备102中的硬件而操作。对于本领域技术人员将明显的是，麦克风阵列106可以接收不同于图2中所示的其他音频信号。在图2中所示的方案中，来自用户202的音频信号是所希望的音频信号，并且在麦克风阵列106处接收的所有其他音频信号都是干扰音频信号。在其他实施例中，可以将麦克风阵列106处接收的音频信号中的超过一个音频信号认为是“希望的”音频信号，但是为了简单起见，在这里描述的实施例中，仅仅存在一个希望的音频信号（其为来自用户202的音频信号），并且其他音频信号被认为是干扰。不想要的噪声信号的其他来源可以包括例如空调系统、播放音乐的设备以及例如离开环境200中的墙壁的音频信号的余响。

现在参照图3，图3图解说明了依照本发明优选实施例的设备102的元件的功能表示。麦克风阵列106包括多个麦克风302₁、302₂和302₃。设备102进一步包括波束形成器504、声学回声消除器506和处理框508。波束形成器504可以例如为最小方差无失真响应（MVDR）波束形成器。波束形成器504、回声消除器506和处理框508可以以在CPU 104上执行的软件实现或者以设备102中的硬件实现。麦克风阵列106中的每个麦克风的输出耦合到波束形成器504的对应输入。麦克风阵列106中的每个麦克风的输出也耦合到处理框508的对应输入。波束形成器504的输出耦合到回声消除器506的输入并且耦合到处理框508。处理框508的输出耦合到回声消除器506的输入，从而将边信息507提供给回声消除器506。本领域技术人员将会领会，需要多个输入以便实现波束形成。麦克风阵列106在图3中被示为具有三个麦克风（302₁、302₂和302₃），但是应当理解的是，麦克风的该数量仅仅是一个实例并且绝不是限制性的。

波束形成器504包括用于接收和处理来自麦克风阵列106的麦克风302₁、302₂和302₃的音频信号y₁(t)、y₂(t)和y₃(t)的装置。例如，波束形成器504可以包括话音活动检测器（VAD）和DOA估计框（图中未示出）。在操作中，波束形成器504探知麦克风阵列106接收的音频信号的性质，并且基于由VAD和DOA估计框检测的语音类质量的检测，确定主扬声器的一个或多个主要方向。在其他实施例中，主扬声器的主要方向可以预先设置，使得波束形成器304聚焦在固定方向上。在图2所示的实例中，接收自用户202的音频信号的方向（d₁）被确定为主要方向。波束形成器504可以使用DOA信息（或者可以简单地使用预先设置以供波束形成器304使用的固定观看方向）以便通过形成这样的波束而处理音频信号，该波束在来自麦克风阵列106处接收希望的信号的主要方向（d₁）的方向上具有高增益并且在到任何其他信号的方向（例如d₂、d₃和d₄）上具有低增益。

波束形成器504也可以确定干扰到达方向（d₂、d₃和d₄），并且有利地波束形成器504的行为可以被适应性调节，从而特别地将低增益施加到接收自那些干扰到达方向的音频信号以便抑制干扰音频信号。尽管上文中描述了波束形成器504可以确定任何数量的主要方向，但是确定的主要方向的数量影响波束形成器的属性，例如，对于大量主要方向而言，与仅仅确定了单个主要方向的情况相比，波束形成器504将对麦克风阵列处接收的来自其他（不希望的）方向的信号施加较少的衰减。波束形成器504的输出以要处理的单个信道的形式提供给回声消除器506。同样可能的是输出超过一个信道，例如以便保护或者实际上生成立体图像。如对于本领域技术人员显然的是，回声消除器506的输出可以在设备102中以许多不同的方式使用。例如，回声消除器506的输出可以用作其中用户202使用设备102参与的通信事件的一部分。

参照图4，现在描述一种依照优选实施例处理音频信号的方法。在步骤S402中，在麦克风阵列106的麦克风（302₁、302₂和302₃）处接收音频信号。这些音频信号例如接收自用户202、用户204和风扇206，并且这些音频信号构成如图2和图3中所示的近端音频信号。麦克风阵列106中的麦克风也如图2和图3中所示接收来自扩音器210的回声信号。诸如背景噪声之类的其他干扰音频信号也可以在麦克风阵列106的麦克风（302₁、302₂和302₃）处被接收，并且这些其他干扰音频信号将构成另外的近端音频信号。麦克风阵列106的每个麦克风（302₁、302₂和302₃）接收的音频信号y₁(t)、y₂(t)和y₃(t)被传送至波束形成器504并且传送至处理框508。回声信号是音频输出处理装置208将扩音器音频信号x(t)发送至扩音器210并且扩音器输出扩音器音频信号x(t)的结果。扩音器音频信号x(t)通过回声路径(通过H(t, f)描述)传播并且存在于接收的音频信号y₁(t)、y₂(t)和y₃(t)中。

在步骤S404中，波束形成器504将其波束形成器滤波系数应用到接收的音频信号(y₁(t)、y₂(t)和y₃(t))，从而生成波束形成器输出301。如上面所描述的，波束形成器504聚焦于麦克风阵列106处接收的来自主要方向（d₁）的音频信号，从而增强接收自用户202的希望的音频信号，并且向麦克风阵列106处接收的来自其他方向的其他音频信号施加抑制。波束形成器504对于接收自主要位置（即方向和距离）的音频信号应当具有固定增益，其中波束形成器增益应当优选地随着时间是恒定的（但是可能地随着频率不是恒定的），从而防止希望的音频信号的失真。作为一个实例，可以针对主要位置（即主要方向和/或距离）将波束形成器增益设置为值1。波束形成器504的任务是相对于其他干扰源增强来自主要源的信号。波束形成器输出被传送至回声消除器506。

在步骤S406中，处理框508分析接收的音频信号y₁(t)、y₂(t)和y₃(t)以确定提供哪个信号以便在AEC中处理。这可以是任何输入信号，并且可以是最强的输入信号。

在步骤S408中，估计接收的音频信号的回声路径增益

。这涉及依照以下方程寻找回声路径增益的估计

：

，

其中，如上面所描述的，在该估计中假设X(t, f)与N(t, f)不相关。

在一个实施例中，在步骤410中，基于步骤S408中确定的回声路径增益通过将回声路径增益乘以扩音器信号功率而计算回声功率谱的估计。

回声功率通过将步骤S608中测量的接收的音频信号的回声路径增益与从扩音器210输出的扩音器信号功率

相乘而估计，即：

。

在步骤S412中，如关于图5A更完整地描述的，确定波束形成器抑制增益。

在步骤S413中，波束形成器输出中的回声的估计通过将来自步骤S410的回声估计与来自步骤S412的确定的波束形成器抑制增益相乘而确定。

在步骤S414中，使用上面的估计，计算回声抑制增益并且将其施加到波束形成器输出。步骤S414中的回声抑制的水平基于波束形成器输出中的估计的回声的估计的回声功率而确定，并且这考虑了确定的波束形成器抑制增益。

要由回声消除器506施加的回声抑制的水平基于波束形成器输出中估计的回声中的回声功率的估计而确定。

步骤S410和S412可以由处理框508利用作为边信息传送至回声消除器506的结果而执行。可替换地，步骤S410和S412中的一个或者二者可以由回声消除器506本身基于在回声消除器506处接收自处理框508的接收的音频信号的边信息而执行。

在一个可替换的实施例（图5B）中，不执行估计波束形成器输出中的回声的步骤S413。作为替代，执行基于接收的音频信号中的回声功率的估计（）而估计回声抑制的步骤S413’，并且然后将其修改。

通过基于接收的输入信号而更新回声路径并且基于波束形成器输出中的估计的回声而确定波束形成器回声抑制，解决了估计回声路径的问题，因为当更新回声路径模型时，波束形成器不影响由AEC看见的回声路径。使用回声的合成版本具有类似的效果。

本发明的实施例对于波束形成器带来的时频变化回声降低补偿了任何基于抑制的AEC。换言之，上面确定的抑制增益基于确定的波束形成器增益谱。尽管当与上面确定抑制增益的方式一起使用时特别有效，但是本发明可以与其他确定抑制增益的方法一起应用。

在步骤S414中，将回声消除器506应用到波束形成器输出301，其中回声消除器506应用的抑制的水平如上计算。信号从回声消除器506输出以供设备102中进一步处理。例如，从回声消除器506输出的信号可以用在通信事件中，例如以便作为音频或视频呼叫的一部分作为从用户202到另一个用户的语音信号通过网络传输至另一个设备。

图5A为示出如何确定增益的功能框图。图5A图解说明了处理框530，该处理框将谱分析应用到具有最强回声的输入y(t)以及波束形成器输出301以便生成对应的第一特性和第二特性，这些特性中的每一个都是频率的函数。用于帧n中的接收的信号的短时傅立叶变换（STFT）的模型是：

Y n (t, f) = H n (t, f) * X n (t, f) + N n (t, f)，

其中H n (t, f)为包括扬声器和麦克风的房间的冲激响应的STFT。X n (t, f)为通过扬声器播放出的信号（远端信号）的STFT。N n (t, f)为由麦克风接收的除了回声之外的任何其他东西（即近端语音和背景噪声）的STFT。

在AEC中使用的谱分析是使用快速傅立叶变换（FFT）计算的STFT。变换之后，计算功率谱并且在该谱上操作。

在上面的实例中，处理框执行傅立叶变换以便生成可以转换成功率谱的傅立叶谱。比值确定框540确定每个频带的比值C₂/C₁，并且将其作为边信息提供给AEC以用于确定抑制增益，其中C₁为描述输入信号y_n(t)的谱并且C₂为描述波束形成器输出信号301的谱。比值C₂/C₁代表每个频带中的波束形成器的有效增益。该比值在框543处与输入上的估计的回声相乘以获得波束形成器输出中的回声的估计。这用来生成AEC抑制增益的估计（框547）。

此外，比值可以用来提供模仿包括回声的波束形成器输入的合成信号。这借助于通过在除法函数542中将每个频带的分析的谱系数C₂除以该频带中的比值C₂/C₁缩放波束形成器输出的拷贝以便如其在输入信号中出现的那样重新创建回声而完成。可以将回声作为边信息提供给AEC。可替换地，除法缩放函数542可以在AEC中实现。

这允许AEC在合成信号中适应性调节其抑制增益。合成信号具有与波束形成器输入信号中的谱形状相似的谱形状的回声。

所执行的处理与AEC中执行来确定抑制增益的处理相同。因此，应当领会的是，该功能可以在AEC本身中实现。

优选实施例的回声消除器506应用到波束形成器输出上。波束形成过程将影响回声消除器506处接收的音频信号中的回声信号，并且因此基于波束形成器谱增益的估计而确定回声消除器增益。此外，可以基于来自接收的信号的谱分析的附加输入而改进回声路径模型。

图5B中图解说明了一个可替换的实施例。依照该实施例，在估计回声路径增益的步骤S408之后，基于接收的音频信号中的回声功率的估计确定回声消除器506施加的回声抑制的水平。回声功率通过将最强音频信号的回声路径增益

与从扩音器210输出的扩音器信号功率

相乘而估计，即：

。

通过这种方式，回声功率基于接收的音频信号中的选择的音频信号的回声路径增益而更新。接着，如图5B的框547中所示，将确定的波束形成器增益谱用于修改确定的回声抑制。然后，在回声消除器处施加修改的增益。

可以在其中将波束形成器输出应用到回声消除器的任何方案中应用本发明的实施例。当如上所述基于接收的音频信号中的最强音频信号的回声路径增益估计回声功率时，其具有以下优点：

1. 根据标准回声消除之后的基本假设和要求，Y_max(t, f)和X(t, f)优选地是线性相关的，而不管波束形成器的类型如何（因为Y_max(t, f)在波束形成过程之前与音频信号有关），并且因而这种关系可以使用线性估计方法由很好地近似。因此，即使波束形成器504不使用线性函数f()，回声功率的估计也可以使用上面描述的线性模型而有效地确定。这放松了对于波束形成器504的约束，使得波束形成函数f()可以是线性的或者非线性的。应当指出的是，回声消除器可以包括处理回声路径中的非线性的非线性模型。然而，在回声路径中引入另外的非线性——其中一些非线性可能不容易建模，将对于回声消除器的近端透明度具有影响。

2.

的时间变化应当与标准回声消除情况相同，而不管波束形成器行为如何。这是因为最强的接收的音频信号的回声路径增益的估计

在波束形成过程之前就确定。这放松了对于波束形成器504的约束，使得波束形成器输出可以在时间上缓慢地或者快速地变化，而不会不利地影响供回声消除器506使用的回声功率的估计

。

总之，在本发明的优选实施例中，在将波束形成器应用到接收的音频信号之前，回声消除器506的行为基于多个接收的音频信号之一(Y_max(t, f))，而回声消除器506被应用到波束形成器504的输出。而且，回声消除器506估计的回声可以通过确定波束形成器的有效增益并且补偿它而修改。

在上面描述的实例实施例中，麦克风阵列106为麦克风（302₁、302₂和302₃）的1-D阵列，其允许波束形成器504区分在一维中（例如沿着水平轴）以不同角度接收的音频信号。在可替换的实施例中，麦克风阵列106可以是麦克风的2-D或者3-D阵列，其将分别允许波束形成器504区分在二维或三维中（例如沿着水平、竖直和深度轴）以不同角度接收的音频信号。此外，在优选的实施例中，麦克风阵列106为均匀麦克风阵列302。然而，在可替换的实施例中，麦克风阵列106可以是非均匀麦克风阵列302。

如上面所描述的，波束形成器504、回声消除器506和处理框508可以以CPU 104上执行的软件实现或者以设备102中的硬件实现。当波束形成器504、回声消除器506和处理框508以软件实现时，它们可以通过非瞬态计算机可读介质上包含的计算机程序产品而提供，所述计算机程序产品被这样配置，以便当在设备102的CPU 104上执行时如上所述执行波束形成器504、回声消除器506和处理框508的功能。方法步骤S404至S414可以由波束形成器504、回声消除器506和处理框508的功能框（作为软件或硬件框）执行。

尽管上面描述的实施例参照了接收来自单个用户202的一个希望的音频信号（d₁）的麦克风阵列106，但是应当理解的是，麦克风阵列106可以接收来自例如会议呼叫中的多个用户的音频信号，这些音频信号可以全部作为希望的音频信号对待。在该方案中，多个希望的音频信号源到达麦克风阵列106。

设备102可以是用于实现本发明的计算机或者任何其他适当的设备。此外，可以允许波束形成器504、回声消除器506和处理框508用于使用立体声麦克风拾音的任何适当的装备。可以允许上面描述的方法作为设备内的话音质量增强（VQE）模块的一部分并且运行在任何适当的平台上。

在上面描述的实施例中，扩音器210为用于输出单声道音频信号的单声道扩音器，并且来自波束形成器504的波束形成器输出为单个信号。然而，这只是为了简化介绍并且本发明不限于仅仅用于这样的系统。换言之，本发明的一些实施例可以使用立体声扩音器以用于输出立体声音频信号，并且本发明的一些实施例可以使用输出多个信号的波束形成器。

本发明对于应用到基于回声抑制的回声消除器是特别有用的，因为它仅仅要求使用一个回声消除器（例如上面描述的回声消除器506），并且因为波束形成器整合到回声消除器中于是相当简单。对于使用基于减损的回声消除（其可以是线性的或者非线性的）和回声抑制二者的混合回声消除器而言，情形稍微不同。混合回声消除器的回声减损部分可能需要应用到波束形成器麦克风输入信号中的每一个信号。在这种情况下，当依照本发明实现混合回声消除时，回声消除器的回声抑制部分仍然在波束形成器之后执行。

尽管在上面描述的实施例中处理框508被示为与波束形成器504和回声消除器506分离，但是在一些实施例中，处理框508的一些或者全部功能可以在波束形成器504和/或回声消除器506内实现。

尽管已经参照优选实施例特别地示出和描述了本发明，但是对于本领域技术人员而言，应当理解可以在形式和细节方面的进行各种改变，而不脱离所附权利要求限定的本发明的范围。

Claims

1. 一种处理设备处的音频信号的方法，该设备包括用于输出音频信号的音频输出装置，该方法包括：

在设备的多个麦克风处接收音频信号；

处理波束形成器输出以便生成第二特性；

将回声消除装置应用于波束形成器输出，从而从波束形成器输出中抑制由从音频输出装置输出的音频信号引起的回声；

使用第一特性和第二特性之间的关系确定回声消除装置的操作参数。

2. 权利要求1的方法，其中以下之一：

（i）每个特性包括功率谱，并且所述关系限定波束形成器增益谱，

（ii）每个特性具有多个频带的每一个频带中的系数，针对每个频带确定所述关系，以及

（iii）所述关系为第一特性与第二特性的比值。

3. 权利要求1的方法，包括在应用回声消除装置之前适应性调节从音频输出装置到所述多个麦克风的回声路径的估计的步骤。

4. 权利要求3的方法，其中以下至少一个：

（i）在接收的音频信号上执行所述适应性调节估计的步骤，

（ii）将识别的波束形成器增益谱应用到波束形成器输出以便生成合成信号，其中在合成信号上执行所述适应性调节估计的步骤，以及

（iii）所述适应性调节估计的步骤包括使用提供给音频输出装置的音频信号生成回声路径估计。

5. 前面任一权利要求的方法，包括根据由所述多个麦克风接收的音频信号中的所述至少一个估计回声路径增益；

通过将估计的回声路径增益乘以第一特性与第二特性之间的所述关系而估计波束形成器输出中的回声；

使用波束形成器输出中的估计的回声确定所述操作参数。

6. 权利要求1-4中任何一项的方法，包括：根据由所述多个麦克风接收的音频信号中的所述至少一个测量回声路径增益；以及

使用所述测量的回声路径增益确定波束形成器输出中的回声功率的估计，其中所述操作参数基于波束形成器输出中的回声功率的估计而被确定，并且然后基于第一特性与第二特性之间的所述关系而被修改。

7. 前面任一权利要求的方法，其中所述操作参数包括由回声消除装置施加到波束形成器输出的回声抑制的水平。

8. 一种用于处理音频信号的设备，该设备包括：

音频输出装置，其用于输出音频信号；

多个麦克风，其用于接收音频信号；

波束形成器，其被配置成将波束形成器系数应用到接收的音频信号，从而生成波束形成器输出；

回声消除装置，其被配置成应用到波束形成器输出，从而从波束形成器输出中抑制由从音频输出装置输出的音频信号引起的回声；以及

处理装置，其用于生成由所述多个麦克风接收的音频信号中的至少一个的第一特性，生成波束形成器输出的第二特性，并且用于通过考虑第一特性和第二特性之间的关系而确定回声消除装置的操作参数。

9. 权利要求8的设备，其中所述回声消除装置包括被设置成应用到波束形成器输出的回声抑制装置，该回声抑制装置包括谱分析功能。

10. 一种用于处理设备处的音频信号的计算机程序产品，该设备包括多个用于接收音频信号的麦克风以及用于输出音频信号的音频输出装置，该计算机程序产品包含在非瞬态计算机可读介质上并且被这样配置，以便当在设备的处理器上执行时执行权利要求1-7中任何一项的步骤。