CN103888630A

CN103888630A - 用于控制声学回声消除的方法和音频处理装置

Info

Publication number: CN103888630A
Application number: CN201210560728.0A
Authority: CN
Inventors: 孙学京; 施栋; 李凯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2014-06-25
Also published as: EP2936693B8; EP2936693B1; US20150332704A1; WO2014099281A1; EP2936693A1; US9653092B2; WO2014099281A9

Abstract

本申请描述了一种用于控制声学回声消除的方法和音频处理装置。在一种实施方式中，该音频处理装置包括：用于抑制麦克风信号中的声学回声的声学回声消除器，用于减小所接收到的信号的延迟抖动的抖动缓冲器，以及用于通过参照抖动缓冲器中的至少一个未来帧来控制声学回声消除器的联合控制器。

Description

用于控制声学回声消除的方法和音频处理装置

技术领域

本申请总体上涉及音频信号处理。更具体地，本申请的实施方式涉及一种用于控制声学回声消除的方法和音频处理装置，用于改善与声学回声消除有关的语音通信体验。

背景技术

在语音通信中，声学回声消除是极大的挑战。声学回声是由以下事实引起的：麦克风可能重新捕获由扬声器播放的音频信号（扬声器信号或参考信号），因此，另一侧（远端）的交谈者会连同近端的输入一起听到他自己的声音。

延迟抖动是另一个问题，尤其是在语音通信在包（分组）交换网络上进行时，并且，通常会设置用于使延迟抖动平滑的抖动缓冲器，以改善语音通信体验。

发明内容

根据本申请的一种实施方式，提供了一种音频处理装置，包括：用于抑制麦克风信号中的声学回声的声学回声消除器、用于减小所接收到的信号的延迟抖动的抖动缓冲器、以及用于通过参照抖动缓冲器中的至少一个未来帧来控制声学回声消除器的联合控制器。

根据另一种实施方式，提供了一种在音频处理装置中用于控制声学回声消除的方法，该音频处理装置包括：用于抑制麦克风信号中的声学回声的声学回声消除器和用于减小所接收到的信号的延迟抖动的抖动缓冲器。该方法包括：通过参照抖动缓冲器中的至少一个未来帧来控制声学回声消除器。

附图说明

通过示例而非限制来说明本申请，在附图中，相同的附图标记指代相似的元件，其中：

图1A是示意性地示出了可以应用本申请的实施方式的一种示例性语音通信系统的图；

图1B是示意性地示出了可以应用本申请的实施方式的另一种示例性语音通信系统的图；

图2是示出了根据本申请的实施方式的音频处理装置的图；

图3是示出了根据图2所示的实施方式的变型的音频处理装置的图；

图4是示出了根据本申请的另一种实施方式的音频处理装置的图；

图5是示出了根据本申请的又一种实施方式的音频处理装置的图；

图6是示出了根据图5所示的实施方式的变型的音频处理装置的图；

图7是示出了根据本申请的再一种实施方式的音频处理装置的图；

图8是示出了用于实现本申请的实施方式的示例性系统的框图；以及

图9至图14是示出了根据本申请的实施方式及其某些变型的用于控制声学回声消除的方法的流程图。

具体实施方式

下面参照附图来描述本申请的实施方式。应当注意，为了简洁，在附图和描述中省略了与本领域的技术人员公知的但是对于理解本申请而言并非必需的部件和处理有关的表示和描述。

本领域的技术人员应当理解，本申请的各个方面可以实施为系统、设备（例如移动电话、便携式媒体播放器、个人计算机、服务器、电视机机顶盒或数字录像机或者任意其他媒体播放器）、方法或者计算机程序产品。因此，本申请的各个方面可以采用硬件的实施方式的形式、软件的实施方式（包括固件、常驻软件、微码等）的形式或者软件方面与硬件方面相结合的实施方式的形式，在本文中其可以总体上被称为“电路”、“模块”或“系统”。此外，本申请的各个方面可以采用包括在一个或更多个计算机可读介质中的计算机程序产品的形式，其中，计算机可读介质上包括有计算机可读程序代码。

可以利用一个或更多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体系统、装置或设备、或者以上的任意适当的组合。计算机可读存储介质的更具体的示例（非穷举性的列举）可以包括：具有一条或更多条导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或闪存）、光纤、便携式致密盘只读存储器（CD-ROM）、光学存储设备、磁性存储设备或者以上的任意适当组合。在本文献的上下文中，计算机可读存储介质可以是能够包含或者存储用于由指令执行系统、装置或设备来使用或者与其结合使用的程序的任意有形的介质。

计算机可读信号介质可以包括其中包括有计算机可读程序代码的传播的数据信号，该数据信号为基带信号或者作为载波的一部分。这样的传播的信号可以采用各种形式，包括但不限于电磁信号或光学信号或者其任意适当的组合。

计算机可读信号介质可以为不是计算机可读存储介质并且可以传递、传播或传输用于由指令执行系统、装置或设备使用或者与其结合使用的程序的任意计算机可读介质。

包括在计算机可读介质上的程序代码可以使用任意适当的介质发送，介质包括但不限于无线、有线线路、光纤光缆、射频（RF）等或者以上的任意适当的组合。

用于执行本申请的各个方面的操作的计算机程序代码可以用一种或更多种编程语言的任意组合来编写，编程语言包括面向对象的编程语言比如Java、Smalltalk、C++等以及传统的过程编程语言比如“C”编程语言或类似的编程语言。程序代码可以在用户的计算机上作为单独软件包整体执行，或者部分在用户的计算机上执行且部分在远程计算机上执行或者整体在远程计算机或服务器上执行。在后一种场景中，远程计算机可以通过包括局域网（LAN）或广域网（WAN）、或者可以到外部计算机的连接（例如，通过使用因特网服务提供商的因特网）的任意类型的网络连接至用户的计算机。

下面参照根据本申请的实施方式的方法、装置（系统）和计算机程序产品的流程图说明和/或框图来描述本申请的各个方面。应当理解，流程图说明和/或框图的每个块以及流程图说明和/或框图中的块的组合可以用计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，以产生机器，以使得通过计算机或其他可编程数据处理装置的处理器来执行的指令产生用于实现流程图和/或框图块或多个块中所指定的功能/行为的器件。

这些计算机程序指令还可以存储在如下计算机可读介质中：该计算机可读介质可以引导计算机、其他可编程数据处理装置或其他设备以特定的方式工作，以使得存储在计算机可读介质中的指令产生制品，该制品包括实现流程图和/或框图块或多个块中所指定的功能/行为的指令。

计算机程序指令还可以加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列运算操作，从而产生计算机实现的处理，以使得在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图块或多个块中所指定的功能/行为的处理。

系统概述

图1A是示意性地示出了可以应用本申请的实施方式的一种示例语音通信系统的图。

如图1A所示，用户A操作通信终端A，用户B操作通信终端B。在语音通信会话中，用户A和用户B通过他们的通信终端A和B彼此交谈。通信终端A和B通过数据链路103耦接。数据链路103可以实现为点到点连接或者通信网络。在用户A和用户B中的任一侧，对由用户的通信终端捕获的音频信号的音频块执行VAD（Voice Activity Detection，语音活动检测）。如果在音频块中判断语音存在，则对该音频块执行相应的处理（例如，施加适合语音的增益），并且通过数据链路103将音频块发送给另一个用户的通信终端A。如果在音频块中判断没有语音存在，则对音频块进行相应的处理（例如，施加适合非语音的增益），并且通过数据链路103将音频块发送给另一个用户的通信终端A。在这种情况下，还可以向另一个用户的通信终端发送表示静默周期的简单信息，或者，可以通过不发送任何信息来表示对应于该音频块的周期是静默的。另一个用户的通信终端接收所发送的音频块，并且将所发送的音频块存储至与同一时间对应的条目，作为其抖动缓冲器中的音频块，以消除传输抖动。通过解码和处理来馈送抖动缓冲器中的音频块，以在通信终端的一个或多个输出换能器处再现这些音频块。对所述简单信息的接收或者没有接收到任何信息可以在抖动缓冲器中产生相应的空条目。

图1B是示意性地示出了可以应用本申请的实施方式的另一种示例语音通信系统的图。在该示例中，可以在多个用户之间进行语音会议。

如图1B所示，用户A操作通信终端A，用户B操作通信终端B，用户C操作通信终端C。在语音会议会话中，用户A、用户B和用户C分别通过他们的通信终端A、B和C彼此交谈。图1B所示的通信终端与图1A所示的通信终端具有相同的功能。然而，通信终端A、B和C通过公共数据链路113或单独的数据链路113耦接至服务器。数据链路113可以实现为点到点连接或者通信网络。在用户A、用户B和用户C中的任一侧，对由用户的通信终端捕获的音频信号的音频块执行VAD。如果在音频块中判断语音存在，则对音频块执行相应的处理（例如，施加适合语音的增益），并且通过数据链路113将音频块发送至服务器。如果在音频块中判断没有语音存在，则对音频块执行相应的处理（例如，施加适合非语音的增益），并且通过数据链路113将音频块发送至服务器。在这种情况下，还可以向服务器115发送表示静默周期的简单信息，或者，可以通过不发送任何信息来表示对应于该音频块的周期是静默的。服务器接收所发送的音频块，并且将所发送的音频块存储至与同一时间对应的条目，分别作为其与用户相关联的抖动缓冲器中的音频块，以消除传输抖动。抖动缓冲器中的与同一时间对应的音频块被混合成一个音频块，并且，所混合的音频块发送给所有的用户A、用户B和用户C。对所述简单信息的接收或者没有接收到任何信息可以在抖动缓冲器中产生相应的空条目。用户的通信终端从服务器接收音频块，并且将这些音频块存储至与同一时间对应的条目，作为他们的抖动缓冲器中的音频块，以消除传输抖动。在每个通信终端中，抖动缓冲器中的音频块被馈送给语音处理器，以通过通信终端的扬声器系统来再现这些音频块。虽然图1B示出了三个通信终端，然而，系统中当然可以耦接有两个或更多个通信终端。

总体解决方案

在传统的语音通信系统中，基于扬声器信号（也称为参考信号）来进行声学回声消除（AEC，Acoustic Echo Cancellation）。具体地，AEC单元仅基于参考信号中产生特定回声的那些音频帧或者较早的帧来执行对该特定回声的消除。

在本发明中，提出了利用抖动缓冲器（JB,Jitter Buffer）中已经接收到但是还未播放的帧来增强声学回声消除。以这种方式，声学回声消除不仅考虑了当前帧和过去帧，而且还考虑了未来帧，因此具有更好的效果并且更鲁棒。

如图2所示，根据第一实施方式，音频处理装置200包括用于抑制麦克风信号中的声学回声的声学回声消除器（AEC，Acoustic EchoCanceller）204；用于减小所接收到的信号的延迟抖动的抖动缓冲器（JB）202；以及用于通过参照抖动缓冲器中的至少一个未来帧来控制声学回声消除器的联合控制器206。

在本实施方式中，如在传统的解决方案中一样，AEC从麦克风信号中分离并且过滤出通过LEM（扬声器-场地-麦克风，即回声路径）208传递、在LEM 208的传递函数作用下失真的扬声器信号。然而，根据本申请的实施方式，设置有用于基于已经在JB 202中接收到的至少一个未来帧来控制AEC的联合控制器206。这样的控制可以包括：调节AEC中的自适应滤波器的收敛速率和/或步长、调节AEC中的中心削波器的阈值、和/或调节AEC中的自适应滤波器的滤波器抽头。因此，可以根据即将到来的参考信号对AEC进行预先调节，因此，AEC可以更适应于该参考信号的特性。

注意，在此使用了术语“帧”。在本申请的上下文中，假定“抖动缓冲器”是存储音频帧的“逻辑”抖动缓冲器。然而，取决于具体实现，物理抖动缓冲器可以存储任何形式的包或者音频帧。因此，贯穿本说明书，术语“抖动缓冲器”应当被理解为包括实际上存储音频帧的抖动缓冲器和实际上存储任何形式的包（块）的抖动缓冲器两者，在需要音频帧的情况下，该包可以在被播放之前或者在被馈送到任何部件中之前被解码为音频帧。在本申请中将不明确讨论解码处理，尽管它确实存在。因此，术语“帧”应当被理解为包括已经从包中解码的或者仍然编码在包中的真正的帧、或者包括一个或更多个帧的包本身、或者编码在包中的或已经从包中解码的多于一个的帧。换言之，在本申请的上下文中，涉及帧的处理还可以被理解为涉及包的处理、或者同时涉及包中包含的多于一个的帧的处理。

如图3所示，在第一实施方式的变型300中，还设置有抖动缓冲器控制器310，用于在抖动缓冲器中的帧的数量小于预定阈值时增大抖动缓冲器的长度，以使得抖动缓冲器中有足够多的未来帧能够由AEC使用。增大JB的长度意味着等待更长时间，以使得JB接收并且存储更多的帧。例如，由于JB中的第一帧是要立刻播放的当前帧，因此JB还应包含至少一个更多的帧，用作被联合控制器参照的未来帧。如果在某个时间点处，JB仅包含一个帧（即当前帧），则JB应增加一个帧。

增大JB的长度的某些其他场景是在回声路径自适应处理开始时或者在音频处理系统被复位之后。在这样的场景下，由于没有可以参照的历史，因此，缓冲器中需要有更多的未来帧，从而可能需要增大JB的长度。

当然，JB的长度不可能无限增大，而是具有上限，上限可以固定为预定常量或者是根据各种现有技术自适应的。

JB长度的增大可以用各种技术来实现，包括：增加静默帧或新的合成帧，或者在JB的头部重复播放帧（即，刚刚被推出JB的帧）。通常，可以在语音段开始之前添加静默帧，这是因为在语音段之前为静默周期。当在语音段内时，可以取决于具体的情况来确定要添加哪种帧。当延迟抖动相对较平缓时，帧重复是可接受的并且不会引起明显的畸变。当延迟抖动严重时，可能需要插入（一个或多个）静默帧以避免明显的畸变，或者，可以插入（一个或多个）新的合成帧以掩蔽（一个或多个）包的丢失。然而，对于长时间的包丢失，新的合成帧最终必须衰减至零以避免畸变。

根据该实施方式，（一个或多个）未来帧的任何信息、包括未来帧本身可以用于控制AEC，这通常是通过控制AEC的工作参数来实现的。例如，可以使用抖动缓冲器中的至少一个未来帧的信号强度来进行控制。在此，术语“信号强度”应当在广义上来理解，表示能够直接或者间接地反映音频帧的功率或能量的任意量度。这样的量度可以包括但不限于信号功率、对数信号功率、信号幅度等。

在上述实施方式及其变型中，联合控制器206可以不是一直地工作，而是可以被配置成在需要时工作。例如，联合控制器可以被配置成在声学回声消除器检测到可能的滤波器发散时被触发。通常，AEC将包括用于消除声学回声的自适应滤波器。可以用滤波器系数的幅度/模的波动来量度滤波器发散。如果过去的若干帧中的幅度/模的方差超过预定阈值，则表示发散。此外，还可以通过检测高的残余回声水平来触发联合控制器，这可以通过计算残余回声的功率与滤波器输出的功率的比值并且判断该比值是否超过预定阈值来估算。

收敛速率控制

图4示出了通过进一步修改第一实施方式及其变型而获得的第二实施方式，因此，省略了与已经描述的部件有关的详细描述。应当注意，正如在第一实施方式中一样，JB控制器310是可选的。

根据第二实施方式，声学回声消除器204包括自适应滤波器2042，并且，联合控制器206被配置成分别响应于至少一个未来帧的信号强度的增大或减小来增大或减小自适应滤波器的收敛速率。

例如，如果下一个或下几个帧具有非常低的能量，则可以降低收敛速率以减缓自适应，因为可以预见麦克风信号中的回声较弱。当回声弱时，麦克风信号很有可能被周围噪声或近端语音所主导。因此，在这种情况下减缓自适应可以避免滤波器发散。类似地，当下一个或下几个帧具有高能量的语音信号时，可以提高收敛速率，因为可以预见麦克风信号中的回声较强。

大多数声学回声消除器基于基于NLMS（归一化的最小均方）的自适应滤波算法。设X(ω，t)、D(ω，t)、ω和t分别代表参考信号、麦克风信号、频率和时间。NLMS的关键运算为：

合成回声信号：U(ω，t)＝H(ω，t)X(ω，t)，其中，H(ω，t)是自适应滤波器；

生成残余信号：E(ω，t)＝D(ω，t)-U(ω，t)；以及

更新自适应滤波器：

H (ω, t + 1) = H (ω, t) + \frac{μ}{P_{X} (ω, t) + ϵ} X^{*} (ω, t) E (ω, t),

其中，P_X(ω，t)是参考信号的功率，μ是步长，ε是用于避免零分母的预定的正规化常数。

可知，步长会影响自适应滤波器的收敛速率。因此，当自适应滤波器包括基于NLMS的滤波器时，联合控制器可以被配置成分别响应于至少一个未来帧的信号强度的增大或减小来增大或减小自适应滤波器的步长。

为了确定至少一个未来帧的信号强度是增大还是减小，可以将至少一个未来帧的平均未来信号功率与当前帧的信号功率进行比较。在本申请的上下文中，术语“比较”表示通过减法操作进行的比较或者通过除法操作进行的比较。可以通过确定差值是否大于0或者通过确定比值是否大于1来确定是增大还是减小。在具体实现中，可以通过适当的算法将收敛速率或步长与差值或比值直接相关，并且，“外部观察者”不必明确地知道信号强度是增大还是减小。

例如，当通过将至少一个未来帧的平均未来信号功率与当前帧的信号功率进行比较来确定是增大还是减小步长（即，至少一个未来帧的信号强度增大还是减小）时，可以使用下式（或其任何变型）来直接计算步长μ，然后更新步长μ：

μ (t) = C \cdot \frac{\frac{1}{Q} Σ_{q = 1}^{Q} {| X_{t + q} |}^{2}}{X^{2} (t)} - - - (1)

其中，μ(t)是时刻t处帧的自适应滤波器的步长，X²(t)是时刻t处当前帧的信号功率，|X_t+q|²是时刻t处的帧之后的第q个帧的信号功率，q和Q是正整数，C是预定常数。

作为替选方案，联合控制器可以被配置成通过将至少一个未来帧的平均未来信号功率与紧在当前帧之前的帧的信号功率和当前帧的信号功率的加权平均值进行比较，来确定至少一个未来帧的信号强度是增大还是减小。以这种方式，可以将过去帧考虑在内，从而使得对步长的估算更加合理，并且可以避免步长的剧烈波动。因此，等式（1）可以重写为：

μ (t) = C \cdot \frac{\frac{1}{Q} Σ_{q = 1}^{Q} {| X_{t + q} |}^{2}}{α X^{2} (t - 1) + (1 - α^{'}) X^{2} (t)} - - - (2)

其中，X²(t)是时刻t处的帧的信号功率，X²(t-1)是在时刻t处的帧之前的帧的信号功率，α是平滑因子并且在0到1之间。

作为另一种替选方案，联合控制器可以被配置成通过将至少一个未来帧的平均未来信号功率与当前语音段内的所有在前帧的信号功率和当前帧的信号功率的加权平均值进行比较，来确定至少一个未来帧的信号强度是增大还是减小。可以设置当前语音段内的每个在前帧的信号功率的加权值，以使得帧越早，加权值越小。一种解决方案是：可以对于不同数量的在前帧，预先定义不同的加权值集。作为另一种解决方案，可以通过迭代地执行等式（2）中提及的加权来实现加权操作。因此，等式可以重写为：

μ (t) - C \cdot \frac{\frac{1}{Q} Σ_{q = 1}^{Q} {| X_{t + q} |}^{2}}{σ_{X}^{2} (t)} - - - (3)

其中，

σ_{X}^{2} (t) = α σ_{X}^{2} (t - 1) + (1 - α) X^{2} (t) - - - (4)

其中，t-1表示紧在时刻t处的帧之前的帧，X²(t)是时刻t处的帧的信号功率，α是平滑因子并且在0到1之间。

在以上用于计算步长的等式中，作为至少一个未来帧的平均未来信号功率的分子通常是简单的平均值。然而，本申请不限于此，并且，可以采用与用于分母的算法类似的算法来计算分子。即，至少一个未来帧的平均未来信号功率可以是至少一个未来帧的信号功率的加权平均值。因此，等式（1）至（3）可以重写为：

μ (t) = C \cdot \frac{σ_{X}^{2} (t + Q)}{X^{2} (t)} - - - (1^{'})

μ (t) = C \cdot \frac{σ_{X}^{2} (t + Q)}{α X^{2} (t - 1) + (1 - α) X^{2} (t)} - - - (2^{'})

μ (t) = C \cdot \frac{σ_{X}^{2} (t + Q)}{σ_{X}^{2} (t)} - - - (3^{'})

其中，在计算至少一个未来帧的信号功率的加权平均值

时，至少一个未来帧的信号功率的加权值可以以类似于设置上述

的方式来设置。即，帧越早，加权值越小。一种解决方案是：可以对于不同数量的未来帧，预先定义不同的加权值集。作为另一种解决方案，可以通过迭代地执行等式（2）中提及的加权来实现加权操作。

σ_{X}^{2} (t + q) = α σ_{X}^{2} (t + q - 1) + (1 - α) X^{2} (t + q) - - - (4^{'})

一种更完善的方法是：如在Sun,X.,K.Yen,et al.(2010),Robust NoiseEstimation Using Minimum Correction with Harmonicity Control,Interspeech.Makuhari,Japan中那样，将比值R(t)（以上等式中的C之后的项）转换为概率：

p(t)＝R(t)exp(1-R(t))（5）

（6）

这表示，当未来功率相同或者更高时，使用预定步长，该步长预计应能使得滤波器以全速进行自适应。否则，减小步长以减缓滤波器自适应。即，联合控制器还可以被配置成将增大的步长保持在预定范围C内。另一方面，联合控制器还可以被配置成将减小的步长保持在预定值以上，以使得收敛速率不会减小得太多。这样维持了适当的声学回声消除功能。

总之，通过以所提出的方式使μ(t)更精细化，可以预先知道参考信号的信号强度的大幅减小或增大，以增强自适应滤波器的性能。

以下示例示出了如下具体场景：其中，在典型的VOIP系统中，由于连续传输或不完全的发送侧清除，有连续的小的噪扰信号泄漏到参考信号中。如果LEM没有生成大量回声，则希望在噪扰信号的短期突发期间冻结自适应，以保持语音质量。对于传统的自适应滤波器，即使希望将自适应滤波器的系数保持为接近零，参考信号中的所述短期突发也能使滤波器系数发散。发散的滤波器随后会产生语音失真。通过使用所提出的方法，在参考信号的信号强度增大和减小之前增大和减小步长，从而防止滤波器在这些短期突发期间更新。

AEC中的非线性处理

图5示出了通过进一步修改第一实施方式及其变型而获得的第三实施方式，因此，省略了与已经描述的部件有关的详细描述。应当注意，正如在第一实施方式中一样，JB控制器310是可选的。

根据第三实施方式，声学回声消除器204包括用于抑制残余回声的中心削波器2044；并且，联合控制器206被配置成分别响应于至少一个未来帧的信号强度的增大或减小来增大或减小中心削波器2044的阈值。

在实际应用中，回声路径中一般存在非线性，这通常归因于过驱动的扬声器信号。通常使用非线性处理，比如中心削波。在这种方法中，使用预定阈值，其中，在该阈值以下的样本幅度被设置为零。该阈值通常是可调的并且是自适应的。当未来帧可用时，可以实现该阈值的更好的自适应。如果未来帧的能量高，则预见未来处理的麦克风信号将包含更多的残余回声，从而可以相应地将该阈值设置为更高。

在一种传统的实施方式中，当没有未来帧可用时，传统地可以将中心削波器实现为其中，时刻t处的中心削波阈值为TH(t)，其根据信号功率估算来调整。

并且，

通过下式与θ(t)相关：

\tilde{e} (t) = \{\begin{matrix} 0, if | e (t) | < TH (t) \\ e (t), otherwise \end{matrix} - - - (7)

其中，e(t)是可能包含残余回声的AEC输出信号，是削波后的输出，

是使用当前帧（以及可能使用的过去的信号帧）估算的信号功率，A是预定常数。

该方法的一个问题在于信号功率估算。如果仅使用当前帧，则该瞬时功率估算的波动可能导致快速变化的削波阈值。结果，输出信号也将波动，从而产生讨厌的可感知的畸变。另一方面，如果如上述等式（4）中使用更多的历史帧来生成稳定的功率估算，则系统对信号水平的突然改变的响应会被延迟。

因此，根据第三实施方式，使用抖动缓冲器中的至少一个未来帧的信号强度。

再者，类似于第二实施方式，为了利用至少一个未来帧的信号强度的增大或减小，可以通过适当的算法将阈值与信号强度直接相关，并且，“外部观察者”不必明确地知道信号强度是增大还是减小。

例如，可以基于至少一个未来帧的平均未来信号功率来确定阈值。例如，可以使用下式（或者其任何变型）来直接计算阈值TH(t)：

TH (t) = A \cdot \sqrt{\frac{1}{Q} Σ_{q = 1}^{Q} {| X_{t + q} |}^{2}} - - - (8)

其中，TH(t)是时刻t处的帧的中心削波器的阈值，|X_t+q|²是时刻t处的帧之后的第q个帧的信号功率，q和Q是正整数，且Q是抖动缓冲器中时刻t处的帧之后的帧的数量，A是预定常数。

或者，替代使用简单的平均值，至少一个未来帧的平均未来信号功率可以是至少一个未来帧的信号功率的加权平均值。因此，等式（8）可以重写为：

TH (t) = A \cdot \sqrt{σ_{X}^{2} (t + Q)} - - - (9)

其中，与在等式（1’）至（3’）中具有相同的含义。

在以上讨论的示例中，阈值完全基于至少一个未来帧来确定，这可能使得阈值偏离音频信号的当前状态太多。因此，在变型中，联合控制器被配置成根据以下等式（10）或其任何变型来确定阈值：

TH (t) = A * (α * sqrt (σ_{X}^{2} (t + Q)) + (1 - α) * sqrt (σ_{X}^{2} (t))) - - - (10)

其中，

和

以及其他符号与之前讨论的具有相同的含义。即，联合控制器被配置成基于如下来确定阈值：1）至少一个未来帧的信号功率的加权平均值，以及2）当前语音段内的所有的在前帧的信号功率和当前帧的信号功率的加权平均值。在此，“加权平均值”与之前讨论的具有相同的含义。

替选地，类似于以上讨论的，

可以用至少一个未来帧的简单的平均值、即

来代替，和/或

可以用当前帧的信号功率、即X²(t)来代替。

以上非线性运算的目的在于去除被认为低于阈值TH(n)的小残余回声分量。因此，通过使用抖动缓冲器中的另外的信息，可以预先调整阈值。例如，如果参考信号的信号强度存在大的增加，则很可能AEC的输出中的残余回声功率也增大。因此，使用小值的TH(t)不足以去除强的残余回声信号（其幅度大）。如果使用也较大的或

来增大阈值TH(n)，则可以避免残余回声泄漏，从而改善整个系统的性能。

根据第三实施方式的变型600，还设置有用于估算过去帧的信号功率的方差的方差估算器612（图6），其中，联合控制器206被配置成响应于该方差超过预定阈值而被触发。即，可以首先估算过去的信号功率方差。如果检测到信号功率的大的变化，则这很可能表示残余回声的大的波动，从而需要访问抖动缓冲器以获取（一个或多个）未来帧。

回声路径延迟（EPD）估算

图7示出了通过进一步修改第一实施方式、第二实施方式以及他们的变型而获得的第四实施方式，因此，省略了与已经描述的部件有关的详细描述。应当注意，正如在第一实施方式和第二实施方式中那样，JB控制器310是可选的。

根据第四实施方式，音频处理装置700还包括用于在抖动缓冲器中接收到的帧之后插入所接收的帧的至少一个副本的复制单元714。类似于第二实施方式，AEC 204还包括自适应滤波器2042。此外，联合控制器206包括用于对要被用于调节自适应滤波器2042的滤波器抽头的回声路径延迟进行估算的回声路径延迟（EPD，Echo Path Delay）估算器2062。回声路径延迟估算器2062还包括锚帧检测器2064和延迟计算器2068，锚帧检测器2064用于从麦克风信号中检测具有预期关系的相邻帧，该预期关系源自所接收的帧与其至少一个副本之间存在的关系，延迟计算器2068用于通过计算所接收的帧及其至少一个副本的播放时间与检测到的相邻帧的捕获时间之间的时滞，来估算回声路径延迟。

不管是单路径还是多路径，回声脉冲响应的特征在于短的离散周期之后是长的平坦的周期之后。为了避免针对长的平坦的周期浪费滤波器抽头，已经提出了通过回声路径延迟估算来调节滤波器抽头，以提高算法的效率。

传统的EPD估算算法通常基于远端信号（参考信号）与近端（麦克风）信号之间的互相关。然而，对于功率敏感型设备而言，互相关仍然可能在计算成本上是昂贵的。此外，这样的方法的性能可能受到近端噪声或语音信号的严重影响。

在很多抖动缓冲器管理算法中，通常在有或者没有衰减的情况下在抖动缓冲器中插入复制的包，以便将丢包的影响最小化。该工作通常由丢包掩蔽（PLC，Packet Loss Concealment）单元来完成。当重复一个或更多个包时，很明显，他们的相关性会非常高。假定回声路径是线性的并且缓慢地改变，可以预期，对于在通过回声路径之后的麦克风信号中的这两个帧，这样高的相关性将得以保持。因此，通过检测相邻的麦克风信号帧是否表现出在参考信号中建立的预期关系，可以估算回声路径延迟，这可以通过计算参考信号中的锚帧与它们在麦克风信号中的“像”之间的时滞来估算。

为了本申请的目的，可以在抖动缓冲器中故意插入复制的包，仅用于产生“锚帧”而非为了丢包掩蔽。即，第四实施方式中的复制单元714可以是但不一定是PLC单元。

当在抖动缓冲器中复制所接收的帧时，可以应用衰减常数。设当前接收到的帧为x(n)，其中，n是帧索引，假定为了本申请的目的或者为了掩蔽所检测到的p-1个丢失的包而插入所接收到的帧的p-1个副本，并且将X(n)定义为在帧n处包含p个锚帧的矢量，则：

X(n)＝[x(n)，α₁x(n)，α₂x(n)，…α_n-1x(n)]（11）

其中，α₁，α₂，…α_p-1是预定衰减常数。因此，X(n)可以写为：

X(n)＝x(n)[1，α₁，α₂，…α_p-1]＝x(n)A_p （12）

其中，A_p是发送给EPD估算器2062的长度为p的矢量，EPD估算器2062在麦克风信号d(n)中查找X(n)的延迟版本（在传递函数作用下失真），并且估算参考信号与麦克风信号之间的延迟。

简而言之，复制单元可以被配置成以预定衰减常数插入至少一个副本，并且，锚帧检测器还可以被配置成通过检测具有与预定衰减常数类似的衰减常数的相邻帧来检测具有预期关系的相邻帧。

为了检测具有预期关系的相邻帧，锚帧检测器2064可以查找所接收的帧及其至少一个副本与麦克风信号中的连续帧之间的最显著相关性。作为示例但非限制，可以执行逐帧相关，以求得回声路径延迟的粗略估算。设M_p(n)表示包含帧索引n处的来自麦克风的p个连续的帧的平均幅度的矢量，即，

M_p(n)＝[|d(n)|,|d(n+1)|…|d(n+p-1)|]/|d(n)|（13）

其中，运算|d(n)|被定义为计算帧d(n)的平均幅度。因此，相关矢量R被定义为：

其中，

并且，D_max是回声路径延迟的预定上界。通过求R中最大值的索引，获得回声路径延迟D。

可以注意到，在图7中，复制单元（或者PLC）714被布置成控制抖动缓冲器202，并且，所接收的帧和所插入的帧从抖动缓冲器202被直接递送至联合控制器206、AEC 204和LEM 208，或者直接向抖动缓冲器202请求向联合控制器206、AEC 204和LEM 208递送所接收的帧和所插入的帧。然而，在替选方案中，复制单元（或者PLC）714还可以被布置在抖动缓冲器202的下游，并且，所接收的帧和所插入的帧从复制单元（或者PLC）714被直接递送至联合控制器206、AEC 204和LEM 208，或者直接向复制单元（或者PLC）714请求向联合控制器206、AEC 204和LEM 208递送所接收的帧和所插入的帧。

实施方式的组合和应用场景

以上讨论的所有实施方式及其变型可以用其任意组合来实现，并且，在不同的部分/实施方式中提及的但是具有相同或者相似功能的任意部件都可以实现为相同的或者单独的部件。

具体地，第二实施方式至第四实施方式都是第一实施方式及其变型的具体实现，但是，第二实施方式至第四实施方式彼此相对独立，并且，它们的功能和效果基本上不会相互影响，因此，第二实施方式至第四实施方式可以以任何形式彼此组合。例如，AEC可以包括如第二实施方式（图4）和第四实施方式（图7）中所述的自适应滤波器2042、和/或如第三实施方式（图5、6）中所述的中心削波器2044。再例如，联合控制器206可以控制如第二实施方式（图4）和第四实施方式（图7）中所述的自适应滤波器2042、和/或如第三实施方式（图5、6）中所述的中心削波器2044。当对自适应滤波器2042进行控制时，联合控制器206可以控制收敛速率、和/或步长、和/或滤波器抽头。最后，对于所有分离的实施方式及其任意组合，JB控制器310和方差估算器612是可选的。

如在本申请的“具体实施方式”部分的开始处所讨论的，本申请的实施方式可以用硬件或软件或者二者来实现。图8是示出了用于实现本申请的各个方面的示例性系统的框图。

在图8中，中央处理单元（CPU）801根据只读存储器（ROM）802中存储的程序或者从存储部分808加载到随机存取存储器（RAM）803的程序来执行各种处理。在RAM 803中，还根据需要存储在CPU 801执行各种处理等时所需要的数据。

CPU 801、ROM 802和RAM 803通过总线804连接至彼此。输入/输出接口805也连接至总线804。

以下部件连接至输入/输出接口805：输入部分806，包括键盘、鼠标等；输出部分807，包括显示器比如阴极射线管（CRT）、液晶显示器（LCD）等，以及扬声器等；存储部分808，包括硬盘等；以及通信部分809，包括网络接口卡比如LAN卡、调制解调器等。通信部分809通过网络比如互联网来执行通信处理。

根据需要，输入/输出接口805还连接有驱动器810。根据需要，驱动器810上安装有可拆除介质811，比如磁盘、光盘、磁光盘、半导体存储器等，以使得根据需要将从其读取的计算机程序安装到存储部分808中。

在上述部件用软件实现的情况下，构成软件的程序从网络比如互联网或者存储介质比如可拆除介质811安装。

用于控制声学回声消除的方法

在上文描述实施方式中的音频处理装置的过程中，显然还公开了一些处理或方法。下文中，在不重复上文中已经讨论过的某些细节的情况下给出这些方法的概述，但是，应当注意，虽然是在描述音频处理装置的过程中公开了这些方法，然而，这些方法并不一定采用上述这些部件，或者并不一定由这些部件来执行。例如，可以部分地或者完全地用硬件和/或固件来实现音频处理装置的实施方式，而以下讨论的用于控制声学回声消除的方法也可以完全用计算机可执行的程序来实现，虽然这些方法也可以采用音频处理装置的硬件和/或固件。

根据本申请的第五实施方式，提供了一种在音频处理装置中用于控制声学回声消除的方法，该音频处理装置包括：用于抑制麦克风信号中的声学回声的声学回声消除器和用于减小所接收到的信号的延迟抖动的抖动缓冲器，该方法包括：通过参照抖动缓冲器中的至少一个未来帧来控制声学回声消除器。

在如图9所示的第五实施方式的变型中，该方法还包括：确定抖动缓冲器中的帧的数量是否在预定阈值（Th1）之下（操作902）。如果是，则增大抖动缓冲器的长度（操作904），以使得抖动缓冲器（JB）中有足够多的未来帧能够由联合控制器使用。接着，在增大JB的长度之后，或者如果JB中的帧数不小于预定阈值，则基于JB中的至少一个未来帧来执行对AEC的控制。

一些增大JB的长度的其他场景是在回声路径自适应处理开始时或者在音频处理装置被复位之后。在这些场景中，由于没有可以参照的历史，因此抖动缓冲器中需要有更多的未来帧，从而可能必须增加JB的长度。

可以通过在语音段开始之前添加至少一个静默帧、或者通过在语音段内重复至少一个播放帧或添加至少一个静默帧或新的合成帧来增大JB的长度。JB的长度不能无限制地增加，而是应当受到上限的限制，该上限为预定常数或者为自适应的。

此外，控制声学回声消除器（AEC）可以包括：控制声学回声消除器的工作参数，比如AEC的自适应滤波器的滤波器的收敛速率、步长、和/或抽头、和/或AEC中的中心削波器的削波阈值。此外，这样的控制可以基于抖动缓冲器中的至少一个未来帧的信号强度。在此，术语“信号强度”应该在广义上来理解，表示能够直接或间接地反映音频帧的功率或能量的任意量度。这样的量度可以包括但不限于信号功率、对数信号功率、信号幅度等。

在如图10所示的第五实施方式的另一种变型1000中，控制声学回声消除器的操作（操作906）是在声学回声消除器检测到可能的滤波器发散（操作1002）时被触发的。在如图11所示的第五实施方式的又一变型1100中，控制声学回声消除器的操作（操作906）是在声学回声消除器检测到高的残余回声水平（操作1102）时被触发的。

根据本申请的第六实施方式，当声学回声消除器包括自适应滤波器时，控制声学回声消除器的操作可以包括：分别响应于至少一个未来帧的信号强度的增大或减小来增大或减小自适应滤波器的收敛速率。在很多情况下，收敛速率通过自适应滤波器比如基于NLMS的滤波器的步长来控制，因此，控制声学回声消除器的操作还可以包括：分别响应于至少一个未来帧的信号强度的增大或减小来增大或减小自适应滤波器的步长。

可以将增大和/或减小的步长保持在预定范围内。

为了确定至少一个未来帧的信号强度是增大还是减小，从而确定增大的或减小的步长，可以采用很多方法。例如，可以通过将至少一个未来帧的平均未来信号功率与当前帧的信号功率进行比较来实现；或者，通过将至少一个未来帧的平均未来信号功率与紧在当前帧之前的帧的信号功率和当前帧的信号功率的加权平均值进行比较来实现；或者，通过将至少一个未来帧的平均未来信号功率与当前语音段内的所有在前帧的信号功率和当前帧的信号功率的加权平均值进行比较来实现。

此外，上述至少一个未来帧的平均未来信号功率可以是至少一个未来帧的信号功率的加权平均值。总之，可以基于等式（1）至（6）以及（1’）至（4’）以及其已经讨论的或者尚未讨论的任意变型来确定步长。

根据本申请的第七实施方式，当声学回声消除器包括用于抑制残余回声的中心削波器时，控制声学回声消除器的操作可以包括分别响应于至少一个未来帧的信号强度的增大或减小来增大或减小中心削波器的阈值。

为了确定至少一个未来帧的信号强度是增大还是减小，从而确定增加的或减小的阈值，可以采用很多方法。例如，可以仅基于至少一个未来帧的平均未来信号功率或者连同当前帧的信号功率一起来确定阈值。或者，可以基于如下来确定阈值：1）至少一个未来帧的信号功率的平均值，以及2）当前语音段内的所有在前帧的信号功率和当前帧的信号功率的加权平均值。在此，至少一个未来帧的平均未来信号功率可以是至少一个未来帧的信号功率的加权平均值。总之，可以基于等式（8）至（10）以及其已经讨论的或者尚未讨论的任意变型来确定削波阈值。

在如图12所示的第七实施方式的变型1200中，该用于控制声学回声消除的方法还可以包括：估算过去帧的信号功率的方差（操作1202），其中，控制声学回声消除器中的中心削波器的操作（1206）被配置成响应于该方差超过预定阈值Th2（操作1204）而被触发。

在如图13所示的另一个变型1300中，以上已经讨论的对过去帧的信号功率的方差的判断（操作1204）和对高的残余回声水平的判断（操作1102）可以彼此组合。即，当方差大于预定阈值Th2时，或者当残余回声水平高时，基于JB中的至少一个未来帧控制中心削波器的阈值的操作可以被触发。应当注意，虽然在图13中，判断方差的操作（操作1204）被示出为在判断残余回声水平的操作（操作1102）之前，但是，这个顺序是没有关系的，该顺序可以颠倒，或者这两个操作可以同时执行。

根据如图14所示的本申请的第八实施方式，当声学回声消除器包括自适应滤波器时，控制声学回声消除器的操作可以包括：对要被用于调节自适应滤波器的滤波器抽头（操作1408）的回声路径延迟进行估算（操作1404和1406）。并且，用于控制声学回声消除的方法1400（图14）还可以包括：在抖动缓冲器接收到的帧之后插入所接收的帧的至少一个副本，从而设置锚帧（所接收的帧及其至少一个副本）以用作计算回声路径延迟的参考（操作1402）。并且，对回声路径延迟进行估算的操作还包括：从麦克风信号中检测锚帧（操作1404），即，检测具有预期关系的相邻帧，该预期关系源自所接收的帧与其至少一个副本之间存在的关系；并且通过计算所接收的帧及其至少一个副本的播放时间与检测到的相邻帧的捕获时间之间的时滞来估算回声路径延迟（操作1406）。

当插入所接收的帧的至少一个副本时，可以将预定衰减常数分配给副本，并且，检测操作可以包括：通过检测具有与预定衰减常数类似的衰减常数的相邻帧来检测具有预期关系的相邻帧。此外，这可以通过查找所接收的帧及其至少一个副本与麦克风信号中的连续帧之间的最显著相关性来实现。可以有很多互相关技术，并且已经通过等式（11）至（14）给出了示例。

插入至少一个副本的操作可以由丢包掩蔽单元为了掩蔽包的丢失而执行，但是，也可以仅为了本申请的目的或者为了这二者而执行。

类似于音频处理装置的实施方式，第五实施方式至第八实施方式及其任意变型的任意组合都是可行的。并且，由于这些实施方式彼此相对独立并且他们的功能和效果基本上不会相互影响，因此，当将这些实施方式相互组合时，各个实施方式的操作的顺序是没有关系的，并且，来自不同的实施方式的操作可以按照任意顺序来执行或者同时执行。当然，如果某些操作可以在不同的实施方式之间共享，则可以适当地调节顺序。

应当注意，本文中所使用的术语仅用于描述具体的实施方式的目的，而非意在限制本申请。如本文中所使用的，除非上下文清楚地指出，否则，单数形式的“一个（a）”、“一个（an）”和“该（the）”意在还包括复数形式。还应当理解，术语“包括（comprises）”和/或“包括（comprising）”在本说明书中使用时指定所说明的特征、整体、操作、步骤、元件和/或部件的存在，但是不排除一个或更多个其他特征、整体、操作、步骤、元件、部件和/或其组合的存在或添加。

如具体要求保护的，权利要求中的功能元件以及所有的手段或操作的相应的结构、材料、动作和等价内容意在包括用于结合其他要求保护的元件来执行功能的任意结构、材料或动作。提供对本申请的描述用于说明和描述的目的，而非意在以所公开的形式来穷举或限制本申请。本领域技术人员可以在不偏离本申请的范围和精神的情况下想到对本申请的很多修改和变化。选择并且描述实施方式，是为了最佳地解释本申请的原理和实际应用，并使得本领域的其他技术人员能够针对具有适于所考虑的具体用途的各种修改的各种实施方式理解本申请。

根据以上内容，可以看出描述了下述示例性实施方式（均用“EE”表示）。

EE 1.一种音频处理装置，包括：

声学回声消除器，用于抑制麦克风信号中的声学回声；

抖动缓冲器，用于减小所接收到的信号的延迟抖动；以及

联合控制器，用于通过参照所述抖动缓冲器中的至少一个未来帧来控制所述声学回声消除器。

EE2.根据EE1所述的音频处理装置，还包括抖动缓冲器控制器，用于在所述抖动缓冲器中的帧的数量在预定阈值以下时增大所述抖动缓冲器的长度，以使得所述抖动缓冲器中有足够多的未来帧能够由所述联合控制器使用。

EE3.根据EE2所述的音频处理装置，其中，所述抖动缓冲器控制器被配置成在回声路径自适应处理开始时或者在所述音频处理装置被复位之后，增大所述抖动缓冲器的长度。

EE4.根据EE2所述的音频处理装置，其中，所述抖动缓冲器控制器被配置成通过在语音段开始之前添加至少一个静默帧、或者在语音段内重复至少一个播放帧或添加至少一个静默帧或新的合成帧，来增大所述抖动缓冲器的长度。

EE5.根据EE2至EE4中任一项所述的音频处理装置，其中，所述抖动缓冲器的长度受到上限的限制，该上限为预定常数或者为自适应的。

EE6.根据EE1至EE5中任一项所述的音频处理装置，其中，所述联合控制器被配置成基于所述抖动缓冲器中的所述至少一个未来帧的信号强度来对所述声学回声消除器的工作参数进行控制。

EE7.根据EE6所述的音频处理装置，其中，所述信号强度用信号功率、对数信号功率和信号幅度中的任意一个表示。

EE8.根据EE6或EE7所述的音频处理装置，其中，所述联合控制器被配置成在所述声学回声消除器检测到可能的滤波器发散或高的残余回声水平时被触发。

EE9.根据EE1至EE8中任一项所述的音频处理装置，其中，

所述声学回声消除器包括自适应滤波器；以及

所述联合控制器被配置成分别响应于所述至少一个未来帧的信号强度的增大或减小来增大或减小所述自适应滤波器的收敛速率。

EE10.根据EE9所述的音频处理装置，其中，

所述自适应滤波器包括基于归一化最小均方的滤波器；以及

所述联合控制器被配置成分别响应于所述至少一个未来帧的信号强度的增大或减小来增大或减小所述自适应滤波器的步长。

EE11.根据EE9或EE10所述的音频处理装置，其中，所述联合控制器还被配置成将增加和/或减小的步长保持在预定范围内。

EE12.根据EE9至EE11中任一项所述的音频处理装置，其中，所述联合控制器被配置成通过将1）所述至少一个未来帧的平均未来信号功率与2）当前帧的信号功率进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

EE13.根据EE9至EE11中任一项所述的音频处理装置，其中，所述联合控制器被配置成通过将1）所述至少一个未来帧的平均未来信号功率与2）紧在当前帧之前的帧的信号功率和所述当前帧的信号功率的加权平均值进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

EE14.根据EE9至EE11中任一项所述的音频处理装置，其中，所述联合控制器被配置成通过将1）所述至少一个未来帧的平均未来信号功率与2）当前语音段内的所有在前帧的信号功率和当前帧的信号功率的加权平均值进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

EE15.根据EE12至EE14中任一项所述的音频处理装置，其中，所述至少一个未来帧的所述平均未来信号功率是所述至少一个未来帧的信号功率的加权平均值。

EE16.根据EE1至EE15中任一项所述的音频处理装置，其中，

所述声学回声消除器包括用于抑制残余回声的中心削波器；以及

所述联合控制器被配置成分别响应于所述至少一个未来帧的信号强度的增大或减小来增大或减小所述中心削波器的阈值。

EE17.根据EE16所述的音频处理装置，其中，所述联合控制器被配置成基于1）所述至少一个未来帧的平均未来信号功率和2）当前帧的信号功率，来确定所述阈值。

EE18.根据EE17所述的音频处理装置，其中，所述联合控制器被配置成基于1）所述至少一个未来帧的信号功率的平均值以及2）当前语音段内的所有的在前帧的信号功率和当前帧的信号功率的加权平均值，来确定所述阈值。

EE19.根据EE17或EE18所述的音频处理装置，其中，所述至少一个未来帧的所述平均未来信号功率是所述至少一个未来帧的信号功率的加权平均值。

EE20.根据EE16至EE19中任一项所述的音频处理装置，还包括用于估算过去帧的信号功率的方差的方差估算器，其中，所述联合控制器被配置成响应于所述方差超过预定阈值而被触发。

EE21.根据EE1至EE20中任一项所述的音频处理装置，还包括用于在所述抖动缓冲器中接收到的帧之后插入所接收的帧的至少一个副本的复制单元，其中，

所述声学回声消除器包括自适应滤波器；以及

所述联合控制器包括回声路径延迟估算器，用于对要被用于调节所述自适应滤波器的滤波器抽头的回声路径延迟进行估算，其中，

所述回声路径延迟估算器包括：

锚帧检测器，用于从所述麦克风信号中检测具有预期关系的相邻帧，所述预期关系源自所接收的帧及其至少一个副本之间存在的关系；以及

延迟计算器，用于通过计算所接收的帧及其至少一个副本的播放时间与检测到的相邻帧的捕获时间之间的时滞，来估算所述回声路径延迟。

EE22.根据EE21所述的音频处理装置，其中，

所述复制单元被配置成以预定衰减常数插入所述至少一个副本，以及

所述锚帧检测器还被配置成通过检测具有与所述预定衰减常数类似的衰减常数的所述相邻帧来检测具有所述预期关系的所述相邻帧。

EE23.根据EE21或EE22所述的音频处理装置，其中，

所述锚帧检测器还被配置成通过查找所接收的帧及其至少一个副本与所述麦克风信号中的连续帧之间的最显著相关性，来检测具有所述预期关系的相邻帧。

EE24.根据EE21至EE23中任一项所述的音频处理装置，其中，所述复制单元包括丢包掩蔽单元。

EE25.一种在音频处理装置中用于控制声学回声消除的方法，所述音频处理装置包括：用于抑制麦克风信号中的声学回声的声学回声消除器和用于减小所接收到的信号的延迟抖动的抖动缓冲器，所述方法包括：

通过参照所述抖动缓冲器中的至少一个未来帧来控制所述声学回声消除器。

EE26.根据EE25所述的用于控制声学回声消除的方法，还包括：在所述抖动缓冲器中的帧的数量在预定阈值以下时增大所述抖动缓冲器的长度，以使得所述抖动缓冲器中有足够多的未来帧能够由所述联合控制器使用。

EE27.根据EE26所述的用于控制声学回声消除的方法，其中，所述增大所述抖动缓冲器的长度的操作在回声路径自适应处理开始时或者在所述音频处理装置被复位之后执行。

EE28.根据EE26所述的用于控制声学回声消除的方法，其中，所述增大所述抖动缓冲器的长度的操作包括：在语音段开始之前添加至少一个静默帧，或者在语音段内重复至少一个播放帧或添加至少一个静默帧或新的合成帧。

EE29.根据EE26至EE28中任一项所述的用于控制声学回声消除的方法，其中，所述抖动缓冲器的长度受到上限的限制，该上限为预定常数或者为自适应的。

EE30.根据EE25至EE29中任一项所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：基于所述抖动缓冲器中的所述至少一个未来帧的信号强度来控制所述声学回声消除器的工作参数。

EE31.根据EE30所述的用于控制声学回声消除的方法，其中，所述信号强度用信号功率、对数信号功率和信号幅度中的任意一个表示。

EE32.根据EE30或EE31所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作在所述声学回声消除器检测到可能的滤波器发散或高的残余回声水平时被触发。

EE33.根据EE25至EE32中任一项所述的用于控制声学回声消除的方法，其中，

所述声学回声消除器包括自适应滤波器；以及

所述控制所述声学回声消除器的操作包括：分别响应于所述至少一个未来帧的信号强度的增大或减小来增大或减小所述自适应滤波器的收敛速率。

EE34.根据EE33所述的用于控制声学回声消除的方法，其中，

所述自适应滤波器包括基于归一化最小均方的滤波器；以及

所述控制所述声学回声消除器的操作包括：分别响应于所述至少一个未来帧的信号强度的增大或减小来增大或减小所述自适应滤波器的步长。

EE35.根据EE33或EE34所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作被配置成将增加和/或减小的步长保持在预定范围内。

EE36.根据EE33至EE35中任一项所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：通过将1）所述至少一个未来帧的平均未来信号功率与2）当前帧的信号功率进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

EE37.根据EE33至EE35中任一项所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：通过将1）所述至少一个未来帧的平均未来信号功率与2）紧在当前帧之前的帧的信号功率和所述当前帧的信号功率的加权平均值进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

EE38.根据EE33至EE35中任一项所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：通过将1）所述至少一个未来帧的平均未来信号功率与2）当前语音段内的所有在前帧的信号功率和当前帧的信号功率的加权平均值进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

EE39.根据EE36至EE38中任一项所述的用于控制声学回声消除的方法，其中，所述至少一个未来帧的所述平均未来信号功率是所述至少一个未来帧的信号功率的加权平均值。

EE40.根据EE25至EE39中任一项所述的用于控制声学回声消除的方法，其中，

所述控制所述声学回声消除器的操作包括：分别响应于所述至少一个未来帧的信号强度的增大或减小来增大或减小所述中心削波器的阈值。

EE41.根据EE40所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：基于1）所述至少一个未来帧的平均未来信号功率和2）当前帧的信号功率，来确定所述阈值。

EE42.根据EE41所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：基于1）所述至少一个未来帧的信号功率的平均值以及2）当前语音段内的所有的在前帧的信号功率和当前帧的信号功率的加权平均值，来确定所述阈值。

EE43.根据EE41或EE42所述的用于控制声学回声消除的方法，其中，所述至少一个未来帧的所述平均未来信号功率是所述至少一个未来帧的信号功率的加权平均值。

EE44.根据EE40至EE43中任一项所述的用于控制声学回声消除的方法，还包括：估算过去帧的信号功率的方差，其中，所述控制所述声学回声消除器的操作被配置成响应于所述方差超过预定阈值而被触发。

EE45.根据EE25至EE44中任一项所述的用于控制声学回声消除的方法，其中，所述声学回声消除器包括自适应滤波器，并且，所述控制所述声学回声消除器的操作包括对要被用于调节所述自适应滤波器的滤波器抽头的回声路径延迟进行估算，其中，所述方法还包括：

在所述抖动缓冲器中接收到的帧之后插入所接收的帧的至少一个副本，以及

所述对所述回声路径延迟进行估算的操作还包括：

从所述麦克风信号中检测具有预期关系的相邻帧，所述预期关系源自所接收的帧及其至少一个副本之间存在的关系；以及

通过计算所接收的帧及其至少一个副本的播放时间与检测到的相邻帧的捕获时间之间的时滞，来估算所述回声路径延迟。

EE46.根据EE45所述的用于控制声学回声消除的方法，其中，

所述插入操作包括：以预定衰减常数插入所述至少一个副本，以及

所述检测操作包括：通过检测具有与所述预定衰减常数类似的衰减常数的所述相邻帧来检测具有所述预期关系的所述相邻帧。

EE47.根据EE45或EE46所述的用于控制声学回声消除的方法，其中，

所述检测操作包括：通过查找所接收的帧及其至少一个副本与所述麦克风信号中的连续帧之间的最显著相关性，来检测具有所述预期关系的相邻帧。

EE48．一种记录有计算机程序指令的计算机可读介质，当所述计算机程序指令由处理器执行时，使得所述处理器执行在音频处理装置中控制声学回声消除的方法，所述音频处理装置包括用于抑制麦克风信号中的声学回声的声学回声消除器和用于减小所接收到的信号的延迟抖动的抖动缓冲器，所述方法包括：通过参照所述抖动缓冲器中的至少一个未来帧来控制所述声学回声消除器。

Claims

1.一种音频处理装置，包括：

声学回声消除器，用于抑制麦克风信号中的声学回声；

抖动缓冲器，用于减小所接收到的信号的延迟抖动；以及

2.根据权利要求1所述的音频处理装置，还包括抖动缓冲器控制器，用于在所述抖动缓冲器中的帧的数量在预定阈值以下时增大所述抖动缓冲器的长度，以使得所述抖动缓冲器中有足够多的未来帧能够由所述联合控制器使用。

3.根据权利要求1或2所述的音频处理装置，其中，所述联合控制器被配置成基于所述抖动缓冲器中的所述至少一个未来帧的信号强度来对所述声学回声消除器的工作参数进行控制。

4.根据权利要求3所述的音频处理装置，其中，所述信号强度用信号功率、对数信号功率和信号幅度中的任意一个表示。

5.根据权利要求3或4所述的音频处理装置，其中，所述联合控制器被配置成在所述声学回声消除器检测到可能的滤波器发散或高的残余回声水平时被触发。

6.根据权利要求1至5中任一项所述的音频处理装置，其中，

所述声学回声消除器包括自适应滤波器；以及

7.根据权利要求6所述的音频处理装置，其中，

所述自适应滤波器包括基于归一化最小均方的滤波器；以及

8.根据权利要求6或7所述的音频处理装置，其中，所述联合控制器被配置成通过将1）所述至少一个未来帧的平均未来信号功率与2）当前帧的信号功率进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

9.根据权利要求6或7所述的音频处理装置，其中，所述联合控制器被配置成通过将1）所述至少一个未来帧的平均未来信号功率与2）紧在当前帧之前的帧的信号功率和所述当前帧的信号功率的加权平均值进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

10.根据权利要求6或7所述的音频处理装置，其中，所述联合控制器被配置成通过将1）所述至少一个未来帧的平均未来信号功率与2）当前语音段内的所有在前帧的信号功率和当前帧的信号功率的加权平均值进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

11.根据权利要求8至10中任一项所述的音频处理装置，其中，所述至少一个未来帧的所述平均未来信号功率是所述至少一个未来帧的信号功率的加权平均值。

12.根据权利要求1至5中任一项所述的音频处理装置，其中，

13.根据权利要求12所述的音频处理装置，其中，所述联合控制器被配置成基于1）所述至少一个未来帧的平均未来信号功率和2）当前帧的信号功率，来确定所述阈值。

14.根据权利要求13所述的音频处理装置，其中，所述联合控制器被配置成基于1）所述至少一个未来帧的信号功率的平均值以及2）当前语音段内的所有的在前帧的信号功率和当前帧的信号功率的加权平均值，来确定所述阈值。

15.根据权利要求13或14所述的音频处理装置，其中，所述至少一个未来帧的所述平均未来信号功率是所述至少一个未来帧的信号功率的加权平均值。

16.根据权利要求12至15中任一项所述的音频处理装置，还包括用于估算过去帧的信号功率的方差的方差估算器，其中，所述联合控制器被配置成响应于所述方差超过预定阈值而被触发。

17.根据权利要求1或2所述的音频处理装置，还包括用于在所述抖动缓冲器中接收到的帧之后插入所接收的帧的至少一个副本的复制单元，其中，

所述声学回声消除器包括自适应滤波器；以及

所述回声路径延迟估算器包括：

18.根据权利要求17所述的音频处理装置，其中，

19.根据权利要求17或18所述的音频处理装置，其中，

20.根据权利要求17至19中任一项所述的音频处理装置，其中，所述复制单元包括丢包掩蔽单元。

21.一种在音频处理装置中用于控制声学回声消除的方法，所述音频处理装置包括：用于抑制麦克风信号中的声学回声的声学回声消除器和用于减小所接收到的信号的延迟抖动的抖动缓冲器，所述方法包括：

22.根据权利要求21所述的用于控制声学回声消除的方法，还包括：在所述抖动缓冲器中的帧的数量在预定阈值以下时增大所述抖动缓冲器的长度，以使得所述抖动缓冲器中有足够多的未来帧能够由所述联合控制器使用。

23.根据权利要求21或22所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：基于所述抖动缓冲器中的所述至少一个未来帧的信号强度来控制所述声学回声消除器的工作参数。

24.根据权利要求23所述的用于控制声学回声消除的方法，其中，所述信号强度用信号功率、对数信号功率和信号幅度中的任意一个表示。

25.根据权利要求23或24所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作在所述声学回声消除器检测到可能的滤波器发散或高的残余回声水平时被触发。

26.根据权利要求21至25中任一项所述的用于控制声学回声消除的方法，其中，

所述声学回声消除器包括自适应滤波器；以及

27.根据权利要求26所述的用于控制声学回声消除的方法，其中，

所述自适应滤波器包括基于归一化最小均方的滤波器；以及

28.根据权利要求26或27所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：通过将1）所述至少一个未来帧的平均未来信号功率与2）当前帧的信号功率进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

29.根据权利要求26或27所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：通过将1）所述至少一个未来帧的平均未来信号功率与2）紧在当前帧之前的帧的信号功率和所述当前帧的信号功率的加权平均值进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

30.根据权利要求26或27所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：通过将1）所述至少一个未来帧的平均未来信号功率与2）当前语音段内的所有在前帧的信号功率和当前帧的信号功率的加权平均值进行比较，来确定所述至少一个未来帧的信号强度是增大还是减小。

31.根据权利要求28至30中任一项所述的用于控制声学回声消除的方法，其中，所述至少一个未来帧的所述平均未来信号功率是所述至少一个未来帧的信号功率的加权平均值。

32.根据权利要求21至25中任一项所述的用于控制声学回声消除的方法，其中，

33.根据权利要求32所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：基于1）所述至少一个未来帧的平均未来信号功率和2）当前帧的信号功率，来确定所述阈值。

34.根据权利要求33所述的用于控制声学回声消除的方法，其中，所述控制所述声学回声消除器的操作包括：基于1）所述至少一个未来帧的信号功率的平均值以及2）当前语音段内的所有的在前帧的信号功率和当前帧的信号功率的加权平均值，来确定所述阈值。

35.根据权利要求33或34所述的用于控制声学回声消除的方法，其中，所述至少一个未来帧的所述平均未来信号功率是所述至少一个未来帧的信号功率的加权平均值。

36.根据权利要求32至35中任一项所述的用于控制声学回声消除的方法，还包括：估算过去帧的信号功率的方差，其中，所述控制所述声学回声消除器的操作被配置成响应于所述方差超过预定阈值而被触发。

37.根据权利要求21或22所述的用于控制声学回声消除的方法，其中，所述声学回声消除器包括自适应滤波器，并且，所述控制所述声学回声消除器的操作包括对要被用于调节所述自适应滤波器的滤波器抽头的回声路径延迟进行估算，其中，所述方法还包括：

所述对所述回声路径延迟进行估算的操作还包括：

38.根据权利要求37所述的用于控制声学回声消除的方法，其中，

39.根据权利要求37或38所述的用于控制声学回声消除的方法，其中，