CN101461257A

CN101461257A - 自适应声学回声消除

Info

Publication number: CN101461257A
Application number: CNA2007800201028A
Authority: CN
Inventors: J·W·斯托克斯三世; D·A·弗洛伦西奥; A·S·切特里
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2006-05-30
Filing date: 2007-04-05
Publication date: 2009-06-17
Anticipated expiration: 2027-04-05
Also published as: US20070280472A1; KR20090017531A; CN101461257B; EP2036399A4; EP2036399A1; JP2009539312A; JP4778582B2; KR101331388B1; EP2036399B1; US8275120B2; WO2007139621A1

Abstract

一种声学回声消除技术。本发明的自适应声学回声消除技术采用多个声学回声消除滤波器相对于先前公知的声学回声消除技术来改进自适应算法收敛时间和失调，该多个声学回声消除滤波器使用可以采用诸如步长等不同参数的不同的自适应技术。

Description

自适应声学回声消除

背景

声学回声消除去除了在声音同时地通过位于话筒附近的扬声器播放时该话筒所捕获的回声。诸如吵闹的会议室或休息室和汽车中的免持电话等许多高噪声环境都要求有效的回声消除以增强通信。然而，噪声的存在阻止声学回声消除算法的收敛，这导致较差的回声消除。

在回声消除中，使用复杂的算法过程来计算语音回声模型。这涉及从原始语音的所反射的回声中生成总和并随后将其从话筒所拾取的任何信号中减去。结果即是讲话人的经净化的语音。回声消除器在被称为自适应的过程中必须了解该回声预测的格式。从自适应过程中学习到的参数生成回声信号的预测，该预测随后形成话筒所处的房间的声学图像。

可以基于其收敛速率和称为失调的因子来评估自适应滤波算法的性能。收敛速率可被定义为在稳定条件下，该算法收敛到“足够接近”于均方根意义下的最优Wiener(维纳)解所要求的迭代的数量。失调描述该算法的稳态行为，且是均方误差的平均的最终值超出最优Wiener滤波器所产生最小均方误差的量的定量测量。自适应滤波算法的一个公知性质是自适应时间和失调之间的折衷。有效的声学回声消除器在回声路径改变时要求快速的自适应，而在回声路径稳定时要求平滑的自适应。

在许多声学回声消除算法中，自适应滤波器使用归一化的最小均方(NLMS)算法来学习近端房间，即最靠近话筒的房间部分的传递函数。NLMS算法是在声学回声消除中最广泛使用的算法，且其提供确定最优自适应滤波器系数的低成本方法。该算法在每一自适应步骤处(例如，在每一样本处)都最小化残留回声误差信号的均方根，该算法因此得名。通常使用按照信号功率的归一化，因为语音是高度不稳定过程。NLMS取决于来自未处理的话筒信号的误差信号和当前自适应滤波器所预测的回声来更新自适应滤波器系数。在高噪声环境中，该误差因使得自适应滤波器系数远离最优解的不相关噪声而增加。

高噪声中的声学回声消除的先前工作着重于组合的噪声和回声降低。一种方法是通过噪声抑制算法预处理话筒信号并使用经历与话筒信号相同的噪声抑制操作的远端扬声器信号来执行自适应。虽然这看起来挺不错，但是实验发现该技术通常使回声信号失真，这妨碍声学回声消除算法的收敛性质。此外，该技术要求话筒和远端扬声器信号之间的完美同步，这通常很难达到。

用来去除回声的各种后处理技术还导致话筒所捕获的近端语音的明显失真。

概述

本发明的自适应声学回声消除技术通过采用使用不同的自适应技术的多个声学回声消除滤波器来自适应不同的噪声环境，以改进先前公知的声学回声消除技术的收敛时间和失调。这对于高噪声环境来说尤其正确。

一般而言，本发明自适应声学回声消除技术的一实施例如下操作。接收回放数据(扬声器数据)帧和捕获数据(话筒所捕获的数据)的对应帧。使用任何适当的变换，诸如例如，传统快速傅里叶变换(FFT)或调制复重叠变换(MCLT)来将回放数据和对应的捕获数据转换到频域。随后由多个自适应声学回声消除滤波器来处理该频域回放和捕获数据，以消除频域中的回声，这些滤波器使用不同的自适应技术，且还可以使用不同的诸如步长等参数。随后可以组合声学回声消除(AEC)输出以在频域中形成最终AEC输出。可任选地，可以通过逆频域变换来将最终AEC输出转换回时域。

在另一示例性实施例中，接收扬声器信号(回放数据)和对应的话筒信号(捕获数据)，并通过计算MCLT、FFT、滤波器组、或改进声学回声消除的收敛性质的任何其它变换来将其转换到频域信号。对于每一频率，计算多个声学回声消除滤波器，如K个滤波器，每一个滤波器都使用不同自适应技术(即，从AEC 1到AEC K)的不同参数。对于每一频率，计算K个滤波器的输出的线性组合。随后对于所有频率组合每一频率的K个滤波器输出的线性组合，并可任选地将结果转换回时域。

在自适应声学回声消除技术的又一示例性实施例中，采用了双结构化声学回声消除体系结构，其中该体系结构的一部分执行快速自适应，而另一部分执行平滑自适应。使用动量归一化最小均方(MNLMS)算法来提供平滑自适应，而快速自适应较佳地使用传统的归一化最小均方(NLMS)算法来执行(尽管也可使用其它快速自适应算法)。由于其平滑特性，MNLMS声学回声消除算法在近端房间中没有东西过度移动时工作良好，但在动态环境下比NLMS算法收敛得更慢。结果，在该体系结构的一个分支上，NLMS声学回声消除被用于快速自适应，诸如例如，在训练声学回声消除参数时和在某人在近端房间中移动时的初始时间段期间。在第二分支上，本发明的自适应双结构化的声学回声消除体系结构将MNLMS声学回声消除算法用于需要平滑自适应的时间段，诸如例如，在近端房间中没有较大的移动的时候。使用收敛检测器来检测何时在双结构化体系结构的快分支和慢分支之间切换。

应当注意，尽管在背景一节描述的现有回声消除技术的以上限制可由所描述的自适应声学回声消除技术的特定实现来解决，但该技术决不限于只解决任何或全部所述缺点的实现。相反，如将从以下描述中变得明显的，本技术具有广泛得多的应用。

提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

附图说明

参考以下描述、所附权利要求书以及附图，将更好地理解所要求保护的主题的具体特征、方面和优点，附图中：

图1是描绘组成用于实现本发明的自适应声学回声消除技术的示例性系统的通用计算设备的图。

图2描绘定义概括的高级系统声学回声消除问题的图。

图3描绘本发明的自适应声学回声消除技术的一实施例的高级流程图。

图4描绘其中可以实现图3中示出的自适应声学回声消除过程的示例性系统。

图5描绘双结构化声学回声消除体系结构，其中一部分执行快速自适应而该体系结构的第二部分执行平滑自适应。

图6描绘示出用于利用图5中示出的双结构化声学回声消除体系结构的可能的过程的示例性流程图。

图7描绘示出用于利用图5中示出的双结构化声学回声消除体系结构的另一实施例的另一示例性流程图。

图8描绘示出用于利用图5中示出的双结构化声学回声消除体系结构的又一实施例的又一示例性流程图。

图9描绘示出其中捕获和回放数据未被分为较高和较低频带的自适应回声消除技术的另一实施例的示例性流程图。

图10描绘用于计算供在双结构化声学体系结构中使用的收敛统计量的示例性流程图。

详细描述

在以下描述中，对附图进行了参考，附图构成了实施例的一部分且在其中作为示例示出了可在其中实践本发明的各具体实施例。可以理解，可以使用其它实施例并且可以做出结构上的改变而不背离本发明的范围。

1.0 计算环境

在提供本发明的自适应声学回声消除技术的各实施例的描述之前，将描述其中可以实现该技术的各部分的合适的计算环境的简要、概括的描述。该技术可用各种通用或专用计算系统环境或配置来操作。适用于该过程的公知的计算系统、环境和/或配置的示例包括，但不限于，个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、包含上述系统或设备中的任一个的分布式计算机环境等。

图1示出合适的计算系统环境的示例。该计算系统环境只是合适的计算环境的一个示例，而并非旨在对本系统和过程的使用范围或功能提出任何限制。也不应将该计算系统解释为对示例性操作环境中示出的任一组件或其组合具有任何依赖性或需求。参考图1，用于实现本发明的过程的示例性系统包括诸如计算设备100等计算设备。在其最基本的配置中，计算设备100通常包括至少一个处理单元102和存储器104。取决于计算设备的确切配置和类型，存储器104可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或是两者的某种组合。该最基本配置在图1中由虚线106来示出。另外，设备100还可具有附加的特征/功能。例如，设备100还可包含另外的存储(可移动和/或不可移动)，其中包括但不限于磁或光盘或磁带。这样的另外的存储在图1中由可移动存储108和不可移动存储110示出。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任意方法或技术来实现的易失性和非易失性、可移动和不可移动介质。系统存储器104、可移动存储108和不可移动存储110都是计算机存储介质的示例。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者可用于存储所需信息并且可由设备100访问的任何其它介质。任何这样的计算机存储介质都可以是设备100的一部分。

设备100还可包含允许该设备与其它设备通信的通信连接112。通信连接112是通信介质的一个示例。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其它无线介质。如此处所使用的术语计算机可读介质包括存储介质和通信介质两者。

设备100也可具有输入设备114，诸如键盘、鼠标、照相机、笔、语音输入设备、触摸输入设备、扬声器信号等。具体地，一个这样的输入设备是话筒。还可包括输出设备116，诸如显示器、扬声器、打印机等。所有这些设备在本领域是公知的，因此不必在此详细讨论。

本发明的技术可在诸如程序模块等由计算设备执行的计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定的任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等等。本发明的过程也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。

现在已讨论了示例性操作环境，本说明书一节的其余部分将致力于描述实现本发明的自适应声学回声消除技术的程序模块。

2.0 自适应声学回声消除技术

本说明书的以下各节提供声学回声消除问题的概括描述、本发明的自适应声学回声消除技术的各实施例的描述、以及可在该自适应声学回声消除技术中采用的归一化最小均方(NLMS)算法和动量归一化最小均方(MNLMS)算法的描述。

2.1 声学回声消除问题

图2中示出典型的系统级声学回声消除系统200。远端语音202，即远离话筒210的语音，通过一个或多个扬声器204来播放。该远端语音202在其从墙208、桌子、膝上型计算机等反射回来时造成回声206，该回声随后由话筒210在近端房间(距话筒最近的房间部分)中所捕获。除回声206之外，话筒还捕获来自在房间的近端中说话的一个或多个人的近端语音212以及独立的背景噪声。任何声学回声消除算法的目标都是估计或预测回声并随后从原始话筒信号中减去回声估计以产生包含很少或不包含回声的经处理的话筒信号。典型的声学回声消除算法使用自适应滤波器214来学习从扬声器204到话筒210的声学传递函数216以估计回声206。由于声学传递函数216通常可以横跨几百毫秒，所以自适应滤波器214必须学习数千个参数。结果，自适应滤波器214通常更佳地在频域中实现，其要求回放信号(扬声器信号)和捕获(话筒)信号首先使用频域变换218、220转换到频域。然后，具有减少的回声的经处理的捕获信号224(经处理的近端语音)通常使用逆频域变换222来转换回时域。然而，应当注意，也可在时域中执行实际的声学回声消除。在这种情况下，捕获信号未被转换到频域，且只有自适应滤波器输出被从频域转换到时域。在这种情况下，回声消除发生在时域中。

2.2 自适应声学回声消除实施例

本发明的自适应声学回声消除技术采用多个声学回声消除滤波器来提供声学回声消除处理的最优收敛速度和准确度(最小失调)，其中这多个滤波器使用不同的自适应技术，有时用不同的参数。

本发明的自适应声学回声消除过程的一实施例的高级流程图在图3中示出。首先，如过程动作302中所示，接收回放数据(扬声器数据)的新帧和捕获数据(话筒所捕获的数据)的对应帧。随后使用诸如例如，快速傅里叶变换(FFT)或调制复重叠变换(MCLT)等变换将回放/扬声器数据转换到频域(过程动作304)。同样使用诸如例如，快速傅里叶变换(FFT)或调制复重叠变换(MCLT)等变换将话筒/捕获数据转换到频域(过程动作306)。然后如过程动作308中所示，使用多个声学回声消除滤波器来处理这些频域帧以在频域中创建单独的经回声消除的输出，这多个滤波器使用不同的自适应技术，例如最小均方(LMS)、归一化最小均方(NLMS)、动量归一化最小均方(MNLMS)、递归最小二乘(RLS)、快速递归最小二乘(FRLS)。这些不同的自适应技术在尝试实现自适应滤波器算法的收敛时还可以使用不同的参数，如步长、抽头数、正则化常数、遗忘因子等。随后组合多个AEC滤波器的频域输出以产生最终的经回声消除的频域输出，如过程动作310所示。可任选地，随后将最终频域输出转换回时域以产生经处理的近端语音信号312。

其中可以实现图3中示出的自适应声学回声消除过程的示例性系统400在图4中示出。在此，扬声器信号x(t)402是线性变换模块404的输入，该模块例如通过计算FFT或MCLT、滤波器组、或改进声学回声消除算法的收敛性质的任何其它变换而将最初在时域中的扬声器信号x(t)转换到频域。话筒信号y(t)403也是线性变换模块405的输入，该模块例如通过计算FFT或MCLT、滤波器组、或改进声学回声消除算法的收敛性质的任何其它变换而将最初在时域中的话筒信号y(t)转换到频域。已被转换到频域的扬声器和话筒信号随后被输入到自适应滤波器406。M*K个滤波器406使用不同的自适应技术—可能用不同的参数，且输出M*K个对应的所得信号，其中M是经处理的子带的数量，而K则是每一子带的不同的自适应技术的数量。应当注意，不同的自适应技术的数量对于每一子带可以是不同的。对于每一子带m，在线性(或非线性)组合模块408中计算这K个输出的线性组合。这可以用多种可能的方式来实现。例如，线性组合可以通过使用以下公式来实现：

ξ (m) = Σ_{k = 1}^{K} α_{k} (m) ξ_{k} (m) - - - (1)

其中ξ_k(m)是第k个声学回声消除(AEC)滤波器在频率槽m处的输出，且α_k(m)是该滤波器的对应的增益。通常，跨所有k的增益之和加起来是1。一个示例线性组合可以是其中α_k与回声残留的能量成反比的情况，从而使得其加起来为1，即：

α_{k} (m) = \frac{R_{k} (m)}{Σ_{k = 1}^{K} R_{k} (m)}, - - - (2)

其中R_k(m)是关于AEC滤波器k的频带m中的预期(或平均)能量的倒数，即，R_k(m)＝1/E{ξ_k(m)}，其中E{ξ_k(m)}表示预期值。一旦为每一频带计算了K个输出的线性组合，则可以任选地在逆变换模块410中将频域输出转换回时域以产生最终的经处理的近端语音信号412。

2.3 双结构化自适应声学回声消除

以下各节描述双结构化声学回声消除技术，其中一部分采用快速自适应而另一部分采用平滑自适应。

2.3.1 快速和平滑自适应

声学回声消除自适应可被大致分为两个阶段：要求大的、快速的变化以适应主要的声学变化(如某人正走近话筒或讲话人)；要求较小的变化以适应次要的扰动或回声路径变化(如远离话筒或讲话人的人做出很小的移动)。在声学回声消除器首次在房间或其它地方操作时，或被移动到一新位置时，其需要对其周围环境的新的声学进行自适应。声学回声消除器应当通过确定其何时处于接收状态并在该状态中快速地自适应来快速且不露痕迹地接近该等级的声学变化。这被称为快速自适应。响应于较小的扰动或回声路径变化，声学回声消除器应该平滑地且精确地对这些变化进行自适应，从而最小化失调。这被称为平滑自适应。

2.3.2 双结构化自适应声学回声消除体系结构

在图5中所示的本发明的自适应声学回声消除系统的另一实施例中，采用了双结构化声学回声消除体系结构500，其中一部分502执行快速自适应，而该体系结构的第二部分504执行平滑自适应。在任何给定的时间，使用收敛检测器506来决定应该使用两部分502、504中的哪一个。在一种形式中，对于快速自适应使用归一化最小均方(NLMS)算法，而对于平滑自适应使用动量归一化最小均方(MNLMS)算法。该体系结构的一实施例还将低频带和高频带进行不同的处理以优化声学回声消除的速度和准确度。在以下各节中提供了NLMS和MNLMS算法的细节以及高频带和低频带处理的各种变化。

2.3.2.1 标准NLMS滤波

NLMS算法是在声学回声消除中最广泛使用的算法，且其提供确定最优自适应滤波器系数的低成本方法。该算法在每一自适应步骤处(例如，在每一输入样本处)都最小化残留回声误差信号的均方根，该算法因此得名。按信号功率的归一化被用来改进梯度的估计，该估计被用来更新自适应滤波器系数。NLMS取决于来自未处理的话筒信号的误差信号和当前自适应滤波器所消除的回声来更新自适应滤波器系数。在高噪声环境中，该误差因使得自适应滤波器系数远离最优解的不相关噪声而增加。

在图6的604所示的计算快速自适应声学回声消除输出时实现自适应滤波器系数更新的一种形式的具有正则化的NLMS算法可计算如下：

对于每一音频数据帧，n＝1，2，...，以及频带m＝1...M的每一子带，计算

ξ (m) = y (n, m) - {\hat{w}}^{H} (n, m) x (n, m) - - - (3)

{\hat{w}}^{H} (n + 1, m) = {\hat{w}}^{H} (n, m) + \frac{μ}{P_{Est} (n, m) + β_{NLMS}} x (n, m) ξ^{*} (m) - - - (4)

其中ξ是话筒信号y(n，m)和所估计的回声之间的误差信号，ξ^*是误差信号的共轭，

{\hat{w}}^{H} (n, m) = [\begin{matrix} {\hat{w}}^{*} (n, m, 0) & {\hat{w}}^{*} (n, m, 1) & \cdot \cdot \cdot & {\hat{w}}^{*} (n, m, L - 1) \end{matrix}] - - - (5)

是所估计的回声滤波器系数在变换域中的厄米(Hérmitian)转置矩阵，L是所估计的回声滤波器中的抽头数，

x(n，m)＝[x(n，m)x(n-1，m)…x(n-L+1，m)]^T (6)

是最近L个扬声器样本的列向量，μ是步长，β_NLMS是正则化因子，而P_Est(n，m)是第m频带中的功率的估计。例如，P_Est(n，m)可如下获得：

P_Est(n，m)＝(1-α)P_Est(n，m)+α‖x(n，m)‖² (7)

其中‖x(n，m)‖²是复扬声器信号x(n，m)的模的平方，而α是平均参数。

在用一个数字除以第二个数字时，正则化是向分母添加小量噪声以确保分母永不为0而使得分数无限大的过程。在等式(4)中，β_NLMS是确保分母永不为0的正则化因子。正则化分数的替换方法是如果分母小于某一阈值时则将分母设置为该阈值。

2.3.2.2 动量NLMS滤波

动量归一化最小均方(MNLMS)算法限制自适应过程以降低不相关的噪声对自适应滤波器抽头更新的负面影响。由于噪声通常是随机的，但在适度长的一段时间内抽头的位置可以是相对固定的，所以MNLMS声学回声消除与误差信号中由于近端噪声而引起的短期波动相比更着重于较长期的抽头更新轨迹。

在图5的504所示的实现用于平滑自适应滤波的自适应滤波器系数的一种形式的具有正则化的MNLMS算法可使用等式(5)-(7)所提供的定义描述如下：

对于每一音频数据帧，n＝1，2，...，以及每一子带m＝1...M，计算

ξ (m) = y (n, m) - {\hat{w}}^{H} (n, m) x (n, m) - - - (8)

{\hat{w}}^{H} (n + 1, m) = {\hat{w}}^{H} (n, m) + \frac{μ}{P_{Est} (n, m) + β_{NLMS}} x (n, m) ξ^{*} (m) + α [\hat{w} (n, m) - \hat{w} (n - 1, m)] - - - (9)

MNLMS算法对应于二阶自适应算法，其中在算法的每一次迭代中组合两个先前的加权向量以获得经更新的加权向量。可以看到，等式9的最后一项，即项表示等式(4)和等式(9)之差。该项被称为动量项。如果α是正数，则收敛速度增加且失调误差也增加。正数值的α可以允许MNLMS方法被用于快速自适应AEC技术。对于平滑自适应AEC技术，α应当是降低失调误差和收敛时间的负数。通过使用负数值的α，独立的近端噪声的影响和所得误差ξ(m)都在等式(9)中的抽头更新时降低了。其减去前一迭代的加权增量的一部分，从而降低自适应过程的动量。归一化项是P_Est(n，m)+β_NLMS。

2.3.3 双结构化自适应回声消除技术的变化

可以修改图5中示出的双结构化自适应回声消除实施例以不同地处理低频带和高频带，并在尝试接近收敛时采用不同的步长。

图6、7和8是示出在使用图5示出的双结构化快速/平滑自适应声学回声消除实施例进行处理时可能的变化的流程图。点划线指示该过程的可能的变化。这些流程图假定回放和话筒信号已被转换到频域。

在图6中，示出显示使用图5的体系结构的一个可能的过程的流程图。在该实施例中，回放和对应的话筒信号是频域中的输入。回放和对应的话筒信号被分为较高和较低频带，如过程动作602所示。例如，可将频域定义为280个频带，其中频带3-82是低频带，而频带83-282是高频带。在该示例中，频带1和2被设为0以滤除低频噪声。对于较高频带和较低频带两者，较佳地使用NLMS算法来计算快速自适应声学回声消除输出，如过程动作604所示。在该实施例中，选择较高频带的快速自适应声学回声消除的输出和较低频带的快速自适应声学回声消除的输出(过程动作606、608)，并将其组合以在频域中创建最终声学回声消除输出(过程动作610)。可任选地，可以使用逆频域变换来将最终声学回声消除输出转换到时域。在该实施例中，较高频带和较低频带两者较佳地用NLMS自适应算法来处理。

然而，另选地，在图7中示出的另一实施例中，其初始动作与图6相同，对于较高频带和较低频带两者，同样较佳地使用NLMS算法来计算快速自适应声学回声消除输出，如过程动作702、704所示。在该实施例中，在创建频域中的最终声学回声消除(过程动作710)时，对较高频带选择快速自适应声学回声消除的输出(过程动作708)。对于较低频带，较佳地使用MNLMS算法来计算平滑自适应声学回声消除输出(过程动作712)，并在创建频域中的最终声学回声消除输出(过程动作710)时，对较低频带选择该平滑自适应声学回声消除输出(过程动作714)。该实施例是有利的，这表现在其对其中回声较不可感知的较高频带使自适应算法快速收敛，而在其中失调更可听见的较低频带处使自适应算法更平滑地收敛。

在图8中示出的又一实施例中，回放/扬声器信号和对应的话筒信号(捕获数据)被输入并被分为较高频带和较低频带(过程动作802)。较佳地使用NLMS算法来为较高频带计算快速自适应声学回声消除输出(过程动作804)，并选择该输出来在频域中创建最终声学回声消除(过程动作808、810)。同样为较低频带计算快速自适应声学回声消除输出(过程动作804)并同样较佳地使用MNLMS算法来为较低频带计算平滑自适应声学回声消除输出(过程动作812)。随后计算平滑声学回声消除算法的每一子带的平均互相关收敛检测统计量(过程动作816)，并对其进行计数以确定应当选择较低频带的平滑和快速自适应输出中的哪一个来创建最终声学回声消除频域输出。如果平滑声学回声消除已经收敛，则最终输出帧的较低频带载有平滑声学回声消除的输出，如过程动作818、814和810所示。如果平滑声学回声消除尚未收敛，则在最终的经处理的帧中载入快速声学回声消除的较低频带，如过程动作818、806和810所示。该实施例是有利的，这表现在其对于失调更可听见的较低频带在快速和平滑自适应之间进行选择，同时优化了自适应算法收敛。

在又一实施例中，回放和捕获数据未被分为较高和较低频带。所有频带都可在快速和平滑声学回声消除输出之间切换。在该实施例中，如图9所示，输入回放信号和对应的捕获信号，其两者都是频域中的。较佳地使用NLMS算法来计算快速自适应声学回声消除输出(过程动作904)，并随后较佳地使用MNLMS算法来计算平滑自适应声学回声消除输出(过程动作906)。随后计算平滑声学回声消除算法的每一子带的平均互相关收敛检测统计量并对其进行计数(过程动作908)，以确定应当选择平滑和快速自适应输出中的哪一个来创建最终声学回声消除频域输出。如果平滑声学回声消除已经收敛，则最终输出帧载有平滑声学回声消除的输出，如过程动作908、912和914所示。如果平滑声学回声消除尚未收敛，则在最终的经处理的帧中载入快速声学回声消除输出，如过程动作908、910和914所示。

在上述各实施例中，也可切换快速自适应声学回声消除分支的步长μ(例如，0.35和0.2之间)以进一步提高整体系统的收敛速度。

该双结构化体系结构的一个重要组件是能够取决于声学回声消除算法的收敛条件而在快速和平滑自适应之间切换。为实现这点，可以使用自适应算法的正交性质：在回声消除器已经收敛时，声学回声消除输出信号必定与扬声器信号正交。此外，代替在时域中操作收敛检测器，其是在子带域中操作的，这将在以下解释。帧n的较低频率流的声学回声消除输出E₁(n，m)和频率槽m的帧n-i(i＝0，...，L-1)(其中L表示回归模型阶数)的X(n-i，m)的扬声器信号之间的互相关被定义为：

ρ^{i} (n, m) = \frac{P_{{XE}_{1}}^{i} (n, m)}{P_{X}^{i} (n, m) P_{E_{1}} (n, m)} - - - (10)

其中，使用以下指数加权递归算法来更新声学回声消除输出的功率谱密度估计

、扬声器信号的功率谱密度估计

、以及声学回声消除输出和扬声器信号之间的互功率谱密度：

P_{E_{1}}^{2} (n, m) = λ P_{E_{1}}^{2} (n - 1, m) + (1 - λ) {| E_{1} (n, m) |}^{2} - - - (11)

{| P_{X}^{i} (n, m) |}^{2} = λ {| P_{X}^{i} (n - 1, m) |}^{2} + (1 - λ) {| X (n - i, m) |}^{2} - - - (12)

P_{X E_{1}}^{i} (n, m) = λ P_{X E_{1}} (n - 1, m) + (1 - λ) \cdot X (n - i, m) E_{1}^{H} (n, m) - - - (13)

在此，λ是指数加权因子。在一实施例中，对于缓慢时变的信号，λ一般被设置为0.95<λ≤1。通过使用等式(10)，平均互相关(ACC)或平滑自适应收敛统计量被定义为：

\overset{&OverBar;}{ρ} (n, m) = \frac{1}{L} Σ_{i = 0}^{L - 1} | ρ^{i} (n, m) | - - - (14)

为了可靠的收敛判定，在一示例性实施例中，只为主要存在语音信号的频率槽13-82(325Hz-2.05KHz)计算ACC或平滑自适应收敛统计量。在每一帧处，将ρ(n，m)与阈值ρ_Th进行比较。如果超过所考虑的总频率槽的一半的频率槽满足不等式ρ(n，m)≤ρ_Th，则声明平滑声学回声消除器已经收敛，否则声明平滑声学回声消除器尚未收敛或回声路径已经改变。收敛阈值通常被设置为稍大于其稳态值。

图10中示出计算平滑自适应收敛统计量的过程的细节。一般而言，计算平滑自适应收敛统计量涉及将平滑声学回声消除输出与扬声器信号进行互相关。更具体地，在一实施例中，提取第一频带的声学回声消除输出和扬声器信号频谱系数(过程动作1002)。为该第一频带计算声学回声消除输出的功率谱密度估计(过程动作1004)，这可使用等式(11)来完成。还为该第一频带计算扬声器信号的功率谱密度估计(过程动作1006)，这可使用等式(12)来计算。随后为该第一频带计算声学回声消除输出和扬声器信号之间的互功率谱密度，这可使用等式(13)来计算，如过程动作1008所示。随后为该第一频带计算声学回声消除输出和当前帧的扬声器信号之间的互相关系数，这可使用以上的等式(10)来计算，如过程动作1010所示。较佳地使用等式(14)在当前帧和之前帧上对互相关系数求平均来为该第一频带生成平均互相关系数，即平滑自适应收敛统计量，如过程动作1012所示。进行检查以查看是否有更多频带要处理(过程动作1014)。如果有更多频带要处理，则获得声学回声消除输出和扬声器信号频谱系数1018且过程对于其余频带继续。在一实施例中，一旦处理了所有频带，则将每一频带的平滑自适应收敛统计量(平均互相关系数)与阈值进行比较，如过程动作1020所示。在该实施例中，如果超过所考虑的总频带的一半的频带的平滑自适应收敛统计量小于或等于阈值，则声明平滑声学回声消除器已经收敛(过程动作1022)，否则声明平滑声学回声消除器尚未收敛(过程动作1024)。

应当注意，可以按所需的任何组合使用上述替换实施例的任一个或全部以形成另外的混合实施例。尽管用对结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种用于消除声学回声的计算机实现的过程，所述过程包括使用计算机来执行以下过程动作：

将所接收到的回放数据和对应的捕获数据转换到频域(302、304、306)；

用使用不同自适应技术的多个声学回声消除滤波器来处理所述回放数据和捕获数据以消除回声，从而创建多个声学回声消除输出(308)；以及

组合所述多个声学回声消除滤波器的声学回声消除输出以产生频域中的最终的经回声消除的输出(310)。

2.如权利要求1所述的计算机实现的过程，其特征在于，还包括以下过程动作：

将所述频域中的最终的经回声消除的输出转换到时域，以产生经处理的近端语音。

3.如权利要求1所述的计算机实现的过程，其特征在于，所述多个不同的自适应技术在尝试达到自适应声学回声消除滤波算法的收敛时使用不同的参数。

4.如权利要求3所述的计算机实现的过程，其特征在于，所述不同的参数包括以下至少一项：

收敛算法步长、

抽头数、

正则化常数、以及

遗忘因子。

5.如权利要求1所述的计算机实现的过程，其特征在于，用使用不同的自适应技术的多个声学回声消除滤波器来处理所述回放数据和捕获数据包括以下过程动作：

(a)将所述回放数据和所述捕获数据分为较高频带和较低频带；

(b)对于所述回放数据和捕获数据的较高频带，

计算快速自适应声学回声消除输出，

选择所述快速自适应声学回声消除输出作为所述较高频带的声学回声消除输出；以及

(c)对于所述回放数据和捕获数据的较低频带，

计算平滑自适应声学回声消除输出；

计算快速自适应声学回声消除输出；

计算平滑自适应声学回声消除收敛统计量；

使用所述平滑自适应收敛统计量来确定所述平滑自适应声学回声消除输出是否已经收敛；

如果所述平滑自适应声学回声消除输出已经收敛，则选择慢速自适应声学回声消除输出作为所述较低频带的声学回声消除输出；

如果所述平滑自适应声学回声消除输出尚未收敛，则选择所述快速自适应声学回声消除输出作为所述较低频带的声学回声消除输出。

6.如权利要求5所述的计算机实现的过程，其特征在于，每一快速自适应声学回声消除输出都使用归一化最小均方(NLMS)过程来计算。

7.如权利要求5所述的计算机实现的过程，其特征在于，每一平滑自适应声学回声消除输出都使用采用负动量项的动量归一化最小均方(MNLMS)过程来计算。

8.如权利要求5所述的计算机实现的过程，其特征在于，每一快速自适应声学回声消除输出都使用以下一个来计算：

最小均方(LMS)过程；

递归最小二乘(RLS)过程；

快速递归最小二乘(FRLS)过程；或

使用正动量项的动量归一化最小均方(MNLMS)过程。

9.如权利要求5所述的计算机实现的过程，其特征在于，计算平滑自适应声学回声消除收敛统计量包括将所述平滑自适应声学回声消除输出和所述回放数据进行互相关。

10.如权利要求9所述的计算机实现的过程，其特征在于，所述计算平滑自适应收敛统计量的过程动作包括以下过程动作：

接收第一频带的平滑自适应声学回声消除输出和回放数据频谱系数；

对于所述第一频带和其余频带，

计算所述平滑自适应声学回声消除输出的功率谱密度估计；

计算所述回放数据的功率谱密度估计；

计算所述平滑自适应声学回声消除输出和所述回放数据之间的互功率谱密度；

对于当前回放帧，计算所述平滑自适应声学回声消除输出和所述回放数据之间的互相关系数；

在所述当前帧和之前帧上对所述互相关系数求平均，以生成平均互相关系数；以及

在确定所述平滑自适应声学回声消除输出是否已收敛时，使用所述平均互相关系数作为所述平滑自适应声学回声消除收敛统计量。

11.如权利要求10所述的过程，其特征在于，在确定所述平滑自适应声学回声消除输出是否已收敛时，使用所述平均互相关系数作为所述平滑自适应声学回声消除收敛统计量的所述过程动作包括：

将所述平均互相关系数与阈值进行比较；以及

如果对于超过一半的频带，所述平均互相关系数小于或等于所述阈值，则确定所述平滑自适应声学回声消除输出已经收敛；

如果对于超过一半的频带，所述平均互相关系数不小于或等于所述阈值，则确定所述平滑自适应声学回声消除输出尚未收敛。

12.如权利要求1所述的计算机实现的过程，其特征在于，用使用不同的自适应技术的多个声学回声消除滤波器来处理所述回放数据和捕获数据包括以下过程动作：

(a)将所述回放数据和捕获数据分为较高频带和较低频带；

(b)对于所述回放数据和捕获数据的较高频带，

使用归一化最小均方过程来计算快速自适应声学回声消除输出，

选择所述快速自适应声学回声消除输出作为所述较高频带的输出；以及

(c)对于所述回放数据和捕获数据的较低频带，

选择所述快速自适应声学回声消除输出作为所述较低频带的输出。

13.如权利要求10所述的计算机实现的过程，其特征在于，使用归一化最小均方过程来计算快速自适应声学回声消除输出包括使用不同的步长来加速所述快速自适应声学回声消除输出的收敛。

14.如权利要求1所述的计算机实现的过程，其特征在于，用使用不同的自适应技术的多个声学回声消除滤波器来处理所述回放数据和捕获数据包括以下过程动作：

(a)将所述回放数据和捕获数据分为较高频带和较低频带；

(b)对于所述回放数据和捕获数据的较高频带，

(c)对于所述回放数据和捕获数据的较低频带，

使用动量归一化最小均方过程来计算平滑自适应声学回声消除输出；

选择所述平滑自适应声学回声消除输出作为所述较低频带的声学回声消除输出。

15.如权利要求1所述的计算机实现的过程，其特征在于，用使用不同的自适应技术的多个声学回声消除滤波器来处理所述回放数据和捕获数据包括以下过程动作：

计算平滑自适应声学回声消除输出，

计算快速自适应声学回声消除输出；

计算平滑自适应声学回声消除收敛统计量；

如果所述平滑自适应声学回声消除输出已经收敛，则选择慢速自适应声学回声消除输出作为所述最终声学回声消除输出；

如果所述平滑自适应声学回声消除输出尚未收敛，则选择所述快速自适应声学回声消除输出作为所述最终声学回声消除输出。

16.一种用于消除所估计的回声的系统，包括：

通用计算设备；

包括可由所述通用计算设备执行的程序模块的计算机程序，其中所述计算设备可由所述计算机程序的程序模块来引导以便：

将回放信号(402)输入到第一线性变换模块(404)，所述第一线性变换模块将最初在时域中的所述回放信号(402)转换到频域；

将捕获信号(403)输入到第二线性变换模块(405)，所述第二线性模块将最初在时域中的所述捕获信号(403)转换到频域；

将所述经转换的回放信号和所述经转换的捕获信号输入到使用不同的自适应技术的多个自适应声学回声消除滤波器(406)，并输出频域中的对应的所得的经回声消除的信号；

对于每一频率，在线性组合模块(408)中计算所述频域中的所得的经回声消除的信号的线性组合；

在逆变换模块(410)中通过组合每一频率的所述线性组合，来计算消除了回声的经处理的近端语音(412)。

17.如权利要求16所述的系统，其特征在于，所述多个不同的自适应技术包括以下两个或多个的组合：

最小均方(LMS)过程、

归一化最小均方(NLMS)过程、

递归最小二乘(RLS)过程、

快速递归最小二乘(FRLS)过程、和

动量归一化最小均方(MNLMS)过程。

18.如权利要求16所述的系统，其特征在于，所述多个不同的自适应技术在以下至少一项上变化：

自适应算法步长、

抽头数、

正则化常数、以及

遗忘因子。

19.一种用于消除声学回声的系统500，包括：

通用计算设备；

(a)在频域中接收捕获数据信号和对应的回放信号；

(b)对于所述捕获数据信号和回放数据信号的较高频带，

为所述较高频带(502)计算快速自适应声学回声消除输出；

选择所述快速自适应声学回声消除输出作为所述较高频带(508)的最终声学回声消除输出；以及

(c)对于所述捕获数据信号和回放数据信号的较低频带，

计算快速自适应声学回声消除输出(502)；

使用动量归一化最小均方过程(MNLMS)(504)来计算平滑自适应声学回声消除输出；

使用转换检测器(506)来确定所述平滑自适应声学回声消除输出是否已经收敛；

如果所述平滑自适应声学回声消除输出已经收敛，则选择所述平滑自适应声学回声消除输出作为所述较低频带(504、506)的最终声学回声消除输出；

如果所述平滑自适应声学回声消除输出尚未收敛，则选择所述快速自适应声学回声消除输出作为所述较低频带(502、506)的最终声学回声消除输出；以及

(d)组合所述高频带的最终声学回声消除输出和所述低频带的最终声学回声消除输出以创建较高和较低频带(508)的总的最终声学回声消除输出。

20.如权利要求19所述的系统，其特征在于，每一快速自适应声学回声消除输出都使用以下一个来计算：

最小均方(LMS)过程；

递归最小二乘(RLS)过程；以及

快速递归最小二乘(FRLS)过程。