CN1898944A

CN1898944A - 用于增强的立体声音频的系统和方法

Info

Publication number: CN1898944A
Application number: CNA2004800386590A
Authority: CN
Inventors: T·F·马顿; I·F·阿内斯; B·温斯沃尔德; G·O·奥弗比
Original assignee: Tandberg Telecom AS
Current assignee: Cisco Systems International SARL
Priority date: 2003-12-23
Filing date: 2004-12-22
Publication date: 2007-01-17
Also published as: ATE447824T1; ES2333873T3; NO20035796L; EP1698159B1; US7477735B2; JP4417390B2; NO320942B1; WO2005062595A1; DE602004023968D1; JP2007515911A; EP1698159A1; US20050157866A1

Abstract

本发明涉及一种具有改善的声学特性的音频通信系统和方法。在该系统中的回声消除器中引入立体声检测器。当检测到在远端音频中的立体声时暂停消除器的自适应单声道模型的收敛，并且当没有检测到在远端音频中的立体声时暂停消除器的自适应立体声模型的收敛。根据本发明的可替换的实施例，用混杂处理单元来扩展该系统，其被配置成在隐含较大立体声回声成分的特定事件时衰减信号。还对远端音频的通道引入立体声折叠单元，以便移除特定事件中的立体声声像，从而进一步抑制回声成分。

Description

用于增强的立体声音频的系统和方法

技术领域

本发明涉及一种具有改善的声学特性的音频通信系统和方法，并具体地涉及包括改善的音频回声消除系统的会议系统。

背景技术

在使用扬声器的传统会议系统配置中，两个或更多的通信单元被放置在分离的地点。利用会议系统从一个地点发射到另一个地点的信号会经历若干延迟，这些延迟将包括传输延迟和处理延迟。对于视频会议系统，视频信号的处理延迟明显大于音频信号的处理延迟。因为视频和音频信号必须同时协同呈现，因此在发射和接收信号路径中都有意地将唇同步信号引入到音频信号，以便补偿较长的视频信号延迟。

在传统的会议系统中，一个或多个麦克风在地点A捕获声波，并且将该声波变换成第一音频信号。该第一音频信号被发送到地点B，在地点B，电视机或放大器和扬声器通过将在地点A处生成的第一音频信号转换成声波来再现原始声波。在地点B产生的声波由地点B处的音频捕获系统部分地捕获，被转换成第二音频信号并传输回到地点A处的系统。使声波在一个地点被捕获、被传输到另一地点并接着被传输回初始地点所存在的问题被称为声学回声。在其最严重的表现中，当环路增益超过1时，声学回声可能引起反馈声音。声学回声还引起在地点A和地点B的与会者听见他们自己，使得难以通过会议系统进行对话，尤其是如果在会议结构中存在延迟，这在视频会议系统中是常见的，特别是由于上述的唇同步延迟。通常使用如下所述的声学回声消除器来解决声学回声问题。

图1是一个视频会议系统的总图。该系统分布在两个地点，A和B。对于会议系统配置，视频会议模块可分布在多于两个的地点，并且当只有一个地点具有扬声器时系统配置能工作。视频模块在地点A具有捕获视频图像的视频捕获系统1141和编码视频图像的视频子系统1150。并行地，声波由音频捕获系统1111捕获，并且音频子系统将该声波编码声学信号。由于视频编码系统中的处理延迟，控制系统1160通过使用唇信号延迟1163将附加延迟引入了音频信号，从而实现视频和音频信号之间的同步。视频和音频信号在多路复用器1161中被混合在一起，并且合成信号，即音频-视频信号，通过传输信道1300被传输到地点B。在地点B处插入附加的唇同步延迟1262。此外，由音频呈现设备1221呈现的音频信号被实现为地点B处的声波。在地点B处所表示的一部分声波要么作为直达声波要么作为反射声波而到达音频捕获设备1211。在地点B捕获声音并且将该声音连同关联的延迟一起传输回地点A，从而形成回声。所述的回声加在一起是很可观的，因此在视频会议系统中对回声消除器的质量要求特别得高。

图2示出了一个声学回声消除器子系统的例子，其可以是图1的视频会议系统中的音频系统的一部分。至少一个与会地点具有声学回声消除器子系统以便降低通信系统中的回声。声学回声消除器子系统2100是数字声学回声消除器的全带模型。全带模型直接处理音频信号的完整音频带(例如达到20kHz；对于视频会议，带宽通常达到7kHz；对于音频会议，达到3.4kHz)。

如已经所提到的，通常由声学回声消除器来实现声学回声的补偿。声学回声消除器是独立的设备或者在通信系统的情况下是集成部分。声学回声消除器例如通过使用线性/非线性数据模型来变换从地点A传输到地点B的声学信号，并接着在从地点B传输到地点A的声学信号中减去数学调制的声学信号。更具体地，例如参考在地点B处的声学回声消除器子系统2100，声学回声消除器使来自地点A的第一声学信号2131通过声学系统2121的数学建模器，计算回声信号的估计2133，从在地点B捕获的第二音频信号2132中减去估计的回声信号，并且将与估计的回声相减的第二音频信号2135传输回地点A。图2的回声消除器子系统还包括在声音被音频捕获装置捕获的位置处的估计误差，即估计的回声和实际回声之间的差异，用来更新数学模型或使其适应于背景噪声和环境的变化。

在多数回声消除器中使用的声学系统2121的模型是FIR(有限脉冲响应)滤波器，近似于直达声和室内多数反射的变换函数。声学系统2121的全带模型相对复杂并且要求处理能力，并且通常偏好全带模型的替换。

降低回声消除器的处理能力要求的一个方式是引入子带处理，即信号被分成具有较小带宽的频带，其可使用较低的采样频率来表示。该系统的一个例子如图3所示。分解滤波器将扬声器和麦克风信号分成为子带，每个子带分别表示原始扬声器和麦克风频率的一个较小范围。在修改的麦克风的所有频带组合在一起以形成全带信号之前，由合成滤波器对每个子带执行类似的回声消除和其它处理。

在某些情况下，可以方便地合并子带和全带处理。一些子算法可在全带中和子带中，或者其组合中执行。

回声消除器的核心部件是已经提到的声学模型(最常见的是由FIR滤波器来实现)。声学模型旨在模拟从扬声器到麦克风的远端信号的变换函数。该自适应模型由梯度寻优算法来更新。该算法试图最小化误差函数，误差函数是信号减去回声估计之后的乘方。对于单声道回声消除器，该解决方案有效，其是统一且唯一的解决方案。

然而，在高质量的通信中，通常期望传输和呈现高质量的多通道音频，例如立体声。立体声音频包括来自两个分离通道的音频信号，其表示来自特定声音合成的不同空间音频。在每个相应扬声器上装上通道，这创建了更逼真的音频再现，因为收听者将感受到创建声音合成的音频源之间的空间差异。

在一个扬声器上播放的信号不同于在其它扬声器上呈现的信号。因此，对于立体声(或多通道)回声消除器，从每个相应扬声器到麦克风的变换函数需要受到补偿。这相比于单声道音频回声消除有些不同，因为存在用于补偿的两个不同的但却相关的信号。

此外，在不同通道中的相关性倾向于明显。这使一般梯度寻优算法受到挑战。从数学上表达，该相关性向误差函数引入若干假最小解。这在Steven L.Gat和Jacob Benesty“Acoustic signalprocessing for telecommunication”，Boston：Kluwer AcademicPublisher，200中有所描述。根本问题在于，当多个通道承载线性相关的信号时，与由自适应算法求解的误差函数相对应的正态函数的解是奇异的。这暗指等式不存在唯一的解，而是存在无限数量的解，并且可以示出除了一个真解外之外所有的解都取决于传输空间的脉冲响应(在本文中，传输空间还可以包括合成的传输空间，例如在远端侧播放的记录或编制的材料)。因此，梯度寻优算法可陷入到一个最小值，该最小值不必是真的最小解。

表达该立体声回声消除器自适应问题的另一个通用方式是，在立体声声像中区别室内频率响应(room response)变化和音频“移动”是困难的。例如，如果一个讲话者开始在远端侧的不同位置处讲话，那么声学模型必须再收敛。不存在能够足够块地跟随这种变化的自适应算法，并且在多通道情况下的单声道消除器不能得到满意的性能。

在图4中示出克服上述假最小解问题的典型方式。与单声道的情况相比，使分解滤波器成双，将右边和左边的扬声器信号都分成子带。声学模型被分成为两个模型(每子带)，一个用于右通道变换函数并且一个用于左通道变换函数。

为了克服由左和右通道信号之间的相关性引入的假最小解，引入了一种去相关算法。该去相关使得正确地更新声学模型成为可能。但是，去相关技术也修改了在扬声器上呈现的信号。尽管质量保存修改技术是可接受的，但是根据现有技术的去相关技术使音频严重失真。

因此，这些技术可解决立体声回声问题，但是没有保存音频的必要质量。

发明内容

本发明的一个目的是，在立体声存在时提供最小化音频回声的系统。

具体地，本发明公开了一种音频回声消除器，被调整用来根据回声增加的输入信号来提供回声衰减的输出信号，回声增加的输入信号除了远端音频加上回声成分外还包括近端音频，该音频回声消除器包括一个生成第一模块输出信号(5134)的模块，至少被配置成实现声学回声的第一自适应模型(5121)，该模型在提供单声道回声估计(5133)并从创建所述第一模块输出信号(5134)的回声增加的输入信号中减去该单声道回声估计(5133)时收敛，以便最小化所述第一模块输出信号(5134)中回声成分的单声道部分，其中所述音频回声消除器还包括一个或多个多组分音频检测器，被配置成检测在远端音频中是否存在多组分音频，并且其中第一自适应模型(5121)被配置成在所述一个或多个多组分音频检测器基本上检测到在远端音频中的多组分音频时暂停收敛，并且第二自适应模型(5129)被配置成在所述一个或多个多组分音频检测器基本上没有检测到在远端音频中的多组分音频时暂停收敛，或者监控远端和近端音频的混杂处理单元(5122)被配置成在预定义的远端/近端音频存在事件中衰减第一或第二模块输出信号(5134、5136)，并且在所述一个或多个多组分音频检测器基本上没有检测到在远端音频中的多组分音频时被激活。

附图说明

为了使本发明更容易理解，后面的讨论将参考附图，

图1是传统会议系统配置的详细框图，

图2声学回声消除器子系统的近视图，

图3是用子带处理实现的对应回声消除器子系统的框图，

图4是根据现有技术的回声消除器系统的框图，

图5是本发明的一个实施例的框图，

图6是频率无关的受控立体声折叠单元(collapsing unit)的近视图，

图7是受控折叠单元的普通频率相关版本的近视图。

具体实施方式

下面，将通过描述优选实施例并参考附图来讨论本发明。但是，即使结合视频会议和立体声来描述特定实施例，本领域技术人员将实现如在独立权利要求中限定的本发明范围的其它应用和修改。特别地，本发明的原理还可结合其它类型的会议来利用，并且它可用于多音频通道。此外，注意到，即使在下面讨论的技术主要集中在子带情况，其还可用于全带。在全带消除器中，可省略分解和合成滤波器。可对全带音频信号执行在图的虚线内侧的处理。

本发明基于的实事在于，立体声音频信号的不同通道高度相关并且立体声很少一直存在。通常，相应通道的信号只有很少一部分彼此不同，并且在典型的会议情况下，会经过一段很长的时间，其中只存在单声道音频。本发明还利用了这样的实事，即在传统会议期间不必要求一直提供完整的回声消除。例如，在扬声器安静的时间间隔中，根本就不存在回声。此外，结合从CD/DVD等中呈现声音，立体声信号存在，但是这更像是一个单向通信，降低了对全双工回声消除的需要。此外，播放节目材料的设备(和人不同)不会被偶然的残留回声混淆。并且，在节目材料的情况下，多数时间将只具有单声道音频。

因此，由于大多数时间中的信号是单声道的，所以本发明公开了混合型单声道/立体声回声消除器结构。在图5中描述本发明。注意到，本图的许多子部分是可选的；受控立体声折叠单元、扬声器R-L分解滤波器和全带或子带立体声检测器(但不是二者)。其它子部分可有稍微不同的方式处置，例如通过将子部分从全带域移动到子带域或者相反。这些简化和变化还在下面对各种包括在图5所示的本发明的实施例中的各种部件的描述中进行解释。

根据本发明，通过加法单元和减法单元，扬声器立体声全带信号R和L分别被转换成全带R+L和全带R-L的表示。因此，全带R+L信号表示音频信号的单声道部分，而全带R-L信号表示立体声声像。因此，对于只存在单声道信号的情况，R-L等于0。

两个信号都被分成子带信号；利用R+L分解滤波器5125，全带R+L信号被分成为R+L子带信号，而利用R-L分解滤波器5126，全带R-L信号被分成为R-L子带信号。

计算R+L子带信号和R-L子带信号的替换方式是各自分解R和L信号，并且接着对子带信号执行加法或减法。

借助麦克风分解滤波器5151，麦克风全带(来自ADC/麦克风)信号被分成为麦克风子带信号。

根据本发明的回声消除器还配有至少一个立体声检测器。如图5所示，R+L和R-L信号被馈送到该立体声检测器。立体声的检测可利用R+L和R-L全带信号和全带立体声检测器以全带来执行，或者利用R+L和R-L子带信号和子带立体声检测器以子带来执行(或者二者一起执行)。通过使用子带立体声检测器，可为不同的频率作出各自的判定。因此，子带检测器可更好地执行，但却增加(但不是主要的)计算复杂度。

若干技术可用来检测立体声，即计算立体声检测器测量(SDM)。一个方式是计算R-L的功率除以R+L功率的比值：

SDM＝P_R-L/P_R+L

通过对真单声道信号假设SDM等于0，并且对立体声信号假设SDM大于0来检测立体声。

在时间i的功率可通过一组N个采样来计算：

R_{R + L} (i) = Σ_{n = 0}^{N - 1} {(R_{i - n} + L_{i - n})}^{2}

P_{R - L} (i) = Σ_{n = 0}^{N - 1} {(R_{i - n} - L_{i - n})}^{2}

可替换地，可利用反馈结构、更新每个新的采样来计算在时间i的功率。α是小的正常数，表示更新速度，并且取决于采样频率：

P_R+L(i)＝(1-α)P_R+L(i-1)+α(R_i+L_i)²

P_R-L(i)＝(1-α)P_R-L(i-1)+α(R_i-L_i)²

用于实现立体声检测器的可替换方式是计算R-L信号和R+L信号之间的互相关性(在滞后0处)，其用R+L信号的功率来正规化：

SDM＝R_R-L，R+L/P_R+L

对于单声道信号，该SDM也等于0，并且当引入立体声组分时增加超过0。

再次，可通过一组采样或者使用反馈结构来计算分母和分子。分母可如第一替换方式那样来计算，而分子的公式将是：

一组采样的情况：

R_{R + L, R - L} (i) = Σ_{n = 0}^{N - 1} (R_{i - n} + L_{i - n}) (R_{i - n} - L_{i - n})

反馈的情况：

R_R+L，R-L(i)＝(1-α)R_R+L，R-L(i-1)+α(R_i+L_i)(R_i-L_i)

而实现立体声检测器的另一个可替换方式是计算R和L信号之间的互相关性和R+L信号的功率的比值：

SDM＝R_R，L/P_R+L

在单声道的情况下，该SDM等于0.25，并且其将随着立体声因素的增加而下降。通过使用一组采样或反馈结构来计算R_R，L，该组采样或反馈结构对于后一种替换方式使用了相同的公式。

一组采样的情况：

R_{R, L} (i) = Σ_{n = 0}^{N - 1} R_{i - n} L_{i - n}

反馈的情况：

R_R，L(i)＝(1-α)R_R，L(i-1)+αR_iL_i

这些表达式最适合于R和L信号直接存在的情况，例如R和L被各自分解的情况。在任何情况下，总是可通过重新计算R+L和R-L来计算R和L。

最后一种方式是通过R和L信号之间的互相关性和R的功率与L的功率的和的比例来计算立体声检测器测量：

SDM＝R_R，L/(P_R+P_L)

该SDM在单声道的情况下等于0.5，并且其将随立体声因素的增加而减小。利用与第一立体声检测器的实现替换方式相同的表达式，并利用一组采样或反馈结构拉计算P_R，L。

一组采样的情况：

P_{R} (i) = Σ_{n = 0}^{N - 1} {R_{i}}^{2}

P_{L} (i) = Σ_{n = 0}^{N - 1} {L_{i}}^{2}

反馈的情况：

P_R(i)＝(1-α)P_R(i-1)+αR_i ²

P_L(i)＝(1-α)P_L(i-1)+αL_i ²

这些表达式最适合于R和L信号直接存在的情况，例如R和L被各自分解的情况。

上述的立体声检测器被用来控制单声道回声补偿器5121。该补偿器包括在标准单声道消除器中使用的声学模型，其通常对于每个子带用一个FIR滤波器来实现。但是，不同于标准单声道消除器，输入是扬声器R+L子带信号。该模型可利用标准的自适应技术、利用模型更新环路和用于实现误差函数最小值的梯度寻优算法来更新，标准的自适应技术可从例如LMS、NLMS、APA、RLS等的单声道回声消除中得知。在本文中，还存在与传统回声补偿器的较大例外。每当立体声检测器检测到真单声道信号之外或十分接近于单声道信号的任何东西时就停止声学模型的自适应，这假设了自适应已经进行了足够的时间周期以便在最优状态下稳定(对于单声道信号)。因此，在引入立体声信号之时，梯度寻优算法中的假最小解将不存在，并且滤波器将不会“陷入”在这些假最小解的其中一个中。

目前为止，立体声检测器防止单声道回声补偿器在存在立体声时陷入到在误差函数中引入的假最小解中，并且仍然可消除回声信号的单声道部分。但是，回声信号的立体声声像仍然存在。其可以不同的方式被移除/衰减。如图5所示的一个替换方式是用立体声回声补偿器5129来补充该立体声回声补偿器。

立体声回声补偿器5129的输入是扬声器R-L子带信号，并且该补偿器包括与单声道回声补偿器5121有关的相同模型。该模型利用标准的自适应技术来更新。但是，该自适应只在立体声检测器检测到强立体声信号时才允许。由于已经用R+L补偿器来移除信号的单声道部分，在反馈信号中将只存在微小的单声道信号，因而使R+L补偿器能够收敛。

基于信号在多数时间上是单声道的并且在立体声情况下的回声消除器性能不是关键的假设，立体声声像补偿器可以被省略。这极大地降低了整个系统的计算复杂度，因为不需要计算或更新R-L模型。如果系统只基于全带立体声检测器，扬声器R-L分解滤波器和子带立体声检测器也可被省略，进一步节省了计算复杂度。

作为对立体声声像回声补偿器的替换或补充，相比于传统单声道回声消除器，对混杂子带处理单元5122进行了某些调整。该方框通过引入衰减从麦克风信号中移除残留回声，并且其通常被称为非线性处理(NLP)。根据扬声器信号和麦克风信号来判断语音的方向(近端语音、远端语音或两者)。

存在三种该非线性处理器应当优选处理的情况：

1.单向通话、麦克风(近端)信号活动、没有扬声器(远端)信号、或根本没有信号：NLP不变化地通过信号。

2.单向通话、扬声器信号活动、没有近端通话：NLP极大地衰减信号，以便移除残留回声。

3.双向通话，扬声器活动并且近端通话活动：NLP不变化地通过信号，或者将其最低限度地衰减，因为残留回声被麦克风/近端信号掩盖。

非线性处理器通常对子带工作，因此NLP可为一个子带选择以上三种动作之一，并为其它子带选择另一个动作。

在单声道回声消除器中，NPL移除残留回声。但是，在立体声情况下，如果立体声声像补偿器(5129)被省略或者不充足，那么NLP还必须移除立体声回声。这不会改变第一和第二种情况中的行为，但是优选地应当区别对待第三种情况，引入了两个子情况：

3a.双向通话，麦克风和扬声器都活动、没有检测到的立体声信号：NLP不变化地通过信号，或者将其最低限度地衰减，因为残留回声被麦克风/近端信号掩盖，并且由于不存在立体声回声信号。

3b.双向通话，麦克风和扬声器都活动、检测到的立体声信号：残留回声(低平信号)被麦克风(近端)信号掩盖。必须移除或接受(只要存在残留回声，则接受是优选的选择)立体声回声信号(在存在立体声回声补偿器并其正确工作的情况下，则是残留立体声回声信号)，在作出该选择时，这是一个预定义的选择，信号要么不变化地通过，即立体声回声被接受，要么被衰减，即接受所谓的语音交换。基于立体声电平，可选择信号全部通过和全部衰减之间的情况，接受立体声回声的较低电平和中等的语音交换。

在上面3b中所述的情况引入了两个缺点中的一个——要么存在立体声回声或语音交换，要么是二者受限/中等的组合。立体声回声被感受为升高的回声，并且语音交换被感受为半双工通信(在讲话时调低计数器部分)。

在本发明的一个可替换实施例中，引入立体声折叠单元5161以补偿这些缺点。立体声折叠单元5161的目的在于无论何时检测到双向通信，可替换地在检测到近端信号时，使情况从立体声变到单声道。

立体声折叠单元5161的另一功能是能够在单声道补偿器达到收敛的第一状态前折叠立体声声像，允许其在立体声的高电平信号存在时以能自适应。此外，在单声道补偿器已经再收敛之前已经出现室内频率响应的较大变化，在此之后，立体声折叠单元5161将折叠立体声声像。

图6更详细地示出了立体声折叠单元。在通常情况下，在以上的情况1和2中，折叠增益g是0，并且不改变左或右信号。每当检测到3a或3b的情况时，该增益逐渐增加到0.5除去或折叠立体声声像。在情况3a中，由于信号是单声道的，因此这没有效果。但是，在情况3b中，折叠将系统变到情况3a，其中不存在立体声回声，并且只有残留回声必须被非线性处理器单元处理。当不再需要折叠时、当检测到情况1或2时、可替换地当不存在近端语音时，折叠增益逐渐降低到0，以便为具有立体声信号的新情况做好准备。全力工作(g＝0.5)的立体声折叠单元仅仅将左和右通道的相应信号相加并将结果转发给两个信道。

当然，该折叠单元减小了双向通话中的立体声声像，但是在这些情况下，存在多个音频源，至少部分地掩盖了立体声的损失。

图7示出了一般化的立体声折叠单元。用立体声折叠滤波器来代替折叠增益g。如果在不同的频带中检测到不同的状态，该一般化的单元允许在不同频带中进行不同的折叠。

图7还允更多的静态折叠技术，即总是对于立体声声像的主观感受不关键的频带进行折叠，而动态地折叠关键的频带。

Claims

1.一种音频回声消除器，被调整用来根据回声增加的输入信号来提供回声衰减的输出信号，回声增加的输入信号除了远端音频加上回声成分外还包括近端音频，该音频回声消除器包括一个生成第一模块输出信号(5134)的模块，至少被配置成实现声学回声的第一自适应模型(5121)，该模型在提供单声道回声估计(5133)并从创建所述第一模块输出信号(5134)的回声增加的输入信号中减去该单声道回声估计(5133)时收敛，以便最小化所述第一模块输出信号(5134)中回声成分的单声道部分，其特征在于

一个或多个多组分音频检测器，被配置成检测在远端音频中是否存在多组分音频，并且其中

第一自适应模型(5121)被配置成在所述一个或多个多组分音频检测器基本上检测到在远端音频中的多组分音频时暂停收敛，并且

第二自适应模型(5129)被配置成在所述一个或多个多组分音频检测器基本上没有检测到在远端音频中的多组分音频时暂停收敛，或者

监控远端和近端音频的混杂处理单元(5122)被配置成在预定义的远端/近端音频存在事件中衰减第一或第二模块输出信号(5134、5136)，并且在所述一个或多个多组分音频检测器基本上没有检测到在远端音频中的多组分音频时被激活。

2.根据权利要求1的音频回声消除器，其特征在于，所述一个或多个多组分检测器是一个或多个立体声检测器，其具有作为输入的一个左(L)和一个右(R)音频通道，用以传输远端音频，其中该立体声检测器被配置成检测远端音频中的立体声。

3.根据权利要求2的音频回声消除器，其特征在于，所述立体声检测器被配置成在R-L和R+L之间的功率比大于0时检测立体声。

4.根据权利要求2的音频回声消除器，其特征在于，所述立体声检测器被配置成当用R+L的功率正规化的在R-L和R+L之间的互相关性大于0时检测立体声。

5.根据权利要求2的音频回声消除器，其特征在于，所述立体声检测器被配置成当用R+L的功率正规化的在R和L之间的互相关性小于0.25时检测立体声。

6.根据权利要求2的音频回声消除器，其特征在于，所述立体声检测器被配置成当用R的功率加上L的功率所正规化的在R和L之间的互相关性小于0.5时检测立体声。

7.根据权利要求2-6任意一个的音频回声消除器，其特征在于，

所述第二自适应模型(5129)被配置成在提供立体声回声估计(5138)时收敛，以便最小化模块输出信号中回声成分的立体声部分，并且被配置成从创建第二模块输出信号(5136)的第一模块输出信号(5134)中减去立体声回声估计(5138)。

8.根据权利要求2-7任意一个的音频回声消除器，其特征在于，第一自适应模型(5121)基于R和L的和来导出单声道回声估计(5133)，并且第二自适应模型(5129)从R和L之间的差来导出立体声回声估计(5138)。

9.根据权利要求2-8任意一个的音频回声消除器，其特征在于，所述混杂处理单元(5122)还被配置成：

当只存在远端音频时，基本上衰减第一(5134)或第二(5136)模块输出信号；

当只存在近端音频时，不变化地通过第一(5134)或第二(5136)模块输出信号。

10.根据权利要求9的音频回声消除器，其特征在于，如果远端和近端音频都存在，那么所述混杂处理单元(5122)被配置成：

当所述一个或多个立体声检测器在远端音频中没有检测到立体声时，不变化地通过第一(5134)或第二(5136)模块输出信号，或者将其最低限度地衰减；

当所述一个或多个立体声检测器在远端音频中检测到立体声时，根据预定义选择和/或取决于是否存在立体声回声消除，基本上或者最低限度地通过或衰减第一(5134)或第二(5136)模块输出信号。

11.根据权利要求2-10任意一个的音频回声消除器，其特征在于，

第一分解滤波器(5151)，被配置成将至少一部分的回声增加的输入信号频分为多个回声增加的输入子信号，其每一个由所述模型的相应子模块来处理，

第二分解滤波器(5125)，被配置成将至少一部分的L和R的和频分为L和R的多个子和，其由所述模型的相应子模块版本来处理，和/或由所述混杂处理单元的相应混杂处理子单元版本来处理，

合成滤波器(5127)，被配置成合并所述相应子模块版本或所述相应混杂处理子单元版本的输出。

12.根据权利要求11的音频回声消除器，其特征在于，

第三分解滤波器(5126)，被配置成将至少一部分的L和R的差频分为L和R的多个子差，其由所述模型的相应子模块版本来处理，由所述一个或多个立体声检测器的相应立体声子检测器版本来处理，和/或由所述混杂处理单元的相应混杂处理子单元版本来处理，并且所述一个或多个立体声检测器的相应立体声子检测器版本处理所述多个L和R的子和。

13.根据权利要求2-12任意一个的音频回声消除器，其特征在于，

立体声折叠单元(5161)，被配成在远端和近端音频都存在时，从远端信号除去立体声。

14.一种在音频回声消除系统中根据回声增加的输入信号来提供回声衰减的输出信号的方法，回声增加的输入信号除了远端音频加上回声成分外还包括近端音频，该音频回声消除系统包括生成第一模块输出信号(5134)的模块，至少被配置成实现声学回声的第一自适应模型(5121)，该模型在提供单声道回声估计(5133)并从创建所述第一模块输出信号(5134)的回声增加的输入信号中减去该单声道回声估计(5133)时收敛，以便最小化所述第一模块输出信号中回声成分的单声道部分，其特征在于步骤：

监控在远端音频中是否存在多组分音频，

在基本上检测到在远端音频中的多组分音频时暂停收敛第一自适应模型(5121)，并且

在基本上没有检测到在远端音频中的多组分音频时暂停收敛第二自适应模型(5129)，或者

激活监控远端和近端音频的混杂处理单元(5122)，其被配置成在预定义的远端/近端音频存在事件中衰减所述第二模块输出信号(5136)。

15.根据权利要求14的方法，其特征在于，

由一个左(L)和一个右(R)音频通道传输远端音频，并且所述多分组音频是立体声。

16.根据权利要求15的方法，其特征在于，

所述第二自适应模型(5129)在提供立体声回声估计(5138)时收敛，以便最小化模块输出信号中回声成分的立体声部分，并且从创建第二模块输出信号(5136)的第一模块输出信号中减去立体声回声估计(5138)。

17.根据权利要求15或16的方法，其特征在于下列附加的步骤：

基于R和L的和来导出单声道回声估计(5133)，并且

从R和L之间的差来导出立体声回声估计(5138)。

18.根据权利要求15-17中任何一个的方法，其特征在于所述混杂处理单元(5122)还被配置成：

当只存在远端音频时，基本上衰减第一(5134)或第二(5136)模块输出信号，

当只存在近端音频时，不变化地通过第一(5134)或第二(5136)模块输出信号，或者

如果远端信号和近端信号都存在，那么

当所述一个或多个立体声检测器在远端音频中没有检测到立体声时，不变化地通过第一(5134)或第二(5136)模块输出信号，

当所述一个或多个立体声检测器在远端音频中检测到立体声时，根据预定义选择，基本上或者最低限度地通过或衰减第一(5134)或第二(5136)模块输出信号。

19.根据权利要求15-18中任何一个的方法，其特征在于下列附加的步骤：

在远端和近端音频都存在时，从远端信号除去立体声。