CN105794190A

CN105794190A - 回声消除

Info

Publication number: CN105794190A
Application number: CN201480067624.3A
Authority: CN
Inventors: P.科奇奇安; C.P.詹塞
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Shenzhen Tcl Yunchuang Technology Co ltd
Priority date: 2013-12-12
Filing date: 2014-11-05
Publication date: 2016-07-20
Anticipated expiration: 2034-11-05
Also published as: WO2015086229A1; JP6243536B2; EP3080975A1; JP2017502580A; US9800734B2; CN105794190B; US20160309042A1; EP3080975B1; WO2015086229A9

Abstract

音频回声抑制器包括接收第一音频信号以便利用扩音器（205）进行再现的第一接收机（201）以及接收麦克风信号的第二接收机（211）。线性回声消除滤波器（213）从第一音频信号中生成第一补偿信号，并且补偿器（215）通过针对第一补偿信号补偿麦克风信号来生成残留信号。第一适配器（217）确定线性回声消除滤波器（213）的滤波器参数。估计器（219）生成失真量度，其中每一个失真量度指示对于在第一频率间隔之外的频率间隔中的残留信号的贡献。残留信号由于位于第一频率间隔内的第一音频信号的信号分量的再现而产生。回声减少器（207）随后基于失真量度来执行回声抑制。该方案可以提供尤其由于非线性效应而引起的非线性回声的改进的回声抑制。

Description

回声消除

技术领域

本发明涉及回声消除并且特别地而非排他地涉及针对自扩音器至麦克风的非线性回声的消除。

背景技术

许多音频应用在同一音频环境中使用音频换能器(transducer)诸如扩音器以及麦克风二者。例如，电话或电话会议应用典型地在近距离中采用扬声器和麦克风。

然而，扩音器与麦克风之间的声（学）耦合使得麦克风信号包括从扩音器中再现(render)的声音的元素，而这时常是不利的。

例如，对于电话和电话会议设备而言，在设备的扩音器与麦克风之间的声耦合使得所产生的扩音器信号的一部分被麦克风捕获到并被反向传送至远端用户，从而导致称为声学回声的干扰。通常假设：这个回声路径能够使用线性滤波器来充分地建模（model），这是因为：取决于正在其中使用该设备的声学环境，麦克风利用不同的延迟与强度来拾取扩音器信号的反射。因此，广泛地使用线性回声消除器来减少声学回声。

然而，在实践中，并且取决于设备，声学回声路径中的组件也包括时常展示出非线性特征的音频放大器和扩音器。特别地，在许多实际的实现方式中，扩音器在操作期间展示出显著的非线性失真。例如，为了确保小型与低成本实现方式，移动电话的扩音器时常至少部分地在其非线性域中被驱动。因此，纯线性回声消除往往是次优的并且往往无法完全移除声学回声。

EP2632141 A1披露这样的回声抑制器，而这样的回声抑制器是无法处置失真的回声分量的传统的线性回声抑制器。

扩音器中的非线性的主要原因是非均匀磁通密度和非线性悬架系统。后者主要在低频率上导致失真，而前者由于高幅度信号而加剧。实际上，大锥冲程(cone excursion)、尤其在扩音器的线性操作范围之外的大锥冲程导致非线性失真。对于音频放大器而言，如果高幅度信号落在放大器的输入/输出特征的线性输入范围之外，则这些高幅度信号能够被限幅(clip)。

更详细地，可以针对输入信号的不同频率范围来考虑扩音器系统的行为。对于超过共振频率的频率而言，扩音器能够利用其音圈的电阻和电感来表征。因此，随着至音圈的输入功率增加并且冲程对于音圈落在磁场之外而变得足够大，驱动力降低，从而导致某种形式的压缩或限幅效应。

对于低频率而言，扩音器主要利用其与磁通的功率成比例的运动系统阻抗来表征。这意味着：随着音圈移动到磁场之外，这个阻抗降低并因此不限幅，在扩音器的悬架系统限制冲程之前，音圈中的电流的幅度实际上增加。

扩音器的非线性行为的适当建模在声学回声消除领域中仍然是具有挑战性的课题。这对于其中使用诸如放大器和扩音器之类的低成本音频组件的免提通信应用而言尤其如此。这些组件时常被驱动至其非线性操作范围中，以便实现这样的应用所要求的高声音输出电平。由此产生的非线性失真不但限制通常在扩音器与麦克风之间呈现线性脉冲响应的声学回声消除器的性能，而且还影响所感知的扩音器信号的质量。

US2009/214048 A1披露针对谐波失真的自适应的基于NLMS的回声抑制。然而，由于基于NLMS的回声抑制的使用，应该仅仅针对高量级信号来完成适应。此外，应该使用自适应阈值来预测：为了启用适应，哪些频率可能产生谐波失真。

因此，用于管理非线性声学回声的系统在改善双向通信系统的音频质量方面起着显著的作用。

在现有技术中，对于消除或抑制非线性声学回声而言，存在三种主要种类的系统：

1．非线性声学回声消除，

2．用于线性声学回声消除的扩音器线性化，

3．非线性声学回声抑制。

在第一类型的系统中，声学回声路径非线性利用声学回声消除器来建模。例如，音频放大器的饱和度能够使用具有的限幅水平与音频放大器的限幅水平相匹配的限幅函数来建模。如果这个限幅函数被应用于数字扩音器信号，则能够使用标准的线性声学回声消除器来针对在扩音器与麦克风之间的线性声学路径建模。如前所提及的，扩音器也是非线性的源。与无记忆的限幅函数不同，扩音器非线性通常包含某种形式的记忆并且最常见地利用在计算上是相当昂贵的Volterra（沃尔泰拉）级数展开来建模。虽然低成本版本的基于Volterra的算法诸如幂级数展开存在，但是这些算法时常仍要求可能仍然是计算密集型的信号正交化方法。

第一类型的系统的主要缺陷是：要求这些系统将模型与底层物理系统的模型紧密匹配。这典型地无法利用高精度来实现。此外，这些系统往往是计算非常密集的。

第二类型的系统将非线性函数应用于扩音器信号，以致这个函数与扩音器的响应函数的级联接近于线性函数，并因而利用设备的麦克风所捕获的扩音器信号近似地是扩音器信号的线性函数。相应地，标准的线性自适应滤波器能够用于针对这个线性函数来建模并执行声学回声消除。

这样的方案的缺陷是：它只能近似地线性化扩音器的输出信号，并且性能通常在放大器饱和度也发生时降级，这是因为这样的变换不容易线性化。此外，所引入的非线性函数可能难以估计，并因而消除可能是次优的。此外，这可能直接影响利用扩音器所生成的信号的声音质量。

第三类型的系统时常被用作针对声学回声消除的后处理步骤，其中抑制在回声消除阶段中不能被抑制的残留的非线性声学回声。通常，在谱幅度域中使用回声非线性的谱模型来执行此抑制。

此方案的主要缺陷是：由于过度抑制和缺乏谱幅度域中的回声相位信息，能够严重衰减源于本地环境的近端音频（尤其语音），而这可以导致难以与远端方进行例如全双工通信。

一般而言，针对回声消除、尤其针对非线性效应的消除的现有技术的方案往往是复杂的，从而导致次优的性能和/或高的计算资源使用。

因此，改进的方案将是有利的，并且特别地，允许增加灵活性、降低复杂性、简化实现方式、减少资源使用和/或改进性能的方案将是有利的。

发明内容

相应地，本发明试图逐一地或在任意组合中优选地缓解、减轻或除去上述缺陷之中的一个或多个缺陷。

根据本发明的一方面，提供根据权利要求1的音频回声抑制器。

本发明可以在许多实施例中提供改进的回声抑制/消除。特别地，本发明可以提供由于诸如功率放大器或扩音器非线性之类的非线性效应而产生的回声分量的改进抑制。在一些实施例中可以通过减少或阻止再现的非线性效应和/或通过残留信号/捕获的麦克风信号中非线性的补偿来实现回声抑制。

特别地，可以实现回声抑制针对所经历的特定的非线性效应的改进适应(adaptation)。特别地，第一频率间隔的失真量度(measure)提供用于确定由于第一频率间隔中的特定信号分量而导致的非线性回声的非常合适的量度，从而允许该系统具体解决这些效应。

该系统可以被安排成生成多个频率间隔的失真量度（具体地，使用与用于第一频率间隔的方案相同的方案）。可以执行回声抑制，以响应所有的失真量度。具体地，可以在与这些失真量度的频率间隔相对应的子带中执行回声抑制。每一个子带中的回声抑制在一些实施例中可以进行适配以响应相应频率间隔的失真量度，并且实际上，在许多实施例中，每一个子带/频率间隔的回声抑制可以取决于仅仅那个子带/频率间隔的失真量度。

尤其，为了处理非线性效应，所使用的失真量度可以提供特别有利的性能。实际上，这可以提供非线性效应的准确评估而不要求生成和适配详细的非线性模型。该方案在许多实施例中可以在保持低复杂度的同时提供改进的回声抑制。

该方案可以允许被馈送至远端的残留信号中由此产生的回声的动态减少，其中这些失真量度连续地进行更新，并且相应地，针对特定条件来连续地适配回声抑制。

补偿器可以具体被安排成通过从麦克风信号中减去第一补偿信号来生成残留信号。

回声减少器可以具体被安排成执行第一音频信号的非线性回声的回声抑制。

根据本发明的可选特性，第一估计器包括：第一子带生成器，用于从第一音频信号中生成第一频率间隔的第一子带信号；第二子带生成器，用于从残留信号中生成多个残留子带信号；比较器，用于确定不属于第一频率间隔的至少一些残留子带信号的相似度量度，残留子带信号的相似度量度指示残留子带信号与第一子带信号的相似度；以及第二估计器，用于从相似度值中确定第一频率间隔的失真量度。

该方案可以允许低复杂度实现方式和/或可以允许回声抑制的改进适应。特别地，针对给定频率间隔提供非线性效应的良好指示的失真量度可以被确定并被用于适配回声抑制，从而导致改进的回声抑制。该方案对于通过修改第一音频信号而执行的回声抑制而言可能是特别有利的，即，该方案对于预处理回声抑制/消除而言可能是特别有利的。

在一些实施例中，不属于第一频率间隔的至少一些残留子带信号包括不属于第一频率间隔的所有的残留子带信号。

分别地，通过对第一音频信号和残留信号应用频率变换，可以从第一音频信号和残留信号中生成这些子带。频率变换可以生成子带值，其中子带值在一些实施例中可以直接被用作子带信号。在一些实施例中，所生成的变换值可以进一步被处理，以生成这些子带。例如，通过平均这些变换子带的值，可以生成与多个变换子带相对应的子带信号。

每一个子带信号可以包括被下变换成具有0Hz（子带）的中心频率的相应信号的子带过滤版本的时间表示。例如，FFT可以被应用于残留信号的块(block)，并且残留子带信号可以对应于利用连续块的值形成的每一个容器(bin)的时间信号。在一些实施例中，多个容器可以被组合来生成这些子带信号之中的一个或多个。

针对第一音频信号的不同子带，可以重复生成失真量度的方案。例如，频率变换可以被应用于第一音频信号，以生成多个子带信号。对于每一个子带信号，失真量度可以被确定为已针对特定子带信号与不是特定子带信号的频率间隔的一部分的残留子带信号的配对而确定的相似度值的组合。

根据本发明的可选特性，比较器被安排成生成第一残留子带信号的相似度量度，以响应第一子带信号的信号变化与第一残留子带信号的信号变化的相似度。

信号变化可以是随着时间的变化。该方案可以具体地寻求识别第一子带信号中的事件与第一残留子带信号中的事件之间的对应性(correspondence)。如果对应性越大，则相似度值就越大。该方案可以提供起因于第一频率间隔中的信号分量的非线性的改进指示。

根据本发明的可选特性，比较器被安排成生成第一残留子带信号的相似度值，以响应第一子带信号和第一残留子带信号的互相关度(correlation)。

这可以提供特别有效的和/或低复杂度的失真量度的确定。

比较器可以具体地被安排成生成第一残留子带信号的相似度量度，以响应第一子带信号与第一残留子带信号的最大互相关度。最大互相关度可以对应于与导致最大互相关值的时间偏移的互相关值。

在一些实施例中，第一估计器被安排成生成残留子带信号和第一子带信号作为包络信号。

这在许多实施例中可以提供改进的性能和/或降低的复杂度。包络信号可以具体地对应于通过诸如FFT之类的频率变换所生成的子带样本的（可能地，复）值。

根据本发明的可选特性，第一估计器被安排成生成多个频率间隔的失真量度，并且回声减少器被安排成单独地调节多个频率间隔之中的每一个频率间隔的回声抑制的参数，以响应该频率间隔的失真量度。

这可以提供有效的且低复杂度的回声抑制。特别地，这可以通过允许每一个频带的独立的且个别的处理而允许低复杂度。该方案在许多场景中可以允许减少对于音频质量的影响，这是因为只有存在问题的频带才需要受到回声抑制的影响。

因而，在许多实施例中，多个频率间隔之中的每一个频率间隔的回声抑制可以响应于仅仅那个频率间隔的失真量度。

根据本发明的可选特性，第二估计器被安排成通过组合至少一些残留子带信号之中的多个残留子带信号的相似度值来生成失真量度。

这可以提供有利的失真量度。该组合可以具体地包括（可能加权的）求和或平均。

根据本发明的可选特性，第二估计器被安排成相对于功率估计、针对第一频率间隔内的第一音频信号的信号分量对于麦克风信号的贡献来归一化失真量度。

这在许多实施例中可以提供改进的性能。特别地，这可以允许失真量度在[0;1]的间隔中的归一化分布。

根据本发明的可选特性，第二估计器被安排成生成功率估计，以响应第一频率间隔的线性回声功率估计，其中线性回声功率估计响应于滤波器参数的集合而生成。

这在许多实施例中可以提供改进的性能。

根据本发明的可选特性，比较器被安排成选择至少一些残留子带信号，以响应第一频率间隔的频率与残留子带信号的子带频率之间的谐波关系。

这在许多实施例中可以提供改进的性能。具体地，这可以允许更精确地反映总的谐波失真的失真量度。这在许多实施例中在估计非线性效应中可以减少噪声，其中已经知道非线性效应例如主要引起谐波。可供选择地或附加地，这在许多实施例中可以降低复杂度和/或计算资源需求。

根据本发明的可选特性，第一估计器包括：第一子带生成器，用于从残留信号中生成第一频率间隔的第一残留子带信号；第二子带生成器，用于从第一音频信号中生成多个第一音频子带信号；比较器，用于确定不属于第一频率间隔的至少一些第一音频子带信号的相似度量度，其中第一音频子带信号的相似度量度指示第一音频子带信号与第一残留子带信号的相似度；以及第二估计器，用于从相似度值中确定第一频率间隔的失真量度。

该方案可以提供低复杂度的实现方式和/或可以允许回声抑制的改进适应。特别地，提供给定频率间隔的非线性效应的良好指示的失真量度可以被确定并被用于适配回声抑制，从而导致改进的回声抑制。该方案对于通过修改残留信号而执行的回声抑制而言可能是特别有利的，即，该方案对于后处理回声抑制/消除而言可能是特别有利的。

在一些实施例中，不属于第一频率间隔的至少一些第一音频子带信号包括不属于第一频率间隔的所有的第一音频子带信号。

该方案可以提供低复杂度的实现方式和/或可以提供回声抑制的改进适应。特别地，提供给定频率间隔的非线性效应的良好指示的失真量度可以被确定并被用于适配回声抑制，从而导致改进的回声抑制。

分别地，通过对第一音频信号和残留信号应用频率变换，可以从第一音频信号和残留信号中生成这些子带。频率变换可以生成子带值，其中子带值在一些实施例中可以直接被用作子带信号。在一些实施例中，所生成的变换值可以进一步被处理，以生成这些子带。例如，通过平均多个变换子带的值，可以生成与这多个变换子带相对应的子带信号。

每一个子带信号可以包括下变换成具有0Hz的（子带的）中心频率的相应信号的子带过滤版本的时间表示。例如，FFT可以被应用于残留信号的块，并且残留子带信号可以对应于利用连续块的值形成的每一个容器（bin）的时间信号。在一些实施例中，多个容器可以进行组合，以生成这些子带信号之中的一个或多个。

针对残留信号的不同子带，可以重复生成失真量度的方案。例如，频率变换可以被应用于残留信号，以生成多个残留子带信号。对于每一个子带信号，失真量度可以被确定为相似度值的组合，其中已针对特定残留子带信号与不是该特定残留子带信号的频率间隔的一部分的第一音频子带信号的配对（pairing）确定了这些相似度值。

根据本发明的可选特性，第二比较器被安排成基于至少一些第一音频子带信号之中的多个第一音频子带信号的相似度值的组合来生成第一残留子带信号的失真量度。

根据本发明的可选特性，回声减少器被安排成在利用扩音器进行再现之前修改第一音频信号，以响应失真量度的集合。

这在许多实施例中以及在许多场景中可以提供特别有效的回声抑制。具体地，可以执行采用预处理形式的回声抑制，以便通过减少引起非线性回声的信号分量来缓解非线性效应。因而，这可以减少甚至阻止非线性回声产生。

在一些实施例中，可以在修改之前从第一音频信号中生成第一子带信号。在其他的实施例中，可以在修改之后从第一音频信号中生成第一子带信号。预处理的适应在后一种情况中可以作为反馈环路来实现，其中修改被适配以响应失真量度，并且在预处理/修改之后基于第一音频信号来生成失真量度。

在一些实施例中，在修改之前从第一音频信号中生成第一补偿信号。在一些实施例中，在修改之后从第一音频信号中生成第一补偿信号。

回声减少器可以被安排成修改第一音频信号来减少失真量度。具体地，在一些实施例中，针对频率间隔的修改是这样的，以致那个频率间隔的失真量度被减至目标水平。目标水平可以是非零值。

根据本发明的可选特性，回声减少器被安排成针对第一频率间隔中的第一音频信号设置增益或限幅水平，以响应第一频率间隔的失真量度。

这可以提供特别有效的和/或低复杂度的实现方式与操作。可变的增益或限幅可以在第一音频信号被馈送至线性回声消除滤波器之前或之后被应用于第一音频信号。在从第一音频信号中生成第一子带信号之前或之后，可以将可变的增益或限幅应用于第一音频信号。

根据本发明的可选特性，回声减少器被安排成修改残留信号，以响应失真量度的集合。

这在许多实施例中和在许多场景中可以提供特别有效的回声抑制。具体地，可以执行采用后处理形式的回声抑制，以便通过减少主要对应于非线性回声的信号分量来缓解非线性效应。

回声减少器可以具体修改针对其估计高量度值的子带的信号。

根据本发明的可选特性，回声减少器被安排成针对第一频率间隔中的残留信号设置增益或限幅水平，以响应第一频率间隔的失真量度。

这可以提供特别有效的和/或低复杂度的实现方式与操作。

在一些实施例中，回声减少器被安排成在利用扩音器进行再现之前修改第一音频信号以响应失真量度的集合以及修改残留信号以响应失真量度的集合。

在一些实施例中，比较器可以确定第一频率间隔中的第一残留子带信号与不属于第一频率间隔的第一音频信号的至少一些子带信号的相似度量度，其中第一残留子带信号和第一音频信号的子带信号的相似度量度指示第一残留子带信号与第一音频信号的子带信号的相似度。通过组合第一残留子带信号与在第一频率间隔之外的第一音频信号的多个子带信号的相似度量度，可以确定第一残留子带信号的失真量度。

失真量度可以指示在个别残留子带中的非线性回声失真的总量。

这可以提供特别有效的操作与性能。特别地，可以执行基于每一个残留子带信号中所估计的非线性失真的有效的后处理。

执行预处理和后处理二者可能是有利的。具体地，基于个别频带的失真量度的预处理和后处理提供在这两种方案之间具有协同效应的极有效的回声抑制。具体地，所组合的回声抑制可以优化质量权衡(trade-off)。

具体地，常规的预处理方案在缓解线性回声效应方面往往是效率低下的并且由于该处理而导致所再现的音频降级。类似地，常规的后处理往往无法移除所有的非线性效应并且往往引入赝像(artifact)。

然而，引入基于个别频带的失真量度的预处理和后处理二者，这允许该系统适应于预处理与后处理之间的平衡，其中预处理能够将非线性失真减至能够利用后处理来合理处理的水平而没有不可接受地降级所再现的音频的预处理并且没有不可接受地引入赝像的后处理。因而，该方案可以控制预处理和后处理，以致这二者操作在合理的参数内并且不要求个别处理在极端情况下工作。

根据本发明的一方面，提供根据权利要求15的音频回声抑制的方法。

根据本发明的一方面，提供一种计算机程序产品，其包括被适配成当所述程序运行在计算机上时执行上面方法的所有步骤的计算机程序代码装置。

本发明的这些与其他方面、特性和优点从下文描述的（一个或多个）实施例中将是显然的并将参考此（一个或多个）实施例来阐述。

附图说明

仅仅通过示例、参考附图来描述本发明的实施例，其中：

图1示出线性回声消除系统的元素；

图2示出根据本发明的一些实施例的示例性的回声抑制器的一些元素；

图3示出根据本发明的一些实施例的示例性的失真量度处理器的一些元素；

图4示出针对图2的回声抑制器的输入音频信号的子带信号的示例；

图5示出针对图2的回声抑制器的残留音频信号的子带信号的示例；以及

图6示出根据本发明的一些实施例的示例性的回声抑制器的一些元素。

具体实施方式

图1示出常规的线性回声消除系统的原理。回声消除系统可以具体地用于通信系统中并且打算用于消除由于来自远端的与来自近端的音频一起部分返回的音频信号而导致的被远端感知的回声。

回声消除器接收被馈送至扩音器101并从中再现的输入信号x(n)。输入信号x(n)从远端进行接收并且例如可以包含语音或其他的音频源。

麦克风103通过在环境中捕获音频来生成麦克风信号。例如，音频包括本地说话者或其他的音频源。另外，由于扩音器101与麦克风103之间的声耦合/路径，麦克风信号包括从扩音器101中再现的利用e(n)代表的音频的一部分。如果所捕获的信号被返回至远端而没有进一步处理，则所传送的信号将不仅包括近端音频，而且还包括输入信号x(n)的版本，即，远端上的音频的延迟版本。这将被感知为回声。

因此，在回声消除器中，自适应线性滤波器105接收输入信号x(n)并生成麦克风信号z(n)中的回声的预测y(n)。从麦克风信号z(n)中减去该预测y(n)，从而生成被发送至远端的残留信号r(n)。

预测滤波器即自适应线性滤波器105取决于残留信号r(n)进行适配并且可以具体地被适配来最小化残留信号r(n)的能量。将意识到：用于适配预测滤波器/自适应线性滤波器105的许多不同的算法和方案是已知的。

相应地，生成其中可以显著减少声学回声的残留信号r(n)。

然而，图1的回声消除器固有地旨在减少线性回声（即，由于线性效应/处理而导致的回声）。然而，由于输入信号x(n)至麦克风信号z(n)的耦合之中的许多部分具有非线性性质（例如功率放大器限幅、扩音器非线性），所以线性回声消除只能解决所引入的回声的一部分。

图2示出根据本发明的一些实施例的回声抑制器的一些元素。回声抑制器可以相对于图1的系统提供改进的回声抑制并且在许多实施例和场景中可以具体地提供非线性回声分量（即，由于非线性效应或处理而导致的回声）的改进抑制。

回声抑制器包括第一接收机201，其接收将要再现的第一音频信号（与图1的输入信号x (n)相对应）。第一音频信号从远端进行接收并且可以例如包括用于向近端上的用户进行再现的语音。

第一音频信号被馈送至功率放大器203，而功率放大器203被耦合至扩音器205。在图2中，第一音频信号经由回声减少器207被馈送至功率放大器203。

如稍后将要解释的，在一些实施例中，可以在再现之前执行第一音频信号的预处理，以便缓解非线性回声效应。在其他的实施例中，第一音频信号可以直接地且不经修改地被馈送至功率放大器203，以便再现。

该系统此外包括麦克风209，其捕获环境的音频。麦克风209被耦合至第二接收机211，其从麦克风接收信号并输出麦克风信号。第二接收机可以包括滤波器电路、模-数转换、放大功能等等。

由此产生的麦克风信号因而包括环境的音频源，诸如近端说话者。另外，麦克风信号可以包括与利用扩音器205所再现的音频相对应的信号分量。在许多应用中，具有从扩音器205至麦克风209的声学路径，即，麦克风209能够“听到”扩音器205。声学路径可以在环境中直接经由空气或可以例如经由支撑麦克风209和扩音器205的橱柜的墙壁。作为声学路径的后果，来自远端的所再现的信号的回声将出现在麦克风信号中。

这些回声可以是由于声学路径的线性传递函数而导致的线性回声。然而，另外，例如由于声学路径具有非线性组件或由于功率放大器203或扩音器205中的非线性效应，可能引入非线性回声。

为了解决所引入的效应，回声减少器进一步包括线性回声消除滤波器213，其从第一音频信号中生成第一补偿信号。线性回声消除滤波器213试图预测从功率放大器203的输入至第二接收机211的输出（即，麦克风信号）的声学路径，即，线性回声消除滤波器213试图预测将由于第一音频信号而导致的回声。

线性回声消除滤波器213和第二接收机211被耦合至补偿器215，而补偿器215通过针对第一补偿信号来补偿麦克风信号而生成残留信号。在许多实施例中，补偿器215可以简单地从麦克风信号中减去第一补偿信号。

该系统此外包括第一适配器217，其被耦合至补偿器215与线性回声消除滤波器213。第一适配器217接收残留信号，并且在响应中，它生成用于线性回声消除滤波器213的滤波器参数。

因而，线性回声消除滤波器213的适应可以基于反馈环路，其中滤波器的参数被调节，以减少从残留信号中导出的量度，例如，可以试图将残留信号的能量进行最小化。

将意识到：可以使用任何合适的适应方案，并且本领域技术人员将知晓许多不同的可能算法。例如，可以应用最小均方误差（MLSE）算法。

残留信号在该示例中被馈送至回声减少器207，而回声减少器在该信号被传送至远端之前可以对该信号执行回声抑制。在其他的实施例中，残留信号可以直接被传送至远端。

因而，图2示出一示例，其中回声减少器207可以通过处理第一音频信号和残留信号二者来执行回声抑制，即，执行预处理和后处理二者。实际上，如稍后将描述的，这样的方案可以是特别有利的并且提供改进的回声抑制。然而，在一些实施例中，可以仅对第一音频信号或对残留信号执行回声抑制，即，回声抑制可以只是残留信号的后处理或第一音频信号的预处理。

在图2的系统中，线性回声消除滤波器213以及利用补偿器214进行的补偿试图移除线性回声。典型地，这能够利用相对高的效率来实现。然而，这个补偿并没有减少或解决非线性回声。相反，回声减少器207试图减少或移除被发送至远端的信号中的这样的非线性回声。

回声减少器207具体被安排成在个别频率间隔中执行回声抑制。具体地，针对第一音频信号的每一个频率间隔，生成失真量度，其指示由于第一音频信号的这个频率间隔的再现而引起的非线性失真的程度。

具体地，针对第一频率间隔，生成第一失真量度，其被视为由于第一频率间隔中的第一音频信号的信号分量而引起/导致的非线性失真量的估计。

基于失真量度，回声减少器207随后可以继续处理第一音频信号。因而，基于第一失真量度来修改第一频率间隔中的第一音频信号的信号分量。

作为示例，第一频率间隔的增益可以取决于第一失真量度来设置。如果第一失真量度指示具有由于第一音频信号的第一频率间隔而引起的高程度的非线性失真，则可以相应地减少这个特定频率间隔的增益。

相应地，图2的系统包括第一估计器219，其被安排成生成失真量度的集合。每一个失真量度被链接至频率间隔。在一些实施例中，该集合可以只包含单个失真量度，但是在大多数的实施例中，包括多个失真量度。具体地，频率范围（例如，与音频范围相对应）可以被分成多个频率间隔，其中针对这些频率间隔之中的每一个频率间隔，生成失真量度。

第一估计器219接收第一音频信号和残留信号，并且基于这些信号，第一估计器219可以生成随后被馈送至回声减少器207的失真量度的集合。

第一估计器219具体被安排成将每一个失真量度生成为指示对于由于第一频率间隔内的第一音频信号的音频分量而导致的在第一频率间隔之外的至少一个频率间隔中的残留信号的贡献。

因而，对于给定的第一频率间隔，第一估计器219估计在残留信号中未落入第一频率间隔中但是却由于第一频率间隔内的信号分量的再现即由于位于第一频率间隔内的第一音频信号的信号分量而导致的信号分量。

因而，失真量度被计算来反映有可能由于不仅改变信号分量的幅度与相位、而且还改变信号分量的频率的处理而导致的信号分量。因而，第一估计器219被安排成通过区分已改变频率的回声信号分量与未改变频率的信号分量来区分线性效应和非线性效应。相应地，提供由于第一音频信号的每一个频率间隔而导致的非线性回声的良好指示的失真量度被生成并被用于适配利用回声减少器207进行的回声抑制。相应地，回声减少器207可以使用这个信息来具体地将非线性效应作为其目标。

例如，图2的系统能够确定第一音频信号的哪些频率间隔引起(rise to)回声分量而不考虑回声分量出现在频率范围中的位置并具体解决这些频率间隔。因而，该方案可以允许始发信号分量而非由此产生的信号分量被用于控制利用回声减少器207进行的回声抑制。

将意识到：用于基于利用失真量度所提供的始发频率间隔的信息来抑制线性回声的特定方案在不同的实施例中可以是不同的。实际上，利用失真量度所提供的特定信息针对许多不同的方案与算法（其中的一些稍后将进行描述）而言可以允许尤其非线性回声的改进抑制。

图3示出第一估计器219的示例性的实现方式的元素的示例。

在该特定示例中，第一估计器219包括接收第一音频信号并将其转换成许多子带信号的第一子带生成器301。具体地，生成第一子带信号来对应于第一频率间隔中的第一音频信号的信号分量。这样的单个子带信号可以通过第一音频信号的过滤来生成。

虽然该方案在一些实施例中可以只考虑单个频率间隔，但是该系统在大多数的实施例中可以考虑多个频率间隔。因而，在大多数的实施例中，第一子带生成器301生成多个子带信号。这些子带信号可以具体地通过执行时域-频域变换诸如FFT或QMF变换来生成。

第一估计器219此外包括接收残留信号并继续生成多个残留子带信号的第二子带生成器303。第二子带生成器303可以例如执行诸如FFT变换之类的时域-频域变换来生成残留子带信号。作为另一示例，可以使用QMF滤波器组。

第一子带生成器301和第二子带生成器303被耦合至比较器305。比较器305继续为第一音频信号和残留子带信号的子带的每一个配对来生成相似度量度，其中这些子带对应于不同的频率。

具体地，针对第一频率间隔，为不属于第一频率间隔的每一个残留子带信号，生成相似度量度。生成每一个配对的相似度量度来指示所考虑的第一子带信号与残留子带信号的相似度。

子带信号的配对的相似度值可以具体地基于子带信号和残留子带信号的信号变化的比较来生成。因而，如果考虑第一子带信号与第一残留子带信号的配对，则比较器305可以继续评估第一子带信号（随时间）的变化如何紧密地与第一残留子带信号（随时间）的变化相匹配。如果信号展示出的相应变化越多，则那个子带的相似度量度就越高。

在一些实施例中，比较器305可以例如在一个子带信号中检测特定事件并在另一子带信号中搜索相应事件。例如，如果第一子带信号在幅度中展示出陡峭阶跃(abruptstep)，则可以利用比较器305检测到这个。比较器305随后可以继续扫描第一残留子带信号，以查看是否相应的阶跃出现在这个信号中。如果否的话，则可以认为这两个子带信号不是相似的，并且相似度值可以例如被设置成零。如果检测到相应的阶跃改变，则比较器305可以将相似度值设置成对应于第一残留子带信号中的阶跃的相对大小。

然而，虽然基于特定事件来确定相似度值在许多实施例中可以提供有效的性能，但是在许多实施例中可能有利的是（在给定的时间间隔中）通过作为一个整体考虑这些子带信号来执行比较。

具体地，在许多实施例中，比较器305可以为子带的给定配对生成相似度值，以响应这些子带信号之间的互相关度，并且具体地，以响应这些子带信号之间针对不同时间偏移的互相关度的最大值。

具体地，对于第一子带信号和第一残留子带信号，比较器305可以针对这些子带信号之间一系列不同的时间偏移来计算互相关度。互相关度的最高值可以被识别并被用于确定相似度量度。特别地，最大的互相关度可以直接被用作相似度量度（或者可以例如被归一化）。

在另一实施例中，不使用第一子带信号和第一残留子带信号，比较器205可以计算第一子带信号与第一残留子带信号的自相关函数之间的互相关度。这个消除了针对一系列不同的时间偏移检查互相关值的需要。

在许多实施例中，评估可以基于包络信号，即基于给定频率间隔中的信号分量的（可能地，复）幅度。作为示例，所生成的值FFT容器值可以直接被使用或者可以被使用而不考虑相位。作为特定示例，基于包络信号的相关度可以通过生成包络信号的时间表示作为时间序列的利用连续FFT块所生成的FFT容器值来确定。随后可以针对这些时间序列进行互相关计算。因而，如果第一频率间隔中的第一音频信号的FFT容器值随时间的变化与所考虑的残留子带信号的FFT容器值随时间的变化相匹配越多，则相似度值就越高。

比较器305因而继续为不对应于相同频带的第一音频信号与残留信号的子带信号的所有配对生成相似度值。因而，对于给定的频率间隔，比如说第一频率间隔，生成相似度值，其指示其他频率上的子带信号与第一频率间隔中的第一音频信号的子带信号有多相关。因而，对于给定频率间隔而言，生成相似度值，其指示其他频率间隔中的信号分量有多大可能性是由于给定频率间隔中的第一音频信号的再现而导致的，即，生成反映是否在其他频带中生成信号分量的相似度值。

比较器305被耦合至从相似度值中确定失真量度的第二估计器307。具体地，对于例如第一频率间隔，基于相似度值并且具体地基于第一频率间隔的相似度值来确定失真量度。

在一些实施例中，第二估计器被安排成通过组合多个残留子带信号的相似度值来生成失真量度。典型地，通过组合所有的相似度量度来生成失真量度。作为特定示例，所有的相似度量度的平均值或总和可以被计算并被用作失真量度。

因而，生成失真量度来提供由于第一音频信号的第一频率间隔的再现而在第一频率间隔之外生成多少回声的指示。这样的频移与非线性效应相关联，并因而第一频率间隔的失真量度提供由于特定频率间隔中的第一音频信号的再现而生成的非线性回声的强烈指示。

如所提及的，可以针对覆盖某一频率范围的多个频率间隔生成失真量度。因而，失真量度可以提供由于第一音频信号的再现而生成的非线性回声的强烈指示，并且具体地，其可以提供个别频率间隔所生成的非线性回声的强度的强烈指示。在一些实施例中，频率范围可以包括整个音频频带。在其他的实施例中，只考虑特别感兴趣的频率范围，例如，诸如中低范围频率（因为较高频率的谐波可能实质上在听觉范围之外）。

在一些实施例中，失真量度可以被归一化，并且具体地，相对于指示第一频率间隔中的第一音频信号的功率的功率估计，可以归一化所计算的相似度值。因而，如果第一音频信号在第一频率间隔内具有高的信号能量，则这有可能导致包括非线性回声的相对较强的回声。为了估计非线性效应，针对第一频率间隔中的能量/功率来补偿第一频率间隔的失真量度因此可能是相关的。在一些实施例中，相似度值和/或失真量度可以相对于第一频率间隔中的第一音频信号的功率进行扩缩(scale)。

在一些实施例中，第二估计器307可以被安排成基于反映第一频率间隔内的麦克风信号的估计功率的线性功率估计来生成功率估计。因而，相似度值/失真量度可以基于线性回声的估计功率来补偿。这个估计有可能能够基于所接收的麦克风信号来生成。然而，这样的方案有可能包括相对高程度的噪声，这是因为麦克风信号包括来自例如包括近端说话者的近端音频环境的信号分量。

因此，在许多实施例中，可以基于第一频率间隔中的第一补偿信号来生成估计，即，估计可以基于线性回声消除滤波器213的滤波器参数或输出以及第一频率间隔中的第一音频信号。

在一些实施例中，相对于第一音频信号的总功率，相似度值/失真量度可以进行补偿或者具体地进行扩缩。

如所提及的，失真量度可以响应于在第一频率间隔之外的所有子带的相似度值来生成。然而，在一些实施例中，第一估计器219可以被安排成选择所考虑的残留子带信号的子集。具体地，在一些实施例中，第一估计器219可以选择对于第一频率间隔而言具有合适的谐波关系的子带，并且只考虑相应的残留子带信号。

例如，如果第一频率间隔覆盖500Hz±50Hz的频带，则第一频率间隔中的任何频率的第二谐波将位于900Hz-1100Hz的范围中，并且第三谐波将位于1350Hz-1650Hz的范围中。在一些实施例中，第一估计器219可以只考虑由于第二或第三谐波而引起的非线性回声，并且可以相应地只考虑与这些频率间隔之中的一个频率间隔相重叠的残留子带信号。

在许多实施例中，这可以引起非线性回声效应的改进估计。具体地，对于许多非线性效应而言，众所周知的是：由此产生的信号分量主要是二阶或三阶谐波，并且通过专注于这些谐波落入其中的频带，可以减少其他声音的影响，从而导致降低的噪声。此外，在许多实施例中能够实现显著降低的复杂度和计算负担。

第一估计器219因而可以具体地针对多个频率间隔生成失真量度，并且具体地针对给定频率范围内的所有频率间隔生成失真量度。这些值随后可以被用于利用回声抑制器207来适配回声抑制。

回声抑制器207可以具体被安排成单独地调节多个频率间隔之中的每一个频率间隔的回声抑制的参数，以响应该频率间隔的失真量度。

因而，在这样的实施例中，第一频率间隔中的回声抑制可以取决于第一失真量度，其中第一失真量度是针对第一频率间隔而计算的失真量度。这个设置在一些实施例中可以与例如用于第二频率间隔的参数的设置无关。例如，可以个别地针对多个频率间隔之中的每一个频率间隔、取决于那个频率间隔的失真量度来设置增益。

在一些实施例中，回声减少器被安排成在利用扩音器进行再现之前取决于失真量度的集合来修改第一音频信号。因而，在一些实施例中，回声抑制器207在再现第一音频信号之前执行第一音频信号的预处理。利用失真量度的集合来设置用于这个预处理的参数。

作为特定示例，回声抑制器207可以被安排成针对多个频带之中的每一个频带、基于针对这些频带所生成的失真量度来设置增益。例如，如果给定频率间隔的失真量度增加，则这个指示由于这个频率间隔中的信号分量而引起的由此产生的非线性回声增加。相应地，回声抑制器207可以继续减少这个频率间隔的增益。类似地，如果频率间隔的失真量度减少，则可以增加增益。

在许多实施例中，如果相应的失真量度满足标准，则可以只调节增益。例如，初始地，可以将所有的增益设置成恒定值。这些值可以是导致平坦频率响应并因而不导致所再现信号的质量的降级的默认值。

然而，如果失真量度增加而超过给定阈值，则这可以指示：非线性回声是不可接受的。因而，可能优选的是减少这个频率间隔的增益，直至失真量度下降而低于阈值。这在再现的频率响应中可能导致某种染色(coloration)或失真，但是这对于不可接受的回声被生成并被回馈至远端而言可能是优选的。

例如，回声抑制器207可以个别地控制每一个个别频带的增益，以致该频带的失真量度被保持在阈值以下。

在一些实施例中，可以采取同一方案来调节个别子带的限幅水平。例如，可以对系统进行设置，其中所有频带的限幅水平位于已知甚至在最糟糕的场景中也不会导致任何限幅的水平上。然而，如果给定频带的失真量度增加而超过阈值，则可以减少限幅水平，直至失真量度再次下降而低于阈值。因而，可以控制限幅水平，以确保由于个别频带而引起的非线性回声是可接受的，并且仅在有必要时才引入那个失真。

将意识到：限幅在一些实施例中可以是软限幅。在一些实施例中，可以应用调节增益和限幅二者的算法。

该方案因而可以用于控制所生成的非线性回声并且可以特别地、动态地针对所经历的特定条件来适配回声抑制。特别地，这可以允许系统以音频质量的降低为代价来减少非线性回声。然而，由于系统能够针对特定条件动态地适配，所以能够典型地将再现质量的降级最小化。进一步，典型地只要求补偿相对少量的频带，并因此质量影响典型地是可接受的或甚至是不可感知的。此外，该影响被限制于实际上引起非线性回声的频带。

在本发明的某些实施例中，设置回声抑制的最低水平，以便利用系统来确保音频质量的某一水平。因此，残留信号可能仍包含不能利用线性回声消除滤波器213和补偿器215来移除的非线性回声。

在一些实施例中，回声抑制器207可以被安排成对残留信号执行回声抑制，其中回声抑制可以基于相似度量度。

例如，回声抑制器207在这个示例中可以针对每一个残留子带信号生成失真量度。例如，对于第一残留子带信号而言，可以组合（例如，相加或平均）第一音频信号和第一残留信号的子带的所有配对的相似度量度。由此产生的失真量度因而可以指示出现在残留信号的第一频率间隔中的来自第一音频信号的在第一频率间隔之外的信号分量的回声量。因而，生成指示出现在第一残留子带信号中的非线性回声量的失真量度。

在另一实施例中，回声抑制器207可以基于加权的第一音频信号子带的总和来生成失真量度，其中每一个子带的加权利用第一音频信号子带与残留信号子带之间的相似度量度来确定。

后处理随后可以取决于失真量度进行修改。具体地，第一频率间隔/第一残留子带信号的增益取决于所计算的失真量度来设置。具体地，如果失真量度低于阈值（指示：非线性回声的组合低于给定水平），则应用标称增益。然而，如果失真量度上升而超过阈值（指示：非线性回声超过给定水平），则减少增益，从而减少可感知的非线性回声的效应（以针对频率响应的失真为代价）。

因而，在一些实施例中，子带信号的配对的相似度值可以被组合成与第一音频信号相关的失真量度。具体地，可以为第一音频信号的许多子带计算失真量度。对于第一音频信号的每一个子带，通过组合为这个子带的子带信号以及具有不同频率的子带的所有的残留子带信号所计算的相似度值来计算失真量度。

例如，通过为第一音频信号的每一个子带设置增益，这些失真量度随后可以用于适配预处理。

在一些实施例中，子带信号的配对的相似度值可以被组合成与残留信号相关的失真量度。具体地，可以为残留信号的许多子带计算失真量度。对于残留信号的每一个子带，失真量度基于针对这个子带的残留子带信号以及具有不同频率的子带的第一音频信号的所有子带信号所计算的相似度值的组合。

例如，在一些实施例中，可以作为组合的相似度值的总和来计算失真量度，并且残留信号的相应子带的增益可以取决于这个相似度值来设置。作为另一示例，失真量度可以作为第一音频信号（不与残留子带信号相一致）的每一个子带的相似度值与第一音频信号的那个子带的幅度之总和来计算。因而，失真量度可以基于利用那些第一子带信号与残留信号之间的相似度量度进行扩缩或加权的第一子带信号（在其他频率上）的组合。在这样的实施例中，失真量度实际上可以被视为个别残留子带信号中的非线性回声的直接估计。

例如，通过为残留信号的每一个子带设置增益，这些失真量度随后可以用于适配后处理。在其中生成失真量度作为非线性回声的直接估计的示例中，例如，通过从残留子带信号中减去个别残留子带信号的失真量度，实际上可以直接在后处理中使用失真量度。

将意识到：在一些实施例中，可以仅参考第一音频信号来生成失真量度。例如，一些实施例可以只包括预处理而不包括后处理。

在其他的实施例中，可以仅参考残留信号来生成失真量度。例如，一些实施例可以只包括预处理而不包括后处理。

有利地，在一些实施例中，可以参考第一音频信号和残留信号二者来生成失真量度。例如，一些实施例可以都包括预处理而不包括后处理。实际上，所描述的基于失真量度的方案的特别优点在于：它允许在预处理和后处理之间的有效且高性能交互，并且特别提供在这两种处理之间控制和分布回声抑制的有效方式。

在下文，将详细描述其中作为预处理方案来执行回声抑制的特定示例。

具体地，将提供预处理远端信号以减少由于音频通信设备的扩音器而产生的非线性失真的基于子带的方案的描述和分析。所描述的方案评估远端子带信号（与所描述的第一子带信号相对应）和大量残留子带信号（与所描述的残留子带信号相对应）中的信号事件与特征之间的相关度。这些相关度被用作相似度值并且被用来导出量化每一个远端子带对于残留信号中由此产生的失真的影响的失真量度。通过适配预处理函数的参数，整个系统的目标是最小化由此产生的非线性失真，并且在特定示例中同时最大化线性声学回声分量。

首先，将呈现非线性失真的底层模型。

可以考虑图1所示的声学回声消除系统。这里，x(n)、e(n)、z(n)和r(n)分别表示远端信号（第一音频信号）、回声信号、麦克风信号和声学回声消除器(AEC)残留信号。

假设在频域或时域中使用线性自适应滤波器并且采用算法诸如归一化最小均方(Normalized Least Mean Squares)(NLMS)算法来控制滤波器系数/参数的更新来实现AEC。如此一来，自适应滤波器仅仅针对声学回声路径的线性部分来建模，从而产生估计ŷ(n)。

时域声学回声消除器残留信号利用下式来给定：

(1)。

如果使用滤波器组或产生子带k的另一频域分解来分析信号，以致1≤k≤M，则(1)能够被写成：

(2)。

如果没有近端语音信号或本地干扰诸如噪声，则麦克风子带信号Z(k)仅由回声分量E(k)和线性回声分量Y(k)=H(k)X(k)构成，其中回声分量E(k)能够进一步被分解成线性与非线性部分，即，

(3)，

其中假设：非线性效应主要归因于功率放大器和扩音器非线性，并且相应地，非线性信号分量服从于从扩音器到麦克风的传递函数。

子带残留信号相应地利用下式来给定：

(4)。

如果进一步假设声学回声消除器针对声学回声的线性部分来精确建模，即，那么

(5)，

仅留下总的声学回声的非线性部分出现在残留中。因而，在这种场景中，残留信号只包括非线性回声。

的表达式取决于所假设的非线性失真的底层模型。

典型地，谐波模型用于描述扩音器系统的尤其在低频率上的非线性特征。对于这些低频率（低于共振），悬架系统的恢复力能够利用扩音器的锥位移的多项式函数来近似，而这导致在基频的倍数上频谱分量的生成。

语音发音器官（articulator）以从2到20Hz范围内的速率移动，并在语音包络中产生慢调制。这些调制包含与语音信号有关的语音信息，并且众所周知的是：这些调制对于包括背景噪声与混响的恶劣的声学环境中的降级是免疫的。

在所描述的特定示例中，通过考虑语音包络中的慢调制来为第一音频信号的子带计算相似度值和失真量度。具体地，第一音频信号的子带信号与残留子带信号的包络中的调制之间的相关度被确定并被用作相似度值。这些相关度随后被组合成失真量度。

相应地，为每一个子带生成（语音调制）包络信号。这可以具体地通过首先生成个别子带、例如利用滤波器组来实现。

在一些实施例中，这些信号基于使用诸如DFT或STFT之类的均匀滤波器组生成的等间隔、等带宽子带信号的集合来处理。

在一些实施例中，使用非均匀滤波器组诸如在低频率上具有较细频率分辨率而在较高频率上具有较粗频率分辨率的翘曲（warped）滤波器组。非均匀滤波器组诸如翘曲DFT滤波器组具有的优点：它能够使用极少的子带来分析和重新合成感兴趣的信号，而这意味着能够降低复杂度。

取决于所采用的滤波器组，每一个子带内的群延迟能够是不同的，而这要求在频率合成之前每个子带使用延迟元素或者在频率合成之后使用补偿滤波器，以实现信号的适当重建。然而，在该特定示例中，所提议的处理利用子带信号的包络，并且相应地实际的延迟值不一定是非常精确的，只要这些包络适当地被对准。

由于声学回声路径以及引入回声的扩音器与麦克风路径中的其他信号处理组件而可以包括另一种形式的延迟补偿。这确保：将扩音器信号中的基频的相关包络与增强的输出信号例如残留信号中的失真包络适当地对准。

在感兴趣的信号已被分解成（复）子带的集合之后，在该特定示例中计算每一个信道的包络。

取决于滤波器组的类型（精密地，采样－过采样），这个能够牵涉以下步骤：

计算每一个子带中的复值信号的绝对值（大小），

低通滤波大小信号，

对于过采样的滤波器组来说，能够下采样由此产生的信号。

低通滤波器执行子带包络的平滑，以便仅仅捕获语音的调制包络的变化。时常能够有利地使用具有16-20Hz的截止频率的低通滤波器来实现这个。在所提议的发明的某些实施例中，低通滤波子带幅度可能或可能不是必要的。

如果使用DFT滤波器组或者通过简单地应用短时傅里叶变换(short-timeFourier Transform)(STFT)，下采样通常在变换中是固有的或出现在滤波器组结构中。对于（过采样）翘曲滤波器组而言，在计算包络时可以显式完成下采样。在本发明的某些实施例中可能或可能不需要进行下采样，并且下采样取决于低通滤波操作。如果子带信号被低通滤波，则下采样尤其在考虑大量子带的情况下能够降低计算复杂度。

在一些实施例中，相邻子带中的包络可以（典型地，通过求和或平均）进行组合，以便减少在后续处理中所考虑的包络信号的数量。

在该特定示例中，可以应用以下处理来生成包络子带信号：

子带信号的半波或全波整流，

使用低通滤波器的所整流的信号的平滑，

下采样所平滑的信号，

所平滑的信号的高通滤波或分化(differentiation)，以产生零均值包络。

由此产生的子带信号典型地包括与语音事件相关联的活动突发（burst）。这些事件的时间的形状和定位在该特定示例中可以形成相似度值的生成的基础。因而，可以生成相似度值来反映远端信号（第一音频信号）的子带中的事件与跨越AEC残留信号的相应（例如，谐波）子带的事件之间的相关度。

假设、、和分别表示、、和的包络。那么，残留包络能够按照非线性远端包络来撰写：

(6)

其中假定：H(k)的值以远远慢于的速率改变。

利用加性谐波失真模型，非线性远端包络能够按照对其能量做出贡献的基频来撰写：

(7)。

实系数将远端第一信号子带的部分m=k/q与其在所捕获的回声信号中的谐波子带k相关，其中对于某一整数q=2、3、……、而言，m≠k。N_har表示在该模型中所考虑的谐波的数量。

在给定(6)中用于残留非线性声学回声的表达式的情况下，残留包络是：

(8)。

图4和5分别示出第一音频信号和残留信号的平滑且下采样的子带的示例。在该示例中，使用16通道翘曲离散傅里叶变换(16-channel Warped Discrete FourierTransform)(DFT)滤波器组来生成子带信号。可能注意到：在远端子带包络（即，第一音频信号的不同子带）之间以及在远端与残留子带包络之间（即，在第一音频信号与残留信号的子带信号之间）具有相关度。

众所周知的是：语音子带的包络之间的相关度往往随着子带中心频率之间的差异增加而降低。因此，为了简化初始分析，首先假定：远端子带包络（第一音频信号子带信号）是不相关的，以致能够将乘积项估计为：

(9)。

如果在长度N的（重叠）块中处理这些包络，则能够将(9)写为：

(10)

其中k表示块索引。

这些值即可以直接被用作相似度值。因而，

(11)。

在许多实施例中，该系统可以包括利用表示的每一个子带信号的可适应预处理增益。在这种情况下，基于失真量度来设置增益，并因而可以生成自适应反馈环路。

如果预处理器函数利用增益函数来给定，以致并因而，则将的值带入(10)或(11)产生以下相似度值：

(12)。

针对m=k的相关度量度对应于与保留在残留信号中的线性回声分量之间的线性关系，即由于线性声学回声消除器与真实的回声路径之间的线性模型失配而无法抑制的线性回声的数量。

典型地，该处理可以基于块，并且相似度值/互相关度可以基于这个块处理。典型的块长度是10-50毫秒(ms)。

作为另一示例，相似度值Sim_k,m可以在多个块上被计算为：

(13)

其中对应于的峰值定位于其中的块k内的样本索引。

如所提及的，图4和5示出由于16通道翘曲DFT滤波器组（16-kHz采样频率）而导致的9个正频率信道的平滑且下采样的包络，其中图4示出第一音频信号即的子带信号，并且图5示出残留信号即的子带信号。信号长度大约为19秒。在T=16秒能够观察到大多数值得注意的谐波分量，其中具有中心频率1340Hz的子带中的事件明显地与以1952Hz为中心的残留子带信号中的事件相关。其他的相关事件存在于例如以907和1340Hz为中心的子带之间。

第一音频信号的子带m的可能的失真量度可以例如作为总的非线性声学回声功率与利用子带m所产生的总的回声功率（线性和非线性）之比来生成（并因而类似于用于确定总的谐波失真（THD）的方案）。

例如，可以计算以下的失真量度：

(14)

其中代表子带m的q阶谐波的功率。的值被约束在0与1之间，其中=0被翻译成无谐波失真，而=1被翻译成100%失真。

对于可变的预处理增益示例而言，失真量度可以根据下式被计算为THD估计：

(15)。

在块形式中，失真量度可以被示为：

(16)。

H(m)的值能够使用远端和线性自适应滤波器输出信号来估计

(17)

其中表示自适应滤波器的输出包络的块。

项能够从线性自适应滤波器的脉冲响应和预处理器增益函数中进行估计或者简单地被估计为：

(18)。

总的谐波失真(THD)量度涉及被再生为谐波失真的输入功率的百分比。因为主要由于产生大的扩音器冲程的高的远端信号幅度而引起这个失真，所以假定：能够通过衰减或限制具有高THD值的那些子带m来减少所观测到的THD值。

在该示例中，通过组合子带k的方程式(9)和(10)的相似度值，其中k≠m，可以使用方程式(11)来计算子带m的失真量度。此外，相对于总的所估计的回声功率来归一化失真量度，其中从补偿信号的功率中确定线性回声的回声功率。

在一些实施例中，只在给定输入中检测到活动时才更新互相关度量度。这个活动量度能够基于每个子带的固有噪声电平(noise-floor)，其中例如使用最小值统计方法来估计固有噪声电平。

包络与之间的互相关度量度提供输入子带m与残留子带k之间的谐波关系的估计，并提供针对相似度值的合适量度。然而，将意识到：在其他的实施例中可以使用其他的相似度量度。一种这样的量度可以基于第一音频信号和残留信号的块的特定特性，诸如块内的局部极大值和极小值的数量或子带内的活动区域的开始(onset)/偏移时间，在这种情况下能够使用0或1的二进制相似度值。对于二进制值的相似度量度，H(m)的值可以被设置成1。在使用二进制相似度值的情况下，例如，能够通过求取子带m的相似度量度的最大值或总和来计算失真量度：

(19)

(20)

或者作为子带m上的相似度的最大值/平均值来计算失真量度：

(21)

(22)

其中K(m)表示受子带m影响的谐波的数量。

在该特定示例中，回声抑制通过回声抑制器207执行预处理来执行。将具体地相对于图6的等效电路来描述该方案。

由回声抑制器207应用的预处理函数可以是第一音频信号x(n)的线性或非线性函数。

如果将预处理函数表示为，则(8)中的非线性残留回声分量能够被重写为：

(23)

以反映残留回声现在取决于修改的第一音频信号（预处理的远端信号）的事实。

相似度值H(k)a_k,m也能够使用(9)中的归一化的互相关方程式、相对于而非X(m)来估计。

然而，这在一些场景中由于第一音频信号的非常低幅度子带而可能导致回声的过估计(over estimation)。为了解决此，可以仅仅针对包含某种水平的活动的子带来计算失真量度，并且此外，由于预处理而引入的衰减量可以被限制于最小值。系数也可以使用最小二乘或最小均方方法、利用联合估计来确定。

例如，加权更新方程式可以被给定为：

(24)

其中μ是调节更新率的参数，并且

(25)。

在下文，将描述专注于减少由于设备的扩音器而产生的非线性失真量的两种子带预处理函数。预处理参数的优化基于这样的假设：具有能够应用于第一音频信号子带的幅度的某个最大增益或限制，以致非线性失真量被减至某个用户定义的阈值之内。

在数学术语中，如果系数，则对于其中>0的某一最优预处理函数而言，贡献将是可忽略的。换句话说，假设是的单调递增函数，其中该函数对于递减而言接近零，并且对其而言，比更快地降低。

首先，将描述由自适应实值子带增益函数构成的线性预处理。

在这种情况下，预处理利用实增益函数G(m)来给定，以致

(26)。

由此得出结论：子带包络被给定为。

预处理试图导出实增益值的集合，以致由于（全局）最大远端大小所引起的失真低于某个阈值，其中阈值服从于线性声学回声分量被最大化的约束。

这些要求翻译成找到最大增益值，以致预处理的远端子带包络的影响低于某个阈值。如果假设该影响是相应大小的递增函数，那么这个最大增益值应该是全局最大远端大小和最大大小值二者的函数，其中针对其而言，失真量度只是足够小的，以致满足失真阈值要求，即：

(27)

其中对应于的最大值，以致，其中I_min是失真量度阈值(0≤I_min≤1)。

如果对于当前包络块k而言并且当前局部最大大小（非包络）大于，那么

(28)

其中β_c是具有的值接近于一(unity)的平滑常数(0<β_c<1)。

如果，那么

(29)

其中β_d是具有的值接近于一的衰减因数(0<β_d<1)，并且是最小可容忍的限制值，其可以是子带相关的。

子带m的块k的(28)中的局部最大大小（非包络）利用下式来给定：

(30)

(29)中的表示子带m中的全局最大大小。

a=1的值确保：给定子带内的最大峰值不引入超出利用所设置的失真。对于0<a<1而言，这个严格要求被放松，而a>1提供过衰减(over-attenuation)。

所估计的增益水平典型地也在时间上被平滑，以防止输出信号中的零星改变，

(31)

其中0＜γ＜1，并且γ的典型值更接近于1。

作为另一示例，预处理可以是非线性函数，诸如限幅函数。

具体地，c(m;k)的值可以直接用于对X(m)的大小进行限幅，而非基于全局峰值大小值和(27)中的c(m;k)来估计实值增益函数。

输出信号随后可以被确定为：

(32)

其中F{·}是硬/软限幅函数或具有固定压缩因数和自适应阈值的压缩器。

如(32)中所示，对于复值子带来说，这个函数被应用于子带的大小，并且结果随后与原始相位进行组合。

所估计的限幅水平典型地可以在时间上被平滑，以防止输出信号中的零星改变，例如，作为：

(33)

其中0＜γ＜1，并且γ的典型值更接近于1。

应该注意：在这些示例中，失真量度基于预处理/修改的第一音频信号包络。然而，实际上从第一音频信号X(k)的大小中导出预处理器函数。这可以确保预处理器参数的稳定适应。

在一些实施例中，回声抑制可以是利用回声抑制器207进行的残留信号的后处理。

在(10)中计算的相似度量度也能够用于估计非线性声学回声分量，

(34)。

在一些实施例中，针对非线性回声的这个估计可以直接被用作失真量度。因而，在特定示例中，残留子带k的失真量度可以被计算为与第一音频信号的每一个子带的大小相乘的第一音频信号（不与残留子带信号相一致）的那个子带的相似度值的总和。

以矩阵形式来重写上面的方程式

(35)

其中M×M矩阵A的行k包含X(m)与R(k)之间的相似度量度，其中m≠k。

能够在时间上平滑A中的条目，

(36)

其中0＜ξ＜1。

估计随后可以作为特定示例在谱减法方案中用于导出后处理器增益函数。混响的存在涂抹(smear out)每一个子带内的包络至取决于该子带的不同程度。由于所提议的预处理器增益函数基于最大统计数据，所以其性能在不同的声学环境中是相当健壮的。然而，在计算X(m)与R(k)之间的相似度时，通过针对混响的效应来建模，能够改善增益估计精度。对于后处理而言，并入混响的模型能够显著改善非线性声学回声抑制性能。

子带的增益值随后可以例如被确定为：

(37)

其中γ_os是过相减(over-subtraction)因数，其中。常见的是：也针对所计算的增益来限制下界，即

(38)。

因而，在这些示例中，针对每一个残留子带信号，通过该残留子带与具有不同频率的第一音频信号的子带的配对的相似度值的组合，计算失真量度。因而，为残留信号的频率间隔生成失真量度，其中失真量度指示被引入至这个频率间隔中的残留信号的非线性失真。那个频率间隔的增益随后响应于这个失真值来设置。具体地，对于递增失真，减少增益。

在一些实施例中，系统可以作为联合的预处理和后处理来执行回声抑制。初始地，所有的预处理增益可以是恒定的，并因而必须通过后处理来处置非线性回声。然而，由于预处理器增益适配并减少由此产生的非线性失真，所以在X与R之间的相似度量度值降低并因而。这意味着：初始地，后处理器在移除非线性声学回声中将完成大部分的工作，这是因为这些初始地没有利用预处理增益来避免。然而，一旦预处理已适配并减少非线性失真，作为较低的相似度量度值的结果，自动减少利用后处理器增益函数进行的补偿。

在一些实施例中，系统可以测量近端语音信号与残留信号的非线性回声功率比率。如果这个比率高于某个阈值，则能够减少第一音频信号的抑制量。然而，如果这个比率低于某个阈值，则残留信号的进一步抑制能够导致所希望的近端语音信号的不需要的失真。因此，在这种情况下，能够增加第一音频信号的抑制量。以这种方式，系统有效地平衡被传送至远端的近端语音失真量以及利用扩音器所产生的非线性失真量。

在一些实施例中，这些相似度值可以考虑混响估计。实际上，混响的存在往往涂抹每一个子带内的包络至取决于该子带的不同程度。因为所提议的预处理增益函数基于最大统计数据，所以其性能在不同的声学环境中是相当健壮的。然而，在计算X(m)与R(k)之间的相似度时，通过针对混响的效应建模，能够改善增益估计精度。对于后处理而言，并入混响的模型能够显著改善非线性声学回声抑制性能。

将意识到：为了简洁起见，上面的描述已参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，可以使用不同的功能电路、单元或处理器之间任何合适的功能的分布而不偏离本发明，这将是明显的。例如，被示为利用单独的处理器或控制器来执行的功能可以利用同一处理器或控制器来执行。因此，对于特定的功能单元或电路的引用仅将被视为对于用于提供所描述功能的合适装置的引用而不指示严格的逻辑或物理结构或组织。

本发明能够采用包括硬件、软件、固件或其任何组合的任何合适的形式来实现。本发明可以可选地至少部分地作为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件来实现。本发明的实施例的元素和组件可以在物理上、在功能上和在逻辑上采用任何合适的方式来实现。实际上，功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实现。就此而论，本发明可以在单个单元中进行实现或可以在物理上和在功能上在不同的单元、电路和处理器之间进行分布。

虽然已结合一些实施例描述了本发明，但是并不打算将本发明限于在本文阐述的特定形式。相反，本发明的范畴仅利用所附权利要求书来限制。附加地，虽然某个特性可能看起来似乎结合特殊实施例来描述，但是本领域技术人员将认识到：所描述实施例的各种特性可以根据本发明进行组合。在权利要求书中，术语包括并不排除其他元素或步骤的存在。

此外，虽然个别地列出，但是多个装置、元素、电路或方法步骤可以利用例如单个电路、单元或处理器来实现。附加地，虽然个别特性可以被包括在不同的权利要求中，但是这些可能可以有利地进行组合，并且在不同权利要求中的包括并不暗示：特性的组合不是可行的和/或有利的。特性在一种类别的权利要求中的包括也并不暗示针对这种类别的限制，而是指示该特性同样可酌情应用于其他的权利要求类别。此外，特性在这些权利要求中的顺序并不暗示这些特性必须据此工作的任何特定顺序，并且特别地，个别步骤在方法权利要求中的顺序并不暗示：必须按照这个顺序来执行这些步骤。相反，这些步骤可以按照任何合适的顺序来执行。此外，单数引用并不排除复数。因而，对于“一”、“一个”、“第一”、“第二”等等的引用并不排除多个。权利要求书中的参考符号仅仅作为澄清示例来提供而不应被解释为以任何方式来限制权利要求书的范畴。

Claims

1.一种音频回声抑制器，包括：

第一接收机（201），用于接收第一音频信号，以便利用扩音器（205）进行再现；

第二接收机（211），用于接收麦克风信号；

线性回声消除滤波器（213），用于从第一音频信号中生成第一补偿信号；

补偿器（215），用于通过针对第一补偿信号补偿麦克风信号来生成残留信号；

第一适配器（217），用于确定线性回声消除滤波器的滤波器参数的集合，以响应残留信号；

第一估计器（219），被安排成生成至少一个失真量度的集合，每一个失真量度指示对于在第一频率间隔之外的至少一个频率间隔中的残留信号的贡献，所述残留信号由于位于第一频率间隔内的第一音频信号的信号分量的再现而产生；以及

回声减少器（207），被安排成执行回声抑制，以响应至少一个失真量度的集合。

2.根据权利要求1所述的音频回声抑制器，其中第一估计器（219）包括：

第一子带生成器（301），用于从第一音频信号中生成第一频率间隔的第一子带信号；

第二子带生成器（303），用于从残留信号中生成多个残留子带信号；

比较器（305），用于确定不属于第一频率间隔的至少一些残留子带信号的相似度量度，残留子带信号的相似度量度指示残留子带信号与第一子带信号的相似度；以及

第二估计器（307），用于从相似度值中确定第一频率间隔的失真量度。

3.根据权利要求2所述的音频回声抑制器，其中比较器（305）被安排成生成第一残留子带信号的相似度量度，以响应第一子带信号的信号变化与第一残留子带信号的信号变化的相似度。

4.根据权利要求2所述的音频回声抑制器，其中比较器（305）被安排成生成第一残留子带信号的相似度量度，以响应第一子带信号和第一残留子带信号的互相关度。

5.根据权利要求2所述的音频回声抑制器，其中第一估计器（219）被安排成生成多个频率间隔的失真量度，以及回声减少器（207）被安排成单独地调节多个频率间隔之中的每一个频率间隔的回声抑制的参数，以响应该频率间隔的失真量度。

6.根据权利要求2所述的音频回声抑制器，其中第二估计器（307）被安排成通过组合至少一些残留子带信号之中的多个残留子带信号的相似度值来生成失真量度。

7.根据权利要求2所述的音频回声抑制器，其中第二估计器（307）被安排成相对于功率估计、针对来自第一频率间隔内的第一音频信号的信号分量的对于麦克风信号的贡献来归一化失真量度。

8.根据权利要求7所述的音频回声抑制器，其中第二估计器（307）被安排成生成功率估计，以响应第一频率间隔的线性回声功率估计，响应于滤波器参数的集合来生成线性回声功率估计。

9.根据权利要求2所述的音频抑制器，其中比较器（305）被安排成选择至少一些残留子带信号，以响应第一频率间隔的频率与残留子带信号的子带频率之间的谐波关系。

10.根据权利要求1所述的音频回声抑制器，其中第一估计器（219）包括：

第一子带生成器（301），用于从残留信号中生成第一频率间隔的第一残留子带信号；

第二子带生成器（303），用于从第一音频信号中生成多个第一音频子带信号；

比较器（305），用于确定不属于第一频率间隔的至少一些第一音频子带信号的相似度量度，第一音频子带信号的相似度量度指示第一音频子带信号与第一残留子带信号的相似度；以及

11.根据权利要求10所述的音频回声抑制器，其中第二估计器（307）被安排成基于至少一些第一音频子带信号之中的多个第一音频子带信号的相似度值的组合来生成第一残留子带信号的失真量度。

12.根据权利要求1所述的音频回声抑制器，其中回声减少器（207）被安排成在利用扩音器（205）进行再现之前修改第一音频信号，以响应失真量度的集合。

13.根据权利要求12所述的音频回声抑制器，其中回声减少器（207）被安排成设置第一频率间隔中的第一音频信号的增益或限幅水平，以响应第一频率间隔的失真量度。

14.根据权利要求1所述的音频回声抑制器，其中回声减少器（207）被安排成修改残留信号，以响应失真量度的集合。

15.一种音频回声抑制的方法，包括：

接收第一音频信号，以便利用扩音器（205）进行再现；

接收麦克风信号；

线性回声消除滤波器（213）从第一音频信号中生成第一补偿信号；

通过针对第一补偿信号补偿麦克风信号来生成残留信号；

确定线性回声消除滤波器（213）的滤波器参数的集合，以响应残留信号；

生成至少一个失真量度的集合，每一个失真量度指示对于在第一频率间隔之外的至少一个频率间隔中的残留信号的贡献，所述残留信号由于位于第一频率间隔内的第一音频信号的信号分量的再现而产生；以及

适配回声抑制，以响应至少一个失真量度的集合。