CN117099361A

CN117099361A - 用于经滤波参考声学回声消除的装置和方法

Info

Publication number: CN117099361A
Application number: CN202180093836.9A
Authority: CN
Inventors: 埃德温·马半德; 玛丽亚·路易斯·瓦莱罗; 伊曼纽尔·哈贝茨; 冈达利纳·米拉诺; 皮拉克朱·迪思
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2020-12-17
Filing date: 2021-12-09
Publication date: 2023-11-21
Also published as: WO2022128745A1; US20230328183A1; EP4264931A1; EP4016977A1

Abstract

提供一种通过生成一个或多个误差信号进行声学回声消除的装置(100)。装置(100)通过使用第一滤波器配置对一个或多个参考信号进行滤波来生成包括一个或多个第一回声估计信号的第一回声估计，其中一个或多个参考信号对应于一个或多个扬声器信号或从一个或多个扬声器信号得出。此外，装置(100)通过使用第二滤波器配置对一个或多个第一回声估计信号进行滤波来生成包括一个或多个第二回声估计信号的第二回声估计；或，装置(100)通过从一个或多个第一估计信号生成中间信号，并使用第二滤波器配置对中间信号进行滤波，来生成包括一个或多个第二回声估计信号的第二回声估计。此外，装置(100)根据一个或多个麦克风信号和根据一个或多个第二回声估计信号生成一个或多个误差信号。此外，装置(100)根据一个或多个误差信号更新第二滤波器配置。此外，装置(100)输出一个或多个误差信号。

Description

用于经滤波参考声学回声消除的装置和方法

技术领域

本发明涉及声学回声消除，特别地，涉及用于经滤波参考声学回声消除的装置和方法。

背景技术

在声学回声消除(AEC)[1]中，保持可接受的计算复杂度，同时保持或仅略微降低消除性能是具有挑战性的。

需要具有沉浸式音频播放功能的智能设备。通常，虚拟机和大量的扬声器都具有全双工通信功能。关于声学回声控制，这导致由于相关扬声器信号导致的性能下降(也称为非唯一性问题)，并且由于多声道声学回声消除，计算复杂度更高，因为AEC的数量通常等于扬声器的数量乘以麦克风的数量。因此，复杂度随着扬声器数量的增加而平方地增加。

随着越来越多具有低成本硬件的设备成为支持语音的设备，复杂度成为一个主要问题。在现有技术中，降低复杂度是以性能下降为代价的。然而，更高的采样率和更低的延迟，特别是对于通信应用来说，将是非常值得赞赏的。

在现有技术中，利用自适应滤波器用于系统识别[2]，并估计整个声学回声路径(AEP)[3]。

当进行多声道AEC(MC-AEC)[4]时，问题变得更加严重。给定这样的设置，已知，AEC模块的计算复杂度至少线性地增加，但通常甚至是随着扬声器的数量呈二次增长[5]。因此，这种算法的实际实现可能超出可用的计算资源。

减小自适应滤波器的长度不仅降低计算复杂度而且提高自适应算法的收敛速度。这有助于缓解MC-AEC对高度相关扬声器信号的收敛速度限制[6]。

通过对多声道参考信号应用非线性变换，可以减少它们之间的关系[6]。这有助于缓解MC-AEC对相关扬声器信号提出的非唯一性问题[6]，但也降低了输出信号的质量。

发明内容

本发明的目的是提供声学回声消除的改进概念。

本发明的目的是通过根据权利要求1的装置、根据权利要求21的方法和根据权利要求22的计算机程序来解决的。

提供了用于通过生成一个或多个误差信号进行声学回声消除的装置。装置用于通过使用第一滤波器配置对一个或多个参考信号进行滤波来生成包括一个或多个第一回声估计信号的第一回声估计，其中一个或多个参考信号对应于一个或多个扬声器信号或从一个或多个扬声器信号得出。此外，装置用于通过使用第二滤波器配置对一个或多个第一回声估计信号进行滤波来生成包括一个或多个第二回声估计信号的第二回声估计；或，装置用于通过从一个或多个第一估计信号生成中间信号以及通过使用第二滤波器配置对中间信号进行滤波，来生成包括一个或多个第二回声估计信号的第二回声估计。此外，装置用于根据一个或多个麦克风信号和根据一个或多个第二回声估计信号生成一个或多个误差信号。此外，装置用于根据一个或多个误差信号更新第二滤波器配置。此外，装置用于输出一个或多个误差信号。

一种用于通过生成一个或多个误差信号进行声学回声消除的方法。方法包括：

-通过使用第一滤波器配置对一个或多个参考信号进行滤波，生成包括一个或多个第一回声估计信号的第一回声估计，其中一个或多个参考信号对应于一个或多个扬声器信号或从一个或多个扬声器信号得出；

-通过使用第二滤波器配置对一个或多个第一回声估计信号进行滤波，生成包括一个或多个第二回声估计信号的第二回声估计；或通过从一个或多个第一估计信号生成中间信号，并使用第二滤波器配置对中间信号进行滤波，生成包括一个或多个第二回声估计信号的第二回声估计；

-根据一个或多个麦克风信号和根据一个或多个第二回声估计信号生成一个或多个误差信号；

-根据一个或多个误差信号更新第二滤波器配置；以及

-输出一个或多个误差信号。

此外，提供了一种用于当在计算机或信号处理器上执行时实现上述方法的计算机程序。

一些实施例涉及语音质量增强(VQE)。一些实施例提供经滤波参考多声道干扰消除器。

实施例提供了采用经滤波的参考信号来降低AEC模块的计算复杂度同时保持或仅略微降低消除性能的声学回声消除(AEC)概念。为此，在处理路径中，用测量的声学回声路径(AEP)或其一部分(例如仅扬声器和/或麦克风响应)对现有技术的参考信号，例如由扬声器再现的信号，进行滤波。这样做，可以减少用于系统识别的自适应滤波器的长度，因为不再需要估计整个AEP。

尽管所提出的概念已经为单麦克风单扬声器扬声器封闭麦克风(LEM)环境提供了优势，但在一些实施例中，对于包括几个扬声器的声学设置，例如对于多声道声学回声消除(MC-AEC)，AEC的计算复杂度降低了。

使用经滤波的参考信号进行多声道声学回声消除，例如，实现了多个附加的优点。

例如，减小自适应滤波器的长度不仅减少计算复杂度负载，而且提高自适应算法的收敛速度。这有助于缓解高度相关扬声器信号的多声道声学回声消除的收敛速度约束[6]。

通过对多声道参考信号应用非线性变换，可以将它们之间的关系降低[6]。这有助于缓解完全相关扬声器信号的多声道声学回声消除所带来的非唯一性问题[6]。

在多扬声器多麦克风声学设置中，对于配备有多个麦克风的扬声器封闭麦克风系统，如果在应用波束形成器(BF)之前为每个麦克风放置一个声学回声消除模块[7]，则提出的方法可以以两种不同的方式部署：

在实施例中，测量每个麦克风的声学回声路径，或在第二实施例中，测量麦克风的子集(在以下表示为参考麦克风)的声学回声路径。

例如，自适应算法估计处理参考麦克风的测量的声学回声路径中的误差的系统。或者，在频域中估计测量的参考声学回声路径和扬声器与除参考麦克风以外的麦克风之间的声学回声路径之间的关系。

可替代地，可以采用BF优先配置[8]。如果采用这种配置，计算单声道声学回声消除模块的经滤波的参考信号的过程如下。

计算每个麦克风的经滤波的参考信号。空间滤波器应用于经滤波的参考信号，以在波束形成器的输出处获得等效的经滤波的参考。

相对于现有技术的BF优先配置(关于第一波束形成器配置，请参见例如[9，10，11，12，13])，此概念提供的优势之一是，自适应单声道系统识别算法对由于观察方向的修改、不期望的信号估计等引起的空间滤波器权重的变化是不可知的。

例如，可以使用以下特征中的一个或多个或全部来实现特定的示例实施例：

声学回声路径可以例如通过具有不同更新率的串联的至少两个滤波器来建模。

-第一滤波器应用于参考信号，并被构造为使得(可能延迟的)输出提供回声信号的第一估计。

-第二滤波器应用于第一滤波器的输出，并被构造为使由第二滤波器提供的估计回声信号(回声信号的第二估计)与真实回声信号之间的误差最小化。

例如，可以通过以下确定第一/第二滤波器：

-参考/第一滤波器输出和麦克风信号之间的相关性

-麦克风信号和第一/第二滤波器输出之间的误差

例如，第一滤波器可以

-在设备被开启时确定一次，或

-在设备被开启的同时连续地确定。

第一滤波器的输出例如可以用作单声道或多声道(多扬声器)干扰消除模块的参考信号。

麦克风信号可以，例如，被延迟以允许非因果的第二滤波器。这里，非延迟扬声器信号用作第一滤波器的参考/输入。

可替代地，扬声器信号被延迟。

例如，可以

-在时域中，和/或

-在变换域中

执行滤波操作。

对于包括一个或多个麦克风的声学设置，

-例如，可以为每个麦克风计算第一滤波器，

-例如，可以为麦克风的子集计算第一滤波器，

-第一滤波器可以，例如，随后被空间滤波器滤波以获得一个或多个经空间滤波的参考信号。

附图说明

在下文中，参考附图更详细地描述了本发明的实施例，其中：

图1示出了根据实施例的生成用于声学回声消除的回声信号估计的装置。

图2示出了根据现有技术的声学回声消除的示例。

图3a示出了根据另一实施例的生成用于声学回声消除的回声信号估计的装置，包括生成第一回声估计和第二回声估计的第一滤波器和第二滤波器。

图3b示出了根据进一步实施例的生成用于声学回声消除的回声信号估计的装置，生成第一回声估计和第二回声估计的滤波器。

图3c示出了根据另一实施例的生成用于声学回声消除的回声信号估计的装置，其中装置被配置为在一个或多个麦克风信号中引入延迟。

图3d示出了根据另一实施例的生成用于声学回声消除的回声信号估计的装置，其中装置被配置为在一个或多个扬声器信号中引入延迟。

图3e示出了根据另一实施例的生成用于声学回声消除的回声信号估计的装置，其中，根据一个或多个扬声器信号以及根据将延迟引入到一个或多个麦克风信号之前的一个或多个麦克风信号更新装置100的第一滤波器。

图3f示出了根据进一步实施例的生成用于声学回声消除的回声信号估计的装置，其中，根据一个或多个扬声器信号和根据在将延迟引入一个或多个麦克风信号后的一个或多个麦克风信号更新装置100的第一滤波器。

图4a示出了根据另一实施例的生成用于声学回声消除的回声信号估计的装置100，其中装置包括两个或更多个第一滤波器。

图4b示出了根据进一步实施例的生成用于声学回声消除的回声信号估计的装置，其中，装置100包括恰好一个第一滤波器。

图5示出了根据另一进一步实施例的生成用于声学回声消除的回声信号估计的装置，其中从一个或多个麦克风信号生成波束形成器信号，并且将在波束形成器信号上进行声学回声消除。

图6示出了单扬声器单麦克风声学设置。

图7示出了根据现有技术的声学回声消除的另一示例。

图8示出了根据实施例的经滤波参考声学回声消除。

图9示出了根据现有技术的多声道声学回声消除。

图10示出了根据实施例的经滤波参考多声道声学回声消除。

图11示出了与模拟数据的性能比较。

图12示出了立体声级联播放信号。

图13示出了计算复杂度的比较。

图14示出了回声减少的性能分析。

具体实施方式

图1示出了根据实施例的用于通过生成一个或多个误差信号来进行声学回声消除的装置100。

装置100通过使用第一滤波器配置滤波一个或多个参考信号来生成包括一个或多个第一回声估计信号的第一回声估计，其中一个或多个参考信号对应于一个或多个扬声器信号或从一个或多个扬声器信号得出。

此外，装置100通过使用第二滤波器配置滤波一个或多个第一回声估计信号来生成包括一个或多个第二回声估计信号的第二回声估计。或者，装置100通过从一个或多个第一估计信号生成中间信号，以及使用第二滤波器配置滤波中间信号，来生成包括一个或多个第二回声估计信号的第二回声估计。

此外，装置100根据一个或多个麦克风信号以及根据一个或多个第二回声估计信号生成一个或多个误差信号。此外，装置100根据一个或多个误差信号更新第二滤波器配置。

此外，装置100输出一个或多个误差信号。

在实施例中，装置100可以，例如，被配置为根据一个或多个误差信号更新第二滤波器配置，以获得更新的第二滤波器配置。例如，装置100可以被配置为根据更新的第二滤波器配置更新一个或多个误差信号，以获得一个或多个更新的误差信号。为了输出一个或多个误差信号，装置100可以，例如，被配置为输出一个或多个更新的误差信号。

根据实施例，装置100可以，例如，被配置为在运行时不更新第一滤波器配置。或者，装置100可以，例如，被配置为在运行时也更新第一滤波器配置，其中，装置100可以，例如，被配置为在运行时比第一滤波器配置更频繁地更新第二滤波器配置。

在实施例中，装置100可以，例如，被配置为在一个或多个麦克风信号中引入延迟。例如，装置100可以，例如，被配置为根据装置100将延迟引入到一个或多个麦克风信号后的一个或多个麦克风信号并根据一个或多个第二回声估计信号，来生成一个或多个误差信号。

根据实施例，装置100可以，例如，被配置为在一个或多个扬声器信号中引入延迟。一个或多个参考信号对应于装置100将延迟引入扬声器信号之前的一个或多个扬声器信号；或者其中一个或多个参考信号从装置100将延迟引入到扬声器信号之前的一个或多个扬声器信号得出。

在实施例中，装置100可以，例如，被配置为在一个或多个扬声器信号中引入第一延迟。一个或多个参考信号，例如，可以对应于装置100将第一延迟引入扬声器信号之前的一个或多个扬声器信号；或者，一个或多个参考信号可以，例如，从装置100将第一延迟引入扬声器信号之前的一个或多个扬声器信号得出。此外，装置100在一个或多个麦克风信号中引入第二延迟。此外，装置100可以，例如，被配置为根据装置100将第二延迟引入到一个或多个麦克风信号之后的一个或多个麦克风信号并根据一个或多个第二回声估计信号，来生成一个或多个误差信号。

根据实施例，一个或多个扬声器信号可以，例如，是两个或更多个扬声器信号。

在实施例中，一个或多个麦克风信号为两个或更多个麦克风信号。例如，装置100可以被配置为通过使用第一滤波器配置滤波一个或多个参考信号来生成包括两个或更多个第一回声估计信号作为一个或多个第一回声估计信号的第一回声估计。对于两个或更多个麦克风信号中的每一个，两个或更多个第一回声估计信号中的一个可以，例如，指示两个或更多个麦克风信号中的所述一个的回声的第一估计。

根据实施例，装置100可以，例如，包括两个或更多个第一滤波器，其中，第一滤波器配置包括用于两个或更多个第一滤波器中的每一个的单独滤波器配置。例如，两个或更多个第一滤波器中的每一个可以通过使用用于两个或更多个第一滤波器中的所述一个的单独滤波器配置滤波一个或多个参考信号中的至少一个来生成两个或更多个第一回声估计信号中的一个。

在实施例中，装置100可以，例如，包括恰好一个第一滤波器。例如，恰好一个第一滤波器可以被配置为通过使用第一滤波器配置滤波一个或多个参考信号来生成所有两个或更多个第一回声估计信号。

根据实施例，可以例如有三个或更多个麦克风信号。例如，装置100可以包括为三个或更多个麦克风的适当子集计算的两个或更多个第一滤波器。例如，两个或更多个第一滤波器可以被配置为通过使用第一滤波器配置滤波一个或多个参考信号来生成所有两个或更多个第一回声估计信号。

根据实施例，装置100可以，例如，被配置为通过使用第二滤波器配置滤波两个或更多个第一回声估计信号来生成包括两个或更多个第二回声估计信号的第二回声估计。对于两个或更多个麦克风信号中的每一个，两个或更多个第二回声估计信号中的一个可以，例如，指示两个或更多个麦克风信号中的所述一个的回声的第二估计。例如，装置100可以被配置为根据两个或更多个麦克风信号和根据两个或更多个第二回声估计信号生成两个或更多个误差信号作为一个或多个误差信号。

在实施例中，装置100可以，例如，包括两个或更多个第二滤波器，其中第二滤波器配置包括用于两个或更多个第二滤波器中的每个的单独滤波器配置。例如，两个或更多个第二滤波器中的每个可以被配置为通过使用用于两个或更多个第二滤波器中的所述一个的单独滤波器配置滤波两个或更多个第一回声估计信号中的一个来生成两个或更多个第二回声估计信号中的一个。此外，装置100可以，例如，被配置为仅使用两个或更多个麦克风信号中的一个并仅使用两个或更多个第二回声估计信号中指示两个或更多个麦克风信号中的所述一个的回声的第二估计的那一个，来生成两个或更多个误差信号中的每个误差信号。此外，装置100可以，例如，被配置为使用已经使用由所述第二滤波器生成的两个或更多个第二回声估计信号中的所述一个生成的两个或更多个误差信号中的误差信号来更新两个或更多个第二滤波器中的每个第二滤波器的单独滤波器配置，而不使用两个或更多个误差信号的另一个误差信号。

根据实施例，装置100可以，例如，被配置为从两个或更多个麦克风信号生成第一波束形成器信号。例如，装置100可以被配置为从两个或更多个第一回声估计信号生成作为中间信号的第二波束形成器信号，并且，装置100可以例如被配置为通过使用第二滤波器配置滤波第二波束形成器信号来生成恰好一个第二回声估计信号作为第二回声估计，使得第二回声估计信号指示第一波束形成器信号中回声的估计。此外，装置100可以，例如，被配置为根据第一波束形成器信号和根据恰好一个第二回声估计信号生成恰好一个误差信号作为一个或多个误差信号。此外，装置100可以，例如，被配置为根据恰好一个误差信号来更新第二滤波器配置。此外，装置100可以，例如，被配置为输出恰好一个误差信号。

在实施例中，装置100可以，例如，被配置为在第一波束形成器信号中引入延迟。例如，装置100可以被配置为根据装置100将延迟引入第一波束形成器信号后的一个或多个麦克风信号以及根据恰好一个第二回声估计信号，来生成恰好一个误差信号。

根据实施例，装置100可以，例如，包括一个或多个扬声器以输出一个或多个扬声器信号。此外，装置100可以，例如，包括一个或多个麦克风，以生成一个或多个麦克风信号。

在实施例中，装置100可以，例如，被配置为通过使用第一滤波器配置，根据一个或多个扬声器中的至少一个与至少一个麦克风中的至少一个之间的至少一个房间脉冲对一个或多个参考信号滤波，来生成包括一个或多个第一回声估计信号的第一回声估计，其中一个或多个扬声器输出一个或多个扬声器信号；并且其中一个或多个麦克风记录一个或多个麦克风信号。

根据实施例，装置100可以，例如，被配置为通过测量一个或多个扬声器中的所述至少一个与至少一个麦克风中的所述至少一个之间的至少一个声学回声路径来获得至少一个声学回声路径。

在实施例中，为了生成第一回声估计，装置100可以，例如，被配置为在时域中滤波一个或多个参考信号以获得一个或多个第一回声估计信号。

根据实施例，为了生成第一回声估计，装置100可以，例如，被配置为在变换域中滤波一个或多个参考信号以获得一个或多个第一回声估计信号。

在实施例中，为了生成第一回声估计，例如，装置100可以被配置为根据以下公式在时域中滤波一个或多个参考信号，以获得一个或多个第一回声估计信号：

x_c(n)＝cx(n)

其中x_c(n)是一个或多个第一回声估计信号中的一个，其中x(n)是一个或多个参考信号中的一个，其中c是用于滤波一个或多个参考信号中的所述一个的滤波器，其中

其中^T表示转置。

根据实施例，装置100可以，例如，被配置为根据以下公式滤波一个或多个参考信号以获得一个或多个第一回声估计信号：

x_c(l)＝[x_c(lN-N+1)…x_c(lN)]^T

其中x_c(l)为一个或多个第一回声估计信号中的一个，

其中

X(l-p)＝diag{Fx(l-p)}

其中

x(l-p)＝[x(lN-pN-M+1)…x(lN-pN)]^T，p∈{0,...，P-1}

其中

c(p)＝[c(pN)…c(pN+N-1)]^T，p∈{0,…，P-1}

其中L_c指示声学回声路径的长度，其中N指示多个滤波器分区中的滤波器分区的长度，其中指示多个滤波器分区的数量，其中p是一个或多个扬声器信号的第p个扬声器信号的索引，其中，l指示帧索引，其中M＝2N指示离散傅里叶变换长度，其中C(p)指示校正滤波器的频域表示，其中，X指示多个扬声器信号分区，其中F指示长度为M的离散傅里叶变换矩阵，其中，0_N指示元素均为零的长度为N的向量，其中，1_N指示元素均为1的长度为N的向量，其中，上标/>指示卷积的输出受到圆形卷积分量的污染，以及其中，F ^-1指示定义的逆DFT矩阵，使得F ^-1 F＝I。

图2示出了根据现有技术的声学回声消除的示例以获取回声估计信号。与图1的实施例相反，在现有技术的图2中，没有对一个或多个扬声器信号进行滤波以获得参考，而是直接使用一个或多个扬声器信号作为参考。

装置100生成一个或多个回声估计信号中的每一个。

图3a示出了根据另一实施例的生成用于声学回声消除的回声信号估计的装置100。图3a的装置100的第一滤波器通过使用第一滤波器配置滤波为一个或多个扬声器信号的一个或多个参考信号来生成包括一个或多个第一回声估计信号(第一回声估计/经滤波的参考)的第一回声估计。装置100的第二滤波器通过使用第二滤波器配置滤波一个或多个第一回声估计信号来生成包括一个或多个第二回声估计信号的第二回声估计。此外，装置100通过从一个或多个麦克风信号中减去一个或多个第二回声估计信号来生成一个或多个误差信号。装置100根据一个或多个误差信号更新第二滤波器的第二滤波器配置。装置100输出一个或多个误差信号。

图3b示出了根据进一步实施例的生成用于声学回声消除的回声信号估计的装置100。图3b的装置100的滤波器通过使用组合滤波器配置滤波为一个或多个扬声器信号的一个或多个参考信号来生成包括一个或多个回声估计信号的回声估计。在图3b的实施例中，第一滤波器配置为第一滤波器系数。此外，使用第一滤波器系数来计算第二组合滤波器系数。此外，装置100的滤波器通过使用组合滤波器配置滤波一个或多个参考信号来生成包括一个或多个回声估计信号的回声估计。此外，装置100通过从一个或多个麦克风信号中减去一个或多个回声估计信号来生成一个或多个误差信号。装置100根据一个或多个误差信号更新第二滤波器的第二滤波器配置。装置100输出一个或多个误差信号。

图3c示出了根据另一实施例的生成用于声学回声消除的回声信号估计的装置100。图3c的实施例以图3a实施例为基础。此外，图3c的装置100被配置为在装置100使用一个或多个麦克风信号生成误差信号之前，在一个或多个麦克风信号中引入延迟。在一个或多个麦克风信号中引入延迟支持声学回声消除。

图3d示出了根据进一步实施例的生成用于声学回声消除的回声信号估计的装置100。图3d的实施例以图3a的实施例为基础。此外，图3d的装置100被配置为在装置100将一个或多个扬声器信号用作一个或多个参考信号用于生成一个或多个第一回声估计信号之后，在一个或多个扬声器信号中引入延迟。在一个或多个扬声器信号中引入延迟支持声学回声消除。

图3e示出了用于根据另一实施例的生成用于声学回声消除的回声信号估计的装置100。图3e的实施例以图3c的实施例为基础。在图3e实施例中，在将延迟引入到一个或多个麦克风信号中之前，根据一个或多个扬声器信号并根据一个或多个麦克风信号更新装置100的第一滤波器。

图3f示出了根据进一步实施例的生成用于声学回声消除的回声信号估计的装置100。图3f的实施例以图3c的实施例为基础。在图3f的实施例中，在将延迟引入到一个或多个麦克风信号后，根据一个或多个扬声器信号和根据一个或多个麦克风信号更新装置100的第一滤波器。

图4a示出了根据另一实施例的生成用于声学回声消除的回声信号估计的装置100。图4b中的装置100包括两个或更多个第一滤波器，其中，第一滤波器配置包括用于两个或更多个第一滤波器中的每一个的单独滤波器配置。图4a的装置100的两个或更多个第一滤波器中的每一个被配置为通过使用用于两个或更多个第一滤波器中的所述一个的单独滤波器配置滤波一个或多个参考信号中的至少一个来生成两个或更多个第一回声估计信号中的一个。

图4b示出了根据进一步实施例的生成用于声学回声消除的回声信号估计的装置，其中，装置100包括恰好一个第一滤波器。图4b所示装置的恰好一个第一滤波器被配置为通过使用第一滤波器配置滤波一个或多个参考信号来生成所有两个或更多个第一回声估计信号。

图5示出了根据另一进一步实施例的生成用于声学回声消除的回声信号估计的装置。在图5的实施例中，从一个或多个麦克风信号生成波束形成器信号，并将对波束形成器信号进行声学回声消除。装置100被配置为通过使用第一滤波器配置滤波一个或多个参考信号来生成包括一个或多个第一回声估计信号的第一回声估计，其中一个或多个参考信号对应于一个或多个扬声器信号或从一个或多个扬声器信号得出。然后，使用波束形成器模块，图5中的装置100从一个或多个第一估计信号生成中间信号，并且使用第二滤波器配置对中间信号进行滤波以生成包括一个或多个第二回声估计信号的第二回声估计。

此外，装置100根据一个或多个麦克风信号并根据一个或多个第二回声估计信号生成一个或多个误差信号。此外，装置100根据一个或多个误差信号更新第二滤波器配置。

此外，装置100输出一个或多个误差信号。

在更详细地描述进一步的实施例之前，提出一些背景考虑。

图6示出了单扬声器单麦克风声学设置。给定如图6所示的具有一个扬声器和一个麦克风的LEM环境，麦克风在离散时间n获取的信号，记为y(n)，等于

y(n)＝d(n)+s(n)+v(n)， (1)

其中d(n)为回声信号，s(n)为近端语音，并且v(n)为背景噪声。回声信号，即扬声器和麦克风之间的声学耦合生成的信号，由d(n)＝h^Tx(n)给出，其中h为AEP，x(n)为扬声器再现的信号，并且·^T表示转置。在其余部分中，假设AEP可以被建模为长度为L_h的有限脉冲响应(FIR)滤波器，因此：

h＝[h(0),...,h(L_h-1)]^T (2)

x(n)＝[x(n),...,x(n-L_h+1)]^T (3)

AEC的目的是计算回声信号估计然后从麦克风信号中减去该估计，从而导致回声减少[1]。为此，采用自适应滤波技术[2]来估计扬声器和麦克风之间的AEP。在其余部分中，估计用上标/>表示。回声信号估计/>可以，例如，包括一个或多个回声估计信号。

图7示出了根据现有技术的声学回声消除。如果采用如图7所描绘的现有技术的AEC，则使用扬声器再现的信号作为自适应估计过程的参考，即：

其中μ(n)表示步长矩阵，与算法相关，以及消除后的误差信号e(n)由以下给出

请注意，自适应滤波器旨在计算使消除器的输出处的误差信号最小化的AEP估计即提供最大回声减少的AEP估计/>

图8示出了根据实施例的经滤波的参考声学回声消除。在实施例中，例如可以采用如图8所描绘的经滤波的参考信号x_c(n)＝cx(n)，其中滤波器c可以，例如，是如下形式的L_g×(L_c+L_g-1)矩阵

其中c＝[c(0),…,c(L_c-1)]^T和L_c＝L_h-L_g+1。

(例如，L_c可以指示滤波器c的长度。例如，L_g可以指示滤波器的长度。)

如果这样做，误差信号可以重写为

其中待识别的系统g^opt＝[g^opt(0),…,g^opt(L_g-1)]^T对真实AEP和预处理滤波器c之间的差进行建模。注意，为了如等式(7)中用公式表示误差，假设c和g^opt可以被建模为长度分别为L_c≤L_h和L_g≤L_h的FIR滤波器。

以估计g^opt使E{|e(n)|²}最小化为目标的自适应滤波器的一般更新等式采用以下形式

其中E{·}表示期望算子，并且η(n)是与算法相关的步长矩阵。

给定误差等式(7)，可以预期，当L_g<L_h时，知道真实的AEP将有助于自适应过程的收敛和再收敛速度，因为自适应滤波器越短，收敛速度越快。为此，可以采用校准阶段来测量声学回声路径，使得c＝c≈h。

例如，如果AEP测量是完美的，则xc(n)＝d(n)，且g^opt(n)＝1。因此，估计L_g＝1滤波器系数就足够了。然而，在实践中，测量的AEP存在测量误差，例如，由于麦克风自噪声，测量的AEP会退化，因此在(7)中，最佳脉冲响应估计旨在建模AEP测量中的误差，使得有必要估计L_g＞1滤波器系数。

在下文中，描述了实现频域中的实现的实施例。

在上述示例中，关于自适应滤波器的更新等式和误差信号公式描述获得经滤波的参考信号的过程。上述提供的等式可以在频域中等效地表示。然而，假设校准滤波器是时不变的或缓慢时变的，在实际中将参考信号传递给MC-AEC模块之前，将对其进行预处理。因此，无论自适应滤波器的实现如何，假设预处理和MC-AEC模块在时域内是接口的，下面只考虑经滤波的参考信号计算。

如果在频域中应用滤波操作，则通过计算经滤波的参考信号而引入的计算开销可以保持较低。注意频域卷积等效于时域中的循环卷积[14，15，16]。为了获得最佳性能，有必要在应用滤波器后仅选择线性卷积分量。

此选择步骤通常表示为约束操作。下面在分区块频域中描述滤波操作[17]。注意，如果将分区数P设置为1，则此公式退化为未分区的公式。分区公式提供的优点是，与分区长度成正比的缓冲延迟可以任意选择，并且与滤波器长度无关。

如前所述，假设测量的AEP的长度为L_c。如果使用校准滤波器的分区公式，则长度为N的每个滤波器分区由以下给出

c(p)＝[c(pN)……c(pN+N-1)]^T，p∈{0，...，P-1} (9)

其中分区数为采用具有50％重叠的重叠节省公式[14，16]，第p个扬声器信号分区可公式化为：

x(l-p)＝[x(lN-pN-M+1)…x(lN-pN)]^T，p∈{0，...，P-1} (10)

其中，l为帧索引，并且M＝2N为离散傅里叶变换(DFT)长度。校准滤波器和扬声器信号分区的频域表示分别由以下给出

X(l-p)＝diag{Fx(l-p)} (12)

其中，F表示长度为M的DFT矩阵且0_N是元素均为零的长度为N的向量。在DFT域中进行卷积得到经滤波的参考，即

在等式(13)中，上标表示卷积的输出受到圆形卷积分量的污染。因此，有必要只选择线性分量：

x_c(l)＝[x_c(lN-N+1)…r_c(lN)]^T (15)

其中，F ^-1表示定义的逆DFT矩阵，使得F ^-1 F＝I，1_N类似地定义为0_N。

最后，如果滤波操作和自适应滤波器使用相同的DFT长度M，并且在后续输入帧N之间有重叠，可得到频域自适应滤波器(FDAF)使用的频域中的经滤波的参考信号如下：

下面考虑MC-AEC。

图9示出了根据现有技术的多声道声学回声消除。给定包括I个扬声器和一个麦克风的LEM设置，如图9所示，MC-AEC模块旨在估计每个扬声器和麦克风之间的AEP h_i＝[h_i(0),…,h_i(L_h-1)]，其中i∈{1,…,I}。已知MC-AEC存在两个主要问题[6]。一方面，如果扬声器播放的信号之间存在关联，则会降低自适应滤波器的收敛速度。另一方面，这种系统的计算复杂度增加，取决于所使用的多声道自适应滤波算法，随着播放信号的数量的增加线性地增加或甚至平方地增加。使用校准数据来计算经滤波的参考信号旨在克服这两个问题，因为

-系统识别算法的目的不是估计AEP，而是估计其测量中的误差，允许减少自适应滤波器的长度，即L_g≤L_h，以及

-用校准数据滤波扬声器信号自然地去关联多声道参考信号。

在下文中，描述了提供经滤波参考MC-AEC的实现的特定实施例。

图10示出了根据实施例的经滤波参考多声道声学回声消除。应该回顾的是，扬声器信号在频域中被滤波。使用校准数据计算用于MC-AEC的经滤波的参考信号的所提出的解决方案如图10中描绘。例如，如上所述，可以对每个声道i分别计算经滤波的参考信号。

然后经滤波的参考信号可以被约束为只选择线性卷积分量：

x_c，i(l)＝[x_c，i(lN-N+1)…x_c(lN)]^T (19)

其中i∈{1，…，I}，其中

X_i(l-p)＝diag{Fx_i(l-p)} (21)

分别为第i个测量的AEP和第i个扬声器信号的频域表示。注意，c_i(p)和x_i(l-p)在前一节中被类似地定义为c(p)和x(l-p)。

如果参考信号的滤波和MCAEC的自适应算法在分区块频域中使用相等的变换长度M来实现并在后续输入帧N之间重叠，则在频域中第i个经滤波的参考信号可以写成

因此，如果定义待识别系统的第q个分区的频域表示为

其中如果将/>的估计表示为/>则受约束的回声估计可以写成

因此，类似于任何现有技术的MC-AEC在频域中的实现，消除后的误差信号由以下给出

其中其中/>并且a(l)＝[a(lN+1)，…，a(lN+N)]^T。

如前所述，MC-AEC的计算复杂度可以随着扬声器声道的数量的增长而线性或二次增长。

复杂度仅线性增长的自适应算法是那些在计算滤波器更新时不考虑扬声器声道间关系的算法

其中S _ii表示第i个步长矩阵。例如，最小均方(LMS)或归一化最小均方(NLMS)算法[2]。可替代地，递归最小二乘(RLS)[18]、仿射投影(APA)[5]或状态空间[19]算法考虑参考信号之间的关系，即：

其中S _ij表示所有i,j∈{1,…,I}的{ij}个步长矩阵。这导致参考信号的预白化，提高了自适应过程的收敛速度。然而，如果应用长自适应滤波器，则代价是对大量参考声道的计算复杂度显著增加。因此，减小自适应滤波器的长度以保证计算复杂度不超过可用的计算资源是非常重要的。

综上所述，本文提出的经滤波参考MC-AEC算法的基本思想是减少自适应滤波器的长度，即同时保持或仅适度降低MC-AEC实现的回声减少能力。作为副产物，MCAEC算法的收敛速度提高了，因为参考信号之间的关系被减小，并且自适应滤波器越短，收敛速度越快。请注意，多声道自适应滤波过程的公式保持不变，所提出的方法与现有技术的MC-AEC之间的唯一区别是所应用的参考信号的公式。

特定实施例可以，例如，包括以下步骤中的一个或多个或全部：

1.例如，一个或多个校准阶段可被执行以测量每个扬声器和每个麦克风之间的声学回声路径，或被执行以测量单独的扬声器和/或麦克风响应。

2.例如，可以

-当设备被启动时执行一次校准，或者

-当设备被启动时连续地执行校准。

3.要播放的信号可以例如在具有测量的声学回波路径的处理路径中被滤波，以获得经滤波的参考信号。

4.例如，可以

-在时域中，

-在子带域中

执行滤波操作。

5.对于包括一个或多个麦克风的声学设置，

-例如，可以为每个传声器计算经滤波的参考信号，

-例如，可以为麦克风的子集计算经滤波的参考信号，

-经滤波的参考信号可以，例如，随后由波束形成器(空间滤波器)滤波以获得一个或多个经空间滤波的参考信号。

6.例如，经滤波的参考信号可以用作单声道或多声道声学回声消除模块的参考信号。

实施例的应用领域可以是，例如用于智能设备和VoIP通信的低复杂度VQE技术。

下面将对所提供的概念的性能进行评估。

进行了一系列的模拟来评估所提出的低复杂度MC-AEC算法的性能，并将其与现有技术的MCAEC实现进行比较。

所有模拟都采用了如[20]所述的在分区块频域中实现的MCAEC状态空间算法进行。对于所有模拟，应用的麦克风和参考信号以16kHz采样，并且滤波器分区的大小被设置为N＝256个样本，后续帧之间有50％的重叠。这意味着将变换长度设置为M＝512个样本。此外，现有技术的MC-AEC的自适应滤波器长度被默认设置为100毫秒，即B＝7个分区。对于两个MC-AEC实现，评估了不同数量的滤波器分区的使用，范围从1到7个分区。

MC-AEC实现的确切细节与评估无关，因为没有针对测试中的两种MC-AEC方法中的任何一个修改或专门调整任何参数。

进行了两组不同的模拟。首先，在控制条件下生成模拟数据，并使用模拟数据对所提出的方法进行评估。其次，进行记录以评估两种MC-AEC方法的性能。

用于评估两种MC-AEC方法的客观性能指标是归一化均方误差(NMSE)：

其中‖·‖₂为l-2范数。计算了每个帧的NMSE，并且图11中提供的NMSE值对应于所有帧上的平均值。

下面将考虑生成的数据。为了生成模拟数据，使用[21]中的脉冲响应发生器生成房间脉冲响应(RIR)，用于立体声回放设置和带有四个麦克风的均匀线性阵列(ULA)。阵列中麦克风之间的距离为3cm。扬声器被模拟为距离阵列中心10厘米，它们之间的角度为60度。通过将生成的RIR与远端信号进行卷积得到回声信号。最后，在麦克风信号中加入高斯白噪声(WGN)，以生成40dB的回声噪声比(ENR)。此评估中不考虑近端语音。

为了评估经滤波参考MC-AEC算法，在生成的RIR中加入高斯白噪声来模拟测量中的噪声。

然后将有噪声的RIR截断为默认自适应滤波器的长度，即100ms。然后使用这些来获得用于立体声AEC的经滤波的参考信号。

评估了两个不同的测试用例：

-双单声道内容

-立体声内容。

图11示出了利用模拟数据的性能比较。

由于阵列中所有麦克风提供类似的结果，图11仅提供对于麦克风中的一个获得的结果。可以观察到，无论扬声器信号之间的关系如何，应用经滤波的参考信号比使用现有技术的参考信号具有优势。对于此特定的模拟集，使用所提出的方法允许将滤波器长度减少到其最小，即Q＝1分区，同时相对于具有B＝7分区的现有技术的MC-AEC，在回声减少方面损失小于1dB。还请注意，对于立体声播放，所提出的方法的回声减少能力随着自适应滤波器长度的减少而提高。这意味着如果使用经滤波的参考，使用长自适应滤波器可能会适得其反[20]。

在下面，记录的数据被考虑。为了用真实数据评估所提出的方法，在实验室中进行了记录。为此，使用具有四个麦克风的ULA进行声音采集。采用的麦克风为DPA麦克风，并且麦克风间距为3cm。为了播放，采用两个Genelec扬声器。两个扬声器都面向阵列放置，与阵列中心的距离为30厘米。它们之间的夹角约为75度。

进行播放和记录以保证信号的同步性。播放的信号和采集的信号的采样率均为48kHz。录音是在一个会话中进行的，使用级联音频文件进行播放，其中包括：

1.声道1的对数扫描

2.声道2的对数扫描

3.空间不相关的WGN

4.完全相关的WGN(双单声道)

5.四个不同的音乐节选和一个声音节选，如图12所描绘。

图12示出了立体声级联播放信号。

在处理阶段，所有信号被下采样到16kHz。下采样后的文件被切成五段。两个对数扫描被用于RIR测量。另外三个分段信号被用于处理和评估。

针对所提出的方法，提出了两组不同的结果：

-在测量的RIR中不进行预回声。

-在测量的RIR中考虑预回声。对于这种特殊情况，考虑了一帧预回声，即16kHz的256个采样。

请注意，如果这样做，麦克风信号必须被延迟相同数量的采样。这增加了处理路径的延迟，但正如性能评估中所示，它也导致了性能的极大提高。

两个测试用例的校准滤波器的长度都等于100毫秒。

图14示出了利用记录的数据的性能比较。

对阵列中的麦克风之一获得的结果如图14所描绘。可以观察到，一般来说，如果在测量校准滤波器时考虑AEP预回声，则使用经滤波参考MC-AEC相对于现有技术的MC-AEC具有优势。请注意，这在麦克风信号路径中引入延迟。然而，即使在此模拟中考虑了整个帧，此延迟也可以在采样基础上计算，并实现为AEC模块之前的时域缓冲区。

单独考虑不同的立体声信号内容(见图14)，可以观察到，对于完全相关的WGN，如果两种实现都使用相同长度的自适应滤波器，则所提出的方法可以实现比现有技术的MC-AEC更高的回声减少。此外，所提出的具有预回声和P＝Q＝2滤波器分区的方法已经提供了与P＝B＝7的现有技术的方法相当的回声减少。另一方面，对于不完全相关的信号，所提出的具有预回声的方法对于所有滤波器长度提供几乎相等的回声减少。此外，无论滤波器长度如何，它可以实现与P＝B＝7的现有技术的MC-AEC相当的回声减少效果。

在下面，描述了理论的复杂度分析。提供了计算复杂度分析。分析是基于基本运算的数量，即加法和乘法。在此分析中没有考虑AEP的测量所引入的计算复杂度，因为与经滤波后的参考信号创建和MC-AEC模块相比，它被认为可以忽略不计。

在下面，考虑参考信号创建。对于每个输入帧，使用分区块频域实现创建经滤波的参考(FR)信号所引入的计算复杂度开销等于：

在(29)中，是长度为M的快速傅里叶变换(FFT)的计算复杂度，并且/>是长度为1的复乘法的计算复杂度(参见[22]及其中的参考文献)。

下面考虑多声道AEC。回想一下，不管是否使用MC-AEC方法，每个块和帧的自适应滤波过程保持不变。因此，在下面，R∈{Q,B}表示滤波器分区的数量，而与MC-AEC方法无关。

计算回声估计(EE)的每个帧的计算复杂度与创建参考信号的计算复杂度相似，即

但是意味着每帧只有一个约束操作，因为不同信道的回声估计被相加。误差信号通常在时域中计算，然后通过每帧一次FFT的方式变换回频域，即

给定考虑参考信道之间的关系的多声道自适应滤波器，则滤波器更新(FU)的计算复杂度等于

通过计算多声道步长矩阵，即(27)中的S _ij(l,r)，所引入的计算复杂度开销取决于具体的自适应算法。

为了提供完整的自适应算法的示例，采用状态空间算法[23]。状态空间算法在分区块频域中的多声道实现在[20]中被详细描述，包括对其计算复杂度的深入分析。

考虑到[20]中描述的状态空间算法的高效实现，梯度更新的计算复杂度为：

以及步长矩阵(MU)的更新(系统距离协方差矩阵的卡尔曼增益计算和更新)的复杂度为：

综上所述，给定上面的详细分析，现有技术的MC-AEC对于每个帧的计算复杂度等于：

其中R＝B，并且P和R＝Q时所提出方法的复杂度等于：

为了证明经滤波参考MC-AEC能够相对于现有技术的MC-AEC降低计算复杂度，两种方法之间的复杂度差，即：

在图13中描绘，对于不同的播放配置，特别地对于，单声道设置(I＝1)、立体声设置(I＝2)、5：1设置(I＝2)和3D条形音箱(I＝15)。

图13示出了计算复杂度的比较。对于图13中的计算复杂度比较，考虑用于性能评估的自适应滤波器参数化。这意味着现有技术的MC-AEC的计算复杂度是为B＝7个分区(默认的自适应滤波器长度)计算的。此外，用于校准滤波器的分区数设置为P＝7，并且用于滤波参考MC-AEC的分区数设置为Q＝1至7。最后，认为采用了[20]中描述的分区块频域中的状态空间算法的高效实现。

图14示出了回声减少的性能分析。图14的性能分析的设置确实包括两个扬声器和一个麦克风，从而实现立体声AEC(SAEC)。已经进行了音乐和语音录音。关于经滤波的参考SAEC滤波器设置，第一滤波器在开始时被确定一次，并且第二滤波器不断调整。

返回图13，图13示出了理论上的复杂度分析。当相对于具有7个分区(标准配置)的现有技术的MCAEC比较具有Q个分区的FR-MCAEC的复杂度时，可以实现相对的复杂度降低。播放配置是，例如，单声道设置(1个AEC)，例如，立体声设置(2个AEC)，例如，5.1设置(5个AEC)，例如，3D条形音箱(15个AEC)。尽管滤波参考信号带来了开销，但相对于现有技术的MC-AEC，所提出的方法可以将计算复杂度降低近80％。此外，可以观察到扬声器声道数量越大，计算复杂度降低越大。

尽管在装置的上下文中描述了一些方面，但这些方面也表示对相应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤上下文中描述的方面也表示对相应装置的相应块或项目或特征的描述。一些或所有的方法步骤可以由(或使用)硬件装置来执行，例如，微处理器、可编程计算机或电子电路。在一些实施例中，最重要的方法步骤中的一个或多个可以通过这样的装置来执行。

根据某些实施要求，本发明的实施例可以在硬件或软件中实现，或者至少部分地在硬件中实现，或者至少部分地在软件中实现。该实现可以使用数字存储介质来执行，例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存，这些介质具有存储在其上的电子可读控制信号，其与可编程计算机系统协作(或能够协作)，从而执行相应的方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作，从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，该程序代码可用于执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的用于执行本文所述方法之一的计算机程序。

换句话说，因此，本发明方法的实施例是，当计算机程序在计算机上运行时，具有用于执行本文所述方法之一的程序代码的计算机程序。

因此，本发明方法的进一步实施例是数据载体(或数字存储介质，或计算机可读介质)，包括记录在其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。

因此，本发明方法的进一步实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接传送，例如经由互联网。

进一步的实施例包括处理手段，例如计算机或可编程逻辑器件，其被配置为或适应于执行本文所述的方法之一。

进一步的实施例包括在其上安装了用于执行本文所述方法之一的计算机程序的计算机。

根据本发明的进一步实施例包括配置为将用于执行本文所述方法之一的计算机程序(例如，电子或光学地)传送到接收器的装置或系统。例如，接收器可以是计算机、移动设备、存储设备等。装置或系统可例如包括用于将计算机程序传送到接收器的文件服务器。

在一些实施例中，可编程逻辑器件(例如现场可编程门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，优选由任何硬件装置执行方法。

本文所述的装置可以使用硬件装置来实现，或者使用计算机来实现，或者使用硬件装置和计算机的组合来实现。

本文所述的方法可以使用硬件装置，或使用计算机，或使用硬件装置和计算机的组合来执行。

上面描述的实施例仅是对本发明的原理的说明。应当理解，本文所述的布置和细节的修正和变化对于本领域技术人员将是显而易见的。因此，其意图仅受即将到来的专利权利要求的范围的限制，而不受通过本文的实施例的描述和解释方式所提供的具体细节的限制。

参考文献

[1]E. and G.Schmidt，Acoustic Echo and Noise Control：A practicalApproach.New Jersey，NY，USA：Wiley，2004.

[2]S.Haykin，Adaptive Filter Theory，4th ed.New Jersey，NY，USA：Prentice-Hall，2002.

[3]M.Luis Valero and E.A.P.Habets，“Low-complexity multi-microphoneacoustic echo control in the short-time Fourier transform domain，"to appearin IEEE Trans.Audio，Speech，Lang.Process.

[4]M.M.Sondhi，D.R.Morgan，and J.L.Hall，“Acoustic echo cancellation forstereophonic teleconferencing，"in the 126th meeting Acoust.Soc.Amer.，Denver，CO，USA，Oct.1993，pp.4-8.

[5]J.Benesty，P.Duhamel，and Y.Grenier，“A multichannel affineprojection algorithm with applications to multichannel acoustic echocancellation，"IEEE Signal Process.Lett.，vol.3，no.2，pp.35-37，Feb.1996.

[6]J.Benesty，D.R.Morgan，and M.M.Sondhi，“A better understanding and animproved solution to the problems of stereophonic acoustic echocancellation，"in Proc.IEEE Intl.Conf.on Acoust.，Speech and Signal Process.(ICASSP)，Munich，Germany，Apr.1997，pp.303-306.

[7]B.D.van Veen and K.M.Buckley，“Beamforming：A versatile approach tospatial filtering，"IEEE Acoustics，Speech and Signal Magazine，vol.5，no.2，pp.4-24，Apr.1988.

[8]W.Kellermann，“Joint design of acoustic echo cancellation andadaptive beamforming for microphone arrays，"in Proc.Intl.Workshop Acoust.EchoNoise Control(IWAENC)，London，UK，Sep.1997，pp.81-84.

[9]“Strategies for combining acoustic echo cancellation and adaptivebeamforming microphone arrays，"in Proc.IEEE Intl.Conf.on Acoust.，Speech andSignal Process.(ICASSP)，Munich，Germany，Apr.1997，pp.219-222.

[10]R.Martin，S.Gustafsson，and M.Moser，“Acoustic echo cancellation formicrophone arrays using switched coefficient vectors，"in Proc.Intl.Work-shopAcoust.Echo Noise Control(IWAENC)，London，UK，Sep.1997，pp.85-88.

[11]W.Herbordt，W.Kellermann，and S.Nakamura，“Joint optimization ofLCMV beamforming and acoustic echo cancellation，"in Proc.European SignalProcess.Conf.，Vienna，Austria，Sep.2004，pp.2003-2006.

[12]G.Reuven，S.Gannot，and I.Cohen，“Joint acoustic echo cancellationand transfer function GSC in the frequency domain，"in Proc.23rd IEEEConvention of the Electrical and Electronic Engineers in Israel(IEEEI)，Herzlia，Israel，Sep.2004，pp.412-415.

[13]“Joint noise reduction and acoustic echo cancellation using thetransfer-function generalized sidelobe canceller，"Speech Communication，vol.49，no.7-8，pp.623-635，Aug.2007.

[14]G.A.Clark，S.R.Parker，and S.K.Mitra，“A unified approach to time-and frequency-domain realization of FIR adaptive digital filters，"IEEETrans.Acoust.，Speech，Signal Process.，vol.31，no.5，pp.1073-1083，Oct.1983.

[15]A.Oppenheim and R.W.Schafer，Digital Signal Processing，2nd ed.NewJersey，NY，USA：Prentice-Hall，1993.

[16]J.J.Shynk，\Frequency-domain and multirate adaptive filtering，"IEEE Signal Process.Mag.，vol.9，no.1，pp.14{37，Jan.1992.

[17]P.C.W.Sommen，“Partitioned frequency-domain adaptive filters，"inProc.Asilomar Conf.on Signals，Systems and Computers，Pacific Grove，CA，USA，May1989，pp.677-681.

[18]J.Benesty，F.Amand，A.Gilloire，and Y.Grenier，“Adaptive filteringalgorithms for stereophonic acoustic echo cancellation，"in Proc.IEEEIntl.Conf.on Acoust.，Speech and Signal Process.(ICASSP)，Detroit，MI，USA，May1995，pp.3099-3102.

[19]S.Malik and G.Enzner，“Recursive Bayesian control of multichannelacoustic echo cancellation，"IEEE Signal Process.Lett.，vol.18，no.11，pp.619-622，Nov.2011.

[20]M.Luis Valero，“Acoustic echo reduction for multiple loudspeakersand microphones：Complexity reduction and convergence enhancement，"doctoralthesis，Friedrich-Alexander-Erlangen-Nürnberg(FAU)，2019.

[21]E.A.P.Habets.Room impulse response generator for MATLAB.[Online].Available：https：//github.com/ehabets/RIR-Generator

[22]R.M.M.Derkx，G.P.M.Engelmeers，and P.C.W.Sommen，“New constrainingmethod for partitioned block frequency-domain adaptive filters，"IEEETrans.Signal Process.，vol.50，no.3，pp.2177-2186，Sep.2002.

[23]G.Enzner and P.Vary，“Frequency-domain adaptive Kalman filter foracoustic echo control in hands-free telephones，"Signal Process.，vol.86，no.6，pp.1140-1156，Jun.2006.

Claims

1.一种通过生成一个或多个误差信号进行声学回声消除的装置(100)，

其中，所述装置(100)通过使用第一滤波器配置对一个或多个参考信号进行滤波来生成包括一个或多个第一回声估计信号的第一回声估计，其中所述一个或多个参考信号对应于一个或多个扬声器信号或从所述一个或多个扬声器信号得出，

其中，所述装置(100)通过使用第二滤波器配置对所述一个或多个第一回声估计信号进行滤波来生成包括一个或多个第二回声估计信号的第二回声估计；或其中，所述装置(100)通过从所述一个或多个第一估计信号生成中间信号，以及通过使用所述第二滤波器配置对所述中间信号进行滤波，来生成包括所述一个或多个第二回声估计信号的所述第二回声估计，

其中，所述装置(100)根据一个或多个麦克风信号和根据所述一个或多个第二回声估计信号生成一个或多个误差信号，

其中，所述装置(100)根据所述一个或多个误差信号更新所述第二滤波器配置，以及

其中，所述装置(100)输出所述一个或多个误差信号。

2.根据权利要求1所述的装置(100)，

其中，所述装置(100)被配置为在运行时不更新所述第一滤波器配置，或

其中，所述装置(100)被配置为在运行时也更新所述第一滤波器配置，其中所述装置(100)在运行时比所述第一滤波器配置更频繁地更新所述第二滤波器配置。

3.根据权利要求1或2所述的装置(100)，

其中，所述装置(100)在所述一个或多个麦克风信号引入延迟，

其中，所述装置(100)根据所述装置(100)将所述延迟引入到所述一个或多个麦克风信号中后的所述一个或多个麦克风信号以及根据所述一个或多个第二回声估计信号，生成所述一个或多个误差信号。

4.根据权利要求1或2所述的装置(100)，

其中，所述装置(100)在所述一个或多个扬声器信号中引入延迟，

其中，所述一个或多个参考信号对应于所述装置(100)将所述延迟引入到扬声器信号中之前的所述一个或多个扬声器信号；或其中所述一个或多个参考信号从所述装置(100)将所述延迟引入到所述扬声器信号中之前的所述一个或多个扬声器信号得出。

5.根据权利要求1或2所述的装置(100)，

其中，所述装置(100)将第一延迟引入所述一个或多个扬声器信号中，

其中，所述一个或多个参考信号对应于所述装置(100)将所述第一延迟引入到扬声器信号中之前的一个或多个扬声器信号，或其中所述一个或多个参考信号从所述装置(100)将所述第一延迟引入到扬声器信号中之前的一个或多个扬声器信号得出，以及

其中所述装置(100)在所述一个或多个麦克风信号中引入第二延迟，

其中，所述装置(100)根据所述装置(100)将所述第二延迟引入到所述一个或多个麦克风信号中之后的所述一个或多个麦克风信号以及根据所述一个或多个第二回声估计信号，生成所述一个或多个误差信号。

6.根据前述权利要求中任何一个所述的装置(100)，

其中，所述一个或多个扬声器信号为两个或更多个扬声器信号。

7.根据前述权利要求中任何一个所述的装置(100)，

其中，所述一个或多个麦克风信号为两个或更多个麦克风信号，

其中，所述装置(100)通过使用所述第一滤波器配置对所述一个或多个参考信号进行滤波来生成包括两个或更多个第一回声估计信号作为所述一个或多个第一回声估计信号的所述第一回声估计，

其中，对于所述两个或更多个麦克风信号中的每一个，所述两个或更多个第一回声估计信号中的一个指示所述两个或更多个麦克风信号中的所述一个的回声的第一估计。

8.根据权利要求7所述的装置(100)，

其中，所述装置(100)包括两个或更多个第一滤波器，其中所述第一滤波器配置包括用于所述两个或更多个第一滤波器中的每一个的单独滤波器配置，

其中，所述两个或更多个第一滤波器中的每一个通过使用所述两个或更多个第一滤波器中的所述一个的单独滤波器配置对所述一个或多个参考信号中的至少一个进行滤波来生成所述两个或更多个第一回声估计信号中的一个。

9.根据权利要求7所述的装置(100)，

其中所述装置(100)包括恰好一个第一滤波器，

其中，所述恰好一个第一滤波器通过使用所述第一滤波器配置对所述一个或多个参考信号进行滤波来生成所有的所述两个或更多个第一回声估计信号。

10.根据权利要求7所述的装置(100)，

其中所述两个或更多个麦克风信号为三个或更多个麦克风信号，

其中，所述装置(100)包括被计算用于所述三个或更多个麦克风的适当子集的两个或更多个第一滤波器，

其中，所述两个或更多个第一滤波器通过使用第一滤波器配置对一个或多个参考信号进行滤波来生成所有的两个或更多个第一回声估计信号。

11.根据权利要求7到10中任何一个所述的装置(100)，

其中，所述装置(100)通过使用第二滤波器配置对两个或更多个第一回声估计信号进行滤波来生成包括两个或更多个第二回声估计信号作为一个或多个第二回声估计信号的第二回声估计，

其中，对于所述两个或更多个麦克风信号中的每一个，所述两个或更多个第二回声估计信号中的一个表示所述两个或更多个麦克风信号中的所述一个的回声的第二估计，

其中，装置(100)根据所述两个或更多个麦克风信号和根据所述两个或更多个第二回声估计信号生成作为所述一个或多个误差信号的两个或更多个误差信号。

12.根据权利要求11所述的装置(100)，

其中，所述装置(100)包括两个或更多个第二滤波器，其中所述第二滤波器配置包括用于两个或更多个第二滤波器中的每一个的单独滤波器配置，

其中，所述两个或更多个第二滤波器中的每一个通过使用所述两个或更多个第二滤波器中的所述一个的单独滤波器配置对所述两个或更多个第一回声估计信号中的一个滤波来生成所述两个或更多个第二回声估计信号中的一个，

其中，所述装置(100)使用所述两个或更多个麦克风信号中的仅一个和使用所述两个或更多个第二回声估计信号中的指示所述两个或更多个麦克风信号中的所述一个中的回声的第二估计的仅一个，来生成两个或更多个误差信号中的每一个，

其中，所述装置(100)使用所述两个或更多个误差信号中的使用由所述第二滤波器生成的所述两个或更多个第二回声估计信号中的所述一个生成的误差信号，来更新所述两个或更多个第二滤波器的每个第二滤波器的单独滤波器配置，而不使用所述两个或更多个误差信号的另一个误差信号。

13.根据权利要求7到10中任何一个所述的装置(100)，

其中，所述装置(100)从所述两个或更多个麦克风信号生成第一波束形成器信号，

其中，所述装置(100)从所述两个或更多个第一回声估计信号生成第二波束形成器信号作为所述中间信号，

其中，所述装置(100)通过使用所述第二滤波器配置对所述第二波束形成器信号进行滤波，生成恰好一个第二回声估计信号作为所述第二回声估计，使得所述第二回声估计信号指示对所述第一波束形成器信号中的回声的估计，

其中，所述装置(100)根据所述第一波束形成器信号和根据所述恰好一个第二回声估计信号生成恰好一个误差信号作为所述一个或多个误差信号，

其中，所述装置(100)根据所述恰好一个误差信号更新所述第二滤波器配置，

其中，所述装置(100)输出所述恰好一个误差信号。

14.根据权利要求13所述的装置(100)，

其中，所述装置(100)在所述第一波束形成器信号中引入延迟，

其中，所述装置(100)根据所述装置(100)将所述延迟引入所述第一波束形成器信号之后的所述一个或多个麦克风信号并根据所述恰好一个第二回声估计信号，生成所述恰好一个误差信号。

15.根据前述权利要求中任何一个所述的装置(100)，

其中，所述装置(100)包括一个或多个扬声器，以输出所述一个或多个扬声器信号，以及

其中，所述装置(100)包括一个或多个麦克风，以生成所述一个或多个麦克风信号。

16.根据权利要求15所述的装置(100)，

其中，所述装置(100)通过使用所述第一滤波器配置，根据一个或多个扬声器中的至少一个和至少一个麦克风中的至少一个之间的至少一个房间脉冲，对所述一个或多个参考信号进行滤波，来生成包括所述一个或多个第一回声估计信号的所述第一回声估计，其中所述一个或多个扬声器输出所述一个或多个扬声器信号，以及其中所述一个或多个麦克风记录所述一个或多个麦克风信号。

17.根据权利要求16所述的装置(100)，

其中，所述装置(100)是通过测量所述一个或多个扬声器中的所述至少一个和所述至少一个扬声器中的所述至少一个之间的至少一个声学回声路径来获得所述至少一个声学回声路径。

18.根据前述权利要求中任何一个所述的装置(100)，

其中，为了生成所述第一回声估计，所述装置(100)在时域中对所述一个或多个参考信号进行滤波以获得所述一个或多个第一回声估计信号。

19.根据前述权利要求中任何一个所述的装置(100)，

其中，为了生成第一回声估计，所述装置(100)在变换域中对所述一个或多个参考信号进行滤波以获得所述一个或多个第一回声估计信号。

20.根据前述权利要求中任何一个所述的装置(100)，

其中，所述装置(100)根据所述一个或多个误差信号更新所述第二滤波器配置，以获得更新的第二滤波器配置，

其中，所述装置(100)根据所述更新的第二滤波器配置更新所述一个或多个误差信号以获得一个或多个更新的误差信号，以及

其中，为了输出所述一个或多个误差信号，所述装置(100)输出所述一个或多个更新的误差信号。

21.一种用于通过生成一个或多个误差信号进行声学回声消除的方法，其中所述方法包括：

通过使用第一滤波器配置对一个或多个参考信号进行滤波，生成包括一个或多个第一回声估计信号的第一回声估计，其中所述一个或多个参考信号对应于一个或多个扬声器信号或从所述一个或多个扬声器信号得出，

通过使用第二滤波器配置对所述一个或多个第一回声估计信号进行滤波，生成包括一个或多个第二回声估计信号的第二回声估计；或通过从所述一个或多个第一估计信号生成中间信号，以及通过使用所述第二滤波器配置对所述中间信号进行滤波，生成包括所述一个或多个第二回声估计信号的第二回声估计，

根据一个或多个麦克风信号和根据所述一个或多个第二回声估计信号生成一个或多个误差信号，

根据所述一个或多个误差信号更新所述第二滤波器配置，以及

输出所述一个或多个误差信号。

22.一种计算机程序，用于当在计算机或信号处理器上执行时，实现如权利要求21所述的方法。