CN102804747B

CN102804747B - 多通道回波对消器

Info

Publication number: CN102804747B
Application number: CN200980159888.0A
Authority: CN
Inventors: 法比安·库奇; 马库斯·卡琳格尔; 马库斯·施密特; 梅拉伊·祖鲁贝; 马尔科·迪亚特斯丘克; 奥利弗·莫泽
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2009-04-15
Filing date: 2009-05-14
Publication date: 2014-04-02
Anticipated expiration: 2029-05-14
Also published as: US20120076308A1; BRPI0924007A2; EP2420050A1; HK1167542A1; JP2012524434A; JP5384721B2; WO2010118763A1; RU2520359C2; US8873764B2; CN102804747A; EP2420050B1; BRPI0924007B1

Abstract

根据本发明的实施方式的声回波抑制单元(210)包括：输入接口(230)，用于从输入信号(300)提取缩混信号(310)，该输入信号包括一起表示多通道信号的缩混信号(310)和参数侧信息(320)；计算器(220)，用于计算自适应滤波器(240)的滤波系数，其中，该计算器(220)适于基于该缩混信号(310)和麦克风信号(340)或者由该麦克风信号推导出的信号确定滤波系数；以及自适应滤波器(240)，适于基于该滤波系数对该麦克风信号(340)或者由该麦克风信号推导出的信号进行滤波，以抑制在麦克风信号(340)中由该多通道信号引起的回波。

Description

多通道回波对消器

技术领域

根据本发明的实施方式涉及回波抑制单元和用于抑制声回波的方法，例如可用在免提远程通信系统或者包括基于空间声音的参数表示的多通道扬声器回放的其他声学系统。

背景技术

声回波由于在远程通信装置的扬声器和麦克风之间的声耦合或者反馈而产生。这种现象尤其存在于免提操作中。来自扬声器的声反馈信号被传回到远端用户，该远端用户会注意到他自己讲话的延迟形式。回波信号表示非常分散注意的干扰并且甚至可抑制交互的、全双工通信。此外，声回波可导致啸声效应以及声反馈回路的不稳定性。在全双工免提远程通信系统中，因此可建议回波控制以消除扬声器与麦克风之间的耦合。

图9示出通常的声回波控制问题。由扬声器发出的远端信号直接传送至麦克风，并且穿过反射路径。因此，麦克风不仅获取本地近端讲话，而且获取由此反馈至远端用户的回波。

扬声器信号x(n)被提供至扬声器100，其将该扬声器信号转换为扬声器100周围的介质的音频振荡。如图9所示，麦克风110可接收由扬声器100发出的声音，其在图9中由曲线向量表示，其中y(n)表示从扬声器100到麦克风110的反馈信号。

除了反馈信号y(n)，麦克风110还记录附加声音信号w(n)，例如，其表示使用者的讲话。两个声信号都由麦克风110记录，并且作为麦克风信号z(n)提供给回波去除单元120。该回波去除单元120还接收扬声器信号x(n)。该回波去除单元120输出信号，其中，理想地，从记录信号或者麦克风信号z(n)去除扬声器信号x(n)的影响。

因此，图9示出声回波控制问题的一般方案。扬声器信号x(n)被反馈至麦克风信号z(n)。回波去除过程去除该回波，同时，理想地使所需本地近端信号w(n)通过。

声回波控制表示已知的问题，并且已提出各种去除声回波的方法[13]。下文中，我们简要回顾例如在[8，9]中所提出的声回波抑制(AES)方法，这是因为它们在考虑空间音频通信的背景下最适合。

当传送或者回放音频信号时，通常使用多通道系统。在这些系统中，多个扬声器被用于回放声音，和/或多个麦克风被用于记录空间声音。例如，这些多通道系统被用于不仅传送不同方的音频信号，而且保存记录情景的空间信息的空间音频远程会议系统中[12]。在其他系统中，可人为提供空间信息或者互动改变空间信息[5]。

在空间音频应用于远程通信情景的情况下，应使用多通道音频信号的有效表示，同时仍然确保高音频质量。参数空间音频编码表示应对该挑战的合适方法。下文中，我们提出遵循参数空间音频编码模式并且在通信背景下尤其重要的实用方法。

虽然例如如先前提到的空间音频编码的多通道系统提供以非常高效并且节省带宽的方式传送多个音频信号的机会，但是回波去除或者回波抑制过程的直接实施需要基于如由多通道系统输出的各个扬声器信号应用于各个麦克风信号。然而，这可表示仅仅由于要处理的麦克风和/或扬声器信号的较高数目而导致的显著、几乎成倍增长的计算复杂性。因此，这可能需要由于较高能耗而导致的额外成本、较高数据处理能力的必要性以及甚至还需要略增加的延迟。

发明内容

因此，本发明的目的提供允许更高效的声回波抑制的声回波抑制单元和会议前端。

通过根据权利要求1所述的声回波抑制单元、根据权利要求8所述的抑制声回波的方法、根据权利要求10所述的会议前端、根据权利要求14所述的提供扬声器信号和麦克风信号的方法、或者根据权利要求15所述的计算机程序来实现该目的。

根据本发明的实施方式是基于以下发现，即，通过从包括缩混信号和参数侧信息的输入信号提取缩混信号，基于该缩混信号和麦克风信号或者由麦克风信号推导出的信号计算自适应滤波器的滤波系数，以及基于所计算的滤波系数对麦克风信号或者由麦克风信号推导出的信号进行滤波，可实现更高效声回波抑制。换句话说，在基于形成输入信号的缩混信号和参数侧信息的多通道系统的情况下，其中，该参数侧信息与缩混信号一起表示多通道信号，可基于该缩混信号完成回波抑制。

当采用根据本发明的实施方式时，因此，可避免将输入信号解码为多通道信号并且之后执行声回波抑制。因为相比于如上所述的多通道系统，信号数目显著减少，因此可显著减少计算复杂性。通过采用根据本发明的实施方式，可基于包括在输入信号中的缩混信号执行声回波抑制。

在根据本发明的进一步实施方其中，可基于参考功率谱执行回波抑制，其可基于所接收的缩混信号和麦克风信号或者由麦克风信号推导出的信号而确定。可选地，由多通道信号推导出的参考功率谱可被延迟一延迟值，例如，该延迟值可基于相关值而确定。

因此，根据本发明的实施方式的会议前端不仅包括根据本发明的实施方式的声回波抑制单元，而且包括多通道解码器和至少一个麦克风单元，其中，该多通道解码器适于将缩混信号和参数侧信息解码为多个扬声器信号。该至少一个麦克风单元还适于将该麦克风信号提供至声回波抑制单元。在会议前端的进一步实施方其中，输入接口进一步适于提取参数侧信息，其中，该多通道解码器包括上混器和参数处理器。该参数处理器然后适于从输入接口接收参数侧信息并且提供上混控制信号。上混器适于从输入接口接收缩混信号以及从参数处理器接收上混控制信号，并且基于该缩混信号和该上混控制信号适于提供多个扬声器信号。因此，在根据本发明的实施方其中，声回波抑制单元的输入接口可为多通道解码器的输入接口，或者多通道解码器和声回波抑制单元都可共享通用输入接口。

此外，根据本发明的实施方式可选地还可包括：适于将多个音频输入信号编码为一起表示多个音频输入信号的进一步缩混信号和进一步参数侧信息的对应的多通道编码器，其中，至少一个麦克风单元的麦克风信号为多个音频输入信号的音频输入信号之一。在该情况下，包括在会议前端中的声回波抑制单元适于接收如从麦克风信号推导出的进一步缩混。

换句话说，如下文将提出，根据本发明的实施方式的方法允许高效组合声回波抑制和参数空间音频编码。

附图说明

下文中，将参照附图描述根据本发明的实施方式。

图1示出包括根据本发明实施方式的声回波抑制单元的会议前端的框图；

图2示出参数空间音频编码器的总体结构；

图3示出参数空间音频解码器的总体结构；

图4示出用在MPEG环绕(MPS)解码器中的信号处理链；

图5示出空间音频对象编码(SAOC)解码器的总体结构；

图6a示出用于将SAOC数据转码为MPS数据的基于单声道缩混的转码器；

图6b示出用于将SAOC数据转码为MPS数据的基于立体声缩混的转码器；

图7示出基于参数空间音频编码器的缩混以示出所提出的声回波抑制的高效方法的根据本发明的实施方式的会议前端；

图8以包括根据本发明的实施方式的声回波抑制单元的会议前端的形式示出根据本发明的又一实施方式；

图9示出声回波控制问题的总体方案。

具体实施方式

参见图1-9，将更详细概述和描述根据本发明以及基本技术的不同实施方式。然而，在介绍用于单通道声回波抑制和多通道声回波抑制的声回波抑制技术之前，首先将以会议前端连同声回波抑制单元一起的形式描述根据本发明的实施方式。

图1示出会议前端200的框图，该会议前端200包括根据本发明的实施方式的声回波抑制单元210作为核心组件。该声回波抑制单元210包括计算器220、输入接口230和自适应滤波器240。该会议前端200还包括多通道解码器250，其以输出方式耦合至多个扬声器100，其示例性地示为四个扬声器100-1至100-4。该会议前端还包括麦克风或者麦克风单元110。

更具体地说，提供输入信号300，其包括缩混信号310和参数侧信息320。输入接口230在图1所示的实施方其中从所述输入信号分离或者提取缩混信号310和参数侧信息320。在图1所示的实施方其中，该输入接口230将缩混信号310连同参数侧信息320一起提供至多通道解码器250。

该多通道解码器250适于将缩混信号310和参数侧信息320解码为多个扬声器信号330，仅仅为了简化起见，图1中只有一个扬声器信号这样标记。因为扬声器100被耦合至多通道解码器250的适当输出，所以该扬声器100接收单独扬声器信号330并且将它们转换回音频声信号。

计算器220此外被耦合至可用缩混通道310的输入接口230的输出。因此，该计算器220适于接收缩混信号310。然而，在图1所示的实施方其中，输入信号300的参数侧信息320没有被提供至计算器220。换句话说，在根据本发明的实施方其中，关于包括在输入信号中的信号，计算器220可单独使用缩混信号。

麦克风110以输出方式耦合至计算器220和自适应滤波器240。因此，该计算器220还适于接收如由麦克风110提供的麦克风信号340。基于麦克风信号340和缩混信号310，该计算器220适于确定自适应滤波器240的滤波系数，并且基于自适应滤波器240对进入的麦克风信号340进行滤波，将对应的滤波系数信号350提供给该自适应滤波器240。该自适应滤波器240在其输出处提供输出信号，其为麦克风信号340的回波抑制形式。

下文将给出关于计算器220的可行实施的操作模式的更多细节。

虽然图1示意性画出输入接口230作为声回波抑制单元210的单独组件，但是接口230还可为解码器250的一部分或者可由解码器250和声回波抑制单元210共享。此外，例如，可通过实施能够单独提取缩混信号310的输入接口230来实施根据本发明的实施方式。在该情况下，输入信号300将被提供至多通道解码器250，其又包括能够提取缩混信号310和参数侧信息320的适当接口。换句话说，可利用输入接口230来实施声回波抑制单元210，该输入接口230不能够提取参数侧信息，而只能够提取缩混信号310。

根据本发明的实施方式表示用在空间音频通信系统中的多通道扬声器系统的声回波抑制的高效方法。该方法可用于空间音频信号由缩混信号和对应的参数侧信息或者元数据表示的情况。这些参数获取计算在再生侧上的扬声器信号所需的信息。本发明利用可基于所接收的缩混信号直接执行回波抑制，而不是在扬声器信号被输入至声回波抑制(AES)中之前明确计算该扬声器信号的事实。类似地，回波成分也可在要传送至远端的空间音频信号的缩混信号中受到抑制。该方法通常也比将回波抑制应用于用于获取观察到的声场的麦克风的记录信号的每个更高效。

下文中，概述性参考标号将被用于在实施方式或者图中出现一次以上但至少关于它们的一些特征或者结构仍然相同或者相似的对象。例如，图1中已经利用单独参考标号表示四个扬声器100-1至100-4，然而，当讨论作为扬声器的基本属性或者特征时，参考为“扬声器100”。

此外，为了简化描述，相似或者相同对象将利用相同或者相似的参考标号表示。比较图1和图9，扬声器已经被引用相同参考标号100。可由相同、相似或者不同地实施由相同或者相似参考标号表示的对象。例如，在一些实施中，可建议实施对于不同扬声器信号的不同类型的扬声器100，而在不同应用中，可相同地实施扬声器。因此，由相同或者相似参考标号表示的对象可可选地被相同或者相似地实施。

此外，应注意，当多个对象在图中出现一次以上时，所示的对象数目通常只是为了说明目的。可通过增加或者减少数目作出数目偏差。例如，图1示出四个扬声器100-1至100-4。然而，在不同实施方其中，可同样很好地实施更多或者更少扬声器100。例如，在“5.1”系统的情况下，通常使用5个扬声器连同一个超低音扬声器。

下文中，我们简要回顾声回波抑制的总体方法。因此，我们基本上遵循如[8，9]中所述的方法。

如图9所示，麦克风信号z(n)由由扬声器信号x(n)和近端信号w(n)的反馈产生的声回波信号y(n)组成。这里，我们假设，房间冲激响应可表示为对应于扬声器信号x(n)与麦克风信号z(n)之间的d个采样的延迟的直接传播路径与模仿扬声器箱的声属性的线性滤波gn的组合。

然后，麦克风信号z(n)可由

z(n)＝g_n*x(n-d)+w(n)， (1)

表示，其中，*表示卷积。方程式(1)的短时傅里叶变换(STFT)域表示由

Z(k，m)＝G(k，m)X_d(k，m)+W(k，m)， (2)

给出，其中，k为阻断时间指数，以及m表示频率指数。X_d(k，m)被定义为延迟扬声器信号的STFT域对应。方程式(2)的右手侧的第一项表示回波成分Y(k，m)，其中，

Y(k，m)＝G(k，m)X_d(k，m). (3)

应注意，以下声回波抑制的讨论将STFT作为信号的频谱表示。然而，该概念明显地也可代替适用于任何其他合适频率子频带表示。

通过修改麦克风信号Z(k，m)的STFT的幅值，同时保持其相位不改变来执行声回波抑制。这可由

E(k，m)＝H(k，m)Z(k，m)， (4)

表示，其中，H(k，m)表示实值、正衰减因子。下文中，我们将H(k，m)作为回波抑制滤波(ESF)。

一种计算回波抑制滤波H(k，m)的实用方法是与[7]类似地使用参数频谱相减方法：

H (k, m) = {(\frac{{| Z (k, m) |}^{α} - β {| \hat{Y} (k, m) |}^{α}}{{| Z (k, m) |}^{α}})}^{\frac{1}{γ}}, - - - (5)

其中，α、β和γ表示用于控制回波抑制性能的设计参数。

虽然β和γ的典型值为约2的值，但是在一些应用中，α被选择为γ的倒数。换句话说，当选择典型值β＝2和γ＝2时，α通常选择为0.5(＝1/2)。

回波信号的功率谱的估计可由

{| \hat{Y} (k, m) |}^{2} = {| \hat{G} (k, m) |}^{2} {| X_{d} (k, m) |}^{2}, - - - (6)

获得，其中，

表示回波功率传递函数|G(k，m)|²的估计。可选地，可使用根据

{| \hat{Y} (k, m) |}^{2} = {| \hat{G} (k, m) X_{d} (k, m) |}^{2}, - - - (7)

的基于复频谱的方法。

请注意，实际上，回波功率传递函数|G(k，m)|²和延迟d都是未知的，并且必须由相对应估计取代，如下文所讨论。下文中，我们将

作为回波估计滤波(EEF)。

[8]中已经提出估计EEF的可行方法。假设近端扬声器无声，方程式(2)暗示可由

{| \hat{G} (k, m) |}^{2} = {| \frac{E {Z (k, m) X_{d}^{*} (k, m)}}{E {X_{d} (k, m) X_{d}^{*} (k, m)}} |}^{2}, - - - (8)

估计EEF，其中，^*表示复共轭运算符，以及E{…·}表示期望运算符。期望运算符可通过其自变量的浮动平均值来近似。

以上技术有效估计回波路径传递函数并且采用其幅值以获得实值EEF。每当相位突然改变时，诸如在回波路径改变、时间漂移等期间，该EEF估计可必须重新收敛。为了使方程式(8)对相位变化不敏感，它可修改为从功率谱而不是从复频谱[6]计算：

{| \hat{G} (k, m) |}^{2} = \frac{E {{| X_{d} (k, m) |}^{2} {| Z (k, m) |}^{2}}}{E {{| X_{d} (k, m) |}^{2} {| X_{d} (k, m) |}^{2}}} . - - - (9)

在[6]中，示出根据[9]的估计被偏置。因此，在[6]中，提出使用另一种估计EEF的方法，即，基于扬声器和麦克风信号的功率谱的时间波动的估计|G(k，m)|²。可根据

\tilde{Z} (k, m) = {| Z (k, m) |}^{2} - E {{| Z (k, m) |}^{2}} - - - (10)

{\tilde{X}}_{d} (k, m) = {| X_{d} (k, m) |}^{2} - E {{| X_{d} (k, m) |}^{2}} . - - - (11)

计算功率谱的时间波动。

然后与方程式[9]类似地但基于扬声器和麦克风的波动频谱执行EEF的估计：

{| \hat{G} (k, m) |}^{2} = \frac{E {{\tilde{X}}_{d} (k, m) \tilde{Z} (k, m)}}{E {{\tilde{X}}_{d} (k, m) \tilde{X} (k, m)}} . - - - (12)

重要的是要注意，波动功率谱仅仅用于|G(k，m)|²的估计。回波抑制滤波H(k，m)的计算仍然是基于扬声器和麦克风信号的原始功率谱。

根据

Γ_{d} (k, m) = \frac{{(E {{| X (k - d, m) |}^{2} {| Z (k, m) |}^{2}})}^{2}}{E {{| X (k - d, m) |}^{2} {| X (k - d, m) |}^{2}} E {{| Z (k, m) |}^{2} {| Z (k, m) |}^{2}}}, - - - (13)

可使用与扬声器和麦克风功率谱有关的平方相干函数来估计延迟值d。

通常，然后可对每个频率接收器m不同地选择延迟d。这里，然而，我们认为所有频率一个单一延迟。因此，我们计算回波预测增益ω_d(k)作为随频率变化的Γ_d(k，m)的平均值：

ω_{d} (k) = \frac{1}{M} Σ_{m = 0}^{M - 1} Γ_{d} (k, m), - - - (14)

其中，M表示频率接收器数目。然后，d被选择使得回波预测增益最大化，即

d＝arg max_d(ω_d(k)} (15)

作为方程式(15)的替代，还可相对于波动频谱(即，基于方程式(10)、(11))执行延迟值d的估计。

请注意，实际上，用在以上推导中的数学期望E{…}可必须由相对应短时或者浮动平均值替代。为了给出实例，我们认为

Φ_AB(k，m)＝E{A(k，)B(k，m)}. (16)

例如，根据

{\hat{Φ}}_{AB} (k, m) = (1 - α_{avg}) {\hat{Φ}}_{AB} (k - 1, m) + α_{avg} A (k, m) B (k, m) . - - - (17)

可通过递归平滑获得对应于Φ_AB(k，m)的短时平均值

因子α_avg确定随时间变化的平滑度并且可调整为任何给定必要条件。

下文中我们讨论，前节中所述的单通道AES也可同样适用于多通道AES。

使X₁(k，m)表示第1个扬声器信号的STFT域表示。然后通过组合单独扬声器信号的功率谱来计算所有扬声器通道的联合功率谱：

{| X (k, m) |}^{2} = Σ_{l = 0}^{L - 1} {| X_{1} (k, m) |}^{2}, - - - (18)

其中，L表示扬声器通道数目。

可选地，可通过将各个扬声器信号相加并且然后采用联合频谱的平方幅值，来获得扬声器信号的联合功率谱：

{| X (k, m) |}^{2} = {| Σ_{l = 0}^{L - 1} X_{1} (k, m) |}^{2} . - - - (19)

类似地，根据

{| Z (k, m) |}^{2} = Σ_{p = 0}^{P - 1} {| Z_{p} (k, m) |}^{2}, - - - (20)

计算麦克风通道的联合功率谱，其中，Z_p(k，m)表示第p个麦克风的信号，以及p表示麦克风数目。

如在扬声器信号的情况下，可选地根据

{| Z (k, m) |}^{2} = {| Σ_{p = 0}^{P - 1} Z_{p} (k, m) |}^{2} . - - - (21)

计算联合麦克风功率谱。

当假设扬声器信号和近端信号统计独立时，与方程式(2)类似地给出回波的功率谱的期望模型：

|Z(k，m)|²≈|G(k，m)|²|X_d(k，m)|²+|W(k，m)|². (22)

其中，在多通道情况下，功率谱|X(k，m)|²和|Z(k，m)|²分别由方程式(18)和(20)给出。

为了分别确定回波估计滤波|G(k，m)|²和延迟值d，我们还可应用上文所讨论的不同方法，但是使用这里所定义的联合扬声器和麦克风功率谱。

然后分别对每个麦克风信号执行实际回波抑制，但是通过对各个麦克风通道使用相同回波去除滤波：

E_p(k，m)＝H(k，m)Y_p(k，m) (23)

其中，p＝0、1、…、P-1。

在该节中，我们将回顾参数空间音频表示和参数空间音频编码的一些重要实例。因此，我们考虑定向音频编码(DirAC)[12]、MPEG环绕(MPS)[1]和MPEG空间音频对象编码(SAOC)[5]的方法。在研究不同编码方法的具体细节之前，我们考虑对于这里所讨论的所有方法而言都通用的基本编码器/解码器结构。

图2中示出参数空间音频编码器的总体结构。图2示出多通道或者参数空间音频编码器400。该编码器采用多个音频信号作为输入并且输出一个或者多个通道的缩混信号以及对应的参数侧信息。为了更具体点，该多通道编码器400具有多个输入信号410-1至410-N，其原则上可为任何音频信号。基于输入信号410，该编码器400提供一起表示多个输入信号410的缩混信号310和参数侧信息320。在多通道编码器400的许多情况和实施下，该表示通常不是无损失的。

编码器采用多个音频通道作为输入。根据实际编码方法，这些音频输入通道可表示对应于该空间音频对象[5]的输入信号、麦克风信号[12]、扬声器信号[10]。编码器的输出为缩混信号310和相对应参数侧信息320。该缩混信号包括一个或者多个音频通道。该侧信息包括表示观察的声场、不同输入通道之间的关系或者不同音频对象之间的关系的参数元数据。该编码器的输出(即，缩混信号和侧信息的组合)在下文中被称为空间音频流或者空间音频表示。

图3中示出对应的参数空间音频解码器的总体结构。图3示出(多通道)解码器250，其采用缩混信号310和对应的参数侧信息320作为输入。该多通道解码器250输出多个输出信号420-1至420-N，例如，其可为对应于期望的回放配置的扬声器信号(例如，如图1所示的扬声器信号330)。如可看出，该解码器采用空间音频流作为输入。基于缩混信号以及包括在侧信息中的元数据，该解码器计算对应于所需回放配置的扬声器信号。例如，[1]中描述典型扬声器方案。

参数空间音频编码方案的一个实例为定向音频编码，其也被称为DirAC。DirAC通过使用声音的波达方向(DOA)和在频率子频带中的漫射，来使用声场的参数表示。因此，仅仅考虑与人类听觉有关的特征。DirAC方法是基于在正确再生声场的波达方向的情况下正确感知耳间时间差(ITD)和耳间声级差(ILD)的假设。相应地，在正确再生声场的漫射的情况下，假设正确感知耳间相干性(IC)。以这种方式，再生侧仅仅需要方向和漫射参数以及单声道麦克风信号，以在具有任意扬声器设定的给定聆听位置处产生与空间音频的人类感知有关的特征。

在DirAC中，基于B格式麦克风信号，通过声场[12]的能量分析来估计所需参数(即，声音的

以及各个频带中的漫射ψ(k，m))。B格式麦克风信号通常包括全方位定向信号W(k，m)以及对应于笛卡儿坐标系的x方向、y方向的两个偶极信号(U_x(k，m)，U_y(k，m))。例如，可使用声场麦克风[2]直接测量B格式信号。或者，全方位定向麦克风阵列可被用于产生所需B格式信号[11]。

在再生侧(解码器)上，基于单声道缩混信号连同方向和漫射参数一起计算不同扬声器信号。该扬声器信号由分别对应于直接声音和漫射声音的信号成分组成。例如，第p个扬声器通道的信号可根据

X_{p} (k, m) = g_{p} (k, m) \sqrt{1 - Ψ (k, m)} W (k, m) + \sqrt{Ψ (k, m)} D_{p} {W (k, m)}, - - - (24)

计算，其中，ψ(k，m)表示在频率子频带m和阻断时间指数k处的漫射。平移增益g_p(k，m)取决于声音

的DOA以及相对于所需聆听位置的扬声器p的位置。运算符D_p{…}对应于去相关法。当计算第p个扬声器信号时，去相关法被应用于缩混信号W(k，m)。

从以上讨论，遵循麦克风信号(B格式或者全方位定向麦克风阵列)表示DirAC编码器400的输入。该编码器的输出由缩混信号W(k，m)以及作为侧信息的方向

和漫射(ψ(k，m))参数给定。

相应地，解码器250采用缩混信号W(k，m)以及参数侧信息

和ψ(k，m)作为输入，以根据(24)计算所需扬声器信号。

MPEG环绕(MPS)表示高质量空间音频编码[10]的高效方法。MPS的完整规格可在[1]中找到。下文中，我们将不研究MPS的细节，而是回顾与根据本发明的实施方式背景有关的部分。

MPS利用从感知点的角度，多通道音频信号相对于不同扬声器通道通常包括显著冗余的事实。MPS编码器采用多个扬声器信号作为输入，其中，必须预先知道扬声器的相对应空间配置。基于这些输入信号，该MPS编码器400计算频率子频带中的空间参数，诸如两通道之间的通道级差(CLD)、两通道之间的通道间相关性(ICC)以及用于从两个其他通道预测第三通道的通道预测系数(CPC)。然后由这些空间参数推导出实际MPS侧信息320。此外，该编码器400计算缩混信号，该缩混信号可包括一个或者一个以上音频通道。

在单声道情况下，缩混信号B(k，m)显然仅包括一个通道B(k，m)，而在立体声情况下，缩混信号可写为

B(k，m)＝[B₁(k，m)，B₂(k，m)]， (25)

其中，例如，B₁(k，m)对应于通用立体声扬声器配置的左扬声器通道，以及B₂(k，m)表示右扬声器通道。

MPS解码器250采用该缩混信号和该参数侧信息作为输入，并且计算所需扬声器配置的扬声器信号330、420。图4中示出对于立体声情况而言用于MPEG环绕解码器中的信号处理链的总体结构。

图4示出MPEG环绕解码器250的示意性表示。缩混信号310和参数侧信息被提供给解码器250。该缩混信号310包括对应于通用立体声配置的左和右扬声器通道的缩混信号通道B₁(k，m)和B₂(k，m)。

在预混合矩阵450(M₁)中，缩混信号310的两个通道被变换为中间信号向量V(k，m)。中间信号向量V(k，m)的组成元素的若干部分然后被提供给将所述中间信号向量的各自组成元素去相关性的多个去相关器460-1至460-P。由去相关器460提供的信号连同未去相关性的信号或者该中间信号向量V(k，m)的信号组成元素一起形成第二中间信号向量R(k，m)，该第二中间信号向量R(k，m)依次被提供给后混合矩阵470(M₂)。该后混合矩阵470在其输出处提供多个扬声器信号330-1至330-P，该扬声器信号就图3所示的解码器而已表示输出信号420。

解码器250还包括参数处理器480，参数侧信息320被提供给该参数处理器480。该参数处理器480被耦合至预混合矩阵450以及后混合矩阵470。该参数处理器480适于接收参数侧信息320并且产生待由预混合矩阵450和后混合矩阵470处理的相对应矩阵元素。为了简化，该参数处理器480被耦合至预混合矩阵450和后混合矩阵470。

如图4所示，根据

V(k，m)＝M₁(k，m)B(k，m)， (26)

X(k，m)＝M₂(k，m)R(k，m). (27)

可以矩阵符号写成解码程序。

遵循[1]，M₁(k，m)表示预混合矩阵450，以及M₂(k，m)表示后混合矩阵470。请注意，M₁(k，m)和M₂(k，m)的元素取决于空间侧信息和用于回放的扬声器配置，该空间侧信息和扬声器配置可由参数处理器480提供。

如从图4可看出，给出中间信号向量V(k，m)和R(k，m)之间的关系如下：信号向量元素V_p(k，m)的一部分保持不改变(R_p(k，m)＝V_p(k，m))，而R(k，m)的其他组成元素为V(k，m)的相对应元素的去相关形式，即R₁(k，m)＝D₁{(k，m)}，其中，D₁{(k，m)}描述去相关法运算符。信号向量X(k，m)的元素对应于用于回放的多通道扬声器信号X_p(k，m)。

应注意，MPS假设扬声器通道作为输入，而在远程会议系统中，输入由记录麦克风信号组成。在MPS可用于确定记录声音的所需高效空间音频表示之前，可需要将麦克风输入信号转换为相对应扬声器通道。一种可行方法是简单地使用多个定向麦克风，该定向麦克风被排列为使得可通过麦克风输入信号的组合直接计算扬声器通道。或者，可应用基于DirAC的扬声器通道计算，包括如前节中所述的DirAC编码器和DirAC解码器的直接连接。

空间音频对象编码(SAOC)是基于由多个单一对象和相对应场景描述一起表示复杂音频场景的概念。为了实施达到所述目的高效方法，SAOC应用与MPS[5]密切相关的技术。如之前一样，我们将只考虑与本发明背景有关的SAOC概念的部分。例如，更多细节可在[5]中找到。

图2中示出SAOC编码器的总体结构，其中，输入信号410对应于音频对象。该SAOC编码器400根据这些输入信号410计算缩混信号310(单声道或者立体声)连同表示在给定音频场景中的不同音频对象的关系的相对应参数侧信息320。类似于MPS，为各个阻断时间指数和各个频率子频带计算该参数。这些参数包括对象级差(OLD)、对象间互相干(IOC)、对象能量(NRG)以及其他与缩混信号有关的测量和参数[5]。

SAOC解码器250采用缩混信号310连同相对应侧信息320一起作为输入，并且输出用于所需扬声器配置的扬声器通道信号。该SAOC解码器还使用MPS渲染引擎来确定最后扬声器信号。请注意，除了由SAOC解码器400产生的侧信息，该SAOC解码器250还采用用于渲染的扬声器配置的信息或者与控制具体音频对象有关的其他互动信息，作为输入以计算最后输出信号。这在图5中示出。

图5示出SAOC解码器250的总体结构。缩混信号310连同参数侧信息320一起被提供给该SAOC解码器250。此外，该SAOC解码器250还具有渲染或者互动信息490。如上所述，该SAOC解码器250采用缩混信号310、参数侧信息320连同渲染/互动参数490一起来产生多个扬声器信号330-1至330-N。这些信号由SAOC解码器250输出。

现在让我们考虑分别用于单声道缩混信号和立体声缩混信号情况的SAOC解码器。遵循[5]，图6(a)中示出用于单声道缩混的SAOC解码器的结构，以及图6(b)中示出用于立体声情况的SAOC解码器的结构。

图6a示出关于基于单声道缩混的转码器的更具体细节，该基于单声道缩混的转码器可用作根据[5]的SAOC至MPS转码器。图6a所示的系统包括MPEG环绕解码器250，缩混信号310以及作为参数侧信息320的MPEG环绕比特流被提供给该MPEG环绕解码器250。该MPEG环绕解码器250在图6a所述的情况下至少输出五个扬声器信号330-1至330-5。视情况，该MPEG环绕解码器250还可输出更多扬声器信号，诸如超低音扬声器信号。然而，为了简化，图6a中未示出相对应超低音扬声器，而在图6a中示出用于扬声器330各者的相对应扬声器100-1至100-5。

虽然缩混比特流310被直接提供给MPEG环绕解码器250，参数侧信息320由SAOC至MPS转码器500提供，但是该转码器500包括SAOC解析单元510，SAOC比特流作为输入信号520被提供给该SAOC解析单元510。该SAOC解析单元510提供关于对象530的数目的信息作为其输出信号的一者。

SAOC解析单元510此外被耦合至场景渲染引擎540，该场景渲染引擎540基于由渲染矩阵产生器560产生的渲染矩阵550和用于MPEG环绕解码器250的相对应侧信息320来处理从SAOC解析单元510接收的数据。因此，场景渲染引擎540以及其输出还表示转码器500的输出，在该输出处侧信息320被提供给MPEG环绕解码器250。

以渲染矩阵产生器560提供渲染矩阵550为基础，渲染矩阵产生器560具有关于回放配置570的信息以及关于对象位置580的信息。

单声道缩混解码包括：基于给定对象位置580和用于回放的扬声器配置570，将SOAC侧信息转码为MPS侧信息520。如此确定的MPS侧信息320连同SAOC单声道缩混信号310一起被馈送至MPS解码器250中。因为缩混信号310保持不改变，所以还可根据方程式(26)、(27)表示扬声器信号的计算，其中，从SAOC至MPS解码器确定预混合矩阵M₁(k，m)和后混合矩阵M₂(k，m)。

图6b示出相比于图6a所示的相对应转码器500类似的SAOC至MPS转码器500。因此，参考上文描述。然而，该系统以及该转码器500主要在缩混信号310方面不同，该缩混信号310在图6b所述的情况下为立体声缩混信号。因此，由于缩混信号310包括两个通道的事实，MPEG环绕解码器250不同于图6a的相对应MPEG环绕解码器，使得该解码器250基于侧信息320和立体声缩混信号310适于产生扬声器信号330。

图6b所示的系统在更多细节方面不同于图6a所示的系统。转码器500还包括缩混转码器590，其从场景渲染引擎540接收原始缩混信号310’以及控制信息600。该缩混转码器590因此基于控制信息600和原始或者进入缩混信号310’适于产生缩混信号310。

在立体声情况下，SAOC缩混信号310’可能不表示MPS解码器的合适输入。该情况的一个实例为，如果一个对象的信号成分仅仅包括在SAOC立体声缩混310’的左通道中，同时它在MPS混合过程[5]期间应被渲染为大脑右半球。然后，如图6(b)所示，SAOC缩混信号310’在可用作MPS解码器250的输入之前必须由所谓缩混转码器590处理。该处理阶段的具体性质取决于实际SAOC侧信息520和回放配置570。显然，转码后的缩混信号310和用于回放的扬声器通道330的关系然后也可由方程式(26)、(27)表示。

应注意，SAOC假设对应于音频对象集合的信号作为输入，而在远程会议系统中，输入通常包括记录的麦克风信号。在SAOC可用于确定记录声音的所需高效空间音频表示之前，麦克风输入信号转换为相对应空间音频对象表示可能是有用的。由诸如[3]的盲源分离技术给出从麦克风阵列输入确定不同音频对象的可行方法。基于麦克风输入信号，盲源分离方法利用不同音频对象的统计学独立来估计相对应音频信号。在预先知道麦克风阵列的配置的情况下，也可确定与音频对象有关的额外空间信息[4]。

仅仅为了简化，应注意，在整个描述中，信息以及携带各自信息的信号已经被用相同参考标号标识。此外，信号和传输信号的数据线也已经被用相同参考标号标识。取决于本发明的实施方式的具体实施，可介于不同单元或者对象之间通过直接经由信号线或者凭借记忆体、存储位置或者耦合在各自单元或者对象之间的另一介质(例如，锁存器)传送的信号来交换信息。例如，在基于处理器的实施情况下，例如，信息可存储在与各自处理器相关联的记忆体中。因此，若干条信息和信号可同义地被称为信息。

基于前节中提出的声回波抑制和参数空间音频编码的讨论，我们现在提出一种根据本发明的实施方式将声回波抑制(AES)高效整合到如用在空间音频远程通信中的空间音频编码器/解码器结构中的方法。

图7中示出所提出方法的总体结构。图7示出根据本发明的实施方式的会议前端200，其中，声回波抑制是基于参数空间音频编码器的缩混信号。

如图7所示的会议前端200包括根据本发明的实施方式具有输入接口230的声回波抑制单元210，该输入接口230被耦合至回波去除或者回波抑制单元700，使得包括在提供给输入接口230的输入信号300中的缩混信号310被提供给该回波去除或者回波抑制单元700。在图7所示的实施方其中，也由输入接口230从输入信号300分离的参数侧信息320不被提供给该回波抑制单元700。

缩混信号310以及参数侧信息320都被提供给多通道解码器250，该多通道解码器250以输出方式耦合至多个扬声器100-1至100-N。解码器220将相对应扬声器信号330-1至330-N提供给扬声器100的各者。

会议前端200还包括多个麦克风110-1至110-K，该多个麦克风将声输入信号提供给会议前端200。相比之下，扬声器100提供等效声输出。该麦克风110被耦合至处理单元710以及进一步耦合至编码器400，该编码器400适于产生进一步缩混信号720和对应于从麦克风110接收的预处理麦克风信号的进一步参数侧信息730。回波抑制单元700被耦合至编码器400，使得该回波抑制单元700能够接收进一步缩混信号720和进一步侧信息730。在输出处，该回波抑制单元700提供修改缩混信号740连同通过回波抑制单元700而未改变的进一步参数侧信息730。

将相对于图8更详细概述回波抑制单元700，以及其包括计算器220和如图1所示的适于滤波器240。

这里，考虑空间音频通信应用，其中我们假设，在远端处和在近端处的空间音频场景由介于不同用户之间传送的空间音频流表示。因为免提操作在具有多个扬声器的环绕回放情况下往往必不可少，所以AES单元210可用于在近端解码器的输出中去除恼人回波。相比于上述基于扬声器信号执行AES的先前方法，我们提出仅仅基于从远端接收的空间音频流300的缩混信号310执行AES。因为缩混通道的数目一般比用于回放的扬声器信号的数目少得多，所以所提出的方法在复杂性方面明显更高效。AES可应用于近端处的麦克风信号，或者甚至更高效地应用于近端编码器输出的缩混信号，如图7所示。

在图8背景下更详细描述回波抑制单元700之前，下文中将更详细描述根据本发明的实施方式的程序或者方法。

首先，基于所接收的空间音频流的缩混信号310计算回放信号P(k，m)的参考功率谱(RPS)。在N通道缩混信号B(k，m)＝[B₁(k，m)，B_i(k，m)，…，B_N(k，m)]的一般情况下，这可根据线性组合执行：

{| P (k, m) |}^{2} = Σ_{i = 0}^{N - 1} a_{i} (k, m) {| B_{i} (k, m) |}^{2} . - - - (28)

或者，可相对于缩混通道的复频谱计算线性组合：

{| P (k, m) |}^{2} = {| Σ_{i = 0}^{N - 1} a_{i} (k, m) B_{i} (k, m) |}^{2} . - - - (29)

加权因子a_i(k，m)可用于控制不同缩混通道对RPS的贡献。

例如，通道的不同加权在SAOC背景下可能是有益的。当在缩混转码器应用于SAOC缩混信号之前确定AES的输入时(见图6(b))，缩混转码器的时变行为可能不必由回波估计滤波模仿，但是已经通过计算参考功率谱而被获取。

对于单声道缩混信号的特殊情况，简单选择等于缩混信号的功率谱的RPS是合理的，即|P(k，m)|²＝|B(k，m)|²。

换句话说，加权系数a_i(k，m)被选择为用于包括在缩混信号310中的单个缩混通道的一个加权系数。

类似于方程式(28)、(29)，我们基于近端编码器的第k个通道缩混信号A(k，m)＝[A₁(k，m)，A_i(k，m)，…，A_K(k，m)]计算记录信号的RPS Q(k，m)：

{| Q (k, m) |}^{2} = Σ_{i = 0}^{K - 1} c_{i} (k, m) {| A_{i} (k, m) |}^{2} . - - - (30)

或者，可相对于缩混通道的复频谱计算线性组合：

{| Q (k, m) |}^{2} = {| Σ_{i = 0}^{K - 1} c_{i} (k, m) A_{i} (k, m) |}^{2} . - - - (31)

加权因子c_i(k，m)可用于控制不同缩混通道对RPS的贡献。如之前一样，在单声道缩混信号(c_i(k，m)＝1)的情况下，我们可简单地使用|Q(k，m)|²＝|A(k，m)|²。

缩混信号A(k，m)以及从而RPS|Q(k，m)|²含有由于扬声器信号的反馈而产生的通常不需要的回波成分。根据

{| \hat{Y} (k, m) |}^{2} = {| \hat{G} (k, m) |}^{2} {| P (k - d, m) |}^{2} . - - - (32)

基于RPS|P(k，m)|²的延迟形式以及回波功率传递函数的估计，计算回波成分|Q(k，m)|²的估计

类似于以上描述，在下文中被称为回波估计滤波(EEF)。例如，类似于(5)，该估计然后被用于确定回波抑制滤波(ESF)：

H (k, m) = {(\frac{{| Q (k, m) |}^{α} - β {| \hat{Y} ((k, m)) |}^{α}}{{| Q ((k, m)) |}^{α}})}^{\frac{1}{γ}}, - - - (33)

其中，α、β和γ表示用于控制回波抑制性能的设计参数。上文已经给出α、β和γ的典型值。

通过将近端编码器的原始缩混信号的通道与ESF相乘，最后获得不需要的回波成分的去除：

E_A，i(k，m)＝H(k，m)A_i(k，m). (34)

根据

{| \hat{G} (k, m) |}^{2} = \frac{E {{| P (k - d, m) |}^{2} {| Q (k, m) |}^{2}}}{E {{| P (k - d, m) |}^{2} {| P (k - d, m) |}^{2}}} . - - - (35)

EEF的估计可为基于与RPS有关的相关性。

或者，类似于(12)，可使用RPS的时间波动来估计EEF滤波：

{| \hat{G} (k, m) |}^{2} = \frac{E {\tilde{P} (k - d, m) \tilde{Q} (k, m)}}{E {\tilde{P} (k - d, m) \tilde{P} (k - d, m)}}, - - - (36)

其中，根据

\tilde{Q} (k, m) = {| Q (k, m) |}^{2} - E {{| Q (k, m) |}^{2}} - - - (37)

\tilde{P} (k - d, m) = {| P (k - d, m) |}^{2} - E {{| P (k - d, m) |}^{2}} . - - - (38)

计算RPS的时间波动。

当分别由相对应RPS P(k，m)和Q(k，m)取代扬声器和麦克风信号X(k，m)和Z(k，m)时，可类似于(13)执行延迟参数d的估计。

应提到，通常在缩混信号A(k，m)和B(k，m)之间没有有意义的相位关系。这是因为，它们的相位不仅通过房间的频率响应，而且通过从缩混信号和空间侧信息确定扬声器信号的高时变程序而变为相关。因此，当基于缩混信号执行回波去除时，使用相位信息来估计EEF(或者延迟)的方法不合适，诸如(8)。

值得一提的是，同样道理适用于应相对于缩混信号应用使用线性自适应滤波技术的回波对消的情况。该自适应滤波器将必须模仿和跟踪由于将缩混信号映射为扬声器通道而引起的高时变改变。

图8示出根据本发明的实施方式的会议前端200的框图，该会议前端与图1所示的会议前端极其相似。因此，参考图1的描述。

会议前端200还包括根据本发明的实施方式的声回波抑制单元210，该声回波抑制单元210又包括计算器220，用于执行基本上与图1所述相同的功能。然而，下文中将给出更详细描述。

该会议前端200还包括输入接口230和自适应滤波器240。该会议前端200还包括多通道解码器250，其耦合至多个扬声器100-1至100-N。该会议前端200还包括相对应编码器或者多通道编码器400，其又被耦合至多个麦克风110-1至110-K。

为了更具体点，输入信号300被提供给来自在前端200之下的通信系统的远端的输入接口230。在图8所示的实施方其中，输入接口230从输入信号分离缩混信号310和参数侧信息320，并且将它们作为输入信号提供给多通道解码器250。在多通道解码器250中，两个信号(缩混信号310和参数侧信息320)被解码为多个相对应扬声器信号330，该扬声器信号330然后被提供给各自扬声器100。为了简化，只有第一扬声器信号330-1被照此标记。

在图8所示的实施方其中，解码器250包括上混器705和参数处理器480。该上混器705被耦合至输入接口230并且适于接收缩混信号310。类似地，该参数处理器480也被耦合至输入接口230，但是适于接收参数侧信息320。上混器705和参数处理器480被互连为使得由参数侧信息320推导出的上混控制信息707可被传送给上混器705。该上混器705还被耦合至扬声器100。

关于其功能，上混器705基于由参数侧信息320推导出的上混控制信息707适于从缩混信号310产生扬声器信号330。对于N个(N为整数)扬声器100-1至100-N的各者，上混器705提供单独扬声器信号330。

如之前讨论，在解码器250和声回波抑制单元710不共享输入接口230的情况下，解码器250视情况可包括提取侧信息320和缩混310并且将它们分别提供给参数处理器480和上混器705的接口。

如在图1背景下已经所述，输入接口230的输出被耦合至计算器220以将缩混信号310提供给该计算器220。换句话说，该计算器220适于接收缩混信号310。

在更详细描述计算器220的内部结构之前，应注意，麦克风110分别将K个(K为整数)麦克风信号340提供给多通道编码器400，图8中只有第一麦克风信号340-1被照此标记。

基于所接收的麦克风信号340，多通道编码器400基于该所接收的麦克风信号产生进一步缩混信号720和进一步参数侧信息730。虽然该进一步参数侧信息730被提供给会议系统200的输出，但是该进一步缩混信号720被提供给计算器220和自适应滤波器240。该计算器220在对进一步缩混信号720滤波的基础上还将滤波系数信号350提供给自适应滤波器240，以在该自适应滤波器240的输出处获得修改缩混信号740。该修改缩混信号740表示进入进一步缩混信号720的回波抑制形式。因此，在进一步缩混信号720和进一步参数侧信息730的接收器侧上，可重新构建由麦克风110接收的麦克风信号的回波抑制形式。

关于计算器220的内部结构，来自输入接口330的缩混信号310被提供给第一参考功率谱产生器800，例如，该第一参考功率谱产生器800根据方程式(28)和(29)适于产生先前所述的参考功率谱。该第一参考功率谱产生器800的输出被耦合至可选延迟器810，该延迟器810适于将进入信号延迟一延迟值d。延迟器810的输出然后被耦合至回波估计器820，例如，该回波估计器820可根据方程式(38)适于计算回波估计。回波估计器820的输出然后被耦合至回波抑制滤波产生器830的输入，该回波抑制滤波产生器830根据方程式(33)产生或者估计回波抑制滤波。回波抑制滤波产生器830的输出为包括滤波系数的滤波系数信号350，其被提供给自适应滤波器240。

如果所述电路包括第二参考功率谱产生器840或者被提供给该第二参考功率谱产生器840，那么如由编码器400产生的进一步缩混信号720被提供给回波抑制滤波产生器830。为了达到此目的，若需要，声回波抑制单元210视情况可包括另一或者又一输入接口以提取进一步缩混信号720。

第二参考功率谱产生器840的输出然后被耦合至回波估计滤波系数产生器，该回波估计滤波系数产生器又被耦合至回波估计器820以根据方程式(35)或者(36)将回波估计滤波系数提供给回波估计器820。在回波估计滤波系数产生器850基于方程式(36)操作的情况下，可选第一和第二时间波动补偿器860、870分别被耦合在回波估计滤波系数产生器850和延迟器810的输出以及第二参考功率谱产生器840之间。该两个时间波动补偿器860、870然后可分别基于方程式(37)和(38)适于计算修改参考功率谱。然后，该回波估计滤波系数产生器850可基于方程式(36)使用修改参考功率谱操作。

应注意，虽然延迟器810不是必需的，但是通常是有用组件。基于根据方程式(13)、(14)和(15)的计算可达到延迟值d的确定。为了更准确点，根据本发明的实施方式可因此包括相干性计算器880，其以输入方式耦合至第一参考功率谱产生器800的输出。此外，相干性计算器880还被耦合至第二参考功率谱产生器840的输出以提供各自参考功率谱给该相干性计算器880。

例如，基于方程式(13)，但是利用如由两个参考功率谱产生器800、840提供的两个参考功率谱，相干性计算器880可根据方程式(13)产生相干性函数的值给回波预测增益计算器890，该回波预测增益计算器890根据或者基于方程式(14)计算回波预测增益ω_d(k)。该回波预测增益计算器的输出然后被耦合至优化器900的输入，该优化器900可根据方程式(15)适于优化延迟值d。为了将延迟值d提供给延迟器810，优化器900被耦合至延迟器810，并且该延迟器810适于接收延迟值d。当然，该延迟器在该情况下还适于将进入信号(这里，第一参考功率谱)延迟延迟值d。

为了完整起见，图8中还示出回波抑制单元700，其包括计算器220以及如在图7背景下已经概述的自适应滤波器240。

在本节的其余部分中，我们将提出以上基于缩混信号的回波抑制方法的实际变形。

根据

{| \hat{Y} (k, m) |}^{2} = {| \hat{G} (k, m) P (k - d, m) |}^{2}, - - - (39)

我们可获得方程式(32)的变形，

其中，相对于缩混通道的复频谱，即，根据

P (k, m) = Σ_{i = 0}^{N - 1} a_{i} (k, m) B_{i} (k, m) . - - - (40)

计算回放信号P(k，m)的复参考频谱。

方程式(40)是方程式(29)通过放弃幅值计算的结果。

如由(34)提出，通过不对缩混通道而是相反相对于麦克风输入信号执行回波抑制，可获得AES方法的另一变形例。换句话说，在原始记录的麦克风信号被用作近端编码器的输入之前或者任何预处理阶段之前，分别对该麦克风信号执行回波抑制。

根据本发明的许多实施方式因此共享以下特征：

1.接收由缩混信号和侧信息一起组成的第一参数空间音频表示，其被用于产生多通道扬声器信号。

2.接收已经从记录的麦克风信号确定的由缩混信号和侧信息一起组成的第二参数空间音频表示。

3.计算第一和第二缩混信号的参考功率谱。

4.计算回波估计滤波，以估计在第二缩混信号的参考功率谱中的回波成分。

5.从第一缩混信号的参考功率谱、第二缩混信号的参考功率谱以及回波估计滤波计算回波去除滤波，以去除在第二空间音频表示的缩混信号中的回波成分。

取决于创新性方法的实施方式的某些实施要求，可以硬件或者以软件实施所述创新性方法的实施方式。可使用数字存储介质(特别是，光盘、安装有电子可读控制信号的CD或者DVD，该控制信号与可编程电脑或者处理器协作使得执行创新性方法的实施方式)执行实施。一般而言，因此，本发明的实施方式为计算机程序产品，其中程式码存储在机器可读载体上，当该计算机程序产品运行在电脑的处理器上时，该程式码可操作执行创新性方法的实施方式。换句话说，因此，创新性方法的实施方式为具有程式码的计算机程序，该程式码用于当计算机程序运行于电脑处理器上时至少执行该创新性方法的实施方式的一者。处理器可由电脑、芯片卡、智能卡、特定应用集成电路(ASIC)或者另一集成电路形成。

此外，可基于离散电气或者电子元件、集成电路或者它们的组合实施根据本发明的实施方式。

根据本发明的实施方式因此使参数空间音频再生的声回波控制成为可能。如已示出先前讨论，实施方式可表示用在空间音频通信系统中的多通道扬声器系统的声回波抑制的高效方法。该方法适用于空间音频信号由缩混信号和相对应参数侧信息或者元数据表示的情况。实施方式利用可基于所接收缩混信号直接执行回波抑制而不是在扬声器信号被输入至声回波抑制之前明确计算该扬声器信号的事实。类似地，回波成分还可为在待传送给远端的空间音频信号的缩混信号中的抑制。

元件参考标号表

Claims

1.一种声回波抑制单元（210），包括：

输入接口（230），用于从包括缩混信号（310）和参数侧信息（320）的输入信号（300）提取所述缩混信号（310），其中，所述缩混信号（310）和所述参数侧信息（320）一起表示至少具有进一步通道或比所述缩混信号中的通道的数目更高的通道数目的多通道信号；

计算器（220），用于计算自适应滤波器（240）的滤波系数（350），其中，所述计算器（220）适于接收所述缩混信号（310），其中，所述计算器（220）还适于接收麦克风信号（340）或者由所述麦克风信号推导出的信号（720），其中，所述计算器（220）适于基于所接收的信号确定所述滤波系数（350）；

自适应滤波器（240），适于从所述计算器（220）接收所述滤波系数（350），并且适于基于所述滤波系数（350）对所述麦克风信号（340）或者由所述麦克风信号推导出的信号（720）进行滤波，以抑制所述麦克风信号（340）中由所述多通道信号引起的回波，

其中，所述计算器（220）适于通过基于所述缩混信号（310）确定第一参考功率谱，通过基于所述麦克风信号（340）或者由所述麦克风信号推导出的信号（720）确定第二参考功率谱，通过基于所述第一参考功率谱和所述第二参考功率谱确定回波估计滤波系数，通过基于所述第一参考功率谱和所述回波估计滤波系数确定回波估计，以及通过基于所述回波估计滤波系数和所述第二参考功率谱确定所述滤波系数（350）来确定所述滤波系数（350）。

2.根据权利要求1所述的声回波抑制单元（210），其中，所述计算器（220）适于基于

{| P (k, m) |}^{2} = Σ_{i = 0}^{N - 1} a_{i} (k, m) {| B_{i} (k, m) |}^{2}

或者

{| P (k, m) |}^{2} = {| Σ_{i = 0}^{N - 1} a_{i} (k, m) B_{i} (k, m) |}^{2}

计算所述第一参考功率谱，其中，|P(k,m)²为所述第一参考功率谱，a_i(k,m)为加权因子，B_i(k,m)为所述缩混信号（310）的第i个通道，其中，N为所述缩混信号（310）中的通道数目，N大于或者等于1，其中，k为阻断时间指数，以及m表示频率指数。

3.根据权利要求1所述的声回波抑制单元（210），其中，所述计算器（220）适于基于

{| Q (k, m) |}^{2} = Σ_{i = 0}^{K - 1} c_{i} (k, m) {| A_{i} (k, m) |}^{2}

或者

{| Q (k, m) |}^{2} = {| Σ_{i = 0}^{K - 1} c_{i} (k, m) A_{i} (k, m) |}^{2}

计算所述第二参考功率谱，其中，|Q(k,m)²为所述第二参考功率谱，c_i(k,m)为加权因子，A_i(k,m)为所述缩混信号（720）的第i个通道，其中，K为所述缩混信号（720）中的通道数目，K大于或者等于1，其中，k为阻断时间指数，以及m表示频率指数。

4.根据权利要求1所述的声回波抑制单元（210），其中，所述计算器（220）进一步适于基于以通过将所述第一参考功率谱延迟一延迟值的延迟形式的所述第一参考功率谱来确定所述回波估计滤波系数和所述回波估计。

5.根据权利要求4所述的声回波抑制单元（210），其中，所述计算器（220）进一步适于通过确定多个不同可能延迟值的相关值，通过确定所述多个不同可能延迟值的值的回波预测增益值，以及通过确定所述多个不同可能延迟值的值作为具有所确定的回波预测增益值的最大值的延迟值来确定所述延迟值。

6.根据权利要求1所述的声回波抑制单元（210），其中，所述计算器（220）适于基于通过减去所述第一参考功率谱的平均值的所述第一参考功率谱确定第一修改功率谱，其中，所述计算器（220）适于基于通过减去所述第二参考功率谱的平均值的所述第二参考功率谱确定第二修改功率谱，以及其中，所述计算器（220）适于基于所述第一修改功率谱和第二修改功率谱确定所述回波估计滤波系数。

7.一种用于抑制声回波的方法，包括：

从包括缩混信号（310）和参数侧信息（320）的输入信号（300）提取缩混信号（310），其中，所述缩混信号（310）和所述参数侧信息（320）一起表示至少具有进一步通道或比所述缩混信号中的通道数目更高的通道数目的多通道信号；

基于所述缩混信号和麦克风信号或者由所述麦克风信号推导出的信号计算自适应滤波的滤波系数（350），其中，通过基于所述缩混信号（310）确定第一参考功率谱，通过基于所述麦克风信号（340）或者由所述麦克风信号推导出的信号（720）确定第二参考功率谱，通过基于所述第一参考功率谱和所述第二参考功率谱确定回波估计滤波系数，通过基于所述第一参考功率谱和所述回波估计滤波系数确定回波估计，以及通过基于所述回波估计滤波系数和所述第二参考功率谱确定所述滤波系数（350）；

基于所述滤波系数适于对所述麦克风信号（340）或者由所述麦克风信号推导出的信号（720）进行滤波，以抑制所述麦克风信号（340）中由所述多通道信号引起的回波。

8.根据权利要求7所述的方法，还包括：将所述缩混信号（310）和所述参数侧信息（320）解码为多个扬声器信号（330）。

9.一种会议前端（200），包括：

根据权利要求1至6中任一项所述的声回波抑制单元（210）；多通道解码器（250）；

至少一个麦克风单元（110），

其中，所述多通道解码器（250）适于将所述缩混信号（310）和所述参数侧信息（320）解码为多个扬声器信号（330）；

其中，所述至少一个麦克风单元（110）适于提供所述麦克风信号（340）。

10.根据权利要求9所述的会议前端（200），其中，所述输入接口（230）进一步适于提取所述参数侧信息（320），其中，所述多通道解码器（250）包括上混器（705）和参数处理器（480），其中，所述参数处理器（480）适于从所述输入接口（230）接收所述参数侧信息（320），并且适于提供上混控制信号（707），以及其中，所述上混器（705）适于从所述输入接口（230）接收所述缩混信号（310）以及从所述参数处理器接收所述上混控制信号，并且适于基于所述缩混信号（310）和所述上混控制信号（707）提供所述多个扬声器信号（330）。

11.根据权利要求9所述的会议前端（200），还包括多通道编码器（400），适于将多个音频输入信号（340；410）编码为一起表示所述多个音频输入信号的进一步缩混信号（720）和进一步参数侧信息（730），其中，所述至少一个麦克风单元（110）的麦克风信号（340）包含在所述多个音频输入信号中，其中，所述声回波抑制单元（210）适于接收所述进一步缩混信号（720）作为由所述麦克风信号推导出的信号。

12.根据权利要求9所述的会议前端（200），包括多个麦克风单元（110），其中，所述多个麦克风单元（110）适于提供所述多个音频输入信号（330；410）。

13.一种提供多个扬声器信号（330）和麦克风信号（340）的方法，包括：

根据权利要求7所述的抑制声回波的方法（210）；

多通道解码的步骤（250）；

接收麦克风信号的步骤（340），

其中，在多通道解码的步骤（250）中，对所述缩混信号（310）和所述参数侧信息（320）进行解码以获得多个扬声器信号（330）。