CN108353241A

CN108353241A - 渲染系统

Info

Publication number: CN108353241A
Application number: CN201680055983.6A
Authority: CN
Inventors: 克里斯蒂安·霍夫曼; 沃尔特·凯勒曼
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2015-09-25
Filing date: 2016-08-10
Publication date: 2018-07-31
Anticipated expiration: 2036-08-10
Also published as: JP2018533296A; US10659901B2; JP6546698B2; WO2017050482A1; CN108353241B; EP3354044A1; US20180206052A1

Abstract

一种渲染系统包括多个扬声器、至少一个麦克风和信号处理单元。信号处理单元被配置为使用渲染滤波器传递函数矩阵来确定描述多个扬声器和至少一个麦克风之间的声学路径的扬声器‑音箱‑麦克风传递函数矩阵估计的至少一些分量，利用该渲染滤波器传递函数矩阵，多个虚拟源被多个扬声器再现。

Description

渲染系统

技术领域

实施例涉及一种渲染系统及其操作方法。一些实施例涉及源特定的系统识别。

背景技术

诸如声学回声消除(AEC)或聆听室均衡(LRE)之类的应用需要声学多输入/多输出(MIMO)系统的识别。在实践中，多声道声学系统识别遭受通常在利用多于一个扬声器渲染虚拟声场景时发生的强互相关扬声器信号的影响：计算复杂度至少随着MIMO系统中的声学路径的数量而增加，对于N_L个扬声器和N_M个麦克风，声学路径的数量为N_L·N_M。当通过Cholesky分解对所涉及的互相关扬声器信号的线性方程系统进行健壮求解[GVL96]时，用于多声道滤波器自适应的健壮快速收敛算法(诸如通用频域自适应滤波[GFDAF][BBK05])甚至具有N_L ³的复杂度。甚至，如果扬声器的数量大于虚拟源的数量N_S(即，具有独立信号的空间分离源的数量)，则LEMS的从扬声器到麦克风的声学路径不能被唯一地确定。由于这种所谓的非唯一性问题[BMS98]在实践中是不可避免的，因此对于LEMS存在无限大的可能解集合，其中只有一个对应于真正的LEMS。

在过去的几十年中，已经提出了扬声器信号的非线性[MHBO1]或时变[HBK07，SHK13]预处理来解决非唯一性问题，虽然甚至稍微增加了计算负担。另一方面，WDAF的概念既减轻了计算复杂度又减轻了非唯一性问题[SK14]，并且对于均匀、同心、环形扬声器和麦克风阵列是最佳的。为此，WDAF采用空间变换，其将声场分解成声波方程的基本解并允许空间变换域中的近似模型和复杂的正则化[SK14]。被称为源-域自适应滤波(SDAF)[HBS10]的另一种方法对扬声器和麦克风信号执行数据驱动的时空变换，以便允许在结果得到的高度时变变换域中对声学回声路径进行有效建模。但是，识别出的系统并不代表LEMS，而是一种信号相关近似。另一种自适应方案被称为本征空间自适应滤波(EAF)，其实际上由WDAF[SBR06]近似。在上述方法中，其中N_L＝N_M＝N的N2-声道声学MIMO系统在将信号变换成系统的本征空间之后将确切地对应于N条路径。[HB13]的方法描述了用于估计LEMS所需的本征空间的迭代方法。这些方法都不采用来自基于对象的渲染系统的边信息。甚至WDAF也仅利用关于变换域LEMS的先前知识，同时假设特殊的换能器置放(均匀环形同心扬声器和麦克风阵列)。

发明内容

因此，本发明的目的是减少识别扬声器-音箱-麦克风系统的计算复杂度。

这个目的通过独立的权利要求来解决。

有利的实现由从属权利要求来解决。

本发明的实施例提供了一种渲染系统，其包括多个扬声器、至少一个麦克风和信号处理单元。信号处理单元被配置为使用渲染滤波器传递函数矩阵来确定描述多个扬声器和至少一个麦克风之间的声学路径的扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量，使用该渲染滤波器传递函数矩阵，多个虚拟源用多个扬声器进行再现。

另外的实施例提供了一种渲染系统，该渲染系统包括多个扬声器、至少一个麦克风和信号处理单元。信号处理单元被配置为估计描述用多个扬声器再现的多个虚拟源与至少一个麦克风之间的声学路径的源特定的传递函数矩阵(HS)的至少一些分量，以及使用该源特定的传递函数矩阵来确定描述多个扬声器与至少一个麦克风之间的声学路径的扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量。

根据本发明的概念，可以通过在确定扬声器-音箱-麦克风传递函数矩阵估计时使用渲染滤波器传递函数矩阵来减少识别可以由扬声器-音箱-麦克风传递函数矩阵来描述的扬声器-音箱-麦克风系统的计算复杂度。渲染滤波器传递函数矩阵可用于渲染系统并由其使用用于利用多个扬声器再现多个虚拟源。此外，代替直接估计扬声器-音箱-麦克风传递函数矩阵，描述多个虚拟源与至少一个麦克风之间的声学路径的源特定的传递函数矩阵的至少一些分量可以被估计并且与渲染滤波器传递函数矩阵结合使用用于确定扬声器-音箱-麦克风传递函数矩阵估计。

在实施例中，信号处理单元可以被配置为确定对渲染滤波器传递函数矩阵的列空间敏感的扬声器-音箱-麦克风传递函数矩阵估计的分量(或仅那些分量)。

从而，可以进一步降低用于确定扬声器-音箱-麦克风传递函数矩阵估计的计算复杂度。

在实施例中，信号处理单元可以被配置为基于以下方程确定扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量：

其中表示扬声器-音箱-麦克风传递函数矩阵估计，其中表示估计出的源特定的传递函数矩阵，其中H_D表示渲染滤波器传递函数矩阵，并且其中表示渲染滤波器的传递函数矩阵H_D的近似逆。

在实施例中，信号处理单元可以被配置为响应于虚拟源的数量或虚拟源中的至少一个的位置中的至少一个的改变而使用与改变的虚拟源对应的渲染滤波器传递函数矩阵来更新扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量。

例如，信号处理单元可以被配置为基于以下方程来更新扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量：

其中k-1表示先前时间间隔，其中k表示当前时间间隔，其中在先前时间间隔和当前时间间隔之间，虚拟源的数量和虚拟源中的至少一个的位置中的至少一个被改变，其中表示扬声器-音箱-麦克风传递函数矩阵估计，表示对渲染滤波器传递函数矩阵的列空间不敏感的扬声器-音箱-麦克风传递函数矩阵估计的分量，表示估计出的源特定的传递函数矩阵，并且其中表示逆渲染滤波器传递函数矩阵。

此外，信号处理单元可以被配置为基于以下方程来更新扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量：

其中k-1表示先前时间间隔，其中k表示当前时间间隔，其中在当前时间间隔和先前时间间隔之间，虚拟源的数量和虚拟源中的至少一个的位置中的至少一个被改变，其中表示扬声器-音箱-麦克风传递函数矩阵估计，其中表示扬声器-音箱-麦克风传递函数矩阵估计，表示估计出的源特定的传递函数矩阵，其中表示扬声器-音箱-麦克风传递函数矩阵估计，并且其中表示逆渲染滤波器传递函数矩阵。

由此，可以降低信号处理单元的平均负荷，这对于具有有限电力资源的计算上强大的设备(诸如多核智能电话或平板电脑)或者除了信号处理之外还必须执行其它较不时间关键任务的设备会是有利的。

此外，信号处理单元可以被配置为基于分布式评估方程来更新扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量：

通过下式作为下一间隔的估计出的源特定的传递函数矩阵的初始化的一部分：

其中k-2表示第二先前时间间隔，其中k-1表示先前时间间隔，其中k表示当前时间间隔，其中k+1表示下一时间间隔，其中在时间间隔之间，虚拟源的数量和虚拟源中的至少一个的位置中的至少一个被改变，其中表示扬声器-音箱-麦克风传递函数矩阵估计，表示估计出的源特定的传递函数矩阵，其中表示扬声器-音箱-麦克风传递函数矩阵估计，其中表示估计出的源特定的传递函数矩阵的更新，表示逆渲染滤波器传递函数矩阵，H_D(k+1)表示渲染滤波器传递函数矩阵，表示估计出的特定于源的传递函数矩阵的更新，并且其中表示转换变换矩阵，其描述当前时间间隔到下一时间间隔的估计出的源特定的传递函数矩阵的更新，使得仅计算两个时间间隔之间的的贡献。

这对于非常大的系统的识别是有利的，在计算上不太强大的处理设备的情况下，或者当与其它时间关键的应用(例如，汽车的头部单元)共享一个处理设备时，由信号处理应用产生的峰值负荷将被减少。

与所有常见的方法不同，实施例采用来自基于对象的渲染系统(例如，统计上独立的源信号和对应的渲染滤波器)的先验信息以便降低计算复杂度，并且尽管LEMS不能被唯一地确定，但是允许所涉及的自适应滤波问题的唯一解。甚至更多地，一些实施例提供了允许或者峰值的最小化或者平均计算复杂度的灵活概念。

另外的实施例提供了一种方法，该方法包括以下步骤：使用渲染滤波器传递函数矩阵来确定描述多个扬声器和至少一个麦克风之间的声学路径的扬声器-音箱-麦克风传递函数矩阵，利用该渲染滤波器传递函数矩阵，多个源信号利用多个扬声器进行再现。

另外的实施例提供了一种方法，该方法包括以下步骤：估计描述利用多个扬声器再现的多个虚拟源与至少一个麦克风之间的声学路径的源特定的传递函数矩阵的至少一些分量；以及使用源特定的传递函数矩阵来确定描述多个扬声器和至少一个麦克风之间的声学路径的扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量。

附图说明

本文参考附图描述本发明的实施例：

图1示出了根据本发明的实施例的渲染系统的示意性框图；

图2示出了通过传统的扬声器-音箱-麦克风系统识别和通过根据实施例的源特定的系统识别建模的路径的比较的示意图；

图3示出了常规上用于估计扬声器-音箱-麦克风传递函数矩阵(LEMS H)的信号路径的示意性框图；

图4示出了根据实施例的用于估计源特定的传递函数矩阵(源特定的系统H_S)的信号路径的示意性框图；

图5示出了通过利用LEMS的背景模型识别在恒定源配置的间隔期间的源特定的系统和在不同间隔之间的知识转移来高效识别LEMS的示例的示意图，其中识别出的系统分量累积；

图6示出了根据实施例的用于平均负荷优化的系统识别的信号路径的示意性框图；

图7示出了根据实施例的用于峰值负荷优化的系统识别的信号路径的示意性框图；

图8示出了根据实施例的具有48个扬声器和一个麦克风的渲染系统的空间布置的示意性框图；

图9a示出了根据实施例的具有48个扬声器和一个麦克风的渲染系统的空间布置的示意性框图；

图9b在示图中示出了图9a的渲染系统的麦克风处来自低维源特定的系统的直接估计以及来自高维LEMS的估计的归一化残差信号；

图10a示出了根据实施例的具有48个扬声器和一个麦克风的渲染系统的空间布置的示意性框图；

图10b在示图中示出了与直接LEMS更新相比，通过将低维源特定的系统变换成LEMS估计可实现的系统误差范数；

图11示出了根据本发明的实施例的用于操作渲染系统的方法的流程图；以及

图12示出了根据本发明的实施例的用于操作渲染系统的方法的流程图。

具体实施方式

在以下描述中用相同或等同的标号来表示具有相同或等同功能的一个或多个相同或等同的元件。

在以下描述中，阐述了多个细节以提供对本发明的实施例的更全面的解释。但是，对于本领域技术人员显而易见的是，可以在没有这些具体细节的情况下实践本发明的实施例。在其它情况下，众所周知的结构和设备以框图形式示出而不是详细示出，以避免模糊本发明的实施例。此外，除非另外特别指出，否则下文描述的不同实施例的特征可以彼此组合。

图1示出了根据本发明的实施例的渲染系统100的示意性框图。渲染系统100包括多个扬声器102、至少一个麦克风104和信号处理单元106。信号处理单元106被配置为使用渲染滤波器传递函数矩阵H_D来确定描述多个扬声器102和至少一个麦克风104之间的声学路径110的扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量，使用该渲染滤波器传递函数矩阵，多个虚拟源108用多个扬声器102进行再现。

在实施例中，信号处理单元106可以被配置为使用渲染滤波器传递函数矩阵H_D来从与虚拟源108相关联的源信号计算各个扬声器信号(或将由各个扬声器102再现的信号)。由此，通常，多于一个的扬声器102被用于再现与虚拟源108相关联的源信号中的一个。信号处理单元106可以例如通过固定或移动计算机、智能电话、平板电脑或作为专用信号处理单元来实现。

渲染系统可以包括多达N_L个扬声器102，其中N_L是大于或等于二的自然数，N_L≥2。此外，渲染系统可以包括多达N_M个麦克风，其中N_M是大于或等于一的自然数，N_M≥1。虚拟源的数量N_S可以等于或大于一，N_S≥1。由此，虚拟源的数量N_S小于扬声器的数量N_L，N_S<N_L。

在实施例中，信号处理单元106还可以被配置为估计描述多个虚拟源108和至少一个麦克风104之间的声学路径112的源特定的传递函数矩阵H_S的至少一些分量，以获得源特定的传递函数矩阵估计由此，处理单元106可以被配置为使用源特定的信号传递函数矩阵估计来确定扬声器-音箱-麦克风传递函数矩阵估计

在下文中，将更详细地描述本发明的实施例。由此，估计源特定的传递函数矩阵(HS)并使用其来确定扬声器-音箱-麦克风传递函数矩阵估计的思想将被称为源特定的系统识别。

换句话说，随后将描述源特定的系统识别(SSSysid)的实施例和基于源特定的系统识别的实施例的允许或者峰值的最小化或者平均计算复杂度的实施例。虽然源特定的系统识别的实施例允许唯一且高效的滤波器自适应并且提供从识别出的滤波器导出有效LEMS估计的数学基础，但是平均和峰值负荷优化的系统的实施例允许灵活、特定于应用地使用处理资源。

考虑基于对象的渲染系统，即，WFS[SRA08]，其采用N_L个扬声器的阵列渲染N_S个统计上独立的虚拟声源(例如，点源、平面波源)。为了在通信场景中允许娱乐系统的语音控制或附加地使用再现系统作为免提前端，可以使用用于声音获取的一组N_M个麦克风和AEC单元。感兴趣的扬声器和N_M个麦克风之间的声学路径可以被描述为具有离散时间傅里叶变换(DTFT)域传递函数矩阵的线性系统其具有归一化的角频率Ω。为了简化符号，参数Ω将对于所有信号向量和传递函数矩阵被忽略，这意味着H代表H(e^jΩ)。在图2中采用了这种表示，其描绘了DTFT域源信号的向量渲染滤波器的传递函数矩阵扬声器信号LEMS传递函数矩阵H和麦克风信号向量

其中具有LEMS的渲染滤波器的级联将被称为源特定的系统

既是用于仅记录近端源(需要AEC单元)又用于房间均衡，LEMS H可以被自适应识别。这可以通过最小化由记录的麦克风信号x_Mic和用LEMS估计获得的麦克风信号估计之间的差e_Mic导出的二次成本函数来完成，如图3所绘出的。由此，在图3中，方块的数量象征着要估计的滤波器系数的数量。

如前面所提到的，多声道声学系统识别遭受通常在用多于一个扬声器渲染声场景时发生的强互相关扬声器信号的影响：对于比虚拟源更多的扬声器(N_L>N_S)，LEMS H的声学路径不能被唯一确定('非唯一性问题'[BMS98])。这意味着存在H的无限大的可能解集合，其中只有一个对应于真正的LEMS H。

与此相反，从每个虚拟源到每个麦克风的路径可以被描述为N_S×N_MMIMO系统H_S(在图2中由花括号标记)，其可以针对给定的一组统计上独立的虚拟源被唯一地确定(即使在源是乐器或演奏同一首歌曲的人时，统计独立性的假设也保持)。由于虚拟源的统计独立性，利用GFDAF算法的系统识别的计算复杂度仅随着N_S线性增加，而不是随着N_L立方体增加，因为要逆的协方差矩阵变为对角的。此外，要建模的声学路径的数量减少了因子N_S/N_L。因此，如图4所绘出的，对的估计可以非常准确地并且比根据图3对的估计更容易地获得。由此，在图3中，方块的数量象征着要估计的滤波器系数的数量。要识别的系统和相应的估计在图2中的框图上方指示。

虽然通常不由唯一地确定，但是这个映射的非唯一性与用于直接确定的非唯一性问题完全相同并且找到其中一个系统很容易有可能，通过近似逆渲染系统和预滤波源特定的系统来获得一个特定的

因此，也可能是直接适应的结果的统计上最优的估计可以通过非常小的努力并且在没有非唯一性问题的情况下由识别H_S并将以系统的方式变换为的估计来获得。这可以被看作是利用非唯一性而不是把它看作一个问题：如果无论如何都不可能推断真正的系统，那么应该最小化寻找其中一个解的努力。

随后，将描述从源特定的系统估计确定LEMS估计。换句话说，将描述从源特定的系统到与源特定的系统对应的LEMS的适当映射。类似于方程(1)，对于给定的源特定的传递函数估计驱动滤波器与LEMS估计的级联应当满足对于合成声源比扬声器少(N_S<N_L)的典型情况，这种线性方程系统不允许的唯一解–逆不存在。但是，最小范数解可以通过Moore-Penrose伪逆[Str09]获得。注意的是，渲染系统的驱动滤波器及其逆是在音频素材的制作期间确定的，并且可以在制作阶段就已经被计算。因此，LEMS估计然后可以根据方程(2)通过预滤波H_S从源特定的传递函数计算出。对于具有伪逆的的驱动矩阵H_D，

P^⊥＝(I-P)

被分别称为进入到H_D的列空间中和进入到H_D的左侧零空间中的投影器，[Str09]。这两个矩阵将N_L维空间分解为两个正交子空间。由此，LEMS H可以被表示为两个正交分量的和：

其中是源特定的系统H_S的过滤版本，并且H^⊥位于H_D的左侧零空间中，并且不被后者激励。因此，H⊥在麦克风处不可观察到，并且表示的解的模糊性(非唯一性问题)。每当被采用将源特定的系统映射回LEMS估计时，估计的行将位于H_D的列空间中，并且H_D的左侧零空间中的所有分量，即H^⊥，隐含地为零(0)。

因此，只有对H_D的列空间敏感的LEMS分量可以并且应该从特定的H_S估计。这个思想将在以下被采用以扩展针对时变虚拟声场景的源特定的系统识别。

实践中，虚拟声源的数量和位置可以随时间而改变。因此，渲染任务可以被划分为具有不同的但内部不变的虚拟源配置的一系列间隔。这些间隔可以通过间隔索引k进行索引，其中k是整数。在间隔k的开始时，初始的源特定的系统估计

可以通过从观察间隔k-1可得到的信息来计算，即，初始的LEMS估计可以从间隔k-1，以及当前间隔的渲染滤波器H_D(k)获得。在间隔k期间仅适应源特定的系统之后，最终源特定的系统估计在间隔k的结束时可获得。体现在特定的间隔k内只更新H^||并且使保持不变的思想，这可以被公式化为：

这可以被证明对应于最小范数更新

导致的最小更新。由于这个过程使H^⊥保持不变H^⊥(k|k)＝H^⊥(k|k-1)，因此关于真正的LEMS的信息可以在所有间隔内累积，从而允许在时变声场景的情况下不断改进。

图5概括了这种典型情况的思想。为此，考虑两个时间间隔1和2，其中虚拟源配置不改变。但是，两个间隔的虚拟源配置是不同的。此外，整个系统在间隔1的开始时开启。这也在图5中的时间线(左侧)中绘出。从间隔1到2的转换在时间线处由标记“转换”指示。在时间线的右侧，间隔1和间隔2期间的自适应系统识别过程分别在顶部和底部示出。在这之间，在源配置改变期间执行的操作被可视化。系统块中的每个方块表示固定大小的子系统。因此，方块的数量与线性系统本身的大小成比例。在下文中，间隔将按时间顺序进行解释。

首先，间隔1。在间隔1的开始处(图5中的“开始”)，对LEMS H的估计仍然全部为零(由白色方块指示)，并且它在整个间隔内保持如此。另一方面，在通过方程(4)获得最初的源特定的系统之后，源特定的系统在此间隔期间不断适应，从而导致最终估计

其次，间隔1和2之间的转换。在间隔1和2之间的转换处(图5的中心部分)，虚拟源配置改变。因此，驱动系统被交换以允许渲染不同的虚拟场景(H_D(1)被H_D(2)替代)并且来自的信息被传递到对于这种知识传递，采用驱动系统H_D(1)的伪逆从更新的LEMS估计和新的驱动滤波器H_D(2)，间隔2的的初始化通过方程(4)获得。

第三，间隔2。类似于间隔1，只小的源特定的系统在间隔2内被适应(底部)。但是，估计在背景中可获得(由间隔1贡献的系统分量现在是灰色的)。在另一个场景变化(在图5中超过时间线)的情况下，然后可以再次改进LEMS估计，从而导致对后续间隔的源特定的系统的甚至更好的初始化。由此，具有不同源配置的所有间隔有助于LEMS的估计，并且在先前观察到的和未观察到的源配置的情况下支持自适应源特定的系统的初始化。

在下文中，将描述减少(或甚至最小化)系统识别的峰值计算负荷或平均计算负荷的实施例。

考虑具有有限电力资源的计算上强大的设备(例如，多核平板电脑或智能电话)或者除了信号处理之外还必须执行其它较不时间关键任务的设备，自适应滤波的平均计算负荷的最小化是期望的。另一方面，为了非常大的系统的识别，在计算能力较差的处理设备的情况下，或者当与其它时间关键的应用(例如汽车的头部单元)共享一个处理设备时，由信号处理应用产生的峰值负荷将被减少。因此，允许或者平均负荷或者峰值负荷最小化的通用概念的思想在下面与源特定的系统识别的思想相结合。

为了减少平均负荷，可以如上所述关于时变虚拟声场景直接计算更新，这导致高效的更新方程：

其中在图6中概述了对LEMS估计的操作。由此，在图6中，线表示MIMO系统的系数，并且圆角方框象征在方框中用MIMO系统对连接的传入系数进行预滤波。注意的是，由于低维度自适应，平均负荷非常低，但由于源特定的系统和LEMS表示之间的变换，场景变化时的峰值负荷增加。

峰值负荷优化可以通过将SSSysId更新分成直接源自最近间隔的源特定的系统的分量(将在场景变化时计算)和仅取决于一个场景变化之前的可用信息的另一个分量(可预先计算)的思想来获得。

在方程(4)中插入上述更新(方程(6))之后这样做导致：

其中从将间隔k的源特定的系统的更新映射到间隔k+1中源特定的系统的更新的矩阵进行转换变换。该公式的益处在图7中绘出的自适应方案中变得显而易见。在图7中，示出了在恒定虚拟源配置的间隔k内对系统估计和与系统估计一起执行的操作。由此，这些线表示MIMO系统的系数，并且圆角方框象征在方框中用MIMO系统对连接的传入系数进行预滤波。

此外，在图7中，部分130是时间关键的并且需要在特定的帧中进行计算(源特定的系统的自适应和从到的贡献的计算)，而部分132(采用和确定并且计算从到的贡献)可以在整个间隔k期间以分布式的方式进行计算。之后，和被交给下一个间隔。

注意的是，峰值负荷优化和平均负荷优化的SSSysId在数学上导致相同的LEMS估计(由机器精度决定)。峰值负荷优化的方案相对于平均负荷优化的方案的总计算开销是由附加变换引起的，其对于具有恒定虚拟源配置的长时间间隔可忽略不计。

当为特定的渲染系统部署音频素材时，边信息(虚拟源信号和渲染滤波器或来自其它边信息的渲染滤波器计算策略)的缺乏排除使用这种方法。如果不能排除边信息在系统识别期间可用，那么可以从AEC应用中的系统识别过程的计算负荷中获得使用该方法的有力证据：渲染单个虚拟源很长时间，由自适应滤波引起的计算负荷变得非常低并且与扬声器的数量无关，其与传统的系统识别方法相矛盾。如果这成立，那么区分SSSysId和SDAF是必要的。为此，可以合成具有多于一个的虚拟源(具有独立时变频谱内容)的静态虚拟场景：当SSSysId产生恒定计算负荷时，SDAF的计算负荷将由于信号和系统的纯数据驱动的变换而重复地为峰值。区分SSSysId与SDAF的另一种方法将是在具有正交扬声器激励模式的信号(例如，不同物理扬声器位置处的虚拟点源)之间交替：对于SDAF，可以预期回声往返损耗增强(ERLE)会对每个场景变化都类似地故障，而SSSysId在再次执行先前观察到的场景变化时展现出显著降低的故障。但是，这些测试至少需要访问运行上述渲染任务的处理器的负荷统计信息。

在下文中，如图8中所绘出的，通过用自由场条件下的单个麦克风前的N_L＝48个扬声器的线性条形音箱来模拟WFS场景，提供SSSysId自适应方案的基本属性的验证和评估(仅使用单个麦克风就足以一般地分析自适应概念的行为，因为，无论如何，滤波器自适应是对每个麦克风独立执行的)。详细地，图8示出了对于模拟具有N_L＝48个扬声器102和N_M＝1个麦克风的原型普通的换能器设置。

WFS系统以8kHz的采样率合成一个或多个同时激活的辐射统计上独立的白噪声信号的虚拟点源。此外，通过向麦克风引入-60dB级别的加性白高斯噪声来假设高质量麦克风。系统识别由GFDAF算法执行。渲染系统的逆在离散傅立叶变换(DFT)域中被近似，并且通过应用线性相移、逆DFT和随后的窗口化来获得因果时域逆系统。

为了数值的稳定性，在DFT域中通过具有正则化常数λ＝0.005的Tikhonov正则化逆来近似伪逆，从而在逆(小λ)的准确度和针对病态H_D的滤波器系数范数之间提供折衷。为了评估模拟，归一化残差信号评估实际麦克风信号可以多好地被建模(这对应于AEC中常用的ERLE测量的逆)：

其中，表示离散时间样本索引k的麦克风样本的向量，并且表示误差信号的对应向量。为了测量多好地识别LEMS，我们采用归一化的系统误差范数：

其中H_μ和是估计出的和真实的LEMS的DFT域传递函数矩阵，μ∈{0,…,L-1}是DFT箱索引，并且L是DFT阶。

以下将描述两个不同的实验。

根据第一实验，合成了24s的麦克风信号，这些信号被分成具有不同但内部恒定的虚拟源配置的长度为8s的三个间隔。图9a中描绘了虚拟源的三个间隔的组。详细地，在图9a中，示出了4个虚拟源108的N_L＝48个扬声器102(箭头)、N_M＝1个麦克风(交叉)以及3个随机选择的组140、142、144的设置的示意性框图。它们的位置用点标记，并通过线连接以象征它们的同时活动。此外，每个虚拟源108由实心圆标记，并且属于恒定源配置的相同间隔的源通过相同类型的线连接，即，直线140、第一类型的虚线142和第二类型的虚线144。

图9b示出了在第一实验期间从低维、源特定的系统的直接估计(曲线150)和从高维LEMS的估计(曲线152)得到的麦克风104处的归一化残差信号的示图。

显然，图9b中绘出的归一化残差通过SSSysId迅速下降得更均匀，其中可以找到自适应滤波器的唯一解，由本底噪声决定。SSSysId和直接LEMS更新两者在场景变化的情况下揭示了非常类似的性能故障。这显示了SSSysId对于AEC的适用性。

根据第二实验，对所提出的自适应方案的长期稳定性进行研究。为此，用坐标x∈[0.5,4.5],y∈[-5.1,-1.1]绘制了100个不同的虚拟源位置，并且每个源在其自身的长度1s的间隔内独占活动。结果场景在图10a中绘出并且对应于99个源配置变化。详细地，图10a示出了N_L＝48个扬声器102(箭头)、N_M＝1个麦克风104(交叉)和100个随机选择的虚拟源位置108的设置。

源特定的系统的自适应和LEMS的直接自适应将根据归一化的系统误差范数进行比较。这些在图10b中针对100个间隔中的每一个(在各个间隔的末尾处确定)绘出。由此，图10b示出了与直接LEMS更新(曲线162)相比，通过将低维源特定的系统变换成LEMS估计(曲线160)在第二实验期间可实现的系统误差范数。

显然，不太复杂的源特定的更新(曲线160)导致完全稳定的自适应和与直接更新LEMS(曲线162)类似的性能，在重复改变虚拟源配置并仅用单个虚拟源进行激励的情况下，同样如此。由此，计算复杂度降低了一个数量级。但是，稍微增加的归一化系统误差范数是由于用正则化渲染逆滤波器进行重复变换以及将卷积结果截断为建模滤波器长度的结果。

实施例提供了一种用于从基于对象的渲染系统(例如，WFS或使用多扬声器前端的免提通信)中识别采用边信息(统计上独立的虚拟源信号，渲染滤波器)的MIMO系统的方法。该方法不对扬声器和麦克风位置作出任何假设，并且允许优化系统识别以具有最小峰值负荷或平均负荷。与现有方法相反，这种方法具有可预测的低计算复杂度、与N_S个虚拟源的频谱或空间特性以及换能器(N_L个扬声器和N_M个麦克风)的位置无关。对于恒定虚拟源配置的长间隔，有可能将复杂度降低大约N_L/N_S的因子。已经模拟了原型，以便验证用于识别具有线性条形音箱的WFS的LEMS的示例性概念。

图11示出了根据本发明的实施例的用于操作渲染系统的方法200的流程图。方法200包括使用渲染滤波器传递函数矩阵来确定描述多个扬声器与至少一个麦克风之间的声学路径的扬声器-音箱-麦克风传递函数矩阵的步骤202，使用渲染滤波器传递函数矩阵，多个源信号用多个扬声器进行再现。

图12示出了根据本发明的实施例的用于操作渲染系统的方法210的流程图。方法210包括估计描述用多个扬声器再现的多个虚拟源与至少一个麦克风之间的声学路径的源特定的传递函数矩阵的至少一些分量的步骤212，以及使用源特定的传递函数矩阵来确定描述多个扬声器与至少一个麦克风之间的声学路径的扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量的步骤214。

许多应用需要具有多个输入(扬声器)和多个输出(麦克风)的扬声器-音箱-麦克风系统(LEMS)的识别。所需的计算复杂度通常至少随着声学路径的数量成比例地增长，该计算复杂度是扬声器数量和麦克风的数量的乘积。此外，典型的扬声器信号是高度相关的，并且排除了LEMS的精确识别(“非唯一性问题”)。称为波域自适应滤波(WDAF)的多声道系统识别的现有技术方法采用声学声场的固有性质来降低复杂度，并且减轻特殊换能器布置的非唯一性问题。另一方面，实施例不对实际换能器的放置做出任何假设，而是采用其虚拟源的数量低于扬声器的数量以降低计算复杂度的基于对象的渲染系统(例如，波场合成(WFS))中可用的边信息。在实施例中，(仅)从每个虚拟源到每个麦克风的源特定的系统可以被自适应且唯一地识别。这个针对源特定的系统的估计可以被变换为LEMS估计。这个思想可以被进一步扩展到对于在不同时间间隔中的不同虚拟源配置的情况下识别LEMS。对于这种一般情况，提出了峰值负荷优化和平均负荷优化的结构的思想，其中峰值负荷优化非常适合较不强大的系统并且平均负荷优化的结构适合强大但必须使电力的平均消耗最小化的便携式系统。

虽然已经在装置的上下文中描述了一些方面，但是清楚的是，这些方面也表示对应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应块或项或特征的描述。方法步骤中的一些或全部可以由(或使用)硬件装置来执行，比如，例如微处理器、可编程计算机或电子电路。在一些实施例中，可以由这样的装置执行最重要的方法步骤中的一个或多个方法步骤。

取决于某些实现要求，本发明的实施例可以用硬件或者用软件来实现。实现可以使用其上存储有电子可读控制信号的数字存储介质来执行，例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器，其中数字存储介质与可编程计算机系统协作(或能够协作)，使得执行相应的方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作，使得执行本文所述的方法之一。

通常，本发明的实施例可以被实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码可操作用于执行方法之一。程序代码可以例如存储在机器可读载体上。

其它实施例包括存储在机器可读载体上、用于执行本文所述的方法之一的计算机程序。

换句话说，本发明方法的实施例因此是计算机程序，该计算机程序具有当该计算机程序在计算机上运行时用于执行本文所述的方法之一的程序代码。

因此，本发明方法的另一个实施例是包括其上记录的用于执行本文所述的方法之一的计算机程序的数据载体(或数字存储介质或计算机可读介质)。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬态的。

因此，本发明方法的另一个实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如经由互联网)传送。

另一个实施例包括被配置为或适于执行本文所述的方法之一的处理器件，例如计算机或可编程逻辑设备。

另一个实施例包括具有安装在其上用于执行本文所述的方法之一的计算机程序的计算机。

根据本发明的另一个实施例包括被配置为将用于执行本文所述的方法之一的计算机程序(例如，电子地或光学地)传送到接收器的装置或系统。接收器可以例如是计算机、移动设备、存储器设备等。该装置或系统可以例如包括用于将计算机程序传送到接收器的文件服务器。

在一些实施例中，可以使用可编程逻辑设备(例如现场可编程门阵列)来执行本文所述的方法的功能中的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以便执行本文所述的方法之一。通常，这些方法优选地由任何硬件装置执行。

本文描述的装置可以使用硬件装置或使用计算机或使用硬件装置和计算机的组合来实现。

本文描述的方法可以使用硬件装置或使用计算机或使用硬件装置和计算机的组合来执行。

上述实施例仅仅是对本发明的原理的说明。应当理解的是，本文描述的布置和细节的修改和变化对于本领域技术人员将是显而易见的。因此，本发明的意图是仅由接下来的专利权利要求的范围限制，而不是由通过对本文实施例的描述和解释给出的具体细节限制。

参考文献列表

[BBK05]H.Buchner,J.Benesty,和W.Kellermann,“Generalized multichannelfrequencydomainadaptive filtering:Efficient realization and application tohands-free speechcommunication,”Signal Processing,卷.85,号.3,页.549–570,2005年3月.

[BMS98]J.Benesty,D.Morgan,和M.Sondhi,“A better understanding and animproved solutionto the specific problems of stereophonic acoustic echocancellation,”IEEE Transactionson Speech and Audio Processing,卷.6,号.2,页.156–165,1998.

[GVL96]G.H.Golub和C.F.Van Loan,Matrix Computations,3rd ed.JohnsHopkins UniversityPress,1996.

[HB13]K.Helwani和H.Buchner,“On the eigenspace estimation forsupervised multichannelsystem identification,”in IEEE InternationalConference on Acoustics,Speech,andSignal Processing(ICASSP),2013年5月,页.630–634.

[HBK07]J.Herre,H.Buchner和W.Kellermann,“Acoustic echo cancellationfor surroundsound using perceptually motivated convergence enhancement,”inIEEE InternationalConference on Acoustics,Speech,and Signal Processing(ICASSP),Honolulu,HI,USA,2007年4月.

[HBS10]K.Helwani,H.Buchner和S.Spors,“Source-domain adaptive filteringfor MIMO systemswith application to acoustic echo cancellation,”in IEEEInternational Conferenceon Acoustics,Speech,and Signal Processing(ICASSP),2010,页.321–324.

[MHB01]D.Morgan,J.Hall和J.Benesty,“Investigation of several types ofnonlinearitiesfor use in stereo acoustic echo cancellation,”IEEE Transactionson Speech and AudioProcessing,卷.9,号.6,页.686–696,2001年9月.

[SBR06]S.Spors,H.Buchner和R.Rabenstein,“Eigenspace adaptive filteringfor efficientpre-equalization of acoustic MIMO systems,”in Proceedings of theEuropean Signal ProcessingConference(EUSIPCO),卷.6,2006.

[SHK13]M.Schneider,C.Huemmer,和W.Kellermann,“Wave-domain loudspeakersignaldecorrelation for system identification in multichannel audioreproduction scenarios,”in IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),2013年5月,页.605–609.

[SK14]M.Schneider和W.Kellermann,“Apparatus and method for providing aloudspeaker-enclosure-microphone system description,”Patent Application WO2014/015 914A1,2014年1月30日.

[SRA08]S.Spors,R.Rabenstein,和J.Ahrens,“The theory of wave fieldsynthesis revisited,”in Audio Engineering Society Convention 124,2008,页.17–20.

[Str09]G.Strang,Introduction to Linear Algebra,4th ed.Wellesley-Cambridge,2009.

Claims

1.一种渲染系统(100)，包括：

多个扬声器(102)；

至少一个麦克风(104)；

信号处理单元(106)；

其中所述信号处理单元(106)被配置为使用渲染滤波器传递函数矩阵(H_D)确定描述所述多个扬声器(102)和所述至少一个麦克风(104)之间的声学路径(110)的扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量，使用所述渲染滤波器传递函数矩阵(H_D)，多个虚拟源(108)被所述多个扬声器(102)再现。

2.如前述权利要求所述的渲染系统(100)，其中所述信号处理单元(106)被配置为估计描述所述多个虚拟源(108)和所述至少一个麦克风(104)之间的声学路径(112)的源特定的传递函数矩阵(H_S)的至少一些分量；以及

其中所述处理单元(106)被配置为使用估计出的源特定的信号传递函数矩阵来确定所述扬声器-音箱-麦克风传递函数矩阵估计

3.如权利要求2所述的渲染系统(100)，其中所述信号处理单元(106)被配置为通过使从所述至少一个麦克风的记录信号和使用估计出的源特定的传递函数矩阵获得的所述至少一个麦克风的估计信号之间的差导出的成本函数最小化来自适应地估计源特定的传递函数矩阵(H_S)。

4.如前述权利要求中任一项所述的渲染系统(100)，其中所述信号处理单元(106)被配置为确定对所述渲染滤波器传递函数矩阵(H_D)的列空间敏感的扬声器-音箱-麦克风传递函数矩阵估计的分量。

5.如前述权利要求2至4中任一项所述的渲染系统(100)，其中所述信号处理单元(106)被配置为基于以下方程来确定扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量：

其中表示扬声器-音箱-麦克风传递函数矩阵估计，其中表示估计出的源特定的传递函数矩阵，其中H_D表示渲染滤波器传递函数矩阵，并且其中表示渲染滤波器传递函数矩阵H_D的近似逆。

6.如前述权利要求中任一项所述的渲染系统(100)，其中响应于虚拟源(108)的数量和所述虚拟源(108)中的至少一个虚拟源(108)的位置中的至少一个的改变，所述信号处理单元(100)被配置为使用与改变的虚拟源对应的渲染滤波器传递函数矩阵来更新扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量。

7.如前述权利要求所述的渲染系统(100)，其中所述信号处理单元(106)被配置为基于以下方程来更新扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量：

其中k-1表示先前时间间隔，其中k表示当前时间间隔，其中在先前时间间隔和当前时间间隔之间，虚拟源(108)的数量和所述虚拟源(108)中的至少一个虚拟源的位置中的至少一个被改变，其中表示扬声器-音箱-麦克风传递函数矩阵估计，表示对渲染滤波器传递函数矩阵的列空间不敏感的扬声器-音箱-麦克风传递函数矩阵估计的分量，表示估计出的源特定的传递函数矩阵，并且其中表示逆渲染滤波器传递函数矩阵。

8.如权利要求6或7中任一项所述的渲染系统(100)，其中所述信号处理单元被配置为基于以下方程来更新扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量：

以便减少所述信号处理单元的平均负荷；

其中k-1表示先前时间间隔，其中k表示当前时间间隔，其中在当前时间间隔和先前时间间隔之间，虚拟源(108)的数量和所述虚拟源(108)中的至少一个虚拟源的位置中的至少一个被改变，其中表示扬声器-音箱-麦克风传递函数矩阵估计，其中表示扬声器-音箱-麦克风传递函数矩阵估计，表示估计出的源特定的传递函数矩阵，其中表示扬声器-音箱-麦克风传递函数矩阵估计，并且其中表示逆渲染滤波器传递函数矩阵。

9.如权利要求6或7中任一项所述的渲染系统(100)，其中所述信号处理单元(106)被配置为基于以下分布式评估方程来更新扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量：

通过下式作为下一间隔的估计出的源特定的传递函数矩阵的初始化的一部分

以便减小所述信号处理单元的峰值负荷；

其中k-2表示第二先前时间间隔，其中k-1表示先前时间间隔，其中k表示当前时间间隔，其中k+1表示下一时间间隔，其中在时间间隔之间，虚拟源(108)的数量和所述虚拟源(108)中的至少一个虚拟源的位置中的至少一个被改变，其中表示扬声器-音箱-麦克风传递函数矩阵估计，表示估计出的源特定的传递函数矩阵，其中表示扬声器-音箱-麦克风传递函数矩阵估计，其中表示估计出的源特定的传递函数矩阵的更新，表示逆渲染滤波器传递函数矩阵，H_D(k+1)表示渲染滤波器传递函数矩阵，表示估计出的源特定的传递函数矩阵的更新，并且其中表示描述当前时间间隔到下一时间间隔的估计出的源特定的传递函数矩阵的更新的转换变换矩阵，使得仅计算两个时间间隔之间的的贡献。

10.如前述权利要求中任一项所述的渲染系统(100)，其中虚拟源(108)的数量(N_S)小于扬声器(102)的数量(N_L)。

11.如前述权利要求中任一项所述的渲染系统(100)，其中所述虚拟源(108)的信号是静态独立的。

12.一种渲染系统(100)，包括：

多个扬声器(102)；

至少一个麦克风(104)；

信号处理单元(106)；

其中所述信号处理单元(106)被配置为估计描述用所述多个扬声器(102)再现的多个虚拟源(108)和所述至少一个麦克风(104)之间的声学路径(112)的源特定的传递函数矩阵(H_S)的至少一些分量；以及

其中所述处理单元(106)被配置为使用源特定的传递函数矩阵(H_S)来确定描述所述多个扬声器(102)和所述至少一个麦克风(104)之间的声学路径(110)的扬声器-音箱-麦克风传递函数矩阵估计

13.一种方法(200)，包括：

使用渲染滤波器传递函数矩阵(H_D)来确定(202)描述多个扬声器和至少一个麦克风之间的声学路径的扬声器-音箱-麦克风传递函数矩阵(H)，使用所述渲染滤波器传递函数矩阵(H_D)，多个源信号被所述多个扬声器再现。

14.一种方法(210)，包括：

估计(212)描述用多个扬声器再现的多个虚拟源和至少一个麦克风之间的声学路径的源特定的传递函数矩阵(H_S)的至少一些分量；以及

使用所述源特定的传递函数矩阵(H_S)确定(214)描述所述多个扬声器和所述至少一个麦克风之间的声学路径的扬声器-音箱-麦克风传递函数矩阵估计的至少一些分量。

15.一种计算机程序，用于执行如权利要求13和14中任一项所述的方法。