CN101129089B

CN101129089B - 利用音频对象控制波场合成呈现装置的设备和方法

Info

Publication number: CN101129089B
Application number: CN200680005932.9A
Authority: CN
Inventors: 卡特里·赖歇尔特; 加布里埃尔·加茨舍; 桑德拉·布里克斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2005-02-23
Filing date: 2006-02-16
Publication date: 2011-09-14
Anticipated expiration: 2026-02-16
Also published as: DE502006001497D1; CN101129089A; DE102005008366A1; US8755922B2; EP1844628A1; US20110144783A1; EP1844628B1; US20080123864A1; JP4620133B2; WO2006089684A1; US7930048B2; JP2008532374A; ATE407540T1

Abstract

一种利用音频对象来控制波场合成呈现装置(3)的设备，包括提供场景描述的提供装置(8)，其中，场景描述定义了音频场景中的音频对象的时间序列，还包括与虚拟源的源位置以及虚拟源的开始和结束有关的信息。此外，音频对象包含对与虚拟源相关联的音频文件的至少一个引用。通过处理装置(0)来处理音频对象，以针对每个呈现模块(3)生成单个输出数据流，其中，与虚拟源的位置有关的信息和音频文件自身均相互关联地包含在该输出数据流中。据此，一方面获得了高的可移植性，另一方面获得了由于确保数据一致性而产生的高质量。

Description

利用音频对象控制波场合成呈现装置的设备和方法

技术领域

本发明涉及波场合成领域，更具体地，涉及利用要处理的数据对波场合成呈现(render)装置进行的控制。

本发明涉及波场合成概念，具体涉及结合多呈现器系统的有效波场合成概念。

背景技术

对于在娱乐电子设备领域中的新技术和创新产品有着日益增长的需求。对于新多媒体系统的成功来说，提供最佳功能或容量是非常重要的先决条件。这通过使用数字技术、特别是使用计算机技术来实现。其示例是提供了增强的接近现实的视听印象的应用。在先前的音频系统中，实质性缺点在于自然以及虚拟环境的三维声音再现的质量。

许多年来，已知音频信号的多信道扬声器再现的方法并对该方法进行了标准化。所有常用技术具有以下缺点：扬声器的地点和收听者的位置已经在传输格式中有所体现。扬声器相对于收听者的错误设置使音频质量显著下降。仅在再现空间的小区域内(所谓有效点(sweetspot))可能有最佳声音。

在新技术的帮助下，可以实现较好的自然空间感以及音频再现的更大范围或包层。TU Delft处已经研究了所谓波场合成(WFS)的技术原理，并首次在80年代后期提出(Berkout，A.J.；de Vries，D.；Vogel，P.：Acoustic control by Wave field Synthesis.JASA93，1993)。

由于该方法对于计算机功率和传输速率的极大需求，波场合成直到现在在实际中也很少采用。目前，只有微处理器技术领域中的进步和音频编码允许在具体应用中采用该技术。期望明年出现在专业领域中的第一个成果。设想在一些年后，消费领域内的第一波场合成应用开始投放市场。

WFS的基本思想基于波动说的惠更斯原理的应用：

波所捕获的每一点是以球或圆方式传播的元波的起点。

应用于声学，通过彼此相邻设置的大量扬声器(所谓扬声器阵列)，来复制每个到来的波阵面(wave front)的任意形状。在最简单的情况下，即要再现单个点源并且扬声器按照线性设置，则每个扬声器的音频信号必须以时间延迟的方式馈入，并进行振幅缩放，从而各个扬声器的辐射声场适当地重叠。利用多个声源，对于每个源，单独地计算对于每个扬声器的贡献，并将所产生的信号相加。如果要再现的源在具有反射壁的室内，则也必须作为附加源，经由扬声器阵列来再现反射。因此，在计算中的消耗很大程度上取决于声源的个数、录音室的反射属性和扬声器的个数。

具体地，该技术的优点在于，可以在大区域的再现空间上有自然的三维声音印象。与已知技术相反，以非常精确的方式再现声源的方向和距离。在有限程度上，甚至可以在真实的扬声器阵列与收听者之间定位虚拟声源。

尽管波场合成很好地用于具有已知属性的环境，但是如果属性改变或基于不匹配环境实际属性的环境属性而执行波场合成，则会出现紊乱。

周围环境的属性还可以由周围环境的脉冲响应来进行描述。

这将基于后续的示例更加详细地提出。假设扬声器朝墙壁发出声音信号，但不希望有反射。使用波场合成的空间补偿将包括以下事实：首先，确定该墙壁的反射，以确定在已从墙壁反射回来的声音信号何时再次到达扬声器、以及该反射的声音信号具有多大振幅。如果不期望来自该墙壁的反射，则可以利用波场合成，通过施加具有相应振幅、并具有与扬声器上的反射信号相反相位的信号来消除来自该墙壁的反射，从而传播补偿波抵消反射波，使得在所考虑的周围环境中消除了来自该墙壁的反射。这可以通过以下实现：首先计算周围环境的脉冲响应，然后基于该周围环境的脉冲响应来确定墙壁的属性和位置，其中，将墙壁当作镜面源，即反射入射声音的声源。

如果首先测量该周围环境的脉冲响应，然后计算必须以在音频信号上叠加的方式施加于扬声器上的补偿信号，则将会发生来自该墙壁反射的抵消，从而在该周围环境中的收听者具有该墙壁根本不存在的声音印象。

然而，对于反射波的最佳补偿，关键是精确地确定房间的脉冲响应，从而不会出现过补偿或欠补偿。

因此，波场合成允许在大的再现区域上恰当地映射虚拟声源。同时，在非常复杂的声音场景的创建过程中，向音响大师(sound master)和录音师提供了新技术和创造潜力。80年代末在TU Delft开发的波场合成(WFS，或者也称为声场合成)表示声音再现的全息方式。Kirchhoff-Helmholtz积分用作该方式的基础。它阐述了可以通过封闭体积表面上的单极和双极声源(扬声器阵列)的分布来产生该体积内的任意声场。

在波场合成中，根据在虚拟位置处发出虚拟源的音频信号来计算扬声器阵列的每个扬声器的合成信号，其中，关于振幅和相位来形成合成信号，从而从出现在扬声器阵列中的扬声器所输出的各个声波的叠加而产生的波与在虚拟位置处的虚拟源是具有真实位置的真实源的情况下由虚拟位置处的虚拟源所产生的波相对应。

典型地，多个虚拟源出现在各个虚拟位置上。针对每个虚拟位置的每个虚拟源来执行合成信号的计算，从而典型地，一个虚拟源产生了多个扬声器的合成信号。因而，从扬声器角度来看，该扬声器接收返回各个虚拟源的多个合成信号。然后，由于线性叠加原理而导致的这些源的可能叠加产生了实际从扬声器发出的再现信号。

扬声器阵列越大，即提供了越多的各个扬声器，越可以更好地利用波场合成。然而，为此，由于典型地还必须考虑信道信息，所以波场合成单元所必需的计算能力必须增加。详细地，在原理上，这表示出现从每个虚拟源至每个扬声器的自身的传输信道，以及原理上，可以是以下情况：每个虚拟源产生了每个扬声器的合成信号，和/或每个扬声器获得了等于虚拟源个数的多个合成信号。

如果特别地，在影院应用中的波场合成可能要用在虚拟源也可移动的情况下，则可以看出，由于合成信号的计算、信道信息的计算以及通过信道信息和合成信号的组合的再现信号的生成，而导致要运用相当强的计算能力。

此外，应注意，此时，音频再现的质量随着可用扬声器的个数而增加。这表示音频再现质量变得越好并且越逼真，则在扬声器阵列中存在的扬声器越多。

在上述场景中，例如，可以将各个扬声器的完全呈现并进行了模数转换的再现信号从波场合成中心单元经由双线线路传输至各个扬声器。这确实具有以下优点：几乎确保了所有扬声器同步工作，从而在这里不再需要其它措施用于同步目的。另一方面，总是可以仅针对特定再现室或针对利用固定个数的扬声器的再现，对波场合成中央单元进行再现。这表示，由于必须至少部分并行且实时地进行音频再现信号的计算(尤其对于许多扬声器和/或许多虚拟源的情况)，所以对于每个再现室，必须构造它自己的波场合成中央单元，而这必须执行相当大的计算能力。

德国专利DE 10254404 B4公开了如图7所示的系统。一个部分是中心波场合成模块10。另一部分包括各个扬声器模块12a、12b、12c、12d、12e，它们与实际的物理扬声器14a、14b、14c、14d、14e(例如，如图1所示)连接。应注意，多个扬声器14a-14e位于大于50的范围中，以及典型地，在典型应用中甚至在远大于100的范围中。如果将特有的扬声器与每个扬声器相关联，则也需要相应个数的扬声器模块。然而，依据该应用，优选对来自扬声器模块的邻接扬声器小组进行选址。在这个连接中，任意地，例如与四个扬声器连接的扬声器模块以相同的再现信号馈入四个扬声器，或者针对四个扬声器计算相应不同的合成信号，从而这种扬声器模块实际包括多个单独的扬声器模块，然而这些扬声器模块物理上概括于一个单元中。

在波场合成模块10和每个单独的扬声器12a-12e之间，存在特有的传输路径16a-16e，每个传输路径与中心波场合成模块和自己的扬声器模块连接。

将提供了高数据速率的串行传输格式(如，所谓Firewire传输格式或USB数据格式)优选作为用于将数据从波场合成模块传输至扬声器模块的数据传输模式。大于每秒100兆比特的数据传输速率是有利的。

因此，根据在波场合成模块中选择的数据格式，来相应地对从波场合成模块10传输至扬声器模块的数据流进行格式化，并提供在常用的串行数据格式中提供的同步信息。由各个扬声器模块从该同步信息中提取该同步信息，并将该同步信息用于使各个扬声器模块相对于它们的再现同步，即最终用于获得模拟扬声器信号和为此而提供的采样(再采样)的模数转换。中心波场合成模块用作主模块，而所有扬声器模块用作客户端，其中，单独的数据流全部都获得经由各个传输路径16a-16e来自中心模块10的相同的同步信息。这确保了所有扬声器模块同步工作，即与主模块10同步，这对于音频再现系统不会遭受音频质量的损失来说非常重要，从而不会在相应的音频呈现之后以与各个扬声器在时间上有偏移的方式来辐射通过波场合成模块所计算的合成信号。

所描述的概念给波场合成系统提供了显著的灵活性，该灵活性对于各种方式的应用是可缩放的。但是仍然存在以下问题：执行实际主呈现(即，依据虚拟源的位置和扬声器位置，计算扬声器的各个合成信号)的中心波场合成模块表示整个系统的“瓶颈”。尽管在该系统中，已经以分散方式执行了“后呈现”(即，具有信道传输功能等的合成信号的强加)，因而已经通过选择具有比所确定的阈值能量小的能量的合成信号，减小了中心呈现模块与单独的扬声器模块之间的必要数据传输能力，但是，仍必须针对所有扬声器模块，呈现所有虚拟源，即转换为合成信号，其中，仅在呈现之后才进行选择。

这表示，呈现仍确定了系统的整个容量。例如，如果中央呈现单元能够同时呈现32个虚拟源，即同时计算这32个虚拟源的合成信号，则如果在一个音频场景中一次有多于32个源是有效的，则出现了严重的容量瓶颈。对于简单场景，这是足够的。对于较复杂的场景，尤其具有融入式的声音印象，即例如在下雨时，许多雨点表示单独的源，则直接显而易见地，具有最多为32个源的容量将不再是足够的。如果存在大管弦乐队，以及实际期望对每个管弦乐队演奏者或至少每个乐器组，作为在自己位置上的自身源进行处理，也存在相应的情形。这里，32个虚拟源可以非常迅速地变得较少。

典型地，在已知的波场合成概念中，使用了场景描述，其中，共同定义了各个音频对象，从而使用场景描述中的数据和用于各个虚拟源的音频数据，呈现器或多呈现装置可以呈现完整的场景。这里，针对每个音频对象，精确地定义了音频对象必须从哪里开始并在哪里结束。此外，对于每个音频对象，精确地指出要成为虚拟源的虚拟源的位置，即要进入波场合成呈现装置的位置，从而针对每个扬声器生成相应的合成信号。这导致了以下的事实：通过作为对合成信号的作用，将从单独的扬声器输出的声波叠加，对于收听者的印象如同声源位于再现室内或再现室外，这通过虚拟源的源位置来定义。

如已经解释的，先前的波场合成系统包括创作工具60(图6)、控制/呈现模块62(图6)、以及音频服务器64(图6)。创作工具允许用户创建并编辑场景、以及控制基于波场合成的系统。场景包括与单独的虚拟音源有关的信息和音频文件。将音频源的属性及其对音频数据的引用存储在XML场景文件中。音频数据本身被提交到音频服务器上，并从此处传递至呈现模块。

在该系统概念中问题在于，不能总是保证场景数据与音频数据之间的一致性，这是由于这些数据被彼此独立地存储，并且被彼此独立地传递至控制/呈现模块。

这是由于以下事实：为了计算波场，呈现模块需要诸如音频源位置之类的与各个音频源有关的信息。为此，也将场景数据作为控制数据传递至呈现模块。基于控制数据和伴随的音频数据，呈现模块能够计算每个单独的扬声器的相应信号。

已经发现，由于呈现模块仍然正在对根据先前的源位置所设置的先前源的音频数据进行处理的事实，而导致会出现明显可感知的人工信号(artifact)。在呈现模块获得新源的新位置数据(不同于旧源的位置数据)时，会出现以下情况：呈现模块接收新位置数据，因而对仍从先前源中出现的音频数据的剩余部分进行处理。对于再现室中的可感知的声音印象，这导致了以下事实：源从一个位置“跳”至另一位置，这会非常干扰收听者，尤其如果源是相对嘈杂的源、以及如果所考虑的两个源(即先前源和当前源)非常不同。

该概念的另一缺点在于以下事实：XML文件形式的场景描述的灵活性和/或可移植性很低。尤其由于呈现模块包括朝向彼此的两个输入的这一事实(这对于同步很关键)，将相同场景描述应用于另一系统是存在问题的。对于两个输入的同步，为了尽可能地避免所描述的人工信号，应指出，以相对较大的努力，即通过采用时间戳或类似物，显著地降低了比特流效率。在该点上，当考虑音频数据至呈现器的传输、以及呈现器对音频数据的处理由于所需极大数据速率而导致无论如何都存在问题时，可以看出，在这一敏感点上，可移植接口对于实现非常关键。

发明内容

本发明的目的是提供了一种用于控制波场合成呈现装置的灵活概念，进一步实现了场景描述对于另一系统的可移植性。

通过如权利要求1所述的用于控制波场合成呈现装置的设备、如权利要求11所述的用于控制波场合成呈现装置的方法、或者如权利要求12所述的计算机程序来实现本发明的目的。

本发明基于以下发现：可以通过一方面根据场景、另一方面根据音频数据来创建包括音频文件和与虚拟源有关的位置信息的公共输出数据流，一方面消除关于同步的问题，另一方面消除关于缺乏灵活性的问题，其中，例如，在与输出数据流中的音频文件相关联而相应地位于数据流中的报头处，引入虚拟源的位置信息。

根据本发明，因而波场合成呈现装置仍仅获得包括所有信息(即，包括与音频数据相关联的音频数据和元数据，如位置信息和时间信息、源标识信息或源类型定义)的单个数据流。

因此，给出了位置信息与音频数据的唯一且不变地关联，从而对于使用音频文件的错误位置信息所描述的问题可以不再出现。

此外，根据场景描述和音频文件生成公共输出数据流的本发明的处理装置对于其它系统产生了高度灵活性和可移植性。作为呈现装置的控制数据流，创建了自身自动同步的单个数据流，其中，每个音频对象的音频数据和位置信息彼此固定关联。

根据本发明，保证了呈现器以唯一关联方式获得了音频源的位置信息以及音频源的音频数据，从而不再出现同步问题，否则同步问题会由于“跳动源”而降低声音再现质量。

优选地，集中处理音频和元数据。由此，通过本发明的处理装置，实现了在数据流中与它们的时间参考相对应地共同传输这些数据。从而，由于不再需要给数据配备上时间戳，所以也增加了比特流效率。此外，本发明的概念还提供了呈现器的简化，由于呈现器不再必须保存如同两个单独的数据流将会到来的那么多的数据，所以可以减小呈现器的输入缓冲器大小。

根据本发明，因而实现了处理装置形式的中央数据建模和数据管理模块。优选地，该模块管理音频数据、场景数据(位置、时间、以及输出条件，如源对于彼此的相对空间和时间的关系、或者关于源再现的质量需求)。处理装置还能够将场景数据转换为时间和空间输出条件，并实现将音频数据通过与之一致的输出数据流传递至再现单元。

附图说明

将参照附图，在以下对本发明的优选实施例进行更加详细的描述，其中：

图1是用于控制波场合成呈现装置的本发明的设备的电路框图；

图2示出了示例性音频对象；

图3示出了示例性场景描述；

图4a示出了比特流，其中具有当前时间数据和位置数据的报头与每个音频对象相关联；

图4b示出了输出流的可选实施例；

图4c再次示出了数据流的可选实施例；

图4d再次示出了输出流的可选实施例；

图5示出了嵌入到了整个波场合成系统中的本发明概念；

图6是已知波场合成概念的示意性示例；以及

图7是已知波场合成概念的另一示例。

具体实施方式

图1示出了利用音频对象控制波场合成呈现装置的设备，从而波场合成呈现装置根据音频对象生成可由在再现室内附着的多个扬声器再现的合成信号。具体地，本发明的设备因而包括用于提供场景描述的装置8，其中，场景描述定义了音频场景内音频对象的时间序列，以及音频对象包括与虚拟源的源位置有关的信息、或者指向虚拟源的音频文件的虚拟源或参考信息的音频文件。将至少音频对象的时间序列提供给用于处理来自装置8的音频对象的装置0。本发明的设备还可以包括音频文件数据库1，通过该音频文件数据库1，将音频文件提供给用于处理音频对象的装置0。

用于处理音频对象的装置0特别形成用于生成可以提供给波场合成呈现装置3的输出数据流2。具体地，输出数据流包含音频对象的音频文件、以及与音频文件相关联的与虚拟源的位置有关的信息及优选关于虚拟源的起点和/或终点的时间信息。将附加信息(即位置信息，也可能是时间信息)以及其它元数据写入与相应音频对象的音频文件相关联的输出数据流。

要指出的是，波场合成呈现装置3可以是单个模块、或者还可以包括与一个或多个扬声器阵列4相连的许多不同模块。

因此，根据本发明，针对音频场景，将具有自身属性以及关联音频数据的所有音频源存储在用于提供给呈现器或单个呈现模块的单个输出数据流中。由于这种场景非常复杂，所以这通过用于处理音频对象的装置0而有创造性地实现，装置0与用于提供场景描述的装置8和音频文件数据库1合作，并优选形成使得其用作在存储了音频文件的智能数据库的输出处的中心数据管理器。

基于场景描述，在数据库的帮助下进行数据的时间和空间建模。通过相应的数据建模，保证了在时间和空间条件下音频数据与它的输出的一致性。在本发明的优选实施例中，当将数据分配给呈现器时，基于调度来检查并确保这些条件。为了能够利用波场合成实时再现复杂的音频场景、并为了能够同时灵活地工作(即能够将一个系统所考虑的场景描述也转移至另一系统)，在音频数据库的输出处提供处理装置。

优选地，尤其在基于硬盘的解决方案中，为了将对音频数据的访问时间最小化，采用特定的数据结构。基于硬盘的解决方案具有以下优点：它允许比当前利用CD或DVD可获得的转移速率更高的转移速率。

接下来，参照图2，图2指出了音频对象应当有利地具有的信息。因此，音频对象要规定音频文件，从而使音频文件表示虚拟源的音频内容。但是，音频对象并不必包括音频文件，而是可以具有指向在存储了实际音频文件的数据库中的所定义位置的索引。

此外，音频对象优选包括虚拟源的识别，例如，这可以是源编号或有意义的文件名等。此外，在本发明中，音频对象规定了虚拟源(即，音频文件)的开始和结束的时间间隔。如果仅规定了开始的时间间隔，则这表示可以在该时间间隔内由呈现器来改变该文件的呈现的实际起点。如果另外给出了结束的时间间隔，则这表示该结尾也可以在时间间隔内改变，依据实施方式，这将共同导致音频文件关于其长度的变化。任何实施方式都是可能的，如音频文件开始/结束时间的定义，从而实际上允许起点发生平移，但在任何情况下，必须不改变长度，从而音频文件的结束也自动地发生平移。然而，具体地，对于噪声，由于典型地，例如风声将早一些或晚一些开始、还是早一些或晚一些结束都不成问题，所以优选使结束可变。依据实施方式，其它的规定也是可以的和/或所期望的，如实际上允许起点改变而不允许终点改变的规定等。

优选地，音频对象还包括用于位置的位置间隔。因此，对于特定音频对象，它们是来自例如左前、还是前中、还是相对于再现室中的参考点移动了某个(小)角度都不重要。然而，如已经解释的，还存在再次来自噪声区域的音频对象，它们可以位于任何任意的位置并因而具有最大位置间隔，例如，可以通过音频对象中的“任意”代码或不通过代码(隐性)来规定。

音频对象可以包括其它信息，如虚拟源类型的指示，即，虚拟源必须是声波的点源、还是必须是平面波的源、还是必须是产生任意波阵面的源(只要呈现模块能够处理这种信息)。

图3示例性地示出了场景描述的示意性示例，其中，示出了各种音频对象AO1、...、AOn+1的时间序列。具体地，如图3所示，指出了定义了时间间隔的音频对象AO3。因此，图3中的音频对象AO3的起点和终点可以平移时间间隔。然而，音频对象AO3的定义是，必须不改变长度，然而该定义对于不同音频对象是可变的。

因此，通过沿正时间方向平移音频对象AO3，可以看出，可以达到以下的情况：音频对象AO3直至音频对象AO2之后才会开始。如果这两个音频对象均在相同的呈现器上播放，则可以通过该措施避免否则将会出现的短重叠20。如果音频对象AO3已经是在现有技术中超过呈现器容量的音频对象，则由于在呈现器上已经要处理的所有其它音频对象(如音频对象AO2和AO1)，所以在没有本发明的情况下，将会出现音频对象AO3的完全抑制，但是时间间隔20非常小。根据本发明，通过音频对象处理装置3来平移音频对象AO3，从而没有超过容量，因而不再出现对音频对象AO3的抑制。

在本发明的优选实施例中，使用具有相对指示的场景描述。因此，通过不再以绝对时间点给出、而是以相对于音频对象AO1的相对时间段来给出音频对象AO2的开始，增加了灵活性。因此，位置指示的相对描述是优选的，即，不是要在再现室内的特定位置xy处设置音频对象的事实，而是例如，将另一音频对象或参考对象偏移一矢量。

从而，可以非常有效地提供时间间隔信息和/或位置间隔信息，即简单地通过固定时间间隔，从而音频对象AO3可以在音频对象AO1开始之后的两分钟与两分钟二十秒之间的时间段内开始。

这种空间和时间条件的相对定义导致了如在例如“ModelingOutput Constraints in Multimedia Database Systems”，T.Heimrich，1^thInternational Multimedia Modelling Conference，IEEE，2005年1月2日至2005年1月14日，Melbourne中所描述的约束条件(constrain)形式的数据库有效表达。这里，示出了数据库系统中约束条件的使用，以定义连续的数据库状态。具体地，使用Allen关系来描述时间约束条件，并使用空间关系来描述空间约束条件。由此，可以针对同步目的来定义有利的输出约束条件。这种输出约束条件包括对象之间的时间或空间条件，在违反约束条件的情况下的反应、以及在必须检查这种约束条件时的检查时间。

在本发明的优选实施例中，相对于彼此，对每个场景的空间/时间输出对象进行建模。音频对象处理装置实现了这些相对和可变定义至绝对空间和时间顺序的转译。该顺序表示在图1中示出的系统的输出6a处获得的、并定义了如何对波场合成系统中的呈现模块进行特别寻址的输出调度。因此，该调度是在与输出条件相对应的音频数据中设置的输出计划。

接下来，基于图4a，将会提出这种输出调度的优选实施例。具体地，图4a示出了根据图4a从左至右传输的数据流，即，从图1的音频对象处理装置3传输至图1的波场系统0的一个或多个波场合成呈现器的数据流。具体地，对于在图4a中示出的实施例中的每个音频对象，数据流包括：首先是位置信息和时间信息所在的报头H，以及特定音频对象的下游音频文件，在图4a中，以AO1指示第一音频对象，AO2指示第二音频对象等。

然后，波场合成呈现器获得数据流，并根据例如出现并一致同意的同步信息，识别出报头的到来。然后，基于另一同步信息，呈现器识别出报头结束。可选地，对于每个报头，可以同意以比特为单位的固定长度。

在接收了报头之后，图4a中示出的本发明的优选实施例中的音频呈现器自动得知后续音频文件(即，AO1)属于音频对象(即，在报头中识别的源位置)。

图4a示出了串行数据至波场合成呈现器的传输。当然，同时在呈现器中播放多个音频对象。为此，呈现器在数据流读取装置之后需要输入缓冲器，以对数据流进行解析。然后，数据流读取装置将解译报头并相应地存储伴随的音频文件，从而当要呈现音频对象时，呈现器从输入缓冲器中读取正确的音频文件和正确的源位置。当然，也可以是用于数据流的其它数据。还可以使用时间/位置信息和实际音频数据的单独传输。然而，由于通过位置/时间信息与音频文件的串联而消除了数据一致性问题，由于总是确保了呈现器还具有音频数据的正确源位置、并不呈现例如先前源的音频文件、而是使用新源的位置信息来呈现，所以在图4a中示出的组合传输是优选的。

尽管图4a示出了串联形成的数据流，并在其中关联报头在每个音频对象的每个音频文件之前(如音频文件AO1的报头H1)，但是为了将音频对象1传送至呈现器，图4b示出了在其中选择了多个音频对象的公共报头的数据结构，每个音频对象的公共报头具有自己的条目，再次由H1、H2和H3来指示音频对象AO1、AO2和AO3的音频文件的报头。

图4c再次示出了可选的数据结构，其中，将报头放置在相应的音频对象的下游。该数据格式还考虑到了音频文件与报头之间的时间关联，这是由于呈现器中的解析器总是能够基于例如特定比特图案或其它同步信息来发现报头的开始。然而，仅在呈现器具有足够大的输入缓冲器，即，能够在关联报头到来之前存储整个音频文件的情况下，图4c中的实施方式才是可行的。为此，图4a或4b中的实施方式是优选的。

图4d再次示出了可选实施例，其中，例如，数据流通过调制方法而包括多个并行传输信道。优选地，对于每个数据流，即对于从数据处理装置至呈现器的每个数据传输，提供了与可以由呈现器呈现的音频源一样多的传输信道。例如，如果呈现器可以呈现最多32个音频源，则在本实施例中提供具有至少32个信道的传输信道。这些信道可以通过任何已知的FDMA、CDMA或TDMA技术来实现。还可以使用并行物理信道的提供。在这种情况下，并行地，即利用最少量的输入缓冲器，来馈入呈现器。作为替代，呈现器经由输入信道接收例如音频源的报头(即音频源AO1的报头H1)，以在第一数据到达之后立即开始呈现。由于以在呈现器中不具有或仅具有极少的“中间存储器”的方式来处理数据，所以通常当然可以以更加密集的调制技术或更加密集的传输路径为代价来实现具有极低存储器需求的呈现器。

因此，本发明基于面向对象的方式，即将单独的虚拟源理解为特征在于音频对象和空间中虚拟位置、以及可能的源类型(即，它是声波的点源、还是平面波的源、还是其它形状的源)的对象。

如已经提出的，波场的计算是计算时间密集的，并且需要所使用的硬件(如声卡和计算机)能力与计算算法的效率结合。在要同时表示多个所要求的声音事件时，甚至基于最佳配置的PC的解决方案也会在波场合成计算过程中迅速到达它的界限。因此，在混频和再现过程中，所使用的软件和硬件的能力限制给出了相对于虚拟源个数的限制。

图6示出了能力受限的已知波场合成概念，包括创作工具60、控制呈现模块62和音频服务器64，其中，控制呈现模块形成用于向扬声器阵列66提供数据，从而扬声器阵列66通过各个扬声器70的各个波的叠加来产生所期望的波阵面68。创作工具60使用户能够创建并编辑场景，并控制基于波场合成的系统。因此，场景包括与各个虚拟音频源有关的信息和音频数据。将音频源的属性和对音频数据的引用存储在XML场景文件中。音频数据本身被提交到音频服务器64上，并从此处被传输至呈现模块。同时，呈现模块从创作工具中获得控制数据，从而以集中化方式具体化的控制呈现模块62可以产生用于各个扬声器的合成信号。图6中示出的概念在“Authoring System for WaveField Synthesis”，F.Melchior，T.R

Figure S06805932920070827D00014182452QIETU

der，S.Brix，S.Wabnik and C.Riegel，AES Convention Paper，115^thAES convention，2003年10月10日，纽约中有所描述。

如果波场合成系统利用多个呈现器模块进行操作，则向每个呈现器提供相同的音频数据，无论呈现器是否由于与之关联的有限个数的扬声器而需要该数据用于再现。由于当前计算机中的每个能够计算32个音频源，所以这表示对于系统的限制。另一方面，要以有效的方式显著增加可以在整个系统中呈现的源的个数。这是复杂应用(如电影)、具有融入式氛围的场景(如雨或欢呼)、或者其它复杂音频场景的实质性先决条件之一。

根据本发明，在波场合成多呈现器系统中实现了冗余数据传输过程和数据处理过程的减少，这导致了计算能力和/或同时可计算的音频源个数的增加。

为了减小对多呈现器系统的各个呈现器的音频和元数据的冗余传输和处理，通过数据输出装置扩展音频服务器，这能够确定哪个呈现器需要哪些音频和元数据。

在优选实施例中，可能由数据管理器来进行帮助的数据输出装置需要多条信息。该信息首先是音频数据，然后是源的时间和位置数据，最后是呈现器的配置，即与所连接的扬声器和它们的位置、以及它们的容量有关的信息。在数据管理技术和输出条件的定义的帮助下，利用音频对象的时间和空间设置，通过数据输出装置来产生输出调度。根据空间设置、时间调度和呈现器配置，数据管理模块计算在特定时刻哪个源与哪个呈现器相关。

图5中示出了优选的整体概念。通过输出侧上的数据输出装置24来补充数据库22，其中，也将数据输出装置称为调度器。然后，该调度器在输出20a、20b、20c处生成用于各种呈现器50的呈现输入信号，从而提供给扬声器阵列的相应扬声器。

优选地，为了通过RAID系统和相应的数据结构缺省值来配置数据库42，由存储管理器52来帮助调度器24。

在输入侧，存在数据生成器54，例如，可以是用于以面向对象方式建模或描述的音频场景的音响大师或音频工程师。这里，给出了包括相应输出条件56的场景描述，如果必要，在变形58之后，将这些输出条件与音频数据一起共同存储在数据库22中。可以通过插入/更新工具59来处理和更新音频数据。

依据条件，可以以硬件或软件来实现本发明的方法。可以在数字存储介质、尤其是软盘或CD上，利用能够与可编程计算机系统合作的电可读控制信号来实现，从而执行本发明的方法。通常，本发明还包括一种计算机程序产品，具有存储在机器可读载体上的程序代码，当在计算机上执行计算机产品时，用于执行本方法。换言之，本发明还可以实现为一种具有程序代码的计算机程序，当在计算机上执行计算机程序时，用于执行本方法。

Claims

1.一种设备，用于利用音频对象来控制波场合成呈现装置(3)，从而波场合成呈现装置根据音频对象，生成可由在再现室中附着的多个扬声器(4)再现的合成信号，所述设备包括：

提供装置(8)，用于提供场景描述，所述场景描述在音频场景中定义了音频对象的时间序列，音频对象包括与虚拟源的源位置有关的信息，并包括用于虚拟源的音频文件或者指向虚拟源的音频文件的参考信息；以及

处理装置(0)，用于处理音频对象，以生成能够馈入波场合成呈现装置(3)的输出数据流，所述输出数据流包括音频对象的音频文件、以及与音频文件相关联且与音频对象的虚拟源的位置有关的信息。

2.如权利要求1所述的设备，其中，场景描述中的音频对象所指向的、或者包含在场景描述中的音频对象的音频文件是压缩音频文件，以及

处理装置(0)形成用于生成输出数据流(2)，以使音频文件包括解压缩音频数据。

3.如权利要求1所述的设备，其中，波场合成呈现装置(3)包括所有扬声器都能够与之连接的单个呈现模块，并且处理装置(0)形成用于生成数据流，在所述数据流中，包含了与虚拟源的位置有关的信息以及要由呈现模块处理的所有数据的音频文件，或者

波场合成呈现装置包括能够与不同扬声器连接的多个呈现模块，并且处理装置(0)形成用于针对每个呈现模块来生成输出数据流，在所述输出数据流中，包含了与虚拟源的位置有关的信息以及仅要由提供有输出数据流的一个呈现模块呈现的音频对象的音频数据。

4.如权利要求1所述的设备，其中，处理装置(0)形成用于生成输出数据流，以使包含虚拟源的位置信息的报头(H)在虚拟源的音频文件之前，使得波场合成呈现装置(3)能够基于关于音频文件的报头的时间位置，来确定要利用报头中的位置信息来呈现音频文件。

5.如权利要求1所述的设备，其中，处理装置(0)形成用于以生成输出数据流，以便生成用于多个音频文件的公共报头，对于每个音频文件，所述公共报头包括标识了每个虚拟源的位置信息、以及还指示了将虚拟源的音频文件设置在数据流中的何处的条目。

6.如权利要求1所述的设备，其中，处理装置(0)形成用于将报头设置在数据流中的固定缺省、绝对或相对位置处。

7.如权利要求1所述的设备，其中，在处理装置(0)和波场合成呈现装置之间，能够使用具有多个传输信道的并行数据连接，其中，处理装置(0)形成用于将在时间上以并行方式出现的音频对象分布至并行传输信道，其中，处理装置(0)还形成用于使得传输信道获得了音频文件和与音频文件相关联的虚拟源的位置有关的信息。

8.如权利要求1所述的设备，其中，处理装置(0)还形成用于由于场景描述而获得与开始时刻或结束时刻有关的信息，并将该信息与音频文件相关联地引入输出数据流。

9.如权利要求1所述的设备，其中，

提供装置(8)形成用于提供具有音频对象相对于另一音频对象或参考音频对象的相对时间信息或位置信息的场景描述，以及

处理装置(0)形成用于根据相对时间信息或相对位置信息，来计算再现室中虚拟源的绝对位置、或者实际开始时刻或实际结束时刻，并将它们与音频文件相关联地引入输出数据流。

10.如权利要求1所述的设备，其中，

提供装置(8)包括存储了音频对象的音频文件的数据库(1)，以及

处理装置(0)形成为数据库(1)输出处的中心数据管理器。

11.一种方法，用于利用音频对象来控制波场合成呈现装置(3)，从而波场合成呈现装置根据音频对象，生成可由在再现室中附着的多个扬声器(4)再现的合成信号，所述方法包括：

提供(8)场景描述，所述场景描述在音频场景中定义了音频对象的时间序列，音频对象包括与虚拟源的源位置有关的信息，并包括用于虚拟源的音频文件、或者指向虚拟源的音频文件的参考信息；以及

处理(0)音频对象，以生成能够馈入波场合成呈现装置(3)的输出数据流，所述输出数据流包括音频对象的音频文件、以及与音频文件相关联且与音频对象的虚拟源的位置有关的信息。