CN101133454B

CN101133454B - 存储音频文件的设备和方法

Info

Publication number: CN101133454B
Application number: CN2006800059333A
Authority: CN
Inventors: 卡特里·赖歇尔特; 加布里埃尔·加茨舍; 桑德拉·布里克斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2005-02-23
Filing date: 2006-02-16
Publication date: 2010-08-04
Anticipated expiration: 2026-02-16
Also published as: US7813826B2; EP1789970B1; DE102005008342A1; CN101133454A; JP2008537833A; DE502006006502D1; WO2006089685A8; EP1789970A1; US20080074775A1; ATE462183T1; WO2006089685A1; JP4625506B2

Abstract

以交叉场景优化方式来存储(4)音频片段的音频文件，从而在读出(1，2)用于需要波场合成系统高利用率的场景的音频文件时，实现了非常短的存储器存取时间，而对于不需要这么高的波场合成系统利用率的场景，接受较长的存储器存取时间。

Description

存储音频文件的设备和方法

技术领域

本发明涉及波场合成领域，更具体地，涉及利用要处理的数据对波场合成呈现装置的控制。

本发明涉及波场合成概念，具体涉及结合多呈现器系统的有效波场合成概念。

背景技术

对于在娱乐电子设备领域中的新技术和创新产品有着日益增长的需求。对于新多媒体系统的成功来说，提供最佳功能或容量是非常重要的先决条件。这通过使用数字技术、特别是使用计算机技术来实现。其示例是提供了增强的接近现实的视听印象的应用。在先前的音频系统中，实质性缺点在于自然以及虚拟环境的三维声音再现的质量。

许多年来，已知音频信号的多信道扬声器再现的方法并对该方法进行了标准化。所有常用技术具有以下缺点：扬声器的地点和收听者的位置已经在传输格式中有所体现。扬声器相对于收听者的错误设置使音频质量显著下降。仅在再现空间的小区域内(所谓有效点(sweetspot))可能有最佳声音。

在新技术的帮助下，可以实现较好的自然空间感以及音频再现的更大范围或包层。TU Delft处已经研究了所谓波场合成(WFS)的技术原理，并首次在80年代后期提出(Berkout，A.J.；de Vries，D.；Vogel，P.：Acoustic control by Wave field Synthesis.JASA93，1993)。

由于该方法对于计算机功率和传输速率的极大需求，波场合成直到现在在实际中也很少采用。目前，只有微处理器技术领域中的进步和音频编码允许在具体应用中采用该技术。期望明年出现在专业领域中的第一个成果。设想在一些年后，消费领域内的第一波场合成应用开始投放市场。

WFS的基本思想基于波动说的惠更斯原理的应用：

波所捕获的每一点是以球或圆方式传播的元波的起点。

应用于声学，通过彼此相邻设置的大量扬声器(所谓扬声器阵列)，来复制每个到来的波阵面(wavefront)的任意形状。在最简单的情况下，即要再现单个点源并且扬声器按照线性设置，则每个扬声器的音频信号必须以时间延迟的方式馈入，并进行振幅缩放，从而各个扬声器的辐射声场适当地重叠。利用多个声源，对于每个源，单独地计算对于每个扬声器的贡献，并将所产生的信号相加。如果要再现的源在具有反射壁的室内，则也必须作为附加源，经由扬声器阵列来再现反射。因此，在计算中的消耗很大程度上取决于声源的个数、录音室的反射属性和扬声器的个数。

具体地，该技术的优点在于，可以在大区域的再现空间上有自然的三维声音印象。与已知技术相反，以非常精确的方式再现声源的方向和距离。在有限程度上，甚至可以在真实的扬声器阵列与收听者之间定位虚拟声源。

尽管波场合成很好地用于具有已知属性的环境，但是如果属性改变或基于不匹配环境实际属性的环境属性而执行波场合成，则会出现紊乱。

周围环境的属性还可以由周围环境的脉冲响应来进行描述。

这将基于后续的示例更加详细地提出。假设扬声器朝墙壁发出声音信号，但不希望有反射。使用波场合成的空间补偿将包括以下事实：首先，确定该墙壁的反射，以确定在已从墙壁反射回来的声音信号何时再次到达扬声器、以及该反射的声音信号具有多大振幅。如果不期望来自该墙壁的反射，则可以利用波场合成，通过施加具有相应振幅、并具有与扬声器上的反射信号相反相位的信号来消除来自该墙壁的反射，从而传播补偿波抵消反射波，使得在所考虑的周围环境中消除了来自该墙壁的反射。这可以通过以下实现：首先计算周围环境的脉冲响应，然后基于该周围环境的脉冲响应来确定墙壁的属性和位置，其中，将墙壁当作镜面源，即反射入射声音的声源。

如果首先测量该周围环境的脉冲响应，然后计算必须以在音频信号上叠加的方式施加于扬声器上的补偿信号，则将会发生来自该墙壁反射的抵消，从而在该周围环境中的收听者具有该墙壁根本不存在的声音印象。

然而，对于反射波的最佳补偿，关键是精确地确定房间的脉冲响应，从而不会出现过补偿或欠补偿。

因此，波场合成允许在大的再现区域上恰当地映射虚拟声源。同时，在非常复杂的声音场景的创建过程中，向音响大师(sound master)和录音师提供了新技术和创造潜力。80年代末在TU Delft开发的波场合成(WFS，或者也称为声场合成)表示声音再现的全息方式。Kirchhoff-Helmholtz积分用作该方式的基础。它阐述了可以通过封闭体积表面上的单极和双极声源(扬声器阵列)的分布来产生该体积内的任意声场。

在波场合成中，根据在虚拟位置处发出虚拟源的音频信号来计算扬声器阵列的每个扬声器的合成信号，其中，关于振幅和相位来形成合成信号，从而从出现在扬声器阵列中的扬声器所输出的各个声波的叠加而产生的波与在虚拟位置处的虚拟源是具有真实位置的真实源的情况下由虚拟位置处的虚拟源所产生的波相对应。

典型地，多个虚拟源出现在各个虚拟位置上。针对每个虚拟位置的每个虚拟源来执行合成信号的计算，从而典型地，一个虚拟源产生了多个扬声器的合成信号。因而，从扬声器角度来看，该扬声器接收返回各个虚拟源的多个合成信号。然后，由于线性叠加原理而导致的这些源的可能叠加产生了实际从扬声器发出的再现信号。

扬声器阵列越大，即提供了越多的各个扬声器，越可以更好地利用波场合成。然而，为此，由于典型地还必须考虑信道信息，所以波场合成单元所必需的计算能力必须增加。详细地，在原理上，这表示出现从每个虚拟源至每个扬声器的自身的传输信道，以及原理上，可以是以下情况：每个虚拟源产生了每个扬声器的合成信号，和/或每个扬声器获得了等于虚拟源个数的多个合成信号。

如果特别地，在影院应用中的波场合成可能要用在虚拟源也可移动的情况下，则可以看出，由于合成信号的计算、信道信息的计算以及通过信道信息和合成信号的组合的再现信号的生成，而导致要运用相当强的计算能力。

此外，应注意，此时，音频再现的质量随着可用扬声器的个数而增加。这表示音频再现质量变得越好并且越逼真，则在扬声器阵列中存在的扬声器越多。

在上述场景中，例如，可以将各个扬声器的完全呈现并进行了模数转换的再现信号从波场合成中心单元经由双线线路传输至各个扬声器。这确实具有以下优点：几乎确保了所有扬声器同步工作，从而在这里不再需要其它措施用于同步目的。另一方面，总是可以仅针对特定再现室或针对利用固定个数的扬声器的再现，对波场合成中央单元进行再现。这表示，由于必须至少部分并行且实时地进行音频再现信号的计算(尤其对于许多扬声器和/或许多虚拟源的情况)，所以对于每个再现室，必须构造它自己的波场合成中央单元，而这必须执行相当大的计算能力。

德国专利DE 10254404B4公开了如图7所示的系统。一个部分是中心波场合成模块10。另一部分包括各个扬声器模块12a、12b、12c、12d、12e，它们与实际的物理扬声器14a、14b、14c、14d、14e(例如，如图1所示)连接。应注意，多个扬声器14a-14e位于大于50的范围中，以及典型地，在典型应用中甚至在远大于100的范围中。如果将特有的扬声器与每个扬声器相关联，则也需要相应个数的扬声器模块。然而，依据该应用，优选对来自扬声器模块的邻接扬声器小组进行选址。在这个连接中，任意地，例如与四个扬声器连接的扬声器模块以相同的再现信号馈入四个扬声器，或者针对四个扬声器计算相应不同的合成信号，从而这种扬声器模块实际包括多个单独的扬声器模块，然而这些扬声器模块物理上概括于一个单元中。

在波场合成模块10和每个单独的扬声器12a-12e之间，存在特有的传输路径16a-16e，每个传输路径与中心波场合成模块和自己的扬声器模块连接。

将提供了高数据速率的串行传输格式(如，所谓Firewire传输格式或USB数据格式)优选作为用于将数据从波场合成模块传输至扬声器模块的数据传输模式。大于每秒100兆比特的数据传输速率是有利的。

因此，根据在波场合成模块中选择的数据格式，来相应地对从波场合成模块10传输至扬声器模块的数据流进行格式化，并提供在常用的串行数据格式中提供的同步信息。由各个扬声器模块从该同步信息中提取该同步信息，并将该同步信息用于使各个扬声器模块相对于它们的再现同步，即最终用于获得模拟扬声器信号和为此而提供的采样(再采样)的模数转换。中心波场合成模块用作主模块，而所有扬声器模块用作客户端，其中，单独的数据流全部都获得经由各个传输路径16a-16e来自中心模块10的相同的同步信息。这确保了所有扬声器模块同步工作，即与主模块10同步，这对于音频再现系统不会遭受音频质量的损失来说非常重要，从而不会在相应的音频呈现之后以与各个扬声器在时间上有偏移的方式来辐射通过波场合成模块所计算的合成信号。

所描述的概念给波场合成系统提供了显著的灵活性，该灵活性对于各种方式的应用是可缩放的。但是仍然存在以下问题：执行实际主呈现(即，依据虚拟源的位置和扬声器位置，计算扬声器的各个合成信号)的中心波场合成模块表示整个系统的“瓶颈”。尽管在该系统中，已经以分散方式执行了“后呈现”(即，具有信道传输功能等的合成信号的强加)，因而已经通过选择具有比所确定的阈值能量小的能量的合成信号，减小了中心呈现模块与单独的扬声器模块之间的必要数据传输能力，但是，仍必须针对所有扬声器模块，呈现所有虚拟源，即转换为合成信号，其中，仅在呈现之后才进行选择。

这表示，呈现仍确定了系统的整个容量。例如，如果中央呈现单元能够同时呈现32个虚拟源，即同时计算这32个虚拟源的合成信号，则如果在一个音频场景中一次有多于32个源是有效的，则出现了严重的容量瓶颈。对于简单场景，这是足够的。对于较复杂的场景，尤其具有融入式的声音印象，即例如在下雨时，许多雨点表示单独的源，则直接显而易见地，具有最多为32个源的容量将不再是足够的。如果存在大管弦乐队，以及实际期望对每个管弦乐队演奏者或至少每个乐器组，作为在自己位置上的自身源进行处理，也存在相应的情形。这里，32个虚拟源可以非常迅速地变得较少。

典型地，在已知的波场合成概念中，使用了场景描述，其中，共同定义了各个音频对象，从而使用场景描述中的数据和用于各个虚拟源的音频数据，呈现器或多呈现装置可以呈现完整的场景。这里，针对每个音频对象，精确地定义了音频对象必须从哪里开始并在哪里结束。此外，对于每个音频对象，精确地指出要成为虚拟源的虚拟源的位置，即要进入波场合成呈现装置的位置，从而针对每个扬声器生成相应的合成信号。这导致了以下的事实：通过作为对合成信号的作用，将从单独的扬声器输出的声波叠加，对于收听者的印象如同声源位于再现室内或再现室外，这通过虚拟源的源位置来定义。

典型地，波场合成系统的容量是有限的。这导致了每个呈现器具有有限的计算能力。典型地，呈现器能够同时处理32个音频源。此外，从音频服务器至呈现器的传输路径具有有限的传输带宽，即提供了以每秒比特为单位的最大传输速率。

对于例如仅有两个虚拟源存在的简单场景，如果考虑对话，除背景噪声之外，还存在另一虚拟源，则事实上可以同时处理例如32个源的呈现器的处理能力不存在问题。此外，在这种情况下，到呈现器的传输量非常小，使得传输路径的容量是足够的。

然而，在再现更加复杂的场景(即，具有多于32个虚拟源的场景)时，将出现问题。在这种情况下，例如在正确再现雨中的场景、或者自然再现欢呼场景的情况下，限于32个虚拟源的呈现器的最大计算能力很快将不再是足够的。这是由于以下事实：因为例如在听众中，在原理上可以将正在欢呼的每个收听者理解为在自身虚拟位置上的自身虚拟源，所以存在许多单独的虚拟源。为了解决这个限制，存在多种可能性。因此，一种可能性是在创建场景描述时已经注意到呈现器从来不必同时处理32个音频对象。

具体地，当考虑波场合成处理的能力增加时，即当要由单独或多个呈现器模块呈现大量虚拟源时，有时将会到达容量瓶颈。这是由于典型的呈现器仅可以同时处理特定最大个数的虚拟源的这一事实。例如，该个数可以是32。然而，呈现器的最大处理能力不是系统的唯一瓶颈。

例如，如果要同时处理32个虚拟源，则还必须同时向呈现器提供32个虚拟源的相应音频文件。典型地，呈现器具有输入缓冲器，它确实稍微改善了对数据传输的需求，但是也必须相应迅速地被填充，尤其在呈现器正在同时处理非常多的源时，即从缓冲器中取出非常多的数据时。

如果设计数据传输结构使它不再赶上数据传递的速度，则呈现器会用尽用于呈现的数据。呈现器仍可以通过简单的重复最后的数据直至新数据到达，来稍微补偿这种情况。然而，这在数据管理中是加强(intensive)的，并且会导致可听到的人为信号(artifact)。如果虚拟源是具有确定性信息(如，语音、音乐等)的源，则这些人为信号将更差。如果虚拟源是噪声源、或者一般所称的声源，则当前数据的这种重复将不太关键。但是这里区分也是存在问题的，尤其当呈现器已经以最大利用率(工作负载)限制运行(这是“用尽”要呈现的音频数据的原因)时，但实际上呈现器必须确切地执行这种“附加”任务的上下文中。

发明内容

本发明的目的是提供了一种用于存储音频文件的概念，实现了更高质量和更易于实现的波场合成。

通过如权利要求1所述的用于存储音频文件的设备、如权利要求13所述的用于存储音频文件的方法、或者如权利要求14所述的计算机程序来实现本发明的目的。

本发明基于以下发现：有效的数据结构是决定性的，从而甚至在呈现器工作在利用率限制下时，也向呈现器提供足够的数据。典型地，从存储设备(如PC或工作站的硬盘)中读出向呈现器提供的数据。

然而发现，对音频文件的存取时间实质上取决于音频文件如何存储在存储设备中的存储介质上。硬盘的写/读头的连续跳跃导致了以下事实：存储设备的读出性能极速降低，从而在特定情况下，不再能够确保向呈现器提供充足的数据。此外发现了，在呈现器正以利用率限制工作、或者接近于它的利用率限制的场景中，正是这种情况。相反地，当在另一场景中呈现器并不工作在接近于它的利用率限制下时，没有太多的问题。因此，在这里，可以很好地接受存储设备的写/读头的跳跃。

根据本发明，在某种意义上，作为波场合成再现的准备，因而对音频文件进行有效存储，其中，应用了交叉场景存储器优化。这样，检查场景描述以发现第一场景需要的波场合成系统的处理能力比另一第二场景更高。然后，控制存储设备的写入装置，从而将由第一场景的场景描述所标识的音频文件写入存储设备，使得存储设备的读取装置可以比将第一场景的音频文件以纯随机方式存储于存储设备上的情况更加快速地读出第一场景的音频文件。与通常的硬盘环境(其中，文件总是存储在硬盘上读取头当前正处于的位置，即以某种随机方式)相反，根据本发明，以优化方式写入强加载在波场合成系统上的场景的音频文件，这当然导致了不会以最佳方式写入其它场景的音频文件。然而，由于在其它场景中，存储设备可以具有更多的存取时间，由于其它场景所需的数据传输速率无论如何不会那么高，由于要并行处理更少的虚拟源，所以这不成问题。

在本发明的优选实施例中，尤其对于用于多个场景中的音频文件，将音频文件存储于存储设备上，从而以最佳方式写入对需要波场合成系统最高利用率的场景的存储存取，同时接受用于存取相同音频文件的其它场景的多个跳动。

在具有多个可以并行使用的单独的存储介质(如，RAID阵列)的存储设备中，优选地，在并行的单独存储介质上存储要并行使用的音频文件，从而可以针对存在容量问题的场景，以最大速度来读出这些音频文件，而对于其它场景，同时要处理的音频文件并不在独立的盘上，而是在例如同一个磁盘上，然而，这对于利用率来说并不关键，在这里无论如何不会那样高。

附图说明

将参照附图，在以下对本发明的优选实施例进行更加详细的描述，其中：

图1是用于存储音频文件的本发明概念的电路框图；

图1b示出了具有不同波场合成系统利用率的场景的示例性音频片段；

图1c示出了优化的交叉场景存储器的第一示例；

图1d示出了优化的交叉场景存储器的第二示例；

图2示出了示例性音频对象；

图3示出了示例性场景描述；

图4示出了比特流，其中具有当前时间数据和位置数据的报头与每个音频对象相关联；

图5示出了嵌入到了整个波场合成系统中的本发明概念：

图6是已知波场合成概念的示意性示例；以及

图7是已知波场合成概念的另一示例。

具体实施方式

图1示出了本发明的设备，该设备利用形成为图1a中示出的实施例中的公共写/读头2的写入装置和读取装置，将音频片段的音频文件存储于存储设备中。音频片段要由波场合成系统3的呈现器来呈现。具体地，音频片段包括多个场景，具有为每个场景所提供的自身场景描述，以及包括场景的音频对象的时间序列的场景。具体地，音频对象包括与虚拟源有关的信息、以及与音频对象相关联的音频文件的标识。

根据本发明，提供了装置4，用于检查场景描述和用于确定第一场景需要比第二场景更高的波场合成系统的处理能力。为此，如图1a所示，可以向装置4提供与波场合成系统3有关的信息，以及尤其是与波场合成系统中呈现器的当前利用率有关的信息。装置4控制控制装置5。控制装置5形成用于控制写/读头2，从而将由第一场景的场景描述所标识的音频文件(即，具有更高利用率的场景的音频文件)写入存储设备1上，使得读取装置2可以比将第一场景的音频文件随机存储在存储设备上的情况更加快速地读出第一场景的音频文件。优选地，音频文件来自另一存储设备6(可以是CD或DVD)，并直接经由控制装置写在存储设备上，或者以控制装置5所确定的正确顺序，通过由控制装置控制的方式直接从附加存储器6提供给存储设备1的写/读头2。

具体地，控制装置5形成用于对存储设备1(例如硬盘)写入，以便在任何情况下不会出现分段，即连续地写入所有音频文件。此外，控制装置形成用于将音频文件写入硬盘中的特定位置。这样，存储(即，物理硬盘的实际写入)不再单独遗留给硬盘控制器、或者出现类似于传统硬盘的情况。作为替代，控制装置5形成用于精确地控制存储设备1的写/读头2，从而将音频文件以特定顺序和布置存储在存储设备上。据此，确保了在波场合成系统要播放音频片段时，至少针对波场合成系统工作在利用率限制下的场景，读取头可以尽可能迅速地读出，例如可以在其间不进行跳跃的情况下沿轨道逐一读出音频文件，并将它们提供给波场合成系统3。相反，对于其它场景，如将参照图1d所描述的，接受跳跃，然而，由于要传输至呈现器的数据无论如何不会那么庞大，所以接受跳跃对于这些场景来说不那么严重。

在此点上应指出，由于音频片段的固有动态，尤其是在苛求的音频场景中，所以在要根据本发明对它们进行处理时，波场合成系统的利用率根本不恒定。而是，利用率简档(profile)将以极高的动态为特征。这样，将会存在利用率非常低的场景或部分，而直接在此之后，利用率可以立即到达最大限制。对于这种情况，可以很好地想像当乐器演奏的一段音乐(仅一个源)消逝，然后观众的欢呼(非常多的不同源)立即开始时的场景。

根据本发明，以最佳和交叉场景的方式来存储音频文件。为此，在播放具有高利用率的场景时，检查需要那些音频文件，以便在之后以优化方式精确地存储这些音频文件。

如图1a所示，波场合成系统3包括呈现器或多个呈现器模块，作为中心元件。典型地，由调度器来控制呈现器，优选地，调度器形成用于使用可能提供的音频对象处理来生成数据流。因此，调度器负责迅速地从存储设备1中读出数据，并将该数据提供给下游的呈现器，然后呈现器根据音频文件来产生提供给扬声器阵列中的各个扬声器的合成信号。

因此，本发明的以交叉场景的优化方式存储音频文件用于为实际的波场合成呈现(在图1a中也被称为“播放”)做准备。因此，本发明的交叉场景的优化存储器用于以下事实：可以在播放时进行快速的数据读取，这非常快，使得至少存储器接口将不会成为波场合成处理的瓶颈。

图1b示出了具有第一场景和第二场景的示例性音频片段，其中，在第一场景中，必须并行呈现四个源和/或四个音频文件AD1、AD2、AD3、AD4，其中，必须在第二场景中并行呈现不多于三个音频文件，即AD6、AD7和AD1。

根据本发明，基于图1c，将在接下来示出针对多个并行盘所形成的存储器优化。这样，将以最佳方式存储第一场景的音频文件作为优先级，这导致了将音频文件AD1、AD2存储在盘1上、以及将音频文件AD3、AD4存储在盘2上。如从图1c可以看出的，该存储器对于第二场景是不利的，这是由于在第二场景中，AD1和AD7彼此并行呈现，所以同时需要这两个音频文件。然而，这两个文件均存储于相同的盘1上，并由音频文件AD2而将它们彼此分离。为了读出第二场景的音频文件，因而硬盘将必须进行一些跳跃，并且也不能从盘1和盘2的并行设置中受益。但是，这也并不是关键的，这是由于第二场景中波场合成系统的利用率低于第一场景中波场合成系统的利用率，因而第二场景中的数据需求低于第一场景中的数据需求。

图1d示出了在诸如硬盘之类的存储介质上的轨道7上的音频文件的设置。图1d示意性地示出了与图1c的并行存储介质相反的、在单个存储介质上的串行设置。这样，可以看出，连续地存储第一场景的音频文件，从而读取头不必跳跃以读取第一场景的第一文件。这导致了音频文件AD1至AD4的非常快速的数据提供。

然而，为了读取第二场景的音频文件，需要多次跳跃。因此，存储设备的读取头必须在读取了音频文件AD5之后跳跃至音频文件AD2，然后在读取了音频文件AD2之后跳回音频文件AD6。这种情况与必须要在音频文件AD7之后读取音频文件AD1时的情况类似。

这样可以看出，在图1d中示出的实施例中，读取第一场景不需要读取头的跳跃，而对于读取第二场景，已经需要读取头的四次跳跃，这减缓了对存储设备中的数据的存取，但是这实质上对第二场景不比对第一场景关键，其中，对于第一场景而言，平缓地读出数据非常重要，从而呈现器不会用尽用于呈现第一场景的数据。

根据本发明，考虑数据结构对于有效的数据输出是决定性的这一事实。在许多实施例中，对于不同介质(CD或DVD)，不能保证馈入呈现器的必要传输速率。因此，基于硬盘的管理是必要的。根据本发明，对于复杂的场景进行存储器布局的优化，以保证对时间需求的观察。

根据本发明，因而一方面实现了音频和元数据的有效传递，另一方面实现了有效的数据结构。这样，可以经由与面向对象的场景描述相对应的元数据来固定音频数据的播放顺序。如果已知播放顺序，则可以优化在播放时对音频数据的存取。计算机不再必须在硬盘或其它存储介质的任意位置处“搜索”音频数据，而是能够连续地读取音频数据，而在存储器中读取访问不需要多次跳跃。通过降低对音频数据的读取访问过程中的努力，可以更加有效地利用资源，因而同时实时处理更多的音频对象。

在数据组织中，优选使用中心数据库。通过中心组织来保证音频和元数据的一致性。此外，采用数据库明显地促进了波场合成场景的再现。这样，优选采用考虑到用于在数据库中找到特定数据的搜索机制。据此，产生了音频对象的交叉场景的可复用性。例如，可以在多个场景中同等地使用音频数据，而不必在创建新场景时再次将它们导入。此外，在数据库的帮助下，可以实现音频和元数据的版本化。这允许用户获得对他们的场景描述的较旧版本的访问，这也促进了产生过程。

在这点上应指出，存储设备不必必须是中心数据库，而是可以具体化为纯标准文件服务器。然而优选地采用音频数据库，这在使用来自各种不同场景的特定音频材料的情况下尤其有利。这样，音频数据库获知了所有场景，并获知了哪个场景使用哪个音频材料、以及何时使用该音频材料。此外，音频数据库访问了音频数据，并可以确定硬盘上音频数据的存储序列。此外，音频数据库可以为音频数据创建最佳交叉场景存储顺序。最后，音频数据库还可以在存储音频文件时发现瓶颈，并相应地对其做出反应。

根据本发明，可选地，这也可以通过将所有场景文件存储于中心位置并实现读出所有场景文件的程序、并从中推导出服务器上音频文件的存储顺序，来有利地实现。然而，数据库强制对于音频文件存储顺序的优化优选场景文件的中心存储。

根据本发明，执行音频源的时间和空间设置、以及从中产生的存储介质上的音频文件存储顺序的优化。为此，使用数据的交叉场景优化，这优选地使用中心存储和场景管理。

接下来，参照图2，图2指出了音频对象应当有利地具有的信息。因此，音频对象要规定音频文件，从而使音频文件表示虚拟源的音频内容。但是，音频对象并不必包括音频文件，而是可以具有指向在存储了实际音频文件的数据库中的所定义位置的索引。

此外，音频对象优选包括虚拟源的识别，例如，这可以是源编号或有意义的文件名等。此外，在本发明中，音频对象规定了虚拟源(即，音频文件)的开始和结束的时间间隔。如果仅规定了开始的时间间隔，则这表示可以在该时间间隔内由呈现器来改变该文件的呈现的实际起点。如果另外给出了结束的时间间隔，则这表示该结尾也可以在时间间隔内改变，依据实施方式，这将共同导致音频文件关于其长度的变化。任何实施方式都是可能的，如音频文件开始/结束时间的定义，从而实际上允许起点发生平移，但在任何情况下，必须不改变长度，从而音频文件的结束也自动地发生平移。然而，具体地，对于噪声，由于典型地，例如风声将早一些或晚一些开始、还是早一些或晚一些结束都不成问题，所以优选使结束可变。依据实施方式，其它的规定也是可以的和/或所期望的，如实际上允许起点改变而不允许终点改变的规定等。

优选地，音频对象还包括用于位置的位置间隔。因此，对于特定音频对象，它们是来自例如左前、还是前中、还是相对于再现室中的参考点移动了某个(小)角度都不重要。然而，如已经解释的，还存在再次来自噪声区域的音频对象，它们可以位于任何任意的位置并因而具有最大位置间隔，例如，可以通过音频对象中的“任意”代码或不通过代码(隐性)来规定。

音频对象可以包括其它信息，如虚拟源类型的指示，即，虚拟源必须是声波的点源、还是必须是平面波的源、还是必须是产生任意波阵面的源(只要呈现模块能够处理这种信息)。

图3示例性地示出了场景描述的示意性示例，其中，示出了各种音频对象AO1、...、AOn+1的时间序列。具体地，如图3所示，指出了定义了时间间隔的音频对象AO3。因此，图3中的音频对象AO3的起点和终点可以平移时间间隔。然而，音频对象AO3的定义是，必须不改变长度，然而该定义对于不同音频对象是可变的。

因此，通过沿正时间方向平移音频对象AO3，可以看出，可以达到以下的情况：音频对象AO3直至音频对象AO2之后才会开始。如果这两个音频对象均在相同的呈现器上播放，则可以通过该措施避免否则将会出现的短重叠20。如果音频对象AO3已经是在现有技术中超过呈现器容量的音频对象，则由于在呈现器上已经要处理的所有其它音频对象(如音频对象AO2和AO1)，所以在没有本发明的情况下，将会出现音频对象AO3的完全抑制，但是时间间隔20非常小。根据本发明，通过音频对象处理装置3来平移音频对象AO3，从而没有超过容量，因而不再出现对音频对象AO3的抑制。

在本发明的优选实施例中，使用具有相对指示的场景描述。因此，不再以绝对时间点给出、而是以相对于音频对象AO1的相对时间段来给出音频对象AO2的开始，增加了灵活性。因此，位置指示的相关描述是优选的，即，不是要在再现室内的特定位置xy处设置音频对象的事实，而是例如，将另一音频对象或参考对象偏移一矢量。

从而，可以非常有效地提供时间间隔信息和/或位置间隔信息，即简单地通过固定时间间隔，从而音频对象AO3可以在音频对象AO1开始之后的两分钟与两分钟二十秒之间的时间段内开始。

这种空间和时间条件的相对定义导致了如在例如“ModelingOutput Constraints in Multimedia Database Systems”，T.Heimrich，1^thInternational Multimedia Modelling Conference，IEEE，2005年1月2日至2005年1月14日，Melbourne中所描述的约束条件(constrain)形式的数据库有效表达。这里，示出了数据库系统中约束条件的使用，以定义连续的数据库状态。具体地，使用Allen关系来描述时间约束条件，并使用空间关系来描述空间约束条件。由此，可以针对同步目的来定义有利的输出约束条件。这种输出约束条件包括对象之间的时间或空间条件，在违反约束条件的情况下的反应、以及在必须检查这种约束条件时的检查时间。

在本发明的优选实施例中，相对于彼此，对每个场景的空间/时间输出对象进行建模。音频对象处理装置实现了这些相对和可变定义至绝对空间和时间顺序的转译。该顺序表示在图1中示出的系统的输出6a处获得的、并定义了如何对波场合成系统中的呈现模块进行特别寻址的输出调度。因此，该调度是在与输出条件相对应的音频数据中设置的输出计划。

接下来，基于图4，将会提出这种输出调度的优选实施例。具体地，图4示出了根据图4从左至右传输的数据流，即，从图1的音频对象处理装置3传输至图1的波场系统0的一个或多个波场合成呈现器的数据流。具体地，对于在图4中示出的实施例中的每个音频对象，数据流包括：首先是位置信息和时间信息所在的报头H，以及特定音频对象的下游音频文件，在图4中，以AO1指示第一音频对象，AO2指示第二音频对象等。

然后，波场合成呈现器获得数据流，并根据例如出现并一致同意的同步信息识别出报头的到来。然后，基于另一同步信息，呈现器识别出报头结束。可选地，对于每个报头，可以同意以比特为单位的固定长度。

在接收了报头之后，图4中示出的本发明的优选实施例中的音频呈现器自动得知后续音频文件(即，AO1)属于音频对象(即，在报头中识别的源位置)。

图4示出了串行数据至波场合成呈现器的传输。当然，同时在呈现器中播放多个音频对象。为此，呈现器在数据流读取装置之后需要输入缓冲器，以对数据流进行解析。然后，数据流读取装置将解译报头并相应地存储伴随的音频文件，从而当要呈现音频对象时，呈现器从输入缓冲器中读取正确的音频文件和正确的源位置。当然，也可以是用于数据流的其它数据。还可以使用时间/位置信息和实际音频数据的单独传输。然而，由于通过位置/时间信息与音频文件的串联而消除了数据一致性问题，由于总是确保了呈现器还具有音频数据的正确源位置、并仍不呈现例如先前源的音频文件、而是使用新源的位置信息来呈现，所以在图4中示出的组合传输是优选的。

因此，本发明基于面向对象的方式，即将单独的虚拟源理解为特征在于音频对象和空间中虚拟位置、以及可能的源类型(即，它是声波的点源、还是平面波的源、还是其它形状的源)的对象。

如已经提出的，波场的计算是计算时间密集的，并且需要所使用的硬件(如声卡和计算机)能力与计算算法的效率结合。在要同时表示多个所要求的声音事件时，甚至基于最佳配置的PC的解决方案也会在波场合成计算过程中迅速到达它的限制。因此，在混频和再现过程中，所使用的软件和硬件的能力限制给出了相对于虚拟源个数的限制。

图6示出了能力受限的已知波场合成概念，包括创作工具60、控制呈现模块62和音频服务器64，其中，控制呈现模块形成用于向扬声器阵列66提供数据，从而扬声器阵列66通过各个扬声器70的各个波的叠加来产生所期望的波阵面68。创作工具60使用户能够创建并编辑场景，并控制基于波场合成的系统。因此，场景包括与各个虚拟音频源有关的信息和音频数据。将音频源的属性和对音频数据的引用存储在XML场景文件中。音频数据本身被提交到音频服务器64上，并从此处被传输至呈现模块。同时，呈现模块从创作工具中获得控制数据，从而以集中化方式具体化的控制呈现模块62可以产生用于各个扬声器的合成信号。图6中示出的概念在“Authoring System for WaveField Synthesis”，F．Melchior，T．

S．Brix，S．Wabnik and C．Riegel，AES Convention Paper，115^thAES convention，2003年10月10日，纽约中有所描述。

如果波场合成系统利用多个呈现器模块进行操作，则向每个呈现器提供相同的音频数据，无论呈现器是否由于与之关联的有限个数的扬声器而需要该数据用于再现。由于当前计算机中的每个能够计算32个音频源，所以这表示对于系统的限制。另一方面，要以有效的方式显著增加可以在整个系统中呈现的源的个数。这是复杂应用(如电影)、具有融入式氛围的场景(如雨或欢呼)、或者其它复杂音频场景的实质性先决条件之一。

根据本发明，在波场合成多呈现器系统中实现了冗余数据传输过程和数据处理过程的减少，这导致了计算能力和／或同时可计算的音频源个数的增加。

为了减小对多呈现器系统的各个呈现器的音频和元数据的冗余传输和处理，通过数据输出装置扩展音频服务器，这能够确定哪个呈现器需要哪些音频和元数据。

在优选实施例中，可能由数据管理器来进行帮助的数据输出装置需要多条信息。该信息首先是音频数据，然后是源的时间和位置数据，最后是呈现器的配置，即与所连接的扬声器和它们的位置、以及它们的容量有关的信息。在数据管理技术和输出条件的定义的帮助下，利用音频对象的时间和空间设置，通过数据输出装置来产生输出调度。根据空间设置、时间调度和呈现器配置，数据管理模块计算在特定时刻哪个源与哪个呈现器相关。

图5中示出了优选的整体概念。通过输出侧上的数据输出装置24来补充数据库22，其中，也将数据输出装置称为调度器。然后，该调度器在输出20a、20b、20c处生成用于各种呈现器50的呈现输入信号，从而提供给扬声器阵列的相应扬声器。

优选地，为了通过RAID系统和相应的数据结构缺省值来配置数据库42，由存储管理器52来帮助调度器24。

在输入侧，存在数据生成器54，例如，可以是用于以面向对象方式建模或描述的音频场景的音响大师或音频工程师。这里，给出了包括相应输出条件56的场景描述，如果必要，在转换58之后，将这些输出条件与音频数据一起共同存储在数据库22中。可以通过插入/更新工具59来处理和更新音频数据。

依据条件，可以以硬件或软件来实现本发明的方法。可以在数字存储介质、尤其是软盘或CD上，利用能够与可编程计算机系统合作的电可读控制信号来实现，从而执行本发明的方法。通常，本发明还包括一种计算机程序产品，具有存储在机器可读载体上的程序代码，当在计算机上执行计算机产品时，用于执行本方法。换言之，本发明还可以实现为一种具有程序代码的计算机程序，当在计算机上执行计算机程序时，用于执行本方法。

Claims

1.一种设备，用于利用写入装置和读取装置，将音频片段的音频文件存储于存储设备(1)中，其中，所述音频片段要由波场合成系统(3)的呈现器呈现，所述音频片段包括多个场景，针对每个场景提供场景描述，场景定义了场景的音频对象的时间序列，所述音频对象包括与虚拟源有关的信息和与所述音频对象相关联的音频文件的标识，所述设备包括：

检查装置(4)，用于检查场景描述，并用于确定第一场景需要比第二场景更高的波场合成系统的处理能力；以及

控制装置(5)，用于控制写入装置，从而将由第一场景的场景描述所标识的音频文件写在存储设备(1)上，使得读取装置能够比将第一场景的音频文件随机存储在存储设备(1)上的情况更加快速地读出第一场景的音频文件。

2.如权利要求1所述的设备，其中，第一场景的音频对象和第二场景的音频对象标识了相同的音频文件，以及

所述控制装置(5)用于控制写入装置，从而将音频文件存储在存储设备(1)中，使得当读取在第一场景中标识的音频文件时，读取装置能够以比在读取第二场景的音频文件时读取音频文件所花费的访问时间短的访问时间来读取音频文件。

3.如权利要求1所述的设备，其中，所述存储设备(1)包括轨道(7)，所述读取装置沿所述轨道(7)移动，以及

所述控制装置(5)用于控制写入装置，从而沿所述轨道写入第一场景的音频文件。

4.如权利要求1所述的设备，其中，所述存储设备(1)是具有单个存取介质的并行存储设备，所述控制装置(5)用于控制写入装置，从而将要由呈现器并行呈现的第一场景的音频文件存储在不同的单个存取介质上。

5.如权利要求3所述的设备，其中，所述控制装置(5)用于控制写入装置，从而根据标识了音频文件的第一场景的音频对象的出现时间顺序，沿所述轨道(7)存储第一场景的音频文件。

6.如权利要求2所述的设备，其中，所述存储设备(1)包括轨道(7)，所述读取装置沿所述轨道(7)移动，以及

所述控制装置(5)用于控制写入装置，从而将音频文件存储在紧邻另一音频文件之前或之后的轨道上，所述另一音频文件标识了要由呈现器与标识了所述音频文件的一个音频对象并行呈现的音频对象。

7.如权利要求1所述的设备，其中，检查装置(4)用于将包括要由呈现器同时呈现的音频对象比另一场景的音频对象多的音频对象的场景确定为第一场景。

8.如权利要求1所述的设备，其中，检查装置(4)用于：仅在波场合成系统的场景引起的利用率达到最大利用率的预定比例时，才将场景确定为第一场景。

9.如权利要求1所述的设备，其中，所述控制装置(5)用于控制写入装置，从而在将第一场景的音频文件存储在存储设备(1)上之后，将第二场景的音频文件存储在仍保持空白的存储设备(1)的位置处。

10.如权利要求1所述的设备，其中，所述存储设备(1)是具有一个存储盘或多个存储盘的硬盘，其中，为每个存储盘提供写/读头。

11.如权利要求1所述的设备，其中，所述写入装置和读取装置形成为同一个物理组件。

12.如权利要求1所述的设备，其中，所述控制装置(5)用于控制写入装置，从而将由第一场景的音频对象所标识的音频文件连续地写在存储设备(1)上，在读取第一场景的音频文件时，读取装置不必跳跃。

13.一种方法，用于利用写入装置和读取装置，将音频片段的音频文件存储于存储设备(1)中，其中，所述音频片段要由波场合成系统(3)的呈现器呈现，所述音频片段包括多个场景，针对每个场景提供场景描述，场景定义了场景的音频对象的时间序列，所述音频对象包括与虚拟源有关的信息和与所述音频对象相关联的音频文件的标识，所述方法包括：

检查(4)场景描述并确定第一场景需要比第二场景更高的波场合成系统(3)的处理能力；以及

控制(5)写入装置，从而将由第一场景的场景描述所标识的音频文件写在存储设备(1)上，使得读取装置能够比将第一场景的音频文件随机存储在存储设备(1)上的情况更加快速地读出第一场景的音频文件。