CN1849845A

CN1849845A - 用于产生、存储或加工音频场景的音频表示的设备和方法

Info

Publication number: CN1849845A
Application number: CNA2004800264019A
Authority: CN
Inventors: 桑德拉·布瑞克斯; 弗兰克·梅尔基奥尔; 简·兰格哈默尔; 托马斯·罗德; 凯瑟琳·缪尼奇
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2003-08-04
Filing date: 2004-08-02
Publication date: 2006-10-18
Anticipated expiration: 2024-08-02
Also published as: CN100508650C; US7680288B2; WO2005017877A3; EP1652405A2; JP4263217B2; EP1652405B1; JP2007501553A; US20050105442A1; WO2005017877A2; ATE390824T1; DE10344638A1

Abstract

一种用于产生、存储或加工音频场景的音频表示的设备，包括：用于从多个输入信道(16)中产生多个扬声器信号的音频处理装置(12)，和提供音频场景的面向对象的记载的装置(10)，其中该音频场景的面向对象的记载包括多个音频对象，其中音频对象与音频信号、开始时刻和结束时刻相关联。该用于产生的设备的特征还在于映射装置(18)，该映射装置(18)用于将音频场景的面向对象的记载映射到音频处理器的多个输入信道，其中通过映射装置将时间上重叠的音频对象分配到并行的输入信道，而时间上顺序的音频对象被分配给同一信道。因此，面向对象的表示被转换到面向信道的表示，从而在面向对象侧可以使用场景的最佳表示，而在面向信道侧可以保持用户所习惯的面向信道的概念。

Description

用于产生、存储或加工音频场景的音频表示的设备和方法

技术领域

本发明涉及波场合成领域，尤其涉及用于产生、存储或加工音频场景的音频表示的设备和方法。

背景技术

在娱乐电子领域中越来越需要新技术和创新产品。新的多媒体系统成功的一个重要先决条件就是提供最佳的功能或性能。这通过使用数字技术，尤其是使用计算机技术而获得。一个例子就是提供增强的逼真视听印象的应用。在以前的音频系统中，主要的缺点在于自然以及虚拟环境的空间声音再现的质量。

音频信号的多信道扬声器再现的方法已经众所周知并且已经被标准化很多年了。所有常用技术的缺点在于扬声器的安装位置和听众的位置已经印记在传输格式中。如果相对于听众，扬声器的排列是错误的，那么音频质量就非常差。最佳声响仅仅在再现空间的小区域中是可能的，即所谓的最佳听音位置(sweet spot)。

借助新技术可以在音频再现中实现更好的自然立体感和更好的包围。该技术的原理，即所谓的波场合成(WFS)，已经被TU Delft研究，并在80年代末首次出现(Berkout，A.J.；de Vries，D.；Vogel，P.；Acoustic control by Wave-field Synthesis.JASA 93，993)。

因为该方法需要强大的计算机性能和传输速率，所以波场合成至今还很少用于实践中。如今，只有微处理器技术和音频编码领域的发展才能允许在具体应用中使用该技术。在专业领域中的首个产品预计明年出现。用于消费领域的首个波场合成应用也应该在几年后进入市场。

WFS的基本思想基于波动理论的惠更斯(Huygens)原理的应用。

波所捕捉的每个点是以球或圆形方式传播的元波的起点。

应用于声学，每个任意形状的输入波阵面可以被大量相邻设置的扬声器(所谓的扬声器阵列)复制。在最简单的情况中，要被再现的单个点源和线性排列的扬声器，每个扬声器的音频信号必须被以一定时延和振幅定标被馈送，使得各个扬声器的辐射声场能够正确地重叠。在多个声源时，为每个源分别计算对每个扬声器的值，并将所得到的信号相加。如果要被再现的源位于具有反射墙的空间内，那么作为附加源的反射也必须通过扬声器阵列被再现。因此，计算开销非常依赖于声源的数量、录音房的反射属性以及扬声器的数量。

更具体而言，该技术的优点在于在再现空间的大区域上可以实现自然的立体声音感。与已知技术相比，声源的方向和距离被非常精确地再现。在受限的程度内，虚拟声源甚至可以位于真实的扬声器阵列和听众之间。

虽然波场合成对于属性已知的环境来说起很好的作用，但是如果属性改变或者如果基于与环境的实际属性不一致的环境属性而执行波场合成，就不再有规律。

然而，同样可以有利地使用波场合成技术，以为视觉补充相应的立体听觉。以前，在虚拟工作室的产品中，虚拟场景的可信视觉的传输是重要的。与图像匹配的听觉通常事后在所谓的后期制作中通过手动步骤印记在音频信号上，或者在现实中被归为昂贵和耗时的并因此被省略。因此，通常出现单独感觉的矛盾，其导致了设计的空间-即设计的场景-感觉不那么真实。

通常，音频材料-例如电影的音频材料-包括多个音频对象。其中，音频对象是电影背景(Film-Setting)中的声源。如果例如在一个电影场景中，两个人面对面站着讲话，同时例如骑马者和火车靠近，那么在某段时间内该场景中共存在四个声源，即两个人、靠近的骑马人、和驶来的火车。假设对话中的两个人同时不讲话，那么如果在一个时刻，两个人正好是沉默的，则总是至少两个音频对象，即骑马者和火车，应该是活动的。但是如果一个人在另一个时刻讲话了，那么就有3个音频对象是活动的，即骑马者、火车和这个人。如果这两个人实际上同时讲话，那么在这个时刻就有4个音频对象是活动的，即骑马者、火车、第一个人和第二个人。

一般来讲，音频对象这样表示，使得该音频对象描述电影背景中的一个声源，其在某个时刻是活动的或者是“活的”。这表示，音频对象还由开始时刻和结束时刻来特征化。在前一个例子中，骑马者和火车例如在整个背景过程中都是活动的。当两个靠近时，听众将感觉到骑马者的声音以及火车的声音越来越大，并且在可能的情况下-在最佳波场合成背景中-这些声源的位置也相应地改变。另一方面，正在对话的两个人不断地产生新的音频对象，因为总是当一个说话者停止说话时，当前的音频对象结束，而当另一个说话者开始说话时，新的音频对象开始，当该另一个说话者停止说话时，这个音频对象又结束，其中当第一说话者再一次开始说话时，新的音频对象再一次开始。

现有的波场合成播放设备能够从一定数量的输入信道中产生一定量的扬声器信号，即知道波场合成扬声器阵列中扬声器的各个位置。

波场合成播放器某种程度上是波场合成系统的“心脏”，其为扬声器阵列的多个扬声器计算出振幅和相位正确的扬声器信号，使得用户不仅具有最佳视觉还具有最佳听觉。

自从60年代末在电影中引入多信道音频，让听众觉得他们真正处于场景中是录音师们一直的目标。为再现系统引入环绕信道又是一个里程碑。新的数字系统出现在90年代，其使得音频信道的数量有所增加。如今，5.1或7.1系统是电影再现的标准系统。

这些系统已经证明在许多情况下作为创造性地支持电影感觉的好潜力，并为音效、气氛或混合环绕音乐提供好的可能性。另一方面，波场合成技术如此灵活，使得在这个方面提供最大自由度。

但是，5.1或7.1系统的使用已经产生了多种处理电影声轨的混合的“标准化”方法。

再现系统通常具有固定的扬声器位置，诸如在5.1的情况中，左信道(“左”)、中间信道(“中央”)、右信道(“右”)、环绕左信道(“环绕左”)、和环绕右信道(“环绕右”)。作为这些固定的(几个)位置的结果，录音师所追求的理想声音图像被限制到少量的座位上，即所谓的最佳听音位置。在上述5.1位置之间使用假想源尽管在特定情况下确实得到改善，但并不总获得满意的结果。

电影的声音通常包括对话、音效、气氛和音乐。在考虑到5.1和7.1系统的限制的情况下，这些元素的每一个被混合。典型地，对话被混合在中央信道中(在7.1系统中也混合到半左位置和半右位置)。这说明，当演员在屏幕上运动时，声音并没有跟随。如果他们很快运动，则只能实现运动声音对象效果，使得听众不能识别声音何时从一个说话者过渡到另一个说话者。

因为在前面扬声器和环绕扬声器之间存在大的可听见的间隙，所以侧面源同样不能被定位，使得对象不能从后向前或者从前向后缓慢移动。

此外，环绕扬声器被放置于扩散的扬声器阵列中，因此产生对于听众表示一种包围的声音图像。因此，避免听众后面的精确定位的声源，以便避免伴随着该精确定位声源的不舒服的声干涉场。

作为用于构建听众所感觉的声场的完全新的方式方法的波场合成克服了这些主要的缺点。影院应用的结果就是可以获得精确的声音图像，而没有关于对象的2维定位的限制。这在为影院目的而设计和混合声音方面提供了多种可能性。由于通过波场合成技术所实现的完全声音图像再现，所以现在声源可以被自由地定位。此外，声源可以作为聚焦源放置在听众空间内，也可以放置在听众空间之外。

此外，可以通过使用点形辐射源或者平面波产生稳定的声源方向和稳定的声源位置。最后，声源可以在听众空间之内、之外、或跨越内外自由地运动。

这导致巨大的创造性可能性的潜力，也导致精确地根据屏幕上的图像-例如对于整个对话-放置声源。由此，听众确实可以不仅在视觉上而且在声音上融入电影中。

由于历史的情况，声音设计-即录音师的行为-基于信道或轨道范例。这意味着，编码格式或扬声器数量-即5.1系统或7.1系统-确定再现配置。尤其地，特定声音系统还需要特定编码格式。因此，不可能在不重新执行完全混合的情况下进行关于主文件的任何变化。例如，不能在最终的主文件中选择性地改变对话轨道，即改变一个对话轨道而不改变该场景中的所有其他声音。

另一方面，观众/听众对于信道无所谓。他们不关心声音从哪个声音系统产生、原始声音记载是以面向对象的方式呈现还是以面向信道的方式呈现的等等。听众也不关心音频背景是否以及如何混合。对于听众而言重要的是听觉，即他们是否喜欢电影的音频背景、或者不带有影片的音频背景。

另一方面，重要的是让应该以新概念工作的人接收新概念。录音师负责混音。由于面向信道的范例，录音师被“校准”以便以面向信道的方式工作。例如对于具有5.1声音系统的影院，他们的目的就是混合6个信道。其中，他们使用例如在虚拟工作室中所记录的音频信号，并混合最终的例如5.1或7.1扬声器信号。这不涉及音频对象，而是涉及面向信道。因此，在这种情况下，音频对象通常没有开始时刻或者没有结束时刻。相反，扬声器的信号从影片的第一秒开始活动，直到影片的最后一秒。这是因为，经由典型影院声音系统的(几个)扬声器中的一个，总是产生一些声音，因为总是存在经由特定扬声器辐射的声源，即使其仅仅是背景音乐。

因此，按如下方式使用现有波场合成播放单元，即其以面向信道的方式工作，其也具有一定数量的输入信道，当音频信号连同相应的信息被输入到输入信道时，就从输入信道产生波场合成扬声器阵列的各个扬声器或者扬声器组的扬声器信号。

另一方面，波场合成技术使得音频场景基本上“更透明”，即原则上可以存在无限多数量的音频对象通过影片被观察-即通过音频场景被观察。如果音频场景中音频对象的数量超过音频处理设备的输入信道的通常总是预先给定的最大值，则面向信道的波场合成播放设备可能出问题。此外，对于用户，即对于例如产生音频场景的音频表示的录音师，大量在某些时刻存在而在其他时刻又不存在的、即具有定义的开始和定义的结束时刻的音频对象将是纷乱的，这又可能导致在录音师和波场合成之间构建心理阈值，该阈值应该正好给录音师带来显著的创造性潜力。

发明内容

本发明的目的是提供一种用于产生、存储或加工音频场景的音频表示的概念，其在用户方面具有高的赞同度，还为其考虑相应的工具。

该目的通过如权利要求1所述的用于产生、存储或加工音频场景的音频再现的设备、如权利要求15所述的用于产生、存储或加工音频场景的音频再现的方法，或如权利要求16所述的计算机程序来实现。

本发明基于这样的知识：对于音频对象，如他们在典型电影背景中出现那样，只有面向对象的记载可以以清楚、有效的方式被处理。带有具有音频信号、并且定义的开始和定义的结束时刻与其相对应的对象的音频场景的面向对象的记载对应于其中很少发生声音从头到尾都存在的、真实世界的典型环境。相反，例如在对话中，通常是一个对话方开始讲话和停止讲话，或者声音通常具有开始和结束。就这点来说，用于将独立的对象对应于真实生活的每个声源的面向对象的音频场景记载与自然环境匹配，因此在透明度、清楚度、效果和可懂度方面是最优的。

另一方面，由于信道范例，例如希望从音频场景中产生音频表示-即希望涉及他们的创造潜力-以便在影院中在考虑特定音效的情况下尽可能“合成”音频场景的音频表示的录音师习惯以硬件或软件实现的混音台工作，其是面向信道工作方法的结果转化。在硬件或软件实现的混音台中，每个信道具有调节器、按钮等等，通过其可以操纵-即“混合”-该信道中的音频信号。

根据本发明，通过使用映射设备以将音频场景的面向对象的记载映射到音频处理设备-例如波场合成播放单元-的多个输入信道上，从而实现了在正确对待生活的面向对象的音频表示和正确对待录音师的面向信道的表示之间的平衡。根据本发明，映射设备被构造，以便将第一音频对象分配给一个输入信道，并将开始时刻位于第一音频对象的结束时刻之后的第二音频对象分配给同一输入信道，将开始时刻位于第一音频对象的开始时刻之后并位于第一时间对象的结束时刻之前的第三音频对象分配给多个输入信道中的另一输入信道。

这种将同时发生的音频对象分配给波场合成播放单元的不同输入信道、但是将依次发生的声音对象分配给相同输入信道的时间分配已经证明非常有效率。这意味着，平均起来，波场合成播放单元的相对少量的输入信道被占用，这一方面是为了清楚的目的，另一方面是迎合总是计算消耗大的波场合成播放单元的计算效率。由于平均起来相对少量的同时被占用信道，因此用户-例如录音师-能够快速地浏览某时刻的音频场景的复杂性，而不需要从大量输入信道中查找哪些对象正好是活动的或者哪些对象正好不是活动的。另一方面，用户可以没有困难地通过其习惯的信道调节器来如面向对象的表示中那样操作音频对象。

根据期望，这将通过以下方式提高根据本发明的概念的接受度，即为具有根据本发明的概念的用户提供熟悉的工作环境，但是这个工作环境包含不一样的更高的创新潜力。根据本发明的概念基于将面向对象的音频途径映射到面向信道的播放途径，因此其胜任所有要求。一方面，音频场景的面向对象的记载-如其已经被执行的那样，最适合自然，因此是有效的并且是清楚的。另一方面，还考虑用户的习惯和需求，如下：技术取决于用户，而不是相反。

附图说明

以下将参考附图更详细的描述本发明的优选实施例，其中

图1是根据本发明的用于产生音频表示的设备的电路框图；

图2是用于图1所示概念的用户接口的示意图；

图3a是根据本发明一个实施例的图2的用户接口的示意图；

图3b是根据本发明另一实施例的图2的用户接口的示意图；

图4是根据优选实施例的本发明设备的电路框图；

图5是具有各种不同音频对象的音频场景的时间示图；

图6是根据本发明的用于图5所示的音频场景的在对象和信道之间1:1转换和对象信道分配的比较。

具体实施方式

图1表示根据本发明的用于产生音频场景的音频表示的设备的电路框图。根据本发明的设备包括用于提供音频场景的面向对象的记载的装置10，其中音频场景的面向对象的记载包括多个音频对象，其中一个音频对象与至少一个音频信号、开始时刻和结束时刻相关联。根据本发明的设备还包括音频处理装置12，用于产生多个扬声器信号LSi 14，其中音频处理装置12是面向信道的，并且从多个输入信道EKi中产生多个扬声器信号14。在提供装置10和面向对象的音频信号处理装置之间设置映射装置18，用于将音频场景的面向对象的记载映射到面向信道的音频信号处理装置12的多个输入信道16上，其中音频信号处理装置例如被构造为WFS播放单元，映射装置18被构造以便将第一音频对象分配给一个输入信道-诸如EK1，并将开始时刻位于第一音频对象的结束时刻之后的第二音频对象分配给同一输入信道-诸如EK1，并将开始时刻位于第一音频对象的开始时刻之后并位于第一音频对象的结束时刻之前的第三音频对象分配给多个输入信道中另一输入信道-诸如EK2。映射装置18因此被被构造以便将时间上不重叠的音频对象分配给同一输入信道，并且将时间上重叠的音频对象分配给不同的并行输入信道。

在一个优选实施例-其中面向信道的音频信号处理装置12包括波场合成播放单元-中，音频对象也被这样指定，使得他们与虚拟位置相关联。对象的虚拟位置可以在对象的生存期内改变，这对应于一种情况，在该情况中，例如骑马者接近屏幕正中央，使得骑马者的飞驰声变得越来越大，尤其是越来越靠近收听空间。在该情况中，音频对象不仅仅包括与该音频对象相关联的音频信号、开始时刻和结束时刻，还包括可以随着时间变化的虚拟声源的位置，在可能的情况下还包括音频对象的其他属性，诸如其是否应具有点源属性或者是否应发射平面波，这将对应于距离观众有限远的虚拟点。技术上，声源-即音频对象-的更多属性是已知的，其可以根据图1的面向信道的音频信号处理装置12的装备来考虑。

根据本发明，设备的结构被分层构造，如下：用于接收音频对象的面向信道的音频信号处理装置不直接与提供装置组合，而是经由映射装置与其组合。这导致了这样的事实，即整个音频场景仅仅在提供装置中应该是已知的和被存储，但是映射装置、甚至面向信道的音频信号处理装置必须知道整个音频背景。相反，映射装置18和音频信号处理装置12在由提供装置10所提供的音频场景指令下工作。

在本发明一个优选实施例中，图1所表示的装置还配备有用户接口，如图2中20所示。用户接口20被构造以便每个输入信道具有一个用户接口信道，以及优选地具有用于每个用户接口信道的操纵器。用户接口20通过其用户接口输入22连接到映射装置18，以便从映射装置获得分配信息，因为输入信道EK1至EKm的占用是由接口20显示的。在输出侧，当用户接口具有用于每个用户接口信道的操纵器特征时，用户接口20被连接到提供装置10。特别地，用户接口20被构造以便通过其用户接口输出24为提供装置10提供关于原始版本的被操纵的音频对象，提供装置10由此获得被改变的音频场景，被改变的音频场景随后再一次被提供给映射装置18以及-相应地分到输入信道-提供给面向信道的音频信号处理装置12。

根据实现，用户接口20被构造为如图3a所示的用户接口，即总是仅仅显示当前对象的用户接口。可选地，用户接口20被配置，以便如图3b那样构建，即使得总是显示输入信道中的所有对象。图3a和图3b中，显示了时基线(Zeitlinie)30，其按时间顺序包括对象A、B、C，其中对象A包括开始时刻31a和结束时刻31b。在图3a中，偶然地，第一对象A的结束时刻31b与第二对象B的开始时刻相同，第二对象B的结束时刻为32b，该结束时刻又偶然地与第三对象C开始时刻相同，而第三对象C具有结束时间33b。开始时刻32a和33b对应于结束时刻31b和32b，而为了清楚的目的在图3a和3b中并没有显示。

在图3a表示的模式-其中只有当前对象被显示为用于接口信道-中，混音台信道符号34被显示在图3a的右边，其包括滑动头(Schieber)35和固定格式的(stilisiert)按钮36，通过它们可以改变对象B的音频信号属性或虚拟位置等。只要在图3中37所表示的时间标记到达对象B的结束时刻32b，那么固定格式的信道图示34将不显示对象B，而显示对象C。例如当对象D与对象B同时发生时，图3a中的用户接口将显示多一个信道，诸如输入信道i+1。图3a显示的图示为录音师提供了关于一个时刻点上并行音频对象数量的简单概述，即被显示的活动信道的数量。在图3a中所示的图2的用户接口20的实施例中不显示非活动输入信道。

在图3b中所示的实施例-其中一个输入信道中的所有对象被并排显示-中，也不显示未占用的输入信道。然而，以先后顺序在时间上被分配的信道所属于的输入信道i被显示3次，即一次作为对象信道A，另一次作为对象信道B，再一次作为对象信道C。根据本发明，优选的是，例如彩色或高亮地突出信道-诸如对象B的输入信道i(在图3b中为参考符号38)，以便一方面让录音师清楚地看到哪个对象正在相关信道i上被馈送，以及哪些对象例如更早或更晚地在该信道上运行，使得录音师已经可以有远见地经由相应的软件或硬件调节器通过该信道调节器或信道开关提前操纵一个对象的音频信号。因此，图2的用户接口20并且尤其是图3a和图3b的实施例被构造，以便根据对于“占用”面向信道的音频信号处理装置的输入信道的希望来提供可视的表示，其由映射装置18产生。

随后，参考图5，给出图1的映射装置18的功能简单实例。图5显示了具有各种音频对象A、B、C、D、E、F和G的音频场景。可以看出，对象A、B、C和D在时间上重叠。换句话说，这些对象A、B、C和D在某时刻50上都是活动的。相反，对象E与对象A、B不重叠。对象E只与对象C和D重叠，如可以在时刻52处看到。此外例如，可以在时刻54看出对象F和对象D重叠。对象F和G同样如此，其例如在时刻56处重叠，而对象G不与对象A、B、C、D和E重叠。

一个简单的并且在许多方面不利的通道调度(Kanalzuordnung)在于，在图5所示的实例中，将每个音频对象分配给一个输入信道，使得获得图6中表格左边的1:1变换。这种概念的缺点在于，需要许多输入信道，或者当存在许多音频对象-这在影片中很常见-时，波场合成播放单元的输入信道的数量将限制在实际电影背景中的可处理虚拟声源的数量，这当然是不希望的，因为技术限制不应该妨碍创造潜力。另一方面，1:1变换非常不清楚，因为有时通常每个输入信道获得一个音频对象，但是如果考虑特定音频场景，则通常相对少的输入信道是活动的，但用户可能并不容易判断这一点，因为他总是必须浏览所有的音频通道。

此外，音频对象和音频处理装置的输入信道的1:1分配产生这样的事实，即为了尽可能少或不存在对音频对象数量的限制，必须提供具有非常多输入信道的音频处理装置，这导致直接提高音频处理装置的计算复杂性、所需的计算能量和所需的存储容量，以便计算各个扬声器信号，这直接导致该系统价格更高。

图5所示实例的根据本发明的分配对象-信道，如通过根据本发明的映射装置18所实现的那样，显示在图6的表格的右边。因此，并行的音频对象A，B，C和D被相继分配到输入信道EK1，EK2，EK3或EK4。但是对象E不再必如图6左半部分那样被分配到输入信道EK5，而可以被分配到空闲信道-诸如输入信道EK1，或如括号里建议的那样被分配到输入信道EK2。对象F也是如此，其原则上可以被分配到除了输入信道EK4之外的所有信道。对象G同样如此，其也可以被分配到除了对象F之前已经被分配的那个信道(在该例子中是输入信道EK1)之外的所有信道。

在本发明的一个优选实施例中，映射装置18被构造，以便总是占用尽可能低序数的信道，并且尽可能总是占用相邻输入信道EKi和EKi+1，因此不出现缺口(Loecher)。另一方面，该“邻近特征”不是重要，因为对于根据本发明的音频创作者(Autoren)系统的用户来说，他正操作音频处理装置的第一或第七个或者其他任何一个输入信道是无所谓的，只要他通过根据本发明的用户接口能够精确地操作该信道，例如通过调节器35或者通过恰好当前信道的混音台信道表示34的按钮。因此，用户接口信道i不必须对应于输入信道i，而是可以进行信道分配，使得用户接口信道i例如对应于输入信道EKm，而用户接口信道i+1对应于输入信道k，等等。

因此，通过用户接口信道重映射(Umabbildung)避免了存在信道缺口，即，录音师总是能够立即并清楚地看到并排的当前用户接口信道。

根据本发明的用户接口概念当然也可以应用到现有的硬件混音台，其包括真实的硬件调节器和硬件按钮，录音师手动地操作其以获得最佳混音。本发明的优点在于，通过例如由混音台上通常存在的指示符-诸如LED-总是为录音师清楚地标记正好当前的信道，同样可以使用录音师非常熟悉的并对录音师来说非常重要的硬件混音台。

本发明还是灵活的，其可以处理这样的情况，其中用于制作的波场合成扬声器设置偏离例如影院中的再现设置。因此，根据本发明，音频内容以可以由各种系统预加工(aufbereiten)的格式编码。该格式是音频场景，即面向对象的音频表示，而不是扬声器信号表示。在这点上，预加工方法被理解为使内容适应再现系统。根据本发明，在波场合成再现过程中不仅仅处理一对几个主信道，而是整个面向对象的场景记载。为每个再现预加工场景。这通常被实时地执行，以便实现对当前条件的适应。通常，该适应考虑扬声器的数量和它们的位置、再现系统的特性-诸如频率响应、声压电平等、房间声学环境或者其他图像再现条件。

波场合成混合与当前系统的基于信道的方法的主要区别在于声音对象自由可用的定位。在通常的基于立体声原理的再现系统中，声源的位置被相对编码。这对于属于可视内容-诸如例如电影-的混合概念来说是重要的，因为试图通过正确的系统设置来近似关于图像的声源的定位。

相反，波场合成系统需要声音对象的绝对位置，除了音频对象的开始时刻和结束时刻，绝对位置作为音频对象的音频信号的附加信息也被提供给音频对象。

在传统的面向信道的方法中，基本的思想就是减少多个预混合途径中(Pre-Mix-Durchlauf)中的轨道(Spur)数量。这些预混合途径以类别被组织，诸如：对话、音乐、声音、音效等等。在混合过程中，所有所需的音频信号被馈送到混音台中，并同时被不同录音师混合。每个预混合减少轨道的数量，直到每个再现扬声器存在仅仅一个轨道。这些最终的轨道形成最终的主文件(最后的主文件)。

所有相关混合任务，诸如平衡、动态、定位等等，是在混音台上执行的，或者通过使用特定附加设备而执行。

后期制作过程的重建的目的是使用户训练最小化以及将新的根据本发明的系统的综合(Integration)集成到用户的现有知识中。在本发明的波场合成技术的应用中，在不同位置上预加工的所有轨道或对象存在于主文件/分布格式中，这与传统制作设备相比，其在制作过程中减小轨道数量方面是最佳的。另一方面，由于时间的原因，再录音工程师需要使用现有的混音台用于波场合成制作。

因此，根据本发明，现有的混音台被用于传统的混合任务，其中这些混音台的输出然后被引入到根据本发明的系统中，以便产生音频场景的音频表示，其中执行空间混合。这意味着，根据本发明的波场合成制作者工具被实现为工作站，其能够记录最后混合的音频信号并在另一步骤中将其转换成分布格式。因此，根据本发明，考虑两个方面。第一方面就是所有的音频对象或轨道仍然存在于最后的主文件中。第二方面在于定位不是在混音台中执行的。这意味着，所谓的制作，即录音师后期制作，是制作链的最后一个步骤。根据本发明，根据本发明的波场合成制作系统，即根据本发明的用于产生音频表示的设备被实现为独立的工作站，其可以通过将来自混音台的音频输出馈送到系统中而被集成在不同制作环境中。在这点上，混音台表示连接到用于产生音频场景的音频表示的用户接口。

根据本发明一个优选实施例的根据本发明的系统由图4示出。与图1和2中相同的参考数字表示相同的元件。基本的系统设计基于模块化(Modularitaet)的目的和将现有混音台作为用户接口集成到根据本发明的波场合成制作者系统中的可能性。

因此，在音频处理装置12中构造与其他模块通信的中央控制器120。这使得能够使用某些模块的替换模块，只要所有模块使用相同的通信协议。如果图4所示的系统被认为是黑盒子，那么通常看到一定数量的(来自提供装置10的)输入和一定数量的输出(扬声器信号14)以及用户接口20。集成在该与用户接口相邻的黑盒子中的是真实的WFS播放器122，其通过使用多个输入信号来执行扬声器信号的真实波场合成计算。此外，设置空间模拟(Raumsimulation)模块124，其被构造以便执行某种空间模拟，从而产生录音房的空间属性或者操纵录音房的空间属性。

此外，设置录音装置126和记录播放装置(也是126)。装置126优选地配备外置输入。在这种情况下，已经面向对象地或者还面向信道地提供和馈送整个音频信号。于是，音频信号不是来自只注意控制任务的场景协议。然后，被馈入的音频数据从装置126出发在可能的情况下被转换成面向对象的表示，并且然后内部地被馈入到映射装置18，映射装置18然后执行对象/信道映射。

模块之间的所有音频连接(Audioverbindung)可由矩阵模块128切换，以便根据中央控制器120的要求将相应的信道连接到相应的信道。在一个优选实施例中，用户能够将64个具有用于虚拟源的信号的输入信道馈入到音频处理装置12，因此，在这个实施例中存在64个输入信道EK1-EKm。由此，现有的控制台可以用作用户接口，用于预混合虚拟源信号。然后，由波场合成制作者系统、并且尤其是由重要部件(Herzstueck)WFS播放器122执行空间混合。

完整的场景记载被存储在提供装置10中，其也被称为场景协议。相反，主要通信或者需要的数据通信(Datenverkehr)由中央控制器120执行。可以通过用户接口控制器204将场景记载的变化-如它们例如通过用户接口20、尤其是通过硬件混音台200或者软件GUI，即图形软件用户接口202可以实现的那样-作为改变后的场景协议输入到提供装置10中。通过提供改变后的场景协议，场景的整个逻辑结构被唯一地表示。

为了实现面向对象的解决方法，映射装置18为每个声音对象分配对象在其中存在一段时间的预加工信道(输入信道)。通常，在某个信道上按次序存在一定数量的对象，如借助于图3a，3b和6所示。虽然根据本发明的制作者系统支持面向对象，但是波场合成播放器不必须知道对象本身。其仅仅接收音频通道中的信号，以及预加工这些信道所必须的方式方法的描述。具有场景协议-即知道对象和相应信道-的提供装置可以执行将与对象相关的元数据(例如源位置)变换为与信道相关的元数据，并将他们传输到WFS播放器122。由特定协议以一种方式方法执行其他模块之间的通信，使得其他模块只包含必需的信息，如图4中方框功能协议129所示意示出。

根据本发明的控制模块还支持场景记载的硬盘存储。其优选地区别两种文件格式。一种文件格式是制作者格式，其中音频数据被存储为未压缩PCM数据。此外，与会话相关的信息，诸如音频对象-即源-的分组、层信息等等，也被使用，以便被以基于XML的特定文件格式存储。

另一种类型是分布文件格式。在该格式中，音频数据可以以压缩的方式方法被存储，并且不需要额外地存储与会话相关的数据。应当注意的是，音频对象仍然以该格式存在，并且MPEG-4标准可用于分布。根据本发明，优选地总是实时地进行波场合成预加工。这使得没有任何被预播放的音频信息-即已经完成的扬声器信号-必须以任何文件格式被存储。这具有很大优点，因为扬声器信号可能需要大量的数据，这最后不归因于波场合成环境中的大量被使用的扬声器。

这一个或多个波场合成播放器模块122通常被输入虚拟源信号和面向信道的场景记载。波场合成播放器根据波场合成理论为每个扬声器计算驱动信号，即图4的扬声器信号14中的一个扬声器信号。波场合成播放器将进一步计算用于亚低音扬声器(Sobwoofer-Lautsprecher)的信号，这些信号同样是必需的以便在低频时支持波场合成系统。通过使用一定数量(通常是8到12个)的稳定平面波来播放来自空间模拟模块124的空间模拟信号。基于这个概念，可以集成用于空间模拟的不同解决方案。不使用空间模拟模块124，波场合成系统已经产生具有对于听觉范围稳定感觉声源方向的可接受的声音图像。但是，存在对于感觉源深度方面的一定缺乏，因为通常没有将先前的空间反射或混响加到源信号上。根据本发明，优选地使用再现墙反射的空间模拟模块，墙反射例如被如下建模，即使用镜像源模块以产生先前的反射。这些镜像源又可以作为场景协议的音频对象被对待，或者实际上仅仅由音频处理装置本身补充。记录/播放工具126表示有用的补充。音频对象-其被完成以在预混合期间以传统方法混合，使得只还必须执行空间混合-可以从传统混音台传送到音频对象再现设备。此外，优选地还具有音频录制模块，其以时间码控制的方式录制混音台的输出信道，并将音频数据存储在再现模块中。再现模块将接收开始时间码，以便播放某一音频对象，即与由映射装置18向再现设备126提供的相应输出信道相连接。根据对应于音频对象的开始时刻和结束时刻的记载，记录/再现设备可以相互独立地开始和停止播放各个音频对象。一完成混合程序，音频内容就可以被再现设备模块取出并输出到分布文件格式中。因此，分布文件格式包含已经混合的场景的完成的场景协议。根据本发明的用户接口概念的目的是实现与影院混合过程的任务相匹配的分层结构。这里，音频对象被看作在给定时间上作为单个音频对象的表示而存在的源。开始时间和停止/结束时间对于源-即对于音频对象-是典型的。源或音频对象在对象或源“活着”期间需要系统资源。

优选地，每个声源除了包括开始时间和停止时间之外还包括元数据。这些元数据是“类型”(在某一时刻是平面波或者点源)、“方向”、“音量”、“静噪”和依赖于方向的响度和依赖于方向的延迟的“标记”。所有这些元数据可以被自动地使用。

此外，优选地，尽管面向对象的解决方法，根据本发明的制作者系统还服务于传统的信道概念，因为例如在整个电影期间或者通常在整个场景中“活着”的对象也获得自己的信道。这意味着，这些对象原理上以1∶1的变换表示简单的信道，正如借助于图6所述的那样。

在本发明的一个优选实施例中，至少两个对象可以被分组。对于每一组，可以选择哪些参数应该被分组以及通过使用组的主文件应该以何种方法计算这些参数。声源组在由成员的开始时间和结束时间所限定的给定时间内存在。

一个使用分组的例子是将它们用于虚拟标准环境设置。这可用于场景的虚拟淡出或者场景的虚拟放大(Heineinzoom)。可选地，分组也可以用于集成环绕混响效果以及记录WFS混音。

此外，优选地形成另一逻辑实体，即层。为了对混音或场景结构化，在本发明的一个优选实施例中，分组和源被设置在不同层中。通过层的使用，可以在音频工作室中模拟预配音。层也可以被使用，以便在创作过程中改变显示属性，例如以便显示或者隐藏当前混合主题的不同部分。

一个场景在给定时间段内包括所有之前提到的成分。该时间段可以是影片卷轴(Filmspule)，或者例如整个电影，或者例如仅仅是特定时间段-例如5分钟-的电影片段。场景还包括多个层、分组、和源，这些都属于场景。

优选地，完整的用户接口20应该包括图形软件部分和硬件部分以便允许触觉控制。虽然这是优选的，但是用户接口也可以因为经济原因而完全用软件实现。

使用图形系统的设计概念，其基于所谓的“空间”。在用户接口中，存在少量的不同空间。每个空间是表示来自不同方法的工程的特定编辑环境，其中提供空间所需的所有工具。因此，不再需要注意不同窗口。环境所需的所有工具位于相应的空间中。

为了为录音师提供给定时刻上所有音频信号的概况，使用已经借助于图3a和图3b描述的自适应混合空间。它们可以与仅仅显示活动信道的传统混音台比较。在自适应混合空间中，不仅仅是信道信息，还表现了音频对象信息。如之前所述，图1的映射装置18为这些对象分配WFS播放单元的输入信道。除了自适应混合空间，还存在所谓的时基线空间，其提供关于所有输入信道的概况。每个信道以它相应的对象被示出。用户能够使用对象-通道调度，虽然为了简单的目的优选地使用自动通道调度。

另一空间是定位和编辑空间，其显示3维空间的场景。该空间使用户能够记录或编辑源对象的运动。通过使用例如操纵杆或通过使用其他输入/显示设备，如它们对图形用户接口所已知的那样，可以产生运动。

最后，存在空间空间，其支持图4的空间模拟模块124，以便也提供空间编辑可能性。每个空间由存储在空间预设置库中的某参数组描述。根据空间模型，可以使用各种参数组以及不同的图形用户接口。

根据条件，根据本发明的用于产生音频表示的方法可以以硬件或软件实现。可以在数字存储介质上实现，尤其是具有电可读控制信号的软盘或CD，其可以与编程计算机系统共同工作以便执行本发明方法。本发明因此还包括具有存储在机器可读载体上的存储程序代码的计算机程序产品，用于在计算机程序产品在计算机上运行时执行根据本发明的方法。换句话说，本发明还是一种具有用于当计算机程序在计算机上运行时执行本方法的程序代码的计算机程序。

Claims

1.一种用于产生、存储或加工音频场景的音频表示的设备，包括：

音频处理装置(12)，用于从多个输入信道(EK1，EK2，...，EKm)(16)中产生多个扬声器信号，

用于提供音频场景的面向对象的记载的装置(10)，其中所述音频场景的面向对象的记载包括多个音频对象，其中音频对象和音频信号、开始时刻和结束时刻相关联；和

映射装置(18)，用于将音频场景的面向对象的记载映射到音频处理装置的多个输入信道上，其中所述映射装置被构造以便将第一音频对象分配到一个输入信道，将开始时刻位于第一音频对象的结束时刻之后的第二音频对象分配到同一输入通道，并将开始时刻位于第一音频对象的开始时刻之后但在第一音频对象的结束时刻之前的第三音频对象分配到所述多个输入通道中的另一个。

2.如权利要求1的设备，其中所述音频处理装置(12)包括波场合成装置(122)，所述波场合成装置(122)被构造以便通过了解多个扬声器的位置而为所述扬声器计算多个扬声器信号。

3.如权利要求1或2的设备，其中音频对象还与虚拟位置相关联，其中所述音频处理装置(12)被构造使得在产生多个扬声器信号时考虑音频对象的虚拟位置。

4.如前述权利要求中任一项的设备，其中所述音频处理装置(12)仅仅通过所述映射装置(18)连接到所述提供装置(10)，以便接收要被处理的音频对象数据。

5.如之前任何一个权利要求所述的设备，其中所述音频处理装置的输入信道的数量是预定的，并且小于音频场景中允许的音频对象的数量，其中存在至少两个时间上不重叠的音频对象。

6.如之前任何一个权利要求所述的设备，还包括用户接口(20)，其中所述用户接口包括多个独立的用户接口信道，其中一个用户接口信道和所述音频处理装置的一个输入信道相关联，并且其中所述用户接口(20)连接到所述映射装置(80)以便在一个时刻识别刚分配给所述用户接口信道的音频对象。

7.如权利要求6的设备，其中所述用户接口(20)被构造使得识别与所述音频处理装置的刚被分配了音频对象的输入信道相关联的用户接口信道。

8.如权利要求7的设备，其中所述用户接口被构造为对于每个用户接口信道具有硬件操纵装置的硬件混音台，并且其中所述每个硬件操纵装置与一个指示符相关联，以便识别当前活动的用户接口信道。

9.如权利要求7的设备，其中所述用户接口包括图形用户接口，所述图形用户接口被构造使得在电子显示设备上只显示与所述音频处理装置的刚被分配了音频对象的输入信道相关联的用户接口信道。

10.如权利要求6到9其中之一所述的设备，其中所述用户接口(20)还包括用于用户接口信道的操纵装置，所述操纵装置被构造用于操纵被分配给所述音频处理装置(12)的对应于所述用户接口信道的输入信道的音频对象，其中所述用户接口连接到所述提供装置(10)，以便将音频对象替换成其被操纵的版本，并且其中所述映射装置(18)被构造使得将音频对象的被操纵版本而不是将音频对象分配到所述音频处理装置(12)的输入信道。

11.如权利要求10所述的设备，其中所述操纵装置被构造用于改变音频对象的位置、类型或音频信号。

12.如权利要求6到9其中之一所述的设备，其中所述用户接口被构造用于为用户接口信道显示时间上的占用，其中所述时间上的占用表示分配给用户接口信道的音频对象的时间序列，并且其中所述用户接口还被构造用于在时间上的占用中标记当前时刻(37)。

13.如权利要求12所述的设备，其中所述用户接口(20)被构造使得将时间上的占用显示为时间轴，其包括与他们的长度成比例的被分配的音频对象以及随时间进展而移动的指示符(37)。

14.如之前任何一个权利要求所述的设备，

其中所述提供装置(10)被构造使得允许对音频对象分组，使得用关于其组成员状态的分组信息来标记被分组的音频对象，以及

其中所述映射装置(18)被构造使得保持所述分组信息，使得对组特性的操纵对组的所有成员起作用，而与组的音频对象和音频处理装置的哪个输入信道相关联无关。

15.一种用于产生、存储或加工音频场景的音频表示的方法，包括以下步骤：

从多个输入信道(EK1，EK2，...，EKm)(16)中产生(12)多个扬声器信号，

提供(10)音频场景的面向对象的记载，其中所述音频场景的面向对象的记载包括多个音频对象，其中音频对象与音频信号、开始时刻和结束时刻相关联；和

将音频场景的面向对象的记载映射(18)到音频处理装置的多个输入信道，方法是将第一音频对象分配到一个输入信道，并将开始时刻位于第一音频对象的结束时刻之后的第二音频对象分配到同一输入通道，将开始时刻位于第一音频对象的开始时刻之后但是在第一音频对象的结束时刻之前的第三音频对象分配到所述多个输入通道中的另一个。

16.一种具有程序代码的计算机程序，当在计算机上运行所述程序时，执行如权利要求15所述的方法。