CN102326417A

CN102326417A - 三维声场编码及优化重建的方法及装置

Info

Publication number: CN102326417A
Application number: CN2009801531950A
Authority: CN
Inventors: 安东尼奥·玛地欧斯·索列; 保罗·阿卢密·奥宝
Original assignee: Pompei Fabra University Barcelona Media Foundation
Current assignee: Dolby International AB
Priority date: 2008-12-30
Filing date: 2009-12-29
Publication date: 2012-01-18
Anticipated expiration: 2029-12-29
Also published as: UA106598C2; JP2012514358A; US20110305344A1; RU2011131868A; WO2010076040A1; EP2382803A1; EP2205007A1; CN102326417B; EP2382803B1; US9299353B2; EP2205007B1; MX2011007035A; JP5688030B2; RU2533437C2

Abstract

本发明公开了一种无需依据展示设置即可将具有空间信息的音频信号编码的方法及装置，以及，对任何给定的展示设置做最优化译码及播放，将结合点区域做最大化，且包括在不同高度的扬声器及耳机的设置。需要精准的定位的音频部分被编码成一组具有相关方向性参数的单音轨，而剩余的音频则被编码成一组选定序列及混成的高逼真度立体声复制音轨。在一给定展示系统的规格中，通过对每一指定群组使用不同的译码方法，展示独立格式被译码以适应特定的系统。

Description

三维声场编码及优化重建的方法及装置

技术领域

本发明是关于一种改善三维声场编码、分布、及译码的技术，本发明尤其指一种无需依据展示(exhibition)设置即可将具有空间信息的音频信号编码的技术，以及最优化译码一给定的展示系统，其可为多扬声器设置或耳机。

背景技术

在多通道再生及收听中，一听众通常会被多组扬声器所环绕。建造一声场使听众可以感知音源的预期位置即为再生中的一个一般的目的，例如一乐团中一音乐演出者的位置。而不同的扬声器设置可以创造出不同的空间印象。例如，标准立体声设置可以正确地在两扬声器之间的空间再创出声音场景，但却无法达到离开两扬声器的角度的效果。

在更广的角度下，在听众周围设置更多的扬声器可达到更佳的空间印象。例如，多扬声器配置标准中最知名的5.1环绕声道(ITU-R775-1)，其是由五个扬声器所构成，五个扬声器分别设置在听众的-30度、0度、30度、-110度、及110度方位角，而0度是为正向方位。然而，上述的设置并无法处理高于听众的水平面的声音。

为增加听众的环场体验，目前的主流做法为在不同的高度拓设多扬声器。例如一由日本NHK，Hamasak所发展出的22.2系统，其是由总共24个设置在3个不同高度的扬声器所构成。

对上述设置而言，现有产生专门应用的空间化音频的范例是提供每一再生中所用的通道一个音轨。例如，立体声设置需要两个音轨、而5.1声道则需要六个音轨等。这些音轨虽然也可由记录时期直接产生而广播，但正常来说是为后制时期的结果。在许多场合中，使用少数扬声器来产生完全相同的音频通道是值得注意的。这是5.1声道电影院剧场相当常见的，每一环绕声道是通过三个或多个扬声器重放。因此，在这些场合中，虽然扬声器的数目可能多于六个，但不同音频声道的数目仍然为六，而总共只有六个不同的信号被重放。

此种一通道一音轨范例的一个结果是其将记录时期及后制时期所完成的工作与即将展示内容的展示设置连结。在记录时期，例如广播，所使用麦克风的型式与位置以及其混合的方法是被决定为即将被再生的事件的函数。同样地，在媒体产生中，后制工程师需要知道即将展示内容的展示设置的细节，并留意所有的通道。若无法正确地设定展示多扬声器配置以显示合适的内容，将导致再生质量的下降。如果即将展示内容在不同的设置中，在后制中则需要创出不同的版本。如此将增加成本及时间上的浪费。

另一个一通道一音轨范例的结果是为数据量为必需。另一方面，若无进一步的编码，此范例需要与通道数一样多的音轨。另一方面，若提供不同的版本，其也会分开地提供，如此将再造成数据量的上升，或是需要将多声道信号混合成两声道之后输出，而危及输出结果的质量。

最后，另一个一通道一音轨范例的不利趋势是为，以上述的方法产生的内容并非为永不过时的技术。例如，一5.1声道设置所产出的一给定影片中所呈现的六音轨并不包含位于听众上方的音源，也无法与扬声器完全地拓设设置于不同高度。

最近则出现一些能提供展示系统独立空间化音频的技术。振幅平移(amplitude panning)或许是最简易的技术，例如所谓的向量振幅平移(vector based Amplitude panning，VBAP)。VBAP是基于将相同的单音信号馈入扬声器中，扬声器是靠近声源预计设置的位置，并对每一扬声器的音量做调整。此系统可在二维或三维(包括高度)设置中运作，通过分别选择二或三个靠近的扬声器。可提供一大的最佳结合点为此方法的一个优点，意味着扬声器设置中具有宽广的区域使得声音的感知就像从预计的方向而来一般。然而，此方法并不适用于例如在回声房中再生回声场，也不适用于高扩散性的音源。由音源所发出的声音的第一次反弹多半可由这些方法再生，但其结果的质量相当低落。

高逼真度立体声复制(Ambisonics)是为另一种能提供展示系统独立空间化音频的技术。此技术可追溯到70年代，由Michael Gerzon所提出。此技术是提供一完整的编码-译码链方法(encoding-decoding chainmethodology)。就编码而言，一组球状谐和声场是在一点上被保留。第0阶(W)是在该点对应至一全方向性麦克风所记录的信息。而第1阶是由三个信号(X，Y，Z)所构成，是在该点对应至三个八字型(figure-of-eight)麦克风，并与卡氏坐标所记录的信息对应。高阶信号是对应至具更复杂图案的麦克风所记录的信息。混合序列高逼真度立体声复制编码是存在，每一序列中仅有一些子集合的信号被使用。例如，在第1阶高逼真度立体声复制中仅使用W，X，Y信号而省略Z信号。虽然1阶以上信号的产生对后制或通过声场模拟而言相当容易，但当通过麦克风对声场编码则较困难；事实上，时至今日，只有麦克风可以有效的在专业应用上测量出第0阶及第1阶信号。第1阶高逼真度立体声复制麦克风的实例有如Soundfield或最近的TetraMic。就解码而言，当多扬声器设置已被确认(每一扬声器的位置与数目)，将被馈入至每一扬声器的信号是由完整设置所产生的声场的需求而决定，完整设置所产生的声场是与预期声场几乎近似(由后制所产生、或由记录该信号之处中二者之一)。除了展示系统的独立以外，此技术的其它优点是为其所提供的高阶操作(基本上为声景的旋转及缩放)，且其能准确地记录回声场。

然而，高逼真度立体声复制技术是具有两个主要的缺点：其一为无法再生窄频音源；其二为结合点尺寸小。在本文中所用的窄频(narrow)及传播(spread)音源的概念是可视为所提及的感知声音影像的角度宽幅。第一个缺点是由于：即使试图要产生一个非常窄频的音源时，高逼真度立体声复制解码将开启比一个较靠近预期声音位置的扬声器更多的扬声器。第二个缺点是由于：在结合点上，把从每一个扬声器而来的声波做相位相加可产生所欲的声场，但在结合点外，声波并不以正确的相位干扰。如此将改变声音的保护色，而更重要的是，预感知的声音就像是从靠近听众的扬声器而来，即如已知的心理声学居前效应(psychoacoustical precedenceeffect)。对一个固定大小的视听室而言，唯一能够降低此二个问题的方法是增加高逼真度立体声复制序列的使用，然而，这也意味着通道的数目将会快速的增加，且需使用更多的扬声器。

一可正确地再生一任意声场的技术经常值得提及，即所谓的重现波场合成(wave field synthesis，WFS)。然而，此技术需要扬声器分开的距离小于15-20公分，其是需要更高度的近似值(导致质量的流失)及增加所需的扬声器数量，现有的方法是使用100到500个扬声器，如此将限制其于高阶客制化的使用性。

一种能够提供空间化音频内容、且空间化音频内容的分配是不依靠展示设置的方法是令人向往的，是为二维或三维；当设置被明确配置后，此方法是可被译码以完全地展现其具有的性能；此方法也可再生任何型态的声场(窄频音源，回声场或扩散场)给在场的听众，意即，有大的结合点；且此方法不需要大量的扬声器。如此即可能创造出不会过时的内容，在场景中，此方法是可轻易地适用于所有现有的或未来的多扬声器设置，且也可让听众在电影院剧场或家中选择最适合或听众所需的内容，而具有可确信会有大量内容能完全地开拓所选择设置的性能的利益。

发明内容

本发明的主要目的是在提供一种无需依据展示设置即可将具有空间信息的音频信号编码的方法及装置，以及最优化译码及播放任何给定的展示系统，包括在不同高度的扬声及耳机的设置。

本发明是基于一种方法，是将某些给定的音频原料通过将其指定至两群组而编码成一展示独立格式：第一群组包含需要高方向定位的音频；第二群组包含用于定位的音频，此定位是由足够的低阶高逼真度立体声复制技术提供。

第一群组所有的音频将被编码成一组具关联性元数据且各别分开的单音轨。各别分开的单音轨的数目并无限制，虽然在某些实施例中可能会有强制的限制，此情形将说明如下。元资料是包含与每一将被重放的音轨上的精确的时刻有关的信息，也包含空间信息描述，至少，在每一时刻信号的起源的方向。第二群组所有的音频将被编码成一组代表一给定的高逼真度立体声复制序列。就理想而言会有一高逼真度立体声复制通道的信号集合，即使在某些特定实施例中有多于一个会被使用。

就再生而言，一旦显示系统被确认，在第一群组中的音频通道是因重放而被编码，编码是使用标准平移算法(standard panning algorithms)，而标准平移算法则使用少数的与音源的预期位置有关的扬声器。在第二群组中的音频通道是因重放而被译码，此译码是使用高逼真度立体声复制译码器，此译码器为给定的显示系统中的优化。

此方法及装置是解决上述的问题以及后续将叙述的问题。

第一，其允许音频录音。典型生产的后制时期与分布时期是与将显示内容的设置不相关。此一实情的一个通常结果为在此背景下以此方法产生的内容是为不会过时的内容，因此可适用于任何多扬声器设置，无论是现在或是未来。此一性能也可由高逼真度立体声复制技术来达到。

第二，其可正确地再生非常窄频音源。这些音源会被编码成个别的具有方向性元数据的音轨，允许使用少数的与音源的预期位置有关的扬声器的译码算法，例如基于振幅平移的二维或三维向量。相比之下，高逼真度立体声复制需要高阶的使用来达到相同的结果，如此造成相关音轨数目、数据量、及译码复杂度的关联性增加。

第三，此方法及装置在大部分的情况下可提供一个大结合点，因而放大最佳声场重建的区域。此是以将有分于减少结合点的所有音频部分予以分成第一组音轨来达成。例如图8所示的实施例以及以下的说明：一段对话的正向声音是被编码成一具有声音入射方向的信息的分离音轨，然而回声的部分是被编码成一组第一序列高逼真度立体声复制音轨。因此，多数的听众则感知到此音源的正向声音就如同从正确的位置而来一般，大部分从与预期位置有关的扬声器而来；因此，错相保护色(out-of-phasecolouration)及居前效应(precedence effect)可从正向声音中被消除，将声像定在正确的位置。

第四，当与一通道一音轨范例及高阶高逼真度立体声复制编码比较时，可在大部分多扬声器音轨编码情况下降低以此方法编码的数据量。此一实情是有利于存储及分配的目的。数据量缩减的原因是为双重的。在一方面，对于窄频音频播放列表的高度方向性音频的分派是允许仅第1阶高逼真度立体声复制的使用，第1阶高逼真度立体声复制是用于声景的剩余部分的重建，是由传播、重建或非高度方向性音频构成。因此，第1阶高逼真度立体声复制群组中的四个音轨就已足够。相比之下，正确地重建窄频音源则需要高阶高逼真度立体声复制，其是需要例如：第3阶所用的16个音频通道，或第4阶所用的25个音频通道。另一方面，同时播放的窄频音源所需的数目在大多数情况下并不多；电影即为一个例子，在电影中，仅有对话及少数特别的声音效应会被指定至窄频音频播放列表。再者，窄频音频播放列表群组中所有的音频是为一组长度仅与音频源的持续期间对应的个别音轨。例如，对应至在一场景中现三秒的车辆的音频仅会持续三秒。因此，在一个欲产生以22.2设定影片声轨的电影应用的例子中，一通道一音轨范例则需要24个音轨，而一第3阶高逼真度立体声复制编码则需要16个音轨。相比之下，本发明提出的展示独立格式仅需要4个全长度音轨，外加一组不同长度的分离的音轨，其是为了仅含盖选定的窄频音源的预期持续时间而被最小化。

附图说明

图1是显示对给定的一组初始音轨选择及编码，最后以任意的展示设置而将其优化地译码及播放。

图2是本发明提出的展示独立格式示意图，是具有两音频群组：具有空间信息的窄频音频播放列表及高逼真度立体声复制音轨。

图3是使用不同算法以处理两音频群组其中之一的译码器。

图4是显示两音频群组可被再编码的方法的一实施例。

图5是显示展示独立格式可以是基于音频串流、而非是存储于光盘或其它种类存储器中的完整音频档案的方法的一实施例。

图6是显示输入展示独立格式至一译码器的方法的一实施例，其是可在任何展示设置中再生内容。

图7是显示某些旋转程序的技术细节，是对应至在两音频群组上的简易操作。

图8是显示于视听后制架构中的方法的一实施例。

图9是显示于虚拟场景中音频的产生及后制的部分的方法的再一实施例。

图10是显示以数字电影服务器的部分为方法的再一实施例。

图11是显示在电影中的方法的一替代实施例，通过分配前将内容解码。

具体实施方式

图1是显示本发明的方法的一实施例，其对给定的一组初始音轨选择及编码，最后以任意的展示(exhibition)设置而将其优化地译码及播放。意即，对于已给定的扬声器的位置，空间声场可被尽可能的重建，以适合于可用的扬声器，以及尽可能地放大结合点(sweet-spot)。初始音频可由任何音源形成，例如：通过任何型式任何指向性图案的麦克风或频率响应；通过高逼真度立体声复制麦克风的使用，高逼真度立体声复制麦克风是可传送一组任何序列(order)或混成(mixture)序列的高逼真度立体声复制信号；或通过合成性产生的音频的使用，或例如回声房的效应。

选择程序及编码程序是由自初始音频中产生两群组音轨所构成。第一群组是由需要窄化定位(narrow localization)的音频所构成，因一给定的高逼真度立体声复制序列的方向性就已足够，故第二群组则由剩余的音频所构成。被指定至第一群组的音频信号是维持在单音轨，并伴随着与其沿着时间的原始方向及其初始重放(playback)时间有关的空间元数据。

选择程序是为一用户驱动程序，纵使预设动作可由某型式的初始音频呈现。在一般的情况下(例如对非高逼真度立体声复制音轨而言)，用户对每一初始音频片段、其音源方向及音源型式做定义：窄频音源或高逼真度立体声复制音源，是对应至前述的编码群组。方向角度可通过例如与听众相关的音源的方位角与仰角来定义，且可被确认为固定数值或时变数据。若某些音轨并无提供方向，预设分派可被定义，例如，通过指定音轨至一给定的固定方向。

可选择性地，方向角度可由一传播参数所伴随。传播(spread)以及窄(narrow)的用词在本文件中是可视为音源的感知声像的角度宽幅。例如，量化传播的方法是做用在区间[0，1]之间数值，其中数值0是代表完美地方向性音源(意即从一可识别的方向而来的音源)，而数值1是代表具相同能量且从四面八方而来的音源。

对某些型式的初始音轨，预设动作可被定义。例如，音轨被辨识为立体声对(stereo pairs)，是可被指定至具高逼真度立体声复制群组，高逼真度立体声复制群组是具有分别为-30度方位角的L通道(L channel)及30度方位角的R通道(R channel)。被辨识为5.1环绕声道(ITU-R775-1)的音轨可被类似地映射至-30度、0度、30度、-110度、及110度方位角。最后，被辨识为第1阶高逼真度立体声复制(或B-格式，B-format)的音轨可被指定至无需方向性信息的高逼真度立体声复制群组。

如图1所示的编码程序，采用前述的用户定义信息并输出一具有空间信息的展示独立音频格式。而如图2中所描述，第一群组的编码程序的输出是为一组具有对应至不同音源的音频信号的单音轨，也具有关联性空间元数据，并包含与一给定参考系统相关的原始方向，或音频的传播特性。第二音频群组的转换程序的输出是为一选定序列的高逼真度立体声复制的信号集合(例如，若第1阶高逼真度立体声复制被选定，则需4个音轨)，是对应至高逼真度立体声复制群组中所有音源的混合。

编码程序的输出接着被一译码器所使用，译码器是使用选定的展示设置的信息，展示设置是用以对设置中的每一通道产生一音轨或音频串流。

图3是使用不同算法以处理两音频群组其中之一的译码器。高逼真度立体声复制音轨群组是被使用适合的高逼真度立体声复制译码器所解码，高逼真度立体声复制译码器是用于特定的设置。在窄频音频播放列表中的音轨是被适用在此目的的算法所译码；这些使用每一音轨元数据空间信息来译码，正常来说，是使用非常少数每一音轨的预期位置有关的扬声器。一个如此算法的例子为VBAP(vector based Amplitude panning)。时间元数据是被用来在正确的时刻开始播放此音频。译码通道最后则被传送至扬声器或耳机播放。

图4是显示两音频群组可被再编码的方法的再一实施例。一般的再编码程序将输入作为包含窄频音频播放列表，窄频音频播放列表是具有关联性方向元数据的N个不同的音轨，以及一给定序列P的一组高逼真度立体声复制音轨，以及一混成A(例如，其可包含于第0阶及第1阶的所有音轨，但仅有两个音轨对应至第2阶信号)的给定型式。再编码程序的输出是为一窄频音频播放列，此窄频音频播放列表是包含M个具有具有关联性方向元数据的音轨，以及一具有一混成B型式的给定序列Q的一组高逼真度立体声复制音轨。在再编码程序中，M，Q，B可分别与N，P，A不同。

再编码程序可被用于例如降低所具数据的数量。此可通过例如选择一个或多个包含于窄频音频播放列表中的音轨并将其指定至高逼真度立体声复制群组来达成，以将一单音转换成高逼真度立体声复制来达到与单音轨关联的方向信息的使用。在此情况下，若以用于再编码的窄频音频的高逼真度立体声复制定位做为代价，获得M＜N是有可能的。为了相同的目标，降低高逼真度立体声复制音轨是有可能的，例如，通过在平面展示设置中仅保留需要被播放的音轨。然而对于一给定或P的高逼真度立体声复制信号的数目是为(P+1)2，平面设置的数目是减为1+2P。

其它再编码程序的应用是为一给定窄频音频播放列表所需的同步音轨的减少。例如，在广播应用中大多希望能限制可被同时播放的音轨数目。再次，此可通过将窄频音频播放列表中的某些音轨指定至高逼真度立体声复制群组。

可选择性地，窄频音频播放列表可包含用以描述其所包含的音频的相关度的元数据(metadata)，意即，描述每一将以窄频音源的算法译码的音频是有多重要。此元数据可被用于自动地将最低相关音频指定至高逼真度立体声复制群组。

一再编码程序的替代性使用是可简单的为允许用户将窄频音频播放列表中的音频指定至高逼真度立体声复制群组，或为了美观而改变高逼真度立体声复制群组的序列及混成型式。其也可将于高逼真度立体声复制群组中的音频指定至窄频音频播放列表：一个可能的事件为仅选择第0阶音频的部分并手动连结其空间元数据；另一个可能性为使用算法以由自高逼真度立体声复制音轨而演绎出音源位置，例如狄拉克算法(DirACalgorithm)。

图5是显示本发明的再一实施例，其中所提出的展示独立格式可以是基于音频串流，而非是存储于光盘或其它种类存储器中的完整音频档案。在广播的事态中，音频频宽是有限且固定的，而因此音频通道的数目可被同时串流。此一提出的方法是由下述两点所构成：第一，在窄频音频串流及高逼真度立体声复制串流的两群组之间划分有效的音频串流；第二，将中间型档案基底展示独立格式(file-based exhibition-independent format)编码成有限数目的串流。

此再编码程序是使用于先前段落中所解释说明的技术，当有必要时减少做为窄频音频部分(通过将低度相关音轨再指定至高逼真度立体声复制群组)以及群组部分(通过移除高逼真度立体声复制成分)的同步音轨的数目。

音频串流具有更进一步的特定性，例如需于连续串流中连接窄频音轨，以及在有效串流设备中对窄频音频方向性元数据再编码。如果音频串流格式不允许串接此方向性元数据，则应保留一信号音轨以输送此以一适合方式编码的元数据。

接下来的简单示例将用以对此做更详细的解释。考虑在本发明所提出的展示独立格式中的一电影配音，是使用第1阶高逼真度立体声复制(4通道)以及最大4个同步通道的窄频音频播放列表。此电影配音将被使用仅6通道的数字电视(digital TV)来串接。如图5所示，此再编码是使用3个高逼真度立体声复制通道(移除Z通道)以及2个窄频音频通道(意即，再指定一最大为2的同步音轨至高逼真度立体声复制群组)。

可选择性地，本发明所提出的展示独立格式可做音频压缩用。此是可用于本发明所提出的展示独立格式的两个特点(flavours)：档案基底或串流基底。当心理声学基底失真格式被使用时，上述的压缩可能会影响空间重建的质量。

图6是显示本发明的方法的再一实施例，其中，展示独立格式是输入至一译码器，其是可于任何展示设置中再生内容。展示设置的规格可由数种不同的方法来完成。译码器可具有标准预设，例如5.1环绕声道(ITU-R775-1)，用户可以轻易地选择以与用户的展示设置相配。此一选择是可选择性地允许一些调整，以对在用户的特定规配置中扬声器的位置进行微调。可选择性地，用户是可使用某些可对每一扬声器的位置做定位的自动侦测系统，例如，可通过音频、超声波、或红外线技术。此展示设置规格可被无限次的再配置，允许用户适应任何现在或未来的多扬声器设置。译码器是可具有多组输出，因而不同的译码程序可在同一时间被完成，为了能在不同设置中可同步播放。就理想而言，译码是在任何可能的播放系统的等化之前被完成。

如果再生系统是为一耳机，解码是由标准双声技术(Standard BinauralTechnology)来达成。使用一个或多个头部相关转移函数(Head-RelatedTransfer Functions，HRTF)的数据库，其是可能产生使用适用在本方法中的两音频群组的算法的空间化声音：两音频群组是为窄频音频播放列表及高逼真度立体声复制音轨。其一般由如下的二步骤所达成：首先以上述的算法对虚拟多扬声器做解码，再将每一通道与对应至虚拟扬声器的位置的HRTF做旋绕(convolving)。

对于多扬声器设置或耳机的展示而言，本方法的再一实施例是允许在一展示阶段中的全声景做最终旋转。此在数种不同方法中是为实用。在一应用中，一载耳机的用户是可具有一头部追踪机制，头部追踪机制是测量与用户根据全声景而旋转的头部的方位有关的参数。

图7是显示某些旋转程序的技术细节，是在两音频群组上对应至简易操作。高逼真度立体声复制音轨的旋转是由应用每一高逼真度立体声复制序列的不同旋转矩阵来实现，这是一已知的程序。另一方面，与每一在窄频音频播放列表中的音轨相关的空间元数据可被修正，是通过简单的计算音源方位角以及仰角，其是为在一给定的方位上的听众所能感知的。同样地，此为一简单的标准计算。

图8是显示于视听后制架构中的方法的一实施例。一用户拥有所有的音频在他的后制软件中，后制软件可为一数字音频工作站(Digital AudioWorkstation)。用户是使用标准外挂程序(standard plug-in)或专用外挂程序(dedicated plug-in)以明确地确认每一需要被定位的音源的方向。为产生本发明所提出的中间型展示独立格式，其是选择在单音轨播放列表中将被编码的音频，以及在高逼真度立体声复制群组中将被编码的音频。此一指定可由不同种方法来完成。在一实施例中，用户通过一外挂程序指定一指向性系数给每一音源；随即被用来自动指定所有具方向性系数的音源至一窄频音频播放列表，此系数是高于一给定的数值。在一替代实施例中，某些预设指定是由软件来实现；例如，所有音频的回声部分，也包括原始以高逼真度立体声复制麦克风记录的音频，可被指定至高逼真度立体声复制群组，除非用户指定至其它地方。可作为选择的是，所有的指定都由手动完成。

当指定完成时，此软件是使用专用外挂程序来产生窄频音频播放列表以及高逼真度立体声复制音轨。在此程序中，代表窄频音频播放列表中的空间性质的元数据是被编码。同样地，被指定至高逼真度立体声复制群组的音源的方向、以及随选出的传播方向是被用来做从单音或立体声至高逼真度立体声复制的转换，其是使用标准算法。因此，音频后制阶段的输出是为一中间型展示独立格式，此中间型展示独立格式是具有窄频音频播放列表以及一组给定序列及混成的高逼真度立体声复制通道。

在此实施例中，是有助于未来的再定版(re-versioning)以产生多于一组的高逼真度立体声复制通道。例如，在即将产生的不同语言版本的某些电影中，在一第二组高逼真度立体声复制音轨中是很有用处的，而此第二组高逼真度立体声复制音轨中的所有音频是与对话有关，包含对话的回声部分。通过使用此方法，唯一因需要产生一不同语言版本的改变是包括取代包含于窄频音频播放列表的干对话(dry dialogue)、以及包含于第二组高逼真度立体声复制音轨中的对话的回声部分。

图9是显示于虚拟场景中音频的产生及后制的部分的方法的再一实施例(例如，一动画电影或3D游戏)。在虚拟场景中，与音源以及听众的位置及方向有关的信息是有用的。三维几何(3D geometry)场景的信息以及其中所呈现的材料可随意地被利用。回声可随意地并自动地通过空间声音模拟被计算。在此文件中，将场景编码成本发明所提出的中间型展示独立格式的编码程序是可被简化。一方面，是有可能将音轨指定至每一音源，并对与听众有关的每一时刻的位置做编码，其是仅通过对各自的位置及方向做自动地演绎，而无需之后在后制中做确认。其也可决定于高逼真度立体声复制群组中有多少的回声需要被编码，通过将每一音源的正向声音与特定数目的第一声音反射指定至窄频音频播放列表，以及将回声的剩余部指定至高逼真度立体声复制群组。

图10是显示以数字电影服务器的部分为方法的再一实施例。在此情况中，相同的音频内容是可以前述的展示独立格式而被分配至电影院剧场，是由窄频音频播放列表加上一组高逼真度立体声复制音轨所构成。每一剧场可具有一具备每一特定多扬声器设置的规格的译码器，其是可由手动或由某种自动侦测机制而输入。尤其，设置的自动侦测可轻易地被嵌入于系统中，并且，同时计算每一扬声器所需的等化(equalization)。此一步骤可由测量于一已知剧场中的每一扬声器的脉冲响应所构成，以演绎剧场位置以及所需的并用于对其做等化的反向滤波器。脉冲响应的测量是可从现有的多种技术来完成(例如正弦扫描sine sweep，或最大长度序列MLSSequence)，而相对应的扬声器位置的演绎方法是为一无需经常演绎的程序，但仅于当空间的特征或设置改变时。在任何情况下，一旦译码器具有设置的规格，随后内容可被最优化解码成一通道一音轨格式，以准备被播放。

图11是显示于电影中的方法的一替代实施例，通过分配前将内容解码。在此情况下，译码器需知道每一电影设置的规格，因此内容的多个一通道一音轨版本即可被产生，随后则被分配。此一应用是相当有用的，例如，将内容传送一不具有此处提出的展示独立格式兼容的译码器的电影。而在分配前先检查或保证适用于一特定设置的音频的质量也可是相当有用的。

在本方法的再一实施例中，某些窄频音频播放列表可被再编辑，且无需凭借原始的主要计划。例如，某些用以描述音源位置或其传播的元数据可被修改。

当前述的说明已配合特定实施例加以附图及描述后，本领域的普通技术人员可由本说明书所公开的内容轻易地了解本发明的其它优点与功效。此外，本发明也可通过其它不同的具体实施例加以施行或应用，且本说明书中的各项细节也可基于不同观点与应用，而在不悖离本发明的精神下进行各种修饰与变更。

上述实施例仅是为了方便说明而举例而已，本发明所主张的权利范围自应以权利要求所述为准，而非仅限于上述实施例。

Claims

1.一种将音频信号及相关空间信息编码至一再生配置独立格式的方法，其特征在于，该方法包含：

(a)将一第一组音频信号指定至一第一群组，并将该第一群组编码成一组具关联性元数据的单音轨，该关联性元数据是描述与记录位置有关的每一原始音轨的方向及其重放时间；

(b)将一第二组音频信号指定至一第二群组，并将该第二群组编码成至少一组一给定序列及混成序列的高逼真度立体声复制音轨；以及

(c)产生包含该第一组音频信号及该第二组音频信号的两群组音轨。

2.根据权利要求1所述的方法，其特征在于，还包含：将与该组单音轨中的与音轨相关的传播参数编码。

3.根据权利要求1所述的方法，其特征在于，还包含：将与该组单音轨中的与音轨相关的更进一步方向参数编码。

4.根据权利要求1所述的方法，其特征在于，还包含：从任一包含与音轨有关的音源的场景的三维表示法推导出该第一组中的该信号的起源的方向，以及记录位置。

5.根据权利要求1所述的方法，其特征在于，还包含：根据预设规则指定该第一组中的音轨的该信号的起源的方向。

6.根据权利要求1所述的方法，其特征在于，还包含：将每一该第一组中每一音轨的方向参数编码成固定常数值或时变值。

7.根据权利要求1所述的方法，其特征在于，还包含：将用以描述使用格式的规格的元数据编码，该元数据包括：高逼真度立体声复制序列、混成序列型式、音轨关联增益、及音轨序列。

8.根据权利要求1所述的方法，其特征在于，还包含：将与高逼真度立体声复制音轨相关的该初始重放时间予以编码。

9.根据权利要求1所述的方法，其特征在于，还包含：将具有关联性方向数据编码成一给定序列及混成序列的该高逼真度立体声复制音轨。

10.根据权利要求1所述的方法，其特征在于，还包含：将任何输入多通道的信号编码成一给定序列及混成序列的该高逼真度立体声复制音轨。

11.根据权利要求1所述的方法，其特征在于，还包含：将任何序列及混成序列的任何输入高逼真度立体声复制信号编码成一可能不同的给定的序列及混成序列的高逼真度立体声复制音轨。

12.如权利要求1所述的方法，其特征在于，还包含再生配置独立格式的再编码，该再编码是至少包含下列之一：

(a)指定该组单音轨中的音轨至该高逼真度立体声复制集合；

(b)将部分在高逼真度立体声复制集合中的音频指定至单音轨集合，是可能包含已从高逼真度立体声复制信号推导出的方向信息；

(c)改变音轨的该高逼真度立体声复制集合的序列或混成序列；

(d)修改与该组单音轨关联的该方向元数据；

(e)通过如旋转及缩放的操作而修改高逼真度立体声复制音轨。

13.根据权利要求12所述的方法，其特征在于，还包含将再生配置独立格式再编码成适合用于广播的格式，该再编码是满足下列限制：一连续音频串流的固定数字、包含于再生配置独立格式的元数据的传输的有效协议的使用。

14.根据权利要求1所述的方法，其特征在于，还包含将再生配置独立格式译码至一给定的多扬声器配置，该译码是使用该多扬声器位置的一规格以用于：

(a)以适用于窄频音源的算法将该组单音轨解码；

(b)通过适用于该音轨序列及混成序列及特定设置的算法将该高逼真度立体声复制集合予以译码。

15.根据权利要求14所述的方法，其特征在于，还包含传播参数的使用、及可能其它与单音轨集合相关的空间元数据以使用适用于特定传播的译码算法。

16.根据权利要求14所述的方法，其特征在于，还包含标准再生配置设置预设的使用，标准再生配置设置预设的使用包括：立体声及5.1环绕声道。

17.根据权利要求14所述的方法，其特征在于，还包含通过标准双声技术对耳机译码，是使用头部相关转移函数的数据库。

18.根据权利要求14所述的方法，其特征在于，还包含使用旋转控制参数以实现一全声景的旋转，其中该控制参数由头部追踪装置产生。

19.根据权利要求14所述的方法，其特征在于，还包含使用自动推导扬声器的位置的技术，以定义译码器所使用的设定规格。

20.根据权利要求14或17所述的方法，其特征在于，其中解码后的输出是被存储成一音轨群组，而非直接重放。

21.根据权利要求1、12、13或20所述的方法，其特征在于，是将全部或部分的音频信号编码成压缩音频格式。

22.一种将音频信号及相关空间信息编码至一再生配置独立格式的编码器，其特征在于，该编码器包括：

(a)一将一第一组音频信号指定至一第一群组，并将该第一群组编码成一具有方向信息及初始重放信息的单音轨集合的编码器；

(b)一将一第二组音频信号指定至一第二群组，并将该第二群组编码成一任何序列及混成的高逼真度立体声复制音轨集合的编码器；

(c)一产生包含该第一组音频信号及该第二组音频信号的两群组音轨的编码器。

23.一种在一输入再生配置独立格式中对音频操纵及再编码的音频再编码器及修改器，其特征在于，藉此其输出是通过依据权利要求12所述的方法予以修改，其中该再编码器适用于下列任一：

(a)指定该组单音轨中的音轨至该高逼真度立体声复制集合；

(b)将部分在高逼真度立体声复制集合的音频指定至单音轨，是可能包含已从高逼真度立体声复制信号推导出的方向信息；

(d)与该组单音轨关联的该方向元数据的修改；

(e)高逼真度立体声复制音轨的修改，是通过例如旋转及缩放的操作。

24.一种将再生配置独立格式译码至一给定的N通道再生系统的音频译码器，其特征在于，该再生配置独立格式是依据权利要求14所述的方法所产生，该音频译码器包括：

(a)一基于再生设置规格并将一具有方向信息及初始重放信息的单音轨集合编码至N音频通道的译码器，

(b)一基于再生设置规格并将一高逼真度立体声复制音轨集合编码至N音频通道的译码器，

(c)一将前述的二译码器的输出混合的混合器，前述的二译码器是用于产生预备重放或存储的N输出音频通道。

25.一种系统，其特征在于，用于一再生配置独立格式中对空间音频编码及再编码，以及对任何多扬声器配置译码及重放，或用于耳机，该系统包括：

(a)一音频编码器，用以将一组音频信号及相关空间信息编码至一根据权利要求22所述的再生配置独立格式，

(b)一音频再编码器及音频修改器，用以于一根据权利要求23所述的输入再生配置独立格式中对音频操纵及再编码，

(c)一根据权利要求24所述的音频译码器，用以将再生配置独立格式译码至一给定的再生配置系统，其为一多扬声器配置或耳机。

26.一种计算机程序，其特征在于，是用于当一计算机运作时执行依据权利要求1至21的任一项所述的方法。