CN103650539B

CN103650539B - 用于自适应音频信号产生、编码和呈现的系统和方法

Info

Publication number: CN103650539B
Application number: CN201280032058.3A
Authority: CN
Inventors: C·Q·罗宾森; N·R·特斯恩高斯; C·查巴尼
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-07-01
Filing date: 2012-06-27
Publication date: 2016-03-16
Anticipated expiration: 2032-06-27
Also published as: AU2018203734A1; KR102115723B1; TWI651005B; IL230046A; TW202139720A; RU2017112527A3; MY165933A; AU2020226984A1; US20210219091A1; US9942688B2; CN103650539A; IL295733B1; KR20230170110A; KR20190086785A; PL2727383T3; TW201909658A; AU2012279357B2; JP2019095813A; US20230045090A1; KR102608968B1

Abstract

针对处理包含许多独立的单声道的音频流的音频数据的自适应音频系统描述了实施例。流中的一个或更多个具有与它关联的元数据，该元数据指定流是基于声道的流还是基于对象的流。基于声道的流具有利用声道名字编码的呈现信息；并且基于对象的流具有通过在关联的元数据中编码的位置表述编码的位置信息。编解码器将独立的音频流封装到包含所有音频数据的单个串行的比特流中。这个配置允许根据非自我中心的参考系呈现声音，在其中声音的呈现位置基于回放环境的特性（例如，房间尺寸、形状等）以便对应于混合者的意图。对象位置元数据包含为使用房间中的可用的扬声器位置正确地播放声音所需的合适的非自我中心的参考系信息，该房间被设立来播放自适应的音频内容。

Description

用于自适应音频信号产生、编码和呈现的系统和方法

相关申请的交叉引用

本申请要求2011年7月1日提交的美国临时申请No.61/504,005和2012年4月20日提交的美国临时申请No.61/636,429的优先权，这两个申请出于所有目的整体通过参考被并入于此。

技术领域

一个或更多个实现方式一般涉及音频信号处理，并且更具体地涉及供电影院、家庭和其它环境之用的混合对象和基于声道的音频处理。

背景技术

在背景技术部分中讨论的主题不应该仅仅由于它在背景技术部分中被提到而被假设为现有技术。类似地，在背景技术部分中提到或者与背景技术部分的主题关联的问题不应该被假设为在现有技术中已经被先前认识到。在背景技术部分中的主题仅仅代表不同的方法，在其中及其本身也可以是发明。

自从将声音引入胶片（film）以来，已经存在用于捕获创作者的对于运动图像音轨的艺术意图并且在电影院环境中准确地再现它的技术的稳定的发展。电影声音的基本的作用是支持在屏幕上示出的故事。典型的电影音轨包括与屏幕上的图像和元素对应的许多不同的声音元素，从不同的屏幕上的元素发出的对话、噪声、以及声音效果，以及与背景音乐和环境效果结合以便创建整体观众体验。创作者和制作者的艺术意图代表他们的如下期望，即具有以尽可能紧密地对应于在屏幕上示出的东西的方式对于声源位置、强度、移动和其它类似参数再现的这些声音。

当前电影创作、分发和回放遭受约束真实地沉浸和逼真的音频的创建的限制。传统的基于声道的音频系统将以扬声器供给形式的音频内容发送到回放环境中的单独的扬声器，诸如立体声和5.1系统。数字电影的引入已经创建了对于胶片上的声音的新标准，诸如音频的高达16声道的并入以便允许内容创作者有更大的创造力，以及对于观众的更包围的和现实的听觉体验。7.1环绕系统的引入已经提供通过将现有的左和右环绕声道分离成四个区域（zones）增大环绕声道的数量的新格式，因此对于声音设计者和混合者增大范围来控制剧场中的音频元素的定位。

为了进一步改善收听者体验，虚拟三维环境中的声音的回放已经变为研究和开发增加的区域。声音的空间表现利用作为具有表观（apparent）源位置的关联参数源描述（例如，3D坐标）、表观源宽度和其它参数的音频信号的音频对象。基于对象的音频越来越被用于许多当前多媒体应用，诸如数字电影、视频游戏、模拟器和3D视频。

扩展超出传统的扬声器供给和基于声道的音频作为用于分布空间音频的手段是关键的，并且对保持允许收听者/展出者自由选择适合他们的个人需要或者预算的回放配置并且具有对于他们选择的配置特定地呈现的音频的承诺的基于模式（model）的音频描述已经存在相当大的兴趣。在高水平处，目前存在四个主要的空间音频描述格式：其中音频被描述为意图用于标称扬声器位置处的扬声器的信号的扬声器供给；其中音频被描述为通过预定义的阵列中的虚拟或者实际麦克风捕获的信号的麦克风供给；其中依据在所描述的位置处音频事件的序列来描述音频的基于模式的描述；以及其中音频由到达收听者耳朵的信号描述的两路立体声（binaural）。这四个描述格式经常与将音频信号转换为扬声器供给的一个或更多个呈现技术关联。当前呈现技术包括：摇移，其中音频流通过使用一组摇摄规则和已知或假设的扬声器位置被转换为扬声器供给（典型地在分发之前被呈现）；立体混响声（Ambisonics），其中麦克风信号被转换为用于扬声器的可缩放的（scalable）阵列的供给（典型地在分发之后被呈现）；WFS（波场合成），其中声音事件被转换为适当的扬声器信号以便合成声场（典型地在分发之后被呈现）；以及两路立体声，其中L/R（左/右）双声道的信号典型地使用头戴耳机（headphones）而且通过使用扬声器和串扰抵消被传送给L/R耳朵（在分发之前或者之后呈现）。在这些格式中，扬声器供给格式是最常见的，因为它是简单的和有效的。最好的声音结果（最准确的，最可靠的）通过直接混合/监视和分发给扬声器供给来实现，因为在内容创作者和收听者之间不存在处理。如果预先已知回放系统，则扬声器供给描述通常提供最高保真度。然而，在许多实际应用中，回放系统是未知的。基于模式的描述被认为适应性最强，因为它不进行关于呈现技术的假设并且因此最容易应用于任何呈现技术。虽然基于模式的描述有效地捕获空间信息，但是随着音频源的数量增大它变得非常低效。

多年来电影系统已经特征化为具有左、中心、右以及偶尔‘左内（innerleft）’和‘右内（innerright）’声道的形式的离散的屏幕声道。这些离散的源通常具有足够的频率响应和功率处理（powerhandling）以便允许声音被准确地放置在屏幕的不同区域中，并且容许随着声音在位置之间被移动或摇移而音色匹配。在改善收听者体验方面的近期发展企图相对于收听者准确地再现声音的位置。在5.1设立中，环绕“区域”由扬声器的阵列组成，所有的扬声器在每个左环绕或右环绕区域内携带相同的音频信息。这种阵列在'环境'或者扩散环绕效果的情况下可以是有效的，然而，在日常生活中许多声音效果来源于随机放置的点源。例如，在餐厅中，环境音乐可以显然从四处都被播放，虽然细小但是离散的声音来源于特定的点：来自一个点的人聊天、来自另一个点的刀在盘子上的卡嗒声（clatter）。能够将这种声音离散地放置在观众席周围可以在没有引人注意地明显的情况下添加加强的逼真感。头上的声音也是环绕定义的重要成分。在实际世界中，声音来源于所有方向，而不是总是来自单个水平面。如果声音可以从头上被听到，换句话说从'上半球'被听到，增加的真实感可以被实现。然而当前系统不提供在各种不同的回放环境中对于不同音频类型的声音的真正准确的再现。使用现有的系统要求实际回放环境的大量处理、知识和配置以尝试位置特定的声音的准确的表示，因此呈现对于大多数应用不实际的当前系统。

所需要的是，支持多个屏幕声道的系统，得到对于屏幕上的声音或者对话的增大的清晰度和改善的视听觉的相干性，以及能够在环绕区域中任何地方精确定位源以便改善从屏幕到房间的视听转变。例如，如果在屏幕上的角色在房间内看向声源，则声音工程师（“混合者”）应该具有精确定位声音使得它匹配角色的视线的能力并且效果将在所有观众中是一致的。然而，在传统的5.1或者7.1环绕声混合中，效果高度地依赖于收听者的座位位置，其对于大多数大规模的收听环境是不利的。增大的环绕分辨率创造了新的机会来以房间中心的方式利用声音，与传统方法相反，其中假设单个收听者在“最佳听音位置（sweetspot）”处来创建内容。

除了空间问题以外，当前的多声道现有技术系统遭受关于音色的问题。例如，一些声音的音色质量，诸如从破了的管出去的蒸汽嘶嘶声（hissing），可以遭受由扬声器的阵列再现。将特定的声音引导到单个扬声器的能力给予混合者消除阵列再现的伪迹（artifacts）和向观众传递更现实的体验的机会。传统上，环绕扬声器不支持大屏幕声道支持的相同的全范围的音频频率和水平。历史上，这对于混合者已经引起问题，减少他们的从屏幕到房间自由地移动全范围声音的能力。结果，剧场拥有者没有感觉逼迫来升级他们的环绕声道配置，防止更高质量装备的广泛的采用。

发明内容

针对电影声音格式和包括新的扬声器布局（声道配置）和关联的空间描述格式的处理系统，来描述系统和方法。自适应音频系统和格式被定义为支持多个呈现技术。音频流与元数据一起被发送，该元数据描述包括音频流的期望位置的“混合者的意图”。位置可以被表示为命名的（named）声道（来自预定义的声道配置内）或者作为三维的位置信息。这个声道加上对象格式结合了最佳的基于声道和基于模式的音频场景描述方法。对于自适应音频系统的音频数据包括许多独立的单声道音频流。每个流具有与它关联的元数据，其指定流是基于声道的还是基于对象的流。基于声道的流具有利用声道名字编码的呈现信息；并且基于对象的流具有通过在更多的关联的元数据中编码的数学表达式编码的位置信息。原始的独立的音频流被封装作为包含所有音频数据的单个串行的比特流。这个配置允许根据非自我中心的（allocentric）参考系呈现声音，在其中声音的呈现位置基于回放环境的特性（例如，房间尺寸、形状等）以便对应于混合者的意图。对象位置元数据包含为使用房间中的可用的扬声器位置正确地播放声音所需的适当的非自我中心的参考系信息，该房间被设立来播放自适应音频内容。这使得能够针对特别的回放环境最佳地混合声音，特别的回放环境可以与声音工程师体验的混合环境不同。

自适应音频系统通过诸如改善的房间均衡化和环绕低音管理之类的这种好处改善在不同房间中的音频质量，使得扬声器（无论在屏幕上还是屏幕外）可以由混合者在没有必须考虑音色匹配的情况下自由地解决。自适应音频系统增加了动态音频对象的灵活性和功率到传统的基于声道的工作流程中。这些音频对象允许创作者与任何特定的回放扬声器配置（包括头上的扬声器）无关地控制离散声音元素。该系统还为后制作处理引入新的效率，允许声音工程师有效地捕获所有他们的意图并且随后在实时监视中，或者自动产生环绕声音7.1和5.1版本。

自适应音频系统通过在数字电影处理器内将音频本体（essence）和艺术意图包封在单个轨道文件中来简化分发，其可以在宽范围的剧场配置中被忠实地回放。当混合和呈现利用相同的声道配置和单个清单（inventory）（其向下适应到呈现配置（即，下混合））时，该系统提供艺术意图的最佳再现。

通过涉及电影声音平台的实施例提供这些和其它优点，解决当前的系统限制并且传递超出目前可用的系统的音频体验。

附图说明

在下面附图中相似的附图标记被用来指的是相似的元件。虽然以下附图描绘各种示例，但是一个或更多个实现方式不限于在图中描绘的示例。

图1是按照一个实施例的利用自适应音频系统的音频创建和回放环境的最高一级的概述。

图2示出按照一个实施例的声道和基于对象的数据的组合以便产生自适应音频混合。

图3是按照一个实施例的示出创建、封装和呈现自适应音频内容的工作流程的框图。

图4是按照一个实施例的自适应音频系统的呈现阶段的框图。

图5是按照一个实施例的列出对于自适应音频系统的元数据类型和关联的元数据元素的表格。

图6是示出按照一个实施例的对于自适应音频系统的后制作和主控的图。

图7是按照一个实施例的对于使用自适应音频文件的数字电影封装处理的示例工作流程的图。

图8是在典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例布局的俯视图。

图9是供典型的观众席之用的屏幕处的建议的扬声器位置的示例布置的正视图。

图10是在典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例布局的侧视图。

图11是按照一个实施例的顶部环绕扬声器和侧面环绕扬声器相对于参考点的放置的示例。

具体实施方式

针对于支持多个呈现技术的自适应音频系统和关联的音频信号和数据格式，来描述系统和方法。在此描述的一个或更多个实施例的方面可以被实现在音频或者视听系统中，该系统在混合、呈现和回放系统中处理源音频信息，该混合、呈现和回放系统包括执行软件指令的处理装置或者一个或更多个计算机。所描述的实施例中的任意一个可以被单独使用或者以任意组合方式彼此一起使用。虽然各种实施例可以已经被现有技术的各种不足促动，其可能在说明书中的一个或更多个位置中被讨论或者暗指，但是实施例未必解决这些不足中的任意一个。换句话说，不同实施例可以解决可能在说明书中讨论的不同不足。一些实施例可以仅仅部分地解决可能在说明书中讨论的一些不足或者仅仅一个不足，并且一些实施例可以不解决这些不足中的任意一个。

对于本说明书，以下术语具有关联的意义：

声道或者音频声道：单声道的音频信号或者音频流加上元数据，在元数据中位置被编码为声道ID，例如“LeftFront”或者“RightTopSurround”。声道对象可以驱动多个扬声器，例如，“LeftSurround”声道（Ls）将供给Ls阵列中的所有扬声器。

声道配置：具有关联的标称位置的扬声器区域的预定义的组，例如5.1、7.1等等；5.1指的是六声道环绕声音频系统，具有前面的左和右声道、中心声道、两个环绕声道以及亚低音扬声器声道；7.1指的是八声道环绕系统，其向5.1系统添加两个额外的环绕声道。5.1和7.1配置的示例包括杜比环绕系统。

扬声器：呈现音频信号的音频换能器或者一组换能器。

扬声器区域：可以被唯一地提及并且接收单个音频信号的一个或更多个扬声器的阵列，例如如在电影中典型地发现的“LeftSurround”，并且特别地用于排除或包括对象呈现。

扬声器声道或者扬声器供给声道：与定义的扬声器配置内的扬声器区域或者命名的扬声器关联的音频声道。扬声器声道被使用关联的扬声器区域来标称呈现。

扬声器声道组：与声道配置（例如立体声轨道、单轨道等）对应的一组一个或更多个扬声器声道。

对象或者对象声道：具有参数源描述（诸如表观源位置（例如3D坐标）、表观源宽度等）的一个或更多个音频声道。音频流加上元数据，在元数据中位置被编码为在空间中的3D位置。

音频节目：整组的扬声器声道和/或对象声道以及关联的元数据，该元数据描述期望的空间音频表现。

非自我中心的参考：空间参考，在其中音频对象相对于呈现环境内的特征（诸如房间壁和拐角）、标准扬声器位置、以及屏幕位置（例如，房间的左前方拐角）被定义。

自我中心的（egocentric）参考：空间参考，在其中音频对象相对于（观众）收听者的视角被定义并且经常被指定为相对于收听者的角度（例如，收听者向右30度）。

帧：帧较短，总的音频节目被划分成的独立地可解码的片段。音频帧率和边界典型地与视频帧对齐。

自适应音频：基于声道的音频信号和/或基于对象的音频信号加上元数据，该元数据基于回放环境来呈现音频信号。

在本申请中描述的电影声音格式和处理系统（还被称为“自适应音频系统”）利用新的空间音频描述和呈现技术来允许增强观众沉浸感、更艺术地进行控制、系统灵活和可缩放、以及易于安装与维护。电影音频平台的实施例包括若干分立组件，包括混合工具、打包机（packer）/编码器、拆包/解码器、剧院内最终混合和呈现组件、新的扬声器设计以及连网的放大器。该系统包括对于要由内容创建者和展出者使用的新的声道配置的推荐。该系统利用基于模型的描述，其支持诸如以下的若干特征：具有向下和向上适应（adaption）到呈现配置的单个清单，即，延迟呈现和启用可用扬声器的最佳使用；改善的声音包封，包括优化的下混来避免声道间相关；通过引导通过（steer-thru）阵列（例如，动态地分配给环绕阵列内的一个或更多个扬声器的音频对象）的增大的空间分辨率；以及对于可替代的呈现方法的支持。

图1是按照一个实施例的利用自适应音频系统的音频创建和回放环境的最高一级的概述。如图1所示，综合的、端到端环境100包括在众多数量的端点装置和使用情况之上的内容创建、封装、分发和回放/呈现组件。整个系统100开始于来自及用于许多不同使用情况捕获的内容，该使用情况包括不同的用户体验112。内容捕获元件102包括例如电影、TV、实况广播、用户产生的内容、记录的内容、游戏、音乐等，并且可以包括音频/视觉或者纯音频内容。当内容通过系统100从捕获阶段102进展到最后用户体验112时，该内容通过离散系统组件穿过若干关键处理步骤。这些处理步骤包括音频104的预处理，创作工具和处理106，通过捕获例如音频数据、额外的元数据和再现信息以及对象声道的音频编解码器108编码。各种处理效果（诸如压缩（有损的或者无损的）、加密等）可以被应用于对象声道以用于通过各种介质有效和安全地分发。适当的端点特定的解码和呈现处理110然后被应用以便再现和传送特别的自适应音频用户体验112。音频体验112代表音频或者音频/视觉内容通过适当的扬声器和回放装置的回放，并且可以代表在其中收听者正在体验捕获的内容的回放的任意环境，诸如电影院、音乐厅、露天剧场、家庭或者房间、收听棚（listeningbooth）、车、游戏控制台、头戴耳机或者耳机系统、扩音（PA）系统、或者任意其它回放环境。

系统100的实施例包括音频编解码器108，其能够有效分发和存储多声道的音频节目，并且因此可以被称为'混合'编解码器。编解码器108将传统的基于声道的音频数据与关联的元数据结合来产生便于音频的创建和递送的音频对象，该音频被改编和优化以用于在或许与混合环境不同的环境中呈现和回放。这允许声音工程师对关于基于收听者的实际收听环境最终音频应该如何被收听者听到的他或她的意图进行编码。

传统的基于声道的音频编解码器在音频节目将由相对于收听者预定的位置中的扬声器的阵列再现的假设之下操作。为了创建完整的多声道的音频节目，声音工程师典型地混合大量的分离的音频流（例如，对话、音乐、效果）来创建整体期望的印象。通过收听由预定位置中的扬声器阵列（例如，特定的剧场中的特别的5.1或者7.1系统）再现的音频节目，典型地做出音频混合决定。最终混合的信号用作到音频编解码器的输入。对于再现，只有当扬声器被放置在预定位置中时空间上准确的声场才被实现。

新形式的音频编码（称为音频对象编码）以分离的音频流的形式提供不同的声源（音频对象）作为到编码器的输入。音频对象的示例包括对话轨道、单个乐器、单独的声音效果、和其它点源。每个音频对象与空间参数关联，该空间参数可以包括但不限于，声音位置、声音宽度和速度信息。音频对象和关联的参数然后被编码以用于分发和存储。最终音频对象混合和呈现在音频分发链的接收端处被执行，作为音频节目回放的部分。这个步骤可以基于对实际扬声器位置的认识，使得结果是对于用户特定的收听条件可定制的音频分发系统。两种编码形式（基于声道的和基于对象的）针对不同的输入信号条件最佳地执行。基于声道的音频编码器对于对包含不同的音频源的密集的混合的输入信号编码以及对于散射声通常更有效。相反地，对于对少量的高度定向性声源编码，音频对象编码器更有效。

在一个实施例中，系统100的组件和方法包括音频编码、分发和解码系统，其被配置为产生包含传统的基于声道的音频元素和音频对象编码元素两者的一个或更多个比特流。与分别采取的基于声道的方法或者基于对象的方法相比，这种结合的方法提供更大的编码效率和呈现灵活性。

描述的实施例的其它方面包括以向后可兼容的方式扩展预定义的基于声道的音频编解码器以便包括音频对象编码元素。包含音频对象编码元素的新的'扩展层'被定义和添加到基于声道的音频编解码器比特流的'基本（base）'或者'向后可兼容的'层。这个方法启用一个或更多个比特流，其包括要由遗留（legacy）解码器处理的扩展层，而同时利用新的解码器为用户提供增强的收听者体验。增强的用户体验的一个示例包括音频对象呈现的控制。这个方法的额外的优点是音频对象可以在不解码/混合/重新编码用基于声道的音频编解码器编码的多声道的音频的情况下在沿着分发链的任何地方被添加或者修改。

关于参考系，音频信号的空间效果在为收听者提供沉浸体验方面是关键的。打算从观看屏幕或者房间的特定区域发出的声音应该通过位于相同相对位置处的扬声器（多个扬声器）播放。因此，在基于模式的描述中的声音事件的主要的音频元数据是位置，但是也可以描述其它参数，诸如尺寸、取向、速度和声散。为了传送位置，基于模式的、3D、音频空间描述要求3D坐标系统。用于发送的坐标系（欧几里得（Euclidean）、球面等）通常为了方便或者简洁起见被选择，然而，其它坐标系可以被用于呈现处理。除了坐标系之外，还要求参考系来代表对象在空间中的位置。对于用于在各种不同的环境中准确地再现基于位置的声音的系统，选择正确的参考系可以是关键因素。利用非自我中心的参考系，音频源位置相对于呈现环境内的特征（诸如房间壁和角落、标准扬声器位置和屏幕位置）被定义。在自我中心的参考系中，相对于收听者的视角来表示位置，诸如“在我前方，稍微向左”等等。空间感知（音频及其他）的科学研究已经示出了几乎到处使用自我中心的视角。然而对于电影院，出于若干原因非自我中心通常是更适合的。例如，当在屏幕上存在关联对象时音频对象的精确的位置是最重要的。使用非自我中心的参考，对于每个收听位置，并且对于任意屏幕尺寸，声音将定位在屏幕上的相同的相对位置处，例如，屏幕的中间向左三分之一处。另一个原因是混合者倾向于以非自我中心方面来思考并且混合，并且以非自我中心的框架（房间壁）来布局摇移工具，并且混合者期望它们那样被呈现，例如，这个声音应该在屏幕上，这个声音应该在屏幕外，或者来自左壁等。

尽管在电影院环境中使用非自我中心的参考系，但是存在其中自我中心的参考系可以有用且更合适的一些情况。这些包括非剧情声音，即，不存在于“故事空间”中的那些声音，例如，气氛音乐，对于其自我中心地均匀的表现可以是期望的。另一种情况是要求自我中心的表示的近场效果（例如，在收听者的左耳中的嗡嗡的蚊子）。目前不存在在不使用头戴耳机（headphones）或者非常近场的扬声器的情况下呈现这种声场的手段。另外，无限远的声源（和结果得到的平面波）看起来来自恒定的自我中心的位置（例如，向左转30度），并且与按照非自我中心相比，这种声音更易于按照自我中心来描述。

在一些情况中，只要标称收听位置被定义就可以使用非自我中心的参考系，但是一些示例要求还不可以呈现的自我中心的表示。虽然非自我中心的参考可以是更有用的和合适的，但是音频表示应该是可扩展的，因为许多新的特征（包括自我中心的表示）在特定应用和收听环境中可以是更期望的。自适应音频系统的实施例包括混合空间描述方法，其包括用于最佳的保真度和用于使用自我中心的参考呈现扩散或者复杂的、多点源（例如，体育场人群、环境）的推荐声道配置，加上非自我中心的、基于模式的声音描述以便有效地使得能够有增大的空间分辨率和可缩放性。

系统组件

参考图1，原始声音内容数据102首先在预处理块104中被处理。系统100的预处理块104包括对象声道滤波组件。在很多情况下，音频对象包含用于启用声音的独立的摇移的单独的声源。在一些情况下，诸如当使用自然的或者“制作”声音创建音频节目时，从包含多个声源的记录中提取单独的声音对象可以是必需的。实施例包括用于将独立源信号与更复杂信号隔离开的方法。要与独立源信号分离的不期望的元素可以包括但不限于，其它独立的声源和背景噪声。另外，混响可以被去除以便恢复"干（dry）"声源。

预处理器104还包括源分离和内容类型检测功能。系统通过输入音频的分析提供元数据的自动产生。通过分析声道对之间的相关输入的相对水平从多声道记录导出位置元数据。可以例如通过特征提取和分类来实现内容类型（诸如“讲话”或者“音乐”）的检测。

创作工具

创作工具块106包括用于通过优化声音工程师的创作意图的输入和编纂（codification）来改善音频节目的创作以允许他一次创建针对实际上任意回放环境中的回放被优化的最终音频混合的特征。这通过使用与原始的音频内容关联且编码的位置数据和音频对象而被实现。为了将声音准确地放置在观众席周围，声音工程师需要控制声音将如何基于实际约束和回放环境的特征最终被呈现。自适应音频系统通过允许声音工程师通过使用音频对象和位置数据改变如何设计和混合音频内容来提供这个控制。

音频对象可以被认为是多组声音元素，其可以被感知为从观众席中的特别的物理位置或者多个位置发出。这种对象可以是静态的，或者它们可以移动。在自适应音频系统100中，音频对象由元数据控制，该元数据详述给定时间点处的声音的位置等等。当对象在剧场中被监视或者回放时，它们根据位置元数据通过使用存在的扬声器被呈现，而不是必须被输出到物理声道。会话中的轨道可以是音频对象，并且标准的摇移数据类似于位置元数据。以这种方式，位于屏幕上的内容可能以与基于声道的内容相同的方式有效地摇移，但是位于环绕中的内容可以在需要时被呈现到单独的扬声器。虽然音频对象的使用为离散效果提供期望的控制，但是电影音轨的其它方面在基于声道的环境中的确有效地工作。例如，许多环境效果或者混响实际上受益于被供给到扬声器阵列。虽然这些可以被处理为具有足够宽度以填充阵列的对象，但是保留一些基于声道的功能是有益的。

在一个实施例中，自适应音频系统除了音频对象之外还支持“基础（bed）”，其中基础是有效地基于声道的子混合或者主干（stem）。这些可以独立地或者结合成单个基础地被传递以用于最终回放（呈现），取决于内容创作者的意图。这些基础可以被创建在不同的基于声道的配置（诸如5.1、7.1）中，并且可扩展到更广泛的格式，诸如9.1，以及包括头上的扬声器的阵列。

图2示出按照一个实施例的声道和基于对象的数据的组合以便产生自适应音频混合。如处理200所示，基于声道的数据202（其例如可以是以脉冲编码调制的（PCM）数据形式提供的5.1或者7.1环绕声数据）与音频对象数据204结合以便产生自适应音频混合208。音频对象数据204通过将原始的基于声道的数据的元素与指定关于音频对象的位置的特定参数的关联元数据结合来被产生。

如图2中概念上所示出的，创作工具提供创建音频节目的能力，该音频节目同时包含对象声道和扬声器声道组的组合。例如，音频节目可以包含可选地组织成组的一个或更多个扬声器声道（或者轨道，例如立体声或者5.1轨道）、用于一个或更多个扬声器声道的描述元数据、一个或更多个对象声道、以及用于一个或更多个对象声道的描述元数据。在一个音频节目内，每个扬声器声道组以及每个对象声道可以通过使用一个或更多个不同的采样率被表示。例如，数字电影（D电影）应用支持48kHz和96kHz采样率，但是还可以支持其它采样率。此外，还可以支持具有不同的采样率的声道的摄取（ingest）、存储和编辑。

音频节目的创建要求声音设计的步骤，其包括结合声音元素作为水平调整的构成声音元素的和以便创建新的期望的声音效果。自适应音频系统的创作工具使得能够使用空间-视觉的声音设计图形用户界面创建声音效果作为具有相对位置的声音对象的集合。例如，声音产生对象（例如，汽车）的视觉表示可以被用作用于组装音频元素（排气音调（exhaustnote）、轮胎哼鸣（hum）、发动机噪声）作为包含声音和合适的空间位置（在尾管、轮胎、机罩（hood）处）的对象声道的模板。然后单独的对象声道可以作为整体被链接和操纵。创作工具106包括若干用户接口元素以便允许声音工程师输入控制信息和观看混合参数，并且改善系统功能。声音设计和创作处理通过允许对象声道和扬声器声道作为整体被链接和操纵而也被改善。一个示例是将具有离散、干声源的对象声道与包含关联的混响信号的一组扬声器声道结合。

音频创作工具106支持结合多个音频声道（通常被称为混合）的能力。多个混合方法被支持并且可以包括传统的基于水平的混合和基于响度的混合。在基于水平的混合中，宽带缩放（scaling）被应用于音频声道，并且缩放后的音频声道然后被一起求和。用于每个声道的宽带缩放因子被选择以便控制结果得到的混合的信号的绝对水平，以及混合的信号内的混合的声道的相对水平。在基于响度的混合中，一个或更多个输入信号通过使用依赖频率的振幅缩放被修改，其中依赖频率的振幅被选择以便提供期望的感知的绝对和相对响度，而同时保持输入声音的感知的音色。

创作工具允许创建扬声器声道和扬声器声道组的能力。这允许元数据与每个扬声器声道组关联。每个扬声器声道组可以根据内容类型被加标签。内容类型可经由文本描述扩展。内容类型可以包括但不限于，对话、音乐和效果。每个扬声器声道组可以被分配关于如何从一个声道配置上混（upmix）到另一个的唯一的指令，其中上混被定义为从N个声道创建M个音频声道，其中M>N。上混指令可以包括但不限于以下：用于指示是否容许上混的启用/禁用标志；用于控制每个输入和输出声道之间的映射的上混矩阵；并且默认启用和矩阵设定可以基于内容类型被分配，例如，仅仅对于音乐启用上混。每个扬声器声道组也可以被分配关于如何从一个声道配置下混（downmix）到另一个的唯一的指令，其中下混被定义为从X个声道创建Y个音频声道，其中Y<X。下混指令可以包括但不限于以下：用于控制每个输入和输出声道之间的映射的矩阵；并且默认矩阵设定可以基于内容类型被分配，例如，对话应该下混到屏幕上；效果应该下混离开屏幕。每个扬声器声道也可以与用于在呈现期间禁用低音管理的元数据标志关联。

实施例包括使得能够创建对象声道和对象声道组的特征。本发明允许元数据与每个对象声道组关联。每个对象声道组可以根据内容类型被加标签。内容类型是可扩展的经由文本描述，其中内容类型可以包括但不限于对话、音乐和效果。每个对象声道组可以被分配用于描述应该如何呈现一个或多个对象的元数据。

位置信息被提供以便指示期望的表观源位置。位置可以通过使用自我中心的或非自我中心的参考系被指示。在源位置要涉及收听者时自我中心的参考是合适的。对于自我中心的位置，球面坐标对于位置描述是有用的。非自我中心的参考对于其中相对于表现环境中的对象（诸如视觉显示屏幕或房间边界）提及源位置的电影或其它音频/视觉表现是典型的参考系。三维（3D）轨迹信息被提供以便使得能够进行位置的内插或用于使用其它呈现决定，诸如使得能够进行“快移（snap）到模式”。尺寸信息被提供以便指示期望的表观感知的音频源尺寸。

空间量子化通过“快移到最接近扬声器”控制被提供，该控制由声音工程师或混合者指示意图以便具有由正好一个扬声器呈现的对象（对空间精度有一些可能的牺牲）。对允许的空间失真的限制可以通过仰角（elevation）和方位角（azimuth）容限阈值被指示，使得如果超过阈值则不会出现“快移”功能。除了距离阈值之外，交叉衰落（crossfade）速率参数也可以被指示，以便在期望的位置在扬声器之间交叉时控制移动对象将如何快速地从一个扬声器转变或跳变到另一个。

在一个实施例中，依赖的空间元数据被用于特定位置元数据。例如，元数据可以通过将其与从属对象要跟随的“主控”对象关联来对于“从属”对象被自动产生。时滞或相对速度可以被分配给从属对象。机构也可以被提供以便允许对于多组或多群对象的重力的声中心的定义，使得对象可以被呈现使得它被感知为围绕另一个对象移动。在这种情况下，一个或更多个对象可以围绕对象或定义的区域（诸如主导点或房间的干区域）旋转。即使最终的位置信息将被表示为相对于房间的位置，与相对于另一个对象的位置相反，重力的声中心然后也将被用在呈现阶段中以便帮助确定对于每个合适的基于对象的声音的位置信息。

在呈现对象时，它根据位置元数据以及回放扬声器的位置被分配给一个或更多个扬声器。额外的元数据可以与对象关联以便限制应该使用的扬声器。限制的使用可以禁止使用指示的扬声器或仅仅禁止指示的扬声器（相比于否则会被应用的情况，允许更少能量到扬声器或多个扬声器中）。要被约束的扬声器组可以包括但不限于，命名的扬声器或扬声器区域中的任意一个（例如L、C、R等），或扬声器区域，诸如：前壁、后壁、左壁、右壁、天花板、地板、房间内的扬声器等等。同样地，在指定多个声音元素的期望的混合的过程中，可以使得一个或更多个声音元素变得听不见或“被掩蔽”，由于存在其它“掩蔽”声音元素。例如，当检测到被掩蔽的元素时，它们可以经由图形显示器被识别给用户。

如其它地方描述的，音频节目描述可以适应于在各式各样的扬声器设施和声道配置上呈现。当音频节目被创作时，重要的是监视在预期的回放配置上呈现节目的效果以检验实现期望的结果。本发明包括选择目标回放配置和监视结果的能力。另外，系统可以自动监视将在每个预期的回放配置中被产生的最坏情况（即最高）信号水平，并且在将出现裁剪（clipping）或限制的情况下提供指示。

图3是按照一个实施例的示出创建、封装和呈现自适应音频内容的工作流程的框图。图3的工作流程300被分成标记为创建/创作、封装和展出的三个不同的任务组。通常，图2中示出的基础和对象的混合模型允许大多数的声音设计、编辑、预混合和最终混合以与当今相同的方式被执行并且不向当前处理添加过多的开销。在一个实施例中，自适应音频功能以与声音制作和处理设备结合使用的软件、固件或电路形式被提供，其中这种设备可以是新型硬件系统或对现有的系统的更新。例如，插电式应用可以为数字音频工作站提供以允许声音设计和编辑内的现有的摇移技术保持不变。以这种方式，可以在5.1或类似的环绕装备的编辑室中的工作站内铺设基础和对象两者。对象音频和元数据被记录在会话中以准备在配音（dubbing）剧场中的预混合和最终混合阶段。

如图3所示，创建或创作任务包括通过用户（例如，在下面示例中，声音工程师）输入混合控制302到混合控制台或音频工作站304。在一个实施例中，元数据被集成到混合控制台表面中，允许声道条（strips）的音量控制器（faders）、摇移和音频处理对基础或主干和音频对象两者起作用。可以使用控制台表面或者工作站用户界面编辑元数据，并且通过使用呈现和主控单元（RMU）306监视声音。基础和对象音频数据以及关联的元数据在主控会话期间被记录以便创建‘打印主控器’，其包括自适应音频混合310和任何其它呈现的可交付物（deliverables）（诸如环绕7.1或5.1剧场的混合）308。现有的创作工具（例如数字音频工作站，诸如Pro工具）可以被用来允许声音工程师标记混合会话内的单独的音频轨道。实施例通过允许用户标记轨道内的单独的子片段以帮助发现或快速识别音频元素，来扩展这个概念。到使得能够定义和创建元数据的混合控制台的用户界面可以通过图形用户界面元素、物理控制（例如，滑动器和旋钮）或其任何组合被实现。

在封装阶段中，打印主控文件通过使用工业标准的MXF包装（wrap）过程被包装、混编（hash）和可选地加密，以便确保用于递送到数字电影封装设施的音频内容的完整性。这个步骤可以通过数字电影处理器（DCP）312或任何合适的音频处理器取决于最终的回放环境（诸如标准的环绕声音装备的剧场318、自适应音频启用剧场320或任何其它回放环境）被执行。如图3所示，处理器312根据展出环境输出合适的音频信号314和316。

在一个实施例中，自适应音频打印主控器包含自适应音频混合，以及遵从标准的DCI的脉冲编码调制（PCM）混合。PCM混合可以通过配音剧场中的呈现和主控单元被呈现，或通过分离的混合途径在需要时被创建。PCM音频在数字电影处理器312内形成标准的主音频轨道文件，并且自适应音频形成额外的轨道文件。这种轨道文件可以遵从现有工业标准，并且被不能使用它的遵从DCI的服务器忽略。

在示例电影回放环境中，包含自适应音频轨道文件的DCP被服务器识别为有效的封装体，并且被摄取到服务器中并且随后被流到自适应音频电影处理器。系统具有线性的PCM和自适应音频文件两者可用，该系统可以根据需要在它们之间切换。对于分发到展出阶段，自适应音频封装方案允许单个类型封装体的递送被递送给电影院。DCP封装体包含PCM和自适应音频文件两者。安全密钥（诸如密钥递送消息（KDM））的使用可以被并入以便使得能够安全递送电影内容或其它类似的内容。

如图3所示，自适应音频方法通过使得声音工程师能够通过音频工作站304表达关于音频内容的呈现和回放的他或她的意图而被实现。通过控制特定输入控制，工程师能够根据收听环境指定在哪里和如何回放音频对象和声音元素。响应于工程师的混合输入302在音频工作站304中产生元数据以便提供呈现队列，其控制空间参数（例如，位置、速度、强度、音色等）并且指定收听环境中的哪个扬声器（哪些扬声器）或扬声器组在展出期间播放相应的声音。元数据与工作站304或RMU306中的相应的音频数据关联以用于通过DCP312封装和传输。

通过工程师提供工作站304的控制的软件工具和图形用户界面至少包括图1的创作工具106的部分。

混合音频编解码器

如图1所示，系统100包括混合音频编解码器108。这个组件包含音频编码、分发和解码系统，其被配置为产生包含传统的基于声道的音频元素和音频对象编码元素两者的单个比特流。混合音频编码系统围绕基于声道的编码系统被构建，基于声道的编码系统被配置为产生单个（统一）比特流，其同时可与第一解码器和一个或更多个二次解码器兼容（即，可由第一解码器和一个或更多个二次解码器解码），第一解码器被配置为解码根据第一编码协议编码的（基于声道的）音频数据，二次解码器被配置为解码根据一个或更多个二次编码协议编码的（基于对象的）音频数据。比特流可以包括可由第一解码器解码（并且被任何二次解码器忽略）的编码后的数据（以数据子帧（burst）形式）和可由一个或更多个二次解码器解码（并且被第一解码器忽略）的编码后的数据（例如，数据的其它子帧）两者。来自二次解码器中的一个或更多个和第一解码器的解码后的音频和关联的信息（元数据）然后可以以使得基于声道的和基于对象的信息两者被同时呈现的方式被结合以便再造环境的复制（facsimile）、声道、空间信息、和呈现到混合编码系统的对象（即在三维空间或收听环境内）。

编解码器108产生包含与多组声道位置（扬声器）有关的信息和编码的音频信息的比特流。在一个实施例中，一组声道位置是固定的并且用于基于声道的编码协议，而另一组声道位置是自适应的并且用于基于音频对象的编码协议，使得用于音频对象的声道配置可以随时间而改变（取决于在声场中将对象放置在哪里）。因此，混合音频编码系统可以携带关于用于回放的两组扬声器位置的信息，其中一组可以是固定的并且是另一个组的子集。支持遗留编码的音频信息的装置将解码和呈现来自固定的子集的音频信息，而能够支持更大组的装置可以解码和呈现额外的编码的音频信息，其将是时间变化地分配给来自更大组的不同的扬声器。此外，系统不依赖于在系统和/或装置内同时存在的二次解码器中的一个或更多个以及第一解码器。因此，仅仅包含支持第一协议的解码器的遗留和/或现有的装置/系统将产生完全兼容的要经由传统的基于声道的再现系统呈现的声场。在该情况下，混合比特流协议的未知的或不被支持的部分（或多个部分）（即，由二次编码协议表示的音频信息）将被支持第一混合编码协议的系统或装置解码器忽略。

在另一实施例中，编解码器108被配置为操作在如下的模式中，该模式中第一编码子系统（支持第一协议）包含在混合编码器内存在的二次编码器子系统中的一个或更多个以及第一编码器两者中表示的所有声场信息（声道和对象）的结合的表示。这确保混合比特流包括通过允许在仅仅支持第一协议的解码器内呈现和表示音频对象（典型地在一个或更多个二次编码器协议中携带）而与仅仅支持第一编码器子系统的协议的解码器的向后兼容性。

在又一个实施例中，编解码器108包括两个或更多个编码子系统，其中这些子系统中的每一个被配置为根据不同协议编码音频数据，并且被配置为结合子系统的输出以产生混合格式（统一的）比特流。

实施例的好处之一是在宽范围的内容分发系统之上运送混合编码的音频比特流的能力，其中分发系统中的每一个传统地仅仅支持根据第一编码协议编码的数据。这消除了对任何系统和/或传输级别协议进行修改/改变以便特定地支持混合编码系统的需要。

音频编码系统典型地利用标准化的比特流元素以便使得能够在比特流本身内传输额外的（任意的）数据。这个额外的（任意的）数据在包括在比特流内的编码的音频的解码期间典型地被跳过（即，忽略），但是可以被用于除解码以外的目的。不同的音频编码标准通过使用唯一的命名法（nomenclature）表示这些额外的数据字段。这个一般类型的比特流元素可以包括但不限于，辅助数据、跳越字段、数据流元素、填充元素、补助的数据、以及子流（substream）元素。除非另有说明，否则这个文档中的表述“辅助数据”的使用并不暗示特定类型或格式的额外数据，而是应该被解释为包含与本发明关联的任何或所有示例的通用表述。

经由结合的混合编码系统比特流内的第一编码协议的“辅助的”比特流元素启用的数据通道可以携带一个或更多个二次（独立的或依赖的）音频比特流（根据一个或更多个二次编码协议被编码）。一个或更多个二次音频比特流可以被分割成N样本块并且多路复用到第一比特流的“辅助数据”字段中。第一比特流可由合适的（互补）解码器解码。另外，第一比特流的辅助数据可以被提取，被再结合到一个或更多个二次音频比特流中，由支持二次比特流中的一个或更多个的语法的处理器解码，并且随后被结合并且一起或独立地呈现。此外，还可以将第一和第二比特流的作用颠倒，使得第一比特流的数据的块被多路复用到第二比特流的辅助数据中。

与二次编码协议关联的比特流元素也携带和传送下层（underlying）音频的信息（元数据）特性，其可以包括但不限于，期望的声源位置、速度和尺寸。这个元数据在解码和呈现处理期间被利用以便重新创建对于可应用的比特流内携带的关联音频对象的正确的（即，初始的）位置。还可以在与第一编码协议关联的比特流元素内携带上述的元数据，其可应用到包含在混合流中存在的一个或更多个二次比特流中的音频对象。

与混合编码系统的第一和第二编码协议中的一个或两者关联的比特流元素携带/传送语境元数据，其识别空间参数（即，信号特性本身的本体）和描述具有在混合编码的音频比特流内携带的特定音频种类形式的下层音频本体类型的另外信息。这种元数据可以指示例如存在口头对话、音乐、在音乐之上的对话、掌声、歌声等，并且可以被用来自适应修改混合编码系统的上游或下游的互连的预处理或后处理模块的性质。

在一个实施例中，编解码器108被配置为利用共享的或公共的比特池（pool）来操作，在比特池中对于编码可用的比特在支持一个或更多个协议的编码子系统的部分或全部之间被“共享”。这种编解码器可以在编码子系统之间分发可用的比特（来自公共的“共享的”比特池）以便优化统一的比特流的整体音频质量。例如，在第一时间间隔期间，编解码器可以分配更多的可用比特给第一编码子系统，并且分配更少的可用比特给剩余子系统，而在第二时间间隔期间，编解码器可以分配更少的可用比特给第一编码子系统，并且分配更多的可用比特给剩余子系统。如何在编码子系统之间分配比特的决定可以依赖于例如共享的比特池的统计分析的结果和/或由每个子系统编码的音频内容的分析。编解码器可以以使得通过多路复用编码子系统的输出构造的统一的比特流在特定的时间间隔内维持恒定的帧长度/比特率的方式来分配来自共享的池的比特。在一些情况下还可以在特定的时间间隔内改变统一的比特流的帧长度/比特率。

在可替代的实施例中，编解码器108产生统一的比特流，其包括根据配置和发送作为编码后的数据流（支持第一编码协议的解码器将对其解码）的独立子流的第一编码协议编码的数据、以及根据发送作为编码后的数据流（支持第一协议的解码器将忽略其）的独立的或依赖的子流的第二协议编码的数据。更一般地说，在一类实施例中，编解码器产生统一的比特流，其包括两个或更多个独立的或依赖的子流（其中每个子流包括根据不同的或相同的编码协议编码的数据）。

在又一个可替代的实施例中，编解码器108产生统一的比特流，其包括根据利用唯一的比特流标识符配置和发送的第一编码协议编码的数据（支持与唯一的比特流标识符关联的第一编码协议的解码器将对其解码）、以及根据利用唯一的比特流标识符配置和发送的第二协议编码的数据（支持第一协议的解码器将忽略其）。更一般地说，在一类实施例中，编解码器产生统一的比特流，其包括两个或更多个子流（其中每个子流包括根据不同的或相同的编码协议编码的数据并且其中每个携带唯一的比特流标识符）。用于创建上述的统一的比特流的方法和系统提供清楚地（给解码器）发信号通知哪个交错（interleaving）和/或协议已经在混合比特流内被利用的能力（例如，发信号通知是否利用描述的AUX数据、SKIP、DSE或子流方法）。

混合编码系统被配置为支持在整个媒体递送系统期间发现的任何处理点处对支持一个或更多个二次协议的比特流的解交错/解多路复用和重新交错/重新多路复用到第一比特流（支持第一协议）中。混合编解码器还被配置为能够将具有不同采样率的音频输入流编码到一个比特流中。这提供用于有效地编码和分发包含具有固有地不同的带宽的信号的音频源的手段。例如，与音乐和效果轨道相比，对话轨道典型地具有固有地更低的带宽。

呈现

在实施例之下，自适应音频系统允许多个（例如，高达128个）轨道被封装，通常作为基础和对象的结合。对于自适应音频系统的音频数据的基本格式包括许多独立的单声道音频流。每个流具有与它关联的元数据，其指定流是基于声道的流还是基于对象的流。基于声道的流具有利用声道名字或标记编码的呈现信息；并且基于对象的流具有通过在另外关联的元数据中编码的数学表达式编码的位置信息。原始的独立的音频流然后被封装作为以有序的方式包含所有音频数据的单个串行的比特流。这个自适应数据配置允许根据非自我中心的参考系呈现声音，在其中声音的最终呈现位置基于回放环境以对应于混合者的意图。因此，声音可以被指定为来源于回放房间的参考系（例如，左壁的中间），而不是特定的标记的扬声器或扬声器组（例如，左环绕）。对象位置元数据包含为在房间中使用可用扬声器位置正确地播放声音所需的适当的非自我中心的参考系信息，该房间被设立来播放自适应音频内容。

呈现器采取对音频轨道编码的比特流，并且根据信号类型处理内容。基础被供给阵列，其将可能要求与单独的对象不同的延迟和均衡化处理。处理支持将这些基础和对象呈现给多个（高达64个）扬声器输出。图4是按照一个实施例的自适应音频系统的呈现阶段的框图。如图4的系统400所示，许多输入信号（诸如高达128个音频轨道，其包括自适应音频信号402）被系统300的创建、创作和封装阶段的特定组件（诸如RMU306和处理器312）提供。这些信号包括被呈现器404利用的基于声道的基础和对象。基于声道的音频（基础）和对象被输入到水平管理器（levelmanager）406，其提供对不同的音频成分的振幅或输出水平的控制。特定音频成分可以由阵列校正组件408处理。自适应音频信号然后经过B链处理组件410，其产生多个（例如，高达64个）扬声器供给输出信号。通常，B链供给指的是由功率放大器、杂交（crossovers）和扬声器处理的信号，与构成电影胶片上的音轨的A链内容相反。

在一个实施例中，呈现器404运行呈现算法，其智能地尽全力使用剧场中的环绕扬声器。通过改善环绕扬声器的功率处理和频率响应，并且对于剧场中的每个输出声道或扬声器保持相同的监视参考水平，在屏幕和环绕扬声器之间摇移的对象可以维持他们的声压水平并且在重要地没有增大剧场中的整体声压水平的情况下具有更接近的音色匹配。适当地指定的环绕扬声器的阵列将典型地具有足够净空（headroom）以便再现在环绕7.1或5.1音轨内可用的最大动态范围（即在参考水平之上20dB），然而不太可能单个环绕扬声器将具有大的多路的屏幕扬声器的相同的净空。结果，将很可能存在位于环绕场中的对象将要求大于使用单个环绕扬声器可得到的声压的声压的情况。在这些情况下，呈现器将展开声音横过合适数量的扬声器以便实现要求的声压水平。自适应音频系统改善环绕扬声器的质量和功率处理以便提供呈现的真实性方面的改善。它通过使用允许每个环绕扬声器实现改善的功率处理的可选的后部亚低音扬声器并且同时可能地利用更小的扬声器箱（cabinets），来提供对于环绕扬声器的低音管理的支持。它还允许增加比现行实践更接近于屏幕的侧面环绕扬声器以便确保对象可以平滑地从屏幕转变到环绕。

通过与特定呈现处理一起使用指定音频对象的位置信息的元数据，系统400为内容创建者提供综合的、灵活的方法以用于移动超出现有的系统的约束。如先前所述当前的系统创建并且分发音频，其利用对音频本体（回放的音频的部分）中传送的内容类型的有限认识被固定到特别的扬声器位置。自适应音频系统100提供新的混合方法，其包括对于扬声器位置特定的音频（左声道、右声道等）和面向对象的音频元素两者的选项，面向对象的音频元素已经概括了可以包括但不限于位置、尺寸和速度的空间信息。这个混合方法提供对于呈现中的保真度（通过固定的扬声器位置提供）和灵活性（概括的音频对象）平衡的办法。系统还通过内容创建者在内容创建时提供与音频本体配套的关于音频内容的额外的有用信息。这个信息提供可在呈现期间以非常有力的方式使用的关于音频的属性的有力的详细信息。这种属性可以包括但不限于，内容类型（对话、音乐、效果、福雷录音、背景/环境等）、空间属性（3D位置、3D尺寸、速度）、以及呈现信息（快移到扬声器位置、声道权重、增益、低音管理信息等）。

在本申请中描述的自适应音频系统提供可以被广泛变化的数量的端点用于呈现的有力的信息。在很多情况下应用的最佳的呈现技术在很大程度上取决于端点装置。例如，家庭影院系统和声吧可以具有2、3、5、7或甚至9个分离的扬声器。许多其它类型的系统（诸如电视机、计算机和音乐坞）仅仅具有两个扬声器，并且几乎所有的通常使用的装置具有两耳的头戴耳机输出（PC、膝上型计算机、平板、蜂窝电话、音乐播放器等）。然而，对于当今分发的传统的音频（单声道、立体声、5.1、7.1声道），端点装置经常需要作出简单化的决定并且折衷以便呈现和再现现在以声道/扬声器特定的形式分发的音频。另外有一点或没有传送的关于正在分发的实际内容的信息（对话、音乐、环境等）并且有一点或没有关于内容创建者的对于音频再现的意图的信息。然而，自适应音频系统100提供这个信息并且可能地访问音频对象，其可以被用来创建强制性的（compelling）下一代用户体验。

系统100允许内容创建者使用元数据（诸如位置、尺寸、速度等等）通过唯一的并且强大的元数据和自适应音频传输格式在比特流内嵌入混合的空间意图。这允许在音频的空间再现方面有大量灵活性。从空间呈现观点看，自适应音频使得能够使混合适应于特别的房间中的扬声器的精确位置以免当回放系统的几何形状与创作系统不相同时出现的空间失真。在其中仅仅发送对于扬声器声道的音频的当前音频再现系统中，内容创建者的意图是未知的。系统100使用在整个创建和分发流水线期间传送的元数据。意识到自适应音频的再现系统可以使用这个元数据信息来以匹配内容创建者的初始意图的方式再现内容。同样地，混合可以适应于再现系统的精确的硬件配置。目前，在呈现设备（诸如电视机、家庭影院、声吧（soundbars）、便携式音乐播放器坞（docks）等）中存在许多不同的可能的扬声器配置和类型。当这些系统被发送有现今的声道特定的音频信息（即左和右声道音频或多声道的音频）时，系统必须处理音频来适当地匹配呈现设备的能力。一个示例是标准的立体声音频被发送给具有多于两个扬声器的声吧。在其中仅仅发送对于扬声器声道的音频的当前音频再现中，内容创建者的意图是未知的。通过使用在整个创建和分发流水线期间传送的元数据，意识到自适应音频的再现系统可以使用这个信息来以匹配内容创建者的初始意图的方式再现内容。例如，某些声吧具有侧面激发（firing）扬声器来创建包围的感觉。利用自适应音频，空间信息和内容类型（诸如环境效果）可以由声吧使用来只发送合适的音频到这些侧面激发扬声器。

自适应音频系统允许在系统中在前/后、左/右、上/下、近/远的全部尺度上无限内插扬声器。在当前的音频再现系统中，不存在关于如何处理其中可以期望定位音频使得它被收听者感知为在两个扬声器之间的音频的信息。目前，在仅仅分配给特定的扬声器的音频的情况下，空间量子化因素被引入。利用自适应音频，音频的空间定位可以被准确地知道并且相应地在音频再现系统上再现。

对于头戴耳机呈现，创建者的意图通过匹配头相关传递函数（HeadRelatedTransferFunctions，HRTF）到空间位置来被实现。当在头戴耳机之上再现音频时，空间虚拟化可以通过应用处理音频的头相关传递函数、添加创建在三维空间中而不在头戴耳机之上播放的音频的感知的感知提示（cues）来实现。空间再现的精度取决于合适的HRTF的选择，HRTF可以基于包括空间位置在内的若干因素而改变。使用由自适应音频系统提供的空间信息可以使得选择一个或持续改变数量的HRTF以便极大地改善再现体验。

自适应音频系统传送的空间信息可以不仅由内容创建者使用来创建强制性的娱乐体验（电影、电视、音乐等），而且空间信息也可以指示收听者相对于物理对象（诸如建筑物或地理的感兴趣点）的位置。这将允许用户和与真实世界有关的虚拟化的音频体验相互作用即，增大真实性。

实施例还使得能够通过利用只有当对象音频数据不可用时才读取元数据来执行增强的上混来进行空间上混。知道所有对象的位置和他们的类型允许上混器更好区别基于声道的轨道内的元素。现有的上混算法必须推断诸如音频内容类型（讲话、音乐、环境效果）之类的信息以及音频流内的不同元素的位置以便创建具有最小或没有可听到的伪迹的高质量上混。常常推断的信息可能是不正确的或不适当的。在自适应音频的情况下，可从与例如音频内容类型、空间位置、速度、音频对象尺寸等有关的元数据中获得的附加信息可以由上混算法使用来创建高质量再现结果。该系统还通过准确地定位屏幕的音频对象到视觉元素来空间地将音频匹配到视频。在该情况下，如果某些音频元素的再现的空间位置匹配屏幕上的图象元素，则强制性的音频/视频再现体验是可能的，特别地在更大屏幕尺寸的情况下。一个示例是在电影或电视节目中具有对话与正在屏幕上说话的人或角色在空间上一致。通常的基于扬声器声道的音频的情况下，不存在容易的方法来确定对话应该被空间地定位在哪里以便匹配屏幕上的角色或人的位置。利用自适应音频可用的音频信息，这种音频/视觉对准可以被实现。视觉位置和音频空间对准也可以被用于非角色/对话对象（诸如汽车、卡车、动画、等等）。

空间掩蔽处理被系统100促进，因为通过自适应音频元数据对混合的空间意图的认识意味着混合可以适应于任何扬声器配置。然而，由于回放系统限制，在相同的或几乎相同的位置中下混对象存在风险。例如，如果环绕声道不存在，打算在左后部中摇移的对象可能被下混到左前方，但是如果同时在左前方中出现更大声的元素，则下混的对象将被掩蔽并且从混合中消失。使用自适应音频元数据，空间掩蔽可以由呈现器预期，并且每个对象的空间和或响度下混参数可以被调节使得混合的全部音频元素保持正如原始的混合中可感知的一样。由于呈现器明白混合和回放系统之间的空间关系，因此它具有“快移”对象到最接近扬声器的能力而不是在两个或更多个扬声器之间创建幻像（phantomimage）。虽然这可能使混合的空间表示稍微失真，但是它也允许呈现器避免非故意的幻像。例如，如果混合阶段的左扬声器的角位置不对应于回放系统的左扬声器的角位置，则使用快移到最接近扬声器的功能可以避免回放系统再现混合阶段的左声道的恒定幻像。

对于内容处理，自适应音频系统100允许内容创建者创建单独的音频对象和添加关于可以被传送到再现系统的内容的信息。这允许在再现之前的音频处理中有大量灵活性。从内容处理和呈现观点看，自适应音频系统使得处理能够适应于对象类型。例如，对话增强可以被仅仅应用于对话对象。对话增强指的是处理包含对话的音频使得对话的能听度和/或可懂度被增大和或改善的方法。在很多情况下被应用于对话的音频处理是对于非对话音频内容（即音乐、环境效果等）不适当的并且可以导致令人不愉快的可听到的假象。利用自适应音频，音频对象可以在一块内容中仅仅包含对话，并且它可以被相应地标记使得呈现解决方案可以选择性地将对话增强仅仅应用于对话内容。另外，如果音频对象仅仅是对话（并且不是经常情况的对话和其它内容的混合），则对话增强处理可以专门地处理对话（由此限制对任何其它内容执行的任何处理）。同样地，低音管理（滤波、衰减、增益）可以基于他们的类型指向特定的对象。低音管理指的是在特别的一块内容中选择性地隔离和仅仅处理低音（或更低）频率。在当前的音频系统和传送机构的情况下，这是被应用于所有音频的“盲（blind）”处理。利用自适应音频，适合进行低音管理的特定的音频对象可以通过元数据被识别，并且可以适当地应用呈现处理。

自适应音频系统100也提供基于对象的动态范围压缩和选择性的上混。传统的音频轨道具有与内容本身相同的持续时间，但是音频对象可能仅仅在内容中出现有限量的时间。与对象关联的元数据可以包含关于它的平均值和峰值信号振幅的信息以及它的发动（onset）或冲击时间（特别地对于瞬时的材料）。这个信息将允许压缩器更好修改它的压缩和时间常数（冲击、释放等）以便更好适应内容。对于选择性的上混，内容创建者可能选择在自适应音频比特流中指示对象是否应该被上混。这个信息允许自适应音频呈现器和上混器在考虑创建者的意图的同时区分哪些音频元素可以被安全地上混。

实施例还允许自适应音频系统从许多可用的呈现算法和/或环绕声格式中选择偏爱的呈现算法。可用的呈现算法的示例包括：两路立体声、立体声偶极、立体混响声、波场合成（WFS）、多声道摇移（panning）、具有位置元数据的原始主干。其它包括双平衡和基于矢量的振幅摇移。

两路立体声的分发格式使用依据左右耳处出现的信号的声场的双声道的表示。两路立体声的信息可以经由耳朵内记录被创建或使用HRTF模式被合成。两路立体声的表示的回放典型地在头戴耳机之上进行，或者通过采用串扰消除进行。在任意的扬声器设立之上回放将要求信号分析以便确定关联的声场和/或一个或多个信号源。

立体声偶极呈现方法是跨声道（transaural）串扰消除处理以便制造可在立体声扬声器（例如，以+和-10度偏心）之上播放的两耳的信号。

立体混响声是以称为B格式的四声道的形式被编码的（分发格式和呈现方法）。第一声道W是不定向的压力信号；第二声道X是包含前方和后部信息的定向压力梯度；第三声道Y包含左和右并且Z包含上和下。这些声道定义整个声场在一点处的一阶样本。立体混响声使用所有可用的扬声器来在扬声器阵列内再创建采样的（或者合成的）声场，使得当某些扬声器正在推（pushing）时其它正在拉（pulling）。

波场合成是基于通过二次源精确的构造期望的波场的声音再现的呈现方法。WFS基于惠更斯原理，并且被实现为扬声器阵列（几十或者几百），其环绕收听空间并且以协同的定相的方式操作以便重新创建每个单独的声波。

多声道摇移是分发格式和/或呈现方法，并且可以被称为基于声道的音频。在该情况下，声音被表示为要通过相等数的扬声器以从收听者定义的角度被回放的许多离散源。内容创建者/混合者可以通过在相邻声道之间摇移信号来创建虚像以便提供方向提示；早期反射、混响等可以被混合到许多声道中以便提供方向和环境提示。

具有位置元数据的原始主干是分发格式，并且也可以被称为基于对象的音频。在这个格式中，不同的“接近话筒的（closemic'ed）”声源与位置和环境元数据一起被表示。虚拟源基于元数据和回放设备和收听环境被呈现。

自适应音频格式是多声道摇移格式和原始主干格式的混合。本实施例中的呈现方法是多声道摇移。对于音频声道，呈现（摇移）在创作时间处发生，但是对于对象呈现（摇移）在回放处发生。

元数据和自适应音频传输格式

如上所述，元数据在创建阶段期间被产生以便对于音频对象对特定位置信息编码和伴随音频节目来帮助呈现音频节目，并且特别地，以使得能够在各式各样的回放设备和回放环境上呈现音频节目的方式描述音频节目。针对给定节目以及在后制作期间创建、收集、编辑和操纵音频的编辑者和混合者产生元数据。自适应音频格式的重要特征是控制音频将如何译为不同于混合环境的回放系统和环境的能力。特别地，给定电影可以具有比混合环境更少的能力。

自适应音频呈现器被设计成充分利用可用的设备来重新创建混合者的意图。此外，自适应音频创作工具允许混合者预览和调节混合将如何在各种回放配置上被呈现。所有元数据值可以在回放环境和扬声器配置上被调节（condition）。例如，可以基于回放配置或者模式指定对于给定音频元素的不同的混合水平。在一个实施例中，调节的回放模式的列表是可扩展的并且包括以下：（1）仅仅基于声道的回放：5.1、7.1、7.1（高度）、9.1；以及（2）离散扬声器回放：3D、2D（没有高度）。

在一个实施例中，元数据控制或者规定自适应音频内容的不同的方面并且基于不同类型被组织，该类型包括：节目元数据、音频元数据以及呈现元数据（对于声道以及对象）。每个类型的元数据包括一个或更多个元数据项目，其提供对于由标识符（ID）提及的特性的值。图5是按照一个实施例的列出对于自适应音频系统的元数据类型和关联的元数据元素的表格。

如图5的表格500所示，第一类型元数据是节目元数据，其包括指定帧率、轨道数、可扩展的声道描述和混合阶段描述的元数据元素。帧率元数据元素指定以每秒帧（fps）为单位的音频内容帧的速率。原始的音频格式不必包括音频或者元数据的组帧（framing），因为音频被提供为全轨道（一盘（reel）或者整个特征的持续时间）而不是音频片段（对象的持续时间）。原始的格式的确需要携带使得自适应音频编码器能够对音频和元数据进行组帧所需的所有信息，包括实际帧率。表1示出了帧率元数据元素的ID、示例值和描述。

表1

ID值描述2

轨道数元数据元素指示帧中的音频轨道的数量。示例的自适应音频解码器/处理器可以支持高达128个同时的音频轨道，但是自适应音频格式将支持任意数目的音频轨道。表2示出了轨道数元数据元素的ID、示例值和描述。

表2

ID值描述2

基于声道的音频可以被分配给非标准声道，并且可扩展的声道描述元数据元素使得混合能够使用新的声道位置。对于每个扩展声道以下元数据应该被提供，如表3所示：

表3

ID值描述2

ExtChanPosition	x,y,z坐标	位置
			ExtChanWidth	x,y,z坐标	宽度

混合阶段描述元数据元素指定在其处特别的扬声器产生通带的一半功率的频率。表格4示出了混合阶段描述元数据元素的ID、示例值和描述，其中LF=低频；HF=高频；3dB点=扬声器通带的边缘。

表4

ID值描述

如图5所示，第二类型元数据是音频元数据。每个基于声道的或者基于对象的音频元素由音频本体和元数据组成。音频本体是在许多音频轨道之一上携带的单声道音频流。关联元数据描述音频本体如何被存储（音频元数据，例如，采样率）或者它应该如何被呈现（呈现元数据，例如，期望的音频源位置）。通常，音频轨道在音频节目的持续期间是连续的。节目编辑者或者混合者对分配音频元素给轨道负责。预期轨道使用是稀疏的，即中值的同时轨道使用可以仅仅是16到32。在典型的实现方式中，音频将通过使用无损的编码器被有效地发送。然而，可替代的实现方式是可能的，例如发送未编码的音频数据或者有损编码的音频数据。在典型的实现方式中，格式由高达128个音频轨道组成，其中每个轨道具有单个样本速率和单个编码系统。每个轨道持续特征的持续时间（没有明确的卷（reel）支持）。对象到轨道的映射（时分复用）是内容创建者（混合者）的责任。

如图3所示，音频元数据包括采样率、比特深度、和编码系统的元素。表5示出了采样率元数据元素的ID、示例值和描述。

表5

ID值描述

表6示出了比特深度元数据元素的ID、示例值和描述（对于PCM和无损压缩）。

表6

ID值描述

表7示出了编码系统元数据元素的ID、示例值和描述。

表7

ID值描述

阶段1阶段2

如图5所示，第三类型元数据是呈现元数据。呈现元数据指定帮助呈现器与回放环境无关地尽可能接近地匹配原始的混合者意图的值。该组元数据元素对于基于声道的音频和基于对象的音频是不同的。第一呈现元数据字段在基于音频声道的或者基于对象的两个类型之间进行选择，如表8所示。

表8

ID值阶段2

对于基于声道的音频的呈现元数据包含位置元数据元素，其指定作为一个或更多个扬声器位置的音频源位置。表9示出了对于基于声道的情况的对于位置元数据元素的ID和值。

表9

ID值描述

对于基于声道的音频的呈现元数据还包含呈现控制元素，其指定关于基于声道的音频的回放的特定特性，如表10所示。

表10

ID值描述

对于基于对象的音频，元数据包括与基于声道的音频类似的元素。表11提供对于对象位置元数据元素的ID和值。对象位置以三种方式之一被描述：三维坐标；面和二维坐标；或者线和一维坐标。呈现方法可以基于位置信息类型修改。

表11

ID值描述

对于对象呈现控制元数据元素的ID和值被示出在表12中。这些值提供用于控制或者优化对于基于对象的音频的呈现的额外的手段。

表12

ID值描述

在一个实施例中，上述和图5中示出的元数据被产生和存储为一个或更多个文件，其与对应音频内容关联或索引（indexed），使得音频流由解释混合者产生的元数据的自适应音频系统处理。应当注意，上述的元数据是示例性的一组ID、值和定义，并且其它或额外的元数据元素可以被包括以供自适应音频系统之用。

在一个实施例中，两个（或更多）组的元数据元素与基于对象的音频流和声道中的每一个关联。对于回放环境的第一条件，第一组元数据被应用于多个音频流，并且对于回放环境的第二条件，第二组元数据被应用于多个音频流。对于给定音频流，基于回放环境的条件将第二或者后续的组的元数据元素代替第一组元数据元素。该条件可以包括因素，诸如房间尺寸、形状、房间内的材料成分、房间内的人密度和当前占用率、环境噪声特性、环境光特性、以及可以影响声音或者甚至回放环境的气氛的任何其它因素。

后制作和主控

自适应音频处理系统100的呈现阶段110可以包括音频后制作步骤，其引导创建最后的混合。在电影应用中，电影混合中使用的三个主要种类的声音是对话、音乐和效果。效果由不是对话或者音乐的声音（例如，环境噪声、背景/场景噪声）组成。声音效果可以由声音设计者记录或者合成，或者它们可以来源于效果库。包括特定的噪声源（例如，脚步声、门等）的子群效果被称为福雷录音（Foley）和由福雷录音者执行。不同类型的声音由记录工程师相应地标记和摇移。

图6示出按照一个实施例的对于自适应音频系统中的后制作过程的示例工作流程。如图600所示，在最后的混合606期间在配音剧场中将音乐、对话、福雷录音和效果的单独的声音成分所有放在一起，并且重录混合者（或多个）604使用预混合（也被称为‘混合减去’）以及单独的声音对象和位置数据以便以对例如对话、音乐、效果、福雷录音和背景声分组的方式创建主干。除了形成最后的混合606之外，音乐和全部效果主干可以被用作创建配音语言版本的电影的基本。每个主干由基于声道的基础和具有元数据的若干音频对象组成。主干结合以便形成最后的混合。使用来自音频工作站和混合控制台两者的对象摇移信息，呈现和主控单元608呈现音频到配音剧场中的扬声器位置。这个呈现允许混合者听到基于声道的基础和音频对象如何结合，并且还提供呈现到不同的配置的能力。混合者可以使用有条件的（conditional）元数据，其对于相关的简档（profile）默认，以便控制内容如何被呈现到环绕声道。以这种方式，混合者保留电影如何在所有可缩放环境中回放的完全控制。监视步骤可以被包括在重录步骤604和最后的混合步骤606中的一个或两者之后以便允许混合者听到并且评价在这些阶段中的每一个期间产生的中间内容。

在主控会话期间，主干、对象和元数据被一起放在自适应音频封装体614中，其由打印主控器610产生。这个封装体还包含向后兼容的（遗留5.1或者7.1）环绕声剧场的混合612。呈现/主控单元（RMU）608可以在需要时呈现这个输出；由此在产生现有的基于声道的可交付物中消除对任何额外的工作流程步骤的需要。在一个实施例中，音频文件使用标准材料交换格式（MXF）包装被封装。自适应音频混合主控文件也可以被用来产生其它可交付物，诸如消费者多声道或者立体声混合。智能简档和有条件的元数据允许受控的呈现，其可以显著地减少为创建这种混合所需的时间。

在一个实施例中，封装系统可以被用来创建对于包括自适应音频混合的可交付物的数字电影封装体。音频轨道文件可以被锁在一起以便帮助防止与自适应音频轨道文件的同步误差。特定领土（territories）要求在封装阶段期间增加轨道文件，例如，增加听力损害（HI）或者视力损害叙述（VI-N）轨道到主要音频轨道文件。

在一个实施例中，回放环境中的扬声器阵列可以包括任意数目的根据建立的环绕声标准放置和指示的环绕声音扬声器。用于准确的呈现基于对象的音频内容的任意数目的额外的扬声器还可以基于回放环境的条件被放置。这些额外的扬声器可以由声音工程师设立，并且这个设立以设立文件的形式被提供到系统，该设立文件由系统使用以用于呈现自适应音频的基于对象的成分到整个扬声器阵列内的特定的扬声器或者多个扬声器。设立文件至少包括扬声器指定（designation）的列表以及声道到单独扬声器的映射、关于扬声器的分组的信息以及基于扬声器对于回放环境的相对位置的运行时间映射。运行时间映射通过将基于点源对象的音频内容呈现到最接近声音工程师意图的声音的感知位置的特定的扬声器的系统的快移特征被利用。

图7是按照一个实施例的对于使用自适应音频文件的数字电影封装处理的示例工作流程的图。如图700所示，包含自适应音频文件和5.1或者7.1环绕声音频文件两者的音频文件被输入到包装/加密块704。在一个实施例中，在块706中创建数字电影封装体后，PCMMXF文件（附加有合适的额外的轨道）使用SMPTE规范根据现有实践被加密。自适应音频MXF被封装为辅助的轨道文件，并且可选地使用根据SMPTE规范的对称的内容密钥被加密。这单个DCP708可以然后被递送给任何遵从数字电影倡导组织（DCI）的服务器。通常，不被适当地装备的任何设施将简单地忽略额外的轨道文件，其包含自适应音频音轨，并且将使用用于标准回放的现有的主要音频轨道文件。配备有合适的自适应音频处理器的设施将能在可应用时摄取并且回放自适应音频音轨，根据需要回复到标准的音频轨道。包装/加密组件704还可以提供直接到分发KDM块710的输入以用于产生合适的安全性密钥供数字电影服务器之用。其它电影元素或者文件（诸如字幕714和图像716）可以与音频文件702一起被包装并且加密。在该情况下，特定处理步骤可以被包括，诸如在图像文件716的情况下的压缩712。

对于内容管理，自适应音频系统100允许内容创建者创建单独的音频对象和添加关于能被传送到再现系统的内容的信息。这允许在音频的内容管理方面有大量灵活性。从内容管理观点看，自适应音频方法使得能够有若干不同的特征。这些包括通过仅仅代替对话对象来改变内容的语言以用于空间节省、下载效率、地理的回放适应等。电影、电视和其它娱乐节目典型地被国际性地分发。这经常要求这块内容中的语言根据它将被再现在哪里被改变（对于在法国演出的电影的法语，对于在德国演出的TV节目的德语等）。现今这经常要求创建、封装和分发完全独立的音频音轨。在自适应音频和它的音频对象的固有的概念的情况下，对于一块内容的对话可以是独立的音频对象。这允许在没有更新或者改变音频音轨的其它元素（诸如音乐、效果等）的情况下容易地改变内容的语言。这不会仅仅应用于外语而且对于特定观众（例如，孩子的电视演出、航线电影等）的不适当的语言，定向做广告，等等。

设施和设备考虑

自适应音频文件格式和关联的处理器允许在如何安装、校准和维护剧场设备方面的变化。在很多更多可能的扬声器输出的引入（每个被独立地均衡和平衡）的情况下，存在对智能和时间有效的自动房间均衡化的需要，其可以通过手动地调节任意自动化的房间均衡化的能力来被执行。在一个实施例中，自适应音频系统使用优化的1/12倍频带均衡化引擎。高达64个输出可以被处理以便更准确地平衡剧场中的声音。系统还允许单独的扬声器输出的计划的（scheduled）监视，从电影处理器输出一直到观众席中再现的声音。本地或者网络警报可以被创建以便确保采取合适的行动。灵活的呈现系统可以将损坏的扬声器或者放大器从回放链中自动去除并且围绕它呈现，因此允许演出继续下去。

电影处理器可以利用现有的8xAES主音频连接、以及用于流式自适应音频数据的以太网（Ethernet）连接来连接到数字电影服务器。环绕7.1或者5.1内容的回放使用现有PCM连接。自适应音频数据在以太网上被流到用于解码和呈现的电影处理器，并且服务器和电影处理器之间的通信允许音频被识别和同步。在自适应音频轨道回放出现任何问题的情况下，声音被恢复到DolbySurround7.1或者5.1PCM音频。

虽然已经关于5.1和7.1环绕声系统描述了实施例，但是应当注意，许多其它现在和将来的环绕配置也可以与实施例结合使用，包括9.1、11.1和13.1以及更多的。

自适应音频系统被设计成允许内容创作者和展出者两者决定声音内容要如何在不同的回放扬声器配置中呈现。使用的扬声器输出声道的理想数量将根据房间尺寸而改变。因此推荐的扬声器布置依赖于许多因素，诸如尺寸、成分、座位配置、环境、平均的观众尺寸、等等。示例或者代表性的扬声器配置和布局在本申请中仅仅出于例示的目的被提供，而不意图限制任何要求保护的实施例的范围。

对于自适应音频系统的推荐的扬声器布局保持可与现有的电影系统兼容，其是至关重要的，以便不损害现有的5.1和7.1基于声道的格式的回放。为了保持自适应音频声音工程师的意图以及7.1和5.1内容的混合者的意图，现有的屏幕声道的位置不应该在努力加强或者着重引入新的扬声器位置方面太根本地被改变。与使用所有可用的64个输出声道对比，自适应音频格式能够在电影院中被准确地呈现到扬声器配置（诸如7.1），因此甚至允许格式（以及关联的益处）被用在现有的剧场中而不改变放大器或者扬声器。

不同的扬声器位置可以根据剧场设计而具有不同的有效性，因此目前不存在工业指定的理想的声道的数量或者布置。自适应音频意图是真正地能适应的并且能够在各种观众席中准确的回放，无论它们具有有限数量的回放声道或者具有高度灵活的配置的许多声道。

图8是典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例布局的俯视图800，并且图9是观众席的屏幕处的建议的扬声器位置的示例布局的正视图900。在下文中提及的参考位置对应于在屏幕的中心线上从屏幕到后壁的距离的2/3向后的位置。标准的屏幕扬声器801被示出在他们的通常的相对于屏幕的位置中。屏幕面中的仰角的感知的研究已经示出了屏幕后面的额外的扬声器804（诸如左中心（Lc）和右中心（Rc）屏幕扬声器（在70mm胶片格式中的“LeftExtra”和“RightExtra”声道的位置中））在创建更平滑的横过屏幕的摇移中可以是有利的。因此推荐这种可选的扬声器，特别地在具有大于12m（40ft）宽的屏幕的观众席中。所有屏幕扬声器应该是成角度的使得它们指向参考位置。屏幕后面的亚低音扬声器810的推荐布置应该保持不变，包括维持相对于房间中心的不对称的箱布置，以防止驻波的激励。额外的亚低音扬声器816可以被放置在剧场的后部。

环绕扬声器802应该独立地布线向后到放大器立柜（amplifierrack），并且在可能时利用根据制造商的规范的扬声器的功率处理匹配的功率放大的专用声道被独立地放大。理想地，环绕扬声器应该被指定以对于每个单独的扬声器处理增大的SPL，并且在可能的情况下还具有更宽频率响应。根据经验对于平均尺寸的剧场，环绕扬声器的间距应该在2到3m（6'6"到9'9"）之间，左和右环绕扬声器对称地放置。然而，环绕扬声器的间距最有效地被认为是相邻扬声器之间从给定收听者对向（subtended）的角度，与使用扬声器之间的绝对距离相反。对于在整个观众席中的最佳的回放，相邻扬声器之间的角距离应该是30度或更小，从主要的收听区域的四个角落中的每一个参考得到的。良好的结果可以利用高达50度的间距被实现。对于每个环绕区域，扬声器应该在可能的情况下维持与座位区域相邻的相等的线性的间距。超出收听区域的（例如在前排和屏幕之间的）线性的间距，可以稍微更大。图11是按照一个实施例的顶部环绕扬声器808和侧面环绕扬声器806相对于参考位置的放置的示例。

额外的侧面环绕扬声器806应该被安装得与目前推荐的大约到观众席的后面的距离的三分之一开始的实践相比更接近于屏幕。这些扬声器在DolbySurround7.1或5.1音轨的回放期间不被使用作为侧面环绕，但是将使得能够在从屏幕扬声器到环绕区域摇移对象时平滑转换和改善音色匹配。为了使空间印象最大化，环绕阵列应该被放置得实际上尽可能地低，受到以下约束：在阵列的前面的环绕扬声器的垂直布置应该相当地接近于屏幕扬声器声中心的高度，并且足够高以根据扬声器的方向性维持在座位区域之上的良好的覆盖率。环绕扬声器的垂直布置应该是如此以至它们形成从前到后的直线，并且（典型地）向上倾斜，因此收听者上方的环绕扬声器的相对仰角被维持随着座位仰角增大朝向电影院的后部，如图10所示，图10是在典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例布局的侧视图。实际上，这可以通过为最前方和最后面的侧面环绕扬声器选择仰角并且将其余扬声器放置在这些点之间的线中而被最简单地实现。

为了为每个扬声器提供座位区域之上的最佳覆盖，侧面环绕806和后面扬声器816和顶部环绕808应该在关于间距、位置、角度等的定义的准则之下指向剧场中的参考位置。

自适应音频电影院系统和格式的实施例通过为混合者提供强大的新的创作工具来实现超越当前系统的改善的观众沉浸和约定（engagement）水平，并且新的电影处理器的特征在于灵活的呈现引擎，其对于每个房间的扬声器布局和特性来优化音轨的音频质量和环绕效果。另外，系统维持向后兼容性并且使对当前制作和分发工作流程的影响最小化。

虽然已经相对于其中自适应音频内容与供数字电影处理系统之用的胶片内容关联的电影环境中的示例和实现方式描述了实施例，但是应当注意，实施例也可以被实现在非电影环境中。包含基于对象的音频和基于声道的音频的自适应音频内容可以与任何有关的内容（关联的音频、视频、图形等）结合地使用，或者它可以构成独立的音频内容。回放环境可以是任何合适的收听环境，从头戴耳机或者近场监视器到小的或大的房间、汽车、露天舞台、音乐厅、等等。

系统100的方面可以被实现在用于处理数字或者数字化的音频文件的适当的基于计算机的声音处理网络环境中。自适应音频系统的部分可以包括一个或更多个网络，其包括任意期望数量的单独的机器，包括用来缓冲和路由在计算机之间发送的数据的一个或更多个路由器（未示出）。这种网络可以被建立在各种不同网络协议上，并且可以是因特网、广域网（WAN）、局域网（LAN）或者其任意组合。在其中网络包括因特网的一个实施例中，一个或更多个机器可以被配置为通过web浏览器程序访问因特网。

成分、模块、处理或者其它功能的组件中的一个或更多个可以通过控制系统的基于处理器的计算装置的执行的计算机程序实现。还应该注意，在本申请中公开的各种功能可以使用硬件、固件和/或具体实现在各种机器可读的或者计算机可读的介质中的指令和/或数据的任意数目的组合来描述，依据他们的行为、寄存器传送、逻辑组件和/或其它特性。其中可以具体实现这种格式数据和/或指令的计算机可读介质包括但不限于各种形式的物理（非暂态的）、非易失性的存储介质，诸如光学、磁性的或者半导体存储介质。

除非上下文清楚地要求，否则在整个说明书和权利要求中，词“包括”、“包含”等要以内含的意义被解释，与排他的或者穷举的意义相反；也就是说，以“包括但不限于”的意义解释。使用单数或者复数的词还分别包括复数或单数。另外，词“在本申请中”、“在下文中”、“上面”、“下面”以及类似含义的词指的是这个整个申请而不是这个申请的任何特别的部分。当在提及两个或更多个项目的列表中使用词"或者"时，那个词覆盖该词的以下解释中的所有：列表中的任意项目、列表中的所有项目以及列表中的项目的任意组合。

虽然已经通过示例的方式并且依据特定的实施例描述了一个或更多个实现方式，但是应当理解，一个或更多个实现方式不限于公开的实施例。相反地，它意图覆盖各种修改和类似的布置，如本领域技术人员会清楚的。因此，所附权利要求的范围应该被给予最宽的解释使得包括所有这样的修改和类似的布置。

Claims

1.一种用于处理音频信号的系统，包含：

创作组件，被配置为接收音频节目的多个音频信号，并且产生该音频节目的自适应音频混合，该自适应音频混合包括多个单声道的音频流以及与所述多个单声道的音频流中的每个关联并且指定相应单声道的音频流的回放位置的一个或更多个元数据组，并且被配置为产生与所述多个单声道的音频流中的一个或更多个关联的第一元数据组和第二元数据组，其中所述多个单声道的音频流中的至少一个音频流被识别为基于声道的音频并且所述多个单声道的音频流中的包括至少一个音频流的其他音频流被识别为基于对象的音频，并且其中基于声道的音频的回放位置包含扬声器阵列中的扬声器的扬声器指定，并且其中基于对象的音频的回放位置包含三维空间中的位置；此外其中第一元数据组默认地被应用于所述多个单声道的音频流中的所述一个或更多个，并且第二元数据组与回放环境的特定条件关联并且在回放环境的条件匹配回放环境的所述特定条件的情况下代替第一元数据组而被应用于所述多个单声道的音频流中的所述一个或更多个；以及

呈现系统，耦接到创作组件并且被配置为接收封装所述多个单声道的音频流和元数据组的比特流，并且基于回放环境的条件根据元数据组将所述多个单声道的音频流呈现于与回放环境中的扬声器对应的多个扬声器供给。

2.根据权利要求1所述的系统，其中每个元数据组包括与每个基于对象的流关联的元数据元素，每个基于对象的流的元数据元素指定控制对应的基于对象的声音的回放的空间参数，并且包含以下中的一个或更多个：声音位置、声音宽度和声速；此外其中每个元数据组包括与每个基于声道的流关联的元数据元素，并且扬声器阵列包含在定义的环绕声配置中布置的扬声器，并且其中与每个基于声道的流关联的元数据元素包含根据定义的环绕声音标准的在扬声器阵列中的扬声器的环绕声音声道的指定。

3.根据权利要求1所述的系统，其中扬声器阵列包括用于回放基于对象的流的额外的扬声器，所述额外的扬声器是基于回放环境的条件根据来自用户的设立指令被放置在回放环境中的，并且其中回放条件取决于包含如下的变量：回放环境的房间的尺寸和形状、占用率、材料成分和环境噪声；此外其中系统接收来自用户的设立文件，该设立文件至少包括扬声器指定的列表和声道到扬声器阵列中的单独的扬声器的映射、关于扬声器的分组的信息、以及基于扬声器相对于回放环境的位置的映射。

4.根据权利要求1所述的系统，其中所述创作组件包括混合控制台，所述混合控制台具有能由用户操作以便指定包含原始音频内容的所述多个单声道的音频流的回放水平的控制，并且其中与每个相应的基于对象的流关联的元数据元素在用户向混合控制台输入控制时被自动产生。

5.根据权利要求1所述的系统，其中元数据组包括用于使得能够根据从扬声器阵列的第一配置到扬声器阵列的第二配置的变化来将基于声道的单声道的音频流和基于对象的单声道的音频流中的至少一个上混或者下混的元数据。

6.根据权利要求3所述的系统，其中元数据组包括指示出单声道的音频流的内容类型的元数据；其中内容类型选自由如下组成的组：对话、音乐和效果，并且每个内容类型被体现在相应的一组基于声道的流或者基于对象的流中，此外其中每个内容类型的声源被发送到扬声器阵列内指明的一个或更多个扬声器组中的定义的扬声器组。

7.根据权利要求6所述的系统，其中扬声器阵列中的扬声器被放置在回放环境内的特定位置处，并且其中与每个相应的基于对象的流关联的元数据元素指定，一个或更多个声源被呈现给扬声器供给以便通过最接近如位置元数据所指示的声源的意图回放位置的扬声器回放。

8.根据权利要求1所述的系统，其中回放位置包含相对于回放环境内的屏幕或者包围回放环境的表面的空间位置，并且其中所述表面包含前面、后面、左面、右面、上面和下面。

9.根据权利要求1所述的系统，还包含编解码器，该编解码器耦接到创作组件和呈现组件并且被配置为接收所述多个单声道的音频流和元数据并且产生以有序的方式包含所述多个单声道的音频流的单个数字比特流。

10.根据权利要求9所述的系统，其中呈现组件还包含用于选择由呈现组件利用的呈现算法的装置，呈现算法选自由如下组成的组：两路立体声、立体声偶极、立体混响声、波场合成(WFS)、多声道摇移、具有位置元数据的原始主干、双平衡、以及基于矢量的振幅摇移。

11.根据权利要求1所述的系统，其中对于所述多个单声道的音频流中的每个的回放位置被独立地相对于自我中心的参考系或者非自我中心的参考系指定，其中对于回放环境中的收听者采取自我中心的参考系，并且其中对于回放环境的特性采取非自我中心的参考系。

12.一种创作用于呈现的音频信号的方法，包含：

接收音频节目的多个音频信号；

产生该音频节目的自适应音频混合，该自适应音频混合包括多个单声道音频流和与所述多个单声道音频流中的每个关联并且指定相应的单声道音频流的回放位置的一个或更多个元数据组，这一个或更多个元数据组包括与所述多个单声道音频流中的一个或更多个相关联的第一元数据组和第二元数据组，其中所述多个单声道音频流中的至少一个音频流被识别为基于声道的音频并且其中所述多个单声道音频流中的包括至少一个音频流的其他音频流被识别为基于对象的音频，并且其中基于声道的音频的回放位置包含扬声器阵列中的扬声器的扬声器指定，并且基于对象的音频的回放位置包含相对于包含扬声器阵列的回放环境的三维空间中的位置；此外其中对于回放环境的第一条件将第一元数据组应用于所述多个单声道音频流中的所述一个或更多个，并且对于回放环境的第二条件将第二元数据组应用于所述多个单声道音频流中的所述一个或更多个；以及

将所述多个单声道音频流和一个或更多个元数据组封装在用于发送到呈现系统的比特流中，所述呈现系统被配置为基于回放环境的条件根据至少两个元数据组将所述多个单声道音频流呈现于与回放环境中的扬声器对应的多个扬声器供给。

13.根据权利要求12所述的方法，其中每个元数据组包括与每个基于对象的流关联的元数据元素，每个基于对象的流的元数据元素指定控制对应的基于对象的声音的回放的空间参数，并且包含以下中的一个或更多个：声音位置、声音宽度和声速；此外其中每个元数据组包括与每个基于声道的流关联的元数据元素，并且扬声器阵列包含在定义的环绕声配置中布置的扬声器，并且其中与每个基于声道的流关联的元数据元素包含根据定义的环绕声音标准的在扬声器阵列中的扬声器的环绕声音声道的指定。

14.根据权利要求12所述的方法，其中扬声器阵列包括用于回放基于对象的流的额外的扬声器，所述额外的扬声器是被放置在回放环境中的，所述方法还包含接收基于回放环境的条件的来自用户的设立指令，并且其中回放条件取决于包含如下的变量：回放环境的房间的尺寸和形状、占用率、材料成分和环境噪声；设立指令还至少包括扬声器指定的列表和声道到扬声器阵列中的单独的扬声器的映射、关于扬声器的分组的信息、以及基于扬声器相对于回放环境的位置的映射。

15.根据权利要求14所述的方法，还包含：

从具有能由用户操作的控制的混合控制台接收以便指定包含原始音频内容的所述多个单声道音频流的回放水平；以及

在收到用户输入后自动产生与每个相应的基于对象的流关联的元数据元素。

16.一种呈现音频信号的方法，包含：

从创作组件接收把多个单声道音频流和至少两个元数据组封装在比特流中的比特流，所述创作组件被配置为接收音频节目的多个音频信号并且为该音频节目产生多个单声道音频流以及与所述多个单声道音频流中的每个关联并且指定相应的单声道音频流的回放位置的一个或更多个元数据组，这一个或更多个元数据组包括与所述多个单声道音频流中的一个或更多个相关联的第一元数据组和第二元数据组，其中所述多个单声道音频流中的至少一个音频流被识别为基于声道的音频并且其中所述多个单声道音频流中的包括至少一个音频流的其他音频流被识别为基于对象的音频，并且其中基于声道的音频的回放位置包含扬声器阵列中的扬声器的扬声器指定，并且基于对象的音频的回放位置包含相对于包含扬声器阵列的回放环境的三维空间中的位置；此外其中对于回放环境的第一条件将第一元数据组应用于所述多个单声道音频流中的所述一个或更多个，并且对于回放环境的第二条件将第二元数据组应用于所述多个单声道音频流中的所述一个或更多个；以及

基于回放环境的条件根据所述至少两个元数据组将所述多个单声道音频流呈现到与回放环境中的扬声器对应的多个扬声器供给。