CN107493542B

CN107493542B - 用于在听音环境中播放音频内容的扬声器系统

Info

Publication number: CN107493542B
Application number: CN201611247851.1A
Authority: CN
Inventors: S·斯宾塞·胡克斯; 约舒亚·布兰东·兰多; 斯里巴拉·S·梅赫塔; 马修·费勒斯; 斯图尔特·默里; 布拉德·巴斯勒
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-08-31
Filing date: 2013-08-26
Publication date: 2019-06-28
Anticipated expiration: 2033-08-26
Also published as: CN104604258B; US9622010B2; EP2891339B1; US20150208190A1; EP3285504A1; EP3285504B1; JP5985063B2; HK1211404A1; WO2014035903A1; EP2891339A1; CN104604258A; CN107493542A; JP2015530823A

Abstract

用于在听音环境中播放音频内容的扬声器系统，其包括：箱；多个能够独立寻址的驱动器，其被放置在箱中并且被配置成沿相对于箱的轴的至少两个不同的方向投射声音，其阵列包括上射式驱动器，被配置为在声音到达听音环境中的听者之前将声音从听音环境的天花板反射开以模拟听音环境的天花板处的扬声器的存在，其中上射式驱动器的倾斜度可调；以及局部呈现部件，其被设置在箱内，并且被配置成从中央处理器接收音频流，并且生成扬声器馈送信号以传输至多个能够独立寻址的驱动器；其中，音频流包括基于对象的音频信号；其中，局部呈现部件包括虚拟器，虚拟器被配置为基于基于对象的音频信号的空间再现信息来得出用于上射式驱动器的扬声器馈送信号。

Description

用于在听音环境中播放音频内容的扬声器系统

本申请是申请日为2013年8月26日、申请号为“201380045633.8”、发明名称为“用于呈现器与可独立寻址的驱动器的阵列之间的通信的双向互连”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求于2012年8月31日提交的美国临时专利申请61/696,030号的优先权，在此通过引用将其全部内容包括在本文中。

技术领域

一个或更多实现一般地涉及音频信号处理，更具体地，涉及用于通过可独立寻址的驱动器呈现反射音频信号和直接音频信号的系统的双向互连。

背景技术

背景部分中所论述的主题不应当被认为仅由于背景部分中提到而是现有技术。类似地，背景部分中提到的问题或与背景部分的主题相关的问题不应当被认为是现有技术中先前已经认识到的问题。背景部分中的主题仅仅表示不同的方法，这些不同的方法本身也可以是发明。

音频应用的互连系统通常是将扬声器馈送信号从声源或呈现器发送至扬声器阵列的简单的单向链路。高级音频内容诸如基于对象的音频的出现显著增加了呈现处理的复杂度和传输至各种不同的扬声器阵列的音频内容的种类，这现在是可能的。例如，电影音轨可以包括与屏幕上的图像、会话、噪声和音效对应的很多不同的声音元素，不同的声音元素从屏幕上的不同位置发出并且与背景音乐和环境效果相结合以产生整体的听众体验。准确播放要求以尽可能接近地对应于关于声源位置、强度、运动和深度在屏幕上所显示的那些的方式来再现声音。传统的基于通道的音频系统以扬声器馈送的形式将音频内容发送至听音环境中的各个扬声器。在这种情况下，常规的与扬声器的单向互连通常就足够了。

然而，数字电影的引入和真实三维(“3D”)内容或虚拟3D内容的发展创建了新的声音标准，诸如多个音频通道的合并以给予内容创作者更大的创作力以及给予听众覆盖更广和更逼真的听觉体验。作为用于分配空间音频的方法对传统的扬声器馈送和基于通道的音频进行扩展是至关重要的，并且对以下基于模型的音频描述存在巨大兴趣：该基于模型的音频描述使得听者能够选择期望的播放配置，针对他们所选择的配置具有特定呈现的音频。声音的空间呈现利用音频对象，音频对象是与明显的源位置(例如，3D坐标)、明显的源宽度和其它参数的参数源描述相关的音频信号。另外的进步包括：开发了下一代空间音频(也称为“自适应音频”)格式，该下一代空间音频格式包括音频对象和传统的基于通道的扬声器馈送连同音频对象的位置元数据的混合。在空间音频解码器中，通道直接被发送至与通道相关的扬声器(如果存在合适的扬声器的话)或者被下混合至现有的扬声器组，并且音频对象由解码器以灵活的方式来呈现。与每个对象相关的参数源描述诸如3D空间中的位置轨迹连同连接至解码器的扬声器的数量和位置被获取作为输入。然后，呈现器利用某些算法，诸如声像法则(panning law)，在所附接的扬声器组之间分配与每个对象相关的音频。这样，可以通过存在于听音空间中的特定扬声器配置最佳地呈现每个对象的创作空间意图。

本互连系统不能充分利用这种下一代音频系统的全部特征和能力。这种互连限于发送扬声器馈送音频信号或许一些受限的控制信号，而且不具有足以利用整个系统的所有呈现、配置和校准能力的结构。因此，需要以下互连系统：该互连系统将适当的信息从听音环境传输至呈现器，使得呈现器可以向特定扬声器阵列传输扬声器馈送并且调用用于基于对象的音频内容的优化播放的任何自动配置和校准例程。

发明内容

描述了用于呈现听音环境中的空间音频内容的互连系统的实施例。一种物理/逻辑互连将系统的部件耦接在一起，所述系统包括：呈现器，其被配置成生成包括指定相应的音频通道在听音环境中的播放位置的信息的多个音频通道；放置在听音环境周围的可独立寻址驱动器阵列；校准/配置部件，其用于处理由放置在听音环境中的麦克风提供的声学信息。互连可以被实现为用于在呈现器/校准单元与扬声器驱动器之间传输音频信号和控制信号的双向互连。

实施例具体地涉及用于将基于对象的呈现系统的部件耦接的互连，其包括：第一网络通道，其将呈现器耦接至在听音环境中投射声音的能够独立寻址的驱动器的阵列，并且将音频信号和控制数据从呈现器传输至阵列；以及第二网络通道，其将放置在听音环境中的麦克风耦接至呈现器的校准部件，并且将针对由麦克风生成的声学信息的校准控制信号传输至校准部件。

本文中所描述的呈现系统可以实现以下音频格式和系统：其包括更新内容创建工具、分配方法、基于包括新的扬声器和通道配置的自适应音频系统的增强用户体验以及可能由为电影声音混合器创建的一套高级内容创建工具产生的新的空间描述格式。音频流(一般包括通道和对象)连同包括音频流的期望位置的描述内容创建者或声音混合器的意图的元数据一起被传输。可以将位置表达为命名通道(从预先定义的通道配置内)或者表达为3D空间位置信息。实施例还可以涉及用于呈现包括反射声音和直接声音的自适应音频内容的系统及方法，自适应音频内容要通过扬声器或包含直接(前射式)驱动器和反射(上射式或侧射式)驱动器的驱动器阵列被播放。

根据一个实施例，提供一种用于在听音环境中播放音频内容的扬声器系统，该扬声器系统包括：箱；多个能够独立寻址的驱动器，其被放置在箱中，并且被配置成沿相对于箱的轴的至少两个不同的方向投射声音，其中，能够独立寻址的音频驱动器的阵列包括上射式驱动器，上射式驱动器被配置为在声音到达听音环境中的听者之前将该声音从听音环境的天花板反射开，以模拟听音环境的天花板处的扬声器的存在，其中上射式驱动器的倾斜度是可调的；以及局部呈现部件，其被设置在箱内，并且被配置成从中央处理器接收音频流，并且生成扬声器馈送信号以传输至多个能够独立寻址的驱动器，其中音频流包括基于对象的音频信号，其中局部呈现部件包括虚拟器，虚拟器被配置为基于基于对象的音频信号的空间再现信息来得出用于上射式驱动器的扬声器馈送信号。

援引并入

本说明书中提到的每个公开、专利和/或专利申请在此通过引用将其全部内容合并到本文中，就如同具体且单独指出每个单独的公开和/或专利申请通过引用合并到本文中一样。

附图说明

在下面的附图中，相同的附图标记用来指代相同的要素。尽管下面的图描绘了各种示例，但是一个或更多实现不限于图中所描绘的示例。

图1例示提供用于高通道的播放的高扬声器的环绕系统(例如，9.1环绕)中的示例扬声器放置。

图2例示根据实施例的产生自适应音频混合的基于通道的数据和基于对象的数据的组合。

图3是根据实施例的用于自适应音频系统的播放体系结构的框图。

图4A是例示根据实施例的用于使基于电影的音频内容适用于消费者环境的功能部件的框图。

图4B是根据实施例的图4A的部件的详细框图。

图4C是根据实施例的基于消费者的自适应音频环境的功能部件的框图。

图4D例示根据实施例的在扬声器单元中执行部分呈现功能的分布式呈现系统。

图5例示示例家庭影院环境中的自适应音频系统的部署。

图6例示使用反射声音来模拟家庭影院中的头顶扬声器的上射式驱动器的使用。

图7A例示根据实施例的具有多个在具有反射声音呈现器的自适应音频系统中使用的第一配置下的驱动器的扬声器。

图7B例示根据实施例的具有分布于在具有反射声音呈现器的自适应音频系统中使用的多个箱中的驱动器的扬声器系统。

图7C例示根据实施例的在使用反射声音呈现器的自适应音频系统中使用的条形箱的示例配置。

图8例示具有包括听音空间内放置的上射式驱动器的可独立寻址驱动器的扬声器的示例放置。

图9A例示根据实施例的对于反射音频利用多个可寻址驱动器的自适应音频5.1系统的扬声器配置。

图9B例示根据实施例的对于反射音频利用多个可寻址驱动器的自适应音频7.1系统的扬声器配置。

图10A是例示根据实施例的双向互连的构成的图。

图10B是例示根据实施例的单向互连的构成的图。

图11例示根据实施例的在自适应音频系统使用的自动配置和系统校准处理。

图12是例示根据实施例的在自适应音频系统中使用的校准方法的处理步骤的流程图。

图13例示自适应音频系统在示例电视和条形箱消费者使用情况中的使用。

图14例示根据实施例的自适应音频系统中的三维双耳耳机虚拟化的简化表示。

图15是例示根据实施例的在针对消费者环境利用反射声音呈现器的自适应音频系统中使用的某些元数据定义的表格。

具体实施方式

描述了用于基于对象的呈现器和可独立寻址扬声器驱动器阵列之间的互连的系统及方法。该互连支持音频信号和控制信号到驱动器的传输以及音频信息从听音环境到呈现器的传输。呈现器包括或被耦接至以下校准单元：该校准单元针对呈现器和驱动器的自动配置和校准来处理关于听音环境的声学信息。驱动器阵列可以包括以下驱动器：驱动器被配置并且被定向为将声波直接传播到位置或者使声波被一个或更多表面反射，或者使声波在听音区域中扩散。可以在以下音频或视听系统中实现本文中所描述的一个或更多实施例的方面：该音频或视听系统对包括执行软件指令的一个或更多计算机或处理装置的混合、呈现和播放系统中的源音频信息进行处理。任何描述的实施例可以被单独使用或者以任意组合彼此一起被使用。虽然由在本说明书中的一个或更多地方讨论或提到的现有技术的各种缺点推动了各种实施例，但是实施例不必陈述所有这些缺点。换言之，不同的实施例可以陈述在说明书中可以讨论的不同的缺点。一些实施例可以仅部分陈述在本说明书中可以讨论的一些缺点或仅一个缺点，而一些实施例可以不陈述这些缺点中的任何一个。

出于描述的目的，下面的术语具有相关的含义：术语“通道”指其中位置被编码为通道标识符例如左前环绕或右上环绕的音频信号加元数据；“基于通道的音频”是为了通过预先定义的具有相关的标称位置的一组扬声器区域来播放而格式化的音频，例如5.1、7.1等；术语“对象”或“基于对象的音频”指具有诸如明显源位置(例如，3D坐标)、明显源宽度等的参数源描述的一个或更多音频通道；“自适应音频”指基于通道的音频信号和/或基于对象的音频信号加元数据，元数据基于使用位置被编码为空间中的3D位置的音频流加元数据的播放环境呈现音频信号；以及“听音环境”指任何开放的、部分封闭或全封闭的区域，诸如可以用于单独播放音频内容或者与视频或其它内容一起播放音频内容的空间，并且“听音环境”可以在家庭、电影院、剧院、礼堂、工作室、游戏控制台等中被实现。这种区域可以具有一个或更多置于其中的表面，例如可以直接反射声波或扩散地反射声波的墙或挡板。

自适应音频格式和系统

在实施例中，互连系统被实现为被配置为与可以被称为“空间音频系统”或“自适应音频系统”的声音格式和处理系统一起工作的音频系统的一部分。这种系统基于音频格式和呈现技术以允许增强的听众沉浸、更强的艺术控制以及系统灵活性和可伸缩性。通常，整个自适应音频系统包括音频编码、分配和解码系统，其被配置为生成包含常规的基于通道的音频元素和音频对象编码元素的一个或更多比特流。与单独采用基于通道或基于对象的方法相比，这种组合方法提供了更高的编码效率和呈现灵活性。在于2012年4月20日提交的题目为“System and Method for Adaptive Audio Signal Generation,Coding andRendering”的未决美国临时专利申请61/636,429中描述了可以结合本实施例使用的自适应音频系统的示例，该申请在此通过引用被合并到本文中。

自适应音频系统和相关的音频格式的示例实现是Atmos^TM平台。这种系统包括可以被实现为9.1环绕系统或类似环绕声配置的高度(上/下)维度。图1例示提供用于高度通道的播放的高度扬声器的环绕系统(例如，9.1环绕)中的扬声器放置。9.1系统100的扬声器配置包括底平面中的5个扬声器102和高度平面中的4个扬声器104。通常，这些扬声器可以用于产生被设计成或多或少准确地从空间中的任意位置发出的声音。诸如图1中示出的那些预先定义的扬声器配置当然可以限制准确呈现给定声源的位置的能力。例如，不能比左扬声器本身更向左平移声源。这适用于每个扬声器，因此形成一维(例如，左右)、两维(例如，前后)或三维(例如，左右、前后、上下)几何结构，在几何结构中下混合被限制。各种不同的扬声器配置和类型可以用于这种扬声器配置。例如，某些增强的音频系统可以使用9.1、11.1、13.1、19.4或其它配置下的扬声器。扬声器类型可以包括全范围直接扬声器、扬声器阵列、环绕扬声器、超低音扬声器、高音扬声器和其它类型的扬声器。

可以将音频对象视为可以被感知成从特定的物理位置或听音环境中的位置发出的声音元素的组。这种对象可以是静态的(即，静止的)或动态的(即，运动的)。可以通过定义给定时间点的声音的位置的元数据连同其它功能来控制音频对象。当播放对象时，使用现有的扬声器根据位置元数据来呈现对象，而不必将对象输出至预先定义的物理通道。会话中的轨迹可以是音频对象，并且标准的声像数据类似于位置元数据。以这种方式，屏幕上放置的内容可以以与基于通道的内容相同的方式有效地进行声像调节，但是如果期望，则环绕中放置的内容可以被呈现到单独的扬声器。当使用音频对象为离散效果提供期望的控制时，音轨的其它方面可以在基于通道的环境中有效工作。例如，很多环境效果或混响实际上受益于被馈送至扬声器阵列。虽然这些能够被视为具有足够宽度以填充阵列的对象，但是保持一些基于通道的功能是有益的。

自适应音频系统被配置为：除音频对象以外还支持“音床”，其中音床是有效的基于通道的子混合或干。取决于内容创建者的意图，这些可以被传送以便单独地或被组合成单个音床来最终播放(呈现)。可以以不同的基于通道的配置诸如5.1、7.1和9.1以及包括诸如图1中所示的头顶扬声器的阵列来创建这些音床。图2例示根据实施例的产生自适应音频混合的基于通道的数据和基于对象的数据的组合。如处理200中所示，例如可以是以脉冲编码调制(PCM)数据的形式提供的5.1或7.1环绕声数据的基于通道的数据202与音频对象数据204组合以产生自适应音频混合208。可以通过将原始的基于通道的数据的元素与指定关于音频对象的位置的某些参数的相关的元数据进行组合来生成音频对象数据204。如图2中在概念上示出的，创作工具提供创建同时包括扬声器通道组和对象通道的组合的音频节目的能力。例如，音频节目可以包括一个或更多优选地组织成组(或音轨，例如立体声或5.1音轨)的扬声器通道、关于一个或更多扬声器通道的描述性元数据、一个或更多对象通道以及关于一个或更多对象通道的描述性元数据。

自适应音频系统有效地超越简单的“扬声器馈送”而作为用于分配空间音频的方法，并且已经开发了使得听者能够自由选择适合听者的个人需求或预算的播放配置并且具有针对听者个人所选的配置具体呈现的音频的高级基于模型的音频描述。在高的级中，存在四种主要的空间音频描述格式：(1)扬声器馈送，其中，音频被描述为针对位于标称扬声器位置的扬声器所计划的信号；(2)麦克风馈送，其中，音频被描述为由预先定义的配置(麦克风的数量及其相对位置)下的实际麦克风或虚拟麦克风捕获的信号；(3)基于模型的描述，其中，根据在所描述的时间和位置的音频事件的顺序来描述音频；以及(4)双耳的，其中，通过到达听者的两耳的信号来描述音频。

通常，这四种描述格式与下列普通呈现技术相关，其中，术语“呈现”表示到用作扬声器馈送的电信号的转换：(1)声像调节，其中，使用一组声像调节法则和已知或假定的扬声器位置(通常在分配之前被呈现)将音频流转换成扬声器馈送；(2)高保真度立体声响复制，其中，麦克风信号被转换成用于可缩放扬声器阵列的馈送(通常分配之后被呈现)；(3)波场合成(WFS)，其中，声音事件被转换成合适的扬声器信号以合成声场(通常分配之后被呈现)；以及(4)双耳声的，其中，通常通过耳机而且通过结合串音消除的扬声器将左/右双耳信号传送给左/右耳。

通常，任何格式可以被转换成另外的格式(虽然这可能要求盲源分离或类似技术)，并且使用上述技术中的任一种对格式进行呈现；然而在实践中并非所有转变都产生好的结果。由于扬声器馈送格式简单且有效，所以它是最普及的。直接因为不存在内容创建者与听者之间要求的处理，所以通过在分配扬声器馈送和然后分配扬声器馈送中混合/监视可以获得最佳音响效果(即，最准确和最可靠)。如果预先已知播放系统，则扬声器馈送描述提供最高的保真度；然而，播放系统及其配置通常预先不可知。相反，因为基于模型的描述并未关于播放系统做出假设并且因此其最容易适用于多种呈现技术，所以它是适应性最强的。基于模型的描述可以有效捕获空间信息，但是随着音频源数量增加其变得非常低效。

自适应音频系统将基于通道的系统与基于模型的系统两者的优势与包括以下各项的特定优势组合：高音质品质、当使用相同的通道配置混合和呈现时艺术意图的最佳再现、关于向下适应呈现配置的单个清单、对系统流水线相当低的影响以及经由更好的水平扬声器空间分辨率和新的高度通道增加的沉浸感。自适应音频系统提供包括以下各项的若干新特性：关于向下和向上适应特定的电影呈现配置，即，延迟呈现和对播放环境中的可用扬声器的最佳使用的单个清单；增强的包围感，包括优化的下混合以避免通道间相关(ICC)伪声；经由通过操纵的阵列(例如，使得音频对象被动态分配给环绕阵列中的一个或更多扬声器)的增强的空间分辨率；以及经由高分辨率中心扬声器配置或类似的扬声器配置的增强的前通道分辨率。

在向听者提供沉浸式体验中，音频信号的空间效果是极重要的。打算从观看屏幕或房间的特定区域发出的声音应当通过位于同一相对位置的扬声器来播放。因此，虽然也可以描述其它参数如大小、方位、速率和声散，但是基于模型的描述中的声音事件的主要音频元数据是位置。为了表达位置，基于模型的3D音频空间描述要求3D坐标系统。通常为了方便或简洁而选择用于传输的坐标系统(例如，欧几里得的、球面的、柱面的)；然而，其它坐标系统可以用于呈现处理。除坐标系统以外，表示空间中的对象的位置需要参照系。对于在多种不同的环境中精确地再现基于位置的声音的系统，选择合适的参照系会是极重要的。对于非自我中心的参照系，关于呈现环境诸如房间的墙和角落中的特性、标准扬声器位置和屏幕位置来定义音频源的位置。在自我中心的参照系中，关于听者的视角如“在我前方”、“略向左”等来表示位置。空间感知(音频和其它)的科学研究已经显示最普遍使用自我中心的视角。然而，对于电影，非自我中心的参照系通常更合适。例如，当屏幕上存在相关的对象时，音频对象的精确位置是最重要的。当使用非自我中心的参考时，针对每个听音位置并且针对任何屏幕大小，声音将位于屏幕上的同一相对位置，例如“平面的中心向左三分之一”。另外的原因是混合器趋向于以非自我中心来判断和混合，并且使用非自我中心的系统(即，房间墙壁)来布置声像调节工具，并且混合器期望声像调节工具以例如“这声音应该在屏幕上”、“这声音应该在屏幕外”或“离开左边的墙”等的方式被呈现。

尽管在电影环境中使用了非自我中心的参照系，但是存在一些自我中心参照系可能是有用的且更合适的情况。这些包括非剧情性声音，即，在“故事空间”中不呈现的声音，例如，可能期望自我中心的统一呈现的气氛音乐。另外的情况是要求自我中心呈现的近场效应(例如，听者左耳边嗡嗡的蚊子)。另外，无限远声源(以及所产生的平面波)可能出现来自常以自我为中心的位置(例如，到左边30度)，并且根据自我中心比根据非自我中心更容易描述这种声音。在一些情况下，只要定义了标称听音位置就可以使用非自我中心参照系，而一些示例要求还不可以呈现的自我中心的表示。虽然非自我中心参照可能更有用且更合适，但音频表示应当是可扩展的，原因在于：在某些应用和听音环境中可能更期望包括自我中心表示的很多新特性。

自适应音频系统的实施例包括混合空间描述方法，该混合空间描述方法包括针对最佳保真度和针对扩散的呈现所推荐的通道配置；或使用自我中心参照的复杂的多点源(例如，体育场的人群、周围环境)；将非自我中心的基于模型的声音描述增加至能够有效增强空间分辨率和可缩放性。图3是根据实施例的在自适应音频系统中使用的播放体系结构的框图。图3的系统包括执行传统的、对象和通道音频解码、对象呈现、通道重新映射和在音频被发送至后处理级和/或放大级和扬声器级之前的信号处理的处理框。

播放系统300被配置为：呈现并且播放通过一个或更多捕获部件、预处理部件、创作部件和编码部件所生成的音频内容。自适应音频预处理器可以包括通过分析输入音频自动生成合适的元数据的源分离和内容类型检测功能。例如，可以通过分析通道对之间的相关输入的相关度从多通道记录获取位置元数据。可以例如通过特征提取和分类来完成对内容类型如话音或音乐的检测。某些创作工具能够通过以下来创作音频节目：对输入进行优化，并且一旦针对实际上任何播放环境中的播放进行优化，则对音响工程师的创建意图进行编码使得他能够创建最终的音频混合。这可以通过使用与原始的音频内容相关并且使用原始的音频内容被编码的音频对象和位置数据来实现。为了在礼堂周围精确地放置声音，音响工程师需要基于播放环境的实际约束和特征来对将最终如何呈现声音进行控制。自适应音频系统通过使得音响工程师能够通过使用音频对象和位置数据改变如何设计和混合音频内容来提供该控制。一旦自适应音频内容已经被创作并且在合适的编解码器装置中被编码，则在播放系统300的各种部件中对该自适应音频内容进行解码和呈现。

如图3中所示，(1)传统的环绕声音频302、(2)包括对象元数据的对象音频304、和(3)包括通道元数据的通道音频306被输入至处理框310中的解码器级308、309。在对象呈现器312中呈现对象元数据，而当需要时可以重新映射通道元数据。空间配置信息307被提供给对象呈现器和通道重新映射部件。然后，在输出至B链处理级316之前，通过一个或更多信号处理级如均衡器和限制器314对混合音频数据进行处理，并且通过扬声器318播放。系统300表示自适应音频的播放系统的示例，并且其它配置、部件和互连也是可以的。

播放应用

如上所述，自适应音频格式和系统的初步实现是包括内容捕获(对象和通道)的数字电影(D电影)内容，其使用新颖的创作工具被创作，使用自适应音频电影编码器被封装，并且使用PCM或使用现有的数字电影倡导联盟(DCI)分配机制的专有无损编解码器被分配。在这种情况下，想要在数字电影中对音频内容进行解码和呈现以创建沉浸式空间音频电影体验。然而，至于先前的电影改进如模拟环绕声、数字多通道音频等，存在以下需要：将由自适应音频格式提供的增强的用户体验直接传送给他们家中的消费者。这要求格式和系统的某些特征适于用在更加有限的听音环境中。例如，如与电影院或剧院环境相比，家庭、房间、小的礼堂或类似的地方可能具有减小的空间、降低的声学特性和降低的设备能力。出于描述的目的，术语“基于消费者的环境”意在包括任何非电影院环境，所述任何非电影院环境包括由普通消费者或专业人员使用的听音环境如家庭、工作室、房间、控制台区域、礼堂等。音频内容可以是有源的并且单独被呈现，或者可以与图形内容如静止图片、光显示器、视频等相关。

图4A是例示根据实施例的用于使基于电影的音频内容适合用在消费者环境中的功能部件的框图。如图4A中所示，使用框402中的合适的装备和工具来捕获和/或创作通常包括电影音轨的电影内容。在自适应音频系统中，通过框404中的编码/解码和呈现部件和接口来处理该内容。然后，所得到的对象和通道音频馈送被发送至电影院或剧院406中的合适的扬声器。在系统400中，电影内容还被处理用于消费者听音环境如家庭影院系统416中的播放。由于有限的空间、减少的扬声器数量等，假定消费者听音环境不像内容创建者所想要的那样全面或者能够再现所有声音内容。然而，实施例涉及以下系统及方法：使得原始音频内容能够以使消费者环境的降低的能力所强加的限制最小化的方式被呈现，并且使得位置线索能够以使可用装置最大化的方式被处理。如图4A中所示，电影音频内容通过电影被处理成消费者转换器部件408，消费者转换器部件408在消费者内容编码和呈现链414中被处理。该链还对在框412中被捕获和/或被创作的原始的消费者音频内容进行处理。然后，在消费者环境416中播放原始的消费者内容和/或所转换的电影内容。以这种方式，音频内容中被编码的相关空间信息可以用于以更沉浸式的方式，甚至使用家庭或消费者环境416的可能有限的扬声器配置来呈现声音。

图4B更详细地例示图4A的部件。图4B例示贯穿消费者生态系统的自适应音频电影内容的示例分配机制。如图4B中所示，原始的电影和电视内容被捕获422并且被创作423用于在多种不同的环境中播放，以提供电影体验427或消费者环境体验434。同样，某些用户生成的内容(UGC)或消费者内容被捕获423并且被创作425以便在消费者环境434中播放。通过已知的电影处理426来处理用于在电影环境427中播放的电影内容。然而，在系统420中，电影创作工具箱423的输出还包括传达声音混合器的艺术意图的音频对象、音频通道和元数据。这可以被视为能够用于创建用于消费者播放的电影内容的多个版本的夹层风格音频包。在实施例中，通过电影到消费者自适应音频转换器430来提供该功能。该转换器具有到自适应音频内容的输入，并且根据自适应音频内容为期望的消费者终端434提取合适的音频和元数据内容。转换器依据消费者分配机制和终端创建分离的且可能不同的音频和元数据输出。

如系统420的示例中所示，电影到消费者转换器430向图片(例如，广播、磁盘、OTT等)和游戏音频比特流创建模块428馈送声音。适合于传送电影内容的这两个模块能够被馈送至多个分配流水线432中，所有分配流水线432都可以将电影内容传送至消费者终端。例如，自适应音频电影内容可以使用适合于广播目的的编解码器(诸如杜比数字+)被编码，其可以被修改以传送通道、对象和相关的元数据，并且经由线缆或卫星通过广播链被传输，然后针对家庭影院或电视播放在消费者家中被解码和呈现。类似地，相同的内容可以使用适合于带宽有限的在线分配的编解码器被编码，其中，然后通过3G或4G移动网络被传输，然后经由使用耳机的移动装置被解码和呈现用于播放。其它内容源诸如电视、现场直播、游戏和音乐也可以使用自适应音频格式来创建和提供用于下一代消费者音频格式的内容。

图4B的系统提供了贯穿整个消费者音频生态系统的增强的用户体验，所述整个消费者音频生态系统可以包括家庭影院(例如，音频/视频接收器、条形箱和蓝光)、电子媒介(例如，个人计算机、平板、包括耳机播放的移动装置)、广播(例如，电视和机顶盒)、音乐、游戏、现场声音、用户生成的内容等。这种系统提供：所有终端装置的消费者听众的增强的沉浸感、音频内容创建者的扩展的艺术控制、改进的呈现的改进的内容依赖(描述性)元数据、消费者播放系统的扩展的灵活性和可缩放性、音质保存和匹配以及基于用户位置和交互的内容的动态呈现的时机。系统包括若干部件，所述若干部件包括用于内容创建者的新混合工具、用于分配和播放的更新的和新的封装和编码工具、家中动态混合和呈现(适合于不同的消费者配置)、另外的扬声器位置和设计。

基于消费者的自适应音频生态系统被配置为使用自适应音频格式的全面的端到端的下一代音频系统，所述自适应音频格式包括遍及大量终端装置和使用实例的内容创建、封装、分配和播放/呈现。如图4B中所示，系统开始于从大量不同使用实例所捕获的内容422和424以及针对大量不同使用实例所捕获的内容422和424。这些捕获点包括包括电影、电视、现场直播(以及声音)、UGC、游戏和音乐的所有相关的消费者内容格式。随着通过生态系统，内容经过几个关键级，诸如预处理和创作工具、转换工具(即，用于电影到消费者内容分配应用的自适应音频内容的转换)、特定的自适应音频分装/比特流编码(其捕获音频基本数据以及另外的元数据和音频再现信息)、通过各种消费者音频通道使用现有的或新的编解码器(例如，DD+、TrueHD、杜比+)的分配编码用于高效分配、通过相关消费者分配通道(例如，广播、磁盘、移动装置、因特网等)传输，并且最终端点意识到动态呈现以再现并传送由内容创建者定义的提供空间音频体验的优势的自适应音频用户体验。在对于广泛变化数量的消费者终端进行呈现期间可以使用基于消费者的自适应音频系统，并且可以根据终端装置来对所应用的呈现技术进行优化。例如，家庭影院系统和条形箱可以在不同的位置中具有2、3、5、7或甚至9个单独的扬声器。很多其它类型的系统具有仅仅两个扬声器(例如，电视、膝上型计算机、音乐码头)，并且几乎所有具有耳机输出的常用装置(例如，个人计算机、膝上型计算机、平板、蜂窝电话、音乐播放器等)。

用于消费者音频的当前创作与分配系统创建并且传送以下音频：该音频意在用于在对音频本质(即，由消费者再现系统播放的实际音频)中传达的内容的类型的了解有限的情况下，将音频再现到预先定义的扬声器位置和固定的扬声器位置。然而，自适应音频系统为音频创建提供新的混合方法，所述混合方法包括对固定扬声器位置特定音频(左通道、右通道等)和基于对象的音频元素这两者的选择，基于对象的音频元素具有包括位置、大小和速率的全面的3D空间信息。该混合方法提供用于呈现中的保真度(由固定扬声器位置提供)和灵活性(全面的音频对象)的均衡方法。该系统还通过在内容创建/创作时由内容创建者经由与音频本质成对的新的元数据，提供关于音频内容的另外的有用信息。该信息提供关于呈现期间可以使用的音频的属性的详细信息。这种属性可以包括内容类型(例如，会话、音乐、效果、拟音、背景/周围环境等)以及音频对象信息如空间属性(例如，三维位置、对象大小、速率等)和有用的呈现信息(例如，扬声器位置的确定、通道加权、增益、低音管理信息等)。可以由内容创建者手工创建或者通过使用自动的、可以在创作处理期间在后台运行的媒体智能算法来创建音频内容和再现意图元数据，并且如果需要可以在最终的品质控制级中由内容创建者来审查媒体智能算法。

图4C是根据实施例的基于消费者的自适应音频环境的功能部件的框图。如图4C中所示，系统对携带基于混合对象和基于通道的音频流两者的编码比特流452进行处理。通过呈现/信号处理块454来处理比特流。在实施例中，可以在图3中示出的呈现块312中实现该功能块的至少一部分。呈现功能454实现针对自适应音频的各种呈现算法以及某些后处理算法，诸如上混合、处理直接声音与反射声音等。通过双向互连456将来自呈现器的输出提供给扬声器458。在实施例中，扬声器458包括可以被布置在环绕声或类似配置中的多个单独的驱动器。驱动器可单独寻址并且可以被包括在单独的箱或多个驱动器的柜或阵列中。系统450还可以包括提供能够用于对呈现处理进行校准的空间特性的测量的麦克风460。在框462中提供了系统配置和校准功能。可以将这些功能包括为呈现部件的一部分，或者可以将这些功能实现为功能上耦接至呈现器的单独的部件。双向互连456提供从扬声器环境(听音空间)回到校准部件462的反馈信号路径。

分布式/集中式呈现

在实施例中，呈现器454包括在与网络相关的中央处理器中实现的功能处理。可替选地，呈现器可以包括至少部分地由可独立寻址音频驱动器阵列中的每个驱动器内的或耦接至可独立寻址音频驱动器阵列中的每个驱动器的电路执行的功能处理。在集中式处理的情况下，呈现数据以通过单独的音频通道发送的音频信号的形式被发送至单独的驱动器。在分布式处理实施例中，中央处理器可以不执行呈现，或者使用在驱动器中执行的最终呈现执行音频数据的至少一些局部呈现。在这种情况下，要求有源扬声器/驱动器以能够具有板上处理功能。一个示例实现是集成有麦克风的扬声器的使用，其中，基于麦克风数据来改变呈现，并且对扬声器自身进行调整。这消除了出于校准和/或配置的目的将麦克风信号发回至中央呈现器的需求。

图4D例示根据实施例的在扬声器单元中执行部分呈现功能的分布式呈现系统。如图4D中所示，编码比特流471被输入至包括局部呈现部件的信号处理级472。部分呈现器可以执行任何适当比例的呈现功能，诸如不呈现或者高达50％或75％的呈现。然后，原始的编码比特流或经局部呈现的比特流通过互连476被传输至扬声器472。在该实施例中，扬声器自供电单元包括驱动器和直接电力供给连接或板上电池。扬声器单元472还包括一个或更多集成的麦克风。在扬声器单元472中还集成了呈现器和可选的校准功能474。呈现器474取决于如果呈现则由局部呈现器472执行多少呈现来对编码比特流执行最终的呈现操作或全部呈现操作。在全分布式实现中，扬声器校准单元474可以使用由麦克风产生的声音信息来直接对扬声器驱动器472执行校准。在这种情况下，互连476可以是仅单向互连。在替选实现或部分分布式的实现中，集成的麦克风或其它麦克风可以将声音信息返回提供到与信号处理级472相关的可选校准单元473。在这种情况下，互连476是双向互连。

听音环境

自适应音频系统的实现意在被部署在多种不同的环境中。这些包括三个主要的应用领域：完全电影院或家庭影院系统、电视和条形箱以及耳机。图5例示自适应音频系统在示例电影院或家庭影院环境中的部署。图5的系统例示可以由自适应音频系统提供的部件和功能的超集，并且可以基于用户的需求而减少或除去某些方面，却仍然提供增强的体验。系统500在多种不同的柜或阵列504中包括各种不同的扬声器和驱动器。扬声器包括提供前射式、侧射式和上射式选择以及使用某些音频处理技术对音频进行动态虚拟化的单独的驱动器。图5例示在标准9.1扬声器配置下部署的多个扬声器。这些扬声器包括左高扬声器和右高扬声器(LH，RH)、左扬声器和右扬声器(L，R)、中心扬声器(示为修改的中心扬声器)和左环绕扬声器和右环绕扬声器以及后置扬声器(LS，RS，LB和RB，未示出低频元件LFE)。

图5例示在房间或电影院的中心位置中使用的中心通道扬声器510的使用。在实施例中，该扬声器使用修改的中心通道或高分辨率中心通道510来实现。这种扬声器可以是具有可独立寻址扬声器的前射式中心通道阵列，所述前射式中心通道阵列使得通过与屏幕上的视频对象的运动相匹配的阵列允许音频对象的分立的声像调节。其可以被实现为高分辨率中心通道(HRC)扬声器，诸如国际申请PCT/US2011/028783号中所描述的扬声器，其在此通过引用合并到本文中。如所示的，HRC扬声器510还可以包括侧射式扬声器。如果HRC扬声器不仅用作中心扬声器而且用作具有条形箱能力的扬声器，则可以激活并且使用这些。还可以在屏幕502的上面和/或侧面包括HRC扬声器，以向音频对象提供二维高分辨率的声像调节选择。中心扬声器510还可以包括另外的驱动器，并且使用单独受控的音区来实现可操纵的声束。

系统500还包括近场效应(NFE)扬声器512，该近场效应扬声器512可以位于右前方或者靠近听者的前方，诸如就坐位置前方的桌子上。对于自适应音频，可以将音频对象带入房间而不会使音频对象简单地被锁定到房间的周围。因此，使对象穿过三维空间是一种选择。示例是：对象可以起源于左扬声器，通过NFE扬声器穿越房间，并且终止于右环绕扬声器。各种不同的扬声器(诸如无线扬声器、电池供电扬声器)可能适合用作NFE扬声器。

图5例示提供听音环境中的沉浸式用户体验的动态扬声器虚拟化的使用。基于由自适应音频内容提供的对象空间信息，通过对扬声器虚拟算法参数的动态控制，启动动态扬声器虚拟化。图5中示出了对左扬声器和右扬声器的动态虚拟化，为了创建对沿着房间的侧面移动的对象的感知会自然考虑动态虚拟化。单独的虚拟器可以用于每个相关对象，并且组合信号可以被发送至左扬声器和右扬声器以创建多个对象虚拟化效果。示出了对左扬声器和右扬声器以及意在作为立体声扬声器(有两个独立输入)的NFE扬声器的动态虚拟化效果。该扬声器连同音频对象大小和位置信息能够用来创建扩散音频体验或者点源近场音频体验。类似的虚拟化效果还可以应用于系统中的任何其它扬声器或系统中的所有其它扬声器。在实施例中，照相机可以提供另外的听者位置并且识别能够由自适应音频呈现器使用的信息以提供更忠实于混合器的艺术意图的更引人入胜的体验。

自适应音频呈现器了解混合系统与播放系统之间的空间关系。在播放环境的一些实例中，如图1中所示，分立扬声器在空间的所有相关区域包括头顶位置中可能是可用的。在分立扬声器在某些位置上是可用的这些情况下，呈现器可以被配置为：将对象“捕捉”至最近的扬声器而不是通过声像调节或使用扬声器虚拟化算法在两个或更多扬声器之间创建虚幻图像。当它稍微使混合的空间表示失真时，它也能够使呈现器避免非故意的虚幻图像。例如，如果混合级的左扬声器的角位置与播放系统的左扬声器的角位置不对应，使得该功能能够避免具有初始左通道的持续的幻影图像。

在很多情况下，某些扬声器(诸如天花板上安装的头顶扬声器)是不可用的。在这种情况下，通过呈现器来实现某些虚拟化技术，以通过现有的地面安装的扬声器或墙壁安装的扬声器来再现头顶音频内容。在实施例中，自适应音频系统通过对于每个扬声器而言包括前射式功能和顶(或“上”)射式功能两者对标准配置的修改。在传统的家庭应用中，扬声器制造商已经尝试引入除前射式变换器以外的新的驱动器配置，并且已经面临以下问题：设法识别哪些原始音频信号(或对原始音频信号的修改)应当被发送至这些新驱动器。关于自适应音频系统，存在关于在标准水平面以上应当呈现哪些音频对象的非常具体的信息。在实施例中，使用上射式驱动器来呈现自适应音频系统中出现的高度信息。

同样，可以使用侧射式扬声器来呈现某些其它内容如周围环境影响。也可以使用侧射式扬声器来呈现某些反射内容，诸如被听音空间的墙壁或其它表面反射的声音。

上射式驱动器的一个优点是：可以使用它们将声音从硬的天花板表面反射出去，以模拟天花板中设置的头顶/高度扬声器的存在。自适应音频内容的引人入胜的属性是：使用头顶扬声器阵列来再现空间上不同的音频。然而，如上所述，在很多情况下，在家庭环境中安装头顶扬声器太昂贵或不切实际。通过使用水平面中通常放置的扬声器来模拟高度扬声器，对于位置扬声器而言，可以易于创建引人入胜的3D体验。在这种情况下，自适应音频系统以如下的新方式使用上射式/高度模拟驱动器：使用音频对象和音频对象的空间再现信息来创建由上射式驱动再现的音频。可以实现这些相同的优点以尝试通过使用将声音从墙壁反射出去以产生某些混响效果的侧射式扬声器来提供更沉浸式的体验。

图6例示使用反射声音来模拟家庭影院中的单个头顶扬声器的上射式驱动器的使用。请注意：可以将任何数量的上射式驱动器用于组合，以创建多个模拟的高度扬声器。可替选地，可以配置多个上射式驱动器来将声音发送至天花板上基本相同的点，以达到某些声音强度或效果。图6例示通常的听音位置602位于房间中的特定地方的示例。该系统不包括任何用于传输包括高度线索的音频内容的高度扬声器。可替代地，扬声器柜或扬声器阵列604包括上射式驱动器连同前射式驱动器。上射式驱动器(关于位置和倾角)被配置为：将它的声波606向上发送至天花板608上的特定点，再将声波606从天花板608上的特定点向下反射回听音位置602。假定天花板由将声音充分向下反射进房间的合适的材料和成分制成。可以基于天花板的成分、房间大小和听音环境的其它相关特征来选择上射式驱动器的相关特征(例如，大小、功率、位置等)。虽然图6中示出了仅一个上射式驱动器，但是在一些实施例中可以在再现系统中包括多个上射式驱动器。尽管图6例示示出上射式扬声器的实施例，但是应当注意，实施例还涉及侧射式扬声器用于将声音从房间的墙壁反射出去的系统。

扬声器配置

自适应音频系统的主要考虑是扬声器配置。该系统利用可独立寻址驱动器，并且这种驱动器阵列被配置为提供直接声源和反射声源两者的组合。到系统控制器(例如，音频/视频接收器、机顶盒)的双向链路使得音频和配置数据能够被发送至扬声器，并且使得扬声器和传感器信息能够被发送返回至控制器，创建有效的闭环系统。

出于描述的目的，术语“驱动器”指响应于电音频输入信号而产生声音的单个电声变换器。驱动器可以以任何合适的类型、几何结构和大小来实现，并且可以包括喇叭、锥形、带状变换器等。术语“扬声器”指整个箱中的一个或更多驱动器。图7A例示根据实施例的具有多个第一配置下的驱动器的扬声器。如图7A中所示，扬声器箱700具有大量安装在箱内的单独的驱动器。通常，箱可以包括一个或更多前射式驱动器702，诸低音用扩音器、中音扬声器或高音用扩音器或其任何组合。箱还可以包括一个或更多侧射式驱动器704。通常，平靠箱的一侧安装前射式驱动器和侧射式驱动器，使得前射式驱动器和侧射式驱动器将声音从由扬声器定义的垂直面垂直地投射出去，并且这些驱动器通常永久地被固定在柜700内。对于以反射声音的呈现为特征的自适应音频系统，还设置一个或更多斜向上驱动器706。如图6所示，这些扬声器被定位成使得它们按某个角度将声音向上投射至天花板，然后天花板可以将声音向下反射给听者。可以根据房间特征和系统要求来设置倾斜度。例如，向上驱动器706可以向上倾斜30度至60度之间，并且可以被定位于扬声器箱700中的前射式驱动器702上方，以便使对从前射式驱动器702产生的声波的干扰最小化。上射式驱动器706可以以固定角度被安装，或者可以被安装成使得可以人工调整上射式驱动器706的倾斜角。可替选地，可以使用伺服机制以使得能够对倾斜角和上射式驱动器的投射方向进行自动控制或电子控制。对于某些声音，诸如环境声音，上射式驱动器可以直向上指向扬声器箱700的上表面，以创建可以被称为“顶射式”驱动器的驱动器。在这种情况下，取决于天花板的声学特性，声音的大的分量可以向下反射回到扬声器上。然而，如图6中所示，在大多数情况下，某个倾斜角通常用于帮助将声音通过天花板的反射投射至房间内不同的位置或较中心的位置。

图7A意在例示扬声器和驱动器配置的一个示例，并且很多其它配置也是可以的。例如，可以在其自己的箱中设置上射式扬声器，以使得能够使用现有扬声器。图7B例示根据实施例的具有分布在多个箱中的驱动器的扬声器系统。如图7B中所示，在单独的箱710中设置上射式驱动器712，那么可以接近具有前射式驱动器716和/或侧射式驱动器718的箱714或者在箱714的顶部放置上射式驱动器712。驱动器还可以被装入诸如用于很多家庭影院环境中的扬声器条形箱内，在家庭影院环境中沿着单个水平箱或竖直箱内的轴来排列多个小型驱动器或中型驱动器。图7C例示根据实施例的驱动器在条形箱内的放置。在该示例中，条形箱730是包括侧射式驱动器734、上射式驱动器736和前射式驱动器732的水平条形箱。图7C意在仅作为示例配置，并且可以对于每种功能——前射、侧射和上射——使用任意实际数量的驱动器。

对于图7A至图7C的实施例，应当注意，根据所要求的频率响应特性以及任何其它相关的约束，诸如大小、额定功率、元件成本等，驱动器可以具有任何合适的形状、大小和类型。

在典型的自适应音频环境中，听音空间内可以包括多个扬声器箱。图8例示听音空间内放置的具有包括上射式驱动器的可独立寻址驱动器的扬声器的示例放置。如图8中所示，空间800包括4个单独的扬声器806，每个扬声器具有至少一个前射式驱动器、侧射式驱动器和上射式驱动器。该空间还可以包括用于环绕声应用的固定驱动器，诸如中心扬声器802和超低音扬声器或LFE 804。如可以在图8中看到，取决于空间的大小和相应的扬声器单元，扬声器806在空间内的恰当放置可以提供由天花板和墙壁将来自多个上射式驱动器和侧射式驱动器的声音反射出去而产生的丰富的音频环境。扬声器可以目标在于根据内容、空间大小、听音位置、声学特性和其它相关参数来提供从合适的表平面上的一个或更多点反射出去。

自适应音频系统中使用的扬声器可以使用基于现有的环绕声配置(例如，5.1、7.1、9.1等)的配置。在这种情况下，按照已知的环绕声惯例来设置并定义多个驱动器，为反射(上射式和侧射式)声音分量连同直接(前射式)分量提供附加的驱动器和限定。

图9A例示根据实施例的为反射音频利用多个可寻址驱动器的自适应音频5.1系统的扬声器配置。在配置900中，标准5.1扬声器足迹包括LFE 901、中心扬声器902、左前扬声器904/右前扬声器906，并且左后扬声器908/右后扬声器910配备有8个另外的驱动器，提供总共14个可寻址驱动器。在每个扬声器单元902至910中，这8个另外的驱动器除“向上”(或“向前”)驱动器以外被表示“向上”和“向侧面”。将通过包括自适应音频对象和被设计成具有高度的方向性的任何其它分量的子通道来驱动直接向前驱动器。上射式(反射)驱动器能够包括更加全方向或无方向的子通道内容，但不限于此。示例将包括背景音乐或环境声音。如果到系统的输入包括传统的环绕声内容，那么该内容可以被智能地分解到直接子通道和反射子通道并且被馈送至合适的驱动器。

对于直接子通道，扬声器箱将包括以下驱动器：驱动器的中轴将空间的声学中心或其它最佳听音位置(“最佳听音位置”)平分。上射式驱动器被定位成使得驱动器的正中面与声学中心之间的角度将是45度至180度的范围内的某个角度。在将扬声器定位于180度的情况下，朝后驱动器可以通过后墙的反射来提供声音扩散。该配置利用以下声学原理：在直接驱动器与上射式驱动器的时间对准之后，早到达的信号分量将是相干的，而晚到达的分量将受益于由空间提供的自然扩散。

为了获得由自适应音频系统提供的高度线索，上射式驱动器可以与水平面向上形成角度，极端地，可以被定位成直接向上辐射且由反射面或表面(诸如平坦的天花板)或者直接在箱上方放置的声音扩散器反射出去。为了提供另外的方向性，中心扬声器可以利用具有操纵声音越过屏幕以提供高分辨率的中心通道的能力的条形箱配置(如图7C中所示)。

通过添加两个另外的类似于标准7.1配置的后箱可以扩展图9A的5.1配置。图9B例示根据实施例的对于反射音频利用多个可寻址驱动器的自适应音频7.1系统的扬声器配置。如配置920中所示，在“左侧环绕”位置和“右侧环绕”位置中放置两个另外的箱922和箱924，两个另外的箱922和箱924具有以与前箱类似的方式指向侧墙的侧扬声器和被设置成从现有的前对和后对之间的天花板中途反射的上射式驱动器。可以根据期望进行这种增大的添加很多次，另外的对沿着侧墙或后墙填充间隙。图9A和9B例示扩展的环绕声扬声器布置的可能配置的仅一些示例，可以结合用于消费者环境的自适应音频系统中的上射式扬声器和侧射式扬声器来使用扩展的环绕声扬声器布置，并且很多其它配置也是可以的。

作为对上述n.1配置的替代，可以利用更灵活的基于卵壳的系统，由此每个驱动器被包含在其自己的箱中，从而可以被安装在任何方便的位置。这将使用如图7B中所示的驱动器配置。然后，这些单个单元可以以与n.1配置类似的方式被聚集，或者它们可以围绕空间单独地被散布。卵壳不必受限于被放置在空间的边缘，它们也可以被放置在其内的任何表面(例如，咖啡桌、书架等)上。这种系统易于扩展，使得用户能够随着时间的推移添加更多的扬声器，以创建更沉浸式的体验。如果扬声器是无线的，那么卵壳系统可以包括出于再充电目的将扬声器对接(dock)的能力，在这种设计中，可以将卵壳对接在一起，使得当它们再充电时用作单个扬声器，可能用于听立体声音乐，然后对于自适应音频内容解对接并且围绕空间被定位。

为了提高使用上射式可寻址驱动器的自适应音频系统的可配置性和精确性，多个传感器和反馈装置可以被添加至箱，以通知呈现器能够在呈现算法中使用的特征。例如，每个箱中安装的麦克风将使得系统能够使用三角测量和箱自身的HRTF类功能来测量相位、频率和空间的混响特性连同扬声器相对于彼此的位置。惯性传感器(例如，陀螺仪、罗盘等)可以用于检测箱的方向和角度；以及光传感器和视觉传感器(例如，使用基于激光的红外线测距仪)可以用来提供相对于空间本身的位置信息。这些表示可以在系统中使用的另外的传感器的仅仅几种可能性，并且其它传感器也是可以的。

可以通过使得驱动器和/或箱的声学调节器的位置能够经由机电伺服系统被自动调节来进一步提高这种传感器系统。这将使得驱动器的方向性在运行时被改变以适合驱动器在空间中相对于墙壁和其它驱动器的定位(“主动操纵”)。类似地，可以调整任何声学调节器(例如隔音板、喇叭或导波器)来为任何空间配置中的最佳播放提供准确的频率响应和相位响应(“主动调整”)。在初始空间配置(例如，结合自动均衡器/自动空间配置系统)期间或者在响应于被呈现的内容而播放期间，可以执行主动操纵和主动调整。

双向互连

一旦被配置，扬声器必需被连接至呈现系统。传统互连通常有两种类型：针对无源扬声器的扬声器电平输入和针对有源扬声器的线路电平输入。如图4C中所示，自适应音频系统450包括双向互连功能。该互连在呈现级454和放大器/扬声器级458和麦克风级460之间的一组物理连接和逻辑连接中被实现。通过声源与扬声器之间的这些智能互连来支持对每个扬声器柜中的多个驱动器进行寻址的能力。双向互连使得包括控制信号和音频信号两者的信号能够从声源(呈现器)被发送至扬声器。从扬声器到声源的信号包括控制信号和音频信号两种，其中，在这种情况下，音频信号是源自可选的内置麦克风的音频。至少对于扬声器/驱动器未被单独供电的情况，也可以提供电源作为双向互连的一部分。

图10A是例示根据实施例的双向互连的构成的图。可以表示呈现器加放大器/声音处理器链的声源1002通过一对互连链接1006和1008逻辑上和物理上耦接至扬声器柜(箱)1004。从声源1002到扬声器柜1004内的驱动器1005的互连1006包括每个驱动器的电声信号、一个或更多控制信号和可选电源。从扬声器柜1004回到声源1002的互连1008包括来自麦克风1007或用于呈现器的校准或其它类似的声音处理功能的其它传感器的声音信号。反馈互连1008还包括由呈现器使用以修改或处理通过互连1006被设置到驱动器的声音信号的某些驱动器限定和参数。

在实施例中，在系统设置期间为系统的每个柜中的每个扬声器分配标识符(例如，数值分配)。还可以唯一地标识每个扬声器柜。扬声器柜使用该数值分配来确定哪些音频信号被发送至柜中的哪个驱动器。该数值分配被存储在扬声器柜中的合适的存储装置中。可替选地，每个驱动器可以被配置为在本地存储器中存储其自己的标识符。在另外的替代中，如驱动器/扬声器没有本地存储容量的情况下，标识符可以被存储在呈现级或声源1002内的其它部件中。在扬声器发现处理期间，声源针对其简档查询每个扬声器(或中央数据库)。简档定义包括以下各项的某些驱动器限定：扬声器柜或其它定义的阵列中的多个驱动器；每个驱动器的声学特性(例如驱动器类型、频率响应等)；每个驱动器相对于扬声器柜的前端面的中心的中心位置x、y、z；每个驱动器关于所定义的平面(例如，天花板、地面、柜的竖直轴等)的角度以及麦克风的数量和麦克风特性。还可以定义其它相关的驱动器和麦克风/传感器参数。在实施例中，驱动器限定和扬声器柜简档可以被表达为由呈现器使用的一个或更多XML文档。

在一个可能的实施中，在声源1002和扬声器柜1004之间创建因特网协议(IP)控制网络。每个扬声器柜和声源用作单个网络终端，并且当初始化或上电时被赋予链路本地地址。可以使用诸如零配置网络(零配置)的自动发现机制来使得声源能够将每个扬声器定位在网络上。零配置网络是没有手动操作者的干涉或专门配置服务器的情况下自动创建可用的IP网络的处理的示例，而且可以使用其它类似的技术。考虑到智能网络系统，多个源可以存在于IP网络上作为扬声器。这使得多个源能够在没有通过“主要的”音频源(例如，传统的音频/视频接收器)对声音进行路由的情况下直接驱动扬声器。如果另外的源试图对扬声器进行寻址，则在所有源之间进行通信以确定哪个源当前是“活跃的”，是否需要活跃的，并且是否可以将控制转变到新的声源。可以在制造期间基于对它们的分类为源预先分配优先级，例如，远程通信源可以比娱乐源具有更高的优先级。在多空间环境如典型的家庭环境中，整个环境中的所有扬声器可以存在于单个网络上，但是可能无需同时对其进行寻址。在设置和自动配置期间，可以使用通过互连1008提供返回的声音电平来确定哪些扬声器位于同一物理空间中。一旦确定了该信息，可以将扬声器分组为簇。在这种情况下，可以分配簇ID并且使簇ID构成驱动器限定的一部分。簇ID被发送至每个扬声器，并且声源1002可以同时对每个簇进行寻址。

如图10A中所示，可以通过双向互连来传输可选的电源信号。扬声器可以是无源的(需要来自声源的外部电源)或者有源的(需要来自电插座的电源)。如果扬声器系统包括没有无线支持的有源扬声器，则到扬声器的输入包括IEEE 802.3兼容有线以太网输入。如果扬声器系统包括具有无线支持的有源扬声器，则到扬声器的输入包括IEEE 802.11兼容无线以太网输入，或可替选地，到扬声器的输入包括由WISA组织指定的无线标准输入。可以通过由声源直接提供的合适的电源信号来提供无源扬声器。

在包括驱动器或紧密耦接至驱动器并且在听音环境内的其它部件的扬声器箱中执行配置、校准和/或呈现功能的全部或大多数功能的分布式处理实施例中，互连链路1006和1008可以在单个单向互连如图4D中所示的互连476中被实现。在这种情况下，声源发送合适的音频信号连同控制信号或通过使由扬声器系统自身提供的相应的处理来执行配置和校准功能的指令。当声源到驱动器之间的链路保持为单向第一通道链路的同时，从麦克风直接到扬声器中的这些功能的声源信号主要构成向配置/校准功能提供环境信息的第二通道。在图10B中例示这种实施例。如图10B中所示，系统1010包括通过链路1016耦接至扬声器箱1014中的驱动器1015的声源1012。扬声器柜1014容纳包括驱动器1015、用于执行功能的电路1019和一个或更多麦克风1017的多个部件。由部件1019执行的功能可以包括校准、配置和/或由声源1012生成的音频信号的局部呈现。链路1016将音频信号或扬声器馈送从声源发送至驱动器1015。恰当的指令、命令或触发通过该链路被传输至功能块1019。关于听音环境的声音信息也从麦克风1017被发送至功能块1019。然后，该信息用于配置或校准驱动器1015，以便对通过链路1016从声源1012发送的音频信号进行恰当的呈现。

应当注意，部件1019和1017中的任何一个可以在物理上位于箱1014的外部但紧密地耦接至或链接至驱动器1015的电路或部件中实现。

系统配置和校准

如图4C中所示，自适应音频系统的功能包括校准功能462。通过图10A中所示的麦克风1007和互连1008链路使得能够实现该功能。系统1000中的麦克风部件的功能是测量房间中的单个扬声器的响应以便导出整个系统响应。出于该目的，可以使用多麦克风拓扑结构，包括单个麦克风或麦克风阵列。最简单的情况是位于房间的中心的单个全向测量麦克风被用于测量每个驱动器的响应。如果房间和回放条件确保更精细的分析，则替代地，可以使用多个麦克风。多个麦克风的最方便的位置是在房间中使用的特定扬声器配置的物理扬声器柜中。安装在每个箱中的麦克风允许系统在房间中的多个位置测量每个驱动器的响应。对这种拓扑结构的替选是使用位于房间中的可能的听者位置的多个全向测量麦克风。

麦克风被用于使得能够实现呈现器的自动配置和校准以及后处理算法。在自适应音频系统中，呈现器负责将混合的基于对象和通道的音频流转换成针对一个或更多个物理扬声器内特定的能够寻址的驱动器指定的单独的音频信号。后处理部件可以包括：延迟、均衡、增益、扬声器虚拟化和上混合。扬声器配置通常表示关键信息，呈现部件可以使用该关键信息来将混合的基于对象和通道的音频流转换成单独的每个驱动器的音频信号，以提供音频内容的最佳播放。系统配置信息包括：(1)系统中物理扬声器的数量，(2)每个扬声器中能够独立寻址的驱动器的数量，以及(3)每个能够独立寻址的驱动器相对于房间几何结构的位置和方向。其它特征性是可以的。图11示出了根据一个实施方式的自动配置和系统校准部件的功能。如图11中所示，一个或更多个麦克风的阵列1102向配置和校准部件1104提供声学信息。该声学信息捕获听音环境的某些相关的特性。然后，配置和校准部件1104向呈现器1106和任何相关的后处理部件1108提供该信息，使得针对听音环境来调整和优化最终被发送至扬声器的音频信号。

系统中物理扬声器的数量和每个扬声器中能够独立寻址的驱动器的数量为物理扬声器特性。这些特性经由双向互连456从扬声器被直接传输至呈现器454。呈现器和扬声器使用公共的发现协议，使得当扬声器与系统连接或断开时，给呈现器通知改变，并且可以据此重新配置系统。

听音房间的几何结构(大小和形状)是配置和校准处理中必要的信息项。可以以多种不同的方式来确定几何结构。在人工配置模式下，听者或技术人员通过向自适应音频系统内的呈现器或其它处理单元提供输入的用户界面，将房间的最小边界立方体的宽度、长度和高度输入系统。出于该目的，可以使用各种不同的用户界面技术和工具。例如，可以通过自动映射或跟踪房间的几何结构的程序将房间几何结构发送至呈现器。这样的系统可以使用计算机视觉、声纳和基于3D激光的物理映射的组合。

呈现器使用房间几何结构中扬声器的位置来导出针对包括直接驱动器和反射(上射式)驱动器两者的每个能够独立寻址的驱动器的音频信号。直接驱动器是这样驱动器：该驱动器被对准，使得在被反射表面(如地面、墙壁或天花板)漫射之前，该驱动器的散布模式的主要部分与听音位置相交。反射驱动器是这样的驱动器：该驱动器被对准，使得在如图6中所示与听音位置相交之前，它们的散布模式的主要部分被反射。如果系统处于人工配置模式中，则可以通过UI将每个直接驱动器的三维坐标输入系统。针对反射驱动器，将主要反射的三维坐标输入UI。可以使用激光或类似的技术来将漫射驱动器的散布模式虚拟化到房间的表面上，所以可以测量三维坐标并且将三维坐标人工输入系统。

通常，使用人工或自动技术来执行驱动器定位和对准。在一些情况下，可以将惯性传感器包括在每个扬声器中。在该模式中，中心扬声器被指定为“主要的”，并且它的罗盘测量被视为基准。然后，其它扬声器则针对每个它们的能够独立寻址的驱动器发送散布模式和罗盘位置。联系房间几何结构，中心扬声器的参考角度与每个添加驱动器之间的差为系统提供足够的信息，以自动确定驱动器是直接的还是反射的。

如果使用3D定位(即，高保真度立体声响复制(Ambisonic))麦克风，则扬声器位置配置可以是全自动的。在这种模式下，系统向每个驱动器发送测试信号并且记录响应。根据麦克风类型，信号可能需要被转换成x、y、z表示。对这些信号进行分析以找出主导的首先到达的x、y和z分量。联系房间几何结构，这通常为系统提供足够的信息以自动设置所有扬声器(直接的或反射的)位置的三维坐标。根据房间几何结构，用于配置扬声器坐标的三个所述方法的混合组合可比仅仅使用单独一种技术更有效。

扬声器配置信息是配置呈现器所需的一个分量。扬声器校正信息也是配置以下后处理链所需的：延迟、均衡和增益。图12是示出根据一个实施方式的使用单个麦克风执行自动扬声器校准的处理步骤的流程图。在该模式下，系统使用位于听音位置的中心的单个全向测量麦克风来自动计算延迟、均衡和增益。如图12中所示，通过单独测量每个单个驱动器的空间脉冲响应来开始处理，块1202。然后，通过求出声学脉冲响应(由麦克风捕获的)与直接捕获的电脉冲响应的交叉相关的峰的偏移来计算每个驱动器的延迟，块1204。在块1206中，所计算的延迟被应用于直接捕获的(参考)脉冲响应。然后，处理确定宽带和每带增益值，当该增益值被应用于所测量的脉冲响应时，其导致所测量的脉冲响应与直接捕获(参考)的脉冲响应之间的最小差，块1208。这可以通过以下操作来完成：得到所测量的脉冲响应和参考脉冲响应的加窗FFT，计算两个信号之间的每区间幅值比，将中值滤波器应用于每区间幅值比，通过对完全落在带内的所有区间的增益求平均来计算每带增益值，通过得到所有每带增益的平均来计算宽带增益，从每带增益中减去宽带增益，以及应用小空间X曲线(-2dB/2kHz以上倍频程)。一旦在块1208中确定了增益值，则处理通过从其它中减去最小延迟来确定最终延迟值，使得系统中的至少一个驱动器将总是具有零附加延迟，块1210。

在使用多个麦克风自动校准的情况下，系统使用多个全向测量麦克风来自动计算延迟、均衡和增益。该处理基本上与单个麦克风技术相同，除了针对每个麦克风重复此处理并且对结果求平均之外。

替代应用

代替在整个房间或影院中实现自适应音频系统，可以在更局部的应用如电视机、计算机、游戏控制台或类似的装置中实现自适应音频系统的方面。这种情况实际上依赖于与观看屏幕或监视器表面对应的平面中部署的扬声器。图13示出了自适应系统在示例的电视和条形箱消费者用例中的使用。通常，电视用例面临以下挑战：基于通常降低的装置(电视扬声器、条形箱扬声器等)的质量和在空间分辨率方面受限(即，无环绕扬声器或后扬声器)的扬声器位置/配置来创建沉浸式消费者体验。图13的系统1300包括标准电视机左侧位置和右侧位置(TV-L和TV-R)中的扬声器以及左上射式驱动器和右上射式驱动器(TV-LH和TV-RH)。电视1302也可以包括条形箱1304或某个种类的高度阵列中的扬声器。通常，由于成本约束和设计选择，与独立扬声器或家庭影院扬声器相比，电视扬声器的大小和品质有所降低。然而，动态虚拟化的使用可以帮助克服这些缺点。在图13中，针对TV-L和TV-R扬声器示出了动态虚拟化效果，使得特定听音位置1308处的人将听到与在水平平面中单独呈现的适当的音频对象相关联的水平元素。另外，通过由LH驱动器和RH驱动器发送的反射音频对与合适的音频对象相关联的高度元素正确地进行呈现。电视左扬声器和右扬声器中的立体声虚拟化的使用类似于左家庭影院扬声器和右家庭影院扬声器的使用，其中通过基于由自适应音频内容提供的对象空间信息对扬声器虚拟化算法参数的动态控制，可以实现潜在的沉浸式动态扬声器虚拟化用户体验。该动态虚拟化可以用来创建对沿着房间上的侧面移动的对象的感知。

电视环境也可以包括如条形箱1304中所示的HRC扬声器。这样的HRC扬声器可以是允许通过HRC阵列进行声像调节的可操纵单元。具有前射式中心通道阵列可以有各种益处(尤其针对较大的屏幕)，该队列具有能够单独寻址的扬声器，所述能够单独寻址的扬声器通过与屏幕上视频对象的移动相匹配的阵列来允许音频对象的离散声像调节。该扬声器还被示出为具有侧射式扬声器。由于缺少环绕扬声器或后置扬声器，如果扬声器被用作条形箱，则这些可以被激活并且被使用，使得侧射式驱动器提供更多沉浸感。还示出了针对HRC/条形箱扬声器的动态虚拟化概念。针对前射式扬声器阵列的最远侧的左扬声器和右扬声器示出动态虚拟化。这也可以被用来创建沿着房间的侧面移动的对象的感知。该修改的中心扬声器也可以包括更多扬声器，并且使用单独控制的声区来实现可操纵声束。此外，在图13的示例实现中还示出了位于主听音位置1308前方的NFE扬声器1306。NFE扬声器的包括可以提供更强的环绕，该环绕由自适应音频系统通过移动声音使其远离房间的前方并且更靠近听者来提供。

关于耳机呈现，自适应音频系统通过使HRTF与空间位置相匹配来保持创作者的原始意图。当通过耳机再现音频时，可以通过应用头相关传递函数(HRTF)来实现双耳空间虚拟化。该头相关传递函数处理音频并且添加感知线索，感知线索创建对在三维空间并且不通过标准的立体声耳机播放的音频的感知。空间再现的准确性取决于选择合适的HRTF，所述合适的HRTF可以基于包括被呈现的音频通道或对象的空间位置的若干因素而变化。使用由自适应音频系统提供的空间信息可以导致对表示3D空间的一个或连续变化数目的HRTF的选择，以极大地改进再现体验。

系统也利于添加有引导的、三维双耳呈现和虚拟化。与用于空间呈现的情况类似，使用新的且修改的扬声器类型和位置，可以通过使用三维HRTF来创建线索以模拟来自水平面和竖直轴的声音。仅提供通道和固定扬声器位置信息呈现的先前的音频格式具有更多的限制性。有了自适应音频格式信息，双耳三维呈现耳机系统具有详细的且有用的信息，该信息可以用来指示哪些音频元素适合于在水平平面和竖直平面中被呈现。一些内容会依赖于头顶扬声器的使用来提供更强的环绕感。这些音频对象和信息可以用于双耳呈现，当使用耳机时，在听者的头的上方感知到双耳呈现。图14示出了根据一个实施方式的用在自适应音频系统中的三维双耳耳机虚拟化体验的简化表示。如图14中所示，用来再现来自自适应音频系统的音频的耳机1402包括标准x平面、y平面和z平面中的音频信号1404，以播放与某些音频对象或声音相关联的高度，使得它们听起来像是源于x、y起源的声音的上方或下方。

元数据定义

在一个实施方式中，自适应音频系统包括根据原始空间音频格式生成元数据的部件。系统300的方法和部件包括被配置成对包括常规的基于通道的音频元素和音频对象编码元素两者的一个或更多个比特流进行处理的音频呈现系统。包括音频对象编码元素的新扩展层被定义并且被添加至基于通道的音频编解码器比特流或者音频对象比特流中的任一个。该方案使得包括扩展层的比特流能够被呈现器处理以用于现有的扬声器和驱动器设计，或利用能够独立寻址的驱动器和驱动器定义的下一代扬声器。来自空间音频处理器的空间音频内容包括音频对象、通道和位置元数据。当对象被呈现时，根据位置元数据和播放扬声器的位置来将对象分配给一个或更多个扬声器。另外的元数据可与对象相关联，以改变播放位置，或限制要被用于播放的扬声器。响应于工程师的混合输入在音频工作站中生成元数据以提供呈现队列，其控制空间参数(例如，位置、速率、强度、音质等)，以及指定在展现期间听音环境中哪个(些)驱动器或扬声器播放相应的声音。在工作站中元数据与相应的音频数据相关联以便由空间音频处理器进行封装和传输。

图15是示出根据一个实施方式的用于针对消费者环境的自适应音频系统的某些元数据定义的表格。如表格1500中所示，元数据定义包括：音频内容类型、驱动器定义(数量、特性、位置、投射角度)、用于主动操纵/调整的控制信号和包括空间和扬声器信息的校准信息。

特征和性能

如上所述，自适应音频生态系统允许内容创建者经由元数据在比特流中嵌入混合的空间意图(位置、大小、速率等)。这允许音频的空间再现中有难以置信的灵活量。从空间呈现的角度看，自适应音频格式使得内容创建者能够使混合适应空间中扬声器的确切位置，以避免由与创作系统不同的扬声器系统的几何结构引起的空间失真。在仅发送针对扬声器通道的音频的当前消费者音频再现中，针对空间中除固定扬声器位置以外的位置，内容创建者的意图是未知的。在当前通道/扬声器范例下，已知的唯一信息是特定的音频通道应当被发送至空间中具有预先定义的位置的特定扬声器。在自适应音频系统中，使用通过创建和分配流水线传送的元数据，再现系统可以以与内容创建者的原始意图相匹配的方式使用该信息来再现内容。例如，对于不同的音频对象而言，扬声器之间的关系是已知的。通过提供音频对象的空间位置，内容创建者的意图是已知的并且这可以被“映射”到包括其位置的消费者的扬声器配置上。对于动态呈现音频呈现系统，可以通过添加另外的扬声器来更新和改进该呈现。

系统也使得能够添加受引导的三维空间呈现。已经存在通过使用新的扬声器设计和配置来创建更沉浸式的音频呈现体验的很多尝试。这些包括双极扬声器和单极扬声器、侧射式扬声器、后射式扬声器和上射式扬声器的使用。对于先前的通道和固定扬声器位置系统，确定哪些音频元素应当被发送至这些经修改的扬声器已经成为最佳情况下的猜测。使用自适应音频格式，呈现系统具有有关音频的哪些元素(对象或其它)适合于被发送至新的扬声器配置的详细且有用的信息。也就是说，系统允许对哪些音频信号被发送至前射式驱动器以及哪些音频信号被发送至上射式驱动器进行控制。例如，自适应音频电影内容严重地依赖于头顶扬声器的使用，以提供更强的环绕感。这些音频对象和信息可以被发送至上射式驱动器，以在消费者空间中提供反射音频来创建类似的效果。

系统也允许使混合适应于再现系统的确切硬件配置。在诸如电视、家庭影院、条形箱、便携式音乐播放器底座等的消费者呈现装置中存在很多不同的可能扬声器类型和配置。当向这些系统发送通道特定音频信息(即，左通道音频和右通道音频或标准多通道音频)时，系统必须对音频进行处理以与呈现装备的能力恰当地匹配。典型示例是当标准立体声(左、右)音频被发送至具有多于两个的扬声器的条形箱时。在仅发送针对扬声器通道的音频的当前消费者系统中，内容创建者的意图是未知的，并且由增强设备使得成为可能的更加沉浸式的音频体验必须通过对如何修改音频以在硬件上再现做出假设的算法来创建。这样的示例是：使用PLII、PLII-z或下一代环绕来使基于通道的音频“上混合”至比原通道馈送数量更多的扬声器。对于自适应音频系统，使用通过创建和分配流水线传送的元数据，再现系统可以以更密切匹配内容创建者的原始意图的方式使用该信息来再现内容。例如，一些条形箱具有侧射式扬声器以创建环绕感。对于自适应音频，当由诸如电视或音频/视频接收器的呈现系统控制时，条形箱可以使用空间信息和内容类型信息(即，会话、音乐、环境效果等)，以仅将合适的音频发送至这些侧射式扬声器。

由自适应音频传送的空间信息允许在知道出现的扬声器的位置和类型的情况下进行内容的动态呈现。另外，关于听者与音频再现装置的关系的信息现在是潜在可得到的，并且可以用于呈现。大多数游戏控制台包括能够确定房间中人的位置和身份的摄像机配件和智能图像处理。自适应音频系统可以使用该信息来基于听者的位置来改变呈现，以更准确地传送内容创建者的创作意图。例如，在几乎所有的情况下，针对消费者播放而呈现的音频假定听者位于理想的“甜点”，“甜点”通常与每个扬声器等距，并且是内容创建期间声音混合器所处的同一位置。然而，很多时候人们并不位于该理想位置，并且他们的体验与混合器的创作意图不匹配。典型示例是：当听者在房间的左侧坐在起居室中的椅子或沙发上时。对于这种情况，从左边的较近的扬声器再现的声音将被感知得更响亮，并且使对音频混合的空间感知斜向左边。通过理解听者的位置，系统可以调整音频的呈现以降低左边扬声器的声音的水平并且提高右边扬声器的水平，以重新平衡音频混合，并且使其感知正确。也可以对音频进行延迟以补偿听者距甜点的距离。可以通过使用摄像机或者具有将听者的位置通知给呈现系统的某种内置信令的经修改的远程控制，来检测听者的位置。

除了使用标准扬声器和扬声器位置来确定听音位置以外，还可以使用波束控制技术来创建根据听者位置和内容而变化的声场“区域”。音频波束成形使用扬声器阵列(通常8至16个水平间隔开的扬声器)，并且使用相操纵和处理来创建可控制的声束。波束成形扬声器阵列允许创建音频基本可听的音频区域，所述音频区域可以用于使用选择性处理来将特定的声音或对象指向特定的空间位置。一个显见的用例是使用会话增强后处理算法来处理音轨中的会话，以及将该音频对象直接定向发送给有听力障碍的用户。

矩阵编码

在一些情况下，音频对象可以是自适应音频内容的期望分量；然而，基于带宽限制，可能不可以发送通道/扬声器音频和音频对象两者。在过去，矩阵编码用于传送比给定分配系统可以传送的音频信息更多的音频信息。例如，在早期的电影中便是如此，其中通过声音混合器来创建多通道音频，但是电影格式仅提供立体声音频。矩阵编码用来智能地将多通道音频下混合至两个立体声通道，然后用某些算法来处理这两个立体声通道以根据立体声音频来重新创建对多通道混合的紧密近似。类似地，可以智能地将音频对象下混合成基本扬声器通道，并且通过使用自适应音频元数据和完善的时间和频率敏感下一代环绕算法来提取对象，并且使用基于消费者的自适应音频呈现系统对它们准确地进行空间呈现。

另外，当对于音频(例如，3G和4G无线应用)存在传输系统的带宽限制时，还存在由于传输空间上多样的多通道床(bed)而带来的益处，其中连同单独的音频对象对多通道床进行矩阵编码。这样的传输方法的一个用例是用于具有两个不同的音频床和多个音频对象的体育广播的传输。音频床可以表示在两个不同队的露天看台部分捕获的多通道音频，并且音频对象可以表示可能赞同一个队或其它队的不同的解说员。使用标准编码，每个床的5.1表示连同两个或更多个对象会超过传输系统的带宽限制。在这种情况下，如果每个5.1床被矩阵编码为立体声信号，那么被原始捕获为5.1通道的两个床会被传输为两通道床1、两通道床2、对象1和对象2，以作为音频的仅仅四个通道，而不是5.1+5.1+2或12.1通道。

位置和内容相关处理

自适应音频生态系统允许内容创建者创建单独的音频对象，并且添加能够被传送至再现系统的关于内容的信息。这允许在再现之前的音频处理中有大的灵活量。可以通过基于对象的位置和大小的扬声器虚拟化的动态控制来使处理适应对象的位置和类型。扬声器虚拟化是指对音频进行处理以使得虚拟扬声器被听者感知的方法。当源音频是包括环绕扬声器通道馈送的多通道音频时，该方法通常用于立体声扬声器再现。虚拟扬声器处理修改环绕扬声器通道音频，使得当在立体声扬声器上播放环绕扬声器通道音频时，环绕音频元素被虚拟化至听者的侧面和后边，好像存在位于听者的侧面和后边的虚拟扬声器。目前，因为环绕扬声器的预期位置是固定的，所以虚拟扬声器位置的位置属性是静态的。然而，对于自适应音频内容，不同音频对象的空间位置是动态的且不同的(即，对每个对象而言是独特的)。以下是可能的：现在可以通过动态控制诸如每个对象的扬声器位置角度的参数并且然后混合若干虚拟化对象的呈现输出以创建更加接近地表示声音混合器的意图的更加沉浸式的音频体验，以更知情的方式来控制诸如虚拟扬声器虚拟化的后处理。

除了音频对象的标准水平虚拟化以外，可以使用对固定通道和动态对象音频进行处理的感知高度线索，并且根据法线、水平平面、位置上的标准立体声扬声器对来获得对音频的高度再现的感知。

可以将某些效果或增强处理明智地应用于合适类型的音频内容。例如，可以将会话增强仅应用于会话对象。会话增强是指对包括会话的音频进行处理以使得会话的可听度和/或可理解性增强和/或提高。在很多情况下，应用于会话的音频处理不适合于非会话音频内容(即，音乐、环境效果等)，并且可以产生令人反感的听觉伪声。对于自适应音频，音频对象可以在内容块中仅包括会话，并且可以相应地被标记，使得呈现解决方案选择性地仅对会话内容应用会话增强。另外，如果音频对象仅为会话(而不是会话和其它内容的混合，通常情况是会话和其它内容的混合)，那么会话增强处理可以专门处理会话(由此限制对任何其它内容执行任何处理)。

类似地，还可以针于特定的音频特性定制音频响应或均衡管理。例如，低音管理(滤波、衰减、增益)基于特定对象的类型而针对特定对象。低音管理是指仅选择性隔离并且处理特定内容块中的低音(或更低的)频率。对于当前的音频系统和传送机制，这是应用于所有音频的“盲”处理。关于自适应音频，可以通过元数据和被适当应用的呈现处理来识别适合于低音管理的特定的音频对象。

自适应音频系统还利于基于对象的动态范围压缩。传统音轨具有与内容自身相同的持续时间，而音频对象可能在内容中出现有限量的时间。与对象相关联的元数据可以包括关于其平均信号幅度和峰值信号幅度的水平相关信息，以及其开始时间或上升时间(尤其针对瞬时材料)。该信息允许压缩器更好地调整其压缩和时间常数(上升、释放等)以更好地与内容相配。

系统还利于自动扬声器空间均衡。扬声器和空间音响效果在将音染(audiblecoloration)引入声音从而影响所再现的声音的音质中发挥重要作用。此外，由于空间反射和扬声器方向性变化，音响效果是位置相关的，并且由于该变化，所感知的音质将针对不同的听音位置而显著变化。系统中提供的AutoEQ均衡(自动空间均衡)功能通过以下措施来帮助减轻这些问题中的一些：自动扬声器空间谱测量和均衡、自动时间延迟补偿(其提供合适的成像并且可能提供基于最小二乘法的相对扬声器位置检测)以及水平设置、基于扬声器头顶空间容量的低音重定向以及具有超低音扬声器的主扬声器的最佳限幅。在家庭影院或其它消费者环境中，自适应音频系统包括某些附加功能，如：(1)基于播放空间音响效果的自动目标曲线计算(其被视为针对家庭听音房间中的均衡的研究中的开放性问题)、(2)使用时间频率分析的模态衰减控制的影响、(3)理解从主导环绕/宽敞度/源宽度/可理解性的测量导出的参数，并且对这些参数进行控制以提供尽可能最好的听音体验、(4)引入用于在前置扬声器与“其它”扬声器之间匹配音质的头模型的方向滤波、以及(5)检测离散设置的扬声器相对于听者的空间位置，以及空间重映射(例如，无线高保真(Summit wireless)是一个示例)。在前锚扬声器(例如，中心)与环绕/后置/宽度/高度扬声器之间的某些经声像调节的内容上尤其显现扬声器之间音质的不匹配。

总的来说，如果一些音频元素的再现空间位置与屏幕上的图像元素相匹配，则自适应音频系统也允许引人入胜的音频/视频再现体验，尤其对于家庭环境中的较大的屏幕大小。一个示例是：电影或电视节目中的会话在空间上与屏幕上正在讲话的人或角色相一致。对于基于正常扬声器通道的音频，不存在确定应当在空间上将会话布置于哪个地方来与屏幕上的人或角色的位置相匹配的容易的方法。对于自适应音频系统中可用的音频信息，甚至在以较大尺寸的屏幕为特征的家庭影院系统中，可以容易实现这种类型的音频/视觉对准。视觉位置和音频空间对准还可以用于非人物/会话对象如汽车、卡车、动画等。

自适应音频生态系统通过允许内容创建者创建单独的音频对象并且添加可以被传送至再现系统的关于内容的信息，来允许增强的内容管理。这允许音频的内容管理中有大的灵活量。从内容管理角度看，自适应音频使得能够完成诸如通过仅仅替换会话对象来改变音频内容的语言的各种事情，以减小内容文件的大小和/或减少下载时间。电影、电视和其它娱乐节目通常在国际上被发布。这通常要求根据要再现内容的地点来改变内容块中的语言(法语针对在法国上映的电影，德语针对在德国播出的电视节目等)。如今，这常常要求对于每种语言完全独立地创建、封装和发布音轨。对于自适应音频系统和音频对象的固有概念，内容块的会话可以是独立的音频对象。这使得在不更新或不改变音轨的其它元素如音乐、效果等的情况下能够容易地改变内容的语言。这不仅适用于外语而且适用于针对某些听众、有针对性的广告等的不适当的语言。

本文中所描述的音频环境的方面表示通过合适的扬声器和播放装置对音频或音频/视觉内容的播放，并且可以表示听者正体验所捕获的内容的播放的任何环境，如电影院、音乐厅、露天剧院、家里或房间、听音间、汽车、游戏控制台、耳机或耳机系统、公共广播系统或任何其它播放环境。虽然已经主要参照空间音频内容与电视内容相关联的家庭影院环境中的示例和实现描述了实施方式，但是应当注意，还可以在其它基于消费者的系统中实现实施方式。包括基于对象的音频和基于通道的音频的空间音频内容可以结合任何相关的内容(相关联的音频、视频、图形等)来使用，或者其可以构成独立的音频内容。播放环境可以是从耳机或近场监视器到小房间或大房间、汽车、露天竞技场、音乐厅等的任何合适的听音环境。

可以在用于处理数字或数字化音频文件的合适的基于计算机的声音处理网络环境中实现本文中所描述的系统的方面。自适应音频系统的部分可以包括如下一个或更多个网络：所述网络包括任何期望数量的单独机器，包括用于缓存和路由计算机之间所传输的数据的一个或更多个路由器(未示出)。这样的网络可以建立在各种不同的网络协议上，并且可以是因特网、广域网(WAN)、局域网(LAN)或其任意组合。在网络包括因特网的实施方式中，一个或更多个机器可以被配置成通过网络浏览器程序访问因特网。

可以通过对系统的基于处理器的计算装置的执行进行控制的计算机程序来实现部件、块、处理器或其它功能部件中的一个或更多个。应当注意，根据其行为、寄存器传输、逻辑部件和/或其它特征，可以使用硬件、固件和/或数据和/或各种机器可读介质或计算机可读介质中所实现的指令的任何数量的组合来描述本文中公开的各种功能。可以实现这样的格式化数据和/或指令的计算机可读介质包括但不限于各种形式如光的、磁的物理的(非暂态的)非易失性的存储介质或半导体存储介质。

除非上下文明确要求，否则遍及说明书和权利要求，词语“包括(comprise)”、“包括(comprising)”等要以与排外的意义或详尽的意义相对的包括的意义来解释；也就是说，以“包括但不限于”的意义来解释。此外，使用单数或复数的词语分别包括复数或单数。另外，词语“在本文中(herein)”、“在下文中(hereunder)”、“在上面(above)”、“在下面(below)”以及类似意思的词语指的是整个应用而不是该应用的任何特定部分。当参照两项或更多项的列表来使用词语“或”时，该词语适用于该词语的所有下列解释：列表中任意一个项目、列表中所有项目以及列表中项目的任意组合。

虽然已经通过示例并且根据特定的实施方式描述了一个或更多个实现，但是应当理解，一个或更多个实现不限于所公开的实施方式。相反，如对本领域技术人员而言显见的，其意在覆盖各种修改和类似的布置。因此，所附权利要求的范围应当符合最广泛的解释，以便包括所有这样的修改和类似的布置。

此外，本公开的实施例还包括：

(1)一种用于在基于对象的呈现系统中耦接部件的互连系统，包括：

第一网络通道，其被配置为将呈现器耦接至在听音环境中投射声音的能够独立寻址的驱动器的阵列，并且被配置为将音频信号和控制数据从所述呈现器传输至所述阵列；其中，所述能够独立寻址的音频驱动器的阵列包括上射式驱动器，所述上射式驱动器用于从所述听音环境的天花板传播声波，以模拟所述听音环境的所述天花板处的扬声器的存在；其中，所述上射式驱动器的倾斜度是可调的；其中，所述呈现器被配置为呈现来自源的基于对象的音频信号，以供在所述听音环境中播放；其中，所述呈现器包括虚拟器，所述虚拟器被配置为基于所述基于对象的音频信号的空间再现信息来得出用于所述上射式驱动器的音频信号；以及

第二网络通道，其被配置为将放置在所述听音环境中的麦克风耦接至所述呈现器的校准部件，并且被配置为将针对由所述麦克风生成的声学信息的校准控制信号传输至所述校准部件；其中，所述校准部件被配置为基于所述声学信息来修改用于所述上射式驱动器的音频信号。

(2)根据(1)所述的互连系统，其中，一个或更多配置参数被存储在与所述能够独立寻址的驱动器的阵列相关联的存储器中，以及其中，所述第二网络通道传输从由以下项构成的组中选择的配置信息：驱动器标识、驱动器位置信息、驱动器类型和驱动器发射方向。

(3)根据(1)所述的互连系统，其中，所述第一网络通道和所述第二网络通道实现支持网络协议的双向互连，所述网络协议被所述呈现系统用于在所述呈现器、所述校准部件和所述能够独立寻址的音频驱动器的阵列之间传输控制数据；并且其中，根据所述网络通信协议能够唯一寻址所述音频驱动器的阵列中的每个音频驱动器。

(4)根据(1)所述的互连系统，其中，所述呈现器被配置成根据元数据将包括音频内容的音频流呈现成与所述能够唯一寻址的音频驱动器的阵列对应的多个音频馈送，其中，所述元数据指定向每个相应的能够寻址的音频驱动器传输哪个单独的音频流。

(5)根据(4)所述的互连系统，其中，所述音频内容包括基于对象的音频信号和基于通道的音频信号。

(6)一种用于在听音环境中呈现基于对象的音频信号的系统，包括：

能够独立寻址的音频驱动器的阵列，所述音频驱动器被封闭在一个或更多扬声器箱中，用于在所述听音环境中投射声音；其中，所述能够独立寻址的音频驱动器的阵列包括上射式驱动器，所述上射式驱动器用于从所述听音环境的天花板传播声波，以模拟所述听音环境的所述天花板处的扬声器的存在；其中，所述上射式驱动器的倾斜度是可调的；

至少一个麦克风，被放置在所述听音环境中，用于监测所述听音环境的声学特性；

呈现器，被配置成呈现来自源的基于对象的音频信号，以供在所述听音环境中播放；其中，所述呈现器包括虚拟器，所述虚拟器被配置为基于所述基于对象的音频信号的空间再现信息来得出用于所述上射式驱动器的音频信号；以及

双向互连，其具有第一通道和第二通道，所述第一通道将所述呈现器耦接至所述能够独立寻址的音频驱动器的阵列，以在所述听音环境中播放音频信号，并且所述第二通道将所述至少一个麦克风耦接至所述呈现器；其中，所述呈现器被配置成基于所述听音环境的所述声学特性来修改用于所述上射式驱动器的所述音频信号。

(7)根据(6)所述的系统，还包括校准部件，其耦接至所述呈现器，并且被配置成接收所述声学特性，以用于所述系统的配置和所述音频信号的修改。

(8)根据(7)所述的系统，还包括实现所述双向互连的网络，并且其中，所述双向互连支持被所述系统用于在所述呈现器、所述校准部件和所述能够独立寻址的音频驱动器的阵列之间传输控制数据的网络协议。

(9)根据(8)所述的系统，其中，根据所述网络协议能够唯一寻址所述音频驱动器的阵列中的每个音频驱动器。

(10)根据(9)所述的系统，其中，所述呈现器被配置成根据元数据将包括音频内容的音频流呈现成与所述能够唯一寻址的音频驱动器的阵列对应的多个音频馈送，其中，所述元数据指定向每个相应的能够寻址的音频驱动器传输哪个单独的音频流。

(11)根据(10)所述的系统，其中，所述听音环境包括至少部分封闭的区域，并且其中，所述音频流包括从由以下项构成的组中选择的音频内容：被转换以在家庭环境中播放的电影内容、电视内容、用户生成的内容、计算机游戏内容和音乐。

(12)根据(11)所述的系统，其中，所述至少一个音频驱动器包括以下项之一：箱内的能够人工调整的音频转换器，其中能够在相对于所述封闭区域的底平面的声音发射角方面调整所述能够人工调整的音频转换器；和箱内的能够电控的音频转换器，其中能够在所述声音发射角方面自动调整所述能够电控的音频转换器。

(13)根据(11)所述的系统，其中，所述音频内容包括基于对象的音频信号和基于通道的音频信号。

(14)根据(13)所述的系统，其中，所述能够独立寻址的驱动器的阵列的至少一部分是根据环绕声定义来配置的。

(15)根据(14)所述的系统，其中，所述至少一个麦克风包括以下项之一：位于所述听音环境的中心位置的单个全向测量麦克风；和与所述能够独立寻址的驱动器的阵列中相应驱动器相关联的多个麦克风。

(16)根据(7)所述的系统，还包括后处理部件，其耦接至所述校准部件，并且被配置成提供与所述音频信号的所述修改有关的参数；所述参数选自由信号延迟、信号均衡、信号增益、扬声器虚拟化和上混合构成的组。

(17)根据(6)所述的系统，还包括配置部件，其耦接至所述呈现器，并且被配置成限定所述听音环境的几何结构和驱动器配置，其中，所述几何结构包括实现所述听音环境的空间的大小和形状，并且所述驱动器配置包括从由以下项构成的组中选择的信息：驱动器标识、驱动器位置信息、驱动器类型和驱动器发射方向。

(18)根据(17)所述的系统，其中，所述几何结构和所述驱动器配置由用户通过功能上耦接至所述呈现器的用户界面部件人工提供给所述系统。

(19)根据(17)所述的系统，其中，所述几何结构和所述驱动器配置中的至少一个由与所述阵列中的一个或更多驱动器相关联的一个或更多传感器部件自动提供给所述系统。

(20)根据(17)所述的系统，其中，所述至少一个麦克风包括三维定位麦克风，并且其中，所述驱动器配置是使用由所述至少一个麦克风生成的测试信号来导出的。

(21)根据(8)所述的系统，其中，所述听音环境包括多个空间，其中，所述多个空间中的每个空间包括通过所述网络耦接的双向音频驱动器的阵列的一部分。

(22)一种用于在包括呈现器和能够独立寻址的驱动器的阵列的基于对象的呈现系统中呈现音频内容的方法，其中所述音频内容包括基于对象的音频信号，其中所述能够独立寻址的音频驱动器的阵列包括上射式驱动器，所述上射式驱动器用于从听音环境的天花板传播声波，以模拟所述听音环境的所述天花板处的扬声器的存在；其中，所述上射式驱动器的倾斜度是可调的，所述方法包括：

使用虚拟器基于所述基于对象的音频信号的空间再现信息来得出用于所述上射式驱动器的音频信号；

通过将所述呈现器耦接至所述阵列的第一网络通道将用于所述上射式驱动器的音频信号和控制数据从所述呈现器传输至所述阵列，所述阵列用于在听音环境中投射声音；

通过将麦克风耦接至校准部件的第二网络通道将捕获所述听音环境的声学信息的声音信号从所述麦克风传输至所述校准部件；以及

使用所述声学信息来修改被发送至所述阵列的用于所述上射式驱动器的所述音频信号和控制数据。

(23)根据(22)所述的方法，还包括给所述能够独立寻址的驱动器的阵列中的每个驱动器分配根据由所述呈现系统使用的网络协议定义的唯一地址。

(24)根据(22)所述的方法，其中，所述校准部件被提供为所述呈现器内的部件，并且所述麦克风被紧密耦接至所述阵列，以及其中，所述第一网络通道和所述第二网络通道两者耦接在所述呈现器和所述阵列之间。

(25)根据(22)所述的方法，其中，所述校准部件和所述麦克风两者被实现为紧密耦接至所述阵列的部件，以及其中，所述第一网络通道耦接在所述呈现器与所述阵列之间，并且所述第二网络通道耦接在所述麦克风与所述校准部件之间。

(26)根据(22)所述的方法，还包括将配置参数存储在与所述能够独立寻址的驱动器的阵列相关联的存储器中，并且其中，所述第二网络通道传输选自由驱动器标识、驱动器位置信息、驱动器类型和驱动器发射方向构成的组的配置信息。

(27)根据(22)所述的方法，其中，所述呈现器被配置成根据元数据将包括音频内容的音频流呈现成与能够唯一寻址的音频驱动器的阵列对应的多个音频馈送，其中，所述元数据指定向每个相应的能够寻址的音频驱动器传输哪个单独的音频流。

(28)根据(27)所述的方法，其中，所述音频内容包括基于对象的音频信号和基于通道的音频信号。

Claims

1.一种用于在听音环境中播放音频内容的扬声器系统，所述扬声器系统包括：

箱；

多个能够独立寻址的驱动器，其被放置在所述箱中，并且被配置成沿相对于所述箱的轴的至少两个不同的方向投射声音，其中，所述能够独立寻址的驱动器的阵列包括上射式驱动器，所述上射式驱动器被配置为在声音到达所述听音环境中的听者之前将该声音从所述听音环境的天花板反射开，以模拟所述听音环境的所述天花板处的扬声器的存在；其中，所述上射式驱动器的倾斜度是可调的；以及

局部呈现部件，其被设置在所述箱内，并且被配置成从中央处理器接收音频流，并且生成扬声器馈送信号以传输至多个所述能够独立寻址的驱动器；其中，所述音频流包括基于对象的音频信号；其中，所述局部呈现部件包括虚拟器，所述虚拟器被配置为基于所述基于对象的音频信号的空间再现信息来得出用于所述上射式驱动器的扬声器馈送信号。

2.根据权利要求1所述的扬声器系统，还包括：麦克风，其被配置成测量空间的声学特性。

3.根据权利要求1所述的扬声器系统，其中，所述多个能够独立寻址的驱动器中的至少一个驱动器包括以下之一：侧射式驱动器和前射式驱动器。

4.根据权利要求1所述的扬声器系统，其中，所述上射式驱动器被定向成使得主要以相对于所述箱的水平轴的45度至90度之间的角度传播声波。

5.根据权利要求1所述的扬声器系统，其中，所述箱实现为条形箱，以及其中，所述多个能够独立寻址的驱动器中的至少一个驱动器包括高分辨率中央通道驱动器。

6.根据权利要求1所述的扬声器系统，其中，根据由将所述扬声器系统耦接至呈现器的双向互连支持的网络协议唯一地识别每个能够独立寻址的驱动器。