CN104604253B

CN104604253B - 用于处理音频信号的系统和方法

Info

Publication number: CN104604253B
Application number: CN201380045333.XA
Authority: CN
Inventors: J·B·兰多; M·费勒斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-08-31
Filing date: 2013-08-26
Publication date: 2016-11-30
Anticipated expiration: 2033-08-26

Abstract

描述了用于在收听环境中渲染空间音频内容的系统的实施例。该系统包括配置为生成包括规定收听区域内回放位置的信息在内的多个音频声道的渲染部件，接收这多个音频声道并且为每个音频声道生成配置为使驱动器能量的大部分从收听区域的一个或多个表面反射离开的至少一个反射子声道以及配置为使驱动器能量的大部分直接传播到回放位置的至少一个直接子声道的上混器部件。

Description

用于处理音频信号的系统和方法

对相关申请的交叉引用

本申请要求于2012年8月31日提交的美国临时专利申请No.61/695,998的优先权，该申请的全部内容通过引用被结合于此。

技术领域

一种或多种实现方式一般而言涉及音频信号处理，并且更具体而言涉及用于渲染(render)通过可单独寻址的驱动器的反射和直接音频的上混(upmix)系统。

背景技术

背景技术部分中所讨论的主题不应当仅仅由于其在背景技术部分中提到就被假设为是现有技术。类似地，在背景技术部分中提到或者与背景技术部分的主题关联的问题不应当被假设为之前在现有技术中已经认识到。背景技术部分中的主题仅仅代表不同的方法，它们本身也可以是发明。

电影院声迹(sound track)通常包括许多对应于屏幕上的图像、对话、噪音和源自屏幕上不同地方的声音效果的不同声音元素，并且与背景音乐和环境效果相结合以创建整体观众体验。准确的回放需要声音关于声音源位置、强度、运动和深度以尽可能接近屏幕上所显示内容的方式再现。传统的基于声道的音频系统以扬声器馈送的形式向回放环境中的各个扬声器发送音频内容。数字电影院的引入已经对电影院声音创建了新的标准，诸如多个音频声道的结合以允许内容创建者的更大创造性，以及对观众来说更包围和现实的听觉体验。超越作为分发空间音频的手段的传统扬声器馈送和基于声道的音频是关键的，并且对基于模型的音频描述已经有相当大的兴趣，这种音频描述允许收听者选择具有专门为他们选择的配置渲染的音频的期望的回放配置。为了进一步改善收听者体验，在真正三维(“3D”)或虚拟3D环境中声音的回放已经变成加大研究和开发的领域。声音的空间给出利用音频对象，音频对象是具有关联的视在源位置(例如，3D坐标)、视在源宽度及其它参数的参数化源描述的音频信号。基于对象的音频可以用于许多多媒体应用，诸如数字电影、视频游戏、模拟器，并且在其中扬声器个数和它们的放置通常受相对小收听环境的边界限制或约束的家庭环境中是特别重要的。

已经开发出各种技术来改善电影院环境中的声音系统以及更准确地捕捉和再现创建者对运动画面声迹的艺术意图。例如，已经开发出下一代空间音频(也被称为“自适应音频”)格式，这种格式包括音频对象和传统的基于声道的扬声器馈送连同用于音频对象的位置元数据的混合。在空间音频解码器中，声道被直接发送到它们关联的扬声器(如果适当的扬声器存在)或者下混到现有的扬声器组，并且音频对象被解码器以灵活的方式渲染。与每个对象关联的参数化源描述，诸如3D空间中的位置轨迹，连同连接到解码器的扬声器的数目和位置一起被取为输入。然后，渲染器利用某些算法，诸如平摇法则(panning law)，跨附连的扬声器组分发与每个对象关联的音频。以这种方式，所创作的每个对象的空间意图经收听房间内存在的具体扬声器配置被最优地给出。

但是，目前的系统主要被开发成使用直接向收听区域内的收听者传播声音的正面或直接发射扬声器。这降低了可以由比直接传播而言更适合从表面反射离开的内容提供的空间效果。因此，所需要的是利用反射和直接渲染的声音提供更沉浸式或全面的空间收听体验的系统。

发明内容

描述了用于在收听环境中渲染空间音频内容的系统和方法的实施例。系统包括配置为生成多个音频声道的渲染部件，这多个音频声道包括规定各个音频声道在收听区域中的回放位置的信息；接收这多个音频声道并且为每个音频声道生成配置为使驱动器能量的大部分从收听区域的一个或多个表面反射离开的至少一个反射子声道以及配置为使驱动器能量的大部分直接传播到回放位置的至少一个直接子声道的上混器部件；及耦合到上混器部件并且包括分别使用所述至少一个反射子声道和所述至少一个直接子声道的用于使声波从一个或多个表面传播离开的至少一个反射驱动器和用于使声波直接传播到回放位置的至少一个直接驱动器的可单独寻址驱动器的阵列。在上混信号的语境下，反射的声波波形可以可选地在从具体表面反射离开与导致能量从非定向驱动器的一般漫射的从任何任意表面反射离开之间不作区分。在这后一种情况下，与这种驱动器关联的声波将理想地是没有方向的，即，它们将构成漫射波形，其是其中声音不是来自单一方向的波形。

方法包括从音频渲染器接收多个输入音频声道；在第一分解过程中把每个输入音频声道分成至少一个反射子声道和至少一个直接子声道；验证在由反射子声道和直接子声道生成的声波的传播中消耗的能量的量在第一分解过程期间守恒(conserved)；并且在后续的分解处理中进一步把每个子声道分成各个子声道直到为在收听区域内收听者周围空间成像声音获得反射和直接子声道的最优混合为止。

如本文所述的上混处理的系统和方法可以在包括更新的内容创建工具的音频格式和系统、基于包括新扬声器和声道配置的自适应音频系统的分发方法和增强用户体验以及通过为电影院声音混合者创建的先进内容创建工具套件使其成为可能的新空间描述格式当中使用。音频流(一般包括声道和对象)连同描述内容创建者或声音混合者意图的元数据一起发送，包括音频流的期望位置。位置可以表示为(来自预定义的声道配置内的)命名声道或者表示为3D空间位置信息。这种声道加对象格式提供最佳的既基于声道又基于模型的音频场景描述方法。

实施例具体地致力于用于渲染自适应音频内容的系统和方法，自适应音频内容包括反射的声音以及直接的声音，这些声音意味着要通过扬声器或者既包含直接(正面发射)驱动器又包含反射(向上或侧面发射)驱动器的驱动器阵列播放。

通过引用的结合

在本说明书中提到的每个公开物、专利和/或专利申请的全部内容都通过引用被结合于此，就好像每个个别的公开物和/或专利申请都具体地并且单独地被指示通过引用结合于此一样。

附图说明

在以下的图中，相同的标号被用来指相同的元件。虽然以下的图绘出了各种例子，但是一个或多个实现方式不限于图中所绘出的例子。

图1图示出在提供高度扬声器用于高度声道回放的环绕系统(例如，9.1环绕)中的示例扬声器放置。

图2图示出根据一实施例的用于产生自适应音频混合的基于声道和对象的数据的组合。

图3是根据一实施例用在自适应音频系统中的回放体系架构的框图。

图4A是图示出根据一实施例的修改基于电影院的音频内容使其适应在收听环境中使用的功能部件的框图。

图4B是根据一实施例的图4A部件的详细框图。

图4C是根据一实施例的自适应音频环境的功能部件的框图。

图4D图示出根据一实施例的其中渲染功能的一部分在扬声器单元中执行的分布式渲染系统。

图5图示出自适应音频系统在示例家庭影院环境中的部署。

图6图示出在家庭影院中向上发射驱动器利用反射的声音模拟头顶扬声器的使用。

图7A图示出根据一实施例的具有多个处于第一配置的驱动器的扬声器，该扬声器在具有反射声音渲染器的自适应音频系统中使用。

图7B图示出根据一实施例的具有在多个外壳中分布的驱动器的扬声器系统，该扬声器系统在具有反射声音渲染器的自适应音频系统中使用。

图7C图示出根据一实施例的用于在利用反射声音渲染器的自适应音频系统中使用的条形音箱(soundbar)的示例配置。

图8图示出放在收听室内的具有包括向上发射驱动器的可单独寻址驱动器的扬声器的示例放置。

图9A图示出根据一实施例的用于自适应音频5.1系统的扬声器配置，其中该系统对反射的音频利用多个可寻址的驱动器。

图9B图示出根据一实施例的用于自适应音频7.1系统的扬声器配置，其中该系统对反射的音频利用多个可寻址的驱动器。

图10是图示出根据一实施例的双向互连的组成的图。

图11图示出根据一实施例的用在自适应音频系统中的自动配置与系统校准处理。

图12是图示出根据一实施例的用于在自适应音频系统中使用的校准方法的处理步骤的流程图。

图13图示出自适应音频系统在示例电视和条形音箱用例中的使用。

图14图示出根据一实施例的自适应音频系统中三维双耳耳机虚拟化的简化表示。

图15是图示出根据一实施例的用在自适应音频系统中的某些元数据定义的表，其中该音频系统对收听环境使用反射声音渲染器。

图16是图示出根据一实施例的把输入声道分割成子声道的处理的流程图。

图17图示出根据一实施例的把多个音频声道处理成多个反射和直接子声道的处理的上混器系统。

图18是图示出根据一实施例的把输入声道分解成子声道的处理的流程图。

具体实施方式

描述了用于基于把音频声道分解成在自适应音频系统中使用的反射和直接子声道的上混器的系统和方法，其中自适应音频系统渲染反射的声音以供在收听环境中创建空间音频效果，但是本申请不限于此。本文所述的一种或多种实施例的各方面可以在音频或音频-视觉系统中实现，这种系统在包括执行软件指令的一个或多个计算机或处理设备的混合、渲染和回放系统中处理源音频信息。任何所述实施例都可以单独地或者以任意组合彼此一起使用。虽然各种实施例可能是由现有技术中的各种缺陷引发的，这些缺陷可能在说明书的一处或多处讨论或提到，但是所述实施例不一定解决这些缺陷中的任何缺陷。换句话说，不同的实施例可以解决可能在说明书中讨论的不同缺陷。有些实施例可以只部分地解决在说明书中讨论的一些缺陷或者仅一个缺陷，并且有些实施例可以不解决这些缺陷中的任何缺陷。

出于本说明书的目的，以下术语具有关联的意义：术语“声道”指音频信号+元数据，其中位置被编码为声道标识符，例如，左前或右上环绕；“基于声道的音频”是为了通过具有关联标称位置的预定义扬声器区的组，例如5.1、7.1等，回放而格式化的音频；术语“对象”或“基于对象的音频”指具有参数化源描述(诸如视在源位置(例如，3D坐标)、视在源宽度等)的一个或多个音频声道；“自适应音频”指基于声道的和/或基于对象的音频信号+元数据，它基于回放环境利用音频流加上其中位置被编码为空间中的3D位置的元数据来渲染音频信号；并且“收听环境”指任何开放的、部分封闭的或者完全封闭的区域，诸如可以用于音频内容单独地或者与视频或其它内容一起回放的房间，并且可以在家、电影院、剧场、礼堂、工作室、游戏控制台等当中体现。这种区域可以具有部署在其中的一个或多个表面，诸如可以直接或漫射地反射声波的墙壁或隔板。

自适应音频格式和系统

在一实施例中，用于把音频声道分解成反射和直接子声道的上混器可以在如下音频系统中使用，该音频系统配置为与可以被称为“空间音频系统”或“自适应音频系统”的声音格式化和处理系统一起使用。这种系统基于音频格式化和渲染技术来允许增强的听众沉浸感、更好的艺术控制以及系统灵活性和伸缩性。整个自适应音频系统一般包括配置为生成一个或多个既包含常规的基于声道的音频元素又包含音频对象编码元素的位流的音频编码、分发和解码系统。与单独采用基于声道或基于对象的方法相比，这种组合的方法提供更大的编码效率和渲染灵活性。可以结合所给出的实施例使用的自适应音频系统的例子在于2012年4月20日提交且标题为“System and Method for Adaptive Audio SignalGeneration，Coding and Rendering”的未决美国临时专利申请61/636,429中描述，该申请通过引用被结合于此。

自适应音频系统和关联的音频格式化的示例实现方式是Atmos^TM平台。这种系统包含可以实现为9.1环绕系统或者类似的环绕声配置的高度(上/下)维度。图1图示出在提供高度扬声器用于高度声道回放的本环绕系统(例如，9.1环绕)中的扬声器放置。9.1系统100的扬声器配置由位于地平面中的五个扬声器102和位于高度平面中的四个扬声器104组成。一般而言，这些扬声器可以用来产生设计成从房间内任何位置或多或少准确地发出的声音。预定义的扬声器配置，诸如图1中所示的配置，必然会限制准确表现给定声音源位置的能力。例如，声音源不能比左扬声器本身更进一步向左平摇。这适用于每个扬声器，因此构成一维(例如，左-右)、二维(例如，前-后)或者三维(例如，左-右、前-后、上-下)几何形状，其中下混被约束。各种不同的扬声器配置和类型可以在这种扬声器配置中使用。例如，某些增强的音频系统可以使用处于9.1、11.1、13.1、19.4或其它配置的扬声器。扬声器类型可以包括全方位直接扬声器、扬声器阵列、环绕扬声器、低音炮、高音喇叭以及其它类型的扬声器。

音频对象可以被认为是可以被感觉到从收听环境中特定的一个或多个物理位置发出的声音元素的组。这种对象可以是静态的(即，固定的)或者动态的(即，运动的)。音频对象由定义声音在给定时间点的位置连同其它功能的元数据控制。当对象被回放时，它们利用存在的扬声器根据位置元数据被渲染，而不一定输出到预定义的物理声道。会话中的音轨可以是音频对象，并且标准的平摇数据与位置元数据类似。以这种方式，放在屏幕上的内容可以有效地以与基于声道的内容相同的方式平摇，但是，如果期望，则放在周围的内容可以渲染到个别的扬声器。虽然音频对象的使用提供对离散效果的期望控制，但是声迹的其它方面可以有效地在基于声道的环境中工作。例如，许多环境效果或回响实际上得益于馈送到扬声器阵列。虽然这些可以被看作具有足够宽度以填充阵列的对象，但是保留一些基于声道的功能性是有益的。

自适应音频系统被配置为除了音频对象之外还支持“声床”，其中声床是有效地基于声道的子混合或声干。依赖于内容创建者的意图，这些可以为了最终的回放(渲染)而或者单独地或者组合地递送到单个声床中。这些声床可以在不同的基于声道的配置，诸如5.1、7.1和9.1，以及包括头顶扬声器的阵列，诸如图1中所示的阵列，中创建。图2图示出根据一实施例的基于声道和对象的数据的组合，以产生自适应音频混合。如在处理200中所示，基于声道的数据202与音频对象数据204组合，以产生自适应音频混合208，其中基于声道的数据202例如可以是以脉冲编码调制(PCM)数据形式提供的5.1或7.1环绕声数据。音频对象数据204通过组合原始的基于声道的数据与关联的规定关于音频对象位置的某些参数的元数据而产生。如在图2中概念性示出的，创作工具提供创建同时包含扬声器声道组和对象声道的组合的音频节目的能力。例如，音频节目可以包含一个或多个可选地组织成组(或者音轨，例如立体声或5.1音轨)的扬声器声道、用于一个或多个扬声器声道的描述性元数据、一个或多个对象声道、以及用于一个或多个对象声道的描述性元数据。

自适应音频系统有效地超越了作为分发空间音频的手段的简单“扬声器馈送”，并且已经开发出高级的基于模型的音频描述，该音频描述允许收听者自由地选择适合他们的个体需求或预算的回放配置并且让音频专门为它们个别选择的配置进行渲染。在高层面，存在四种主要的空间音频描述格式：(1)扬声器馈送，其中音频被描述为预期用于位于标称扬声器位置的喇叭的信号；(2)麦克风馈送，其中音频被描述为由处于预定义配置(麦克风的数目及它们的相对位置)的实际或虚拟麦克风捕捉的信号；(3)基于模型的描述，其中音频是依据在所描述时间和位置的一系列音频事件描述的；及(4)双耳，其中音频由到达收听者的两只耳朵的信号描述。

这四种描述格式常常与以下常见的渲染技术关联，其中术语“渲染”指到用作扬声器馈送的电信号的转换：(1)平摇(panning)，其中音频流被利用一组平摇法则和已知的或假设的扬声器位置转换成扬声器馈送(通常在分发之前渲染)；(2)高保真度立体声响复制(Ambisonics)，其中麦克风信号被转换成用于喇叭的可缩放阵列的馈送(通常在分发之后渲染)；(3)波场合成(WFS)，其中声音事件被转换成适当的扬声器信号，以合成声场(通常在分发之后渲染)；及(4)双耳，其中L/R双耳信号被递送到L/R耳朵，通常是通过耳机，但是也结合串音消除通过扬声器。

一般而言，任何格式都可以转换成另一种格式(但是这可能需要盲源分离或类似的技术)并且利用以上提到的任何技术渲染；但是，不是所有变换都在实践中产生好的结果。扬声器馈送格式是最常见的，因为它既简单又有效。最佳声音结果(即，最准确和可靠的)是通过混合/监视然后直接分发扬声器馈送来实现的，因为在内容创建者与收听者之间不需要处理。如果回放系统是事先已知的，则扬声器馈送描述提供最高保真度；但是，回放系统及其配置常常不是事先已知的。相反，基于模型的描述是最有适应性的，因为它不对回放系统进行假设并且因此最容易应用到多种渲染技术。基于模型的描述可以高效地捕捉空间信息，但是当音频源的数目增加时变得非常低效。

自适应音频系统结合了基于声道和模型的系统的益处，其具体的益处包括高音色质量、当利用相同的声道配置混合和渲染时艺术意图的最佳再现、向下适应到渲染配置的单个清单(inventory)、对系统管道的相对低的影响以及经更精细的水平扬声器空间分辨率和新高度声道的增加沉浸。自适应音频系统提供了几个新特征，包括：对具体电影院渲染配置的向下和向上适应的单个清单，即，延迟渲染以及可用扬声器在回放环境中的最优使用；增加的包络，包括优化的下混，以避免声道间相关(ICC)伪像；经引导通过阵列的增加的空间分辨率(例如，允许音频对象动态分配给环绕阵列中的一个或多个喇叭)；及经高分辨率中心或相似的扬声器配置的增加的正面声道分辨率。

音频信号的空间效果在对收听者提供沉浸式体验时是关键的。意味着从观看屏幕或房间的具体区域发出的声音应当通过位于相同相对位置的扬声器播放。因而，基于模型的描述中声音事件的主要音频元数据是位置，但是诸如尺寸、朝向、速度和声弥散的其它参数也可以被描述。为了传达位置，基于模型的3D音频空间描述需要3D坐标系统。用于传输的坐标系统(例如，欧几里德、球形、圆柱形)一般是为了方便或紧凑而选择的；但是，其它坐标系统也可用于渲染处理。除了坐标系统，还需要参照系(reference frame)用于表示对象在空间中的位置。为了让系统在各种不同的环境中准确地再现基于位置的声音，选择合适的参照系会是关键的。利用非自我中心的参照系，音频源位置是相对于渲染环境中的特征，诸如房间的墙壁和角落、标准扬声器的位置以及屏幕位置，定义的。在自我中心的参照系中，位置是关于收听者的视角表示的，诸如“在我前面”、“稍左”等。空间感知(音频以及其它)的科学研究已经显示，自我中心视角最普遍地被使用。但是，对于电影院，非自我中心的参照系一般而言更适当。例如，音频对象的精确位置在屏幕上存在相关联对象的时候最重要。当使用非自我中心的参照时，对于每个收听位置并且对于任何屏幕尺寸，声音都将定位在屏幕上相同的相对位置，例如，“屏幕中间左三分之一”。另一个原因是混合者趋于按非自我中心的方式思考和混合，并且平摇工具关于非自我中心框架(即，房间的墙壁)铺设，并且混合者期望它们以如下方式被渲染，例如，“这个声音应当在屏幕上”、“这个声音应当不在屏幕上”或者“来自左边的墙壁”，等等。

除了非自我中心参照系在电影院环境中的使用，还存在一些自我中心参照系可能有用并且更适当的情况。这些包括非剧情(non- diegetic)声音，即，在“故事空间”中不存在的那些声音，例如，心情音乐，对此而言，自我中心的统一给出可能是期望的。另一种情况是需要自我中心表现的近场效果(例如，在收听者左耳内嗡嗡响的蚊子)。此外，无限远的声音源(以及结果产生的平面波)可以看起来来自恒定的自我中心位置(例如，左边30度)，并且，与非自我中心相比，这种声音更容易以自我为中心来描述。在有些情况下，只要定义了标称收听位置就有可能使用非自我中心的参照系，而有些例子需要还不可能渲染的自我中心表现。虽然非自我中心的参照可能更有用和合适，但是音频表现应当是可扩展的，因为许多新特征，包括自我中心表现，在某些应用和收听环境中可能更期望。

自适应音频系统的实施例包括混合式空间描述方法，该方法包括用于最优保真度和用于漫射或复杂的多点源(例如，体育场人群、环境)的渲染的推荐声道配置，这种配置利用自我中心参照加上非自我中心的基于模型的声音描述来有效地启用增加的空间分辨率和伸缩性。图3是根据一实施例的用在自适应音频系统中的回放体系架构的框图。图3的系统包括在音频发送到后期处理和/或放大和扬声器级之前执行传统的对象和声道音频编码、对象渲染、声道重映射和信号处理的处理块。

回放系统300配置为渲染和回放通过一个或多个捕捉、预处理、创作和编码部件生成的音频内容。自适应音频预处理器可以包括通过输入音频的分析自动生成适当元数据的源分离和内容类型检测功能性。例如，位置元数据可以通过声道对之间相关输入的相对水平的分析从多声道记录得出。内容类型的检测，诸如语音或音乐，可以通过例如特征提取和归类来实现。某些创作工具允许通过优化声音工程师的创意的输入和编码来对音频节目进行创作，从而一旦在实际上任何回放环境中对回放优化之后就允许他创建最终的音频混合。这可以通过与原始音频内容关联并且被编码的音频对象和位置数据的使用来实现。为了准确地绕着礼堂放置声音，声音工程师需要基于回放环境的实际约束和特征对声音最终将如何渲染进行控制。自适应音频系统通过允许声音工程师改变音频内容如何通过音频对象和位置数据的使用被设计和混合来提供这种控制。一旦自适应音频内容已经在适当的编解码器设备中创作并编码，就在回放系统300的各种部件中被解码和渲染。

如图3中所示，(1)传统的环绕声音频302、(2)包括对象元数据的对象音频304及(3)包括声道元数据的声道音频306输入处理块310中的解码器级308、309。对象元数据在对象渲染器312中被渲染，而声道元数据可以在必要时重新映射。房间配置信息307提供给对象渲染器和声道重新映射部件。然后，混合式音频数据在输出到B-链处理级316之前通过一个或多个信号处理级被处理，诸如均衡器和限制器314，并且通过扬声器318回放。系统300表示用于自适应音频的回放系统的例子，并且其它配置、部件和互连也是可能的。

图3的系统图示出其中渲染器包括对输入的音频声道应用对象元数据以便结合可选的基于声道的音频内容处理基于对象的音频内容的部件的实施例。实施例还可以针对其中输入音频声道仅包括传统的基于声道的内容的情况，并且渲染器包括生成用于传输到处于环绕声配置的驱动器阵列的扬声器馈送的部件。在这种情况下，输入不必是基于对象的内容，而是传统的5.1或7.1(或其它不基于对象的)内容，诸如在Dolby Digital^TM和DolbyDigital Plus^TM或类似系统中提供的。

回放应用

如以上所提到的，自适应音频格式和系统的最初实现方式是在包括内容捕捉(对象和声道)的数字电影院(D-电影院)语境中，其中的内容捕捉用新颖的创作工具创作，利用自适应音频电影院编码器打包，并且利用现有的数字影院倡导联盟(DCI)分发机制利用PCM或专用无损编解码器分发。在这种情况下，音频内容要在数字电影院中被解码和渲染，以创建沉浸式的空间音频电影院体验。但是，就像关于之前的电影院改进，诸如模拟环绕声、数字多声道音频等，把由自适应音频格式提供的增强的用户体验直接递送给处于其家中的用户是势在必行的。这需要对格式和系统的某些特性进行修改，以便在更有限的收听环境中使用。例如，与电影院或剧场环境相比，家、房间、小礼堂或类似的地方可能具有减小的空间、声学性质以及装备能力。为了描述，术语“基于消费者的环境”是要包括任何非电影院的环境，其中这种环境包括用于由普通消费者或专业人士使用的收听环境，诸如房屋、工作室、房间、控制台区域、礼堂等。音频内容可以单独地起源和渲染或者它可以与图形内容，诸如静止画面、灯光显示、视频等，关联。

图4A是图示出根据一实施例的用于修改基于影院的音频内容使其适合在收听环境中使用的功能部件的框图。如图4A中所示出的，在方框402中，通常包括运动画面声迹的电影院内容利用适当的装备和工具被捕捉和/或创作。在方框404中，在自适应音频系统中，这个内容通过编码/解码和渲染部件及接口被处理。然后，结果产生的对象和声道音频馈送发送到电影院或剧场中适当的扬声器，406。在系统400中，电影院内容还为了在收听环境，诸如家庭影院系统，416中回放而被处理。假设收听环境由于有限的空间、减小的扬声器计数等而不像内容创作者预期的那样全面或者能够再现所有的声音内容。但是，实施例针对允许原始音频内容以最小化由收听环境减小的能力强加的约束的方式被渲染并且允许位置线索以最大化可用装备的方式被处理的系统和方法。如图4A中所示，电影院音频内容通过电影院到消费者翻译器部件408被处理，其中，它在消费者内容编码和渲染链414中被处理。这个链还处理在方框412中被捕捉和/或创作的原始音频内容。然后，原始内容和/或翻译后的电影院内容在收听环境416中被回放。以这种方式，在音频内容中编码的相关的空间信息可以用来以更沉浸的方式渲染声音，甚至使用家庭或收听环境416的可能有限的扬声器配置。

图4B更具体地图示出图4A的部件。图4B图示出贯穿整个消费者生态系统用于自适应音频电影院内容的示例分发机制。如图420中所示，原始的电影院和TV内容被捕捉422和创作423，用于在各种不同环境中回放，以提供电影院体验427或收听环境体验434。同样，某些用户生成的内容(UGC)或消费者内容被捕捉423和创作425，用于在收听环境434中回放。用于在电影院环境427中回放的电影院内容通过已知的电影院处理426被处理。但是，在系统420中，电影院创作工具箱423的输出还包括传达声音混合者的艺术意图的音频对象、音频声道和元数据。这可以被想作是可以用来创建用于回放的影院内容的多个版本的夹层风格(mezzanine style)音频包。在一实施例中，这种功能性是由电影院到消费者自适应音频翻译器430提供的。这种翻译器具有到自适应音频内容的输入并且从其提取用于期望的消费者端点434的适当音频和元数据内容。翻译器依赖于消费者分发机制和端点创建独立的，并且有可能不同的，音频和元数据输出。

如系统420的例子中所示，电影院到消费者自适应音频翻译器430给画面(例如，广播、盘、OTT等)和游戏音频位流创建模块428馈送声音。适于递送电影院内容的这两个模块可以馈送到多个分发管道432中，所有这些管道都可以递送到消费者端点。例如，自适应音频电影院内容可以利用适于广播目的的编解码器，诸如DolbyDigital Plus，编码，其中内容可以被修改，以传达声道、对象和关联的元数据，并且经电缆或卫星发送通过广播链，然后在家中被解码和渲染，用于家庭影院或电视回放。类似地，相同的内容可以利用适于其中带宽受限的在线分发的编解码器来编码，然后通过3G或4G移动网络发送，然后被解码和渲染，用于利用耳机经移动设备回放。诸如TV、现场直播、游戏和音乐等其它内容源也可以使用自适应音频格式来创建并提供用于下一代音频格式的内容。

图4B的系统贯穿整个音频生态系统提供增强的用户体验，其中音频生态系统可以包括家庭影院(例如，A/V接收器、条形音箱和BluRay)、E-媒体(例如，PC、平板、包括耳机回放的手机)、广播(例如，TV和机顶盒)、音乐、游戏、现场声音、用户生成的内容，等等。这种系统提供：对于所有端点设备的听众的增强沉浸感、用于音频内容创建者的扩大的艺术控制、用于改进的渲染的改进的依赖内容的(描述性的)元数据、用于回放系统的扩大的灵活性和伸缩性、音色保持和匹配以及用于基于用户的位置和交互对内容进行动态渲染的机会。该系统包括几个部件，包括用于内容创建者的新混合工具、更新后的以及新的用于分发和回放的打包和编码工具、家用动态混合和渲染(适于不同配置)、附加的扬声器位置和设计。

自适应音频生态系统配置为利用自适应音频格式的全面综合的、端到端的下一代音频系统，该系统包括跨很多个端点设备和用例的内容创建、打包、分发和回放/渲染。如图4B中所示，系统以从多个不同用例捕捉并用于其的内容，422和424，发起。这些捕捉点包括全部相关的内容格式，包括电影院、TV、现场直播(和声音)、UGC、游戏和音乐。当内容经过生态系统时，它通过几个关键阶段，诸如预处理和创作工具、翻译工具(即，用于电影院的自适应音频内容到消费者内容分发应用的翻译)、具体的自适应音频打包/位流编码(这捕捉音频要素数据以及附加的元数据和音频再现信息)、利用现有的或新的编解码器(例如，DD+^TM、TrueHD、Dolby Pulse^TM)用于通过各种音频声道的有效分发的分发编码、通过相关分发声道(例如，广播、盘、手机、因特网等)的发送以及最后端点意识到动态渲染，以再现和传达由内容创建者定义的提供空间音频体验的益处的自适应音频用户体验。自适应音频系统可以在用于很多种消费者端点的渲染期间使用，并且所应用的渲染技术可以依赖于端点设备而被优化。例如，家庭影院系统和条形音箱可以具有位于各个位置的2、3、5、7或者甚至9个独立的扬声器。许多其它类型的系统只有两个扬声器(例如，TV、膝上型电脑、音乐对接站(dock))并且几乎所有常用的设备都具有耳机输出(例如，PC、膝上型电脑、平板电脑、手机、音乐播放器等)。

当前用于消费者音频的创作和分发系统创建并递送要利用在音频要素中传达的内容类型的有限知识再现到预定义和固定扬声器位置的音频(即，由再现系统回放的实际音频)。但是，自适应音频系统对音频创建提供新的混合式方法，该方法既包括用于依固定扬声器位置而定的音频(左声道、右声道等)的选项又包括用于具有包括位置、尺寸和速度的一般化3D空间信息的基于对象的音频元素的选项。这种混合式方法提供用于保真度(由固定扬声器位置提供)和渲染的灵活性(一般化的音频对象)的平衡方法。这种系统还在内容创建/创作时由内容创建者经与音频要素配对的新元数据提供关于音频内容的附加有用信息。这种信息提供关于可在渲染期间使用的音频的属性的详细信息。此类属性可以包括内容类型(例如，对话、音乐、效果、Foley、背景/环境等)以及诸如空间属性(例如，3D位置、对象尺寸、速度等)和有用的渲染信息(例如，抓取到(snap to)扬声器位置、声道权重、增益、低音管理信息等)的音频对象信息。音频内容和再现意图元数据可以或者由内容创建者手动创建，或者通过自动的媒体智能算法的使用创建，该算法可以在创作处理期间在后台运行并且如果期望的话在最终的质量控制阶段期间由内容创建者检查。

图4C是根据一实施例的自适应音频环境的功能部件的框图。如图450中所示，系统处理既承载混合式对象又承载基于声道的音频流的编码位流452。位流由渲染/信号处理块454处理。在一实施例中，这个功能块的至少部分可以在图3中图示的渲染块312中实现。渲染功能454实现各种用于自适应音频的渲染算法，以及某些后期处理算法，诸如上混、处理直接对反射的声音等等。来自渲染器的输出通过双向互连456提供给扬声器458。在一实施例中，扬声器458包括可以布置在环绕声或类似配置中的多个单独驱动器。驱动器可单独寻址并且可以嵌入在单独的外壳或多驱动器柜或阵列中。系统450还可以包括提供房间特性的测量的麦克风460，这种测量可以用来校准渲染处理。系统配置和校准功能在方框462中提供。这些功能可以作为渲染部件的一部分包括，或者它们可以实现为功能耦合到渲染器的独立部件。双向互连456提供从扬声器环境(收听室)返回到校准部件462的反馈信号路径。

分布式/集中式渲染

在一实施例中，渲染器454包括嵌入在与网络关联的中央处理器中的功能处理。作为替代，渲染器可以包括至少部分地由位于可单独寻址音频驱动器阵列的每个驱动器中或耦合到其的电路系统执行的功能处理。在集中式处理的情况下，渲染数据以经各个音频声道发送的音频信号的形式发送到各个驱动器。在分布式处理实施例中，中央处理器可以不执行渲染，或者利用在驱动器中执行的最终渲染对音频数据执行至少一些部分渲染。在这种情况下，要求通电的扬声器/驱动器启用板上处理功能。一个示例实现方式是具有集成麦克风的扬声器的使用，其中渲染基于麦克风数据被修改并且在扬声器本身当中进行调整。这消除了为了校准和/或配置目的而把麦克风信号发送回中央渲染器的需求。

图4D图示出根据一实施例的分布式渲染系统，其中渲染功能的一部分是在扬声器单元中执行的。如图470中所示，编码的位流471输入到包括部分渲染部件的信号处理级472。部分渲染器可以执行任何适当比例的渲染功能，诸如或者完全不渲染或者渲染高达50％或75％。然后，原始的编码位流或部分渲染的位流经互连476发送到扬声器472。在这种实施例中，扬声器自供电单元包含驱动器和直接电源连接或板上电池。扬声器单元472还包含一个或多个集成的麦克风。渲染器和可选的校准功能474也集成在扬声器单元472中。如果部分渲染器472执行渲染，则依赖于部分渲染器472执行了多少渲染，渲染器474对编码的位流执行最终的或完全的渲染操作。在完全分布式的实现方式中，扬声器校准单元474可以使用由麦克风产生的声音信息来直接对扬声器驱动器472执行校准。在这种情况下，互连476可以是仅仅单向互连。在备选的或者部分分布式实现方式中，集成的或其它麦克风可以把声音信息提供返回与信号处理级472关联的可选的校准单元473。在这种情况下，互连476是双向互连。

收听环境

自适应音频系统的实现方式意欲在各种不同环境中部署。这些包括三个主要的应用领域：完全电影院或家庭影院系统，电视和条形音箱，以及耳机。图5图示出自适应音频系统在示例电影院或家庭影院环境中的部署。图5的系统图示出可以由自适应音频系统提供的部件和功能的超集，并且某些方面可以基于用户的需求减小或去除，同时仍然提供增强的体验。系统500包括位于各种不同柜或阵列504中的各种不同的扬声器和驱动器。扬声器包括提供正面、侧面和向上发出选项的个别驱动器，以及利用某些音频处理技术的音频的动态虚拟化。图500图示出部署在标准9.1扬声器配置中的多个扬声器。这些包括左和右高度扬声器(LH、RH)、左和右扬声器(L、R)、中置扬声器(示为改进的中置扬声器)，以及左和右环绕和后置扬声器(LS、RS、LB和RB，低频元件LFE未示出)。

图5图示出用在房间或剧场的中央位置的中央声道扬声器510的使用。在一实施例中，这种扬声器是利用改进的中央声道或高分辨率中央声道510实现的。这种扬声器可以是具有可单独寻址的扬声器的正面发射中央声道阵列，这通过匹配屏幕上视频对象的运动的阵列来允许音频对象的离散平摇。这可以体现为还可以包括侧面发射扬声器的高分辨率中央声道(HRC)扬声器。如果HRC扬声器不仅被用作中置扬声器而且被用作具有条形音箱能力的扬声器，则这些可以被激活并使用。HRC扬声器还可以结合到屏幕502的上方和/或侧面，以便为音频对象提供二维的高分辨率平摇选项。中置扬声器510还可以包括附加的驱动器并且关于独立受控的声音区实现可转向的声束。

系统500还包括可以位于听众右前方或者靠近其前方的近场效果(NFE)扬声器512，诸如在座位前面的桌子上。利用自适应音频，有可能把音频对象带入房间内并且不让它们简单地锁定到房间的周界。因此，让对象穿过三维空间是个选项。一个例子是对象可以源自L扬声器、通过NFE扬声器穿过房间，并且在RS扬声器中终止。各种不同的扬声器可以适于用作NFE扬声器，诸如无线的、电池供电的扬声器。

图5图示出动态扬声器虚拟化对在收听环境中提供沉浸式用户体验的使用。动态扬声器虚拟化是通过基于由自适应音频内容提供的对象空间信息对扬声器虚拟化算法参数的动态控制启用的。这种动态虚拟化在图5中对L和R扬声器示出，其中在创建对象沿房间侧面移动的感觉方面考虑它是自然的。独立的虚拟化器可以用于每个相关的对象并且组合的信号可以发送到L和R扬声器，以创建多个对象虚拟化效果。动态虚拟化效果对L和R扬声器以及NFE扬声器示出，其中NFE扬声器是要作为立体声扬声器(具有两个独立的输入)。这种扬声器，连同音频对象尺寸和位置信息，可以被用来创建漫射或点源近场音频体验。类似的虚拟化效果也可以应用到系统中任何或全部其它扬声器。在一实施例中，照相机可以提供附加的收听者位置和身份信息，这些信息可以被自适应音频渲染器用来提供更逼近混合者艺术意图的更引人注目的体验。

自适应音频渲染器理解混合者和回放系统之间的空间关系。在回放环境的一些实例中，离散的扬声器可以在房间的所有相关区域获得，包括头顶位置，如图1中所示。在离散的扬声器在某些位置可用的这些情况下，渲染器可以配置为把对象“抓取”到最近的扬声器，而不是通过平摇或者扬声器虚拟化算法的使用在两个或更多个扬声器之间创建幻像。虽然它使混合的空间表示稍微变形，但是它也允许渲染器避免不期望的幻影图像。例如，如果混合级的左扬声器的角位置不对应于回放系统的左扬声器的角位置，则启用这种功能将避免具有初始左声道的恒定幻像。

在许多情况下，某些扬声器，诸如天花板安装的头顶扬声器，是不可用的。在这种情况下，某些虚拟化技术由渲染器实现，以通过现有的地板或墙壁安装的扬声器再现头顶音频内容。在一实施例中，通过对每个扬声器既包括正面发射能力又包括顶部(或“向上”)发射能力，自适应音频系统包括对标准配置的修改。在传统的家庭应用中，扬声器制造商已经尝试除正面发射换能器之外还引入新的驱动器配置并且已经面临设法识别哪些原始音频信号(或对其的修改)应当发送到这些新驱动器的问题。利用自适应音频系统，存在关于哪些音频对象应当在标准水平面之上渲染的非常具体的信息。在一实施例中，自适应音频系统中存在的高度信息利用向上发射驱动器渲染。

同样，侧面发射扬声器可以用来渲染某些其它内容，诸如环境效果。侧面发射驱动器还可以用来渲染某些反射的内容，诸如从收听室的墙壁或其它表面反射离开的声音。

向上发射驱动器的一个优点是它们可以被用来把声音从硬天花板表面反射离开，以模拟位于天花板中的头顶/高度扬声器的存在。自适应音频内容的引人注目的属性是空间中变化的音频利用头顶扬声器的阵列再现。但是，如上所述，在许多情况下，在家庭环境中安装头顶扬声器太过昂贵或者不现实。通过利用在水平面中一般定位的扬声器模拟高度扬声器，引人注目的3D体验可以通过轻松定位扬声器来创建。在这种情况下，自适应音频系统以新的方式利用向上发射/高度模拟驱动器，因为音频对象及其空间再现信息被用来创建由向上发射驱动器再现的音频。这个相同的优点可以在尝试通过使用侧面发射扬声器提供更沉浸式的体验时实现，其中侧面发射扬声器把声音从墙壁反射离开，以产生某些回响效果。

图6图示出家庭影院中利用反射的声音模拟单个头顶扬声器的向上发射驱动器的使用。应当指出，任何数量的向上发射驱动器都可以结合使用，以创建多个模拟的高度扬声器。作为替代，多个向上发射驱动器可以配置为把声音发送到天花板上相同的点，以实现某个声音强度或效果。图600图示出其中通常的收听位置602位于房间内特定位置的例子。该系统不包括用于发送包含高度线索的音频内容的任何高度扬声器。作为替代，扬声器柜或扬声器阵列604包括向上发射驱动器连同一个或多个正面发射驱动器。向上发射驱动器配置为(关于位置和入射角)把其声波606向上发送到天花板608上特定的点，在那里，它将被向下反射到收听位置602。假设天花板由适当的材料和成分制成，以充分把声音向下反射到房间内。向上发射驱动器的相关特性(例如，尺寸、功率、位置等)可以基于天花板成分、房间大小以及收听环境的其它相关特性来选择。虽然在图6中只示出了一个向上发射驱动器，但是，在有些实施例中，多个向上发射驱动器可以结合到再现系统中。虽然图6图示出其中示出向上发射驱动器的实施例，但是应当指出，实施例也可以针对其中使用侧面发射驱动器把声音从房间的墙壁反射离开的系统。

扬声器配置

自适应音频系统的主要考虑是扬声器配置。该系统使用可单独寻址的驱动器，并且这种驱动器的阵列配置为提供直接和反射声音源的组合。到系统控制器(例如，A/V接收器、机顶盒)的双向链路允许音频和配置数据发送到扬声器，并且允许扬声器和传感器信息发送回控制器，从而创建有效的闭环系统。

为了描述，术语“驱动器”指响应于电气音频输入信号而产生声音的单个电声换能器。驱动器可以以任何适当的类型、几何形状和尺寸实现，并且可以包括角形、锥形、带状换能器等等。术语“扬声器”指处于单一外壳中的一个或多个驱动器。图7A图示出根据一实施例的具有处于第一配置的多个驱动器的扬声器。如图7A中所示，扬声器外壳700具有安装在该外壳内的多个个别的驱动器。通常，外壳将包括一个或多个正面发射驱动器702，诸如低音喇叭、中音喇叭、高音喇叭或者其任意组合。一个或多个侧面发射驱动器704也可以包括在内。正面和侧面发射驱动器通常安装成与外壳的侧面齐平，使得它们从由扬声器定义的垂直平面向外垂直地投射声音，并且这些驱动器通常永久性地固定在柜700中。对于特征在于反射声音的渲染的自适应音频系统，还可以提供一个或多个向上倾斜的驱动器706。这些驱动器定位成使得它们向上朝天花板以一角度投射声音，在那里，声音可以向下回弹到收听者，如图6中所示。倾斜程度可以依赖于房间特性和系统需求而设置。例如，向上的驱动器706可以向上倾斜30和60度之间并且可以在扬声器外壳700中的正面发射驱动器702上方定位，从而最小化从正面发射驱动器702产生的声波的干扰。向上发射驱动器706可以安装在固定的角度，或者它可以安装成使得倾斜角可以手动调整。作为替代，伺服机制可以用来允许对向上发射驱动器的倾斜角和投射方向的自动或电气控制。对于某些声音，诸如环境声音，向上发射驱动器可以从扬声器外壳700的上表面直接向上指出去，以创建可以被称为“顶部发射”驱动器的驱动器。在这种情况下，依赖于天花板的声学特性，声音的大部分可以向下反射回到扬声器上。但是，在大部分情况下，某个倾斜角通常用来通过从天花板的反射离开帮助把声音投射到房间内不同或更中央的位置，如图6中所示。

图7A是要图示出扬声器和驱动器配置的一个例子，并且许多其它配置都是可能的。例如，向上发射驱动器可以在其自己的外壳中提供，以允许与现有的扬声器一起使用。图7B图示出根据一实施例的具有在多个外壳中分布的驱动器的扬声器系统。如图7B中所示，向上发射驱动器712在独立的外壳710中提供，然后该外壳可被放到具有正面和/或侧面发射驱动器716和718的外壳714附近或顶部。驱动器还可以被封在扬声器条形音箱中，诸如在许多家庭影院环境中所使用的，其中多个小或中等尺寸的驱动器沿单个水平或垂直外壳内的轴排成阵列。图7C图示出根据一实施例的驱动器在条形音箱中的放置。在这个例子中，条形音箱外壳730是包括侧面发射驱动器734、向上发射驱动器736和正面发射驱动器732的水平条形音箱。图7C仅仅是要作为示例配置，并且任何实际数目的用于每种功能-正面、侧面和向上发射-的驱动器都可以使用。

对于图7A-C的实施例，应当指出，依赖于所需的频率响应特性以及任何其它相关约束，诸如尺寸、额定功率、部件成本等，驱动器可以是任何适当的形状、尺寸和类型。

在典型的自适应音频环境中，多个扬声器外壳将包含在收听室内。图8图示出具有可单独寻址驱动器的扬声器在收听室内的示例放置，其中驱动器包括向上发射驱动器。如图8中所示，房间800包括四个单独的扬声器806，每个都具有至少一个正面发射、侧面发射和向上发射驱动器。房间还可以包含用于环绕声应用的固定驱动器，诸如中置扬声器802和低音炮或LFE 804。如图8中可以看到的，依赖于房间的大小和各自的扬声器单元，扬声器806在房间内的适当放置可以提供丰富的音频环境，这种丰富的音频环境源自于声音从这多个向上发射和侧面发射驱动器到离开天花板和墙壁的反射。依赖于内容、房间大小、收听者位置、声学特性以及其它相关的参数，扬声器可以旨在提供从适当表面平面上一个或多个点的反射离开。

在自适应音频系统中使用的扬声器可以使用基于现有环绕声配置(例如，5.1、7.1、9.1等)的配置。在这种情况下，根据已知的环绕声惯例提供并定义多个驱动器，附带连同直接(正面发射)成分一起为反射(向上发射和侧面发射)声音成分提供的附加驱动器和定义。

图9A图示出根据一实施例的利用用于反射音频的多个可寻址驱动器的用于自适应音频5.1系统的扬声器配置。在配置900中，包括LFE 901、中置扬声器902、L/R正面扬声器904/906和L/R后方扬声器908/910的标准5.1喇叭覆盖区具有八个附加的驱动器，给出了总共14个可寻址的驱动器。在各扬声器单元902-910中，除了“向前”(或“正面”)驱动器，这八个附加的驱动器被指示为“向上”和“向侧面”。直接向前驱动器将被包含自适应音频对象和设计成具有高度方向性的任何其它成分的子声道驱动。向上发射(反射)驱动器可以包含更加全向或者无方向的子声道内容，但不限于此。例子将包括背景音乐或者环境声音。如果到系统的输入包括传统的环绕声内容，则这种内容可以被智能地分成直接和反射子声道并馈送到适当的驱动器。

对于直接子声道，扬声器外壳将包含驱动器，其中驱动器的中轴平分房间的“最佳听音位置”或者声学中心。向上发射驱动器将定位成使得驱动器的正中面与声学中心之间的角度将在45到180度范围内的某个角度。在把驱动器定位到180度的情况下，朝后的驱动器可以通过从后面的墙壁反射来提供声音漫射。这种配置利用在向上发射驱动器与直接驱动器时间对准之后早到达的信号成分将连贯而后到达的成分将得益于房间提供的自然漫射的声学原理。

为了实现由自适应音频系统提供的高度线索，向上发射驱动器可以从水平面向上成角度，并且在极端情况下可以定位成直接向上辐射并且从诸如平天花板的反射表面或者紧挨着放在外壳之上的声学漫射器反射。为了提供附加的方向性，中置扬声器可以使用条形音箱配置(诸如图7C中所示的)，这种配置具有跨屏幕使声音转向以便提供高分辨率中央声道的能力。

图9A的5.1配置可以通过添加类似于标准7.1配置的两个附加的后外壳来扩展。图9B图示出根据这种实施例的利用用于反射音频的多个可寻址驱动器的用于自适应音频7.1系统的扬声器配置。如在配置920所示的，两个附加的外壳922和924放在“左侧环绕”和“右侧环绕”位置，其中侧面扬声器以与正面外壳类似的方式指向侧壁并且向上发射驱动器设置成在现有的正面和后面对之间的中间从天花板回弹。这种递增添加可以根据期望进行多次，用附加的对填充沿侧壁和后壁的间隙。图9A和9B只图示出可以在用于收听环境的自适应音频系统中结合向上和侧面发射扬声器使用的扩展的环绕声扬声器布局的可能配置的一些例子，并且许多其它的配置也是可能的。

作为对如上所述n.1配置的备选方案，更灵活的基于盒体(pod)的系统可以被使用，由此每个驱动器包含在其自己的外壳中，然后外壳可以安装在任何方便的位置。这将使用诸如图7B中所示的驱动器配置。然后，这些个别单元可以以与n.1配置类似的方式群集，或者它们可以绕着房间单独地散布。盒体不必局限于放在房间的边缘，它们还可以放在其中的任何表面上(例如，咖啡桌、书架等)。这种系统将很容易扩展，从而允许用户随时间的推移添加更多扬声器，以创建更沉浸式的体验。如果扬声器是无线的，则盒体系统可以包括对接扬声器用于充电目的的能力。在这种设计中，盒体可以对接到一起，使得它们在充电的时候充当单个扬声器，有可能用于收听立体声音乐，然后解除对接并且绕着房间放置，用于自适应音频内容。

为了利用向上发射的可寻址驱动器增强自适应音频系统的可配置性和准确度，多个传感器和反馈设备可以添加到外壳，以通知渲染器可以在渲染算法中使用的特性。例如，利用三角测量和外壳本身的像HRTF的功能，安装在每个外壳中的麦克风将允许系统测量房间的相位、频率和回响特性，连同扬声器相对于彼此的位置。惯性传感器(例如，陀螺仪、指南针等)可以用来检测外壳的方向和角度；并且光学和视觉传感器(例如，利用基于激光的红外线测距仪)可以用来提供相对于房间本身的位置信息。这些仅代表可以在系统中使用的附加传感器的几个可能性，并且其它也是可能的。

此类传感器系统可以通过允许驱动器的位置和/或外壳的声学修改器经机电伺服可自动调整来进一步增强。这将允许驱动器的方向性在运行时被改变，以适合它们在房间内相对于墙壁与其它驱动器的定位(“主动转向”)。类似地，任何声学修改器(诸如挡板、号角(horn)或波导)都可以被调谐为提供用于在任何房间配置中的最优回放的正确频率和相位响应(“主动调谐”)。主动转向和主动调谐都可以在初始的房间配置期间(例如，结合自动-EQ/自动房间配置系统)或者在回放期间响应于内容被渲染而执行。

双向互连

一旦配置好，扬声器就必须连接到渲染系统。传统互连通常有两种类型：用于无源扬声器的扬声器级输入和用于有源扬声器的线路级输入。如图4C中所示，自适应音频系统450包括双向互连功能。这种互连在渲染级454与放大器/扬声器458以及麦克风级460之间的一组物理和逻辑连接中体现。寻址每个扬声器柜中的多个驱动器的能力通过声音源和扬声器之间的这些智能互连支持。双向互连允许信号从声音源(渲染器)到扬声器的发送既包括控制信号又包括音频信号。从扬声器到声音源的信号既包括控制信号又包括音频信号，其中，在这种情况下，音频信号是源自可选的内置麦克风的音频。电力也可以作为双向互连的一部分提供，至少对于扬声器/驱动器不单独供电的情况是这样。

图10是图示出根据一实施例的双向互连的组成的图1000。可以代表渲染器+放大器/声音处理器链的声音源1002通过一对互连链路1006和1008逻辑地并且物理地耦接到扬声器柜1004。从声音源 1002到扬声器柜1004中驱动器1005的互连1006包括用于每个驱动器的电声信号、一个或多个控制信号以及可选的电力。从扬声器柜1004返回到声音源1002的互连1008包括来自麦克风1007或者其它传感器的声音信号，用于渲染器的校准，或者其它类似的声音处理功能性。反馈互连1008还包含某些被渲染器用来修改或处理经互连1006到驱动器的声音信号集合的驱动器定义和参数。

在一实施例中，系统的每个柜中的每个驱动器在系统设置期间被指定标识符(例如，数值指定)。每个扬声器柜也可以被唯一地标识。这种数值指定被扬声器柜用来确定哪个音频信号发送到柜中哪个驱动器。指定存储在扬声器柜中适当的存储器设备中。作为替代，每个驱动器可以配置为在本地存储器中存储其自己的标识符。在另一备选方案中，诸如其中驱动器/扬声器不具有本地存储能力的方案，标识符可以在渲染级或声音源1002的其它部件中存储。在扬声器发现处理中，每个扬声器(或中央数据库)被声音源查询其简档。简档定义某些驱动器定义，包括扬声器柜或其它既定阵列中驱动器的数目，每个驱动器的声学特性(例如，驱动器类型、频率响应等)，每个驱动器的中心相对于扬声器柜的正面中心的x、y、z位置，每个驱动器关于既定平面(例如，天花板、地板、柜的垂直轴等等)的角度，以及麦克风的数目和麦克风的特性。其它相关的驱动器和麦克风/传感器参数也可以定义。在一实施例中，驱动器定义和扬声器柜简档可以表述为由渲染器使用的一个或多个XML文档。

在一种可能的实现方式中，因特网协议(IP)控制网络在声音源1002与扬声器柜1004之间创建。每个扬声器柜和声音源充当单个网络端点并且在初始化或通电时被赋予链路-本地地址。诸如零配置联网(zeroconf)的自动发现机制可以用来允许声音源在网络上定位每个扬声器。零配置联网是自动创建可用IP网络而无需手动的运营商干预或专门配置服务器的处理的例子，并且其它类似的技术也可以使用。给定智能网络系统，多个源可以作为扬声器驻留在IP网络上。这允许多个源直接驱动扬声器，而无需路由声音通过“主”音频源 (例如，传统的A/V接收器)。如果另一个源尝试寻址扬声器，则在所有的源之间执行通信，以确定哪个源目前“处于活动状态”、处于活动状态是否是必需的以及控制是否可以过渡到新的声音源。源可以在制造期间基于其分类被预先指定优先级，例如，电信源可以具有比娱乐源更高的优先级。在多房间环境中，诸如典型的家庭环境，整个环境中的所有扬声器都可以驻留在单个网络上，但是可能不需要同时被寻址。在设置和自动配置期间，经互连1008向后提供的声音级别可以用来确定哪些扬声器位于相同的物理空间内。一旦确定了这种信息，扬声器就可以分组成群集。在这种情况下，群集ID可以被指定并且使其成为驱动器定义的一部分。群集ID发送到每个扬声器，并且每个群集可以被声音源1002同时寻址。

如图10中所示，可选的电力信号可以经双向互连发送。扬声器可以或者是无源的(需要来自声音源的外部电力)或者是有源的(需要来自电气插座的电力)。如果扬声器系统由不带无线支持的有源扬声器组成，则到扬声器的输入由与IEEE 802.3兼容的有线以太网输入组成。如果扬声器系统由带无线支持的有源扬声器组成，则到扬声器的输入由与IEEE802.11兼容的无线以太网输入，或者可替代地，由WISA组织规定的无线标准，组成。无源扬声器可以被供给由声音源直接提供的适当电力信号。

系统配置与校准

如图4C中所示，自适应音频系统的功能性包括校准功能462。这个功能由图10中所示的麦克风1007和互连1008链路启用。系统1000中麦克风部件的功能是测量房间内各个驱动器的响应，以便得出整体系统响应。多种麦克风拓扑可以用于这个目的，包括单个麦克风或者麦克风阵列。最简单的情况是单个位于房间中央的全向测量麦克风用来测量每个驱动器的响应。如果房间和回放条件准许更精细的分析，则可以代替地使用多个麦克风。多个麦克风的最方便的位置是在房间内所使用的特定扬声器配置的物理扬声器柜中。安装在每个外壳中的麦克风允许系统在房间内多个位置测量每个驱动器的响应。对这种拓扑的备选方案是使用多个位于房间内可能听众的位置的全向测量麦克风。

一个或多个麦克风被用来启用渲染器和后期处理算法的自动配置和校准。在自适应音频系统中，渲染器负责把混合式对象和基于声道的音频流转换成为在一个或多个物理扬声器中具体可寻址驱动器指定的个体音频信号。后期处理部件可以包括：延迟、均衡、增益、扬声器虚拟化及上混。扬声器配置常常表示渲染器部件可以用来把混合式对象和基于声道的音频流转换为每个驱动器的个体音频信号以提供音频内容的最优回放的关键信息。系统配置信息包括：(1)系统中物理扬声器的数目，(2)每个扬声器中可单独寻址的驱动器的数目，及(3)每个可单独寻址的驱动器相对于房间几何形状的位置和方向。其它特性也是可能的。图11图示出根据一实施例的自动配置与系统校准部件的功能。如图1100中所示，一个或多个麦克风的阵列1102向配置与校准部件1104提供声学信息。这种声学信息捕捉收听环境的某些相关特性。然后，配置与校准部件1104把这种信息提供给渲染器1106和任何相关的后期处理部件1108，使得最终发送到扬声器的音频信号针对收听环境被进行调整和优化。

系统中物理扬声器的数目和每个扬声器中可单独寻址的驱动器的数目是物理扬声器性质。这些性质直接从扬声器经双向互连456发送到渲染器454。渲染器和扬声器使用共同的发现协议，使得当扬声器连接到系统或者从系统断开时，渲染器得到变化的通知，并且可以相应地重新配置系统。

收听室的几何形状(大小和形状)是配置与校准处理中必要的信息项。几何形状可以以多种不同的方式确定。在手动配置模式中，房间的最小边界立方体的宽度、长度和高度由收听者或技术人员通过用户界面输入系统，该用户界面把输入提供给渲染器或者自适应音频系统中的其它处理单元。各种不同的用户界面技术和工具可以用于这个目的。例如，房间的几何形状可以由自动映射或跟踪房间几何形状的程序发送到渲染器。这种系统可以使用计算机视觉、声纳和基于3D激光的物理映射的组合。

渲染器使用扬声器在房间几何形状中的位置来得出用于每个可单独寻址的驱动器(包括直接和反射(向上发射)驱动器)的音频信号。直接驱动器是旨在使其分散图的大部分在被反射表面(诸如地板、墙壁或天花板)漫射之前与收听位置相交的驱动器。反射驱动器是旨在使得其分散图的大部分与收听位置相交之前被反射的驱动器，如图6中所图示的。如果系统处于手动配置模式，则每个直接驱动器的3D坐标可以通过UI输入系统中。对于反射驱动器，主要反射的3D坐标输入UI中。激光或类似的技术可以用来可视化到房间表面上的漫射驱动器的分散图，使得3D坐标可以被测量并手动输入系统中。

驱动器定位和瞄准通常是利用手动或自动技术执行的。在有些情况下，惯性传感器可以结合到每个扬声器中。在这种模式中，中置扬声器被指定为“主”并且其指南针测量被认为是参照。然后，其它扬声器发送每个它们可单独寻址的驱动器的分散图和指南针位置。结合房间几何形状，中置扬声器与每个附加驱动器的参照角度之间的差为系统提供自动确定驱动器是直接还是反射的足够信息。

如果使用3D位置(即，高保真度立体声响复制)麦克风，则扬声器位置配置可以完全自动化。以这种模式，系统向每个驱动器发送测试信号并且记录响应。依赖于麦克风类型，信号可能需要变换成x、y、z表示。这些信号被分析，以找出占主导地位的第一到达的x、y和z成分。结合房间几何形状，这通常为系统提供自动设置所有扬声器，直接或反射扬声器，的位置的3D坐标的足够信息。依赖于房间几何形状，用于配置扬声器坐标的三种所描述方法的混合式组合可能比仅单独使用一种技术更有效。

扬声器配置信息是配置渲染器所需的一个成分。扬声器校准信息对于配置后期处理链(延迟、均衡和增益)也是必需的。图12是图示出根据一实施例的执行自动扬声器校准的处理步骤。在这种模式中，延迟、均衡和增益由系统利用单个位于收听位置中间的全向测量麦克风自动计算。如图1200中所示，该处理通过测量单独针对每个单个驱动器的房间脉冲响应开始，方框1202。然后，每个驱动器的延迟通过找出声学脉冲响应(利用麦克风捕捉的)与直接捕捉的电脉冲响应的互相关的峰值的偏移量来计算，方框1204。在方框1206，计算出的延迟应用到直接捕捉到的(参照)脉冲响应。然后，处理确定宽带的每个带的增益值，当该值应用到测出的脉冲响应时，导致它与直接捕捉到的(参照)脉冲响应之间的最小差异，方框1208。这可以通过以下来进行：取得实测和参考脉冲响应的窗口FFT、计算两个信号之间的每个仓(bin)量值比、对每个仓量值比应用中值滤波、通过对完全落在一个带内的所有仓的增益求平均来计算每个带的增益值、通过取所有的每个带的增益的平均值来计算宽带增益、从每个带的增益减去宽带增益并且应用小房间X曲线(在高于2kHz时是-2dB/八度音阶)。一旦在方框1208确定了增益值，处理就通过从其它延迟中减去最小延迟来确定最终的延迟值，使得至少有一次系统中的驱动器将总是具有零附加延迟，方框1210。

在利用多个麦克风的自动校准的情况下，延迟、均衡和增益由系统利用多个全向测量麦克风自动计算。除对每个麦克风重复处理并且把结果求平均之外，该处理基本上与单一麦克风的技术完全相同。

备选应用

代替在整个房间或剧场中实现自适应音频系统，有可能在更局部化的应用，诸如电视、计算机、游戏控制台或类似设备，中实现自适应音频系统的各方面。这种情况有效地依赖于在对应于观看屏幕或监视器表面的扁平平面内排成阵列的扬声器。图13图示出在示例电视和条形音箱消费者用例中自适应音频系统的使用。一般而言，电视用例对基于常常降低质量的装备(TV扬声器、条形音箱扬声器等)和扬声器位置/(一种或多种)配置创建沉浸式消费者体验提出了挑战，这些就空间分辨率而言可能是受限的(即，没有环绕或后置扬声器)。图13的系统1300包括位于标准电视左和右边位置的扬声器(TV-L 和TV-R)以及左和右边向上发射驱动器(TV-LH和TV-RH)。电视1302还可以包括条形音箱1304或者某类高度阵列中的扬声器。一般而言，由于成本约束和设计选择，与独立或家庭影院扬声器相比，电视扬声器的尺寸和质量是减小的。但是，动态虚拟化的使用可以帮助克服这些缺陷。在图13中，动态虚拟化效果针对TV-L和TV-R扬声器被图示，使得位于具体收听位置1308的人将听到与在水平面内单独渲染的适当音频对象关联的水平元素。此外，与适当音频对象关联的高度元素将通过由LH和RH驱动器发送的反射音频正确渲染。立体声虚拟化在电视L和R扬声器中的使用类似于L和R家庭影院扬声器，其中，通过基于由自适应音频内容提供的对象空间信息，动态控制扬声器虚拟化算法参数，潜在的沉浸式动态扬声器虚拟化用户体验可以是可能的。这种动态虚拟化可以用于创建对象沿房间侧面移动的感觉。

电视环境还可以包括HRC扬声器，如在条形音箱1304中所示的。这种HRC扬声器可以是允许平摇通过HRC阵列的可转向单元。通过具有正面发射的中央声道阵列，会是有好处的(尤其是对于较大的屏幕)，其中该阵列具有可单独寻址的扬声器，这些扬声器允许音频对象通过阵列的离散平摇，这种离散平摇匹配屏幕上视频对象的运动。这种扬声器还被视为具有侧面发射扬声器。如果扬声器被用作条形音箱，则这些可以被激活并使用，使得由于缺乏环绕或后置扬声器而侧面发射驱动器提供更多沉浸。动态虚拟化概念也对HRC/条形音箱扬声器示出。动态虚拟化对正面发射扬声器阵列的最远侧上的L和R扬声器示出。同样，这可以用于创建对象沿房间侧面移动的感觉。这种修改后的中置扬声器还可以包括更多扬声器并且利用单独受控的声音区实现可转向的声束。在图13的示例实现方式中示出的还有位于主要收听位置1308前面的NFE扬声器1306。通过把声音从房间的前面移开并且更靠近收听者，NFE扬声器的包括可以提供由自适应音频系统提供的更大包络。

关于耳机渲染，自适应音频系统通过把HRTF与空间位置匹配来维持创建者的原始意图。当音频经耳机再现时，双耳空间虚拟化可以通过头部相关的传输函数(HRTF)的应用来实现，该函数处理音频，并且添加感觉线索，这种线索创建音频在三维空间中播放并且不经由标准立体声耳机的感觉。空间再现的准确度依赖于适当HRTF的选择，HRTF可以基于几种因素而变，包括音频声道或者被渲染的对象的空间位置。利用由自适应音频系统提供的空间信息会导致代表3D空间的一个或连续变化数目的HRTF的选择，以便大大改善再现体验。

该系统还便于添加指导性的三维双耳渲染和虚拟化。类似于对空间渲染的情况，利用新的和修改后的扬声器类型和位置，有可能通过三维HRTF的使用来创建模拟来自水平面和垂直轴的声音的线索。之前仅仅提供声道和固定扬声器位置信息渲染的音频格式有更多限制。利用自适应音频格式信息，双耳三维渲染耳机系统具有具体且有用的信息，这种信息可以用来指示音频的哪些元素适合在水平和垂直平面内都渲染。有些内容可以依赖头顶扬声器的使用来提供更大的包络感。这些音频对象和信息可以用于在使用耳机时被感觉到在收听者头顶之上的双耳渲染。图14图示出根据一实施例的用在自适应音频系统中的三维双耳耳机虚拟化体验的简化表示。如图14中所示，用来再现来自自适应音频系统的音频的耳机套件1402包括位于标准x、y平面内以及位于z平面内的音频信号1404，使得与某些音频对象或声音关联的高度被回放，使得它们听起来就好像源自x、y起源的声音上方或下方一样。

元数据定义

在一实施例中，自适应音频系统包括从原始空间音频格式生成元数据的部件。系统300的方法和部件包括音频渲染系统，该音频渲染系统配置为处理一个或多个位流，这些位流既包含常规的基于声道的音频元素又包含音频对象编码元素。包含音频对象编码元素的新扩展层被定义并添加到基于声道的音频编解码器位流或音频对象位流当中任何一个。这种方法启用位流，其中位流包括要被与现有扬声器和驱动器设置或者利用可单独寻址的驱动器和驱动器定义的下一代扬声器一起使用的渲染器处理的扩展层。来自空间音频处理器的空间音频内容包括音频对象、声道和位置元数据。当对象被渲染时，根据位置元数据以及回放扬声器的位置，它被指定给一个或多个扬声器。附加的元数据可以与对象关联，以更改回放位置或者以别的方式限制要用于回放的扬声器。元数据响应于工程师的混合输入而在音频工作站中生成，以提供控制空间参数(例如，位置、速度、强度、音色等)并且规定收听环境中哪些驱动器或扬声器在展示期间播放各自的声音的渲染队列。元数据与工作站中各自的音频数据关联，用于由空间音频处理器打包和运输。

图15是图示出根据一实施例的用在用于收听环境的自适应音频系统中的某些元数据定义的表。如表1500中所示，元数据定义包括：音频内容类型、驱动器定义(个数、特性、位置、投射角度)、用于主动转向/调谐的控制信号以及包括房间和扬声器信息的校准信息。

上混

自适应音频渲染系统的实施例包括基于把音频声道分成反射和直接子声道的上混器。直接子声道是输入声道中被路由到向收听者递送早期反射声学波形的驱动器的那部分。反射或漫射子声道是原始音频声道中意要让驱动器能量的主要部分从附近表面和墙壁反射离开的那部分。因而，反射子声道指原始声道中优选在漫射到本地声学环境中之后到达收听者或者具体地从表面(例如，天花板)上一点反射到房间中另一位置的那些部分。每个子声道将被路由到独立的扬声器驱动器，因为用于一个子声道的驱动器相对于其它子声道的驱动器的物理朝向将给每个进入的信号添加声学空间多样性。在一实施例中，一个或多个反射子声道发送到指向收听室内表面的扬声器驱动器，以在其到达收听者之前对声波反射。这种驱动器可以是到天花板的向上发射驱动器，或者指向墙壁或其它表面的侧面发射驱动器或者甚至正面发射驱动器，用于声音到期望位置的间接传输。

图16是图示出根据一实施例的把输入声道分解成子声道的处理的流程图。整个系统设计成对多个输入声道操作，其中输入声道包括用于基于空间的音频内容的混合式音频流。如处理1600中所示，步骤涉及把输入声道按操作次序顺序地分解或分割成子声道。在方框1602中，在粗略分解步骤中输入声道被分成反射子声道和直接子声道之间的第一分割。然后，原始分解在后续的分解步骤中被细化，方框1604。在方框1606中，处理确定反射和直接子声道之间的结果分割是否最优。如果分割还不是最优，则执行附加的分解步骤1604。如果在方框1606中确定反射和直接子声道之间的分解是最优的，则生成适当的扬声器馈送并发送到反射和直接子声道之间的最终混合。

关于分解处理1600，指出以下这点是重要的，即，能量保持(preservation)在处理中的每一级在反射子声道与直接子声道之间被保持。对于这种计算，变量α定义为输入声道中与直接子声道关联的那部分，而β定义为输入声道中与漫射子声道关联的那部分。于是，确定能量保持的关系可以根据以下等式来表述：

其中

在以上等式中，x是输入声道并且k是变换索引。在一实施例中，解是关于频域量计算的，或者以复数离散傅立叶变换系数、基于实数的MDCT变换系数、或者QMF(正交镜像滤波器)子带系数(实数或复数)的形式计算的。因而，在该处理中，假设正向变换应用到输入声道，并且对应的逆向变换应用到输出子声道。

图18是图示出根据一实施例的把输入声道分解成子声道的处理的流程图1800。对于每个输入声道，系统计算两个最近的相邻声道之间的声道间相关(ICC)，步骤1802。ICC通常是根据以下等式计算的：

{ICC}_{i, j} = \frac{E {s_{D i} {s_{D j}}^{T}}}{\sqrt{E {| s_{D i} |^{2}} E {| s_{D j} |^{2}}}}

其中s_Di是用于索引为i的输入声道的频域系数，而s_Dj是用于索引为j的下一个空间相邻输入声道的频域系数。E{}算子是期望值算子，并且可以利用对多个音频块集合的固定求平均来实现，或者实现为其中跨块对每个频域系数进行平滑的平滑算法。这种平滑器可以实现为利用无限脉冲响应(IIR)滤波器拓扑的指数平滑器。

计算这两个相邻声道的ICC之间的几何平均值并且这个值是-1和1之间的数。于是，α的值设置为1.0与这个平均值之差。ICC广义地描述在两个声道之间有多少信号是共用的。具有高声道间相关的信号被路由到反射声道，而相对于其附近声道而言独特的信号被路由到直接子声道。这种操作可以根据以下伪代码来描述：

在以上的代码段中，pICC指与当前输入声道i空间相邻的i-1输入声道的ICC，而nICC指与当前输入声道i空间相邻的i+1输入声道的ICC。在步骤1804中，系统计算每个输入声道的瞬变缩放项。这些缩放因子对反射对直接混合计算起作用，其中缩放的量与瞬变中的能量成比例。一般而言，期望瞬变信号被路由到直接子声道。因而，在正瞬变检测的情况下，α与缩放因子sf做比较，其中sf设置为1.0(或者对于较弱的瞬变是接近1.0)。这在以下等式中示出，其中索引i对应于输入声道i：

α_i＝max(α_i，sf_i)

每个瞬变缩放因子sf具有保留参数以及衰变参数，以控制缩放因子如何在瞬变之后随时间演进。这些保留和衰变参数一般是毫秒级，但是返回到α的额定值的衰变可以向上延伸到完整的一秒。利用在方框1802中计算的α的值以及在1804中计算的瞬变缩放因子，系统把每个输入声道分割成反射和直接子声道，使得子声道之间的能量总和得以保持，步骤1806。

作为可选步骤，反射声道可以进一步被分解成回响和非回响成分，步骤1808。非回响子声道可以或者加回到直接子声道，或者发送到输出中的专用驱动器。由于可能不知道应用哪种线性变换来回响输入信号，因此应用盲去卷积或相关算法(诸如盲源分离)。

第二个可选步骤是利用跨块对每个频域变换操作的去相关器进一步把反射声道与直接声道去相关，步骤1810。在一实施例中，去相关器由多个延迟元件(毫秒级的延迟对应于块整数延迟乘以下层时频变换的长度)和全通IIR(无限脉冲响应)滤波器组成，其中该IIR滤波器具有作为时间的函数可以在受约束的Z域圈内任意移动的滤波器系数。在步骤1812中，系统对反射和直接声道执行均衡和延迟功能。在通常的情况下，直接子声道被延迟一个量，这个量将允许在收听位置来自直接驱动器的声学波前与主要反射能量波前相位一致(在均方能量误差的意义上)。同样，均衡应用到反射声道，以补偿预期的(或测出的)房间漫射，以便最佳匹配反射和直接子声道之间的音色。

图17图示出根据一实施例的把多个音频声道处理成多个反射和直接子声道的处理的上混器。如系统1700中所示，对于N个输入声道1702，生成K个子声道。对于每个输入声道，系统生成反射(也称为“漫射”)和直接子声道，总共K＊N个子声道1720的总输出。在典型情况下，K＝2，这允许有一个反射子声道和一个直接子声道。N个输入声道输入到ICC计算部件1706以及瞬变缩放项信息计算机1704。α系数在部件1708中计算并且与瞬变缩放项结合，用于输入到分割处理1710。这个处理1710把N个输入声道分割成反射和直接输出，以产生N个反射声道和N个直接声道。该系统对N个反射声道执行盲去卷积处理1712，然后对这些声道执行去相关操作1716。声学声道预处理器1718取得N个直接声道和去相关的N个反射声道并且产生K＊N个子声道1720。

另一个选项将是通过可以在房间内存在的环境感测麦克风的使用来控制算法。这将允许对房间的直接-回响比(DR比)的计算。利用DR比，在确定漫射与直接子声道之间的最优分割时，最终的控制将是可能的。特别地，对于高度回响的房间，假设漫射子声道将具有施加到收听者位置的更多漫射并且因此漫射与直接子声道之间的混合可在盲去卷积和去相关步骤中受影响是合理的。具体而言，对于具有非常小反射声学能量的房间，路由到漫射子声道的信号量可以增加。此外，声学环境中的麦克风传感器可以确定要应用到漫射子声道的最优均衡。自适应均衡器可以确保漫射子声道被最优地延迟和均衡，使得来自两个子声道的波前以相位一致的方式在收听位置组合。

特征与能力

如上所述，自适应音频生态系统允许内容创建者经元数据在位流中嵌入混合的空间意图(位置、尺寸、速度等)。这在音频空间再现时允许令人难以置信的灵活量。从空间渲染的角度，自适应音频格式使内容创建者能够把混合修改成适应房间内扬声器的确切位置，以避免由与创作系统不完全相同的回放系统的几何形状造成的空间失真。在目前其中只发送用于扬声器声道的音频的音频再现系统中，除固定的扬声器位置之外，内容创建者的意图对房间内的位置而言是未知的。在目前的声道/扬声器范例下，已知的唯一信息就是具体的音频声道应当发送到具有房间内预定义位置的具体扬声器。在自适应音频系统中，利用通过创建和分发管道传达的元数据，再现系统可以以匹配内容创作者的原始意图的方式使用这种信息来再现内容。例如，扬声器之间的关系对于不同的音频对象是已知的。通过提供用于音频对象的空间位置，内容创建者的意图是已知的并且这可以“映射”到扬声器配置上，包括其位置。利用动态渲染音频渲染系统，这种渲染可以通过添加附加的扬声器被更新和改进。

该系统还使得能够添加指导性的三维空间渲染。已经进行了许多尝试来通过使用新的扬声器设计和配置创建更沉浸式的音频渲染体验。这些包括使用双极和偶极扬声器、侧面发射、背后发射和向上发射驱动器。对于之前的声道和固定扬声器定位系统，确定音频的哪些元素应当发送到这些修改后的扬声器已经做了最佳猜测。利用自适应音频格式，渲染系统具有关于哪些音频元素(对象或其它)适合发送到新扬声器配置的具体且有用的信息。即，该系统允许对哪些音频信号要发送到正面发射驱动器以及哪些要发送到向上发射驱动器进行控制。例如，自适应音频电影院内容很大程度上依赖于头顶扬声器的使用来提供更大的包络感。这些音频对象和信息可以发送到向上发射驱动器，以便在消费者空间提供反射的音频，来创建类似的效果。

该系统还考虑了使混合适应再现系统的确切硬件配置。在诸如电视、家庭影院、条形音箱、便携式音乐播放器对接站等消费者渲染装备中，存在许多不同的可能扬声器类型和配置。当向这些系统发送依声道而定的音频信息(即，左和右声道或者标准的多声道音频)时，系统必须处理音频，以适当地匹配渲染装备的能力。典型的例子是当标准立体声(左、右)音频发送到具有多于两个扬声器的条形音箱时。在目前其中只发送用于扬声器声道的音频的系统中，内容创建者的意图是未知的并且通过增强的装备使之成为可能的更沉浸式的音频体验必须通过对如何修改音频以便在硬件上再现进行假设的算法来创建。这的一个例子是，对于比原始声道馈送数目更多的扬声器，PLII、PLII-z或下一代环绕对“上混”基于声道的音频的使用。对于自适应音频系统，利用在整个创建和分发管道中传达的元数据，再现系统可以使用这种信息以更接近匹配内容创建者的原始意图的方式再现内容。例如，有些条形音箱具有侧面发射扬声器，来创建包络感。对于自适应音频，当被诸如TV或A/V接收器的渲染系统控制成只把适当的音频发送到这些侧面发射扬声器时，空间信息和内容类型信息(即，对话、音乐、环境效果等)可以被条形音箱使用。

通过意识到所存在的扬声器的位置和类型，由自适应音频传达的空间信息允许内容的动态渲染。此外，关于一个或多个收听者与音频再现装备的关系的信息现在也有可能获得并且可以在渲染时使用。大部分游戏控制台包括相机配件和智能图像处理，这种处理可以确定人在房间内的位置和身份。这种信息可以被自适应音频系统用来更改渲染，以便基于收听者的位置更准确地传达内容创建者的创作意图。例如，在几乎所有情况下，为回放渲染的音频都假设收听者位于理想的“最佳听音位置”，这个位置常常离每个扬声器等距并且在内容创建期间相同的位置和声音混合者位于这里。但是，许多时候人们不在这个理想位置并且他们的体验不匹配混合者的创作意图。典型的例子是当收听者坐在房间左侧客厅的椅子或躺椅上。对于这种情况，从左侧较近的扬声器再现的声音将被感觉到更大并且往左斜移音频混合的空间感觉。通过理解收听者的位置，系统可以调整音频的渲染，以便降低左边扬声器的声音级别并且升高右边扬声器的级别，以重新平衡音频混合并且使其感觉正确。延迟音频以补偿收听者离最佳听音位置的距离也是可能的。收听者位置可以或者通过使用相机或者修改后的具有某种内置信令的遥控器来检测，这种信令将发信号向渲染系统通知收听者位置。

除了使用标准的扬声器和扬声器位置来寻址收听位置，还有可能使用射束转向技术来创建依赖于收听者位置和内容而变的声场“区”。音频束形成使用扬声器的阵列(通常是8至16个水平隔开的扬声器)并且使用相位操纵和处理来创建可转向的声束。射束形成扬声器阵列允许音频区的创建，其中音频主要是可听的，可以用来利用选择性处理把具体的声音或对象指向具体的空间位置。明显的用例是利用对话增强后期处理算法和射束处理声迹中的如果音频对象直接到达在收听的用户则会受损的对话。

矩阵编码

在有些情况下，音频对象可以是自适应音频内容的期望成分；但是，基于带宽限制，有可能不可能同时发送声道/扬声器音频和音频对象。在过去，矩阵编码被用来传达比用于给定分发系统可能的更多的音频信息。例如，在早期电影院当中的情况就是多声道音频被声音混合者创建但是电影格式只提供立体声音频。矩阵编码用来把多声道音频下混到两个立体声声道，然后，这两个立体声声道利用某些算法被处理，以便从立体声音频重新创建多声道混合的相当准确的近似。类似地，有可能智能地把音频对象下混到基本扬声器声道并且通过自适应音频元数据以及下一代复杂的时间和频率敏感环绕算法的使用来提取对象并且利用基于消费者的自适应音频渲染系统正确地空间渲染它们。

此外，当存在对音频的传输系统的带宽限制时(例如，3G和4G无线应用)，还有来自于连同个体音频对象一起发送矩阵编码的空间多样化多声道声床的益处。这种传输方法的一个用例将是对于具有两个独特音频声床和多个音频对象的体育广播的传输。音频声床可以代表在两支不同队伍露天看台区中捕捉的多声道音频，而音频对象可以代表可以对一支队伍或另一支队伍有好感的不同播音员。利用标准编码，每个声床连同两个或更多个对象的5.1表示会超出传输系统的带宽约束。在这种情况下，如果每个5.1声床都矩阵编码成立体声信号，则最初作为5.1声道捕捉的两个声床可以作为两声道声床1、两声道声床2、对象1和对象2发送，作为仅四个音频声道，而不是5.1+5.1+2或12.1声道。

依赖位置与内容的处理

自适应音频生态系统允许内容创建者创建个别的音频对象并且添加关于要传达到再现系统的内容的信息。这允许在再现之前对音频的处理的大量灵活性。通过基于对象位置和尺寸对扬声器虚拟化的动态控制，处理可以适应对象的位置和类型。扬声器虚拟化指处理音频使得虚拟扬声器被收听者感觉到的方法。当源音频是包括环绕扬声器声道馈送的多声道音频时，这种方法常常用于立体声扬声器再现。虚拟扬声器处理以这样一种方式修改环绕扬声器声道音频，当音频在立体声扬声器上回放时，环绕音频元素被虚拟化到收听者的侧面和后面，就好像虚拟扬声器位于那里一样。目前虚拟扬声器位置的位置属性是静态的，因为环绕扬声器的预期位置是固定的。但是，对于自适应音频内容，不同音频对象的空间位置是动态且独特的(例如，是每个对象特有的)。通过动态控制诸如用于每个对象的扬声器位置角度的参数，然后组合几个虚拟化对象的渲染后的输出，以创建更接近表示声音混合者意图的更沉浸式的音频体验，诸如虚拟扬声器虚拟化的后期处理现在有可能可以以更明智的方式被控制。

除了音频对象的标准水平虚拟化，还有可能使用处理固定声道和动态对象音频并且从正常水平面位置中标准立体声扬声器对获得音频的高度再现感知的感性高度线索。

某些效果或增强处理可以明智地应用到适当类型的音频内容。例如，对话增强可以只应用到对话对象。对话增强指处理包含对话的音频的方法，使得对话的可听性和/或可理解性得以增加和/或改进。在许多情况下，应用到对话的音频处理对于非对话音频内容(即，音乐、环境效果等)是不适当的，并且会导致令人不快的可听假象。对于自适应音频，音频对象可以在一块内容中只包含对话并且可以相应地做标记，使得渲染解决方案将选择性地只对对话内容应用对话增强。此外，如果音频对象仅仅是对话(而不是对话和其它内容的混合，情况常常如此)，则对话增强处理可以排他地处理对话(由此限制对任何其它内容执行的任何处理)。

类似地，音频响应或均衡管理也可以对具体的音频特性量身定做。例如，基于它们的类型，低音管理(过滤、衰减、增益)针对具体的对象。低音管理指选择性地隔离并只处理特定内容块中的低音(或较低)频率。对于目前的音频系统和传输机制，这是应用到所有音频的“盲”处理。对于自适应音频，其中低音管理适当的具体音频对象可以通过元数据和适当应用的渲染处理来识别。

自适应音频系统还方便基于对象的动态范围压缩。传统的音频音轨具有与内容本身相同的持续时间，而音频对象可能在内容中出现有限的时间量。关于其平均和峰值信号振幅，以及其开始或出现(attack)时间(尤其是对于瞬变素材)，与对象关联的元数据可以包括与级别相关的信息。这种信息将允许压缩器更好地修改其压缩和时间常数(出现、释放等)，以更好地适合内容。

该系统还方便自动的喇叭-房间均衡。喇叭和房间声学在对声音引入可听着色(audible coloration)时扮演着重要的角色，由此影响再现的声音的音色。此外，由于房间反射和喇叭方向性的变化，声学是依赖位置的，并且由于这种变化，感觉到的音色对于不同的收听位置将显著变化。通过自动喇叭-房间频谱测量与均衡、自动时间-延迟补偿(这提供适当的成像并且有可能基于最小二乘方的相对扬声器位置检测)以及级别设置、基于喇叭净空能力的低音重定向以及具有低音炮的主要喇叭的最优剪接，在系统中提供的AutoEQ(自动房间均衡)功能帮助缓解这些问题当中的一些。在家庭影院或者其它收听环境中，自适应音频系统包括某些附加功能，诸如：(1)基于回放房间-声学的自动的目标曲线计算(这被认为是在对家庭收听室内均衡的研究当中的开放问题)、(2)利用时间-频率分析的模态衰变控制的影响、(3)理解从支配包络/宽敞度/源宽度/可理解性的测量得出的参数并且控制这些参数，以提供最佳可能的收听体验、(4)结合头部模型的定向过滤，用于匹配正面和“其它”喇叭之间的音色，及(5)在离散的设置中检测喇叭相对于收听者的空间位置以及空间重映射(例如，Summit无线将是个例子)。喇叭之间音色的不匹配对于在正面锚定喇叭(例如，中置)和环绕/后置/宽度/高度喇叭之间某些平摇的内容尤其明显。

总的来说，如果有些音频元素的再现的空间位置匹配屏幕上的图像元素，则自适应音频系统还启用引人注目的音频/视频再现体验，尤其是利用家庭环境中较大的屏幕尺寸。一个例子是让电影或电视节目中的对话在空间上符合在屏幕上讲话的人或角色。利用正常的基于扬声器声道的音频，没有容易的办法来确定对话是否应当空间定位成匹配屏幕上的人或角色的位置。利用自适应音频系统中可用的音频信息，这种类型的音频/视觉对准可以容易地实现方式，甚至在其特征为大得多的屏幕的家庭影院系统中也可以。视觉位置和音频空间对准还可以用于非角色/对话对象，诸如汽车、卡车、动画等。

通过允许内容创建者创建个别的音频对象并且添加可以传达到再现系统的、关于内容的信息，自适应音频生态系统还允许增强的内容管理。这允许音频的内容管理中大量的灵活性。从内容管理的角度，自适应音频使各种事情成为可能，诸如只通过代替对话对象来改变音频内容的语言，以减小内容文件尺寸和/或减小下载时间。电影、电视和其它娱乐节目通常是在国际间分发的。这常常需要内容块中的语言依赖于它将在什么地方再现而改变(对于在法国显示的电影是法语，对于在德国显示的TV节目是德语，等等)。如今，这常常需要对每种语言创建、打包和分发完全独立的音频声迹。利用自适应音频系统以及音频对象的固有概念，用于一块内容的对话可以是独立的音频对象。这允许内容的语言在不更新或更改音频声迹的其它元素，诸如音乐、效果等，的情况下很容易地被改变。这将不仅适用于外语而且适用于对某些观众、有针对性的广告等不适当的语言。

本文所述的音频环境的各方面代表音频或音频/视觉内容通过适当扬声器和回放设备的回放，并且可以表示其中收听者体验所捕捉内容的回放的任何环境，诸如电影院、音乐厅、室外剧场、家或房间、听展台、汽车、游戏控制台、耳机或耳机系统、公共地址(PA)系统，或者任何其它回放环境。虽然已经主要关于家庭影院环境中的例子和实现方式描述了实施例，其中空间音频内容与电视内容关联，但是应当指出，实施例还可以在其它系统中实现。包括基于对象的音频和基于声道的音频的空间音频内容可以结合任何相关的内容(关联的音频、视频、图形等)使用，或者它可以构成独立的音频内容。回放环境可以是任何适当的收听环境，从耳机或近场监视器到小或大的房间、汽车、露天舞台、音乐厅，等等。

本文所述的系统的各方面可以在用于处理数字或数字化音频文件的适当的基于计算机的声音处理网络环境中实现。自适应音频系统的部分可以包括一个或多个网络，其中网络包括任何期望数量的个别机器，包括用来缓冲或路由在计算机之间发送的数据的一个或多个路由器(未示出)。这种网络可以在各种不同的网络协议上建立，并且可以是因特网、广域网(WNA)、局域网(LAN)，或者其任意组合。在其中网络包括因特网的实施例中，一台或多台机器可以配置为通过web浏览器程序访问因特网。

一个或多个部件、块、处理或其它功能部件可以通过控制系统的基于处理器的计算设备的执行的计算机程序来实现。还应当指出，按照其行为、寄存器传输、逻辑部件和/或其它特点，本文所公开的各种功能可以利用硬件、固件的任意数量的组合来描述和/或描述为含在各种机器可读或计算机可读介质中的数据和/或指令。这种格式化数据和/或指令可以在其中包含的计算机可读介质包括，但不限于，各种形式的物理的(非临时性的)、非易失性的存储介质，诸如光学、磁性或半导体存储介质。

除非上下文清楚地另外需要，否则贯穿本说明书和权利要求，词“包括”等应当认为是在包含性的意义上，而不是排他或详尽的意义上；即，在“包括，但不限于”的意义上。利用单数或复数的词也分别包括复数或单数。此外，词“本文”、“下文”、“以上”、“以下”和类似意思的词指作为整体的本申请而不是本申请的特定部分。当词“或者”在对两个或更多个项的列表的提及中使用时，那个词覆盖对这个词的所有以下解释：列表中任何一项、列表中所有的项以及列表中项的任意组合。

虽然已经通过例子并且按照具体的实施例描述了一种或多种实现方式，但是应当理解，这一种或多种实现方式不限于所公开的实施例。相反，它是要覆盖对本领域技术人员清楚的各种修改和类似布置。因此，所附权利要求的范围应当符合最广泛的解释，从而涵盖所有此类修改和类似布置。

Claims

1.一种用于处理音频信号的系统(300)，包括：

渲染部件，配置为生成多个音频声道(1702)，所述多个音频声道(1702)包括规定相应音频声道(1702)在收听区域(800)中的回放位置的信息；其中所述多个音频声道(1702)包括基于对象的音频，并且其中规定回放位置的信息被编码在与每个音频声道(1702)关联的一个或多个元数据集合中；及

上混器部件，接收所述多个音频声道(1702)，并且针对每个音频声道(1702)，生成用于可单独寻址驱动器(702，704，706)的阵列的反射驱动器(704，706)的至少一个反射子声道(1720)，以及用于可单独寻址驱动器(702，704，706)的阵列的直接驱动器(702)的至少一个直接子声道(1720)，所述至少一个反射子声道(1720)配置为使反射驱动器(704，706)的驱动器能量的大部分从收听区域(800)的一个或多个表面反射离开以便模拟回放位置在收听区域(800)的一个或多个表面的存在，所述至少一个直接子声道(1720)配置为使直接驱动器(702)的驱动器能量的大部分直接传播到收听区域(800)内的回放位置；其中所述至少一个反射子声道(1720)是根据基于对象的音频的空间再现信息生成的；其中上混器部件配置为针对每个音频声道(1702)，计算两个空间相邻音频声道(1702)之间的声道间相关值以确定子声道(1720)对之间的共同信号的量；其中，利用子声道(1720)对之间的能量总和守恒的约束，通过增大路由到直接子声道(1720)的那部分同时减小路由到反射子声道(1720)的那部分，使得路由到直接子声道(1720)的部分随着减小的声道间相关值而线性地增大，声道间相关值被用来更改音频声道(1702)的混合。

2.如权利要求1所述的系统(300)，还包括可单独寻址驱动器(702，704，706)的阵列，该阵列耦接到上混器部件并且包括分别使用所述至少一个反射子声道(1720)和所述至少一个直接子声道(1720)的用于使声波从一个或多个表面传播离开的至少一个反射驱动器(704，706)和用于使声波直接传播到回放位置的至少一个直接驱动器(702)。

3.如权利要求2所述的系统(300)，其中所述多个音频声道(1702)还包括基于声道的音频；并且进一步其中基于声道的音频的回放位置包括对扬声器阵列中的扬声器的扬声器指定，而基于对象的音频的回放位置包括三维空间中的位置。

4.如权利要求3所述的系统(300)，其中扬声器阵列中的扬声器根据定义的音频环绕声配置在收听区域(800)周围分布，并且其中收听区域(800)包括以下项中的一个：家、电影院、剧场、专业工作室以及音频收听控制台；并且进一步其中所述多个音频声道(1702)包括选自由以下项组成的组的音频内容：电影院内容、电视内容、用户生成的内容以及计算机游戏内容。

5.如权利要求4所述的系统(300)，其中子声道(1720)的回放位置包括在收听区域(800)中感觉上在人的头部之上的位置，并且其中所述至少一个反射驱动器(704，706)包括配置为为了向下反射到所述感觉上在人的头部之上的位置而朝收听区域(800)的天花板投射声波的向上发射驱动器(706)。

6.如权利要求5所述的系统(300)，其中与发送到向上发射驱动器(706)的子声道(1720)关联的元数据集合定义与反射有关的一个或多个特性。

7.如权利要求4所述的系统(300)，其中音频声道(1702)的回放位置包括在收听区域(800)中感觉上环绕人的位置，并且其中所述至少一个反射驱动器(704，706)包括配置为为了反射到所述感觉上环绕人的位置而朝收听区域(800)的墙壁投射声波的侧面发射驱动器(704)。

8.如权利要求7所述的系统(300)，其中与发送到侧面发射驱动器(704)的子声道(1720)关联的元数据集合定义与反射有关的一个或多个特性。

9.一种用于处理音频信号的方法(1600)，包括：

从音频渲染器接收多个输入音频声道(1702)；其中所述多个输入音频声道(1702)包括基于对象的音频；其中所述多个输入音频声道(1702)包括规定相应音频声道(1702)在收听区域(800)中的回放位置的信息；

在第一分解处理中把每个输入音频声道(1702)分成(1602)至少一个反射子声道(1720)和至少一个直接子声道(1720)；其中所述至少一个反射子声道(1720)是根据基于对象的音频的空间再现信息生成的；其中所述至少一个反射子声道(1720)用于可单独寻址驱动器(702，704，706)的阵列的反射驱动器(704，706)；其中所述至少一个反射子声道(1720)配置为使反射驱动器(704，706)的驱动器能量的大部分从收听区域(800)的一个或多个表面反射离开以便模拟回放位置在收听区域(800)的一个或多个表面的存在；其中所述至少一个直接子声道(1720)用于可单独寻址驱动器(702，704，706)的阵列的直接驱动器(702)；并且其中所述至少一个直接子声道(1720)配置为使直接驱动器的驱动器能量的大部分直接传播到收听区域中的回放位置；

验证在第一分解处理期间在由反射子声道(1720)和直接子声道(1720)生成的声波的传播中消耗的能量的量守恒；

为每个输入音频声道(1702)计算(1802)两个空间相邻的输入音频声道(1702)之间的声道间相关值以确定子声道(1720)对之间共同信号的量；

利用子声道(1720)对之间的能量总和守恒的约束，通过增大路由到直接子声道(1720)的那部分同时减小路由到反射子声道(1720)的那部分，使得路由到直接子声道(1720)的部分随着减小的声道间相关值而线性地增大，利用声道间相关值来更改输入音频声道(1702)的混合。

10.如权利要求9所述的方法(1600)，还包括把对应于相应子声道(1720)的每个子声道(1720)的音频信号发送到可单独寻址驱动器(702，704，706)的阵列，该阵列包括用于使声波从一个或多个表面传播离开的至少一个反射驱动器(704，706)，以及用于使声波直接传播到所述位置的至少一个直接驱动器(702)。

11.如权利要求9所述的方法(1600)，其中在由反射子声道(1720)和直接子声道(1720)生成的声波的传播中消耗的能量的量是利用频域变换处理来确定的。

12.如权利要求9所述的方法(1600)，还包括：

针对每个输入音频声道(1702)，计算(1804)一个或多个瞬变缩放项，其中缩放项代表与每个输入音频声道(1702)的瞬变中的能量成比例的值；

利用子声道(1720)对之间的能量总和守恒的约束，通过增大路由到直接子声道(1720)的那部分同时减小路由到反射子声道(1720)的那部分，利用瞬变缩放项来更改输入音频声道(1702)的混合；及

对反射和直接子声道(1720)执行(1812)均衡和延迟处理。

13.如权利要求12所述的方法(1600)，还包括把每个反射子声道(1720)分解(1808)成至少一个回响子声道(1720)和至少一个非回响子声道(1720)。

14.如权利要求12所述的方法(1600)，还包括利用去相关器函数把反射子声道(1720)与直接子声道(1720)去相关(1810)，该去相关器函数跨块对频域变换处理的每个频域变换操作。

15.如权利要求9所述的方法(1600)，其中音频渲染器包括把对象元数据应用到输入音频声道(1702)以结合可选的基于声道的音频内容处理基于对象的音频内容的部件。

16.如权利要求9所述的方法(1600)，其中输入音频声道(1702)包括基于声道的内容，并且音频渲染器包括生成用于发送到处于环绕声配置的扬声器的阵列的扬声器馈送的部件。

17.如权利要求12所述的方法(1600)，还包括：

在收听区域中部署麦克风以方便收听区域的直接-回响比的计算。

18.一种用于处理音频信号的系统(1700)，包括：

接收器级，从音频渲染器接收多个输入音频声道(1702)；其中所述多个输入音频声道(1702)包括基于对象的音频；其中所述多个输入音频声道(1702)包括规定相应输入音频声道(1702)在收听区域(800)中的回放位置的信息；

分割器部件(1710)，在第一分解处理中把每个输入音频声道(1702)分成至少一个反射子声道(1720)和至少一个直接子声道(1720)；

能量计算级，计算一个或多个能量值供在验证由反射子声道(1720)和直接子声道(1720)生成的声波的传播中消耗的能量的量在第一分解处理期间守恒时使用；

声道间相关单元(1706)，针对每个输入音频声道(1702)，计算两个空间相邻的输入音频声道(1702)之间的声道间相关值以确定子声道(1720)对之间共同信号的量；

其中，利用子声道(1720)对之间的能量总和守恒的约束，通过增大路由到直接子声道(1720)的那部分同时减小路由到反射子声道(1720)的那部分，使得路由到直接子声道(1720)的部分随着减小的声道间相关值而线性地增大，声道间相关值被用来更改输入音频声道(1702)的混合；

其中所述至少一个反射子声道(1720)是根据基于对象的音频的空间再现信息生成的；其中所述至少一个反射子声道(1720)用于可单独寻址驱动器(702，704，706)的阵列的反射驱动器(704，706)；其中所述至少一个反射子声道(1720)配置为使反射驱动器(704，706)的驱动器能量的大部分从收听区域(800)的一个或多个表面反射离开以便模拟回放位置在收听区域(800)的一个或多个表面的存在；其中所述至少一个直接子声道(1720)用于可单独寻址驱动器(702，704，706)的阵列的直接驱动器(702)；并且其中所述至少一个直接子声道(1720)配置为使直接驱动器(702)的驱动器能量的大部分直接传播到收听区域(800)中的回放位置；及

输出级，生成对应于用于所述多个输入音频声道(1702)中的每个输入音频声道(1702)的至少一个子声道(1720)的多个子声道(1720)。

19.如权利要求18所述的系统(1700)，还包括在后续分解处理中把每个输入音频声道(1702)分成各个子声道(1720)的部件。

20.如权利要求19所述的系统(1700)，其中能量计算级包括：

瞬变值计算机(1704)，针对每个输入音频声道(1702)，计算一个或多个瞬变缩放项，其中缩放项代表与每个输入音频声道(1702)的瞬变中的能量成比例的值，其中，利用子声道(1720)对之间的能量总和守恒的约束，通过增大路由到直接子声道(1720)的那部分同时减小路由到反射子声道(1720)的那部分，瞬变缩放项被用来更改输入音频声道(1702)的混合；及

对反射和直接子声道(1720)执行均衡和延迟处理的部件。

21.如权利要求20所述的系统(1700)，还包括：

部署在收听区域(800)中的麦克风(1007)以方便收听区域(800)的直接-回响比的计算。

22.如权利要求18所述的系统(1700)，还包括：

系统的在包封收听区域(800)的房间内的网络链接部件；及

用于绕着房间分布的可单独寻址驱动器(702，704，706)的阵列，其中每个驱动器(702，704，706)在网络的通信协议内被唯一地标识，并且其中阵列的第一部分包括配置为使声音直接发送到房间内位置的直接驱动器(702)，并且其中阵列的第二部分包括配置为使声音在从房间的内表面反射离开之后发送到该位置的反射驱动器(704，706)。

23.如权利要求22所述的系统(1700)，其中子声道(1720)的回放位置包括在收听区域中感觉上在人的头部之上的位置，并且其中驱动器(702，704，706)的阵列的至少一个驱动器(706)配置为为了向下反射到房间内的位置而朝房间的天花板投射声波。

24.如权利要求22所述的系统(1700)，其中子声道(1720)的回放位置包括在收听区域(800)中感觉上环绕人的位置，并且其中驱动器(702，704，706)的阵列的至少一个驱动器(704)配置为为了反射到房间内的位置而朝房间的墙壁投射声波。