CN104604257B

CN104604257B - 用于在各种收听环境中渲染并且回放基于对象的音频的系统

Info

Publication number: CN104604257B
Application number: CN201380045578.2A
Authority: CN
Inventors: S·S·梅塔; B·G·克罗克特; S·胡克斯; A·西费尔特; C·查巴尼; C·P·布朗; J·B·兰多; B·巴斯勒; S·默里
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-08-31
Filing date: 2013-08-28
Publication date: 2016-05-25
Anticipated expiration: 2033-08-28
Also published as: US9826328B2; EP2891338A1; JP2015530825A; CN104604257A; EP4207817A1; US20220030373A1; HK1248046A1; WO2014036121A1; US20190349701A1; US11178503B2; US10959033B2; EP3253079B1; JP6085029B2; HK1205845A1; US20180077511A1; US20150223002A1; US20200382892A1; EP2891338B1; US10412523B2; EP3253079A1

Abstract

描述了关于通过包括可单独寻址驱动器、渲染器和回放系统的系统来渲染基于对象的音频内容的系统的实施例，所述可单独寻址驱动器包括被配置为使声波朝向收听环境内的一个或多个表面投射以反射到收听环境内的收听区域的至少一个驱动器，所述渲染器被配置为接收并且处理音频流和与每个音频流相关联的一个或多个元数据集合，并且指定各个音频流的回放位置，所述回放系统耦合到渲染器，并且被配置为根据所述一个或多个元数据集合将音频流渲染为与音频驱动器阵列相应的多个音频馈送。

Description

用于在各种收听环境中渲染并且回放基于对象的音频的系统

相关申请的交叉引用

本申请要求2012年8月31日提交的美国临时专利申请No.61/696,056的优先权，该申请的全部内容特此通过引用并入。

技术领域

一种或多种实现总体涉及音频信号处理，更具体地，涉及用于通过可单独寻址驱动器渲染自适应音频内容的系统。

背景技术

背景部分中所讨论的主题不应仅由于其在背景部分中被提及而被假定为现有技术。类似地，在背景部分中提及的或者与背景部分的主题相关联的问题不应被假定为以前已经在现有技术中被认识到。背景部分中的主题仅表示不同方法，这些方法本身也可以是发明。

电影原声带通常包括许多不同的声音元素，这些声音元素对应于屏幕上的图像、对话、噪声和音效，它们是从屏幕上的不同地方发出的并且与背景音乐和环境效果组合以创建总体观众体验。精确的回放要求声音以就声源位置、强度、移动和深度而言尽可能接近地对应于屏幕上所示的方式被再现。传统的基于声道的音频系统将音频内容以扬声器馈送的形式发送到回放环境中的单独的扬声器。

数字电影的引入对于电影声音创建了新标准，诸如合并音频的多个声道以使得可以使内容创建者有更大的创造力并且听众的听觉体验更具环绕感和真实感。作为用于分发空间音频的手段的、扩展超出传统的扬声器馈送和基于声道的音频是关键的，并且对于基于模型的音频描述已有着相当大的兴趣，所述基于模型的音频描述使得收听者可以选择期望的回放配置，而且音频专门针对他们所选的配置进行渲染。为了进一步改进收听者体验，真实的三维(“3D”)或虚拟3D环境中的声音回放已经变为了增加研究和开发的领域。声音的空间呈现利用音频对象，这些音频对象是具有视在源位置(例如，3D坐标)、视在源宽度和其他参数的相关联的参数化源描述的音频信号。基于对象的音频可以用于许多多媒体应用，诸如数字电影、视频游戏、模拟器，并且在家庭环境中是特别重要的，在家庭环境中，扬声器的数量及其放置通常受到相对小的收听环境的界限的限制或约束。

已经开发了改进影院环境中的音响系统并且更精确地捕捉和再现创建者对于电影声带的艺术意图的各种技术。例如，已经开发了下一代空间音频(也被称为“自适应音频”)格式，该格式包括音频对象和传统的基于声道的扬声器馈送、连同关于音频对象的位置元数据的混合。在空间音频解码器中，声道被直接发送到它们的相关联的扬声器(如果适当的扬声器存在的话)，或者被下混到已有的扬声器集合，并且音频对象被解码器以灵活的方式渲染。与每个对象相关联的参数化源描述(诸如在3D空间中的位置轨迹)连同连接到解码器的扬声器的数量和位置被取作输入。渲染器然后利用某些算法(诸如平移定律)来在附连的一组扬声器之间分发与每个对象相关联的音频。这样，通过收听房间里存在的特定扬声器配置最佳地呈现每个对象的所创作的空间意图。

目前的空间音频系统一般是针对影院使用开发的，因此涉及在大房间里进行部署以及使用相对昂贵的设备，包括围绕房间分布的多个扬声器的阵列。目前所制作的越来越多的电影内容是通过流传输技术和先进媒体技术(诸如蓝光等)而使得可以在家庭环境中回放的。另外，诸如3D电视和先进计算机游戏和模拟器的新兴技术鼓励使用相对复杂的设备，诸如家庭环境和其他消费者(非影院/剧场)环境中的大屏幕监视器、环绕声接收器和扬声器阵列。然而，设备成本、安装复杂性和房间大小是阻止空间音频在大多数家庭环境中得到充分利用的现实约束。例如，先进的基于对象的音频系统典型地利用头顶或高度扬声器来回放意图来源于收听者的头部上方的声音。在许多情况下，尤其是在家庭环境中，这样的高度扬声器可能是不可用的。在这种情况下，如果这样的声音对象仅通过落地扬声器或壁挂扬声器播放，则高度信息丢失。

因此所需要的是使得自适应音频系统的全空间信息可以在各种不同的收听环境中再现的系统，所述各种不同的收听环境是诸如并置扬声器系统、耳机、以及可以仅包括意图用于回放的整个扬声器阵列的一部分(诸如有限的扬声器或者没有头顶扬声器)的其他收听环境。

发明内容

描述关于如下的空间音频格式和系统以及新的空间描述格式的系统和方法：该空间音频格式和系统包括基于包括新型扬声器和声道配置的自适应音频系统的更新内容创建工具、分发方法和增强的用户体验；而该新的空间描述格式通过针对影院混音器创建的一套先进内容创建工具而成为可能的。实施例包括将基于影院的自适应音频构思扩展到其他音频回放生态系统的系统，所述其他回放生态系统包括家庭影院(例如，A/V接收器、条形音箱和蓝光播放器)、电子媒体(例如，PC、平板、移动装置和耳机回放)、广播(例如，TV和机顶盒)、音乐、游戏、现场声音、用户产生的内容(“UGC”)等。家庭环境系统包括提供与剧场内容的兼容性的组件，并且表征元数据定义，这些元数据定义包括传递创造意图的内容创建信息、关于音频对象的媒体情报信息、扬声器馈送、空间渲染信息、以及指示内容类型(诸如对话、音乐、气氛(ambience)等)的内容相关元数据。自适应音频定义可以包括经由音频声道的标准扬声器馈送、加上具有相关联的空间渲染信息(诸如在三维空间中的大小、速率和位置)的音频对象。还描述了将支持多种渲染技术的新颖的扬声器布局(或声道配置)和附随的新型空间描述格式。音频流(一般包括声道和对象)连同描述内容创建者的或混音器的意图(包括音频流的期望位置)的元数据一起发送。该位置可以表达为所命名的声道(来自预定义的声道配置)或3D空间位置信息。该声道加上对象格式提供了基于声道的音频场景描述方法和基于模型的音频场景描述方法两者的最佳音频场景描述方法。

实施例具体针对用于渲染自适应音频内容的系统，所述自适应音频内容包括意在于通过头顶或天花板安装的扬声器播放的头顶声音。在不具有可供使用的头顶扬声器的家庭或其他小规模收听环境中，头顶声音是通过被配置为使声音由收听环境的天花板或者一个或多个其他表面反射的扬声器驱动器再现的。

通过引用并入

本说明书中所提及的每个出版物、专利和/或专利申请的全部内容通过引用并入本文，就如同分别明确地指示各个出版物和/或专利申请通过引用并入一样。

附图说明

在下图中，相似的附图标记用于指示相似的元件。尽管下图描绘了各种例子，但是一种或多种实现不限于这些图中所描绘的例子。

图1例示提供用于回放高度声道的高度扬声器的环绕声系统(例如，9.1环绕声)中的示例扬声器放置。

图2例示根据实施例的用于生成自适应音频混合的声道和基于对象的数据的组合。

图3是根据实施例的用于自适应音频系统中的回放架构的框图。

图4A是例示根据实施例的用于调整基于影院的音频内容以用于收听环境中的功能组件的框图。

图4B是根据实施例的图3A的组件的详细框图。

图4C是根据实施例的自适应音频环境的功能组件的框图。

图4D例示根据实施例的分布式渲染系统，在该分布式渲染系统中，在扬声器单元中执行渲染功能的一部分。

图5例示自适应音频系统在示例家庭影院环境中的部署。

图6例示家庭影院中的使用反射声音来模拟头顶扬声器的向上发射驱动器的使用。

图7A例示根据实施例的用于具有反射声音渲染器的自适应音频系统中的具有成第一配置的多个驱动器的扬声器。

图7B例示根据实施例的用于具有反射声音渲染器的自适应音频系统中的具有分布在多个壳体中的驱动器的扬声器。

图7C是根据实施例的用于使用反射声音渲染器的自适应音频系统中的条形音箱的示例配置。

图8例示具有可单独寻址驱动器(包括放置在收听房间内的向上发射驱动器)的扬声器的示例放置。

图9A例示根据实施例的用于对于反射音频利用多个可寻址驱动器的自适应音频5.1系统的扬声器配置。

图9B例示根据实施例的用于对于反射音频利用多个可寻址驱动器的自适应音频7.1系统的扬声器配置。

图10是例示根据实施例的双向互连的构成的示图。

图11例示根据实施例的用于自适应音频系统中的自动配置和系统校准处理。

图12是例示根据实施例的用于自适应音频系统中的校准方法的处理步骤的流程图。

图13例示自适应音频系统在示例电视和条形音箱使用情况中的使用。

图14A例示根据实施例的自适应音频系统中的三维双耳耳机虚拟化的简化表示。

图14B是根据实施例的耳机渲染系统的框图。

图14C例示根据实施例的用于耳机渲染系统中的BRIR滤波器的构成。

图14D例示可以与耳机渲染系统的实施例一起使用的关于自由空间中的入射平面波的基本头部和躯干模型。

图14E例示根据实施例的与HRTF滤波器一起使用的耳廓特征的结构模型。

图15是例示根据实施例的用于对于某些收听环境利用反射声音渲染器的自适应音频系统中的某些元数据定义的表格。

图16是例示根据实施例的对于组合滤波器的频率响应的曲线图。

图17是例示根据实施例的将输入声道划分为子声道的处理的流程图。

图18例示根据实施例的将多个音频声道处理为多个反射子声道和直达子声道的上混器系统。

图19是例示根据实施例的将输入声道分解为子声道的处理的流程图。

图20例示根据实施例的用于使用反射高度扬声器虚拟地渲染基于对象的音频的扬声器配置。

具体实施方式

描述了关于对于缺乏头顶扬声器的自适应音频系统渲染反射声音的自适应音频系统的系统和方法，但是应用不如此受限。本文中所描述的一个或多个实施例的各方面可以在音频或视听系统中实现，所述音频或视听系统对包括执行软件指令的一个或多个计算机或处理装置的混合、渲染和回放系统中的源音频信息进行处理。所描述的任一实施例可以单独使用，或者以任何组合相互一起使用。尽管各个实施例的动机可能是克服在本说明书中的一个或多个地方中可能讨论的或暗指的现有技术的各种缺陷，但是实施例不必然解决这些缺陷中的任何一个。换句话说，不同实施例可以解决在本说明书中可能讨论的不同缺陷。一些实施例可以仅部分解决一些缺陷，或者仅解决在本说明书中可能讨论的一个缺陷，并且一些实施例可以不解决这些缺陷中的任何一个。

为了本描述的目的，以下术语具有相关联的意义：术语“声道”意指音频信号加上其中位置被编译码为声道标识符(例如，左前或右上环绕)的元数据；“基于声道的音频”是被格式化为通过具有相关联的标称位置的预定义的一组扬声器区域(例如，5.1、7.1等)回放的音频；术语“对象”或“基于对象的音频”意指具有参数化源描述(诸如视在源位置(例如，3D坐标)、视在源宽度等)的一个或多个音频声道；“自适应音频”意指基于声道的音频信号和/或基于对象的音频信号加上如下元数据，所述元数据通过使用音频流加上其中位置被编译码为空间中的3D位置的元数据基于回放环境来渲染音频信号；“收听环境”意指任何开放的、部分封闭的或完全封闭的区域，诸如可以用于仅回放音频内容或者将音频内容与视频或其他内容一起回放的房间，并且可以体现在家里、影院、剧场、观众席、工作室、游戏控制台等中。这样的区域在其中可以设置有一个或多个表面，诸如可以直接反射或漫反射声波的墙壁或挡板。

自适应音频格式和系统

实施例针对被配置为与可以被称为“空间音频系统”或“自适应音频系统”的声音格式和处理系统一起工作的反射声音渲染系统，所述“空间音频系统”或“自适应音频系统”基于允许提高的观众沉浸感、更大艺术控制、以及系统灵活性和可扩展性的音频格式和渲染技术。整体自适应音频系统一般包括被配置为产生一个或多个比特流的音频编码、分发和解码系统，所述比特流包含传统的基于声道的音频元素和音频对象译码元素两者。与单独采用基于声道的方法或基于对象的方法相比，这样的组合方法提供更大的译码效率和渲染灵活性。在2013年1月10日发布的未决的国际公布No.WO2013/006338中描述了可以与目前的实施例结合使用的自适应音频系统的例子，该公布特此通过引用并入。

自适应音频系统和相关联的音频格式的示例实现是AtmosTM平台。这样的系统合并有可以实现为9.1环绕声系统或类似的环绕声配置的高度(上/下)维度。图1例示了提供用于回放高度声道的高度扬声器的目前的环绕声系统(例如，9.1环绕声)中的扬声器放置。9.1系统100的扬声器配置由在地面平面中的五个扬声器102和在高度平面中的四个扬声器104组成。通常，这些扬声器可以用于生成被设计为在房间内或多或少精确地从任何位置发出的声音。预定义的扬声器配置(诸如图1中所示的扬声器配置)可以自然地限制精确地表示给定声源的位置的能力。例如，声源的平移不能比左扬声器本身更靠左。这适用于每一个扬声器，因此形成一维(例如，左右)、二维(例如，前-后)、或三维(例如，左-右、前-后、向下)几何形状，在该几何形状中，下混受到约束。各种不同的扬声器配置和类型可以用于这样的扬声器配置中。例如，某些增强型音频系统可以使用9.1、11.1、13.1、19.4或其他配置的扬声器。扬声器类型可以包括全范围直达扬声器、扬声器阵列、环绕扬声器、低音炮、高音扬声器以及其他类型的扬声器。

音频对象可以被认为是可以被感知为从收听环境中的一个或多个特定物理位置发出的声音元素组。这样的对象可以是静态的(即，静止的)或动态的(即，移动的)。音频对象由元数据连同其他功能控制，所述元数据定义在给定时刻的声音的位置。当对象被回放时，对象被使用存在的扬声器根据位置元数据来渲染，而不必输出到预定义的物理声道。会话中的音轨可以是音频对象，并且标准的平移数据类似于位置元数据。这样，放置在屏幕上的内容可以有效地以与基于声道的内容一样的方式平移，但是如果需要，放置在环绕声中的内容可以被渲染到单独的扬声器。虽然音频对象的使用对于离散效果提供了期望的控制，但是声带的其他方面可在基于声道的环境中有效地工作。例如，许多氛围效果或混响实际上受益于被馈送到扬声器阵列。尽管这些可以被看作具有足以填充阵列的宽度的对象，但是保持一些基于声道的功能性是有益的。

自适应音频系统被配置为除了音频对象之外还支持“床(bed)”，其中，床是有效地基于声道的副混音或支干(stem)。这些可以被递送以供最终单独地或者组合为单个床进行回放(渲染)，这依内容创建者的意图而定。这些床可以在不同的基于声道的配置(诸如5.1、7.1和9.1)以及诸如图1中所示的包括头顶扬声器的阵列中被创建。图2例示了根据实施例的用于生成自适应混合的基于声道的数据和基于对象的数据的组合。如处理200中所示，基于声道的数据202(其例如可以是以脉冲码调制(PCM)数据的形式提供的5.1或7.1环绕声数据)与音频对象数据204组合以生成自适应混合208。音频对象数据204通过将原始的基于声道的数据的元素与相关联的元数据组合而生成，所述元数据指定与音频对象的位置相关的某些参数。如图2中概念性地示出的，创作工具提供创建同时包含对象声道和扬声器声道组的组合的音频节目的能力。例如，音频节目可以包含可选地组织成组(或音轨，例如，立体声或5.1音轨)的一个或多个扬声器声道、关于一个或多个扬声器声道的描述性元数据、一个或多个对象声道、以及关于一个或多个对象声道的描述性元数据。

作为分发空间音频的手段，自适应音频系统有效地超越了简单的“扬声器馈送”，并且已经开发了先进的基于模型的音频描述，其使得收听者可以自由地选择适合于他们各自的需求或预算的回放配置并且使音频专门针对他们个体选择的配置进行渲染。在高层次上，存在四种主要的空间音频描述格式：(1)扬声器馈送，其中，音频被描述为意图用于安置在标称扬声器位置处的扩音器的信号；(2)麦克风馈送，其中，音频被描述为由成预定义配置(麦克风的数量及其相对位置)的9个实际或虚拟麦克风捕捉的信号；(3)基于模型的描述，其中，音频是按照位于所描述的时间、所描述的位置处的音频事件的序列描述的；以及(4)双耳，其中，音频用到达收听者的两个耳朵的信号描述。

这四种描述格式常常与下列常用的渲染技术相关联，其中，术语“渲染”意指到到用作扬声器馈送的电信号的转换：(1)平移，其中，使用一组平移定律和已知的或假定的扬声器位置将音频流转换为扬声器馈送(典型地，在分发之前进行渲染)；(2)环境立体混合声，其中，麦克风信号被转换对于可扩展扩音器阵列的馈送(典型地在分发之后进行渲染)；(3)波场合成(WFS)，其中，声音事件被转换为适当的扬声器信号以合成声场(典型地在分发之后进行渲染)；以及(4)双耳，其中，L/R双耳信号被递送到LIR耳朵，典型地是通过耳机递送，但是还通过结合串音消除的扬声器递送。

通常，任何格式可以转换为另一种格式(但是这可能需要盲源分离或类似的技术)，并且使用前述任一技术进行渲染；然而，并非所有的变换实际上都得到良好的结果。扬声器馈送格式是最常用的，因为它简单且有效。最佳的(即，最精确的且可靠的)声音结果通过在扬声器馈送中进行混合/监视、然后直接分发这些扬声器馈送来实现，因为在内容创建者与收听者之间不需要处理。如果回放系统事先是已知的，则扬声器馈送描述提供最高保真度；然而，回放系统及其配置常常在事前是未知的。相反，基于模型的描述是最有适应力的，因为它不对回放系统做出假定，因此最容易被应用于多种渲染技术。基于模型的描述可以高效地捕捉空间信息，但是随着音频源的数量增加，变得效率非常低。

自适应音频系统将基于声道的系统和基于模型的系统两者的益处相组合，其中具体的益处包括：音色质量高、当使用相同的声道配置进行混合和渲染时最佳地再现艺术意图、单个清单目录对于渲染配置具有向下适应性、对于系统流水线的影响相对较低、以及经由更精细的水平扬声器空间分辨率和新高度声道使得沉浸感提高。自适应音频系统提供几个新特征，包括：单个清单目录对于特定的影院渲染配置具有向下和向上适应性，即，在回放环境中的可用扬声器的延迟渲染以及最佳使用；环绕感提高，包括优化下混以避免声道间相关(ICC)伪像；经由steer-thru阵列提高了空间分辨率(例如，使得音频对象可以动态地分配给环绕声阵列内的一个或多个扩音器)；以及经由高分辨率中央或类似扬声器配置提高了前声道分辨率。

音频信号的空间效果对于为收听者提供沉浸式体验是关键的。意在于从观看屏幕或房间的特定区域发出的声音应通过安置在同一相对位置处的一个(多个)扬声器播放。因此，基于模型的描述中的声音事件的主要音频元数据是位置，但是还可以描述其他参数，诸如大小、方位、速率和声弥散。为了传递位置，基于模型的3D音频空间描述需要3D坐标系。为了方便或紧凑，通常选择用于传输的坐标系(例如，欧几里德、球面、柱面)；然而，其他坐标系可以用于渲染处理。除了坐标系之外，需要参考系来表示对象在空间中的位置。为了使系统在各种不同的环境中精确地再现基于位置的声音，选择适当的参考系可能是关键的。就非自我中心的参考系而言，音频源位置是相对于渲染环境内的特征(诸如房间墙壁和拐角、标准扬声器位置以及屏幕位置)被定义的。在自我中心的参考系中，位置是相对于收听者的视角表示的，诸如“在我的前面”、“略向左”等。空间感知(音频和其他)的科学研究表明自我中心视角是最普遍使用的。然而，对于影院，非自我中心的参考系一般是最适合的。例如，当在屏幕上存在相关联的对象时，音频对象的精确位置是最重要的。当使用非自我中心的参考时，对于每一个收听位置以及对于任何屏幕大小，声音将局部化在屏幕上的同一相对位置处，例如，“屏幕的中间的左侧三分之一”。另一个原因是，混频器趋向于从非自我中心的角度进行思考和混合，并且平移工具与非自我中心的参考系(即，房间墙壁)布局在一起，并且混合器期待它们被这样渲染，例如，“该声音应在屏幕上”、“该声音应在屏幕外”、或者“来自左壁”等。

尽管在影院环境中使用非自我中心的参考系，但是存在自我中心的参考系可以是有用的并且更加适合的某些情况。这些包括画外音，即，在“故事空间”中不存在的那些声音，例如，气氛音乐，对于这些画外音，从自我中心的角度来讲均匀的呈现可能是期望的。另一种情况是需要自我中心表示的近场效果(例如，在收听者的左耳中嗡嗡叫的蚊子)。另外，无限远的声源(以及所得的平面波)可能表现为来自恒定的自我中心位置(例如，向左30度)，并且这样的声音更易于从自我中心的角度、而不是从非自我中心的角度进行描述。在某些情况下，可以使用非自我中心参考系，只要定义了标称收听位置即可，而某些例子要求尚不可能渲染的自我中心呈现。尽管非自我中心参考可能更加有用并且更加适合，但是音频表示应是可扩展的，这是因为许多新特征(包括自我中心表示)在某些应用和收听环境中可能是更可取的。

自适应音频系统的实施例包括混合空间描述方法，其包括推荐的用于使得保真度最佳以及使用自我中心参考对漫射的或复杂的多点源(例如，体育场人群、周围环境)进行渲染的声道配置，加上高效率地使得能够提高空间分辨率和可缩放性的非自我中心的基于模型的声音描述。图3是根据实施例的用于自适应音频系统中的回放架构的框图。图3的系统包括在音频发送到后处理和/或放大级和扬声器级之前执行老式的、对象和声道音频解码、对象渲染、声道重新映射和信号处理的处理块。

回放系统300被配置为渲染并且回放通过一个或多个捕捉组件、预处理组件、创作组件和译码组件产生的音频内容。自适应音频预处理器可以包括通过分析输入音频自动地产生适当的元数据的源分离和内容类型检测功能。例如，位置元数据可以通过分析声道对之间的相关输入的相对水平从多声道记录被得出。内容类型(诸如语音或音乐)的检测可以例如通过特征提取和分类来实现。某些创作工具使得可以通过下述方式来创作音频节目，即，优化录音师的创造意图的输入和整理，使得他可以一次创建针对在实际任何回放环境中回放被优化的最终音频混合。这可以通过使用与原始音频内容相关联的并且用原始音频内容编码的音频对象和位置数据来实现。为了精确地围绕观众席放置声音，录音师需要基于回放环境的实际约束和特征来控制最终将如何对声音进行渲染。自适应音频系统通过使得录音师可以通过使用音频对象和位置数据改变如何设计和混合音频内容来提供该控制。一旦自适应音频内容已经被创作并且在适当的编解码装置中被译码，就在回放系统300的各种组件中对它进行解码和渲染。

如图3中所示，(1)老式环绕声音频302、(2)包括对象元数据的对象音频304、以及(3)包括声道元数据的声道音频306输入到处理块310内的解码器级308、309。对象元数据在对象渲染器312中被渲染，而声道元数据可以在必要时被重新映射。房间配置信息307提供给对象渲染器和声道重新映射组件。混合音频数据然后在输出到B链处理级316和通过扬声器318回放之前通过一个或多个信号处理级(诸如均衡器和限幅器314)被处理。系统300表示用于自适应音频的回放系统的例子，并且其他的配置、组件和互连也是可能的。

回放应用

如以上所提及的，自适应音频格式和系统的初始实现是在包括内容捕捉(对象和声道)的数字影院(D-cinema)背景下，所述内容捕捉是使用新颖的创作工具创作的，使用自适应音频影院编码器进行包装，并且使用PCM或者专有的利用现有的数字电影倡导联盟(DCI)分发机制的无损编解码器进行分发。在这种情况下，音频内容意图在数字电影中被解码和渲染以创建沉浸式空间音频影院体验。然而，与以前的影院改进(诸如模拟环绕声、数字多声道音频等)一样，必要的是在收听者的家中将自适应音频格式所提供的增强的用户体验直接递送给收听者。这要求所述格式和系统的某些特性适于用在更有限的收听环境中。例如，与影院或剧场环境相比，家里、房间、小型观众席或类似的地方可能具有缩小的空间、降低的声学性质和设备能力。为了描述的目的，术语“基于消费者的环境”意图包括任何非影院环境，所述非影院环境包括供经常性的消费者或专业人士使用的收听环境，诸如房屋、工作室、房间、控制台区域、观众席等。音频内容可以从源获得，并且单独进行渲染，或者它可以与图形内容(例如，静态图片、灯光显示、视频等)相关联。

图4A是例示根据实施例的用于使基于影院的音频内容适用于收听环境中的功能组件的框图。如图4A中所示，在方框402中，使用适当的设备和工具捕捉和/或创作典型地包括电影原声带的电影内容。在自适应音频系统中，在方框404中，通过编码/解码和渲染组件和接口对该内容进行处理。然后将所得的对象和声道音频馈送发送到影院或剧场中的适当的扬声器，406。在系统400中，还对电影内容进行处理以供在收听环境(诸如家庭影院系统)中回放，416。假定由于空间有限、扬声器计数减少等，收听环境不像内容创建者的意图那样全面或者能够再现所有声音内容。然而，实施例涉及如下这样的系统和方法，其允许原始音频内容以最小化收听环境的降低的能力所施加的限制的方式被渲染，并且允许位置线索以最大化可用设备的方式被处理。如图4A中所示，通过电影到消费者转化器组件408对电影音频内容进行处理，在消费者内容译码和渲染链414中对该电影音频内容进行处理。该链还对在方框412中捕捉和/或创作的原始消费者音频内容进行处理。然后在收听环境中回放原始消费者内容和/或转化后的电影内容，416。以这种方式，即使使用家庭或其他消费者收听环境416的可能有限的扬声器配置，音频内容中所译码的相关的空间信息仍可以用于以更沉浸的方式来渲染声音。

图4B更详细地例示了图4A的组件。图4B例示了整个消费者生态系统中的自适应音频电影内容的示例分发机制。如示图420中所示，捕捉422并且创作423原始电影和TV内容以供在各种不同的环境中回放以提供影院体验427或消费者环境体验434。同样地，捕捉423并且创作425某些用户产生内容(UGC)或消费者内容以供在收听环境434中回放。通过已知的影院处理426对用于在影院环境427中回放的电影内容进行处理。然而，在系统420中，电影创作工具箱423的输出还由音频对象、音频声道和元数据组成，所述元数据传达混合器的艺术意图。这可以被认为是夹层式音频包，该夹层式音频包可以用于创建用于回放的电影内容的多种版本。在实施例中，该功能由电影到消费者自适应音频转化器430提供。该转化器具有自适应音频内容的输入，并且从它提取适合于期望的消费者端点434的音频和元数据内容。转化器根据消费者分发机制和端点创建分离的、并且可能不同的音频和元数据输出。

如系统420的例子中所示，电影到消费者转化器430对于图片伴声(例如，广播、光盘、OTT等)和游戏音频比特流创建模块428进行馈送。适合于递送电影内容的这两个模块可以被馈送到多个分发流水线432中，所有这些都可以递送到消费者端点。例如，自适应音频电影内容可以使用适合于广播目的的编解码器(诸如DolbyDigitalPlus)进行编码，该自适应音频电影内容可以修改为传送声道、对象和相关联的元数据，并且经由电缆或卫星通过广播链传输，然后在家里进行解码和渲染以供家庭影院或电视回放。类似地，可以使用适合于其中带宽有限的在线分发的编解码器来对相同的内容进行编码，在这种情况下，该内容然后通过3G或4G移动网络传输，然后被解码和渲染以经由移动装置使用耳机回放。其他内容源(诸如TV、现场广播、游戏和音乐)也可以使用自适应音频格式来创建并且提供下一代空间音频格式的内容。

图4B的系统在整个音频生态系统中提供增强的用户体验，所述音频生态系统可以包括家庭影院(例如，AN接收器、条形音箱和BluRay)、电子媒体(例如，PC、平板、包括耳机回放的移动装置)、广播(例如，TV和机顶盒)、音乐、游戏、现场声音、用户产生的内容等。这样的系统对于所有端点装置的观众提供提高的沉浸感、对于音频内容创建者提供扩大的艺术控制、提供改进的用于改进渲染的内容相关(描述性)元数据、对于回放系统提供扩大的灵活性和可缩放性、提供音色保持和匹配、以及提供基于用户位置和交互动态地渲染内容的机会。所述系统包括若干组件，包括用于内容创建者的新型混音工具、用于分发和回放的更新的新型包装和译码工具、家庭动态混音和渲染(适合于不同的收听环境配置)、另外的扬声器位置和设计。

自适应音频生态系统被配置为使用如下自适应音频格式的完全全面的、端对端的、下一代音频系统，所述自适应音频格式包括跨大量端点装置和使用实例的内容创建、包装、分发和回放/渲染。如图4B中所示，所述系统起始于从若干个不同的使用实例捕捉关于这些使用实例的内容，422和424。这些捕捉点包括所有相关的内容格式，包括电影、TV、现场直播(和声音)、UGC、游戏和音乐。内容随着它通过生态系统而经历几个关键的阶段，诸如预处理和创作工具、转化工具(即，针对影院到消费者内容分发应用的自适应音频内容的转化)、特定的自适应音频包装/比特流编码(其捕捉音频本质数据以及附加元数据和音频再现信息)、用于高效率地通过各种音频声道分发的使用现有的或新型的编解码器(例如，DD+、TrueHD、DolbyPulse)的分发编码、通过相关分发声道(例如，广播、光盘、移动、互联网等)的传输、以及最后的用于再现并且传达由提供空间音频体验的益处的内容创建者所定义的自适应音频用户体验的端点知晓动态渲染。自适应音频系统可以在渲染期间用于各种不同数量的消费者端点，并且可以根据端点装置对所应用的渲染技术进行优化。例如，家庭影院系统和条形音箱可以具有在不同位置的2个、3个、5个、7个或者甚至9个分离的扬声器。许多其他类型的系统可以仅具有两个扬声器(例如，TV、膝上型电脑、音乐坞站等)，并且几乎所有的常用的装置都具有耳机输出(例如，PC、膝上型电脑、平板、蜂窝电话、音乐播放器等)。

目前的用于非电影音频的创作和分发系统在对于音频本质(即，通过再现系统回放的实际音频)中所传达的内容的类型具有有限了解的情况下创建意图再现的音频并且将其递送到预定义的固定扬声器位置。然而，自适应音频系统提供了音频创建的新型混合方法，该方法包括关于固定扬声器位置特定音频(左声道、右声道等)和基于对象的音频元素两者的选项，所述基于对象的音频元素具有包括位置、大小和速率的广义3D空间信息。该混合方法提供了对于渲染(广义的音频对象)时的保真度(由固定扬声器位置提供)和灵活性平衡的方法。该系统还经由新的元数据提供附加的关于音频内容的有用信息，该新的元数据由内容创建者在内容创建/创作时使得与音频本质配对。该信息提供关于在渲染期间可以使用的音频的属性的详细信息。这样的属性可以包括内容类型(例如，对话、音乐、效果、Foley、背景/周围环境等)以及音频对象信息(诸如空间属性(例如，3D位置、对象大小、速率等))和有用的渲染信息(例如，锁定到扬声器位置、声道权重、增益、低音管理信息等)。音频内容和再现意图元数据可以由内容创建者手动创建，要么通过使用自动的媒体智能算法创建，所述媒体智能算法可以在创作处理期间在后台运行，并且如果需要的话，在最后的质量控制阶段期间由内容创建者检验。

图4C是根据实施例的自适应音频环境的功能组件的框图。如示图450中所示，所述系统对传载混合对象和基于声道的音频流两者的编码比特流452进行处理。该比特流由渲染/信号处理方框454处理。在实施例中，该功能方框的至少部分可以在图3中所示的渲染方框312中实现。渲染功能454实现用于自适应音频的各种渲染算法、以及某些后处理算法，诸如上混、处理直达声音对比反射声音、等等。渲染器的输出通过双向互连456提供给扬声器458。在实施例中，扬声器458包括可以按环绕声或类似配置布置的若干个单独的驱动器。驱动器可单独寻址，并且可以包含在单独的壳体或多驱动器箱体或阵列中。系统450还可以包括麦克风460，其提供可被用于校准渲染处理的房间特性的测量。系统配置和校准功能在方框462中提供。这些功能可以被包括作为渲染组件的一部分，或者它们可以实现为在功能上耦合到渲染器的单独的组件。双向互连456提供从扬声器环境(收听房间)回到校准组件462的反馈信号路径。

分布式/集中式渲染

在实施例中，渲染器454包括体现在与网络相关联的中央处理器中的功能处理。可替代地，渲染器可以包括至少部分由在可单独寻址音频驱动器阵列的每个驱动器内的或者耦合到该每个驱动器的电路系统执行的功能处理。在集中式处理的情况下，渲染数据以通过单独的音频声道发送的音频信号的形式被发送到单独的驱动器。在分布式处理实施例中，中央处理器可以不执行渲染，或者执行音频数据的至少一些部分渲染，最后在驱动器中执行渲染。在这种情况下，要求被供电的扬声器/驱动器启用板载处理功能。一种示例实现是使用集成有麦克风的扬声器，在这种情况下，基于麦克风数据改动渲染，并且调整在扬声器本身中进行。这消除了为了校准和/或配置的目的将麦克风信号发送回到中央渲染器的需要。

图4D例示了根据实施例的分布式渲染系统，在该分布式渲染系统中，在扬声器单元中执行渲染功能的一部分。如图470中所示，编码比特流471输入到包括部分渲染组件的信号处理级472。部分渲染器可以执行渲染功能的任何适当的比例部分，诸如要么根本不执行渲染，或者执行高达50％或75％的渲染。原始的编码比特流或部分渲染的比特流然后通过互连476发送到扬声器472。在该实施例中，扬声器本身给包含驱动器和直流电源连接或板载电池的单元供电。扬声器单元472还包含一个或多个集成麦克风。渲染器和可选的校准功能474也集成在扬声器单元472中。渲染器474根据部分渲染器472执行渲染的程度(如果有的话)对编码的比特流执行最终的或完全的渲染操作。在全分布式实现中，扬声器校准单元474可以使用麦克风生成的声音信息来直接对扬声器驱动器472执行校准。在这种情况下，互连476可以是仅仅是单向互连。在替代的或部分分布式实现中，集成的或其他麦克风可以将声音信息提供回给可选的与信号处理级472相关联的校准单元473。在这种情况下，互连476是双向互连。

收听环境

自适应音频系统的实现的意图是部署在各种不同的收听环境中。这些包括三个主要消费类应用领域：家庭影院系统、电视和条形音箱、以及耳机，但是还可以包括影院、剧场、工作室、以及其他大规模或专业环境。图5例示了示例家庭影院环境中的自适应音频系统的部署。图5的系统例示了自适应音频系统可以提供的组件和功能的超集，并且某些方面可以基于用户的需要减少或移除，同时仍然提供增强的体验。系统500包括在各种不同的箱体或阵列504中的各种不同的扬声器和驱动器。扬声器包括单独的驱动器，这些驱动器提供前向发射选项、侧向发射选项和向上发射选项、以及使用某些音频处理技术对音频的动态虚拟化。示图500例示了按标准的9.1扬声器配置部署的数个扬声器。这些包括左高度扬声器和右高度扬声器(LH、RH)、左扬声器和右扬声器(L、R)、中央扬声器(被示为修改的中央扬声器)、以及左环绕扬声器、右环绕扬声器、左后扬声器和右后扬声器(LS、RS、LB和RB，低频元件LFE未示出)。

图5例示了房间或剧场的中央位置所使用的中央声道扬声器510的使用。在实施例中，该扬声器使用修改的中央声道或高分辨率中央声道510来实现。这样的扬声器可以是具有可单独寻址扬声器的前向发射中央声道阵列，所述可单独寻址扬声器允许音频对象通过该阵列的离散平移与屏幕上的视频对象的移动匹配。它可以实施为高分辨率中央声道(HRC)扬声器，诸如2011年9月29日公布的国际专利公布No.WO2011/119401中所描述的HRC扬声器，该专利公布特此通过引用并入。如所示，HRC扬声器510还可以包括侧向发射扬声器。如果HRC扬声器不仅用作中央扬声器，而且还用作具有条形音箱能力的扬声器，则这些扬声器可以被启动和使用。HRC扬声器还可以结合在屏幕502的上方和/或侧面以为音频对象提供二维的高分辨率平移选项。中央扬声器510还可以包括另外的驱动器，并且实现具有单独控制的声音区域的可操纵声束。

系统500还包括可以安置在收听者的正前面或靠近收听者的前面(诸如在座位前面的台子上)的近场效应(NFE)扬声器512。通过自适应音频，可以将音频对象带入房间里，而不是仅仅使它们锁定到房间的周边。因此，使对象跨越三维空间是选项。例子是，对象可以始发于L扬声器中，通过NFE扬声器穿过房间，并且终止于RS扬声器中。各种不同的扬声器可以适合于用作NFE扬声器，诸如无线的电池供电的扬声器。

图5例示了使用动态扬声器虚拟化来在家庭影院环境中提供沉浸式用户体验。通过基于自适应音频内容提供的对象空间信息动态地控制扬声器虚拟化算法参数来启用动态扬声器虚拟化。该动态虚拟化在图5中是针对L扬声器和R扬声器示出的，在这种情况下，自然地认为它是用于创建沿着房间的侧面移动的对象的感知。可以对于每个相关的对象使用单独的虚拟器，并且组合的信号可以发送到L扬声器和R扬声器以创建多对象虚拟化效果。动态虚拟化效果是针对L扬声器和R扬声器以及NFE扬声器示出的，NFE扬声器意图是立体声扬声器(具有两个独立的输入)。该扬声器连同音频对象大小和位置信息一起可以用于创建漫射源或点源近场音频体验。类似的虚拟化效果也可以应用于系统中的其他扬声器中的任何一个或全部。在实施例中，照相机可以提供另外的收听者位置，并且识别可以被自适应音频渲染器用于提供更引人入胜的、更忠实于混音器的艺术意图的体验的信息。

自适应音频渲染器理解混合系统与回放系统之间的空间关系。在回放环境的某些实例中，如图1中所示，在房间的所有相关区域(包括头顶位置)中，离散的扬声器可以是可供使用的。在离散的扬声器可在某些位置处使用的这些情况下，渲染器可以被配置为将对象“扣合”到最近的扬声器，而不是通过平移或者使用扬声器虚拟化算法来在两个或更多个扬声器之间创建幻影声像。虽然它使混音的空间表示略为失真，但是它还使得渲染器可以避免意外的幻影声像。例如，如果混音级的左扬声器的角度位置不对应于回放系统的左扬声器的角度位置，则启用该功能将避免具有初始左声道的恒定的幻影声像。

然而，在许多情况下，尤其是在家庭环境中，某些扬声器，诸如安装在天花板上的头顶扬声器，是不可用的。在这种情况下，某些虚拟化技术被渲染器实现为通过现有的落地或壁挂扬声器再现头顶音频内容。在实施例中，自适应音频系统包括通过对于每个扬声器并入前向发射能力和顶向(或“向上”)发射能力两者来对于标准配置进行修改。在传统的家庭应用中，扬声器制造商已经尝试了引入不同于前向发射换能器的新驱动器配置，并且面临试图识别哪些原始音频信号(或者它们的修改)应发送到这些新驱动器的问题。通过自适应音频系统，存在关于哪些音频对象应在标准水平面上方被渲染的非常明确的信息。在实施例中，使用向上发射驱动器来渲染存在于自适应音频系统中的高度信息。同样地，侧面发射扬声器可以用于渲染某些其他内容，诸如包围效果。

向上发射驱动器的一个优点是，它们可以用于使声音由坚硬的天花板表面反射以模拟定位在天花板中的头顶/高度扬声器的存在。自适应音频内容的引人注目的属性是使用头顶扬声器阵列来再现空间上多样的音频。然而，如上所述，在许多情况下，在家庭环境中，安装头顶扬声器太贵或者不实用。通过使用正常定位在水平面中的扬声器来模拟高度扬声器，可以在易于定位扬声器的情况下创建引人入胜的3D体验。在这种情况下，自适应音频系统以音频对象及其空间再现信息被用于创建由向上发射驱动器再现的音频的新方式使用向上发射/高度模拟驱动器。

图6例示了在家庭影院中的使用反射声音模拟单个头顶扬声器的向上发射驱动器的使用。应指出，任何数量的向上发射驱动器可以组合使用以创建多个模拟的高度扬声器。可替代地，若干个向上发射驱动器可以被配置为将声音发送到天花板上基本相同的点以实现某一声音强度或效果。示图600例示了惯常的收听位置602位于房间内的特定地方处的例子。所述系统不包括用于发送含有高度线索的音频内容的任何高度扬声器。相反，扬声器箱体或扬声器阵列604包括向上发射驱动器连同一个(多个)前向发射驱动器。向上发射驱动器(就位置和倾角而言)被配置为将其声波606向上发送到天花板608上的特定点，在该特定点处，它将被向下反射回到收听位置602。假定天花板由将声音充分地向下反射回到房间里的适当的材料和组成制成。向上发射驱动器的相关特性(例如，大小、功率、位置等)可以基于天花板组成、房间大小以及收听环境的其他相关特性来选择。尽管图6中仅示出了一个向上发射驱动器，但是在某些实施例中，多个向上发射驱动器可以合并到再现系统中。

在实施例中，自适应音频系统利用向上发射驱动器来提供高度元素。通常，已经表明结合有用于将感知高度线索引入到馈送到向上发射驱动器的音频信号中的信号处理改进了虚拟高度信号的定位和感知质量。例如，已经开发了用于创建高度线索滤波器的参数化感知双耳听力模型，所述高度线索滤波器在用于处理由向上发射驱动器再现的音频时改进了再现的感知质量。在实施例中，高度线索滤波器是从物理扬声器位置(与收听者大致齐平)和反射扬声器位置(在收听者上方)两者得出的。对于物理扬声器位置，基于外耳(或耳廓)模型来确定方向滤波器。接着确定该滤波器的逆，并且使用该逆来移除来自物理扬声器的高度线索。接着，对于反射扬声器位置，使用相同的外耳模型来确定第二方向滤波器。该滤波器被直接应用，基本上再现在声音位于收听者上方的情况下耳朵将接收到的线索。在实践中，这些滤波器可被以如下方式组合，该方式允许单个滤波器既可以(1)移除来自物理扬声器位置的高度线索、又可以(2)插入来自反射扬声器位置的高度线索。图16是例示对于这样的组合滤波器的频率响应的曲线图。组合滤波器可被以允许对于所应用的滤波的侵略性或量进行一定调整的方式使用。例如，在某些情况下，可能有益的是不完全移除物理扬声器高度线索，或者完全应用反射扬声器高度线索，这是因为来自物理扬声器的声音中只有一些直接到达收听者(其余部分由天花板反射)。

扬声器配置

用于家庭使用和类似应用的自适应音频系统的主要考虑是扬声器配置。在实施例中，所述系统利用可单独寻址驱动器，这样的驱动器的阵列被配置为提供直达声源和反射声源两者的组合。到系统控制器(例如，A/V接收器、机顶盒)的双向链路允许音频和配置数据被发送到扬声器、扬声器和传感器信息被送回到控制器，创建主动的闭环系统。

为了描述的目的，术语“驱动器”意指响应于电音频输入信号生成声音的单个电声换能器。驱动器可以实现为任何适当的类型、几何形状和大小，并且可以包括喇叭、圆锥体、带状换能器等。术语“扬声器”意指在一体化壳体中的一个或多个驱动器。图7A例示了根据实施例的具有成第一配置的多个驱动器的扬声器。如图7A中所示，扬声器壳体700具有安装在壳体内的若干个单个驱动器。通常，壳体将包括一个或多个前向发射驱动器702，诸如低音炮、中音扬声器或高音扬声器、或者它们的任何组合。还可以包括一个或多个侧向发射驱动器704。前向发射驱动器和侧向发射驱动器典型地与壳体的侧面齐平地安装，以使得它们从扬声器限定的垂直平面向外垂直地投射声音，并且这些扬声器通常永久地固定在箱体700内。对于以反射声音的渲染为特征的自适应音频系统，还提供了一个或多个向上倾斜的驱动器706。如图6中所示，这些驱动器被定位为使得它们成角度地投射声音直至天花板，在天花板处声音然后可以向下弹回到收听者。倾斜程度可以根据房间特性和系统要求来设置。例如，向上驱动器706可以向上倾斜30度与60度之间，并且在扬声器壳体700中可以定位在前向发射驱动器702的上方，以便最小化对于从前向发射驱动器702生成的声波的干扰。向上发射驱动器706可以以固定角度安装，或者它可以安装为使得倾角可以手动调整。可替代地，伺服机构可以用于允许进行向上发射驱动器的倾角和投射方向的自动控制或电控制。对于某些声音，诸如周围环境声音，向上发射驱动器可以笔直向上指向扬声器壳体700的上表面外，以创建可能被称为“顶部发射”驱动器的驱动器。在这种情况下，依赖于天花板的声学特性，声音的大部分分量可能向下反射到扬声器上。然而，在大多数情况下，如图6中所示，一些倾角常用于帮助通过使声音从天花板反射到房间内的不同的或者更靠中央的位置来投射声音。

图7A意图例示扬声器和驱动器配置的一个例子，并且许多其他配置是可能的。例如，向上发射驱动器可以设置在它自己的壳体中以使得可以与现有的扬声器一起使用。图7B例示了根据实施例的具有分布在多个壳体中的驱动器的扬声器系统。如图7B中所示，向上发射驱动器712设置在单独的壳体710中，壳体710然后可以放置在壳体714的附近或顶部，壳体714具有前向发射驱动器716和/或侧向发射驱动器718。驱动器还可以封装在诸如在许多家庭影院环境中使用的条形音箱内，其中若干个小型或中等尺寸的驱动器在单个水平或垂直壳体内沿轴向排列。图7C例示了根据实施例的驱动器在条形音箱内的放置。在这个例子中，条形音箱壳体730是包括侧向发射驱动器734、向上发射驱动器736以及一个(多个)前向发射驱动器732的水平条形音箱。图7C意图仅仅是示例配置，对于前向发射、侧向发射和向上发射功能中的每个可以使用任何实际数量的驱动器。

对于图7A-C的实施例，应指出，依赖于所需的频率响应特性、以及任何其他相关约束(诸如大小、额定功率、组件成本等)，驱动器可以是任何适当的形状、大小和类型。

在典型的自适应音频环境中，在收听房间内将包含若干个扬声器壳体。图8例示了放置在收听房间内的具有包括向上发射驱动器的可单独寻址驱动器的扬声器的示例放置。如图8中所示，房间800包括四个单独的扬声器806，每个具有至少一个前向发射、侧向发射和向上发射驱动器。房间还可以包含用于环绕声应用的固定驱动器，诸如中央扬声器802和低音扬声器或LFE804。在图8中可以看出，根据房间的大小和各个扬声器单元，扬声器806在房间内的适当放置可以提供由声音从若干个向上发射驱动器由天花板反射而导致的丰富的音频环境。扬声器可以旨在根据内容、房间大小、收听者位置、声学特性以及其他相关参数来提供天花板平面上的一个或多个点的反射。

用于家庭影院或类似环境的自适应音频系统中所使用的扬声器可以使用基于现有的环绕声配置(例如，5.1、7.1、9.1等)的配置。在这种情况下，若干个驱动器按照已知的环绕声惯例被提供和定义，并且为向上发射声音分量提供另外的驱动器和定义。

图9A例示了根据实施例的对于反射音频利用多个可寻址驱动器的自适应音频5.1系统的扬声器配置。在配置900中，包括LFE901、中央扬声器902、L/R前扬声器904/906以及LIR后扬声器908/910的标准5.1扩音器区域设有八个另外的驱动器，总共14个可寻址驱动器。在每个扬声器单元902-910中，除了“向前”(或“前”)驱动器之外，这八个另外的驱动器还被表示为“向上”和“侧向”。直接向前驱动器将由子声道驱动，所述子声道包含自适应音频对象以及被设计为具有高度方向性的任何其他组件。向上发射(反射)驱动器可以包含更加全向的或无方向的子声道内容，但不如此受限。例子将包括背景音乐或环境声音。如果系统的输入包括老式的环绕声内容，则该内容可被智能地分解成(factorinto)直达子声道和反射子声道，并且被馈送到适当的驱动器。

对于直达子声道，扬声器壳体将包含如下驱动器，其中驱动器的中轴与房间的“甜蜜点”或声学中心相交。向上发射驱动器将被定位为使得驱动器的正中面与声学中心之间的角度将是45度至180度的范围内的某一角度。在将驱动器定位在180度的情况下，面向背面的驱动器可以通过由后墙反射来提供声音漫射。该配置利用了如下这样的声学原理，即，在向上发射驱动器与直达驱动器时间对准之后，早到达的信号分量将是相干的，而后到达的分量将受益于房间所提供的自然漫射。

为了实现自适应音频系统所提供的高度线索，向上发射驱动器可以与水平面成向上的角度，并且在极端情况下，可以被定位为笔直向上辐射并且由反射表面(诸如平整的天花板、或者放置在壳体正上方的声扩散器)反射。为了提供额外的方向性，中央扬声器可以利用具有使声音在屏幕上转向以提供高分辨率中央声道的能力的条形音箱配置(诸如图7C中所示)。

与标准的7.1配置类似的，图9A的5.1配置可以通过添加两个额外的后壳体来扩展。图9B例示了根据实施例的对于反射音频利用多个可寻址驱动器的自适应音频7.1系统的扬声器配置。如配置920中所示，两个额外的壳体922和924放置在“左侧环绕”位置和“右侧环绕”位置，其中侧扬声器以与前壳体类似的方式指向侧壁，并且向上发射驱动器被设置为在存在的前对与后对中间从天花板反弹。这样的增量添加可以根据需要进行许多次，添加的对沿着侧壁或后壁填充间隙。图9A和9B仅仅例示了在用于收听环境的自适应音频系统中的可以与向上发射扬声器和侧向发射扬声器一起使用的扩展环绕声扬声器布局的可能配置的一些例子，许多其他例子也是可能的。

作为上述n.1配置的替代方案，可以利用更灵活的基于容器(pod)的系统，由此每个驱动器包含在它自己的壳体内，该壳体然后可以安装在任何方便的位置。这将使用诸如图7B中所示的驱动器配置。这些单独的单元然后可被以与n.1配置类似的方式聚集，或者它们可以单独地围绕房间散布。容器不必限于放置在房间的边缘处；它们还可以放置在房间内的任何表面(例如，咖啡桌、书架等)上。这样的系统将易于扩展，使得用户可以随时间添加更多的扬声器以创建更有沉浸感的体验。如果扬声器是无线的，则容器系统可以包括为了再充电的目的而座充(dock)扬声器的能力。在该设计中，容器可以被一起座充，以使得在它们再充电时，它们充当单个扬声器，可能是为了听到立体声音乐，然后可以被卸离并且针对自适应音频内容而围绕房间被定位。

为了提高使用向上发射可寻址驱动器的自适应音频系统的可配置性和精度，可以将若干个传感器和反馈装置添加到壳体以向渲染器通知在渲染算法中可以使用的特性。例如，安装在每个壳体中的麦克风将使得系统可以使用壳体本身的类似HRTF的功能和三角测量来测量房间的相位、频率和混响特性，连同扬声器相对于彼此的位置。惯性传感器(例如，陀螺仪、罗盘等)可以用于检测壳体的方向和角度；并且光学传感器和视觉传感器(例如，使用基于激光的红外测距仪)可以用于提供相对于房间本身的位置信息。这些仅仅代表了在系统中可以使用的额外的传感器的一些可能性，其他传感器也是可能的。

通过使得壳体的驱动器和/或声学修改器的位置可以经由电机伺服自动调整，可进一步增强这样的传感器系统。这将使得驱动器的方向性可以在运行时改变以适合它们在房间中相对于墙壁和其他驱动器的定位(“主动转向”)。类似地，任何声学修改器(诸如挡板、喇叭或波导)可以被调谐为提供正确的频率和相位响应以使得在任何房间配置中最佳地回放(“主动调谐”)。主动转向和主动调谐都可以在初始房间配置期间(例如，与自动EQ-自动房间配置系统结合)执行，或者响应于内容被渲染在回放期间执行。

双向互连

一旦被配置，扬声器就必须连接到渲染系统。传统的互连典型地是两种类型：用于无源扬声器的扬声器级输入、以及用于有源扬声器的线路级输入。如图4C中所示，自适应音频系统450包括双向互连功能。该互连体现在渲染级454与放大器/扬声器458和麦克风级460之间的一组物理连接和逻辑连接内。寻址每个扬声器箱体中的多个驱动器的能力由声源与扬声器之间的这些智能互连支持。双向互连使得可以将信号(包括控制信号和音频信号两者)从声源(渲染器)发送到扬声器。从扬声器到声源的信号由控制信号和音频信号两者构成，其中，这种情况下的音频信号是来源于可选的内置麦克风的音频。电力也可以作为双向互连的一部分被提供，至少对于扬声器/驱动器不被单独供电的情况。

图10是例示根据实施例的双向互连的构成的示图1000。可以表示渲染器加上放大器/声音处理器链的声源1002通过一对互连链路1006和1008逻辑地且物理地耦合到扬声器箱体1004。从声源1002到扬声器箱体1004内的驱动器1005的互连1006包括用于每个驱动器的电声信号、一个或多个控制信号以及可选的供电。从扬声器箱体1004回到声源1002的互连1008包括来自麦克风1007或用于渲染器的校准或者其他类似的声音处理功能的其他传感器的声音信号。反馈互连1008还包含被渲染器用于修改或处理通过互连1006对于驱动器设置的声音信号的某些驱动器定义和参数。

在实施例中，系统的每个箱体中的每个驱动器在系统设置期间被分配标识符(例如，数值赋值)。每个扬声器箱体也可以被唯一地标识的。该数值赋值被扬声器箱体用于确定哪个音频信号发送到该箱体内的哪个驱动器。赋值存储在扬声器箱体中适当的存储器装置中。可替代地，每个驱动器可以被配置为将它自己的标识符存储在本地存储器中。在另一替代方案(诸如在其中驱动器/扬声器不具有本地存储能力的替代方案)中，标识符可以存储在渲染级或声源1002内的其他组件中。在扬声器发现处理期间，每个扬声器(或中央数据库)被声源查询其配置文件。配置文件定义了某些驱动器定义，包括扬声器箱体或其他定义的阵列中的扬声器的数量、每个驱动器的声学性质(例如，驱动器类型、频率响应等)、每个驱动器的中心相对于扬声器箱体的正面的中心的x,y,z位置、每个驱动器相对于所定义的平面(例如，天花板、地面、箱体垂直轴等)的角度、以及麦克风的数量和麦克风特性。还可以定义其他相关的驱动器和麦克风/传感器参数。在实施例中，驱动器定义和扬声器箱体配置文件可以表达为渲染器使用的一个或多个XML文档。

在一种可能的实现中，在声源1002与扬声器箱体1004之间创建互联网协议(IP)控制网络。每个扬声器箱体和声源充当单个网络端点，并且在初始化或上电时被给予链路本地地址。可以使用诸如零配置联网(zeroconf)的自动发现机制以使得声源可以将每个扬声器安置在网络上。零配置联网是在没有操作者人工干预或特殊配置服务器的情况下自动创建可用IP的处理的例子，可以使用其他类似的技术。考虑到智能网络系统，多个源可以如扬声器驻留在IP网络上。这使得多个源可以直接驱动扬声器，而不通过“主”音频源(例如，传统的A/V接收器)来路由声音。如果另一个源试图寻址扬声器，则在所有源之间执行通信以确定哪个源当前是“活动的”，是否活动是必要的、以及控制是否可以转移到新的声源。源可以在制造期间基于它们的分类预先被分配优先级，例如，电信源可以具有比娱乐源高的优先级。在诸如典型的家庭环境的多房间环境中，整个环境内的所有扬声器都可以驻留在单个网络上，但是可以无需被同时寻址。在设置和自动配置期间，通过互连1008返回提供的声音水平可以用于确定哪些扬声器位于同一物理空间中。一旦该信息被确定，就可以将扬声器分组成聚类。在这种情况下，可以分配聚类ID，并且使得这些聚类ID成为驱动器定义的一部分。聚类ID被发送给每个扬声器，每个聚类可以被声源1002同时寻址。

如图10中所示，可选的功率信号可以通过双向互连发送。扬声器可以是无源的(需要来自声源的外部功率)或有源的(需要来自插座的功率)。如果扬声器系统由不具有无线支持的有源扬声器构成，则扬声器的输入由遵循IEEE802.3的有线以太网输入构成。如果扬声器系统由具有无线支持的有源扬声器构成，则扬声器的输入由遵循IEEE802.11的无线以太网输入构成，或者可替代地由遵循WISA组织所规定的无线标准的输入构成。无源扬声器可以由声源直接提供适当的功率信号。

系统配置和校准

如图4C中所示，自适应音频系统的功能包括校准功能462。该功能由图10中所示的麦克风1007和互连1008链路使能。系统1000中的麦克风组件的功能是测量房间里的各个驱动器的响应以便推导整体系统响应。多种麦克风拓扑可以用于该目的，包括单个麦克风或麦克风阵列。最简单的情况是定位在房间中心的单个全向测量麦克风被用于测量每个驱动器的响应。如果房间和回放条件需要更精细的分析，则可以改为使用多个麦克风。对于多个麦克风而言最方便的位置是在房间里所使用的特定扬声器配置的物理扬声器箱体内。安装在每个壳体中的麦克风使得系统可以在房间里的多个位置处测量每个驱动器的响应。该拓扑的替代拓扑是使用定位在房间里的可能的收听者位置处的多个全向测量麦克风。

一个(多个)麦克风用于使得能够自动地配置和校准渲染器和后处理算法。在自适应音频系统中，渲染器负责将混合的基于对象和声道的音频流转换为指定用于一个或多个物理扬声器内的特定可寻址驱动器的单独的音频信号。后处理组件可以包括：延迟、均衡化、增益、扬声器虚拟化和上混。扬声器配置表示常常关键信息，渲染器组件可以使用该关键信息将混合的基于对象和声道的音频流转换为单独的每一驱动器的音频信号以提供音频内容的最佳回放。系统配置信息包括：(1)系统中的物理扬声器的数量；(2)每个扬声器中的可单独寻址驱动器的数量；以及(3)每个可单独寻址驱动器相对于房间几何形状的位置和方向。其他特性也是可能的。图11例示了根据实施例的自动配置和系统校准组件的功能。如示图1100中所示，一个或多个麦克风的阵列1102将声学信息提供给配置和校准组件1104。该声学信息捕捉收听环境的某些相关的特性。配置和校准组件1104然后将该信息提供给渲染器1106和任何相关的后处理组件1108，以使得最终发送到扬声器的音频信号针对收听环境被调整和优化。

系统中的物理扬声器的数量和每个扬声器中的可单独寻址驱动器的数量是物理扬声器特性。这些特性经由双向互连456直接从扬声器发送到渲染器454。渲染器和扬声器使用常用的发现协议，以使得当扬声器连接到系统或者从系统断开时，渲染器被通知该改变，并且可以相应地重新配置系统。

收听房间的几何形状(大小和形状)是配置和校准处理中的必要信息项。几何形状可被以若干种不同的方式确定。在手动配置模式中，关于房间的最小边界立方体的宽度、长度和高度由收听者或技术人员通过对于渲染器或自适应音频系统内的其他处理单元提供输入的用户接口输入到系统中。各种不同的用户接口技术和工具可以用于该目的。例如，房间几何形状可以通过自动地映射或追踪房间的几何形状的程序被发送到渲染器。这样的系统可以使用计算机视觉、声纳和基于3D激光的物理映射的组合。

渲染器使用扬声器在房间几何形状内的位置来推导用于每个可单独寻址驱动器(包括直接驱动器和反射(向上发射)驱动器)的音频信号。直接驱动器是其目的在于使得它们的散布型态的大部分在被一个或多个反射表面(诸如地面、墙壁或天花板)漫射之前与收听位置相交的那些驱动器。反射驱动器是其目的在于诸如图6中所示那样使得它们的散布型态的大部分在与收听位置相交之前被反射的那些驱动器。如果系统处于手动配置模式，则每个直接驱动器的3D坐标可以通过UI输入到系统中。对于反射驱动器，一次反射的3D坐标输入到UI中。激光或类似技术可以用于使漫射驱动器的散布型态在房间的表面上可视化，所以3D坐标可以被测量并且手动输入到系统中。

驱动器位置和目标设定通常使用手动或自动技术来执行。在某些情况下，惯性传感器可以合并到每个扬声器中。在该模式中，中央扬声器被指定为“主”，其罗盘测量被认为是参考。其他扬声器然后发送它们的可单独寻址驱动器中的每个的散布型态和罗盘位置。与房间几何形状相结合，中央扬声器和每个添加驱动器的参考角度之间的差值提供足以使系统自动地确定驱动器是直接式的、还是反射式的信息。

如果使用3D位置(即，Ambisonic)麦克风，扬声器位置配置可以完全自动化。在该模式中，系统将测试信号发送到每个驱动器，并且记录响应。根据麦克风类型，这些信号可能需要被变换为x,y,z表示。这些信号被分析以找到占主导的第一次到达的x、y和z分量。与房间几何形状相结合，这通常提供了足以使系统自动地设置所有扬声器位置(直接式或反射式)的3D坐标的信息。根据房间几何形状，所描述的三种用于配置扬声器坐标的方法的混合组合比仅单独使用一种技术更加有效。

扬声器配置信息是配置渲染器所需的一个分量。扬声器校准信息也是配置后处理链(延迟、均衡化和增益)所需要的。图12是例示根据实施例的使用单个麦克风执行自动扬声器校准的处理步骤的流程图。在该模式中，延迟、均衡和增益自动地由系统使用安置在收听位置的中间的单个全向测量麦克风计算。如示图1200中所示，所述处理从单独地测量对于每个单个驱动器的房间脉冲响应(方框1202)开始。然后通过找到(用麦克风捕捉的)声学脉冲响应与直接捕捉的电脉冲响应的互相关的峰值的偏移来计算用于每个驱动器的延迟，方框1204。在方框1206中，将所计算的延迟应用于直接捕捉的(参考)脉冲响应。所述处理然后确定宽带和每一频带的增益值，这些增益值在应用于所测量的脉冲响应时使得它与直接捕捉的(参考)脉冲响应之间的差值最小，方框1208。这可以通过下述方式进行，即，获取所测量的脉冲响应和参考脉冲响应的加窗FFT，计算这两个信号之间的每一区间的幅值比，将中值滤波器应用于每一区间的幅值比，通过对完全落在一个频带内的所有区间的增益进行平均来计算每一频带的增益值，通过获取所有的每一频带的增益的平均值来计算宽带增益，从每一频带的增益减去宽带增益，并且应用小房间X曲线(在2KHz以上为-2dB/倍频程)。一旦在方框1208中确定了增益值，所述处理就通过从其他延迟减去最小延迟来确定最终的延迟值，以使得系统中的至少一个驱动器将总是具有零附加延迟，方框1210。

在使用多个麦克风进行自动校准的情况下，延迟、均衡和增益由系统使用多个全向测量麦克风自动计算。所述处理与单个麦克风技术基本上相同，除了对于每个麦克风重复该处理并且对结果进行平均化之外。

可替代的回放系统

代替在整个房间或剧场里实现自适应音频系统，可以在更局部化的应用(诸如电视、计算机、游戏控制台或类似装置)中实现自适应音频系统的各方面。这种情况有效地依赖于在与观看屏幕或监视器表面相应的平面中排列的扬声器。图13例示了自适应音频系统在示例电视和条形音箱使用实例中的使用。通常，电视使用实例提供了基于往往降低的设备(TV扬声器、条形音箱扬声器等)质量和扬声器位置/配置来创建令人沉浸的收听体验的挑战，所述扬声器位置/配置在空间分辨率方面可能受限(即，没有环绕扬声器或背面扬声器)。图13的系统1300包括在标准电视左侧位置和右侧位置的扬声器(TV-L和TV-R)、以及左侧向上发射驱动器和右侧向上发射驱动器(TV-LH和TV-RH)。电视1302还可以包括条形音箱1304或成某种高度阵列的扬声器。通常，与孤立扬声器或家庭影院扬声器相比，由于成本约束和设计选择，电视扬声器的大小缩小且质量降低。然而，动态虚拟化的使用可以帮助克服这些缺陷。在图13中，动态虚拟化效果是针对TV-L和TV-R扬声器被例示的，使得特定收听位置1308的人将听到与在水平面中单独地渲染的适当的音频对象相关联的水平元素。另外，与适当的音频对象相关联的高度元素将通过由LH驱动器和RH驱动器发送的反射音频被正确地渲染。电视L扬声器和R扬声器中的立体声虚拟化的使用类似于L和R家庭影院扬声器，其中通过基于由自适应音频内容提供的对象空间信息的扬声器虚拟化算法参数的动态控制，可能令人沉浸的动态扬声器虚拟化用户体验也许是可能的。该动态虚拟化可被用于创建沿着房间的侧面移动的对象的感知。

电视环境还可以包括如条形音箱1304内所示的HRC扬声器。这样的HRC扬声器可以是允许平移通过HRC阵列的可操纵单元。通过具有带有下述的可单独寻址扬声器的前向发射中央声道阵列，可能会有益处(特别是对于较大型屏幕)，所述可单独寻址扬声器允许与屏幕上的视频对象的移动相匹配地离散地平移音频对象通过该阵列。该扬声器还被示为具有侧向发射扬声器。如果扬声器用作条形音箱，则这些可以被启动和使用，以使得由于没有环绕扬声器或背部扬声器，侧向发射驱动器提供更大的沉浸感。动态虚拟化构思还针对HRC/条形音箱扬声器被示出。动态虚拟化针对前向发射扬声器阵列的最远侧的L扬声器和R扬声器被示出。再次，这可以用于创建对象沿着房间上的侧面移动的感知。该修改的中央扬声器还可以包括更多的扬声器，并且实现具有单独控制的声音区域的可操纵声束。在图13的示例实现中还示出了安置在主收听位置1308的前面的NFE扬声器1306。NFE扬声器的并入可以通过使声音远离房间的前面、更加靠近收听者来提供自适应音频系统所提供的更大的环绕感。

关于耳机渲染，自适应音频系统通过使HRTF与空间位置匹配来保持创建者的原始意图。当音频通过耳机再现时，双耳空间虚拟化可以通过应用头部相关传递函数(HRTF)来实现，所述HRTF对音频进行处理并且添加感知线索，所述感知线索创建音频在三维空间中播放、而不是由标准的立体声耳机播放的感知。空间再现的精度取决于适当HRTF的选择，所述适当HRTF可以基于几个因素变化，包括正被渲染的音频声道或对象的空间位置。使用自适应音频系统提供的空间信息可以导致选择表示3D空间的一个HRTF或连续变化数量的HRTF以极大地改进再现体验。

所述系统还便利于增加被导向的三维双耳渲染和虚拟化。类似于空间渲染的情况，使用新的和修改的扬声器类型和位置，可以通过使用三维HRTF来创建模拟来自水平面和垂直轴两者的声音的线索。以前的提供仅声道和固定扬声器位置信息渲染的音频格式更加受限。

耳机渲染系统

就自适应音频格式信息而言，双耳三维渲染耳机系统具有可以用于规定音频的哪些元素适合于在水平面和垂直面这两者中渲染的详细的和有用的信息。一些内容可能依赖于使用头顶扬声器提供更大的环绕感。这些音频对象和信息可以用于当收听者使用耳机时被感知为在收听者的头部上方的双耳渲染。图14A例示了根据实施例的在自适应音频系统中使用的三维双耳耳机虚拟化体验的简化表示。如图14A中所示，用于再现来自自适应音频系统的音频的耳机组1402包括标准x,y平面中以及z平面中的音频信号1404，使得与某些音频对象或声音相关联的高度被回放为使得它们听起来就像它们来源于x,y原始声音上方或下方。

图14B是根据实施例的耳机渲染系统的框图。如示图1410中所示，耳机渲染系统获取输入信号，所述输入信号是N声道床1412和M个对象1414的组合，对象1414包括位置和/或轨迹元数据。对于N声道床的每个声道，渲染系统计算左和右耳机声道信号1420。时不变双耳房间脉冲响应(BRIR)滤波器1413应用于N个床信号中的每个，时变BRIR滤波器1415应用于M个对象信号。BRIR滤波器1413和1415用于为收听者提供他在具有特定音频特性的房间(例如，小型剧场、大型音乐厅、竞技场等)里的印象，并且包括声源的效果和收听者的头部和耳朵的效果。每个BRIR滤波器的输出输入到左声道混合器1416和右声道混合器1417中。混合的信号然后通过各自的耳机均衡处理1418和1419被进行均衡以生成左耳机声道信号L_h和右耳机声道信号R_h，1420。

图14C例示了根据实施例的在耳机渲染系统中使用的BRIR滤波器的构成。如示图1430中所示，BRIR基本上是直接路径响应1432和反射的求和1438，该反射包括房间里的镜面效果1434和衍射效果1436。求和中所使用的每个路径包括源传递函数、房间表面响应(除了直接路径1432中的之外)、距离响应以及HRTF。每个HRTF被设计为在无回声条件下，针对所指定的相对于收听者的源方位和海拔高度，在收听者的左耳耳道和右耳耳道的入口处，生成正确的响应。BRIR被设计为对于在房间内的一位置处的收听者，针对房间内的源位置、源方向性以及取向，在左耳耳道和右耳耳道的入口处生成正确的响应。

应用于N个床信号中的每个的BRIR滤波器固定到与音频系统的特定声道相关联的特定位置。例如，应用于中央声道信号的BRIR滤波器可以对应于位于0度方位和0度海拔高度处的源，以使得收听者得到与中央声道相应的声音来自于收听者正前面的源的印象。同样地，应用于左声道和右声道的BRIR滤波器可以对应于位于+/-30度方位的源。应用于M个对象信号中的每个的BRIR滤波器是时变的，并且基于与每个对象相关联的位置和/或轨迹数据而改动。例如，关于对象1的位置数据可以指示，在时间t0，该对象在收听者的正后面。在这样的情况下，与收听者正后面的位置相应的BRIR滤波器应用于对象1。此外，关于对象1的位置数据可以指示，在时间t1，该对象在收听者的正上方。在这样的情况下，与收听者正上方的位置相应的BRIR滤波器应用于对象1。类似地，对于其余的对象2-m中的每个，应用与用于每个对象的时变位置数据相应的BRIR滤波器。

参照图14B，在产生了与N个床声道和M个对象中的每个相应的左耳信号之后，在混合器1416中将它们混合在一起以形成整个左耳信号。同样地，在产生了与N个床信号和M个对象中的每个相应的右耳信号之后，在混合器1417中将它们混合在一起以形成从左耳机换能器到收听者的左耳耳道的入口的整体传递函数。该信号通过左耳机换能器播放。同样地，对整个右耳信号进行均衡1419以补偿从右耳机换能器到收听者的右耳耳道的入口的声学传递函数，并且该信号通过右耳机换能器播放。最终的结果为收听者提供具有环绕感的3D音频声音场景。

HRTF滤波器组

关于收听环境中的实际收听者，人类躯干、头部和耳廓(外耳)构成一组边界，这些边界可以使用射线追踪和其他技术来建模以模拟头部相关传递函数(在频域中，HRTF)或头部相关脉冲响应(在时域中，HRIR)。这些元素(躯干、头部和耳廓)可以单独地以使得它们可以在以后结构化地组合为单个HRIR的方式进行建模。这样的模型使得可以基于拟人化的测量(头部半径、颈部高度等)来进行高度定制，并且提供了在水平(方位)平面中定位所必需的双耳线索、以及垂直(海拔高度)平面中的弱低频线索。图14D例示了用于自由空间中的入射平面波1442的基本头部和躯干模型1440，该模型1440可以与耳机渲染系统的实施例一起使用。

已知耳廓提供了强的海拔高度线索以及前到后的线索。这些典型地被描述为频域中的频谱特征——常常是频率上相关的并且随着声源海拔移动而移动的一组凹口。这些特征还通过HRIR存在于时域中。它们可以被看作是随着海拔高度变化以强烈的系统化方式移动的脉冲响应中的一组峰和谷(还存在与方位变化相应的一些较弱的移动)。

在实施例中，通过使用公众可用的HRTF数据库收集关于耳廓特征的数据来构建与耳机渲染系统一起使用的HRTF滤波器集合。将这些数据库转化为常见的坐标系，并且移除离群值对象。所选的坐标系沿着“耳间轴”，这使得可以对于任何给定的方位独立地跟踪海拔高度特征。对于每个空间位置，脉冲响应被提取、时间对准和过采样。尽可能地移除头影和躯干反射的影响。在所有对象上，对于任何给定的空间位置，执行特征的加权平均，加权是以随海拔高度改变的特征被给予更大的权重的方式进行的。结果然后被进行平均化、滤波，并且下采样回到常见的采样速率。对于人体测量学的平均测量用于头部和躯干模型，并且与平均的耳廓数据相组合。图14E例示了根据实施例的与HRTF滤波器一起使用的耳廓特征的结构模型。在实施例中，结构模型1450可以导出为如下格式，该格式与房间建模软件一起使用以优化收听环境中的驱动器的配置或者用于使用扬声器或耳机回放的对象的渲染。

在实施例中，耳机渲染系统包括补偿HETF以改进双耳渲染的方法。该方法涉及在Z域中对HETF的补偿滤波器进行建模和推导。HETF受耳机的内表面与所涉及的外耳的表面之间的反射影响。如果从例如B&K4100仿真人头在阻塞耳道的入口处进行双耳记录，则HETF被定义为从耳机的输入到阻塞耳道的入口处的声压信号的传递函数。如果从例如“HATS声学”仿真人头在鼓膜处进行双耳记录，则HETF被定义为从耳机的输入到鼓膜处的声压信号的传递函数。

考虑到耳机内表面的反射系数(R1)是频率相关的，并且外耳表面或耳鼓的反射系数(R2)也是频率相关的，在Z域中，耳机的反射系数和外耳表面的反射系数的乘积(即，R1*R2)可以被建模为一阶IIR(无限脉冲响应)滤波器。此外，考虑到在耳机的内表面的反射与外耳的表面的反射之间存在时间延迟，并且在它们之间存在二阶和更高阶的反射，Z域中的HETF被建模为更高阶的IIR滤波器H(z)，其由具有不同时间延迟和阶次的反射系数的乘积的总和形成。另外，使用IIR滤波器E(z)对HETF的逆滤波器进行建模，E(z)是H(z)的倒数。

从所测量的HETF的脉冲响应，所述处理获得e(n)，HETF的逆滤波器的时域脉冲响应，以使得HETF的相位和幅值谱响应两者都均衡。作为例子，它进一步使用Pony方法从e(n)序列得出逆滤波器E(z)的参数。为了获得稳定的E(z)，将E(z)的阶次设置为适当的数，并且在得出E(z)的参数时仅选择e(n)的前M个采样。

该耳机补偿方法对HETF的相位和幅值谱两者进行均衡化。而且，与其他方法相比，通过使用所描述的IIR滤波器E(z)作为补偿滤波器、而不是FIR滤波器来实现等同的补偿，它所施加的计算成本较低，时间延迟较短。

元数据定义

在实施例中，自适应音频系统包括从原始空间音频格式产生元数据的组件。系统300的方法和组件包括被配置为对一个或多个比特流进行处理的音频渲染系统，所述比特流包含常规的基于声道的音频元素和音频对象译码元素两者。包含音频对象译码元素的新的扩展层被定义，并且被添加到基于声道的音频编解码器比特流或音频对象比特流之一。该方法启用比特流，所述比特流包括将被渲染器处理以与现有的扬声器和驱动器设计或者利用可单独寻址驱动器和驱动器定义的下一代扬声器一起使用的扩展层。来自空间音频处理器的空间音频内容包括音频对象、声道和位置元数据。当对象被渲染时，它根据位置元数据和回放扬声器的位置而被分配给一个或多个扬声器。

另外的元数据可以与对象相关联以改变回放位置或者以其他方式限制将用于回放的扬声器。元数据是在音频工作站中响应于工程师的混合输入而产生的，以提供渲染队列，所述渲染队列控制空间参数(例如，位置、速率、强度、音色等)，并且指定收听环境中的哪个(哪些)驱动器或扬声器在呈现期间播放各自的声音。元数据在工作站中与各自的音频数据相关联以供空间音频处理器包装和输送。

图15是例示根据实施例的在自适应音频系统中使用的关于收听环境的某些元数据定义的表格。如表格1500中所示，元数据定义包括：音频内容类型、驱动器定义(数量、特性、位置、投射角度)、用于主动转向/调谐的控制信号、以及包括房间和扬声器信息的校准信息。

上混

自适应音频渲染系统的实施例包括基于将音频声道分解为反射子声道和直达子声道的上混器。直达子声道是输入声道的被路由到将早期反射声学波形递送到收听者的驱动器的部分。反射或漫射子声道是原始音频声道的预期具有由附近的表面和墙壁反射的驱动器的能量的主导部分的部分。反射子声道因此是指原始声道的优选在漫射到局部声学环境中之后到达收听者的那些部分，或者特定地从表面(例如，天花板)上的点反射到房间里的另一个位置的那些部分。每个子声道将被路由到独立的扬声器驱动器，因为用于一个子声道的驱动器相对于其他子声道的那些驱动器的物理取向将对于每个传入信号增添声学空间多样性。在实施例中，一个(多个)反射子声道被发送到向上发射扬声器或者指向用于将声音间接发送到期望位置的表面的扬声器。

应指出，在上混信号的上下文中，反射声学波形可选地可以不区分特定表面的反射与导致来自非定向驱动器的能量的一般漫射的任何任意表面的反射。在后一种情况下，与该驱动器相关联的声波在理想情况下将是无向的(即，漫射波形是在其中声音来自非单一方向的那些波形)。

图17是例示根据实施例的将输入声道分解为子声道的处理的流程图。整体系统被设计为对于多个输入声道进行操作，其中，输入声道包括用于基于空间的音频内容的混合音频流。如处理1700中所示，步骤涉及按操作次序的顺序将输入声道分解或划分为子声道。在方框1702中，在粗略分解步骤中，将输入声道分割为反射子声道和直达子声道之间的第一划分。然后在随后的分解步骤中对原始分解进行细化，方框1704。在方框1706中，所述处理确定所得的反射子声道与直达子声道之间的划分是否是最佳的。如果划分还不是最佳的，则执行附加的分解步骤1704。如果在方框1706中确定反射子声道与直达子声道之间的分解是最佳的，则产生适当的扬声器馈送，并且将这些扬声器馈送发送到反射子声道和直达子声道的最终混合。

关于分解处理1700，重要的是指出，在该处理的每一级中反射子声道与直达子声道之间保持能量守恒。关于这个计算，变量α被定义为输入声道的与直达子声道相关联的那个部分，～被定义为与漫射子声道相关联的那个部分。然后可以根据下列方程来表达与所确定的能量守恒的关系：

{y (k)}_{DIRECT} = x (k) α_{k}, &ForAll; k

{y (k)}_{DIFFUSE} = x (k) \sqrt{1 - {| α_{k} |}^{2}}, &ForAll; k

其中

β = \sqrt{1 - {| α_{k} |}^{2}}

在以上方程中，x是输入声道，k是变换索引。在实施例中，计算关于频域量的解，为复数离散傅立叶变换系数、基于实数的MDCT变换系数的形式，或QMF(正交镜像滤波器)子带系数(实数或复数)的形式。因此，在所述处理中，假定正向变换应用于输入声道，相应的逆变换应用于输出子声道。

图19是例示根据实施例的将输入声道分解为子声道的处理的流程图1900。对于每个输入声道，系统计算两个最近的相邻声道之间的声道间相关性(ICC)，步骤1902。ICC通常根据下列方程计算：

{ICC}_{i, j} = \frac{E {s_{Di} {s_{Dj}}^{T}}}{\sqrt{E {{| s_{Di} |}^{2}} E {{| s_{Dj} |}^{2}}}}

其中，S_Di是用于索引i的输入声道的频域系数，而S_Dj是用于索引j的下一个空间相邻的输入音频声道的系数。E{}算子是期望算子，可以使用设定数量的音频块上的固定平均来实现，或者实现为在块上对于每个频域系数进行平滑化的平滑算法。该平滑器可以实现为使用有限脉冲响应(IIR)滤波器拓扑的指数平滑器。

计算这两个相邻声道的ICC之间的几何平均，该值是-1与1之间的数。然后将α的值设为1.0与该平均数之间的差值。ICC概括地描述信号在多大程度上在两个声道之间是共同的。具有高声道间相关性的信号被路由到反射声道，而相对于它们附近的声道是唯一的信号被路由到直达子声道。可以根据下列示例伪代码来描述该运算：

if(plCC*nlCC＞0.0f)

alpha(i)＝1.0f-sqrt(pICC*nICC)；

else

alpha(i)＝1.0f-sqrt(faba(pICC*nTCC))；

其中，pICC是指与当前输入声道i空间相邻的i-1输入声道的ICC，niCC是指与当前输入声道i空间相邻的索引为i+1的输入声道的ICC。在步骤1904中，系统对于每个输入声道计算瞬态缩放项。这些缩放因子有助于反射对直达混合计算，其中，缩放量与瞬态的能量成比例。通常，期望瞬态信号被路由到直达子声道。因此，在肯定瞬态检测的情况下，将α与被设置为1.0(或者对于较弱的瞬态，接近1.0)的缩放因子sf进行比较：

α_i＝max(α_i，sf_i)

其中，索引i对应于输入声道i。每个瞬态缩放因子sf具有保持参数以及衰减参数以控制缩放因子在瞬态之后随时间如何演变。这些保持参数和衰减参数通常为毫秒量级，但是回到α的标称值的衰减可以扩展到一整秒以上。使用在方框1902中计算的α值和在1904中计算的瞬态缩放因子，系统将每个输入声道划分为反射子声道和直达子声道，以保持子声道之间的总能量守恒，步骤1906。

作为可选步骤，可以进一步将反射声道分解为混响分量和非混响分量，步骤1908。非混响子声道可以被求和回直达子声道，或者发送到输出中的专用驱动器。因为哪个线性变换被应用于使输入信号混响可能是未知的，所以应用盲去卷积或相关的算法(诸如盲源分离)。

第二可选步骤是使用在块间对每个频域变换进行运算的去相关器进一步使反射声道与直达声道去相关，步骤1910。在实施例中，去相关器由下列元件构成：若干个延迟元件(以毫秒为单位的延迟对应于块整数延迟乘以基础时频变换的长度)、以及具有可以在作为时间的函数被约束的Z域圆内任意移动的滤波器系数的全通IIR(无限脉冲响应)滤波器。在步骤1912中，系统对于反射声道和直达声道执行均衡和延迟功能。在通常情况下，直达子声道延迟这样的量，该量使得来自直接驱动器的声学波前可以在收听位置处与主要反射能量波前相位相干(从均方能量误差的意义上来说)。同样地，对于反射声道应用均衡以补偿房间的预期(或被测量的)漫射，以便使反射子声道与直达子声道之间音色最佳地匹配。

图18例示了根据实施例的将多个音频声道处理为多个反射子声道和直达子声道的上混器系统。如系统1800中所示，对于N个输入声道1802，产生K个子声道。对于每个输入声道，系统产生对于K*N个子声道1820的总输出的反射(也被称为“漫射”)子声道和直达子声道。在典型的情况下，K＝2，这考虑了1个反射子声道和1个直达子声道。N个输入声道输入到ICC计算组件1806以及瞬态缩放项信息计算机1804。在组件1808中计算α系数，并且将该系数与瞬态缩放项组合以用于输入划分处理1810。该处理1810将N个输入声道划分为反射输出和直达输出，以导致N个反射声道和N个直达声道。所述系统对N个反射声道执行盲去相关处理1812，然后对这些声道执行去相关运算1816。声学声道预处理器1818获取N个直达声道和去相关的N个反射声道，并且生成K*N个子声道1820。

另一个选项将是通过使用可以存在于房间里的环境感测麦克风来对算法进行控制。这将使得可以计算房间的直达与混响比(DR比)。通过DR比，最终控制在确定漫射子声道与直达子声道之间的最佳划分时将是可能的。具体地讲，对于高度混响的房间，假定漫射子声道将使更多漫射施加于收听者位置是合理的，就这点而论，漫射子声道与直达子声道之间的混合在盲去卷积和去相关步骤中可能会受到影响。具体地讲，对于具有非常小的反射声学能量的房间，路由到漫射子声道的信号量可增加。另外，声学环境中的麦克风传感器可以确定将应用于漫射子声道的最佳均衡。自适应均衡器可以确保漫射子声道被最佳地延迟和均衡，以使得来自两个子声道的波前以在收听者位置处相位相干的方式组合。

虚拟器

在实施例中，自适应音频处理系统包括用于通过多对扩音器虚拟地渲染基于对象的音频的组件，所述扩音器可以包括被配置为反射声音的一个或多个可单独寻址驱动器。该组件通过下述方式执行基于对象的音频的虚拟渲染：对每个对象进行双耳渲染，接着在馈送相应的大量扬声器对的大量串音消除电路之间平移所得的立体声双耳信号。与现有的仅使用单对扬声器的虚拟器相比，改进了对于串音消除器甜蜜点内部和外部的收听者两者的空间印象。换句话说，它克服了串音消除高度依赖于收听者坐在串音消除器的设计中所假定的、相对于扬声器的位置的缺点。如果收听者没有坐在这个所谓的“甜蜜点”中，则串音消除效果可能部分地或整个地受损，并且双耳信号所意图实现的空间印象不被收听者感知到。对于多个收听者(在这种情况下，收听者中只有一个可以有效地占据甜蜜点)，这是特别成问题的。

在空间音频再现系统中，通过利用多于两个的扬声器，可以将甜蜜点扩展到多于一个的收听者。这最常见的是如5.1环绕声系统那样通过用多于两个的扬声器环绕较大的甜蜜点来实现。在这样的系统中，例如，意图从后面听到的声音由物理地位于所有收听者后面的扬声器产生，因而所有的收听者都感知到这些声音来自后面。另一方面，在通过立体声扩音器进行虚拟空间渲染的情况下，音频来自后面的感知由用于产生双耳信号的HRTF控制，并且将仅被在甜蜜点的收听者正确地感知到。甜蜜点外部的收听者将有可能感知到音频是从他们前面的立体声扬声器发出的。然而，如前所述，这样的环绕声系统的安装对于许多消费者是不实际的，或者他们仅仅可能更愿意保持所有扬声器被安置在收听环境的前部，常常与电视显示器并置。通过与虚拟空间渲染结合使用多个扬声器对，根据实施例的虚拟器以允许所有被利用的扬声器对基本上并置的方式结合了多于两个的扬声器对于甜蜜点外部的收听者的益处并且保持或增强甜蜜点内部的收听者的体验。

在实施例中，通过在多个串音消除器之间平移从每个音频对象产生的双耳信号，将虚拟空间渲染扩展到多对扩音器。串音消除器之间的平移由与每个音频对象相关联的位置控制，这个位置被用于选择与每个对象相关联的双耳滤波器对。多个串音消除器被设计用于并且被馈送到相应的多个扬声器对，每个扬声器对具有相对于所意图的收听位置的不同的物理位置和/或取向。在空间中的各个位置处的大量对象可以被同时渲染。在这种情况下，双耳信号可由其相关联的HRTF被应用的对象信号的总和表达。通过多对象双耳信号，可以用下列方程表达具有M对扬声器的系统中的产生扬声器信号的整个渲染链：

s_{j} = C_{j} Σ_{i = 1}^{N} α_{ij} B_{i} o_{i}, j = 1 . . . M, M > 1

其中，

o_i＝用于N个之中的第i对象的音频信号

B_i＝由B_i＝HRTF{pos(o_i)}给定的用于第i对象的双耳滤波器对

a_ij＝将用于第i对象的系数平移到第j串音消除器中

C_j＝用于第j扬声器对的串音消除器矩阵

s_j＝发送到第j扬声器对的立体声扬声器信号

与每个对象i相关联的M个平移系数通过使用将该对象的可能时变的位置取作输入的平移函数来计算：

[\begin{matrix} α_{1 i} \\ \cdot \\ \cdot \\ \cdot \\ α_{Mi} \end{matrix}] = Panner {pos (o_{i})}

在实施例中，对于N个对象信号o_i中的每个，首先应用根据对象位置pos(o_i)被选择的一对双耳滤波器B_i来产生双耳信号。同时，平移函数基于对象位置pos(o_i)计算M个平移系数a_i1…a_iM。每个平移系数分别乘以双耳信号，产生M个缩放双耳信号。对于M个串音消除器中的每个C_j，将来自所有N个对象的第j缩放双耳信号相加。串音消除器然后对该和信号进行处理以产生通过第j扩音器对回放的第j扬声器信号对s_j。

为了将多个扩音器对的益处扩展到甜蜜点外部的收听者，平移功能被配置为以帮助将对象的希望物理位置传递给这些收听者的方式将对象信号分发给扬声器对。例如，如果对象意在于从头顶被听到，则平移器应将对象平移到对于所有收听者最有效地再现高度感的扬声器对。如果对象意在于在侧面被听到，则平移器应将对象平移到对于所有收听者最有效地再现宽度感知的扬声器对。更一般地，平移功能将每个对象的期望空间位置与每个扬声器对的空间再现能力进行比较，以便计算最佳平移系数集合。

在一个实施例中，利用三个扬声器对，所有这些扬声器对都并置在收听者的前面。图20例示了根据实施例的使用反射高度扬声器虚拟地渲染基于对象的音频的扬声器配置。扬声器阵列或条形音箱2002包括若干个并置驱动器。如示图2000中所示，第一驱动器对2008朝向前面指向收听者2001，第二驱动器对2006指向侧面，第三驱动器对2004笔直地或者成角度地指向上。这些对被标记为前、侧和高度，并且与每一个相关联的分别是串音消除器C_F、C_S和C_H。

对于用于每个音频对象的双耳滤波器以及扬声器对中的每一个相关联的串音消除器的产生两者，利用参数化球形头部模型HRTF。这些HRTF仅取决于对象相对于收听者的正中面的角度。如图20中所示，该正中面处的角度被定义为零度，向左的角度被定义为负，向右的角度被定义为正。关于驱动器布局2000，扬声器角度θ_C对于所有三个扬声器对都是相同的，因此，串音消除器矩阵C对于所有三个对都是相同的。如果每对不在大致相同的位置处，则可以对于每对不同地设置该角度。

与每个音频对象信号o_i相关联的是用笛卡尔坐标{x_iy_iz_i}给出的可能时变的位置。因为优选实施例中所采用的参数化HRTF不包含任何海拔高度线索，所以在从HRTF函数计算双耳滤波器对时，仅利用对象位置的x和y坐标。这些{x_iy_i}坐标被变换为等同的半径和角度{r_iθ_i}，其中，该半径被归一化为位于0与1之间。在实施例中，参数化HRTF不取决于离收听者的距离，因此，该半径如下地合并到左双耳滤波器和右双耳滤波器的计算中：

B_{L} = (1 - \sqrt{r_{i}}) + \sqrt{r_{i}} HRT F_{L} {θ_{i}}

B_{R} = (1 - \sqrt{r_{i}}) + \sqrt{r_{i}} HRT F_{R} {θ_{i}}

当半径为0时，双耳滤波器在所有频率上都只为1，并且收听者在两个耳朵处平等地听到对象信号。这对应于对象位置正好位于收听者的头部内时的情况。当半径为1时，滤波器等于以角度θ_i定义的参数化HRTF。对半径项取平方根使滤波器的这个插值偏向更好地保留空间信息的HRTF。指出，因为参数化HRTF模型不包含距离线索，所以这个计算是需要的。不同的HRTF集合可能合并有这样的线索，在这种情况下，上述方程所描述的插值将不是必要的。

对于每个对象，用于三个串音消除器中的每个的平移系数被从相对于每个消除器的取向的对象位置{x_iy_iz_i}计算。向上发射扬声器对2004意在于通过使声音从天花板反射来从上方传递声音。就这点而论，其相关联的平移系数与海拔高度坐标z_i成比例。前发射对和侧发射对2006、2008的平移系数由从{x_iy_i}坐标推导的对象角度θ_i管控。当θ_i的绝对值小于30度时，将对象完全平移到前对2008。当θ_i的绝对值在30度与90度之间时，平移对象至前对与侧对之间；当θ_i的绝对值大于90度时，将对象完全平移到侧对2006。通过该平移算法，甜蜜点处的收听者接收到所有三个串音消除器的益处。另外，通过向上发射对添加了海拔高度的感知，并且侧向发射对添加了混合到侧面和背面的对象的漫射元素，这可以增强感知到的环绕感。对于甜蜜点外部的收听者，消除器丧失了它们的大部分有效性，但是这些收听者仍然从向上发射对享受到海拔高度感知，并且从前面到侧面平移感受到直达声与漫射声之间的变化。

在实施例中，如上所述，上述虚拟化技术应用于包含动态对象信号连同固定声道信号的混合的自适应音频格式。可以通过将固定的空间位置分配给每个声道来对固定声道信号进行处理。

如图20中所示，优选的扬声器布局还可以包含单个分立的中央扬声器。在这种情况下，中央声道可以被直接路由到中央扬声器，而不是被单独处理。在纯粹基于声道的传统信号在该系统中渲染的情况下，因为每个对象位置是静态的，所以处理中的所有元素是随时间恒定的。在这种情况下，所有这些元素都可以在系统启动时预先被计算一次。另外，双耳滤波器、平移系数和串音消除器可以预先组合为用于每个固定对象的M对固定滤波器。

图20仅例示了与用于虚拟地渲染基于对象的音频的系统结合使用的一种可能的驱动器布局，许多其他配置是可能的。例如，可以排除侧面扬声器对，仅留下面向前的扬声器和面向上的扬声器。此外，面向上的对可以用在面向前的扬声器对的上方放置在天花板附近并且直接指向收听者的扬声器对取代。该配置还可以扩展到例如沿着电视屏幕的侧面的从下到上隔开的大量扬声器对。

特征和能力

如上所述，自适应音频生态系统使得内容创建者可以经由元数据将混音的空间意图(位置、大小、速率等)嵌入在比特流内。这使得音频的空间再现十分灵活。从空间渲染的角度来讲，自适应音频格式使得内容创建者能够使混音适应扬声器在房间里的准确位置，以避免由不同于创作系统的回放系统的几何形状引起的空间失真。在目前的仅发送用于扬声器声道的音频的消费者音频再现中，内容创建者的意图对于房间里的除了固定扬声器位置之外的位置是未知的。根据目前的声道/扬声器范式，唯一已知的信息是特定音频声道应被发送到在房间里具有预定义位置的特定扬声器。在自适应音频系统中，使用通过创建和分发流水线传送的元数据，再现系统可以使用该信息来以与内容创建者的原始意图匹配的方式再现内容。例如，扬声器之间的关系对于不同音频对象是已知的。通过提供音频对象的空间位置，内容创建者的意图是已知的，并且该意图可以被“映射”到用户的扬声器配置(包括它们的位置)上。通过动态渲染音频渲染系统，可以通过添加额外的扬声器来更新和改进该渲染。

所述系统还使得能够添加被导向的三维空间渲染。已经多次尝试了通过使用新的扬声器设计和配置来创建更令人沉浸的音频渲染体验。这些包括使用双极和二极扬声器、侧向发射、后向发射和向上发射驱动器。就以前的声道和固定扬声器位置系统而言，确定音频的哪些元素应被发送给这些修改的扬声器充其量是猜测。使用自适应音频格式，渲染系统具有音频的哪些元素(对象或其他)适合于发送到新扬声器配置的详细和有用的信息。也就是说，所述系统使得可以控制哪些音频信号发送到前向发射驱动器以及哪些音频信号被发送到向上发射驱动器。例如，自适应音频电影内容主要依赖于使用头顶扬声器提供更大的环绕感。这些音频对象和信息可以发送到向上发射驱动器以在收听环境中提供反射音频以创建类似效果。

所述系统还使得可以使混音适应再现系统的精确的硬件配置。在消费者渲染设备(诸如电视、家庭影院、条形音箱、便携式音乐播放器坞站等)中，存在许多不同的可能的扬声器类型和配置。当这些系统发送声道特定的音频信息(即，左声道和右声道或者标准的多声道音频)时，系统必须对该音频进行处理以适当地匹配渲染设备的能力。典型的例子是当标准立体声(左、右)发送到具有多于两个的扬声器的条形音箱时。在目前的仅发送用于扬声器声道的音频的系统中，内容创建者的意图是未知的，必须通过假定如何修改音频以在硬件上再现的算法来创建增强的设备使得其成为可能的更令人沉浸的音频体验。例子是使用PLII、PLII-z或下一代环绕声来将基于声道的音频“上混”到比原始数量的声道馈送多的扬声器。通过自适应音频系统，使用在整个创建和分发流水线中传送的元数据，再现系统可以使用该信息来以更接近地匹配内容创建者的原始意图的方式再现内容。例如，一些条形音箱具有侧向发射扬声器以创建环绕感。就自适应音频而言，当被渲染系统(诸如TV或A/V接收器)控制为仅将适当的音频发送到这些侧向发射扬声器时，空间信息和内容类型信息(即，对话、音乐、周围环境效果等)可以被条形音箱使用。

通过自适应音频传送的空间信息使得可以在察觉到所存在的扬声器的位置和类型的情况下动态地渲染内容。另外，关于一个收听者或多个收听者与音频再现设备的关系的信息现在可能是可用的，并且可以用于渲染。大多数游戏控制台包括可以确定房间里的人的位置和身份的照相机附件和智能图像处理。该信息可以被自适应音频系统用于基于收听者的位置改变渲染以更准确地传达内容创建者的创建意图。例如，在几乎所有的情况下，为了回放被渲染的音频假定收听者位于理想的“甜蜜点”，甜蜜点常常离每个扬声器是等距的，并且混音器在内容创建期间位于同一位置。然而，人常常不在这个理想位置上，并且他们的体验与混音器的创建意图不匹配。典型的例子是当收听者坐在房间左侧、客厅里的椅子或沙发上时。对于这种情况，从更靠近左侧的扬声器再现的声音将被感知为更大声并且使音频混合的空间感知偏向左边。通过理解收听者的位置，所述系统可以调整音频的渲染以降低左扬声器上的声音水平并且提高右扬声器的水平以使音频混合重新平衡并且使它在感知上是正确的。使音频延迟以补偿收听者离甜蜜点的距离也是可能的。收听者位置可以通过使用具有将向渲染系统发信号通知收听者位置的某一内置信令的修改的遥控器或者照相机来检测。

除了使用标准扬声器和扬声器位置来寻址收听位置，还可以使用束转向技术来创建根据收听者位置和内容变化的声场“区域”。音频束形成使用扬声器(通常，8至16个水平隔开的扬声器)阵列，并且使用相位操纵和处理来创建可转向声音束。束形成扬声器阵列使得可以创建在其中音频主要可听的音频区域，所述音频区域可以用于通过选择性处理将特定声音或对象指引到特定的空间位置。显而易见的使用实例是使用对话增强后处理算法对声带中的对话进行处理，并且将该音频对象直接发送到听力受损的用户。

矩阵编码

在某些情况下，音频对象可以是自适应音频内容的期望分量；然而，基于带宽限制，发送声道/扬声器音频和音频对象两者可能是不可能的。过去，使用矩阵编码来传送比给定的分发系统可传送的音频信息更多的音频信息。例如，这是早期影院的情况，在这种情况下，多声道音频由混音器创建，但是胶片格式仅提供立体声音频。使用矩阵编码来智能地将多声道音频下混到两个立体声声道，然后用某些算法对这两个立体声声道进行处理以重新从立体声音频创建多声道混音的接近逼近。类似地，可以智能地将音频对象下混到基本扬声器声道中，并且通过使用自适应音频元数据和复杂的时间和频率敏感的下一代环绕声算法来提取对象并且用自适应音频渲染系统正确地对它们进行空间渲染。

另外，当音频发送系统(例如，3G和4G无线应用)存在带宽限制时，还受益于发送空间多样的多声道床，所述多声道床是与个体音频对象一起编码的矩阵。这样的发送方法的一个使用实例将是发送具有两个截然不同的音频床和多个音频对象的体育广播。音频床可以表示在两个不同球队的露天看台部分中捕捉的多声道音频，音频对象可以表示可能对于一个球队或另一个球队有好感的不同的播音员。使用标准译码，每个床连同两个或更多个对象的5.1表示可以超出发送系统的带宽约束。在这种情况下，如果每个5.1床是被编码为立体声信号的矩阵，则最初作为5.1声道捕捉的两个床可以作为两声道床1、两声道床2发送，对象1和对象2仅作为音频的四个声道发送，而不是5.1+5.1+2或12.1声道。

位置和内容相关处理

自适应音频生态系统使得内容创建者可以创建个体音频对象并且添加关于可以传送给再现系统的内容的信息。这使得再现之前的音频处理可以非常灵活。通过基于对象位置和大小动态地控制扬声器虚拟化，可以使处理适应对象的位置和类型。扬声器虚拟化是指处理音频以使得虚拟扬声器被收听者感知到的方法。该方法通常用于当源音频是包括环绕扬声器声道馈送的多声道音频时的立体声扬声器再现。虚拟扬声器处理以下述方式修改环绕扬声器声道音频，即，当环绕扬声器声道音频在立体声扬声器上回放时，环绕音频元素被虚拟化到收听者的侧面和背面，就如同在那安置了虚拟扬声器一样。目前，虚拟扬声器位置的位置属性是静态的，因为环绕扬声器的预期位置是固定的。然而，关于自适应音频内容，不同音频对象的空间位置是动态的且截然不同的(即，对于每个对象是唯一的)。可能的是，现在可以通过下述操作以更灵通的方式控制诸如虚拟扬声器虚拟化的后处理，即，动态地控制每个对象的诸如扬声器位置角度的参数，然后组合数个虚拟化对象的渲染输出以创建更接近地表示混音器的意图的、更令人沉浸的音频体验。

除了音频对象的标准的水平虚拟化之外，还可以使用感知高度线索，其对固定声道和动态对象音频进行处理，并且从在普通的水平面位置上的标准的立体声扬声器对得到音频的高度再现的感知。

增强处理的某些效果可以明智地应用于适当类型的音频内容。例如，对话增强可以仅应用于对话对象。对话增强是指对包含对话的音频进行处理以使得对话的可听性和/或可懂度提高和/或改进的方法。在许多情况下，应用于对话的音频处理不适合于非对话音频内容(即，音乐、周围环境效果等)，并且可以导致令人讨厌的可听假象。关于自适应音频，音频对象可以仅在一条内容中包含对话，并且可以被相应地标记，以使得渲染解决方案将选择性地将对话增强仅应用于对话内容。另外，如果音频对象仅仅是对话(不是对话和其他内容的混合，情况常常如此)，则对话增强处理可以仅仅处理对话(从而限制对任何其他内容执行的任何处理)。

类似地，音频响应或均衡管理还可以针对特定的音频特性被定制。例如，低音管理(滤波、衰减、增益)基于特定对象的类型针对这些对象。低音管理是指选择性地仅隔离和处理特定内容中的低音(或较低)频率。就目前的音频系统和递送机制而言，这是应用于所有音频的“盲”处理。就自适应音频而言，可以用元数据识别在其中低音管理合适的特定音频对象，并且适当地应用渲染处理。

自适应音频系统还有助于基于对象的动态范围压缩。传统的音频音轨具有与内容本身相同的持续时间，而音频对象在内容中可能出现有限的时间。与对象相关联的元数据可包含水平相关的信息，关于其平均值和峰值信号振幅，以及其初动或攻击时间(特别是对于瞬态材料)。该信息将使得压缩器可以更好地改动其压缩和时间常数(攻击、释放等)以更好地适合内容。

所述系统还有助于自动扩音器-房间均衡。扩音器和房间声学在对于声音引入可听着色时起到重要作用，从而影响再现声音的音色。此外，由于房间反射和扩音器方向性变化，声学是位置相关的，并且因为这个变化，对于不同的收听位置，感知音色将显著地变化。所述系统中所提供的AutoEQ(自动房间均衡)功能通过以下来帮助缓解这些问题中的一些：自动扩音器-房间谱测量和均衡、自动时间延迟补偿(其提供正确的成像和基于可能最小平方的相对扬声器位置检测)和水平设置、基于扩音器净空(headroom)容量的低音改向、以及主要扩音器与超低音扬声器的最佳拼接。在家庭影院或其他收听环境中，自适应音频系统包括某些另外的功能，诸如：(1)基于回放房间声学的自动目标曲线计算(其在家庭收听房间中的均衡研究中被认为是公开的问题)；(2)使用时频分析的模态衰减控制的影响；(3)理解从测量得出的管控环绕感/空间感/源-宽度/可懂度的参数，并且控制这些参数以提供最佳的可能的收听体验；(4)用于匹配前扩音器与“其他”扩音器之间的音色的合并有头部模型的定向滤波；以及(5)检测扩音器在离散设置中相对于收听者的空间位置，并且进行空间重新映射(例如，Summit无线将是例子)。扩音器之间的音色不匹配尤其是在前锚点扩音器(例如，中央)和环绕/背面/宽度/高度扩音器之间的某些平移内容上被揭示。

总的说来，自适应音频系统还使得能够特别是关于家庭环境中的较大屏幕大小，在一些音频元素的再现空间位置与屏幕上的图像元素匹配的情况下，实现令人入胜的音频/视频再现体验。例子是使电影或电视节目中的对话在空间上与在屏幕上说话的人或人物一致。就正常的基于扬声器声道的音频而言，没有容易的方法来确定对话应在空间上被定位在哪里以便与屏幕上的人或人物的位置匹配。通过自适应音频系统中可用的音频信息，甚至是在以大小更大的屏幕为特征的家庭影院系统中，仍可以容易地实现这种类型的音频/视觉对准。视觉位置和音频空间对准还可以用于非人物/对话对象，诸如汽车、卡车、动画等。

通过使得内容创建者可以创建个体音频对象并且添加关于可以被递送给再现系统的内容的信息，自适应音频生态系统还使得可以实现增强的内容管理。这使得音频的内容管理的灵活性很大。从内容管理的角度来讲，自适应音频使得能够实现各种事情，诸如通过仅替换对话对象来改变音频内容的语言以缩小内容文件大小和/或缩短下载时间。电影、电视和其他娱乐节目典型地是国际发布的。这常常要求内容中的语言根据将在哪再现它而改变(对于在法国演出的电影，是法语，对于在德国演出的TV节目，是德语，等等)。如今，这常常要求针对每种语言创建、包装和发布完全独立的音频声带。通过自适应音频系统和音频对象的固有概念，内容的对话可以是独立的音频对象。这使得可以在不更新或改变音频声带的其他元素(诸如音乐、效果等)的情况下容易地改变内容的语言。这将不仅适用于外国语言，而且还适用于不适合某些观众、针对性广告等的语言。

实施例还涉及用于在一对耳机中渲染基于对象的声音的系统，该系统包括：输入级，接收包括第一多个输入声道和第二多个音频对象的输入信号；第一处理器，对于所述第一多个输入声道中的每个，计算左耳机声道信号和右耳机声道信号；以及第二处理器，将时不变的双耳房间脉冲响应(BRIR)滤波器应用于所述第一多个输入声道的每个信号，并且将时变的BRIR滤波器应用于所述第二多个对象的每个对象以产生一组左耳信号和右耳信号。该系统还可以包括：左声道混合器，将左耳信号混合到一起以形成整个左耳信号；右声道混合器，将右耳信号混合到一起以形成整个右耳信号；左侧均衡器，对整个左耳信号进行均衡以补偿从耳机的左换能器到收听者的左耳的入口的声学传递函数；以及右侧均衡器，对整个右耳信号进行均衡以补偿从耳机的右换能器到收听者的右耳的入口的声学传递函数。在这样的系统中，BRIR滤波器可以包括被配置为对直接路径响应和一个或多个反射路径响应求和的求和器电路，其中，所述一个或多个反射路径响应包括收听者所在的收听环境的镜面效果和衍射效果。直接路径和一个或多个反射路径均可以包括源传递函数、距离响应和头部相关传递函数(HRTF)，并且其中，所述一个或多个反射路径均另外包括对于收听环境中所部署的一个或多个表面的表面响应；并且BRIR滤波器可以被配置为，对于在收听环境内的特定位置处的收听者，针对源位置、源方向性和源取向，在收听者的左耳和右耳处生成正确的响应。

本文中所描述的虚拟化和均衡技术的各方面表示用于通过适当的扬声器和回放装置回放音频和/或音频/视觉内容的系统的各方面，并且可以表示收听者体验所捕捉的内容的回放的任何环境，诸如电影院、音乐厅、露天剧场、住宅或房间、收听展位、汽车、游戏控制台、耳机或耳麦系统、公共广播(PA)系统、或任何其他回放环境。实施例可以在家庭影院环境中应用，在家庭影院环境中，空间音频内容与电视内容相关联，应指出，实施例还可以在其他基于消费者的系统中实现。包括基于对象的音频和基于声道的音频的空间音频内容可以与任何相关内容(相关联的音频、视频、图形等)结合使用，或者它可以构成孤立的音频内容。回放环境可以是从耳机或近场监视器到小房间或大房间、汽车、露天竞技场、音乐厅等的任何适当的收听环境。

本文中所描述的系统的各方面可以在用于对数字或数字化音频文件进行处理的适当的基于计算机的声音处理网络环境下实现。自适应音频系统的部分可以包括一个或多个网络，这些网络包括任何期望数量的单独的机器，包括用于缓冲和路由在计算机之间传输的数据的一个或多个路由器(未示出)。这样的网络可以构建在各种不同的网络协议上，并且可以是互联网、广域网(WAN)、局域网(LAN)或它们的任何组合。在网络包括互联网的实施例中，一个或多个机器可以被配置为通过web浏览器程序访问互联网。

组件、方框、处理或其他功能组件中的一个或多个可以通过控制系统的基于处理器的计算装置的执行的计算机程序来实现。还应指出，就它们的行为、寄存器传送、逻辑组件和/或其他特性而言，本文中所公开的各种功能可以使用硬件、固件的任何数量的组合来描述，和/或被描述为包含在各种机器可读或计算机可读介质中的数据和/或指令。其中可以包含这样的格式化的数据和/或指令的计算机可读介质包括，但不限于，各种形式的物理(非暂态)、非易失性存储介质，诸如光、磁或半导体存储介质。

除非上下文另有明确要求，否则在整个描述和权利要求书中，词语“包含”等要从与排他的或穷举的意义完全不同的包括性的意义上来进行解释；也就是说，从“包括，但不限于”的意义上来进行解释。使用单数或复数的词语分别还包括复数或单数。另外，词语“在本文中”、“在下文中”、“以上”、“以下”和类似含义的词语是指作为整体的本申请，而不是指本申请的任何特定部分。当关于两个或更多个项目的列表使用词语“或”时，该词语覆盖该词语的下列全部解释：该列表中的任一项目、该列表中的所有项目、以及该列表中的项目的任何组合。

虽然已经以举例的方式就特定实施例而言描述了一种或多种实现，但是要理解一种或多种实现不限于所公开的实施例。相反，意图覆盖本领域的技术人员将显而易见的各种修改和类似的布置。因此，所附权利要求书的范围应被给予最广泛的解释，以便包含所有这样的修改和类似的布置。

Claims

1.一种用于使用反射声音元素回放基于空间音频的声音的系统，包括：

在收听环境中链接所述系统的组件的网络；

在所述收听环境各处分布的可单独寻址音频驱动器的阵列，其中，每个驱动器与所述网络的通信协议内所定义的唯一标识符相关联，并且其中，所述阵列的第一部分包括被配置为使声音直接发送到所述收听环境中的位置的驱动器，并且其中，所述阵列的第二部分包括被配置为使声音在由所述收听环境的一个或多个表面反射之后发送到所述位置的驱动器，

其中，所述第二部分的至少一个驱动器为被配置为使声波朝向所述收听环境的天花板投射以向下反射到所述位置以便模拟定位于天花板的至少一个高度扬声器的存在的向上发射驱动器；和

渲染器，所述渲染器耦合到所述驱动器的阵列，并且被配置为基于所述基于空间音频的声音的音频流和所述收听环境的一种或多种特性将所述音频流路由到所述阵列的第一部分或所述阵列的第二部分，

其特征在于，所述系统进一步包括：

高度线索滤波器，用于处理由所述至少一个向上发射驱动器再现的音频，所述高度线索滤波器减少来自所述至少一个向上发射驱动器的物理位置的高度线索并且插入来自反射扬声器位置的高度线索，所述反射扬声器位置为收听者上方的位置。

2.根据权利要求1所述的系统，其中，所述音频流被识别为基于声道的音频或基于对象的音频，并且其中，与所述基于声道的音频相关联的回放位置包括所述驱动器的阵列中的驱动器的扬声器指定，并且与所述基于对象的音频相关联的回放位置包括在三维空间中的位置。

3.根据权利要求2所述的系统，其中，所述音频流根据一个或多个元数据集合与对应于所述音频驱动器的阵列的多个音频馈送相互关联。

4.根据权利要求1所述的系统，其中，至少一个音频驱动器包括被体现为以下之一的向上发射驱动器：在扬声器壳体内的孤立驱动器、以及在一体式扬声器壳体中邻近一个或多个前向发射驱动器放置的驱动器。

5.根据权利要求4所述的系统，其中，所述音频驱动器的阵列根据所定义的音频环绕声配置被分布在所述收听环境各处，并且其中，所述收听环境包括以下之一：开放空间、部分封闭的房间、以及完全封闭的房间，并且进一步其中，所述音频流包括选自由下列内容构成的组的音频内容：被变换以用于在家庭环境中回放的电影内容、电视内容、用户产生的内容、计算机游戏内容和音乐。

6.根据权利要求5所述的系统，其中，元数据集合补充基本元数据集合，所述基本元数据集合包括与空间音频信息的基于对象的流相关联的元数据元素，关于基于对象的流的元数据元素规定了控制相应的基于对象的声音的回放的空间参数，并且包括以下中的一个或多个：声音位置、声音宽度和声音速率，元数据集合还包括与所述空间音频信息的基于声道的流相关联的元数据元素，并且其中，与每个基于声道的流相关联的元数据元素包括所定义的环绕声配置的音频驱动器的环绕声声道的指定。

7.根据权利要求1所述的系统，还包括：

麦克风，所述麦克风放置在所述收听环境中，并且被配置为获得封装所述收听环境的音频特性的收听环境配置信息；和

校准组件，所述校准组件耦合到所述麦克风，并且被配置为接收并且处理所述收听环境配置信息以定义或修改与发送到至少一个音频驱动器的音频流相关联的元数据集合。

8.根据权利要求1所述的系统，还包括条形音箱，所述条形音箱包含一部分可单独寻址音频驱动器，并且包括用于通过所述条形音箱的可寻址音频驱动器中的至少一个回放音频的高分辨率中央声道。

9.根据权利要求1所述的系统，其中，所述渲染器包括体现在与所述网络相关联的中央处理器中的功能处理。

10.根据权利要求1所述的系统，其中，所述渲染器包括由耦合到所述可单独寻址音频驱动器的阵列的每个驱动器的电路执行的功能处理。

11.根据权利要求1所述的系统，还包括上混器组件，所述上混器组件被配置为使用通过迭代处理的变换操作将所述音频流分解为多个直达子声道和多个反射子声道，所述变换操作保持所述直达子声道与所述反射子声道之间能量守恒。

12.根据权利要求1所述的系统，还包括如下组件，该组件通过执行多个音频对象中的每个对象的双耳渲染并且在耦合到所述第一部分的可寻址驱动器和所述第二部分的可寻址驱动器的多个串音消除电路之间平移所得的立体声双耳信号，通过包括所述第一部分和所述第二部分两者的一个或多个可单独寻址驱动器的多对扩音器虚拟地渲染基于对象的音频。