CN111586552B

CN111586552B - 用于自适应音频的混合型基于优先度的渲染系统和方法

Info

Publication number: CN111586552B
Application number: CN202010453145.2A
Authority: CN
Inventors: J·B·兰多; F·桑切斯; A·J·希菲尔德
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-02-06
Filing date: 2016-02-04
Publication date: 2021-11-05
Anticipated expiration: 2036-02-04
Also published as: CN111586552A; US20170374484A1; JP7033170B2; US20210112358A1; CN114554386A; CN114374925B; JP7362807B2; US10225676B2; CN114374925A; EP3254476A1; US11765535B2; CN111556426A; WO2016126907A1; CN107211227B; EP3893522B1; US20190191258A1; CN111556426B; JP2022065179A; CN114554387A; JP2018510532A

Abstract

本发明涉及用于自适应音频的混合型基于优先度的渲染系统和方法。实施例针对通过以下步骤来渲染自适应音频的方法：接收包括基于声道的音频、音频对象以及动态对象的输入音频，其中，动态对象被分类为一组低优先度动态对象和一组高优先度动态对象；在音频处理系统的第一渲染处理器中渲染基于声道的音频、音频对象以及低优先度动态对象；并且在音频处理系统的第二渲染处理器中渲染高优先度动态对象。渲染音频然后经过虚拟化和后处理步骤以便通过条形音箱和其他类似的具有有限高度能力的扬声器回放。

Description

用于自适应音频的混合型基于优先度的渲染系统和方法

本申请是申请号为201680007206.4、申请日为2016年2月4日、发明名称为“用于自适应音频的混合型基于优先度的渲染系统和方法”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2015年2月6日提交的美国临时专利申请No.62/113268的优先权，该申请全文通过引用并入于此。

技术领域

一个或多个实现总体上涉及音频信号处理，更具体地涉及一种用于自适应音频内容的混合型基于优先度的渲染策略。

背景技术

数字影院的引入和真实三维(“3D”)或虚拟3D内容的开发创建了新的声音标准，诸如音频的多个声道的合并以允许内容创建者的创造力更大并且观众的听觉体验更有包围感且更逼真。作为用于分发空间音频的手段，扩展超出传统的扬声器馈送和基于声道的音频是关键的，并且对于基于模型的音频描述一直存在相当大的兴趣，基于模型的音频描述允许收听者选择期望的回放配置，从而特别针对他们选择的配置渲染音频。声音的空间呈现利用音频对象，音频对象是具有视在源位置(例如，3D坐标)、视在源宽度和其他参数的相关参数化源描述的音频信号。进一步的发展包括下一代空间音频(也被称为“自适应音频”)格式已经被开发，该空间音频格式包括音频对象和传统的基于声道的扬声器馈送、连同音频对象的位置元数据的混合。在空间音频解码器中，声道被直接传输到它们相关联的扬声器，或者被下混到现有的扬声器组，并且音频对象被解码器以灵活的(自适应的)方式渲染。与每个对象相关联的参数化源描述(诸如3D空间中的位置轨迹)连同连接到解码器的扬声器的数量和位置一起被取作输入。渲染器然后利用某些算法(诸如平移法则)来在所附连的一组扬声器上分发与每个对象相关联的音频。每个对象的创作空间意图因此被最佳地呈现在收听房间里存在的特定扬声器配置上。

高级的基于对象的音频的出现显著地提高了传输到各种不同扬声器阵列的音频内容的性质以及渲染处理的复杂度。例如，影院声轨可以包括与屏幕上的图像、对话、噪声以及从屏幕上的不同地方发出的声效相对应的许多个不同的声音元素，并且与背景音乐和环境效果组合以创建总体听觉体验。准确的回放要求以在声源位置、强度、移动和深度方面与屏幕上的显示内容尽可能紧密地对应的方式再现声音。

尽管高级的3D音频系统(诸如

Atmos^TM系统)大部分是针对影院应用设计和部署的，但是消费者级系统正被开发以将影院级的、自适应的音频体验带到家庭环境和办公室环境。与影院相比，这些环境在场地大小、声学特性、系统功率以及扬声器配置方面受到明显的约束。目前的专业级空间音频系统因此需要适于将高级对象音频内容渲染到以不同的扬声器配置和回放能力为特征的收听环境。为此，已经开发出了某些虚拟化技术来扩展传统的立体声或环绕声扬声器阵列的能力，从而通过使用复杂的渲染算法和技术(诸如内容相关的渲染算法、反射声传输等)来重建空间声音提示。这样的渲染技术已经导致开发出了为了渲染不同类型的自适应音频内容(诸如对象音频元数据内容(OAMD)床和ISF(中间空间格式)对象)而优化的基于DSP的渲染器和电路。已经开发出了不同的DSP电路来利用自适应音频的关于渲染特定OAMD内容的不同特性。然而，这样的多处理器系统需要针对各处理器的存储器带宽和处理能力进行优化。

因此需要一种为用于自适应音频的多处理器渲染系统中的两个或更多个处理器提供可伸缩处理器负荷的系统。

在家里越来越多地采用基于环绕声和影院的音频也已经导致开发出了超出标准的两路或三路直立型或书架型扬声器的不同类型和配置的扬声器。已经开发出了不同扬声器来回放特定内容，诸如作为5.1或7.1系统的一部分的条形音箱(soundbar)扬声器。条形音箱表示其中两个或更多个驱动器并置在单个外壳(扬声器箱体)中并且典型地沿着单个轴排列的一类扬声器。例如，流行的条形音箱典型地包括在矩形箱体中排成一行的4-6个扬声器，该矩形箱体被设计为装在电视机或计算机监视器的顶部、下面或正前方以将声音直接传输出屏幕。由于条形音箱的配置，与通过物理放置(例如，高度驱动器)或其他技术提供高度提示的扬声器相比，某些虚拟化技术可能难以实现。

因此进一步需要一种对自适应音频虚拟化技术进行优化以通过条形音箱扬声器系统回放的系统。

背景部分中所讨论的主题不应仅由于它在背景部分中被提及就假定是现有技术。类似地，背景部分中所提及的问题或者与背景部分的主题相关联的问题不应被假定为以前已经在现有技术中被认识到。背景部分中的主题仅表示不同的方法，这些方法本身也可以是发明。Dolby、Dolby TrueHD和Atmos是杜比实验室许可公司的商标。

发明内容

描述了关于一种通过以下步骤来渲染自适应音频的方法的实施例：接收包括基于声道的音频、音频对象以及动态对象的输入音频，其中，动态对象被分类为低优先度动态对象的集合和高优先度动态对象的集合；在音频处理系统的第一渲染处理器中渲染基于声道的音频、音频对象和低优先度动态对象；以及在音频处理系统的第二渲染处理器中渲染高优先度动态对象。输入音频可以根据包括音频内容和渲染元数据的基于对象音频的数字比特流格式进行格式化。基于声道的音频包括环绕声音频床，音频对象包括符合中间空间格式的对象。低优先度动态对象和高优先度动态对象由优先度阈值区分，优先度阈值可以由以下中的一个定义：包括输入音频的音频内容的创作者、用户选择的值以及由音频处理系统执行的自动化处理。在实施例中，优先度阈值被编码在对象音频元数据比特流中。低优先度音频对象和高优先度音频对象的音频对象的相对优先度可以由它们各自在对象音频元数据比特流中的位置确定。

在实施例中，所述方法进一步包括：在基于声道的音频、音频对象和低优先度动态对象在第一渲染处理器中被渲染以生成渲染音频期间或之后，穿过第一渲染处理器将高优先度音频对象传递到第二渲染处理器；并且对渲染音频进行后处理以便传输到扬声器系统。后处理步骤包括以下中的至少一个：上混、音量控制、均衡化、低音管理以及用于促进输入音频中存在的高度提示的渲染以便通过扬声器系统回放的虚拟化步骤。

在实施例中，扬声器系统包括条形音箱扬声器，该条形音箱扬声器具有沿着单个轴传输声音的多个并置驱动器，并且第一渲染处理器和第二渲染处理器被体现在通过传输链路耦接在一起的单独的数字信号处理电路中。优先度阈值由以下中的至少一个确定：第一渲染处理器和第二渲染处理器的相对处理能力、与第一渲染处理器和第二渲染处理器中的每个渲染处理器相关联的存储器带宽以及传输链路的传输带宽。

实施例进一步针对一种通过以下步骤来渲染自适应音频的方法：接收包括音频分量和相关联的元数据的输入音频比特流，音频分量每个均具有选自以下的音频类型：基于声道的音频、音频对象以及动态对象；基于各自的音频类型来确定每个音频分量的解码器格式；根据与每个音频分量相关联的元数据中的优先度字段来确定每个音频分量的优先度；在第一渲染处理器中渲染第一优先度类型的音频分量；并且在第二渲染处理器中渲染第二优先度类型的音频分量。第一渲染处理器和第二渲染处理器被实现为通过传输链路相互耦接的单独的渲染数字信号处理器(DSP)。第一优先度类型的音频分量包括低优先度动态对象，第二优先度类型的音频分量包括高优先度动态对象，所述方法进一步包括在第一渲染处理器中渲染基于声道的音频、音频对象。在实施例中，基于声道的音频包括环绕声音频床，音频对象包括符合中间空间格式(ISF)的对象，并且低优先度动态对象和高优先度动态对象包括符合对象音频元数据(OAMD)格式的对象。每个音频分量的解码器格式产生以下中的至少一个：OAMD格式化的动态对象、环绕声音频床以及ISF对象。所述方法可以进一步包括至少对高优先度动态对象施加虚拟化处理以促进输入音频中存在的高度提示的渲染以便通过扬声器系统回放，并且扬声器系统可以包括具有沿着单个轴传输声音的多个并置驱动器的条形音箱扬声器。

实施例更进一步针对实现前述方法的数字信号处理系统和/或包含实现前述方法中的至少一些方法的电路的扬声器系统。

通过引用的并入

本说明书中所提及的每篇出版物、专利和/或专利申请都全文通过引用并入本文，达到如同每一篇出版物和/或专利申请都被明确地且单独地指示通过引用并入一样的程度。

附图说明

在以下附图中，相同的标号用于指代相同的元件。尽管以下附图描绘了各种例子，但是一个或多个实现不限于附图中描绘的例子。

图1例示了提供用于回放高度声道的高度扬声器的环绕系统(例如，9.1环绕)中的示例性扬声器放置。

图2例示了在一个实施例下组合基于声道的数据和基于对象的数据以生成自适应音频混合。

图3是例示了在一个实施例下在混合型基于优先度的系统中处理的音频内容的类型的表格。

图4是在一个实施例下用于实现混合型基于优先度的渲染策略的多处理器渲染系统的框图。

图5是在一个实施例下图4的多处理器渲染系统的更详细框图。

图6是例示了在一个实施例下实现基于优先度的渲染以便通过条形音箱回放自适应音频内容的方法。

图7例示了可以与混合型基于优先度的渲染系统的实施例一起使用的条形音箱扬声器。

图8例示了基于优先度的自适应音频渲染系统在示例性电视机和条形音箱消费者用例中的使用。

图9例示了基于优先度的自适应音频渲染系统在示例性全环绕声家庭环境中的使用。

图10是例示了在一个实施例下在对条形音箱利用基于优先度的渲染的自适应音频系统中一些示例性元数据定义的表格。

图11例示了在一些实施例下用于与渲染系统一起使用的中间空间格式。

图12例示了在一个实施例下用于与中间空间格式一起使用的叠环格式(stacked-ring format)平移空间中的环的布置。

图13例示了在一个实施例下音频对象被平移到ISF处理系统中所用的角度的扬声器弧。

图14A-C例示了不同实施例下的叠环中间空间格式的解码。

具体实施方式

描述了用于混合型基于优先度的渲染策略的系统和方法，其中，对象音频元数据(OAMD)床或中间空间格式(ISF)对象被使用第一DSP组件上的时域对象音频渲染器(OAR)组件渲染，而OAMD动态对象则由第二DSP组件上的后处理链中的虚拟渲染器渲染。输出音频可以通过一种或多种后处理和虚拟化技术优化以便通过条形音箱扬声器回放。本文中所描述的一个或多个实施例的方面可以在包括执行软件指令的一个或多个计算机或处理装置的混合、渲染和回放系统中的对源音频信息进行处理的音频或视听系统中实现。所描述的实施例中的任何一个可以单独使用，或者按任何组合相互一起使用。尽管各种实施例可能已受到在本说明书中的一个或多个地方可能讨论或暗示的现有技术的各种缺陷启发，但是实施例不一定解决这些缺陷中的任何一个缺陷。换句话说，不同实施例可以解决本说明书中可能讨论的不同缺陷。一些实施例可以仅部分解决本说明书中可能讨论的一些缺陷或者仅一个缺陷，一些实施例可以不解决这些缺陷中的任何一个缺陷。

为了本描述的目的，以下术语具有相关联的意义：术语“声道”意指音频信号加上元数据，在元数据中，位置被编码为声道标识符，例如，左前或右上环绕；“基于声道的音频”是为通过具有相关标称地点(例如，5.1、7.1等)的预定义的一组扬声器区域回放而格式化的音频；术语“对象”或“基于对象的音频”意指具有诸如视在源位置(例如，3D坐标)、视在源宽度等之类的参数化源描述的一个或多个音频声道；“自适应音频”意指基于声道的和/或基于对象的音频信号加上元数据，其基于回放环境、使用音频流加上其中位置被编码为空间中的3D位置的元数据来渲染音频信号；并且“收听环境”意指任何开放的、部分封闭的或完全封闭的区域，诸如可以用于单独回放音频内容或者回放音频内容与视频或其他内容的房间，并且可以体现于家里、影院、剧院、礼堂、工作室、游戏机等中。这样的区域可以具有设置在其中的一个或多个表面，诸如可以直接或间接反射声波的墙壁或挡板。

自适应音频格式和系统

在实施例中，互连系统被实现为被配置为与声音格式和处理系统一起工作的音频系统的一部分，声音格式和处理系统可以被称为“空间音频系统”或“自适应音频系统”。这样的系统基于音频格式和渲染技术，以允许增强的观众沉浸感、更好的艺术控制以及系统灵活性和可扩展性。整个自适应音频系统一般包括音频编码、分发和解码系统，该音频编码、分发和解码系统被配置为产生包含常规的基于声道的音频元素和音频对象编码元素这两者的一个或多个比特流。与分开采用基于声道的方法或基于对象的方法相比，这样的组合方法提供更好的编码效率和渲染灵活性。

自适应音频系统和相关音频格式的示例性实现是

Atmos^TM平台。这种系统包含可被实现为9.1环绕系统或类似的环绕声配置的高度(上/下)维度。图1例示了目前的提供用于回放高度声道的高度扬声器的环绕系统(例如，9.1环绕)中的扬声器放置。9.1系统100的扬声器配置由地板平面中的五个扬声器102和高度平面中的四个扬声器104组成。一般来说，这些扬声器可以用于生成被设计为在房间内或多或少准确地从任何位置发出的声音。预定义的扬声器配置(诸如图1所示的那些)可以自然地限制准确地表示给定声源的位置的能力。例如，声源不能被平移成比左扬声器本身更左。这适用于每个扬声器，因此形成其中下混受到约束的一维(例如，左-右)、二维(例如，前-后)或三维(例如，左-右、前-后、上-下)几何形状。各种不同的扬声器配置和类型可以用在这样的扬声器配置中。例如，某些增强音频系统可以使用具有9.1、11.1、13.1、19.4或其他配置的扬声器。扬声器类型可以包括全范围直接扬声器、扬声器阵列、环绕扬声器、重低音扬声器、高音扬声器以及其他类型的扬声器。

音频对象可以被认为是可以被感知为是从收听环境中的特定的一个物理地点或多个物理地点发出的多组声音元素。这样的对象可以是静态的(静止的)或动态的(移动的)。音频对象由限定声音在给定时间点的位置以及其他功能的元数据控制。当对象被回放时，它们被使用存在的扬声器、根据位置元数据来渲染，而不一定被输出到预定义的物理声道。会话中的轨可以是音频对象，并且标准平移数据类似于位置元数据。这样，放置在屏幕上的内容可以以与基于声道的内容相同的方式有效地平移，但是如果需要的话，放置在周围的内容可以被渲染到个别的扬声器。虽然音频对象的使用提供了对于离散效果的期望控制，但是声轨的其他方面可以在基于声道的环境中有效地工作。例如，许多环境效果或混响实际上得益于被馈送到扬声器阵列。尽管这些可以被看作具有足以填充阵列的宽度的对象，但是保留一些基于声道的功能是有益的。

自适应音频系统被配置为除了音频对象之外还支持音频床，其中，床是有效地基于声道的副混合(sub-mix)或支干(stem)。取决于内容创建者的意图，这些可以要么被分别递送以用于最终回放(渲染)，要么被组合到单个床中地。这些床可以被创建成不同的基于声道的配置(诸如，5.1、7.1和9.1)和包括头顶扬声器的阵列(诸如图1所示)。图2例示了在一个实施例下组合基于声道的数据和基于对象的数据以生成自适应音频混合。如处理200所示，基于声道的数据202(例如，可以是以脉冲编码调制(PCM)数据的形式提供的5.1或7.1环绕声数据)与音频对象数据204组合以生成自适应音频混合208。音频对象数据204是通过将原始的基于声道的数据的元素与相关联的元数据组合而生成的，该元数据指定了与音频对象的地点有关的某些参数。如图2中概念性地示出的，创作工具提供了同时创建包含扬声器声道组和对象声道的组合的音频节目的能力。例如，音频节目可以包含可选地组织成组(或轨，例如，立体或5.1轨)的一个或多个扬声器声道、对于一个或多个扬声器声道的描述性元数据、一个或多个对象声道、以及对于一个或多个对象声道的描述性元数据。

在实施例中，图2的床音频分量和对象音频分量可以包括符合特定格式化标准的内容。图3是例示了在一个实施例下在混合型基于优先度的渲染系统中处理的音频内容的类型。如图3的表300所示，存在两个主要类型的内容，就轨迹来说相对静态的基于声道的内容以及在系统中的扬声器或驱动器之间移动的动态内容。基于声道的内容可以被体现在OAMD床中，并且动态内容按优先度排列为至少两个优先度级别(低优先度和高优先度)的OAMD对象。动态对象可以根据某些对象格式化参数格式化，并且被分类为某些类型的对象，诸如ISF对象。稍后在本描述中更详细地描述ISF格式。

动态对象的优先度反映对象的某些特性，诸如内容类型(例如，对话vs.效果vs.环境声音)、处理要求、存储器要求(例如，高带宽vs.低带宽)以及其他类似的特性。在实施例中，每个对象的优先度是沿着标度定义的，并且被编码在优先度字段中，优先度字段被包括作为封装音频对象的比特流的一部分。优先度可以被设置为标量值，诸如1(最低)至10(最高)整数值，或者被设置为二进制标志(0低/1高)或其他类似的可编码优先度设置机制。优先度级别一般由内容创作者对每个对象设置一次，内容创作者可以基于以上提及的特性中的一个或多个来决定每个对象的优先度。

在替代性实施例中，至少一些对象的优先度级别可以由用户设置，或者通过可以基于某些运行时标准(诸如动态处理器负荷、对象响度、环境变化、系统故障、用户偏好、声学定制等)来修改对象的默认优先度级别的自动化动态处理来设置。

在实施例中，动态对象的优先度级别确定对象在多处理器渲染系统中的处理。对每个对象的经编码的优先度级别进行解码以确定双DSP或多DSP系统的哪个处理器(DSP)将被用于渲染该特定对象。这使得能够在渲染自适应音频内容时使用基于优先级的渲染策略。图4是在一个实施例下用于实现混合型基于优先度的渲染策略的多处理器渲染系统的框图。图4示出了包括两个DSP组件406和410的多处理器渲染系统400。这两个DSP被包含在两个分开的渲染子系统(解码/渲染组件404和渲染/后处理组件408)内。这些渲染子系统一般包括在音频被发送到进一步的后处理和/或放大级和扬声器级之前执行传统的对象和声道音频解码、对象渲染、声道重新映射和信号处理的处理块。

系统400被配置为渲染并回放通过一个或多个捕捉组件、预处理组件、创作组件以及将输入音频编码为数字比特流402的编码组件产生的音频内容。自适应音频组件可以用于通过检查诸如源间隔和内容类型之类的因素对输入音频进行分析来自动地产生适当的元数据。例如，位置元数据可以通过对声道对之间的相关输入的相对级别进行分析而从多声道记录推导得到。内容类型(诸如语音或音乐)的检测可以例如通过特征提取和分类来实现。某些创作工具允许通过优化录音师的创建意图的输入和整理来创作音频节目，从而使得他可以一次性创建为几乎任何回放环境中的回放而优化的最终音频混合。这可以通过使用音频对象以及与原始音频内容相关联并且一起编码的位置元数据来实现。一旦自适应音频内容已经在适当的编解码器装置中被创作和编码，它被解码并且被渲染以便通过扬声器414回放。

如图4所示，包括对象元数据的对象音频和包括声道元数据的声道音频作为输入音频比特流被输入到解码/渲染子系统404内的一个或多个解码器电路。输入音频比特流402包含与各种音频分量(诸如图3所示的那些)相关的数据，包括OAMD床、低优先度动态对象以及高优先度动态对象。分配给每个音频对象的优先度确定两个DSP 406或410中的哪个DSP对该特定对象执行渲染处理。OAMD床和低优先度对象在DSP 406(DSP1)中渲染，而高优先度对象被传递穿过渲染子系统404，以便在DSP 410(DSP 2)中渲染。经渲染的床、低优先度对象和高优先度对象然后被输入到子系统408中的后处理组件412以产生输出音频信号413，输出音频信号413被传输以用于通过扬声器414回放。

在实施例中，区分低优先度对象和高优先度对象的优先度级别被设置在对每个相关联的对象的元数据进行编码的比特流的优先度内。低优先度和高优先度之间的截止值或阈值可以被设置为沿着优先度范围的值，诸如沿着优先度标度1至10的值5或7，或用于二进制优先度标志0或1的简单检测器。每个对象的优先度级别可以在解码子系统402内的优先度确定组件中被解码以将每个对象路由到适当的DSP(DPS1或DSP2)进行渲染。

图4的多处理架构促进基于DSP的特定配置和能力以及网络和处理器组件的带宽/处理能力来对不同类型的自适应音频床和对象进行高效处理。在实施例中，DSP1被优化为渲染OAMD床和ISF对象，但是可以不被配置为最佳地渲染OAMD动态对象，而DSP2被优化为渲染OAMD动态对象。对于这个应用，输入音频中的OAMD动态对象被分配高优先度级别，使得它们被传递到DPS2进行渲染，而床和ISF对象在DSP1中渲染。这允许适当的DSP对它能够渲染得最好的一个音频分量或多个音频分量进行渲染。

除了或代替正被渲染的音频分量的类型(例如，床/ISF对象vs.OAMD动态对象)，音频分量的路由和分布式渲染可以基于某些性能相关的度量来执行，诸如基于两个DSP的相对处理能力和/或两个DSP之间的传输网络的带宽。因此，如果一个DSP明显比另一个DSP更强大，并且网络带宽足以传输未渲染的音频数据，则优先度级别可以被设置为使得较强大的DSP被要求渲染音频分量中的更多个音频分量。例如，如果DSP2比DPS1强大得多，则它可以被配置为渲染所有的OAMD动态对象、或不管格式如何地渲染所有对象，假定它能够渲染这些其他类型的对象。

在实施例中，某些应用特定的参数(诸如房间配置信息、用户选择、处理/网络约束等)可以被反馈至对象渲染系统以允许动态地改变对象优先度级别。在被输出以用于通过扬声器414回放之前，按优先度排列的音频数据然后通过诸如均衡器和限制器之类的一个或多个信号处理级处理。

应注意，系统400表示用于自适应音频的回放系统的例子，并且其他配置、组件和互联也是可能的。例如，在图3中例示了了两个渲染DSP用于处理被分为两种类型的优先度的动态对象。为使处理能力更大并且优先度级别更多，还可以包括额外数量的DSP。因此，N个DSP可以用于N个不同的优先度区分，诸如三个DSP用于高、中等、低优先度，以此类推。

在实施例中，图4中所示的DSP 406和410被实现为通过物理传输接口或网络耦接在一起的单独的装置。每个DSP均可以包含在分开的组件或子系统(诸如所示出的子系统404和408)内，或者它们可以是同一个子系统(诸如集成解码器/渲染器组件)中包含的分开的组件。可替代地，DSP 406和410可以是单片集成电路装置内的分开的处理组件。

示例性实现

如上所述，自适应音频格式的初始实现是在包括内容捕捉(对象和声道)的数字影院的背景下，该内容捕捉是使用新颖的创作工具创作的、使用自适应音频影院编码器封装的、并且使用PCM或使用现有的数字影院倡导联盟(Digital Cinema Initiative，DCI)分发机制的专有无损编解码器分发的。在这种情况下，音频内容意图在数字影院中被解码并且被渲染以创建沉浸式空间音频影院体验。然而，现在势在必行的是直接向在家里的消费者递送通过自适应音频格式提供的增强用户体验。这要求格式和系统的某些特性适于用在更受限的收听环境中。为了描述的目的，术语“基于消费者的环境”意图包括任何非影院环境，包括供普通消费者或专业人员使用的收听环境，诸如房子、工作室、房间、控制台区域、礼堂等。

目前的用于消费者音频的创作和分发系统创建并递送意图用于再现到预定义的且固定的扬声器地点的音频，而对音频本质(即，被消费者再现系统回放的实际音频)中传达的内容的类型的了解有限。然而，自适应音频系统为音频创建提供新的混合型方法，其包括对于固定扬声器地点特定的音频(左声道、右声道等)和具有包括位置、大小和速度的广义3D空间信息的基于对象的音频元素这两者的选项。该混合型方法提供渲染(广义音频对象)的保真度(由固定扬声器地点提供)和灵活性兼顾的方法。该系统还经由新的元数据提供关于音频内容的附加有用信息，该新的元数据与由内容创建者在内容创建/创作时将其与音频本质配对。这种信息提供关于在渲染期间可以使用的音频的属性的详细信息。这样的属性可以包括内容类型(例如，对话、音乐、效果、配音、背景/环境等)以及诸如空间属性(例如，3D位置、对象大小、速度等)之类的音频对象信息和有用的渲染信息(例如，对齐到扬声器地点、声道权重、增益、低音管理信息等)。音频内容和再现意图元数据可以要么由内容创建者手动创建，要么通过使用自动的媒体智能算法来创建，这些算法可以在创作过程期间在后台运行，并且可以在最后的质量控制阶段期间被内容创建者审阅，如果需要的话。

图5是用于渲染不同类型的基于声道的分量和基于对象的分量的基于优先度的渲染系统的框图，并且是根据实施例的图4所示的系统的更详细的例示。如图5所示，系统500对承载有混合对象流(一个或多个)和基于声道的音频流(一个或多个)这两者的经编码的输入比特流506进行处理。该比特流被如502、504指示的渲染/信号处理块处理，502和504均表示或被实现为单独的DSP装置。在这些处理块中执行的渲染功能实现自适应音频的各种渲染算法以及某些后处理算法(诸如上混)等。

基于优先度的渲染系统500包括解码/渲染级502和渲染/后处理级504两个主要组件。输入比特流506通过HDMI(高清多媒体接口)被提供给解码/渲染级，但是其他接口也是可能的。比特流检测组件508对比特流进行解析，并且将不同的音频分量引导到适当的解码器，诸如Dolby数字+(Dolby Digital Plus)解码器、MAT 2.0解码器、TrueHD解码器等。解码器产生各种格式化的音频信号，诸如OAMD床信号和ISF或OAMD动态对象。

解码/渲染级502包括OAR(对象音频渲染器)接口510，OAR接口510包括OAMD处理组件512、OAR组件514和动态对象提取组件516。动态对象提取组件516从所有解码器获取输出，并且分离出床、ISF对象与任何低优先度动态对象以及高优先度动态对象。床、ISF对象和低优先度动态对象被发送到OAR组件514。对于所示出的示例实施例，OAR组件514表示解码/渲染级502的处理器(例如，DSP)电路的核心，并且渲染到固定的5.1.2声道输出格式(例如，标准的5.1+2高度声道)，但是其他环绕声加上高度配置也是可能的，诸如7.1.4等。OAR组件514的渲染输出513然后被传输到渲染/后处理级504的数字音频处理器(DAP)组件。该级执行诸如以下的功能：上混、渲染/虚拟化、音量控制、均衡化、低音管理以及其他可能功能。在示例实施例中，渲染/后处理级504的输出522包括5.1.2扬声器馈送。渲染/后处理级504可以被实现为任何适当的处理电路，诸如处理器、DSP或类似装置。

在实施例中，输出信号522被传输到条形音箱或条形音箱阵列。对于诸如图5中所示的特定用例例子，条形音箱还利用基于优先度的渲染策略来支持具有31.1对象的MAT2.0输入的用例，而不使两个级502和504之间的存储器带宽重叠。在示例性实现中，存储器带宽允许最多32个的音频声道以48kHz从外部存储器读写。因为8个声道是OAR组件514的5.1.2-声道渲染输出513所需的，所以最多24个OAMD动态对象可以被渲染/后处理级504中的虚拟渲染器渲染。如果输入比特流506中存在多于24个的OAMD动态对象，则额外的最低优先度对象必须被解码/渲染级502上的OAR组件514渲染。动态对象的优先度是基于它们在OAMD流中的位置确定的(例如，最高优先度对象最先，最低优先度对象最后)。

尽管图4和图5的实施例是关于符合OAMD和ISF格式的床和对象描述的，但是应理解，使用多处理器渲染系统的基于优先度的渲染方案可以与包括基于声道的音频和两种或更多种类型的音频对象的任何类型的自适应音频内容一起使用，其中，对象类型可以基于相对优先度级别区分。适当的渲染处理器(例如，DSP)可以被配置为最佳地渲染所有类型或仅一种类型的音频对象类型和/或基于声道的音频分量。

图5的系统500例示了使OAMD音频格式适于与特定的渲染应用一起工作的渲染系统，所述特定的渲染应用涉及基于声道的床、ISF对象和OAMD动态对象并且针对条形音箱的回放进行渲染。该系统实现基于优先度的渲染策略，该基于优先度的渲染策略解决了通过条形音箱或类似的并置扬声器系统重建自适应音频内容的某些实现复杂度问题。图6是例示了在一个实施例下实现基于优先度的渲染以便通过条形音箱回放自适应音频内容的方法的流程图。图6的处理600一般表示在图5的基于优先度的渲染系统500中执行的方法步骤。在接收到输入音频比特流之后，包括基于声道的床和不同格式的音频对象的音频分量被输入到适当的解码器电路进行解码，602。音频对象包括可以使用不同格式方案格式化的动态对象，并且可以基于与每个对象一起编码的相对优先度来区分，604。所述处理通过针对每个动态音频对象读取比特流内的适当元数据字段来确定该对象与所定义的优先度阈值相比的优先度级别。区分低优先度对象和高优先度对象的优先度阈值可以作为内容创建者设置的硬连线值而被编程到系统中，或者它可以通过用户输入、自动化手段或其他自适应机制来动态地设置。然后基于声道的床和低优先度动态对象连同被优化为在系统的第一DSP中渲染的任何对象一起在该第一DSP中被渲染，606。高优先度动态对象被沿着传递到第二DSP，在第二DSP中然后它们被渲染，608。被渲染的音频分量然后被传输通过某些可选的后处理步骤以便通过条形音箱或条形音箱阵列回放，610。

条形音箱实现

如图4中所示，由两个DSP生成的按优先度排列的经渲染的音频输出被传输到条形音箱以便向用户回放。考虑到平面屏幕电视机的流行，条形音箱扬声器已经变得越来越受欢迎。这样的电视机变得非常薄并且相对较轻以优化便携性和安装选项，尽管以可承受的价格提供不断增大的屏幕大小。然而，考虑到空间、功率和成本约束，这些电视机的声音质量通常非常差。条形音箱通常是时髦的上电扬声器，这些扬声器被放置在平面电视机的下面以改善电视机音频的质量，并且可以独自地或作为环绕声扬声器设置的一部分使用。图7例示了可以与混合型基于优先度的渲染系统的实施例一起使用的条形音箱扬声器。如系统700所示，条形音箱扬声器包括容纳若干个驱动器703的柜体701，驱动器703沿着水平(或垂直)轴排列以将声音直接驱动出柜体的前面。可以根据大小和系统约束来使用任何实际数量的驱动器703，典型的数量在2-6个驱动器的范围内。驱动器可以是相同大小和形状的，或者它们可以是不同驱动器的阵列，诸如较大的中央驱动器用于较低频率的声音。HDMI输入接口702可以被提供用来允许与高清音频系统的直接接口。

条形音箱系统700可以是没有板载功率和放大并且具有最少的无源电路的无源扬声器系统。它也可以是上电系统，其中一个或多个组件被安装在柜体内或者通过外部组件紧密地耦接。这样的功能和组件包括电源和放大704、音频处理(例如，EQ、低音控制等)706、A/V环绕声处理器708以及自适应音频虚拟化710。为了描述的目的，术语“驱动器”意指响应于电音频输入信号来生成声音的单个电声换能器。驱动器可以被实现为任何适当的类型、几何形状和大小，并且可以包括喇叭、纸盆、带式换能器等。术语“扬声器”意指在整体外壳内的一个或多个驱动器。

用于条形音箱700的组件710中提供的或作为渲染/后处理级504的组件的虚拟化功能允许在局部应用(诸如电视机、计算机、游戏机或类似装置)中实现自适应音频系统，并且允许通过在与观看屏幕或监视器表面相对应的平面中排列的扬声器来对该音频进行空间回放。图8例示了基于优先度的自适应渲染系统在示例性的电视机和条形音箱消费者用例中的使用。一般来说，基于就空间分辨率而言可能有限的扬声器地点/配置(即，没有环绕或后置扬声器)和设备(TV扬声器、条形音箱扬声器等)的通常降低的质量，电视机用例提供了创建沉浸式消费者体验的挑战。图8的系统800包括在标准电视机左边地点和右边地点的扬声器(TV-L和TV-R)以及可能可选的左边的向上激发驱动器和右边的向上激发驱动器(TV-LH和TV-RH)。该系统还包括如图7所示的条形音箱700。如前所述，与独立或家庭剧场扬声器相比，电视机扬声器的大小和质量由于成本约束和设计选择而降低。然而，动态虚拟化与条形音箱700的结合使用可以帮助克服这些缺陷。图8的条形音箱700被示为具有向前激发驱动器以及可能的侧面激发驱动器，所有这些驱动器都沿着条形音箱柜体的水平轴排列。在图8中，动态虚拟化效果是针对条形音箱扬声器例示的，使得特定收听位置804的人将听到与在水平面中单个地渲染的适当音频对象相关联的水平元素。与适当音频对象相关联的高度元素可以通过基于由自适应音频内容提供的对象空间信息对扬声器虚拟化算法参数的动态控制来进行渲染，以便提供至少部分的沉浸式用户体验。对于条形音箱的并置扬声器，该动态虚拟化可以用于创建沿着房间的侧面移动的对象的感知或其他水平平面声音轨迹效果。这允许条形音箱提供空间提示，这些空间提示否则会由于没有环绕或后置扬声器而不存在。

在实施例中，条形音箱700可以包括非并置驱动器，诸如利用声音反射来允许提供高度提示的虚拟化算法的向上激发驱动器。某些驱动器可以被配置为在不同方向上将声音辐射到其他驱动器，例如，一个或多个驱动器可以实现具有单独控制的声音区域的可转向声束。

在实施例中，条形音箱700可以用作具有高度扬声器或启用高度的落地式安装的扬声器的全环绕声系统的一部分。这样的实现将允许条形音箱虚拟化扩大由环绕扬声器阵列提供的沉浸式声音。图9例示了基于优先度的自适应音频渲染系统在示例性全环绕声家庭环境中的使用。如系统900中所示，与电视机或监视器802相关联的条形音箱700与扬声器904的环绕声阵列结合使用，诸如按所示的5.1.2配置。对于这种情况，条形音箱700可以包括A/V环绕声处理器708以驱动环绕扬声器并且提供渲染和虚拟化处理的至少一部分。图9的系统仅例示了可以由自适应音频系统提供的可能的一组组件和功能，并且某些方面可以基于用户的需要来减少或移除，同时仍提供增强的体验。

图9例示了动态扬声器虚拟化的使用以在收听环境中提供除了条形音箱所提供的沉浸式用户体验之外的沉浸式用户体验。单独的虚拟器可以用于每个相关的对象，并且组合信号可以被发送到L扬声器和R扬声器以创建多对象虚拟化效果。作为例子，动态虚拟化效果被示为用于L扬声器和R扬声器。这些扬声器可以连同音频对象大小和位置信息一起被用于创建扩散的或点源近场的音频体验。类似的虚拟化效果也可以适用于系统中的其他扬声器中的任何一个或全部。

在实施例中，自适应音频系统包括从原始空间音频格式产生元数据的组件。系统500的方法和组件包括音频渲染系统，该音频渲染系统被配置为对包含常规的基于声道的音频元素和音频对象编码元素这两者的一个或多个比特流进行处理。包含音频对象编码元素的新扩展层被定义并且被添加到基于声道的音频编解码比特流或音频对象比特流中的任何一个。该方法能够实现包括扩展层的比特流，该扩展层将被渲染器处理以用于现有的扬声器和驱动器设计或利用可单个地寻址的驱动器和驱动器定义的下一代扬声器。来自空间音频处理器的空间音频内容包括音频对象、声道和位置元数据。当对象被渲染时，它根据位置元数据以及回放扬声器的地点而被分配给条形音箱或条形音箱阵列的一个或多个驱动器。元数据在音频工作站中响应于工程师的混合输入而产生以提供渲染队列，这些渲染队列控制空间参数(例如，位置、速度、强度、音色等)并且指定收听环境中的哪个(哪些)驱动器或扬声器在展示期间播放各自的声音。元数据与工作站中的供空间音频处理器包装和运输的各自的音频数据相关联。图10是例示了在一个实施例下在针对条形音箱利用基于优先度的渲染的自适应音频系统中使用的一些示例性元数据定义的表格。如图10的表1000中所示，一些元数据可以包括定义音频内容类型(例如，对话、音乐等)和某些音频特性(例如，直接、扩散等)的元素。对于通过条形音箱播放的基于优先度的渲染系统，元数据中所包括的驱动器定义可以包括回放条形音箱和可以与条形音箱一起使用的其他扬声器(例如，其他环绕扬声器或启用虚拟化的扬声器)的配置信息(例如，驱动器类型、大小、功率、内置A/V、虚拟化等)。参照图5，元数据还可以包括定义解码器类型(例如，数字+、TrueHD等)的字段和数据，从这些字段和数据可以导出基于声道的音频和动态对象(例如，OAMD床、ISF对象、动态OAMD对象等)的特定格式。可替代地，每个对象的格式可以通过具体的相关联的元数据元素来明确地定义。元数据还包括用于动态对象的优先度字段，并且相关联的元数据可以被表达为标量值(例如，1至10)或二进制优先度标志(高/低)。图10所示的元数据元素意在于仅仅例示被编码在传输自适应音频信号的比特流中的一些可能的元数据元素，并且许多其他的元数据元素和格式也是可能的。

中间空间格式

如以上对于一个或多个实施例所描述的，由所述系统处理的某些对象是ISF对象。ISF是通过将平移操作划分为以下两个部分来对音频对象平移器的操作进行优化的格式：时变部分和静态部分。一般来说，音频对象平移器通过将单音对象(例如，Object_i)平移到N个扬声器来进行操作，由此，平移增益按照扬声器地点(x₁,y₁,z₁),…,(x_N,y_N,z_N)和对象地点XYZ_i(t)的函数确定。这些增益值将随时间推移连续地变化，因为对象地点将是时变的。中间空间格式的目标仅仅是将该平移操作划分为两个部分。第一部分(其将是时变的)使用对象地点。第二部分(其使用固定矩阵)将仅基于扬声器地点进行配置。图11例示了在一些实施例下用于与渲染系统一起使用的中间空间格式。如图1100所示，空间平移器1102接收对象和扬声器地点信息以供扬声器解码器1106解码。在这两个处理块1102和1106之间，音频对象场景用K声道中间空间格式(ISF)1104表示。多个音频对象(1<＝i<＝N_i)可以被单独的空间平移器处理，空间平移器的输出被加到一起以形成ISF信号1104，以使得一个K声道ISF信号集可以包含N_i个对象的叠加。在某些实施例中，编码器也可以通过高度限制(elevation restriction)数据被给予关于扬声器高度的信息，以使得对于回放扬声器的海拔的详细了解可以被空间平移器1102使用。

在实施例中，空间平移器1102不被给予关于回放扬声器的地点的详细信息。然而，假设一系列“虚拟扬声器”的地点限于若干个水平或层并且每个水平或层内的分布是近似的。因此，虽然空间平移器没有被给予关于回放扬声器的地点的详细信息，但是关于扬声器的大致数量以及这些扬声器的大致分布通常可以做出一些合理的假设。

所得的回放体验的质量(即，它与图11的音频对象平移器的匹配接近程度)可以要么通过增加声道的数量K、要么通过收集关于最可能的回放扬声器放置的更多了解来改善。具体地说，在实施例中，如图12所示，扬声器高度被分割为若干个平面。期望的组成声场可以被认为是从收听者周围的任意方向发出的一系列发声事件。发声事件的地点可以被认为被限定在以收听者为中心的球体1202的表面上。声场格式(诸如高阶高保真立体声(HighOrder Ambisonics))是以允许声场被进一步渲染在(相当)任意的扬声器阵列的方式定义的。然而，从扬声器的高度固定在3个平面(耳朵高度平面、天花板平面和地面)中的意义上来说，所设想的典型回放系统有可能是受到约束的。因此，理想的球形声场的概念是可以修改的，其中声场由位于收听者周围的球体的表面上的各高度处的环中的发声对象组成。例如，图12中例示了一个这样的布置1200，其具有顶点环、上层环、中间层环和下层环。如果必要，为了完整性的目的，还可以包括在球体底部的附加环(最底点，严格来说，它也是点而不是环)。另外，在其他实施例中可以存在更多或更少的环。

在实施例中，叠环格式被命名为BH9.5.0.1，其中，四个数字分别指示中间环、上层环、下层环和顶点环中的声道数量。多声道束中的声道的总数将等于这四个数字的和(所以，BH9.5.0.1格式包含15个声道)。使用所有四个环的另一示例格式是BH15.9.5.1。对于该格式，声道命名和排序将如下：[M1,M2,…M15,U1,U2…U9,L1,L2,…L5,Z1]，其中，声道布置在环中(按M、U、L、Z次序)，并且在每个环内，它们简单地按上升的基数次序编号。每个环可以被认为是被围绕该环均匀地铺展的一组标称扬声器填充。因此，每个环中的声道将对应于具体的解码角度，从声道1(其将对应于0°方位角(正前面))开始，并且按逆时针的次序枚举(所以从收听者的角度来看，声道2将在中心的左边)。因此，声道n的方位角将为

(其中，N为该环中的声道的数量，并且n在从1至N的范围内)。

关于与ISF相关的object_priority的某些用例，OAMD一般允许ISF中的每个环分别具有object_priority值。在实施例中，这些优先度值以多种方式用于执行附加处理。首先，高度环和较低平面环由最小/次优渲染器渲染，而重要的收听者平面环可以由更复杂的/精度更高的高质量渲染器渲染。类似地，在编码格式中，更多的比特(即，更高质量的编码)可以用于收听者平面环，更少的比特可以用于高度环和地面环。这在ISF中是可能的，因为它使用环，而这在传统的高阶高保真立体声格式中一般是不可能的，因为每个不同的声道是以有损总体音频质量的方式相互作用的极模式(polar-pattern)。一般来说，高度环或地面环的渲染质量略微下降不是过度有害的，因为这些环中的内容通常仅包含气氛含量。

在实施例中，渲染和声音处理系统使用两个或更多个环来对空间音频场景进行编码，其中，不同的环表示声场的不同的在空间上分开的分量。音频对象在环内根据可转变用途的平移曲线平移，并且音频对象使用不可转变用途的平移曲线在环之间平移。不同的在空间上分开的分量是基于它们的垂直轴而分开的(即，作为垂直堆叠环)。声场元素在每个环内以“标称扬声器”的形式传输；并且每个环内的声场元素被以空间频率分量的形式传输。对于每个环，通过将预先计算的表示该环的分段的子矩阵联结在一起来产生解码矩阵。如果在第一个环中不存在扬声器，则从一个环到另一个环的声音可以被重定向。

在ISF处理系统中，回放阵列中的每个扬声器的地点可以用坐标(x,y,z)坐标(这是每个扬声器相对于靠近阵列中心的候选收听位置的地点)来表达。此外，(x,y,z)矢量可以被转换为单位矢量，以有效地将每个扬声器地点投影到单位球体的表面上：

扬声器地点：

扬声器单位矢量：

图13例示了在一个实施例下音频对象被平移到在ISF处理系统中使用的角度的扬声器弧。图1300例示了如下场景，即，音频对象(o)被顺序地平移通过若干个扬声器1302，以使得收听者1304体验到音频对象正在移动通过顺序地经过每个扬声器的轨迹的错觉。不失一般性地，假设这些扬声器1302的单位矢量沿着水平面中的环布置，以使得音频对象的地点可以被定义为其方位角φ的函数。在图13中，音频对象以角度φ通过扬声器A、B和C(其中，这些扬声器分别被安置成方位角φ_A、φ_B和φ_C)。音频对象平移器(例如，图11中的平移器1102)将典型地使用扬声器增益将音频对象平移到每个扬声器，其中扬声器增益是角度φ的函数。音频对象平移器可以使用具有以下性质的平移曲线：(1)当音频对象被平移到与物理扬声器地点重合的位置时，重合的扬声器被用于排除所有其他的扬声器；(2)当音频对象被平移到位于两个扬声器地点之间的角度φ时，只有这两个扬声器是工作的，因此提供音频信号在扬声器阵列上的最少量的“铺展”；(3)平移曲线可以表现出高级别的“离散性”，“离散性”是指平移曲线能量在一个扬声器及其最近邻域之间的区域中受到约束的部分。因此，参照图13，对于扬声器B：

离散性：

因此，d_B≤1，并且当d_B＝1时，这暗示着，用于扬声器B的平移曲线仅在φ_A和φ_C(分别为扬声器A和C的角度位置)之间的区域中(在空间上)完全被约束为非零。相反，没有表现出上述“离散性”性质(即，d_B<1)的平移曲线可以表现出一个其他的重要性质：平移曲线在空间上被平滑处理，以使得它们被约束在空间频率中，以便满足奈奎斯特采样定理。

在空间上带受限的任何平移曲线在其空间支集中不能是紧凑的。换句话说，这些平移曲线将在较宽的角度范围上铺展。术语“阻带波动”是指在平移曲线中出现的(不合需要的)非零增益。通过满足奈奎斯特采样定理，这些平移曲线有不太“离散”的问题。通过被适当地“奈奎斯特采样”，这些平移曲线可以移到替代的扬声器地点。这意味着，已经针对N个扬声器的特定布置(这些扬声器在圆中均匀隔开)创建的一组扬声器信号可以被重新混合到不同角度地点处的替代的一组N个扬声器(用N×N矩阵重新混合)；也就是说，扬声器阵列可以旋转到新的一组角度扬声器地点，并且原始的N个扬声器信号可以被转变用途为该新的一组N个扬声器。一般来说，这种“可转变用途”性质允许系统通过S×N矩阵将N个扬声器信号重新映射到S个扬声器，前提条件是对于S>N的情况，新的扬声器馈送不再比原始的N个声道“离散”是可接受的。

在实施例中，叠环的中间空间格式通过以下步骤、根据每个对象的(时变)(x,y,z)地点来表示每个对象：

1.将对象i安置在(x_i,y_i,z_i)处，并且假设该地点位于立方体(所以|x_i|≤1，|y_i|≤1并且-|z_i|≤1)内或者在单位球体

内。

2.使用垂直地点(z_i)来根据不可转变用途的平移曲线将对象i的音频信号平移到若干个(R个)空间区域中的每个空间区域。

3.以N_r个标称扬声器信号的形式表示每个空间区域(即区域r:1≤r≤R)(按照图4，其表示位于空间的环形区域内的音频分量)，所述N_r个标称扬声器信号是使用可转变用途平移曲线创建的，所述可转变用途平移曲线是对象i的方位角(φ_i)的函数。

注意，对于大小为零的环(按照图12，顶点环)的特殊情况，以上步骤3是不必要的，因为该环最多将包含一个声道。

如图11所示，用于K个声道的ISF信号1104在扬声器解码器1106中被解码。图14A-C例示了在不同实施例下对叠环的中间空间格式的解码。图14A例示了叠环格式被解码为单独的环。图14B例示了在没有顶点扬声器的情况下解码的叠环格式。图14C例示了在没有顶点扬声器或天花板扬声器的情况下解码的叠环格式。

尽管上面对比动态OAMD对象关于作为一种类型的对象的ISF对象描述了实施例，但是应注意，也可以使用按不同格式格式化的但又能与动态OAMD对象区分开的音频对象。

本文中所描述的音频环境的各方面表示音频或音频/视觉内容通过适当的扬声器和回放装置的回放，并且可以表示其中收听者正在体验所捕捉的内容的回放的任何环境，诸如影院、音乐厅、露天剧场、家里或房间、收听亭、汽车、游戏机、耳机或耳麦系统、公共地址(PA)系统或任何其他回放环境。尽管已经主要关于其中空间音频内容与电视机内容相关联的家庭剧场环境中的例子和实现描述了实施例，但是应注意，实施例也可以在其他基于消费者的系统中实现，诸如游戏、放映系统以及任何其他的基于监视器的A/V系统。包括基于对象的音频和基于声道的音频的空间音频内容可以与任何相关内容(相关联的音频、视频、图形等)结合使用，或者它可以构成独立的音频内容。回放环境可以是从耳机或近场监视器到小房间或大房间、汽车、露天竞技场、音乐厅等的任何适当的收听环境。

本文中所描述的系统的各方面可以在用于对数字或数字化音频文件进行处理的适当的基于计算机的处理网络环境中实现。自适应音频系统的各部分可以包括一个或多个网络，这些网络包括任何期望数量的单个机器，包括用于缓冲并路由在计算机之间传输的数据的一个或多个路由器(未示出)。这样的网络可以构建在各种不同的网络协议上，并且可以是互联网、广域网(WAN)、局域网(LAN)或它们的任何组合。在网络包括互联网的实施例中，一个或多个机器可以被配置为通过web浏览器程序来访问互联网。

组件、块、处理或其他功能组件中的一个或多个可以通过控制所述系统的基于处理器的计算装置的执行的计算机程序来实现。还应注意到，就本文中所公开的各种功能的行为、寄存器传送、逻辑组件和/或其他特性来说，这些功能可以使用硬件、固件和/或包含在各种机器可读或计算机可读介质中的数据和/或指令的任何数量的组合来描述。其中可以包含这种格式化数据和/或指令的计算机可读介质包括但不限于各种形式的物理(非暂时性)的非易失性存储介质，诸如光学、磁性或半导体存储介质。

除非上下文另有明确要求，否则在整个说明书和权利要求书中，词语“包括”、“包含”等要从与排他性或穷举性的意义完全不同的包容性的意义上来解释；也就是说，从“包括但不限于”的意义上来解释。使用单数或复数的词语还分别包括复数或单数。另外，词语“在本文中”、“在下文中”、“上面”、“下面”以及类似含义的词语是指整个本申请，而不是指本申请的任何特定部分。当在引用两个或更多个项的列表时使用词语“或”时，该词语涵盖该词语的以下所有解释：该列表中的任一项、该列表中的所有项、以及该列表中的项的任何组合。

整个本说明书中所称“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在所公开的系统(一个或多个)和方法(一种或多种)的至少一个实施例中。因此，短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个本说明书中各个地方的出现可以指代同一个实施例，或者可以不一定指代同一个实施例。此外，所述特定的特征、结构或特性可以以本领域的普通技术人员明白的任何合适的方式组合。

虽然已经以举例的方式就特定实施例描述了一个或多个实现，但是要理解一个或多个实现不限于所公开的实施例。相反，本意在于涵盖本领域技术人员明白的各种修改和类似布置。因此，所附权利要求书的范围应被给予最宽泛的解释以便包含所有这种修改和类似布置。

Claims

1.一种渲染自适应音频的方法，包括：

接收输入音频，所述输入音频包括静态的基于声道的音频和至少一个动态对象，其中，所述动态对象基于优先度值被分类为低优先度动态对象或高优先度动态对象，其中，所述输入音频根据包括音频内容和渲染元数据的基于对象音频的数字比特流格式进行格式化；以及

使用第一渲染处理渲染低优先度动态对象，并使用第二渲染处理渲染高优先度动态对象，

其中，基于为第一渲染处理和第二渲染处理中的每一个提供的相应的处理能力，第一渲染处理不同于第二渲染处理，

其中，所述渲染包括基于所述优先度值与优先度阈值的比较来将动态对象分类为低优先度动态对象或高优先度动态对象，并且其中，所述渲染包括基于所述分类来选择第一渲染处理或第二渲染处理，并且与所述分类独立地渲染所述基于声道的音频。

2.如权利要求1所述的方法，其中，所述基于声道的音频包括环绕声音频床，并且所述输入音频还包括符合中间空间格式的音频对象，并且所述基于声道的音频是使用第一渲染处理来渲染的。

3.如权利要求1所述的方法，还包括对渲染的音频进行后处理以便传输到扬声器系统。

4.如权利要求3所述的方法，其中，后处理步骤包括以下中的至少一个：上混、音量控制、均衡化、和低音管理。

5.如权利要求4所述的方法，其中，所述后处理步骤还包括虚拟化步骤，从而促进所述输入音频中存在的高度提示的渲染以便通过扬声器系统回放。

6.如权利要求2所述的方法，其中，第一渲染处理是在第一渲染处理器中执行的，所述第一渲染处理器被优化以渲染基于声道的音频和静态对象；并且

第二渲染处理是在第二渲染处理器中执行的，所述第二渲染处理器被优化以通过第二渲染处理器相对于第一渲染处理器的提高的性能能力、提高的存储器带宽以及提高的传输带宽中的至少一个来渲染高优先度动态对象。

7.如权利要求6所述的方法，其中，第一渲染处理器和第二渲染处理器被实现为通过传输链路相互耦接的分开的渲染数字信号处理器DSP。

8.如权利要求1所述的方法，其中，所述优先度阈值由以下中的一个定义：预先设置的值、用户选择的值、以及自动化处理。

9.如权利要求1所述的方法，其中，高优先度动态对象能够通过它们各自在对象音频元数据OAMD比特流中的位置确定。

10.一种包含指令的非暂时性计算机可读存储介质，所述指令当被处理器执行时执行根据权利要求1所述的方法。

11.一种用于渲染自适应音频的系统，包括：

接口，该接口接收比特流中的输入音频，所述比特流具有音频内容以及相关联的元数据，所述音频内容包括动态对象，其中，所述动态对象基于优先度值被分类为低优先度动态对象和高优先度动态对象，其中，所述输入音频根据包括音频内容和渲染元数据的基于对象音频的数字比特流格式进行格式化；

渲染处理器，所述渲染处理器耦接到所述接口并且被配置为渲染所述动态对象，其中，使用第一渲染处理来渲染低优先度动态对象，并且使用第二渲染处理来渲染高优先度动态对象，

其中，所述渲染包括基于所述优先度值与优先度阈值的比较来将动态对象分类为低优先度动态对象或高优先度动态对象，并且其中，所述渲染包括基于所述分类来选择第一渲染处理或第二渲染处理。

12.如权利要求11所述的系统，还包括接收基于声道的音频，所述基于声道的音频包括环绕声音频床，并且所述音频对象符合中间空间格式，并且还包括使用第一渲染处理来渲染所述基于声道的音频。

13.如权利要求11所述的系统，其中，所述处理器还被配置为对渲染的音频进行后处理以便传输到扬声器系统。

14.如权利要求13所述的系统，其中，所述后处理包括以下中的至少一个：上混、音量控制、均衡化、和低音管理。

15.如权利要求14所述的系统，其中，所述后处理还包括虚拟化步骤，从而促进所述输入音频中存在的高度提示的渲染以便通过扬声器系统回放。

16.如权利要求11所述的系统，所述渲染处理器包括用于处理第一优先度类型的音频分量的第一渲染处理器和用于处理第二优先度类型的音频分量的第二渲染处理器，其中所述第一渲染处理器被优化以渲染低优先度动态对象、基于声道的音频和静态对象，并且

所述第二渲染处理器被优化以通过第二渲染处理器相对于第一渲染处理器的提高的性能能力、提高的存储器带宽以及提高的传输带宽中的至少一个来渲染高优先度动态对象。

17.如权利要求16所述的系统，其中，第一渲染处理器和第二渲染处理器被实现为通过传输链路相互耦接的分开的渲染数字信号处理器DSP。

18.如权利要求11所述的系统，其中，所述优先度阈值由以下中的一个定义：预先设置的值、用户选择的值、以及自动化处理。