CN105075295B

CN105075295B - 用于生成和渲染具有条件渲染元数据的基于对象的音频的方法和系统

Info

Publication number: CN105075295B
Application number: CN201480019912.1A
Authority: CN
Inventors: S·S·麦塔; T·齐埃格勒; S·默里
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2013-04-03
Filing date: 2014-04-03
Publication date: 2017-05-24
Anticipated expiration: 2034-04-03
Also published as: US20230238004A1; KR101800604B1; CN105075295A; CN114708873A; US11270713B2; WO2014165326A1; US10388291B2; EP2982140B1; CN114157978A; CN114613373A; CN113766413B; US20160029140A1; EP2982142A1; HK1249655A1; EP3413592B1; TWI530941B; US9997164B2; CN108134978B; CN113766414A; EP2982142B1

Abstract

用于生成基于对象的音频节目的方法和音频处理单元，所述基于对象的音频节目包括与该节目的至少一个对象声道对应的条件渲染元数据，其中条件渲染元数据指示适用于每个相应对象声道的基于回放扬声器阵列配置的至少一个渲染约束；以及用于渲染由这种节目指示的音频内容的方法，包括通过响应于至少一些条件渲染元数据来以符合每个可应用渲染约束的方式渲染该节目的至少一个音频声道的内容。对节目内容的选定混合的渲染可以提供沉浸式体验。

Description

用于生成和渲染具有条件渲染元数据的基于对象的音频的方法和系统

对相关申请的交叉引用

本申请要求2013年4月3日提交的美国临时专利申请No.61/807922和2013年6月7日提交的美国临时专利申请No.61/832397的申请日权益。

技术领域

本发明涉及音频信号处理，并且更特别地，涉及包括音频内容(指示至少一个扬声器声道和至少一个音频对象声道)和支持以依赖于回放有事情配置的方式对音频内容的条件渲染(conditional rendering)的元数据的音频数据比特流的编码、解码和交互式渲染。本发明的一些实施例以被称为杜比数字(Dolby Digital，AC-3)、杜比数字加(DolbyDigital Plus，增强版AC-3或E-AC-3)或者杜比E(Dolby E)的格式之一来生成、解码和/或渲染音频数据。

背景技术

杜比、杜比数字、杜比数字加以及杜比E是杜比实验室授权许可公司(DolbyLaboratories Licensing Corporation)的商标。杜比实验室提供分别被称为杜比数字和杜比数字加的AC-3和E-AC-3的专有实现。

尽管本发明不限于在根据E-AC-3(或者AC-3或杜比E)格式对音频数据进行编码时或者在传送、解码或渲染E-AC-3、AC-3或杜比E编码数据时使用，但是为了方便，在实施例中将描述本发明根据E-AC-3、AC-3或杜比E格式对音频比特流进行编码并且传送、解码和渲染这种比特流

典型的音频数据流包括音频内容(例如，音频内容的一个或更多个声道)和指示音频内容的至少一个特性的元数据。例如，在AC-3比特流中，存在若干个专用于改变被传送给收听环境的节目的声音的音频元数据参数。

AC-3或E-AC-3编码比特流包括元数据，并且可以包括1至6个声道的音频内容。音频内容是已经利用感知音频编码压缩的音频数据。AC-3(也称为杜比数字)编码的细节是众所周知的，并且在许多公开文献中得到阐述，公开文献包括：

ATSC标准A52/A：Digital Audio Compression Standard(AC-3)，修订版A，先进电视系统委员会，2001年8月20日；及

美国专利5583962、5632005、5633981、5727119以及6021386

杜比数字加(E-AC-3)编码的细节例如在下文中得到阐述：“Introduction toDolby Digital Plus，an Enhancement to the Dolby Digital Coding System”，AES会议论文6196，第117届AES会议，2004年10月28日。

杜比E编码的细节在下文中得到阐述：“Efficient Bit Allocation，Quantization，and Coding in an Audio Distribution System”，AES预印本5068，第107次AES会议，1999年8月；和“Professional Audio Coder Optimized for Use withVideo”，AES预印本5033，第107次AES会议，1999年8月。

AC-3编码音频比特流的每帧包含针对数字音频的1536个样本的音频内容和元数据。对于48kHz的采样速率，这代表32毫秒的数字音频或者音频的31.25帧/秒的速率。

取决于帧分别包含1、2、3或6个音频数据块，E-AC-3编码音频比特流的每帧包含针对数字音频的256、512、768或1536个样本的音频内容和元数据。对于48kHz的采样速率，这分别代表5.333、10.667、16或32毫秒的数字音频或者音频的189.9、93.75、62.5或31.25帧/秒的速率。

如在图1中所示，每个AC-3帧被分成部分(片段)，包括：同步信息(SI)部分，该部分包含(如图2中所示)同步字(SW)和两个纠错字中的第一个(CRC1)；比特流信息(BSI)部分，该部分包含大部分元数据；6个音频块(AB0至AB5)，其包含经数据压缩的音频内容(并且也可以包括元数据)；浪费比特(W)，其包含在压缩音频内容之后剩余的任何未使用的比特；辅助(AUX)信息部分，该部分可以包含更多元数据；以及两个纠错字中的第二个(CRC2)。

如图4中所示，每个E-AC-3帧被分成部分(片段)，包括：同步信息(SI)部分，该部分包含(如图2中所示)同步字(SW)；比特流信息(BSI)部分，该部分包含大部分元数据；1至6个之间的音频块(AB0至AB5)，其包含经数据压缩的音频内容(并且也可以包括元数据)；浪费比特(W)，其包含在压缩音频内容之后剩余的任何未使用的比特；辅助(AUX)信息部分，该部分可以包含更多元数据；以及纠错字(CRC)。

在AC-3(或E-AC-3)比特流中，存在若干个专用于改变被传送到收听环境的节目的声音的音频元数据参数。其中一个元数据参数是包括在BSI片段中的DIALNORM参数。

如图3中所示，AC-3帧(或E-AC-3帧)的BSI片段包括指示该节目的DIALNORM值的5比特参数(“DIALNORM”)。如果AC-3帧的音频编码模式(“acmod”)是“0”，则包括指示在同一AC-3帧中携带的第二音频节目的DIALNORM值的5比特参数(“DIALNORM2”)，以指示正在使用双单声道或“1+1”声道配置。

BSI片段还包括指示紧跟在“addbsie”比特之后的附加比特流信息的存在(或不存在)的标志(“addbsie”)、指示紧跟在“addbsil”值之后的任何附加比特流信息的长度的参数(“addbsil”)、以及紧跟在“addbsil”值之后的至多64比特的附加比特流信息(“addbsi”)。

BSI片段包括未在图3中具体示出的其它元数据值。

已经提出在音频比特流中包括其它类型的元数据。例如，在国际申请日为2011年12月1日且被转让给本申请的受让人的PCT国际申请公开号WO 2012/075246 A2中，描述了用于生成、解码和处理包括指示音频内容的特性(例如，响度)和处理状态(例如，响度处理状态)的元数据的音频比特流的方法和系统。该参考文献还描述了利用元数据对比特流的音频内容的自适应处理，以及利用元数据对比特流的音频内容的响度处理状态和响度的有效性验证。

还已知用于生成和渲染基于对象的音频节目的方法。在这种节目的生成过程中，可以假设要用于渲染的扬声器位于回放环境中的任意位置(或者扬声器在单位圆的对称配置中)；不需要假设扬声器在(标称)水平面内或者在节目生成时已知的任何其它预定布置中。典型地，节目中所包括的元数据指示用于例如使用扬声器的三维阵列来在明显空间位置或者沿着轨迹(三维空间中)渲染节目的至少一个对象的渲染参数。例如，节目的对象声道可以具有相应的元数据，指示要渲染(由对象声道指示的)对象的明显空间位置的三维轨迹。轨迹可以包括一系列“地板”位置(在被假设位于回放环境的地板上或在另一水平面内的扬声器子集的平面内)、以及一系列“地板上方”位置(各自通过驱动被假设位于回放环境的至少一个其它水平面内的扬声器子集来确定)。例如，在2011年9月29日以国际公开No.WO2011/119401A2公开且被转让给本申请的受让人的PCT国际申请No.PCT/US2001/028783中，描述了对基于对象的音频节目的渲染的示例。

上述美国临时专利申请No.61/807922和上述美国临时专利申请No.61/832397描述了基于对象的音频节目，该基于对象的音频节目被渲染为提供对节目的音频内容的沉浸式、可个性化感知。内容可以指示在观赏型赛事(例如，足球或橄榄球赛、或另一体育赛事)上的气氛(即，其中出现的声音)和/或现场解说。节目的音频内容可以指示多个音频对象声道(例如，指示用户可选的对象或对象组，并且典型地还有在不存在用户对对象的选择时要渲染的一组默认对象)和至少一床(a bed of)扬声器声道。所述一床扬声器声道可以是可能被包括在不包括对象声道的常规广播节目中的类型的扬声器声道的常规混合(例如，5.1声道混合)。

上述美国临时专利申请No.61/807922和No.61/832397描述了作为基于对象的音频节目的一部分被传送的对象相关元数据，该对象相关元数据提供了回放侧的混合交互性，包括通过允许终端用户选择节目的音频内容的混合以进行渲染，而不是仅仅允许回放预先混合的声场。例如，用户可以在由本发明的节目的典型实施例的元数据提供的渲染选项之间进行选择，以选择可用对象声道的子集来进行渲染，并且可选地还选择由要渲染的对象声道指示的至少一个音频对象(声音源)的回放水平。每个所选声音源被渲染的空间位置可以由包括在节目中的元数据预先确定，但是在一些实施例中，可以由用户选择(例如，经受预定的规则或约束)。在一些实施例中，节目中所包括的元数据允许用户从渲染选项菜单(例如，少量的渲染选项，例如，“主队人群噪声”对象、“主队人群噪声”和“主队现场解说”对象组、“客队人群噪声”对象、以及“客队人群噪声”和“客队现场解说”对象组)之间选择。菜单可以由控制器的用户界面呈现给用户，并且控制器可以(例如，通过无线链路)耦接到被配置为(至少部分地)解码和渲染基于对象的节目的机顶设备(或其它设备)。节目中所包括的元数据可以以其它方式允许用户从关于由对象声道指示的哪些对象应该被渲染以及关于要渲染的对象应该如何配置的一组选项之间进行选择。

美国临时专利申请No.61/807922和No.1/832397描述了这样的基于对象的音频节目，该基于对象的音频节目是指示节目的至少一些(即，至少一部分)音频内容(例如，一床扬声器声道和至少一些节目对象声道)和对象相关元数据的编码音频比特流。至少一个附加的比特流或文件可以指示节目的一些音频内容(例如，至少一些对象声道)和/或对象相关元数据。在一些实施例中，对象相关元数据利用默认的渲染参数(例如，渲染对象的默认空间位置)来提供对象内容和床(扬声器声道)内容的默认混合。在一些实施例中，对象相关元数据提供对象声道和扬声器声道内容的一组可选“预设”混合，每个预设混合具有一组预定的渲染参数(例如，渲染对象的空间位置)。在一些实施例中，节目的对象相关元数据(或者未被与节目一起传送的元数据指示的回放或渲染系统的预配置)提供了关于对象声道和扬声器声道内容的可选混合的约束或条件。

美国临时专利申请No.61/807922和No.61/832397还描述了包括一组并行生成和传输的比特流(有时被称为“子流”)的基于对象的音频节目。可以利用多个解码器来对它们进行解码(例如，如果该节目包括多个E-AC-3子流，则回放系统可以利用多个E-AC-3解码器来对子流进行解码)。每个子流可以包括同步字(例如，时间码)，以允许子流彼此同步或时间对齐。

美国临时专利申请No.61/807922和No.61/832397还描述了这样的基于对象的音频节目：该基于对象的音频节目是或包括至少一个AC-3(或E-AC-3)比特流，并且包括一个或更多个被称为容器的数据结构。包括对象声道内容(和/或对象相关元数据)的每个容器被包括在比特流的帧尾的auxdata字段(例如，图1或图4中所示的AUX片段)中、或者在比特流的“跳过字段”片段中。还描述了包括杜比E比特流的基于对象的音频节目，其中对象声道内容和对象相关元数据(例如，包括对象声道内容和/或对象相关元数据的节目的每个容器)被包括在杜比E比特流的一般不携带有用信息的比特位置中。美国临时申请No.61/832397还描述这样的基于对象的音频节目，该基于对象的音频节目包括至少一组扬声器声道、至少一个对象声道和指示分层图(分层“混合图”)的元数据，其中所述分层图指示扬声器声道和对象声道的可选混合(例如，所有可选的混合)。混合图可以指示适用于选择扬声器和对象声道的子集的每个规则，指示节点(每个节点可以指示可选的声道或声道组，或一类可选的声道或声道组)以及节点之间的连接(例如，到用于选择声道的规则和/或节点的控制接口)。混合图可以指示必要数据(“基本”层)和可选数据(至少一个“扩展”层)，并且当混合图能够被表示为树图时，基本层可以是该树图的树枝(或者两个或更多个树枝)，而每个扩展层可以是该树图的另一个树枝(或者树枝组)。

正如所述，已经提出了在基于对象的音频节目中包括这样的对象相关元数据：该对象相关元数据指示用于使用扬声器阵列在明显的空间位置或沿着明显的轨迹(在三维空间中)渲染(由节目的对象声道指示的)至少一个对象的渲染参数。例如，节目的对象声道可以具有指示要渲染相应对象的明显空间位置的三维轨迹的相应元数据。该轨迹可以包括回放环境的“地板”平面(其中“地板”平面是标称地包括听者耳朵的预期位置的水平面)中的一系列“地板”位置以及地板平面上方的一系列“地板上方”位置。已经提出了在地板上方位置对基于对象的节目的对象进行渲染，包括通过生成用于驱动(回放扬声器阵列的)至少一个“地板上方”扬声器的至少一个扬声器馈送，所述至少一个“地板上方”扬声器假设位于回放环境的地板平面上方。这种地板上方的扬声器有时被称为“高度”扬声器。

传统地，根据预定公式来执行多声道音频节目的音频下混(downmixing)，以将该节目的第一组声道(指示第一声场的N个声道，其中N为整数)向下坍塌(下混)为第二组声道(指示下混声场的M个声道，其中M是小于N的整数)，以便由包括M个扬声器的可用扬声器阵列(例如，包含两个扬声器的立体声电视扬声器阵列)回放。在下混后的回放期间，可用扬声器阵列发出指示下混声场的声音。典型地，这种类型的传统下混在第二组声道(即，下混)中包括第一组中所有声道的音频内容。

如果在回放系统扬声器阵列中不存在地板上方(“高度”)扬声器，则可以利用(上述类型的)传统下混技术来下混该节目的扬声器声道的内容和对象声道的内容(其中扬声器声道内容打算由回放扬声器阵列的地板扬声器播放)，使得所得到的下混声音仅从回放扬声器阵列的地板扬声器发出。但是，发明人已经认识到：因为地板上方的对象声道的内容会被下混到原始扬声器声道的内容中，所以传统的下混会不合需要地在回放所得到的下混时导致嘈杂的声音(例如，地板上方的内容会被感知成受到原始扬声器声道内容干扰)。

发明人还已经认识到：(上述类型的)传统下混技术具有不一定与在回放扬声器阵列中是否存在高度扬声器有关的其他限制和缺点。例如，发明人已经认识到：即使在传统的5.1声道音频制作中，也经常作出妥协，以针对立体声下混保持合理的声场。例如，广播公司可能想要在5.1声道节目的环绕声道中放入现场解说(或其他对话元素)，但是却选择不这么做，因为传统实现的期望表示的立体声下混不向立体声电视观看者提供满意的或有代表性的体验。

在本发明之前，尚不知道如何基于回放扬声器阵列配置来以确保下混符合预定下混约束(例如，由生成和广播该节目的实体或者由节目内容创建者指定的一个或更多个下混约束)的方式对基于对象的音频节目的选定声道(例如对象声道和扬声器声道)的下混进行渲染(例如，以避免在回放时有嘈杂的或其他不希望的下混声音)。本发明的不同实施例适用于其中节目指示有比最终再现环境中可用的音频声道多的音频声道的任何和所有情况(即，节目包括的声道(对象声道和/或扬声器声道)比要驱动的回放扬声器阵列的扬声器数量多的所有情况)。

发明内容

本发明的一类实施例包括用于基于回放扬声器阵列配置来生成和条件渲染交互式的基于对象的音频的方法(其中，在本上下文中，回放扬声器阵列“配置”表示至少一个配置属性，例如，阵列中扬声器的数量和回放环境中每个扬声器的实际布置或假设布置)。

(根据本发明的一些实施例生成的)基于对象的音频节目中的对象相关元数据指示用于使用回放系统扬声器阵列在明显空间位置或沿着明显轨迹(在三维空间中)渲染(由节目的对象声道指示的)至少一个对象的渲染参数。例如，该节目的对象声道可以具有指示要渲染相应对象的明显空间位置的三维轨迹的相应元数据。该轨迹可以包括一系列“地板”位置(标称地在回放环境的地板平面内，该地板平面假设至少近似地与听者耳朵的水平面重合)以及地板平面上方的一系列“地板上方”位置。为了渲染在地板上方位置的对象，生成至少一个扬声器馈送来驱动回放扬声器阵列中的假设位于回放环境的地板平面上方的至少一个扬声器。

一类实施例包括用于生成和/或渲染如下基于对象的音频节目的方法：所述基于对象的音频节目包括与节目的至少一个对象声道(例如，地板上方的对象声道)对应的条件渲染元数据。因此，由每个这种对象声道指示的每个音频对象具有相应的条件渲染元数据。例如，在一些实施例中，具有相应条件渲染元数据的每个音频对象可以是地板上方对象。

在一类实施例中，条件渲染元数据是指示适用于每个相应对象声道(即，与条件渲染元数据对应的每个对象声道)的、基于回放扬声器阵列配置的至少一个渲染约束的对象相关元数据。这种渲染约束的示例是：当回放扬声器阵列配置为特定类型时，禁止渲染相应的对象声道。(已知晓其回放扬声器阵列为此特定类型的)回放系统可以被配置(例如，被预配置，或者响应于节目的元数据而被配置)为通过防止实现将对象声道的内容渲染成扬声器馈送(用于驱动回放扬声器)来响应于指示这种渲染约束的条件渲染元数据进行操作。由(通过这类实施例中的方法)生成的条件渲染元数据指示的渲染约束的另一个示例是：当回放扬声器阵列配置为特定类型时，对渲染相应对象声道的内容的至少一个允许类型的指示。由条件渲染元数据指示的渲染约束的其他示例是：在(或关于)相应对象声道的内容被包括在渲染该内容期间生成的每个扬声器馈送中的情况下，对布置、水平、尺寸和其他属性(例如，要执行的特效处理)的指示，使得当回放扬声器阵列播放该渲染内容时，渲染内容将被感知为从具有由元数据指示的空间位置、水平、尺寸和/或其他属性的明显源(对象)发出。

在一些实施例中，条件渲染元数据是这样的对象相关元数据：其指示适用于每个相应对象声道(即，与条件渲染元数据对应的每个对象声道)的作为基于回放扬声器阵列配置的下混约束的至少一个渲染约束。这种下混约束的示例是当回放扬声器阵列配置为特定类型时，禁止下混相应对象声道。(已知晓其回放扬声器阵列为该特定类型的)回放系统可以被配置为(例如，被预配置，或者响应于节目的元数据而被配置)为通过防止实现将对象声道的内容渲染成该节目的扬声器声道来响应于指示这种渲染约束的条件渲染元数据进行操作。由(通过这类实施例中的方法)所生成的条件渲染元数据指示的下混约束的另一个示例是当回放扬声器阵列配置为特定类型时对包括相应对象声道的至少一个允许下混(或下混类型)的指示。由条件渲染元数据指示的渲染约束的其他示例是：基于回放扬声器配置，(在相应对象声道到一个或更多个扬声器声道的下混中)对音频对象的布置、水平、尺寸和其他属性(例如，要执行的特效处理)的指示。

要领会的是，对基于对象的音频节目的N个声道“执行下混”(或“下混”，或“渲染下混”)的表述在此是以宽泛的意义使用的，以表示确定或生成用于驱动回放扬声器阵列的M个扬声器的M个扬声器馈送(指示节目的N个声道中的至少一些声道以及典型地全部声道的内容)。在一个示例中，属于(包括N个声道的节目的)对象声道的条件渲染元数据以如下意义指示至少一个下混约束(基于回放扬声器阵列配置)：条件渲染元数据的第一子集指示用于驱动M1个回放扬声器的第一阵列的M1个扬声器馈送的生成的某个属性(或者与之相关的规则)，使得该M1个扬声器馈送指示包括对象声道内容的节目内容的下混，而条件渲染元数据的第二子集指示用于驱动M2个回放扬声器的不同阵列的M2个扬声器馈送的生成的某个属性(或者与之相关的规则)，使得该M2个扬声器馈送指示包括对象声道内容的节目内容的另一下混，其中M1不等于M2。在该示例中，对节目的N个声道上的下混进行渲染以便由M1个扬声器的第一阵列回放将典型地包括以下步骤：选择条件渲染元数据的第一子集(而不是条件渲染元数据的第二子集)，以及使用所选择的条件渲染元数据的第一子集来确定或生成适当的M1个扬声器馈送。

在一类实施例中，本发明是用于生成基于对象的音频节目的方法，该方法包括以下步骤：

生成与至少一个对象声道对应的条件渲染元数据，使得该条件渲染数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置的至少一个渲染约束(例如，下混约束)；确定包括所述至少一个对象声道(以及可选地还有至少一个扬声器声道)的一组音频声道；以及

生成基于对象的音频节目，使得所述基于对象的音频节目指示所述一组音频声道以及条件渲染元数据，并且使得所述一组音频声道中的至少一个音频声道的内容能够响应于至少一些条件渲染元数据来由回放系统以符合至少一个渲染约束的方式渲染。

可选地，条件渲染元数据还指示用于对节目的音频声道进行渲染(例如，实现其下混)的基于回放扬声器阵列配置的至少一个渲染规则(例如，至少一个下混规则)。例如，条件渲染元数据可以指示以下规则：

如果回放扬声器阵列包括至少一个地板上方扬声器，则(例如，如节目的至少一些条件渲染元数据所指示的)节目的第一类型的每个对象声道应该被下混成由用户选定的(或默认的)的任何节目内容混合指定的任何扬声器声道，

如果回放扬声器阵列不包括至少一个地板上方扬声器，则节目的第一类型的每个对象声道应该被回放系统忽略(即，不应该被包括在下混中)，并且

不管回放扬声器阵列的配置如何，(例如，如节目的至少一些条件渲染元数据所指示的)节目的第二类型的每个对象声道都应该被下混成由用户选择的(或默认的)该节目的任何声道内容混合指定的任何扬声器声道。

所考虑的是，根据本发明的一些实施例，生成基于对象的音频节目包括如下步骤：选择可用的(即，之前已生成的)条件渲染元数据的第一子集，并将所选择的条件渲染元数据(而非未选择的条件渲染元数据)包括在节目中。

在其他实施例中，本发明是由基于对象的音频节目确定的音频内容的渲染方法，其中所述节目指示与至少一个对象声道对应的条件渲染元数据、以及包括至少一个对象声道(和可选地还有至少一个扬声器声道)的一组音频声道，并且其中条件渲染元数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置的至少一个渲染约束(例如，至少一个下混约束)，所述方法包括以下步骤：

(a)将基于对象的音频节目提供给音频处理单元；以及

(b)在音频处理单元中，解析条件渲染元数据和所述一组音频声道，并且响应于条件渲染元数据中的至少一些来以符合至少一个渲染约束的方式对所述一组音频声道中的至少一个音频声道的内容进行渲染。

在一些这种实施例中，所述一组音频声道包括至少一个扬声器声道，并且步骤(b)包括如下步骤：选择所述一组音频声道中的至少一个对象声道，并且使该组中的每个选定对象声道与该组中的至少一个扬声器声道混合，以生成所述每个选定对象声道与至少一个扬声器声道的内容的下混。典型地，该下混包含一组N个下混扬声器声道，其中N为正整数，并且步骤(b)包括通过用根据下混扬声器声道生成的扬声器馈送驱动扬声器来使回放扬声器阵列的N个扬声器发出声音。

可选地，条件渲染元数据还指示基于回放扬声器阵列配置的至少一个渲染规则(例如，至少一个下混规则)，并且在步骤(b)中执行的渲染符合该渲染规则。

根据本发明的典型实施例生成的基于对象的音频节目可以被渲染为使得由回放扬声器阵列播放的指示节目的(例如，对象声道和/或扬声器声道的)下混内容的声音被感知为从声音再现(回放)环境内的不同明显源位置发出。对于互动式呈现，由可选对象声道中的选定对象声道确定的对象在渲染声场内的位置(例如，与一组选定对象中的不同对象对应的一组不同的静态位置)被渲染，使得每个选定对象声道被渲染成被感知为从由与选定对象声道对应的对象相关元数据确定的明显源位置(或位置的轨迹)发出。例如，根据基于对象的音频节目确定的沉浸式声音混合可以指示这样的声音：该声音又指示(由节目的选定对象声道确定的)“公共广播(public address)”音频对象的，从而被感知为从再现环境内的假设听者位置上方的明显源位置发出，以便在从安装在听者上方的公共广播扬声器发出通告时给予听者(消费者)正身处体育场的体验。可以选择这种公共广播音频对象由包括物理地位于“地板”平面上方的水平面(有时候被称为“地板上方”或“高度”平面)中的至少一个地板上方扬声器的扬声器阵列渲染和回放，其中“地板”平面是标称地包括听者耳朵的预期位置的水平面。典型地，回放扬声器阵列的其他扬声器标称地位于地板平面内。

当音频对象(例如，之前示例的公共广播音频对象)由基于对象的音频节目的独立对象声道确定，并且在该对象声道被选择(并且被渲染和播放)时节目的相应元数据指示相应的声音应该被感知为从其发出的地板上方的源位置(或者地板上方的源位置的轨迹)时，我们将该音频对象称为“地板上方”(或“高度”)对象，并且将指示该地板上方对象的对象声道称为“地板上方”(或“高度”)对象声道。地板上方音频对象被典型地渲染和播放，使得所得到的声音从回放系统扬声器阵列的至少一个地板上方(或“高度”)扬声器发出。

如果在回放系统扬声器阵列中不存在地板上方(或“高度”)扬声器，则可以利用(上述类型的)传统下混技术来使选定的“地板上方”对象声道的内容与节目的扬声器声道的内容下混(其中扬声器声道内容打算由回放扬声器阵列的地板扬声器播放)，使得所得到的下混声音仅仅从回放扬声器阵列的地板扬声器发出。但是，因为地板上方对象声道的内容会被下混到扬声器声道的内容中，所以下混会不合需要地导致发声嘈杂的混合(例如，地板上方的内容会被感知为受原始扬声器声道内容干扰)。

使用根据本发明一些实施例的基于对象的音频节目中所包括的条件渲染元数据，关于由节目指示的哪些音频对象可以或者应该被放置在该节目的声道的下混的哪些扬声器声道中(和/或哪些音频对象应该从下混的扬声器声道中省略)、以及每个对象应该以多少音量与该节目的其他音频内容下混、该节目的声道的下混要在何时生成以供回放系统的可用扬声器回放，渲染系统可以做出明智的决定。本发明的典型实施例给予混音师艺术灵活性以在不做出常规下混会造成的妥协的情况下针对所考虑的每个回放扬声器阵列配置来确定(基于对象的音频节目的内容的)良好的发声混合，并且包括相应的条件渲染元数据以使得能够对每个这种混合进行渲染。

根据本发明的典型实施例，响应于(假设已知晓可用的扬声器阵列配置的)节目中所包括的条件渲染元数据来对基于对象的音频节目的对象声道内容进行条件渲染允许以下中的一个或两个：基于特定的回放扬声器阵列配置来自动选择下混渲染选项(例如，具有专用立体声输出的机顶盒可以被预配置为使得其基于对象的音频渲染引擎总是选择所输入的基于对象的节目的“立体声”条件渲染元数据，并且使用所选择的“立体声”条件渲染元数据来生成响应于该节目的立体声扬声器馈送)；和/或在给定特定的回放扬声器阵列配置时，由用户从可用的渲染选项(例如，下混渲染选项)的菜单中选择。例如，假定回放扬声器阵列仅包含5.1声道配置的地板扬声器，则所述菜单可以包括少量的可选下混渲染选项，包括以下选项：包含一床下混有“主队现场解说”对象的扬声器声道的内容的“主队现场解说”下混、包含一床下混有“客队现场解说”对象的扬声器声道的内容的“客队现场解说”下混、以及包含一床下混有“主队现场解说”对象和“主队人群噪声”对象的扬声器声道的内容的“主队现场解说加主队人群噪声”下混。

对于另一个示例，假定回放扬声器阵列包括(例如，5.1声道配置中的)地板扬声器和一组高度(地板上方)扬声器，所述菜单可以包括更多的可选下混渲染选项，包括以下选项：包含一床下混有“主队现场解说”对象的扬声器声道的内容的“主队现场解说”地板下混(用于仅驱动阵列的地板扬声器)、包含一床下混有“客队现场解说”对象的扬声器声道的内容的“客队现场解说”地板下混(用于仅驱动阵列的地板扬声器)、包含一床下混有“主队现场解说”对象和“主队人群噪声”对象的扬声器声道的内容的“主队现场解说加主队人群噪声”地板下混(用于仅驱动阵列的地板扬声器)、以及包含一床下混有“主队现场解说”对象、“主队人群噪声”对象和公告对象的扬声器声道的内容的“主队现场解说加主队人群噪声加公告”下混(用于驱动阵列的所有扬声器，但是公告对象声道的内容仅被包括在驱动阵列的地板上方扬声器的下混扬声器馈送中，而所有其他下混内容仅被包括在驱动阵列的地板扬声器的下混扬声器馈送中)。

可以通过控制器的用户界面将渲染选项(例如，下混渲染选项)的菜单呈现给用户，并且该控制器可耦接到被配置为(至少部分地)解码和渲染基于对象的节目的机顶设备(或其他设备)。该节目中所包括的元数据(包括上述条件渲染元数据)可以允许用户从关于由节目指示的哪些对象应该被渲染以及关于要渲染的对象应该如何配置的一组选项中进行选择。

在一些实施例中，假定(一组可能的回放扬声器阵列配置中)具有特定相应配置的回放扬声器可用，条件渲染元数据至少指定能被用户选择的(节目的音频内容的)每个可选下混(例如，由下混渲染选项菜单指示的每个可选下混)的以下属性：

存在(即，对于每个对象声道，关于该对象声道是否应该存在于下混中以便由具有相应配置的回放扬声器阵列渲染的指示)；

声场内的位置(即，对于将被包括在下混中以便由具有相应配置的回放扬声器阵列渲染的每个对象声道，当由下混确定的扬声器馈送驱动可用扬声器时，对应该被感知为发出相应的明显空间位置的指示)；

增益(即，对于将被包括在下混中以便由具有相应配置的回放扬声器阵列渲染的每个对象声道，当生成该下混时要施加到相应音频样本的增益的指示)；

效果(即，对于将被包括在下混中以便由具有相应配置的回放扬声器阵列渲染的每个对象声道，当生成下混时要应用于相应音频样本的特殊效果处理(如果有的话)的每个种类的指示。这种处理的示例包括但不限于发散处理(divergence processing)和混响应用)。

本发明的另一个方面是被配置为执行本本发明的方法的任何实施例的音频处理单元(APU)。在另一类实施例中，本发明是APU，包括(例如，以非暂态方式)存储已经由本发明的方法的任何实施例生成的基于对象的音频节目的至少一个帧或其它片段(包括扬声器声道和至少一个对象声道的音频内容、以及包括条件渲染元数据的对象相关元数据)的缓冲存储器(缓冲区)。APU的示例包括但不限于编码器(例如，转码器)、解码器、编解码器、预处理系统(预处理器)、后处理系统(后处理器)、音频比特流处理系统、以及这些元素的组合。

本发明的各方面包括被配置为(例如，被编程为)执行本发明的方法的任何实施例的系统或设备，以及(例如，以非暂态方式)存储有用于实现本发明的方法或其步骤的任何实施例的代码的计算机可读介质(例如，盘)。例如，本发明的系统可以是或者包括可编程的通用处理器、数字信号处理器或微处理器，被用软件或固件编程和/或以其它方式被配置为对数据执行各种操作中的任何操作，包括本发明的方法或步骤的实施例。这种通用处理器可以是或者包括含有以下的计算机系统：输入设备、存储器和被编程为(和/或以其它方式被配置为)响应于对其断言的数据来执行本发明的方法(或其步骤)的实施例的处理电路。

附图说明

图1是AC-3帧的图，包括被分成的片段。

图2是AC-3帧的同步信息(SI)片段的图，包括被分成的片段。

图3是AC-3帧的比特流信息(BSI)片段的图，包括被分成的片段。

图4是E-AC-3帧的图，包括被分成的片段。

图5是一种系统的实施例的图，其中该系统的一个或更多个元件可以根据本发明的实施例来配置。

图6是可被实现为执行本发明的方法实施例的回放系统的框图。

图7是可被配置为执行本发明的方法实施例的回放系统的框图。

图8是被配置为根据本发明的实施例来生成基于对象的音频节目(和相应的视频节目)的广播系统的框图。

图9是本发明的节目的实施例的对象声道之间的关系图，指示对象声道的哪些子集可被用户选择。

图10是可被实现为执行本发明的方法实施例的系统的框图。

图11是根据本发明的实施例而生成的基于对象的音频节目的内容的图。

符号和命名

贯穿本公开内容，包括在权利要求中，“对”信号或数据执行操作(例如，对信号或数据进行过滤、缩放、变换或施加增益)的表述广义地用来表示直接对信号或数据或者对信号或数据的处理版本(例如，对在执行操作之前经历了初步过滤或预处理的信号版本)执行操作。

贯穿本公开内容，包括在权利要求中，表述“系统”广义地用来表示设备、系统或子系统。例如，实现解码器的子系统可以被称为解码器系统，而包括这种子系统的系统(例如，响应于多个输入来生成X个输出信号的系统，其中子系统生成其中M个输入而其它X-M个输入从外部源中接收)也可以被称为解码器系统。

贯穿本公开内容，包括在权利要求中，术语“处理器”广义地用来表示可编程为或者(例如，用软件或固件)以其它方式被配置为对数据(例如，音频或视频或其它图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或者其它可配置的集成电路或芯片集)、被编程为或者以其它方式被配置为对音频或其它声音数据执行流水线处理的数字信号处理器、可编程的通用处理器或计算机、以及可编程的微处理器芯片或芯片集。

贯穿本公开内容，包括在权利要求中，表述“音频视频接收器”(或者“AVR”)表示用来控制音频和视频内容的回放的一类消费者电子器材中的接收器，例如在家庭影院中。

贯穿本公开内容，包括在权利要求中，表述“条形音箱”表示如下设备：该设备是一种类型的消费者电子器材(典型地安装在家庭影院系统中)，并且包括至少一个扬声器(典型地，至少两个扬声器)和用于渲染音频以便由每个内含扬声器回放(或者以便由每个内含扬声器和该条形音箱外部的至少一个附加扬声器回放)的子系统。

贯穿本公开内容，包括在权利要求中，表述“音频处理器”和“音频处理单元”可交换使用，并且广义地用来表示被配置为对音频数据进行处理的系统。音频处理单元的示例包括但不限于编码器(例如，转码器)、解码器、编解码器、预处理系统、后处理系统、以及比特流处理系统(有时被称为比特流处理工具)。

贯穿本公开内容，包括在权利要求中，表述“元数据”(例如，就像在表述“处理状态元数据”中)指的是与相应音频数据(也包括元数据的比特流的音频内容)分离且不同的数据。元数据与音频数据关联，并且指示音频数据的至少一个特征或特性(例如，对音频数据已经执行或应该执行什么类型的处理，或者由音频数据指示的对象的轨迹)。元数据与音频数据的关联是时间同步的。因此，当前的(最近接收或更新的)元数据可以指示：相应的音频数据同时具有所指示的特征和/或包括所指示类型的音频数据处理的结果。

贯穿本公开内容，包括在权利要求中，术语“耦接”或“被耦接”用来指直接或间接连接。因此，如果第一设备耦接到第二设备，则连接可以是通过直接连接，或者通过经由其它设备和连接的间接连接。

贯穿本公开内容，包括在权利要求中，以下表述具有以下定义：

扬声器和扬声器同义地用来表示任何发声换能器。这个定义包括被实现为多个换能器的扬声器(例如，低音喇叭和高音喇叭)；

扬声器馈送：要直接施加给扬声器的音频信号，或者要施加给串联的放大器和扬声器的音频信号；

声道(或“音频声道”)：单声道音频信号。这种信号可以典型地以这种方式渲染：使得相当于直接对期望的或标称的位置处的扬声器施加信号。期望的位置可以是静止的，就像典型地具有物理扬声器的情况，或者可以是动态的；

音频节目：一个或更多个音频声道的集合(至少一个扬声器声道和/或至少一个对象声道)并且可选地还有关联的元数据(例如，描述期望的空间音频呈现的元数据)；

扬声器声道(或者“扬声器馈送声道”)：与(在期望或标称位置的)指定扬声器或者与既定扬声器配置内的指定扬声器区关联的音频声道。扬声器声道以这种方式渲染：使得相当于直接对(在期望或标称位置的)指定扬声器或扬声器区中的扬声器施加音频信号。

对象声道：指示由音频源(有时被称为音频“对象”)发出的声音的音频声道。典型地，对象声道确定参数化音频源描述(例如，指示参数化音频源描述的元数据被包括在对象声道中或者与对象声道一起提供)。源描述可以确定由源发出的声音(作为时间的函数)、作为时间的函数的明显源位置(例如，3D空间坐标)、可选地还有表征源的至少一个附加参数(例如，明显源尺寸或宽度)；

基于对象的音频节目：包括一个或更多个对象声道的集合(并且可选地还包括至少一个扬声器声道)以及可选地还有关联的元数据(例如，指示发出由对象声道指示的声音的音频对象的轨迹的元数据，或者以其它方式指示由对象声道指示的声音的期望空间音频呈现的元数据，或者指示作为由对象声道指示的声音的源的至少一个音频对象的标识的元数据)的音频节目；及

渲染：将音频节目转换成一个或更多个扬声器馈送的过程，或者将音频节目转换成一个或更多个扬声器馈送并且使用一个或更多个扬声器来将扬声器馈送转换成声音的过程(在后一种情况下，渲染有时候在本文被称为“由”扬声器渲染)。可以通过直接向期望位置处的物理扬声器施加信号来(在期望的位置“处”)平常地渲染音频声道，或者可以使用被设计为基本上等效于(对听众而言)这种平常渲染的各种虚拟化技术之一来渲染一个或更多个音频声道。在后一种情况下，每个音频声道可以被转换为要施加给位于已知位置的扬声器的一个或更多个扬声器馈送，所述已知位置一般与期望的位置不同，使得由扬声器响应于馈送而发出的声音将被感知为是从期望位置发出的。这种虚拟化技术的示例包括经由头戴式耳机的双耳渲染(例如，使用杜比头戴式耳机的处理，这种处理为头戴式耳机佩戴者模拟高达7.1声道的环绕声)和波场合成。

具体实施方式

图5是音频处理链(音频数据处理系统)的示例的框图，其中该系统的一个或更多个元件可以根据本发明的实施例来配置。该系统包括如图所示耦接到一起的以下元件：捕捉单元1、制作单元3(包括编码子系统)、传送子系统5、解码器7、对象处理子系统9、控制器10、以及渲染子系统11。在所示系统的变型中，省略其中的一个或更多个元件，或者包括额外的音频数据处理单元。典型地，元件7、9、10和11是回放系统(例如，终端用户的家庭影院系统)或者被包括在回放系统中。

捕捉单元1典型地被配置为生成包括音频内容的PCM(时域)样本，并且输出PCM样本。样本可以指示由麦克风(例如，在体育赛事或者其它观赏型赛事)捕捉的多个音频流。典型地由广播公司操作的制作单元3被配置为接受PCM样本作为输入并且输出指示音频内容的基于对象的音频节目。节目通常是或者包括指示至少一些音频内容的经编码的(例如，经压缩的)音频比特流(有时在本文中被称为“主混合”)，并且可选地还包括指示一些音频内容的至少一个附加比特流或文件(有时在本文中被称为“次混合”)。指示音频内容的编码比特流(以及，如果生成了的话，则还有每个生成的次混合)的数据在本文中有时被称为“音频数据”。如果制作单元3的编码子系统是根据本发明的典型实施例配置的，则从单元3输出的基于对象的音频节目指示(即，包括)音频数据的多个扬声器声道(一“床”扬声器声道，以及可选地还有替换扬声器声道)、音频数据的多个对象声道、以及对象相关元数据(包括条件渲染元数据)。节目可以包括主混合，主混合又包括指示一床扬声器声道和替换扬声器声道的音频内容、指示至少一个用户可选的对象声道(以及可选地还有至少一个其它对象声道)的音频内容、以及元数据(包括与每个对象声道关联的对象相关元数据，对象相关元数据又包括用于至少一个对象声道的条件渲染元数据)。节目还可以包括至少一个次混合，次混合包括指示至少一个其它对象声道(例如，至少一个用户可选的对象声道)的音频内容和/或对象相关元数据。节目的对象相关元数据可以包括持久性元数据(下面将描述)。节目(例如，其主混合)可以指示一组或更多组扬声器声道。例如，主混合可以指示两组或更多组扬声器声道(例如，5.1声道的中立人群噪声床、指示主队人群噪声的一组2.0声道的替换扬声器声道、以及指示客队人群噪声的一组2.0声道的替换扬声器声道)，包括至少一组用户可选的替换扬声器声道(其可以使用用于对对象声道内容或配置进行用户选择的同一用户界面来选择)和一床扬声器声道(这将在不存在对节目的其他内容的用户选择时被渲染)。所述床(可被称为默认床)可以由指示回放系统的扬声器组的配置(例如，初始配置)的数据确定，并且可选地，用户可以选择节目的其他音频内容代替默认床来渲染。

节目的元数据可以指示节目的对象声道中的至少一个对象声道的内容和所述床中的预定扬声器声道和/或替代扬声器声道的内容的至少一个(并且典型地多于一个)可选预定混合，并且可以包括用于每个所述混合的渲染参数。

图5的传送子系统5被配置为存储和/或发送(例如，广播)由单元3生成的节目(例如，主混合及其每个次混合，如果有任何次混合生成的话)。

在一些实施例中，子系统5实现基于对象的音频节目的传送，其中节目的扬声器声道和音频对象(以及至少一些相应的对象相关元数据)通过广播系统发送(在节目的主混合中，由所广播的音频比特流指示)，而节目的至少一些元数据(例如，指示对节目的对象声道的渲染或混合的约束的对象相关元数据)和/或节目的至少一个对象声道以另一种方式(例如，次混合通过因特网协议或“IP”网络被发送到特定的终端用户)被传送(作为主混合的“次混合”)。作为替代，终端用户的解码和/或渲染系统被用至少一些对象相关元数据(例如，指示对本发明的基于对象的音频节目的实施例的音频对象的渲染或混合的约束的元数据)来预配置，并且这种对象相关元数据不(由子系统5)利用相应的对象声道(在基于对象的音频节目的主混合中或者在次混合中)来广播或以其它方式传送。

在一些实施例中，通过单独路径传送的基于对象的音频节目的部分或元素(例如，通过广播系统广播的主混合，以及作为次混合通过IP网络发送的相关元数据)的定时和同步由通过所有传送路径(例如，在主混合和每个相应的次混合中)发送的同步字(例如，时间码)提供。

再次参照图5，解码器7接受(接收或读取)由传送子系统5传送的节目(或者节目的至少一个比特流或其它元素)，并且解码该节目(或者该节目的每个被接受的元素)。在本发明的一些实施例中，节目包括主混合(编码比特流，例如，AC-3或E-AC-3编码比特流)和主混合的至少一个次混合，并且解码器7接收并解码主混合(以及可选地还有至少一个次混合)。可选地，该节目中的不需要被解码的至少一个次混合(例如，对象声道)由子系统5直接传送到对象处理子系统9。如果解码器7是根据本发明的典型实施例配置的，则在典型的操作中解码器7的输出包括以下：

指示节目的扬声器声道床(以及典型地还有节目的替换扬声器声道)的音频样本流；及

指示节目的对象声道(例如，用户可选的音频对象声道)的音频样本流和对应的对象相关元数据(包括条件渲染元数据)流。

对象处理子系统9被耦接为(从解码器7)接收所传送节目的经解码的扬声器声道、对象声道和对象相关元数据(包括条件渲染元数据)，并且可选地还有节目的至少一个次混合(指示至少一个其它对象声道)。例如，子系统9可以(从解码器7)接收节目的扬声器声道的音频样本和节目的至少一个对象声道的音频样本以及节目的对象相关元数据，并且还可以(从传送子系统5)接收节目的至少一个其它对象声道的音频样本(尚未在解码器7中经历解码)。

子系统9被耦接和配置为向渲染子系统11输出由节目指示的整组对象声道的选定子集、以及对应的对象相关元数据。对象声道的选定子集可以至少部分地由节目的条件渲染元数据确定。子系统9典型地还被配置为不作改变地(向子系统11)传递来自解码器7的经解码的扬声器声道，并且可以被配置为处理对其断言的对象声道(和/或元数据)中的至少一些，以生成它向子系统11断言的对象声道和元数据。

由子系统9执行的对象声道选择典型地是通过(如由从控制器10向子系统9断言的控制数据指示的)用户选择和/或子系统9已经被编程或以其它方式被配置(例如，响应于条件渲染元数据)而实现的规则(例如，指示由节目的条件渲染元数据确定的条件和/或下混约束或其他渲染约束)确定的。这种规则可以由节目的条件渲染元数据和/或其他对象相关元数据和/或由(例如，从控制器10或另一外部源)向子系统9断言的其它数据(例如，指示回放系统的扬声器阵列的能力和配置的数据)和/或通过预配置(例如，编程)子系统9来确定。在一些实施例中，控制器10(经由控制器10实现的用户界面)向用户提供(例如，在触摸屏上显示)扬声器声道内容(即，床扬声器声道和/或替换扬声器声道的内容)与对象声道内容(对象)的可选“预设”混合的菜单或选项板。所述可选预设混合可以由节目的对象相关元数据并且通常还由子系统9实现的规则(例如，由节目的条件渲染元数据确定的规则和/或子系统9已被预配置而实现的规则)确定。用户通过向控制器10输入命令(例如，通过致动其触摸屏)来从可选的混合中进行选择，并且作为响应，控制器10向子系统9断言对应的控制数据，以使得根据本发明对相应内容进行渲染。

图5的渲染子系统11被配置为渲染由子系统9的输出确定的音频内容，以便由回放系统的回放扬声器阵列13回放。子系统11已知晓(例如，被提供指示阵列13的回放扬声器阵列配置的数据)阵列13的回放扬声器阵列配置(例如，在回放环境中，阵列13的扬声器数量、阵列13中的每个扬声器的类型(例如，全范围或者重低音)、以及阵列13中的每个扬声器的标称或假设位置(例如，在地板平面或者听者耳朵的假设位置的平面内或上方))。子系统11被配置为：利用从子系统9输出的、与每个选定对象关联的渲染参数(例如，用户选择的和/或默认的空间位置值和水平值)，把由对象处理子系统9选择的对象声道确定的音频对象(例如，默认对象，和/或作为用户使用控制器10进行交互的结果而被选择的用户选定对象)映射到可用的扬声器声道。至少一些渲染参数是由从子系统9输出的对象相关元数据确定的。渲染子系统11还接收通过子系统9传递的扬声器声道。典型地，子系统11是智能混合器，并且被配置为确定用于阵列13中的可用扬声器的扬声器馈送，包括通过把一个或更多个选定的(例如，默认选择的)对象映射到多个单独的扬声器声道中的每一个，并且使对象与由节目的每个相应扬声器声道(例如，节目的扬声器声道床中的每个扬声器声道)指示的扬声器声道内容混合。典型地，子系统11被配置为对从子系统9断言的音频声道(例如，扬声器声道和至少一个对象声道)的下混(包括一组N个下混扬声器声道，其中N为正整数)进行渲染，根据下混扬声器声道生成N个扬声器馈送，并通过用扬声器馈送驱动扬声器来使回放扬声器阵列13的N个扬声器发出声音，其中所述下混符合由其内容被渲染的节目的条件渲染元数据指示的至少一个(例如，每个)下混约束。

根据本发明的典型实施例(例如，通过图5中的单元3)生成的基于对象的音频节目可以(例如，通过图5中的回放子系统，或图6的系统)被渲染为使得指示由回放扬声器阵列播放的节目的(例如，对象声道和/或扬声器声道的)下混内容的声音被感知为从声音再现(回放)环境内的不同明显源位置发出。对于互动式呈现，由可选对象声道中的选定对象声道确定的对象在渲染声场内的位置(例如，与一组选定对象中的不同选定对象对应的一组不同的静态位置)被渲染，使得每个选定对象声道的音频内容被渲染成被感知为从由与选定对象声道对应的对象相关元数据确定的明显源位置(或位置的轨迹)发出。例如，根据基于对象的音频节目确定的沉浸式声音混合可以指示这样的声音：该声音又指示(由节目的选定对象声道确定的)“公共广播”音频对象，从而被感知为从再现环境内的假设听者位置上方的明显源位置发出，以便在从安装在听者上方的公共广播扬声器发出通告时给予听者(消费者)正身处体育场的体验。可以选择这种公共广播音频对象，以便由扬声器阵列渲染和回放，所述扬声器阵列包括物理地位于“地板”平面上方的水平面(有时候被称为“地板上方”或“高度”平面)内的至少一个地板上方扬声器，其中“地板”平面是标称地包括听者耳朵的预期位置的水平面。典型地，回放扬声器阵列的其他扬声器标称地位于地板平面内。

当音频对象(例如，之前示例中的公共广播音频对象)由基于对象的音频节目的分离的对象声道确定，并且在该对象声道被选择(并且被渲染和播放)时节目的相应元数据指示相应声音应该被感知为从其发出的地板上方源位置(或地板上方源位置的轨迹)时，我们将该音频对象称为“地板上方”(或“高度”)对象，并且将指示该地板上方对象的对象声道称为“地板上方”(或“高度”)对象声道。地板上方音频对象被典型地渲染和播放为使得所得到的声音从回放系统扬声器阵列的至少一个地板上方(或“高度”)扬声器发出。

如果在回放系统扬声器阵列中不存在地板上方(或“高度”)扬声器，则可以利用(上述类型的)传统下混技术来下混节目的选定的“地板上方”对象声道的内容与扬声器声道的内容(其中扬声器声道内容打算由回放扬声器阵列的地板扬声器播放)，使得所得到的下混声音仅从回放扬声器阵列的地板扬声器发出。但是，因为地板上方对象声道内容会被下混到扬声器声道的内容中，所以所述下混会不合需要地导致发声嘈杂的混合(例如，其中地板上方的内容会被感知为受到原始扬声器声道内容的干扰)。

在一类实施例中，基于对象的音频节目(例如，由图3中的单元3生成的基于对象的节目)包括与该节目的至少一个对象声道(例如，地板上方对象声道)对应的条件渲染元数据。因此，由每个这种对象声道指示的每个音频对象具有相应的条件渲染元数据。例如，在一些实施例中，具有相应条件渲染元数据的音频对象可以是地板上方对象。条件渲染元数据是指示适用于每个相应对象声道(即，与条件渲染元数据对应的每个对象声道)的基于回放扬声器阵列配置的至少一个渲染约束(例如，至少一个下混约束)的对象相关元数据。这种下混约束的示例是：当回放扬声器阵列配置为特定类型时，禁止下混相应的对象声道。(已知晓其回放扬声器阵列为此特定类型的)回放系统可以被配置(例如，被预配置，或者响应于节目的元数据而被配置)为通过防止实现节目的对象声道到扬声器声道的任何下混来响应于条件渲染元数据进行操作。这种下混约束的另一个示例是当回放扬声器阵列配置为特定类型时对包括相应对象声道的至少一个允许下混(或下混类型)的指示。

在第三示例中，条件渲染元数据可以指示：相应对象声道为第一类型(例如，对象声道指示地板上方对象)，并且当回放扬声器阵列配置为第二类型(例如，当该阵列不包括地板上方扬声器)时，该节目的第一类型的对象声道不被下混成打算用于驱动回放扬声器阵列的任何扬声器的扬声器声道。假设该节目包括此类型的条件元数据，则已知晓其回放扬声器阵列为第二类型的回放系统(例如，图6的系统或图5的回放系统)可以被配置(例如，被预配置，或者响应于该节目的元数据而被配置)为通过认识到对象声道为第一类型并且防止实现对象声道到(由用户选择的节目内容混合指定的)打算用于驱动回放扬声器阵列的任何扬声器的扬声器声道的任何下混来响应于条件渲染元数据进行操作。在这种情况中，回放系统可以被配置为还通知(例如，通过在图5的控制器10或图6的控制器23的显示屏上显示通知)用户所选择的混合不可用。另外假设节目包括此类型的条件渲染元数据，(已知晓其回放扬声器阵列不是第二类型的)回放系统可以被配置为通过认识到对象声道为第一类型并且实现对象声道到(由对节目内容的用户选择的混合或默认混合指定的)打算用于驱动回放扬声器阵列的扬声器的扬声器声道的下混来响应于条件渲染元数据进行操作。

可选地，基于对象的音频节目中所包括的条件渲染元数据还指示用于对该节目的音频声道进行渲染(例如，实现其下混)的基于回放扬声器阵列配置的至少一个渲染规则(例如，至少一个下混规则)。例如，条件渲染元数据可以指示下面的下混规则：

如果回放扬声器阵列至少包括一个地板上方扬声器，则节目的第一类型(例如，由节目的至少一些条件渲染元数据指示)的每个对象声道应该被下混到由用户选择的(或默认的)任何节目内容混合所指定的任何扬声器声道中，

如果回放扬声器阵列不包括至少一个地板上方扬声器，则节目的第一类型的每个对象声道应该被回放系统忽略(即，不应该被包括任何下混中)，以及

不管回放扬声器阵列的配置如何，节目的第二类型(例如，由节目的至少一些条件渲染元数据指示)的每个对象声道应该被下混到由用户选择的(或默认的)任何节目声道内容混合所指定的任何扬声器声道中。

在一类实施例中，本发明是用于生成由扬声器阵列(例如，图5的回放扬声器阵列13)回放的基于对象的音频节目的方法，该方法包括以下步骤：

(例如，在图5的单元3中)生成与至少一个对象声道对应的条件渲染元数据，使得条件渲染元数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置(例如，回放扬声器阵列13的配置)的至少一个渲染约束(例如，至少一个下混约束)；

(例如，在图5的单元3中)确定包括所述至少一个对象声道(以及可选地还有至少一个扬声器声道)的一组音频声道；以及

(例如，在图5的单元3中)生成基于对象的音频节目，使得所述基于对象的音频节目指示所述一组音频声道和条件渲染元数据，并且使得所述一组音频声道中的至少一个音频声道的内容能够响应于条件渲染元数据中的至少一些来由回放系统以符合所述至少一个渲染约束的方式渲染。

由条件渲染元数据指示的下混约束的示例是当回放扬声器阵列配置为特定类型时禁止下混相应对象声道。由条件渲染元数据指示的渲染约束(其为下混约束)的另一个示例是当回放扬声器阵列配置为特定类型时对包括相应对象声道的至少一个允许下混(或下混类型)的指示。可选地，条件渲染元数据还指示用于实现对节目的音频声道的下混的、基于回放扬声器阵列配置的至少一个下混规则。

在其他实施例中，本发明是渲染由基于对象的音频节目确定的音频内容的方法，其中所述节目指示与至少一个对象声道对应的条件渲染元数据以及包括所述至少一个对象声道(以及可选地还有至少一个扬声器声道)的一组音频声道，并且其中条件渲染元数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置的至少一个渲染约束(例如，至少一个下混约束)，该方法包括以下步骤：

(a)将基于对象的音频节目提供给音频处理单元(例如，实现图5的回放子系统的音频处理单元，其包括解码器7、对象处理子系统9、控制器10和渲染子系统11；或者实现图6的回放系统的音频处理单元)；以及

(b)在音频处理单元中(例如，在图5的解码器7或图6的解码器20中)，解析条件渲染元数据和所述一组音频声道，并且响应于条件渲染元数据中的至少一些来以符合所述至少一个渲染约束的方式(例如，在图5的子系统9和11或者图6的子系统24中)渲染所述一组音频声道中的至少一个音频声道的内容。

在一些这种实施例中，步骤(b)包括如下步骤：(例如，在图6的子系统22中)选择所述一组音频声道中的至少一个对象声道，并且(例如，在图6的子系统24中)使组中的每个选定对象声道与组中的至少一个扬声器声道混合，以生成下混。典型地，所述下混包含一组N个下混扬声器声道，其中N为正整数，并且步骤(b)包括如下步骤：通过用根据下混扬声器声道生成的扬声器馈送驱动扬声器来使回放扬声器阵列的N个扬声器发出声音。

由条件渲染元数据指示的下混约束的示例是当回放扬声器阵列配置为特定类型时禁止下混相应对象声道。由条件渲染元数据指示的下混约束的另一个示例是当回放扬声器阵列配置为特定类型时对包括相应对象声道的至少一个允许下混(或下混类型)的指示。可选地，条件渲染元数据还指示基于回放扬声器阵列配置的至少一个渲染规则(例如，至少一个下混规则)，并且在步骤(b)中执行的渲染符合所述渲染规则。

下面的表1阐释了可以由基于对象的音频节目中的条件渲染元数据指示的基于回放扬声器阵列配置的下混中的音频对象布置以及基于回放扬声器阵列配置的下混启用类型的示例。在表1中，列代表节目的不同音频对象声道(因此由节目指示的音频对象)，行表示执行下混的回放系统的不同回放扬声器阵列配置：

表1

	环境	主现场解说	主队现场解说	客队现场解说	公告
						立体声	L/R	L/R
5.1	5.1	Ls/Rs
						5.1+4个高度	5.1+高度	Ls/Rs	高度

在表1的示例中，节目指示在两队竞技的体育赛事中捕捉的音频，并且至少包括以下对象声道(如表1中所示)：环境声道(指示在赛事中捕捉的环境内容)；主现场解说声道(“主现场解说”)，指示不偏向于支持任何一队的现场解说；第二现场解说声道(“主队现场解说”)，指示偏向于支持主队的现场解说；第三现场解说声道(“客队现场解说”)，指示偏向于支持客队的现场解说；以及公告声道(“公告”)，指示公共广播音频。公告声道的公共广播内容打算由回放扬声器阵列的地板上方扬声器渲染(使得所得到的声音被感知为从假设听者位置上方的明显源位置发出)。主现场解说、第二现场解说和第三现场解说声道中的每一个打算由回放扬声器阵列的左环绕和右环绕地板扬声器渲染(使得所发出的声音被感知为从其发出的每个明显源位置标称地在听者耳朵的平面内)。环境声道打算由回放扬声器阵列的所有扬声器渲染(即，所有可用的地板扬声器和地板上方扬声器)。

在示例中，条件渲染元数据指示出：当回放扬声器为立体声扬声器阵列(仅包含左(“L”)地板扬声器和右(“R”)地板扬声器)时，环境对象声道和/或主现场解说对象声道可以与节目的其他音频内容(除了公告声道的内容)下混，以生成用于驱动立体声扬声器的左和右下混声道。条件渲染元数据还指示出：当回放扬声器阵列为立体声扬声器阵列时，公告对象声道不应该与节目的其他音频内容下混(即，条件渲染元数据建立防止下混公告对象声道内容的规则)。

在示例中，条件渲染元数据还指示出：当回放扬声器阵列为5.1扬声器阵列(其全频率范围扬声器为左(“L”)、中央(“C”)、右(“R”)、左环绕(“Ls”)和右环绕(“Rs”)地板扬声器)时，主现场解说对象声道可以与节目的其他音频内容(除了公告声道内容)下混，以生成用于驱动阵列的Ls和Rs地板扬声器的左环绕和右环绕下混声道。条件渲染元数据还指示出：当回放扬声器阵列为5.1扬声器阵列时，环境对象声道可以与节目的其他音频内容(除了公告声道内容)下混，以生成用于驱动阵列的L、R、C、Ls和Rs地板扬声器的左、右、中央、左环绕和右环绕下混声道。条件渲染元数据还指示出：当回放扬声器阵列为5.1扬声器阵列时，公告对象声道不应该与节目的其他音频内容下混(即，条件渲染元数据建立防止下混公告对象声道内容的规则)。

在示例中，条件渲染元数据还指示出：当回放扬声器阵列为5.1.4扬声器阵列(其全频率范围扬声器为左(“L”)、中央(“C”)、右(“R”)、左环绕(“Ls”)和右环绕(“Rs”)地板扬声器，以及四个“高度”扬声器)时，主现场解说对象声道可以与节目的其他音频内容(除了公告声道内容)下混，以生成用于驱动左环绕和右环绕地板扬声器的左环绕和右环绕下混声道。条件渲染元数据还指示出：当回放扬声器阵列为5.1.4扬声器阵列时，环境对象声道可以与节目的其他音频内容(除了公告声道内容)下混，以生成用于驱动阵列的L、R、C、Ls和Rs地板扬声器以及4个高度扬声器的左、右、中央、左环绕、右环绕和4个高度下混声道。条件渲染元数据还指示出：当回放扬声器阵列为5.1.4扬声器阵列时，公告对象声道不应该与节目的其他音频内容下混到地板扬声器下混声道中(即，条件渲染元数据建立防止将公告对象声道的内容下混到下混的地板声道中的规则)。条件渲染元数据不建立防止将公告对象声道与节目的其他音频内容(例如，另一个高度对象声道的内容)下混以生成用于驱动回放扬声器阵列的高度扬声器的高度下混声道的任何规则。

根据本发明的典型实施例，假定一个特定的回放扬声器阵列配置，响应于(假设已知晓可用回放扬声器阵列配置的)节目中所包括的条件渲染元数据而对基于对象的音频节目的对象声道内容的条件渲染允许用户从可用的渲染选项(例如，下混渲染选项)的菜单中进行选择。例如，假定回放扬声器阵列仅包含5.1声道配置中的地板扬声器，则菜单可以包括少量的可选下混渲染选项，包括以下选项：“主队现场解说”下混，包括一床下混有“主队现场解说”对象的扬声器声道的内容；“客队现场解说”下混，包括一床下混有“客队现场解说”对象的扬声器声道的内容；以及“主队现场解说加主队人群噪声”下混，包括一床下混有“主队现场解说”对象和“主队人群噪声”对象的扬声器声道的内容。

对于另一个示例，假定回放扬声器阵列包括(例如，5.1声道配置中的)地板扬声器和一组高度(地板上方)扬声器，菜单可以包括更多的可选下混渲染选项，包括以下选项：“主队现场解说”地板下混，包含一床下混有“主队现场解说”对象的扬声器声道的内容(用于仅驱动阵列的地板扬声器)；“客队现场解说”地板下混，包含一床下混有“客队现场解说”对象的扬声器声道的内容(用于仅驱动阵列的地板扬声器)；“主队现场解说加主队人群噪声”地板下混，包含一床下混有“主队现场解说”对象和“主队人群噪声”对象的扬声器声道的内容(用于仅驱动阵列的地板扬声器)；以及“主队现场解说加主队人群噪声加公告”下混，包含一床下混有“主队现场解说”对象、“主队人群噪声”对象和公告对象的扬声器声道的内容(用于驱动阵列的所有扬声器，但是公告对象声道的内容仅包括在驱动阵列的地板上方扬声器的下混扬声器馈送中，而所有其他下混内容仅包括在驱动阵列的地板扬声器的下混扬声器馈送中)。

可以通过控制器的用户界面(例如，由图5的控制器10或图6的控制器23实现的用户界面)将渲染选项的菜单呈现给用户，并且该控制器可耦接到被配置为(至少部分地)解码和渲染基于对象的节目的机顶设备(或其他设备)。该节目中所包括的元数据(包括条件渲染元数据)可以允许用户从关于由节目指示的哪些对象应该被渲染以及关于要渲染的对象应该如何与节目的其他内容下混的一组选项中进行选择，使得所得到的下混内容的声道可被渲染。

在一些实施例中，假定具有(一组可能的回放扬声器阵列配置中的)特定相应配置的回放扬声器可用，条件渲染元数据至少指定能被用户选择的(节目的音频内容的)每个可选下混(例如，由下混渲染选项菜单指示的每个可选下混)的以下属性：

声场内的位置(即，对于将被包括在下混中以便由具有相应配置的回放扬声器阵列渲染的每个对象声道，当由下混确定的扬声器馈送对可用扬声器进行驱动时，相应声音应该被感知为从其发出的明显空间位置的指示)；

增益(即，对于将被包括在下混中以便由具有相应配置的回放扬声器阵列渲染的每个对象声道，当生成该下混时要施加到相应声道样本的增益的指示)；

效果(即，对于将被包括在下混中以便由具有相应配置的回放扬声器阵列渲染的每个对象声道，当生成下混时要应用于相应音频样本的特殊效果处理(如果有的话)的每个种类的指示。这种处理的示例包括但不限于发散处理和混响应用)。

本发明的实施例的各方面包括以下：

用于(例如，在创作系统或内容创建设备中)生成条件渲染元数据并且将元数据包括在基于对象的音频节目中的方法和系统(例如，本发明的节目生成系统(例如，图5的单元3)的一些实施例被编程或以其他方式被配置为执行创作软件或者以其他方式使用创作工具来定义和生成条件渲染元数据，以便包括在基于对象的音频节目中)；以及

用于解码基于对象的音频节目(包括通过解析节目的条件渲染元数据)和/或渲染基于对象的音频节目的内容(包括通过解析条件渲染元数据和根据条件渲染元数据执行对节目内容的下混)的方法和系统(例如，解码器和回放系统)。

在一些实施例中，基于对象的音频节目的对象相关元数据(包括条件渲染元数据)包括(或包含)指示一组可选体验定义的可选内容元数据。每个体验定义都是节目的音频内容的可选的、预定的(“预设的”)混合(例如，至少一个对象声道和至少一个扬声器声道的内容的混合)。每个预设混合具有一组预定的渲染参数(例如，渲染对象的空间位置)。预设混合可以由回放系统的用户界面(例如，由图5的控制器10或图6的控制器23实现的用户界面)呈现为可用混合的有限菜单或选项板。可选地，节目的对象相关元数据(包括条件渲染元数据)包括指示分层混合图的元数据，所述分层混合图指示节目的扬声器声道和对象声道的可选混合(例如，所有可选混合)。

图6是可被实现为执行本发明的方法实施例的回放系统的实施例的框图，该回放系统包括如图所示那样耦接的解码器20、对象处理系统22、空间渲染子系统25、(实现用户界面的)控制器23、以及可选地还有数字音频处理子系统25、26和27。在一些实现方式中，图6系统的元件20、22、24、25、26、27、29、31和33被实现为机顶设备。

在图6的系统中，解码器20被配置为接收和解码指示基于对象的音频节目(或者基于对象的音频节目的主混合)的编码信号。根据本发明的实施例，典型地，节目(例如，节目的主混合)指示包括一床至少两个扬声器声道、至少一个用户可选的对象声道、以及与每个对象声道对应的对象相关元数据(包括条件渲染元数据)的音频内容。每个对象声道指示音频对象，因此为了方便，对象声道有时在本文中被称为“对象”。在实施例中，节目是AC-3或E-AC-3比特流(或者包括作为AC-3或E-AC-3比特流的主混合)，指示音频对象、对象相关元数据(包括条件渲染元数据)、一床扬声器声道以及选择性地还有可选的替换扬声器声道。典型地，单独的音频对象被单声道编码或者立体声编码(即，每个对象声道指示对象的左或右声道，或者是指示对象的单声道)，所述床是传统的5.1混合，并且解码器20可以被配置为同时解码多达16个声道的音频内容(包括所述床的6个扬声器声道、替换扬声器声道和对象声道)。

在本发明的回放系统的一些实施例中，进入的E-AC-3(或AC-3)编码比特流的每帧包括一个或两个元数据“容器”。进入的比特流指示基于对象的音频节目或者这种节目的主混合，并且节目的扬声器声道被组织作为常规的E-AC-3(或AC-3)比特流的音频内容。一个容器可以被包括在所述帧的Aux字段中，而另一个容器可以被包括在所述帧的addbsi字段中。每个容器具有核心头部并且包括(或关联)一个或更多个有效载荷。(Aux字段中所包括的容器的或者与其关联的)一个这种有效载荷可以是(与同样由节目指示的一床扬声器声道有关的)一个或更多个对象声道中的每一个对象声道的一组音频样本和与每个对象声道关联的对象相关元数据(包括条件渲染元数据)。在这种有效载荷中，一些或全部对象声道的样本(和关联的元数据)可以被组织为标准的E-AC-3(或AC-3)帧，或者可以以其它方式组织(例如，它们可以被包括在与E-AC-3或AC-3比特流不同的次混合中)。(addbsi字段或Aux字段中所包括的容器的或者与其关联的)另一个这种有效载荷的示例是一组与帧的音频内容关联的响度处理状态元数据。

在一些这种实施例中，解码器(例如，图6的解码器20)将解析Aux字段中的容器的核心头部，并且从容器(例如，从AC-3或E-AC-3帧的Aux字段)和/或从由核心头部指示的位置(例如，次混合)提取本发明的对象声道和关联的元数据。在提取有效载荷(对象声道和关联的元数据)之后，解码器将对所提取的有效载荷执行任何必要的解码。

每个容器的核心头部典型地包括：至少一个ID值，指示容器所包括或者关联的有效载荷的类型；子流关联指示(指示核心头部与哪些子流关联)；以及保护比特。这种保护比特(可以包含或者包括基于散列(hash-based)的消息认证码或“HMAC”)典型地有益于对被包括在容器中或者与其关联的至少一个有效载荷中的对象相关元数据(包括条件渲染元数据)和/或响度处理状态元数据(以及可选地还有其它元数据)和/或被包括在帧中的对应音频数据的解密、认证或确认之一。子流可以位于“带内”(在E-AC-3或AC-3比特流中)或者“带外”(例如，在与E-AC-3或AC-3比特流分开的次混合比特流中)。一种类型的这种有效载荷是(与同样由节目指示的所述一床扬声器声道有关的)一个或更多个对象声道的中的每一个对象声道的一组音频样本和与每个对象声道关联的对象相关元数据。每个对象声道是单独的子流，并且典型地将在核心头部中被标识。另一种类型的有效载荷是响度处理状态元数据。

典型地，每个有效载荷具有它自己的头部(或者“有效载荷标识符”)。对象级的元数据可以携带在作为对象声道的每个子流中。节目级的元数据可以被包括在容器的核心头部中和/或在用于有效载荷的头部中，其中有效载荷是一个或更多个对象声道的一组音频样本(以及与每个对象声道关联的元数据)。

在一些实施例中，所述帧的auxdata(或addbsi)字段中的每个容器具有三级结构：

高级结构，包括指示auxdata(或addbsi)字段是否包括元数据的标志(其中在这种语境下的“元数据”表示对象声道、对象相关元数据、以及由比特流携带但是一般不携带在缺乏所述类型的任何容器的常规E-AC-3或AC-3比特流中的任何其它音频内容或元数据)、指示存在什么类型的元数据的至少一个ID值，并且通常还包括(如果元数据存在的话)指示存在多少比特的(例如，每种类型的)元数据的值。在这种语境下，一个这种“类型”的元数据的示例是对象声道数据和关联的对象相关元数据(即，(与同样由节目指示的所述一床扬声器声道有关的)一个或更多个对象声道中的每一个对象声道的一组音频样本以及与每个对象声道关联的元数据)；

中间级结构，包括用于每种识别类型的元数据的核心元素(例如，对于每种识别类型的元数据，例如上述类型的核心头部、保护值、以及有效载荷ID和有效载荷尺寸值)；及

低级结构，如果核心元素识别出存在至少一个这种有效载荷，则包括用于一个核心元素的每个有效载荷。这种有效载荷的示例是(与同样由节目指示的所述一床扬声器声道有关的)一个或更多个对象声道中的每一个对象声道的一组音频样本以及与每个对象声道关联的元数据。这种有效载荷的另一个示例是包括响度处理状态元数据(“LPSM”)的有效载荷，有时被称为LPSM有效载荷。

这种三级结构中的数据值可以嵌套。例如，在核心元素识别出的每个有效载荷之后(因此在核心元素的核心头部之后)，可以包括由核心元素识别出的有效载荷(例如，LPSM有效载荷)的保护值。在一个示例中，核心头部可以识别第一有效载荷(例如，LPSM有效载荷)和另一有效载荷，第一有效载荷的有效载荷ID和有效载荷尺寸值可以跟在核心头部之后，第一有效载荷自身可以跟在所述ID和尺寸值之后，第二有效载荷的有效载荷ID和有效载荷尺寸值可以跟在第一有效载荷之后，第二有效载荷自身可以跟在这些ID和尺寸值之后，并且任何一个或两个有效载荷(或者核心元素和任何一个或两个有效载荷)的保护值可以跟在最后一个有效载荷之后。

再次参照图6，用户利用控制器23来选择要渲染的对象(由基于对象的音频节目指示)。控制器23可以是被编程为实现与图6系统的其它元素兼容的用户界面(例如，iPad应用)的手持式处理设备(例如，iPad)。用户界面可以向用户提供(例如，在触摸屏上显示)对象、“床”扬声器声道内容和替换扬声器声道内容的可选“预设”混合的菜单或选项板。所述可选预设混合可以由节目的对象相关元数据(包括条件渲染元数据)确定，并且通常还由子系统22实现的规则(例如，子系统22已被预配置为实现的规则)确定，假设子系统22已知晓可用回放扬声器阵列的配置。用户通过向控制器23输入命令(例如，通过致动其触摸屏)来选择可选的混合，并且作为响应，控制器23将向子系统22断言相应的控制数据。

在操作中，解码器20解码节目的扬声器声道床中的扬声器声道(以及节目中所包括的任何替换扬声器声道)，并且向子系统22输出经解码的扬声器声道。响应于基于对象的音频节目，并且响应于来自控制器23的、指示要渲染(包括通过经历下混)的节目的整组对象声道的选定子集的控制数据，解码器20解码(如果必要的话)所选定的对象声道，并且向子系统22输出所选定的(例如，经解码的)对象声道(其中每个都可以是脉冲编码调制的或“PCM”比特流)、以及对应于选定对象声道的对象相关元数据。

除了来自解码器20的经解码的扬声器声道、经解码的对象声道和经解码的对象相关元数据之外，对象处理子系统22的输入还可选地包括向系统断言(例如，作为其主混合向解码器20断言的节目的一个或更多个次混合)的外部音频对象声道。由这种外部音频对象声道指示的对象示例包括本地解说(例如，由无线电频道传送的单声道音频内容)、进入的Skype呼叫、进入的twitter连接(经由文本到语音系统转换，在图6中未示出)、以及系统声音。

子系统22被配置为输出由节目指示的整组对象声道的选定子集(或整组对象声道的选定子集的处理版本)和节目的相应对象相关元数据、以及替换扬声器声道和/或床扬声器声道中的一组选定扬声器声道。对象声道选择和扬声器声道选择可以通过(如由从控制器23向子系统22断言的控制数据所指示的)用户选择和/或子系统22已被编程为或以其它方式被配置而实现的规则(例如，指示条件和/或约束)来确定。这种规则可以由节目的对象相关元数据(包括条件渲染元数据)和/或由(例如，从控制器23或另一外部源)向子系统22断言的其它数据(包括指示回放系统的扬声器阵列的配置(例如，能力和组织)的数据)确定和/或通过预配置(例如，编程)子系统22来确定。在一些实施例中，节目的对象相关元数据(包括条件渲染元数据)确定(一床扬声器声道和/或替换扬声器声道的)扬声器声道内容和对象的一组可选“预设”混合。子系统22通常不作改变地(向子系统24)传递来自解码器20的经解码的扬声器声道(床扬声器声道以及典型地还有替换扬声器声道)的选定子集(例如，床中的至少一个扬声器声道和至少一个替换扬声器声道)，并且处理向其断言的对象声道中的选定对象声道。

由子系统22执行的对象处理(包括对象选择)通常由来自控制器23的控制数据和来自解码器20的对象相关元数据(以及可选地还有向子系统22断言的除来自解码器20之外的次混合的对象相关元数据)控制，并且典型地包括对于每个选定对象的空间位置和水平的确定(而不管对象选择是由于用户选择还是由于通过规则施加而进行的选择)。典型地，用于渲染对象的默认空间位置和默认水平、以及关于对象及其(将在子系统24中生成的下混声道中的)水平和(由这种下混声道指示的)空间位置的用户选择的约束都被包括在(例如，从解码器20)向子系统22断言的对象相关元数据(包括条件渲染元数据)中或者由该对象相关元数据(包括条件渲染元数据)指示。这种约束可以指示(下混中的)对象的禁止组合或者(由下混声道指示的)选定对象可以渲染的禁止空间位置(例如，以防止选定对象彼此太靠近地渲染，或者为了防止特定对象被包括在用于生成驱动可用回放扬声器阵列的扬声器馈送的下混声道中)。此外，个别选定对象的响度通常由对象处理子系统22响应于利用控制器23输入的控制数据、和/或由(例如，来自解码器20的)对象相关元数据指示的默认水平和/或通过子系统22的预配置来控制。

典型地，由解码器20执行的解码包括(从输入节目)提取元数据，其中元数据指示由节目指示的每个对象的音频内容的类型(例如，由节目的音频内容指示的体育赛事的类型，以及由节目指示的可选和默认对象的名称或其它识别记号(例如，队标))。控制器23和对象处理子系统22接收这种元数据或者由该元数据指示的相关信息。控制器23还接收(例如，用后述信息编程)关于用户的回放扬声器阵列的配置的信息(例如，扬声器的数目、以及扬声器的假设布置和其它假设组织)。

图6的空间渲染子系统24(或者具有至少一个下游设备或系统的子系统24)被配置为渲染从子系统22输出的音频内容输出，以便由用户的回放扬声器阵列的扬声器回放。一个或更多个可选地包括的数字音频处理子系统25、26和27可以对子系统24的输出实现后期处理。

空间渲染子系统24被配置为把扬声器声道内容(例如，由子系统22确定并且被从子系统22传递到子系统24的一组选定的床扬声器声道和替换扬声器声道)和由对象处理子系统22选择(或者选择并处理)并向子系统24断言的每个音频对象声道的内容(例如，默认选择的对象、和/或已经作为用户利用控制器23进行交互的结果而选择的用户选择的对象)下混为可用的扬声器声道。所述下混是使用从子系统22输出的与每个选定对象关联的渲染参数(例如，空间位置和水平的用户选择的和/或默认的值)实现的。典型地，子系统24是智能混合器，并且被配置为确定用于可用扬声器的扬声器馈送，包括通过将一个、两个或多于两个选定对象声道的内容映射到多个单独的扬声器声道中的每一个，并且执行使选定对象声道与由每个相应扬声器声道指示的音频内容混合的下混。

在一些实现方式中，所输出得(下混的)扬声器声道的数目可以在2.0和7.1之间变化，并且被驱动渲染(与选定扬声器声道内容的下混中的)选定音频对象声道的扬声器可以假设位于回放环境中的(标称)水平面内。在这种情况下，执行渲染，使得扬声器可以被驱动发出这样的声音：该声音将被感知为从扬声器平面内的不同对象位置(即，对于每个选定的或默认的对象，一个对象位置，或者沿轨迹的一系列对象位置)发出，并与由扬声器声道内容确定的声音混合。

在各种实施例中，被驱动渲染下混音频的全范围扬声器的数目可以是宽范围内的任何数目(不一定局限于从2至7的范围)，因此输出扬声器声道的数目不限于在从2.0至7.1的范围内。

在一些实施例中，被驱动渲染下混音频的扬声器假设位于回放系统中的任意位置，而不仅仅是在(标称)水平面内。在一些此类情况下，节目中所包括的元数据指示用于使用扬声器的三维阵列在任何明显空间位置(在三维空间内)对节目的至少一个对象进行渲染的渲染参数。例如，对象声道可以具有指示要渲染(由对象声道指示的)对象处的明显空间位置的三维轨迹的相应元数据。轨迹可以包括一系列“地板”位置(在假设位于回放环境的地板平面内)、以及一系列“地板上方”位置(各自通过驱动假设位于回放环境的至少一个其他水平面内的扬声器子集来确定)。在这种情况下，可以根据本发明来执行渲染，使得扬声器可以被驱动发出(由相关对象声道确定的)这样的声音：该声音将被感知为从三维空间中包括该轨迹的一系列对象位置发出，并且与由扬声器声道内容确定的声音混合。子系统24可以被配置为实现这种渲染、或其步骤，而渲染的剩余步骤由下游系统或设备(例如，图6的渲染子系统35)执行。

可选地，数字音频处理(DAP)级(例如，多个预定输出(下混)扬声器声道配置中的每一个有一个)耦接到空间渲染子系统24的输出，以便对空间渲染子系统的输出执行后期处理。这种处理的示例包括智能均衡(intelligent equalization)或者(在立体声输出的情况下)扬声器虚拟化处理。

图6系统的输出(例如，空间渲染子系统的输出，或者空间渲染阶段之后的DAP级)可以是PCM比特流(其确定用于可用扬声器的扬声器馈送)。例如，在用户的回放系统包括7.1扬声器阵列的情况下，系统可以输出(在子系统24中生成的)确定用于这种阵列的扬声器的扬声器馈送的PCM比特流、或者(在DAP 25中生成的)这种比特流的后期处理版本。对于另一个示例，在用户的回放系统包括5.1扬声器阵列的情况下，系统可以输出(在子系统24中生成的)确定用于这种阵列的扬声器的扬声器馈送的PCM比特流、或者(在DAP 26中生成的)这种比特流的后期处理版本。对于另一个示例，在用户的回放系统只包括左和右扬声器的情况下，系统可以输出(在子系统24中生成的)确定用于左和右扬声器的扬声器馈送的PCM比特流、或者(在DAP 27中生成的)这种比特流的后期处理版本。

图6的系统可选地还包括重新编码子系统31和33中的一个或两个。重新编码子系统31被配置为把从DAP 25输出的PCM比特流(指示用于7.1扬声器阵列的馈送)重新编码为E-AC-3编码比特流，并且所得到的经编码的(经压缩的)E-AC-3比特流可以从系统输出。重新编码子系统33被配置为把从DAP 27输出的PCM比特流(指示用于5.1扬声器阵列的馈送)重新编码为AC-3或E-AC-3编码比特流，并且所得到的经编码的(经压缩的)E-AC-3比特流可以从系统输出。

图6的系统可选地还包括重新编码(或格式化)子系统29和被耦接为接收子系统29的输出的下游渲染子系统35。子系统29被耦接为接收(从子系统22输出的)指示选定音频对象(或音频对象的默认混合)的数据、对应的对象相关元数据和经解码的扬声器声道(例如，床扬声器声道和替换扬声器声道)，并且被配置为重新编码(和/或格式化)这种数据，以便由子系统35渲染。可以在AVR或条形音箱(或者在子系统29下游的其它系统或设备)中实现的子系统35被配置为响应于子系统29的输出来生成用于可用回放扬声器(扬声器阵列36)的扬声器馈送(或者确定扬声器馈送的比特流)。例如，通过把指示选定的(或默认的)音频对象、对应的元数据(包括条件渲染元数据)和扬声器声道的数据重新编码成适合于在子系统35中渲染的格式，子系统29可被配置为生成编码音频，并且(例如，经由HDMI链接)把编码音频发送到子系统35。响应于由子系统35生成(或者由子系统35的输出确定的)扬声器馈送，可用扬声器36将发出指示扬声器声道内容与选定(或默认)对象的混合的声音，其中所述对象具有由子系统29输出的对象相关元数据确定的明显源位置。当包括了子系统29和35时，可选地从系统中省略渲染子系统24。

在一些实施例中，本发明是用于渲染基于对象的音频的分布式系统，其中渲染的一部分(即，至少一个步骤)(例如，如由图6系统的子系统22和控制器23执行的对要渲染的音频对象的选择和对每个选定对象的渲染特性的选择)在第一子系统(例如，在机顶设备中实现的图6的元件20、22和23，或者机顶设备和手持式控制器)中实现，而渲染的另一部分(例如，其中响应于第一子系统的输出来生成扬声器馈送或者确定扬声器馈送的信号的沉浸式渲染)在第二子系统(例如，在AVR或条形音箱中实现的子系统35)中实现。提供分布式渲染的一些实施例还实现延迟管理，以便考虑执行音频渲染(以及与正在渲染的音频对应的任何视频处理)的各个部分的不同时刻和不同子系统。

在本发明的回放系统的一些实施例中，每个解码器和对象处理子系统(有时被称为个性化引擎)在机顶设备(STB)中实现。例如，图6的元件20和22和/或图7系统的所有元件可以在STB中实现。在本发明的回放系统的一些实施例中，对个性化引擎的输出执行多种渲染，以确保所有STB输出(例如，HDMI、S/PDID和STB的立体声模拟输出)都被启用。可选地，选定对象声道(和对应的基于对象的元数据)与扬声器声道(和解码的扬声器声道床一起)从STB传递到被配置为渲染对象声道与扬声器声道的混合的下游设备(例如，AVR或条形音箱)。

在一类实施例中，本发明的基于对象的音频节目包括被并行地生成和发送的一组比特流(多个比特流，可以被称为“子流”)。在一些实施例中，在这种情况下，采用多个解码器来解码子流的内容(例如，节目包括多个E-AC-3子流并且回放系统采用多个E-AC-3解码器来解码子流的内容)。图7是被配置为解码和渲染本发明的基于对象的音频节目的实施例的回放系统的框图，其中所述基于对象的音频节目包括多个并行传送的串行比特流。

图7的回放系统是图6系统的变型，其中基于对象的音频节目包括被并行传送到回放系统并被回放系统接收的多个比特流(B1、B2...BN，其中N是某个正整数)。每个比特流(“子流”)B1、B2...和BN是包括时间码或其它同步字(参照图7，为了方便，被称为“同步字”)的串行比特流，以允许子流彼此同步或时间对齐。每个子流还包括整组对象声道的不同子集以及对应的对象相关元数据，并且至少一个子流包括扬声器声道(例如，床扬声器声道和替换扬声器声道)。例如，在每个子流B1、B2...BN中，包括对象声道内容和对象相关元数据的每个容器包括唯一的ID或时间戳。

图7的系统包括N个去格式化器50、51...53，每个去格式化器被耦接和配置为解析一个不同的输入子流，并且向比特流同步级59断言元数据(包括其同步字)及其音频内容。

去格式化器50被配置为解析子流B1，以及向比特流同步级59断言其同步字(T1)、其它元数据及其对象声道内容(M1)(包括节目的至少一个对象声道、条件渲染元数据和其他对象相关元数据)以及其扬声器声道音频内容(A1)(包括节目的至少一个扬声器声道)。类似地，去格式化器51被配置为解析子流B2，以及向比特流同步级59断言其同步字(T2)、其它元数据及其对象声道内容(M2)(包括节目的至少一个对象声道、条件渲染元数据和其他对象相关元数据)以及其扬声器声道音频内容(A2)(包括节目的至少一个扬声器声道)。类似地，去格式化器53被配置为解析子流BN，并且向比特流同步级59断言其同步字(TN)、其它元数据及其对象声道内容(MN)(包括节目的至少一个对象声道、条件渲染元数据和其他对象相关元数据)以及其扬声器声道音频内容(AN)(包括节目的至少一个扬声器声道)。

图7系统的比特流同步级59典型地包括用于子流B1、B2...BN的音频内容和元数据的缓冲区、以及被耦接和配置为使用每个子流的同步字来确定输入子流中任何数据失准的流偏移量补偿元件(例如，因为每个比特流通常被携带在独立的接口和/或媒体文件内的轨道上，由于它们之间的紧密同步在分发/贡献中可能丢失，因此可能发生失准)。级59的流偏移量补偿元件通常还被配置为通过向包含比特流的音频数据和元数据的缓冲区断言适当的控制值来校正任何确定的失准，以便使扬声器声道音频数据的时间对齐的比特被从缓冲区读到分别与相应缓冲区耦接的解码器(包括解码器60、61和63)，并且使对象声道音频数据和元数据的时间对齐的比特被从缓冲区读到对象数据组合级66。

来自子流B1的扬声器声道音频内容A1’的时间对齐的比特被从级59读到解码器60，并且来自子流B1的对象声道内容和元数据M1’的时间对齐的比特被从级59读到元数据组合器66。解码器60被配置为对向其断言的扬声器声道音频数据执行解码，并且向对象处理和渲染子系统67断言所得到的经解码的扬声器声道音频。

类似地，来自子流B2的扬声器声道音频内容A2’的时间对齐的比特被从级59读到解码器61，并且来自子流B2的对象声道内容和元数据M2’的时间对齐的比特被从级59读到元数据组合器66。解码器61被配置为对向其断言的扬声器声道音频数据执行解码，并且向对象处理和渲染子系统67断言所得到的经解码的扬声器声道音频。

类似地，来自子流BN的扬声器声道音频内容AN’的时间对齐的比特被从级59读到解码器63，并且来自子流BN的对象声道内容和元数据MN’的时间对齐的比特被从级59读到元数据组合器66。解码器63被配置为对向其断言的扬声器声道音频数据执行解码，并且向对象处理和渲染子系统67断言所得到的经解码的扬声器声道音频。

例如，子流B1、B2...BN中的每一个可以是E-AC-3子流，并且解码器60、61、63以及与解码器60、61和63并行地耦接到子系统59的任何其它解码器中的每一个可以是E-AC-3解码器，该E-AC-3解码器被配置为对输入E-AC-3子流之一的扬声器声道内容进行解码。

对象数据组合器66被配置为以适当的格式向对象处理和渲染子系统67断言用于节目的所有对象声道的时间对齐的对象声道数据和元数据。

子系统67被耦接到组合器66的输出并被耦接到解码器60、61和63(以及与解码器60、61和63并行地耦接在子系统59和67之间的任何其它解码器)的输出，而控制器68被耦接到子系统67。子系统67典型地被配置为响应于来自控制器68的控制数据，根据本发明的实施例以交互的方式对组合器66和解码器的输出执行对象处理(例如，包括由图6系统的子系统22执行的步骤，或者这种步骤的变型)。控制器68可以被配置为响应于来自用户的输入而执行图6系统的控制器23被配置执行的操作(或者这种操作的变型)。(例如，为了渲染床扬声器声道内容、替换扬声器声道内容和对象声道内容的混合)子系统67还典型地被配置为根据本发明的实施例对向其断言的扬声器声道音频和对象声道音频数据执行渲染(例如，由渲染子系统24、或者图6系统的子系统24、25、26、31和33或者图6系统的子系统24、25、26、31、33、29和35执行的操作，或者这种操作的变型)。

在图7系统的一种实现方式中，子流B1、B2...BN中的每一个是杜比E比特流。每个这种杜比E比特流包括一系列突发。每个突发可以携带扬声器声道音频内容(床扬声器声道和/或替换扬声器声道的内容)和本发明的对象声道的整组对象声道(其可以是大集合)的子集以及对象相关元数据(即，每个突发可以指示整组对象声道中的一些对象声道以及对应的包括条件渲染元数据的对象相关元数据)。杜比E比特流的每个突发通常占用与对应视频帧的时间段相当的时间段。组中的每个杜比E比特流包括同步字(例如，时间码)，以允许组中的比特流彼此同步或时间对齐。例如，在每个比特流中，包括对象声道内容和对象相关元数据(包括条件渲染元数据)的每个容器可以包括唯一的ID和时间戳，以允许组中的比特流彼此同步或时间对齐。在提到的图7系统的实现方式中，去格式化器50、51和53(以及与去格式化器50、51和53并行耦接的任何其它去格式化器)中的每一个是SMPTE 337去格式化器，并且解码器60、61、63以及与解码器60、61和63并行耦接到子系统59的任何其它解码器中的每一个可以是杜比E解码器。

在本发明的一些实施例中，基于对象的音频节目的对象相关元数据包括持久性元数据。例如，被输入到图6系统的子系统20的节目中所包括的对象相关元数据可以包括非持久性元数据和持久性元元数据，其中非持久性元数据(例如，对于用户可选的对象，默认水平和/或渲染位置或轨迹)可以在广播链(从生成节目的内容创建设备到由控制器23实现的用户界面)中的至少一个点改变，而持久性元数据在节目最初生成(典型地，在内容创建设备中)之后再不可变(或者不能改变)。持久性元数据的示例包括：用于节目的每个用户可选对象或者其他对象或对象组的条件渲染元数据；用于每个用户可选的节目的对象或其它对象或对象组；以及指示每个用户可选的对象或其它对象相对于节目的扬声器声道内容或其它元素的定时的时间码或其它同步字。持久性元数据通常在从内容创建设备到用户界面的整个广播链中、在节目广播的整个持续时间内或者甚至还在节目的再次广播期间都被保持。在一些实施例中，至少一个用户可选的对象的音频内容(及关联的元数据)在基于对象的音频节目的主混合中发送，并且至少一些持久性元数据(例如，时间码)以及可选地还有至少一个其它对象的音频内容(及关联的元数据)在节目的次混合中发送。

在本发明的基于对象的音频节目的一些实施例中，持久性对象相关元数据被用来(例如，甚至在节目广播之后)保持用户选择的对象内容和扬声器声道内容的混合。例如，每当用户观看特定类型的节目(例如，任何足球比赛)或者每当用户观看(任何类型的)任何节目时，这可以将选定混合提供作为默认混合，直到用户改变他/她的选择。例如，在第一节目的广播期间，用户可以采用(图6系统中的)控制器23来选择包括具有持久性ID的对象(例如，被控制器23的用户界面识别为“主队人群噪声”对象的对象，其中持久性ID指示“主队人群噪声”)的混合。然后，每当用户观看(和收听)另一个节目(该另一个节目包括具有同一持久性ID的对象)时，回放系统将自动地渲染具有相同混合的节目(即，节目中的与节目的“主队人群噪声”对象声道混合的床扬声器声道和/或替换扬声器声道)，直到用户改变混合选择。在本发明的基于对象的音频节目的一些实施例中，持久性对象相关数据可以使得对某些对象的渲染在整个节目期间都是强制性的(例如，尽管用户期望废弃这种渲染)。

在一些实施例中，对象相关元数据利用默认的渲染参数(例如，渲染对象的默认空间位置)来提供对象内容与扬声器声道内容的默认混合。例如，在默认的渲染参数的情况下，被输入到图6系统的子系统20的节目的对象相关元数据可以是对象内容与扬声器声道内容的默认混合，并且子系统22和24将使得以默认混合和默认的渲染参数来渲染节目，除非用户采用控制器23来选择对象内容与扬声器声道内容的另一种混合和/或另一组渲染参数。

在一些实施例中，对象相关元数据(包括条件渲染元数据)提供对象与扬声器声道内容的一组可选“预设”混合，每个预设混合具有一组预定的渲染参数(例如，渲染对象的空间位置)。这些预设混合可以由回放系统的用户界面呈现为可用混合的有限菜单或选项板(例如，由图6系统的控制器23显示的有限菜单或选项板)。每个预设混合(和/或每个可选的对象)可以具有持久性ID(例如，名称、标签或徽标)。控制器23(或本发明的回放系统的另一实施例的控制器)可以被配置为显示这种ID的指示(例如，在控制器23的iPad实现的触摸屏上)。例如，可以存在具有持久性ID(例如，队标)的可选“主队”混合，而不管(例如，由广播公司所作的)对预设混合的每个对象的音频内容或非持久性元数据的细节的变化。

在一些实施例中，节目的对象相关元数据(或者不是由与节目一起传送的元数据指示的回放或渲染系统的预配置)提供关于对象与床(扬声器声道)的可选混合的约束或条件。例如，图6系统的实现方式可以实现数字权限管理(DRM)，并且更具体而言可以实现DRM层次结构，以允许图6系统的用户能够“分层”访问基于对象的音频节目中所包括的一组音频对象。如果用户(例如，与回放系统关联的消费者)(例如，向广播公司)支付更多的钱，则用户可以有权解码和选择(并听到)节目的更多音频对象。

对于另一个示例，对象相关元数据可以提供关于对象的用户选择的约束。这种约束的示例是：如果用户采用控制器23选择渲染节目的“主队人群噪声”对象和“主队播音员”对象(即，用于包括在由图6子系统24确定的混合中)，则节目中所包括的元数据可以确保子系统24使这两个选定对象以预定的相对空间位置渲染。约束可以(至少部分地)由关于回放系统的数据(例如，用户输入的数据)确定。例如，如果回放系统是立体声系统(只包括两个扬声器)，则图6系统的对象处理子系统24(和/或控制器23)可以被配置为防止用户选择仅通过两个扬声器不能以足够空间分辨率渲染的混合(由对象相关元数据识别)。对于另一个示例，出于法律(例如，DRM)原因或者由对象相关元数据(和/或被输入到回放系统的其它数据)指示的其它原因(例如，基于传送信道的带宽)，图6系统的对象处理子系统24(和/或控制器23)可以从可选对象的类别中除去一些被传送的对象。用户可以为了更多的带宽而向内容创建者或广播公司付费，并且作为结果，系统(例如，图6系统的对象处理子系统24和/或控制器23)可以允许用户从可选对象和/或对象/床混合的更大菜单中进行选择。

本发明的一些实施例(例如，图6中包括上述元件29和35的回放系统的实现方式)实现分布式渲染。例如，节目的默认或选定对象声道(以及对应的对象相关元数据)(与经解码的扬声器声道，例如，一组选定的床扬声器声道和替换扬声器声道，一起)从机顶设备(例如，从图6系统的实现的子系统22和29)传递到下游设备(例如，图6的子系统35，在实现了子系统22和29的机顶设备(STB)下游的AVR或条形音箱中实现)。下游设备被配置为渲染对象声道与扬声器声道的混合。STB可以部分地渲染音频，并且下游设备可以完成渲染(例如，通过生成用于驱动特定顶层的扬声器(例如，天花板扬声器)的扬声器馈送，以便把音频对象布置在特定的明显源位置，其中STB的输出仅仅指示对象可以在某些未指定的顶层扬声器中以某种未指定的方式渲染)。例如，STB可以不知道回放系统的扬声器的具体组织，但是下游设备(例如，AVR或条形音箱)可以知道这些。

在一些实施例中，基于对象的音频节目(例如，被输入到图6系统的子系统20或者图7系统的元件50、51和53的节目)是或者包括至少一个AC-3(E-AC-3)比特流，并且包括对象声道内容(和/或包括条件渲染元数据的对象相关元数据)的节目的每个容器被包括在比特流的帧尾处的auxdata字段(例如，图1或图4中所示的AUX片段)中。在一些这种实施例中，AC-3或E-AC-3比特流的每一帧包括一个或两个元数据容器。一个容器可以被包括在帧的Aux字段中，而另一个容器可以被包括在帧的addbsi字段中。每个容器具有核心头部并且包括(或关联)一个或更多个有效载荷。(Aux字段中所包括的容器的或者与其关联的)一个这种有效载荷可以是本发明的(与同样由节目指示的一床扬声器声道有关的)一个或更多个对象声道中的每一个对象声道的一组音频样本和与每个对象声道关联的对象相关元数据(包括条件渲染元数据)。每个容器的核心头部通常包括：至少一个ID值，该ID值指示该容器所包括或关联的有效载荷的类型；子流关联指示(指示核心头部与哪些子流关联)；以及保护比特。典型地，每个有效载荷有其自己的头部(或者“有效载荷标识符”)。对象级的元数据可以在作为对象声道的每个子流中携带。

在其它实施例中，基于对象的音频节目(例如，被输入到图6系统的子系统20或者图7系统的元件50、51和53的节目)是或者包括非AC-3比特流或非E-AC-3比特流的比特流。在一些实施例中，基于对象的音频节目是或者包括至少一个杜比E比特流，并且节目的对象声道内容和对象相关元数据(例如，节目的包括对象声道内容和包括条件渲染元数据的对象相关元数据的每个容器)被包括在杜比E比特流的一般不携带有用信息的的比特位置中。杜比E比特流的每个突发占用相当于对应视频帧的时间段。对象声道(和对象相关元数据)可以被包括在杜比E突发之间的保护带中和/或每个杜比E突发内的每个数据结构(各具有AES3帧的格式)中的未用比特位置中。例如，每个保护带包含一系列片段(例如，100个片段)，每个保护带的前X个片段(例如，X＝20)中的每个片段包括对象声道和对象相关元数据，并且所述每个保护带的剩余片段中的每一个可以包括保护带符号。在一些实施例中，本发明的节目的至少一些对象声道(和/或包括条件渲染元数据的对象相关元数据)被包括在杜比E比特流的至少一些AES3帧中的每一个的两个AES3子帧中的每一个的四个最低有效位(LSB)中，并且指示节目的扬声器声道的数据被包括在比特流的每个AES3帧的两个AES3子帧中的每一个的20个最高有效位(MSB)中。

在一些实施例中，本发明的节目的对象声道和对象相关元数据被包括在杜比E比特流中的元数据容器中。每个容器具有核心头部并且包括一个或更多个有效载荷(或者与其关联)。(Aux字段中所包括的容器的或者与其关联的)一个这种有效载荷可以是本发明的(例如，与同样由节目指示的一床扬声器声道有关的)一个或更多个对象声道中的每一个的一组音频样本和与每个对象声道关联的对象相关元数据。每个容器的核心头部通常包括：至少一个ID值，该ID值指示该容器中所包括或关联的有效载荷的类型；子流关联指示(指示核心头部与哪些子流关联)；以及保护比特。典型地，每个有效载荷有其自己的头部(或者“有效载荷标识符”)。对象级的元数据可以在作为对象声道的每个子流中携带。

在一些实施例中，基于对象的音频节目(例如，被输入到图6系统的子系统20或者图7系统的元件50、51和53的节目)能够由(未被配置为解析本发明的对象声道和对象相关元数据的)传统解码器和传统渲染系统解码，并且其扬声器声道内容可由传统解码器和传统渲染系统渲染。相同的节目可以根据本发明的一些实施例由(根据本发明的实施例)被配置为解析本发明的对象声道和对象相关元数据并且渲染由节目指示的对象声道内容与扬声器声道的混合的机顶设备(或者其它解码和渲染系统)渲染。

本发明的一些实施例意图响应于广播节目来为终端消费者提供个性化的(并且优选地是沉浸式的)音频体验，和/或提供用于在广播流水线中使用元数据的新方法。一些实施例改善了麦克风捕捉(例如，体育场麦克风捕捉)，以生成为最终消费者提供更加个性化和沉浸式体验的音频节目，修改现有的制作、捐资和分发工作流，以允许本发明的基于对象的音频节目的对象声道和元数据流过专业链，并且创建支持对象声道、替换扬声器声道和相关元数据以及常规广播音频(例如，本发明的广播音频节目的实施例中所包括的扬声器声道床)的新回放流水线(例如，在机顶设备中实现的回放流水线)。

图8是根据本发明实施例的基于对象的被配置为生成音频节目(和对应的视频节目)的用于广播的广播系统的框图。图8系统的包括麦克风100、101、102和103的一组X个麦克风(其中X是整数)被定位成捕捉要包括在节目中的音频内容，并且它们的输出耦接到音频控制台104的输入。

在一类实施例中，节目包括指示观赏型赛事(例如，足球或橄榄球赛、汽车或摩托车比赛、或其它体育赛事)的气氛和/或对观赏型赛事的现场解说的交互式音频内容。在一些实施例中，节目的音频内容指示多个音频对象(包括用户可选的对象或对象组，并且通常还有要在不存在用户对对象的选择的情况下渲染的默认对象组)、一床扬声器声道(指示所捕捉的内容的默认混合)和替换扬声器声道。扬声器声道床可以是可能被包括在不包括对象声道的常规广播节目中的一类扬声器声道的常规混合(例如，5.1声道混合)。

在其它实施例中，根据本发明而生成或渲染的基于对象的音频节目指示“人造的”(例如，数字化创建的)内容，而非所捕捉的音频内容或者加上所捕捉的音频内容。例如，该内容可以由非现场的(后期制作的)内容(例如，合成音频)组成或者可以包括非现场的内容。

麦克风的子集(例如，麦克风100和101并且可选地还有其输出耦接到音频控制台104的其它麦克风)是在操作中捕捉(要作为一床扬声器声道和一组替换扬声器声道被编码和传送的)音频的常规麦克风阵列。在操作中，麦克风的另一子集(例如，麦克风102和103以及可选地还有输出被耦接到音频控制台104的其它麦克风)捕捉要作为节目的对象声道被编码和传送的音频(例如，人群噪声和/或其它“对象”)。例如，图8系统的麦克风阵列可以包括：被实现为声场麦克风并且永久性地安装在体育场中的至少一个麦克风(例如，麦克风100)(例如，具有随其安装的加热器的声场麦克风)；指向支持一个队(例如，主队)的观众的至少一个立体声麦克风(例如，麦克风102，被实现为Sennheiser MKH416麦克风或者另一种立体声麦克风)，以及指向支持另一个队(例如，客队)的观众的至少一个其它立体声麦克风(例如，麦克风103，被实现为Sennheiser MKH416麦克风或者另一种立体声麦克风)。

本发明的广播系统可以包括位于体育场(或其它赛事位置)外面的移动单元(可以是卡车，有时被称为“比赛卡车”)，该移动单元是来自体育场(或其它赛事位置)中的麦克风的音频馈送的第一个接收者。比赛卡车生成(要广播的)基于对象的音频节目，包括通过编码来自麦克风的音频内容以便传送作为节目的对象声道、生成相应的条件渲染元数据和其他对象相关元数据(例如，指示在每个允许的下混中每个对象应当被渲染的空间位置的元数据)并将这种元数据包括在节目中、以及编码来自一些麦克风的音频内容以便传送作为节目的一床扬声器声道(和一组替换扬声器声道)。

例如，在图8的系统中，(耦接到控制台104的输出的)对象处理子系统106、嵌入子系统108以及贡献编码器(contribution encoder)111可以安装在比赛卡车中。在子系统106中生成的基于对象的音频节目可以(例如，在子系统108中)与(例如，来自位于体育场中的摄像机的)视频内容组合，以生成随后(例如，被编码器110)编码的组合音视频信号，由此生成用于(例如，通过图5的传送子系统5)广播的编码音频/视频信号。应当理解，解码和渲染这种编码音频/视频信号的回放系统将包括用于解析所传送的音频/视频信号中的音频内容和视频内容的子系统(图中未具体示出)、用于根据本发明的实施例来解码并渲染音频内容的子系统(例如，与图6系统类似或完全相同的子系统)、以及用于解码和渲染视频内容的另一子系统(图中未具体示出)。

控制台104的音频输出可以包括：5.1扬声器声道床(在图8中标记为“5.1中立”)，指示在体育赛事上捕捉到的环境声音和被混合到其中央声道中的播音员的现场解说(非环境内容)的默认混合；替换扬声器声道(在图8中标记为“1.0替换”)，指示没有现场解说的床中的中央声道的环境内容(即，在与现场解说混合以生成床中央声道之前，所捕捉的床中央声道的环境声音内容)；指示来自在该赛事现场的主队粉丝的人群噪声的立体声对象声道的音频内容(标记为“2.0主队”)；指示来自在该赛事现场的客队粉丝的人群噪声的立体声对象声道的音频内容(标记为“2.0客队”)；指示来自主队城市的播音员的现场解说的对象声道音频内容(标记为“1.0现场解说1”)；指示来自客队城市的播音员的现场解说的对象声道音频内容(标记为“1.0现场解说2”)、以及指示比赛用球在被体育赛事参与者撞击时产生的声音的对象声道音频内容(标记为“1.0击球”)。

对象处理子系统106被配置为把来自控制台104的音频流组织(例如，分组)为对象声道(例如，把标记为“2.0客队”的左和右音频流分组为客队人群噪声声道)和/或对象声道组，以生成指示对象声道(和/或对象声道组)的对象相关元数据，并且把对象声道(和/或对象声道组)、对象相关元数据、(根据来自控制台104的音频流确定的)扬声器声道床和每个替换扬声器声道编码为基于对象的音频节目(例如，被编码为杜比E比特流的基于对象的音频节目)。同样典型地，子系统106被配置为至少渲染(并在工作室监控扬声器上播放)对象声道(和/或对象声道组)的选定子集和扬声器声道床和/或替换扬声器声道(包括通过使用对象相关元数据来生成指示所选择的对象声道与扬声器声道的混合)，使得回放的声音可以由子系统106和控制台104的操作员监控(如由图8的“监控路径”指示的)。

子系统104的输出与子系统106的输出之间的接口可以是多声道音频数字接口(“MADI”)。

在操作中，图8系统的子系统108使在子系统106中生成的基于对象的音频节目与(例如，来自位于体育场中的摄像机的)视频内容组合，以生成向编码器110断言的组合音视频信号。子系统108的输出与子系统110的输入之间的接口可以是高清晰度串行数字接口(“HD-SDI”)。在操作中，编码器110对子系统108的输出进行编码，由此生成用于(例如，通过图5的传送子系统5)广播的编码音频/视频信号。

在一些实施例中，广播设备(例如，图8系统的子系统106、108和110)被配置为生成指示所捕捉的声音的多个基于对象的音频节目(例如，由从图8的子系统110输出的多个编码音频/视频信号指示的基于对象的音频节目)。这种基于对象的音频节目的示例包括5.1扁平混合、国际混合和国内混合。例如，所有节目可以包括一床公共扬声器声道(和一组公共的替换扬声器声道)，但是节目的对象声道(和/或由节目确定的可选对象声道的菜单、和/或用于渲染并混合对象的可选或不可选的渲染参数)可以因节目而有所不同。

在一些实施例中，广播公司或其它内容创建者的设备(例如，图8系统的子系统106、108和110)被配置为生成可以在各种不同回放环境(例如，5.1声道国内回放系统、5.1声道国际回放系统以及立体声回放系统)中的任何一种中渲染的单个基于对象的音频节目(即，原版(master))。原版不需要被混合(例如，下混)以便向任何特定环境中的消费者广播。

如上所述，在本发明的一些实施例中，节目的对象相关元数据(或者不是由与节目一起传送的元数据指示的回放或渲染系统的预配置)提供了关于对象与扬声器声道内容的可选混合的约束或条件。例如，图6系统的实现方式可以实现DRM层次，以允许用户能够分层访问基于对象的音频节目中所包括的一组对象声道。如果用户(例如，向广播公司)支付更多的钱，则用户可以有权解码、选择并渲染节目的更多对象声道。

将参照图9来描述关于对象(或对象组)的用户选择的约束和条件的示例。在图9中，节目“P0”包括七个对象声道：指示中立人群噪声的对象声道“N0”、指示主队人群噪声的对象声道“N1”、指示客队噪声的对象声道“N2”、指示赛事官方现场解说(例如，由商业广播播音员进行的广播现场解说)的对象声道“N3”、指示赛事粉丝现场解说的对象声道“N4”、指示赛事上的公告的对象声道“NS”以及指示(经由文本至语音系统转换的)关于赛事的进入twitter连接的对象声道“N6”。

指示节目P0中所包括的元数据的默认值指示(默认地)要包括在由节目指示的对象声道内容与“床”扬声器声道内容的渲染混合中的默认对象组(一个或更多个“默认”对象)和默认渲染参数组(例如，默认对象组中的每个默认对象的空间位置)。例如，默认对象组可以是以发散方式渲染(例如，使得不被感知为从任何特定的源位置发出)的对象声道“N0”(指示中立人群噪声)与被渲染为使得被感知为从位于听者正前方的源位置(即，关于听者为0度方位角)发出的对象声道“N3”(指示官方现场解说)的混合。

(图9的)节目P0还包括指示多组用户可选的预设混合的元数据，其中每个预设混合由节目的对象声道的子集和对应的渲染参数组确定。所述用户可选的预设混合可以被呈现为回放系统的控制器的用户界面上的菜单(例如，由图6系统的控制器23显示的菜单)。例如，一个这种预设混合是图9的对象声道“N0”(指示中立人群噪声)、对象声道“N1”(指示主队噪声)和对象声道“N4”(指示粉丝现场解说)的混合，这些对象声道被渲染为使得混合中的声道N0和N1内容被感知为从听者正后方的源位置发出(即，关于听者为180度的方位角)，其中混合中的声道N1内容的水平比混合中的声道N0的水平小3dB，并且混合中的声道N4内容是以发散的方式渲染的(例如，以便不被感知为从任何特定的源位置发出)。

回放系统可以实现这样的规则(例如，在图9中指示的分组规则“G”，其由节目的元数据确定)：包括对象声道N0、N1和N2中的至少一个的每个用户可选的预设混合必须单独包括对象声道N0内容，或者包括与对象声道N1和N2中的至少一个的内容混合的对象声道N0内容。回放系统还可以实现这样的规则(例如，在图9中指示的条件规则“C1”，其由节目的元数据确定)：包括与对象声道N1和N2中的至少一个的内容混合的对象声道N0内容的每个用户可选的预设混合必须包括与对象声道N1内容混合的对象声道N0内容，或者必须包括与对象声道N2内容混合的对象声道N0内容。

回放系统还可以实现这样的规则(例如，在图9中指示的条件规则“C2”，其由节目的元数据确定)：包括对象声道N3和N4中的至少一个的内容的每个用户可选的预设混合必须单独包括对象声道N3的内容，或者必须单独包括对象声道N4的内容。

本发明的一些实施例实现了基于对象的音频节目的对象声道的条件解码(conditional decoding)(和/或渲染)。例如，回放系统可以被配置为允许基于随节目一起提供的条件渲染元数据和指示回放扬声器阵列配置的数据以及可选地还有用户的权限来条件解码对象声道。例如，如果实现了DRM层次以允许消费者“分层”访问基于对象的音频节目中所包括的一组音频对象声道，则回放系统可以(通过节目的元数据中所包括的控制位)被自动配置为阻止对于渲染一些对象的解码和选择，除非回放系统被通知用户已经满足至少一个条件(例如，向内容提供者支付了特定数量的钱)。例如，用户可能需要购买权限来收听图9中的节目P0的“官方现场解说”对象声道N3，并且回放系统可以实现图9中指示的条件规则“C2”，使得除非回放系统被通知回放系统的用户已购买必要的权限，否则对象声道N3不能被选择。

对于另一个示例，回放系统可以(通过节目的元数据中所包括的、指示可用回放扬声器阵列的特定配置的控制位)被自动配置为如果回放扬声器阵列配置不满足条件，则阻止解码和选择(以便将其包括在要渲染的节目内容的下混中)一些对象(例如，回放系统可以实现图9中所指示的条件规则“C1”，使得对象声道N0和N1的预设混合不能被选择，除非回放系统被通知5.1扬声器阵列可用于渲染所选定的内容，但是如果唯一可用的扬声器阵列是2.0扬声器阵列则不然)。

在一些实施例中，本发明实现基于规则的对象声道选择，其中至少一个预定规则确定要渲染基于对象的音频节目的哪些对象声道(例如，与扬声器声道床一起)。用户还可以指定用于对象声道选择的至少一个规则(例如，通过从由回放系统控制器的用户界面呈现的可用规则的菜单中进行选择)，并且回放系统(例如，图6系统的对象处理子系统22)可以被配置为应用每个这种规则来确定要渲染的基于对象的音频节目的哪些对象声道应当被包括在要(例如，由图6系统的子系统24、或者子系统24和35)渲染的混合中。(例如，给定回放扬声器阵列的配置)，回放系统可以根据节目中的对象相关元数据(例如，条件渲染元数据)来确定节目的哪些对象声道满足预定的规则。

对于简单的示例，考虑基于对象的音频节目指示体育赛事的情况。代替操纵控制器(例如，图6的控制器23)来执行对节目中所包括的特定对象组的静态选择(例如，来自特定球队、汽车或自行车的电台解说)，用户操纵控制器来设置规则(例如，为了渲染而自动选择指示什么球队、或汽车或自行车获胜或处于第一位置的对象声道)。回放系统应用该规则来(在单个节目或者一系列不同节目的渲染期间)实现对节目中包括的对象(对象声道)的一系列不同子集的动态选择(例如，指示一个队的第一对象子集，当发生第二个队得分并因此变成当前获胜队时，后面自动变为指示第二个队的第二对象子集)。因此，在一些此类实施例中，实时事件支配或影响哪些对象声道被包括在所渲染的混合中。回放系统(例如，图6系统的对象处理子系统22)可以对节目中所包括的元数据(例如，指示出至少一个对应对象指示当前获胜队的元数据，例如，指示该队粉丝的人群噪声或者与获胜队关联的电台播音员的现场解说)作出响应，以选择哪些对象声道应当被包括在要渲染的扬声器与对象声道的混合中。例如，内容创建者可以(在基于对象的音频节目中)包括指示节目的至少一些音频对象声道中的每一个的位置次序(或其它层次)(例如，指示哪些对象声道对应于当前处于第一位置的队或汽车，哪些对象声道对应于当前处于第二位置的队或汽车，等等)的元数据。回放系统可被配置为通过仅选择和渲染满足用户指定的规则的对象声道(例如，由节目的对象相关元数据指示的与处于第“n”位的队有关的对象声道)来对这种元数据作出响应。

关于本发明的基于对象的音频节目的对象声道的对象相关元数据的示例包括(但不限于)：指示关于如何渲染对象声道的详细信息的条件渲染元数据或其他元数据；动态时间元数据(例如，指示用于摇摄对象的轨迹、对象尺寸、增益等等)；以及被AVR(或者在本发明的系统的一些实现方式的解码和对象处理子系统下游的其它设备或系统)用来渲染对象声道(例如，在知晓可用回放扬声器阵列的配置的情况下)的元数据。这种元数据可以指定对于对象位置、增益、静音或其它渲染参数的约束、和/或对于对象如何与其它对象交互的约束(例如，假定选择了特定的对象，关于可以选择哪些附加对象的约束)，并且/或者可以指定默认对象和/或默认渲染参数(在不存在对其它对象和/或渲染参数的用户选择的情况下使用)。

在一些实施例中，本发明的基于对象的音频节目的至少一些对象相关元数据(以及可选地还有至少一些对象声道)在单独的比特流或其它容器(例如，作为用户可能需要额外付费来接收和/或使用的次混合)中从节目的扬声器声道床和常规元数据发送。在不访问这种对象相关元数据(或者对象相关元数据和对象声道)的情况下，用户可以解码和渲染扬声器声道床，但是不能选择节目的音频对象并且不能渲染该节目的与扬声器声道床指示的音频的混合中的音频对象。本发明的基于对象的音频节目的每一帧可以包括多个对象声道的音频内容和对应的对象相关元数据。

根据本发明一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括扬声器声道、至少一个对象声道、以及指示分层图(有时被称为分层的“混合图”)的元数据(包括条件渲染元数据)，所述分层图指示扬声器声道与对象声道的可选混合(例如，所有可选下混)。例如，混合图指示可适用于选择扬声器和对象声道的子集的每个规则。典型地，编码音频比特流指示节目的至少一些(即，至少一部分)音频内容(例如，一床扬声器声道和节目的至少一些对象声道)和对象相关元数据(包括指示混合图的元数据)，以及可选地至少一个附加的编码音频比特流或文件指示节目的一些音频内容和/或对象相关元数据。

所述分层的混合图指示节点(每个节点可以指示可选的声道或声道组，或一类可选的声道或声道组)和节点之间的连接(例如，到节点的控制接口和/或用于选择声道的规则)，并且包括基本数据(“基本”层)和可选的(即，可选地被省略的)数据(至少一个“扩展”层)。典型地，分层的混合图被包括在指示节目的编码音频比特流之一中，并且可以通过(由回放系统实现的，例如，终端用户的回放系统)图遍历进行评估，以确定声道的默认混合和用于修改默认混合的选项。

当混合图可被表示为树图时，基本层可以是该树图的树枝(或者两个或更多个树枝)，并且每个扩展层可以是该树图的另一个树枝(或者另一组两个或更多个树枝)。例如，树图的(由基本层指示的)一个树枝可以指示可供所有终端用户使用的可选声道和声道组，并且树图的(由扩展层指示的)另一树枝可以指示只能由某些终端用户使用的附加的可选声道和/或声道组(例如，这样的扩展层可以仅提供给有权使用它的终端用户)。图9是树图的示例，它包括混合图的对象声道节点(例如，指示对象声道N0、N1、N2、N3、N4、N5和N6的节点)和其它元素。

通常，基本层包含(指示)图结构和到图中节点的控制接口(例如，摇摄，以及增益控制接口)。基本层对于把任何用户交互映射到解码/渲染过程是必要的。

每个扩展层包含(指示)对基本层的扩展。对于把用户交互映射到解码过程，所述扩展不是立即需要的，因此可以以较慢的速率发送和/或延迟或略去。

在一些实施例中，基本层被包括作为节目的独立子流的元数据(例如，被发送作为独立子流的元数据)。

根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括扬声器声道、至少一个对象声道、以及指示混合图(其可以是或者可以不是分层的混合图)的元数据(包括条件渲染元数据)，其中所述混合图指示扬声器声道与对象声道的可选混合(例如，所有可选下混)。经编码的音频比特流(例如，杜比E或E-AC-3比特流)指示节目的至少一部分，并且指示混合图的元数据(并且通常还有可选的对象和/或扬声器声道)被包括在比特流的每一帧中(或者比特流的帧子集的每一帧中)。例如，每一帧可以包括至少一个元数据片段和至少一个音频数据片段，并且混合图可以被包括在每一帧的至少一个元数据片段中。(可以被称为“容器”的)每个元数据片段可以具有包括元数据片段头部(以及可选地还有其它元素)和跟在元数据片段头部之后的一个或更多个元数据有效载荷的格式。每个元数据有效负载本身由有效载荷头部识别。如果存在于元数据片段中，则混合图被包括在元数据片段的一个元数据有效载荷中。

在另一类实施例中，根据本发明生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括子流，并且子流指示至少一床扬声器声道、至少一个对象声道、以及对象相关元数据(包括条件渲染元数据)。对象相关元数据包括“子流”元数据(指示节目的子流结构和/或解码子流应当采用的方式)，并且通常还有指示扬声器声道与对象声道的可选混合(例如，所有可选下混)的混合图。子流元数据可以指示节目的哪个子流应当独立于节目的其它子流被解码，以及节目的哪些子流应当与节目的至少一个其它子流相关联地被解码。

例如，在一些实施例中，编码音频比特流指示节目的至少一些(即，至少一部分)音频内容(例如，至少一床扬声器声道、至少一个替换扬声器声道和节目的至少一些对象声道)以及元数据(例如，混合图和子流元数据，并且可选地还有其它元数据)，并且至少一个附加的编码音频比特流(或文件)指示节目的一些音频内容和/或元数据。在每个比特流是杜比E比特流(或者为了在AES3串行数字音频比特流中携带非PCM数据而以符合SMPTE 337格式的方式编码)的情况下，比特流可以共同指示多达8个声道的音频内容，其中每个比特流携带多达8个声道的音频数据并且通常还包括元数据。每个比特流可以被认为是组合比特流的子流，其中组合比特流指示由所有比特流携带的所有音频数据和元数据。

对于另一个示例，在一些实施例中，编码音频比特流指示至少一个音频节目的音频内容和元数据(例如，混合图和子流元数据，并且可选地还有其它对象相关元数据)的多个子流。通常，每个子流指示节目的一个或更多个声道(并且通常还有元数据)。在一些情况下，编码音频比特流的多个子流指示若干个音频节目的音频内容，例如，(可以是多声道节目的)“主”音频节目和至少一个其它音频节目(例如，作为对主音频节目的现场解说的节目)。

指示至少一个音频节目的编码音频比特流必定包括音频内容的至少一个“独立”子流。该独立子流指示音频节目的至少一个声道(例如，该独立子流可以指示常规5.1声道音频节目的五个全范围声道)。在本文中，这种音频节目被称为“主”节目。

在一些情况下，编码音频比特流指示两个或更多个音频节目(“主”节目和至少一个其它音频节目)。在这种情况下，比特流包括两个或更多个独立子流：第一个独立子流指示主节目的至少一个声道；并且至少一个其它独立子流指示另一个音频节目(与主节目不同的节目)的至少一个声道。每个独立子流可以被独立解码，并且解码器可以操作为只解码编码比特流的独立子流的子集(而不是全部)。

可选地，指示主节目(并且可选地还有至少一个其它音频节目)的编码音频比特流包括音频内容的至少一个“从属”子流。每个从属子流与比特流的一个独立子流关联，并且指示其内容由关联的独立子流指示的节目(例如，主节目)的至少一个附加声道(即，从属子流指示不由关联的独立子流指示的节目的至少一个声道，并且关联的独立子流指示节目的至少一个声道)。

在包括(指示主节目的至少一个声道的)独立子流的编码比特流的示例中，比特流还包括(与独立比特流关联的)指示主节目的一个或更多个附加扬声器声道的从属子流。这种附加扬声器声道是对由独立子流指示的主节目声道的补充。例如，如果独立子流指示7.1声道主节目的标准格式左、右、中央、左环绕、右环绕全范围扬声器声道，则从属子流可以指示主节目的两个其它全范围扬声器声道。

根据E-AC-3标准，常规的E-AC-3比特流必须指示至少一个独立子流(例如，单个AC-3比特流)，并且可以指示多达八个独立子流。E-AC-3比特流的每个独立子流可以与多达八个从属子流关联。

在(参照图11描述的)示例性实施例中，基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道以及元数据。元数据包括“子流”元数据(指示节目的音频内容的子流结构和/或对节目的音频内容的子流进行解码应采用的方式)并且通常还有指示扬声器声道与对象声道的可选混合的混合图。音频节目与足球比赛关联。编码音频比特流(例如，E-AC-3比特流)指示节目的音频内容和元数据。节目的音频内容(因此也即比特流的音频内容)包括四个独立子流，如在图11中所示。一个独立子流(在图11中标记为子流“I0”)指示5.1扬声器声道床，指示在足球比赛时的中立人群噪声。另一个独立子流(在图11中标记为子流“I1”)指示2.0声道“A队”床(“M人群”)、2.0声道“B队”床(“LivP人群”)和单声道对象声道(“Sky现场解说1”)，其中2.0声道“A队”床指示来自偏向一个队(“A队”)的比赛人群部分的声音，2.0声道“B队”床指示来自偏向另一个队(“B队”)的比赛人群部分的声音，所述单声道对象声道指示对比赛的现场解说。第三个独立子流(在图11中标记为子流“I2”)指示对象声道音频内容(标记为“2/0击球”)和三个对象声道(“Sky现场解说2”、“Man现场解说”和“Liv现场解说”)，其中对象声道音频内容指示比赛用球在被足球比赛参与者撞击时产生的声音，而所述三个对象声道各自指示对足球比赛的不同现场解说。第四个独立子流(在图11中标记为子流“I3”)指示：对象声道(标记为“PA”)，指示在足球比赛时由体育场广播系统产生的声音；对象声道(标记为“电台”)，指示足球比赛的电台广播；以及对象声道(标记为“进球瞬间”)，指示足球比赛过程中的进球得分。

在图11的示例中，子流I0包括用于节目和元数据(“obj md”)的混合图，包括至少一些子流元数据和至少一些对象声道相关元数据。每个子流I1、I2和I3包括元数据(“objmd”)、至少一些对象声道相关元数据以及可选地至少一些子流元数据。

在图11的示例中，比特流的子流元数据指示：在解码期间，在每对独立子流之间耦合应当为“关闭”(使得每个独立子流独立于其它独立子流被解码)，并且比特流的子流元数据指示耦合应当“打开”(使得这些声道不彼此独立地被解码)或者“关闭”(使得这些声道彼此独立地被解码)的每个子流内的节目声道。例如，子流元数据指示：在子流I1的两个立体声扬声器声道床(2.0声道“A队”床和2.0声道“B队”床)内部，耦合应当为“打开”，但是横跨子流I1的扬声器声道床以及在单声道对象声道与子流I1的每个扬声器声道床之间被禁用(以便使单声道对象声道与一床扬声器声道彼此独立地被解码)。类似地，子流元数据指示：在子流I0的5.1扬声器声道床内部，耦合应当为“打开”(以便使这个床的扬声器声道彼此关联地被解码)。

在一些实施例中，扬声器声道和对象声道以适合于节目的混合图的方式被包括(“打包”)在音频节目的子流内。例如，如果混合图是树图，则图的一个树枝的所有声道都可以被包括在一个子流中，而图的另一个树枝的所有声道都可以被包括在另一个子流中。

图10是实现本发明实施例的系统的框图。

图10系统的对象处理系统(对象处理器)200包括如图所示那样耦接的元数据生成子系统210、夹层编码器(mezzanine encoder)212和模拟子系统211。元数据生成子系统210被耦接为接收所捕捉到的音频流(例如，指示由位于观赏型赛事的麦克风捕捉的声音的流，并且可选地还有其它音频流)，并且被配置为把来自控制台104的音频流组织(例如，分组)到一床扬声器声道、一组替换扬声器声道和多个对象声道和/或对象声道组中。子系统210还被配置为生成指示对象声道(和/或对象声道组)的对象相关元数据(包括条件渲染元数据)。编码器212被配置为把对象声道(和/或对象声道组)、对象相关元数据以及扬声器声道编码为夹层类型的基于对象的音频节目(例如，被编码为杜比E比特流的基于对象的音频节目)。

对象处理器200的模拟子系统211被配置为渲染(并且在一组工作室监视器扬声器上播放)对象声道(和/或对象声道组)的至少选定子集以及扬声器声道(包括通过使用对象相关元数据来生成指示选定对象声道与扬声器声道的混合)，使得所回放的声音可以被子系统200的操作者监控。

图10系统的转码器202包括如图所示那样耦接的夹层解码器子系统(夹层解码器)213和编码器214。夹层解码器213被耦接和配置为接收并解码从对象处理器200输出的夹层类型的基于对象的音频节目。解码器213的解码输出被编码器214重新编码为适于广播的格式。在一种实施例中，从编码器214输出的经编码的基于对象的音频节目是E-AC-3比特流(因此编码器214在图10中被标记为“DD+编码器”)。在其它实施例中，从编码器214输出的经编码的基于对象的音频节目是AC-3比特流或者具有某种其它格式。转码器202的基于对象的音频节目输出被广播(或以其它方式传送)到多个终端用户。

解码器204被包括在一个这种终端用户的回放系统中。解码器204包括如图所示那样耦接的解码器215和渲染子系统(渲染器)216。解码器215接受(接收或读取)并解码从转码器202传送的基于对象的音频节目。如果解码器215是根据本发明的典型实施例配置的，则在典型操作中解码器215的输出包括：指示节目的一床扬声器声道的音频样本流、以及指示节目的对象声道(例如，用户可选的音频对象声道)的音频样本流和对应的对象相关元数据流。在一种实施例中，输入到解码器215的经编码的基于对象的音频节目是E-AC-3比特流，因此解码器215在图10中被标记为“DD+解码器”。

解码器204的渲染器216包括被耦接为(从解码器215)接收所传送节目的经解码的扬声器声道、对象声道和对象相关元数据的对象处理子系统。渲染器216还包括被配置为渲染由对象处理子系统确定的音频内容的渲染子系统，以便由回放系统的扬声器(未示出)回放。

典型地，渲染器216的对象处理子系统被配置为向渲染器216的渲染子系统输出由节目指示的整组对象声道的选定子集、以及对应的对象相关元数据。渲染器216的对象处理子系统通常还被配置为不作改变地(向渲染子系统)传递来自解码器215的经解码的扬声器声道。由对象处理子系统执行的对象声道选择是根据本发明的实施例确定的，例如，通过用户选择和/或渲染器216被编程为或以其它方式被配置实现的规则(例如，指示条件和/或约束)。

图10的元件200、202和204中的每一个(以及图8的元件104、106、108和110中的每一个)可以被实现为硬件系统。处理器200(或处理器106)的这种硬件实现方式的输入典型地是多声道音频数字接口(“MADI”)输入。典型地，图8的处理器106以及图10的编码器212和214中的每一个都包括帧缓冲区。典型地，帧缓冲区是被耦接为接收经编码的输入音频比特流的缓冲存储器，并且在操作中，缓冲存储器(例如，以非暂态方式)存储编码音频比特流的至少一帧，并且编码音频比特流的一系列帧被从缓冲存储器向下游设备或系统断言。同样，典型地，图10的解码器213和215中的每一个包括帧缓冲区。典型地，该帧缓冲区是被耦接为接收经编码的输入音频比特流的缓冲存储器，并且在操作中缓冲存储器(例如，以非暂态方式)存储要被解码器213或215解码的经编码的音频比特流的至少一帧。

图8的处理器106的任何部件或元件(或者图10的子系统200、202和/或204)可以在硬件、软件或者硬件和软件的组合中被实现为一个或更多个过程和/或一个或更多个电路(例如，ASIC、FPGA或其它集成电路)。

应该领会的是，在一些实施例中，本发明的基于对象的音频节目被生成和/或传送为指示节目内容(包括元数据)的未编码的(例如，基带)表示。例如，这种表示可以包括PCM音频样本和相关联的元数据。未编码的(未压缩的)表示可以以各种方式中的任何一种传送，包括：作为至少一个数据文件(例如，以非暂态的方式存储在存储器中，例如，存储在计算机可读介质上)，或者作为AES-3格式或串行数字接口(SDI)格式(或以另一种格式)的比特流。

本发明的一方面是被配置为执行本发明的方法的实施例的音频处理单元(APU)。APU的示例包括但不限于：编码器(例如，转码器)、解码器、编解码器、预处理系统(预处理器)、后处理系统(后处理器)、音频比特流处理系统，以及这些的组合。

在一类实施例中，本发明是APU，该APU包括(例如，以非暂态方式)存储由本发明的方法的任何实施例生成的基于对象的音频节目的至少一帧或其它片段(包括扬声器声道和至少一个对象声道的音频内容、以及包括条件渲染元数据的对象相关元数据)的缓冲存储器(缓冲区)。例如，图5的制作单元3可以包括缓冲区3A，该缓冲区3A(例如，以非暂态方式)存储由单元3生成的基于对象的音频节目的至少一帧或其它片段(包括扬声器声道和至少一个对象声道的音频内容、以及包括条件渲染元数据的对象相关元数据)。对于另一个示例，图5的解码器7可以包括缓冲区7A，该缓冲区7A(例如，以非暂态方式)存储从子系统5向解码器7传送的基于对象的音频节目的至少一帧或其它片段(包括扬声器声道和至少一个对象声道的音频内容、以及包括条件渲染元数据的对象相关元数据)。

本发明的实施例可以被实现在硬件、固件、或软件或者其组合中(例如，作为可编程的逻辑阵列)。例如，图8的子系统106或图7系统、或者图6系统的元件20、22、24、25、26、29、35、31和35中的全部或一些、或者图10的元件200、202和204中的全部或一些，可以在被适当地编程(或以其它方式配置)的硬件或固件中实现，例如，作为编程的通用处理器、数字信号处理器或者微处理器。除非另外指出，否则作为本发明的一部分而被包括的算法或过程不固有地关联任何特定的计算机或其它装置。特别地，各种通用机器可以与根据本文示教所编写的程序一起使用，或者可以更方便地构造更专用的装置(例如，集成电路)来执行所需的方法步骤。因此，本发明可以在一个或更多个可编程计算机系统上执行的一个或更多个计算机程序中实现(例如，图6的元件20、22、24、25、26、29、35、31和35中的全部或一些的实现)，其中每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口和至少一个输出设备或端口。程序代码被应用到输入数据，以执行本文所述的功能并且生成输出信息。输出信息以已知的方式被应用到一个或更多个输出设备。

每个这种程序可以用任何期望的计算机语言(包括机器、汇编或高级过程、逻辑或面向对象编程语言)实现，以便与计算机系统通信。在任何情况下，语言都可以是被编译或解释的语言。

例如，当被计算机软件指令序列实现时，本发明实施例的各种功能和步骤可以由在合适的数字信号处理硬件中运行的多线程软件指令序列实现，在这种情况下，实施例的各种设备、步骤和功能可以对应于软件指令的部分。

每个这种计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如，固态存储器或介质，或者磁性或光学介质)上，以便在存储介质或设备被计算机系统读取时配置和操作计算机，以执行本文所述的过程。本发明的系统还可以被实现为计算机可读存储介质，被配置有(即，存储)计算机程序，其中这样配置的存储介质使计算机系统以特定和预定义的方式操作，以执行本文所述的功能。

已经描述了本发明的多种实施例。应当理解，在不背离本发明精神和范围的情况下，可以进行各种修改。鉴于以上示教，本发明的许多修改和变化都是可能的。应当理解，在所附权利要求的范围内，本发明可以按与本文具体描述的方式不同的方式来实践。

Claims

1.一种用于生成基于对象的音频节目的方法，所述方法包括以下步骤：

生成与至少一个对象声道对应的条件渲染元数据，使得所述条件渲染元数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置的至少一个渲染约束，其中所述条件渲染元数据还指示用于渲染所述节目的音频声道的基于回放扬声器阵列配置的至少一个渲染规则，所述至少一个渲染规则至少包括以下：

如果所述回放扬声器阵列包括至少一个地板上方扬声器，则第一类型的每个对象声道应该被下混成由用户选定的或默认的任何节目内容混合指定的任何扬声器声道，以及

如果所述回放扬声器阵列不包括至少一个地板上方扬声器，则所述第一类型的每个对象声道不应该被包括在任何下混中；

确定包括所述至少一个对象声道的一组音频声道；以及

生成基于对象的音频节目，使得所述基于对象的音频节目指示所述一组音频声道和所述条件渲染元数据，并且使得该节目的至少一个音频声道的内容能够由回放系统响应于所述条件渲染元数据中的至少一些条件渲染元数据来以符合所述至少一个渲染约束的方式渲染。

2.如权利要求1所述的方法，其中所述一组音频声道包括至少一个扬声器声道，并且所述一组音频声道中的至少一个扬声器声道的音频内容指示在观赏型赛事捕捉的声音，并且由所述一组音频声道中的至少一个对象声道指示的音频内容指示对该观赏型赛事的现场解说。

3.如权利要求1所述的方法，其中所述基于对象的音频节目是包括帧的编码比特流，所述编码比特流是AC-3比特流或E-AC-3比特流，所述编码比特流的每个帧指示至少一个数据结构，所述数据结构是包括所述至少一个对象声道的一些内容和所述条件渲染元数据中的一些条件渲染元数据的容器，并且至少一个所述容器被包括在每个所述帧的auxdata字段或addbsi字段中。

4.如权利要求1所述的方法，其中所述基于对象的音频节目是包括一系列突发以及突发对之间的保护带的杜比E比特流。

5.如权利要求1所述的方法，其中所述基于对象的音频节目是指示节目的音频内容和元数据的未编码表示，并且所述未编码表示是以非暂态方式存储在存储器中的比特流或至少一个数据文件。

6.一种渲染由基于对象的音频节目确定的音频内容的方法，其中所述节目指示与至少一个对象声道对应的条件渲染元数据以及包括所述至少一个对象声道的一组音频声道，并且其中所述条件渲染元数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置的至少一个渲染约束，其中所述条件渲染元数据还指示用于渲染所述节目的音频声道的基于回放扬声器阵列配置的至少一个渲染规则，所述方法包括以下步骤：

(a)将所述基于对象的音频节目提供给音频处理单元；以及

(b)在音频处理单元中，解析所述条件渲染元数据以及所述一组音频声道，并且响应于所述条件渲染元数据中的至少一些条件渲染元数据来以符合所述至少一个渲染约束和所述至少一个渲染规则的方式渲染所述一组音频声道中的至少一个音频声道的内容，

其中所述至少一个渲染规则包括以下：

如果所述回放扬声器阵列不包括至少一个地板上方扬声器，则所述第一类型的每个对象声道不应该被包括在任何下混中。

7.如权利要求6所述的方法，其中所述一组音频声道包括至少一个扬声器声道，并且步骤(b)包括如下步骤：选择所述一组音频声道中的至少一个对象声道，由此确定选定对象声道子集，并且将所述选定对象声道子集中的每个对象声道与所述一组音频声道中的至少一个扬声器声道混合，以渲染所述选定对象声道子集和所述一组音频声道中的所述至少一个扬声器声道的内容的下混。

8.如权利要求7所述的方法，其中步骤(b)包括如下步骤：

响应于所述条件渲染元数据中的至少一些条件渲染元数据，并且基于音频处理单元的特定回放扬声器阵列配置，提供可用于选择的渲染选项的菜单；以及

选择所述一组音频声道的所述至少一个对象声道，由此通过选择由菜单指示的渲染选项之一来确定所述选定对象声道子集。

9.如权利要求7所述的方法，其中所述下混包含一组N个下混扬声器声道，其中N为正整数，并且步骤(b)包括如下步骤：通过用根据下混扬声器声道生成的扬声器馈送驱动扬声器来使回放扬声器阵列的N个扬声器发出声音。

10.如权利要求8所述的方法，其中所述菜单由控制器的用户界面呈现，所述控制器被耦接到机顶设备，并且所述机顶设备被耦接为接收所述基于对象的音频节目并且被配置为执行步骤(b)。

11.一种用于渲染由基于对象的音频节目确定的音频内容的系统，其中所述节目指示与至少一个对象声道对应的条件渲染元数据，所述节目还指示包括所述至少一个对象声道的一组音频声道，并且所述条件渲染元数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置的至少一个渲染约束，其中所述条件渲染元数据还指示用于渲染所述节目的音频声道的基于回放扬声器阵列配置的至少一个渲染规则，所述系统包括：

第一子系统，被耦接为接收所述基于对象的音频节目，并且被配置为解析所述条件渲染元数据和所述一组音频声道以及确定所述一组音频声道的选定子集；以及

渲染子系统，被耦接到第一子系统，并且被配置为响应于所述条件渲染元数据中的至少一些条件渲染元数据来以符合所述至少一个渲染约束和所述至少一个渲染规则的方式渲染由所述一组音频声道的选定子集指示的内容，

其中所述至少一个渲染规则包括以下：

12.如权利要求11所述的系统，其中所述一组音频声道包括至少一个扬声器声道，并且该系统还包括：

控制器，被耦接到第一子系统，其中控制器被配置为响应于所述条件渲染元数据中的至少一些条件渲染元数据并基于该系统的特定回放扬声器阵列配置来提供可用于选择的渲染选项的菜单，并且其中控制器被配置为响应于对由所述菜单指示的渲染选项之一的用户选择来确定所述一组音频声道的选定子集，并且

其中所述渲染子系统被配置为将所述一组音频声道的所述选定子集中的每个对象声道与所述一组音频声道的所述选定子集中的至少一个扬声器声道混合以渲染内容。

13.如权利要求11所述的系统，其中第一子系统被配置为选择所述一组音频声道的至少一个对象声道，由此确定选定对象声道子集，并且所述渲染子系统被配置为使所述选定对象声道子集中的每个对象声道与所述一组音频声道的至少一个扬声器声道混合，以生成所述选定对象声道子集和所述一组音频声道的所述至少一个扬声器声道的内容的下混。

14.如权利要求13所述的系统，其中所述下混包含一组N个下混扬声器声道，其中N为正整数，并且所述渲染子系统被配置为根据下混扬声器声道生成扬声器馈送来驱动回放扬声器阵列的N个扬声器，以使所述扬声器发出指示所述下混的内容的声音。