CN114613374A

CN114613374A - 用于生成和交互式地渲染基于对象的音频的方法和系统

Info

Publication number: CN114613374A
Application number: CN202210302375.8A
Authority: CN
Inventors: 斯里巴拉·S·梅赫塔; 托马斯·齐格勒; 贾尔斯·贝克; 杰弗里·里德米勒; 普林亚尔·桑索姆布
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2013-04-03
Filing date: 2014-04-03
Publication date: 2022-06-10
Also published as: JP6212625B2; US10553225B2; CN114157979B; CN105075295A; US20180151186A1; US20180268829A1; CN105103571B; US20160029140A1; CN117880735A; WO2014165326A1; US20240079015A1; US10515644B2; EP2982140A1; KR101800604B1; CN107731239A; US20190341061A1; EP3930351A1; CN114157979A; US20210118453A1; JP2016521380A

Abstract

用于生成基于对象的音频节目的方法，该基于对象的音频节目是以可个性化的方式可渲染的，并且包括在不选择其他节目内容的情况下可渲染的扬声器通道声床(例如，以提供默认的全范围音频体验)。其他实施方式包括递送、解码和/或渲染这样的节目的步骤。声床的内容的渲染或者节目的其他内容的所选的混音的渲染可以提供沉浸式体验。节目可以包括多个对象通道(例如，指示用户可选的和用户可配置的对象的对象通道)、扬声器通道声床和其他扬声器通道。另一方面是音频处理单元(例如，编码器或解码器)，其被配置成执行方法的任意实施方式，或者其包括存储根据方法的任意实施方式生成的基于对象的音频节目(或其比特流)的至少一个帧(或其他分段)的缓冲存储器。

Description

用于生成和交互式地渲染基于对象的音频的方法和系统

本申请是申请号为201480020223.2(其已提交过分案申请201710942931.7)、申请日为2014年4月3日、名称为“用于生成和交互式地渲染基于对象的音频的方法和系统”的中国发明专利申请的分案申请。

相关申请的交叉引用

本申请要求于2013年4月3日提交的美国临时专利申请第61/807,922号的申请日的权益以及于2013年6月7日提交的美国临时专利申请第61/832,397号的申请日的权益。

技术领域

本发明涉及音频信号处理，并且更具体地，涉及包括音频内容(指示扬声器通道和至少一个音频对象通道)以及支持音频内容的交互式渲染(rendering)的元数据的音频数据比特流的编码、解码和交互式渲染。本发明的一些实施方式以被称为Dolby数字(AC-3)、Dolby数字+(增强的AC-3或E-AC-3)或Dolby E的格式中的一种格式生成、解码和/或渲染音频数据。

背景技术

Dolby、Dolby数字、Dolby数字+和Dolby E是杜比实验室特许公司的商标。杜比实验室提供分别被称为Dolby数字和Dolby数字+的AC-3和E-AC-3的专有实现。

虽然本发明不限于用于根据E-AC-3(或AC-3或Dolby E)格式对音频数据进行编码或者用于递送、解码或渲染E-AC-3、AC-3或Dolby E编码数据，但是为了方便起见，将在实施方式中描述本发明，其中其根据E-AC-3或AC-3或Dolby E格式对音频比特流进行编码，并且递送、解码和渲染这样的比特流。

典型的音频数据流包括音频内容(例如，音频内容的一个或更多个通道)以及指示音频内容的至少一个特征的元数据二者。例如，在AC-3比特流中，存在几个音频元数据参数，这几个音频元数据参数具体意在用于改变被递送至收听环境的节目的声音。

AC-3或E-AC-3编码比特流包括元数据，并且可以包括音频内容的1至6个通道。音频内容是已经使用感知音频编码被压缩的音频数据。AC-3编码的细节是众所周知的，并且在包括以下项的很多公开的参考文献中阐述AC-3编码的细节：

ATSC标准A52/A：数字音频压缩标准(AC-3)，修订本A，高级电视系统委员会，2001年8月20日；以及

美国专利5,583,962；5,632,005；5,633,981；5,727,119；以及6,021,386。

在例如以下中阐述了Dolby数字+(E-AC-3)编码的细节：“Introduction to DolbyDigital Plus,an Enhancement to the Dolby Digital Coding System(Dolby数字+的介绍，Dolby数字编码系统的增强)”，AES会议论文6196，第117届AES会议，2004年10月28日。

在以下中阐述了Dolby E编码的细节：“Efficient Bit Allocation,Quantization,and Coding in an Audio Distribution System(音频分发系统中的高效的位分配、量化和编码)”，AES预印本5068，第107届AES会议，1999年8月，以及“Professional Audio Coder Optimized for Use with Video(被优化以供视频使用的专业音频编码器)”，AES预印本5033，第107届AES会议，1999年8月。

AC-3编码音频比特流的每帧包括针对数字音频的1536个样本的元数据和音频内容。对于48kHz的采样速率，这表示32毫秒的数字音频，或者音频的每秒31.25帧的速率。

取决于帧是否分别包含1、2、3或6个音频数据块，E-AC-3编码音频比特流的每帧包含针对数字音频的256、512、768或1536个样本的元数据和音频内容。对于48kHz的采样速率，这分别表示5.333、10.667、16或32毫秒的数字音频，或者分别表示音频的每秒189.9、93.75、62.5或31.25帧的速率。

如图1所示，每个AC-3帧被划分成多个部分(分段)，包括：包含(如图2所示)同步字(SW)和两个纠错字中的第一纠错字(CRC1)的同步信息(SI)部分；包含大部分元数据的比特流信息(BSI)部分；包含数据压缩音频内容(并且还可以包含元数据)的6个音频块(AB0至AB5)；包含在压缩音频内容之后剩余的任何未使用的位的无用位(W)；可以包含更多元数据的辅助(AUX)信息部分；以及两个纠错字中的第二纠错字(CRC2)。

如图4所示，每个E-AC-3帧被划分成多个部分(分段)，包括：包含(如图2所示)同步字(SW)的同步信息(SI)部分；包含大部分元数据的比特流信息(BSI)部分；包含数据压缩音频内容(并且还可以包含元数据)的1到6个音频块(AB0至AB5)；包含在压缩音频内容之后剩余的任何未使用的位的无用位(W)；可以包含更多元数据的辅助(AUX)信息部分；以及纠错字(CRC)。

在AC-3(或E-AC-3)比特流中，存在具体意在用于改变被递送至收听环境的节目的声音的几个音频元数据参数。元数据参数之一是DIALNORM(对白归一)参数，该DIALNORM参数被包括在BSI分段中。

如图3所示，AC-3帧(或E-AC-3帧)的BSI分段包括指示节目的DIALNORM值的5位参数(“DIALNORM”)。如果AC-3帧的音频编码模式(“acmod”)为“0”，则包括指示在同一AC-3帧中携带的第二音频节目的DIALNORM值的5位参数(“DIALNORM2”)，指示使用双单或“1+1”通道配置。

BSI分段还包括指示存在(或不存在)跟随“addbsie”位的另外的比特流信息的标志(“addbsie”)、指示跟随“addbsil”值的任意另外的比特流信息的长度的参数(“addbsil”)以及跟随“addbsil”值的多达64位的另外的比特流信息(“addbsi”)。

BSI分段包括在图3中未具体示出的其他元数据值。

已经提出了将其他类型的元数据包括在音频比特流中。例如，在国际申请日为2011年12月1日且被转让给本申请的受让人的PCT国际申请公布号WO 2012/075246 A2中描述了用于生成、解码和处理包括指示音频内容的处理状态(例如，响度处理状态)和特征(例如，响度)的元数据的音频比特流的方法和系统。该参考文献还描述了使用元数据进行比特流的音频内容的自适应处理以及使用元数据进行比特流的音频内容的响度处理状态和响度的有效性的验证。

也已知用于生成和渲染基于对象的音频节目的方法。在这样的节目的生成期间，可以假定，要用于渲染的扩音器位于回放环境中的任意位置(或者扬声器以对称配置位于单位圆中)。不需要假定扬声器必须位于(标称)水平面中或处于在节目生成时已知的任何其他预定的布置下。通常，节目中包括的元数据指示用于例如使用三维扬声器阵列在视在(apparent)空间位置处或沿着轨迹(在三维容积中)渲染节目的至少一个对象的渲染参数。例如，节目的对象通道可以具有指示(由对象通道指示的)对象要被渲染的视在空间位置的三维轨迹的相应的元数据。轨迹可以包括一系列“地板”位置(在假定位于回放环境的地板上的扬声器子组的平面中，或者在回放环境的另一水平面中)、以及一系列“地板上方”位置(每个位置通过驱动假定位于回放环境的至少一个其他水平面中的扬声器子组来确定)。例如，在PCT国际申请号PCT/US2001/028783中描述了渲染基于对象的音频节目的示例，该PCT国际申请于2011年9月29日以国际公布号WO 2011/119401 A2被公布，并且被转让给本申请的受让人。

上面引用的美国临时专利申请第61/807,922号和上面引用的美国临时专利申请第61/832,397号描述了被渲染以提供节目的音频内容的沉浸式可个性化的感知的基于对象的音频节目。内容可以指示观赏事件(例如，英式足球或橄榄球赛或另外的体育赛事)的气氛(在观赏事件中或处发出的声音)和/或对观赏事件的评论。节目的音频内容可以指示多个音频对象通道(例如，指示用户可选的对象或对象组、以及通常还有在不存在用户的对象选择的情况下要渲染的默认对象组)以及至少一个扬声器通道声床(bed)。扬声器通道声床可以是能够在不包括对象通道的常规广播节目中包括的一种类型的扬声器通道的常规混音(例如，5.1通道混音)。

上面引用的美国临时专利申请第61/807,922号和第61/832,397号描述了作为在回放侧提供混音交互性(例如，很大程度的混音交互性)的基于对象的音频节目的一部分被递送的对象相关元数据，包括通过允许终端用户选择节目的音频内容的混音用于渲染，而不是仅允许预混音的声场的回放。例如，用户可以从由该发明的节目的典型实施方式的元数据提供的渲染选项中进行选择，以选择用于渲染的可用对象通道子组以及可选地还有由要渲染的对象通道指示的至少一个音频对象(声源)的回放水平。每个选择的声源被渲染的空间位置可以由节目中包括的元数据来预先确定，但是在一些实施方式中，可以由用户来选择(例如，受制于预定规则或约束)。在一些实施方式中，节目中包括的元数据允许用户从渲染选项(例如，小量的渲染选项，例如，“主队人群噪声”对象、“主队人群噪声”和“主队评论”对象组、“客队人群噪声”对象、以及“客队人群噪声”和“客队评论”对象组)的菜单中进行选择。可以通过控制器的用户接口将菜单呈现给用户，并且控制器可以耦接至机顶装置(或其他装置)，该机顶装置(或其他装置)被配置成解码和渲染(至少部分地)基于对象的节目。至于应当渲染由对象通道指示的哪个(哪些)对象，以及至于应当如何配置要渲染的对象，节目中包括的元数据可以以其他方式允许用户从选项组中进行选择。

美国临时专利申请第61/807,922号和第61/832,397号描述了基于对象的音频节目，其是指示至少一些节目的音频内容(例如，扬声器通道声床和至少一些节目的对象通道)和对象相关元数据的编码音频比特流。至少一个另外的比特流或文件可以指示一些节目的音频内容(例如，至少一些对象通道)和/或对象相关元数据。在一些实施方式中，对象相关元数据提供具有默认渲染参数(例如，渲染对象的默认空间位置)的、对象内容和声床(扬声器通道)内容的默认混音。在一些实施方式中，对象相关元数据提供对象通道和扬声器通道内容的一组可选的“预设”混音，每个预设混音具有预定的渲染参数组(例如，渲染对象的空间位置)。在一些实施方式中，节目的对象相关元数据(或者回放或渲染系统的预配置，不由与节目一起递送的元数据指示)提供关于对象通道和扬声器通道内容的可选的混音的约束或条件。

美国临时专利申请第61/807,922号和第61/832,397号还描述了包括并行生成和传输的一组比特流(有时被称为“子流”)的基于对象的音频节目。多个解码器可以用于对它们进行解码(例如，如果节目包括多个E-AC-3子流，则回放系统可以利用多个E-AC-3解码器来对子流进行解码)。每个子流可以包括同步字(例如，时间码)以允许子流彼此同步或时间对准。

美国临时申请第61/807,922号和第61/832,397号还描述了一种基于对象的音频节目，其是或包括至少一个AC-3(或E-AC-3)比特流，并且包括被称为容器的一个或更多个数据结构。包括对象通道内容(和/或对象相关元数据)的每个容器被包括在比特流的帧的末端处的辅助数据字段(例如，图1或图4中示出的AUX分段)中，或者在比特流的“跳过字段”分段中。还描述了是或包括Dolby E比特流的基于对象的音频节目，在Dolby E比特流中，对象通道内容和对象相关元数据(例如，包括对象通道内容和/或对象相关元数据的节目的每个容器)被包括在通常不携带有用信息的Dolby E比特流的位定位中。

美国临时申请第61/832,397号还描述了基于对象的音频节目，其包括至少一个扬声器通道组、至少一个对象通道、以及指示扬声器通道和对象通道的可选的混音(例如，所有可选的混音)的分层图(分层“混音图”)的元数据。混音图可以指示可应用于扬声器和对象通道的子组的选择的每个规则，指示节点(每个节点可以指示可选的通道或通道组，或者可选的通道或通道组的分类)以及节点之间的连接(例如，对节点的控制接口和/或用于选择通道的规则)。混音图可以指示必要数据(“基本”层)和可选数据(至少一个“扩展”层)，并且在混音图可表示为树图的情况下，基本层可以是树图的一个分支(或者两个或更多个分支)，并且每个扩展层可以是树图的另外的分支(或分支组)。

美国临时申请第61/807,922号和第61/832,397号还教示了：基于对象的音频节目能够被解码，并且其扬声器通道内容可以通过遗留解码器和渲染系统(其未被配置成对节目的对象通道和对象相关元数据进行解析)而可渲染。同一节目可以由如下机顶装置(或其他解码和渲染系统)来渲染:其被配置成对节目的对象通道和对象相关元数据进行解析并且对由节目指示的扬声器通道和对象通道内容的混音进行渲染。然而，无论美国临时申请第61/807,922号还是美国临时申请第61/832,397号均未教示或暗示如何生成可个性化的基于对象的音频节目，该基于对象的音频节目可以由遗留的解码和渲染系统(其未被配置成对节目的对象通道和对象相关元数据进行解析)来渲染以提供全范围音频体验(例如，意在被感知为来自至少一个分立的音频对象的非环境声的音频，其与环境声混音)，但是使得被配置成对节目的对象通道和对象相关元数据进行解析的解码和渲染系统可以对节目的至少一个扬声器通道和至少一个对象通道的内容的所选的混音(还提供全范围音频体验)进行渲染，或者使得其会希望这样做。

发明内容

本发明的一类实施方式提供与遗留回放系统(其未被配置成对节目的对象通道和对象相关元数据进行解析)兼容的可个性化的基于对象的节目，在遗留系统可以对节目的默认的扬声器通道组进行渲染以提供全范围音频体验(其中，在该上下文中“全范围音频体验”表示声音混音，声音混音由仅默认的扬声器通道组的音频内容表示，意在被感知为与由默认的扬声器通道组表示的其他声音混音的来自至少一个分立的音频对象的非环境声音的充分或完全混音。其他声音可以是环境声音。)的意义上，其中，同一节目可以由非遗留回放系统(被配置成对节目的对象通道和元数据进行解析)来解码和渲染以对该节目的至少一个扬声器通道的内容和该节目的至少一个对象通道的非环境内容的至少一个所选的预设混音(其还可以提供全范围音频体验)进行渲染。在本文中，这样的默认的扬声器通道组(可由遗留系统渲染)有时被称为扬声器通道“声床”，虽然该术语不意在表示声床必须与另外的音频内容混音以提供全范围音频体验。实际上，在本发明的典型实施方式中，声床不必与另外的音频内容混音以提供全范围音频体验，并且声床可以由遗留系统解码和呈现以在不与另外的音频内容混音的情况下提供全范围音频体验。在其他实施方式中，本发明的基于对象的音频节目包括扬声器通道声床，扬声器通道声床表示仅非环境内容(例如，不同类型的非环境内容的混音)，并且能够由遗留系统渲染(例如，以提供全范围音频体验)，以及被配置成对节目的对象通道和元数据进行解析的回放系统可以对节目的至少一个扬声器通道和节目的至少一个对象通道的内容(例如，非环境和/或环境内容)的至少一个所选择的预设混音(其可以但不必须提供全范围音频体验)进行渲染。

这一类实施方式中的典型实施方式生成、递送和/或渲染包括基本层(例如，5.1通道声床)的基于对象的节目，基本层包括表示默认的音频节目(有时被称为“默认”混音)的所有内容的扬声器通道声床，其中，默认的音频节目包括当播放时提供全范围音频体验的一整组音频元素(例如，与非环境内容混音的环境内容)。遗留回放系统(不能对基于对象的音频进行解码或渲染)可以解码和呈现默认的混音。默认的音频节目的环境内容的示例是人群噪声(在体育赛事或其他观赏事件处被捕捉)，并且默认的音频节目的非环境内容的示例包括评论和/或公告馈送(与体育赛事或其他观赏事件有关)。节目还包括扩展层(其可以被遗留回放系统忽略)，扩展层能够由适当配置的(非遗留)回放系统利用来选择和渲染扩展层(或扩展层和基本层)的音频内容的多个预定的混音中的任意混音。扩展层通常包括允许个性化的表示备选内容(例如，仅主环境内容，而非由基本层提供的环境内容和非环境内容的混音)的可选的替换扬声器通道组以及可选的对象通道组(例如，表示主非环境内容和备选非环境内容的对象通道)。

在节目中提供基本层和至少一个扩展层使得节目生成设施(例如，广播前端)以及回放系统(其可以是或者包括机顶盒或“STB”)具有更多的灵活性。

在一些实施方式中，本发明是一种用于生成指示音频内容(例如，捕捉的音频内容)的基于对象的音频节目的方法，所述音频内容包括第一非环境内容、与所述第一非环境内容不同的第二非环境内容以及与所述第一非环境内容和所述第二非环境内容不同的第三内容(第三内容可以是环境内容，但是在一些情况下也可以是或包括非环境内容)，所述方法包括步骤：

确定包括N个对象通道的对象通道组，其中所述对象通道组的第一子组指示所述第一非环境内容，所述第一子组包括所述对象通道组中的M个对象通道，N和M中的每个是大于零的整数，并且M等于或小于N；

确定指示音频内容的默认混音(例如，环境内容和非环境内容的默认混音)的扬声器通道声床，其中包括所述声床中的M个扬声器通道的基于对象的扬声器通道子组指示所述第二非环境内容、或所述默认混音的至少一些音频内容与所述第二非环境内容的混音；

确定一组M个替换扬声器通道，其中，所述一组M个替换扬声器通道中的每个替换扬声器通道指示所述基于对象的扬声器通道子组中的相应扬声器通道的一些而非全部的内容；

生成元数据(有时本文中被称作对象相关元数据)，所述元数据指示所述对象通道中的至少之一的内容与所述声床的所述扬声器通道和/或所述替换扬声器通道中的预定扬声器通道的内容的至少一个可选的预定备选混音，其中所述元数据包括针对每个所述备选混音的渲染参数，并且至少一个所述备选混音是指示所述声床的至少一些内容和所述第一非环境内容而非所述第二非环境内容的替换混音；以及

生成包括所述扬声器通道声床、所述一组M个替换扬声器通道、所述对象通道组和所述元数据的所述基于对象的音频节目，使得在不使用所述元数据的情况下，所述扬声器通道声床是能够渲染的，以提供能被感知为所述默认混音的声音，以及所述替换混音是能够响应于至少一些所述元数据来渲染的，以提供能被感知为包括所述声床的所述至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的混音的声音。

通常，节目的元数据(对象相关元数据)包括(或包含)表示一组可选的体验清晰度的可选的内容元数据。每个体验清晰度是节目的音频内容的可选的预定(“预设”)混音(例如，至少一个对象通道和声床中的至少一个扬声器通道的内容的混音，或者至少一个对象通道和至少一个替换扬声器通道的内容的混音，或者至少一个对象通道和声床中的至少一个扬声器通道以及至少一个替换扬声器通道的内容的混音)。每个预设混音具有预定的渲染参数组(例如，渲染对象的空间位置)。回放系统的用户接口可以将预设混音呈现为可用混音的有限的菜单或选项板(palette)。

在其他实施方式中，本发明是一种对由基于对象的音频节目确定的音频内容进行渲染的方法，其中，所述节目指示扬声器通道声床、一组M个替换扬声器通道、对象通道组和元数据，其中，所述对象通道组包括N个对象通道，所述对象通道组的第一子组指示第一非环境内容，所述第一子组包括所述对象通道组中的M个对象通道，N和M中的每个是大于零的整数，并且M等于或小于N，

所述扬声器通道声床指示包括与所述第一非环境内容不同的第二非环境内容的音频内容的默认混音，其中包括所述声床中的M个扬声器通道的基于对象的扬声器通道子组指示所述第二非环境内容、或所述默认混音的至少一些音频内容与所述第二非环境内容的混音，

所述一组M个替换扬声器通道中的每个替换扬声器通道指示所述基于对象的扬声器通道子组的相应扬声器通道的一些而非全部的内容，以及

所述元数据指示所述对象通道中的至少之一的内容与所述声床的所述扬声器通道和/或所述替换扬声器通道中的预定扬声器通道的内容的至少一个可选的预定备选混音，其中所述元数据包括针对每个所述备选混音的渲染参数，并且至少一个所述备选混音是包括所述声床的至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的替换混音，所述方法包括步骤：

(a)将所述基于对象的音频节目提供至音频处理单元；以及

(b)在所述音频处理单元中，对所述扬声器通道声床进行解析，并且在不使用所述元数据的情况下，响应于所述扬声器通道声床，对所述默认混音进行渲染。

在一些情况下，音频处理单元是未被配置成对节目的对象通道或元数据进行解析的遗留回放系统(或其他音频数据处理系统)。在音频处理单元被配置成对节目的对象通道、替换通道和元数据(以及扬声器通道声床)进行解析的情况下，该方法可以包括以下步骤：

(c)在所述音频处理单元中，使用至少一些所述元数据对所述替换混音进行渲染，包括通过响应于至少一些所述元数据对所述对象通道组的所述第一子组和至少一个所述替换扬声器通道的内容进行选择和混音来进行所述渲染。

在一些实施方式中，步骤(c)包括以下步骤：驱动扬声器，以提供能被感知为包括所述声床的所述至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的混音的声音。

本发明的另一方面是被配置成执行本发明的方法的任意实施方式的音频处理单元(APU)。在另一类实施方式中，本发明是包括缓冲存储器(缓冲器)的APU，该缓冲存储器(例如，以非暂态方式)存储通过本发明的方法的任意实施方式生成的基于对象的音频节目的至少一个帧或其他分段(包括扬声器通道声床和对象通道的音频内容以及对象相关元数据)。APU的示例包括，但不限于编码器(例如，转码器)、解码器、编解码器、预处理系统(预处理器)、后处理系统(后处理器)、音频比特流处理系统以及这样元件的组合。

本发明的方面包括被配置成(例如，被编程成)执行本发明的方法的任意实施方式的系统或装置以及(例如，以非暂态方式)存储用于实现本发明的方法或其步骤的任意实施方式的代码的计算机可读介质(例如，磁盘)。例如，本发明的系统可以是或者包括以下可编程通用处理器、数字信号处理器或微处理，其被使用软件或固件编程成和/或被以其他方式配置成对数据执行各种操作中的任意操作，包括本发明的方法或其步骤的实施方式。这样的通用处理器可以是或者包括以下计算机系统，其包括输入装置，存储器以及被编程成(和/或以其他方式被配置成)响应于设定至此的数据来执行本发明的方法(或其步骤)的实施方式的处理电路。

附图说明

图1是包括其被划分成的分段的AC-3帧的图。

图2是包括其被划分成的分段的AC-3帧的同步信息(SI)分段的图。

图3是包括其被划分成的分段的AC-3帧的比特流信息(BSI)分段的图。

图4是包括其被划分成的分段的E-AC-3帧的图。

图5是系统的实施方式的框图，其中系统的一个或更多个元件可以根据本发明的实施方式来配置。

图6是可以被实现成执行本发明的方法的实施方式的回放系统的框图。

图7是可以被配置成执行本发明的方法的实施方式的回放系统的框图。

图8是根据本发明的实施方式的、被配置成生成基于对象的音频节目(和相应的视频节目)的广播系统的框图。

图9是本发明的节目的实施方式的对象通道之间的关系的图，指示对象通道的哪些子组是用户可选的。

图10是可以被实现成执行本发明的方法的实施方式的系统的框图。

图11是根据本发明的实施方式生成的基于对象的音频节目的内容的图。

图12是被配置成执行本发明的方法的实施方式的系统的实施方式的框图。

符号和术语

贯穿包括权利要求在内的本公开内容，表达“非环境声音”表示被感知或可感知为从位于相对于听者可很好定位的角位置(即，角位置对着(subtend)相对于听者不大于大约3立体弧度的立体角，其中以听者的位置为中心的整个范围对着相对于听者的4π立体弧度)处或内的分立的音频对象(或所有位于此处或之内的大量音频对象)发出的声音(例如，评论或其他独白，或对话)。在此，“环境声音”表示不是非环境声音的声音(例如，由人群的一员感知的人群噪声)。因此，环境声音在本文中表示被感知或可感知为从相对于听者的大(或以其他方式较差地定位的)角位置发出的声音。

类似地，“非环境音频内容”(或“非环境内容”)在本文中表示当被渲染为从位于相对于听者可很好定位的角位置(即，角位置对着相对于听者不大于大约3立体弧度的立体角)处或内的分立的音频对象(或所有位于此处或之内的大量音频对象)发出的声音时被感知的音频内容，并且“环境音频内容”(或“环境内容”)表示不是“非环境音频内容”(或“非环境内容”)并且当被渲染为环境声音时被感知的音频内容。

贯穿包括权利要求在内的本公开内容，“对”信号或数据执行操作(例如，对信号或数据进行滤波、缩放、变换或施加增益)的表达广义上用于表示对信号或数据、或对信号或数据的已处理版本(例如，对在对信号执行操作之前已经经历了初步滤波或预处理的信号的版本)直接执行操作。

贯穿包括权利要求在内的本公开内容，表达“系统”广义上用于表示装置、系统或子系统。例如，实现解码器的子系统可以称为解码器系统，并且包括这样的子系统的系统(例如，响应于多个输入生成X个输出信号的系统，其中子系统生成M个输入并且其他X－M个输入从外部源接收)也可以称为解码器系统。

贯穿包括权利要求在内的本公开内容，术语“处理器”广义上用于表示可编程成或以其他方式可配置成(例如，使用软件或固件)对数据(例如，音频、或视频或其他图像数据)执行操作的系统或装置。处理器的示例包括现场可编程门阵列(或其他可配置的集成电路或芯片组)、被编程和/或以其他方式配置成对音频或其他声音数据执行管线式处理的数字信号处理器、可编程的通用处理器或计算机、以及可编程微处理器芯片或芯片组。

贯穿包括权利要求在内的本公开内容，表达“音频视频接收器”(或“AVR”)表示用于在例如家庭影院中控制音频和视频内容的回放的一类消费电子装备中的接收器。

贯穿包括权利要求在内的本公开内容，表达“条形音箱(soundbar)”表示以下装置，其是一种消费电子装备(通常被安装在家庭影院系统中)，并且其包括至少一个扬声器(通常，至少两个扬声器)和用于渲染以用于每个所包括的扬声器回放(或用于每个所包括的扬声器以及条形音箱外部的至少一个另外的扬声器回放)的音频的子系统。

贯穿包括权利要求在内的本公开内容，表达“音频处理器”和“音频处理单元”可交换地使用，并且广义上表示被配置成对音频数据进行处理的系统。音频处理单元的示例包括但不限于编码器(例如，转码器)、解码器、编解码器、预处理系统、后处理系统以及比特流处理系统(有时被称为比特流处理工具)。

贯穿包括权利要求在内的本公开内容，表达“元数据”(例如，如在表达“处理状态元数据”中)指代与相应的音频数据(还包括元数据的比特流的音频内容)分开且不同的数据。元数据与音频数据相关联，并且指示音频数据的至少一个特征或特性(例如，对音频数据或由音频数据指示的对象的轨迹已经执行了或应当执行哪种(哪些)类型的处理)。元数据与音频数据的关联是时间同步的。从而，当前(最新接收的或更新的)元数据可以指示相应的音频数据同时具有所指示的特征和/或包括所指示的类型的音频数据处理的结果。

贯穿包括权利要求在内的本公开内容，术语“耦接”或“被耦接”用于表示直接或间接连接。因此，如果第一装置耦接至第二装置，则该连接可以通过直接连接或者通过经由其他装置和连接的间接连接。

贯穿包括权利要求在内的本公开内容，下面的表达具有下面的定义：

扬声器(speaker)和扩音器(loudspeaker)同义地使用以表示任何发声变换器。该定义包括被实现为多个变换器(例如，低频扬声器和高频扬声器)的扩音器；

扬声器馈送：直接应用于扩音器的音频信号，或者应用于串联的放大器和扩音器的音频信号；

通道(或“音频通道”)：单声道音频信号。这样的信号通常可以以如下方式被渲染，该方式使得等同于将信号直接应用于在期望或标称位置处的扩音器。期望的位置可以是静态的，如物理扩音器的通常情况，或者可以是动态的；

音频节目：一组一个或更多个音频通道(至少一个扬声器通道和/或至少一个对象通道)以及可选地还有相关联的元数据(例如，描述期望的空间音频表示的元数据)；

扬声器通道(或“扬声器馈送通道”)：与命名的扩音器(在期望或标称的位置处)相关联的，或者与限定的扬声器配置内的命名的扬声器区相关联的音频通道。扬声器通道可以以如下方式被渲染，该方式使得等同于将音频信号直接应用于命名的扩音器(在期望或标称的位置)或命名的扬声器区内的扬声器；

对象通道：指示由音频源(有时被称为音频“对象”)发出的声音的音频通道。通常，对象通道确定参数化的音频源描述(例如，指示参数化的音频源描述的元数据被包括在对象通道中或使用对象通道来提供)。源描述可以确定由源发出的声音(作为时间的函数)、作为时间的函数的源的视在位置(例如，3D空间坐标)、以及可选地表征源的至少一个附加参数(例如，视在源尺寸或宽度)；

基于对象的音频节目：包括一组一个或更多个对象通道(并且可选地还包括至少一个扬声器通道)的音频节目以及可选地还有相关联的元数据(例如，指示发出由对象通道指示的声音的音频对象的轨迹的元数据，或者以其他方式指示由对象通道指示的声音的期望空间音频表示的元数据，或指示为由对象通道指示的声音的源的至少一个音频对象的标识的元数据)；以及

渲染：将音频节目转换成一个或更多个扬声器馈送的处理，或者将音频节目转换成一个或更多个扬声器馈送并且使用一个或更多个扩音器将扬声器馈送转换成声音的处理(在后一种情况下，在本文中渲染有时被称为“通过”扩音器的渲染)。可以通过将信号直接应用于期望位置处的物理扩音器来(“在”期望的位置处)很一般地渲染音频通道，或者可以使用多种虚拟化技术中的一种技术来渲染一个或更多个音频通道，多种虚拟化技术被设计成基本上等同于(对于收听者而言)这样的很一般的渲染。在该后者情况下，可以将每个音频通道转换成要应用于通常与期望位置不同的已知位置处的扩音器的一个或更多个扬声器馈送，使得由扩音器响应于馈送而发出的声音将被感知为从期望位置发出。这样的虚拟化技术的示例包括通过头戴式耳机的双耳渲染(例如，使用Dolby头戴式耳机处理，其为耳机佩戴者仿真了高达7.1通道的环绕音)以及波场合成。

具体实施方式

图5是音频处理链(音频数据处理系统)的示例的框图，其中该系统的一个或更多个元件可以根据本发明的实施方式来配置。该系统包括如所示耦接在一起的以下元件：捕捉单元1、产生单元3(其包括编码子系统)、递送子系统5、解码器7、对象处理子系统9、控制器10和渲染子系统11。在对所示的系统的变型中，省略一个或更多个元件，或者包括另外的音频数据处理单元。通常，元件7、9、10和11是回放系统(例如，终端用户的家庭影院系统)或者被包括在该回放系统中。

捕捉单元1通常被配置成生成包括音频内容的PCM(时域)样本并且输出PCM样本。样本可以指示由麦克风(例如，在体育事件或其他观赏事件时)捕捉的多个音频流。通常由广播公司操作的产生单元3被配置成接受PCM样本作为输入并且输出指示音频内容的基于对象的音频节目。节目通常是或者包括指示至少一些音频内容的编码(例如，压缩)音频比特流(在本文中有时被称为“主混音”)以及还可选地是或者包括指示一些音频内容的至少一个另外的比特流或文件(在本文中有时被称作“次混音”)。指示音频内容的编码比特流(以及每个生成的次混音，如果生成任何次混音的话)的数据在本文中有时被称为“音频数据”。如果产生单元3的编码子系统根据本发明的典型实施方式来配置，则从单元3输出的基于对象的音频节目指示(即，包括)音频数据的多个扬声器通道(扬声器通道“声床”和替换扬声器通道)、音频数据的多个对象通道以及对象相关元数据。节目可以包括主混音，这进而包括指示扬声器通道声床、替换扬声器通道的音频内容、指示至少一个用户可选的对象通道(以及可选地至少一个其他对象通道)的音频内容、以及元数据(包括与每个对象通道相关联的对象相关元数据)。节目还可以包括至少一个次混音，其包括指示至少一个其他对象通道(例如，至少一个用户可选的对象通道)的音频内容和/或对象相关元数据。节目的对象相关元数据可以包括(下面要描述的)持久(durable)元数据。节目(例如，其主混音)可以指示一组或更多组扬声器通道。例如，主混音可以指示两组或更多组扬声器通道(例如，5.1通道中性人群噪声声床、指示主队人群噪声的替换扬声器通道的2.0通道组，以及指示客队人群噪声的替换扬声器通道的2.0通道组)，包括至少一个用户可选的替换扬声器通道组(其可以使用用于对象通道内容或配置的用户选择的同一用户接口来选择)以及扬声器通道声床(其可以在不存在节目的其他内容的用户选择的情况下被渲染)。声床(其可以被称为默认声床)可以由指示回放系统的扬声器组的配置(例如，初始配置)的数据来确定，并且可选地，用户可以选择代替(in place of)默认声床要被渲染的节目的其他音频内容。

节目的元数据可以指示至少一个对象通道的内容与节目的声床的扬声器通道中的预定的扬声器通道和/或替换扬声器通道的内容的至少一个(并且通常多于一个)可选的预定混音，并且可以包括用于每个所述混音的渲染参数。至少一个这样的混音可以是指示声床的至少一些音频内容与第一非环境内容(由该混音中包括的至少一个对象通道指示)而非第二非环境内容(由声床中的至少一个扬声器通道指示)的替换混音。

图5的递送子系统5被配置成存储和/或传输(例如，广播)由单元3生成的节目(例如，其主混音和每个次混音，如果生成任意次混音的话)。

在一些实施方式中，子系统5实现基于对象的音频节目的递送，其中，节目的音频对象(以及至少一些相应的对象相关元数据)和扬声器通道通过广播系统来(以用被广播的音频比特流指示的节目的主混音的形式)发送，并且节目的至少一些元数据(例如，指示对节目的对象通道的渲染或混音的约束的对象相关元数据)和/或节目的至少一个对象通道以另一方式被递送(作为主混音的“次混音”)(例如，次混音通过因特网协议或“IP”网络被发送至特定终端用户)。可替代地，终端用户的解码和/或渲染系统被预配置有至少一些对象相关元数据(例如，指示对本发明的基于对象的音频节目的实施方式的音频对象的渲染或混音的约束的元数据)，并且这样的对象相关元数据不用相应的对象通道(以基于对象的音频节目的主混音或次混音)被广播或以其他方式(由子系统5)递送。

在一些实施方式中，通过分立的路径被递送(例如，通过广播系统广播的主混音，以及通过IP网络作为次混音被发送的相关元数据)的基于对象的音频节目的部分或元素的定时和同步通过同步字(例如，时间码)来提供，时间码通过所有递送路径(例如，以主混音和每个相应的次混音)被发送。

再次参照图5，解码器7接受(接收或读取)由递送子系统5递送的节目(或节目的至少一个比特流或其他元素)，并且对该节目(或其每个接受的元素)进行解码。在本发明的一些实施方式中，节目包括主混音(编码比特流，例如，AC-3或E-AC-3编码比特流)以及该主混音的至少一个次混音，并且解码器7接收和解码该主混音(以及还可选地至少一个次混音)。可选地，不需要被解码的节目的至少一个次混音(例如，对象通道)被子系统5直接递送至对象处理子系统9。如果解码器7根据本发明的典型实施方式来配置，则在典型操作中解码器7的输出包括以下：

指示节目的扬声器通道声床(以及通常还指示节目的替换扬声器通道)的音频样本流；以及

指示节目的对象通道(例如，用户可选的音频对象通道)的音频样本流以及相应的对象相关元数据的流。

对象处理子系统9被耦接以(从解码器7)接收所递送的节目的被解码的扬声器通道、对象通道和对象相关元数据，并且可选地还接收节目的至少一个次混音(指示至少一个其他对象通道)。例如，子系统9可以(从解码器7)接收节目的扬声器通道和节目的至少一个对象通道的音频样本以及节目的对象相关元数据，并且还可以(从递送子系统5)接收节目的至少一个其他对象通道的音频样本(其还未经历在解码器7中的解码)。

子系统9被耦接并被配置成将由节目指示的全组对象通道中的所选择的子组以及相应的对象相关元数据输出至渲染子系统11。子系统9通常还被配置成将来自解码器7的解码的扬声器通道不变地通过(至子系统11)，并且可以被配置成对声称至此的至少一些对象通道(和/或元数据)进行处理以生成其所声称的对象通道和元数据至子系统11。

由子系统9执行的对象通道选择通常通过用户选择(如从控制器10被设定至子系统9的控制数据指示)和/或子系统9被编程或以其他方式被配置成实现的规则(例如，指示条件和/或约束)来确定。这样的规则可以由节目的对象相关元数据和/或由被设定至子系统9(例如，从控制器10或另外的外部源)的其他数据(例如，指示回放系统的扬声器阵列的性能和组织的数据)和/或通过对子系统9进行预配置(例如，编程)来确定。在一些实施方式中，控制器10(经由由控制器10实现的用户接口)给用户提供(例如，在触摸屏上显示)扬声器通道内容(即，声床扬声器通道和/或替换扬声器通道的内容)和对象通道内容(对象)的可选的“预设”混音的菜单或选项板。可选的预设混音可以通过节目的对象相关元数据以及通常还通过由子系统9实现的规则(例如，子系统9已经被预配置成实现的规则)来确定。用户通过向控制器10输入命令(例如，通过启动控制器10的触摸屏)从可选的混音中进行选择，并且作为响应，控制器10将相应的控制数据设定至子系统9以使根据本发明进行相应内容的渲染。

图5的渲染子系统11被配置成对由子系统9的输出确定的音频内容进行渲染，以供回放系统的扬声器(未示出)回放。子系统11被配置成使用从子系统9输出的、与每个选择的对象相关联的渲染参数(例如，空间位置和等级的用户选择的值和/或默认值)，将通过由对象处理子系统9选择的对象通道确定的音频对象(例如，默认对象和/或已经被选作使用控制器10进行用户交互的结果的用户选择的对象)映射至可用扬声器通道。至少一些渲染参数还由从子系统9输出的对象相关元数据来确定。渲染系统11还接收由子系统9通过的扬声器通道。通常，子系统11是智能混音器，并且被配置成确定可用扬声器的扬声器馈送，包括通过将一个或更多个选择的(例如，默认选择的)对象映射至大量单个的扬声器通道中的每个，以及将对象与由节目的每个相应的扬声器通道(例如，节目的扬声器通道声床中的每个扬声器通道)指示的扬声器通道内容混音。

图12是被配置成执行本发明的方法的实施方式的另一系统的实施方式的框图。图12的捕捉单元1、产生单元3和递送子系统5与图5的系统的相同编号的元件相同。(图12的)单元1和单元3能够操作以根据本发明的至少一个实施方式生成基于对象的音频节目，并且(图12的)子系统5被配置成将这样的节目递送至图12的回放系统111。

与图5的回放系统(包括解码器7、对象处理子系统9、控制器10和渲染子系统11)不同，回放系统111未被配置成对节目的对象通道或对象相关元数据进行解析。回放子系统111的解码器107被配置成对由子系统5递送的节目的扬声器通道声床进行解析，并且子系统111的渲染子系统109被耦接和被配置成(在不使用节目的对象相关元数据的情况下)响应于声床而对(由扬声器通道声床指示的)默认混音进行渲染。解码器107可以包括缓冲器7A，该缓冲器7A(例如，以非暂态方式)存储从子系统5递送至解码器107的基于对象的音频节目的至少一个帧或其他分段(包括扬声器通道声床、替换扬声器通道和对象通道的音频内容以及对象相关元数据)。

相比之下，图5的回放系统(包括解码器7、对象处理子系统9、控制器10和渲染子系统11)的典型实现被配置成对被递送至此的基于对象的节目的对象通道、对象相关元数据和替换扬声器通道(以及指示默认混音的扬声器通道声床)进行解析。在一些这样的实现中，图5的回放系统被配置成响应于至少一些对象相关元数据而对(通过节目的至少一个对象通道和至少一个替换扬声器通道、以及通常还有至少一个扬声器通道声床确定的)替换混音进行渲染，包括通过使用至少一些对象相关元数据来选择替换混音。在一些这样的实现中，图5的回放系统能够在其响应于节目的对象通道和扬声器通道内容以及元数据对这样的替换混音进行渲染的模式下操作，并且还能够在解码器7对节目的扬声器通道声床进行解析的第二模式(其可以由节目中的元数据来触发)下操作，扬声器通道声床被设定至渲染子系统11，并且渲染子系统11(在不使用节目的对象相关元数据的情况下)响应于该声床来操作以对(由该声床指示的)默认混音进行渲染。

在一类实施方式中，本发明是一种用于生成指示音频内容(例如，捕捉的音频内容)的基于对象的音频节目的方法，该音频内容包括第一非环境内容、与第一非环境内容不同的第二非环境内容、以及与第一非环境内容和第二非环境内容不同的第三内容，所述方法包括步骤：

确定包括N个对象通道的对象通道组，其中对象通道组的第一子组指示第一非环境内容，第一子组包括对象通道组中的M个对象通道，N和M中的每个是大于零的整数，并且M等于或小于N；

确定指示音频内容的默认混音的扬声器通道声床，其中包括声床中的M个扬声器通道的基于对象的扬声器通道子组指示第二非环境内容、或默认混音的至少一些音频内容与第二非环境内容的混音；

确定一组M个替换扬声器通道，其中，所述一组M个替换扬声器通道中的每个替换扬声器通道指示基于对象的扬声器通道子组中的相应扬声器通道的一些内容而非全部内容；

生成元数据，该元数据指示对象通道中的至少之一的内容与声床的扬声器通道中的预定的扬声器通道和/或替换扬声器通道的内容的至少一个可选的预定的备选混音，其中元数据包括针对每个所述备选混音的渲染参数，并且至少一个所述备选混音是指示声床的至少一些音频内容和第一非环境内容而非第二非环境内容的替换混音；以及

生成包括扬声器通道声床、一组M个替换扬声器通道、对象通道组和元数据的基于对象的音频节目，使得：

扬声器通道声床在不使用元数据的情况下(例如，通过图12的系统的回放系统111，或者通过以解码器7对节目的扬声器通道声床进行解析的模式操作的图5的回放系统，扬声器通道声床被设定至渲染子系统11，并且在使用节目的对象相关元数据的情况下，渲染子系统111响应于该声床操作以对由该声床指示的默认混音进行渲染)可渲染，以提供可感知为默认混音的声音，以及

替换混音响应于至少一些元数据(例如，通过图5的包括解码器7、对象处理子系统9、控制器10和渲染子系统11的回放系统，使用被递送至解码器7的节目的对象相关元数据)可渲染，以提供可被感知为包括该声床的所述至少一些音频内容与第一非环境内容而非第二非环境内容的混音的声音。

在一些这样的实施方式中，生成基于对象的音频节目，使得替换混音响应于至少一些元数据可渲染(例如，通过图5的回放系统)，以提供可感知为包括第一非环境内容而非第二非环境内容的混音的声音，使得第一非环境内容可感知为从其尺寸和位置由与对象通道组的第一子组相对应的元数据的子组确定的源发出。

替换混音可以指示声床的扬声器通道和替换扬声器通道中的至少之一以及对象通道组的第一子组而非该声床的基于对象的扬声器通道子组的内容。这通过渲染与替换声床的基于对象的扬声器通道子组的非环境内容(或环境内容和非环境内容的混音)的、对象通道组的第一子组的非环境内容(和替换扬声器通道的内容，其通常是环境内容或环境内容和非环境内容的混音)的替换混音来完成。

在一些实施方式中，节目的元数据包含(或包括)指示一组可选的体验清晰度的可选内容元数据。每个体验清晰度是节目的音频内容的可选的预定的(“预设”)混音(例如，至少一个对象通道和声床中的至少一个扬声器通道的内容的混音，或者至少一个对象通道和至少一个替换扬声器通道的内容的混音，或者至少一个对象通道和声床中的至少一个扬声器通道以及至少一个替换扬声器通道的内容的混音)。每个预设混音具有预定的渲染参数组(例如，渲染对象的空间位置)，其通常也由元数据指示。预设混音可以由回放系统的用户接口(例如，由图5的控制器10或图6的控制器23实现的用户接口)呈现为可用混音的有限的菜单或选项板。

在一些实施方式中，节目的元数据包括指示基本层的默认混音元数据，以使得通过被配置成识别和使用默认混音元数据的回放系统(例如，图5的回放系统的实现)能够选择默认混音(而不是另外的预设混音)并且渲染基本层。预期未被配置成识别或使用默认混音元数据的遗留回放系统(例如，图12的回放系统111)还可以在不使用任何默认混音元数据的情况下对基本层(以及从而默认混音)进行渲染。

根据本发明的典型实施方式生成的基于对象的音频节目(例如，指示这样的节目的编码比特流)是可个性化的基于对象的音频节目(例如，指示这样的节目的编码比特流)。根据典型的实施方式，音频对象和其他音频内容被编码以允许可选的全范围音频体验(其中，在该上下文中，“全范围音频体验”表示意在被感知为与来自至少一个分立的音频对象的非环境声音(例如，评论或对话)混音的环境声音的音频。为了允许个性化(即，选择音频内容的期望的混音)，扬声器通道声床(例如，指示与非环境对象通道内容混音的环境内容的声床)和至少一个替换扬声器通道以及至少一个对象通道(通常，多个对象通道)被编码为编码比特流内的不同的元素。

在一些实施方式中，可个性化的基于对象的音频节目包括(并且允许选择其中的任一个)对象通道内容和/或扬声器通道内容的至少两个可选的“预设”混音以及由所包括的扬声器通道声床确定的环境内容和非环境内容的默认混音。每个可选的混音包括不同的音频内容，并且从而当被渲染和再现时给听者提供不同的体验。例如，在节目指示在足球赛处捕捉的音频的情况下，一个预设混音可以指示主队人群的气氛/效果混音，并且另一预设混音可以指示客队人群的气氛/效果混音。通常，默认混音和多个备选的预设混音被编码成单个比特流。还可选地，除了确定默认混音的扬声器通道声床以外，指示可选的音频内容(例如，子混音)的另外的扬声器通道(例如，左右(立体)扬声器通道对)被包括在比特流中，使得另外的扬声器通道中的扬声器通道可以被选择并且在回放系统(例如，机顶盒，在本文中有时其被称为“STB”)中与节目的其他内容(例如，扬声器通道内容)混音。

在其他实施方式中，本发明是对由基于对象的音频节目确定的音频内容进行渲染的方法，其中，节目指示扬声器通道声床，一组M个替换扬声器通道、对象通道组以及元数据，其中，该对象通道组包括N个对象通道，对象通道组中的第一子组指示第一非环境内容，第一子组包括对象通道组中的M个对象通道，N和M中的每个是大于零的整数，并且M等于或小于N，

扬声器通道声床指示包括与第一非环境内容不同的第二非环境内容的音频内容的默认混音，其中，包括声床中的M个扬声器通道的基于对象的扬声器通道子组指示第二非环境内容、或者默认混音的至少一些音频内容与第二非环境内容的混音，

该组M个替换扬声器通道中的每个替换扬声器通道指示基于对象的扬声器通道子组中的相应的扬声器通道的一些内容而非全部内容，以及

元数据指示至少一个对象通道的内容与声床的扬声器通道中的预定的扬声器通道和/或替换扬声器通道的内容的至少一个可选的预定备选混音，其中，元数据包括用于每个所述备选混音的渲染参数，并且至少一个所述备选混音是包括声床的至少一些音频内容与第一非环境内容而非第二非环境内容的替换混音，所述方法包括步骤：

(a)将基于对象的音频节目提供至音频处理单元(例如，以解码器7对节目的扬声器通道声床进行解析的模式操作的图12的回放系统111或者图5的回放系统，扬声器通道声床被设定至渲染子系统11，并且渲染子系统11在不使用节目的对象相关元数据的情况下响应于该声床而对由该声床指示的默认混音进行渲染)；以及

(b)在音频处理单元中，对扬声器通道声床进行解析，并且在不使用元数据的情况下，响应于扬声器通道声床来对默认混音进行渲染。

在一些情况下，音频处理单元是未被配置成对节目的对象通道或元数据进行解析的遗留回放系统(或其他音频数据处理系统)。当音频处理单元被配置成对节目的对象通道、替换通道和元数据进行解析(例如，图5的包括解码器7、对象处理子系统9、控制器10和渲染子系统11的回放系统的实现便是如此，该渲染子系统11被配置成使用被递送至解码器7的节目的对象相关元数据来对节目的对象通道、声床扬声器通道内容和替换扬声器通道内容的所选的混音进行渲染)时，该方法可以包括步骤：

(c)在音频处理单元中，使用至少一些元数据对替换混音进行渲染，包括通过响应于至少一些元数据对对象通道组的第一子组和至少一个所述替换扬声器通道的内容进行选择和混音进行渲染(例如，该步骤可以由图6的系统的子系统22和子系统24或由图5的回放系统来执行)。

在一些实施方式中，步骤(c)包括以下步骤：驱动扬声器来提供可感知为包括声床的所述至少一些音频内容与第一非环境内容而非第二非环境内容的混音的声音。

在一些实施方式中，步骤(c)包括以下步骤：

(d)响应于所述至少一些元数据，选择对象通道组的第一子组，选择扬声器通道声床中的、除了基于对象的扬声器通道子组中的扬声器通道之外的至少一个扬声器通道，并且选择所述至少一个所述替换扬声器通道；以及

(e)将对象通道组的第一子组和在步骤(d)中选择的每个扬声器通道的内容混音，从而确定替换混音。

步骤(d)可以由例如图6的系统的子系统22或图5的回放系统的子系统9来执行。步骤(e)可以由例如图6的系统的子系统24或图5的回放系统的子系统11来执行。

在一些实施方式中，本发明的方法生成(或递送或渲染)为包括指示以下几个层的数据的比特流的可个性化的基于对象的音频节目：

包括指示默认的音频节目的所有内容的扬声器通道声床(例如，环境内容和非环境内容的默认混音)的基本层(例如，5.1通道声床)；

指示要被渲染的可选的音频内容的至少一个对象通道(每个对象通道均是扩展层的元素)；

至少一个替换扬声器通道(每个替换扬声器通道均是扩展层的元素)，其能够(通过适当配置的回放系统，例如，图5或图6的回放系统的实施方式)选择来替换基本层的一个或多个相应通道，从而确定包括基本层的未被替换的每个原始的(非替换的)通道和每个所选的替换扬声器通道的经修改的基本层。经修改的基本层可以被渲染或者可以与至少一个所述对象通道的内容混音并且然后被渲染。例如，当替换扬声器通道包括仅指示气氛的中央通道(以替换指示与环境内容混音的非环境内容(例如，评论或对话)的基本层的中央通道)时，包括这样的替换扬声器通道的经修改的基本层可以与节目的至少一个对象通道的非环境内容混音；

还可选地，指示至少一个音频内容混音的至少一个备选扬声器通道组(每个备选扬声器通道均是扩展层的元素)(例如，每个备选扬声器通道组可以指示不同的多通道气氛/效果混音)，其中，每个所述备选扬声器通道组能够(通过适当配置的回放系统)被选择以替换基本层的一个或多个相应的通道；以及

指示至少一个可选的体验清晰度(通常，多于一个可选的体验清晰度)的元数据。每个体验清晰度是节目的音频内容的可选的预定的(“预设”)混音(例如，至少一个对象的内容与扬声器通道内容的混音)，每个预设混音具有预定的渲染参数组(例如，渲染对象的空间位置)。

在一些实施方式中，元数据包括指示基本层的默认的节目元数据(例如，以使得能够选择默认的音频节目并且渲染基本层)。通常，元数据不包括这样的默认的节目元数据，但是包括指示至少一个对象通道的内容与声床的扬声器通道中的预定的扬声器通道和/或替换扬声器通道的内容的至少一个可选的预定的备选混音的元数据(备选混音元数据)，其中，备选混音元数据包括针对每个所述备选混音的渲染参数。

通常，元数据指示节目的扬声器通道和对象通道的可选的预设混音(例如，所有可选的预设混音)。可选地，元数据是或者包括指示分层混音图的元数据，该分层混音图指示节目的扬声器通道和对象通道的可选的混音(例如，所有可选的混音)。

在一类实施方式中，指示本发明的节目的编码比特流包括：包括指示默认混音(例如，混音有环境内容和非环境内容的默认的5.1扬声器通道混音)的扬声器通道声床的基本层、元数据和可选的扩展通道(至少一个对象通道和至少一个替换扬声器通道)。通常，基本层包括表指示混音至环境声音(例如，人群噪声)的非环境内容(例如，由也包括在节目中的对象通道指示的评论或对话)的中央通道。解码器(或回放系统的其他元件)可以使用与比特流一起发送的元数据来选择备选“预设”混音(例如，通过丢弃(忽略)默认混音的中央通道并且用替换扬声器通道替代丢弃的中央通道从而确定修改的扬声器通道组(以及还可选地，将至少一个对象通道的内容与修改的扬声器通道组混音，例如，通过将指示备选评论的对象通道内容与修改的扬声器通道组的替换中央通道混音)实现的混音)。

在下面的表格中指出本发明的(被编码为E-AC-3比特流的)个性化比特流的示例性实施方式的音频内容和相关元数据的估计比特率：

在表格中阐述的示例中，5.1通道基本层可以指示环境内容和非环境内容，其中非环境内容(例如，对体育赛事的评论)被混音至三个前通道(“分离的(diverged)”非环境音频)或被混音至仅中央通道(“非分离的”非环境音频)。替换通道层可以包括单个替换中央通道(例如，在基本层的非环境内容仅被包括在基本层的中央通道的情况下，指示基本层的中央通道的仅环境内容)，或者三个替换前通道(例如，在基本层的非环境内容散布在基本层的前通道之间的情况下，指示基本层的前通道的仅环境内容)。以所指出的估计的另外的比特率要求为代价，可以可选地包括另外的声床和/或对象通道。

如表格中所指出的，比特率12kbps对于指示每个“体验清晰度”的元数据而言是典型的，其中，体验清晰度是音频内容的可选的“预设”混音(例如，至少一个对象通道和扬声器通道声床的内容的混音，其给出特定的“体验”)的规范，包括针对该混音的混音/渲染参数组(例如，渲染对象的空间位置)。

如表格中所指出的，下面的比特率“每对象或声床”2kbps至5kbps对于指示体验映射的元数据而言是典型的。体验映射是指示递送的节目的音频内容的可选的预设混音的分层混音图，并且每个预设混音包括某个数量(例如，0个、1个或2个)的对象以及通常至少一个扬声器通道(例如，声床中的一些或全部扬声器通道，和/或至少一个替换扬声器通道)。除了可以被包括在每个混音中的扬声器通道和对象通道(对象)以外，该图通常指示规则(例如，分组和条件规则)。体验映射的规则(例如，分组和条件规则)的比特率要求被包括在每个对象或声床的给定的估计中。

在表格中记录的替换左、中央和右(L/C/R)扬声器通道能够被选择来替换基本层的左、中央和右通道，并且当替换通道被渲染时，在替换扬声器通道的新内容(即，其替换基本层的相应的通道的内容的内容)空间上被分离在由(回放系统的)左、中央和右扬声器跨越的区域上的意义上，指示“分离的音频”。

在本发明的实施方式的示例中，基于对象的节目指示与足球赛有关的可个性化的音频(即，伴随显示比赛的视频的可个性化的声迹)。节目的默认混音包括与默认评论(还被提供为节目的可选对象通道)混音的环境内容(在比赛处捕捉的人群噪声)，指示备选的偏向团队的评论的两个对象通道、以及指示不具有默认评论的环境内容的替换扬声器通道。默认评论是非偏向的(即，不偏向支持任一团队)。节目提供四种体验清晰度：包括非偏向的评论的默认混音、包括环境内容和第一团队(例如，主队)评论的第一备选混音、包括环境内容和第二团队(例如，客队)评论的第二备选混音、以及仅包括环境内容(没有评论)的第三备选混音。包括指示节目的数据的比特流的典型实现的递送将具有大约452kbps的比特率要求(假定基本层是5.1扬声器通道声床，并且默认评论是非分离的并且位于该声床的仅中央通道中)，被分配如下：192kbps用于5.1基本层(指示中央通道中的默认评论)，48kbps(用于指示仅非环境内容的替换中央通道，其可以被选择以替换基本层的中央通道并且可选地可以与由对象通道之一指示的备选评论混音)，144kbps用于包括三个对象通道(一个通道用于“主”或非偏向的评论；一个通道用于偏向第一团队(例如，主队)的评论；以及一个通道用于偏向第二团队(例如，客队)的评论)的对象层，4.5kbps用于对象相关元数据(用于渲染对象通道)，48kbps(用于指示四个可选的体验的)元数据，以及1.5kbps用于指示体验映射(分层混音图)的元数据。

在回放系统(被配置成解码和渲染节目)的典型实施方式中，节目中包括的元数据允许用户从渲染选项的菜单中选择：包括非偏向的评论的默认混音(其可以通过渲染未修改的声床或者通过用替换中央通道替换声床的中央通道以及将所得到的修改的声床与相关对象通道的非偏向的评论内容混音进行渲染)；第一备选混音(其可以通过用替换中央通道来替换声床的中央通道以及将所得到的修改的声床与偏向第一团队的评论混音来渲染)；第二备选混音(其可以通过用替换中央通道来替换声床的中央通道以及将所得到的修改的声床与偏向第二团队的评论混音来渲染)；以及第三备选混音(其可以通过用替换中央通道来替换该声床的中央通道来渲染)。通常通过(例如，经由无线链路)耦接至被配置成(至少部分地)解码和渲染基于对象的节目的机顶装置(或其他装置，例如，TV、AVR、平板或电话)的控制器的用户接口将菜单呈现给用户。在一些其他实施方式中，节目中包括的元数据以其他方式允许用户从可用渲染选项中进行选择。

在本发明的实施方式的第二示例中，基于对象的节目指示与足球赛有关的可个性化的音频(即，伴随显示比赛的视频的可个性化的声迹)。节目的默认混音包括与第一默认的非偏向的评论(第一非偏向的评论还被提供为节目的可选对象通道)混音的环境内容(在比赛处捕捉的人群噪声)、指示备选的非环境内容的5个对象通道(第二非偏向的评论、偏向两个团队的评论、公告馈送和进球速报馈送)、两个备选的扬声器通道组(其中每个是指示环境内容和非环境内容的不同的混音的5.1扬声器通道组，每个混音与默认混音不同)以及指示不具有默认评论的环境内容的替换扬声器通道。节目提供至少9种体验清晰度：包括第一非偏向的评论的默认混音；包括环境内容和第一团队评论的第二备选混音；包括环境内容和第二团队评论的第二备选混音；包括环境内容和第二非偏向的评论的第三备选混音；包括环境内容、第一非偏向的评论和公告馈送的第四备选混音；包括环境内容、第一非偏向的评论和进球速报馈送的第五备选混音；第六备选混音(由5.1扬声器通道的第一备选组确定)；第七备选混音(由5.1扬声器通道的第二备选组确定)；以及包括仅环境内容(没有评论，没有公告馈送并且没有进球速报馈送)的第八备选混音。包括指示节目的数据的比特流的典型实现的递送将具有大约987kbps的比特率要求(假定基本层是5.1扬声器通道声床，并且默认评论是非分离的并且仅在声床的中央通道中被呈现)，被分配如下：192kbps用于5.1基本层(指示中央通道中的默认评论)，48kbps(用于指示仅环境内容的替换中央通道，其可以被选择以替换基本层的中央通道并且可选地可以与由一个或更多个对象通道指示的备选内容混音)，384kbps用于包括6个对象通道(一个通道用于第一非偏向的评论；一个通道用于第二非偏向的评论；一个通道用于偏向第一团队的评论；一个通道用于偏向第二团队的评论；一个通道用于公告馈送；以及一个通道用于进球速报馈送)的对象层；9kbps用于对象相关元数据(用于渲染对象通道)，36kbps(用于指示9种可选的体验的元数据)，以及30kbps用于指示体验映射(分层混音图)的元数据。

在回放系统(被配置成解码和渲染第二示例的节目)的典型实施方式中，节目中包括的元数据允许用户从渲染选项的菜单中进行选择：包括非偏向的评论的默认混音(其可以通过渲染未修改的声床，或者通过用替换中央通道来替换该声床的中央通道以及将所得到的修改的声床与相关对象通道的第一非偏向的评论内容混音来渲染)；第一备选混音(其可以通过用替换中央通道来替换声床的中央通道以及将所得到的修改的声床与偏向第一团队的评论混音来渲染)；第二备选混音(其可以通过用替换中央通道来替换该声床的中央通道以及将所得到的修改的声床与偏向第二团队的评论混音来渲染)；第三备选混音(其可以通过用替换中央通道来替换声床的中央通道以及将所得到的修改的声床与第二非偏向的评论混音来渲染)；第四备选混音(其可以通过用替换中央通道来替换该声床的中央通道以及将所得到的修改的声床与第一非偏向的评论和公告馈送混音来渲染)；第五备选混音(其可以通过用替换中央通道来替换该声床的中央通道以及将所得的修改的声床与偏向第一团队的评论和进球速报馈送混音来渲染)；第六备选混音(其可以通过渲染5.1扬声器通道的第一备选组而非声床来渲染)；第七备选混音(其可以通过渲染5.1扬声器通道的第二备选组而非声床来渲染)；以及第八备选混音(其可以通过用替换中央通道来替换声床的中央通道来渲染)。通常通过(例如经由无线链路)耦接至被配置成(至少部分地)解码和渲染基于对象的节目的机顶装置(或其他装置，例如，TV、AVR、平板或电话)的控制器的用户接口将菜单呈现给用户。在一些其他实施方式中，节目中包括的元数据以其他方式允许用户从可用渲染选项中进行选择。

在其他实施方式中，采用其他方法用于携带基于对象的节目(包括除了基本层的那些扬声器通道之外的扬声器通道和对象通道)的扩展层。一些这样的方法会降低递送基本层和扩展层所需要的整体比特率。例如，可以采用联合对象编码或接收器侧声床混音以在节目递送中允许大的比特率节省(以增加的计算复杂度与受约束的艺术灵活性的折衷)。例如，可以采用联合对象编码或接收器侧声床混音以将递送上述第二示例的节目的基本层和扩展层所需要的比特率从大约987kbps(如上面所指出的)降低至大约750kbps。

本文中提供的示例指示用于递送整个基于对象的音频节目(包括基本层和扩展层)的整体比特率。在其他实施方式中，带内(例如，在被广播的比特流中)递送基本层(声床)，(例如通过互联网协议或“IP”网络)带外递送扩展层(例如，对象通道、替换扬声器通道、和/或分层混音图和/或其他元数据)的至少一部分，以降低带内比特率。以跨带内(广播)和带外(互联网)传输划分的方式递送整个基于对象的音频节目的示例是：5.1基本层、替换扬声器通道、主评论对象通道，并且两个备选5.1扬声器通道组(使用大约729kbps的总比特流要求)被带内递送，并且备选对象通道和元数据(包括体验清新度和分层混音图)(使用大约258kbps的总比特率要求)被带外递送。

图6是回放系统的实施方式的框图，该回放系统包括如所示耦接的解码器20、对象处理子系统22、空间渲染子系统25、控制器23(其实现用户接口)以及可选地还有数字音频处理子系统25、26和27，并且可以被实现成执行本发明的方法的实施方式。在一些实现中，图6的系统的元件20、22、24、25、26、27、29、31和33被实现为机顶装置。

在图6的系统中，解码器20被配置成接收和解码指示基于对象的音频节目(或基于对象的音频节目的主混音)的编码信号。通常，根据本发明的实施方式，节目(例如，节目的主混音)指示包括具有至少两个扬声器通道的声床和替换扬声器通道组的音频内容。节目还指示至少一个用户可选的对象通道(以及可选地至少一个其他对象通道)以及与每个对象通道相对应的对象相关元数据。每个对象通道指示音频对象，并且从而为了方便，对象通道在本文中有时被称为“对象”。在一个实施方式中，节目是指示音频对象、对象相关元数据、扬声器通道声床和替换扬声器通道的AC-3或E-AC-3比特流(或者包括其主混音)。通常，各个音频对象被单声道或立体声编码(即，每个对象通道指示对象的左或右通道，或是指示对象的单声道通道)，该声床是传统的5.1混音，并且解码器20可以被配置成同时对音频内容的高达16个通道(包括该声床的6个扬声器通道，以及替换扬声器通道和对象通道)进行解码。

在本发明的回放系统的一些实施方式中，输入的E-AC-3(或AC-3)编码比特流的每个帧包括一个或更多个元数据“容器”。输入的比特流指示基于对象的音频节目或这样的节目的主混音，并且节目的扬声器通道和常规的E-AC-3(或AC-3)比特流的音频内容一样被组织。一个容器可以被包括在帧的Aux字段中，并且另一个容器可以被包括在帧的addbsi字段中。每个容器具有核心报头，并且包括一个或更多个有效载荷(或者与一个或更多个有效载荷相关联)。(Aux字段中包括的容器的或与Aux字段中包括的容器相关联的)一个这样的有效载荷可以是本发明的对象通道的一个或更多个对象通道(与也有节目表示的扬声器通道声床有关)中的每个对象通道的一组音频样本以及与每个对象通道相关联的对象相关元数据。在这样的有效载荷中，对象通道(以及相关联的元数据)中的一些或全部的样本可以被组织为标准的E-AC-3(或AC-3)帧，或可以以其他方式被组织(例如，它们可以被包括在与E-AC-3或AC-3比特流不同的次混音中)。(addbsi字段或Aux字段中包括的容器的或与addbsi字段或Aux字段中包括的容器相关联的)另外的这样的有效载荷的示例是与帧的音频内容相关联的响度处理状态元数据的组。

在一些这样的实施方式，解码器(例如，图6的解码器)将对Aux字段中的容器的核心报头进行解析，并且从该容器(例如，从AC-3或E-AC-3帧的Aux字段)和/或从由核心报头指示的位置(例如，次混音)提取本发明的对象通道和相关联的元数据。在提取有效载荷(对象通道和相关联的元数据)之后，解码器将对所提取的有效载荷执行任何需要的解码。

每个容器的核心报头通常包括：指示包括在容器中或与容器相关联的有效载荷的类型的至少一个ID值；子流关联指示(指示核心报头与哪些子流相关联)；以及保护位。这样的保护位(其可以包含或包括基于哈希的消息认证代码或“HMAC”)通常对于在容器中包括的或与容器相关联的至少一个有效载荷中所包含的对象相关元数据和/或响度处理状态元数据(以及可选地还有其他元数据)和/或包括在帧中的相应的音频数据的解密、认证或验证中的至少一种是有用的。子流可以位于“带内”(在E-AC-3或AC-3比特流中)或“带外”(例如，在独立于E-AC-3或AC-3比特流的次混音比特流中)。一类这样的有效载荷是一个或更多个对象通道(与也由节目指示的扬声器通道声床相关)中的每个对象通道的一组音频样本以及与每个对象通道相关联的对象相关元数据。每个对象通道是单独子流，并且通常在核心报头中被标识。另一类有效载荷是响度处理状态元数据。

通常，每个有效载荷具有其自己的报头(或“有效载荷标识符”)。可以在为对象通道的每个子流中携带对象级元数据。可以在容器的核心报头和/或作为一个或更多个对象通道(以及与每个对象通道相关联的元数据)的一组音频样本的有效载荷的报头中包括节目级元数据。

在一些实施方式中，帧的辅助数据auxdata(或addbsi)字段中的每个容器具有三种级别的结构：

高级结构，包括指示辅助数据(或addbsi)字段是否包括元数据(其中，在该上下文中，“元数据”表示对象通道、对象相关元数据、以及由比特流携带但通常不在缺少所描述的类型的任何容器的常规的E-AC-3或AC-3比特流中携带的任何其他音频内容或元数据)的标志、指示呈现什么类型的元数据的至少一个ID值以及通常还有指示呈现元数据(例如，每种类型的元数据)的多少比特(如果呈现元数据的话)的值。在该上下文中，一种这样的“类型”的元数据的示例是对象通道数据和相关联的对象相关元数据(即，一个或更多个对象通道(也与由节目指示的扬声器通道声床有关)中的每个对象通道的一组音频样本以及与每个对象通道相关联的元数据)；

中级结构，包括每种识别的类型的元数据的核心元素(例如，对于每种识别类型的元数据，例如上述类型的核心报头、保护值和有效载荷ID和有效载荷大小值)；以及

低级结构，在至少一个这样的有效载荷由被呈现的核心元素识别的情况下，包括针对一个核心元素的每个有效载荷。这样的有效载荷的示例是一个或更多个对象通道(与也由节目指示的扬声器通道声床有关)中的每个对象通道的一组音频样本以及与每个对象通道相关联的元数据。这样的有效载荷的另一示例是包括响度处理状态元数据(“LPSM”)的有效载荷，其有时被称为LPSM有效载荷。

这样的三级结构中的数据值可以被嵌套(nest)。例如，在由核心元素识别每个有效载荷之后(以及从而在核心元素的核心报头识别每个有效载荷之后)，可以包括由核心元素识别的有效载荷(例如，LPSM有效载荷)的保护值。在一个示例中，核心报头可以识别第一有效载荷(例如，LPSM有效载荷)和另一有效载荷，在核心报头之后可以是第一有效载荷的有效载荷ID和有效载荷大小值，第一有效载荷本身可以在ID和大小值之后，并且第二有效载荷的有效载荷ID和有效载荷大小值可以在第一有效载荷之后，第二有效载荷本身可以在这些ID和大小值之后，并且有效载荷中的一个或两个有效载荷(或核心元素值以及有效载荷中的一个或两个有效载荷)的保护值可以在最后的有效载荷之后。

再次参照图6，用户利用控制器23来选择要被渲染的对象(由基于对象的音频节目指示)。控制器23可以是被编程成实现与图6的系统的其他元件兼容的用户接口(例如，iPad应用程序)的手持式处理装置(例如，iPad)。用户接口可以给用户提供(例如，在触摸屏上显示)对象、“声床”扬声器通道内容和替换扬声器通道内容的可选的“预设”混音的菜单或选项板。可选的预设混音可以由节目的对象相关元数据以及通常还通过由子系统22实现的规则(例如，子系统22已经被预配置成实现的规则)来确定。用户可以通过向控制器23输入命令(例如，通过启动其触摸屏)从可选的混音中进行选择，并且作为响应，控制器23将相应的控制数据设定至子系统22。

解码器20对节目的扬声器通道声床的扬声器通道(以及节目中包括的任何替换扬声器通道)进行解码，并且将解码的扬声器通道输出至子系统22。响应于基于对象的音频节目，并且响应于来自控制器23的指示节目的要被渲染的整组对象通道的所选择的子组的控制数据，解码器23对所选择的对象通道进行解码(如果需要的话)，并且将所选择的(例如，解码的)对象通道(每个对象通道可以是脉冲代码调制的或“PCM”比特流)以及与所选择的对象通道相对应的对象相关元数据输出至子系统22。

由解码的对象通道指示的对象通常是或包括用户可选的音频对象。例如，解码器可以提取5.1扬声器通道声床、替换扬声器通道(指示声床扬声器通道中之一的环境内容，而非声床扬声器通道中所述之一的非环境内容)、指示由来自主队的城市的播音员进行的评论的对象通道(如图6中所示“评论-1单声道”)、指示由来自客队的城市的播音员进行的评论的对象通道(如图6中所示“评论-2单声道”)、指示由来自出现在体育赛事的主队的粉丝的人群噪声的对象通道(如图6中所示“粉丝(主队)”)、指示当由体育赛事参赛者打球时由决胜球产生的声音的左对象通道和右对象通道(如图6中所示“立体球声”)、以及指示特殊效果的四个对象通道(如图6中所示的“效果4x单声道”)。“评论-1单声道”对象通道、“评论-2单声道”对象通道、“粉丝(主队)”对象通道、“立体球声”对象通道和“效果4x单声道”对象通道中的任何对象通道(在经历解码器20中的任何必要的解码之后)可以被选择，并且它们中的每个所选择的对象通道将从子系统22被传递至渲染子系统24。

与来自解码器20的解码的扬声器通道、解码的对象通道和解码的对象相关元数据一样，到对象处理子系统22的输入可选地包括被设定至系统的外部音频对象通道(例如，作为其主混音被设定至解码器20的节目的一个或更多个次混音)。由这样的外部音频对象通道指示的对象的示例包括本地评论员(例如，由无线电通道递送的单通道音频内容)、呼入的Skype呼叫、进入的twitter连接(经由图6中未示出的文本至语音系统来转换)以及系统声音。

子系统22被配置成输出由节目指示的全组对象通道的所选的子组(或全组对象通道的所选的子组的经处理的版本)和节目的相应对象相关元数据，以及声床扬声器通道和/或替换扬声器通道中的所选的扬声器通道组。对象通道选择和扬声器通道选择可以通过用户选择(如由从控制器23被设定至子系统22的控制数据所指示的)和/或子系统22已经被编程成或与其他方式被配置成实现的规则(例如，指示条件和/或约束)来确定。这样的规则可以由节目的对象相关元数据和/或(例如，从控制器23或另外的外部源)被设定至子系统22的其他数据(例如，指示回放系统的扬声器阵列的性能和组织的数据)来确定和/或通过对子系统22进行预配置(例如，编程)来确定。在一些实施方式中，对象相关元数据提供(扬声器通道声床和/或替换扬声器通道的)扬声器通道内容和对象的一组可选的“预设”混音，并且子系统22使用该元数据来选择其可选地处理并且然后设定至子系统24的对象通道、以及其设定至子系统24的扬声器通道。子系统22通常不变地通过(至子系统24)来自解码器20(例如，声床的至少一个扬声器通道和至少一个替换扬声器通道)的解码的扬声器通道(声床扬声器通道以及通常还有替换扬声器通道)的所选的子组，并且对被设定至此的对象通道的所选的对象通道进行处理。

由子系统22执行的对象处理(包括对象选择)通常由来自控制器23的控制数据和来自解码器20的对象相关元数据(以及可选地还有被设定至子系统22而非来自解码器20的次混音的对象相关元数据)来控制，并且通常包括每个所选择的对象的空间位置和等级的确定(无论对象选择是否由于用户选择或通过规则应用进行的选择)。通常，用于渲染对象的默认的空间位置和默认的等级以及可选地还有对对象及其空间位置和等级的用户选择的限制被包括在(例如从解码器20)被设定至子系统20的对象相关元数据中。这样的限制可以指示对象的被禁止的组合或所选择的对象可以使用其来渲染的被禁止的空间位置(例如，以防止所选择的对象被渲染得彼此太靠近)。另外，各个所选择的对象的响度通常由对象处理子系统22响应于使用控制器23输入的控制数据和/或由对象相关元数据(例如，来自解码器20)指示的默认等级和/或通过子系统22的预配置来控制。

通常，由解码器20执行的解码包括(从输入节目)提取指示由节目指示的每个对象的音频内容的类型(例如，由节目的音频内容指示的体育赛事的类型、以及由节目指示的可选对象和默认对象的名称或其他识别标记(例如，团队标志))的元数据。控制器23和对象处理子系统22接收该元数据或由该元数据指示的相关信息。通常，此外，控制器23接收(例如，被编程有)与用户的音频系统的回放性能有关的信息(例如，扬声器的数量、扬声器的假定放置或其他假定组织)。

图6的空间渲染子系统24(或具有至少一个下游装置或系统的子系统24)被配置成对从子系统22输出的音频内容进行渲染以供用户的回放系统的扬声器回放。可选地包括的数字音频处理子系统25、26和27中的一个或更多个可以实现对子系统24的输出的后处理。

空间渲染子系统24被配置成使用从子系统22输出的、与每个所选择的对象相关联的渲染参数(例如，空间位置和等级的用户选择的和/或默认的值)，将由对象处理子系统22选择(或选择和处理)并且被设定至子系统24的音频对象通道(例如，默认选择的对象、和/或由于使用控制器23进行的用户交互已经被选择的用户选择的对象)映射至可用扬声器通道(例如，由子系统22确定并且通过子系统22至子系统24的所选择的一组声床扬声器通道以及替换扬声器通道)。通常，子系统24是智能混音器，并且被配置成确定用于可用扬声器的扬声器馈送，包括通过将一个、两个或多于两个选择的对象通道映射至大量单独的扬声器通道中的每个扬声器通道，以及将所选择的对象通道与由每个相应的扬声器通道指示的音频内容混音。

通常，输出扬声器通道的数量可以在2.0与7.1之间变化，并且要被驱动以渲染所选择的音频对象通道(以与所选择的扬声器通道内容的混音)的扬声器可以被假定位于回放环境中的(标称)水平面中。在这样的情况下，执行渲染，使得扬声器可以被驱动以发出与由扬声器通道内容确定的声音混音的声音，该声音将被感知为从扬声器的平面中的不同的对象位置(即，对于每个选择的或默认的对象而言，沿着轨迹的一个对象位置或一系列对象位置)发出。

在一些实施方式中，要被驱动以渲染音频的全范围扬声器的数量可以是宽范围内的任意数量(其不一定限于从2至7的范围内)，并且从而输出扬声器通道的数量不限于从2.0与7.1的范围内。

在一些实施方式中，要被驱动以渲染音频的扬声器被假定位于回放环境中的任意位置；不仅仅位于(标称)水平面中。在一些这样的情况下，节目中包括的元数据指示用于在(三维体积中的)任意视在空间位置处使用三维扬声器阵列来渲染节目的至少一个对象的渲染参数。例如，对象通道可以具有指示要渲染(由对象通道指示的)对象的视在空间位置的三维轨迹的相应的元数据。轨迹可以包括一系列“地板”位置(在被假定位于回放环境的地板上的扬声器子组的平面中，或者在回放环境的另一水平面中)以及一系列“地板上方”位置(每个“地板上方”位置通过驱动被假定位于回放环境的至少一个其他水平面中的扬声器子组来确定)。在这样的情况下，可以根据本发明执行渲染，使得扬声器可以被驱动以发出与由扬声器通道内容确定的声音混音的声音(由相关对象通道来确定)，该声音将被感知为从包括轨迹的三维空间中的一系列对象位置发出。子系统24可以被配置成实现这样的渲染或其步骤，其中，渲染的其余步骤由下游系统或装置(例如，图6的渲染子系统35)来执行。

可选地，数字音频处理(DAP)级(例如，大量预定的输出扬声器通道配置中的每个配置的一个级)被耦接至空间渲染子系统24的输出以对空间渲染子系统的输出执行后处理。这样的处理的示例包括智能均衡化或(在立体声输出的情况下)扬声器虚拟化处理。

图6系统的输出(例如，空间渲染子系统的输出或空间渲染级之后的DAP级)可以是PCM比特流(其确定用于可用扬声器的扬声器馈送)。例如，在用户的回放系统包括7.1扬声器阵列的情况下，该系统可以输出确定这样的阵列的扬声器的扬声器馈送的PCM比特流(在子系统24中生成)，或这样的比特流的后处理的版本(在DAP 25中生成)。对于另一示例，在用户的回放系统包括5.1扬声器阵列的情况下，该系统可以输出确定用于这样的阵列的扬声器的扬声器馈送的PCM比特流(在子系统24中生成)，或这样的比特流的后处理的版本(在DAP 26中生成)。对于另一示例，在用户的回放系统包括仅左扬声器和右扬声器的情况下，该系统可以输出确定用于左扬声器和右扬声器的扬声器馈送的PCM比特流(在子系统24中生成)，或这样的比特流的后处理的版本(在DAP 27生成)。

图6系统可选地还包括再编码子系统31和再编码子系统33中的一个或两者。再编码子系统31被配置成对作为E-AC-3编码比特流从DAP 25输出的PCM比特流(指示用于7.1扬声器阵列的馈送)进行再编码，并且可以从该系统输出所得到的编码的(压缩的)E-AC-3比特流。再编码子系统33被配置成对作为AC-3或E-AC-3编码比特流从DAP 27输出的PCM比特流(指示用于5.1扬声器阵列的馈送)进行再编码，并且可以从该系统输出所得到的编码的(压缩的)AC-3或E-AC-3比特流。

图6系统可选地还包括再编码(或格式化)子系统29、以及被耦接以接收子系统29的输出的下游渲染子系统35。子系统29被耦接以接收指示所选择的音频对象(或音频对象的默认混音)、相应的对象相关元数据和解码的扬声器通道(例如，声床扬声器通道和替换扬声器通道)的数据(从子系统22输出)，并且被配置成对这样的数据进行再编码(和/或格式化)以由子系统35渲染。可以在AVR或条形音箱(或者子系统29下游的其他系统或装置)中实现的子系统35被配置成响应于子系统29的输出来生成可用回放扬声器(扬声器阵列36)的扬声器馈送(或确定扬声器馈送的比特流)。例如，子系统29可以被配置成通过将指示所选择的(或默认的)音频对象、相应的元数据和扬声器通道的数据再编码来将音频编码成用于在子系统35中进行渲染的适当的格式，以及将该编码音频(例如，经由HDMI链路)传送至子系统35。响应于由子系统35生成(或通过子系统35的输出确定)的扬声器馈送，可用扬声器36将发出指示扬声器通道内容和所选择的(或默认的)对象的混音的声音，其中对象具有由子系统29的输出的对象相关元数据确定的视在源位置。当包括子系统29和子系统35时，从该系统中可选地省略渲染子系统24。

在一些实施方式中，本发明是用于对基于对象的音频进行渲染的分布式系统，其中，在第一子系统(例如，在机顶装置或者机顶装置和手持式控制器中实现的、图6的元件20、22和23)中实现渲染的一部分(即，至少一个步骤)(例如，如由图6系统的子系统22和控制器23执行的，选择要被渲染的音频对象以及选择每个所选择的对象的渲染特征)，并且在第二子系统(例如，在AVR或条形音箱中实现的子系统35)实现渲染的另一部分(例如，响应于第一子系统的输出来生成扬声器馈送或确定扬声器馈送的信号的沉浸式渲染)。提供分布式渲染的一些实施方式还实现遗留管理以考虑不同的时间和不同的子系统，在不同的时间下和不同的子系统中，执行音频渲染(与被渲染的音频相对应的视频的任何处理)的多个部分。

在本发明的回放系统的一些实施方式中，在机顶装置(STB)中实现每个解码器和对象处理子系统(有时被称为个性化引擎)。例如，可以在STB中实现图6的元件20和22和/或图7系统的所有元件。在本发明的回放系统的一些实施方式中，对个性化引擎的输出执行多次渲染，以确保使得能够实现所有的STB输出(例如，STB的HDMI输出、S/PDIF输出或立体声模拟输出)。可选地，将所选择的对象通道(和相应的对象相关元数据)以及扬声器通道(与解码的扬声器通道声床一起)从STB传递至被配置成渲染对象通道和扬声器通道的混音的下游装置(例如，AVR或条形音箱)。

在一类实施方式中，本发明的基于对象的音频节目包括并行地生成和传输的一组比特流(多个比特流，其可以被称为“子流”)。在该类中的一些实施方式中，使用多个解码器对子流的内容进行解码(例如，节目包括多个E-AC-3子流，并且回放系统利用多个E-AC-3解码器对子流的内容进行解码)。图7是被配置成对本发明的包括并行递送的多个串行比特流的、基于对象的音频节目的实施方式进行解码和渲染的回放系统的框图。

图7的回放系统是对图6系统的变型，在该变型中，基于对象的音频节目包括多个比特流(B1、B2、…、BN，其中，N是某个正整数)，这些比特流并行地被递送至回放系统，并且由该回放系统接收。每个比特流(“子流”)B1、B2、…和BN是串行比特流，该串行比特流包括时间码或其他同步字(参照图7，为方便起见，被称为“同步字”)以使得子流能够彼此同步或时间对准。每个子流还包括一整组对象通道的不同子组和相应的对象相关元数据，并且至少一个子流包括扬声器通道(例如，声床扬声器通道和替换扬声器通道)。例如，在每个子流B1、B2、…、BN中，包括对象通道内容和对象相关元数据的每个容器包括唯一的ID或时间戳。

图7系统包括N个去格式化器50、51、…、53，每一个被耦接和被配置成对输入子流中的不同的子流进行解析，并且将元数据(包括其同步字)及其音频内容设定至比特流同步级59。

去格式化器50被配置成对子流B1进行解析，并且将其同步字(T1)、其他元数据以及其对象通道内容(M1)(包括节目的对象相关元数据和至少一个对象通道)以及其扬声器通道音频内容(A1)(包括节目的至少一个扬声器通道)设定至比特流同步级59。类似地，去格式化器51被配置成对子流B2进行解析，以及将其同步字(T2)、其他元数据以及其对象通道内容(M2)(包括节目的对象相关元数据和至少一个对象通道)以及其扬声器通道音频内容(A2)(包括节目的至少一个扬声器通道)设定至比特流同步级59。去格式化器53被配置成对子流BN进行解析，并且将其同步字(TN)、其他元数据以及其对象通道内容(MN)(包括节目的对象相关元数据和至少一个对象通道)以及其扬声器通道音频内容(AN)(包括节目的至少一个扬声器通道)设定至比特流同步级59。

图7系统的比特流同步级59通常包括用于子流B1、B2、…、BN的音频内容和元数据的缓冲器、以及被耦接和被配置成使用每个子流的同步字来确定输入子流中的数据的任何未对准(例如，因为通常在媒体文件内经由独立的接口和/或踪迹携带每个比特流，所以由于在分布/贡献中丢失了其间的严格的同步性的可能性会发生未对准)的流偏置补偿元件。级59的流偏置补偿元件通常还被配置成通过将适当的控制值设定至包含比比特流的音频数据和元数据的缓冲器对任何确定的未对准进行校正，以使扬声器通道音频数据的时间对准的位从缓冲器被读取至解码器(包括解码器60、61和63)，每个解码器被耦接至缓冲器中的一个相应缓冲器，并且使对象通道音频数据和元数据的时间对准的位从缓冲器被读取至对象数据组合级66。

来自子流B1的扬声器通道音频内容A1’的时间对准的位从级59被读取至解码器60，并且来自子流B1的对象通道内容和元数据M1’的时间对准的位从级59被读取至元数据组合器66。解码器60被配置成对被设定至此的扬声器通道音频数据执行解码，并且将所得到的解码的扬声器通道音频设定至对象处理和渲染子系统67。

类似地，来自子流B2的扬声器通道音频内容A2’的时间对准的位从级59被读取至解码器61，并且来自子流B2的对象通道内容和元数据M2’的时间对准的位从级59被读取至元数据组合器66。解码器61被配置成对被设定至此的扬声器通道音频数据执行解码，并且将所得到的解码的扬声器通道音频设定至对象处理和渲染子系统67。

类似地，来自子流BN的扬声器通道音频内容AN’的时间对准的位从级59被读取至解码器63，并且来自子流BN的对象通道内容和元数据MN’的时间对准的位从级59被读取至元数据组合器66。解码器63被配置成对被设定至此的扬声器通道音频数据执行解码，并且将所得到的解码的扬声器通道音频设定至对象处理和渲染子系统67。

例如，每个子流B1、B2、…、BN可以是E-AC-3子流，并且每个解码器60、61、63以及与解码器60、61和63并联地被耦接至子系统59的任何其他解码器可以是被配置成对输入E-AC-3子流中之一的扬声器通道内容进行解码的E-AC-3解码器。

数据对象组合器66被配置成以适当的格式将节目的所有对象通道的时间对准的对象通道数据和元数据设定至对象处理和渲染子系统67。

子系统67被耦接至组合器66的输出以及解码器60、61和63(以及在子系统59和子系统67之间与解码器60、61和63并联耦接的任何其他解码器)的输出，并且控制器68被耦接至子系统67。子系统67通常被配置成响应于来自控制器68的控制数据根据本发明的实施方式以交互式方式对组合器66和解码器的输出执行对象处理(例如，包括由图6系统的子系统22执行的步骤，或者对这样的步骤的变型)。控制器68可以被配置成执行操作，其中图6系统的控制器23被配置成响应于来自用户的输入来执行所述操作(或对这样的操作的变型)。子系统67通常还被配置成根据本发明的实施方式(例如，对声床扬声器通道内容、替换扬声器通道内容和对象通道内容的混音进行渲染)对被设定至此的扬声器通道音频和对象通道音频数据执行渲染(例如，由图6系统的渲染子系统24或子系统24、25、26、31和33，或者图6系统的子系统24、25、26、31、33、29和35执行的操作，或者对这样的操作的变型)。

在图7系统的一种实现中，每个子流B1、B2、…、BN是Dolby E比特流。每个这样的Dolby E比特流包括一系列突发脉冲(burst)。每个突发脉冲可以携带扬声器通道音频内容(声床扬声器通道和/或替换扬声器通道的内容)以及本发明的对象通道的整个对象通道组(其可以是一个大组)的子组和对象相关元数据(即，每个突发脉冲可以指示整个对象通道组的一些对象通道以及相应的对象相关元数据)。Dolby E比特流的每个突发脉冲通常占据与相应的视频帧的时间段等同的时间段。该组中的每个Dolby E比特流包括同步字(例如，时间码)，以使得该组中的比特流能够彼此同步或时间对准。例如，在每个比特流中，包括对象通道内容和对象相关元数据的每个容器可以包括唯一的ID或时间戳，以使得该组中的比特流能够彼此同步或时间对准。在图7系统的指出的实现中，每个去格式化器50、51和53(以及与去格式化器50、51和53并联耦接的任何其他去格式化器)是SMPTE 337去格式化器，并且每个解码器60、61和63以及与解码器60、61和63并联耦接至子系统59的任何其他解码器可以是Dolby E解码器。

在本发明的一些实施方式中，基于对象的音频节目的对象相关元数据包括持久元数据。例如，被输入至图6系统的子系统20的节目中包括的对象相关元数据可以包括非持久元数据(例如，对于用户可选对象，默认等级和/或渲染位置或轨迹)和持久元数据，非持久元数据可以在广播链(从生成了节目的内容创建设施至由控制器23实现的用户接口)中的至少一个点处变化，持久元数据不意在在初始生成节目(通常，在内容创建设施中)之后是可变的。持久元数据的示例包括：节目的每个用户可选的对象或其他对象或对象组的对象ID；以及指示每个用户可选的对象或其他对象相对于节目的扬声器通道内容或其他元素的定时的时间码或其他同步字。通常贯穿从内容创建设施至用户接口的整个广播链、贯穿节目的广播的整个持续时间或甚至还在节目的重播期间保存持久元数据。在一些实施方式中，在基于对象的音频节目的主混音中发送至少一个用户可选的对象的音频内容(以及相关联的元数据)，并且在节目的次混音中发送至少一些持久元数据(例如，时间码)以及可选地还有至少一个其他对象的音频内容(以及相关联的元数据)。

采用在本发明的基于对象的音频节目的一些实施方式中的对象相关元数据来保存(例如，甚至在节目的广播之后)对象内容和扬声器通道内容的用户选择的混音。例如，每当用户观看特定类型的节目(例如，任何英式足球赛)时或每当用户观看(任意类型的)任意节目时，这可以提供所选择的混音作为默认混音，直到用户改变他的/她的选择。例如，在第一节目的广播期间，用户可以利用(图6系统的)控制器23来选择包括具有持久ID的对象(例如，由控制器23的用户接口识别为“主队人群噪声”对象的对象，其中，持久ID指示“主队人群噪声”)的混音。于是，每当用户观看(以及收听)另一节目(其包括具有同一持久ID的对象)时，回放系统将自动使用同一混音(即，与节目的“主队人群噪声”对象通道混音的节目的声床扬声器通道和/或替换扬声器通道)渲染该节目，直到用户改变该混音选择。在本发明的基于对象的音频节目的一些实施方式中的持久的对象相关元数据在整个节目期间可以使一些对象的渲染是强制的(例如，尽管用户期望击败这样的渲染)。

在一些实施方式，对象相关元数据提供具有默认渲染参数(例如，渲染对象的默认空间位置)的、对象内容和扬声器通道内容的默认混音。例如，被输入至图6系统的子系统20的节目的对象相关元数据可以是具有默认渲染参数的、对象内容和扬声器通道内容的默认混音，并且子系统22和子系统24将使节目使用默认混音和使用默认的渲染参数被渲染，除非用户利用控制器23来选择对象内容和扬声器通道内容的另一混音和/或另一渲染参数组。

在一些实施方式中，对象相关元数据提供对象和扬声器通道内容的一组可选的“预设”混音，每个预设混音具有预定的渲染参数组(例如，渲染对象的空间位置)。回放系统的用户接口可以将这些呈现为可用混音的有限的菜单或选项板(例如，由图6系统的控制器23显示的有限的菜单或选项板)。每个预设混音(和/或每个可选的对象)可以具有持久ID(例如，名称、标记或标志)。控制器23(或本发明的回放系统的另一实施方式的控制器)可以被配置成(例如，在控制器23的iPad实现的触摸屏上)显示这样的ID的指示。例如，可以存在具有持久的ID(例如，团队标志)的可选的“主队”混音，而与对预设混音的每个对象的音频内容或非持久元数据的细节的变化(例如，由播音公司作出的变化)无关。

在一些实施方式中，节目的对象相关元数据(或回放或渲染系统的再配置，其未由与节目一起递送的元数据指示)提供对对象和声床(扬声器通道)内容的可选的混音的约束或条件。例如，图6系统的实现可以实现数字版权管理(DRM)，并且更具体地，可以实现DRM层级以使得图6系统的用户能够具有对基于对象的音频节目中包括的音频对象组的“层列式”访问。如果用户(例如，与回放系统相关联的客户)(例如向广播方)支付更多钱，则用户可以被授权解码和选择(以及收听)节目的更多的音频对象。

对于另一示例，对象相关元数据可以提供对对象的用户选择的约束。这样的约束的示例是：如果用户利用控制器23来进行选择以对节目的“主队人群噪声”对象和“主队播音员”对象两者进行渲染(即，用于包括在由图6的子系统24确定的混音中)，则节目中包括的元数据可以确保子系统24使两个所选择的对象通过预定的相对空间位置被渲染。可以通过与回放系统有关的数据(例如，用户输入的数据)来(至少部分地)确定约束。例如，如果回放系统是立体声系统(包括仅两个扬声器)，则图6系统的对象处理子系统24(和/或控制器23)可以被配置成防止用户选择不能通过仅两个扬声器以适当的空间分辨率被渲染的混音(由对象相关元数据来识别)。对于另一示例，图6系统的对象处理子系统24(和/或控制器23)可以由于合法(例如，DRM)原因或其他原因(例如，基于递送通道的带宽)而从由对象相关元数据(和/或被输入至回放系统的其他数据)指示的可选的对象的分类中去除一些递送的对象。用户可以给内容创建者或广播方支付以得到更多带宽，并且因此系统(例如，图6系统的对象处理子系统24和/或控制器23)可以使得用户能够从可选的对象和/或对象/声床混音的较大的菜单中进行选择。

本发明的一些实施方式(例如，图6的包括上述元件29和35的回放系统的实现)实现分布式渲染。例如，节目的默认的或所选择的对象通道(以及相应的对象相关元数据)从机顶装置(例如，从图6系统的实现的子系统22和29)被传递(与解码的扬声器通道，例如声床扬声器通道和替换扬声器通道的所选择的组一起)至下游装置(例如，在实现子系统22和29的机顶装置(STB)下游的AVR或条形音箱中实现的图6的子系统35)。下游装置被配置成对对象通道和扬声器通道的混音进行渲染。STB可以部分地对音频进行渲染，并且下游装置可以完成渲染(例如，通过生成扬声器馈送用于驱动特定的顶层扬声器(例如，天花板扬声器)以将音频对象放置在特定的视在源位置，其中，STB的输出仅指示可以在一些非特定的顶层扬声器中以某种非特定的方式渲染对象)。例如，STB可以不具有回放系统的扬声器的特定组织的知识，但是下游装置(例如，AVR或条形音箱)可以具有这样的知识。

在一些实施方式中，基于对象的音频节目(例如，被输入至图6系统的子系统20或图7系统的元件50、51和53的节目)是或者包括至少一个AC-3(或E-AC-3)比特流，并且包括对象通道内容(和/或对象相关元数据)的节目的每个容器被包括在比特流的帧的末端处的辅助数据auxdata字段(例如，图1或图4中示出的AUX分段)中。在一些这样的实施方式中，AC-3或E-AC-3比特流的每个帧包括一个或两个元数据容器。一个容器可以被包括在帧的Aux字段中，并且另一个容器可以被包括在帧的addbsi字段中。每个容器具有核心报头，并且包括一个或更多个有效载荷(或与一个或更多个有效载荷相关联)。(Aux字段中包括的容器的或与Aux字段中包括的容器相关联的)一个这样的有效载荷可以是本发明的对象通道(与也由节目指示的扬声器通道声床有关)中的一个或更多个对象通道中的每个对象通道的一组音频样本以及与每个对象通道相关联的对象相关元数据。每个容器的核心报头通常包括：指示容器中包括的或与容器相关联的有效载荷的类型的至少一个ID值；子流关联指示(指示核心报头与哪些子流相关联)；以及保护位。通常，每个有效载荷具有其自己的报头(或“有效载荷标识符”)。可以在作为对象通道的每个子流中携带对象级元数据。

在其他实施方式中，基于对象的音频节目(例如，被输入至图6系统的子系统20或图7系统的元件50、51和53的节目)是或者包括不为AC-3比特流或E-AC-3比特流的比特流。在一些实施方式中，基于对象的音频节目是或者包括至少一个Dolby E比特流，并且节目的对象通道内容和对象相关元数据(例如，包括对象通道内容和/或对象相关元数据的节目的每个容器)被包括在通常不携带有用的信息的Dolby E比特流的位位置中。Dolby E比特流的每个突发脉冲占据与相应的视频帧的时间段等同的时间段。对象通道(和/或对象相关元数据)可以被包括在Dolby E突发脉冲之间的保护带中和/或在每个Dolby E突发脉冲内的每个数据结构(每个具有AES3帧的格式)内的未使用的位位置中。例如，每个保护带包括一系列分段(例如，100个分段)，每个保护带的第一X个分段(例如，X＝20)中的每个包括对象通道和对象相关元数据，并且所述每个保护带的其余分段中的每个可以包括保护带符号。在一些实施方式中，本发明的节目的至少一些对象通道(和/或对象相关元数据)被包括在Dolby E比特流的至少一些AES3帧中的每个帧的两个AES3子帧中的每个子帧的4个最低有效位(LSB)中，并且指示节目的扬声器通道的数据被包括在比特流的每个AES3帧的两个AES3子帧中的每个子帧的20个最高有效位(MSB)中。

在一些实施方式中，本发明的节目的对象通道和/或对象相关元数据被包括在Dolby E比特流中的元数据容器中。每个容器具有核心报头，并且包括一个或更多个有效载荷(或与一个或更多个有效载荷相关联)。(Aux字段中包括的容器的或者与Aux字段中包括的容器相关联的)一个这样的有效载荷可以是一个或更多个本发明的对象通道(例如，与也由节目指示的扬声器通道相关)中的每个对象通道的一组音频样本以及与每个对象相关联的对象相关元数据。每个容器的核心报头通常包括：指示容器中包括的或与容器相关联的有效载荷的类型的至少一个ID；子流关联指示(指示核心报头与哪些子流相关联)；以及保护位。通常，每个有效载荷具有其自己的报头(或“有效载荷标识符”)。可以在作为对象通道的每个子流中携带对象级元数据。

在一些实施方式中，通过遗留解码器和遗留渲染系统(其未被配置成对本发明的对象通道和对象相关元数据进行解析)，基于对象的音频节目(例如，被输入至图6系统的子系统20或图7系统的元件50、51和53的节目)是可解码的，并且其扬声器通道内容是可渲染的。可以根据本发明的一些实施方式通过被配置成(根据本发明的一种实施方式)对本发明的对象通道和对象相关元数据进行解析并且对由节目指示的扬声器通道和对象通道内容的混音进行渲染的机顶装置(或其他解码和渲染系统)，对同一节目进行渲染。

本发明的一些实施方式意在响应于广播节目为终端客户提供个性化的(以及优选地沉浸式)音频体验，和/或提供用于在广播管道中使用元数据的新方法。一些实施方式改进麦克风捕捉(例如，体育场麦克风捕捉)以生成为终端用户提供更个性化和沉浸式体验的音频节目，对现有产生、贡献和分布式工作流进行修改，以使得本发明的基于对象的音频节目的对象通道和元数据能够流经专业链，并且创建支持对象通道、替换扬声器通道和相关元数据以及常规地广播音频(例如，本发明的广播音频节目的实施方式中包括的扬声器通道声床)的新的回放管线(例如，在机顶装置中实现的一个回放管线)。

图8是根据本发明的实施方式的、被配置成生成基于对象的音频节目(以及相应的视频节目)以供广播的广播系统的框图。图8系统的一组X个麦克风(其中，X是整数)，包括麦克风100、101、102和103，被放置成捕捉要包括在节目中的音频内容，并且它们的输出耦接至音频控制台104的输入。

在一类实施方式中，节目包括指示在观赏事件(例如，英式足球赛或橄榄球赛、汽车赛或摩托车赛、或另外的体育赛事)中或处的气氛和/或对观赏事件的评论的交互式音频内容。在一些实施方式中，节目的音频内容指示多个音频对象(包括用户可选的对象或对象组，以及通常还有在用户不进行对象选择的情况下要被渲染的默认对象组)、扬声器通道声床(指示捕捉的内容的默认混音)以及替换扬声器通道。扬声器通道声床可以是能够被在不包括对象通道的常规的广播节目中所包括的类型的扬声器通道的常规的混音(例如，5.1通道混音)。

麦克风子组(例如，麦克风100和麦克风101以及可选地还有其输出被耦接至音频控制台104的其他麦克风)是常规的麦克风阵列，该麦克风阵列在操作中捕捉音频(以被编码并且作为扬声器通道声床和一组替换扬声器通道被递送)。在操作中，麦克风的另一子组(例如，麦克风102和麦克风103以及可选地还有其输出被耦接至音频控制台104的其他麦克风)捕捉音频(例如，人群噪声和/或其他“对象”)以被编码并且作为节目的对象通道被递送。例如，图8系统的麦克风阵列可以包括：被实现为声场麦克风(例如，安装有加热器的声场麦克风)并且被永久地安装在体育场中的至少一个麦克风(例如，麦克风100)；在支持一个团队(例如，主队)的观众的位置处指向的至少一个立体声麦克风(例如，被实现为森海塞尔(Sennheiser)MKH416麦克风或另一立体声麦克风的麦克风102)；以及在支持其他团队(例如，客队)的观众的位置处指向的至少一个其他立体声麦克风(例如，被实现为森海塞尔MKH416麦克风或另一立体声麦克风的麦克风103)。

本发明的广播系统可以包括位于体育场(或其他事件位置)外部的移动单元(其可以是转向架(truck)，并且有时被称为“匹配转向架”)，其是来自体育场(或其他事件位置)中的麦克风的音频馈送的第一接受者。匹配转向架生成基于对象的音频节目(以被广播)，包括通过对来自麦克风的音频内容进行编码以用于作为节目的对象通道来递送，生成相应的对象相关元数据(例如，指示每个对象应当被渲染的空间位置的元数据)并且将这样的元数据包括在节目中，以及对来自一些麦克风的音频内容进行编码以用于作为节目的扬声器通道声床(以及一组替换扬声器通道)来递送。

例如，在图8系统中，控制台104、(被耦接至控制台104的输出的)对象处理子系统106、嵌入子系统108和贡献编码器110可以被安装在匹配转向架中。在子系统106中生成的基于对象的音频节目可以与视频内容(例如，来自放置在体育场中的摄像机)组合(例如，在子系统108中)以生成组合的音频和视频信号，该组合的音频和视频信号然后(例如，由编码器110)编码，从而生成编码的音频/视频信号以供广播(例如，通过图5的递送子系统5)。应当理解的是，对这样的编码的音频/视频信号进行解码和渲染的回放系统将包括用于对所递送的音频/视频信号的音频内容和视频内容进行解析的子系统(在图中未具体示出)以及用于根据本发明的实施方式对音频内容进行解码和渲染的子系统(例如，与图6系统相似或相同的子系统)、以及用于对视频内容进行解码和渲染的另一子系统(在图中未具体示出)。

控制台104的音频输出包括：指示在体育赛事时捕捉的环境声音和混音至其中央通道的由播音员进行的评论(非环境内容)的默认混音的5.1扬声器通道声床(在图8中被标记为“5.1中性”)；指示声床的中央通道的环境内容而不具有评论的替换扬声器通道(在图8中被标记为“1.0替换”)(即，在将评论与其混音以生成声床的中央通道之前的、声床的中央通道的捕捉的环境声音内容)；指示来自出现于事件的主队的粉丝的人群噪声的立体声对象通道的音频内容(被标记为“2.0主队”)；指示来自出现于事件的客队的粉丝的人群噪声的立体声对象通道的音频内容(被标记为“2.0客队”)；指示由来自主队的城市的播音员进行的评论的对象通道音频内容(被标记为“1.0评论1”)；指示由来自客队的城市的播音员进行的评论的对象通道音频内容(被标记为“1.0评论2”)；以及指示当由体育赛事参赛者打球时由决胜球产生的声音的对象通道音频内容(被标记为“1.0踢球”)。

对象处理子系统106被配置成将来自控制台104的音频流组织(例如，分组)成对象通道(例如，将被标记为“2.0客队”的左音频流和右音频流分组成客队人群噪声对象通道)和/或对象通道组，以生成指示对象通道(和/或对象通道组)的对象相关元数据，以及将对象通道(和/或对象通道组)、对象相关元数据、扬声器通道声床和每个替换扬声器通道(根据来自控制台104的音频流被确定)编码为基于对象的音频节目(例如，被编码为Dolby E比特流的基于对象的音频节目)。通常，子系统106还被配置成渲染(和在一组播音室监视器扬声器上播放)至少对象通道(和/或对象通道组)的所选的子组以及扬声器通道声床和/或替换扬声器通道(包括通过使用对象相关元数据来生成指示所选择对象通道和扬声器通道的混音)，使得回放的声音可以由控制台104和子系统106的操作者监视(如通过图8的“监视器路径”所指示的)。

子系统104的输出与子系统106的输入之间的接口可以是多通道音频数字接口(“MADT”)。

在操作中，图8系统的子系统108将在子系统106中生成的基于对象的音频节目与(例如，来自放置在体育场中的摄像机的)视频内容组合，以生成组合的音频和视频信号，该组合的音频和视频信号被设定至编码器110。子系统108的输出与子系统110的输入之间的接口可以是高清晰度串行数字接口(“HD-SDI”)。在操作中，编码器110对子系统108的输出进行编码，从而生成编码的音频/视频信号以供广播(例如，通过图5的递送子系统5)。

在一些实施方式中，广播设施(例如，图8系统的子系统106、108和110)被配置成生成指示所捕捉的声音的多个基于对象的音频节目(例如，由从图8的子系统110输出的多个编码的音频/视频信号指示的基于对象的音频节目)。这样的基于对象的音频节目的示例包括5.1平坦化混音、国际混音和国内混音。例如，所有的节目可以包括公共的扬声器通道声床(以及公共的替换扬声器通道组)，但是节目的对象通道(和/或由节目确定的可选的对象通道的菜单，和/或用于将对象通道渲染和混音的可选的或非可选的渲染参数)可以因节目而异。

在一些实施方式中，广播方或其他内容创建者的设施(例如，图8系统的子系统106、108和110)被配置成生成可以在多种不同的回放环境(例如，5.1通道国内回放系统、5.1通道国际回放系统和立体声回放系统)中的任意回放环境中被渲染的单个基于对象的音频节目(即，原版)。原版不需要被混音(例如，下混音)以播放给任意特定环境中的客户。

如上面所指出的，在本发明的一些实施方式中，节目的对象相关元数据(或者回放或渲染系统的预配置，其未由与节目一起递送的元数据指示)提供对对象和扬声器通道内容的可选的混音的约束或条件。例如，图6系统的实现可以实现DRM层级，以使得用户能够具有对基于对象的音频节目中包括的对象通道组的层列式访问。如果用户(例如，向广播方)支付更多钱，则用户可以被授权解码、选择和渲染节目的更多的对象通道。

将参照图9来描述对对象(或对象的分组)的用户选择的约束和条件的示例。在图9中，节目“P0”包括7个对象通道：指示中性人群噪声的对象通道“N0”；指示主队人群噪声的对象通道“N1”；指示客队人群噪声的对象通道“N2”；指示对事件的官方评论(例如，由商业无线电播音员进行的广播评论)的对象通道“N3”；指示对事件的粉丝评论的对象通道“N4”；指示事件下的公共发言公告的对象通道“N5”；以及指示与事件有关的输入twitter连接(经由文本至语音系统来转换)的对象通道“N6”。

节目P0中包括的默认指示元数据指示被(默认地)包括在由节目指示的“声床”扬声器通道内容和对象通道内容的渲染的混音中的默认对象组(一个或更多个“默认”对象)以及默认渲染参数组(例如，默认对象组中的每个默认对象的空间位置)。例如，默认对象组可以是以扩散方式被渲染(例如，以不被感知为从任何特定的源位置发出)的对象通道“N0”(指示中性人群噪声)和被渲染以被感知为从听者正前方(即，在相对于听者0度的方位角处)的源位置发出的对象通道“N3”(指示官方评论)的混音。

(图9的)节目P0还包括指示多组用户可选的预设混音的元数据，每个预设混音由节目的对象通道的子组和相应的渲染参数组来确定。用户可选的预设混音可以被呈现为回放系统的控制器的用户接口上的菜单(例如，由图6系统的控制器23显示的菜单)。例如，一个这样的预设混音是图9的对象通道“N0”(指示中性人群噪声)和对象通道“N1”(指示主队人群噪声)和对象通道“N4”(指示粉丝评论)的混音，其被渲染使得该混音中的通道N0和N1内容被感知为从听者正后方(即，在相对于听者180度的方位角处)的源位置发出，其中，该混音中的通道N1内容的水平比该混音中的通道N0的水平小3dB，并且其中，该混音中的通道N4内容以扩散方式被渲染(例如，以不被感知为从任意特定源位置发出)。

回放系统可以实现以下规则(例如，在图9指示的分组规则“G”，其由节目的元数据确定)：包括对象通道N0、N1和N2中至少之一的每个用户可选的预设混音必须包括仅对象通道N0的内容，或者与对象通道N1和N2中至少之一的内容混音的对象通道N0的内容。回放系统还可以实现以下规则(例如，在图9中指示的条件规则“C1”，其由节目的元数据确定)：包括与对象通道N1和N2中至少之一的内容混音的对象通道N0的内容的每个用户可选的预设混音必须包括与对象通道N1的内容混音的对象通道N0的内容，或者其必须包括与对象通道N2的内容混音的对象通道N0的内容。

回放系统还可以实现以下规则(例如，在图9中指示的条件规则“C2”，其由节目的元数据确定)：包括对象通道N3和N4中至少之一的内容的每个用户可选的预设混音必须包括仅对象通道3的内容，或者其必须包括仅对象通道N4的内容。

本发明的一些实施方式实现基于对象的音频节目的对象通道的有条件的解码(和/或渲染)。例如，回放系统可以被配置成使得对象通道能够基于回放环境或用户的权限被有条件地解码。例如，如果实现DRM层级以使得客户能够具有对基于对象的音频节目中包括的音频对象通道组的“层列式”访问，则回放系统可以自动地被配置成(通过节目的元数据中包括的控制位)防止一些对象的解码以及渲染的选择，除非回放系统被通知用户已经满足至少一个条件(例如，支付给内容提供者特定量的钱)。例如，用户会需要购买权限以收听图9的节目P0的“官方评论”对象通道N3，并且回放系统可以实现图9中指出的条件规则“C2”，使得对象通道N3不能被选择，除非回放系统被通知回放系统的用户已经购买了必要的权限。

对于另一示例，回放系统可以自动地被配置成(通过节目的元数据中包括的控制位，指示可用回放扬声器阵列的特定格式)：如果回放扬声器阵列不满足条件(例如，回放系统可以实现图9中指示的条件规则“C1”，使得对象通道N0和N1的预设混音不能被选择，除非回放系统被通知5.1扬声器阵列可用于渲染所选择的内容，但如果仅可用的扬声器阵列是2.0扬声器阵列，则不这样)，防止一些对象的解码和选择。

在一些实施方式中，本发明实现基于规则的对象通道选择，其中至少一个预定的规则确定基于对象的音频节目的哪个(哪些)对象通道被渲染(例如，与扬声器通道声床一起)。用户还可以指定用于对象通道选择的至少一个规则(例如，通过从由回放系统控制器的用户接口呈现的可用规则的菜单中进行选择)，并且回放系统(例如，图6系统的对象处理子系统22)可以被配置成应用每个这样的规则来确定要被渲染的基于对象的音频节目的哪个(哪些)对象通道应当被包括在要被渲染(例如，通过图6系统的子系统20或者子系统24和35)的混音中。回放系统可以根据节目中的对象相关元数据确定节目的哪个(哪些)对象通道满足预定规则。

对于简单的示例，考虑以下情况：基于对象的音频节目指示体育赛事。代替操纵控制器(例如，图6的控制器23)来执行节目(例如，来自特定团队或汽车或自行车的无线电评论)中包括的特定的对象组的静态选择，用户操纵控制器来建立规则(例如，自动选择指示无论团队还是汽车或自行车胜利或第一的对象通道以用于渲染)。回放系统应用该规则来实现节目(例如，指示一个团队的对象的第一子组，在第二团队得分并且从而变成当前胜利团队的事件时指示第二团队的对象的第二子组自动跟随在后)中包括的对象(对象通道)的一系列不同的子组的动态选择(在单个节目或一系列不同的节目的渲染期间)。从而，在一些这样的实施方式中，实时事件掌控(steer)或影响哪些对象通道被包括在渲染的混音中。回放系统(例如，图6系统的对象处理子系统22)可以响应于节目中包括的元数据(例如，指示至少一个相应的对象指示当前胜利团队，例如指示该团队的粉丝的人群噪声或与胜利团队相关联的无线电播音员的评论的元数据)，以选择哪个(哪些)对象通道应当被包括在要被渲染的扬声器通道和对象通道的混音中。例如，内容创建者可以包括(在基于对象的音频节目中)指示节目的至少一些音频对象通道中的每个的放置顺序(或其他层级)(例如，指示哪些对象通道对应于当前第一的团队或汽车，哪些对象通道对应于第二名的团队或汽车，等等)的元数据。回放系统可以被配置成通过选择和渲染仅满足用户指定的规则(例如，与第“n”名的团队有关的对象通道，如由节目的对象相关元数据指示的)的对象通道来响应于这样的元数据。

与本发明的基于对象的音频节目的对象通道有关的对象相关元数据的示例包括(但不限于)：指示关于如何渲染对象通道的详细信息的元数据；动态临时元数据(例如，指示对象的平移轨迹、对象大小、增益等)；以及供AVR(或者本发明的系统的一些实现的解码和对象处理子系统下游的其他装置或系统)使用以渲染对象通道(例如，使用可用回放扬声器阵列的组织知识)的元数据。这样的元数据可以指定对对象位置、增益、静音或其他渲染参数的约束和/或对对象如何与其他对象交互的约束(例如，对在特定的对象被选择的情形下哪些另外的对象可以被选择的约束)，和/或可以指定默认对象和/或默认渲染参数(在用户不进行选择其他对象和/或渲染参数的情况下要被使用)。

在一些实施方式中，在来自节目的扬声器通道声床和常规的元数据的分离的比特流或其他容器(例如，用户可能需要支付额外费用来接收和/或使用的次混音)中发送本发明的基于对象的音频节目的至少一些对象相关元数据(以及还可选地至少一些对象通道)。在不访问这样的对象相关元数据(或对象相关元数据和对象通道)的情况下，用户可以解码和渲染扬声器通道声床，但不能选择节目的音频对象并且不能以与由扬声器通道声床指示的音频的混音来渲染节目的音频对象。本发明的基于对象的音频节目的每个帧可以包括多个对象通道的音频内容以及相应的对象相关元数据。

根据本发明的一些实施方式生成(或传输、存储、缓冲、解码、渲染或以其他方式处理)的基于对象的音频节目包括扬声器通道声床、至少一个替换扬声器通道、至少一个对象通道和指示分层图(有时被称为分层“混音图”)的元数据，分层图指示扬声器通道和对象通道的可选的混音(例如，所有可选的混音)。例如，混音图指示可应用于扬声器通道和对象通道的子组的选择的每个规则。通常，编码音频比特流指示至少一些(即至少一部分)节目的音频内容(例如，扬声器通道声床和节目的对象通道中的至少一些对象通道)以及对象相关元数据(包括指示混音图的元数据)，以及可选地还有至少一个另外的编码音频比特流或文件指示一些节目的音频内容和/或对象相关元数据。

分层混音图指示节点(每个节点可以指示可选的通道或通道组，或可选的通道或通道组的分类)以及节点之间的连接(例如，对节点的控制接口和/或用于选择通道的规则)，并且包括必要的数据(“基本”层)以及可选的(即，可选地省略的)数据(至少一个“扩展”层)。通常，分层混音图被包括在指示节目的编码音频比特流中的一个音频比特流中，并且可以通过(由回放系统，例如终端用户的回放系统实现的)图遍历来评定以确定通道的默认混音以及用于修改默认混音的选项。

在混音图可表示为树图的情况下，基本层可以是树图的一个分支(或者两个或更多个分支)，并且每个扩展层可以是树图的另一分支(或另一组两个或更多个分支)。例如，树图的一个分支(由基本层指示)可以指示所有终端用户可用的可选的通道和通道组，并且树图的另一分支(由扩展层指示)可以指示仅一些终端用户可用的另外的可选的通道和/或通道组(例如，这样的扩展层可以仅被提供至仅被授权使用它的终端用户)。图9是包括混音图的对象通道节点(例如，指示对象通道N0、N1、N2、N3、N4、N5和N6的节点)和其他元素的树图的示例。

通常，基本层包含(指示)图结构以及对图的节点的控制接口(例如，平移控制接口和增益控制接口)。基本层对于将任何用户交互映射至解码/渲染处理是必需的。

每个扩展层包含(指示)对基本层的扩展。扩展对于将用户交互映射至解码处理不是立即必需的，并且因此其可以以较慢的速率传输和/或延迟，或者被省略。

在一些实施方式中，基本层作为节目的独立的子流的元数据被包括(例如，作为独立子流的元数据被传输)。

根据本发明的一些实施方式生成(或传输、存储、缓冲、解码、渲染或以其他方式处理)的基于对象的音频节目包括扬声器通道声床、至少一个替换扬声器通道、至少一个对象通道和指示混音图(其可以是或不是分层混音图)的元数据，该混音图指示扬声器通道和对象通道的可选的混音(例如，所有可选的混音)。编码音频比特流(例如，Dolby E或E-AC-3比特流)指示节目的至少一部分，并且指示混音图(以及通常还有可选的对象通道和/或扬声器通道)的元数据被包括在比特流的每个帧中(或者比特流的帧的子组的每个帧中)。例如，每个帧可以包括至少一个元数据分段以及至少一个音频数据分段，并且混音图可以被包括在每个帧的至少一个元数据分段中。每个元数据分段(其可以被称为“容器”)可以具有包括元数据分段报头(以及可选地还有其他元素)以及在元数据分段报头之后的一个或更多个有效载荷的格式。每个元数据有效载荷本身被有效载荷报头识别。如果混音图在元数据分段中存在的话，混音图被包括在元数据分段的元数据有效载荷中的一个元数据有效载荷中。

在一些实施方式中，根据本发明生成(或传输、存储、缓冲、解码、渲染或以其他方式处理)的基于对象的音频节目包括至少两个扬声器通道声床、至少一个对象通道和指示混音图(其可以是或不是分层混音图)的元数据。混音图指示扬声器通道和对象通道的可选的混音，并且包括至少一个“声床混音”节点。每个“声床混音”节点限定扬声器通道声床的预定混音，并且从而指示或实现用于对节目的两个或更多个扬声器声床的扬声器通道进行混音的预定的混音规则组(可选地，具有用户可选参数)。

考虑以下示例：音频节目与体育场中的团队A(主队)与团队B之间的英式足球(足球)赛相关联，并且包括体育场中的整个人群的5.1扬声器通道声床(由麦克风馈送确定)、偏向团队A的人群的部分的立体声馈送(即，从位于主要由团队A的粉丝占据的体育场的部分中的观众捕捉的音频)、以及偏向团队B的人群的部分的另一立体声馈送(即，从位于主要由团队B的粉丝占据的体育场的部分中的观众捕捉的音频)。可以在混音控制台上对这三个馈送(5.1通道中性声床、2.0通道“团队A”声床和2.0通道“团队B”声床)进行混音，以生成四个5.1扬声器通道声床(其可以被称为“粉丝区”声床)：不偏向的、偏向主队的(中性和团队A声床的混音)、偏向客队的(中性和团队B声床的混音)以及相对(中性声床，与平移至空间的一侧的团队A声床以及平移至空间的相对侧的团队B声床混音)。然而，传输四个混音的5.1通道声床就比特率而言是昂贵的。从而，本发明的比特流的实施方式包括指定要由回放系统(例如，在终端用户的家中)基于用户混音选择而实现的声床混音规则(用于扬声器通道声床的混音，例如，以生成四个指出的混音的5.1通道声床)的元数据、以及可以根据这些规则混音的扬声器通道声床(例如，原始的5.1通道声床和两个偏向的立体声扬声器通道声床)。响应于混音图的声床混音节点，回放系统可以给用户呈现选项(例如，经由由图6系统的控制器23实现的用户接口显示的)以选择四个指出的混音的5.1通道声床之一。响应于该混音的5.1通道声床的用户选择，回放系统(例如，图6系统的子系统22)将使用在比特流中传输的(未混音的)扬声器通道声床来生成所选择的混音。

在一些实施方式中，声床混音规则想到下面的操作(其可以具有预定的参数或用户可选参数)：

声床“旋转”(即，将扬声器通道声床平移至左侧、右侧、前方或后方)。例如，为了创建上面提到的“相对(opposite)混音”，立体声团队A声床将被旋转至回放扬声器阵列的左侧(团队A声床的L通道和R通道被映射至回放系统的L通道和Ls通道)，并且立体声团队B声床将被旋转至回放扬声器阵列的右侧(团队B声床的L通道和R通道被映射至回放系统的R通道和Rs通道)。从而，回放系统的用户接口将给终端用户呈现四个上面提到的“不偏向的”声床混音、“偏向主队的”声床混音、“偏向客队的”声床混音和“相对”声床混音之一的选择，并且在“相对”声床混音的用户选择时，回放系统将在“相对”声床混音的渲染期间实现适当的声床旋转；以及

声床混音中的特定扬声器通道(目标通道)的突然下降(duck)(即，衰减)(通常，以形成净空)。例如，在上面提到的英式足球赛示例中，回放系统的用户接口可以给终端用户呈现四个上面提到的“不偏向的”声床混音、“偏向主队的”声床混音、“偏向客队的”声床混音和“相对”声床混音之一的选择，并且响应于用户选择“相对”声床混音，回放系统可以通过在将衰减的5.1通道声床与立体声“团队A”和“团队B”声床混音以生成“相对”声床混音之前使中性5.1通道声床的L、Ls和R、Rs通道中的每个突然下降(衰减)(由比特流中的元数据指定的)预定量来在“相对”声床混音的渲染期间实现目标突然下降。

在另一类实施方式中，根据本发明生成(或传输、存储、缓冲、解码、渲染或以其他方式处理)的基于对象的音频节目包括子流，并且子流指示至少一个扬声器通道声床、至少一个对象通道和对象相关元数据。对象相关元数据包括“子流”元数据(指示节目的子流结构和/或子流应当被解码的方式)，并且通常还包括指示扬声器通道和对象通道的可选的混音(例如，所有可选的混音)的混音图。子流元数据可以指示节目的哪些子流应当独立于节目的其他子流被解码以及节目的哪些子流应当与节目的至少一个其他子流相关联地被解码。

例如，在一些实施方式中，编码音频比特流指示至少一些(即，至少一部分)节目的音频内容(例如，至少一个扬声器通道声床、至少一个替换扬声器通道以及至少一些节目的对象通道)以及元数据(例如，混音图和子流元数据，以及可选地还有其他元数据)，并且至少一个另外的编码音频比特流(或文件)指示一些节目的音频内容和/或元数据。在每个比特流是Dolby E比特流(或者以与用于在AES3串行数字音频比特流中携带非pcm数据的SMPTE 337格式一致的方式被编码)的情况下，比特流可以共同地指示多个高达8个通道的音频内容，其中每个比特流携带高达8个通道的音频数据，并且通常还包括元数据。每个比特流可以被视为指示由所有比特流携带的所有音频数据和元数据的组合比特流的子流。

对于另一示例，在一些实施方式中，编码音频比特流指示多个元数据子流(例如，混音图和子流元数据，以及可选地还有其他对象相关元数据)以及至少一个音频节目的音频内容。通常，每个子流指示节目的通道中的一个或更多个(以及通常还有元数据)。在一些情况下，编码音频比特流的多个子流指示若干音频节目的音频内容，若干音频节目例如为“主”音频节目(其可以是多通道节目)以及至少一个其他音频节目(例如，其是对主音频节目的评论的节目)。

指示至少一个音频节目的编码音频比特流必定包括音频内容的至少一个“独立”子流。独立子流指示音频节目的至少一个通道(例如，独立子流可以指示常规的5.1通道音频节目的5个全范围通道)。在本文中，该音频节目被称为“主”节目。

在一些情况下，编码音频比特流指示两个或更多个音频节目(“主”节目以及至少一个其他音频节目)。在这样的情况下，比特流包括两个或更多个独立子流：指示主节目的至少一个通道的第一独立子流；以及指示另一音频节目(与主节目不同的节目)的至少一个通道的至少一个其他独立子流。每个独立比特流可以独立地被编码，并且解码器可以操作以仅对编码比特流的独立子流的子组(而非全部)进行解码。

可选地，指示主节目(以及可选地还有至少一个其他音频节目)的编码音频比特流包括音频内容的至少一个“从属”子流。每个从属子流与比特流的一个独立子流相关联，并且指示其内容由相关联的独立子流指示的节目(例如，主节目)的至少一个另外的通道(即，从属子流指示不由相关联的独立子流指示的节目的至少一个通道，而相关联的独立子流指示节目的至少一个通道)。

在包括独立子流(指示主节目的至少一个通道)的编码比特流的示例中，比特流还包括指示主节目的一个或更多个另外的扬声器通道的从属子流(与独立子流相关联)。这样的另外的扬声器通道对于由独立子流指示的主节目通道是附加的。例如，如果独立子流指示7.1通道主节目的标准格式左、右、中心、左环绕、右环绕全范围扬声器通道，则从属子流可以指示主节目的两个其他的全范围扬声器通道。

根据E-AC-3标准，常规的E-AC-3比特流必须指示至少一个独立子流(例如，单个AC-3比特流)，并且可以指示高达8个独立子流。E-AC-3比特流的每个独立子流可以与高达8个从属子流相关联。

在(参照图11要描述的)示例性实施方式中，基于对象的音频节目包括至少一个扬声器通道声床、至少一个对象通道、以及元数据。元数据包括“子流”元数据(指示节目的音频内容的子流结构和/或节目的音频内容的子流应当被解码的方式)，并且通常还包括指示扬声器通道和对象通道的可选的混音的混音图。音频节目与英式足球赛相关联。编码音频比特流(例如，E-AC-3比特流)指示节目的音频内容和元数据。如图11所示，节目的音频内容(以及从而比特流的音频内容)包括4个独立子流。一个独立子流(在图11中被标记为子流“I0”)指示5.1扬声器通道声床，5.1扬声器通道声床指示在英式足球赛处的中性人群噪声。另一独立子流(在图11中被标记为子流“I1”)指示2.0通道“团队A”声床(“M人群”)、2.0通道“团队B”声床(“LivP人群”)和单声道对象通道(“Sky评论1”)，该2.0通道“团队A”声床(“M人群”)指示来自偏向一个团队(“团队A”)的比赛人群的部分的声音，该2.0通道“团队B”声床(“LivP人群”)指示来自偏向另一团队(“团队B”)的比赛人群的部分的声音，以及该单声道对象通道(“Sky评论1”)指示对比赛的评论。第三独立子流(在图11中被标记为“I2”)指示对象通道音频内容(被标记为“2/0”进球)以及三个对象通道(“Sky评论2”、“Man评论”和“Liv评论”)，该对象通道音频内容(被标记为“2/0”进球)指示当由英式足球事件参赛者击打球时由决胜球产生的声音，以及每个对象通道(“Sky评论2”、“Man评论”、“Liv评论”)指示对英式足球赛的不同的评论。第四独立子流(在图11中被标记为子流“I3”)指示对象通道(“被标记为“PA”)、对象通道(被标记为“无线电”)以及对象通道(被标记为“进球速报”)，对象通道(“被标记为“PA”)指示由英式足球赛处的体育场公共扩音系统产生的声音，对象通道(被标记为“无线电”)指示英式足球赛的无线电广播，以及对象通道(被标记为“进球速报”)指示在英式足球赛期间得分的计分。

在图11示例中，子流I0包括节目的混音图和元数据(“obj md”)，该元数据(“objmd”)包括至少一些子流元数据和至少一些对象通道相关元数据。子流I1、I2和I3中的每个包括元数据(“obj md”)，该元数据(“obj md”)包括至少一些对象通道相关元数据以及可选地至少一些子流元数据。

在图11示例中，比特流的子流元数据指示在解码期间在每对独立子流之间耦接应当“关断”(使得每个独立子流独立于其他独立子流被解码)，并且比特流的子流元数据指示耦接应当“接通”(使得这些通道不彼此独立地被解码)或“关断”(使得这些通道彼此独立地被解码)的每个子流内的节目通道。例如，子流元数据指示在子流I1的两个立体声扬声器通道声床(2.0通道“团队A”声床和2.0通道“团队B”声床)中的每个内耦接应当“接通”，但是跨越子流I1的扬声器通道声床以及在单声道对象通道与子流I1的扬声器通道声床中的每个声床之间应当禁用耦接(以使得单声道对象通道和扬声器通道声床彼此独立地被解码)。类似地，子流元数据指示在子流I0的5.1扬声器通道声床内耦接应当“接通”(以使得该声床的扬声器通道彼此关联地被解码)。

在一些实施方式中，扬声器通道和对象通道以适于节目的混音图的方式被包括(“封装”)在音频节目的子流中。例如，如果混音图是树图，则图的一个分支的所有通道可以被包括在一个子流中，并且图的另一分支的所有通道可以被包括在另一子流中。

图10是实现本发明的实施方式的系统的框图。

图10的系统的对象处理系统(对象处理器)200包括如图所示耦接的元数据生成子系统210、中间(mezzanine)编码器212和仿真子系统211。元数据生成子系统210被耦接以接收捕捉的音频流(例如，指示由位于观赏事件处的麦克风捕捉的声音的流，以及可选地还有其他音频流)，并且被配置成将来自控制台104的音频流组织(例如，分组)成扬声器通道声床、替换扬声器通道组、以及大量对象通道和/或对象通道组。子系统210还被配置成生成指示对象通道(和/或对象通道组)的对象相关元数据。编码器212被配置成将对象通道(和/或对象通道组)、对象相关元数据和扬声器通道编码为中间类型的基于对象的音频节目(例如，被编码为Dolby E比特流的基于对象的音频节目)。

对象处理器200的仿真子系统211被配置成至少对对象通道(和/或对象通道组)和扬声器通道的所选择的子组进行渲染(并且在一组播音室监视扬声器上播放)(包括通过使用对象相关元数据来生成指示所选择的对象通道和扬声器通道的混音)，使得回放的声音可以由子系统200的操作者监视。

图10系统的转码器202包括如所示耦接的中间解码器子系统(中间解码器)213和编码器214。中间解码器213被耦接并且被配置成接收和解码从对象处理器200输出的中间类型的基于对象的音频节目。解码器213的解码输出被编码器214再编码成适于广播的格式。在一个实施方式中，从编码器214输出的编码的基于对象的音频节目是E-AC-3比特流(以及从而编码器214在图10中被标记为“DD+编码器”)。在其他实施方式中，从编码器214输出的编码的基于对象的音频节目是AC-3比特流或者具有某种其他格式。转码器202的基于对象的音频节目输出被广播(或以其他方式被递送)给大量终端用户。

解码器204被包括在一个这样的终端用户的回放系统中。解码器204包括如所示耦接的解码器215和渲染子系统(渲染器)216。解码器215接受(接收或读取)和解码从转码器202递送的基于对象的音频节目。如果根据本发明的典型实施方式来配置解码器215，则在典型操作中解码器215的输出包括：指示节目的扬声器通道声床的音频样本流；以及指示节目的对象通道(例如，用户可选的音频对象通道)的音频样本流以及相应的基于对象的元数据流。在一个实施方式中，被输入至解码器215的编码的基于对象的音频节目是E-AC-3比特流，并且从而解码器215在图10中被标记为“DD+解码器”。

解码器204的渲染器216包括对象处理子系统，该对象处理子系统被耦接以(从解码器215)接收所递送的节目的解码的扬声器通道、对象通道和对象相关元数据。渲染器216还包括被配置成对由对象处理子系统确定的音频内容进行渲染以供回放系统的扬声器(未示出)回放的渲染子系统。

通常，渲染器216的对象处理子系统被配置成将由节目指示的全组对象通道的所选择的子组以及相应的对象相关元数据输出至渲染器216的渲染子系统。渲染器216的对象处理子系统通常还被配置成使来自解码器215的解码的扬声器通道不变地通过(至渲染子系统)。根据本发明的实施方式，例如通过渲染器216已经被编程成或以其他方式被配置成实现的规则(例如，指示条件和/或约束)和/或用户选择，确定由对象处理子系统执行的对象通道选择。

图10的每个元件200、202和204(以及图8的每个元件104、106、108和110)可以被实现为硬件系统。处理器200(或处理器106)的这样的硬件实现的输入通常是多通道音频数字接口(“MADI”)输入。通常，图8的处理器106以及图10的每个编码器212、214包括帧缓冲器。通常，帧缓冲器是被耦接以接收编码的输入音频比特流的缓冲存储器，并且在操作中缓冲存储器(例如，以非暂态方式)存储编码音频比特流的至少一个帧，并且编码音频比特流的一系列帧从缓冲存储器被设定至下游装置或系统。此外通常，图10的每个解码器213、215包括帧缓冲器。通常，该帧缓冲器是被耦接以接收编码的输入音频比特流的缓冲存储器，并且在操作中缓冲存储器(例如，以非暂态方式)存储要由解码器213或215解码的编码音频比特流的至少一个帧。

图8的处理器106(或图10的子系统200、202和/或204)的任意部件或元件可以以硬件、软件、或硬件和软件的组合被实现为一个或更多个处理和/或一个或更多个电路(例如，ASIC、FPGA、或其他集成电路)。

应当理解的是，在一些实施方式中，本发明的基于对象的音频节目被生成和/或递送为指示节目内容(包括元数据)的未编码(例如，基带)表示。例如，这样的表示可以包括PCM音频样本和相关联的元数据。未编码(未压缩)表示可以以各种方式中的任意方式被递送，包括作为至少一个数据文件(例如，以非暂态方式被存储在例如计算机可读介质上的存储器中)或作为AES-3格式或串行数字接口(SDI)格式(或另一格式)的比特流。

本发明的一个方面是被配置成执行本发明的方法的任意实施方式的音频处理单元(APU)。APU的示例包括但不限于编码器(例如，转码器)、解码器、编解码器、预处理系统(预处理器)、后处理系统(后处理器)、音频比特流处理系统、以及这些元件的组合。

在一类实施方式中，本发明是包括缓冲存储器(缓冲器)的APU，该缓冲存储器(例如，以非暂态方式)存储已经由本发明的方法的任意实施方式生成的基于对象的音频节目的至少一个帧或其他分段(包括扬声器通道声床和对象通道的音频内容、以及对象相关元数据)。例如，图5的产生单元3可以包括缓冲器3A，其(例如，以非暂态方式)存储由单元3生成的基于对象的音频节目的至少一个帧或其他分段(包括扬声器通道声床和对象通道的音频内容、以及对象相关元数据)。对于另一示例，图5的解码器7可以包括缓冲器7A，其(例如，以非暂态方式)存储从子系统5递送至解码器7的基于对象的音频节目的至少一个帧或其他分段(包括扬声器通道声床和对象通道的音频内容、以及对象相关元数据)。

本发明的实施方式可以以硬件、固件、或软件、或者其组合(例如，作为可编程逻辑阵列)被实现。例如，可以以适当编程(或以其他方式配置)的硬件或固件将图8或图7的系统的子系统106，或者图6的系统的所有或一些元件20、22、24、25、26、29、35、31和35，或者图10的所有或一些元件200、202和204实现为例如编程的通用处理器、数字信号处理器或微处理器。除非另外指明，作为本发明的一部分而被包括在内的算法或处理不内在与任何特定的计算机或其他设备有关。具体地，各种通用机器可以利用根据本文中的教示而编写的程序而被使用，或其可以更加便于构造更专用的设备(例如，集成电路)以执行所需要的方法步骤。从而，本发明可以以在一个或更多个可编程计算机系统(例如，图6的元件20、22、24、25、26、29、35、31和35中的全部或一些的实现)上执行的一个或更多个计算机程序而被实现，每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口以及至少一个输出装置或端口。程序代码被应用于输入数据以执行本文中所描述的功能并生成输出信息。输出信息以已知的方式应用于一个或更多个输出装置。

每个这样的程序可以以任何期望的计算机语言(包括机器、汇编或高级过程的、逻辑的或面向对象的编程语言)实现以与计算机系统进行通信。在任何情况下，语言可以是编译语言或解释语言。

例如，当由计算机软件指令序列实现时，本发明的实施方式的各种功能和步骤可以由在适当的数字信号处理硬件中运行的多线程软件指令序列实现，在该情况下，实施方式的各种装置、步骤和功能可以对应于软件指令的部分。

每个这样的计算机程序优选地存储于或下载至由通用或专用可编程计算机可读的存储介质或装置(例如，固态存储器或介质、或者磁介质或光介质)，用于当存储介质或装置由计算机系统读取以执行本文所描述的过程时配置和操作计算机。本发明的系统还可以被实现为配置有(即，存储)计算机程序的计算机可读存储介质，其中这样配置的存储介质使计算机系统以特定和预定义的方式操作以执行本文中所描述的功能。

已经描述了本发明的多个实施方式。应当理解的是，在不偏离本发明的精神和范围的情况下可以作出各种修改。鉴于上面的教示，可以对本发明进行大量的修改和变型。应当理解的是，在所附权利要求的范围内，可以与本文中具体描述的方式不同地实践本发明。

本发明包括以下技术方案。

方案1.一种用于生成指示音频内容的基于对象的音频节目的方法，所述音频内容包括第一非环境内容、与所述第一非环境内容不同的第二非环境内容以及与所述第一非环境内容和所述第二非环境内容不同的第三内容，所述方法包括步骤：

确定指示音频内容的默认混音的扬声器通道声床，其中包括所述声床中的M个扬声器通道的基于对象的扬声器通道子组指示所述第二非环境内容、或所述默认混音的至少一些音频内容与所述第二非环境内容的混音；

生成元数据，所述元数据指示所述对象通道中的至少之一的内容与所述声床的所述扬声器通道和/或所述替换扬声器通道中的预定扬声器通道的内容的至少一个可选的预定备选混音，其中所述元数据包括针对每个所述备选混音的渲染参数，并且至少一个所述备选混音是指示所述声床的至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的替换混音；以及

方案2.根据方案1所述的方法，其中，至少一些所述元数据是可选的内容元数据，所述可选的内容元数据指示所述节目的音频内容的一组可选的预定混音并且包括每个所述预定混音的预定渲染参数组。

方案3.根据方案1至2中任一项所述的方法，其中，所述基于对象的音频节目是包括帧的编码比特流，所述编码比特流是AC-3比特流或E-AC-3比特流，所述编码比特流的每个所述帧指示至少一个数据结构，所述至少一个数据结构是包括所述对象通道的一些内容和一些所述元数据的容器，并且至少一个所述容器被包括在每个所述帧的辅助数据auxdata字段或附加比特流信息addbsi字段中。

方案4.根据方案1至2中任一项所述的方法，其中，所述基于对象的音频节目是包括一系列突发脉冲以及突发脉冲对之间的保护带的Dolby E比特流。

方案5.根据方案1至2中任一项所述的方法，其中，所述基于对象的音频节目是指示所述节目的所述音频内容和所述元数据的未编码表示，并且所述未编码表示是以非暂态方式存储在存储器中的比特流或至少一个数据文件。

方案6.根据方案1至5中任一项所述的方法，其中，至少一些所述元数据指示分层混音图，所述分层混音图指示所述声床的所述扬声器通道、所述替换扬声器通道和所述对象通道的可选的混音，并且所述分层混音图包括元数据的基本层和元数据的至少一个扩展层。

方案7.根据方案1至6中任一项所述的方法，其中，至少一些所述元数据指示混音图，所述混音图指示所述声床的所述扬声器通道、所述替换扬声器通道和所述对象通道的可选的混音，所述基于对象的音频节目是包括帧的编码比特流，并且所述编码比特流的每个所述帧包括指示所述混音图的元数据。

方案8.根据方案1至7中任一项所述的方法，其中，所述基于对象的音频节目指示捕捉的音频内容。

方案9.根据方案1至8中任一项所述的方法，其中，所述默认混音是环境内容与非环境内容的混音。

方案10.根据方案1至9中任一项所述的方法，其中，所述第三内容是环境内容。

方案11.根据方案10所述的方法，其中，所述环境内容指示在观赏事件时的环境声音，所述第一非环境内容指示对所述观赏事件的评论，并且所述第二非环境内容指示对所述观赏事件的备选评论。

方案12.一种对由基于对象的音频节目确定的音频内容进行渲染的方法，其中，所述节目指示扬声器通道声床、一组M个替换扬声器通道、对象通道组和元数据，其中，所述对象通道组包括N个对象通道，所述对象通道组的第一子组指示第一非环境内容，所述第一子组包括所述对象通道组中的M个对象通道，N和M中的每个是大于零的整数，并且M等于或小于N，

(a)将所述基于对象的音频节目提供至音频处理单元；以及

方案13.根据方案12所述的方法，其中，所述音频处理单元被配置成对所述节目的所述对象通道和所述元数据进行解析，所述方法还包括步骤：

方案14.根据方案13所述的方法，其中，步骤(c)包括步骤：

(d)响应于所述至少一些元数据，选择所述对象通道组的所述第一子组，选择所述扬声器通道声床中的除了所述基于对象的扬声器通道子组中的扬声器通道之外的至少一个扬声器通道，并且选择所述至少一个所述替换扬声器通道；以及

(e)对在步骤(d)中选择的所述对象通道组的所述第一子组和每个扬声器通道的内容进行混音，从而确定所述替换混音。

方案15.根据方案13至14中任一项所述的方法，其中，步骤(c)包括步骤：驱动扬声器，以提供能被感知为包括所述声床的所述至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的混音的声音。

方案16.根据方案13至15中任一项所述的方法，其中，步骤(c)包括步骤：

响应于所述替换混音，生成用于驱动扬声器发出声音的扬声器馈送，其中所述声音包括指示所述第一非环境内容的对象通道声音，并且所述对象通道声音能被感知为从由所述对象通道组的所述第一子组确定的至少一个视在源位置处发出。

方案17.根据方案13至16中任一项所述的方法，其中，步骤(c)包括步骤：

提供能够用于选择的混音的菜单，所述混音的至少一个子组中的每个混音包括所述对象通道的子组和所述替换扬声器通道的子组的内容；以及

通过选择由所述菜单指示的所述混音之一来选择所述替换混音。

方案18.根据方案13至17中任一项所述的方法，其中，所述菜单通过控制器的用户接口来呈现，所述控制器被耦接至机顶装置，并且所述机顶装置被耦接以接收所述基于对象的音频节目，并且被配置成执行步骤(c)。

方案19.根据方案12至18中任一项所述的方法，其中，所述基于对象的音频节目包括一组比特流，其中，步骤(a)包括步骤：将所述基于对象的音频节目的所述比特流发送至所述音频处理单元。

方案20.根据方案12至19中任一项所述的方法，其中，所述默认混音是环境内容和非环境内容的混音。

方案21.根据方案20所述的方法，其中，所述环境内容指示在观赏事件时的环境声音，所述第一非环境内容指示对所述观赏事件的评论，并且所述第二非环境内容指示对所述观赏事件的备选评论。

方案22.根据方案12至21中任一项所述的方法，其中，所述基于对象的音频节目是包括帧的编码比特流，所述编码比特流是AC-3比特流或E-AC-3比特流，所述编码比特流的每个所述帧指示至少一个数据结构，所述至少一个数据结构是包括所述对象通道的一些内容和一些所述元数据的容器，并且至少一个所述容器被包括在每个所述帧的辅助数据auxdata字段或附加比特流信息addbsi字段中。

方案23.根据方案12至21中任一项所述的方法，其中，所述基于对象的音频节目是包括一系列突发脉冲以及突发脉冲对之间的保护带的Dolby E比特流。

方案24.根据方案12至21中任一项所述的方法，其中，所述基于对象的音频节目是指示所述节目的所述音频内容和所述元数据的未编码表示，并且所述未编码表示是以非暂态方式存储在存储器中的比特流或至少一个数据文件。

方案25.根据方案12至24中任一项所述的方法，其中，至少一些所述元数据指示分层混音图，所述分层混音图指示所述声床的所述扬声器通道、所述替换扬声器通道和所述对象通道的可选的混音，并且所述分层混音图包括元数据的基本层和元数据的至少一个扩展层。

方案26.根据方案12至25中任一项所述的方法，其中，至少一些所述元数据指示混音图，所述混音图指示所述声床的所述扬声器通道、所述替换扬声器通道和所述对象通道的可选的混音，所述基于对象的音频节目是包括帧的编码比特流，并且所述编码比特流的每个所述帧包括指示所述混音图的元数据。

方案27.一种用于生成指示音频内容的基于对象的音频节目的系统，所述音频内容包括第一非环境内容、与所述第一非环境内容不同的第二非环境内容以及与所述第一非环境内容和所述第二非环境内容不同的第三内容，所述系统包括：

第一子系统，所述第一子系统被配置成确定：

包括N个对象通道的对象通道组，其中所述对象通道组的第一子组指示所述第一非环境内容，所述第一子组包括所述对象通道组中的M个对象通道，N和M中的每个是大于零的整数，并且M等于或小于N，

指示音频内容的默认混音的扬声器通道声床，其中包括所述声床中的M个扬声器通道的基于对象的扬声器通道子组指示所述第二非环境内容、或所述默认混音的至少一些音频内容与所述第二非环境内容的混音，以及

一组M个替换扬声器通道，其中所述一组M个替换扬声器通道中的每个替换扬声器通道指示所述基于对象的扬声器通道子组中的相应扬声器通道的一些而非全部的内容，

其中，所述第一子系统还被配置成生成元数据，所述元数据指示所述对象通道中的至少之一的内容与所述声床的所述扬声器通道和/或所述替换扬声器通道中的预定扬声器通道的内容的至少一个可选的预定备选混音，其中所述元数据包括针对每个所述备选混音的渲染参数，并且至少一个所述备选混音是指示所述声床的至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的替换混音；以及

编码子系统，所述编码子系统被耦接至所述第一子系统，并且被配置成生成所述基于对象的音频节目，使得所述基于对象的音频节目包括所述扬声器通道声床、所述一组M个替换扬声器通道、所述对象通道组和所述元数据，以及使得在不使用所述元数据的情况下，所述扬声器通道声床是能够渲染的，以提供能被感知为所述默认混音的声音，以及所述替换混音是能够响应于至少一些所述元数据来渲染的，以提供能被感知为包括所述声床的所述至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的混音的声音。

方案28.根据方案27所述的系统，其中，至少一些所述元数据是可选的内容元数据，所述可选的内容元数据指示所述节目的音频内容的一组可选的预定混音并且包括每个所述预定混音的预定渲染参数组。

方案29.根据方案27至28中任一项所述的系统，其中，所述默认混音是环境内容和非环境内容的混音。

方案30.根据方案27至28中任一项所述的系统，其中，所述第三内容是环境内容。

方案31.根据方案30所述的系统，其中，所述环境内容指示在观赏事件时的环境声音，所述第一非环境内容指示对所述观赏事件的评论，并且所述第二非环境内容指示对所述观赏事件的备选评论。

方案32.根据方案27至31中任一项所述的系统，其中，所述编码子系统被配置成生成所述基于对象的音频节目，使得所述基于对象的音频节目是包括帧的编码比特流，所述编码比特流是AC-3比特流或E-AC-3比特流，所述编码比特流的每个所述帧指示至少一个数据结构，所述至少一个数据结构是包括所述对象通道的一些内容和一些所述元数据的容器，并且至少一个所述容器被包括在每个所述帧的辅助数据auxdata字段或附加比特流信息addbsi字段中。

方案33.根据方案27至32中任一项所述的系统，其中，所述编码子系统被配置成生成所述基于对象的音频节目，使得所述基于对象的音频节目是包括一系列突发脉冲以及突发脉冲对之间的保护带的DolbyE比特流。

方案34.根据方案27至33中任一项所述的系统，其中，至少一些所述元数据指示分层混音图，所述分层混音图指示所述声床的所述扬声器通道、所述替换扬声器通道和所述对象通道的可选的混音，并且所述分层混音图包括元数据的基本层和元数据的至少一个扩展层。

方案35.根据方案27至34中任一项所述的系统，其中，至少一些所述元数据指示混音图，所述混音图指示所述声床的所述扬声器通道、所述替换扬声器通道和所述对象通道的可选的混音，所述基于对象的音频节目是包括帧的编码比特流，并且所述编码比特流的每个所述帧包括指示所述混音图的元数据。

方案36.一种音频处理单元，其被配置成对由基于对象的音频节目确定的音频内容进行渲染，其中所述节目指示扬声器通道声床、一组M个替换扬声器通道、对象通道组和元数据，其中所述对象通道组包括N个对象通道，所述对象通道组的第一子组指示第一非环境内容，所述第一子组包括所述对象通道组中的M个对象通道，N和M中的每个是大于零的整数，并且M等于或小于N，

所述元数据指示所述对象通道中的至少之一的内容与所述声床的所述扬声器通道和/或所述替换扬声器通道中的预定扬声器通道的内容的至少一个可选的预定的备选混音，其中所述元数据包括针对每个所述备选混音的渲染参数，并且至少一个所述备选混音是包括所述声床的至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的替换混音，所述音频处理单元包括：

第一子系统，所述第一子系统被耦接以接收所述基于对象的音频节目，并且被配置成对所述节目的所述扬声器通道声床、所述替换扬声器通道、所述对象通道和所述元数据进行解析；以及

渲染子系统，所述渲染子系统被耦接至所述第一子系统，并且能够在第一模式下操作，从而在不使用所述元数据的情况下，响应于所述扬声器通道声床来对所述默认混音进行渲染，其中所述渲染子系统还能够在第二模式下操作，从而使用至少一些所述元数据对所述替换混音进行渲染，包括通过响应于至少一些所述元数据对所述对象通道组的所述第一子组和至少一个所述替换扬声器通道的内容进行选择和混音来进行所述渲染。

方案37.根据方案36所述的音频处理单元，其中，所述渲染子系统包括：

第一子系统，所述第一子系统能够在所述第二模式下操作，从而响应于所述至少一些元数据，选择所述对象通道组的所述第一子组、所述扬声器通道声床中的除了所述基于对象的扬声器通道子组中的扬声器通道之外的至少一个扬声器通道、以及所述至少一个所述替换扬声器通道；以及

第二子系统，所述第二子系统被耦接至所述第一子系统，并且能够在所述第二模式下操作，从而对由所述第一子系统选择的所述对象通道组的所述第一子组的内容与每个扬声器通道的内容进行混音，由此确定所述替换混音。

方案38.根据方案36至37中任一项所述的音频处理单元，其中，所述渲染子系统被配置成响应于所述替换混音而生成用于驱动扬声器发出声音的扬声器馈送，所述声音能被感知为包括所述声床的所述至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的混音。

方案39.根据方案36至38中任一项所述的音频处理单元，其中，所述渲染子系统被配置成响应于所述替换混音而生成用于驱动扬声器发出声音的扬声器馈送，其中所述声音包括指示所述第一非环境内容的对象通道声音，所述对象通道声音能被感知为从由所述对象通道组的所述第一子组确定的至少一个视在源位置处发出。

方案40.根据方案36至39中任一项所述的音频处理单元，还包括被耦接至所述渲染子系统的控制器，其中，所述控制器被配置成提供能够用于选择的混音的菜单，所述混音的至少一个子组中的每个混音包括所述对象通道的子组和所述替换扬声器通道的子组的内容。

方案41.根据方案40所述的音频处理单元，其中，所述控制器被配置成实现显示所述菜单的用户接口。

方案42.根据方案40至41中任一项所述的音频处理单元，其中，所述第一子系统和所述渲染子系统在机顶装置中被实现，并且所述控制器被耦接至所述机顶装置。

方案43.根据方案36至42中任一项所述的音频处理单元，其中，所述默认混音是环境内容和非环境内容的混音。

方案44.根据方案43所述的音频处理单元，其中，所述环境内容指示在观赏事件时的环境声音，所述第一非环境内容指示对所述观赏事件的评论，并且所述第二非环境内容指示对所述观赏事件的备选评论。

方案45.根据方案36至44中任一项所述的音频处理单元，其中，所述基于对象的音频节目是包括帧的编码比特流，所述编码比特流是AC-3比特流或E-AC-3比特流，所述编码比特流的每个所述帧指示至少一个数据结构，所述至少一个数据结构是包括所述对象通道的一些内容和一些所述元数据的容器，并且至少一个所述容器被包括在每个所述帧的辅助数据auxdata字段或附加比特流信息addbsi字段中。

方案46.根据方案36至44中任一项所述的音频处理单元，其中，所述基于对象的音频节目是包括一系列突发脉冲以及突发脉冲对之间的保护带的DolbyE比特流。

方案47.一种音频处理单元，包括：

缓冲存储器；以及

至少一个音频处理子系统，所述至少一个音频处理子系统被耦接至所述缓冲存储器，其中所述缓冲存储器存储基于对象的音频节目的至少一个分段，其中所述节目指示扬声器通道声床、一组M个替换扬声器通道、对象通道组和元数据，其中所述对象通道组包括N个对象通道，所述对象通道组的第一子组指示第一非环境内容，所述第一子组包括所述对象通道组中的M个对象通道，N和M中的每个是大于零的整数，并且M等于或小于N，

所述元数据指示所述对象通道中的至少之一的内容与所述声床的所述扬声器通道和/或所述替换扬声器通道中的预定扬声器通道的内容的至少一个可选的预定备选混音，其中所述元数据包括针对每个所述备选混音的渲染参数，并且至少一个所述备选混音是包括所述声床的至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的替换混音，

并且其中，每个所述分段包括：指示所述扬声器通道声床的音频内容的数据、指示所述替换扬声器通道的音频内容的数据、指示所述对象通道的音频内容的数据、以及所述元数据的至少一部分。

方案48.根据方案47所述的音频处理单元，其中，所述基于对象的音频节目是包括帧的编码比特流，每个所述分段是所述帧之一。

方案49.根据方案47至48中任一项所述的音频处理单元，其中，所述编码比特流是AC-3比特流或E-AC-3比特流，每个所述帧指示至少一个数据结构，所述至少一个数据结构是包括至少一个所述对象通道的一些内容和一些所述元数据的容器，并且至少一个所述容器被包括在每个所述帧的辅助数据auxdata字段或附加比特流信息addbsi字段中。

方案50.根据方案47至48中任一项所述的音频处理单元，其中，所述基于对象的音频节目是包括一系列突发脉冲以及突发脉冲对之间的保护带的DolbyE比特流。

方案51.根据方案47至48中任一项所述的音频处理单元，其中，所述基于对象的音频节目是指示所述节目的所述音频内容和所述元数据的未编码表示，并且所述未编码表示是以非暂态方式存储在存储器中的比特流或至少一个数据文件。

方案52.根据方案47至51中任一项所述的音频处理单元，其中，所述缓冲存储器以非暂态方式存储所述分段。

方案53.根据方案47至52中任一项所述的音频处理单元，其中，所述音频处理子系统是编码器。

方案54.根据方案47至53中任一项所述的音频处理单元，其中，所述音频处理子系统被配置成：对所述扬声器通道声床、所述替换扬声器通道、所述对象通道和所述元数据进行解析。

方案55.根据方案47至54中任一项所述的音频处理单元，其中，所述音频处理子系统被配置成：在不使用所述元数据的情况下，响应于所述扬声器通道声床，对所述默认混音进行渲染。

方案56.根据方案47至55中任一项所述的音频处理单元，其中，所述音频处理子系统被配置成使用至少一些所述元数据对所述替换混音进行渲染，包括通过响应于至少一些所述元数据对所述对象通道组的所述第一子组和至少一个所述替换扬声器通道的内容进行选择和混音来进行所述渲染。

Claims

1.一种对由基于对象的音频节目确定的音频内容进行渲染的方法，其中，所述节目指示扬声器通道声床、一组M个替换扬声器通道、对象通道组和元数据，其中，所述对象通道组包括N个对象通道，所述对象通道组的第一子组指示第一非环境内容，所述第一子组包括所述对象通道组中的M个对象通道，N和M中的每个是大于零的整数，并且M等于或小于N，

(a)将所述基于对象的音频节目提供至音频处理单元；以及

2.根据权利要求1所述的方法，其中，所述音频处理单元被配置成对所述节目的所述对象通道和所述元数据进行解析，所述方法还包括步骤：

3.根据权利要求2所述的方法，其中，步骤(c)包括步骤：

4.根据权利要求2至3中任一项所述的方法，其中，步骤(c)包括步骤：驱动扬声器，以提供能被感知为包括所述声床的所述至少一些音频内容和所述第一非环境内容而非所述第二非环境内容的混音的声音。

5.根据权利要求2至4中任一项所述的方法，其中，步骤(c)包括步骤：

6.根据权利要求2至5中任一项所述的方法，其中，步骤(c)包括步骤：

7.根据权利要求2至6中任一项所述的方法，其中，所述菜单通过控制器的用户接口来呈现，所述控制器被耦接至机顶装置，并且所述机顶装置被耦接以接收所述基于对象的音频节目，并且被配置成执行步骤(c)。

8.根据权利要求1至7中任一项所述的方法，其中，所述基于对象的音频节目包括一组比特流，其中，步骤(a)包括步骤：将所述基于对象的音频节目的所述比特流发送至所述音频处理单元。

9.根据权利要求1至8中任一项所述的方法，其中，所述默认混音是环境内容和非环境内容的混音。

10.根据权利要求9所述的方法，其中，所述环境内容指示在观赏事件时的环境声音，所述第一非环境内容指示对所述观赏事件的评论，并且所述第二非环境内容指示对所述观赏事件的备选评论。