CN108134978B

CN108134978B - 用于基于对象的音频的交互式渲染的方法和系统

Info

Publication number: CN108134978B
Application number: CN201810081152.7A
Authority: CN
Inventors: R·A·弗朗斯; T·齐埃格勒; S·S·梅塔; A·J·道尔; P·桑索姆布恩; M·D·德怀尔; F·法拉哈尼; N·R·茨恩高斯; F·桑切斯
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2013-04-03
Filing date: 2014-03-19
Publication date: 2021-11-30
Anticipated expiration: 2034-03-19
Also published as: WO2014165326A1; EP2982140A1; CN113766414B; EP3413592A1; US11769514B2; CN114157979B; US9881622B2; EP3930351A1; CN105103570A; US10553225B2; US11568881B2; HK1253941A1; US10832690B2; US20180151186A1; TWI530941B; KR101800604B1; EP3413592B1; US20190341061A1; JP2016521380A; US10748547B2

Abstract

用于生成基于对象的音频节目的方法，其中所述基于对象的音频节目能以个性化的方式渲染，例如，以便提供对节目的音频内容的沉浸式感知。其它实施例包括传送(例如，广播)、解码和/或渲染这种节目的步骤。对由节目指示的音频对象的渲染可以提供沉浸式体验。节目的音频内容可以指示多个对象声道(例如，指示用户可选和用户可配置的对象的对象声道，并且通常还有要在不存在用户选择的情况下渲染的一组默认对象)和一床扬声器声道。另一方面是被配置为执行该方法的任何实施例或者包括存储有根据该方法的任何实施例生成的基于对象的音频节目(或者其比特流)的至少一帧(或其它片段)的缓冲存储器的音频处理单元(例如，编码器或解码器)。

Description

用于基于对象的音频的交互式渲染的方法和系统

本申请是申请号为201480019107.9、申请日为2014年03月19日、发明名称为“用于基于对象的音频的交互式渲染的方法和系统”的发明专利申请的分案申请。

对相关申请的交叉引用

本申请要求2013年4月3日提交的美国临时专利申请No.61/807922和2013年6月7日提交的美国临时专利申请No.61/832397的申请日权益，这两个申请通过引用并入于此。

技术领域

本发明涉及音频信号处理，并且更特别地，涉及包括音频内容(通常指示扬声器声道和至少一个可选的音频对象声道)和支持对音频内容的交互式渲染(interactiverendering)的元数据的音频数据比特流的编码、解码和交互式渲染。本发明的一些实施例以被称为杜比数字(Dolby Digital，AC-3)、杜比数字加(Dolby Digital Plus，增强版AC-3或E-AC-3)或者杜比E(Dolby E)的格式之一来生成、解码和/或渲染音频数据。

背景技术

杜比、杜比数字、杜比数字加以及杜比E是杜比实验室授权许可公司(DolbyLaboratories Licensing Corporation)的商标。杜比实验室提供分别被称为杜比数字和杜比数字加的AC-3和E-AC-3的专有实现。

典型的音频数据流包括音频内容(例如，音频内容的一个或更多个声道)和指示音频内容的至少一个特性的元数据。例如，在AC-3比特流中，存在若干个专用于改变被传送给收听环境的节目的声音的音频元数据参数。其中一个元数据参数是DIALNORM参数，该参数意欲指示在音频节目中发生的对话的平均水平，并且被用来确定音频回放信号水平。

虽然本发明不限于与AC-3比特流、E-AC-3比特流或者杜比E比特流一起使用，但是为了方便，在实施例中将描述本发明生成、解码或以其它方式处理这种包括响度处理状态元数据的比特流。

AC-3编码比特流包括元数据和1至6个声道的音频内容。音频内容是已经利用感知音频编码压缩的音频数据。元数据包括若干个打算用于改变被传送到收听环境的节目的声音的音频元数据参数。

AC-3(也称为杜比数字)编码的细节是众所周知的，并且在许多公开文献中得到阐述，包括在ATSC标准A52/A中：Digital Audio Compression Standard(AC-3)，修订版A，先进电视系统委员会，2001年8月20日。

杜比数字加(E-AC-3)编码的细节在下文中得到阐述：“Introduction to DolbyDigital Plus,an Enhancement to the Dolby Digital Coding System”，AES会议论文6196,第117届AES会议,2004年10月28日。

杜比E编码的细节在下文中得到阐述：“Efficient Bit Allocation,Quantization,and Coding in an Audio Distribution System”,AES预印本5068,第107次AES会议，1999年8月；和“Professional Audio Coder Optimized for Use withVideo”，AES预印本5033，第107次AES会议，1999年8月。

AC-3编码音频比特流的每帧包含针对数字音频的1536个样本的音频内容和元数据。对于48kHz的采样速率，这代表32毫秒的数字音频或者音频的31.25帧/秒的速率。

取决于帧分别包含1、2、3或6个音频数据块，E-AC-3编码音频比特流的每帧包含针对数字音频的256、512、768或1536个样本的音频内容和元数据。对于48kHz的采样速率，这分别代表5.333、10.667、16或32毫秒的数字音频或者音频的189.9、93.75、62.5或31.25帧/秒的速率。

如在图1中所示，每个AC-3帧被分成部分(片段)，包括：同步信息(SI)部分，该部分包含(如图2中所示)同步字(SW)和两个纠错字中的第一个(CRC1)；比特流信息(BSI)部分，该部分包含大部分元数据；6个音频块(AB0至AB5)，其包含经数据压缩的音频内容(并且也可以包括元数据)；浪费比特(W)，其包含在压缩音频内容之后剩余的任何未使用的比特；辅助(AUX)信息部分，该部分可以包含更多元数据；以及两个纠错字中的第二个(CRC2)。

如图4中所示，每个E-AC-3帧被分成部分(片段)，包括：同步信息(SI)部分，该部分包含(如图2中所示)同步字(SW)；比特流信息(BSI)部分，该部分包含大部分元数据；1至6个之间的音频块(AB0至AB5)，其包含经数据压缩的音频内容(并且也可以包括元数据)；浪费比特(W)，其包含在压缩音频内容之后剩余的任何未使用的比特；辅助(AUX)信息部分，该部分可以包含更多元数据；以及纠错字(CRC)。

在AC-3(或E-AC-3)比特流中，存在若干个专用于改变被传送到收听环境的节目的声音的音频元数据参数。其中一个元数据参数是包括在BSI片段中的DIALNORM参数。

如图3中所示，AC-3帧(或E-AC-3帧)的BSI片段包括指示该节目的DIALNORM值的5比特参数(“DIALNORM”)。如果AC-3帧的音频编码模式(“acmod”)是“0”，则包括指示在同一AC-3帧中携带的第二音频节目的DIALNORM值的5比特参数(“DIALNORM2”)，以指示正在使用双单声道或“1+1”声道配置。

BSI片段还包括指示紧跟在“addbsie”比特之后的附加比特流信息的存在(或不存在)的标志(“addbsie”)、指示紧跟在“addbsil”值之后的任何附加比特流信息的长度的参数(“addbsil”)、以及紧跟在“addbsil”值之后的至多64比特的附加比特流信息(“addbsi”)。

BSI片段包括未在图3中具体示出的其它元数据值。

已经提出在音频比特流中包括其它类型的元数据。例如，在国际申请日为2011年12月1日且被转让给本申请的受让人的PCT国际申请公开号WO 2012/075246A2中，描述了用于生成、解码和处理包括指示音频内容的特性(例如，响度)和处理状态(例如，响度处理状态)的元数据的音频比特流的方法和系统。该参考文献还描述了利用元数据对比特流的音频内容的自适应处理，以及利用元数据对比特流的音频内容的响度处理状态和响度的有效性验证。

还已知用于生成和渲染基于对象的音频节目的方法。在这种节目的生成过程中，通常假设要用于渲染的扬声器位于回放环境中的任意位置；不一定在(标称)水平面内或者在节目生成时已知的任何其它预定布置中。典型地，节目中所包括的元数据指示用于例如使用扬声器的三维阵列来在明显空间位置或者沿着轨迹(三维空间中)渲染节目的至少一个对象的渲染参数。例如，节目的对象声道可以具有相应的元数据，指示要渲染(由对象声道指示的)对象的明显空间位置的三维轨迹。轨迹可以包括一系列“地板”位置(在被假设位于回放环境的地板上或在另一水平面内的扬声器子集的平面内)、以及一系列“地板上方”位置(各自通过驱动被假设位于回放环境的至少一个其它水平面内的扬声器子集来确定)。例如，在2011年9月29日以国际公开No.WO2011/119401A2公开且被转让给本申请的受让人的PCT国际申请No.PCT/US2001/028783中，描述了对基于对象的音频节目的渲染的示例。

发明内容

根据本发明的一些实施例，(根据本发明生成的)基于对象的音频节目被渲染为提供对节目的音频内容的沉浸式、可个性化感知。典型地，内容指示在观赏型赛事(例如，足球或橄榄球赛、汽车或摩托车比赛、或其它体育赛事)上的气氛(即，其中出现的声音)、和/或现场解说。在一些实施例中，内容不指示观赏型赛事上的气氛或现场解说(例如，在一些实施例中，内容指示具有多个可选版本的对话和/或其它音频内容的有稿节目或电影节目)。在一些实施例中，节目的音频内容指示多个音频对象声道(例如，指示用户可选的对象或对象集合，并且典型地还有一组在不存在用户对对象的选择时要渲染的默认对象)和至少一组(在本文中有时被称为“一床(a bed of)”)扬声器声道。所述一床扬声器声道可以是可能被包括在不包括对象声道的常规广播节目中的类型的扬声器声道的常规混合(例如，5.1声道混合)。

在一些实施例中，由基于对象的音频节目指示(即，作为基于对象的音频节目的一部分被传送)的对象相关元数据在回放侧提供了混合交互性(例如，大程度的混合交互性)，包括通过允许终端用户选择节目的音频内容的混合以进行渲染，而不是仅仅允许回放预先混合的声场。例如，用户可以在由本发明的节目的典型实施例的元数据提供的渲染选项之间进行选择，以选择可用对象声道的子集来进行渲染，并且可选地还选择由要渲染的对象声道指示的至少一个音频对象(声音源)的回放水平。每个所选声音源被渲染的空间位置可以由包括在节目中的元数据预先确定，但是在一些实施例中，可以由用户选择(例如，经受预定的规则或约束)。在一些实施例中，节目中所包括的元数据允许用户从渲染选项菜单(例如，少量的渲染选项，例如，“主队人群噪声”对象、“主队人群噪声”和“主队现场解说”对象组、“客队人群噪声”对象、以及“客队人群噪声”和“客队现场解说”对象组)之间选择。菜单可以由控制器的用户界面呈现给用户。控制器典型地耦接(例如，通过无线链路)到被配置为(至少部分地)解码和渲染基于对象的节目的机顶设备(或其它设备，例如，TV、AVR、平板电脑或电话)。在一些其它实施例中，节目中所包括的元数据以其它方式允许用户从关于由对象声道指示的哪些对象应该被渲染以及关于要渲染的对象应该如何配置的一组选项之间选择。

在一类实施例中，本发明是生成基于对象的音频节目的方法(例如，包括通过对音频内容进行编码来生成节目)，使得节目能够以可个性化的方式渲染，以提供对节目的音频内容的沉浸式感知。其它实施例包括传送(例如，广播)、解码和/或渲染这种节目的步骤。由节目指示(包括在节目中)的音频对象的渲染可以提供沉浸式体验(例如，当回放系统包括三维扬声器阵列时，或者甚至当回放系统包括标称的二维扬声器阵列时)。

典型地，节目的音频内容指示多个音频对象(例如，用户可选的对象，并且典型地还有将在不存在用户选择的情况下渲染的一组默认对象)和一组(“一床”)扬声器声道。在一些实施例中，消费者使用(实现用户界面的)控制器来选择节目的对象声道内容(和相应的渲染参数)，但是控制器不提供让用户选择节目的扬声器声道内容(即，所述一床扬声器声道中的个体扬声器声道)的选项。

在一些实施例中，基于对象的音频节目是经编码的(例如，经压缩的)音频比特流(在本文中有时被称为“主混合”)，指示节目的至少一些(即，至少一部分)音频内容(例如，一床扬声器声道和至少一些节目对象声道)和对象相关元数据，并且可选地还有至少一个附加的比特流或文件(在本文中有时被称为“次混合”)，指示节目的一些音频内容(例如，至少一些对象声道)和/或对象相关元数据。

在一些实施例中，节目的对象相关元数据包括持久性元数据(例如，持久性元数据和非持久性元数据)。例如，对象相关元数据可以包括：可以在广播链(从内容创建设备到消费者的用户界面)中的至少一个点处改变的非持久性元数据(例如，针对用户可选的对象，默认水平和/或渲染位置或轨迹)、以及意欲在节目初始生成(通常，在内容创建设备中)之后就不可再改变(或者不能被改变)的持久性元数据。持久性元数据的示例包括用于节目的每个用户可选对象或其它对象或对象组的对象ID、以及指示每个用户可选对象或其它对象相对于所述一床扬声器声道的音频内容或节目的其它要素的定时的同步字(例如，时间码)。在从内容创建设备到用户界面的整个广播链中、在广播节目的整个持续时间内或者甚至还在节目的再次广播期间，典型地都保持持久性元数据。在一些实施例中，至少一个用户可选对象的音频内容(以及相关的元数据)在基于对象的音频节目的主混合中被发送，并且至少一些持久性元数据(例如，时间码)以及可选地还有至少一个其它对象的音频内容(以及相关的元数据)在节目的次混合中被发送。

在本发明的基于对象的音频节目的一些实施例中，持久性元数据被用来(例如，甚至在节目广播之后)保持用户选择的对象内容和床(扬声器声道)内容的混合。例如，每当用户观看特定类型的节目(例如，任何足球比赛)或者每次用户观看(任何类型的)任何节目时，这样可以提供选定的混合作为默认混合，直到用户改变他/她的选择。例如，在第一节目的广播期间，用户可以选择包括具有持久性ID的对象(例如，被识别为“主队人群噪声”对象的对象)的混合，然后每当用户观看(和收听)另一个节目(包括具有同一持久性ID的对象)时，回放系统将自动地以同一混合来渲染节目，直到用户改变混合选择。在本发明的基于对象的音频节目的一些实施例中，持久性的对象相关元数据可以使得在整个节目期间对某些对象的渲染是强制性的(例如，尽管用户期望废除这种渲染)。

在一些实施例中，对象相关元数据利用默认的渲染参数(例如，渲染对象的默认空间位置)来提供对象内容和床(扬声器声道)内容的默认混合。

在一些实施例中，对象相关元数据提供对象和“床”扬声器声道内容的一组可选“预设”混合，每个预设混合具有一组预定的渲染参数(例如，渲染对象的空间位置)。这些可以由回放系统的用户界面呈现为可用混合的有限菜单或选项板。每个预设混合(和/或每个可选对象)可以具有持久性ID(例如，名称、标签或徽标)，并且这种ID的指示典型地能够由回放系统的用户界面显示(例如，在iPad或其它控制器的屏幕上)。例如，不管对预设混合的每个对象的音频内容或非持久性元数据的细节的变化(例如，由广播公司所作的变化)如何，都可以存在具有持久性ID(例如，队伍徽标)的可选“主队”混合。

在一些实施例中，节目的对象相关元数据(或者非由与节目一起传送的元数据指示的回放或渲染系统的预配置)提供对于对象和床(扬声器声道)内容的可选混合的约束或条件。例如，如果采用了数字版权管理(DRM)，则可以实现DRM分层，以允许消费者“分层”访问在基于对象的音频节目中所包括的一组音频对象。如果消费者(例如，向广播公司)支付更多的钱，则消费者可以有权解码和选择(和听到)节目的更多音频对象。对于另一个示例，对象相关元数据可以就对象的用户选择提供约束(例如，如果“主队人群噪声”对象和“主队播音员”对象都被选择，则元数据确保这两个对象被以预定的相对空间位置渲染)。约束可以(至少部分地)由关于回放系统的数据(例如，用户输入的数据)确定。例如，如果回放系统是立体声系统(只包括两个扬声器)，则系统的对象处理子系统可以被配置为防止用户选择不能仅通过两个扬声器以足够的空间分辨率渲染的混合(由对象相关元数据识别)。对于另一个示例，出于由对象相关元数据(和/或输入到回放系统的其它数据)指示的法律(例如，DRM)原因或其它原因(例如，基于传输信道的带宽)，可以从可选对象的类别中移除一些传送的对象。用户可以为更多的带宽而向内容创建者或广播公司付费，并且作为结果，可以被允许从可选对象和/或床/对象混合的更大菜单中进行选择。

在一些实施例中，本发明实现基于规则的对象声道选择，在所述基于规则的对象声道选择中，至少一个预定规则确定基于对象的音频节目的哪些对象声道被渲染(例如，利用一床扬声器声道)。典型地，用户指定针对对象声道选择的至少一个规则(例如，通过从由回放系统控制器的用户界面呈现的可用规则菜单中选择)，并且回放系统应用每个这种规则来确定基于对象的音频节目的哪些对象声道应该被包括在要渲染的声道的混合中。回放系统可以根据节目中的对象相关元数据来确定节目的哪些对象声道满足预定规则。

在一些实施例中，本发明的基于对象的音频节目包括并行地生成和发送的一组比特流(多个比特流，可以被称为“子流”)。典型地，利用多个解码器来对它们进行解码(例如，节目包括多个E-AC-3子流，回放系统利用多个E-AC-3解码器来解码子流)。典型地，每个子流包括对象声道的全集的不同子集和相应的对象相关元数据，并且至少一个子流包括一床扬声器声道。每个子流优选地包括同步字(例如，时间码)，以允许子流彼此同步或时间对齐。例如，在每个子流中，包括对象声道内容和对象相关元数据的每个容器包括唯一的ID或时间戳。

对于另一个示例，并行地生成和发送一组N个本发明的杜比E比特流。每个这种杜比E比特流包括一系列突发(burst)。每个突发可以携带扬声器声道音频内容(一“床”扬声器声道)和本发明的对象声道的完整对象声道组(其可以是大的集合)的子集以及对象相关元数据(即，每个突发可以指示完整对象声道组中的一些对象声道和相应的对象相关元数据)。组中的每个比特流包括同步字(例如，时间码)，以允许组中的比特流彼此同步或时间对齐。例如，在每个比特流中，包括对象声道内容和对象相关元数据的每个容器可以包括唯一的ID或时间戳，以允许组中的比特流彼此同步或时间对齐。

本发明的一些实施例(例如，本发明的回放系统的一些实施例)实现了分布式渲染。例如，节目的选定对象声道(以及相应的对象相关元数据)从机顶设备(STB)(与一床解码的扬声器声道一起)传递到下游设备(例如，AVR或条形音箱)，所述下游设备被配置为渲染对象声道与所述一床扬声器声道的混合。STB可以部分地渲染音频，并且下游设备可以完成渲染(例如，通过生成用于驱动特定顶层扬声器(例如，天花板扬声器)的扬声器馈送，以将音频对象布置在特定的明显源位置，其中STB的输出仅指示该对象可以在一些未指定的顶层扬声器中以某种未指定的方式渲染)。例如，STB可能不知道回放系统的扬声器的特定组织，但是下游设备(例如，AVR或条形音箱)可以知道这些。

在一些实施例中，基于对象的音频节目是或者包括至少一个AC-3(或E-AC-3)比特流，并且该节目的包括对象声道内容(和/或对象相关元数据)的每个容器被包括在比特流的帧尾的辅助数据(auxdata)字段(例如，图1或图4中所示的AUX片段)中，或者在比特流的“跳过字段”片段中。在一些这种实施例中，AC-3或E-AC-3比特流的每一帧包括一个或两个元数据容器。一个容器可以包括在帧的Aux字段中，而另一个容器可以包括在帧的addbsi字段中。每个容器具有核心头部并且包括(或关联)一个或更多个有效载荷。(Aux字段中所包括的容器的或者与其关联的)一个这种有效载荷可以是(与同样由节目指示的所述一床扬声器声道相关的)一个或更多个本发明的对象声道中的每一个的音频样本组和与每个对象声道关联的对象相关元数据。每个容器的核心头部典型地包括至少一个ID值，该ID值指示在该容器中所包括或关联的有效载荷的类型；子流关联指示(指示核心头部与哪些子流关联)；以及保护比特。典型地，每个有效载荷有它自己的头部(或“有效载荷标识符”)。对象级的元数据可以携带在作为对象声道的每个子流中。

在其它实施例中，基于对象的音频节目是或者包括非AC-3比特流或E-AC-3比特流的比特流。在一些实施例中，基于对象的音频节目是或者包括至少一个杜比E比特流，并且节目的对象声道内容和对象相关元数据(例如，包括对象声道内容和对象相关元数据的节目的每个容器)被包括在杜比E比特流的一般不携带有用信息的比特位置中。杜比E比特流的每个突发占用的时间段等于相应视频帧的时间段。对象声道(和对象相关元数据)可以被包括在杜比E突发之间的保护带内和/或每个杜比E突发内的每个数据结构(各具有AES3帧格式)中的未使用比特位置。例如，每个保护带包含一系列片段(例如，100个片段)，每个保护带的前X个(例如，X＝20)片段中的每一个包括对象声道和对象相关元数据，并且所述每个保护带的剩余片段中的每一个可以包括保护带符号。在一些实施例中，杜比E比特流的对象声道和对象相关元数据被包括在元数据容器中。每个容器具有核心头部并且包括(或关联)一个或更多个有效载荷。(Aux字段中所包括的容器的或与其关联的)一个这种有效载荷可以是(与同样由节目指示的一床扬声器声道相关的)一个或更多个本发明的对象声道中的每一个的音频样本组以及与每个对象声道关联的对象相关元数据。每个容器的核心头部典型地包括至少一个ID值，该ID值指示该容器中所包括或关联的有效载荷的类型；子流关联指示(指示核心头部与哪些子流关联)；以及保护比特。典型地，每个有效载荷有它自己的头部(或“有效载荷标识符”)。对象级的元数据可以携带在作为对象声道的每个子流中。

在一些实施例中，广播设备(例如，这种设备中的编码系统)基于捕捉到的声音来生成多个音频表示(基于对象的音频节目)(例如，5.1扁平化混合(5.1flattened mix)、国际混合(international mix)、国内混合(domestic mix))。例如，节目的所述一床扬声器声道和/或可选对象(或者用于渲染并混合对象的可选或不可选的渲染参数)的菜单可以因节目而有所不同。

在一些实施例中，基于对象的音频节目是可解码的，并且其扬声器声道内容可以由(不被配置为解析本发明的对象声道和对象相关元数据的)传统解码器和传统渲染系统渲染。相同的节目可以根据本发明的一些实施例由(根据本发明的实施例)被配置为解析本发明的对象声道和对象相关元数据并且渲染扬声器声道与由节目指示的对象声道内容的混合的机顶设备(或者其它解码和渲染系统，例如，TV、AVR、平板电脑或电话)渲染。

根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道、以及指示分层图(有时被称为分层“混合图”)的元数据，其中分层图指示扬声器声道和对象声道的可选混合(例如，所有可选的混合)。例如，混合图指示适用于选择扬声器和对象声道的子集的每个规则。典型地，经编码的音频比特流指示节目的至少一些(即，至少一部分)音频内容(例如，一床扬声器声道和节目的至少一些对象声道)和对象相关元数据(包括指示混合图的元数据)，并且可选地还有至少一个附加的编码音频比特流或文件指示节目的一些音频内容和/或对象相关元数据。

分层混合图指示节点(每个节点可以指示可选的声道或声道组，或一类可选的声道或声道组)和节点之间的连接(例如，到用于选择声道的规则和/或节点的控制接口)，并且包括必要数据(“基本”层)和可选的(即，可选择性地略去的)数据(至少一个“扩展”层)。典型地，分层混合图被包括在指示节目的编码音频比特流之一中，并且可以通过(例如，由回放系统实现的)图遍历进行评估，以确定声道的默认混合和用于修改默认混合的选项。

当混合图可表示为树图时，基本层可以是该树图的树枝(或两个或更多个树枝)，而每个扩展层可以是树图的另一个树枝(或另一组两个或更多个树枝)。例如，树图的(由基本层指示的)一个树枝可以指示对所有终端用户可用的可选声道和声道组，并且树图的(由扩展层指示的)另一树枝可以指示只对某些终端用户可用的附加可选声道和/或声道组(例如，这种扩展层可以仅提供给有权使用它的终端用户)。

典型地，基本层包含(指示)图结构和到图的节点的控制接口(例如，摇摄(panning)，和增益控制接口)。对于把任何用户交互映射到解码/渲染过程，基本层是必要的。

每个扩展层包含(指示)对基本层的扩展。对于把用户交互映射到解码过程，扩展不是立即需要的并且因此可以以较慢的速率发送和/或延迟，或者省略。

根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道，以及指示混合图(可以是或者可以不是分层混合图)的元数据，其中混合图指示扬声器声道和对象声道的可选混合(例如，所有可选混合)。经编码的音频比特流(例如，杜比E或E-AC-3比特流)指示节目的至少一部分，并且指示混合图的元数据(并且典型地还有可选择的对象和/或扬声器声道)被包括在比特流的每一帧中(或者比特流的帧子集的每一帧中)。例如，每一帧可以包括至少一个元数据片段和至少一个音频数据片段，并且混合图可以被包括在每帧的至少一个元数据片段中。每个元数据片段(可以被称为“容器”)可以具有包括元数据片段头部(以及可选地还有其它元素)和跟在元数据片段头部之后的一个或更多个元数据有效载荷的格式。每个元数据有效负载本身由有效载荷头部识别。如果在元数据片段中存在混合图，则混合图被包括在元数据片段的元数据有效载荷之一中。

根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式被处理的)基于对象的音频节目包括至少两床扬声器声道、至少一个对象声道、以及指示混合图(可以是或者可以不是分层混合图)的元数据。混合图指示扬声器声道和对象声道的可选混合(例如，所有可选混合)，并且包括至少一个“床混合”节点。每个“床混合”节点定义扬声器声道床的预定混合，并且因此指示或实现一组预定的混合规则(可选地具有用户可选的参数)，以便混合节目的两个或更多个扬声器床的扬声器声道。

在另一类实施例中，根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括子流，并且子流指示至少一床扬声器声道、至少一个对象声道、以及对象相关元数据。对象相关元数据包括“子流”元数据(指示节目的子流结构和/或子流应该被解码的方式)，并且典型地还有指示扬声器声道和对象声道的可选混合(例如，所有可选混合)的混合图。子流元数据可以指示：节目的哪些子流应该与节目的其它子流相独立地被解码，以及节目的哪些子流应该与节目的至少一个其它子流相关联地被解码。

在示例性实施例中，基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道、以及元数据。元数据包括“子流”元数据(指示节目的音频内容的子流结构和/或节目的音频内容的子流应当该被解码的方式)以及典型地还有指示扬声器声道和对象声道的可选混合的混合图。音频节目与足球赛关联。经编码的音频比特流(例如，E-AC-3比特流)指示节目的音频内容和元数据。节目的(以及因此比特流的)音频内容包括至少两个独立的子流。一个独立的子流指示5.1扬声器声道床，该5.1扬声器声道床指示足球赛时的中立人群噪声。另一个独立的子流指示2.0声道“A队”床、2.0声道“B队”床和单声道对象声道，该2.0声道“A队”床指示来自偏向一支队(“A队”)的比赛人群部分的声音，该2.0声道“B队”床指示来自偏向另一支队(“B队”)的比赛人群部分的声音，该单声道对象声道指示对比赛的现场解说。比特流的子流元数据指示：在解码期间，应当在每对独立子流之间“关闭”耦合(使得每个独立子流与其它独立子流相独立被解码)，并且比特流的子流元数据指示每个子流内的应当“打开”耦合(使得这些声道不彼此独立地被解码)或“关闭”耦合(使得这些声道彼此独立地被解码)。例如，子流元数据指示，在第二子流的两个立体声扬声器声道床(2.0声道“A队”床和2.0声道“B队”床)的每一个内部，应当“打开”耦合；但是跨越第二子流的扬声器声道床以及在第二子流的单声道对象声道与每个扬声器声道床之间被禁用(以使得单声道对象声道和扬声器声道床彼此独立地被解码)。类似地，子流元数据指示：在第一子流I0的5.1扬声器声道床内部，应当“打开”耦合。

本发明的另一个方面是被配置为执行本本发明的方法的任何实施例的音频处理单元(APU)。在另一类实施例中，本发明是APU，包括(例如，以非暂态方式)存储已经由本发明的方法的任何实施例生成的基于对象的音频节目的至少一个帧或其它片段(包括对象声道和一床扬声器声道的音频内容、以及对象相关元数据)的缓冲存储器(缓冲区)。APU的示例包括但不限于编码器(例如，转码器)、解码器、编解码器、预处理系统(预处理器)、后处理系统(后处理器)、音频比特流处理系统、以及这些元素的组合。

本发明的各方面包括被配置为(例如，被编程为)执行本发明的方法的任何实施例的系统或设备，以及(例如，以非暂态方式)存储有用于实现本发明的方法或其步骤的任何实施例的代码的计算机可读介质(例如，盘)。例如，本发明的系统可以是或者包括可编程的通用处理器、数字信号处理器或微处理器，被用软件或固件编程和/或以其它方式被配置为对数据执行各种操作中的任何操作，包括本发明的方法或步骤的实施例。这种通用处理器可以是或者包括含有以下的计算机系统：输入设备、存储器和被编程为(和/或以其它方式被配置为)响应于对其断言的数据来执行本发明的方法(或其步骤)的实施例的处理电路。

附图说明

图1是AC-3帧的图，包括被分成的片段。

图2是AC-3帧的同步信息(SI)片段的图，包括被分成的片段。

图3是AC-3帧的比特流信息(BSI)片段的图，包括被分成的片段。

图4是E-AC-3帧的图，包括被分成的片段。

图5是可以被配置为执行本发明的方法的实施例的系统的实施例的图。

图6是根据本发明的实施例而配置的回放系统的框图。

图7是根据本发明的另一种实施例而配置的回放系统的框图。

图8是被配置为根据本发明的实施例来生成基于对象的音频节目(和相应的视频节目)的广播系统的框图。

图9是本发明的节目的实施例的对象声道之间的关系图，指示对象声道的哪些子集可被用户选择。

图10是实现本发明实施例的系统的框图。

图11是根据本发明的实施例而生成的基于对象的音频节目的内容的图。

符号和命名

贯穿本公开内容，包括在权利要求中，“对”信号或数据执行操作(例如，对信号或数据进行过滤、缩放、变换或施加增益)的表述广义地用来表示直接对信号或数据或者对信号或数据的处理版本(例如，对在执行操作之前经历了初步过滤或预处理的信号版本)执行操作。

贯穿本公开内容，包括在权利要求中，表述“系统”广义地用来表示设备、系统或子系统。例如，实现解码器的子系统可以被称为解码器系统，而包括这种子系统的系统(例如，响应于多个输入来生成X个输出信号的系统，其中子系统生成其中M个输入而其它X-M个输入从外部源中接收)也可以被称为解码器系统。

贯穿本公开内容，包括在权利要求中，术语“处理器”广义地用来表示可编程为或者(例如，用软件或固件)以其它方式被配置为对数据(例如，音频或视频或其它图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或者其它可配置的集成电路或芯片集)、被编程为或者以其它方式被配置为对音频或其它声音数据执行流水线处理的数字信号处理器、可编程的通用处理器或计算机、以及可编程的微处理器芯片或芯片集。

贯穿本公开内容，包括在权利要求中，表述“音频视频接收器”(或者“AVR”)表示用来控制音频和视频内容的回放的一类消费者电子器材中的接收器，例如在家庭影院中。

贯穿本公开内容，包括在权利要求中，表述“条形音箱”表示如下设备：该设备是一种类型的消费者电子器材(典型地安装在家庭影院系统中)，并且包括至少一个扬声器(典型地，至少两个扬声器)和用于渲染音频以便由每个内含扬声器回放(或者以便由每个内含扬声器和该条形音箱外部的至少一个附加扬声器回放)的子系统。

贯穿本公开内容，包括在权利要求中，表述“音频处理器”和“音频处理单元”可交换使用，并且广义地用来表示被配置为对音频数据进行处理的系统。音频处理单元的示例包括但不限于编码器(例如，转码器)、解码器、编解码器、预处理系统、后处理系统、以及比特流处理系统(有时被称为比特流处理工具)。

贯穿本公开内容，包括在权利要求中，表述“元数据”(例如，就像在表述“处理状态元数据”中)指的是与相应音频数据(也包括元数据的比特流的音频内容)分离且不同的数据。元数据与音频数据关联，并且指示音频数据的至少一个特征或特性(例如，对音频数据已经执行或应该执行什么类型的处理，或者由音频数据指示的对象的轨迹)。元数据与音频数据的关联是时间同步的。因此，当前的(最近接收或更新的)元数据可以指示：相应的音频数据同时具有所指示的特征和/或包括所指示类型的音频数据处理的结果。

贯穿本公开内容，包括在权利要求中，术语“耦接”或“被耦接”用来指直接或间接连接。因此，如果第一设备耦接到第二设备，则连接可以是通过直接连接，或者通过经由其它设备和连接的间接连接。

贯穿本公开内容，包括在权利要求中，以下表述具有以下定义：

扬声器和扬声器同义地用来表示任何发声换能器。这个定义包括被实现为多个换能器的扬声器(例如，低音喇叭和高音喇叭)；

扬声器馈送：要直接施加给扬声器的音频信号，或者要施加给串联的放大器和扬声器的音频信号；

声道(或“音频声道”)：单声道音频信号。这种信号可以典型地以这种方式渲染：使得相当于直接对期望的或标称的位置处的扬声器施加信号。期望的位置可以是静止的，就像典型地具有物理扬声器的情况，或者可以是动态的；

音频节目：一个或更多个音频声道的集合(至少一个扬声器声道和/或至少一个对象声道)并且可选地还有关联的元数据(例如，描述期望的空间音频呈现的元数据)；

扬声器声道(或者“扬声器馈送声道”)：与(在期望或标称位置的)指定扬声器或者与既定扬声器配置内的指定扬声器区关联的音频声道。扬声器声道以这种方式渲染：使得相当于直接对(在期望或标称位置的)指定扬声器或扬声器区中的扬声器施加音频信号。

对象声道：指示由音频源(有时被称为音频“对象”)发出的声音的音频声道。典型地，对象声道确定参数化音频源描述(例如，指示参数化音频源描述的元数据被包括在对象声道中或者与对象声道一起提供)。源描述可以确定由源发出的声音(作为时间的函数)、作为时间的函数的明显源位置(例如，3D空间坐标)、可选地还有表征源的至少一个附加参数(例如，明显源尺寸或宽度)；

基于对象的音频节目：包括一个或更多个对象声道的集合(并且可选地还包括至少一个扬声器声道)以及可选地还有关联的元数据(例如，指示发出由对象声道指示的声音的音频对象的轨迹的元数据，或者以其它方式指示由对象声道指示的声音的期望空间音频呈现的元数据，或者指示作为由对象声道指示的声音的源的至少一个音频对象的标识的元数据)的音频节目；及

渲染：将音频节目转换成一个或更多个扬声器馈送的过程，或者将音频节目转换成一个或更多个扬声器馈送并且使用一个或更多个扬声器来将扬声器馈送转换成声音的过程(在后一种情况下，渲染有时候在本文被称为“由”扬声器渲染)。可以通过直接向期望位置处的物理扬声器施加信号来(在期望的位置“处”)平常地渲染音频声道，或者可以使用被设计为基本上等效于(对听众而言)这种平常渲染的各种虚拟化技术之一来渲染一个或更多个音频声道。在后一种情况下，每个音频声道可以被转换为要施加给位于已知位置的扬声器的一个或更多个扬声器馈送，所述已知位置一般与期望的位置不同，使得由扬声器响应于馈送而发出的声音将被感知为是从期望位置发出的。这种虚拟化技术的示例包括经由头戴式耳机的双耳渲染(例如，使用杜比头戴式耳机的处理，这种处理为头戴式耳机佩戴者模拟高达7.1声道的环绕声)和波场合成。

具体实施方式

在一些实施例中，本发明是用于传送基于对象的音频以便广播的方法和系统，该方法和系统包括改进的渲染过程(其中消费者可以交互式地控制所渲染节目的各方面)，并且典型地还包括改进的实时广播工作流和/或改进的后期制作工作流。

图5是音频处理链(音频数据处理系统)的示例的框图，其中该系统的一个或更多个元件可以根据本发明的实施例来配置。该系统包括如图所示耦接到一起的以下元件：捕捉单元1、制作单元3(包括编码子系统)、传送子系统5、解码器7、对象处理子系统9、控制器10、以及渲染子系统11。在所示系统的变型中，省略其中的一个或更多个元件，或者包括额外的音频数据处理单元。典型地，元件7、9、10和11被包括在回放系统(例如，终端用户的家庭影院系统)中。

捕捉单元1典型地被配置为生成包括音频内容的PCM(时域)样本，并且输出PCM样本。样本可以指示由麦克风(例如，在体育赛事或者其它观赏型赛事)捕捉的多个音频流。典型地由广播公司操作的制作单元3被配置为接受PCM样本作为输入并且输出指示音频内容的基于对象的音频节目。节目通常是或者包括指示至少一些音频内容的经编码的(例如，经压缩的)音频比特流(有时在本文中被称为“主混合”)，并且可选地还包括指示一些音频内容的至少一个附加比特流或文件(有时在本文中被称为“次混合”)。指示音频内容的编码比特流(以及，如果生成了的话，则还有每个生成的次混合)的数据在本文中有时被称为“音频数据”。如果制作单元3的编码子系统是根据本发明的典型实施例配置的，则从单元3输出的基于对象的音频节目指示(即，包括)音频数据的多个扬声器声道(一“床”扬声器声道)、音频数据的多个对象声道、以及对象相关元数据。节目可以包括主混合，主混合又包括指示一床扬声器声道的音频内容、指示至少一个用户可选的对象声道(以及可选地至少一个其它对象声道)的音频内容、以及与每个对象声道关联的对象相关元数据。节目还可以包括至少一个次混合，次混合包括指示至少一个其它对象声道(例如，至少一个用户可选的对象声道)的音频内容和/或对象相关元数据。节目的对象相关元数据可以包括持久性元数据(下面将描述)。节目(例如，其主混合)可以指示一个扬声器声道或一床扬声器声道，或者没有一床扬声器声道。例如，主混合可以指示两床或更多床扬声器声道(例如，5.1声道中立人群噪声床、2.0声道主队人群噪声床、以及2.0客队人群噪声床)，包括至少一个用户可选的床(这可以使用用于对对象声道内容或配置进行用户选择的同一用户界面来选择)和默认床(这将在不存在对另一个床的用户选择时被渲染)。默认床可以由指示回放系统的扬声器组的配置(例如，初始配置)的数据确定，并且可选地，用户可以选择另一个床代替默认床来渲染。

图5的传送子系统5被配置为存储和/或发送(例如，广播)由单元3生成的节目(例如，主混合及其每个次混合，如果有任何次混合生成的话)。

在一些实施例中，子系统5实现基于对象的音频节目的传送，其中音频对象(以及至少一些相应的对象相关元数据)通过广播系统发送(在节目的主混合中，由所广播的音频比特流指示)，而节目的至少一些对象相关元数据(例如，指示对节目的对象声道的渲染或混合的约束的元数据)和/或至少一个对象声道以另一种方式(例如，次混合通过因特网协议或“IP”网络被发送到特定的终端用户)被传送(作为主混合的“次混合”)。作为替代，终端用户的解码和/或渲染系统被用至少一些对象相关元数据(例如，指示对本发明的基于对象的音频节目的实施例的音频对象的渲染或混合的约束的元数据)来预配置，并且这种对象相关元数据不(由子系统5)利用相应的对象声道(在基于对象的音频节目的主混合中或者在次混合中)来广播或以其它方式传送。

在一些实施例中，通过单独路径传送的基于对象的音频节目的部分或元素(例如，通过广播系统广播的主混合，以及作为次混合通过IP网络发送的相关元数据)的定时和同步由通过所有传送路径(例如，在主混合和每个相应的次混合中)发送的同步字(例如，时间码)提供。

再次参照图5，解码器7接受(接收或读取)由传送子系统5传送的节目(或者节目的至少一个比特流或其它元素)，并且解码该节目(或者该节目的每个被接受的元素)。在本发明的一些实施例中，节目包括主混合(编码比特流，例如，AC-3或E-AC-3编码比特流)和主混合的至少一个次混合，并且解码器7接收并解码主混合(以及可选地还有至少一个次混合)。可选地，该节目中的不需要被解码的至少一个次混合(例如，对象声道)由子系统5直接传送到对象处理子系统9。如果解码器7是根据本发明的典型实施例配置的，则在典型的操作中解码器7的输出包括以下：

指示节目的扬声器声道床的音频样本流；及

指示节目的对象声道(例如，用户可选的音频对象声道)的音频样本流和对应的对象相关元数据流。

对象处理子系统9被耦接为(从解码器7)接收所传送节目的经解码的扬声器声道、对象声道和对象相关元数据，并且可选地还有节目的至少一个次混合(指示至少一个其它对象声道)。例如，子系统9可以(从解码器7)接收节目的扬声器声道的音频样本和节目的至少一个对象声道的音频样本以及节目的对象相关元数据，并且还可以(从传送子系统5)接收节目的至少一个其它对象声道的音频样本(尚未在解码器7中经历解码)。

子系统9被耦接和配置为向渲染子系统11输出由节目指示的整组对象声道的选定子集、以及对应的对象相关元数据。子系统9典型地还被配置为不作改变地(向子系统11)传递来自解码器7的经解码的扬声器声道，并且可以被配置为处理对其断言的对象声道(和/或元数据)中的至少一些，以生成它向子系统11断言的对象声道和元数据。

由子系统9执行的对象声道选择典型地是通过(如由从控制器10向子系统9断言的控制数据指示的)用户选择和/或子系统9已经被编程为或以其它方式被配置为实现的规则(例如，指示条件和/或约束)确定的。这种规则可以由节目的对象相关元数据和/或由(例如，从控制器10或另一外部源)向子系统9断言的其它数据(例如，指示回放系统的扬声器阵列的能力和组织的数据)和/或通过预配置(例如，编程)子系统9来确定。在一些实施例中，控制器10(经由控制器10实现的用户界面)向用户提供(例如，在触摸屏上显示)对象与“床”扬声器声道内容的可选“预设”混合的菜单或选项板。可选的预设混合可以由节目的对象相关元数据并且通常还由子系统9实现的规则(例如，子系统9已被预配置为实现的规则)确定。用户通过向控制器10输入命令(例如，通过致动其触摸屏)来从可选的混合中进行选择，并且作为响应，控制器10向子系统9断言对应的控制数据。

图5的渲染子系统11被配置为渲染由子系统9的输出确定的音频内容，以便由回放系统的扬声器(未示出)回放。子系统11被配置为：利用从子系统9输出的、与每个选定对象关联的渲染参数(例如，用户选择的和/或默认的空间位置值和水平值)，把由对象处理子系统9选择的对象声道确定的音频对象(例如，默认对象，和/或作为用户使用控制器10进行交互的结果而被选择的用户选定对象)映射到可用的扬声器声道。至少一些渲染参数是由从子系统9输出的对象相关元数据确定的。渲染子系统11还接收通过子系统9传递的扬声器声道床。典型地，子系统11是智能混合器，并且被配置为确定用于可用扬声器的扬声器馈送，包括通过把一个或更多个选择的(例如，默认选择的)对象映射到多个单独的扬声器声道中的每一个，并且使对象与由节目的扬声器声道床中的每个相应扬声器声道指示的“床”音频内容混合。

图6是本发明的回放系统的实施例的框图，该回放系统包括如图所示那样耦接的解码器20、对象处理系统22、空间渲染子系统25、(实现用户界面的)控制器23、以及可选地还有数字音频处理子系统25、26和27。在一些实现方式中，图6系统的元件20、22、24、25、26、27、29、31和33被实现为机顶设备。

在图6的系统中，解码器20被配置为接收和解码指示基于对象的音频节目(或者基于对象的音频节目的主混合)的编码信号。节目(例如，节目的主混合)指示包括至少两个扬声器声道(即，一“床”至少两个扬声器声道)的音频内容。节目还指示至少一个用户可选的对象声道(以及可选地至少一个其它对象声道)和对应于每个对象声道的对象相关元数据。每个对象声道指示音频对象，因此为了方便，对象声道有时在本文中被称为“对象”。在实施例中，节目是AC-3或E-AC-3比特流(或者包括作为AC-3或E-AC-3比特流的主混合)，指示音频对象、对象相关元数据以及一床扬声器声道。典型地，单独的音频对象被单声道编码或者立体声编码(即，每个对象声道指示对象的左或右声道，或者是指示对象的单声道)，所述床是传统的5.1混合，并且解码器20可以被配置为同时解码多达16个声道的音频内容(包括所述床的6个扬声器声道，以及多达10个对象声道)。进入的E-AC-3(或AC-3)比特流可以指示多于10个音频对象，因为它们不是全都需要被解码来实现特定的混合。

在本发明的回放系统的一些实施例中，进入的E-AC-3(或AC-3)编码比特流的每帧包括一个或两个元数据“容器”。进入的比特流指示基于对象的音频节目或者这种节目的主混合，并且节目的扬声器声道被组织作为常规的E-AC-3(或AC-3)比特流的音频内容。一个容器可以被包括在所述帧的Aux字段中，而另一个容器可以被包括在所述帧的addbsi字段中。每个容器具有核心头部并且包括(或关联)一个或更多个有效载荷。(Aux字段中所包括的容器的或者与其关联的)一个这种有效载荷可以是(与同样由节目指示的一床扬声器声道有关的)一个或更多个本发明的对象声道中的每一个对象声道的一组音频样本和与每个对象声道关联的对象相关元数据。在这种有效载荷中，一些或全部对象声道的样本(和关联的元数据)可以被组织为标准的E-AC-3(或AC-3)帧，或者可以以其它方式组织(例如，它们可以被包括在与E-AC-3或AC-3比特流不同的次混合中)。(addbsi字段或Aux字段中所包括的容器的或者与其关联的)另一个这种有效载荷的示例是一组与帧的音频内容关联的响度处理状态元数据。

在一些这种实施例中，解码器(例如，图6的解码器20)将解析Aux字段中的容器的核心头部，并且从容器(例如，从AC-3或E-AC-3帧的Aux字段)和/或从由核心头部指示的位置(例如，次混合)提取本发明的对象声道和关联的元数据。在提取有效载荷(对象声道和关联的元数据)之后，解码器将对所提取的有效载荷执行任何必要的解码。

每个容器的核心头部典型地包括：至少一个ID值，指示容器所包括或者关联的有效载荷的类型；子流关联指示(指示核心头部与哪些子流关联)；以及保护比特。这种保护比特(可以包含或者包括基于散列(hash-based)的消息认证码或“HMAC”)典型地有益于对被包括在容器中或者与其关联的至少一个有效载荷中的对象相关元数据和/或响度处理状态元数据(以及可选地还有其它元数据)和/或被包括在帧中的对应音频数据的解密、认证或确认之一。子流可以位于“带内”(在E-AC-3或AC-3比特流中)或者“带外”(例如，在与E-AC-3或AC-3比特流分开的次混合比特流中)。一种类型的这种有效载荷是(与同样由节目指示的所述一床扬声器声道有关的)一个或更多个本发明的对象声道的一组音频样本和与每个对象声道关联的对象相关元数据。每个对象声道是单独的子流，并且典型地将在核心头部中被标识。另一种类型的有效载荷是响度处理状态元数据。

典型地，每个有效载荷具有它自己的头部(或者“有效载荷标识符”)。对象级的元数据可以携带在作为对象声道的每个子流中。节目级的元数据可以被包括在容器的核心头部中和/或在用于有效载荷的头部中，其中有效载荷是一个或更多个本发明的对象声道的一组音频样本(以及与每个对象声道关联的元数据)。

在一些实施例中，所述帧的auxdata(或addbsi)字段中的每个容器具有三级结构：

高级结构，包括指示auxdata(或addbsi)字段是否包括元数据的标志(其中在这种语境下的“元数据”表示本发明的对象声道、本发明的对象相关元数据、以及由比特流携带但是一般不携带在缺乏所述类型的任何容器的常规E-AC-3或AC-3比特流中的任何其它音频内容或元数据)、指示存在什么类型的元数据的至少一个ID值，并且通常还包括(如果元数据存在的话)指示存在多少比特的(例如，每种类型的)元数据的值。在这种语境下，一个这种“类型”的元数据的示例是本发明的对象声道数据和关联的对象相关元数据(即，(与同样由节目指示的所述一床扬声器声道有关的)一个或更多个对象声道中的每一个对象声道的一组音频样本以及与每个对象声道关联的元数据)；

中间级结构，包括用于每种识别类型的元数据的核心元素(例如，对于每种识别类型的元数据，例如上述类型的核心头部、保护值、以及有效载荷ID和有效载荷尺寸值)；及

低级结构，如果核心元素识别出存在至少一个这种有效载荷，则包括用于一个核心元素的每个有效载荷。这种有效载荷的示例是(与同样由节目指示的所述一床扬声器声道有关的)一个或更多个对象声道中的每一个对象声道的一组音频样本以及与每个对象声道关联的元数据。这种有效载荷的另一个示例是包括响度处理状态元数据(“LPSM”)的有效载荷，有时被称为LPSM有效载荷。

这种三级结构中的数据值可以嵌套。例如，在核心元素识别出的每个有效载荷之后(因此在核心元素的核心头部之后)，可以包括由核心元素识别出的有效载荷(例如，LPSM有效载荷)的保护值。在一个示例中，核心头部可以识别第一有效载荷(例如，LPSM有效载荷)和另一有效载荷，第一有效载荷的有效载荷ID和有效载荷尺寸值可以跟在核心头部之后，第一有效载荷自身可以跟在所述ID和尺寸值之后，第二有效载荷的有效载荷ID和有效载荷尺寸值可以跟在第一有效载荷之后，第二有效载荷自身可以跟在这些ID和尺寸值之后，并且任何一个或两个有效载荷(或者核心元素和任何一个或两个有效载荷)的保护值可以跟在最后一个有效载荷之后。

再次参照图6，用户利用控制器23来选择要渲染的对象(由基于对象的音频节目指示)。控制器23可以是被编程为实现与图6系统的其它元素兼容的用户界面(例如，iPad应用)的手持式处理设备(例如，iPad)。用户界面可以向用户提供(例如，在触摸屏上显示)对象与“床”扬声器声道内容的可选“预设”混合的菜单或选项板。可选的预设混合可以由节目的对象相关元数据并且通常还由子系统22实现的规则(例如，子系统22已被预配置为实现的规则)确定。用户通过向控制器23输入命令(例如，通过致动其触摸屏)来选择可选的混合，并且作为响应，控制器23将向子系统22断言相应的控制数据。

解码器20解码节目的所述一床扬声器声道的扬声器声道，并且向子系统22输出经解码的扬声器声道。响应于基于对象的音频节目，并且响应于来自控制器23的、指示要渲染的节目的整组对象声道的选定子集的控制数据，解码器20解码(如果必要的话)所选定的对象声道，并且向子系统22输出所选定的(例如，经解码的)对象声道(其中每个都可以是脉冲编码调制的或“PCM”比特流)、以及对应于选定对象声道的对象相关元数据。

由解码的对象声道指示的对象通常是或者包括用户可选的音频对象。例如，如图6中所示，解码器可以提取5.1扬声器声道床、指示来自主队城市的播音员的现场解说的对象声道(“现场解说-1单声道”)、指示来自客队城市的播音员的现场解说的对象声道(“现场解说-2单声道”)、指示体育赛事现场的主队粉丝的人群噪声的对象声道(“粉丝(主)”)、指示比赛用球在被体育赛事参与者撞击时产生的声音的左和右对象声道(“球声立体声”)、以及指示特效的四个对象声道(“效果4x单声道”)。“现场解说-1单声道”、“现场解说-2单声道”、“粉丝(主)”、“球声立体声”和“效果4x单声道”对象声道中的任何一个都可以(在解码器20中经历任何必要的解码之后)被选择，并且它们中的每个选定对象声道都将从子系统22传递到渲染子系统24。

除了来自解码器20的经解码的扬声器声道、经解码的对象声道和经解码的对象相关元数据之外，对象处理子系统22的输入还可选地包括向系统断言(例如，作为其主混合向解码器20断言的节目的一个或更多个次混合)的外部音频对象声道。由这种外部音频对象声道指示的对象示例包括本地解说(例如，由无线电频道传送的单声道音频内容)、进入的Skype呼叫、进入的twitter连接(经由文本到语音系统转换，在图6中未示出)、以及系统声音。

子系统22被配置为输出由节目指示的整组对象声道的选定子集以及节目的相应对象相关元数据。对象选择可以通过(如由从控制器23向子系统22断言的控制数据所指示的)用户选择和/或子系统22已被编程为或以其它方式被配置为实现的规则(例如，指示条件和/或约束)来确定。这种规则可以由节目的对象相关元数据和/或由(例如，从控制器23或另一外部源)向子系统22断言的其它数据(例如，指示回放系统的扬声器阵列的能力和组织的数据)确定和/或通过预配置(例如，编程)子系统22来确定。在一些实施例中，对象相关元数据提供对象和“床”扬声器声道内容的一组可选“预设”混合。子系统22通常不作改变地(向子系统24)传递来自解码器20的经解码的扬声器声道，并且处理向其断言的对象声道中的选定对象声道。

由子系统22执行的对象处理(包括对象选择)通常由来自控制器23的控制数据和来自解码器20的对象相关元数据(以及可选地还有向子系统22断言的除来自解码器20之外的次混合的对象相关元数据)控制，并且典型地包括对于每个选定对象的空间位置和水平的确定(而不管对象选择是由于用户选择还是由于通过规则施加而进行的选择)。典型地，用于渲染对象的默认空间位置和默认水平、以及可选地还有对对象及其空间位置和水平的用户选择的约束都被包括在(例如，从解码器20)向子系统22断言的对象相关元数据中。这种约束可以指示对象的禁止组合或者选定对象可以渲染的禁止空间位置(例如，以防止选定对象彼此太靠近地渲染)。此外，个别选定对象的响度通常由对象处理子系统22响应于利用控制器23输入的控制数据、和/或由(例如，来自解码器20的)对象相关元数据指示的默认水平和/或通过子系统22的预配置来控制。

典型地，由解码器20执行的解码包括(从输入节目)提取元数据，其中元数据指示由节目指示的每个对象的音频内容的类型(例如，由节目的音频内容指示的体育赛事的类型，以及由节目指示的可选和默认对象的名称或其它识别记号(例如，队标))。控制器23和对象处理子系统22接收这种元数据或者由该元数据指示的相关信息。同样典型地，控制器23还接收(例如，用后述信息编程)关于用户的音频系统的回放能力的信息(例如，扬声器的数目、以及扬声器的假设布置和其它假设组织)。

图6的空间渲染子系统24(或者具有至少一个下游设备或系统的子系统24)被配置为渲染从子系统22输出的音频内容输出，以便由用户的回放系统的扬声器回放。一个或更多个可选地包括的数字音频处理子系统25、26和27可以对子系统24的输出实现后期处理。

空间渲染子系统24被配置为使用从子系统22输出的与每个选定对象关联的渲染参数(例如，空间位置和水平的用户选择的和/或默认的值)来把由对象处理子系统22选择的音频对象声道(例如，默认选择的对象、和/或已经作为用户利用控制器23进行交互的结果选择的用户选择的对象)映射到可用的扬声器声道。空间渲染系统24还接收由子系统22传递的经解码的一床扬声器声道。典型地，子系统24是智能混合器，并且被配置为确定用于可用扬声器的扬声器馈送，包括通过将一个、两个或多于两个选定对象声道映射到多个单独的扬声器声道中的每一个，并且使选定对象声道与由节目的扬声器声道床的每个相应扬声器声道指示的“床”音频内容混合。

输出扬声器声道的数目可以在2.0和7.1之间变化，并且被驱动渲染选定音频对象声道(在与“床”音频内容的混合中)的扬声器可以假设位于回放环境中的(标称)水平面内。在这种情况下，执行渲染，使得扬声器可以被驱动发出这样的声音：该声音将被感知为从扬声器平面内的不同对象位置(即，对于每个选定的或默认的对象，一个对象位置，或者沿轨迹的一系列对象位置)发出，并与由“床”音频内容确定的声音混合。

在一些实施例中，被驱动渲染音频的全范围扬声器的数目可以是宽范围内的任何数目(不一定局限于从2至7的范围)，因此输出扬声器声道的数目不限于在从2.0至7.1的范围内。

在一些实施例中，被驱动渲染音频的扬声器假设位于回放系统中的任意位置，而不仅仅是在(标称)水平面内。在一些此类情况下，节目中所包括的元数据指示用于使用扬声器的三维阵列在任何明显空间位置(在三维空间内)对节目的至少一个对象进行渲染的渲染参数。例如，对象声道可以具有指示要渲染(由对象声道指示的)对象处的明显空间位置的三维轨迹的相应元数据。轨迹可以包括一系列“地板”位置(在假设位于回放环境的地板上的扬声器子集的平面内，或者在另一水平面内)、以及一系列“地板上方”位置(各自通过驱动假设位于回放环境的至少一个其他水平面内的扬声器子集来确定)。在这种情况下，可以根据本发明来执行渲染，使得扬声器可以被驱动发出(由相关对象声道确定的)这样的声音：该声音将被感知为从三维空间中包括该轨迹的一系列对象位置发出，并且与由“床”音频内容确定的声音混合。子系统24可以被配置为实现这种渲染、或其步骤，而渲染的剩余步骤由下游系统或设备(例如，图6的渲染子系统35)执行。

可选地，数字音频处理(DAP)级(例如，多个预定输出扬声器声道配置中的每一个有一个)耦接到空间渲染子系统24的输出，以便对空间渲染子系统的输出执行后期处理。这种处理的示例包括智能均衡(intelligent equalization)或者(在立体声输出的情况下)扬声器虚拟化处理。

图6系统的输出(例如，空间渲染子系统的输出，或者空间渲染阶段之后的DAP级)可以是PCM比特流(其确定用于可用扬声器的扬声器馈送)。例如，在用户的回放系统包括7.1扬声器阵列的情况下，系统可以输出(在子系统24中生成的)确定用于这种阵列的扬声器的扬声器馈送的PCM比特流、或者(在DAP 25中生成的)这种比特流的后期处理版本。对于另一个示例，在用户的回放系统包括5.1扬声器阵列的情况下，系统可以输出(在子系统24中生成的)确定用于这种阵列的扬声器的扬声器馈送的PCM比特流、或者(在DAP 26中生成的)这种比特流的后期处理版本。对于另一个示例，在用户的回放系统只包括左和右扬声器的情况下，系统可以输出(在子系统24中生成的)确定用于左和右扬声器的扬声器馈送的PCM比特流、或者(在DAP 27中生成的)这种比特流的后期处理版本。

图6的系统可选地还包括重新编码子系统31和33中的一个或两个。重新编码子系统31被配置为把从DAP 25输出的PCM比特流(指示用于7.1扬声器阵列的馈送)重新编码为E-AC-3编码比特流，并且所得到的经编码的(经压缩的)E-AC-3比特流可以从系统输出。重新编码子系统33被配置为把从DAP 27输出的PCM比特流(指示用于5.1扬声器阵列的馈送)重新编码为AC-3或E-AC-3编码比特流，并且所得到的经编码的(经压缩的)E-AC-3比特流可以从系统输出。

图6的系统可选地还包括重新编码(或格式化)子系统29和被耦接为接收子系统29的输出的下游渲染子系统35。子系统29被耦接为接收(从子系统22输出的)指示选定音频对象(或音频对象的默认混合)的数据、对应的对象相关元数据和扬声器声道床，并且被配置为重新编码(和/或格式化)这种数据，以便由子系统35渲染。可以在AVR或条形音箱(或者在子系统29下游的其它系统或设备)中实现的子系统35被配置为响应于子系统29的输出来生成用于可用回放扬声器(扬声器阵列36)的扬声器馈送(或者确定扬声器馈送的比特流)。例如，通过把指示选定的(或默认的)音频对象、对应的元数据和扬声器声道床的数据重新编码成适合于在子系统35中渲染的格式，子系统29可被配置为生成编码音频，并且(例如，经由HDMI链接)把编码音频发送到子系统35。响应于由子系统35生成(或者由子系统35的输出确定的)扬声器馈送，可用扬声器36将发出指示扬声器声道床与选定(或默认)对象的混合的声音，其中所述对象具有由子系统29输出的对象相关元数据确定的明显源位置。当包括了子系统29和35时，可选地从系统中省略渲染子系统24。

在一些实施例中，本发明是用于渲染基于对象的音频的分布式系统，其中渲染的一部分(即，至少一个步骤)(例如，如由图6系统的子系统22和控制器23执行的对要渲染的音频对象的选择和对每个选定对象的渲染特性的选择)在第一子系统(例如，在机顶设备中实现的图6的元件20、22和23，或者机顶设备和手持式控制器)中实现，而渲染的另一部分(例如，其中响应于第一子系统的输出来生成扬声器馈送或者确定扬声器馈送的信号的沉浸式渲染)在第二子系统(例如，在AVR或条形音箱中实现的子系统35)中实现。提供分布式渲染的一些实施例还实现延迟管理，以便考虑执行音频渲染(以及与正在渲染的音频对应的任何视频处理)的各个部分的不同时刻和不同子系统。

在本发明的回放系统的一些实施例中，每个解码器和对象处理子系统(有时被称为个性化引擎)在机顶设备(STB)中实现。例如，图6的元件20和22和/或图7系统的所有元件可以在STB中实现。在本发明的回放系统的一些实施例中，对个性化引擎的输出执行多种渲染，以确保所有STB输出(例如，HDMI、S/PDID和STB的立体声模拟输出)都被启用。可选地，选定对象声道(和对应的基于对象的元数据)(与解码的扬声器声道床一起)从STB传递到被配置为渲染对象声道与扬声器声道床的混合的下游设备(例如，AVR或条形音箱)。

在一类实施例中，本发明的基于对象的音频节目包括被并行地生成和发送的一组比特流(多个比特流，可以被称为“子流”)。在一些实施例中，在这种情况下，采用多个解码器来解码子流的内容(例如，节目包括多个E-AC-3子流并且回放系统采用多个E-AC-3解码器来解码子流的内容)。图7是被配置为解码和渲染本发明的基于对象的音频节目的实施例的回放系统的框图，其中所述基于对象的音频节目包括多个并行传送的串行比特流。

图7的回放系统是图6系统的变型，其中基于对象的音频节目包括被并行传送到回放系统并被回放系统接收的多个比特流(B1、B2…BN，其中N是某个正整数)。每个比特流(“子流”)B1、B2…和BN是包括时间码或其它同步字(参照图7，为了方便，被称为“同步字”)的串行比特流，以允许子流彼此同步或时间对齐。每个子流还包括整组对象声道的不同子集以及对应的对象相关元数据，并且至少一个子流包括一床扬声器声道。例如，在每个子流B1、B2…BN中，包括对象声道内容和对象相关元数据的每个容器包括唯一的ID或时间戳。

图7的系统包括N个去格式化器50、51…53，每个去格式化器被耦接和配置为解析一个不同的输入子流，并且向比特流同步级59断言元数据(包括其同步字)及其音频内容。

去格式化器50被配置为解析子流B1，以及向比特流同步级59断言其同步字(T1)、其它元数据及其对象声道内容(M1)(包括节目的至少一个对象声道和对象相关元数据)以及其扬声器声道音频内容(A1)(包括节目的床的至少一个扬声器声道)。类似地，去格式化器51被配置为解析子流B2，以及向比特流同步级59断言其同步字(T2)、其它元数据及其对象声道内容(M2)(包括节目的至少一个对象声道和对象相关元数据)以及其扬声器声道音频内容(A2)(包括节目的床的至少一个扬声器声道)。类似地，去格式化器53被配置为解析子流BN，并且向比特流同步级59断言其同步字(TN)、其它元数据及其对象声道内容(MN)(包括节目的至少一个对象声道和对象相关元数据)以及其扬声器声道音频内容(AN)(包括节目的床的至少一个扬声器声道)。

图7系统的比特流同步级59典型地包括用于子流B1、B2…BN的音频内容和元数据的缓冲区、以及被耦接和配置为使用每个子流的同步字来确定输入子流中任何数据失准的流偏移量补偿元件(例如，因为每个比特流通常被携带在独立的接口和/或媒体文件内的轨道上，由于它们之间的紧密同步在分发/贡献中可能丢失，因此可能发生失准)。级59的流偏移量补偿元件通常还被配置为通过向包含比特流的音频数据和元数据的缓冲区断言适当的控制值来校正任何确定的失准，以便使扬声器声道音频数据的时间对齐的比特被从缓冲区读到分别与相应缓冲区耦接的解码器(包括解码器60、61和63)，并且使对象声道音频数据和元数据的时间对齐的比特被从缓冲区读到对象数据组合级66。

来自子流B1的扬声器声道音频内容A1’的时间对齐的比特被从级59读到解码器60，并且来自子流B1的对象声道内容和元数据M1’的时间对齐的比特被从级59读到元数据组合器66。解码器60被配置为对向其断言的扬声器声道音频数据执行解码，并且向对象处理和渲染子系统67断言所得到的经解码的扬声器声道音频。

类似地，来自子流B2的扬声器声道音频内容A2’的时间对齐的比特被从级59读到解码器61，并且来自子流B2的对象声道内容和元数据M2’的时间对齐的比特被从级59读到元数据组合器66。解码器61被配置为对向其断言的扬声器声道音频数据执行解码，并且向对象处理和渲染子系统67断言所得到的经解码的扬声器声道音频。

类似地，来自子流BN的扬声器声道音频内容AN’的时间对齐的比特被从级59读到解码器63，并且来自子流BN的对象声道内容和元数据MN’的时间对齐的比特被从级59读到元数据组合器66。解码器63被配置为对向其断言的扬声器声道音频数据执行解码，并且向对象处理和渲染子系统67断言所得到的经解码的扬声器声道音频。

例如，子流B1、B2…BN中的每一个可以是E-AC-3子流，并且解码器60、61、63以及与解码器60、61和63并行地耦接到子系统59的任何其它解码器中的每一个可以是E-AC-3解码器，该E-AC-3解码器被配置为对输入E-AC-3子流之一的扬声器声道内容进行解码。

对象数据组合器66被配置为以适当的格式向对象处理和渲染子系统67断言用于节目的所有对象声道的时间对齐的对象声道数据和元数据。

子系统67被耦接到组合器66的输出并被耦接到解码器60、61和63(以及与解码器60、61和63并行地耦接在子系统59和67之间的任何其它解码器)的输出，而控制器68被耦接到子系统67。子系统67包括被配置为响应于来自控制器68的控制数据，根据本发明的实施例以交互的方式对组合器66和解码器的输出执行对象处理(例如，包括由图6系统的子系统22执行的步骤，或者这种步骤的变型)的子系统。控制器68可以被配置为响应于来自用户的输入而执行图6系统的控制器23被配置执行的操作(或者这种操作的变型)。子系统67还包括被配置为根据本发明的实施例对向其断言的扬声器声道音频和对象声道音频数据执行渲染(例如，由渲染子系统24、或者图6系统的子系统24、25、26、31和33或者图6系统的子系统24、25、26、31、33、29和35执行的操作，或者这种操作的变型)的子系统。

在图7系统的一种实现方式中，子流B1、B2…BN中的每一个是杜比E比特流。每个这种杜比E比特流包括一系列突发。每个突发可以携带扬声器声道音频内容(“扬声器声道床”)和本发明的对象声道的整组对象声道(其可以是大集合)的子集以及对象相关元数据(即，每个突发可以指示整组对象声道中的一些对象声道以及对应的对象相关元数据)。杜比E比特流的每个突发通常占用与对应视频帧的时间段相当的时间段。组中的每个杜比E比特流包括同步字(例如，时间码)，以允许组中的比特流彼此同步或时间对齐。例如，在每个比特流中，包括对象声道内容和对象相关元数据的每个容器可以包括唯一的ID和时间戳，以允许组中的比特流彼此同步或时间对齐。在提到的图7系统的实现方式中，去格式化器50、51和53(以及与去格式化器50、51和53并行耦接的任何其它去格式化器)中的每一个是SMPTE 337去格式化器，并且解码器60、61、63以及与解码器60、61和63并行耦接到子系统59的任何其它解码器中的每一个可以是杜比E解码器。

在本发明的一些实施例中，基于对象的音频节目的对象相关元数据包括持久性元数据。例如，被输入到图6系统的子系统20的节目中所包括的对象相关元数据可以包括非持久性元数据和持久性元元数据，其中非持久性元数据(例如，对于用户可选的对象，默认水平和/或渲染位置或轨迹)可以在广播链(从生成节目的内容创建设备到由控制器23实现的用户界面)中的至少一个点改变，而持久性元数据在节目最初生成(典型地，在内容创建设备中)之后再不可变(或者不能改变)。持久性元数据的示例包括：用于每个用户可选的节目的对象或其它对象或对象组；以及指示每个用户可选的对象或其它对象相对于节目的扬声器声道床的音频内容或其它元素的定时的时间码或其它同步字。持久性元数据通常在从内容创建设备到用户界面的整个广播链中、在节目广播的整个持续时间内或者甚至还在节目的再次广播期间都被保持。在一些实施例中，至少一个用户可选的对象的音频内容(及关联的元数据)在基于对象的音频节目的主混合中发送，并且至少一些持久性元数据(例如，时间码)以及可选地还有至少一个其它对象的音频内容(及关联的元数据)在节目的次混合中发送。

在本发明的基于对象的音频节目的一些实施例中，持久性对象相关元数据被用来(例如，甚至在节目广播之后)保持用户选择的对象内容和床(扬声器声道)内容的混合。例如，每当用户观看特定类型的节目(例如，任何足球比赛)或者每当用户观看(任何类型的)任何节目时，这可以将选定混合提供作为默认混合，直到用户改变他/她的选择。例如，在第一节目的广播期间，用户可以采用(图6系统中的)控制器23来选择包括具有持久性ID的对象(例如，被控制器23的用户界面识别为“主队人群噪声”对象的对象，其中持久性ID指示“主队人群噪声”)的混合。然后，每当用户观看(和收听)另一个节目(该另一个节目包括具有同一持久性ID的对象)时，回放系统将自动地渲染具有相同混合的节目(即，节目的与节目的“主队人群噪声”对象声道混合的扬声器声道床)，直到用户改变混合选择。在本发明的基于对象的音频节目的一些实施例中，持久性对象相关数据可以使得对某些对象的渲染在整个节目期间都是强制性的(例如，尽管用户期望废弃这种渲染)。

在一些实施例中，对象相关元数据利用默认的渲染参数(例如，渲染对象的默认空间位置)来提供对象内容与床(扬声器声道)内容的默认混合。例如，在默认的渲染参数的情况下，被输入到图6系统的子系统20的节目的对象相关元数据可以是对象内容与床(扬声器声道)内容的默认混合，并且子系统22和24将使得以默认混合和默认的渲染参数来渲染节目，除非用户采用控制器23来选择对象内容与床内容的另一种混合和/或另一组渲染参数。

在一些实施例中，对象相关元数据提供对象与“床”扬声器声道内容的一组可选“预设”混合，每个预设混合具有一组预定的渲染参数(例如，渲染对象的空间位置)。这些预设混合可以由回放系统的用户界面呈现为可用混合的有限菜单或选项板(例如，由图6系统的控制器23显示的有限菜单或选项板)。每个预设混合(和/或每个可选的对象)可以具有持久性ID(例如，名称、标签或徽标)。控制器23(或本发明的回放系统的另一实施例的控制器)可以被配置为显示这种ID的指示(例如，在控制器23的iPad实现的触摸屏上)。例如，可以存在具有持久性ID(例如，队标)的可选“主队”混合，而不管(例如，由广播公司所作的)对预设混合的每个对象的音频内容或非持久性元数据的细节的变化。

在一些实施例中，节目的对象相关元数据(或者不是由与节目一起传送的元数据指示的回放或渲染系统的预配置)提供关于对象与床(扬声器声道)的可选混合的约束或条件。例如，图6系统的实现方式可以实现数字权限管理(DRM)，并且更具体而言可以实现DRM层次结构，以允许图6系统的用户能够“分层”访问基于对象的音频节目中所包括的一组音频对象。如果用户(例如，与回放系统关联的消费者)(例如，向广播公司)支付更多的钱，则用户可以有权解码和选择(并听到)节目的更多音频对象。

对于另一个示例，对象相关元数据可以提供关于对象的用户选择的约束。这种约束的示例是：如果用户采用控制器23选择渲染节目的“主队人群噪声”对象和“主队播音员”对象(即，用于包括在由图6子系统24确定的混合中)，则节目中所包括的元数据可以确保子系统24使这两个选定对象以预定的相对空间位置渲染。约束可以(至少部分地)由关于回放系统的数据(例如，用户输入的数据)确定。例如，如果回放系统是立体声系统(只包括两个扬声器)，则图6系统的对象处理子系统24(和/或控制器23)可以被配置为防止用户选择仅通过两个扬声器不能以足够空间分辨率渲染的混合(由对象相关元数据识别)。对于另一个示例，出于法律(例如，DRM)原因或者由对象相关元数据(和/或被输入到回放系统的其它数据)指示的其它原因(例如，基于传送信道的带宽)，图6系统的对象处理子系统24(和/或控制器23)可以从可选对象的类别中除去一些被传送的对象。用户可以为了更多的带宽而向内容创建者或广播公司付费，并且作为结果，系统(例如，图6系统的对象处理子系统24和/或控制器23)可以允许用户从可选对象和/或对象/床混合的更大菜单中进行选择。

本发明的一些实施例(例如，图6中包括上述元件29和35的回放系统的实现方式)实现分布式渲染。例如，节目的默认或选定对象声道(以及对应的对象相关元数据)(与经解码的扬声器声道床一起)从机顶设备(例如，从图6系统的实现的子系统22和29)传递到下游设备(例如，图6的子系统35，在实现了子系统22和29的机顶设备(STB)下游的AVR或条形音箱中实现)。下游设备被配置为渲染对象声道与扬声器声道床的混合。STB可以部分地渲染音频，并且下游设备可以完成渲染(例如，通过生成用于驱动特定顶层的扬声器(例如，天花板扬声器)的扬声器馈送，以便把音频对象布置在特定的明显源位置，其中STB的输出仅仅指示对象可以在某些未指定的顶层扬声器中以某种未指定的方式渲染)。例如，STB可以不知道回放系统的扬声器的具体组织，但是下游设备(例如，AVR或条形音箱)可以知道这些。

在一些实施例中，基于对象的音频节目(例如，被输入到图6系统的子系统20或者图7系统的元件50、51和53的节目)是或者包括至少一个AC-3(E-AC-3)比特流，并且包括对象声道内容(和/或对象相关元数据)的节目的每个容器被包括在比特流的帧尾处的auxdata字段(例如，图1或图4中所示的AUX片段)中。在一些这种实施例中，AC-3或E-AC-3比特流的每一帧包括一个或两个元数据容器。一个容器可以被包括在帧的Aux字段中，而另一个容器可以被包括在帧的addbsi字段中。每个容器具有核心头部并且包括(或关联)一个或更多个有效载荷。(Aux字段中所包括的容器的或者与其关联的)一个这种有效载荷可以是本发明的(与同样由节目指示的一床扬声器声道有关的)一个或更多个对象声道中的每一个对象声道的一组音频样本和与每个对象声道关联的对象相关元数据。每个容器的核心头部通常包括：至少一个ID值，该ID值指示该容器所包括或关联的有效载荷的类型；子流关联指示(指示核心头部与哪些子流关联)；以及保护比特。典型地，每个有效载荷有其自己的头部(或者“有效载荷标识符”)。对象级的元数据可以在作为对象声道的每个子流中携带。

在其它实施例中，基于对象的音频节目(例如，被输入到图6系统的子系统20或者图7系统的元件50、51和53的节目)是或者包括非AC-3比特流或非E-AC-3比特流的比特流。在一些实施例中，基于对象的音频节目是或者包括至少一个杜比E比特流，并且节目的对象声道内容和对象相关元数据(例如，节目的包括对象声道内容和对象相关元数据的每个容器)被包括在杜比E比特流的一般不携带有用信息的的比特位置中。杜比E比特流的每个突发占用相当于对应视频帧的时间段。对象声道(和对象相关元数据)可以被包括在杜比E突发之间的保护带中和/或每个杜比E突发内的每个数据结构(各具有AES3帧的格式)中的未用比特位置中。例如，每个保护带包含一系列片段(例如，100个片段)，每个保护带的前X个片段(例如，X＝20)中的每个片段包括对象声道和对象相关元数据，并且所述每个保护带的剩余片段中的每一个可以包括保护带符号。在一些实施例中，杜比E比特流的对象声道和对象相关元数据被包括在元数据容器中。每个容器具有核心头部并且包括一个或更多个有效载荷(或者与其关联)。(Aux字段中所包括的容器的或者与其关联的)一个这种有效载荷可以是本发明的(关于同样由节目指示的一床扬声器声道的)一个或更多个对象声道中的每一个的一组音频样本和与每个对象声道关联的对象相关元数据。每个容器的核心头部通常包括：至少一个ID值，该ID值指示该容器中所包括或关联的有效载荷的类型；子流关联指示(指示核心头部与哪些子流关联)；以及保护比特。典型地，每个有效载荷有其自己的头部(或者“有效载荷标识符”)。对象级的元数据可以在作为对象声道的每个子流中携带。

在一些实施例中，基于对象的音频节目(例如，被输入到图6系统的子系统20或者图7系统的元件50、51和53的节目)能够由(未被配置为解析本发明的对象声道和对象相关元数据的)传统解码器和传统渲染系统解码，并且其扬声器声道内容可由传统解码器和传统渲染系统渲染。相同的节目可以根据本发明的一些实施例由(根据本发明的实施例)被配置为解析本发明的对象声道和对象相关元数据并且渲染由节目指示的对象声道内容与扬声器声道的混合的机顶设备(或者其它解码和渲染系统)渲染。

本发明的一些实施例意图响应于广播节目来为终端消费者提供个性化的(并且优选地是沉浸式的)音频体验，和/或提供用于在广播流水线中使用元数据的新方法。一些实施例改善了麦克风捕捉(例如，体育场麦克风捕捉)，以生成为最终消费者提供更加沉浸式体验的音频节目，修改现有的制作、捐资和分发工作流，以允许本发明的基于对象的音频节目的对象声道和元数据流过专业链，并且创建支持本发明的对象声道和元数据以及常规广播音频(例如，本发明的广播音频节目的一些实施例中所包括的扬声器声道床)的新回放流水线(例如，在机顶设备中实现的回放流水线)。

图8是根据本发明实施例的基于对象的被配置为生成音频节目(和对应的视频节目)的用于广播的广播系统的框图。图8系统的包括麦克风100、101、102和103的一组X个麦克风(其中X是整数)被定位成捕捉要包括在节目中的音频内容，并且它们的输出耦接到音频控制台104的输入。

在一类实施例中，节目包括指示观赏型赛事(例如，足球或橄榄球赛、汽车或摩托车比赛、或其它体育赛事)的气氛和/或对观赏型赛事的现场解说的交互式音频内容。在一些实施例中，节目的音频内容指示多个音频对象(包括用户可选的对象或对象组，并且通常还有要在不存在用户对对象的选择的情况下渲染的默认对象组)以及节目的扬声器声道的混合(或“床”)。扬声器声道床可以是可能被包括在不包括对象声道的常规广播节目中的一类扬声器声道的常规混合(例如，5.1声道混合)。

麦克风的子集(例如，麦克风100和101并且可选地还有其输出耦接到音频控制台104的其它麦克风)是在操作中捕捉(要作为一床扬声器声道被编码和传送的)音频的常规麦克风阵列。在操作中，麦克风的另一子集(例如，麦克风102和103以及可选地还有输出被耦接到音频控制台104的其它麦克风)捕捉要作为节目的对象声道被编码和传送的音频(例如，人群噪声和/或其它“对象”)。例如，图8系统的麦克风阵列可以包括：被实现为声场麦克风并且永久性地安装在体育场中的至少一个麦克风(例如，麦克风100)(例如，具有随其安装的加热器的声场麦克风)；指向支持一个队(例如，主队)的观众的至少一个立体声麦克风(例如，麦克风102，被实现为Sennheiser MKH416麦克风或者另一种立体声麦克风)，以及指向支持另一个队(例如，客队)的观众的至少一个其它立体声麦克风(例如，麦克风103，被实现为Sennheiser MKH416麦克风或者另一种立体声麦克风)。

本发明的广播系统可以包括位于体育场(或其它赛事位置)外面的移动单元(可以是卡车，有时被称为“比赛卡车”)，该移动单元是来自体育场(或其它赛事位置)中的麦克风的音频馈送的第一个接收者。比赛卡车生成(要广播的)基于对象的音频节目，包括通过编码来自麦克风的音频内容以便传送作为节目的对象声道、生成相应的对象相关元数据(例如，指示每个对象应当被渲染的空间位置的元数据)并将这种元数据包括在节目中、以及编码来自一些麦克风的音频内容以便传送作为节目的一床扬声器声道。

例如，在图8的系统中，(耦接到控制台104的输出的)对象处理子系统106、嵌入子系统108以及贡献编码器(contribution encoder)111可以安装在比赛卡车中。在子系统106中生成的基于对象的音频节目可以(例如，在子系统108中)与(例如，来自位于体育场中的摄像机的)视频内容组合，以生成随后(例如，被编码器110)编码的组合音视频信号，由此生成用于(例如，通过图5的传送子系统5)广播的编码音频/视频信号。应当理解，解码和渲染这种编码音频/视频信号的回放系统将包括用于解析所传送的音频/视频信号中的音频内容和视频内容的子系统(图中未具体示出)、用于根据本发明的实施例来解码并渲染音频内容的子系统(例如，与图6系统类似或完全相同的子系统)、以及用于解码和渲染视频内容的另一子系统(图中未具体示出)。

控制台104的音频输出可以包括指示在体育赛事捕捉到的声音的5.1扬声器声道床(在图8中标记为“5.1中立”)、指示来自在该赛事现场的主队粉丝的人群噪声的立体声对象声道的音频内容(标记为“2.0主队”)、指示来自在该赛事现场的客队粉丝的人群噪声的立体声对象声道的音频内容(标记为“2.0客队”)、指示来自主队城市的播音员的现场解说的对象声道音频内容(标记为“1.0现场解说1”)、指示来自客队城市的播音员的现场解说的对象声道音频内容(标记为“1.0现场解说2”)、以及指示比赛用球在被体育赛事参与者撞击时产生的声音的对象声道音频内容(标记为“1.0击球”)。

对象处理子系统106被配置为把来自控制台104的音频流组织(例如，分组)为对象声道(例如，把标记为“2.0客队”的左和右音频流分组为客队人群噪声声道)和/或对象声道组，以生成指示对象声道(和/或对象声道组)的对象相关元数据，并且把对象声道(和/或对象声道组)、对象相关元数据和(根据来自控制台104的音频流确定的)扬声器声道床编码为基于对象的音频节目(例如，被编码为杜比E比特流的基于对象的音频节目)。同样典型地，子系统106被配置为至少渲染(并在工作室监控扬声器上播放)对象声道(和/或对象声道组)的选定子集和扬声器声道床(包括通过使用对象相关元数据来生成指示所选择的对象声道与扬声器声道的混合)，使得回放的声音可以由子系统106和控制台104的操作员监控(如由图8的“监控路径”指示的)。

子系统104的输出与子系统106的输出之间的接口可以是多声道音频数字接口(“MADI”)。

在操作中，图8系统的子系统108使在子系统106中生成的基于对象的音频节目与(例如，来自位于体育场中的摄像机的)视频内容组合，以生成向编码器110断言的组合音视频信号。子系统108的输出与子系统110的输入之间的接口可以是高清晰度串行数字接口(“HD-SDI”)。在操作中，编码器110对子系统108的输出进行编码，由此生成用于(例如，通过图5的传送子系统5)广播的编码音频/视频信号。

在一些实施例中，广播设备(例如，图8系统的子系统106、108和110)被配置为生成指示所捕捉的声音的多个基于对象的音频节目(例如，由从图8的子系统110输出的多个编码音频/视频信号指示的基于对象的音频节目)。这种基于对象的音频节目的示例包括5.1扁平混合、国际混合和国内混合。例如，所有节目可以包括一床公共扬声器声道，但是节目的对象声道(和/或由节目确定的可选对象声道的菜单、和/或用于渲染并混合对象的可选或不可选的渲染参数)可以因节目而有所不同。

在一些实施例中，广播公司或其它内容创建者的设备(例如，图8系统的子系统106、108和110)被配置为生成可以在各种不同回放环境(例如，5.1声道国内回放系统、5.1声道国际回放系统以及立体声回放系统)中的任何一种中渲染的单个基于对象的音频节目(即，原版(master))。原版不需要被混合(例如，下混)以便向任何特定环境中的消费者广播。

如上所述，在本发明的一些实施例中，节目的对象相关元数据(或者不是由与节目一起传送的元数据指示的回放或渲染系统的预配置)提供了关于对象与床(扬声器声道)内容的可选混合的约束或条件。例如，图6系统的实现方式可以实现DRM层次，以允许用户能够分层访问基于对象的音频节目中所包括的一组对象声道。如果用户(例如，向广播公司)支付更多的钱，则用户可以有权解码、选择并渲染节目的更多对象声道。

将参照图9来描述关于对象(或对象组)的用户选择的约束和条件的示例。在图9中，节目“P0”包括七个对象声道：指示中立人群噪声的对象声道“N0”、指示主队人群噪声的对象声道“N1”、指示客队噪声的对象声道“N2”、指示赛事官方现场解说(例如，由商业广播播音员进行的广播现场解说)的对象声道“N3”、指示赛事粉丝现场解说的对象声道“N4”、指示赛事上的公告的对象声道“N5”以及指示(经由文本至语音系统转换的)关于赛事的进入twitter连接的对象声道“N6”。

指示节目P0中所包括的元数据的默认值指示(默认地)要包括在由节目指示的对象声道内容与“床”扬声器声道内容的渲染混合中的默认对象组(一个或更多个“默认”对象)和默认渲染参数组(例如，默认对象组中的每个默认对象的空间位置)。例如，默认对象组可以是以发散方式渲染(例如，使得不被感知为从任何特定的源位置发出)的对象声道“N0”(指示中立人群噪声)与被渲染为使得被感知为从位于收听者正前方的源位置(即，关于收听者为0度方位角)发出的对象声道“N3”(指示官方现场解说)的混合。

(图9的)节目P0还包括指示多组用户可选的预设混合的元数据，其中每个预设混合由节目的对象声道的子集和对应的渲染参数组确定。所述用户可选的预设混合可以被呈现为回放系统的控制器的用户界面上的菜单(例如，由图6系统的控制器23显示的菜单)。例如，一个这种预设混合是图9的对象声道“N0”(指示中立人群噪声)、对象声道“N1”(指示主队噪声)和对象声道“N4”(指示粉丝现场解说)的混合，这些对象声道被渲染为使得混合中的声道N0和N1内容被感知为从收听者正后方的源位置发出(即，关于收听者为180度的方位角)，其中混合中的声道N1内容的水平比混合中的声道N0的水平小3dB，并且混合中的声道N4内容是以发散的方式渲染的(例如，以便不被感知为从任何特定的源位置发出)。

回放系统可以实现这样的规则(例如，在图9中指示的分组规则“G”，其由节目的元数据确定)：包括对象声道N0、N1和N2中的至少一个的每个用户可选的预设混合必须单独包括对象声道N0内容，或者包括与对象声道N1和N2中的至少一个的内容混合的对象声道N0内容。回放系统还可以实现这样的规则(例如，在图9中指示的条件规则“C1”，其由节目的元数据确定)：包括与对象声道N1和N2中的至少一个的内容混合的对象声道N0内容的每个用户可选的预设混合必须包括与对象声道N1内容混合的对象声道N0内容，或者必须包括与对象声道N2内容混合的对象声道N0内容。

回放系统还可以实现这样的规则(例如，在图9中指示的条件规则“C2”，其由节目的元数据确定)：包括对象声道N3和N4中的至少一个的内容的每个用户可选的预设混合必须单独包括对象声道N3的内容，或者必须单独包括对象声道N4的内容。

本发明的一些实施例实现了基于对象的音频节目的对象声道的条件解码(conditional decoding)(和/或渲染)。例如，回放系统可以被配置为允许基于回放环境或用户的权限来条件解码对象声道。例如，如果实现了DRM层次以允许消费者“分层”访问基于对象的音频节目中所包括的一组音频对象声道，则回放系统可以(通过节目的元数据中所包括的控制位)被自动配置为阻止对于渲染一些对象的解码和选择，除非回放系统被通知用户已经满足至少一个条件(例如，向内容提供者支付了特定数量的钱)。例如，用户可能需要购买权限来收听图9中的节目P0的“官方现场解说”对象声道N3，并且回放系统可以实现图9中指示的条件规则“C2”，使得除非回放系统被通知回放系统的用户已购买必要的权限，否则对象声道N3不能被选择。

对于另一个示例，回放系统可以(通过节目的元数据中所包括的、指示可用回放扬声器阵列的特定格式的控制位)被自动配置为如果回放扬声器阵列不满足条件，则阻止解码和选择一些对象(例如，回放系统可以实现图9中所指示的条件规则“C1”，使得对象声道N0和N1的预设混合不能被选择，除非回放系统被通知5.1扬声器阵列可用于渲染所选定的内容，但是如果唯一可用的扬声器阵列是2.0扬声器阵列则不然)。

在一些实施例中，本发明实现基于规则的对象声道选择，其中至少一个预定规则确定要渲染基于对象的音频节目的哪些对象声道(例如，与扬声器声道床一起)。用户还可以指定用于对象声道选择的至少一个规则(例如，通过从由回放系统控制器的用户界面呈现的可用规则的菜单中进行选择)，并且回放系统(例如，图6系统的对象处理子系统22)可以被配置为应用每个这种规则来确定要渲染的基于对象的音频节目的哪些对象声道应当被包括在要(例如，由图6系统的子系统24、或者子系统24和35)渲染的混合中。回放系统可以根据节目中的对象相关元数据来确定节目的哪些对象声道满足预定的规则。

对于简单的示例，考虑基于对象的音频节目指示体育赛事的情况。代替操纵控制器(例如，图6的控制器23)来执行对节目中所包括的特定对象组的静态选择(例如，来自特定球队、汽车或自行车的电台解说)，用户操纵控制器来设置规则(例如，为了渲染而自动选择指示什么球队、或汽车或自行车获胜或处于第一位置的对象声道)。回放系统应用该规则来(在单个节目或者一系列不同节目的渲染期间)实现对节目中包括的对象(对象声道)的一系列不同子集的动态选择(例如，指示一个队的第一对象子集，当发生第二个队得分并因此变成当前获胜队时，后面自动变为指示第二个队的第二对象子集)。因此，在一些此类实施例中，实时事件支配或影响哪些对象声道被包括在所渲染的混合中。回放系统(例如，图6系统的对象处理子系统22)可以对节目中所包括的元数据(例如，指示出至少一个对应对象指示当前获胜队的元数据，例如，指示该队粉丝的人群噪声或者与获胜队关联的电台播音员的现场解说)作出响应，以选择哪些对象声道应当被包括在要渲染的扬声器与对象声道的混合中。例如，内容创建者可以(在基于对象的音频节目中)包括指示节目的至少一些音频对象声道中的每一个的位置次序(或其它层次)(例如，指示哪些对象声道对应于当前处于第一位置的队或汽车，哪些对象声道对应于当前处于第二位置的队或汽车，等等)的元数据。回放系统可被配置为通过仅选择和渲染满足用户指定的规则的对象声道(例如，由节目的对象相关元数据指示的与处于第“n”位的队有关的对象声道)来对这种元数据作出响应。

关于本发明的基于对象的音频节目的对象声道的对象相关元数据的示例包括(但不限于)：指示关于如何渲染对象声道的详细信息的元数据；动态时间元数据(例如，指示用于摇摄对象的轨迹、对象尺寸、增益等等)；以及被AVR(或者在本发明的系统的一些实现方式的解码和对象处理子系统下游的其它设备或系统)用来渲染对象声道(例如，在直到可用回放扬声器阵列的组织的情况下)的元数据。这种元数据可以指定对于对象位置、增益、静音或其它渲染参数的约束、和/或对于对象如何与其它对象交互的约束(例如，假定选择了特定的对象，关于可以选择哪些附加对象的约束)，并且/或者可以指定默认对象和/或默认渲染参数(在不存在对其它对象和/或渲染参数的用户选择的情况下使用)。

在一些实施例中，本发明的基于对象的音频节目的至少一些对象相关元数据(以及可选地还有至少一些对象声道)在单独的比特流或其它容器(例如，作为用户可能需要额外付费来接收和/或使用的次混合)中从节目的扬声器声道床和常规元数据发送。在不访问这种对象相关元数据(或者对象相关元数据和对象声道)的情况下，用户可以解码和渲染扬声器声道床，但是不能选择节目的音频对象并且不能渲染该节目的与扬声器声道床指示的音频的混合中的音频对象。本发明的基于对象的音频节目的每一帧可以包括多个对象声道的音频内容和对应的对象相关元数据。

根据本发明一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道、以及指示分层图(有时被称为分层的“混合图”)的元数据，所述分层图指示扬声器声道与对象声道的可选混合(例如，所有可选混合)。例如，混合图指示可适用于选择扬声器和对象声道的子集的每个规则。典型地，编码音频比特流指示节目的至少一些(即，至少一部分)音频内容(例如，一床扬声器声道和节目的至少一些对象声道)和对象相关元数据(包括指示混合图的元数据)，以及可选地至少一个附加的编码音频比特流或文件指示节目的一些音频内容和/或对象相关元数据。

所述分层的混合图指示节点(每个节点可以指示可选的声道或声道组，或一类可选的声道或声道组)和节点之间的连接(例如，到节点的控制接口和/或用于选择声道的规则)，并且包括基本数据(“基本”层)和可选的(即，可选地被省略的)数据(至少一个“扩展”层)。典型地，分层的混合图被包括在指示节目的编码音频比特流之一中，并且可以通过(由回放系统实现的，例如，终端用户的回放系统)图遍历进行评估，以确定声道的默认混合和用于修改默认混合的选项。

当混合图可被表示为树图时，基本层可以是该树图的树枝(或者两个或更多个树枝)，并且每个扩展层可以是该树图的另一个树枝(或者另一组两个或更多个树枝)。例如，树图的(由基本层指示的)一个树枝可以指示可供所有终端用户使用的可选声道和声道组，并且树图的(由扩展层指示的)另一树枝可以指示只能由某些终端用户使用的附加的可选声道和/或声道组(例如，这样的扩展层可以仅提供给有权使用它的终端用户)。图9是树图的示例，它包括混合图的对象声道节点(例如，指示对象声道N0、N1、N2、N3、N4、N5和N6的节点)和其它元素。

通常，基本层包含(指示)图结构和到图中节点的控制接口(例如，摇摄，以及增益控制接口)。基本层对于把任何用户交互映射到解码/渲染过程是必要的。

每个扩展层包含(指示)对基本层的扩展。对于把用户交互映射到解码过程，所述扩展不是立即需要的，因此可以以较慢的速率发送和/或延迟或略去。

在一些实施例中，基本层被包括作为节目的独立子流的元数据(例如，被发送作为独立子流的元数据)。

根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道、以及指示混合图(可以是或者可以不是分层的混合图)的元数据，其中所述混合图指示扬声器声道与对象声道的可选混合(例如，所有可选混合)。经编码的音频比特流(例如，杜比E或E-AC-3比特流)指示节目的至少一部分，并且指示混合图的元数据(并且通常还有可选的对象和/或扬声器声道)被包括在比特流的每一帧中(或者比特流的帧子集的每一帧中)。例如，每一帧可以包括至少一个元数据片段和至少一个音频数据片段，并且混合图可以被包括在每一帧的至少一个元数据片段中。(可以被称为“容器”的)每个元数据片段可以具有包括元数据片段头部(以及可选地还有其它元素)和跟在元数据片段头部之后的一个或更多个元数据有效载荷的格式。每个元数据有效负载本身由有效载荷头部识别。如果存在于元数据片段中，则混合图被包括在元数据片段的一个元数据有效载荷中。

在一些实施例中，根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括至少两床扬声器声道、至少一个对象声道、以及指示混合图(可以是或者可以不是分层的混合图)的元数据。所述混合图指示扬声器声道与对象声道的可选混合(例如，所有可选混合)，并且包括至少一个“床混合”节点。每个“床混合”节点定义扬声器声道床的预定混合，并且因此指示或实现一组用于混合节目的两个或更多个扬声器床的扬声器声道的预定混合规则(可选地具有用户可选的参数)。

考虑这样的示例：在此示例中，音频节目与体育场中A队(主队)和B队之间的足球比赛关联，并且包括(由麦克风馈送确定的)体育场中整个人群的5.1扬声器声道床、偏向A队的人群部分的立体声馈送(即，从坐在主要被A队粉丝占据的体育场部分的观众捕捉到的音频)以及偏向B队的人群部分的立体声馈送(即，从坐在主要被B队粉丝占据的体育场部分的观众捕捉到的音频)。可以在混合控制台上混合这三个馈送(5.1声道中立床、2.0声道“A队”床和2.0声道“B队”床)，以生成四个5.1扬声器声道床(可以被称为“粉丝区”床)：无偏向的、偏向主队的(中立与A队床的混合)、偏向客队的(中立与B队床的混合)以及相对的(中立床，与转到房间一侧的A队床混合，并且与转到房间对侧的B队床混合)。但是，就比特速率而言，发送这四个混合的5.1声道床是昂贵的。因此，本发明的比特流的实施例包括元数据和扬声器声道床，其中元数据指定要由(例如，终端用户家中的)回放系统基于用户的混合选择实现的床混合规则(用于混合扬声器声道床以生成上述四个混合的5.1声道床)，扬声器声道床(例如，原始的5.1声道床和两个有偏向的立体声扬声器声道床)可以根据所述规则而被混合。响应于混合图的床混合节点，回放系统可以向用户呈现用于选择上述四个混合的5.1声道床之一的选项(例如，经由图6系统的控制器23实现的用户界面显示)。响应于用户选择这个混合的5.1声道床，回放系统(例如，图6系统的子系统22)将使用在比特流中发送的(未混合的)扬声器声道床来生成所选择的混合。

在一些实施例中，床混合规则考虑以下操作(这些操作可以具有预定参数或用户可选的参数)：

床“旋转”(即，向左、右、前或后摇摄扬声器声道床)。例如，为了创建以上提到的“相对”混合，立体声A队床将被旋转到回放扬声器阵列的左侧(A队床的L和R声道被映射到回放系统的L和Ls声道)，并且立体声B队床将被旋转到回放扬声器阵列的右侧(B队床的L和R声道被映射到回放系统的R和Rs声道)。因此，回放系统的用户界面可以向终端用户呈现上述四种“无偏向”、“偏向主队”、“偏向客队”和“相对”床混合之一的选择，并且在用户选择“相对”床混合时，回放系统将在渲染“相对”床混合期间实现适当的床旋转；及

在床混合中下浮(ducking)(即，衰减)特定的扬声器声道(目标声道)(通常，是为了制造净空)。例如，在以上提到的足球比赛示例中，回放系统的用户界面可以向终端用户呈现上述四种“无偏向”、“偏向主队”、“偏向客队”和“相对”床混合之一的选择，并且响应于用户选择“相对”床混合，回放系统可以在渲染“相对”床混合期间通过在混合衰减的5.1声道床与立体声“A队”和“B队”床之前以(由比特流中的元数据指定的)预定量下浮(衰减)中立5.1声道床的L、Ls、R和Rs声道当中每一个，来实现目标下浮，以生成“相对”床混合。

在另一类实施例中，根据本发明生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括子流，并且子流指示至少一床扬声器声道、至少一个对象声道、以及对象相关元数据。对象相关元数据包括“子流”元数据(指示节目的子流结构和/或解码子流应当采用的方式)，并且通常还有指示扬声器声道与对象声道的可选混合(例如，所有可选混合)的混合图。子流元数据可以指示节目的哪个子流应当独立于节目的其它子流被解码，以及节目的哪些子流应当与节目的至少一个其它子流相关联地被解码。

例如，在一些实施例中，编码音频比特流指示节目的至少一些(即，至少一部分)音频内容(例如，至少一床扬声器声道和节目的至少一些对象声道)以及元数据(例如，混合图和子流元数据，并且可选地还有其它元数据)，并且至少一个附加的编码音频比特流(或文件)指示节目的一些音频内容和/或元数据。在每个比特流是杜比E比特流(或者为了在AES3串行数字音频比特流中携带非PCM数据而以符合SMPTE 337格式的方式编码)的情况下，比特流可以共同指示多达8个声道的音频内容，其中每个比特流携带多达8个声道的音频数据并且通常还包括元数据。每个比特流可以被认为是组合比特流的子流，其中组合比特流指示由所有比特流携带的所有音频数据和元数据。

对于另一个示例，在一些实施例中，编码音频比特流指示至少一个音频节目的音频内容和元数据(例如，混合图和子流元数据，并且可选地还有其它对象相关元数据)的多个子流。通常，每个子流指示节目的一个或更多个声道(并且通常还有元数据)。在一些情况下，编码音频比特流的多个子流指示若干个音频节目的音频内容，例如，(可以是多声道节目的)“主”音频节目和至少一个其它音频节目(例如，作为对主音频节目的现场解说的节目)。

指示至少一个音频节目的编码音频比特流必定包括音频内容的至少一个“独立”子流。该独立子流指示音频节目的至少一个声道(例如，该独立子流可以指示常规5.1声道音频节目的五个全范围声道)。在本文中，这种音频节目被称为“主”节目。

在一些情况下，编码音频比特流指示两个或更多个音频节目(“主”节目和至少一个其它音频节目)。在这种情况下，比特流包括两个或更多个独立子流：第一个独立子流指示主节目的至少一个声道；并且至少一个其它独立子流指示另一个音频节目(与主节目不同的节目)的至少一个声道。每个独立子流可以被独立解码，并且解码器可以操作为只解码编码比特流的独立子流的子集(而不是全部)。

可选地，指示主节目(并且可选地还有至少一个其它音频节目)的编码音频比特流包括音频内容的至少一个“从属”子流。每个从属子流与比特流的一个独立子流关联，并且指示其内容由关联的独立子流指示的节目(例如，主节目)的至少一个附加声道(即，从属子流指示不由关联的独立子流指示的节目的至少一个声道，并且关联的独立子流指示节目的至少一个声道)。

在包括(指示主节目的至少一个声道的)独立子流的编码比特流的示例中，比特流还包括(与独立比特流关联的)指示主节目的一个或更多个附加扬声器声道的从属子流。这种附加扬声器声道是对由独立子流指示的主节目声道的补充。例如，如果独立子流指示7.1声道主节目的标准格式左、右、中央、左环绕、右环绕全范围扬声器声道，则从属子流可以指示主节目的两个其它全范围扬声器声道。

根据E-AC-3标准，常规的E-AC-3比特流必须指示至少一个独立子流(例如，单个AC-3比特流)，并且可以指示多达八个独立子流。E-AC-3比特流的每个独立子流可以与多达八个从属子流关联。

在(参照图11描述的)示例性实施例中，基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道以及元数据。元数据包括“子流”元数据(指示节目的音频内容的子流结构和/或对节目的音频内容的子流进行解码应采用的方式)并且通常还有指示扬声器声道与对象声道的可选混合的混合图。音频节目与足球比赛关联。编码音频比特流(例如，E-AC-3比特流)指示节目的音频内容和元数据。节目的音频内容(因此也即比特流的音频内容)包括四个独立子流，如在图11中所示。一个独立子流(在图11中标记为子流“I0”)指示5.1扬声器声道床，指示在足球比赛时的中立人群噪声。另一个独立子流(在图11中标记为子流“I1”)指示2.0声道“A队”床(“M人群”)、2.0声道“B队”床(“LivP人群”)和单声道对象声道(“Sky现场解说1”)，其中2.0声道“A队”床指示来自偏向一个队(“A队”)的比赛人群部分的声音，2.0声道“B队”床指示来自偏向另一个队(“B队”)的比赛人群部分的声音，所述单声道对象声道指示对比赛的现场解说。第三个独立子流(在图11中标记为子流“I2”)指示对象声道音频内容(标记为“2/0击球”)和三个对象声道(“Sky现场解说2”、“Man现场解说”和“Liv现场解说”)，其中对象声道音频内容指示比赛用球在被足球比赛参与者撞击时产生的声音，而所述三个对象声道各自指示对足球比赛的不同现场解说。第四个独立子流(在图11中标记为子流“I3”)指示：对象声道(标记为“PA”)，指示在足球比赛时由体育场广播系统产生的声音；对象声道(标记为“电台”)，指示足球比赛的电台广播；以及对象声道(标记为“进球瞬间”)，指示足球比赛过程中的进球得分。

在图11的示例中，子流I0包括用于节目和元数据(“objmd”)的混合图，包括至少一些子流元数据和至少一些对象声道相关元数据。每个子流I1、I2和I3包括元数据(“objmd”)、至少一些对象声道相关元数据以及可选地至少一些子流元数据。

在图11的示例中，比特流的子流元数据指示：在解码期间，在每对独立子流之间耦合应当为“关闭”(使得每个独立子流独立于其它独立子流被解码)，并且比特流的子流元数据指示耦合应当“打开”(使得这些声道不彼此独立地被解码)或者“关闭”(使得这些声道彼此独立地被解码)的每个子流内的节目声道。例如，子流元数据指示：在子流I1的两个立体声扬声器声道床(2.0声道“A队”床和2.0声道“B队”床)内部，耦合应当为“打开”，但是横跨子流I1的扬声器声道床以及在单声道对象声道与子流I1的每个扬声器声道床之间被禁用(以便使单声道对象声道与一床扬声器声道彼此独立地被解码)。类似地，子流元数据指示：在子流I0的5.1扬声器声道床内部，耦合应当为“打开”(以便使这个床的扬声器声道彼此关联地被解码)。

在一些实施例中，扬声器声道和对象声道以适合于节目的混合图的方式被包括(“打包”)在音频节目的子流内。例如，如果混合图是树图，则图的一个树枝的所有声道都可以被包括在一个子流中，而图的另一个树枝的所有声道都可以被包括在另一个子流中。

在一类实施例中，本发明是用于生成基于对象的音频节目的方法，所述方法包括以下步骤：

确定指示一组音频信号的第一子集的音频内容的一床扬声器声道，其中音频信号指示捕捉到的音频内容(例如，图8系统的麦克风的输出，或者到图10系统的子系统210的输入)；

确定指示所述一组音频信号的第二子集的音频内容的一组对象声道；

生成指示对象声道的对象相关元数据；及

生成基于对象的音频节目，使得所述基于对象的音频节目指示所述一床扬声器声道、对象声道以及对象相关元数据，并且可被渲染为提供可被感知为由所述一床扬声器声道指示的第一音频内容和由对象声道的选定子集指示的第二音频内容的混合的声音，使得第二音频内容被感知为是从由对象声道的选定子集确定的源位置发出的。通常，至少一些(即，至少一部分)对象相关元数据指示至少一些对象声道当中每一个的标识符，和/或至少一些对象相关元数据指示要在不存在对所述一组对象声道的子集的用户选择时渲染的所属一组对象声道的默认子集。这一类中的一些实施例还包括生成所述音频信号的步骤，包括通过捕捉音频内容(例如，在观赏型赛事上)。

在另一类实施例中，本发明是渲染由基于对象的音频节目确定的音频内容的方法，其中节目指示一床扬声器声道、一组对象声道以及对象相关元数据，所述方法包括以下步骤：

(a)确定所述一组对象声道的选定子集；

(b)渲染由基于对象的音频节目确定的音频内容，包括通过确定由所述一床扬声器声道指示的第一音频内容和由对象声道的选定子集指示的第二音频内容的混合。

在一些实施例中，该方法是由包括一组扬声器的回放系统执行的，并且(b)包括如下步骤：响应于第一音频内容和第二音频内容的混合，生成用于驱动所述一组扬声器发出声音的扬声器馈送，其中声音包括指示第二音频内容的对象声道声音，并且对象声道声音可被感知为是从由对象声道的选定子集确定的明显源位置发出的。所述一床扬声器声道可以包括用于所属一组扬声器中每个扬声器的扬声器声道。

图10是实现本发明实施例的系统的框图。

图10系统的对象处理系统(对象处理器)200包括如图所示那样耦接的元数据生成子系统210、夹层编码器(mezzanine encoder)212和模拟子系统211。元数据生成子系统210被耦接为接收所捕捉到的音频流(例如，指示由位于观赏型赛事的麦克风捕捉的声音的流，并且可选地还有其它音频流)，并且被配置为把来自控制台104的音频流组织(例如，分组)到一床扬声器声道和多个对象声道和/或对象声道组中。子系统210还被配置为生成指示对象声道(和/或对象声道组)的对象相关元数据。编码器212被配置为把对象声道(和/或对象声道组)、对象相关元数据以及扬声器声道床编码为夹层类型的基于对象的音频节目(例如，被编码为杜比E比特流的基于对象的音频节目)。

对象处理器200的模拟子系统211被配置为渲染(并且在一组工作室监视器扬声器上播放)对象声道(和/或对象声道组)的至少选定子集以及扬声器声道床(包括通过使用对象相关元数据来生成指示选定对象声道与扬声器声道的混合)，使得所回放的声音可以被子系统200的操作者监控。

图10系统的转码器202包括如图所示那样耦接的夹层解码器子系统(夹层解码器)213和编码器214。夹层解码器213被耦接和配置为接收并解码从对象处理器200输出的夹层类型的基于对象的音频节目。解码器213的解码输出被编码器214重新编码为适于广播的格式。在一种实施例中，从编码器214输出的经编码的基于对象的音频节目是E-AC-3比特流(因此编码器214在图10中被标记为“DD+编码器”)。在其它实施例中，从编码器214输出的经编码的基于对象的音频节目是AC-3比特流或者具有某种其它格式。转码器202的基于对象的音频节目输出被广播(或以其它方式传送)到多个终端用户。

解码器204被包括在一个这种终端用户的回放系统中。解码器204包括如图所示那样耦接的解码器215和渲染子系统(渲染器)216。解码器215接受(接收或读取)并解码从转码器202传送的基于对象的音频节目。如果解码器215是根据本发明的典型实施例配置的，则在典型操作中解码器215的输出包括：指示节目的一床扬声器声道的音频样本流、以及指示节目的对象声道(例如，用户可选的音频对象声道)的音频样本流和对应的对象相关元数据流。在一种实施例中，输入到解码器215的经编码的基于对象的音频节目是E-AC-3比特流，因此解码器215在图10中被标记为“DD+解码器”。

解码器204的渲染器216包括被耦接为(从解码器215)接收所传送节目的经解码的扬声器声道、对象声道和对象相关元数据的对象处理子系统。渲染器216还包括被配置为渲染由对象处理子系统确定的音频内容的渲染子系统，以便由回放系统的扬声器(未示出)回放。

典型地，渲染器216的对象处理子系统被配置为向渲染器216的渲染子系统输出由节目指示的整组对象声道的选定子集、以及对应的对象相关元数据。渲染器216的对象处理子系统通常还被配置为不作改变地(向渲染子系统)传递来自解码器215的经解码的扬声器声道。由对象处理子系统执行的对象声道选择是根据本发明的实施例确定的，例如，通过用户选择和/或渲染器216被编程为或以其它方式被配置实现的规则(例如，指示条件和/或约束)。

图10的元件200、202和204中的每一个(以及图8的元件104、106、108和110中的每一个)可以被实现为硬件系统。处理器200(或处理器106)的这种硬件实现方式的输入典型地是多声道音频数字接口(“MADI”)输入。典型地，图8的处理器106以及图10的编码器212和214中的每一个都包括帧缓冲区。典型地，帧缓冲区是被耦接为接收经编码的输入音频比特流的缓冲存储器，并且在操作中，缓冲存储器(例如，以非暂态方式)存储编码音频比特流的至少一帧，并且编码音频比特流的一系列帧被从缓冲存储器向下游设备或系统断言。同样，典型地，图10的解码器213和215中的每一个包括帧缓冲区。典型地，该帧缓冲区是被耦接为接收经编码的输入音频比特流的缓冲存储器，并且在操作中缓冲存储器(例如，以非暂态方式)存储要被解码器213或215解码的经编码的音频比特流的至少一帧。

图8的处理器106的任何部件或元件(或者图10的子系统200、202和/或204)可以在硬件、软件或者硬件和软件的组合中被实现为一个或更多个过程和/或一个或更多个电路(例如，ASIC、FPGA或其它集成电路)。

本发明的一方面是被配置为执行本发明的方法的实施例的音频处理单元(APU)。APU的示例包括但不限于：编码器(例如，转码器)、解码器、编解码器、预处理系统(预处理器)、后处理系统(后处理器)、音频比特流处理系统，以及这些的组合。

在一类实施例中，本发明是APU，该APU包括(例如，以非暂态方式)存储由本发明的方法的任何实施例生成的基于对象的音频节目的至少一帧或其它片段(包括一床扬声器声道和对象声道的音频内容、以及对象相关元数据)的缓冲存储器(缓冲区)。例如，图5的制作单元3可以包括缓冲区3A，该缓冲区3A(例如，以非暂态方式)存储由单元3生成的基于对象的音频节目的至少一帧或其它片段(包括一床扬声器声道和对象声道的音频内容、以及对象相关元数据)。对于另一个示例，图5的解码器7可以包括缓冲区7A，该缓冲区7A(例如，以非暂态方式)存储从子系统5向解码器7传送的基于对象的音频节目的至少一帧或其它片段(包括一床扬声器声道和对象声道的音频内容、以及对象相关元数据)。

本发明的实施例可以被实现在硬件、固件、或软件或者其组合中(例如，作为可编程的逻辑阵列)。例如，图8的子系统106或图7系统、或者图6系统的元件20、22、24、25、26、29、35、31和35中的全部或一些、或者图10的元件200、202和204中的全部或一些，可以在被适当地编程(或以其它方式配置)的硬件或固件中实现，例如，作为编程的通用处理器、数字信号处理器或者微处理器。除非另外指出，否则作为本发明的一部分而被包括的算法或过程不固有地关联任何特定的计算机或其它装置。特别地，各种通用机器可以与根据本文示教所编写的程序一起使用，或者可以更方便地构造更专用的装置(例如，集成电路)来执行所需的方法步骤。因此，本发明可以在一个或更多个可编程计算机系统上执行的一个或更多个计算机程序中实现(例如，图6的元件20、22、24、25、26、29、35、31和35中的全部或一些的实现)，其中每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口和至少一个输出设备或端口。程序代码被应用到输入数据，以执行本文所述的功能并且生成输出信息。输出信息以已知的方式被应用到一个或更多个输出设备。

每个这种程序可以用任何期望的计算机语言(包括机器、汇编或高级过程、逻辑或面向对象编程语言)实现，以便与计算机系统通信。在任何情况下，语言都可以是被编译或解释的语言。

例如，当被计算机软件指令序列实现时，本发明实施例的各种功能和步骤可以由在合适的数字信号处理硬件中运行的多线程软件指令序列实现，在这种情况下，实施例的各种设备、步骤和功能可以对应于软件指令的部分。

每个这种计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如，固态存储器或介质，或者磁性或光学介质)上，以便在存储介质或设备被计算机系统读取时配置和操作计算机，以执行本文所述的过程。本发明的系统还可以被实现为计算机可读存储介质，被配置有(即，存储)计算机程序，其中这样配置的存储介质使计算机系统以特定和预定义的方式操作，以执行本文所述的功能。

已经描述了本发明的多种实施例。应当理解，在不背离本发明精神和范围的情况下，可以进行各种修改。鉴于以上示教，本发明的许多修改和变化都是可能的。应当理解，在所附权利要求的范围内，本发明可以按与本文具体描述的方式不同的方式来实践。

Claims

1.一种用于生成基于对象的音频节目的方法，所述方法包括：

确定指示一组音频信号的第一子集的音频内容的至少一组扬声器声道；

生成指示对象声道的对象相关元数据；及

生成基于对象的音频节目，使得所述基于对象的音频节目包括所述至少一组扬声器声道、所述一组对象声道和所述对象相关元数据，并且能够基于所述对象相关元数据被渲染以提供被感知为由所述至少一组扬声器声道指示的第一音频内容与由所述一组对象声道的子集指示的第二音频内容的混合的声音。

2.一种渲染由基于对象的音频节目确定的音频内容的方法，其中该音频节目包括至少一组扬声器声道、一组对象声道和对象相关元数据，所述方法包括：

(a)确定所述一组对象声道的选定子集；及

(b)基于所述对象相关元数据来渲染由所述基于对象的音频节目确定的音频内容，包括基于所述对象相关元数据确定基于所述一组对象声道的所述选定子集的第二音频内容和基于所述至少一组扬声器声道的第一音频内容的混合。

3.一种用于渲染由基于对象的音频节目确定的音频内容的系统，其中所述音频节目包括至少一组扬声器声道、一组对象声道以及对象相关元数据，所述系统包括：

第一子系统，被配置为接收所述基于对象的音频节目并且被配置为解析扬声器声道、对象声道和对象相关元数据以及确定所述一组对象声道的选定子集；及

渲染子系统，被耦接到第一子系统并且被配置为基于所述对象相关元数据渲染由所述基于对象的音频节目确定的音频内容，包括基于所述对象相关元数据确定由所述至少一组扬声器声道指示的第一音频内容和由所述一组对象声道的所述选定子集指示的第二音频内容的混合。