CN108293153A

CN108293153A - 选择用于传输的编码的下一代音频数据

Info

Publication number: CN108293153A
Application number: CN201680070015.2A
Authority: CN
Inventors: T·施托克哈默
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-12-01
Filing date: 2016-12-01
Publication date: 2018-07-17
Also published as: TW201724086A; JP2019504341A; EP3384680A1; KR20180089416A; CA3002227A1; KR102125484B1; JP6681986B2; US9854375B2; WO2017096023A1; CA3002227C; BR112018010878A2; TWI700686B; US20170156015A1

Abstract

一种用于接收音频数据的示例性设备包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG‑H或AC‑4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG‑H或AC‑4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

Description

选择用于传输的编码的下一代音频数据

本申请要求享受2015年12月1日提交的美国临时申请No.62/261,743和2015年12月22日提交的美国临时申请No.62/387,269的权益，故以引用方式将这两份申请的全部内容并入本文。

技术领域

本公开内容涉及媒体数据的传输，具体地说，本公开内容涉及音频数据的传输。

背景技术

高阶高保真立体声(HOA)信号(其通常由多个球谐系数(SHC)或者其它层次元素来表示)是声场的三维表示。HOA或SHC表示可以利用与用于回放根据SHC信号渲染的多声道音频信号的本地扬声器几何无关的方式来表示声场。可以对HOA或SHC表示进行编码。此外，还可以对相应的视频数据以及其它媒体数据(例如，定时文本)进行编码。

在已经对诸如音频数据或视频数据之类的媒体数据进行了编码之后，可以对媒体数据进行分组化以进行传输或者存储。可以将媒体数据组装成符合各种标准中的任何一种的媒体文件，例如，国际标准化组织(ISO)基本媒体文件格式以及其扩展。

发明内容

总体上，本公开内容描述了使用诸如广播或者基于宽带的单播之类的流传输，来传输下一代音频(NGA)数据的技术。此外，还描述了用于基于音频对象的特性来选择(例如，预先选择)音频对象的技术。

在一个例子中，一种接收媒体数据的方法包括：接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件，其中该清单文件指示这些音频对象中的每一个音频对象是否可经由广播、宽带或者广播和宽带二者来获得；接收指示要呈现这些音频对象中的哪些音频对象的选择数据；接收包括基于该选择数据的所述音频对象的流媒体数据；以及将该选择数据所指示的音频对象提供给音频解码器。

在另一个例子中，一种用于接收音频数据的设备包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；以及音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件，其中该清单文件指示这些音频对象中的每一个音频对象是否可经由广播、宽带或者广播和宽带二者来获得，接收指示要呈现这些音频对象中的哪些音频对象的选择数据，接收包括基于该选择数据的所述音频对象的流媒体数据；以及将该选择数据指示的音频对象提供给音频解码器。

在另一个例子中，一种用于接收音频数据的设备包括：音频解码器，其使用数字逻辑电路来实现以及配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；用于接收描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件的单元，其中该清单文件指示这些音频对象中的每一个音频对象是否可经由广播、宽带或者广播和宽带二者来获得；用于接收指示要呈现这些音频对象中的哪些音频对象的选择数据的单元；用于接收包括基于该选择数据的所述音频对象的流媒体数据的单元；以及用于将该选择数据指示的音频对象提供给音频解码器的单元。

在另一个例子中，一种其上存储有指令的计算机可读存储介质，当所述指令被执行时，使接收机设备的一个或多个处理器执行以下操作：接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件，其中该清单文件指示这些音频对象中的每一个音频对象是否可经由广播、宽带或者广播和宽带二者来获得；接收指示要呈现这些音频对象中的哪些音频对象的选择数据；接收包括基于该选择数据的所述音频对象的流媒体数据；以及将该选择数据指示的音频对象提供给接收机设备的音频解码器。

在附图和下面的描述中阐述了一个或多个例子的细节。根据该描述和附图，以及根据权利要求书，其它特征、目的和优点将变得显而易见。

附图说明

图1是示出了实现在网络上对媒体数据进行流式传输的技术的示例性系统的框图。

图2是示出了更详细的取回单元的一组示例性组件的框图。

图3是描绘示例性多媒体内容的元素的概念图。

图4是示出一种示例性媒体文件的元素的框图，其可以对应于表示的分段。

图5是示出用于传输音频数据的示例性传统系统的概念图。

图6是根据本公开内容的技术，示出可以用于支持下一代音频数据的传输的多种变型和选项的示例性系统的概念图。

图7是示出以系统为中心的第一例子的概念图。

图8是示出呈现定义和部分适配集的例子之间的映射的概念图。

图9是示出使用系统和HTML-5的另一个例子的概念图。

图10是示出使用系统和音频解码器的另一种示例性系统的概念图。

图11是示出示例性数据集以及@bundleID的值和经由各种类型的传输网络的可用性之间的对应关系的概念图。

图12是示出用于一组示例性部分适配集的数据网络可用性的例子的概念图。

图13是根据本公开内容的技术，示出使用各种各样的选择技术的另一种示例性系统的概念图。

图14是示出了根据本公开内容的技术、使用系统和音频解码器的另一种示例性系统的概念图。

图15-17是根据本公开内容的技术，示出示例性音频数据模型的概念图。

图18是示出接收机设备的例子的概念图，其中该接收机设备包括位于web浏览器和MPEG-2系统层之间的用户接口。

图19是示出接收机设备的另一个例子的概念图，其中该接收机设备包括位于web浏览器和NGA音频解码器之间的用户接口。

图20是示出接收机设备的另一个例子的概念图。

图21是示出在MPEG-2系统水平上进行的对所有数据的示例性选择的概念图。

图22是示出其中除了M&E音频数据之外，还存在对英语评论的选择的例子的概念图。

图23是示出了其中预选择单元(或者另一个单元)删减适配集以删除没有被用户选择的那些的另一个例子的概念图。

图24是示出根据本公开内容的技术的示例性方法的流程图。

具体实施方式

概括地，本公开内容描述了用于传输编码的媒体数据(例如，编码的音频数据)的技术。本公开内容的技术通常针对于在伴随这些流中的一个流的一组元数据里，通告可用的音频数据流，例如，音乐和效果(M&E)流。也就是说，各种不同的音频数据流可以是可用的，例如，M&E流、各种语言的对话流、以及各种语言的评论。元数据可以描述哪些音频数据流集是可用的以及这些流的特性。此外，元数据还可以进一步指示如何能够访问这些流，例如，这些流是否可以经由广播(诸如ATSC 3.0广播或基于网络的广播或多播，比如增强型多媒体广播多播服务(eMBMS))、宽带(例如，单播网络取回)或二者来获得。

可以将元数据包括在清单文件中，比如HTTP动态自适应流(DASH)的媒体呈现描述(MPD)，或者包括在与其它HTTP流协议相关联的其它类型的清单文件中。此外，接收设备可以包括被配置为接收元数据的音频处理单元。元数据可以符合下一代音频(NGA)编码标准，比如MPEG-H或AC-4第2部分。因此，不是配置MPEG-2系统层单元或其它这种处理单元来分析元数据，本公开内容的技术的某些方面包括使用已经被配置为处理NGA编码标准的元数据的NGA音频解码单元，以向MPEG-2系统层单元提供来自元数据的信息。用此方式，除了作为解码和渲染过程的一部分之外，本公开内容的技术还可以利用NGA音频解码单元的能力来作为数据传输和接收过程的一部分。

此外，根据本公开内容的某些技术，并且根据DASH流协议，每个音频流可以对应于DASH适配集。也就是说，上面所讨论的清单文件可以用信号通知用于适配集的特性，其中这些适配集中的每一个适配集可以对应于可用的音频数据流中的一个音频数据流。

此外，在一些例子中，用户可以选择用于音频数据的某些选项，可以将这些选项存储成用于对可用音频流的预先选择的配置数据。例如，作为缺省，用户可以选择接收音乐和效果流以及某种语言(例如，英语)的对话流，而不用评论。因此，接收设备可以包括存储预选数据以用于从可用音频流中进行选择的用户代理单元。相应地，NGA音频解码单元可以确定哪些音频数据流是可用的，并且将可用的音频数据流通告给MPEG-2系统层单元。MPEG-2系统层单元可以从例如用户代理单元接收表示哪些流将被选择的预选数据，以及向NGA音频解码单元提供选择数据。

环绕声的发展已经使得提供了许多娱乐输出格式。这种消费环绕声格式的例子大多是基于‘声道’的，因为它们隐含地指定针对特定几何坐标中的扬声器的馈送。消费环绕声格式包括流行的5.1格式(其包括以下六个声道：左前(FL)、右前(FR)、中央或前方中央、左后或左环绕、右后或右环绕、以及低频效果(LFE))、日益增长的7.1格式、以及包括诸如7.1.4格式和22.2格式之类的高度扬声器的各种格式(例如，用于结合超高清晰度电视标准来使用)。非消费格式可以涵盖通常称为‘环绕声阵列’的任何数量的扬声器(具有对称和非对称几何形状)。这种阵列的一个例子包括放置在截顶的二十面体的角的坐标上的32个扬声器。

未来的MPEG-H编码器的输入可选地是三种可能的格式中的一种：(i)传统的基于声道的音频(如上所讨论的)，其意味着通过在预先指定的位置处的扬声器进行播放；(ii)基于对象的音频，其涉及单个音频对象的离散脉冲编码调制(PCM)数据以及包含其位置坐标的相关联元数据(以及其它信息)；以及(iii)基于场景的音频，其涉及使用球谐基函数的系数(也称为“球谐系数”或SHC、“高阶高保真立体声”或HOA和“HOA系数”)来表示声场。在MPEG-H 3D Audio—The New Standard forCoding of Immersive Spatial Audio,JürgenHerre,Senior Member,IEEE,Johannes Hilpert,Achim Kuntz,and Jan Plogsties,IEEEJOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING,VOL.9,NO.5,AUGUST 2015(本文还称为“IEEE Paper”)里，更详细地描述了MPEG-H编码器。

新的MPEG-H 3D Audio为每个基于声道、对象和场景的音频流提供了标准化的音频比特流，以及对于扬声器几何形状(和扬声器数量)和回放的位置处的声学状况(其涉及渲染器)来说可适应的和不可知的后续解码。

如IEEE Paper中所指出的，HOA提供了更多的系数信号，从而提高了空间选择性，这允许扬声器信号在具有较少的串扰的情况下进行渲染，从而减少了音质失真。与对象相反，HOA中的空间信息不是通过明确的几何元数据来传达的，而是通过系数信号本身来传达的。因此，高保真立体声/HOA不太适合允许在声音场景中访问独立对象。但是，对于内容创作者来说有更多的灵活性，使用分层元素集合来表示声场。分层元素集合可以指代对其中的元素进行排序的一组元素，使得基本的较低顺序元素集合提供所建模的声场的完整表示。随着将集合扩展到包含更高阶的元素，表示变得更加详细，分辨率也越高。

分层元素集合的一个例子是一组球谐系数(SHC)。下面的表达式演示了使用SHC的声场的描述或者表示：

该表达式示出了：在时间t，声场的任何点处的压力p_i可以通过SHC，来唯一地表示。这里，c是声音速度(～343m/s)，是参考点(或者观测点)，j_n(·)是n阶球面贝塞尔函数，是n阶和m亚阶的球谐基函数。可以认识到，方括号中的项是信号的频域表示(即，其可以通过诸如离散傅里叶变换(DFT)、离散余弦变换(DCT)或者小波变换之类的各种时间-频率变换来近似。分层集合的其他例子包括小波变换系数集和其它多分辨率基函数系数集。

本公开内容的技术可以用于传输如上面所讨论的使用流协议(例如，HTTP动态自适应流(DASH))进行编码的音频数据，在例如以下中描述了DASH的各个方面：“InformationTechnology—Dynamic Adaptive Streaming over HTTP(DASH)—Part 1:MediaPresentation Description and Segment Formats，”ISO/IEC 23009-1,April 1,2012；以及第三代合作伙伴计划；技术规范组服务和系统方面；透明的端到端分组交换流服务(PSS)；Progressive Download and Dynamic Adaptive Streaming over HTTP(3GP-DASH)(Release 12)3GPP TS 26.247,V12.1.0,Dec.2013。

在HTTP流式传输中，通常使用的操作包括HEAD、GET和部分GET。HEAD操作获取与给定的统一资源定位符(URL)或者统一资源名称(URN)相关联的文件的报头，而不获取与该URL或URN相关联的有效载荷。GET操作获取与给定的URL或URN相关联的整个文件。部分GET操作接收字节范围作为输入参数，并获取文件的连续的数个字节，其中该数个字节与所接收的字节范围相对应。因此，对于HTTP流式传输而言，可以提供电影片段，这是由于部分GET操作可以获得一个或多个独立的电影片段。在电影片段中，可以存在不同轨道的若干轨道片段。在HTTP流式传输中，媒体呈现可以是客户端可访问的结构化的数据集合。客户端可以请求和下载媒体数据信息，以向用户呈现流服务。

在使用HTTP流式传输对音频数据进行流传输的例子中，可能存在针对多媒体内容的视频和/或音频数据的多个表示。

如下面所解释的，不同的表示可以对应于不同形式的针对HOA的可缩放编码(例如，基于场景的音频)。

可以利用媒体呈现描述(MPD)数据结构来规定这些表示的清单。媒体呈现可以对应于HTTP流客户端设备可访问的结构化的数据集合。HTTP流客户端设备可以请求和下载媒体数据信息，以向客户端设备的用户呈现流服务。可以利用MPD数据结构来描述媒体呈现，其中MPD数据结构可以包括对MPD的更新。

媒体呈现可以包含一个或多个时段的序列。可以通过MPD中的Period(时段)元素来规定时段。每个时段可以具有MPD中的属性开始。MPD可以包括针对每个时段的开始属性和availableStartTime(可用开始时间)属性。对于直播服务而言，该时段的开始属性和MPD属性availableStartTime的总和，可以指定以UTC格式的该时段的可用时间(具体而言，相应的时段中的每个表示的第一媒体分段)。对于按需服务而言，第一时段的开始属性可以是0。对于任何其它时段而言，开始属性可以指定相应的时段的开始时间相对于第一时段的开始时间之间的时间偏移。每个时段可以扩展直到下个时段的开始为止，或者扩展到媒体呈现的结束为止(在最后时段的情况下)。时段开始时间可以是精确的。它们可以反映源自于播放所有在先时段的媒体的实际定时。

每个时段可以包含同一媒体内容的一个或多个表示。表示可以是音频或视频数据的多个替代编码版本中的一个。这些表示可以依据编码类型(例如，用于视频数据的比特率、分辨率、和/或编解码器以及用于音频数据的比特率、语言和/或编解码器)而不同。可以使用术语表示来指代：与多媒体内容的特定时段相对应、并以特定的方式进行编码的经编码的音频或视频数据的一部分。

可以将特定时段的表示分配给通过MPD中的属性所指示的组，其中该属性指示这些表示属于的适配集。相同适配集中的表示通常认为是彼此的替代，其在于：客户端设备可以动态地和无缝地在这些表示之间切换，例如，以执行带宽适配。例如，可以将特定时段的视频数据的每个表示分配给相同的适配集，使得可以选择这些表示中的任何一个表示来解码，以呈现针对相应的时段的多媒体内容的媒体数据(例如，视频数据或音频数据)。再举一个例子，音频适配集中的表示可以包括相同类型的音频数据，其按照不同的比特率进行编码以支持带宽适配。在一些例子中，一个时段中的媒体内容可以通过来自组0(如果存在的话)的一个表示来表示，或者来自每个非零组的至多一个表示的组合来表示。可以相对于时段的开始时间来表达针对该时段的每个表示的定时数据。

表示可以包括一个或多个分段。每个表示可以包括初始化分段，或者表示的每个分段可以是自初始化的。当存在时，初始化分段可以包含用于访问该表示的初始化信息。通常，初始化分段不包含媒体数据。分段可以通过诸如统一资源定位符(URL)、统一资源名称(URN)或者统一资源标识符(URI)之类的标识符来唯一地引用。MPD可以提供用于每个分段的标识符。在一些例子中，MPD还可以提供具有范围属性形式的字节范围，其可以对应于：可通过URL、URN或URI来访问的文件内的分段的数据。

可以针对不同类型的媒体数据，选择不同的表示以进行基本同时的取回。例如，客户端设备可以选择用于从其获取分段的音频表示、视频表示和定时的文本表示。在一些例子中，客户端设备可以选择特定的适配集来执行带宽适配。也就是说，客户端设备可以选择包括视频表示的视频适配集、包括音频表示的适配集、和/或包括定时文本的适配集。

本公开内容的技术可以用于将媒体(例如，3D音频)数据复用到例如MPEG-2系统中，其在“Information technology--Generic coding of moving pictures andassociated audio information--Part 1:Systems，”ISO/IEC13818-1:2013(以及ISO/IEC13818-1:2015)(其还称为“MPEG-2系统”或“系统”)中进行了描述。该系统规范描述了具有访问单元的流/轨道，其每一个具有时间戳。访问单元是多路复用的，并且在如何执行这种多路复用方面通常具有一定的灵活性。MPEG-H音频允许将所有对象的采样放置在一个流中，例如，可以将具有相同时间码的所有采样映射到一个访问单元中。在系统级别，可以生成一个主流和多个补充流，补充流允许将对象分隔到不同的系统流中。系统流产生灵活性：它们允许不同的传送路径、混合传送、根本一个也不传送等等。

可以根据ISO基本媒体文件格式(BMFF)来形成包括媒体数据(例如，音频和/或视频数据)的文件，例如，在“Information technology—Coding of audio-visualobjects—Part 12:ISO base media file format”ISO/IEC14496-12:2012中描述了BMFF。在ISO BMFF中，流是轨道，访问单元包含在电影数据(mdat)盒中。每个轨道都会在电影头部中获取采样条目，可以物理地找到描述这些采样的采样表。通过使用电影片段，分布式存储也是可以的。

在MPEG-2传输流(TS)中，流是基本流。MPEG-2TS的灵活性较低，但总的来说，这些技术类似于ISO BMFF。在MPEG-2TS中，每个基本流可以对应于具有节目标识符(PID)的节目。

虽然可以根据上面所讨论的各种技术中的任何技术来形成包含媒体数据(例如，编码的3D音频数据)的文件，但是本公开内容描述了关于ISO BMFF/文件格式的技术。

通常，文件可以包含编码的媒体数据(例如，编码的3D音频数据)。在DASH中，这些文件可以称为表示的“分段”，如上面所讨论的。此外，内容提供商可以使用各种适配集来提供媒体内容，如上所述。关于3D音频数据而言，可以在一个适配集中提供场景音频数据。该适配集可以包括场景音频数据的各种可切换(也就是说，替代的)表示(例如，彼此的比特率不同，但在其它方面基本上相同)。类似地，可以分别在相应的适配集中提供音频对象。或者，适配集可以包括多个音频对象，和/或可以在多个适配集中提供一个或多个音频对象。

根据本公开内容的某些技术，设备可以包括单个音频解码器，以对来自多个不同的音频流的音频数据进行解码。例如，音频流可以包括音乐和效果(M&E)流、一个或多个对话流以及一个或多个评论流。该一个或多个对话和评论流可以以不同的语言(例如，英语、法语、德语、西班牙语等)来获得。因此，可以基于用户对语言的偏好来进行选择。如下面所进一步详细解释的，音频流中的每一个音频流可以对应于相应的部分适配集(其还称为“部分AS”)。部分适配集通常可以包括无法单独从部分适配集中解码的数据；相反，为了可解码，客户端设备可以获得用于部分适配集的组合的数据，例如，一个M&E流、一个对话流和一个评论流。部分适配集的组合可以是可解码的。例如，初始化数据可以在M&E流中携带，但不在对话流和/或评论流中携带。本公开内容提供了用于发信号通知与音频流的组合的选择有关的数据的技术，以及客户端设备凭其可以使用该数据来选择音频流的组合的技术。

通常，完整可呈现音频呈现可以对应于可呈现给用户的一个或多个全部或部分适配集。例如，完整可呈现音频呈现可以对应于音乐和效果适配集，和/或特定语言的对话适配集。完整可呈现音频呈现可以包括对其音频数据进行解码和渲染所需要的所有数据。在一些情况下，适配集可以取决于一个或多个其它适配集。例如，如果需要来自另一个适配集的数据或元数据来访问、解码或者渲染适配集，则该适配集可以依赖于另一个适配集。在一些例子中，单个适配集可以表示完整可呈现音频呈现，以及可以被进一步分配特定的标识符。不是完整可呈现音频呈现的适配集，可以包括对于该适配集所依赖的适配集的特定标识符的引用。

根据本公开内容的某些技术，例如经由DASH发送和接收媒体数据的设备，可以针对与DASH和/或高级电视系统委员会(ATSC)(和/或其它系统标准)集成的下一代音频(NGA)编解码器，使用一个或多个与编解码器无关的模型。下面将进一步详细地描述这样的模型的例子。

图1是示出用于实现经由空中(OTA)广播来流式传输媒体数据的技术的示例性系统10的框图。在该例子中，系统10包括内容准备设备20、广播源设备60、广播单元74和客户端设备40。例如，广播源设备60可以包括电视网络办公室、有线电视局等等。广播单元74可以包括例如卫星、有线电视分配集线器、天线等等。虽然在图1的例子中只示出了单个广播单元74，但应当理解的是，可以在广播源设备60和客户端设备40之间放置多个中间设备。在一些例子中，内容准备设备20和广播源设备60可以通过基于计算机的网络来耦合，也可以直接通信地耦合。替代地，内容准备设备20可以经由诸如硬盘、闪速驱动器、CD、DVD、蓝光盘等等之类的计算机可读存储介质的传送，向广播源设备60提供多媒体内容。在一些例子中，内容准备设备20和广播源设备60可以包括相同的设备。

在图1的例子中，内容准备设备20包括音频源22和视频源24。例如，音频源22可以包括麦克风，后者产生代表将由音频编码器26进行编码的经捕获的音频数据的电信号。替代地，音频源22可以包括：用于存储先前记录的音频数据的存储介质、诸如计算机化合成器之类的音频数据发生器、或者音频数据的任何其它源。视频源24可以包括：产生将由视频编码器28进行编码的视频数据的视频摄像机、被编码有先前记录的视频数据的存储介质、诸如计算机图形源之类的视频数据生成单元、或者视频数据的任何其它源。内容准备设备20并不一定在所有例子中都通信地耦合到广播源设备60，而可以将多媒体内容存储到由广播源设备60进行读取的分别介质中。

原始音频和视频数据可以包括模拟或数字数据。在模拟数据被音频编码器26和/或视频编码器28编码之前，可以对其进行数字化。音频源22可以在说话参与者正在说话时从该说话参与者获得音频数据，并且视频源24可以同时地获得说话参与者的视频数据。在其它例子中，音频源22可以包括具有存储的音频数据的计算机可读存储介质，视频源24可以包括具有存储的视频数据的计算机可读存储介质。用此方式，本公开内容中所描述的技术可以应用于直播、流式传输、实时音频和视频数据，也可以应用于归档的、预先录制的音频和视频数据。

与视频帧相对应的音频帧通常是包含音频数据的音频帧，该音频数据由音频源22与由视频源24所捕获(或者生成)的视频数据进行同时地捕获(或生成)，该视频数据包含在视频帧内。例如，在说话参与者通常通过讲话而产生音频数据时，音频源22捕获音频数据，与此同时视频源24捕获说话参与者的视频数据(也就是说，在音频源22捕获音频数据时)。因此，音频帧可以在时间上与一个或多个特定的视频帧相对应。因此，与视频帧相对应的音频帧通常对应于以下情形：其中，音频数据和视频数据是在相同的时间捕获的(或者要在相同的时间以其它方式进行呈现)，并且对于此情形，音频帧和视频帧分别包括在相同时间捕获的音频数据和视频数据。此外，可以单独地生成要与视频和其它音频数据(例如，解说)进行同时呈现的音频数据。

在一些例子中，音频编码器26可以将时间戳编码在每个编码的音频帧中，其中该时间戳表示对编码的音频帧的音频数据进行记录的时间，类似地，视频编码器28可以将时间戳编码在每个编码的视频帧中，其中该时间戳表示对编码的视频帧的视频数据进行记录的时间。在这些例子中，与视频帧相对应的音频帧可以包括具有时间戳的音频帧和具有相同的时间戳的视频帧。内容准备设备20可以包括内部时钟，其中音频编码器26和/或视频编码器28可以根据该内部时钟来生成时间戳，或者音频源22和视频源24可以使用该内部时钟将音频和视频数据分别与时间戳进行关联。

在一些例子中，音频源22可以向音频编码器26发送与记录音频数据的时间相对应的数据，视频源24可以向视频编码器28发送与记录视频数据的时间相对应的数据。在一些例子中，音频编码器26可以将序列标识符编码在编码的音频数据中，以指示编码的音频数据的相对时间顺序，而无需指示记录音频数据的绝对时间，类似地，视频编码器28还可以使用序列标识符来指示编码的视频数据的相对时间顺序。类似地，在一些例子中，可以使序列标识符与时间戳进行映射或者以其它方式进行相关。

音频编码器26通常产生编码的音频数据的流，而视频编码器28产生编码的视频数据的流。每个单独的数据流(无论是音频还是视频)可以称为基本流。基本流是表示的单个的数字编码的(可能被压缩)分量。例如，表示的经编码的视频或者音频部分可以是基本流。在将基本流封装在视频文件中之前，可以将其转换成分组化基本流(PES)。在相同的表示之内，可以使用流ID来对属于一个基本流的PES分组进行彼此区分。基本流的基本数据单元是分组化基本流(PES)分组。因此，编码的视频数据通常与基本视频流相对应。类似地，音频数据与一个或多个相应的基本流相对应。

在图1的例子中，内容准备设备20的封装单元30从视频编码器28接收包括编码的视频数据的基本流，以及从音频编码器26接收包括编码的音频数据的基本流。在一些例子中，视频编码器28和音频编码器26均可以包括：用于根据编码的数据来形成PES分组的分组化器。在其它例子中，视频编码器28和音频编码器26均可以与相应的分组化器进行接口，以根据编码的数据来形成PES分组。在其它例子中，封装单元30可以包括：用于根据编码的音频和视频数据来形成PES分组的分组化器。

视频编码器28可以以各种方式，对多媒体内容的视频数据进行编码，以按照各种比特率和通过各种特性(例如，像素分辨率、帧速率、符合各种编码标准、符合用于各种编码标准的各种简档(profile)和/或简档的级别、具有一个或多个视角(例如，用于二维或三维回放)的表示、或者其它这些特性)，来产生多媒体内容的不同表示。类似地，音频编码器26可以以多种不同的方式通过各种特性，对音频数据进行编码。例如，如下面所进一步详细讨论的，音频编码器26可以形成音频适配集，其每个包括以下各项中的一项或多项：基于场景的音频数据、基于声道的音频数据和/或基于对象的音频数据。另外地或替代地，音频编码器26可以形成包括可缩放音频数据的适配集。例如，音频编码器26可以形成用于基层、左/右信息和高度信息的适配集，如下面所进一步详细讨论的。

如本公开内容中所使用的，表示可以包括音频数据、视频数据、文本数据(例如，用于闭路字幕)中的一者或者其它这种数据。该表示可以包括基本流，例如，音频基本流或者视频基本流。每个EPS分组可以包括用于标识该PES分组所属于的基本流的stream_id。封装单元30负责将基本流组合到各个表示的视频文件(例如，分段)中。

封装单元30从音频编码器26和视频编码器28接收用于表示的基本流的PES分组，并根据这些PES分组来形成相应的网络抽象层(NAL)单元。

封装单元30可以向输出接口32提供用于多媒体内容的一个或多个表示的数据连同清单文件(例如，MPD)。输出接口32可以包括网络接口或者用于向存储介质写入的接口，例如，通用串行总线(USB)接口、CD或DVD写入器或者烧写器、针对磁存储介质或者闪速存储介质的接口、或者用于存储或发送媒体数据的其它接口。封装单元30可以向输出接口32提供多媒体内容的每一个表示的数据，其中输出接口32可以经由网络传输或存储介质来向广播源设备60发送该数据。在图1的例子中，广播源设备60包括用于存储各种多媒体内容64的存储介质62，其中每一个多媒体内容64包括相应的清单文件66和一个或多个表示68A-68N(表示68)。在一些例子中，输出接口32还可以直接向网络74发送数据。

在一些例子中，可以将表示68分隔成一些适配集。也就是说，表示68的各个子集可以包括相应的共同特性集，例如，用于分段的编解码器、简档和级别、分辨率、视图的数量、文件格式、可以标识要与该表示和/或要(例如，由扬声器)进行解码和呈现的音频数据一起显示的文本的语言或者其它特性的文本类型信息、可以描述适配集中的表示的场景的摄像机角度或者真实世界摄像机视角的摄像机角度信息、用于描述对于特定观众的内容适合性的评级信息等等。

清单文件66可以包括用于指示与特定的适配集相对应的表示68的子集的数据、以及这些适配集的共同特性。清单文件66还可以包括用于表示适配集的各个表示的各自特性(例如，比特率)的数据。用此方式，适配集可以提供简化的网络带宽适配。可以使用清单文件66的适配集元素的子元素，来指示适配集中的表示。

广播源设备60包括输出接口72。广播源设备60经由输出接口72，向广播单元74提供多媒体内容。

如图1的例子中所示出的，多媒体内容64包括清单文件66，后者可以对应于媒体呈现描述(MPD)。清单文件66可以包含对不同的替代表示68(例如，具有不同质量的视频服务)的描述，该描述可以包括例如表示68的编解码器信息、简档值、级别值、比特率和其它描述性特性。客户端设备40可以获取媒体呈现的MPD，来确定如何访问表示68的分段。

具体而言，接收单元52可以包括OTA广播中间件单元和媒体播放器客户端二者。OTA广播中间件单元可以充当用于媒体播放器客户端的代理服务器，其可以被配置为经由网络协议(例如，根据HTTP动态自适应流(DASH))来取回媒体数据。也就是说，媒体客户端可以包括DASH客户端。因此，媒体客户端可以获取客户端设备40的配置数据(没有示出)，以确定视频解码器48的解码能力和视频输出44的渲染能力。该配置数据还可以包括以下各项中的任一项或所有项：客户端设备40的用户所选择的语言偏好、与客户端设备40的用户所设置的深度偏好相对应的一个或多个摄像机视角、和/或客户端设备40的用户所选定的评级偏好。媒体客户端可以被配置为向OTA广播中间件单元提交HTTP GET和部分GET请求。接收单元52的某些方面可以实现成由客户端设备40的一个或多个处理器或处理单元(没有示出)执行的软件指令。也就是说，参照接收单元52所描述的功能的部分可以利用硬件、或者硬件、软件和/或固件的组合来实现，其中在该情况下，可以提供必要的硬件来执行用于软件或固件的指令。

接收单元52的媒体播放器客户端可以将客户端设备40的解码和渲染能力与清单文件66的信息所指示的表示68的特性进行比较。初始时，媒体播放器客户端可以取回清单文件66的至少部分，以确定表示68的特性。例如，媒体播放器客户端可以请求用于描述一个或多个适配集的特性的清单文件66的部分。媒体播放器客户端可以选择表示68中的具有能够被客户端设备40的编码和渲染能力所满足的特性的子集(例如，适配集)。随后，媒体播放器客户端可以确定用于该适配集中的表示的比特率，确定网络带宽的当前可用量，以及取回来自表示中的具有能够被该网络带宽所满足的比特率的一个表示的分段。

如上所述，接收单元52可以包括OTA广播中间件单元。OTA广播中间件单元可以被配置为接收(例如根据ATSC的)OTA广播信号。此外，OTA广播中间件单元可以实现网络代理服务器，后者对接收的媒体数据进行本地高速缓存，以及对来自接收单元52的媒体播放器客户端的对于数据的网络请求进行响应。

虽然该例子包括根据例如ATSC的OTA广播，但在其它例子中，可以经由网络广播(例如，增强型多媒体广播多播服务(eMBMS))来传输媒体数据。在这些例子中，可以由网络服务器(其通常可以对应于广播源设备60)经由基于计算机的网络(在该例子中没有示出)向客户端设备40广播或者多播媒体数据。网络可以位于服务器设备和客户端设备40之间，该网络可以包括诸如路由器、交换机、集线器、网关等等之类的各种网络设备。此外，接收单元52可以包括替代OTA广播中间件单元的eMBMS中间件单元。eMBMS中间件单元可以基本与该例子中所描述的OTA广播中间件单元进行相同地操作，除了包括eMBMS接收单元来替代OTA广播接收单元之外，如本文所描述的。

接收单元52将接收的分段提供给解封装单元50。解封装单元50可以将视频文件的组成元素解封装成组成的PES流，对PES流进行解分组以获取编码的数据，以及根据该编码的数据是音频流的一部分还是视频流的一部分(例如，如该流的PES分组报头所指示的)，将该编码的数据发送给音频解码器46或者视频解码器48。音频解码器46对编码的音频数据进行解码，并向音频输出42发送该解码的音频数据，而视频解码器48对编码的视频数据进行解码，并向视频输出44发送该解码的视频数据(其可以包括流的多个视图)。

视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、接收单元52和解封装单元50均可以根据需要，实现成多种适当的处理电路中的任何一种，例如，一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、分立逻辑电路、软件、硬件、固件或者其任意组合。视频编码器28和视频解码器48中的每一个可以包括在一个或多个编码器或解码器中，它们中的任意一个可以集成为组合的视频编码器/解码器(CODEC)的部分。同样，音频编码器26和音频解码器46中的每一个可以包括在一个或多个编码器或解码器中，它们中的任意一个可以集成为组合的CODEC的部分。包括有视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、接收单元52和/或解封装单元50的装置，可以包括集成电路、微处理器和/或诸如蜂窝电话之类的无线通信设备。

客户端设备40、广播源设备60和/或内容准备设备20可以被配置为根据本公开内容的技术进行操作。为了举例起见，本公开内容关于客户端设备40和广播源设备60来描述这些技术。但是，应当理解的是，内容准备设备20可以被配置为替代广播源设备60(或者除了广播源设备60之外)，执行这些技术。

封装单元30可以形成NAL单元，其包括用于标识该NAL单元所属于的节目的报头以及有效载荷(例如，音频数据、视频数据、或者用于描述该NAL单元与之相对应的传输或节目流的数据)。例如，在H.264/AVC中，NAL单元包括1字节报头和可变大小的有效载荷。将视频数据包括在其有效载荷中的NAL单元，可以包括各种粒度水平的视频数据。例如，NAL单元可以包括视频数据块、多个块、视频数据切片、或者整幅图像的视频数据。封装单元30可以从视频编码器28接收具有基本流的PES分组的形式的编码的视频数据。封装单元30可以将每一个基本流与相对应的节目进行关联。

封装单元30还可以对来自多个NAL单元的访问单元进行组合。通常，访问单元可以包括：用于表示视频数据帧的一个或多个NAL单元、以及与该帧相对应的音频数据(当该音频数据可用时)。访问单元通常包括用于一个输出时刻的所有NAL单元，例如，用于一个时刻的所有音频和视频数据。例如，如果每一个视图均具有每秒20帧的帧速率(fps)，则每一个时刻可以对应于0.05秒的时间间隔。在该时间间隔期间，可以针对该相同访问单元(相同的时刻)的所有视图来同时地渲染这些特定帧。举一个例子，访问单元可以包括一个时刻中的编码图像，其可以呈现成主编码图像。

因此，访问单元可以包括共同时刻的所有音频帧和视频帧，例如，与时间X相对应的所有视图。此外，本公开内容还将特定视图的编码图像指代成“视图分量”。也就是说，视图分量可以包括在特定的时间、针对特定的视图的编码图像(或者帧)。因此，可以将访问单元规定成包括共同时刻的所有视图分量。访问单元的解码顺序并不一定需要与输出或者显示顺序相同。

媒体呈现可以包括媒体呈现描述(MPD)，后者可以包含对不同的替代表示(例如，具有不同质量的视频服务)的描述，该描述可以包括例如编解码器信息、简档值和级别值。MPD是清单文件(例如，清单文件66)的一个例子。客户端设备40可以取回媒体呈现的MPD，以确定如何访问各个呈现的电影片段。电影片段可以位于视频文件的电影片段盒(moof盒)中。

清单文件66(例如，其可以包括MPD)可以通告表示68的分段的可用性。也就是说，MPD可以包括：用于指示表示68中的一个的第一分段变得可用的壁钟时间的信息，以及用于指示表示68中的分段的持续时间的信息。用此方式，客户端设备40的取回单元52可以基于起始时间以及特定分段之前的分段的持续时间，确定每一分段何时是可用的。

在封装单元30基于接收的数据而将NAL单元和/或访问单元组合到视频文件之后，封装单元30将该视频文件传送到输出接口32以进行输出。在一些例子中，封装单元30可以本地存储该视频文件，或者经由输出接口32，向远程服务器发送该视频文件，而不是直接将该视频文件发送给客户端设备40。例如，输出接口32可以包括发射机、收发机、用于将数据写入到诸如光驱动器、磁介质驱动器(例如，软盘驱动器)之类的计算机可读介质的设备、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口32向诸如传输信号、磁介质、光介质、存储器、闪存驱动器或其它计算机可读介质之类的计算机可读介质输出视频文件。

接收单元52根据从广播单元74接收的广播信号来提取NAL单元或访问单元，并将NAL单元或访问单元提供给接收单元52，后者可以将NAL单元传送给解封装单元50。解封装单元50可以将视频文件的组成元素解封装成组成的PES流，对PES流进行解分组以获取编码的数据，以及根据该编码的数据是音频流的一部分还是视频流的一部分(例如，如该流的PES分组报头所指示的)，将该编码的数据发送给音频解码器46或者视频解码器48。音频解码器46对编码的音频数据进行解码，并向音频输出42发送该解码的音频数据，而视频解码器48对编码的视频数据进行解码，并向视频输出44发送该解码的视频数据(其可以包括流的多个视图)。

虽然在图1的例子中没有明确地示出，但客户端设备40还可以包括媒体应用。媒体应用可以执行音频解码器46、视频解码器48、解封装单元50和/或接收单元52中的任何一个的功能的全部或者一部分。例如，媒体应用可以形成接收单元52的一部分，或者与接收单元52相分离。除了上面所描述的功能之外，媒体应用还可以使客户端设备40向用户呈现诸如图形用户界面(GUI)之类的用户界面，以允许选择多媒体数据(例如，电影或者其它节目内容)。媒体应用可以向接收单元52提供所选定内容的指示，以使接收单元52接收所选定节目内容的媒体数据，如上面所讨论的。该媒体应用可以是单独的软件。

图2是更详细地示出图1的接收单元52的一组示例性组件的框图。在该例子中，接收单元52包括OTA广播中间件单元100、DASH客户端110和媒体应用112。

此外，OTA广播中间件单元100还包括OTA广播接收单元106、高速缓存104和代理服务器102。在该例子中，OTA广播接收单元106被配置为经由OTA广播(例如，经由高级电视系统委员会(ATSC)广播)来接收数据。也就是说，OTA广播接收单元106可以经由广播，从例如广播源设备60接收文件。

随着OTA广播中间件单元100接收用于文件的数据，OTA广播中间件单元100可以将所接收的数据存储在高速缓存104中。高速缓存104可以包括计算机可读存储介质，比如闪存、硬盘、RAM或者任何其它适当的存储介质。

代理服务器102可以充当用于DASH客户端110的代理服务器。例如，代理服务器102可以向DASH客户端110提供MPD文件或者其它清单文件。代理服务器102可以在MPD文件中通告分段的可用时间以及可以从其获取这些分段的超链接。这些超链接可以包括与客户端设备40相对应的本地主机地址前缀(例如，用于IPv4的127.0.01)。用此方式，DASH客户端110可以使用HTTP GET或者部分GET请求，从代理服务器102请求分段。例如，对于可从链接http://127.0.0.1/rep1/seg3获得的分段而言，DASH客户端110可以构造包括针对http://127.0.0.1/rep1/seg3的请求的HTTP GET请求，并将该请求提交给代理服务器102。代理服务器102可以响应于该请求，从高速缓存104取回请求的数据，并将该数据提供给DASH客户端110。

在接收到分段之后，DASH客户端110可以将该分段的数据传送到媒体应用112。DASH客户端110可以对该分段进行处理，例如从分段中提取媒体数据，和/或丢弃媒体应用112不可使用的数据。在一些例子中，可以将DASH客户端110实现成web浏览器的扩展，以及可以将媒体应用112实现成视频和/或音乐播放应用。

图3是示出示例性多媒体内容120的元素的概念图。多媒体内容120可以对应于多媒体内容64(图1)或者存储介质62中存储的另一多媒体内容。在图3的例子中，多媒体内容120包括媒体呈现描述(MPD)122和多个表示124A-124N(表示124)。表示124A包括可选的报头数据126和分段128A-128N(分段128)，而表示124N包括可选的报头数据130和分段132A-132N(分段132)。为方便起见，使用字母N来指定表示124中的每一个表示中的最后电影片段。在一些例子中，在表示124之间可以存在不同数量的电影片段。

MPD 122可以包括与表示124独立的数据结构。MPD 122可以对应于图1的清单文件66。同样，表示124可以对应于图2的表示68。通常，MPD122可以包括通常用于描述表示124的特性的数据，例如，编码和渲染特性、适配集、MPD 122所对应的简档、文本类型信息、摄像机角度信息、评级信息、窍门(trick)模式信息(例如，用于指示包括时间子序列的表示的信息)、和/或用于获取远程时段的信息(例如，用于回放期间的向媒体内容的定向广告插入)。

当存在报头数据126时，其可以描述分段128的特性，例如，随机接入点(RAP，其还称为流接入点(SAP))的时间位置，哪个分段128包括随机接入点、分段128中针对随机接入点的字节偏移、分段128的统一资源定位符(URL)、或者分段128的其它方面。当存在报头数据130时，其可以描述分段132的类似特性。另外地或替代地，可以将这些特性全部都包括在MPD 122中。

分段128、132包括一个或多个编码的媒体采样。分段128的编码的媒体采样中的每一个采样可以具有类似的特性，例如，语言(如果包括语音的话)、位置、CODEC和带宽要求。这些特性可以通过MPD 122的数据来描述，但在图3的例子中没有示出该数据。MPD 122可以包括如3GPP规范所描述的特性，另外加上本公开内容中所描述的用信号通知的信息中的任何一个或者全部。

分段128、132中的每一个可以与唯一的统一资源定位符(URL)相关联。因此，分段128、132中的每一个可以使用诸如DASH之类的流网络协议来独立地获取。用此方式，诸如客户端设备40之类的目的地设备可以使用HTTP GET请求来获取分段128或者132。在一些例子中，客户端设备40可以使用HTTP部分GET请求，来获取分段128或132的特定字节范围。

图4是示出一种示例性媒体文件150的元素的框图，其可以对应于表示的分段(例如，图3的分段128、132中的一个)。分段128、132中的每一个可以包括：基本遵循图4的例子中所示出的数据排列的数据。媒体文件150可以说是对分段进行封装。如上所述，根据ISO基本媒体文件格式和其扩展的视频文件，将数据存储在一系列对象(其称为“盒”)中。在图4的例子中，媒体文件150包括文件类型(FTYP)盒152、电影(MOOV)盒154、分段索引(sidx)盒162、电影片段(MOOF)盒164和电影片段随机接入(MFRA)盒166。虽然图4表示视频文件的例子，但应当理解的是，其它媒体文件可以包括其它类型的媒体数据(例如，音频数据、定时文本数据等等)，其是根据ISO基本媒体文件格式和其扩展，类似于媒体文件150的数据来构造的。

文件类型(FTYP)盒152通常描述用于媒体文件150的文件类型。文件类型盒152可以包括：用于标识对媒体文件150的最佳使用进行描述的规范的数据。可以替代地将文件类型盒152放置在MOOV盒154、电影片段盒164和/或MFRA盒166之前。

在图4的例子中，MOOV盒154包括电影报头(MVHD)盒156、轨道(TRAK)盒158和一个或多个电影延伸(MVEX)盒160。通常，MVHD盒156可以描述媒体文件150的通用特性。例如，MVHD盒156可以包括：用于描述媒体文件150最初是何时生成的、上一次修改媒体文件150是何时、用于媒体文件150的时间尺度、用于媒体文件150的回放的持续时间的数据、或者通常描述媒体文件150的其它数据。

TRAX盒158可以包括针对媒体文件150的轨道的数据。TRAX盒158可以包括用于描述与TRAX盒158相对应的轨道的特性的轨道头(TKHD)盒。在一些例子中，TRAX盒158可以包括编码的视频图像，而在其它例子中，可以将轨道的编码的视频图像包括在电影片段164中，可以通过TRAX盒158和/或sidx盒162的数据对其进行引用。在一些例子中，轨道的轨道ID可以表示用于媒体文件150的完整可呈现音频呈现的标识符。也就是说，相应的轨道可以包括用于完整可呈现音频呈现的音频数据。替代地，节目标识符(PID)可以标识与包括完整可呈现音频呈现的MPEG-2TS中的基本流相对应的节目。

在一些例子中，媒体文件150可以包括一个以上的轨道。因此，MOOV盒154可以包括数个TRAK盒，其数量等于媒体文件150中的轨道的数量。TRAK盒158可以描述媒体文件150的相应轨道的特性。例如，TRAK盒158可以描述用于相应的轨道的时间和/或空间信息。当封装单元30(图3)将参数集轨道包括在视频文件(例如，媒体文件150)中时，类似于MOOV盒154的TRAK盒158的TRAK盒可以描述参数集轨道的特性。封装单元30可以在用于描述参数集轨道的TRAK盒中的参数集轨道里，用信号通知序列级别SEI消息的存在性。

MVEX盒160可以描述相应的电影片段164的特性，例如，以便用信号通知除了MOOV盒154(如果有的话)中包括的视频数据之外，媒体文件150包括电影片段164。在流视频数据的背景下，可以将编码视频图像包括在电影片段164而不是MOOV盒154中。因此，可以将所有编码视频采样包括在电影片段164而不是MOOV盒154中。

MOOV盒154可以包括数个MVEX盒160，其数量等于媒体文件150中的电影片段164的数量。MVEX盒160中的每一个可以描述电影片段164中的相应一个的特性。例如，每一个MVEX盒可以包括用于描述电影片段164中的相应一个的持续时间的电影延伸报头盒(MEHD)盒。

如上所述，封装单元30可以将序列数据集存储在不包含实际编码视频数据的视频采样中。通常，视频采样可以对应于访问单元，其中访问单元是处于特定时刻的编码图像的表示。在AVC的背景下，编码图像包括一个或多个VCL NAL单元，其中这些VCL NAL单元包含用于构造该访问单元的所有像素和其它相关联的非VCL NAL单元(例如，SEI消息)的信息。因此，封装单元30可以将序列数据集(其可以包括序列级别SEI消息)包括在电影片段164中的一个里。封装单元30还可以在与电影片段164中的一个电影片段相对应的MVEX盒160中的一个MVEX盒里，将序列数据集和/或序列级别SEI消息的存在性用信号通知成存在于电影片段164中的该一个电影片段里。

SIDX盒162是媒体文件150的可选元素。也就是说，遵循3GPP文件格式或者其它这种文件格式的视频文件，并不一定包括SIDX盒162。根据3GPP文件格式的例子，可以使用SIDX盒来标识分段(例如，媒体文件150中包含的分段)的子分段。3GPP文件格式将子分段规定成“具有相应的媒体数据盒的一个或多个连续电影片段盒的自包含集合，包含被电影片段盒所引用的数据的媒体数据盒必须在该电影片段盒之后，并在包含关于相同轨道的信息的下一个电影片段盒之前”。此外，3GPP文件格式还指示SIDX盒“包含针对由该盒所记录的(子)分段的子分段的引用序列。所引用的子分段在呈现时间上是连续的。类似地，分段索引盒所指代的字节在该分段中始终是连续的。所引用的大小给出所引用的材料中的字节数量的计数”。

SIDX盒162通常提供用于表示媒体文件150中包括的分段的一个或多个子分段的信息。例如，该信息可以包括：子分段开始和/或结束的回放时间、用于这些子分段的字节偏移、这些子分段是否包括流接入点(SAP)(例如，以SAP为开始)、用于该SAP的类型(例如，该SAP是否是瞬时解码器刷新(IDR)图像、干净随机接入(CRA)图像、断开链接接入(BLA)图像等等)、SAP在子分段中的位置(依据回放时间和/或字节偏移)等等。

电影片段164可以包括一个或多个编码的视频图像。在一些例子中，电影片段164可以包括一个或多个图像组(GOP)，每一个GOP可以包括多个编码的视频图像(例如，帧或者图像)。此外，如上所述，在一些例子中，电影片段164可以包括序列数据集。电影片段164中的每一个电影片段可以包括电影片段报头盒(MFHD，图4中没有示出)。MFHD盒可以描述相应的电影片段的特性，例如，用于该电影片段的序列号。电影片段164可以以序列号的顺序被包括在媒体文件150中。

MFRA盒166可以描述媒体文件150的电影片段164中的随机接入点。这可以帮助执行窍门模式，例如，执行寻求到被媒体文件150所封装的分段中的特定的时间位置(即，回放时间)。在一些例子中，MFRA盒166通常是可选的，其不需要包括在视频文件中。同样，客户端设备(例如，客户端设备40)并不一定需要参考MFRA盒166，来正确地解码和显示媒体文件150的视频数据。MFRA盒166可以包括数个轨道片段随机接入(TFRA)盒(没有示出)，其数量等于媒体文件150的轨道的数量，或者在一些例子中，等于媒体文件150的媒体轨道(例如，非提示轨道)的数量。

在一些例子中，电影片段164可以包括一个或多个流接入点(SAP)(例如，IDR图像)。同样，MFRA盒166可以提供SAP的媒体文件150中的位置的指示。因此，可以根据媒体文件150的SAP，来形成媒体文件150的时间子序列。此外，该时间子序列还可以包括其它图像，例如，取决于SAP的P帧和/或B帧。可以在分段中对时间子序列的帧和/或切片进行排列，使得可以正确地对取决于时间子序列的其它帧/切片的子序列的帧/切片进行解码。例如，在数据的分层排列中，用于其它数据的预测的数据也可以包括在该时间子序列中。

图5是示出用于接收音频数据的示例性系统200的概念图。系统200包括选择单元222、系统层单元224、音频解码器226、音频渲染单元228、浏览器232和用户接口/代理230。在该例子中，所接收的音频数据可以包括以下各项中的任一项或所有项：音乐&效果(M&E)流204(具有伴随的系统元数据202)、英语对话流208(具有伴随的系统元数据206)、德语对话流212(具有伴随的系统元数据210)、英语评论流216(具有伴随的系统元数据214)和德语评论流220(具有伴随的系统元数据218)。

通常，系统层单元224可以实现MPEG-2系统的技术，例如用于接收传输的媒体数据(如，音频数据)。因此，在该例子中，系统层单元224接收系统元数据202、206、210、214和218。系统层单元224可以使用系统元数据来访问相应的流的音频数据。系统层单元224还可以确定网络能力(例如，广播和/或宽带是否是可用的)，防止选择仅在不可用的网络上携带的流。用户接口/代理230可以经由系统层单元224提供的API来传送选择数据238，以选择以下各项中的任一项或所有项：M&E流204、英语对话流208、德语对话流212、英语评论流216和/或德语评论流220。另外地或替代地，浏览器232可以经由获得带内媒体资源跟踪的W3C来向系统层单元224提供选择236。

系统层单元224将选择数据240传送给选择单元222。选择单元222接收M&E流204、英语对话流208、德语对话流212、英语评论流216和/或德语评论流220中的任一项或所有项的媒体数据。选择单元222将来自所选定的流的音频数据传送给音频解码器226。例如，如果选择数据240指示选择了M&E流204和英语对话流208，则选择单元222将来自M&E流204和英语对话流208的音频数据传送给音频解码器226。

音频解码器226对从选择单元222接收的音频数据进行解码。音频解码器226将解码的音频数据242传送给音频渲染单元228。音频渲染单元228将解码的音频数据242混合在一起，并将渲染的音频数据提供给音频输出(例如，一个或多个扬声器(没有示出))。

欧洲电信标准协会(ETSI)文档“Digital Video Broadcasting(DVB)；MPEG-DASHProfile for Transport of ISO BMFFBased DVB Services over IP Based Networks”ETSI TS 103285V1.1.1(2015年5月)在6.1.2章描述了某些DVB规则，其包括：

●每个音频适配集应当包括使用方案“urn:mpeg:dash:role:2011”的至少一个角色元素，如ISO/IEC 23009-1[1]中所规定的。

●针对音频内容使用设置为“main”的@value属性向播放器指示该适配集是该内容提供商的优选音频适配集。

o如果仅存在一个“main”，则该适配集是缺省音频适配集。

o如果在DASH呈现中存在一个以上的适配集，则它们中的至少一个应当使用设置为“main”的@value来打标签。可能有多个适配集具有设置为“main”的@value，但是它们应当通过诸如@lang或者@codec之类的其它属性来区分。如果多个适配集具有设置为“main”的@value，则播放器将选择这些适配集中的哪一个是最适合使用的，仅当所有这些都是不适当的时，它才可以选择所具有的@value被设置为不同于“main”的某些内容的适配集。

●如果节目具有利用相同编解码器的多个音频适配集，但原始声轨被翻译成不同的语言，例如，原始为西班牙语的电影声轨被翻译成英语，则仅仅主语言应当具有设置为“main”的@value，而所有其它语言则设置为“dub”。

o随后，播放器应当评估适配集的@lang属性，以便确认音频语言与用户想要的配音语言相匹配。

o如果节目具有利用相同编解码器的多个音频适配集，但具有使用不同语言的不同原始声轨，例如多个评论员利用多种语言进行评论的体育比赛，则所有语言适配集应当具有设置为“main”的@value。随后，播放器应当评估适配集的@lang属性，以便确认与用户想要的语言相匹配的音频语言。

●如果节目具有利用多个编解码器、相同的原始声音和相同的语言的多个音频适配集，但内容提供商不想偏袒编解码器，则他们可以将多个适配集设置为具有@value为“main”，以便让播放器来选择适配集。

●如果需要设置一个以上的角色，则应当使用多个角色元素。如表4中所示，对角色和可达性(Accessibility)描述符的组合使用应当识别包含音频描述和干净音频流的适配集。

●为了接收机混合音频描述，相关联的音频流应当使用@dependencyId属性来指示与相关的适配集的表示的依赖性，并因此还指示不应当将相关联的音频流作为表示来单独提供。播放器应当忽略具有它们不理解的其它角色和可达性描述符属性的音频流。

下面的表包括来自MPEG-DASH ISO/IEC 23009-1:2014//修正案2的数据：

ISO/IEC 23009-1第5.8.5.7章节描述了音频接收机混合技术。具体而言，该条款规定了用于在EssentialProperty或SupplementaryProperty中使用的方案，以指示在回放之前需要由媒体引擎对两个音频适配集进行混合。在该例子中，标识方案的@schemeIdUri属性是urn:mpeg:dash:audio-receiver-mix:2014。根据该章节，@value属性应当包含来自具有内容类型音频属性的适配集的AdaptationSet@id的值，根据该内容类型音频属性，当前适配集需要与其进行混合以便提供完整的音频体验。接收机混合的一个例子是下面的情形：其中单个音频适配集提供音乐和效果(即，不具有对话的完整音频体验)，其中一个或多个其它适配集提供不同语言的对话。在该情况下，对话适配集将取决于音乐和效果适配集。混合要求是单向的。也就是说，在A被选择时对表示A与表示B进行混合的要求，并不意味着在B被选择时也要对二者进行混合。

下面将描述额外的MPEG-DASH音频参数。可以在适配集水平上用信号通知以下参数：@codecs、音频声道配置、编解码器无关编码点、声道位置、编解码器无关编码点、采样率和评级。此外，还可以使用网络能力(仅仅广播和/或宽带)来选择和拒绝某些流。对于所有情形而言，可以用信号通知这些流，以基于能力和偏好，在系统水平上对其进行选择/拒绝。

下面示出了如今在媒体呈现描述(MPD)中用信号通知的例子：

●适配集:@id＝1；@codecs＝mp4a.40.29

o Role(urn:mpeg:dash:role:2011,value＝“supplementary”)

o Rep1:@qualityRanking＝2@bandwidth＝32

o Rep2:@qualityRanking＝1@bandwidth＝64

●适配集:@id＝2；@lang＝en；@codecs＝mp4a.40.29

o Role(urn:mpeg:dash:role:2011,value＝“main”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●适配集:@id＝3；@lang＝de；@codecs＝mp4a.40.29

o Role(urn:mpeg:dash:role:2011,value＝“main”)

o Role(urn:mpeg:dash:role:2011,value＝“dub”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●适配集:@id＝4；@lang＝en；@codecs＝mp4a.40.29

o Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●适配集:@id＝5；@lang＝de；@codecs＝mp4a.40.29

o Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

下面描述了根据MPEG-2系统和HTML-5的数据的例子。下面仅规定了变型1，但也可以使用变型2a。

总之，在传统系统上，可能存在大量的信令。可以减少信令或者将其重用于NGA编解码器的可能领域包括对针对系统级别上的某些能力来启用选择、映射到平台能力、以及映射到简单用户接口/用户代理(浏览器)的现有原则进行重用。传统系统缺少用于交互的工具，NGA音频可以在音频编解码器级别内实现该交互。

图6是根据本公开内容的某些技术，示出可以用于支持下一代音频数据的接收的多种变型和选项的示例性系统250的概念图。通常，对于下一代音频数据而言，存在单个解码器对所有音频对象(或者所有音频流)进行解码。因此，系统250包括选择单元272、系统层单元274、音频解码&渲染单元276、用户接口278、用户接口/代理280和浏览器282。

在该例子中，音乐&效果(M&E)流254表示入口点音频流。M&E流254包括用于所有呈现(例如，英语对话流258、德语对话流262、英语评论流266和德语评论流270中的每者)的数据。

在DASH的情况下，M&E流254、英语对话流258、德语对话流262、英语评论流266和德语评论流270中的每一者可以映射到相应的适配集。DASH MPD可以包括系统信令数据。Amd.2和DVB DASH可以包括DASH基线信令数据。系统层单元274可以确定网络能力，考虑某些网络的可用性。可以利用各种部署(例如，广播和混合部署)来实现系统270。

音频解码&渲染单元276可以接收音频流元数据253。例如，音频流元数据253可以包括在清单文件(例如，DASH的媒体呈现描述(MPD))中。初始时，音频解码&渲染单元276可以处理音频流元数据253，以确定哪些音频流是可用的。音频解码&渲染单元276可以向系统层单元274提供可用性数据284，其中可用性数据284基于音频流元数据253来指示哪些音频数据集是可用的。在该例子中，可用的音频数据包括M&E流254(伴随着系统元数据252和音频流元数据253)、英语对话流258(伴随着系统元数据256)、德语对话流262(伴随着系统元数据260)、英语评论流266(伴随着系统元数据264)和德语评论流270(伴随着系统元数据268)。

系统层单元274可以接收系统元数据252、256、260、264和268。此外，系统层单元274还可以向浏览器282和/或用户接口/代理280提供可用性数据，以及从用户(或用户代理)接收选择数据。

用户可以经由接口278、用户接口/代理280和浏览器282，与对应于系统250的设备进行交互。在一些例子中，可以将任何或者全部的用户接口278、用户接口/代理280和浏览器282进行功能集成。在图6的例子中，用户接口/代理280可以向系统层单元274提供选择数据288。另外地或替代地，浏览器282可以经由获得带内媒体资源跟踪的W3C来向系统层单元224提供选择数据286。再举一个例子，浏览器282可以向用户呈现选择信息，用户可以响应于该呈现经由用户接口278来提供对音频内容的选择，其中用户接口278可以将选择数据292直接转发给音频解码&渲染单元276。通常，该选择数据指示可用流中的哪些流被选择以进行取回和回放。

在一些例子中，系统层单元274向选择单元272提供选择数据290。转而，选择单元272将来自所选定的音频流的音频数据提供给音频解码&渲染单元276。音频解码&渲染单元276对所选定的音频数据进行解码和渲染，以便在一个或多个音频输出设备(例如，一个或多个扬声器(没有示出))上进行回放。

用此方式，图6的系统250表示用于接收音频数据的设备的例子，其包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；以及音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图7是示出以系统为中心的示例性系统300的概念图。在该例子中，系统300包括系统层单元324、选择单元322、音频解码&渲染单元326和用户接口/代理330。在该例子中，系统层单元324基于通过M&E流304提供的音频流元数据303，以及基于来自用户接口/代理330的输入332，从可用的音频数据中进行选择。例如，音频流元数据303可以包括在清单文件(例如，DASH的MPD)中。

在该例子中，音频解码&渲染单元326接收音频流元数据303。在该例子中，音频流元数据303包括用于指示哪些音频数据集是可用的可用性数据。在该例子中，可用的音频数据包括M&E流304(伴随着系统元数据302和音频流元数据303)、英语对话流308(伴随着系统元数据306)、德语对话流312(伴随着系统元数据310)、英语评论流316(伴随着系统元数据314)和德语评论流320(伴随着系统元数据318)。

在该例子中，系统层单元324具有表示以下内容的信息：音频解码&渲染单元326的解码和渲染能力、对可用流中的每一个进行解码和渲染所需要的能力、用于可用流中的每一个的网络能力和传送网络、以及用于每个可用流的元数据(即，系统元数据302、306、310、314、318)。根据该例子，系统层单元324基于网络能力来删减可用流，基于平台解码和渲染能力来删减可用流，以及向代理的用户接口/代理330提供表示剩余的可用流的信息以便进行选择。系统层单元324可以基于这些流的语言、这些流的角色/可达性以及评级(例如，用于各个年龄组的内容适宜性)，来从可用流中进行选择。

在该例子中，系统层单元324向选择单元322提供选择数据334。选择单元332接收所选定的流的音频数据，并将音频数据336转发给音频解码&渲染单元326以进行解码和渲染。替代地，系统层单元324可以直接向音频解码&渲染单元326提供选择数据。

在替代的例子中，每个媒体流可以是自描述的(例如，基于语言、评级和角色/可达性)。系统层单元324可以将每个流的描述提供给用户接口/代理330以用于这些流的选择。系统层单元324可以对流进行选择，并将所选定流的数据转发给音频解码&渲染单元326。

在该例子中，系统300可以执行DASH间隙分析。该DASH间隙分析可以是基于DVB和MPEG-DASH音频元数据。该例子可以解决诸如如何区分单个解码器与多个解码器供应；对于入口点的单个解码器指示而言，是否有必要定义关于如何启动的顺序，提供描述在媒体流级别上进行渲染的依赖性的工具，提供如果特定适配集不是主适配集则避免选择该适配集的工具，以及使用质量排名来找到不同AS中的匹配表示之类的问题。通常，各个适配集的质量排名可以表示针对这些适配集和/或适配集中包括的表示的相对质量排名属性。

在该例子中，系统层单元324可以排除将不会被独立选择的某些适配集。在一个例子中，引入了类似于适配集但包括适配集依赖性和单个编解码器信令的新元素。在另一个例子中，结合适配集来使用基本描述符，其中基本描述符描述适配集依赖性和单个编解码器信令。

此外，元数据可以描述适配集的依赖性信息，其告诉DASH客户端当选择了依赖适配集时需要选择哪些适配集，所有的适配集都包括使用相同编解码器编码的媒体数据，以及要递送给编解码器的处理序列。此外，可以使用DASH MPD中的@qualityRanking属性来支持对用于每个适配集的适当表示的选择。

下面提供了与基本描述符和部分适配集相关的信令的例子：

基本描述符

●AS:@id＝1；

o EssentialProperty(不独立地呈现)

o Rep1:@qualityRanking＝2@bandwidth＝32

o Rep2:@qualityRanking＝1@bandwidth＝64

●AS:@id＝2；@lang＝en

o EssentialProperty(呈现依赖,@value＝1,2)

o Role(urn:mpeg:dash:role:2011,value＝“main”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●AS:@id＝3；@lang＝de

o EssentialProperty(呈现依赖,@value＝1,3)

o Role(urn:mpeg:dash:role:2011,value＝“main”)

o Role(urn:mpeg:dash:role:2011,value＝“dub”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●AS:@id＝4；@lang＝en

o EssentialProperty(呈现依赖,@value＝1,4)

o Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●AS:@id＝5；@lang＝de

o EssentialProperty(呈现依赖,@value＝1,3,5,

@id＝“deutscher-kommentar”)

o EssentialProperty(呈现依赖,@value＝1,5

@id＝“deutscher-kommentar”)

o Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝12

下面描述部分适配集例子：

●PartialAS:@id＝1；@present＝FALSE

o Rep1:@qualityRanking＝2@bandwidth＝32

o Rep2:@qualityRanking＝1@bandwidth＝64

●PartialAS:@id＝2；@lang＝en；@present＝TRUE,@sequence＝1,2

o Role(urn:mpeg:dash:role:2011,value＝“main”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝3；@lang＝de；@present＝TRUE,@sequence＝1,3

o Role(urn:mpeg:dash:role:2011,value＝“main”)

o Role(urn:mpeg:dash:role:2011,value＝“dub”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝4；@lang＝en；@present＝TRUE,@sequence＝1,4

o Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝5；@lang＝de；@present＝TRUE,@sequence＝1,3,5

o Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

在另一种替代方案中，系统元数据302、306、310、314、318可以描述各种呈现(其中，这些呈现中的每一个对应于各种各样的音频对象/流的组合中的一个)。随后，系统层单元324可以选择一个呈现。在一个例子中，这些呈现可以描述流，系统层单元324可以基于所选定的呈现来选择单独的流。在另一个例子中，这些呈现可以是抽象的，系统层单元324可以将所有流转发给选择单元322。

举一个例子，呈现可以由内容作者来提供。内容作者可以规定组合的受限制集合，诸如如下所述：

●呈现1：M&E流304、英语对话流308

●呈现2：M&E流304、德语对话流312

●呈现3：M&E流304、英语对话流308、英语评论流316

●呈现4：M&E流304、德语对话流312、德语评论流320

在该例子中，系统300可以执行DASH间隙分析。该例子可以解决诸如如何区分单个解码器与多个解码器供应；对于入口点的单个解码器指示而言，是否有必要定义关于如何启动的顺序；提供描述呈现的编辑的工具；以及提供如果特定适配集不是进行独立地选择则避免选择该适配集的工具的问题。

在一个例子中，可以使用新呈现元素来收集元数据和呈现的编辑。依赖性数据可以用于适配集来向DASH客户端指示除了所选定的适配集之外还需要选择哪些适配集，所有的适配集都包括使用相同编解码器编码的媒体数据，以及要递送给编解码器的处理序列。

在一些例子中，可以将包括在要进行选择的呈现中的所有适配集，从呈现元素中排除。在一个例子中，在清单文件中用信号通知基本等同于适配集但不包括用于与音频相关参数的信令的新元素。在另一个例子中，结合适配集来提供基本描述符。在一些例子中，可以用信号通知DASH MPD中的@qualityRanking属性来支持对用于每个适配集的适当表示的选择。

用此方式，图7的系统300表示用于接收音频数据的设备的例子，其包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据，接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图8是示出呈现定义和部分适配集的例子之间的映射的概念图。在该例子中，存在四个部分适配集，它们具有ID值1、2、3、4和5。例如，适配集1可以表示M&E流，适配集2可以表示英语对话流，适配集3可以表示德语对话流，适配集4可以表示英语评论流，以及适配集5可以表示德语对话流。每个部分适配集都包括两个相应的表示，其具有用信号通知的质量排名值(@qualityRanking)和带宽值(@bandwidth)。

此外，在该例子中，存在四个呈现，其中每个呈现表示这些部分适配集中的一个或多个部分适配集的组合。第一呈现包括具有ID值1和2的部分适配集。第二呈现包括具有ID值1和3的部分适配集。第三呈现包括具有ID值1和4的部分适配集。第四呈现包括具有ID值1、3和5的部分适配集。

图9是示出使用系统层处理和HTML-5的另一个示例性系统350的概念图。在该例子中，系统350包括选择单元372、系统层单元374、音频解码&渲染单元376和浏览器382。在该例子中，系统层单元374基于通过M&E流354提供的音频流元数据353，以及基于来自浏览器382的输入386，来从可用的音频数据中进行选择。例如，音频流元数据353可以包括在清单文件(例如，DASH的MPD)中。

在该例子中，音频解码&渲染单元376接收音频流元数据353。在该例子中，音频流元数据353包括用于指示哪些音频数据集是可用的可用性数据。在该例子中，可用的音频数据包括M&E流354(伴随着系统元数据352和音频流元数据353)、英语对话流358(伴随着系统元数据356)、德语对话流362(伴随着系统元数据360)、英语评论流366(伴随着系统元数据364)和德语评论流370(伴随着系统元数据368)。

图9的例子类似于如上所述的图7的例子，除了系统层单元374包括网络能力，并从web浏览器382接收输入以帮助可用音频流的选择。如参照图7的例子所描述的相同决定过程可以用于图9的例子。Web浏览器382可以根据获得带内媒体资源跟踪的W3C来向系统层单元374提供选择数据386。

通常，在一些例子中，上面参照图7所讨论的技术也可以由图9的系统350来执行，除了系统层单元374可以被配置为对呈现进行分解并映射到HTML-5呈现。也就是说，用户可以经由浏览器382来提供表示所选定的音频流的输入，其中浏览器382向系统层单元374发送选择数据386。系统层单元374对选择数据386进行处理，并向选择单元372发送相应的选择数据388。随后，选择单元372使用选择数据386来提取相应的选定的音频数据，并将所选定的音频数据390转发给音频解码&渲染单元376。

用此方式，图9的系统350表示用于接收音频数据的设备的例子，其包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；以及音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图10是示出使用系统层信息和音频解码器的另一种示例性系统400的概念图。在该例子中，系统400包括选择单元422、系统层单元424、音频解码&渲染单元426、用户接口428和浏览器432。此外，该例子还类似于如上所讨论的图7的例子，除了系统层单元424与音频解码&渲染单元426进行交互以从可用的音频流中进行选择。

在该例子中，音频解码&渲染单元426接收音频流元数据403。例如，音频流元数据403可以包括在清单文件(例如，DASH的MPD)中。在该例子中，音频流元数据403包括用于指示哪些音频数据集是可用的可用性数据。在该例子中，可用的音频数据包括M&E流404(伴随着系统元数据402和音频流元数据403)、英语对话流408(伴随着系统元数据406)、德语对话流412(伴随着系统元数据410)、英语评论流416(伴随着系统元数据414)和德语评论流420(伴随着系统元数据418)。

在该例子中，系统层单元424具有表示网络能力和每个媒体流的传输网络以及音频解码&渲染单元426的解码能力的数据。在该例子中，系统层单元424不需要对特定的元数据进行处理。音频解码&渲染单元426的音频解码单元被配置有表示其渲染单元的渲染能力以及分配给每个媒体流的元数据的信息。该元数据可以比针对系统层所规定的常规元数据更丰富。

此外，系统层单元424可以被配置为基于网络能力和解码能力来删减可用流。随后，系统层单元424可以基于网络能力，向音频解码&渲染单元426的音频解码单元提供指示所有可用流的数据440。随后，音频解码&渲染单元426的音频解码单元可以向系统层单元424发送指示需要(或者不需要)哪些流的数据434。随后，系统层单元424可以根据数据434来对流取消选择。该选择可以是动态的。

用此方式，图10的系统400表示用于接收音频数据的设备的例子，其包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；以及音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图11是示出示例性数据集以及@bundleID的值和经由各种类型的传输网络的可用性之间的对应关系的概念图。在该例子中，@bundleID＝1指示部分适配集可经由广播来获得，而@bundleID＝2指示部分适配集可经由宽带来获得(例如，用于单播获取)。在该例子中，具有@id值为1和6的部分适配集包括相同的媒体分段和URL，但不同的配置信息。

在图11的例子中使用的根据MPEG文档M37191的提案的数据，包括：

可以向这些数据元素分配如下的值：

●PartialAdaptationSet数据可以用信号通知潜在不能使用单个适配集

●@bundleID可以用信号通知所有适配集属于一个单个解码器

●@isMain可以提供针对多个适配集的入口点

●@memberID可以标注所有适配集，使得它们可以被音频解码器参考

●应当注意，PartialAdaptationSet可以是多个绑定束的成员以用于更佳的混合支持。

图11的例子中所示出的数据集为：

●PartialAS:@id＝1；@main＝TRUE；@bundleID＝1；@memberID＝“ME”

o Rep1:@qualityRanking＝2@bandwidth＝32

o Rep2:@qualityRanking＝1@bandwidth＝64

●PartialAS:@id＝2；@bundleID＝1；@memberID＝“en-dialogue”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝3；@bundleID＝1；@memberID＝“de-dialog”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝4；@bundleID＝1；@memberID＝“motorway”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝5；@bundleID＝1；@memberID＝“autobahn”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

图12是示出用于一组示例性部分适配集的数据网络可用性的例子的概念图。图12的例子提供成对图11的例子的替代。

可以使用如下的数据元素：

●PartialAdaptationSet可以用信号通知潜在不能使用单个适配集

●@sequence值的部分可以用信号通知所有适配集属于一个单个解码器

●@sequence的第一值可以提供针对多个适配集的入口点

●注：除了上面的数据之外，还可以使用如上面参照图11的例子所讨

论的@bundleID，来用信号通知一个解码器实例。

图12的例子中所示出的数据集为：

●PartialAS:@id＝1；@present＝TRUE；@sequence＝1,2,3,4,5；

@memberID＝“ME”

o Rep1:@qualityRanking＝2@bandwidth＝32

o Rep2:@qualityRanking＝1@bandwidth＝64

●PartialAS:@id＝2；@memberID＝“en-dialogue”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝3；@memberID＝“de-dialog”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝4；@memberID＝“motorway”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝5；@memberID＝“autobahn”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

图13是根据本公开内容的技术，示出使用各种各样的选择技术的另一种示例性系统450的概念图。系统450的例子包括选择单元472、系统层单元474、音频解码&渲染单元476、用户接口478、用户接口/代理480和浏览器482。在该例子中，系统层单元474可以从用户接口/代理480(与系统层单元474相关联)、web浏览器482和/或音频解码&渲染单元476的音频解码单元中的任何一个或全部接收选择数据。

在该例子中，音频解码&渲染单元476接收音频流元数据453。例如，音频流元数据453可以包括在清单文件(例如，DASH的MPD)中。在该例子中，音频流元数据453包括用于指示哪些音频数据集是可用的可用性数据。在该例子中，可用的音频数据包括M&E流454(伴随着系统元数据452和音频流元数据453)、英语对话流458(伴随着系统元数据456)、德语对话流462(伴随着系统元数据460)、英语评论流466(伴随着系统元数据464)和德语评论流470(伴随着系统元数据468)。

根据图13的例子，系统层单元474可以具有表示网络能力和每个媒体流的传输网络、音频解码&渲染单元476的音频解码单元的能力以及基本系统元数据(例如，语言和可达性)的数据。音频解码&渲染单元476的音频解码单元可以具有表示音频解码&渲染单元476的音频渲染单元的能力以及分配给每个媒体流的元数据的数据。在该例子中，该元数据可以比常规系统水平元数据更丰富。

系统层单元474可以基于网络能力、解码能力和基本系统元数据来删减可用流。随后，系统层单元474可以向音频解码&渲染单元476的音频解码单元提供表示基于网络能力和系统元数据的可用的剩余流的数据。音频解码单元向系统层单元474提供指示需要(和/或不需要)哪些流的数据484。作为响应，系统层单元474可以根据该信息，对流进行选择或者取消选择。该选择可以是动态的。此外，用户接口/代理480可以向系统层单元474提供额外的选择信息488，和/或浏览器482可以向系统层单元474提供额外的选择信息486。音频解码&渲染单元476可以使用从用户接口478接收的选择信息492来确定需要或者不需要哪些流。最终，系统层单元474可以向选择单元472提供选择数据490，选择单元472可以将所选定的流转发给音频解码&渲染单元476。

下面的讨论涉及针对图13的例子的DASH间隙分析：

●重复信息听起来很吸引人，但更为复杂，因为需要理解如何进行重复的细节、它在选择方面的意义等等。

●选项包括：

o系统水平的预选择

■需要检查细节

■可以存在上面所讨论的各个例子的组合

o重复使得接收机在实现上确实具有选择

■需要检查细节

下面示出了根据图13的例子的示例性数据集：

●系统水平上的语言，MPEG-H音频解码器中的媒体流的详细选择

●PartialAS:@id＝1；@present＝FALSE；@memberID＝“ME”

o Rep1:@qualityRanking＝2@bandwidth＝32

o Rep2:@qualityRanking＝1@bandwidth＝64

●PartialAS:@id＝2；@lang＝en；@present＝FALSE；

@memberID＝“en-dialogue”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝3；@lang＝de；@present＝FALSE；

@memberID＝“de-dialog”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝4；@lang＝en；@present＝TRUE,@sequence＝1,2,4；

@memberID＝“motorway”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝5；@lang＝de；@present＝TRUE,@sequence＝1,3,5；

@memberID＝“autobahn”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

可以由图13的示例性系统基于上面的示例性数据集来执行的处理步骤包括：

●基于系统信息，如果选择了英语，则系统层单元474可以选择AS 1、2或4，或者如果选择了德语，则选择AS 1、3或5。

●如果具备能力的话，音频解码&渲染单元476的音频解码单元可以向系统层单元474提供用于指示是否应当不选择特定的音频数据(例如，评论)、或者系统层单元474是否可以覆写系统的选择的数据。

●因此，这允许不同的实现。

下面示出了在具有系统选择的混合系统中使用的数据集的例子：

●PartialAS:@id＝1；@present＝FALSE；@sequence＝1,2,3,4,5；

@memberID＝“ME”；

o Rep1:@qualityRanking＝2@bandwidth＝32

o Rep2:@qualityRanking＝1@bandwidth＝64

●PartialAS:@id＝6；@present＝FALSE；@sequence＝1,2；

@memberID＝“ME”

o Rep1:@qualityRanking＝2@bandwidth＝32

o Rep2:@qualityRanking＝1@bandwidth＝64

●PartialAS:@id＝2；@lang＝en；@memberID＝“en-dialogue”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝3；@lang＝de；@bundleID＝2；

@memberID＝“de-dialogue”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝4；@lang＝en；@bundleID＝2；@memberID＝“motorway”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

●PartialAS:@id＝5；@lang＝de；@bundleID＝2；@memberID＝“autobahn”

o Rep1:@qualityRanking＝2@bandwidth＝64

o Rep2:@qualityRanking＝1@bandwidth＝128

用此方式，本公开内容的技术可以用于系统和音频解码器级别上的多种用例。这些技术考虑了信令和实现方式的不同方面，例如，系统和音频编解码器选择与网络能力、广播和混合二者。

根据本公开内容的技术的一种示例性解决方案可以包括如下所示的数据：

可以如下所述地设置用于这些数据元素的值：

PartialAdaptationSet可以用信号通知潜在不能使用单个适配集。

@sequence元素的部分可以用信号通知所有适配集属于单个解码器。

@sequence的第一值可以提供针对多个适配集的入口点。

@memberID的值可以标注所有适配集，使得它们可以被音频解码器参考。

@bundleID值可以用于用信号通知一个解码器实例，如上面所讨论的。

用此方式，图13的系统450表示用于接收音频数据的设备的例子，包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图14是示出根据本公开内容的技术、使用系统层数据和音频解码器的另一种示例性系统750的概念图。也就是说，系统750包括选择单元772、系统层单元774、音频流元数据处理单元780、音频解码&渲染单元776、用户接口778和浏览器782。

在该例子中，音频流元数据处理单元780接收音频流元数据753。例如，音频流元数据753可以包括在清单文件(例如，DASH的MPD)中。在该例子中，音频流元数据753包括用于指示哪些音频数据集是可用的可用性数据。在该例子中，可用的音频数据包括M&E流754(伴随着系统元数据752和音频流元数据753)、英语对话流758(伴随着系统元数据756)、德语对话流762(伴随着系统元数据760)、英语评论流766(伴随着系统元数据764)和德语评论流770(伴随着系统元数据768)。

图14的例子表示对图13的例子的替代方案。具体而言，不是如图13中所示，音频解码器和渲染器与系统层单元进行交互，而是在图14的例子中，音频流元数据处理单元780与系统层单元774进行交互，以及向系统层单元774提供数据784以删减可用的媒体流(潜在地基于选择数据792)。系统层单元774向选择单元772提供选择数据790，其中选择单元772将所选定流的数据转发给音频流元数据处理单元780。转而，音频流元数据处理单元780向音频解码&渲染单元776提供媒体数据796。

图15-17是根据本公开内容的技术，示出示例性音频数据模型的概念图。通常，图15-17的音频数据模型遵循下面的特性：

●音频绑定束：由单个下一代音频(NGA)解码器实例消耗的一组流(对象/适配集)

o在系统水平上相关

●预选择：可以进行选择并提供有用的呈现的来自一个绑定束的多个流

o大部分在系统水平上相关

●主流：包含针对整个绑定束来引导解码器的特定于解码器信息(音频元数据)的流

o大部分在音频编解码器水平上相关

●实现信令和获得灵活性

用此方式，图14的系统750表示用于接收音频数据的设备的例子，包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图15示出了包括预选择单元514、NGA音频解码器520和用户接口516的示例性系统500。NGA音频解码器520包括NGA处理器522和音频解码&渲染单元524。在图15的例子中，NGA音频解码器520和预选择单元514接收音频流元数据502连同音乐和效果(M&E)媒体流504。例如，音频流元数据502可以包括在清单文件(例如，DASH的MPD)中。在该例子中，每个音频对象在单个的不同的流中进行提供。因此，M&E流504、英语对话流506、德语对话流508、英语评论流510和德语评论流512中的每一个在不同的流中进行提供。在该例子中，NGA音频解码器520基于经由用户接口516接收的输入528，确定要获取这些流中的哪些流。预选择单元514基于由NGA音频解码器520所提供的反馈，确定这些流中的哪些流包括所请求的音频数据(例如，用于对话的语言以及用于评论的语言(如果期望的话))，其中NGA音频解码器520对经由用户接口516接收的用户选择528进行处理。具体而言，NGA处理器522对用户选择528进行处理，将来自接收的音频数据526的所选定的音频流转发给音频解码&渲染单元524，音频解码&渲染单元524对所选定的音频流的音频数据进行解码和渲染。

用此方式，图15的系统500表示用于接收音频数据的设备的例子，包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图16示出了包括预选择单元544、NGA音频解码器550和用户接口546的示例性系统530。NGA音频解码器550包括NGA处理器552和音频解码&渲染单元554。在图16的例子中，NGA音频解码器550和预选择单元544接收音频流元数据532连同音乐和效果(M&E)媒体流534。例如，音频流元数据532可以包括在清单文件(例如，DASH的MPD)中。

在图16的例子中，可以在单个流中提供多个对象。具体而言，在该例子中，在单个媒体流535中提供M&E流534和英语对话流536，以及在单个相应的流中提供其它音频对象。也就是说，在该例子中，在不同的流中提供德语对话流538、英语评论流540和德语评论流542。但是，可以将其它音频对象中的任意音频对象组合到单个流中。例如，单个流可以包括德语对话流538和德语评论流542二者。

在该例子中，NGA音频解码器550基于经由用户接口546接收的输入558，确定要获取这些流中的哪些流。预选择单元544基于由NGA音频解码器550所提供的反馈，确定这些流中的哪些流包括所请求的音频数据(例如，用于对话的语言、以及用于评论的语言(如果期望的话))，其中NGA音频解码器550对经由用户接口546接收的用户选择558进行处理。具体而言，NGA处理器552对用户选择558进行处理，将来自接收的音频数据556的所选定的音频流转发给音频解码&渲染单元554，音频解码&渲染单元554对所选定的音频流的音频数据进行解码和渲染。

用此方式，图16的系统530表示用于接收音频数据的设备的例子，包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图17示出了包括预选择单元574、NGA音频解码器580和用户接口576的示例性系统560。NGA音频解码器580包括NGA处理器582和音频解码&渲染单元584。在图17的例子中，NGA音频解码器580和预选择单元574接收音频流元数据562连同音乐和效果(M&E)媒体流564。例如，音频流元数据562可以包括在清单文件(例如，DASH的MPD)中。

在图17的例子中，在单个流(即，媒体流565)中提供每个音频对象。具体而言，在该例子中，在媒体流565中提供M&E流564、英语对话流566、德语对话流568、英语评论流570和德语评论流572。

在该例子中，NGA音频解码器580基于经由用户接口576接收的输入588，确定要获取这些流中的哪些流。预选择单元574基于由NGA音频解码器580所提供的反馈，确定这些流中的哪些流包括所请求的音频数据(例如，用于对话的语言、以及用于评论的语言(如果期望的话))，其中NGA音频解码器580对经由用户接口576接收的用户选择588进行处理。具体而言，NGA处理器582对用户选择588进行处理，将来自接收的音频数据586的所选定的音频流转发给音频解码&渲染单元584，音频解码&渲染单元584对所选定的音频流的音频数据进行解码和渲染。

用此方式，图17的系统560表示用于接收音频数据的设备的例子，包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

虽然分别地示出，但单个接收机可以被配置为单独地或者以任何组合方式来接收遵循图15-17中的任何的模型的音频数据。此外，虽然在图15-17的例子中没有示出，但图15-17的示例性系统中的任何系统还可以包括系统层单元，其以基本类似于图5-7、9、10、13或14的系统层单元的方式进行配置。

根据图15-17的例子的接收机设备可以被配置为如下所述地进行操作。系统层单元可以确定网络能力&每个媒体流的传输网络、解码器能力、以及基本系统层元数据(例如，语言、可达性、评级)。

●NGA选择器可以确定：

o分配给每个媒体流的元数据

o元数据可以比如今在系统水平上规定的更丰富

●使用系统元数据的系统层可以：

o基于网络能力、解码能力和基本系统元数据，删减媒体流和预选择

o向音频解码器提供基于网络能力和系统元数据可用的一个预选择的所有流

●音频解码器可以基于关于需要(不需要)什么流的音频元数据，向系统层通知

o系统层根据该信息，对流进行相应地(取消)选择

●该选择可以是动态的

图18是示出接收机设备600的例子的概念图，其中该接收机设备600包括位于web浏览器632和MPEG-2系统层单元624之间的用户接口/代理634。此外，接收机设备600还包括选择单元622和NGA音频解码器626，转而NGA音频解码器626包括NGA处理器628和音频解码&渲染单元630。

初始时，NGA处理器628可以接收音频流元数据603，后者包括用于描述媒体数据的每个可用流的数据，其中这些可用流包括音乐&效果(M&E)流604(具有伴随的系统元数据602)、英语对话流608(具有伴随的系统元数据606)、德语对话流612(具有伴随的系统元数据610)、英语评论流616(具有伴随的系统元数据614)以及德语评论流620(具有伴随的系统元数据618)。例如，音频流元数据603可以包括在清单文件(例如，DASH的MPD)中。此外，NGA音频解码器626向系统层单元624提供数据636，该数据表示可以例如由音频解码&渲染单元630进行处理的可用流。在该例子中，系统层单元624接收系统元数据602、606、610、614和618，以及向web浏览器632发送表示这些流中的哪些流可用于进行选择的数据。

在该例子中，用户可以经由web浏览器632提供表示所选定的音频流的输入。另外地或替代地，用户可以经由用户接口/代理634来提供输入。在这些例子中，web浏览器632传送表示用户的选择的数据638，和/或用户接口/代理634传送表示选择的数据640。系统层单元624接收数据638和/或640，并转而，向预选择单元622提供表示该选择的数据642。

预选择单元622根据通过M&E流604提供的音频流元数据603，确定这些流中的哪些流包括所请求的音频数据(例如，对话和/或评论)，以及选择适当的流。随后，预选择单元622将来自所选定的流的音频数据644转发给NGA音频解码器626。NGA音频解码器626使用音频解码&渲染单元630，对音频数据进行解码和渲染，以及随后将解码和渲染的音频数据转发给音频输出(例如，一个或多个扬声器(没有示出))。

用此方式，图18的接收机设备600表示用于接收音频数据的设备的例子，包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图19是示出接收机设备650的另一个例子的概念图，其中该接收机设备650包括位于web浏览器682和NGA音频解码器676之间的用户接口684。该例子基本上遵循图18的例子，除了用户接口684向NGA音频解码器676提供来自用户的表示对可用音频流的选择的输入，以及NGA音频解码器676向系统层单元674提供表示该输入/选择的数据686。转而，MPEG-2系统层单元674向预选择单元672提供数据692。预选择单元672根据通过M&E流654提供的音频流元数据653，确定可用音频流中的哪些音频流包括请求的音频数据(例如，对话和/或评论)。例如，音频流元数据653可以包括在清单文件(例如，DASH的MPD)中。

在该例子中，可用音频数据包括M&E流654(具有伴随的系统元数据652)、英语对话流658(具有伴随的系统元数据656)、德语对话流662(具有伴随的系统元数据660)、英语评论流666(具有伴随的系统元数据664)、以及德语评论流670(具有伴随的系统元数据668)。在该例子中，系统层单元624接收系统元数据652、656、660、664和668，以及向web浏览器682发送表示可用于进行选择的流的类型的数据688。

预选择单元672根据通过M&E流654提供的音频流元数据653，确定这些流中的哪些流包括所请求的音频数据(例如，对话和/或评论)，以及选择适当的流。随后，预选择单元672将来自所选定的流的音频数据694转发给NGA音频解码器676。NGA音频解码器676使用音频解码&渲染单元680，对音频数据进行解码和渲染，以及随后将解码和渲染的音频数据转发到音频输出(例如，一个或多个扬声器(没有示出))。

用此方式，图19的接收机设备650表示用于接收音频数据的设备的例子，包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

图20是示出接收机设备700的另一个例子的概念图。该例子表示图18和图19的例子的组合。也就是说，接收机设备700可以被配置为根据图18的接收机设备600和/或图19的接收机设备650的例子中的任意一个或二者进行操作。

在该例子中，接收机设备700包括预选择单元722、系统层单元724、NGA音频解码器726、用户接口734、用户接口/代理732和浏览器746。NGA音频解码器726包括NGA处理器728和音频解码&渲染单元730。

在该例子中，用户接口734可以向NGA音频解码器726提供来自用户的表示对可用音频流的选择的输入。在该例子中，NGA音频解码器726向系统层单元724提供表示该输入/选择的数据736。替代地，针对NGA音频解码器726，用户接口/代理732和/或浏览器746可以分别向系统层单元724提供用于表示对可用音频流的选择的数据740、738。在任一情况下，MPEG-2系统层单元724向预选择单元722提供数据742。预选择单元722根据通过M&E流704提供的音频流元数据703，确定可用音频流中的哪些音频流包括请求的音频数据(例如，对话和/或评论)。例如，音频流元数据703可以包括在清单文件(例如，DASH的MPD)中。

在该例子中，可用音频数据包括M&E流704(具有伴随的系统元数据702)、英语对话流708(具有伴随的系统元数据706)、德语对话流712(具有伴随的系统元数据710)、英语评论流716(具有伴随的系统元数据714)、以及德语评论流720(具有伴随的系统元数据718)。在该例子中，系统层单元724接收系统元数据702、706、710、714和718，以及向web浏览器746发送表示可用于进行选择的流的类型的数据。

预选择单元722根据通过M&E流704提供的音频流元数据703，确定这些流中的哪些流包括所请求的音频数据(例如，对话和/或评论)，以及选择适当的流。随后，预选择单元722将来自所选定的流的音频数据744转发给NGA音频解码器726。NGA音频解码器726使用音频解码&渲染单元730，对音频数据进行解码和渲染，以及随后将解码和渲染的音频数据转发给音频输出(例如，一个或多个扬声器(没有示出))。

用此方式，图20的接收机设备700表示用于接收音频数据的设备的例子，包括：音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；和音频数据处理单元，其使用数字逻辑电路来实现以及被配置为接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件(其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得)、接收指示要呈现哪些音频对象的选择数据、接收包括基于该选择数据的音频对象的流媒体数据，以及将该选择数据所指示的音频对象提供给音频解码器。

举一个例子，可以用于音频数据(以及因此的音频流)的预选择的数据，可以包括以下数据：

●基本预选择数据，其使系统层能够预先选择：

o@codecs

■仅仅2：AC-4和MPEG-H音频

o网络能力(仅仅广播、宽带)

●可能的预选择数据：

o角色和可达性：

■通过来自Amd.2的角色方案覆盖

o语言

■基于ISO/IEC语言标签的可能值

o音频声道配置

■编解码器无关编码点：ISO/IEC 23001-9

o声道位置

■编解码器无关编码点：ISO/IEC 23001-9

o采样率

■可以具有整数值

o评级

■在ATSC中可用的任何方案。

o需要仔细规定的任何其它数据

●如果在MPEG-2系统水平上启用了预先选择，则某些流可能不可用于音频解码器。

根据本公开内容的设备和系统(例如，在上面所讨论的附图中所示出的那些)可以根据下面的通常要求和解决方案进行操作：

●用信号通知潜在地不能使用单个适配集→规定类型部分AS(PartialAS)。

●用信号通知所有适配集属于单个解码器→@bundleID。

●提供预选择的信令：

o选项1：引用在部分AS中提供的流的预选择元素。

o选项2：使用新依赖性元素的流的线性依赖性。

o在所有情况下，可以使用元数据来标注预选择。预选择元素可以包括能够用于(例如，由用户代理执行的)自动选择的参数。

●对绑定束的主流进行标注

o选项1：增加@main信令。

o选项2：@sequence属性的第一流。

●标注处于一个流中的对象→ContentComponent。

●标注所有部分适配集，使得其可以被音频解码器参考→@memberID。

根据本公开内容的设备和系统(例如，在上面所讨论的附图中所示出的那些)可以根据下面的ATSC附加说明进行操作：

●预期始终存在通过广播来分发的完整呈现→使其成为可以进行选择以及还包含完整音频元数据的全适配集。

●通过不能进行单独选择的适配集来描述额外的媒体流。

●实现复用版本以及单独版本→增加分量ID。

下面是针对ATSC的解决方案的一种示例性提议，其可以由本公开内容的设备或系统中的任何一个或者类似的设备或系统来实现：

●始终提供恰好一个完整的适配集，通常将其通过广播来传送。

●为通常通过宽带来提供的额外对象提供相关联的部分适配集。

o可以使用基本描述符和新方案来用信号通知部分适配集。

o描述符的值可以提供适配集ID操作序列，其中起始点是相应的完整适配集。

●将每个对象用信号通知成ContentComponent：

o可以使用针对每个对象的现有参数来提供描述。如果只包括单个内容分量，则可以在AS水平上将其用信号通知。

o ContentComponent@id的值由编解码器拥有，并可以用于识别该对象(例如，如果该信息被转发的话)。

●提供@qualityRanking以实现对不同适配集中的表示进行匹配。

●此外，可以提供用信号通知预选择的新的ex:PreSelection扩展元素。

o这些预选择可以提供多个对象(通过指向ContentComponent@id来提供)的组合，并分配信号预选择ID。

o预选择元素中的额外元数据甚至可以是特定于编解码器的。

下面提供了一种示例性函数映射：

●用信号通知潜在地不能使用单个适配集→规定类型部分AS→基本描述符，但始终为一个AS中的一个完整预选择。

●用信号通知所有适配集属于单个解码器→@bundleID→绑定束ID是主适配集的@id，以及所有AS在它们的基本描述符值中用信号通知它们属于该AS。

●提供预选择的信令：

o选项1：引用部分AS中提供的流的预选择元素→这可以用于信息。

o选项2：使用新依赖性元素的流的线性依赖→这可以在ContentComponent水平上使用。

o在所有情况下，可以使用元数据来标注预选择。

●对绑定束的主流进行标注：

o选项1：增加@main信令以表示一个完整的适配集。

o选项2：@sequence属性的第一流，以表示一个完整的适配集。

●标注处于一个流中的对象→ContentComponent→相同。

●标注所有部分适配集，使得其可以被音频解码器参考→@memberID→ContentComponent@id.

根据上面所讨论的技术的示例性数据集为：

●主音频流包含M&E对象以及英语对话。

●此外，在以上讨论的例子中，以下内容是可用的(虽然在其它例子中，其它语言的其它音频数据集可能是可用的)：

o德语对话

o英语评论

o德语评论

在图5-20的例子中，各种设备和其单元可以用硬件、软件、固件或者其任意组合来实现。当利用软件或固件来实现时，应当理解的是，还可以提供必要的硬件。该硬件可以包括利用分立逻辑电路(例如，一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或分立逻辑电路)来实现的各种可编程和/或固定目的处理单元中的任何一种。

此外，在图5-20的例子中，各种音频流可以遵循例如MPEG-H或AC-4部分2或者其它这种音频编码标准。用于传输音频流的传输标准包括MPEG-2传输流(TS)，使得每个音频流可以以单个节目流、单独的相应节目流或者音频流与节目流之间的N:M关系的方式来携带，其中，一个或多个音频流可以在单个MPEG-2TS节目流中携带，以及其中，可以存在多个MPEG-2TS节目流(每个携带一个或多个音频流)。另外地或替代地，可以将音频流包括成包含音频对象的MPEG媒体传输(MMT)资产。

图21是示出在MPEG-2系统水平上进行的所有数据的示例性选择的概念图。箭头表示预选的音频数据与包括所选数据的流之间的对应关系。该对应关系可以由如上面在各个例子中所讨论的预选择单元来确定。

图22是示出除了M&E音频数据之外，还存在英语评论的选择的例子的概念图。可以通过识别使用包括英语评论的适配集的@id＝4属性的流，或者经由使用@id＝“commentary-english”属性的预选择，来进行英语评论的选择。图22特别示出了在从与图21中所示出的数据集中删减与预选或选定属性不匹配的适配集之后剩下的内容。

图23是示出其中预选择单元(或者另一个单元)删减适配集以删除没有被用户选择的那些的另一个例子的概念图。在该情况下，预选择是针对M&E流和英文对话流来进行的。随后，预选择单元可以删减所有其它流(即，不具有@id元素等于“1”、ContentComponent@id＝“me”、ContentComponent@id＝“en-dialogue”和/或@id＝“main-english”的那些流)。图23特别示出了在从图21中所示出的数据集中删减与预选或选定属性不匹配的适配集之后剩下的内容。

替代地，预选择可以用于选择。当使用预选择进行选择时，可以以这种顺序来使用下面的数据：

●@codecs包括编解码器、简档和级别指示，例如，需要进行解码的所需全部数量的对象

●预选择的评级限制

●其它能力

●标签，用于基于用户交互的选择

●标签可以在用于呈现的不同语言中可用

●仅仅存在或者预选择的主要(可以是任一)语言@lang

●根据现有定义的预选择的所分配角色

●也分配给音频的其它参数

●@priority(多次停留时的选择)

●@bundleID(解码器实例信令)

由例如上面所描述的预选择单元执行的示例性删减过程可以如下所述：

●初始时关于能力(例如，编码和渲染能力)的删减预选择。如果在预选择元素中指定并在平台上可用，则通常：

o编解码器简档/层级，

o评级限制，和/或

o其它音频能力(例如，渲染)。

●如果可以的话，使用标签进行用户选择(不同于加入时间)

●使用系统缺省来进一步删减预选择(语言、角色等等)

●最后，使用优先级来选择具有最高优先级的剩余预选择。

下面给出了一种更复杂用例的例子。

●流：

o流A＝(2个混合的音频分量)＝M&E+对话主语言(EN)

o流B＝对话第二语言(DE)

o流C＝评论(EN)

o流D＝评论(DE)

●预选择：

o选项1＝M&E+对话(EN)

o选项2＝M&E+对话(DE)

o选项3＝M&E+对话(EN)+评论(EN)

o选项4＝M&E+对话(DE)+评论(DE)

o选项5＝M&E+对话(DE)+评论(EN)

o选项6＝M&E+评论(EN)

●假定：

o 2个分量一起解码需要@codecs＝“nga1.level1”

o 3个分量一起解码需要@codecs＝“nga1.level2”

在一些例子中，可以在清单文件(例如，MPD)中多次标识相同的内容。下面示出了一个这种例子：

●适配集：@id＝1；@codecs＝“nga1”

o ContentComponent@id＝“me”

■Role(urn:mpeg:dash:role:2011,value＝“supplementary”)

o ContentComponent@id＝“en-dialogue”@lang＝en

■Role(urn:mpeg:dash:role:2011,value＝“main”)

o Rep1:@qualityRanking＝2@bandwidth＝96broadband

o Rep2:@qualityRanking＝1@bandwidth＝196broadcast

●适配集：@id＝2；@codecs＝“nga1”

o EssentialDescriptor(@schemeIDURI＝“partial”；@value＝“1,2”)

o ContentComponent@id＝“de-dialog”@lang＝de

■Role(urn:mpeg:dash:role:2011,value＝“main”)

■Role(urn:mpeg:dash:role:2011,value＝“dub”)

o Rep1:@qualityRanking＝2@bandwidth＝64broadband

o Rep2:@qualityRanking＝1@bandwidth＝128broadband

●适配集：@id＝3；@codecs＝“nga2”

o EssentialDescriptor(@schemeIDURI＝“partial”；@value＝“1,3”)

o ContentComponent@id＝“motorway”@lang＝en

■Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64broadband

o Rep2:@qualityRanking＝1@bandwidth＝128broadband

●适配集：@id＝4；@codecs＝“nga2”

o EssentialDescriptor(@schemeIDURI＝“partial”；@value＝“1,2,4”)

o ContentComponent@id＝“autobahn”@lang＝de

■Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64broadband

o Rep2:@qualityRanking＝1@bandwidth＝128broadband

●适配集：@id＝5；@codecs＝“nga2”

o EssentialDescriptor(@schemeIDURI＝“partial”；@value＝“1,2,5”)

o ContentComponent@id＝“motorway”@lang＝en

■Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64broadband

o Rep2:@qualityRanking＝1@bandwidth＝128broadband

●适配集：@id＝6；@codecs＝“nga1”

o EssentialDescriptor(@schemeIDURI＝“partial”；@value＝“1,6”)

o ContentComponent@id＝“motorway”@lang＝en

■Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64broadband

o Rep2:@qualityRanking＝1@bandwidth＝128broadband

根据该清单文件数据的预选择的例子可以如下所示：

●预选择

o@id＝“option 1”

o@included＝“me,en-dialogue”

o标签

■@lang＝“en”；@value＝“English main”

■@lang＝“de”；@value＝“Englisch Dialog”

●预选择

o@id＝“option 2”

o@included＝“me,de-dialog”

o标签

■@lang＝“en”；@value＝“German main”

■@lang＝“de”；@value＝“Deutscher Dialog”

●预选择

o@id＝“option 3”

o@included＝“me,en-dialogue,motorway”

o标签

■@lang＝“en”；@value＝“English Commentary”

■@lang＝“de”；@value＝“Englischer Kommentar”

●预选择

o@id＝“option 4”

o@included＝“me,de-dialog,autobahn”

o标签

■@lang＝“en”；@value＝“English with German Commentary”

■@lang＝“de”；@value＝“Englisch mit Deutschem Kommentar”

●预选择

o@id＝“option 5”

o@included＝“me,de-dialog,motorway”

o标签

■@lang＝“en”；@value＝“English with German Commentary”

■@lang＝“de”；@value＝“Englisch mit Deutschem Kommentar”

●预选择

o@id＝“option 6”

o@included＝“me,motorway”

o标签

■@lang＝“en”；@value＝“English with German Commentary”

■@lang＝“de”；@value＝“Englisch mit Deutschem Kommentar”

在另一个例子中，预选择可以是基于选择的，如下面所示：

●适配集：@id＝1；@codecs＝“nga1”

o ContentComponent@id＝“me”

■Role(urn:mpeg:dash:role:2011,value＝“supplementary”)

o ContentComponent@id＝“en-dialogue”@lang＝en

■Role(urn:mpeg:dash:role:2011,value＝“main”)

o Rep1:@qualityRanking＝2@bandwidth＝96broadband

o Rep2:@qualityRanking＝1@bandwidth＝196broadcast

●适配集：@id＝3；@codecs＝“nga2”

o EssentialDescriptor(@schemeIDURI＝“partial”；@value＝“1,3”)

o ContentComponent@id＝“de-dialog”@lang＝de

■Role(urn:mpeg:dash:role:2011,value＝“main”)

■Role(urn:mpeg:dash:role:2011,value＝“dub”)

o Rep1:@qualityRanking＝2@bandwidth＝64broadband

o Rep2:@qualityRanking＝1@bandwidth＝128broadband

●适配集：@id＝4；@codecs＝“nga2”

o EssentialDescriptor(@schemeIDURI＝“partial”；@value＝“1,4”)

o ContentComponent@id＝“motorway”@lang＝en

■Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64broadband

o Rep2:@qualityRanking＝1@bandwidth＝128broadband

●适配集：@id＝5；@codecs＝“nga2”

o EssentialDescriptor(@schemeIDURI＝“partial”；@value＝“1,5”)

o ContentComponent@id＝“autobahn”@lang＝de

■Role(urn:mpeg:dash:role:2011,value＝“commentary”)

o Rep1:@qualityRanking＝2@bandwidth＝64broadband

o Rep2:@qualityRanking＝1@bandwidth＝128broadband

根据该清单文件数据的预选择的例子可以如下所示：

●预选择

o@id＝“option 1”.@included＝“me,en-dialogue”；@codecs＝nga1；

@priority＝1

o标签

■@lang＝“en”；@value＝“English main”

■@lang＝“de”；@value＝“Englisch Dialog”

●预选择

o@id＝“option 2”,@included＝“me,de-dialog”；@codecs＝nga1；

@priority＝2

o标签

■@lang＝“en”；@value＝“German main”

■@lang＝“de”；@value＝“Deutscher Dialog”

●预选择

o@id＝“option 3”,@included＝“me,en-dialogue,motorway”；

@codecs＝nga2；@priority＝3

o标签

■@lang＝“en”；@value＝“English Dialogue and Commentary”

■@lang＝“de”；@value＝“Englischer Dialog mit Kommentar”●预选择

o@id＝“option 4”,@included＝“me,de-dialog,autobahn”；

@codecs＝nga2；@priority＝4

o标签

■@lang＝“en”；@value＝“German with German Commentary”

■@lang＝“de”；@value＝“Deutsch mit Deutschem Kommentar”

●预选择

o@id＝“option 5”,@included＝“me,de-dialog,motorway”；

@codecs＝nga2；@priority＝5

o标签

■@lang＝“en”；@value＝“German with English Commentary”

■@lang＝“de”；@value＝“Deutsch mit Englischem Kommentar”

●预选择

o@id＝“option 6”.@included＝“me,motorway”；@codecs＝nga1；

@priority＝6

o标签

■@lang＝“en”；@value＝“German Commentary”

■@lang＝“de”；@value＝“Deutscher Kommentar”

在上面的例子中，如果选择了nga1和“German”，则剩余的预选择选项将是具有@id＝“option2”的预选择。

下面描述了ATSC用例的例子。使用斜体来示出可选元素和属性。

如下所述的第一、第二、第三和第四示例性ATSC用例，通常涉及广播者传送只具有一个完整主音频流的节目。在这些例子中，不存在可用于该节目的其它音频选项。

●适配集：@id＝1；@codecs＝“nga1”；@lang＝en

o ContentComponent@id＝“complete”

o Role(urn:mpeg:dash:role:2011,value＝“main”)

o Rep1:@bandwidth＝196broadcast

●预选择

o@id＝“main-english”

o@included＝“complete”

第一、第二、第三和第四示例性ATSC用例如下所示：

●广播者传送只具有一个完整的主音频流的节目。针对该节目没有其它可用的音频选项。

●广播者经由广播来提供具有两个或更多完整的主音频流的节目。基于如今在DASH清单中可用的音频属性信令，客户端仅选择其中一个流，例如根据以下信息：

o接收机的音频语言偏好设置，

o接收机的可达性设置，

o接收机的编解码器能力，和/或

o接收机的输出偏好(例如，立体声对比多声道输出)。

●广播者以不同于独立的完整主音频流的其它形式，向观众传送提供多个音频选项的节目。也就是说，广播者可以提供一个单个音频流，其包含所有需要进行解码的音频分量，例如，主语言、第二语言、视频描述服务等等。客户端基于以下内容，仅从该流中选择音频选项中的一个：

o如今在DASH清单中可用的音频属性信令，和/或

o由DASH-IF定义的新参数或方法，以便发送沉浸式和个性化内容。

●广播者提供混合服务，具有2个音频选项的节目。一个主音频流可以经由广播进行传送，另一个主音频流可以经由宽带进行传送。基于以下内容，客户端仅选择其中一个流：

o如今在DASH清单中可用的音频属性信令，

o由DASH-IF定义的新参数或方法，以便发送沉浸式和个性化内容，和/或

o连接(启用/禁用经由以太网或WiFi的对混合内容的访问)。

第五、第六和第七示例性ATSC用例涉及广播者经由广播提供具有两个或更多完整的主音频流的节目。基于如今在DASH清单中可用的音频属性信令，例如根据接收机的音频语言偏好设置、接收机的可达性设置、接收机的编解码器能力以及接收机的输出偏好(例如立体声对比多声道输出)，客户端仅选择其中一个流。

●适配集：@id＝1；@codecs＝“nga1”；@lang＝en

o ContentComponent@id＝“complete”

o Role(urn:mpeg:dash:role:2011,value＝“main”)

o Rep1:@bandwidth＝196broadcast

●适配集：@id＝2；@codecs＝“nga1”；@lang＝de

o ContentComponent@id＝“complete”

o Role(urn:mpeg:dash:role:2011,value＝“dub”)

o Rep1:@bandwidth＝196broadcast

●预选择

o@id＝“main-english”

o@bundleID＝1

o@included＝“complete”

●预选择

o@id＝“main-german”

o@bundleID＝2

o@included＝“complete”

可以使用上面讨论的数据的第五、第六和第七示例性ATSC用例如下所示：

●广播者提供混合服务。具有许多音频选项的节目，其中，共同音频分量(例如，音乐和效果)和主语言音频是经由广播来传送的。第二语言和其它音频分量是经由宽带来传送的。所有音频选项都要求结合对共同分量的解码。客户端基于以下内容，仅选择其中一个音频选项：

o如今在DASH清单中可用的音频属性信令

o由DASH-IF定义的新参数或方法，以便发送沉浸式和个性化内容

o连接(启用/禁用经由以太网或WiFi的对混合内容的访问)。

●广播者提供具有许多音频选项的节目，其中，所有音频分量是经由宽带来传送的。客户端基于以下内容，仅选择其中一个音频选项：

o如今在DASH清单中可用的音频属性信令

●经由宽带传送的额外音频流。

图24是示出根据本公开内容的技术的示例性方法的流程图。为了举例说明起见，将该示例性方法描述成由图20的接收机设备700来执行。但是，应当理解的是，该方法或者类似的方法可以由各种各样的其它设备(例如，图18的网络接收机600、图19的网络接收机650、或者图6、7、9、10或图13-17中的任何一个的各种接收机设备/系统)来执行。

初始时，在该例子中，NGA音频解码器726接收用于媒体数据的清单文件(800)。例如，该清单文件可以包括DASH的MPD。该清单文件可以包括音频流元数据，例如，音频流元数据703(图20)。通常，音频流元数据可以描述媒体数据的音频数据的特性，例如，编码特性、渲染特性、以及诸如针对相应的流的内容评级(其描述针对特定观众的内容适宜性)、针对相应的流的语言、和/或针对相应的流的角色/可达性之类的其它特性。

因此，NGA音频解码器726可以确定清单文件中所描述的音频对象(802)。通常，这些音频对象可以对应于媒体数据的适配集或者部分适配集。每个音频对象可以表示不同类型的音频数据，比如音乐和效果、对话和/或评论。在图20的例子中，NGA音频解码器726将确定M&E流704、英语对话流708、德语对话流712、英语评论流716和德语评论流720是可用的。

此外，NGA音频解码器726还可以确定这些流中的每一个流通过其是可用的网络(804)。具体而言，各个网络可以表示经由这些网络来传输相应的流的方式(例如，广播、宽带或者二者)。此外，虽然图24中没有示出，但NGA音频解码器726还可以判断与这些音频对象相对应的音频适配集是否包括具有相应的特定标识符的相应完整可呈现的音频呈现、判断音频适配集是否依赖于一个或多个其它音频适配集(以及该音频适配集所依赖的音频适配集的标识符)以及确定用于这些音频适配集的标识符。

随后，NGA音频解码器726可以接收对音频对象的一个或多个选择(806)。这些选择可以表示用户选择或者用户代理选择。用户选择通常表示现场用户输入，而用户代理选择通常表示先前配置的配置数据(其可以表示例如“如果可用的话，则选择英语对话”)。如上面参照图20所讨论的，NGA音频解码器726可以从用户接口/代理732(图20)、浏览器746(图20)或用户接口734(图20)接收该输入。在一些例子中，NGA音频解码器726可以初始时经由浏览器746来指示音频流中的哪些是可用的(例如，基于音频流元数据703以及基于哪些网络当前对于接收机设备700是可用的)。

在接收到指示已选择了音频对象中的哪些的选择数据之后，NGA音频解码器726经由所确定的网络来接收所选定的音频数据(808)。例如，如果广播网络是可用的，并且音频流中的一个或多个音频流可经由广播网络来获得，则NGA音频解码器726可以经由广播网络来接收音频数据。在一些例子中，经由广播网络来接收音频数据可以包括：对广播(或者在一些例子中，网络多播)进行订阅。再举一个例子，如果广播网络是不可用的，或者如果选定的音频对象仅仅可经由宽带来获得，则NGA音频解码器726可以经由宽带来接收所选定的音频对象(例如，根据诸如HTTP之类的单播协议(如，使用DASH))。响应于接收到音频数据，NGA音频解码器726的NGA处理器728将音频数据转发给诸如音频解码&渲染单元730(图20)之类的音频解码器(810)。

用此方式，图24的方法表示一种方法的例子，其中该方法包括：接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件，其中该清单文件指示这些音频对象中的每一个是否可经由广播、宽带或者广播和宽带二者来获得；接收指示要呈现这些音频对象中的哪些音频对象的选择数据；接收包括基于该选择数据的音频对象的流媒体数据；以及将该选择数据所指示的音频对象提供给音频解码器。

在一个或多个例子中，所描述的功能可以利用硬件、软件、固件或者其任意组合来实现。当利用软件实现时，可以将这些功能存储在计算机可读介质上，或者作为计算机可读介质上的一个或多个指令或代码进行传输，并由基于硬件的处理单元来执行。计算机可读介质可以包括计算机可读存储介质或通信介质，计算机可读存储介质对应于诸如数据存储介质之类的有形介质，通信介质包括有助于例如根据通信协议将计算机程序从一个地方传送到另一个地方的任何介质。用此方式，计算机可读介质通常可以对应于：(1)非临时性的有形计算机可读存储介质；或者(2)诸如信号或载波波形之类的通信介质。数据存储介质可以是一个或多个计算机或者一个或多个处理器能够进行访问以获取用于实现本公开内容中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

举例而言，但非做出限制，这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或者其它光盘存储器、磁盘存储器或其它磁存储设备、闪存或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。此外，可以将任何连接适当地称作计算机可读介质。举例而言，如果指令是使用同轴电缆、光纤光缆、双绞线、数字用户线路(DSL)或者诸如红外线、无线和微波之类的无线技术，从网站、服务器或其它远程源传输的，那么所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所述介质的定义中。但是，应当理解的是，计算机可读存储介质和数据存储介质并不包括连接、载波波形、信号或者其它临时介质，而是针对于非临时的有形存储介质。如本文所使用的，磁盘和光盘包括压缩光盘CD、激光盘、光盘、数字通用光盘(DVD)、软盘和蓝光盘，其中磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的范围之内。

指令可以由诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)之类的一个或多个处理器或者其它等同的集成或分立逻辑电路来执行。因此，如本文所使用的，术语“处理器”可以指代前述的结构中的任何一种或者适合于实现本文所描述的技术的任何其它结构。此外，在一些方面，本文所描述的功能可以提供在被配置用于编码和解码的专用硬件和/或软件模块中，或者并入到组合的编解码器中。此外，可以在一个或多个电路或逻辑元件中全部实现这些技术。

可以使用多种多样的设备或装置(包括无线手持装置、集成电路(IC)或者一组IC(例如，芯片集))，来实现本公开内容的技术。本公开内容中描述了各种组件、模块或单元，以强调被配置为执行所公开的技术的设备的功能方面，但不一定需要由不同的硬件单元来实现。相反，如上所述，各个单元可以组合在编解码器硬件单元中，或者通过协作的硬件单元集合(其包括如上所述的一个或多个处理器)结合适当的软件和/或固件来提供。

已描述了各个例子。这些和其它例子落入所附权利要求的保护范围之内。

Claims

1.一种接收媒体数据的方法，所述方法包括：

接收用于描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件，其中，所述清单文件指示所述音频对象中的每一个音频对象是否可经由广播、宽带或者广播和宽带二者来获得；

接收指示要呈现所述音频对象中的哪些音频对象的选择数据；

接收包括基于所述选择数据的所述音频对象的流媒体数据；以及

将由所述选择数据指示的所述音频对象提供给音频解码器。

2.根据权利要求1所述的方法，其中，所述清单文件包括HTTP动态自适应流(DASH)媒体呈现描述(MPD)，以及其中，所述音频对象是作为适配集来用信号在所述DASH MPD中进行通知的。

3.根据权利要求1所述的方法，其中，接收所述流媒体数据包括：接收遵循MPEG-2传输流(TS)的单个节目流或者遵循MPEG-2TS的多个节目流。

4.根据权利要求1所述的方法，其中，接收所述流媒体数据包括：接收包括所述音频对象的一个或多个MPEG媒体传输(MMT)资产。

5.根据权利要求1所述的方法，还包括针对所述音频适配集中的每一个音频适配集，使用所述清单文件来进行以下确定：

确定所述音频适配集是否包括具有特定标识符(ID)的完整可呈现音频呈现；

确定所述音频适配集是否依赖于一个或多个其它音频适配集，以及当所述音频适配集依赖于一个或多个其它音频适配集时，确定用于所述一个或多个其它音频适配集的标识符；以及

确定用于所述音频适配集的标识符。

6.根据权利要求5所述的方法，还包括：

确定所述音频适配集中的每个表示的相对质量，其表示所述表示中的每一个表示的质量排名属性。

7.根据权利要求5所述的方法，其中，所述清单文件指示所述音频对象中的每一个音频对象是在不同的数据流中提供的。

8.根据权利要求5所述的方法，其中，所述清单文件指示所述音频对象中的两个或更多音频对象被复用在广播流中，以及所述其它音频对象作为不同的数据流可经由宽带来获得。

9.根据权利要求5所述的方法，其中，所述清单文件指示所述音频对象中的每一个音频对象被复用到单个数据流中。

10.根据权利要求9所述的方法，其中，所述清单文件指示所述单个数据流可经由广播来获得。

11.根据权利要求5所述的方法，其中，所述清单文件用信号通知作为包括所述完整可呈现音频呈现的所述音频对象的音频对象标识符的所述完整可呈现音频呈现的所述特定ID。

12.根据权利要求5所述的方法，其中，所述清单文件用信号通知作为包括所述完整可呈现音频呈现的ISO基本媒体文件格式文件中的轨道的轨道ID的所述完整可呈现音频呈现的所述特定ID。

13.根据权利要求5所述的方法，其中，所述清单文件用信号通知作为包括所述完整可呈现音频呈现的MPEG-2传输流中的基本流的节目标识符(PID)的所述完整可呈现音频呈现的所述特定ID。

14.根据权利要求5所述的方法，其中，所述清单文件包括描述符数据，其中，所述描述符数据用信号通知包括所述完整可呈现音频呈现的MPEG媒体传输(MMT)流的所述特定ID。

15.根据权利要求5所述的方法，其中，所述清单文件使用基本描述符来用信号通知音频适配集之间的依赖性，所述基本描述符具有值，所述值提供依赖的适配集所依赖的适配集的标识符。

16.根据权利要求5所述的方法，其中，所述清单文件使用内容分量元素来用信号通知所述音频对象的标识符。

17.根据权利要求5所述的方法，还包括：

从所述清单文件中取回一个或多个预选择元素。

18.根据权利要求17所述的方法，其中，所述预选择元素均包括用于选择所述音频对象的子集的描述符。

19.根据权利要求17所述的方法，其中，所述预选择元素均包括能够用于自动选择的一个或多个参数。

20.根据权利要求17所述的方法，其中，所述预选择元素均包括指示用于该预选择的所需编解码器能力的数据。

21.根据权利要求17所述的方法，其中，所述预选择元素均包括用于用户选择的文本标签。

22.根据权利要求21所述的方法，其中，所述文本标签是以与所述相应的音频数据的语言相对应的语言来提供的。

23.根据权利要求17所述的方法，其中，所述预选择元素均包括优先级值。

24.根据权利要求17所述的方法，还包括：

基于所接收的选择数据，使用所述预选择元素来选择所述音频对象的子集。

25.一种用于接收音频数据的设备，所述设备包括：

音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；以及

音频数据处理单元，其使用数字逻辑电路来实现以及被配置为：

将由所述选择数据指示的所述音频对象提供给所述音频解码器。

26.根据权利要求25所述的设备，其中，所述清单文件包括HTTP动态自适应流(DASH)媒体呈现描述(MPD)，以及其中，所述音频对象是作为适配集来用信号在所述DASH MPD中进行通知的。

27.根据权利要求25所述的设备，还包括实现的网络接口，其配置为接收以下各项中的一项或多项：包括所述音频对象的遵循MPEG-2传输流(TS)的单个节目流、包括所述音频对象的遵循MPEG-2TS的多个节目流、或者包括所述音频对象的一个或多个MPEG媒体传输(MMT)资产。

28.根据权利要求25所述的设备，其中，所述音频数据处理单元还被配置为针对所述音频适配集中的每一个音频适配集，使用所述清单文件来进行以下确定：

确定用于所述音频适配集的标识符。

29.根据权利要求28所述的设备，其中，所述音频数据处理单元还被配置为从所述清单文件中取回一个或多个预选择元素，所述预选择元素包括以下各项中的一项或多项：用于选择所述音频对象的子集的描述符、能够用于自动选择的一个或多个参数、指示用于该预选择的所需编解码器能力的数据、用于用户选择的文本标签、或者优先级值。

30.一种用于接收音频数据的设备，所述设备包括：

音频解码器，其使用数字逻辑电路来实现以及被配置为对遵循MPEG-H或AC-4部分2的音频数据进行解码；

用于接收描述遵循MPEG-H或AC-4部分2的多个音频对象的清单文件的单元，其中，所述清单文件指示所述音频对象中的每一个音频对象是否可经由广播、宽带或者广播和宽带二者来获得；

用于接收指示要呈现所述音频对象中的哪些音频对象的选择数据的单元；

用于接收包括基于所述选择数据的所述音频对象的流媒体数据的单元；以及

用于将由所述选择数据指示的所述音频对象提供给所述音频解码器的单元。

31.根据权利要求30所述的设备，其中，所述清单文件包括HTTP动态自适应流(DASH)媒体呈现描述(MPD)，以及其中，所述音频对象是作为适配集来用信号在所述DASH MPD中进行通知的。

32.根据权利要求30所述的设备，其中，所述用于接收所述流媒体数据的单元包括用于接收以下各项中的一项或多项的单元：包括所述音频对象的遵循MPEG-2传输流(TS)的单个节目流、包括所述音频对象的遵循MPEG-2TS的多个节目流、或者包括所述音频对象的一个或多个MPEG媒体传输(MMT)资产。

33.根据权利要求30所述的设备，还包括：

用于针对所述音频适配集中的每一个音频适配集，根据所述清单文件来确定所述音频适配集是否包括具有特定标识符(ID)的完整可呈现音频呈现的单元；

用于针对所述音频适配集中的每一个音频适配集，根据所述清单文件来确定所述音频适配集是否依赖于一个或多个其它音频适配集，以及当所述音频适配集依赖于一个或多个其它音频适配集时，确定用于所述一个或多个其它音频适配集的标识符的单元；以及

用于针对所述音频适配集中的每一个音频适配集，根据所述清单文件来确定用于所述音频适配集的标识符的单元。

34.根据权利要求30所述的设备，还包括：

用于从所述清单文件中取回一个或多个预选择元素的单元，所述预选择元素包括以下各项中的一项或多项：用于选择所述音频对象的子集的描述符、能够用于自动选择的一个或多个参数、指示用于该预选择的所需编解码器能力的数据、用于用户选择的文本标签、或者优先级值。

35.一种其上存储有指令的计算机可读存储介质，当所述指令被执行时，使接收机设备的一个或多个处理器执行以下操作：

将由所述选择数据指示的所述音频对象提供给所述接收机设备的音频解码器。

36.根据权利要求35所述的计算机可读存储介质，其中，所述清单文件包括HTTP动态自适应流(DASH)媒体呈现描述(MPD)，以及其中，所述音频对象是作为适配集来用信号在所述DASH MPD中进行通知的。

37.根据权利要求35所述的计算机可读存储介质，还包括用于使所述处理器接收以下各项中的一项或多项的指令：包括所述音频对象的遵循MPEG-2传输流(TS)的单个节目流、包括所述音频对象的遵循MPEG-2TS的多个节目流、或者包括所述音频对象的一个或多个MPEG媒体传输(MMT)资产。

38.根据权利要求35所述的计算机可读存储介质，还包括用于使所述处理器针对所述音频适配集中的每一个音频适配集，使用所述清单文件来进行以下确定的指令：

确定用于所述音频适配集的标识符。

39.根据权利要求35所述的计算机可读存储介质，还包括用于使所述处理器从所述清单文件中取回一个或多个预选择元素的指令，所述预选择元素包括以下各项中的一项或多项：用于选择所述音频对象的子集的描述符、能够用于自动选择的一个或多个参数、指示用于该预选择的所需编解码器能力的数据、用于用户选择的文本标签、或者优先级值。