CN110431849A

CN110431849A - 包含用于视频译码的子图片位流的视频内容的信令传输

Info

Publication number: CN110431849A
Application number: CN201880019591.3A
Authority: CN
Inventors: 王业奎
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2017-03-23
Filing date: 2018-03-22
Publication date: 2019-11-08
Anticipated expiration: 2038-03-22
Also published as: US11062738B2; AU2018240385A1; WO2018175802A1; TW201838419A; CN110431849B; US20180277164A1; KR102614206B1; KR20190131077A; SG11201907473WA; BR112019019339A2; EP3603095A1

Abstract

在各种实施方案中，提供对ISOBMFF的修改及/或添加以处理视频数据。从存储器获得多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码。在至少一个文件中，分别存储所述多个子图片位流作为多个子图片播放轨。将描述所述多个子图片播放轨的元数据存储于根据文件格式的媒体文件内的播放轨逻辑框中。提供包含描述所述多个子图片播放轨的所述元数据的子图片基本播放轨。

Description

包含用于视频译码的子图片位流的视频内容的信令传输

优先权的要求

本专利申请案要求2017年3月23日申请的标题为“包含子图片位流的视频内容的信令传输(SIGNALLING OF VIDEO CONTENT INCLUDING SUB-PICTURE BITSTREAMS)”的临时申请案第62/475,832号以及2018年3月21申请的美国非临时申请案第15/927,993号的优先权，所述申请案的全部内容在此明确地以引用的方式并入本文中。

技术领域

本申请案涉及可用于视频译码的与一或多种媒体文件格式有关的视频内容的信令传输，所述一或多种媒体文件格式例如ISO基本媒体文件格式(ISOBMFF)及/或从ISOBMFF导出的文件格式。举例来说，本申请案涉及用于同虚拟现实(VR)一起使用的与一或多种媒体文件格式有关的视频内容的信令传输。作为另一实例，本申请案涉及用于与一或多种媒体文件格式有关的视频内容的信令传输的方法、装置及系统，所述视频内容包含用于与视频译码一起使用的子图片位流。

背景技术

视频译码标准包含ITU-T H.261；ISO/IEC MPEG-1Visual；ITU-T H.262或ISO/IECMPEG-2Visual；ITU-T H.263；ISO/IEC MPEG-4Visual；ITU-T H.264或ISO/IEC MPEG-4AVC，包含其被称为可伸缩视频译码(SVC)的可伸缩视频译码扩展及其多视图视频译码扩展即多视图视频译码(MVC)扩展；及还被称为ITU-T H.265及ISO/23008-2的高效率视频译码(HEVC)，包含其可伸缩译码扩展(即，可伸缩高效率视频译码SHVC)及多视图扩展(即，多视图高效率视频译码MV-HEVC)。

发明内容

描述了用于对包含存储于多个子图片播放轨中的多个子图片位流的视频进行信令传输的技术。更具体地说，描述了用于信令传输途径的技术，所述信令传输途径能够对子图片播放轨、全图片的空间分辨率以及整个视频内容的计时元数据之间的关系进行信令传输。

在一些实例中，描述了对单独及独立的子图片位流进行编码及解码的技术。独立的子图片位流可应用于例如常规二维(2D)环境以及虚拟现实(VR)环境。VR为用户提供所述用户存在于非物理世界中的感知，所述非物理世界是通过呈现经由使得用户能够与所述世界交互的移动而相关的自然及/或合成图像及声音而建立。

在一些实例中，上文所描述的方法、设备及计算机可读媒体进一步包括从存储器获得多个子图片位流，每一子图片位流包含视频数据的空间部分且每一子图片位流独立地经译码。在一些实例中，在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨，且在根据文件格式的媒体文件内的播放轨逻辑框中存储描述与所述多个子图片播放轨相关联的参数的元数据。

在一些实例中，上文所描述的方法、设备及计算机可读媒体进一步包含存储与所述多个子图片播放轨相关联的子图片基本播放轨。

在一些实例中，所述参数包含以下各者中的一或多者：虚拟现实数据包含2维视频数据抑或3维视频数据的指示、所述视频数据为预拼接视频数据或后拼接视频数据的指示，或所述视频数据的映射类型。在一些实例中，所述参数存储于方案信息逻辑框中的文件中。

在一些实例中，文件格式是基于国际标准组织(ISO)基本媒体文件格式。

根据一实例，一种处理视频数据的方法包含：从存储器获得多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨；以及在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据。所述媒体文件任选地可包含至少一个文件。同样地，所述方法可任选地包含存储与所述多个子图片播放轨相关联的子图片基本播放轨，以及基于播放轨逻辑框的样本描述逻辑框内的样本项类型来指示子图片基本播放轨。根据一实例，子图片基本播放轨任选地包含描述所述多个子图片播放轨的元数据。同样地，元数据可任选地包含与所述多个子图片播放轨的集合相关联的完整图片的空间分辨率。文件格式任选地可是基于国际标准组织(ISO)基本媒体文件格式及/或通过ISO/IEC 14496-12第12部分识别的ISO基本媒体文件格式的条款8.3.4中所阐述的TrackGroupTypeBox的后向兼容扩展。

根据另一实例，一种处理视频数据的方法包含：从存储器获得多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨；以及在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据。所述方法可任选地包含在播放轨逻辑框内将播放轨群组类型存储为指示与所述播放轨逻辑框相关联的播放轨是子图片播放轨群组中的一者的值，所述子图片播放轨群组表示所述视频数据的单一表示。所述方法还可任选地包含在播放轨逻辑框内存储指定播放轨分组类型的播放轨群组类型逻辑框。文件格式任选地可是基于国际标准组织(ISO)基本媒体文件格式及/或通过ISO/IEC 14496-12第12部分识别的ISO基本媒体文件格式的条款8.3.4中所阐述的TrackGroupTypeBox的后向兼容扩展。

根据另一实例，一种处理视频数据的方法包含：从存储器获得多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨；以及在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据。所述方法可任选地包含在播放轨逻辑框内存储指定播放轨分组类型的播放轨群组类型逻辑框。同样地，播放轨分组类型可任选地指示额外信息可供添加到播放轨逻辑框。此外，当所述播放轨分组类型指示额外信息可供添加到播放轨逻辑框时，所述方法可任选地包含在所述播放轨逻辑框内存储所述播放轨中的子图片的子图片行索引信息及子图片列索引信息。

根据另一实例，一种处理视频数据的方法包含：从存储器获得多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨；以及在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据。在子图片位流内经编码的子图片可任选地以子图片行及子图片列的方式定义。在子图片位流内经编码的子图片可任选地可分组为图块，使得所述图块为经定义图块行及图块列。

根据另一实例，一种处理视频数据的方法包含：从存储器获得多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨；以及在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据。当播放轨分组类型指示额外信息可供添加到播放轨逻辑框时，所述方法可任选地在所述播放轨逻辑框内存储对应于所述播放轨中的子图片的左上角像素的坐标。当播放轨分组类型指示额外信息可供添加到播放轨逻辑框时，所述方法可任选地在所述播放轨逻辑框内存储表示完整图片的大小的信息。

根据一实例，提供一种用于解码视频数据的装置，所述装置包含：存储器，其经配置以存储至少一个文件及媒体文件，所述媒体文件根据文件格式经格式化且所述至少一个文件包含多个子图片播放轨；以及处理器，其与所述存储器通信，所述处理器经配置以：处理所述媒体文件；以及从媒体文件内的播放轨逻辑框获得描述包含于所述至少一个文件内的所述多个子图片播放轨的元数据。根据一相关实例，所述装置可经操作以执行上文所阐述的示范性方法操作中的类似操作。所述装置可任选地为无线通信装置，且进一步包含经配置以发射多个子图片位流的发射器。所述装置可任选地为蜂窝式电话，且所述多个子图片位流可任选地根据蜂窝式通信标准调制以供发射。

根据另一实例，提供一种用于处理视频数据的装置，所述装置包含：存储器，其经配置以存储多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；以及处理器，其与所述存储器通信，所述处理器经配置以：从存储器获得多个子图片位流；在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨；以及在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据。根据一相关实例，所述装置可经操作以执行上文所阐述的示范性方法操作中的类似操作。

根据一相关实例，提供一种装置，其包含：用于从存储器获得多个子图片位流的装置，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；用于在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨的装置；以及用于在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据的装置。所述装置可规定所述媒体文件包含所述至少一个文件。所述装置可任选地提供用于存储与所述多个子图片播放轨相关联的子图片基本播放轨的装置，或用于基于播放轨逻辑框的样本描述逻辑框内的样本项类型来指示子图片基本播放轨的装置。所述装置可任选地规定子图片基本播放轨包含描述所述多个子图片播放轨的元数据，或所述装置可任选地规定元数据包含与所述多个子图片播放轨的集合相关联的完整图片的空间分辨率。同样地，所述装置可提供基于国际标准组织(ISO)基本媒体文件格式的文件格式。此外，所述装置可任选地提供用于在播放轨逻辑框内将播放轨群组类型存储为指示与所述播放轨逻辑框相关联的播放轨是子图片播放轨群组中的一者的值的装置，所述子图片播放轨群组表示所述视频数据的单一表示。播放轨群组类型任选地可为通过ISO/IEC 14496-12第12部分识别的ISO基本媒体文件格式的条款8.3.4中所阐述的TrackGroupTypeBox的后向兼容扩展。

根据一相关实例，所述装置可任选地提供用于在播放轨逻辑框内存储指定播放轨分组类型的播放轨群组类型逻辑框的装置。播放轨分组类型可任选地指示额外信息可供添加到播放轨逻辑框。此外，播放轨分组类型可任选地指示额外信息可供添加到播放轨逻辑框，在所述播放轨逻辑框内存储所述播放轨中的子图片的子图片行索引信息及子图片列索引信息，或指示在子图片位流内经编码的子图片以子图片行及子图片列的方式定义。在子图片位流内经编码的子图片任选地可分组为图块，使得所述图块为经定义图块行及图块列。播放轨分组类型可任选地指示额外信息可供添加到播放轨逻辑框，在所述播放轨逻辑框内存储对应于所述播放轨中的子图片的左上角像素的坐标。此外，当所述播放轨分组类型指示额外信息可供添加到播放轨逻辑框时，所述装置可提供用于在所述播放轨逻辑框内存储表示完整图片的大小的信息的装置。

根据另一相关实例，提供一种非暂时性计算机可读媒体，其上存储有指令，所述指令在经执行时使得电子装置的一或多个处理器：从存储器获得多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨；以及在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据。所述一或多个处理器可规定所述媒体文件包含所述至少一个文件。所述一或多个处理器可任选地提供用于存储与所述多个子图片播放轨相关联的子图片基本播放轨的指令，或用于基于播放轨逻辑框的样本描述逻辑框内的样本项类型来指示子图片基本播放轨的指令。所述一或多个处理器可任选地提供所述子图片基本播放轨包含描述所述多个子图片播放轨的元数据的指令，或所述一或多个处理器可任选地规定所述元数据包含与所述多个子图片播放轨的集合相关联的完整图片的空间分辨率。同样地，所述一或多个处理器可提供基于国际标准组织(ISO)基本媒体文件格式的文件格式。此外，所述一或多个处理器可任选地提供用于在播放轨逻辑框内将播放轨群组类型存储为指示与所述播放轨逻辑框相关联的播放轨是子图片播放轨群组中的一者的值的指令，所述子图片播放轨群组表示视频数据的单一表示。播放轨群组类型任选地可为通过ISO/IEC 14496-12第12部分识别的ISO基本媒体文件格式的条款8.3.4中所阐述的TrackGroupTypeBox的后向兼容扩展。

根据一相关实例，所述一或多个处理器可任选地提供用于在播放轨逻辑框内存储指定播放轨分组类型的播放轨群组类型逻辑框的指令。播放轨分组类型可任选地指示额外信息可供添加到播放轨逻辑框。此外，播放轨分组类型可任选地指示额外信息可供添加到播放轨逻辑框，在所述播放轨逻辑框内存储所述播放轨中的子图片的子图片行索引信息及子图片列索引信息，或指示在子图片位流内经编码的子图片以子图片行及子图片列的方式定义。在子图片位流内经编码的子图片任选地可分组为图块，使得所述图块为经定义图块行及图块列。播放轨分组类型可任选地指示额外信息可供添加到播放轨逻辑框，在所述播放轨逻辑框内存储对应于所述播放轨中的子图片的左上角像素的坐标。此外，当播放轨分组类型指示额外信息可供添加到播放轨逻辑框时，所述一或多个处理器可提供用于在播放轨逻辑框内存储表示完整图片的大小的信息的指令。

此发明内容并不打算识别所要求主题的关键或基本特征，也不打算单独使用以确定所要求主题的范围。应参考此专利的整个说明书的适当部分、任何或所有图式及每一权利要求书来理解主题。

在参考以下说明书、权利要求书及随附图式后，前述内容连同其它特征及实例将变得更显而易见。

附图说明

图1为说明包含编码装置104及解码装置112的系统100的实例的框图。

图2说明根据ISOBMFF格式化的含有用于视频呈现的数据及元数据的ISO基本媒体文件200的实例。

图3说明用以指定视频媒体播放轨为子图片基本播放轨的ISO基本媒体文件300。

图4说明可包含在ISO基本媒体文件中且可包含用于子图片基本播放轨的特定样本项类型(例如‘spbt’)的媒体逻辑框440的实例。

图5说明指示子图片基本播放轨可经选择作为计时元数据播放轨的参考媒体播放轨的ISO基本媒体文件500的实例。

图6说明其中与子图片基本播放轨机制一起使用的ISO基本媒体文件600能够对所有子图片播放轨进行分组的实例，所述子图片播放轨各自具有指代子图片基本播放轨的特定类型(例如‘spbs’)的播放轨参考。

图7说明其中子图片基本播放轨可含有指向所有相关联子图片播放轨的特定类型(例如‘strk’)的播放轨编号的ISO基本媒体文件700的实例。

图8说明定义例如通过等于‘subp’的track_group_type识别的新播放轨分组类型的ISO基本媒体文件800的实例。

图9为说明可实施本公开中所描述的技术中的一或多者的实例编码装置900的框图。

图10为说明实例解码装置1000的框图。

具体实施方式

下文提供本公开的某些方面及实例。这些方面及实施例中的一些可独立地应用并且其中的一些可以将对所属领域的技术人员显而易见的组合来应用。在以下描述中，出于解释的目的，阐述特定细节以便提供对本公开的实例的透彻理解。然而，将显而易见的是，各种实例可在无这些特定细节的情况下得以实践。图式及描述不打算为限定性的。

随后描述仅提供实例，且并不打算限制本公开的范围、适用性或配置。确切地说，实例的随后描述将为所属领域的技术人员提供用于实施示范性实施例的能够实现的描述。应理解，可在不脱离如所附权利要求书中所阐述的本公开的精神及范围的情况下对元件的功能及布置进行各种改变。

在以下描述中，给出特定细节以提供对实例的透彻理解。然而，所属领域的一般技术人员应了解，实例可在无这些特定细节的情况下加以实践。举例来说，电路、系统、网络、过程及其它组件可以框图形式展示为组件以免以不必要的细节混淆实例。在其它情况下，可在无不必要的细节的情况下展示熟知电路、过程、算法、结构及技术以便避免混淆实例。

另外，应注意，个别实例可描述为被描绘为流程图、流图、数据流图、结构图或框图的过程。尽管流程图可能将操作描述为顺序过程，但许多操作可并行地或同时加以执行。另外，操作的次序可以重新布置。过程在其操作完成时终止，但可具有不包含于图中的额外步骤。过程可对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时，其终止可对应于函数传回到呼叫函数或主函数。

术语“计算机可读媒体”包含但不限于便携式或非便携式存储装置、光存储装置，及能够存储、含有或携载指令及/或数据的各种其它媒体。计算机可读媒体可包含非暂时性媒体，其中可存储数据并且不包含无线地或经由有线连接传播的载波及/或暂时电子信号。非暂时性媒体的实例可包含(但不限于)磁碟或磁带、例如紧密光盘(CD)或数字化通用光盘(DVD)的光学存储媒体、闪速存储器、存储器或存储器装置。计算机可读媒体可具有存储于其上的代码及/或机器可执行指令，所述代码及/或机器可执行指令可表示程序、函数、子程序、程序、例程、子例程、模块、套装软件、类别或者指令、数据结构或程序语句陈述式的任何组合。一个码段可通过传递及/或接收信息、数据、引数、参数或存储器内容而耦合到另一码段或硬件电路。信息、引数、参数、数据等可经由包含存储器共享、消息传递、符记传递、网络发射等等的任何合适方式传递、转递或发射。

此外，可由硬件、软件、固件、中间软件、微码、硬件描述语言或其任何组合来实施实例。当实施于软件、固件、中间软件或微码中时，用以执行必要任务的代码或码段(例如，计算机程序产品)可存储于计算机可读或机器可读媒体中。处理器可执行必要任务。

虚拟现实(VR)描述可在看起来真实或物理方式内交互的三维的计算机产生的环境。一般来说，体验虚拟现实环境的用户使用例如头戴显示器(HMD)及视需要衣物(例如，配备有传感器的手套)的电子装备以与虚拟环境交互。随着用户在真实世界中移动，在虚拟环境中呈现的图像也改变，从而向用户给予用户正在虚拟环境内移动的感知。在一些状况下，虚拟环境包含与用户的移动相关的声音，从而向用户给予声音来源于特定方向或来源的视听。虚拟现实视频可以极高质量被捕捉且呈现，从而潜在地提供真实沉浸式虚拟现实体验。虚拟现实应用包含游戏、训练、教育、体育视频及线上购物以及其它。

虚拟现实系统通常包含视频捕捉装置及视频显示装置，且可能还包含例如服务器、数据存储装置及数据发射装备的其它中间装置。视频捕捉装置可包含相机集合，即多个相机的集合，每一相机定向于不同方向且捕捉不同视图。少达六个相机可用以捕捉以相机集合的位置为中心的全360度视图。一些视频捕捉装置可使用较少相机，例如主要捕捉侧对侧视图的视频捕捉装置。视频通常包含帧，其中帧为场景的电子译码静态图像。相机每秒捕捉特定数目个帧，其通常被称作相机的帧速率。

为了提供无缝的360度视图，通过相机集合中的每一相机捕捉的视频通常经历图像拼接。在360度视频产生的状况下的图像拼接涉及组合或合并其中视频帧重叠或将以其它方式连接的区域中的邻近相机的视频帧。结果将为大体球形帧，但类似于麦卡托(Mercator)投影，经合并的数据通常以平面样式表示。举例来说，经合并视频帧中的像素可经映射到立方体形状或某一其它三维平面形状(例如，角锥形、八面体、十面体等)的平面上。视频捕捉及视频显示装置通常按光栅原理操作，这意味着视频帧作为像素栅格处置，因此，正方形或矩形平面通常用以表示球面环境。

映射到平面表示的虚拟现实视频帧可经编码及/或压缩以供存储及/或发射。编码及/或压缩可使用视频编码解码器(例如，H.265/HEVC兼容编码解码器、H.264/AVC兼容编码解码器或其它合适的编码解码器)实现，且产生经压缩的视频位流或位流群组。下文进一步详细地描述使用视频编码解码器对视频数据进行编码。

一或多个经编码视频位流可以媒体格式或文件格式经存储及/或封装。一或多个所存储位流可(例如)经由网络发射到接收器装置，所述接收器装置可解码并呈现视频以供显示。此接收器装置在本文中可被称作视频显示装置。举例来说，虚拟现实系统可(例如使用国际标准组织(ISO)基本媒体文件格式及/或所导出文件格式)由经编码视频数据产生经封装文件。举例来说，视频编码解码器可编码视频数据，且封装发动机可通过将视频数据封装于一或多个ISO格式媒体文件中而产生媒体文件。替代地或另外，可将经存储位流从存储媒体直接提供到接收器装置。

接收器装置还可实施编码解码器以解码及/或解压缩经编码视频位流。接收器装置可支持媒体或文件格式，其用以将视频位流封装到文件(或多个文件)中、提取视频(及还可能音频)数据以产生经编码视频数据。举例来说，接收器装置可用经封装视频数据剖析媒体文件以产生经编码视频数据，且接收器装置中的编码解码器可解码经编码视频数据。

接收器装置接着可将经解码视频信号发送到呈现装置(例如，视频显示装置)。举例来说，呈现装置包含头戴显示器、虚拟现实电视及其它180度或360度显示装置。一般来说，头戴显示器能够跟踪穿戴者头部的移动及/或穿戴者眼睛的移动。头戴显示器可使用跟踪信息来呈现360度视频中对应于穿戴者正观看的方向的部分，使得穿戴者以与穿戴者将体验真实世界相同的方式体验虚拟环境。呈现装置可以捕捉视频的相同帧速率或以不同帧速率呈现视频。

文件格式标准可定义用于将视频(及还可能音频)数据封装及解封装成一或多个文件的格式。文件格式标准包含国际标准化组织(ISO)基本媒体文件格式(ISOBMFF，定义于ISO/IEC 14496-12中)；及从ISOBMFF导出的其它文件格式，包含运动图片专家组(MPEG)MPEG-4文件格式(定义于ISO/IEC 14496-15中)、第三代合作伙伴计划(3GPP)文件格式(定义于3GPP TS 26.244中)及高级视频译码(AVC)文件格式及高效率视频译码(HEVC)文件格式(都定义于ISO/IEC 14496-15中)。

ISOBMFF用作用于许多编码解码器封装格式(例如，AVC文件格式或任何其它合适的编码解码器封装格式)以及用于许多多媒体容器格式(例如，MPEG-4文件格式、3GPP文件格式(3GP)、DVB文件格式或任何其它合适的多媒体容器格式)的基础。ISOBMFF基本文件格式可用于连续媒体，其还被称作流式传输媒体。

除了连续媒体(例如，音频及视频)之外，静态媒体(例如，图像)及元数据可存储于符合ISOBMFF的文件中。根据ISOBMFF结构化的文件可用于许多目的，包含本地媒体文件播放、远程文件的渐进式下载、用作HTTP动态自适应流式传输(DASH)的片段、用作待流式传输的内容的容器(在此状况下容器包含分组化指令)、用于记录接收的实时媒体流，或其它用途。

逻辑框为ISOBMFF中的基本语法结构，包含四字符译码逻辑框类型、逻辑框的字节计数及有效负载。ISOBMFF文件包含一连串逻辑框，且逻辑框可含有其它逻辑框。电影逻辑框(“moov”)含有用于存在于文件中的连续媒体流的元数据，每一媒体流在文件中表示为播放轨。将用于播放轨的元数据围封于播放轨逻辑框(“trak”)中，而将播放轨的媒体内容围封于媒体数据逻辑框(“mdat”)中或直接围封于单独文件中。用于播放轨的媒体内容由一连串样本组成，例如音频或视频存取单元。

ISOBMFF指定以下类型的播放轨：媒体播放轨，其含有基本媒体流；提示播放轨，其包含媒体发射指令或表示接收的分组流；及计时元数据播放轨，其包括时间同步的元数据。

尽管原先针对存储而设计，但ISOBMFF已证明用于流式传输(例如，用于渐进式下载或DASH)极有价值。出于流式传输目的，可使用在ISOBMFF中定义的电影片段。

每一播放轨的元数据包含样本描述项的列表，每一项提供在播放轨中使用的译码或封装格式以及处理所述格式所需要的初始化数据。每一样本与播放轨的样本描述项中的一者相关联。

ISOBMFF能够通过各种机制指定样本特定元数据。样本表逻辑框(“stbl”)内的特定逻辑框已经标准化以响应普通需求。举例来说，同步样本逻辑框(“stss”)用以列举播放轨的随机存采样本。样本分组机制能够根据四字符分组类型将样本映射到共享指定为文件中的样本群组描述项的同一性质的样本群组中。已在ISOBMFF中指定若干分组类型。

一般来说，虚拟现实(VR)为虚拟存在于通过呈现经由浸入用户的移动而相关的自然及/或合成图像及声音所建立的非物理世界中，从而允许浸入用户与所述世界交互的能力。随着在呈现装置(例如但不限于头戴显示器(HMD))及VR视频(通常还被称作360度视频)创建方面取得的最新进展，可提供显著的体验质量。VR应用包含游戏、训练、教育、运动视频、线上购物、成人娱乐等。

典型的VR系统包含以下各者：

1)相机集合，其通常包含指向不同方向的多个个别相机且理想地共同覆盖围绕所述相机集合的所有视点。

2)图像拼接，其中通过多个个别相机拍摄的视频图片在时域中经同步并在空间域中拼接，以形成球面视频，但映射成矩形格式，例如等矩形(如世界地图)或立方体映射。

3)呈所映射矩形格式的视频可使用视频编码解码器加以编码/压缩，例如H.265/HEVC、H.264/AVC、目前开发中的压缩技术及/或即将出现的视频压缩技术/视频压缩标准。

4)经压缩的视频位流可以媒体格式经存储及/或封装，并经由有线或无线网络发射到接收器(可能只发射仅覆盖用户所感知的区域的子集)。

5)接收器接收可能以一种格式封装的视频位流或其部分，并将经解码视频信号或其部分发送到呈现装置。

6)呈现装置可例如为HMD，其可跟踪头部移动/定位及甚到眼睛移动瞬间，且呈现视频的对应部分，以为用户提供沉浸式体验。

全向媒体应用程序格式(OMAF)是通过MPEG开发以定义允许全向媒体应用程序的媒体应用程序格式，其聚焦于具有360°视频及相关联音频的VR应用程序。OMAF指定可用于将球面或360°视频转换成二维矩形视频的投影方法的列表。OMAF进一步指定使用ISO基本媒体文件格式(ISOBMFF)存储全向媒体及相关联元数据，以及使用HTTP动态自适应流式传输(DASH)对全向媒体进行封装、信令传输及流式传输的方式。OMAF进一步指定可用于压缩及播放全向媒体信号的视频及音频编码解码器以及媒体译码配置。OMAF经标准化为ISO/IEC 23000-20，且其被称作OMAF委员会草案(Committee Draft；CD)的最新草案规格可获自MPEG(SC29的工作小组11)。

虚拟现实应用中可提供检视区相关视频译码。OMAF委员会草案(CD)在条款A.3处包含针对基于检视区相关视频译码的全向视频流式传输的若干方法的描述。所述方法中的一些是基于HEVC图块，而所述方法中的一者是基于子图片位流的编码及解码。作为举例，检视区相关视频译码的信令传输可尤其涉及基于子图片位流的编码及解码的方法。

子图片位流译码方案是其中源视频内容的子图片序列在预处理期间(例如在编码之前)形成以使得每一子图片位流可独立于彼此加以编码的方法。举例来说，源视频内容在编码之前分离(例如拆分)成子图片序列。所得(即分离后)子图片序列随后经编码成各别子图片位流。可通过各种视频编码解码器(例如AVC或HEVC)提供单独且独立的编码。所属领域的一般技术人员将识别到，可利用其它视频编码技术(例如VP9)以及处于开发中的其它技术(例如VP10及AV1)。所属领域的一般技术人员还将显而易见的是，本公开的最新呈现方面及实例与子图片基本播放轨的创建、修改及/或指定有关。

如上文所提及，子图片位流译码方案(或方法)允许可彼此单独且独立地加以编码的与源视频内容相关联的子图片位流。根据本公开的方面，子图片基本播放轨在利用子图片位流方法时提供益处。

在子图片位流方法中，视频内容按以下方式经编码并存储于基于ISOBMFF的文件中。源视频在源视频内容经编码之前分裂成子图片序列。每一子图片序列涵盖(即包含或包括)完整源视频内容的空间区域的子集。每一子图片序列随后彼此独立地经编码为单一位流。此位流被称为子图片位流。可由同一子图片序列编码出若干不同位流，例如单一子图片序列可以不同位速率加以编码，从而得到多个不同的子图片位流。每一子图片位流经封装于文件中作为其自身各别播放轨。此播放轨被称为子图片播放轨。

对基于子图片的方法的当前改进及优化认识到对VR应用中的解码复杂度及发射带宽的优化的需求。

在子图片位流方法中，每一子图片位流封装于文件中作为其自身播放轨且由此可用于流式传输。在接收器侧，基于定向/检视区元数据来选择待流式传输的播放轨。客户端(例如目的地装置)通常接收涵盖整个全向内容的播放轨。针对当前检视区接收更优选质量或更高分辨率播放轨，所述更优选质量或更高分辨率是相比于覆盖其余当前非可见区域的质量或分辨率。使用单独的解码器执行个体解码每一播放轨。子图片有可能重叠，例如以提供防护频带功能性。

针对包含存储于多个子图片播放轨中的多个子图片位流的视频内容的存储及信令传输的现有设计具有多个问题。第一个问题为当前子图片位流方法中未提供子图片播放轨之间的关系的指示。此情形将使得文件剖析器计算出(即确定)子图片播放轨的哪一集合携载整个视频内容的一个完整表示变得困难。

另一问题为，不存在整个图片(即整个视频内容)的空间分辨率的指示。换句话说，需要检索并剖析所有子图片播放轨以计算出整个图片的大小，此操作是繁琐的，如在许多情况下仅需要这些播放轨的子集。

另一问题与ISOBMFF播放轨参考类型‘cdsc’有关。计时元数据播放轨可用于传信媒体播放轨的计时信息，并且经由播放轨参考类型‘cdsc’而与所述媒体播放轨关联。此媒体播放轨还被称作计时元数据播放轨的参考(媒体)播放轨。然而，媒体内容可表示于多个媒体播放轨中，例如视频内容携载于图块基本播放轨及多个图块播放轨中，或视频内容携载于多个子图片播放轨中。在(图块基本播放轨及多个图块播放轨的)前一情形中，直接选择图块基本播放轨作为计时元数据播放轨的参考媒体播放轨，且播放轨参考类型‘cdsc’的语义解释为“此播放轨描述由参考图块基本播放轨及所有相关联图块播放轨所表示的视频内容”。然而，在(根据子图片位流方法的多个子图片播放轨的)后一情形中，并不需要选择子图片播放轨中的任一者作为参考播放轨，因为此情形解释为“计时元数据播放轨含有仅关于视频内容的所述子图片部分的信息”。换句话说，计时元数据播放轨将含有仅关于单一子图片播放轨的信息，且因此不会提供关于构成整个视频内容的子图片播放轨集合的信息。

图1为说明包含编码装置104及解码装置112的系统100的实例的框图。编码装置104可为源装置的部分，且解码装置112可为接收装置的部分。源装置及/或接收装置可包含电子装置，例如移动或固定电话手机(例如，智能型手机、蜂窝式电话、移动台等等)、台式计算机、膝上型或笔记型计算机、平板计算机、机顶盒、电视、相机、显示装置、数字媒体播放器、视频游戏桌面、视频流式传输装置或任何其它合适的电子装置。在一些实例中，源装置及接收装置可包含用于无线通信的一或多个无线收发器。本文中所描述的译码技术适用于各种多媒体应用中的视频译码，所述多媒体应用包含流式传输视频发射(例如经由因特网或蜂窝式通信环境)、电视广播或发射、编码数字视频以供存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频或其它应用。在一些实例中，系统100可支持单向或双向视频发射以支持例如视频会议、视频流式传输、视频播放、视频广播、游戏及/或视频电话的应用。

图1说明实例视频编码及解码系统100，其可利用如本公开中所描述的视频译码技术及文件格式技术。如图1中所展示，可利用系统100视频源102及编码装置104来产生经编码视频数据，所述经编码视频数据将在稍后时间由包含视频目的地装置122及解码装置112的目的地模块解码。在图1的实例中，可与编码装置104一起包含于无线装置(未图示)中的视频源102以及可与解码装置112一起包含于无线装置(未图示)中的视频目的地装置存在于单独装置上。具体来说，视频源模块102为源模块的部分，且视频目的地模块122为目的地装置的部分。然而，应注意，源模块102及目的地模块122可在同一装置上或为同一装置的部分。作为举例，无线装置(未图示)可包含视频源102、编码装置104及发射器(未图示)。无线通信装置可任选地为蜂窝式电话，且一经编码视频位流可通过发射器发射且根据蜂窝式通信标准调制。同样地，无线装置(未图示)可包含视频目的地装置122、解码装置112及接收器(未图示)。无线通信装置可任选地为蜂窝式电话，且经编码视频位流可通过接收器接收且根据蜂窝式通信标准调制。

再次参看图1，视频源102及视频目的地装置122可包括广泛范围装置中的任一者或包含在广泛范围装置中的任一者中，包含台式计算机、笔记型(即膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能型”电话)、所谓的“智能型”平板、电视、相机、显示装置、数字媒体播放器、视频游戏桌面、视频流式传输装置、汽车/车辆、可穿戴设备等等。在一些情况下，视频源102及视频目的地装置122可经装备以用于无线通信。

视频目的地装置122可经由链路120接收待解码的经编码视频数据。链路120可包括能够将经编码视频数据从视频源102移动到视频目的地装置122的任何类型的媒体或装置。作为实例，链路120可包括使得视频源102能够实时地将经编码视频数据直接发射到视频目的地装置122的通信媒体。可根据通信标准(例如，无线通信协议)调制经编码视频数据，且将经编码视频数据发射到目的地装置122。通信媒体可包括任何无线或有线通信媒体，例如，射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于分组的网络(例如，局域网、广域网或例如因特网的全域网络)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从视频源102到视频目的地装置122的通信的任何其它装备。

通过使用视频译码标准或协议以产生经编码视频位流，编码装置104(或编码器)可用以编码视频数据，包含虚拟现实视频数据。视频译码标准包含ITU-T H.261；ISO/IECMPEG-1Visual；ITU-T H.262或ISO/IEC MPEG-2Visual；ITU-T H.263；ISO/IEC MPEG-4Visual；及ITU-T H.264(还称为ISO/IEC MPEG-4AVC)，包含其可伸缩视频译码扩展及多视图视频译码扩展(分别称为SVC及MVC)。ITU-T视频译码专家组(VCEG)及ISO/IEC移动图片专家组(MPEG)的视频译码联合协作小组(JCT-VC)已完成较近期的视频译码标准(高效率视频译码(HEVC))。HEVC的各种扩展致力于多层视频译码，且还正由JCT-VC开发，包含HEVC的多视图扩展(称作MV-HEVC)及HEVC的可伸缩扩展(称作SHVC)或任何其它合适的译码协议。

本文中所描述的实施方案描述使用HEVC标准或其扩展的实例。然而，本文中所描述的技术及系统还可适用于其它译码标准，例如AVC、MPEG、其扩展或已可用或尚不可用或尚未开发的其它合适的译码标准。因此，虽然可参考特定视频译码标准描述本文中所描述的技术及系统，但所属领域的一般技术人员将了解，描述不应解释为仅适用于所述特定标准。

视频源102可将视频数据提供到编码装置104。视频源102可为源装置的部分，或可为除源装置以外的装置的部分。视频源102可包含视频捕捉装置(例如，摄像机、相机电话、视频电话等等)、含有经存储视频的视频存档、提供视频数据的视频服务器或内容提供者、从视频服务器或内容提供者接收视频的视频馈入接口、用于产生计算机图形视频数据的计算机图形系统、这些源的组合或任何其它合适的视频源。视频源102的一个实例可包含因特网协议相机(IP相机)。IP相机为可用于监测、住家安全或其它合适应用的一种数字摄像机。不同于模拟闭路电视(CCTV)相机，IP相机可经由计算机网络及因特网发送及接收数据。

来自视频源102的视频数据可包含一或多个输入图片或帧。图片或帧为作为视频的部分的静态图像。编码装置104的编码器引擎106(或编码器)编码视频数据以产生经编码视频位流。在一些实例中，经编码视频位流(或“视频位流”或“位流”)为一系列的一或多个经译码视频序列。经译码视频序列(CVS)包含一系列存取单元(AU)，其始于在基础层中具有随机存取点图片且具有某些属性的AU，直到且不包含在基础层中具有随机存取点图片且具有某些属性的下一AU。举例来说，开始CVS的随机存取点图片的某些属性可包含等于1的RASL旗标(例如，NoRaslOutputFlag)。否则，随机存取点图片(具有等于0的RASL旗标)不会开始CVS。存取单元(AU)包含一或多个经译码图片及对应于共享相同输出时间的经译码图片的控制信息。图片的经译码图块在位流层级封装到被称为网络抽象层(NAL)单元的数据单元中。举例来说，HEVC视频位流可包含一或多个CVS，所述一或多个CVS包含NAL单元。两种类别的NAL单元存在于HEVC标准中，包含视频译码层(VCL)NAL单元及非VCL NAL单元。VCLNAL单元包含经译码图片数据的一个图块或图块片段(如下描述)，且非VCL NAL单元包含关于一或多个经译码图片的控制信息。

NAL单元可含有形成视频数据的经译码表示(例如，视频中的图片的经译码表示)的位序列(例如，经编码视频位流、位流的CVS或类似者)。编码器引擎106通过将每一图片分割成多个图块而产生图片的经译码表示。图块接着被分割成明度样本及色度样本的译码树型块(CTB)。明度样本的CTB及色度样本的一或多个CTB连同样本的语法被称为译码树型单元(CTU)。CTU为用于HEVC编码的基本处理单元。CTU可经分裂成具有不同大小的多个译码单元(CU)。CU含有被称为译码块(CB)的明度及色度样本阵列。

明度及色度CB可进一步被分裂成预测块(PB)。PB为使用用于帧间预测的相同运动参数的明度或色度分量的样本的块。明度PB及一或多个色度PB连同相关联语法形成预测单元(PU)。在位流中针对每一PU传信运动参数集合，且所述运动参数集合用于明度PB及一或多个色度PB的帧间预测。CB还可被分割成一或多个变换块(TB)。TB表示色彩分量的样本的正方形块，对所述正方形块应用同一二维变换以用于译码预测残余信号。变换单元(TU)表示明度及色度样本的TB以及对应语法元素。

CU的大小对应于译码节点的大小，且可为正方形形状。举例来说，CU的大小可为8×8样本、16×16样本、32×32样本、64×64样本或达到对应CTU的大小的任何其它适当大小。短语“N×N”在本文中用于指就竖直及水平尺寸来说视频块的像素尺寸(例如，8像素×8像素)。可按行及列来排列块中的像素。在一些实例中，块在水平方向上可具有与在竖直方向上不同数目个像素。与CU相关联的语法数据可描述例如将CU分割成一或多个PU。分割模式可在CU经帧内预测模式编码抑或经帧间预测模式编码之间有所不同。PU可经分割成非正方形形状。与CU相关联的语法数据还可描述(例如)根据CTU将CU分割成一或多个TU。TU可为正方形或非正方形形状。

根据HEVC标准，可使用变换单元(TU)来执行变换。TU可针对不同CU而变化。可基于给定CU内的PU的大小而对TU设定大小。TU可与PU大小相同或小于PU。在一些实例中，可使用被称为残余四分树(RQT)的四分树结构将对应于CU的残余样本再分成较小单元。RQT的叶节点可对应于TU。可变换与TU相关联的像素差值以产生变换系数。变换系数可随后由编码器引擎106量化。

一旦视频数据的图片被分割成CU，编码器引擎106便使用预测模式来预测每一PU。接着从原始视频数据中减去预测以得到残余(下文描述)。对于每一CU，可使用语法数据在位流内部传信预测模式。预测模式可包含帧内预测(或图片内预测)或帧间预测(或图片间预测)。使用帧内预测时，使用(例如)DC预测以发现PU的平均值、使用平坦预测以使平坦表面拟合于PU、使用方向预测以从相邻数据外插或使用任何其它合适类型的预测，从同一图片中的相邻图像数据预测每一PU。使用帧间预测时，使用运动补偿预测从一或多个参考图片(按输出次序在当前图片之前或之后)中的图像数据预测每一PU。可(例如)在CU层级决定是否使用图片间预测抑或图片内预测来译码图片区域。在一些实例中，图片的一或多个图块经指派有图块类型。图块类型包含I图块、P图块及B图块。I图块(帧内，可独立地解码)为仅仅通过帧内预测译码的图片的图块，且因此可独立地解码，这是由于I图块仅仅需要帧内的数据以预测图块的任一块。P图块(单向预测帧)为可通过帧内预测及通过单向帧间预测译码的图片的图块。P图块内的每一块是通过帧内预测或帧间预测而译码。当应用帧间预测时，块仅仅通过一个参考图片加以预测，且因此参考样本仅仅来自一个帧的一个参考区。B图块(双向预测性帧)为可通过帧内预测及帧间预测译码的图片的图块。B图块的块可从两个参考图片进行双向预测，其中每一图片贡献一个参考区，且两个参考区的样本集合经加权(例如具有相同权重)以产生双向预测块的预测信号。如上文所解释，一个图片的图块被独立译码。在一些状况下，图片可仅作为一个图块而被译码。

PU可包含与预测过程有关的数据。举例来说，当使用帧内预测编码PU时，PU可包含描述用于PU的帧内预测模式的数据。作为另一实例，当使用帧间预测来编码PU时，PU可包含定义用于PU的运动向量的数据。定义PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的竖直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片，及/或运动向量的参考图片列表(例如，列表0、列表1或列表C)。

编码装置104接着可执行变换及量化。举例来说，在预测之后，编码器引擎106可计算对应于PU的残余值。残余值可包括像素差值。在预测执行之后可能剩余的任何残余数据是使用块变换进行变换，所述块变换可基于离散余弦变换、离散正弦变换、整数变换、小波变换或其它合适的变换函数。在一些情况下，一或多种块变换(例如大小32×32、16×16、8×8、4×4等等)可应用于每一CU中的残余数据。在一些实例中，TU可用于由编码器引擎106实施的变换及量化过程。具有一或多个PU的给定CU还可包含一或多个TU。如下文进一步详细描述，可使用块变换将残余值变换成变换系数，且接着可使用TU来量化及扫描残余值以产生用于熵译码的串行化变换系数。

在一些实例中，在使用CU的PU进行帧内预测性或帧间预测性译码之后，编码器引擎106可计算CU的TU的残余数据。PU可包括空间域(或像素域)中的像素数据。在应用块变换之后，TU可包括变换域中的系数。如先前所提及，残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差值。编码器引擎106可形成包含CU的残余数据的TU，且接着可变换TU以产生CU的变换系数。

编码器引擎106可执行变换系数的量化。量化通过量化变换系数以减少用以表示系数的数据的量而提供进一步压缩。举例来说，量化可减少与系数中的一些或所有相关联的位深度。在一个实例中，具有n位值的系数可在量化期间经降值舍位为m位值，其中n大于m。

在执行量化后，经译码视频位流包含经量化变换系数、预测信息(例如预测模式、运动向量等等)、分割信息及任何其它合适的数据，例如其它语法数据。接着可通过编码器引擎106对经译码视频位流的不同元素进行熵编码。在一些实例中，编码器引擎106可利用预定义扫描次序扫描经量化变换系数以产生可经熵编码的串行化向量。在一些实例中，编码器引擎106可执行自适应性扫描。在扫描经量化变换系数以形成向量(例如，一维向量)之后，编码器引擎106可熵编码向量。举例来说，编码器引擎106可使用上下文自适应性可变长度译码、上下文自适应性二进制算术译码、基于语法的上下文自适应性二进制算术译码、概率区间分割熵译码或另一合适的熵编码技术。

编码装置104的输出端110可经由通信链路120将组成经编码视频位流数据的NAL单元发送到接收装置的解码装置112。解码装置112的输入端114可接收NAL单元。通信链路120可包含由无线网络、有线网络或有线网络与无线网络的组合提供的通道。无线网络可包含任何无线接口或无线接口的组合，且可包含任何适合的无线网络(例如，因特网或其它广域网、基于分组的网络、WiFiTM、射频(RF)、UWB、WiFi-Direct、蜂窝式、长期演进(LTE)、WiMaxTM等等)。有线网络可包含任何有线接口(例如，光纤、以太网、电力线以太网、经由同轴电缆的以太网、数字信号线(DSL)等等)。可使用各种设备来实施有线及/或无线网络，所述设备例如基站、路由器、存取点、桥接器、网关、交换器等等。可根据通信标准(例如，无线通信协议)调制经编码视频位流数据，且将其发射到接收装置。

在一些实例中，编码装置104可将经编码视频位流数据存储于存储装置108中。输出端110可从编码器引擎106或从存储装置108检索经编码视频位流数据。存储装置108可包含多种分散式或本地存取的数据存储媒体中的任一者。举例来说，存储装置108可包含硬盘驱动器、存储光盘、闪速存储器、易失性或非易失性易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。

解码装置112的输入端114接收经编码视频位流数据，且可将视频位流数据提供到解码器引擎116，或提供到存储装置118以供稍后由解码器引擎116使用。解码器引擎116可通过熵解码(例如使用熵解码器)以及检索组成经编码视频数据的一或多个经译码视频序列的元素来解码经编码视频位流。解码器引擎116可接着重新按比例调整经编码视频位流数据且对经编码视频位流数据执行反变换。残余数据接着经传递到解码器引擎116的预测级。解码器引擎116接着预测像素的块(例如，PU)。在一些实例中，预测经添加到反变换的输出(残余数据)。

解码装置112可将经解码视频输出到视频目的地装置122，视频目的地装置可包含用于将经解码视频数据显示给内容的消费者的显示器或其它输出装置。在一些实例中，视频目的地装置122可为包含解码装置112的接收装置的部分。在一些实例中，视频目的地装置122可为不同于接收装置的单独装置的部分。

补充增强信息(SEI)消息可包含于视频位流中。举例来说，SEI消息可用于携载并非为由解码装置112解码位流所必需的信息(例如，元数据)。此信息用于改进经解码输出的显示或处理(例如，此类信息可由解码器侧物理使用以改进内容的可视性)。SEI消息可封装到非VCL NAL中的视频位流中。

在一些实例中，视频编码装置104及/或视频解码装置112可分别与音频编码装置及音频解码装置集成。视频编码装置104及/或视频解码装置112还可包含实施上文所描述的译码技术所必要的其它硬件或软件，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。视频编码装置104及视频解码装置112可集成为各别装置中的组合式编码器/解码器(编码解码器)的部分。

HEVC标准的扩展包含多视图视频译码扩展(被称作MV-HEVC)及可伸缩视频译码扩展(被称作SHVC)。MV-HEVC及SHVC扩展共享分层译码的概念，其中不同层包含于经编码视频位流中。经译码视频序列中的每一层是由唯一层识别符(ID)定址。层ID可存在于NAL单元的标头中以识别NAL单元所相关联的层。在MV-HEVC中，不同层可表示视频位流中的同一场景的不同视图。在SHVC中，提供以不同空间分辨率(或图片分辨率)或不同重建保真度表示视频位流的不同可伸缩层。可伸缩层可包含基层(层ID＝0)及一或多个增强层(层ID＝1、2、…n)。基层可符合HEVC的第一版本的配置文件，且表示位流中的最低可用层。与基层相比，增强层具有增加的空间分辨率、时间分辨率或帧速率及/或重建保真度(或质量)。增强层经阶层式组织，且可(或可不)取决于较低层。在一些实例中，可使用单一标准编码解码器来译码不同层(例如，使用HEVC、SHVC或其它译码标准来编码所有层)。在一些实例中，可使用多标准编码解码器来译码不同层。举例来说，可使用AVC来译码基层，同时可使用HEVC标准的SHVC及/或MV-HEVC扩展来译码一或多个增强层。一般来说，层包含VCL NAL单元的集合及非VCL NAL单元的对应集合。NAL单元经指派有特定层ID值。在层可取决于较低层的意义上，层可为阶层式的。

如先前所描述，HEVC位流包含一组NAL单元，包含VCL NAL单元及非VCL NAL单元。非VCL NAL单元可含有具有与经编码视频位流相关的高层级信息的参数集以及其它信息。举例来说，参数集可包含视频参数集(VPS)、序列参数集(SPS)及图片参数集(PPS)。参数集的目标的实例包含位速率效率、差错恢复(error resiliency)及提供系统层接口。图块为视频帧中与所述同一帧中的任何其它区分离编码的空间不同区。每一图块参考单一作用中PPS、SPS及VPS以存取解码装置112可用于解码图块的信息。可针对每一参数集译码识别符(ID)，包含VPS ID、SPS ID及PPS ID。SPS包含SPS ID及VPS ID。PPS包含PPS ID及SPS ID。每一图块标头包含PPS ID。使用ID，可识别给定图块的作用中参数集。

VCL NAL单元包含形成经译码视频位流的经译码图片数据。各种类型的VCL NAL单元经定义于HEVC标准中。在单层位流中，如第一HEVC标准中所定义，含于AU中的VCL NAL单元具有相同NAL单元类型值，其中NAL单元类型值定义AU的类型及AU内的经译码图片的类型。举例来说，特定AU的VCL NAL单元可包含瞬时解码再新(IDR)NAL单元(值19)，使得AU为IDR AU且AU的经译码图片为IDR图片。VCL NAL单元的给定类型涉及含于VCL NAL单元(例如，VCL NAL单元中的图片的图块或图块片段)中的图片或其部分。三类图片经定义于HEVC标准中，包含前置图片、后置图片及帧内随机存取(IRAP)图片(还称作“随机存取图片”)。在多层位流中，AU内的图片的VCL NAL单元具有相同NAL单元类型值及相同类型的经译码图片。举例来说，含有类型IDR的VCL NAL单元的图片被称为AU中的IDR图片。在另一实例中，当AU含有为基层(层ID等于0)处的IRAP图片的图片时，AU为IRAP AU。

如上文所论述编码的视频位流可写入或封装于一或多个文件中，以便将位流从编码装置104传递到解码装置112。举例来说，输出端110可包含文件写入引擎，其经配置以产生含有位流的一或多个文件。输出端110可经由通信链路120将一或多个文件发射到解码器装置112。替代地或另外，一或多个文件可存储于存储媒体(例如磁带、磁碟或硬盘驱动器或某一其它媒体)上以供稍后发射到解码装置112。

解码器装置112可例如在输入端114中包含文件剖析引擎。文件剖析引擎可读取经由通信链路120或从存储媒体接收的文件。文件剖析引擎可进一步从文件提采样本，并重建位流以供由解码器引擎116解码。在一些状况下，经重建位流可与由编码器引擎106产生的位流相同。在一些状况下，编码器引擎106可已产生具有用于解码位流的若干可能选项的位流，在所述状况下，经重建位流可包含所有可能选项中的仅一者或少于所有可能选项。

如上文所论述经编码的视频位流可使用ISOBMFF、从ISOBMFF导出的文件格式、某一其它文件格式及/或包含ISOBMFF的文件格式的组合来写入或封装到一或多个文件中。一或多个文件可使用视频播放器装置播放，可经发射且接着经显示，及/或被存储。

图2说明根据ISOBMFF格式化的含有用于视频呈现的数据及元数据的ISO基本媒体文件200的实例。ISOBMFF经设计成含有呈灵活且可扩展格式的计时媒体信息，所述格式有助于媒体的互换、管理、编辑及呈现。媒体的呈现对于含有呈现的系统可为“本地的”，或呈现可能是经由网络或其它流递送机构。

如ISOBMFF规范中所定义，“呈现”为通常通过已由视频捕捉装置依序捕捉而相关或由于某一其它原因而相关的图片序列。本文中，呈现还可被称作电影或视频呈现。呈现可包含音频。单一呈现可含于一或多个文件中，其中一个文件含有用于整个呈现的元数据。元数据包含信息，例如时序及成框数据、描述符、指标、参数，及描述呈现的其它信息。元数据自身并不包含视频及/或音频数据。除含有元数据的文件以外的文件无需根据ISOBMFF而格式化，且仅仅需要经格式化以使得这些文件可由元数据参考。

ISO基本媒体文件的文件结构为面向对象的结构，且文件中的个别对象的结构可直接从对象的类型来推断。ISOBMFF规范将ISO基本媒体文件中的对象称作“逻辑框”。ISO基本媒体文件经构建为可含有其它逻辑框的一系列逻辑框。逻辑框一般包含提供逻辑框的大小及类型的标头。大小描述逻辑框的整个大小，包含标头、字段及含于逻辑框内的所有逻辑框。播放器装置不能识别的类型的逻辑框通常被忽略并跳过。

图2说明，在文件的顶部层级，ISO基本媒体文件200可包含文件类型逻辑框210、电影逻辑框220及一或多个电影片段逻辑框230a…230n。在包含在此层级但在此实例中并未表示的其它逻辑框包含从由空闲逻辑框、元数据逻辑框及媒体数据逻辑框以及其它。

ISO基本媒体文件可包含通过逻辑框类型“ftyp”识别的文件类型逻辑框210。文件类型逻辑框210识别最适合于剖析文件的ISOBMFF规范。“最”在此情况下意味着，ISO基本媒体文件200可能已根据特定ISOBMFF规范格式化，但很可能与规范的其它反复(iteration)兼容。此最合适规范被称作主流品牌。播放器装置可使用主流品牌来确定装置是否能够解码并显示文件的内容。文件类型逻辑框210还可包含版本号，所述版本号可用以指示ISOBMFF规范的版本。文件类型逻辑框210还可包含兼容品牌的列表，所述列表包含文件兼容的其它品牌的列表。ISO基本媒体文件可与多于一个主流品牌兼容。

当ISO基本媒体文件200包含文件类型逻辑框210时，仅存在一个文件类型逻辑框。ISO基本媒体文件200可省略文件类型逻辑框210以便与早期播放器装置兼容。当ISO基本媒体文件200不包含文件类型逻辑框210时，播放器装置可假定默认主流品牌(例如“mp41”)、次要版本(例如，“0”)及兼容品牌(例如，“mp41”)。文件类型逻辑框210通常尽可能早地放置于ISO基本媒体文件200中。

ISO基本媒体文件可进一步包含电影逻辑框220，其含有用于呈现的元数据。电影逻辑框220是通过逻辑框类型“moov”识别。ISO/IEC 14496-12规定，呈现可仅包含一个电影逻辑框220，无论所述呈现含于一个文件中抑或多个文件中。通常，电影逻辑框220靠近ISO基本媒体文件的开始。电影逻辑框220包含电影标头逻辑框222，且可包含一或多个播放轨逻辑框224以及其它逻辑框。

通过逻辑框类型“mvhd”识别的电影标头逻辑框222可包含与媒体无关且与作为整体的呈现相关的信息。举例来说，电影标头逻辑框222可包含信息，例如产生时间、修改时间、时间标度及/或针对呈现的持续时间以及其它。电影标头逻辑框222还可包含识别呈现中的下一播放轨的识别符。举例来说，在所说明的实例中，识别符可指向电影逻辑框220所含有的播放轨逻辑框224。

通过逻辑框类型“trak”识别的播放轨逻辑框224可含有用于呈现的播放轨的信息。呈现可包含一或多个播放轨，其中每一播放轨独立于呈现中的其它播放轨。每一播放轨可包含对于播放轨中的内容特定的时间及空间信息，且每一播放轨可与媒体逻辑框相关联。播放轨中的数据可为媒体数据，在此状况下，播放轨为媒体播放轨；或数据可为用于流式传输协议的分组化信息，在此状况下，播放轨为提示播放轨。举例来说，媒体数据包含视频及音频数据。在所说明的实例中，实例播放轨逻辑框224包含播放轨标头逻辑框224a及媒体逻辑框224b。播放轨逻辑框可包含其它逻辑框，例如播放轨参考逻辑框、播放轨群组逻辑框、编辑逻辑框、用户数据逻辑框、后设逻辑框及其它逻辑框。

通过逻辑框类型“tkhd”识别的播放轨标头逻辑框224a可指定含于播放轨逻辑框224中的播放轨的特性。举例来说，播放轨标头逻辑框224a可包含播放轨的产生时间、修改时间、持续时间、播放轨识别符、层识别符、群组识别符、音量、宽度及/或高度，以及其它。对于媒体播放轨，播放轨标头逻辑框224a可进一步识别播放轨是否经启用，播放轨是否应作为呈现的部分而播放，或播放轨是否可用以预览呈现，以及其它。播放轨的呈现通常假定为处于呈现的开始处。播放轨逻辑框224可包含此处未说明的编辑列表逻辑框，所述编辑列表逻辑框可包含显式时刻表图。时刻表图可指定播放轨的偏移时间以及其它，其中偏移指示在呈现开始之后播放轨的开始时间。

在所说明的实例中，播放轨逻辑框224还包含由逻辑框类型“mdia”识别的媒体逻辑框224b。媒体逻辑框224b可含有关于播放轨中的媒体数据的对象及信息。举例来说，媒体逻辑框224b可含有处理程序参考逻辑框，其可识别播放轨的媒体类型及藉以呈现播放轨中的媒体的过程。作为另一实例，媒体逻辑框224b可含有媒体信息逻辑框，其可指定播放轨中媒体的特性。媒体信息逻辑框可进一步包含样本表，其中每一样本描述一块媒体数据(例如视频或音频数据)，包含(例如)样本的数据的位置。样本的数据存储于下文进一步论述的媒体数据逻辑框中。如同大部分其它逻辑框，媒体逻辑框224b还可包含媒体标头逻辑框。

在所说明的实例中，实例ISO基本媒体文件200还包含呈现的多个片段230a、230b、230c、230n。片段230a、230b、203c、230n并非ISOBMFF逻辑框，而是描述电影片段逻辑框232及所述电影片段逻辑框232所参考的媒体数据逻辑框238。电影片段逻辑框232及媒体数据逻辑框238是顶层逻辑框，但此处分组在一起以指示电影片段逻辑框232与媒体数据逻辑框238之间的关系。

通过逻辑框类型“moof”识别的电影片段逻辑框232可通过包含原本将存储于电影逻辑框220中的额外信息而扩展呈现。使用电影片段逻辑框232，呈现可经递增地建置。电影片段逻辑框232可包含电影片段标头逻辑框234及播放轨片段逻辑框236以及此处未说明的其它逻辑框。

通过逻辑框类型“mfhd”识别的电影片段标头逻辑框234可包含序号。播放器装置可使用序号来验证片段230a包含数据的下一片段以供呈现。在一些状况下，文件的内容或用于呈现的文件可无序地被提供到播放器装置。举例来说，网络包可以与最初发射包的次序不同的次序频繁地到达。在这些状况下，序号可辅助播放器装置确定片段的正确次序。

电影片段逻辑框232还可包含通过逻辑框类型“traf”识别的一或多个播放轨片段逻辑框236。电影片段逻辑框232可包含一组播放轨片段，每播放轨零个或多个。播放轨片段可含有零或多个播放轨行程，其中的每一者描述播放轨的样本的连续行程。除添加样本到播放轨外，播放轨片段可用以将空闲时间添加到播放轨。

通过逻辑框类型“mdat”识别的媒体数据逻辑框238含有媒体数据。在视频播放轨中，媒体数据逻辑框238将含有视频帧。媒体数据逻辑框可替代地或另外包含音频数据。呈现可包含含于一或多个个别文件中的零个或大于零个媒体数据逻辑框。媒体数据通过元数据描述。在所说明的实例中，媒体数据逻辑框238中的媒体数据可通过包含于播放轨片段逻辑框236中的元数据来描述。在其它实例中，媒体数据逻辑框中的媒体数据可通过电影逻辑框220中的元数据来描述。元数据可通过文件200内的绝对偏移参考特定媒体数据，以使得媒体数据逻辑框238内的媒体数据标头及/或自由空间可被跳过。

ISO基本媒体文件200中的其它片段230b、230c、230n可含有类似于针对第一片段230a说明的那些的逻辑框，及/或可含有其它逻辑框。

除支持媒体的本地播放外，ISOBMFF包含对经由网络流式传输媒体数据的支持。包含一个电影呈现的一或多个文件可包含称为提示播放轨的额外播放轨，其含有可在形成并以包形式发射所述一或多个文件时辅助流式传输服务器的指令。举例来说，这些指令可包含用于服务器以供发送的数据(例如标头信息)或对媒体数据的片段的参考。文件可包含用于不同流式传输协议的单独提示播放轨。提示播放轨还可在不需要重新格式化文件的情况下添加到文件。

用于对媒体数据进行流式传输的一种方法为经由超文本传送协议(HTTP)或DASH(定义于ISO/IEC 23009-1:2014)的动态自适应流式传输。被称为MPEG-DASH的DASH为启用媒体内容使用常规HTTP网页服务器的高质量流式传输的自适应位速率流式传输技术。DASH通过将媒体内容分成一系列基于HTTP的小文件片段来操作，其中每一片段含有短时间间隔的内容。使用DASH，服务器可以不同位速率提供媒体内容。正播放媒体的客户端装置可在下载下一片段时从替代性位速率做出选择，且因此适应于改变网络条件。DASH使用因特网的HTTP网页服务器基础架构来经由全球信息网递送内容。DASH独立于用以编码并解码媒体内容的编码解码器，且因此与例如H.264及HEVC的编码解码器以及其它装置一起操作。

虽然ISOBMFF灵活且可扩展，并且广泛用于存储及发射各种类型的媒体，但其不包含指示单独经译码且独立的子图片播放轨之间关系的机制。缺少此机制将使得文件剖析器计算出视频播放轨的哪一集合携载整个视频内容的一个表示变得困难。

ISOBMFF在利用单独经译码且独立的子图片播放轨时还未提供整个图片的空间分辨率的指示。缺少此指示意味着需要检索并剖析所有子图片播放轨以计算整个图片的大小，此操作是繁琐的，在许多情况下仅需要这些播放轨的子集。

ISOBMFF在利用单独经译码且独立的子图片播放轨时具有与播放轨参考类型‘cdsc’有关的问题。计时元数据播放轨可用于传信媒体播放轨的计时信息，并且经由播放轨参考类型‘cdsc’而与所述媒体播放轨关联。此媒体播放轨还被称作计时元数据播放轨的参考(媒体)播放轨。然而，媒体内容可表示于多个媒体播放轨中，例如视频内容携载于图块基本播放轨及多个图块播放轨中，或视频内容携载于多个子图片播放轨中。在(图块基本播放轨及多个图块播放轨的)前一情形中，直接选择图块基本播放轨作为计时元数据播放轨的参考媒体播放轨，且播放轨参考类型‘cdsc’的语义解释为“此播放轨描述由参考图块基本播放轨及所有相关联图块播放轨所表示的视频内容”。然而，在(多个子图片播放轨的)后一情形中，并不需要选择子图片播放轨中的任一者作为参考播放轨，因为此情形解释为“计时元数据播放轨含有仅关于视频内容的所述子图片部分的信息”。

在各种实施方案中，ISOBMFF及/或从ISOBMFF导出的文件格式可经修改及/或扩展以解决上文通过实例阐述的问题以及下文阐述的实例。下文阐述的实例及实施例可尤其具有关于控制及处理虚拟现实内容的适用性。

子图片基本播放轨为使用处理程序类型‘vide’的视频媒体播放轨，且可用于记录(即提供/包含)视频内容中对于视频内容的所有子图片播放轨来说共同的一些“全域”信息(即，适用于、关联于或描述多个子图片播放轨的信息)。子图片基本播放轨不含有经译码视频数据单元。举例来说，在基于NAL单元的视频(例如AVC及HEVC)的上下文中，子图片基本播放轨不含有任何VCL NAL单元。ISOBMFF的样本描述逻辑框(“stsd”)内的特定样本项类型(例如‘spbt’)是用于(例如，用以指示)子图片基本播放轨。

此全域信息的一个实例可为视频内容的整个图片的空间分辨率，以及子图片中的每一者相对于整个图片的各别位置及各别大小，其中每一子图片通过含有给定子图片所对应的子图片位流的播放轨识别符(ID)识别。这些参数可含于子图片基本播放轨的样本项中。具体地说，此实例可应用于VR应用以及非VR应用。

此全域信息的另一实例可为全域全向媒体特定信息，例如与如OMAF CD中所指定类似的投影、分区封装、定向及/或覆盖度(coverage)。全域全向媒体特定信息还可在子图片基本播放轨的样本项中进行传信，且可或可以不在子图片播放轨内传信，所述子图片播放轨优选地与子图片基本播放轨一样还使用受限制方案样本项类型。

图3说明用以指定视频媒体播放轨为子图片基本播放轨的ISO基本媒体文件300。文件类型逻辑框310可任选地用于指示文件300包含虚拟现实内容。举例来说，文件类型逻辑框310还可用以指定品牌值，所述品牌值指示文件与虚拟现实品牌兼容。在各种实施方案中，文件类型逻辑框310中列出的兼容品牌还可用以提供可选品牌指示符，其可用以提供虚拟现实相关参数。举例来说，一个兼容品牌值可指示虚拟现实内容为2维(2-D)的，而另一兼容品牌值可指示虚拟现实内容为3维(3-D)的。作为另一实例，兼容品牌值可用以指示映射类型；即，虚拟现实视频的球面表示已被映射成等矩形、立方体或角锥形格式，抑或某一其它格式以供存储于文件300中。在各种实施方案中，例如视频的维度及/或映射的信息可替代地或另外使用文件类型逻辑框310中的可选字段来指示。

电影逻辑框320可包含一电影标头逻辑框322及任选地选用的一或多个播放轨逻辑框324。电影标头逻辑框322可任选地用以指示由电影逻辑框320描述的电影或呈现包含虚拟现实内容。电影逻辑框320可包含描述作为整体的呈现的信息。播放轨逻辑框324可包含针对呈现中的一播放轨的信息。播放轨逻辑框324可包含播放轨标头逻辑框324a及零个或大于零个媒体数据逻辑框324b。

文件300可包含文件类型逻辑框310，其可指定ISOBMFF的品牌或特定反复或ISOBMFF的文件300与的兼容的导出。文件300还可包含电影逻辑框320，其可含有用于呈现的元数据。文件300可任选地还包含一或多个片段330a、330b、330c、330n，如上文所论述。

电影逻辑框320可包含电影标头逻辑框322及一或多个播放轨逻辑框324，以及此处未说明的其它逻辑框。电影标头逻辑框322可包含描述作为整体的呈现的信息。播放轨逻辑框324可包含针对呈现中的一播放轨的信息。播放轨逻辑框324可包含播放轨标头逻辑框324a及零个或大于零个媒体数据逻辑框324b。

媒体数据逻辑框324b可包含处理程序逻辑框342c以及其它逻辑框。还可被称作处理程序参考逻辑框的处理程序逻辑框342c可指示播放轨的媒体类型。播放轨的媒体类型定义播放轨中的媒体数据借以呈现的程序。媒体类型的实例包含视频及音频以及其它。媒体呈现所用的方式可包含针对媒体的格式。举例来说，播放器装置用于传递播放轨中的视频数据的格式(例如纵横比、分辨率、帧速率等)可存储于视频播放轨中，且通过处理程序逻辑框342c的视频处理程序版本识别。在一些状况下，文件300可包含针对任何类型的元数据流式传输的通用处理程序。在这些状况下，视频内容的特定格式可通过描述内容的样本项来识别。

在一些情况下，媒体数据逻辑框324b可包含处理程序逻辑框342c。处理程序逻辑框324c可用于对播放轨的内容包含视频处理程序类型‘vide’进行信令传输。处理程序类型‘vide’可用于记录视频内容中对所有子图片播放轨来说共同的一些全域信息。子图片基本播放轨不含有经译码视频数据单元。举例来说，在基于NAL单元的视频(例如AVC及HEVC)的上下文中，子图片基本播放轨不含有任何VCL NAL单元。

在各种实施方案中，处理程序逻辑框342c可用以指示，通过媒体数据逻辑框324b参考的媒体内容包含虚拟现实内容。举例来说，处理程序逻辑框342c可包含播放轨中含有的视频内容为虚拟现实视频的可选指示符(例如，呈保留位或新变量形式)。并不经配置以读取可选指示符的视频播放器可忽略可选指示符。

在一些实施方案中，视频处理程序逻辑框可任选地还包含描述虚拟现实内容的参数，例如虚拟现实视频为2-D抑或3-D，虚拟现实视频为预拼接抑或后拼接，及/或虚拟现实视频的映射。在各种实施方案中，可在各种其它逻辑框中指示与可在播放轨逻辑框324中找到的虚拟现实内容相关的参数。举例来说，可在播放轨标头逻辑框324a中传信所述参数。替代地或另外，可在媒体标头逻辑框(由逻辑框类型“mdhd”识别)中及/或在视频媒体标头逻辑框(由逻辑框类型“vmhd”识别)中传信所述参数，前述各者此处并未予以说明。替代地或另外，参数可指示于样本项中及/或指示于可放置在播放轨逻辑框324的顶层处的新定义逻辑框中。

图4说明可包含在ISO基本媒体文件中且可包含用于子图片基本播放轨的特定样本项类型(例如‘spbt’)的媒体逻辑框440的实例。如上文所论述，媒体逻辑框可包含于播放轨逻辑框中，且可含有描述播放轨中的媒体数据的对象及信息。在所说明的实例中，媒体逻辑框440包含媒体信息逻辑框442。媒体逻辑框440还可包含此处未说明的其它逻辑框。

媒体信息逻辑框442可含有描述关于播放轨中的媒体的特性信息的对象。举例来说，媒体信息逻辑框442可包含描述播放轨中的媒体信息的位置的数据信息逻辑框。作为另一实例，当播放轨包含视频数据时，媒体信息逻辑框442可包含视频媒体标头。视频媒体标头可含有独立于视频媒体的译码的一般呈现信息。当播放轨包含音频数据时，媒体信息逻辑框442还可包含声音媒体标头。

媒体信息逻辑框442还可包含样本表逻辑框444，如所说明实例中所提供。通过逻辑框类型“stbl”识别的样本表逻辑框444可提供播放轨中的媒体样本的位置(例如就文件来说的位置)以及样本的时间信息。使用通过样本表逻辑框444提供的信息，播放器装置可以正确时间次序定位样本，确定样本的类型，及/或确定大小、容器及容器内的样本的偏移以及其它。

样本表逻辑框444可包含由逻辑框类型“stsd”识别的样本描述逻辑框446。样本描述逻辑框446可提供关于(例如)用于样本的译码类型的详细信息，及针对所述译码类型需要的任何初始化信息。存储于样本描述逻辑框中的信息可特定针对于包含样本的播放轨的类型。举例来说，在播放轨为视频播放轨时，可针对样本描述使用一种格式，且在播放轨为提示播放轨时，可使用不同格式。作为另一实例，针对样本描述的格式还可取决于提示播放轨的格式而发生变化。

样本描述逻辑框446可包含一或多个样本项逻辑框448a、448b、448c。样本项类型为摘要类别，且因此通常样本描述逻辑框包含特定样本项逻辑框，例如用于视频数据的视觉样本项或用于音频样本的音频样本项以及其它实例。样本项逻辑框可存储针对特定样本的参数。举例来说，对于视频样本来说，样本项逻辑框可包含视频样本的宽度、高度、水平分辨率、竖直分辨率、帧计数及/或深度以及其它。作为另一实例，对于音频样本来说，样本项可包含通道计数、通道布局及/或采样速率以及其它。

图5说明指示子图片基本播放轨可经选择作为计时元数据播放轨的参考媒体播放轨的ISO基本媒体文件500的实例。播放轨参考类型‘cdsc’的语义解释为“此播放轨描述由参考子图片基本播放轨及所有相关联子图片播放轨所表示的视频内容”。文件500可包含文件类型逻辑框510，其可指定ISOBMFF的品牌或特定反复或ISOBMFF的文件500与的兼容的导出。文件500还可包含电影逻辑框520，其可含有用于呈现的元数据。文件500可任选地还包含一或多个片段530a、530b、530c、530n，如上文所论述。

电影逻辑框520可包含电影标头逻辑框522及一或多个播放轨逻辑框524，以及此处未说明的其它逻辑框。电影标头逻辑框522可包含描述作为整体的呈现的信息。播放轨逻辑框524可包含针对呈现中的播放轨的信息。播放轨逻辑框524可包含播放轨标头逻辑框524a及零个或大于零个媒体数据逻辑框524b。

如上文所论述，在一些情况下，播放轨参考逻辑框524b可包含内容描述参考‘cdsc’524c，其解释为“此播放轨描述由参考子图片基本播放轨及所有相关联子图片播放轨表示的视频内容”。此情形解决了对包含存储于多个子图片播放轨中的多个子图片位流的视频内容进行存储及信令传输的问题。计时元数据播放轨可用于传信媒体播放轨的计时信息，并且经由播放轨参考类型‘cdsc’而与所述媒体播放轨关联。此媒体播放轨还被称作计时元数据播放轨的参考(媒体)播放轨。然而，媒体内容可表示于多个媒体播放轨中，例如视频内容携载于图块基本播放轨及多个图块播放轨中，或视频内容携载于多个子图片播放轨中。在(图块基本播放轨及多个图块播放轨的)基于HEVC图块的情形中，直接选择图块基本播放轨作为计时元数据播放轨的参考媒体播放轨，且播放轨参考类型‘cdsc’的语义解释为“此播放轨描述由参考图块基本播放轨及所有相关联图块播放轨所表示的视频内容”。然而，在多个单独经译码且独立的子图片播放轨的情形中，并不需要选择子图片播放轨中的任一者作为参考播放轨，因为此情形意味着计时元数据播放轨含有仅关于视频内容的所述子图片部分的信息。

图6说明其中与子图片基本播放轨机制一起使用的ISO基本媒体文件600能够对所有子图片播放轨进行分组的实例，所述子图片播放轨各自具有指代子图片基本播放轨的特定类型(例如‘spbs’)的播放轨参考。文件600可包含文件类型逻辑框610，其可指定ISOBMFF的品牌或特定反复或ISOBMFF的文件600与的兼容的导出。文件600还可包含电影逻辑框620，其可含有用于呈现的元数据。文件600可任选地还包含一或多个片段630a、630b、630c、630n，如上文所论述。

在图6的实例中，文件类型逻辑框610可用于基于子图片的方法中，其中视频内容按以下方式经编码且存储在基于ISOBMFF的文件中。源视频在编码前经分裂成子图片序列。每一子图片序列涵盖整个视频内容的空间区域的子集。每一子图片序列随后彼此独立地经编码为单一位流。此位流被称为子图片位流。可由同一子图片序列编码出若干位流，例如用于不同位速率。每一子图片位流经封装于文件中作为其自身播放轨。此播放轨被称为子图片播放轨。类似于基于HEVC图块的检视区相关视频译码方案，此基于子图片的方法还可用于VR应用中的解码复杂度及发射带宽的优化。

图7说明其中子图片基本播放轨可含有指向所有相关联子图片播放轨的新特定类型(例如‘sptk’)的播放轨参考的ISO基本媒体文件700的实例。此播放轨参考可指示子图片播放轨之间的关系。文件700可包含文件类型逻辑框710，其可指定ISOBMFF的品牌或特定反复或ISOBMFF的文件700与的兼容的导出。文件700还可包含电影逻辑框720，其可含有用于呈现的元数据。文件700可任选地还包含一或多个片段730a、730b、730c、730n，如上文所论述。

电影逻辑框720可包含电影标头逻辑框722及一或多个播放轨逻辑框724，以及此处未说明的其它逻辑框。电影标头逻辑框722可包含描述作为整体的呈现的信息。播放轨逻辑框724可包含针对呈现中的播放轨的信息。播放轨逻辑框724可包含播放轨标头逻辑框724a及零个或大于零个用户数据逻辑框724b。

如上文所论述，在一些情况下，播放轨参考逻辑框724b可含有新类型逻辑框724c，其提供对指向所有相关联子图片播放轨的特定类型(例如‘sptk’)的参考。在基于OMAF CD子图片的方法中，视频内容按以下方式经编码并存储在基于ISOBMFF的文件中。源视频在编码前经分裂成子图片序列。每一子图片序列涵盖整个视频内容的空间区域的子集。每一子图片序列随后彼此独立地经编码为单一位流。此位流被称为子图片位流。可由同一子图片序列编码出若干位流，例如用于不同位速率。每一子图片位流经封装于文件中作为其自身播放轨。此播放轨被称为子图片播放轨。经由使用子图片基本播放轨，特定类型(例如‘sptk’)的参考可经分组以供处理。

借助于上文阐述的实例，每一子图片播放轨仍然可独立地剖析及解码。可替代地，参数集携载于子图片基本播放轨中，且每一子图片播放轨可利用子图片基本播放轨的存在来用于媒体解码。其要求为，当编码子图片播放轨的位流时，具有不同内容的特定类型的参数集应使用不同参数集ID。

上文所识别的问题的另一解决方案为，使用ISOBMFF的条款8.3.4中的播放轨群组设计，经由如下文进一步描述的TrackGroupTypeBox的后向兼容扩展。

图8说明定义例如通过等于‘subp’的track_group_type识别的新播放轨分组类型的ISO基本媒体文件800的实例。此播放轨群组类型指示当前播放轨为携载整个视频内容的一个表示的一组子图片播放轨中的一者。文件800可包含文件类型逻辑框810，其可指定ISOBMFF的品牌或特定反复或ISOBMFF的文件800与的兼容的导出。文件800还可包含电影逻辑框820，其可含有用于呈现的元数据。文件800可任选地还包含一或多个片段830a、830b、830c、830n，如上文所论述。

电影逻辑框820可包含电影标头逻辑框822及一或多个播放轨逻辑框824，以及此处未说明的其它逻辑框。电影标头逻辑框822可包含描述作为整体的呈现的信息。播放轨逻辑框824可包含针对呈现中的播放轨的信息。播放轨逻辑框824可包含播放轨标头逻辑框824a及零个或大于零个播放轨群组逻辑框824b。

播放轨群组逻辑框824b能够指示播放轨的群组，其中每一群组共享特定特性或群组内的播放轨具有特定关系。逻辑框含有零个或大于零个逻辑框，且所述特定特性或关系通过所含逻辑框的逻辑框类型指示。所含逻辑框包含识别符，其可用于推断播放轨属于同一播放轨群组。在播放轨群组逻辑框内含有所含逻辑框的相同类型且在这些所含逻辑框内具有相同识别符值的播放轨属于同一播放轨群组。播放轨群组不会用于指示播放轨之间的相依关系。替代地，播放轨参考逻辑框用于此目的。

就语义来说，track_group_type指示分组类型，且应被设定成以下值或注册值或来自所导出规范或注册的值中的一者。

举例来说，‘msrc’的track_group_type指示此播放轨属于多源呈现。在track_group_type‘msrc’的群组类型逻辑框内具有track_group_id的相同值的播放轨经映射为来源于同一源。举例来说，视频电话通话的记录可具有关于两个参与者的音频及视频两者，且与一个参与者的音频播放轨及视频播放轨相关联的track_group_id的值不同于与另一参与者的播放轨相关联的track_group_id的值。track_group_id及track_group_type对识别文件内的播放轨群组。含有具有track_group_id的相同值的特定播放轨群组类型逻辑框的播放轨属于同一播放轨群组。

在此实例中，定义例如通过等于‘subp’的track_group_type识别的新播放轨分组类型。在TrackGroupTypeBox中，当track_group_type等于新播放轨分组类型(例如‘subp’)时，可添加更多信息。此信息的一个实例为当前播放轨中的子图片的子图片行索引及子图片列索引。其要求为，子图片必须在子图片行及子图片列中。为了实现更灵活的子图片配置，对对应于子图片的左上角像素的像素(即，明度样本)在整个图片上的坐标(即，水平偏移及竖直偏移)进行传信。此相较于传信子图片行索引及子图片列索引来说可为优选的。坐标可存在于任一像素的单元中或存在于相对单元中。在后一情况中，应对同样在相对单元中的整个图片的宽度及高度以及子图片的宽度及高度进行传信。

在TrackGroupTypeBox中，当track_group_type等于新播放轨分组类型(例如‘subp’)时，可添加更多信息。此信息的一个实例为整个图片的大小。可另外或可替代地，当track_group_type等于新播放轨分组类型时，可提供其它信息，例如上文描述为全域信息的信息。针对用于基于检视区相关视频译码的全向视频流式传输的基于子图片位流的编码及解码的方法，源视频在编码前经分裂成子图片序列。每一子图片序列涵盖整个视频内容的空间区域的子集。每一子图片序列随后彼此独立地经编码为单一位流。此位流被称为子图片位流。可由同一子图片序列编码出若干位流，例如用于不同位速率。每一子图片位流经封装于文件中作为其自身播放轨，所述播放轨被称为子图片播放轨。由于每一子图片是独立地进行编码，因此目前不存在用以确定整个图片的大小的机制。如上文所阐述，可跟踪头部移动及/或眼睛移动瞬间并呈现视频的对应部分以为用户传递沉浸式体验的VR内容呈现装置(例如HMD)具有固有的处理及存储限制。为了传递高质量的沉浸式用户体验，VR内容呈现装置可使用整个图片的大小信息作为选择具有合适位速率及质量的子图片序列的准则。借助于在TrackGroupTypeBox中传信整个图片大小，此信息在所有子图片播放轨中重复。

经由TrackGroupTypeBox的后向兼容扩展，携载整个视频内容的一个表示的所有子图片播放轨将与track_group_id的相同值及新播放轨分组类型相关联。子图片播放轨中的任一者随后可经选择作为计时元数据播放轨的参考媒体播放轨，且播放轨参考类型‘cdsc’的语义解释为“此播放轨描述由属于同一播放轨群组的参考子图片播放轨及所有其它相关联子图片播放轨所表示的视频内容”。

图9及图10分别展示编码装置900及解码装置1000的特定细节。图9为说明可实施本公开中所描述的技术中的一或多者的实例编码装置900的框图。编码装置900可(例如)产生本文中所描述的语法结构(例如，VPS、SPS、PPS或其它语法元素的语法结构)。编码装置900可执行视频图块内的视频块的帧内预测及帧间预测译码。如先前所描述，帧内译码至少部分地依赖于空间预测以减少或去除给定视频帧或图片内的空间冗余。帧间译码至少部分地依赖于时间预测以减少或去除视频序列的邻近或周围帧内的时间冗余。帧内模式(I模式)可指若干基于空间的压缩模式中的任一者。帧间模式(例如，单向预测(P模式)或双向预测(B模式))可指若干基于时间的压缩模式中的任一者。

编码装置900包含分割单元35、预测处理单元41、滤波器单元63、图片存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44及帧内预测处理单元46。对于视频块重建，编码装置900还包含反量化单元58、反变换处理单元60及求和器62。滤波器单元63打算表示一或多个回路滤波器，例如解块滤波器、自适应性回路滤波器(ALF)及样本自适应性偏移(SAO)滤波器。尽管滤波器单元63在图9中展示为回路中滤波器，但在其它配置中，滤波器单元63可实施为回路后滤波器。后处理装置57可对由编码装置900产生的经编码视频数据执行额外处理。在一些情况下，本公开的技术可通过编码装置900实施。然而，在其它情况下，本公开的技术中的一或多者可通过后处理装置57实施。

如图9中所展示，编码装置900接收视频数据，且分割单元35将数据分割成视频块。分割还可包含分割成图块、图块片段、图块或其它较大单元，以及例如根据LCU及CU的四分树结构的视频块分割。编码装置900通常说明对待编码视频图块内的视频块进行编码的组件。图块可划分成多个视频块(且可能划分成被称作图块的视频块集合)。预测处理单元41可基于误差结果(例如，译码速率及失真等级，等等)选择多个可能译码模式中的一者(例如，多个帧内预测译码模式中的一者或多个帧间预测译码模式中的一者)以用于当前视频块。预测处理单元41可将所得经帧内或帧间译码块提供到求和器50以产生残余块数据且提供到求和器62以重建经编码块以用作参考图片。

预测处理单元41内的帧内预测处理单元46可执行当前视频块相对于与待译码的当前块在同一帧或图块中的一或多个相邻块的帧内预测译码以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44执行当前视频块相对于一或多个参考图片中的一或多个预测性块的帧间预测性译码，以提供时间压缩。

运动估计单元42可经配置以根据视频序列的预定图案来确定用于视频图块的帧间预测模式。预定图案可将序列中的视频图块指定为P图块、B图块或GPB图块。运动估计单元42及运动补偿单元44可高度集成，但出于概念目的而单独说明。由运动估计单元42执行的运动估计为产生运动向量的过程，所述运动向量估计视频块的运动。运动向量(例如)可指示当前视频帧或图片内的视频块的预测单元(PU)相对于参考图片内的预测性块的移位。

预测性块为就像素差来说被发现紧密地匹配待译码视频块的PU的块，所述像素差可由绝对差和(SAD)、平方差和(SSD)或其它差度量确定。在一些实例中，编码装置900可计算存储于图片存储器64中的参考图片的子整数像素位置的值。举例来说，编码装置900可内插所述参考图片的四分之一像素位置、八分之一像素位置或其它分率像素位置的值。因此，运动估计单元42可执行关于全像素位置及分数像素位置的运动搜索且输出具有分数像素精度的运动向量。

运动估计单元42通过比较PU的位置与参考图片的预测性块的位置而计算经帧间译码图块中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1)，所述列表中的每一者识别存储于图片存储器64中的一或多个参考图片。运动估计单元42将所计算的运动向量发送到熵编码单元56及运动补偿单元44。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计(可能执行内插到子像素精度)确定的运动向量而检索或产生预测性块。在接收到当前视频块的PU的运动向量之后，运动补偿单元44可在参考图片列表中定位运动向量所指向的预测性块。编码装置900通过从正经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块。像素差形成用于块的残余数据，且可包含明度及色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44还可产生与视频块及视频图块相关联的语法元素，以供解码装置1000用于解码视频图块的视频块。

如上文所描述，作为由运动估计单元42及运动补偿单元44所执行的帧间预测的替代方案，帧内预测处理单元46可对当前块进行帧内预测。具体地说，帧内预测处理单元46可确定帧内预测模式以用以编码当前块。在一些实例中，帧内预测处理单元46可例如在单独编码遍次期间使用各种帧内预测模式来编码当前块，且帧内预测处理单元46(或在一些实例中模式选择单元40)可从所测试模式选择适当的帧内预测模式来使用。举例来说，帧内预测处理单元46可使用对各种所测试帧内预测模式的率-失真分析来计算率-失真值，且可在所测试模式间选择具有最优选率-失真特性的帧内预测模式。率-失真分析大体上确定经编码块与原始未经编码块(其经编码以产生经编码块)之间的失真(或误差)量，以及用以产生经编码块的位速率(即，位的数目)。帧内预测处理单元46可根据各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现所述块的最优选率-失真值。

在任何情况下，在选择用于块的帧内预测模式后，帧内预测处理单元46可将指示用于块的所选帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示所选帧内预测模式的信息。编码装置900可将各种块的编码上下文的定义以及待用于上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引表的指示包含于经发射位流配置数据中。位流配置数据可包含多个帧内预测模式索引表及多个经修改帧内预测模式索引表(还被称作码字映射表)。

在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测性块之后，编码装置900通过从当前视频块减去预测性块而形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中且被应用于变换处理单元52。变换处理单元52使用例如离散余弦变换(DCT)或概念上类似变换的变换将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素域转换到变换域(例如，频域)。

变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步减少位速率。量化过程可减小与系数中的一些或所有相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中，量化单元54可接着执行对包含经量化变换系数的矩阵的扫描。替代地，熵编码单元56可执行扫描。

在量化之后，熵编码单元56对经量化变换系数进行熵编码。举例来说，熵编码单元56可执行上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码(CABAC)、基于语法的上下文自适应性二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码技术。在由熵编码单元56进行熵编码之后，可将经编码位流发射到解码装置1000，或加以存档以供稍后由解码装置1000发射或检索。熵编码单元56还可熵编码正经译码的当前视频图块的运动向量及其它语法元素。

反量化单元58及反变换处理单元60分别应用反量化及反变换以重建像素域中的残余块以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块添加到参考图片列表内的参考图片中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建残余块以计算用于运动估计的子整数像素值。求和器62将经重建残余块添加到由运动补偿单元44产生的运动补偿预测块，以产生用于存储于图片存储器64中的参考块。参考块可由运动估计单元42及运动补偿单元44用作参考块以对后续视频帧或图片中的块进行帧间预测。

以此方式，图9的编码装置900表示经配置以产生经编码视频位流的语法的视频编码器的实例。编码装置900可(例如)产生如上文所描述的VPS、SPS及PPS参数集。编码装置900可执行本文中所描述的技术中的任一者，包含上文关于图9及图10所描述的过程。本公开的技术已大体上关于编码装置900加以描述，但如上文所提及，本公开的技术中的一些还可通过后处理装置57实施。

图10为说明实例解码装置1000的框图。解码装置1000包含熵解码单元80、预测处理单元81、反量化单元86、反变换处理单元88、求和器90、滤波器单元91及图片存储器92。预测处理单元81包含运动补偿单元82及帧内预测处理单元84。在一些实例中，解码装置1000可执行与关于图9的编码装置900所描述的编码遍次大体上互逆的解码遍次。

在解码过程期间，解码装置1000接收经编码视频位流，其表示经编码视频图块的视频块及通过编码装置900发送的相关联语法元素。在一些实例中，解码装置1000可从编码装置900接收经编码视频位流。在一些实例中，解码装置1000可从网络实体79接收经编码视频位流，所述网络实体例如服务器、媒体感知网络元件(MANE)、视频编辑器/切割器，或经配置以实施上文所描述的技术中的一或多者的其它此种装置。网络实体79可或可不包含编码装置900。本公开中所描述的技术中的一些可在网络实体79将经编码视频位流发射到解码装置1000之前由网络实体79实施。在一些视频解码系统中，网络实体79及解码装置1000可为单独装置的部分，而在其它情况下，关于网络实体79所描述的功能性可由包括解码装置1000的同一装置执行。

解码装置1000的熵解码单元80对位流进行熵解码以产生经量化系数、运动向量及其它语法元素。熵解码单元80将运动向量及其它语法元素转送到预测处理单元81。解码装置1000可接收视频图块层级及/或视频块层级的语法元素。熵解码单元80可处理并剖析例如VPS、SPS及PPS的一或多个参数集中的固定长度语法元素及可变长度语法元素两者。

当视频图块被译码为经帧内译码(I)图块时，预测处理单元81的帧内预测处理单元84可基于经发信帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生当前视频图块的视频块的预测数据。当视频帧经译码为经帧间译码(即B、P或GPB)图块时，预测处理单元81的运动补偿单元82基于从熵解码单元80接收到的运动向量及其它语法元素而产生当前视频图块的视频块的预测性块。预测性块可从参考图片列表内的参考图片中的一者产生。解码装置1000可基于存储于图片存储器92中的参考图片使用默认构建技术来构建参考帧列表(列表0及列表1)。

运动补偿单元82通过剖析运动向量及其它语法元素来确定用于当前视频图块的视频块的预测信息，并使用所述预测信息以产生经解码当前视频块的预测性块。举例来说，运动补偿单元82可使用参数集中的一或多个语法元素以确定用于译码视频图块的视频块的预测模式(例如，帧内预测或帧间预测)、帧间预测图块类型(例如，B图块、P图块或GPB图块)、图块的一或多个参考图片列表的构建信息、图块的每一帧间编码视频块的运动向量、图块的每一帧间译码视频块的帧间预测状态，及用以解码当前视频图块中的视频块的其它信息。

运动补偿单元82还可执行基于内插滤波器的内插。运动补偿单元82可使用如在编码视频块期间由编码装置900使用的内插滤波器来计算参考块的子整数像素的内插值。在此状况下，运动补偿单元82可从所接收语法元素确定由编码装置900使用的内插滤波器，且可使用内插滤波器来产生预测性块。

反量化单元86反量化或解量化位流中所提供且由熵解码单元80解码的经量化变换系数。反量化过程可包含使用由编码装置900针对视频图块中的每一视频块计算的量化参数来确定量化程度及同样应应用的反量化程度。反变换处理单元88将反变换(例如，反DCT或其它合适的反变换)、反整数变换或概念上类似的反变换过程应用于变换系数以便在像素域中产生残余块。

在运动补偿单元82基于运动向量及其它语法元素而产生当前视频块的预测性块之后，解码装置1000通过将来自反变换处理单元88的残余块与由运动补偿单元82产生的对应预测性块求和而形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。如果需要，还可使用回路滤波器(在译码回路中或在译码回路后)以使像素转变平滑，或以其它方式改进视频质量。滤波器单元91打算表示一或多个回路滤波器，例如解块滤波器、自适应性回路滤波器(ALF)及样本自适应性偏移(SAO)滤波器。尽管滤波器单元91在图10中展示为回路中滤波器，但在其它配置中，滤波器单元91可实施为回路后滤波器。给定帧或图片中的经解码视频块随后存储于图片存储器92中，所述图片存储器存储用于后续运动补偿的参考图片。图片存储器92还存储经解码视频以供稍后呈现于显示装置上，所述显示装置例如图1中所展示的视频目的地装置122。

在前面描述中，本申请案的方面是参考其特定实例加以描述，但所属领域的技术人员将认识到，本公开不限于此。因此，尽管本文中已详细描述申请案的说明性实例，但应理解，本发明概念可以其它方式不同地体现并使用，且所附权利要求书打算解释为包含除现有技术所限制外的这些变化。上文所描述的公开内容的各种特征及方面可单独地或联合地使用。另外，实例可用于超出本文所描述的那些环境及应用的任何数目个环境及应用，而不脱离本说明书的更广精神及范围。因此，本说明书及图式被视为说明性而非限定性。出于说明的目的，以特定次序描述方法。应了解，在替代性实例中，可以与所描述的次序不同的次序来执行所述方法。

在组件被描述为“经配置以”执行某些操作的情况下，可(例如)通过设计电子电路或其它硬件以执行操作、通过编程可编程电子电路(例如，微处理器或其它适合的电子电路)以执行操作或其任何组合来实现此配置。

结合本文中所公开的实例而描述的各种说明性逻辑块、模块、电路及算法步骤可被实施为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件与软件的此可互换性，各种说明性组件、块、模块、电路及步骤已在上文大体按其功能性加以描述。此功能性实施为硬件抑或软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用而以变化的方式实施所描述的功能性，但不应将这些实施决策解释为致使脱离本公开的范围。

本文中描述的技术可以硬件、软件、固件或其任何组合实施。这些技术可实施于多种装置中的任何者中，例如，通用计算机、无线通信装置手机或具有多种用途(包含在无线通信装置手机及其它装置中的应用)的集成电路装置。可将描述为模块或组件的任何特征共同实施于集成式逻辑装置中或分开实施为离散但可互操作的逻辑装置。如果以软件实施，那么所述技术可至少部分地由包括代码的计算机可读数据存储媒体实现，所述代码包含在被执行时执行上文所描述的方法中的一或多者的指令。计算机可读数据存储媒体可形成计算机程式产品的部分，计算机程序产品可包含封装材料。计算机可读媒体可包括存储器或数据存储媒体，例如，随机存取存储器(RAM)，例如，同步动态随机存取存储器(SDRAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器、磁性或光学数据存储媒体等等。另外或替代地，所述技术可至少部分地由计算机可读通信媒体实现，所述计算机可读通信媒体载送或传达呈指令或数据结构的形式且可由计算机存取、读取及/或执行的代码，例如，传播的信号或波。

代码可由可包含一或多个处理器的处理器执行，例如，一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。此处理器可经配置以执行本公开中所描述的技术中的任一者。通用处理器可为微处理器；但在替代例中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可经实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器或任何其它此类配置。因此，如本文中所使用的术语“处理器”可指前述结构中的任一者、前述结构的任何组合或适合于实施本文中所描述的技术的任何其它结构或设备。此外，在一些实例中，本文中描述的功能性可提供于经配置用于编码及解码的专用软件模块或硬件模块内，或并入于组合式视频编码器-解码器(编码解码器)中。

本文中所论述的译码技术可体现于实例视频编码及解码系统中。系统包含源装置，其提供稍后将由目的地装置解码的经编码视频数据。详细地说，源装置经由计算机可读媒体将视频数据提供到目的地装置。源装置及目的地装置可包括广泛范围装置中的任一者，包含台式计算机、笔记型(即，膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能型”电话)、所谓的“智能型”平板、电视、相机、显示装置、数字媒体播放器、视频游戏桌面、视频流式传输装置等等。在一些状况下，源装置及目的地装置可经装备以用于无线通信。

目的地装置可经由计算机可读媒体接收待解码的经编码视频数据。计算机可读媒体可包括能够将经编码视频数据从源装置移动到目的地装置的任何类型的媒体或装置。在一个实例中，计算机可读媒体可包括通信媒体以使得源装置能够实时地将经编码视频数据直接发射到目的地装置。可根据通信标准(例如，无线通信协议)调制经编码视频数据，且将经编码视频数据发射到目的地装置。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于分组的网络(例如，局域网、广域网或例如因特网的全域网络)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置到目的地装置的通信的任何其它装备。

在一些实例中，经编码数据可从输出接口输出到存储装置。类似地，经编码数据可由输入接口从存储装置存取。存储装置可包含多种分散式或本地存取的数据存储媒体中的任一者，例如，硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中，存储装置可对应于文件服务器或可存储由源装置产生的经编码视频的另一中间存储装置。目的地装置可经由流式传输或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将彼经编码视频数据发射到目的地装置的任何类型的服务器。实例文件服务器包含网页服务器(例如，用于网站)、FTP服务器、网络附加存储(NAS)装置或本地磁盘驱动器。目的地装置可经由任何标准数据连接(包含因特网连接)来存取经编码视频数据。此连接可包含无线通道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)或适用于存取存储于文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可为流式传输发射、下载发射或其组合。

本公开的技术不必限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码，所述多媒体应用例如空中电视广播、有线电视发射、卫星电视发射、因特网流式传输视频发射(例如，经由HTTP的动态自适应性流式传输(DASH))、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码或其它应用。在一些实例中，系统可经配置以支持单向或双向视频发射从而支持例如视频流式传输、视频播放、视频广播及/或视频电话的应用。

在一个实例中，源装置包含视频源、视频编码器及输出接口。目的地装置可包含输入接口、视频解码器及显示装置。源装置的视频编码器可经配置以应用本文中所公开的技术。在其它实例中，源装置及目的地装置可包含其它组件或布置。举例来说，源装置可从外部视频源(例如，外部相机)接收视频数据。同样地，目的地装置可与外部显示装置介接，而非包含集成式显示装置。

以上实例系统仅为一个实例。用于并行地处理视频数据的技术可由任何数字视频编码及/或解码装置来执行。尽管本公开的技术一般由视频编码装置执行，但所述技术还可由视频编码器/解码器(通常被称作“编码解码器”)执行。此外，本公开的技术还可由视频预处理器执行。源装置及目的地装置仅为源装置产生经译码视频数据以供发射到目的地装置的此类译码装置的实例。在一些实例中，源装置及目的地装置可以大体上对称的方式操作，使得所述装置中的每一者包含视频编码及解码组件。因此，实例系统可支持视频装置之间的单向或双向视频发射，例如用于视频流式传输、视频播放、视频广播或视频电话。

视频源可包含视频捕捉装置，例如摄像机、含有先前捕捉的视频的视频存档及/或用以从视频内容提供者接收视频的视频馈入接口。作为另一替代方案，视频源可产生基于计算机图形的数据作为源视频，或实况视频、存档视频及计算机产生的视频的组合。在一些状况下，如果视频源为摄像机，那么源装置及目的地装置可形成所谓的相机电话或视频电话。然而，如上文所提及，本公开中所描述的技术一般可适用于视频译码，且可适用于无线及/或有线应用。在每一情况下，可由视频编码器编码所捕捉、经预捕捉或计算机产生的视频。经编码视频信息接着可由输出接口输出到计算机可读媒体上。

如所提及，计算机可读媒体可包含暂态媒体，例如无线广播或有线网络发射；或存储媒体(即，非暂时性存储媒体)，例如硬盘、随身碟、紧密光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中，网络服务器(未图示)可例如经由网络发射而从源装置接收经编码视频数据且将经编码视频数据提供到目的地装置。类似地，媒体生产设施(例如，光盘冲压设施)的计算装置可从源装置接收经编码视频数据且生产含有经编码视频数据的光盘。因此，在各种实例中，计算机可读媒体可理解为包含各种形式的一或多个计算机可读媒体。

目的地装置的输入接口从计算机可读媒体接收信息。计算机可读媒体的信息可包含由视频编码器定义的语法信息(其还由视频解码器使用)，所述语法信息包含描述块及其它经译码单元(例如，图片群组(GOP))的特性及/或处理的语法元素。显示装置将经解码视频数据显示给用户，且可包括多种显示装置中的任一者，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。已描述了本公开的各种实例及实施例。

Claims

1.一种处理视频数据的方法，其包括：

从存储器获得多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；

在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨；及

在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据。

2.根据权利要求1所述的处理视频数据的方法，其中所述媒体文件包含所述至少一个文件。

3.根据权利要求1所述的方法，其进一步包括：

存储与所述多个子图片播放轨相关联的子图片基本播放轨。

4.根据权利要求3所述的方法，其进一步包括：

基于所述播放轨逻辑框的样本描述逻辑框内的样本项类型来指示所述子图片基本播放轨。

5.根据权利要求3所述的方法，其中所述子图片基本播放轨包含描述所述多个子图片播放轨的所述元数据。

6.根据权利要求1所述的方法，其中所述元数据包括与所述多个子图片播放轨的集合相关联的完整图片的空间分辨率。

7.根据权利要求1所述的方法，其中所述文件格式是基于国际标准组织ISO基本媒体文件格式。

8.根据权利要求1所述的方法，其进一步包括：

在所述播放轨逻辑框内，将播放轨群组类型存储为指示与所述播放轨逻辑框相关联的播放轨是子图片播放轨群组中的一者的值，所述子图片播放轨群组表示所述视频数据的单一表示。

9.根据权利要求8所述的方法，其中所述播放轨群组类型为通过ISO/IEC 14496-12第12部分识别的所述ISO基本媒体文件格式的条款8.3.4中所阐述的TrackGroupTypeBox的后向兼容扩展。

10.根据权利要求1所述的方法，其进一步包括：

在所述播放轨逻辑框内存储指定播放轨分组类型的播放轨群组类型逻辑框。

11.根据权利要求10所述的方法，其中所述播放轨分组类型指示额外信息可供添加到所述播放轨逻辑框。

12.根据权利要求11所述的方法，其中当所述播放轨分组类型指示额外信息可供添加到所述播放轨逻辑框时，在所述播放轨逻辑框内存储所述播放轨中的子图片的子图片行索引信息及子图片列索引信息。

13.根据权利要求11所述的方法，其中在所述子图片位流内经编码的子图片以子图片行及子图片列的方式定义。

14.根据权利要求11所述的方法，其中在所述子图片位流内经编码的子图片可分组为图块，使得所述图块为经定义图块行及图块列。

15.根据权利要求11所述的方法，其中当所述播放轨分组类型指示额外信息可供添加到所述播放轨逻辑框时，在所述播放轨逻辑框内存储对应于所述播放轨中的子图片的左上角像素的坐标。

16.根据权利要求11所述的方法，其中当所述播放轨分组类型指示额外信息可供添加到所述播放轨逻辑框时，在所述播放轨逻辑框内存储表示完整图片的大小的信息。

17.一种用于对视频数据进行解码的装置，所述装置包括：

存储器，其经配置以存储至少一个文件及媒体文件，所述媒体文件根据文件格式经格式化且所述至少一个文件包含多个子图片播放轨；以及

处理器，其与所述存储器通信，所述处理器经配置以：

处理所述媒体文件；及

从所述媒体文件内的播放轨逻辑框获得描述包含于所述至少一个文件内的所述多个子图片播放轨的元数据。

18.根据权利要求17所述的装置，其中所述媒体文件包含所述至少一个文件。

19.根据权利要求17所述的装置，其中所述处理器进一步经配置以从所述媒体文件获得与所述多个子图片播放轨相关联的子图片基本播放轨。

20.根据权利要求19所述的装置，其中所述处理器进一步经配置以基于所述播放轨逻辑框的样本描述逻辑框内的样本项类型来确定所述子图片基本播放轨的存在。

21.根据权利要求19所述的装置，其中所述处理器进一步经配置以从所述子图片基本播放轨获得描述所述多个子图片播放轨的所述元数据。

22.根据权利要求17所述的装置，其中所述元数据包括与所述多个子图片播放轨的集合相关联的完整图片的空间分辨率。

23.根据权利要求17所述的装置，其中所述文件格式是基于国际标准组织ISO基本媒体文件格式。

24.根据权利要求17所述的装置，其中所述处理器进一步经配置以基于所述播放轨逻辑框内的群组类型字段的值来确定与所述播放轨逻辑框相关联的播放轨是子图片播放轨群组中的一者，所述子图片播放轨群组表示所述视频数据的单一表示。

25.根据权利要求25所述的装置，其中所述处理器进一步经配置以从所述播放轨逻辑框的播放轨群组类型逻辑框获得所述播放轨中的子图片的子图片行索引信息及子图片列索引信息。

26.一种用于处理视频数据的装置，所述装置包括：

存储器，其经配置以存储多个子图片位流，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；及

处理器，其与所述存储器通信，所述处理器经配置以：

从所述存储器获得所述多个子图片位流；

27.根据权利要求26所述的装置，其中所述媒体文件包含所述至少一个文件。

28.根据权利要求26所述的装置，其中所述处理器进一步经配置以存储与所述多个子图片播放轨相关联的子图片基本播放轨。

29.根据权利要求28所述的装置，其中所述处理器进一步经配置以设定所述播放轨逻辑框的样本描述逻辑框内的样本项类型的值，所述值指示所述子图片基本播放轨的存在。

30.根据权利要求28所述的装置，其中所述子图片基本播放轨包含描述所述多个子图片播放轨的所述元数据。

31.根据权利要求26所述的装置，其中所述元数据包括与所述多个子图片播放轨的集合相关联的完整图片的空间分辨率。

32.根据权利要求26所述的装置，其中所述文件格式是基于国际标准组织ISO基本媒体文件格式。

33.根据权利要求26所述的装置，其中所述处理器进一步经配置以在所述播放轨逻辑框内将播放轨群组类型存储为指示与所述播放轨逻辑框相关联的播放轨是子图片播放轨群组中的一者的值，所述子图片播放轨群组表示所述视频数据的单一表示。

34.根据权利要求33所述的装置，其中所述处理器进一步经配置以在所述播放轨逻辑框的播放轨群组类型逻辑框内存储所述播放轨中的子图片的子图片行索引信息及子图片列索引信息。

35.根据权利要求26所述的装置，其中所述装置为无线通信装置，其进一步包括：

发射器，其经配置以发射所述多个子图片位流。

36.根据权利要求35所述的装置，其中所述无线通信装置为蜂窝式电话，且所述多个子图片位流进一步根据蜂窝式通信标准调制以供发射。

37.一种装置，其包括：

用于从存储器获得多个子图片位流的装置，每一子图片位流包含所述视频数据的空间部分且每一子图片位流独立地经译码；

用于在至少一个文件中分别存储所述多个子图片位流作为多个子图片播放轨的装置；及

用于在根据文件格式的媒体文件内的播放轨逻辑框中存储描述所述多个子图片播放轨的元数据的装置。

38.一种非暂时性计算机可读媒体，其上存储有指令，所述指令在经执行时使得电子装置的一或多个处理器：