CN110169076B

CN110169076B - 用于编码/解码视频数据的方法与装置

Info

Publication number: CN110169076B
Application number: CN201880005948.2A
Authority: CN
Inventors: 王新; 陈鲁林; 赖柏霖; 刘杉
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2017-01-06
Filing date: 2018-01-05
Publication date: 2022-09-09
Anticipated expiration: 2038-01-05
Also published as: US20180199042A1; US10742999B2; TW201832555A; CN110169076A; TWI674791B; WO2018127123A1

Abstract

本文所介绍的技术涉及用于编码或解码视频数据的方法与装置。球形区域结构与所述视频数据关联，其指定在球体上的所述感兴趣区域，所述球形区域结构包括在所述球体上的所述感兴趣区域的参考点，以及指示一组边界点的数据，所述一组边界点包括用于在所述球体上的所述感兴趣区域的每一侧的边界点。在所述视频数据中的所述感兴趣区域基于所述参考点和所述一组边界点进行决定。所述视频数据可为复合视频数据。所述球形区域结构，及/或基于所述球形区域结构的元数据可隐含地或明确地与所述视频数据关联。

Description

用于编码/解码视频数据的方法与装置

相关引用

本申请根据35 U.S.C.§119(e)要求于2017年1月6日提出的申请号为62/443,006且名称为“METHODS OF SIGNALING REGIONS OF INTEREST IN VIRTUAL REALITY CONTENTIN ISOBMFF”的美国临时申请、于2017年1月12日提出的申请号为62/445,282且名称为“METHODS AND APPARATUS OF SIGNALING FOR VR VIEWPORTS AND ROIS IN ISOBMFFUSING COMPOSITE TRACKS”的美国临时申请以及于2017年1月13日提出的申请号为62/445,834且名称为“METHODS AND APPARATUS OF SIGNALING OF VR VIEWPORTS AND ROIS INDASH”的美国临时申请的优先权，其以全文引用的方式并入本文中。

技术领域

本文所描述的技术大致涉及视频编解码(video coding)，并且尤其涉及在视频内容中的视口(viewports)及/或感兴趣区域(regions of interest)，包括发信(signaling)并且处理在视频内容中的视口及/或感兴趣区域。

背景技术

目前存在有各种类型的3D内容和多方向内容。例如，全方向视频是采用一组相机进行捕捉的一类视频，这与完成传统单向视频的仅仅单个相机不同。例如，相机可被放置在特定中心点周围，以便各个相机捕捉场景的球形覆盖范围上的一部分视频从而捕捉360度视频。来自多个相机的视频可被拼合，可能被旋转，并且被投影来生成表现球形内容的投影的二维图像。例如，相等的矩形投影可被用来将球形地图放入到二维图像中。这可例如采用二维编码和压缩技术来完成。最后，经编码和经压缩的内容采用期望的递送机制(例如，拇指驱动器(thumb drive)、数码视盘(DVD)及/或在线流媒体)进行储存和递送。这种视频可被用于虚拟现实(VR)及/或3D视频。

在客户端，当客户处理内容时，视频解码器解码经编码的视频并且执行反向投影来将该内容放回到球体上。用户然后可观看经渲染的内容，诸如使用头戴式观看装置。该内容经常根据用户的视口进行渲染，其表示用户观看内容所处的角度。视口还可包括表示观看区域的组件，其可描述正在被观看者以特定角进行观看的区域有多大，以及为何种形状。

当视频处理不是以依据视口的方式来完成时，使得视频编码器不知道用户实际上将观看到什么，则整个编码和解码流程将处理全部的球形内容。这例如可允许用户以任何特定的视口及/或区域来观看内容，因为所有的球形内容都被递送和解码。

然而，处理所有的球形内容会是计算密集的并且会消耗大量的带宽(bandwidth)。例如，对于在线流媒体应用而言，处理所有的球形内容会给网络带宽带来大的负担。因此，当带宽资源及/或计算资源有限时，会难以保持用户的体验。一些技术仅仅处理被用户观看的内容。例如，如果用户在观看前面(例如，或者北极)，则不需要递送内容的后部(例如，南极)。如果用户改变视口，则内容可针对新视口相应地进行递送。作为另一示例，对于自由视点TV(FTV)应用(例如，其采用多个相机捕捉场景的视频视频)而言，内容可依据用户以何角度观看场景来进行递送。例如，如果用户在从一个视口(例如，相机及/或邻近相机)观看内容，则大概不需要为其他视口递送内容。

发明内容

根据所揭露的主题，提供了设备、系统和方法来表现在球形内容中的感兴趣区域(ROI)或视口，并且使这种ROI或视口与媒体轨(media tracks)关联。

一些实施例涉及一种用于解码视频数据的解码方法。所述方法包括接收包括感兴趣区域的视频数据，识别(identifying)指定在球体上的所述感兴趣区域的与所述视频数据相关联的球形区域结构(spherical region structure)，所述球形区域结构包括在所述球体上的感兴趣区域的参考点(reference point)和指示一组边界点的数据，所述一组边界点包括用于在所述球体上的感兴趣区域的各侧的边界点，并且基于所述参考点和所述一组边界点决定所述视频数据中的感兴趣区域。

在一些示例中，决定实施感兴趣区域包括决定指示一组边界点的数据被设置为零，并且决定所述感兴趣区域对应于在所述参考点处的点。

在一些示例中，指示所述一组边界点的数据包括水平范围和垂直范围，所述参考点是所述感兴趣区域的中心点，并且决定所述感兴趣区域包括基于所述水平范围决定用于所述感兴趣区域的左侧的中心的左中心点和用于所述感兴趣区域的右侧的中心的右中心点，基于所述垂直范围决定用于所述感兴趣区域的上侧的中心的上中心点和用于所述感兴趣区域的底侧的中心的底中心点，并且基于延伸越过各个左中心点、右中心点、上中心点和底中心点的四个大圆圈决定所述感兴趣区域，其中大圆圈中的每一个大圆圈由穿过所述球体的中心的关联的二维平面界定。

在一些示例中，指示所述一组边界点的数据包括水平范围和垂直范围，所述参考点是所述感兴趣区域的中心点，并且决定所述感兴趣区域包括基于所述水平范围决定用于所述感兴趣区域的左侧的中心的左中心点和用于所述感兴趣区域的右侧的中心的右中心点，基于所述垂直范围决定用于所述感兴趣区域的上侧的中心的上中心点和所述感兴趣区域的底侧的中心的底中心点，并且基于延伸越过所述左中心点和右中心点中的每一个的两个大圆圈和延伸越过所述上中心点和底中心点中的每一个的两个小圆圈决定所述感兴趣区域，其中所述两个大圆圈中的每一个大圆圈由穿过所述球体的中心的关联的二维平面界定，其中所述两个小圆圈中的每一个小圆圈由不穿过所述球体的中心的关联的二维平面界定。

在一些示例中，所述球形区域结构的至少一部分在时变元数据轨中发信(signaled in a timed metadata track)，并且在所述时变元数据轨中的轨参考盒(trackreference box)使所述球形区域结构的所述部分与所述视频数据关联。

在一些示例中，所述时变元数据轨包括指示所述感兴趣区域的类型的数据。

在一些示例中，所述感兴趣区域的类型包括基于若干观看的所述感兴趣区域的排名，所述感兴趣区域与导演的观看关联的指示，或它们的一些组合。

在一些示例中，所述时变元数据轨包括指示所述感兴趣区域的质量的数据，所述感兴趣区域的排名，或它们的一些组合。

在一些示例中，所接收的视频数据包括来自复合视频轨的数据，并且识别所述球形区域结构包括识别用于与所述复合视频轨关联的所述球形区域结构的元数据。

在一些示例中，所述元数据包括具有与所述球形区域结构关联的元数据的时变元数据轨。

在一些示例中，所述复合视频轨基于选自多个二维图块轨(two-dimensionaltile tracks)的轨而组成，其中各个二维图块轨与质量、加密模式或两者关联。

一些实施例涉及一种用于解码视频数据的设备。所述设备包括与存储器通信的处理器。所述处理器用于执行促使所述处理器接收包括感兴趣区域的存储在所述存储器内的视频数据的指令，识别指定在球体上的所述感兴趣区域的与所述视频数据关联的球形区域结构，所述球形区域结构包括在所述球体上的所述感兴趣区域的参考点，以及指示一组边界点的数据，所述一组边界点包括用于在所述球体上的所述感兴趣区域的各侧的边界点，并且基于所述参考点和所述一组边界点决定所述视频数据中的所述感兴趣区域。

在一些示例中，决定所述感兴趣区域包括决定指示一组边界点的数据被设置为零，并且决定所述感兴趣区域对应于在所述参考点处的点。

在一些示例中，指示所述一组边界点的数据包括水平范围和垂直范围，所述参考点是所述感兴趣区域的中心点，并且决定所述感兴趣区域包括基于所述水平范围决定用于所述感兴趣区域的左侧的中心的左中心点和用于所述感兴趣区域的右侧的中心的右中心点，基于所述垂直范围决定用于所述感兴趣区域的上侧的中心的上中心点和所述感兴趣区域的底侧的中心的底中心点，并且基于延伸越过所述左中心点、右中心点、上中心点和底中心点中的每一个的四个大圆圈决定所述感兴趣区域，其中所述四个大圆圈中的每一个大圆圈由穿过所述球体的中心的关联的二维平面界定。

在一些示例中，所述球形区域结构的至少一部分在时变元数据轨中发信，并且在所述时变元数据轨中的轨参考盒使所述球形区域结构的所述部分与所述视频数据关联。

在一些示例中，所述复合视频轨基于选自多个二维图块轨的轨而组成，其中各个二维图块轨与质量、加密模式或两者关联。

一些实施例涉及一种用于编码视频数据的编码方法。所述方法包括编码包括感兴趣区域的视频数据，包括生成指定在球体上的所述感兴趣区域的球形区域结构，所述球形区域结构包括在所述球体上的所述感兴趣区域的参考点，以及指示一组边界点的数据，所述一组边界点包括用于在所述球体上的所述感兴趣区域的每一侧的边界点，并且使所述球形区域结构与所述视频数据关联以便指定在所述视频数据中的所述感兴趣区域。

在一些示例中，所述方法包括在时变元数据轨中发信所述球形区域结构的至少一部分，使得在所述时变元数据轨中的轨参考盒使所述球形区域结构的所述部分与所述视频数据关联。

在一些示例中，编码所述视频数据包括编码复合视频轨，并且使所述球形区域结构与所述视频数据关联包括生成用于所述球形区域结构的元数据，以及使所生成的元数据与所述复合视频轨关联。

在一些示例中，生成所述元数据报括生成具有与所述球形区域结构关联的元数据的时变元数据轨。

在一些示例中，编码所述复合视频轨包括基于选自多个二维图块轨的轨编码所述复合视频轨，其中各个二维图块轨与质量、加密模式或两者关联。

一些实施例涉及一种用于编码视频数据的设备。所述设备包括与存储器通信的处理器。所述处理器用于执行促使所述处理器编码包括感兴趣区域的视频数据的存储在所述存储器中的指令，包括生成指定在球体上的所述感兴趣区域的球形区域结构，所述球形区域结构包括在所述球体上的所述感兴趣区域的参考点，以及指示一组边界点的数据，所述一组边界点包括用于在所述球体上的所述感兴趣区域的每一侧的边界点，并且使所述球形区域结构与所述视频数据关联以便指定在所述视频数据中的所述感兴趣区域。

在一些示例中，所述处理器用于执行促使所述处理器在时变元数据轨中发信所述球形区域结构的至少一部分的存储在所述存储器中的指令，使得在所述时变元数据轨中的轨参考盒使所述球形区域结构的所述部分与所述视频数据关联。

因此，所揭露的主题的特征已经被相当广泛地概括了，以便其下文的详细说明书可被更好地理解，并且以便对技术的当前贡献可被更好地领会。当然，存在着将在以下进行说明的所揭露的主题的额外特征并且其将形成所附的申请专利范围的主题。要理解的是，本文所用的措辞和术语是用来说明的目的，而不应被视为限制。

附图说明

在图式中，在多个图式中进行示出的每个相同或接近相同的组件由类似的参考符号表示。为了清楚，不是每一个组件都会在每一个图式中被标记。图式不一定按比例绘制，而是将重点放在示出本文所描述的技术和装置的各种方面。

图1示出了根据一些实施例的示范性视频编码配置。

图2A示出了根据一些示例的使用时变元数据(timed metadata)发信具有ROI视频的主视频的图示。

图2B示出了根据一些示例的采用视频轨(video track)元数据发信具有ROI视频的主视频的图示。

图3A示出了根据一些示例的具有一个大圆圈和两个小圆圈的球体。

图3B示出了根据一些示例的球体的北(N)极和南(S)极。

图3C示出了根据一些实施例的具有大致矩形形状的ROI。

图4A示出了根据一些实施例的矩形ROI。

图4B示出了根据一些实施例的第二矩形ROI。

图4C示出了根据一些实施例的圆形ROI。

图4D示出了根据一些实施例的由多边形表示的ROI。

图4E示出了根据一些实施例的由三维形状的面表示的ROI。

图5A示出了根据一些实施例的3D球面坐标样本条目(sample entry)。

图5B示出了根据一些实施例的3D球面坐标样本条目等级。

图5C示出了根据一些实施例的ROI语法的示例。

图5D是示出了根据一些实施例的ROI的类型，在用于ROI的球体上形状边界的描述以及用于ROI的相关信令的表格。

图6示出了根据一些实施例的示例性ROI用例的表格。

图7示出了根据一些示例的用于VR内容的基于视口的内容流程。

图8A示出了根据一些实施例的使用复合轨来发信视口/ROI的示例性图示。

图8B示出了根据一些实施例的采用复合轨来发信视口/ROI的示例性流程。

图9示出了根据一些实施例的复合轨以及其输入轨的图示。

图10示出了根据一些实施例的使用时变元数据轨发信视口和ROI的图示。

图11示出了根据一些实施例的使用视频轨元数据发信视口和ROI的图示。

具体实施方式

各种技术可被用来表示感兴趣区域(ROI)及/或视口，并且发信这种ROI表示，包括以文件格式的复合轨(例如，ISOBMFF)以及以流媒体格式(例如，MPEG DASH)。

需要一种方式来表示在球形内容(例如，3D内容)中的ROI/视口。本文所揭露的技术提供用来表示在球形内容中的ROI/视口，诸如圆形ROI、矩形ROI、多边形ROI及/或类似者。该ROI可参考3D球体进行界定。本文所揭露的技术因此可将ROI扩展至例如3D内容，诸如VR内容。例如，该技术可被用来将ROI扩展至其为基于高效视频编解码(HEVC)图块(tile)的内容，基于可适性视频编码(SVC)的内容，基于子图像的内容(例如，像在360度视频中的)，和/或基于多源的内容(例如，像在FTV中的)的内容。该技术提供用来识别3D视频内容是否包括ROI，以及识别该ROI内容。例如，内容可被编码成图块(例如，子图像)。本文所论述的技术可被用来支持依赖于视口的处理，其决定与ROI或用户的视口有关的特定图块，并且仅仅递送那些图块。发明人已明白用于球形内容的ROI/视口表示需要与基本内容关联。本文所揭露的技术提供用来隐含地或明确地关联这种ROI内容。

ROI和视口信息可在时变元数据轨或视频轨元数据内被发信。然而，在一些情况下，当这些媒体轨携带各自的图块或子图像的内容时，使时变元数据轨或视频轨元数据与个别媒体轨关联可能是不想要(及/或不可行)。为了避免这种困难，本文所描述的技术提供用来使用复合轨发信视口或ROI。本技术提供用来使时变元数据轨及/或视频轨元数据与相应的复合轨关联。例如，视口/ROI可被明确地发信用于3D球形内容，例如，经由视口/ROI时变元数据轨与经由复合轨推导的3D内容的关联。

如本文所述，文件和流媒体格式类型包括ISOBMFF和MPEG DASH。当VR内容使用MPEG DASH进行递送时，许多用例(例如，最常用的ROI、导演ROI等)经常需要发信MPD内的视口和ROI用于VR内容。这可帮助解码器/客户决定哪个(如果有的话)视口和ROI来递送和渲染。现有的包括DASH的流媒体格式可能不支持发信使用本文所揭露的技术表示的视口/ROI(例如，用于球形内容)。为了在DASH中发信视口或ROI表示，本文所描述的技术使元数据表示与以文件格式的复合(碎片化)轨的媒体表示关联。DASH媒体表示可以包括对与复合轨从其推导的变体轨相对应的表示的依赖性。

在以下描述中，关于所揭露的主题的系统和方法以及其中这种系统和方法可操作的环境等陈述了许多具体细节，以便提供所揭露的主题的透彻理解。另外，需要理解的是，在下面所提供的示例是示例性的，并且预期存在着在所揭露的主题的范围内的其他系统和方法。

图1示出了根据一些实施例的示例性视频编码配置100。相机102A-102N是N个相机，并且可为任何类型的相机(例如，包括音频记录能力的相机，和/或单独的相机与音频记录功能)。编码装置104包括视频处理器106和编码器108。视频处理器106处理从相机102A-102N接收的视频，诸如拼合、投影及/或映射。该编码器108编码和/或压缩二维视频数据。该解码装置110接收经编码的数据。该解码装置110可通过广播网络，通过移动网络(例如，蜂窝网络)，和/或通过因特网接收视频作为视频产品(例如，数码视盘，或其他计算机可读媒体)。该解码装置110可为例如计算机，头戴显示器的一部分，或具有解码能力的任何其他设备。该解码装置110包括用于解码经编码的视频的解码器112。该解码装置110还包括用于将二维内容渲染回为球体的渲染器114。显示器116显示来自该渲染器114的经渲染的内容。

感兴趣区域(ROI)在概念上稍微类似于视口。ROI例如可表示全方向视频的3D或2D编码中的区域。ROI可具有不同的形状(例如，正方形或圆形)，其可关于3D或2D视频(例如，基于位置、高度等)进行界定。例如，感兴趣区域可表示可被放大的图像中的区域，并且相应的ROI视频可被显示为被放大视频内容。在一些实施中，该ROI视频是已经准备好的。在这种实施中，感兴趣区域通常具有携带ROI内容的单独的视频轨。因此，经编码的视频指定ROI，以及该ROI视频如何与潜在的视频相关联。

诸如静态构造的ROI轨的ROI或视口轨可与主视频关联。例如，ROI可与主视频关联以促进放大和缩小操作，其中该ROI用以为放大区域提供内容。例如，MPEG-B，第10部分，日期为2016年6月2日(w16191)的题为“Carriage of Timed Metadata Metrics of Media inISO Base Media File Format”，其因此通过全文引用的方式并入到本文中，其描述了使用时变元数据轨的ISO基础媒体文件格式(ISOBMFF)文件格式来发信具有2D ROI轨的主2D视频轨。作为另一示例，HTTP上的动态适配流(DASH)包括空间关系描述符来发信在主2D视频表示与其关联的2D ROI视频表示之间的空间关系。2016年7月29日的ISO/IEC 23009-1第三版草案(w16225)，提及了DASH，并且因此通过全文引用的方式并入到本文中。

本文所描述的技术提供用于动态ROI及/或视口(例如，响应于用户的选择的ROI及/或视口)。本文所揭露的技术将ROI扩展至例如3D内容，诸如VR内容。例如，该技术可被用来将ROI扩展至为基于高效视频编解码(HEVC)图块的内容，基于可适性视频编码(SVC)的内容，基于子图像的内容(例如，像在360度视频中的)，及/或基于多来源的内容(例如，像在FTV中的)的内容。该技术提供用于识别3D视频内容是否包括ROI，以及识别ROI内容。例如，内容可被编码成图块(例如，子图像)。本文所论述的技术可被用来支持依赖于视口的处理，其决定与ROI或用户的视口关联的特定图块，并且仅仅递送那些图块。

当发信ROI时，可生成各种信息，包括与该ROI的特性有关的信息(例如，识别、类型(例如，位置、形状、尺寸)、目的、质量、等级等)。信息可被生成来使内容与ROI关联，包括视觉(3D)球形内容，和/或球形内容的投影的和映射的(2D)帧。ROI可以由若干属性来表征，诸如其识别，在其所关联的内容中的位置，及其形状和尺寸(例如，关于球形及/或3D内容)。还可添加像区域的质量与等级排名的附加的属性，如本文进一步所述。

在一些实施例中，为了指定在该球体上的ROI的形状和尺寸，可采用某些球形概念。图3A示出了具有一个大圆圈302和两个小圆圈304的球体300。如图所示，该大圆圈302跨越球形表面以及穿过该球体300的中心的2D平面(图未示)的交叉。因此，该大圆圈302是包括该球体300的直径的该球体300的截面。该小圆圈304示出了球形表面以及不穿过该球体300的中心的2D平面(图未示)的交叉，并且因此各自与不包括该球体300的直径的该球体300的截面关联。

可有若干不同的方式来结合或用线连接在采用大和/或小圆圈的球体上的两个点。在该球体上的任何两个点可通过唯一大圆圈的部分(segment)结合，其提供了在该球体上的他们之间的最短路径。这两个点也可通过(例如，无限数量的)由包括这两个点的2D平面交叉的小圆圈来连接。当采用小圆圈时，在这两个点之间的路径在2D平面被固定(例如，正交于该球体特定轴线而固定)时是唯一的。出于示例性目的，下述的视口的描述假定了图3B中所示的北(N)和南(S)极是固定的，连同偏航角(yaw)，俯仰角(pitch)和翻滚角(roll)(图未示)的默认坐标系。各个ROI可具有ROI中心，其是在该球体上的点，定义为视点，该视点采用其俯仰角和偏航角来指示该ROI是包括该视点的在该球体上的区域。例如，图3C显示了根据一些实施例的具有大致矩形形状的ROI 350。该ROI 350包括视点352作为其中心。该ROI 350包括沿着水平方向的两个点：处在该视点的左侧的中心的左点(LL)，以及处在该视点的右侧的中心的右点(RR)。该ROI 350包括沿着垂直方向的两个点：处在该视点的上侧的中心的顶部点(TT)，以及处在该视点的底侧的中心的底部点(BB)。

在下面进一步论述的图4A-4E示出了根据一些实施例的ROI形状的示例性表示。如本文所述，在一些实施例中，该ROI可采用矩形的形状。也可采用其他形状，诸如圆形、三角形、三维形状以及类似者。一些实施例提供了技术来描述采用一系列的特性的这样的各种ROI以定义具有不同的形状、位置和/或关于ROI的其他附加的信息的视口，如本文进一步所述。

矩形ROI可以各种方式来表达。例如，矩形面积可在该球体的表面上描述，其可被采用小圆圈、大圆圈和/或小圆圈和大圆圈的组合来表达。图4A示出了根据一些实施例的矩形ROI 410。该矩形ROI 410在(偏航角，俯仰角)处具有其中心视点410A(例如，其可关于如上所述的潜在的默认坐标系进行指定，并且图未示)。矩形ROI 410具有在大圆圈上的水平和垂直边界。第一大圆圈410B与点LL交叉，第二大圆圈410C与点RR交叉，第三大圆圈410D与点TT交叉，并且第四大圆圈410E与点BB交叉。该矩形ROI 410具有沿着这些点(LL-视点-RR)限定的宽度，其可当做是pitch_height。该矩形ROI 410具有沿着这些点(TT-视点-BB)限定的高度，其可当做是pitch_height。在一些实施例中，该矩形ROI 410可用yaw,pitch,yaw_width以及pitch_height来发信。yaw_width的值可指定在垂直垂直边界之间的宽度。pitch_height的值可指定在水平边界之间的高度。

图4B示出了根据一些实施例的第二矩形ROI 420。该矩形ROI 420在(偏航角，俯仰角)处具有其中心视点420A。该矩形ROI 420具有在大圆圈上的垂直边界。第一大圆圈420B与点LL交叉，并且第二大圆圈420C与点RR交叉。该矩形ROI 420具有在小圆圈上的水平边界。第一小圆圈420D与点TT交叉，并且第二小圆圈420E与点BB交叉。该矩形ROI 420具有沿着这些点(TT-视点-BB)限定的高度，其可当做是pitch_height。该矩形ROI 420具有沿着这些点(LL-视点-RR)限定的宽度，其可当做是yaw_width。在一些实施例中，该矩形ROI 420可用yaw,pitch,yaw_width以及pitch_height来发信。yaw_width的值可指定在垂直边界之间的宽度。pitch_height的值可指定在水平边界之间的高度。

在一些实施例中，矩形ROI可通过将大圆圈以及小圆圈的使用交换到图4B所示来表示。例如，大圆圈可用在水平方向(例如，带(band))，而小圆圈可用在垂直方向(例如，带)。这种示例性ROI可在(偏航角，俯仰角)处具有其中心视点，并且具有在水平边界之间的高度(TT-视点-BB)的在大圆圈上的水平边界为pitch_height，并且具有在垂直边界之间的宽度(LL-视点-RR)的在小圆圈上的垂直边界为yaw_width。这一示范性ROI可采用(yaw,pitch,yaw_width,pitch_height)来发信。

在一些实施例中，矩形ROI可采用在水平和垂直方向(例如，带)上的小圆圈来表现。这种示例性矩形ROI在(偏航角，俯仰角)处具有其中心视点，并且具有在垂直边界之间的宽度(LL-视点-RR)的在小圆圈上的水平和垂直边界为yaw_width，并且在水平边界之间的高度(TT-视点-BB)为pitch_height。这一示例性ROI可作为(yaw,pitch,yaw_width,pitch_height)来发信。

在一些实施例中，本文所述的矩形ROI可采用其他技术进行指定。例如，矩形ROI可采用(yaw,pitch，yaw_left,yaw_right,pitch_top,pitch_bottom)进行指定，其中中心在(偏航角，俯仰角)处并且该ROI的LL，RR，TT和BB点分别由yaw_left,yaw_right,pitch_top以及pitch_bottom进行限定。例如，LL处在(yaw_left,pitch_bottom+(pitch_top-pitch_bottom)/2)。

图4C示出了根据一些实施例的圆形ROI 430。该圆形ROI 430是圆形，其由垂直于从该球体中心430B到在(偏航角，俯仰角)处的视点430C的射线430A的平面(图未示)限定，它的点全部具有从射线430A的交叉点430E和该平面的在该平面上的距离半径430D。在一些实施例中，当半径430D等于零时，则该ROI 430成为在(偏航角，俯仰角)处的单视点。在一些实施例中，该圆形ROI 430可用偏航角、俯仰角和半径来发信。

多边形可被用来描述ROI。多边形可表达为在该球体上的一系列点。这一系列点可以特定方式连结在一起，诸如以顺时针方向或逆时针方向将他们连结在一起。图4D示出了根据一些实施例的由多边形表示的ROI 440。该多边形ROI440由边界440A形成，该边界440A由连接在包括ROI_中心440F的区域周围的任何两个相邻视点的大圆圈限定。该多边形ROI440可用(偏航角，俯仰角，偏航角_1，俯仰角_1，…偏航角_n，俯仰角_n)来发信，其中n是该多边形的点的数量。例如，当n＝3时，有三个点，其限定三角形形状的ROI。作为另一示例，当n＝4时，有四个点，其限定矩形。

图4E示出了根据一些实施例的由三维形状452的面表示的ROI 450。基于面的ROI450是包括在(偏航角，俯仰角)处的视点454的3D几何形状452(在这个示例中，盒)的面，示为面456。在一些实施例中，该ROI 450是与从该球体中心到该视点454的射线458交叉的3D几何形状452的面。尽管示例性的图4E示出了作为三维形状的盒，但是其他三维形状可被采用，诸如金字塔和更复杂的多边形状。基于面的ROI 450可用(偏航角，俯仰角)来发信。

如下面进一步讨论的，如果支持多个ROI，则各个ROI可与索引号或形状号关联。例如，如果支持两个ROI，则那两个ROI可用索引号1和2来支持以便识别ROI的类型，如下面进一步论述的。作为另一示例，图4A-4E中所示的各个ROI可采用索引号或形状号1-5来表示。

ROI可使用样本条目、样本格式或两者来指定。ROI规范可与视频(例如，描述ROI的元数据)关联。例如，该ROI规范可被携带在ISO基础媒体文件格式的时变元数据轨中，以及在视频轨中。该ISO基础媒体文件格式被限定在参见上文并且通过全部引用而并入到本文中的w16191中。

图5A示出了根据一些实施例的示例性3D球面坐标样本条目(3dsc)500。该3D球面坐标样本条目500提供关于以三维球面坐标(偏航角，俯仰角，翻滚角)表示的参考轨的空间信息。样本条目(sample entry)是‘3dsc’的类型，容器是‘stsd’样本描述盒(descriptionbox)，条目是非强制性的，并且数量可为或0或1。

图5B示出了根据一些实施例的3D球面坐标系样本条目等级510。该样本条目等级是3D球面坐标系样本条目，其扩展了图5A中所讨论的MetadataSampleEntry‘3dsc’。该样本条目包括三个16比特无符号整数reference_yaw，reference_pitch，和reference_roll。用于reference_pitch,reference_yaw以及reference_roll的条目可分别给出在参考系统中的俯仰角，偏航角和翻滚角的参考(或偏移)值，在该参考系统中计算球形点的偏航角和翻滚角。在一些实施例中，reference_yaw,reference_pitch以及reference_roll的最大范围可分别为[0，180]，[0，360]和[0，360]，表示用于俯仰角，偏航角和翻滚角的最大角范围[-90，90]，[-180，180]，[-180，180]。在一些实施例中，最大值范围也可选择来表示用于俯仰角，偏航角和翻滚角的最大角范围[-90，90]，[0，360]，[0，360]。在一些实施例中，例如，如果北极和南极以标准方式固定并且没有引入附加的翻滚角，这三个条目的值可被设置为0。

图5C示出了根据一些实施例的ROI语法520的示例。这一语法520仅仅是出于示例性目的。可采用不同的语法，例如，根据ROI的类型(例如，如上所讨论的)，以及视口的类型，及/或类似者。图5C中的示例ROI语法520是等级ROIDefinitionSample。

“source_id”是8比特无符号整数，其可提供为球形内容的源唯一标识符。在一些实施例中，共享相同source_id值的ROI可共享相同的球面坐标。

“roi_id”是8比特无符号整数，其可提供唯一标识符用于关于用source_id识别的球形内容的该ROI。

“roi_type”是8比特无符号整数，其可为ROI类型提供代码。如上所述，不同的ROI形状可采用索引或形状号而在其中进行区别。例如，图5D是表格530，其示出了根据一些实施例的类型532，在该球体上的形状边界534的描述，以及相关的信令536。例如，一个类型(1)可表示圆形ROI，四个类型值(2-5)可被用来表示四个矩形ROI，一个类型值(6)可被用来表示多边形类型，并且一个类型值(7)可被用来表示3D几何ROI。

“yaw”和“pitch”是16比特无符号整数，其可分别提供在该球体上的点或视点的偏航角和俯仰角的值。在一些实施例中，其为该ROI所包括的这个点。

“radius”是16比特无符号整数，其可指示圆形ROI的半径(例如，如图5D中所示的具有等于1的roi_type)。

“yaw_width”和“pitch_height”是16比特无符号整数，其可为在该球体上的四个矩形ROI类型中的每一个关于偏航角和俯仰角分别给出宽度和高度值。例如，这些字段(field)可被用于具有图5D中所示的等于2，3，4和5“roi_type”的ROI。

“num_vertices”是16比特无符号整数，其可指示多边形ROI(例如，具有图5D中等于6的roi_type)的顶点的数量。在一些实施例中，这个值典型地大于或等于3。对于该多边形的各个顶点，“vertex_yaw”和“vertex_pitch”是16比特无符号整数，其可限定关联的顶点的偏航角和俯仰角值。

“purpose”是8比特无符号整数，其可给出用于该ROI定义的目的的代码值。该目的例如可包括被保留(0的值)，渲染(1的值)，注释(2的值)，预取(3的值)，和/或类似者。

“quality”是8比特无符号整数，其可给出用于ROI的内容质量的代码值。例如，“quality”值可在0到255的范围内，其中0是最低，并且255为最高。

“ranking”是8比特无符号整数，其可给出用于ROI的内容排名的代码值。例如，“ranking”值可在0到255的范围内，其中0是最低，并且255为最高。

“interpolate”是1比特无符号整数(例如，用以表现真或假值)，其可指示连续样本在时间上的连续性。例如，当为真值时，应用可将相应的ROI元数据属性的值线性地插值在前一个样本和当前样本之间。当为假值时，在前一个样本和当前样本之间不应有任何的值的插值。在一些实施例中，当采用插值时，经插值的样本可在所参考的轨中匹配样本的呈现时间。例如，对于视频轨的各个视频样本，计算一个经插值的ROI定义样本。

如上所指出的，仅仅这些示范性字段子集可被用于特定ROI。例如，语法可根据ROI或视口的类型而省略一些字段及/或可不填充一些字段(例如，或者用空值填充这种字段)。例如，对于圆形ROI，则可用“yaw”和“pitch”字段来指定方向，并且可用“radius”字段来指定半径。作为另一示例，对于矩形ROI，则可用“yaw_width”和“pitch_height”字段来指定该矩形ROI的尺寸。

编码器和解码器可被用于处理这种ROI/视口信息。例如，编码器可被用于存储描述ROI的元数据，诸如采用指定ROI的球形区域结构。该元数据可包括在该球体上的ROI的中心点，以及附加的数据。例如，该元数据可包括指示一组边界点的数据，诸如用于在该球体上的该感兴趣区域的每一侧的边界点(例如，左、右、上和底中心边界点)。例如，该元数据可包括水平范围和垂直范围，其可基于相关的一组边界点(例如，用于该水平范围的左和右边界点)和在该球体上的该ROI的中心点进行计算。如本文所述，该元数据可描述圆形ROI，矩形ROI，多边形ROI，基于3D形状的ROI，及/或类似者。

作为另一示例，解码器可接收包括感兴趣区域的视频数据，并且识别与指定在球体上的该感兴趣区域的视频数据关联的球形区域结构(例如，元数据)。该球形区域结构可指定足以描述ROI的数据，如本文所述(例如，在3D数据中的ROI)。解码器可基于该球形区域结构决定在该视频数据中的该感兴趣区域。

本文所描述的技术提供用于使ROI与其基本内容(例如，ROI是其部分的内容)关联的技术。可隐含地或明确地做出该关联。例如，在单个文件中，可存在携带球形内容的多个片或它们的投影的版本的多个视频轨。因此，需要指示或发信哪个轨(或多个轨)具有与仅仅一个球形表面有关的内容。隐含的关联可取决于ROI信息被放置在哪里。例如，如果ROI信息被放置在具有该内容的视频轨内，则其可自然地暗示该ROI是该内容的部分。例如，ROI可与其中该ROI信息的信令是其部分的视频轨的内容关联。在一些实施例中，在文件格式中，如果ROI在时变元数据轨中发信并且该文件仅仅包括具有一个或多个视频轨(可能具有不同的质量)的单片内容，则该ROI隐含地与文件中的媒体内容关联。

在一些实施例中，如果ROI在视频轨中作为其元数据发信，则其与该轨的视频内容关联。例如，在MPEG DASH中，如果ROI在媒体演示描述(MPD)的元数据表示中发信，并且该MPD仅仅包括媒体类型视频的一个媒体元素，则其与MPD中的视频组件的内容关联。作为另一示例，如果ROI作为元数据元素或视频表示的元数据属性发信，则其隐含地与包括的视频表现的内容关联。

在一些实施例中，ROI与内容的关联可更加明确地完成。尤其是，由于通常视频内容是视频内容，因此ROI实际上取决于谁在观看内容以及谁考虑什么区域是有趣的。做出关联的灵活方式可以是从视频内容中取出ROI。例如，两个观看者(例如，编辑或终端用户)可在观看相同的内容，但各个观看者的兴趣在于观看内容的完全不同的区域。因此各个观看者可为视频内容限定ROI(或视口)信息，并且然后指向视频来指示该视频具有两个ROI(例如，用于各个观看者的ROI)。

在一些实施例中，ROI可明确地对于视觉(例如，3D)球形内容及/或与投影的和映射的(例如，2D)帧进行关联。对于例如2D关联，ROI可映射至2D内容，然后该2D内容可映射至球形内容，使得该ROI关联以2D水平来完成。对于例如3D关联，3D球形内容可具有在时变元数据轨中指定的视口/ROI信息。例如，以文件格式的轨与以MPEG DASH中的adaptationSets和表示的分组和关联机制可被用来明确地做出关联。例如，在文件格式中，如果ROI在时变元数据轨中发信，则其可通过该元数据轨中的Track Reference Box与一个或多个视频轨关联以便将其联合至一个或多个视频轨。作为另一示例，ROI可采用元数据和视频轨的轨组盒机制进行关联来将视频轨集合在一起，以便指示视频轨作为相同源的一组媒体轨被关联在一起。作为进一步的示例，在MPEG DASH中，如果ROI在元数据表示中发信并且视频表示与使用@associationId和@associationType属性的该元数据表示关联，则该ROI可与该视频表示的视频内容关联。

在一些实施例中，ROI可与由投影、映射及/或划分3D球形内容的源而产生的2D视频帧的轨关联。该轨可包括可被用来重建3D ROI的内容。在一些实施例中，2D视频帧的单个轨可与例如零或多个ROI关联，以便指示该轨促成那些零或多个ROI。

ROI语法和关联技术可被用于各种用例。图6示出了根据一些实施例的示例性ROI用例的表格600。表格600显示了每一用例602，用于用例的ROI信令的目的604，以及用于用例的支持606。如表格600中所示，用例可包括内容预提取610，最多观看区域612，来自艺术意图的导演视图614，用于按需内容的初始视口616，随机存取视口618，用于非VR装置的可用视图620，背景纹理622，特写视图(视频到视频)624，注解626，质量排名628，以及3D基于面的ROI 630。

如所讨论的，ROI和视口信息可在时变元数据轨或者视频轨元数据中发信，例如，类似于用于2D视频的空间信息的运输。然而，在一些情况下可能不想要(及/或不可行)使时变元数据轨或视频轨元数据与ROI和视口元数据信息所关联的媒体轨关联(例如，什么元数据被关联，以及元数据与哪些媒体轨关联)。例如，如果内容被投影至2D平面并且然后被分成图块/子图像，则各自将被携带在单个视频轨中。然而，如果想要指定VR内容，而球形内容具有ROI或视口，则需要技术来将该ROI或视口关联至所有的关联的图块/子图像。作为一般性示例，使视口与图块/子图像关联的一个方式是在元数据轨中限定ROI，并且然后在元数据轨中捕捉该ROI信息(例如，矩形形状)。然而，这可能不与现有的视频编码技术一致，这是因为如果该元数据轨被关联至视频轨，则该视频轨自身具有由该元数据轨指定的ROI。例如，如果有一批子图像轨，则不期望指示出每一个都具有ROI，这是因为其是具有ROI的球形表面。

图7示出了根据一些示例的用于VR内容的依赖于视口的内容流程700。如图所示，球形视口701(例如，其可包括全部的球体)在方块702经历拼合，投影，映射(以便生成投影的和映射的区域)，在方块704被编码(以便以多种质量生成经编码/转码的图块)，在方块706被递送(作为图块)，在方块708被解码(以便生成解码的图块)，在方块710被构建(以便构建球形经渲染的视口)，并且在方块712被渲染。在方块714的用户互动可选择视口，其通过虚线箭头启动如图所示的若干“及时”处理步骤。

在流程700中，由于当前网络带宽限制和各种适应需求(例如，关于不同的质量，编码解码器和保护方案)，3D球形VR内容被首先处理(拼合、投影和映射)在2D平面上(通过方块702)并且然后封装成若干基于图块的(或基于子图像的)以及分段的文件(在方块704)用于回放和递送。在这种基于图块的和以及分段的文件中，在2D平面中的空间图块(例如，其通常以2D平面内容的矩形形状来表现空间部分)通常被封装为其的一批变体(例如，诸如以不同的质量和比特率，或以不同的编码解码器和保护方案(例如，不同的加密算法和模式))。在一些示例中，这些变体对应于MPEG DASH中适应组内的表示。在一些示例中，其是基于用户的对视口的选择，以至于当放在一起时提供所选择视口的覆盖的不同的图块的这些变体的一些被接收器检索或递送给接收器(通过递送方块706)，并且然后被解码(在方块708)以便构建和渲染所期望的视口(在方块710和712)。

为了避免在编码相同内容中的冗余，通常存在不同尺寸的图块(例如，较大或较小图块)，其表示其他图块的相同内容。因此，当图块变体被分别地封装在个别轨中时，图块变体包括中通常没有层级结构，其可导致在文件内和/或在不同的文件的轨包括的层级结构的缺乏。因此，通常没有用于成批图块(例如，用于球形内容的全部图块)的性能和元数据可关联的单个轨。因此，为这批图块和轨指定元数据会是困难的和/或不可行的。

ISOBMFF包括用于轨的一些分组机制(例如，其可被用来分组图块)。例如，诸如theTrack Group Box'trgr'和Track Selection Box'tsel'的盒可被用来标注轨并且将他们分别发信为一组轨和一候补组轨。通过采用这种盒，具有相同组标识符和组类型的个别轨属于相同的组。然而，通过标注个别轨的这种轨分组机制当用在一般依赖于视口之内容流程的情况下时可表示若干问题。这些问题可起因于例如没有表示图块的变体轨的内容的单个“图块”轨的事实，没有表示全部的球形VR内容的内容(其是全部个别“图块”轨的组合)的单个轨的事实，和/或类似者。该问题可包括例如，决定多少轨属于特定组的低效率，没有扫描通过文件或全部相关文件中的全部的轨。该问题可包括例如在使关于全部的球形VR内容的任何全局信息(例如，诸如投影和映射信息，视口，ROI，以及其他元数据)与任何特定轨关联中的不可行性，如果不是与每一个“变体”轨关联的话。这可例如由任何元数据轨(例如，诸如空间信息的时变元数据)典型地与媒体轨(其通过‘cdsc’(内容描述)轨参考描述)的事实造成。空间信息的时变元数据可例如，根据m39974中Geneva CH的2017年1月的题为“VRROI Signaling”所描述的来实施，其因此通过全文引用而并入到本文中。使各个元数据轨与每一个媒体“变体”轨关联会是麻烦且繁琐的，例如，特别是如果图块的数量和各个图块的变体的数量的乘法变得相当大时。该问题还可包括在支持由一组现有轨的新轨的构建以便支持例如及时视口构建来覆盖一些目标ROI中的困难。

在一些实施例中，视口或ROI可采用复合轨来发信。因此，复合媒体轨可被推导出来，并且时变元数据轨和视频轨元数据可与它们的相应的复合轨关联。例如，视口/ROI可明确地被发信用于3D球形内容，例如，经由视口/ROI时变元数据轨和经由复合轨推导出来的3D内容的关联。采用复合轨提供了单个轨，其可被用来表示图块的变体轨的内容。此外，采用复合轨可避免使各个元数据轨与每一个媒体变体轨关联的需要。进一步地，采用复合轨可允许全局信息只与该复合轨关联，并且可避免编码器/解码器需要决定多少轨属于特定组。作为进一步的示例，使用复合轨可帮助建立轨层级来指示轨在复合关系方面如何相关，例如，当该复合轨从变体轨和(复合)图块轨推导出来时。

推导的轨可由包括类型‘dtrk’的样本条目的轨识别。推导的样本可包括在来自输入轨的序列表的相应的图像或样本的序列表上待被顺序执行的操作的序列表。每一操作可由TransformProperty指定或指示。例如，一系列TransformProperty操作可包括身份('idtt')；纯净光圈('clap')；旋转('srot')；迭化画面('dslv')；裁切('2dcc')；及/或类似者。

为了支持VR依赖于视口之内容流程，附加的TransformProperty项可被用来从现有轨推导出复合轨。可生成复合轨的各种类型，诸如全部视频轨(‘cmpa’)的复合，仅仅一个轨的复合(‘cmp1’，其可允许在样本和样本组层面上的切换)，任何轨的复合(‘cmpn’，其可允许在样本和样本组层面上的切换)，仅仅一个轨的选择(‘sel1’，其可为轨层面上选择，并且可不包括在样本层面上的切换)，任何轨的选择(‘seln’，其可为轨层面上选择，并且可不包括在样本层面上的切换)，缩放(‘scal’)，重设尺寸(‘resz’)，和/或类似者。

例如，‘cmpa’转换特性可指定推导的样本的参考宽度和高度，并且可在其相应的指定x，y位置和指定尺寸将各个输入图像放置(例如，组成)在推导的样本上。‘cmp1’转换特性可指定推导的样本的参考宽度和高度，并且可在其相应的位置和相应的尺寸将输入图像中的一个、任意一个与仅仅一个放置在推导的样本上。‘cmpn’转换特性可指定推导的样本的参考宽度和高度，并且可在它们的相应的位置并且用它们的相应的尺寸将输入图像中的一个或多个放置在推导的样本上。‘sel1’转换特性可指定推导的样本的参考宽度和高度，并且可在它们的相应的位置和相应的尺寸将输入图像中的一个或多个放置在推导的样本上。‘sel1’转换特性可以类似于从一系列输入轨选择一个轨。‘seln’转换特性可指定推导的样本的参考宽度和高度，并且可在它们的相应的位置并且用它们的相应的尺寸将来自从全部的转换中选择的输入轨的相同子集的一个或多个输入图像放置在推导的样本上。‘seln’转换特性可以类似于从一系列输入轨选择n(n>0)轨。

基本上，‘cmpa’，‘cmp1’，‘cmpn’，‘sel1’，和‘seln’操作指定类似于提供2D空间信息的字段的若干‘2dcc’用于根据它们的各自定义和语义将输入2D图像样本组成到推导的2D图像样本上。根据一些实施例，用这些附加的TransformProperty项，“图块”轨可采用‘cmp1’或‘sel1”被指定为其“变体”轨的推导的复合轨。当被投影在2D平面上时，整个的VR球形内容的轨可采用‘cmpa’被指定为其“图块”轨的推导的复合轨。视口或ROI轨可采用‘cmpn’或‘seln’被指定为其“图块”的轨推导的复合轨。该技术描述在2017年1月的题为“Deriving Composite Tracks in ISOBMFF”的m33971中，其因此通过全文引用而并入到本文中，其提供了用于将2D复合轨映射回为球形3D内容的技术。

本文所介绍的技术提供了用于将VR视口或ROI轨推导为复合轨的技术。根据一些实施例，VR(投影的和映射的)视口或ROI轨可由图块轨限定。例如，视口或ROI轨可采用转换特性‘cmpn’或‘seln’限定。作为另一示例，若干视口或ROI轨可采用‘cmpa’由图块变体轨限定(例如，根据某些变体特点)，其然后可采用‘sel1’通过选择他们中的一个被复合在一起。用于VR视口或ROI的时变元数据轨或视频轨元数据可被定义。该元数据轨或元数据然后可例如通过‘cdsc’(内容描述)轨参考及/或通过将该元数据放置在内容轨内而与这样定义的复合VR视口或ROI内容轨关联。

第8A图示出了根据一些实施例的采用复合轨来发信视口/ROI的示例性图示800。第图8B示出了根据一些实施例的采用复合轨发信视口/ROI的示例性流程850。在步骤852，该编码器将2D子图像/图块编码成一个或多个不同的质量及/或一个或多个不同的加密模式。例如，参考图示800，在步骤852，四个2D子图像(或图块)轨t1-t4(802)被编码用于两个不同的质量(例如，用于HD的‘h’和用于SD的‘s’)和两个不同的加密模式(例如，具有用于CTR的加密模式‘a’和用于CBC的加密模式‘b’的常见加密方案(CENC))。编码和加密生成四个轨804A-D(通常称为经编码轨804)的四个不同的组，总共16个轨。经编码图块804A对应于采用第一加密模式(‘a’)编码的高质量(‘h’)(因此，‘ha’)。经编码图块804B对应于采用第二加密模式(‘b’)编码的高质量(‘h’)(因此，‘hb’)。经编码图块804C对应于采用第一加密模式(‘a’)编码的低质量(‘l’)(因此，‘la’)。经编码图块804D对应于采用第二加密模式(‘b’)编码的低质量(‘l’)(因此，‘lb’)。

该复合轨基于经编码轨804生成。在步骤854，图块选自经编码的轨804。该图块可基于一个或多个转换特性(例如，在如上所述的一系列TransformProperties中)选择。参考图8A，例如，四个图块s1-s4根据用于这一示例的如下所示的操作进行选择：

s1＝sel1{cmp1{t1ha，t1la}，cmp1{t1hb，t1lb}}

s2＝sel1{cmp1{t2ha，t2la}，cmp1{t2hb，t2lb}}

s3＝sel1{cmp1{t3ha，t3la}，cmp1{t3hb，t3lb}}

s4＝sel1{cmp1{t4ha，t4la}，cmp1{t4hb，t4lb}}

参考以上的示例性操作，采用了组合(cmp1)和选择(sel1)，这是因为该复合轨来自采用不同的质量和加密模式编码的若干不同的轨。首先采用‘cmp1’组成质量变体并且然后采用‘sel1’组成加密变体。例如，假定子图像轨的m×n个网格，其中每一子图像具有q个不同的质量并且以2个模式加密，因此有m×n×q×2个轨。但是当适应性地流化该内容时，仅仅用于潜在的连接带宽的质量被动态地选择，而加密模式被静态地选择。因此，‘cmp1’被用以在样本或样本组级选择适当质量图块，并且‘sel1’被用以在轨级选择适当经加密图块，如上所述。

进一步参见图8B，在步骤856，被选择的图块轨被组成到2D内容轨中以便生成一个或多个2D内容轨。例如，参考图8A，组合在选择的轨806上执行以便将子图像复合到2D内容轨中。组合流程生成组合轨C 808和组合轨r 810。组合轨C 808可包括来自选择的轨806的全部的数据，而组合轨r 810可包括选择的轨806的子集的数据。组合轨C可采用例如cmpa{s1，s2，s3，s4}生成，其复合全部的图块。在一些实施例中，如果ROI或视口包括或由任一个图块t1，t2，t3和t4覆盖，则ROI或视口轨可采用‘cmpn’(例如，和/或也许其他转换特性，如果包括了裁切、重设尺寸或旋转)决定。例如，该ROI或视口组合轨r 810可采用cmpn{s1，s2，s3，s4}决定。在一些实施例中，如果ROI或视口包括或仅仅由图块t1和t2覆盖，则ROI或视口轨可采用‘cmpa’(例如，和/或也许其他转换特性，如果包括了裁切，重设尺寸或旋转)决定。例如，组合轨r 810可生成为cmpa{s1，s2}。

进一步参见图8B，在步骤858，该编码器用该ROI或视口信息生成元数据轨。在步骤860，该编码器使用于该ROI或视口的元数据与一个或多个组成的轨关联。例如，参考图8A，该编码器可在时变元数据轨m 812中指定用于ROI(或视口)信息的时变元数据轨。该编码器可采用该时变元数据轨m 812来使ROI轨关联至组合轨C 808或r 810，诸如通过‘cdsc’(内容描述)轨参考。

当采用MPEG DASH递送VR内容时，图6中的表格600内显示的许多用例经常需要在用于VR内容的MPD内发信视口和ROI。这可帮助解码器/客户决定哪个(若有的话)视口和ROI来递送和渲染。为了在DASH中发信视口或ROI，本文所介绍的技术使元数据表示与文件格式中的复合(碎片化)轨的媒体表示关联，并且该媒体表示具有对对应于变体轨的依赖性，该复合轨从该变体轨来推导。

不同的技术可被用来在ISOBMF中携带ROI(例如，或通常空间的)信息。一个示例在于将信息处理为它们的关联的媒体轨的时变元数据，并且在时变元数据轨中携带该ROI信息。另一个示例在于将信息处理为它们的关联的媒体轨的样本说明，并且在媒体轨中携带该ROI信息。

MPEG DASH规范采用@associationId提供SRD(空间关系描述符)的机制和表现关联，以便在表示中间发信空间关系和元数据关系。图2A示出了根据一些示例的发信“主视频(main video)”具有“ROI视频(ROI video)”的图示200，其可采用时变元数据提供ROI的特写视图。DASH 202表示包括三个表示204，206和208：“主视频”的表示(representation(main video))204，“ROI视频”的表示(representation(RIO video))206，和“ROI元数据”的表示(representation(ROI metadata))208，其采用@associatoinId与“ROI视频”表示关联。ISOBMFF 220表示包括三个‘trak’，“主视频”‘trak’(trak(main video))222，“ROI视频”‘trak’(trak(ROI video))224，以及“ROI元数据”‘trak’(trak(ROI metadata))226。此外，如图所示各个轨具有关联的元数据。“主视频”‘trak’222包括用于主视频样本的元数据，“ROI视频”‘trak’224包括用于该ROI视频样本的元数据，并且“ROI元数据”‘trak’226包括用于该元数据样本的元数据。

图2B示出了根据一些示例的发信“主视频”具有“ROI视频”的图示250，其可采用视频轨元数据提供ROI的特写视图。相比于图2B，DASH表示252包括相同的首先两个表现表示204和206。DASH 252包括不同的ROI元数据表示254，其与主视频(而不是该ROI视频)关联。ISOBMFF表示仅仅包括两个‘trak’，即“主视频”‘trak’(trak(main video))272和“ROI视频”‘trak’(trak(ROI video))274。“主视频”‘trak’272包括“ROI元数据”。

现有技术没有提供用于使ROI及/或视口与复合轨关联。本文所揭露的技术提供用于发信的机制，从而在DASH中发信视口和ROI信息(例如，用于依赖于视口的VR内容处理流程)。如在m33971中所介绍，“变体”轨可被组成为“图块”轨，并且“图块”轨然后成为“内容”轨。这可采用例如在2016年10月的题为“Technologies under Consideration forISOBMFF”的N16420中所描述的推导的轨机制来完成。基本上，推导的轨自身不包括任何媒体样本，而是该推导的轨仅仅指定一系列输入媒体轨和一系列转换特性，其限定输入媒体轨的样本应如何进行处理来产生推导的轨的样本。在m39971中所提议的复合轨是推导的轨，该推导的轨是其输入媒体轨的根据一些空间关系信息和逻辑关系(例如，全部、任何一个和任意的)的复合。复合轨可用来指定例如来自“变体”轨的“图块”轨和来自“图块”轨的“内容”轨。

图9示出了根据一些实施例的复合轨及其输入轨的图示900。“复合视频(composite video)”包括对视频源“视频1(video 1)”到“视频N(video N)”的“N”个参考。各个视频源轨与用于那些视频样本的元数据关联。在一些示例中，当复合轨对应于VR球形内容(及/或该VR球形内容的一部分)时，视口和ROI信息可以不同的方式进行携带。例如，视口和ROI信息可被携带在时变元数据轨中并且与该复合轨关联，处理为复合轨元数据并且在该复合轨内携带，及/或类似者。在一些示例中，该复合轨可如m39973中的题为“Signaling for VRViewports and ROIs in ISOBMFF using Composite Tracks”所论述的那样进行实施，其因此通过全文引用的方式并入到本文中。该复合轨视口和ROI信息可如2017年1月的m39629中的题为“ROI Signaling for VR Content”所论述的那样进行实施，其因此通过全文引用的方式并入到本文中。

图10示出了根据一些实施例的采用时变元数据轨发信视口和ROI的图示1000。参考ISOBMFF部分1002，“复合视频”被显示在上‘trak’1004中，构建其从“视频1”到“视频N”轨进行构建。如通过包括mdat()的‘trak’1004所示的那样，“复合视频”轨并没有内容，这是因为其没有存储任何样本。实际的视频在‘trak’1006A(用于“视频1”)到1006N(用于“视频N”)中。例如，为了播放轨，实际的内容来自‘trak’1006A-N。在‘trak’1008处，“v/r视频”是视口/ROI视频。‘trak’1010是元数据轨，其包括回到‘trak’1004中的主“复合视频”轨的参考(‘tref’)。因此，如图示1000中所示，当‘trak’1010中的元数据携带ROI及/或视点数据时，则该ROI及/或视点数据联合回到该复合视频。

参考DASH部分1050，DASH具有对应于全部轨的不同表示。表示1052对应于“复合视频”，其具有对视频表现1到N的依赖性(使用@dependencyId来指示)。表示1054A到1054N分别对应于视频1到视频N。表示1056对应于“v/r视频”，其为视口/ROI视频。表示1058包括元数据。该元数据使用@associationID进行关联以便指向该复合视频表示的表示的ID(其是表示0，具有该复合视频的表示1052)。

如图所示，DASH表示与ISOBMFF‘trak’有关。尤其是，复合DASH表现1052与‘trak’1004有关；视频1表示1054A到视频N表示1054N分别与‘trak’1006A到‘trak’1006N有关；v/r视频表现1056与v/r‘trak’1008有关；并且元数据表示1058与‘trak’1010有关。

因此，对于DASH，可存在该复合视频表示1052的对视频表示1054A-N的依赖性。这一依赖性提供了机制来支持例如视口的预取和ROI相关的表示分段。

图11示出了采用视频轨元数据发信视口和ROI的图示1100。DASH格式1150包括关于第10图(分别为表示1052，1054A-N，1056和1058)中的那些的类似的表示1152，1154A-N，1156和1158。参考该ISOBMFF表示1102，轨1006A-N和1008与图10中的那些相同。图11中的第一轨1104现在包括元数据，这是因为该示例采用了视频轨元数据。因此，不存在类似于图10中的轨1010的用于ISOBMFF表示1102的相应的最后轨。而是，该元数据表示1158与第一ISOBMFF轨1104有关。剩余的轨1154A-N和1156与轨1006A-N和1008有关，类似于图10。因此，在DASH中，当该元数据被携带在视频轨中时，DASH仍然包括单独的表示1158，而ISOBMFF不包括单独的元数据‘trak’。因此，当视口和ROI信息被存储作为若干其他轨的复合媒体轨的视频轨元数据时，并且信息被携带在用于ISOBMFF的复合轨内，而对应于该复合轨的附加的元数据表示用于DASH。图10-11中所示的示意图可转变成用于MPEG DASHMPD的适当的XML表达，以便支持视口和ROI相关的使用情况。

根据本文所介绍的原则的技术操作可以任何适当的方式进行实施。上面的流程图的处理和决策块表示可包括在执行这些各种处理的算法内的步骤和动作。从这些处理推导的算法可实施为与一个或多个单一或多功能处理器集成并且指导一个或多个单一或多功能处理器的操作的软件，可实施为功能等同的电路诸如数字信号处理(DSP)电路或特定用途集成电路(ASIC)，或可以任何其他适当方式实施。应明白的是，本文中所包括的流程图没有描述任何特定电路的或任何特定程序设计语言的语法或操作或程序设计语言的类型。而是，流程图示出了功能信息，本领域技术人员可用来制造电路或用来实施计算机软件算法从而执行特定设备的处理，该特定设备执行本文所介绍的类型的技术。还应明白的是，除非本文中另外指出，在各个流程图中所介绍的步骤及/或动作的特定顺序仅仅是可实施的说明性的算法，并且其可在本文所介绍的原则的实现和实施例内进行变化。

因此，在一些实施例中，本文所介绍的技术可体现在计算机可执行指令中，该计算机可执行指令实施为软件，包括实施为应用软件，系统软件，固件，中间软件，嵌式码，或任何其他适当类型的计算机编码。这种计算机可执行指令可采用若干适当程序设计语言及/或程序设计或脚本工具中的任一种写成，并且还可编辑为在框架或虚拟机上执行的可执行的机器语言代码或中间代码。

当本文所介绍的技术体现为计算机可执行指令时，这些计算机可执行指令可以任何适当的方式实施，包括实施为若干功能设施，各自提供一个或多个操作来根据这些技术完成算法操作的执行。然而，具现化的“功能设施”是计算机系统的结构组件，其在集成于一个或多个计算机并且由该一个或多个计算机执行时促使该一个或多个计算机执行具体的操作角色。功能设施可为部分的或全部的软件元素。例如，功能设施可实施为处理的函数，或实施为离散处理，或实施为任何其他适当处理单元。如果本文所介绍的技术实施为多个功能设施，则各个功能设施可以其自身的方式实施；一切都不需要以同样的方式实施。此外，这些功能设施可视情况而并行地或串行地执行，并且可采用消息传递协议或以任何其他适当方式在使用他们所执行的计算机(或多个计算机)上的共享存储器的彼此之间传递信息。

通常，功能设施包括例程、程序、对象、组件、数据结构等，其执行特定任务或实施特定抽象数据类型。典型地，功能设施的功能可根据其所操作的系统中的需要进行结合或分布。在一些实施中，执行本文所介绍的技术的一个或多个功能设施可一起形成完整的软件包。这些功能设施在备选的实施例中可适于与其他无关的功能设施及/或处理交互，以便实施软件程序应用。

一些示范性功能设施已经在本文中进行了介绍，用于执行一个或多个任务。应明白的是，尽管所介绍的功能设施和任务分工仅仅是可实施本文所介绍的示范性技术的功能设施的说明性的类型，但实施例不限于以任何具体数目、分工或功能设施的类型来实施。在一些实施中，全部功能可以单个功能设施来实施。还应明白的是，在一些实施中，本文所介绍的一些功能设施可与其他的一起或分开地进行实施(即，作为单个单元或独立的单元)，或者这些功能设施中的一些可不被实施。

实施本文所介绍的技术的计算机可执行指令(当实施为一个或多个功能设施或以任何其他方式实施时)在一些实施例中可被编码在一个或多个计算机读媒体上以便给媒体供功能。计算机可读媒体包括诸如硬盘驱动器的磁媒体，诸如光盘(CD)或数字光盘(DVD)的光学媒体，持久性或非持久性固态存储器(例如，闪速存储器，磁性RAM等)，或任何其他适当存储媒体。这种计算机可读媒体可以任何适当方式实施。如本文中所用的，“计算机可读媒体”(还称“计算机可读存储媒体”)指的是有形的存储媒体。有形的存储媒体是非暂时性的并且具有至少一个物理的结构组件。在如本文中所用的“计算机可读媒体”中，至少一个物理的结构组件具有至少一个物理特性，其可在一下流程器件以一些方式改变：用嵌入信息生成媒体的流程，在其上记录信息的流程，或用信息编码媒体的任何其他流程。例如，计算机可读媒体的实体结构的一部分的磁化状态可在记录流程期间被改变。

进一步地，以上所介绍的一些技术包括以某些方式存储信息(例如，数据及/或指令)的动作，以便由这些技术使用。在这些技术的一些实施中—诸如其中技术被实施为计算机可执行指令的实施—信息可被编码在计算机可读存储媒体上。在具体结构在本文中被介绍为将这一信息存储在其中的有利格式的情况下，这些结构可用以给当被编码在存储媒体上时的信息赋予物理组织。这些有利结构然后可通过实现与信息交互的一个或多个处理器的操作而提供功能给存储媒体；例如，通过增加由该处理器(或多个处理器)执行的计算机操作的效率。

在其中技术可体现为计算机可执行指令的一些而非全部的实施中，这些指令可在以任何适当计算机系统运行的一个或多个适当的计算装置上执行，或者一个或多个计算装置(或一个或多个计算装置的一个或多个处理器)可被程序设计来执行计算机可执行指令。当指令以可访问计算装置或处理器的方式存储时，诸如在数据存储中(例如，片上高速缓存或指令寄存器，可藉由总线访问的计算机可读存储媒体，可藉由一个或多个网络访问并且通过装置/处理器访问的计算机可读存储媒体等)，计算装置或处理器可被程序设计来执行该执行指令。包括这些计算机可执行指令的功能设施可与下述集成并且指导它们的操作：单个多目的可程序设计数码计算装置，共享处理能力并且共同执行本文所介绍的技术的两个或多个多目的计算装置的协作系统，专用于执行本文所介绍的技术的单个计算装置或计算装置的协作系统(同地协作的或地理分布的)，用于执行本文所介绍的技术的一个或多个现场可程序设计门阵列(FPGAs)，或任何其他适当系统。

计算装置可包括至少一个处理器、网络适配器和计算机可读存储媒体。计算装置可例如为桌面计算机或笔记本电脑、个人数字助理(PDA)、智能型移动电话、服务器或任何其他适当计算装置。网络适配器可为任何适当硬件及/或软件以便使得计算装置能够在任何适当计算网络上与任何其他适当计算装置有线及/或无线通信。计算网络可包括无线接入点、交换机、路由器、网关及/或其他网络设备以及用于在两个或多个计算机(包括因特网)之间交换数据的任何适当有线及/或无线通信媒介或媒体。计算机可读媒体可适于存储待被处理器处理的及/或指令待被处理器执行的数据。该处理器使得能够处理数据和执行指令。该数据和指令可被存储在计算机可读存储媒体上。

计算装置可另外具有一个或多个组件和外围设备，包括输入和输出装置。这些装置除了别的以外还可用来呈现用户接口。可被用来提供用户接口的输出装置的示例包括用于输出的视觉表现的打印机或显示屏以及用于输出的声音表现的扬声器或其他声音生成装置。可被用于用户接口的输入设备的示例包括键盘和定点装置，诸如鼠标、触摸板和数字面板。作为另一示例，计算装置可通过语音识别或以其他声音格式接收输入信息。

已经介绍了实施例，其中技术以电路及/或计算机可执行指令实施。应明白的是，一些实施例可为方法的形式，其中已经提供了至少一个示例。作为方法的部分而被执行的动作可以任何适当的方式排序。因此，实施例可被构建，其中的动作以不同于所示的顺序来执行，其可包括同时执行一些动作，即使在所示的实施例中被显示为连续动作。

以上所介绍的实施例的各种方面可单独地、相结合地或以未在上文中所介绍的实施例中具体论述的各种布置使用，并且因此在其应用方面不限于前述说明书所述的或图中所示的组件的细节和布置。例如，在一个实施例中所介绍的方面可与其他实施例中所介绍的方面以任何方式进行结合。

在申请专利范围中用以修饰要求保护的组件的诸如“第一”、“第二”、“第三”等的序数词的使用自身并不意味着要求保护的组件相比于另一个要求保护的组件具有任何优先，居先，或顺序或其中执行方法的动作的时序要求保护的组件，而仅是用作标注来区分具有某些命名的一个要求保护的组件与具有相同命名的另一个组件(但是对于序数词的使用)从而区分这些要求保护的组件。

而且，本文所用的措辞和术语是用于说明的目的，而不应看做是限制。在本文中使用的“包括(including)”、“包括(comprising)”、“具有(having)”、“含有(containing)”、“涉及(involving)”以及它们的变体意在包括其后列出的项目及其等同物以及附加的项目。

用语“示例性”在本文中用来意味著作为示例、比方或例证。本文中作为示例介绍的任何实施例、实施、处理、特征等因此应理解为说明性的示例，而不应理解为优选的或有利的示例，除非另外指出。

因此已经介绍了至少一个实施例的若干方面，应明白的是，各种变化、变型和改进将易于被本领域技术人员所想到。这种变化、变型和改进意在成为这一公开内容的部分，并且意在落入本文所介绍的原则的精神和范围内。从而，前述的说明书和图式只是举例的方式。

Claims

1.一种用于解码视频数据的解码方法，所述方法包括：

接收包括感兴趣区域的视频数据；

识别与所述视频数据关联的球形区域结构，其指定在球体上的所述感兴趣区域，所述球形区域结构包括：

在所述球体上的所述感兴趣区域的参考点；

指示一组边界点的数据，所述一组边界点包括用于在所述球体上的所述感兴趣区域的每一侧的边界点；以及

基于所述参考点与所述一组边界点决定在所述视频数据中的所述感兴趣区域，

其中包括所述感兴趣区域的所述视频数据使用时变元数据或视频轨元数据发信，所述球形区域结构的至少一部分在时变元数据轨中发信或在视频轨中发信。

2.如权利要求1所述的用于解码视频数据的解码方法，其特征在于，其中决定所述感兴趣区域包括：

决定指示一组边界点的数据被设置为零；以及

决定所述感兴趣区域对应于在所述参考点的一点。

3.如权利要求1所述的用于解码视频数据的解码方法，其特征在于，其中：

指示所述一组边界点的数据包括水平范围与垂直范围；

所述参考点是所述感兴趣区域的中心点；以及

决定所述感兴趣区域包括：

基于所述水平范围决定用于所述感兴趣区域的左侧的中心的左中心点与用于所述感兴趣区域的右侧的中心的右中心点；

基于所述垂直范围决定用于所述感兴趣区域的上侧的中心的上中心点与所述感兴趣区域的底侧的中心的底中心点；

基于延伸越过所述左中心点、右中心点、上中心点与底中心点中的每一个的四个大圆圈决定所述感兴趣区域，其中所述四个大圆圈中的每一个大圆圈由穿过所述球体的中心的关联的二维平面界定。

4.如权利要求1所述的用于解码视频数据的解码方法，其特征在于，其中：

指示所述一组边界点的数据包括水平范围与垂直范围；

所述参考点是所述感兴趣区域的中心点；并且

决定所述感兴趣区域包括：

基于下述来决定所述感兴趣区域：

两个大圆圈延伸越过所述左中心点与右中心点中的每一个，其中所述两个大圆圈中的每一个大圆圈由穿过所述球体的中心的关联的二维平面来界定；以及

两个小圆圈延伸越过所述上中心点和底中心点中的每一个，其中所述两个小圆圈中的每一个小圆圈由不穿过所述球体的中心的关联的二维平面界定。

5.如权利要求1所述的用于解码视频数据的解码方法，其特征在于，其中：

当球形区域结构的至少一部分在时变元数据轨中发信时，在所述时变元数据轨中的轨参考盒使所述球形区域结构的所述部分与所述视频数据关联。

6.如权利要求5所述的用于解码视频数据的解码方法，其特征在于，其中所述时变元数据轨包括指示所述感兴趣区域的类型的数据。

7.如权利要求6所述的用于解码视频数据的解码方法，其特征在于，其中所述感兴趣区域的类型包括基于若干视图的所述感兴趣区域的排名、所述感兴趣区域与导演的视图关联的指示，或它们的一些组合。

8.如权利要求5所述的用于解码视频数据的解码方法，其特征在于，其中所述时变元数据轨包括指示所述感兴趣区域的质量的数据，所述感兴趣区域的排名，或它们的一些组合。

9.如权利要求1所述的用于解码视频数据的解码方法，其特征在于，其中：

所接收的视频数据包括来自复合视频轨的数据；并且

识别所述球形区域结构包括识别用于与所述复合视频轨关联的所述球形区域结构的元数据。

10.如权利要求9所述的用于解码视频数据的解码方法，其特征在于，其中所述元数据包括具有与所述球形区域结构关联的元数据的时变元数据轨。

11.如权利要求9所述的用于解码视频数据的解码方法，其特征在于，其中所述复合视频轨基于选自多个二维图块轨的轨而组成，其中每一二维图块轨与质量、加密模式或其两者关联。

12.一种用于解码视频数据的装置，所述装置包括与存储器通信的处理器，所述处理器用于执行存储在所述存储器中的指令，所述指令使得所述处理器来：

接收包括感兴趣区域的视频数据；

在所述球体上的所述感兴趣区域的参考点；

13.一种用于编码视频数据的编码方法，所述方法包括：

编码包括感兴趣区域的视频数据，包括生成在球体上的指定所述感兴趣区域的球形区域结构，所述球形区域结构包括：

在所述球体上的所述感兴趣区域的参考点；

指示一组边界点的数据，所述一组边界点包括用于所述球体上的所述感兴趣区域的每一侧的边界点；以及

使所述球形区域结构与所述视频数据关联以便指定所述视频数据中的所述感兴趣区域，

14.如权利要求13所述的用于编码视频数据的编码方法，其特征在于，进一步当在时变元数据轨中发信所述球形区域结构的至少一部分时，在所述时变元数据轨中的轨参考盒使所述球形区域结构的所述部分与所述视频数据关联。

15.如权利要求13所述的用于编码视频数据的编码方法，其特征在于，其中：

编码所述视频数据包括编码复合视频轨；并且

使所述球形区域结构与所述视频数据关联包括：

生成用于所述球形区域结构的元数据；以及

使所生成的元数据与所述复合视频轨关联。

16.如权利要求15所述的用于编码视频数据的编码方法，其特征在于，其中生成所述元数据包括生成具有与所述球形区域结构关联的元数据的时变元数据轨。

17.如权利要求15所述的用于编码视频数据的编码方法，其特征在于，其中编码所述复合视频轨包括基于选自多个二维图块轨的轨编码所述复合视频轨，其中每一二维图块轨与质量、加密模式或其两者关联。

18.一种用于编码视频数据的装置，所述装置包括与存储器通信的处理器，所述处理器用于执行存储在所述存储器中的指令，所述指令使得所述处理器来：

在所述球体上的所述感兴趣区域的参考点；