CN109644262A

CN109644262A - 发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置

Info

Publication number: CN109644262A
Application number: CN201780051515.6A
Authority: CN
Inventors: 李长远; 吴世珍; 徐琮烈
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2016-08-25
Filing date: 2017-08-23
Publication date: 2019-04-16
Also published as: US11115641B2; EP3503546A4; US20200280712A1; KR20190075040A; KR102264028B1; EP3503546A1; WO2018038520A1; US20180063505A1; US10687043B2

Abstract

根据本发明的一方面公开了一种发送全向视频的方法。根据本发明的一个实施方式的发送全向视频的方法包括以下步骤：获取全向视频的图像；将全向视频的图像投影到三维投影结构上；将投影到三维投影结构上的图像打包成二维帧；对打包成二维帧的图像进行编码；以及发送编码的图像和包括全向视频的元数据的数据信号。

Description

发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置

技术领域

本发明涉及用于发送和接收全向媒体的方法和装置，更具体地，涉及用于发送和接收全向视频以及与全向视频有关的元数据的方法和装置。

背景技术

随着模拟广播信号传输终止，已开发出用于发送和接收数字广播信号的各种技术。数字广播信号能够包含比模拟广播信号更大量的视频/音频数据，并且还包含各种类型的附加数据以及视频/音频数据。

虚拟现实(VR)系统向用户提供处于电子投影的环境中的体验。可增强VR系统以便提供具有更高清晰度的图像和空间声音。VR系统可允许用户交互地使用VR内容。

发明内容

发明目的

需要增强VR系统以便更有效地向用户提供VR环境。为此，有必要为了诸如VR内容的大量数据的传输、发送网络和接收网络之间的鲁棒性、考虑移动接收机的网络灵活性、有效再现和信令方法等提供数据传输效率。

本发明提出当提供全向视频内容时通过定义和传送关于全向视频的属性的元数据来有效地提供全向视频服务的方法。

技术方案

本说明书公开了定义、存储和用信号通知与全向视频有关的元数据，使得在再现全向视频时用户可观看制作者所预期的视图(点)或区域的方法。具体方法如下。

公开了一种定义、存储和用信号通知关于2D空间中的区域信息的元数据的方法。

公开了一种定义、存储和用信号通知关于2D空间中的视点(点)信息的元数据的方法。

公开了一种定义、存储和用信号通知关于3D空间中的区域信息的元数据的方法。

公开了一种定义、存储和用信号通知关于3D空间中的视点(点)信息的元数据的方法。

公开了一种用信号通知关于区域信息或视点(点)信息的元数据轨道与全向视频轨道之间的关系的方法。

公开了一种使用DASH来发送和用信号通知元数据的方法。

公开了一种使用MPEG-2TS来发送和用信号通知元数据的方法。

公开了一种使用视频编码层(VCL)来发送和用信号通知元数据的方法。

说明书公开了在再现全向视频时定义、存储和用信号通知关于与视频有关的GPS信息的元数据的方法。具体方法如下。

公开了一种定义、存储和用信号通知关于GPS相关信息的元数据的方法。

公开了一种用信号通知关于GPS相关信息的元数据轨道与全向视频轨道之间的关系的方法。

本发明的技术效果

本发明可在支持使用地面广播网络和互联网的未来混合广播的环境中有效地发送全向内容。

本发明可提出在用户的全向内容消费中提供交互体验的方法。

本发明可提出在用户的全向内容消费中正确地反映全向内容制作者的意图的信令方法。

本发明可提出在全向内容传送中有效地增加传输容量并传送必要信息的方法。

本发明可提出当提供全向视频内容时通过定义和传送关于360度视频的属性的元数据来有效地提供全向视频服务的方法。

附图说明

图1示出根据本发明的用于提供360度视频的架构。

图2示出根据本发明的一方面的360度视频发送装置。

图3示出根据本发明的另一方面的360度视频接收装置。

图4示出根据本发明的另一实施方式的360度视频发送装置/360度视频接收装置。

图5示出用于描述根据本发明的3D空间的飞行器主轴的概念。

图6示出根据本发明的一个实施方式的投影方案。

图7示出根据本发明的一个实施方式的拼块。

图8示出根据本发明的一个实施方式的360度视频相关元数据。

图9示出根据本发明的一个实施方式的媒体文件结构。

图10示出根据本发明的一个实施方式的ISOBMFF中的盒的分层结构。

图11示出根据本发明的一个实施方式的基于DASH的自适应流模型的总体操作。

图12示出根据本发明的一个实施方式的关于2D空间中的区域信息的元数据。

图13示出根据本发明的一个实施方式的关于2D空间中的视点(点)信息的元数据。

图14示出根据本发明的一个实施方式的关于3D空间中的区域信息的元数据。

图15示出根据本发明的各种实施方式的关于要在3D空间中表示的个体区域的元数据。

图16示出根据本发明的一个实施方式的tref盒。

图17示出根据本发明的一个实施方式的关于GPS的元数据。

图18示出根据本发明的一个实施方式的关于区域信息或视点信息的元数据的MPD信令传输。

图19示出根据本发明的另一实施方式的关于区域信息或视点信息的元数据的MPD信令传输。

图20是根据本发明的一个实施方式的接收机的框图。

图21示出根据本发明的另一实施方式的关于区域信息或视点信息的元数据的MPD信令传输。

图22是根据本发明的另一实施方式的接收机的框图。

图23示出根据本发明的另一实施方式的关于区域信息或视点信息的元数据的MPD信令传输。

图24示出根据本发明的另一实施方式的关于区域信息或视点信息的元数据的MPD信令传输。

图25是根据本发明的另一实施方式的接收机的框图。

图26示出流标识符以及关于分配给流标识符的流的信息。

图27示出流类型以及关于分配给流类型的流的部分信息。

图28示出通过PES分组发送的访问单元。

图29示出根据本发明的一个实施方式的适配字段。

图30示出根据本发明的一个实施方式的扩展描述符。

图31示出包括在扩展描述符中的扩展描述符标签的值以及这些值的描述。

图32示出根据本发明的一个实施方式的vdci扩展描述符。

图33示出根据本发明的一个实施方式的2D vdci描述符。

图34示出根据本发明的一个实施方式的球面vcdi描述符。

图35是根据本发明的另一实施方式的接收机的框图。

图36示出根据本发明的一个实施方式的包括在SEI消息中的关于区域信息或视点信息的元数据。

图37是根据本发明的另一实施方式的接收机的框图。

图38是示出根据本发明的一个实施方式的发送全向视频的方法的流程图。

图39是根据本发明的一个实施方式的发送全向视频的装置的框图。

图40是示出根据本发明的一个实施方式的接收全向视频的方法的流程图。

图41是根据本发明的一个实施方式的接收全向视频的装置的框图。

具体实施方式

现在将详细参考本发明的优选实施方式，其示例示出于附图中。下面将参照附图给出的详细描述旨在说明本发明的示例性实施方式，而非示出可根据本发明实现的仅有实施方式。

尽管本说明书中的元件的大多数术语是考虑其在本说明书中的功能从本领域中广泛使用的一般术语中选择的，但是这些术语可根据本领域技术人员的意图或习惯或者新技术的引入而改变。一些术语已由申请人任意选择，其含义根据需要在以下描述中说明。因此，本说明书中所使用的术语应该基于本说明书的总体内容以及术语的实际含义而非其简单名称或含义来解释。

图1示出根据本发明的用于提供360度视频的架构。

本发明提出了一种用于提供360度内容或全向媒体以便向用户提供VR(虚拟现实)的方法。VR是指用于复制实际或虚拟环境的技术或环境。VR人为地向用户提供感官体验，因此用户可体验到电子投影的环境。

360度内容是指用于实现和提供VR的内容，并且可包括360度视频和/或360度音频。360度视频可指提供VR所需的在所有方向上(360度)拍摄或再现的视频或图像内容。360度视频可指根据3D模型在3D空间上以各种形式表示的视频或图像。例如，360度视频可被表示在球面上。360度音频是用于提供VR的音频内容，并且可指可被识别为具有位于特定空间上的音频生成源的内容的空间音频内容。360度内容可被生成、处理并发送给用户，用户可使用360度内容来消费VR体验。以下，360内容/视频/图像/音频可被表示为没有单位(度)的360内容/视频/图像/音频或VR内容/视频/图像/音频。此外，360内容/视频/图像/音频可与全向内容/视频/图像/音频互换使用。

本发明提出了一种有效地提供360度视频的方法。为了提供360视频，首先，可使用一个或更多个相机来拍摄360视频。所拍摄的360视频通过一系列处理来发送，并且接收方可将所接收的数据处理成原始360视频并渲染360视频。因此，可将360视频提供给用户。

具体地，用于提供360视频的过程可包括拍摄处理、准备处理、传输处理、加工处理、渲染处理和/或反馈处理。

拍摄处理可指通过一个或更多个相机拍摄多个视点的图像或视频的处理。可通过拍摄处理生成图中所示的图像/视频数据t1010。所示图像/视频数据t1010的各个平面可指各个视点的图像/视频。所拍摄的图像/视频可被称为原始数据。在拍摄处理中，可生成与拍摄有关的元数据。

为了拍摄，可使用用于VR的特殊相机。当根据实施方式提供使用计算机生成的虚拟空间的360视频时，可不执行使用相机的拍摄。在这种情况下，拍摄处理可由简单地生成相关数据的处理代替。

准备处理可以是处理所拍摄的图像/视频以及在拍摄处理中生成的元数据的处理。在准备处理中，所拍摄的图像/视频可经历拼接、投影、区域式打包和/或编码。

首先，图像/视频可经历拼接处理。拼接处理可以是将所拍摄的图像/视频连接以创建单个全景图像/视频或球面图像/视频的处理。

然后，拼接的图像/视频可经历投影处理。在投影处理中，拼接的图像/视频可被投影在2D图像上。该2D图像可被称为2D图像帧。2D图像上的投影可被表示为向2D图像的映射。投影的图像/视频数据可具有如图所示的2D图像t1020的形式。

投影在2D图像上的视频数据可经历区域式打包处理以便增加视频编码效率。区域式打包可指将投影在2D图像上的视频数据分割成区域并处理所述区域的处理。这里，区域可指通过分割投影有360视频数据的2D图像而获得的区域。根据实施方式，这些区域可通过相等地或随机地分割2D图像来获得。根据实施方式，可根据投影方案来分割区域。区域式打包处理是可选处理，因此可在准备处理中省略。

根据实施方式，该处理可包括在2D图像上旋转区域或重新布置区域以便增加视频编码效率的处理。例如，区域可被旋转，使得区域的特定边被定位成彼此邻近，以增加编码效率。

根据实施方式，该处理可包括增大或减小特定区域的分辨率以便区分360视频的区域的分辨率的处理。例如，与360视频的相对重要的部分对应的区域的分辨率可被增大到高于其它区域。投影在2D图像上的视频数据或区域式打包的视频数据可经历使用视频编解码器的编码处理。

根据实施方式，准备处理可另外包括编辑处理。在编辑处理中，可编辑投影之前或之后的图像/视频数据。在准备处理中，可生成关于拼接/投影/编码/编辑的元数据。另外，可生成关于投影在2D图像上的视频数据的初始视点或ROI(感兴趣区域)的元数据。

传输处理可以是处理并发送已经历准备处理的图像/视频数据和元数据的处理。为了传输，可执行根据任意传输协议的处理。已被处理用于传输的数据可经由广播网络和/或宽带来传送。可按照按需方式向接收方传送数据。接收方可通过各种路径接收数据。

加工处理指将接收的数据解码并将投影的图像/视频数据重新投影在3D模型上的处理。在此处理中，投影在2D图像上的图像/视频数据可重新投影在3D空间上。该处理可被称为映射投影。这里，映射有数据的3D空间可具有取决于3D模型的形式。例如，3D模型可包括球体、立方体、圆柱体和锥体。

根据实施方式，加工处理还可包括编辑处理、放大处理等。在编辑处理中，可编辑重新投影之前或之后的图像/视频数据。当图像/视频数据已被减小时，可在放大处理中通过样本的放大来增大图像/视频数据的大小。必要时，可通过缩小来减小大小。

渲染处理可指渲染并显示在3D空间上重新投影的图像/视频数据的处理。重新投影和渲染可被共同表示为在3D模型上渲染。在3D模型上重新投影(或渲染)的图像/视频可具有如图所示的形式t1030。形式t1030对应于图像/视频数据被重新投影在球形3D模型上的情况。用户可通过VR显示器等来观看渲染的图像/视频的区域。这里，用户所观看的区域可具有图中所示的形式t1040。

反馈处理可指将可在显示处理中获取的各种类型的反馈信息传送到发送方的处理。通过反馈处理，可提供360视频消费中的交互性。根据实施方式，在反馈处理中，可将头部取向信息、指示用户当前观看的区域的视口信息等传送到发送方。根据实施方式，用户可与VR环境中实现的内容交互。在这种情况下，可在反馈处理中将与交互有关的信息传送到发送方或服务提供方。根据实施方式，可不执行反馈处理。

头部取向信息可指关于用户的头部的位置、角度和运动的信息。基于该信息，可计算关于用户当前观看的360视频的区域的信息(即，视口信息)。

视口信息可以是关于用户当前观看的360视频的区域的信息。可使用视口信息来执行注视分析，以检查用户消费360视频的方式、用户所注视的360视频的区域以及用户注视该区域多久。注视分析可由接收方执行，并且可通过反馈信道将分析结果传送至发送方。诸如VR显示器的装置可基于用户头部的位置/方向、装置所支持的垂直或水平FOV等来提取视口区域。

根据实施方式，上述反馈信息可在接收方处消费以及被传送至发送方。即，可使用上述反馈信息执行接收方的解码、重新投影和渲染处理。例如，可优先使用头部取向信息和/或视口信息仅解码并渲染与用户当前观看的区域对应的360视频。

这里，视口或视口区域可指用户当前观看的360视频的区域。视点是360视频中用户观看的点，并且可指视口区域的中心点。即，视口是基于视点的区域，该区域的大小和形式可由FOV(视场)(将在下面描述)确定。

在用于提供360视频的上述架构中，经受一系列拍摄/投影/编码/传输/解码/重新投影/渲染处理的图像/视频数据可被称为360视频数据。术语“360视频数据”可用作包括与这种图像/视频数据有关的元数据或信令信息的概念。

图2示出根据本发明的一方面的360视频发送装置。

根据一方面，本发明可涉及一种360视频发送装置。根据本发明的360视频发送装置可执行与上述准备处理至传输处理有关的操作。根据本发明的360视频发送装置可包括数据输入单元、拼接器、投影处理器、区域式打包处理器(未示出)、元数据处理器、(发送方)反馈处理器、数据编码器、封装处理器、发送处理器和/或发送器作为内部/外部元件。

数据输入单元可接收各个视点的拍摄的图像/视频。视点的图像/视频可以是通过一个或更多个相机拍摄的图像/视频。另外，数据输入单元可接收在拍摄处理中生成的元数据。数据输入单元可将接收的视点的图像/视频传送至拼接器并将在拍摄处理中生成的元数据传送至信令处理器。

拼接器可将拍摄的视点的图像/视频拼接。拼接器可将拼接的360视频数据传送至投影处理器。必要时，拼接器可从元数据处理器接收必要的元数据并将该元数据用于拼接操作。拼接器可将在拼接处理中生成的元数据传送至元数据处理器。拼接处理中的元数据可包括指示是否执行拼接、拼接类型等的信息。

投影处理器可将拼接的360视频数据投影在2D图像上。投影处理器可根据各种方案执行投影(将在下面描述)。投影处理器可考虑各个视点的360视频数据的深度来执行映射。必要时，投影处理器可从元数据处理器接收投影所需的元数据并将该元数据用于投影操作。投影处理器可将在投影处理中生成的元数据传送至元数据处理器。投影处理的元数据可包括投影方案类型。

区域式打包处理器(未示出)可执行上述区域式打包处理。即，区域式打包处理器可执行将投影的360视频数据分割成区域，旋转或重新布置区域，或者改变各个区域的分辨率的处理。如上所述，区域式打包处理是可选处理，当不执行区域式打包处理时，可省略区域式打包处理器。必要时，区域式打包处理器可从元数据处理器接收区域式打包所需的元数据并将该元数据用于区域式打包操作。区域式打包处理器的元数据可包括各个区域旋转的程度、各个区域的大小等。

根据实施方式，上述拼接器、投影处理器和/或区域式打包处理器可由一个硬件组件实现。

元数据处理器可处理可在拍摄处理、拼接处理、投影处理、区域式打包处理、编码处理、封装处理和/或加工处理中生成的元数据以用于传输。元数据处理器可使用这种元数据来生成360视频相关元数据。根据实施方式，元数据处理器可按照信令表的形式生成360视频相关元数据。根据上下文，360视频相关元数据可被称为元数据或360视频相关信令信息。此外，必要时，元数据处理器可将所获取或生成的元数据传送至360视频发送装置的内部元件。元数据处理器可将360视频相关元数据传送至数据编码器、封装处理器和/或发送处理器，使得元数据可被发送至接收方。

数据编码器可对投影在2D图像上的360视频数据和/或区域式打包的360视频数据进行编码。可按照各种格式对360视频数据进行编码。

封装处理器可将编码的360视频数据和/或360视频相关元数据封装到文件中。这里，360视频相关元数据可以是从元数据处理器传送来的。封装处理器可按照诸如ISOBMFF、CFF等的文件格式来封装数据，或者将数据处理成DASH分段。根据实施方式，封装处理器可包括文件格式的360视频相关元数据。例如，360视频相关元数据可按照ISOBMFF文件格式包括在各种级别的盒中，或者作为数据包括在文件中的附加轨道中。根据实施方式，封装处理器可将360视频相关元数据封装到文件中。发送处理器可对按照文件格式封装的360视频数据执行用于发送的处理。发送处理器可根据任意传输协议来处理360视频数据。用于发送的处理可包括用于通过广播网络传送的处理以及用于经由宽带传送的处理。根据实施方式，除了360视频数据之外，发送处理器可从元数据处理器接收360视频相关元数据并对该360视频相关元数据执行用于发送的处理。

发送单元可经由广播网络和/或宽带来发送处理的360视频数据和/或360视频相关元数据。发送单元可包括用于经由广播网络发送的元件以及用于经由宽带发送的元件。

根据本发明的实施方式，360视频发送装置还可包括数据存储单元(未示出)作为内部/外部元件。数据存储单元可在传送至发送处理器之前存储编码的360视频数据和/或360视频相关元数据。这种数据可按照诸如ISOBMFF的文件格式存储。当实时发送360视频时，可不使用数据存储单元。然而，按需、非实时或经由宽带传送360视频，封装的360数据可被存储在数据存储单元中达预定时段然后发送。

根据本发明的另一实施方式，360视频发送装置还可包括(发送方)反馈处理器和/或网络接口(未示出)作为内部/外部元件。网络接口可从根据本发明的360视频接收装置接收反馈信息，并将该反馈信息传送至(发送方)反馈处理器。反馈处理器可将反馈信息传送至拼接器、投影处理器、区域式打包处理器、数据编码器、封装处理器、元数据处理器和/或发送处理器。根据实施方式，反馈信息可被传送至元数据处理器，然后被传送至各个内部元件。在接收到反馈信息时，内部元件可在360视频数据处理中反映反馈信息。

根据本发明的360视频发送装置的另一实施方式，区域式打包处理器可旋转区域并将区域映射在2D图像上。这里，区域可在不同的方向上以不同的角度旋转并被映射在2D图像上。可考虑投影之前在球面上360视频数据的邻近部分和拼接部分来旋转区域。关于区域的旋转的信息(即，旋转方向和角度)可使用360视频相关元数据用信号通知。根据依据本发明的360视频发送装置的另一实施方式，数据编码器可对各个区域不同地执行编码。数据编码器可对特定区域以高质量进行编码，并且对其它区域以低质量进行编码。发送方的反馈处理器可将从360视频接收装置接收的反馈信息传送至数据编码器，使得数据编码器可使用针对区域区分的编码方法。例如，反馈处理器可将从接收方接收的视口信息传送至数据编码器。数据编码器可对包括视口信息所指示的区域的区域以比其它区域更高的质量(UHD)进行编码。

根据依据本发明的360视频发送装置的另一实施方式，发送处理器可对各个区域不同地执行用于发送的处理。发送处理器可对区域应用不同的传输参数(调制阶数、码率等)，使得为区域传送的数据具有不同的鲁棒性。

这里，反馈处理器可将从360视频接收装置接收的反馈信息传送至发送处理器，使得发送处理器可执行针对各个区域区分的发送处理。例如，反馈处理器可将从接收方接收的视口信息传送至发送处理器。发送处理器可对包括视口信息所指示的区域的区域执行发送处理，使得所述区域具有比其它区域更高的鲁棒性。

根据本发明的360视频发送装置的上述内部/外部元件可以是硬件元件。根据实施方式，内部/外部元件可被修改、省略、由其它元件代替或者与其它元件集成。根据实施方式，附加元件可被添加到360视频发送装置。

图3示出根据本发明的另一方面的360视频接收装置。

根据另一方面，本发明可涉及一种360视频接收装置。根据本发明的360视频接收装置可执行与上述加工处理和/或渲染处理有关的操作。根据本发明的360视频接收装置可包括接收单元、接收处理器、解封装处理器、数据解码器、元数据解析器、(接收方)反馈处理器、重新投影处理器和/或渲染器作为内部/外部元件。

接收单元可接收从根据本发明的360视频发送装置发送来的360视频数据。根据传输信道，接收单元可通过广播网络或宽带来接收360视频数据。

接收处理器可根据传输协议对所接收的360视频数据执行处理。接收处理器可执行发送处理器的逆处理。接收处理器可将所获取的360视频数据传送至解封装处理器并将所获取的360视频相关元数据传送至元数据解析器。由接收处理器获取的360视频相关元数据可具有信令表的形式。

解封装处理器可将从接收处理器接收的文件格式的360视频数据解封装。解封装处理器可按照ISOBMFF将文件解封装以获取360视频数据和360视频相关元数据。所获取的360视频数据可被传送至数据解码器，并且所获取的360视频相关元数据可被传送至元数据解析器。由解封装处理器获取的360视频相关元数据可具有文件格式中的盒或轨道的形式。必要时，解封装处理器可从元数据解析器接收解封装所需的元数据。

数据解码器可将360视频数据解码。数据解码器可从元数据解析器接收解码所需的元数据。在数据解码处理中获取的360视频相关元数据可被传送至元数据解析器。

元数据解析器可解析/解码360视频相关元数据。元数据解析器可将所获取的元数据传送至数据解封装处理器、数据解码器、重新投影处理器和/或渲染器。

重新投影处理器可重新投影解码的360视频数据。重新投影处理器可将360视频数据重新投影在3D空间上。3D空间可根据所使用的3D模型而具有不同的形式。重新投影处理器可从元数据解析器接收重新投影所需的元数据。例如，重新投影处理器可从元数据解析器接收关于所使用的3D模型的类型的信息及其详细信息。根据实施方式，重新投影处理器可使用重新投影所需的元数据在3D空间上仅重新投影与特定区域对应的360视频数据。

渲染器可渲染重新投影的360视频数据。如上所述，这可被表示为在3D空间上渲染360视频数据。当以这样的方式同时执行两个处理时，重新投影处理器和渲染器可被集成并且可在渲染器中执行这些处理。根据实施方式，渲染器可根据用户的观看信息仅渲染用户观看的部分。

用户可通过VR显示器观看渲染的360视频的部分。VR显示器是用于再现360视频的装置，并且可被包括在360视频接收装置中(系留)或者作为单独的装置连接到360视频接收装置(非系留)。

根据本发明的实施方式，360视频接收装置还可包括(接收方)反馈处理器和/或网络接口(未示出)作为内部/外部元件。反馈处理器可从渲染器、重新投影处理器、数据解码器、解封装处理器和/或VR显示器获取反馈信息并处理反馈信息。反馈信息可包括视口信息、头部取向信息、注视信息等。网络接口可从反馈处理器接收反馈信息并将其发送至360视频发送装置。

如上所述，除了被传送至发送方之外，反馈信息还可由接收方使用。接收方反馈处理器可将所获取的反馈信息传送至360视频接收装置的内部元件，使得反馈信息被反映在渲染处理中。接收方反馈处理器可将反馈信息传送至渲染器、重新投影处理器、数据解码器和/或解封装处理器。例如，渲染器可优先使用反馈信息来渲染用户观看的区域。另外，解封装处理器和数据解码器可优先将用户观看的区域或用户要观看的区域解封装和解码。

根据本发明的360视频接收装置的内部/外部元件可以是硬件元件。根据实施方式，内部/外部元件可被修改、省略、由其它元件代替或者与其它元件集成。根据实施方式，附加元件可被添加到360视频接收装置。

本发明的另一方面可涉及一种发送360视频的方法和接收360视频的方法。根据本发明的发送/接收360视频的方法可由上述360视频发送/接收装置或其实施方式执行。

360视频发送/接收装置的上述实施方式及其内部/外部元件的实施方式可被组合。例如，投影处理器的实施方式和数据编码器的实施方式可被组合以创建与实施方式的数量一样多的360视频发送装置的实施方式。组合的实施方式也被包括在本发明的范围内。

图4示出根据本发明的另一实施方式的360视频发送装置/360视频接收装置。

如上所述，可根据(a)中所示的架构来提供360内容。360内容可按照文件的形式或者按照基于分段的下载或流服务(例如，DASH)的形式提供。这里，360内容可被称为VR内容。

如上所述，可获取360视频数据和/或360音频数据。

360音频数据可经受音频预处理和音频编码。通过这些处理，可生成音频相关元数据，并且编码的音频和音频相关元数据可经受用于发送的处理(文件/分段封装)。

360视频数据可经历上述处理。360视频发送装置的拼接器可对360视频数据进行拼接(视觉拼接)。根据实施方式，该处理可被省略并在接收方执行。360视频发送装置的投影处理器可将360视频数据投影在2D图像上(投影和映射(打包))。

(b)中详细示出拼接和投影处理。在(b)中，当传送360视频数据(输入图像)时，可对其执行拼接和投影。投影处理可被视为将拼接的360视频数据投影在3D空间上并将投影的360视频数据布置在2D图像上。在本说明书中，该处理可被表示成将360视频数据投影在2D图像上。这里，3D空间可以是球体或立方体。3D空间可与接收方用于重新投影的3D空间相同。

2D图像也可被称为投影的帧C。可在2D图像上可选地执行区域式打包。当执行区域式打包时，可指示区域的形式和大小，使得2D图像上的区域可被映射在打包的帧D上。当不执行区域式打包时，投影的帧可与打包的帧相同。区域将在下面描述。投影处理和区域式打包处理可被表示成将360视频数据的区域投影在2D图像上。根据设计，360视频数据可被直接转换为打包的帧，而没有中间处理。

在(a)中，可对投影的360视频数据进行图像编码或视频编码。由于对于不同的视点可能存在相同的内容，所以相同的内容可被编码到不同的比特流中。编码的360视频数据可根据上述封装处理器被处理成诸如ISOBMFF的文件格式。另选地，封装处理器可将编码的360视频数据处理成分段。分段可被包括在个体轨道中以用于基于DASH的发送。

与360视频数据的处理一起，如上所述，可生成360视频相关元数据。该元数据可被包括在视频比特流或文件格式中并传送。元数据可用于编码、文件格式封装、用于发送的处理等。

360音频/视频数据可根据传输协议经历用于发送的处理，然后被发送。上述360视频接收装置可经由广播网络或宽带来接收360音频/视频数据。

在(a)中，VR服务平台可对应于上述360视频接收装置的实施方式。在(a)中，扬声器/耳机、显示器和头部/眼睛跟踪组件由360视频接收装置的外部装置或VR应用执行。根据实施方式，360视频接收装置可包括所有这些组件。根据实施方式，头部/眼睛跟踪组件可对应于上述接收方反馈处理器。

360视频接收装置可对360音频/视频数据执行用于接收的处理(文件/分段解封装)。360音频数据可经受音频解码和音频渲染，然后通过扬声器/耳机提供给用户。

360视频数据可经受图像解码或视频解码和视觉渲染并通过显示器提供给用户。这里，显示器可以是支持VR的显示器或一般显示器。

如上所述，渲染处理可被视为将360视频数据重新投影在3D空间上并渲染重新投影的360视频数据的处理。这可被表示成在3D空间上渲染360视频数据。

头部/眼睛跟踪组件可获取并处理用户的头部取向信息、注视信息和视口信息。这已在上面描述。

接收方可包括与接收方的上述处理通信的VR应用。

图5示出用于描述本发明的3D空间的飞行器主轴的概念。

在本发明中，可使用飞行器主轴的概念来表示3D空间中的特定点、位置、方向、间距和区域。

即，可使用飞行器主轴的概念来描述投影之前或重新投影之后的3D空间并用信号通知其。根据实施方式，可使用利用X、Y和Z轴或球坐标系的方法。

飞行器可在三个维度自由地旋转。形成这三个维度的轴被称为俯仰轴、偏航轴和横滚轴。在本说明书中，这些可被表示成俯仰、偏航和横滚或者俯仰方向、偏航方向和横滚方向。

俯仰轴可指飞行器的前端上下旋转的方向的基准轴。在所示飞行器主轴的概念中，俯仰轴可指在飞行器的机翼之间连接的轴。

偏航轴可指飞行器的前端向左/右旋转的方向的基准轴。在所示飞行器主轴的概念中，偏航轴可指从飞行器的顶部到底部连接的轴。

在所示飞行器主轴的概念中，横滚轴可指从飞行器的前端到机尾连接的轴，并且横滚方向上的旋转可指基于横滚轴的旋转。

如上所述，本发明中的3D空间可使用俯仰、偏航和横滚的概念来描述。

图6示出根据本发明的实施方式的投影方案。

如上所述，根据本发明的360视频发送装置的投影处理器可将拼接的360视频数据投影在2D图像上。在此处理中，可使用各种投影方案。

根据依据本发明的360视频发送装置的另一实施方式，投影处理器可使用立方体投影方案来执行投影。例如，拼接的视频数据可被表示在球面上。投影处理器可将360视频数据分段为立方体的面并将其投影在2D图像上。球面上的360视频数据可对应于立方体的面并如(a)所示投影在2D图像上。

根据依据本发明的360视频发送装置的另一实施方式，投影处理器可使用圆柱体投影方案来执行投影。类似地，如果拼接的视频数据可被表示在球面上，则投影处理器可将360视频数据分段为圆柱体的部分并将其投影在2D图像上。球面上的360视频数据可对应于圆柱体的侧面、顶部和底部并如(b)所示投影在2D图像上。

根据依据本发明的360视频发送装置的另一实施方式，投影处理器可使用锥体投影方案来执行投影。类似地，如果拼接的视频数据被表示在球面上，则投影处理器可将360视频数据视为锥体形式，将360视频数据分段为锥体的面，并将其投影在2D图像上。球面上的360视频数据可对应于锥体的前侧、左上侧、左下侧、右上侧和右下侧并如(c)所示投影在2D图像上。

根据实施方式，除了上述方案之外，投影处理器可使用等距矩形投影方案和全景投影方案来执行投影。

如上所述，区域可指通过将投影有360视频数据的2D图像分割而获得的区域。这些区域不需要与根据投影方案投影的2D图像的各个面对应。然而，根据实施方式，区域可被分割，使得投影的2D图像的面与区域对应并且可执行区域式打包。根据实施方式，区域可被分割，使得多个面可与一个区域对应或者一个面可与多个区域对应。在这种情况下，区域可取决于投影方案。例如，在(a)中，立方体的顶侧、底侧、前侧、左侧、右侧和后侧可以是各个区域。在(b)中，圆柱体的侧面、顶部和底部可以是各个区域。在(c)中，锥体的前侧、左上侧、左下侧、右上侧和右下侧可以是各个区域。

图7示出根据本发明的实施方式的拼块。

投影在2D图像上的360视频数据或区域式打包的360视频数据可被分割成一个或更多个拼块。(a)示出一个2D图像被分割成16个拼块。这里，2D图像可以是上述投影的帧或打包的帧。根据本发明的360视频发送装置的另一实施方式，数据编码器可独立地对拼块进行编码。

上述区域式打包可区别于平铺。上述区域式打包可指将投影在2D图像上的360视频数据分割成区域并处理所述区域以便增加编码效率或调节分辨率的处理。平铺可指数据编码器将投影的帧或打包的帧分割成拼块并独立地对拼块进行编码的处理。当提供360视频数据时，用户不同时使用360视频的所有部分。平铺使得能够在有限的带宽上仅将与重要部分或特定部分(例如，用户当前观看的视口)对应的拼块发送到接收方或由其消费。通过平铺，可更有效地使用有限的带宽，并且与同时处理整个360视频数据的情况相比，接收方可降低计算负荷。

区域和拼块彼此相区别，因此它们不需要相同。然而，根据实施方式，区域和拼块可指相同的区域。根据实施方式，可基于拼块来执行区域式打包，因此区域可对应于拼块。此外，根据实施方式，当根据投影方案的侧面对应于区域时，根据投影方案的各个侧面、区域和拼块可指相同的区域。根据上下文，区域可被称为VR区域，并且拼块可被称为拼块区域。

ROI(感兴趣区域)可指由360内容提供商提供的用户感兴趣的区域。当360内容提供商制作360视频时，360内容提供商可考虑预期为用户感兴趣的区域的特定区域来制作360视频。根据实施方式，ROI可对应于再现360视频的重要内容的区域。

根据本发明的360视频发送/接收装置的另一实施方式，接收方反馈处理器可提取并收集视口信息并将其传送至发送方反馈处理器。在此处理中，视口信息可使用双方的网络接口来传送。在(a)所示的2D图像中，显示视口t6010。这里，视口可显示在2D图像的九个拼块上。

在这种情况下，360视频发送装置还可包括平铺系统。根据实施方式，平铺系统可位于数据编码器之后(b)，可被包括在上述数据编码器或发送处理器中，或者可作为单独的内部/外部元件包括在360视频发送装置中。

平铺系统可从发送方反馈处理器接收视口信息。平铺系统可仅选择包括在视口区域中的拼块并发送这些拼块。在(a)所示的2D图像中，可仅发送16个拼块当中包括视口区域t6010的九个拼块。这里，平铺系统可经由宽带以单播方式发送拼块，因为对于用户，视口区域不同。

在这种情况下，发送方反馈处理器可将视口信息传送至数据编码器。数据编码器可对包括视口区域的拼块以比其它拼块更高的质量进行编码。

此外，发送方反馈处理器可将视口信息传送至元数据处理器。元数据处理器可将与视口区域有关的元数据传送至360视频发送装置的各个内部元件，或者将元数据包括在360视频相关元数据中。

通过使用该平铺方法，可节省传输带宽，并且可执行针对拼块区分的处理，以实现高效的数据处理/传输。

与视口区域有关的上述实施方式可按照相似的方式应用于视口区域以外的特定区域。例如，对视口区域执行的上述处理可对通过上述注视分析确定为用户感兴趣的区域的区域、ROI以及当用户通过VR显示器观看360视频时最初再现的区域(初始视图、初始视点)执行。

根据本发明的360视频发送装置的另一实施方式，发送处理器可对拼块不同地执行用于发送的处理。发送处理器可对拼块应用不同的传输参数(调制阶数、码率等)，使得为拼块传送的数据具有不同的鲁棒性。

这里，发送方反馈处理器可将从360视频接收装置接收的反馈信息传送至发送处理器，使得发送处理器可执行针对拼块区分的发送处理。例如，发送方反馈处理器可将从接收方接收的视口信息传送至发送处理器。发送处理器可执行发送处理，使得包括对应视口区域的拼块具有比其它拼块更高的鲁棒性。

图8示出根据本发明的实施方式的360视频相关元数据。

上述360视频相关元数据可包括与360视频有关的各种类型的元数据。根据上下文，360视频相关元数据可被称为360视频相关信令信息。360视频相关元数据可被包括在附加信令表中并发送，或者包括在DASH MPD中并发送，或者按照盒的形式包括在诸如ISOBMFF的文件格式中并传送。当360视频相关元数据以盒的形式包括时，360视频相关元数据可被包括在诸如文件、片段、轨道、样本条目、样本等的各种级别中，并且可包括关于对应级别的数据的元数据。

根据实施方式，将在下面描述的元数据的一部分可按照信令表的形式配置并传送，剩余部分可按照盒或轨道的形式包括在文件格式中。

根据360视频相关元数据的实施方式，360视频相关元数据可包括与投影方案有关的基本元数据、立体相关元数据、初始视图/初始视点相关元数据、ROI相关元数据、FOV(视场)相关元数据和/或裁剪区域相关元数据。根据实施方式，除了上述元数据之外，360视频相关元数据还可包括附加元数据。

根据本发明的360视频相关元数据的实施方式可包括上述基本元数据、立体相关元数据、初始视图/初始视点相关元数据、ROI相关元数据、FOV相关元数据、裁剪区域相关元数据和/或附加元数据中的至少一个。根据本发明的360视频相关元数据的实施方式可根据其中包括的元数据的情况的数量按照各种方式配置。根据实施方式，除了上述元数据之外，360视频相关元数据还可包括附加元数据。

基本元数据可包括3D模型相关信息、投影方案相关信息等。基本元数据可包括vr_geometry字段、projection_scheme字段等。根据实施方式，基本元数据还可包括附加信息。

vr_geometry字段可指示对应360视频数据所支持的3D模型的类型。如上所述，当360视频数据被重新投影在3D空间上时，3D空间可具有根据vr_geometry字段所指示的3D模型的形式。根据实施方式，用于渲染的3D模型可不同于vr_geometry字段所指示的用于重新投影的3D模型。在这种情况下，基本元数据还可包括指示用于渲染的3D模型的字段。当该字段具有值0、1、2和3时，3D空间可符合球体、立方体、圆柱体和锥体的3D模型。当该字段具有剩余值时，该字段可为未来使用预留。根据实施方式，360视频相关元数据还可包括关于该字段所指示的3D模型的详细信息。这里，例如，关于3D模型的详细信息可指球体的半径、圆柱体的高度等。该字段可被省略。

projection_scheme字段可指示在将360视频数据投影在2D图像上时所使用的投影方案。当该字段具有值0、1、2、3、4和5时，该字段指示使用了等距矩形投影方案、立方体投影方案、圆柱体投影方案、基于拼块的投影方案、锥体投影方案和全景投影方案。当该字段具有值6时，该字段指示360视频数据在没有拼接的情况下直接投影在2D图像上。当该字段具有剩余值时，该字段可为未来使用预留。根据实施方式，360视频相关元数据还可包括关于根据该字段所指定的投影方案生成的区域的详细信息。这里，例如，关于区域的详细信息可指指示区域是否旋转、圆柱体的顶部区域的半径等的信息。

立体相关元数据可包括关于360视频数据的3D相关属性的信息。立体相关元数据可包括is_stereoscopic字段和/或stereo_mode字段。根据实施方式，立体相关元数据还可包括附加信息。

is_stereoscopic字段可指示360视频数据是否支持3D。当该字段为1时，360视频数据支持3D。当该字段为0时，360视频数据不支持3D。该字段可被省略。

stereo_mode字段可指示对应360视频所支持的3D布局。可仅使用该字段来指示360视频是否支持3D。在这种情况下，is_stereoscopic字段可被省略。当该字段为0时，360视频可为单一模式。即，投影的2D图像可仅包括一个单一视图。在这种情况下，360视频可不支持3D。

当该字段被设定为1和2时，360视频可符合左右布局和上下布局。左右布局和上下布局可被称为并排格式和上下格式。在左右布局的情况下，投影有左图像/右图像的2D图像可被设置在图像帧上的左侧/右侧。在上下布局的情况下，投影有左图像/右图像的2D图像可被设置在图像帧上的顶侧/底侧。当该字段具有剩余值时，该字段可为未来使用预留。

初始视图/初始视点相关元数据可包括关于最初再现360视频时用户观看的视图(初始视图)的信息。初始视图/初始视点相关元数据可包括initial_view_yaw_degree字段、initial_view_pitch_degree字段和/或initial_view_roll_degree字段。根据实施方式，初始视图/初始视点相关元数据还可包括附加信息。

initial_view_yaw_degree字段、initial_view_pitch_degree字段和initial_view_roll_degree字段可指示360视频被再现时的初始视图。即，可由这三个字段指示360视频被再现时最初观看的视口的中心点。这些字段可基于偏航轴、俯仰轴和横滚轴使用旋转的方向(符号)和程度(角度)来指示中心点。这里，根据FOV可决定360视频被再现时最初观看的视口。可通过FOV确定基于所指示的初始视图的初始视口的宽度和高度。即，360视频接收装置可使用这三个字段和FOV信息向用户提供360视频的特定区域作为初始视口。

根据实施方式，由初始视图/初始视点相关元数据指示的初始视图可每场景改变。即，随着360内容随时间继续进行，360视频的场景改变。用户最初观看的初始视图或初始视口可针对360视频的各个场景而改变。在这种情况下，初始视图/初始视点相关元数据可每场景指示初始视图。为此，初始视图/初始视点相关元数据还可包括标识应用初始视图的场景的场景标识符。另外，由于FOV可每360视频的场景改变，所以初始视图/初始视点相关元数据还可包括指示与相对场景对应的FOV的每场景FOV信息。

ROI相关元数据可包括与上述ROI有关的信息。ROI相关元数据可包括2d_roi_range_flag字段和/或3d_roi_range_flag字段。这两个字段可指示ROI相关元数据是否包括基于2D图像表示ROI的字段或者基于3D空间表示ROI的字段。根据实施方式，ROI相关元数据还可包括附加信息，例如根据ROI区分编码信息以及根据ROI区分发送处理信息。

当ROI相关元数据包括基于2D图像表示ROI的字段时，ROI相关元数据可包括min_top_left_x字段、max_top_left_x字段、min_top_left_y字段、max_top_left_y字段、min_width字段、max_width字段、min_height字段、max_height字段、min_x字段、max_x字段、min_y字段和/或max_y字段。

min_top_left_x字段、max_top_left_x字段、min_top_left_y字段、max_top_left_y字段可表示ROI的左上端的坐标的最小值/最大值。这些字段可依次指示左上端的最小x坐标、最大x坐标、最小y坐标和最大y坐标。

min_width字段、max_width字段、min_height字段和max_height字段可指示ROI的宽度和高度的最小值/最大值。这些字段可依次指示宽度的最小值和最大值以及高度的最小值和最大值。

min_x字段、max_x字段、min_y字段和max_y字段可指示ROI中的坐标的最小值和最大值。这些字段可依次指示ROI中的坐标的最小x坐标、最大x坐标、最小y坐标和最大y坐标。这些字段可被省略。

当ROI相关元数据包括基于3D渲染空间上的坐标指示ROI的字段时，ROI相关元数据可包括min_yaw字段、max_yaw字段、min_pitch字段、max_pitch字段、min_roll字段、max_roll字段、min_field_of_view字段和/或max_field_of_view字段。

min_yaw字段、max_yaw字段、min_pitch字段、max_pitch字段、min_roll字段和max_roll字段可使用偏航、俯仰和横滚的最小值/最大值来指示ROI在3D空间上所占据的区域。这些字段可依次指示以偏航轴为基准的旋转量的最小值、以偏航轴为基准的旋转量的最大值、以俯仰轴为基准的旋转量的最小值、以俯仰轴为基准的旋转量的最大值、以横滚轴为基准的旋转量的最小值以及以横滚轴为基准的旋转量的最大值。

min_field_of_view字段和max_field_of_view字段可指示对应360视频数据的FOV的最小值/最大值。FOV可指360视频被再现时一次显示的视图范围。min_field_of_view字段和max_field_of_view字段可指示FOV的最小值和最大值。这些字段可被省略。这些字段可被包括在FOV相关元数据(将在下面描述)中。

FOV相关元数据可包括上述FOV相关信息。FOV相关元数据可包括content_fov_flag字段和/或content_fov字段。根据实施方式，FOV相关元数据还可包括附加信息，例如FOV的上述最小值/最大值相关信息。

content_fov_flag字段可指示对应360视频是否包括关于制作360视频时预期的FOV的信息。当该字段值为1时，可存在content_fov字段。

content_fov字段可指示关于制作360视频时预期的FOV的信息。根据实施方式，可根据360视频接收装置的垂直或水平FOV来确定360视频中一次显示给用户的区域。另选地，根据实施方式，可通过反映该字段的FOV信息来确定360视频中一次显示给用户的区域。

裁剪区域相关元数据可包括关于图像帧中包括360视频数据的区域的信息。图像帧可包括投影360视频数据的有效视频区域和其它区域。这里，有效视频区域可被称为裁剪区域或默认显示区域。有效视频区域在实际VR显示器上作为360视频观看，并且360视频接收装置或VR显示器可仅处理/显示有效视频区域。例如，当图像帧的宽高比为4:3时，仅图像帧的上部和下部以外的图像帧区域可包括360视频数据。该区域可被称为有效视频区域。

裁剪区域相关元数据可包括is_cropped_region字段、cr_region_left_top_x字段、cr_region_left_top_y字段、cr_region_width字段和/或cr_region_height字段。根据实施方式，裁剪区域相关元数据还可包括附加信息。

is_cropped_region字段可以是指示360视频接收装置或VR显示器是否使用图像帧的整个区域的标志。即，该字段可指示是否整个图像帧指示有效视频区域。当仅图像帧的一部分是有效视频区域时，可添加以下四个字段。

cr_region_left_top_x字段、cr_region_left_top_y字段、cr_region_width字段和cr_region_height字段可指示图像帧中的有效视频区域。这些字段可指示有效视频区域的左上x坐标、左上y坐标、宽度和高度。宽度和高度可以像素为单位来表示。

如上所述，360度视频相关信令信息或元数据可被包括在任意定义的信令表中，以盒的形式包括在诸如ISOBMFF的文件格式或通用文件格式中，或者包括在DASH MPD中并发送。另外，360度媒体数据可被包括在这种文件格式或DASH分段中并发送。

下面将依次描述ISOBMFF和DASH MPD。

图9示出根据本发明的一个实施方式的媒体文件结构。

为了存储和发送诸如音频或视频的媒体数据，可定义标准化的媒体文件格式。根据实施方式，媒体文件可具有基于ISO基础媒体文件格式(ISO BMFF)的文件格式。

根据本发明的媒体文件可包括至少一个盒。这里，盒可以是包括媒体数据或者与媒体数据有关的元数据的数据块或对象。盒可按照分层结构布置，因此数据可被分类并且媒体文件可采取适合于媒体数据的存储和/或传输的形式。另外，媒体文件可具有方便访问媒体信息(例如，用户移到媒体内容中的特定点)的结构。

根据本发明的媒体文件可包括ftyp盒、moov盒和/或mdat盒。

ftyp盒(文件类型盒)可提供与对应媒体文件的文件类型或兼容性有关的信息。ftyp盒可包括关于媒体文件的媒体数据的配置版本信息。解码器可参考ftyp盒来标识对应媒体文件。

moov盒(电影盒)可包括关于媒体文件的媒体数据的元数据。moov盒可用作所有元数据的容器。moov盒可以是元数据相关盒当中级别最高的盒。根据实施方式，媒体文件中可仅包括一个moov盒。

mdat盒(媒体数据盒)可包含对应媒体文件的实际媒体数据。媒体数据可包括音频样本和/或视频样本，并且mdat盒可用作包含这些媒体样本的容器。

根据实施方式，moov盒还可包括mvhd盒、trak盒和/或mvex盒作为下级盒。

mvhd盒(电影头盒)可包括对应媒体文件中所包括的媒体数据的媒体呈现相关信息。即，mvhd盒可包括诸如对应媒体呈现的媒体生成时间、改变时间、时间标准和时段的信息。

trak盒(轨道盒)可提供与对应媒体数据的轨道有关的信息。trak盒可包括诸如关于音频轨道或视频轨道的流相关信息、呈现相关信息和访问相关信息的信息。根据轨道的数量，可提供多个trak盒。

根据实施方式，trak盒还可包括tkhd盒(轨道头盒)作为下级盒。tkhd盒可包括关于trak盒所指示的轨道的信息。tkhd盒可包括诸如对应轨道的生成时间、改变时间和轨道标识符的信息。

mvex盒(电影扩展盒)可指示对应媒体文件可包括moof盒(将在下面描述)。可能需要扫描moof盒以识别特定轨道的所有媒体样本。

根据实施方式，根据本发明的媒体文件可被分割成多个片段(t18010)。因此，媒体文件可被分段并存储或发送。媒体文件的媒体数据(mdat盒)被分割成多个片段，各个片段可包括moof盒和分割的mdat盒。根据实施方式，可能需要ftyp盒和/或moov盒的信息以使用片段。

moof盒(电影片段盒)可提供关于对应片段的媒体数据的元数据。moof盒可以是与对应片段的元数据有关的盒当中最高层的盒。

如上所述，mdat盒(媒体数据盒)可包括实际媒体数据。mdat盒可包括与各个片段对应的媒体数据的媒体样本。

根据实施方式，上述moof盒可包括mfhd盒和/或traf盒作为下级盒。

mfhd盒(电影片段头盒)可包括与分割的片段的相关性有关的信息。mfhd盒可包括指示对应片段的媒体数据的次序的序列号。另外，可使用mfhd盒来检查分割的数据当中是否存在省略的数据。

traf盒(轨道片段盒)可包括关于对应轨道片段的信息。traf盒可提供关于对应片段中所包括的分割的轨道片段的元数据。traf盒可提供用于解码/再现对应轨道片段中的媒体样本的元数据。根据轨道片段的数量，可提供多个traf盒。

根据实施方式，上述traf盒可包括tfhd盒和/或trun盒作为下级盒。

tfhd盒(轨道片段头盒)可包括对应轨道片段的头信息。tfhd盒可提供诸如上述traf盒所指示的轨道片段的媒体样本的基本样本大小、时段、偏移和标识符的信息。

trun盒(轨道片段运行盒)可包括与对应轨道片段有关的信息。trun盒可包括诸如各个媒体样本的时段、大小和再现定时的信息。

上述媒体文件和媒体文件的片段可被处理成分段并发送。分段可包括初始化分段和/或媒体分段。

图中所示的实施方式t18020的文件可以是除了媒体数据之外包括与媒体解码器的初始化有关的信息的文件。该文件可对应于上述初始化分段。初始化分段可包括上述ftyp盒和/或moov盒。

图中所示的实施方式t18030的文件可以是包括上述片段的文件。例如，该文件可对应于上述媒体分段。媒体分段可包括上述moof盒和/或mdat盒。另外，媒体分段还可包括styp盒和/或sidx盒。

styp盒(分段类型盒)可提供用于标识分割的片段的媒体数据的信息。styp盒可针对分割的片段起到与上述ftyp盒相同的作用。根据实施方式，styp盒可具有与ftyp盒相同的格式。

sidx盒(分段索引盒)可提供指示分割的片段的索引的信息，因此，sidx盒可指示分割的片段的次序。

根据实施方式t18040，还可提供ssix盒。当分段被分割成子分段时，ssix盒(子分段索引盒)可提供指示子分段的索引的信息。

媒体文件中的盒还可包括基于实施方式t18050中所示的盒或完整盒的扩展信息。在此实施方式中，size字段和largesize字段可按照字节为单位指示对应盒的长度。version字段可指示对应盒格式的版本。type字段可指示对应盒的类型或标识符。flags字段可指示与对应盒有关的标志。

图11示出根据本发明的实施方式的基于DASH的自适应流模型的总体操作。

根据图中所示的实施方式t50010的基于DASH的自适应流模型描述了HTTP服务器与DASH客户端之间的操作。这里，DASH(经由HTTP的动态自适应流传输)是支持基于HTTP的自适应流传输的协议并且可根据网络状态动态地支持流传输。因此，可无缝地提供AV内容的再现。

首先，DASH客户端可获取MPD。可从诸如HTTP服务器的服务提供商传送MPD。DASH客户端可使用用于访问分段的信息向服务器请求MPD中所描述的分段。该请求可基于网络状态来执行。

DASH客户端可获取分段，在媒体引擎中处理分段，并将处理的分段显示在画面上。DASH客户端可通过实时地反映呈现时间和/或网络状态来请求并获取必要分段(自适应流传输)。因此，可无缝地呈现内容。

MPD(媒体呈现描述)是包括用于DASH客户端动态地获取分段的详细信息的文件，并且可按照XML表示。

DASH客户端控制器可基于网络状态来生成用于请求MPD和/或分段的命令。另外，DASH客户端控制器可控制诸如媒体引擎的内部块使用所获取的信息。

MPD解析器可实时地解析所获取的MPD。因此，DASH客户端控制器可生成用于获取必要分段的命令。

分段解析器可实时地解析所获取的分段。诸如媒体引擎的内部块可根据分段中所包括的信息来执行特定操作。

HTTP客户端可向HTTP服务器请求必要MPD和/或分段。另外，HTTP客户端可将从服务器获取的MPD和/或分段传送至MPD解析器或分段解析器。

媒体引擎可使用分段中所包括的媒体数据来显示内容。这里，可使用MPD的信息。

DASH数据模型可具有分层结构t50020。媒体呈现可由MPD描述。MPD可描述形成媒体呈现的多个时段的时间序列。时段指示媒体内容的一个区段。

在一个时段中，数据可被包括在适配集合中。适配集合可以是可交换的媒体内容组件的集合。自适应可包括表示的集合。表示可对应于媒体内容组件。在一个表示中，为了适当的可访问性和传送，内容可被暂时地分割成多个分段。为了访问各个分段，可提供各个分段的URL。

MPD可提供与媒体呈现有关的信息，并且period元素、adaptation set元素和representation元素可描述对应时段、适配集合和表示。表示可被分割成子表示，并且sub-representation元素可描述对应子表示。

这里，可定义公共属性/元素。公共属性/元素可被应用于子表示(包括在其中)。公共属性/元素可包括基本性质和/或补充性质。

基本性质可以是包括在处理对应媒体呈现相关数据时被视为强制元素的元素的信息。补充性质可以是包括可用于处理对应媒体呈现相关数据的元素的信息。在实施方式中，可在基本性质和/或补充性质中定义描述符(将在下面描述)并通过MPD传送。

基于DASH的描述符可包括@schemeIdUri字段、@value字段和/或@id字段。@schemeIdUri字段可提供用于标识对应描述符的方案的URI。@value字段可具有由@schemeIdUri字段所指示的方案定义的值。即，@value字段可根据方案(可被称为参数)具有描述符元素的值。参数可通过“,”来区别。@id字段可指示对应描述符的ID。当描述符具有相同的ID时，描述符可包括相同的方案ID、值和参数。

360视频相关元数据的实施方式可被重写为基于DASH的描述符的实施方式。当根据DASH传送360视频数据时，360视频相关元数据可按照DASH描述符的形式描述，包括在MPD中并传送至接收方。描述符可按照上述基本性质描述符和/或补充性质描述符的形式传送。这些描述符可被包括在MPD的适配集合、表示和子表示中并传送。

本说明书公开了定义、存储和用信号通知相关元数据以便传送关于制作者预期的视点(点)(例如，导演剪辑)的信息，使得用户可在360视频的再现中观看预期的视点(点)或区域的方法。区域信息或视点信息(将在下面描述)可以是指示制作者预期的区域或视图(点)的区域信息或视点信息。

所述方法需要传送的信息可对应于2D空间中的区域、2D空间中的视点(点)、3D空间中的区域或3D空间中的视点(点)。2D空间可指拍摄或编码的矩形图像平面，3D空间可指用于360视频渲染的投影空间或投影结构，例如球形、圆柱形或正方形形式。这里，区域可指上述区域，并且3D空间中的区域或视点(点)可与2D空间中的区域或视点(点)对应。即，2D空间的区域或视点(点)可通过将3D空间的区域或视点(点)投影/映射在2D帧上来获得。

<传送2D空间中的区域和视点信息的方法>

2D空间中的区域和视点(点)信息可按照ISOBMFF作为定时元数据存储在单个轨道中。下面将依次描述关于2D空间中的区域信息的元数据和关于2D空间中的视点(点)信息的元数据的实施方式。

图12的(a)示出存储2D空间中的区域信息的轨道的样本条目的配置，图12的(b)示出要在2D空间中表示的个体区域的个体样本的配置。

存储2D空间中的区域信息的轨道的样本条目可包括reference_width、reference_height、min_top_left_x、max_top_left_x、min_top_left_y、max_top_left_y、min_width、max_width、min_height和/或max_height。

reference_width指示2D空间的水平大小。这里，2D空间的水平大小可按照像素数表示。

reference_height指示2D空间的垂直大小。这里，2D空间的垂直大小可按照像素数表示。

min_top_left_x指示要表示的区域的左上点的水平坐标的最小值。

max_top_left_x指示要表示的区域的左上点的水平坐标的最大值。

min_top_left_y指示要表示的区域的左上点的垂直坐标的最小值。

max_top_left_y指示要表示的区域的左上点的垂直坐标的最大值。

min_width指示要表示的区域(2D空间中的区域)的水平大小的最小值。这里，要表示的区域的水平大小的最小值可按照像素数表示。

max_width指示要表示的区域(2D空间中的区域)的水平大小的最大值。这里，要表示的区域的水平大小的最大值可按照像素数表示。

min_height指示要表示的区域(2D空间中的区域)的垂直大小的最小值。这里，要表示的区域的垂直大小的最小值可按照像素数表示。

max_height指示要表示的区域(2D空间中的区域)的垂直大小的最大值。这里，要表示的区域的垂直大小的最大值可按照像素数表示。

要在2D空间中表示的个体区域的个体样本可包括top_left_x、top_left_y、width、height和/或interpolate。

top_left_x指示要表示的区域的左上点的水平坐标。

top_left_y指示要表示的区域的左上点的垂直坐标。

width指示要表示的区域的水平大小。这里，要表示的区域的水平大小可按照像素数表示。

height指示要表示的区域的垂直大小。这里，要表示的区域的垂直大小可按照像素数表示。

interpolate指示先前样本所表示的区域与当前样本所表示的区域之间的值是否由线性插值的值填充。在实施方式中，当interpolate为1时，先前样本所表示的区域与当前样本所表示的区域之间的值可由线性插值的值填充。

图13示出根据本发明的一个实施方式的关于2D空间中的视点(点)的元数据。

图13的(a)示出存储2D空间中的视点(点)信息的轨道的样本条目的配置，图13的(b)示出要在2D空间中表示的个体视点(点)的个体样本的配置。

存储2D空间中的点信息的轨道的样本条目可包括reference_width、reference_height、min_x、max_x、min_y和/或max_y。

min_x指示要呈现的点的水平坐标的最小值。

max_x指示要呈现的点的水平坐标的最大值。

min_y指示要呈现的点的垂直坐标的最小值。

max_y指示要呈现的点的垂直坐标的最大值。

要在2D空间中表示的个体点的个体样本可包括x、y和/或interpolate。

x指示要表示的点的水平坐标。

y指示要表示的点的垂直坐标。

<传送3D空间中的区域和视点信息的方法>

3D空间中的区域和视点信息可按照ISOBMFF作为定时元数据存储在单个轨道中。下面将依次描述关于3D空间中的区域信息的元数据和关于3D空间中的视点(点)信息的元数据的实施方式。

这里，3D空间可指球体，并且360度视频可在该球体上表示。上述2D空间可指投影/映射3D空间的3D平面。

图14示出根据本发明的各种实施方式的关于3D空间中的区域信息的元数据。

图14的(a)示出根据本发明的一个实施方式的存储3D空间中的区域信息的轨道的轨道的样本条目的配置，图14的(b)示出根据本发明的另一实施方式的存储3D空间中的区域信息的轨道的样本条目的配置。

参照图14的(a)，根据本发明的一个实施方式的存储3D空间中的区域信息的轨道的样本条目可包括min_yaw、max_yaw、min_pitch、max_pitch、min_roll、max_roll、min_field_of_view和/或max_field_of_view。

min_yaw指示相对于要表示的区域的偏航轴的旋转量的最小值。

max_yaw指示相对于要表示的区域的偏航轴的旋转量的最大值。

min_pitch指示相对于要表示的区域的俯仰轴的旋转量的最小值。

max_pitch指示相对于要表示的区域的俯仰轴的旋转量的最大值。

min_roll指示相对于要表示的区域的横滚轴的旋转量的最小值。

max_roll指示相对于要表示的区域的横滚轴的旋转量的最大值。

min_field_of_view指示要表示的视场的最小值。

max_field_of_view指示要表示的视场的最大值。

当min_field_of_view和max_field_of_view被设定为0时，参考样本条目的样本的区域可以是点。

参照图14的(b)，根据本发明的另一实施方式的存储3D空间中的区域信息的轨道的样本条目可包括center_yaw、center_pitch、center_roll、horizontal_field_of_view和/或vertical_field_of_view。

center_yaw指示相对于要表示的区域的偏航轴的旋转量的中心值。

center_pitch指示相对于要表示的区域的俯仰轴的旋转量的中心值。

center_roll指示相对于要表示的区域的横滚轴的旋转量的中心值。

horizontal_field_of_view指示要表示的水平视场的值。该值可以是基于center_yaw的水平视场。

vertical_field_of_view指示要表示的垂直视场的值。该值可以是基于center_pitch的垂直视场。

当horizontal_field_of_view和vertical_field_of_view被设定为0时，参考样本条目的样本的区域可以是点。

对应样本条目的horizontal_field_of_view和vertical_field_of_view可被应用于各个样本，只要它们在各个样本中不改变即可。

在一个实施方式中，根据本发明的一个实施方式和/或另一实施方式的存储3D空间中的区域信息的轨道的样本条目还可包括dynamic_range_flag。dynamic_range_flag可指示由对应样本条目指示的水平视场和垂直视场不改变，而是针对参考样本条目的所有样本维持。例如，dynamic_range_flag当设定为0时可指示样本条目的水平视场和垂直视场在参考样本条目的样本中维持。

图15的(a)示出根据本发明的一个实施方式的要在3D空间中表示的个体区域的个体样本的配置，图15的(b)示出根据本发明的另一实施方式的要在3D空间中表示的个体区域的个体样本的配置。

参照图15的(a)，根据本发明的一个实施方式的要在3D空间中表示的个体区域的个体样本可包括yaw、pitch、roll、field_of_view和/或interpolate。

yaw指示相对于要表示的区域的偏航轴的旋转量。

pitch指示相对于要表示的区域的俯仰轴的旋转量。

roll指示相对于要表示的区域的横滚轴的旋转量。

在实施方式中，yaw和pitch可指示视口的中心，roll可指示视口的横滚角。

field_of_view指示要表示的视场。视场可被再分成horizontal_field_of_view和vertical_field_of_view。

vertical_field_of_view指示要表示的垂直视场。该值可以是基于center_pitch的垂直视场。

参照图15的(b)，根据本发明的另一实施方式的要在3D空间中表示的个体区域的个体样本可包括yaw、pitch、roll和/或interpolate。

yaw指示相对于要表示的区域的偏航轴的旋转量。

pitch指示相对于要表示的区域的俯仰轴的旋转量。

roll指示相对于要表示的区域的横滚轴的旋转量。

<用信号通知关于区域信息或视点信息的元数据轨道与360度视频轨道之间的关系的方法>

可通过以下方法用信号通知关于区域信息或视点信息的元数据轨道以及将应用这种元数据的360度视频轨道。

首先，将描述用信号通知360度视频轨道之间的关系的方法。

在实施方式中，当一个视频帧被分割成一个或更多个区域，区域被编码并且关于区域的数据通过一个或更多个轨道传送时，关于各个轨道的360度视频相关元数据可按照盒的形式包括。这里，360度视频相关元数据可以是上面参照图2、图3、图4和图8描述的360度视频相关元数据。当360度视频相关元数据按照盒的形式包括时，360度视频相关元数据可被定义为OMVideoConfigurationBox类。OMVideoConfigurationBox可被称为omvb盒。360度视频相关元数据可被包括在诸如文件、片段、轨道、样本条目和样本的各种级别中并传送，并且可提供关于与之对应的级别(轨道、流、样本等)的数据的元数据。

当仅一些特定轨道包括OMVideoConfigurationBox并且剩余轨道不包括OMVideoConfigurationBox时，需要信令，所述剩余轨道可通过该信令来参考包括OMVideoConfigurationBox的轨道。为此，指示包括OMVideoConfigurationBox的轨道的信息可被包括在不包括OMVideoConfigurationBox的剩余轨道的TrackReferenceTypeBox中。根据实施方式，可定义“omvb”的轨道参考类型，并且可通过包括在对应TrackReferenceTypeBox中的轨道ID来指示包括360度视频相关元数据的轨道。

接下来，将描述用信号通知关于区域信息或视点信息的元数据轨道与360度视频轨道之间的关系的方法。

关于区域信息或视点信息的元数据轨道可与360度视频轨道分开存储和传送。换言之，关于区域信息或视点信息的元数据可通过与360度视频轨道分开的轨道来传送。当关于区域信息或视点信息的元数据以这种方式包括在轨道中并传送时，可能需要包括关于区域信息或视点信息的元数据的轨道和与元数据轨道有关的360度视频轨道之间的参考。

根据实施方式，可使用作为ISOBMFF的多个盒之一的TrackReferenceBox(“tref”)中定义的“cdsc”参考类型来执行关于区域信息或视点信息的元数据轨道和与元数据轨道有关的360度视频轨道之间的参考。

根据另一实施方式，可通过重新定义TrackReferenceBox(“tref”)中的“vdsc”的参考类型来执行关于区域信息或视点信息的元数据轨道和与元数据轨道有关的360度视频轨道之间的参考。

图16示出根据本发明的实施方式的tref盒。

TrackReference(“tref”)盒提供包括在其中的轨道与其它轨道之间的参考。TrackReference(“tref”)盒可包括预定参考类型以及具有ID的一个或更多个轨道参考类型盒。

Track_ID可以是在与之对应的轨道中的呈现中提供对其它轨道的参考的整数。track_ID不能重用并且不能为0。

Reference_type可被设定为以下值之一。此外，reference_type可被设定为下文没有定义的值。

由“hint”引用的轨道可包括对应提示轨道的原始媒体。

“cdsc”轨道描述引用的轨道。该轨道可包括关于参考轨道的定时元数据。

“font”轨道可使用参考的轨道中传送/定义的字体。

“hind”轨道取决于参考的提示轨道。即，该轨道可在使用参考的提示轨道时使用。

“vdep”轨道可包括关于参考视频轨道的辅助深度视频信息。

“vplx”轨道可包括关于参考视频轨道的辅助视差视频信息。

“subt”轨道可包括关于参考的轨道或者包括对应轨道的替代组的所有轨道的字幕、定时文本和/或覆盖图形信息。

“vdsc”轨道可以是将传送区域信息的元数据轨道与360视频轨道相关联的参考类型。在一个实施方式中，包括具有该reference_type的tref盒的轨道可以是传送区域信息或视点信息的元数据轨道。这里，包括在tref盒中的track_ID可参考360视频轨道。在另一实施方式中，包括具有该reference_type的tref盒的轨道可以是360视频轨道。这里，包括在tref盒中的track_ID可参考传送区域信息或视点信息的元数据轨道。

另外，可使用“cdsc”的参考类型以便参考关于区域信息或视点信息的元数据轨道和与元数据轨道有关的360度视频轨道。

即，为了参考关于区域信息或视点信息的元数据轨道和与元数据轨道有关的360度视频轨道，可使用“cdsc”或“vdsc”的参考类型。

<GPS信息传送方法>

GPS信息可按照ISOBMFF作为定时元数据存储在单个轨道中。将描述关于GPS信息的元数据的实施方式。

图17示出根据本发明的实施方式的关于GPS的元数据。

图17的(a)示出根据本发明的实施方式的存储GPS信息的轨道的样本条目的配置，图17的(b)示出根据本发明的实施方式的存储GPS数据的个体样本的配置，图17的(c)示出根据本发明的另一实施方式的存储GPS数据的个体样本的配置。

存储GPS信息的轨道的样本条目可包括coordinate_reference_sys和/或altitude_flag。

coordinate_reference_sys指示关于包括在样本中的纬度、经度和高度值的坐标参考系(CRS)。coordinate_reference_sys可被表示成URI(统一资源标识符)。例如，coordinate_reference_sys可指示“urn:ogc:def:crs:EPSG::4979”。这里，“urn:ogc:def:crs:EPSG::4979”可指示EPSG数据库中具有代码4979的坐标参考系(CRS)。

altitude_flag指示样本是否包括高度值。在一个实施方式中，altitude_flag当设定为1时可指示样本包括高度值，当设定为0时指示样本不包括高度值。

GPS数据可被存储在个体样本中。关于可存储在个体样本中的GPS数据的配置的实施方式示出于图17的(b)和图17的(c)中。

图17的(b)示出根据本发明的实施方式的存储GPS数据的个体样本的配置。图17的(b)所示的GPS数据样本可包括longitude、latitude和/或altitude。

longitude指示点的经度值。正值可指示东经，负值可指示西经。

latitude指示点的纬度值。正值可指示北纬，负值可指示南纬。

altitude指示点的高度值。在一个实施方式中，当样本条目的altitude标志指示样本包括高度值(例如，altitude标志＝1)时，样本可包括altitude。在另一实施方式中，当样本条目的altitude标志指示样本不包括高度值(例如，altitude标志＝0)时，样本可不包括altitude。参照图17的(c)描述样本不包括altitude的实施方式。

图17的(c)示出根据本发明的另一实施方式的存储GPS数据的个体样本的配置。图17的(c)所示的GPS数据样本可包括longitude和/或latitude。图17的(c)所示的GPS数据样本可不包括altitude。

<用信号通知GPS信息传送元数据轨道与360度视频轨道之间的关系的方法>

可通过以下方法用信号通知关于GPS信息的元数据轨道以及将应用这种元数据的360度视频轨道。

首先，将描述用信号通知360度视频轨道之间的关系的方法。

在一个实施方式中，当一个视频帧被分割成一个或更多个区域，区域被编码并且关于区域的数据通过一个或更多个轨道传送时，关于各个轨道的360度视频相关元数据可按照盒的形式包括。这里，360度视频相关元数据可以是上面参照图2、图3、图4和图8描述的360度视频相关元数据。当360度视频相关元数据按照盒的形式包括时，360度视频相关元数据可被定义为OMVideoConfigurationBox类。OMVideoConfigurationBox可被称为omvb盒。360度视频相关元数据可被包括在诸如文件、片段、轨道、样本条目和样本的各种级别中并传送，并且可提供关于与之对应的级别(轨道、流、样本等)的数据的元数据。

接下来，将描述用信号通知关于GPS信息的元数据轨道与360度视频轨道之间的关系的方法。

关于GPS信息的元数据轨道可与360度视频轨道分开存储和传送。换言之，关于GPS信息的元数据可通过与360度视频轨道分开的轨道来传送。当关于GPS信息的元数据以这种方式包括在轨道中并传送时，可能需要包括关于GPS信息的元数据的轨道和与元数据轨道有关的360度视频轨道之间的参考。

根据实施方式，可使用作为ISOBMFF的多个盒之一的TrackReferenceBox(“tref”)中定义的“cdsc”参考类型来执行关于GPS信息的元数据轨道和与元数据轨道有关的360度视频轨道之间的参考。

根据另一实施方式，可通过重新定义TrackReferenceBox(“tref”)中的“gpsd”的参考类型来执行关于GPS信息的元数据轨道和与元数据轨道有关的360度视频轨道之间的参考。

返回参照图16，图16示出根据本发明的实施方式的tref盒。

TrackReference(“tref”)盒提供包括在其中的轨道与其它轨道之间的参考。TrackReference(“tref”)盒可包括预定参考类型以及具有ID的一个或更多个轨道参考类型盒。这里，“gpsd”可被重新定义并用作参考类型。

由“hint”引用的轨道可包括对应提示轨道的原始媒体。

“font”轨道可使用引用的轨道中传送/定义的字体。

“vdep”轨道可包括关于参考视频轨道的辅助深度视频信息。

“vplx”轨道可包括关于参考视频轨道的辅助视差视频信息。

“gpsd”轨道可以是将传送GPS信息的元数据轨道与360视频轨道相关联的参考类型。在一个实施方式中，包括具有该reference_type的tref盒的轨道可以是传送GPS信息的元数据轨道。这里，包括在tref盒中的track_ID可参考360视频轨道。在另一实施方式中，包括具有该reference_type的tref盒的轨道可以是360视频轨道。这里，包括在tref盒中的track_ID可参考传送GPS信息的元数据轨道。

另外，可使用“cdsc”的参考类型以便参考关于GPS信息的元数据轨道和与元数据轨道有关的360度视频轨道。

即，为了参考关于GPS信息的元数据轨道和与元数据轨道有关的360度视频轨道，可使用“cdsc”或“vdsc”的参考类型。

本说明书中所公开的方法可应用于基于诸如ISOBMFF的基于盒的文件格式生成关于支持360视频服务的内容的文件，生成可在MPEG DASH中操作的DASH分段，或者生成可在MPEG MMT中操作的MPU的情况。另外，包括DASH客户端或MMT客户端的接收机可基于360视频相关元数据(标志、参数等)有效地解码并显示内容。

用于关于区域信息或视点信息的元数据和/或关于GPS信息的元数据的上述样本条目和/或样本(例如，2DreagionCartesianCoordinatesSampleEntry、2DpointCartesianCoordinatesSampleEntry、3DCartesianCoordinatesSampleEntry和GPSSampleEntry)可通常存在于单个ISOBMFF字段、DASH分段或MMT MPU的多个盒中。

在这种情况下，下级盒中定义的360视频相关标志或360视频元数据的值可覆盖上级盒中定义的关于区域信息或视点信息和/或GPS信息的元数据的值。

将基于DASH描述与上面参照图12至图16描述的发送和用信号通知关于区域信息或视点信息的元数据的方法有关的实施方式。

<使用DASH发送和用信号通知关于区域信息或视点信息的元数据的方法>

配置用于元数据传输的附加适配集合的实施方式

当通过DASH发送关于区域信息或视点信息的元数据时，可配置用于元数据传输的附加适配集合。在这种情况下，MPD中需要包括用于指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。在实施方式中，角色描述符可用作指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。

可分配新的schemeIdUri值以将角色方案与MPD中的传统角色方案相区别。例如，可为角色方案分配诸如“urn:mpeg:dash:role:201X”的新schemeIdUri值。可向这种新的方案分配“dirc”作为指示关于区域信息或视点信息的元数据的值。这里，作为指示关于区域信息或视点信息的元数据的值分配的“dirc”是示例性的，可分配“dirc”以外的值。在用于传输VR视频或360视频的适配集合的情况下，可向该值分配“main”。

为了用信号通知用于VR视频传输的表示与用于传输关于区域信息或视点信息的元数据的表示之间的关系，可使用Representation@associationId和associationType。用于传输关于区域信息或视点信息的元数据的表示可使用associationId指示用于传输将应用该元数据的VR视频的表示的id(“VR_video”)，并且其中可分配“dirc”作为associationType。这里，“dirc”可被新定义为指示关于区域信息或视点信息的元数据的值。除了DASH之外，此方法可用于表示ISO BMFF(ISO基础媒体文件格式)的轨道之间的关系。即，出于相同的目的，可代替associationId使用“tref”盒的track_ID，并且可代替associationType使用“tref”盒的reference_type。

图18示出根据本发明的实施方式的用信号通知关于区域信息或视点信息的元数据的传输的MPD。

参照图18，MPD包括用于指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。

另外，在图18所示的实施方式中，角色描述符用作指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。

在图18所示的实施方式中，“urn:mpeg:dash:role:201X”被分配给角色方案并且“dirc”被分配给值，以便指示通过附加适配集合传输关于区域信息或视点信息的元数据(H18020)。在用于VR视频传输的适配集合的情况下，“urn:mpeg:dash:role:2011”被分配给角色方案并且“main”被分配给值(H18010)。

此外，在图18所示的实施方式中，使用Representation@associationId和associationType以便用信号通知用于VR视频传输的表示和用于关于区域信息或视点信息的元数据的传输的表示之间的关系。用于关于区域信息或视点信息的元数据的传输的表示(表示id＝“directors_cut”)使用associationId指示用于将应用该元数据的VR视频的传输的表示的id(“VR_video”)，并且其中分配“dirc”作为associationType(H18030)。

如图18的实施方式中一样，可定义新的角色方案以便用信号通知关于区域信息或视点信息的元数据的传输。另选地，可使用与传统角色方案兼容的方法以便用信号通知关于区域信息或视点信息的元数据的传输。

图19示出根据本发明的另一实施方式的用信号通知关于区域信息或视点信息的元数据的传输的MPD。

参照图19，MPD包括用于指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。

参照图19，“urn:mpeg:dash:role:2011”被分配给角色方案并且“metadata”被分配给值(H19020)。在用于VR视频传输的适配集合的情况下，“urn:mpeg:dash:role:2011”被分配给角色方案并且“main”被分配给值(H19010)。即，图19的实施方式可被视为用于元数据传输的传统适配集合标识方法(Role@schemeIdUri＝“urn:mpeg:dash:role:2011”，value＝“metadata”)被应用于标识用于传输关于区域信息或视点信息的元数据的适配集合的实施方式。

另外，在图19所示的实施方式中，使用Representation@associationId和associationType以便用信号通知用于VR视频传输的表示和用于关于区域信息或视点信息的元数据的传输的表示之间的关系。用于关于区域信息或视点信息的元数据的传输的表示(表示id＝“directors_cut”)使用associationId指示用于将应用该元数据的VR视频的传输的表示的id(“VR_video”)，并且其中分配“dirc”作为associationType(H19030)。

将描述与上面参照图18和图19描述的通过附加适配集合发送和用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图20是根据本发明的实施方式的接收机的框图。

参照图20，根据本发明的实施方式的接收机可包括DASH客户端H20020、分段解析器H20030、视频解码器H20040、DIRC解析器H20050和/或投影仪/渲染器/传感器H20060。

MPD、VR内容和/或关于区域信息或视点信息的元数据可由DASH服务器H20010提供并由DASH客户端H20020接收。这里，接收机的DASH客户端H20020可从DASH服务器H20010以数据分组格式接收VR内容、MPD和/或关于区域信息或视点信息的元数据。DASH客户端H20020可向DASH服务器H20010请求MPD、VR内容和/或关于区域信息或视点信息的元数据。DASH客户端H20020可从所接收的分组生成MPD和分段。

DASH客户端H20020可解析所接收的MPD以获取关于内容(VR内容)的信息。这里，DASH客户端H20020可通过上面参照图18和图19描述的关于发送关于区域信息或视点信息的元数据的适配集合的信令来识别是否存在关于区域信息或视点信息的元数据。另外，DASH客户端H20020可根据接收机的能力和/或内容的使用目的来启用DIRC解析器和用于DIRC的分段解析器(参照图中的虚线)。例如，当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时，可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。分段可被传送至分段解析器H20030。

分段解析器H20030可解析所接收的分段并将视频比特流和关于区域信息或视点信息的元数据(DIRC元数据)分别传送至视频解码器H20040和DIRC解析器H20050。分段解析器H20030可根据解析目标进行功能分类。即，分段解析器H20030可被分类为用于解析视频的分段的分段解析器和用于关于区域信息或视点信息的元数据的分段解析器。

视频解码器H20040可将视频比特流解码并将解码的视频比特流传送至投影仪/渲染器/传感器H20060。

DIRC解析器H20050可解析DIRC元数据并将解析的信息(DIRC信息)传送至投影仪/渲染器/传感器H20060。

投影仪/渲染器/传感器H20060可从视频解码器H20040接收视频比特流并从DIRC解析器H20050接收DIRC元数据。另外，投影仪/渲染器/传感器H20060可使用DIRC信息向用户提供视频数据。投影仪/渲染器/传感器H20060使用DIRC信息向用户提供VR内容的方法可取决于应用。例如，可通过自动导航向用户显示由DIRC指示的制作者预期的视点。作为另一示例，可根据用户的视点以用于引导制作者预期的视点的方向指示显示VR内容。

图21示出根据本发明的另一实施方式的用信号通知关于区域信息或视点信息的元数据的传输的MPD。

在图21所示的实施方式中，区别于图18和图19的实施方式，VR视频由两个或更多个空间区域组成，并且通过两个或更多个适配集合发送。在图21的示例中，VR视频被分割成分别与VR视频拼块对应的左空间区域和右空间区域。两个VR视频拼块对应于两个适配集合。两个VR视频拼块之间的空间关系通过SRD(SupplementalProperty@schemeIdUri＝“urn:mpeg:dash:srd:2014”)描述。更具体地，与左空间区域对应的VR视频拼块的空间信息通过<SupplementalProperty schemeIdUri＝“urn:mpeg:dash:srd:2014”value＝“1,0,0,1920,1920,3840,1920,0”/>描述(H21010)，与右空间区域对应的VR视频拼块的空间信息通过<supplementalProperty schemeIdUri＝“urn:mpeg:dash:srd:2014”value＝“1,0,1920,1920,1920,3840,1920,0”/>描述(H21020)。

另外，如图18和图19的实施方式中一样，关于区域信息或视点信息的元数据可通过Role@value＝“dirc”或“metadata”标识。在本实施方式中，如图18的实施方式中一样，定义新角色方案并分配Role@value＝”dirc”以标识使用关于区域信息或视点信息的元数据(H21030)。

Representation@associationId可指示与两个或更多个空间区域对应的VR视频拼块的表示或单个表示(用于传输基础拼块轨道的表示)。本实施方式指示与两个空间区域对应的VR视频拼块1和VR视频类型2(H21040)。

将描述与参照图21描述的在VR视频被分割成两个或更多个空间区域并通过两个或更多个适配集合发送的实施方式中发送和用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图22是根据本发明的另一实施方式的接收机的框图。

参照图22，根据本发明的另一实施方式的接收机可包括DASH客户端H22020、分段解析器H22030、视频解码器H22040、DIRC解析器H22050和/或投影仪/渲染器/传感器H22060。

MPD、VR内容和/或关于区域信息或视点信息的元数据可由DASH服务器H22010提供并由DASH客户端H22020接收。这里，接收机的DASH客户端H22020可从DASH服务器H22010以数据分组格式接收VR内容、MPD和/或关于区域信息或视点信息的元数据。DASH客户端H22020可向DASH服务器H22010请求MPD、VR内容和/或关于区域信息或视点信息的元数据。DASH客户端H22020可从所接收的分组生成MPD和分段。

在图22的实施方式中，从DASH服务器H22010发送的数据分组可以是VR视频的空间区域(例如，VR视频拼块)的一部分。即，从DASH服务器H22010发送的VR视频内容可对应于包括用户的初始视点的空间区域(拼块)或者包括制作者预期的视点或区域的空间区域(拼块)，其由从DIRC解析器H22050(将在下面描述)传送的信息(DIRC信息)指示。

DASH客户端H22020可解析所接收的MPD以获取关于内容(VR内容)的信息。这里，DASH客户端H22020可通过上面参照图20描述的关于发送关于区域信息或视点信息的元数据的适配集合的信令来识别是否存在关于区域信息或视点信息的元数据。另外，DASH客户端H22020可根据接收机的能力和/或内容的使用目的来启用DIRC解析器和用于DIRC的分段解析器(参照图中的虚线)。例如，当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时，可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。分段可被传送至分段解析器H22030。

分段解析器H22030可解析所接收的分段并将视频比特流和关于区域信息或视点信息的元数据(DIRC元数据)分别传送至视频解码器H22040和DIRC解析器H22050。分段解析器H22030可根据解析目标进行功能分类。即，分段解析器H22030可被分类为用于解析视频的分段的分段解析器和用于关于区域信息或视点信息的元数据的分段解析器。

视频解码器H22040可将视频比特流解码并将解码的视频比特流传送至投影仪/渲染器/传感器H22060。

DIRC解析器H22050可解析DIRC元数据并将解析的信息(DIRC信息)传送至投影仪/渲染器/传感器H22060。

另外，DIRC解析器H22050可将解析的信息(DIRC信息)传送至DASH客户端H22010。传送至DASH客户端H22010的信息(DIRC信息)可用于DASH客户端H22010选择与包括制作者预期的视点或区域的空间区域(拼块)对应的适配集合。

投影仪/渲染器/传感器H22060可从视频解码器H22040接收视频比特流并从DIRC解析器H22050接收DIRC元数据。另外，投影仪/渲染器/传感器H22060可使用DIRC信息向用户提供视频数据。投影仪/渲染器/传感器H22060使用DIRC信息向用户提供VR内容的方法可取决于应用。例如，可通过自动导航向用户显示由DIRC指示的制作者预期的视点。作为另一示例，可根据用户的注视以用于引导制作者预期的视点的方向指示显示VR内容。

在参照图18至图22描述的实施方式中，用于发送并用信号通知VR视频的适配集合与用于发送并用信号通知元数据的适配集合分开存在。

将参照图23至图25描述在单个适配集合中一起发送并用信号通知VR视频和元数据的实施方式。

在单个适配集合中发送视频和元数据的实施方式

与参照图18至图22描述的情况相区别，关于视点信息或区域信息的元数据可与VR视频一起在单个适配集合中发送。在这种情况下，视频数据和元数据可通过单个文件(分段或ISO BMFF)发送。在特定实施方式中，VR视频和元数据可被配置成单个文件中的单独轨道或者配置成包括元数据的单个视频文件。

下面将依次描述VR视频和元数据被配置成单个文件中的单独轨道的实施方式和配置包括元数据的单个视频轨道的实施方式。

图23示出根据本发明的另一实施方式的用信号通知关于区域信息或视点信息的元数据的传输的MPD。

图23的实施方式对应于VR视频和关于区域信息或视点信息的元数据被配置成单个文件中的单独轨道的实施方式。VR视频和关于区域信息或视点信息的元数据被配置成单个适配集合和单个文件中的单独轨道并发送。

在图23的实施方式中，VR视频轨道和元数据轨道可由作为MPD中的AdaptationSet的下级元素的ContentComponent标识，并且可具有“video”和“application”的contentType(H23010和H23020)。ContentComponent可具有Role作为下级元素并且Role用于指示VR视频和/或元数据(关于区域信息或视点信息的元数据)是否通过上述通过附加适配集合发送元数据的方法来发送。即，对于VR视频，“urn:mpeg:dash:role:2011”可被分配给角色方案并且“main’可被分配给值。在关于区域信息或视点信息的元数据的情况下，“urn:mpeg:dash:role:201x”可被分配给角色方案并且“dirc”可被分配给值，或者“urn:mpeg:dash:role:2011”可被分配给角色方案并且“metadata”可被分配给值。

在图23的实施方式的情况下，对于VR视频，“urn:mpeg:dash:role:2011”被分配给角色方案并且“main”被分配给值(H23030)，对于关于区域信息或视点信息的元数据，“urn:mpeg:dash:role:201x”被分配给角色方案并且“dirc”被分配给值(H23040)。

图24示出根据本发明的另一实施方式的用信号通知关于区域信息或视点信息的元数据的传输的MPD。

在图24的实施方式中，VR视频和关于区域信息或视点信息的元数据被配置成单个轨道。VR视频和关于区域信息或视点信息的元数据被配置成单个适配集合和单个文件中的单个轨道。

单个文件可基本上包括单个视频轨道。关于区域信息或视点信息的元数据可按照附接到轨道的元数据的形式(例如，样本组描述)存储。在这种情况下，MPD可包括包含视频和元数据的单个适配集合以及分别指示视频和元数据是否发送的两个角色。即，在VR视频的情况下，“urn:mpeg:dash:role:2011”可被分配给角色方案并且“main”可被分配给值。另外，在关于区域信息或视点信息的元数据的情况下，“urn:mpeg:dash:role:201x”可被分配给角色方案并且“dirc”可被分配给值，或者“urn:mpeg:dash:role:2011”可被分配给角色方案并且“metadata”可被分配给值。

在图24的实施方式中，区别于图23的实施方式，用于标识VR视频和元数据的ContentComponent不作为适配集合的下级元素存在。

在图24的实施方式的情况下，对于VR视频，“urn:mpeg:dash:role:2011”被分配给角色方案并且“main”被分配给值(H24030)，对于关于区域信息或视点信息的元数据，“urn:mpeg:dash:role:201x”被分配给角色方案并且“dirc”被分配给值(H24040)。

将描述与上面参照图23和图24描述的通过单个适配集合发送并用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图25是根据本发明的另一实施方式的接收机的框图。

参照图25，根据本发明的另一实施方式的接收机可包括DASH客户端H25020、分段解析器H25030、视频解码器H25040、DIRC解析器H25050和/或投影仪/渲染器/传感器H25060。

MPD、VR内容和/或关于区域信息或视点信息的元数据可由DASH服务器H25010提供并由DASH客户端H25020接收。这里，接收机的DASH客户端H25020可从DASH服务器H25010以数据分组格式接收VR内容、MPD和/或关于区域信息或视点信息的元数据。DASH客户端H25020可向DASH服务器H25010请求MPD、VR内容和/或关于区域信息或视点信息的元数据。DASH客户端H25020可从所接收的分组生成MPD和分段。

DASH客户端H25020可解析所接收的MPD以获取关于内容(VR内容)的信息。这里，DASH客户端H25020可通过上面参照图23和图24描述的关于发送关于区域信息或视点信息的元数据的适配集合的信令来识别是否存在关于区域信息或视点信息的元数据。另外，DASH客户端H25020可根据接收机的能力和/或内容的使用目的来启用DIRC解析器和用于DIRC的分段解析器(参照图中的虚线)。例如，当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时，可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。分段可被传送至分段解析器H25030。

分段解析器H25030可解析所接收的分段并将视频比特流和关于区域信息或视点信息的元数据(DIRC元数据)分别传送至视频解码器H25040和DIRC解析器H25050。分段解析器H25030可根据解析目标进行功能分类。即，分段解析器H25030可被分类为用于解析视频的分段的分段解析器和用于关于区域信息或视点信息的元数据的分段解析器。

视频解码器H25040可将视频比特流解码并将解码的视频比特流传送至投影仪/渲染器/传感器H25060。

DIRC解析器H25050可解析DIRC元数据并将解析的信息(DIRC信息)传送至投影仪/渲染器/传感器H25060。

投影仪/渲染器/传感器H25060可从视频解码器H25040接收视频比特流并从DIRC解析器H25050接收DIRC元数据。另外，投影仪/渲染器/传感器H25060可使用DIRC信息向用户提供视频数据。投影仪/渲染器/传感器H25060使用DIRC信息向用户提供VR内容的方法可取决于应用。例如，可通过自动导航向用户显示由DIRC指示的制作者预期的视点。作为另一示例，可根据用户的视点以用于引导制作者预期的视点的方向指示显示VR内容。

<使用MPEG-2TS发送并用信号通知关于区域信息或视点信息的元数据的方法>

参照图12至图16描述的关于区域信息或视点信息的元数据可通过MPEG-2TS发送。更具体地，关于区域信息或视点信息的元数据可通过打包基本流分组(PES分组)或传输流(TS)的适配字段来发送。

下面将依次描述通过具有唯一PID的PES分组发送关于区域信息或视点信息的元数据的实施方式以及通过TS的适配字段发送关于区域信息或视点信息的元数据的实施方式。

通过PES发送元数据的实施方式

根据实施方式，可通过以下方法通过PES分组发送关于区域信息或视点信息的元数据。包括关于区域信息或视点信息的元数据的PES分组的流ID stream_id可被设定为指示私有流，并且私有流的流类型stream_type可被设定为指示关于区域信息或视点信息的元数据流。

图26示出流ID以及关于分配给该流ID的流的信息，图27示出流类型以及关于分配给该流类型的流的信息的一部分，图28示出通过PES分组发送的访问单元。

参照图26，当stream_id为“1011 1101”时，与之对应的流指示private_stream_1。当stream_id＝“1011 1101”并且stream_type为“0x27”时，与之对应的流(VR导演剪辑信息流)是与关于区域信息或视点信息的元数据有关的流(参照图26的注释11)。参照图27，当stream_type为“0x27”时，与之对应的流是与关于区域信息或视点信息的元数据有关的流(VR导演剪辑信息流)。

图28示出通过单个PES分组发送的访问单元的配置。图28所示的访问单元(VDCI_AU)包括vdci_descriptor()，并且vdci_descriptor()可包括关于区域信息或视点信息的元数据。下面将描述vdci_descriptor()。

在适配字段中发送元数据的实施方式

根据实施方式，可通过以下方法通过TS的适配字段发送关于区域信息或视点信息的元数据。当关于区域信息或视点信息的元数据被包括在适配字段中并发送时，可使用标志字段来指示是否存在包括关于区域信息或视点信息的元数据的描述符，并且当标志字段指示存在包括关于区域信息或视点信息的元数据的描述符时，包括关于区域信息或视点信息的元数据的描述符可被包括在适配字段中。

图29示出根据本发明的实施方式的适配字段。

参照图29，适配字段包括vcdi_descriptor_not_present_flag。vcdi_descriptor_not_present_flag指示是否存在vcdi_descriptor()。在图29所示的实施方式中，当vcdi_descriptor_not_present_flag被设定为0时，adaptation_filed()中存在vcdi_descriptor()。

TS组件是否可在适配字段中包括关于区域信息或视点信息的元数据可通过扩展描述符来指示。当extension_descriptor_tag被分配给预设值时，extension_descriptor_tag可指示组件的适配字段可包括针对关于区域信息或视点信息的元数据的描述符。

图30示出根据本发明的实施方式的扩展描述符，图31示出包括在扩展描述符中的扩展描述符标签的值以及值的描述，图32示出根据本发明的实施方式的vdci扩展描述符。

参照图30，根据本发明的实施方式的扩展描述符可包括描述符标签、描述符长度和扩展描述符标签，并且根据扩展描述符标签的值包括描述符。

描述符标签可指示当前描述符。在图30所示的实施方式中，描述符标签可被设定为指示扩展描述符的值。在特定实施方式中，描述符标签可被设定为“63”以指示扩展描述符。这里，描述符标签的特定值可取决于实施方式。

描述符长度可以字节为单位描述对应描述符的长度。

扩展描述符标签可指示包括在扩展描述符中的特定描述符。

参照图31，扩展描述符标签的值指示包括在扩展描述符中的特定描述符。如图30和图31所示，当扩展描述符标签为0x02时，扩展描述符包括ObjectDescriptorUpdate描述符。当扩展描述符标签为0x03时，扩展描述符包括HEVC_timing_and_HRD_descriptor。当扩展描述符标签为0x04时，扩展描述符包括af_extension_descriptor。当扩展描述符标签为0x05时，扩展描述符包括vdci_extension_descriptor。

图32示出根据本发明的实施方式的vdci_extension_descriptor。

根据本发明的实施方式的vdci_extenstions_descriptor可包括vdci描述符类型。

vdci描述符类型指示vdci描述符(将在下面描述)的类型。例如，当vdci描述符类型“0x01”时，vdci描述符为2d_vcdi_descriptor()。当vdci描述符类型为“0x02”时，vdci描述符为spherical_vcdi_descriptor()。

图33和图34示出根据本发明的实施方式的vdci描述符。

更具体地，图33示出根据本发明的实施方式的2D vdci描述符，图34示出根据本发明的实施方式的球面vcdi描述符。

参照图33，示出根据本发明的实施方式的2D vdci描述符。

2d_vcdi_descriptor可包括2d_vcdi_descr_tag、2d_vdci_descr_length、reference_region_flag、duration_flag、next_vcdi_flag、reference_width、reference_height、top_left_x、top_left_y、width、height、interpolate、duration、next_top_left_x、next_top_left_y、next_width、next_height和/或next_interpolate。

2d_vcdi_descr_tag通过向其分配唯一值来指示2D vdci描述符。

2d_vdci_descr_length以字节为单位指示2D vdci描述符的长度。

reference_region_flag指示是否存在reference_width和reference_height字段。在实施方式中，当reference_region_flag被设定为1时，reference_region_flag指示存在reference_width和reference_height字段。

duration_flag指示是否存在duration字段。在实施方式中，duration_flag当设定为1时指示存在duration字段。

next_vcdi_flag指示是否存在next_top_left_x、next_top_left_y、next_width和next_height字段。在实施方式中，next_vcdi_flag当设定为1时指示存在next_top_left_x、next_top_left_y、next_width和next_height字段。

duration指示当前区域的持续时间。在另一实施方式中，duration可指示当前区域表示时间与下一区域表示时间之间的差异。

reference_width指示2D空间的水平大小。这里，2D空间的水平大小可由像素数表示。

reference_height指示2D空间的垂直大小。这里，2D空间的垂直大小可由像素数表示。

top_left_x指示要表示的区域的左上点的水平坐标。

top_left_y指示要表示的区域的左上点的垂直坐标。

interpolate指示先前区域与当前区域之间的值是否由线性插值的值填充。在实施方式中，当interpolate为1时，先前区域与当前区域之间的值可由线性插值的值填充。

next_top_left_x指示要表示的下一区域的左上点的水平坐标。

next_top_left_y指示要表示的下一区域的左上点的垂直坐标。

next_width指示要表示的下一区域的水平大小。这里，要表示的区域的水平大小可按照像素数表示。

next_height指示要表示的下一区域的垂直大小。这里，要表示的区域的垂直大小可按照像素数表示。

next_interpolate指示当前区域与下一区域之间的值是否由线性插值的值填充。在实施方式中，当next_interpolate为1时，当前区域与下一区域之间的值可由线性插值的值填充。

参照图34，示出根据本发明的实施方式的球面vdci描述符。

spherical_vcdi_descriptor可包括spherical_vcdi_descr_tag、spherical_vdci_descr_length、reference_region_flag、duration_flag、next_vcdi_flag、reference_min_yaw、reference_max_yaw、reference_min_pitch、reference_max_pitch、yaw、pitch、roll、field_of_view、interpolate、duration、next_yaw、next_pitch、next_roll、next_field_of_view和/或next_interpolate。

spherical_vcdi_descr_tag通过向其分配唯一值来指示球面vdci描述符。

spherical_vdci_descr_length以字节为单位来指示球面vdci描述符的长度。

reference_region_flag指示是否存在reference_min_yaw、reference_max_yaw、reference_min_pitch和reference_max_pitch字段。在实施方式中，reference_region_flag当设定为1时指示存在reference_min_yaw、reference_max_yaw、reference_min_pitch和reference_max_pitch字段。

next_vcdi_flag指示是否存在next_yaw、next_pitch、next_roll、next_field_of_view和next_interpolate字段。在实施方式中，next_vcdi_flag当设定为1时指示存在next_yaw、next_pitch、next_roll、next_field_of_view和next_interpolate字段。

duration指示当前区域的持续时间。另选地，duration可指示当前区域表示时间与下一区域表示时间之间的差异。

reference_min_yaw指示相对于3D空间的偏航轴的旋转量的最小值。

reference_max_yaw指示相对于3D空间的偏航轴的旋转量的最大值。

reference_min_pitch指示相对于3D空间的俯仰轴的旋转量的最小值。

reference_max_pitch指示相对于3D空间的俯仰轴的旋转量的最大值。

yaw指示相对于要表示的区域的偏航轴的旋转量。

pitch指示相对于要表示的区域的俯仰轴的旋转量。

roll指示相对于要表示的区域的横滚轴的旋转量。

field_of_view指示要表示的区域的视场。

next_yaw指示相对于要表示的下一区域的偏航轴的旋转量。

next_pitch指示相对于要表示的下一区域的俯仰轴的旋转量。

next_roll指示相对于要表示的下一区域的横滚轴的旋转量。

next_field_of_view指示要表示的下一区域的视场。

next_interpolate指示当前区域与下一区域之间的值是否由线性插值的值填充。在实施方式中，当interpolate为1时，当前区域与下一区域之间的值可由线性插值的值填充。

将描述与上面参照图25至图34描述的通过MPEG-2TS发送并用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图35是根据本发明的另一实施方式的接收机的框图。

参照图35，根据本发明的另一实施方式的接收机可包括MPEG-2TS接收器H35020、视频解码器H35030、DIRC解析器H35040和/或投影仪/渲染器/传感器H35050。

VR内容和/或关于区域信息或视点信息的元数据可由MPEG-2TS发送器H35010提供并由MPEG-2TS接收器H35020接收。这里，接收机的MPEG-2TS接收器H35020可从MPEG-2TS发送器H35010以分组格式接收VR内容和/或关于区域信息或视点信息的元数据。MPEG-2TS接收器H35020可分析所接收的MPEG-2TS分组以生成视频比特流和关于区域信息或视点信息的元数据(DIRC元数据)。

这里，MPEG-2TS接收器H35020可通过上述标识通过PEG或适配字段发送的关于区域信息或视点信息的元数据的方法来识别是否存在元数据。

另外，MPEG-2接收器H35020可根据接收机的能力和/或内容的使用目的来启用DIRC解析器(参照图中的虚线)。例如，当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时，可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。MPEG-2接收器H35020可将视频比特流和关于区域信息或视点信息的元数据(DIRC元数据)传送至视频解码器H35030和DIRC解析器H35040。

视频解码器H35030可将视频比特流解码并将解码的视频比特流传送至投影仪/渲染器/传感器H35050。

DIRC解析器H35040可解析DIRC元数据并将解析的信息(DIRC信息)传送至投影仪/渲染器/传感器H35050。

投影仪/渲染器/传感器H35050可从视频解码器H35030接收视频比特流并从DIRC解析器H35040接收DIRC元数据。另外，投影仪/渲染器/传感器H35050可使用DIRC信息来向用户提供视频数据。投影仪/渲染器/传感器H35050使用DIRC信息向用户提供VR内容的方法可取决于应用。例如，由DIRC指示的制作者预期的视点可通过自动导航显示给用户。作为另一示例，可根据用户的视点以用于引导制作者预期的视点的方向指示显示VR内容。

<使用视频编码层发送并用信号通知关于区域信息或视点信息的元数据的方法>

上面参照图12至图16描述的关于区域信息或视点信息的元数据可通过视频编码层(VCL)发送。更具体地，关于区域信息或视点信息的元数据可按照VCL SEI(补充增强信息)消息的形式发送。

图36示出根据本发明的实施方式的包括在SEI消息中的关于区域信息或视点信息的元数据。

参照图36的上部，根据本发明的实施方式的SEI消息的有效载荷包括关于2D空间中的区域信息或视点信息的元数据。

根据本发明的实施方式的SEI消息的有效载荷可包括directors_cut_id、reference_region_flag、duration_flag、next_vcdi_flag、reference_width、reference_height、top_left_x、top_left_y、width、height、interpolate、duration、next_top_left_x、next_top_left_y、next_width、next_height和/或next_interpolate。

directors_cut_id指示关于2D空间中的区域信息或视点信息的元数据的唯一ID。当在同一流中存在关于多个2D空间中的区域信息或视点信息的元数据时，directors_cut_id可用于标识各条元数据。即，具有相同directors_cut_id的元数据形成指示单个2D空间中的区域信息或视点信息的元数据序列。

参照图33对2d_vcdi_descriptor()的描述可应用于根据本发明的实施方式的SEI消息的有效载荷中包括的其它字段。

参照图36的下部，根据本发明的另一实施方式的SEI消息的有效载荷包括关于3D空间中的区域信息或视点信息的元数据。

根据本发明的另一实施方式的SEI消息的有效载荷可包括directors_cut_id、reference_region_flag、duration_flag、next_vcdi_flag、reference_min_yaw、reference_max_yaw、reference_min_pitch、reference_max_pitch、yaw、pitch、roll、field_of_view、interpolate、duration、next_yaw、next_pitch、next_roll、next_field_of_view和/或next_interpolate。

directors_cut_id指示关于3D空间中的区域信息或视点信息的元数据的唯一ID。当在同一流中存在关于多个3D空间中的区域信息或视点信息的元数据时，directors_cut_id可用于标识各条元数据。即，具有相同directors_cut_id的元数据形成指示单个3D空间中的区域信息或视点信息的元数据序列。

参照图34对spherical_vcdi_descriptor()的描述可应用于根据本发明的实施方式的SEI消息的有效载荷中所包括的其它字段。

将描述与上面参照图36描述的通过VCL发送并用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图37是根据本发明的另一实施方式的接收机的框图。

参照图37，根据本发明的另一实施方式的接收机可包括网络客户端/内容解析器H37020、视频解码器H37030、DIRC解析器H37040和/或投影仪/渲染器/传感器H37050。

包括VR内容和/或关于区域信息或视点信息的元数据的视频数据可由内容/网络服务器H37010提供并由网络客户端/内容解析器H37020接收。这里，接收机的网络客户端/内容解析器H37020可从内容/网络服务器H37010以网络分组或文件的形式接收视频数据。网络客户端/内容解析器H37020可分析所接收的网络分组或文件以生成视频比特流。

网络客户端/内容解析器H37020可将视频比特流传送至视频解码器H37030。

视频解码器H37030可将视频比特流解码。视频解码器H37030可将视频比特流解码以获取视频数据和关于区域信息或视点信息的元数据(DIRC元数据)。

视频解码器H37030可将视频比特流传送到投影仪/渲染器/传感器H37050。

另外，视频解码器H37030可根据接收机的能力和/或内容的使用目的来启用DIRC解析器H37040并将关于区域信息或视点信息的元数据(DIRC元数据)传送至DRIC解析器H37040。例如，当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时，可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。

DIRC解析器H37040可解析DIRC元数据并将解析的信息(DIRC信息)传送至投影仪/渲染器/传感器H37050。

投影仪/渲染器/传感器H37050可从视频解码器H37030接收视频比特流并从DIRC解析器H37040接收DIRC元数据。另外，投影仪/渲染器/传感器H37050可使用DIRC信息来向用户提供视频数据。投影仪/渲染器/传感器H37050使用DIRC信息向用户提供VR内容的方法可取决于应用。例如，由DIRC指示的制作者预期的视点可通过自动导航显示给用户。作为另一示例，可根据用户的视点以用于引导制作者预期的视点的方向指示显示VR内容。

根据本发明的一方面，提供了一种发送全向视频的方法。

图38是示出根据本发明的实施方式的发送全向视频的方法的流程图。

根据本发明的实施方式的发送全向视频的方法可包括：步骤SH38100，获取全向视频的图像；步骤SH380200，将全向视频的图像投影在3D投影结构上；步骤SH38300，将投影在3D投影结构上的图像打包成2D帧；步骤SH38400，对打包成2D帧的图像进行编码；以及步骤SH38500，发送包括编码的图像和关于全向视频的元数据的数据。

在获取全向视频的图像的步骤SH38100中，可获取全向视频的图像。如上面参照图1、图2和图4所描述的，可通过使用全向相机(360度相机或VR相机)拍摄图像或者通过生成与全向视频对应的数据来获取全向视频的图像。

获取全向视频的图像的步骤SH38100可对应于图1所示的拍摄处理t1010、图2所示的数据输入单元的操作和图4所示的获取。

将全向视频的图像投影在3D投影结构上的步骤SH380200可以是将全向视频的图像投影在3D投影结构或3D模型上的步骤。在实施方式中，3D投影结构或3D模型可以是球体、立方体、圆柱体或锥体。

将全向视频的图像投影在3D投影结构上的步骤SH380200可对应于图1的准备处理t1010的投影、图2所示的投影处理器的操作和图4所示的投影。

在实施方式中，发送全向视频的方法还可在获取全向视频的图像的步骤SH38100与将全向视频的图像投影在3D投影结构上的步骤SH380200之间包括将全向视频的图像连接的拼接步骤。即，可通过拼接连接全向视频的图像，并且连接的图像可被投影在3D投影结构上。

将投影在3D投影结构上的图像打包成2D帧的步骤SH38300可以是将投影在3D投影结构上的3D图像打包成2D帧的步骤。投影在3D投影结构上的3D图像可使用3D区域信息来表示，并且打包在2D帧中的图像可使用2D区域信息来表示。

这里，2D区域信息可与3D区域信息对应。即，由2D区域信息指示的2D帧上的区域或点可与由3D区域信息指示的3D投影结构上的区域或点对应。

2D区域信息可以是上面参照图12、图13、图33和图36描述的信息。3D区域信息可以是上面参照图14、图15、图34和图36描述的信息。此外，2D区域信息和3D区域信息可以是包括在关于全向视频的元数据中的信息。

另外，将投影在3D投影结构上的图像打包成2D帧的步骤SH38300可对应于图1的准备处理t1010的2D图像映射、图2所示的投影处理器的2D投影操作以及图4所示的投影映射的映射处理。

在实施方式中，将投影在3D投影结构上的图像打包成2D帧的步骤SH38300可包括将投影在3D投影结构上的图像分割成预定区域的步骤以及将分割成预定区域的子图像打包成2D帧的步骤。

将投影在3D投影结构上的图像分割成预定区域的步骤和将分割成预定区域的子图像打包成2D帧的步骤可对应于图1的区域式打包处理、图2的区域式打包单元的操作和图4的区域式打包。当执行区域式打包时，分割成预定区域的子图像可对应于打包的帧。当不执行区域式打包时，2D帧可对应于打包的帧。

对打包成2D帧的图像进行编码的步骤SH38400可以是根据预定编码方案对打包的图像进行编码的步骤。

对打包成2D帧的图像进行编码的步骤SH38400可对应于图1的准备处理t1010的编码处理、图2的数据编码器的操作和图4的视频编码或图像编码处理。

在实施方式中，当执行区域式打包时，对打包成2D帧的图像进行编码的步骤SH38400可以是对与各个区域对应的打包的图像进行编码的步骤。这里，对于打包的图像可使用不同的编码方案。

发送编码的图像和关于全向视频的元数据的步骤SH38500可以是将包括编码的图像和关于全向视频的元数据在内的数据信号发送到接收装置的步骤。

发送包括编码的图像和关于全向视频的元数据在内的数据信号的步骤SH38500可对应于图1的传输处理、图2的发送机的操作和图4所示的传送。

在实施方式中，数据信号可以是广播信号，并且编码的图像和关于全向视频的元数据可通过广播信号来发送。

在另选实施方式中，编码的图像可通过广播网络来发送，关于全向视频的元数据可通过宽带网络来发送。另选地，编码的图像可通过宽带网络来发送，关于全向视频的元数据可通过广播网络来发送。另选地，编码的图像和关于全向视频的元数据二者可通过宽带网络来发送。

关于全向视频的元数据可指接收装置处理全向视频所需的信息。关于全向视频的元数据可对应于图8所示的元数据的全部或部分，并且可指图12至图19、图21、图23、图24、图26至图34和/或图36所示的信息。

在特定实施方式中，关于全向视频的元数据可包括关于投影在3D投影结构上的图像的3D区域信息或者关于打包成2D帧的图像的2D区域信息。这里，2D区域信息可以是参照图12、图13、图33和图36描述的信息，3D区域信息可以是参照图14、图15、图34和图36描述的信息。此外，2D区域信息和3D区域信息可以是包括在关于全向视频的元数据中的信息。

在特定实施方式中，3D区域信息可用于指示投影在3D球面投影结构上的3D图像的区域。即，3D区域信息可以是指示球体的区域的信息(参照图14、图15、图34和图36)。在此实施方式中，3D区域信息可包括指示水平视场的水平视场信息和指示垂直视场的垂直视场信息。另外，3D区域信息还可包括偏航信息和俯仰信息，其指示用于指示水平视场和垂直视场的中心的偏航轴角度和俯仰轴角度。在实施方式中，水平视场信息和垂直视场信息可以是图14和图15的field_of_view、min_field_of_view、max_field_of_view、horizontal_field_of_view和/或vertical_field_of_view。

在实施方式中，指示用于指示水平视场和垂直视场的中心的偏航轴角度和俯仰轴角度的偏航信息和俯仰信息可以是图14和图15的center_yaw，yaw、center_pitch和pitch。

另外，关于全向视频的元数据可指示关于全向视频的制作者预期的视点的信息。

关于全向视频的元数据可通过ISOBMFF、DASH MPD/分段、MPEG-2TS的PES分组或适配字段和/或VCL的SEI消息来发送。

在实施方式中，关于全向视频的元数据可被包括在DASH(经由HTTP的动态自适应流传输)的适配集合中并发送。这已在上面参照图18至图25详细描述。

在另一实施方式中，关于全向视频的元数据可被包括在MPEG-2TS的PES(打包基本流)分组或适配字段中并发送。这已在上面参照图26至图36详细描述。

在另一实施方式中，关于全向视频的元数据可被包括在VCL(视频编码层)的SEI(补充增强层)消息中。这已在上面参照图36和图37详细描述。

根据本发明的另一方面，提供了一种发送全向视频的装置。

图39是根据本发明的实施方式的发送全向视频的装置的框图。

根据本发明的实施方式的发送全向视频的装置可包括：图像获取单元H39100，用于获取全向视频的图像；投影单元H39200，用于将全向视频的图像投影在3D投影结构上；打包单元H39300，用于将投影在3D投影结构上的图像打包成2D帧；编码器H39400，用于对打包成2D帧的图像进行编码；以及发送单元H39500，用于发送包括编码的图像和关于全向视频的元数据在内的数据信号。

图像获取单元H39100的操作可对应于上面参照图38描述的根据本发明的实施方式的发送全向视频的方法中的获取全向视频的图像的步骤SH38100，因此适用步骤SH38100的描述。

投影单元H39200的操作可对应于上面参照图38描述的根据本发明的实施方式的发送全向视频的方法中的将全向视频的图像投影到3D投影结构上的步骤SH38200，因此适用步骤SH38200的描述。

打包单元H39300的操作可对应于上面参照图38描述的根据本发明的实施方式的发送全向视频的方法中的将投影到3D投影结构上的图像打包成2D帧的步骤SH38300，因此适用步骤SH38300的描述。

编码器H39400的操作可对应于上面参照图38描述的根据本发明的实施方式的发送全向视频的方法中的对打包成2D帧的图像进行编码的步骤SH38400，因此适用步骤SH38400的描述。

发送单元H39500的操作可对应于上面参照图38描述的根据本发明的实施方式的发送全向视频的方法中的发送包括编码的图像和关于全向视频的元数据在内的数据信号的步骤SH38500，因此适用步骤SH38500的描述。

在实施方式中，发送全向视频的装置还可包括拼接器(未示出)。拼接器可将全向视频的图像连接。拼接器的操作可对应于上面参照图38描述的根据本发明的实施方式的发送全向视频的方法的拼接步骤，因此适用拼接步骤的描述。

在实施方式中，打包单元H39300可将投影到3D投影结构上的图像分割成预定区域并将分割成预定区域的子图像打包成2D帧。打包单元的这种区域式打包操作可对应于上面参照图38描述的根据本发明的实施方式的发送全向视频的方法的区域式打包步骤，因此适用区域式打包步骤的描述。

关于全向视频的元数据可指接收装置处理全向视频所需的信息。关于全向视频的元数据已在上面根据本发明的实施方式的发送全向视频的方法中描述。

根据本发明的另一方面，提供了一种接收全向视频的方法。

图40是示出根据本发明的实施方式的接收全向视频的方法的流程图。

根据本发明的实施方式的接收全向视频的方法可包括：步骤SH40100，接收包括全向视频的图像和关于全向视频的元数据在内的数据信号；步骤SH40200，解析关于全向视频的元数据；步骤SH40300，将全向视频的图像解码；以及步骤SH40400，将全向视频的图像重新投影到3D模型上。

根据本发明的实施方式的接收全向视频的方法可以是与上述根据本发明的实施方式的发送全向视频的方法对应的接收方的方法。

接收包括全向视频的图像和关于全向视频的元数据在内的数据信号的步骤SH40100可以是接收包括全向视频的图像和关于全向视频的元数据在内的数据信号的步骤，并且该数据信号可发送自发送装置。

全向视频的图像可以是在根据本发明的实施方式的发送全向视频的方法中编码的图像。即，全向视频的图像可以是通过图38的步骤SH38100、SH38200、SH38300和SH38400生成的编码的图像。

接收包括全向视频的图像和关于全向视频的元数据在内的数据信号的步骤SH40100可对应于图1的接收处理、图3所示的接收单元的操作和图4的接收处理。

在另选实施方式中，全向视频的图像可通过广播网络来发送，关于全向视频的元数据可通过宽带网络来发送。另选地，全向视频的图像可通过宽带网络来发送，关于全向视频的元数据可通过广播网络来发送。另选地，全向视频的图像和关于全向视频的元数据二者可通过宽带网络来发送。

解析关于全向视频的元数据的步骤SH40200可以是解析包括在数据信号中的关于全向视频的元数据的步骤。

如上所述，关于全向视频的元数据可通过ISOBMFF、DASH MPD/分段、MPEG-2TS的PES分组或适配字段和/或VCL的SEI消息来发送，因此可在各个级别解析。

将全向视频的图像解码的步骤SH40300可以是使用与用于编码的图像的编码方案对应的解码方案对编码的图像进行解码的步骤。

将全向视频的图像解码的步骤SH40300可对应于图1的解码处理、图3的数据解码器的操作和图4的视频解码或图像解码处理。

在实施方式中，当执行区域式打包时，将全向视频的图像解码的步骤SH40300可以是将与各个区域对应的打包的图像解码的步骤。这里，对于打包的图像可使用不同的解码方案。

在通过VCL的SEI消息发送关于全向视频的元数据的实施方式中，可在步骤SH40300中提取关于全向视频的元数据。

将全向视频的图像重新投影到3D模型上的步骤SH40400可以是将打包成2D帧的图像重新投影到3D模型上的步骤。由于通过步骤SH40300解码的全向视频的图像是指打包成2D帧的图像，所以步骤SH40400可指将打包成2D帧的图像重新投影到3D模型上的步骤。这里，3D模型可与根据本发明的实施方式的发送全向视频的方法中的3D投影结构相同。

将全向视频的图像重新投影在3D模型上的步骤SH40400可对应于图1的渲染处理t1030、图3的重新投影处理器的操作和图4的视频渲染处理。

在实施方式中，根据本发明的实施方式的接收全向视频的方法还可包括反馈步骤。反馈步骤是输出用户装置的视口信息或旋转信息的步骤。可基于用户装置的视口信息或旋转信息来处理与观看区域对应的数据。可在重新投影步骤、渲染步骤、图像解码步骤或传输文件或分段解封装步骤之前提供包括用户装置的视口信息或旋转信息的反馈信息。此外，反馈信息可被发送给发送方。

反馈步骤可对应于图1的反馈处理、图3的反馈处理器的操作和图4所示的VR应用的跟踪处理。

根据本发明的另一方面，提供了一种接收全向视频的装置。

图41是根据本发明的实施方式的接收全向视频的装置的框图。

根据本发明的实施方式的接收全向视频的装置可包括：接收单元H41100，用于接收包括全向视频的图像和关于全向视频的元数据在内的数据信号；元数据解析器H41200，用于解析关于全向视频的元数据；解码器H41300，用于将全向视频的图像解码；以及渲染单元H41400，用于将全向视频的图像重新投影到3D模型上。

接收单元H41100的操作可对应于上面参照图40描述的根据本发明的实施方式的接收全向视频的方法中的接收包括全向视频的图像和关于全向视频的元数据在内的数据信号的步骤SH40100，因此适用步骤SH40100的描述。

元数据解析器H41200的操作可对应于上面参照图40描述的根据本发明的实施方式的接收全向视频的方法中的解析关于全向视频的元数据的步骤SH40200，因此适用步骤SH40200的描述。

解码器H41300的操作可对应于上面参照图40描述的根据本发明的实施方式的接收全向视频的方法中的将全向视频的图像解码的步骤SH40300，因此适用步骤SH40300的描述。

渲染单元H41400的操作可对应于上面参照图40描述的根据本发明的实施方式的接收全向视频的方法中的将全向视频的图像重新投影到3D模型上的步骤SH40400，因此适用步骤SH40400的描述。

在实施方式中，接收全向视频的装置还可包括反馈处理器(未示出)。反馈处理器可通过跟踪用户装置的视口和/或旋转来生成并输出视口信息和/或旋转信息。

关于全向视频的元数据可指接收装置处理全向视频所需的信息。关于全向视频的元数据已在上面根据本发明的实施方式的接收全向视频的方法中描述。

上述装置的内部组件可以是执行存储在存储器或硬件组件中的连续过程的处理器。处理器或硬件组件可被设置到装置的内部/外部。

根据实施方式，上述模块可被省略或者由执行相似/相同操作的其它模块代替。

上述部件、模块或单元中的每一个可以是被设计为执行存储在存储器(或存储单元)中的一系列执行步骤的处理器或硬件部件。在上述实施方式中描述的各个步骤可由处理器或硬件部件实现。在上述实施方式中描述的各个模块、各个块和/或各个单元可由处理器/硬件实现。另外，本发明的上述方法可通过记录介质中编写的代码来实现，所述记录介质被配置为由处理器读取以使得代码可由设备提供的处理器读取。

尽管为了清楚起见参照各个附图说明了本发明的描述，但是可通过将附图中所示的实施方式彼此合并来设计新的实施方式。如果本领域技术人员设计出记录有用于执行以上描述中提及的实施方式的程序的计算机可读记录介质，则其可落入所附权利要求及其等同物的范围内。

根据本发明的装置和方法可不受以上描述中提及的实施方式的配置和方法限制。在以上描述中提及的实施方式可按照选择性地彼此完全或部分地组合的方式来配置，以实现各种修改。

另外，根据本发明的方法可利用提供给网络装置的处理器可读记录介质中的处理器可读代码来实现。处理器可读介质可包括能够存储可由处理器读取的数据的所有类型的记录装置。处理器可读介质可包括ROM、RAM、CD-ROM、磁带、软盘、光学数据存储装置等中的一个，并且还包括载波型实现方式(例如，经由互联网的传输)。此外，当处理器可读记录介质被分发给经由网络连接的计算机系统时，可按照分布式方式保存和执行处理器可读代码。

尽管已参照示例性实施方式描述了本发明，但是本领域技术人员将理解，在不脱离所附权利要求中描述的本发明的精神或范围的情况下，可对本发明进行各种修改和变化。例如，本领域技术人员可将上述实施方式中描述的各个构造彼此组合使用。因此，本发明不应限于本文所描述的具体实施方式，而应符合与本文所公开的原理和新颖特征一致的最宽范围。

本领域技术人员将理解，在不脱离本发明的精神或范围的情况下，可对本发明进行各种修改和变化。因此，本发明旨在覆盖对本发明的修改和变化，只要其落入所附权利要求及其等同物的范围内即可。

在本说明书中提及了设备发明和方法发明二者，并且设备发明和方法发明二者的描述可彼此互补地应用。

本发明的模式

已在具体实施方式中描述了各种实施方式。

工业实用性

本发明可用在一系列广播信号提供领域中。

对于本领域技术人员而言将显而易见的是，在不脱离本发明的精神或范围的情况下，可对本发明进行各种修改和变化。因此，本发明旨在覆盖对本发明的修改和变化，只要其落入所附权利要求及其等同物的范围内即可。

Claims

1.一种发送全向视频的方法，该方法包括以下步骤：

获取所述全向视频的图像；

将所述全向视频的所述图像投影在3D投影结构上；

将投影在所述3D投影结构上的所述图像打包成2D帧；

对打包成所述2D帧的所述图像进行编码；以及

发送包括编码的图像和关于所述全向视频的元数据在内的数据信号。

2.根据权利要求1所述的方法，其中，关于所述全向视频的所述元数据包括关于投影在所述3D投影结构上的所述图像的3D区域信息或者关于打包成所述2D帧的所述图像的2D区域信息。

3.根据权利要求2所述的方法，其中，所述3D投影结构为球体，

其中，所述3D区域信息是用于指示所述球体的表面的区域的信息。

4.根据权利要求3所述的方法，其中，所述3D区域信息包括指示水平视场的水平视场信息和指示垂直视场的垂直视场信息。

5.根据权利要求4所述的方法，其中，所述3D区域信息还包括分别指示用于指示所述水平视场和所述垂直视场的偏航轴角度和俯仰轴角度的偏航信息和俯仰信息。

6.根据权利要求5所述的方法，其中，由所述偏航信息、所述俯仰信息、所述水平视场和所述垂直视场限定3D区域。

7.根据权利要求2所述的方法，其中，所述2D区域信息指示所述2D帧中的与所述3D区域信息对应的区域。

8.根据权利要求1所述的方法，其中，关于所述全向视频的所述元数据指示关于所述全向视频的制作者预期的视点的信息。

9.根据权利要求1所述的方法，其中，关于所述全向视频的所述元数据被包括在经由HTTP的动态自适应流传输DASH的适配集合中并被发送。

10.根据权利要求1所述的方法，其中，关于所述全向视频的所述元数据被包括在MPEG-2传输流TS的打包基本流PES分组或TS的适配字段中并被发送。

11.根据权利要求1所述的方法，其中，关于所述全向视频的所述元数据被包括在视频编码层VCL的补充增强层SEI消息中。

12.根据权利要求1所述的方法，其中，将投影到所述3D投影结构上的所述图像打包成2D帧的步骤包括以下步骤：

将投影到所述3D投影结构上的所述图像分割成预定区域；以及

将分割成所述预定区域的子图像打包成2D帧。

13.一种发送全向视频的装置，该装置包括：

图像获取单元，该图像获取单元用于获取所述全向视频的图像；

投影单元，该投影单元用于将所述全向视频的所述图像投影到3D投影结构上；

打包单元，该打包单元用于将投影到所述3D投影结构上的所述图像打包成2D帧；

编码器，该编码器用于对打包成所述2D帧的所述图像进行编码；以及

发送器，该发送器用于发送包括编码的图像和关于所述全向视频的元数据在内的数据信号。

14.一种接收全向视频的方法，该方法包括以下步骤：

接收包括所述全向视频的图像和关于所述全向视频的元数据在内的数据信号；

解析关于所述全向视频的所述元数据；

将所述全向视频的所述图像解码；以及

将所述全向视频的所述图像重新投影到3D模型上。

15.一种接收全向视频的装置，该装置包括：

接收器，该接收器用于接收包括所述全向视频的图像和关于所述全向视频的元数据在内的数据信号；

元数据解析器，该元数据解析器用于解析关于所述全向视频的所述元数据；

解码器，该解码器用于将所述全向视频的所述图像解码；以及

渲染单元，该渲染单元用于将所述全向视频的所述图像重新投影到3D模型上。