CN114697631A

CN114697631A - 沉浸媒体的处理方法、装置、设备及存储介质

Info

Publication number: CN114697631A
Application number: CN202210445405.0A
Authority: CN
Inventors: 胡颖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-01
Anticipated expiration: 2042-04-26
Also published as: CN114697631B; WO2023207119A1; CN116962756A

Abstract

本申请公开了一种沉浸媒体的处理方法、装置、设备及存储介质，其中方法包括：获取沉浸媒体的视频位流，将视频位流封装到M个视频轨道中，得到沉浸媒体的媒体文件；其中，在M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息。可见，通过在至少一个视频轨道中的视频媒体头数据盒封装元数据信息，以对相应视频轨道内的信息情况进行统一指示，这样可以实现以更优化的方式组织沉浸媒体的媒体内容，避免媒体消费设备在解封装过程中重复解析其他数据盒中用于指示视频轨道内的信息情况的相关字段，从而节省处理资源，提升解码效率。

Description

沉浸媒体的处理方法、装置、设备及存储介质

技术领域

本申请涉及媒体处理技术领域，尤其涉及一种沉浸媒体的处理方法、装置、设备及存储介质。

背景技术

虽然现有的封装技术实现了在将沉浸媒体封装到一个或多个视频轨道后，可对每个视频轨道是否包含视频图像信息和视频辅助信息；但是经实践发现，现有的封装技术对视频轨道内的信息情况存在重复指示的问题。以沉浸媒体为自由视角视频为例，现有的封装技术规定了在视频轨道的自由视角信息数据盒、荷载信息数据盒以及自由视角轨道数据盒中，均需存在相应的字段来指示视频轨道中是否包含纹理信息(即视频图像信息)和深度信息(即视频辅助信息)。这样会导致媒体消费设备在解封装过程中重复解析各个数据盒中的相应字段，浪费媒体消费设备的处理资源，还会导致解封装效率较低，从而导致解码效率较低。

发明内容

本申请实施例提供了一种沉浸媒体的处理方法、装置、设备及存储介质，可以实现以更优化的方式组织沉浸媒体的媒体内容，避免媒体消费设备在解封装过程中重复解析其他数据盒，从而节省处理资源，提升解码效率。

一方面，本申请实施例提供了一种沉浸媒体的处理方法，所述方法包括：

获取沉浸媒体的视频位流，所述沉浸媒体通过多个相机拍摄得到；任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息；

将所述视频位流封装到M个视频轨道中，得到所述沉浸媒体的媒体文件；其中，M为正整数，且在所述M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，所述元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息。

相应的，本申请实施例提供了一种沉浸媒体的处理装置，所述装置包括：

处理单元，用于获取沉浸媒体的视频位流，所述沉浸媒体通过多个相机拍摄得到；任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息；

封装单元，用于将所述视频位流封装到M个视频轨道中，得到所述沉浸媒体的媒体文件；其中，M为正整数，且在所述M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，所述元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息。

另一方面，本申请实施例提供了一种沉浸媒体的处理方法，所述方法包括：

获取沉浸媒体的媒体文件中的目标视频轨道，所述沉浸媒体通过多个相机拍摄得到，任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息；且所述媒体文件是通过将所述沉浸媒体的视频位流封装到M个视频轨道中得到的；其中，M为正整数，在所述M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，所述元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息；

对所述目标视频轨道中的信息进行解码处理。

获取单元，用于获取沉浸媒体的媒体文件中的目标视频轨道，所述沉浸媒体通过多个相机拍摄得到，任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息；且所述媒体文件是通过将所述沉浸媒体的视频位流封装到M个视频轨道中得到的；其中，M为正整数，在所述M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，所述元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息；

解码单元，用于对所述目标视频轨道中的信息进行解码处理。

再一方面，本申请实施例提供了一种媒体处理设备，所述媒体处理设备包括输入接口和输出接口，所述媒体处理设备还包括：

处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令；

其中，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

或者，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

对所述目标视频轨道中的信息进行解码处理。

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行上述所提及的任一种沉浸媒体的处理方法。

再一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序；所述计算机程序被处理器执行时，实现上述所提及的任一种沉浸媒体的处理方法。

本申请实施例可获取沉浸媒体的视频位流，并可将视频位流封装到M个视频轨道中，得到沉浸媒体的媒体文件；在此过程中，可通过在至少一个视频轨道中的视频媒体头数据盒封装元数据信息，以对相应视频轨道内的信息情况进行统一指示，这样可以实现以更优化的方式组织沉浸媒体的媒体内容，避免媒体消费设备在解封装过程中重复解析其他数据盒中用于指示视频轨道内的信息情况的相关字段，从而节省处理资源，提升解封装效率，进而提升解码效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种3DoF的示意图；

图1b是本申请实施例提供的一种3DoF+的示意图；

图1c是本申请实施例提供的一种6DoF的示意图；

图1d是本申请实施例提供的一种自由视角视频数据的示意图；

图1e是本申请实施例提供的一种沉浸媒体的处理过程的示意图；

图2是本申请实施例提供的一种沉浸媒体的处理方法的流程示意图；

图3是本申请另一实施例提供的一种沉浸媒体的处理方法的流程示意图；

图4a是本申请实施例提供的一种沉浸媒体的单轨封装方式的示意图；

图4b是本申请实施例提供的一种沉浸媒体的媒体文件的传输示意图；

图5a是本申请实施例提供的一种沉浸媒体的多轨封装方式的示意图；

图5b是本申请实施例提供的另一种沉浸媒体的媒体文件的传输示意图；

图6a是本申请另一实施例提供的一种沉浸媒体的多轨封装方式的示意图；

图6b是本申请另一实施例提供的一种沉浸媒体的媒体文件的传输示意图；

图7是本申请实施例提供的一种沉浸媒体的处理装置的结构示意图；

图8是本申请另一实施例提供的一种沉浸媒体的处理装置的结构示意图；

图9是本申请实施例提供的一种媒体处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请实施例中，沉浸媒体(也可称为沉浸式媒体)是指能够为消费者提供沉浸式体验的媒体内容，使沉浸于该媒体内容中的消费者能够获得现实世界中视觉、听觉等感官体验的媒体。沉浸媒体按照消费者在消费媒体内容时的自由度(Degree of Freedom，DoF)，可以分为3DoF媒体、3DoF+媒体以及6DoF媒体；3DoF媒体可支持用户通过3DoF(即三自由度)来消费相应的媒体内容，3DoF+媒体可支持用户通过3DoF+来消费相应的媒体内容，6DoF媒体可支持用户通过6DoF来消费相应的媒体内容。其中，所谓的3DoF是指：用户在一个三维空间的中心点固定，用户头部可围绕X轴、Y轴和Z轴旋转的三种自由度，如图1a所示；所谓的3DoF+是指：在三自由度的基础上，用户头部还可沿着X轴、Y轴和Z轴进行有限运动(如在有限空间中的平移)的自由度，如图1b所示；所谓的6DoF是指：在三自由度的基础上，消费者还可沿着X轴、Y轴和Z轴进行自由运动(如自由平移)的自由度，如图1c所示。需说明的是，本申请实施例所提及的自由度，可理解成是用户在观看沉浸媒体时，支持用户运动并产生内容交互的自由度。

其中，由多个相机(也可称为摄像机)采集的，包含不同视角的，且支持用户3DoF+或6DoF交互的沉浸媒体，可以被称为自由视角视频；也就是说，自由视角视频为一种常见的3DoF+媒体和6DoF媒体，其也可称之为多视角视频、多视点视频或自由视点视频。具体的，可通过由多个相机组成的相机阵列，从多个角度对同一三维场景进行拍摄，以形成场景的纹理信息(也可称为纹理图信息或纹理图，其例如可以是色彩信息等)和深度信息(也可称为深度图信息或深度图，其例如可以是空间距离信息等)，从而根据用户位置信息结合来源于不同相机的纹理信息和深度信息，即可构成用户侧消费的自由视角视频(即6DoF媒体或3DoF+媒体)。由于自由视角视频是以多相机采集得到的空间不同视角的视频组合，因此为了便于自由视角视频的表达，存储，压缩和处理，本申请实施例可将自由视角视频数据表达可以为以下信息的组合：多相机采集的纹理信息，多相机采集的纹理信息所对应的深度信息，以及相应的自由视角视频的内容描述元数据(可简称为元数据)，如图1d所示。元数据中可包含多相机的参数，以及自由视角视频的拼接布局和边缘保护等描述信息。

参见图1e所示，针对沉浸媒体(如自由视角视频)的处理过程可主要包括：视频采集，视频编码，视频文件封装，视频传输，视频文件解封装，视频解码和最终的视频呈现。其中：

(1)视频采集用于将模拟的视频信号转换为数字视频，并按数字视频文件的格式进行保存；也就是说，视频采集可将视频信号转换为二进制数字信息。由于由视频信号转换为的二进制数字信息是一种二进制数据流，因此该二进制数字信息也可称为该视频信号的码流或者位流(Bitstream)。

(2)视频编码则是指通过压缩技术，将原始视频格式的文件转换为另一种视频格式文件的处理过程。也就是说，视频编码可通过标准化的视频压缩算法实现，例如可通过AVS(Audio Video Coding Standard，中国国家数字音视频编解码标准)编码技术、AVS3(由AVS标准组推出的第三代音视频编解码标准)编码技术、HEVC(High Efficiency VideoCoding，国际视频编码标准HEVC/H.265)编码技术、VVC(versatile video coding，国际视频编码标准VVC/H.266)编码技术等算法实现，或通过一些针对内容设计的特定压缩算法实现。

(3)视频文件封装是指按照封装格式(或容器，或文件容器)，将已经编码压缩好的媒体位流(如视频位流)，按照一定的格式存放在一个文件中。需要说明的是，本申请实施例主要以媒体位流是视频位流为例进行说明的；若沉浸媒体除了包括视频帧，还包括音频帧和字幕帧等一种或多种媒体帧，则媒体位流还包括音频位流和字幕位流中的至少一种，此情况下的实施方式可参见本申请实施例，对此不作赘述。常见的封装格式包括AVI格式(Audio Video Interleaved，音频视频交错格式)或者ISOBMFF(ISO Based Media FileFormat，基于ISO(International Standard Organization，国际标准化组织)标准的媒体文件格式)。其中，ISOBMFF是媒体文件的封装标准，最典型的ISOBMFF文件即MP4(MovingPicture Experts Group 4，动态图像专家组4)文件。通过对编码后的媒体码流进行文件封装，可以使得媒体码流以一种更容易被解析的结构存储在设备中；在视频文件封装环节增添的信息，通常有助于提升视频文件在设备或中间传输节点的存储、关联、传输效率以及视频文件在视频消费终端的解码效率。

在具体实现中，可以将媒体样本(可简称为样本(sample))作为文件封装过程中的封装单位；也就是说，将压缩编码得到的媒体码流封装至一个或多个媒体轨道中，从而得到相应的媒体文件(即视频文件)。可见，一个媒体文件可由多个媒体轨道组成，比如一个媒体文件可包含一个或多个视频轨道，一个或多个音频轨道以及一个或多个字幕轨道；所谓的视频轨道是指用于封装视频位流的媒体轨道，所谓的音频轨道是指用于封装音频位流的媒体轨道，所谓的字幕轨道是指用于封装字幕位流的媒体轨道。其中，此处提及的媒体轨道(可简称为轨道(Track))是指媒体文件封装过程中的媒体数据集合；一个媒体轨道可包括一个或很多个样本，在封装过程中，可将一个或多个媒体帧(如视频帧)作为一个样本。比如，视频轨道中的一个样本通常为一个视频帧，音频轨道中的一个样本通常为一个音频帧，字幕轨道中的一个样本通常为一个字幕帧等。

(4)视频文件传输则是指：在媒体制作设备通过上述步骤得到媒体文件后，将该媒体文件传输给媒体消费设备。需要说明的是，在传输层面上，不涉及媒体轨道的概念；在传输层面上，可认为媒体文件包括的是每个媒体轨道对应的媒体资源，各个媒体轨道对应的媒体资源是将相应的媒体位流封装到媒体轨道后得到的。例如，在封装时，将视频位流封装到了一个或多个视频轨道中，从而得到了媒体文件；那么在封装层面上，可认为将视频位流封装到一个或多个视频轨道后，得到的是封装有相应信息的视频轨道，因此可认为媒体文件包括这一个或多个视频轨道，但在传输层面上，便认为将视频位流封装到一个或多个视频轨道后，得到的是各个视频轨道对应的视频资源，因此可认为该媒体文件包括的是各个视频轨道对应的视频资源。

需要说明的是，媒体文件的传输过程可基于各种传输协议来进行；此处的传输协议可以包括但不限于：DASH(Dynamic Adaptive Streaming over HTTP，基于HTTP的动态自适应流媒体传输)协议、HLS(HTTP Live Streaming，动态码率自适应传输)协议、SMTP(Smart Media Transport Protocol，智能媒体传输协议)、TCP(Transmission ControlProtocol，传输控制协议)等。其中，DASH是一种自适应比特率流技术，可使高质量流媒体通过传统的HTTP网络服务器以互联网传递；在DASH中，用MPD(media presentationdescription，DASH中的媒体演示描述信令)描述媒体片段信息。且在DASH中，涉及Representation(表示)的概念；所谓的Representation是指一个或多个媒体成分(媒体片段)的组合，一个Representation可理解成是一个轨道对应的视频资源；比如，在将某种分辨率的视频位流封装到一个视频轨道以得到某种分辨率的视频文件(即媒体文件)后，该某种分辨率的视频文件包括一个视频资源，那么该某种分辨率的视频文件可以看作一个Representation。进一步的，DASH还涉及Adaptation Set(自适应集)的概念；所谓的Adaptation Set是指一个或多个视频流的集合，一个Adaptation Set中可以包含多个Representation。

(5)视频文件解封装是指：媒体消费设备在接收到媒体文件后，对媒体文件进行解封装处理。可以理解，媒体消费设备的解封装过程与上述所提及的媒体制作设备所执行的封装过程是相逆的；媒体消费设备可按照封装时的文件格式要求对媒体文件进行解封装，得到相应的媒体位流(如视频位流)等。

(6)视频解码是指：对媒体位流进行解码处理以还原出视频。应理解的是，媒体消费设备的解码过程与上述所提及的媒体制作设备所执行的编码过程是相逆的。

在本申请实施例中，媒体制作设备是指沉浸媒体的提供者(例如沉浸媒体的内容制作者)所使用的设备，其可以是诸如智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等终端设备。或者，该媒体制作设备也可以是服务器，此处的服务器可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。另外，所谓的媒体消费设备是指沉浸媒体的使用者(例如消费沉浸媒体的媒体内容的用户)所使用的设备，其可以是诸如个人计算机、智能手机、VR(Virtual Reality，虚拟现实)设备(例如VR头盔、VR眼镜等)、智能手表、智能车载等终端设备；进一步的，媒体消费设备还可安装并运行具有媒体消费能力的客户端，从而通过该客户端进行媒体消费。

基于上述图1e所示的沉浸媒体的相关描述可知，当沉浸媒体为自由视角视频时，自由视角视频在采集完成后，媒体制作设备需要对采集到的自由视角视频进行压缩编码；压缩编码过程中所涉及的视频压缩算法可由AVS3编码技术、HEVC编码技术等完成。在对自由视角视频进行压缩编码后，需要对编码后的数据流(如视频位流)进行封装以得到媒体文件，从而将媒体文件传输给媒体消费设备。相应的，在媒体消费设备侧，需要对媒体文件进行解封装以及解码等逆操作，才能最终呈现自由视角视频的视频内容(即媒体内容)。

进一步的，针对媒体制作设备而言，自由视角视频的视频内容的制作过程可大致包含如下步骤：①通过相机阵列进行采集拍摄，以得到相机阵列中的多相机采集的纹理图信息和深度图信息。②把多相机采集的纹理图信息和对应的深度图信息进行拼接处理，此步骤可以是一个可选步骤。③通过平面视频压缩方式对多相机采集的深度图信息和纹理图信息进行编码，得到编码后的视频位流。④将编码后的视频位流和元数据封装入自由视角视频的媒体文件(即视频文件)。而针对媒体消费设备而言，其需根据自由视角视频的媒体文件，将自由视角视频重构到虚拟视点(或称为虚拟视角)，从而实现为用户渲染呈现该虚拟视点所对应的视频内容；具体的，在将自由视角视频重构到虚拟视点时，媒体消费设备可执行如下步骤：获取自由视角视频的媒体文件，根据目标视角及媒体文件中的元数据，从媒体文件中解码获得一个或多个相机采集的深度图信息和纹理图信息。处理解码后的自由视角视频数据，根据自由视角视频算法(可采用应用自身的算法)，结合深度图信息和纹理图信息，合成用户所切换的目标视角对应的虚拟视点。

现有的视频编解码标准对自由视角视频数据涉及的纹理图信息结构和深度图信息结构进行了定义，具体如下：

(一)纹理图信息结构：

纹理图信息结构用于指示：自由视角视频数据所涉及的原始相机(即相机)所对应的纹理图的编码元数据信息。具体的，纹理图信息结构(TextureInfostruct)的语法可以如下所示：

上述提及的纹理图信息结构的语法的语义如下：aligned(8)表示按8比特(bit)对齐；texture_padding_size指示纹理图的保护带宽度；texture_top_left_x指示相应原始相机对应的纹理图在视频帧平面中的左上角x坐标；texture_top_left_y指示相应原始相机对应的纹理图在视频帧中的左上角y坐标；texture_bottom_right_x指示相应原始相机对应的纹理图在视频帧中的右下角x坐标；texture_bottom_right_y指示相应原始相机对应的纹理图在视频帧中的右下角x坐标。

(二)深度图信息结构：

深度图信息结构用于指示：自由视角视频数据所涉及的原始相机(即相机)所对应的深度图的编码元数据信息。具体的，深度图信息结构(DepthInfostruct)的语法可以如下所示：

上述提及的深度图信息结构的语法的语义如下：其中，depth_padding_size指示深度图的保护带宽度；depth_top_left_x指示相应原始相机对应的深度图在视频帧平面中的左上角x坐标；depth_top_left_y指示相应原始相机对应的深度图在视频帧平面中的左上角y坐标；depth_bottom_right_x指示相应原始相机对应的深度图在视频帧平面中的右下角x坐标；depth_bottom_right_y指示相应原始相机对应的深度图在视频帧平面中的右下角x坐标；depth_downsample_factor指示深度图降采样的倍数因子，深度图的实际分辨率宽高为相机采集分辨率宽高的1/2^{depth_downsample_factor}。

另外，现有的视频编解码标准还规定了自由视角视频轨道应作为受限的视频在媒体文件中表示，且该类型轨道的样本入口下的RestrictedSchemeInfoBox(受限模式信息数据盒)中SchemeTypeBox(模式类型数据盒)的scheme_type(模式类型)应设置为'as3f'；但是，自由视角视频的编码对视频编解码器没有限制。除此之外，现有的视频编解码标准还定义了自由视角视频的封装方式可包括单轨道封装和多轨道封装两种：

(1)自由视角视频的单轨道封装：

自由视角视频的单轨道封装是指：由一个单轨道来表示自由视角视频码流(即自由视角视频的视频位流)。采用单轨道封装方式将自由视角视频的数据直接封装到媒体轨道容器中，数据结构按原样保留在码流中。单轨道封装的自由视角视频轨道使用一个VisualSampleEntry(样本入口)，在ISO/IEC 14496-12中定义。该样本入口中可包含一个AvsFreeViewInfoBox(自由视角信息数据盒)和PayloadInfoBox(荷载信息数据盒)，分别指示该自由视角视频轨道中的视角对应的相机信息，和相机对应的纹理图和深度图信息。

(2)自由视角视频的多轨道封装：

自由视角视频的多轨道封装是指：由多个媒体轨道(如视频轨道)表示自由视角视频码流；多轨道封装可将同一个相机采集的纹理图和深度图封装到一个轨道中，或者封装到不同轨道中，对此不作限定。基于此，当纹理图和深度图被封装到不同轨道时，自由视角视频的多轨道封装可包含两种类型的媒体轨道：纹理图轨道(封装纹理图(即纹理信息)的视频轨道)和深度图轨道(封装深度图(即深度信息)的视频轨道)；此情况下，需对应相同相机的纹理图轨道和深度图轨道关联，具体可使用在ISO/IEC 14494-12中定义的TrackReferenceBox(轨道参考数据盒)，将深度图轨道参考或关联到相同相机对应的纹理图轨道，reference_type(参考类型字段)的取值为'vdep'。可见，采用多轨道封装方式将自由视角视频按照数据类型映射到各自的媒体轨道的容器中；属于同一相机的轨道之间关联，并且时间是对齐的。

多轨道封装的自由视角视频的纹理图轨道和深度图轨道都使用VisualSampleEntry，在ISO/IEC 19946-12中定义；并且，纹理图轨道和深度图轨道的样本入口中包含AvsFreeViewInfoBox，该数据盒中描述的相机参数信息不应重复出现在纹理图轨道和其对应的深度图轨道。当纹理图轨道包含多个相机的纹理图时，样本入口中包含PayloadInfoBox描述纹理图信息；当深度图轨道包含多个相机的深度图时，样本入口包含PayloadInfoBox描述深度图信息。另外，在纹理图轨道或深度图轨道中的每个样本，均对应一个或多个相机的纹理图或深度图。轨道中样本对应的相机信息，通过VisualSampleEntry中的AvsFreeViewInfoBox进行描述。当每个样本中包含多个相机的纹理图或深度图时，每个样本可能包含多个子样本，每个子样本对应一个相机的纹理图或深度图，使用SubSampleInformationBox(子样本信息数据盒)进行描述；具体的，可在现有的视频编解码标准中关于SubSampleInformationBox的相关语法中的flags字段的值为0时，通过codec_specific_parameters的字段对子样本进行描述。

更进一步的，若一个自由视角视频被封装为多个视频轨道，且一个视频轨道中仅包含部分相机对应的纹理信息和/或深度信息，则这些视频轨道应通过自由视角轨道组进行关联，即这些视频轨道中均应包含AvsFreeViewGroupBox(自由视角轨道组数据盒)。AvsFreeViewGroupBox中可包括轨道组标识字段(track_group_id)，包含部分相机且对应同一个自由视角视频的不同视频轨道应具备相同的track_group_id的取值。

下面，对上述所提及的自由视角信息数据盒、荷载信息数据盒以及自由视角轨道组等数据盒作进一步阐述：

①自由视角信息数据盒(AvsFreeViewInfoBox)：

自由视角数据盒用于指示对应轨道内包含的一个或多个自由视角对应的相机元数据信息(即相机的元数据信息)。具体的，自由视角数据盒的语法可以如下所示：

数据盒类型(Box Type)：'afvi'

包含于(Container)：SchemeInformationBox或SampleEntry

强制的(Mandatory)：不

数量(Quantity)：零个或一个

上述自由视角数据盒的语法的语义如下：texture_in_track指示相应轨道中是否包含纹理图；值为1时，指示相应轨道中包含纹理图，值为0时，指示相应轨道中不包含纹理图。depth_in_track指示相应轨道中是否包含深度图；值为1时，指示相应轨道中包含深度图，值为0时，指示相应轨道中不包含深度图。camera_count指示采集视频的所有相机的个数。IntCameraInfoStruct()指示相机的内参信息，ExtCameraInfoStruct()指示相机的外参信息。codec_independency指示相应轨道内各个相机对应的纹理图及深度图之间的编解码独立性，其所涉及的取值可参见下述表1所示：

表1

②荷载信息数据盒(PayloadInfoBox)：

荷载信息数据盒用于描述对应轨道内一个或多个相机对应的纹理图和深度图的元数据信息。具体的，荷载信息数据盒的语法可以如下所示：

数据盒类型(Box Type)：'plin'

包含于(Container)：SampleEntry

强制的(Mandatory)：不

数量(Quantity)：零个或一个

上述荷载信息数据盒的语法的语义如下：texture_info_flag指示是否表述描述纹理图的元数据信息；值为1时，表述元数据信息，值为0时，不表述元数据信息。depth_info_flag指示是否表述描述深度图的元数据信息；值为1时，表述元数据信息，值为0时，不表述元数据信息。num_cameras指示该媒体轨道的相机数量，camera_id指示相机的标识。TextureInfostruct()描述纹理图的元数据信息，DepthInfostruct()描述深度图的元数据信息。

③自由视角轨道组数据盒(AvsFreeViewGroupBox)：

自由视角轨道组数据盒用于关联同一个自由视角视频的各个视频轨道。具体的，自由视角轨道组数据盒的语法可以如下所示：

上述自由视角轨道组数据盒的语法的语义如下：camera_count用于指示该轨道中包含的自由视角纹理信息和深度信息对应的相机数目。camera_id用于指示每个相机对应的相机标识符。depth_texture_type用于指示该轨道包含的对应相机拍摄的纹理信息或深度信息类型，其取值可参考下述表2所示：

表2

depth_texture_type取值	含义
		0	保留
1	表明包含对应相机拍摄的纹理信息
		2	表明包含对应相机拍摄的深度信息
3	表明包含对应相机拍摄的纹理和深度信息

从上述描述可以看到，现有的视频编解码标准对每个视频轨道中包含的深度信息、纹理信息存在重复指示的问题，比如在自由视角信息数据盒、荷载信息数据盒、自由视角轨道组数据盒中均存在相应的字段指示轨道中是否包含纹理或深度信息，这样会导致媒体消费设备在解封装过程中会存在重复解析，浪费资源。并且，虽然现有的视频编解码标准对自由视角视频的编解码独立性进行了指示，即对视频轨道内的纹理信息与深度信息之间、各个相机拍摄的内容之间是否存在编解码依赖进行了指示，但是当前的指示方式仅局限于自由视角应用场景，不具备兼容性和可扩展性。除此之外，还缺乏信令层级的关于视频辅助信息的指示。

基于此，本申请实施例针对自由视角视频应用以及其他的沉浸媒体应用，提出了一种文件封装和传输信令指示方法；通过该方法可实现：①以更优化的方式组织自由视角视频的媒体内容，避免媒体消费设备在解封装过程中重复解析其他数据盒中用于指示视频轨道内的信息情况的相关字段，从而节省处理资源，提升解封装效率，进而提升解码效率；②以更优化的方式指示视频内容各部分之间的编解码依赖性，使得该方法不局限于自由视角应用场景，提升兼容性和可扩展性；③根据①～②中的信息，生成相应的传输信令，指导客户端等媒体消费设备在自由视角视频消费过程中的资源选择。

在具体实现中，该方法可以应用于任一沉浸媒体(如自由视角视频)的存储、传输、封装、解封装过程中。以自由视角视频为例，该方法的具体实施步骤如下：

步骤1：媒体制作设备(如服务器)生成自由视角视频的视频位流，并将该视频位流封装至媒体文件，根据自由视角视频中的纹理信息与深度信息是否在同一个视频轨道、以及自由视角视频是否被封装至为多个视频轨道，依照如下准则指示自由视角视频的视频轨道内包含的纹理信息、深度信息以及相机信息。

(1)若一个视频轨道中同时包含纹理信息和深度信息，则这些纹理信息和深度信息必须对应N(N为正整数)个相同相机，即将N个相机拍摄的纹理图和深度图封装在一个视频轨道中。此时在视频轨道中的视频媒体头数据盒(VideoMediaHeaderBox)通过元数据信息标识该视频轨道附带视频辅助信息(如深度信息)。

(2)若一个视频轨道仅包含纹理信息或者仅包含深度信息，则考虑到纹理信息属于视频图像信息中的一种，深度信息属于视频辅助信息中的一种，因此可认为纹理图轨道(即封装纹理信息的视频轨道)是一种视频图像信息轨道，且认为深度图轨道是一种视频辅助信息轨道。此处提及的视频图像信息轨道可简称为视频轨道，其是指封装了视频图像信息的视频轨道；此处提及的视频辅助信息轨道又可称为辅助视频媒体轨道或视频辅助轨道，其是指封装了视频辅助信息的视频轨道。进一步的，考虑到现有的视频文件封装技术规定了：①Video media uses the handler type in the HandlerBox of the,as definedin 8.4.3(视频媒体使用相关标准中的第8.4.3章节中所定义的HandlerBox(处理程序数据盒)中的handler_type(处理程序类型))。②视频媒体的处理程序类型(handler type)为'vide'，即视频媒体文件的MediaBox(媒体数据盒)数据盒中的HandlerBox数据盒中相应字段取值为'vide'；辅助视频媒体的处理程序类型为'auxv'，即辅助视频媒体文件的MediaBox数据盒中的HandlerBox数据盒中相应字段取值为'auxv'。③辅助视频媒体轨道(即视频辅助信息轨道)和视频轨道(即视频图像信息轨道)采用相同的编码方式进行编码，但使用不同的处理程序类型进行标识，且辅助视频媒体轨道通常并不用于视觉呈现(比如辅助视频轨道包含深度信息的场景)。因此，若一个视频轨道仅包含纹理信息或者仅包含深度信息，则可利用现有技术中对视频图像信息轨道和视频辅助信息轨道的区分(以handler_type区分)以及关联技术('vdep'轨道索引)，结合(1)中的标识信息(如元数据信息)，即可区分视频轨道中包含的信息为纹理信息或者深度信息。

(3)当一个自由视角视频被封装至多个视频轨道时，使用自由视角轨道组数据盒将多个视频轨道进行关联；进一步的，可使用自由视角轨道组数据盒将封装了视频图像信息(如纹理信息)的多个视频轨道进行关联。同时将载荷信息(即前述提及的荷载信息数据盒中的信息)包含于自由视角轨道组数据盒中。可选地，还可以根据(1)中的的元数据信息所指示的分类(即视频轨道是否同时附带视频图像信息(如纹理信息)和视频辅助信息(如深度信息))，进一步区分自由视角轨道组的类型。示例性的，此处提及的自由视角轨道组的类型可以用于指示：自由视角轨道组所关联的各个视频轨道均只封装了视频图像信息(如纹理信息)，或者自由视角轨道组所关联的各个视频轨道均同时封装了视频图像信息(如纹理信息)和视频辅助信息(如深度信息)等。

步骤2：媒体制作设备(如服务器)在步骤1所涉及的文件封装结构(即是否为多轨封装，单个视频轨道是否同时包含纹理信息和深度信息)的基础上，在视频轨道中指示编解码依赖信息，该编解码依赖信息可包括：视频内数据集合(即视频成分)划分的规则的指示，以及在该规则下不同数据集合是否存在编解码依赖的指示。除此之外，在单个视频轨道同时包含纹理信息和深度信息的情况下，该编解码依赖信息还可包括单个视频轨道中的纹理信息和深度信息是否存在编解码依赖的指示，等等。

步骤3：媒体制作设备(如服务器)可提供完整文件的下载服务，此情况下的媒体制作设备(如服务器)可不对自由视角视频的媒体文件进行处理，从而提供完整的媒体文件供媒体消费设备下载。当然，若媒体制作设备(如服务器)也可支持流化传输，此情况下的媒体制作设备(如服务器)将自由视角视频的媒体文件切片为适合流化传输的媒体片段(按照现有传输标准的规范进行)，并生成相应的传输信令，并执行步骤4。示例性的，此处提及的传输信令可以包括但不限于DASH信令或者SMT信令；并且，传输信令的信令描述文件中指示以下信息：

(a)指示媒体资源(即视频资源)中包含的数据类型(视频数据/视频辅助数据)以及相应媒体资源之间的索引与关联关系；

(b)指示媒体资源中或者媒体资源之间的编解码依赖信息。

步骤4：媒体制作设备(如服务器)将传输信令的信令描述文件传输给媒体消费设备侧的用户。

步骤5：媒体消费设备中的客户端可执行如下逻辑：

(A)根据应用形式，客户端可以下载完整文件(即完整的媒体文件)后本地播放。并根据媒体文件中关于纹理信息、深度信息以及编解码依赖信息的指示，确定该媒体文件是否可以在不同的阶段进行部分解码，以优化客户端播放的性能。

(B)根据应用形式，与媒体制作设备(如服务器)建立流化传输，根据传输信令的信令描述文件中所指示的纹理信息、深度信息以及编解码依赖信息，自适应选择合适的自由视角视频流进行消费。

为支持本申请实施例提出的上述方法中的各个实施步骤，本申请实施例在现有技术基础上，在系统层添加了若干描述性字段。下文中，以扩展现有ISOBMFF数据盒、DASH信令和SMT信令的形式举例，定义了相关的字段以支持自由视角视频应用或其他的沉浸媒体应用，具体如下：

一、ISOBMFF数据盒扩展

1、ISOBMFF数据盒可包括视频媒体头数据盒(VideoMediaHeaderBox)，视频轨道使用视频媒体头数据盒，其中包含视频媒体一般性的，独立于编解码方式之外的呈现相关信息；本申请实施例可对视频媒体头数据盒进行扩展，以在视频媒体头数据盒中指示视频轨道中是否同时包含深度信息或其他辅助信息。具体的，扩展后的视频媒体头数据盒可以如下所示：

其中，version、graphicsmode和opcolor这三个字段是视频媒体头数据盒原有的字段。version用于指示该视频媒体头数据盒的版本号；graphicsmode用于指示当前视频轨道的图像组合模式，该字段取值为0表示当前视频轨道的图像组合模式为复制模式，其他取值可由相应标准额外定义；opcolor为三种颜色(红，绿，蓝)取值的数组，用于配合图像组合模式使用。

基于上述扩展后的视频媒体头数据盒可知，本申请实施例可在视频媒体头数据盒中定义video_with_depth_info_flag(视频深度信息标志字段)这一标志位，来指示当前视频轨道中是否同时包含纹理信息(图像信息)以及纹理信息(图像信息)对应的深度信息。当该字段取值为第一数值(如数值1)时，指示当前视频轨道同时包含纹理信息(图像信息)以及纹理信息(图像信息)对应的深度信息；当该字段取值为第二数值(如数值0)时，指示当前视频轨道仅包含纹理信息(图像信息)。

扩展地，由于纹理信息属于视频图像信息中的一种，深度信息属于视频辅助信息的一种；而视频图像信息不局限于纹理信息，视频辅助信息也不局限于深度信息，例如其还可包括视差信息等。因此，还可以在视频媒体头数据盒中定义其他标志位来表明当前视频轨道是否同时包含相应的辅助信息。例如，可定义如下一种或多种标志位：

①video_with_parallax_info_flag(视频视差信息标志字段)，指示当前视频轨道中是否同时包含视频图像信息以及视频图像信息对应的视差信息。当该字段取值为第一数值(如数值1)时，指示当前视频轨道同时包含视频图像信息以及视频图像信息对应的视差信息；当该字段取值为第二数值(如数值0)时，指示当前视频轨道仅包含视频图像信息。

②video_with_auxl_info_flag指示当前视频轨道中是否同时包含视频图像信息以及视频图像信息对应的辅助信息。当该字段取值为第一数值(如数值1)时，当前视频轨道同时包含视频图像信息以及视频图像信息对应的视频辅助信息；当该字段取值为第二数值(如数值0)时，当前视频轨道仅包含视频图像信息。此处的视频辅助信息可以是深度信息、视差信息或由其他应用定义的辅助信息。

2、可进一步扩展视频媒体头数据盒，以在视频媒体头数据盒中指示视频轨道中包含的数据内容(信息)之间是否存在编解码独立性。具体的，以第一数值为数值1，第二数值为数值0为例，扩展后的视频媒体头数据盒可以进一步如下所示：

上述扩展后的视频媒体头数据盒的语法的语义大致如下：

在定义video_with_depth_info_flag的情况下，若该字段的取值等于1，即当前视频轨道中同时包含纹理信息(图像信息)以及纹理信息(图像信息)对应的深度信息，则还可进一步在视频媒体头数据盒中定义depth_codec_dependency(深度编解码依赖性字段)这一标志位。其中，当depth_codec_dependency取值为第三数值(如数值1)时，表明当前视频轨道中包含的纹理信息(图像信息)和纹理信息(图像信息)对应的深度信息之间存在解码依赖关系；当depth_codec_dependency取值为第四数值(如数值0)时，表明当前视频轨道中包含的纹理信息(图像信息)和纹理信息(图像信息)对应的深度信息之间不存在解码依赖关系。

在定义video_with_parallax_info_flag的情况下，若该字段的取值等于1，即当前视频轨道同时包含视频图像信息以及视频图像信息对应的视差信息，则还可进一步在视频媒体头数据盒中定义parallax_codec_dependency(视差编解码依赖性字段)这一标志位。其中，当parallax_codec_dependency取值为第三数值(如数值1)时，表明当前视频轨道中包含的视频图像信息以及视频图像信息对应的视差信息之间存在解码依赖关系；当parallax_codec_dependency取值为第四数值(如数值0)时，表明当前视频轨道中包含的视频图像信息以及视频图像信息对应的视差信息不存在解码依赖关系。

在定义video_with_auxl_info_flag的情况下，若该字段的取值等于1，即当前视频轨道同时包含视频图像信息以及视频图像信息对应的视频辅助信息，则还可进一步在视频媒体头数据盒中定义auxl_codec_dependency(辅助编解码依赖性字段)这一标志位。其中，当auxl_codec_dependency取值为第三数值(如数值1)时，表明当前视频轨道中包含的视频图像信息以及视频图像信息对应的视频辅助信息之间存在解码依赖关系；当auxl_codec_dependency取值为第四数值(如数值0)时，表明当前视频轨道中包含的视频图像信息以及视频图像信息对应的视频辅助信息不存在解码依赖关系。

3、定义视频成分依赖信息数据盒(VideoCompositionDependencyInfoBox)，该视频成分依赖信息数据盒用于指示：沉浸媒体的视频内容的成分类型，以及沉浸媒体的视频内容的不同成分之间是否存在编解码依赖关系(即编解码上的依赖关系)。具体的，视频成分依赖信息数据盒可以如下所示：

其中，composition_codec_dependency(成分编解码依赖性字段)用于指示沉浸媒体的视频内容包含的不同成分之间是否存在编解码依赖关系。当该字段取值为第五数值(如数值0)时，指示沉浸媒体的视频内容的不同成分之间不存在编解码依赖关系；当该字段取值为第六数值(如数值1)时，指示沉浸媒体的视频内容的不同成分之间存在编解码依赖关系。

其中，composition_type(成分类型字段)用于指示沉浸媒体的视频内容的成分类型(即视频内容所包含的成分的类型)。当该字段取值为第七数值(如数值0)时，指示沉浸媒体的视频内容的成分类型为基于相机的成分类型，从而可指示沉浸媒体的视频内容中的成分是基于相机划分得到的，一个成分包括一个相机拍摄的视频内容，即沉浸媒体的视频内容包含不同相机拍摄的视频内容；当该字段取值为第八数值(如数值1)时，指示沉浸媒体的视频内容的成分类型为基于双目的成分类型，从而可指示沉浸媒体的视频内容中的成分是基于双目划分得到的，一个成分包括左目视频内容或右目视频内容，即沉浸媒体的视频内容包含左右目视频内容。应理解的是，composition_type的取值并不不局限于第七数值和第八数值这两种，还可为其他取值，而其他取值可由相应标准自行扩展。

4、扩展轨道参考类型数据盒(TrackReferenceTypeBox)。当自由视角视频的纹理信息和深度信息分为不同的视频轨道封装时，当前技术定义了参考类型字段(reference_type)可通过存储'vdep'这一轨道索引，将深度图轨道参考或关联到相同相机对应的纹理图轨道，但是该轨道索引仅表示二者之间在呈现时存在依赖关系，并未指示二者之间在解码时是否存在依赖关系。因此，本申请实施例作出如下扩展：

当参考类型字段(reference_type)存储'vdep'这一轨道索引时，用于将深度图轨道参考或关联到相应相机对应的纹理图轨道，且指示深度图轨道在解码时依赖对应的纹理图轨道。

当参考类型字段(reference_type)存储'vdpi'这一轨道索引时，用于将深度图轨道参考或关联到相应相机对应的纹理图轨道，且指示深度图轨道在解码时不依赖对应的纹理图轨道。

相应地，考虑到纹理图轨道属于视频图像信息轨道中的一种，深度图轨道属于视频辅助信息轨道中的一种，而视频图像信息轨道不局限于纹理图轨道，视频辅助信息轨道也不局限于深度图轨道，例如其还可包括视差信息轨道等。因此，还可对视频图像信息轨道与视差信息轨道、视频图像信息轨道与视频辅助信息轨道之间的轨道索引做出如下扩展：

当参考类型字段(reference_type)存储为'vplx'的轨道索引，用于将视差信息轨道参考或关联到相应的视频图像信息轨道，且指示视差信息轨道在解码时依赖对应的视频图像信息轨道。

当参考类型字段(reference_type)存储'vpli'的轨道索引，用于将视差信息轨道参考或关联到相应的视频图像信息轨道，且指示视差信息轨道在解码时不依赖对应的视频图像信息轨道。

当参考类型字段(reference_type)存储'auxl'的轨道索引，用于将视频辅助信息轨道参考或关联到相应的视频图像信息轨道，且指示视频辅助信息轨道在解码时依赖对应的视频图像信息轨道。

当参考类型字段(reference_type)存储'auxi'的轨道索引，用于将视频辅助信息轨道参考或关联到相应的视频图像信息轨道，且指示视频辅助信息轨道在解码时不依赖对应的视频图像信息轨道。

需要说明的是，可扩展地，上述轨道索引类型关于解码依赖的指示可以互换；比如'vdep'这一轨道索引用于表示编解码不依赖，'vdpi'这一轨道索引用于表示编解码依赖，等等。

5、扩展自由视角轨道组及自由视角轨道组数据盒(AvsFreeViewGroupBox)。现有技术对于自由视角轨道组定义如下：若一个自由视角视频被封装为多个视频轨道，且一个视频轨道中仅包含部分相机对应的纹理信息和/或深度信息，则这些视频轨道应通过自由视角轨道组进行关联，包含部分相机且对应同一个自由视角视频的不同视频轨道应具备相同的track_group_id。然而，本申请实施例对自由视角轨道组的定义扩展如下：

自由视角轨道组用于将对应不同相机且包含纹理信息的视频轨道进行关联，且这些不同的视频轨道之间编解码相互独立；并且，包含部分相机且对应同一个自由视角视频的不同视频轨道应具备相同的track_group_id。也就是说，本申请实施例只将封装有纹理信息的视频轨道通过自由视角轨道组关联起来；考虑到纹理信息是视频图像信息中的一种，因此可进一步可扩展为：只将封装有视频图像信息的视频轨道通过自由视角轨道组关联起来。也就是说，在本申请实施例中，只有封装了视频图像信息(如纹理信息)的视频轨道中可包括自由视角轨道组数据盒；此处的自由视角轨道组数据盒可简称为轨道组数据盒，该轨道组数据盒可包括轨道组标识字段(track_group_id)和相机标识字段(camera_id)。其中，轨道组标识字段用于存储相应视频轨道所对应的轨道组的标识信息，相机标识字段用于存储相应视频轨道对应的相机的标识信息。

二、DASH信令扩展

1、定义视频辅助信息描述子(VideoAuxiliaryInfoDescriptor)，该视频辅助信息描述子用于描述视频资源的视频辅助信息的相关属性。视频辅助信息描述子为SupplementalProperty元素，其@schemeIdUri属性为"urn:avs:ims:2018:av3f"。该视频辅助信息描述子可存在于adaptationset层级(自适应集层级)或representation层级(表示层级)。当该视频辅助信息描述子存在于adaptationset层级时，描述相应的adaptationset内所有的representation的视频辅助信息的相关属性；该视频辅助信息描述子存在于representation层级时，描述对应的representation的视频辅助信息的相关属性。具体的，视频辅助信息描述子的具体属性可如下表3所示：

表3

在上述表3中，第一列中的各个英文对应的中文含义可以如下：ElementsandAttributes的全称为Elementsand AttributesforVideoAuxiliaryInfoDescriptor，其对应的中文含义是视频辅助信息描述子的元素和属性；VideoAuxiliaryInfo为视频辅助信息字段、VideoAuxiliaryInfo@withDepthInfo为带有深度信息的视频辅助信息字段、VideoAuxiliaryInfo@withParallaxInfo为带有视差信息的视频辅助信息字段、VideoAuxiliaryInfo@withAuxiliaryInfo为带有辅助信息的视频辅助信息字段、VideoAuxiliaryInfo@depthCodecDependency为视频辅助信息的深度编解码依赖性字段、VideoAuxiliaryInfo@parallaxCodecDependency为视频辅助信息的视差编解码依赖性字段、VideoAuxiliaryInfo@auxilliaryCodecDependency为视频辅助信息的辅助编解码依赖性字段、VideoAuxiliaryInfo@onlyDepthInfo为视频辅助信息的仅限深度信息标志字段、VideoAuxiliaryInfo@onlyParallaxInfo为视频辅助信息的仅限视差信息标志字段、VideoAuxiliaryInfo@onlyAuxiliaryInfo为视频辅助信息的仅限辅助信息标志字段。第二列中的Use的中文含义是作用，O代表对应属性为Optional(可选的)，CM代表ConditionalMandatory(在条件下的必选的)，M代表Mandatory(必选的)；第三列中的Datatype的中文含义是数据类型，avs:ims:2018:av31和xs:bool是两种不同的数据类型；第四列中的Description的中文含义是描述。

2、扩展自由视角相机描述子(AvsFreeViewCamInfoDescriptor)，该自由视角相机描述子用于描述视频资源对应的相机信息。该自由视角相机描述子为SupplementalProperty元素，其@schemeIdUri属性为"urn:avs:ims:2018:av31"。并且，该自由视角相机描述子可adaptationset层级(自适应集层级)或representation层级(表示层级)。当该自由视角相机描述子存在于adaptationset层级时，描述相应的adaptationset内所有的representation对应的相机信息；该自由视角相机描述子存在于representation层级时，描述对应的representation对应的相机信息。

具体的，扩展后的自由视角相机描述子的具体属性可以大致参见下述表4所示：

表4

在上述表4中，AvsFreeViewCam@sourceId(自由视角相机源标识字段)以及AvsFreeViewCam@combinationId(自由视角相机组合标识字段)这两个字段是本申请实施例在自由视角相机描述子中扩展的字段，除这两个字段以外的其他字段是自由视角相机描述子中原有的字段。另外，第一列中的Elements and Attributes的全称为Elementsand AttributesforAvsFreeViewCamInfoDescriptor，其对应的中文含义是自由视角相机描述子的元素和属性。第二列中的各个英文的中文含义可参见前述表3的相关解释，第三列中的avs:ims:2018:av3l、xs:unsignedInt以及xs:float是三种不同的数据类型。

可选的，当沉浸媒体(如自由视角视频)以多轨形式进行封装时，一个视频轨道对应的representation(视频资源)或adaptationset(自适应集)还可以通过preselection(预选择集合)工具进行指示；也就是说，同一个视频内容的不同相机对应的视频资源应存在于同一个preselection中。

三、SMT信令扩展

定义视频辅助信息描述子(VideoAuxiliaryInfoDescriptor)，该视频辅助信息描述子也可称为视频辅助信息描述符，其可用于描述视频资源的视频辅助信息的相关属性。具体的，视频辅助信息描述子的定义可如下表5所示：

表5

其中，descriptor_tag(描述子标识符字段)，用于标志descriptor(即视频辅助信息描述子)的类型；descriptor_length(描述子长度字段)，用于标识descriptor(即视频辅助信息描述子)的长度，单位为字节。

video_with_depth_info_flag(带有深度信息的视频辅助信息字段)用于指示当前媒体资源(即相应视频资源)中是否同时包含纹理信息(图像信息)以及纹理信息(图像信息)对应的深度信息。该字段取值为第九数值(如数值1)时，指示当前媒体资源同时包含纹理信息(图像信息)以及纹理信息(图像信息)对应的深度信息；该字段取值为第十数值(如数值0)时，指示当前媒体资源仅包含纹理信息(图像信息)。

在video_with_depth_info_flag的取值为第九数值(如数值1)的情况下，即视频资源同时包含纹理信息和相应的深度信息的情况下，视频辅助信息描述子还可包括depth_codec_dependency(视频辅助信息的深度编解码依赖性字段)；否则，视频辅助信息描述子可包括only_depth_info_flag(视频辅助信息的仅限深度信息标志字段)。其中，depth_codec_dependency这一字段用于指示当前媒体资源(即相应视频资源)中包含的纹理信息(图像信息)和纹理信息(图像信息)对应的深度信息之间是否存在解码依赖关系；当该字段取值为第十一数值(如数值1)时，指示当前媒体资源中包含的纹理信息(图像信息)和纹理信息(图像信息)对应的深度信息之间存在解码依赖关系；当该字段取值为第十二数值(如数值0)时，指示当前媒体资源中包含的纹理信息(图像信息)和纹理信息(图像信息)对应的深度信息之间不存在解码依赖关系。only_depth_info_flag这一字段用于指示当前媒体资源(即相应视频资源)包含的图像信息；当该字段取值为第十三数值(如数值1)时，指示当前媒体资源仅包含深度信息；当该字段取值为第十四数值(如数值0)时，指示当前媒体资源仅包含视频图像(纹理)信息。

video_with_parallax_info_flag(带有视差信息的视频辅助信息字段)用于指示当前媒体资源(即相应视频资源)中是否同时包含视频图像信息以及视频图像信息对应的视差信息。该字段取值为第九数值(如数值1)时，指示当前媒体资源同时包含视频图像信息以及视频图像信息对应的视差信息；该字段取值为第十数值(如数值0)时，指示当前媒体资源仅包含视频图像信息。

在video_with_parallax_info_flag的取值为第九数值(如数值1)的情况下，即视频资源同时包含视频图像信息和相应的视差信息的情况下，视频辅助信息描述子还可包括parallax_codec_dependency(视频辅助信息的视差编解码依赖性字段)；否则，视频辅助信息描述子可包括only_parallax_info_flag(视频辅助信息的仅限视差信息标志字段)。其中，parallax_codec_dependency这一字段用于指示当前媒体资源(即相应视频资源)中包含的视频图像信息和视频图像信息对应的视差信息之间是否存在解码依赖关系；当该字段取值为第十一数值(如数值1)时，指示当前媒体资源中包含的视频图像信息和视频图像信息对应的视差信息之间存在解码依赖关系；当该字段取值为第十二数值(如数值0)时，指示当前媒体资源中包含的视频图像信息和视频图像信息对应的视差信息之间不存在解码依赖关系。only_parallax_info_flag这一字段用于指示当前媒体资源(即相应视频资源)包含的图像信息；当该字段取值为第十三数值(如数值1)时，指示当前媒体资源仅包含视差信息；当该字段取值为第十四数值(如数值0)时，指示当前媒体资源仅包含视频图像信息。

video_with_auxl_info_flag(带有辅助信息的视频辅助信息字段)用于指示当前媒体资源(即相应视频资源)中是否同时包含视频图像信息以及视频图像信息对应的视频辅助信息。该字段取值为第九数值(如数值1)时，指示当前媒体资源同时包含视频图像信息以及视频图像信息对应的视频辅助信息；该字段取值为第十数值(如数值0)时，指示当前媒体资源仅包含视频图像信息。此处的视频辅助信息可以是深度信息、视差信息或由其他应用定义的辅助信息。

在video_with_auxl_info_flag的取值为第九数值(如数值1)的情况下，即视频资源同时包含视频图像信息和相应的视频辅助信息的情况下，视频辅助信息描述子还可包括auxl_codec_dependency(视频辅助信息的辅助编解码依赖性字段)；否则，视频辅助信息描述子可包括only_auxiliary_info_flag(视频辅助信息的仅限辅助信息标志字段)。其中，auxl_codec_dependency这一字段用于指示当前媒体资源(即相应视频资源)中包含的视频图像信息和视频图像信息对应的视频辅助信息之间是否存在解码依赖关系；当该字段取值为第十一数值(如数值1)时，指示当前媒体资源中包含的视频图像信息和视频图像信息对应的视频辅助信息之间存在解码依赖关系；当该字段取值为第十二数值(如数值0)时，指示当前媒体资源中包含的视频图像信息和视频图像信息对应的视频辅助信息之间不存在解码依赖关系。only_auxiliary_info_flag这一字段用于指示当前媒体资源(即相应视频资源)包含的图像信息；当该字段取值为第十三数值(如数值1)时，指示当前媒体资源仅包含视频辅助信息；当该字段取值为第十四数值(如数值0)时，指示当前媒体资源仅包含视频图像信息。

基于上述描述，本申请实施例提出一种沉浸媒体的处理方法，该沉浸媒体的处理方法可以由媒体制作设备执行。请参见图2，该沉浸媒体的处理方法可包括以下步骤S201-S202：

S201，获取沉浸媒体的视频位流。

在本申请实施例中，沉浸媒体可以是自由视角视频，也可以是除自由视角视频以外的其他沉浸式媒体，在此不作限定。并且，沉浸媒体可通过多个相机拍摄得到；任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息。其中，当沉浸媒体为自由视角视频时，任一相机所采集到的视频图像信息可包括纹理信息，且任一相机所采集到的视频辅助信息可包括深度信息；当然可理解的是，此处并不对视频图像信息和视频辅助信息进行限定，例如当沉浸媒体为其他沉浸式媒体时，任一相机所采集到的视频辅助信息可包括视差信息，或者由其他应用定义的辅助信息。

S202，将视频位流封装到M个视频轨道中，得到沉浸媒体的媒体文件。

其中，M为正整数。当M＝1时，可表明沉浸媒体的封装方式是单轨封装方式，即媒体制作设备可将视频位流封装到一个视频轨道中，以得到沉浸媒体的媒体文件。当M＞1时，可表明沉浸媒体的封装方式是多轨封装方式，即媒体制作设备可将视频位流封装到一个视频轨道中，以得到沉浸媒体的媒体文件；在此情况下，媒体制作设备可将同一个相机所采集到的视频图像信息和对应的视频辅助信息封装到同一个视频轨道中，也可将同一个相机所采集到的视频图像信息和对应的视频辅助信息封装到不同的视频轨道中，对此不作限定。进一步的，当沉浸媒体的封装方式是多轨封装方式时，一个视频轨道可对应一个或多个相机，对此也不作限定；例如，媒体制作设备可选择一个视频轨道只封装一个相机采集到的视频图像信息和相应的视频辅助信息中的至少一种信息，也可选择一个视频轨道封装至少两个相机采集到的视频图像信息和相应的视频辅助信息，还可选择一个视频轨道封装至少两个相机采集到的视频图像信息，或至少两个相机采集到的视频辅助信息。

在封装过程中，媒体制作设备还可执行如下操作：

(一)根据视频图像信息和视频辅助信息是否在同一个视频轨道，在M个视频轨道中的至少一个视频轨道的视频媒体头数据盒中添加元数据信息，以指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息。也就是说，在M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，该元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息。

具体的，若M＝1(即沉浸媒体的视频位流被封装到一个视频轨道)，则媒体制作设备可在这唯一一个视频轨道的媒体头数据盒中添加元数据信息。若M＞1(即沉浸媒体的视频位流被封装到多个视频轨道)，则在同一个相机采集的视频图像信息和对应的视频辅助信息被封装到同一个视频轨道的情况下，媒体制作设备可在M个视频轨道中的每个视频轨道的视频媒体头数据盒中添加元数据信息；而在同一个相机采集的视频图像信息和对应的视频辅助信息被封装到不同视频轨道的情况下，考虑到M个视频轨道可具体细分为一个或多个视频图像信息轨道和一个或多个视频辅助信息轨道，而视频辅助信息轨道可被参考或关联到相应的视频图像信息轨道上，因此为节省资源，媒体制作设备可在M个视频轨道中的每个视频图像信息轨道的视频媒体头数据盒中添加元数据信息。由此可见，媒体制作设备可至少在封装了视频图像信息的视频轨道的视频媒体头数据盒中添加元数据信息；即若M个视频轨道中的第m个视频轨道封装了至少一个相机的视频图像信息，则该第m个视频轨道的视频媒体头数据盒包括元数据信息，m∈[1，M]。

其中，元数据信息包括内容信息标志字段；媒体制作设备可根据视频轨道中是否同时包含视频图像信息和相应的视频辅助信息，设置内容信息标志字段的取值。具体的，若相应视频轨道同时包含视频图像信息和相应的视频辅助信息，则媒体制作设备可将相应的内容信息标志字段的取值设置为第一数值(如数值1)，若相应视频轨道仅包含视频图像信息，则媒体制作设备可将相应的内容信息标志字段的取值设置为第二数值(如数值0)。

上述提及的内容信息标志字段可以为以下任一种：视频深度信息标志字段(即前述提及的video_with_depth_info_flag)，视频视差信息标志字段(即前述提及的video_with_parallax_info_flag)，视频辅助信息标志字段(即前述提及的video_with_auxl_info_flag)。由前述可知，当内容信息标志字段为视频深度信息标志字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；当内容信息标志字段为视频视差信息标志字段时，视频辅助信息包括视差信息；当内容信息标志字段为视频辅助信息标志字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

需要说明的是，上述只是示例性地阐述了媒体制作设备添加元数据信息的方式，并不对此进行限定。例如，在其他实施例中，媒体制作设备也可选择选择在封装了视频辅助信息的视频轨道的视频媒体头数据盒中添加元数据信息；在此情况下，若相应视频轨道同时包含视频图像信息和相应的视频辅助信息，则媒体制作设备可将相应的内容信息标志字段的取值设置为第一数值(如数值1)，若相应视频轨道仅包含视频辅助信息，则媒体制作设备可将相应的内容信息标志字段的取值设置为第二数值(如数值0)。又如，在其他实施例中，媒体制作设备也可不关注视频辅助信息和视频图像信息是否被封装到同一个视频轨道，直接选择在每个视频轨道的视频媒体头数据盒中添加元数据信息；在此情况下，可通过内容信息标志字段的三个取值来指示视频轨道的信息情况，若相应视频轨道同时包含视频图像信息和相应的视频辅助信息，则媒体制作设备可将相应的内容信息标志字段的取值设置为第一数值(如数值1)，若相应视频轨道仅包含视频图像信息，则媒体制作设备可将相应的内容信息标志字段的取值设置为第二数值(如数值0)，若相应视频轨道仅包含视频辅助信息，则媒体制作设备可将相应的内容信息标志字段的取值设置为其他数值(如数值2)，等等。

(二)，针对包含元数据信息的视频轨道而言，若元数据信息指示相应视频轨道同时包含视频图像信息和相应的视频辅助信息(如内容标志字段的取值为第一数值)，则媒体制作设备还可在相应视频中的视频媒体头数据盒中添加视频信息编解码依赖性字段，并可根据相应视频轨道中的视频图像信息和相应的视频辅助信息视频图像信息和视频辅助信息之间是否存在解码依赖关系，设置视频信息编解码依赖性字段的取值。具体的，若视频轨道中的视频图像信息和相应的视频辅助信息视频图像信息和视频辅助信息之间存在解码依赖关系，则可设置视频信息编解码依赖性字段的取值为第三数值(如数值1)；若视频轨道中的视频图像信息和相应的视频辅助信息视频图像信息和视频辅助信息之间不存在解码依赖关系，则可设置视频信息编解码依赖性字段的取值为第四数值(如数值0)。

上述提及的视频信息编解码依赖性字段为以下任一种：深度编解码依赖性字段(即前述提及的depth_codec_dependency)，视差编解码依赖性字段(即前述提及的parallax_codec_dependency)，辅助编解码依赖性字段(即前述提及的auxl_codec_dependency)。由前述可知，视频信息编解码依赖性字段的具体形式可取决于内容标志字段的具体形式，若内容标志字段是视频深度信息标志字段，则视频信息编解码依赖性字段为深度编解码依赖性字段；若内容标志字段是视频视差信息标志字段，则视频信息编解码依赖性字段为视差编解码依赖性字段；若内容标志字段是视频辅助信息标志字段，则视频信息编解码依赖性字段为辅助编解码依赖性字段。并且，当视频信息编解码依赖性字段为深度编解码依赖性字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；当视频信息编解码依赖性字段为视差编解码依赖性字段时，视频辅助信息包括视差信息；当视频信息编解码依赖性字段为辅助编解码依赖性字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

(三)根据沉浸媒体的视频内容的成分类型，以及沉浸媒体的视频内容的不同成分之间是否存在编解码依赖关系，在M个视频轨道中的至少一个视频轨道中添加视频成分依赖信息数据盒。具体的，若M＝1(即沉浸媒体的视频位流被封装到一个视频轨道)，则媒体制作设备可在这唯一一个视频轨道中添加视频成分依赖信息数据盒。若M＞1(即沉浸媒体的视频位流被封装到多个视频轨道)，则在一个视频轨道对应至少两个相机的情况下，媒体制作设备可在M个视频轨道中的封装有至少两个相机所采集的一种或多种信息的视频轨道中添加视频成分依赖信息数据盒。例如，若某个视频轨道封装了至少两个相机采集的视频图像信息和视频辅助信息，则媒体制作设备可在该视频轨道中添加视频成分依赖信息数据盒；又如，若某个视频轨道封装了至少两个相机采集的视频图像信息，或封装了至少两个相机采集的视频辅助信息，则媒体制作设备可在该视频轨道中添加视频成分依赖信息数据盒。可见，若M个视频轨道中的第m个视频轨道封装了至少两个相机所采集的一种或多种信息，则该第m个视频轨道中包括视频成分依赖信息数据盒。

其中，视频成分依赖信息数据盒可包括成分编解码依赖性字段(即前述提及的composition_codec_dependency)；媒体制作设备可根据沉浸媒体的视频内容的不同成分之间是否存在编解码依赖关系，设置成分编解码依赖性字段的取值。具体的，若沉浸媒体的视频内容的不同成分之间存在编解码依赖关系，则媒体制作设备可将相应的成分编解码依赖性字段的取值设置为第五数值(如数值1)，若沉浸媒体的视频内容的不同成分之间不存在编解码依赖关系，则媒体制作设备可将相应的成分编解码依赖性字段的取值设置为第六数值(如数值0)。

另外，视频成分依赖信息数据盒还可包括成分类型字段(即前述提及的composition_type)；媒体制作设备可根据沉浸媒体的视频内容的成分类型(即沉浸媒体的视频内容的成分的划分规则)，设置成分类型字段的取值。具体的，若沉浸媒体的视频内容的成分类型为基于相机的成分类型，即一个成分包括一个相机拍摄的视频内容，则媒体制作设备可将相应的成分类型字段的取值设置为第七数值(如数值0)；若沉浸媒体的视频内容的成分类型为基于双目的成分类型，即一个成分包括左目视频内容或右目视频内容，则媒体制作设备可将相应的成分类型字段的取值设置为第八数值(如数值1)。

(四)在M＞1(即沉浸媒体的视频位流被封装到多个视频轨道)的情况下，在M个视频轨道中封装了视频图像信息的各个视频轨道中添加轨道组数据盒，以将M个视频轨道中封装了视频图像信息的各个视频轨道关联起来。其中，轨道组数据盒中可至少包括轨道组标识字段和相机标识字段；针对封装了视频图像信息的任一视频轨道而言，媒体制作设备可将相应视频轨道所对应的轨道组的标识信息存储至该视频轨道中的轨道组数据盒中的轨道组标识字段中，以及将相应视频轨道对应的相机的标识信息存储至该视频轨道中的轨道组数据盒中的相机标识字段中。

(五)在M个视频轨道包括一个或多个视频图像信息轨道和一个或多个视频辅助信息轨道的情况下，媒体制作设备还可在每个视频辅助信息轨道中添加轨道参考类型数据盒，以将视频辅助信息轨道参考或关联到相同相机对应的视频图像信息轨道，且指示视频辅助信息轨道和对应的视频图像信息轨道，在解码时是否存在依赖关系。

其中，轨道参考类型数据盒包含轨道标识字段(track_ID)；那么针对任一视频辅助信息轨道，媒体制作设备可与该视频辅助信息轨道所关联的视频图像信息轨道的标识信息，存储至该视频辅助信息轨道中的轨道参考类型数据盒中的轨道标识字段中。另外，轨道参考类型数据盒包含参考类型字段；那么针对任一视频辅助信息轨道，媒体制作设备可根据该视频辅助信息轨道在解码时，是否依赖对应的视频图像信息轨道，选择将第一轨道索引或第二轨道索引存储至该视频辅助信息轨道中的轨道参考类型数据盒中的参考类型字段中。具体的，若视频辅助信息轨道在解码时，依赖对应的视频图像信息轨道，则可选择将第一轨道索引存储至该视频辅助信息轨道中的轨道参考类型数据盒中的参考类型字段中；若视频辅助信息轨道在解码时，不依赖对应的视频图像信息轨道，则可选择将第二轨道索引存储至该视频辅助信息轨道中的轨道参考类型数据盒中的参考类型字段中。

上述提及的第一轨道索引可以为以下任一种：第一字符串(即前述提及的'vdep')，第二字符串(即前述提及的'vplx')、第三字符串(即前述提及的'auxl')。上述提及的第二轨道索引可以为以下任一种：第四字符串(即前述提及的'vdpi')，第五字符串(即前述提及的'vpli')、第六字符串(即前述提及的'auxi')。由前述可知，第一字符串和第四字符串可用于指示视频辅助信息轨道中的视频辅助信息包括深度信息，第二字符串和第五字符串可用于指示视频辅助信息轨道中的视频辅助信息包括视差信息，第三字符串和第六字符串可用于指示视频辅助信息轨道中的视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

在图2所示的方法实施例的基础上，沉浸媒体的视频位流被封装到M个视频轨道后，可得到每个视频轨道对应的视频资源，媒体文件包括M个视频轨道对应的视频资源。若沉浸媒体的媒体文件的传输方式为流化传输方式，则媒体制作设备还可生成该媒体文件对应的信令描述文件，该信令描述文件对应的传输信令可以是DASH信令或者SMT信令，对此不作限定。

具体的，媒体制作设备可在信令描述文件中添加至少一个视频辅助信息描述子，以描述视频资源的视频辅助信息的相关属性。需要说明的是，在传输信令是DASH信令的情况下，由前述关于DASH信令的扩展可知，视频辅助信息描述子可位于表示层级，以描述相应的视频资源的视频辅助信息的相关属性，此情况下，信令描述文件中的视频辅助信息描述子的数量与媒体文件中的视频资源(representation)的数量相同；或者，视频辅助信息描述子可位于自适应集层级，以描述相应自适应集中的各个视频资源的视频辅助信息的相关属性，此情况下，信令描述文件中的视频辅助信息描述子的数量与媒体文件中的自适应集的数量相同。

在一种实施方式中，媒体制作设备可在视频辅助信息描述子中添加视频辅助信息字段。并且，当视频辅助信息描述子位于表示层级时，媒体制作设备可将对应的视频资源的视频辅助信息的相关属性存储至该视频辅助信息字段中；当视频辅助信息描述子位于自适应集层级时，媒体制作设备可将对应的自适应集的视频辅助信息的相关属性存储至该视频辅助信息字段中。

另一种实施方式中，媒体制作设备可在视频辅助信息描述子中添加辅助信息指示字段。媒体制作设备可根据该视频辅助信息描述子所描述的视频资源是否同时包含视频图像信息和相应的视频辅助信息，设置该辅助信息指示字段的取值。具体的，若视频辅助信息描述子所描述的视频资源同时包含视频图像信息和相应的视频辅助信息，则可设置该辅助信息指示字段的取值为第九数值(如数值1)；若视频辅助信息描述子所描述的视频资源仅包含视频图像信息，则可设置该辅助信息指示字段的取值为第十数值(如数值0)。

上述提及的辅助信息指示字段为以下任一种：带有深度信息的视频辅助信息字段(即前述提及的DASH信令涉及的VideoAuxiliaryInfo@withDepthInfo或SMT信令涉及的video_with_depth_info_flag)，带有视差信息的视频辅助信息字段(即前述提及的DASH信令涉及的VideoAuxiliaryInfo@withParallaxInfo或前述SMT信令涉及的video_with_parallax_info_flag)，带有辅助信息的视频辅助信息字段(即前述提及的DASH信令涉及的VideoAuxiliaryInfo@withAuxiliaryInfo或SMT信令涉及的video_with_auxl_info_flag)。由前述可知，当辅助信息指示字段为带有深度信息的视频辅助信息字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；当辅助信息指示字段为带有视差信息的视频辅助信息字段时，视频辅助信息包括视差信息；当辅助信息指示字段为带有辅助信息的视频辅助信息字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

进一步的，若视频辅助信息描述子所描述的视频资源同时包含视频图像信息和相应的视频辅助信息，即辅助信息指示字段的取值为第九数值，则媒体制作设备可在视频辅助信息描述子中添加辅助信息编解码依赖性字段，并根据相应视频资源中的视频图像信息和相应的视频辅助信息之间是否存在解码依赖关系，设置辅助信息编解码依赖性字段的取值。具体的，若视频辅助信息描述子所描述的视频资源中的视频图像信息和相应的视频辅助信息之间存在解码依赖关系，则可设置辅助信息编解码依赖性字段的取值为第十一数值(如数值1)；若视频辅助信息描述子所描述的视频资源中的视频图像信息和相应的视频辅助信息之间不存在解码依赖关系，则可设置辅助信息编解码依赖性字段的取值为第十二数值(如数值0)。

辅助信息编解码依赖性字段为以下任一种：视频辅助信息的深度编解码依赖性字段(即前述DASH信令涉及的VideoAuxiliaryInfo@depthCodecDependency或SMT信令涉及的depth_codec_dependency)，视频辅助信息的视差编解码依赖性字段(即前述DASH信令涉及的VideoAuxiliaryInfo@parallaxCodecDependency或者前述SMT信令涉及的parallax_codec_dependency)，视频辅助信息的辅助编解码依赖性字段(DASH信令的VideoAuxiliaryInfo@auxilliaryCodecDependency或SMT信令涉及的auxl_codec_dependency)。由前述可知，辅助信息编解码依赖性字段的具体形式可取决于辅助信息指示字段的具体形式，若辅助信息指示字段是带有深度信息的视频辅助信息字段，则辅助信息编解码依赖性字段为视频辅助信息的深度编解码依赖性字段；若辅助信息指示字段是带有视差信息的视频辅助信息字段，则辅助信息编解码依赖性字段为视频辅助信息的视差编解码依赖性字段；若辅助信息指示字段是带有辅助信息的视频辅助信息字段，则辅助信息编解码依赖性字段为视频辅助信息的辅助编解码依赖性字段。并且，当辅助信息编解码依赖性字段为视频辅助信息的深度编解码依赖性字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；当辅助信息编解码依赖性字段为视频辅助信息的视差编解码依赖性字段时，视频辅助信息包括视差信息；当辅助信息编解码依赖性字段为视频辅助信息的辅助编解码依赖性字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

另一种实施方式中，媒体制作设备还可在视频辅助信息描述子添加视频辅助标识字段，并根据相应视频资源中的信息类型，设置视频辅助标识字段的取值。具体的，若视频辅助信息描述子所描述的视频资源仅包含视频图像信息对应的视频辅助信息，则可设置视频辅助标识字段的取值为第十三数值(如数值1)；若视频辅助信息描述子所描述的视频资源仅包含视频图像信息对应的视频辅助信息，则可设置视频辅助标识字段的取值为第十四数值(如数值0)。

视频辅助标识字段为以下任一种：视频辅助信息的仅限深度信息标志字段(即前述DASH信令涉及的VideoAuxiliaryInfo@onlyDepthInfo或SMT信令涉及的only_depth_info_flag)，视频辅助信息的仅限视差信息标志字段(即前述DASH信令涉及的VideoAuxiliaryInfo@onlyParallaxInfo或SMT信令涉及的only_parallax_info_flag)，视频辅助信息的仅限辅助信息标志字段(即前述DASH信令涉及的VideoAuxiliaryInfo@onlyAuxiliaryInfo或前述SMT信令所涉及的only_auxiliary_info_flag)。由前述可知，当视频辅助标识字段为视频辅助信息的仅限深度信息标志字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；当视频辅助标识字段为视频辅助信息的仅限视差信息标志字段时，视频辅助信息包括视差信息；当视频辅助标识字段为视频辅助信息的仅限辅助信息标志字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

另外，媒体制作设备还可在信令描述文件中添加至少一个自由视角相机描述子，以描述视频资源对应的相机信息。需要说明的是，在传输信令是DASH信令的情况下，由前述关于DASH信令的扩展可知，自由视角相机描述子可位于表示层级，以描述相应的视频资源对应的相机信息，此情况下，信令描述文件中的自由视角相机描述子的数量与媒体文件中的视频资源(representation)的数量相同；或者，自由视角相机描述子可位于自适应集层级，以描述相应自适应集中的各个视频资源对应的相机信息，此情况下，信令描述文件中的自由视角相机描述子的数量与媒体文件中的自适应集的数量相同。

具体实现中，媒体制作设备可在自由视角相机描述子中添加自由视角相机源标识字段，并将自由视角相机描述子所描述的视频资源所属的内容标识符存储至自由视角相机源标识字段中；或者，媒体制作设备可在自由视角相机描述子中添加自由视角相机组合标识字段，并将自由视角相机描述子所描述的视频资源所属的组合标识符存储至自由视角相机组合标识字段中。除此之外，媒体制作设备还可在自由视角相机描述子中添加一个或多个AvsFreeViewCam(自由视角相机字段)，并将相应的representation或adaptationset对应的相机信息存储至AvsFreeViewCam中。以及，在自由视角相机描述子中添加AvsFreeViewCam@cameraId(自由视角相机标识字段)，并将自由视角相机描述子所描述的视频资源对应的每个相机对应的相机标识符存储至AvsFreeViewCam@cameraId中。另外，按照前述表4所提及的字段，还可在自由视角相机描述子中添加相应视频资源对应的每个相机的其他信息，如对应相机位置的x分量取值、y分量取值以及z分量取值，对应相机焦距的x分量取值、y分量取值以及z分量取值等。

本申请实施例在媒体文件的传输方式为流化传输方式的情况下，通过在信令描述文件中添加相应信息来指示媒体文件中的各个视频资源是否同时包含视频图像信息和视频辅助信息，以及指示视频资源中的各个信息之间是否存在解码依赖关系和沉浸媒体的视频内容的不同成分之间是否存在解码依赖关系等，可使得媒体消费设备中的客户端在自由视角视频消费过程中，依据信令传输文件的指示来选择相应资源进行消费，以及选择是否进行分段性解码，可有效提升客户端的播放性能。

请参见图3，是本申请实施例提供的另一种沉浸媒体的处理方法的流程示意图。该沉浸媒体的处理方法可以由媒体消费设备执行，或者由媒体消费设备中的客户端执行；为便于阐述，后续均以媒体消费设备执行该沉浸媒体的处理方法为例进行说明。请参见图3，该沉浸媒体的处理方法可包括以下步骤S301-S302：

S301，获取沉浸媒体的媒体文件中的目标视频轨道。

其中，沉浸媒体通过多个相机拍摄得到，任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息；且媒体文件是通过将沉浸媒体的视频位流封装到M个视频轨道中得到的。M为正整数，在M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，该元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息。可选的，在M＞1的情况下，M个视频轨道中封装了视频图像信息的视频轨道还包含轨道组数据盒，该轨道组数据盒包括轨道组标识字段和相机标识字段；其中，轨道组标识字段用于存储相应视频轨道所对应的轨道组的标识信息，相机标识字段用于存储相应视频轨道对应的相机的标识信息。

且在M＞1的情况下，若同一个相机的视频图像信息和视频辅助信息被封装到不同的视频轨道，则M个视频轨道包括：一个或多个视频图像信息轨道和一个或多个视频辅助信息轨道；任一个视频辅助信息轨道包括轨道参考类型数据盒，轨道参考类型数据盒用于将视频辅助信息轨道参考或关联到相同相机对应的视频图像信息轨道，且用于指示视频辅助信息轨道和对应的视频图像信息轨道，在解码时是否存在依赖关系。具体的，轨道参考类型数据盒包含轨道标识字段，该轨道标识字段用于存储与视频辅助信息轨道所关联的视频图像信息轨道的标识信息。另外，轨道参考类型数据盒包含参考类型字段；当参考类型字段存储第一轨道索引时，指示视频辅助信息轨道在解码时，依赖对应的视频图像信息轨道；当参考类型字段存储第二轨道索引时，指示视频辅助信息轨道在解码时，不依赖对应的视频图像信息轨道。

在步骤S301的一种具体实现中，若媒体制作设备支持完整文件的下载服务，则媒体消费设备可从媒体制作设备处下载沉浸媒体的媒体文件。在下载媒体文件后，媒体消费设备可对媒体文件进行解封装处理，得到M个视频轨道。然后，媒体消费设备可从M个视频轨道中选取目标视频轨道。具体的，若沉浸媒体是自由视角视频，则媒体消费设备可确定与用户角度相匹配的目标相机，并从M个视频轨道中与目标相机对应的视频轨道作为目标视频轨道，目标视频轨道中封装有目标相机所采集到的视频图像信息和视频深度信息中的一种或多种。

在步骤S301的另一种具体实现中，若媒体制作设备支持流化传输，则媒体消费设备可与媒体制作设备建立流化传输，并从媒体制作设备处获取沉浸媒体的媒体文件对应的信令描述文件，该信令描述文件中包括至少一个视频辅助信息描述子，视频辅助信息描述子用于描述视频资源的视频辅助信息的相关属性。然后，媒体制作设备可根据信令描述文件的指示，请求媒体制作设备下发目标视频资源；在接收到目标视频资源后，媒体制作设备可对目标视频资源进行解封装处理，得到目标视频轨道。其中，当沉浸媒体为自由视角视频时，媒体制作设备可根据信令描述文件的指示，并结合用户角度来确定目标视频资源，具体如下：

媒体消费设备可根据用户角度以及信令描述文件中的各个自由视角相机描述子所描述的相机位置信息，从多个相机中选择出与用户角度相匹配的目标相机，并基于信令描述文件中的各个自由视角相机描述子中的自由视角相机标识字段所存储的相机标识符，确定出目标相机对应的自由视角相机描述子。然后，可从信令描述文件中确定与自由视角相机描述子对应的视频辅助信息描述子，并根据确定出的视频辅助信息描述子中的辅助信息指示字段的取值，确定相应视频资源中是否同时包含视频图像信息和视频辅助信息，从而可根据第一确定结果确定目标视频资源。

由前述可知，当辅助信息指示字段的取值为第九数值时，指示相应视频资源同时包含视频图像信息和相应的视频辅助信息；当辅助信息指示字段的取值为第十数值时，指示相应视频资源仅包含视频图像信息。那么相应的，若第一确定结果指示相应视频资源中同时包含视频图像信息和视频辅助信息，则媒体消费设备可将确定出的视频辅助信息描述子所描述的视频资源确定为目标视频资源。若第一确定结果指示相应视频资源中仅包含视频图像信息，则由前述可知，此情况下的视频辅助信息描述子包括辅助信息编解码依赖性字段，那么媒体消费设备可进一步根据确定出的视频辅助信息描述子中的辅助信息编解码依赖性字段的取值，确定相应的视频图像信息和视频辅助信息是否存在解码依赖关系，从而可根据第二确定结果确定目标视频资源。

由前述可知，当辅助信息编解码依赖性字段的取值为第十一数值时，指示相应视频资源中的视频图像信息和相应的视频辅助信息之间存在解码依赖关系；当辅助信息编解码依赖性字段的取值为第十二数值时，指示相应视频资源中的视频图像信息和相应的视频辅助信息之间不存在解码依赖关系。那么相应的，若第二确定结果指示相应视频资源中的视频图像信息和相应的视频辅助信息之间不存在解码依赖关系，则媒体消费设备可将确定出的视频辅助信息描述子所描述的视频资源作为目标视频资源；若第二确定结果指示相应视频资源中的视频图像信息和相应的视频辅助信息之间存在解码依赖关系，则媒体消费设备可将确定出的视频辅助信息描述子所描述的视频资源，以及与该视频资源关联的其他视频资源，均作为目标视频资源。此处的其他视频资源是指：与确定出的视频辅助信息描述子所描述的视频资源中的视频图像信息相对应的视频辅助信息所在的视频资源。

其中，媒体消费设备可根据信令描述文件中的各个视频辅助信息描述子中的视频辅助标识字段的取值，来识别各个视频资源包含的是视频图像信息，还是视频图像信息对应的视频辅助信息，从而根据识别结果确定与确定出的视频辅助信息描述子所描述的视频资源关联的其他视频资源。其中，当辅助信息标识字段的取值为第十三数值时，指示相应视频资源仅包含视频图像信息对应的视频辅助信息；当辅助信息标识字段的取值为第十四数值时，指示相应视频资源仅包含视频图像信息。

S302，对目标视频轨道中的信息进行解码处理。

在一种具体实现中，若媒体消费设备是通过下载整个媒体文件的方式，获取到目标视频轨道的，则媒体消费设备可根据目标视频轨道的视频媒体头数据盒中的元数据信息，对目标视频轨道中的信息进行解码处理。具体的，元数据信息可包括内容信息标志字段，由前述可知，当内容信息标志字段的取值为第一数值时，指示相应视频轨道同时包含视频图像信息和相应的视频辅助信息；当内容信息标志字段的取值为第二数值时，指示相应视频轨道仅包含视频图像信息。因此，媒体消费设备可先根据目标视频轨道中的视频媒体头数据盒中的内容信息标志字段的取值，确定目标视频轨道中是否同时包含视频图像信息和相应的视频辅助信息；若确定目标视频轨道仅包含视频图像信息，则媒体消费设备可对该视频图像信息进行解码处理。

若确定目标视频轨道同时包含视频图像信息和对应的视频辅助信息，则由前述可知，此时的目标视频轨道中的视频媒体头数据盒还包括视频信息编解码依赖性字段，且当视频信息编解码依赖性字段的取值为第三数值时，指示相应视频轨道中的视频图像信息和相应的视频辅助信息之间存在解码依赖关系，当视频信息编解码依赖性字段的取值为第四数值时，指示相应视频轨道中的视频图像信息和相应的视频辅助信息之间不存在解码依赖关系。媒体消费设备可先根据目标视频轨道中的视频媒体头数据盒中的视频信息编解码依赖性字段的取值，确定目标视频轨道中中的视频图像信息和相应的视频辅助信息之间是否存在解码依赖关系，从而确定是否对目标视频轨道中的视频图像信息和视频辅助信息进行分段解码处理。具体的，若存在解码依赖关系，则可对目标视频轨道中的视频图像信息和视频辅助信息进行同时解码处理；若不存在解码依赖关系，则可对目标视频轨道中的视频图像信息和视频辅助信息进行分段解码处理，即某一阶段解码纹理信息、某一阶段解码深度信息。当然当不存在解码依赖关系时，也可对视频图像信息和视频辅助信息进行同时解码处理，对此不作限定。

另一种具体实现中，若媒体消费设备是通过流化传输的方式获取目标视频资源，从而获取到目标视频轨道的，则由于媒体消费设备在获取目标视频资源时，已根据信令描述文件中的相关信息知道了目标视频资源是否同时包含视频图像信息和视频辅助信息，以及知道了在目标视频资源同时包含视频图像信息和视频辅助信息的情况下，该视频图像信息和视频辅助信息之间是否存在解码依赖关系，因此媒体消费设备在获取到目标视频轨道后，可直接采用相应逻辑对目标视频轨道中的信息进行解码处理。当然在其他实施例中，媒体消费设备可根据目标视频轨道的视频媒体头数据盒中的元数据信息，对目标视频轨道中的信息进行解码处理，其解码逻辑与上述的解码逻辑相同，在此不再赘述。

可选的，由前述可知，当一个视频轨道对应至少两个相机时，视频轨道中还可包括视频成分依赖信息数据盒，该视频成分依赖信息数据盒可包括成分编解码依赖性字段和成分类型字段；那么相应的，若目标视频轨道中包含该视频依赖成分信息数据盒，则媒体消费设备还可根据该视频依赖成分信息数据盒中的成分类型子段的取值获知沉浸媒体的视频内容的成分类型，以及根据成分编解码依赖性字段的取值来获知沉浸媒体的视频内容的不同成分之间是否存在编解码依赖关系，从而结合获知结果确定是否可对目标视频轨道中的各个相机对应的信息进行独立解码。其中，当成分编解码依赖性字段的取值为第五数值时，指示沉浸媒体的视频内容的不同成分之间存在编解码依赖关系；当成分编解码依赖性字段的取值为第六数值时，指示沉浸媒体的视频内容的不同成分之间不存在编解码依赖关系。当成分类型字段的取值为第七数值时，指示沉浸媒体的视频内容的成分类型为基于相机的成分类型；当成分类型字段的取值为第八数值时，指示所述沉浸媒体的视频内容的成分类型为基于双目的成分类型。

本申请实施例可避免媒体消费设备在解封装过程中重复解析其他数据盒中用于指示视频轨道内的信息情况的相关字段，从而节省处理资源，提升解封装效率，进而提升解码效率。

基于上述描述，以沉浸媒体为自由视角视频为例，且以媒体制作设备为服务器，且由媒体消费设备中的客户端进行媒体消费为例，本申请实施例示例性地提出了如下三种应用场景：

(一)应用场景1：单轨封装：

1、服务器：生成自由视角视频的视频位流并将该视频位流封装为媒体文件F0，且自由视角视频位流以单轨模式进行封装，如图4a。其中：

video_with_depth_info_flag＝1，表明该视频轨道为包含纹理信息和深度信息的轨道；

depth_codec_dependency＝0，表明该视频轨道的深度信息在解码时不依赖纹理信息；

composition_type＝0，表明该视频轨道的视频内容包含不同相机拍摄的视频内容；

composition_codec_dependency＝0，表明该视频轨道中不同相机拍摄的视频内容之间在解码时并不相互依赖。

2、服务器，如图4b所示：

服务器S1根据1中的信息，进一步将F0重新封装为多视频轨道的自由视角文件F1，对多轨模式的处理可参见后续应用场景2和应用场景3的相关描述，在此不作赘述。

服务器S2提供下载服务，对自由视角视频的媒体文件F0不做处理，供用户下载。

服务器S3支持流化传输，将自由视角视频的媒体文件F0切片为适合流化传输的媒体片段(按照现有传输标准的规范进行)，并生成相应的传输信令，并将传输信令的信令描述文件传输给用户。其中，传输信令的信令描述文件中指示以下信息：

VideoAuxiliaryInfo@withDepthInfo＝1，表明视频资源同时包含纹理信息(图像信息)以及纹理信息(图像信息)对应的深度信息；

VideoAuxiliaryInfo@depthCodecDependency＝0，表明相应视频资源中包含的纹理信息(图像信息)和纹理信息(图像信息)对应的深度信息之间不存在解码依赖关系。

3、客户端：

a)客户端C1下载完整文件F0后本地播放。根据文件中关于纹理、深度信息以及编解码依赖信息的指示，客户端可以在不同的阶段进行部分解码，即某一阶段解码纹理信息、某一阶段解码深度信息，以优化客户端播放的性能。

b)客户端C2与服务器S3建立流化传输，根据传输信令中指示的纹理信息、深度信息以及编解码依赖信息，选择相应的自由视角视频流进行消费。同时，客户端可以在不同的阶段进行部分解码，即某一阶段解码纹理信息、某一阶段解码深度信息，以优化客户端播放的性能。其中，服务器可生成多个媒体文件，一个媒体文件对应一个自由视角视频流，一部分媒体文件中的视频图像信息和视频辅助信息之间存在解码依赖，另一部分媒体文件中的视频图像信息和视频辅助信息之间可存在解码依赖。

(二)应用场景2：多轨封装，且每个视频轨道包含一个相机拍摄的纹理信息和深度信息：

1、服务器：生成自由视角视频的视频位流并将该视频位流封装为媒体文件F0，且自由视角视频位流以多轨模式进行封装，如图5a。其中：

其中Track1～Track4中的video_with_depth_info_flag＝1，表明这些视频轨道均为包含深度信息的视频轨道；depth_codec_dependency＝1，表明这些视频轨道的深度信息均在解码时依赖纹理信息。

并且，Track1～Track4中都包含轨道组数据盒(AvsFreeViewGroupBox)，且track_group_id均为100，说明Track1～Track4为同一个自由视角视频的包含不同相机拍摄数据的K个轨道。

2、服务器，如图5b所示：

服务器S1提供下载服务，对自由视角视频的媒体文件F0不做处理，供用户下载。

服务器S2支持流化传输，将自由视角视频的媒体文件F0切片为适合流化传输的媒体片段(按照现有传输标准的规范进行)，并生成相应的传输信令，并将传输信令的信令描述文件传输给用户。其中，传输信令的信令描述文件中指示以下信息：

VideoAuxiliaryInfo@depthCodecDependency＝1，表明相应视频资源中包含的纹理信息(图像信息)和纹理信息(图像信息)对应的深度信息之间存在解码依赖关系；

同时，AvsFreeViewCamInfo@sourceId指示不同视频资源属于同一个视频内容，AvsFreeViewCamInfo@cameraId和AvsFreeViewCam@camera_pos_x/y/z，分别指示相机标识符以及相机位置信息。

3、客户端：

a)客户端C1下载完整文件F0后本地播放。根据文件中关于纹理、深度信息、编解码依赖信息以及相机信息的指示，客户端可以根据用户观看操作仅对特定相机对应的纹理信息和深度信息进行部分解码(此时由于纹理深度信息相互依赖，无法分阶段解码)，以优化客户端播放的性能。

b)客户端C2与服务器S3建立流化传输，根据传输信令中关于纹理、深度信息、编解码依赖信息以及相机信息的指示，结合用户观看操作请求服务器仅对包含特定相机对应的纹理信息和深度信息的视频资源进行传输，并在接收到相应视频资源后进行解码消费。

(三)应用场景3：多轨封装，且每个视频轨道包含一个相机拍摄的纹理信息或者深度信息：

1、服务器：生成自由视角视频的视频位流并将该视频位流封装为媒体文件F0，且自由视角视频位流以多轨模式进行封装，如图6a。其中：

其中Track1～Track4中的video_with_depth_info_flag＝0，表明这些视频轨道均只包含纹理信息。Track11～Track14中handlerbox中的处理类型为辅助视频轨道，表明这些视频轨道(即视频辅助信息轨道)均用于辅助某个视频图像信息轨道(即纹理图轨道)进行消费。通过TrackReferenceTypeBox中的信息，可以知道Track1～Track4、Track11～Track14这些视频轨道之间的对应关系。且通过轨道索引类型'vdpi'可以知道Track11～Track14包含的视频辅助信息为深度信息，且深度信息的解码不依赖与对应的纹理信息。

2、服务器，如图6b所示：

Track1～Track4对应的媒体资源：

VideoAuxiliaryInfo@withDepthInfo＝0，指示相应视频资源仅包含纹理信息；

AvsFreeViewCamInfo@sourceId＝100，指示不同视频资源属于同一个视频内容；

AvsFreeViewCamInfo@cameraId、AvsFreeViewCam@camera_pos_x/y/z指示相机标识符以及相机位置信息。

Track11～Track14对应的媒体资源：

VideoAuxiliaryInfo@onlyDepthInfo＝1，指示相应视频资源仅包含深度信息；

同时，通过现有技术中的@dependencyId属性，可以将track1～track4对应的媒体资源和track11～track14对应的媒体资源进行关联。

3、客户端：

a)客户端C1下载完整文件F0后本地播放。根据文件中关于纹理、深度信息、编解码依赖信息以及相机信息的指示，客户端可以根据用户观看操作仅对特定相机对应的纹理信息和深度信息进行部分解码。同时，由于纹理信息和对应的深度信息编解码独立，因此客户端还可以分阶段对纹理信息和深度信息进行解码，以优化客户端播放的性能。

b)客户端C2与服务器S3建立流化传输，根据传输信令中关于纹理、深度信息、编解码依赖信息以及相机信息的指示，结合用户观看操作请求服务器仅对包含特定相机对应的纹理信息和深度信息的视频资源进行传输，并在接收到相应视频资源后，可以分阶段对纹理信息和深度信息进行解码消费。

基于上述图2所示的沉浸媒体的处理方法的相关描述，本申请实施例还公开了一种沉浸媒体的处理装置，所述沉浸媒体的处理装置可以是运行于上述所提及的媒体制作设备的一个计算机程序(包括程序代码)。所述沉浸媒体的处理装置可以执行图2所示的方法，请参见图7，所述沉浸媒体的处理装置可以运行如下单元：

处理单元701，用于获取沉浸媒体的视频位流，所述沉浸媒体通过多个相机拍摄得到；任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息；

封装单元702，用于将所述视频位流封装到M个视频轨道中，得到所述沉浸媒体的媒体文件；其中，M为正整数，且在所述M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，所述元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息。

基于上述图3所示的沉浸媒体的处理方法的相关描述，本申请实施例还公开了一种沉浸媒体的处理装置，所述沉浸媒体的处理装置可以是运行于上述所提及的媒体消费设备的一个计算机程序(包括程序代码)。所述沉浸媒体的处理装置可以执行图3所示的方法，请参见图8，所述沉浸媒体的处理装置可以运行如下单元：

获取单元801，用于获取沉浸媒体的媒体文件中的目标视频轨道，所述沉浸媒体通过多个相机拍摄得到，任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息；且所述媒体文件是通过将所述沉浸媒体的视频位流封装到M个视频轨道中得到的；其中，M为正整数，在所述M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，所述元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息；

解码单元802，用于对所述目标视频轨道中的信息进行解码处理。

在一种实施方式中，所述媒体文件是由媒体制作设备制作封装得到的，所述视频位流被封装到M个视频轨道后，得到每个视频轨道对应的视频资源，所述媒体文件包括所述M个视频轨道对应的视频资源；

相应的，获取单元801在用于获取沉浸媒体的媒体文件中的目标视频轨道时，可具体用于：

与所述媒体制作设备建立流化传输；

从所述媒体制作设备处获取沉浸媒体的媒体文件对应的信令描述文件，所述信令描述文件中包括至少一个视频辅助信息描述子，视频辅助信息描述子用于描述视频资源的视频辅助信息的相关属性；

根据所述信令描述文件的指示，请求所述媒体制作设备下发目标视频资源；并对所述目标视频资源进行解封装处理，得到目标视频轨道。

根据本申请的另一个实施例，图7或图8所示的沉浸媒体的处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于沉浸媒体的处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7或图8中所示的沉浸媒体的处理装置设备，以及来实现本申请实施例的沉浸媒体的处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种媒体处理设备，该媒体处理设备可以是上述所提及的媒体制作设备或者媒体消费设备。请参见图9，该媒体处理设备至少包括处理器901、输入接口902、输出接口903以及计算机存储介质904。其中，媒体处理设备内的处理器901、输入接口902、输出接口903以及计算机存储介质904可通过总线或其他方式连接。计算机存储介质904可以存储在媒体处理设备的存储器中，所述计算机存储介质904用于存储计算机程序，所述计算机程序包括程序指令，所述处理器901用于执行所述计算机存储介质904存储的程序指令。处理器901(或称CPU(CentralProcessing Unit，中央处理器))是媒体处理设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，当媒体处理设备是媒体处理设备时，本申请实施例所述的处理器901可以用于进行一系列图2所示的沉浸媒体的处理流程，具体包括：获取沉浸媒体的视频位流，所述沉浸媒体通过多个相机拍摄得到；任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息；将所述视频位流封装到M个视频轨道中，得到所述沉浸媒体的媒体文件；其中，M为正整数，且在所述M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，所述元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息，等等。

另一个实施例中，当媒体处理设备是媒体编辑设备时，本申请实施例所述的处理器901可以用于进行一系列图3所示的沉浸媒体的处理流程，具体包括：获取沉浸媒体的媒体文件中的目标视频轨道，所述沉浸媒体通过多个相机拍摄得到，任一相机通过拍摄所采集到的信息包括：视频图像信息和相应的视频辅助信息；且所述媒体文件是通过将所述沉浸媒体的视频位流封装到M个视频轨道中得到的；其中，M为正整数，在所述M个视频轨道中，存在至少一个视频轨道中的视频媒体头数据盒包括元数据信息，所述元数据信息用于指示相应视频轨道是否同时包含视频图像信息和相应的视频辅助信息；对所述目标视频轨道中的信息进行解码处理，等等。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是媒体处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括媒体处理设备中的内置存储介质，当然也可以包括媒体处理设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了媒体处理设备的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2所示的沉浸媒体的处理方法实施例中的方法的相应步骤。另一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图3所示的沉浸媒体的处理方法实施例中的方法的相应步骤。

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或图3所示的方法实施例方面的各种可选方式中提供的方法。

并且，应理解的是，以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种沉浸媒体的处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，若所述M个视频轨道中的第m个视频轨道封装了至少一个相机的视频图像信息，则所述第m个视频轨道的视频媒体头数据盒包括元数据信息，m∈[1，M]。

3.如权利要求2所述的方法，其特征在于，所述元数据信息包括内容信息标志字段；

当所述内容信息标志字段的取值为第一数值时，指示相应视频轨道同时包含视频图像信息和相应的视频辅助信息；

当所述内容信息标志字段的取值为第二数值时，指示相应视频轨道仅包含视频图像信息。

4.如权利要求3所述的方法，其特征在于，所述内容信息标志字段为以下任一种：视频深度信息标志字段，视频视差信息标志字段，视频辅助信息标志字段；其中：

当所述内容信息标志字段为视频深度信息标志字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；

当所述内容信息标志字段为视频视差信息标志字段时，视频辅助信息包括视差信息；

当所述内容信息标志字段为视频辅助信息标志字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

5.如权利要求1-4任一项所述的方法，其特征在于，若所述元数据信息指示相应视频轨道同时包含视频图像信息和相应的视频辅助信息，则相应视频轨道中的视频媒体头数据盒还包括视频信息编解码依赖性字段；

当所述视频信息编解码依赖性字段的取值为第三数值时，指示相应视频轨道中的视频图像信息和相应的视频辅助信息之间存在解码依赖关系；

当所述视频信息编解码依赖性字段的取值为第四数值时，指示相应视频轨道中的视频图像信息和相应的视频辅助信息之间不存在解码依赖关系。

6.如权利要求5所述的方法，其特征在于，所述视频信息编解码依赖性字段为以下任一种：深度编解码依赖性字段，视差编解码依赖性字段，辅助编解码依赖性字段；其中：

当所述视频信息编解码依赖性字段为深度编解码依赖性字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；

当所述视频信息编解码依赖性字段为视差编解码依赖性字段时，视频辅助信息包括视差信息；

当所述视频信息编解码依赖性字段为辅助编解码依赖性字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

7.如权利要求1-4任一项所述的方法，其特征在于，在所述M个视频轨道中，存在至少一个视频轨道包括视频成分依赖信息数据盒；

其中，所述视频成分依赖信息数据盒用于指示：所述沉浸媒体的视频内容的成分类型，以及所述沉浸媒体的视频内容的不同成分之间是否存在编解码依赖关系。

8.如权利要求7所述的方法，其特征在于，当M＝1时，所述M个视频轨道中包括所述视频成分依赖信息数据盒；

当M＞1时，若所述M个视频轨道中的第m个视频轨道封装了至少两个相机所采集的一种或多种信息，则所述第m个视频轨道中包括所述视频成分依赖信息数据盒。

9.如权利要求7所述的方法，其特征在于，所述视频成分依赖信息数据盒包括成分编解码依赖性字段；

当所述成分编解码依赖性字段的取值为第五数值时，指示所述沉浸媒体的视频内容的不同成分之间存在编解码依赖关系；

当所述成分编解码依赖性字段的取值为第六数值时，指示所述沉浸媒体的视频内容的不同成分之间不存在编解码依赖关系。

10.如权利要求7所述的方法，其特征在于，所述视频成分依赖信息数据盒包括成分类型字段；

当所述成分类型字段的取值为第七数值时，指示所述沉浸媒体的视频内容的成分类型为基于相机的成分类型；其中，一个成分包括一个相机拍摄的视频内容；

当所述成分类型字段的取值为第八数值时，指示所述沉浸媒体的视频内容的成分类型为基于双目的成分类型；其中，一个成分包括左目视频内容或右目视频内容。

11.如权利要求1-4任一项所述的方法，其特征在于，在M＞1的情况下，所述M个视频轨道中封装了视频图像信息的视频轨道还包含轨道组数据盒；

其中，所述轨道组数据盒包括轨道组标识字段和相机标识字段；所述轨道组标识字段用于存储相应视频轨道所对应的轨道组的标识信息，所述相机标识字段用于存储相应视频轨道对应的相机的标识信息。

12.如权利要求1-4任一项所述的方法，其特征在于，在M＞1的情况下，若同一个相机的视频图像信息和视频辅助信息被封装到不同的视频轨道，则所述M个视频轨道包括：一个或多个视频图像信息轨道和一个或多个视频辅助信息轨道；

其中，视频图像信息轨道是指封装了视频图像信息的视频轨道，视频辅助信息轨道是指封装了视频辅助信息的视频轨道；

任一个视频辅助信息轨道包括轨道参考类型数据盒，所述轨道参考类型数据盒用于将视频辅助信息轨道参考或关联到相同相机对应的视频图像信息轨道，且用于指示视频辅助信息轨道和对应的视频图像信息轨道，在解码时是否存在依赖关系。

13.如权利要求12所述的方法，其特征在于，所述轨道参考类型数据盒包含轨道标识字段，所述轨道标识字段用于存储与视频辅助信息轨道所关联的视频图像信息轨道的标识信息。

14.如权利要求12所述的方法，其特征在于，所述轨道参考类型数据盒包含参考类型字段；

当所述参考类型字段存储第一轨道索引时，指示视频辅助信息轨道在解码时，依赖对应的视频图像信息轨道；

当所述参考类型字段存储第二轨道索引时，指示视频辅助信息轨道在解码时，不依赖对应的视频图像信息轨道。

15.如权利要求14所述的方法，其特征在于，所述第一轨道索引为以下任一种：

第一字符串，所述第一字符串用于指示视频辅助信息轨道中的视频辅助信息包括深度信息；

第二字符串，所述第二字符串用于指示视频辅助信息轨道中的视频辅助信息包括视差信息；

第三字符串，所述第三字符串用于指示视频辅助信息轨道中的视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息；

所述第二轨道索引为以下任一种：

第四字符串，所述第四字符串用于指示视频辅助信息轨道中的视频辅助信息包括深度信息；

第五字符串，所述第五字符串用于指示视频辅助信息轨道中的视频辅助信息包括视差信息；

第六字符串，所述第六字符串用于指示视频辅助信息轨道中的视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

16.如权利要求1-4任一项所述的方法，其特征在于，所述视频位流被封装到M个视频轨道后，得到每个视频轨道对应的视频资源，所述媒体文件包括所述M个视频轨道对应的视频资源；

若所述媒体文件的传输方式为流化传输方式，则所述方法还包括：生成所述媒体文件对应的信令描述文件；

其中，所述信令描述文件中包括至少一个视频辅助信息描述子，所述视频辅助信息描述子用于描述视频资源的视频辅助信息的相关属性。

17.如权利要求16所述的方法，其特征在于，当视频辅助信息描述子位于所述信令描述文件的自适应集层级时，描述相应自适应集中的各个视频资源的视频辅助信息的相关属性；

当视频辅助信息描述子位于所述信令描述文件的表示层级时，描述相应的视频资源的视频辅助信息的相关属性。

18.如权利要求16所述的方法，其特征在于，所述视频辅助信息描述子包括视频辅助信息字段；

当所述视频辅助信息描述子位于表示层级时，所述视频辅助信息字段用于存储对应的视频资源的视频辅助信息的相关属性；

当所述视频辅助信息描述子位于自适应集层级时，所述视频辅助信息字段用于存储对应的自适应集的视频辅助信息的相关属性。

19.如权利要求16所述的方法，其特征在于，所述视频辅助信息描述子包括辅助信息指示字段；

当所述辅助信息指示字段的取值为第九数值时，指示相应视频资源同时包含视频图像信息和相应的视频辅助信息；

当所述辅助信息指示字段的取值为第十数值时，指示相应视频资源仅包含视频图像信息。

20.如权利要求19所述的方法，其特征在于，所述辅助信息指示字段为以下任一种：带有深度信息的视频辅助信息字段，带有视差信息的视频辅助信息字段，带有辅助信息的视频辅助信息字段；其中：

当所述辅助信息指示字段为带有深度信息的视频辅助信息字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；

当所述辅助信息指示字段为带有视差信息的视频辅助信息字段时，视频辅助信息包括视差信息；

当所述辅助信息指示字段为带有辅助信息的视频辅助信息字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

21.如权利要求16所述的方法，其特征在于，若所述视频辅助信息描述子所描述的视频资源同时包含视频图像信息和相应的视频辅助信息，则所述视频辅助信息描述子包括辅助信息编解码依赖性字段；

当所述辅助信息编解码依赖性字段的取值为第十一数值时，指示相应视频资源中的视频图像信息和相应的视频辅助信息之间存在解码依赖关系；

当所述辅助信息编解码依赖性字段的取值为第十二数值时，指示相应视频资源中的视频图像信息和相应的视频辅助信息之间不存在解码依赖关系。

22.如权利要求21所述的方法，其特征在于，所述辅助信息编解码依赖性字段为以下任一种：视频辅助信息的深度编解码依赖性字段，视频辅助信息的视差编解码依赖性字段，视频辅助信息的辅助编解码依赖性字段；其中：

当所述辅助信息编解码依赖性字段为视频辅助信息的深度编解码依赖性字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；

当所述辅助信息编解码依赖性字段为视频辅助信息的视差编解码依赖性字段时，视频辅助信息包括视差信息；

当所述辅助信息编解码依赖性字段为视频辅助信息的辅助编解码依赖性字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

23.如权利要求16所述的方法，其特征在于，所述视频辅助信息描述子包括视频辅助标识字段；

当所述辅助信息标识字段的取值为第十三数值时，指示相应视频资源仅包含视频图像信息对应的视频辅助信息；

当所述辅助信息标识字段的取值为第十四数值时，指示相应视频资源仅包含视频图像信息。

24.如权利要求23所述的方法，其特征在于，所述视频辅助标识字段为以下任一种：视频辅助信息的仅限深度信息标志字段，视频辅助信息的仅限视差信息标志字段，视频辅助信息的仅限辅助信息标志字段；其中：

当所述视频辅助标识字段为视频辅助信息的仅限深度信息标志字段时，视频图像信息包括纹理信息，视频辅助信息包括深度信息；

当所述视频辅助标识字段为视频辅助信息的仅限视差信息标志字段时，视频辅助信息包括视差信息；

当所述视频辅助标识字段为视频辅助信息的仅限辅助信息标志字段时，视频辅助信息包括深度信息、视差信息或者由其他应用定义的辅助信息。

25.如权利要求16所述的方法，其特征在于，所述信令描述文件还包括至少一个自由视角相机描述子，所述自由视角相机描述子用于描述视频资源对应的相机信息；

其中，所述自由视角相机描述子包括自由视角相机源标识字段，所述自由视角相机源标识字段的取值用于指示对应视频资源所属的内容标识符，同一视频内容下的不同相机对应的视频资源具备相同的内容标识符；

或者，所述自由视角相机描述子包括自由视角相机组合标识字段，所述自由视角相机组合标识字段的取值用于指示对应视频资源所属的组合标识符，同一视频内容下的不同相机对应的视频资源具备相同的组合标识符。

26.如权利要求16所述的方法，其特征在于，当M＞1时，表明所述沉浸媒体以多轨形式进行封装，一个视频轨道对应的视频资源或自适应集通过预选择集合工具进行指示。

27.一种沉浸媒体的处理方法，其特征在于，包括：

对所述目标视频轨道中的信息进行解码处理。

28.如权利要求27所述的方法，其特征在于，所述媒体文件是由媒体制作设备制作封装得到的，所述视频位流被封装到M个视频轨道后，得到每个视频轨道对应的视频资源，所述媒体文件包括所述M个视频轨道对应的视频资源；所述获取沉浸媒体的媒体文件中的目标视频轨道，包括：

与所述媒体制作设备建立流化传输；

29.一种沉浸媒体的处理装置，其特征在于，包括：

30.一种沉浸媒体的处理装置，其特征在于，包括：

31.一种媒体处理设备，包括输入接口和输出接口，其特征在于，还包括：

其中，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-26任一项所述的沉浸媒体的处理方法；或者，所述一条或多条指令适于由所述处理器加载并执行如权利要求27或28所述的沉浸媒体的处理方法。

32.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-26任一项所述的沉浸媒体的处理方法；或者，所述一条或多条指令适于由所述处理器加载并执行如权利要求27或28所述的沉浸媒体的处理方法。