CN116456166A

CN116456166A - 媒体数据的数据处理方法及相关设备

Info

Publication number: CN116456166A
Application number: CN202210024113.XA
Authority: CN
Inventors: 胡颖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2023-07-18
Also published as: US20240080487A1; WO2023130896A1

Abstract

本申请提出一种媒体数据的数据处理方法及相关设备，该媒体数据由N个媒体帧组成，N个媒体帧被封装到M个轨道，得到每个轨道对应的视频文件；且被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数。其中，该数据处理方法包括：获取媒体数据的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件；按照信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码。通过本申请，内容播放设备可以提前获取被允许进行组合解码的视频文件的组合限制信息，从而节省带宽。

Description

媒体数据的数据处理方法及相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种媒体数据的数据处理方法、一种媒体数据的数据处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。

背景技术

现有的沉浸媒体传输方案中，在多时域层级的媒体帧和多质量的媒体帧共存的场景中，在信令描述文件的封装层面，对信令描述文件内不同时域层级的轨道进行了约束，即为避免不同时域层级内不同质量的媒体帧之间进行组合解码的情况，支持属于同一轨道组内的不同时域层级的媒体帧进行组合解码。但现有技术所提供的这种约束仅在文件传输层面体现，由于无法提前获知不同时域层级内不同质量的媒体帧之间得组合限制，内容播放设备必须先请求所有时域层级和所有质量的媒体帧，将不可避免地造成带宽浪费。

发明内容

本申请实施例提供了一种媒体数据的数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品，内容播放设备可以提前获取被允许进行组合解码的视频文件的组合限制信息，从而节省带宽。

一方面，本申请实施例提供了一种媒体数据的数据处理方法，媒体数据由N个媒体帧组成，N个媒体帧被封装到M个轨道，得到每个轨道对应的视频文件；且被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数；该数据处理方法包括：

获取媒体数据的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件；

按照信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码。

一方面，本申请实施例提供了一种媒体数据的数据处理方法，该数据处理方法包括：

将媒体数据的N个媒体帧封装到M个轨道中，得到每个轨道对应的视频文件，其中，被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数；

根据封装过程生成媒体数据的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件。

一方面，本申请实施例提供了一种媒体数据的数据处理装置，媒体数据由N个媒体帧组成，N个媒体帧被封装到M个轨道，得到每个轨道对应的视频文件；且被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数；该数据处理装置包括：

获取单元，用于获取媒体数据的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件；

处理单元，用于按照信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码。

一方面，本申请实施例提供了一种媒体数据的数据处理装置，该数据处理装置包括：

封装单元，用于将媒体数据的N个媒体帧封装到M个轨道中，得到每个轨道对应的视频文件，其中，被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数；

处理单元，用于根据封装过程生成媒体数据的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件。

一方面，本申请实施例提供一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的媒体数据的数据处理方法。

一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的媒体数据的数据处理方法。

一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的媒体数据的数据处理方法。

本申请实施例中，支持内容制作设备对媒体数据的N个媒体帧封装到M个轨道中，得到每个轨道对应的视频文件，其中，被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧。然后内容制作设备根据将被允许进行组合解码的视频文件生成组合指示信息，并添加至信令描述文件中。内容播放设备在获取内容制作设备发送的信令描述文件后，可以根据信令描述文件所包括的组合指示信息，提前获知M个视频文件中被允许进行组合解码的视频文件。然后，内容播放设备可以按照组合指示信息所指示的被允许进行组合解码的视频文件中选择合适的视频文件进行消费解码。可见，内容播放设备可以提前获取被允许进行组合解码的视频文件的组合限制信息，然后可以根据组合限制信息请求相应的视频文件进行解码消费，从而达到了精准请求相应媒体帧的目的，无需请求所有的视频文件，可以节省传输带宽。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a示出了本申请一个示例性实施例提供的一种媒体数据系统的架构图；

图1b示出了本申请一个示例性实施例提供的一种视频处理的流程图；

图2a示出了本申请一个示例性实施例提供的6DoF的示意图；

图2b示出了本申请一个示例性实施例提供的3DoF的示意图；

图2c示出了本申请一个示例性实施例提供的3DoF+的示意图；

图2d示出了本申请一个示例性实施例提供的一种视频编码的流程框图；

图2e示出了本申请一个示例性实施例提供的一种输入图像划分示意图；

图3a示出了本申请一个示例性实施例提供的一种时域层级的划分示意图；

图3b示出了本申请一个示例性实施例提供的另一种时域层级的划分示意图；

图4示出了本申请一个示例性实施例提供的一种数据处理方法的流程图；

图5示出了本申请一个示例性实施例提供的另一种数据处理方法的流程图；

图6示出了本申请一个示例性实施例提供的一种数据处理装置的结构示意图；

图7示出了本申请一个示例性实施例提供的另一种数据处理装置的结构示意图；

图8示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

本申请实施例涉及媒体数据的数据处理技术。具体的，媒体数据可以包括沉浸媒体的数据或媒体内容。所谓沉浸媒体是指能够提供沉浸式的媒体内容，使沉浸于该媒体内容中的用户能够获得现实世界中视觉、听觉等感官体验的媒体文件。具体的，沉浸媒体可以是3DoF(Three Degrees of Freedom，三自由度)沉浸媒体，3DoF+沉浸媒体或者6DoF(SixDegrees of Freedom，六自由度)沉浸媒体。沉浸媒体内容包括以各种形式在三维(3-Dimension，3D)空间中表示的视频内容，例如以球面形式表示的三维视频内容。具体地，沉浸媒体内容可以是VR(Virtual Reality，虚拟现实)视频内容、全景视频内容、球面视频内容或360度视频内容；所以，沉浸媒体又可称为VR视频、全景视频、球面视频或360度视频。

本申请实施例中，沉浸媒体可以包括容积媒体(visual volumetric video-basedcoding media，V3C)，所谓V3C容积媒体是指捕获自三维空间视觉内容并提供3DoF+、6DoF观看体验的、以传统视频编码的、在文件封装中包含容积视频类型轨道的一种沉浸式媒体，包括多视角视频、视频编码点云(或称为点云媒体)等。其中，多视角视频也可称为多视点视频，具体是指：采用多组摄像机阵列，从多个角度拍摄的带有深度信息的视频。多视角/多视点视频也叫自由视角/自由视点视频，是一种提供六自由度体验的沉浸式媒体。另外，所谓点云媒体是指媒体内容包括点云数据的媒体文件，点云是指空间中一组无规则分布的、表达三维物体或场景的空间结构及表面属性的离散点集，点云中的每个点至少具有三维位置信息，根据应用场景的不同，还可能具有色彩、材质或其他信息。通常，点云中的每个点都具有相同数量的附加属性。

沉浸媒体可以包括视频数据和/或音频数据，其中，对沉浸媒体的制作和传输过程可如图1a所示，其中，在沉浸媒体的制作和传输过程中，如图1a所示的，主要涉及内容制作设备和内容播放设备，其中，该内容制作设备可以是指沉浸媒体的提供者(例如点云媒体的内容制作端)所使用的计算机设备，其还可被称为编码设备；该内容播放设备是指沉浸媒体的消费者(例如点云媒体的内容观看用户)所使用的计算机设备，其还可被称为解码设备。在一个实施例中，内容制作设备可以是终端(如PC(Personal Computer，个人计算机)、智能移动设备(如智能手机)等)或服务器等，而刚该内容播放设备则可以是终端、智能移动设备、VR设备(如VR头盔、VR眼镜等))、或者AR设备等。

其中，针对沉浸媒体的制作和传输一般具体包含如下的一个或多个阶段(或过程)：采集，编码，文件封装，文件传输，文件解封装，解码和最终的呈现。下面，结合图1b对该沉浸媒体为视频数据时的制作和传输流程进行说明，如图1b所示，针对视频数据的制作和传输过程具体包括以下一个或多个阶段：视频采集，视频编码，视频文件封装，视频文件传输，视频文件解封装，视频解码和最终的视频呈现。同样的，在该沉浸媒体为点云媒体时，针对该点云媒体的制作和传输流程也包括上述的一个或多个处理阶段。

在针对沉浸媒体的多个处理阶段中，采集，编码，文件封装，文件传输是由上述的内容制作设备执行的，而文件解封装，解码和最终的呈现则由内容播放设备来执行。下面，分别基于内容制作设备端所涉及的处理过程，以及基于内容播放设备所涉及的处理过程，对沉浸媒体的各处理阶段进行详细说明。

一、在内容制作设备所涉及的处理过程：

(1)沉浸媒体的获取过程。

沉浸媒体的媒体内容是通过捕获设备采集现实世界的声音-视觉场景获得的。在一个实施例中，捕获设备可以是指设于内容制作设备中的硬件组件，例如捕获设备是指终端的麦克风、摄像头以及传感器等等。在其他实施例中，该捕获设备也可以是独立与内容制作设备但与内容制作设备相连接的硬件装置，例如与服务器相连接的摄像头。该捕获设备可以包括但不限于：音频设备、摄像设备及传感设备。其中，音频设备可以包括音频传感器、麦克风等。摄像设备可以包括普通摄像头、立体摄像头、光场摄像头等。传感设备可以包括激光设备、雷达设备等。捕获设备的数据可以为多个，这些捕获设备可以被部署在现实空间中的一些特定视角以同时捕获该空间内不同视角的音频内容以及视频内容，捕获的音频内容和视频内容在时间和空间上均保持同步。举例来说，3DoF沉浸内容的媒体内容是由一组摄像机或一个带有多个摄像头和传感器的摄像设备录制的，6DoF沉浸媒体的媒体内容主要由相机阵列拍摄得到的点云、光场等形式的内容制作而成。

2)沉浸媒体的制作：

捕获到的音频内容本身就是适合被执行沉浸媒体的音频编码的内容，因此无需对捕获到的音频内容进行其他处理。而捕获到的视频内容需要进行一系列制作流程后才可以称为适合被执行沉浸媒体的视频编码的内容，该制作流程具体可以包括：

①拼接，由于捕获到的沉浸媒体的视频内容是捕获设备在不同视角下拍摄得到的，拼接就是指对这些各个视角拍摄的视频内容拼接成一个完整的、能够反映现实空间360度视觉全景的视频，即拼接后的视频是一个在三维空间表示的全景视频。

②投影，投影就是指将拼接形成的一个三维视频映射到一个二维(2-Dimension，2D)图像上的过程，投影形成的2D图像称为投影图像；投影的方式可包括但不限于：经纬图投影、正六面体投影。

需要说明的是，由于采用捕获设备只能捕获到全景视频，这样的视频经内容制作设备处理并传输至内容消费设备进行相应的数据处理后，内容消费设备侧的用户只能通过一些特定动作(如头部旋转)来观看360度的视频信息，而执行非特定动作(如移动头部)并不能获得相应的视频变化，VR体验不佳，因此需要额外提供与全景视频相匹配的深度信息，来使用户获得更优的沉浸度和更佳的VR体验，这就涉及多种制作技术，常见的制作技术包括6DoF制作技术、3DoF制作技术以及3DoF+制作技术。

图2a示出了本申请一个示例性实施例提供的6DoF的示意图；6DoF分为窗口6DoF、全方向6DoF和6DoF，其中，窗口6DoF是指用户在X轴、Y轴的旋转移动受限，以及在Z轴的平移受限；例如，用户不能够看到窗户框架外的景象，以及用户无法穿过窗户。全方向6DoF是指用户在X轴、Y轴和Z轴的旋转移动受限，例如，用户在受限的移动区域中不能自由的穿过三维的360度VR内容。6DoF是指用户可以沿着X轴、Y轴、Z轴自由平移，例如，用户可以在三维的360度VR内容中自由的走动。与6DoF相类似的，还有3DoF和3DoF+制作技术。图2b示出了本申请一个示例性实施例提供的3DoF的示意图；如图2b所示，3DoF是指用户在一个三维空间的中心点固定，用户头部沿着X轴、Y轴和Z轴旋转来观看媒体内容提供的画面。图2c示出了本申请一个示例性实施例提供的3DoF+的示意图，如图2c所示，3DoF+是指当沉浸媒体提供的虚拟场景具有一定的深度信息，用户头部可以基于3DoF在一个有限的空间内移动来观看媒体内容提供的画面。

(2)沉浸媒体的编码。

投影图像可以被直接进行编码，也可以对投影图像进行区域封装之后再进行编码。现代主流沉浸媒体编码技术，以国际沉浸媒体编码标准HEVC(High Efficiency VideoCoding),国际沉浸媒体编码标准VVC(Versatile Video Coding),以及中国国家沉浸媒体编码标准AVS(Audio Video Coding Standard)为例，采用了混合编码框架，对输入的原始沉浸媒体信号，进行了如下一系列的操作和处理。请参见图2d，图2d示出了本申请一个示例性实施例提供的一种沉浸媒体编码的流程框图。接下来，结合图2d对沉浸媒体编码过程进行详细介绍：

1)块划分结构(block partition structure)：根据处理单元的大小将输入图像(即沉浸媒体中的图像帧)划分成若干个不重叠的处理单元，对每个处理单元进行类似的压缩操作。这个处理单元被称作编码树单元(Coding Tree Unit，CTU)，或者最大编码单元(Largest Coding Unit，LCU)。CTU可以继续进行更加精细的划分，得到一个或多个基本编码的单元，称之为编码单元(Coding Unit，CU)。每个CU是一个编码环节中最基本的元素。图2e示出了本申请实施例提供的一种输入图像划分示意图。以下描述的是对每一个CU可能采用的各种编码方式。

2)预测编码(Predictive Coding)：包括了帧内预测和帧间预测等方式，原始沉浸媒体信号经过选定的已重建沉浸媒体信号的预测后，得到残差沉浸媒体信号。内容制作设备需要为当前CU决定在众多可能的预测编码模式中，选择最适合的一种，并告知内容播放设备。

a.帧内预测：预测的信号来自于同一图像内已经编码重建过的区域。

b.帧间预测：预测的信号来自已经编码过的，不同于当前图像的其他图像(称之为参考图像)。

3)变换编码及量化(Transform&Quantization)：残差沉浸媒体信号经过离散傅里叶变换(Discrete Fourier Transform，DFT)，离散余弦变换(Discrete CosineTransform，DCT)等变换操作，将信号转换到变换域中，称之为变换系数。在变换域中的信号，进一步的进行有损的量化操作，丢失掉一定的信息，使得量化后的信号有利于压缩表达。在一些沉浸媒体编码标准中，可能有多于一种变换方式可以选择，因此，内容制作设备也需要为当前编码CU选择其中的一种变换，并告知内容播放设备。量化的精细程度通常由量化参数(Quantization Parameter，QP)来决定，QP取值较大，表示更大取值范围的系数将被量化为同一个输出，因此通常会带来更大的失真，及较低的码率；相反，QP取值较小，表示较小取值范围的系数将被量化为同一个输出，因此通常会带来较小的失真，同时对应较高的码率。

4)熵编码(Entropy Coding)或统计编码：量化后的变换域信号，将根据各个值出现的频率，进行统计压缩编码，最后输出二值化(0或者1)的压缩码流。同时，编码产生其他信息，例如选择的模式，运动矢量等，也需要进行熵编码以降低码率。统计编码是一种无损编码方式，可以有效的降低表达同样的信号所需要的码率。常见的统计编码方式有变长编码(VLC，Variable Length Coding)或者基于上下文的二值化算术编码(CABAC，ContentAdaptive Binary Arithmetic Coding)。

5)环路滤波(Loop Filtering)：已经编码过的图像，经过反量化，反变换及预测补偿的操作(上述2～4的反向操作)，可获得重建的解码图像。重建图像与原始图像相比，由于存在量化的影响，部分信息与原始图像有所不同，产生失真(Distortion)。对重建图像进行滤波操作，例如去块效应滤波(deblocking)，取样自适应偏移(Sample Adaptive Offset，SAO)滤波器或者自适应环路滤波器(Adaptive Loop Filter，ALF)等，可以有效的降低量化所产生的失真程度。由于这些经过滤波后的重建图像，将作为后续编码图像的参考，用于对将来的信号进行预测，所以上述的滤波操作也被称为环路滤波，及在编码环路内的滤波操作。

举例来说，如图2d所示，图2d中以第k个CU(标记为S_K[x,y])为例进行举例说明，其中，k为大于等于1且小于等于输入的当前图像中的CU的数量的正整数，S_K[x,y]表示第k个CU中坐标为[x，y]的像素点，x表示像素点的横坐标，y表示像素点的中坐标，S_K[x,y]经过运动补偿或者帧内预测等中的一种较优处理后获得预测信号S_K[x,y]与/>相减得到残差信号U_K[x,y]，然后对该残差信号U_K[x,y]进行变换和量化，量化输出的数据由两个不同的去处：一是送个熵编码器进行熵编码，编码后的码流输出到一个缓冲器(buffer)中保存，等待传出去；另一个应用是进行反量化和反变换后，得到信号U_K'[x,y]。将信号U_K'[x,y]与/>相加得到新的预测信号S_K*[x,y]，并将S_K*[x,y]送到当前图像的缓冲器中保存。S_K*[x,y]经过帧内—图像预测获得f(S*k[x,y])，S_K*[x,y]经过环路滤波后获得S'k[x,y]，并将S'k[x,y]送至解码图像缓冲器中保存，以用于生成重建的媒体。S'k[x,y]经过运动—补偿预测后获得S'r[x+mx,y+my]，S'r[x+mx,y+my]表示参考块，mx和my分别表示运动矢量的水平和竖直分量。此处需要说明的是，如果采用6DoF(Six Degrees of Freedom，六自由度)制作技术(用户可以在模拟的场景中较自由的移动时，称为6DoF)，在编码过程中需要采用特定的编码方式(如点云编码)进行编码。

在针对沉浸媒体中的视频数据进行传输的技术中，通常采用流化传输技术来处理服务器和客户端之间的媒体资源传输。常见的媒体流化传输技术包括DASH(DynamicAdaptive Streaming over HTTP)，HLS(HTTP Live Streaming)，SMT(Smart MediaTransport)等技术。以DASH为例，DASH是一种自适应比特率流技术，使高质量流媒体可以通过传统的HTTP网络服务器以互联网传递。DASH会将内容分解成一系列小型的基于HTTP的文件片段，每个片段包含很短长度的可播放内容，而沉浸媒体的媒体内容总长度可能长达数小时(例如电影或体育赛事直播)，该媒体内容将被制成多种比特率的备选片段，以提供多种比特率的版本供选用。也即是说，在得到较高质量的沉浸媒体后，该沉浸媒体的媒体内容(如沉浸媒体的视频数据)将被制作成不同质量的媒体数据，以在后续使得内容播放设备可选择相应质量的媒体数据进行组合消费，如一个沉浸媒体的媒体内容可能被制作为两种比特率的备选片段，那么，由该沉浸媒体的媒体内容制作得到的媒体数据则包含两种比特率的各媒体帧。因此，当沉浸媒体被DASH客户端(即内容播放设备)请求播放时，客户端将根据当前网络条件自动选择下载和播放哪一个备选方案。客户端将选择可及时下载的最高比特率片段进行播放，从而避免播放卡顿或重新缓冲事件。也因如此，DASH客户端可以无缝适应不断变化的网络条件并提供高质量的播放体验，拥有更少的卡顿与重新缓冲发生率。

其中，DASH使用现有的HTTP网络服务器基础设施。它允许如互联网电视、电视机顶盒、台式电脑、智能手机、平板电脑等设备消费通过互联网传送的多媒体内容(如视频、电视、广播等)，并可应对变动的互联网接收条件。

(3)沉浸媒体文件的封装。

在对沉浸媒体进行编码后，则需要对编码后的数据流进行封装并传输给用户，沉浸媒体文件封装是指按照封装格式(或容器，或文件容器)，将已经编码压缩好的视频数据和音频按照一定的格式存放在一个文件容器(或轨道)中，常见的封装格式包括AVI格式(Audio Video Interleaved，音频视频交错格式)或者ISOBMFF(ISO Based Media FileFormat，基于ISO(International Standard Organization，国际标准化组织)标准的媒体文件格式)，其中，ISOBMFF是媒体文件的封装标准，最典型的ISOBMFF文件即MP4(MovingPicture Experts Group 4，动态图像专家组4)文件。可以理解，由于沉浸媒体的媒体内容在被制作成了不同质量的媒体数据，那么，内容制作设备在对不同质量的媒体数据进行封装时，将需要对不同质量的媒体数据所包含的媒体帧进行封装，从而得到相应的封装文件(或称为媒体文件资源)。其中，该封装文件可以是媒体文件或者媒体片段形成的沉浸媒体的媒体文件，并按照沉浸媒体的文件格式要求采用媒体呈现描述信息(Mediapresentation description，MPD)记录该沉浸媒体的媒体文件资源的元数据，此处的元数据是对于沉浸媒体的呈现有关的信息的总称，该元数据可以包括对封装的媒体帧的描述信息、对视窗的描述信息以及对呈现相关的信令信息等等。在一个实施例中，该封装文件中，以样本(sample)为文件封装过程中的封装单位，一个封装文件由多个样本组成。也就是说，在媒体文件的封装过程中，通常将一个媒体帧作为一个样本进行封装，从而生成封装文件。

在一个实施例中，采用媒体呈现描述信息记录的元数据也可称为信令描述文件，而由于在本申请实施例中封装到不同轨道中的媒体帧存在差异，从而也就使得由每个轨道封装媒体帧后得到的视频文件也存在差异，而在内容播放设备请求进行内容消费时，一般需要将相同质量的媒体帧进行组合消费，因此，为了便于内容播放设备进行组合消费，在本申请实施例中创意性地提出了内容制作设备信令描述文件中将添加相应组合指示信息，以便内容播放设备可基于该组合指示信息的指示对得到的视频文件中的一个或多个进行请求，并对请求的各视频文件进行组合解码。

二、在内容播放设备涉及的处理过程：

(1)沉浸媒体文件解封装过程。

内容播放设备在获取到由内容制作设备发送的信令描述文件(即媒体呈现描述信息)后，则可基于该信令描述文件中所包含的组合指示信息对不同视频文件进行请求及进行后续的组合解码。媒体帧被封装到不同轨道后所得到的媒体文件资源(即上述的视频文件)和媒体呈现描述信息均通过传输机制(如DASH、SMT)由内容制作设备传输给内容播放设备，内容播放设备端的文件解封装的过程与内容制作设备端的文件封装过程是相逆的，内容播放设备按照媒体的文件格式要求对媒体文件资源进行解封装，得到沉浸媒体的解码码流。

(2)沉浸媒体解码和呈现过程。

内容播放设备端的解码过程与内容制作设备端的编码过程是相逆的，内容播放设备对音频码流进行音频解码，还原出音频内容。另外，内容播放设备对沉浸媒体码流的解码过程包括如下：①对沉浸媒体码流进行解码，得到平面的投影图像。②根据媒体呈现描述信息将投影图像进行重建处理以转换为3D图像，此处的重建处理是指将二维的投影图像重新投影至3D空间中的处理。

根据上述编码过程可以看出，在内容播放设备端，对于每一个CU，内容播放设备获得压缩码流后，先进行熵解码，获得各种模式信息及量化后的变换系数。各个系数经过反量化及反变换，得到残差信号。另一方面，根据已知的编码模式信息，可获得该CU对应的预测信号，两者相加之后，即可得到重建信号。最后，解码图像的重建值，需要经过环路滤波的操作，产生最终的输出信号。其中，该解码过程即是对从不同轨道中获取的编码后的媒体帧进行解码，并在解码后进行最终的渲染呈现。

在视频编码技术中，还涉及一种时域分层技术，该技术可将不同的视频帧按照解码时的依赖关系，划分为不同的时域层级，具体来说，采用该时域分层技术进行时域层级的划分，被划分为低层级的视频帧，在解码时无需参考更高层级的视频帧。请参见图3a，图3a示出了本申请一个示例性实施例提供的一种时域层级的划分示意图。如图3a所示，箭头表示解码时的依赖关系，从I0帧至B1帧的箭头表示B1帧在解码时需要参考I0帧进行解码，即B1帧的解码必须依赖I0帧的解码进行，其余帧之间的关系以此类推。由图3a中箭头指示的帧间依赖关系可知，所有视频帧根据帧间依赖关系被划分为L0～L3四个时域层级，属于每个时域层级的视频帧在解码时都不依赖更高层级的视频帧。其中，需要说明的是，本申请实施例所提及的时域层级的低和高是一个相对的概念，如图3a中确定的L0～L3这四个时域层级，对于L0时域层级而言，L1～L3均为高时域层级，而对于L1时域层级而言，L3时域层级为L1的高时域层级，而L0时域层级则为L1的低时域层级。如图3a所示，视频帧的类型主要包括I帧(Intra Slice，帧内条带)、B帧和P帧，其中，I帧也被称为关键帧，属于帧内压缩，在解码时仅需参考I帧其本身的信息即可，B帧为双向预测编码帧，在解码时即需要参考前面已有的帧，又需要参考后面待解码的帧，而P帧为前向预测编码帧，即P帧在解码时需要参考前面相关帧的信息才能解码，而在图3a中针对I帧、B帧和P帧下添加的阿拉伯数字下标用于表示其各自所处的对应的时域层级。可以理解，基于I帧、P帧和B帧这三类视频帧在解码时的特性，由于要使得进行时域层级划分后，属于各时域层级的视频帧中，属于低时域层级的视频帧在进行解码时不依赖高时域层级，那么也就可以理解，最低时域层级(如上述的L0时域层级)中的视频帧在解码时，将不依赖于属于其他任何时域层级的，也即属于最低时域层级的视频帧可进行独立解码显示，那么，被划分到最低时域层级的视频帧必然包括I帧。

由于在对视频帧进行时域层级划分时，属于低时域层级的视频帧在解码时无需参考高时域层级的视频帧，如图3a所示，假设沉浸媒体中的视频帧一个包括L0～L3这四个时域层级，且图3a中的箭头用于表示各视频帧在解码时的依赖关系，也就是说，从I0帧至B1帧的箭头表示，处于L1时域层级的B1帧在解码时需要参考处于L0时域层级的I0帧，处于L1时域层级的B1帧在解码时需要参考处于L0时域层级的P0帧，处于L2时域层级的第一个B2帧在解码时需要参考处于L0时域层级的I0帧，以及处于L1时域层级的B1帧，处于L2时域层级的第二个B2帧在解码时需要参考处于L1时域层级的B1帧，以及处于L0时域层级的P0帧，处于L3时域层级的第一个B3帧在解码时需要参考处于L2时域层级的第一个B2帧，以及处于L0时域层级的I0帧，处于L3时域层级的第二个B3帧在解码时需要参考处于L2时域层级的第一个B2帧，以及处于L1时域层级的B1帧，处于L3时域层级的第三个B3帧在解码时需要参考处于L1时域层级的B1帧，以及处于L2时域层级的第二个B2帧，处于L3时域层级的第四个B3帧在解码时需要参考处于L2时域层级的第二个B2帧，以及处于L0时域层级的P0帧。

本申请实施例中所提及的将沉浸媒体的媒体内容制作成不同质量的媒体数据，并将不同质量的媒体数据包含的媒体帧进行多轨封装，生成相应的封装文件，以及为针对媒体数据的封装过程生成的信令描述文件中添加相应的组合指示信息的过程主要是针对作为点云媒体的沉浸媒体，但是，针对普通的视频媒体数据也是同样适用的。下面，主要以针对点云媒体的制作封装和传输消费的过程进行说明。另外，需要说明的是，在将媒体数据封装到不同轨道后，将得到每个轨道对应的视频文件(representation)，其中，得到的视频文件也可称为传输流或媒体资源。

和对普通视频中针对视频帧的时域层级划分类似的，针对点云媒体而言，也存在类似于上述所提及的时域分层技术。本申请实施例中，针对点云媒体而言，同样可以为点云媒体所包括的媒体帧划分不同的时域层级，并将不同的时域层级封装到不同的轨道中。请参见图3b，图3b示出了本申请一个示例性实施例提供的另一种时域层级的划分示意图。如图3b所示，在点云媒体中，假设该点云媒体包括12个媒体帧(Frame1、Frame2、Frame3、...、Frame12)。然后，可以将这12个媒体帧按照时间维度进行时域层级的划分，例如，可以将时间间隔为T0的Frame1、Frame3、Frame5、Frame7、Frame9、Frame11这六个媒体帧划分至L0(Temporal Level 0)时域层级中；将时间间隔为T1的Frame2、Frame6、Frame10这三个媒体帧划分至L1(Temporal Level 1)时域层级中；将时间间隔为T1Frame4、Frame8、Frame12这三个媒体帧划分至L2(Temporal Level 2)时域层级中。其中，T0代表L0时域层级中任意两个相邻的媒体帧之间的表示时间差，例如T0可以代表Frame1和Frame3之间的表示时间差，T0也可以代表Frame3和Frame5之间的表示时间差，等等。另外，T1代表L1时域层级中任意两个相邻的媒体帧之间的表示时间差，例如T1可以代表Frame2和Frame6之间的表示时间差，T1也可以代表Frame6和Frame10之间的表示时间差，等等。当然，T1还可以代表L2时域层级中任意两个相邻的媒体帧之间的表示时间差，例如T1可以代表Frame4和Frame8之间的表示时间差，T1也可以代表Frame8和Frame12之间的表示时间差，等等。

针对点云媒体而言，还涉及一种PCC(Point Cloud Compression，点云压缩)技术。点云压缩技术具体又可以分为G-PCC(Geometry-based Point Cloud Compression，基于几何模型的点云压缩)技术和(V-PCC：Video-based Point Cloud Compression，基于传统视频编码的点云压缩)技术。

在一个实施例中，由于只有质量合适(即质量相同)的媒体帧组合能被用户消费，但由于对点云媒体的媒体内容的压缩和编码手段，将得到包含不同质量媒体帧的媒体数据，因此，为了使内容播放设备提前获知不同时域层级内不同质量的媒体帧之间的组合限制，内容制作设备可在封装不同质量的媒体帧时，在生成的相应信令描述文件中添加针对不同视频文件的组合指示信息，以避免内容播放设备提前请求所有时域层级和所有质量的媒体帧，从而达到精准请求合适的媒体帧组合并消费的目的，实现对内容播放设备的带宽的有效节省。其中，内容制作设备在定义和指示不同时域层级的媒体帧在进行组合消费时，如何选择特定质量的媒体帧组合的策略时的具体实施步骤如下：

1、内容制作设备根据由沉浸媒体制作得到的媒体数据对应封装文件的结构、以及各轨道中封装的媒体帧后得到的视频文件中的时域层级信息和质量信息，将封装文件以视频流(即一个或多个视频文件(representation))的形式进行组织并生成相应的信令描述文件。并在信令描述文件中根据视频文件中的时域层级信息和质量信息，指示生成多个的视频文件的组合指示信息。

2、内容制作设备将信令描述文件发送给内容播放设备。

3、内容制作设备获取到信令描述文件之后，根据自身的需求、网络条件或解码能力，结合信令描述文件中的时域层级信息、质量信息以及组合指示信息，请求合适的视频文件并解码消费。

为支持上述步骤，本申请实施例在系统层通过添加若干描述性字段来实现在信令描述信息中添加相应的组合指示信息，该扩展包括信令描述文件层面的字段扩展，以支持本申请的相关的具体实施步骤。请参见图4，图4示出了本申请一个示例性实施例提供的一种媒体数据的数据处理方法的流程图；该方法可由媒体数据系统中的内容播放设备(又称为解码设备)来执行，可以理解，该内容播放设备包括对沉浸媒体内容进行消费的用户所在的终端设备(或客户端)，该方法包括以下步骤S401-S402：

S401：获取媒体数据的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件。

本申请实施例中，媒体数据由N个媒体帧组成，N个媒体帧被封装到M个轨道，其中，N个媒体帧被封装到M个轨道后可得到每个轨道对应的视频文件，且被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数。具体来说，N个媒体帧是由沉浸媒体制作得到的质量不同的多个媒体帧，如可通过对点云媒体采用G-PCC压缩得到不同质量的媒体帧，具体可分别采用两种不同的码率对点云媒体进行压缩，从而得到包含两种质量的媒体帧的媒体数据，也就是说，通过对点云媒体采用G-PCC压缩得到的媒体帧的质量分别可以是质量1、质量2或者质量3等。而在对不同质量的媒体帧进行封装时，为了避免在同一轨道中封装不同质量的媒体帧，从而使得到的视频文件中出现不同质量的媒体帧而导致后续组合解码出错，所以，内容制作设备一般会将相同质量的媒体帧分别封装到多个不同的轨道中，而不同质量的媒体帧一般被封装到不同的不同轨道中，如内容制作设备可将质量1的多个媒体帧分别封装到两个不同的轨道，并将质量2的多个媒体帧分别封装到两个不同的轨道。在一个实施例中，内容制作设备在对媒体数据进行封装时，同时也将基于各媒体帧所属的时域层级，将属于不同时域层级的媒体帧封装到不同的轨道中。

在一个实施例中，内容制作设备基于对不同质量的媒体帧的封装过程，会得到每个轨道对应的视频文件，并将生成相应的信令描述文件，那么，内容播放设备获取到的媒体数据的信令描述文件也即是内容制作设备基于对媒体数据进行封装后生成，并通过DASH传输协议所接收到的。其中，信令描述文件包括组合指示信息，组合指示信息用于指示封装得到的M个视频文件中被允许进行组合解码的视频文件。那么，通过这种方式，内容播放设备在获取到信令描述文件之后，可以按照信令描述文件中的组合指示信息，并基于自身的需求、网络条件或者解码能力，按照组合指示信息的指示，从M个视频文件中请求一个或多个视频文件进行解码消费。

在一种可能的实现方式中，该N个媒体帧被划分为多个时域层级，一个时域层级中包含一个或多个媒体帧；一个轨道封装相应媒体帧后得到对应的一个视频文件(representation)，一个视频文件中包含一个或多个时域层级的媒体帧。组合指示信息包含时域层级组合描述子，时域层级组合描述子用于定义不同时域层级的视频文件之间允许的组合方式。

假设N个媒体帧分别表示为：f1、f2、f3、...、f12。其中，f1～f6可以为质量1的媒体帧；f7～f12可以与f1～f6分别对应的内容相同但质量不同(为质量2)的媒体帧。那么，f1、f3、f5对应的时域层级可以为L1；f2、f4、f6对应的时域层级可以为L2。f7、f9、f11对应的时域层级可以为L3；f8、f10、f12对应的时域层级可以为L4。假设将L1封装至轨道1(track1)中，将L2封装至轨道3(track3中，将L3封装至轨道2(track2)中，以及将L4封装至轨道4(track4)中。那么，track1中封装媒体帧后得到的视频文件可以表示为representation1，track2中封装媒体帧后得到的视频文件可以表示为representation2，track中封装媒体帧后得到的视频文件可以表示为representation3，track4中封装媒体帧后得到的视频文件可以表示为representation4。

本申请实施例中，信令描述文件可以为用于描述媒体片段信息的描述文件(MPD信令)。以扩展现有DASH信令描述文件的形式举例，定义了视频文件的组合指示信息方法，组合指示信息包含时域层级组合描述子。接下来，对时域层级组合描述子进行相应说明。

(1)定义新的时域层级组合描述子：

一个@schemeIdUri属性值为"urn：mpeg：mpegI：gpcc：2020：temporalLevelCombination"的SupplementalProperty元素表示一个时域层级组合描述子。该时域层级组合描述子用于定义不同时域层级的representation(视频文件)之间允许的组合方式。

可以理解的是，在DASH信令描述文件中，可以通过MPD信令来描述媒体片段信息，且DASH信令描述文件中，一个DASH信令描述文件可包含一个或多个Adaptation Set。那么，一个MPD信令中可以存在一个或多个时域层级组合描述子。

在一种可能的实现方式中，一个轨道对应一个时域层级组合描述子，时域层级组合描述子包含组合标识元素。其中，组合标识元素的取值用于指示允许进行组合解码的视频文件。接下来，该时域层级组合描述子的语法和语义可以如表1所示：

表1.时域层级组合描述子的语法和语义

其中，如表1所示，时域层级组合描述子所包括的组合标识元素可以为已有描述子中的元素。例如，现有的时域层级组合描述子中的元素可包括“TemporalLevelCombination”，那么，本申请实施例中所提及的组合标识元素可以为已有描述子中的元素“TemporalLevelCombination@id”。并且，组合标识元素的取值(id)用于指示允许进行组合解码的视频文件。在一种可能的实现方式中，组合标识元素的取值可以等于视频文件的标识。例如，TemporalLevelCombination@id＝1，则表示允许进行组合解码的视频文件为representation1；又如，TemporalLevelCombination@id＝2，则表示允许进行组合解码的视频文件为representation2，等等。

(2)扩展现有描述子：

在另一种可能的实现方式中，时域层级组合描述子所包括的组合标识元素还可以为新增的时域层级组合描述子中的元素。接下来，现有的组合标识元素的相关定义如下所示：

A SupplementalProperty element with a@schemeIdUri attribute equal to"urn:mpeg:mpegI:gpcc:2020:temporallevelIds"is referred to asGPCCTemporalLevelId descriptor.//一个@schemeIdUri属性值为"urn：mpeg：mpegI：gpcc：2020：temporalLevelCombination"的SupplementalProperty元素表示一个时域层级组合描述子。

A GPCCTemporalLevelId descriptor is used to identify the differenttemporal levels present in a Representation of a G-PCC content.//时域层级标识(即TemporalLevelId)描述子用于标识视频文件中包含媒体帧的不同时域层级。

At most one GPCCTemporalLevelId descriptor shall be present at theRepresentation level for the G-PCC media when the G-PCC media is stored inmultiple temporal level tracks.//当压缩得到的媒体数据被采用多时域层级轨道封装时，一个轨道封装得到的视频文件必须对应一个时域层级标识描述子。

At most one GPCCTemporalLevelId descriptor may be present at theRepresentation level for the G-PCC media when the G-PCC component mediasamples are divided into multiple temporal levels and all temporal levelsamples are stored in a single temporal level track.///当压缩得到的媒体数据被的多时域层级采用单轨封装时，该轨道封装得到的视频文件可以对应一个时域层级标识描述子。

The GPCCTemporalLevelId descriptor shall not be present at theRepresentation level when the G-PCC media samples are not divided based ontemporal levels.//当压缩得到的媒体数据未进行多时域层级的划分，则轨道封装得到的视频文件不应对应时域层级标识描述子。

The@value attribute of the GPCCTemporalLevelId descriptor shall notbe present.//时域层级标识描述子的属性不应有@value的属性。

那么，针对组合标识元素为已有的时域层级组合描述子中的元素而言，该时域层级组合描述子的语法和语义可以如表2所示：

表2.时域层级组合描述子的语法和语义

/>

其中，如表2所示，时域层级组合描述子所包括的组合标识元素可以为新增的时域层级组合描述子中的元素“GPCCTemporalLevelId@combinationId”。可以理解的是，在时域层级组合描述子中新增元素的位置可以自定义设置，本申请实施例并不对新增元素的位置进行具体限定，例如，可以将新增元素的位置确定为文本开头位置处、结束位置处、或者文中任意位置处等等。同样地，组合标识元素的取值用于指示允许进行组合解码的视频文件。在一种可能的实现方式中，组合标识元素的取值可以等于视频文件的标识。例如，TemporalLevelCombination@id＝1，则表示允许进行组合解码的视频文件为representation1；又如，TemporalLevelCombination@id＝2，则表示允许进行组合解码的视频文件为representation2，等等。

在一种可能的实现方式中，时域层级组合描述子被封装在信令描述文件的自适应层级(Adaptation Set)中；或者，时域层级组合描述子被封装在信令描述文件的表示层级(Representation)中；或者，时域层级组合描述子被封装在信令描述文件的前置层级(Preselection)中。也就是说，时域层级组合描述子可用于描述Representation、AdaptationSet或者Preselection级别的媒体资源。其中，AdaptationSet可以包括一个或多个representation，Preselection同样可以包括一个或多个Preselection。那么，当该时域层级组合描述子用于描述AdaptationSet或者Preselection级别的媒体资源时，意味着AdaptationSet或者Preselection级别内所有representation均对应同一个TemporalLevelCombination@id；或者，AdaptationSet或者Preselection级别内所有representation均对应同一个GPCCTemporalLevelId@combinationId。

需要说明的是，组合指示信息中除了定义上述所提及的时域层级组合描述子(即包括组合标识元素为已有描述子中的元素、以及扩展时域层级组合描述子中的元素)之外，可选的，本申请实施例还提供了以下三种方式实现组合指示信息的生成。

(3)在标准中以文本形式进行相关约束：

在一种可能的实现方式中，当媒体数据以多个时域层级轨道存储，且任一时域层级轨道均存在可替换轨道时，任一时域层级轨道按照目标约束规则产生对应的可替换轨道。那么，M个轨道可以包括多个时域层级轨道，以及对应的可替换轨道。一个轨道封装相应媒体帧后得到对应的一个视频文件。多个时域层级轨道对应的视频文件中的媒体帧的质量相同，多个时域层级轨道对应的视频文件中的媒体帧的质量，及相应的可替换轨道对应视频文件中的媒体帧的质量不同。

举例来说，假设媒体数据以时域层级轨道track1和track2进行存储，并且track1存在可替换轨道track1’，track2存在可替换轨道track2’。其中，可替换轨道track1’和track2’均是按照目标约束规则所产生的，意思是说，若时域层级轨道track1中对应的视频文件中的媒体帧的质量为高质量，track1对应的可替换轨道track1’中对应的视频文件中的媒体帧的质量为低质量；那么，时域层级轨道track2中对应的视频文件中的媒体帧的质量为高质量，track2对应的可替换轨道track2’中对应的视频文件中的媒体帧的质量同样为低质量。

需要说明的是，所谓的高质量和低质量是一个相对的概念，在一种可能的实现方式中，媒体帧的质量的高低可以根据分辨率来确定，例如可以由用户自定义设置一个分辨率阈值，若媒体帧f1的分辨率大于该分辨率阈值，则该媒体帧f1为高质量的媒体帧；若媒体帧f2的分辨率小于或者等于该分辨率阈值，则该媒体帧f2为低质量的媒体帧。

在另一种可能的实现方式中，针对点云媒体而言，媒体帧的质量的高低可以根据点云的成分(例如可以包括属性成分和几何成分)来确定。其中，属性成分可以包括但不限于颜色(Red，Green，Blue)属性；几何成分可以包括但不限于位置(x，y，z)信息。例如点云媒体的媒体帧f1的属性成分为属性1，点云媒体的媒体帧f2的属性成分为属性2，那么，媒体帧f1和媒体帧f2即为不同质量的两个媒体帧；又如，点云媒体的媒体帧f3的几何成分为几何1，点云媒体的媒体帧f4的几何成分为几何2，那么，媒体帧f3和媒体帧f4即为不同质量的两个媒体帧；还如，点云媒体的媒体帧f5的几何成分为几何1，点云媒体的媒体帧f6的属性成分为属性1，那么，媒体帧f5和媒体帧f6同样为不同质量的两个媒体帧。

可以理解的是，时域层级轨道track1对应的视频文件中的媒体帧，与可替换轨道track1’中对应的视频文件中的媒体帧，除了质量不相同，其它内容均相同。同理，时域层级轨道track2对应的视频文件中的媒体帧，与可替换轨道track2’中对应的视频文件中的媒体帧，除了质量不相同，其它内容均相同。

在一种可能的实现方式中，组合指示信息包含每个视频文件的质量标识；质量标识的取值用于指示一个视频文件中包含的媒体帧的质量。其中，包含相同取值的质量标识的视频文件被允许进行组合解码。例如，质量标识可以表示为@quality Ranking，那么，@quality Ranking＝1可以表示质量1，@quality Ranking＝2可以表示质量2；@qualityRanking＝3可以表示质量3，等等。若representation1所包括的质量标识@qualityRanking＝1，representation2所包括的质量标识@quality Ranking＝1，则representation1和representation2被允许进行组合解码；若representation1所包括的质量标识@quality Ranking＝1，representation2所包括的质量标识@quality Ranking＝2，则representation1和representation2不被允许进行组合解码。

(4)使用associationId(即关联标识)关联不同的representation：

在一种可能的实现方式中，时域层级轨道和可替换轨道分别对应一个可替换等级，相同可替换等级的轨道为一个轨道组。组合指示信息包含关联标识和关联类型标识。第i轨道对应视频文件对应的关联标识的取值，是由与第i个轨道具有相同可替换等级的轨道对应的视频文件的文件标识确定的，关联类型标识的取值用于指示相应视频文件之间的关系类型；其中，第i轨道对应视频文件对应关联类型标识的取值为第i轨道所在轨道组类型，i为正整数且i≤M。

举例来说，假设媒体数据以时域层级轨道track1和track2进行存储，并且track1存在可替换轨道track1’，track2存在可替换轨道track2’。并且，时域层级轨道track1和track2对应的可替换等级为等级1，可替换轨道track1’和track2’对应的可替换等级为等级2。那么，时域层级轨道track1和track2可以属于轨道组1(track group 1)，可替换轨道track1’和track2’可以属于轨道组2(track group 2)。时域层级轨道track1对应的视频文件可以表示为representation1，时域层级轨道track2对应的视频文件可以表示为representation2，可替换轨道track1’对应的视频文件可以表示为representation3，可替换轨道track2’对应的视频文件可以表示为representation4。例如，时域层级轨道track1对应的representation1的associationId的取值为representation2的文件标识，即representation1中的associationId＝2；以及，时域层级轨道track2对应的representation2的associationId的取值为representation1的文件标识，即representation2中的associationId＝1。又如，可替换轨道track1’对应的representation3的associationId的取值为representation4的文件标识，即representation3中的associationId＝4；以及，可替换轨道track2’对应的representation4的associationId的取值为representation3的文件标识，即representation4中的associationId＝3。通过这种方式，就可以利用associationId将包括相同质量的媒体帧的视频文件关联起来，即将representation1和representation2关联起来，以及将representation3和representation4关联起来。

可以理解的是，第i轨道对应视频文件中的媒体帧，以及第i轨道对应关联标识指示的视频文件对应的媒体帧被允许进行组合解码。具体来说，由前述可知，通过associationId可以关联不同的representation，例如将representation1和representation2关联起来，那么，representation1中的媒体帧和representation2中的媒体帧被允许进行组合解码；又如将representation3和representation4关联起来，那么，representation3中的媒体帧和representation4中的媒体帧被允许进行组合解码。

(5)使用Preselection工具定义新的Preselection(预选文件)：

在一种可能的实现方式中，时域层级轨道和可替换轨道分别对应一个可替换等级，且具有相同可替换等级的轨道对应的视频文件构成一个预选文件。信令描述文件还包括预选描述子，预选描述子包含一个预选文件中的每个视频文件的文件标识。

举例来说，假设媒体数据以时域层级轨道track1和track2进行存储，并且track1存在可替换轨道track1’，track2存在可替换轨道track2’。并且，时域层级轨道track1和track2对应的可替换等级为等级1，可替换轨道track1’和track2’对应的可替换等级为等级2。并且，时域层级轨道track1对应的视频文件可以为representation1，时域层级轨道track2对应的视频文件可以为representation2，可替换轨道track1’对应的视频文件可以为representation3，可替换轨道track2’对应的视频文件可以为representation4。那么，representation1和representation2可以构成一个预选文件Preselection1，该预选文件Preselection1对应的预选描述子可以包括1和2(或Preselection1和Preselection2)。同样的，representation3和representation4也可以构成一个预选文件Preselection2，该预选文件Preselection2对应的预选描述子可以包括3和4(或Preselection3和Preselection4)。

可以理解的是，被记录在预选描述子中的文件标识对应的预选文件中的媒体帧被允许进行组合解码。例如，representation1所包括的媒体帧和representation2所包括的媒体帧被允许进行组合解码；representation3所包括的媒体帧和representation4所包括的媒体帧被允许进行组合解码。

本申请实施例中，信令描述文件还可以为智能媒体传输信令文件(SMT信令文件)。当一个或多个媒体帧封装到一个轨道后，得到一个相应的资源文件。组合指示信息包括时域层级组合资源描述符，一个资源文件与一个时域层级组合资源描述符对应，一个时域层级组合资源描述符的取值为相应资源文件的文件标识。可以理解的是，相同取值的时域层级组合资源描述符对应的资源文件中的媒体帧被允许进行组合解码。

具体来说，时域层级组合资源描述符的语法和语义可以如表3所示：

表3.时域层级组合资源描述符的语法和语义

/>

如上表3所示，descriptor_tag是该时域层级组合资源描述符的标识符，用于标志descriptor的类型；descriptor_length用于指示该时域层级组合资源描述符的标识符的长度，单位为字节。combination_id：时域层级组合标识符，当内容播放设备需要组合多个对应不同时域层级的媒体帧时，仅能从包含相同combination_id的视频文件集合中选择一个或多个representation进行请求。

S402：按照信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码。

具体来说，内容播放设备可以根据信令描述文件包括的时域层级组合描述子中组合标识元素的取值，从M个视频文件中请求一个或多个视频文件，并对请求的视频文件进行组合解码。其中，进行解码的视频文件对应的时域层级组合描述子中的组合标识元素的取值相同。其中，信令描述文件可以包括但不限于：MPD信令文件、SMT信令文件。

举例来说，在组合指示信息为时域层级组合描述子时，内容播放设备所接收到的信令描述文件可以包括如下信息：

Representation1：{@temporalLevelId＝1；@qualityRanking＝0；@combinationId＝100}

Representation2：{@temporalLevelId＝1；@qualityRanking＝1；@combinationId＝200}

Representation3：{@temporalLevelId＝2；@qualityRanking＝0；@combinationId＝100}

Representation4：{@temporalLevelId＝2；@qualityRanking＝1；@combinationId＝200}

由上述可知，该信令描述文件中，每个视频文件中的@temporalLevelId用于指示媒体帧的时域层级信息，例如@temporalLevelId＝1，则对应的视频文件中的媒体帧所属的时域层级可以为L1，又如@temporalLevelId＝2，则对应的视频文件中的媒体帧所属的时域层级可以为L2。可以理解的是，每个Representation中可以包括一个或多个时域层级的媒体帧。

每个视频文件中的@qualityRanking用于指示媒体帧的质量信息，例如@qualityRanking＝0，则该视频文件中的媒体帧所对应的质量等级可以为质量0，又如@qualityRanking＝1，则该视频文件中的媒体帧所对应的质量等级可以为质量1。

当然，每个视频文件中的@combinationId是指时域层级组合描述子的组合标识元素。其中，具有相同的@combinationId的视频文件中的媒体帧允许被组合解码。例如，Representation1对应的@combinationId＝100，该信令描述文件中，Representation3对应的@combinationId＝100，因此Representation1和Representation3允许进行组合解码。又如，Representation2对应的@combinationId＝200，该信令描述文件中，Representation4对应的@combinationId＝200，因此Representation2和Representation4允许进行组合解码。

在一种可能的实现方式中，内容播放设备可以根据自身的需求、网络条件或解码能力，按照信令描述文件对一个或多个视频文件进行请求，并对所请求的视频文件进行组合解码。通过上述分析可知，内容播放设备在获取到信令描述文件之后，根据信令描述文件中的组合指示信息(时域层级组合描述子的组合标识元素)，确定被允许进行组合解码的视频文件可以为：Representation1+Representation3；或者Representation2+Representation4。在一个实施例中，若内容播放设备所处的网络条件较好，或者解码能力较强，则可以解码更高质量等级的媒体帧(假设质量1相比于质量0而言，质量更高)，那么，内容播放设备可以请求Representation2+Representation4进行组合解码；若内容播放设备所处的网络条件较差，或者解码能力较弱，则允许解码低质量等级的媒体帧，那么，内容播放设备可以请求Representation1+Representation3进行组合解码。通过这种方式，支持内容播放设备在获取到信令描述文件后，按照信令描述文件中的组合指示信息提前获知被允许进行组合解码的视频文件，从而达到精准请求合适的媒体帧的目的，节省了传输带宽，并提高数据处理的效率。

当在标准中以文本形式对封装的轨道和相应的可替换轨道进行相关约束时，在第一种情况下，内容播放设备所接收到的信令描述文件可以包括如下信息：

Representation1：{@temporalLevelId＝1；@qualityRanking＝0}

Representation2：{@temporalLevelId＝1；@qualityRanking＝1}

Representation3：{@temporalLevelId＝2；@qualityRanking＝0}

Representation4：{@temporalLevelId＝2；@qualityRanking＝1}

在这种情况下，由于Representation1对应轨道和Representation3对应轨道互为可替换轨道，所以，内容播放设备可基于质量标识(@qualityRanking)确定组合解码的视频文件，即内容播放设备可将对应质量标识均为0的Representation1和Representation3进行组合解码，或者，也可将对应质量标识均为1的Representation2和Representation4进行组合解码。

在第二种情况下，内容播放设备所接收到的信令描述文件可以包括如下信息：

Representation1：{@temporalLevelId＝1；@qualityRanking＝0；@associationId＝3；@associationType＝'gtsg'}

Representation2：{@temporalLevelId＝1；@qualityRanking＝1；@associationId＝4；@associationType＝'xxx'}

Representation3：{@temporalLevelId＝2；@qualityRanking＝0；@associationId＝1；@associationType＝'gtsg'}

Representation4：{@temporalLevelId＝2；@qualityRanking＝1；@associationId＝2；@associationType＝'xxx'}

那么，内容播放设备可基于质量标识(@qualityRanking)确定组合解码的视频文件，即内容播放设备可将Representation1中包含的@associationId的取值，确定将Representation1和Representation3进行组合解码等等。

而在第三种情况下，内容播放设备所接收到的预选描述子例如可直接记录Representation1和Representation3的标识，或者Representation2和Representation4的标识，从而使得内容播放设备基于该预选描述子确定将Representation1和Representation3进行组合解码，或者，将Representation2和Representation4进行组合解码。

请参见图5，图5示出了本申请一个示例性实施例提供的另一种媒体数据的数据处理方法的流程图。该方法可以由上述所提及的内容制作设备(又称为编码设备)来执行。该内容制作设备具体可以是服务器，或者也可以是终端设备。其中，该服务器可以是独立的服务器，也可以是多个服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务和人工智能平台等基础云计算服务的云服务器。如图5所示，该方法包括以下步骤S501-S502：

S501：将媒体数据的N个媒体帧封装到M个轨道中，得到每个轨道对应的视频文件，其中，被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数。

S502：根据封装过程生成媒体数据的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件。

本申请实施例中，N个媒体帧可以是由质量不同的多个媒体帧组成。针对点云媒体而言，其对应的媒体帧的质量不同可以表现在媒体帧的成分不同，点云媒体的媒体帧的成分具体可以包括属性成分和几何成分。那么，针对任意两个媒体帧(假设为Frame1和Frame2)，Frame1和Frame2的质量不同可以包括但不限于：①Frame1的属性成分与Frame2的属性成分不同，例如Frame1对应的属性成分为属性1，Frame2对应的属性成分为属性2；②Frame1的几何成分与Frame2的几何成分不同，例如Frame1对应的几何成分为几何1，Frame2对应的几何成分为几何2；③Frame1的几何成分、属性成分与Frame2的几何成分、属性成分均不同，例如Frame1对应的几何成分为几何1、属性成分为属性1，Frame2对应的几何成分为几何2、属性成分为属性2。

在对不同质量的媒体帧进行封装时，N个媒体帧被划分为多个时域层级，一个时域层级包含一个或多个媒体帧；一个轨道封装相应媒体帧后得到对应的一个视频文件，一个视频文件中包含一个或多个时域层级的媒体帧；那么内容制作设备在根据封装过程生成媒体数据的信令描述文件时，会将时域层级组合描述子添加到信令描述文件中，时域层级组合描述子为信令描述文件中的组合指示信息，时域层级组合描述子用于定义不同时域层级的视频文件之间允许的组合方式。其中，内容制作设备在将将时域层级组合描述子添加到信令描述文件中时，会在信令描述文件中为一个视频文件添加一个对应的时域层级组合描述子，时域层级组合描述子包含组合标识元素；其中，在为允许进行组合解码的视频文件添加的时域层级组合描述子的组合标识元素的取值相同。

针对该时域层级组合描述子，内容制作设备可在信令描述文件新增时域层级组合描述子，并将新增时域层级组合描述子中的元素作为组合标识元素；或者，将信令描述文件中已有描述子的元素作为组合标识元素，另外，该内容制作设备可将时域层级组合描述子封装在信令描述文件的自适应层级中；或者，将时域层级组合描述子封装在信令描述文件的表示层级中；或者，将时域层级组合描述子封装在信令描述文件的前置层级中。

在另一种实现方式中，内容制作设备在将媒体数据的N个媒体帧封装到M个轨道中时，还可在媒体数据以多个时域层级轨道存储，且任一时域层级轨道均存在可替换轨道时，按照目标约束规则产生任一时域层级轨道的可替换轨道；M个轨道包括多个时域层级轨道，以及对应的可替换轨道；从而可将质量相同的媒体帧封装到多个时域层级轨道或封装到可替换轨道中，且得到一个轨道在封装相应的媒体帧后对应的一个相应的视频文件；其中，多个时域层级轨道对应的视频文件中的媒体帧的质量相同，多个时域层级轨道对应的视频文件中的媒体帧的质量，及相应的可替换轨道对应视频文件中的媒体帧的质量不同。那么，内容制作设备在根据封装过程生成媒体数据的信令描述文件时，还可在信令描述文件中为一个视频文件添加一个对应的质量标识，质量标识的取值用于指示对应视频文件中对应的媒体帧的质量。其中，时域层级轨道和可替换轨道分别对应一个可替换等级，相同可替换等级的轨道为一个轨道组；所以，内容制作设备根据封装过程生成媒体数据的信令描述文件时，可在信令描述文件中为第i轨道对应视频文件添加一个对应的关联标识和关联类型标识；其中，关联标识的取值是根据与第i轨道具有相同可替换等级的轨道对应的视频文件的文件标识确定的；关联类型标识的取值是根据相应视频文件之间的关系类型确定的，第i轨道对应视频文件对应关联类型标识的取值为第i轨道所在轨道组类型，i为正整数且i≤M。

在一个实施例中，时域层级轨道和可替换轨道分别对应一个可替换等级，且具有相同可替换等级的轨道对应的视频文件构成一个预选文件；那么，内容制作设备在根据封装过程生成媒体数据的信令描述文件时，可先在信令描述文件中为一个视频文件添加一个对应的预选描述子，预选描述子的取值是根据一个预选文件中的每个视频文件的文件标识生成的。其中，信令描述文件为用于描述媒体片段信息的描述文件。

在另一种实现方式中，如果信令描述文件为智能媒体传输信令；当一个或多个媒体帧封装到一个轨道后，得到一个相应的资源文件，组合指示信息包括时域层级组合资源描述符，一个资源文件与一个时域层级组合资源描述符对应；内容制作设备还可根据相应资源文件的文件标识，生成一个时域层级组合资源描述符的取值。

本申请实施例中，支持内容制作设备对质量不同的的N个媒体帧封装到M个轨道中，得到每个轨道对应的视频文件，并且被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧。然后根据媒体帧的封装过程，内容制作设备可以生成沉浸媒体的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件。后续，内容播放设备在获取到信令描述文件后，可以按照信令描述文件中的组合指示信息，请求相应的视频文件进行组合消费，从而达到节约传输带宽的目的。

请参见图6，图6示出了本申请一个示例性实施例提供的一种数据处理装置的结构示意图。该数据处理装置600可应用于图1a对应的媒体数据系统中的内容播放设备。数据处理装置600可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置600为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。媒体数据由N个媒体帧组成，N个媒体帧被封装到M个轨道，得到每个轨道对应的视频文件；且被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数，该数据处理装置600可包括：

获取单元601，用于获取媒体数据的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件；

处理单元602，用于按照信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码。

在一种可能的实现方式中，N个媒体帧被划分为多个时域层级，一个时域层级包含一个或多个媒体帧；一个轨道封装相应媒体帧后得到对应的一个视频文件，一个视频文件中包含一个或多个时域层级的媒体帧；

组合指示信息包含时域层级组合描述子，时域层级组合描述子用于定义不同时域层级的视频文件之间允许的组合方式。

在一种可能的实现方式中，一个视频文件对应一个时域层级组合描述子，时域层级组合描述子包含组合标识元素；

组合标识元素的取值用于指示允许进行组合解码的视频文件。

在一种可能的实现方式中，处理单元602按照信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码，用于执行以下操作：

根据信令描述文件包括的时域层级组合描述子中组合标识元素的取值，请求M个视频文件中的一个或多个视频文件，并对请求的各视频文件进行组合解码；

其中，请求的视频文件对应的时域层级组合描述子中的组合标识元素的取值相同。

在一种可能的实现方式中，组合标识元素为新增的时域层级组合描述子中的元素；或者，

组合标识元素为已有描述子中的元素。

在一种可能的实现方式中，时域层级组合描述子被封装在信令描述文件的自适应层级中；或者，

时域层级组合描述子被封装在所述信令描述文件的表示层级中；或者，

时域层级组合描述子被封装在所述信令描述文件的前置层级中。

在一种可能的实现方式中，当媒体数据以多个时域层级轨道存储，且任一时域层级轨道均存在可替换轨道时，任一时域层级轨道按照目标约束规则产生对应的可替换轨道；M个轨道包括多个时域层级轨道，以及对应的可替换轨道；

一个轨道封装相应媒体帧后得到对应的一个视频文件；

多个时域层级轨道对应的视频文件中的媒体帧的质量相同，多个时域层级轨道对应的视频文件中的媒体帧的质量，及相应的可替换轨道对应视频文件中的媒体帧的质量不同。

在一种可能的实现方式中，组合指示信息包含每个视频文件的质量标识；质量标识的取值用于指示一个轨道对应视频文件中包含的媒体帧的质量；

其中，包含相同取值的质量标识的视频文件被允许进行组合解码。

在一种可能的实现方式中，时域层级轨道和所述可替换轨道分别对应一个可替换等级，相同可替换等级的轨道为一个轨道组；

组合指示信息包含关联标识和关联类型标识；

第i轨道对应视频文件对应的关联标识的取值，是由与第i轨道具有相同可替换等级的轨道对应的视频文件的文件标识确定的，关联类型标识的取值用于指示相应视频文件之间的关系类型；其中，第i轨道对应视频文件对应关联类型标识的取值为第i轨道所在轨道组类型，i为正整数且i≤M；

其中，第i轨道对应视频文件，以及第i轨道对应关联标识指示的视频文件被允许进行组合解码。

在一种可能的实现方式中，时域层级轨道和可替换轨道分别对应一个可替换等级，且具有相同可替换等级的轨道对应的视频文件构成一个预选文件；

信令描述文件还包括预选描述子，预选描述子包含一个预选文件中的每个视频文件的文件标识；

其中，被记录在预选描述子中的文件标识对应的预选文件被允许进行组合解码。

在一种可能的实现方式中，信令描述文件为用于描述媒体片段信息的描述文件。

在一种可能的实现方式中，信令描述文件为智能媒体传输信令；当一个或多个媒体帧封装到一个轨道后，得到一个相应的资源文件；

组合指示信息包括时域层级组合资源描述符，一个资源文件与一个时域层级组合资源描述符对应，一个时域层级组合资源描述符的取值为相应资源文件的文件标识；

其中，相同取值的时域层级组合资源描述符对应的资源文件被允许进行组合解码。

请参见图7，图7示出了本申请一个示例性实施例提供的另一种数据处理装置的结构示意图。该数据处理装置700可应用于图1a对应的媒体数据系统中的内容制作设备。数据处理装置700可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置700为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该数据处理装置700可包括：

封装单元701，用于将媒体数据的N个媒体帧封装到M个轨道中，得到每个轨道对应的视频文件，其中，被封装到同一轨道的媒体帧的质量相同，M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数；

处理单元702，用于根据封装过程生成媒体数据的信令描述文件，信令描述文件包括组合指示信息，组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件。

处理单元702根据封装过程生成媒体数据的信令描述文件，用于执行以下操作：

将时域层级组合描述子添加到所述信令描述文件中，时域层级组合描述子为信令描述文件中的组合指示信息，时域层级组合描述子用于定义不同时域层级的视频文件之间允许的组合方式。

在一种可能的实现方式中，处理单元702将时域层级组合描述子添加到信令描述文件中，用于执行以下操作：

在信令描述文件中为一个视频文件添加一个对应的时域层级组合描述子，时域层级组合描述子包含组合标识元素；

其中，在为允许进行组合解码的视频文件对应轨道添加的时域层级组合描述子的组合标识元素的取值相同。

在一种可能的实现方式中，处理单元702还用于执行以下操作：

在信令描述文件新增时域层级组合描述子，并将新增时域层级组合描述子中的元素作为组合标识元素；或者，

将信令描述文件中已有描述子的元素作为组合标识元素。

将时域层级组合描述子封装在信令描述文件的自适应层级中；或者，

将时域层级组合描述子封装在信令描述文件的表示层级中；或者，

将时域层级组合描述子封装在信令描述文件的前置层级中。

在一种可能的实现方式中，处理单元702将媒体数据的N个媒体帧封装到M个轨道中，用于执行以下操作：

当媒体数据以多个时域层级轨道存储，且任一时域层级轨道均存在可替换轨道时，按照目标约束规则产生所述任一时域层级轨道的可替换轨道；M个轨道包括多个时域层级轨道，以及对应的可替换轨道；

将质量相同的媒体帧封装到多个时域层级轨道或封装到可替换轨道中，且得到一个轨道在封装相应的媒体帧后对应的一个相应的视频文件；

其中，多个时域层级轨道对应的视频文件中的媒体帧的质量相同，多个时域层级轨道对应的视频文件中的媒体帧的质量，及相应的可替换轨道对应视频文件中的媒体帧的质量不同。

在一种可能的实现方式中，处理单元702根据封装过程生成所述媒体数据的信令描述文件，用于执行以下操作：

在信令描述文件中为一个视频文件添加一个对应的质量标识，质量标识的取值用于指示对应视频文件中对应的媒体帧的质量。

在一种可能的实现方式中，时域层级轨道和可替换轨道分别对应一个可替换等级，相同可替换等级的轨道为一个轨道组；

处理单元702根据封装过程生成所述媒体数据的信令描述文件，用于执行以下操作：

在信令描述文件中为第i轨道对应视频文件添加一个对应的关联标识和关联类型标识；

关联标识的取值是根据与第i轨道具有相同可替换等级的轨道对应的视频文件的文件标识确定的；关联类型标识的取值是根据相应视频文件之间的关系类型确定的，第i轨道对应视频文件对应关联类型标识的取值为第i轨道所在轨道组类型，i为正整数且i≤M。

在信令描述文件中为一个视频文件添加一个对应的预选描述子，预选描述子的取值是根据一个预选文件中的每个视频文件的文件标识生成的。

在一种可能的实现方式中，信令描述文件为智能媒体传输信令；当一个或多个媒体帧封装到一个轨道后，得到一个相应的资源文件，组合指示信息包括时域层级组合资源描述符，一个资源文件与一个时域层级组合资源描述符对应；

处理单元702还用于执行以下操作：

根据相应资源文件的文件标识，生成一个时域层级组合资源描述符的取值。

请参见图8，图8示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图，该计算机设备可以是上述的内容播放设备。该计算机设备800用于执行前述方法实施例中计算机设备所执行的步骤，该计算机设备800包括：一个或多个处理器810；一个或多个输入设备820，一个或多个输出设备830和存储器840。上述处理器810、输入设备820、输出设备830和存储器840通过总线850连接。存储器840用于存储计算机程序，所述计算机程序包括程序指令，处理器810用于调用存储器840存储的程序指令，执行以下操作：

在一种可能的实现方式中，处理器810按照信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码，用于执行以下操作：

组合标识元素为已有描述子中的元素。

一个轨道封装相应媒体帧后得到对应的一个视频文件；

组合指示信息包含关联标识和关联类型标识；

可以理解的是，该计算机设备也可以是上述的内容制作设备，在该计算机设备为内容制作设备时，处理器810用于调用存储器840存储的程序指令，还用于执行以下操作：

处理器810根据封装过程生成媒体数据的信令描述文件，用于执行以下操作：

在一种可能的实现方式中，处理器810将时域层级组合描述子添加到信令描述文件中，用于执行以下操作：

在一种可能的实现方式中，处理器810还用于执行以下操作：

将信令描述文件中已有描述子的元素作为组合标识元素。

在一种可能的实现方式中，处理器810还用于执行以下操作：

将时域层级组合描述子封装在信令描述文件的前置层级中。

在一种可能的实现方式中，处理器810将媒体数据的N个媒体帧封装到M个轨道中，用于执行以下操作：

在一种可能的实现方式中，处理器810根据封装过程生成所述媒体数据的信令描述文件，用于执行以下操作：

处理器810根据封装过程生成所述媒体数据的信令描述文件，用于执行以下操作：

处理器810还用于执行以下操作：

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文所对应实施例中的方法，因此，这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种媒体数据的数据处理方法，其特征在于，所述媒体数据由N个媒体帧组成，所述N个媒体帧被封装到M个轨道，得到每个轨道对应的视频文件；且被封装到同一轨道的媒体帧的质量相同，所述M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数；所述方法包括：

获取所述媒体数据的信令描述文件，所述信令描述文件包括组合指示信息，所述组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件；

按照所述信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码。

2.如权利要求1所述的方法，其特征在于，所述N个媒体帧被划分为多个时域层级，一个时域层级包含一个或多个媒体帧；一个轨道封装相应媒体帧后得到对应的一个视频文件，一个视频文件中包含一个或多个时域层级的媒体帧；

所述组合指示信息包含时域层级组合描述子，所述时域层级组合描述子用于定义不同时域层级的视频文件之间允许的组合方式。

3.如权利要求2所述的方法，其特征在于，一个视频文件对应一个时域层级组合描述子，所述时域层级组合描述子包含组合标识元素；

所述组合标识元素的取值用于指示允许进行组合解码的视频文件。

4.如权利要求3所述的方法，其特征在于，所述按照所述信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码，包括：

根据所述信令描述文件包括的时域层级组合描述子中组合标识元素的取值，请求所述M个视频文件中的一个或多个视频文件，并对请求的各视频文件进行组合解码；

5.如权利要求3所述的方法，其特征在于，所述组合标识元素为新增的时域层级组合描述子中的元素；或者，

所述组合标识元素为已有描述子中的元素。

6.如权利要求2所述的方法，其特征在于，所述时域层级组合描述子被封装在所述信令描述文件的自适应层级中；或者，

所述时域层级组合描述子被封装在所述信令描述文件的表示层级中；或者，

所述时域层级组合描述子被封装在所述信令描述文件的前置层级中。

7.如权利要求1所述的方法，其特征在于，当所述媒体数据以多个时域层级轨道存储，且任一时域层级轨道均存在可替换轨道时，所述任一时域层级轨道按照目标约束规则产生对应的可替换轨道；所述M个轨道包括多个时域层级轨道，以及对应的可替换轨道；

一个轨道封装相应媒体帧后得到对应的一个视频文件；

8.如权利要求7所述的方法，其特征在于，所述组合指示信息包含每个视频文件的质量标识；所述质量标识的取值用于指示一个轨道对应视频文件中包含的媒体帧的质量；

9.如权利要求7所述的方法，其特征在于，所述时域层级轨道和所述可替换轨道分别对应一个可替换等级，相同可替换等级的轨道为一个轨道组；

所述组合指示信息包含关联标识和关联类型标识；

第i轨道对应视频文件对应的关联标识的取值，是由与所述第i轨道具有相同可替换等级的轨道对应的视频文件的文件标识确定的，所述关联类型标识的取值用于指示相应视频文件之间的关系类型；其中，第i轨道对应视频文件对应关联类型标识的取值为所述第i轨道所在轨道组类型，i为正整数且i≤M；

其中，所述第i轨道对应视频文件，以及所述第i轨道对应关联标识指示的视频文件被允许进行组合解码。

10.如权利要求7所述的方法，其特征在于，所述时域层级轨道和所述可替换轨道分别对应一个可替换等级，且具有相同可替换等级的轨道对应的视频文件构成一个预选文件；

所述信令描述文件还包括预选描述子，所述预选描述子包含一个预选文件中的每个视频文件的文件标识；

其中，被记录在所述预选描述子中的文件标识对应的预选文件被允许进行组合解码。

11.如权利要求1～10任一项所述的方法，其特征在于，所述信令描述文件为用于描述媒体片段信息的描述文件。

12.如权利要求1所述的方法，其特征在于，所述信令描述文件为智能媒体传输信令；当一个或多个媒体帧封装到一个轨道后，得到一个相应的资源文件；

所述组合指示信息包括时域层级组合资源描述符，一个资源文件与一个时域层级组合资源描述符对应，一个时域层级组合资源描述符的取值为相应资源文件的文件标识；

13.一种媒体数据的数据处理方法，其特征在于，包括：

将媒体数据的N个媒体帧封装到M个轨道中，得到每个轨道对应的视频文件，其中，被封装到同一轨道的媒体帧的质量相同，所述M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数；

根据封装过程生成所述媒体数据的信令描述文件，所述信令描述文件包括组合指示信息，所述组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件。

14.如权利要求13所述的方法，其特征在于，所述N个媒体帧被划分为多个时域层级，一个时域层级包含一个或多个媒体帧；一个轨道封装相应媒体帧后得到对应的一个视频文件，一个视频文件中包含一个或多个时域层级的媒体帧；

所述根据封装过程生成所述媒体数据的信令描述文件，包括：

将所述时域层级组合描述子添加到所述信令描述文件中，所述时域层级组合描述子为所述信令描述文件中的组合指示信息，所述时域层级组合描述子用于定义不同时域层级的视频文件之间允许的组合方式。

15.如权利要求14所述的方法，其特征在于，所述将所述时域层级组合描述子添加到所述信令描述文件中，包括：

在所述信令描述文件中为一个视频文件添加一个对应的时域层级组合描述子，所述时域层级组合描述子包含组合标识元素；

16.如权利要求15所述的方法，其特征在于，所述方法还包括：

在所述信令描述文件新增时域层级组合描述子，并将所述新增时域层级组合描述子中的元素作为所述组合标识元素；或者，

将所述信令描述文件中已有描述子的元素作为所述组合标识元素。

17.如权利要求14所述的方法，其特征在于，所述方法还包括：

将所述时域层级组合描述子封装在所述信令描述文件的自适应层级中；或者，

将所述时域层级组合描述子封装在所述信令描述文件的表示层级中；或者，

将所述时域层级组合描述子封装在所述信令描述文件的前置层级中。

18.如权利要求13所述的方法，其特征在于，所述将媒体数据的N个媒体帧封装到M个轨道中，包括：

当所述媒体数据以多个时域层级轨道存储，且任一时域层级轨道均存在可替换轨道时，按照目标约束规则产生所述任一时域层级轨道的可替换轨道；所述M个轨道包括多个时域层级轨道，以及对应的可替换轨道；

将质量相同的媒体帧封装到所述多个时域层级轨道或封装到所述可替换轨道中，且得到一个轨道在封装相应的媒体帧后对应的一个相应的视频文件；

19.如权利要求18所述的方法，其特征在于，所述根据封装过程生成所述媒体数据的信令描述文件，包括：

在所述信令描述文件中为一个视频文件添加一个对应的质量标识，所述质量标识的取值用于指示对应视频文件中对应的媒体帧的质量。

20.如权利要求18所述的方法，其特征在于，所述时域层级轨道和所述可替换轨道分别对应一个可替换等级，相同可替换等级的轨道为一个轨道组；

在所述信令描述文件中为第i轨道对应视频文件添加一个对应的关联标识和关联类型标识；

所述关联标识的取值是根据与所述第i轨道具有相同可替换等级的轨道对应的视频文件的文件标识确定的；所述关联类型标识的取值是根据相应视频文件之间的关系类型确定的，第i轨道对应视频文件对应关联类型标识的取值为所述第i轨道所在轨道组类型，i为正整数且i≤M。

21.如权利要求18所述的方法，其特征在于，所述时域层级轨道和所述可替换轨道分别对应一个可替换等级，且具有相同可替换等级的轨道对应的视频文件构成一个预选文件；

在所述信令描述文件中为一个视频文件添加一个对应的预选描述子，所述预选描述子的取值是根据一个预选文件中的每个视频文件的文件标识生成的。

22.如权利要求13～21任一项所述的方法，其特征在于，所述信令描述文件为用于描述媒体片段信息的描述文件。

23.如权利要求13所述的方法，其特征在于，所述信令描述文件为智能媒体传输信令；当一个或多个媒体帧封装到一个轨道后，得到一个相应的资源文件，所述组合指示信息包括时域层级组合资源描述符，一个资源文件与一个时域层级组合资源描述符对应；

所述方法还包括：

根据相应资源文件的文件标识，生成所述一个时域层级组合资源描述符的取值。

24.一种媒体数据的数据处理装置，其特征在于，所述媒体数据由N个媒体帧组成，所述N个媒体帧被封装到M个轨道，得到每个轨道对应的视频文件；且被封装到同一轨道的媒体帧的质量相同，所述M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数；所述装置包括：

获取单元，用于获取所述媒体数据的信令描述文件，所述信令描述文件包括组合指示信息，所述组合指示信息用于指示所述M个视频文件中被允许进行组合解码的视频文件；

处理单元，用于按照所述信令描述文件请求一个或多个视频文件后，对请求的各视频文件进行组合解码。

25.一种媒体数据的数据处理装置，其特征在于，所述装置包括：

封装单元，用于将媒体数据的N个媒体帧封装到M个轨道中，得到每个轨道对应的视频文件，其中，被封装到同一轨道的媒体帧的质量相同，所述M个轨道中存在至少两个轨道包含相同质量的媒体帧；N和M均为大于1的整数；

处理单元，用于根据封装过程生成所述媒体数据的信令描述文件，所述信令描述文件包括组合指示信息，所述组合指示信息用于指示M个视频文件中被允许进行组合解码的视频文件。

26.一种计算机设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-12或如权利要求13-23任一项所述的媒体数据的数据处理方法。

27.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-12或如权利要求13-23任一项所述的媒体数据的数据处理方法。

28.一种计算机程序产品，其特征在于，所述计算程序产品包括计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-12或如权利要求13-23任一项所述的媒体数据的数据处理方法。