CN113542907B

CN113542907B - 多媒体数据收发方法、系统、处理器和播放器

Info

Publication number: CN113542907B
Application number: CN202010301699.0A
Authority: CN
Inventors: 徐异凌; 王超斐
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2022-09-23
Anticipated expiration: 2040-04-16
Also published as: CN113542907A; WO2021209044A1

Abstract

本发明提供了一种多自由度下多媒体数据的发送方法、接收方法、多自由度下多媒体数据系统以及媒体处理器和播放器，通过增加沉浸式多媒体的属性描述，确定了不同媒体类型的数据类型以及轨道媒体流分布信息，定义不同媒体数据中多个数据内容之间的关联关系并给出索引，给出了多自由度下新的媒体内容和形式进行封装和传输等系统结构设计，使之可以为后续相应技术和设计的实现提供兼容和可扩展的架构，更好地适应新的自由度下的视觉媒体消费和应用。

Description

多媒体数据收发方法、系统、处理器和播放器

技术领域

本发明属于沉浸式多媒体领域，具体涉及一种多自由度下多媒体数据的发送方法、接收方法、多自由度下多媒体数据系统以及媒体处理器和播放器。

背景技术

近年来，由于虚拟现实(VR)技术的发展，媒体服务已经从传统的平面二维电视发展到佩戴头戴显示器(Head Mounted Display，HMD)进行全景沉浸式内容的体验。由VR系统制作的沉浸式媒体代表了一个虚拟空间，用户可以像在现实世界中一样自然地进行互动。虚拟现实对现实世界中视觉和听觉的感官刺激的渲染并呈现给用户。用户从一个三维空间的显示区域开始向周围观看，同时根据视窗得到关联的音频。

但随着视觉媒体相关硬件性能的增强，特别是媒体获取设备、媒体处理设备和计算设备性能的提升。传统的沉浸媒体如，3自由度(three Degrees of Freedom，3DoF)已经得到了全面和成熟的应用和发展。随着用户对于沉浸式媒体的需求不断增多，3DoF技术由于仅支持用户在固定点进行头部旋转的观看模式，已经不能完全满足用户的需求，因此3DoF+技术进入了快速发展阶段。相应视觉媒体领域的研究和设计也逐渐涉及更多自由度下的媒体内容。在3Dof的基础上，诞生了3Dof+和6Dof相关的媒体体验形式。对应的媒体的体验形式，视觉媒体领域也设计了许多对应可以用于实现3Dof+和6Dof自由度的媒体内容，并提出和完善了对应的媒体实现的技术。

传统的沉浸媒体系统设计而言，主要针对3Dof下的全向视频媒体传输，内容消费方在进行媒体体验时所拥有的自由度。场景化举例来说，当消费方体验3Dof媒体内容时，其有且仅拥有三个头部自由旋转的操作，分别是围绕以消费方头部为原点的三维直角坐标系的三个坐标轴的旋转。用于实现该沉浸媒体体验的相关媒体为全向视频相关的一系列技术，面向媒体内容也是针对其传输的数据，即传统视频形式的2D图像帧被设计，因而导致系统结构面向的媒体内容相对单一这样的问题。

3Dof+的媒体体验形式在三个头部自由度的基础上增加了头部有限位移的自由度，即沉浸媒体内容消费方可以通过一定限制范围内的位移获取到不同的媒体内容。也就是说，位移产生的视差感可以被设备感知并能够让系统实时反馈由视差带来的不同的媒体内容以匹配消费方的操作行为。这就需要在原先的媒体内容上新增可以带来视差互动的媒体信息，以满足其视觉系统感受到更真实的景象。3DoF+视频由按照预测用户位移部署的多个摄像头获取的内容制作而成。3DoF+媒体呈现的深度图像场景通过2D图像合成得到，其中2D图像由纹理分量和相应的深度分量组成。深度信息可直接通过摄像设备采集或通过算法间接得到；或者，3DoF+视图可由一个背景区域的平面图像和多个前景图像(非平面)合成。

显然，由上述需求可知，仅仅是传统视频形式中的对2D图像帧的处理形式无法满足通过有限位移产生满足位移带来的视差感的要求。因此需要设计新的媒体信息内容和处理形式，相适应匹配新的数据形式。

当前媒体内容处理和数据形式包含，对于3Dof+主要是采用图集(Atlas)相关的技术来进行实现，国际标准化组织MPEG中已有对图集相关技术的实现。其如图1中3+自由度(3Dof+视频)下的图集数据内容所示，此类方案是使用纹理分量和相应的深度分量组成图集(Atlas)进行封装和传输。图集是聚集了来自一个或多个2D图像的矩形块到一幅图像对的集合，图像对包含一幅纹理分量图像和相应的深度分量图像。在编码端对不同角度相机所拍摄到的不同视点的图像进行修剪处理，得到包含基础图像块的基本图集和包含补充图像块的附加图集，在解码端，根据用户当前视点与源相机的对应关系，选择基础图集和对应视点下的补充图集进行组合，就可以得到不同视点下的不同的视野图像，例如图1中，采用基本图集和附加图集1生成视野图像1、采用基本图集和附加图集2生成视野图像2。使用图集的方法可以在实现对应媒体功能的前提下一定程度上减少需要传输的数据量，并在用户端拥有较好的重建效果。

另外，对于6Dof则是3Dof和3Dof+基础上更加丰富的沉浸媒体体验。在三个头部的自由度的基础上，增加了三维空间中以自身为原点的三个坐标轴方向的位移。要实现媒体呈现内容随媒体内容消费方头部旋转和身体位移带来的视差和转换，仅仅是对传统视频媒体内容的处理已经无法满足要求。当前对于实现6Dof相关媒体体验的媒体内容和技术尚在探索阶段，主要有点云，光场等，点云数据内容由图2中举例来看，展示了6自由度(6Dof视频)沉浸媒体数据内容的呈现，是通过扫描得到的物体表面信息，包括三维坐标数据、深度信息、颜色信息等，形成几何骨架再进一步点云呈现。其中，针对静态、动态点云数据，及机器感知、人眼感知等不同类型的点云数据，有不同的点云数据压缩算法。例如，针对动态人眼感知点云数据，典型的点云压缩算法是将3D的点云数据转换为2D的图像数据，然后再进行数据处理，其中一种就是基于视频的点云压缩(Video-based Point CloudCompression，VPCC)算法。这种压缩方法首先将3D点云投影到2D平面，得到占用图信息、几何信息、属性信息以及辅助信息，属性信息通常包括纹理信息和色彩信息，因此，压缩后的信息通常也分为四类数据进行传输。分别是几何信息、属性信息、占用图信息以及辅助信息。几何信息的解码依赖于占用图信息和辅助信息，属性信息的解码依赖几何信息、占用图信息及辅助信息。点云媒体需要同步处理不同类型的数据，整合之后，向用户呈现具有丰富的空间和纹理特性的媒体。随着相关技术实现探索的进行，系统对于6Dof的实现探索也需要进行相应的内容完善和更新。

综上所述，更高的自由度的沉浸媒体体验意味着更多元的信息和数据类型。无论是图集，点云，或是光场等其他形式的媒体形式，其信息内容都是多元化的，想要实现新的多自由度下的沉浸媒体体验，原来只支持单一内容结构设计的沉浸媒体系统框架将无法有效地支持新的多自由度媒体内容的存储传输设计，就需要对出现的新的多自由度媒体中新的信息和结构进行新的设计。

如何解决现有系统架构的问题，如何针对多自由度下新的媒体内容和形式进行封装和传输等系统结构设计，使之可以为后续相应技术和设计的实现提供兼容和可扩展的架构，更好地适应新的自由度下的视觉媒体消费和应用，是亟待解决的关键问题。

发明内容

针对多自由度沉浸媒体内容的相关技术和实现，本发明提出了一种多自由度下多媒体数据的发送方法、接收方法、多自由度下多媒体数据系统以及媒体处理器和播放器。

本发明提供了一种多自由度下多媒体数据的发送方法，包括：

对多媒体数据按照封装传输协议进行封装，该封装传输协议包含：

确定多媒体数据的属性信息，包含：针对多媒体数据的不同媒体类型，确定数据类型；确定并标识媒体类型的多媒体数据所在轨道媒体流的数量和位置信息；和确定不同媒体数据中多个数据内容之间的关联关系；以及

对所述属性信息分别确定相对应的索引方式和索引信息，

将封装后的多媒体数据进行传输。

优选地，包括：

多媒体数据的数据形式包含3Dof+方式、和6Dof方式；

封装传输适用于MPEG媒体文件传输MMT方式、智能媒体传输SMT方式、基于ISO的媒体文件格式ISOBMFF、和全景媒体应用OMAF的扩展方式。

优选地，包括：

多媒体数据的不同媒体类型包含：传统二维视频、图集视频、动态点云、静态点云、光场。

优选地，包括：

确定多媒体数据的数据类型，包含：

当媒体类型为图集视频时，数据类型包含纹理数据和深度数据；

当媒体类型为动态点云时，数据类型包含纹理、几何、占用图和附加信息数据；

当媒体类型为静态点云时，数据类型包含纹理、几何、和附加信息数据；

当媒体类型为光场时，数据类型包含纹理数据、和角度数据。

优选地，包括：

确定多媒体数据的数据类型，还进一步包括：

针对每个数据类型确定对应的数据类型的数据组数。

优选地，包括：

其中，不同数据类型的数据组数之间对应关系包含：

同一结构对应同一的纹理；或者

同一结构对应的不同且互为替补关系的纹理。

优选地，包括：

确定并标识媒体类型的多媒体数据所在轨道媒体流的数量和位置信息，包含：

定义轨道类型，表明每种媒体类型的多媒体数据在一个或至少两个轨道中，其中，

单轨时：定义多媒体数据所在媒体轨道号；以及定义多媒体数据中每个数据在轨道中的具体位置；

至少两轨时：定义多媒体数据中包含的每个数据在媒体轨道号，以及定义多媒体数据中每个数据在轨道中的具体位置。

优选地，包括：

确定不同媒体数据中多个数据内容之间的关联关系，该关联关系包含：

数据内容之间相互依赖、

数据内容之间单一依赖、以及

数据内容之间互相替换。

优选地，包括：

相互依赖的关联关系包含：图集中纹理和深度数据相互依赖；点云中的几何、占用图、附加信息之间相互依赖共同构建出点云几何骨架，

单一依赖的关联关系包含：点云中的纹理数据需要依赖几何、占用图、附加信息共同构建几何骨架；附加图集依赖基本图集，以及

互相替换的关联关系包含：针对同一个点云几何骨架，配以不同的纹理数据用于替换。

优选地，包括：

其中，索引信息包含上述属性信息的集合，该属性信息分别放在封装传输协议的不同层级来描述，或者，定义包含该媒体的所有属性信息的索引。

优选地，包括：

所针对的多媒体数据的数据流包含外层信息ftyp、描述指示信息moov以及数据内容信息mdat，

其中，外层信息ftyp，用于定义多媒体数据的文件类型和内容兼容性，

描述指示信息moov，用于对多媒体数据进行描述和指示，

数据内容信息mdat，用于多媒体数据的具体内容信息。

根据本发明提供的一种多自由度下多媒体数据的接收方法，包括：

对封装的多媒体数据进行接收，按照与权利要求1相逆的封装传输协议进行解析，根据解析内容对该多媒体数据进行相应的处理。

优选地，包括：

S1：接收多媒体数据的媒体内容数据，按照封装传输协议进行解析，得到多媒体数据的描述指示信息(moov)；

S2：依据描述指示信息(moov)判断媒体内容数据，；

S3：根据S2中判断得到的媒体内容类型，解析获取对应媒体内容类型下的数据组数量描述信息，媒体数据类型描述信息以及轨道类型描述信息；

S4：获取媒体数据类型描述信息，解析获取关于不同数据类型的关联关系描述信息；

S5：基于不同媒体数据类型描述信息和数据组数量描述信息，完整获取解析后的出各个数据类型对应的数量；

S6：依据不同类型数据的数据组数量，完整地获取解析信息中各个数据类型对应的索引信息，依据S3中获取的轨道类型描述信息、S4中获取的数据类型之间的关联关系描述信息以及S5各个数据类型的索引信息描述信息，得到所需的媒体内容。

根据本发明提供的一种多媒体系统，包括：

发送端，包含发送侧存储模块、发送模块，用于对多媒体数据按照被存储的如权利要求1所述的封装传输协议进行封装并传输；以及

服务端，作为接收侧，包含服务侧存储模块、接收模块、解析模块以及数据处理模块，用于接收多媒体数据按照相逆的封装传输协议进行解析处理。

根据本发明提供的一种媒体处理器，包括：

存储模块、接收模块、解析模块以及数据处理模块，用于接收多媒体数据按照封装传输协议进行解析处理，该封装传输协议包含：

对所述属性信息分别确定相对应的索引方式和索引信息。

根据本发明提供的一种播放器，包括：

对所述属性信息分别确定相对应的索引方式和索引信息。

本发明的作用和效果

根据本发明所提供的多自由度下多媒体数据的发送方法、接收方法、多自由度下多媒体数据系统以及媒体处理器和播放器，解决现有协议主要针对传统媒体，对新型媒体特别是其新属性的不支持问题，针对多自由度新型媒体的新特征新属性提供了一种新的封装、设计的沉浸媒体系统框架，通过对新媒体的重要特征和属性进行定义和描述，扩展现有协议，能够适应新的多自由度下的媒体数据类型多元化和数据单元之间关联关系多样化，更好兼容新的多自由度媒体内容，具有一定的扩展性，并提供对应的系统框架结构设计方案，从而支持新型媒体的存储和传输，实现设备和应用对新媒体的支持，也实现了多自由度媒体数据流的有效使用。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

附图1是传统沉浸媒体内容和图集技术实现的对比示意图。

附图2是点云技术数据流的内容框图。

附图3-1为传统方案中媒体系统设计的框架图。

附图3-2为本发明中多自由度沉浸媒体系统设计的框架图。

附图4-1为实施例中图集基于ISOBMFF的数据传输单轨设计图。

附图4-2为附图4-1中图集单轨下所针对的数据流示意图。

附图5-1为实施例中点云基于ISOBMFF的数据传输单轨设计图。

附图5-2为附图5-1中点云单轨下所针对的数据流示意图。

附图6-1为实施例中图集基于ISOBMFF的数据传输多轨设计图。

附图6-2为附图6-1中图集多轨下所针对的数据流示意图。

附图7-1为实施例中点云基于ISOBMFF的数据传输多轨设计图。

附图7-2为附图7-1中点云多轨下所针对的数据流示意图。

附图8为多自由度媒体数据解析流程图。

附图9为对应具体媒体内容的数据解析流程图。以及

图10为多自由度沉浸媒体系统的功能模块结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明所针对的多媒体数据作为多自由度沉浸媒体，其特性具有以下特点：

第(1)，数据类型多样化。

附图3-1中传统视频流是由连续图像帧组成。而新的多自由度下的沉浸媒体的构成元素有多种。比如图1所示的构成3+自由度沉浸媒体内容中的新出现的图集的内容，图集包含纹理和深度信息；如图2所示的构成6自由度的点云包含纹理图信息、几何图信息、占用图信息、和附加信息。图1和图2可知，本发明所针对的一个多自由度下的沉浸媒体需要多个类型数据的有效组合才能正确呈现，原有的数据封装元数据无法准确描述这些不同类型的数据属性。

第(2)，不同数据单元间关联关系多样化。

附图3-1中传统视频单元按照时间线排序。然而，本发明中，附图3-2为本发明中多自由度沉浸媒体系统设计的框架图，可见，新的自由度下的沉浸媒体的不同类型数据之间可以形成多种组合关联关系。比如图1中构成3+自由度的图集，一组纹理和深度组成基本图集，另外一组纹理和深度组成补充图集，获取基本图集和补充图集中内容可以组合出自由视野视频。比如图2中构成6自由度的点云，使用几何图信息，占用图信息和附加信息可以恢复出点云的几何结构，在一些特定情况下可以只恢复几何结构信息而不使用纹理信息，而不同的几何结构与不同的纹理图信息结合又可以得到统一几何结构下的不同纹理的点云可以使用相关内容属性的关联关系进行人物模型换肤等功能的实现。因此，原有封装协议元数据需要扩展以支持复杂关系的描述。

因为上述特点，所以在进行新的多自由度下的沉浸媒体系统框架设计时，为了支持多元媒体内容，需要在对所需封装和传输的媒体数据描述结构中设计关于对应多自由度的沉浸媒体数据流内容的描述。

为了实现上述目的，本发明提供了一种多自由度下多媒体数据的发送方法，包括：对多媒体数据按照封装传输协议进行封装，该封装传输协议包含：确定多媒体数据的属性信息，包含：针对多媒体数据的不同媒体类型，确定数据类型；确定并标识媒体类型的多媒体数据所在轨道媒体流的数量和位置信息；和确定不同媒体数据中多个数据内容之间的关联关系；以及对所述属性信息分别确定相对应的索引方式和索引信息，将封装后的多媒体数据进行传输。

由图3-2可知，在沉浸媒体系统设计框架中，需要对多媒体数据、另称为多媒体数据流新增描述，1、媒体类型；2、媒体流内容数量；3、媒体流内容类型和对应内容的数量；4、媒体内容间的关联关系；以及5、内容索引方式和索引信息。具体而言，包括以下说明：

一、定义对新的多自由度下的媒体类型的描述。

即描述为支持多自由度而出现的新型媒体类型，以便协议及设备能够正确识别及处理此类新媒体。通过增加对媒体数据流种的媒体类型的相关描述信息，可以在设计其中媒体数据流信息各类处理结构和处理器时起到指示作用。

表1是本实施例中多媒体数据的媒体类型表。例如在ISOBMFF(基于ISO的媒体文件格式ISO Base File Format)里面增加新视频类型，如传统二维视频、图集、点云、光场、以及保留的用于定义未来新型媒体等，并对每种视频类型进行描述。其中，点云进一步区分动态点云、静态点云等。

序号	视频类型
		1	二维视频(传统视频)
2	图集视频
		3	动态点云
4	静态点云
		5	光场
6	保留(用于定义新型媒体类型)

表1

二、定义新的多自由度下的媒体数据流中数据类型以及对应类型数量。

描述每种新型媒体各自包含的不同种类数据的类型及数目，以便协议及设备能够正确识别及处理此类新媒体。

表2是本实施例中依据不同媒体类型所确定的数据类型和数据组数的数量对应表。通过表2中这样的对应表定义描述定义新视频类型、并对每种视频类型包含的数据属性和数量进行描述。

例如在ISOBMFF里面定义新视频类型，如图集、点云、光场等，并对每种视频类型包含的数据属性和数量进行描述：

如表2中的2、图集包含纹理和深度数据；3、动态点云包含纹理、几何、占用图、附加信息数据；4、静态点云视频包含纹理、几何、附加信息数据；目前技术方案中，5、光场包含纹理、角度数据，未来随着光场研究可能还会扩展。

进一步可扩展的，如果每种视频类型包含几组数据，还可以定义数据组数。如图集视频可包含多个图集，点云可包含多组点云数据；光场包含多组纹理、角度数据。

值得说明的是，在本发明中，新的自由度下的沉浸媒体数据流中不仅限于一种类型的数据内容形式，为了实现对于多种媒体数据流内容的系统结构设计，需要在新的自由度下的沉浸媒体系统框架设计时描述媒体数据流中的内容类型和对应内容的数量。

表2

三、确定并标识媒体类型的多媒体数据所在轨道媒体流的数量和位置信息。

定义每种类型媒体在一个媒体流还是分布在多个媒体流里，区分出每个新型媒体的所有数据放在一个媒体流中存储和传输，以及每个数据所在地址或位置。

表3是本实施例中多媒体数据所在轨道媒体流的轨道类型、数据所在位置的对应表。例如在ISOBMFF里面定义轨道类型，描述每种视频在一个还是至少2个轨道(track)中。

表3

四、定义不同媒体数据中多个数据内容之间的关联关系。

当媒体数据流中出现多种数据内容形式时，每种数据类型的数据可以有多个，它们之间存在复杂的关联关系，为了实现对该媒体从封装、传输到解码呈现，从处理媒体数据流到呈现媒体的系统支持，需要对数据流中的内容之间的关联关系信息进行描述，以实现以正确的和可行的方法对数据流的使用进行细化设计实现和应用。

表4是多媒体数据中多个媒体内容之间的关联关系表，确定不同媒体数据中多个数据内容之间的关联关系：相互依赖、单一依赖、以及互相替换。

例如在ISOBMFF里面定义每种视频类型包含的不同数据之间的关联关系进行描述：

1、数据之间相互依赖，缺一不可。比如，表4中2、图集中纹理和深度数据相互依赖；表4中3、动态点云中的几何、占用图、附加信息之间相互依赖，共同构建出点云的几何骨架。

2、单一依赖，对某个数据有依赖关系，缺少它本数据将失去意义。比如，表4中3、动态点云中的纹理数据需要依赖几何、占用图、附加信息共同构建出来的几何骨架；表4中2、附加图集依赖基本图集。

3、替换关系，数据之间可以相互替换。比如，表4中，3、动态点云针对同一个点云几何骨架，可以配以不同的纹理数据，从而在一个骨架上展现不同“皮肤”。那么不同的纹理数据之间就是替换关系。

小结来看，相互依赖的关联关系包含：图集中纹理和深度数据相互依赖；点云中的几何、占用图、附加信息之间相互依赖共同构建出点云几何骨架，单一依赖的关联关系包含：点云中的纹理数据需要依赖几何、占用图、附加信息共同构建几何骨架；附加图集依赖基本图集，以及互相替换的关联关系包含：针对同一个点云几何骨架，配以不同的纹理数据用于替换。

以上分析省略了对表4中每种数据类型不同媒体内容的逐一说明，仅仅通过表4仅是举例出较优例子，并非对本发明的限制。

表4

五、定义新的多自由度下的媒体数据流的索引方式和索引信息。

上述说明表明，新型媒体数据有着复杂的类型、数量、关联关系，为了便于描述，可定义媒体数据的索引信息。

表5是，多媒体数据的不同媒体类型和所分别确定相对应的索引方式和索引信息的对应表。

例如在ISOBMFF定义每种视频类型包含的数据内容之间的索引方式和索引信息媒体的索引方式，即给出媒体的数据组成和索引信息，帮助设备快速解析其媒体类型、组成成分、数量及访问信息，实现对内容的有效获取和对应处理。

表5

该表5中，以2、图集视频为例，针对媒体类型为图集视频、分布在单轨结构上的情况而言，通过利用协议中样本表格数据盒(Sample Table Box)进行扩展，增加索引信息，即样本(Sample)类型以及样本索引(Sample index)，帮助设备快速解析其媒体类型、组成成分、数量及访问信息，实现对内容的有效获取和对应处理。

另外，继续以2、图集视频为例，针对媒体类型为图集视频、分布在多轨结构上的情况而言，通过利用协议中轨道参考数据盒(Track Reference Box，以下相同)扩展进行扩展，增加索引信息，即轨道(Track)类型以及轨道(Track)ID，帮助设备快速解析其媒体类型、组成成分、数量及访问信息，实现对内容的有效获取和对应处理。

省略对表5中其他媒体类型的单轨、多轨结构的索引方式和索引信息的对应描述，可推理得知，不再赘述。

进一步扩展说明的是，索引信息可作为上述新定义属性的集合，这些属性信息可以分别放在协议文件不同层级来描述，也可以定义一个索引包含该媒体的所有相关信息，便于设备快速读取和解析。

小结来看，当需要支持新的多自由度的沉浸媒体时，本发明所给出的沉浸媒体系统框架，在协议中新增对多媒体数据流的描述并进行相应处理，分别结合图4-1至图7-2的实施例一至四，对多自由度下多媒体数据的发送方法、接收方法、多自由度下多媒体数据系统以及媒体处理器和播放器进行说明，以最终实现媒体内容消费端获得新的多自由度下的沉浸媒体体验。

以下基于ISOBMFF所列举的四个实施例：图集单轨、点云单轨、图集多轨以及点云多轨是较优方案，并非本发明的限制范围。

【实施例一】

附图4-1为实施例中图集基于ISOBMFF的数据传输单轨设计图。附图4-2为附图4-1中图集单轨下所针对的数据流示意图。

针对图集的单轨设计，如附图4-1所示，其中ftyp为封装文件最外层数据盒，用以定义文件类型和内容兼容性，moov为文件中媒体内容描述信息的数据盒，里面包含各种对传输媒体内容进行描述的相关信息，mdat中为具体的媒体数据内容信息，其中moov中所包含的内容对于mdat中的具体的媒体数据内容起到描述和指示作用。本发明在moov结构中新增关于mdat中所包含媒体数据内容的描述信息。

其媒体数据内容形式如附图4-2所示，指示当前数据流中包含的图集数为“n”个，以该数据内容形式为依据，在附图4-1所示的moov数据盒中，新增关于其中媒体内容类型，媒体轨道类型，媒体数据组数量，媒体数据类型及其对应数量，不同数据类型间的关联关系以及索引信息。

具体地，在moov中，增加关于图集媒体类型的描述“miv”，指示当前的媒体数据流为图集数据流(miv)。指示轨道类型为单轨，指示当前媒体数据流中存在的数据类型为纹理和深度两种类型，增加关于数据数量信息的描述，指示当前数据流中包含的图集数为“n”个，每个图集包含一个深度层和一个纹理层。指示每个图集中对应数据的位置，指示第一个图集的深度层“深度0”在轨道种的位置，指示第一个图集的纹理层“纹理0”在轨道中的位置。以此类推，完成对每个图集种对应纹理和深度位置信息的指示。增加媒体数据流中数据之间关联关系的相关信息，如包含基础视图块的图集0事必要数据，其他补充视图块所在的图集为补充内容，依赖于图集0，并与图集0一同恢复出对应视点的miv图像。

【实施例二】

附图5-1为实施例中点云基于ISOBMFF的数据传输单轨设计图。附图5-2为附图5-1中点云单轨下所针对的数据流示意图。

针对点云的单轨设计，如附图5-1所示，其中ftyp为封装文件最外层数据盒，用以定义文件类型和内容兼容性，moov为文件中媒体内容描述信息的数据盒，里面包含各种对传输媒体内容进行描述的相关信息，mdat中为具体的媒体数据内容信息，其中moov中所包含的内容对于mdat中的具体的媒体数据内容起到描述和指示作用。本发明在moov结构中新增关于mdat中所包含媒体数据内容的描述信息。

其媒体数据内容形式如附图5-2所示，mdat中，点云数据第0组至点云数据第n组，每组包含2组纹理(纹理01、纹理02)、几何、占用图以及附加信息。以该数据内容形式为依据，在附图5-1所示的moov数据盒中，新增关于其中媒体内容类型，媒体轨道类型，媒体数据组数量，媒体数据类型及其对应数量，不同数据类型间的关联关系以及索引信息。

具体地：针对点云的单轨设计，如附图5-1所示，在moov结构中增加关于点云媒体类型的描述“点云”，指示当前的媒体数据流为点云数据流(vpcc)。指示轨道类型为单轨，指示当前媒体数据流中存在的数据类型为纹理，几何，占用图和附加信息四种类型，增加关于数据数量信息的描述，指示当前数据流中包含的纹理为“t”个，几何，占用图和附加信息均为“n”个。指示当前纹理信息，纹理1在轨道中的位置，纹理2在轨道中的位置，几何1在轨道中的位置等，以此类推，完成对四种不同类型数据信息的指示。增加媒体数据流中数据之间关联关系的相关信息，如同一点云帧0的几何0，占用图0，附加信息0互为依赖，共同恢复出该帧点云的几何结构0，而纹理0的恢复依赖于几何结构0的恢复，也就是纹理信息0依赖于几何0，占用图0和附加信息0。

值得说明的是，本发明中，常规使用场景下，同一结构0可以对应同一纹理，即上述实施例二的变形例，数据数量：纹理、几何、占用图以及附加信息均为n个。那么，其他扩展使用场景下，同一结构0也可以对应不同的纹理，即上述实施例二中，数据数量：纹理为t个，几何、占用图以及附加信息均为n个。结构0可以对应纹理00，纹理01，纹理02，典型的应用场景就是点云人物模型换肤，可知，同一几何结构对应的不同纹理间是互为替补关系。图5-2中，每组图集包含一组或多组纹理数据，因此，可知纹理的数据数量t多于其他数据类型(几何、占用图以及附加信息)的数据数量n。

【实施例三】

附图6-1为实施例中图集基于ISOBMFF的数据传输多轨设计图。附图6-2为附图6-1中图集多轨下所针对的数据流示意图。

针对图集的多轨设计，如附图6-1所示，其中ftyp为封装文件最外层数据盒，用以定义文件类型和内容兼容性，moov为文件中媒体内容描述信息的数据盒，里面包含各种对传输媒体内容进行描述的相关信息，mdat中为具体的媒体数据内容信息，其中moov中所包含的内容对于mdat中的具体的媒体数据内容起到描述和指示作用。本发明在moov结构中新增关于mdat中所包含媒体数据内容的描述信息。

其媒体数据内容形式如附图6-2所示。图集数据0至图集数据n，分布于轨道1(Track-1)和轨道2(Track-1)上，每个图集包含一个几何(本实施例中，深度)和一个纹理。以该数据内容形式为依据，在附图6-1所示的moov数据盒中，新增关于其中媒体内容类型，媒体轨道类型，媒体数据组数量，媒体数据类型及其对应数量，不同数据类型间的关联关系以及索引信息。

具体地：如附图6-1所示，在moov结构中增加关于图集媒体类型的描述“miv”，指示当前的媒体数据流为图集数据流(miv)。指示轨道类型为多轨，指示当前媒体数据流中存在的数据类型为纹理和深度两种类型，增加关于数据数量信息的描述，指示当前数据流中包含的图集数为“n”个，每个图集包含一个深度层和一个纹理层。指示每个图集中对应数据类型的轨道和其在轨道中的位置，指示第一个图集的深度层“深度0”在类型为深度的轨道以及在该轨道中的位置，指示第一个图集的纹理层“纹理0”在类型为纹理的轨道以及在该轨道中的位置。以此类推，完成对每个图集种对应纹理和深度位置信息的指示。增加媒体数据流中数据之间关联关系的相关信息，如包含基础视图块的图集0事必要数据，其他补充视图块所在的图集为补充内容，依赖于图集0，并与图集0一同恢复出对应视点的miv图像。

【实施例四】

附图7-1为实施例中点云基于ISOBMFF的数据传输多轨设计图。附图7-2为附图7-1中点云多轨下所针对的数据流示意图。

针对点云的多轨设计，如附图7-1所示，其中ftyp为封装文件最外层数据盒，用以定义文件类型和内容兼容性，moov为文件中媒体内容描述信息的数据盒，里面包含各种对传输媒体内容进行描述的相关信息，mdat中为具体的媒体数据内容信息，其中moov中所包含的内容对于mdat中的具体的媒体数据内容起到描述和指示作用。本发明在moov结构中新增关于mdat中所包含媒体数据内容的描述信息。

其媒体数据内容形式如附图7-2所示。点云数据0至点云数据n，分布于轨道1至轨道5(Track-1至Track-5)上，点云数据包含t个纹理，几何、占用图以及附加信息均为n个，其中，第1组纹理分布于Track-1、第2组纹理分布于Track-2，几何、占用图以及附加信息分别分布于Track-3至Track-5。以该数据内容形式为依据，在附图7-1所示的moov数据盒中，新增关于其中媒体内容类型，媒体轨道类型，媒体数据组数量，媒体数据类型及其对应数量，不同数据类型间的关联关系以及索引信息。具体地：

如附图7所示，在moov结构中增加关于点云媒体类型的描述“点云”，指示当前的媒体数据流为点云数据流(vpcc)。指示轨道类型为多轨，指示当前媒体数据流中存在的数据类型为纹理，几何，占用图和附加信息四种类型，增加关于数据数量信息的描述，指示当前数据流中包含的纹理为“t”个，几何，占用图和附加信息均为“n”个。指示当前纹理信息位于的轨道类型和在轨道中的位置，纹理0在类型为纹理的轨道1中以及指示其对应位置，纹理1在轨道类型为纹理的的轨道1中以及指示其对应的位置，几何0在类型为几何的轨道3中的以及指示其对应的位置等，以此类推，完成对四种不同类型数据信息的指示。增加媒体数据流中数据之间关联关系的相关信息，如同一点云帧0的几何0，占用图0，附加信息0互为依赖，共同恢复出该帧点云的几何结构0，而纹理0的恢复依赖于几何结构0的恢复，也就是纹理信息0依赖于几何0，占用图0和附加信息0。

与上述【实施例二】的方案类似，本发明中，常规使用场景下，同一结构0可以对应同一纹理，即上述实施例四的变形例，数据数量：纹理、几何、占用图以及附加信息均为n个。那么，其他扩展使用场景下，同一结构0也可以对应不同的纹理，即上述实施例四中，数据数量：纹理为t个，几何、占用图以及附加信息均为n个。结构0可以对应纹理00，纹理01，纹理02，典型的应用场景就是点云人物模型换肤，可知，同一几何结构对应的不同纹理间是互为替补关系。

图7-2中，每组点云包含一组或多组纹理数据，因此，可知纹理的数据数量t多于其他数据类型(几何、占用图以及附加信息)的数据数量n。

附图8为多自由度媒体数据解析流程图，用于说明多自由度下多媒体数据的接收方法。如附图10所示，本发明提供了一种多自由度沉浸媒体系统，包含发送端一侧和服务端一侧。其中，服务端包含接收端模块、解析模块以及数据处理模块。在发送端完成对封装好的媒体文件进行发送之后，服务端会通过接收端进行媒体文件的接收，首先会对封装好的媒体文件协议进行解析，根据解析内容对该媒体数据内容进行相应的处理。具体地：如附图8所示：

S1：在发端完成对数据封装传输协议中对应内容的修改之后，服务器端通过接收端收到对应的媒体文件数据，并完成对相关协议的解析，得到媒体内容数据的描述信息；

S2：数据处理模块会根据S1中解析到的描述信息对媒体内容数据进行处理。首先进行媒体内容判断，判断依据为解析到的媒体类型描述信息；

S3：根据S2中判断得到的新的多自由度下的媒体内容类型，对应内容下的解析后的数据组数量描述信息，媒体数据类型描述信息以及轨道类型描述信息的获取；

S4：在S3完成数据类型描述信息获取的基础上，在解析后的信息中获取关于不同数据类型的关联关系描述信息；

S5：在不同数据类型描述信息和数据组数量描述信息的指导下，完整地获取解析后的出各个数据类型对应的数量；

S6：依据S5中获取的不同类型数据的数据组数量，完整地获取解析信息中各个数据类型对应的索引信息，依据S3中获取的轨道类型描述信息，S4中获取的数据类型之间的关联关系描述信息以及S5各个数据类型的索引信息描述信息的共同作用下，在数据处理端中恢复处所需的媒体内容。

附图9为对应具体不同的媒体内容的数据解析流程图，对应于具体不同的媒体内容时：动态点云(图9中a)、静态点云(图9中b)、图集视频(图9中c)以及光场(图9中d)时，包含以下步骤：

第一步T1，根据媒体类型描述信息进行媒体类型判断，根据封装内容中预已经定义好的媒体类型，如果是传统视频媒体类型，则按旧的沉浸媒体处理流程进行处理。如果是新的多自由度下的沉浸媒体类型，动态点云，静态点云，图集视频，光场，则按照解析得到的媒体类型使用对应的媒体内容处理流程进行处理。

第二步T2，在完成对媒体类型判断后，启动对应媒体类型的处理流程和处理器，同时，进一步获取媒体内容数据组数量，该媒体内容所对应的媒体内容类型和传输时的轨道类型。对于动态点云，如附图9(a)所示，其对应的媒体内容类型有纹理，几何，占用图，附加信息四种，对于静态点云，如附图9(b)所示，其对应的媒体内容类型有纹理，几何和附加信息三种，对于图集视频，如附图9(c)，其对应的媒体内容类型有纹理和深度两种，对于光场，如附图9(d)所示，目前其对用的媒体内容类型有纹理和角度两种。

第三步T3，完成对对应媒体类型下数据类型的获取之后，结合媒体数据组数量，解析不同媒体数据类型的数量，媒体数据组数量可以辅助媒体数据类型数量的获取，避免内容缺失，同时媒体数据类型数量可以指导数据解析端完成对不同类型数据的完整解析，避免出现内容丢失，影响媒体视频恢复效果。

第四步T4，完成对数据组数量和数据类型数量的获取之后，解析出对应数据类型的索引信息以及关联关系，结合之前的轨道类型判断结果，进行数据组合，数据组合方式为：

T4.1：图9中a分支所示，对于动态点云而言，根据数据类型间的关联关系，同一组动态点云数据的几何，占用图和附加信息互相依赖恢复出动态点云的几何形状，而纹理的恢复依赖于几何形状的恢复，而同一组动态点云数据中可以有多组对应的纹理信息而只能有一组几何，占用图和附加信息。当轨道类型为单轨时，根据索引信息首先在轨道中找到同一组的几何，占用图和附加信息，完成对点云几何形状的恢复，之后，根据需要索引同一组下的不同纹理数据，找到所需要的纹理数据，在点云几何，占用图和附加信息的基础上完成对纹理信息的恢复。当轨道类型为多轨时，根据索引信息首先根据轨道类型索引中找到几何，占用图和附加信息和纹理所在的轨道，并在对应轨道中根据数据类型索引找到对应类型的数据。首先在对应类型的轨道中找到属于同一组的几何，占用图和附加信息，完成对点云几何形状的恢复，之后，根据需要索引对应纹理轨道中属于同一组的不同纹理数据，找到所需要的纹理数据，在点云几何，占用图和附加信息的基础上完成对纹理信息的恢复。

T4.2：图9中b分支所示，对于静态点云而言，根据数据类型间的关联关系，同一组动态点云数据的几何，附加信息互相依赖恢复出动态点云的几何形状，而纹理的恢复依赖于几何形状的恢复。当轨道类型为单轨时，根据索引信息首先在轨道中找到同一组的几何，附加信息，完成对点云几何形状的恢复，之后，根据需要索引同一组下的纹理数据，找到所需要的纹理数据，在点云几何，附加信息的基础上完成对纹理信息的恢复。当轨道类型为多轨时，根据索引信息首先根据轨道类型索引中找到几何，附加信息和纹理所在的轨道，并在对应轨道中根据数据类型索引找到对应类型的数据。首先在对应类型的轨道中找到属于同一组的几何，附加信息，完成对点云几何形状的恢复，之后，根据需要索引对应纹理轨道中属于同一组的纹理数据，找到所需要的纹理数据，在点云几何，附加信息的基础上完成对纹理信息的恢复。

T4.3：图9中c分支所示，对于图集视频而言，根据数据类型间的关联关系，同一组图集数据的深度和纹理互相依赖，共同恢复出图集视频内容。当轨道类型为单轨时，根据索引信息在轨道中找到同一组的纹理和深度，共同组合完成对图像的恢复。当轨道类型为多轨时，根据索引信息首先根据轨道类型索引中找到纹理和深度所在的轨道，并在对应轨道中根据数据类型索引找到对应类型的数据。之后，同一组图集数据的纹理和深度共同恢复出该组图集的内容。

T4.4：图9中d分支所示，对于光场而言，根据数据类型间的关联关系，同一组光场数据的角度和纹理和拓展信息互相依赖，共同恢复出光场的内容。当轨道类型为单轨时，根据索引信息在轨道中找到同一组的纹理和角度和拓展信息，共同组合完成对图像的恢复。当轨道类型为多轨时，根据索引信息首先根据轨道类型索引中找到纹理，角度和拓展信息所在的轨道，并在对应轨道中根据数据类型索引找到对应类型的数据。之后，同一组光场数据的纹理和角度和拓展信息共同恢复出该组光场数据的内容。

第五步T5，根据对应类型的媒体数据数量和媒体数据类型数量，依次完成对所有媒体数据的解析组合，最终呈现新的多自由度下的沉浸媒体视频内容。

本申请的发明构思、描述的实施例以及本申请的范围，使得在沉浸媒体系统能够对即将开展的沉浸媒体3Dof+和6Dof相关体验的实现和技术的应用提供系统架构的支持。

需要说明的是，本实施例虽以ISOBMFF等封装协议和基于图集和点云技术为例阐明所提出的沉浸媒体3Dof+和6Dof元数据及其结构、参数内容、数据及其封装、传输方式，但是本实施例的新的多自由度下的沉浸媒体数据形式和内容也可采用其它格式，参数表达和文件进行封装和传输，如使用MMT,SMT传输，使用ISOBMFF封装，也可以是基于OMAF(omnidirectional media application format,全景媒体的应用格式)的扩展，并不影响本发明核心技术的表达。

如附图10所示，本发明提供了一种多自由度沉浸媒体系统，包含发送端一侧和服务端一侧。其中，服务端包含接收端模块、解析模块以及数据处理模块。在发送端完成对封装好的媒体文件进行发送之后，服务端会通过接收端进行媒体文件的接收，首先会对封装好的媒体文件协议进行解析，根据解析内容对该媒体数据内容进行相应的处理。

如图10所示，提供了处理器和耦接至该处理器的存储器。当执行存储器中的计算机可读程序时，处理器可配置为执行结合图1-9所描述的多自由度下多媒体数据的接收方法以及系统。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种多自由度下多媒体数据的发送方法，其特征在于，包括：

确定多媒体数据的属性信息，包含：针对多媒体数据的不同媒体类型，确定数据类型；

确定并标识媒体类型的多媒体数据所在轨道媒体流的数量和位置信息；和确定不同媒体数据中多个数据内容之间的关联关系；以及

对所述属性信息分别确定相对应的索引方式和索引信息，将封装后的多媒体数据进行传输；

多媒体数据的不同媒体类型包含：传统二维视频、图集视频、动态点云、静态点云、光场；

确定多媒体数据的数据类型，包含：

当媒体类型为静态点云时，数据类型包含纹理、几何和附加信息数据；

当媒体类型为光场时，数据类型包含纹理数据和角度数据；

至少两轨时：定义多媒体数据中包含的每个数据在媒体轨道号，以及定义多媒体数据中每个数据在轨道中的具体位置；

数据内容之间相互依赖、

数据内容之间单一依赖、以及

数据内容之间互相替换；

相互依赖的关联关系包含：图集中纹理和深度数据相互依赖；点云中的几何、占用图、附加信息之间相互依赖共同构建出点云几何骨架，单一依赖的关联关系包含：点云中的纹理数据需要依赖几何、占用图、附加信息共同构建几何骨架；附加图集依赖基本图集，以及互相替换的关联关系包含：针对同一个点云几何骨架，配以不同的纹理数据用于替换；

2.根据权利要求1所述的多自由度下多媒体数据的发送方法，其特征在于，包括：

多媒体数据的数据形式包含3Dof+方式、和6Dof方式；

3.根据权利要求1所述的多自由度下多媒体数据的发送方法，其特征在于，包括：

确定多媒体数据的数据类型，还进一步包括：

针对每个数据类型确定对应的数据类型的数据组数。

4.根据权利要求3所述的多自由度下多媒体数据的发送方法，其特征在于，包括：

其中，不同数据类型的数据组数之间对应关系包含：

同一结构对应同一的纹理；或者

同一结构对应的不同且互为替补关系的纹理。

5.根据权利要求1所述的多自由度下多媒体数据的发送方法，其特征在于，包括：

所针对的多媒体数据的数据流包含外层信息ftyp、描述指示信息moov以及数据内容信息mdat，其中，外层信息ftyp，用于定义多媒体数据的文件类型和内容兼容性，描述指示信息moov，用于对多媒体数据进行描述和指示，数据内容信息mdat，用于多媒体数据的具体内容信息。

6.一种多自由度下多媒体数据的接收方法，其特征在于，包括：

7.根据权利要求6所述的多自由度下多媒体数据的接收方法，其特征在于，包括：

S1：接收多媒体数据的媒体内容数据，按照封装传输协议进行解析，得到多媒体数据的描述指示信息moov；

S2：依据描述指示信息moov判断媒体内容数据；

8.一种多媒体系统，其特征在于，包括：

9.一种媒体处理器，其特征在于，包括：

存储模块、接收模块、解析模块以及数据处理模块，用于接收多媒体数据按照如权利要求1所述的封装传输协议进行解析处理，该封装传输协议包含：

对所述属性信息分别确定相对应的索引方式和索引信息。

10.一种播放器，其特征在于，包括：

对所述属性信息分别确定相对应的索引方式和索引信息。