CN113453083A

CN113453083A - 多自由度场景下的沉浸式媒体获取方法、设备及存储介质

Info

Publication number: CN113453083A
Application number: CN202010214116.0A
Authority: CN
Inventors: 胡颖; 许晓中; 刘杉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-09-28
Anticipated expiration: 2040-03-24
Also published as: CN115225975A; CN113453083B

Abstract

本申请实施例提供了一种多自由度场景下的沉浸式媒体获取方法、设备及存储介质，涉及音视频技术领域。所述方法包括：获取第一时刻的观看位置信息，观看位置信息用于指示沉浸式媒体内容的用户观看位置；其中，沉浸式媒体内容的文件信息包含观看空间关系指示信息；根据用户运动信息和第一时刻的观看位置信息，预测第二时刻的观看位置信息，第二时刻位于第一时刻之后；根据观看空间关系指示信息，获取第二时刻的观看位置信息对应的沉浸式媒体文件；缓存第二时刻的观看位置信息对应的沉浸式媒体文件。本申请实施例提供的技术方案，可以提升沉浸式媒体文件切换的及时性，进而提升观看体验。

Description

多自由度场景下的沉浸式媒体获取方法、设备及存储介质

技术领域

本申请实施例涉及音视频技术领域，特别涉及一种多自由度场景下的沉浸式媒体获取方法、设备及存储介质。

背景技术

沉浸式媒体(Immersive Media)也称为浸入式媒体，其目的是通过音视频技术使用户产生身临其境的视听体验。

对于多自由度的沉浸式媒体内容，业界提出了用户在消费沉浸式媒体内容时的观看空间(Viewing Space)概念。观看空间即用户当前观看的媒体内容在空间上对应的范围，观看空间的形态可以是包括长方体、球体、圆柱体、椭圆柱体等二维或三维的区域。针对不同的观看空间，可以准备有不同的沉浸式媒体文件。当用户从一个观看空间切换至另一个观看空间时，客户端可以通过向服务器请求该另一个观看空间对应的沉浸式媒体文件，并在接收到服务器下发的沉浸式媒体文件后，播放该沉浸式媒体文件。

由于用户在切换到另一个观看空间后，客户端才向服务器请求对应的沉浸式媒体文件，导致切换播放新的沉浸式媒体文件不够及时，从而导致观看体验的下降。

发明内容

本申请实施例提供了一种多自由度场景下的沉浸式媒体获取方法、设备及存储介质，可以提升沉浸式媒体文件切换的及时性，进而提升观看体验。所述技术方案如下：

一方面，本申请实施例提供了一种多自由度场景下的沉浸式媒体获取方法，所述方法包括：

获取第一时刻的观看位置信息，所述观看位置信息用于指示沉浸式媒体内容的用户观看位置；其中，所述沉浸式媒体内容的文件信息包含观看空间关系指示信息；

根据用户运动信息和所述第一时刻的观看位置信息，预测第二时刻的观看位置信息，所述第二时刻位于所述第一时刻之后；

根据所述观看空间关系指示信息，获取所述第二时刻的观看位置信息对应的沉浸式媒体文件；

缓存所述第二时刻的观看位置信息对应的沉浸式媒体文件。

另一方面，本申请实施例提供了一种多自由度场景下的沉浸式媒体提供方法，所述方法包括：

接收来自客户端的目标文件获取请求，所述目标文件获取请求包括与第二时刻的观看位置信息对应的目标文件信息，所述第二时刻的观看位置信息是根据用户运动信息和第一时刻的观看位置信息预测得到的，所述第二时刻位于所述第一时刻之后，所述观看位置信息用于指示沉浸式媒体内容的用户观看位置；

获取所述目标文件信息所指示的沉浸式媒体文件；

向所述客户端发送所述目标文件信息所指示的沉浸式媒体文件。

另一方面，本申请实施例提供了一种多自由度场景下的沉浸式媒体获取装置，所述装置包括：

位置获取模块，用于获取第一时刻的观看位置信息，所述观看位置信息用于指示沉浸式媒体内容的用户观看位置；其中，所述沉浸式媒体内容的文件信息包含观看空间关系指示信息；

位置预测模块，用于根据用户运动信息和所述第一时刻的观看位置信息，预测第二时刻的观看位置信息，所述第二时刻位于所述第一时刻之后；

文件获取模块，用于根据所述观看空间关系指示信息，获取所述第二时刻的观看位置信息对应的沉浸式媒体文件；

文件缓存模块，用于缓存所述第二时刻的观看位置信息对应的沉浸式媒体文件。

另一方面，本申请实施例提供了一种多自由度场景下的沉浸式媒体提供装置，所述装置包括：

请求接收模块，用于接收来自客户端的目标文件获取请求，所述目标文件获取请求包括与第二时刻的观看位置信息对应的目标文件信息，所述第二时刻的观看位置信息是根据用户运动信息和第一时刻的观看位置信息预测得到的，所述第二时刻位于所述第一时刻之后，所述观看位置信息用于指示沉浸式媒体内容的用户观看位置；

文件获取模块，用于获取所述目标文件信息所指示的沉浸式媒体文件；

文件发送模块，用于向所述客户端发送所述目标文件信息所指示的沉浸式媒体文件。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述多自由度场景下的沉浸式媒体获取方法，或者实现上述多自由度场景下的沉浸式媒体提供方法。

可选地，所述计算机设备为终端或服务器。

还一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述多自由度场景下的沉浸式媒体获取方法。

还一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述多自由度场景下的沉浸式媒体提供方法。

又一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品被处理器执行以实现上述多自由度场景下的沉浸式媒体获取方法。

又一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品被处理器执行以实现上述多自由度场景下的沉浸式媒体提供方法。

本申请实施例提供的技术方案可以包括如下有益效果：

通过获取用户在第一时刻的观看位置信息，并结合用户运动信息，预测得到该用户在第二时刻的观看位置信息，然后获取并缓存第二时刻的观看位置信息对应的沉浸式媒体文件。这样，通过提前预测将来时刻的用户观看位置，并缓存该将来时刻可能需要播放的沉浸式媒体文件，可以在用户后续移动到上述预测的观看位置时，立即播放已缓存好的沉浸式媒体文件，从而提升沉浸式媒体文件切换的及时性，进而提升观看体验。

另外，相比于将沉浸式媒体内容的全部媒体文件都提前缓存的方案，或者随机选择部分媒体文件提前缓存的方案，本申请实施例提供的缓存方案更具准确性，可以避免不必要的带宽资源的浪费。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的沉浸式媒体播放系统的端到端处理流程的示意图；

图3是本申请一个实施例提供的沉浸式媒体播放系统的系统处理架构的示意图；

图4是本申请一个实施例提供的3DoF自由度的示意图；

图5是本申请一个实施例提供的3DoF+自由度的示意图；

图6是本申请一个实施例提供的6DoF自由度的示意图；

图7是本申请一个实施例提供的基于沉浸式媒体应用的客户端参考模型的示意图；

图8是本申请一个实施例提供的观看空间的示意图；

图9是本申请一个实施例提供的多自由度场景下的沉浸式媒体获取方法的流程图；

图10是本申请另一个实施例提供的多自由度场景下的沉浸式媒体获取方法的流程图；

图11是本申请一个实施例提供的多自由度场景下的沉浸式媒体获取装置的框图；

图12是本申请另一个实施例提供的多自由度场景下的沉浸式媒体获取装置的框图；

图13是本申请一个实施例提供的多自由度场景下的沉浸式媒体提供装置的框图；

图14是本申请另一个实施例提供的多自由度场景下的沉浸式媒体提供装置的框图；

图15是本申请一个实施例提供的终端的结构框图；

图16是本申请一个实施例提供的服务器的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。

本申请实施例提供的技术方案，可应用于任何沉浸式媒体播放场景中，如沉浸式媒体点播或直播场景。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境可以实现成为沉浸式媒体播放系统。如图1所示，该实施环境可以包括：终端10和服务器20。

终端10可以是诸如手机、平板电脑、多媒体播放设备、电视机、放映机、显示器、可穿戴设备、PC(Personal Computer，个人计算机)等电子设备。终端10中可以安装运行具有沉浸式媒体播放功能的客户端。例如，该客户端可以与服务器20进行交互，从服务器20请求获取沉浸式媒体内容，并对该获取到的沉浸式媒体内容进行播放。

服务器20用于提供沉浸式媒体内容。服务器20可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

终端10和服务器20之间可通过网络30进行互相通信。该网络30可以是有线网络，也可以是无线网络。

可选地，终端10和服务器20之间还可以包括一个或多个中间节点，如CDN(ContentDelivery Network，内容分发网络)或其它中继设备或路由设备，本申请实施例对此不作限定。

如图2所示，其示出了沉浸式媒体播放系统的端到端处理流程的示意图。该处理流程可以包括：内容获取与制作21、沉浸媒体编码/文件封装22、沉浸媒体传输23、沉浸媒体解码/文件解封装24、沉浸媒体渲染25等主要技术环节。其中，内容获取与制作21、沉浸媒体编码/文件封装22、沉浸媒体传输23等技术环节可以由服务器执行，沉浸媒体解码/文件解封装24、沉浸媒体渲染25等技术环节可以由终端(如客户端)执行。

如图3所示，其示出了沉浸式媒体播放系统的系统处理架构的示意图，包括从服务器31到终端32(客户端)的沉浸式媒体内容的处理及表述、文件格式和传输信令。

现实世界的声音-视觉场景通过音频传感器、摄像设备(如普通摄像头、立体摄像头、光场摄像头)以及传感设备(如包括激光雷达)采集，转化为一系列的数据信号后制作成虚拟现实内容呈现给用户观看。摄像设备部署在特定的位置获取一定空间内视频/图像内容，音频可以通过不同的麦克风配置来获取，视频/图像和音频在时间和空间内保持同步。对于视频/图像内容制作，可分为3DoF(Degree of Freedom，自由度)及3DoF+视频制作和6DoF视频制作。其中，DoF是指用户在观看沉浸式媒体时支持的运动并产生内容交互的自由度。

3DoF：即三自由度，是指用户头部围绕x,y,z轴旋转的三种自由度。如图4所示，用户在一个三维空间的中心点固定，用户头部沿着x,y,z轴旋转观看周围的景象。

3DoF+：是指在三自由度的基础上，用户还拥有沿x,y,z轴有限运动的自由度。如图5所示，当虚拟的场景具有一定的深度信息，用户头部可以基于三自由度在一个有限的空间内移动，称为3DoF+。

6DoF：是指在三自由度的基础上，用户还拥有沿x,y,z轴自由运动的自由度。如图6所示，当用户可以在模拟的场景中较自由的移动时，称为6DoF。6DoF分为窗口6DoF、全方向6DoF和6DoF。窗口6DoF：用户在X轴、Y轴的旋转移动，和Z轴的平移受限。例如，用户不能够看到窗户框架外的景象，以及穿过窗户。全方向6DoF：用户在X轴、Y轴和Z轴的旋转移动受限(特别是多步行走距离)。例如，用户在受限的移动区域中不能自由的穿过三维的360度沉浸式媒体内容。6DoF：用户基于3DoF，可以沿着X，Y，Z轴的自由平移。例如，用户在三维的360度沉浸式媒体内容中自由的走动。

3DoF视频制作，由一组摄像机或一个带有多个摄像头和传感器的摄像设备录制而成。摄像头通常可以获取在设备中心周围所有方向的内容。

3DoF+视频制作，结合3DoF视频与深度信息制作而成。

6DoF视频制作，主要由相机阵列拍摄得到的点云、光场等形式的内容制作而成。6DoF媒体需要在编码前进行特定处理，例如点云媒体在编码前需要切割、映射等过程。

采集的音频/视频被编码成相应音视频码流，当使用点云数据或光场信息表示采集视频，需要采用其对应的编码方式(如点云编码)。然后，按一定格式(如ISOBMFF(ISOBase Media File Format，ISO基媒体文件格式)或者其他国际标准体系))将编码的媒体封装在文件容器中并对媒体的描述信息/结合描述媒体内容属性的元数据和视窗元数据，根据一个特定的媒体文件格式组成一个媒体文件或者组成一个初始化片段和媒体片段。

在服务器31中，存储了媒体呈现描述/信令信息和媒体文件资源。媒体呈现描述/信令信息给客户端提供了足够的通知信息，使得对应的媒体内容在一种传输机制下被交付到播放器并进行消费。客户端可以根据终端状态，例如头部/眼部/位置追踪、网络吞吐量等，通过质量/视点自适应动态请求媒体文件资源。

媒体文件通过传输机制(DASH(Dynamic Adaptive Streaming over HTTP，动态自适应流媒体传输)、SMT(Smart Media Transport，智能媒体传输))传输给用户终端32。用户终端32接收到媒体文件后，对文件进行解封装、解码、拼接/合成、渲染等一系列处理后可显示虚拟现实内容。

如图7所示，其示出了基于沉浸式媒体应用的客户端参考模型的示意图，其定义了客户端的各功能组件。

用户终端通过远端服务器推荐或用户自己需求的方式对媒体文件选择，从远端服务器下载或接收远端服务器推送的媒体文件，经过并由解析器71、解码器72、转换器73、渲染器74等一系列组件进行处理后，实现虚拟现实媒体内容的显示。同时，用户终端可以依据用户需求进行远程渲染。

解析器71：解析器71提供对媒体文件或分片的处理，提取基本流以及解析元数据，解析出的元数据用于渲染。解析器71可依据用户动作进行动态的信息处理(如用户头动、位置的跟踪信息)，如动态选择下载的媒体分片。

解码器72：解码器72用于解码解析器71提供的媒体流，并将解码流输出到转换器73。

转换器73：转换器73根据解析器71提供的元数据，将解码后的媒体转换为球形/3D(3Dimensional，三维)视频。例如3DoF时将平面图像映射为球形，在基于映射、投影的6DoF处理时将2D(2Dimensional，二维)信息流重建成3D数据。如果有必要，可使用解析器71解析的转换元数据。

渲染器74：渲染器74使用解码的信令、渲染元数据、以及视窗的信息(或者考虑其他的可能的信息)对视频/音频进行渲染。3DoF和3DoF+主要基于当前视点、视差、深度信息等对球形媒体内容进行渲染，6DoF对当前视点对视窗内的3D媒体内容进行渲染。

传感装置75：传感装置75依据用户的移动获取当前视窗的方向以及用户的位置信息，并反馈给用户终端解析器71。用户终端可依据视窗、视窗的方向以及用户的位置信息选择下载适当的媒体，或者解析器71依据视窗、用户位置信息选择适当的媒体文件。

远程渲染平台76：远程渲染平台76部署在远端服务器，依据用户终端反馈的视窗、视窗的方向以及用户的位置信息或者媒体文件中的渲染元数据进行渲染，用户终端依据远程渲染平台的渲染媒体直接显示。

对于多自由度的沉浸式媒体内容，业界提出了用户在消费沉浸式媒体内容时的观看空间(Viewing Space)概念。观看空间是指用户当前观看的沉浸式媒体内容在空间上对应的范围，也即用户能从当前播放的沉浸式媒体内容中获得观看体验时对应所处的空间范围。观看空间的形状可以是包括长方体、球体、圆柱体、椭圆柱体等三维形状的区域。对于一个观看空间，其内部还可以根据不同的准则，划分为不同的区域。例如划分为观看空间的安全区域、极限区域、保护区域以及缺失区域。下图以长方体类型的观看空间为例说明前述各区域之间的关系。

请参考图8，其示出了本申请一个实施例提供的观看空间的示意图。如图8所示，观看空间包括安全区域81和保护区域82。

安全区域81：即图8中实线框体内的区域，在安全区域81内，用户的位移(包括头部运动和身体移动)能够得到正确的反馈，观看画面能够随用户的位移正确呈现，用户可以获得最佳观看体验。

图8中虚线框体内的区域被称为极限区域80。在极限区域80内，用户的头部运动(如头部的转动)能够得到正确的反馈，用户能获得沉浸式的观看体验，但在安全区域81外，用户的最佳观看体验无法得到保证，如用户的身体移动无法得到正确的反馈。

保护区域82：即安全区域81的外边界与极限区域80的外边界之间的部分，在保护区域82内，用户的最佳观看体验无法得到保证。

缺失区域：在观看空间内，可能存在某些区域内无法获得沉浸式体验的情况，该区域即被定义为缺失区域(图8中未示出)。

下面，将通过几个实施例，对本申请技术方案进行详细的介绍说明。

请参考图9，其示出了本申请一个实施例提供的多自由度场景下的沉浸式媒体获取方法的流程图。在本实施例中，主要以该方法应用于上文介绍的终端中来举例说明，如各步骤的执行主体可以是客户端。该方法可以包括如下几个步骤(901～904)：

步骤901，获取第一时刻的观看位置信息。

第一时刻可以是用户观看沉浸式媒体内容过程中的任意一个时刻。例如，第一时刻可以是当前时刻，也可以是当前时刻之前的某一时刻，本申请实施例对此不做限定。

观看位置信息用于指示沉浸式媒体内容的用户观看位置。

在一种可能的实施方式中，观看位置信息可以包括用户观看位置的坐标信息，如观看沉浸式媒体内容的用户的头部和/或身体的空间位置坐标。在一个示例中，在用户观看位置所在的空间范围内可以建立有空间坐标系，可以通过用户观看位置在空间坐标系中所对应的空间坐标来表示观看位置信息。在另一个示例中，用户观看位置所在的空间范围内还可以设置有参照物(如墙壁、柱子等等)，也可以通过用户的头部和/身体与参照物之间的相对位置关系来表示观看位置信息。

在另一种可能的实施方式中，观看位置信息可以包括用户观看位置所属的观看空间，可选地还包括用户观看位置所属的观看空间中的区域。例如，观看位置信息可以指示用户观看位置属于某个观看空间中的安全区域，或者属于某个观看空间中的保护区域。

步骤902，根据用户运动信息和第一时刻的观看位置信息，预测第二时刻的观看位置信息。

在获取到用户在第一时刻的观看位置信息之后，客户端可以结合用户运动信息和第一时刻的观看位置信息，预测得到该用户在第二时刻的观看位置信息。第二时刻位于第一时刻之后，第二时刻是一个当前还未到达的未来时刻。例如，第一时刻为当前时刻，第二时刻可以是当前时刻之后的5秒。第一时刻和第二时刻之间的时间间隔可以结合实际情况进行设定，本申请实施例对此不作限定。

客户端可以实时地获取用户运动信息。用户运动信息可以包括用户的头部和/或身体部位的运动参数。上述运动参数包括但不限于以下至少一项：运动速度的大小和方向、加速度的大小和方向、位移的大小、位移的方向和平均速度。

在示例性实施例中，用户运动信息还可以通过位移与时间的关系曲线图来表示，或通过速度与时间的关系曲线图来表示。用户穿戴的可穿戴设备(如VR眼镜、头盔、手环、手柄、颈部穿戴设备、腰部穿戴设备、腿部穿戴设备等等)可以检测用户的各个身体部位的运动数据并将这些数据发送至客户端，客户端可以将接收到的用户的各个身体部位的运动数据汇总生成用户运动信息。用户的运动信息也可以通过普通摄像设备或热成像装置等获取，本申请实施例对此不作限定。

客户端可以采用预测模型预测得到用户在第二时刻的观看位置信息。客户端可以将第一时刻的观看位置信息以及用户运动信息输入预测模型，预测模型可以根据第一时刻的观看位置信息以及用户运动信息，输出用户在第二时刻的观看位置信息。其中，预测模型可以是通过多组训练样本训练得到的神经网络模型，本申请实施例对此不作限定。

步骤903，根据观看空间关系指示信息，获取第二时刻的观看位置信息对应的沉浸式媒体文件。

当预测得到的第二时刻的观看位置信息相比于第一时刻的观看位置信息发生变化时，即预测得到的用户在第二时刻的观看位置相对于第一时刻的观看位置发生移动，如从一个观看空间移动到另一个观看空间，或者从观看空间的一个区域移动到另一个区域，客户端可以提前获取第二时刻的观看信息对应的沉浸式媒体文件。例如，客户端通过向服务器发送请求，从服务器获取第二时刻的观看位置信息对应的沉浸式媒体文件。

可选地，沉浸式媒体内容的文件信息包含观看空间关系指示信息，该观看空间关系指示信息可以由服务器提前发送给客户端。观看空间关系指示信息可以用于指示观看位置信息与沉浸式媒体文件之间的对应关系。因此，客户端根据该观看空间关系指示信息，可以查询到各个观看位置信息分别对应的沉浸式媒体文件。可选地，观看空间关系指示信息包括至少一组观看位置信息与文件信息之间的对应关系，文件信息可以是沉浸式媒体文件的标识(如文件名)等信息。这样，客户端在向服务器请求获取第二时刻的观看位置信息对应的沉浸式媒体文件时，可以基于观看空间关系指示信息确定与第二时刻的观看位置信息对应的目标文件信息，然后在请求中携带该目标文件信息，以此告知服务器该客户端所要获取的沉浸式媒体文件。

步骤904，缓存第二时刻的观看位置信息对应的沉浸式媒体文件。

客户端在获取到第二时刻的观看位置信息对应的沉浸式媒体文件后，可以将该沉浸式媒体文件缓存到本地存储单元中。后续，如果用户移动到该预测得到的观看位置，则客户端可以播放该提前缓存的沉浸式媒体文件，从而提升沉浸式媒体文件切换的及时性，进而提升观看体验。

在一些实施例中，第一时刻的用户观看位置和第二时刻的用户观看位置，属于两个不同的观看空间。也即，在第一时刻的用户观看位置属于第一观看空间，第二时刻的用户观看位置属于第二观看空间，且第一观看空间和第二观看空间是两个不同的观看空间的情况下，缓存的沉浸式媒体文件包括第二观看空间对应的沉浸式媒体文件。

在一些实施例中，第一时刻的用户观看位置和第二时刻的用户观看位置，属于同一观看空间中的两个不同区域。例如，在第一时刻的用户观看位置属于第一观看空间的安全区域，第二时刻的用户观看位置属于第一观看空间的保护区域的情况下，缓存的沉浸式媒体文件包括第一观看空间的保护区域的基础媒体文件和/或增强媒体文件。又例如，在第一时刻的用户观看位置属于第一观看空间的保护区域，第二时刻的用户观看位置属于第一观看空间的安全区域的情况下，缓存的沉浸式媒体文件包括第一观看空间的安全区域的沉浸式媒体文件。其中，保护区域的基础媒体文件用于保证在用户处于保护区域时，能够获得基础的沉浸式观看体验，如基础媒体文件能够实现对用户在保护区域中的头部运动的正确反馈，但无法实现用户在保护区域中的身体移动的正确反馈。保护区域的增强媒体文件可以看作是该保护区域的基础媒体文件的补充文件，用于在保护区域的基础媒体文件的基础上，使用户获得更好的观看体验，如通过增强媒体文件可以实现用户在保护区域中的身体移动的模拟反馈或正确反馈。例如，保护区域的基础媒体文件是采用3DoF视频制作方法制作的，若在保护区域的基础媒体文件的基础上加上增强媒体文件，用户在保护区域观看沉浸式媒体内容时，可以获得3DoF+的视频观看体验。

可选地，如果在用户在第一观看空间的安全区域进行观看的过程中，客户端仅从服务器获取该安全区域的沉浸式媒体文件，并未从服务器获取该第一观看空间的保护区域的沉浸式媒体文件(包括基础媒体文件和增强媒体文件)，那么当预测得到用户下一步可能移动到第一观看空间的保护区域时，客户端可以提前从服务器获取并缓存该保护区域的基础媒体文件。该保护区域的增强媒体文件可以与基础媒体文件一同进行提前缓存，以使得用户在移动到保护区域时可以立即获取到最佳的观看体验；或者，也可以仅提前缓存保护区域的基础媒体文件，该保护区域的增强媒体文件不提前缓存，当用户实际移动到该保护区域时再去服务器请求获取增强媒体文件，这可以在保证用户获得基础观看体验的前提下，适当节省传输资源，避免带宽浪费。

可选地，如果在用户在第一观看空间的安全区域进行观看的过程中，客户端除了从服务器获取该安全区域的沉浸式媒体文件之外，还会从服务器获取该第一观看空间的保护区域的基础媒体文件，但并不获取该保护区域的增强媒体文件，那么当预测得到用户下一步可能移动到第一观看空间的保护区域时，客户端可以提前从服务器获取并缓存该保护区域的增强媒体文件，以使得用户在移动到保护区域时可以立即获取到最佳的观看体验。

需要注意的是，本申请给出的提前缓存重点在于预测用户下一步消费的媒体文件，但在用户带宽允许的前提下，客户端除了缓存预测得到的用户观看位置对应的媒体文件外，还可以提前缓存其他观看位置对应的媒体文件，这也属于本申请技术方案的衍生场景。

综上所述，本申请实施例提供的技术方案中，通过获取用户在第一时刻的观看位置信息，并结合用户运动信息，预测得到该用户在第二时刻的观看位置信息，然后获取并缓存第二时刻的观看位置信息对应的沉浸式媒体文件。这样，通过提前预测将来时刻的用户观看位置，并缓存该将来时刻可能需要播放的沉浸式媒体文件，可以在用户后续移动到上述预测的观看位置时，立即播放已缓存好的沉浸式媒体文件，从而提升沉浸式媒体文件切换的及时性，进而提升观看体验。

请参考图10，其示出了本申请另一个实施例提供的多自由度场景下的沉浸式媒体获取方法的流程图。在本实施例中，主要以该方法应用于上文介绍的沉浸式媒体播放系统中来举例说明。该方法可以包括如下几个步骤(1001～1009)：

步骤1001，客户端向服务器发送沉浸式媒体播放请求，该沉浸式媒体播放请求用于请求播放沉浸式媒体内容。

客户端通过与服务器之间的网络连接，向服务器发送沉浸式媒体播放请求。相应地，服务器接收来自客户端的沉浸式媒体播放请求。可选地，沉浸式媒体播放请求中包括请求播放的沉浸式媒体内容的标识信息，以此告知服务器该客户端请求播放哪个沉浸式媒体内容。

步骤1002，服务器向客户端发送沉浸式媒体内容，以及该沉浸式媒体内容对应的观看空间关系指示信息。

服务器在接收到沉浸式媒体播放请求之后，根据该请求内容，获取相应的沉浸式媒体内容，以及与该沉浸式媒体内容对应的观看空间关系指示信息，然后发送给客户端，以使得客户端后续能够根据该观看空间关系指示信息，缓存目标文件信息所指示的沉浸式媒体文件。相应地，客户端接收来自服务器的沉浸式媒体内容，以及观看空间关系指示信息。上述客户端根据该观看空间关系指示信息，缓存目标文件信息所指示的沉浸式媒体文件，具体可以包括：根据该观看空间关系指示信息，获取与第二时刻的观看位置信息对应的目标文件信息，然后缓存该目标文件信息所指示的沉浸式媒体文件。

观看空间关系指示信息可以和沉浸式媒体内容一起下发给客户端，也可以分别下发，本申请实施例对此不作限定。另外，服务器响应沉浸式媒体播放请求时，向客户端发送沉浸式媒体内容是指该沉浸式媒体内容的初始观看位置对应的沉浸式媒体文件，该初始观看位置可以预先设定，例如预先设定某个观看空间中的安全区域为初始观看位置，用户在请求播放沉浸式媒体内容时，其需要在该初始观看位置开始观看。

观看空间关系指示信息可以用于指示观看位置信息与沉浸式媒体文件之间的对应关系。因此，客户端根据该观看空间关系指示信息，可以查询到各个观看位置信息分别对应的沉浸式媒体文件。可选地，观看空间关系指示信息包括至少一组观看位置信息与文件信息之间的对应关系，文件信息可以是沉浸式媒体文件的标识(如文件名)等信息。

在本申请实施例中，对观看空间关系指示信息的承载方式不作限定，例如其可以封装文件数据盒、信令消息等形式发送给客户端。

步骤1003，客户端获取第一时刻的观看位置信息。

步骤1004，客户端根据用户运动信息和第一时刻的观看位置信息，预测第二时刻的观看位置信息。

第二时刻位于第一时刻之后。

步骤1005，客户端根据观看空间关系指示信息，获取与第二时刻的观看位置信息对应的目标文件信息。

例如，客户端基于观看空间关系指示信息，查询与第二时刻的观看位置信息对应的文件信息，作为目标文件信息。

步骤1006，客户端向服务器发送目标文件获取请求，该目标文件获取请求包括目标文件信息。

相应地，服务器接收来自客户端的目标文件获取请求。目标文件获取请求用于请求获取目标文件信息所指示的沉浸式媒体文件。

步骤1007，服务器获取目标文件信息所指示的沉浸式媒体文件。

步骤1008，服务器向客户端发送目标文件信息所指示的沉浸式媒体文件。

相应地，客户端接收来自服务器的沉浸式媒体文件。

步骤1009，客户端缓存接收到的沉浸式媒体文件。

对于本实施例中未详细说明的细节，可参见上文图9所述实施例。

综上所述，本申请实施例提供的技术方案中，通过服务器在对来自客户端的沉浸式媒体播放请求进行响应时，向客户端提供该沉浸式媒体内容对应的观看空间关系指示信息，以便客户端能够基于该观看空间关系指示信息，确定出其预测得到的用户观看位置所对应的文件信息，然后基于该文件信息提前向服务器请求获取并缓存相应的沉浸式媒体文件，从而在用户后续移动到上述预测的观看位置时，能够立即播放已缓存好的沉浸式媒体文件，从而提升沉浸式媒体文件切换的及时性，进而提升观看体验。

为了实现上述图10实施例所介绍的功能，需要对观看空间关系指示信息进行定义。

在示例性实施例中，观看空间关系指示信息可以包括：沉浸式媒体内容的整体观看空间中包含的n个观看空间的结构体信息，n为正整数。其中，该结构体信息可以包括：关系指示信息和空间位置信息。上述n个观看空间中的第i个观看空间的关系指示信息，用于指示该第i个观看空间中的各个区域对应的沉浸式媒体文件。该第i个观看空间的空间位置信息，用于指示该第i个观看空间中的各个区域的空间位置范围。其中，i为小于等于n的正整数。

在一个实施例中，第i个观看空间的关系指示信息，包括：该第i个观看空间的标识，以及该第i个观看空间中的各个区域对应的文件轨道组标识。其中，观看空间中的一个区域对应于一个文件轨道组，一个文件轨道组中包括一个或多个文件轨道，某个区域对应的文件轨道组中包括的各个文件轨道，用于封装生成该区域对应的沉浸式媒体文件。文件轨道组标识即为文件轨道组的标识信息，不同的文件轨道组具有不同的文件轨道组标识。

可选地，关系指示信息包括如下字段：

观看空间标识字段，用于指示观看空间的标识；

安全区域组标识字段，用于指示观看空间中的安全区域对应的文件轨道组标识；

保护区域组标识字段，用于指示观看空间中的保护区域对应的文件轨道组标识。

可选地，在观看空间中的保护区域还对应有增强区域的情况下，关系指示信息还包括如下字段：

增强区域组标识字段，用于指示观看空间中的增强区域对应的文件轨道组标识。

其中，增强区域的空间位置范围与保护区域的空间位置范围相同，增强区域对应的增强媒体文件，可用于提升保护区域的媒体质量。

在一些实施例中，观看空间关系指示信息还可以包括如下字段：

整体空间位置指示信息，用于指示整体观看空间的空间位置范围；

观看空间数量指示信息，用于指示整体观看空间中包含的观看空间的数量；

初始观看空间标识信息，用于指示初始观看空间的标识。

一个沉浸式媒体内容对应的整体观看空间，可以包括一个或多个观看空间。观看空间关系指示信息中还需要指示整体观看空间的空间位置范围、包含的观看空间的数量以及初始观看空间的标识。其中，初始观看空间是指用户观看该沉浸式媒体内容时最初所在的观看空间。

下面，以扩展ISOBMFF数据盒的形式举例，对观看空间关系指示信息的语法及语义进行介绍说明：

观看空间结构体ViewingSpaceStruct中的各字段语义如下：

viewing_space_shape_type：观看空间形状类型字段，用于指示观看空间的形状类型。观看空间的形状类型包括但不限于长方体、球体、圆柱体、椭球体等。例如，该字段取值为0时，表示观看空间的形状类型为长方体。

distance_scale：指示描述距离时的衡量刻度，该字段以cm为单位，只能取值为正整数。

viewing_space_id：即上文介绍的观看空间标识字段，用于指示观看空间的标识。

guard_range_indicator：保护区域指示字段，用于指示观看空间中是否包含保护区域。例如，对于不包含保护区域的观看空间，该字段的值可以是0；对于包含保护区域的观看空间，该字段的值可以是1。又例如，对于不包含保护区域的观看空间，该字段的值可以是1；对于包含保护区域的观看空间，该字段的值可以是0。

guard_range_X，guard_range_Y，guard_range_Z：分别用于指示保护区域在x,y,z三个方向上占据观看空间的x,y,z取值范围的百分比，以此定义保护区域在观看空间中的空间位置范围。

长方体空间结构aligned(8)class VRBB各字段语义如下：

xMin，yMin，zMin：分别指示相对于观看空间中心的x,y,z坐标轴最小值，以distance_scale为单位。

xMax，yMax，zMax：分别指示相对于观看空间中心的x,y,z坐标轴最大值，以distance_scale为单位。

通过上述xMin，yMin，zMin和xMax，yMax，zMax，即可定义出一个观看空间的空间位置范围。

观看空间区域组数据盒ViewingSpaceRegionGroupBox各字段语义如下：

观看空间区域组数据盒扩展自文件轨道组数据盒，对于包含观看空间区域组数据盒的文件轨道，拥有同样文件轨道组数据盒类型(即track_group_type＝'vsrg')且track_group_id相同的文件轨道，属于同一个观看空间区域组。其中，track_group_id表示轨道组标识。

观看空间关系数据盒ViewingSpaceRelationshipBox各字段语义如下：

num_viewing_space：即上文介绍的观看空间数量指示信息(或称为观看空间数量指示字段)，用于指示该沉浸式媒体内容的整体观看空间中包含的观看空间的数目。若该字段取值大于1说明存在多个观看空间。

VRBB(0)：即上文介绍的整体空间位置指示信息，用于指示该沉浸式媒体内容的整体观看空间的空间位置范围，当沉浸式媒体内容的整体观看空间中包含多个观看空间时，需要该字段。

initial_viewing_space_id：即上文介绍的初始观看空间标识信息(或称为初始观看空间标识字段)，用于指示该沉浸式媒体内容的初始观看空间的ID，当沉浸式媒体内容的整体观看空间中包含多个观看空间时，需要该字段。

ViewingSpaceStruct(i)：用于定义每个单独的观看空间(即第i个观看空间)的相关信息。

safe_region_track_group_id、guard_region_track_group_id、enhance_region_track_group_id分别对应上文介绍的安全区域组标识字段、保护区域组标识字段、增强区域组标识字段，分别用于指示观看空间的安全区域、保护区域、增强区域各自对应的观看空间区域组数据盒组ID，以此得到安全区域、保护区域、增强区域各自对应的文件轨道组标识。

enhance_region_flag：增强区域标识字段，用于指示观看空间中是否包含增强区域。例如，该字段取值为0时表示观看空间不包含增强区域，该字段取值为1时则表示观看空间包含增强区域。又例如，该字段取值为1时表示观看空间不包含增强区域，该字段取值为0时则表示观看空间包含增强区域。

下面，结合一个例子对本申请技术方案进行介绍说明。

1、客户端请求沉浸式媒体视频文件，服务器将沉浸式媒体视频文件、观看空间关系指示数据盒ViewingSpaceRelationshipBox发送给客户端。

2、客户端通过解析ViewingSpaceRelationshipBox，可以获得如下信息：

当前视频的观看空间数量，假设为3个，3个观看空间的ID分别为1001、1002和1003；

当前视频多个观看空间构成的整体观看空间范围；

初始观看空间的ID，假设为1001；

每个观看空间中的安全区域分别对应的观看空间区域组数据盒ID；可选地，假设该ID为1001的观看空间中的安全区域对应的观看空间区域组数据盒ID为1；

若观看空间存在保护区域(假设存在)，得到每个观看空间中的保护区域分别对应的观看空间区域组数据盒ID；可选地，假设该ID为1001的观看空间中的保护区域对应的观看空间区域组数据盒ID为2；

若观看空间存在增强区域(假设存在)，得到每个观看空间中的增强区域分别对应的观看空间区域组数据盒ID；可选地，假设该ID为1001的观看空间中的增强区域对应的观看空间区域组数据盒ID为3。其中，增强区域的范围和保护区域相同，增强区域对应的文件轨道可用于提高保护区域的质量。

客户端从ViewingSpaceRelationshipBox中进一步解析出ID为1001的观看空间对应的ViewingSpaceStruct，解析ViewingSpaceStruct可以得到：

通过VRBB(i)结构体可以得到该观看空间的范围，再结合guard_range_X/Y/Z字段，即可得到安全区域的范围、保护区域的范围；

观看空间ID；

客户端继续解析ViewingSpaceRelationshipBox，解析出其他观看空间的ViewingSpaceStruct，得到的信息与上述类似。

3、客户端解析收到的沉浸式媒体视频文件，获得服务器已下发的所有文件轨道，其中包含观看空间区域组数据盒且组ID为1的所有文件轨道对应观看空间1001的安全区域；包含观看空间区域组数据盒且组ID为2的所有文件轨道对应观看空间1001的保护区域。播放渲染对应的文件轨道。

4、以初始观看空间的原点(0,0,0)作为用户的初始原点，在用户交互的过程中，记录用户在三维空间中运动的方向、速度、加速度等用户运动信息，即可计算出用户下一步观看的区域范围，将这个区域范围与步骤2中得到的安全区域范围、保护区域范围、整体观看空间范围相比较。

若下一步观看区域属于当前观看空间的安全区域，则说明下一步观看区域仍属于当前观看的区域(初始观看的区域必然是安全区域)，无需请求新的沉浸式媒体文件，继续跟踪用户运动。

若下一步观看区域属于当前观看空间的保护区域，则从步骤2中解析的信息得知是否存在增强区域(已假设存在)以及增强区域对应的观看空间区域组数据盒ID。若步骤3中解析的文件轨道不包含增强区域(假设不包含)，则客户端向服务器请求包含观看空间区域组数据盒且组ID为3的所有文件轨道，并提前缓存至本地存储单元。

若下一步观看区域已超出当前观看空间的整体范围，则根据下一步观看区域的范围，结合步骤2中解析的信息，得到下一步观看空间的ID(假设为1002)以及1002观看空间对应的安全区域、保护区域的观看空间区域组数据盒组ID。若步骤3中解析的文件轨道不包含1002观看空间的文件轨道(假设不包含)，则客户端向服务器请求对应的文件轨道，并提前缓存至本地存储单元。

5、客户端继续播放沉浸式媒体内容，计算用户下一步观看的区域范围，重复步骤4中的操作。

在另一个实施例中，第i个观看空间的关系指示信息，包括：该第i个观看空间的标识，以及该第i个观看空间中的各个区域对应的文件轨道标识。其中，观看空间中的一个区域对应于一个或多个文件轨道，某个区域对应的各个文件轨道，用于封装生成该区域对应的沉浸式媒体文件。文件轨道标识即为文件轨道的标识信息，不同的文件轨道具有不同的文件轨道标识。

可选地，关系指示信息包括如下字段：

观看空间标识字段，用于指示观看空间的标识；

安全区域数量字段，用于指示观看空间中的安全区域对应的文件轨道数量；

保护区域数量字段，用于指示观看空间中的保护区域对应的文件轨道数量；

文件轨道标识字段，用于指示观看空间中的各个区域对应的文件轨道标识。

增强区域数量字段，用于指示观看空间中的增强区域对应的文件轨道数量。

由于一个观看空间的某一区域可以对应有一个或多个文件轨道，关系指示信息中需要包括观看空间中的各个区域对应的一个或多个文件轨道的标识信息，以及观看空间中的各个区域对应文件轨道的数量信息。该数量信息可以用各个区域分别对应的区域数量字段表示。观看空间中的各个区域对应的一个或多个文件轨道的标识信息，可以用文件轨道标识字段表示。

初始观看空间标识信息，用于指示初始观看空间的标识。

观看空间结构体ViewingSpaceStruct中的各字段语义如下：

num_guard_region_track，num_enhance_region_track，num_safe_region_track：即上文介绍的安全区域数量字段、保护区域数量字段和增强区域数量字段，分别指示在该观看空间内，保护区域、增强区域和安全区域对应的文件轨道数目。

track_id：即上文介绍的文件轨道标识字段，用于指示观看空间中的各个区域对应的文件轨道标识，可通过该标识符直接索引到文件轨道。

长方体空间结构aligned(8)class VRBB各字段语义如下：

观看空间关系数据盒ViewingSpaceRelationshipBox各字段语义如下：

下面，结合一个例子对本申请技术方案进行介绍说明。

当前视频多个观看空间构成的整体观看空间范围；

初始观看空间的ID，假设为1001。

3、客户端从ViewingSpaceRelationshipBox中进一步解析出ID为1001的观看空间对应的ViewingSpaceStruct，解析ViewingSpaceStruct可以得到：

安全区域、保护区域(假设存在)对应的文件轨道ID。

通过VRBB(i)结构体可以得到该观看空间的范围，再结合guard_range_X/Y/Z字段，即可得到安全区域的范围和保护区域的范围。

若num_enhance_region_track字段大于等于1，则说明该观看空间存在增强区域(假设存在)，增强区域的范围和保护区域相同，增强区域对应的文件轨道可用于提高保护区域的质量。

得到安全区域、保护区域、增强区域对应的文件轨道ID。

4、客户端解析收到的沉浸式媒体视频文件，获得服务器已下发的所有文件轨道，从中找到步骤2中得到的安全区域、保护区域的文件轨道ID，播放渲染对应的文件轨道。

5、以初始观看空间的原点(0,0,0)作为用户的初始原点，在用户交互的过程中，记录用户在三维空间中运动的方向、速度、加速度等用户运动信息，即可计算出用户下一步观看的区域范围，将这个区域范围与步骤2中得到的安全区域范围、保护区域范围、整体观看空间范围相比较。

若下一步观看区域属于当前观看空间的保护区域，则从步骤2中解析的信息得知是否存在增强区域(已假设存在)以及增强区域对应的文件轨道ID。若步骤3中解析的文件轨道不包含增强区域(假设不包含)，则客户端向服务器请求对应的文件轨道，并提前缓存至本地存储单元。

若下一步观看区域已超出当前观看空间的整体范围，则根据下一步观看区域的范围，结合步骤2中解析的信息，得到下一步观看空间的ID(假设为1002)以及1002观看空间对应的安全区域、保护区域的文件轨道ID。若步骤3中解析的文件轨道不包含1002观看空间的文件轨道(假设不包含)，则客户端向服务器请求对应的文件轨道，并提前缓存至本地存储单元。

6、客户端继续播放沉浸式媒体内容，计算用户下一步观看的区域范围，重复步骤4中的操作。

在本申请实施例中，针对上文介绍的关系指示信息提供了两种字段设计方式。其中第一种字段设计方式中，关系指示信息包括观看空间标识字段以及各个区域组标识字段，客户端据此可以获得用户观看区域与文件轨道组标识之间的对应关系，客户端基于该对应关系，向服务器请求获取预测观看位置的媒体文件时，请求中可以携带预测观看位置对应的文件轨道组标识，这种方式有助于节省请求的信令开销，且简化客户端和服务器的处理流程。第二种字段设计方式中，关系指示信息包括观看空间标识字段、各个区域数量字段以及文件轨道标识字段，客户端据此可以获得用户观看区域与文件轨道标识之间的对应关系，客户端基于该对应关系，向服务器请求获取预测观看位置的媒体文件时，请求中可以携带预测观看位置对应的各个文件轨道标识，这种方式可以请求获取指定的文件轨道，而非一整个文件轨道组，能够提升请求的灵活性。

需要说明的是，在上述实施例中，关于各字段的名称和描述仅是示例性和解释性的，在实现上述各字段所定义功能的前提下，各字段的名称和描述可以结合实际情况进行设定，但都应当落入本申请保护范围之内。

还需要说明的是，在上述实施例中，仅从客户端和服务器交互的角度，对本申请技术方案进行了介绍说明。上述有关客户端执行的步骤，可以单独实现成为客户端侧的多自由度场景下的沉浸式媒体获取方法；上述有关服务器执行的步骤，可以单独实现成为服务器侧的多自由度场景下的沉浸式媒体提供方法。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了本申请一个实施例提供的一种多自由度场景下的沉浸式媒体获取装置的框图。所述装置1100具有实现上述多自由度场景下的沉浸式媒体获取方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。所述装置1100可以是上文介绍的终端，也可以设置在终端上。所述装置1100可以包括：位置获取模块1110、位置预测模块1120、文件获取模块1130和文件缓存模块1140。

所述位置获取模块1110，用于获取第一时刻的观看位置信息，所述观看位置信息用于指示沉浸式媒体内容的用户观看位置；其中，所述沉浸式媒体内容的文件信息包含观看空间关系指示信息。

所述位置预测模块1120，用于根据用户运动信息和所述第一时刻的观看位置信息，预测第二时刻的观看位置信息，所述第二时刻位于所述第一时刻之后。

所述文件获取模块1130，用于根据所述观看空间关系指示信息，获取所述第二时刻的观看位置信息对应的沉浸式媒体文件。

所述文件缓存模块1140，用于缓存所述第二时刻的观看位置信息对应的沉浸式媒体文件。

在一些实施例中，所述文件获取模块1130用于：

根据所述观看空间关系指示信息，获取与所述第二时刻的观看位置信息对应的目标文件信息；

向服务器发送目标文件获取请求，所述目标文件获取请求包括所述目标文件信息；

接收来自所述服务器的所述目标文件信息所指示的沉浸式媒体文件。

在一些实施例中，如图12所示，所述装置1100还包括：请求发送模块1150和内容接收模块1160。

所述请求发送模块1150，用于向所述服务器发送沉浸式媒体播放请求，所述沉浸式媒体播放请求用于请求播放所述沉浸式媒体内容。

所述信息接收模块1160，用于接收来自所述服务器的所述沉浸式媒体内容，以及所述观看空间关系指示信息。

在一些实施例中，所述观看空间关系指示信息包括：所述沉浸式媒体内容的整体观看空间中包含的n个观看空间的关系指示信息和空间位置信息，所述n为正整数；其中：

所述n个观看空间中的第i个观看空间的关系指示信息，用于指示所述第i个观看空间中的各个区域对应的沉浸式媒体文件；

所述第i个观看空间的空间位置信息，用于指示所述第i个观看空间中的各个区域的空间位置范围；其中，所述i为小于等于所述n的正整数。

在一些实施例中，所述关系指示信息包括：

观看空间标识字段，用于指示所述观看空间的标识；

安全区域组标识字段，用于指示所述观看空间中的安全区域对应的文件轨道组标识；

保护区域组标识字段，用于指示所述观看空间中的保护区域对应的文件轨道组标识；

增强区域组标识字段，用于指示所述观看空间中的增强区域对应的文件轨道组标识。

在一些实施例中，所述关系指示信息包括：

观看空间标识字段，用于指示所述观看空间的标识；

安全区域数量字段，用于指示所述观看空间中的安全区域对应的文件轨道数量；

保护区域数量字段，用于指示所述观看空间中的保护区域对应的文件轨道数量；

增强区域数量字段，用于指示所述观看空间中的增强区域对应的文件轨道数量；

文件轨道标识字段，用于指示所述观看空间中的各个区域对应的文件轨道标识。

在一些实施例中，所述观看空间关系指示信息还包括：

整体空间位置指示信息，用于指示所述整体观看空间的空间位置范围；

观看空间数量指示信息，用于指示所述整体观看空间中包含的观看空间的数量；

初始观看空间标识信息，用于指示初始观看空间的标识。

在一些实施例中，所述第一时刻的用户观看位置和所述第二时刻的用户观看位置，属于两个不同的观看空间；

或者，所述第一时刻的用户观看位置和所述第二时刻的用户观看位置，属于同一观看空间中的两个不同区域。

在一些实施例中，在所述第一时刻的用户观看位置属于第一观看空间，所述第二时刻的用户观看位置属于第二观看空间，且所述第一观看空间和所述第二观看空间是两个不同的观看空间的情况下，缓存的沉浸式媒体文件包括所述第二观看空间对应的沉浸式媒体文件；

在所述第一时刻的用户观看位置属于第一观看空间的安全区域，所述第二时刻的用户观看位置属于所述第一观看空间的保护区域的情况下，缓存的沉浸式媒体文件包括所述第一观看空间的保护区域的基础媒体文件和/或增强媒体文件。

请参考图13，其示出了本申请一个实施例提供的一种多自由度场景下的沉浸式媒体提供装置的框图。所述装置1300具有实现上述多自由度场景下的沉浸式媒体提供方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。所述装置1300可以是上文介绍的服务器，也可以设置在服务器上。所述装置1300可以包括：请求接收模块1310、文件获取模块1320和文件发送模块1330。

所述请求接收模块1310，用于接收来自客户端的目标文件获取请求，所述目标文件获取请求包括与第二时刻的观看位置信息对应的目标文件信息，所述第二时刻的观看位置信息是根据用户运动信息和第一时刻的观看位置信息预测得到的，所述第二时刻位于所述第一时刻之后，所述观看位置信息用于指示沉浸式媒体内容的用户观看位置。

所述文件获取模块1320，用于获取所述目标文件信息所指示的沉浸式媒体文件。

所述文件发送模块1330，用于向所述客户端发送所述目标文件信息所指示的沉浸式媒体文件。

在一些实施例中，如图14所示，所述装置1300还包括：信息发送模块1340。

所述请求接收模块1310，还用于接收来自所述客户端的沉浸式媒体播放请求，所述沉浸式媒体播放请求用于请求播放所述沉浸式媒体内容。

所述信息发送模块1340，用于向所述客户端发送所述沉浸式媒体内容，以及观看空间关系指示信息，以使得所述客户端根据所述观看空间关系指示信息，缓存所述目标文件信息所指示的沉浸式媒体文件。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图15，其示出了本申请一个实施例提供的终端的结构框图。该终端1500可以是诸如手机、平板电脑、电视机、放映机、显示器、多媒体播放设备、可穿戴设备、PC等电子设备。该终端用于实施上述实施例中提供的多自由度场景下的沉浸式媒体获取方法。具体来讲：

通常，终端1500包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令，至少一段程序、代码集或指令集，且经配置以由一个或者一个以上处理器执行，以实现上述多自由度场景下的沉浸式媒体获取方法。

在一些实施例中，终端1500还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地，外围设备包括：射频电路1504、触摸显示屏1505、摄像头1506、音频电路1507、定位组件1508和电源1509中的至少一种。

本领域技术人员可以理解，图15中示出的结构并不构成对终端1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

请参考图16，其示出了本申请一个实施例提供的服务器的结构框图。该服务器用于实施上述实施例中提供的多自由度场景下的沉浸式媒体提供方法。具体来讲：

所述服务器1600包括CPU(Central Processing Unit，中央处理单元)1601、包括RAM(Random Access Memory，随机存取存储器)1602和ROM(Read-Only Memory，只读存储器)1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。所述服务器1600还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output，输入/输出)系统1606，和用于存储操作系统1613、应用程序1614和其他程序模块1612的大容量存储设备1607。

所述基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中所述显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。所述基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。所述大容量存储设备1607及其相关联的计算机可读介质为服务器1600提供非易失性存储。也就是说，所述大容量存储设备1607可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。

根据本申请的各种实施例，所述服务器1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1600可以通过连接在所述系统总线1605上的网络接口单元1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统(未示出)。

在一些实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集在被终端的处理器执行时，其用于实现上述终端侧的多自由度场景下的沉浸式媒体获取方法。

在一些实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集在被服务器的处理器执行时，其用于实现上述服务器侧的多自由度场景下的沉浸式媒体提供方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

在一些实施例中，还提供了一种计算机程序产品，当该计算机程序产品被终端的处理器执行时，其用于实现上述终端侧的多自由度场景下的沉浸式媒体获取方法。

在一些实施例中，还提供了一种计算机程序产品，当该计算机程序产品被服务器的处理器执行时，其用于实现上述服务器侧的多自由度场景下的沉浸式媒体提供方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种多自由度场景下的沉浸式媒体获取方法，其特征在于，所述方法包括：

缓存所述第二时刻的观看位置信息对应的沉浸式媒体文件。

2.根据权利要求1所述的方法，其特征在于，所述根据所述观看空间关系指示信息，获取所述第二时刻的观看位置信息对应的沉浸式媒体文件，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

向所述服务器发送沉浸式媒体播放请求，所述沉浸式媒体播放请求用于请求播放所述沉浸式媒体内容；

接收来自所述服务器的所述沉浸式媒体内容，以及所述观看空间关系指示信息。

4.根据权利要求2所述的方法，其特征在于，所述观看空间关系指示信息包括：所述沉浸式媒体内容的整体观看空间中包含的n个观看空间的关系指示信息和空间位置信息，所述n为正整数；其中：

所述第i个观看空间的空间位置信息，用于指示所述第i个观看空间中的各个区域的空间位置范围；

其中，所述i为小于等于所述n的正整数。

5.根据权利要求4所述的方法，其特征在于，所述关系指示信息包括：

观看空间标识字段，用于指示所述观看空间的标识；

6.根据权利要求4所述的方法，其特征在于，所述关系指示信息包括：

观看空间标识字段，用于指示所述观看空间的标识；

7.根据权利要求4所述的方法，其特征在于，所述观看空间关系指示信息还包括：

初始观看空间标识信息，用于指示初始观看空间的标识。

8.根据权利要求1至7任一项所述的方法，其特征在于，

所述第一时刻的用户观看位置和所述第二时刻的用户观看位置，属于两个不同的观看空间；

或者，

所述第一时刻的用户观看位置和所述第二时刻的用户观看位置，属于同一观看空间中的两个不同区域。

9.根据权利要求1至7任一项所述的方法，其特征在于，

在所述第一时刻的用户观看位置属于第一观看空间，所述第二时刻的用户观看位置属于第二观看空间，且所述第一观看空间和所述第二观看空间是两个不同的观看空间的情况下，缓存的沉浸式媒体文件包括所述第二观看空间对应的沉浸式媒体文件；

10.一种多自由度场景下的沉浸式媒体提供方法，其特征在于，所述方法包括：

获取所述目标文件信息所指示的沉浸式媒体文件；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

接收来自所述客户端的沉浸式媒体播放请求，所述沉浸式媒体播放请求用于请求播放所述沉浸式媒体内容；

向所述客户端发送所述沉浸式媒体内容，以及观看空间关系指示信息，以使得所述客户端根据所述观看空间关系指示信息，缓存所述目标文件信息所指示的沉浸式媒体文件。

12.一种多自由度场景下的沉浸式媒体获取装置，其特征在于，所述装置包括：

13.一种多自由度场景下的沉浸式媒体提供装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的多自由度场景下的沉浸式媒体获取方法，或者实现如权利要求10至11任一项所述的多自由度场景下的沉浸式媒体提供方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的多自由度场景下的沉浸式媒体获取方法，或者实现如权利要求10至11任一项所述的多自由度场景下的沉浸式媒体提供方法。