CN113891117A

CN113891117A - 沉浸媒体的数据处理方法、装置、设备及可读存储介质

Info

Publication number: CN113891117A
Application number: CN202111149860.8A
Authority: CN
Inventors: 胡颖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04
Anticipated expiration: 2041-09-29
Also published as: CN116233493A; US20240048676A1; WO2023051138A1; CN113891117B

Abstract

本申请公开了一种沉浸媒体的数据处理方法、装置、设备及可读存储介质，方法包括：响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息；交互反馈消息中携带用于描述交互操作所指示的业务事件信息的业务关键字段；将交互反馈消息发送至服务器，以使服务器基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；接收服务器返回的第二沉浸媒体内容。采用本申请，可以丰富交互反馈的信息类型，提升视频客户端在交互反馈过程中获取媒体内容的准确度。

Description

沉浸媒体的数据处理方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种沉浸媒体的数据处理方法、装置、设备及可读存储介质。

背景技术

沉浸媒体(也可称为沉浸式媒体)是指能为业务对象(例如，用户)带来沉浸式体验的媒体内容，沉浸媒体按照业务对象(例如，用户)在消费媒体内容时的自由度(Degree ofFreedom，简称DoF)，可以分为3DoF媒体、3DoF+媒体以及6DoF媒体。

在沉浸媒体消费的过程中，视频客户端与服务器之间可以通过发送交互反馈消息(Interaction Feedback Message)来进行会话，例如，视频客户端可以向服务器反馈用于描述用户位置信息(例如，用户位置)的交互反馈消息，以便视频客户端能够接收到服务器基于该用户位置信息所返回的媒体内容。但是，发明人在实践中发现，在现有的沉浸媒体消费的过程中，仅存在用户位置信息这一交互反馈消息，以至于在视频客户端与服务器之间进行会话时存在反馈的信息类型较为单一的现象，从而降低了视频客户端在交互反馈过程中获取媒体内容的准确度。

发明内容

本申请实施例提供了一种沉浸媒体的数据处理方法、装置、设备及可读存储介质，可以丰富交互反馈的信息类型，且提升视频客户端在交互反馈过程中获取媒体内容的准确度。

本申请实施例一方面提供了一种沉浸媒体的数据处理方法，包括：

响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息；交互反馈消息中携带用于描述交互操作所指示的业务事件信息的业务关键字段；

将交互反馈消息发送至服务器，以使服务器基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；

接收服务器返回的第二沉浸媒体内容。

接收由视频客户端发送的交互反馈消息；交互反馈消息是由视频客户端响应针对第一沉浸媒体内容的交互操作所生成的交互操作对应的消息；交互反馈消息中携带用于描述交互操作所指示的业务事件信息的业务关键字段；

基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；

将第二沉浸媒体内容返回至视频客户端。

本申请实施例一方面提供了一种沉浸媒体的数据处理装置，包括：

消息生成模块，用于响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息；交互反馈消息中携带用于描述交互操作所指示的业务事件信息的业务关键字段；

消息发送模块，用于将交互反馈消息发送至服务器，以使服务器基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；

内容接收模块，用于接收服务器返回的第二沉浸媒体内容。

其中，装置还包括：

视频请求模块，用于响应针对视频客户端中的沉浸式视频的视频播放操作，生成视频播放操作对应的播放请求，将播放请求发送至服务器，以使服务器基于播放请求获取沉浸式视频的第一沉浸媒体内容；接收服务器返回的第一沉浸媒体内容，在视频客户端的视频播放界面上播放第一沉浸媒体内容。

其中，业务关键字段包含第一关键字段、第二关键字段、第三关键字段以及第四关键字段；第一关键字段用于表征在交互操作包含缩放操作时，执行缩放操作所指示的缩放事件时的缩放比例；第二关键字段用于表征在交互操作包含切换操作时，切换操作所指示的切换事件对应的事件标签和事件状态；第三关键字段用于表征在交互操作包含第一位置交互操作时，观看属于全景视频的第一沉浸媒体内容的业务对象的第一对象位置信息；第四关键字段用于表征在交互操作包含第二位置交互操作时，观看属于容积视频的第一沉浸媒体内容的业务对象的第二对象位置信息。

其中，消息生成模块包括：

第一确定单元，用于响应针对第一沉浸媒体内容的触发操作，确定触发操作所指示的业务事件信息的第一信息类型字段，且记录触发操作的操作时间戳；

第一添加单元，用于将第一信息类型字段和操作时间戳添加至第一沉浸媒体内容相关联的交互信令表，将交互信令表中所添加的第一信息类型字段作为用于描述交互操作所指示的业务事件信息的业务关键字段；

第一生成单元，用于基于交互信令表中的业务关键字段和操作时间戳，生成触发操作对应的交互反馈消息。

其中，在触发操作包含缩放操作时，缩放操作所指示的业务事件信息为缩放事件，且在缩放操作所对应的第一信息类型字段的字段值为第一字段值时，具有第一字段值的第一信息类型字段所映射的字段用于表征执行缩放事件时的缩放比例。

其中，在触发操作包含切换操作时，切换操作所指示的业务事件信息为切换事件，且在切换操作所对应的第一信息类型字段的字段值为第二字段值时，具有第二字段值的第一信息类型字段所映射的字段用于表征切换事件的事件标签和事件状态。

其中，在事件状态的状态值为第一状态值时，具有第一状态值的事件状态用于表征切换事件处于事件触发状态；在事件状态的状态值为第二状态值时，具有第二状态值的事件状态用于表征切换事件处于事件结束状态。

其中，消息生成模块包括：

第二确定单元，用于在检测到观看第一沉浸媒体内容的业务对象的对象位置信息时，将针对对象位置信息的位置交互操作作为响应于第一沉浸媒体内容的交互操作；确定交互操作所指示的业务事件信息的第二信息类型字段，且记录交互操作的操作时间戳；

第二添加单元，用于将第二信息类型字段和操作时间戳添加至第一沉浸媒体内容相关联的交互信令表，将交互信令表中所添加的第二信息类型字段作为用于描述交互操作所指示的业务事件信息的业务关键字段；

第二生成单元，用于基于交互信令表中的业务关键字段和操作时间戳，生成交互操作对应的交互反馈消息。

其中，在第一沉浸媒体内容为沉浸式视频中的沉浸媒体内容，且沉浸式视频为全景视频时，对象位置信息所对应的第二信息类型字段的字段值为第三字段值，具有第三字段值的第二信息类型字段包含第一类位置字段，第一类位置字段用于描述观看属于全景视频的第一沉浸媒体内容的业务对象的位置变动信息。

其中，在第一沉浸媒体内容为沉浸式视频中的沉浸媒体内容，且沉浸式视频为容积视频时，对象位置信息所对应的第二信息类型字段的字段值为第四字段值，具有第四字段值的第二信息类型字段包含第二类位置字段，第二类位置字段用于描述观看属于容积视频的第一沉浸媒体内容的业务对象的位置变动信息。

其中，交互反馈消息还包括在视频客户端的系统层新增的扩展描述字段；扩展描述字段中包含信令表数量字段、信令表标识字段、信令表版本字段以及信令表长度字段；信令表数量字段用于表征交互反馈消息所包含的交互信令表的总数；信令表标识字段用于表征交互反馈消息所包含的每个交互信令表的标识符；信令表版本字段用于表征每个交互信令表的版本号；信令表长度字段用于表征每个交互信令表的长度。

其中，交互反馈消息还包括资源组属性字段以及资源组标识字段；资源组属性字段用于表征第一沉浸媒体内容与目标资源组所包含的沉浸媒体内容集之间的从属关系；资源组标识字段用于表征目标资源组的标识符。

其中，在资源组属性字段的字段值为第一属性字段值时，具有第一属性字段值的资源组属性字段用于表征第一沉浸媒体内容属于沉浸媒体内容集；在资源组属性字段的字段值为第二属性字段值时，具有第二属性字段值的资源组属性字段用于表征第一沉浸媒体内容不属于沉浸媒体内容集。

消息接收模块，用于接收由视频客户端发送的交互反馈消息；交互反馈消息是由视频客户端响应针对第一沉浸媒体内容的交互操作所生成的交互操作对应的消息；交互反馈消息中携带用于描述交互操作所指示的业务事件信息的业务关键字段；

内容获取模块，用于基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；

内容返回模块，用于将第二沉浸媒体内容返回至视频客户端。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

在本申请实施例中，视频客户端(即解码端)可以响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息，其中，这里的交互反馈消息中携带用于描述该交互操作所指示的业务事件信息的业务关键字段。进一步，视频客户端可以将交互反馈消息发送至服务器(即编码端)，以使服务器可以基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，并可以基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容，最终，视频客户端可以接收服务器返回的第二沉浸媒体内容。由此可见，在视频客户端与服务器进行交互的过程中，视频客户端可以向服务器反馈不同类型的交互操作所指示的业务事件信息，应当理解，这里的交互操作不仅可以包含与用户位置相关的操作(例如，用户位置发生变动)，还可以包含针对视频客户端当前所播放的沉浸媒体内容的其他操作(例如，缩放操作)，因此，通过交互反馈消息中所携带的业务关键字段，视频客户端可以向服务器反馈多种类型的业务事件信息，这样，服务器可以基于这些不同类型的业务事件信息来确定响应于该交互操作的沉浸媒体内容，而非只能依赖于用户位置信息，从而可以丰富交互反馈的信息类型，且可以提升视频客户端在交互反馈过程中获取媒体内容的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种全景视频系统的架构图；

图2是本申请实施例提供的3DoF的示意图；

图3是本申请实施例提供的一种容积视频系统的架构图；

图4是本申请实施例提供的6DoF的示意图；

图5是本申请实施例提供的3DoF+的示意图；

图6是本申请实施例提供的一种沉浸媒体的数据处理方法的流程示意图；

图7是本申请实施例提供的一种沉浸媒体的数据处理方法的流程示意图；

图8是本申请实施例提供的一种沉浸媒体的数据处理方法的交互示意图；

图9是本申请实施例提供的一种沉浸媒体的数据处理装置的结构示意图；

图10是本申请实施例提供的一种沉浸媒体的数据处理装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图；

图12是本申请实施例提供的一种数据处理系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及沉浸媒体的数据处理技术。所谓沉浸媒体(也可称为沉浸式媒体)是指能够提供沉浸式的媒体内容，使沉浸于该媒体内容中的业务对象能够获得现实世界中视觉、听觉等感官体验的媒体文件。沉浸媒体按照业务对象在消费媒体内容时的自由度，可以分为3DoF媒体、3DoF+媒体以及6DoF媒体。其中常见的6DoF媒体包括多视角视频以及点云媒体。沉浸式的媒体内容包括以各种形式在三维(3-Dimension，3D)空间中表示的视频内容，例如以球面形式表示的三维视频内容。具体地，沉浸式的媒体内容可以是VR(Virtual Reality，虚拟现实)视频内容、全景视频内容、球面视频内容、360度视频内容或容积视频内容。另外，沉浸式的媒体内容还包括与三维空间中表示的视频内容相同步的音频内容。

全景视频/图像是指采用多个摄像机对场景进行拍摄、拼接以及映射后，可根据业务对象的观看朝向或视窗提供部分媒体画面，最多提供360度图像范围的球面视频或图像。全景视频/图像是一种典型的提供三自由度(即3DoF)体验的沉浸式媒体。

V3C容积媒体(visual volumetric video-based coding media)是指捕获自三维空间视觉内容并提供3DoF+、6DoF观看体验的，以传统视频编码的，在文件封装中包含容积视频类型轨道的沉浸式媒体，具体可以包括多视角视频、视频编码点云等。

其中，多视角视频也可称为多视点视频，是指采用多组摄像机阵列，从多个角度对场景进行拍摄，带有场景的纹理信息(色彩信息等)和深度信息(空间距离信息等)的视频。多视角/多视点视频也叫自由视角/自由视点视频，是一种提供六自由度(即6DoF)体验的沉浸式媒体。

其中，点云是空间中一组无规则分布的、表达三维物体或场景的空间结构及表面属性的离散点集。点云中的每个点至少具有三维位置信息，根据应用场景的不同，还可能具有色彩、材质或其他信息。通常，点云中的每个点都具有相同数量的附加属性。点云可以灵活方便地表达三维物体或场景的空间结构及表面属性，因而应用广泛，包括虚拟现实游戏、计算机辅助设计(Computer Aided Design，CAD)、地理信息系统(Geography InformationSystem，GIS)、自动导航系统(Autonomous Navigation System，ANS)、数字文化遗产、自由视点广播、三维沉浸远程呈现、生物组织器官三维重建等。其中，点云的获取主要有以下途径：计算机生成、3D激光扫描、3D摄影测量等。

请参见图1，图1是本申请实施例提供的一种全景视频系统的架构图。如图1所示，该全景视频系统可以包括编码设备(例如，编码设备100A)和解码设备(例如，解码设备100B)，编码设备可以是指全景视频的提供者所使用的计算机设备，该计算机设备可以是终端(如PC(Personal Computer，个人计算机)、智能移动设备(如智能手机)等)或服务器。解码设备可以是指全景视频的使用者所使用的计算机设备，该计算机设备可以是终端(如PC(Personal Computer，个人计算机)、智能移动设备(如智能手机)、VR设备(如VR头盔、VR眼镜等))。全景视频的数据处理过程包括在编码设备侧的数据处理过程及在解码设备侧的数据处理过程。

在编码设备侧的数据处理过程主要包括：(1)全景视频的媒体内容的获取与制作过程；(2)全景视频的编码及文件封装的过程。在解码设备侧的数据处理过程主要包括：(1)全景视频的文件解封装及解码的过程；(2)全景视频的渲染过程。另外，编码设备与解码设备之间涉及全景视频的传输过程，该传输过程可以基于各种传输协议来进行，此处的传输协议可包括但不限于：DASH(Dynamic Adaptive Streaming over HTTP，动态自适应流媒体传输)协议、HLS(HTTP Live Streaming，动态码率自适应传输)协议、SMTP(Smart MediaTransport Protocol，智能媒体传输协议)、TCP(Transmission Control Protocol，传输控制协议)等。

下面将结合图1，分别对全景视频的数据处理过程中涉及的各个过程进行详细介绍。

一、在编码设备侧的数据处理过程：

(1)全景视频的媒体内容的获取与制作过程。

1)全景视频的媒体内容的获取过程。

全景视频的媒体内容是通过捕获设备采集现实世界的声音-视觉场景获得的。在一种实现中，捕获设备可以是指设于编码设备中的硬件组件，例如捕获设备是指终端的麦克风、摄像头、传感器等。另一种实现中，该捕获设备也可以是与编码设备相连接的硬件装置，例如与服务器相连接的摄像头，用于为编码设备提供全景视频的媒体内容的获取服务。该捕获设备可以包括但不限于：音频设备、摄像设备及传感设备。其中，音频设备可以包括音频传感器、麦克风等。摄像设备可以包括普通摄像头、立体摄像头、光场摄像头等。传感设备可以包括激光设备、雷达设备等。捕获设备的数量可以为多个，这些捕获设备被部署在现实空间中的一些特定位置以同时捕获该空间内不同角度的音频内容和视频内容，捕获的音频内容和视频内容在时间和空间上均保持同步。本申请实施例可以将由部署在特定位置的捕获设备所采集到的用于提供三自由度观看体验的3维空间的媒体内容称作全景视频。

例如，如图1所示，真实世界的声音-视觉场景10A可以由编码设备100A中的多个音频传感器以及一组摄像机阵列捕获，或者，可以由与编码设备100A相连接的具有多个摄像头和传感器的摄像设备捕获。采集结果可以为一组数字图像/视频信号10B_i(即视频内容)以及数字音频信号10B_a(即音频内容)。这里的摄像机/摄像头通常会覆盖摄像机阵列或摄像设备中心点周围的所有方向，因此，全景视频也可称为360度视频。

2)全景视频的媒体内容的制作过程。

应当理解，本申请实施例所涉及的全景视频的媒体内容的制作过程可以理解为全景视频的内容制作的过程。捕获到的音频内容本身就是适合被执行全景视频的音频编码的内容。捕获到的视频内容进行一系列制作流程后才可成为适合被执行全景视频的视频编码的内容，该制作流程可以包括：

①拼接。由于捕获到的视频内容是捕获设备在不同角度下拍摄得到的，拼接就是指将这些各个角度拍摄的视频内容拼接成一个完整的、能够反映现实空间360度视觉全景的视频，即拼接后的视频是一个在三维空间表示的球面视频。或者，对捕获到的多个图像进行拼接，得到一个在三维空间表示的球面图像。

②旋转。是该制作流程中一个可选的处理操作，上述拼接得到的球面视频中的每个视频帧均为基于全局坐标轴单位球面上的球面图像，旋转就是指将单位球面在全局坐标轴上进行旋转。通过旋转的角度来表示本地坐标轴到全局坐标轴转换所需要的旋转角度。其中，单位球面的本地坐标轴是经过旋转后的坐标系统的轴。应当理解，如果本地坐标轴和全局坐标轴相同，则不需要进行旋转。

③投影。投影就是指将拼接形成的一个三维视频(或将旋转后的一个三维视频)映射到一个二维(2-Dimension，2D)图像上的过程，投影形成的2D图像称为投影图像；投影的方式可包括但不限于：经纬图投影、正六面体投影。

④区域封装。投影图像可以被直接进行编码，也可以对投影图像进行区域封装之后再进行编码。实践中发现，在沉浸媒体的数据处理过程中，对于二维投影图像进行区域封装之后再进行编码能够大幅提升沉浸媒体的视频编码效率，因此区域封装技术被广泛应用到沉浸媒体的视频处理过程中。所谓区域封装是指将投影图像按区域执行转换处理的过程，区域封装过程使投影图像被转换为封装图像。区域封装的过程具体包括：将投影图像划分为多个映射区域，然后再对多个映射区域分别进行转换处理得到多个封装区域，将多个封装区域映射到一个2D图像中得到封装图像。其中，映射区域是指执行区域封装前在投影图像中经划分得到的区域；封装区域是指执行区域封装后位于封装图像中的区域。转换处理可以包括但不限于：镜像、旋转、重新排列、上采样、下采样、改变区域的分辨率及移动等处理。

例如，如图1所示，编码设备100A可以对数字图像/视频信号10B_i中属于同一时间实例的图像进行拼接、(可能)旋转、投影并映射到封装图像10D上。

需要说明的是，通过上述获取与制作过程得到的全景视频，再通过编码设备处理并传输至解码设备进行相应的数据处理后，解码设备侧的业务对象只能通过执行一些特定动作(如头部旋转)来观看360度的视频信息，也就是说，全景视频是一种提供三自由度的沉浸式媒体。请一并参见图2，图2是本申请实施例提供的3DoF的示意图。如图2所示，3DoF是指业务对象在一个三维空间的中心点固定，业务对象头部沿着X轴、Y轴和Z轴旋转来观看媒体内容提供的画面。在本申请实施例中，可以将进行沉浸式媒体(例如全景视频、容积视频)消费的用户统称为业务对象。

(2)全景视频的编码及文件封装的过程。

捕获到的音频内容可直接进行音频编码形成全景视频的音频码流。经过上述制作流程①-④(可能不包括②)之后，对封装图像进行视频编码，得到全景视频的视频码流。将音频码流和视频码流按照全景视频的文件格式(如ISOBMFF(ISO Based Media FileFormat，基于ISO标准的媒体文件格式))封装在文件容器中形成全景视频的媒体文件资源，该媒体文件资源可以是媒体文件或媒体片段形成的全景视频的媒体文件；并按照全景视频的文件格式要求采用媒体呈现描述信息(Media presentation description，MPD)记录该全景视频的媒体文件资源的元数据，此处的元数据是对与全景视频的呈现有关的信息的总称，该元数据可包括对媒体内容的描述信息、对视窗的描述信息以及对媒体内容呈现相关的信令信息等等。如图1所示，编码设备会存储经过数据处理过程之后形成的媒体呈现描述信息和媒体文件资源。

例如，如图1所示，编码设备100A可以对捕获到的数字音频信号10B_a进行音频编码，得到音频码流10E_a，同时，可以对封装图像10D进行视频编码，得到视频码流10E_v，或者，可以对封装图像10D进行图像编码，得到编码图像10E_i。随后，编码设备100A可以根据特定的媒体文件格式(如ISOBMFF)，将编码后得到的编码图像10E_i、视频码流10E_v和/或音频码流10E_a组合成用于文件回放的一个媒体文件10F或者组合成一个用于流式传输的包含一个初始化片段和多个媒体片段的片段序列10F_s。其中，媒体文件10F和片段序列10F_s均属于全景视频的媒体文件资源。此外，编码设备100A中的文件封装器也可以将元数据添加到媒体文件10F或片段序列10F_s中，例如，这里的元数据可以包括投影信息和区域封装信息，这些元数据将有助于后续解码设备渲染解码后得到的封装图像。随后，编码设备100A可以采用特定的传输机制(如DASH、SMTP)将片段序列10F_s传输到解码设备100B，同时将媒体文件10F也传输到解码设备100B。其中，可选的，这里的解码设备100B可以为一个OMAF(Omnidirectional Media Application Format，全景媒体应用格式)播放器。

二、在解码设备侧的数据处理过程：

(3)全景视频的文件解封装及解码的过程。

解码设备可以通过编码设备的推荐或按照解码设备端的业务对象需求自适应动态从编码设备获得全景视频的媒体文件资源和相应的媒体呈现描述信息，例如解码设备可根据业务对象的头部/眼睛的跟踪信息确定业务对象的朝向和位置，再基于确定的朝向和位置动态向编码设备请求获得相应的媒体文件资源。媒体文件资源和媒体呈现描述信息通过传输机制(如DASH、SMT(Smart Media Transport，智能媒体传输))由编码设备传输给解码设备。解码设备侧的文件解封装的过程与编码设备侧的文件封装过程是相逆的，解码设备按照全景视频的文件格式(例如，ISOBMFF)要求对媒体文件资源进行解封装，得到音频码流和视频码流。解码设备侧的解码过程与编码设备侧的编码过程是相逆的，解码设备对音频码流进行音频解码，还原出音频内容；解码设备对视频码流进行视频解码，还原出视频内容。

例如，如图1所示，编码设备100A中的文件封装器输出的媒体文件10F与解码设备100B中输入文件解封装器的媒体文件10F'是相同的。文件解封装器对媒体文件10F'或接收到的片段序列10F'_s进行文件解封装处理，并提取出编码后的码流，具体包括音频码流10E'_a、视频码流10E'_v、编码图像10E'_i，同时解析相应的元数据。其中，视窗相关视频可能会在多个轨道中承载，在进行解码处理之前，这些轨道可以在流重写中合并为单个视频码流10E'_v。随后，解码设备100B可以对音频码流10E'_a进行音频解码，得到音频信号10B'_a(即还原出的音频内容)；对视频码流10E'_v进行视频解码，或者，对编码图像10E'_i进行图像解码，得到图像/视频信号10D'(即还原出的视频内容)。

(4)全景视频的渲染过程。

解码设备根据媒体呈现描述信息中与渲染相关的元数据对音频解码得到的音频内容及视频解码得到的视频内容进行渲染，渲染完成即实现了对该图像的播放输出。特别地，由于全景视频采用3DoF的制作技术，因此解码设备主要基于当前视点、视差、深度信息等对图像进行渲染。其中，视点指业务对象的观看位置点，视差是指业务对象的双目产生的视线差或由于运动产生的视线差。

全景视频系统支持数据盒(Box)，数据盒是指包括元数据的数据块或对象，即数据盒中包含了相应媒体内容的元数据。全景视频可以包括多个数据盒，例如包括球面区域缩放数据盒(Sphere Region Zooming Box)，其包含用于描述球面区域缩放信息的元数据；2D区域缩放数据盒(2D Region Zooming Box)，其包含用于描述2D区域缩放信息的元数据；区域封装数据盒(Region Wise Packing Box)，其包含用于描述区域封装过程中的相应信息的元数据；等等。

例如，如图1所示，解码设备100B可以基于当前的观看方向或视窗(即观看区域)以及投影、球形覆盖、旋转，以及从媒体文件10F'或片段序列10F'_s解析得到的区域封装元数据，将解码得到的封装图像10D'(即图像/视频信号10D')投影到头戴式显示器或任何其他显示设备的屏幕上。类似的，根据当前的观看方向对音频信号10B'_a进行渲染(例如，通过耳机或扬声器)。其中，当前的观看方向由头部跟踪，可能还有眼睛跟踪来确定。此外，除了被渲染器用来渲染解码后的视频信号和音频信号的适当部分之外，当前的观看方向也可被视频解码器和音频解码器用于解码优化。在视窗相关的传输中，当前的观看方向也会被传递给解码设备100B中的策略模块，该策略模块可以根据当前的观看方向确定要接收的视频轨道。

进一步地，请一并参见图3，图3是本申请实施例提供的一种容积视频系统的架构图。如图3所示，该容积视频系统包括编码设备(例如，编码设备200A)和解码设备(例如，解码设备200B)，编码设备可以是指容积视频的提供者所使用的计算机设备，该计算机设备可以是终端(如PC(Personal Computer，个人计算机)、智能移动设备(如智能手机)等)或服务器。解码设备可以是指容积视频的使用者所使用的计算机设备，该计算机设备可以是终端(如PC(Personal Computer，个人计算机)、智能移动设备(如智能手机)、VR设备(如VR头盔、VR眼镜等))。容积视频的数据处理过程包括在编码设备侧的数据处理过程及在解码设备侧的数据处理过程。

在编码设备侧的数据处理过程主要包括：(1)容积视频的媒体内容的获取与制作过程；(2)容积视频的编码及文件封装的过程。在解码设备侧的数据处理过程主要包括：(1)容积视频的文件解封装及解码的过程；(2)容积视频的渲染过程。另外，编码设备与解码设备之间涉及容积视频的传输过程，该传输过程可以基于各种传输协议来进行，此处的传输协议可包括但不限于：DASH(Dynamic Adaptive Streaming over HTTP，动态自适应流媒体传输)协议、HLS(HTTP Live Streaming，动态码率自适应传输)协议、SMTP(Smart MediaTransport Protocol，智能媒体传输协议)、TCP(Transmission Control Protocol，传输控制协议)等。

下面将结合图3，分别对容积视频的数据处理过程中涉及的各个过程进行详细介绍。

一、在编码设备侧的数据处理过程：

(1)容积视频的媒体内容的获取与制作过程。

1)容积视频的媒体内容的获取过程。

容积视频的媒体内容是通过捕获设备采集现实世界的声音-视觉场景获得的。在一种实现中，捕获设备可以是指设于编码设备中的硬件组件，例如捕获设备是指终端的麦克风、摄像头、传感器等。另一种实现中，该捕获设备也可以是与编码设备相连接的硬件装置，例如与服务器相连接的摄像头，用于为编码设备提供容积视频的媒体内容的获取服务。该捕获设备可以包括但不限于：音频设备、摄像设备及传感设备。其中，音频设备可以包括音频传感器、麦克风等。摄像设备可以包括普通摄像头、立体摄像头、光场摄像头等。传感设备可以包括激光设备、雷达设备等。捕获设备的数量可以为多个，这些捕获设备被部署在现实空间中的一些特定位置以同时捕获该空间内不同角度的音频内容和视频内容，捕获的音频内容和视频内容在时间和空间上均保持同步。本申请实施例可以将由部署在特定位置的捕获设备所采集到的用于提供多自由度(如3DoF+、6DoF)观看体验的3维空间的媒体内容称作容积视频。

例如，以获取容积视频的视频内容为例进行说明，如图3所示，视觉场景20A(包括真实世界的视觉场景或合成的视觉场景)可以由编码设备200A相连接的一组摄像机阵列捕获，或者，可以由与编码设备200A相连接的具有多个摄像头和传感器的摄像设备捕获，或者，还可以由多个虚拟摄像机捕获。采集结果可以为源容积数据20B(即容积视频的视频内容)。

2)容积视频的媒体内容的制作过程。

应当理解，本申请实施例所涉及的容积视频的媒体内容的制作过程可以理解为容积视频的内容制作的过程，且这里的容积视频的内容制作主要由部署在多个位置的摄像机或摄像机阵列拍摄得到的多视点视频、点云数据、光场等形式的内容制作而成，比如，编码设备可以将容积视频从三维的表示转换成二维的表示。这里的容积视频可以包含几何信息、属性信息、占位图信息以及图集数据等，容积视频在编码前一般需要进行特定处理，例如点云数据在编码前需要切割、映射等过程。例如，多视点视频在编码前一般需要将多视点视频的不同视点进行分组，以在每个分组内进行主视点与辅助视点的区分。

具体的，①将采集输入的容积视频的三维表示数据(即上述点云数据)投影到二维平面，通常采用正交投影、透视投影、ERP投影(Equi-Rectangular Projection，等距柱状投影)方式，投影到二维平面的容积视频通过几何组件、占位组件和属性组件的数据表示，其中，几何组件的数据提供容积视频每个点在三维空间中的位置信息，属性组件的数据提供容积视频每个点的额外属性(如纹理或材质信息)，占位组件的数据指示其他组件中的数据是否与容积视频关联；

②对容积视频的二维表示的组件数据进行处理生成图块，根据几何组件数据中表示的容积视频的位置，将容积视频的二维表示所在的二维平面区域分割成多个不同大小的矩形区域，一个矩形区域为一个图块，图块包含将该矩形区域反投影到三维空间的必要信息；

③打包图块生成图集，将图块放入一个二维网格中，并保证各个图块中的有效部分是没有重叠的。一个容积视频生成的图块可以打包成一个或多个图集；

④基于图集数据生成对应的几何数据、属性数据和占位数据，将图集数据、几何数据、属性数据、占位数据组合形成容积视频在二维平面的最终表示。

其中，需要注意的是，在容积视频的内容制作过程中，几何组件为必选，占位组件为条件必选，属性组件为可选。

此外，需要说明的是，由于采用捕获设备可以捕获到全景视频，这样的视频经编码设备处理并传输至解码设备进行相应的数据处理后，解码设备侧的业务对象需要通过执行一些特定动作(如头部旋转)来观看360度的视频信息，而执行非特定动作(如移动头部)并不能获得相应的视频变化，VR体验不佳，因此需要额外提供与全景视频相匹配的深度信息，来使业务对象获得更优的沉浸度和更佳的VR体验，这就涉及6DoF制作技术。当业务对象可以在模拟的场景中较自由地移动时，称为6DoF。采用6DoF制作技术进行容积视频的视频内容的制作时，捕获设备一般会选用光场摄像头、激光设备、雷达设备等，捕获空间中的点云数据或光场数据。请一并参见图4，图4是本申请实施例提供的6DoF的示意图。如图4所示，6DoF分为窗口6DoF、全方向6DoF和6DoF，其中，窗口6DoF是指业务对象在X轴、Y轴的旋转移动受限，以及在Z轴的平移受限，例如，业务对象不能够看到窗户框架外的景象，以及业务对象无法穿过窗户。全方向6DoF是指业务对象在X轴、Y轴和Z轴的旋转移动受限，例如，业务对象在受限的移动区域中不能自由地穿过三维的360度VR内容。6DoF是指业务对象在3DoF的基础上，可以沿着X轴、Y轴、Z轴自由平移，例如，业务对象可以在三维的360度VR内容中自由地走动。与6DoF相类似的，还有3DoF和3DoF+制作技术。图5是本申请实施例提供的3DoF+的示意图。如图5所示，3DoF+是指当沉浸媒体提供的虚拟场景具有一定的深度信息，业务对象头部可以基于3DoF在一个有限的空间内移动来观看媒体内容提供的画面。其中，3DoF的示意图可以参见上述图2，这里不再进行赘述。

(2)容积视频的编码及文件封装的过程。

捕获到的音频内容可直接进行音频编码形成容积视频的音频码流。捕获到的视频内容可进行视频编码，得到容积视频的视频码流。此处需要说明的是，如果采用6DoF制作技术，在视频编码过程中需要采用特定的编码方式(如基于传统视频编码的点云压缩方式)进行编码。将音频码流和视频码流按照容积视频的文件格式(如ISOBMFF)封装在文件容器中形成容积视频的媒体文件资源，该媒体文件资源可以是媒体文件或媒体片段形成的容积视频的媒体文件；并按照容积视频的文件格式要求采用媒体呈现描述信息(即MPD)记录该容积视频的媒体文件资源的元数据，此处的元数据是对与容积视频的呈现有关的信息的总称，该元数据可包括对媒体内容的描述信息、对构建得到的每个视点组与观看媒体内容的空间位置信息之间的映射关系进行描述的定时元数据信息、对视窗的描述信息以及对媒体内容呈现相关的信令信息等等。如图1所示，编码设备会存储经过数据处理过程之后形成的媒体呈现描述信息和媒体文件资源。

具体的，采集的音频会被编码成相应的音频码流，容积视频的几何信息、属性信息以及占位图信息可以采用传统的视频编码方式，而容积视频的图集数据可以采用熵编码方式。然后，按一定格式(如ISOBMFF、HNSS)将编码的媒体封装在文件容器中并结合描述媒体内容属性的元数据和视窗元数据，根据一个特定的媒体文件格式组成一个媒体文件或者组成一个初始化片段和媒体片段。

例如，如图3所示，编码设备200A对源容积视频数据20B中的一个或多个容积视频帧进行容积视频编码，得到编码后的VC3码流20E_v(即视频码流)，包括一个图集码流(即对图集数据进行编码后得到的码流)，至多一个占用码流(即对占位图信息进行编码后得到的码流)，一个几何码流(即对几何信息进行编码后得到的码流)，以及零个或更多个属性码流(即对属性信息进行编码后得到的码流)。随后，编码设备200A可以根据特定的媒体文件格式(如ISOBMFF)，将一个或多个编码后的码流封装成一个用于本地回放的媒体文件20F或者封装成一个用于流式传输的包含一个初始化片段和多个媒体片段的片段序列20F_s。此外，编码设备200A中的文件封装器也可以将元数据添加到媒体文件20F或片段序列20F_s中。进一步，编码设备200A可以采用某种传输机制(如DASH、SMTP)将片段序列20F_s传输到解码设备200B，同时将媒体文件20F也传输到解码设备200B。其中，可选的，这里的解码设备200B可以为一个播放器。

二、在解码设备侧的数据处理过程：

(3)容积视频的文件解封装及解码的过程。

解码设备可以通过编码设备的推荐或按照解码设备侧的业务对象需求自适应动态从编码设备获得容积视频的媒体文件资源和相应的媒体呈现描述信息，例如解码设备可根据业务对象的头部/眼睛的跟踪信息确定业务对象的朝向和位置，再基于确定的朝向和位置动态向编码设备请求获得相应的媒体文件资源。媒体文件资源和媒体呈现描述信息通过传输机制(如DASH、SMT)由编码设备传输给解码设备。解码设备侧的文件解封装的过程与编码设备侧的文件封装过程是相逆的，解码设备按照容积视频的文件格式(例如，ISOBMFF)要求对媒体文件资源进行解封装，得到音频码流和视频码流。解码设备侧的解码过程与编码设备侧的编码过程是相逆的，解码设备对音频码流进行音频解码，还原出音频内容；解码设备对视频码流进行视频解码，还原出视频内容。

例如，如图3所示，编码设备200A中的文件封装器输出的媒体文件20F与解码设备200B中输入文件解封装器的媒体文件20F'是相同的。文件解封装器对媒体文件20F'或接收到的片段序列20F'_s进行文件解封装处理，并提取出编码后的VC3码流20E'_v，同时解析相应的元数据，随后可以对VC3码流20E'_v进行容积视频解码，得到解码后的视频信号20D'(即还原出的视频内容)。

(4)容积视频的渲染过程。

解码设备根据媒体文件资源对应的媒体呈现描述信息中与渲染相关的元数据，对音频解码得到的音频内容及视频解码得到的视频内容进行渲染，渲染完成即实现了对该图像的播放输出。

容积视频系统支持数据盒(Box)，数据盒是指包括元数据的数据块或对象，即数据盒中包含了相应媒体内容的元数据。容积视频可以包括多个数据盒，例如包括文件封装数据盒(ISO Base Media File Format Box，简称为ISOBMFF Box)，其包含用于描述文件封装时的相应信息的元数据。

例如，如图3所示，解码设备200B可以基于当前的观看方向或视窗，对解码后的视频信号20D'进行重构，得到重构后的容积视频数据20B'，进而可以对重构后的容积视频数据20B'进行渲染，并显示在头戴式显示器或任何其他显示设备的屏幕上。其中，当前的观看方向由头部跟踪，可能还有眼睛跟踪来确定。在视窗相关的传输中，当前的观看方向也会被传递给解码设备200B中的策略模块，该策略模块可以根据当前的观看方向确定要接收的轨道。

通过上述图1所对应的实施例中描述的过程或者上述图3所对应的实施例中描述的过程，解码设备可以动态地从编码设备侧获取沉浸媒体对应的媒体文件资源，由于媒体文件资源是由编码设备对捕获到的音视频内容进行编码以及封装后所得到的，因此，解码设备接收到编码设备返回的媒体文件资源后，需要先对该媒体文件资源进行解封装，得到相应的音视频码流，随后再对该音视频码流进行解码，最终才能将解码后的音视频内容呈现给业务对象。这里的沉浸媒体包括但不限于全景视频和容积视频，其中，容积视频具体可以包括多视角视频、VPCC(Video-based Point Cloud Compression，基于传统视频编码的点云压缩)点云媒体、GPCC(Geometry-based Point Cloud Compression，基于几何模型的点云压缩)点云媒体。

应当理解，在业务对象进行沉浸媒体消费时，解码设备与编码设备之间可以不断进行交互反馈，例如，解码设备可以将业务对象状态(例如，对象位置信息)反馈给编码设备，以使编码设备能够根据交互反馈的内容为业务对象提供相应的媒体文件资源。在本申请实施例中，可以将对沉浸媒体的媒体文件资源进行解封装及解码之后所得到的可播放的媒体内容(包括音频内容、视频内容)统称为沉浸媒体内容，对于解码设备而言，解码设备可以在视频播放界面上播放由获取到的媒体文件资源还原出来的沉浸媒体内容。也就是说，一个媒体文件资源可以对应于一个沉浸媒体内容，因此，本申请实施例可以将第一媒体文件资源对应的沉浸媒体内容称为第一沉浸媒体内容，将第二媒体文件资源对应的沉浸媒体内容称为第二沉浸媒体内容，其他媒体文件资源与相应的沉浸媒体内容也可以采用类似的命名。

为了支持更丰富的交互反馈场景，本申请实施例提供了一种沉浸媒体交互反馈消息的指示方法。具体来说，解码设备(如用户终端)上可以运行有视频客户端，进而可以在该视频客户端的视频播放界面上播放第一沉浸媒体内容。应当理解，这里的第一沉浸媒体内容是由解码设备对第一媒体文件资源进行解封装及解码之后所得到的，而第一媒体文件资源是由编码设备(如服务器)预先对相关音视频内容进行编码及封装后所得到的。在播放第一沉浸媒体内容的过程中，解码设备可以响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息，其中，这里的交互反馈消息中携带用于描述该交互操作所指示的业务事件信息的业务关键字段。进一步，解码设备可以将交互反馈消息发送至编码设备，以使编码设备可以基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，并可以基于交互操作所指示的业务事件信息获取用于响应交互操作的第二媒体文件资源。其中，这里的第二媒体文件资源是由编码设备预先对相关音视频内容进行编码及封装后所得到的。最终，解码设备可以接收编码设备返回的第二媒体文件资源，并对第二媒体文件资源进行解封装及解码，从而得到可播放的第二沉浸媒体内容，随后在其视频播放界面上播放第二沉浸媒体内容。对第二媒体文件资源进行解封装及解码的具体过程可以参见上述图1所对应的实施例中描述的相关过程或者图3所对应的实施例中描述的相关过程。

在本申请实施例中，上述交互操作不仅可以包含与用户位置相关的操作(例如，用户位置发生变动)，还可以包含针对视频客户端当前所播放的沉浸媒体内容的其他操作(例如，缩放操作)，因此，通过交互反馈消息中所携带的业务关键字段，解码设备上的视频客户端可以向编码设备反馈多种类型的业务事件信息，这样，编码设备可以基于这些不同类型的业务事件信息来确定响应于该交互操作的沉浸媒体内容，而非只能依赖于用户位置信息，从而可以丰富交互反馈的信息类型，且可以提升视频客户端在交互反馈过程中获取媒体内容的准确度。

本申请实施例提供的方法可以应用于沉浸媒体系统的服务器端(即编码设备侧)、播放器端(即解码设备侧)以及中间节点(例如，SMT接收实体、SMT发送实体)等环节。其中，解码设备与编码设备之间进行交互反馈的具体过程可以参见下述图6-图8所对应实施例的描述。

进一步地，请参见图6，图6是本申请实施例提供的一种沉浸媒体的数据处理方法的流程示意图。该方法可以由沉浸媒体系统(例如，全景视频系统或者容积视频系统)中的解码设备来执行，该解码设备可以为上述图1所对应实施例中的解码设备100B，也可以为上述图3所对应实施例中的解码设备200B。该解码设备可以为集成有视频客户端的用户终端，该方法至少可以包括以下步骤S101-步骤S103：

步骤S101，响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息；交互反馈消息中携带用于描述交互操作所指示的业务事件信息的业务关键字段；

具体的，用户终端上的视频客户端在获取到服务器返回的第一媒体文件资源后，可以对第一媒体文件资源进行解封装处理以及解码处理，得到第一沉浸媒体内容，进而可以在该视频客户端的视频播放界面上播放第一沉浸媒体内容。其中，这里的第一沉浸媒体内容是指业务对象当前正在观看的沉浸媒体内容，这里的业务对象可以指消费第一沉浸媒体内容的用户。可选的，第一沉浸媒体内容可以属于某个沉浸式视频，该沉浸式视频可以为包含一个或多个沉浸媒体内容的视频集合，本申请实施例对沉浸式视频所包含的内容数量不进行限定。例如，假设服务器提供的一个沉浸式视频包括N个沉浸媒体内容，N为大于1的整数，分别为：与场景P1相关联的沉浸媒体内容A1、与场景P2相关联的沉浸媒体内容A2、…、与场景P1相关联的沉浸媒体内容AN，则视频客户端可以按照服务器的推荐或业务对象的需求，从上述N个沉浸媒体内容中获取到的任意一个或多个沉浸媒体内容，例如，沉浸媒体内容A1，则此时沉浸媒体内容A1可以作为当前的第一沉浸媒体内容。

需要说明的是，该沉浸式视频可以为全景视频；可选的，该沉浸式视频可以为容积视频，本申请实施例对沉浸式视频的具体视频类型不进行限定。

进一步，在视频客户端的视频播放界面上播放第一沉浸媒体内容的过程中，视频客户端可以响应针对当前正在播放的第一沉浸媒体内容的交互操作，生成该交互操作对应的交互反馈消息。应当理解，交互反馈消息也可称为交互反馈信令，可以提供沉浸式媒体消费时，视频客户端与服务器之间的交互反馈，例如，在消费的第一沉浸媒体内容属于全景视频时，SMT接收实体可以定期地向SMT发送实体反馈虚拟摄像机的方向信息来通知当前VR虚拟摄像机方向，此外，在FOV(Field of view，视场角)改变时也会发送相应的方向信息。又例如，在消费的第一沉浸媒体内容属于容积视频时，SMT接收实体可以定期地向SMT发送实体反馈虚拟摄像机的位置或业务对象的位置、观看方向信息，以便视频客户端获取相应的媒体内容。其中，SMT接收实体和SMT发送实体属于视频客户端与服务器之间的中间节点。

在本申请实施例中，交互操作是指业务对象针对于当前所消费的第一沉浸媒体内容所执行的操作，包括但不限于缩放操作、切换操作、位置交互操作。其中，缩放操作是指对第一沉浸媒体内容进行画面尺寸的缩小或放大的操作，例如，可以通过双击沉浸媒体内容A1，实现对沉浸媒体内容A1的画面放大；又例如，可以通过双指向不同方向同时滑动拉伸沉浸媒体内容A1，实现对沉浸媒体内容A1的画面缩小或画面放大。这里的切换操作可以包括对第一沉浸媒体内容执行的播放速率切换操作、画质切换操作(即清晰度切换操作)、翻转操作、内容切换操作以及允许在应用层进行预先定义的其他基于事件的触发操作，例如针对画面中的目标位置的点击操作，业务对象面向目标方向时的触发操作等等。这里的位置交互操作是指业务对象在观看第一沉浸媒体内容时所产生的针对其对象位置信息(即用户位置信息)的操作，例如实时位置的变动、观看方向的变动、视角方向的变动等。为了便于后续理解和区分，本申请实施例在第一沉浸媒体内容属于全景视频时，将对应的位置交互操作称为第一位置交互操作；在第一沉浸媒体内容属于容积视频时，将对应的位置交互操作称为第二位置交互操作。需要说明的是，本申请实施例对缩放操作、切换操作以及位置交互操作的具体触发方式不进行限定。

应当理解，交互反馈消息中可以携带用于描述交互操作所指示的业务事件信息的业务关键字段。

在一种可选的实施方式中，交互反馈消息中可以直接包含业务关键字段，这里的业务关键字段可以包含第一关键字段、第二关键字段、第三关键字段以及第四关键字段。其中，第一关键字段用于表征在交互操作包含缩放操作时，执行缩放操作所指示的缩放事件时的缩放比例；第二关键字段用于表征在交互操作包含切换操作时，切换操作所指示的切换事件对应的事件标签和事件状态；第三关键字段用于表征在交互操作包含第一位置交互操作时，观看属于全景视频的第一沉浸媒体内容的业务对象的第一对象位置信息(例如，业务对象的实时位置、视角方向等)；第四关键字段用于表征在交互操作包含第二位置交互操作时，观看属于容积视频的第一沉浸媒体内容的业务对象的第二对象位置信息(例如，业务对象实时观看方向)。由此可见，交互操作所指示的业务事件信息可以为缩放比例、事件标签和事件状态、第一对象位置信息或第二对象位置信息。

应当理解，一个交互反馈消息可以携带用于描述一个或多个交互操作所指示的业务事件信息的业务关键字段，本申请实施例对交互反馈消息所对应的交互操作的数量和类型不进行限定。

可以理解，由于第一沉浸媒体内容对应的视频类型不相同，因此第一位置交互操作与第二位置交互操作不能同时存在，也就是说，在同一个交互反馈消息中，不能同时存在有效的第三关键字段和有效的第四关键字段。

应当理解，可选的，一个交互反馈消息所携带的业务关键字段可以包括第一关键字段、第二关键字段、第三关键字段、第四关键字段中的任意一种字段，例如，每发生一个交互操作，视频客户端就生成一个相应的交互反馈消息。可选的，在第一沉浸媒体内容属于全景视频的场景下，一个交互反馈消息所携带的业务关键字段可以包括第一关键字段、第二关键字段、第三关键字段中的任意一种或多种字段。同理，可选的，在第一沉浸媒体内容属于容积视频的场景下，一个交互反馈消息所携带的业务关键字段可以包括第一关键字段、第二关键字段、第四关键字段中的任意一种或多种字段。例如，在一段时间内，业务对象针对上述沉浸媒体内容A2执行了缩放操作，且在观看沉浸媒体内容A2的过程中，业务对象的对象位置信息发生了变化，例如，业务对象边走边看，若沉浸媒体内容A2属于容积视频，则此时生成的交互反馈消息将可同时包含反映缩放比例的第一关键字段以及反映第二对象位置信息的第四关键字段，因此最终获取到的第二沉浸媒体内容是基于该缩放比例以及该第二对象位置信息所共同确定的，也就是说，可以基于不同类型的业务事件信息来确定响应于交互操作的沉浸媒体内容，从而可以提升视频客户端在交互反馈过程中获取媒体内容的准确度。

可选的，上述交互反馈消息还可以包含信息标识字段，用于表征每种交互操作所指示的业务事件信息的信息类型，例如，信息标识字段的字段值可以为每类业务事件信息对应的信息名称，这样，当一个交互反馈消息同时携带多种业务事件信息时，可以通过信息标识字段进行信息类型的区分。

应当理解，本申请实施例对交互反馈的时机不进行限定，可以根据实际需求在应用层进行约定。例如，视频客户端可以在检测到某个交互操作时立即生成相应的交互反馈消息发送至服务器；可选的，视频客户端可以定期向服务器发送交互反馈消息，例如，视频客户端每隔30秒向服务器反馈一次。

在另一种可选的实施方式中，交互反馈信息中可以携带与交互操作相关联的交互信令表，且交互信令表中包含用于描述交互操作所指示的业务事件信息的业务关键字段。也就是说，交互反馈消息可以采用交互信令表的形式重新定义和组织多种不同类型的业务事件信息。

可选的，针对交互操作为触发操作的场景，视频客户端响应针对第一沉浸媒体内容的触发操作，确定触发操作所指示的业务事件信息的第一信息类型字段，且记录该触发操作的操作时间戳。其中，这里的触发操作可以指针对第一沉浸媒体内容的接触式操作或某些特定的非接触式操作，例如，该触发操作可以包括缩放操作、切换操作等。进一步，视频客户端可以将第一信息类型字段和操作时间戳添加至第一沉浸媒体内容相关联的交互信令表，并可以将交互信令表中所添加的第一信息类型字段作为用于描述交互操作所指示的业务事件信息的业务关键字段。随后，视频客户端可以基于该交互信令表中的业务关键字段和操作时间戳，生成该触发操作对应的交互反馈消息。其中，这里的第一信息类型字段可用于表征触发操作所指示的业务事件信息的信息类型。可以理解，每一个触发操作都可以对应于一个交互信令表，因此，同一个交互反馈消息可以包括一个或多个交互信令表，本申请实施例对交互反馈消息所包含的交互信令表的数量不进行限制。

应当理解，可选的，在触发操作包含缩放操作时，该缩放操作所指示的业务事件信息为缩放事件，且在缩放操作所对应的第一信息类型字段的字段值为第一字段值时，具有第一字段值的第一信息类型字段所映射的字段用于表征执行该缩放事件时的缩放比例。

应当理解，可选的，在触发操作包含切换操作时，该切换操作所指示的业务事件信息为切换事件，且在切换操作所对应的第一信息类型字段的字段值为第二字段值时，具有第二字段值的第一信息类型字段所映射的字段用于表征该切换事件的事件标签和事件状态。其中，在事件状态的状态值为第一状态值时，具有第一状态值的事件状态用于表征切换事件处于事件触发状态；在事件状态的状态值为第二状态值时，具有第二状态值的事件状态用于表征切换事件处于事件结束状态。

为便于理解，进一步的，下面以SMT信令消息形式为例进行说明，请参见表1，该表1用于指示本申请实施例提供的一种交互信令表的语法：

表1

上述表1所示语法的语义如下：table_id为信令表标识字段，用于表征交互信令表的标识符。version为信令表版本字段，用于表征交互信令表的版本号。length为信令表长度字段，用于表征交互信令表的长度。table_type为第一信息类型字段，用于表征交互信令表携带的信息类型(例如，缩放事件或切换事件)。timestamp为操作时间戳，用于指示当前触发操作产生的时间戳，这里可以采用UTC时间(Universal Time Coordinated，协调世界时)。如表1所示，当第一信息类型字段(即table_type)的字段值为第一字段值(例如，2)时，第一信息类型字段所映射的字段为zoom_ratio，zoom_ratio指示业务对象缩放行为的比例，即执行缩放事件时的缩放比例(也可称为画面缩放信息)，可选的，zoom_ratio可以2^-3为单位。例如，假设用户1(即业务对象)对沉浸媒体内容F1(即第一沉浸媒体内容)进行放大，则相应的交互反馈消息中会携带table_type＝＝2的交互信令表，且zoom_ratio＝16，即表示当前的缩放比例为16*2^-3＝2倍。可选的，zoom_ratio也可作为前述可选实施方式中描述的第一关键字段。如表1所示，当第一信息类型字段的字段值为第二字段值(例如，3)时，第一信息类型字段所映射的字段为event_label和event_trigger_flag，event_label指示业务对象交互触发的事件标签，event_trigger_flag指示业务对象交互触发的事件状态，可选的，event_trigger_flag取值为1(即第一状态值)时表示事件触发(即切换事件处于事件触发状态)，event_trigger_flag取值为0(即第二状态值)时表示事件结束(即切换事件处于事件结束状态)。例如，假设用户2(即业务对象)在观看沉浸媒体内容F2(即第一沉浸媒体内容)时，点击了视频播放界面中的内容切换控件，则相应的交互反馈消息中会携带table_type＝＝3的交互信令表，且event_label＝“content switch”，event_trigger_flag＝1，即表示用户2触发了内容切换操作，希望将当前播放的沉浸媒体内容F2切换为其他沉浸媒体内容。可选的，event_label和event_trigger_flag也可作为前述可选实施方式中描述的第二关键字段。此外，reserved指示保留字节位。

其中，本申请实施例对上述第一字段值以及第二字段值的具体数值不进行限定，且对第一状态值以及第二状态值的具体数值也不进行限定。应当理解，本申请实施例可以支持研发人员在应用层预先定义所需的切换事件，事件标签的具体内容可以根据沉浸媒体内容来确定，本申请实施例对此不进行限定，需要说明的是，相关的沉浸媒体内容需要支持自定义的切换事件，才有可能在后续交互过程中实现事件触发，例如，当上述沉浸媒体内容F2支持内容切换时，才会在播放沉浸媒体内容F2的视频播放界面中显示相应的内容切换控件。

可选的，针对交互操作为位置交互操作的场景，本申请实施例还可以支持在交互反馈消息中携带对象位置信息，此时也可以采用交互信令表的形式进行定义。具体过程可以为：视频客户端在检测到观看第一沉浸媒体内容的业务对象的对象位置信息时，将针对对象位置信息的位置交互操作作为响应于第一沉浸媒体内容的交互操作，进而可以确定该交互操作所指示的业务事件信息的第二信息类型字段，且可以记录该交互操作的操作时间戳。进一步，可以将第二信息类型字段和操作时间戳添加至第一沉浸媒体内容相关联的交互信令表，并可以将该交互信令表中所添加的第二信息类型字段作为用于描述上述交互操作所指示的业务事件信息的业务关键字段。随后，视频客户端可以基于该交互信令表中的业务关键字段和操作时间戳，生成交互操作对应的交互反馈消息。可以理解，每一个位置交互操作都可以对应于一个交互信令表，因此，同一个交互反馈消息可以包括一个或多个交互信令表，但是，同一个交互反馈消息中不能同时存在携带第一对象位置信息的交互信令表和携带第二对象位置信息的交互信令表。可以理解，若视频客户端定时向服务器反馈业务对象的对象位置信息，则在业务对象消费第一沉浸媒体内容的一段时间内，其对象位置信息可能会发生变化，也可能没有发生变化。在对象位置信息没有变化时，服务器仍可以基于该对象位置信息去获取相应的沉浸媒体内容，此时获取到的沉浸媒体内容可能与第一沉浸媒体内容相同；同理，除了该对象位置信息之外，若这段时间内视频客户端还向服务器反馈了其他信息，例如，对第一沉浸媒体内容执行缩放操作时的缩放比例，则服务器可以基于该对象位置信息以及该缩放比例去获取相应的沉浸媒体内容，此时获取到的沉浸媒体内容与第一沉浸媒体内容不相同。

应当理解，可选的，在第一沉浸媒体内容为沉浸式视频中的沉浸媒体内容，且沉浸式视频为全景视频时，对象位置信息所对应的第二信息类型字段的字段值为第三字段值，具有第三字段值的第二信息类型字段包含第一类位置字段，第一类位置字段用于描述观看属于全景视频的第一沉浸媒体内容的业务对象的位置变动信息。

应当理解，可选的，在第一沉浸媒体内容为沉浸式视频中的沉浸媒体内容，且沉浸式视频为容积视频时，对象位置信息所对应的第二信息类型字段的字段值为第四字段值，具有第四字段值的第二信息类型字段包含第二类位置字段，第二类位置字段用于描述观看属于容积视频的第一沉浸媒体内容的业务对象的位置变动信息。

为便于理解，进一步的，请参见表2，该表2用于指示本申请实施例提供的一种交互信令表的语法：

表2

上述表2所示语法的语义如下：table_id为信令表标识字段，用于表征交互信令表的标识符。version为信令表版本字段，用于表征交互信令表的版本号。length为信令表长度字段，用于表征交互信令表的长度。table_type为第二信息类型字段，用于表征交互信令表携带的信息类型(如第一对象位置信息或第二对象位置信息)。timestamp为操作时间戳，用于指示当前位置交互操作产生的时间戳，这里可以采用UTC时间。如表2所示，当table_type的字段值为0(即第三字段值)时，其包含的第一类位置字段有：3DoF+_flag指示3DoF+视频内容；interaction_target为交互目标字段，指示视频客户端当前交互的目标，包括头盔设备当前状态(HMD_status)、业务对象关注目标(Object of interests)、业务对象当前状态(User_status)等。interaction_type为交互类型字段，在本申请实施例将其置0。其中，交互目标字段interaction_target的取值可以参见表3，表3用于指示本申请实施例提供的一种交互目标字段的取值表：

表3

结合表3，请继续参见表2，当交互目标字段取值为1时，表示交互目标为头盔设备当前状态，相应的，ClientRegion为视窗信息，指示视频客户端视窗的尺寸和屏幕分辨率，其具体语法请参见表4，该表4用于指示本申请实施例提供的一种视窗信息的语法：

表4

上述表4的语义如下：Region_width_angle指示视频客户端视窗在横向的张角，精度为2^-16度，取值范围为(-90*2¹⁶，90*2¹⁶)。Region_height_angle指示视频客户端视窗在纵向的张角，精度为2^-16度，取值范围为(-90*2¹⁶，90*2¹⁶)。Region_width_resolution指示视频客户端视窗横向的分辨率，取值范围为(0，2¹⁶-1)。Region_height_resolution指示视频客户端视窗在纵向的分辨率，取值范围为(0，2¹⁶-1)。

请继续参见表2，当交互目标字段取值为2时，表示交互目标为业务对象关注区域当前状态，相应的，ClientRotation为视角方向，指示业务对象实时的视角相对初始视角的变化，其具体语法请参见表5，该表5用于指示本申请实施例提供的一种视角方向的语法：

表5

上述表5的语义如下：3D_rotation_type指示旋转信息的表示类型，该字段取值为0表示旋转信息以欧拉角的形式给出；该字段取值为1表示旋转信息以四元数的形式给出；其余取值保留。rotation_yaw指示业务对象实时的视角相对初始视角的沿着x轴的偏航角度，取值范围为(-180*2¹⁶，180*2¹⁶–1)。rotation_pitch指示业务对象实时的视角相对初始视角的沿着y轴的俯仰角度，取值范围为(-90*2¹⁶，90*2¹⁶)。rotation_roll指示业务对象实时的视角相对初始视角的沿着z轴的翻滚角度，取值范围为(-180*2¹⁶，180*2¹⁶–1)。rotation_x，rotation_y，rotation_z以及rotation_w分别指示四元数x，y，z和w分量的取值，表示业务对象实时的视角相对初始视角的旋转信息。

请继续参见表2，当交互目标字段取值为3且3DoF+_flag取值为1时，表示交互目标为业务对象当前状态，相应的，ClientPosition为业务对象实时位置，指示业务对象在虚拟场景中相对起始位置的位移，在3DoF(即3DoF+_flag取值为0)时该结构中所有字段的字段值为0，在3DoF+(即3DoF+_flag取值为1)时该结构中所有字段的字段值为非0值，且取值范围应在约束范围内。behavior_coefficient定义一个放大行为系数。其中，ClientPosition的具体语法请参见表6，该表6用于指示本申请实施例提供的一种业务对象实时位置的语法：

表6

上述表6的语义如下：position_x指示业务对象实时位置相对起始位置沿着x轴位移，取值范围为(-2¹⁵，2¹⁵-1)毫米。position_y指示业务对象实时位置相对起始位置沿着y轴位移，取值范围为(-2¹⁵，2¹⁵-1)毫米。position_z指示业务对象实时位置相对起始位置沿着z轴位移，取值范围为(-2¹⁵，2¹⁵-1)毫米。

可选的，table_type的字段值为0时所包含的第一类位置字段可作为前述一种可选实施方式中的第三关键字段。

请继续参见表2，如表2所示，当table_type的字段值为1(即第四字段值)时，其包含的第二类位置字段有：ClientPosition指示业务对象当前在全局坐标系中的位置，其具体语法可以参见上述表6。V3C_orientation指示业务对象在以当前位置建立的笛卡尔坐标系中的观看方向。last_processed_media_timestamp指示已加入解码器缓冲区的最后一个媒体单元的时间戳。SMT发送实体使用此字段从容积视频播放器的新asset(即新的沉浸媒体内容)中确定下一个传输的媒体单元。下一个媒体单元是紧随该时间戳后的带有时间戳或序号的媒体单元。SMT发送实体从随后的媒体时间戳开始，从传输先前的asset(根据先前的视窗确定)切换到传输新的asset(根据新的视窗确定)，以减少接收对应于新视窗媒体内容的延迟。其中，V3C_orientation的具体语法请参见表7，该表7用于指示本申请实施例提供的一种业务对象实时观看方向的语法：

表7

上述表7的语义如下：dirx表示以业务对象所在位置为原点建立笛卡尔坐标系，业务对象观看方向在x轴上的坐标。diry表示以业务对象所在位置为原点建立笛卡尔坐标系，业务对象观看方向在y轴上的坐标。dirz表示以业务对象所在位置为原点建立笛卡尔坐标系，业务对象观看方向在z轴上的坐标。

可选的，table_type的字段值为1时所包含的第二类位置字段可作为前述一种可选实施方式中的第四关键字段。

可以理解，本申请实施例还可以将上述表1和表2进行结合，得到一种至少可以表示四种信息类型的交互信令表，从而可以基于该交互信令表生成交互操作对应的交互反馈消息，具体过程可以参见下述图7所对应实施例中的步骤S203。

步骤S102，将交互反馈消息发送至服务器，以使服务器基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；

具体的，视频客户端可以将交互反馈消息发送至服务器，后续服务器接收到该交互反馈消息后，可以基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，进而可以基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容所对应的第二媒体文件资源，该第二媒体文件资源是由服务器预先对相关的音视频内容进行编码以及封装后所得到的，其对应于第二沉浸媒体内容，对音视频内容进行编码以及封装的具体过程可以参见上述图1或图3所对应实施例中的相关描述，这里不再进行赘述。例如，若交互操作为清晰度切换操作，则服务器可以根据该清晰度切换操作所指示的分辨率，获取与该分辨率相匹配的媒体文件资源，作为响应该清晰度切换操作的第二媒体文件资源。

步骤S103，接收服务器返回的第二沉浸媒体内容。

具体的，视频客户端可以接收服务器返回的第二沉浸媒体内容，并可以在视频播放界面上播放第二沉浸媒体内容。结合上述步骤S102，应当理解，服务器基于业务事件信息获取到的首先是第二沉浸媒体内容所对应的媒体文件资源，即第二媒体文件资源，并可以将第二媒体文件资源返回至视频客户端，因此，当视频客户端接收到第二媒体文件资源后，可以通过上述图1或图3所对应实施例中的相关描述，对第二媒体文件资源进行解封装以及解码，从而得到可在视频客户端的视频播放界面上播放的第二沉浸媒体内容，其中，解封装以及解码的具体过程这里不再进行赘述。

进一步地，请参见图7，图7是本申请实施例提供的一种沉浸媒体的数据处理方法的流程示意图。该方法可以由沉浸媒体系统(例如，全景视频系统或者容积视频系统)中的解码设备来执行，该解码设备可以为上述图1所对应实施例中的解码设备100B，也可以为上述图3所对应实施例中的解码设备200B。该解码设备可以为集成有视频客户端的用户终端，该方法至少可以包括以下步骤：

步骤S201，响应针对视频客户端中的沉浸式视频的视频播放操作，生成视频播放操作对应的播放请求，将播放请求发送至服务器，以使服务器基于播放请求获取沉浸式视频的第一沉浸媒体内容；

具体的，业务对象希望体验沉浸式视频时，可以通过用户终端上的视频客户端请求相应的沉浸媒体内容。例如，视频客户端可以响应针对视频客户端中的沉浸式视频的视频播放操作，生成该视频播放操作对应的播放请求，进而可以将该播放请求发送至服务器，以使服务器可以基于该播放请求获取沉浸式视频中的第一沉浸媒体内容所对应的第一媒体文件资源。这里的第一媒体文件资源是指服务器对相关音视频内容进行编码以及封装等处理后所得的数据。

步骤S202，接收服务器返回的第一沉浸媒体内容，在视频客户端的视频播放界面上播放第一沉浸媒体内容；

具体的，在服务器基于播放请求获取到第一沉浸媒体内容对应的第一媒体文件资源后，可以将第一媒体文件资源返回至视频客户端，从而视频客户端可以接收由服务器返回的第一媒体文件资源，并对第一媒体文件资源进行解封装以及解码等处理，从而得到可在视频客户端的视频播放界面上播放的第一沉浸媒体内容。

步骤S203，在视频客户端的视频播放界面上播放第一沉浸媒体内容时，响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息；交互反馈消息中携带与交互操作相关联的交互信令表；

具体的，在视频客户端的视频播放界面上播放第一沉浸媒体内容时，视频客户端可以响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息，例如，视频客户端响应针对第一沉浸媒体内容的交互操作，确定交互操作所指示的业务事件信息的信息类型字段，且记录交互操作的操作时间戳。进一步，可以将信息类型字段和操作时间戳添加至第一沉浸媒体内容相关联的交互信令表，将交互信令表中所添加的信息类型字段作为用于描述交互操作所指示的业务事件信息的业务关键字段。随后，可以基于交互信令表中的业务关键字段和操作时间戳，生成交互操作对应的交互反馈消息。

应当理解，这里的交互操作可以包括缩放操作、切换操作、位置交互操作中的一种或多种，其中，位置交互操作可以为第一位置交互操作或第二位置交互操作。

在本申请实施例中，交互反馈消息中可以携带与交互操作相关联的交互信令表，且交互信令表所包含的信息类型字段可作为用于描述交互操作所指示的业务事件信息的业务关键字段。其中，信息类型字段可以包括与触发操作相关的第一信息类型字段以及与位置交互操作相关的第二信息类型字段，本申请实施例将第一信息类型字段和第二信息类型字段统称为信息类型字段。

应当理解，本申请实施例可以将上述表1和表2进行组合，得到一种至少可以表示四种信息类型的交互信令表，这样，通过交互信令表可以将不同信息类型的交互反馈消息整合在一起，而不至于因为信息类型的多样化而显得混乱。请参见表8，该表8用于指示本申请实施例提供的一种交互信令表的语法：

表8

上述表8所示的table_type为信息类型字段，可用于表征交互信令表携带的信息类型。其他字段的具体语义可以参见上述图3所对应实施例中的表1和表2，这里不再进行赘述。可选的，table_type的取值可以参见表9，该表9用于指示本申请实施例提供的一种信息类型字段的取值表：

表9

取值	描述
		0	全景视频用户位置变动信息
1	容积视频用户位置变动信息
		2	画面缩放信息
3	交互事件触发信息
		4…255	未定义

由表9可知，信息类型字段的字段值可以为第一字段值(例如，2)、第二字段值(例如，3)、第三字段值(例如，0)、第四字段值(例如，1)等。表9中的全景视频用户位置变动信息即为第一类位置字段所描述的位置变动信息，容积视频用户位置变动信息即为第二类位置字段所描述的位置变动信息，画面缩放信息即为执行缩放事件时的缩放比例，交互事件触发信息包括切换事件的事件标签和事件状态，后续还可以继续增添其他取值的信息。

应当理解，基于上述表1、表2或表8，本申请实施例生成的交互反馈消息可以支持更丰富的交互反馈场景。请一并参见表10，该表10用于指示本申请实施例提供的一种交互反馈消息的语法：

表10

上述表10所示语法的语义如下：message_id指示交互反馈消息的标识符。version指示交互反馈消息的版本，新的版本所携带的信息将覆盖任何之前的旧版本。length指示包含了以字节计算的交互反馈消息的长度，即从下一字段起直到交互反馈消息最后一个字节的长度，其中，“0”值在此字段无效。number_of_tables为信令表数量字段，指示交互反馈消息中包含的交互信令表的数量，这里用N1表示，本申请实施例对N1的具体数值不进行限定。table_id为信令表标识字段，指示交互反馈消息中包含的每个交互信令表的标识符，这是交互信令表中包含在交互反馈消息的有效负载中的table_id字段的一个副本。table_version为信令表版本字段，指示交互反馈消息中所包含的每个交互信令表的版本号，这是包含在交互反馈消息的有效负载中的交互信令表的版本字段的一个副本。table_length为信令表长度字段，指示交互反馈消息中所包含的每个交互信令表的长度，为包含在交互反馈消息的有效负载中的交互信令表的长度字段的一个副本。message_source指示消息源，0表示交互反馈消息是视频客户端发往服务器，1表示交互反馈消息是服务器发往视频客户端，该值此处置0。asset_group_flag为资源组属性字段，用于表征第一沉浸媒体内容与目标资源组所包含的沉浸媒体内容集之间的从属关系，例如，在资源组属性字段的字段值为第一属性字段值(例如，1)时，具有第一属性字段值的资源组属性字段用于表征第一沉浸媒体内容属于该沉浸媒体内容集；在资源组属性字段的字段值为第二属性字段值(例如，0)时，具有第二属性字段值的资源组属性字段用于表征第一沉浸媒体内容不属于该沉浸媒体内容集，也就是说，asset_group_flag取值为1表示视频客户端当前消费内容(即第一沉浸媒体内容)属于一个资源组(如目标资源组)，取值为0表示视频客户端当前消费内容不属于任何资源组。其中，资源组是指包含多个沉浸媒体内容的集合，本申请实施例中的沉浸式视频可以包括多个沉浸媒体内容(例如第一沉浸媒体内容)，这多个沉浸媒体内容可以根据需要以资源组为单位再进行细分，例如，该沉浸式视频本身就可以作为一个资源组，也就是说，沉浸式视频中的所有沉浸媒体内容均属于一个资源组；或者，该沉浸式视频可以被划分为多个资源组，每个资源组均可以包括该沉浸式视频中的多个沉浸媒体内容。asset_group_id为资源组标识字段，指示视频客户端当前消费内容的资源组标识符，即第一沉浸媒体内容所属的沉浸媒体内容集对应的资源组(如目标资源组)的标识符。asset_id指示视频客户端当前消费内容的标识符。应当理解，每个沉浸媒体内容都有唯一对应的asset_id，在第一沉浸媒体内容属于某个资源组时，视频客户端当前消费的第一沉浸媒体内容的数量可能为不止一个，此时反馈其中某个第一沉浸媒体内容的asset_id显然不太恰当，因此可以反馈多个第一沉浸媒体内容所属的资源组的标识符。table()为一个交互信令表实体，在有效负载中的该交互信令表与扩展域中table_id出现的顺序相同，一个交互信令表可以作为一个table()的实例。其中，交互信令表的顺序可以是按照对应的操作时间戳进行排序，也可以按照交互信令表对应的table_id进行排序，还可以采用其它排序方式，本申请实施例对此不进行限定。可以看到，表10所示的交互反馈消息中采用了循环语句，因此可以有序地反馈交互反馈消息所包含的一个或多个交互信令表所携带的业务事件信息，也就是说，在交互反馈消息包含多个交互信令表时，服务器会按照循环语句中所呈现的交互信令表的顺序，依次读取每个交互信令表。

其中，上述信令表数量字段、信令表标识字段、信令表版本字段、信令表长度字段、资源组属性字段以及资源组标识字段均属于在视频客户端的系统层新增的扩展描述字段。

上述可知，本申请实施例在现有技术的基础上，重新定义和组织了交互反馈消息，并在交互反馈的类型中增加了缩放和事件触发两种类型的反馈信息，以支持更丰富的交互反馈场景，且可以提升视频客户端在交互反馈过程中获取媒体内容的准确度。

步骤S204，将交互反馈消息发送至服务器，以使服务器提取交互信令表，根据交互信令表中的信息类型字段确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；

具体的，视频客户端可以将交互反馈消息发送至服务器，服务器接收到该交互反馈消息后，可以按顺序依次从该交互反馈消息中提取交互信令表，并可以从提取到的交互信令表中读取信息类型字段，进而根据该信息类型字段确定交互操作所指示的业务事件信息。最终，可以基于交互操作所指示的业务事件信息，从上述沉浸式视频中获取用于响应交互操作的第二沉浸媒体内容，并将第二沉浸媒体内容返回至视频客户端。例如，当信息类型字段的字段值为第一字段值时，可以获取缩放事件对应的缩放比例作为业务事件信息；当信息类型字段的字段值为第二字段值时，可以获取切换事件的事件标签和事件状态作为业务事件信息；当信息类型字段的字段值为第三字段值时，可以获取观看属于全景视频的第一沉浸媒体内容的业务对象的位置变动信息作为业务事件信息；当信息类型字段的字段值为第四字段值时，可以获取观看属于容积视频的第一沉浸媒体内容的业务对象的位置变动信息作为业务事件信息。

步骤S205，接收服务器返回的第二沉浸媒体内容，在视频播放界面上播放第二沉浸媒体内容。

具体的，由于服务器返回的其实是沉浸式视频中的第二沉浸媒体内容所对应的第二媒体文件资源，因此视频客户端可以接收由服务器返回的第二媒体文件资源，并对第二媒体文件资源进行解封装以及解码等处理，从而得到可播放的第二沉浸媒体内容，并可在视频客户端的视频播放界面上进行播放。

上述可知，在视频客户端与服务器进行交互的过程中，视频客户端可以向服务器反馈不同类型的交互操作所指示的业务事件信息，应当理解，这里的交互操作不仅可以包含与用户位置相关的操作(例如，用户位置发生变动)，还可以包含针对视频客户端当前所播放的沉浸媒体内容的其他操作(例如，缩放操作)，因此，通过交互反馈消息中所携带的业务关键字段，视频客户端可以向服务器反馈多种类型的业务事件信息，这样，服务器可以基于这些不同类型的业务事件信息来确定响应于该交互操作的沉浸媒体内容，而非只能依赖于用户位置信息，从而可以丰富交互反馈的信息类型，且可以提升视频客户端在交互反馈过程中获取媒体内容的准确度。

进一步，请参见图8，图8是本申请实施例提供的一种沉浸媒体的数据处理方法的交互示意图。该方法可以由沉浸媒体系统(例如，全景视频系统或者容积视频系统)中的解码设备和编码设备共同执行，该解码设备可以为上述图1所对应实施例中的解码设备100B，也可以为上述图3所对应实施例中的解码设备200B。该编码设备可以为上述图1所对应实施例中的解码设备100A，也可以为上述图3所对应实施例中的解码设备200A。该解码设备可以为集成有视频客户端的用户终端，该编码设备可以为服务器，该方法至少可以包括以下步骤：

步骤S301，视频客户端向服务器发起播放请求；

该步骤的具体实现方式可以参见上述图7所对应实施例中的步骤S201，这里不再进行赘述。

步骤S302，服务器基于播放请求获取沉浸式视频的第一沉浸媒体内容；

具体的，服务器可以基于播放请求中所携带的目标内容标识符(即目标asset_id)，从沉浸式视频中获取与该目标内容标识符相匹配的沉浸媒体内容作为第一沉浸媒体内容。可选的，服务器也可以基于播放请求中所携带的业务对象当前的对象位置信息，从沉浸式视频中获取与该对象位置信息相匹配的沉浸媒体内容作为第一沉浸媒体内容。

步骤S303，服务器将第一沉浸媒体内容返回至视频客户端；

步骤S304，视频客户端在视频播放界面上播放第一沉浸媒体内容；

步骤S305，视频客户端响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息；

该步骤的具体实现方式可以参见上述图6所对应实施例中的步骤S101，或者可以参见上述图7所对应实施例中的步骤S203，这里不再进行赘述。

步骤S306，视频客户端将交互反馈消息发送至服务器；

步骤S307，服务器接收由视频客户端发送的交互反馈消息；

步骤S308，服务器基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；

具体的，服务器接收到该交互反馈消息后，可以基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，进而可以基于交互操作所指示的业务事件信息，从沉浸式视频中获取用于响应交互操作的第二沉浸媒体内容。可以理解，当交互反馈消息采用交互信令表的形式来表示时，交互反馈消息中的业务关键字段即为交互信令表中所添加的信息类型字段；当交互反馈消息不采用交互信令表的形式来表示时，业务关键字段直接添加在交互反馈消息中。

应当理解，若第一沉浸媒体内容属于目标资源组所包含的沉浸媒体内容集，则最终获取到的第二沉浸媒体内容可能同属于该沉浸媒体内容集，或者，第二沉浸媒体内容可能属于其他资源组所包含的沉浸媒体内容集，又或者，第二沉浸媒体内容可能不属于任何一个资源组所包含的沉浸媒体内容集，本申请实施例对此不进行限定。

步骤S309，服务器将第二沉浸媒体内容返回至视频客户端；

步骤S310，视频客户端接收服务器返回的第二沉浸媒体内容，在视频播放界面上播放第二沉浸媒体内容。

为便于理解，以沉浸式视频T为例对上述步骤进行简单说明。假设视频客户端向服务器请求沉浸式视频T，服务器接收到该请求(例如，播放请求)后，可以基于该请求将沉浸式视频T中的沉浸媒体内容T1(即第一沉浸媒体内容)发送给视频客户端。视频客户端接收到沉浸媒体内容T1后，可以在对应的视频播放界面上播放沉浸媒体内容T1，业务对象(例如，用户1)开始消费沉浸媒体内容T1，并可以在消费过程中产生交互行为(即针对沉浸媒体内容T1执行交互操作)，从而视频客户端可以生成该交互行为对应的交互反馈消息发送给服务器。进一步，服务器接收视频客户端发送的交互反馈消息，根据该交互反馈消息的消息内容(例如，业务关键字段)，可以从沉浸式视频T中选择其他沉浸媒体内容(即第二沉浸媒体内容，例如，沉浸媒体内容T2)发送给视频客户端，从而业务对象可以体验新的沉浸媒体内容。例如，假设用户1对沉浸媒体内容T1执行缩放操作，如对沉浸媒体内容T1的内容进行放大，且对应的缩放比例为3倍，则服务器可以基于该缩放操作所指示的缩放比例，从沉浸式视频T中选择颜色精度更高的沉浸媒体内容(例如，沉浸媒体内容T2)发送给用户1。又例如，假设用户1对沉浸媒体内容T1执行内容切换操作，则服务器可以基于该内容切换操作，从沉浸式视频T中选择对应替换版本内容的沉浸媒体内容(例如，沉浸媒体内容T3)发送给用户1。

上述可知，本申请实施例在现有技术的基础上，重新组织和定义了交互反馈消息，并在交互反馈的类型中增加了缩放和切换(或事件触发)两种类型的反馈信息，从而可以支持更丰富的交互反馈场景，且可以提升视频客户端在交互反馈过程中获取媒体内容的准确度。

请参见图9，是本申请实施例提供的一种沉浸媒体的数据处理装置的结构示意图。该沉浸媒体的数据处理装置可以是运行于解码设备的一个计算机程序(包括程序代码)，例如该沉浸媒体的数据处理装置可以为解码设备中的一个应用软件；该沉浸媒体的数据处理装置可以用于执行本申请实施例提供的沉浸媒体的数据处理方法中的相应步骤。进一步的，如图9所示，该沉浸媒体的数据处理1可以包括：消息生成模块11、消息发送模块12、内容接收模块13；

消息生成模块11，用于响应针对第一沉浸媒体内容的交互操作，生成交互操作对应的交互反馈消息；交互反馈消息中携带用于描述交互操作所指示的业务事件信息的业务关键字段；

消息发送模块12，用于将交互反馈消息发送至服务器，以使服务器基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；

内容接收模块13，用于接收服务器返回的第二沉浸媒体内容。

其中，消息生成模块11、消息发送模块12、内容接收模块13的具体实现方式可以参见上述图6所对应实施例中的步骤S101-步骤S103，或者，可以参见上述图7所对应实施例中的步骤S203-步骤S205，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

可选的，如图9所示，该沉浸媒体的数据处理1还可以包括：视频请求模块14；

视频请求模块14，用于响应针对视频客户端中的沉浸式视频的视频播放操作，生成视频播放操作对应的播放请求，将播放请求发送至服务器，以使服务器基于播放请求获取沉浸式视频的第一沉浸媒体内容；接收服务器返回的第一沉浸媒体内容，在视频客户端的视频播放界面上播放第一沉浸媒体内容。

其中，视频请求模块14的具体实现方式可以参见上述图7所对应实施例中的步骤S201-步骤S202，这里将不再继续进行赘述。

进一步的，如图9所示，消息生成模块11可以包括：第一确定单元111、第一添加单元112、第一生成单元113、第二确定单元114、第二添加单元115、第二生成单元116；

第一确定单元111，用于响应针对第一沉浸媒体内容的触发操作，确定触发操作所指示的业务事件信息的第一信息类型字段，且记录触发操作的操作时间戳；

第一添加单元112，用于将第一信息类型字段和操作时间戳添加至第一沉浸媒体内容相关联的交互信令表，将交互信令表中所添加的第一信息类型字段作为用于描述交互操作所指示的业务事件信息的业务关键字段；

第一生成单元113，用于基于交互信令表中的业务关键字段和操作时间戳，生成触发操作对应的交互反馈消息。

第二确定单元114，用于在检测到观看第一沉浸媒体内容的业务对象的对象位置信息时，将针对对象位置信息的位置交互操作作为响应于第一沉浸媒体内容的交互操作；确定交互操作所指示的业务事件信息的第二信息类型字段，且记录交互操作的操作时间戳；

第二添加单元115，用于将第二信息类型字段和操作时间戳添加至第一沉浸媒体内容相关联的交互信令表，将交互信令表中所添加的第二信息类型字段作为用于描述交互操作所指示的业务事件信息的业务关键字段；

第二生成单元116，用于基于交互信令表中的业务关键字段和操作时间戳，生成交互操作对应的交互反馈消息。

其中，视频请求模块14的具体实现方式可以参见上述图6所对应实施例中的步骤S101，这里将不再继续进行赘述。

请参见图10，是本申请实施例提供的一种沉浸媒体的数据处理装置的结构示意图。该沉浸媒体的数据处理装置可以是运行于编码设备的一个计算机程序(包括程序代码)，例如该沉浸媒体的数据处理装置可以为编码设备中的一个应用软件；该沉浸媒体的数据处理装置可以用于执行本申请实施例提供的沉浸媒体的数据处理方法中的相应步骤。进一步的，如图10所示，该沉浸媒体的数据处理2可以包括：消息接收模块21、内容获取模块22、内容返回模块23；

消息接收模块21，用于接收由视频客户端发送的交互反馈消息；交互反馈消息是由视频客户端响应针对第一沉浸媒体内容的交互操作所生成的交互操作对应的消息；交互反馈消息中携带用于描述交互操作所指示的业务事件信息的业务关键字段；

内容获取模块22，用于基于交互反馈消息中的业务关键字段，确定交互操作所指示的业务事件信息，基于交互操作所指示的业务事件信息获取用于响应交互操作的第二沉浸媒体内容；

内容返回模块23，用于将第二沉浸媒体内容返回至视频客户端。

其中，消息接收模块21、内容获取模块22、内容返回模块23的具体实现方式可以参见上述图8所对应实施例中的步骤S307-步骤S309，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图11，是本申请实施例提供的一种计算机设备的结构示意图。如图11所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图11所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以执行前文图6、图7、图8任一个所对应实施例中对该沉浸媒体的数据处理方法的描述，也可执行前文图9所对应实施例中对该沉浸媒体的数据处理装置1的描述，还可以执行前述图10所对应实施例中对沉浸媒体的数据处理装置2的描述，在此不再赘述。在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的沉浸媒体的数据处理装置1或沉浸媒体的数据处理装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图6、图7、图8任一个所对应实施例中对沉浸媒体的数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的沉浸媒体的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flashcard)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

此外，这里需要指出的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图6、图7、图8任一个所对应实施例提供的方法。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

进一步的，请参见图12，图12是本申请实施例提供的一种数据处理系统的结构示意图。该数据处理系统3可以包括数据处理装置1a和数据处理装置2a。其中，数据处理装置1a可以为上述图9所对应实施例中的沉浸媒体的数据处理装置1，可以理解的是，该数据处理装置1a可以集成在上述图1所对应实施例中的解码设备100B或上述图3所对应实施例中的解码设备200B中，因此，这里将不再进行赘述。其中，数据处理装置2a可以为上述图10所对应实施例中的沉浸媒体的数据处理装置2，可以理解的是，该数据处理装置2a可以集成在上述图1所对应实施例中的编码设备100A或上述图3所对应实施例中的编码设备200A中，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的数据处理系统实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种沉浸媒体的数据处理方法，其特征在于，所述方法由视频客户端执行，包括：

响应针对第一沉浸媒体内容的交互操作，生成所述交互操作对应的交互反馈消息；所述交互反馈消息中携带用于描述所述交互操作所指示的业务事件信息的业务关键字段；

将所述交互反馈消息发送至服务器，以使所述服务器基于所述交互反馈消息中的所述业务关键字段，确定所述交互操作所指示的业务事件信息，基于所述交互操作所指示的业务事件信息获取用于响应所述交互操作的第二沉浸媒体内容；

接收所述服务器返回的所述第二沉浸媒体内容。

2.根据权利要求1所述的方法，其特征在于，还包括：

响应针对视频客户端中的沉浸式视频的视频播放操作，生成所述视频播放操作对应的播放请求，将所述播放请求发送至服务器，以使所述服务器基于所述播放请求获取所述沉浸式视频的第一沉浸媒体内容；

接收所述服务器返回的所述第一沉浸媒体内容，在所述视频客户端的视频播放界面上播放所述第一沉浸媒体内容。

3.根据权利要求1-2任一项所述的方法，其特征在于，所述业务关键字段包含第一关键字段、第二关键字段、第三关键字段以及第四关键字段；所述第一关键字段用于表征在所述交互操作包含缩放操作时，执行所述缩放操作所指示的缩放事件时的缩放比例；所述第二关键字段用于表征在所述交互操作包含切换操作时，所述切换操作所指示的切换事件对应的事件标签和事件状态；所述第三关键字段用于表征在所述交互操作包含第一位置交互操作时，观看属于全景视频的第一沉浸媒体内容的业务对象的第一对象位置信息；所述第四关键字段用于表征在所述交互操作包含第二位置交互操作时，观看属于容积视频的第一沉浸媒体内容的业务对象的第二对象位置信息。

4.根据权利要求1-2任一项所述的方法，其特征在于，所述响应针对第一沉浸媒体内容的交互操作，生成所述交互操作对应的交互反馈消息，包括：

响应针对第一沉浸媒体内容的触发操作，确定所述触发操作所指示的业务事件信息的第一信息类型字段，且记录所述触发操作的操作时间戳；

将所述第一信息类型字段和所述操作时间戳添加至所述第一沉浸媒体内容相关联的交互信令表，将所述交互信令表中所添加的所述第一信息类型字段作为用于描述所述交互操作所指示的业务事件信息的业务关键字段；

基于所述交互信令表中的所述业务关键字段和所述操作时间戳，生成所述触发操作对应的交互反馈消息。

5.根据权利要求4所述的方法，其特征在于，在所述触发操作包含缩放操作时，所述缩放操作所指示的业务事件信息为缩放事件，且在所述缩放操作所对应的第一信息类型字段的字段值为第一字段值时，具有所述第一字段值的第一信息类型字段所映射的字段用于表征执行所述缩放事件时的缩放比例。

6.根据权利要求4所述的方法，其特征在于，在所述触发操作包含切换操作时，所述切换操作所指示的业务事件信息为切换事件，且在所述切换操作所对应的第一信息类型字段的字段值为第二字段值时，具有所述第二字段值的第一信息类型字段所映射的字段用于表征所述切换事件的事件标签和事件状态。

7.根据权利要求6所述的方法，其特征在于，在所述事件状态的状态值为第一状态值时，具有所述第一状态值的事件状态用于表征所述切换事件处于事件触发状态；在所述事件状态的状态值为第二状态值时，具有所述第二状态值的事件状态用于表征所述切换事件处于事件结束状态。

8.根据权利要求1-2任一项所述的方法，其特征在于，所述响应针对第一沉浸媒体内容的交互操作，生成所述交互操作对应的交互反馈消息，包括：

在检测到观看第一沉浸媒体内容的业务对象的对象位置信息时，将针对所述对象位置信息的位置交互操作作为响应于所述第一沉浸媒体内容的交互操作；

确定所述交互操作所指示的业务事件信息的第二信息类型字段，且记录所述交互操作的操作时间戳；

将所述第二信息类型字段和所述操作时间戳添加至所述第一沉浸媒体内容相关联的交互信令表，将所述交互信令表中所添加的所述第二信息类型字段作为用于描述所述交互操作所指示的业务事件信息的业务关键字段；

基于所述交互信令表中的所述业务关键字段和所述操作时间戳，生成所述交互操作对应的交互反馈消息。

9.根据权利要求8所述的方法，其特征在于，在所述第一沉浸媒体内容为沉浸式视频中的沉浸媒体内容，且所述沉浸式视频为全景视频时，所述对象位置信息所对应的第二信息类型字段的字段值为第三字段值，具有所述第三字段值的第二信息类型字段包含第一类位置字段，所述第一类位置字段用于描述观看属于所述全景视频的第一沉浸媒体内容的业务对象的位置变动信息。

10.根据权利要求8所述的方法，其特征在于，在所述第一沉浸媒体内容为沉浸式视频中的沉浸媒体内容，且所述沉浸式视频为容积视频时，所述对象位置信息所对应的第二信息类型字段的字段值为第四字段值，具有所述第四字段值的第二信息类型字段包含第二类位置字段，所述第二类位置字段用于描述观看属于所述容积视频的第一沉浸媒体内容的业务对象的位置变动信息。

11.根据权利要求1-2任一项所述的方法，其特征在于，所述交互反馈消息还包括在所述视频客户端的系统层新增的扩展描述字段；所述扩展描述字段中包含信令表数量字段、信令表标识字段、信令表版本字段以及信令表长度字段；所述信令表数量字段用于表征所述交互反馈消息所包含的交互信令表的总数；所述信令表标识字段用于表征所述交互反馈消息所包含的每个交互信令表的标识符；所述信令表版本字段用于表征所述每个交互信令表的版本号；所述信令表长度字段用于表征所述每个交互信令表的长度。

12.根据权利要求1-2任一项所述的方法，其特征在于，所述交互反馈消息还包括资源组属性字段以及资源组标识字段；所述资源组属性字段用于表征所述第一沉浸媒体内容与目标资源组所包含的沉浸媒体内容集之间的从属关系；所述资源组标识字段用于表征所述目标资源组的标识符。

13.根据权利要求12所述的方法，其特征在于，在所述资源组属性字段的字段值为第一属性字段值时，具有所述第一属性字段值的资源组属性字段用于表征所述第一沉浸媒体内容属于所述沉浸媒体内容集；在所述资源组属性字段的字段值为第二属性字段值时，具有所述第二属性字段值的资源组属性字段用于表征所述第一沉浸媒体内容不属于所述沉浸媒体内容集。

14.一种沉浸媒体的数据处理方法，其特征在于，所述方法由服务器执行，包括：

接收由视频客户端发送的交互反馈消息；所述交互反馈消息是由所述视频客户端响应针对第一沉浸媒体内容的交互操作所生成的所述交互操作对应的消息；所述交互反馈消息中携带用于描述所述交互操作所指示的业务事件信息的业务关键字段；

基于所述交互反馈消息中的所述业务关键字段，确定所述交互操作所指示的业务事件信息，基于所述交互操作所指示的业务事件信息获取用于响应所述交互操作的第二沉浸媒体内容；

将所述第二沉浸媒体内容返回至所述视频客户端。

15.一种沉浸媒体的数据处理装置，其特征在于，包括：

消息生成模块，用于响应针对第一沉浸媒体内容的交互操作，生成所述交互操作对应的交互反馈消息；所述交互反馈消息中携带用于描述所述交互操作所指示的业务事件信息的业务关键字段；

消息发送模块，用于将所述交互反馈消息发送至服务器，以使所述服务器基于所述交互反馈消息中的所述业务关键字段，确定所述交互操作所指示的业务事件信息，基于所述交互操作所指示的业务事件信息获取用于响应所述交互操作的第二沉浸媒体内容；

内容接收模块，用于接收所述服务器返回的所述第二沉浸媒体内容。

16.一种沉浸媒体的数据处理装置，其特征在于，包括：

消息接收模块，用于接收由视频客户端发送的交互反馈消息；所述交互反馈消息是由所述视频客户端响应针对第一沉浸媒体内容的交互操作所生成的所述交互操作对应的消息；所述交互反馈消息中携带用于描述所述交互操作所指示的业务事件信息的业务关键字段；

内容获取模块，用于基于所述交互反馈消息中的所述业务关键字段，确定所述交互操作所指示的业务事件信息，基于所述交互操作所指示的业务事件信息获取用于响应所述交互操作的第二沉浸媒体内容；

内容返回模块，用于将所述第二沉浸媒体内容返回至所述视频客户端。

17.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使所述计算机设备执行权利要求1-14任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。

19.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，该计算机指令适于由处理器读取并执行，以使具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。