CN109362242B

CN109362242B - 一种视频数据的处理方法及装置

Info

Publication number: CN109362242B
Application number: CN201680086877.4A
Authority: CN
Inventors: 谢清鹏; 傅佳莉; 邸佩云
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-10-10
Filing date: 2016-10-11
Publication date: 2021-05-14
Anticipated expiration: 2036-10-11
Also published as: US20200374335A1; CN109362242A; US11563793B2; US20190238612A1; US20210337006A1; US10757162B2; WO2018068213A1; US11075974B2

Abstract

公开了一种的视频数据的处理方法及装置，所述方法包括：服务器得到视角信息；所述服务器根据所述视角信息得到空间对象信息，所述空间对象信息用以描述全景空间中的指定空间对象；所述服务器得到第二码流，所述第二码流是对所述全景空间的图像数据进行编码得到的；所述服务器将所述第一码流和所述第二码流传输给客户端。采用本实施例，具有可提高视频数据传输的适用性和视频数据的选择多样性，增强视频观看的用户体验的优点。

Description

一种视频数据的处理方法及装置

技术领域

本发明涉及流媒体数据处理领域，尤其涉及一种视频数据的处理方法及装置。

背景技术

随着虚拟现实(英文：virtual reality，VR)技术的日益发展完善，360度视角等VR视频的观看应用越来越多地呈现在用户面前。在VR视频观看过程中，用户随时可能变换视角(英文：field of view，FOV)，每个视角对应一个空间对象的视频码流，视角切换时呈现在用户视角内的VR视频图像也应当随着切换。

现有技术在VR视频准备阶段服务器将VR全景视频划分为多个的固定空间对象对应的多个码流，每个固定空间对象对应一组基于通过超文本传输协议(英文：hypertexttransfer protocol，HTTP)动态自适应流(英文：dynamic adaptive streaming overHTTP，DASH)码流，将每个空间对象对应的码流进行编码并传输给VR终端。在用户变换视角时，终端根据用户切换后的新空间对象选择视频中包含该空间对象的一个或者多个固定空间对象，并解码上述一个或者多个固定空间对象的码流后再根据新空间对象呈现该空间对象对应的视频内容。现有技术中服务器与终端之间的数据传输，在保证一定质量下数据量巨大，网络难以支持，同时需要终端的解码能力达到最大分辨率，适用性低。在现有带宽有限的情况下，采用较大压缩率编码传输，用户观看体验则无法保证。反之，在现有带宽有限的情况下，若只传输用户视角内的内容，当用户切换视角时，由于现有网络时延的限制，也会出现因无法实时导致无内容观看的情况，严重影响用户观看的主观质量和实时性，适用性差。

发明内容

一、MPEG-DASH技术介绍

2011年11月，MPEG组织批准了DASH标准，DASH标准是基于HTTP协议传输媒体流的技术规范(以下称DASH技术规范)；DASH技术规范主要由两大部分组成：媒体呈现描述(英文：Media Presentation Description，MPD)和媒体文件格式(英文：file format)。

1、媒体文件格式

在DASH中服务器会为同一个视频内容准备多种版本的码流，每个版本的码流在DASH标准中称为表示(英文：representation)。表示是在传输格式中的一个或者多个码流的集合和封装，一个表达中包含一或者多个分段。不同版本的码流的码率、分辨率等编码参数可以不同，每个码流分割成多个小的文件，每个小文件被称为分段(或称分段，英文：segment)。在客户端请求媒体分段数据的过程中可以在不同的媒体表示之间切换，如图3所示，图3，是本发明实施例提供的码流分段的切换的一示意图。服务器为一部电影准备三个不同版本的码流数据，并在MPD中使用3个表示(英文：Representation，以下简称rep)对上述三个不同版本的码流数据进行描述，包括rep1，rep2，rep3。其中，rep1是码率为4mbps(每秒兆比特)的高清视频，rep2是码率为2mbps的标清视频，rep3是码率为1mbps的标清视频。图3中标记为阴影的分段是客户端请求播放的分段数据，客户端请求的前三个分段是媒体表示rep3的分段，第四个分段切换到rep2，请求第四个分段，之后切换到rep1，请求第五个分段和第六个分段等。每个表示的分段可以首尾相接的存在一个文件中，也可以独立存储为一个个的小文件。segment可以按照标准ISO/IEC 14496-12中的格式封装(ISO BMFF(Base Media File Format))，也可以是按照ISO/IEC 13818-1中的格式封装(MPEG-2TS)。

2、媒体呈现描述

在DASH标准中，媒体呈现描述被称为MPD，MPD可以是一个xml的文件，文件中的信息是采用分级方式描述，如图2所示，上一级的信息被下一级完全继承。在该文件中描述了一些媒体元数据，这些元数据可以使得客户端了解服务器中的媒体内容信息，并且可以使用这些信息构造请求segment的http-URL。

在DASH标准中，媒体呈现(英文：media presentation)，是呈现媒体内容的结构化数据的集合；媒体呈现描述(英文：media presentation description)，一个规范化描述媒体呈现的文件，用于提供流媒体服务；时期(英文：period)，一组连续的时期组成整个媒体呈现，时期具有连续和不重叠的特性；表示(英文：representation)，封装有一个或多个具有描述性元数据的的媒体内容成分(编码的单独的媒体类型，例如音频、视频等)的结构化的数据集合即表示是传输格式中一个或者多个码流的集合和封装，一个表示中包含一个或者多个分段；自适应集(英文：AdaptationSet)，表示同一媒体内容成分的多个可互替换的编码版本的集合，一个自适应集包含一个或者多个表示；子集(英文：subset)，一组自适应集合的组合，当播放器播放其中所有自适应集合时，可以获得相应的媒体内容；分段信息，是媒体呈现描述中的HTTP统一资源定位符引用的媒体单元，分段信息描述媒体数据的分段，媒体数据的分段可以存储在一个文件中，也可以单独存储，在一种可能的方式中，MPD中会存储媒体数据的分段。

本发明有关MPEG-DASH技术的相关技术概念可以参考ISO/IEC 23009-1：2014Information technology--Dynamic adaptive streaming over HTTP(DASH)--Part1：Media presentation description and segment formats，中的有关规定，也可以参考历史标准版本中的相关规定，如ISO/IEC 23009-1：2013或ISO/IEC 23009-1：2012等。

二、虚拟现实(virtual reality，VR)技术介绍

虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统，它利用计算机生成一种模拟环境，是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真，可以使用户沉浸到该环境中。VR主要包括模拟环境、感知、自然技能和传感设备等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。感知是指理想的VR应该具有一切人所具有的感知。除计算机图形技术所生成的视觉感知外，还有听觉、触觉、力觉、运动等感知，甚至还包括嗅觉和味觉等，也称为多感知。自然技能是指人的头部转动，眼睛、手势、或其他人体行为动作，由计算机来处理与参与者的动作相适应的数据，并对用户的输入作出实时响应，并分别反馈到用户的五官。传感设备是指三维交互设备。当VR视频(或者360度视频，或者全方位视频(英文：Omnidirectional video))在头戴设备和手持设备上呈现时，只有对应于用户头部的方位部分的视频图像呈现和相关联的音频呈现。

VR视频和通常的视频(英文：normal video)的差别在于通常的视频是整个视频内容都会被呈现给用户；VR视频是只有整个视频的一个子集被呈现给用户(英文：in VRtypically only a subset of the entire video region represented by the videopictures)。

三、现有DASH标准的空间描述：

现有标准中，对空间信息的描述原文是“The SRD scheme allows MediaPresentation authors to express spatial relationships between SpatialObjects.A Spatial Object is defined as a spatial part of a content component(e.g.a region of interest，or a tile)and represented by either an AdaptationSet or a Sub-Representation.”

【中文】：MPD中描述的是空间对象(即Spatial Objects)之间的空间关系(即spatial relationships)。空间对象被定义为一个内容成分的一部分空间，比如现有的感兴趣区域(英文：region of interest，ROI)和tile；空间关系可以在Adaptation Set和Sub-Representation中描述。现有DASH标准在MPD中定义了一些描述子元素，每个描述子元素都有两个属性，schemeIdURI和value。其中，schemeIdURI描述了当前描述子是什么，value是描述子的参数值。在已有的标准中有两个已有描述子SupplementalProperty和EssentialProperty(补充特性描述子和基本特性描述子)。现有标准中如果这两个描述子的schemeIdURI＝″urn：mpeg：dash：srd：2014″(或者schemeIdURI＝urn：mpeg：dash：VR：2017)，则表示该描述子描述了关联到的空间对象的空间信息(spatial informationassociated to the containing Spatial Object)，相应的value中列出了SDR的一系列参数值。

参见图16，图16是本发明实施例提供的基于流媒体的视频数据的处理示意图。在本发明实施例中，在一些可行的实施方式中，客户端可根据用户的视角信息请求第一码流，客户端还可请求第二码流。其中，第一码流是第一空间对象的视频数据编码得到的，第二码流的第二空间对象的视频数据编码得到的，第一空间对象是第二空间对象的局部空间对象，第一码流是局部码流，第二码流可为全景码流。

在一些可行的实施方式中，客户端可根据用户的视角变化，选择视角对应的码流进行编码和呈现。

在一些可行的实施方式中，对于360度大视角的视频图像的输出，服务器可将360度的视角范围内的空间进行划分以得到多个空间对象，每个空间对象对应用户的一个子视角，多个子视角的拼接形成一个完整的人眼观察视角。其中，人眼观察视角的动态变化的，通常可为90度*110度。例如图7所述的框1对应的空间对象1和框2对应的空间对象1。服务器可为每个空间对象准备一组视频码流，具体的，服务器可获取视频中每个码流的编码配置参数，并根据码流的编码配置参数生成视频的各个空间对象对应的码流。客户端可在视频输出时向服务器请求某一时间段某个视角对应的视频码流分段并输出至该视角对应的空间对象。客户端在同一个时间段内输出360度的视角范围内的所有视角对应的视频码流分段，则可在整个360度的空间内输出显示该时间段内的完整视频图像。

具体实现中，在360度的空间的划分中，服务器可首先将球面映射为平面，在平面上对空间进行划分。具体的，服务器可采用经纬度的映射方式将球面映射为经纬平面图。如图8，图8是本发明实施例提供的空间对象的示意图。服务器可将球面映射为经纬平面图，并将经纬平面图划分为A～I等多个空间对象。进一步的，服务器可也将球面映射为立方体，再将立方体的多个面进行展开得到平面图，或者将球面映射为其他多面体，再将多面体的多个面进行展开得到平面图等。服务器还可采用更多的映射方式将球面映射为平面，具体可根据实际应用场景需求确定，在此不做限制。下面将以经纬度的映射方式，结合图8进行说明。

如图8，服务器可将球面的空间对象划分为A～I等多个空间对象之后，则可通过服务器为每个空间对象准备一组DASH码流，其中，每个空间对象对应一个子视角。每个子视角对应的码流为整个视频码流的一部分，所有子视角对应的码流构成一个完整的视频码流。视频播放过程中，客户端可根据用户当前观看的视角选择相应的空间对象对应的DASH码流进行播放。

本发明实施例提供了一种视频数据的处理方法及装置，可提高视频数据传输的适用性和视频数据的选择多样性，增强视频观看的用户体验。

第一方面提供了一种视频数据的处理方法，其可包括：

服务器得到视角信息；

所述服务器根据所述视角信息得到空间对象信息，所述空间对象信息用以描述全景空间中的指定空间对象；

所述服务器得到第一码流，所述第一码流是对所述指定空间对象的图像数据进行编码得到的；

所述服务器得到第二码流，所述第二码流是对所述全景空间的图像数据进行编码得到的；

所述服务器将所述第一码流和所述第二码流传输给客户端。

在本发明实施例中，服务器可根据视角信息确定空间对象信息，将空间对象信息描述的指定空间对象包含的图像数据编码得到的码流传输给客户端，还可将全景空间的图像数据编码得到的码流也传输给客户端，以供客户端进行自适应选择和播放，提高了视频数据传输的适用性和视频数据的选择多样性，增强视频观看的用户体验。

在本发明实施例的一种可能的实现方式中，所述视角信息包括：用户的视角在所述全景空间中的位置信息；

其中，所述位置信息包括：中心位置、起始位置、中心位置的左右夹角、中心位置的上下夹角、长度以及宽度中的至少一种。

本发明实施例可提供多种表示形式的视角信息给服务器，选择灵活，增强了视频数据处理的适用性。

在本发明实施例的一种可能的实现方式中，所述视角信息包括：当前时刻用户的视角在所述全景空间中的位置信息与前一时刻用户的视角在所述全景空间中的位置信息的差值；

在本发明实施例的一种可能的实现方式中，所述视角信息还包括：显示的分辨率信息。

本发明实施例还可将显示的分辨率信息作为视角信息提供给服务器，可供服务器进行选择，提供了视角信息的选择多样性，增强了适用性。

在本发明实施例的一种可能的实现方式中，所述指定空间对象为：

当前时刻用户的视角在所述全景空间中对应的空间对象；或者

对当前时刻用户的视角在所述全景空间中对应的空间对象进行调整后得到的空间对象。

在本发明实施例中，服务器可通过多种方式确定指定空间对象，进而可提高第一码流的图像数据的选择范围，操作更灵活，适用性更高。

在本发明实施例的一种可能的实现方式中，所述当前时刻用户的视角在所述全景空间中对应的空间对象为初始空间对象，所述对当前时刻用户的视角在所述全景空间中对应的空间对象进行调整后得到的空间对象，包括：

按照预设比例对所述初始空间对象进行缩放或扩展得到的空间对象；或者

按照所述初始空间对象确定调整比例，并按照所述调整比例对所述初始空间对象进行缩放或扩展得到的空间对象；或者

按照客户端反馈的调整比例对所述初始空间对象进行缩放或扩展得到的空间对象。

在本发明实施例的一种可能的实现方式中，所述服务器将所述第一码流和所述第二码流传输给客户端包括：

所述服务器根据其网络状态从所述第二码流中选择预设空间对象对应的码流；

将所述第一码流和所述预设空间对象对应的码流传输给客户端。

在本发明实施例中，服务器可根据其网络状态选择第二码流中的部分码流传输给客户端，操作更灵活，适用性更高。其中，预设空间对象可为当前时刻用户的视角对应的空间对象，也可为指定空间对象中的部分空间对象并且大于当前时刻用户的视角对应的空间对象，也可为大于指定空间对象并且小于全景空间的空间对象。

所述服务器根据其网络状态从所述第一码流中选择预设空间对象对应的码流；

将所述第二码流和所述预设空间对象对应的码流传输给客户端。

在本发明实施例中，服务器可根据其网络状态选择第二码流中的部分码流传输给客户端，操作更灵活，适用性更高。其中，预设空间对象可为当前时刻用户的视角对应的空间对象，也可为指定空间对象中的部分空间对象并且大于当前时刻用户的视角对应的空间对象。

所述服务器根据其网络状态从所述第一码流中选择第一预设空间对象对应的码流，并从所述第二码流中选择第二预设空间对象对应的码流；

将所述第一预设空间对象对应的码流和所述第二预设空间对象对应的码流传输给客户端。

在本发明实施例中，服务器可根据其网络状态选择第一码流中的部分码流和第二码流中的部分码流传输给客户端，操作更灵活，适用性更高。其中，第一预设空间对象可为当前时刻用户的视角对应的空间对象，也可为指定空间对象中的部分空间对象并且大于当前时刻用户的视角对应的空间对象，也可为大于指定空间对象并且小于全景空间的空间对象。第二预设空间对象可为当前时刻用户的视角对应的空间对象，也可为指定空间对象中的部分空间对象并且大于当前时刻用户的视角对应的空间对象。

在本发明实施例的一种可能的实现方式中，所述服务器得到第一码流包括：

所述服务器得到客户端支持的图像数据处理格式；

将所述指定空间对象包括的图像数据按照所述图像数据处理格式进行编码以得到具备所述图像数据处理格式的第一码流；

其中，所述图像数据处理格式包括：图像数据的播放格式或者图像数据的解码格式中的至少一种。

在本发明实施例中，服务器可根据客户端支持的图像数据处理格式编码得到相应的码流，以供客户端进行解码播放，操作更简单，适用性更高。

在本发明实施例的一种可能的实现方式中，所述服务器得到第二码流包括：

所述服务器得到客户端支持的图像数据处理格式；

将所述全景空间包含的图像数据按照所述图像数据处理格式进行编码以得到具备所述图像数据处理格式的第二码流；

所述服务器从预存的至少一个已编码的码流中选择所述指定空间对象对应的指定码流以将所述指定码流作为第一码流；

其中，所述至少一个已编码的码流中每个码流对应所述全景空间的一个空间对象。

在本发明实施例中，服务器可从已编码的码流中选择相应的码流，操作更简单，可提高视频数据的处理效率，适用性更高。

第二方面提供了一种视频数据的处理方法，其可包括：

客户端接收第一码流，所述第一码流是对指定空间对象的图像数据进行编码得到的，所述指定空间对象是全景空间中的空间对象；

所述客户端接收第二码流，所述第二码流是对所述全景空间的图像数据进行编码得到的；

所述客户端根据当前时刻用户的视角信息确定码流的播放方式；

所述客户端根据所述码流的播放方式对所述第二码流和所述第一码流进行播放。

在本发明实施例中，客户端可根据当前时刻用户的视角确定码流的播放方式，并从接收的多种码流中选择相应的码流进行播放，提高了码流播放的选择多样性，增强了视频数据的处理灵活性，增强了视频观看的用户体验。

在本发明实施例的一种可能的实现方式中，所述播放方式包括：叠加播放、或者补充播放、或者采样播放中的至少一种。

在本发明实施例的一种可能的实现方式中，所述视角信息包括：当前时刻用户的视角在全景空间中的位置信息与前一时刻用户的视角在全景空间中的位置信息的差值；

在本发明实施例的一种可能的实现方式中，所述播放方式为叠加播放；

所述客户端根据所述码流的播放方式对所述第二码流和所述第一码流进行播放包括：

所述客户端解码所述第一码流和所述第二码流，并将解码得到的两种码流的图像进行叠加播放。

在本发明实施例中，客户端可对解码得到的两种码流的图像进行叠加播放，既保障视频数据播放的质量，也可保证视频播放的连续性，适用性更高。

在本发明实施例的一种可能的实现方式中，所述播放方式为补充播放；

所述客户端解码所述第一码流和所述第二码流，并将解码得到的第二码流的图像补充到解码得到的第一码流的图像上进行播放。

在本发明实施例中，若当前时刻用户的视角对应的空间对象未被上述指定空间对象完全覆盖，客户端则可从解码得到的第二码流的图像中选择部分码流补充到未被指定空间对象覆盖的部分空对象上，以保证当前时刻用户的视角内的图像显示的完整性，既保障视频数据播放的质量，也可保证视频播放的连续性和完整性，适用性更高。

在本发明实施例的一种可能的实现方式中，所述播放方式为采样播放；

所述客户端解码所述第二码流，并将解码得到的第二码流的图像采样到第一码流对应图像的分辨率上以得到采样后的图像，播放所述采样后的图像。

在本发明实施例中，客户端可解码第二码流并将第二码流的图像采样到第二码流对应的图像的分辨率上，无需解码两种码流，处理效率更高，既保障视频数据播放的质量，也可节省资源，适用性更高。

在本发明实施例的一种可能的实现方式中，所述客户端根据所述码流的播放方式对所述第二码流和所述第一码流进行播放包括：

所述客户端根据其支持的图像数据处理格式对所述第二码流和所述第一码流进行解码，并根据所述播放方式对解码得到的图像进行播放；或者

所述客户端根据其支持的图像数据处理格式对所述第二码流和所述第一码流的部分码流进行解码，并根据所述播放方式对解码得到的图像进行播放；或者

所述客户端根据其支持的图像数据处理格式对所述第二码流的部分码流和所述第一码流进行解码，并根据所述播放方式对解码得到的图像进行播放；或者

所述客户端根据其支持的图像数据处理格式对所述第二码流的部分码流和所述第一码流的部分码流进行解码，并根据所述播放方式对解码得到的图像进行播放；

在本发明实施例中，客户端可根据其支持的图像数据处理格式对接收到的多种码流进行自适应选择和播放，操作更灵活，适用性更高。

所述客户端根据用户选定的图像数据播放模式从所述第二码流和所述第一码流中选择目标码流，对所述目标码流进行解码，并根据所述播放方式对解码得到的图像进行播放。

在本发明实施例中，客户端可根据用户选定的播放模块从多种码流中选择部分码流进行播放，与用户的选择关联更密切，增强了视频播放的用户体验。

在本发明实施例的一种可能的实现方式中，所述方法还包括：

根据所述当前时刻用户的视角信息确定当前时刻用户的视角对应的空间对象，并在所述视角对应的空间对象的指定显示位置显示所述图像数据播放模式。

在本发明实施例中，客户端可根据用户选定的播放模块从多种码流中选择部分码流进行播放并显示播放模块，与用户的选择关联更密切，增强了视频播放的用户体验。

根据所述当前时刻用户的视角信息确定当前时刻用户的视角对应的空间对象，并确定所述当前时刻用户的视角对应的空间对象在全景空间中的位置；

在所述当前时刻用户的视角对应的空间对象的指定显示位置显示所述位置的示意图。

在本发明实施例中，客户端可向用户呈现当前播放的视频图像对应的空间对象在全景空间中的位置，增强了用户视角的直观可见性，适用性更强，与用户关联更密切，增强了视频播放的用户体验。

第三方面提供了一种服务器，其可包括：

获取模块，用于得到视角信息；

所述获取模块，还用于根据所述视角信息得到空间对象信息，所述空间对象信息用以描述全景空间中的指定空间对象；

所述获取模块，还用于得到第一码流，所述第一码流是对所述指定空间对象的图像数据进行编码得到的；

所述获取模块，还用于得到第二码流，所述第二码流是对所述全景空间的图像数据进行编码得到的；

传输模块，用于将所述获取模块获取的所述第一码流和所述第二码流传输给客户端。

在本发明实施例的一种可能的实现方式中，所述当前时刻用户的视角在所述全景空间中对应的空间对象为初始空间对象，其特征在于，所述对当前时刻用户的视角在所述全景空间中对应的空间对象进行调整后得到的空间对象，包括：

在本发明实施例的一种可能的实现方式中，所述传输模块具体用于：

根据服务器的网络状态从所述获取模块获取的所述第二码流中选择预设空间对象对应的码流，将所述第一码流和所述预设空间对象对应的码流传输给客户端。

根据服务器的网络状态从所述获取模块获取的所述第一码流中选择预设空间对象对应的码流，将所述第二码流和所述预设空间对象对应的码流传输给客户端。

根据服务器的网络状态从所述获取模块获取的所述第一码流中选择第一预设空间对象对应的码流，并从所述获取模块获取的所述第二码流中选择第二预设空间对象对应的码流；

在本发明实施例的一种可能的实现方式中，所述获取模块具体用于：

得到客户端支持的图像数据处理格式；

从预存的至少一个已编码的码流中选择所述指定空间对象对应的指定码流以将所述指定码流作为第一码流；

第四方面提供了一种客户端，其可包括：

接收模块，用于接收第一码流，所述第一码流是对指定空间对象的图像数据进行编码得到的，所述指定空间对象是全景空间中的空间对象；

所述接收模块，还用于接收第二码流，所述第二码流是对所述全景空间的图像数据进行编码得到的；

确定模块，用于根据当前时刻用户的视角信息确定码流的播放方式；

播放模块，用于根据所述确定模块确定的所述码流的播放方式对所述接收模块接收的所述第二码流和所述第一码流进行播放。

所述播放模块具体用于：

解码所述接收模块接收的所述第一码流和所述第二码流，并将解码得到的两种码流的图像进行叠加播放。

所述播放模块具体用于：

解码所述接收模块接收的所述第一码流和所述第二码流，并将解码得到的第二码流的图像补充到解码得到的第一码流的图像上进行播放。

所述播放模块具体用于：

解码所述接收模块接收的所述第二码流，并将解码得到的第二码流的图像采样到第一码流对应图像的分辨率上以得到采样后的图像，播放所述采样后的图像。

在本发明实施例的一种可能的实现方式中，所述播放模块具体用于：

根据所述客户端支持的图像数据处理格式对所述第二码流和所述第一码流进行解码，并根据所述播放方式对解码得到的图像进行播放；或者

根据所述客户端支持的图像数据处理格式对所述第二码流和所述第一码流的部分码流进行解码，并根据所述播放方式对解码得到的图像进行播放；或者

根据所述客户端支持的图像数据处理格式对所述第二码流的部分码流和所述第一码流进行解码，并根据所述播放方式对解码得到的图像进行播放；或者

根据所述客户端支持的图像数据处理格式对所述第二码流的部分码流和所述第一码流的部分码流进行解码，并根据所述播放方式对解码得到的图像进行播放；

根据用户选定的图像数据播放模式从所述第二码流和所述第一码流中选择目标码流，对所述目标码流进行解码，并根据所述播放方式对解码得到的图像进行播放。

在本发明实施例的一种可能的实现方式中，所述确定模块还用于：

根据所述当前时刻用户的视角信息确定当前时刻用户的视角对应的空间对象；

所述播放模块还用于：

在所述确定模块确定出的所述视角对应的空间对象的指定显示位置显示所述图像数据播放模式。

所述播放模块还用于：

在所述确定模块确定出的所述当前时刻用户的视角对应的空间对象的指定显示位置显示所述位置的示意图。

第五方面，提供了一种视频数据的处理系统，其可包括：上述第三方面提供的客户端和上述第四方面提供的服务器。

第六方面提供了一种基于流媒体的视频数据的处理方法，其可包括：

客户端得到用户的视角信息，所述用户的视角信息用于指示当前时刻用户的视角；

所述客户端根据所述用户的视角信息得到第一码流，所述第一码流是对第一空间对象的视频数据编码得到的；

客户端得到第二码流，所述第二码流是对第二空间对象的视频数据编码得到的，所述第一空间对象是所述第二空间对象的一部分对象。

所述客户端接收媒体呈现描述；

所述客户端根据所述用户的视角信息得到第一码流包括：

根据所述媒体呈现描述和所述用户的视角信息得到第一码流请求；

向服务器发送所述第一码流请求；

接收所述服务器发送的所述第一码流。

在本发明实施例的一种可能的实现方式中，所述第二空间对象对应的空间内容为全景空间内容。

所述客户端呈现所述第一码流；

当所述用户的视角发生改变时，根据改变后的用户视角呈现所述第二码流。

如图17，图17是视角变化对应的空间对象变化的另一示意图。如图所描述，VR视频呈现的空间被划分成的9个空间对象，包括空间对象A至空间对象I。在图17中的虚线框可表示为当前呈现的空间对象(即当前空间对象)，实线框可表示为切换后呈现的空间对象(即目标空间对象)。

在图17左边的小图中，当前空间对象对应的视角包括空间对象A、B、D和E；切换后的目标空间对象对应的视角可包括空间对象B、C、E和F，或者切换后的目标空间对象对应的视角也可包括空间对象C和F，在此不做限制。在图17中间的小图中，当前空间对象对应的视角包括空间对象A、B、D和E；切换后的目标空间对象对应的视角可包括空间对象E、F、H和I，或者切换后的目标空间对象对应的视角可包括空间对象F、H和I，在此不做限制。在图17右边的小图中，当前空间对象对应的视角可包括空间对象A和B；切换后的目标空间对象对应的视角包括空间对象E、F、H和I，在此不做限制。

第七方面提供了一种客户端，其可包括：接收器、处理器和存储器；

所述存储器用于存储一组程序代码；

所述处理器和所述接收器用于调用所述存储器存储的程序代码执行如下操作：

所述处理器，用于得到用户的视角信息，所述用户的视角信息用于指示当前时刻用户的视角；

所述处理器，还用于根据所述用户的视角信息得到第一码流，所述第一码流是对第一空间对象的视频数据编码得到的；

所述接收器，用于得到第二码流，所述第二码流是对第二空间对象的视频数据编码得到的，所述第一空间对象是所述第二空间对象的一部分对象。

在本发明实施例的一种可能的实现方式中，所述接收器，还用于接收媒体呈现描述；

所述处理器具体用于：

根据所述接收器接收的所述媒体呈现描述和所述用户的视角信息得到第一码流请求；

所述客户端还包括：

发送器，用于向服务器发送所述处理器得到的所述第一码流请求；

所述处理器具体用于通过所述接收器接收所述服务器发送的所述第一码流。

在本发明实施例的一种可能的实现方式中，所述客户端还包括：

显示器，用于呈现所述接收器所述第一码流，当所述用户的视角发生改变时，根据改变后的用户视角呈现所述第二码流。

在本发明实施例中，服务器可根据视角信息确定空间对象信息，将空间对象信息描述的指定空间对象包含的图像数据编码得到的码流传输给客户端，还可将全景空间的图像数据编码得到的码流也传输给客户端，以供客户端进行自适应选择和播放，提高了视频数据传输的适用性和视频数据的选择多样性，增强视频观看的用户体验。服务器还可根据其网络状态和客户端的图像数据的处理格式的信息进行图像数据的编码和部分传输，操作更灵活，适用性更高。客户端可根据当前时刻用户的视角确定码流的播放方式，并从接收的多种码流中选择相应的码流进行播放，提高了码流播放的选择多样性，增强了视频数据的处理灵活性，增强了视频观看的用户体验。客户端还可根据其网络状态和图像数据的处理格式和解码格式等信息进行部分码流的选择和播放，操作更灵活。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是系统层视频流媒体传输采用的DASH标准传输的框架实例示意图；

图2是系统层视频流媒体传输采用的DASH标准传输的MPD的结构示意图；

图3是本发明实施例提供的码流分段的切换的一示意图；

图4是码流数据中的分段存储方式的一示意图；

图5是码流数据中的分段存储方式的另一示意图；

图6是空间对象的空间关系的一示意图；

图7是视角变化对应的视角示意图；

图8是空间对象的空间关系的另一示意图；

图9是本发明实施例提供的视频数据的处理系统的架构示意图；

图10是本发明实施例提供的视频数据的处理方法的流程示意图；

图11是空间对象在全景空间中的位置的示意图；

图12是本发明实施例提供的采样描述示意图；

图13是本发明实施例提供的空间对象在全景空间中的相对位置示意图；

图14是本发明实施例提供的服务器的实施例结构示意图；

图15是本发明实施例提供的客户端的实施例结构示意图；

图16是本发明实施例提供的基于流媒体的视频数据的处理示意图；

图17是视角变化对应的空间对象变化的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前以客户端为主导的系统层视频流媒体传输方案可采用DASH标准框架，如图1，图1是系统层视频流媒体传输采用的DASH标准传输的框架实例示意图。系统层视频流媒体传输方案的数据传输过程包括两个过程：服务器端(如HTTP服务器，媒体内容准备服务器，以下简称服务器)为视频内容生成媒体数据，响应客户端请求的过程，和客户端(如HTTP流媒体客户端)向服务器请求并获取媒体数据的过程。其中，上述媒体数据包括媒体呈现描述(英文：Media Presentation Description，MPD)和媒体码流。服务器上的MPD中包括多个表示(也称呈现，英文：representation)，每个表示描述多个分段。客户端的HTTP流媒体请求控制模块获取服务器发送的MPD，并对MPD进行分析，确定MPD中描述的视频码流的各个分段的信息，进而可确定要请求的分段，向服务器发送相应的分段的HTTP请求，并通过媒体播放器进行解码播放。

1)在上述服务器为视频内容生成媒体数据的过程中，服务器为视频内容生成的媒体数据包括对应同一视频内容的不同版本的码流，以及码流的MPD。例如，服务器为同一集电视剧的视频内容生成低分辨率低码率低帧率(如360p分辨率、300kbps码率、15fps帧率)的码流，中分辨率中码率高帧率(如720p分辨率、1200kbps码率、25fps帧率)的码流，高分辨率高码率高帧率(如1080p分辨率、3000kbps码率、25fps帧率)的码流等。

此外，服务器还可为该集电视剧的视频内容生成MPD。其中，如图2，图2是系统传输方案DASH标准的MPD的结构示意图。上述码流的MPD包含多个时期(Period)，例如，图2的MPD)中的period start＝100s部分可包含多个自适应集(英文：adaptation set)，每个adaptation set可包含Representation1、Representation2，...等多个表示。每个表示描述码流的一个或者多个分段。

在本发明的一个实施例中，每个表示按照时序描述若干个分段(英文：Segment)的信息，例如初始化分段(英文：Initialization segment)、媒体分段(Media Segment)1、Media Segment2，...，Media Segment20等。表示中可以包括播放起始时刻、播放持续时长、网络存储地址(例如以统一资源定位符(英文：Universal Resource Locator，URL)的形式表示的网络存储地址)等分段信息。

2)在客户端向服务器请求并获取媒体数据的过程中，用户选择播放视频时，客户端根据用户点播的视频内容向服务器获取相应的MPD。客户端根据MPD中描述的码流分段的网络存储地址，向服务器发送下载网络存储地址对应的码流分段的请求，服务器根据接收到的请求向客户端发送码流分段。客户端获取得到服务器发送的码流分段之后，则可通过媒体播放器进行解码、播放等操作。

系统层视频流媒体传输方案采用DASH标准，通过客户端分析MPD、按需向服务器请求视频数据并接收服务器发送的数据的方式实现视频数据的传输。

在DASH媒体文件格式中提到，上述segment有两种存储方式：一种是每个segment分开独立存储，如图4，图4是码流数据中的分段存储方式的一示意图；另一种是同一个rep上的所有segment均存储在一个文件中，如图5，图5是码流数据中的分段存储方式的另一示意图。如图4，repA的segment中每个segment单独存储为一个文件，repB的segment中每个segment也单独存储为一个文件。对应的，图4所示的存储方式，服务器可在码流的MPD中可采用模板的形式或者列表的形式描述每个segment的URL等信息。如图5，rep1的segment中所有segment存储为一个文件，rep2的segment中所有segment存储为一个文件。对应的，图5所示的存储方法，服务器可在码流的MPD中采用一个索引分段(英文：index segment，也就是图5中的sidx)来描述每个segment的相关信息。索引分段描述了每个segment在其所存储的文件中的字节偏移，每个segment大小以及每个segment持续时间(duration，也称每个segment的时长)等信息。

当前随着360度视频等VR视频的观看应用的日益普及，越来越多的用户加入到大视角的VR视频观看的体验队伍中。这种新的视频观看应用给用户带来了新的视频观看模式和视觉体验的同时，也带来了新的技术挑战。由于360度(本发明实施例将以360度为例进行说明)等大视角的视频观看过程中，VR视频的空间区域为360度的全景空间(或称全方位空间)，超过了人眼正常的视觉范围，因此，用户在观看视频的过程中随时都会变换观看的角度(即视角，FOV)。用户的视角不同，看到的视频图像也将不同，故此视频呈现的内容需要随着用户的视角变化而变化。如图7，图7是视角变化对应的视角示意图。框1和框2分别为用户的两个不同的视角。用户在观看视频的过程中，可通过眼部或者头部转动，或者视频观看设备的画面切换等操作，将视频观看的视角由框1切换到框2。其中，用户的视角为框1时观看的视频图像为该视角对应的一个或者多个空间对象在该时刻所呈现的视频图像。下一个时刻用户的视角切换为框2，此时用户观看到的视频图像也应该切换为框2对应的空间对象在该时刻所呈现视频图像。

在一些可行的实施方式中，客户端可通过MPD获取服务器为每个空间对象准备的视频码流的空间信息，进而可根据视角的需求向服务器请求某一时间段某个或者多个空间对象对应的视频码流分段并按照视角需求输出对应的空间对象。客户端在同一个时间段内输出360度的视角范围内的所有空间对象对应的视频码流分段，则可在整个360度的全景空间内输出显示该时间段内的完整视频图像。客户端用户切换视频观看的视角时，客户端则可根据用户选择的新视角获取新空间对象对应的码流，进而可将新空间对象码流的视频内容呈现在新视角内。下面将结合图9至图15对本发明实施例提供的视频数据的处理方法及装置进行描述。

参见图9，是本发明实施例提供的视频数据的处理系统的架构示意图。本发明实施例提供的全景视频数据的处理系统包括：全景摄像机、服务器和客户端(或称终端)。其中，全景摄像机用于360度采集图像或者视频数据，进一步的，还可将采集到的图像拼接为全景图像，或者将采集到的视频数据拼接为全景视频。其中，图像拼接或者视频数据拼接也可由服务器处理，具体可根据实际应用场景需要确定，在此不做限制。上述服务器用于根据终端用户关注点(即用户视角)的位置信息，对图像或者视频数据进行分层编解码或转码等操作。上述服务器可以是媒体源服务器、传输服务器、编码服务器，也可以是转码服务器等，可以在网络侧，也可以接收网络侧发送的媒体数据。上述终端可包括VR眼镜，手机，平板，电视，电脑等可以连接网络的电子设备。终端接收服务器发送的数据并进行解码显示，同时使用传感器获取用户的FOV信息，并将该FOV信息传递给编码端(如服务器)。

参见图10，是本发明实施例提供的视频数据的处理方法的流程示意图。本发明实施例提供的方法包括步骤：

S101，服务器得到视角信息。

S102，服务器根据所述视角信息得到空间对象信息，并得到第一码流。

在一些可行的实施方式中，服务器可接收客户端反馈的FOV信息，根据客户端反馈的FOV信息确定视频数据处理的视角信息。其中，上述视角信息用于确定当前时刻用户观看的视角以及需要进行视频数据编码的编码范围，即上述视角信息用于确定其对应的空间对象信息。上述空间对象信息用于描述全景空间中的指定空间对象。具体实现中，服务器可采用经纬图或者偏航角方式描述当前时刻用户观看的视角在全景空间中的位置。以偏航角为例，服务器可采用center_pitch、center_yaw、center_roll、pitch_h和yaw_w来描述用户观看的FOV在球面中的中心位置(center_pitch、center_yaw、center_roll)，高度(pitch_h)，宽度yaw_w的偏航角。如图11，图11是空间对象在全景空间中的位置的示意图。在图11中，O点为360度VR全景视频球面图像对应的球心，可认为是观看VR全景图像时人眼的位置。A点为用户的FOV上的显示图像的中心点，C、F为显示图像中过A点的沿该图像横向坐标轴的边界点，E、D为显示图像中过A点的沿该显示图像纵向坐标轴的边界点，B为A点沿球面经线在赤道线的投影点，I为赤道线上水平方向的起始坐标点。各个元素的含义解释如下：

center_pitch：当前时刻用户观看的FOV对应的空间对象的图像的中心位置映射到全景球面(即全景空间)图像上的点的竖直方向的偏转角，如图11中的∠AOB；

center_yaw：当前时刻用户观看的FOV对应的空间对象的图像的中心位置映射到全景球面图像上的点的水平方向的偏转角，如图11中的∠IOB；

center_roll：当前时刻用户观看的FOV对应的空间对象的图像的中心位置映射到全景球面图像上的点与球心连线方向的旋转角，如图11中的∠DOB；

pitch_h：当前时刻用户观看的FOV对应的空间对象的图像在全景球面图像的视场高度，以视场纵向最大角度表示，如图11中∠DOE；yaw_w：当前时刻用户观看的FOV对应的空间对象的图像在全景球面图像的视场宽度，以视场横向最大角度表示，如图11中∠COF。

其中，上述中心位置也可直接采用经度和纬度表示，具体可根据实际应用场景需求确定。下面将以经度和纬度表示中心位置为例进行描述。

具体的，服务器根据视角信息确定当前时刻用户观看的视角的方式可包括如下四种方式中的任一种：

方式一：

服务器接收客户端反馈的当前时刻用户的FOV在全景空间中的位置信息。其中，上述当前时刻用户的FOV在全景空间中的位置可设为当前时刻用户的FOV在360度全景空间中的绝对位置，或者360度全景图像映射得到的经纬图中的绝对位置。其中，上述位置信息包括：中心位置、起始位置、中心位置的左右夹角、中心位置的上下夹角、长度或者宽度等。例如：当前时刻用户的FOV的中心位置的纬度为45度、经度为90度，当前时刻用户的FOV的长度为30(cm)，宽度为30(cm)等。服务器可根据客户端反馈的位置信息直接确定当前时刻用户的FOV。其中，上述中心位置的左夹角可为以人眼视角的中心为中心位置，人眼视角在水平方向上的左方向上的截止点与人眼视角的中心之间的夹角设为中心位置的左夹角，也可为上述偏航角中的水平方向的左偏转角。其中，上述中心位置的右夹角可为以人眼视角的中心为中心位置，人眼视角在水平方向上的右方向上的截止点与人眼视角的中心之间的夹角设为中心位置的右夹角，也可为上述偏航角中的水平方向的右偏转角。同理，中心位置的上(下)夹角可为人眼视角的中心为中心位置，人眼视角在竖直方向上的向上(向下)方向上的截止点与人眼视角的中心之间的夹角设为中心位置的上(下)夹角，也可为上述偏航角中的竖直方向的上(下)偏转角。具体可根据实际应用场景确定，下面不再赘述。

方式二：

服务器接收客户端反馈的当前时刻用户的FOV在全景空间中的位置信息。其中，上述当前时刻用户的FOV在全景空间中的位置可设为当前时刻用户的FOV在360度全景空间中的相对位置，即与上一次时刻传送的用户的FOV在全景空间中的位置信息的差值。其中，上述差值包括中心位置的差值，起始位置的差值，中心位置的左右夹角的差值，中心位置的上下夹角的差值，长度的差值和宽度的差值等。例如：当前时刻用户的FOV的中心位置的经度与前一时刻用户的FOV的中心位置的经度差值为30度，或者当前时刻用户的FOV的左上角位置与前一时刻用户的FOV的左上角位置的纬度差值为15度等。

方式三：

服务器接收客户端反馈的当前时刻用户的FOV在全景空间中的位置信息，其中，上述位置信息具体可为中心位置、起始位置、中心位置的左右夹角或者中心位置的上下夹角等。服务器可根据上述中心位置和预先设定的固定的长度和宽度确定当前时刻用户的FOV。进一步的，服务器可根据上述中心位置和用户人眼的水平视角和垂直视角确定当前时刻用户的FOV。例如，服务器接收到客户端反馈的中心位置为经度15度，纬度30度，进而可根据人眼水平视角(例如：约为110度，极限可以达到180度)和垂直视角(例如：约为90度)确定当前时刻用户的FOV。

方式四：

服务器接收客户端反馈的当前时刻用户的FOV在全景空间中的相对位置或绝对位置，还可接收客户端反馈的客户端的型号或者客户端支持的最大分辨率等信息。服务器根据上述当前时刻用户的FOV在全景空间中的相对位置或者绝对位置之后，可根据上述方式一至方式三中相应的方法确定当前时刻用户的FOV。进一步的，当确定的FOV小于终端支持的最大分辨率时，服务器可直接使用确定的FOV作为当前时刻用户的FOV。当确定的FOV大于终端支持的最大分辨率时，当前时刻用户的FOV的长度和宽度使用最大辨别率的长宽信息。

在一些可行的实施方式中，服务器确定了当前时刻用户的FOV之后，则可进一步从全景空间中确定出编码空间对象(即指定空间对象)。具体实现中，服务器可将上述确定的当前时刻用户的FOV确定为编码空间对象，进而可将编码空间对象包含的图像进行编码。其中，编码可采用H.264，H.265等压缩方法，编码单位可以是每帧，也可以将一帧划分成多个子区域的多个小帧分别进行编码。其中，每帧划分得到的子区域的形状可以是正方形，长方形或任意不规则形状，同时各个子区域的形状大小可以相同，也可以不同，具体可根据实际应用场景需求确定。

进一步的，在一些可行的实施方式中，服务器确定了当前时刻用户的FOV之后，也可将上述FOV对应的空间对象(即目标空间对象)进行缩放或者扩展，将缩放或者扩展后的空间对象确定为编码空间对象。其中，服务器可按照客户端支持的图像显示的最大分辨率等信息对目标空间对象进行扩展，将目标空间对象的大小扩展为上述最大分辨率的长宽信息对应的编码空间对象。进一步的，服务器也可按照用户、客户端或者自设定的预设比例对目标空间对象进行扩展，得到编码空间对象。例如，将目标空间对象的四周各扩展100个像素，或者将目标空间对象的左右两边各扩展M个像素，上下两边各扩展N个像素等。

进一步的，服务器可也根据目标空间对象的大小确定对目标空间对象进行扩展的扩展比例，进而可按照确定的扩展比例对目标空间对象进行扩展以得到编码空间对象。例如，服务器可按照目标空间对象的长度的三分之一，目标空间对象的宽度的三分之一的扩展比较对目标空间对象的长度和宽度进行扩展，得到编码空间对象。此时，编码空间对象的长度为目标空间对象的长度的三分之四，编码空间对象的宽度为目标空间对象的宽度的三分之四。

在一些可行的实施方式中，服务器确定了编码空间对象(即指定空间对象)之后，则可对编码空间对象包含的图像数据进行编码以得到第一码流。具体实现中，服务器可按照现有的编码方式对编码空间对象包含的图像数据进行编码，并将编码得到的码流传输给客户端。客户端可根据其支持的图像数据处理格式对服务器传输的码流进行自适应解码和播放。进一步的，服务器还可接收客户端反馈的客户端支持的图像数据处理格式，其中，上述图像数据处理格式可包括图像数据的播放格式或者图像数据的解码能力。服务器可确定客户端支持的图像数据处理格式，将所述指定空间对象包括的图像数据按照确定的图像数据处理格式进行编码以得到具备所述图像数据处理格式的码流(即第一码流)。其中，上述图像数据的播放格式可包括：2D图像播放或者3D图像播放等。上述图像数据的解码能力包括：处理器的处理核个数以及处理器的主频等。客户端的图像数据的解码能力也决定了客户端所能解码的码流格式，包括2D码流和3D码流等。

进一步的，在一些可行的实施方式中，服务器确定了指定空间对象之后，也可从预先编码得到并且存储在本地存储空间中的一个或者多个已编码图像数据中选择指定空间对象对应的指定已编码图像数据作为第一码流。其中，上述一个或者多个已编码图像数据中每个已编码图像数据对应全景空间的一个空间对象。

在一些可行的实施方式中，服务器编码得到第一码流之后，则可将第一码流传输给客户端，以供客户端进行解码和播放。

S103，客户端接收第一码流。

在一些可行的实施方式中，客户端接收服务器发送的第一码流之后，则可对第一码流进行解码以得到指定空间对象包含的图像数据。其中，上述解码方式可包括H.264、H.265等，在此不做限制。

S104，服务器得到第二码流。

在一些可行的实施方式中，服务器可将原始360度的全景视频下采样成为分辨率较低的360度全景视频，再将低分辨率的360度全景视频映射成低分辨率的经纬图，并对低分辨率经纬图进行编码得到第二码流。其中，上述第一码流为全景空间中的部分空间对象对应的图像数据编码得到的码流，上述第二码流为全景空间包含的图像数据编码得到的码流，由此可见，第二码流的内容大于第一码流的内容。可替换的，服务器还可将原始360度的全景视频映射成经纬图，再对经纬图进行下采样为低分辨率的经纬图，并对低分辨率经纬图进行编码得到第二码流。

具体实现中，上述下采样的算法可包括最邻近插值算法、双线性滤波器算法或者多抽头滤波器算法等，在此不做限制，下面将以最邻近插值算法为例进行说明。下采样的目标分辨率可以为固定值，也可以根据客户端支持的最大分辨率决定，具体可根据实际应用场景确定，在此不做限制。例如：服务器可将原始360度的全景视频的每一帧分辨率为8k的全景图像下采样为分辨率为2k的图像，可明显降低图像编码的复杂度和传输需要的带宽。

在最邻近插值算法中，假设，如图12，是本发明实施例提供的采样描述示意图。如图，下采样的目标图像中的某个点(x，y)是在全景视频的源图像中找的最邻近的一个点(x0，y0)，目标图像中的点(x，y)对应于源图像中的点(x0′，y0′)。其中，x0′、y0′很可能不是整数，而是小数，而最邻近插值算法是找其邻近的整数值，设为(int(x0′+0.5f)，int(y0′+0.5f))。我们现在找x0′，y0′所在位置旁边的四个点(x1，y2)、(x2，y2)、(x1，y1)和(x2，y1)，根据这四个点与(x0′，y0′)距离的关系计算目标图像中(x，y)一点的像素值。算法描述如下：

value(x0，y0)＝value(x2，y2)*s1+value(x1，y2)*s2+value(x1，y1)*s3+value(x2，y1)*s4；其中，上述s1，s2，s3，s4为上述四个点所占的权重比值。其中，离目标点(即(x0，y0))越近，权重越大，离目标点越远，权重越小，例如：s1，s2，s3，s4可分别为：4，3，1，2。

进一步的，服务器还可根据客户端的反馈确定客户端支持的图像数据处理格式，将上述下采样得到的采样图像数据按照上述图像数据处理格式进行编码以得到具备上述图像数据处理格式的第二码流。进一步的，服务器可通过网络将上述第二码流传输给客户端，其中，所述网络可包括互联网(英文：Internet)，蜂窝网、蓝牙、红外或者wifi等，具体可根据实际应用场景确定，在此不做限制。

S105，客户端接收第二码流。

在一些可行的实施方式中，客户端接收得到上述第二码流之后，则可对上述第二码流进行解码和播放。具体实现中，客户端对第一码流和第二码流进行解码之后，可将解码得到的编码空间对象包含的图像(以下简称局部图像)叠加到下采样得到的全景图像(以下简称采样全景图像)的经纬图上，再将经纬图转换为2D平面图像(非经纬图格式)，最后以3D的形式显示播放。可替换的，先将局部图像和采样全景图像映射为球面图像，再将局部图像叠加在采样全景图像上，将叠加后的图像进行显示播放。

可选的，在一些可行的实施方式中，除图像叠加播放之外，服务器也可以使用其他现有的图像合并技术对上述局部图像和采样全景图像进行处理，包括图像补充播放或者图像采样播放等。例如：服务器可根据当前用户的FOV的位置信息，将上述局部图像和采样全景图像拼接为一帧图像等。

除了以上描述的叠加方式外，服务器还可根据当前时刻用户的FOV和前一时刻用户的FOV的变化情况进行相应内容的选择和播放。下面以选择为例进行描述，其映射、叠加等方式与上述实现方式相同：

1)若当前时刻用户的FOV的位置没有变化，或者当前时刻用户的FOV的位置变化没有超出上述编码空间对象，服务器则可直接播放显示上述局部图像，不需要将局部图像和采样全景图像进行叠加。

2)若当前时刻用户的FOV对应的空间对象大于上述编码空间对象高分辨率编码区域范围，则通过如下两种方式进行图像数据的显示：

a1：将上述低分辨率的采样全景图像对应的经纬图上采样到上述局部图像的分辨率上，以上述局部图像的内容为主要叠加，将从采样全景图像的内容补充到编码空间对象之外的位置上，然后映射为需要显示的2D平面图像格式，再以3D的形式显示播放。可保证视频图像显示的质量，提高客户端的用户体验。

b1：将上述低分辨率的采样全景图像对应的经纬图上采样到上述局部图像的分辨率上，按照当前用户的FOV对应的空间对象映射为需要显示的2D平面图像格式，再以3D的形式显示播放，实现简单，适用性高。

可替换的，当服务器已经将经纬图映射为2D平面图像时，终端解码后可直接得到2D平面图像，此时可使用上述1)和2)的方式处理并叠加播放，但不需要再进行经纬图映射为2D平面图像的操作。具体可根据实际应用场景确定，在此不做限制。

除显示之外，客户端可在显示图像数据的同时检测当前时刻用户的FOV，并将FOV信息传递到服务器。具体实现中，客户端可在显示视频图像数据的同时使用传感器(例如，摄像头，陀螺仪，重力传感器以及水平传感器等)检测用户关注点的位置(如FOV的中心位置等)，再根据人眼视角大小(例如：水平视角(约为110度，极限可以达到180度)，垂直视角(约为90度)等)确定当前时刻用户观看区域(即FOV)的位置。客户端可发送上述FOV信息给服务器，具体实现中，上述FOV信息的表现方式可参见上述描述，在此不再赘述。

进一步的，在一些可行的实施方式中，除了上述球面表示方式表示FOV信息之外，上述FOV信息也可为2D图像的位置信息，以经纬图为例，其表示方式可以为：

A.起始位置和结束位置为经纬图中的绝对位置。例如：起始位置为垂直方向像素坐标1000，水平方向像素坐标1000，结束位置为垂直方向像素坐标3000，水平方向像素坐标2000。

B.起始位置或者中心位置和区域大小。例如：起始位置为垂直方向像素坐标1000，水平方向像素坐标1000，区域大小为2000*1000。

C.与前一时刻用户的FOV的起始位置的差值，例如：垂直方向像素坐标差值100，水平方向像素坐标差值100等。此时区域大小可与前一时刻用户的FOV的区域大小相同，也可不同，具体可根据实际应用场景确定。

上述A至C描述的实现方式仅是部分可能的实现方式，具体可根据实际应用场景扩展更多的描述方式，在此不再赘述。

进一步的，在一些可行的实施方式中，服务器将第一码流或者第二码流传输给客户端时，可根据其网络带宽状态自适应选择传输的码流。具体的，当网络带宽大时，服务器可直接将第一码流和第二码流都传输给客户端，以供客户端进行自适应选择解码和播放的码流。当网络带宽较小时，服务器可以选择传输第二码流的部分码流或者第二码流给客户端，以节省传输带宽，保证用户观看区域的质量和视频的连续性。当网络带宽较小时，服务器还可以选择传输第二码流的部分码流和第一码流的部分码流给客户端，或者服务器还可选择传输第二码流而不传输第一码流，以节省传输带宽，保证用户观看区域的质量和视频的连续性。如下表1，表1为网络带宽与传输数据的一对应关系表：

表1

具体实现中，上述表1列举的网络带宽与传输数据的对应关系仅是部分可能的实现方式，并非全部的实现方式，具体可根据实际应用场景确定，在此不做限制。

除此之外，当网络带宽较小时，服务器还可以选择部分传输的局部图像对应的经纬图数据，以节省传输带宽，保证用户观看视角的视频图像的质量和连续性，如下表2，表2为网络带宽与传输数据的另一对应关系表：

表2

具体实现中，上述表2列举的网络带宽与传输数据的对应关系也仅是部分可能的实现方式，并非全部的实现方式，具体可根据实际应用场景确定，在此不做限制。

在一些可行的实施方式中，服务器可根据其网络状态或者带宽大小选择传输的图像数据，客户端也可根据其自身的解码能力和支持的图像数据处理格式选择相应的码流进行解码和播放。具体的，客户端可根据自身具备的解码能力，选择合适的码流进行解码。其中，上述解码能力可包括客户端的处理器的处理器核的个数，以及处理器的主频等。如下表3，表3是客户端解码能力与其选择的解码码流的一对应关系表：

表3

解码能力	解码码流
		8核，主频2.6G	第二码流+第一码流
4核，主频2.4G	第二码流+部分的第一码流
		2核，主频2G	第二码流

具体实现中，上述8核指代客户端的处理器为8核处理器，同理，4核和2核也均指代客户端的处理器的核个数。上述客户端根据其解码能力选择的解码码流仅是部分可行的实施方式，具体可根据实际应用场景确定，在此不做限制。

除此之外，在一些可行的实施方式中，终端还可以根据解码能力决定解码2D码流还是3D码流。当带宽足够时，服务器可编码2D和3D两种图像数据的播放格式的码流并全部传输给客户端。客户端可根据解码能力选择相应播放格式的码流进行解码处理后显示播放。如下表4，表4是客户端解码能力与其选择的解码码流的另一对应关系表：

表4

具体实现中，上述表4列举的解码能力仅是部分示例，并非全部。上述解码能力与解码码流的对应关系也仅是部分可能的实现方式，并非全部，具体可根据实际应用场景确定，在此不做限制。

在一些可行的实施方式中，客户端对服务器端发送的码流进行解码之后，还可根据客户端支持的视频/图像格式(即图像数据的播放格式)选择适合的码流进行显示播放。以编码传输的经纬图格式的数据为例，如果客户端支持的图像数据的播放格式为2D播放格式，则客户端在解码相应码流之后可将解码图像映射成2D平面图像进行显示播放。如果客户端支持的图像数据的播放格式为3D播放格式，则客户端可在解码相应的码流之后，将解码得到的经纬图图像映射为3D球面等格式的图像数据进行显示播放。例如，若客户端为VR眼镜，其支持的播放格式为3D格式，客户端则可将解码得到的图像数据映射为3D球面格式的图像数据进行显示播放。若客户端为平板电脑，其支持的播放格式为2D格式，客户端则可将解码得到的图像数据映射为2D平面图像进行显示和播放。若客户端同时支持2D和3D格式的图像数据的播放显示，客户端在可按照默认的播放格式(2D或者3D中的一种)进行图像数据的播放和显示，或者根据用户选择的播放格式进行图像数据的播放和显示，或者部分图像数据作为2D格式显示，另一部分图像数据作为3D格式显示等，在此不做限制。

可替换的，在一些可行的实施方式中，客户端可将其支持的图像数据的播放格式以及客户的图像数据的解码能力等信息发送给服务器，通过服务器直接将每帧图像转换为相应的格式再进行编码传输。客户端接收到服务器发送的码流之后，则可直接进行解码和播放，无需在进行播放格式的转换等，操作简单，适用性高。

在一些可行的实施方式中，客户端也可根据其具备的解码能力，为用户提供图像数据播放模式的选择，以根据用户选定的图像数据播放模式从上述第二码流和第二码流中选择目标码流进行解码，并根据相应的播放格式进行播放。例如，客户端可以提供一种或多种图像数据播放模式供用户选择，其中不同的图数据播放模式对应播放的图像内容不同，图像质量不同，图像显示格式也不同等。假设客户端提供给用户选择的图像数据播放模式为三个模式，其中，模式一对应播放的图像内容为第一码流和第二码流解码得到的图像的叠加，模式二对应播放的图像内容为第一码流解码得到的图像，模式三对应波的图像内容为第二码流解码得到的图像等。客户端可根据用户选择的图像数据播放格式播放相应的内容，提高了视频数据的处理的灵活性和趣味性。

进一步的，客户端还可在视频的播放过程中，将当前的图像数据播放模式突出标记出来，并展现给用户。用户可通过上述突出标记确定其当前观看的视频的播放格式，以供用户随时根据自己的需求选定自己想要的播放模式。其中，上述突出标记可为高亮显示，或者隐藏其他模式等，在此不做限制。

在一些可行的实施方式中，客户端还可在视频的播放过程中，在当前时刻用户的FOV对应的空间对象上显示当前时刻用户的FOV对应的空间对象在全景空间中的相对位置。具体的，客户端可根据当前时刻用户观看的视角信息确定当前时刻用户观看的视角对应的空间对象在全景空间中的相对位置，并在当前时刻用户观看的视角对应的空间对象的指定位置显示上述相对位置的示意图。其中，上述指定位置包括左上角、右上角、左下角和右下角等。如图13，为本发明实施例提供的空间对象在全景空间中的相对位置示意图。客户端可在当前时刻用户观看的空间对象(如框3)的左下角显示当前时刻框3在全景空间(球面)中的相对位置，以供用户查阅，增强了用户观看视频的趣味性。

参见图14，是本发明实施例提供的服务器的实施例结构示意图。本发明实施例提供的服务器，包括：

获取模块141，用于得到视角信息。

所述获取模块141，还用于根据所述视角信息得到空间对象信息，所述空间对象信息用以描述全景空间中的指定空间对象。

所述获取模块141，还用于得到第一码流，所述第一码流是对所述指定空间对象的图像数据进行编码得到的。

所述获取模块141，还用于得到第二码流，所述第二码流是对所述全景空间的图像数据进行编码得到的。

传输模块142，用于将所述获取模块获取的所述第一码流和所述第二码流传输给客户端。

在本发明实施例的一种可能的实现方式中，所述传输模块142具体用于：

在本发明实施例的一种可能的实现方式中，所述获取模块141具体用于：

得到客户端支持的图像数据处理格式；

具体实现中，本发明实施例提供的服务器可执行上述视频数据的处理方法中的服务器所执行的实现方式，具体可参见上述实现方式，在此不再赘述。

参见图15，是本发明实施例提供的客户端的实施例结构示意图。本发明实施例提供的客户端，包括：

接收模块151，用于接收第一码流，所述第一码流是对指定空间对象的图像数据进行编码得到的，所述指定空间对象是全景空间中的空间对象。

所述接收模块151，还用于接收第二码流，所述第二码流是对所述全景空间的图像数据进行编码得到的。

确定模块152，用于根据当前时刻用户的视角信息确定码流的播放方式。

播放模块153，用于根据所述确定模块确定的所述码流的播放方式对所述接收模块接收的所述第二码流和所述第一码流进行播放。

所述播放模块153具体用于：

在本发明实施例的一种可能的实现方式中，所述播放模块153具体用于：

在本发明实施例的一种可能的实现方式中，所述确定模块152还用于：

所述播放模块153还用于：

具体实现中，本发明实施例提供的客户端可执行上述视频数据的处理方法中的客户端所执行的实现方式，具体可参见上述实现方式，在此不再赘述。

本发明的说明书、权利要求书以及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或者单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或者单元，或可选地还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种视频数据的处理方法，其特征在于，所述方法包括：

客户端向服务器发送当前时刻用户的视角（FOV）信息；

客户端接收第一码流，所述第一码流是对指定空间对象的图像数据进行编码得到的，所述指定空间对象是全景空间中的空间对象，所述第一码流是所述服务器根据所述视角信息得到；

所述客户端接收第二码流，所述第二码流是对所述全景空间的图像数据进行编码得到的，所述第二码流对应分辨率小于所述第一码流对应的分辨率；

2.如权利要求1所述的方法，其特征在于，所述播放方式包括：叠加播放、补充播放和采样播放中的至少一种。

3.如权利要求1所述的方法，其特征在于，所述视角信息包括：用户的视角在所述全景空间中的位置信息；

其中，所述位置信息包括：中心位置、起始位置、用户的视角在全景空间中对应区域的长度以及用户的视角在全景空间中对应区域的宽度中的至少一种。

4.如权利要求1所述的方法，其特征在于，所述视角信息包括：当前时刻用户的视角在全景空间中的位置信息与前一时刻用户的视角在全景空间中的位置信息的差值；

5.如权利要求3或4所述的方法，其特征在于，所述视角信息还包括：显示的分辨率信息。

6.如权利要求5所述的方法，其特征在于，所述播放方式为叠加播放；

7.如权利要求5所述的方法，其特征在于，所述播放方式为补充播放；

8.如权利要求5所述的方法，其特征在于，所述播放方式为采样播放；

9.如权利要求1或2所述的方法，其特征在于，所述客户端根据所述码流的播放方式对所述第二码流和所述第一码流进行播放包括：

所述客户端根据其支持的图像数据处理格式对所述第一码流的部分码流和所述第二码流进行解码，并根据所述播放方式对解码得到的图像进行播放；或者

其中，所述图像数据处理格式包括：图像数据的播放格式和图像数据的解码格式中的至少一种。

10.如权利要求1或2所述的方法，其特征在于，所述客户端根据所述码流的播放方式对所述第二码流和所述第一码流进行播放包括：

11.如权利要求10所述的方法，其特征在于，所述方法还包括：

12.如权利要求10所述的方法，其特征在于，所述方法还包括：

在所述当前时刻用户的视角对应的空间对象的指定显示位置显示所确定的位置的示意图。

13.一种客户端，其特征在于，包括：

发送模块，用于向服务器发送当前时刻用户的视角（FOV）信息；

接收模块，用于接收第一码流，所述第一码流是对指定空间对象的图像数据进行编码得到的，所述指定空间对象是全景空间中的空间对象，所述第一码流是所述服务器根据所述FOV信息得到；

所述接收模块，还用于接收第二码流，所述第二码流是对所述全景空间的图像数据进行编码得到的，所述第二码流对应分辨率小于所述第一码流对应的分辨率；

14.如权利要求13所述的客户端，其特征在于，所述播放方式包括：叠加播放、补充播放和采样播放中的至少一种。

15.如权利要求13所述的客户端，其特征在于，所述视角信息包括：用户的视角在所述全景空间中的位置信息；

16.如权利要求13所述的客户端，其特征在于，所述视角信息包括：当前时刻用户的视角在全景空间中的位置信息与前一时刻用户的视角在全景空间中的位置信息的差值；

17.如权利要求15或16所述的客户端，其特征在于，所述视角信息还包括：显示的分辨率信息。

18.如权利要求17所述的客户端，其特征在于，所述播放方式为叠加播放；

所述播放模块具体用于：

19.如权利要求17所述的客户端，其特征在于，所述播放方式为补充播放；

所述播放模块具体用于：

20.如权利要求17所述的客户端，其特征在于，所述播放方式为采样播放；

所述播放模块具体用于：

21.如权利要求13或14所述的客户端，其特征在于，所述播放模块具体用于：

根据所述客户端支持的图像数据处理格式对所述第一码流的部分码流和所述第二码流进行解码，并根据所述播放方式对解码得到的图像进行播放；或者

22.如权利要求13或14所述的客户端，其特征在于，所述播放模块具体用于：

23.如权利要求22所述的客户端，其特征在于，所述确定模块还用于：

所述播放模块还用于：

24.如权利要求22所述的客户端，其特征在于，所述确定模块还用于：

所述播放模块还用于：

在所述确定模块确定出的所述当前时刻用户的视角对应的空间对象的指定显示位置显示所确定位置的示意图。