CN106576158A

CN106576158A - 沉浸式视频

Info

Publication number: CN106576158A
Application number: CN201480081177.7A
Authority: CN
Inventors: 约尼·梅恩佩
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2014-08-13
Filing date: 2014-08-13
Publication date: 2017-04-19
Also published as: EP3180911B1; EP3180911A1; US10477179B2; US20170237964A1; WO2016024892A1

Abstract

网络实现的视频处理服务器(100)通过处理来自多个视频流的至少一部分的视频数据来生成沉浸式视频子流，该多个视频流携带用于完全沉浸式视频场景的视频数据。基于在网络实现的服务器(100)与用户设备(200)之间的控制信道上接收到的表示用户当前视野的信息来执行该处理。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。

Description

沉浸式视频

技术领域

当前实施例大体涉及沉浸式视频。

背景技术

沉浸式视频，也称为360度视频或球形或全景沉浸式视频，是捕获每个方向上的视图的真实世界场景的视频记录。在回放期间，观众控制观看方向，观看方向可以经由鼠标、键盘或头戴式显示器(HMD)上的头部运动跟踪传感器(例如以虚拟现实(VR)护目镜的形式)来控制。

在沉浸式视频制作的示例中，具有重叠领域的多个相机捕获所有可能的视角。视频流在合成服务器中是对准和非失真的。每个视频流被逐帧处理。每个帧(通常称为纹理或图像纹理)被映射至多边形网格上。多边形网格是图像纹理在其几何顶点以2D或3D坐标系布置的多边形上的投影。如果服务器指定球形视图，则多边形以3D坐标布置。如果全景或圆顶投影足够，则多边形以2D坐标布置。

基于校准数据计算多边形网格的坐标，该校准数据指定如何矫正、旋转和平移图像纹理。在全景圆柱投影的情况下，每个图像纹理被盘绕并且变形为平坦的圆柱视图，以创建更大的高分辨率视频帧，通常称为拼接帧或图像。最后，使用拼接帧，将每件事物放回到新的视频流。该过程导致覆盖高分辨率视频柱面的拼接视频。对于圆柱视频，最终分辨率可以是例如8000×3000像素。在进一步处理和递送之后，视频可以最终在360视频播放器客户端上渲染，360视频播放器客户端在视频播放器的环境内盘绕视频，以允许用户在显示器(例如智能电话、网站或HMD)上环顾她自己。

基于中央处理单元(CPU)的视频拼接是相对耗时的。例如，在现代PC上拼接一分钟的每秒48帧(fps)的视频可能需要大约4-5分钟。使用单个图形处理单元(GPU)，相同的处理可以在大约1.5分钟内完成。如果同时使用多个GPU，所需时间降至约20秒。

有两种捕获沉浸式视频的主要技术。第一种技术使用单个相机，用透镜(lense)和反光镜(mirror)生成球形视频或全景视频。所得的沉浸式视频通常具有非常低的分辨率。第二种技术使用多个相机来生成需要在后期制作期间拼接在一起的单独视频流。该方法产生更高的分辨率，原因在于多个高分辨率视频流被拼接在一起。

沉浸式视频是通过将由多个单独的相机或使用多个透镜或反光镜的单个相机所产生的视频流拼接起来而创建的，使得可以覆盖整个360度场景。使用现有编解码器和协议对拼接视频进行编码并将其发送给用户设备或客户端。用户设备或客户端围绕视频播放器的圆柱或球形环境盘绕视频，以允许用户环视。这种现有技术存在许多显著的缺点。

例如，用户设备或客户端需要相对强大，以便能够执行与盘绕沉浸式视频以及提取并在用户设备的显示器中渲染其部分相关联的处理。在移动设备上，这消耗了大量的电池电量。此外，沉浸式视频需要适应用户设备支持的分辨率及它们使用的编解码器和协议。这可能导致低分辨率，原因在于将整个360度场景发送给用户设备或客户端。

因此，在沉浸式视频领域存在改进的空间。

发明内容

一般目的是提供对沉浸式视频的有效处理。

本文描述的实施例满足该目的和其他目的。

实施例的一方面涉及用于处理沉浸式视频的方法。该方法包括：通过基于在网络实现的视频处理服务器与用户设备之间的控制信道上接收到的表示用户当前视野的信息来处理视频数据，所述网络实现的视频处理服务器生成沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。

实施例的另一方面涉及用于渲染沉浸式视频的方法。该方法包括在控制信道上向网络实现的视频处理服务器发送表示用户当前视野的信息。该方法还包括在视频输送信道上接收沉浸式视频子流，所述沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。该方法还包括对沉浸式视频子流进行解码，以形成与完全沉浸式视频场景的子部分相对应的解码视频数据。所述方法附加地包括输出解码视频数据以供显示。

实施例的附加方案涉及一种网络实现的视频处理服务器，被配置为：通过基于在所述网络实现的视频处理服务器与用户设备之间的控制信道上接收到的表示用户当前视野的信息处理视频数据，来生成沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。

实施例的相关方案定义了一种网络实现的视频处理服务器，包括流生成器，用于通过基于在所述网络实现的视频处理服务器与用户设备之间的控制信道上接收到的表示用户当前视野的信息处理视频数据，来生成沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。

实施例的另一方案涉及一种用户设备，被配置为在控制信道上向网络实现的视频处理服务器发送表示用户当前视野的信息。用户设备还被配置为在视频输送信道上接收沉浸式视频子流，所述沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。用户设备还被配置为对沉浸式视频子流进行解码，以形成与完全沉浸式视频场景的子部分相对应的解码视频数据。用户设备附加地被配置为输出解码视频数据以供显示。

实施例的相关方案定义了一种用户设备，包括输出，用于在控制信道上向网络实现的视频处理服务器发送表示用户当前视野的信息。用户设备还包括输入，用于在视频输送信道上接收沉浸式视频子流，所述沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。用户设备还包括解码器，用于对沉浸式视频子流进行解码，以形成与完全沉浸式视频场景的子部分相对应的解码视频数据。用户设备附加地包括视频输出，用于输出解码视频数据以供显示。

实施例的附加方案涉及一种包括指令的计算机程序，当由所述处理器执行所述指令时，使所述处理器：通过基于在所述网络实现的视频处理服务器与用户设备之间的控制信道上接收到的表示用户当前视野的信息处理视频数据，来生成沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。

实施例的另一方案涉及一种包括指令的计算机程序，当由处理器执行时，所述指令使所述处理器在控制信道上向网络实现的视频处理服务器发送表示用户当前视野的信息。还使处理器在视频输送信道上接收沉浸式视频子流，所述沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。还使处理器对沉浸式视频子流进行解码，以形成与完全沉浸式视频场景的子部分相对应的解码视频数据。附加地使处理器输出解码视频数据以供显示。

相关方案定义包括上述计算机程序的载体。该载体是电子信号、光信号、电磁信号、磁信号、电信号、无线电信号、微波信号或计算机可读存储介质之一。

当前实施例将计算复杂的视频数据拼接从用户设备移至网络实现的视频处理服务器，在网络实现的视频处理服务器中基于用户当前视野执行处理以生成沉浸式视频子流。由此，用户设备不再需要接收携带表示整个360度视频场景的视频数据的沉浸式视频流。相反，可以直接从沉浸式视频子流获得要在用户显示器上示出的内容，或可以容易地从沉浸式视频子流提取要在用户显示器上示出的内容。

附图说明

通过参考以下结合附图的描述，能够最佳地理解实施例及其更多的目的和优点，在附图中：

图1是示出了根据实施例的用于处理沉浸式视频的方法的流程图；

图2是示出图1中所示方法的附加的可选步骤的流程图；

图3是示出图1中所示方法的附加的可选步骤的流程图；

图4是示出了根据另一实施例的用于处理沉浸式视频的方法的流程图；

图5是示出图4中所示方法的附加的可选步骤的流程图；

图6是示出了根据又一实施例的用于处理沉浸式视频的方法的流程图；

图7是示出图1中所示方法的附加的可选步骤的流程图；

图8是示出了根据实施例的用于渲染沉浸式视频的方法的流程图；

图9是示出图8中所示方法的附加的可选步骤的流程图；

图10是示出图8中所示方法的附加的可选步骤的流程图；

图11是示出图8中所示方法的附加的可选步骤的流程图；

图12是示出根据实施例的建立沉浸式视频服务的流程图；

图13是根据又一实施例用于处理沉浸式视频的方法的流程图；

图14是根据实施例的用于提供沉浸式视频的系统的概述；

图15是根据实施例的网络实现的视频处理服务器的框图；

图16是根据另一示例实施例的网络实现的视频处理服务器的框图；

图17是根据又一实施例的网络实现的视频处理服务器的框图；

图18是根据实施例的用户设备的框图；

图19是根据另一实施例的用户设备的框图；

图20是根据又一实施例的用户设备的框图；以及

图21是根据实施例的计算机程序实现的框图。

具体实施方式

附图中，将相同的附图标记用于类似或对应的要素。

该实施例一般地涉及沉浸式视频，并具体涉及处理、分布和渲染沉浸式视频。本文使用的“沉浸式视频”是针对捕获许多(例如每个)方向上的视图的真实世界场景记录的视频。在本文中，针对视频数据的全景或圆顶状投影，沉浸式视频也被称为沉浸式全景视频，或简称为全景视频，或者针对视频数据的球形投影，沉浸式视频被称为沉浸式球形，或简称为球形视频。沉浸式视频在本领域中还表示为360度视频，以表示在每个方向上捕获场景。沉浸式视频确实可以是在每个方向上捕获场景的真正360度视频或确实可以是在大多数方向上但不一定在每个方向上捕获场景的接近360度视频。

图1是根据方案的用于处理沉浸式视频的方法的流程图。该方法包括：在步骤S1中，网络实现的视频处理服务器通过处理视频数据来生成沉浸式视频子流，该视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分。基于在网络实现的视频处理服务器与用户设备之间的控制信道上接收到的表示用户当前视野的信息来执行对视频数据的处理。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。

因此，多个视频流携带对应于完全、完整或整个沉浸式视频场景(通常为完全、完整或整个360度场景或至少接近360度场景)的视频数据。这意味着这些多个视频流共同携带视频数据，以覆盖由多个相机捕获的或使用单个相机连同透镜和反光镜生成的完全沉浸式视频场景。

根据实施例，网络实现的视频处理服务器使用表示用户当前视野的信息来产生沉浸式视频子流，该沉浸式视频子流携带仅与完全沉浸式视频场景的子部分相对应的编码且拼接的视频数据。因此，沉浸式视频子流的视频数据不覆盖来自于一起拍摄的所有所述多个视频流所覆盖的所有方向的沉浸式视频场景，而只是覆盖来自于这些方向的所选部分的沉浸式视频场景。通过在网络实现的视频处理服务器与用户设备之间的控制信道上接收表示用户当前视野的信息，这是可能的。该信息然后由网络实现的视频处理服务器使用以处理来自多个视频流的至少一部分的视频数据，以生成沉浸式视频子流。

在现有技术中，用户设备接收携带表示完全沉浸式视频或360度场景的编码视频数据的沉浸式视频流。根据实施例，用户设备代以接收携带对完全沉浸式视频或360度场景的子部分进行表示的编码视频数据的沉浸式视频子流。

图2是示出图1中所示方法的附加的可选步骤的流程图。该方法从步骤S10开始，步骤S10包括网络实现的视频处理服务器接收携带与完全沉浸式视频场景相对应的视频数据的多个视频流。然后，该方法继续至图1中的步骤S1，其中网络实现的视频处理服务器通过处理来自这些多个视频流的至少一部分的视频数据来生成沉浸式视频子流。

网络实现的视频处理服务器由此从视频源(例如360度相机系统、视频数据存储或服务器)或从视频服务提供商接收多个视频流。多个视频流可以表示直接从360度相机系统获得的直播视频内容，或者存储在视频数据服务器中或从视频服务提供商获得的先前记录或生成的视频内容。

图3是示出图1和图2中所示方法的附加的可选步骤的流程图。该方法开始于步骤S20，其中网络实现的视频处理服务器通过网络实现的视频处理服务器与用户设备之间的控制信道接收用户当前视野的信息。然后，该方法继续至图1的步骤S1或图2的步骤S10，并然后返回到步骤S21。该步骤S21包括网络实现的视频处理服务器通过视频输送信道向用户设备发送沉浸式视频子流。

因此，网络实现的视频处理服务器优选地具有两个用于与用户设备通信的活跃信道：用于发送沉浸式视频子流的视频输送信道和用于接收表示用户当前视野的信息的控制信道。网络实现的视频处理服务器优选地还具有在其上接收例如来自360度相机系统或视频服务提供商的多个视频流的信道。

控制信道可以用不同的方式实现，取决于例如用户设备的类型和用户设备使用的平台。控制信道的非限制性示例可以是用户设备和网络实现的视频处理服务器之间的WebSocket连接。WebSocket是通过单个传输控制协议(TCP)连接提供全双工通信信道的协议。WebSocket被设计为在web浏览器和web服务器中实现，但它可以由任何客户端或服务器应用程序使用。另一非限制性示例是web实时通信(RTC)数据信道。WebRTC是应用程序编程接口(API)，其支持浏览器到浏览器应用程序媒体通信和没有插件的共享。双向超文本传输协议(HTTP)连接是合适的控制信道的另一非限制性示例。例如，可以使用HTTP长轮询来实现HTTP连接。也可以使用常规TCP或用户数据报协议(UDP)连接作为控制信道。

在控制信道内使用的信令协议例如可以是会话发起协议(SIP)、可扩展通讯和表示协议(XMPP)、HTTP或私有协议。控制信道协议消息(即携带用户视野的信息的消息)的有效载荷可以使用任意合适的格式。示例包括JavaScript对象表示法(JSON)和可扩展标记语言(XML)。

图4是示出实现图1中的沉浸式视频子流的生成的实施例的流程图。该方法包括：在步骤S30中，网络实现的视频处理服务器基于表示用户当前视野的信息选择多个视频流的子部分。网络实现的视频处理服务器然后在步骤S31中通过将来自多个视频流的所选择的子部分的视频数据拼接在一起来生成沉浸式视频子流。

因此，在该实施例中，网络实现的视频处理服务器使用表示用户当前视野的信息来选择多个视频流的子部分。然后仅将来自多个视频流的所选择的子部分的视频数据拼接在一起，编码并用于生成沉浸式视频子流。

这意味着网络实现的视频处理服务器仅需要对在图2的步骤S10中针对多个视频流所接收的所有视频数据的子部分进行处理(即拼接在一起并进行编码)。这与生成对应于完全沉浸式视频场景的沉浸式视频流相比，显著减小了生成沉浸式视频子流所需的处理。

在具体实施例中，步骤S30包括网络实现的视频处理服务器基于表示用户当前视野的信息，选择所述多个视频流中携带与在用户当前视野内的沉浸式视频场景相对应的视频数据的视频流。

因此，在该实施例中，网络实现的视频处理服务器使用通过控制信道接收到的信息来识别或确定在步骤S10中接收的所有所述多个视频流中的哪些视频流实际上携带在用户当前视野内的视频数据。网络实现的视频处理服务器然后将这些识别出的视频流的视频数据拼接在一起，以生成沉浸式视频子流。这意味着沉浸式视频子流由此仅携带在用户当前视野内的视频数据。

在控制信道上交换的信息由此允许网络实现的视频处理服务器通过仅将来自其输出当前在用户的视野内的那些相机的视频流拼接在一起来优化它的操作。由此，网络实现的视频处理服务器不是向用户设备发送覆盖完全360度场景的沉浸式视频流，而是发送沉浸式视频子流，该沉浸式视频子流携带位于用户视野内并因此将被显示在用户设备的屏幕上或显示在与用户设备连接的屏幕上的视频图像。

由于在控制信道上交换的信息允许网络实现的视频处理服务器仅将用户实际需要的那些视频流拼接在一起，这使得所需的处理功率显著降低。作为示例，为覆盖整个或全部360度球形场景，网络实现的视频处理服务器可能需要将来自12个不同照相机和视频流的视频数据拼接在一起。如果表示用户当前视野的信息指示用户的视野仅覆盖两个相机的视频数据，则可以实现处理功率83％的降低。

在上述实施例中，网络实现的视频处理服务器直接发送要向用户显示的视频数据。也就是说，沉浸式视频子流仅携带用户当前能够看到的沉浸式视频场景的一部分。该方法的好处是用户设备不需要执行任何额外的处理。然而，在一些场景中，可能期望向用户设备不仅发送当前在用户视野内的沉浸式视频场景部分，而是作为替代发送稍大的沉浸式视频场景部分，即N度场景，其中N＜360，例如N＝120-150。在接收到携带表示N度场景的编码视频数据的沉浸式视频子流时，用户设备需要应用一定量的本地处理以从该沉浸式视频子流中提取填充用户视野所需的图像。然而，这样做的好处是当用户移动他/她的头部时，可以在延时降低的情况下对视野进行本地更新。这意味着即使用户稍微移动他/她的头部以从不同的方向观看沉浸式视频场景，接收的沉浸式视频子流也可以携带表示该不同方向的视频数据，除非用户非常大地移动头部。因此，用户设备由此直接访问要针对该新方向显示的视频数据，原因在于沉浸式视频子流不仅携带要针对用户的(先前)视野显示的视频数据，而且携带稍宽的沉浸式视频场景。因此，可以将针对该新方向的视频数据直接显示给用户，而不是等待生成并向网络实现的视频处理服务器发送表示用户的新视野的新的或更新的信息，并获得携带用户的新视野的视频数据的更新的沉浸式视频子流。

然而，当用户可以直接看到来自新方向的视频数据时，用户设备优选地仍通过控制信道向网络实现的视频处理服务器发送更新的信息，以允许网络实现的视频处理服务器以使得视频数据所表示的场景的中心点现在反映用户的头部的新方向的这种方式来更新要包括在沉浸式视频子流中的视频数据。这将使用户设备能够在用户下次移动他/她的头部时重新提取视频数据。

因此，该实施例与先前描述的实施例类似，原因在于网络实现的视频处理服务器使用通过控制信道接收的信息来确定携带在用户视野内的视频数据的视频流。然而，替代于生成携带与用户视野完全对应的视频数据的沉浸式视频子流，网络实现的视频处理服务器生成携带对应于更宽的全景或球形场景的视频数据的沉浸式视频子流。

在该实施例中，步骤S30包括网络实现的视频处理服务器基于表示用户当前视野的信息，选择多个视频流中携带与比用户当前视野宽但小于完全沉浸式视频场景的场景相对应的视频数据的视频流。

网络实现的视频处理服务器然后在步骤S31中将来自所选视频流的视频数据拼接在一起以生成沉浸式视频子流。

在该实施例中，网络实现的视频处理服务器将表示沉浸式视频场景的视频数据拼接在一起，该沉浸式视频场景比用户的视野宽，但仍是完全沉浸式视频场景(即整个360度场景)的子集或子部分。

网络实现的视频处理服务器可以被配置为选择在位于用户当前视野内的视频数据之外的视频数据，使得由沉浸式视频子流携带的视频数据表示针对某一定义的N值(例如N＝120-150)的N度场景。然后，N度场景优选地以用户当前视野的方向为中心，并由此向左扩展N/2度并向右扩展N/2度。

在备选变型或附加变型中，可以通过预测用户的头部接下来将移动的位置来进一步优化该实施例。此外，可以应用计算机视觉技术来识别在完全沉浸式视频场景内的感兴趣的内容(例如移动穿过场景的一级方程式赛车)，以估计用户接下来可能将他/她的注意力集中于的位置。该信息可以用于调整发送给用户的视频数据的部分。

图5是示出与预测用户的头部接下来将移动至哪里相关的附加的可选步骤的流程图。该方法开始于步骤S40，在步骤S40中网络实现的视频处理服务器分析多个视频流的视频数据，并识别所分析的视频数据中的目标内容。该方法继续至步骤S41和S42，其可以用任意顺序串行执行或至少部分并行地执行。步骤S41包括：网络实现的视频处理服务器基于表示用户当前视野的信息，选择多个视频流中携带与用户视野内的沉浸式视频场景相对应的视频数据的视频流。步骤S42包括：网络实现的视频处理服务器选择多个视频流中携带与识别出的目标内容相对应的视频数据的至少一个视频流。然后，该方法继续至步骤S31，在步骤S31中将步骤S41和S42中选择的视频流的视频数据拼接在一起。

因此，在该实施例中，沉浸式视频子流携带与用户当前视野相对应的视频数据和与目标内容相对应的视频数据。由此，沉浸式视频子流包含：表示当前视野和用户当前看到的沉浸式视频场景的视频数据，以及针对用户可能移动他/她的头部以观看目标内容的方向或场景部分的视频数据。这意味着用户设备将会访问已经在沉浸式视频子流中的针对该新方向或场景部分的视频数据，并且一旦他/她在那个方向上移动头部便可将其直接向用户显示。

目标内容可以是用户可能关注的任意内容。针对表示赛车竞赛的视频内容，示例可以是一级方程式赛车，针对表示足球比赛的视频内容，示例可以是球，等等。

在一些情况下，网络实现的视频处理服务器可能希望避免在多个用户观看相同视频内容的情况下针对每个用户单独地执行视频拼接的需要。在这种情况下，网络实现的视频处理服务器首先将来自所有所述多个视频流和相机的视频数据拼接在一起，以创建例如球形或圆柱(360度)场景的完全沉浸式视频场景。在这样做之后，网络实现的视频处理服务器使用在控制信道上从每个用户接收的信息，从完全沉浸式视频场景中仅剪切(即提取)当前在用户的视野内的那些部分。所提取的子视图然后在用户的环境内盘绕，并作为相应沉浸式视频子流发送给用户。

图6是示出实现图1中的沉浸式视频子流的生成的实施例的流程图。该方法包括网络实现的视频处理服务器在步骤S50中将来自多个视频流的视频数据拼接在一起，以形成完全沉浸式视频场景。在下一步骤S51中，网络实现的视频处理服务器基于表示用户当前视野的信息从多个视频流中提取所拼接的视频数据的子部分。网络实现的视频处理服务器然后在步骤S52中基于所提取的拼接视频数据的子部分生成沉浸式视频子流。

这意味着在该实施例中，网络实现的视频处理服务器将来自所有视频流的视频数据拼接在一起以形成完全沉浸式视频场景。然后它使用通过控制信道接收的信息来提取拼接视频数据的子部分。然后对该提取的子部分进行编码并用于生成沉浸式视频子流。

因此，网络实现的视频处理服务器可以使用相同的拼接在一起的视频数据来提取不同的子部分，并由此基于从不同用户设备接收的信息生成不同的沉浸式视频子流。

网络实现的视频处理服务器由此将所有视频流拼接在一起以形成完整或完全的沉浸式视频场景。基于通过控制信道接收的信息，网络实现的视频处理服务器从完全沉浸式视频场景中剪切或提取与用户视野相对应的子部分，将所得到的全景或球形视频数据在用户的环境中盘绕，并将其作为沉浸式视频子流发送给用户设备。例如在需要避免在网络实现的视频处理服务器处的用户特定的视频拼接操作时，该实施例是有效的方法。

与上面结合图4和图5所讨论的相类似，在步骤S41中提取的拼接视频数据的子部分可以与用户当前视野相对应，或与比用户当前视野更宽但小于完全沉浸式视频的沉浸式视频场景相对应。

因此，在一个实施例中，网络实现的视频处理服务器在步骤S51中且基于表示用户当前视野的信息，从多个视频流中提取与用户当前视野内的沉浸式视频场景相对应的拼接视频数据的子部分。

在另一实施例中，网络实现的视频处理服务器基于表示用户当前视野的信息，提取与用户当前视野内的沉浸式视频场景相对应的拼接视频数据的子部分，并提取与所识别出的目标内容相对应的拼接视频数据的子部分。

其中沉浸式视频子流携带对对应于用户视野的沉浸式视频场景进行表示的编码视频数据的实施例减小了用户设备需要执行的处理量。用户设备不再需要接收与完全沉浸式视频场景相对应的完全沉浸式视频流。相反，直接从网络实现的视频处理服务器发送要在用户设备的显示器上显示的视频数据。这节省了用户设备的大量处理功率。此外，它使得可以在不太强大的设备(包括电池供电的用户设备)上使用沉浸式视频。

此外，仅需要将完全沉浸式视频场景的子集传送给用户设备的事实使得可以针对所发送的视频数据使用明显更高的视频分辨率，原因在于可以将整个分辨率用于用户的视野。

所引入的控制信道向网络实现的视频处理服务器提供关于用户在360度视频环境中观看的内容的完整信息。这允许网络实现的视频处理服务器对传送给用户的视频场景进行个性化处理。

用户转动他/她的头部与该变化反映在来自网络实现的视频处理服务器的沉浸式视频子流中之间的滞后时间应该较低。

在快速相位虚拟现实动作游戏中，为实现反应敏捷的响应，在用户转动她的头部与将该移动反映在他/她的显示器上所显示的视频中之间，期望有50ms或更小的延时。通常援引60ms的延时作为可接受的虚拟现实计算机游戏的优选上限。为实现不可察觉的延时，延时应当是20ms或更少。应当注意，这些数字是针对其中用户通常进行非常快速的头部运动的快速阶段性(phased)动作游戏的推荐。更高的延时对于较慢的阶段性沉浸式视频情况是可接受的。根据沉浸式视频研究，小于200毫秒的延时足以避免模拟器病。

通常，沉浸式视频服务的端到端延迟的组成部分包括：

·网络延迟：用户设备向网络实现的视频处理服务器发送命令且所产生的动作到达用户设备的往返时间；

·处理延迟：网络实现的视频处理服务器接收命令与网络实现的视频处理服务器进行响应之间的时间；以及

·播出延迟：用户设备接收编码视频帧与对帧进行解码并呈现在用户设备的显示器上之间的时间。

如果假设非常低的往返和处理时间，则由帧速率来确定视频编码和解码所引起的最小延时。当帧速率为60fps时，最小延时将为35ms(如果使用甚至更高的帧速率，则为更小的延时)。因此，如果分别针对60ms或200ms的延迟限制，这仍将留下至少25ms或165ms用于网络延迟和其他处理。此外，存在能够用于减小处理和播出延迟的影响的技术：

·使用人头部运动模型对传感器数据进行外插(Extrapolation)，以补偿端到端延迟。现代预测技术可以将延时减小20-40ms。

·能够实时执行视频拼接：并行使用多个GPU加速器的视频拼接软件可以执行实时拼接。该实施例进一步减小拼接延迟，原因在于它们允许网络实现的视频处理服务器仅将用户视野中的视频流拼接在一起。

·时间扭曲：时间扭曲是一种后处理任务，其基于最新的头部跟踪传感器数据，用该最新的传感器数据计算将视频帧扭曲到近似于其将位于的位置的变换。时间扭曲可以在网络实现的视频处理服务器上或在用户设备上执行。时间扭曲可以从延时中消除最多30-40ms。

可以使用以下技术减小网络延迟：

·即使在无线接入网络中，1ms延时：5G无线电接入网络将根据当前估计允许1ms级别的延时。

·软件定义联网：SDN将支持在网络中配置适当的状态，以允许对控制信道和发送给用户设备的沉浸式视频子流进行优先处理。

·分布式云环境：在由多个地理上分布的数据中心组成的分布式云环境中，执行拼接操作的虚拟机可以被放置到尽可能接近用户的数据中心，以进一步减小延迟。

上述技术可以将沉浸式视频服务的延时降低到(或至少接近)在用户的设备上本地执行的360度视频渲染的水平。

在一个实施例中，在控制信道上交换的信息允许网络实现的视频处理服务器针对该用户和观看相同视频内容的其他用户来对视频数据进行个性化。这使得可以向沉浸式视频添加交互内容，即，用户可以与沉浸式视频环境交互。

例如，在通过控制信道发送的消息中包含的信息可以包括但不限于：

头部跟踪信息，用于指示尤其是用户头部的平移(pan)、倾斜和转动。头部跟踪信息可以由例如来自陀螺仪、罗盘、磁力计和/或加速度计的数据组成。网络实现的视频处理服务器使用该信息来确定它需要将什么视频数据拼接在一起以填充用户的视野。

来自附接至用户的手臂和腿部的磁运动跟踪器的数据也可以包括在消息中。该数据的目的是使网络实现的视频处理服务器知道例如用户正在用她的手做的手势。

备选地或附加地，网络实现的视频处理服务器可以使用注视方向识别数据来确定用户当前在哪里聚焦她的注视。

此外，或备选地，可以使用来自跟随用户的运动跟踪设备或视频相机的数据。该数据的目的是使网络实现的视频处理服务器意识到用户的全身运动。

在上述示例中，来自例如陀螺仪、罗盘、磁力计、加速度计、磁运动跟踪器、注视方向识别设备、运动跟踪设备或照相机的各种传感器的输出可以用作表示用户当前视野的信息。在其他示例中，用户通过用户输入设备(例如鼠标、键盘或操纵杆)的激活来控制其当前视野。在这种情况下，用户输入设备生成表示用户的期望视野的输出信号。

此外，可以使用在控制信道上发送的消息或在专用设备到服务器媒体信道上发送的消息来在用户设备与网络实现的视频处理服务器之间交换其他类型的数据。

例如，可以使用来自肌电图(EMG)肌肉活动传感器的数据，将手指位置和握力强度传送给网络实现的视频处理服务器，肌电图(EMG)肌肉活动传感器对由控制用户手指的肌肉生成的电势进行感测。该数据使网络实现的视频处理服务器可以允许用户与沉浸式视频场景内的虚拟对象交互。

因此，除用户与网络实现的视频处理服务器之间的控制信道之外，还可以在用户设备和网络实现的视频处理服务器之间建立携带数据或媒体(例如音频和视频)的一个或多个设备到服务器媒体信道。作为示例，可以将用户设备的麦克风或所连接的外部麦克风捕获到的音频发送给网络实现的视频处理服务器。网络实现的视频处理服务器可以将用户的音频混合到沉浸式视频的整体3D声音环境中，使得观看相同沉浸式视频广播的其他用户可以听到该用户在说什么。

作为另一示例，可以将用户的运动跟踪视频相机捕获的视频发送给网络实现的视频处理服务器。网络实现的视频处理服务器可以使用来自用户设备的视频来例如将用户的移动复制在沉浸式视频场景内代表用户的虚拟形象(avatar)的移动中。

设备到服务器媒体信道可以使用现有的协议和标准，包括例如实时协议(RTP)和WebRTC对等连接，以将用户的音频和视频的向上传至网络实现的视频处理服务器。

如上所述，网络实现的视频处理服务器可以利用在控制信道上提交的头部跟踪数据来生成适当的沉浸式视频数据，以供在用户设备上显示。此外，如下面将讨论的，上述附加数据允许网络实现的视频处理服务器让用户与沉浸式视频环境进行交互。

假设以下用例，其中每个人位于不同城市的一群朋友希望一起观看足球比赛。每个用户使用各自用户设备(例如HMD)从他或她的家跟进比赛。HMD或连接有HMD的计算机已经建立了到网络实现的视频处理服务器的控制信道和设备到服务器媒体信道，该网络实现的视频处理服务器作为云中的虚拟机运行。广播比赛的公司在足球竞技场周围放置了多个360度相机。这使得佩戴HMD的用户能够虚拟地坐在观众中。进一步假设在我们示例中的朋友想要在足球竞技场中的同一排座位中几乎彼此相邻地坐着。他们也希望能够看到对方并与彼此交流。用户和网络实现的视频处理服务器之间的控制信号和设备到服务器媒体信道允许这种交互。

来自每个用户的麦克风的音频流可以被混合为发送给每个单独用户的整体音频流，该来自每个用户的麦克风的音频流是通过设备到服务器媒体信道发送给网络实现的视频处理服务器的。这允许朋友们听到彼此并与彼此讲话。

通过使用计算机图形或者计算机图形、用户的捕获到的实时视频和用户的照片的组合来生成的虚拟的虚拟形象，可以在足球竞技场的虚拟行中表示每个用户。这允许用户环顾和看到他/她的朋友的虚拟形象。网络实现的视频处理服务器将生成的虚拟形象插入传送给用户的沉浸式视频。可以使虚拟形象的嘴唇与对应的用户的语音同步移动。

在控制信道上从每个用户的运动跟踪器发送的信息或备选地通过用户的设备到服务器信道发送的运动数据被转译为她的虚拟形象的虚拟手臂和腿部运动。作为示例，用户可以转向他/她的朋友并用他/她的虚拟的手部指向比赛中的一些有趣的发展。在控制信道上发送的注视方向数据允许虚拟形象进行眼神交流。EMG传感器数据允许虚拟形象用他们的手和手指做出手势。

图7是示出如图1中所示方法的附加的可选步骤的流程图。该方法从图1的步骤S1继续。在下一步骤S60中，网络实现的视频处理服务器通过设备到服务器媒体信道接收传感器数据。网络实现的视频处理服务器在步骤S61中基于传感器数据生成交互媒体内容。然后，网络实现的视频处理服务器将交互媒体内容插入沉浸式视频子流中。

交互媒体内容可以是音频内容和/或视频内容，例如对由用户的用户设备的麦克风或与用户的用户设备连接的麦克风记录的用户的语音进行表示并通过用户的设备到服务器媒体信道发送给网络实现的视频处理服务器的音频内容。视频内容可以表示用户的虚拟形象，并且其中由网络实现的视频处理服务器基于通过设备到服务器媒体信道从用户设备接收的传感器数据来控制虚拟形象的移动。

因此，控制信道还可以用于向网络实现的视频处理服务器发送附加类型的信息(例如运动跟踪数据)，或通过另一信道(即设备到服务器媒体信道)发送该附加信息。这使用户可以在沉浸式视频场景内与他/她的环境进行交互。可以与控制信道一起使用的设备到服务器媒体信道使用户例如能够与沉浸式视频的其他观众进行虚拟讨论。

如前所述，存在与使用控制信道来确定将沉浸式场景的哪些部分发送给用户设备相关联的多个益处。示例包括：减小的用户设备上所需的处理、使用显著更高分辨率的可能性、个性化和交互特征。额外的成本是需要针对每个用户单独执行的视频拼接。在一些场景中，这可能不实际。一个示例可以是以下场景，其中网络实现的视频处理服务器仅具有有限量的可用计算能力。在这种情况下，网络实现的视频处理服务器可以通过将来自所有所述多个视频流的视频数据拼接在一起，并然后针对每个用户或针对每组用户单独提取拼接视频数据的相关子部分来操作。

提供足够的计算能力的另一种方法是在分布式云环境中进行分层处理。在该方法中，在中央位置处的访问硬件加速的强大服务器将云中的所有视频数据拼接在一起，而不进行任何个性化，并将所得到的沉浸式视频流广播到在更接近用户的位置(例如分布式云的数据中心)运行的本地虚拟机。然后本地虚拟机为用户提取拼接视频数据的子部分，应用个性化，并将结果作为沉浸式视频子流发送给用户设备。在该方法中，仍然存在由本地虚拟机对每个用户执行单独处理的选项。然而，从拼接的视频数据提取相关子部分的任务与针对每个用户单独执行拼接相比需要更少的处理功率。缺点可能在于：所提取的视频数据的分辨率低于针对每个用户单独执行拼接时的分辨率。

在另一方法中，网络实现的视频处理服务器可以基于在控制信道上接收到的信息来识别当前正在观看沉浸式视频场景的大致相同部分的用户，并将其分组在一起，并将相同的沉浸式视频子流广播到整个组。用户正在观看沉浸式视频场景的大致相同的部分就足矣，具体地，在本文中如前所述，如果沉浸式视频子流携带不仅表示用户当前视野的视频数据，而是稍微更宽或更广一些的沉浸式视频场景。在该方法中，个性化(如果有的话)可以被应用为每个用户设备处的稍后处理步骤。这种方法在例如以下情况下可以是有用的：大量用户例如从曲棍球竞技场内的相同虚拟位置跟进冰球比赛，并且他们的眼睛跟随冰球的移动，并因此每个用户正在观看场景的同一部分。

图8是示出了用于渲染沉浸式视频的方法的流程图。该方法在步骤S70中开始，在步骤S70中，在控制信道上向网络实现的视频处理服务器发送表示用户当前视野的信息。在下一步骤S71中，在视频输送信道上接收沉浸式视频子流。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。在步骤S72中，对所述沉浸式视频子流进行解码，以形成与所述完全沉浸式视频场景的子部分相对应的解码视频数据。然后在步骤S73中输出已解码的视频数据以供显示。

图8中所示的方法通常由用户设备通过控制信道和视频输送信道与网络实现的视频处理服务器进行通信来执行。用户设备然后向网络实现的视频处理服务器提供用户当前视野的信息，以使网络实现的视频处理服务器能够向沉浸式视频子流提供表示完全沉浸式视频场景的子部分的编码视频数据。然后解码沉浸式视频子流的编码视频数据，并输出以显示在用户设备的屏幕或显示器上，或显示在与用户设备连接的屏幕或显示器上。

图9是示出如图8中所示方法的附加的可选步骤的流程图。图9的步骤S80包括从头部跟踪设备或眼睛跟踪设备接收用户当前视野的信息。

用户设备因而包括这样一个头部跟踪设备或眼睛跟踪设备或与这样一个头部跟踪设备或眼睛跟踪设备连接，该头部跟踪设备或眼睛跟踪设备连续地、周期性地或间歇性地基于用户的头部和/或眼睛的当前位置确定用户当前视野。这种头部跟踪设备或眼睛跟踪设备的非限制性示例包括HMD或所谓的虚拟现实(VR)护目镜。

在一个实施例中，图8的步骤S71包括：在视频输送信道上接收沉浸式视频子流，该沉浸式视频子流携带与在用户当前视野内的沉浸式视频场景相对应的编码视频数据，该用户当前视野如由在步骤S70中发送的信息所表示。

在该实施例中，沉浸式视频子流由此仅携带与用户当前视野相对应的拼接视频数据。

在另一实施例中，图8的步骤S71包括：在视频输送信道上接收沉浸式视频子流，该沉浸式视频子流携带与比用户当前视野宽但小于完全沉浸式视频场景的沉浸式视频场景相对应的编码视频数据。在该实施例中，该方法优选地包括图10中示出的附加步骤。由此该方法从图8的步骤S72继续。下一步骤S90包括：基于该信息提取与用户当前视野内的沉浸式视频场景相对应的解码视频数据的子部分。然后，该方法继续至步骤S73，步骤S73包括输出提取的解码的视频数据的子部分以供显示。

在该实施例中，沉浸式视频子流由此携带拼接视频数据，该拼接视频数据与比用户当前视野更宽但仍小于全360度场景的沉浸式视频场景相对应。然后在步骤S90中提取与用户当前视野相对应的相关子部分，以仅输出该相关子部分供显示。

图11是示出与为沉浸式视频会话提供交互内容的情况相关的附加可选步骤的流程图。该方法从图8中的步骤S70继续。在下一步骤S100中，通过设备到服务器媒体信道向网络实现的视频处理服务器发送传感器数据。在这种情况下，步骤S71优选地包括：在视频输送信道上接收携带编码视频数据和基于传感器数据生成的交互内容的沉浸式视频子流。

交互内容可以是例如表示用户的语音、用户的虚拟形象的移动等的音频和/或视频内容。

图12是示出了当新用户加入沉浸式视频服务时建立沉浸式视频服务的流程图。

步骤1：网络实现的视频处理服务器从用户设备接收对加入沉浸式视频服务的初始请求。初始请求包含关于用户设备的详细信息，例如用于沉浸式视频流的以及用于控制信道和设备到服务器媒体信道的音频和视频编解码、分辨率、传输地址和端口等。根据实现，这些细节可以在会话描述协议(SDP)会话描述、JSON、XML或私有格式中描述。

步骤2：网络实现的视频处理服务器从初始请求中提取关于用户设备的信息。

步骤3：网络实现的视频处理服务器向用户设备返回对初始请求的响应。响应尝试完成关于传输地址和端口、要在设备到服务器媒体信道上使用的编解码等的协商。在该步骤之后，如果设备和服务器已经关于所有细节达成一致，关于信道的协商完成(前进至步骤4)。如果未达成一致，用户设备将发送新请求(返回步骤1)。

步骤4：网络实现的视频处理服务器与用户设备之间的控制信道打开。

步骤5：网络实现的视频处理服务器从用户设备接收初始控制信道消息。控制信道消息优选地描述用户设备具有或用户设备连接到的传感器的类型。

步骤6：网络实现的视频处理服务器回复初始控制信道消息。

步骤7：网络实现的视频处理服务器开始从用户设备接收携带传感器数据的实时控制信道消息，即表示用户当前视野的信息。

步骤8：网络实现的视频处理服务器可选地开始接收设备到服务器媒体信道上的数据(如果有的话)。

步骤9：网络实现的视频处理服务器开始向用户设备发送视频流和音频流，即沉浸式视频子流，并可选地将交互内容添加至沉浸式视频子流。

图13是示出根据一个实施例处理沉浸式视频的方法的流程图。如图12中所示，该方法优选地在一旦建立沉浸式视频会话之后进行。

步骤1：网络实现的视频处理服务器正在等待新的控制信道消息。网络实现的视频处理服务器接收在其有效载荷中携带数据的新的控制信道消息。该数据包含尤其是来自传感器(例如，用于头部运动跟踪的用户设备的陀螺仪、罗鼎、加速度计)的传感器数据(即表示用户当前视野的信息)，以及可选地附加数据(例如来自其他传感器的读数)。

步骤2：基于新数据，网络实现的视频处理服务器确定360度场景的哪部分当前在用户视野内。

步骤3：网络实现的视频处理服务器确定视频流或相机，该视频流或相机的视频数据是场景的在用户视野内的部分所需的。

步骤4：网络实现的视频处理服务器将来自步骤3中识别出的视频流或照相机的视频数据拼接在一起。

步骤5：网络实现的视频处理服务器确定是否存在来自消息的附加传感器数据(例如来自附接至用户手臂的磁运动跟踪器的数据)，该附加传感器数据应当被用于添加交互内容。在这种情况下，网络实现的视频处理服务器将交互内容插入拼接的视频数据。交互内容可以是例如用户的虚拟形象的手臂的移动和用户周围的其他虚拟形象的移动。

步骤6：网络实现的视频处理服务器可选地基于接收到的传感器数据更新发送给用户的3D音频。

步骤7：网络实现的视频处理服务器执行针对视频和音频和流的附加处理(例如，压缩、分组化等)，以形成发送给用户设备的沉浸式视频子流。

步骤8、9：如果需要，网络实现的视频处理服务器使用从用户接收的数据来更新可能观看相同沉浸式视频的其他用户的其他沉浸式视频。

网络实现的视频处理服务器优选地是在网络中实现的视频处理服务器。例如，网络实现的视频处理服务器可以是基于云的或云实现的视频处理服务器或应用。基于云的或云实现的视频处理应用然后可以在一个或多个虚拟服务器上执行，并由此访问基于云的计算资源。备选地，或此外，布置在网络中的专用硬件可以用于实现网络实现的视频处理服务器。

图14是根据实施例的用于提供沉浸式视频的系统1的概述。系统1包括360度相机系统2，其通过媒体信道7将多个视频流(每个相机一个视频流)发送或流传输给网络实现的视频处理服务器100以供处理。在实施例中，网络实现的视频处理服务器100包括可能由专用硬件支持的在网络或云3中运行的多个虚拟机。虚拟机负责操作，例如视频拼接、音频混合、视频压缩、将图形对象插入视频等。在网络实现的视频处理服务器100和用户设备200之间建立多个信道4、5、6，包括控制信道4、用于沉浸式视频子流的一个或多个视频输送信道5和可选的设备到服务器媒体信道6。

实施例的一个方案涉及一种网络实现的视频处理服务器，被配置为：通过基于在所述网络实现的视频处理服务器与用户设备之间的控制信道上接收到的表示用户当前视野的信息处理视频数据，来生成沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。

在一个实施例中，网络实现的视频处理服务器被配置为：接收携带与完全沉浸式视频场景相对应的视频数据的多个视频流。

在一个实施例中，网络实现的视频处理服务器被配置为在控制信道上接收用户视野的信息。网络实现的视频处理服务器还被配置为通过视频输送信道向用户设备发送沉浸式视频子流。

在一个实施例中，网络实现的视频处理服务器被配置为：基于用户视野的信息选择多个视频流的子部分。网络实现的视频处理服务器被配置为通过将来自多个视频流的所选择的子部分的视频数据拼接在一起来生成沉浸式视频子流。

在一个实施例中，网络实现的视频处理服务器被配置为基于用户视野的信息，选择多个视频流中携带与用户的视野内的沉浸式视频场景相对应的视频数据的视频流。

在一个实施例中，网络实现的视频处理服务器被配置为：基于关于用户当前视野的信息，选择多个视频流中携带与比用户当前视野宽但小于完全沉浸式视频场景的沉浸式视频场景相对应的视频数据的视频流。

在一个实施例中，网络实现的视频处理服务器被配置为分析多个视频流的视频数据，并识别所分析的视频数据中的目标内容。网络实现的视频处理服务器还被配置为：基于用户视野的信息，选择多个视频流中携带与用户的视野内的沉浸式视频场景相对应的视频数据的视频流。网络实现的视频处理服务器还被配置为：选择携带与识别的目标内容相对应的视频数据的至少一个视频流。

在实施例中，网络实现的视频处理服务器被配置为将来自所述多个视频流的视频数据拼接在一起以形成完全沉浸式视频场景。网络实现的视频处理服务器还被配置为基于表示用户视野的信息从多个视频流中提取所拼接的视频数据的子部分。网络实现的视频处理服务器还被配置为：基于所提取的所拼接视频数据的子部分产生沉浸式视频子流。

在实施例中，网络实现的视频处理服务器被配置为基于表示用户视野的信息，从多个视频流中提取与用户当前视野内的沉浸式视频场景相对应的拼接视频数据的子部分。

在实施例中，网络实现的视频处理服务器被配置为通过设备到服务器媒体信道接收传感器数据。网络实现的视频处理服务器还被配置为基于传感器数据生成交互媒体内容。网络实现的视频处理服务器还被配置为，将交互媒体内容插入沉浸式视频子流中。

将理解的是，本文所描述的方法和设备可以用各种方式组合和重新布置。

例如，实施例可以用硬件，或用由合适的处理电路执行的软件，或其组合来实现。

本文所述的步骤、功能、过程、模块和/或框可以使用任何常规技术在硬件中实现，例如使用分立式电路或集成电路技术，包括通用电子电路和专用电路二者。

特定示例包括一个或多个合适配置的数字信号处理器和其他已知电子电路，例如用于执行特定功能的互连的分立逻辑门、或者专用集成电路(ASIC)。

图15示出了网络实现的视频处理服务器100的特定硬件实现。网络实现的视频处理服务器100包括接收机140，其被配置为接收携带与完全沉浸式视频场景相对应的视频数据的多个视频流。接收机140还被配置为在控制信道上接收表示用户当前视野的信息。网络实现的视频处理服务器100还包括被配置为生成沉浸式视频子流的流生成器150。网络实现的视频处理服务器100还包括发射机160，其配置为通过视频输送信道向用户设备发送沉浸式视频子流。

接收机140优选地与流生成器150连接，以将多个视频流的视频数据和表示用户的视野的信息转发给流生成器150。流生成器150优选地与发射机160连接，以将生成的沉浸式视频子流转发给发射机160，以通过视频输送信道向用户设备发送沉浸式视频子流。

备选地，本文描述的步骤、功能、过程、模块和/或框的至少一部分可以在软件中实现，例如由合适的处理电路(例如一个或多个处理器或处理单元)来执行的计算机程序。

处理电路的示例包括但不限于，一个或多个微处理器、一个或多个数字信号处理器(DSP)、一个或多个中央处理单元(CPU)、视频加速硬件、和/或任意合适的可编程逻辑电路，例如一个或多个现场可编程门阵列(FPGA)或者一个或多个可编程逻辑控制器(PLC)。

还应当理解，可以重复使用实现所提出的技术的任何常规设备或单元的通用处理能力。还可以例如通过重新编程现有的软件或者通过添加新的软件组件来重新使用现有的软件。

在具体示例中，参见图16，网络实现的视频处理服务器100包括处理器110和存储器120。存储器120包括可由处理器110执行的指令，其中处理器110可操作以如本文先前所描述地生成沉浸式视频子流。

在一个实施例中，网络实现的视频处理服务器100优选地还包括通信电路130。通信电路130被配置为接收携带与完全沉浸式视频场景相对应的视频数据的多个视频流。通信电路130还被配置为在控制信道上接收表示用户当前视野的信息。通信电路130还被配置为通过视频输送信道向用户设备发送沉浸式视频子流。

通信电路130可实现为接收机或发射机对，或例如用于无线通信的收发机。备选地，通信电路130可以是输入端口和输出端口的形式，或是例如用于有线通信的组合输入/输出(I/O)端口。还可以具有以下形式的通信电路130：多个接收机和发射机对或收发机、多个输入端口和输出端口或I/O端口、或至少一个接收机和发射机对或收发机与至少一个输入端口和输出端口或I/O端口的组合。

处理器110、存储器120和可选通信电路130彼此互连，以实现正常的软件执行。

图21是示出计算机实现的示例的示意框图，该计算机实现在实施例中示出了包括处理器510和相关联的存储器520的网络实现的视频处理服务器500。

在该具体示例中，以计算机程序实现本文描述的步骤、功能、过程、模块和/或框的至少一部分，所述计算机程序530被加载到存储器520中，用于包括一个或更多个处理器510的处理电路的执行。处理器510和存储器520彼此互连，以实现正常的软件执行。可选的通信电路550还可以与处理器510和/或存储器520互连，以使能够输入和/或输出具有多个视频流、表示用户当前视野的信息和沉浸式视频子流的视频数据。

网络实现的视频处理服务器500优选地被实现为在云中运行的多个虚拟机。例如，网络实现的视频处理服务器500可以被实现为由一个或多个虚拟服务器执行的视频拼接应用。

术语“处理器”应当在一般意义上解释为能够执行程序代码或计算机程序指令以执行特定处理、确定或计算任务的任意系统或设备。

因此，包括一个或多个处理器的处理电路被配置为：在运行所述计算机程序时执行例如本文描述的那些明确定义的处理任务。

计算机/处理器不是必须专用于仅执行上述步骤、功能、过程和/或块，而是还可以执行其他的软件任务。

在具体实施例中，计算机程序530包括指令，当由处理器510执行所述指令时，使处理器510：通过基于在网络实现的视频处理服务器500与用户设备之间的控制信道上接收到的表示用户当前视野的信息处理视频数据，来生成沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。

所提出的技术还提供了包括计算机程序530的载体540。载体540是电信号、光信号、电磁信号、磁信号、电信号、无线电信号、微波信号或计算机可读存储介质540之一。

通过示例的方式，软件或计算机程序530可以实现为计算机程序产品，其通常携带或存储在计算机可读介质540(优选非易失性计算机可读存储介质540)上。计算机可读介质540可包括一个或多个可移除或不可移除的存储设备，包括但不限于只读存储器(ROM)、随机访问存储器(RAM)、紧致盘(CD)、数字多用途盘(DVD)、通用串行总线存储器(USB)、硬盘驱动(HDD)存储设备、闪存、磁带或者任意其他常规存储设备。因而，计算机程序530可以被加载到(图21中的网络实现的视频处理器500所表示的)计算机或等效处理设备的操作存储器中，以由其处理器510来执行。

因此，当由一个或多个处理器执行时，本文提出的流程图(一个或多个)可被认为是计算机流程图(一个或多个)。对应的网络实现的视频处理服务器可被定义为一组功能模块，其中由处理器执行的每个步骤与功能模块相对应。在这种情况下，功能模块实现为在处理器上运行的计算机程序。因此，网络实现的视频处理器可以备选地定义为一组功能模块，其中功能模块实现为在至少一个处理器上运行的计算机程序。

驻留在存储器中的计算机程序可以因此被组织为合适的功能模块，所述功能模块被配置为，当被处理器执行时，执行本文所述步骤和/或任务的至少一部分。图17中示出了这些功能模块的示例。

图17是具有功能模块的网络实现的视频处理服务器300的示意框图。网络实现的视频处理服务器300包括：流生成器310，用于通过基于在所述网络实现的视频处理服务器300与用户设备之间的控制信道上接收到的表示用户当前视野的信息处理视频数据，来生成沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分。沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。

在该实施例中，流生成器310由网络实现的视频处理服务器300的一个或多个处理器可执行的对应件来启用，但是在其他实施例中可以被实现为例如纯硬件。

实施例的另一方案涉及用户设备。用户设备被配置为在控制信道上向网络实现的视频处理服务器发送表示用户当前视野的信息。用户设备还被配置为在视频输送信道上接收沉浸式视频子流，所述沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据。用户设备被配置为对沉浸式视频子流进行解码，以形成与完全沉浸式视频场景的子部分相对应的解码视频数据。用户设备还被配置为输出解码视频数据以供显示。

在一个实施例中，用户设备被配置为：从头部跟踪传感器或眼睛跟踪传感器接收表示用户当前视野的信息。

在一个实施例中，用户设备被配置为：在视频输送信道上接收沉浸式视频子流，该沉浸式视频子流携带与在用户当前视野内的沉浸式视频场景相对应的编码视频数据，用户当前视野由表示用户当前视野的信息所表示。

在一个实施例中，用户设备被配置为：在视频输送信道上接收沉浸式视频子流，该沉浸式视频子流携带与比用户当前视野宽但小于完全沉浸式视频场景的沉浸式视频场景相对应的编码视频数据。用户设备还被配置为：基于表示用户当前视野的信息提取与用户当前视野内的沉浸式视频场景相对应的解码视频数据的子部分。用户设备还被配置为输出解码视频数据的子部分以供显示。

在一个实施例中，用户设备被配置为通过设备到服务器媒体信道向网络实现的视频处理服务器发送传感器数据。用户设备还被配置为在视频输送信道上接收携带编码视频数据和基于传感器数据生成的交互内容的沉浸式视频子流。

图18示出了用户设备200的特定硬件实现。用户设备200包括发射机240，其被配置为在控制信道上发送表示用户当前视野的信息。用户设备200还包括接收机250，其被配置为在视频输送信道上接收沉浸式视频子流。用户设备200还包括解码器260和视频输出270，解码器260被配置为解码沉浸式视频子流，视频输出270被配置为输出视频数据以供显示。

接收机250优选地与解码器260连接，以将沉浸式视频子流的编码视频数据转发给解码器260。解码器260进而与视频输出270连接，以将解码的视频数据转发给视频输出270。在可选实施例中，发射机240可以与接收机250或解码器270连接，以当确定编码和拼接的视频数据的哪一部分要被输出以供显示时，向接收机250或解码器270转发用户当前视野的信息。

处理电路的示例包括但不限于，一个或多个微处理器、一个或多个DSP、一个或多个CPU、视频加速硬件、和/或任意合适的可编程逻辑电路，例如一个FPGA或者一个或多个PLC。

在具体示例中，参见图19，用户设备200包括处理器210和存储器220。存储器220包括可由处理器210执行的指令，其中处理器210可操作以输出表示用户当前视野的信息，以在控制信道上传输。处理器210还可操作以对沉浸式视频子流进行解码，并输出解码后的视频数据以供显示。

在一个实施例中，用户设备200优选地还包括通信电路230。通信电路230被配置为在控制信道上发送表示用户当前视野的信息。通信电路230还被配置为在视频输送信道上接收沉浸式视频子流。

通信电路230可实现为接收机或发射机对，或例如用于无线通信的收发机。备选地，通信电路230可以是输入端口和输出端口的形式，或是例如用于有线通信的组合I/0端口。还可以具有以下形式的通信电路230：多个接收机和发射机对或收发机、多个输入端口和输出端口或I/0端口、或至少一个接收机和发射机对或收发机与至少一个输入端口和输出端口或I/0端口的组合。

处理器210、存储器220和可选通信电路230彼此互连，以实现正常的软件执行。

图21是示出计算机实现的示例的示意框图，在实施例中，该计算机实现示出了包括处理器510和相关联的存储器520的用户设备500。

在该具体示例中，以计算机程序实现本文描述的步骤、功能、过程、模块和/或框的至少一部分，所述计算机程序530被加载到存储器520中，用于包括一个或更多个处理器510的处理电路的执行。处理器510和存储器520彼此互连，以实现正常的软件执行。可选的通信电路550还可以互连到处理器510和/或存储器520，以使能够输入和/或输出表示用户当前视野的信息和沉浸式视频子流。

在具体实施例中，计算机程序530包括指令，其当由处理器510执行指令时，使所述处理器510在控制信道上向网络实现的视频处理服务器发送表示用户当前视野的信息。还使处理器510在视频输送信道上接收携带与完全沉浸式视频场景的子部分相对应的编码视频数据的沉浸式视频子流。还使处理器510对沉浸式视频子流进行解码，以形成与完全沉浸式视频场景的子部分相对应的解码视频数据，并输出解码的视频数据以供显示。

因而，计算机程序530可以被加载到(图21中的用户设备500所示的)计算机或等效处理设备的操作存储器中，由其处理器510来执行。

因此，当由一个或多个处理器执行时，本文提出的流程图(一个或多个)可被认为是计算机流程图(一个或多个)。相应用户设备可定义为一组功能模块，其中由处理器执行的每个步骤对应于一个功能模块。在这种情况下，功能模块实现为在处理器上运行的计算机程序。因此，网络实现的视频处理器可以备选地定义为一组功能模块，其中功能模块实现为在至少一个处理器上运行的计算机程序。

驻留在存储器中的计算机程序可以因此被组织为合适的功能模块，所述功能模块被配置为，当被处理器执行时，执行本文所述步骤和/或任务的至少一部分。图20中示出了这些功能模块的示例。

图20是具有功能模块的用户设备400的示意框图。用户设备400包括输出，用于在控制信道上向网络实现的视频处理服务器发送表示用户当前视野的信息。用户设备400还包括输入420，用于在视频输送信道上接收携带与完全沉浸式视频场景的子部分相对应的编码视频数据的沉浸式视频子流。用户设备400还包括解码器430，用于对沉浸式视频子流进行解码，以形成与完全沉浸式视频场景的子部分相对应的解码视频数据。用户设备400附加地包括视频输出440，用于输出解码的视频数据以供显示。

在该实施例中，功能模块410-440由网络实现的视频处理服务器400的一个或多个处理器可执行的相应软件来启用，但是在其他实施例中可以被实现为例如纯硬件。

用户设备可以被实现为包括HMD、计算机、智能电话、移动电话、膝上型计算机、记事本的各种设备，可能的这种设备包括或连接到HMD。

上述实施例被理解为本发明的几个说明性示例。本领域技术人员将理解，在不脱离本发明的范围的前提下，可以对实施例作出各种修改、合并和改变。尤其是，在其他技术上可行的配置中，不同实施例中的不同部分的方案可以进行组合。然而，本发明的范围由所附权利要求限定。

Claims

1.一种用于处理沉浸式视频的方法，所述方法包括：

通过基于在网络实现的视频处理服务器(100)与用户设备(200)之间的控制信道(4)上接收到的表示用户当前视野的信息来处理视频数据，所述网络实现的视频处理服务器(100)生成(S1)沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分，所述沉浸式视频子流携带与所述完全沉浸式视频场景的子部分相对应的编码视频数据。

2.根据权利要求1所述的方法，还包括：所述网络实现的视频处理服务器(100)接收(S10)携带与所述完全沉浸式视频场景相对应的视频数据的所述多个视频流。

3.根据权利要求1或2所述的方法，还包括：

所述网络实现的视频处理服务器(100)通过所述控制信道(4)接收(S20)所述信息；以及

所述网络实现的视频处理服务器(100)通过视频输送信道(5)向所述用户设备(200)发送(S21)所述沉浸式视频子流。

4.根据权利要求1至3中任一项所述的方法，其中，所述网络实现的视频处理服务器(100)生成(S1)所述沉浸式视频子流包括：

所述网络实现的视频处理服务器(100)基于所述信息选择(S30)所述多个视频流的子部分；以及

所述网络实现的视频处理服务器(100)通过将来自所述多个视频流的所选择的子部分的视频数据拼接在一起来生成(S31)所述沉浸式视频子流。

5.根据权利要求4所述的方法，其中，所述网络实现的视频处理服务器(100)选择(S30)所述子部分包括：所述网络实现的视频处理服务器(100)基于所述信息，选择(S30)所述多个视频流中携带与在所述用户当前视野内的沉浸式视频场景相对应的视频数据的视频流。

6.根据权利要求4所述的方法，其中，所述网络实现的视频处理服务器(100)选择(S30)所述子部分包括：所述网络实现的视频处理服务器(100)基于所述信息，选择(S30)所述多个视频流中携带与比所述用户当前视野宽但小于所述完全沉浸式视频场景的场景相对应的视频数据的视频流。

7.根据权利要求6所述的方法，还包括：所述网络实现的视频处理服务器(100)分析(S40)所述多个视频流的视频数据，并识别所分析的视频数据中的目标内容，其中所述网络实现的视频处理服务器(100)选择(S30)所述子部分包括：

所述网络实现的视频处理服务器(100)基于所述信息，选择(S41)所述多个视频流中携带与所述用户当前视野内的沉浸式视频场景相对应的视频数据的视频流；以及

所述网络实现的视频处理服务器(100)选择(S42)携带与所识别的目标内容相对应的视频数据的至少一个视频流。

8.根据权利要求1至3中任一项所述的方法，其中，所述网络实现的视频处理服务器(100)生成(S1)所述沉浸式视频子流包括：

所述网络实现的视频处理服务器(100)将来自所述多个视频流的视频数据拼接(S50)在一起以形成所述完全沉浸式视频场景；

所述网络实现的视频处理服务器(100)基于所述信息从所述多个视频流提取(S51)所拼接视频数据的子部分；以及

所述网络实现的视频处理服务器(100)基于所提取的所述所拼接视频数据的所提取的子部分来生成(S52)所述沉浸式视频子流。

9.根据权利要求8所述的方法，其中，所述网络实现的视频处理服务器(100)提取(S51)所述子部分包括：所述网络实现的视频处理服务器(100)基于所述信息，从所述多个视频流提取(S51)与所述用户当前视野内的沉浸式视频场景相对应的所述所拼接视频数据的子部分。

10.根据权利要求1至9中任一项所述的方法，还包括：

所述网络实现的视频处理服务器(100)通过设备到服务器媒体信道(6)接收(S60)传感器数据；

所述网络实现的视频处理服务器(100)基于所述传感器数据生成(S61)交互媒体内容；以及

所述网络实现的视频处理服务器(100)将所述交互媒体内容插入(S62)所述沉浸式视频子流。

11.一种渲染沉浸式视频的方法，所述方法包括：

在控制信道(4)上向网络实现的视频处理服务器(100)发送(S70)表示用户当前视野的信息；

在视频输送信道(5)上接收(S71)沉浸式视频子流，所述沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据；

对所述沉浸式视频子流进行解码(S72)，以形成与所述完全沉浸式视频场景的所述子部分相对应的解码视频数据；以及

输出(S73)解码视频数据以供显示。

12.根据权利要求11所述的方法，还包括：从头部跟踪传感器或眼睛跟踪传感器接收(S80)所述信息。

13.根据权利要求11或12所述的方法，其中，接收(S71)所述沉浸式视频子流包括：在所述视频输送信道(5)上接收(S71)所述沉浸式视频子流，所述沉浸式视频子流携带与位于由所述信息表示的所述用户当前视野内的沉浸式视频场景相对应的编码视频数据。

14.根据权利要求11或12所述的方法，其中，接收(S71)所述沉浸式视频子流包括：在所述视频输送信道(5)上接收(S71)所述沉浸式视频子流，所述沉浸式视频子流携带与比所述用户当前视野宽但小于所述完全沉浸式视频场景的沉浸式视频场景相对应的编码视频数据，所述方法还包括：

基于所述信息，提取(S90)与所述用户当前视野内的沉浸式视频场景相对应的所述解码视频数据的子部分，其中输出(S73)解码视频数据包括输出(S73)所述解码视频数据的所述子部分以供显示。

15.根据权利要求11至14中任一项所述的方法，还包括通过设备到服务器媒体信道(6)将传感器数据发送(S100)给所述网络实现的视频服务器(100)，其中接收(S71)所述沉浸式视频子流包括在所述视频输送信道(5)上接收(S71)携带所述编码视频数据和基于所述传感器数据生成的交互内容的所述沉浸式视频子流。

16.一种网络实现的视频处理服务器(100)，被配置为：通过基于在所述网络实现的视频处理服务器(100)与用户设备(200)之间的控制信道(4)上接收到的表示用户当前视野的信息处理视频数据，来生成(S1)沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分，所述沉浸式视频子流携带与所述完全沉浸式视频场景的子部分相对应的编码视频数据。

17.根据权利要求16所述的服务器，其中，所述网络实现的视频处理服务器(100)被配置为接收携带与所述完全沉浸式视频场景相对应的视频数据的所述多个视频流。

18.根据权利要求16或17所述的服务器，其中

所述网络实现的视频处理服务器(100)被配置为通过所述控制信道(4)接收所述信息；以及

所述网络实现的视频处理服务器(100)被配置为通过视频输送信道(5)向所述用户设备(200)发送所述沉浸式视频子流。

19.根据权利要求16至18中任一项所述的服务器，其中

所述网络实现的视频处理服务器(100)被配置为基于所述信息选择所述多个视频流的子部分；

所述网络实现的视频处理服务器(100)被配置为通过将来自所述多个视频流的所选择的子部分的视频数据拼接在一起来生成所述沉浸式视频子流。

20.根据权利要求19所述的服务器，其中，所述网络实现的视频处理服务器(100)被配置为：基于所述信息，选择所述多个视频流中携带与在所述用户当前视野内的沉浸式视频场景相对应的视频数据的视频流。

21.根据权利要求19所述的服务器，其中，所述网络实现的视频处理服务器(100)被配置为：基于所述信息，选择所述多个视频流中携带与比所述用户当前视野更宽但小于所述完全沉浸式视频场景的沉浸式视频场景相对应的视频数据的视频流。

22.根据权利要求21所述的服务器，其中

所述网络实现的视频处理服务器(100)被配置为分析所述多个视频流的视频数据，并识别所分析的视频数据中的目标内容；

所述网络实现的视频处理服务器(100)被配置为基于所述信息，选择携带所述多个视频流中与所述用户当前视野内的沉浸式视频场景相对应的视频数据的视频流；以及

所述网络实现的视频处理服务器(100)被配置为选择携带与所识别的目标内容相对应的视频数据的至少一个视频流。

23.根据权利要求16至18中任一项所述的服务器，其中

所述网络实现的视频处理服务器(100)被配置为将来自所述多个视频流的视频数据拼接在一起以形成所述完全沉浸式视频场景；

所述网络实现的视频处理服务器(100)被配置为基于所述信息从所述多个视频流提取所拼接视频数据的子部分；以及

所述网络实现的视频处理服务器(100)被配置为基于所提取的所述所拼接视频数据的所提取的子部分来生成所述沉浸式视频子流。

24.根据权利要求23所述的服务器，其中，所述网络实现的视频处理服务器(100)被配置为基于所述信息，从所述多个视频流中提取与所述用户当前视野内的沉浸式视频场景相对应的所述所拼接视频数据的子部分。

25.根据权利要求16至24中任一项所述的服务器，其中

所述网络实现的视频处理服务器(100)被配置为通过设备到服务器媒体信道(6)接收传感器数据；

所述网络实现的视频处理服务器(100)被配置为基于所述传感器数据生成交互媒体内容；以及

26.根据权利要求16至25中任一项所述的服务器，包括：

处理器(110)；以及

存储器(120)，包括能够由所述处理器(110)执行的指令，其中，所述处理器(110)能够操作以生成所述沉浸式视频子流。

27.根据权利要求26所述的服务器，包括通信电路(130)，所述通信电路(130)被配置为：i)接收携带与所述全沉浸式视频场景相对应的视频数据的所述多个视频流，ii)通过所述控制信道(4)接收所述信息，以及iii)通过视频输送信道(5)将所述沉浸式视频子流发送给所述用户设备(200)。

28.根据权利要求16至25中任一项所述的服务器，包括：

接收机(140)，被配置为i)接收携带与所述完全沉浸式视频场景相对应的视频数据的所述多个视频流，以及ii)通过所述控制信道(4)接收所述信息；

流生成器(150)，被配置为生成所述沉浸式视频子流；以及

发射机(160)，被配置为通过视频输送信道(5)向所述用户设备(200)发送所述沉浸式视频子流。

29.一种网络实现的视频处理服务器(300)，包括流生成器(310)，用于通过基于在所述网络实现的视频处理服务器(100)与用户设备(200)之间的控制信道(4)上接收到的表示用户当前视野的信息处理视频数据，来生成(S1)沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分，所述沉浸式视频子流携带与所述完全沉浸式视频场景的子部分相对应的编码视频数据。

30.一种用户设备(200)，其中

所述用户设备(200)被配置为在控制信道(4)上向网络实现的视频处理服务器(100)发送表示用户当前视野的信息；

所述用户设备(200)被配置为在视频输送信道(5)上接收沉浸式视频子流，所述沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据；

所述用户设备(200)被配置为对所述沉浸式视频子流进行解码，以形成与所述完全沉浸式视频场景的所述子部分相对应的解码视频数据；以及

所述用户设备(200)被配置为输出解码视频数据以供显示。

31.根据权利要求30所述的用户设备，其中，所述用户设备(200)被配置为从头部跟踪传感器或眼睛跟踪传感器接收所述信息。

32.根据权利要求30或31所述的用户设备，其中，所述用户设备(200)被配置为：在所述视频输送信道(5)上接收所述沉浸式视频子流，所述沉浸式视频子流携带与位于由所述信息表示的所述用户当前视野内的沉浸式视频场景相对应的编码视频数据。

33.根据权利要求30或31所述的用户设备，其中

所述用户设备(200)被配置为：在所述视频输送信道(5)上接收所述沉浸式视频子流，所述沉浸式视频子流携带与比所述用户当前视野宽但小于所述完全沉浸式视频场景的沉浸式视频场景相对应的编码视频数据；

所述用户设备(200)被配置为基于所述信息提取与所述用户当前视野内的沉浸式视频场景相对应的所述解码视频数据的子部分；以及

所述用户设备(200)被配置为输出所述解码视频数据的所述子部分以供显示。

34.根据权利要求30至33中任一项所述的用户设备，其中：

所述用户设备(200)被配置为通过设备到服务器媒体信道(6)向所述网络实现的视频服务器(100)发送传感器数据；以及

所述用户设备(200)被配置为在所述视频输送信道(5)上接收携带所述编码视频数据和基于所述传感器数据生成的交互内容的所述沉浸式视频子流。

35.根据权利要求30至34中任一项所述的用户设备，包括：

处理器(210)；以及

存储器(220)，包括所述处理器(210)能够执行的指令，其中所述处理器(210)能够操作以：

输出所述信息，以在所述控制信道(4)上发送；

对所述沉浸式视频子流进行解码；以及

输出所述解码视频数据以供显示。

36.根据权利要求35所述的用户设备，包括通信电路(230)，被配置为：

通过所述控制信道(4)发送所述信息；以及

在所述视频输送信道(5)上接收所述沉浸式视频子流。

37.根据权利要求30至34中任一项所述的用户设备，包括：

发射机(240)，被配置为通过所述控制信道(4)发送所述信息；

接收机(250)，被配置为在所述视频输送信道(5)上接收所述沉浸式视频子流；

解码器(260)，被配置为对所述沉浸式视频子流进行解码；以及

视频输出(270)，被配置为输出解码视频数据以供显示。

38.一种用户设备(400)，包括：

输出(410)，用于在控制信道(4)上向网络实现的视频处理服务器(100)发送表示用户当前视野的信息；

输入(420)，用于在视频输送信道(5)上接收沉浸式视频子流，所述沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据；

解码器(430)，用于对所述沉浸式视频子流进行解码(S72)，以形成与所述完全沉浸式视频场景的所述子部分相对应的解码视频数据；以及

视频输出(440)，用于输出解码视频数据以供显示。

39.一种包括指令的计算机程序(530)，所述指令当由处理器(510)执行时，使所述处理器(510)：通过基于在网络实现的视频处理服务器(100)与用户设备(200)之间的控制信道(4)上接收到的表示用户当前视野的信息处理视频数据，来生成(S1)沉浸式视频子流，所述视频数据来自携带与完全沉浸式视频场景相对应的视频数据的多个视频流的至少一部分，所述沉浸式视频子流携带与所述完全沉浸式视频场景的子部分相对应的编码视频数据。

40.一种包括指令的计算机程序(530)，所述指令当被处理器(510)执行时使所述处理器(510)：

通过控制信道(4)向网络实现的视频处理服务器(100)发送表示用户当前视野的信息；

在视频输送信道(5)接收沉浸式视频子流，所述沉浸式视频子流携带与完全沉浸式视频场景的子部分相对应的编码视频数据；

对所述沉浸式视频子流进行解码，以形成与所述完全沉浸式视频场景的所述子部分相对应的解码视频数据；以及

输出解码视频数据以供显示。

41.一种载体(540)，包括根据权利要求39或40所述的计算机程序(530)，其中，所述载体(540)是电子信号、光信号、电磁信号、磁信号、电信号、无线电信号、微波信号或计算机可读存储介质之一。