CN114830676A

CN114830676A - 视频处理设备和用于视频流式传输的清单文件

Info

Publication number: CN114830676A
Application number: CN202080089872.3A
Authority: CN
Inventors: A·S·R·布兰德特; B·维辛赫; E·托马斯
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Priority date: 2019-12-24
Filing date: 2020-12-24
Publication date: 2022-07-29
Also published as: US20230026014A1; EP4082217A1; WO2021130355A1

Abstract

本披露内容的一个方面涉及一种视频处理设备，该视频处理设备包括用于为用户处理用于视频流式传输的清单文件的处理器。该清单文件至少包括为场景定义的多个位置，该多个位置与存储在服务器系统上的预渲染全向或体积视频片段相关联。该清单文件还可以包含多个资源定位符，该多个资源定位符用于从该服务器系统检索全向或体积视频片段。每个资源定位符可以与为该场景定义的位置相关联。该视频处理设备可以被配置为将该用户的位置与该清单文件中该场景的第一位置相关联，以使用来自该清单文件的第一资源定位符检索与该第一位置相关联的第一全向或体积视频片段。

Description

视频处理设备和用于视频流式传输的清单文件

技术领域

本披露内容涉及一种视频处理设备和用于视频流式传输的清单文件。特别是，本披露内容涉及一种视频处理设备，该视频处理设备包括用于处理用于视频流式传输的清单文件的处理器。本披露内容还涉及服务器系统和视频流式传输系统。

背景技术

在过去的几年中，人们对包括增强现实和虚拟现实（统称为XR，扩展现实）在内的高级视频体验的关注度显著增加。捕获世界图像已经从用摄影记录单个平面视图发展到用360度摄像机记录提供全向视图的球面，再到今天用体积媒体捕获技术（如点云、具有纹理的网格以及光场）记录体积。

当前记录和流式传输这种视觉媒体的趋势是将源内容转换为2D视频格式，以利用现有视频压缩技术（视频编解码器、多路复用器和传输协议）。ISO/IEC 23090 part 5:Video-based Point Cloud Compression (V-PCC) [ISO/IEC 23090第5部分：基于视频的点云压缩（V-PCC）]是这一趋势的示例，其中点云对象及其属性被映射到2D帧上，以供视频编码器压缩。虽然这种方法在单独捕获每种内容类型时具有益处，但在不久的将来，在像智能电话这样的小型设备上运行多个4K（或更高）并行视频解码器来解码4到10个对象的复杂场景是无法想象的。

随着捕获维度从平面增加到球面，用户以较高自由度消耗捕获到的媒体的能力也随之显现。对于360度视频，应用程序被认为提供了三个自由度（3DoF），当考虑刚体的旋转时，这三个自由度对应于典型的欧拉角。对于体积媒体，自然关联的自由度是六，称为6DoF，除了旋转之外，还增加了刚体在三个空间轴x、y和z上的平移。

多视点视频是一种媒体格式，其中场景由多个相机从不同的视点捕获，并且允许观看者在回放期间切换视点。Zhao等人的文章“A Cloud-assisted DASH-based ScalableInteractive Multiview Video Streaming Framework [基于云辅助的DASH的可伸缩交互式多视点视频流式传输框架]”（电子ISBN 978-1-4799-7783-3）披露了一种系统，其中使用可伸缩视频编码（SVC）对所有视图进行编码，以便于DASH传输。在决定在何处执行视图合成（服务器或客户端）时，系统基于网络条件和云中视图合成的成本自适应地做出决定。

发明内容

本披露内容的目的是定义一种用于视频流式传输的格式和可以处理这种格式的视频处理设备，以及被配置用于将包括全向或体积视频片段的视频流传递或分发到视频处理设备的服务器系统。

因此，在一个方面，本披露内容涉及一种视频处理设备，该视频处理设备包括用于为用户处理用于视频流式传输的清单文件的处理器。应当理解，用户可以是人或机器，如机器人、计算机程序等。清单文件至少包括为场景定义的多个位置，该多个位置与存储在服务器系统（例如远程服务器系统）上的预渲染全向或体积视频片段相关联。这些位置可以通过位置指示符来识别。另外，清单文件可以包含多个资源定位符，例如URL，该多个资源定位符用于从服务器系统检索全向或体积视频片段。每个资源定位符可以与为该场景定义的位置相关联。该视频处理设备可以被配置为将该用户的位置与该清单文件中该场景的第一位置相关联，以使用来自该清单文件的第一资源定位符检索与该第一位置相关联的第一全向或体积视频片段。第一位置可以对应于场景的任何位置，并且不一定为开始回放视频的初始位置。

在另一个方面，本披露内容涉及用于由视频处理设备处理视频流需的清单文件。清单文件包含为场景定义的多个位置，该多个位置与存储在服务器系统上的预渲染全向或体积视频片段相关联。清单文件还可以包含多个资源定位符，该多个资源定位符用于从该服务器系统检索全向或体积视频片段，其中，该多个资源定位符中的每个资源定位符与为该场景定义的位置相关联。

在又另一个方面，本披露内容还涉及能够访问如本文所披露的清单文件的服务器系统，其中，该服务器系统进一步被配置为从视频处理设备接收对如本文所披露的清单文件中的资源定位符所标识的全向或体积视频片段的请求。

在另外一个方面，本披露内容还涉及一种视频流式传输系统，该视频流式传输系统包括服务器系统和至少一个如本文所披露的视频处理设备。

本披露内容的其他方面涉及一种用于视频处理的计算机实施的方法并且涉及一种包含软件代码部分的计算机程序产品，该软件代码部分用于在由视频处理设备执行时执行该方法。

本披露内容定义了清单文件，该清单文件将场景的位置与当用户处于某一位置时从服务器系统检索的全向或体积视频片段相关联。清单文件可以定义相机的位置，并且不需要描述整个场景以及其中的物体位置。只要在清单文件中使用相同数量的相机位置，大城市或8 m²的空间将需要相同数量的数据来描述。

通过仅在请求时（即当用户处于特定位置时）才接收与特定相机位置相关联的片段，现有的流式传输基础设施可以用于应用与用于HTTP自适应流式传输（HAS）的流式传输视频类似的流式传输视频的XR应用程序，这对于服务器系统的无状态和可伸缩特性来说是有利的。

用户位置可以是真实位置（其中，用户例如佩戴AR或VR设备并且处于特定位置）或者例如控制器输入的虚拟位置，例如游戏控制器或用户的鼠标指针控制器。应当理解，清单文件中的位置可以以隐含的方式来定义，例如通过参考相机位置或观看范围，如下面将进一步详细解释的。

全向视频片段或体积视频片段是先前已经由位于清单文件中定义的位置处的相机为场景捕获的视频片段，或者是从计算机生成的3D场景中生成的视频片段，例如从如Unity等游戏引擎、如通用场景描述（USD）或OpenSceneGraph（OSG）等3D场景描述中生成的视频片段。

如本领域已知的，全向视频或360度视频捕获为应用程序提供了三个旋转自由度（3DoF），而体积视频（例如，沉浸式视频）允许用户进行一些平移运动，而不需要图像扭转技术，如视频处理设备的缩放或移位操作。体积视频格式本质上允许以立体方式渲染场景，即每只眼睛从对应于瞳孔间距离（IPD）的微小位移看到场景，瞳孔间距离是用户双眼之间的距离。由于遮挡现象和缺乏深度信息，纯全向视频在这些方面可能受到限制。

应当理解，清单文件可以使用例如规则或不规则网格等结构来定义相机的位置或其观看范围。这种结构的一个示例是使用标准块的块结构。可以用该结构来定义位置，并且可以使用该结构来获得清单文件中的位置或观看范围之间的距离以及视频处理设备（的用户）的位置和清单文件中定义的位置之间的距离。该结构还可以定义用户在欣赏视频场景时预期移动的空间的边界，该空间可以被称为导航空间。当越过导航空间的边界时，用户可以收到渲染视图以供用户观看的应用程序的警告，如将在下文中进一步详细描述的。

进一步注意，本披露内容通常指用相机捕获真实世界图像或用计算机定义场景时的场景。捕获的场景的结果是用户可以使用视频处理设备欣赏的视频场景。视频场景可以包括一个或多个视图。

在一个实施例中，清单文件中的一个或多个位置与观看范围相关联，在该观看范围内，视频处理设备能够处理检索到的全向或体积视频片段，以通过例如图像扭转技术为用户渲染视图。在该实施例的一个示例中，清单文件中的位置由观看范围来定义或作为观看范围来定义。在一个实施例中，披露了清单文件，其中，该清单文件中的每个位置与观看范围相关联，例如，由观看范围来定义或作为观看范围来定义。

观看范围是表示清单文件中扩展位置的二维区域（在本披露内容中也称为预渲染视频区域，PRVA）或三维体积（也称为预渲染视频体积PRVV）。应当理解，观看范围可以重叠也可以不重叠。还应当理解，观看范围可以取决于场景的类型。当许多物体靠近用户时，观看范围可能小于场景是没有任何物体或物体非常少的开放空间时的观看范围。

这些实施例通过依赖常规视频处理操作，如缩放（例如，模拟在某个方向上的移动）、移位等，为用户提供了一定的运动自由度，这些常规视频处理操作通常称为图像扭转，用于由视频处理设备检索的全向或体积视频片段。因此，当用户从精确的相机位置发生相对小的移动时，仍然可以为用户渲染合适的视图。

在一个实施例中，视频处理设备被配置为生成合成视图或接收生成的合成视图，其中，该合成视图是基于至少检索到的第一预渲染全向或体积视频片段的一个或多个帧而生成的。合成视图还可以基于场景的与为场景定义的第一位置相关联的一部分的模型描述来生成，例如，当用户在第一观看范围内时。模型描述将在下文进一步详细讨论。

替代性地或另外地，当用户的位置对应于为场景定义的第一位置时，例如当用户在第一观看范围内时，可以使用第二全向或体积视频片段（例如使用与第二位置相关联的第二资源定位符为场景定义的该第二位置检索的）的一个或多个帧来生成合成视图。当用户的位置对应于为场景定义的位置时，合成可以提高渲染视图的质量。

当场景的大部分的观看范围重叠时，视频处理设备能够根据用户的位置检索场景的这一部分的全向或体积视频片段，并且通过使用传统图像扭转技术针对用户的每个位置进行的上述常规操作来为用户渲染合适且流畅的视图。如上所述，基于另外的信息的合成可以进一步提高渲染视图的质量。

当观看范围不重叠时，可能需要额外的视频处理，如合成一个或多个视频片段的一个或多个帧，以便当用户的位置不对应于为场景定义的位置时，例如，当用户不在观看范围内时，向用户呈现视频场景的视图。在这种情况下，像缩放和移位这样的常规图像扭转技术可能无法正常工作，可以应用像合成这样的高级视频处理技术。

在一个实施例中，视频处理设备被配置为当用户的位置在为场景定义的第一位置之外时，例如当用户在第一观看范围之外时，在视频处理设备中生成合成视图或者从服务器系统接收生成的合成视图。可以基于至少检索到的第一预渲染全向或体积视频片段的一个或多个帧来生成合成视图。可以基于从服务器系统接收的一个、两个或更多个预渲染视频片段的一个或多个帧来生成合成视图。

相比于未经合成的最初接收的视频片段，合成不同视频片段的一个或多个帧的效果使得视频处理设备能够为用户渲染视图，从而允许用户在观看视频场景时体验更多的自由度。例如，当视频处理设备接收到将支持3DoF（仅旋转）体验的一个或多个全向视频片段时，这些视频片段中的一个或多个视频片段的一个或多个帧的合成将允许为用户生成4、5或6 DoF体验，并且该体验具有视频的基本流畅的连续性。

在一个特定实施例中，清单文件定义了与第一资源定位符相关联的第一位置和与第二资源定位符相关联的第二位置。视频处理设备被配置为当用户的位置不对应于为场景定义的第一位置时（例如，当用户在第一观看范围之外时），使用与清单文件中的第二位置相关联的第二资源定位符从服务器系统检索至少一个第二全向或体积视频片段，随后可以基于检索到的第一全向或体积视频片段和第二全向或体积视频片段生成合成视图，例如，通过基于检索到的第一全向或体积视频片段和第二全向或体积视频片段中的一个或多个帧生成合成视图。

在一个实施例中，清单文件至少定义了第一资源定位符和第二资源定位符。第一资源定位符与为场景定义的第一位置相关联，并且第一资源定位符指向服务器系统处的第一预渲染全向或体积视频片段。第二资源定位符与场景的第二位置相关联，并且第二资源定位符指向服务器系统处的第二预渲染全向或体积视频片段。

这些实施例使得能够基于与清单文件中场景的不同位置相关联的至少两个视频片段的一个或多个帧来生成合成视图。与用于生成合成视图的第二位置相关联的第二视频片段可以例如基于第一位置与第二位置之间的距离和/或基于用户的视场来选择。如果用户的视场中存在两个或更多个观看范围，则两个观看范围均可以用于生成合成视图。在一个实施例中，可以应用线性插值方法，如α混合，其中，使用加权平均α来组合来自两个视频片段的一个或多个帧。

在一个实施例中，清单文件定义对组合使用第一视频片段和第二视频片段或其帧来生成合成视图的禁例。例如，在一个实施例中，清单文件包含边界类型元素，该边界类型元素向视频处理设备指示是否允许基于第一视频片段和第二视频片段或其帧生成合成视图。

该实施例允许视频处理设备考虑部分场景中可能具有障碍物（例如，不透明墙壁），因此与场景中障碍物相对侧的位置相关联的视频片段不应该用于生成合成视图。可以定义边界类型元素的属性，如透明和不透明。透明边界的示例是例如窗户。

对于透明障碍物类型，可以组合视频片段或其帧，而对于非透明障碍物类型，则不允许组合用于生成合成视图。应当理解，如边界类型元素等禁例可以例如防止视频处理设备检索第二预渲染视频片段，以便防止基于第一视频片段和第二视频片段进行合成。

在一个实施例中，渲染视图的应用程序（例如XR应用程序）也可以由清单文件中的边界类型元素触发，以便向用户发送信号通知存在障碍物，例如通过告警信号，如振动、电信号、声音或视觉指示，如弹窗或用户视图内的其他视觉手段。当用户的位置与障碍物在一定距离范围内时，可以触发告警信号。特别地，当定义透明类型的边界元素时，可以组合来自不同预渲染视频片段的帧，但是可能仍然需要生成告警信号来通知用户不能通过透明边界。

在一个实施例中，视频处理设备被配置为至少检索场景的模型描述的与清单文件中的至少一个位置相关联的一部分，例如与至少一个观看范围相关联。该视频处理设备进一步被配置为至少使用检索到的模型描述的一部分，基于检索到的第一预渲染全向或体积视频片段的至少一个或多个帧来生成合成视图。清单文件可以包含模型描述的与为场景定义的位置（例如，观看范围）相关联的一部分的资源定位符，以使得能够检索模型描述的相关部分。该实施例有助于生成合成视图，例如通过提供参数以根据给定算法合成视频片段。

模型描述通常是在相机捕获场景或计算机生成场景之后创建的。在一个示例中，该模型允许创建更准确的图像，但是也可以用于向用户体验添加触觉和触感部件。该模型可以包含所捕获内容的深度图，当创建更接近用户的物体的图像时，该深度图特别关键，使得可以感知这些物体的深度。替代性地或除了深度信息之外，模型可以包含关于所捕获的环境的元数据，如场景中物体的材料的一个或多个属性。图像识别软件可以识别物体。这样，可以对相机可能捕获不到的物体部分进行视觉方面的预测。

在一个实施例中，该清单文件定义允许该用户在其中移动的区域或体积，并且其中，该视频处理设备使用所述区域或体积作为导航空间指示。可以考虑若干实施方式为用户定义区域或体积限制。清单文件可以例如具有允许用户在其中移动的区域或体积的明确定义。替代性地，清单文件可以定义区域或体积周围的如上文所讨论的透明或非透明禁例，以便以某种方式通知用户到达了空间的限制。对于导航空间指示，还存在各种选项，包括与电影已在一定时间后结束时终止播放类似的终止视频处理设备的视频处理、黑色图像或透视图像（即，来自真实世界环境的图像）。

在一个实施例中，清单文件包含入口点和出口点中的至少一者。入口点定义起始位置，使得视频处理设备能够使用与场景的清单文件中的一个或多个对应位置相关联的资源定位符来检索一个或多个初始全向或体积视频片段。这些视频片段可以例如与清单文件中最接近入口点的一个或两个位置和/或用户视场中的位置相关联。视频处理设备可以使用入口点来确定真实用户位置与视频场景内的位置之间的对应关系。应当理解，场景的第一位置不需要与视频场景中的入口点相对应。

出口点定义了可以从哪里离开视频场景，并且可以供视频处理设备用于检索新的清单文件，如本文所披露的。

在一个实施例中，该服务器系统被配置为分析来自一个或多个视频处理设备的对全向或体积视频片段的请求，并根据这些请求来调整该清单文件。该实施例有助于清单文件的优化和/或视频处理设备的处理操作的优化。应当注意的是，清单文件的修改可以包括用根清单文件中的附加信息来补充根清单文件，或者提供附加信息作为对根清单文件的补充。视频处理设备可以请求调整的清单文件（例如，因为清单文件的有效时间到期），或者例如通过推送过程从服务器系统获得调整的清单文件。

在一个实施例中，服务器系统被配置为基于请求为场景的特定位置生成合成视频片段，并且调整清单文件（例如，向清单文件添加信息或者发送信息作为对清单文件的补充）或者发送清单文件附随信息），以包括特定位置（该特定位置可以是观看范围）和与特定位置相关联的资源定位符，以使得能够检索合成视频片段。该实施例允许可能临时地在服务器系统创建视频片段，该视频片段可以由视频处理设备直接从服务器系统检索，而不是必须由每个视频处理设备自行生成合成视图。以这种方式，视频处理设备隐含地将处理要求卸载到服务器系统，并且使服务器系统能够将合成视图分发到多个视频处理设备，就好像该合成视频是由场景的新位置处的相机记录的预渲染视频片段一样。

如将由本领域的技术人员理解的，本发明的各方面可以具体化为一种系统、方法或计算机程序产品。因此，本发明的各方面可以采取完全硬件实施例、完全软件实施例（包括固件、驻留软件、微代码等）或者在本文中通常可以被称为“电路”、“模块”或者“系统”的组合软件和硬件方面的实施例的形式。本披露内容中描述的功能可以实施为由计算机的处理器/微处理器执行的算法。此外，本发明的各方面可以采取在具有在其上实施的、例如存储的计算机可读程序代码的一种或多种计算机可读介质中实施的计算机程序产品的形式。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光、电磁、红外、或半导体系统、装置或设备，或上述的任何合适的组合。计算机可读存储介质的更具体的示例可以包括但不限于以下：具有一个或多个导线的电连接装置、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或闪速存储器）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储设备、磁存储设备、或者上述的任何合适的组合。在本发明的上下文中，计算机可读存储介质可以是可包含或存储用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何有形介质。

计算机可读信号介质可以包括具有在其中（例如，在基带中或作为载波的一部分）实施的计算机可读程序代码的传播数据信号。这种传播信号可以采取各种形式中的任何一种，包括但不限于，电磁的、光的或其任何合适的组合。计算机可读信号介质可以是不是计算机可读存储介质并且可以通信、传播、或传输程序（以用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用）的任何计算机可读介质。

可以使用任何适当的介质传输在计算机可读介质上实施的程序代码，这种介质包括但不限于无线、有线、光纤、电缆、RF等，或上述的任何合适的组合。用于执行本发明的各方面的操作的计算机程序代码可以以一种或多种编程语言的任何组合编写，该一种或多种编程语言包括诸如Java（TM）、Smalltalk、C++等面向对象的编程语言和诸如“C”编程语言或相似的编程语言等常规过程编程语言。程序代码可以完全地在个人计算机上执行、部分地在个人计算机上执行、作为独立软件包执行、部分地在个人计算机上执行并部分地在远程计算机上执行、或完全地在远程计算机或服务器上执行。在后一种场景中，远程计算机可以通过包括局域网（LAN）或广域网（WAN）的任何类型网络连接到个人计算机，或可以进行与外部计算机的连接（例如，使用互联网服务提供商、通过互联网）。

下面将参照根据本发明的实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解的是流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令实施。可以将这些计算机程序指令提供给通用计算机、专用计算机、或其他可编程数据处理装置的处理器，具体是微处理器或中央处理单元（CPU）以产生机器，使得经由计算机或其他可编程数据处理装置或其他设备的处理器执行的指令创建用于实施流程图和/或框图的一个或多个框中指定的功能/动作的装置。

这些计算机程序指令还可以存储在计算机可读介质中，该计算机可读介质可以指导计算机、其他可编程数据处理装置、或其他设备以用特殊的方式发挥功能，从而使得存储在该计算机可读介质中的指令产生制造的包括指令的物品，这些指令实施流程图和/或框图的一个或多个框中指定的功能/动作。

计算机程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以引起在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实施的过程，从而使得在计算机或其他可编程装置上执行的指令提供用于实施在流程图和/或框图的一个或多个框中指定的功能/动作的过程。

附图中的流程图和框图展示了根据本发明的各实施例的系统、方法和计算机程序产品的可能实施方式的体系架构、功能和操作。关于此，流程图或框图中的每个框可以表示包括用于实施（多个）特定逻辑功能的一个或多个可执行指令的代码的模块、片段或部分。还应当指出的是，在一些替代实施方式中，框中标明的功能可以不按图中标记的顺序发生。例如，根据涉及的功能，连续示出的两个框实际上可被大体同时执行，或者这些框可能有时以相反的顺序被执行。还将指出的是，可以通过执行特定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实施框图和/或流程图的每个框及框图和/或流程图中框的组合。

此外，提供了一种用于执行本文描述的方法的计算机程序，以及存储该计算机程序的非暂时性计算机可读存储介质。

除非另外明确说明，否则针对特定实施例或关于特定实施例讨论的元素和方面可以适当地与其他实施例的元素和方面相结合。将参考附图进一步说明本发明的实施例，附图将示意性地示出根据本发明的实施例。将理解的是本发明不以任何方式局限于这些具体实施例。

附图说明

将参考附图中所示的示例性实施例更详细地解释本发明的各个方面，在附图中：

图1是根据所披露的实施例的包括服务器系统的视频流式传输系统的示意图，该服务器系统提供用于向多个视频处理设备分发全向或体积视频片段的内容传递网络；

图2A是对使用全向和/或体积捕获设备捕获场景的捕获过程的表示；

图2B是视频处理设备的用户体验在图2A的捕获过程中捕获的视频场景的示意性俯视图；

图2C是用户在图2B的视频场景中体验的自由度（DoF）的图示；

图3是根据所披露的实施例的视频处理设备的示意图；

图4是示出了用于渲染视频片段的帧的视频处理设备的计算机实施的方法的步骤的流程图；

图5是根据所披露的实施例的捕获系统、服务器系统和视频处理设备的功能框的示意图；

图6A示出了适用于图2A的场景的俯视网格；

图6B描绘了根据所披露的实施例的清单文件的示例性部分；

图7是视频处理设备与服务器系统之间的流式传输过程的示例；以及

图8描绘了根据视频处理设备或服务器系统的实施例的处理系统。

具体实施方式

图1是包括服务器系统12的视频流式传输系统11中的视频处理设备10的示意图，该服务器系统提供用于向多个视频处理设备10分发全向或体积视频片段的内容传递网络。服务器系统12也可以位于不同位置处，例如在视频处理设备10中。视频处理设备10表示被配置用于处理视频片段以便为用户生成或示出或流式传输视频内容的设备。这种设备的示例包括移动设备或固定设备，如智能电话、眼镜、手表、头戴式显示器、膝上型计算机、游戏控制台、电视机、显示器等。

可用于将视频内容流式传输到视频处理设备10的流式传输技术包括MPEG-DASH和HTTP实况流式传输（HLS），它们使用清单文件和视频片段以及定义分段对象的编码和打包的MPEG-CMAF来指定自适应比特率流式传输。CMAF是由MPEG开发的协调MPEG-DASH和HLS的编解码器配置文件和视频片段格式的ISO标准。HTTP自适应流式传输（HAS）可以用于将视频片段流式传输到图1的内容传递网络（CDN）中的视频处理设备10。使用CDN和HAS来传递视频片段提供了服务器系统12的无状态特性和可伸缩性。

HAS允许视频流式传输系统11基于尽力而为服务在变化的网络条件下工作。捕获的内容以各种质量进行编码，并且通常经由清单文件向视频处理设备10通知。视频处理设备10能够用服务器系统12估计瞬时吞吐量，并选择适合估计瞬时吞吐量的质量。当网络条件恶化时，视频处理设备（暂时地）选择向用户提供较低质量体验的较低比特率内容表示，以防止暂停或中止应用程序。

本披露内容中的视频片段包括多个视频帧，并且是场景的完整视频捕获的时间片段，在接收到最后一个片段之前，这些片段可以按顺序进行回放。视频处理设备10可以以本领域技术人员已知的方式基于清单文件中提供的信息来检索这些视频片段。视频处理设备10被配置为在媒体时间线中的某些点处从一种质量切换到另一种质量。来自不同比特流的后续视频片段的拼接构成了有效比特流。

图2A是对用于使用全向和/或体积捕获设备20A至20D（如相机）捕获场景的捕获过程的俯视表示。相机20A至20D被部署在特定的空间中，并且可以记录全向（即360度）视频或体积（例如沉浸式）视频。应当注意的是，这种视频可以从单个捕获设备20A至20D（例如平面RGB传感器）的多个常规相机获得，随后是如拼接等后图像处理技术，以模拟全向或体积视频的捕获。在本披露内容中，这种相机布置被理解为构成单个相机20A至20D。相机20A至20D不一定部署在同一平面上，而是可以例如放置在房间中的不同高度。如图2A所示，空间可以包含一个或多个障碍物，如墙壁W。墙壁W具有不透明（不透光）部分，可见光不能穿过该部分，使得相机20A和20D无法看到彼此。墙壁W也具有透明部分（虚线），例如窗户，使得相机20A和20C可以看到彼此。

图2B示出了佩戴包括视频处理设备10（图2B中未示出）的头戴式设备HMD的用户U。视频片段从服务器系统12流式传输，以将由图2A中的相机20A至20D记录的场景呈现为视频场景，如图2B中的虚线所示。应当理解，用户U并未与所记录的场景（如图2A所示）在同一空间中，并且该空间的尺寸可能完全不同于图2A中记录的空间。如将参考图3至图7进一步详细解释的，视频处理设备10不知道用户U观看的场景的尺寸。只要在清单文件中使用相同数量的相机位置，大城市或8 m²的空间将需要相同数量的数据来描述。

如上所述，相机20A至20D可以从固定位置记录全向视频，如图2A所示。因此，当图2B中的用户U在图2B中的视频场景中的位置与图2A的记录场景的相机20A至20D之一的位置相匹配时，原则上该用户将能够体验三个自由度（3DoF）。这三个自由度是指人头部的旋转，通常称为偏转、俯仰和滚动，如图2C的左侧图所示。原则上，用户U离开精确的相机位置的任何移动都会导致图像失真。然而，视频处理设备10可以被配置为通过常规图像扭转操作来校正图像，如图像的放大和移位，使得允许小幅移动。当执行这种常规图像扭转操作时视频处理设备10或用户U可以移动的线、区域或体积在本披露内容中被称为观看范围。

本披露内容的一个实施例允许用户移动到该观看范围之外，同时仍然允许视频处理设备10为用户U渲染视图，以通过合成视频片段或其帧让用户欣赏流畅视频。以这种方式，尽管所记录的视频片段是由全向相机20A至20D记录的，但是用户U将能够享受更多的自由度（例如，4个、5个或6个自由度（6DoF），如图2C中右侧图所展示的）。当用户在观看范围内时，也可以生成合成视图，以提高视图的质量，例如通过使用模型描述或通过使用另一观看范围的一个或多个帧。

图2A中的相机20A至20D也能够记录体积视频，即本质上允许用户离开相机位置（例如离开相机位置1米）的视频。为此，相机20A至20D可以利用体积媒体捕获技术（如本领域中已知的点云、具有纹理的网格以及光场）来记录体积。同样对于体积视频，根据本披露内容的实施例的视频处理设备10允许使用合成来扩展自由度数量或相机位置的移动范围。

图3是用于处理从服务器系统12检索的清单文件和全向或体积视频片段的视频处理设备10的示意图。

视频处理设备10包含各种部件，包括用于向用户U呈现视频场景的显示器30、下文将进一步详细描述的处理器31、存储器和存储装置32以及网络连接装置33。应当理解，这些部件中的一个或多个可以体现在单个设备中，或者可以作为系统分布在若干设备上。

显示器30可以是游戏设备、膝上型计算机或台式计算机、移动设备或如眼镜等可穿戴设备的显示器，或者头戴式显示器，如图2B中描绘的头戴式显示器。

处理器31包含通用处理器，该通用处理器被配置为运行诸如XR应用程序等应用程序的代码部分。处理器31还执行控制器34、用于至少检索视频片段的HTTP客户端35、图像扭转功能/模块36、合成器37和用于转换图像以在显示器30上渲染视图的内容渲染器38的功能或模块，如图3示意性示出的。

合成器可以使用各种合成技术，包括像“基于深度图像渲染”DIBR或“自由视点图像合成”等技术，在基于深度图像渲染技术中，每个捕获的像素的深度信息用于渲染与捕获的物体相关的不同视图，在自由视点图像合成技术中，从多个不同观看角度进行的捕获用于创建坐标系，该坐标系进而用于渲染视图。

视频处理设备10还包括存储器34，该存储器用于存储使用网络连接装置33从服务器系统12检索的清单文件和一个或多个视频片段。

图4是示出了用于渲染视频片段的帧的视频处理设备10的计算机实施的方法的步骤的流程图。该过程可以由处理器31的控制器34控制。

在步骤S40中，视频处理设备10已经使用网络连接装置33从服务器系统12检索清单文件，并且将清单文件存储在存储器32中。可以例如在启动应用程序时或者在为应用程序选择视频时（例如当选择XR体验或要观看一段内容时）检索清单文件。

处理器31确定用户U的位置，并将该用户位置与清单文件中定义的场景位置相关联。用户位置与清单文件中的位置之间的关联可以通过几种方式执行，包括分析位置之间的差异和/或确定用户在特定时间点的视场，例如观看方向。这一过程的更详细的示例将参考图6A和图6B来说明。

在步骤S41中，视频处理设备10搜索与清单文件中为场景定义的位置相关联的资源定位符。

在步骤S42中，视频处理设备10使用HTTP客户端35和网络连接装置33向包括资源定位符的服务器系统12发送请求。该请求导致接收与场景中的位置相关联的预渲染视频片段，使得用户可以使用视频处理设备10的显示器30来体验场景。该视频片段也存储（临时地）在存储器32中。

在一个实施例中，为场景定义的位置是捕获场景的相机位置周围的区域或体积。该区域或体积被称为观看范围。

可选地，在步骤S43中，可能出现视频处理设备10在或并未在观看范围之外，在这种情况下，视频处理设备的位置与为场景定义的位置不对应。

如果视频处理设备10的位置对应于观看范围（图4中步骤S43，否出口），则视频处理设备10可以可选地仍然使用合成器模块或功能37基于在步骤S42中获得的检索到的第一预渲染全向或体积视频片段的一个或多个帧来在步骤S44中生成合成视图。可以使用场景的与为场景定义的位置相关联的一部分的模型描述来辅助在步骤S44中生成合成视图，例如当用户在观看范围内时。模型描述将在下文进一步详细讨论。当用户的位置对应于为场景定义的位置时，例如当用户在观看范围内时，还可以使用另外的全向或体积视频片段（例如使用与该另外的位置相关联的另外的资源定位符针对为场景定义的另外的位置检索的）的一个或多个帧来辅助在步骤S44中生成合成视图。当用户的位置对应于为场景定义的位置时，合成可以提高渲染视图的质量。

还可以跳过步骤S44，并且可以使用模块37利用图像扭转技术，从检索到的与场景的位置相关联的预渲染全向或体积片段中直接渲染视图。

步骤S45涉及使用内容渲染器38渲染与清单文件中为场景定义的位置相对应的用户位置的视图。

如果视频处理设备10的位置不对应于与观看范围，即在观看范围之外（图4中，是出口），则视频处理设备10可以可选地在步骤S46中根据一个或多个检索到的视频片段以及可能的模型描述或其一部分生成合成视图。

例如，在步骤S42中，视频处理设备10可以基于至少检索到的预渲染全向或体积视频片段的一个或多个帧来生成合成视图。可以基于从服务器系统12接收的一个、两个或更多个预渲染视频片段的一个或多个帧来生成合成视图。同样，视频处理设备10可以使用相关部分的模型描述来基于单个检索到的预渲染全向或体积视频片段生成合成视图。

在一个特定实施例中，清单文件定义场景的与若干个对应资源定位符相关联的若干个位置。视频处理设备10被配置为当用户位置不对应于为场景定义的第一位置时（例如，当用户在第一观看范围之外时），使用资源定位符和HTTP客户端35从服务器系统12检索若干个全向或体积视频片段。可以应用合成器模块37以基于检索到的全向或体积视频片段生成合成视图，例如通过基于检索到的全向或体积视频片段中的一个或多个帧生成合成视图。然后，可以使用渲染模块38来渲染合成视图。

相比于未经合成的最初接收的视频片段，合成不同视频片段的一个或多个帧的效果使得视频处理设备10能够为用户渲染视图，从而允许用户在观看视频场景时体验更多的自由度。例如，当视频处理设备接收到将支持3DoF（仅旋转）体验的一个或多个全向视频片段时，这些视频片段中的一个或多个视频片段的一个或多个帧的合成将允许为用户生成4、5或6 DoF体验，并且该体验具有视频的基本流畅的连续性，同样如图2C所示的。

图5示出了用于捕获场景、经由服务器系统12提供流式传输视频内容以及使用视频处理设备10消耗流式传输视频的部件。

捕获部件包括多个相机，如全向相机，并且还捕获声音，例如3D声音。另外，可以创建场景模型。模型描述通常是在相机捕获场景或计算机生成场景之后创建的。在一个示例中，该模型允许创建更准确的图像，但是也可以用于向用户体验添加触觉和触感部件。该模型可以包含所捕获内容的深度图，当创建更接近用户的物体的图像时，该深度图特别关键，使得可以感知这些物体的深度。替代性地或除了深度信息之外，模型可以包含关于所捕获的环境的元数据。图像识别软件可以识别物体。这样，可以对相机可能捕获不到的物体部分进行视觉方面的预测。例如，当特定计算机的一侧被图像识别软件识别并且该特定计算机的3D模型位于数据库中时，可以用该3D模型进行合成。

在本示例中，捕获过程还制备视频片段（可能以不同的质量，即不同的比特率），即创建预渲染视频片段，并且还创建将捕获场景的位置与用于检索对应视频片段的资源定位符相关联的清单文件。视频片段可以包括例如DASH媒体产品描述符，也可以包括如mp4文件等直接视频文件。

服务器系统12具有用于处理来自如图1所示的视频处理设备10的HTTP请求的HTTP服务器，并且存储模型描述（可能分成多个部分，每个部分可通过指向该部分的URL检索）、清单文件和视频片段（包括音频）。如上所述，本披露内容定义了清单文件，该清单文件将场景的位置与当用户处于某一位置时从服务器系统检索的全向或体积视频片段相关联。通过仅在请求时（即当用户处于特定位置时）才接收与特定相机位置相关联的片段，现有的流式传输基础设施可以用于应用与用于HTTP自适应流式传输（HAS）的流式传输视频类似的流式传输视频的XR应用程序，这对于服务器系统12的无状态和可伸缩特性来说是有利的。

服务器系统12可以具有与视频处理设备10类似的视频片段处理模块，这例如在视频处理设备10期望将处理任务卸载给服务器系统12时是有用的。在一个实施例中，服务器系统12被配置为分析来自一个或多个视频处理设备的对全向或体积视频片段的HTTP请求，并根据这些请求来调整清单文件，以优化清单文件。

例如，可以使用统计分析。服务器系统12可以被配置为基于来自各种视频处理设备10的请求生成场景的特定位置的合成视频片段，并且调整场景的清单文件，以包括特定位置（该特定位置可以是观看范围）和与特定位置相关联的资源定位符，以使得能够检索合成视频片段。该实施例允许可能临时地在服务器系统12创建视频片段，该视频片段可以由视频处理设备10在接收到新的清单文件之后直接从服务器系统检索，而不是必须由每个视频处理设备自行生成合成视图。以这种方式，视频处理设备10隐含地将处理要求卸载到服务器系统12，并且使服务器系统12能够将合成视图分发到多个视频处理设备10，就好像该合成视频是由场景的新位置处的相机记录的预渲染视频片段一样。

图5中的视频处理设备10具有用于解码传入数据的解码器。已经参考图3讨论了另外的部件。

现在将参考图6A和图6B更详细地讨论解释和使用清单文件的实际示例。

图6A示出了图2A中捕获的场景的俯视图，在该俯视图之上投影了网格作为相机20A至20D的位置（图6A中的小虚线圆圈）的参考。在图6A中，与相机位置相关联的观看范围用较大的虚线圆圈指示。在此示例中，这些观看范围将被称为PRVA，使得出于此示例的目的，相机20A至20D的观看范围可以被指示为PRVA-A、PRVA-B、PRVA-C和PRVA-D。

图6B描绘了此示例的清单文件的示例性部分。视频处理设备10需要能够随时间推移渲染基本上每个可能的视点、空间位置和取向的视图。并非空间中的所有点都可以被360相机或如图2A所示的任何相机单独捕获。因此，清单文件包含使得能够合成和渲染基本上每个（虚拟）相机位置的视图和/或对所述合成和渲染进行控制的各种元素。

一个元素涉及一个结构，在本示例中，该结构也称为网格。网格可以具有一个维度、两个维度或三个维度。网格可以由将导航空间采样成标准单位的块构成。在本示例中，使用1 × 1米的单位。尽管图6A中的相机位置是在网格上定义的，但是应该注意，网格可以独立于相机位置来定义。网格中的定位可以例如使用格式BLOCK_ROW, BLOCK_COLUMN,FRACTION_x, FRACTION_y。

网格可以被定义为包含块的容器。如图6B所示的‘开始’子元素定义了当视频处理设备10开始渲染时（类似于时间线的时间t = 0），在网格的哪个块上开始渲染，在图6A中由E指示。该起始点或入口点使视频处理设备10能够使用与场景的清单文件中的一个或多个对应PRVA相关联的资源定位符来检索一个或多个初始全向或体积视频片段。这些视频片段可以例如与清单文件中最接近入口点的一个或两个PRVA和/或用户的视场中的位置相关联。用户可以进入图6A中的点E处的空间，并使用与PRVA-A和PRVA-B（当图6A中指示的视场包括这两个PRVA时）或PRVA-A和PRVA-C（当视场包括这两个PRVA时）相关联的URL接收视频片段。视频处理设备10可以使用入口点来确定真实用户位置与视频场景内的位置之间的对应关系。

网格还定义了‘出口’子元素，图6A中示出为X，该子元素定义了可以在网格的哪个块上离开。‘mpd’是指用户在采用该出口时将导航到的6DoF媒体呈现描述（MPD）。出口点定义了可以从哪里离开视频场景，并且可以供视频处理设备用于从服务器系统12检索新的清单文件。

导航空间是可以回放内容的空间。当用户在真实空间中移动（或由控制器输入（例如游戏控制器、鼠标等）模拟）时，视频处理设备10渲染与网格上的与用户的（模拟）移动一致的不同位置相关的视图。类似地，网格是时间域中常规2D视频的时间线的空间等效物，也就是说，其定义了媒体内容的用户可以在其中导航的范围。

可以考虑若干实施方式以定义用户正在其中移动的真实空间的区域或体积限制。清单文件可以例如具有允许用户在其中移动的区域或体积的明确定义（图6B中未示出）。替代性地，清单文件可以定义区域或体积周围的透明或非透明禁例，以便以某种方式通知用户到达了空间的限制。当用户到达或超过导航空间的界限时，视频处理设备10可以发出导航空间指示。对于导航空间指示，还存在各种选项，包括与电影已在一定时间后结束时终止播放类似的终止视频处理设备10的视频处理。

清单文件的另一个元素涉及网格的块。网格的每个块可以具有标准大小，该大小可以通过定义的对应关系转换成真实世界的单位。例如，1 × 1块对应于1 m × 1 m导航空间，或者其还可以与1 m × 2 m相关。其不必在所有维度上都是统一的比例因子。根据上文提及的格式，在一个块内，位置、用户、相机等从该块左下角开始由0与1之间的分数表示。

清单文件的又另一个元素涉及边界元素。边界定义了对用户移动的禁例，例如墙壁。另外，边界可以具有透明的属性。在这种情况下，边界另一侧的PVRA可用于渲染。例如，PRVA-A和PRVA-C两者都可以用于渲染视图。例如当一堵墙将两个房间隔开时就是这种情况，在这种情况下，来自这两个PVRA的视觉内容是完全不同的，并且两者无法组合用于渲染。在图6B中，PRVA-A和PRVA-D无法组合，因为它们被不透光的边界（即，墙壁W）分隔开。为了限制用户的导航空间，清单文件可以定义导航空间周围的边界，以定义导航空间的界限，例如透明或不透明属性的边界。当用户接近、到达或超过边界时，边界可用于触发导航空间指示。

另外一个元素涉及资源定位符，如URL。资源定位符可以涉及场景的几何形状（如网格、（多个）边界等）、模型描述（的部分）以及为场景定义的每个位置的视频片段。

另一个元素涉及为场景定义的位置，如观看范围，在此示例中称为PRVA。PRVA被解释为在其中心使用全向或体积相机360度分别捕获环境中的特定体积。未被PRVA捕获的所有区域是视频处理设备10执行合成操作的区域。

更具体地，如图6B的示例性清单文件部分所示，每个PRVA由id标识，该id可以是任何字母或数字组合。‘url’是指向包含该PRVA的视频片段的资源的资源定位符，例如DASHMPD文件或mp4文件。‘mimeType’指示在URL‘url’处可用的文件的mime类型。它可以是MPEGDASH MPD，如本示例中所示，或者直接是视频，在这种情况下，mime类型将是‘video/mp4’。

‘model’包含针对模型的URL，该模型可以帮助合成视图，例如，它可以根据给定的算法提供用于合成视图的参数。

提供‘offset’是因为呈现时间戳（PTS）在时间上可能不同。时间可以以纳秒计。对于每个字段，属性‘offset’可用于指示单个块流的开始时间相对于属性@masterTimeline指示的主PRVA的偏移。

如图6B所示，清单文件仅仅描述了相机相对于用户导航的位置以及携带视频处理设备10的用户的空间导航范围。视频处理设备10不需要知道用户U观看的视频场景的尺寸。真实世界场景的复杂性、成千上万的物体、点、闪电源等可以对视频处理设备10隐藏。这样，DASH提供的所有功能，如自适应比特率，都可以用来为用户U提供6DoF体验。

在图6A中，还显示了当从PRVA-B和PRVA-C移动时组合视频片段。由于全向相机的宽捕获角度，PRVA-B中捕获的所有内容也会被PRVA-C捕获到（当没有像墙壁或其他物体等障碍物时）。当视频处理设备10沿着箭头移动时，PRVA-C对PRVA-B进行了增强，以通过请求PRVA-C获得视图中的更多细节。

图7是视频处理设备10与服务器系统12之间的流式传输过程的示例。在该非限制性示例中，视频处理设备10是头戴式设备HMD的一部分。上文已经描述了图7所示的视频处理设备10的部件（控制器、HTTP客户端、图像扭转器、合成器、渲染器）。

在步骤S701至S703中，视频处理设备10通过向服务器系统12发送HTTP Get请求来检索清单文件。清单文件包含网格并定义了入口点，以允许控制器确定视频处理设备10必须首先请求哪个（哪些）视频片段。在步骤S704至S706中，视频处理设备10请求并接收（多个）视频片段。在步骤S707中，控制器将视频片段提供给渲染器，以向用户渲染对应于与场景的入口点相关联的接收到的视频片段的一个或多个帧的视图。

当穿戴HMD的用户U移动时，步骤S708中视频处理设备10将检测到这一移动，可能出现如图7中的虚线框所示的两种情况。HMD具有用于检测和用信号向控制器发送取向和位置的跟踪设备。

如果HMD位于或停留在观看范围内，例如在PRVA内，则视频处理设备10，或者更特别地，其控制器通过如步骤S709所示使用检索到的预渲染视频片段缩放视图或对视图进行移位，利用图像扭转器来改变视图。可能地，合成可以在某种程度上被执行，如关于图4的步骤S44所描述的，以提供更高质量的视图。步骤S710涉及视图渲染。

当HMD移动到观看范围之外时，例如在PRVA之外，控制器可以例如在步骤S711至S713中请求对应于如PRVA-B等观看范围的另外的视频片段。例如可以选择PRVA-B，因为它最接近视频处理设备刚刚离开的PRVA并且位于移动方向上。现在可以一起使用针对PRVA-B的视频片段和针对PRVA-A的视频片段，以在步骤S714中使用合成器合成PRVA之间缺失的视图。相机源的重量和视图质量可能取决于视频处理设备相对于相机的位置。例如，当视频处理设备离与相机20A相关联的PRVA-A比离与相机20B相关联的PRVA-B更近时，将使用由相机20A捕获的高分辨率预渲染视频片段，并且将不请求相机20B捕获的低分辨率内容，反之亦然。在步骤S715中对合成视图进行渲染。

视频片段或其帧的合成发生在特定时间和网格中的某点。视图合成也可以通过从视频处理设备10向服务器系统12发送位置和时间，在服务器系统12上发生。这种情况例如会在视频处理设备10不能实时合成帧的时候发生。

图8描绘了展示根据所披露的实施例的示例性处理系统的框图，例如视频处理系统和/或服务器系统。如图8所示，处理系统80可以包括通过系统总线83耦接至存储器元件82的至少一个处理器81。如此，处理系统可以将程序代码存储在存储器元件82内。进一步地，处理器81可以执行经由系统总线83从存储器元件82访问的程序代码。在一个方面，处理系统可以被实施为适合于存储和/或执行程序代码的计算机。然而，应当理解，处理系统80可以以包括处理器和存储器的、能够执行本说明书中所描述的功能的任何系统的形式来实施。

存储器元件82可以包括一个或多个物理存储器设备，如例如，本地存储器84和一个或多个大容量存储设备85。本地存储器可以指在程序代码的实际执行期间通常使用的随机存取存储器或其他（多个）非持久性存储器设备。大容量存储设备可以被实施为硬盘驱动器或其他持久性数据存储设备。处理系统80还可以包括一个或多个高速缓存存储器（未示出），这些高速缓存存储器提供至少一些程序代码的临时存储，以便减少在执行期间必须从大容量存储设备85检索程序代码的次数。

被描绘为输入设备86和输出设备87的输入/输出（I/O）设备可以可选地耦接至处理系统。输入设备的示例可以包括但不限于键盘、如鼠标等定点设备等。输出设备的示例可以包括但不限于监视器或显示器、扬声器等。输入设备和/或输出设备可以直接或通过中间I/O控制器耦接至处理系统。

在实施例中，输入设备和输出设备可以被实施为组合的输入/输出设备（在图8中以围绕输入设备86和输出设备87的虚线示出）。这种组合设备的示例是触敏显示器，有时也称为“触摸屏显示器”或简称为“触摸屏”。在这样的实施例中，可以通过物理对象（如例如手写笔或人的手指）在触摸屏显示器上或附近的移动来提供对设备的输入。

网络适配器88还可以耦接至处理系统，以使其能够通过中间私有或公共网络耦接至其他系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括用于接收由所述系统、设备和/或网络向处理系统80发射的数据的数据接收器，以及用于从处理系统80向所述系统、设备和/或网络发射数据的数据发射器。调制解调器、电缆调制解调器和以太网卡是可以与处理系统80一起使用的不同类型的网络适配器的示例。

如图8所描绘的，存储器元件82可以存储应用程序89。在各种实施例中，应用程序89可以被存储在本地存储器84、一个或多个大容量存储设备85中，或者与本地存储器和大容量存储设备分开。应当理解，处理系统80可以进一步执行能够促进应用程序89执行的操作系统（图7中未示出）。以可执行程序代码的形式实施的应用程序89可以由处理系统80（例如，由处理器81）执行。响应于执行应用程序，处理系统80可以被配置为执行本文描述的一个或多个操作或方法步骤。该应用程序可以是提供扩展现实视图的应用程序。

在本发明的一个方面，如图3所描绘的视频处理设备的一个或多个部件可以代表本文描述的处理系统80。

本发明的各种实施例可以被实施为与计算机系统一起使用的程序产品，其中，程序产品的程序定义实施例的功能（包括本文描述的方法）。在一个实施例中，（多个）程序可以被包含在各种非暂态计算机可读存储介质上，其中，如本文所使用的，表述“非暂态计算机可读存储介质”包括所有计算机可读介质，唯一的例外是暂时传播的信号。在另一实施例中，（多个）程序可以被包含在各种暂态计算机可读存储介质上。说明性的计算机可读存储介质包括但不限于：(i) 其上永久存储信息的不可写存储介质（例如，计算机内的只读存储器设备，如CD-ROM驱动器可读的CD-ROM盘、ROM芯片或任何类型的固态非易失性半导体存储器）；以及 (ii) 其上存储可变信息的可写存储介质（例如，闪速存储器、软盘驱动器或硬盘驱动器内的软盘或任何类型的固态随机存取半导体存储器）。计算机程序可以在本文描述的处理器81上运行。

本文所使用的术语仅用于描述特定实施例，并且不旨在限制本发明。如本文所使用的，单数形式“一个（a）”、“一种（an）”和“该（the）”旨在同样包括复数形式，除非上下文以其他方式清晰表明之外。将进一步理解的是，当在本说明书中使用术语“包括（comprises）”和/或“包括（comprising）”时，其指定所陈述的特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组的存在或添加。

权利要求中所有装置或步骤加上功能元件的对应结构、材料、动作和等同物旨在包括用于与如具体要求保护的其他要求保护的元件结合执行功能的任何结构、材料或动作。已经出于说明的目的而呈现本发明的实施例的描述，但是该描述并不旨在穷举或将实施方式限于所披露的形式。在不脱离权利要求的范围的情况下，很多修改和变化对本领域普通技术人员都将是显而易见的。实施例的选择和描述是为了最佳地解释本发明的原理和一些实际应用，并且当适合于所构想的特定用途时，使得本领域的其他普通技术人员能够针对具有各种修改的各个实施例理解本发明。

Claims

1.一种视频处理设备，包括用于为用户处理用于视频流式传输的清单文件的处理器，该清单文件至少包括：

为场景定义的多个位置，该多个位置与存储在服务器系统上的预渲染全向或体积视频片段相关联；以及

多个资源定位符，该多个资源定位符用于从该服务器系统检索全向或体积视频片段，其中，该多个资源定位符中的每个资源定位符与为该场景定义的位置相关联，

其中，该视频处理设备被配置为将该用户的位置与该清单文件中为该场景定义的第一位置相关联，以使用来自该清单文件的第一资源定位符检索与该第一位置相关联的第一预渲染全向或体积视频片段。

2.根据权利要求1所述的视频处理设备，其中，该清单文件中的一个或多个位置与观看范围相关联，在该观看范围内，该处理设备能够处理该检索到的全向或体积视频片段，以为该用户渲染视图。

3.根据权利要求1或2所述的视频处理设备，其中，该视频处理设备被配置为为该用户生成合成视图或接收生成的合成视图，其中，该合成视图是基于至少该检索到的第一预渲染全向或体积视频片段的一个或多个帧而生成的，并且其中，该合成视图是进一步基于以下各项中的至少一项生成的：

-当该用户的位置对应于为该场景定义的第一位置时，该场景的与该第一位置相关联的一部分的模型描述；以及

-当该用户的位置对应于为该场景定义的第一位置时，例如针对为该场景定义的第二位置使用与该第二位置相关联的第二资源定位符检索的第二全向或体积视频片段的一个或多个帧；以及

-当该用户的位置不对应于为该场景定义的第一位置时，该检索到的第一预渲染全向或体积视频片段的一个或多个帧。

4.根据权利要求3所述的视频处理设备，其中，该清单文件定义与该第一资源定位符相关联的第一位置和与第二资源定位符相关联的第二位置，并且其中，当该用户的位置不对应于为该场景定义的第一位置时，该视频处理设备被配置为使用与该清单文件中的第二位置相关联的第二资源定位符从该服务器系统检索至少一个第二全向或体积视频片段并且基于该检索到的第一全向或体积视频片段和第二全向或体积视频片段的一个或多个帧为该用户生成合成视图。

5.根据权利要求3或4所述的视频处理设备，其中，该清单文件定义对组合使用第一视频片段和第二视频片段的帧来生成该合成视图的禁例，其中，可选地，该禁例是该清单文件中的边界类型元素，该边界类型元素指示该视频处理设备组合或不组合该第一视频片段和该第二视频片段或其帧来生成该合成视图。

6.根据权利要求3至5中一项或多项所述的视频处理设备，其中，该视频处理设备被配置为至少检索该场景的模型描述的与该清单文件中的至少一个位置相关联的一部分，并且其中，该视频处理设备进一步被配置为基于该第一预渲染全向或体积视频片段的至少一个或多个帧和模型描述的至少该检索到的部分来为该用户生成该合成视图。

7.根据前述权利要求中一项或多项所述的视频处理设备，其中，该清单文件定义允许该用户在其中移动的区域或体积，并且其中，该视频处理设备使用所述区域或体积作为导航空间指示。

8.一种用于由视频处理设备处理视频流的清单文件，其中，该清单文件包含：

多个资源定位符，该多个资源定位符用于从该服务器系统检索全向或体积视频片段，其中，该多个资源定位符中的每个资源定位符与为该场景定义的位置相关联。

9.根据权利要求8所述的清单文件，其中，该清单文件中的每个位置与观看范围相关联。

10.根据权利要求8或9所述的清单文件，其中，该清单文件定义：

与该场景中的第一位置相关联的第一资源定位符，其中，该第一资源定位符指向该服务器系统处的第一预渲染全向或体积视频片段；

与该场景的第二位置相关联的第二资源定位符，其中，该第二资源定位符指向该服务器系统处的第二预渲染全向或体积视频片段。

11.根据权利要求10所述的清单文件，其中，该清单文件定义对组合使用该第一视频片段和该第二视频片段的帧的禁例，其中，可选地，该禁例被定义为边界类型元素，该边界类型元素指示是否能够组合该第一视频片段和该第二视频片段或其帧。

12.根据权利要求8至11中一项或多项所述的清单文件，其中，该清单文件进一步包含以下各项中的至少一项：

与该场景的模型描述相关联的信息，如针对与为该场景定义的位置相关联的模型描述部分的资源定位符；

该视频场景的入口点和出口点中的至少一者；以及

允许视频处理设备的用户在其中移动的区域或体积。

13.一种具有对根据权利要求8至12中一项或多项所述的清单文件的访问权的服务器系统，其中，该服务器系统进一步被配置为从根据权利要求1至7中一项或多项所述的视频处理设备接收对该清单文件中的资源定位符所标识的全向或体积视频片段的请求。

14.根据权利要求13所述的服务器系统，其中，该服务器系统被配置为分析来自一个或多个视频处理设备的对全向或体积视频片段的请求，并根据这些请求来调整该清单文件。

15.根据权利要求14所述的服务器系统，其中，该服务器系统被配置为基于该请求针对该视频场景中的特定位置生成合成视频片段，并且调整该清单文件以包括该特定位置和与该特定位置相关联的资源定位符，以使得能够检索该合成视频片段。

16.一种视频流式传输系统，包括根据权利要求13至15中一项或多项所述的服务器系统和根据权利要求1至7中一项或多项所述的视频处理设备。