CN115428416A

CN115428416A - 沉浸式媒体的设置和沉浸式媒体到异构客户端端点的分发

Info

Publication number: CN115428416A
Application number: CN202180030380.1A
Authority: CN
Inventors: 阿芮亚娜·汉斯; 史蒂芬·文格尔
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2020-12-04
Filing date: 2021-09-01
Publication date: 2022-12-02
Also published as: WO2022119612A1; KR20220110784A; EP4058909A4; JP7472298B2; EP4058909A1; JP2023518676A; US11570227B2; US20220182432A1

Abstract

提供了用于流式传输沉浸式媒体的方法、计算机程序和计算机系统。基于一个或更多个令牌的传输来接收对应于与媒体内容相关联的客户端的特性的信息。使用一个或更多个令牌来将打包处理与媒体内容相关联。基于相关联的打包处理，根据客户端的特性对媒体内容进行适配。

Description

沉浸式媒体的设置和沉浸式媒体到异构客户端端点的分发

相关申请的交叉引用

本申请要求(2020年12月4日提交的)美国专利商标局的美国临时专利申请第63/121,617号以及(2021年8月23日提交的)美国专利商标局的美国专利申请第17/408,933号的优先权，上述专利申请的全部内容通过引用并入本文。

技术领域

本公开内容总体上涉及数据处理领域，并且更具体地涉及视频编码。

背景技术

“沉浸式媒体”通常是指下述媒体：该媒体刺激任何或所有人类感官系统(视觉、听觉、体感、嗅觉和可能的味觉)以创建或增强用户在媒体体验中实际存在的感知，即，超越了通过现有商业网络为时序的二维(two-dimension，2D)视频和相应音频分发的内容(被称为“传统媒体”)的媒体。沉浸式媒体和传统媒体两者都可以被表征为时序的或非时序的。

时序媒体是指根据时间结构化和呈现的媒体。示例包括电影特写、新闻报道、情节内容，这些中的所有都是根据时间段组织的。传统视频和音频通常被认为是时序媒体。

非时序媒体是不按时间结构化而是按逻辑、空间和/或时间关系结构化的媒体。示例包括视频游戏，在视频游戏中，用户对由游戏设备创建的体验进行控制。非时序媒体的另一示例是由相机拍摄的静止图像照片。非时序媒体可以将时序媒体合并到例如视频游戏场景的连续循环音频或视频片段中。相反，时序媒体可以合并非时序媒体，例如具有固定静止图像作为背景的视频。

具有沉浸式媒体能力的设备可以是指配备有访问、解释和呈现沉浸式媒体的能力的设备。此类媒体和设备在媒体的数量和格式以及大规模分发此类媒体即实现与传统视频和音频媒体通过网络的分发等效的分发所需的网络资源的数目和类型方面是异构的。相比之下，诸如笔记本电脑显示器、电视和移动手机显示器的传统设备在它们的能力方面是同构的，因为所有这些设备都由矩形显示屏组成，并且使用(consume)2D矩形视频或静止图像作为它们的主要媒体格式。

发明内容

实施方式涉及一种用于流式传输沉浸式媒体的方法、系统和计算机可读介质。根据一个方面，提供了一种用于流式传输沉浸式媒体的方法。该方法可以包括基于一个或更多个令牌的传输来接收对应于与媒体内容相关联的客户端的特性的信息。使用一个或更多个令牌来将打包处理与媒体内容相关联。基于相关联的打包处理，根据客户端的特性对媒体内容进行适配。

根据另一方面，提供了一种用于流式传输沉浸式媒体的计算机系统。该计算机系统可以包括一个或更多个处理器、一个或更多个计算机可读存储器、一个或更多个计算机可读有形存储设备、以及存储在一个或更多个存储设备中的至少一个存储设备上的程序指令，所述程序指令用于由一个或更多个处理器中的至少一个处理器经由一个或更多个存储器中的至少一个存储器执行，由此计算机系统能够执行方法。该方法可以包括基于一个或更多个令牌的传输来接收对应于与媒体内容相关联的客户端的特性的信息。使用一个或更多个令牌来将打包处理与媒体内容相关联。基于相关联的打包处理，根据客户端的特性对媒体内容进行适配。

根据又一方面，提供了一种用于流式传输沉浸式媒体的计算机可读介质。该计算机可读介质可以包括一个或更多个计算机可读存储设备以及存储在一个或更多个有形存储设备中的至少一个有形存储设备上的程序指令，所述程序指令可由处理器执行。程序指令能够由用于执行一种方法的处理器执行，该方法可以相应地包括基于一个或更多个令牌的传输来接收对应于与媒体内容相关联的客户端的特性的信息。使用一个或更多个令牌来将打包处理与媒体内容相关联。基于相关联的打包处理，根据客户端的特性对媒体内容进行适配。

附图说明

根据以下要结合附图阅读的说明性实施方式的详细描述，这些和其他对象、特征和优点将变得明显。附图的各种特征不是按比例的，因为图示是为了在便于本领域技术人员结合详细描述进行理解方面是清楚的。在附图中：

图1是时序传统媒体分发的端到端处理的示意图。

图2是用于时序传统媒体的流式传输的标准媒体格式的示意图。

图3是用于时序沉浸式媒体的表示和流式传输的数据模型的实施方式的示意图。

图4是用于非时序沉浸式媒体的表示和流式传输的数据模型的实施方式的示意图。

图5是捕获自然场景并且将自然场景转换成可以用作为异构客户端端点提供服务的网络的摄取格式的表示的处理的示意图。

图6是使用3D建模工具和格式来创建合成场景的表示的处理的示意图，该合成场景可以用作为异构客户端端点提供服务的网络的摄取格式。

图7是计算机系统的系统图。

图8是为多个异构客户端端点提供服务的网络的示意图。

图9是网络提供关于以媒体摄取格式表示的特定媒体的适配信息的示意图，例如在网络适配媒体以供特定沉浸式媒体客户端端点使用的处理之前提供关于以媒体摄取格式表示的特定媒体的适配信息的示意图。

图10是包括将源媒体从其摄取格式转换成适于特定客户端端点的特定格式的媒体渲染转换器的媒体适配处理的系统图。

图11是网络将适配的源媒体格式化为适于表示和流式传输的数据模型的示意图。

图12是将图11的数据模型分段成网络协议分组的有效载荷的媒体流式传输处理的系统图。

图13是网络将以摄取格式的特定沉浸式媒体适配成用于特定沉浸式媒体客户端端点的可流式传输且合适的分发格式的序列图。

具体实施方式

本文公开了所要求保护的结构和方法的详细实施方式；然而，可以理解，所公开的实施方式仅仅是对可以以各种形式实施的所要求保护的结构和方法的说明。然而，这些结构和方法可以以许多不同的形式实施并且不应被解释为限于本文阐述的示例性实施方式。而是，提供这些示例性实施方式以使得本公开内容将是详尽的和完整的，并且将范围完全传达给本领域技术人员。在描述中，可以省略公知特征和技术的细节，以避免不必要地模糊所呈现的实施方式。

实施方式总体上涉及数据处理领域，并且更具体地涉及视频编码。本文描述的技术使得网络能够摄取媒体源并且在将格式化的媒体实际分发至各种客户端端点之前将媒体源适配成一种或更多种可流式传输的“分发格式”以适应各种异构客户端端点设备、它们的不同特征和能力以及客户端端点上使用的应用的要求。将媒体源重新格式化为各种可流式传输的分发格式的能力使网络能够同时为具有各种能力和可用计算资源的各种客户端端点提供服务，并且能够支持新兴的沉浸式客户端端点，例如商业网络中的全息显示器和光场显示器。这种将媒体适配成匹配异构客户端端点设备的能力的能力也可以扩展至将媒体适配成匹配在端点客户端上运行的各种应用的要求、或网络的当前能力。自适应地流式传输此类媒体的能力对于使得能够为各种用例分发沉浸式媒体以随后在各种异构端点上呈现至关重要。此外，考虑到设备端点在它们的能力和特征方面是异构的，对异构端点的支持有助于生态系统的发展，以支持针对不同用例优化的各种客户端端点。

如前所述，“沉浸式媒体”通常是指下述媒体：该媒体刺激任何或所有人类感官系统(视觉、听觉、体感、嗅觉和可能的味觉)以创建或增强用户在媒体体验中实际存在的感知，即，超越了通过现有商业网络为时序的二维(2D)视频和相应音频分发的内容(被称为“传统媒体”)的媒体。沉浸式媒体和传统媒体两者都可以被表征为时序的或非时序的。

具有沉浸式媒体能力的设备可以是指配备有访问、解释和呈现沉浸式媒体的能力的设备。此类媒体和设备在媒体的数量和格式以及大规模分发此类媒体即实现与传统视频和音频媒体通过网络的分发等效的分发所需的网络资源的数目和类型方面是异构的。相比之下，诸如笔记本电脑显示器、电视和移动手机显示器的传统设备在它们的能力方面是同构的，因为所有这些设备都由矩形显示屏组成，并且使用2D矩形视频或静止图像作为它们的主要媒体格式。

任何媒体通过网络的分发都可以采用将媒体从输入或网络“摄取”格式重新格式化为最终分发格式的媒体传递系统和架构，其中，该分发格式不仅适于目标客户端设备及其应用，而且有利于通过网络进行流式传输。媒体的“流式传输”广义上是指对源媒体的分段和分组，使得源媒体可以通过网络以连续较小的“块”传递，这些“块”根据媒体的时间或空间结构中的任一或两者进行逻辑组织和排序。在这样的分发架构和系统中，媒体可能会经历压缩或分层处理，使得只有最显著的媒体信息首先被传递给客户端。在一些情况下，客户端必须在客户端能够将任何相同的媒体部分呈现给终端用户之前接收媒体的某些部分的所有显著媒体信息。

压缩和分层处理的示例是JPEG(Joint Photographic Experts Group，JPEG)标准(ISO(International Organization for Standardization，ISO)/IEC(InternationalElectrotechnical Commission，IEC)10918第1部分)的渐进式格式，它将图像分成多个层，使得整个图像首先只呈现有最初失焦的基本形状和颜色，即来自整个图像扫描的低阶DCT(Discrete Cosine Transformation，DCT)系数，然后是使得图像聚焦的附加细节层，即来自图像扫描的高阶DCT系数。

将媒体分成较小的部分、将较小的部分组织成连续网络协议分组的有效载荷部分并且分发这些协议分组的处理被称为媒体的“流式传输”，而将媒体转换成适于在运行各种异构应用之一的各种异构客户端端点之一上呈现的格式的处理被称为“适配”媒体。

定义

场景图：基于矢量的图形编辑应用和现代计算机游戏通常使用的通用数据结构，其排列图形场景的逻辑表示，通常(但不一定)也排列空间表示；图结构中的节点和顶点的集合。

节点：场景图的基本元素，包括与视觉、音频、触觉、嗅觉、味觉的逻辑或空间或时间表示相关的信息或者相关处理信息；每个节点应当具有至多一个输出边、零个或更多个输入边、以及连接至该节点的至少一个边(输入或输出)。

基本层：资产的标称表示，通常被制定成使渲染资产所需的计算资源或时间、或者通过网络传输资产的时间最小化。

增强层：一组信息，当将该组信息应用于资产的基本层表示时，增强基本层以包括基本层中不支持的特征或能力。

属性：与节点相关联的元数据，用于以规范或更复杂的形式(例如，根据另一节点)描述该节点的特定特性或特征。

容器：一种序列化格式，用于存储和交换信息以表示包括场景图和用于渲染场景所需的媒体资源中的所有媒体资源的全自然场景、全合成场景或合成场景和自然场景的混合。

序列化：将数据结构或对象状态转换成可以被存储(例如，存储在文件或存储缓冲器中)或被传输(例如，跨网络连接链路)并随后被重建(可能在不同的计算机环境中)的格式的处理。在根据序列化格式重新读取所得的比特序列时，该序列化格式可以用于创建原始对象的语义上相同的克隆。

渲染器：一种(通常基于软件的)应用或处理，其基于与下述相关的学科的选择性混合：声学物理、光物理、视觉感知、音频感知、数学、和软件开发，在给定输入场景图和资产容器的情况下，该应用或处理发出典型的视觉信号和/或音频信号，该视觉信号和/或音频信号适于在目标设备上呈现或者符合由场景图中的渲染目标节点的属性指定的期望性质。对于基于视觉的媒体资产，渲染器可以发出适于目标显示器或适于作为中间资产(例如，重新打包到另一容器中，即，在图形管线中的一系列渲染处理中使用)的存储装置的视觉信号；对于基于音频的媒体资产，渲染器可以发出音频信号，以用于在多声道扬声器和/或双声道耳机(binauralized headphone)中呈现，或者用于重新打包到另一(输出)容器中。渲染器的流行示例包括：Unity、Unreal。

评估：产生一个使输出从抽象移动到具体结果的结果(例如，类似于对网页的文档对象模型的评估)。

脚本语言：解释性编程语言，其可以由渲染器在运行时执行，以处理动态输入和对场景图节点所做的可变状态改变，这些改变影响空间和时间对象拓扑(包括物理力、约束、IK、变形、碰撞)的渲染和评估，以及能量传播和传输(光、声音)。

着色器：一种类型的计算机程序，其最初用于着色(在图像内产生适当级别的光、暗度和颜色)，但其现在在计算机图形特殊效果的各个领域中执行各种专门功能，或者进行与着色无关的视频后处理或甚至与图形完全无关的功能。

路径跟踪：一种渲染三维场景使得场景的照明忠实于现实的计算机图形方法。

时序媒体：按时间排序的媒体；例如，具有根据特定时钟的开始时间和结束时间。

非时序媒体：按空间、逻辑或时间关系组织的媒体；例如，如在根据用户采取的动作实现的交互式体验中。

沉浸式媒体可以被视为一种或更多种类型的媒体，当由具有沉浸式媒体能力的设备呈现给人类时，所述媒体以更逼真且符合人类对自然世界内的体验的理解的方式，即超越了利用由传统设备呈现的传统媒体以其他方式实现的刺激的刺激，刺激视觉、听觉、味觉、触觉和听觉五种感觉中的任意感觉。在该上下文中，术语“传统媒体”是指二维(2D)视觉媒体(静止图片帧或运动图片帧)、和/或用户的交互能力限于暂停、播放、快进或倒带的相应音频；“传统设备”是指其能力限于只能呈现传统媒体的电视、笔记本电脑、显示器和移动设备。在面向消费者的应用场景中，用于沉浸式媒体的呈现设备(即，具有沉浸式媒体能力的设备)是下述面向消费者的硬件设备，该设备特别配备有利用由沉浸式媒体所体现的特定信息使得该设备可以创建更接近人类对物理世界的理解和与物理世界的交互的呈现的能力，即，超出了传统设备这样做的能力。传统设备的能力限于只能呈现传统媒体，而沉浸式媒体设备同样不受限制。

在过去的十年中，许多具有沉浸式媒体能力的设备已经被引入消费市场，包括头戴式显示器、增强现实眼镜、手持控制器、触觉手套和游戏控制台。同样地，全息显示器和其他形式的体积显示器也有望在接下来的十年内出现。尽管这些设备立即可用或即将可用，但是出于若干原因，用于通过商业网络分发沉浸式媒体的连贯的端到端生态系统未能实现。

这些原因之一在于：对于沉浸式媒体，缺乏可以解决有关当前通过商业网络大规模分发媒体的两个主要用例的单一标准表示：1)针对现场动作事件的实时分发，即创建内容并且将内容实时或接近实时地分发至客户端端点；以及2)非实时分发，即当内容被物理捕获或创建时不需要实时分发内容。可以将这两个用例分别与当今存在的“广播”和“点播”分发格式进行比较式比较。

对于实时分发，内容可以由一个或更多个相机捕获，或使用计算机生成技术创建。由相机捕获的内容在本文被称为“自然”内容，而使用计算机生成技术创建的内容在本文被称为“合成”内容。用于表示合成内容的媒体格式可以是3D建模、视觉效果和CAD(ComputerAided Design，CAD)/CAM(Computer Aided Manufacturing，CAM)行业使用的格式，并且可以包括对象格式和工具，例如网格、纹理、点云、结构化体积、无定形体积(例如，用于火、烟和雾)、着色器、程序生成的几何体、材质、照明、虚拟相机定义和动画。虽然合成内容是计算机生成的，但是合成媒体格式可以用于自然内容和合成内容两者，然而，将自然内容转换成合成媒体格式(例如，转换成合成表示)的处理可能是时间和计算密集型的处理，并且因此对于实时应用和用例而言可能是不切实际的。

对于自然内容的实时分发，相机捕获的内容可以以光栅格式分发，这适于传统显示设备，因为许多这样的设备同样被设计成显示光栅格式。也就是说，考虑到传统显示器被同构地设计成显示光栅格式，因此光栅格式的分发最适于能够仅显示光栅格式的显示器。

然而，具有沉浸式媒体能力的显示器不一定限于基于光栅格式的显示器。此外，一些具有沉浸式媒体能力的显示器无法呈现仅以基于光栅格式可用的媒体。经优化以创建基于除基于光栅格式以外的格式的沉浸式体验的显示器的可用性是尚未有用于沉浸式媒体分发的连贯的端到端生态系统的另一重要原因。

为多种不同的沉浸式媒体设备创建连贯的分发系统的另一问题在于当前和新兴的具有沉浸式媒体能力的设备本身可能显著变化。例如，一些沉浸式媒体设备被明确设计成一次只能由一个用户使用，例如头戴式显示器。其他沉浸式媒体设备被设计成使得可以由多于一个用户同时使用，例如，“Looking Glass Factory 8K显示器”(以下称为“柱状光场显示器”)可以显示可以由多达12个用户同时观看的内容，其中，每个用户都在体验他或她对正在显示的内容的独特视角(即视图)。

使连贯的分发系统的开发更加复杂的是，每个显示器能够产生的独特视图的数目可能大幅变化。在大多数情况下，传统显示器只能创建单个内容视图。然而，柱状光场显示器可以支持多个用户，其中每个用户体验相同视觉场景的独特视图。为了完成对同一场景的多个视图的创建，柱状光场显示器创建了特定的体积视锥体，其中需要同一场景的45个独特视图作为显示器的输入。这意味着需要捕获同一场景的45个略有不同的独特光栅表示，并将其以特定于该特定显示器的格式(即其视锥体)分发至显示器。相比之下，传统显示器的视锥体限于单个二维平面，并且因此，无论同时体验该显示器的观看者数目如何，都无法经由显示器的视锥体呈现多于一个的内容观看视角。

一般来说，沉浸式媒体显示器可能会根据所有显示器的以下这些特性而显著变化：视锥体的尺寸和体积；同时支持的观看者数目；用于填充视锥体的光学技术，其可以是基于点的、基于射线的或基于波的技术；占据视锥体的光单位(点、射线或波)的密度；计算能力的可用性和计算类型(CPU(Central Processing Unit，CPU)或GPU(GraphicsProcessing Unit，GPU))；电力的来源和可用性(电池或电线)；本地存储或缓存的数目；以及对辅助资源例如基于云的计算和存储的访问。这些特性导致沉浸式媒体显示器的异构性，与传统显示器的同构性相比，沉浸式媒体显示器的异构性使得可以支持包括传统类型的显示器和沉浸式类型的显示器两者的所有这些的单个分发系统的开发变得复杂。

所公开的主题解决了基于网络的媒体分发系统的开发，该系统可以在单个网络的上下文中支持作为客户端端点的传统媒体显示器和沉浸式媒体显示器两者。具体地，本文提出了将输入的沉浸式媒体源适配成适于客户端端点设备(包括当前在该客户端端点设备上执行的应用)的特定特性的格式的机制。这样的适配输入的沉浸式媒体源的机制包括使输入的沉浸式媒体的特性与目标端点客户端设备(包括在客户端设备上执行的应用)的特性相协调，并且然后将输入的沉浸式媒体适配成适于目标端点及其应用的格式。此外，适配处理可以包括从输入的媒体内插附加视图例如新颖视图，以创建客户端端点所需的附加视图。这样的内插可以在神经网络处理的帮助下执行。

注意，不失一般性，所公开主题的其余部分假定使输入的沉浸式媒体源适配特定端点客户端设备的处理与使相同输入的沉浸式媒体源适配在特定客户端端点设备上执行的特定应用的处理相同或类似。也就是说，使输入的媒体源适配端点设备的特性的问题与使特定输入的媒体源适配特定应用的特性的问题具有相同的复杂性。

由传统媒体支持的传统设备已经实现了消费者的广泛采用，因为它们同样受到传统媒体内容提供商和商业网络服务提供商的生态系统的支持，传统媒体内容提供商产生传统媒体的基于标准的表示，商业网络服务提供商提供网络基础设施以将传统设备连接至标准传统内容的源。除了通过网络分发传统媒体的角色之外，商业网络服务提供商还可以促进传统客户端设备与对内容分发网络(Content Distribution Network，CDN)上的传统内容的访问的配对。一旦与对适合形式的内容的访问配对，然后传统客户端设备就可以从内容服务器向设备请求或“拉取”传统内容，以便呈现给终端用户。然而，网络服务器将适当的媒体“推送”至适当的客户端的架构同样相关，而不会对整体架构和解决方案设计产生附加的复杂性。

本文参照根据各种实施方式的方法、装置(系统)和计算机可读介质的流程图图示和/或框图来描述各方面。应当理解，可以通过计算机可读程序指令来实现流程图图示和/或框图中的每个块以及流程图图示和/或框图中的块的组合。

以下描述的示例性实施方式涉及用于分发媒体的系统和网络的架构、结构和部件，所述媒体包括视频、音频、几何(3D)对象、触觉、相关联的元数据或用于客户端设备的其他内容。具体实施方式是用于将媒体内容分发至异构沉浸式和交互式客户端设备的定向系统、结构和架构。

图1是时序传统媒体分发的端到端处理的示例说明。在图1中，时序视听内容由101A中的相机或麦克风捕获，或者由101B中的计算机生成，从而创建输入至准备模块103的2D图像和相关联音频的序列102。103的输出是被称为主格式(Master Format)的经编辑的内容(例如，用于包括语言翻译、字幕、其他编辑功能的后期制作)，该主格式准备好被转换器模块104转换成标准夹层格式(Mezzanine Format)(例如，用于点播媒体)或作为标准贡献格式(Contribution Format)(例如，用于实况事件)。媒体被商业网络服务提供商“摄取(ingest)”，并且适配模块105将媒体打包成各种比特率、时间分辨率(帧速率)或空间分辨率(帧大小)，这些比特率、时间分辨率(帧速率)或空间分辨率(帧大小)被打包成标准分发格式(Distribution Format)。所得到的适配被存储在内容分发网络106上，各个客户端108从内容分发网络106进行拉取请求107，以获取媒体并将其呈现给终端用户。重要的是要注意，主格式可以包括来自101A或101B的媒体的混合，并且格式101A可以实时获得，例如诸如从现场体育赛事获得的媒体。此外，客户端108负责选择最适于客户端的配置和/或当前网络条件的特定适配107，但是同样可能的是，网络服务器(图1中未示出)可以确定适当的内容并随后将其“推送”至客户端108。

图2是用于分发传统时序媒体诸如视频、音频和支持元数据(包括例如用于字幕的时序文本)的标准媒体格式的示例。如图1中的项106所示，媒体以基于标准的分发格式存储在CDN 201上。基于标准的格式被示出为MPD(Microsoft Project Database，MPD)202，其包括包含具有对应于时钟的开始时间和结束时间的时序时段203的多个部分。每个时段203涉及一个或更多个适配集204。每个适配集204通常用于单个类型的媒体，例如视频、音频或时序文本。对于任何给定时段203，可以提供多个适配集204，例如一个用于视频并且多个用于音频，例如用于翻译成各种语言。每个适配集204涉及一个或更多个表示205，其提供关于媒体的帧分辨率(对于视频)、帧速率和比特率的信息。多个表示205可以用于提供对例如各自用于超高清晰度视频、高清晰度视频或标准清晰度视频的表示205的访问。每个表示205涉及一个或更多个分段文件206，媒体被实际存储在分段文件206中以供客户端(如图1中的108所示)获取或供网络媒体服务器(图1中未示出)分发(在“基于推送”的架构中)。

图3是用于时序的异构沉浸式媒体的可流式传输格式的示例表示。图4是用于非时序的异构沉浸式媒体的可流式传输格式的示例表示。两幅图均涉及场景；图3涉及时序媒体的场景301，而图4涉及非时序媒体的场景401。对于这两种情况，场景可以由各种场景表示或场景描述来体现。

例如，在一些沉浸式媒体设计中，场景可以通过场景图来体现，或者体现为多平面图像(Multi-Plane Image，MPI)，或者体现为多球面图像(Multi-Spherical Image，MSI)。MPI技术和MSI技术两者都是有助于为自然内容(即从一个或更多个相机同时捕获的现实世界的图像)创建与显示无关的场景表示的技术示例。另一方面，场景图技术可以用于以合成表示的形式表示自然图像和计算机生成的图像两者，然而，当内容被一个或更多个相机捕获为自然场景时，创建这样的表示特别需要计算密集型。也就是说，创建自然捕获内容的场景图表示既费时又是计算密集型，需要使用摄影测量或深度学习或两者兼而有之的技术对自然图像进行复杂分析，以创建合成表示，这些表示随后可以用于内插足够且充分数目的视图，以填充目标沉浸式客户端显示器的视锥体。因此，目前将这样的合成表示作为表示自然内容的候选考虑是不切实际的，因为它们实际上不能实时创建以考虑需要实时分发的用例。然而，目前，针对计算机生成的图像的最佳候选表示是使用具有合成模型的场景图，因为计算机生成的图像是使用3D建模处理和工具创建的。

自然内容和计算机生成的内容两者的最佳表示中的这种二分法表明，针对自然捕获的内容的最佳摄取格式不同于针对计算机生成的内容或对于实时分发应用不是必需的自然内容的最佳摄取格式。因此，所公开的主题目标是足够鲁棒以支持用于视觉沉浸式媒体的多种摄取格式，无论它们是自然创建的还是由计算机创建的。

以下是将场景图体现为下述格式的示例技术，该格式适于表示使用计算机生成技术创建的视觉沉浸式媒体，或针对其使用深度学习或摄影测量技术创建自然场景的相应合成表示的自然捕获内容，即，对于实时分发应用不是必需的自然捕获内容。

1.OTOY的

OTOY的ORBX是若干场景图技术中的一种，其能够支持任何类型的时序或非时序的视觉媒体，包括光线可跟踪的视觉格式、传统的(基于帧的)视觉格式、体积的视觉格式和其他类型的合成的或基于矢量的视觉格式。ORBX与其他场景图不同，因为ORBX针对网格、点云和纹理的自由可用格式和/或开源格式提供本地支持(native support)。ORBX是已经被有意设计成目的在于促进在多种场景图运营厂商技术之间的交换的场景图。此外，ORBX提供了丰富的材料系统、对开放式着色器语言(open shader language)的支持、鲁棒的相机系统以及对Lua脚本的支持。ORBX也是由沉浸式数字体验联盟(Immersive DigitalExperiences Alliance，IDEA)针对免版税条款下的许可发布的沉浸式技术媒体格式的基础。在媒体的实时分发的上下文中，创建和分发自然场景的ORBX表示的能力取决于计算资源的可用性，以对相机捕获的数据执行复杂分析并将相同的数据合成为合成表示。迄今为止，用于实时分发的足够计算的可用性是不切实际的，但并非不可能。

2.Pixar的通用场景描述

Pixar的通用场景描述(Universal Scene Description，USD)是在VFX和专业内容制作社区中流行的另一公知且成熟的场景图。USD被集成至Nvidia的Omniverse平台中，Omniverse平台是供开发人员利用Nvidia的GPU进行3D模型创建和渲染的一组工具。USD的子集被Apple和Pixar发布为USDZ。USDZ由Apple的ARKit支持。

3.Khronos的glTF2.0

glTF2.0是由Khronos 3D Group编写的“图形语言传输格式(Graphics LanguageTransmission Format)”规范的最新版本。该格式支持简单的场景图格式，该简单的场景图格式通常能够支持场景中的静态(非时序)对象，包括“png”和“jpeg”图像格式。glTF2.0支持简单的动画，包括支持使用glTF基元描述的基本形状(即，几何对象)的平移、旋转和缩放。glTF2.0不支持时序媒体，并且因此既不支持视频也不支持音频。

用于沉浸式视觉媒体的场景表示的这些已知设计仅作为示例提供，并且不将所公开的主题限制在其指定将输入的沉浸式媒体源适配成适于客户端端点设备的特定特性的格式的处理的能力。

此外，上述示例媒体表示中的任何媒体表示或所有媒体表示当前采用或可能采用深度学习技术来训练和创建神经网络模型，该神经网络模型使能或促进基于截锥体的特定尺寸来选择特定视图以填充特定显示器的视锥体。针对特定显示器的视锥体选择的视图可以从场景表示中明确提供的现有视图例如通过MSI或MPI技术内插，或者它们可以基于特定的虚拟相机位置、过滤器或对渲染引擎的虚拟相机的描述直接从这些渲染引擎渲染。

因此，所公开的主题足够鲁棒以考虑到存在一组相对较小但公知的沉浸式媒体摄取格式，该格式足以能够满足实时或“点播”(例如，非实时)分发媒体的要求，所述媒体是自然捕获的(例如，使用一个或更多个相机)，或者是使用计算机生成技术创建的。

随着先进的网络技术例如用于移动网络的5G和用于固定网络的光纤线缆的部署，进一步促进了通过使用神经网络模型或基于网络的渲染引擎从沉浸式媒体摄取格式内插视图。也就是说，这些先进的网络技术增加了商业网络的容量和能力，因为这些先进的网络基础设施可以支持越来越多的视觉信息的输送和传递。网络基础设施管理技术诸如多接入边缘计算(Multi-access Edge Computing，MEC)、软件定义网络(Software DefinedNetworks，SDN)和网络功能虚拟化(Network Functions Virtualization，NFV)使得商业网络服务提供商能够灵活地配置其网络基础设施，以适配对某些网络资源的需求方面的变化，例如，响应于对网络吞吐量、网络速度、往返延迟和计算资源的需求的动态增加或减少。此外，这种适配动态网络要求的固有能力同样促进了网络将沉浸式媒体摄取格式适配成合适的分发格式以支持各种沉浸式媒体应用的能力，这些沉浸式媒体应用具有用于异构客户端端点的潜在异构视觉媒体格式。

沉浸式媒体应用本身还可以对网络资源有不同的要求，所述沉浸式媒体应用包括：需要显著较低的网络延迟来响应游戏的状态中的实时更新的游戏应用、对于网络的上行链路部分和下行链路部分都具有对称吞吐量要求的远程呈现应用、以及可能根据正在消耗数据的客户端端点显示器的类型增加了对于下行链路资源的需求的被动观看应用。一般来说，任何面向消费者的应用可以由各种客户端端点支持，这些客户端端点具有用于存储、计算和供电的各种板载客户端能力，并且同样具有对于特定媒体表示的各种要求。

因此，所公开的主题使配备充分的网络即采用现代网络的一些或全部特性的网络能够根据其中指定的特征同时支持多个传统设备和具有沉浸式媒体能力的设备：

1.提供用于利用对实时用例和“点播”用例两者都适用的媒体摄取格式来分发媒体的灵活性。

2.提供用于支持针对传统客户端端点和具有沉浸式媒体能力的客户端端点两者的自然内容和计算机生成内容两者的灵活性。

3.支持时序媒体和非时序媒体。

4.提供用于基于客户端端点的特征和能力以及基于应用的要求来将源媒体摄取格式动态适配成合适的分发格式的处理。

5.确保分发格式可通过基于IP的网络进行流式传输。

6.使网络能够同时为多个异构客户端端点提供服务，所述客户端端点可以包括传统设备和具有沉浸式媒体能力的设备。

7.提供有助于沿场景边界组织分发媒体的示例性媒体表示框架。

由所公开的主题实现的改进的端到端实施方式根据如下所述的图3至图13的详细描述中描述的处理和部件来实现。

图3和图4均采用单个示例性的环绕式分发格式，该格式已经从摄取源格式被适配成匹配特定客户端端点的能力。如上所述，图3所示的媒体是时序的，并且图4所示的媒体是非时序的。特定的环绕式格式在其结构上足够鲁棒以容纳大量的媒体属性，每个属性都可以基于每一层对媒体呈现做出贡献的显著信息量进行分层。注意，这样的分层处理在当前最先进的技术中已经是公知的技术，如渐进式JPEG和可缩放视频架构例如ISO/IEC 14496-10(可缩放高级视频编码)中指定的那些所示。

1.根据环绕式媒体格式进行流式传输的媒体不限于传统视觉和音频媒体，而是可以包括能够产生与机器交互以刺激人类的视觉、听觉、味觉、触觉和嗅觉的信号的任何类型的媒体信息。

2.根据环绕式媒体格式进行流式传输的媒体可以是时序媒体或非时序媒体、或者是两者的混合。

3.通过使用基本层和增强层架构来实现针对媒体对象的分层表示，进一步使得环绕式媒体格式是可流式传输的。在一个示例中，通过针对每个场景中的媒体对象应用多分辨率技术或多细分分析技术来计算分离的基本层和增强层。这类似于ISO/IEC 10918-1(JPEG)和ISO/IEC 15444-1(JPEG2000)中指定的渐进渲染的图像格式，但不限于基于光栅的视觉格式。在示例实施方式中，几何对象的渐进表示可以是使用小波分析计算的对象的多分辨率表示。

在媒体格式的分层表示的另一示例中，增强层将不同的属性应用于基本层，例如细化由基本层表示的视觉对象的表面的材料性质。在又一示例中，属性可以细化基本层对象的表面的纹理，例如将表面从光滑纹理改变为多孔纹理，或者从无光泽表面改变为有光泽表面。

在分层表示的又一示例中，场景中的一个或更多个视觉对象的表面可以从朗伯(Lambertian)表面改变为光线可跟踪表面。

在分层表示的又一示例中，网络将向客户端分发基本层表示，使得客户端可以创建场景的标称呈现(nominal presentation)，同时客户端等待附加增强层的传输以细化基本表示的分辨率或其它特性。

4.增强层中的属性或细化信息的分辨率与基本层中的对象的分辨率没有明确耦合，就像如今现有MPEG(Moving Picture Experts Group，MPEG)视频标准和JPEG图像标准中那样。

5.环绕式媒体格式支持可以由呈现设备或机器呈现或驱动的任何类型的信息媒体，从而实现异构媒体格式对异构客户端端点的支持。在分发媒体格式的网络的一个实施方式中，网络将首先查询客户端端点以确定客户端的能力，并且如果客户端不能有意义地摄取媒体表示，则网络将移除不被客户端支持的属性的层，或者将媒体从其当前格式适配成适于客户端端点的格式。在这样的适配的一个示例中，网络将通过使用基于网络的媒体处理协议来将体积视觉媒体资产转换成相同视觉资产的2D表示。

6.针对完整的或部分完整的沉浸式体验(直播流事件、游戏或点播资产的回放)的清单由场景组织，该清单是渲染和游戏引擎当前可以摄取以便创建呈现的最少量的信息。清单包括针对由客户端请求的整个沉浸式体验要渲染的各个场景的列表。与每个场景相关联的是与场景几何形状的可流式传输版本对应的场景内的几何对象的一个或更多个表示。场景表示的一个实施方式是指该场景的几何对象的低分辨率版本。相同场景的另一实施方式是指用于向相同场景的几何对象添加附加细节或增加细分的场景的低分辨率表示的增强层。如上所述，每个场景可以具有多于一个增强层以以渐进方式增加场景的几何对象的细节。

7.在场景内引用的媒体对象的每个层与令牌(例如，URI(Uniform ResourceIdentifier，URI))相关联，该令牌指向在网络内可以访问资源的地址。这些资源类似于CDN的资源，其中内容可以由客户端获取。

8.用于几何对象的表示的令牌可以指向网络内的位置或指向客户端内的位置。也就是说，客户端可以向网络发信号通知其资源可用于网络以进行基于网络的媒体处理。

图3如下描述了用于时序媒体的环绕式媒体格式的实施方式。时序场景清单包括场景信息的列表301。场景301涉及部件302的列表，所述部件302分别描述包括场景301的媒体资产的处理信息和类型。部件302涉及资产303，资产303进一步涉及基本层304和属性增强层305。

图4如下描述了用于非时序媒体的环绕式媒体格式的实施方式。场景信息401与根据时钟的开始和结束持续时间不相关。场景信息401涉及部件402的列表，所述部件402分别描述包括场景401的媒体资产的处理信息和类型。部件402涉及资产403(例如，视觉、音频和触觉资产)，资产403进一步涉及基本层404和属性增强层405。此外，场景401涉及用于非时序媒体的其他场景401。场景401还涉及时序媒体场景。

图5示出了根据自然内容合成摄取格式的处理500的实施方式。相机单元501使用单个相机透镜来捕获人的场景。相机单元502通过在环形对象周围安装五个相机透镜来捕获具有五个发散视野的场景。502中的布置是通常用于为VR(Virtual Reality，VR)应用捕获全向内容的示例性布置。相机单元503通过在球体的内径部分上安装七个相机透镜来捕获具有七个会聚视野的场景。布置503是通常用于为光场显示器或全息沉浸式显示器捕获光场的示例性布置。自然图像内容509作为输入被提供至合成模块504，合成模块504可以可选地采用神经网络训练模块505使用训练图像506的集合来产生可选的捕获神经网络模型508。代替训练处理505的另一常用处理是摄影测量。如果模型508是在图5中描绘的处理500期间创建的，则模型508成为用于自然内容的摄取格式507中的资产之一。摄取格式507的示例性实施方式包括MPI和MSI。

图6示出了针对合成媒体例如计算机生成的图像创建摄取格式的处理600的实施方式。激光雷达相机601捕获场景的点云602。在计算机603上采用CGI(Computer-GeneratedImagery，CGI)工具、3D建模工具或其他动画处理来创建合成内容，以通过网络创建604CGI资产。带有传感器的动作捕获套装605A穿戴在演员605上以捕获演员605的动作的数字记录，从而产生动画的动作捕获(Motion Capture，MoCap)数据606。数据602、604和606作为输入被提供至合成模块607，合成模块607同样可以可选地使用神经网络和训练数据来创建神经网络模型。

上述用于表示和流式传输异构沉浸式媒体的技术可以被实现为使用计算机可读指令并且物理地存储在一个或更多个计算机可读介质中的计算机软件。例如，图7示出了适于实现所公开主题的某些实施方式的计算机系统700。

可以使用任何合适的机器代码或计算机语言来编码计算机软件，所述机器代码或计算机语言可以经受汇编、编译、链接等机制以创建包括指令的代码，所述指令可以由计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或者通过解释、微代码执行等来执行。

所述指令可以在各种类型的计算机或其部件上执行，所述计算机或其部件包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。

图7中示出的用于计算机系统700的部件本质上是示例性的，并且不旨在关于实现本公开内容的实施方式的计算机软件的使用范围或功能提出任何限制。部件的配置也不应被解释为具有与计算机系统700的示例性实施方式中所示的部件中的任一者或组合相关的任何依赖性或要求。

计算机系统700可以包括某些人机接口输入设备。这样的人机接口输入设备可以对由一个或更多个人类用户通过例如触觉输入(例如：键击、滑动、数据手套移动)、音频输入(例如：语音、拍手)、视觉输入(例如：姿势)、嗅觉输入(未描绘)的输入作出响应。人机接口设备还可以用于捕获不一定与人的意识输入直接有关的某些媒体，例如音频(例如：语音、音乐、环境声音)、图像(例如：扫描图像、从静态图像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。

输入人机接口设备可以包括以下项中的一个或更多个(每项仅描绘一个)：键盘701、鼠标702、触控板703、触摸屏710、数据手套(未描绘)、操纵杆705、麦克风706、扫描仪707、相机708。

计算机系统700还可以包括某些人机接口输出设备。这样的人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或更多个人类用户的感官。这样的人机接口输出设备可以包括：触觉输出设备(例如，通过触摸屏710、数据手套(未描绘)或操纵杆705进行的触觉反馈，但是也可以存在不用作输入设备的触觉反馈设备)；音频输出设备(例如：扬声器709、头戴式耳机(未描绘))；视觉输出设备(例如，屏幕710，包括CRT(Cathode Ray Tube，CRT)屏幕、LCD(Liquid Crystal Display，LCD)屏幕、等离子屏幕、OLED(Organic Light Emitting Diode，OLED)屏幕，每个均具有或不具有触摸屏输入能力，每个均具有或不具有触觉反馈能力——其中的一些可能能够通过诸如立体图像输出的方式输出二维视觉输出或多于三维的输出；虚拟现实眼镜(未描绘)；全息显示器和烟罐(smoke tank)(未描绘))；以及打印机(未描绘)。

计算机系统700还可以包括人类可访问存储设备及其相关联的介质，例如包括具有CD(Compact Disc，CD)/DVD(Digital Versatile Disk，DVD)等介质721的CD/DVD ROM(Read Only Memory，ROM)/RW 720的光学介质、拇指驱动器722、可移除硬盘驱动器或固态驱动器723、传统磁性介质(例如，磁带和软盘(未描绘))、基于专用ROM/ASIC(ApplicationSpecific Integrated Circuit，ASIC)/PLD(Programable Logic Device，PLD)的设备(例如，安全加密狗(未描绘))等。

本领域技术人员还应当理解，结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他暂态信号。

计算机系统700还可以包括到一个或更多个通信网络的接口。网络可以例如是无线的、有线的、光学的。网络还可以是局域的、广域的、城域的、车载的和工业的、实时的、延迟容忍的等。网络的示例包括局域网例如以太网、无线LAN(Local Area Network，LAN)、蜂窝网络(包括GSM(Global System for Mobile Communication，GSM)、3G(ThirdGeneration，3G)、4G(Fourth Generation，4G)、5G(Fifth Generation，5G)、LTE(Long TermEvolution，LTE)等)、电视有线或无线广域数字网络(包括有线电视、卫星电视和地面广播电视)、车载的和工业的(包括CANBus)等。某些网络通常需要附接至某些通用数据端口或外围总线(749)的外部网络接口适配器(例如，诸如计算机系统700的USB(Universal SerialBus，USB)端口)；其他网络通常通过附接至如下所述的系统总线而集成到计算机系统700的核中(例如，到PC(Personal Computer，PC)计算机系统中的以太网接口或到智能电话计算机系统中的蜂窝网络接口)。使用这些网络中的任何网络，计算机系统700可以与其他实体进行通信。这样的通信可以是单向的、仅接收的(例如，广播电视)、单向仅发送的(例如，到某些CANbus设备的CANbus)、或双向的(例如，到使用局域数字网络或广域数字网络的其他计算机系统)。某些协议和协议栈可以在如上所述的这些网络和网络接口中的每一个上使用。

以上提及的人机接口设备、人类可访问存储设备和网络接口可以附接至计算机系统700的核740。

核740可以包括一个或更多个中央处理单元(CPU)741、图形处理单元(GPU)742、现场可编程门区域(Field Programmable Gate Area，FPGA)743形式的专用可编程处理单元、用于某些任务的硬件加速器744等。这些设备连同只读存储器(ROM)745、随机存取存储器746、内部大容量存储装置747(例如，内部非用户可访问硬盘驱动器、SSD(Solid StateDrive，SSD)等)一起可以通过系统总线748进行连接。在一些计算机系统中，可以以一个或更多个物理插头的形式访问系统总线748，以实现由附加的CPU、GPU等进行的扩展。外围设备可以直接地或通过外围总线749附接至核的系统总线748。外围总线的架构包括PCI(Peripheral Component Interconnect，PCI)、USB等。

CPU 741、GPU 742、FPGA 743和加速器744可以执行某些指令，这些指令组合起来可以构成以上提及的计算机代码。该计算机代码可以存储在ROM 745或RAM(Random AccessMemory，RAM)746中。瞬态数据也可以存储在RAM 746中，而永久数据可以存储在例如内部大容量存储装置747中。可以通过使用高速缓冲存储器来实现对存储器设备中的任何存储器设备的快速存储及检索，该高速缓冲存储器可以与一个或更多个CPU 741、GPU 742、大容量存储装置747、ROM 745、RAM 746等紧密相关联。

计算机可读介质上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开内容的目的而专门设计和构造的介质和计算机代码，或者介质和计算机代码可以是计算机软件领域的技术人员公知且可用的类型。

作为示例而非限制，具有架构的计算机系统700——特别是核740——可以由于处理器(包括CPU、GPU、FPGA、加速器等)执行实施在一个或更多个有形计算机可读介质中的软件而提供功能。这样的计算机可读介质可以是与以下项相关联的介质：如上面所介绍的用户可访问的大容量存储装置、以及核740的具有非暂态性质的某些存储装置例如核内部大容量存储装置747或ROM 745。实现本公开内容的各种实施方式的软件可以存储在这样的设备中并且由核740执行。根据特定需要，计算机可读介质可以包括一个或更多个存储器设备或芯片。软件可以使核740并且特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文描述的特定处理或特定处理的特定部分，包括限定存储在RAM 746中的数据结构以及根据通过软件限定的处理来修改这样的数据结构。另外地或者作为替选方案，计算机系统可以由于逻辑硬连线或以其他方式实施在电路(例如：加速器744)中而提供功能，该电路可以代替软件或与软件一起操作以执行本文描述的特定处理或特定处理的特定部分。在适当的情况下，对软件的引用可以包含逻辑，反之，对逻辑的引用也可以包含软件。在适当的情况下，对计算机可读介质的引用可以包含存储用于执行的软件的电路(例如，集成电路(IC(Integrated Circuit，IC)))、实施用于执行的逻辑的电路或上述两者。本公开内容包含硬件和软件的任何合适的组合。

图8示出了支持作为客户端端点的各种传统显示器和异构的具有沉浸式媒体能力的显示器的示例性网络媒体分发系统800。内容获取模块801使用图6或图5中的示例实施方式来捕获或创建媒体。摄取格式在内容准备模块802中创建，并且然后使用传输模块803传输至网络媒体分发系统中的一个或更多个客户端端点804。网关可以为用户驻地设备提供服务，以提供对网络的各种客户端端点的网络访问。机顶盒也可以用作用户驻地设备，以由网络服务提供商提供对聚合内容的访问。无线电解调器可以用作移动设备的移动网络接入点(例如，与移动手机和显示器一样)。在一个或更多个实施方式中，传统2D电视可以直接连接至网关、机顶盒或WiFi路由器。具有传统2D显示器的笔记本电脑可以是连接至WiFi路由器的客户端端点。头戴式2D(基于光栅的)显示器也可以连接至路由器。柱状光场显示器可以是网关。显示器可以包括本地计算GPU、存储设备和使用基于射线的柱状光学技术创建多个视图的视觉呈现单元。全息显示器可以连接至机顶盒，并且可以包括本地计算CPU、GPU、存储设备和弗雷斯纳尔(Fresnal)模式、基于波的全息可视化单元。增强现实耳机可以连接至无线电解调器，并且可以包括GPU、存储设备、电池和体积视觉呈现部件。密集光场显示器可以连接至WiFi路由器，并且可以包括多个GPU、CPU和存储设备；眼睛跟踪设备；相机；以及基于密集射线的光场面板。

图9示出了能够为先前在图8中描绘的传统显示器和异构的具有沉浸式媒体能力的显示器提供服务的沉浸式媒体分发模块900的实施方式。在模块901中创建或获取内容，模块901在分别针对自然内容和CGI内容的图5和图6中进一步体现。然后使用创建网络摄取格式模块902将内容901转换成摄取格式。模块902同样在分别针对自然内容和CGI内容的图5和图6中进一步体现。将摄取媒体格式传输至网络并且存储在存储设备903上。可选地，存储设备可以驻留在沉浸式媒体内容制作者的网络中，并且由沉浸式媒体网络分发模块(未编号)远程访问，如平分903的虚线所描绘的。客户端和应用特定信息可选地在远程存储设备904上可用，该远程存储设备904可以可选地远程存在于替代“云”网络中。

如图9所描绘的，客户端接口模块905用作信息的主要来源和转发器(sink)以执行分发网络的主要任务。在该特定实施方式中，模块905可以与网络的其他部件以统一格式实现。然而，图9中的模块905所描绘的任务形成了所公开主题的必要要素。

模块905接收关于客户端908的特征和属性的信息，并且进一步收集关于当前在908上运行的应用的要求。该信息可以从设备904获得，或者在替选实施方式中，该信息可以通过直接查询客户端908获得。在对客户端908的直接查询的情况下，假定存在双向协议(图9中未示出)并且该双向协议是可操作的，使得客户端可以直接与接口模块905通信。

接口模块905还发起图10中描述的媒体适配和分段模块910并且与之通信。当摄取媒体被模块910适配和分段时，媒体可选地被传输至被描绘为媒体准备分发存储设备909的中间媒体存储设备。当分发媒体准备好并且存储在设备909中时，接口模块905确保沉浸式客户端908经由其网络接口908B或通过“推送”请求接收分发媒体和相应的描述信息906，或者客户端908本身可以从存储设备909发起对媒体906的“拉取”请求。沉浸式客户端908可以可选地采用GPU(或未示出的CPU)908C。媒体的分发格式存储在客户端908的存储设备或存储缓存908D中。最后，客户端908经由其可视化部件908A可视化地呈现媒体。

在将沉浸式媒体流式传输至客户端908的整个处理中，接口模块905将经由客户端进度和状态反馈通道907监控客户端的进度状态。

图10描绘了媒体适配处理的特定实施方式，使得摄取的源媒体可以适当地适配成匹配客户端908的要求。媒体适配模块1001包括多个部件，所述部件有助于将摄取媒体适配成针对客户端908的适当分发格式。这些部件应当被视为示例性的。在图10中，适配模块1001接收输入网络状态1005以跟踪网络上的当前流量负载；客户端908信息包括属性和特征描述、应用特征和描述以及应用当前状态、以及客户端神经网络模型(如果可用)以帮助将客户端截锥体的几何形状映射至摄取沉浸式媒体的内插能力。适配模块1001确保适配的输出在其创建时被存储至客户端适配的媒体存储设备1006中。

适配模块1001采用渲染器1001B或处理器1001C将特定摄取源媒体适配成适于客户端的格式。处理器1001C使用1001A中的神经网络模型。这样的处理器1001C的示例包括如在MPI和MSI中描述的Deepview神经网络模型生成器。合适的渲染器1001B的示例可以是OTOY Octane渲染器的修改版本，该渲染器将被修改为直接与适配模块1001交互。适配模块1001可以可选性地采用媒体压缩器1001D和媒体解压器1001E，这取决于这些工具在摄取媒体的格式和客户端908所需的格式方面的需要。

图11描绘了最终转换图10中的来自媒体适配模块1101的、现在驻留在客户端适配的媒体存储设备1102上的适配媒体的适配媒体打包模块1103。打包模块1103将来自模块1101的适配媒体格式化为鲁棒的分发格式，例如图3或图4所示的示例性格式。清单信息1104A向客户端908提供其可以预期接收的场景数据的列表，并且还提供视觉资产和相应元数据以及音频资产和相应元数据的列表。

图12描绘了分组器模块1202，分组器模块1202将适配媒体1201“分段”成适于流式传输至客户端908的单独的分组1203。

图13所示的序列图1300的部件和通信说明如下：客户端端点1301向网络分发接口1302发起媒体请求1308。请求1308包括通过URN(Unique Resource Name，URN)或其他标准命名法来识别客户端请求的媒体的信息。网络分发接口1302以配置文件请求1309来响应请求1308，配置文件请求1309请求客户端1301提供关于其当前可用资源的信息(包括计算、存储、电池充电百分比以及用于表征客户端的当前操作状态的其他信息)。配置文件请求1309还请求客户端提供一个或更多个神经网络模型，网络可以使用所述神经网络模型进行神经网络推理，以提取或内插正确的媒体视图以匹配客户端呈现系统的特征(如果这样的模型在客户端处可用)。从客户端1301到接口1302的响应1311提供客户端令牌、应用令牌以及一个或更多个神经网络模型令牌(如果这样的神经网络模型令牌在客户端处可用)。然后，接口1302向客户端1301提供会话ID令牌1311。然后，接口1302以摄取媒体请求1312来请求摄取媒体服务器1303，摄取媒体请求1312包括在请求1308中识别的媒体的URN或标准命名法名称。服务器1303以包括摄取媒体令牌的响应1313来回复请求1312。然后，接口1302在调用1314中将来自响应1313的媒体令牌提供至客户端1301。然后，接口1302通过向适配接口1304提供摄取媒体令牌、客户端令牌、应用令牌和神经网络模型令牌来发起对在1308中所请求的媒体的适配处理。接口1304通过在调用1316处向服务器1303提供摄取媒体令牌以请求访问摄取媒体资产，从而来请求访问摄取媒体。服务器1303在对接口1304的响应1317中以摄取媒体访问令牌来响应请求1316。然后，接口1304请求媒体适配模块1305将位于摄取媒体访问令牌处的摄取媒体适配用于与在1313处创建的会话ID令牌对应的客户端、应用和神经网络推理模型。从接口1304到模块1305的请求1318包含所需的令牌和会话ID。模块1305在更新1319中向接口1302提供适配的媒体访问令牌和会话ID。接口1302在接口调用1320中向打包模块1306提供适配的媒体访问令牌和会话ID。打包模块1306在响应1321中以打包媒体访问令牌和会话ID向接口1302提供响应1321。模块1306在响应1322中向打包媒体服务器1307提供用于会话ID的打包媒体访问令牌、URN和打包资产。客户端1301执行请求1323以发起与在消息1321中接收的打包媒体访问令牌对应的媒体资产的流式传输。客户端1301执行其他请求并且在消息1324中向接口1302提供状态更新。

一些实施方式可以涉及任何可能的集成技术细节水平的系统、方法和/或计算机可读介质。计算机可读介质可以包括其上具有用于使处理器执行操作的计算机可读程序指令的计算机可读非暂态存储介质(或者多个介质)。

计算机可读存储介质可以是可以保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM或闪速存储器)、静态随机存取存储器(Static Random Access Memory，SRAM)、便携式致密盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、机械编码设备例如穿孔卡或其上记录有指令的凹槽中的凸起结构、以及前述的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为本身是暂态信号，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤线缆的光脉冲)或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载至相应的计算/处理设备，或者经由网络(例如，因特网、局域网、广域网和/或无线网络)下载至外部计算机或外部存储设备。该网络可以包括铜传输线缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并且转发计算机可读程序指令以存储在相应的计算/处理设备内的计算机可读存储介质中。

用于执行操作的计算机可读程序代码/指令可以是汇编指令、指令集架构(Instruction-Set-Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、用于集成电路系统的配置数据，或者以一种或更多种编程语言的任意组合编写的源代码或目标代码，所述一种或更多种编程语言包括面向对象的编程语言例如Smalltalk、C++等和过程编程语言例如“C”编程语言或类似编程语言。计算机可读程序指令可以全部在用户的计算机上执行、部分在用户的计算机上执行、作为独立的软件包执行、部分在用户的计算机上且部分在远程计算机上执行或者全部在远程计算机或服务器上执行。在全部在远程计算机或服务器上执行的情况下，远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接至用户的计算机，或者可以连接至外部计算机(例如，通过使用因特网服务提供商的因特网)。在一些实施方式中，包括例如可编程逻辑电路系统、现场可编程门阵列(FPGA)或可编程逻辑阵列(Programmable Logic Array，PLA)的电子电路系统可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路系统个性化，从而执行各个方面或操作。

可以将这些计算机可读程序指令提供至通用计算机、专用计算机的处理器或其他可编程数据处理装置以产生机器，使得经由计算机的处理器或其他可编程数据处理装置执行的指令创建用于实现流程图和/或框图的一个或多个块中所指定的功能/动作的装置。这些计算机可读程序指令还可以被存储在计算机可读存储介质中，该计算机可读存储介质可以以特定的方式引导计算机、可编程数据处理装置和/或其他设备起作用，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个块中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载至计算机、其他可编程数据处理装置或其他设备上，以使要在计算机、其他可编程装置或其他设备上执行的一系列操作步骤产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个块中指定的功能/动作。

附图中的流程图和框图示出了根据各种实施方式的系统、方法和计算机可读介质的可能实现方式的架构、功能和操作。在这方面，流程图或框图中的每个块可以表示模块、段或部分指令，所述模块、段或部分指令包括用于实现特定逻辑功能的一个或更多个可执行指令。方法、计算机系统和计算机可读介质可以包括与附图中所描绘的这些块相比附加的块、更少的块、不同的块或不同布置的块。在一些替选实现方式中，块中注明的功能可以不按附图中注明的顺序发生。例如，连续示出的两个块实际上可以同时或基本上同时执行，或者块有时可以根据所涉及的功能而按照相反的顺序执行。还应当注意，可以通过执行特定功能或动作或者实现专用硬件和计算机指令的组合的基于硬件的专用系统来实现框图和/或流程图图示中的每个块以及框图和/或流程图图示中的块的组合。

将明显的是，本文描述的系统和/或方法可以以不同形式的硬件、固件、或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际的专用控制硬件或软件代码并不限制这些实现方式。因此，在本文在不参考特定软件代码的情况下描述了系统和/或方法的操作和行为，应当理解，可以基于本文的描述将软件和硬件设计成实现系统和/或方法。

除非对此明确地描述，否则本文使用的元素、动作或者指令均不应当被解释为关键的或必要的。此外，如本文所使用的，冠词“一种”和“一个”旨在包括一个或更多个项，并且可以与“一个或更多个”互换使用。此外，如本文所使用的，术语“组”旨在包括一个或更多个项(例如，相关项、不相关项、相关项和不相关项的组合等)，并且可以与“一个或更多个”互换使用。在意指仅一个项的情况下，使用术语“一个”或类似语言。此外，如本文所使用的，术语“具有”、“有”、“带有”等旨在为开放式术语。此外，除非另有明确说明，否则短语“基于”旨在意指“至少部分地基于”。

已经出于说明的目的呈现了对各个方面和实施方式的描述，但是这些描述不旨在是穷举的或限于所公开的实施方式。即使在权利要求书中记载和/或在说明书中公开了特征的组合，但是这些组合并不旨在限制可能的实现方式的公开内容。事实上，这些特征中的许多特征可以以权利要求书中未具体记载和/或说明书中未公开的方式组合。虽然下面列出的每个从属权利要求可能直接引用仅一个权利要求，但是可能的实现方式的公开内容包括与权利要求组中的每个其他权利要求组合的每个从属权利要求。在不脱离所描述的实施方式的范围的情况下，许多修改和变化对于本领域普通技术人员将是明显的。选择本文所使用的术语以最好地解释实施方式的原理、实际应用或相对于市场上现有技术的技术改进，或使得本领域的其他普通技术人员能够理解本文所公开的实施方式。

Claims

1.一种发起沉浸式媒体的流式传输的方法，所述方法能够由处理器执行，所述方法包括：

基于一个或更多个令牌的传输来接收对应于与媒体内容相关联的客户端的特性的信息；

使用所述一个或更多个令牌来将打包处理与所述媒体内容相关联，其中，所述一个或更多个令牌与所述客户端、应用或神经网络模型相关联；以及

基于相关联的打包处理，根据所述一个或更多个令牌中的令牌对所述媒体内容进行适配。

2.根据权利要求1所述的方法，其中，所述一个或更多个令牌包括客户端令牌、应用令牌和神经网络令牌中的至少一个，其中，所述客户端令牌包括关于所述客户端的特性的信息，其中，所述神经网络令牌包括关于促进适配处理的所述神经网络模型的信息，并且其中，所述应用令牌包括关于在所述客户端上运行的所述应用的特性的信息。

3.根据权利要求1所述的方法，其中，基于所述客户端和与所述处理器相关联的媒体适配处理直接或间接协商来接收对应于所述客户端的特性的信息。

4.根据权利要求3所述的方法，还包括创建和训练与所述媒体适配处理相关联的神经网络模型。

5.根据权利要求1所述的方法，其中，基于所述客户端通过所述打包处理发起从打包媒体服务器的媒体流式传输来对所述媒体内容进行适配。

6.根据权利要求1所述的方法，还包括将所述媒体内容流式传输至所述客户端。

7.根据权利要求1所述的方法，其中，所述媒体内容包括沉浸式媒体。

8.一种用于流式传输沉浸式媒体的计算机系统，所述计算机系统包括：

一个或更多个计算机可读非暂态存储介质，其被配置成存储计算机程序代码；以及

一个或更多个计算机处理器，其被配置成访问所述计算机程序代码并且如由所述计算机程序代码所指示的进行操作，所述计算机程序代码包括：

接收代码，其被配置成使所述一个或更多个计算机处理器基于一个或更多个令牌的传输来接收对应于与媒体内容相关联的客户端的特性的信息；

相关联代码，其被配置成使所述一个或更多个计算机处理器使用所述一个或更多个令牌来将打包处理与所述媒体内容相关联，其中，所述一个或更多个令牌与所述客户端、应用或神经网络模型相关联；以及

适配代码，其被配置成使所述一个或更多个计算机处理器基于相关联的打包处理，根据所述一个或更多个令牌中的令牌对所述媒体内容进行适配。

9.根据权利要求8所述的计算机系统，其中，所述一个或更多个令牌包括客户端令牌、应用令牌和神经网络令牌中的至少一个，其中，所述客户端令牌包括关于所述客户端的特性的信息，其中，所述神经网络令牌包括关于促进适配处理的所述神经网络模型的信息，并且其中，所述应用令牌包括关于在所述客户端上运行的所述应用的特性的信息。

10.根据权利要求8所述的计算机系统，其中，基于所述客户端和与所述处理器相关联的媒体适配处理直接或间接协商来接收对应于所述客户端的特性的信息。

11.根据权利要求10所述的计算机系统，还包括相应的创建和训练代码，所述相应的创建和训练代码被配置成使所述一个或更多个计算机处理器创建和训练与所述媒体适配处理相关联的神经网络模型。

12.根据权利要求8所述的计算机系统，其中，基于所述客户端通过所述打包处理发起从打包媒体服务器的媒体流式传输来对所述媒体内容进行适配。

13.根据权利要求8所述的计算机系统，还包括流式传输代码，所述流式传输代码被配置成使所述一个或更多个计算机处理器将所述媒体内容流式传输至所述客户端。

14.根据权利要求8所述的计算机系统，其中，所述媒体内容包括沉浸式媒体。

15.一种非暂态计算机可读介质，所述非暂态计算机可读介质上存储有用于流式传输沉浸式媒体的计算机程序，所述计算机程序被配置成使一个或更多个计算机处理器进行如下操作：

16.根据权利要求15所述的计算机可读介质，其中，所述一个或更多个令牌包括客户端令牌、应用令牌和神经网络令牌中的至少一个，其中，所述客户端令牌包括关于所述客户端的特性的信息，其中，所述神经网络令牌包括关于促进适配处理的所述神经网络模型的信息，并且其中，所述应用令牌包括关于在所述客户端上运行的所述应用的特性的信息。

17.根据权利要求15所述的计算机可读介质，其中，基于所述客户端和与所述处理器相关联的媒体适配处理直接或间接协商来接收对应于所述客户端的特性的信息。

18.根据权利要求17所述的计算机可读介质，其中，所述计算机程序还被配置成使一个或更多个计算机处理器创建和训练与所述媒体适配处理相关联的神经网络模型。

19.根据权利要求15所述的计算机可读介质，其中，基于所述客户端通过所述打包处理发起从打包媒体服务器的媒体流式传输来对所述媒体内容进行适配。

20.根据权利要求15所述的计算机可读介质，其中，所述计算机程序还被配置成使一个或更多个计算机处理器将所述媒体内容流式传输至所述客户端。