CN116710852A

CN116710852A - 用于光场或全息媒体的自适应流

Info

Publication number: CN116710852A
Application number: CN202280007935.5A
Authority: CN
Inventors: 阿比什克·罗伊特; 汉斯·阿芮亚娜
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-10-22
Filing date: 2022-10-22
Publication date: 2023-09-05
Also published as: WO2023069759A1; EP4200673A1; EP4200673A4; US20230130996A1

Abstract

提供了用于沉浸式媒体的自适应流的方法、设备和非暂时性存储介质。该方法可以包括：确定与要传输到终端客户端的场景相关联的特征；基于确定的特征，调整要传输到终端客户端的场景的至少一部分；以及基于确定的特征，传输包括调整后的场景的光场或全息沉浸式媒体的自适应流。

Description

用于光场或全息媒体的自适应流

相关申请

本申请要求美国专利商标局的美国临时专利申请No.63/270,978(2021年10月22日提交)和美国专利申请No.17/971,048(2022年10月21日提交)的优先权，其公开内容通过引用整体并入本文。

技术领域

本公开的实施例涉及图像和视频编码技术。更具体地，本公开的实施例涉及用于全息显示或光场显示的沉浸式媒体内容的自适应流的改进。

背景技术

沉浸式媒体涉及试图通过数字模拟创建或模仿物理世界的沉浸式技术，通常模拟任何或所有人类感官系统，以创建用户实际存在于场景中的感知。

沉浸式媒体技术可以包括虚拟现实(Virtual Reality，VR)、增强现实(AugmentedReality，AR)、混合现实(Mixed Reality，MR)、光场/全息等。VR是指通过使用耳机将用户置于计算机生成的世界中来取代用户物理环境的数字环境。AR通过使用清晰的视觉或智能手机，将数字媒体叠加在你周围的现实世界中。MR指的是将现实世界与数字世界融合在一起，创造一个技术和物理世界可以共存的环境。

光场显示或全息显示技术由三维(Three Dimensions，3D)空间中的光线组成，光线来自每个点和方向。光线可以是五维全光函数，其中每个光束可以由3D空间中的三个坐标(3维)和两个角度来定义，以指定3D空间中的方向。光场显示器的概念是基于这样一种理解，即周围看到的一切都被来自任何光源的光照亮，通过空间传播并击中对象的表面，在到达我们的眼睛之前，光部分被吸收，部分被反射到另一个表面。什么样的光线到达我们的眼睛取决于用户在光场中的精确位置，当用户四处移动时，用户感知光场的一部分，并使用它来了解对象的位置。

为了捕获360度视频的内容，需要360度相机；然而，当涉及到为光场/全息显示器捕获内容时，取决于要渲染的场景的视场(Field of View，FoV)，需要由多个深度相机或相机阵列组成的昂贵设置。传统的相机只能捕获到达给定位置的相机镜头的光线的二维(TwoDimensions，2D)表示。图像传感器记录到达每个像素的所有光线的亮度和颜色的总和，但不记录到达相机传感器的所有光线的方向。因此，专门设计用于捕获光场/全息显示器的内容的设备成本过高。

此外，用于这种全息显示器或光场显示器的多媒体内容、真实世界内容或合成内容具有巨大的尺寸，并且被捕获并存储在服务器中。要将这些媒体内容传输到终端客户端，即使在数据被压缩之后，也需要大量的带宽。因此，在带宽有限的情况下，客户端可能会经历缓冲或中断。

发明内容

根据实施例，可以提供一种用于光场或全息沉浸式媒体的自适应流的方法。该方法可以由至少一个处理器执行，并且可以包括：确定与要传输到终端客户端的场景相关联的特征；基于确定的特征，调整要传输到终端客户端的场景的至少一部分；以及基于确定的特征，传输包括调整后的场景的光场或全息沉浸式媒体的自适应流。

根据实施例，可以提供一种用于光场或全息沉浸式媒体的自适应流的装置。该装置可以包括至少一个存储器，该至少一个存储器被配置为存储程序代码；以及至少一个处理器，该处理器被配置为读取程序代码并按照程序代码的指示进行操作。程序代码可以第一确定代码，第一确定代码被配置为使至少一个处理器确定与要传输到终端客户端的场景相关联的特征；第二确定代码，第二确定代码被配置为使至少一个处理器基于确定的特征，调整要传输到终端客户端的场景的至少一部分；以及传输代码，传输代码被配置为使至少一个处理器基于确定的特征，传输包括调整后的场景的光场或全息沉浸式媒体的自适应流。

根据实施例，可以提供一种存储指令的非暂时性计算机可读介质。当由用于光场或全息沉浸式媒体的自适应流的设备的至少一个处理器执行时，指令可以使至少一个处理器确定与要传输到终端客户端的场景相关联的特征；基于确定的与终端客户端相关联的特征，调整要传输到终端客户端的场景的至少一部分；以及基于确定的特征，传输包括调整后的场景的光场或全息沉浸式媒体的自适应流。

附图说明

图1示出了根据本公开的实施例的基于深度的沉浸式媒体的自适应流；

图2示出了根据本公开的实施例的基于优先级的沉浸式媒体的自适应流；

图3A示出了根据本公开的实施例的用于沉浸式媒体的自适应流的流程图；

图3B示出了根据本公开的实施例的用于沉浸式媒体的自适应流的流程图；

图4是根据本公开的实施例的通信系统的简化框图；

图5是视频编码器和解码器在流环境中的放置的示意图；

图6是根据本公开的实施例的视频解码器的功能框图；

图7是根据本公开的实施例的视频编码器的功能框图；

图8是根据本公开的实施例的计算机系统的示意图。

具体实施方式

所公开的实施例的各方面可以单独使用或组合使用。本公开的实施例涉及用于沉浸式光场或全息媒体流的自适应流技术的改进，其考虑到网络和/或设备能力。

全息/光场技术创建了一个具有精确深度感和三维感的虚拟环境，而无需使用任何耳机，因此避免了晕动等副作用。如上所述，为了捕获360度视频的内容，需要360度相机；然而，当涉及到为光场/全息显示器捕获内容时，取决于要被捕获的场景的视场(FoV)，需要由多个深度相机或相机阵列组成的昂贵设置。

根据本公开的一个方面，服务器或媒体分发处理器可以对全息或光场显示媒体使用基于深度的自适应流。在低网络带宽或低处理能力而不是一次渲染整个场景的情况下，公开了一种基于带宽的深度方法。当网络的能力理想时，终端客户端可以一次接收并渲染整个场景。然而，当网络带宽或处理能力有限时，终端客户端不是渲染整个场景，而是将场景渲染到某个深度。因此，根据实施例，深度是客户端带宽的函数。在实施例中，在获得关于终端客户端的带宽的信息之后，服务器调整在具有不同深度的场景之间流式传输的媒体。

参考图1，图1示出了用于与全息或光场显示相关联的自适应流媒体的基于深度的方法100。如图1所示，对象101-103是场景中处于不同深度的一个或多个对象，其中对象101位于第一深度105，对象102位于第二深度106，对象103位于距成像设备(也称为相机或捕获设备)的第三深度。根据本公开的实施例，基于网络带宽或终端客户端的处理能力，可以仅包括高达第一、第二或第三深度的对象。在一些实施例中，如果仅包括高达第二深度的对象，可以将第三深度的对象从正在传输或流式传输的场景中排除。

根据实施例，基于深度的流式传输优于一次传送整个场景，因为场景深度可以基于可用的网络带宽来调整，这与当客户端的带宽有限并且不能支持渲染整个场景时可能发生的回放中的缓冲或中断相反。

根据本公开的一个方面，服务器可以向每个资产(asset，也称为对象)分配优先级值，并使用该优先级值用于全息或光场显示的自适应流。因此，考虑基于带宽的优先级方法，使得不是一次渲染整个场景，而是仅传输和渲染场景的优先级版本。当网络能力不受限制时，终端客户端可以一次接收并渲染整个场景资产。然而，当网络带宽或处理能力有限时，终端客户端可以渲染具有更高优先级的资产，而不是渲染场景中的所有资产。因此，呈现的总资产和/或对象是客户端带宽的函数。根据一个实施例，在获得关于终端客户端的带宽的信息之后，服务器调整在具有不同资产的场景之间流式传输的媒体。

参考图2，图2示出了用于与全息或光场显示相关联的自适应流媒体的基于优先级的方法200。如图2所示，对象201-203是场景中处于不同深度和优先级的一个或多个对象，其中对象101位于第一优先级，对象203位于第二优先级，并且对象202位于第三优先级。在一些实施例中，对象的优先级可以基于所识别的对象。在一些实施例中，对象的优先级可以基于对象与成像设备(也称为相机或捕获设备)的距离。根据本公开的实施例，基于网络带宽或终端客户端的处理能力，可以仅包括具有第一、第二或第三优先级的对象。在一些实施例中，如果仅包括具有第二优先级的对象，则可以包括具有第一优先级的对象，但是可以将具有第三优先级的对象从正在传输或流式传输的场景中排除。

根据本公开的一个方面，服务器可以具有两个部分的内容描述：媒体呈现描述(Media Presentation Description，MPD)，描述可用场景的清单、各种替代方案和其他特征；以及基于场景深度或资产优先级具有不同资产的多个场景。在一个实施例中，当终端客户端第一次获得MPD以播放任何媒体内容时，它可以解析MPD并了解具有不同资产、场景定时、媒体内容可用性、媒体类型、媒体内容的各种编码替代、支持的最小和最大带宽以及其他内容特征的各种场景。使用该信息，终端客户端可以适当地选择在什么时候以及在什么带宽可用性下渲染哪个场景。终端客户端可以连续测量带宽波动和/或处理能力波动，并且取决于其分析，终端客户端可以通过获取具有更少或更多资产的替代场景来决定如何适应可用带宽。

根据本公开的一个方面，当网络带宽和/或处理能力有限时，服务器可以首先流式传输优先级较高的资产，而不是优先级较低的资产。在一些实施例中，可以包括等于或大于阈值优先级的资产，并且可以排除低于阈值优先级的资产。在一些实施例中，可以分层压缩资产，包括基本流层以及具有诸如材料等附加细节的层。因此，在网络带宽和/或处理能力有限的时候，可以仅渲染基本流，并且随着带宽的增加，可以添加具有更多细节的层。在一些实施例中，资产的优先级值和/或优先级阈值可以由服务器/发送者定义，并且可以在会话期间由终端客户端改变，反之亦然。

根据本公开的一个方面，服务器可以具有预定义的平坦背景图像。当客户端的带宽有限并且终端客户端不能流式传输和/或渲染场景中的所有资产时，该预定义的背景可以给客户端愉快的观看体验。可以基于正在渲染的场景周期性地更新背景图像。作为示例，当带宽非常有限时，可以使用预定义的2D背景视频。因此，当可以使用基于深度的自适应流时，场景不完全被渲染为3D场景，而是可以被渲染为2D流。因此，部分场景可以是3D场景和部分2D场景。

图3A示出了根据本公开的实施例的用于沉浸式媒体的自适应流的过程300的流程图。

如图3A中所示，在操作305，可以确定与终端客户端相关联网络能力。作为示例，与客户端设备相关联的网络能力可以由服务器(其可以是网络855的一部分)或媒体分发处理器来确定。在一些实施例中，还可以确定与终端客户端相关联的处理能力。基于所确定的与终端客户端相关联的能力，可以确定要传输的场景的一部分。

在操作310，可以基于所确定的与终端客户端相关联的能力来确定要传输到终端客户端的场景的一部分。作为示例，服务器或媒体分发处理器可以基于所确定的与终端客户端相关联的能力来确定要传输到终端客户端的场景的一部分。

根据一个方面，确定要传输的场景的部分可以包括基于网络能力确定与要传输的场景相关联的深度；以及基于深度调整要传输的场景以包括场景中的一个或多个第一对象，其中，一个或多个第一对象位于深度内的第一距离处。在一些实施例中，其还可以包括基于深度调整要传输的场景以排除场景中的一个或多个第二对象，其中，一个或多个第二对象位于超出深度的距离处。

根据一个方面，确定要传输的场景的部分可以包括基于网络能力确定与要传输的场景中的一个或多个对象相关联的阈值优先级；以及基于阈值优先级调整要传输的场景以包括场景中的一个或多个对象中的一个或多个第一对象，其中，一个或多个第一对象具有比阈值优先级更高的优先级。其还可以包括基于阈值优先级调整要传输的场景以排除场景中的一个或多个对象中的一个或多个第二对象，其中，一个或多个第二对象具有比阈值优先级更低的优先级。在一些实施例中，与场景中的一个或多个对象相关联的相应对象优先级可以是基于相应对象与捕获场景的成像设备之间的距离确定的。

根据一个方面，确定要传输的场景的部分可以包括基于与终端客户端相关联的网络能力，从终端客户端接收对替代场景的请求，其中，替代场景具有比场景中的一个或多个对象更少的对象；以及调整要传输的替代场景以包括一个或多个对象中的一个或多个第一对象，其中，一个或多个第一对象具有比阈值优先级更高的优先级。其还可以包括调整要传输的替代场景以排除一个或多个对象中的一个或多个第二对象，其中，一个或多个第二对象具有比阈值优先级更低的优先级。在一些实施例中，与场景中的一个或多个对象相关联的相应优先级可以由终端客户端或服务器定义。

在操作315，可以基于所确定的部分，传输与场景相关联的沉浸式媒体流。在一些实施例中，沉浸式媒体流可以从服务器或媒体分发处理器传输到终端客户端。

图3B示出了根据本公开的实施例的用于沉浸式媒体的自适应流的过程350的流程图。

如图3B中所示，在操作355，可以确定与要传输到终端客户端的场景相关联的特征。作为示例，与要传输到终端客户端的场景相关联的特征可以由服务器(其可以是网络855的一部分)或媒体分发处理器来确定。在一些实施例中，所确定的特征可以包括图像和视频特征和与沉浸式媒体流相关联的编码数据。在一些实施例中，所确定的特征可以包括与图像、视频或与沉浸式媒体流相关联的场景相关联的深度或优先级信息。在一些实施例中，还可以确定与终端客户端相关联的网络能力/带宽和处理能力。可以确定基于所确定的能力和/或所确定的要传输到终端客户端的场景的特征。

在操作360，可以基于所确定的与要传输到终端客户端的场景相关联的特征来确定或调整要传输到终端客户端的场景的一部分。作为示例，服务器或媒体分发处理器可以基于所确定的与要传输到终端客户端的场景相关联的特征来确定要传输到终端客户端的场景的至少一部分。

根据一个方面，调整要传输的场景的部分可以包括：基于所确定的与要传输到终端客户端的场景相关联的特征，确定与要传输的场景相关联的深度；以及基于深度调整要传输的场景以包括场景中的一个或多个第一对象，其中，一个或多个第一对象位于深度内的第一距离处。在一些实施例中，其还可以包括基于深度调整要传输的场景以排除场景中的一个或多个第二对象，其中，一个或多个第二对象位于超出深度的距离处。

根据一个方面，调整要传输的场景的部分可以包括：基于所确定的与要传输到终端客户端的场景相关联的特征，确定与要传输的场景中的一个或多个对象相关联的阈值优先级；以及基于阈值优先级调整要传输的场景以包括场景中的一个或多个对象中的一个或多个第一对象，其中，一个或多个第一对象具有比阈值优先级更高的优先级。其还可以包括基于阈值优先级调整要传输的场景以排除场景中的一个或多个对象中的一个或多个第二对象，其中，一个或多个第二对象具有比阈值优先级更低的优先级。在一些实施例中，与场景中的一个或多个对象相关联的相应对象优先级可以是基于相应对象与捕获场景的成像设备之间的距离确定的。

根据一个方面，调整要传输的场景的部分可以包括：基于所确定的与要传输到终端客户端的场景相关联的特征，从终端客户端接收对替代场景的请求，其中，替代场景具有比场景中的一个或多个对象更少的对象；以及调整要传输的替代场景以包括一个或多个对象中的一个或多个第一对象，其中，一个或多个第一对象具有比阈值优先级更高的优先级。其还可以包括调整要传输的替代场景以排除一个或多个对象中的一个或多个第二对象，其中，一个或多个第二对象具有比阈值优先级更低的优先级。在一些实施例中，与场景中的一个或多个对象相关联的相应优先级可以由终端客户端或服务器定义。

在操作365，可以基于所确定的部分，传输与场景相关联的沉浸式媒体的自适应流。在一些实施例中，沉浸式媒体流可以从服务器或媒体分发处理器传输到终端客户端。

尽管图3A-B示出了示例的过程300和过程350的块，但在一些实施方式中，过程300和过程350可以包括与图3A-B中所描绘的框相比的附加框、较少框、不同框或不同排列的框。附加地或可替代地，可以并行地执行过程300和过程350的两个或更多个框。

此外，可以通过处理电路(例如，一个或多个处理器或一个或多个集成电路)来实施所提出的方法。在一个示例中，一个或多个处理器执行在非暂时性计算机可读介质中存储的程序，以执行所提出的方法中的一个或多个。

上述技术可以被实现为使用计算机可读指令的计算机软件，并且物理地存储在一个或多个计算机可读介质中。例如，图8示出了适于实现所公开主题的某些实施例的计算机系统800。

计算机软件可以使用任何合适的机器代码或计算机语言来编码，其可以经受汇编、编译、链接或类似机制来创建包括指令的代码，这些指令可以由计算机中央处理单元(Central Processing Units，CPU)、图形处理单元(Graphics Processing Units，GPU)等直接执行，或者通过解释、微代码执行等来执行。

指令可以在各种类型的计算机或其组件上执行，包括例如个人计算机、平板计算机、服务器、智能手机、游戏设备、物联网设备等。

图4示出了根据本公开的实施例的通信系统400的简化框图。通信系统400可以包括经由网络450互连的至少两个终端410-420。对于数据的单向传输，第一终端410可以对本地位置的视频数据进行编码，以便经由网络450传输到另一终端420。第二终端420可以从网络450接收另一终端的编码视频数据，解码编码数据并显示恢复的视频数据。单向数据传输在媒体服务应用等中可能是常见的。

图4示出了第二对终端430、440，第二对终端被提供以支持例如在视频会议期间可能发生的编码视频的双向传输。对于数据的双向传输，每个终端430、440可以对在本地位置捕获的视频数据进行编码，以便经由网络450传输到另一终端。每个终端430、440还可以接收由另一终端传输的编码视频数据，可以对编码数据进行解码，并且可以在本地显示设备上显示恢复的视频数据。

在图4中，终端410-440可以被示出为服务器、个人计算机和智能电话，但是本公开的原理不限于此。本公开的实施例适用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备。网络450表示在终端410-440之间传送编码视频数据的任意数目的网络，包括例如有线和/或无线通信网络。通信网络450可以在电路交换和/或分组交换信道中交换数据。代表性的网络包括电信网络、局域网、广域网和/或因特网。出于本讨论的目的，网络450的架构和拓扑对于本公开的操作可能是不重要的，除非下面在此解释。

作为所公开的主题的应用的示例，图5示出了视频编码器和解码器在流环境中的放置，例如流系统500。所公开的主题可以同样适用于其他支持视频的应用，包括例如视频会议、数字电视、在包括激光唱片(Compact Disc，CD)、数字视频光盘或数字影盘(DigitalVideo Disk，DVD)、记忆棒等的数字媒体上存储压缩视频等。

流传输系统可以包括捕获子系统513，其可以包括视频源501，例如，创建例如未压缩的视频样本流502的数码相机。当与编码视频比特流相比时，被描绘为粗线以强调高数据量的采样流502可以由耦合到视频源501的编码器503来处理，例如相机。编码器503可以包括硬件、软件或其组合，以实现或实施以下更详细描述的所公开主题的方面。当与样本流相比时，被描绘为细线以强调较低数据量的编码视频比特流504可以被存储在流服务器505上以供将来使用。一个或多个流客户端506、508可以访问流服务器505以检索编码视频比特流504的副本，例如视频比特流507和视频比特流509。客户端506可以包括视频解码器510，该视频解码器对编码视频比特流507的输入副本进行解码，并创建可以在显示器512或其他呈现设备(未示出)上呈现的输出视频样本流511。在一些流传输系统中，视频比特流504、507、509可以根据某些视频编码/压缩标准进行编码。这些标准的示例包括国际电信联盟电信标准化部(International Telecommunication Union TelecommunicationStandardization Sector，ITU-T)推荐H.265(高效率视频编码，High Efficiency VideoCoding，HEVC)。正在开发的是视频编码标准，非正式地称为通用视频编码(VersatileVideo Coding，VVC)。所公开的主题可以在VVC的上下文中使用。

图6可以是根据实施例的视频解码器510的功能框图。

接收机610可以接收将由解码器510解码的一个或多个编解码器视频序列；在同一个或另一个实施例中，一次一个编码视频序列，其中，每个编码视频序列的解码独立于其他编码视频序列。可以从信道612接收编码视频序列，该信道可以是到存储编码视频数据的存储设备的硬件/软件链接。接收机610可以接收编码视频数据和其他数据，例如，编码的音频数据和/或辅助数据流，其可以被转发到其相应的使用实体(未示出)。接收机610可以从其他数据中分离出编码的视频序列。为了对抗网络抖动，缓冲存储器615(例如，其可以是缓冲存储器)可以耦合在接收机610和熵解码器/解析器620(下文称为“解析器”)之间。当接收机610从具有足够带宽和可控性的存储/转发设备或者从同步网络接收数据时，缓冲器615可以是不需要的，或者可以是小的。为了尽力在分组网络(例如，因特网)上使用，可能需要缓冲器615，该缓冲器可能相对较大，并且可能有利地具有自适应大小。

视频解码器510可以包括解析器620，以从熵编码的视频序列中重构符号621。这些符号的类别包括用于管理解码器510的操作的信息以及潜在地控制呈现设备(例如，显示器521)的信息，该呈现设备不是解码器的组成部分，但是可以耦合到解码器，如图6所示。用于呈现设备的控制信息可以是补充增强信息(Supplementary Enhancement Information，SEI)消息或视频可用性信息(Video Usability Information，VUI)参数集片段(未示出)的形式。解析器620可以对接收到的编码视频序列进行解析/熵解码。编码视频序列的编码可以根据视频编码技术或标准，并且可以遵循本领域技术人员已知的原理，包括可变长度编码、Huffman编码、具有或不具有上下文敏感性的算术编码等。解析器620可以基于对应于该组的至少一个参数，从编码视频序列中提取视频解码器中的至少一个像素子组的一组子组参数。子组可以包括图片组(Groups of Pictures，GOP)、图片、图块、切片、宏块、编码单元(Coding Units，CU)、块、变换单元(Transform Units，TU)、预测单元(Prediction Units，PU)等。熵解码器/解析器还可以从编码的视频序列中提取信息，例如，变换系数、量化器参数(Quantizer Parameter，QP)值、运动矢量等。

解析器620可以对从缓冲器615接收的视频序列执行熵解码/解析操作，从而创建符号621。解析器620可以接收编码数据，并选择性地解码特定符号621。此外，解析器620可以确定特定符号621是否将被提供给运动补偿预测单元653、定标器/逆变换单元651、帧内预测单元652或环路滤波器656。

根据编码视频图片或其部分的类型(例如：帧间和帧内图片、帧间和帧内块)以及其他因素，符号621的重构可以涉及多个不同的单元。可以通过由解析器620从编码视频序列中解析的子组控制信息来控制涉及哪些单元以及如何涉及。为了清楚起见，没有描述解析器620和下面的多个单元之间的这种子组控制信息流。

除了已经提到的功能块之外，解码器510可以在概念上细分成如下所述的多个功能单元。在商业限制下操作的实际实现中，许多这些单元彼此紧密交互，并且可以至少部分地彼此集成。然而，为了描述所公开的主题，在概念上细分成以下功能单元是合适的。

第一单元是定标器/逆变换单元651。定标器/逆变换单元651接收量化的变换系数以及控制信息，包括使用哪个变换、块大小、量化因子、量化缩放矩阵等，作为来自解析器620的符号621。定标器/逆变换单元可以输出包括样本值的块，这些块可以被输入到聚集器655中。

在一些情况下，定标器/逆变换单元651的输出样本可以属于帧内编码块；即，没有使用来自先前重构图像的预测信息但是可以使用来自当前图片的先前重构部分的预测信息的块。帧内图像预测单元652可以提供这样的预测信息。在一些情况下，帧内图片预测单元652使用从当前的(部分重构的)图片658获取的周围已经重构的信息，生成与重构中的块具有相同大小和形状的块。在一些情况下，聚集器655基于每个样本将帧内预测单元652已经生成的预测信息添加到由定标器/逆变换单元651提供的输出样本信息。

在其他情况下，定标器/逆变换单元651的输出样本可以属于帧间编码的并且可能是运动补偿的块。在这种情况下，运动补偿预测单元653可以访问参考图片存储器657，以获取用于预测的样本。在根据符号对所获取的样本进行运动补偿之后，定标器/逆变器的输出的聚集器655可以将属于块的621相加，这些样本变换单元在这种情况下称为残差样本或残差信号，以便生成输出样本信息。运动补偿单元从中获取预测样本的参考图片存储器内的地址可以由运动矢量来控制，运动补偿单元可以符号621的形式获得这些地址，这些符号可以具有例如X、Y和参考图片组件。当使用子采样精确运动矢量时，运动补偿还可以包括从参考图片存储器获取的采样值的插值、运动矢量预测机制等。

聚集器655的输出样本可以在环路滤波器单元656中经受各种环路滤波技术。视频压缩技术可以包括环路滤波技术，这些技术由编码视频比特流中包含的参数控制，并且作为来自解析器620的符号621可用于环路滤波单元656，但是也可以响应于在编码图片或编码视频序列的先前(按照解码顺序)部分的解码期间获得的元信息以及响应于先前重构的和环路滤波的样本值。

环路滤波器单元656的输出可以是样本流，该样本流可以输出到呈现设备521以及存储在参考图片存储器657中，以用于将来的帧间图片预测。

一旦完全重构，某些编码图片可以用作未来预测的参考图片。一旦编码图片被完全重构，并且编码图片已经被识别为参考图片(例如，通过解析器620)，当前参考图片658可以成为参考图片缓冲器657的一部分，并且在开始下一个编码图片的重构之前，可以重新分配新的当前图片存储器。

视频解码器510可以根据预定的视频压缩技术执行解码操作，该预定的视频压缩技术可以在诸如ITU-T Rec.H.265等标准中记载。编码的视频序列可以符合由所使用的视频压缩技术或标准指定的语法，在某种意义上，符合视频压缩技术或标准的语法，如在视频压缩技术文档或标准中，特别是在其中的简档文档中所指定的。符合标准还需要编码视频序列的复杂度在视频压缩技术或标准的水平所定义的范围内。在某些情况下，级别限制了最大图片大小、最大帧速率、最大重构采样率(例如，以每秒兆样本为单位测量)、最大参考图片大小等。在某些情况下，由级别设置的限制可以通过假设参考解码器(HypotheticalReference Decoder，HRD)规范和编码视频序列中信令的HRD缓冲管理的元数据来进一步限制。

在一个实施例中，接收机610可以接收具有编码视频的额外(冗余)数据。可以包括额外数据，作为编码视频序列的一部分。视频解码器510可以使用额外数据来正确解码数据和/或更准确地重构原始视频数据。额外数据可以是例如时间、空间或信噪比(Signal-to-Noise Ratio，SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

图7可以是根据本公开实施例的视频编码器503的功能框图。

编码器503可以从视频源501(不是编码器的一部分)接收视频样本，该视频源可以捕捉要由编码器503编码的视频图像。

视频源501可以以数字视频样本流的形式提供要由编码器503编码的源视频序列，该数字视频样本流可以具有任何合适的比特深度(例如：8比特、10比特、12比特、…)、任何颜色空间(例如，BT.601Y CrCB、RGB、…)和任何合适的采样结构(例如，Y CrCb 4:2:0、YCrCb 4:4:4)。在媒体服务系统中，视频源501可以是存储先前准备的视频的存储设备。在视频会议系统中，视频源501可以是捕捉本地图像信息作为视频序列的相机。可以提供视频数据，作为多个单独的图片，当按顺序观看时，这些图片赋予运动。图片本身可以被组织为像素的空间阵列，其中，每个像素可以包括一个或多个样本，这取决于使用中的采样结构、颜色空间等。本领域技术人员可以容易地理解像素和样本之间的关系。下面的描述集中在样本上。

根据一个实施例，视频编码器503可以实时地或者在应用所需的任何其他时间约束下，将源视频序列的图片编码和压缩成编码的视频序列743。实施适当的编码速度是控制器750的一个功能。控制器控制如下所述的其他功能单元，并且在功能上耦合到这些单元。为了清楚起见，没有描述耦合。控制器设置的参数可以包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值、…等)、图片大小、图片组(GOP)布局、最大运动矢量搜索范围等。本领域技术人员可以容易地识别控制器750的其他功能，因为它们可能与针对特定系统设计而优化的视频编码器503有关。

一些视频编码器在本领域技术人员容易识别的“编码循环”中操作。作为一个过于简化的描述，编码循环可以由编码器730(在下文称为“源编码器”)的编码部分(负责基于要编码的输入图片和参考图片创建符号)和嵌入在编码器503中的(本地)解码器733组成，该解码器重构符号，以创建(远程)解码器也将创建的样本数据(因为在所公开的主题中考虑的视频压缩技术中，符号和编码的视频比特流之间的任何压缩都是无损的)。该重构的样本流被输入到参考图片存储器734。由于符号流的解码导致独立于解码器位置(本地或远程)的比特精确的结果，所以参考图片缓冲器内容在本地编码器和远程编码器之间也是比特精确的。换言之，当在解码期间使用预测时，编码器的预测部分作为参考图片样本“看到”与解码器“看到”的样本值完全相同的样本值。参考图片同步性(以及由此产生的漂移，如果不能保持同步性，例如，由于信道误差)的基本原理对于本领域技术人员来说是公知的。

“本地”解码器733的操作可以与“远程”解码器510的操作相同，这已经在上面结合图6进行了详细描述。然而，还简要参考图7，由于符号是可用的，并且熵编码器745和解析器620对编码视频序列的符号的编码/解码可以是无损的，所以解码器510的熵解码部分(包括信道612、接收机610、缓冲器615和解析器620)可以不完全在本地解码器733中实现。

在这一点上可以观察到，除了解码器中存在的解析/熵解码之外，任何解码器技术也必须以基本相同的功能形式存在于相应的编码器中。编码器技术的描述可以简化，因为这些技术是全面描述的解码器技术的逆。仅在某些领域需要更详细的描述，并在下面提供。

作为其操作的一部分，源编码器730可以执行运动补偿预测编码，其参考来自视频序列的被指定为“参考帧”的一个或多个先前编码的帧来预测性地编码输入帧。以这种方式，编码引擎732对输入帧的像素块和可以被选为输入帧的预测参考的参考帧的像素块之间的差异进行编码。

本地视频解码器733可以基于由源编码器730创建的符号，对可以被指定为参考帧的帧的编码视频数据进行解码。编码引擎732的操作可以有利地是有损过程。当编码的视频数据可以在视频解码器(图7中未示出)处被解码时，重构的视频序列通常可以是具有一些误差的源视频序列的副本。本地视频解码器733复制可以由视频解码器对参考帧执行的解码过程，并且可以使得重构的参考帧存储在参考图片高速缓存734中。以这种方式，编码器503可以本地存储重构的参考帧的副本，这些副本具有与将由远端视频解码器获得的重构的参考帧相同的内容(不存在传输误差)。

预测器735可以对编码引擎732执行预测搜索。也就是说，对于要编码的新帧，预测器735可以在参考图片存储器734中搜索样本数据(作为候选参考像素块)或某些元数据，例如，参考图片运动矢量、块形状等，其可以用作新图片的适当预测参考。预测器735可以在逐个样本块-像素块的基础上操作，以找到合适的预测参考。在一些情况下，如由预测器735获得的搜索结果所确定的，输入图片可以具有从存储在参考图片存储器734中的多个参考图片中提取的预测参考。

控制器750可以管理视频编码器730的编码操作，包括例如用于编码视频数据的参数和子组参数的设置。

所有前述功能单元的输出可以在熵编码器中经历熵编码745。熵编码器根据本领域技术人员已知的技术，例如，Huffman编码、可变长度编码、算术编码等，通过无损压缩符号，将各种功能单元生成的符号转换成编码的视频序列。

发射机740可以缓冲由熵编码器745创建的编码视频序列，以准备经由通信信道760传输，通信信道可以是到将存储编码视频数据的存储设备的硬件/软件链接。发射机740可以将来自视频编码器730的编码视频数据与要传输的其他数据合并，例如，编码音频数据和/或辅助数据流(源未示出)。

控制器750可以管理编码器503的操作。在编码期间，控制器750可以向每个编码图片分配特定的编码图片类型，这可以影响可以应用于相应图片的编码技术。例如，图片通常可以被指定为以下帧类型之一：

帧内图片(Intra Picture，I图片)可以是不使用序列中的任何其他帧作为预测源而被编码和解码的图片。一些视频编解码器允许不同类型的帧内图片，包括例如独立解码器刷新图片。本领域技术人员知道I图片的那些变体以及其相应的应用和特征。

预测图片(Predictive picture，P图片)可以是使用最多一个运动矢量和参考索引来预测每个块的样本值，使用帧内预测或帧间预测来编码和解码的图片。

双向预测图片(Bi-directionally Predictive Picture，B图片)可以是使用最多两个运动矢量和参考索引来预测每个块的样本值，使用帧内预测或帧间预测来编码和解码的图片。类似地，多预测图片可以使用两个以上的参考图片和相关元数据来重构单个块。

源图片通常可以在空间上被细分成多个样本块(例如，每个样本块为4×4、8×8、4×8或16×16个样本块)，并且在分块的基础上编码。可以参考由应用于块的相应图片的编码分配所确定的其他(已经编码的)块来预测性地编码块。例如，I图片的块可以被非预测性地编码，或者可以参考同一图片的已经编码的块被预测性地编码(空间预测或帧内预测)。参考一个先前编码的参考图片，经由空间预测或经由时间预测，P图片的像素块可以非预测性地编码。参考一个或两个先前编码的参考图片，经由空间预测或经由时间预测，可以预测性地编码B图片的块。

视频解码器(503)可以根据预定的视频编码技术或标准(例如，ITU-TRec.H.265)来执行编码操作。在其操作中，视频解码器503可以执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，编码的视频数据可以符合由正在使用的视频编码技术或标准指定的语法。

在一个实施例中，发射机740可以与编码视频一起传输额外数据。视频编码器730可以包括这样的数据，作为编码视频序列的一部分。额外数据可以包括时间/空间/SNR增强层、其他形式的冗余数据(例如，冗余图片和切片)、补充增强信息(SEI)消息、视觉可用性信息(VUI)参数集片段等。

图8中所示的计算机系统800的组件本质上是示例性的，并且不旨在对实现本公开的实施例的计算机软件的使用范围或功能提出任何限制。组件的配置也不应被解释为对计算机系统800的示例性实施例中所示的任何一个组件或组件组合有任何依赖性或要求。

计算机系统800可以包括某些人机接口输入设备。这种人机接口输入设备可以响应一个或多个人类用户通过例如触觉输入(例如：击键、滑动、数据手套移动)、音频输入(例如：语音、鼓掌)、视觉输入(例如：手势)、嗅觉输入(未示出)进行的输入。人机接口设备还可以用于捕捉不一定与人的有意识输入直接相关的某些媒体，例如，音频(例如：语音、音乐、环境声音)、图像(例如：扫描图像、从静止图像相机获得的照片图像)、视频(例如，二维视频、包括立体视频的三维视频)。

输入人机接口设备可以包括以下一个或多个(每个仅描绘了一个)：键盘801、鼠标802、轨迹板803、触摸屏810、操纵杆805、麦克风806、扫描仪807、相机808。

计算机系统800还可以包括某些人机接口输出设备。这种人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感觉。这种人机接口输出设备可以包括触觉输出设备(例如，通过触摸屏810、数据手套1204或操纵杆805的触觉反馈，但是也可以有不用作输入设备的触觉反馈设备)、音频输出设备(例如：扬声器809、耳机(未示出))、视觉输出设备(例如，屏幕810，包括阴极射线管(Cathode Ray Tube，CRT)屏幕、液晶显示器(Liquid-Crystal Display，LCD)屏幕、等离子屏幕、有机发光二极管(Organic Light-Emitting Diode，OLED)屏幕，每个都具有或不具有触摸屏输入能力，每个都具有或不具有触觉反馈能力——其中一些能够通过诸如立体输出之类的方式输出二维视觉输出或多于三维的输出；虚拟现实眼镜(未示出)、全息显示器和烟雾箱(未示出))以及打印机(未示出)。

计算机系统800还可以包括人类可访问的存储设备及其相关联的介质，例如，包括具有CD/DVD或类似介质821的CD/DVD ROM(Read-Only Memory，只读存储器)/RW(Read/Write，读写)820的光学介质、拇指驱动器822、可移动硬盘驱动器或固态驱动器823、诸如磁带和软盘(未示出)之类的传统磁介质、诸如安全加密狗(未示出)之类的专用ROM/ASIC(Application Specific Integrated Circuit，专用集成电路)/PLD(Programable LogicDevice，可编辑逻辑器件)设备等。

本领域技术人员还应该理解，结合当前公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其他瞬时信号。

计算机系统800还可以包括到一个或多个通信网络855的接口。网络855例如可以是无线的、有线的、光学的。网络855还可以是局域的、广域的、大都市的、车辆的和工业的、实时的、延迟容忍的等。网络855的示例包括诸如以太网、无线局域网(Local AreaNetwork，LAN)之类的局域网、包括全球移动通信系统(Global System for MobileCommunications，GSM)、第三代移动通信技术(Third Generation，3G)、第四代通讯技术(Fourth-Generation，4G)、第五代移动通信技术(5th Generation，5G)、长期演进技术(Long Term Evolution，LTE)等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络、包括控制器局域网络总线技术(Controller Area NetworkBus，CANBus)的车辆和工业网络等。某些网络855通常需要连接到某些通用数据端口或外围总线849(例如，计算机系统800的通用串行总线(Universal Serial Bus，USB)端口)的外部网络接口适配器854；其他的通常通过连接到如下所述的系统总线而集成到计算机系统800的核心中(例如，个人计算机(Personal Computer，PC)计算机系统中的以太网接口或智能电话计算机系统中的蜂窝网络接口)。使用这些网络855中的任何一个，计算机系统800可以与其他实体通信。这种通信可以是单向的、只接收的(例如，广播电视)、单向的、只发送的(例如，到某些CANbus设备的CANbus)，或者是双向的，例如，到使用局域或广域数字网络的其他计算机系统。如上所述，某些协议和协议栈可以用在这些网络855和网络接口854的每一个上。

前述人机接口设备、人类可访问的存储设备和网络接口可以附接到计算机系统800的核心840。

核心840可以包括一个或多个中央处理单元(CPU)841、图形处理单元(GPU)842、现场可编程门区域(Field Programmable Gate Areas，FPGA)843形式的专用可编程处理单元、用于特定任务的硬件加速器(例如，加速器844)、图形适配器844等。这些设备连同只读存储器(ROM)845、随机存取存储器(Random-Access Memory，RAM)846、诸如内部非用户可访问硬盘驱动器、固态驱动器(Solid-State Drives，SSD)之类的内部大容量存储器847可以通过系统总线899连接。在一些计算机系统中，系统总线899可以以一个或多个物理插头的形式访问，以允许额外CPU、GPU等的扩展。外围设备可以直接或者通过外围总线849连接到核心的系统总线899。外围总线的架构包括外围组件互连(Peripheral ComponentInterconnect，PCI)、USB等。

CPU841、GPU842、FPGA843和加速器844可以执行某些指令，这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在ROM845或RAM846中。过渡数据可以存储在RAM846中，而永久数据可以存储在例如内部大容量存储器847中。可以通过使用高速缓冲存储器来实现对任何存储设备的快速存储和检索，高速缓冲存储器可以与一个或多个CPU841、GPU842、大容量存储器847、ROM845、RAM846等紧密关联。

计算机可读介质上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本公开的目的而专门设计和构造的，或者可以是计算机软件领域的技术人员公知和可获得的类型。

作为示例而非限制，具有架构800的计算机系统，特别是核心840可以提供作为处理器(包括CPU、GPU、FPGA、加速器等)执行包含在一个或多个有形的计算机可读介质中的软件的结果的功能。这种计算机可读介质可以是与如上所述的用户可访问的大容量存储器相关联的介质以及具有非暂时性的核心840的某些存储器，例如，核心内部大容量存储器847或ROM845。实现本公开的各种实施例的软件可以存储在这样的设备中并由核心执行840。根据特定需要，计算机可读介质可以包括一个或多个存储设备或芯片。该软件可以使核心840并且特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文描述的特定过程或特定过程的特定部分，包括定义存储在RAM846中的数据结构并且根据软件定义的过程修改这样的数据结构。此外或作为替代，计算机系统可以作为硬连线或以其他方式包含在电路中的逻辑(例如：加速器844)的结果来提供功能，其可以代替软件或与软件一起操作来执行本文描述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以包括逻辑，反之亦然。在适当的情况下，对计算机可读介质的引用可以包括存储用于执行的软件的电路(例如，集成电路(Integrated Circuit，IC))、包含用于执行的逻辑的电路或者这两者。本公开包含硬件和软件的任何合适的组合。

尽管本公开已经描述了几个示例性实施例，但是存在落入本公开范围内的改变、置换和各种替代等价物。因此，应当理解，本领域技术人员将能够设计许多系统和方法，尽管这里没有明确示出或描述，但这些系统和方法体现了本公开的原理，并因此在本公开的精神和范围内。

Claims

1.一种用于光场或全息沉浸式媒体的自适应流的方法，所述方法由一个或多个处理器执行，所述方法包括：

确定与要传输到终端客户端的场景相关联的特征；

基于所述确定的特征，调整要传输到所述终端客户端的所述场景的至少一部分；以及

基于所述确定的特征，传输包括调整后的场景的所述光场或所述全息沉浸式媒体的自适应流。

2.根据权利要求1所述的方法，其特征在于，调整所述要传输的场景的至少所述一部分包括：

基于所述确定的特征，确定与所述要传输的场景相关联的深度；以及

基于所述深度调整所述要传输的场景以包括所述场景中的一个或多个第一对象，其中，所述一个或多个第一对象位于所述深度内的第一距离处。

3.根据权利要求2所述的方法，其特征在于，调整所述要传输的场景的至少所述一部分还包括：

基于所述深度调整所述要传输的场景以排除所述场景中的一个或多个第二对象，其中，所述一个或多个第二对象位于超出所述深度的距离处。

4.根据权利要求1所述的方法，其特征在于，调整所述要传输的场景的至少所述一部分包括：

基于所述确定的特征，确定与所述要传输的场景中的一个或多个对象相关联的阈值优先级；以及

基于所述阈值优先级调整所述要传输的场景以包括所述场景中的所述一个或多个对象中的一个或多个第一对象，其中，所述一个或多个第一对象具有比所述阈值优先级更高的优先级。

5.根据权利要求4所述的方法，其特征在于，调整所述要传输的场景的至少所述一部分还包括：

基于所述阈值优先级调整所述要传输的场景以排除所述场景中的所述一个或多个对象中的一个或多个第二对象，其中，所述一个或多个第二对象具有比所述阈值优先级更低的优先级。

6.根据权利要求5所述的方法，其特征在于，与所述场景中的所述一个或多个对象相关联的相应对象优先级是基于相应对象与捕获所述场景的成像设备之间的距离确定的。

7.根据权利要求1所述的方法，其特征在于，调整所述要传输的场景的至少所述一部分包括：

基于与所述终端客户端相关联的所述确定的特征，从所述终端客户端接收对替代场景的请求，其中，所述替代场景具有比所述场景中的一个或多个对象更少的对象；以及

调整所述要传输的替代场景以包括所述一个或多个对象中的一个或多个第一对象，其中，所述一个或多个第一对象具有比阈值优先级更高的优先级。

8.根据权利要求7所述的方法，其特征在于，调整所述要传输的场景的至少所述一部分还包括：

调整所述要传输的替代场景以排除所述一个或多个对象中的一个或多个第二对象，其中，所述一个或多个第二对象具有比所述阈值优先级更低的优先级。

9.根据权利要求8所述的方法，其特征在于，与所述场景中的所述一个或多个对象相关联的相应优先级由所述终端客户端定义。

10.一种用于光场或全息沉浸式媒体的自适应流的装置，其特征在于，所述装置包括：

至少一个存储器，其被配置为存储程序代码；以及

至少一个处理器，其被配置为读取所述程序代码并按照所述程序代码的指令进行操作，所述程序代码包括：

第一确定代码，所述第一确定代码被配置为使所述至少一个处理器确定与要传输到终端客户端的场景相关联的特征；

第二确定代码，所述第二确定代码被配置为使所述至少一个处理器基于所述确定的特征，调整要传输到所述终端客户端的所述场景的至少一部分；以及

传输代码，所述传输代码被配置为使所述至少一个处理器基于所述确定的特征，传输包括调整后的场景的所述光场或所述全息沉浸式媒体的自适应流。

11.根据权利要求10所述的装置，其特征在于，所述第二确定代码包括：

第三确定代码，所述第三确定代码被配置为使所述至少一个处理器基于所述确定的特征，确定与所述要传输的场景相关联的深度；以及

第一调整代码，所述第一调整代码被配置为使所述至少一个处理器基于所述深度调整所述要传输的场景以包括所述场景中的一个或多个第一对象，其中，所述一个或多个第一对象位于所述深度内的第一距离处。

12.根据权利要求11所述的装置，其特征在于，所述第二确定代码还包括：

第二调整代码，所述第二调整代码被配置为使所述至少一个处理器基于所述深度调整所述要传输的场景以排除所述场景中的一个或多个第二对象，其中，所述一个或多个第二对象位于超出所述深度的距离处。

13.根据权利要求10所述的装置，其特征在于，所述第二确定代码包括：

第四确定代码，所述第四确定代码被配置为使所述至少一个处理器基于所述确定的特征，确定与所述要传输的场景中的一个或多个对象相关联的阈值优先级；以及

第三调整代码，所述第三调整代码被配置为使所述至少一个处理器基于所述阈值优先级调整所述要传输的场景以包括所述场景中的所述一个或多个对象中的一个或多个第一对象，其中，所述一个或多个第一对象具有比所述阈值优先级更高的优先级。

14.根据权利要求13所述的装置，其特征在于，所述第二确定代码还包括：

第四调整代码，所述第四调整代码被配置为使所述至少一个处理器基于所述阈值优先级调整所述要传输的场景以排除所述场景中的所述一个或多个对象中的一个或多个第二对象，其中，所述一个或多个第二对象具有比所述阈值优先级更低的优先级。

15.根据权利要求14所述的装置，其特征在于，与所述场景中的所述一个或多个对象相关联的相应对象优先级是基于相应对象与捕获所述场景的成像设备之间的距离确定的。

16.一种非暂时性计算机可读介质，其特征在于，其存储指令，所述指令包括：一个或多个指令，当由用于光场或全息沉浸式媒体的自适应流的设备的一个或更多个处理器执行时，使所述一个或多个处理器：

确定与要传输到终端客户端的场景相关联的特征；

基于所述确定的与所述终端客户端相关联的特征，调整要传输到所述终端客户端的所述场景的至少一部分；以及

17.根据权利要求16所述的非暂时性计算机可读介质，其特征在于，调整所述要传输的场景的至少所述一部分包括：

18.根据权利要求17所述的非暂时性计算机可读介质，其特征在于，调整所述要传输的场景的至少所述一部分还包括：

19.根据权利要求16所述的非暂时性计算机可读介质，其特征在于，调整所述要传输的场景的至少所述一部分包括：

20.根据权利要求19所述的非暂时性计算机可读介质，其特征在于，调整所述要传输的场景的至少所述一部分还包括：