CN117413521A

CN117413521A - 编码/解码体积视频的方法和装置、重建计算机生成全息图的方法和装置

Info

Publication number: CN117413521A
Application number: CN202280039550.7A
Authority: CN
Inventors: D·杜瓦扬; 瓦尔特·德拉齐克; V·布拉克德拉佩里埃; G·博伊松
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2021-05-06
Filing date: 2022-05-02
Publication date: 2024-01-16
Also published as: WO2022233763A1; EP4335109A1; KR20240005841A

Abstract

本发明提供了用于对表示体积视频的数据内容进行编码/解码的方法和装置，其中，该编码/解码包括：在比特流中对指定数据内容是否具有表示深度层的至少一个集合的信息的指示符进行编码/从比特流中对该指示符进行解码，表示深度层的集合的该信息指定针对该体积视频的基于层的表示的深度层的数量和这些深度层中的每个深度层的深度值。还提供了用于从该体积视频的重建的基于分层的表示重建计算机生成全息图的方法和装置。

Description

编码/解码体积视频的方法和装置、重建计算机生成全息图的方法和装置

技术领域

本发明实施方案总体涉及三维(3D)场景和体积视频内容(包括全息表示)的领域。还在编码、格式化和解码表示3D场景的纹理和几何结构的数据的上下文中理解本文档，以在诸如移动设备或头戴式显示器(HMD)的最终用户设备上渲染体积内容。本发明实施方案总体涉及用于对表示3D场景的体积视频进行编码和解码的方法和装置。本发明实施方案中的至少一个实施方案还涉及用于基于体积视频的基于层(layer-based)的表示来生成计算机生成全息图的方法或装置。

背景技术

本部分旨在向读者介绍本领域的各个方面，这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息，以促进更好地理解本发明原理的各个方面。因此，应当理解，这些陈述应当从这个角度来解读，而不是承认现有技术。

最近，全息术的原始概念发展成计算机生成全息图(CGH)的现代概念。高稳定性和光敏材料的要求使得全息术对于动态3D内容的显示是不切实际的。随着液晶显示器的出现，对入射波前的相位进行调制并因此对入射波前进行任意整形的可能性使得可以在动态设备上重新创建干涉图案。CGH的原理是用以重建由3D场景内的3D对象发射的完全相同的光波前。这种波前携带关于视差和距离的所有信息。根据所考虑的3D场景的表示格式，有几种方法来计算CGH。然而，从沉浸式视频内容生成CGH需要密集的计算资源。期望改进CGH的生成，以在沉浸式视频内容的分发方案中实现实时计算的要求与CGH的质量之间的更好折衷。

可以使用不同的方法来表示沉浸式视频内容，其中包括多平面图像和点云。

多平面图像(MPI)是体积场景的分层表示，其中每一层实际上是场景的3D空间的切片。根据底层中心投影(例如，透视、球面……)和定义层间间距的采样定律对每个切片进行采样。层包括场景的任何3D相交对象的纹理(即颜色信息)以及透明度信息。根据该切片表示，可以恢复/合成位于围绕底层投影的中心的有限区域中的任何视点。这可以利用有效算法(例如，“反向”画家算法)来执行，该算法从最近开始到最远层将每一层与适当权重(即透明度)混合。此类技术的运行可比其他已知视图合成流程要快得多。

不同的方法，如MIV标准(2020年7月4日的ISO/IEC CD 23090-12，“Informationtechnology-Coded Representation of Immersive Media-Part 12:MPEG ImmersiveVideo”，N19482)已经可以用于传输以MPI格式表示的沉浸式视频内容，而无需任何语法修改。仅须激活例如在MIV的V3C(2020年7月4日的ISO/IEC FDIS 23090-5，“Informationtechnology-Coded Representation of Immersive Media-Part 5:Visual VolumetricVideo-based Coding(V3C)and Video-based Point Cloud Compression(V-PCC)”，N19579)母规范中规定的透明度属性。该MPI可以作为两个视频比特流来传送，该两个视频比特流分别编码纹理和透明度分块图集图像。每个分块的深度(即，对应于该3D场景的投影点和投影表面或投影中心之间的距离的几何数据)都是恒定的(因为MPI编码的原理)并且可以用信号通知，例如在图集信息数据流中和/或在数据流之一的元数据中或在对不同轨道中的两个图集序列进行编码的一个数据流的元数据中用信号通知。

点云是具有包括纹理信息(RGB)和位置信息(XYZ)的不同属性的点的集合。V3C(2020年7月4日的ISO/IEC FDIS23090-5，“Information technology-CodedRepresentation of Immersive Media-Part 5:Visual Volumetric Video-based Coding(V3C)and Video-based Point Cloud Compression(V-PCC)”，N19579)规范提供了一种传输以点云格式表示的沉浸式视频内容的方法。

为了有效地重建例如在CGH的重建中使用的体积视频，描述新的元数据可能是有用的。

发明内容

根据一个方面，公开了一种用于解码的方法。该解码方法包括从比特流中对表示体积视频的数据内容进行解码；以及从比特流中对指定数据内容是否具有表示深度层的至少一个集合的信息的指示符进行解码，表示深度层的集合的信息指定针对体积视频的基于层的表示的深度层的数量和深度层中的每个深度层的深度值。该解码方法还包括响应于该指示符从比特流中对表示深度层的该至少一个集合的信息进行解码。

根据另一个方面，一种用于解码的装置包括一个或多个处理器，该一个或多个处理器被配置为实现根据本文公开的实施方案中的任一个实施方案的用于解码的方法。

根据另一方面，公开了一种用于编码的方法。该编码方法包括：在比特流中对表示体积视频的数据内容进行编码；以及在比特流中对指定数据内容是否具有表示深度层的至少一个集合的信息的指示符进行编码，表示深度层的集合的信息指定针对体积视频的基于层的表示的深度层的数量和深度层中的每个深度层的深度值。该编码方法还包括响应于该指示符在比特流中对表示深度层的该至少一个集合的信息进行解码。

根据另一方面，一种用于编码的装置包括一个或多个处理器，该一个或多个处理器被配置为实现根据本文公开的实施方案中的任一个实施方案的用于编码的方法。

根据另一方面，提供了一种用于从体积内容的基于分层(layered-based)的表示重建至少一个计算机生成全息图的方法。

根据另一方面，提供了一种用于从体积内容的基于分层的表示重建至少一个计算机生成全息图的装置，其中该装置包括一个或多个处理器，该一个或多个处理器被配置用于根据本文公开的实施方案中的任一个实施方案从体积内容的基于分层的表示重建至少一个计算机生成全息图。

有利地，表示深度层的集合的信息(指定针对体积视频的基于层的表示的深度层的数量和深度层中的每个深度层的深度值)可以通过减少层的数量同时保持良好的计算机生成全息图质量来帮助处理器适应其能力。

一个或多个实施方案还提供了一种计算机程序，该计算机程序包括指令，该指令在由一个或多个处理器执行时使该一个或多个处理器执行根据上述实施方案中任一实施方案的方法中的任一方法。本发明实施方案中的一个或多个实施方案还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有用于根据上述方法对体积内容进行编码或解码或重建计算机生成全息图的指令。一个或多个本发明实施方案还提供了一种计算机可读存储介质，该计算机可读存储介质在其上存储有根据上述方法生成的比特流。一个或多个本发明实施方案还提供了一种用于发送或接收根据上述方法生成的比特流的方法和装置。

附图说明

将更好地理解本公开，并且在阅读以下描述、参考附图的描述之后，将出现其他特定特征和优点，其中：

–图1示出了根据本发明原理的非限制性实施方案的可被配置为实现关于图6、图12、图14、图16中任一者描述的方法的设备的示例性架构；

–图2示出了对象的基于层的表示的示例；

–图3示出了根据来自MPI的给定视点的视图合成；

–图4示出了对象的三维(3D)模型和对应于3D模型的点云的点；

–图5示出了3D对象的原始点云和同一3D对象的对应的基于10层的表示；

–图6示出了根据至少一个实施方案的一般方面的用于生成CGH的通用方法；

–图7示出了根据至少一个实施方案的基于MPI内容的全息系统的工作流程；

–图8示出了根据至少一个实施方案的在Z_min和Z_max之间的规则层重新划分以及基于内容的层的优化重新划分。

–图9示出了根据至少一个实施方案的基于MPI内容的全息系统的工作流程；

–图10示出了根据本发明原理的非限制性实施方案的对表示3D场景序列的数据进行编码、传输和解码的非限制性示例；

–图11示出了根据本发明原理的非限制性实施方案的表示体积场景的基于MPI的图集的构造；

–图12示出了根据本发明原理的实施方案的用于对体积视频进行编码的方法的框图；

–图13示出了根据本发明原理的非限制性实施方案的当通过基于分组的传输协议传输数据时流的语法的实施方案的示例；

–图14示出了根据本发明原理的实施方案的用于对MPI进行编码的方法的框图；

–图15示出了根据本发明原理的非限制性实施方案的来自中心视点的球面投影；

–图16示出了根据本发明原理的实施方案的用于对体积视频进行解码的方法1800的框图。

具体实施方式

图1示出了其中可实现各种方面和实施方案的系统的示例的框图。系统100可体现为一种设备，该设备包括下文所述的各种部件，并且被配置为执行本申请所述各方面中的一个或多个方面。此类设备的示例包括但不限于各种电子设备，诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视接收器、个人视频录制系统、连接的家用电器和服务器。系统100的元件可单独地或组合地体现在单个集成电路、多个IC和/或分立部件中。例如，在至少一个实施方案中，系统100的处理和编码器/解码器元件跨多个IC和/或分立的部件分布。在各种实施方案中，系统100经由例如通信总线或通过专用输入和/或输出端口通信地耦接到其他系统或其他电子设备。在各种实施方案中，系统100被配置为实现本申请所述的方面的一个或多个方面。

系统100包括至少一个处理器110，该至少一个处理器被配置为执行加载到其中的指令，以用于实现例如本申请所述的各个方面。处理器110可包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统100包括至少一个存储器120(例如，易失性存储器设备和/或非易失性存储器设备)。系统100包括存储设备140，该存储设备可包括非易失性存储器和/或易失性存储器，包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例，存储设备140可包括内部存储设备、附接存储设备和/或网络可访问的存储设备。

系统100包括编码器/解码器模块130，该编码器/解码器模块被配置为例如处理数据以提供编码视频/3D场景或解码视频/3D场景，并且编码器/解码器模块130可包括其自身的处理器和存储器。编码器/解码器模块130表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知，设备可包括编码模块和解码模块中的一者或两者。另外，编码器/解码器模块130可被实现为系统100的独立元件，或可被结合在处理器110内作为本领域技术人员已知的硬件和软件的组合。

要加载到处理器110或编码器/解码器130上以执行本申请中所述的各个方面的程序代码可存储在存储设备140中，并且随后加载到存储器120上以供处理器110执行。根据各种实施方案，处理器110、存储器120、存储设备140和编码器/解码器模块130中的一者或多者可在本申请中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频/3D场景、解码视频/3D场景或解码视频/3D场景的部分、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。

在一些实施方案中，在处理器110和/或编码器/解码器模块130内部的存储器用于存储指令以及提供在编码或解码期间所需的用于处理的工作存储器。然而，在其他实施方案中，在处理设备外部的存储器(例如，处理设备可以是处理器110或编码器/解码器模块130)用于这些功能中的一个或多个功能。外部存储器可以是存储器120和/或存储设备140，例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中，外部非易失性闪存存储器用于存储电视机的操作系统。在至少一个实施方案中，快速外部动态易失性存储器(诸如RAM)用作用于视频编码和解码操作的工作存储器，诸如用于MPEG-2(MPEG是指运动图片专家组，MPEG-2也称为ISO/IEC 13818，并且13818-1也称为H.222，13818-2也称为H.262)、HEVC(HEVC是指高效视频编码，也称为H.265和MPEG-H部分2)或VVC(通用视频编码，由联合视频专家小组(JVET)开发的新标准)。

对系统100的元件的输入可通过如块105中所指示的各种输入设备来提供。此类输入设备包括但不限于：(i)射频(RF)部分，其接收例如由广播器通过空中传输的RF信号；(ii)分量(COMP)输入端子(或一组COMP输入端子)；(iii)通用串行总线(USB)输入端子；和/或(iv)高清晰度多媒体接口(HDMI)输入端子。图1中未示出的其他示例包括复合视频。

在各种实施方案中，块105的输入设备具有如本领域中已知的相关联的相应的输入处理元件。例如，RF部分可与适合于以下各项的元件相关联：(i)选择期望的频率(也称为选择信号，或将信号频带限制到一个频带)；(ii)下变频所选的信号；(iii)再次将频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带；(iv)解调经下变频和频带限制的信号；(v)执行纠错；以及(vi)解复用以选择期望的数据分组流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件，例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包含执行这些功能中的各种功能的调谐器，这些功能包含例如下变频接收的信号至更低频率(例如，中频或近基带频率)或至基带。在一个机顶盒实施方案中，RF部分及其相关联的输入处理元件接收通过有线(例如，电缆)介质发射的RF信号，并且通过滤波、下变频和再次滤波至期望的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序，移除这些元件中的一些元件，和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件，例如，插入放大器和模拟-数字转换器。在各种实施方案中，RF部分包括天线。

另外，USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统100连接到其他电子设备的相应接口处理器。应当理解，输入处理(例如，Reed-Solomon纠错)的各个方面可根据需要例如在单独的输入处理IC内或在处理器110内实现。类似地，USB或HDMI接口处理的各方面可根据需要在单独的接口IC内或在处理器110内实现。经解调、纠错和解复用的流被提供给各种处理元件，包括例如处理器110和编码器/解码器130，该编码器/解码器与存储器和存储元件结合操作以根据需要处理数据流以供在输出设备上呈现。

系统100的各种元件可设置在集成外壳内。在集成外壳内，各种元件可使用合适的连接布置115(例如，本领域已知的内部总线，包括I2C总线、布线和印刷电路板)进行互连并在其间发射数据。

系统100包括通信接口150，该通信接口允许经由通信信道190与其他设备的通信。通信接口150可包括但不限于被配置为通过通信信道190传输和接收数据的收发器。通信接口150可包括但不限于调制解调器或网卡，并且通信信道190可在有线和/或无线介质等内实现。

在各种实施方案中，使用Wi-Fi网络(诸如IEEE 802.11(IEEE是指电气与电子工程师协会))将数据流传输给系统100。这些实施方案的Wi-Fi信号是通过适于Wi-Fi通信的通信信道190和通信接口150来接收。这些实施方案中的通信信道190通常连接到接入点或路由器，该接入点或路由器提供对包括互联网的外部网络的访问，以允许流式应用和其他OTT通信。其他实施方案使用机顶盒向系统100提供流式传输的数据，该机顶盒通过输入块105的HDMI连接来递送数据。还有其他实施方案使用输入块105的RF连接向系统100提供流式传输的数据。如上所述，各种实施方案以非流式的方式提供数据。另外地，各种实施方案使用除了Wi-Fi以外的无线网络，例如蜂窝网络或蓝牙网络。

系统100可向各种输出设备(包括显示器165、扬声器175和其他外围设备185)提供输出信号。各种实施方案的显示器165包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一个或多个显示器。显示器165可用于电视、平板电脑、膝上型电脑、蜂窝电话(移动电话)或其他设备。显示器165还可与其他部件集成(例如，如在智能电话中)，或可为独立的显示器(例如，用于膝上型电脑的外部监视器)。在实施方案的各种示例中，其他外围设备185包括独立数字视频光盘(或数字多功能光盘)(DVR，可表示这两个术语)、碟片播放器、立体声系统和/或光照系统中的一者或多者。各种实施方案使用一个或多个外围设备185，该一个或多个外围设备基于系统100的输出来提供功能。例如，碟片播放器执行播放系统100的输出的功能。

在各种实施方案中，使用信令(诸如AV.Link、CEC或能够在有或没有用户干预的情况下实现设备到设备控制的其他通信协议)在系统100与显示器165、扬声器175或其他外围设备185之间传送控制信号。这些输出设备可通过相应的接口160、接口170和接口180经由专用连接通信地耦接到系统100。另选地，输出设备可使用通信信道190经由通信接口150连接到系统100。显示器165和扬声器175可与电子设备(例如，电视机)中的系统100的其他部件集成在单个单元中。在各种实施方案中，显示器接口160包括显示器驱动器，例如，定时控制器(T Con)芯片。

另选地，例如，如果输入105的RF部分是单独机顶盒的一部分，则显示器165和扬声器175可与其他部件中的一个或多个部件分开。在显示器165和扬声器175为外部部件的各种实施方案中，输出信号可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)来提供。

该实施方案可由处理器110实现的计算机软件，或由硬件，或由硬件和软件的组合来进行。作为非限制性示例，这些实施方案可由一个或多个集成电路实现。作为非限制性示例，存储器120可为适于技术环境的任何类型，并且可使用任何适当的数据存储技术(诸如光存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器)来实现。作为非限制性示例，处理器110可以是适于技术环境的任何类型，并且可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。

CGH的原理是用以重建由三维对象发射的完全相同的光波前。这种波前携带关于视差和距离的所有信息。这两种信息都被二维常规成像系统(数码相机、2D图像、2D显示器等)丢失，并且仅可以检索视差，从而在光场显示器上显示最近的体积内容。此类显示器不能正确地渲染深度提示导致视觉冲突，该视觉冲突可能导致眼睛疲劳、头痛、恶心和缺乏真实感。

全息术在历史上基于记录由来自相干光源的参考光束和由该参考光束在对象上的反射形成的对象光束产生的干涉。干涉图案按照时间记录在光敏材料中，并且局部地(微观地)看起来像衍射光栅，具有用于记录的波长量级的光栅间距。一旦这种干涉图案被记录，由原始参考波对这种干涉图案的照射重新创建对象光束和3D对象的原始波前。

全息术的原始概念发展成CGH的现代概念。高稳定性和光敏材料的要求使得全息术对于动态3D内容的显示是不切实际的。随着液晶显示器的出现，对入射波前的相位进行调制并因此对入射波前进行任意整形的可能性使得可以在动态设备上重新创建干涉图案。这时可以计算全息图并以计算机生成全息图(CGH)的名称来表示。CGH的合成要求对先前记录的干涉图案进行计算，这可以通过使用傅里叶光学器件的各种方法来完成。对象光束(即3D图像)将通过用参考光束照射承载CGH的LCOS SLM显示器来获得。

因此，CGH合成的一个主要方面是评估由3D对象或场景朝向(全息图)平面发射的波前。可以使用不同的方法从任何形式的3D内容合成CGH。例如，一种方法基于分层3D场景。另一种方法基于点云。

三维场景可以被描述为层的叠加，这些层被认为是3D场景的切片。根据这种范例，场景被描述为层的叠加，层中的每个层与场景中的深度相关联。3D场景的这种描述非常适合于衍射的傅里叶变换模型。角谱模型的情况尤其如此。用以计算CGH的层方法由于对嵌入在传播变换(PT)内的快速傅里叶变换算法(FFT)的使用而具有低复杂度和高计算速度的优点，使得能够以高速对单个层进行处理。某些技术还被设计成通过在活动像素中实现掩模、或乒乓算法来处理遮挡。一种方法是模拟光从最远的层(例如，背景层)开始穿过场景的传播。然后通过层到层的传播变换计算从最远的层到全息图平面的光传播。详细地，计算由下一层平面N+1接收的由层N发射的光，并且将此层N+1的贡献(意味着由N+1发射的光)添加到结果。由层N+1发射的光被层掩模倍增。由层N+1发射的光等于两个贡献的总和。

用于合成CGH的基于层的方法是快速计算方法。多平面图像(MPI)是层内容的特定情况。MPI涉及3D场景的层描述，几乎总是从多视图场景产生、但是也可能从计算机生成场景获得。MPI“格式”通常可以被视为一组固定分辨率(以像素为单位)图像和一组元数据收集参数(如每个图像的深度和合成相机的焦距，仅举几例)。图2示出了基于层的3D场景的示例，其中3D对象被分割成n个层的集合，每个图像层I与深度z_i相关联。

根据本发明原理，将MPI层应用于以基于层的格式表示的3D图像或3D视频内容，以便生成计算机生成全息图。这些层可以被表示为场景的正射投影或透视投影。为了解决3D场景中的遮挡问题，基于层的内容由4个通道(3个纹理R、G和B通道以及对应于α值的第四通道)组成。在“Soft 3d reconstruction for view synthesis”,E.Penner和L.Zhang,Proc.SIGGRAPH Asia,第36卷第6期,2017中，多平面图像(MPI)表示被描述为具有非二元的α通道的透视投影内容。这里，该非二进制值允许渲染在遮挡边界处的对象之间具有平滑过渡的场景的不同视点。非二进制值有助于描述给定层中的给定像素存在的概率。非二进制值描述了层的像素对计算的CGH的贡献。

根据该切片表示，可以合成位于围绕底层投影的中心的有限区域中的任何视点。图3示出了根据来自MPI的给定视点的视图合成。这可以利用有效算法来实现(“反向”画家算法或如B.Vandame等人在“PIPELINE FOR REAL-TIME VIDEO VIEW SYNTHESIS,”Proc.ICME 2020中描述的)，该有效算法从最近到最远将每个层与适当的权重(透明度)混合。根据视点的位置，前景的对象对背景的对象的掩蔽可以不同，从而允许观察者通过轻轻地移动他的头部来体验视差效果并且感知场景的体积。在图3的左侧部分，示出了MPI内容的不同层310。在右侧部分，呈现了从MPI进行视图合成的原理。方块320对应于被整合以合成一个视图的连续信息。

表示3D内容的另选格式是点云。点云是具有包括纹理信息(RGB)和位置信息(XYZ)的不同属性的点的集合。图4示出了对象的三维(3D)模型400和对应于3D模型400的点云410的点。3D模型400和点云410可例如对应于包括其他对象的3D场景的对象的可能3D表示。模型400可以是3D网格表示，并且点云410的点可以是网格的顶点。点云410的点也可以是分布在网格面的表面上的点。模型400也可表示为点云410的喷溅版本，模型400的表面是通过喷溅点云410的点而创建的。模型400可由诸如体素或样条的许多不同表示来表示。图4示出了可用3D对象的表面表示来定义点云以及可从云点生成3D对象的表面表示的事实。如本文所用，将3D对象的点(引申为3D场景的点)投影到图像上等效于投影该3D对象的任何表示，例如点云、网格、样条模型或体素模型。

点云可在存储器中表示为例如基于矢量的结构，其中每个点在视点的参照系中都有自己的坐标(例如三维坐标XYZ，或立体角和从/到视点的距离(也称为深度))和一个或多个属性，也称为分量。分量的一个示例是可在各种色彩空间中表示的颜色分量，例如RGB(红、绿和蓝)或YUV(Y是亮度分量并且UV是两个色度分量)。点云是包括对象的3D场景的表示。可从给定视点或视点范围看到3D场景。点云可通过多种方式获得，例如：

–从由相机装备拍摄的真实对象的捕获，任选地辅以深度主动感测设备；

–从由建模工具中的虚拟相机装备拍摄的虚拟/合成对象的捕获；

–从真实对象和虚拟对象两者的混合。

点云方法涉及计算3D场景的每个点对全息图的每个像素的照射的贡献。使用这种模型，每个点可以被认为是完美的球形发射器或者使用Phong模型来描述。对于每个像素，全息图平面中的光场等于所有点贡献的总和。这种方法的复杂度与场景中的点的数目与像素的数目的乘积成比例，因此这意味着重要的计算负荷，并且要求单独地计算遮挡。每个点和每个像素的总和由Rayleigh-Sommerfeld等式或Huygens-Fresnel等式描述。因此，从点云合成CGH在计算方面是要求非常苛刻的。将点云转换为层的集合以应用基于FFT的操作具有巨大的优势。但是将点云转换为层的集合引入一些误差，因为原始点不是精确地位于层的深度处。图5示出了3D对象的原始点云(左)与同一3D对象的对应的基于10层的表示(右)之间的差异。当点与层相关联时，总是引入误差。级别的数量越多，全局误差越小。

对于MPI内容或基于层的点云，层的数量可以较高。层数通常情况下是按照1/z定律缩放的，并且其在针对3D场景定义的Z_min和Z_max值之间分布。取决于场景的复杂度，深度级别的该数量可以是可变的，但是通常的值可以是例如256或1024个深度层。对于CGH计算，具有256个深度级别需要计算单层到全息图平面的基于FFT的传播的256次。如果不做任何处理，则将对内容进行解码并尝试生成CGH的处理器可能不具有足够的处理能力。因此，CGH将不以正确的速度产生，这可能对可视化的全息图的显示和质量产生影响。

另一方面，为了避免处理器的这种低容量问题，可以决定以有限数量的层生成MPI内容或基于层的点云。这对于具有低容量的处理器是正确的，但是这对于可以处理更多层的那些处理器不是最优的。最终全息图的质量将较低。

至少一些实施方案涉及用于基于体积视频的重建的基于层的表示生成CGH的方法，其中在重建中使用的深度层的数量和深度层中的每个深度层的深度值适于优化CGH的计算时间和质量。有利地，将表示深度层的至少一个集合的信息从内容提供方用信号通知到用户显示器，其中表示深度层的集合的信息指定用于重建体积视频的基于层的表示的深度层的数量和深度层中的每个深度层的深度值。

图6示出了根据通用实施方案的用于从体积视频的基于分层的重建表示确定CGH的方法600的示例。在图6中，访问表示体积视频的数据内容。在下文中，我们可以称为“体积视频”。作为非限制性示例，体积视频可以包括“体积内容”、“体积视频内容”、“3D对象”或“3D场景”。层是给定深度处的一组像素，使用单个基于FFT的操作将该组像素全部传播到全息图平面。体积视频的基于分层的表示则应当包括一组层，属于一个层的每个像素被认为具有相同的深度。方法600与基于层的格式的各种方法兼容。例如，一种方法基于MPI格式，MPI格式是用于表示体积视频内容的基于层的格式。另一种方法是基于点云，该点云可以被变换为体积视频内容的基于分层的表示。上文描述了对应实施方案。此外，根据经典的传输方案，数据内容被编码在比特流中以从内容提供方传输到用户显示器。有利地，在610中，访问与深度层的至少一个集合有关的信息。表示深度层的集合的信息指定体积视频的基于层的表示的深度层的数量和深度层中的每个深度层的深度值。有利地，深度层的数量和/或深度层中的每个深度层的深度值可以从一个集合到另一个集合而变化，因此根据不同的变型，针对体积内容定义深度层的一个或多个集合，该一个或多个集合导致体积视频的一个或多个基于层的表示。有利地，针对该体积视频优化与体积视频相关联的深度层的集合(或若干集合)。通过优化，应当理解，对于深度层的该集合，深度层的数量比深度层的当前值低(例如，10个级别)或等于深度层的当前值(例如，完整MPI的256个层)，并且深度层的数量和每个深度层的深度已经被定义以便减少由指定数量的深度层引入的误差。下面针对体积内容的不同方法描述可以进行误差计算的方式。在一个变型中，集合深度层中的一个集合深度层对应于完整MPI。例如，从包括编码数据内容的比特流中解码该信息。根据特定特征(图6中未表示)，还在比特流中编码指定数据内容是否具有表示深度层的至少一个集合的信息的指示符。在610处，如果指示符指定数据内容具有表示深度层的至少一个集合的信息，则对表示深度层的集合的信息进行解码。如果没有，则根据本发明原理的方法结束。深度层集合信息和指示符是与体积内容相关联的元数据。在610之后，在620处，在深度层的一个或多个集合中选择深度层的一个集合。根据特定特征，选择深度层的集合包括确定使用深度层的至少一个集合中的每个集合重建体积视频的基于层的表示以及重建CGH所需的资源；以及选择具有最大数量的深度层的深度层集合，对于该深度层集合，用于重建体积视频的基于层的表示以及重建CGH的所确定的资源在资源预算的范围内。根据其他变型，选择深度层集合中所确定的资源对于其而言在资源预算的范围内的任何一个深度层集合。根据又一变型，如果没有深度层集合满足资源预算约束，则选择具有最小数量的深度层的深度层集合。根据又一变型，如果仅指定深度层的一个集合，则选择该集合。所确定的资源包括以下各项中的至少一者：处理循环的数量、解码时间的量、用于从体积视频的指定的基于层的表示重建CGH的存储器的量。资源可以由内容提供方或由实现该方法的装置来确定。类似地，资源预算包括以下各项中的至少一者：实施方法的装置中可用的处理循环的数量、装置中可用的解码时间的量、装置中可用的存储器的量。在620之后，在630中重建体积视频的基于层的表示，其中体积视频的基于层的表示包括与所选择的集合的深度层的数量和深度值相对应的深度层的数量和深度层中的每个深度层的深度值。下面描述对应于体积内容的各种方法的各种实施方案。最后，在640处，如先前根据基于FFT的操作所解释的，从重建的基于分层的表示生成CGH。有利地，方法600允许处理器以巧妙的方式减少计算量，同时保持CGH计算的良好质量。处理器将基于与输入体积视频相关联的深度层集合信息使CGH计算适应其能力。

根据第一实施方案，数据内容是MPI内容。图7示出了根据至少一个实施方案的基于MPI内容的全息系统的工作流程。MPI在系统的输入处。为了简化表示，在图7中仅表示有限数量的层，但是MPI可以具有例如对应于256个不同深度级别的256个层。应用MPI预处理710以将MPI转换为将使用标准视频编码器720压缩的格式。例如，可以将MPI转换为诸如MIV压缩方案中的分块的图集。在710中，生成根据本发明原理指定深度层的数量和深度层中的每个深度层的深度值的元数据集合。根据非限制性示例，深度层的数量为10或50。根据特定特征，生成适于不同数量的深度层的元数据的一个或多个集合。计算这10或50个深度级别的值的方式取决于内容。如图8所示，内容的“感兴趣的部分”没有沿着场景的深度轴线均匀地分布。该图对应于画家(Painter)场景，其中在背景附近和前景中有两个主要区域，在中间有空白空间。场景的一些部分与其他部分例如前景相比更“感兴趣”。当层的数量减少时，此类感兴趣的部分必须被很好地表示。相反，不需要在没有物理对象的地方放置一些层。与图8的上部部分的Z_min和Z_max之间的规则层重新划分相比，图8的下部部分示出了放置层的优化方式。在预处理710期间，场景的分析(基于深度信息)将有助于针对给定数量的层定义层的优化位置。然后创建表示深度层的集合的信息，该信息与10层格式、10个优化的深度值相关联。例如执行相同的处理以定义25个深度层的集合或50个深度层的集合。对于它们中的每一者，创建表示深度层的集合的信息，并且该信息可以作为元数据与内容一起传输。

在图7中的工作流程之后，元数据被插入到比特流中，在解码器侧被传输和接收。元数据被提取。基于将合成CGH的处理器的能力，可以使用包含在元数据中的深度层集合信息来调整层的数量。在MIV压缩方案的情况下，内容被压缩为分块的集合。在MIV技术的用例中的一些用例中，对分块进行解码以便能够渲染一些视点(例如，对于HMD应用，实时需要对应于两只眼睛的2个视点)。

在CGH应用的情况下，MIV解码器/渲染器应当递送重建层的集合。如果处理器具有大容量，则将重建MPI的在编码器侧存在的所有层。根据本发明原理，如果处理器没有足够的容量，则将重建在元数据中指定的层的数量。

因此，如先前利用图6的通用实施方案所展示的，解码器/渲染器在730中确定数据内容是否具有指定深度层的一个或多个集合的元数据。如果指定了此类元数据，则解码器/渲染器对元数据进行解码以获得深度层的一个或多个集合。该集合中的每个集合指定深度层的数量以及那些深度层中的每个深度层的深度值。在730中，解码器/渲染器还对来自MPI序列的分块的图集的MIV内容的每个相关分块进行解码。根据不同的变型，这可以包括可用于内容的所有分块，或者生成当前CGH所需的分块子集。例如，如果CGH将表示场景的子集，则可能仅需要可用分块的相关子集。在740中，处理MPI的层适配。深度层的集合的选择响应于解码器/渲染器的处理器的资源。如果处理器具有足够的资源(例如，CPU循环、解码时间、存储器和/或其他资源)来使用完整MPI(即，在内容中指定的原始数量的MPI层，或者在特定变型中还在深度层的集合中的一个集合中指定的原始数量的MPI层)生成CGH，则所有层被重建，并且所得到的完整MPI被用于生成CGH。如果处理器没有足够的资源来为完整MPI生成CGH，则使用低于如在深度层的集合中的所选择的一个集合中所指定的完整MPI的层数的多个深度层来生成CGH。该选择可以基于解码器/渲染器处的可用资源。例如，解码器/渲染器可以使用深度层的可用集合中的每个集合来估计生成CGH所需的资源，并且可以选择深度层的集合中的一个集合以使其在可用资源预算的范围内(例如，使得不超过CPU循环的可用数量、解码时间的可用量和/或存储器的可用量)。解码器/渲染器可以例如选择具有最大数量的深度层的深度层集合，对于该深度层集合，用于深度层的重建和CGH的后续生成的资源估计在可用资源预算的范围内。如果元数据仅指定深度层的一个集合，则解码器/渲染器可确定使用该集合。对于深度层的所选择的集合，通过将每个解码分块重新分配给所选择的集合中的最近深度层来重建深度层的对应集合(或MPI切片的集合)。例如，对于每个相关分块，将其深度值与所选择的集合的层的深度值进行比较以找到最近深度值，然后将该分块的贡献添加到深度层的集合中的对应深度层。找到最近深度值可涉及计算相关分块的z值与深度层的所选择的集合的层的z值之间的差值，并且找到最小差值。找到最近深度值可以包括(例如，作为替代)计算相关分块的1/z值与深度层的所选择的集合的层的1/z值之间的差值，并且找到最小差值。然后，遵循最近深度的标准将分块添加到对应于最近深度值的深度层，并且使用分配给层的分块来重建深度层的集合中的每个层。最后，在750中，使用内容的重建的基于分层的表示来生成CGH，然后在760中显示该CGH。

为了完整起见，现在描述定义深度层的优化的集合的方法的非限制性示例。该方法基于从K均值(K-means)导出的迭代解，

如在“Some Methods for classification and Analysis of MultivariateObservations”,MacQueen J.B.,Proceedings of 5th Berkeley Symposium onMathematical Statistics and Probability 1,University of California Press.第281–297页，或在“Least squares quantization in PCM”,Lloyd,Stuart P.,IEEETransactions on Information Theory.28(2):129–137中所使用的。尽管确保收敛，但是该方法也可以在确定次数的迭代之后停止。

考虑深度D的多平面图像(MPI)并且对于每个层d，1≤d≤D，其α分量的总权重为：

考虑平面的目标数量P＜D，初始化步骤包括对MPI的实际(非空)深度范围进行重新采样。为此，令d_near和d_far分别是最近和最远非空层索引。即，假设平面是从后到前排序的：

和/>

可以通过引入阈值T＞0来修改先前的定义：

和/>

现在令表示初始深度采样，该初始深度采样应当优选地在1/z中是均匀的：

然后，对于每次迭代i≥1，迭代过程包括两个步骤，即分配步骤和更新步骤。

在分配步骤中，MPI的每个像素被重新分配给位于在1/z中呈现最小误差的深度处的切片/>

每个像素uvd即使在相等分数的情况下也被分配给单个切片。这有利地确保了收敛。

在分配步骤之后，在更新步骤中，更新每个切片的深度以考虑其内容的实际位置。为此，我们计算具有α值的加权平均值：

该算法收敛，然而在给定数量的迭代之后可以中断。

最终丢弃初始深度值{z_d}_d≤D，并且返回由P个最终平面构成的新MPI。

根据变型实施方案，1/z表达式中的全部或一些由z表达式替换。然而，重新分配和更新步骤应当彼此一致。

根据另一变型实施方案，可以以其他方式执行初始化，例如随机地执行初始化。

根据另一变型实施方案，当两个切片呈现相同误差时，输入像素的贡献被分成两半。这通过将初始α值减半来执行。然而，这损害了该方法的收敛特性。

根据第二实施方案，数据内容是点云PC内容。图9示出了根据至少一个实施方案的基于PC内容的全息系统的工作流程。该实施方案考虑点云作为输入。与MPI相比，没有已经定义的层，点不与任何层相关联。在910中，PC预处理基于点云定义对于给定数量的深度层(例如，10层或50层)的优化深度值是什么。下面给出用于获得PC的优化的基于分层的表示的方法的示例。然而，本发明原理不限于该方法，并且定义该优化的任何手段都与本发明原理兼容。然后创建表示深度层的集合的信息，该信息与10层格式、10个优化的深度值相关联。例如执行相同的处理以定义50个深度层的集合。对于它们中的每一者，创建表示深度层的集合的信息，并且信息可以作为元数据与内容一起传输。在点云源的情况下，压缩方案920可以是例如在MPEG中开发的V-PCC压缩方案。在930中，PC被解码，并且在940中，必须执行传输数据的转换以准备用于CGH计算的内容。由于在PC源的情况下，在输入处没有定义层，因此使用解码的元数据来获得层的一个或多个集合。如前所述，解码器/渲染器的处理器的能力将用于选择元数据中的可用集合中的哪一个集合将被选择。基于深度层的所选择的集合，在“PC到层适配”步骤940处处理该数量的层。点云的每个解码点被分配给对应于最近深度的层。然后，在950中，CGH在被发送到全息显示器960之前被计算。

为了完整起见，现在描述从PC定义深度层的优化的集合的方法的非限制性示例。在该第二实施方案中，实施与第一实施方案的方法类似的方法，其中输入场景被描述为点云，即3D点的无序集合{xyz_n，rbg_n}_1≤n≤N(这里没有α)，而不是MPI。

考虑目标数量P个平面用于输出MPI，初始化步骤包括对输入点云进行重新采样。为此，应当定义对应于输出MPI的参考相机的坐标系。下面假设3D点的xyz坐标在该坐标系中表示。另外，还应当为输出MPI的参考相机定义相机模型。假设该参考相机被表征为针孔相机，并且令K∈R^3×3表示其本征矩阵。

现在令z_min和z_max分别是输入点的最小和最大z坐标：

和/>

现在令表示初始深度采样，该初始深度采样应当优选地在1/z中是均匀的：/>

在分配步骤中，每个3D点xyz被分配给位于在1/z中呈现最小误差的深度处的切片/>

每个3D点xyz即使在相等分数的情况下也被分配给单个切片。这有利地确保了收敛。

在分配步骤之后，在更新步骤中，MPI的每个切片的深度被更新以考虑其内容在z中的实际位置：

其中|·|表示集合的基数。

该算法收敛，然而在给定数量的迭代之后可以中断。

最终，点云被投影到离散MPI网格上；即，每个3D点xyz被转变成给定的MPI像素uvd，其中u和v分别是由下式定义的实数u’和v’的最近的整数：

并且d表示适当切片的索引：

根据变型，取决于MPI分辨率，若干3D点可以被合并到单个MPI像素中。至于RGB值，有两种方式来执行该融合操作。第一解决方案在于混合对应于要合并在一起的不同3D点的颜色值。另一种解决方案在于为MPI像素分配呈现最低z值的点的颜色。

如前所述，根据一个变型实施方案,1/z表达式中的全部或一些由z表达式替换。然而，重新分配和更新步骤应当彼此一致。

根据另一变型实施方案，可以以其他方式执行深度初始化，例如随机地执行深度初始化。

即使已经分别描述了第一实施方案和第二实施方案的不同变型以根据指定层来重建MPI和PC内容的基于分层的表示，在本发明原理的范围内也可以完成其他变型：

–基于PC或MIV/分块的场景表示被用作输入，并且具有将其转换为MPI表示(例如，“完整”MPI)的某种标准方式。这可以基于一些标准采样，即256个MPI切片，但是不需要指定256个深度，其根据公式得来。有利地，一个或多个深度集合被指定用于生成缩减的MPI表示，其中深度值被指定(例如，25切片MPI，其中元数据指定25个深度值)。

–基于PC或MIV/分块的场景表示被用作输入，并且具有一个或多个深度集合，其中元数据指定深度值的数量(例如，MPI切片的数量)和每个切片的深度，如在所描述的实施方案中。

–从开始就使用基于MPI的表示(即，其可能以某种压缩形式作为MPI出现在客户端)以及一个或多个深度集合，该一个或多个深度集合将允许生成缩减的MPI表示，每个深度集合指定原始MPI将被重新映射/重新采样到的特定深度值的集合。

–基于PC或MIV/分块的场景表示被用作输入。该元数据指定至少一个深度集合，其中该至少一个深度集合被指示用于从场景表示生成CGH(可能具有一些附加的深度集合，其可以被指示用于非CGH渲染，或者可能用于特定的渲染设备类型)。

根据一个实施方案，用于从体积视频的基于分层的重建表示确定CGH的上述实施方案可以在传输系统中使用，其中3D场景通过网络作为MPI的集合传输，并且CGH从MPI的传输和解码的集合重建。根据变型，遵循MIV压缩方案(MDS20001_WG04_N00049,Text of ISO/IEC DIS 23090-12 MPEG Immersive Video)压缩MPI的集合。

在这种情况下，不像这样传输MPI，而是将其转换为基于分块的内容。每个层被转换成分块的集合。对于MIV技术的初始用例，在解码器侧，仅预见给定视口的视图合成。可以作为压缩处理的输入的MPI结构不应当在解码侧渲染。相反，在CGH应用的情况下，层的数量和层中的每个层的深度值适于生成CGH的设备的能力。

然后，通过将指定针对体积视频的基于层的表示的深度层的数量和深度层中的每个深度层的深度值的信息与深度层的集合相关联来构造元数据的集合。该元数据流与MIV内容一起传输。在解码侧，基于这些元数据，重建由深度层的数量和深度层中的每个深度层的深度值所指定的体积视频的基于层的表示。下面描述该实施方案的一些变型。应当注意，下面的实施方案是在使用计算机生成全息图渲染的体积内容的情况下描述的，然而，这些实施方案可以应用于任何其他体积内容渲染并且不限于计算生成全息图。如下面将看到的，下面描述的方法和系统可以以一般方式应用于任何体积内容表示。

图10示出了对表示3D场景序列的数据进行编码、传输和解码的非限制性示例。编码格式可例如同时兼容3DoF、3DoF+和6DoF解码。

获得3D场景序列1000。如同画面序列是2D视频，3D场景序列是3D(也称为体积)视频。可将3D场景序列提供给体积视频渲染设备以进行3DoF、3Dof+或6DoF渲染和显示。

可将3D场景序列1000提供给编码器1001。编码器1001将一个3D场景或3D场景序列作为输入，并提供表示该输入的比特流。比特流可存储在存储器1002中和/或电子数据介质上，并且可通过网络1002传输。表示3D场景序列的比特流可由解码器1003从存储器1002读取和/或从网络1002接收。解码器1003由比特流输入并提供例如点云格式的3D场景序列。

编码器1001可包括实现若干步骤的若干电路。在第一步骤中，编码器1001将每个3D场景投影到至少一个2D画面上。3D投影是将三维点映射到二维平面的任何方法。由于用于显示图形数据的大多数当前方法都基于平面(来自几个位平面的像素信息)二维介质，因此这种类型的投影的用途是广泛的，在计算机图形、工程和制图方面尤为如此。投影电路1011为3D场景1000序列提供至少一个二维帧1015。帧1015包括表示投影到帧1015上的3D场景的颜色信息和深度信息。在一个变型中，颜色信息和深度信息被编码在两个单独的帧1015和1016中。

元数据1012由投影电路1011使用和更新。元数据1012包括关于投影操作的信息(例如投影参数)以及关于颜色和深度信息在帧1015和1016内的组织方式的信息。

视频编码电路1013将帧1015和1016序列编码为视频。3D场景的画面1015和1016(或3D场景的画面序列)由视频编码器1013编码在流中。然后，视频数据和元数据1012由数据封装电路1014封装在数据流中。

编码器1013例如与诸如以下的编码器兼容：

–JPEG，规范ISO/CEI 10918-1 UIT-T Recommendation T.81，https://www.itu.int/rec/T-REC-T.81/en；

–AVC，也称为MPEG-4 AVC或h264。在UIT-T H.264和ISO/CEI MPEG-4第10部分(ISO/CEI 14496-10)两者中规定，http://www.itu.int/rec/T-REC-H.264/en，HEVC(其规范见于ITU网站，T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en)；

–3D-HEVC(HEVC的扩展，其规范见于ITU网站，Trecommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I)；

–Google开发的VP9；或者

–由Alliance for Open Media开发的AV1(AOMedia Video 1)。

数据流被存储在可由解码器1003例如通过网络1002访问的存储器中。解码器1003包括实现不同的解码步骤的不同电路。解码器1003将由编码器1001生成的数据流作为输入，并提供待由如头戴式设备(HMD)或全息显示器的体积视频显示设备渲染和显示的3D场景序列1004。在全息显示的情况下，在由解码器或从解码的内容确定或计算CGH的附加模块执行的显示之前还有一个步骤。解码器1003从源1002获得流。例如，源1002属于一组，该组包括：

–本地存储器，例如视频存储器或RAM(或随机存取存储器)、闪存存储器、ROM(或只读存储器)、硬盘；

–存储接口，例如具有大容量存储装置、RAM、闪存存储器、ROM、光盘或磁性载体的接口；

–通信接口，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或接口)；以及

–使用户能够输入数据的用户界面，诸如图形用户界面。

解码器1003包括用于提取在数据流中编码的数据的电路1034。电路1034将数据流作为输入，并提供对应于在流中编码的元数据1012的元数据1032和二维视频。视频由提供帧序列的视频解码器1033解码。解码帧包括颜色和深度信息。在一个变型中，视频解码器1033提供两个帧序列，一个包含颜色信息，另一个包含深度信息。电路1031使用元数据1032对来自解码帧的颜色和深度信息进行去投影，以提供3D场景序列1004。在全息内容的情况下，电路1031根据上述实施方案中的任一个实施方案从解码的内容(颜色和最终深度)计算CGH。

3D场景序列1004对应于3D场景序列1000，可能损失与作为2D视频的编码和视频压缩相关的精度。例如，由于全息显示而获得序列1004。

图11示出了表示体积场景的基于MPI的图集的构造。多平面图像(MPI)是体积场景的分层表示，其中每一层实际上是场景的3D空间的切片。根据底层中心投影(例如，透视、球面……)和定义层间间距的采样定律对每个切片进行采样。层包括场景的任何3D相交对象的纹理(即颜色信息)以及透明度信息。根据该切片表示，可以恢复/合成位于围绕底层投影的中心的有限区域中的任何视点。这可以利用有效算法(例如，“反向”画家算法)来执行，该算法从最近开始到最远层将每一层与适当权重(即透明度)混合。此类技术的运行可比其他已知视图合成流程要快得多。该MPI可以作为两个视频比特流来传送，该两个视频比特流分别编码纹理和透明度分块图集图像。每个分块的深度(即，对应于该3D场景的投影点和投影表面或投影中心之间的距离的几何数据)都是恒定的(因为MPI编码的原理)并且可以用信号通知，例如在图集信息数据流中和/或在数据流之一的元数据中或在对不同轨道中的两个图集序列进行编码的一个数据流的元数据中用信号通知。下面是用于用信号通知位于图集中的空间位置pdu_2d_pos_x、pdu_2d_pos_y处的分块p的深度(pdu_depth_start)的语法的示例：

patch_data_unit(tileID,p){pdu_2d_pos_x[tileID][p]pdu_2d_pos_y[tileID][p]…pdu_depth_start[tileID][p]…}

图12示出了根据本发明原理的实施方案的用于对表示3D场景/体积内容的数据内容进行编码的方法1200的框图。要编码的体积视频被输入到该过程。在1210处，将当前视频内容编码在该比特流中。在编码之前，如在图7的步骤710和图9的步骤910中解释的那样对当前视频内容进行预处理，并且针对体积内容的至少一个优化的基于分层的表示生成元数据。如先前解释的，根据第一实施方案，当前视频是MPI，根据第二实施方案，当前视频内容是PC。

根据一个实施方案，在1220中将指定数据内容是否具有表示深度层的至少一个集合的信息和/或表示深度层的集合的信息的指示符编码为元数据，其中上述信息指定针对体积视频的基于层的表示的深度层的数量和深度层中的每个深度层的深度值。

下面参考图14描述用于对MPI进行编码的实施方案的示例。

根据本发明原理的实施方案，根据V3C/MIV规范对MPI进行编码。深度层的集合是与完整帧相关的信息。此外，由于不需要每帧修改元数据的该集合，但是必须定期地重新评估该集合，以便适应内容中的修改。例如，在场景剪辑的情况下，这总是必须被重新评估。则重新评估的频率可以是每个GOP或者甚至小于这个GOP。元数据的该集合将在相同的基础上被定期发送。因此，元数据优选地在“公共图集数据”的级别上被插入V3C/MIV规范中。V3C/MIV规范通过在8.2.1.6部分和新部分8.2.1.6.9中添加新标志以插入这些元数据来如下修改。因此，如下在公共图集序列参数集合MIV扩展语法中添加标志和数据结构(添加的语法元素被加下划线)：

8.2.1.6公共图集帧MIV扩展语法

所添加的标志“came_update_set_layer_flag”允许定义指定数据内容是否具有表示深度层的至少一个集合的信息的指示符。例如，值＝1指示存在用于指定深度层的集合的语法结构，并且值＝0指示不存在用于指定深度层的集合的语法结构。在下面示出的深度层更新MIV扩展语法中给出用于指定深度层的集合的语法结构。

8.2.1.6.9 MIV深度层更新语法

MIV深度层更新的语义可以被指定如下：

came_update_set_layer_flag等于1指示miv_set_depth_layer_update()存在于此语法结构中。came_update_set_layer_flag等于0指示miv_set_depth_layer_update()不存在于此语法结构中。如果came_update_set_layer_flag等于1，则miv_set_depth_layer_updates_minus1指示该结构中存在的集合深度层的数量。对于深度层i的每个集合，miv_depth_layer_updates_minus1[i]指示深度层i的该集合中的深度层的数量。depth_layer_value[i,j]指示深度层i的该集合的深度j的深度值。

根据本发明原理的实施方案，根据V3C规范对PC进行编码。如上所述，将基于GOP定期发送元数据的集合。深度级别的集合是与完整帧相关的信息。其必须在“公共图集数据”的级别上被插入V3C规范中。通过在8.3.6.2.1部分中添加新标志以插入这些元数据来如下修改V3C规范。因此，如下在一般图集帧参数集合RBSP(原始字节序列有效载荷)语法中添加标志和数据结构(添加的语法元素被加下划线)：

8.3.6.2.1一般图集帧参数集合RBSP语法

atlas_frame_parameter_set_rbsp()描述符中包括的V3C深度层更新语义被定义如下：

afps_set_layer_flag等于1指示在该语法结构中存在深度层的多个集合。afps_set_layer_flag等于0指示在该语法结构中不存在深度层的集合。如果afps_set_layer_flag等于1，则pc_set_depth_layer_updates_minus1指示该结构中存在的集合深度层的数量。对于深度层i的每个集合，pc_depth_layer_updates_minus1[i]指示深度层i的该集合中的深度层的数量。Pc_depth_layer_value[i,j]指示深度层i的该集合的深度j的深度值。

图13示出了当通过基于分组的传输协议传输数据时流的语法的实施方案的示例。图13示出了体积视频流的示例性结构130。该结构包含在以语法的独立元素组织流的容器中。该结构可包括标头部分131，它是流的每个语法元素所共有的一组数据。例如，标头部分包括关于语法元素的一些元数据，描述它们中每一个的性质和角色。标头部分还可包括图10的元数据1012的一部分，例如用于将3D场景的点投影到帧1015和1016上的中心视点的坐标。该结构包括有效载荷，该有效载荷包括语法元素132和至少一个语法元素133。语法元素132包括表示颜色和深度帧的数据。图像可能已根据视频压缩方法进行了压缩。

语法元素133是数据流的有效载荷的一部分，并且包括关于如何对语法元素132的帧进行编码的元数据，例如用于将3D场景的点投影和打包到帧上的参数。此类元数据可与视频的每个帧或帧组(在视频压缩标准中也称为画面组(GoP))相关联。

根据一些实施方案，元数据133包括指定数据内容(即，视频数据152)是否具有表示深度层的至少一个集合的关联信息的指示符。

根据另一实施方案，元数据133还包括表示深度层的集合的信息，该信息指定针对数据内容(即，视频数据152)的基于层的表示的深度层的数量和深度层中的每个深度层的深度值。

图14示出了根据本发明原理的实施方案的用于对基于MPI的3D场景进行编码的方法140的框图。在步骤141，获得3D场景/体积视频，其被表示为多平面图像。从该MPI表示的不同图层提取分块画面。分块是纹理分块(即：包括透明度值的颜色值)。在步骤142，这些分块被打包在图集中。在一个变型中，纹理分块不包括透明度值并且获得对应的透明度分块。在另一个实施方案中，根据分块的性质(即，纹理或颜色、透明度、深度……)将这些分块打包在单独的图集中。在步骤142中，构建元数据以用信号通知该表示的元素。根据变型，MPI表示的该数量的深度层在元数据中的视图级别被编码。在步骤143中，在表示分块的描述的语法结构中用信号通知分块所属的深度层。在步骤144中，将生成的图集和生成的元数据编码到数据流中。

图15示出了以4个投影中心为例的分块图集方法。3D场景150包括人物。例如，投影中心151是透视相机，并且相机153是正射相机。相机还可以是具有例如球面映射(例如等矩形映射)或立方体映射的全向相机。根据在元数据的投影数据中描述的投影操作，3D场景的3D点被投影到与位于投影中心处的虚拟相机相关联的2D平面上。在图15的示例中，根据透视映射将由相机151捕获的点的投影映射到分块152上，并且根据正射映射将由相机153捕获的点的投影映射到分块154上。

投影像素的群集产生多个2D分块，其被打包在矩形图集155中。图集内分块的组织限定了图集布局。在一个实施方案中，具有相同布局的两个图集：一个用于纹理(即颜色)信息，并且一个用于深度信息。由同一相机或由两个不同相机捕获的两个分块可包括表示3D场景的相同部分的信息，如例如分块154和156。

打包操作为每个生成的分块产生分块数据。分块数据包括对投影数据的引用(例如，投影数据表中的索引或指向投影数据的指针(即，存储器中或数据流中的地址))和描述图集内分块的位置和尺寸的信息(例如，左上角坐标、尺寸和以像素为单位的宽度)。将分块数据项添加到元数据，以与一个或两个图集的压缩数据相关联地封装在数据流中。

图16示出了根据本发明原理的实施方案的用于对体积视频进行解码的方法1600的框图。在1601处，从比特流解码元数据，其中元数据包括指定数据内容是否具有表示深度层的至少一个集合的信息的指示符，其中表示深度层的集合的信息指定用于重建体积视频的基于层的表示的深度层的数量和深度层中的每个深度层的深度值。根据变型，在1602处，从比特流中解码当前数据内容。在1603处，从解码的数据内容和解码的元数据重建体积视频的基于分层的表示，如先前关于CGH的生成所解释的。此外，在一个变型中，在1603处，可以实施用于重建或生成CGH的上述实施方案中的任一个实施方案。根据另一实施方案，可以使用任何其他渲染方法诸如用于在头戴式显示器上渲染3D数据的方法来重建3D场景。

各种具体实施参与解码。如本申请中所用，“解码”可涵盖例如对所接收的编码序列执行的过程的全部或部分，以便产生适于显示的最终输出。在各种实施方案中，此类过程包括通常由解码器执行的一个或多个过程，例如熵解码、逆量化、逆变换和差分解码。在各种实施方案中，此类过程还包括或另选地包括由本应用中所述的各种具体实施的解码器执行的过程。

作为进一步的示例，在一个实施方案中，“解码”仅是指熵解码，在另一个实施方案中，“解码”仅是指差分解码，并且在又另一个实施方案中，“解码”是指熵解码和差分解码的组合。短语“解码过程”旨在具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的，并且被认为会被本领域的技术人员很好地理解。

各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式，如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。在各种实施方案中，此类过程包括通常由编码器执行的一个或多个过程，例如，分区、差分编码、变换、量化和熵编码。在各种实施方案中，例如，此类过程还包括或另选地包括由本申请中所述的各种具体实施的编码器执行的过程。

作为进一步的示例，在一个实施方案中，“编码”仅是指熵编码，在另一个实施方案中，“编码”仅是指差分编码，并且在又一个实施方案中，“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的，并且据信将被本领域的技术人员很好地理解。

注意，本文所用的语法元素是描述性术语。因此，它们不排除使用其他语法元素名称。

本公开已描述了例如可被传输或存储的各种信息，诸如例如语法。此信息能够以多种方式封装或布置，包括例如视频标准中常见的方式，诸如将信息放入SPS、PPS、NAL单元、标头(例如，NAL单元标头或切片标头)或SEI消息中。其他方式也是可用的，包括例如用于系统级或应用级标准的通用方式，诸如将信息放入以下中的一者或多者：

a.SDP(会话描述协议)，其为用于描述多媒体通信会话以用于会话通知和会话邀请的一种格式，例如，如在RFC中所述并与RTP(实时传输协议)传输结合使用。

b.DASH MPD(媒体展示描述)描述符，例如如在DASH中使用并且通过HTTP传输，一种与表示或表示的集合相关联以向内容表示提供附加的特性的描述符。

c.RTP标头扩展，例如，如在RTP流式传输期间使用。

d.ISO基础媒体文件格式，例如，如在OMAF中使用并且使用box，该box是由唯一类型标识符和长度定义的面向对象的构建块，在某些规范中也称为“atom”。

e.通过HTTP传输的HLS(HTTP实时流式传输)清单。例如，清单可与内容的版本或版本集合相关联，以提供版本或版本集合的特性。

当附图呈现为流程图时，应当理解，其还提供了对应装置的框图。类似地，当附图呈现为框图时，应当理解，其还提供了对应的方法/过程的流程图。

本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法讨论)，讨论的特征的具体实施也可以其他形式(例如，装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的处理器中实现，该处理设备包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。

提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型，意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此，短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指相同的实施方案。

另外，本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。

此外，本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、检索信息(例如，从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。

另外，本申请可涉及“接收”各种信息。与“访问”一样，接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如，从存储器)中的一者或多者。此外，在诸如例如存储信息、处理信息、传输信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间，“接收”通常以一种方式或另一种方式参与。

应当理解，例如，在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下，使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或选择两个选项(A和B)。作为进一步的示例，在“A、B和/或C”和“A、B和C中的至少一者”的情况下，此类短语旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或仅选择第三列出的选项(C)，或仅选择第一列出的选项和第二列出的选项(A和B)，或仅选择第一列出的选项和第三列出的选项(A和C)，或仅选择第二列出的选项和第三列出的选项(B和C)，或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是，这可扩展到所列出的尽可能多的项目。

对于本领域的普通技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如，可格式化信号以携带所述实施方案的比特流。可格式化此类信号例如为电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流编码并且用编码的数据流调制载体。信号携带的信息可以是例如模拟或数字信息。众所周知，信号可通过各种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

Claims

1.一种方法，所述方法包括：

从比特流中对表示体积视频的数据内容进行解码；

从比特流中对指定数据内容是否具有表示深度层的至少一个集合的信息的指示符进行解码，表示深度层的集合的所述信息指定针对所述体积视频的基于层的表示的深度层的数量和所述深度层中的每个深度层的深度值。

2.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于：

从比特流中对表示体积视频的数据内容进行解码；

3.根据权利要求1所述的方法或根据权利要求2所述的装置，其中如果所述指示符指定数据内容具有表示深度层的至少一个集合的信息，则所述方法还包括：

从所述比特流中对表示深度层的所述至少一个集合的所述信息进行解码；以及

在深度层的所述至少一个集合中选择深度层的集合；以及

重建所述体积视频的基于层的表示，所述体积视频的所述基于层的表示包括与所选择的集合的深度层的数量和所述深度层中的每个深度层的深度值相对应的深度层的所述数量和所述深度层中的每个深度层的所述深度值。

4.根据权利要求1或3中任一项所述的方法或根据权利要求2至3中任一项所述的装置，其中表示体积视频的所述数据内容是多平面图像序列，其中所述多平面图像序列包括至少一个多平面图像，多平面图像包括多个层。

5.根据权利要求3和4所述的方法或根据权利要求3和4所述的装置，其中重建所述体积视频的基于层的表示还包括：

从所述多平面图像序列的分块的图集中解码分块的子集；

将所述子集的每个解码分块分配给深度层的所选择的集合中的最近深度层；以及

使用分配给所述层的所解码分块来重建深度层的所述集合中的每个层。

6.根据权利要求4至5中任一项所述的方法或根据权利要求4至5中任一项所述的装置，其中指定数据内容是否具有表示深度层的至少一个集合的信息的所述指示符和表示深度层的集合的所述信息被用信号发送为公共图集序列参数集合。

7.根据权利要求1或3中任一项所述的方法或根据权利要求2至3中任一项所述的装置，其中表示体积视频的所述数据内容是点云。

8.根据权利要求3和7所述的方法或根据权利要求3和7所述的装置，其中重建所述体积视频的基于层的表示还包括：

对所述点云的样本的子集进行解码；

将所述子集的每个解码样本分配给所选择的集合中的最近深度层；以及

使用分配给所述层的所述解码样本来重建深度层的所述集合中的每个层。

9.根据权利要求7或8中任一项所述的方法或根据权利要求7或8中任一项所述的装置，其中指定数据内容是否具有表示深度层的至少一个集合的信息的所述指示符和表示深度层的集合的信息被用信号发送为RBSP语法的一般图集帧参数集合。

10.一种方法，所述方法包括：

在比特流中对表示体积视频的数据内容进行编码；

在所述比特流中对指定数据内容是否具有表示深度层的至少一个集合的信息的指示符进行编码，表示深度层的集合的所述信息指定针对所述体积视频的基于层的表示的深度层的数量和所述深度层中的每个深度层的深度值。

11.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于：

在比特流中对表示体积视频的数据内容进行编码；

12.根据权利要求10所述的方法或根据权利要求11所述的装置，其中如果所述指示符指示数据内容具有表示深度层的至少一个集合的信息，则所述方法还包括对表示深度层的集合的所述信息进行编码。

13.根据权利要求10或12中任一项所述的方法或根据权利要求11至12中任一项所述的装置，其中表示体积视频的所述数据内容是多平面图像序列，其中所述多平面图像序列包括至少一个多平面图像，多平面图像包括多个层。

14.根据权利要求13所述的方法或根据权利要求13所述的装置，其中指定数据内容是否具有表示深度层的至少一个集合的信息的所述指示符和表示深度层的集合的所述信息被编码在公共图集序列参数集合中。

15.根据权利要求10或12中任一项所述的方法或根据权利要求11至12中任一项所述的装置，其中表示体积视频的所述数据内容是点云。

16.根据权利要求15所述的方法或根据权利要求15所述的装置，其中指定数据内容是否具有表示深度层的至少一个集合的信息的所述指示符和表示深度层的集合的信息被用信号发送为RBSP语法的一般图集帧参数集合。

17.一种方法，所述方法包括从体积视频的重建的基于层的表示重建至少一个计算机生成全息图，其中根据权利要求3、5或8中的任一项获得所述体积视频的所述重建的基于层的表示。

18.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于从体积视频的重建的基于层的表示重建至少一个计算机生成全息图，其中根据权利要求3、5或8中的任一项获得所述体积视频的所述重建的基于层的表示。

19.根据权利要求17所述的方法或根据权利要求18所述的装置，其中选择深度层的集合包括：

确定使用深度层的至少一个集合中的每个集合重建所述体积视频的所述基于层的表示以及重建所述CGH所需的资源；以及

选择具有最大数量的深度层的所述深度层集合，对于所述深度层集合，用于重建所述体积视频的所述基于层的表示以及重建所述CGH的所确定的资源在资源预算的范围内。

20.根据权利要求19所述的方法或根据权利要求19所述的装置，其中所确定的资源包括处理循环的数量、解码时间的量、存储器的量中的至少一者。

21.根据权利要求18至20中任一项所述的装置，其中所述资源预算包括所述装置中可用的处理循环的数量、所述装置中可用的解码时间的量、所述装置中可用的存储器的量中的至少一者。

22.一种包括比特流的计算机可读介质，所述比特流包括：数据内容，所述数据内容表示体积视频；以及指示符，所述指示符指定数据内容是否具有表示深度层的至少一个集合的信息，表示深度层的集合的所述信息指定针对所述体积视频的基于层的表示的深度层的数量和所述深度层中的每个深度层的深度值。

23.根据权利要求22所述的计算机可读介质，其中如果所述指示符指定数据内容具有表示深度层的至少一个集合的信息，则所述比特流还包括表示深度层的所述至少一个集合的所述信息。

24.一种计算机可读存储介质，所述计算机可读存储介质具有存储在其上的指令，所述指令用于致使一个或多个处理器执行根据权利要求1、3至9、10、12至16、17、19和20中任一项所述的方法。

25.一种计算机程序产品，所述计算机程序产品包括用于当由一个或多个处理器执行时执行根据权利要求1、3至9、10、12至16、17、19和20中任一项所述的方法的指令。