CN115462088A

CN115462088A - 用于体积视频的不同图集打包

Info

Publication number: CN115462088A
Application number: CN202180030985.0A
Authority: CN
Inventors: B·楚波; R·多尔; F·苏多
Original assignee: Interactive Digital Vc Holding France
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2020-04-07
Filing date: 2021-04-01
Publication date: 2022-12-09
Also published as: US20230224501A1; WO2021204700A1; EP4133738A1

Abstract

公开了在体积视频内容的基于分块的传输的上下文中对场景(诸如点云)进行编码和解码的方法、设备和流。将场景的点的属性投影到分块上。每个点均具有几何结构属性。对于其它属性，如位移属性的透明度，一些点可能不具有值。根据本发明原理，将每个属性编码在带有自有布局的不同图集中。这允许将像素率保存在渲染器的存储器中。

Description

用于体积视频的不同图集打包

技术领域

本发明原理总体涉及三维(3D)场景和体积视频内容的领域。也在编码、格式化和解码表示3D场景的点的属性的数据的上下文中理解本文档，以在诸如移动设备或头戴式显示器(HMD)的最终用户设备上渲染体积内容。

背景技术

本部分旨在向读者介绍本领域的各个方面，这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息，以促进更好地理解本发明原理的各个方面。因此，应当理解，这些陈述应当从这个角度来解读，而不是承认现有技术。

最近，可用的大视场内容(高达360°)有所增长。观看沉浸式显示设备(诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话等)上的内容的用户可能无法完全看到此类内容。这意味着在给定的时刻，用户只能观看一部分内容。然而，用户通常可通过例如头部移动、鼠标移动、触摸屏、语音以及类似物的各种手段在内容内导航。通常希望对该内容进行编码和解码。

沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以满足第一次全向视频体验(例如，使用头戴式显示器(HMD设备))的要求，但3DoF视频对于期望更多自由(例如，通过体验视差)的观看者可能很快变得令人沮丧。此外，3DoF还可能导致眩晕，因为用户永远不会只旋转其头部，而是还向三个方向平移头部，这些平移不会在3DoF视频体验中再现。

其中，大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频。许多术语可用于设计此类沉浸式视频：例如，虚拟现实(VR)、360、全景、4π球面度、沉浸式、全向或大视场。

体积视频(也称为6自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时，除了旋转之外，用户还可以在观看的内容中平移其头部，甚至其身体，并且体验视差甚至体积。这种视频显著增加了沉浸感和对场景深度的感知，并通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容是通过专用传感器创建的，允许同时记录感兴趣场景的颜色和深度。即使仍然存在技术困难，使用结合摄影测量技术的彩色相机装备也是执行这种记录的一种方式。

虽然3DoF视频包括由纹理图像的解映射产生的图像序列(例如，根据纬度/经度投影映射或等角投影映射编码的球面图像)，但6DoF视频帧嵌入了来自多个视点的信息。它们可被视为由三维捕获产生的点云的时间序列。根据观看条件可以考虑两种体积视频。第一种(即完整的6DoF)允许在视频内容内完全自由导航，而第二种(又名3DoF+)将用户观看空间限制到称为观看边界框的有限体积，从而允许有限的头部平移和视差体验。该第二种情况是在自由导航和就座观众的被动观看条件之间的有价值的折衷。

在3DoF+场景中，一种方法包括仅发送从观看边界框的任何点观察3D场景所需的几何结构和颜色信息。另一种方法考虑发送附加信息，即除了颜色属性之外的3D场景的点的其它属性，无论从查看边界框是可见还是不可见，但可用于在解码器侧执行更高质量的视口渲染或其它过程，如重新照明、碰撞检测或触觉交互作用。可以与由3D场景的点的投影产生的图像的像素的颜色属性相同的格式传送这种附加信息。然而，3D场景的每个点并不共享相同数量的属性。例如，不需要针对场景的每个点传输透明度属性，因为绝大多数的点均具有默认透明度值(即不透明值)。其它属性可能更漫射并且不需要投影图的精细分辨率。因此，需要一种格式和方法，用于携带表示3D场景的点的每个属性，同时限制编码比特流、传输比特流和解码比特流的比特率和像素率。

发明内容

以下呈现本发明原理的简化概述，以便提供对本发明原理的一些方面的基本理解。本发明内容不是本发明原理的广泛概述。不旨在识别本发明原理的关键或重要元素。以下发明内容仅以简化形式呈现本发明原理的一些方面，作为下面提供的更详细描述的前言。

本发明原理涉及一种包括从数据流解码出第一图像、第二图像和相关联的元数据的方法。元数据包括数据项列表。数据项包括：

-第一图像的对应于当前分块的区域的位置和尺寸。分块是对3D场景的一部分点的投影进行编码的图片；

-指示当前分块是否存在于第二图像中的标记；以及

-在标记指示当前分块存在于第二图像中的条件下，第二图像的对应于当前分块的区域的位置。

在一个实施方案中，第一图像的像素编码3D场景的一部分点的第一属性，并且第二图像的像素编码3D场景的相同部分的第二属性。第一属性不同于第二属性。

在另一个实施方案中，根据所解码的元数据反向投影第一图像和第二图像的像素，以生成3D场景并且生成视口图像，以从3D场景内的视点对体积内容进行渲染。

本发明原理还涉及一种包括被配置为实现上述方法的步骤的处理器的设备。

本发明原理还涉及根据上述方法进行编码的数据流。

本发明原理也涉及一种方法，该方法包括：

-获得一组第一分块和第二分块。第一分块对3D场景的一部分点的第一属性的投影进行编码；第二分块对该3D场景的一部分点的第二属性和第一属性的投影进行编码；

-通过将该组的第一分块和第二分块打包到第一图像中，来对该第一图像中的第一属性进行编码，并且通过将该组的第二分块打包到第二图像中，来对该第二图像中的第二属性进行编码；

-生成包括第一图像、第二图像和相关联的元数据的数据流。对于该组分块的当前分块，元数据包括：

·第一图像的对应于当前分块的区域的位置和尺寸；

·指示当前分块是否是第二分块的标记；以及

·在当前分块是第二分块的条件下，第二图像的对应于当前分块的区域的位置。

附图说明

将更好地理解本公开，并且在阅读以下描述、参考附图的描述之后，将出现其他特定特征和优点，其中：

-图1示出了根据本发明原理的非限制性实施方案的对象的三维(3D)模型和对应于该3D模型的点云的点；

-图2示出了根据本发明原理的非限制性实施方案的对表示3D场景序列的数据进行编码、传输和解码的非限制性示例；

-图3示出了根据本发明原理的非限制性实施方案的可被配置为实现关于图8和图9描述的方法的设备的示例性架构；

-图4示出了根据本发明原理的非限制性实施方案的当通过基于分组的传输协议传输数据时流的语法的实施方案的示例；

-图5示出了根据本发明原理的非限制性实施方案的以4个投影中心为例的分块图集方法；

-图6示出了根据本发明原理的非限制性实施方案的为存储一个或两个属性的一组分块生成图集；

-图7示出了根据本发明原理的非限制性实施方案的位移属性的确定；

-图8示出了根据本发明原理的非限制性实施方案的用于对表示体积内容的数据流进行解码的方法80；

-图9示出了根据本发明原理的非限制性实施方案的用于对数据流中的体积内容进行编码的方法90。

具体实施方式

下文将参考附图更全面地描述本发明原理，在该附图中示出了本发明原理的示例。然而，本发明原理可以许多替代形式体现，并且不应被解释为限制于本文阐述的示例。因此，虽然本发明原理易受各种修改和替代形式的影响，但是其具体示例通过附图中的示例示出，并且本文将详细描述。然而，应当理解，不存在将本发明原理限制为所公开的特定形式的意图，但是相反，本公开用于涵盖落入由权利要求书限定的本发明原理的实质和范围内的所有修改、等同物和替代方案。

本文使用的术语仅出于描述特定示例的目的，并且不旨在限制本发明原理。如本文所用，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另有明确说明。将会进一步理解，当用于本说明书时，术语“包括”和/或“包含”指定存在所述特征、整数、步骤、操作、元件和/或分量，但不排除一个或多个其他特征、整数、步骤、操作、元件、分量和/或其组的存在或添加。此外，当元件被称为“响应”或“连接”到另一元件时，它可以直接响应或连接到另一元件，或者可以存在中间元件。相反，当元件被称为“直接响应”或“直接连接”到其他元件时，不存在中间元件。如本文所用，术语“和/或”包括列出的相关联项中的一者或多者的任何和所有组合，并且可以缩写为“/”。

应当理解，尽管在本文中可使用术语第一、第二等来描述各种元件，但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如，在不脱离本发明原理的教导内容的情况下，第一元件可以被称为第二元件，并且类似地，第二元件可以被称为第一元件。

尽管一些图示包括通信路径上的箭头以显示主通信方向，但是应理解，通信可以在与所描绘箭头相反的方向上发生。

关于其中每个框表示电路元件、模块或代码部分的框图和操作流程图描述了一些示例，该代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是，在其他具体实施中，框中标注的功能可能不按标注的顺序出现。例如，连续显示的两个框实际上可基本上同时执行，或者这些框有时可根据所涉及的功能以相反的顺序执行。

本文中的“根据一个示例”或“在一个示例中”的参考意味着结合示例描述的特定特征、结构或特性可以包括在本发明原理的至少一个具体实施中。说明书中各个地方的“根据一个示例”或“在一个示例中”的短语的出现不一定全部参考同一示例，也不一定是与其他示例相互排斥的单独的或替代的示例。

在权利要求书中出现的附图标号仅通过说明的方式，并且对权利要求书的范围没有限制作用。虽然未明确描述，但本示例和变体可以任何组合或子组合采用。

图1示出了对象的三维(3D)模型10和对应于3D模型10的点云11的点。3D模型10和点云11可例如对应于包括其他对象的3D场景的对象的可能3D表示。模型10可以是3D网格表示，并且点云11的点可以是网格的顶点。点云11的点也可以是分布在网格面的表面上的点。模型10也可表示为点云11的喷溅版本，模型10的表面是通过喷溅点云11的点而创建的。模型10可由诸如体素或样条的许多不同表示来表示。图1示出了可用3D对象的表面表示来定义点云以及可从云点生成3D对象的表面表示的事实。如本文所用，将3D对象的点(引申为3D场景的点)投影到图像上等效于投影该3D对象的任何表示，例如点云、网格、样条模型或体素模型。

点云可在存储器中表示为例如基于矢量的结构，其中每个点在视点的参照系中都有自己的坐标(例如三维坐标XYZ，或立体角和从/到视点的距离(也称为深度))和一个或多个属性，也称为分量。分量的一个示例是可在各种色彩空间中表示的颜色分量，例如RGB(红、绿和蓝)或YUV(Y是亮度分量并且UV是两个色度分量)。点云是包括对象的3D场景的表示。可从给定视点或视点范围看到3D场景。点云可通过多种方式获得，例如：

·从由相机装备拍摄的真实对象的捕获，任选地辅以深度主动感测设备；

·从由建模工具中的虚拟相机装备拍摄的虚拟/合成对象的捕获；

··从真实对象和虚拟对象两者的混合。

图2示出了对表示3D场景序列的数据进行编码、传输和解码的非限制性示例。编码格式可例如同时兼容3DoF、3DoF+和6DoF解码。

获得3D场景序列20。如同画面序列是2D视频，3D场景序列是3D(也称为体积)视频。可将3D场景序列提供给体积视频渲染设备以进行3DoF、3Dof+或6DoF渲染和显示。

可将3D场景序列20提供给编码器21。编码器21将一个3D场景或3D场景序列作为输入，并提供表示该输入的比特流。比特流可存储在存储器22中和/或电子数据介质上，并且可通过网络22传输。表示3D场景序列的比特流可由解码器23从存储器22读取和/或从网络22接收。解码器23由比特流输入并提供例如点云格式的3D场景序列。

编码器21可包括实现若干步骤的若干电路。在第一步骤中，编码器21将每个3D场景投影到至少一个2D画面上。3D投影是将三维点映射到二维平面的任何方法。由于用于显示图形数据的大多数当前方法都基于平面(来自几个位平面的像素信息)二维介质，因此这种类型的投影的用途是广泛的，在计算机图形、工程和制图方面尤为如此。投影电路211为3D场景20序列提供至少一个二维帧2111。帧2111包括表示投影到帧2111上的3D场景的颜色信息和深度信息。在变体中，颜色信息和深度信息被编码在两个单独的帧2111和2112中。在一个实施方案中，3D场景的点携带的不仅仅是几何结构属性和颜色属性。例如，场景的点可具有法线属性、透明度属性、漫反射或镜面反射属性。与点的位置和颜色不直接相关的其他属性可能是场景的3D模型的一部分，例如，将点与对象(例如，人物、树、墙、地板等)相关联的语义属性或对象的一部分(例如，头部、臂、叶等)。在本实施方案中，将这些属性投影到若干帧上、每个属性的帧或变体中，像素具有若干属性的一个帧中。

元数据212由投影电路211使用和更新。元数据212包括关于投影操作的信息(例如投影参数)以及关于颜色和深度信息在帧2111和2112内的组织方式的信息，如结合图5至图7所述。

视频编码电路213将帧2111和2112序列编码为视频。3D场景的画面2111和2112(或3D场景的画面序列)由视频编码器213编码在流中。然后，视频数据和元数据212由数据封装电路214封装在数据流中。

编码器213例如与诸如以下的编码器兼容：

-JPEG，规范ISO/CEI 10918-1UIT-T Recommendation T.81，https://www.itu.int/rec/T-REC-T.81/en；

-AVC，也称为MPEG-4AVC或h264。在UIT-T H.264和ISO/CEI MPEG-4第10部分(ISO/CEI 14496-10)两者中规定，http://www.itu.int/rec/T-REC-H.264/en，HEVC(其规范见于ITU网站，T recommendation,H series,h265,http://www.itu.int/rec/T-REC-

H.265-201612-I/en)；

-3D-HEVC(HEVC的扩展，其规范见于ITU网站，Trecommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I)；

-Google开发的VP9；或者

-由Alliance for Open Media开发的AV1(AOMedia Video 1)。

数据流被存储在可由解码器23例如通过网络22访问的存储器中。解码器23包括实现不同的解码步骤的不同电路。解码器23将由编码器21生成的数据流作为输入，并提供待由如头戴式设备(HMD)的体积视频显示设备渲染和显示的3D场景序列24。解码器23从源22获得流。例如，源22属于一组，该组包括：

-本地存储器，例如视频存储器或RAM(或随机存取存储器)、闪存存储器、ROM(或只读存储器)、硬盘；

-存储接口，例如具有大容量存储装置、RAM、闪存存储器、ROM、光盘或磁性载体的接口；

-通信接口，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或

接口)；

以及

-使用户能够输入数据的用户界面，诸如图形用户界面。

解码器23包括用于提取在数据流中编码的数据的电路234。电路234将数据流作为输入，并提供对应于在流中编码的元数据212的元数据232和二维视频。视频由提供帧序列的视频解码器233解码。解码帧包括颜色和深度信息。在变体中，视频解码器233提供两个帧序列，一个包含颜色信息，另一个包含深度信息。在一个实施方案中，将除了深度和颜色之外的其他属性编码在帧中。在本实施方案中，帧的像素具有两个以上的分量。在本实施方案的变体中，视频解码器233提供两个以上的帧序列，每个属性一个帧序列。电路231使用元数据232对来自解码帧的颜色和深度信息进行反向投影，以提供3D场景序列24。3D场景序列24对应于3D场景序列20，可能损失与作为2D视频的编码和视频压缩相关的精度。

例如，在通过电路231的反向投影步骤之前或在反向投影之后的后处理步骤中，可添加其它电路和功能。例如，可添加电路，以从位于场景中的任何位置处的另一个灯对场景进行重新照明。可对深度合成进行碰撞检测，例如，以一致的真实方式或者用于路径规划将新的对象添加到3DoF+场景中。此类电路可能需要有关3D场景的不用于3DoF+渲染本身的几何结构信息和/或颜色信息。不同种类的信息的语义必须通过表示3DoF+场景的比特流指示。

图3示出了可被配置为实现关于图8和图9描述的方法的设备30的示例性架构。图2的编码器21和/或解码器23可实现该架构。或者，编码器21和/或解码器23中的每个电路可以是根据图3的架构的设备，其例如经由其总线31和/或经由I/O接口36链接在一起。

设备30包括通过数据和地址总线31连接在一起的以下元件：

-微处理器32(或CPU)，该微处理器是例如DSP(或数字信号处理器)；

-ROM(或只读存储器)33；

-RAM(或随机存取存储器)34；

-存储接口35；

-I/O接口36，该I/O接口用于从应用程序接收要传输的数据；和

-电源，例如电池。

根据一个示例，电源在设备外部。在每个提到的存储器中，说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如，整个程序或大量接收或解码的数据)。ROM 33至少包括程序和参数。ROM 33可以根据本发明原理存储用于执行技术的算法和指令。当接通时，CPU 32上载RAM中的程序并执行对应指令。

RAM 34包括寄存器中的由CPU 32执行并在设备30的接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态中的中间数据以及用于在寄存器中执行方法的其他变量。

本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的具体实施也可以其他形式(例如，程序)实现。设备可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如，例如处理器)中实施，该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。

根据示例，设备30被配置为实现与图8和图9有关的所述方法，并且属于包括以下项的集合：

-移动设备；

-通信设备；

-游戏设备；

-平板电脑(或平板计算机)；

-膝上型电脑；

-静态图片相机；

-摄像机；

-编码芯片；

-服务器(例如广播服务器、视频点播服务器或web服务器)。

图4示出了当通过基于分组的传输协议传输数据时流的语法的实施方案的示例。图4示出了体积视频流的示例性结构4。该结构包含在以语法的独立元素组织流的容器中。该结构可包括标头部分41，它是流的每个语法元素所共有的一组数据。例如，标头部分包括关于语法元素的一些元数据，描述它们中每一个的性质和角色。标头部分还可包括图2的元数据212的一部分，例如用于将3D场景的点投影到帧2111和2112上的中心视点的坐标。该结构包括有效载荷，该有效载荷包括语法元素42和至少一个语法元素43。语法元素42包括表示深度帧的数据，并且如果存在其它属性，则不同属性帧(例如颜色、法线、透明度、镜面等)。图像可能已根据视频压缩方法进行了压缩。

语法元素43是数据流的有效载荷的一部分，并且可包括关于如何对语法元素42的帧进行编码的元数据，例如用于将3D场景的点投影和打包到帧上的参数。此类元数据可与视频的每个帧或帧组(在视频压缩标准中也称为画面组(GoP))相关联。

图5示出了以4个投影中心为例的分块图集方法。3D场景50包括人物。例如，投影中心51是透视相机，并且相机53是正射相机。相机还可以是具有例如球面映射(例如等矩形映射)或立方体映射的全向相机。根据在元数据的投影数据中描述的投影操作，3D场景的3D点被投影到与位于投影中心处的虚拟相机相关联的2D平面上。在图5的示例中，根据透视映射将由相机51捕获的点的投影映射到分块52上，并且根据正射映射将由相机53捕获的点的投影映射到分块54上。分块的像素至少包括几何结构属性，通常是深度属性(即，投影的中心与投影点之间的距离的量化)。分块的像素还可存储其它属性，例如投影点的颜色或纹理坐标或透明度等。

执行像素的聚集并且产生多个2D分块，其被打包在矩形图集55中。图集内分块的组织限定了图集布局。在一个实施方案中，图集的像素(即，打包在图集中的每个分块的像素)包括多个分量，因为存在投影到投影图上的点属性。在另一个实施方案中，分块图集方法生成尽可能多的图集，因为存在投影到投影图上的点属性。在两个实施方案中，投影几何结构属性(例如，深度值或3D坐标)。图集的反向投影(也称为反向投影)像素需要几何结构属性。3D场景的每个点至少具有几何结构属性。其它属性可能仅归因于3D场景的一部分点。即使颜色属性也可能仅归因于一部分点，例如在主体没有特定颜色(即默认颜色)而只有一个研究器官的医疗应用中。如透明度等其它属性可能仅涉及3D场景的一部分点。在第二实施方案中，每个图集均具有相同的图集布局，并且共享相同的元数据，如下文详述。由同一相机或由两个不同相机捕获的两个分块可包括表示3D场景的相同部分的信息，如例如分块54和56。

打包操作为每个生成的分块产生分块数据项。分块数据项包括对投影数据的引用(例如，投影数据表中的索引或指向投影数据的指针(即，存储器中或数据流中的地址))和描述图集内分块的位置和尺寸的信息(例如，左上角坐标、尺寸和以像素为单位的宽度)。将分块数据项添加到元数据，以与一个、两个或更多个图集的压缩数据相关联地封装在数据流中。

在现有技术中，对于给定数量的投影属性，生成相同数量的带有相同布局的图集。例如，对于两个属性A和B，例如根据上述方法获得一组分块。在两个属性A和B的情况下，可区分为两类分块。第一分块的像素存储属性A的值并且不存储属性B的值(或预先确定可省略的默认值)。第二分块的像素存储属性A和属性B两者的值。现有的方法创建对第一属性A进行编码的第一图集图像以及对第二属性B进行编码的第二图集图像，该第一图集打包该组的每个分块，该第二图集的尺寸与第一图集的尺寸相同并且仅在与第一图集中的相同打包位置、定向和尺寸打包第二分块。因此，第二图集部分为空：第一图集中存在第一分块的每个位置处，第二图集中的相同位置处存在不带有值(即，默认值，例如0)的像素。可容易地压缩带有相同值的像素的大矩形，并且略微增加所生成的流的比特率。因此，像素率(GPU可在每单位时间内管理的以原始像素(宽度×高度)为单位的图像尺寸)与比特率(即，压缩之后的以比特为单位的图像尺寸)之间存在差异。然而，像素率(即，渲染器端的存储器空间和访问)是图集图像的尺寸乘以两个属性的位深度的总和(即对每个属性的值进行编码所需的位数)的两倍。像素率乘以属性数量。对于归因于场景的少量点的属性(例如，透明度)，这种非常高的像素率是对存储器和处理器资源的无用消耗。

图6示出了为存储一个或两个属性的一组60分块61至67生成图集。本发明原理提出了一种用于对图集图像和相关联的元数据进行编码的格式，以降低表示体积场景的数据流所需的比特率和像素率。根据本发明原理，将场景的点的至少两个属性A和B投影到投影图上并且聚集成分块。获得一组60分块。在组60中，第二分块65(A和B)至67(A和B)在其像素中存储两个值，一个为属性A(65A至67A)的值，一个为属性B(65B至67B)的值。第一分块61A至64A仅存储属性A(61A至64A)的值并且不存储属性B的值。根据本发明原理，通过打包存储每个分块61A至67(A和B)的属性A的像素，生成第一图集68。打包步骤整理分块61(A)至67(A和B)，以便使图集68的非使用区域最小化。对此，根据布局对分块的矩形进行整理。它们可被定向为不同于它们在所获得的组60中的原始定向的方向。将每个分块的位置、尺寸和定向编码在与图集68相关联的元数据中。根据本发明原理，通过仅打包第二分块的存储属性B65B至67B的像素，生成第二图集69。第二分块可位于不同于图集68的坐标处，定向在不同方向上。因此，第二分块是分块组60的子组，图集69的像素的尺寸(＝宽度×高度)小于图集68的像素的尺寸。在变体中，当打包时，可重新调整组60的分块的比例。根据本发明原理，打包在第一图集68中的分块的比例可不同于第二图集69中的相同分块。在图6的示例中，不针对其在第一图集68中的属性A对分块66A进行重新调整比例，而针对其在第二图集69中的属性B对其进行缩小比例。

在变体中，可设置第三类别的分块；第三分块的像素存储属性B的值并且不存储属性A的值(或默认值)。本申请中未开发该变体。在本文中，几何结构属性(属性A)是强制性的，并且该类别的分块不会出现在本发明原理的上下文中。

在其它变体中，投影场景的点的两个以上的属性。对于三个属性A、B和C，确定四个类别：(A)、(A,B)、(A,C)、(A,B,C)。根据本发明原理，生成打包四个类别的分块(每个分块存储属性A)的第一图集，生成打包第二分块和第四分块(针对属性B)的第二图集，并且生成打包第三分块和第四分块(针对属性C)的第三图集；这三个图集中的每个图集具有其自身的图集布局。本发明原理可应用于任何数量的属性，但不失通用性。对于四个属性，可识别用于生成四个图集的八个类别等。

与所生成的图集列表相关联的元数据必须表示图集的不同布局。表示每个属性的特定打包的可能的语法可以为以下语法。

miv_atlas_sequence_params(vuh_atlas_id)元素描述对于每个属性，适用于整个序列的图集参数。具体地，三个以下语法元素(图集帧水平维度和垂直维度以及实现分块比例调整的标记)是参数，对于每个属性都是不同的，它们与所描述的方法相关。

masp_attr_frame_width_minus1[i]+1和masp_attr_frame_height_minus1[i]+1规定第i个属性的图集的维度。

masp_attribute_per_patch_scale_enable[i]是实现第i个属性在图集中的分块比例调整的二进制标记。

对于每个属性，包括几何结构，分块的带有索引p的patch_data_unit(p)语法结构描述了如何在分块图集中打包分块：更准确地，它规定了它的存在以及是否存在它的位置和尺寸。

语法元素pdu_2d_pos_x[p]和pdu_2d_pos_y[p]被分布设置为pdu_geo_atlas_pos_x[p]和pdu_geo_atlas_pos_y[p]，以指示它们仅规定几何结构图集中的分块的左上角的位置。

语法元素pdu_2d_size_x_minus1[p]和pdu_2d_size_y_minus1[p]仅规定在索引等于pdu_view_id[p]的源视野中和在几何结构图集中(并且不再在属性图集中)的分块尺寸。

对于索引为i的每个属性：

pdu_attr_atlas_present_flag[p][i]是指示分块是否存在于第i个属性的图集中的二进制标记

pdu_attr_atlas_pos_x[p][i]和pdu_attr_atlas_pos_y[p][i]规定第i个属性的图集中的分块的左上角的位置。

pdu_attr_atlas_orientation_idx[p][i]指示第i个属性的图集中的分块定向索引

pdu_attr_atlas_size_x_minus1[p][i]+1和pdu_attr_atlas_size_y_minus1[p][i]+1规定第i个属性的图集中的分块的尺寸

图7示出了根据本发明原理的非限制性实施方案的位移属性的确定。出现一些由图集的几何结构属性输送的深度不足的情况。事实上，尽管存在针对更多深度位的视频编码配置文件，但是大多数视频编码实施方式均在10位上工作，并且这会导致出现深度量化误差，当相机固定装置的配置不局限于小区域时，这种误差很敏感。

图7示出了通过相机71至相机75向内对准场景中心的投影而捕获的场景70并且它们的截头因此彼此交叉的案例。预计该体积含量将以相同的方式消耗，即用户大致在相同的位置和视野71至75的相同方向查看。潜在地，在相机72的位置处的用户将查看由在配置文件中所看到的视野75输送的一些信息。然而，体积内容中的视野的深度量化法则76通常基于被设计成最小化深度量化误差以接近原始相机的1/z法则，如逐渐远离相机视野75的直线平行所示。不期望看到由72在配置文件中看到的75所输送的深度。这将会导致轮廓处出现非常明显的伪影。为了克服这个问题，解决方案是向深度分配更多的位。

根据本发明原理，深度几何结构信息保持在由1/z法则量化的正常位深度(例如，8位或10位或16位)，同时使其与通过统一编码进行量化的深度互补，以表达有效编码深度与目标精细深度之间的微小差异。可根据以下步骤确定该“位移属性”：

··根据真实度量深度Z度量(场景)，通过1/z法则对几何结构信息进行量化：Z量化(场景)；

·通过对深度编码误差Z量化(场景)进行抽象化，确定输送到解码器侧的量化深度；

·通过与真实度量深度进行比较的对偶运算获得值Zrecovered_metric(Z量化(场景))；

·通常通过线性量化法则，例如在扩展属性中以灰度级并行编码这种微小差异Z度量(场景)-Zrecovered_metric(Z量化(场景))。需要添加少量元数据才能根据量化线性值得出度量值，例如量化单位的度量值。

该“位移属性”仅对由第一图集的几何结构信息所输送的深度进行微小位移。第一图集的几何结构信息表示最高有效位，而位移属性表示最低有效位。位移也是图形工程中使用的术语，用于将微小几何结构变形应用于特定着色器中的网格几何结构。

在优选实施方案中，不对携载位移属性的分块进行缩小比例。相关的是将这种调整应用于渲染伪影将非常可见的未进行这种深度调整的分块，通常是前景对象的分块。此类属性被很好地设计成根据本发明原理输送到特定图集中。

图8示出了根据本发明原理的非限制性实施方案的用于对表示体积内容的数据流进行解码的方法80。在步骤81处，从流解码出第一图集和第二图集。它们的尺寸可不相同。第一图集和第二图集的像素存储表示体积内容的点的属性的值。在一个实施方案中，第一图集的像素对第一属性进行编码，并且第二图集的像素对不同于第一属性的第二属性进行编码。在步骤82处，从数据流解码出与两个图集相关联的元数据。元数据包括数据项列表，数据项包括：

-第一图集的对应于当前分块的区域的位置和尺寸；对体积内容的3D场景的一部分点的投影进行编码的分块；

-指示当前分块是否存在于第二图集中的标记；以及

-在标记指示当前分块存在于第二图集中的条件下，第二图集的对应于当前分块的区域的位置。

在一个实施方案中，解码图集和元数据可用于通过根据本发明原理对两个图集的像素进行反向投影，在步骤83处生成体积内容的3D场景。

图9示出了根据本发明原理的非限制性实施方案的用于对数据流中的体积内容进行编码的方法90。在步骤91处，从源获得一组分块。分块是对体积内容的3D场景的一部分点的投影进行编码的图片。该一组分块包括对3D场景的一部分点的第一属性的投影进行编码的第一分块以及对体积内容的该3D场景的一部分点的第二属性和第一属性的投影进行编码的第二分块。在步骤92处，通过打包该组的第一分块和第二分块，生成第一图集图像，并且通过打包第二分块，生成第二图集图像。在步骤93处，生成数据流。数据流包括第一图像、第二图像和相关联的元数据，对于该组分块中的当前分块，该相关联的元数据包括：

-所述第一图像的对应于当前分块的区域的位置和尺寸；

-指示当前分块是否是第二分块的标记；以及

-在当前分块是第二分块的条件下，所述第二图像的对应于当前分块的区域的位置。

本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的具体实施也可以其他形式(例如，程序)实现。设备可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如，例如处理器)中实施，该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如，智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)以及有利于最终用户之间信息的通信的其他设备。

本文描述的各种过程和特征的具体实施可以体现于各种不同的设备或应用程序中，特别是例如与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理相关联的设备或应用程序。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA和其他通信设备。应当清楚的是，设备可以是移动的，甚至安装在移动车辆中。

另外，方法可以由处理器执行的指令来实现，并且此类指令(和/或由具体实施产生的数据值)可以存储在处理器可读介质上，诸如例如集成电路、软件载体或其他存储设备，诸如例如硬盘、紧凑型磁盘(“CD”)、光盘(诸如例如，DVD，通常称为数字通用光盘或数字视频光盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成在处理器可读介质上有形地体现的应用程序。指令可以是例如硬件、固件、软件或组合。指令可以在例如操作系统、单独应用程序或两者的组合中发现。因此，处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外，除了或代替指令，处理器可读介质可以存储由具体实施产生的数据值。

对于本领域的技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如，信号可以被格式化为作为数据携带用于写入或阅读所描述的实施方案的语法的规则，或作为数据携带由所描述的实施方案写入的实际语法值的数据。此类信号可格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的，信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

已描述了多个具体实施。但应理解的是，可以作出许多修改。例如，可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外，普通技术人员将理解，其他结构和过程可以被替换为所公开的那些，并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能，以实现与所公开的具体实施至少基本相同的结果。因此，本申请考虑了这些和其他具体实施。

Claims

1.一种方法，所述方法包括从数据流获得第一图像、第二图像和相关联的元数据；所述元数据包括数据项列表，数据项包括：

-所述第一图像的对应于当前分块的区域的位置和尺寸；对3D场景的一部分点的投影进行编码的分块；

-指示所述当前分块是否存在于所述第二图像中的标记；以及

-在所述标记指示所述当前分块存在于所述第二图像中的条件下，所述第二图像的对应于所述当前分块的区域的位置；

并且，对于所述分块数据项列表的数据项：

-解码所述第一图像中的所述位置处的分块，以及

-在所述标记指示所述当前分块存在于所述第二图像中的条件下，解码所述第二图像中的对应分块。

2.根据权利要求1所述的方法，其中，存在于所述第一图像中的分块将所述3D场景的一部分点的第一属性编码到分块上，并且如果存在于所述第二图像中，则所述分块对所述3D场景的所述一部分点的第二属性进行编码，所述第一属性不同于所述第二属性。

3.根据权利要求1或2所述的方法，其中，数据项包括所述当前分块的投影信息，并且其中，所述第一图像的分块对几何结构属性进行编码；所述方法还包括根据所述第一图像、所述元数据和所述第二图像生成3D场景。

4.一种设备，包括处理器，所述处理器被配置用于从数据流解码出第一图像、第二图像和相关联的元数据；所述元数据包括数据项列表，数据项包括：

-指示所述当前分块是否存在于所述第二图像中的标记；以及

并且，对于所述分块数据项列表的数据项：

-解码所述第一图像中的所述位置处的分块，以及

5.根据权利要求4所述的设备，其中，存在于所述第一图像中的分块将所述3D场景的一部分点的第一属性编码到分块上，并且如果存在于所述第二图像中，则所述分块对所述3D场景的所述一部分点的第二属性进行编码，所述第一属性不同于所述第二属性。

6.根据设备4或5所述的方法，其中，数据项包括所述当前分块的投影信息，并且其中，所述第一图像的分块对几何结构属性进行编码；所述处理器被进一步配置用于根据所述第一图像、所述元数据和所述第二图像生成3D场景。

7.一种方法，所述方法包括：

-获得一组第一分块和第二分块，第一分块对3D场景的一部分点的第一属性的投影进行编码；第二分块对所述3D场景的所述一部分点的第二属性和所述第一属性的投影进行编码；

-通过将所述组的第一分块和第二分块打包到第一图像中，来对所述第一图像中的所述第一属性进行编码，并且通过将所述组的第二分块打包到第二图像中，来对所述第二图像中的所述第二属性进行编码；

-生成包括所述第一图像、所述第二图像和相关联的元数据的数据流，对于所述组的当前分块，所述相关联的元数据包括：

·所述第一图像的对应于所述当前分块的区域的位置和尺寸；

·指示所述当前分块是否是第二分块的标记；以及

·在所述当前分块是第二分块的条件下，所述第二图像的对应于所述当前分块的区域的位置。

8.根据权利要求7所述的方法，其中，所述第一属性不同于所述第二属性。

9.根据权利要求7或8所述的方法，其中，数据项包括所述当前分块的投影信息，并且其中，所述第一属性是几何结构属性。

10.一种设备，包括处理器，所述处理器被配置用于：

·指示所述当前分块是否是第二分块的标记；以及

11.根据权利要求10所述的设备，其中，所述第一属性不同于所述第二属性。

12.根据权利要求10或11所述的设备，其中，数据项包括所述当前分块的投影信息，并且其中，所述第一属性是几何结构属性。

13.一种数据流，所述数据流包括第一图像、第二图像和相关联的元数据；所述元数据包括数据项列表，数据项包括：

-指示所述当前分块是否存在于所述第二图像中的标记；以及

-在所述标记指示所述当前分块存在于所述第二图像中的条件下，所述第二图像的对应于所述当前分块的区域的位置。

14.根据权利要求13所述的数据流，其中，存在于所述第一图像中的分块将所述3D场景的一部分点的第一属性编码到分块上，并且如果存在于所述第二图像中，则所述分块对所述3D场景的所述一部分点的第二属性进行编码，所述第一属性不同于所述第二属性。

15.根据权利要求13或14所述的数据流，其中，数据项包括所述当前分块的投影信息，并且其中，所述第一图像的分块对几何结构属性进行编码。

16.根据权利要求1所述的方法，其中，存在于所述第一图像中的分块将所述3D场景的一部分点的属性的值编码到分块上，并且如果存在于所述第二图像中，则所述分块对所述3D场景的所述一部分点的所述属性的不同值进行编码。