CN117121059A

CN117121059A - 支持光效果的体积视频

Info

Publication number: CN117121059A
Application number: CN202280028070.0A
Authority: CN
Inventors: B·楚波; R·多尔; J·弗勒罗; F·苏多
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2021-04-07
Filing date: 2022-04-04
Publication date: 2023-11-24
Also published as: MX2023011296A; WO2022214435A1; JP2024514066A; EP4320596A1

Abstract

本发明提出了对3D体积视频进行编码、传输和解码的方法、设备和数据流。实施方案包括发信号通知非朗伯曲线分块连同其光反射特性，以便于使得基于光线跟踪的渲染引擎能够相对于光效果在视觉上合成逼真的虚拟视图。还描述了向后兼容的解决方案，其使得常规渲染引擎能够渲染此类描述的3D场景但没有高级光效果。

Description

支持光效果的体积视频

1.技术领域

本发明原理总体涉及三维(3D)场景和体积视频内容的域。还在编码、格式化和解码表示3D场景的纹理和几何结构的数据的上下文中理解本文档，以在诸如移动设备或头戴式显示器(HMD)的最终用户设备上渲染体积内容。具体地，本文档涉及一种对体积场景进行编码的方式，这种方式允许能够处理镜面反射和来自各个视点的其他复杂光效果的渲染。

2.背景技术

本部分旨在向读者介绍本领域的各个方面，这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息，以促进更好地理解本发明原理的各个方面。因此，应当理解，这些陈述应当从这个角度来解读，而不是承认现有技术。

最近，可用的大视场内容(高达360°)有所增长。观看沉浸式显示设备(诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话等)上的内容的用户可能无法完全看到此类内容。这意味着在给定的时刻，用户只能观看一部分内容。然而，用户通常可通过例如头部移动、鼠标移动、触摸屏、语音以及类似物的各种手段在内容内导航。通常希望对该内容进行编码和解码。

沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以满足第一次全向视频体验(例如，使用头戴式显示器(HMD设备))的要求，但3DoF视频对于期望更多自由(例如，通过体验视差)的观看者可能很快变得令人沮丧。此外，3DoF还可能导致眩晕，因为用户永远不会只旋转其头部，而是还向三个方向平移头部，这些平移不会在3DoF视频体验中再现。

其中，大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频。许多术语可用于设计此类沉浸式视频：例如，虚拟现实(VR)、360、全景、4π球面度、沉浸式、全向或大视场。

体积视频(也称为6自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时，除了旋转之外，用户还可以在观看的内容中平移其头部，甚至其身体，并且体验视差甚至体积。这种视频显著增加了沉浸感和对场景深度的感知，并通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容是通过专用传感器创建的，允许同时记录感兴趣场景的颜色和深度。即使仍然存在技术困难，使用结合摄影测量技术的彩色相机装备也是执行这种记录的一种方式。

虽然3DoF视频包括由纹理图像的解映射产生的图像序列(例如，根据纬度/经度投影映射或等角投影映射编码的球面图像)，但6DoF视频帧嵌入了来自多个视点的信息。它们可被视为由三维捕获产生的点云的时间序列。根据观看条件可以考虑两种体积视频。第一种(即完整的6DoF)允许在视频内容内完全自由导航，而第二种(又名3DoF+)将用户观看空间限制到称为观看边界框的有限体积，从而允许有限的头部平移和视差体验。该第二种情况是在自由导航和就座观众的被动观看条件之间的有价值的折衷。

在此类视频中，用户正在观看的视口图像是合成视图，其是未由相机捕获的场景的视图。现有的3DoF+视频格式不能处理镜面反射和其他复杂的光效果，并且假设3D场景由朗伯曲线表面组成(即，仅具有漫反射)。然而，当镜面反射由采集装备的一个相机捕获时，如从该相机的视点观察到的，对来自不同虚拟视点的3D场景进行渲染就需要根据新的视点来修改反射内容的位置和外观。此外，由于经渲染的虚拟视图是通过混合源自若干输入视图的分块而生成，因此，每个输入视图都在帧中的不同位置处捕获了给定反射。对反射对象的复制可以在渲染时观察到。因此，缺乏在渲染时支持复杂光效果的3DoF+视频格式。

3.发明内容

以下呈现本发明原理的简化概述，以便提供对本发明原理的一些方面的基本理解。本发明内容不是本发明原理的广泛概述。不旨在识别本发明原理的关键或重要元素。以下发明内容仅以简化形式呈现本发明原理的一些方面，作为下面提供的更详细描述的前言。

本发明原理涉及一种方法，一种用于对3D场景进行编码的方法。该方法包括：

-针对3D场景的部分，获得第一颜色分块、反射分块和第一深度分块；

-针对在3D场景的至少一部分中反射的3D场景之外的部分，获得第二颜色分块和第二深度分块；

-通过打包第一和第二深度分块来生成深度图集；

-通过打包第二颜色分块和第一颜色分块的子组来生成颜色图集；

-通过打包反射分块的子组来生成反射图集；

-针对在反射图集中打包的每个反射分块，

生成第一信息，该第一信息对反射分块上的光反射的双向反射分布函数模型的参数进行编码，以及

生成第二信息，该第二信息指示反射到反射分块中的颜色分块的列表；以及

-在数据流中编码：

·将深度图集、颜色图集、反射图集以及第一和

第二信息编码在数据流中。

在第一实施方案中，在颜色图集中打包的第一颜色分块的子组是空的；并且在反射图集中打包的反射分块的子组包括每个反射分块。在第二实施方案中，在颜色图集中打包的第一颜色分块的子组对应于3D场景的朗伯曲线部分；并且在反射图集中打包的反射分块的子组对应于3D场景的非漫反射部分。在第三实施方案中，在颜色图集中打包的第一颜色分块的子组包括每个第一颜色分块；并且在反射图集中打包的反射分块的子组对应于3D场景的非漫反射部分。在一个变型中，该方法还包括通过对与反射图集中反射分块的子组相对应的表面正常分块进行打包来生成表面正常图集。

本发明原理还涉及一种设备，该设备包括与存储器相关联的处理器，该处理器被配置为执行上述方法。

本发明原理还涉及一种对3D场景进行编码的数据流，该数据流包括：

-深度图集，该深度图集打包第一深度分块和第二深度分块，该第一深度分块对应于3D场景的部分，该第二深度分块对应于在3D场景的至少一部分中反射的3D场景之外的部分；

-颜色图集，该颜色图集打包第一颜色分块和第二颜色分块，该第一颜色分块对应于3D场景的部分，该第二颜色分块对应于在3D场景的至少一部分中反射的3D场景之外的部分；

-反射图集，该反射图集打包反射分块，该反射分块对应于3D场景的部分；以及

-针对在反射图集中打包的每个反射分块，

·第一信息，该第一信息对反射分块上的光反射的双向反射分布函数模型的参数进行编码，和

·第二信息，该第二信息指示反射到反射分块中的颜色分块的列表。

本发明原理还涉及一种对3D场景进行渲染的方法。该方法包括：

从数据流对以下项进行解码：

-反射图集，该反射图集打包反射分块，该反射分块对应于3D场景的部分；

-信息，该信息发信号通知根据第一颜色分块和反射分块所确定的渲染模式；以及

-针对在反射图集中打包的每个反射分块，

·第二信息，该第二信息指示反射到反射分块中的颜色分块的列表；

以及

通过以下步骤对3D场景进行渲染：根据第一和第二深度分块对第一和第二颜色分块进行去投影，以及根据第一和第二信息及相关联的颜色分块对反射分块使用光线跟踪。

4.附图说明

将更好地理解本公开，并且在阅读以下描述、参考附图的描述之后，将出现其他特定特征和优点，其中：

-图1示出了根据本发明原理的非限制性实施方案的对象的三维(3D)模型和对应于该3D模型的点云的点；

-图2示出了根据本发明原理的非限制性实施方案的对表示3D场景序列的数据进行编码、传输和解码的非限制性示例；

-图3示出了根据本发明原理的非限制性实施方案的可被配置为实现关于图13和图14描述的方法的设备的示例性架构；

-图4示出了根据本发明原理的非限制性实施方案的当通过基于分组的传输协议传输数据时流的语法的实施方案的示例；

-图5示出了根据本发明原理的非限制性实施方案的以4个投影中心为例的分块图集方法；

-图6示出了根据本发明原理的非限制性实施方案的包括3D场景的点的纹理信息的图集的示例；

-图7示出了根据本发明原理的非限制性实施方案的包括图6的3D场景的点的深度信息的图集的示例；

-图8示出了由相机阵列捕获的3D场景视图中的两个视图；

-图9示出了要捕获的简单场景；

-图10示出了根据本原理的第一实施方案的在深度图集、反射图集和颜色图集中对图9的3D场景进行编码的第一示例；

-图11示出了根据本原理的第二实施方案的在深度图集、反射图集和颜色图集中对图9的3D场景进行编码的第二示例；

-图12示出了根据本原理的第三实施方案的在深度图集、反射图集和颜色图集中对图9的3D场景进行编码的第三示例；

-图13例示了用于对具有复杂光效果的3D场景进行编码的方法；

-图14例示了用于对具有复杂光效果的3D场景进行渲染的方法。

5.具体实施方式

下文将参考附图更全面地描述本发明原理，在该附图中示出了本发明原理的示例。然而，本发明原理可以许多替代形式体现，并且不应被解释为限制于本文阐述的示例。因此，虽然本发明原理易受各种修改和替代形式的影响，但是其具体示例通过附图中的示例示出，并且本文将详细描述。然而，应当理解，不存在将本发明原理限制为所公开的特定形式的意图，但是相反，本公开用于涵盖落入由权利要求书限定的本发明原理的实质和范围内的所有修改、等同物和替代方案。

本文使用的术语仅出于描述特定示例的目的，并且不旨在限制本发明原理。如本文所用，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另有明确说明。将会进一步理解，当用于本说明书时，术语“包括”和/或“包含”指定存在所述特征、整数、步骤、操作、元件和/或分量，但不排除一个或多个其他特征、整数、步骤、操作、元件、分量和/或其组的存在或添加。此外，当元件被称为“响应”或“连接”到另一元件时，它可以直接响应或连接到另一元件，或者可以存在中间元件。相反，当元件被称为“直接响应”或“直接连接”到其他元件时，不存在中间元件。如本文所用，术语“和/或”包括列出的相关联项中的一者或多者的任何和所有组合，并且可以缩写为“/”。

应当理解，尽管在本文中可使用术语第一、第二等来描述各种元件，但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如，在不脱离本发明原理的教导内容的情况下，第一元件可以被称为第二元件，并且类似地，第二元件可以被称为第一元件。

尽管一些图示包括通信路径上的箭头以显示主通信方向，但是应理解，通信可以在与所描绘箭头相反的方向上发生。

关于其中每个框表示电路元件、模块或代码部分的框图和操作流程图描述了一些示例，该代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是，在其他具体实施中，框中标注的功能可能不按标注的顺序出现。例如，连续显示的两个框实际上可基本上同时执行，或者这些框有时可根据所涉及的功能以相反的顺序执行。

本文中的“根据一个示例”或“在一个示例中”的参考意味着结合示例描述的特定特征、结构或特性可以包括在本发明原理的至少一个具体实施中。说明书中各个地方的“根据一个示例”或“在一个示例中”的短语的出现不一定全部参考同一示例，也不一定是与其他示例相互排斥的单独的或替代的示例。

在权利要求书中出现的附图标号仅通过说明的方式，并且对权利要求书的范围没有限制作用。虽然未明确描述，但本示例和变型可以任何组合或子组合采用。

图1示出了对象的三维(3D)模型10和对应于3D模型10的点云11的点。3D模型10和点云11可例如对应于包括其他对象的3D场景的对象的可能3D表示。模型10可以是3D网格表示，并且点云11的点可以是网格的顶点。点云11的点也可以是分布在网格面的表面上的点。模型10也可表示为点云11的喷溅版本，模型10的表面是通过喷溅点云11的点而创建的。模型10可由诸如体素或样条的许多不同表示来表示。图1示出了可用3D对象的表面表示来定义点云以及可从云点生成3D对象的表面表示的事实。如本文所用，将3D对象的点(引申为3D场景的点)投影到图像上等效于投影该3D对象的任何表示，例如点云、网格、样条模型或体素模型。

点云可在存储器中表示为例如基于矢量的结构，其中每个点在视点的参照系中都有自己的坐标(例如三维坐标XYZ，或立体角和从/到视点的距离(也称为深度))和一个或多个属性，也称为分量。分量的一个示例是可在各种色彩空间中表示的颜色分量，例如RGB(红、绿和蓝)或YUV(Y是亮度分量并且UV是两个色度分量)。点云是包括对象的3D场景的表示。可从给定视点或视点范围看到3D场景。点云可通过多种方式获得，例如：

·从由相机装备拍摄的真实对象的捕获，任选地辅以深度主动感测设备；

·从由建模工具中的虚拟相机装备拍摄的虚拟/合成对象的捕获；

·从真实对象和虚拟对象两者的混合。

3D场景对应于经捕获的场景，其为真实(或虚拟)场景的一部分。首先，要捕获的一些部分或场景对于每个摄像机是不可见的(因为被遮挡)；这些部分处于3D场景之外。其次，摄像机装置的视场可以低于360°。然后，真实场景的一部分保留在经捕获的3D场景之外。然而，3D场景之外的一些部分可反射在3D场景的部分上。

图2示出了对表示3D场景序列的数据进行编码、传输和解码的非限制性示例。编码格式可例如同时兼容3DoF、3DoF+和6DoF解码。

获得3D场景序列20。如同画面序列是2D视频，3D场景序列是3D(也称为体积)视频。可将3D场景序列提供给体积视频渲染设备以进行3DoF、3Dof+或6DoF渲染和显示。

可将3D场景序列20提供给编码器21。编码器21将一个3D场景或3D场景序列作为输入，并提供表示该输入的比特流。比特流可存储在存储器22中和/或电子数据介质上，并且可通过网络22传输。表示3D场景序列的比特流可由解码器23从存储器22读取和/或从网络22接收。解码器23由比特流输入并提供例如点云格式的3D场景序列。

编码器21可包括实现若干步骤的若干电路。在第一步骤中，编码器21将每个3D场景投影到至少一个2D画面上。3D投影是将三维点映射到二维平面的任何方法。由于用于显示图形数据的大多数当前方法都基于平面(来自几个位平面的像素信息)二维介质，因此这种类型的投影的用途是广泛的，在计算机图形、工程和制图方面尤为如此。投影电路211为3D场景20序列的3D场景提供至少一个二维帧2111。帧2111包括深度信息，该深度信息表示投影到帧2111上的3D场景。在变型中，帧2111包括其他属性。根据本原理，投影属性可表示投影在帧上的3D场景的纹理(即，颜色属性)、热、反射或其他属性。在一个变型中，信息在单独的帧中编码，例如两个单独的帧2111和2112或每个属性一个帧中。

元数据212由投影电路211使用和更新。元数据212包括关于投影操作的信息(例如投影参数)以及关于颜色和深度信息在帧2111和2112内的组织方式的信息，如结合图5至图7所述。

视频编码电路213将帧2111和2112序列编码为视频。3D场景的画面2111和2112(或3D场景的画面序列)由视频编码器213编码在流中。然后，视频数据和元数据212由数据封装电路214封装在数据流中。

编码器213例如与诸如以下的编码器兼容：

-JPEG，规范ISO/CEI 10918-1UIT-T Recommendation T.81，https://www.itu.int/rec/T-REC-T.81/en；

-AVC，也称为MPEG-4AVC或h264。在UIT-T H.264和ISO/CEIMPEG-4第10部分(ISO/CEI 14496-10)两者中规定，http://www.itu.int/rec/T-REC-H.264/en，HEVC(其规范见于ITU网站，T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en)；

-3D-HEVC(HEVC的扩展，其规范见于ITU网站，Trecommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I)；

-Google开发的VP9；或者

-由Alliance for Open Media开发的AV1(AOMedia Video 1)。

数据流被存储在可由解码器23例如通过网络22访问的存储器中。解码器23包括实现不同的解码步骤的不同电路。解码器23将由编码器21生成的数据流作为输入，并提供待由如头戴式设备(HMD)的体积视频显示设备渲染和显示的3D场景序列24。解码器23从源22获得流。例如，源22属于一组，该组包括：

-本地存储器，例如视频存储器或RAM(或随机存取存储器)、闪存存储器、ROM(或只读存储器)、硬盘；

-存储接口，例如具有大容量存储装置、RAM、闪存存储器、ROM、光盘或磁性载体的接口；

-通信接口，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或接口)；以及

-使用户能够输入数据的用户界面，诸如图形用户界面。

解码器23包括用于提取在数据流中编码的数据的电路234。电路234将数据流作为输入，并提供对应于在流中编码的元数据212的元数据232和二维视频。视频由提供帧序列的视频解码器233解码。解码帧包括颜色和深度信息。在一个变型中，视频解码器233提供两个帧序列，一个包含颜色信息，另一个包含深度信息。电路231使用元数据232对来自解码帧的颜色和深度信息进行去投影，以提供3D场景序列24。3D场景序列24对应于3D场景序列20，可能损失与作为2D视频的编码和视频压缩相关的精度。

在渲染时，用户正在观看的视口图像是合成视图，其是未由相机捕获的场景的视图。在镜面反射由采集装备的一个相机捕获时，如从该相机的视点观察到的，对来自不同虚拟视点的3D场景进行渲染就需要根据新的视点来修改反射内容的位置和外观。根据本原理，数据流中携带了用于对复杂光效果进行渲染的信息。

图3示出了可被配置为实现关于图13和图14描述的方法的设备30的示例性架构。图2的编码器21和/或解码器23可实现该架构。或者，编码器21和/或解码器23中的每个电路可以是根据图3的架构的设备，其例如经由其总线31和/或经由I/O接口36链接在一起。

设备30包括通过数据和地址总线31连接在一起的以下元件：

-微处理器32(或CPU)，该微处理器是例如DSP(或数字信号处理器)；

-ROM(或只读存储器)33；

-RAM(或随机存取存储器)34；

-存储接口35；

-I/O接口36，该I/O接口用于从应用程序接收要传输的数据；和

-电源，例如电池。

根据一个示例，电源在设备外部。在每个提到的存储器中，说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如，整个程序或大量接收或解码的数据)。ROM 33至少包括程序和参数。ROM 33可以根据本发明原理存储用于执行技术的算法和指令。当接通时，CPU 32上载RAM中的程序并执行对应指令。

RAM 34包括寄存器中的由CPU 32执行并在设备30的接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态中的中间数据以及用于在寄存器中执行方法的其他变量。

本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的具体实施也可以其他形式(例如，程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如例如处理器)中实施，该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。

根据示例，设备30被配置为实现关于图13和图14描述的方法，并且属于包括以下项的集合：

-移动设备；

-通信设备；

-游戏设备；

-平板电脑(或平板计算机)；

-膝上型电脑；

-静态图片相机；

-摄像机；

-编码芯片；

-服务器(例如广播服务器、视频点播服务器或web服务器)。

图4示出了当通过基于分组的传输协议传输数据时流的语法的实施方案的示例。图4示出了体积视频流的示例性结构4。该结构包含在以语法的独立元素组织流的容器中。该结构可包括标头部分41，它是流的每个语法元素所共有的一组数据。例如，标头部分包括关于语法元素的一些元数据，描述它们中每一个的性质和角色。标头部分还可包括图2的元数据212的一部分，例如用于将3D场景的点投影到帧2111和2112上的中心视点的坐标。该结构包括有效载荷，该有效载荷包括语法元素42和至少一个语法元素43。语法元素42包括表示颜色和深度帧的数据。图像可能已根据视频压缩方法进行了压缩。

语法元素43是数据流的有效载荷的一部分，并且可包括关于如何对语法元素42的帧进行编码的元数据，例如用于将3D场景的点投影和打包到帧上的参数。此类元数据可与视频的每个帧或帧组(在视频压缩标准中也称为画面组(GoP))相关联。

图5示出了以4个投影中心为例的分块图集方法。3D场景50包括人物。例如，投影中心51是透视相机，并且相机53是正射相机。相机还可以是具有例如球面映射(例如等矩形映射)或立方体映射的全向相机。根据在元数据的投影数据中描述的投影操作，3D场景的3D点被投影到与位于投影中心处的虚拟相机相关联的2D平面上。在图5的示例中，根据透视映射将由相机51捕获的点的投影映射到分块52上，并且根据正射映射将由相机53捕获的点的投影映射到分块54上。

投影像素的群集产生多个2D分块，其被打包在矩形图集55中。图集内分块的组织限定了图集布局。在一个实施方案中，具有相同布局的两个图集：一个用于纹理(即颜色)信息，并且一个用于深度信息。由同一相机或由两个不同相机捕获的两个分块可包括表示3D场景的相同部分的信息，如例如分块54和56。

打包操作为每个生成的分块产生分块数据。分块数据包括对投影数据的引用(例如，投影数据表中的索引或指向投影数据的指针(即，存储器中或数据流中的地址))和描述图集内分块的位置和尺寸的信息(例如，左上角坐标、尺寸和以像素为单位的宽度)。将分块数据项添加到元数据，以与一个或两个图集的压缩数据相关联地封装在数据流中。

图6示出了根据本发明原理的非限制性实施方案的包括属性信息的图集60的示例，该属性信息例如，3D场景的点的纹理(也称作颜色)信息(例如，RGB数据或YUV数据)。如结合图5所解释的，图集是图像打包分块，分块是通过投影3D场景的一部分点而获得的画面。

在图6的示例中，图集60包括第一部分61和一个或多个第二部分62，该第一部分包括3D场景的从视点可见的点的纹理信息。第一部分61的纹理信息可例如根据等角投影映射来获得，等角投影映射是球面投影映射的示例。在图6的示例中，第二部分62布置在第一部分61的左边界和右边界处，但第二部分可以不同地布置。第二部分62包括与从视点可见的部分互补的3D场景的部分的纹理信息。可通过以下方式获得第二部分：从3D场景中移除从第一视点可见的点(其纹理存储在第一部分中)并且根据相同的视点来投影剩余的点。可以迭代地重复后一过程，以每次获得3D场景的隐藏部分。根据变体，可通过以下方式获得第二部分：从3D场景中移除从视点(例如，中心视点)可见的点(其纹理被存储在第一部分中)并且根据不同于第一视点的视点，例如从以中心视点为中心的观看空间(例如，3DoF渲染的观看空间)的一个或多个第二视点来投影剩余的点。

第一部分61可被看作第一大纹理分块(对应于3D场景的第一部分)，并且第二部分62包括较小的纹理分块(对应于与第一部分互补的3D场景的第二部分)。此类图集具有同时与3DoF渲染(当仅渲染第一部分61时)和与3DoF+/6DoF渲染兼容的优点。

图7示出了根据本发明原理的非限制性实施方案的包括图6的3D场景的点的深度信息的图集70的示例。图集70可被看作对应于图6的纹理图像60的深度图像。

图集70包括第一部分71和一个或多个第二部分72，该第一部分包括3D场景的从中心视点可见的点的深度信息。图集70可以与图集60相同的方式获得，但包含与3D场景的点相关联的深度信息而不是纹理信息。

对于3D场景的3DoF渲染，仅考虑一个视点，通常是中心视点。用户可围绕第一视点以三自由度旋转其头部以观看3D场景的各个部分，但用户不能移动该唯一视点。要被编码的场景的点是从该唯一视点可见的点，并且仅需要对纹理信息进行编码/解码以进行3DoF渲染。对于3DoF渲染，不需要对从该唯一视点不可见的场景的点进行编码，因为用户不能访问它们。

对于6DoF渲染，用户可将视点移动到场景中的各处。在这种情况下，需要对比特流中场景的每个点(深度和纹理)进行编码，因为可移动他/她的视点的用户可能会访问每个点。在编码阶段处，不存在先验地知道用户将从哪个视点观察3D场景的手段。

对于3DoF+渲染，用户可在围绕中心视点的有限空间内移动视点。这使得能够体验视差。表示从观看空间的任何点可见的场景的部分的数据将被编码到流中，包括表示根据中心视点可见的3D场景的数据(即第一部分61和71)。例如，可在编码步骤处决定和确定观看空间的尺寸和形状，并在比特流中编码。解码器可从比特流获得该信息，并且渲染器将观看空间限制为由所获得的信息确定的空间。根据另一示例，渲染器根据硬件约束，例如与检测用户移动的传感器的能力有关的硬件约束来确定观看空间。在这种情况下，如果在编码阶段处，从渲染器的观看空间内的点可见的点尚未在比特流中被编码，则该点将不被渲染。根据又一示例，表示3D场景的每个点的数据(例如，纹理和/或几何结构)被编码在流中，而不考虑渲染观看空间。为了优化流的尺寸，可仅对场景的点的子组进行编码，例如可根据渲染观看空间看到的点的子组。

根据本原理，提出了体积视频传输格式。该格式包括发信号通知非朗伯曲线分块连同其光反射特性，以使得基于光线跟踪的渲染引擎能够相对于光效果在视觉上合成逼真的虚拟视图。

根据本原理的格式的语法包括：

-针对每个非朗伯曲线分块：

分块样本的反射属性，

分块材料的光反射特性(双向反射分布函数)，以及

当前分块内反射的其他分块的列表，

-从场景视见平截头体中发现的反射分块，及其几何形状和纹理成分，将此认作为光源，以及

-其他点状或漫反射光源的参数。

还描述了向后兼容的实施方案，其使得现有渲染引擎能够渲染此类描述的3D场景但没有高级光效果。

图8示出了由相机阵列捕获的3D场景视图中的两个视图。视图811是比视图835更靠上和更靠左的场景的视图。3D场景包括反射对象81和82(烤箱门反射出地板上的大蜘蛛)。视图811和835包括与3D场景的相同点对应的信息。然而，由于场景的照明和不同的采集位置，一个视图的与这些点相关联的颜色信息可与另一个视图不同。视图811还包括关于3D场景中的从视图835的视点不可见的点的信息。

生成至少一个图集以通过修剪冗余信息并且在3D空间的已修剪区域之间保持一些重叠以对来自经捕获的多视图+深度(MVD)图像的3D场景进行编码，从而有助于在渲染时进行拼接。图集应足以在用户可在其中移动的3DoF+观看空间内从任何视点重建/合成任何视口图像。为此，执行合成过程，该合成过程拼接来自图集的所有分块以恢复期望的视口图像。然而，当图集中表示的场景包括如图8所示的镜面反射/反射或透明部件时，此拼接步骤可受到强伪影的影响。此类光照效果取决于观看位置，并且因此，有关空间部分的感知颜色可以从一个视点改变为另一个视点。

图9示出了为了描述而简化的要捕获的场景。该场景由以下项组成：具有漫反射的两个平坦表面(“墙壁”和“地板”)和具有镜面反射和漫反射特性的一个不平坦表面91(“镜”)。位于相机92的视见平截头体之外(即，在经捕获的3D场景之外)的两个对象93被反射到镜91中。

图10示出了根据本原理的第一实施方案的在深度图集100a、反射图集100b和颜色图集100c中对图9的3D场景进行编码的示例。反射到3D场景的至少一部分上的3D场景的部分和3D场景之外的部分被投影到如关于图5所描述的分块上。针对每个分块样本，获得深度值和不同的属性值。根据本原理，针对这些部分中的每个部分获得深度分块、颜色分块和反射分块。

在本原理的第一实施方案中，深度图集100a通过对每个深度分块101a至107a(即，如关于图1所描述的分块101a至105a，其通过对经捕获的3D场景的部分进行投影而获得，以及分块106a和107a，其通过对在3D场景的至少一部分中反射的经捕获的3D场景之外的部分进行投影而获得)进行打包来生成。在图9的示例中，镜和在镜中反射的两个物体不是平面的。然后，对应的深度分块101a、106a和107a存储图10中以灰色梯度表示的不同深度值。

颜色图集100c通过对反射到3D场景至少一部分中的3D场景之外的部分(在图9的示例中：在非平面镜中反射的两个对象)的颜色分块106c、107c进行打包来生成。

反射图集100b通过对与3D场景的部分的投影相对应的反射分块101b至105b进行打包来生成。描述分块样本的光谱反射特性的反射属性可以用例如，光谱帧的R、G和B通道中的三个维度来指定。对应于图9中镜的反射分块101b仅包括对应于该镜的点的投影的反射属性。因此，反射对象93在该分块中不可见。在本原理的每个实施方案中，每个反射分块都与表示参数化模型的信息相关联，该参数化模型定义光在其表面如何进行反射，也被称为双向反射分布函数(BRDF)。存在若干BRDF参数模型，其中在本领域中极常用的是经验Phong模型。Phong模型由以下四个参数定义：

·ks，入射光的镜面反射项的反射比率，

·kd，入射光的漫反射项的反射比率(朗伯反射)，

·ka，在所渲染的场景中的所有点中存在的环境项的反射比率，

·α，该材料的光泽常数，其对于更光滑和更像镜面的表面而言更大。

在渲染时，从表面的BRDF和入射光导出光反射需要知道每个样本处的表面法线。此类正常值可以从渲染侧的深度图计算，或者在本原理的每个实施方案的变型中，附加正常属性分块图集与深度图集、反射图集和颜色图集一起传输。该变型是带宽和渲染侧的计算资源之间的折衷。

在本原理的每个实施方案中，针对反射图集的每个分块，将反射到当前分块中的颜色分块的列表添加到分块参数(即，与分块相关联的元数据)。在图10的示例中，反射分块101a的参数指示将颜色图集100c中的反射分块106c和107c反射到反射分块101a中。在没有此信息的情况下，渲染器将务必重建和分析整个3D场景几何形状以检索此信息。

基于光线跟踪技术的渲染器利用所传输的表面属性并合成真实的取决于视点的光效果。

图11示出了根据本原理的第二实施方案的在深度图集100a、反射图集110b和颜色图集110c中对图9的3D场景进行编码的示例。针对3D场景的部分和在3D场景的至少一部分中反射的3D场景之外的部分，获得相同的深度、颜色和反射分块。在第二实施方案中，深度图集100a通过对每个深度分块101a至107a进行打包来生成。

颜色图集110c通过对与3D场景的朗伯曲线部分(即，非反射部分)相对应的颜色分块102c至105c以及与在3D场景的至少一部分中反射的3D场景之外的部分相对应的颜色分块106c和107c进行打包来生成。

反射图集110b通过对与3D场景的反射部分(即，3D场景的非朗伯曲线部分)相对应的反射分块101b进行打包来生成。针对分块图集110b的每个反射分块，BRDF信息和反射到当前分块中的颜色分块的列表与元数据中的分块相关联。

在一个变型中，正常图集与深度、反射和颜色图集100a、110b和110c相关联，该正常图集打包与3D场景的反射部分相对应的正常分块。

图12示出了根据本原理的第三实施方案的在深度图集100a、反射图集110b和颜色图集120c中对图9的3D场景进行编码的示例。针对3D场景的部分和在3D场景的至少一部分中反射的3D场景之外的部分，获得相同的深度、颜色和反射分块。在第二实施方案中，深度图集100a通过对每个深度分块101a至107a进行打包来生成。

颜色图集120c通过对与3D场景的部分(即，朗伯曲线部分和反射部分)相对应的颜色分块101c至105c以及与在3D场景的至少一部分中反射的3D场景之外的部分相对应的颜色分块106c和107c进行打包来生成。在图12中，将携带从相机视点看到的反射的纹理分块101c打包在颜色图集中，并且仅对向后兼容的渲染器有用。在此类渲染模式中，仅对深度分块101a到105a和颜色分块101c到105c进行解码并馈送到渲染器。

在一个变型中，正常图集与深度、反射和颜色图集100a、110b和120c相关联，该正常图集打包与3D场景的反射部分相对应的正常分块。

元数据与对3D场景进行编码的图集相关联。根据本原理，元数据使每个属性单独打包(即，分块在图集中的位置和取向)，并且还可能的是，分块不总是存在于所有属性图集帧中。用于元数据的可能语法可基于如下MIV标准的语法。

图集序列参数可用加粗的语法元素来扩展：

分块数据单元可用加粗的元素来扩展：

其中：

pdu_light_source_flag[tileID][p]等于1指示在ID为tileID的磁贴中具有索引p的分块是场景的视见平截头体外部的光源，其应当存在于纹理图集帧中且不应当存在于反射图集帧中。

pdu_reflection_parameters_present_flag[tileID][p]等于1指示反射模型参数存在于针对在ID为tileID的磁贴中具有索引p的分块的语法结构中，其应当存在于反射图集帧中。

pdu_reflection_model_id[tileID][p]指定针对在ID为tileID的磁贴中具有索引p的分块的反射模型的ID。pdu_reflection_model_id[tileID][p]等于1指示Phong模型。

pdu_specular_reflection_constant[tileID][p]指定针对在ID为tileID的磁贴中具有索引p的分块的Phong模型的镜面反射常数。

pdu_diffuse_reflection_constant[tileID][p]指定针对在ID为tileID的磁贴中具有索引p的分块的Phong模型的漫反射常数。

pdu_ambient_reflection_constant[tileID][p]指定针对在ID为tileID的磁贴中具有索引p的分块的Phong模型的环境反射常数。

pdu_diffuse_reflection_constant[tileID][p]指定针对在ID为tileID的磁贴中具有索引p的分块的Phong模型的光泽常数。

pdu_num_reflected_patches_minus1[tileID][p]加1指定在ID为tileID的磁贴中具有索引p的分块中反射的纹理分块的数目。

pdu_reflected_patch_idx[tileID][p][i]指定在ID为tileID的磁贴中具有索引p的分块中反射的第i个纹理分块的纹理图集帧中的索引。

可替换地，分块反射属性可以互为一组“材料反射属性”(例如，“金属”、“木头”、“草”等)，并且pdu_entity_id[tileID][p]语法元素可以用于将每个非朗伯曲线分块与一个材料ID相关联。在这种情况下，通过外部装置将与反射模型参数相关的语法元素提供给渲染器(针对每一个登记的材料)，并且仅将反射分块的列表发信号通知给分块数据单元MIV扩展。

MIV的公共图集序列参数集可扩展如下：

其中casme_miv_v1_rendering_compatible_flag指定图集几何结构和纹理帧与利用ISO/IEC 23090-12(1E)的假设渲染过程的渲染相兼容。当casme_MIV_v1_rendering_compatible_flag等于1时，比特流一致性的要求是，图集的几何结构和纹理帧中的分块的至少一个子组与ISO/IEC 23090-12(1E)的假设渲染过程相兼容。当不存在时，指示casme_MIV_v1_rendering_compatible_flag的值等于0。

图13例示了用于对具有复杂光效果的3D场景进行编码的方法130。在步骤131处，通过对经捕获的3D场景的部分进行投影来获得第一深度分块、第一颜色分块和反射分块。另外，通过对在3D场景的至少一部分中反射的经捕获的3D场景之外的部分进行投影来获得第二深度分块和第二颜色分块。在步骤132处，通过对第一和第二深度分块进行打包来生成深度图集，以及通过对第二颜色分块和第一颜色分块的子组进行打包来生成颜色图集。根据第一实施方案中，在颜色图集中打包的第一颜色分块的子组是空的。在第二实施方案中，在颜色图集中打包的第一颜色分块的子组对应于3D场景的朗伯曲线部分。在第三实施方案中，在颜色图集中打包的第一颜色分块的子组包括每个第一颜色分块。在步骤133处，通过打包反射分块的子组来生成反射图集。在第一实施方案中，在反射图集中打包的反射分块的子组包括每个反射分块。在第二实施方案中，在反射图集中打包的反射分块的子组对应于3D场景的非漫反射部分。在第三实施方案中，在反射图集中打包的反射分块的子组对应于3D场景的非漫反射部分。在每个实施方案中，反射图集与元数据相关联，该元数据包括：针对在反射图集中打包的每个反射分块，对反射分块上的光反射的双向反射分布函数模型的参数进行编码的第一信息，以及指示反射到反射分块中的颜色分块的列表的第二信息。在可选步骤134处，通过对与反射图集中的反射分块的子组相对应的正常分块进行打包来生成正常图集。在步骤135处，将生成的图集和相关联的元数据编码到数据流中。

图14例示了用于对具有复杂光效果的3D场景进行渲染的方法140。在步骤141处，获得数据流，该数据流携带表示3D场景的数据。在步骤142处，从数据流对打包深度分块的深度图集和打包颜色分块的颜色图集进行解码。在步骤143处，从数据流对打包反射分块的反射图集进行解码。还对与反射图集相关联的元数据进行解码。元数据包括：针对在反射图集中打包的每个反射分块，对反射分块上的光反射的双向反射分布函数模型的参数进行编码的第一信息，以及指示反射到反射分块中的颜色分块的列表的第二信息。在可选步骤144中，通过从数据流对正常图集进行解码，该正常图集对与反射图集中反射分块的子组相对应的正常分块进行打包。

在步骤145处，根据对应深度分块的像素对色彩分块的像素进行去投影，以检索3D场景的点。在步骤146处，基于反射分块的像素和相关联的元数据以及在元数据中列出的深度和颜色分块，通过使用光线跟踪方法来检索光效果。在一个变型中，正常分块可用于促进光线跟踪。

本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的具体实施也可以其他形式(例如，程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如例如处理器)中实施，该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如，智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)以及有利于最终用户之间信息的通信的其他设备。

本文描述的各种过程和特征的具体实施可以体现于各种不同的设备或应用程序中，特别是例如与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理相关联的设备或应用程序。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA和其他通信设备。应当清楚的是，设备可以是移动的，甚至安装在移动车辆中。

另外，方法可以由处理器执行的指令来实现，并且此类指令(和/或由具体实施产生的数据值)可以存储在处理器可读介质上，诸如例如集成电路、软件载体或其他存储设备，诸如例如硬盘、紧凑型磁盘(“CD”)、光盘(诸如例如，DVD，通常称为数字通用光盘或数字视频光盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成在处理器可读介质上有形地体现的应用程序。指令可以是例如硬件、固件、软件或组合。指令可以在例如操作系统、单独应用程序或两者的组合中发现。因此，处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外，除了或代替指令，处理器可读介质可以存储由具体实施产生的数据值。

对于本领域的技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如，信号可以被格式化为作为数据携带用于写入或阅读所描述的实施方案的语法的规则，或作为数据携带由所描述的实施方案写入的实际语法值的数据。此类信号可格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的，信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

已描述了多个具体实施。但应理解的是，可以作出许多修改。例如，可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外，普通技术人员将理解，其他结构和过程可以被替换为所公开的那些，并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能，以实现与所公开的具体实施至少基本相同的结果。因此，本申请考虑了这些和其他具体实施。

Claims

1.一种方法，所述方法包括：

-针对在所述3D场景的至少一部分中反射的所述3D场景之外的部分，获得第二颜色分块和第二深度分块；

-通过打包第一和第二深度分块来生成深度图集；

-通过打包所述第二颜色分块和所述第一颜色分块的子组来生成颜色图集；

-通过打包所述反射分块的子组来生成反射图集；

-针对在所述反射图集中打包的每个反射分块，

生成第一信息，所述第一信息对所述反射分块上的光反射的双向反射分布函数模型的参数进行编码，以及

生成第二信息，所述第二信息指示反射到所述反射分块中的颜色分块的列表；以及

-将所述深度图集、所述颜色图集、所述反射图集以及所述第一信息和所述第二信息编码到数据流中。

2.根据权利要求1所述的方法，其中：

-在所述颜色图集中打包的所述第一颜色分块的所述子组是空的；并且

-在所述反射图集中打包的所述反射分块的所述子组包括每个反射分块。

3.根据权利要求1所述的方法，其中：

-在所述颜色图集中打包的所述第一颜色分块的所述子组对应于所述3D场景的朗伯曲线部分；并且

-在所述反射图集中打包的所述反射分块的所述子组对应于所述3D场景的非漫反射部分。

4.根据权利要求1所述的方法，其中：

-在所述颜色图集中打包的所述第一颜色分块的所述子组包括每个第一颜色分块；并且

5.根据权利要求1至4中的一项所述的方法，其中所述双向反射分布函数模型为Phong模型。

6.根据权利要求1至5中的一项所述的方法，所述方法还包括通过对与所述反射图集中的所述反射分块的所述子组相对应的表面正常分块进行打包来生成表面正常图集。

7.一种设备，所述设备包括：

处理器；和

非暂态计算机可读介质，所述非暂态计算机可读介质存储指令，所述指令在由所述处理器执行时可操作以执行以下操作：

-通过打包第一和第二深度分块来生成深度图集；

-通过打包所述反射分块的子组来生成反射图集；

-针对在所述反射图集中打包的每个反射分块，

8.根据权利要求7所述的设备，其中：

9.根据权利要求7所述的设备，其中：

10.根据权利要求7所述的设备，其中：

11.根据权利要求7至10中的一项所述的设备，其中所述双向反射分布函数模型为Phong模型。

12.根据权利要求7至11中的一项所述的设备，所述非暂态计算机可读介质还存储指令，所述指令可操作以通过对与所述反射图集中的所述反射分块的所述子组相对应的表面正常分块进行打包来生成表面正常图集。

13.一种对3D场景进行编码的数据流，所述数据流包括：

-深度图集，所述深度图集打包第一深度分块和第二深度分块，所述第一深度分块对应于所述3D场景的部分，所述第二深度分块对应于在所述3D场景的至少一部分中反射的所述3D场景之外的部分；

-颜色图集，所述颜色图集打包第一颜色分块和第二颜色分块，所述第一颜色分块对应于所述3D场景的部分，所述第二颜色分块对应于在所述3D场景的至少一部分中反射的所述3D场景之外的部分；

-反射图集，所述反射图集打包反射分块，所述反射分块对应于所述3D场景的部分；以及

-针对在所述反射图集中打包的每个反射分块，

●第一信息，所述第一信息对所述反射分块上的光反射的双向反射分布函数模型的参数进行编码，和

●第二信息，所述第二信息指示反射到所述反射分块中的颜色分块的列表。

14.根据权利要求13所述的数据流，其中所述双向反射分布函数模型为Phong模型。

15.根据权利要求13至14中的一项所述的数据流，其中还包括表面正常图集，所述表面正常图集对与所述反射图集中的所述反射分块的子组相对应的表面正常分块进行打包。

16.一种用于对3D场景进行渲染的方法，所述方法包括：

从数据流对以下项进行解码：

-反射图集，所述反射图集打包反射分块，所述反射分块对应于所述3D场景的部分；

-信息，所述信息发信号通知根据所述第一颜色分块和所述反射分块所确定的渲染模式；以及

-针对在所述反射图集中打包的每个反射分块，

●第二信息，所述第二信息指示反射到所述反射分块中的颜色分块的列表；

以及

通过以下步骤对所述3D场景进行渲染：根据所述第一和第二深度分块对所述第一和第二颜色分块进行去投影，以及根据第一和第二信息及相关联的颜色分块对反射分块使用光线跟踪。

17.根据权利要求16所述的方法，其中所述双向反射分布函数模型为Phong模型。

18.根据权利要求16至17中的一项所述的方法，所述方法还包括：从所述数据流对表面正常图集进行解码，所述表面正常图集对与所述反射图集中的所述反射分块的子组相对应的表面正常分块进行打包；以及使用表面正常分块以进行光线跟踪。

19.一种设备，所述设备包括：

处理器；和

从数据流对以下项进行解码：

-深度图集，所述深度图集打包第一深度分块和第二深度分块，所述第一深度分块对应于3D场景的部分，所述第二深度分块对应于在所述3D场景的至少一部分中反射的所述3D场景之外的部分；

-针对在所述反射图集中打包的每个反射分块，

以及

20.根据权利要求19所述的设备，其中所述双向反射分布函数模型为Phong模型。

21.根据权利要求19至20中的一项所述的设备，其中所述处理器被进一步配置为：从所述数据流对表面正常图集进行解码，所述表面正常图集对与所述反射图集中的所述反射分块的子组相对应的表面正常分块进行打包；以及使用表面正常分块以进行光线跟踪。