CN115023739A

CN115023739A - 用于对具有视图驱动的镜面反射的体积视频进行编码和解码的方法和装置

Info

Publication number: CN115023739A
Application number: CN202080088775.2A
Authority: CN
Inventors: J·弗勒罗; F·苏多; T·塔皮; R·多尔
Original assignee: Interactive Digital Vc Holding France
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2019-12-20
Filing date: 2020-12-17
Publication date: 2022-09-06
Also published as: US20220377302A1; KR20220127258A; WO2021122983A1; EP4078532A1

Abstract

本发明提供了用于对3DoF+体积视频进行编码、传输和解码的方法和设备。在编码阶段，(在所有输入视图中)选择一个输入视图以传送视口相关的光照效果，并且将其id传输到解码器作为附加元数据。在解码器侧，当来自该所选视图的分块可用于视口的渲染时，这些分块相对于其他候选者被优先使用，而不论合成视图位置为何。

Description

用于对具有视图驱动的镜面反射的体积视频进行编码和解码的方法和装置

1.技术领域

本发明原理总体涉及三维(3D)场景和体积视频内容的域。还在编码、格式化和解码表示3D场景的纹理和几何结构的数据的上下文中理解本文档，以在诸如移动设备或头戴式显示器(HMD)的最终用户设备上渲染体积内容。

2.背景技术

本部分旨在向读者介绍本领域的各个方面，这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息，以促进更好地理解本发明原理的各个方面。因此，应当理解，这些陈述应当从这个角度来解读，而不是承认现有技术。

最近，可用的大视场内容(高达360°)有所增长。观看沉浸式显示设备(诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话等)上的内容的用户可能无法完全看到此类内容。这意味着在给定的时刻，用户只能观看一部分内容。然而，用户通常可通过例如头部移动、鼠标移动、触摸屏、语音以及类似物的各种手段在内容内导航。通常希望对该内容进行编码和解码。

沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以满足第一次全向视频体验(例如，使用头戴式显示器(HMD设备))的要求，但3DoF视频对于期望更多自由(例如，通过体验视差)的观看者可能很快变得令人沮丧。此外，3DoF还可能导致眩晕，因为用户永远不会只旋转其头部，而是还向三个方向平移头部，这些平移不会在3DoF视频体验中再现。

其中，大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频。许多术语可用于设计此类沉浸式视频：例如，虚拟现实(VR)、360、全景、4π球面度、沉浸式、全向或大视场。

体积视频(也称为6自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时，除了旋转之外，用户还可以在观看的内容中平移其头部，甚至其身体，并且体验视差甚至体积。这种视频显著增加了沉浸感和对场景深度的感知，并通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容是通过专用传感器创建的，允许同时记录感兴趣场景的颜色和深度。即使仍然存在技术困难，使用结合摄影测量技术的彩色相机装备也是执行这种记录的一种方式。

虽然3DoF视频包括由纹理图像的解映射产生的图像序列(例如，根据纬度/经度投影映射或等角投影映射编码的球面图像)，但6DoF视频帧嵌入了来自多个视点的信息。它们可被视为由三维捕获产生的点云的时间序列。根据观看条件可以考虑两种体积视频。第一种(即，完全6DoF)允许视频内容内的完全自由导航，而第二种(又名3DoF+)将用户观看空间限制为被称为观看边界框的有限体积，从而允许头部的有限平移和视差体验。该第二种情况是在自由导航和就座观众的被动观看条件之间的有价值的折衷。

3DoF+内容可以被设置作为一组多视图+深度(MVD)帧。此类内容可以来自真实捕获或可以通过专用渲染(可能为真实感渲染)从现有的CG内容生成。MVD帧由位于不同视点处且捕获相同3D场景的一组相机(构造为相机装备)捕获。例如，该装备可以将一组相机构造为相机阵列或构造为具有朝向不同方向的相机的360°采集设备。然而，作为MVD帧提供的3D场景的3DoF+渲染可在该帧包括许多镜面反射/反射或透明部件时产生视觉伪影。从MVD帧中恢复真实的物理照明是一个非常复杂的挑战。实际上，一组MVD帧不直接捕获足够的信息来恢复正确的光场。场景对象的材料特性(双向反射分布函数，也称为BRDF)以及对光源的描述可仅从该组MVD帧大致估计，并且此过程非常复杂。

在3DoF+场景中，最终用户应在受限的观看空间内通过“小”运动体验有限的视差。在此类场景下，可凭经验证明，普通观看者在改变头部位置时，很少会对可能经历的镜面反射/反射/透明度的变化敏感。然而，他对这些光照效果在合成视图上的一致性非常敏感。缺乏用于对提供作为MVD帧序列的体积视频内容进行编码、传输和解码的解决方案，其中对这些光照效果进行一致渲染。

3.发明内容

以下呈现本发明原理的简化概述，以便提供对本发明原理的一些方面的基本理解。本发明内容不是本发明原理的广泛概述。不旨在识别本发明原理的关键或重要元素。以下发明内容仅以简化形式呈现本发明原理的一些方面，作为下面提供的更详细描述的前言。

本发明原理涉及一种用于在数据流中对提供作为多视图加深度(MVD)帧的3D场景进行编码的方法。该方法包括：

-基于从观看空间中的平均位置对3D场景的视野覆盖，在MVD帧中选择视图作为参考视图；

-生成打包至少一个分块的图集图像。分块是MVD帧的视图的图像部分。图集图像包括表示从观看空间可见的3D场景的信息。

-生成元数据，该元数据包括MVD帧的每个视图的采集参数、将每个分块与视图相关联的信息和所选参考视图的标识符；以及

-在数据流中对图集和元数据进行编码。

本发明原理还涉及一种用于对表示从观看空间可见的3D场景的数据流进行解码的方法。该方法包括：

-从数据流对图集图像和相关联的元数据进行解码，

图集图像打包至少一个分块。分块是多视图加深度(MVD)

帧的视图的图像部分。图集图像包括表示从观看空间可见的3D场景的信息。

元数据包括MVD帧的每个视图的采集参数、将每个分块与视图相关联的信息和参考视图的标识符，与参考视图相关联的分块是参考分块；

-通过以下方式针对观看空间内的当前视点渲染视口图像：

当两个分块对视口图像有贡献时，如果两个分块中的一个分块是参考分块，则将参考分块的颜色贡献用于视口图像。

本发明原理还涉及一种包括实施上述编码方法的步骤的处理器的设备和一种包括实施上述解码方法的步骤的处理器的设备。

4.附图说明

将更好地理解本公开，并且在阅读以下描述、参考附图的描述之后，将出现其他特定特征和优点，其中：

-图1示出了根据本发明原理的非限制性实施方案的对象的三维(3D)模型和对应于该3D模型的点云的点；

-图2示出了根据本发明原理的非限制性实施方案的对表示3D场景序列的数据进行编码、传输和解码的非限制性示例；

-图3示出了根据本发明原理的非限制性实施方案的可被配置为实施关于图11和图12描述的方法的设备的示例性架构；

-图4示出了根据本发明原理的非限制性实施方案的当通过基于分组的传输协议传输数据时流的语法的实施方案的示例；

-图5示出了根据本发明原理的非限制性实施方案的来自中心视点的球面投影；

-图6示出了根据本发明原理的非限制性实施方案的包括3D场景的点的纹理信息的图集的示例；

-图7示出了根据本发明原理的非限制性实施方案的包括图6的3D场景的点的深度信息的图集的示例；

-图8概略地示出了根据本发明原理的非限制性实施方案的由二十个透视相机阵列捕获的多视图+深度(MVD)帧；

-图9示出了根据本发明原理的非限制性实施方案的由图8的相机阵列捕获的3D场景的二十个视图中的两个视图；

-图10示出了根据本发明原理的非限制性实施方案的从相关联的3DoF+观看空间中的给定视点的图9的场景的视口图像的细节；

-图11示出了根据本发明原理的非限制性实施方案的用于对体积视频内容进行编码的方法；

-图12示出了根据本发明原理的非限制性实施方案的用于对体积视频内容进行解码的方法120。

5.具体实施方式

下文将参考附图更全面地描述本发明原理，在该附图中示出了本发明原理的示例。然而，本发明原理可以许多替代形式体现，并且不应被解释为限制于本文阐述的示例。因此，虽然本发明原理易受各种修改和替代形式的影响，但是其具体示例通过附图中的示例示出，并且本文将详细描述。然而，应当理解，不存在将本发明原理限制为所公开的特定形式的意图，但是相反，本公开用于涵盖落入由权利要求书限定的本发明原理的实质和范围内的所有修改、等同物和替代方案。

本文使用的术语仅出于描述特定示例的目的，并且不旨在限制本发明原理。如本文所用，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另有明确说明。将会进一步理解，当用于本说明书时，术语“包括”和/或“包含”指定存在所述特征、整数、步骤、操作、元件和/或分量，但不排除一个或多个其他特征、整数、步骤、操作、元件、分量和/或其组的存在或添加。此外，当元件被称为“响应”或“连接”到另一元件时，它可以直接响应或连接到另一元件，或者可以存在中间元件。相反，当元件被称为“直接响应”或“直接连接”到其他元件时，不存在中间元件。如本文所用，术语“和/或”包括列出的相关联项中的一者或多者的任何和所有组合，并且可以缩写为“/”。

应当理解，尽管在本文中可使用术语第一、第二等来描述各种元件，但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如，在不脱离本发明原理的教导内容的情况下，第一元件可以被称为第二元件，并且类似地，第二元件可以被称为第一元件。

尽管一些图示包括通信路径上的箭头以显示主通信方向，但是应理解，通信可以在与所描绘箭头相反的方向上发生。

关于其中每个框表示电路元件、模块或代码部分的框图和操作流程图描述了一些示例，该代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是，在其他具体实施中，框中标注的功能可能不按标注的顺序出现。例如，连续显示的两个框实际上可基本上同时执行，或者这些框有时可根据所涉及的功能以相反的顺序执行。

本文中的“根据一个示例”或“在一个示例中”的参考意味着结合示例描述的特定特征、结构或特性可以包括在本发明原理的至少一个具体实施中。说明书中各个地方的“根据一个示例”或“在一个示例中”的短语的出现不一定全部参考同一示例，也不一定是与其他示例相互排斥的单独的或替代的示例。

在权利要求书中出现的附图标号仅通过说明的方式，并且对权利要求书的范围没有限制作用。虽然未明确描述，但本示例和变体可以任何组合或子组合采用。

图1示出了对象的三维(3D)模型10和对应于3D模型10的点云11的点。3D模型10和点云11可例如对应于包括其他对象的3D场景的对象的可能3D表示。模型10可以是3D网格表示，并且点云11的点可以是网格的顶点。点云11的点也可以是分布在网格面的表面上的点。模型10也可表示为点云11的喷溅版本，模型10的表面是通过喷溅点云11的点而创建的。模型10可由诸如体素或样条的许多不同表示来表示。图1示出了可用3D对象的表面表示来定义点云以及可从云点生成3D对象的表面表示的事实。如本文所用，将3D对象的点(引申为3D场景的点)投影到图像上等效于投影该3D对象的任何表示，例如点云、网格、样条模型或体素模型。

点云可在存储器中表示为例如基于矢量的结构，其中每个点在视点的参照系中都有自己的坐标(例如三维坐标XYZ，或立体角和从/到视点的距离(也称为深度))和一个或多个属性，也称为分量。分量的一个示例是可在各种色彩空间中表示的颜色分量，例如RGB(红、绿和蓝)或YUV(Y是亮度分量并且UV是两个色度分量)。点云是包括对象的3D场景的表示。可从给定视点或视点范围看到3D场景。点云可通过多种方式获得，例如：

·从由相机装备拍摄的真实对象的捕获，任选地辅以深度主动感测设备；

·从由建模工具中的虚拟相机装备拍摄的虚拟/合成对象的捕获；

·从真实对象和虚拟对象两者的混合。

图2示出了对表示3D场景序列的数据进行编码、传输和解码的非限制性示例。编码格式可例如同时兼容3DoF、3DoF+和6DoF解码。

获得3D场景序列20。如同画面序列是2D视频，3D场景序列是3D(也称为体积)视频。可将3D场景序列提供给体积视频渲染设备以进行3DoF、3Dof+或6DoF渲染和显示。

可将3D场景序列20提供给编码器21。编码器21将一个3D场景或3D场景序列作为输入，并提供表示该输入的比特流。比特流可存储在存储器22中和/或电子数据介质上，并且可通过网络22传输。表示3D场景序列的比特流可由解码器23从存储器22读取和/或从网络22接收。解码器23由比特流输入并提供例如点云格式的3D场景序列。

编码器21可包括实现若干步骤的若干电路。在第一步骤中，编码器21将每个3D场景投影到至少一个2D画面上。3D投影是将三维点映射到二维平面的任何方法。由于用于显示图形数据的大多数当前方法都基于平面(来自几个位平面的像素信息)二维介质，因此这种类型的投影的用途是广泛的，在计算机图形、工程和制图方面尤为如此。投影电路211为3D场景20序列提供至少一个二维帧2111。帧2111包括表示投影到帧2111上的3D场景的颜色信息和深度信息。在变体中，颜色信息和深度信息被编码在两个单独的帧2111和2112中。

元数据212由投影电路211使用和更新。元数据212包括关于投影操作的信息(例如投影参数)以及关于颜色和深度信息在帧2111和2112内的组织方式的信息，如结合图5至图7所述。

视频编码电路213将帧2111和2112序列编码为视频。3D场景的画面2111和2112(或3D场景的画面序列)由视频编码器213编码在流中。然后，视频数据和元数据212由数据封装电路214封装在数据流中。

编码器213例如与诸如以下的编码器兼容：

-JPEG，规范ISO/CEI 10918-1UIT-T Recommendation T.81，https://www.itu.int/rec/T-REC-T.81/en；

-AVC，也称为MPEG-4AVC或h264。在UIT-T H.264和ISO/CEI MPEG-4第10部分(ISO/CEI 14496-10)两者中规定，http://www.itu.int/rec/T-REC-H.264/en，HEVC(其规范见于ITU网站，T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en)；

-3D-HEVC(HEVC的扩展，其规范见于ITU网站，Trecommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I)；

-Google开发的VP9；或者

-由Alliance for Open Media开发的AV1(AOMedia Video 1)。

数据流被存储在可由解码器23例如通过网络22访问的存储器中。解码器23包括实现不同的解码步骤的不同电路。解码器23将由编码器21生成的数据流作为输入，并提供待由如头戴式设备(HMD)的体积视频显示设备渲染和显示的3D场景序列24。解码器23从源22获得流。例如，源22属于一组，该组包括：

-本地存储器，例如视频存储器或RAM(或随机存取存储器)、闪存存储器、ROM(或只读存储器)、硬盘；

-存储接口，例如具有大容量存储装置、RAM、闪存存储器、ROM、光盘或磁性载体的接口；

-通信接口，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或

接口)；

以及

-使用户能够输入数据的用户界面，诸如图形用户界面。

解码器23包括用于提取在数据流中编码的数据的电路234。电路234将数据流作为输入，并提供对应于在流中编码的元数据212的元数据232和二维视频。视频由提供帧序列的视频解码器233解码。解码帧包括颜色和深度信息。在变体中，视频解码器233提供两个帧序列，一个包含颜色信息，另一个包含深度信息。电路231使用元数据232对来自解码帧的颜色和深度信息进行去投影，以提供3D场景序列24。3D场景序列24对应于3D场景序列20，可能损失与作为2D视频的编码和视频压缩相关的精度。

图3示出了可被配置为实施关于图11和图12描述的方法的设备30的示例性架构。图2的编码器21和/或解码器23可实现该架构。或者，编码器21和/或解码器23中的每个电路可以是根据图3的架构的设备，其例如经由其总线31和/或经由I/O接口36链接在一起。

设备30包括通过数据和地址总线31连接在一起的以下元件：

-微处理器32(或CPU)，该微处理器是例如DSP(或数字信号处理器)；

-ROM(或只读存储器)33；

-RAM(或随机存取存储器)34；

-存储接口35；

-I/O接口36，该I/O接口用于从应用程序接收要传输的数据；以及

-电源，例如电池。

根据一个示例，电源在设备外部。在每个提到的存储器中，说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如，整个程序或大量接收或解码的数据)。ROM 33至少包括程序和参数。ROM 33可以根据本发明原理存储用于执行技术的算法和指令。当接通时，CPU 32上载RAM中的程序并执行对应指令。

RAM 34包括寄存器中的由CPU 32执行并在设备30的接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态中的中间数据以及用于在寄存器中执行方法的其他变量。

本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的具体实施也可以其他形式(例如，程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如，例如处理器)中实施，该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。

根据示例，设备30被配置为实施关于图11和图12描述的方法，并且属于包括以下项的集合：

-移动设备；

-通信设备；

-游戏设备；

-平板电脑(或平板计算机)；

-膝上型电脑；

-静态图片相机；

-摄像机；

-编码芯片；

-服务器(例如广播服务器、视频点播服务器或web服务器)。

图4示出了当通过基于分组的传输协议传输数据时流的语法的实施方案的示例。图4示出了体积视频流的示例性结构4。该结构包含在以语法的独立元素组织流的容器中。该结构可包括标头部分41，它是流的每个语法元素所共有的一组数据。例如，标头部分包括关于语法元素的一些元数据，描述它们中每一个的性质和角色。标头部分还可包括图2的元数据212的一部分，例如用于将3D场景的点投影到帧2111和2112上的中心视点的坐标。该结构包括有效载荷，该有效载荷包括语法元素42和至少一个语法元素43。语法元素42包括表示颜色和深度帧的数据。图像可能已根据视频压缩方法进行了压缩。

语法元素43是数据流的有效载荷的一部分，并且可包括关于如何对语法元素42的帧进行编码的元数据，例如用于将3D场景的点投影和打包到帧上的参数。此类元数据可与视频的每个帧或帧组(在视频压缩标准中也称为画面组(GoP))相关联。

图5示出了以4个投影中心为例的分块图集方法。3D场景50包括人物。例如，投影中心51是透视相机，并且相机53是正射相机。相机还可以是具有例如球面映射(例如等矩形映射)或立方体映射的全向相机。根据在元数据的投影数据中描述的投影操作，3D场景的3D点被投影到与位于投影中心处的虚拟相机相关联的2D平面上。在图5的示例中，根据透视映射将由相机51捕获的点的投影映射到分块52上，并且根据正射映射将由相机53捕获的点的投影映射到分块54上。

投影像素的群集产生多个2D分块，其被打包在矩形图集55中。图集内分块的组织限定了图集布局。在实施方案中，具有相同布局的两个图集：一个用于纹理(即颜色)信息，并且一个用于深度信息。由同一相机或由两个不同相机捕获的两个分块可包括表示3D场景的相同部分的信息，如例如分块54和56。分块还可以是4pi球面度中心视图的合成(例如，如图6和图7中的等矩形贴图或立方体贴图)，其在大多数情况下覆盖3D场景的可见部分的百分之九十。

打包操作为每个生成的分块产生分块数据。分块数据包括对投影数据的引用(例如，投影数据表中的索引或指向投影数据的指针(即，存储器中或数据流中的地址))和描述图集内分块的位置和尺寸的信息(例如，左上角坐标、尺寸和以像素为单位的宽度)。将分块数据项添加到元数据，以与一个或两个图集的压缩数据相关联地封装在数据流中。

图6示出了根据本发明原理的非限制性实施方案的包括3D场景的点的纹理信息(例如，RGB数据或YUV数据)的图集60的示例。如结合图5所解释的，图集是图像打包分块，分块是通过投影3D场景的一部分点而获得的画面。

在图6的示例中，图集60包括第一部分61和一个或多个第二部分62，该第一部分包括3D场景的从视点可见的点的纹理信息。第一部分61的纹理信息可例如根据等角投影映射来获得，等角投影映射是球面投影映射的示例。在图6的示例中，第二部分62布置在第一部分61的左边界和右边界处，但第二部分可以不同地布置。第二部分62包括与从视点可见的部分互补的3D场景的部分的纹理信息。可通过以下方式获得第二部分：从3D场景中移除从第一视点可见的点(其纹理存储在第一部分中)并且根据相同的视点来投影剩余的点。可以迭代地重复后一过程，以每次获得3D场景的隐藏部分。根据变体，可通过以下方式获得第二部分：从3D场景中移除从视点(例如，中心视点)可见的点(其纹理被存储在第一部分中)并且根据不同于第一视点的视点，例如从以中心视点为中心的观看空间(例如，3DoF渲染的观看空间)的一个或多个第二视点来投影剩余的点。

第一部分61可被看作第一大纹理分块(对应于3D场景的第一部分)，并且第二部分62包括较小的纹理分块(对应于与第一部分互补的3D场景的第二部分)。此类图集具有同时与3DoF渲染(当仅渲染第一部分61时)和与3DoF+/6DoF渲染兼容的优点。

图7示出了根据本发明原理的非限制性实施方案的包括图6的3D场景的点的深度信息的图集70的示例。图集70可被看作对应于图6的纹理图像60的深度图像。

图集70包括第一部分71和一个或多个第二部分72，该第一部分包括3D场景的从中心视点可见的点的深度信息。图集70可以与图集60相同的方式获得，但包含与3D场景的点相关联的深度信息而不是纹理信息。

对于3D场景的3DoF渲染，仅考虑一个视点，通常是中心视点。用户可围绕第一视点以三自由度旋转其头部以观看3D场景的各个部分，但用户不能移动该唯一视点。要被编码的场景的点是从该唯一视点可见的点，并且仅需要对纹理信息进行编码/解码以进行3DoF渲染。对于3DoF渲染，不需要对从该唯一视点不可见的场景的点进行编码，因为用户不能访问它们。

对于6DoF渲染，用户可将视点移动到场景中的各处。在这种情况下，需要对比特流中场景的每个点(深度和纹理)进行编码，因为可移动他/她的视点的用户可能会访问每个点。在编码阶段处，不存在先验地知道用户将从哪个视点观察3D场景的手段。

对于3DoF+渲染，用户可在围绕中心视点的有限空间内移动视点。这使得能够体验视差。表示从观看空间的任何点可见的场景的部分的数据将被编码到流中，包括表示根据中心视点可见的3D场景的数据(即第一部分61和71)。例如，可在编码步骤处决定和确定观看空间的尺寸和形状，并在比特流中编码。解码器可从比特流获得该信息，并且渲染器将观看空间限制为由所获得的信息确定的空间。根据另一示例，渲染器根据硬件约束，例如与检测用户移动的传感器的能力有关的硬件约束来确定观看空间。在这种情况下，如果在编码阶段处，从渲染器的观看空间内的点可见的点尚未在比特流中被编码，则该点将不被渲染。根据又一示例，表示3D场景的每个点的数据(例如，纹理和/或几何结构)被编码在流中，而不考虑渲染观看空间。为了优化流的尺寸，可仅对场景的点的子组进行编码，例如可根据渲染观看空间看到的点的子组。

图8概略地示出了由二十个透视相机阵列捕获的多视图+深度(MVD)帧。在图8的示例中，二十个(真实或虚拟)相机811到845被组织为阵列并且瞄准相同的视图方向。视点(即，由相机捕获的图像的投影中心)彼此水平和/或垂直偏移。此类相机装备提供相同场景的二十个图像，每个视图包括颜色和潜在深度信息。当视图不包括深度分量时，可通过根据相机的参数处理视图来检索深度信息。

当3D内容作为MVD帧提供时，体积信息也作为存储在对应颜色和深度图集中的颜色和深度分块的组合来传送，如图5到图7。利用常规编解码器(例如，HEVC)对视频内容进行编码。颜色和深度分块的每个组合表示MVD输入视图的子部分，并且在编码阶段处设计一组所有分块以“覆盖”整个场景，同时存在尽可能少的冗余。在解码阶段处，首先对图集进行视频解码，并且在视图合成过程中渲染分块，以恢复与期望的观看位置相关联的视口。将分块创建为足够非冗余且互补的方式是关键。一种方式包括修剪输入源视图(或从输入源视图获得的任何其它合成视图，诸如图6和图7的中心视图)以去除任何冗余信息。为此，不管是原始视图还是合成视图，每个输入视图(颜色+深度)均被逐一进行迭代修剪。更精确地，在源视图中首先选择一组未修剪的“基本”视图，并且将其完全传输。然后，将一组剩余的“附加”视图迭代地处理以去除与“基本视图”和任何其他已经被修剪的“附加”视图的任何冗余信息(在颜色和深度相似性方面)。然而，可有意地保持已修剪区域之间的一些重叠，以避免任何拼接伪影。

图9示出了由图8的相机阵列捕获的3D场景的二十个视图中的两个视图。为了清楚起见，仅示出了视图811和视图835。图像811是比图像835更靠上和更靠左的场景的视图。3D场景包括透明对象92和反射对象91(烤箱门反射出地板上的大蜘蛛)。视图811和835包括与3D场景的相同点对应的信息。然而，由于场景的照明和不同的采集位置，一个视图的与这些点相关联的颜色信息可与另一个视图不同。视图811还包括关于3D场景中的从视图835的视点不可见的点的信息。

如上所述，生成至少一个图集以通过修剪冗余信息并且在3D空间的已修剪区域之间保持一些重叠以对来自MVD帧的3D场景进行编码，从而有助于在渲染时进行拼接。图集应足以在用户可在其中移动的3DoF+观看空间内从任何视点重建/合成任何视口图像。为此，执行合成过程，该合成过程拼接来自图集的所有分块以恢复期望的视口图像。然而，当图集中表示的场景包括如图9所示的镜面反射/反射或透明部件时，此拼接步骤可受到强伪影的影响。此类光照效果取决于观看位置，并且因此，有关空间部分的感知颜色可以从一个视点改变为另一个视点。因此，用于捕获体积场景的一组MVD源帧受到此类改变的影响，因此影响(已从该组MVD帧中提取或合成的)图集分块。与3D空间的重叠区域相关的不同分块可具有不同的颜色。然而，混合来自不同视图的分块最终可产生不与体积场景的适当可视化兼容的异构拼缀图。

当发生分块之间的重叠时，可设想不同的策略来减轻这个问题。第一种方法包括选择来自与当前视图最近的视图的分块来合成。尽管简单，但当从移动的虚拟相机合成视图时，这种方法可能会导致重要的时间伪影。实际上，以从具有相关联的观看位置P1和P2的两个视图中提取的并且表示空间的同一部分的两个分块为例，当虚拟相机中心O移动并且穿过等距(OP1＝OP2)边界时，合成器突然从一个分块切换到另一个分块，这导致所谓的“点击伪影”。如果移动相机频繁地穿过等距边界，则这些伪影甚至更具干扰性。第二种方法包括对每个分块的贡献进行加权，而不是选择其中一个分块。权重可例如从距离OP1和OP2得出。这种方法避免了“点击”伪影，但是最终合成是模糊的，因为每个分块的贡献被平均。然而，这两种方法不适用于分块不重叠的情况。

图10示出了从相关联的3DoF+观看空间中的给定视点的图9的场景的视口图像的细节。图像101和103是当使用本发明原理生成时的视口图像的细节。图像102和104是当使用加权方法(上述的第二种方法)生成时的相同视口图像的相同细节。由于对来自显著不同的视点的不同分块进行的组合和/或平均，图像102上的壶和玻璃杯的透明度低于图像101，并且图像104上的蜘蛛在烤箱玻璃中的反射不如图像103上的清晰。

根据本发明原理，在编码阶段，选择一个源视图(或源视图的受限子集)作为参考视图，并且该源视图在解码阶段被认为输送照明信息。在解码阶段，一旦分块用于从当前观看位置生成视口图像，与该参考视图相关联的分块被选择作为(优选的)渲染颜色。

在视图中选择参考视图作为在3DoF+观看空间内从最终用户的平均位置的视野方面更好地覆盖体积场景的视图。确保后一种情况可以减少当所选视图不再覆盖用户视口(由于遮挡或视野太小)时可能出现的点击/拼缀图效果。例如，在源MVD帧的视图中选择参考视图作为具有最中心位置(距离所有输入视图光学中心的重心最近)的视图。在图8的示例中，选择视图823或视图833(或它们两者、或由它们两者合成的视图)作为参考视图。在变体中，执行4pi球面度中心视图(如图6和图7中所示)的合成作为编码阶段，并且该中心视图被选择作为参考视图(仅具有一个相关联的分块)。

参考视图必须通过信号传输到解码器，使得解码器可能能够在渲染阶段正确地使用该参考视图。可以在相机参数描述级别的元数据中使用附加的任选的布尔数组specular_confidence(当且仅当specular_confidence_params_equal_flag被设为真时可用)来指示该信息，其中如果相关联的输入视图/相机应该被用作着色的参考，则每个分量为真，如下表所示：

在使用一个唯一视图的情况下，可另外考虑使用指定参考视图的单个32位无符号整数字段specular_confidence_id。也可以选择特定值(例如0xffffffff或num_cameras_minus1+1)来禁用特征，如下表所示：

在解码阶段，恢复用于着色(照明效果)的(一组)参考相机/视图id。在这个(这些)参考相机每次覆盖视口以进行合成时，与这个(这些)参考相机相关联的每个分块都会被优先使用。通过这样做，光照效果是烘焙光照效果，并且不会如预期那样改变任何观看位置。

图11示出了用于根据本发明原理的非限制性实施方案的对体积视频内容进行编码的方法110。在步骤111处，从源获得3D场景以进行编码。3D场景被提供作为多视图加深度内容，例如由不同相机捕获的MVD帧，每个相机具有其自身的外在参数和内在参数。根据本发明原理，选择视图(或源视图的受限子集)作为参考视图。在视图中选择参考视图作为在3DoF+观看空间内从最终用户的平均位置的视野方面更好地覆盖体积场景的视图。该视图用于生成可被打包在图集图像中的一组分块，分块是从一个视图中提取的图像。在步骤112处，生成元数据并将其与分块和/或与图集相关联。所生成的元数据包括描述相机的外在参数和内在参数(即，与每个视图相关的参数)并且将每个分块与提取该分块的视图相关联的信息。根据本发明原理，元数据包括指示在步骤111处选择的参考视图的信息。在步骤113处，在数据流中对体积场景进行编码，该数据流包括表示分块图集和相关联的元数据的数据。该方法应用在MVD内容序列上以对体积视频进行编码。

图12示出了根据本发明原理的非限制性实施方案的用于对体积视频内容进行解码的方法120。在步骤121处，从源获得表示体积场景的数据流。该数据流被解码以检索包括至少一个分块图像的图集图像，分块是从3D场景上的视图中提取的图像。图集图像在数据流中与元数据相关联，该元数据包括描述相机的外在参数和内在参数(即，与每个视图相关的参数)并且将每个分块与提取该分块的视图相关联的信息。在步骤122处，从元数据中检索参考视图的id。与参考视图相关联的分块是参考分块。在步骤123处，针对用户在3D场景的3DoF+观看空间内的当前视点生成视口图像。根据当前视点和每个视图和分块的参数，在分块的像素中挑选视口图像的像素的颜色分量。当与不同视图相关联的两个分块对视口图像的像素的颜色分量有贡献时，如果这两个分块中的一个分块与参考视图相关联，则由该参考分块提供的颜色归因于视口的像素。否则，两种颜色的组合(或选择其中一种颜色)用于视口的像素。

本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的具体实施也可以其他形式(例如，程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如，例如处理器)中实施，该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如，智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)以及有利于最终用户之间信息的通信的其他设备。

本文描述的各种过程和特征的具体实施可以体现于各种不同的设备或应用程序中，特别是例如与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理相关联的设备或应用程序。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA和其他通信设备。应当清楚的是，设备可以是移动的，甚至安装在移动车辆中。

另外，方法可以由处理器执行的指令来实现，并且此类指令(和/或由具体实施产生的数据值)可以存储在处理器可读介质上，诸如例如集成电路、软件载体或其他存储设备，诸如例如硬盘、紧凑型磁盘(“CD”)、光盘(诸如例如，DVD，通常称为数字通用光盘或数字视频光盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成在处理器可读介质上有形地体现的应用程序。指令可以是例如硬件、固件、软件或组合。指令可以在例如操作系统、单独应用程序或两者的组合中发现。因此，处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外，除了或代替指令，处理器可读介质可以存储由具体实施产生的数据值。

对于本领域的技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如，信号可以被格式化为作为数据携带用于写入或阅读所描述的实施方案的语法的规则，或作为数据携带由所描述的实施方案写入的实际语法值的数据。此类信号可格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的，信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

已描述了多个具体实施。但应理解的是，可以作出许多修改。例如，可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外，普通技术人员将理解，其他结构和过程可以被替换为所公开的那些，并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能，以实现与所公开的具体实施至少基本相同的结果。因此，本申请考虑了这些和其他具体实施。

Claims

1.一种用于在数据流中对3D场景进行编码的方法，所述3D场景被提供作为多视图+深度帧，所述方法包括：

-基于从所述3D场景中的观看边界框中的平均位置对所述3D场景的视野覆盖，从所述多视图+深度帧选择视图作为参考视图；

-生成打包分块的图集图像，分块是所述多视图+深度帧的视图的图像部分，所述图集图像包括表示从所述观看边界框可见的所述3D场景的信息；

-生成元数据，所述元数据包括将每个分块与视图相关联的信息和所选参考视图的标识符；以及

-在所述数据流中对所述图集和所述元数据进行编码。

2.根据权利要求1所述的方法，其中通过修剪视图之间的冗余信息以及保持分块之间的重叠像素来获得分块。

3.根据权利要求1或2所述的方法，其中所述参考视图被打包在所述图集中作为未修剪分块。

4.一种用于渲染表示从3D场景中的观看边界框可见的所述3D场景的视口图像的方法，所述方法包括：

-从数据流对图集图像和相关联的元数据进行解码，

所述图集图像打包分块，分块是多视图+深度帧的视图的图像部分，所述图集图像包括表示从所述观看边界框可见的所述3D场景的信息，并且

所述元数据包括将每个分块与视图相关联的信息和参考视图的标识符，与所述参考视图相关联的分块是参考分块；

-通过以下方式针对所述观看边界框内的当前视点渲染所述视口图像：

当两个分块对所述视口图像有贡献时，如果所述两个分块中的一个分块是参考分块，则将所述参考分块的所述贡献用于所述视口图像。

5.根据权利要求4所述的方法，其中所述参考视图是所述图集的分块。

6.一种用于在数据流中对3D场景进行编码的设备，所述3D场景被提供作为多视图+深度帧，所述设备包括处理器，所述处理器被配置用于：

-在所述数据流中对所述图集和所述元数据进行编码。

7.根据权利要求6所述的设备，其中通过修剪视图之间的冗余信息以及保持分块之间的重叠像素来获得分块。

8.根据权利要求6或7所述的方法，其中所述参考视图被打包在所述图集中作为未修剪分块。

9.一种用于渲染表示从3D场景中的观看边界框可见的所述3D场景的视口图像的设备，所述设备包括处理器，所述处理器被配置用于：

-从数据流对图集图像和相关联的元数据进行解码，

10.根据权利要求9所述的设备，其中所述参考视图是所述图集的分块。

11.一种表示从3D场景中的观看边界框可见的所述3D场景的数据流，所述数据流包括：

-图集图像，所述图集图像打包分块，分块是多视图+深度帧的视图的图像部分，所述图集图像包括表示从所述观看边界框可见的所述3D场景的信息，和

-元数据，所述元数据包括将每个分块与视图相关联的信息和参考视图的标识符，与所述参考视图相关联的分块是参考分块。

12.根据权利要求11所述的数据流，其中通过修剪视图之间的冗余信息以及保持分块之间的重叠像素来获得分块。

13.根据权利要求11或12所述的数据流，其中所述参考视图是所述图集的未修剪分块。