CN117859328A

CN117859328A - 对混合多视图传感器配置进行编码

Info

Publication number: CN117859328A
Application number: CN202280054435.7A
Authority: CN
Inventors: C·韦雷坎普; B·克龙
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2021-08-06
Filing date: 2022-08-01
Publication date: 2024-04-09
Also published as: CA3228186A1; KR20240040810A; EP4131960A1; EP4381739A1; WO2023012083A1; TW202315397A

Abstract

传输多视图图像帧数据的方法。方法包括获取由多个传感器生成的表示场景的多视图分量，每个多视图分量对应于一个传感器，至少一个多视图分量包括深度分量，至少一个多视图分量不包括深度分量。获取每个传感器在虚拟场景中的虚拟传感器姿态，虚拟场景是场景的虚拟表示，虚拟传感器姿态是传感器在生成相应多视图分量时在场景中的姿态的虚拟表示。针对多视图分量生成传感器参数元数据，传感器参数元数据包含多视图分量的外部参数，外部参数至少包含用于每个相应多视图分量的传感器的虚拟传感器姿态。外部参数使得能通过将深度分量基于其相应虚拟传感器姿态和虚拟场景中的目标位置扭曲来生成额外深度分量。多视图分量和传感器参数元数据如此传送。

Description

对混合多视图传感器配置进行编码

技术领域

本发明涉及多视图(multi-view)图像和视频处理领域。具体而言，本发明涉及对多视图图像帧数据的处理和渲染，并且涉及生成多视图元数据和对多视图元数据进行解码。

背景技术

包括深度图(depth map)的当前多视图沉浸式(immersive)视频格式(format)通常假定深度图与物理或虚拟相机相关联，而纹理(texture)信息对于物理或虚拟相机也是可用的。多视图视频编码(encoding)算法和在客户端处进行渲染两者均使用这种假定。

共同定位(co-locating)纹理图(texture map)和深度图的历史性选择的可能原因是产生每图像像素坐标的深度值的多视图深度估测程序。

然而，近距离(close-range)或室内设置受益于基于飞行时间(time-of-flight)或结构光(structured light)的高质量深度传感器。当彩色相机与这些深度传感器组合时，产生混合传感器配置。因此，需要改进对来自混合传感器的多视图图像帧数据的编码和解码。

EP 2777267A2公开了生成深度图估测并且持续将其更新的方法，从而使得与无法访问深度图估测的情况相比，能够以更有效的方式执行使视图间(inter-view)冗余缩减的相依的各种方法。

US2019/139296A1公开了一种用于选择多视图图像的采样视图的方法。

WO 2009/111007A1提出了一个使用虚拟视图作为参考视图的框架。

发明内容

本发明由权利要求书限定。

根据本发明的一个方面的示例，提供了一种用于传输多视图图像帧数据的方法，所述方法包括：

获取由多个传感器生成的表示场景的多视图分量，其中，每个多视图分量对应于一个传感器，并且所述多视图分量中的至少一个包括深度分量，且所述多视图分量中的至少一个不包括深度分量；

获取每个传感器在虚拟场景中的虚拟传感器姿态，其中，所述虚拟场景是所述场景的虚拟表示，并且所述虚拟传感器姿态是所述传感器在生成相应的多视图分量时在所述场景中的姿态的虚拟表示；

针对所述多视图分量生成传感器参数元数据，其中：

所述传感器参数元数据包含所述多视图分量的外部参数，以及

所述外部参数至少包含用于相应的多视图分量中的每个的传感器的虚拟传感器姿态，从而使得能通过将所述深度分量基于其相应的虚拟传感器姿态和在所述虚拟场景中的目标位置扭曲来生成额外的深度分量；以及

传输所述多视图分量和所述传感器参数元数据。

传统地，多视图分量通常包括深度图(即，深度分量)和相应的场景纹理图像。在对多视图分量进行渲染期间，通常假定深度图与物理或虚拟相机相关联，而物理或虚拟相机也具有相关的纹理图像。因此，渲染算法可以利用这种假定来对多视图图像帧进行渲染。

然而，在一些情况下，使用位于场景中不同位置处的相机传感器和深度传感器会更具优势。可选择地或额外地，减少传输到客户端设备的深度图的数量也会是有利的。因此，本发明人提出在多视图图像帧数据的元数据中包括用于获取多视图分量(例如，纹理图像和深度图)的传感器(例如，相机和深度传感器)的外部参数。根据本方法的实施例，与包括深度分量的至少一个多视图分量相关联的第一传感器和与不包括深度分量的至少一个多视图分量相关联的第二传感器具有不同的姿态。因此，这些多视图分量的外部参数是不同的。

外部参数(包括传感器在场景中的姿态)使渲染算法得知每个多视图分量是从哪里获取的，从而能够将深度图扭曲到不同的目标位置。

在用于多视图图像帧数据的元数据中包括外部参数的优势在于，可以减少比特流中的数据量。这是因为外部参数使得能生成额外的深度分量。

例如，如果针对特定场景给定了三个纹理图像和三个深度图(例如，通过视差估计(disparity estimation)生成)，则可以仅在比特流中包括其中两个深度图，因为第三个深度图能够通过对其它两个深度图中的一个或两个进行扭曲来生成。

在第二示例中，两个彩色相机可以获得没有深度分量的两个纹理图像，并且深度传感器可以获得深度图。由于彩色相机和深度传感器的外部参数被包括在元数据中，因此深度图可以在客户端处(即，在进行解码之后)映射到纹理图像，而不必在编码和传输之前将深度图映射到每个纹理图像。

外部参数也可被称为外参数或相机姿态。虚拟传感器姿态可以包含传感器在虚拟场景中的位置和定向。

例如，目标位置可以是与不包括深度分量的多视图分量相对应的位置，或者可以是由观看者指定的目标视点(targetviewpoint)。

在一些示例中，传感器的不同姿态可以部分地相同。例如，传感器的一些或全部定向可以是相同的。如果传感器的一些或全部位置是相同的，则所有角度汇聚到单个点，并且扭曲可以是“全景重采样(panoramic resampling)”。

多视图分量可以包括以下项中的一个或多个：场景的纹理图像；场景的深度图；场景的红外图像；场景的光投影图像；以及场景的虚拟图像。

在一些示例中，深度图是多视图分量的深度分量。然而，深度分量是由给多视图分量提供深度信息的数据定义的，因此其不一定是深度图。例如，标量值(scalarvalue)、3D网格或红外图像可以定义多视图分量的深度分量。

在其它示例中，多视图分量仅是深度图。

多视图分量中的至少一个可以由单个深度分量构成。与所述深度分量相对应的虚拟传感器姿态可以不同于与任何其它多视图分量相对应的虚拟传感器姿态。

第一传感器的虚拟传感器姿态可以被相对于参考传感器的虚拟传感器姿态定义。例如，如果一个传感器被标记为“参考传感器”，则其它传感器的所有姿态都可以被相对于该参考传感器定义。这避免了在虚拟场景中定义任意参考点的需要，同时确保所有传感器的姿态都是相关于彼此已知的。

该方法还可以包括将与相同或部分相同的外部参数相对应的多视图分量聚集成组。

例如，从位于同一位置处的一组传感器获取的所有多视图分量(以及由此生成的任何多视图分量)都可以被归组到一起，因为其具有相同的外部参数。因此，外部参数仅需要在元数据中指定一次。

传感器参数元数据还可以包含多视图分量的内部参数，其中，内部参数包含以下项中的一个或多个：

用于生成多视图分量的传感器的类型；

用于生成多视图分量的传感器的模式(model)；

用于生成多视图分量的传感器的光学特性，其中，所述光学参数包括焦距、图像传感器格式、主点和失真参数中的一个或多个；以及

用于生成多视图分量的传感器的操作参数。

该方法还可以包括将对应于相同或部分相同的内部参数的多视图分量聚集成组。

与基于外部参数的分组步骤类似，多视图分量可以被基于内部参数进行分组。例如，可以基于特定的传感器模式或基于特定的光学特性对多视图分量进行分组。

传感器参数元数据还可以包括指令，所述指令关于在对多视图图像帧数据进行渲染期间要将哪些多视图分量彼此组合。

例如，一些复杂的对象可能会被从某些角度部分地遮挡，因此可能需要两个深度图才能完全呈现复杂对象的整体形状。

本发明还提供了一种用于解码多视图图像帧数据的方法，该方法包括：

接收并解码场景的多视图图像帧数据；

从经解码的所述多视图图像帧数据获取多视图分量，其中，所述多视图分量中的至少一个包括深度分量，并且所述多视图分量中的至少一个不包括深度分量；

从经解码的所述多视图图像帧数据获取所述多视图分量的传感器参数元数据，其中：

所述传感器参数元数据包含所述多视图分量的外部参数，

所述外部参数包含相应多视图分量中的每个在虚拟场景中的虚拟传感器姿态，以及

所述虚拟传感器姿态是用于生成所述多视图分量的传感器的位置和定向的虚拟表示；

接收所述虚拟场景中的目标视点；以及

通过将所述深度分量中的一个或多个扭曲到不同的虚拟传感器姿态或目标视点来生成额外的深度分量。

获取场景的多视图分量可以包括从服务器或编码器接收多视图分量。深度分量中的一些(或全部)可以经由例如在解码器侧处的深度估计从其它非深度分量生成。

生成额外的深度分量可以包括将第一多视图分量的深度分量扭曲到与第二多视图分量相对应的虚拟传感器姿态，或者将所述第一多视图分量的深度分量扭曲到目标视点，其中，所述第二多视图分量不包括深度分量。

第一多视图分量可以是深度图，并且第二多视图分量可以是纹理图像，其中，生成额外的深度分量包括将所述深度图扭曲到所述纹理图像的所述虚拟传感器姿态从而针对所述纹理图像生成深度分量、以及将具有所述深度分量的所述纹理图像扭曲到所述目标视点。

可选择地，生成额外的深度分量可以包括将所述深度图扭曲到所述目标视点从而生成附加深度图、以及将额外的深度图投射到纹理图像的虚拟传感器姿态。

本发明还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码当在具有处理系统的计算设备上执行时使所述处理系统执行前述的用于传输多视图图像帧数据的方法的所有步骤以和/或执行前述的用于解码多视图图像帧数据的方法的所有步骤。

本发明还提供了一种被配置成用于执行计算机程序代码的处理器。

本发明还提供了一种包含描绘场景的经编码多视图图像帧数据的比特流，所述比特流包括：

视频比特流，所述视频比特流中编码有多个多视图分量，其中，所述多视图分量中的至少一个包括深度分量，并且所述多视图分量中的至少一个不包括深度分量；以及

元数据比特流，所述元数据比特流至少包括用于所述多视图分量的传感器参数元数据，其中：

所述传感器参数元数据包含所述多视图分量的外部参数；以及

所述外部参数包含用于相应的多视图分量中的每个的传感器的虚拟传感器姿态，从而使得能通过将所述深度分量基于其相应的虚拟传感器姿态和在所述虚拟场景中的目标位置进行扭曲来生成额外的深度分量。

本发明还提供了一种用于传输多视图图像帧数据的系统，其中，所述系统包括处理器，所述处理器被配置成用于：

获取由多个传感器生成的表示场景的多视图分量，其中，每个多视图分量对应于一个传感器，并且多视图分量中的至少一个包括深度分量，且多视图分量中的至少一个不包括深度分量；

针对所述多视图分量生成传感器参数元数据，其中：

所述外部参数至少包含用于相应的多视图分量中的每个的传感器的虚拟传感器姿态，从而使得能通过将所述深度分量基于其相应的虚拟传感器姿态和在所述虚拟场景中的目标位置进行扭曲来生成额外的深度分量；以及

传输所述多视图分量和所述传感器参数元数据。

系统还可以包括多个传感器。

本发明还提供了一种用于解码多视图图像帧数据的系统，所述系统包括处理器，所述处理器被配置成用于：

接收并解码场景的多视图图像帧数据；

所述传感器参数元数据包含所述多视图分量的外部参数，

所述虚拟传感器姿态是用于生成所述多视图分量的传感器的姿态的虚拟表示；

接收所述虚拟场景中的目标视点；以及

本发明的这些方面和其它方面将从下文所述的实施例中变得明显，并将通过参考这些实施例得到阐释。

附图说明

为了更好地理解本发明，并且为了更清楚地说明如何实施本发明，现在仅以示例的方式参考附图，在附图中：

图1示出了根据本发明的一个实施例的对来自两个多视图分量(component)的数据进行处理；

图2示出了被包括在多视图图像帧的视频比特流中的数据；

图3示出了混合传感器配置的视点的第一示例；以及

图4示出了混合传感器配置的视点的第二示例。

具体实施方式

将参考附图描述本发明的实施例。

应理解到，详细描述和具体示例虽然指示了本发明的装置、系统和方法的示例性实施例，但其仅旨在用于例示说明的目的，而不旨在限制本发明的范围。本发明的装置、系统和方法的这些和其他特征、方面和优点将通过以下描述、所附权利要求和附图得到更好的理解。应理解到，附图仅为示意性的，并且未按比例绘制。还应理解到，在全部图中使用了相同的附图标记来指示相同或相似的部分。

本发明提供了一种用于传输多视图图像帧数据的方法。该方法包括获取由多个传感器生成的表示场景的多视图分量，其中，每个多视图分量对应于一个传感器，并且多视图分量中的至少一个包括深度分量，且多视图分量中的至少一个不包括深度分量。获取每个传感器在虚拟场景中的虚拟传感器姿态(pose)，其中，虚拟场景是场景的虚拟表示，并且虚拟传感器姿态是传感器在生成相应的多视图分量时在场景中的姿态的虚拟表示。针对多视图分量生成传感器参数元数据，其中，传感器参数元数据包含多视图分量的外部参数，并且所述外部参数至少包含用于相应的多视图分量中的每个的传感器的虚拟传感器姿态。所述外部参数使得能通过将深度分量基于其相应的虚拟传感器姿态和在虚拟场景中的目标位置进行扭曲来生成额外的深度分量。多视图分量和传感器参数元数据被如此传输。

图1示出了根据本发明的一个实施例的对来自两个多视图分量106和108的数据进行处理。在该示例中，传感器104a是相机，并且传感器104b是深度传感器。相机104a和深度传感器104b两者均针对对象102获取数据。多视图分量106由相机104a生成，并且在该示例中是彩色图像。多视图分量106中没有深度分量。多视图分量108由深度传感器104b生成，并且在该示例中为深度图。多视图分量108仅由深度分量(即，深度图108)组成。

传统地，在多视图数据被编码并传输到客户端或广播之前，深度图108被扭曲到相机的姿态，以便创建与彩色图像相对应的深度图。然而，这需要在编码器处对深度图108进行额外处理(即，扭曲到相机104a的姿态)。此外，如果在传感器配置中包括处于不同姿态的其它相机104a，则不得不将深度图108扭曲多次到每个单独相机104a的图像106，这将增加比特流116中的数据量。

替代地，本发明人提出对传感器参数元数据(metadata)110进行编码，并将其包括在比特流116中。传感器参数元数据110包括用于图像106的相机104a的外部参数(extrinsic parameter)112和用于深度图108的深度传感器104b的外部参数112。外部参数112包括相应传感器104的姿态(即，位置和定向)。

将外部参数112包括在比特流116中使得深度图108一旦已经由客户端接收就能够在渲染阶段被扭曲(在点118处)。这还使得能减少比特流116中的数据量，因为仅需要将单个深度图108包括在比特流116中，并且该深度图108总是可被扭曲以创建不同姿态下的额外深度图120。

用于多视图图像帧数据的比特流116通常包括多个彩色图像106和多个深度图108，多个彩色图像106是用相机104a在不同姿态下获取的，并且多个深度图108是用深度传感器104b在不同姿态下获取的(或者经由来自彩色图像106的深度估测获得)。因此，减少每个多视图帧所需的深度图108的数量将显著地减少比特流116中的数据量。图1仅示出了用于例示目的的单个相机104a和单个深度传感器104b，但是也可以使用多个彩色相机104a和/或深度传感器104b。

在图1中，传感器104的内部参数(intrinsic parameter)114也被包括在传感器参数元数据110中。例如，内部参数114可以包括传感器104的类型、传感器104的模式(model)、传感器104的光学特性(例如，焦距、图像传感器格式(format)、主点(principle point)和失真参数(distortion parameter))以及传感器104的操作参数。

例如，传感器参数元数据110包括操作参数，其在传感器/相机模型中使用以描述场景中光线所来自的点位的三维坐标与光线投射到图像平面上的二维坐标之间的数学关系。内部参数114(也被称为内参数(internal parameter))是传感器/相机本身固有的参数，例如焦距和镜头畸变(lens distortion)。外部参数112(也被称为外参数(externalparameter)或相机姿态)是用于描述传感器/相机与其外部世界之间变换的参数。

图2示出了用于多视图图像帧的视频比特流中包括的数据的图示。图2(a)示出了传统的视频比特流，其包括五个彩色图像106a至106e以及经由深度估测获得的五个相应的深度图108a至108e。

图2(b)示出了根据本发明的一个实施例生成的视频比特流。图2(b)的视频比特流包括五个彩色图像106a至106e，但仅具有三个深度图108a、108c和108e。这表明，从传统的视频比特流到根据本实施例的视频比特流，比特率和像素率明显降低。

例如，为了得到图2(b)的视频比特流，可以选择深度图108a至108e的子集，使得所选择的深度图之间的视图间距离(inter-view distance)最大化，同时确保所选择的深度图包括场景中的所有相关信息。在该示例中，深度图108a至108e所对应的姿态与彩色图像106a至106e所对应的姿态相同(或类似)。所选择的深度图108a、108c和108e应完全覆盖场景的视场(field ofview)(即，捕捉视场中所有对象的深度数据)。因此，相比于场景信息较少的其它深度图108，可以优先选择捕捉对象的深度数据或捕捉更多场景复杂性的深度图108。

通过选择而省去的深度图108越多，场景的各方面就越有可能在所有剩余/选定的深度图中被遮挡。因此，所传输的选定深度图108的数量越少，彩色图像106中的图像区域就越有可能没有来自任何深度图108的相应深度数据。当缺失深度数据时，可以采用图像修补(inpainting)技术来避免因缺失深度信息而导致的渲染错误。然而，图像修补需要从不完整的数据预测深度图的像素深度值，因此有时可能会输出错误的深度值(例如，针对复杂对象的错误深度值)。

理论上，除了一个深度图108之外的所有深度图都可以被舍弃(即，仅选择一个深度图)。然而，在实践中，(在给定目标比特率的情况下)很可能需要在移除一个或多个深度图108(这可能会因遮挡问题导致渲染质量降低)与添加一个或多个深度图108(这给比特流增加额外数据)之间取得平衡。

无法通过例如在对所选择的深度图108a、108c和108e进行编码/压缩期间改变量化参数来抵消由移除深度图引起的遮挡(occlusion)问题。例如，在压缩时增大量化参数(即，较精细的量化)可以减轻某些伪影(artefact)(例如，噪声深度值(noisy depthvalue))，但是，其不能减轻遮挡问题，因为没有用于量化的深度值。另一方面，将深度图添加到所选择的深度图可能会增加比特流中的数据量，因此可能需要在对深度图进行压缩期间减少量化参数(即，较粗略的量化)，以减少每个深度图的所传输的数据量(例如，使得所有选定的深度图都适合比特流)。

可选择地，可以在传输之前创建新的虚拟深度分量。例如，可以将所捕获的五个深度图108a至108e减少为单个新的深度锚点，该单个新的深度锚点的位置位于对应于五个深度图108a至108e的五个传感器的平均位置处。

图2(c)示出了通过在多视图图像帧的元数据中包括外部参数112(如图1所示)来使得能在解码器侧生成额外深度分量(即，额外深度图120a和120b)。额外深度图120a和120b可以被通过将深度图108中的一个(或多个)扭曲到与彩色图像106b和106d相对应的姿态来生成。因此，客户端(即，解码器侧)能够渲染具有五个彩色图像108和五个深度图108的多视图图像帧，但仅需要对五个深度图108中的三个进行编码和传输。

当然，被传输到客户端的深度图108的数量可以取决于比特流的最大尺寸和/或客户端的处理能力。

在图1和图2所示的示例中，多视图分量已经被经由相机和深度传感器获得。然而，更一般地，多视图分量可以经由混合传感器配置获得。例如，混合传感器配置可以包含彩色相机、红外相机、深度传感器(例如，飞行时间传感器、图案传感器等)、光投影仪(例如，红外或可见光投影仪)和/或上述任何传感器的虚拟型式。

此外，在图1和图2中，深度分量被示出为深度图108。但是，更一般地，深度分量仅需要包含场景的一些深度数据(例如，图1中的对象102的深度值、背景的(一个或多个)深度值和/或前景的(一个或多个)深度值)。例如，可以对示出投射图案的红外图像进行编码并将其发送到客户端，在客户端处生成深度图。生成投射图案的投影仪的外部参数112需要被编码在传感器参数元数据110中并以传感器参数元数据110传输(如图1所示)。如何处理/解译红外图案以便计算深度图的指令也可能需要被包括在传感器参数元数据110中。

此外，3D网格也可以是深度分量。3D网格可以用世界空间(场景)坐标表示。随后可以对网格进行渲染，以给没有深度分量的任意多视图分量生成深度图108。3D网格也可以相对于具有相关外部参数的虚拟相机的姿态来表示。

总而言之，本发明人提出对混合传感器配置的外部参数进行明确地编码，其中，例如彩色相机、深度传感器、红外相机和/或光投影仪可以全部用其自身的姿态(位置和定向)信息来表示。由于来自混合传感器配置的数据现在缺乏对每个多视图分量(例如，彩色图像)的深度(即，深度分量)的隐式关联(implicit association)，因此该信息将作为外部参数添加到元数据中。这进一步使得能减少比特流中需要编码(即，处理)和传输的数据。

元数据

图1和图2主要聚焦于使用外部参数112(图1)在解码器处对深度分量进行扭曲。然而，传感器104(图1)的内部参数114(图1)和外部参数112两者均可以被包括在传感器参数元数据110(图1)中，以对传感器104进行分组。可以针对一个或多个传感器104指定参数(内部和外部)。例如，可以针对以下项指定一组参数：

-单个传感器(例如，彩色相机、深度传感器、可见光或红外投影仪)；

-一组传感器(例如，针对纹理图、红外图像、深度图和透明度图(transparencymap)指定的一个集合的内部参数和/或外部参数)；

-基于内部参数114分组的一组传感器。例如，同一类型(例如，同一品牌/型号)的所有深度传感器可以具有描述该组的单个集合的内部参数114。在该组内，参数变化可以被相对于单个参考进行编码；或者

-相对于一个传感器(例如，相对于参考传感器)的另一个传感器。这描述了对外部参数112的帧间编码(inter-coding)。例如，外部参数112可以描述纯深度传感器相对于附近的颜色纹理传感器的姿态。

此外，还可以添加元数据，以指定在渲染期间必须将哪个或哪些深度分量扭曲到哪个或哪些姿态(例如，扭曲到与没有深度分量的(一个或多个)多视图分量相对应的姿态)。例如，一些复杂对象可能具有与视图相关(view-dependent)的(即，非朗伯分布(non-Lambertian))外观(例如，光泽或金属表面)，因此可能需要多个纹理图(例如，彩色图像)来准确地渲染对象。多个纹理图的组合可能在帧(视图)级别和图像区段级别两者都有用。可能是整个纹理图包括复杂对象，或者可能是纹理图的特定区段包括(一个或多个)复杂对象，因此仅该区段需要用多个纹理图渲染。

渲染

图3示出了混合传感器配置的视点(viewpoint)302a、302b和304的第一示例。在该示例中，混合传感器配置包含深度传感器和两个彩色相机。为了渲染从混合传感器配置接收到的多视图分量，首先将来自深度传感器的深度图从深度传感器的视点304扭曲到彩色相机的一个或多个视点302a、302b，从而生成额外的深度分量。

使用额外的深度分量，第二扭曲接着将彩色相机的纹理图带到目标视点306。在目标视点306处，可以将各种引入纹理(incoming textures)混合。为了确定扭曲参数，使用深度传感器和彩色相机的外部参数。因此，单个深度传感器的深度图被用于将新的视图从两个彩色相机合成在目标视点306处。

图4示出了混合传感器配置的视点402、404a和404b的第二示例。在该示例中，混合传感器配置包含彩色相机和两个深度传感器。由于对象102的几何形状比图3中的对象102更复杂，深度图中缺少与视点404a相对应的深度信息。通过在视点404b处添加第二深度传感器，这个问题得以解决。两个深度图均被扭曲到视点402，并且被组合起来创建额外的深度图，该额外的深度图可被用于将彩色相机的纹理扭曲到目标视点406。

用于渲染的可选方法可以包括：

将(一个或多个)深度分量直接扭曲到目标视点406，从而生成额外的(一个或多个)深度分量；

将额外的(一个或多个)深度分量投射到与彩色相机相对应的视点402；

将被投影的额外的(一个或多个)深度分量的深度缓存(depthbuffer)与彩色图像一起存储；

经由每像素纹理拾取(perpixel texture fetch)来混合(blending)深度值；

基于彩色图像的深度缓存，评估目标视点406中的彩色纹理像素的可见度；

基于分辨率对像素的颜色进行加权(例如，较短射线、与法线较小的夹角等)；以及

(例如，经由遮挡检测)基于彩色相机的坐标系中的源可见度(sourcevisibility)对像素的颜色进行加权。

评估彩色像素的可见度可以包括将深度缓存中的深度值(对应于彩色像素的图像的视点)扭曲到目标视点，并且识别被(非透明的)像素覆盖的深度值。在目标视点中被覆盖的深度值对应于彩色图像中的不可见彩色像素。

这种渲染方法的优势在于，深度图仅被扭曲一次(而不是多次)，因此该方法对深度误差的敏感度较低(更不敏感)。

使用这种方法，一个或多个深度图被扭曲到目标视点，并且所生成的额外深度图可以被用于从一个或多个纹理图像中“拾取(fetch)”像素，并将来自纹理图像的彩色像素组合/混合，以产成目标视点的彩色图像。这种“拾取”本质上是查找操作。

从一个或多个彩色图像中拾取纹理/颜色可以包括投影(即，不进行扭曲)，借此投影包括计算从3D点位(即，额外的/经扭曲的深度图的3D像素)到相机(对应于彩色图像)的方位基点(cardinalpoint)的射线与图像平面(即，彩色图像)的交点。

额外的深度图的3D深度像素因此被投射到彩色图像的彩色像素上。这实质上是将3D深度像素值分配给彩色图像的彩色像素。被投射到纹理像素上的3D深度像素的(一个或多个)值可以被存储在深度缓存中，并且如果有多于一个3D深度像素被投射到纹理像素上，则可以混合这些深度值。

深度缓存也被称为z缓存，其是一种用于从特定角度表示对象在三维空间中的深度信息的数据缓存。

然而，如果从纹理图像的角度来看，存在遮挡一个或多个3D点的对象，则投影可能不起作用。因此，渲染器需要具有一种检测这种情况的机制。

一种可行的解决方案是将深度图(从其原始姿态)独立地扭曲到纹理图像。这允许遮挡检查。当存在多个纹理图像可用时，可以基于深度排序、分辨率和射线角度考量来施加混合。

应注意，在该示例中，将深度图扭曲到纹理图像并不需要对已经扭曲的深度图进行扭曲，从而避免了级联错误(cascading error)。从深度图到纹理图像的额外扭曲的主要目的是为了能够进行针对遮挡检查的深度测试。然而，像素的颜色的权重(如上文所讨论的)可能取决于深度测试。

扭曲可以包括对深度图施加转换，其中，转换基于深度图的虚拟传感器姿态和虚拟场景中的已知目标位置。例如，转换可以基于深度图的虚拟传感器姿态与已知目标位置之间的差异。当提到扭曲时，应理解到，可以使用正向扭曲(forward warping)和/或反向(逆向)扭曲(inverse(backwards)warping)。在正向扭曲中，源像素被按照扫描线顺序进行处理，并且结果被投射到目标图像上。在逆向扭曲中，目标像素被按照光栅顺序(rasterorder)反向映射到源图像上，并且被相应地采样。

可行的扭曲方法包括使用点位(points)、使用规则网格(regularmesh)(即，预定义尺寸和拓扑)和/或使用不规则网格(irregularmesh)。

例如，使用点位可以包括使用来自第一视点(即，视图A)的深度图(对于每个给定像素)来计算第二视点(即，视图B)中的相应位置，并且将像素位置从视图B拾取回到视图A(即，反向扭曲)。

可选择地，例如，使用点位可以包括使用视图A的深度图(针对每个给定像素)来计算视图B中的相应像素位置，并且将像素位置从视图A映射到视图B(即，正向扭曲)。

使用规则网格(例如，每个像素两个三角形，每2x2个像素两个三角形，每4x4个像素两个三角形等)可以包括从视图A中的深度图计算3D网格坐标，并且将数据从视图A纹理映射(texture mapping)到视图B。

使用不规则网格可以包括基于深度图(以及可选的视图A中的纹理和/或透明度数据)给视图A生成网格拓扑，并且将数据从视图A纹理映射到视图B。

技术人员将很容易能开发出用于执行任何本文所述方法的处理器。因此，流程图的每一步可以表示由处理器执行的不同动作，并且可以由处理器的相应模块执行。

如上所述，系统利用处理器来执行数据处理。处理器可以通过软件和/或硬件以多种方式实现，以便执行所需的各种功能。处理器通常采用可使用软件(例如，微代码)对其进行编程以执行所需的功能的一个或多个微处理器。处理器可以被实现为执行一些功能的专用硬件和执行其它功能的一个或多个编程的微处理器及相关电路的组合。

在本公开的各种实施例中可采用的电路示例包括但不限于常规的微处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。

在各种实施方式中，处理器可以与一个或多个存储介质(例如，诸如RAM、PROM、EPROM和EEPROM的易失性和非易失性计算机存储器)相关联。存储介质可以被编码而具有一个或多个程序，这一个或多个程序在一个或多个处理器和/或控制器上执行时，可以执行所需的功能。各种存储介质可以固定在处理器或控制器中，或者可以是可移动的，使得存储在其中的一个或多个程序可以被加载到处理器中。

通过对附图、本公开和所附权利要求的研究，本领域技术人员在实施所要求的发明时可以理解并实现所公开实施例的各种变化。在权利要求中，词语“包括”并不排除其它要素或步骤，不定冠词“一”或“一个”也不排除多个。

单个处理器或其它单元可以实现权利要求中记载的多个项的功能。

在相互不同的从属权利要求中记载了一定措施，但这一事实并不指示这些措施的组合不能被用来发挥优势。

计算机程序可以存储/发布在合适的介质上(例如，与其它硬件一起提供或作为其一部分提供的光存储介质或固态介质)，但也可以以其它形式发布，例如通过互联网或其它有线或无线电信系统。

如果权利要求或描述中使用了术语“适于”，则应注意的是术语“适于”旨在等同于术语“被配置为”。

权利要求中的任何附图标记不应被理解为限制范围。

Claims

1.一种用于传输多视图图像帧数据的方法，所述方法包括：

获取由多个传感器(104)生成的表示场景的多视图分量(106、108)，其中，每个多视图分量(106、108)对应于一个传感器(104)，并且所述多视图分量中的至少一个包括深度分量(108)，且所述多视图分量中的至少一个不包括深度分量(108)；

获取每个传感器(104)在虚拟场景中的虚拟传感器姿态，其中，所述虚拟场景是所述场景的虚拟表示，并且所述虚拟传感器姿态是所述传感器(104)在生成相应的多视图分量(106、108)时在所述场景中的位置和定向的虚拟表示；

生成所述多视图分量(106、108)的传感器参数元数据(110)，其中：

所述传感器参数元数据(110)包含所述多视图分量(106、108)的外部参数(112)，以及

所述外部参数(112)至少包含用于相应的多视图分量(106、108)中的每个的传感器(104)的虚拟传感器姿态，从而使得能通过将所述深度分量(120)基于其对应的虚拟传感器姿态和在所述虚拟场景中的目标位置扭曲来生成额外的深度分量(120)；以及

传输所述多视图分量(106、108)和所述传感器参数元数据(110)。

2.根据权利要求1所述的方法，其特征在于，所述多视图分量(106、108)包括以下项中的一个或多个：

所述场景的纹理图像；

所述场景的深度图；

所述场景的红外图像；

所述场景的光投影图像；以及

所述场景的虚拟图像。

3.根据权利要求1或2中任一项的方法，其特征在于，所述多视图分量(106、108)中的至少一个仅由所述深度分量(108)构成，其中，与所述深度分量相对应的虚拟传感器姿态不同于与任何其它多视图分量相对应的虚拟传感器姿态。

4.根据权利要求1至3中任一项的方法，其特征在于，第一传感器的虚拟传感器姿态被相对于参考传感器的虚拟传感器姿态定义。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括将与相同或部分相同的外部参数(112)相对应的多视图分量(106、108)聚集成组。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述传感器参数元数据(110)还包含所述多视图分量(106、108)的内部参数(114)，并且所述内部参数(114)包含以下项中的一个或多个：

用于生成多视图分量(106、108)的传感器的类型；

用于生成多视图分量(106、108)的传感器的模式；

用于生成多视图分量(106、108)的传感器的光学特性，其中，所述光学参数包括焦距、图像传感器格式、主点和失真参数中的一个或多个；以及

用于生成多视图分量(106、108)的传感器的操作参数。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述传感器参数元数据(110)还包括指令，所述指令关于在对所述多视图图像帧数据进行渲染期间要将哪些多视图分量(106、108)彼此组合。

8.一种用于解码多视图图像帧数据的方法，所述方法包括：

接收并解码场景的多视图图像帧数据；

从经解码的所述多视图图像帧数据获取多视图分量(106、108)，其中，所述多视图分量(106、108)中的至少一个包括深度分量(108)，并且所述多视图分量(106、108)中的至少一个不包括深度分量(108)；

从经解码的所述多视图图像帧数据获取所述多视图分量(106、108)的传感器参数元数据(110)，其中：

所述传感器参数元数据(110)包含所述多视图分量(106、108)的外部参数(112)，

所述外部参数(112)包含相应多视图分量(106、108)中的每个在虚拟场景中的虚拟传感器姿态，以及

所述虚拟传感器姿态是用于生成所述多视图分量(106、108)的传感器(104)的位置和定向的虚拟表示；

接收所述虚拟场景中的目标视点(306、406)；以及

通过将所述深度分量(108)中的一个或多个扭曲到不同的虚拟传感器姿态或所述目标视点(306、406)来生成额外的深度分量(120)。

9.根据权利要求8所述的方法，其特征在于，生成额外的深度分量(120)包括将第一多视图分量的深度分量(108)扭曲到与第二多视图分量相对应的虚拟传感器姿态，或者将所述第一多视图分量的深度分量(108)扭曲到所述目标视点(306、406)，其中，所述第二多视图分量不包括深度分量(108)。

10.根据权利要求8所述的方法，其特征在于，第一多视图分量是深度图，并且第二多视图分量是纹理图像，其中，生成额外的深度分量包括：

将所述深度图扭曲到所述纹理图像的所述虚拟传感器姿态，从而针对所述纹理图像生成深度分量(108)；以及

将具有所述深度分量的所述纹理图像扭曲到所述目标视点(306、406)。

11.根据权利要求8所述的方法，其特征在于，第一多视图分量是深度图，并且第二多视图分量是纹理图像，其中，生成额外的深度分量包括：

将所述深度图扭曲到所述目标视点(306、406)，从而生成额外的深度图；以及

将所述额外的深度图投射到所述第二分量的所述纹理图像的所述虚拟传感器姿态，从而生成所述第二分量的所述纹理图像的深度缓存；以及

基于所述纹理图像的所述深度缓存，评估从所述目标视点(306、406)对于与所述纹理图像相对应的一个或多个纹理像素的可见度。

12.一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码当在具有处理系统的计算设备上执行时使所述处理系统执行根据权利要求1至7中任一项所述的方法的所有步骤和/或根据权利要求8至11中任一项所述的方法的所有步骤。

13.一种包含描绘场景的经编码多视图图像帧数据的比特流，所述比特流包括：

视频比特流，所述视频比特流中编码有多个多视图分量(106、108)，其中，所述多视图分量(106、108)中的至少一个包括深度分量(108)，并且所述多视图分量(106、108)中的至少一个不包括深度分量(108)；以及

元数据比特流，所述元数据比特流至少包括所述多视图分量(106、108)的传感器参数元数据(110)，其中：

所述传感器参数元数据(110)包含所述多视图分量(106、108)的外部参数(112)；以及

所述外部参数(112)包含用于相应的多视图分量(106、108)中的每个的传感器(104)的虚拟传感器姿态，从而使得能通过将所述深度分量(120)基于其对应的虚拟传感器姿态和在所述虚拟场景中的目标位置扭曲来生成额外的深度分量(120)。

14.一种用于传输多视图图像帧数据的系统，其中，所述系统包括处理器，所述处理器被配置成用于：

传输所述多视图分量(106、108)和所述传感器参数元数据(110)。

15.一种用于解码多视图图像帧数据的系统，所述系统包括处理器，所述处理器被配置成用于：

接收并解码场景的多视图图像帧数据；

所述外部参数(112)包含用于相应的多视图分量(106、108)中的每个在虚拟场景中的虚拟传感器姿态，以及

接收所述虚拟场景中的目标视点(306、406)；以及