CN116349224A - 用于处理多平面图像的技术 - Google Patents
用于处理多平面图像的技术 Download PDFInfo
- Publication number
- CN116349224A CN116349224A CN202180069496.6A CN202180069496A CN116349224A CN 116349224 A CN116349224 A CN 116349224A CN 202180069496 A CN202180069496 A CN 202180069496A CN 116349224 A CN116349224 A CN 116349224A
- Authority
- CN
- China
- Prior art keywords
- slice
- tile
- mpi
- representation
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 title claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000009877 rendering Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 21
- 239000002131 composite material Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
- H04N13/117—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/207—Image signal generators using stereoscopic image cameras using a single 2D image sensor
- H04N13/232—Image signal generators using stereoscopic image cameras using a single 2D image sensor using fly-eye lenses, e.g. arrangements of circular lenses
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/282—Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
提供了一种设备、一种装置和相关联的方法。在一个实施方案中,该方法包括获取三维(3D)场景的多平面图像(MPI)表示。该MPI表示包括来自该3D场景的内容的多个切片,每个切片与相对于第一虚拟相机的位置的不同深度对应。将每个切片分解成规则的图块;并确定每个图块的取向。
Description
技术领域
本公开总体涉及体积视频捕获,并且更具体地涉及使用多平面图像格式的体积视频捕获。
背景技术
体积视频捕获是一种允许通过稍后可以从任何角度观看的方式捕获通常在真实场景中的运动图像的技术。这与常规相机捕获截然不同,常规相机捕获受限于从特定角度捕获人和对象的图像。另外,视频捕获允许在三维(3D)空间中捕获场景。因此,所采集的数据然后可以用于建立真实的或由计算机生成的沉浸式体验。随着虚拟现实环境、增强现实环境和混合现实环境的日益普及,体积视频捕获技术也在日益普及。这是因为该技术利用了摄影的视觉质量并将其与空间化内容的沉浸和交互性相混合。该技术较复杂并且结合了计算机图形、光学和数据处理领域中的许多最新进展。
所得到的沉浸式体验看起来极其真实,但是存在处理大量数据的缺点。该数据的管理和存储,即使是临时的,也是既昂贵又具有挑战性。因此,希望提供减少需要管理和存储的数据量而不影响最终产品的速度和质量的解决方案。
发明内容
在一个实施方案中,提供了一种装置和相关联的方法。在一个实施方案中,该方法包括获取三维(3D)场景的多平面图像(MPI)表示。该MPI表示包括来自该3D场景的内容的多个切片,每个切片与相对于第一虚拟相机的位置的不同深度对应。将每个切片分解成规则的图块;并且确定每个图块的取向。
在不同的实施方案中,提供了一种设备和相关联的方法,以渲染3D场景的视图。该方法包括获取该3D场景的编码后的MPI表示。该编码后的MPI表示包括比特流或图集中的一者。然后对该编码后的MPI表示进行解码以获取多个图块、该多个图块中的每个图块的取向信息和把每个图块关联到该MPI表示的切片以及该切片内的位置的信息,其中每个切片与相对于第一虚拟相机的位置的不同深度对应。然后构建该切片的堆叠表示。每个切片包括关联到该切片的图块,每个图块根据该图块的取向信息来取向。最后,将该内容从该切片的堆叠表示投影到合并图像。该合并图像表示来自第二虚拟相机的位置的该3D场景的视图。
附图说明
通过结合附图考虑以下详细的描述,可易于理解本公开的教导内容,其中:
图1A是针对位于一个或多个相机中间的投影相机的第一位置计算的虚拟图像的图示;
图1B是针对位于一个或多个真实相机的中间左侧特定距离处的投影相机计算的虚拟图像的图示;
图2是根据一个实施方案的利用远离一个或多个真实相机的投影相机观察到的虚拟图像的图示;
图3是核线的图示;
图4是根据一个实施方案的具有4个真实相机和一个虚拟相机的示例的图示,该真实相机和虚拟相机被提供用于产生MPI切片;
图5是根据一个实施方案的形成虚拟颜色立方体的六个连续切片的图示;
图6示出了根据一个实施方案的应用于利用4×4相机矩阵捕获的图像上的算法的结果;
图7A是根据一个实施方案的针对每2D坐标合并颜色立方体的图示;
图7B是根据一个实施方案的通过透视投影的合并;
图8是根据一个实施方案的保存到2D图像中的图块的像素的图示;
图9是根据一个实施方案的一维图块取向的图示;
图10是根据一个实施方案的2D图块取向的图示;
图11示意性地示出了根据一个或多个实施方案的编码和解码系统的一般概览;并且
图12是一个实施方案的流程图图示;并且
图13将从外推投影相机观察到的MPI与根据一个实施方案提供的解决方案进行比较。
为了便于理解,在可能的情况下,已经使用相同的附图标记来标示与附图共同的相同元件。
优选实施方案的具体实施方式
图1A和图1B是针对投影相机的两个位置计算的虚拟图像的图示。图1A假设该投影相机位于一个或多个相机的中间针对该投影相机进行计算,而图1B针对位于该一个或多个真实相机的中间左侧特定距离(在该情况下为30cm)处的投影相机进行计算。在该特定示例中,该真实相机被绑定到距离每侧21cm的正方形中。在两种情况下均创建了平铺的多平面图像(MPI)。
MPI是图像以相机为中心的分层3D表示,用于创建最终渲染,该最终渲染极其注重细节并且可以在多种沉浸式技术中使用。MPI是多平面图像,其通常是用于计算合成图像的中间数据对象。它包括定义了数据立方体的平面(或切片)的集合。这些平面垂直于虚拟相机的光轴,针对该虚拟相机从该真实相机计算合成图像。MPI用于提供真实的和由计算机生成的视图的非常注重细节的图像。
在图1A和图1B的示例中,所创建的MPI相同并且是基于200个切片计算的。图块大小各为7个像素。图1B中,在塔杆和屋顶的划痕周围切片可见度更高。它们对应于背景,通过保留了塔的细节的切片,该背景可见。
可以利用深度学习应用计算MPI。通常使用MPI来提供视图合成,该视图合成然后可用于各种各样的应用中,包括深度学习应用。图像视图合成描述了一种算法,该算法允许从尚未被相机矩阵捕获的位置观察到的场景中计算图像。可以自由定义该虚拟相机的外在参数和内在参数。当该虚拟相机与该真实相机共享相同的内在参数时,合成图像的质量将会是良好的。
视图合成旨在从给定视角拍摄的多张照片开始创建最终渲染。然而,存在若干个与现有技术相关的问题需要解决。一个问题与从可为真实或虚拟的多个给定相机设置和取向构建任意合成图像的挑战有关。该合成图像的最终渲染是期望从放置在给定位置并具有给定设置的虚拟相机拍摄的。
另一个挑战与以下事实有关:MPI平面被定义为垂直于该虚拟相机的光轴,并且现有MPI技术将每个切片的内容限制为位于与该切片相关联的平坦平面上。通过将由图像或图像切片制成的图块保持在可被存储的合理体积来编码MPI。用于MPI的图块的大小取决于在该MPI中定义的切片的数量。然后从平铺MPI生成内插视图,该平铺MPI也取决于所提供的切片的数量。然而,存在大量的图块就需要存储大量的数据,这会成为前面提到的问题。因此,为每个图块添加某些信息的解决方案可以是解决这些挑战的一种方式,这些信息将最终帮助减少要存储在平铺MPI中的切片的数量和图块的数量,如将通过一个实施方案进行讨论。在该实施方案中,对于给定的视图合成照片质量,减小了该平铺MPI的全局大小。图7A和图7B稍后将提供更多关于该实施方案的信息。在即将讨论的图7A和图7B中,使得从MPI计算虚拟视图成为可能。另外,该平铺MPI可以被堆叠从而从针对其已经计算了该MPI的虚拟相机产生虚拟视图(图7A),或者该MPI可以被投影到任何投影相机以产生许多不同的虚拟视图(图7B)。
在不同的实施方案中,该虚拟视图(见等式(12))可用于近似一个完整算法,该完整算法然后可结合视图渲染使用。在该实施方案中,针对允许更快渲染生成的投影相机计算该平铺MPI。在此类区域中的一个挑战是避免该投影相机设置在由真实相机定义的边界之外时出现的可见缺陷。在这种情况下,该实施方案使用视图推测以允许来自该平铺MPI的投影平面和该切片的平面变得可见。
通过计算机图形、光学和数据处理领域中日益增长的进步,体积视频捕获技术已经成为可能,其中该进步为以特定方式捕获图像的相机的发展中的演进。一种此类相机为光场相机,由于该光场相机同时提供同一场景的多个视图,因此其可用于生成MPI。
光场相机允许从各种视点捕获真实内容。两个主要的光场相机系列是:相机矩阵;或全光相机。相机矩阵可以单个相机代替,该单个相机用于从各种视点执行多次采集。因此,被捕获的光场仅限于静态场景。对于全光相机,微透镜位于主透镜和传感器之间。该微透镜产生对应于各种视点的微图像。该传感器收集的微图像矩阵可转换为所谓的子孔径图像,该子孔径图像相当于用相机矩阵获得的采集图像。实施方案在考虑相机矩阵的情况下进行描述,但该实施方案同样适用于从全光相机提取的子孔径图像集。
相机校准很重要,并且涉及一组算法和为了估计所谓的外在参数和内在参数而采集的特殊图像。外在参数描述了相机在真实世界坐标系中的位置:3个平移,用于表征主透镜光瞳中心的位置;和3个旋转角度,用于表征相机的主光轴的取向。内在参数描述了每个相机的内部属性,诸如焦距、主点、像素大小。内在参数可能还包括由主透镜产生的几何失真,与理想薄透镜相比,该几何失真会使捕获的图像失真。许多校准程序依赖于从不同视点多次观察的棋盘。
相机可以被几何校准。在存在N个相机的场景中,该N个相机使用例如黑白棋盘格进行校准,所有相机同时观察该棋盘格。在棋盘定位在离相机不同的位置处的情况下拍摄几张照片。在每张照片上,提取由棋盘的2个黑色正方形和2个白色正方形界定的角点的2D坐标。根据一个图像,角点的2D坐标与其他相机观察到的相同角点的2D坐标相关联。
对于N个相机观察到的角点的N个2D坐标以及不同曝光,可以根据世界坐标系(WCS)估计相机的位置。在该系统中,相机i∈[1,N]的主透镜的瞳孔中心通过平移向量Ti=(X,Y,Z)t在空间中定位,并且光轴的取向由3D旋转矩阵Ri定义。相机i的位姿矩阵由Pi=(RiTi)∈R3×4定义。相机i的外在矩阵由Qi=(Ri -1-Ri -1.Ti)∈R3×4定义。内在相机参数:焦距;主点;像素大小;几何失真与外在相机参数同时估计。
通过相机校准,对于相机i与像素(x,y)处的可见对象之间的任何距离z,可以将一个相机i的2D像素坐标(x,y)转换为3D WCS坐标(X,Y,Z)t。也可以从空间(X,Y,Z)t中的任何点计算在相机i的像素(x,y)处观察到的坐标。
点云是WCS中的一组或多组3D点。每个3D点都与RGB颜色相关联。通过将每个RGB像素放入WCS中,了解相机校准参数和对应的深度,可以很容易地从多视图加深度(MVD)获得点云。
另一个重要概念是深度图估计的概念。使用光场相机,可在不同视差下多次观察场景中的给定对象。因此,可以估计该对象与所有相机的距离。可以推导出所谓的深度图,其中每个像素量化在给定相机采集的对应图像中可见的对象的距离。
当使用MVD时,指定由相机矩阵获得的一组图像,加上对应的一组深度图图像。一个深度图与一个图像相关联,其共享相同的空间分辨率和相同的观察位置。
图2是推测的图示,其中相对于真实相机的设置,投影相机位于非常高的位置。因此,该投影相机的主轴远离该MPI的切片的法线。所提供的虚拟图像显示真实相机无法观察到的某些暗区域。在此示例中,当根据不位于真实相机的边界中的投影相机投影MPI时,根据平铺MPI(或甚至全MPI)的视图合成使得切片(或平面)可见。当用户可以与设备自由交互以定义该投影相机(例如所谓的动态窗口演示,或者利用头戴式显示器观察的合成视图)的物理位置时,这是比较常见的。
如当前将讨论的一个实施方案中,附加数据将被添加到每个图块以便对该图块进行取向,使得当从外推位置观察MPI时减小该图块之间可见的空间。因此,MPI的每个切片不再将其相关联的内容限制到平坦平面,而是可被认为是取向后的(或倾斜的)图块的集合,其可根据每个图块的取向延伸到该平面之外。
这种表示可以允许在渲染侧进行更快的处理,从而允许实时沉浸。
传统上,来自MPI的合成视图的质量取决于切片的数量。在MPI的平铺版本中,数据量减少,但合成视图的质量仍取决于切片的初始数量。在一个实施方案中,有可能将与取向有关的信息添加到这些图块中的每个图块,以便针对给定的预期视图合成质量(全局地)减少切片的数量。在具有这些取向后图块的该实施方案中,无需将对象空间分割成许多切片(例如,取向后图块可以允许具有较少切片的MPI与具有较多切片但缺少该取向后图块信息的MPI产生相同的视图合成/渲染质量)。如果原始MPI内容具有例如500个切片,则其中的100个切片可能足以从这些取向后图块获得所需的信息。通过此信息,可确定这些图块的取向,并且可维持深度准确性。图块的减少还允许减少要存储的数据的总量。
在一个实施方案中,可以通过如下方式管理每个图块的取向:
-在计算共识时计算每个切片的平均深度Z;
-计算MPI,并且针对每个图块确定该图块在对象空间中的的4个角点的z坐标。如稍后将讨论,这些坐标被保存到扩展的图集索引中。(与包含关联到每个图块的纹理的主图集相比,所维护的附加描述名称AZ所需的内存大小非常有限。)
在另一个实施方案中,可以使用视图合成算法,其允许计算特定体积数据。从给定相机矩阵的原始图像的采集到从虚拟相机位置看到的合成图像的计算,执行了若干个步骤。
图3是核线的图示。与相机校准相关联的一个重要概念与几何相机校准有关。在存在N个相机的场景中,可以在2个相机同时观察到的图像之间进行深度估计。设xL(x,y)为左侧相机的像素,该左侧相机观察空间X(X,Y,Z)中的对象。OL为左侧相机的光学中心。位于直线(OL,X)上的任何对象Xi都被同一像素xL观察到。在右侧相机上,在坐标xr处观察到对象Xi,这些坐标都位于传感器上的一条线上,其被定义为核线。
下面的示例和解释将有助于理解深度图的估计。为了说明,在以下解释中将使用两个相机,但是在另选实施方案中可使用其它数量的相机,如所属领域的技术人员可理解。
在一个实施方案中,使用核线来进行估计关联到像素的深度的方法,如下:
1)考虑在像素坐标(x,y)处的参考相机的像素pref(x,y)。
2)像素pref通过与该参考相机相关联的旋转和平移矩阵在各种距离候选Zc处反投影到世界坐标系中。这将允许获取候选坐标Pref(xc,Yc,Zc)的物理位置,这些坐标都被像素pref(x,y)观察到。对于良好的深度估计,候选S的数量通常等于100。S也称为切片的数量,因为这些切片定义了许多平面,这些平面在估计深度图的平行切片中切割3D空间。
在不同实施方案中,使用各种估计器来计算相似性。为了易于理解,将列出两个常见的相似性估计器,然而,如本领域技术人员已知的,在另选实施方案中可以使用其他估计器。
第一个估计器与2个像素之间的L1范数有关——设观察到的像素p为由3个标量定义的颜色像素,这些标量对应于3个颜色分量红、绿和蓝(pR,pG,pB)。2个像素pref(x,y)和之间的L1范数由 定义。从N个候选中,称具有pref(x,y)的最小L1范数的候选为观察空间中的相同对象。对应的Zc是与像素pref相关联的深度估计。
在一个场景中,如果仅使用一个像素的颜色分量来估计相似性,则深度估计对噪声非常敏感。为了克服这一限制,使用包括几个周围像素的补丁来计算2个像素之间的相似性。该技术涉及交叉补丁深度估计。显然,它需要更多的计算,因为与2个像素之间的相似性相比,对于P×P像素的补丁,它需要P2个更多计算。这是实时估计的关键点,尤其是在嵌入移动设备时。上面描述的相似性算子可以用于像素周围的补丁。
·2个补丁之间的L1范数——设P(ref,T)(x,y)为像素pref(x,y)周围的P×P像素补丁,并且分别用于像素周围的补丁2个补丁之间的L1范数由定义。从S个候选中,称具有pref(x,y)的最小L1范数的候选为观察空间中的相同对象。对应的Zc是与像素pref(x,y)相关联的深度估计。
在一个实施方案中,在参考相机与另一个相机之间计算深度图。在由N个相机组成的矩阵中,对于给定相机,估计N-1个深度图。这些深度图可合并为单个深度图(通过求平均、获取最接近的数据……),以便每相机估计一个深度图。在此程序结束时,由N个相机获得的N个图像与N个深度图相关联。该数据被称为多视图加深度(MVD)。
在一个实施方案中,视图合成的采集表示来自虚拟相机的图像的计算,该虚拟相机位于已观察/计算MVD的相机矩阵附近。在一个示例中,可以通过以下步骤来提供视图合成算法:
1.共识立方体-使用此步骤,每输入图像计算一个立方体。该立方体对于许多采样深度,量化了所有深度图与所选择的输入相机的观察点的匹配程度。
2.软可见性立方体-通过对共识立方体进行积分来计算此立方体。软可见性立方体对于相机观察点,量化了对象从给定像素可见的程度。可见性被称为“软”,因为深度图估计容易出错。至于共识立方体,软可见性相当于概率。
3.虚拟颜色立方体估计-了解输入图像的共识立方体和可见性立方体,从虚拟相机估计虚拟颜色立方体(MPI)。
4.来自虚拟颜色立方体的虚拟图像计算-堆叠虚拟颜色立方体(MPI)以形成单个虚拟图像。
上述步骤将在随后的描述中通过附加的细节扩展。注意,以上步骤列表中的前三个步骤提供了生成3D场景的MPI表示的一种方式。所得到的MPI在上述步骤列表中被表示为“虚拟颜色立方体”。第四个步骤描述如何使用该MPI表示来高效生成或合成3D场景的新视图。如前所述,存在用于生成MPI表示的许多已知技术,并且提供以上列表中的步骤1、2和3作为具体图示。然而,本发明不限于以上述步骤1、2和3为特征的MPI生成技术。相反,本发明可以利用用于生成3D场景的MPI表示的任何已知技术。例如,可以采用用于生成MPI的各种深度学习方法来生成MPI表示。
图4是根据一个实施方案的图示。在图4中,示出了多个切片。根据虚拟相机(和相机2的共识计算)定义了至少一个切片。在一个实施方案中,共识表示深度图的值与至少一个给定深度图一致的接近程度。对于由(Nx,Ny)个像素组成的每个输入图像Ii及其对应的深度图Di,计算共识立方体Ci。立方体Ci由(Nx,Ny,S)个像素组成,其中S表示切片的数量。根据为其计算MPI的虚拟相机来定义切片。该虚拟相机通常位于真实相机的中间,然而该虚拟相机也可能具有其它位置。
返回参考图4,提供了4个真实相机和一个虚拟相机的结果。这些结果中的每个结果定义了针对本示例生成的MPI的切片。切片Ps垂直于虚拟相机的主光轴并且与该虚拟相机相距z(根据等式(1))。无论切片Ps取向如何,该切片用于所有真实相机以计算它们的共识。在该真实相机和该虚拟相机之间共享相同的切片使得计算更容易和更快,并且对于所提出的算法是必需的。每个切片s∈[1,S]与距离z相关联,该距离与zmin和zmax成反比地变化,如等式(1)所给出。zmin和zmax表征MPI的第一个和最后一个切片在虚拟相机系统中的位置。最小距离和最大距离是根据场景内容定义的,通常设置为用于计算深度图的相同的最小距离和最大距离。
为了计算相机i的共识,从该相机投射光线并穿过像素(x,y)(在图4中i=2)。该光线击中在WCS坐标J=(X,Y,Z)处的切片Ps。该坐标被投影回在像素坐标(x′k,y′k)处的真实相机k中。深度图给定在该坐标处估计的深度z′k=Dk(x′k,y′k)。点(x′k,y′k,z′k)在第k个相机坐标系中表示,它们对应于点Jk,其随后在WCS中表示。切片的厚度为Δz=zM-Zm,其中zM=z(s+1/2),并且zm=z(z-1/2)。为了定义共识立方体,定义了脉冲函数Π(a,b,c),使得:
另外,HeavisideH(a,b)函数定义如下:
在切片s处,相机i的像素(x,y)处的共识值等于:
其中M是用于计算相机i的共识的一组相机。对于精确计算,M被选择为等于所有相机。da(Cv,Jk)是虚拟相机Cv和点Jk之间的代数度量。da(Jk,Ps)是点Jk和平面Ps之间的代数度量。这些距离是使用虚拟相机的内在矩阵Qv来计算的:
da(Cv,Jk)=[0 0 1]·Qv·[Jk 1]T
da(Jk,Ps)=[0 0 1]·Qv·[Jk 1]T-z(s) (5)
Δz是切片的厚度,其中Δz=z(s+1/2)-z(s-1/2)。使用内在相机参数和外在相机参数计算投影和反投影。共识被定义为同意对象在切片之内的深度图的数量(例如,相机的数量)除以仍然可以看到该切片和该切片之外的深度图的总数量(例如,相机的总数量)之间的比率。da(Jk,Ps)在图4中用蓝色箭头示出。
共识Xi的计算是嘈杂的,尤其是当大多数图像被遮挡超过一定距离时。在这种情况下,等式(4)的分母趋于零。一个选项是为分母设置最小值。该最小值通过实验设定为M/4。可平滑在切片s的共识Ci,以便改善其信噪比。通过所谓的引导去噪算法逐切片执行去噪。使用来自切片s的共识的Ci(x,y,s)周围的像素和来自观察到的图像Ii(x,y)的像素周围的像素来计算局部平滑内核。
软可见性是根据以下等式针对给定图像Ii通过切片对其共识Ci进行积分来计算的:
第一个切片的可见性等于1,然后降低到0。当可见性朝0降低时,这意味着在给定切片之外,图像Ii被在像素Ii(x,y)处可见的对象遮挡。等式(6)中的max()防止可见性降低到0以下。这种情况经常发生,因为共识是能够从视图i看到被遮挡对象以外的对象的所有相机之间的协议。可能等于用于计算Ci的相机的数量M。
图5提供了虚拟颜色立方体的六(6)个连续切片的图示。左上图像提供前景切片,右下图像提供背景切片,并且其他切片落入其间。在一个实施方案中,图5可用于使用观察图像Ik集合M′计算的从虚拟相机位置看到的虚拟图像的估计,使得k∈M′。集合M′可以被简单地定义为最靠近该虚拟相机的4个真实相机或者所有相机,以建立完整的MPI,其中对象的最大集合是可见的。
为了估计从虚拟相机位置看到的虚拟图像,计算又称作MPIColorsynth(x,y,z(s))的虚拟颜色立方体为初步步骤。该颜色立方体位于该虚拟相机的坐标系中,其特征在于内在相机参数和外在相机参数。此虚拟立方体的每个切片都被计算为由对应软可见性加权的M′图像的平均值。
在(7)中,(x′k,y′k,z′k)表示从该虚拟相机到真实相机k的重投影坐标(x,y,z(s))。这种方法的最大优点是,来自该虚拟颜色立方体的整数坐标(x,y,z(s))使用反向扭曲方法计算,这要归功于立方体对z(s)的采样。该虚拟颜色立方体类似于焦点堆栈,其中只有位于给定切片上的对象可见,前景对象已被移除。
在一个实施方案中,还可以创建虚拟颜色立方体。在该实施方案中,合并MPI以形成唯一的虚拟颜色图像。在该实施方案中,首先计算与该颜色虚拟图像相关联的共识立方体Consensussynth(x,y,z(s))和可见性立方体SoftVissynth(x,y,z(s))可以是有帮助的。与等式(7)类似,计算是通过对M′初始共识或可见性立方体求平均来完成的:
其中(x,y,z(s))是该虚拟共识立方体的体素坐标。Consensussynth(x,,y′,z,)是通过反投影体素(x,y,z(s))到WCS(X,Y,Z)中然后投影到坐标(x′k,y′k,z′k)中来计算的,其中z′k为点(X,Y,Z)到相机ck的距离。
上文定义的两个立方体组合成XC(x,y,z(s))。
XC(x,y,z(s))=min(Consensussynth(x,y,z(s)),SoftVissynth(x,y,z(s))) (10)
CC是一种在0至1之间变化的概率。典型值为:
·如果给定CC(x,y,z(s))等于1,则这意味着所有相机都同意对象正位于离虚拟相机的距离z处,并且在虚拟相机内的坐标(x,y)处可见。
·CC>50%的高值是罕见的——它对应于深度估计准确的对象(纹理区域)并且精确定位在虚拟相机(或相机)的切片上并且非常接近真实相机的切片。
·CC值大部分等于0,因为许多切片(或典型切片的许多区域)不匹配任何对象。
·对于细节较少的对象,从原始图像中提取的深度图不一致,原始共识较低,可低至1/N,其中N为相机的数量。在这种情况下,CC也很低,为约1/N。
·对于位于2个切片之间的对象,CC值可低于1/N。因此,CC值等于几个百分点(例如,接近零)是常见的。
然后,通过共识对颜色切片进行加权,并累积直到光线可见性达到零:
在一个实施方案中,虚拟颜色立方体(即,该3D场景的MPI表示)利用由4个值构成的像素来保存:红、绿、蓝和α(RGBα)。RGB对通过等式(7)计算的颜色进行编码。α编码CC(x,y,z(s))分量,其已经利用等式(10)计算。
图6是实施方案的图示,该实施方案示出了应用于利用4×4相机矩阵捕获的图像的算法的结果。使用4个中心相机的128个切片计算4个共识立方体和可见性立方体。所有深度图都有助于计算共识立方体和可见性立方体:集合M由16个相机组成。用该4个中心相机计算合成颜色立方体:集合M′由4个相机组成。
图6示出了4个原始图像(左侧的4个图像)和合成图像(右侧的图像)的详细视图。在该示例中,即使对于由复杂遮挡构成的场景,该算法也产生非常准确的结果。M′共识立方体和可见性立方体需要大量内存。在该示例中,捕获装置包括2M像素相机的4×4矩阵;使用200个切片计算深度图、共识立方体和可见性立方体。一个合成图像的计算在GPU上5秒钟内完成,并且需要8Gb内存。
图7A和图7B是示出了将虚拟颜色立方体合并为单个虚拟图像的图示。图7A提供了与虚拟颜色立方体共享相同虚拟相机位置的虚拟图像。图7B是从该虚拟颜色立方体自由计算出的虚拟图像。图7B中产生的虚拟图像是来自第二虚拟相机位置的该3D场景的合成视图,其中该第二虚拟相机位置通常不同于虚拟彩色立方体的原始虚拟相机位置。
在所讨论的实施方案中,在视图合成算法的最后一步,将虚拟颜色立方体根据一些权重合并成单个虚拟图像。所讨论的图7A和图7B示出了如何针对每2D坐标进行合并。这允许与专用于MPI计算的计算时间兼容的实时渲染。
在一个实施方案中,一旦针对给定的虚拟相机位置定义了MPI,则近似其他虚拟视图,并且向虚拟颜色立方体提供透视投影(图7B)。第二投影控制最终合成图像的第二虚拟相机的视点和相机位置。因此,定义了两个虚拟相机位置,第一个虚拟相机位置专用于计算虚拟颜色立方体(MPI),并且第二个虚拟相机位置专用于将虚拟颜色立方体(MPI)合并到自由选择的虚拟相机位置。实际上,用于计算MPI的第一个虚拟相机位置位于真实相机的中间,并且第二个虚拟相机位置由用户的头部位置或观看位置控制,以获得沉浸式体验。
等式(12)通过使用4×4投影矩阵P对3D坐标(x,y,z)的投影来进行修改:
其中[xp,yp,zp,1]=P×[x,y,z(s),1]。投影坐标(xp,yp,yp)为非整数,值Colorsynth(xp,yp,zp)通过插值进行提取。将虚拟颜色立方体与倾斜的投影合并产生质量比针对第一虚拟相机计算的完整算法略低的虚拟图像。然而,该方法允许将算法的前3个步骤的计算,包括虚拟颜色立方体的计算,从该立方体到虚拟图像中的堆叠分开。因此,实时渲染可通过记录的内容和虚拟颜色立方体的一些预计算来实现。
图8是平铺虚拟颜色立方体的图示。所有图块均被保存到2D图像中。虚拟颜色立方体或MPI本质上是大的。例如,对于各自具有2048×1088像素分辨率的4×4相机的相机装备,虚拟颜色立方体通常由用于128个切片的128×2048×1088个像素组成。虚拟颜色立方体也充满零,因为MPI中各种切片中的大部分区域都与场景细节不匹配。对于真实内容,注意到90%的像素是空的或具有可忽略的贡献:CC(x,y,z(s))<10%。如图7所示,颜色立方体的堆叠使用最近的GPU卡以4Hz计算。为了将速度提高10倍,MPI被转换为不具有或只有很少空像素的新结构。一种基本方法是将MPI分割成像素大小为[Tx,Ty]的图块Ti。例如,这可以为固定大小。
选择所有大小相同的图块使虚拟颜色立方体的分割更容易。图8示出了如何将图5中部分示出的虚拟立方体转换为单个2D图像,其中仅保存重要的图块。不具有重要内容的图块被丢弃,并且在用于视图合成的后续投影操作中将被视为空。对于保存到2D图像的重要图块,每像素保存4个分量,即RGB彩色分量加上α分量,其记录了由等式(10)描述的CC值。重要图块的集合布置在被称为图集的结构中。图块Ti通过由[Tx,Ty]像素组成的小图像和虚拟颜色立方体(xi,yi,si)内的3D位置来表征,其中si是在像素坐标(xi,yi)和(xi+Tx,yi+Ty)之间从中提取了图块的切片。如图8所示,图块的[Tx,Ty]像素被保存到2D图像中。
图集由以下组成:
1)大小为(nxTx×nyTy)的2D图像A,其记录了选定图块。A可以记录的图块的最大数量等于(nx×ny)。图块的每个像素由4个分量RGBα定义,其中α是如等式(10)中所定义的CC。
2)大小为(nx×ny)的2D图像Aind,其记录了在A中的相应图块的3D位置。使Aind的每个像素作为3个分量值(xi,yi,si),对应于A中描述的第i个图块的3D位置。
为了允许每个图块的取向,完成以下操作:
1-当计算共识时计算每切片和每像素的平均深度Z;
2-计算MPI,并且针对每个图块确定该图块在对象空间中的4个角点的z坐标。这些坐标被保存到扩展的图集索引中。
等式(4)描述了针对给定相机和给定切片的共识立方体的计算。所提出的算法定义了平均值z共识CZi(x,y,z),其由下式定义:
当通过将原始图像投影到虚拟切片中来计算虚拟颜色立方体(MPI)时,还将平均值z共识CZi(x,y,z)投影到与该MPI具有相同大小的立方体Zsynth(x,y,z(s))中是很重要的。该立方体跟踪对象的平均值z,其比切片厚度更精确。Zsynth(x,y,z(s))通过以下等式计算:
关于等式(7),(x′k,y′k,z′k)表示从虚拟相机到真实相机k的重投影坐标(x,y,z(s))
是虚拟相机Cv和点Pk之间的距离。如果点Jk属于切片s,则该距离有助于CZi(x,y,z(s))。CZi(x,y,s)表示到属于切片s的点Jk的虚拟相机的平均距离。对于在纹理区域上计算的深度图,该平均距离非常准确,对于这些区域,切片的厚度与深度图的准确度相比过大。CZi(x,y,s)允许跟踪该准确度。在无纹理区域上,点Jk分布在几个切片中。
图9是用于示意性图块提取的俯视图的图示,该示意性图块提取示出了如何在一个维度上对图块进行取向。该图为例示性的,因为在实践中图块取向基于该图块的内容,因此不限于单个维度。图10提供了图块的四个角点。当从MPI提取图块时,可以利用属于该图块的像素的Zsynth(x,y,z(s))来计算取向。根据图9,已知zleft和zright以及它们的取向足以表征图块的取向,并且如图10中那样通过4个图块角点的4个深度Z1,Z2,Z3和Z4进一步表征该图块的取向。
以此方式计算MPI,并且立方体Zsynth(x,y,z(s))针对MPI中的每个像素定义了到准确度大于对应切片厚度的相机的距离。MPI被转换成平铺MPI以便节省空间。从MPI中提取图块,并且通过使用Zsynth(x,y,z(s))对该图块进行取向。
为了计算图块的四个角点,首先计算图块的平均距离。(xt,yt)是大小为(Tx,Ty,)的图块的左下像素坐标:
z的斜率用Zsynth的x和y导数估计:
根据前面的等式,导出图块t的4个角点的4个距离。
扩展图集以包括用于这些图块的取向信息。图集由nx*ny个图块组成,每个图块具有Tx*Ty大小。图块的每个像素由4个分量RGBa定义,其中α为如等式(10)中定义的CC。在一般情况下,每个图块具有对应于其在场景中的位置的(x,y,z)坐标。取向后图块将具有对应于4个角点(Z1,Z2,Z3,Z4)的深度的另一组4个坐标。
在一个实施方案中,可以提供一个示例,其中扩展图集由以下组成:
1)大小为(nxTx×nyTy)的2D图像A,其记录了选定图块。例如,参见图8。A可以记录的图块的最大数量等于(nx×ny)。图块的每个像素由4个分量RGBα定义,其中α是如等式(10)中所定义的CC。
2)大小为(nx×ny)的2D图像Aind,其记录了在A中的相应图块的3D位置。使Aind的每个像素作为3个分量值(xi,yi,si),对应于A中描述的第i个图块的3D位置。
3)大小为(nx×ny)的2D图像Az,其记录了图块的取向信息。例如,如果该取向信息表示为图块的四个角点,则2D图像AZ的每个元素记录A中对应图块的4个角点的4Dz距离。
图集(例如,包括图块取向信息的扩展图集)用于重建包括取向后图块的堆叠图块表示,并且根据投影矩阵P将其投影到2D图像中。图集图像Az给定图块角点的4个距离z。
其中[xp,yp,zp,1]=P×[xt+i,yt+j,zt(i,j),1],其中zt(i,j)=Z1+i(Z2-Z1)+j(Z3-Z1)。诸如OpenGL的图形API通常用于MPI的实时投影。利用OpenGL足够给出绘制图块的2个三角形的坐标。在虚拟相机系统中,第一个三角形将具有以下坐标:[(xt,yt,Z1),(xt,yt+Ty,Z3),(xt+Tx,yt,Z2)]。第二个三角形具有以下坐标:[(xt,yt+Ty,Z3),(xt+Tx,yt,Z2)],(xt+Tx,yt+Ty,Z4)]。这2个三角形与针对图集中的图块记录的[Tx,Ty]像素给出的纹理(例如RGB值)相关联。OpenGL执行这2个三角形的投影,并且根据投影矩阵P进行光栅化。Az的大小与存储图块纹理的图集图像A的大小相比可忽略不计。另外,与在给定的z(st)处的图块投影相比,将计算时间考虑到图块角点的距离z中并无影响。
在另选实施方案中,可以存储图集(例如,包括图块取向信息的扩展图集)。该图集可以保存到文件,或者写入到比特流。可以存储该文件或比特流以供后续使用,或者可以通过网络将该文件或比特流传送到另一个设备,使得该另一个设备可以使用图集信息来(例如,实时地)渲染该3D场景的视图。在解码器侧解码图集信息,并且解码每个像素的RGBa和每个图块的(xt,yt,zt)和4个深度值(Z1,Z2,Z3,Z4)。该(xt,yt,zt)和4个深度用于重新计算每个图块[xp,yp,zp,1]的每个像素的坐标。使用投影矩阵P和根据4个角点的深度值计算的z坐标按照以下等式执行属于给定图块的给定像素的坐标:
[xp,yp,zp,1]=P×[xt+i,yt+j,zt(i,j),1],其中zt(i,j)=Z1+i(Z2-Z1)+j(Z3-Z1)
OpenGL可由解码器设备使用以实现MPI的实时投影。利用OpenGL足够给出绘制图块的2个三角形的坐标。在虚拟相机系统中,第一个三角形将具有以下坐标:[(xt,yt,Z1),(xt,yt+Ty,Z3),(xt+Tx,yt,Z2)]。第二个三角形具有以下坐标:[(xt,yt+Ty,Z3),(xt+Tx,yt,Z2)],(xt+Tx,yt+Ty,Z4)]。这2个三角形与图集中记录的[Tx,Ty]像素给出的纹理(RGB)相关联。OpenGL执行这2个三角形的投影,并且根据投影矩阵P进行光栅化。每个像素根据以下等式合成:
为了具有准确的合成视图(来自真实相机之间的虚拟相机位置和来自外推位置两者),计算具有许多切片的MPI在过去是必需的。但是具有许多切片会产生许多重要的图块,因此平铺MPI变得更大。在一个示例中,对于给定场景,针对具有500个切片的MPI,可提取280000个图块,从而需要55兆字节的数据。利用取向后图块,在一个实施方案中,这可以通过降低切片数量(例如100个切片而非500个)实现并具有类似的渲染性能。在仅100个切片的情况下,所提取的图块的数量减少到130000,这将数据的大小减少到26兆字节。对取向后图块进行编码的附加成本等于所提取的图块的8%,因此,图块取向信息导致2兆字节的附加成本,这相对于总大小而言很小,并且比在500切片的情况下的总大小要小得多。在一个实施方案中,模拟显示如果相应地对图块进行取向,则MPI无需具有太多切片。具有的切片数量较小可以缩小平铺MPI的大小,尽管需要图块取向的附加编码成本。
如先前的实施方案之一所论述,当图块取向可以用记录到2D图像AZ中的4个角点深度值Z1,Z2,Z3和Z4来表征时,如等式(16)和(17)所给出,通过在属于该图块的像素上估计的斜率可以计算这些值。在另一个实施方案中,图像Az的定义可以通过仅保留3个分量,例如,Zcenter、ZslopeX和ZslopeY而略有不同,这些分量分别表示图块的中心点的深度、深度相对于x维度的斜率和深度相对于y方向的斜率。Az的本质是针对给定切片,对属于所提取图块的像素的平均值z共识CZi(x,y,z)的变化进行建模。在一个实施方案中,线性模型(例如,对应于平坦的取向后图块)可以与以斜率为特征的取向一起使用。对于此模型,存在许多不同方式可指定此类图块的空间位置和取向。例如,可针对图块的四个角点指定深度值,可针对图块的三个角点指定深度值,或者可针对图块的中心点以及图块的角点中的两个角点指定深度值。可以为位于图块的一个或多个边缘边界的中心处的点提供深度值。另选地,可提供单个深度值连同水平和垂直斜率参数以限定图块取向。可以使用两个分量角度值代替斜率参数来指定取向。此类角度值可以指示图块相对于切片平面进行取向的角度,例如在水平和垂直方向上。另选地,角度值可以指示图块的表面法线相对于切片平面的角度。在一个实施方案中,可利用指定图块的位置(例如,深度)和取向的任意参数。此外,此类参数可以存储在如先前所指定的图集图像Az中,然而用于存储图块取向参数和提供对图块取向参数的访问的其他技术也是可行的。此外,可以使用除线性(例如,平坦图块)模型之外的模型,例如允许图块呈现非平面形状的二阶模型。可以使用任何能够描述3D空间中的表面的模型。
图11示意性地示出了根据一个或多个实施方案的编码和解码系统的一般概览。图11的系统被配置为执行一个或多个功能并且可具有预处理模块1130以制备接收到的内容(包括一个或多个图像或视频)以供编码设备1140进行编码。预处理模块1130可执行多图像采集、合并在共同空间中的采集的多个图像等、采集特定格式的全向视频以及用于允许制备更适合进行编码的格式的其它功能。另一种实施方式可将多张图像结合到具有点云表示的共同空间中。编码设备1140以适合于传输和/或存储的形式封装内容以供兼容解码设备1170进行恢复。一般而言,尽管并非严格要求,但是编码设备1140提供一定程度的压缩,从而允许更有效地表示共同空间(例如,使用更少的存储器进行存储和/或使用更少的带宽进行传输)。就映射到2D帧上的3D球体而言,2D帧实际上是可由多个图像(或视频)编解码器中的任一个编解码器进行编码的图像。就具有点云表示的共同空间而言,编码设备可提供众所周知的点云压缩,例如通过八叉树分解。在对数据进行编码之后,将其发送到网络接口1150,这通常可在任何网络接口中实现,例如,存在于网关中。然后,可以通过诸如互联网的通信网络1150来传输数据。各种其它网络类型和组件(例如,有线网络、无线网络、移动蜂窝网络、宽带网络、局域网、广域网和/或WiFi网络等)可用于此类传输,并且可预见任何其它通信网络。然后可以经由网络接口1160接收数据,该网络接口可以在网关中、在接入点中、在终端用户设备的接收器中、或者在包括通信接收能力的任何设备中实现。在接收到数据之后,将其发送到解码设备1170。然后,解码后的数据由也能够与传感器或用户输入数据通信的设备1180处理。解码器1170和设备1180可集成在单个设备(例如,智能电话、游戏机、STB、平板计算机、计算机等)中。在另一个实施方案中,也可以结合渲染设备1190。
在一个实施方案中,解码设备1170可用于获取包括至少一个颜色分量的图像,该至少一个颜色分量包括插值数据和非插值数据,并且获取指示具有非插值数据的至少一个颜色分量中的一个或多个位置的元数据。
图12是用于处理图像的一个实施方案的流程图图示。在步骤1210中,接收从彼此相距一定距离布置的至少两个真实相机的不同视角捕获的场景的至少图像。该场景包括至少一个内容,例如该内容可以是对象或人的视觉表示。该至少图像可以是视频或流内容。在步骤1220中,从设置在所述至少两个真实相机之间的虚拟相机的视角生成相同场景的虚拟图像。在步骤1230中,管理从该虚拟相机和所述真实相机获得的信息,并且移除任何冗余。在步骤1240中,如先前在图7A和图7B中所论述,在多个堆叠的图块上提供该信息。该图块可以如前所述进行取向。在步骤1250中,通过选择性地倾斜该堆叠来生成该场景的至少一个内容的虚拟图像的最终渲染,使得该至少一个内容看起来是由布置在任意位置处的任意虚拟相机从任意角度捕获。
图13是带推测的合成图像的图示。左侧示出了在没有取向后图块(例如,不存在图块取向信息的益处)的情况下生成的图像,而右侧示出了使用取向后图块生成的图像。在两种情况下切片的数量均为S=100。与使用切片的中间(例如,中心深度)处的默认位置相比,更准确地指定了取向后图块的空间位置。该情况示出了取向后图块是如何在不管切片厚度的情况下允许空间中的精确位置。
在一个实施方案中,可实现能够生成3D场景的增强的多平面图像(MPI)表示的方法或设备。在该实施方案中,该设备可以具有能够获取该场景的MPI表示的处理器。该MPI表示包括来自该3D场景的内容的多个切片,其中每个切片与相对于第一虚拟相机的位置的不同深度对应。然后,将每个切片分解成规则的图块,并且确定图块中的每个图块的取向信息。然后,可以存储该图块,包括它们的取向信息和把每个图块关联到该MPI表示的切片以及该切片内的图块位置的信息。
在另一个实施方案中,可以使用类似的方法和设备来渲染3D场景的视图。在该实施方案中,以类似的方式获取该MPI表示,然后对切片进行分解,并且还类似地确定每个图块取向。但是之后则是构造每个切片的堆叠表示。在该实施方案中,每个切片包括从该切片分解出的图块,并且每个图块根据该图块的取向信息来取向。然后,将内容从切片的堆叠表示投影到合并图像,该合并图像表示来自第二虚拟相机的位置的该3D场景的视图。
在上述任一实施方案中还可以实现多种改进。例如,获取该MPI表示可以包括从该3D场景的多视图加深度(MVD)捕获生成该MPI表示。获取该MPI表示还可以包括使用深度学习算法从所捕获的场景信息计算该MPI表示。
每个切片的不同深度对应于该切片的最小深度、最大深度或平均深度中的至少一个深度。针对每个图块,确定该图块的3D场景内容的深度值和基于深度值的图块的取向信息。
在一个实施方案中,将每个切片分解成规则的图块。然后确定该规则的图块中的哪些图块包含重要内容,并且保留具有重要内容的那些图块并丢弃其他图块。
在一个实施方案中,将每个图块的取向信息和把每个图块关联到该MPI的切片以及该切片内的图块位置的信息存储在图集文件中。在另一个实施方案中,将每个图块的取向信息和把每个图块关联到该MPI的切片以及该切片内的图块位置的信息写入到比特流。
此外,在一个实施方案中,构建该切片的堆叠表示。每个切片包括从该切片分解出的图块,并且每个图块根据该图块的取向信息来取向。将内容从切片的堆叠表示投影到合并图像,该合并图像表示来自第二虚拟相机的位置的该3D场景的视图。
在一个实施方案中,该取向信息可包括以下各项中的一项或多项:该图块的角点的深度值;该图块的中心点的深度值;水平斜率值;垂直斜率值;或者该图块的表面法线的角度值。
在另一个实施方案中,介绍了一种用于渲染3D场景的视图的方法。在该实施方案中,获取编码后的MPI表示。该编码后的MPI表示可以包括比特流或图集文件中的一者。然后对该编码后的MPI进行解码以获取该图块,连同每个图块的取向信息和把每个图块关联到该MPI表示的切片以及该切片内的图块位置的信息。每个切片与相对于第一虚拟相机的位置的不同深度对应。接着构造切片的堆叠表示,而且每个切片包括与该切片关联的图块,并且每个图块根据该取向信息进行取向。然后,将内容从切片的堆叠表示投影到合并图像,该合并图像表示来自第二虚拟相机的位置的该3D场景的视图。
可以通过经由通信网络接收该编码后的MPI表示来获取该编码后的MPI表示。还可以通过从文件系统或存储器中的一者读取该编码后的MPI表示来获取该编码后的MPI表示。此外,投影该内容可以包括将每个取向后图块分解成一对三角形并且确定该对三角形中的每一个三角形的顶点位置,使得该顶点位置可经由诸如OpenGL的应用程序编程接口(API)发送到图形处理单元(GPU)。
已描述了多个具体实施。但应理解的是,可以作出许多修改。例如,可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外,普通技术人员将理解,其他结构和过程可以被替换为所公开的那些,并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能,以实现与所公开的具体实施至少基本相同的结果。因此,本申请考虑了这些和其他具体实施。
应当理解,尽管本说明书提供并讨论了用于生成3D场景的MPI表示的步骤,但是这些步骤是作为示例呈现以助理解。因此,显然,本领域技术人员将认识到存在各种用于生成3D场景的MPI表示的已知技术,并且因此本发明可以与任何已知的MPI生成技术一起使用。
Claims (24)
1.一种方法,所述方法包括:
获取三维(3D)场景的多平面图像(MPI)表示,所述MPI表示包括来自所述3D场景的内容的多个切片,每个切片与相对于第一虚拟相机的位置的不同深度对应;
将每个切片分解成规则的图块;以及
确定每个图块的取向信息。
2.一种装置,所述装置包括:
处理器,所述处理器被配置为生成3D场景的增强的多平面图像(MPI)表示,所述处理器:
获取所述场景的MPI表示,所述MPI表示包括来自所述3D场景的内容的多个切片,每个切片与相对于第一虚拟相机的位置的不同深度对应;
将每个切片分解成规则的图块;以及
确定每个图块的取向信息。
3.根据权利要求1所述的方法,所述方法还包括:通过构建所述切片的堆叠表示来渲染所述3D场景的视图,每个切片包括从所述切片分解出的图块,每个图块根据所述图块的所述取向信息来取向;以及
将所述内容从所述切片的所述堆叠表示投影到合并图像,所述合并图像表示来自第二虚拟相机的位置的所述3D场景的视图。
4.根据权利要求2所述的装置,其中所述处理器通过构建所述切片的堆叠表示来渲染所述3D场景的视图,每个切片包括从所述切片分解出的图块,每个图块根据所述图块的所述取向信息来取向;并且所述处理器还被配置为将所述内容从所述切片的所述堆叠表示投影到合并图像,所述合并图像表示来自第二虚拟相机的位置的所述3D场景的视图。
5.根据权利要求1所述的方法,其中通过存储所述图块、每个图块的所述取向信息和把每个图块关联到所述MPI表示的切片以及所述切片内的位置的信息来生成所述3D场景的增强的MPI表示。
6.根据权利要求2所述的装置,其中所述处理器通过存储所述图块、每个图块的所述取向信息和把每个图块关联到所述MPI表示的切片以及所述切片内的位置的信息来生成所述3D场景的增强的MPI表示。
7.根据权利要求1、3或5所述的方法或权利要求2、4或6所述的装置,其中从所述3D场景的多视图加深度(MVD)捕获生成所述MPI表示。
8.根据权利要求1、3或5所述的方法或权利要求2、4或6所述的装置,其中使用深度学习算法从所捕获的场景信息获取所述MPI表示。
9.根据权利要求1、3或5所述的方法或权利要求2、4或6所述的装置,其中所述切片具有多个不同深度,并且每个切片的深度对应于所述切片的最小深度、最大深度或平均深度中的至少一个深度。
10.根据权利要求1、3、5或7-9所述的方法或权利要求2、4、6或7-9所述的装置,其中针对每个图块确定与所述图块相关联的所述3D场景的内容的深度值,并且基于所述深度值确定所述图块的所述取向信息。
11.根据权利要求1、3、5或7-10所述的方法或权利要求2、4、6或7-10所述的装置,其中将所述图块、每个图块的所述取向信息和把每个图块关联到所述MPI的切片以及所述切片内的位置的信息存储在图集文件中。
12.根据权利要求1、3、5所述的方法或权利要求2、4、6所述的装置,其中将所述图块、每个图块的所述取向信息和把每个图块关联到所述MPI的切片以及所述切片内的位置的信息写入到比特流。
13.根据权利要求1所述的方法,其中将每个切片分解成规则的图块还包括:
确定所述规则的图块中的哪些图块包含重要内容;以及
保留所述被确定为包含重要内容的图块,同时丢弃未被确定为包含重要内容的图块。
14.根据权利要求1、3、5所述的方法或权利要求2、4、6所述的装置,其中根据所述图块的所述取向信息来构造所述切片的堆叠表示。
15.根据权利要求14所述的方法或权利要求14所述的装置,其中将所述内容从所述切片的所述堆叠表示投影到合并图像,所述合并图像表示来自第二虚拟相机的位置的所述3D场景的视图。
16.根据权利要求1、3、5所述的方法或权利要求2、4、6所述的装置,其中所述取向信息选自:所述图块的一个或多个角点的深度值;所述图块的中心点的深度值;水平斜率值;垂直斜率值;所述图块的表面法线的角度值;和它们的组合。
17.一种用于渲染3D场景的视图的方法,所述方法包括:
获取所述3D场景的编码后的MPI表示,所述编码后的MPI表示包括比特流或图集中的一者;
对所述编码后的MPI表示进行解码以获取多个图块、所述多个图块中的每个图块的取向信息和把每个图块关联到所述MPI表示的切片以及所述切片内的位置的信息,其中每个切片与相对于第一虚拟相机的位置的不同深度对应;
构造所述切片的堆叠表示,每个切片包括关联到所述切片的图块,每个图块根据所述图块的所述取向信息来取向;以及
将所述内容从所述切片的所述堆叠表示投影到合并图像,所述合并图像表示来自第二虚拟相机的位置的所述3D场景的视图。
18.一种具有处理器的设备,所述处理器被配置为渲染3D场景的视图,所述设备包括:
所述处理器获取所述3D场景的编码后的MPI表示,所述编码后的MPI表示包括比特流或图集中的一者;
所述处理器还对所述编码后的MPI表示进行解码以获取多个图块、所述多个图块中的每个图块的取向信息和把每个图块关联到所述MPI表示的切片以及所述切片内的位置的信息,其中每个切片与相对于第一虚拟相机的位置的不同深度对应;
所述处理器构造所述切片的堆叠表示,每个切片包括关联到所述切片的图块,每个图块根据所述图块的所述取向信息来取向;以及
所述处理器将所述内容从所述切片的所述堆叠表示投影到合并图像,所述合并图像表示来自第二虚拟相机的位置的所述3D场景的视图。
19.根据权利要求17所述的方法或权利要求18所述的设备,其中通过经由通信网络接收所述编码后的MPI表示来获取所述编码后的MPI表示。
20.根据权利要求17所述的方法或权利要求18所述的设备,其中从文件系统获取所述编码后的MPI表示。
21.根据权利要求17所述的方法或权利要求18所述的设备,其中从存储器位置获取所述编码后的MPI表示。
22.根据权利要求17所述的方法或权利要求18所述的设备,其中通过将每个取向后图块分解成一对三角形并且确定所述一对三角形中的每个三角形的顶点位置来投影所述内容。
23.根据权利要求22所述的方法或权利要求22所述的设备,其中所述顶点位置经由应用程序编程接口(API)发送到图形处理单元(GPU)。
24.根据权利要求23所述的方法或权利要求23所述的设备,其中所述API为OpenGLAPI。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20306088 | 2020-09-24 | ||
EP20306088.4 | 2020-09-24 | ||
PCT/EP2021/076306 WO2022063953A1 (en) | 2020-09-24 | 2021-09-24 | Techniques for processing multiplane images |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116349224A true CN116349224A (zh) | 2023-06-27 |
Family
ID=72840439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180069496.6A Pending CN116349224A (zh) | 2020-09-24 | 2021-09-24 | 用于处理多平面图像的技术 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230326128A1 (zh) |
EP (1) | EP4218232A1 (zh) |
KR (1) | KR20230074179A (zh) |
CN (1) | CN116349224A (zh) |
WO (1) | WO2022063953A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117931120B (zh) * | 2024-03-22 | 2024-05-24 | 南京达道电子科技有限公司 | 一种基于gpu的摄像头图像视角调整方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10026220B2 (en) * | 2016-05-18 | 2018-07-17 | Siemens Healthcare Gmbh | Layered lightfields for occlusion handling |
US11348284B2 (en) * | 2019-01-08 | 2022-05-31 | Apple Inc. | Auxiliary information signaling and reference management for projection-based point cloud compression |
-
2021
- 2021-09-24 KR KR1020237012754A patent/KR20230074179A/ko active Search and Examination
- 2021-09-24 CN CN202180069496.6A patent/CN116349224A/zh active Pending
- 2021-09-24 WO PCT/EP2021/076306 patent/WO2022063953A1/en active Application Filing
- 2021-09-24 US US18/044,696 patent/US20230326128A1/en active Pending
- 2021-09-24 EP EP21783453.0A patent/EP4218232A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20230074179A (ko) | 2023-05-26 |
US20230326128A1 (en) | 2023-10-12 |
EP4218232A1 (en) | 2023-08-02 |
WO2022063953A1 (en) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10600233B2 (en) | Parameterizing 3D scenes for volumetric viewing | |
US10474227B2 (en) | Generation of virtual reality with 6 degrees of freedom from limited viewer data | |
KR102431117B1 (ko) | 포인트 클라우드 맵핑 | |
US10540818B2 (en) | Stereo image generation and interactive playback | |
US9872010B2 (en) | Lidar stereo fusion live action 3D model video reconstruction for six degrees of freedom 360° volumetric virtual reality video | |
RU2431938C2 (ru) | Эффективное кодирование множества видов | |
US10388025B2 (en) | Interactive image based 3D panogragh | |
US7643025B2 (en) | Method and apparatus for applying stereoscopic imagery to three-dimensionally defined substrates | |
US9165401B1 (en) | Multi-perspective stereoscopy from light fields | |
JP2017532847A (ja) | 立体録画及び再生 | |
US10444931B2 (en) | Vantage generation and interactive playback | |
EP3396635A2 (en) | A method and technical equipment for encoding media content | |
JP7371691B2 (ja) | ホモグラフィ変換を使用した点群符号化 | |
EP1668919B1 (en) | Stereoscopic imaging | |
WO2020185383A1 (en) | A method and apparatus for encoding and rendering a 3d scene with inpainting patches | |
Schenkel et al. | Natural scenes datasets for exploration in 6DOF navigation | |
KR20220011180A (ko) | 체적 비디오 인코딩 및 디코딩을 위한 방법, 장치 및 컴퓨터 프로그램 | |
CN116349224A (zh) | 用于处理多平面图像的技术 | |
Fachada et al. | Chapter View Synthesis Tool for VR Immersive Video | |
Evers‐Senne et al. | Image based interactive rendering with view dependent geometry | |
Waschbüsch et al. | 3d video billboard clouds | |
Duch et al. | Depth map compression via 3D region-based representation | |
US20230072247A1 (en) | Method and device for processing image content | |
Marrinan et al. | Image Synthesis from a Collection of Depth Enhanced Panoramas: Creating Interactive Extended Reality Experiences from Static Images | |
WO2022219230A1 (en) | A method, an apparatus and a computer program product for video encoding and video decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |