CN110192222B

CN110192222B - 根据二维图像组的三维场景重建以用于虚拟现实中的消费

Info

Publication number: CN110192222B
Application number: CN201780083870.1A
Authority: CN
Inventors: 约翰内斯·彼得·科普夫
Original assignee: Meta Platforms Inc
Current assignee: Meta Platforms Inc
Priority date: 2017-01-17
Filing date: 2017-05-09
Publication date: 2023-05-23
Anticipated expiration: 2037-05-09
Also published as: US10038894B1; WO2018136106A1; US20180205941A1; US20180302612A1; CN110192222A

Abstract

为了实现沉浸式体验的更好共享和保存，图形系统根据从不同的有利位置拍摄的场景的一组图像重建三维场景。该系统处理每个图像以从其提取深度信息，且然后将图像(颜色和深度信息)拼接成至少包括前表面层和后表面层的多层全景图。然后将前表面层和后表面层合并以去除冗余并创建在可能表示同一对象的邻近像素之间的连接，同时去除在不表示同一对象的邻近像素之间的连接。可以使用虚拟现实(VR)系统、移动设备、或使用标准渲染技术的其他计算和显示平台来渲染具有深度信息的因而得到的分层全景图，以实现场景的三维观看。

Description

根据二维图像组的三维场景重建以用于虚拟现实中的消费

背景

本公开总体上涉及渲染三维图像，且更具体地涉及根据一组二维图像重建三维场景。

人们拍摄他们所体验的场景的照片，所以他们可以和别人分享他们的体验或者在以后的时间重新体验这个场景。不幸的是，技术限制限制了后续体验在多大程度上被重温。二维图像无法提供在那里的充分的三维体验，且人们通常不随身携带昂贵且笨重的三维照相机。因此，使人们能够捕获场景并以允许人们或朋友在稍后的时间虚拟地沉浸在场景中并重新体验在那里的感觉的方式数字地保存它是有用的。优选地，这与今天用标准电话或照相机拍摄照片一样容易。

概述

一种方法、非暂时性计算机可读存储介质和图像重建系统根据多个二维输入图像生成三维图像。场景的多个输入图像被接收，其中输入图像从不同的有利位置被拍摄。输入图像可以彼此具有不同量的重叠和不同的照相机定向。多个输入图像被处理以生成场景的稀疏重建表示。稀疏重建表示包括指定对应于场景中的对象的表面的三维位置的多个点的位置的稀疏点云。部分地基于稀疏重建表示，多个输入图像被处理以生成多个输入图像中的每一个的相应密集重建表示。在这里，每个相应密集重建表示包括对应输入图像的相应深度图像，其中深度图像包括颜色和深度信息。使用正向深度测试来投影深度图像的前表面以生成多个前翘曲图像(front-warped image)。使用反向深度测试来投影深度图像的后表面以生成多个后翘曲图像(back-warped image)。前翘曲图像和后翘曲图像被拼接以生成具有前表面全景图和后表面全景图的两层全景图。前表面全景图和后表面全景图然后被融合以生成包括适合于在三维空间中渲染场景的多层几何网格(geometric mesh)的三维图像。

特别是在针对方法、存储介质、系统和计算机程序产品的所附权利要求中公开了根据本发明的实施例，其中，在一个权利要求类别(例如方法)中提到的任何特征也可以在另一个权利要求类别(例如系统)中被要求保护。在所附权利要求中的引用关系或后向引用仅为了形式原因而被选择。然而，也可以要求保护由对任何前面的权利要求(特别是多项从属权利要求)的有意后向引用产生的任何主题，使得权利要求及其特征的任何组合被公开并且可被要求保护，而不考虑在所附权利要求中选择的引用关系。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合，而且还包括在权利要求中的特征的任何其他组合，其中，在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外，本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征或与所附权利要求的任何特征的任何组合被要求保护。

在根据本发明的实施例中，一种方法包括：接收从不同的有利位置拍摄的场景的多个输入图像；处理多个输入图像以生成场景的稀疏重建表示，稀疏重建表示包括指定对应于场景中的对象的表面的三维位置的多个点的位置的稀疏点云；部分地基于稀疏重建表示来处理多个输入图像以生成多个输入图像中的每一个的相应密集重建表示，相应密集重建表示各自包括多个输入图像的相应深度图像，深度图像包括颜色和深度信息；使用正向深度测试来投影深度图像的前表面以生成多个前翘曲图像；使用反向深度测试来投影深度图像的后表面以生成多个后翘曲图像；拼接前翘曲图像和后翘曲图像以生成具有前表面全景图和后表面全景图的两层全景图；以及融合在两层全景图中的前表面全景图和后表面全景图以生成包括适合于在三维空间中渲染场景的多层几何网格的三维图像。

处理多个输入图像以生成稀疏重建表示可以包括：将运动恢复表面(surface-from-motion)算法应用于多个输入图像。

处理多个输入图像以生成相应密集重建表示可以包括：生成前近包络(nearenvelope prior)，前近包络将成本分配给在近包络(near envelope)前面的所估计的深度值；以及应用多视图立体处理算法以基于包括前近包络的成本函数来估计深度值。

生成前近包络可以包括：识别在多个输入图像中的具有高置信深度估计的锚像素(anchor pixel)；将锚像素的深度估计传播到多个输入图像中的其他像素以生成近似深度图(depth map)；对近似深度图进行过滤以确定近包络；以及基于深度估计和近包络来生成前近包络。

拼接前翘曲图像和后翘曲图像以生成两层全景图可以包括：使用来自前翘曲图像的深度值来拼接深度全景图；使用来自前翘曲图像的颜色值和来自深度全景图的拼接的深度值来拼接前表面全景图；使用来自后翘曲图像的颜色值和来自深度全景图的拼接的深度值来拼接后表面全景图；以及将前表面全景图和后表面全景图组合成两层全景图。

融合前表面全景图和后表面全景图可以包括：从后表面全景图中移除与在前表面全景图中的相应前景像素匹配的背景像素；存储在深度和颜色信息上满足阈值相似性的邻近像素之间的连接(connection)；以及在缺少像素的位置上产生颜色和深度信息的幻觉(hallucinating)。

在根据本发明的实施例中，一种方法可以包括：为多层几何网格生成法线贴图(normal map)，法线贴图为每个像素估计垂直于由像素描绘的表面的角度。

生成法线贴图可以包括：根据三维图像中的深度值生成基本(base)法线贴图；根据三维图像中的亮度值生成详细法线；以及将详细法线贴图(detailed normal map)转换到基本法线贴图上以生成组合法线贴图。

多个输入图像可以具有不同水平的重叠和定向变化。

在根据本发明的实施例中，非暂时性计算机可读存储介质可以存储指令，当指令被处理器执行时可以使处理器执行步骤，其包括：接收从不同的有利位置拍摄的场景的多个输入图像；处理多个输入图像以生成场景的稀疏重建表示，稀疏重建表示包括指定对应于场景中的对象的表面的三维位置的多个点的位置的稀疏点云；部分地基于稀疏重建表示来处理多个输入图像以生成多个输入图像中的每一个的相应密集重建表示，相应密集重建表示各自包括多个输入图像的相应深度图像，深度图像包括颜色和深度信息；使用正向深度测试来投影深度图像的前表面以生成多个前翘曲图像；使用反向深度测试来投影深度图像的后表面以生成多个后翘曲图像；拼接前翘曲图像和后翘曲图像以生成具有前表面全景图和后表面全景图的两层全景图；融合在两层全景图中的前表面全景图和后表面全景图以生成包括适合于在三维空间中渲染场景的多层几何网格的三维图像。

处理多个输入图像以生成稀疏重建表示可以包括：将运动恢复表面算法应用于多个输入图像。

处理多个输入图像以生成相应密集重建表示可以包括：生成前近包络，前近包络将成本分配给在近包络前面的所估计的深度值；以及应用多视图立体处理算法以基于包括前近包络的成本函数来估计深度值。

生成前近包络可以包括：识别在多个输入图像中的具有高置信深度估计的锚像素；将锚像素的深度估计传播到多个输入图像中的其他像素以生成近似深度图；对近似深度图进行过滤以确定近包络；以及基于深度估计和近包络来生成前近包络。

融合前表面全景图和后表面全景图可以包括：从后表面全景图中移除与在前表面全景图中的相应前景像素匹配的背景像素；存储在深度和颜色信息上满足阈值相似性的邻近像素之间的连接；以及在缺少像素的位置上产生颜色和深度信息的幻觉。

当指令由处理器执行时还可以使处理器执行步骤，其包括：为多层几何网格生成法线贴图，法线贴图为每个像素估计垂直于由像素描绘的表面的角度。

生成法线贴图可以包括：根据三维图像中的深度值生成基本法线贴图；根据三维图像中的亮度值生成详细法线；以及将详细法线贴图转换到基本法线贴图上以生成组合法线贴图。

多个输入图像可以具有不同水平的重叠和定向变化。

在根据本发明的实施例中，系统可以包括：处理器；以及非暂时性计算机可读存储介质，其存储用于生成三维图像的指令，指令当由处理器执行时使处理器执行步骤，其包括：接收从不同的有利位置拍摄的场景的多个输入图像；处理多个输入图像以生成场景的稀疏重建表示，稀疏重建表示包括指定对应于场景中的对象的表面的三维位置的多个点的位置的稀疏点云；部分地基于稀疏重建表示来处理多个输入图像以生成多个输入图像中的每一个的相应密集重建表示，相应密集重建表示各自包括多个输入图像的相应深度图像，深度图像包括颜色和深度信息；使用正向深度测试来投影深度图像的前表面以生成多个前翘曲图像；使用反向深度测试来投影深度图像的后表面以生成多个后翘曲图像；拼接前翘曲图像和后翘曲图像以生成具有前表面全景图和后表面全景图的两层全景图；融合在两层全景图中的前表面全景图和后表面全景图以生成包括适合于在三维空间中渲染场景的多层几何网格的三维图像。

在根据本发明的实施例中，一个或更多个计算机可读非暂时性存储介质可以体现软件，该软件在被执行时可操作来执行根据本发明或任何上面提到的实施例的方法。

在根据本发明的实施例中，系统可以包括：一个或更多个处理器；以及耦合到处理器并包括由处理器可执行的指令的至少一个存储器，处理器在执行指令时可操作来执行根据本发明或任何上面提到的实施例的方法。

在根据本发明的实施例中，优选地包括计算机可读非暂时性存储介质的计算机程序产品当在数据处理系统上被执行时可操作来执行根据本发明或任何上面提到的实施例的方法。

附图简述

图1是示出用于从多个二维输入图像生成三维图像的系统的示例实施例的框图。

图2是示出用于生成场景的稀疏重建表示的过程的实施例的流程图。

图3是示出用于生成场景的密集重建表示的过程的实施例的流程图。

图4是示出用于将多个深度图像融合成多层全景图像的过程的实施例的流程图。

图5是示出用于为多层全景图像生成法线贴图的过程的实施例的流程图。

附图仅为了说明的目的描绘了本公开的实施例。本领域中的技术人员将从下面的描述中容易地认识到，可以采用本文示出的结构和方法的可选实施例而不偏离本文描述的本公开的原理或所宣传的益处。

详细描述

综述

为了实现沉浸式体验的更好共享和保存，图形系统从自不同的有利位置拍摄的场景的一组图像重建三维场景。该系统处理每个图像以从其提取深度信息，且然后将图像(颜色和深度信息)拼接成至少包括前表面层和后表面层的多层全景图。然后将前表面层和后表面层合并以去除冗余并创建在可能表示同一对象的邻近像素之间的连接，同时去除在不表示同一对象的邻近像素之间的连接。可以使用虚拟现实(VR)系统、移动设备、或使用标准渲染技术的其他计算和显示平台来渲染具有深度信息的因而得到的分层全景图，以实现场景的三维观看。

系统架构

图1示出了根据一个实施例的用于从一组图像重建三维场景的系统。如所描绘的，图像捕获系统110(例如，照相机)用于从场景中的不同观察位置拍摄一组图像115，并将图像115输出到三维(3D)照片重建系统120。三维照片重建系统120处理图像115以生成三维可渲染全景图像125。三维可渲染全景图像125被输出到渲染三维图像用于显示的三维渲染器130。在可选的实施例中，可以包括在图1中未明确示出的附加中间部件。例如，图像存储装置(例如，数据库)可以被包括在图像捕获系统110和三维照片重建系统120之间以存储图像115，直到被选择用于处理为止。类似地，图像存储装置可以存在于三维照片重建系统120和三维渲染器130之间以存储可渲染全景图像125。另外，传统的网络部件可以便于在各种系统110、120、130或任何中间部件(例如，存储系统)之间的通信。所示系统110、120、130中的每一个可以包括一个或更多个处理器和存储指令的计算机可读存储介质，所述指令在被执行时使相应系统执行归因于本文描述的系统110、120、130的过程和功能。

图像捕获系统110可以包括能够拍摄场景的一组图像的任何系统，例如独立的消费者照相机或内置到电话或其他移动设备中的照相机。图像捕获系统110还可以包括可佩戴在人身上的照相机，例如在虚拟现实(VR)或增强现实(AR)头戴式耳机中的面向外的照相机。

图像捕获系统110可以以非结构化方式捕获该组图像。例如，每个图像被捕获自的特定位置不需要在精确的已知位置处，并且图像可能具有不同量的重叠或在定向上的差异。此外，所捕获的图像的数量在合理的上限和下限内可以是任意的。在一个示例中，可以通过在拍摄一系列静止图像的同时向旁边(例如，在半臂的长度处)移动图像捕获系统110来拍摄该组图像。在另一个实施例中，图像可以由位于不同位置处的多个不同的照相机拍摄。通常，为了形成所捕获的场景的紧密结合的表示(cohesive representation)，至少一些图像可以与一个或更多个其他图像重叠。因此，由图像捕获系统110捕获的图像可以以简单的用户友好方式快速被捕获而不需要关于如何定位照相机的特殊设备或专业知识。

图像捕获系统110还可以包括耦合到照相机的软件，该软件例如通过引导用户拍摄足够数量的图像来帮助用户捕获图像。为此目的，软件可以使用在图像捕获系统中的运动或位置传感器来记录针对每个图像的捕获的近似相对位置，并且可能有助于在捕获图像时引导用户。

图像捕获系统110可以此外包括用于从更大的图像集合中选择适合于由三维照片重建系统120处理的一组图像的软件。例如，在一个实施例中，旨在重建成三维可渲染图像的图像可以用元数据标记，以指示它们特别为了这个目的作为图像捕获序列的一部分而被捕获。可选地，图像捕获系统110可以基于多个标准来选择性地确定适合于重建的图像，例如在时间阈值内或者在到某个位置的物理接近度内被捕获。可以从离散图像或从由图像捕获系统110捕获的视频的帧中选择图像。

图像捕获系统110可以包括可以由单独的用户操作来捕获场景的图像的多个照相机。图像可以被存储到公共数据库，并且可以被处理以用来自单个照相机的图像可以被处理的相同方式来选择合适的图像。例如，在一个情形中，多个用户可以上传图像，使得几个用户可以共享由其他人捕获的图像并使用所共享的图像来重建场景。在社交网络环境中，社交关连(connection)可以用于确定哪些图像对其他人是可用的。例如，用户可以设置隐私设置以指示哪些其他用户可以访问并使用他们的图像，这可以基于在用户之间的社交关系来被设置。

在该组图像由三维照片重建系统使用之前，可以对图像执行一个或更多个预处理任务。例如，图像可以被转码(transcode)成预定义的格式和文件质量。

该组图像然后被提供给三维(3D)照片重建系统120，其将该组图像转换成具有多个层和深度信息的三维可渲染全景图像。三维照片重建系统120包括用于执行这个转换任务的几个功能模块，包括稀疏重建模块122、密集重建模块124、两层融合模块126和法线贴图估计模块128。稀疏重建模块122处理输入图像115以生成场景的稀疏重建表示。密集重建模块124然后使用稀疏重建表示来为输入图像115的每一个生成深度图。密集重建模块124可以应用修改的多视图立体算法，其相对于在该上下文中执行的传统算法导致改进的深度估计。一旦深度信息被密集重建模块124增加密度，包括图像的原始集合和它们的相应深度图的深度图像就被提供给两层融合模块126。两层融合模块126将深度图像合并成包括例如由三维渲染器130可渲染的两层全景图网格的多层全景图。法线贴图估计模块128估计两层全景图网格的表面的法线，渲染器130可以使用该法线来向所渲染的图像添加各种效应，例如照明或泛光效应(flooding effect)。由这些模块中的每一个执行的过程将在下面更详细地被描述。

一旦三维可渲染全景图像被构建，它就可以被渲染用于由三维渲染器130查看。三维渲染器130可以包括例如虚拟现实(VR)系统、移动设备、或可以使用标准渲染技术来显示所渲染的三维内容的其他计算和显示平台。

三维照片重建

稀疏重建

图2示出了由稀疏重建模块122执行的用于从多个输入图像生成稀疏重建表示的过程的实施例。多个输入图像被接收202。输入图像包括二维图像，该二维图像可以被预先选择为适合于重建成三维图像的图像。通常，输入图像包括从不同的有利位置捕获的场景的一组图像，至少一些输入图像与场景的其他图像重叠。

稀疏重建模块将运动恢复结构算法应用204于输入图像，该算法从其到该组输入图像内的投影重建三维结构。可适合于这个目的的运动恢复结构算法的示例是COLMAP。根据运动恢复结构算法的结果，稀疏重建模块122输出206可以包括每个图像的一组照相机姿态和在图像中描绘的场景的点云近似的稀疏重建表示。在这里，对于每个图像，该组照相机姿态可以包括内在照相机参数(例如焦距、图像传感器格式和主点)以及表示当图像被捕获时照相机(相对于场景)的位置和定向的外在照相机参数。点云包括在三维空间中的表示在场景中检测到的对象的外表面的一组稀疏数据点。

密集重建

图3示出了由密集重建模块124执行的用于使用前近包络来生成密集重建表示的过程的实施例。由该过程提供的密集重建表示包括对应于原始输入图像的多个深度图像。深度图像包括来自相应原始输入图像的颜色信息并且包括每个图像的深度图，该深度图针对每个像素指示在给定图像的视点的情况下，到在由该像素描绘的场景中的对象的表面的所估计的距离。

在实施例中，可以通过首先计算310前近包络且然后应用320修改的平面扫描多视图立体(MVS)算法来实现生成密集重建表示，该MVS算法包括前近包络重建作为附加成本函数。在传统的MVS算法中，近深度假设(near-depth hypotheses)可能是有噪声的，因为这些点在较少的图像中被看到，且因此照片一致性度量是不太可靠的。该不可靠性使现有的MVS算法更有可能成为常见立体陷阱(stereo pitfall)(例如在场景中的重复结构、轻微的场景运动、或具有视野相关(闪亮的)外观的材料)的牺牲品。如下所述，前近包络重建解决了这些限制。

MVS算法将深度估计看作能量最小化问题，其通过求解下面的问题来优化像素深度d_i：

其中i是像素以及c_i是它的颜色。平滑项(smoothness term)E_平滑是颜色差成本和深度差成本的乘积，

E_平滑(i，j)＝w_颜色(c_i，c_j)w_深度(d_i，d_j)， (2)

其中w_颜色是在颜色c_i和c_j之间的颜色差成本，以及w_深度是在深度d_i和d_j之间的深度差成本。平滑项E_平滑支持深度图在图像缺乏纹理的地方是平滑的。数据项组合三个成本：

E_数据(i)＝E_照片(i)+E_天空(i)+E_sfm(i)。 (3)

照片一致性项E_照片估量在像素与它到多个其他图像的投影之间的在外观上的一致。前天空(sky prior)E_天空对由天空检测器分类为可能是天空的一部分的像素支持大深度。前运动恢复结构E_sfm支持结果保持接近于稀疏重建。

密集重建模块124离散化潜在深度标号(depth label)，并使用平面扫描立体算法来为每个像素构建具有深度假设的成本量。虽然这将算法限制到没有法线的重建离散深度，但它具有它可以使用马尔可夫随机场(MRF)解算器来提取全局优化解的优点，该解算器常常可以使用它的平滑项来恢复无纹理区域的似乎合理的深度(plausible depth)。密集重建模块124例如为了性能原因使用FastPD库，以降低的分辨率来优化MRF。密集重建模块124然后利用联合双边上采样滤波器(例如，使用加权中值滤波器)来将结果提升到全分辨率，而不是平均化以防止在深度不连续点处引入错误的中间值。

近包络是对在每个像素处的像素深度的保守但严格的下界n_i的估计。该边界用于通过增加等式(3)中的数据项(E_数据(i))来阻止附近的错误深度以在总和中包括下面的附加成本项：

其中λ_近是预定义的参数(例如，λ_近＝1)。附加成本项E_近对比近包络更近的重建深度进行惩罚，因而减少或消除在深度图中的错误的低深度估计。

为了计算近包络n，密集重建模块124首先用可靠的深度估计来识别(302)锚像素。密集重建模块124从两个源计算锚：(1)立体匹配，其中它是可靠的，以及(2)在稀疏重建期间已经在点云中被计算的点特征。已知立体匹配在强图像梯度处工作良好。这通过计算无足轻重的MVS结果并仔细考虑在锚的图像边缘周围的像素来被使用。密集重建模块124通过独立地计算每个像素的E_数据的最小值(例如从等式1中丢掉平滑项)来获得噪声深度图。密集重建模块124使用具有积极设置(aggressive setting)的几何一致性滤波器来丢弃不正确地估计的深度值的相当大的部分。边缘检测器用于计算边缘掩模。如果图像边缘与深度边缘重合，则确保属于前层的深度被选择是合乎需要的。这可以通过将边缘掩模扩大1个像素并将5x5形态最小滤波器应用于在检测到的边缘内部的被掩模的像素来被实现。除了从立体计算的这些锚之外，密集重建模块124还将在图像中观察到的所有稀疏点特征添加到锚像素的集合中。

密集重建模块124将锚像素的深度传播304到剩余像素以生成近似深度图。稀疏锚深度通过对一阶泊松系统(类似于在彩色化算法中使用的系统)进行求解来扩展到剩余像素：

其中x’_i是锚像素的深度(在被定义的地方)，并且x_i是被求解的密集传播的深度，

是基于颜色的亲和度项(affinity term)，以及w_i是表示在每个锚中的置信度的一元权重项：

密集重建模块124然后过滤306近似深度图以确定近包络。例如，密集重建模块124通过将传播的深度乘以常数因子(例如，0.6)并随后应用具有被设置为图像对角线的大约10％的直径的形态最小滤波器来使传播的深度变得更加保守。它们通过使用宽高斯核(σ被设置为对角线的大约5％)进行平滑来被进一步整理。然后基于上面的等式(4)根据近包络n计算308前近包络E_近(i)。

双层融合

图4示出了由两层融合模块126执行来生成两层全景图的过程的实施例。在这里，两层融合模块126通过将每个深度图三角化成栅网(grid-mesh)并利用正常光栅化流水线(rasterization pipeline)渲染它来将每个深度图翘曲成中心全景图像(使用等距矩形投影(equirectangular projection))，当多个点落到同一全景图上时让深度测试选择前表面。该任务的简单方法的一个问题是在连接前景和背景像素的深度不连续点处的长拉伸的三角形可能遮蔽其他好的内容，并且在拼接中包括它们在任何情况下都是不合乎需要的。这个问题可以通过在深度测试之前将光栅化片段的z值与拉伸惩罚(stretch penalty)s∈[1，1]混合来解决，z’＝(z+s)/2。除以2将值z’保持在归一化裁剪空间中。拉伸惩罚，

从原始视点考虑掠射角(grazing angle)α，并惩罚低于τ_拉伸(例如，τ_拉伸＝1.66°)的小值，即，几乎平行于三角形表面的射线。这个修改将高度拉伸的三角形向后推，因此潜在地较少拉伸的后表面相反可以胜出。

因为系统操作来不仅重建第一可见表面，而且重建几个深度层，它为每个图像生成第二后表面翘曲。生成这些的一种可能的方式是深度剥离(depth peeling)；然而，这种方法最适合于可能依赖于有可得到的非常准确的深度图的系统。替代地，可以通过假设在拼接之前使用不同的深度测试的两个和投影表面的深度复杂性来实现具有不太可靠的深度图的更鲁棒的结果。

在图4的过程中，首先对深度测试使用z’来将每个深度图的最前面的表面投影402成等距矩形投影以生成每个深度图像的前翘曲图像。对深度测试使用z”＝1-z’来将每个深度图的最后面的表面投影404成等距矩形投影，有效地反转它。

一旦深度图被翘曲成公共透视图(或照相机姿态)，两层融合模块126就可以将翘曲的图像拼接成前表面全景图和后表面全景图。对于包围曝光(exposure bracket)被捕获的场景，这是所有曝光被融合的地方。颜色使用原始伽马(naive gamma)＝2.2假设被线性化，并与适当的曝光因子相乘。

可以通过求解离散像素标记问题来执行上述拼接，其中在全景图中的每个像素i从翘曲源之一中选择标号α_i。可以通过最小化成本函数的能量来选择标号，该成本函数可以取决于例如立体置信度权重、三角形拉伸权重、曝光惩罚(exposure penalty)和深度惩罚、成对颜色匹配和深度视差(depth disparity)。

例如，在一个实施例中，两层融合模块126拼接406前翘曲深度图像的深度图以生成仅深度全景图。为了拼接深度全景图，两层融合模块126优化这个目标：

立体数据项支持选择像素(其深度以高置信度被估计)。两层融合模块126使用下式的最大似然度量：

但是只针对通过几何一致性测试的像素。对于不一致的像素，两层融合模块126设置

三角形拉伸项阻止从长“橡皮板(rubber sheet)”三角形中选择像素：

颜色平滑项是来自“GraphCut纹理”的接缝隐藏成对成本的缩减版本(truncatedversion)：

以及视差平滑项是类似的缩减项：

通过对等式8求解得到深度拼接之后，两层融合模块126使用它来约束随后的前和后颜色拼接。在这里，两层融合模块126使用颜色值来将前翘曲图像拼接408成前景全景图。两层融合模块126将后翘曲图像拼接410成背景全景图。在执行这些拼接时，两层融合模块126添加约束颜色曝光和深度选择的两个附加数据项：

所有惩罚

都是0，除了在下面的条件中以外。如果像素曝光过度(除了在最暗包围(darkest bracket)中以外)或曝光不足(除了在最亮包围中以外)，则曝光惩罚

为1。对于前和后颜色拼接，深度惩罚

可以不同地被设置。例如，对于前颜色拼接，它只有在像素的深度不在深度拼接的[0.95，1/0.95]倍内时才被设置为1。对于后颜色拼接，它只有在像素的深度小于深度拼接的I/0.95倍时才被设置为1。

在实施例中，两层融合模块126设置下面的平衡系数：

λ₁＝5，λ₂＝50，λ₃＝λ₄＝25，λ₅＝100，λ₆＝75， (14)

以及使用α扩展算法在减小的512x256分辨率下对标号问题求解，并使用简单的基于PatchMatch的上采样算法来将因而得到的标号映射(label map)向上采样到全分辨率(8192x4096个像素)。

所拼接的深度全景图偶尔仍包含小的浮动元素。两层融合模块126通过首先使用深度比测试识别在邻近像素之间的强深度不连续点，然后找到具有少于4096个像素的小的不连贯分量并通过用中值滤波器填充它们的深度而去除它们来对它们“去斑(despeckle)”。此外，用联合双边滤波器来使深度图平滑，该滤波器的核是穿过上面计算的不连续点的切口。

一旦前全景图和后全景图被生成，两层融合模块126就然后将前景全景图和背景全景图融合412成两层表示。为了完成这个，两层融合模块126将两层全景图表示为图形。在全景图中的每个像素i具有表示前景层和背景层的多达两个节点。如果它们存在，则它们分别表示为f_i和b_i。每个节点n具有深度值d(n)和前景/背景标号l(n)∈{F，B}。两层融合模块126独立地为前全景图和后全景图生成完全4连通的但不相交的网格图(grid-graph)。每个节点根据全景图被分配深度和标号，它从该全景图被绘制。这些图形包含一些场景对象的冗余覆盖，但这是完全有意的且对于去除在深度连续点周围的彩色条纹将是有用的。两层融合模块126通过移除所有b_i节点来移除冗余，b_i节点也类似于它们的f_i对应物(counterpart)，即，d(f_iR)/d(b_i)＜τ_dratio＝0.75。

结果不是冗余的，但是现在b图形包含许多隔离的部件，以及f图形包含跨越不连续点的长连接。然后重新计算连接性。对于每对邻近像素，两层融合模块126考虑所有f和b节点，如果它们存在的话。两层融合模块126还考虑来自i和j的所有节点对，并根据它们的深度比来对它们进行排序，最相似的是第一个。然后，如果深度比高于τ_dratio，它连接最相似的对。如果有可以被连接的另一对，则它被连接，除非这样的连接将跨越边缘。

至此，两层融合模块126已经生成了连接良好的两层图形。底层包含一些额外的内容，但是大的平移仍然可以暴露洞。底层接着被扩大以进一步产生深度和颜色的幻觉。两层融合模块126以迭代方式扩大底层，一次一个像素环。在每次迭代中，两层融合模块126识别没有在一个方向上连接的b和f节点。它暂时为这些像素创建新的候选邻居节点，并将它们的深度和颜色设置为大量产生它们的节点的平均值。候选节点只有在它们不与已经存在的节点冲突(使用τ_dratio)时并且在它们连接到大量产生它们的节点时才会被保留。

法线贴图估计

在三维重建流水线中的可选步骤是计算法线贴图。在一个实施例中，目标仅仅是计算对于简单的艺术家推动(artist-driven)的照明效应看起来似乎合理且足够好的法线，而不是场景的准确法线贴图。在图5中示出了生成法线贴图的过程。在该实施例中，法线贴图估计模块128从在两层全景图中的深度值来生成502第一(基本)法线贴图，该第一(基本)法线贴图相对于表面斜率但不是在每个表面上的纹理是准确的。法线贴图估计模块128还从亮度值生成504第二(细节)法线贴图，该第二(细节)法线贴图具有艺术上推动的表面细节以响应于照明而产生期望的效果。法线贴图估计模块128然后将第二法线贴图(具有纹理细节)转换506到第一法线贴图(具有准确的定向)上以获得组合法线贴图，其服务于场景的良好近似。

在一个实施例中，基本法线贴图是分段平滑的，但在深度边缘处是不连续的，并且包含正确的表面斜率。通过用由深度图引导的导向滤波器(guided filter)过滤深度法线来计算这个法线贴图。可以使用对应于大约17.5度的立体角(solid angle)的宽窗口尺寸。

为了生成细节图，法线贴图估计模块128从亮度图像产生幻觉，通过仅从图像数据产生深度图的幻觉来估计法线贴图，假设表面深度与图像强度成反比地相关。虽然以这种方式生成的深度是高度近似的，但它与图像数据完全一致，并提供用于恢复几何细节变化的惊人地有效的手段。

两个法线贴图然后被组合。对于具有极角和方位角(θ，φ)的给定像素，n_f是通过将导向滤波器应用于深度法线而获得的法线，以及n_i是从基于图像的估计方法获得的法线。R_s是基于图像的法线的局部坐标系。它通过将第一行设置为径向向外指向的向量，

R_s，0＝(sinθcosφ，cosθ，sinθsinφ)， (15)

以及通过与世界向上(world up)向量w_up的叉乘积来设置其他行，

来被得到。

通过设置R_f，0＝-nf和类似于等式16的其他行来为过滤后的深度法线定义类似的坐标系R_f。然后，法线贴图估计模块128如下传送细节：

因而得到的法线贴图然后可以用两层网格被提供到3D渲染系统130用于由另一个用户观看。

总结

为了说明的目的，已经提供了本发明的实施例的前述描述；它并不旨在是详尽的或将本发明限制到所公开的精确形式。相关领域中的技术人员可以认识到，根据上述公开，许多修改和变化是可能的。

本描述的一些部分从算法和对信息的操作的符号表示方面描述本发明的实施例。这些算法描述和表示通常由在数据处理领域中的技术人员使用，来将他们的工作的实质有效地传达给本领域中的其他技术人员。这些操作(虽然在功能上、计算上或逻辑上被描述)被理解为由计算机程序或等效电路、微代码等实现。此外，在不失一般性的情况下，将操作的这些布置称为模块有时也被证明是方便的。所描述的操作及其相关联模块可以体现在软件、固件、硬件或其任何组合中。

本文描述的任何步骤、操作或过程可以使用一个或更多个硬件或软件模块单独地或与其他设备组合来被执行或实现。在一个实施例中，软件模块用包括包含计算机程序代码的计算机可读介质的计算机程序产品来实现，该计算机程序代码可以由用于执行所描述的任何或所有步骤、操作或过程的计算机处理器执行。

本发明的实施例还可以涉及用于执行本文的操作的装置。该装置可以为了所需目的被特别构建，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这种计算机程序可以存储在有形计算机可读存储介质或适合于存储电子指令并且耦合到计算机系统总线的任何类型的介质中。此外，在说明书中提到的任何计算系统可以包括单个处理器，或者可以是为了提高的计算能力而采用多处理器设计的体系结构。

本发明的实施例还可以涉及体现在载波中的计算机数据信号，其中计算机数据信号包括本文描述的计算机程序产品或其他数据组合的任何实施例。计算机数据信号是呈现在有形介质或载波中并在载波中被调制或以另外方式编码，并根据任何合适的传输方法被传输的产品。

最后，在说明书中使用的语言主要是为了可读性和教学目的而被选择，并且它可能没有被选择来描绘或限制创造性主题。因此意图是本发明的范围并不由这个详细描述限制，而是由在基于此的申请上发布的任何权利要求限制。

Claims

1.一种方法，包括：

接收从不同的有利位置拍摄的场景的多个输入图像；

处理所述多个输入图像以生成所述场景的稀疏重建表示，所述稀疏重建表示包括指定对应于所述场景中的对象的表面的三维位置的多个点的位置的稀疏点云；

部分地基于所述稀疏重建表示来处理所述多个输入图像以生成所述多个输入图像中的每一个的相应密集重建表示，所述相应密集重建表示各自包括所述多个输入图像的相应深度图像，所述深度图像包括颜色和深度信息；

使用正向深度测试来投影所述深度图像的前表面以生成多个前翘曲图像；

使用反向深度测试来投影所述深度图像的后表面以生成多个后翘曲图像；

拼接所述前翘曲图像和所述后翘曲图像以生成具有前表面全景图和后表面全景图的两层全景图；以及

融合在所述两层全景图中的所述前表面全景图和所述后表面全景图，以生成包括适合于在三维空间中渲染所述场景的多层几何网格的三维图像。

2.根据权利要求1所述的方法，其中，处理所述多个输入图像以生成所述稀疏重建表示包括：

将运动恢复结构算法应用于所述多个输入图像。

3.根据权利要求1所述的方法，其中，处理所述多个输入图像以生成所述相应密集重建表示包括：

生成前近包络，所述前近包络将成本分配给在近包络前面的估计的深度值；以及

应用多视图立体处理算法以基于包括所述前近包络的成本函数来估计所述深度值。

4.根据权利要求2所述的方法，其中，处理所述多个输入图像以生成所述相应密集重建表示包括：

5.根据权利要求3或4所述的方法，其中，生成所述前近包络包括：

识别在所述多个输入图像中的具有高置信深度估计的锚像素；

将所述锚像素的所述深度估计传播到所述多个输入图像中的其他像素以生成近似深度图；

对所述近似深度图进行过滤以确定近包络；以及

基于所述深度估计和所述近包络来生成所述前近包络。

6.根据权利要求1到4中任一项所述的方法，其中，拼接所述前翘曲图像和所述后翘曲图像以生成两层全景图包括：

使用来自所述前翘曲图像的深度值来拼接深度全景图；

使用来自所述前翘曲图像的颜色值和来自所述深度全景图的拼接的深度值来拼接所述前表面全景图；

使用来自所述后翘曲图像的颜色值和来自所述深度全景图的所述拼接的深度值来拼接所述后表面全景图；以及

将所述前表面全景图和所述后表面全景图组合成所述两层全景图。

7.根据权利要求5所述的方法，其中，拼接所述前翘曲图像和所述后翘曲图像以生成两层全景图包括：

使用来自所述前翘曲图像的深度值来拼接深度全景图；

8.根据权利要求1到4和7中任一项所述的方法，其中，融合所述前表面全景图和所述后表面全景图包括：

从所述后表面全景图中移除与在所述前表面全景图中的相应前景像素匹配的背景像素；

存储在深度和颜色信息上满足阈值相似性的邻近像素之间的连接；以及

在缺少像素的位置上产生颜色和深度信息的幻觉。

9.根据权利要求1到4和7中任一项所述的方法，还包括：

为所述多层几何网格生成法线贴图，所述法线贴图为每个像素估计垂直于由所述像素描绘的表面的角度。

10.根据权利要求9所述的方法，其中，生成所述法线贴图包括：

根据所述三维图像中的深度值生成基本法线贴图；

根据所述三维图像中的亮度值生成详细法线贴图；以及

将所述详细法线贴图转换到所述基本法线贴图上以生成组合法线贴图。

11.根据权利要求1到4、7和10中任一项所述的方法，其中，所述多个输入图像具有不同水平的重叠和定向变化。

12.一种存储指令的非暂时性计算机可读存储介质，所述指令当由处理器执行时使所述处理器执行步骤，所述步骤包括：

接收从不同的有利位置拍摄的场景的多个输入图像；

拼接所述前翘曲图像和所述后翘曲图像以生成具有前表面全景图和后表面全景图的两层全景图；

13.根据权利要求12所述的非暂时性计算机可读存储介质，其中，处理所述多个输入图像以生成所述稀疏重建表示包括：

将运动恢复结构算法应用于所述多个输入图像。

14.根据权利要求12所述的非暂时性计算机可读存储介质，其中，处理所述多个输入图像以生成所述相应密集重建表示包括：

15.根据权利要求13所述的非暂时性计算机可读存储介质，其中，处理所述多个输入图像以生成所述相应密集重建表示包括：

16.根据权利要求14或15所述的非暂时性计算机可读存储介质，其中，生成所述前近包络包括：

对所述近似深度图进行过滤以确定近包络；以及

基于所述深度估计和所述近包络来生成所述前近包络。

17.根据权利要求12到15中任一项所述的非暂时性计算机可读存储介质，其中，拼接所述前翘曲图像和所述后翘曲图像以生成两层全景图包括：

使用来自所述前翘曲图像的深度值来拼接深度全景图；

18.根据权利要求16所述的非暂时性计算机可读存储介质，其中，拼接所述前翘曲图像和所述后翘曲图像以生成两层全景图包括：

使用来自所述前翘曲图像的深度值来拼接深度全景图；

19.根据权利要求12到15和18中任一项所述的非暂时性计算机可读存储介质，其中，融合所述前表面全景图和所述后表面全景图包括：

在缺少像素的位置上产生颜色和深度信息的幻觉。

20.根据权利要求12到15和18中任一项所述的非暂时性计算机可读存储介质，其中，所述指令当由处理器执行时还使所述处理器执行包括以下操作的步骤：

21.根据权利要求20所述的非暂时性计算机可读存储介质，其中，生成所述法线贴图包括：

根据所述三维图像中的深度值生成基本法线贴图；

根据所述三维图像中的亮度值生成详细法线贴图；以及

22.根据权利要求12到15、18和21中任一项所述的非暂时性计算机可读存储介质，其中，所述多个输入图像具有不同水平的重叠和定向变化。

23.一种系统，包括：

处理器；以及

非暂时性计算机可读存储介质，其存储用于生成三维图像的指令，所述指令当由处理器执行时使所述处理器执行步骤，所述步骤包括：

接收从不同的有利位置拍摄的场景的多个输入图像；

融合在所述两层全景图中的所述前表面全景图和所述后表面全景图以生成包括适合于在三维空间中渲染所述场景的多层几何网格的三维图像。

24.根据权利要求23所述的系统，其中，所述指令当由处理器执行时使所述处理器执行根据权利要求2到11中的任一项所述的方法的步骤。

25.根据权利要求23或24所述的系统，其中，拼接所述前翘曲图像和所述后翘曲图像以生成两层全景图包括：

使用来自所述前翘曲图像的深度值来拼接深度全景图；