CN110462686A

CN110462686A - 用于从场景获得深度信息的设备和方法

Info

Publication number: CN110462686A
Application number: CN201780089095.0A
Authority: CN
Inventors: J·V·布拉斯科克拉雷特; C·蒙托柳阿尔瓦罗; I·维尔吉利奥派利诺; A·马丁内斯尤斯欧
Original assignee: Foster Sensing And Algorithms Co
Current assignee: Foster Sensing And Algorithms Co
Priority date: 2017-02-06
Filing date: 2017-02-06
Publication date: 2019-11-15
Anticipated expiration: 2037-02-06
Also published as: ES2747387A2; US20200134849A1; CN110462686B; JP2020506487A; JP6974873B2; ES2747387R1; US11145077B2; ES2747387B1; WO2018141414A1

Abstract

公开了一种用于从场景获得深度信息的方法，其中方法包括以下步骤：a)在拍摄的时间期间用至少一个相机获取场景的多个图像，其中多个图像提供场景的至少两个不同的视图；b)对于步骤a)的每个图像，同时获取关于参考六轴参考系统的图像的位置的数据；c)从步骤b)的图像中选择至少两个图像；d)校正在步骤c)所选择的图像，从而生成校正的图像的集合；以及e)从校正的图像生成深度图。此外用于执行所公开的方法的装置。

Description

用于从场景获得深度信息的设备和方法

技术领域

本发明涉及数字图像处理领域，并且更具体地，涉及用于从图像生成深度图和估计距离的方法和系统。

背景技术

从图像中恢复3D信息是计算机视觉中广泛研究的问题，在机器人、场景理解和3D重建中具有重要应用。深度图估计主要通过处理场景的多于一个的视图(通常两个视图)来获得，或者是通过用一个设备拍摄的场景的若干图像，或者是通过使用若干设备(通常是立体相机配置中的两个相机)拍摄的若干图像。这已知为多视图(或在两个相机或两个视图的情况下的立体视觉)并且是基于三角测量技术的。提取物点的深度信息的一般方法是测量在场景的若干所捕获的图像上这个点的图像的位移。位移或视差(disparity)与物体的实际深度直接相关。为了获得点的视差，有必要在其余的视图中(或至少在两个视图中)识别同一点的位置。这个问题通常使用对应算法来解决，该对应算法是图像处理研究领域中众所周知的处理。然而，与本文件提出的发明相比，立体视觉技术存在两个相关的弱点：第一具有(至少)两个相机的需要是许多情况中重要的限制，以及第二是立体方法在计算上昂贵得多的事实，因为它们通常需要计算密集的对应算法(匹配来自两个或更多个图像的图案)。

具有多个设备或拍摄场景的多张照片的替代选择将是使用全光相机。全光相机是成像设备，该成像设备不仅能够捕获被称为光场的结构中的空间信息，还能够捕获被称为光场的结构中的角度信息。全光相机通常包括主透镜(或等效于所述主透镜的透镜的集合)、微透镜阵列(MLA)和传感器。

飞行时间(ToF)相机产生深度图，该深度图可以直接被用于估计物体世界的3D结构，而不用传统的计算机视觉算法的帮助。ToF相机通过测量反射的由相机本身先前发射的红外(IR)光的相位延迟来工作。虽然已经存在于一些移动设备中，但是这技术仍然远未被接受作为常见的能力，因为它具有高得多的体积和功耗的事实(成像相机、IR发射器和IR相机，以及匹配两相机之间的图像的处理)，另外，用技术上可行的红外发射器可以区分的距离是非常有限的，并且晴天期间的露天条件进一步限制了它的使用，因为来自日光的大光功率掩蔽了IR传感器。

移动设备通常包含至少一个相机用于拍摄静止图像和视频。集成在移动设备中的相机向用户提供了许多能力，然而，在这些能力当中，当仅有一个相机可用时，制造商不能提供场景的真实深度图。

存在仅从单个静止图像作为输入来考虑深度估计的任务的方法，大多数时候是基于已知为恒定尺寸的物体的尺寸减小和透视的启发式解释。然而，这些方法做出的假设经常无法概括所有可能的图像场景，诸如假设场景的特定视角。它们也基于关于场景的先验知识的使用；该关于场景的先验知识一般是高度不现实的假设。以这种方式获得的深度图虽然对其它任务有用，但是将总是固有地不完整，并且不足够准确以产生视觉上舒适的3D图像。

从图像获得3D信息的另一方法是合成孔径积分成像(SAII)。这方法需要相机阵列(或模拟相机阵列的相机的机械移动模拟拍摄连续照片)，用阵列的不同点处的相机获得多个高分辨率视角。

本发明以新颖的方式在立体摄影中使用来自被先前技术使用的方法中的一些概念：在立体摄影中的第一步骤是相机的“校准”(由于相机被假设为已经被校准的事实，在我们的发明中可以避免该步骤)，第二步骤被称为“校正”(其中来自立体对中的两个相机的图像被充分地处理，以推断图像，如果立体对的两个相机是完全对准和共面的，那么所述图像将被记录)，我们的发明中的“相机校正”在立体成像中所做的是非常不同的，并且在后面被详细描述。立体摄影中的第三步骤是“对应”，处理以识别已经“校正”的立体对的两个图像中的图案(pattern)，以然后执行三角测量来计算到物体世界(object world)的距离和构成3D图像。描述“相机校准”、“图像的校正”和“视图之间的对应”(通常两个视图)的三个步骤通常被称为“配准(registration)”。发明使用相同的术语，但是“对应”和“校正”(以及因此“配准”)的处理不同于先前技术，即，不同于立体相机或多视图相机。

所提出的发明设想这样的情况，其中用户想要以单次拍摄获取并实时地从常规相机获得高分辨率的深度图。本发明利用在拍摄的时间期间相机遭受的移动，这种移动记录于由例如加速度计和陀螺仪设备(在撰写这个专利时在几乎任何移动电话中存在这样的设备)提供的数据。本文所提出的图像处理在所需要的图像的数目(因此相机的数目)、计算效率和功率要求方面改善了3D视觉的当前技术状况的方法。另一方面，本发明在空间分辨率和所得深度图中的大深度的可靠性方面改善了基于全光相机的方法。

发明内容

本文所描述的处理方法实现了通过具有单个常规相机的移动设备所捕获的若干图像之间的极度简化的对应算法，该若干图像被连续地捕获，并且可以通过使用加速度计、陀螺仪或集成在移动设备、汽车或任何移动物体中的这种类型的任何其它能力来计算已捕获的每个图像的位置。一旦执行了图像之间的对应匹配，图像就被用于创建场景的密集深度图。通过手持移动设备在单次拍摄中拍摄图像，可以在拍摄发生的时间流逝期间检测和处理移动设备的移动。该移动可以通过手的固有移动(手震颤)、通过来电的振动(方便地被编程为在拍摄照片或视频时振动)或因为相机在移动的物体(例如交通工具或汽车)上或因为用户在移动而产生。本文所描述的方法可以被有效地并行化，目的是在并行处理器和/或GPU(越来越广泛地使用)以及用于电池操作的移动设备的特定并行处理器中实现它们。发明提供了用于视频记录的实时处理。

对于本发明的描述，后文中将考虑以下定义：

-全光(plenoptic)相机：不仅能够捕获空间位置而且能够捕获入射光线的到达方向的设备。

-光场：包含来自光的信息的四维结构LF(px，py，lx，ly)，该光被全光相机或合成孔径积分成像系统中的微透镜(lx，ly)下方的像素(px，py)捕获。

-深度：场景的物点的平面与相机的主平面之间的距离，两个平面均垂直于光轴。

-极图像(epipolar image)：通过选择(py，ly)(水平极(horizontal epipolar))或(px，lx)(垂直极(vertical epipolar))的某个值构成的光场结构的二维切片，如图3中所描述的。

-极线(epipolar line)：与物体世界中的图像边缘对应的极图像内的连接的像素的集合。

-全光视图：由通过选择某个值(px，py)取光场结构的切片形成的二维图像，对于每个微透镜(lx，ly)取相同的(px，py)。

-深度图(depth map)：其中将物体世界的计算的深度值(dz)作为附加值添加到二维图像的每个位置(dx，dy)，构成(dx，dy，dz)的二维图像。深度图的每个像素编码到场景中对应点的距离。

-微透镜阵列(MLA)：小透镜(微透镜)的阵列。

-微图像：在传感器上由某微透镜产生的主孔径的图像。

-基线：两个图像(由全光或常规相机或任何相机拍摄)的孔径的中心之间的距离。

-立体匹配(stereo matching)(也称为对应算法)：这个术语涉及这样的处理：给定同一场景的两个图像，知晓一个图像的哪些像素表示第二个图像的像素中该场景的相同的点。可以用人眼进行类比，那么问题是左眼看到的哪些点对应于右眼看到的哪些点。

-拍摄(shoot)：出于拍摄照片的目的按下按钮的动作。在这个事件期间最终可以获得许多帧。

-已拍摄(shot)：出于拍摄照片的目的已按下按钮的动作。

-曝光：如果相机传感器的孔径(aperture)被打开，那么相机传感器被暴露于入射光，允许光进入相机。

-加速度计：记录其附接到的结构的移动的线性加速度的设备(通常在x、y、z方向上)。

-陀螺仪：提供通常被称为三旋转轴(俯仰、滚动和偏航；与加速度计中的x、y和z相反)的角旋转加速度的设备(与加速度计的线性加速度相反)。

-IMU和AHRS：惯性测量单元(IMU)以及姿态和航向参考系统(AHRS)是通过使用加速度计和陀螺仪(有时还有磁力计)的组合来监视和报告物体的比力(specific force)、角速率、以及有时体周围的磁场的电子设备。IMU和AHRS通常被用在包括无人驾驶飞行器(UAV)的飞机以及包括潜艇和无人驾驶水下航行器(UUV)的船舶内。惯性测量单元(IMU)与AHRS之间的主要区别是在AHRS中添加了机载(on-board)处理系统(例如，该机载处理系统可以包括微处理器和存储器)，与仅提供传感器数据到计算姿态和航向的附加设备的IMU相比，该AHRS提供姿态和航向信息。

-速度计：测量和指示随时间的物体的位置的改变(速度)的仪器。GPS：全球定位系统(GPS)是借助于向GPS接收器提供地球定位和时间信息的卫星的使用的全球导航系统。

-图像校正：在本发明的上下文中，通过移动其3维几何已知的相机，将2维投影变换应用于在不同时刻获得的图像的处理，使得原始图像中的线和图案(参考于六轴参考系统[x'，y'，z'，俯仰'，滚动'和偏航']，其中移动的相机在一定量的时间t1之后在拍摄)被映射，以对准变换的图像中的线和图案(参考于其中相机处于时间零的六轴参考系统[x，y，z，俯仰，滚动和偏航])，产生两个图像(在时间t1和零处初始获得)，该两个图像是可比较的图像，就好像它们是通过共面相机以相同的z、俯仰、滚动和偏航并以x和y的“校正”值获得的，所述x和y的“校正”值取决于沿着那两个轴的移动(在时间0和时间t1之间在x和y中的基线)。在图像校正处理之后，在时间0和时间t1处的拍摄可以被用于构成“虚拟立体相机”的不同视图，和/或“虚拟多视图相机”的不同视图和/或“虚拟全光相机”的不同视图。

-移动设备：小型计算设备，一般足够小以被手持操作。它们也具有集成的相机和其它能力，诸如GPS、加速度计、陀螺仪等。它们可以是移动电话、平板电脑、膝上型电脑、相机和其它设备。

-常规相机：仅捕获入射到图像传感器的光线的空间位置的设备，使得传感器的每个像素集成来自设备的整个孔径的任何方向上的所有光。

-合成孔径积分成像(SAII)：分布在均质或(可替代地)随机网格中的图像传感器(相机)的阵列。

本质上，本发明公开了一种用于从场景获取深度信息的方法，包括以下步骤：

a)在拍摄的时间期间借助于至少一个相机获取场景的多个图像，其中所述多个图像提供场景的至少两个不同的视图；

b)对于步骤a)的每个图像，同时获取关于参考六轴参考系统(reference system)的图像的位置的数据；

c)从步骤b)的图像中选择至少两个图像；

d)校正在步骤c)所选择的图像，从而生成校正的图像的集合；

以及

e)从校正的图像生成深度图。

可以从借助于至少一个定位设备获得的定位数据的集合来测量在拍摄的时间期间图像的位置，该定位设备例如选自下面的组的设备：加速度计、惯性测量单元(IMU)、姿态和航向参考系统(AHRS)、GPS、速度计和/或陀螺仪。

惯性测量单元(IMU)以及姿态和航向参考系统(AHRS)是通过使用加速度计和陀螺仪(有时还有磁力计)的组合来监视和报告物体的比力、角速率以及有时体周围的磁场的电子设备。IMU和AHRS通常被用在包括无人驾驶飞行器(UAV)的飞机以及包括潜艇和无人驾驶水下航行器(UUV)的船舶内。惯性测量单元(IMU)与AHRS之间的主要区别是在AHRS中添加了机载处理系统(例如，该机载处理系统可以包括微处理器和存储器)，与仅向计算姿态和航向的附加设备提供传感器数据的IMU相比，该AHRS提供姿态和航向信息。

为了实现更好的准确度，定位设备可以被刚性地附接到相机中的至少一个。

在一实施例中，至少一个相机与移动设备相关联。这种移动设备可以是例如智能电话、平板电脑、膝上型电脑或紧凑型相机。

在更优选的实施例中，在步骤c)，图像基于它们在六轴参考系统中的位置被选择。

在第一优选实施例中，图像被选择以使得它们的相对距离足够小以引起最多一个像素的最大视差。在这种情况下，在步骤e)，可以用校正的图像生成虚拟合成孔径积分成像系统，从而生成极图像的集合。

在第二优选实施例中，图像被选择以使得它们的相对距离足够大以引起多于一个像素的视差。在这种情况下，在步骤e)，用校正的图像生成虚拟立体全光系统，从而生成扩展的极图像的集合。

一旦通过例如第一优选实施例或第二优选实施例生成极图像，步骤e)还可以包括从极图像计算极线的斜率。用这些极图像，可以通过将极线的斜率转换成深度来生成场景的深度图。此外，可以通过分析组合成多维矩阵的水平和垂直极线来获得斜率。

本发明的方法可以包括从深度图生成场景的3维图像的步骤。特尤其地，可以在水平和/或垂直极线中计算深度/斜率，并直接组合成二维稀疏深度/斜率图。此外，可以通过应用图像填充技术来填充稀疏深度/斜率图，以获得每个像素的深度/斜率值。优选地，对于深度估计，仅对其中物体世界的边缘已被检测到的传感器的那些像素执行计算。

在步骤a)中，优选地至少一个相机在拍摄的时间期间移动，例如，由于由人手震颤或者由将至少一个相机附接到相对于场景移动的结构(例如，相机被安装或放置在对汽车外部的关注区域有足够的可见性，或者对于诸如手势识别的应用测量汽车的内部的距离的汽车位置中)产生的不确定的随机的移动。

此外，步骤a)的多个图像优选地通过至少两个相机获得。在这种情况下，所述至少两个相机可以被以它们的相对位置已知的方式对准。

在一优选实施例中，视频序列包括前景、可选的中景和背景2D图像(位于物体世界中的不同深度)中的至少两个深度水平，并且其中连续帧中的不同水平的2D图像的所述组合和/或更接近背景的2D图像中遮挡(occlusion)的改变和/或更接近前景的2D图像中透视和大小的改变对用户产生3D感知。

此外，在示例性实施例中，仅考虑沿着垂直/水平维度分布的极图像中的一些或全部，以便降低统计噪声。

附图说明

以下非常简要地描述了一系列附图，该附图有助于更好地理解发明并且与作为其非限制性示例提出的所述发明的实施例清楚地相关。

图1示出了全光相机100的示意图，包括相机的传感器、MLA(微透镜阵列)和主透镜。它也示出了两个微图像。

图2示出了全光相机实施例(2A)，以及对于物体世界中位于比MLA的共轭平面离相机更远的点在传感器上产生的图案(2B)。

图3示出了从用于辐射物体世界中的点的光场形成水平和垂直中心极图像的处理过程。

图4示出了多视图合成孔径积分成像(SAII)系统的可能的实施例：M×N个相机的二维阵列。

图5A图示了全光相机的基线(“窄基线”)和立体配置中的两个相机之间的基线(“宽基线”)之间的比较。在顶部的相机是全光相机，以及在底部的相机是常规相机，它们两者被以立体全光相机配置布置。

图5B示出了有全光相机和两个附加的常规相机的移动设备(然而两个附加的相机中的任何一个可以是常规相机或者是全光相机)。

图6A和图6B图示了用全光相机捕获的极图像以及由常规相机捕获的同一场景的2D图像的扩展处理，其中两个相机处于如图5A中的立体配置。

图7A示出了涉及可以由包括相机的移动电话(或任何移动设备)中的加速度计和陀螺仪记录的所有可能的移动的6轴参考系统(x，y，z，俯仰，滚动和偏航)。

图7B示出了从移动设备的加速度计获取的数据的示例(x、y和z方向上的加速度)。

图8示出了由两个相机形成的立体对系统中的“校正”和“对应”处理。

图9图示了用于4相机的阵列的“校正”处理。

图10示出了如果相机的移动涉及x、y和z方位中的正增量以及负偏航旋转，那么与给定的相机相关联的6轴参考系统如何改变。

图11示出了对于x和y中的负平移、z中的正平移以及正滚动旋转的相机参考系统中的改变。

图12示出了对于x和y方向上的正平移、z中的负平移以及俯仰中的正旋转的相机参考系统中的改变。

图13图示了有沿着与M×N相机的阵列相同大小的二维区域通过位置A、B、C和D移动的单个相机的轨迹示例的多视图系统。

图14示出了电话被人拿着来拍摄照片的同时，在x和y方向上的由来自现成的智能电话的加速度计检测的空间移动(以毫米为单位)的2秒记录。

图15A示出了电子移动设备，该电子移动设备包括多视图系统，该多视图系统获取通过包括多核处理器的处理器所处理的图像。

图15B如图15A，但是有两个CPU(中央处理单元)，而不是多核处理器。

图15C如图15B，但是CPU被包括大量并行处理器的GPU(图形处理单元)代替。

图16A示出了立体相机的图像校正和对应处理。

图16B示出了根据本公开中的发明的计算深度图的方法。

具体实施方式

本发明涉及用于从光场生成深度图的设备和方法。可以通过多种设备来捕获光场。为简单起见，将考虑第一示例，其中常规相机在拍摄若干图像的同时在移动。本文所描述的方法从由移动设备捕获的这些图像创建等效的成像系统，并应用全光算法以生成场景的深度图。

在进一步的示例中，通过将该方法应用于由若干移动的相机形成的系统来描述该方法，其中可能包括一个或多个全光相机和一个或多个常规相机。尽管如此，本文所描述的方法也可以应用于由任何其它设备捕获的光场，包括其它积分成像设备。

图1图示了全光相机100的实施例：传感器1、微透镜22和光学部件的上部镜筒(或相机的主透镜3)。图1示出了穿过全光系统的主孔径并到达中心微透镜和紧邻于中心的微透镜的两组光线。如果适当地设计光学系统，那么微图像11、12不重叠。

图2示出了物点210，该物点210比通过主透镜3的微透镜阵列22的共轭平面更远，因此照射多于一个的微透镜，使得焦点比微透镜阵列22位置更靠近主透镜3，并因而在图2B中示出了由图像传感器206捕获的图案。在一些微图像212中的灰度级与被部分照射的像素对应，而在白像素中，像素的整个区域已被来自物体世界中的物点210的光击中。

全光成像的基础是：世界中的距相机不同深度或距离处的物体将在全光相机的传感器上产生不同的照明图案。可以用极图像表示通过传感器捕获的各种图案，该极图像提供世界中物体的隐含的深度信息。

图3示出了来自光场206的水平300和垂直302中心极图像的形成处理，该光场206用于照射位于距全光相机100不同距离处的物体世界210中的点：在距微透镜22的共轭距离处(图3A)，比共轭距离更近(图3B)，以及比共轭距离更远(图3C)，从而示出全光相机能够用于计算到物体世界的距离的固有能力。在图2A和图2B中显示图3C的情况，示出了来自物体世界中的辐射点210的光如何在相机100内传播，穿过微透镜22并在传感器206上印出光的图案。

将在极图像中找到的图案转换成深度信息的处理需要当前技术状况中众所周知的一些图像处理技术的应用。极图像包含极线；极线是形成线的连接的像素(与物体世界中的同一点对应的若干传感器像素)，如图2B和图3C中对于比微透镜的焦点更远的世界辐射源(图3C中向左倾斜的极线)、对于比微透镜的焦点更近的世界辐射源(图3B中向右倾斜的极线)、以及对于精确聚焦在微透镜表面上的世界辐射源(图3A中的垂直极线)清楚地示出的。这些极线的斜率与照射在微透镜上的图案的形状以及物体世界中该点的对应深度直接相关。总结该处理，在极图像中找到的图案，极线，提供关于真实物体世界中的物体的深度的信息。可以使用边缘检测算法来检测这些线，并且可以测量它们的斜率。因此来自每条极线的斜率给出了方便被处理的值，提供了产生这种图案的物体世界中的点的实际深度。

虽然它是非常有前途的技术，但是全光成像也有代价，因为全光相机的性能被微透镜阵列的分辨率所限制，这导致比传统的成像设备低得多的图像分辨率。此外，全光相机是相当新的技术，在移动设备中仍然难以找到。

图4示出了相机矩阵的可能的SAII(合成孔径积分成像)配置。在这个矩阵中，我们可以有M×N个相机或沿着矩阵移动(例如，从位置1开始，然后2、3等，直到位置MN)的单个相机，该单个相机在矩阵的每个位置中拍摄静止的图像。与全光相机类比的是直接的方式，并且可以用SAII获得先前对于全光相机所描述的相同的极图像，因为众所周知，有“T×S”个微透镜和每微透镜“O×P”个像素的如图2A中的全光相机在功能上等效于“O×P”个有“T×S”个像素的常规相机，其中相机在全光相机的入射光瞳上均匀地间隔开。同样，图4的M×N相机阵列(其中每相机Q×R个像素)等效于如图1中的全光系统，其中每微透镜22有M×N个像素，并且每个等效相机51的像素的数目等于等效的全光相机中微透镜的总数目。仅有的实际区别是，由于技术和实现的限制，SAII系统中这个数目(Q×R)的大小比可以在全光相机中设计的微透镜的数目高得多。从SAII计算的深度图可以利用比全光相机宽的基线，因为图4中节点之间的距离(该距离可以高达若干厘米或甚至更高)大于全光相机的“O×P”个等效相机之间的距离(若干毫米，以及在小型相机中小至十分之一毫米)。图5A和图5B(相机的2D侧视图，其可以以直接的方式外推到3D配置，对于下面的讨论，在该3D配置中第三维将垂直于纸而不失一般性)比较了全光相机的基线(示出有每微透镜T×S个像素的全光相机的O×P个等效相机之间的间隔d的“窄基线”d，其中每个等效相机51具有与全光相机中的微透镜一样多的像素)与立体相机的两个相机之间的“宽基线”B或更宽的SAII基线：在立体相机或SAII的实际示例中，“宽基线”B可以是几厘米，而在典型的全光相机中，“窄基线”d可以达到小到毫米或甚至十分之一毫米的值。图4的M×N相机阵列(有每相机Q×TR个像素)等效于如图1中的有每微透镜22M×N个像素以及每等效相机51的像素的数目等于等效全光相机中的微透镜的总数目(Qx)的全光系统，在这种情况下(SAII系统)这个数目(Q×T)的大小比可以在全光相机中设计的微透镜的数目大得多。显然，SAII系统提供了比全光相机更高的分辨率和更宽的基线使其在距相机的大距离处更准确地计算深度。

所提出的发明以单次拍摄获取从常规相机获得高分辨率的深度图，以及在视频记录的情况下，实时地获得深度图。发明使用在执行拍摄的时间期间由相机所经历的移动和振动来获得一系列帧，从而用由移动的相机获取的系列帧来模拟SAII(或全光相机的等效相机)的若干图像。本发明使用所选择的获取之间的相机的距离作为多视图系统的基线(视图之间的距离)，该多视图系统的基线可以用于估计场景的深度。这些方法的主要目的是提供在仅有常规相机可用和仅单次拍摄(其中拍摄涉及若干帧的获取)中时创建高分辨率深度图的能力。本发明在计算上非常高效，如此高效以致于即使在低成本的移动设备(大多数时候，有通过电池操作的低成本处理器，其中需要高效计算以避免快速耗尽电池)中，它也可以用于获得视频序列中的实时深度图。

在若干连续帧的记录之后，所提出的发明有两个主要的步骤。第一是“修正”在拍摄的时间期间获取的图像(用相机获取的每个图像在对于x、y、z、偏航、俯仰和滚动的略微不同的位置上)的步骤，以获得“修正的图像”的集合，该“修正的图像”彼此相关，就好像它们是由单个全光相机或单个SAII成像系统拍摄的(如图9中的“图像校正”的处理，或者也产生图13中的一系列图像A、B、C和D)。这第一步骤通过使用来自加速度计和陀螺仪，或者可以在任何现代智能电话、汽车或移动物体中找到的任何其它能力的记录，在图像之间执行校正(如图9中)。应用第二步骤以使用全光算法创建深度图。这包括通过检测极图像的极线的斜率来计算场景中每个点的深度值。在实施例中，可以仅对于场景中被检测到的边缘执行这个计算，而不是对于场景的所有像素执行该计算。本发明的方法可以处理实时的视频图像(约每秒15帧或更多)，而先前的实现花费几百毫秒到几分钟仅处理单个帧。

正常的手震颤(或生理的震颤)是小的、几乎不可察觉的震颤，该震颤难以被人眼察觉并且不干扰活动。振动的频率在每秒8到13个循环之间，并且它是在任何人中的正常的震颤(它不被认为与任何疾病过程相关联)。即使是这些小的震颤也可以被用作用于在相机上生成移动的源，该移动能够为深度检测创建基线。

用于确定物体的位置和朝向的最常见的传感器是陀螺仪和加速度计。它们均存在于大多数当前的移动设备(智能电话和其它)中，并且当信息被两个设备同时记录到图像获取处理时，能够知晓每个记录的帧的准确的FOV(视场)(就以下而言：3维世界中的相机的x、y、z位置，以及在拍摄的时刻相机所面向的方向，其通过如图7A中所描述的3个基本角度-俯仰、滚动和偏航来定义)。为了记录移动，当前技术状况的加速度计和陀螺仪的正常采样率约为500Hz，这意味着加速度计和陀螺仪是足够敏感的以记录手震颤移动(在每秒8到13个循环之间)。图7B示出了在X、Y和Z方向上通过移动电话的加速度计记录的一系列移动。从移动电话放置在手上，处于诸如我们打算拍摄照片的位置开始。有时，我们“按下按钮”(击发触发器)以拍摄照片，以及之后，我们将移动设备留在桌子上。全部序列以100Hz的采样率花费10秒(产生约1000个样本)。对于陀螺仪设备也可以获得这数据。虽然加速度计和陀螺仪提供的信息有一些重叠，但是它们的测量具有不同的特点。加速度计测量三轴(X-Y-Z)物理加速度，而陀螺仪测量沿着每个旋转轴的三轴(P-R-Y)角加速度，并且两个设备的组合提供6轴运动感测，捕获移动设备的任何可能的移动以用于相机的相对位置和朝向的快速和准确的确定。这些相对位置和朝向参数用于来自“虚拟SAII系统”(或“虚拟全光相机”)的“虚拟捕获”的形成中，以及用于构成如将在后面解释的极图像。图7A示出了与移动电话中的相机相关联的6轴坐标系统，该6轴坐标系统将被用于描述由加速度计和陀螺仪记录的移动。

让我们假定当用户按下按钮以拍摄照片时开始的图像获取期间和移动设备的特定初始位置。如所解释的，使用来自加速度计和陀螺仪的数据，可以在按下快门按钮之后发生的图像获取序列的曝光时间期间在任何时间，算出移动设备相对于那个初始位置的相对位置。图13示出了在某个时段期间移动设备所遵循的轨迹的示例。在这时间期间，移动设备已完成由虚线指示的轨迹，并且也当其处于A、B、C和D位置时拍摄了图像。该图的示例也示出了作为背景的M×N矩阵，以便比较所描述的图像获取的顺序处理过程与位于最靠近发生拍摄的A-B-C-D位置的平面处的虚拟SAII系统。因此，如果适当地配准和处理移动设备的移动，那么两个系统(SAII和所提出的发明)在功能上是等效的。

现在让我们详细描述其中发明获取图像和配准移动设备的移动的时段。今天的大多数移动设备可以以大约每秒120帧(fps)的帧速率频率获取图像，该帧速率频率显著地大于被认为是实时的帧速率频率(由15fps和30fps或每秒更高数目的帧之间的某个值固定的主观值)。让我们假定那种性质的移动设备包括常规相机，并且当该移动设备被人手保持在给定位置时将拍摄照片(这些并不意图作为限制因素，而是作为示例)。如果我们在1秒期间以120fps记录图像，那么我们可以选择例如在此期间内的四幅图像，在它们之间有给定的基线。让我们也假定图13中所示的轨迹，该轨迹已被绘制在M×N位置矩阵的前面，以更好地维持所提出的方法与M×N相机的SAII系统或有每微透镜M×N个像素的全光相机之间的平行性。从通过手的震颤不自觉地引起的这个轨迹，我们可以例如选择使轨迹内的总距离(水平上和垂直上两者)最大化的那些点。以更宽的基线改善在长距离上的深度图的分辨率，并且因此选择尽可能彼此分开的那些图像对于尽可能大地区分到物体世界的距离是最好的。要注意的是，来自图13的轨迹的示例是2D简化。为了使所提出的发明作为SAII系统工作，需根据由加速度计、陀螺仪或任何其它此类设备记录的移动参数，考虑6个自由度(六个位置x、y、z、P、R和Y)，来“校正”沿着轨迹拍摄的不同图像。

让我们来描述对于我们的发明如何对立体成像执行图像校正处理和差异。图8示出了如何通过立体配置中的两个不同的相机记录图案81。从两个不同的视点捕获图案81，记录两个平面图像82和83。“校正”这两个立体图像以获得如果两个相机已被完全对准(即，在空间中的相同的y和z位置上，它们之间有固定已知的x距离，其中两个相机均位于同一平面中(通常被认为是为共面条件，该共面条件意味着它们在滚动和俯仰中的差异为零，或者它们的光轴是平行的)，并且它们之间有零偏航差异(等效于说图像84和85两者必须具有相同的水平度))将获得的图像。图9示出了相机如何通过人手的震颤而移动，其中在五轴参考系统(x，y，俯仰，滚动和偏航)中以相机的四个不同位置在四个不同时刻记录四次不同的拍摄(91到94)，其与通过具有在点位置的四个相机的SAII系统将记录的(95到98)不同。用于这个系统的“校正”处理涉及从获取的图像91-94的集合计算校正的图像95-98的集合。这是简化的视图，因为该视图不涉及z上的移动，并且假设所获取的图像91与我们希望图像所在的地方，或者校正的图像95-98之间的良好的重叠。然而要注意的是，当相机被放置在诸如汽车的移动结构中时，z上的校正也是非常重要的，这个值与移动结构的速度成正比。我们的发明的更现实的实施例执行若干视频帧的顺序记录(例如可以是每秒120帧)并执行六轴参考系统(x，y，z，俯仰，滚动和偏航)内的相机位置的同时记录。

这在图10中进行了示例：在给定的时间，相机捕获帧，在那个时刻相机与其相关联的6轴位于空间中的给定位置(x，y，z，俯仰滚动转和偏航)，当相机捕获后续的帧时，六轴参考系统移动到新的地方，该新的地方是已知的，因为它的新位置(x'，y'，z'，俯仰'，滚动'和偏航')已由与相机相关联的加速度计和陀螺仪记录。在图10的这个特定示例中，我们在x、y和z上有三个正移动，以及负偏航旋转。图11示出了另一示例，在该另一示例中在第一帧和第二帧之间，x和y具有负移动，z正移动，以及正偏航旋转。图12是又一示例，在该又一示例中在第一帧和第二帧之间，x和y上的移动是正的，z上的是负的，以及正俯仰旋转。

让我们比较所需要的时间以及什么在技术上是可行的以实现我们的目的。手震颤表现出每秒8到13个循环的低频移动，在该秒期间，可以通过当前技术状况的相机系统和光传感器进行120个拍摄，并且在该秒期间，可以通过当前技术状况的加速度计和陀螺仪采样500个读数。图14是由来自现成智能电话的加速度计在x和y方向上检测的空间移动的2秒期间的记录(z方向和典型的偏航、滚动和俯仰也可以被记录并被用于计算中)，在图14的这个特定情况下，电话由业余步枪(rifle)用户持有(对于正常人，移动稍微更大，对于遭受帕金森病的人则移动高得多)，该图示出了在x轴(图14中垂直)上的近乎4毫米和在y轴(图14中水平)上的近乎2毫米的移动范围。这些位移大于典型全光相机的等效相机之间间隔的典型“窄基线”d(2毫米的入射光瞳和每微透镜10个像素产生最小基线(0.2mm的图5A中的“窄基线”d)；或者如果我们比较0.1与0.3mm的全光相机的典型基线d，那么图14示出如果由手震颤产生，那么相同的基线很有可能每100至200毫秒发生。这就是为什么所提出的发明需要大约200ms来获取足够的图像和数据以创建场景的深度图。在一个实施例内，在200ms的时段内以120fps的典型帧速率捕获图像，本发明获取24帧。这些帧是在移动设备在由于手震颤或任何其它振动引起的运动中时拍摄的。从这些24帧中，可以选择它们之间有最长基线的那2帧，这基线足够长以在为更长距离获得的准确度方面改善多视图相机的深度图的质量。

一旦对于某一时段随着常规相机在3D空间中移动，用常规相机捕获了若干图像和它们对应的移动参数(x，y，z，P，R，Y位置)，就通过根据移动参数(6轴参考系统中的新位置)校正所有这些图像来创建等效SAII(或等效全光相机)。然后，形成极图像300和302，并应用全光算法来生成场景的深度图。

全光相机的一个特征是连续等效相机之间的最大视差(maximum disparity)是+-1个像素，意味着形成极线的像素总是彼此连接的。因此，为了将全光算法适当地应用于所创建的等效SAII(或等效全光相机)，相继图像之间的基线必须确保在形成极图像时不生成间隙。不过，并不总是可能确保这点，因为图14中的人震颤移动有时会被非典型的大移动破坏，该非典型的大移动不能被建模为SAII系统(或全光相机)，但是它们对扩大基线是极度有益的，并且因此对于以非常高的可靠性计算物体世界中的大距离是有益的。可以人为地产生这些非典型的大移动，例如通过记录当用户开始拿走电话时发生的帧，或者通过某人意外地击中拍摄照片的人的手臂，或者通过自拍杆的大振动(其显然产生比图14中更大的移动)；并且通过也是这个公开的一部分的新颖的设备更好地建模：立体全光设备5200(图5A和5B)，其至少包括全光相机100和至少一个常规相机，但是在图5B中所示的优选实施例中，我们向全光相机100添加了两个常规相机或全光相机1304(或常规相机和全光相机)。这个设备的原型已证明该设备本身是有意义的(例如在如图5B中的移动电话中)，并且对不能通过全光相机或SAII系统建模的非典型的大的相机移动建模也是有意义的，该移动对于计算世界中的非常远的物体的大距离是尤其被欢迎的。也值得注意的是，当用户试图尽可能安静地将相机保持在适当的位置时，如图14中的手震颤是典型的，然而在按下快门之后的瞬间的移动要大得多，但该移动仍然是有益的，因为它们仍然面对同一FOV-视场，但是基线可能增加若干厘米，产生好得多的距离估计。此外，图14中x和y方向上的移动的统计分布通常表现出大的峰均比(大多数时间移动在若干毫米之内，但是偶尔存在一个样本或若干样本移动到若干厘米)，其对于改善基线是有益的，并且通过如图5B中的立体全光设备更好地建模，因为在这种情况下，垂直和/或水平极图像如图6A和图6B中那样具有若干行(捕获的图像)之间的大间隙。

图5B中的实施例是刚刚提到的两种技术(全光和立体)的新颖的组合，以创建深度图，其远远超越先前的技术(因为它包括在多视图配置中与常规相机或与其它全光相机混合的全光相机：可以包括比图5B中更多相机的超集)。图5A示出了立体全光设备的基本配置，其作为多视图系统由于增加了与全光相机看着相同FOV(视场)的常规相机而显著提高了对于大距离的全光相机的深度估计的准确度。这个发明和它的用于实时深度估计的方法包括至少光场全光相机和包括附加的(一个或多个)常规或全光相机。以适当的图像处理方法，这种多视图系统能够以非常高质量的分辨率创建场景的深度图，克服全光相机的缺点(对于大深度受到不可靠的深度测量的限制)和多相机系统的缺点(其需要高得多的处理能力)。在计算要求方面，这种多视角发明同时极度高效。图6A示出了全光设备(在左侧)的记录，其中全光设备内的极线62和来自全光设备的极图像与具有高得多的分辨率的常规相机(右侧)的所产生的图像组合。这个图6A也示出了如例如图5A的底部相机(或图5B的右侧或顶部相机)的常规相机61的点如何被用于用常规相机(如例如图5A的底部相机或图5B中的相机1304)的图像扩展全光相机的基线，其对于两个相机的组合比对于全光相机自身产生更好的距离估计能力和性能。这个实施例的主要优点之一是用于深度估计的全光算法的使用(比立体匹配在计算上高效得多)，该全光算法也被用在如下所描述的本公开中。这种方法的附加优点是多视图系统的横向分辨率可以是常规相机的横向分辨率(通常比全光相机的横向分辨率大得多)，并且有可能计算有与(一个或多个)常规相机中的点一样多的点的光场。

图6B是如何执行(一个或多个)常规相机1304的“校正”以使其图像与全光相机100匹配的方法的实施例：在全光相机100的极图像400内检测极线1404；全光相机100的中心视图1516与(一个或多个)常规相机1304之间的距离B直接来自于图5A和5B中的全光相机100，基于图5A、图5B和图6D中全光相机100和(一个或多个)常规相机1304之间的“宽基线”B与全光相机10的“窄基线”d之间的关系而获得；选择距离H以匹配全光相机100和(一个或多个)常规相机1304的FOV(视场)的共同部分；全光相机的极线1404(全光相机100的极图像400中连接的像素的集合，根据定义其标记物体世界的边缘)被线性地绘制(1506)以实现与(一个或多个)常规相机的像素行(1406)的相交，与像素1504中的全光相机的传感器相交，然而在大多数情况下，像素1504(通过(一个或多个)常规相机采样)不匹配通过全光相机100采样的“边缘图案”，这就是为什么在(一个或多个)常规相机中定义搜索区域1512以最终找到与通过全光相机100检测到的边缘匹配的(一个或多个)常规相机1304的像素61。通过这个方法，我们用位于比全光相机的视图之间的通常间隔(约几十毫米)大得多的距全光相机的距离(几厘米或甚至更多)处的常规相机的附加的(一个或多个)视图来增加全光相机100的等效相机51捕获的全光相机100的视图1510的数目，大大地增加了基线(从d到B)，并且因此增加了对于距(一个或多个)相机长距离的深度测量的精度。这可以在图6B的帮助下被总结如下：全光相机100的视图1510之间的窄间隔“d”将需要物体世界中的图案深度的非常大的增量以产生非常小的极线1404的斜率的变化。然而，通过添加来自(一个或多个)常规相机或来自附加的全光相机1304的(一个或多个)附加视图1406，有可能非常精确地微调提供对于长距离的更高精度的深度测量的“扩展的极线的斜率”1508。

图5B示出了移动设备内的来自这个发明的设备的实施例：与两个常规相机相关联的全光相机100(或与常规相机和全光相机相关联，或与两个附加的全光相机相关联)1304，一个水平对准，并且另一个垂直对准，以便改善两个方向(z和y)上的基线，而同时通过使用小的搜索区域1512(该搜索区域1512可以是一维或二维的)来节省来自立体和多视图图像匹配的高的计算要求。对于该领域的专家，如何修改/扩展这个设备以具有若干不同的选择是明显的：仅一个全光相机和一个常规相机，仅两个全光相机，三个全光相机，包括至少一个全光相机的任何相机阵列等。

图6A和图6B中所示的场景(由全光相机捕获的(一个或多个)图像63和由常规相机捕获的相同场景的(一个或多个)图像64)等效于单个常规相机，该常规相机已在彼此相距小距离内略微不同的位置处捕获了若干图像，并且在距离其余部分相当远的位置处由相同的常规相机捕获了附加的图像。如图6A和图6B中所示，所形成的极图像具有在捕获的图像之间的间隙d(其中全光相机中的d是入射光瞳的大小除以一维[x或y]上每微透镜的像素的数目)。如果间隙B(虚拟全光相机的中心视图和由移动的相机模拟的常规相机1304的等效视图之间)大于全光相机(或由移动的相机模拟的虚拟全光相机)的中心视图与所述全光相机的末端视图之间的距离D(即，在图6B的示例中四倍的d)，那么有可能创建虚拟立体全光等效系统。创建或者等效SAII(或等效全光系统)或者有更宽基线的等效立体全光系统的关键标准是具有至少一个大于d的大基线(即，在相邻图像之间的距离当中)，如果基线小于距离d，那么推荐SAII等效系统。而且，如果基线B小于距离D，那么将选择SAII等效系统。即为了观察在图6B的极图像中是否存在至少一个大间隙(B-D)(大于小间隙d)，需要定义搜索区域1512和寻找对应的边缘点61。另一方面，在所有基线等于或小于d的情况下，极图像的行接触，使得避免对应算法(在极图像的不同行之间)，并且应用简单的全光算法。

请注意，在如图5B中的设备中，全光相机中的微透镜的数目通常小于相关联的常规相机中的像素的数目，然而在发明中，其中全光视图1510是从移动的相机提取的不同视图，视图1510的像素的数目等于基线B处的等效相机的像素的数目。

在实施例中，确定要创建的等效系统是虚拟全光系统(其也可以通过虚拟SAII系统建模)还是虚拟立体全光系统的方式直接取决于连续捕获的图像(相邻图像或空间域中连续)之间的最大距离，使得这个最大距离大于d，d是确保“所选择的捕获的图像”之间的最大视差是一个像素的虚拟全光相机的所述“所选择的捕获的图像”之间的最大距离。

通过在x和y维度上连接这些图像中的每一个与它们相邻的图像形成网格来对捕获的图像分类。如果所连接的图像之间的所有距离等于或小于d(小于一个像素的视差)，那么所述图像可以用于构成虚拟SAII(或同样地虚拟全光相机)。另一方面，如果在x或y方向上大于d的距离处捕获一个或多个图像，那么那些图像64可以用于构成如图6A和图6B中的虚拟立体全光系统的附加的视图1406。

在实施例中，为了确定所有捕获的图像当中哪些图像是彼此连续的，使用x和y坐标来创建像图13中的网格。然后，某个图像的“所选择的连续图像”(在空间域中)是位于距所述某个图像的最小距离(在x和y方向上)处但总是短于d的距离处的图像。

上面对于常规相机与全光相机描述的“校正”处理，即使对图5B中的设备和相似的设备有意义，但是是对当相机1304不是物理相机而是从来自真实移动的相机的不同视点拍拍摄不同曝光的“虚拟相机”时，所发生的事情的过度简化。在图6B中，我们仅对基线(B)和“校正”H进行了图像“校正”以匹配两个相机(100和1304)的FOV的共同部分；如果1304是虚拟相机，该虚拟相机在用户有意地试图尽可能安静地保持相机时，移动了大于由人震颤引起的几毫米(如图14中)的若干厘米，那么“校正”处理，而不是基线B和视场H，必须考虑6轴(x，y，z，偏航，俯仰和滚动)上的随机移动，该随机移动可以考虑加速度计、陀螺仪或记录新位置(x'，y'，z'，偏航，俯仰和滚动)的与相机相关联的任何其它定位设备是在全光相机100捕获第一图像之后的某个时间量捕获图像的虚拟相机1304来确定，虚拟相机1304在的一定时间内捕获图像。在不同的实施例中，相机100不是物理相机，而是捕获由于如图14中的手震颤引起的若干拍摄(如图13中：拍摄A、B、C、D)的“虚拟全光相机”(或虚拟SAII系统)。

图16A示出了与立体相机成像相关的第一过程(1600)。这个图示出了假定立体相机的固定(已知)位置(该位置从两个立体相机的校准处理中被知晓)的简化处理1600。这个过程包括图像校正(1604)，该图像校正(1604)在给定两个相机的已知位置(和朝向)下是简单的，以及对应的第二步骤(1606)，该对应的第二步骤(1606)意味着匹配两个所获取的图像的共同的图案，显然两个相机的像素之间的匹配过程取决于在两个相机中产生图案的光源的物体世界距离是不同的，或者换句话说，世界中距离两个相机非常远的物点将在两个相机中的其两个图像之间产生事实上为零的视差，而非常靠近相机的物点将在两个相机的传感器中产生非常大的视差。

在图16B中描述根据本发明的第二过程(1610)。这个过程包括：步骤1614记录连续帧(例如，以120fps-帧/每秒)，同时记录对于每一个“所记录的帧”的相机的6轴位置(x，y，z，P，R，Y)(以每秒120帧，并且例如以每帧大约5个位置或每秒600个样本采样记录6轴位置)；下一步骤1616选择有足够大基线d的位置(如例如图13中的位置A、B、C和D，位置对于“奥运手枪射击者(Olympic pistol shooter)”可能不同于对于遭受帕金森病的人)来构成“虚拟SAII系统”(或虚拟全光相机)，并且在它们存在的情况下，也选择有足够的“更大基线”-D的位置来构成“虚拟立体全光系统”；第三步骤1618如图8和图9中校正所选择的拍摄或帧，但是对于校正，取决于相机的6轴位置(对于步骤1616中所选择的每个拍摄，不同的x，y，z，俯仰，滚动和偏航的值)；第四步骤1620为我们已选择的拍摄创建等效SAII系统(或等效全光相机)和/或如果x和/或y方向上的一些位移非典型地大，那么创建如图5A图5B中的等效立体全光系统(但是对于有“宽基线”B的等效相机，很可能有非常不同的z、俯仰、滚动和偏航的值，因为图5A和图5B中的相机被对准并且是共面的，其不太可能是(一个或多个)移动的相机的情况)。一旦创建了等效系统(在图16B的步骤1620中)，就有可能执行附加的第五步骤(1622)，目的是在传统的极线斜率分析之后计算到世界中的物体的距离(如图3A-图3C中)，或者如果基线足够大(至少一个图像在x和/或y方向上距“连接的图像的集合”大于d的距离处[其中“连接的集合”内的每个图像距“连接的图像的集合”内它的最近的图像的距离等于或小于d])，那么执行扩展的极线分析(如图6A和6B中)，获得步骤1620的“等效系统”的所有相机的公共FOV-视场的图像的斜率图。之前获得的极线的斜率可以被进一步用于通过传统的极斜率(epipolar slope)到深度转换获得深度图(步骤1624)，获得步骤1620的“等效系统”的所有相机的公共FOV-视场的图像的深度图。有可能从来自先前计算的斜率和深度图创建3D图像(步骤1626)，3D图像符合任何3D格式(立体图像、积分图像等)。

已在一天的不同时间和以不同的用户和设备实验地证明了所提出的处理的稳健性。此外，所有的实验已被重复了若干次，以避免处理的随机性。

在特定实施例中，到发明的输入图像可以是视频序列：让我们假定以120fps捕获的视频序列并且我们想要发明使用4帧(4个图像)来计算场景的深度值。这将意味着系统将产生大约30fps的深度图(或3D图像)(被大多数人认为是实时的)。被选择来计算深度图(或构成3D图像)的帧是那些表现出足够宽的基线但不必要是连续帧的帧。

到目前为止，已描述了使用来自加速度计、陀螺仪或任何其它定位设备的数据“配准”由移动设备拍摄的两个或更多个图像的处理。让我们提醒配准处理涉及图像“校正”(以保证所获取的2个或更多个图像被“重新计算”以成为可比较的共面图像，如图8和图9中)以及“对应”或“图案匹配”(在图8中通过搜索公共图案86来示例)。SAII、全光相机和本发明实施例中的“对应”或“图案匹配”是通过识别极图像内的极线被执行的)。

在另一实施例中，可以在所描述的过程可以被考虑为实时处理的时间范围内执行处理。

由移动设备配准的移动是足够好的，以获得稳健的深度图。为了这个目的，我们将再次比较通过全光相机的子孔径获得的基线与通过所提出的发明获得的基线。

全光相机的基线是两个连续子孔径的中心之间的距离(图5B中两个等效相机51的中心之间的距离d)，并且基线的大小(以及最大直径2D)与设备能够以可接受的精度估计的到物体世界的最大距离直接相关；基线和直径(d和D)越大，深度图越好(获得对物体世界的大距离的更好的估计)。如前所述，十分之一毫米可以被认为是全光相机中的正常基线(入射光瞳的典型孔径1或2毫米，以及每微透镜10-20个像素的典型数目)。所提出的发明可以以类似于SAII系统(或全光相机)的方式工作，但是仅用一个常规相机拍摄连续视图。所提出的发明可以基于来自极图像的斜率的计算使用同一算法，作为全光相机(或作为SAII系统)来估计深度图。然而，发明可以用比全光相机的基线(大约0.1mm)更大的基线，因为手震颤通常大于此，因此，在对于更大距离的准确度方面，所提出的本发明可以获得更高质量的深度图。除了这个重要的优点之外，甚至更重要的是强调所提出的发明可以获得有比通过全光相机获得的深度图高得多的空间分辨率的深度图，因为系统具有常规相机传感器的整个分辨率，解决了全光相机的主要缺点(该全光相机具有与微透镜相同的小的空间分辨率，并且每平方微透镜有约100个像素，它们的分辨率大约小100倍)。

在实施例中，移动设备由于手震颤引起的移动可以被由移动设备中包括的小振动马达产生的振动(该小振动马达产生的振动可以是用作呼叫音的替代或补充的振动)或者通过在曝光的时间期间将相机放置在移动的物体上(例如将相机安装或放置在汽车中对汽车外部的关注区域具有充分可见性的位置)加强或代替。

在另一实施例中，本文所描述的用于使用加速度计、陀螺仪或任何其它定位设备来解决对应问题的全光和立体全光方法可以被匹配不同图像的算法(立体匹配或多视图匹配)代替。在又一实施例中，可以识别前景中的物体，而在构成的视频序列中，背景可以相对于安静的前景物体(或以较慢速度移动的前景物体)被移动，通过组合距相机不同距离处的2D图像来创建3D效果：当视频序列中的背景图像的遮挡随时间改变时，当前景物体以低于背景中的更快移动的速度移动时，当前景物体的视角或大小正在缓慢改变时(例如游向相机并且在连续帧中渐增地遮挡背景的鲨鱼；或者沿着FOV在相机平面的恒定距离处游动改变连续视频帧中的遮挡的鲨鱼)；或恰恰相反，前景比背景更快地移动并改变遮挡。作为示例，但不排他地，在上面提到的情况中，位于距相机若干不同距离处的若干不同级别的2D前景、中景和背景水平图像的视频序列组合(该水平可以与它们计算的距离相关，因为本公开中提到的技术允许视频图像的实时深度图计算)允许两个或更多个2D图像的组合以对观看者产生3D感知。

可以以许多方式创建光场，例如用包括相机阵列的SAII系统，或者等效地，自动移动以从明确定义的位置拍摄场景图像的相机。也可以使用全光相机创建光场。本文所提出的发明在移动设备中实现，该移动设备在一段时段内获取若干图像，并且然后使用来自加速度计、陀螺仪或集成在设备中的这种类型的任何其它能力的数据来校正这些图像，如前所述。这个处理也构成场景的光场。下面详细描述从这个光场产生场景的深度图的处理过程的若干实施例。

从光场获得场景的深度信息的方法是分析极图像中由传感器捕获的图案。在所提出的发明中，将所获取的每个图像(被方便地校正)当作全光视图来看，并且每个全光视图被用于创建极图像。图3A-图3B-图3C示出了如何由光场构成水平300和垂直极图像302，并且在那些图像内，有可能识别形成线，所谓的极线的连接的像素。极线62的所有被照明的像素与物体世界中的相同点对应。此外，这些线的斜率与在微透镜上被照明的图案的大小和物体世界中的点的对应深度直接相关。因此，通过理解这个图案，有可能回溯通过相机由像素采样的图案，并获得产生这种图案的物体世界中的点的准确深度。众所周知，在全光相机中，深度和斜率之间的关系取决于用于捕获光场的设备的物理维度和设计。在本发明中，极图像中图案的形成取决于所获取的不同图像(不同视图)之间的位移(基线)。也可以使用对应算法(立体匹配算法)计算这个位移。这些算法搜索可能出现在两个或更多个图像中的图案，以便在所述两个或更多个图像的像素之间建立一对一的关系。这些是计算密集的算法，我们可以通过使用我们的发明来避免该算法。在我们的发明中，使用加速度计、陀螺仪或集成在设备中的这种类型的任何其它能力的数据来计算图像之间的位移。这涉及连续旋转和平移移动的计算，该计算在以两个图像的像素之间的一对一关系结束的“图像校正处理”之后。

处于不同深度或到相机的不同距离处的物体将在全光相机的传感器上以及在所提出的由移动设备中移动的相机拍摄的图像的组合上产生不同的照明图案。如已经陈述的，在全光相机中，以可以在极图像中表示(构成光场的)所谓全光视图的非常相同的方式，在我们的发明中，也可以由极图像表示可以从单个移动的相机顺序地获得的(也构成光场的)若干“校正的视图”，在两种情况下，极图像都是通过拍摄光场的二维切片来构成的，如图3中所解释的。

在实施例中，本发明中使用的用于深度估计的全光算法可以将线性回归技术应用于形成极线的点，以从所述极线中获得斜率。当分析水平/垂直极图像中的极线时，考虑沿着垂直/水平维度分布的所有图像(如全光视图中所发生的)，因为相同的物点已被这些视图中的若干视图捕获并且由世界中的同一点产生的极线可以出现在若干极图像中。因此，这种线性回归技术和不同的极图像的使用以计算到物体世界中的同一点的距离通过利用沿着一个维度的冗余信息来降低统计噪声。

在又一实施例中，识别在水平和垂直极图像中形成的所有线，并计算它们的对应的斜率。然后，从斜率计算物体的对应的深度。

在另一实施例中，由于通过从若干视点捕获的相同物点形成极线，因此仅计算每条极线的一个斜率(和/或深度)值。因此，由于以下两个因素，数据量急剧降低：(i)仅在与物体世界中的边缘对应的极线中检测线(因为物体世界的区域完全均匀，没有边缘，不产生任何极线)，以及(ii)有可能每条线仅计算/存储一个斜率值，而不是如传统上在先前的技术中所做的那样对形成极线的每个像素计算/存储一个值。在至少一个实施例中，这个计算处理的输出可以仅是这些所检测的斜率的对应的深度值。

在另一可能的实施例中，组合通过分析水平和垂直极线所获得的斜率为多维矩阵以降低统计噪声。这种冗余性改善了发明的输出，因为在分析垂直和水平极图像两者时考虑相同的传感器像素，并且因而通过物体世界的同一点产生若干斜率值。

针对极线计算的斜率被转换成对应的物体深度。在另一实施例中，可以在组合所有冗余斜率之后执行这个转换阶段，急剧地降低了斜率到深度的转换的数目。

在另一实施例中，在水平和垂直极线中计算的深度/斜率直接组合到二维稀疏深度/斜率图中(稀疏是因为它包括仅针对极线中的点的深度/斜率计算，而不是如先前的技术中那样针对图像中的每个点)，因此执行单个组合阶段，其提高了计算效率。

在另一实施例中，可以通过应用图像填充技术来填充稀疏深度/斜率图，以获得每个像素的深度/斜率值。作为结果，发明提供了密集的深度图，其中每个点与场景中那个点的深度估计相关联。

在另一实施例中，本文所描述的用于估计深度图的方法可以与立体匹配算法或多视图匹配算法组合或被立体匹配算法或多视图匹配算法替代，以改善最终结果。

在至少一个实施例中，本文所描述的方法可以在配备有全光相机的移动设备中被实现。

在实施例中，可以使用边缘检测算法来检测极线，并且可以通过线性回归技术来测量它们的斜率(两种方法，边缘检测和线性回归，均可以以子像素准确度被使用)。

在用于深度估计的实施例中，可以仅对已经检测到物体世界的边缘的传感器的那些像素执行所有计算，避免对传感器的非常大量的像素执行计算。

移动终端中的功耗(取决于电池)是极其重要的，这就是为什么算法中的计算效率获得了至关的重要性。众所周知，一些3D电话(使用2个相机)在低电量条件下禁用第二个相机(和3D功能)。这些示例清楚地表明，为了在移动设备中实时获得深度图，以极其高效的方式实现算法是方便的。我们的发明将使常规相机能够使用极度高效的算法在移动设备(移动电话、平板电脑......)中提供3D图像，以仅对于识别出的边缘计算深度。

要做到那点，有可能利用当今处理器中(甚至在来自移动设备的处理器中)包括的多核。基本思想是以这样一种方式创建若干算法执行线程，该方式中每个线程负责执行不同的操作。例如在图15A中，我们示出了电子移动设备1000，该电子移动设备1000包括我们的多视图系统1001，捕获通过处理器1004处理的图像1002，该处理器1004可以是多核处理器1006。处理器1004可以包括两个或更多个CPU(中央处理单元)1008a和1008b(图15B)。

可以使用更先进的计算技术来提高计算效率。例如，当前处理器1004可以包括图形处理器单元(GPU)1010，甚至那些为移动设备1010设计的GPU包括能够同时执行操作的数百或数千个核。因而，在至少一个实施例中，在GPU的不同核中同时处理每个极图像以进一步加速算法的执行。

Claims

1.用于从场景获取深度信息的方法，包括以下步骤：

b)对于步骤a)的每个图像，同时获取关于参考六轴参考系统的图像的位置的数据；

c)从步骤b)的图像中选择至少两个图像；

d)校正在步骤c)所选择的图像，从而生成校正的图像的集合；以及

e)从校正的图像生成深度图。

2.根据权利要求1所述的方法，其中在拍摄的时间期间所述图像的所述位置是从用至少一个定位设备获取的定位数据的集合测量的，所述定位设备选自加速度计、IMU、AHRS、GPS、速度计和/或陀螺仪的组。

3.根据权利要求2所述的方法，其中所述定位设备刚性地附接到至少一个相机。

4.根据前面的权利要求中任一项所述的方法，其中至少一个相机与移动设备相关联。

5.根据权利要求4所述的方法，其中所述移动设备是智能电话、平板电脑、膝上型电脑或紧凑型相机。

6.根据前面的权利要求中任一项所述的方法，其中，在步骤c)中，图像基于在六轴参考系统中它们的位置被选择。

7.根据权利要求6所述的方法，其中所述图像被选择，使得它们的到相邻图像的相对距离(d)引起相邻图像之间最多一个像素的视差。

8.根据权利要求7所述的方法，其中步骤e)包括用所述校正的图像生成虚拟合成孔径积分成像系统(16200)，从而生成极图像的集合。

9.根据权利要求6所述的方法，其中所述图像被选择，使得至少一个图像使得它的到其相邻图像的相对距离引起多于一个像素的视差。

10.根据权利要求9所述的方法，其中步骤e)包括用校正的图像生成虚拟立体全光系统，从而生成极图像的集合。

11.根据权利要求8或10所述的方法，其中步骤e)还包括计算来自所述极图像的集合的至少一条极线的至少一个斜率。

12.根据权利要求11所述的方法，其中所述极线优选地以子像素水平使用边缘检测算法被计算。

13.根据权利要求11所述的方法，其中所述极线优选地以子像素水平通过使用线性回归算法被计算。

14.根据权利要求11所述的方法，其中步骤e)还包括通过将所述极线的所述斜率转换成深度来获得场景的深度图。

15.根据前面的权利要求中任一项所述的方法，其中步骤e)包括使用多视图匹配算法，优选地，立体匹配算法来生成深度图。

16.根据前面的权利要求中任一项所述的方法，其中所述方法还包括从所述深度图生成所述场景的三维图像的步骤。

17.根据前面的权利要求中任一项所述的方法，其中在步骤a)中，至少一个相机在拍摄的时间期间被移动。

18.根据权利要求17所述的方法，其中至少一个相机的移动是由人手震颤产生的不确定的随机的移动。

19.根据权利要求17所述的方法，其中至少一个相机附接到相对于所述场景移动的结构，优选地汽车。

20.根据前面的权利要求中任一项所述的方法，其中步骤a)的所述多个图像由至少两个相机获取。

21.根据权利要求20所述的方法，其中所述至少两个相机被对准并且它们的相对位置是已知的。

22.根据权利要求20或21所述的方法，其中所述相机中的至少一个是全光相机。

23.根据前面的权利要求中任一项所述的方法，其中视频序列包括前景、可选的中景和背景2D图像(位于物体世界中的不同深度)中的至少两个深度水平，并且其中连续帧中的不同水平的2D图像的所述组合和/或更接近背景的2D图像中遮挡的改变和/或更接近前景的2D图像中透视和尺寸的改变对用户产生3D感知。

24.根据前面的权利要求中任一项所述的方法，其中仅沿着垂直/水平维度分布的所述极图像中的一些或全部被考虑，以便降低统计噪声。

25.根据前面的权利要求中任一项所述的方法，其中通过分析所述水平和所述垂直极线获得的所述斜率被组合到多维矩阵中。

26.根据前面的权利要求中任一项所述的方法，其中在所述水平和/或垂直极线中计算的所述深度/斜率被直接组合到二维稀疏深度/斜率图中。

27.根据前面的权利要求中任一项所述的方法，其中所述稀疏深度/斜率图可以通过应用图像填充技术被填充，以获得对于每个像素的深度/斜率值。

28.根据前面的权利要求中任一项所述的方法，其中，对于深度估计，仅对其中物体世界的边缘已被检测到的传感器的那些像素执行计算。

29.用于从场景获得深度信息的设备，所述设备包括至少相机、至少定位设备以及被配置为执行根据权利要求12-8中任一项所述的方法的处理装置。

30.根据权利要求29所述的设备，其中所述设备包括至少两个相机。

31.根据权利要求30所述的设备，其中所述相机中的至少一个是全光相机。

32.根据权利要求29所述的设备，其中所述相机被对准并且它们的相对位置是已知的。

33.根据权利要求29至32中任一项所述的设备，其中所述设备包括至少第三相机，并且其中所述相机中的一个与所述全光相机水平对准，所述相机中的至少一个与所述全光相机垂直对准。

34.根据权利要求29至33中任一项所述的设备，其中用于获得深度信息的方法包括以下步骤：

a)在拍摄的时间期间获取场景的多个图像，其中所述多个图像提供来自至少两个相机的场景的至少两个不同的视图；

b)校正来自步骤a)的所述图像，从而生成校正的图像的集合；

c)从校正的图像生成深度图。

35.根据权利要求2934中任一项所述的设备，其中视频序列包括前景、可选的中景和背景2D图像(位于物体世界中的不同深度)中的至少两个深度水平，并且其中连续帧中的不同水平的2D图像的所述组合和/或更接近背景的2D图像中遮挡的改变和/或更接近前景的2D图像中透视和尺寸的改变对用户产生3D感知。

36.根据权利要求29-35中任一项所述的设备，其中仅沿着垂直/水平维度分布的所述极图像中的一些或全部被考虑，以便降低统计噪声。

37.根据权利要求29-36中任一项所述的设备，其中通过分析所述水平和垂直极线获得的所述斜率被组合到多维矩阵中。

38.根据权利要求29-37中任一项所述的设备，其中在所述水平和/或垂直极线中计算的所述深度/斜率被直接组合到二维稀疏深度/斜率图中。

39.根据权利要求29-38中任一项所述的设备，其中所述稀疏深度/斜率图可以通过应用图像填充技术被填充，以获得对于每个像素的深度/斜率值。

40.根据权利要求29-39中任一项所述的设备，其中，对于深度估计，仅对其中物体世界的边缘已被检测到的传感器的那些像素执行计算。