CN103517057A

CN103517057A - 用于生成鲁棒性立体图像的技术

Info

Publication number: CN103517057A
Application number: CN201310224750.2A
Authority: CN
Inventors: 卡里·皮利; 亚历杭德罗·特罗科利; 周昌印
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2012-06-07
Filing date: 2013-06-07
Publication date: 2014-01-15
Also published as: US20130329015A1; US9571818B2; DE102013210153A1; TWI489857B; TW201415863A; DE102013210153B4

Abstract

本发明描述了用于从立体图像中生成鲁棒性深度图的技术。鲁棒性深度图从采用或不采用闪光照明所捕获的立体图像的集合中生成。因为实现了根据使用不同闪光照明级别所捕获的光强度的比率来在匹配窗口中加权像素的像素匹配算法，所以深度图比使用常规技术所生成的深度图更具鲁棒性。比率图提供相对于邻近像素的深度的粗略估计，该粗略估计使得闪光/无闪光像素匹配算法能够使表现为与匹配窗口中的中央像素位于不同深度的像素降值。此外，比率图可用来过滤所生成的深度图以生成针对立体图像内的对象的深度的平滑估计。

Description

用于生成鲁棒性立体图像的技术

技术领域

本发明总地涉及立体图像，并且，更具体地，涉及从采用和不用诸如闪光器件的光源所捕获的一对对应的立体图像中生成鲁棒性立体图像的技术。

背景技术

近来，三维(3D)立体图像和视频在消费者市场中已备受青睐。随着相对便宜的3D HDTV(高清晰度电视)装置的市场化所引入的更宽泛的3D内容选择已经使以3D形式观看图像和视频变得更加普遍。使计算机配备照相机装置以及从立体图像对中计算深度和空间关系已通过3D建模、机器人导航、新图像合成、增扩实境、以及游戏中的应用而被大量记载。近来，立体成像已展示在像诸如Finepix3D照相机和Bloggie3D照相机的手持视频照相机那样常见的应用中。

常规地，应用使用基本立体重建算法从所捕获的立体图像中生成深度图(depth map)以通过对取自偏移位置的、跨两个或两个以上图像的场景点的投射加以比较来针对每个像素生成深度值。以另一种方式来讲，立体重建算法基本是像素匹配操作。典型地通过最小化平方和、最大化像素相关性、或通过应用秩(rank)或统计变换(census transform)并随后匹配秩或位串来实施像素匹配。这些算法在有纹理的表面上工作较好，但算法难以在具有均匀颜色的表面上进行准确匹配。此外，像素匹配算法临近于遮挡(occlusion)边界可能失败，因为在边界处的深度间断点将使局部像素跨不同图像而有所不同(即封闭表面在一个图像中遮挡背景中的像素但在其他图像中则遮挡不同的背景对象并且因此，那些像素不具有对应匹配)。常规算法可能失败的情况的一个好的示例是当通过细网格诸如藤椅或铁丝网围栏来拍摄照片时。

因此，本领域所需要的是用于生成与立体图像相关联的准确的、逐像素的深度图的更有效的方法。

发明内容

本发明的一个实施例阐述了用于从立体图像的集合中生成深度图的方法。方法包括以下步骤：生成与立体图像的集合中的第一图像和立体图像的集合中的对应第二图像相关联的比率图，其中第一图像通过使用环境照明由第一图像传感器所捕获，并且第二图像通过使用闪光照明由第一图像传感器所捕获。第一图像对应于与由第一图像传感器捕获第一图像大致同时地由第二图像传感器所捕获的第三图像。类似地，第二图像对应于与由第一图像传感器捕获第二图像大致同时地由第二图像传感器所捕获的第四图像。方法进一步包括以下步骤：基于第二图像和第四图像的比较生成与第二图像相关联的像差图，以及生成与第二图像相关联的深度图。方法还可包括以下步骤：生成与第三图像和第四图像相关联的比率图、生成与第四图像相关联的像差图、以及生成与第四图像相关联的深度图。针对第二图像中的每个像素，比率图将像素与基于第二图像的针对像素的第一强度值和基于第一图像的针对对应像素的第二强度值的比率相关联、像差图根据将第二图像中的像素与第四图像中的对应像素加以比较的像素匹配算法来将像素与像差值相关联，其中像素匹配算法包括基于与像素相关联的比率的至少一个计算，并且深度图将像素与基于焦距、基线偏移距离以及与像素相关联的像差值所计算的深度值相关联。

本发明的另一个实施例阐述了包括指令的计算机可读存储介质，当由处理单元所执行时，该指令致使处理单元根据上文所阐述的方法实施用于从立体图像的集合中生成深度图的操作。本发明的又一个实施例阐述了用于从立体图像的集合中生成深度图的系统。系统包括存储器和处理器。存储器配置为存储由两个或两个以上图像传感器所捕获的立体图像的集合，该立体图像的集合包括通过使用环境照明由第一图像传感器所捕获的第一图像、通过使用闪光照明由第一图像传感器所捕获的第二图像、与由第一图像传感器捕获第一图像大致同时地由第二图像传感器所捕获的第三图像、以及与由第一图像传感器捕获第二图像大致同时地由第二图像传感器所捕获的第四图像。处理器耦连到存储器并配置为根据上文所阐述的方法实施用于从立体图像的集合中生成深度图的操作。

所公开的系统的一个优点是立体视觉照相机对于生成鲁棒性深度图并不要求光源位置或强度分布的高校准度。本文所描述的技术可实现在许多低成本的手持设备中。简单比较使用不同照明度的所捕获的光强度的比率提供了信息，该信息可用来有效率地匹配与相同表面相对应的像素并且可用来在位于像素匹配算法中的不同深度处的像素之间进行区分。

附图说明

因此，可以详细地理解本发明的上述特征，并且可以参考实施例得到对如上面所简要概括的本发明更具体的描述，其中一些实施例在附图中示出。然而，应当注意的是，附图仅示出了本发明的典型实施例，并且因此不应被认为是对其范围的限制，本发明可以许可其他等效的实施例。

图1是示出了配置为实现本发明的一个或多个方面的计算机系统的框图；

图2详细说明了根据本发明的一个实施例的、立体视觉照相机的基本几何结构；

图3示出了根据本发明的一个实施例的、用于捕获闪光/无闪光立体图像对的立体视觉照相机；

图4示出了根据本发明的一个实施例的、闪光/无闪光立体图像对和对应比率图的示例；

图5A和5B示出了根据本发明的一个实施例的、用于计算与像素相关联的像差空间图像(DSI)的像素匹配算法；

图6A和6B示出了根据本发明的一个实施例的、用于生成更具鲁棒性的深度图的迭代过滤算法；

图7是根据本发明的一个实施例的、用于生成与立体图像相关联的像差图的方法步骤的流程图；以及

图8是根据本发明的一个实施例的、用于生成与闪光立体图像相关联的经过滤的像差图的方法步骤的流程图。

为了清楚起见，在适用的情况下，已经使用同样的参考数字以指明在附图之间共同的同样的元件。应预期到的是，一个实施例的特征可包含在其他实施例中而不用进一步复述。

具体实施方式

在下面的描述中，将阐述大量的具体细节以提供对本发明更透彻的理解。然而，本领域的技术人员应该清楚，本发明可以在没有一个或多个这些具体细节的情况下得以实践。

系统概述

图1是示出了配置为实现本发明的一个或多个方面的计算机系统100的框图。计算机系统100可以是台式计算机、膝上计算机、手持设备、蜂窝式电话、PDA(个人数字助理)、平板计算机、照相机、或其他众所周知类型的消费者电子设备。

如图1所示，计算机系统100包括但不限于，经由可以包括存储器桥105的互连路径通信的中央处理单元(CPU)102和系统存储器104。存储器桥105可以是例如北桥芯片，经由总线或其他通信路径106(例如超传输(HyperTransport)链路)连接到I/O(输入/输出)桥107。I/O桥107，其可以是例如南桥芯片，从一个或多个用户输入设备108(例如键盘、鼠标)接收用户输入并且经由通信路径106和存储器桥105将该输入转发到CPU102。并行处理子系统112经由总线或第二通信路径113(例如外围部件互连Express(PCIe)、加速图形端口或超传输链路)耦连到存储器桥105；在一个实施例中，并行处理子系统112是将像素传递到显示设备110(例如传统的基于阴极射线管或液晶显示器的监视器)的图形子系统。系统盘114也连接到I/O桥107。交换器116提供I/O桥107与诸如网络适配器118以及各种插卡120和121的其他部件之间的连接。其他部件(未明确示出)，包括通用串行总线(USB)或其他端口连接、压缩光盘(CD)驱动器、数字视频光盘(DVD)驱动器、胶片录制设备及类似部件，也可以连接到I/O桥107。图1所示的各种通信路径包括具体命名的通信路径106和113可以使用任何适合的协议实现，诸如PCI Express、AGP(加速图形端口)、超传输或者任何其他总线或点到点通信协议，并且如本领域已知的，不同设备间的连接可使用不同协议。

在一个实施例中，并行处理子系统112包含经优化用于图形和视频处理的电路，包括例如视频输出电路，并且构成图形处理单元(GPU)。在另一个实施例中，并行处理子系统112包含经优化用于通用处理的电路，与此同时保留底层(underlying)的计算架构，本文将更详细地进行描述。在又一个实施例中，可以将并行处理子系统112与一个或多个其他系统元件集成在单个子系统中，诸如结合存储器桥105、CPU102以及I/O桥107，以形成片上系统(SoC)。

应该理解，本文所示系统是示例性的，并且变化和修改都是可能的。连接拓扑，包括桥的数目和布置、CPU102的数目以及并行处理子系统112的数目，可根据需要修改。例如，在一些实施例中，系统存储器104直接连接到CPU102而不是通过桥，并且其他设备经由存储器桥105和CPU102与系统存储器104通信。在其他替代性拓扑中，并行处理子系统112连接到I/O桥107或直接连接到CPU102，而不是连接到存储器桥105。而在其他实施例中，I/O桥107和存储器桥105可能被集成到单个芯片上而不是作为一个或多个分立设备存在。大型实施例可以包括两个或两个以上的CPU102以及两个或两个以上的并行处理系统112。本文所示的特定部件是可选的；例如，任何数目的插卡或外围设备都可能得到支持。在一些实施例中，交换器116被去掉，网络适配器118和插卡120、121直接连接到I/O桥107。

图2详细说明了根据本发明的一个实施例的、立体视觉照相机200的基本几何结构。立体视觉照相机200可包括计算系统100的一个或多个元件。例如，立体视觉照相机可包括由系统总线所连接的CPU102和系统存储器104。立体视觉照相机200还可包括用于处理图像数据的并行处理子系统112。在一个实施例中，立体视觉照相机包括在相同集成电路上以形成SoC的CPU102和GPU112。立体视觉照相机200还可包括存储在系统存储器104中的应用或固件，当由CPU102或GPU112所执行时，该应用或固件使得立体视觉照相机200能够处理立体图像并生成深度图，如下文所更全面地描述。此外，立体视觉照相机的元件可包括在计算系统100内，诸如通过在平板计算机、蜂窝式电话、或其他手持设备中包括两个图像传感器。

如图2所示，立体视觉照相机200还可包括使得立体视觉照相机200能够捕获立体图像的集合的两个或两个以上偏移图像传感器。在一个实施例中，数字图像可存储在系统存储器104或某个可以或不可移除的其他非易失性存储器中。图像可经由非经压缩格式诸如32bpp BMP(位图)格式、或经压缩格式诸如JPEG(联合图像专家组)格式来存储在存储器中。立体视觉照相机200可随后处理从存储器104所读取的图像。在另一个实施例中，在从图像传感器读取之后，原始图像传感器数据可经由立体图像处理管线直接处理。经处理的数据可随后以可用格式之一被写出到系统存储器104。

图2进一步示出了使用两个图像传感器捕获立体图像对。左图像传感器(C_L)201捕获左图像并且右图像传感器(C_R)202大致同时地捕获右图像。每个图像传感器201、202可与将光聚焦在图像传感器的表面上的透镜配对。例如，如所示，左透镜203与左图像传感器201配对并且右透镜204与右图像传感器202配对。虽然图2中未明确示出，但是每个图像传感器可集成到包括透镜、图像传感器、快门机构、以及诸如可以或不可移除的偏光滤光镜或滤色镜的一个或多个滤镜的图像传感器组件中。在一个实施例中，图像传感器201、202可以是CMOS(互补金属氧化物半导体)图像传感器。在另一个实施例中，图像传感器201、202可以是CCD(电荷耦合器件)图像传感器。

在典型配置中，图像传感器201、202在第一维中按基线(B)偏移距离来偏移。基线偏移允许所捕获的图像被分析以确定与对应立体图像对中的对象相关联的深度。例如，如图2所示，对象210示出在针对左图像传感器201和右图像传感器202的视觉的重叠场内的位置处。对象与立体视觉照相机200的透镜203、204的表面的距离是(Z)。透镜203、204与焦距(f)相关联，该焦距是从透镜203、204到图像传感器表面(即焦平面)的距离，在该表面，穿过透镜的所有准直光聚集到图像传感器的单个点上。焦距与透镜203、204的几何结构和材料有关。如本领域的技术人员所知，视场(FOV)的焦距和形状成反比。换句话说，随着光学系统焦距的减小，光学系统的视场增加。透镜203、204将位于在图像传感器前面的等于焦距(f)的位置处使得穿过透镜的光聚焦在图像传感器上。

随着用户捕获图像，对象210表面所反射的光投射到图像传感器201、202的表面上。对象210的左前角(P₁)投射到左图像传感器201上的第一像素位置X₁处并且对象210的右前角(P₂)投射到左图像传感器201上的第二像素位置X₂处。类似地，对象210的左前角(P₁)投射到右图像传感器202上的第三像素位置X₃处并且对象210的右前角(P₂)投射到右图像传感器202上的第四像素位置X₄处。应理解的是，取决于透镜(或多个透镜)的配置，通过对图像传感器201、202进行取样所捕获的图像可以在水平(如图2所示)和垂直两个方向上反转。立体视觉照相机200可配置为通过以相反顺序对像素进行取样来校正反转。

还如图2所示，归因于对象210关于图像传感器201、202位置的相对位置，在左和右图像中的对象210的所投射的位置不一样。该效果称作视差(parallax)并被立体视觉系统所利用来使得用户能够体验3D效果。换句话说，来自位置远离照相机(即在背景中)的对象的光以近似相同的角度穿过左透镜203和右透镜204，并在左图像传感器201和右图像传感器202中投射到相同像素位置上。相反，来自位置离照相机较近的对象的光以不同角度穿过左透镜203和右透镜204，并且因此在图像传感器201、202上投射到不同像素位置。所投射的像素位置中的像差(disparity)将总是依据图像传感器201、202之间的基线偏移而在相同维度(例如水平)中。在左图像中的所投射点和在右图像中的相同所投射点的像素位置之间的像差(D)使得处理单元能够分析所捕获的图像来估计与场景内的不同点(即像素)相关联的深度。通过分别解答等式1和2来实施针对对象210的左前角(P1)和右前角(P2)的所投射的像素位置的像差(D)计算，如下文所示。

D(P₁)＝x₁-x₃ (等式1)

D(P₂)＝x₂-x₄ (等式2)

如所示，x₁和x₂是从经由左图像传感器201所捕获的左立体图像的左边沿所测量的尺寸并且x₃和x₄是从经由右图像传感器202所捕获的右立体图像的左边沿所测量的尺寸。应理解的是，所捕获的立体图像的左边沿可以不与对应图像传感器的最左像素相对应。可实施立体视觉照相机200的校准以纠正左图像和右图像，使得针对发源于位于背景中的对象的光而言左立体图像中的最左像素在水平方向上对应于右立体图像的最左像素。

给定对象210的左前角(P1)和右前角(P2)的计算出的像差(D)，通过分别解答等式3和4来实施针对对象210的左前角(P1)和右前角(P2) 的深度(Z)计算，如下文所示。

Z (P_{1}) = \frac{f \cdot B}{D (P_{1})} = \frac{f \cdot B}{x_{z} - x_{3}}

(等式3)

Z (P_{2}) = \frac{f \cdot B}{D (P_{2})} = \frac{f \cdot B}{x_{2} - x_{4}}

(等式4)

焦距(f)和基线(B)是基于实现在立体视觉照相机200中的图像传感器201、202和透镜203、204的配置所定义的已知常数。因此，如等式3和4所清楚显示的，深度与在左和右图像中对应像素之间的像差量成反比。因此，通过将一幅图像中的每个像素与另一幅图像中的对应像素相匹配、计算在对应的匹配像素位置之间的像差、以及基于计算出的像差确定每个像素的深度，来实施针对左或右图像的每个像素的深度计算。然而实际上，当尝试匹配每幅图像中的像素位置时遭遇了许多问题。例如，常规像素匹配算法典型地利用窗口函数以将一幅图像中的小像素窗口与对应图像中的类似像素窗口相匹配。然而，靠近深度间断点边界(即在窗口可包括与位于不同深度的多个表面相关联的像素的情况下)，围绕实际对应像素的窗口可能由于由图像传感器和场景中对象的不同空间位置所造成的遮挡而不同。此外，在搜索范围内的多个潜在窗口可共享类似特性的均匀表面上可能难以匹配窗口。典型地，常规像素匹配算法提供倾向于在对象边沿处具有低分辨率的低质量深度图。

闪光/无闪光立体系统

图3示出了根据本发明的一个实施例的、用于捕获闪光/无闪光立体图像对的立体视觉照相机300。如图3所示，立体视觉照相机300类似于立体视觉照相机200。然而，立体视觉照相机300包括位置临近于图像传感器201、202的闪光器件330。闪光器件330可以是常规闪光器件诸如用氙气所填充并由高压放电所激发以发出短闪光或光脉冲的电子闪光管。应理解的是，闪光器件330可以是能够发出短的光猝发以照亮场景的任何常规闪光器件。闪光器件330相对于图像传感器201、202位置的精确定位(以及所要求的对应校准)对于实现本发明的某些方面来说并不重要。常规光度深度计算技术要求高校准度以确定场景内对象的深度。例如，可能要求对环境光条件和强度进行取样和控制以及对闪光器件进行定位。本文所述的闪光/无闪光技术对于生成鲁棒性深度图并不要求相同校准度。

为了使用立体视觉照相机300来生成鲁棒性立体图像，应捕获两对立体图像，第一立体图像对(本文称为G_l和G_r)以及第二立体图像对(本文称为F_l和F_r)。第一立体图像对(G_l、G_r)不依靠闪光器件330来照亮场景，而是依靠环境光来照亮场景。第二立体图像对(F_l、F_r)依靠闪光器件330以及环境光来照亮场景。在可替代实施例中，可实现多于两个图像传感器以捕获N视角3D图像(例如用于自动立体显示)。出于例示的目的，本公开涉及2视角立体图像，但本文所描述的技术可扩展到使用N视角实现方案的可替代实施例。

应理解的是，立体视觉照相机300可被校准以纠正用左图像传感器201和右图像传感器202所捕获的数字图像，使得对两个照相机均可见的任何表面点投射到所捕获的图像中的相同扫描线(即以垂直维度)。换句话说，所捕获的图像可对应于图像传感器201、202的像素的子段(subsection)，使得在图像传感器的边沿上的边缘像素不对所捕获的图像的像素起作用。此外，左图像传感器201的边缘中的像素数目可能与右图像传感器202的对应边缘中的像素数目不同。例如，左图像传感器201的上部边缘可能大于右图像传感器202的上部边缘以校正当安装在立体视觉照相机300中时图像传感器201、202的垂直方向上的未对齐。此外，左图像传感器201和右图像传感器202的左和右边缘可被调整使得位于距离立体视觉照相机300无限距离(Z)(即足够大的距离使从对象所反射的光线大致平行地到达左透镜203和右透镜204这二者)处的点在所捕获的图像的水平边界处对齐。以这种方式校准立体视觉照相机300确保位于场景的背景中的图像具有零像差。

为了针对位于场景中对象的表面上的点P320来评估深度(Z)，对立体图像对的两个集合进行分析。假定点P位于其上的对象表面近似朗伯表面(即由表面所反射的光是分散的，使得无论观察者的视角如何，表面对观察者的表观亮度均是相同的)，则在无闪光立体图像对(G_l、G_r)的捕获期间从点P反射到图像传感器201、202中的每一个的光的所测量的强度由等式5中的G(P)所给定。

G(P)＝η·I_a·R_s (等式5)

如等式5所示，在无闪光立体图像对(G_l、G_r)中的点P处的光的强度G(P)依据上文所阐述的关系与环境照明、表面形状、以及反射率相关，其中η是所测量的辐射照度和场景辐射亮度之间的比例常数，I_a是点P处的环境照明的强度，以及R_s是点P处的表面反射率。相反，在闪光立体图像对(F_l、F_r)的捕获期间从点P反射到图像传感器中的每一个的光的所测量的强度由等式6中的F(P)所给定。

F (P) = (η \cdot I_{a} \cdot R_{s}) + (η \cdot I_{f} \cdot \frac{< \hat{n} \cdot \hat{v} >}{r^{2}} \cdot R_{s})

(等式6)

如等式6所示，在闪光立体图像对(F_l、F_r)中的点P处的光的强度F(P)依据上文所阐述的关系与环境照明、闪光照明、表面形状、以及反射率相关，其中η是所测量的辐射照度和场景辐射亮度之间的比例常数，I_a是点P处的环境照明的强度，R_s是点P处的表面反射率，I_f是闪光的强度，r是从点P到闪光的距离，以及<n·v>是表面法线向量n321和到闪光的方向向量v322之间的内积。针对左图像传感器201或者右图像传感器202的闪光/无闪光图像的对应对，可以通过针对对应立体图像中的像素分析所捕获的每个颜色分量的强度值来测量G(P)和F(P)。

测量的准确性假定场景是静态的，其可通过大致同时地捕获闪光和无闪光图像来近似。例如，立体视觉照相机300可能将图像传感器201、202曝光到没有闪光的环境光1/100秒的时间。立体视觉照相机300随后关闭快门并对图像传感器进行取样以捕获无闪光立体图像对(G_l、G_r)。零点几秒之后，立体视觉照相机300将图像传感器201、202曝光到有闪光的环境光1/100秒的时间、关闭快门、并对图像传感器进行取样以捕获闪光立体图像对(F_l、F_r)。假定场景不包括快速移动的对象，因为立体图像对的两个集合均在零点几秒内被捕获，所以左图像传感器201或右图像传感器202中的类似像素对应于无闪光立体图像对(G_l、G_r)和闪光立体图像对(F_l、F_r)二者中的对象上的类似点。在一个实施例中，在对应立体图像对的捕获之间的小运动可通过计算将闪光立体图像对(F_l、F_r)与无闪光立体图像对(G_l、G_r)对齐的变换(典型地是单应性矩阵)来加以校正。

针对左图像传感器201和右图像传感器202这二者，通过对在对应的闪光/无闪光图像中的每个像素的分量采取所捕获的强度值的比率来生成一对比率图(R_l、R_r)，其比较在用和不用闪光照明所捕获的立体图像对中的像素亮度之间的差。在一个实施例中，针对闪光/无闪光立体图像，比率图被定义为在闪光立体图像对(F_l、F_r)中的任何点P处的光的强度F(P)和无闪光立体图像对(G_l、G_r)中的点P处的光的强度G(P)之间的比率的对数，如下文等式7所示。

R (P) = \log (\frac{F (P)}{G (P)}) = \log (1 + \frac{I_{f}}{I_{a}} + \frac{< \hat{n} \cdot \hat{v >}}{r^{2}})

(等式7)

如等式7所示，针对任何点P的比率图独立于表面反射率R_s并基于表面法线向量n321、到闪光的方向向量v322、以及对象距离r而改变。即使闪光和无闪光图像的曝光时间(t_f、t_r)不同并且即使已经应用伽马校正，该独立性仍保持，如等式8所示。

R (P) = \log (\frac{{[t_{f} \cdot F (P)]}^{γ}}{{[t_{r} \cdot G (P)]}^{γ}}) = γ \cdot {\log (\frac{t_{f}}{t_{r}}) + \log (\frac{F (P)}{G (P)})}

(等式8)

在一个实施例中，为避免导致除以零的计算，通过等式9定义比率图，其中ε是某个小数。

R(P)＝log(F(P)+ε)-log(G(P)+ε) (等式9)

比率图(R_l、R_r)基本独立于场景反照率并且反而与从闪光器件330与局部表面定向的距离有关。虽然针对非朗伯表面而言计算并不完全准确，但是具有类似比率值的邻近像素可能源自相同表面。例如，在图3中所示出的表面上临近于点P的点O将具有大约类似的比率值，这是因为点O的表面法线向量n类似于点P的表面法线向量n、点O的方向向量v类似于点P的方向向量v、以及从点O到闪光的距离r类似于从点P到闪光的距离r。因此，对于相同表面的临近像素来说比率值应是类似的。如果对于临近像素而言比率值不是类似的，那么其可指示像素临近于深度边界(即像素与位于不同深度的不同对象的不同表面相关联)或像素临近于其中表面法线定向突然改变的对象的边沿。

图4示出了根据本发明的一个实施例的、闪光/无闪光立体图像对和对应比率图(R_l、R_r)的示例。没有来自闪光器件330的照明而捕获第一立体图像对G_l401和G_r402。在短时间之后，采用来自闪光器件330的照明而捕获第二立体图像对F_l411和F_r412。如图像401、402、411和412中所示，第一对象451位于场景的前景中，并且因此，投射到图像传感器201、202的像素上的、与第一对象451相对应的光与对应于左和右立体图像的像素位置之间的非零像差相关联。第二对象452位于场景的背景中，并且因此，投射到图像传感器201、202的像素上的、与第二对象452相对应的光与对应于左和右图像的像素位置之间的零像差相关联。第三对象453位于深度(Z)处，该深度(Z)小于对象452的深度并大于对象451的深度。因此，投射到图像传感器201、202的像素上的、与第三对象453相对应的光也与对应于左和右图像的像素位置之间的非零像差相关联。然而，与和第三对象453相对应的像素位置相关联的像差小于与和第一对象451相对应的像素位置相关联的像差，并且因此，第一对象451和第三对象453的相对定位在左和右图像中并不相同。

如图4所示，在第二立体图像对F_l411和F_r412中投射在与场景的前景中的对象相关联的像素上的光的强度高于在第一立体图像对G_l401和G_r402中投射在与场景的前景中的对象相关联的像素上的光的强度。此外，在第二立体图像对F_l411和F_r412中投射在与场景的背景中的对象相关联的像素上的光的强度与在第一立体图像对G_l401和G_r402中投射在与场景的背景中的对象相关联的像素上的光的强度大致相同。由闪光器件330所提供的照明将从更靠近闪光器件330的对象反射更高强度的光，如由等式6所反映的(即与来自闪光器件的照明相关的光的强度与从闪光器件330到对象的距离的平方成反比)。

还如图4所示，对应于左图像传感器201和右图像传感器202的、从闪光/无闪光立体图像对所生成的比率图(R_l、R_f)，本文分别称作R_l421和R_r422，显示出位于较浅深度(即在场景的前景中)的对象的光强度值之间的差(即比率值)大于在较深深度(即在场景的背景中)处的对象。例如，比率图R_l421和R_r422反映对象451比对象453更靠近立体视觉照相机300，这是因为与对象451相关联的像素的光强度的差(显示为较亮的颜色诸如白或灰)大于与对象453相关联的像素的光强度的差(显示为较暗的颜色以反映光强度值的较小改变)。类似地，比率图R_l421和R_r422反映对象452位于足够大的深度处使得由闪光器件330的照明所导致的从对象452所反射的光强度的改变是可以忽略的。

比率图可用于针对第二立体图像对F_l411和F_r412中的每个像素来生成像差空间图像(DSI)。像差空间图像是针对给定像素x的、与潜在像差值相关联的成本值的向量。换句话说，像差空间图像计算与在一幅图像中估计要位于每个离散的深度位置处的像素相关联的成本值，其中成本值将比率图(R_l、R_r)考虑在内。成本值基于在被包括在以左闪光立体图像F_l411中的像素x为中心的窗口内的像素和被包括在以右闪光立体图像F_r412中的像差像素为中心的对应搜索窗口内的像素之间的类似性来计算。在一个实施例中，像差空间图像基于等式10来计算，如下所述。

(等式10)

dR＝R_l(x+Δ)-R_l(x) (等式11)

dF＝F_l(x+Δ)-F_r(x-D+Δ) (等式12)

在等式10中，Δ是在像素匹配窗口的搜索范围(r)内的像素中的偏移，r是偏移的最大半径(例如对于7像素乘7像素的搜索窗口而言，r等于3)，dR是针对左立体图像F_l411中的窗口内的偏移像素(x+Δ)与针对左立体图像F_l411中的给定的像素(x)的比率值的差，以及dF是基于搜索窗口的、左立体图像F_l411中的偏移像素(x+Δ)与右立体图像F_r412中的对应偏移像素(x-D+Δ)之间的光的强度的差。第一系数(1*)是源自具有与窗口大小和窗口内的偏移(Δ)相关的标准偏差(σ_Δ)的高斯函数的值。用于第一系数(1*)的高斯函数的示例在下文等式13中给出，其中u和v是从窗口中心到与偏移(Δ)相关联的像素的像素单位距离。应理解的是，针对给定的窗口大小和标准偏差(σ_Δ)，等式13是常量，并且因此，可预计算矩阵来生成多个第一系数(1*)以应用到窗口中的每个像素。

N_{σ_{Δ}} (Δ) = \frac{1}{2 \cdot π \cdot {σ_{Δ}}^{2}} e^{- \frac{u^{2} + v^{2}}{{σ_{Δ}}^{2}}}, Δ = < u, v >

(等式13)

类似地，第二系数(2*)是源自与临近于像素x的比率图的局部范围相关的高斯函数的值。用于第二系数(2*)的高斯函数的示例在下文等式14中给出，其中标准偏差(σ_R)是依赖于比率图在像素x周围的局部范围的函数。

N_{σ_{R}} (dR) = \frac{1}{2 \cdot π \cdot {σ_{R}}^{2}} e^{- \frac{{dR}^{2}}{{σ_{Δ}}^{2}}}

(等式14)

换句话说，所生成的比率图的局部区域中的值的范围和匹配窗口的大小确定当计算成本值用于针对给定的像素x选择像差值D时来如何加权像素。

图5A和5B示出了根据本发明的一个实施例的、用于计算与像素x501相关联的像差空间图像(DSI)的像素匹配算法。为了说明的目的，闪光立体图像F_l411和F_r412在水平宽度或x维中是256像素并且在垂直高度或y维中是192像素。如图5A所示，像素x501相对于位于图像左上角中的图像F_l411的原点具有位置索引<98px，52px>。放大了16像素乘16像素窗口500的详细视图以提供对左闪光立体图像F_l411中到像素x501的临近像素的更佳视图。在一个实施例中，使用如上所述的像素匹配算法实现针对像素x501计算像差空间图像。左闪光立体图像F_l411中的窗口505在图5A中显示，该窗口505大小是7像素乘7像素，以像素x501为中心，如像素匹配算法的一个实施例中所使用的。

可基于立体视觉照相机300的可用处理容量来选择窗口的大小。较大的窗口大小要求较多计算用于与像素x501和给定的像差D相关联的每个成本值(即如等式10所示的C(x，D))。较小的窗口大小要求较少计算用于每个成本值。例如，给定图5A中所示出的7×7窗口505，计算成本值包括49个不同项的和，其中每个项要求：用于确定与匹配窗口的大小相关的第一系数(1*)的查找操作，与确定dR(要求在比率图R_l421内的两个查找操作)相关的计算，用于确定dF(要求在对应闪光立体图像对F_l411和F_r412内的两个查找操作)的计算，用于确定与比率图的范围相关的第二系数的计算或查找操作，以及从第一系数、第二系数、以及dF的平方中确定项的乘法操作。虽然成本值计算在计算数目方面耗费成本，但是应理解的是，过多地减少窗口大小可能导致更不准确的像差空间图像。

如图5B所示，框515显示了用于将左闪光立体图像F_l411中的窗口505的像素与右闪光立体图像F_r412中的多个潜在搜索窗口(例如窗口510)中的像素相匹配的最大搜索范围。每个潜在搜索窗口从像素x501的对应位置以像差D偏移。应理解的是，对于左闪光立体图像F_l411中的任何像素x501，右闪光立体图像F_r412中的对应的像差像素(x-D)应位于与像素x501相同的位置处或位于像素x501左方某一距离D处。在一个实施例中，搜索范围可被限制在某一像差最大量D_max，诸如64像素，其与针对立体图像对F_l411和F_r412的任何像素的最小深度Z_min相关。在另一个实施例中，可不限制搜索范围并且像素匹配算法将针对对应于像素x501的像素位置左方的每个像素、直到并包括右闪光立体图像F_r412边沿的像素来计算成本值。在又一个实施例中，可根据像素x501的比率值(R₁)来设置搜索范围。例如，小比率值可指示像素x501的表面位于足够大的深度并且针对对应匹配像素的像差D预计是小的。

一旦为像素x501计算像差空间图像，则为像素x501确定了针对像差D的估计。在一个实施例中，像素匹配算法实现赢者通吃(winner-take-all，WTA)优化，其通过在与像素x501相关联的像差空间图像中查找最小成本值来确定针对像素x501的所估计的像差，如等式15所示出的。针对像素x501的所选择的像差D是在窗口515的搜索范围内使成本函数(即等式10)最小化的值D。在可替代实施例中，可实现用于估计针对像素的像差值D的较高质量的全局方法，诸如图分割方法或本领域技术人员已知的其他算法。根据上文所阐述的等式3或4，为闪光立体图像的每个像素计算像差D来生成像差图(D_l)，该像差图(D_l)可用来生成针对闪光立体图像的每个像素的深度图Z_l。

D(x)＝min C(x，D) (等式15)

在一个实施例中，为了针对被遮挡的表面来估计深度Z，还可实现左右一致性(LRC)技术。在LRC技术中，如上所述生成针对左闪光立体图像F_l411的每个像素的像差图(D_l)。针对右闪光立体图像F_r412的像素实施类似操作以生成对应像差图(D_r)，除了当为右闪光立体图像F_r412生成像差图(D_r)时使用等式16和17而非等式11和12来计算用于等式10的 dR和dF的项。类似地，由于在右闪光立体图像F_r412中，因此搜索范围将扩展到左闪光立体图像F_l411中的右方而非左方。

dR＝R_r(x+Δ)-R_r(x) (等式16)

dF＝F_r(x+Δ)-F_l(x+D+Δ) (等式17)

在LRC技术中，针对左闪光立体图像F_l411中的像素的所估计的像差应与针对右闪光立体图像F_r412中的对应像素的所估计的像差相反，如等式18所示出的。如果对于一幅立体图像中的像素以及其他立体图像中的对应像素精确地估计了D_l和D_r，那么像差误差E(x)应接近零。在一个实施例中，如果像差误差E(x)大于阈值限制，那么针对像素x501的所估计的像差D(x)可被加标签为不可靠(或被遮挡的)。对于任何这种像素，所估计的像差可计算为来自左闪光立体图像F_l411的所估计像差和来自右闪光立体图像F_r412的所估计像差的平均数。在其他实施例中，被遮挡的像素将从具有类似比率值的邻近像素拷贝像差。

E(x)＝|D_l(x)+D_r(x+D_l(x))| (等式18)

常规立体像素匹配算法可能难以为临近于深度间断点的像素估计准确的像差(D(x))。如图5A中的窗口505所示，窗口505中的一些像素与第三对象453的表面相关联，该第三对象453位于关于左图像传感器201的第一对象451的后面。然而，由于关于右图像传感器202的对象的相对位置，以右闪光立体图像F_r412中的对应像差像素为中心的搜索窗口510可能不包括与第三对象453相关联的任何像素。常规像素匹配算法可能无法在位于不同深度的不同对象的像素之间进行区分，并且因此，常规算法可能确定窗口505不类似于在对应立体图像中的窗口510，并且基于搜索范围内的不同搜索窗口的所估计像差D可能是不正确的。通过利用比率图加权与在不同深度处的表面相关联的像素，本文所描述的闪光/无闪光像素匹配算法为立体图像对的每个像素生成更准确的像差估计。此外，闪光/无闪光像素匹配算法不要求闪光器件330的精确校准，因为比率图用来过滤像素用于匹配目的而不是用于直接计算像差估计或深度值。

在一个实施例中，立体图像对可被捕获为立体视频的一部分。在这种实施例中，通过分析立体视频的连续帧可对场景中对象的运动进行估计以生成与场景中的各对象(即相关像素的集合)相关联的所估计的运动向量。通过应用所估计的运动向量可增强上述像素匹配算法以对发生在捕获无闪光立体图像对的点和捕获闪光立体图像对的点之间的对象的小位移加以校正。例如，可基于从闪光立体图像(即411、412)中的给定像素位置以所估计的运动向量偏移的无闪光立体图像(即401、402)中的像素来计算比率值。

过滤以减少深度量化

使用闪光/无闪光像素匹配算法所生成的像差图D(x)虽然比使用常规像素匹配算法所生成的像差图更准确，但针对某些基于局部不规则的像素仍可能具有较差精度。然而典型地，像差值和比率值这二者针对任何平面表面均是局部线性的。换句话说，相同表面上的临近点典型地将位于大致相同深度，并且因此应具有类似的像差和比率值。结果，过滤采用闪光/无闪光像素匹配算法所生成的像差图将生成闪光立体图像对(F_l、F_r)的更具鲁棒性的深度图。

图6A和6B示出了根据本发明的一个实施例的、用于生成更具鲁棒性的深度图的迭代过滤算法。图6A示出根据上文所阐述的闪光/无闪光像素匹配算法所计算的、针对包括人手的场景的像差图600-0。然而，如图6A中明显示出的，像差图600-0包括局部不一致性(例如601)，其中闪光/无闪光像素匹配算法表现为针对特定像素具有不正确的像差值。在一个实施例中，立体视觉照相机300可至少部分基于比率图(R_l、R_r)来过滤初始像差图600-0以提供与闪光立体图像对(F_l、F_r)相关联的更一致和准确的像差图。实现下文所示出的等式19以为像素x过滤像差值，其中根据一个示范性的实施例，Ω是所有加权W(x，Δ)的和并且τ被设置为2(即5像素乘5像素的窗口)。

D^{i + 1} (x) = \frac{1}{Ω} \underset{| Δ | < τ}{Σ} W (x, Δ) \cdot D^{i} (x + Δ)

(等式19)

换句话说，从初始像差图600-0中的邻近像素的加权和来计算经过滤的像差图的每个像素。对于相对于像素x的每个像素位置的加权由等式20、21以及22所给定，如下所示。

W (x, Δ) = N_{σ_{R}} (δF (x)) \cdot N_{σ_{D}} (δ D^{i} (x)) \cdot e^{- C (x + Δ)}

(等式20)

δF(x)＝F(x+Δ)-F(x) (等式21)

δDⁱ(x)＝Dⁱ(x+Δ)-Dⁱ(x) (等式22)

指数项(e^-C(x+Δ))是匹配算法的置信级别并且与由等式15针对特定像素x和所估计的像差D所给定的成本值有关。换句话说，针对给定像素x的低成本值(即良好的匹配置信)比具有高成本值(即较差匹配置信)的像素产生更大的加权。加权计算的基本思想是深度信息应从高置信像素流向低置信像素。此外，N_σR和N_σD系数由类似于等式13或14的高斯函数所生成，如上所述。对像差图600-0应用等式19来生成新的经过滤的像差图。可通过N次迭代重复地应用等式19的过滤函数以生成经过滤的结果，诸如像差图600-30(迭代30次)，如图6B所示。迭代过滤算法有效率地移除不匹配邻近像素的单个像素间断点。

图7是根据本发明的一个实施例的、用于生成与立体图像相关联的像差图的方法步骤的流程图。虽然结合图1-6的系统描述了方法步骤，但是本领域的普通技术人员应理解的是，配置为实施方法步骤的任何系统均在本发明的范围内。

如所示，方法700在步骤710处开始，其中立体视觉照相机300不使用来自闪光器件330的闪光照明捕获立体图像对G_l401、G_r402。其后不久，在步骤712处，立体视觉照相机300使用来自闪光器件330的闪光照明捕获立体图像对F_l411、F_r412。在一些实施例中，将实现多于两个图像传感器以采用或不用闪光照明而捕获图像的n元组集合。

在步骤714处，立体视觉照相机300生成与采用闪光照明所捕获的闪光立体图像(例如F_l411、F_r412)相关联的比率图的集合。针对闪光立体图像的集合中的每个图像，比率图被定义为闪光立体图像中的像素的光强度值与对应无闪光立体图像中的像素的光强度值的比率的对数。在一个实施例中，根据如上所述的等式9定义比率图。比率图为闪光立体图像中的每个像素提供深度的粗略指示，其中在类似表面上的类似深度和定向处的像素具有类似比率值。

在步骤716处，立体视觉照相机300通过实现闪光/无闪光像素匹配算法来生成与闪光立体图像相关联的像差图的集合和对应比率图。对于闪光立体图像(例如F_l411、F_r412)的集合中的每个图像，像差图定义为与闪光立体图像中的像素相关联的所估计的像差值(D(x))的集合。在一个实施例中，针对像素的每个像差值与用于针对给定像素的潜在像差值的范围的最小成本相对应。通过解答如上所述的等式15可导出最小成本。

在步骤718处，立体视觉照相机300基于像差图中的至少一个来生成深度图。在一个实施例中，针对立体视觉照相机300给定已知的焦距和基线偏移，通过解答如上所述的等式3或4可计算深度图。随后方法700终止。

图8是根据本发明的一个实施例的、用于生成与闪光立体图像相关联的经过滤的像差图的方法步骤的流程图。虽然结合图1-6的系统描述了方法步骤，但是本领域的普通技术人员应理解的是，配置为以任何顺序实施方法步骤的任何系统均在本发明的范围内。

如所示，方法800在步骤810处开始，其中生成针对闪光立体图像的像差图。例如，可通过方法700生成像差图。在步骤812处，立体视觉照相机300过滤像差图以生成经过滤的像差图。在一个实施例中，立体视觉照相机300根据如上所述的等式19实现过滤函数以过滤初始像差图。在步骤814处，立体视觉照相机300确定已完成的迭代数i是否大于或等于迭代的阈值数N。如果i小于N，那么方法800返回步骤812，其中立体视觉照相机300通过过滤在先前迭代期间所生成的经过滤的像差图来实施附加的迭代并将i加1。然而，如果i大于或等于N，那么方法800终止。

总而言之，从采用和不采用闪光照明所捕获的立体图像的集合中生成鲁棒性深度图。因为实现了根据使用不同闪光照明所捕获的光强度的比率来加权匹配窗口中的像素的像素匹配算法，所以深度图比使用常规技术所生成的深度图更具鲁棒性。比率图提供相对于邻近像素的深度的粗略估计，该粗略估计使得像素匹配算法能够使表现为与匹配窗口中的中央像素位于不同深度的像素降值。技术在深度间断点具鲁棒性的一个原因是，比率图像提供匹配约束而不直接涉及匹配窗口内的邻近像素。传统技术仅依靠匹配窗口内的强度变化，当匹配窗口内的一些像素与不同背景对象相关联时其不会同样具鲁棒性。此外，比率图可用来过滤所生成的像差图以生成立体图像内的对象的深度的平滑估计。

所公开的系统的一个优点是立体视觉照相机不要求高校准度来生成鲁棒性深度图。可在许多低成本手持设备中实现本文所描述的技术。简单比较使用不同照明度的所捕获的光强度的比率提供了深度信息，该深度信息可用来在像素匹配算法中有效地在位于不同深度处的像素之间进行区分。

本发明的一个实施例可被实现为与计算机系统一起使用的程序产品。该程序产品的程序定义实施例的各功能(包括本文中所描述的方法)并且可以被包含在各种计算机可读存储介质上。示例性的计算机可读存储介质包括但不限于：(i)不可写的存储介质(例如，计算机内的只读存储器设备，诸如可由压缩光盘只读存储器(CD-ROM)驱动器读取的CD-ROM盘、闪存、只读存储器(ROM)芯片或任何类型的固态非易失性半导体存储器)，在其上存储永久性信息；和(ii)可写的存储介质(例如，磁盘驱动器内的软盘或硬盘驱动器或者任何类型的固态随机存取半导体存储器)，在其上存储可更改的信息。

以上已参照特定实施例对本发明进行了描述。然而，本领域技术人员将理解的是，可对此做出各种修改和变化而不脱离如随附权利要求书中所阐释的本发明的较宽精神和范围。因此，前面的描述以及附图应被视为是例示性的而非限制性意义的。

因此，本发明的实施例的范围在下面的权利要求中阐述。

Claims

1.一种用于从立体图像的集合中生成深度图的计算机实现的方法，所述方法包括：

生成与所述立体图像的集合中的第一图像和第二图像相关联的比率图，其中针对所述第二图像中的每个像素，所述比率图将所述像素与基于所述第二图像的针对所述像素的第一强度值和基于所述第一图像的针对对应像素的第二强度值的比率相关联，并且其中所述第一图像由第一图像传感器使用环境照明所捕获，并且所述第二图像由所述第一图像传感器使用闪光照明所捕获；

基于所述立体图像的集合中的所述第二图像和第四图像的比较来生成与所述第二图像相关联的像差图，其中针对所述第二图像中的每个像素，所述像差图根据对所述第二图像中的像素与所述第四图像中的对应像素加以比较的像素匹配算法来将所述像素与像差值相关联，其中所述像素匹配算法包括基于与所述像素相关联的所述比率的至少一个计算，并且其中第三图像与由所述第一图像传感器捕获所述第一图像大致同时地由第二图像传感器所捕获，并且所述第四图像与由所述第一图像传感器捕获所述第二图像大致同时地由所述第二图像传感器所捕获；以及

生成与所述第二图像相关联的深度图，其中针对所述第二图像中的每个像素，所述深度图将所述像素与基于焦距、基线偏移距离以及与所述像素相关联的所述像差值所计算的深度值相关联。

2.根据权利要求1所述的方法，其中针对所述第二图像中的每个像素，生成所述像差图包括：

生成包括针对多个潜在像差值所计算的多个成本值的像差空间图像；以及

基于所述多个成本值从所述多个潜在像差值中选择特定像差值。

3.根据权利要求2所述的方法，其中选择所述特定像差值包括从所述多个潜在像差值中选择与所述像差空间图像中的最小成本值相关联的潜在像差值。

4.根据权利要求1所述的方法，进一步包括：

过滤所述像差图以生成与所述第二图像相关联的经过滤的像差图，

其中针对所述第二图像中的每个像素，所述经过滤的像差图将经过滤的像差值与所述像素相关联，

其中所述经过滤的像差值通过计算在与临近所述像素的像素窗口相关联的所述像差图中的像差值的集合的加权和所生成，以及

其中用于所述像差值的集合中的所述像差值中的每一个的加权系数与和该加权系数相关联的所述像差值的置信级别相关，该加权系数至少部分地基于与所述像素相关联的所述比率。

5.根据权利要求4所述的方法，进一步包括，针对迭代数N，重复所述过滤步骤以生成N个经连续过滤的像差图，其中在当前迭代期间所生成的每个经连续过滤的像差图通过过滤在先前迭代期间所生成的经连续过滤的像差图所生成。

6.根据权利要求1所述的方法，进一步包括：

生成与所述第四图像相关联的比率图；

生成与所述第四图像相关联的像差图；以及

基于与所述第二图像相关联的所述像差图和与所述第四图像相关联的所述像差图来调整与所述第二图像相关联的所述深度图。

7.根据权利要求6所述的方法，进一步包括：

基于与和所述第二图像相关联的所述像差图中的所述特定像素相关联的所述像差值和与和所述第四图像相关联的所述像差图中的对应像素相关联的所述像差值之间的差，计算针对所述第二图像中的特定像素的像差误差；

确定针对所述特定像素的所述像差误差在阈值之上；以及

将所述特定像素加标签为被遮挡的。

8.根据权利要求7所述的方法，进一步包括基于与和所述第四图像相关联的所述像差图中的所述对应像素相关联的所述像差值来调整与和所述第二图像相关联的所述像差图中的所述特定像素相关联的所述像差值。

9.一种用于从立体图像的集合中生成深度图的系统，所述系统包括：

存储器，其配置为存储由两个或两个以上图像传感器所捕获的所述立体图像的集合，其中所述立体图像的集合包括由第一图像传感器使用环境照明所捕获的第一图像、由所述第一图像传感器使用闪光照明所捕获的第二图像、与由所述第一图像传感器捕获所述第一图像大致同时地由第二图像传感器所捕获的第三图像、以及与由所述第一图像传感器捕获所述第二图像大致同时地由所述第二图像传感器所捕获的第四图像；以及

处理器，其耦连到所述存储器并配置为：

生成与所述立体图像的集合中的第一图像和第二图像相关联的比率图，其中针对所述第二图像中的每个像素，所述比率图将所述像素与基于所述第二图像的针对所述像素的第一强度值和基于所述第一图像的针对对应像素的第二强度值的比率相关联，

基于所述立体图像的集合中的所述第二图像和第四图像的比较来生成与所述第二图像相关联的像差图，其中针对所述第二图像中的每个像素，所述像差图根据对所述第二图像中的像素与所述第四图像中的对应像素加以比较的像素匹配算法来将所述像素与像差值相关联，其中所述像素匹配算法包括基于与所述像素相关联的所述比率的至少一个计算，以及

10.根据权利要求9所述的系统，进一步包括：

立体视觉照相机，其耦连到所述存储器和所述处理器，其中所述立体视觉照相机包括所述第一图像传感器、所述第二图像传感器、与所述焦距相关联并且安装在所述第一图像传感器前面的第一透镜、与所述焦距相关联并且安装在所述第二图像传感器前面的第二透镜、以及闪光器件，

其中所述处理器进一步配置为：

对所述第一图像传感器和所述第二图像传感器进行取样以生成所述立体图像的集合，以及

使所述立体图像的集合存储在所述存储器中。