CN103460705B

CN103460705B - 利用立体对应性的实时深度提取

Info

Publication number: CN103460705B
Application number: CN201280016922.0A
Authority: CN
Inventors: Z·阿维夫; O·戈夫林
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-03-30
Filing date: 2012-03-27
Publication date: 2016-12-07
Anticipated expiration: 2032-03-27
Also published as: US8823777B2; WO2012135220A3; WO2012135220A2; US20120249747A1; CN103460705A; EP2692140A2; EP2692140A4

Abstract

系统和方法可以提供：确定多个矫正后图像之间的一维（1D）差异，以及至少部分地基于所述1D差异来从所述多个矫正后图像提取深度信息。在一个示例中，1D差异在水平方向上，并且图像相对于彼此在垂直方向上被矫正。

Description

利用立体对应性的实时深度提取

背景技术

深度信息能够提供图像数据的附加维度，并且可用于解决诸如场景渲染、图像/视频分析和解释、对象检测和识别、以及远程存在检测的各种图形相关应用所带来的挑战。一旦在图像之间已经确立像素间对应性，立体像对照相可用于从一对图像提取深度信息。然而，从立体图像提取深度信息的常规技术会提供非稳定结果，可能要求高的计算力，并且可能不适于实时处理。

附图说明

通过阅读下面的说明书和随附的权利要求书，以及通过参考下面的附图，本发明的实施例的各种优点对于本领域的技术人员将变得清晰，其中：

图1A-1D为在根据实施例的深度信息提取过程中所涉及的图像示例的再现；

图2为根据实施例的深度信息提取过程的示例的框图；

图3为根据实施例的构造三维图像的方法的示例的流程图；

图4A和4B为根据实施例的局部近似曲线的示例的绘图；

图5为根据实施例的图像分析金字塔的示例的框图；以及

图6为根据实施例的系统的示例的框图。

具体实施方式

实施例可提供在多个矫正后图像之间确定一维差异的计算机实现方法。可以至少部分地基于一维差异而从多个矫正后图像中提取深度信息。

实施例还可以包括具有指令集的计算机可读存储介质，如果指令由处理器执行，则使计算机确定多个矫正后图像之间的一维差异。指令还能够使计算机至少部分地基于一维差异而从多个矫正后图像提取深度信息。

其它实施例可以包括一种系统，所述系统具有捕获第一图像的第一照相机、捕获第二图像的第二照相机、以及处理器。所述系统还可以包括具有指令集的计算机可读存储介质，如果由所述处理器执行，所述指令使所述系统矫正第一图像和第二图像以获得多个矫正后图像，并且确定多个矫正后图像之间的一维差异。所述指令还能够使计算机：至少部分地基于一维差异来从所述多个矫正后图像提取深度信息，以及至少部分地基于所述深度信息来构造三维图像。

现在转到图1A-1D，显示出根据多个矫正后的两维(2D)图像构造三维(3D)图像的示例，其中图像可以是从摄录像机或其它视频捕获设备获得的视频帧数据的一部分。尤其是，图1A示出了利用聚焦到对象11上的第一照相机(例如，左侧照相机)捕获的第一图像10，并且图1B示出了利用也聚焦到对象11上的第二照相机(例如，右侧照相机)捕获的第二图像12，其中图像10、12可相对于彼此在垂直方向上被矫正(例如，对齐)。如进一步详细讨论的，相对于彼此矫正图像10、12能够使能图像10、12的简化深度提取和实时分析。图1C示出了表示图像10、12之间的像素间差异的差异图14。因此，如果差异图14要应用于第一图像10，则结果可能是第二图像12。图1D演示了矫正后图像10、12和差异图14可用于利用诸如三角测量的各种公开技术构造3D图像16。

图2示出了多分辨率(例如，金字塔形)数据结构能够用于快速检测图像之间的大的差异(例如，评估水平对应性)的方案。如更加详细讨论的，差异检测可以开始于数据金字塔的上层级(例如，其中最高层级具有最小的像素邻域和最大的分辨率)，其中为层级“n”确定的差异能够进行上采样并且用作对层级n-1的差异确定的初始估计。图示的方案表明，左侧图像18的像素数据与来自金字塔中较高层级的差异图20组合，以获得左侧图像18的“扭曲”版22的像素数据。图示的扭曲版22可沿箭头21进行校正，从而与右侧图像24的像素数据相似/等价。扭曲版22的校正可用于解释使用来自另一层级的差异图20当作当前层级的差异确定的初始估计。

现在转向图3，示出了构造3D图像的方法26。方法26可在可执行软件中实现为逻辑指令集，其存储在诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪速存储器等存储器的机器或计算机可读介质中，在使用诸如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术的电路技术的固定功能逻辑硬件中，或其任意组合。例如，实施方法26中所示的操作的计算机程序代码可以一种或多种编程语言的任意组合编写，包括诸如Java、Smalltalk、C++等面向对象的编程语言以及诸如“C”编程语言或类似编程语言的常规的过程编程语言。

处理块28提供多个图像的捕获。如之前所述，图像可以表示视频帧数据或静态图像数据，并且图像捕获可通过立体照相机或其它适合的图像捕获装置来进行。捕获的图像可在块30处相对于彼此在垂直方向上被矫正，其中矫正过程能够有效地合并成像装置之间的极线约束(epipolarconstrain)。块32提供了图像之间的一维(1D)差异的确定。

尤其是，图4A和4B展示了可使曲线34中所示的二次多项式ax²移位距离(例如，差异)“d”以获得局部近似公式，

a(x+d)²＝ax²+2dax+ad² (1)

其中d是线性项(即，2da)与二次项(即，a)的比值，并且曲线36示出了当d等于3时用于该方案的局部近似公式。因此，1D二次多项式的局部变换可表示为：

p_l＝a_lx²+b_lx+c_l (2)

p_r＝a_rx²+b_rx+c_r＝p_l(x+d)＝a_l(x+d)²+b_l(x+d)+c_l (3)

其中p_l(x)是左侧图像中位置x处的近似像素值，并且p_r(x)是右侧图像中位置x处的近似像素值。应用公式(1)至公式(3)的原理能够得到，

p_r＝a_lx²+2a_ldx+d²+b_lx+b_ld+c_l (4)

简化公式(4)可以提供，

p_r＝a_lx²+(2a_l+b_l)x+d²+b_ld+c_l (5)

因此，使公式(3)的二次项系数、线性系数和常数系数与公式(5)相等得到，

a_l＝ar (6)

b_r＝2a_ld+b_l (7)

c_r＝d²+b_ld+c_l (8)

为差异d求解公式(7)因此得到，

d = \frac{b_{r} - b_{l}}{2 a_{l}} - - - (9)

局部多项式a_l的确定可通过下式给出，

a_{l} (x, y) = \underset{i j}{Σ} g (i) g (j) | l_{img}_{x x} (x + i, y + j) | - - - (11)

其中g是高斯滤波器，l_img_xx是用于左侧图像的二阶水平导数。虽然像素邻域是2D，但是因为变换仅为水平的所以能够将确定限制为水平像素邻域。而且，左侧图像二阶水平导数的符号可被忽略并且在下文估计线性系数时被考虑。局部多项式系数b_r-b_l的估计能够通过估计其差值“db”来实现。

db(x，y)＝SIGN(l_img_xx)*(l_img_x(x，y)-r_img_，(x，y)) (12)

其中l_img_x是用于左侧图像的一阶水平导数，并且r_img_x是用于右侧图像的一阶水平导数。因此，

b_{l} (x, y) - b_{r} (x, y) = \underset{i j}{Σ} g (i) * g (j) * d b (x + i, y + j) - - - (13)

d = \frac{b_{l} (x, y) - b_{r} (x, y)}{2 a_{l}} - - - (14)

公式(14)能够提供矫正后图像之间的差异的鲁棒插值，并且当d的初始值不为零时尤其有用。另外，用于公式(14)的更新方案可展开，

db(x，y)＝SIGN(l_img_xx)*(l_img_x(x，y)-r_img_x(x+d(x，y)，y))

+d(x，y)*l_img_xx (15)

现在参照图3，块38提供了确定所选的像素邻域是否包含充分的细节。尤其是，最优邻域大小可取决于局部内容。小邻域的灰度值级别可能几乎为常数，使得对应性确定更具挑战性。然而，如果邻域几乎为常数，则二次系数的绝对值将极小且因此能够提供简单的标准以使用在较低分辨率水平处计算出的差异。

例如，图5示出了数据金字塔40，至于选择金字塔40的较低层级，数据金字塔的像素邻域大小增加并且分辨率减小。因此，如果公式(14)中的局部多项式系数a_l变得极小，则可假设所选的像素邻域包含不充分的细节并且可选择较大的像素邻域。在这种情况下，d的值可以在金字塔40的较低分辨率下获得。

可以使用对于a₁的其它估计，例如二阶导数的平方的高斯平均。

再次返回图3，如果确定出像素邻域具有不充分的细节，则块42提供选择较大的像素邻域，其中利用根据先前估计作为初始值的差异可以重复1D差异的确定。

如果像素邻域具有充分的细节，则块44提供确定一个或多个边缘是否存在于像素邻域中。在一个示例中，可以通过将图像中的一个的二阶导数(例如，1_img_xx)与某一阈值进行比较来检测边缘。如果阈值超过，则可以推断边缘存在。如果边缘存在，则像素邻域的块搜索可以在处理块46处进行从而细化1D差异。尤其是，可以用差异缠绕(wrap)右侧图像，如下面的表达式中所示，

wr_img(x，y)＝r_img(x+d(x，y)，y) (17)

其中wr_img是缠绕图像。然后，可以计算缠绕图像的二阶水平导数和二阶垂直导数，wr_img_xx和wr_img_yy。对于a(x,y)>常数，下面的公式(18)可应用于图像和导数，

d (x, y) = \begin{matrix} \arg \min {s a d d (l_i m g (x, y), {W r_i m g (x - k, y) ... W r_i m g (x + k, y)})} \\ k \end{matrix}

并且对于a(x,y)<常数，下面的公式(19)能够应用于图像和导数，

d(x,y)＝d(x,y)

其中标记“sadd”表示绝对差值之和，标记“arg min”表示集合的最小值的指数，并且

\begin{matrix} s a d d (l_i m g (x_{l}, y_{r}), W r_i m g (x_{r}, y_{r})) = \\ {Σ_{i &GreaterEqual; - 2}^{j \leq 1}}_{j &GreaterEqual; - 1}^{i \leq 2} (| l_{img}_{x x} (x_{l} + i, y_{r} + j) - W r_{img}_{x x} (x_{l} + i, y_{r} + j) | + \\ | l_{img}_{y y} (x_{l} + i, y_{r} + j) - W r_{img}_{y y} (x_{l} + i, y_{r} + j) | \end{matrix} - - - (20)

上述公式(20)可被细化以仅使用垂直导数或水平导数。

一旦1D差异的细化完成，图示的块48至少部分地基于1D差异来从多个矫正后图像中提取深度信息。处理块50可以提供基于矫正后图像和深度信息来构造3D图像。

用于实现本文所描述的技术的伪代码的示例显示于下文。

构建两个图像l_image和r_image的采样高斯金字塔。层级N为最高层级，并且层级0为原始图像

在金字塔中的层级上进行迭代：

对在前一层级n-1中发现的差异进行上采样以形成当前差异对于两个图像：

利用可分卷积来计算一阶导数和二阶导数。

rdy、rddy ldy和lddy是左侧图像和右侧图像的垂直的一阶和二阶导数。

rdx、rddx ldx和lddx是左侧图像和右侧图像的水平的一阶和二阶导数。

(估计d的水平多项式近似)

仅对于右侧图像

计算rddx的绝对值的高斯平均(garddx)

计算rddx的平方值的高斯平均(gsrddx)

在层级n处对右侧图像进行迭代

通过d缠绕左侧图像导数(ldx)以获得sl_dx(缠绕仅在水平线上，因为图像被矫正)

从右侧图像导数中减去sl_dx：Del＝rdx-sl_dx

将标准化运动添加到Del，Del＝Del+rddx*d

对Del*进行滤波

标准化Del的高斯滤波

(如果区域不包含细节，则使用在较高层级处发现的差异)

如果(gsrddx>阈值)

更新d，d＝Del/garddx

结束迭代

(块匹配)

通过d来缠绕左侧图像以获得left_image_wrapped

计算left_image_wrapped的二阶导数

如果(left_image_wrapped>值)*

在两个图像的二阶导数之间应用块匹配，固定d

再应用一个水平多项式近似以细化d

层级计算的结束

现在转到图6，平台52具有计算系统54，计算系统54具有处理器60、系统存储器62、网络控制器64、可实现为多个NAND存储器设备或其它NVM(非易失性存储器)的BIOS(基本输入/输出系统)存储器66、HDD(硬盘驱动)68、和诸如显示器、键盘、鼠标等UI(用户界面)设备70，从而允许用户与平台52进行交互并且察觉来自平台52的信息。平台52可以是移动平台(诸如膝上型计算机、移动因特网设备(MID)、个人数字助理(PDA)、媒体播放器、成像设备等)的一部分、任何智能设备(诸如智能电话、智能平板计算机、智能TV等)、或其任意组合。平台52还可以是固定平台的一部分，例如个人计算机(PC)、服务器、工作站、游戏控制台等。因此，计算系统54的处理器60可以包括一个或多个处理器核心和配置为与系统存储器62通信的集成存储器控制器(IMC，未示出)。系统存储器62可以包括动态随机存取存储器(DRAM)，其被配置为诸如双列直插式存储器模块(DIMM)、小型DIMM(SODIMM)等的存储器模块。处理器60的核心可以执行诸如Microsoft Windows、Linux或Mac(Macintosh)OS的操作系统(OS)以及其它各种软件应用，其中每个核心可以是功能完善的，具有取指令单元、指令解码器、一级(L1)高速缓冲存储器、执行单元等。

图示的网络控制器64可以提供平台外通信功能，用于各种用途，例如有线通信或无线通信，包括但不限于蜂窝式电话(例如，W-CDMA(UMTS)、CDMA2000(IS-856/IS-2000)等)、WiFi(例如，IEEE 802.11的1999版、LAN/MAN无线LANS)、蓝牙(例如，IEEE 802.15.1-2005、无线个人局域网)、WiMax(例如，IEEE 802.16-2004、LAN/MAN宽带无线LANS)、全球定位系统(GPS)、扩频(例如，900MHz)，以及其它射频(RF)电话用途。

图示的平台52还包括：被配置为捕获对象图像的第一照相机56，以及被配置为捕获对象图像的第二照相机58。照相机56、58可以均集成到计算系统54中，两者均实现为外围设备，或实现在如图所示的混合配置中。另外，处理器60可以执行指令以矫正来自照相机56、58的图像，确定矫正后图像之间的1D差异，至少部分地基于1D差异来从矫正后图像中提取深度信息，以及至少部分地基于深度信息实时地构造3D图像，如已经讨论的。

因此，本文所描述的技术可用于各种设置，包括但不限于游戏控制台、智能电话、图形处理单元(GPU)设备、多用途中央处理单元(CPU)设备以及游戏引擎，以基于立体对应性摄影支持3D图像的实时渲染。而且，可以利用本文所描述的方法来增强多种应用，包括但不限于姿势识别、以及用于安全和远程呈现/视频会议目的的面部识别。

本发明的实施例能够应用以与所有类型的半导体集成电路(“IC”)芯片一起使用。这些IC芯片的示例包括但不限于处理器、控制器、芯片组部件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片等。另外，在一些附图中，信号传导线路由线表示。一些可以不同，以指示更多的构成信号路径；具有号码标签，以指示多个构成信号路径；和/或在一端或多端处具有箭头，以指示主信息流方向。然而，这不应以限制方式进行解释。相反，这些附加细节可与一个或多个示例性实施例结合使用以便于更容易理解电路。任何所表示的信号线，无论是否具有附加信息，实际上都可以包括可以在多个方向上穿行的一个或多个信号，且可以任何适当类型的信号方案实现，例如以差分对、光纤线路、和/或单端线路实现的数字或模拟线路。

已经给出了示例的尺寸/型号/值/范围，但是本发明的实施例不限于这些。随着制造技术(例如，光刻法)逐渐成熟，期望可以制造更小尺寸的设备。另外，为了简化图示和讨论以及为了不使本发明的实施例的一些方案不清晰，可以在图内显示或不显示到IC芯片和其它部件的公知的电力/接地连接。此外，为了避免使本发明的实施例不清晰，以及还鉴于关于这些框图布置的实现的具体细节高度取决于实现实施例的平台，即，这些具体细节应当在本领域技术人员的范围之内，可能以框图形式示出布置。在阐述具体细节(例如，电路)以便描述本发明的示例实施例的情况下，本领域技术人员应当显知，本发明的实施例能够在不具有或具有这些具体细节的变型例的情况下来实现。因此，说明被视为示例性的而非限制性的。

例如，一些实施例可以利用可存储指令或指令集的机器或有形计算机可读介质或物品来实现，如果通过机器来执行，则所述指令或指令集可使机器实施根据实施例的方法和/或操作。这样的机器可以包括例如任何适当的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器等，并且可以利用任何适当的硬件和/或软件的组合来实现。机器可读介质或物品可以包括例如任何适当类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元，例如存储器、可移除或非可移除介质、可擦除或非可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、高密盘只读存储器(CD-ROM)、高密盘可记录(CD-R)、高密盘可重写(CD-RW)、光盘、磁介质、磁光介质、可移除存储器卡或盘、各种类型的数字多功能盘(DVD)、磁带、盒式磁带等。指令可以包括任何适当类型的代码、诸如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等，其利用任何适当的高级、低级、面向对象的、可视化的、编译和/或解释编程语言来实现。

除非具体指出，否则应理解为诸如“处理”、“运算”、“计算”、“确定”等术语是指操纵和/或将表示为计算系统的寄存器和/或存储器内的物理量(例如，电子)的数据变换成类似地表示为在计算系统的存储器、寄存器或其它这种信息存储、传输或显示设备内的物理量的其它数据的计算机或计算系统或类似电子计算设备的动作和/或处理。实施例不局限于该背景。

术语“耦合”可在本文中用于指代所讨论部件之间的任何类型的直接或间接的关系，并且可应用于电的、机械的、流体的、光学的、电磁的、机电的或其它连接。另外，本文使用的术语“第一”、“第二”等仅为便于讨论，除非指出，否则不带有任何特别的时间或时间顺序的意义。

本领域技术人员将通过前面的说明理解到，本发明的实施例的宽泛技术能够以各种形式实现。因此，尽管已经结合其特定示例说明了本发明的实施例，本发明的实施例的真正范围不应受此限制，因为通过研究附图、说明书和随附的权利要求书，其它变型例对于技术人员将变得显而易见。

Claims

1.一种用于构造三维图像的系统，包括：

捕获第一图像的第一照相机；

捕获第二图像的第二照相机；

处理器；以及

计算机可读存储介质，其包括指令集，如果由所述处理器执行，则指令使所述系统执行以下操作：

矫正所述第一图像和所述第二图像以获得多个矫正后图像，

确定所述多个矫正后图像之间的一维差异，

至少部分地基于所述一维差异来从所述多个矫正后图像提取深度信息，并且

至少部分地基于所述深度信息来构造三维图像，

其中，确定所述一维差异包括：

识别所述多个矫正后图像的像素邻域，

检测所述像素邻域中的边缘，以及

响应于检测到所述边缘而进行块搜索以细化所述一维差异。

2.如权利要求1所述的系统，其中，所述一维差异在水平方向上，并且所述第一图像和所述第二图像相对于彼此在垂直方向上被矫正。

3.如权利要求2所述的系统，其中，如果执行所述指令，则所述指令使所述系统在所述水平方向上对二次多项式移位一距离，所述距离等于所述一维差异。

4.如权利要求1所述的系统，其中，所述多个矫正后图像包括第一矫正后图像和第二矫正后图像，并且所述块搜索用于：

用所述一维差异缠绕所述第二矫正后图像以获得缠绕图像，

计算所述缠绕图像的二阶水平导数和二阶垂直导数，

计算所述第一矫正后图像的二阶水平导数、二阶垂直导数分别与所述缠绕图像的二阶水平导数、二阶垂直导数的绝对差值之和，以及

确定所述块中的所述绝对差值之和的最小值以获得细化的差异。

5.如权利要求1所述的系统，其中如果执行所述指令，则所述指令使所述系统用于：

识别所述多个矫正后图像的第一像素邻域，

检测所述第一像素邻域包含用于差异估计的不充分的细节，以及

响应于检测到所述第一像素邻域包含不充分的细节而选择所述多个矫正后图像的第二像素邻域，其中所述第二像素邻域具有比所述第一像素邻域大的尺寸。

6.一种计算机实现的用于提取图像的深度信息的方法，包括：

确定多个矫正后图像之间的一维差异；以及

至少部分地基于所述一维差异来从所述多个矫正后图像提取深度信息，

其中，确定所述一维差异包括：

识别所述多个矫正后图像的像素邻域；

检测所述像素邻域中的边缘；以及

响应于检测到所述边缘而进行块搜索以细化所述一维差异。

7.如权利要求6所述的方法，其中，所述一维差异在水平方向上，并且所述图像相对于彼此在垂直方向上被矫正。

8.如权利要求7所述的方法，其中，确定所述一维差异包括：在所述水平方向上对二次多项式移位一距离，所述距离等于所述一维差异。

9.如权利要求6所述的方法，其中，所述多个矫正后图像包括第一矫正后图像和第二矫正后图像，并且所述块搜索包括：

用所述一维差异来缠绕所述第二矫正后图像以获得缠绕图像；

计算所述缠绕图像的二阶水平导数和二阶垂直导数；

计算所述第一矫正后图像的二阶水平导数、二阶垂直导数分别与所述缠绕图像的二阶水平导数、二阶垂直导数的绝对差值之和；以及

10.如权利要求6所述的方法，其中确定所述一维差异包括：

识别所述多个矫正后图像的第一像素邻域；

检测所述第一像素邻域包含用于差异估计的不充分的细节；以及

11.如权利要求6所述的方法，还包括：至少部分地基于所述深度信息来构造三维图像。

12.一种用于提取图像的深度信息的装置，包括：

用于确定多个矫正后图像之间的一维差异的单元；以及

用于至少部分地基于所述一维差异来从所述多个矫正后图像提取深度信息的单元，

其中，确定所述一维差异包括：

识别所述多个矫正后图像的像素邻域；

检测所述像素邻域中的边缘；以及

响应于检测到所述边缘而进行块搜索以细化所述一维差异。

13.如权利要求12所述的装置，其中，所述一维差异在水平方向上，并且所述图像相对于彼此在垂直方向上被矫正。

14.如权利要求13所述的装置，其中，确定所述一维差异包括：在所述水平方向上对二次多项式移位一距离，所述距离等于所述一维差异。

15.如权利要求12所述的装置，其中，所述多个矫正后图像包括第一矫正后图像和第二矫正后图像，并且所述块搜索包括：

计算所述缠绕图像的二阶水平导数和二阶垂直导数；

16.如权利要求12所述的装置，其中，确定所述一维差异包括：

识别所述多个矫正后图像的第一像素邻域；

17.如权利要求12所述的装置，还包括：用于至少部分地基于所述深度信息来构造三维图像的单元。