CN108027975A

CN108027975A - 用于密集立体匹配的快速成本聚合

Info

Publication number: CN108027975A
Application number: CN201680053691.9A
Authority: CN
Inventors: 赛义德·赫萨蒙迪恩·纳杰菲·舒什塔里; 穆拉利·拉马斯瓦米·查里
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-09-18
Filing date: 2016-08-23
Publication date: 2018-05-11
Anticipated expiration: 2036-08-23
Also published as: US9626590B2; US20170083787A1; CN108027975B; WO2017048468A1

Abstract

本发明呈现用于密集立体匹配的快速成本聚合的方法、系统、计算机可读媒体及设备。一种实例性方法包含以下步骤：接收场景的第一图像及第二图像；校正所述图像；基于所述第一及第二图像而计算成本量；对所述成本量进行子取样以生成经子取样成本量；针对经子取样成本量中的每一像素p，确定以所述像素p为中心的窗口内的每一邻近像素q的所述经子取样成本量中的一或多个局部极值；针对每一像素p，使用所述一或多个局部极值执行成本聚合；执行交叉检查以识别匹配像素；及响应于识别不匹配像素，对所述不匹配像素执行间隙填充以生成视差图；及由所述视差图生成并存储深度图。

Description

用于密集立体匹配的快速成本聚合

技术领域

本发明说明书大体来说涉及计算机视觉且更具体来说涉及用于密集立体匹配的快速成本聚合。

背景技术

可使用场景的立体图像来提供场景的经模拟三维视图。此些图像通常由具有对场景稍微不同视图的两个相机同时捕获，此可模拟由人的双眼捕获的场景的稍微不同视角。除了提供场景的经模拟三维视图外，立体图像还可用于获得关于位于场景内的对象的深度的信息。当立体图像由两个相机捕获时，两个图像中的每一者中的像素通常对应于场景内的相同对象，且在许多状况下，其可能使一个图像中的像素与第二图像中的像素相关。

发明内容

本文中描述用于密集立体匹配的快速成本聚合的实例。举例来说，一种实例性方法包含以下步骤：接收场景的第一图像及第二图像；校正所述图像；基于所述第一及第二图像而计算成本量；对所述成本量进行子取样以生成经子取样成本量；针对经子取样成本量中的每一像素p，确定以所述像素p为中心的窗口内的每一邻近像素q的所述经子取样成本量中的一或多个局部极值；针对每一像素p，使用所述一或多个局部极值执行成本聚合；执行交叉检查以识别匹配像素以基于所述匹配像素之间的视差而生成视差图；响应于识别不匹配像素，对所述不匹配像素执行间隙填充以更新所述视差图；及由所述视差图生成并存储深度图。

在另一实例中，揭示用于密集立体匹配的快速成本聚合的系统。所述系统包含非易失性计算机可读媒体；及处理器，其与所述非易失性计算机可读媒体通信，所述处理器经配置以：接收场景的第一图像及第二图像；校正所述图像；基于所述第一及第二图像而计算成本量；对所述成本量进行子取样以生成经子取样成本量；针对经子取样成本量中的每一像素p，确定以所述像素p为中心的窗口内的每一邻近像素q的所述经子取样成本量中的一或多个局部极值；针对每一像素p，使用所述一或多个局部极值执行成本聚合；执行交叉检查以识别匹配像素以基于所述匹配像素之间的视差而生成视差图；响应于识别不匹配像素，对所述不匹配像素执行间隙填充以更新所述视差图；及由所述视差图生成并存储深度图。

在另一实例中，计算机可读媒体包括程序代码，所述程序代码用于致使处理器执行此软件应用程序，所述软件应用程序经配置以致使所述处理器接收场景的第一图像及第二图像；校正所述图像；基于所述第一及第二图像而计算成本量；对所述成本量进行子取样以生成经子取样成本量；针对经子取样成本量中的每一像素，确定以所述像素p为中心的窗口内的每一邻近像素q的所述经子取样成本量中的一或多个局部极值；针对每一像素p，使用所述一或多个局部极值执行成本聚合；执行交叉检查以识别匹配像素以基于所述匹配像素之间的视差而生成视差图；响应于识别不匹配像素，对所述不匹配像素执行间隙填充以更新所述视差图；及由所述视差图生成并存储深度图。

这些说明性实例经提及并不意欲限制或界定本发明的范围，而是提供实例以辅助理解本发明。说明性实例在具体实施方式中进行论述，所述具体实施方式提供进一步说明。通过检查此说明书可进一步理解由各种实例提供的优势。

附图说明

专利或申请案文件含有以彩色展示的至少一个图式。在请求并支付所需费用之后，官方即将提供具有彩色图式的本专利或专利申请案的副本。

并入本说明书且构成其部分的附图说明一或多个特定实例，且连同实例的描述，用于解释特定实例的原理及实施方案。

图1展示用于捕获场景的图像的实例性相机配置；

图2展示校正过程的实例性输入及输出；

图3展示用于密集立体匹配的快速成本聚合的实例性方法；

图4展示场景的实例性左侧图像及右侧图像；

图5展示成本量计算的部分及所得成本量的说明性实例；

图6展示对成本量进行子取样的实例性说明；

图7展示由L0处的初始成本量生成的实例性经子取样成本量L1及L2；

图8展示在图4中所展示的左侧图像I_L及右侧图像I_R中识别的匹配像素的实例性视觉表示；

图9展示基于图8中所展示的深度图的经内插且经滤波的深度图的实例性视觉表示；及

图10到12展示用于密集立体匹配的快速成本聚合的实例性计算装置。

具体实施方式

现在将参考形成本发明的部分的附图来描述数个说明性实例。虽然下面描述其中可实施本发明的一或多个方面的特定实例，但可使用其它实例且可进行各种修改而不背离本发明的范围或所附权利要求书的精神。

以下描述用于密集立体匹配的快速成本聚合的说明性系统。两个相机经定位具有对相同场景稍微不同视角且每一相机与另一相机几乎相同时间拍摄场景的数字图像。系统经配置以基于由相机捕获的图像而确定关于场景的深度图信息，包含场景内的对象的深度。举例来说，如果以立体图像捕获的场景包含两个对象，一个接近于相机且一个远离相机，那么可能表示较接近对象的部分的来自一个相机的图像中的像素将具有表示相同对象上的相同点的来自第二相机的图像中的对应像素。然而，由于图像是由具有对相同场景的不同视角的相机拍摄，因此对应于第一图像中的对象上的点的像素将通常不同于对应于第二图像中的对象上的相同点的像素的位置。通过使两个图像中的对应像素匹配且计算这些对应像素之间的距离，可能确定场景内的对象的相对深度。举例来说，通常，对象越接近于相机，图像内的对应像素之间的距离越大。

举例来说，如图1中可见，从不同相机位置(经标记为左“原”点O_L及右“原”点O_R，其偏移距离T_x)捕获单个场景130的两个图像110、120。由于偏移T_x，相同点P在两个图像I_L与I_R内出现在不同像素位置p_L及p_R处。如可见，对应于点P的右图像中的x轴坐标x_R沿着x轴偏移差异d，其中坐标x_L对应于左图像中的点P的x轴位置。像素位置中的此差异(也被称作视差)可用于确定从相机到场景中的对象上的点的近似距离。且通过知晓立体相机几何结构且将此分析应用于图像中的每一点，可生成场景的深度图。

为了生成深度图，说明性系统首先从相机获得图像I_L(110)及I_R(120)且对图像执行校正过程。此状况下的校正过程尝试对准图像使得所述图像经定向以使得沿着穿过第一图像的大部分(或全部)水平扫描线的点与沿着第二图像中的对应水平扫描线的对应垫对准。举例来说，说明性系统可使第一相机及第二相机在三个维度中旋转以使其对准使得沿着例如第一图像中的特定扫描线的像素对应于沿着第二像素中的相同扫描线的像素，或可使图像旋转以完成相同结果。

图2展示校正过程的实例性输入260a、270a及输出260b、270b。如使用水平扫描线250可见，最初捕获的右侧图像并未与左侧图像恰当对准，如与区域205相比较，在区域210内相对容易鉴别此未对准。因此，系统校正左侧图像及右侧图像，导致图像的边缘周围的信息的一些损失，由两个图像的边缘处的黑像素值(例如在区272a、272b中)表示。然而，如通过沿着扫描线250比较区域215及220可见，图像260b、270b现在彼此对准。

一旦图像I_L(260b)及I_R(270b)已经校正，系统生成图像的成本量。为了生成成本量，系统针对一个图像中的每个像素(例如，260b)计算第二图像270b中的每个像素p沿着相同扫描线的似然L_p(d)，使得那些像素中的每一个在第二图像270b中移位d个像素(所述似然与用于匹配两个像素的“成本”成反比)。举例来说，再次参考图1，针对左侧图像I_L的像素p_L，系统计算右侧图像I_R中的对应扫描线中的每一像素的似然L _p(d)，其中x坐标小于p_L的x坐标。由于上述情形生成左侧图像中的每一像素的多个值，如果针对左侧图像中的每一像素重复此过程，那么其将生成被称作成本量的值的三维矩阵。

在生成成本量之后，系统对成本量进行子取样。使用经子取样成本量，系统针对经子取样成本量中的每一像素p确定像素p的邻近像素q的局部最大视差值。在确定每一像素p的局部最大值，系统使用局部最大值执行成本聚合。系统接着执行交叉检查以匹配两个图像中的像素，且针对任一图像中的丢失的像素，执行间隙填充。接着使用匹配像素之间的视差来生成视差图。系统接着可执行视差图的后处理，例如平滑化，且接着基于视差值与场景中的深度之间的相反关系由视差图生成并存储深度图。

此深度图可用于多个不同实施例中。举例来说，使用可用于环境中的导航的两个相机的机器人可使用说明性方法，或根据本发明的其它方法或系统来在环境内导航，例如避免障碍或规划路线。合适的机器人的一些实例可能为完全自治、半自治或完全用户控制无人机或其它机动运载工具。在一些实例中，移动装置可经配置为根据本发明的系统。举例来说，移动装置可包括可用于捕获场景的图像并由那些图像生成深度图的一或多个相机。此深度图可用于确定场景中的对象之间的距离、对象的高度，等等。在一些实例中，合适的系统或方法可实时或接近实时操作以提供供用于导航、测距、路线规划的信息或关于场景的相对个人信息(例如，对象之间的距离)。

提供此说明性实例以使读者熟悉本文中所描述的概念且并不意欲以任何方式限制。下文提供额外说明性实例。

现在参考图3，图3展示用于密集立体匹配的快速成本聚合的实例性方法300。方法300在此实例中在框310处开始。

在框310处，例如计算装置1000的计算装置接收从不同视角点拍摄的相同场景的两个图像。在此实例中，计算装置1000经配备有两个相机，所述两个相机经配置以基本上同时捕获场景的立体图像。然而，在其它实例中，图像可由同一相机在不同时间且从不同位置捕获，或图像可存储在计算机可读媒体上且在其由计算装置1000打开和读取时被接收，或经由通信网络从远程装置接收。此实例中所使用的两个图像将被称作“左”图像及“右”图像(或“I_L”及“I_R”)；然而，这些指定仅意欲作为用于此立体实例的说明性标签。图像可更通常被称作为“第一”及“第二”图像，但这些标签并不暗示相应图像的任何特定捕获顺序或重要性。图4展示将在图3的实例性方法的描述期间用于说明性目的的实例性左侧图像410及右侧图像420。如可见，左侧及右侧反映相同场景的不同图像，但从不同视角点拍摄。

一旦计算装置1000已接收左侧图像410及右侧图像420，方法300继续进行到框320。

在框320处，计算装置1000校正图像410、420使得其彼此基本上对准。在校正图像410、410之后，方法继续进行到框330。

在框330处，计算装置1000基于左侧图像410及右侧图像420而计算成本量。为在此实例中计算成本量，计算装置1000单步调试左侧图像410中的每一像素，且针对沿着右侧图像420中的对应扫描线的每一像素，计算用以使右侧图像420中的像素与左侧图像410中的像素匹配的成本(也被称作“似然”)，被称作L_p(d)。在此实例中，计算装置1000使用以下相似函数：

其中α为图像强度I(p)对梯度的权数。然而，在其它方面中，可采用其它相似函数，例如如同L_p(d)＝||I_L(p)-I_R(p-d)||的更基本函数，或并入颜色通道的相似函数。

参考图5，图5展示成本量计算的部分及所得成本量510的说明性实例。在此实例中，计算装置1000计算在左侧图像410中的扫描线520上发现的像素520x的成本值。展示右侧图像420中的对应扫描线530的表示，且出于说明目的表示所述扫描线上的像素530a到n的子组。像素周围的框经提供仅用于便于读者识别这些像素520x、530a到n。针对在右侧图像420中的扫描线530上的520x的左侧的每一像素，例如，在此实例中的像素530a到c，针对左侧图像520x中的像素计算成本。然而，由于像素530n在像素520x的右侧，因此由于校正过程而将不考虑所述像素。

为确定右侧图像420中的像素在左侧图像中的像素的左侧还是右侧，选择左侧图像中的像素，例如，像素520x。接着将像素520x的X坐标假设地投影到右侧图像420中的扫描线530上。假定X坐标从图像的左侧边缘处的0开始且向右增加，具有小于像素520x的X坐标的X坐标值的任何像素在像素520x的左侧。类似地，具有大于像素520x的X坐标的X坐标的右侧图像420中的任何像素在像素520x的右侧。不同坐标系统的选择可改变相对像素值，但应用相同基本前提。将左侧图像中的像素假设地映射到右侧图像中的对应位置(或反之亦然)，且接着确定相对像素位置，例如，经假设映射像素在右侧图像中的所选择像素的左侧还是右侧。

然而，在缺少经校正图像的一些实例中，可能需要考量在一个图像中的像素的任一侧上的另一图像中的像素。成本表示基于一个图像中的像素匹配在第二图像中的相同扫描线上的像素的似然的所述像素的得分。举例来说，如上文所描述，可基于两个可能匹配像素的一或多个属性(例如颜色或强度)而确定成本。如果左侧图像410中的像素，例如，像素520x具有类似于右侧图像420中的相同扫描线530上的像素(例如，530c)的颜色，那么成本值可能低于具有不同颜色的像素(例如，像素530b)的成本值。

如在图5中可见，成本值经生成作为这些计算的结果。成本量的每一水平表示图像对的特定视差范围。因此，针对成本量中的最左上像素，成本量的第一水平中的值表示左侧图像中的最左上像素与沿着右侧图像中的对应扫描线的像素之间的视差。所述相同像素处的成本量中的下一水平表示左侧像素中的最左上像素与沿着右侧图像中的对应扫描线的第二像素之间的视差。因此，成本量中的每一水平处的每一像素表示第一图像中的像素与沿着第二图像中的对应扫描线的像素之间的视差。

在一些实例中，也可针对右侧图像420生成第二成本量，然而，两个成本量将彼此互逆，这是因为用以使右侧图像420与左侧图像410之间的像素匹配的成本不基于分析哪一图像而改变。然而，由于计算及存储此第二成本量可为资源密集的，因此在一些实例中，可在交叉检查的稍后步骤期间视需要计算第二图像中的每一像素的成本值。

在计算装置1000计算成本量之后，方法300继续进行到框340。

在框340处，计算装置1000对成本量进行子取样以减少供用于匹配窗口的邻近像素的数目。在此实例中，计算装置1000在使用箱式滤波器使其平滑化之后对成本量进行子取样。举例来说，为对成本量进行子取样，计算装置1000可跳过或消除成本量中的每隔一个像素或三个像素中的两个，等等；然而，用于子取样的其它方法可用于各种实例中。

在一些实例中，计算装置1000可对成本量进行多次子取样。举例来说，如果左侧图像410的原始成本量被称作L₀，那么第一子取样得到经子取样量L₁。可接着对L₁进行子取样以产生经子取样量L₂，且等等。连续子取样可能在其中所捕获图像具有大量的像素的实例中有利。举例来说，如果所捕获图像为320×200个像素，那么基于计算装置1000的处理能力、存储器资源或其它能力，对成本量的单个子取样可为足够的。然而，如果原始图像为1920×1080，那么可期望多轮子取样以获得具有基本上比在仅经子取样一次的成本量的情况下将存在的信息少的信息的成本量。然而，应注意，每轮子取样导致信息的损失且因此精确度的损失，因此应对照过程的所要输出质量对用以用于减少计算成本的子取样的量加权重。

在计算装置1000已对成本量进行子取样之后，方法继续进行到框350。

在框350处，计算装置1000针对经子取样成本量中的每一像素p确定一或多个局部极值，D＝{d|L_p(d)>L_p(d+1)且L_p(d)>L_p(d-1)}。参考图6，图6展示确定一或多个局部极值的实例性说明。如可见，已对成本量600进行子取样以生成经子取样成本量610。在一些实例中，计算装置1000可仅计算每一像素p的全局极值，而非(可能多个)局部极值。

如在图6中可见，计算装置1000已识别经子取样成本量510内的两个局部最大值630a及630b。展示视差值的对应标绘图且可发现所识别的局部最大值皆已被识别。计算装置1000接着迭代经过每一像素p，且执行相同处理以识别局部极值(此实例中的局部最大值)。

在计算装置1000已确定局部极值之后，方法继续进行到框360。

在框360处，使用局部极值来计算成本值的加权和，计算装置1000对每一像素p执行成本聚合。为了在此实例中计算所生成的加权成本值，计算装置1000计算小窗口内的每一像素p及每一邻近像素q的局部自适应支持权重。在此实例中，为了计算像素p的加权成本值，计算装置1000根据以下公式计算局部自适应支持权重W_I：

在此实例中，I指示图像强度，σ_I及σ_S表示允许组合上文计算中所使用的强度值及像素值的归一化参数。σ_I及σ_S的值可初始经设置成候选值且稍后基于来自图3的方法300的输出的质量而根据经验精化。举例来说，σ_I的初始值可设置成从1.6到1.7的值，且σ_S的值可经设置成15。如上文所论述，虽然一些实例使用强度，但一些实例还(或替代地)可采用颜色。

在计算装置1000已计算支持权重之后，计算装置1000基于邻近像素的局部自适应支持权重而确定像素的加权成本值。在此实例中，针对每一邻近像素q，计算装置1000对加权成本值及成本值的积求和以计算像素p的平均加权成本L'_p(d*)。在此实例中，根据以下公式使用局部自适应支持权重来对邻近像素q的成本值加权重：

在此实例中，由于使用经子取样成本量，因此计算成本值L'_p(d)采用水平S处的像素q_S及水平S＝0处的经上取样像素q_S'两者。上述情形在图7中进行说明，且在上文进行论述，其展示由L₀处的初始成本量生成的实例性迭代生成经子取样成本量L₁及L₂。

在计算装置1000已执行成本聚合之后，方法继续进行到框370。

在框370处，计算装置1000执行交叉检查以识别匹配像素。计算装置1000针对一个图像中的每一像素(对应于所计算成本量)基于加权成本值而识别另一图像中的最佳匹配像素。计算装置1000交叉检查加权成本值以确定一个图像中的每一像素具有其它图像中的对应匹配像素。在许多状况下，发现匹配像素；然而，在一些状况下，未发现任何匹配像素。举例来说，左侧图像中的像素可驻存在从右侧图像的视角不可见的对象上的点处，或图像中的一个可从另一图像水平或垂直偏移。一旦像素已被匹配，可基于匹配像素之间的视差而确定场景内的深度。因此，通过匹配图像中的像素，生成场景的视差图，且从视差图，稍后基于匹配像素之间的视差的相反关系而生成深度图。

参考图8，图8展示在图4中所展示的左侧图像I_L 410及右侧图像I_R 420中识别的匹配像素的视差图的实例性视觉表示810。图8还包含图例820，所述图例指示对应于每一匹配像素的视差，及对应于尚未发现任何匹配像素的颜色。举例来说，如可在图4中可见，右侧图像表示从左侧图像中所捕获的部分向右偏移的场景的部分。如可见，左侧图像展示前景中的两个半绿色锥体，而右侧图像中仅展示两个。因此，视觉表示810的左侧部分包含大量不匹配像素。此外，视觉表示的其余部分中的多个像素指示由于各种效应(例如从不同视角在场景中的对象的部分的遮蔽)未发现任何匹配像素。

在计算装置1000执行交叉检查之后，方法继续进行到框380。

在框380处，计算装置1000响应于识别不匹配像素，执行间隙填充以生成深度图。在此实例中，计算装置1000使用阈值来确定将间隙填充机构用于图像中的不匹配像素。如果沿着扫描线的连续不匹配像素的数目低于阈值，则计算装置1000使用双线性内插来确定不匹配像素的值。图9展示在间隙填充程序之后的实例。然而，在其它实例中，可使用其它间隙填充技术。

在完成框380之后，方法继续进行到框390，其中计算装置1000生成深度图并将其存储在例如计算机可读媒体上或数据库内，或所述计算装置可显示深度图的图形表示。深度图将场景中的深度表示在特定像素处。由于匹配像素之间的视差随场景中的深度减少，因此可基于视差图中的所述像素处的视差值而确定特定像素处的深度，举例来说，视差图内的最小视差可设置成对应于1米的深度，而视差图内的最大视差可设置成10米，其中其它像素的深度基于相应像素处的视差而在从1米到10米范围。在其它实例中，范围可酌情设置成不同值。

虽然上文所描述的实例性方法300已经描述为根据特定顺序进行，但在一些方面中，步骤的顺序可以不同次序发生，或多个步骤可同时发生。因此，在审视图3或图3中所展示的实例性方法300的对应描述时不应暗示步骤的特定次序。举例来说，如上文所论述，此方法可由一或多个无人机或机动运载工具或由用户装置(例如，移动装置)执行。

现在参考图10，图10展示用于密集立体匹配的快速成本聚合的实例性计算装置1000。当然可使用其它合适实例。计算装置1000包含处理器1020、存储器1010、输入/输出(I/O)接口1030及总线1040。存储器1010包含程序代码被存储在其上的有形计算机可读存储器。处理器1020可通过经由总线1040进行通信执行存储在存储器1010中的程序代码以致使计算装置1000执行一或多个动作。举例来说，计算装置1000可经编程以执行图3中所展示的实例性方法300或根据本发明的其它方法。计算装置1000可包含用于与其它组件通信的输入/输出(I/O)接口1030。计算装置1000可为可电子处理数据且执行为用以执行动作的指令集的代码的任何装置。计算装置1000的实例包含机器人装置、云服务器、网页服务器、桌上型个人计算机、膝上型个人计算机、手持式计算装置及移动装置。

在一些方面中，输入/输出(I/O)接口1030可为用于无线通信的收发器。无线通信的实例提供经由蜂窝式网络、Wi-Fi网络、无线局域网等等的通信。

现在参考图11，图11展示用于密集立体匹配的快速成本聚合的实例性计算装置1100。图11的计算装置1100包含图10的计算装置1000的组件，但还包含相机1150，所述相机经由总线与处理器及存储器通信，且经配置以捕获一或多个图像。图12展示用于密集立体匹配的快速成本聚合的又一实例性计算装置1200。在此实例中，计算装置1200包含两个相机，所述两个相机经由总线与处理器及存储器进行通信且经配置以捕获场景的一或多个立体图像集。

虽然本文中的方法及系统是以在各种机器上执行的软件方面进行描述，但方法及系统还可实施为经特别配置的硬件，例如特别用以执行各种方法的场可编程门阵列(FPGA)。举例来说，实例可实施于数字电子电路中，或实施于计算机硬件、固件、软件或其组合中。在一个实例中，装置可包含处理器或多个处理器。处理器包括计算机可读媒体，例如耦合到处理器的随机存取存储器(RAM)。处理器执行存储在存储器中的计算机可执行程式指令，例如执行用于编辑图像的一或多个计算机程序。此处理器可包括微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、场可编程门阵列(FPGA)及状态机。此些处理器可进一步包括可编程电子装置，例如PLC、可编程中断控制器(PIC)、可编程逻辑装置(PLD)、可编程只读存储器(PROM)、电子可编程只读存储器(EPROM或EEPROM)，或其它类似装置。

此些处理器可包括可存储指令的媒体(例如，计算机可读存储媒体)或可与其通信，所述指令在由处理器执行时可致使处理器执行本文中经描述为由处理者实施或辅助的步骤。计算机可读媒体的实例可包含但不限于能够为处理器(例如网页服务器中的处理器)提供计算机可读指令的电子、光学、磁性或其它存储装置。媒体的其它实例包含但不限于软碟、CD-ROM、磁盘、存储器芯片、ROM、RAM、ASIC、经配置处理器、所有光学媒体、所有磁带或其它磁性媒体，或计算机处理器可读取的任何其它媒体。所描述的处理器及处理可在一或多个结构中，且可分散遍及一或多个结构。处理器可包括用于实施本文中所描述的方法(或方法的部分)中的一或多个的代码。

一些实例的前述描述仅呈现用于说明及描述目的且并不意欲为穷尽性或将本发明限制于所揭示的精确形式。众多修改及其改变将对所属领域的技术人员显而易见而不背离本发明的精神及范围。

本文中对实例或实施方案的提及意指结合实例所描述的特定特征、结构、操作或其它特性可包含在本发明的至少一个实施方案中。本发明并不限于如此描述的特定实例或实施方案。短语“在一个实例中”、“在实例中”、“在一个实施方案中”或“在实施方案中”或其各种变化形式在说明书中的各种地方的出现未必是指相同实例或实施方案。结合一个实例或实施方案在此说明书中所描述的任何特定特征、结构、操作或其它特性可与关于任何其它实例或实施方案所描述的其它特征、结构、操作或其它特性组合。

Claims

1.一种用于密集立体匹配的快速成本聚合的方法，其包括：

接收场景的第一图像及第二图像；

校正所述图像；

基于所述第一及第二图像而计算成本量；

对所述成本量进行子取样以生成经子取样成本量；

针对所述经子取样成本量中的每一像素p，确定以所述像素p为中心的窗口内的每一邻近像素q的所述经子取样成本量中的一或多个局部极值；

针对每一像素p，使用所述一或多个局部极值执行成本聚合；

执行交叉检查以识别匹配像素以基于所述匹配像素之间的视差而生成视差图；

响应于识别不匹配像素，对所述不匹配像素执行间隙填充以更新所述视差图；及

由所述视差图生成并存储深度图。

2.根据权利要求1所述的方法，其中确定一或多个局部极值包括确定一或多个局部最大值。

3.根据权利要求1所述的方法，其中确定一或多个局部极值包括确定所述经子取样成本量中的像素p的全局极值。

4.根据权利要求1所述的方法，其中确定一或多个局部极值包括确定以所述相应像素p为中心的匹配窗口内的一或多个局部最大值，且其中执行成本聚合包括基于所述匹配窗口内的所述邻近像素的局部自适应支持权重而确定加权重成本值。

5.根据权利要求4所述的方法，其中执行成本聚合包括针对所述像素p及邻近像素q确定局部自适应支持权重W(p，q)，包括计算

<mrow> <mi>W</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> </mrow> <msub> <mi>&sigma;</mi> <mi>I</mi> </msub> </mfrac> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <mi>p</mi> <mo>-</mo> <mi>q</mi> <mo>|</mo> <mo>|</mo> </mrow> <msub> <mi>&sigma;</mi> <mi>S</mi> </msub> </mfrac> </mrow> </msup> <mo>,</mo> </mrow>

其中I表示图像值且S为所述成本量的水平。

6.根据权利要求1所述的方法，其中对所述成本量进行子取样包括对所述经子取样成本量进行子取样。

7.根据权利要求1所述的方法，其中执行成本聚合基于图像强度或图像颜色。

8.一种用于密集立体匹配的快速成本聚合的装置，其包括：

非易失性计算机可读媒体；及

处理器，其与所述非易失性计算机可读媒体通信，所述处理器经配置以：

接收场景的第一图像及第二图像；

校正所述图像；

基于所述第一及第二图像而计算成本量；

对所述成本量进行子取样以生成经子取样成本量；

针对所述经子取样成本量中的每一像素，确定以所述像素p为中心的窗口内的每一邻近像素q的所述经子取样成本量中的一或多个局部极值；

针对每一像素p，使用所述一或多个局部极值执行成本聚合；

响应于识别不匹配像素，对所述不匹配像素执行间隙填充以更新所述视差图；

及

由所述视差图生成并存储深度图。

9.根据权利要求8所述的装置，其中所述处理器经进一步配置以确定一或多个局部最大值以确定所述一或多个局部极值。

10.根据权利要求8所述的装置，其中确定一或多个局部极值包括确定所述经子取样成本量中的像素p的全局极值。

11.根据权利要求8所述的装置，其中所述处理器经进一步配置以确定以所述相应像素p为中心的匹配窗口内的一或多个局部最大值以确定所述一或多个局部极值，且基于所述匹配窗口内的所述邻近像素的局部自适应支持权重而确定加权重成本值以执行成本聚合。

12.根据权利要求11所述的装置，其中所述处理器经进一步配置以针对所述像素p及邻近像素q确定局部自适应支持权重W(p，q)，包括计算

其中I表示图像值且S为用以执行成本聚合的所述成本值的水平。

13.根据权利要求8所述的装置，其中所述处理器经进一步配置以对所述经子取样成本量进行子取样。

14.根据权利要求8所述的装置，其中所述处理器经进一步配置以基于图像强度或图像颜色而执行所述成本聚合。

15.一种非暂时性计算机可读媒体，其包括用以致使处理器执行用于密集立体匹配的快速成本聚合的软件应用程序的程序代码，所述软件应用程序经配置以：

接收场景的第一图像及第二图像；

校正所述图像；

基于所述第一及第二图像而计算成本量；

对所述成本量进行子取样以生成经子取样成本量；

针对每一像素p，使用所述一或多个局部极值执行成本聚合；

由所述视差图生成并存储深度图。

16.根据权利要求15所述的非暂时性计算机可读媒体，其中所述软件应用程序经进一步配置以确定一或多个局部最大值以确定所述一或多个局部极值。

17.根据权利要求15所述的非暂时性计算机可读媒体，其中所述软件应用程序经进一步配置以确定以所述相应像素p为中心的匹配窗口内的一或多个局部最大值以确定所述一或多个局部极值，且基于所述匹配窗口内的所述邻近像素的局部自适应支持权重而确定加权重成本值以执行成本聚合。

18.根据权利要求17所述的非暂时性计算机可读媒体，其中所述软件应用程序经进一步配置以针对所述像素p及邻近像素q确定局部自适应支持权重W(p，q)，包括计算

19.根据权利要求15所述的非暂时性计算机可读媒体，其中所述软件应用程序经进一步配置以对所述经子取样成本量进行子取样。

20.根据权利要求15所述的非暂时性计算机可读媒体，其中所述软件应用程序经进一步配置以基于图像强度或图像颜色而执行所述成本聚合。