CN104079912A

CN104079912A - 图像处理装置和图像处理方法

Info

Publication number: CN104079912A
Application number: CN201410069216.3A
Authority: CN
Inventors: 中谷文香; 明官佳宏; 大场章男; 稻田彻悟; 势川博之
Original assignee: Sony Corp; Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc; Sony Corp
Priority date: 2013-03-29
Filing date: 2014-02-27
Publication date: 2014-10-01
Anticipated expiration: 2034-02-27
Also published as: JP6121776B2; JP2014197314A; US9684964B2; US20140294289A1; CN104079912B

Abstract

提供了一种图像处理装置，包括：立体匹配单元，其被配置为基于分别由右和左相机捕获的一对图像、通过使用立体匹配来获得右和左视差图像；滤波处理单元，其被配置为对于所述视差图像执行滤波处理；以及，第一合并单元，其被配置为在已经经过了所述滤波处理的所述视差图像中在所述右和左视差图像中的相互对应的位置处的视差值之间进行比较，并且基于比较结果来合并所述右和左视差图像的所述视差值。

Description

图像处理装置和图像处理方法

对于相关申请的交叉引用

本申请要求在2013年3月29日提交的日本优先权专利申请JP2013-072669的权益，其整体内容通过引用被并入在此。

技术领域

本公开涉及图像处理装置和图像处理方法。

背景技术

在计算用于高速立体匹配的视差中简单算法的使用可能引起许多错的视差值的计算。为了处理这一点，在下文中描述了一种技术：YUICHI OHTA,TAKEO KANADA"Stereo by Intra-and Inter-Scanline Search Using DynamicProgramming"IEEE TRANSACTIONS ON PATTERN ANALYSIS ANDMACHINE INTELLIGENCE,VOL.PAMI-7,No.2,MARCH1985（非专利文献1）。

发明内容

非专利文献1描述了一种用于使用对于在外极线（epipolar line）上的视差的平滑改变的约束来计算视差的方法。然而，在如上所述的非专利文献1中描述的现有技术具有有害的效果，诸如水平条纹噪声的出现和在同一水平线上的视差的测量结果的影响等，并且具有诸如大量处理的麻烦。同时，存在一种简单方法，其中，在增强可靠度的同时相互引用右和左视差信息，使得消除错的视差。在该方法中，将通过立体匹配获得的右和左视差值在一对一的基础上彼此作比较，并且合并在一起。因此，当右和左视差之一具有异常值时，所合并的视差值的可靠度降低，并且不可能获得有效的视差值。因为这个原因，难以基于视差值来检测到物体的距离。

因此，期望以高精度来获得合并的视差值，即使要基于立体匹配合并的右和左视差值之一没有正确的值。

根据本公开的一个实施例，提供了一种图像处理装置，包括：立体匹配单元，其被配置为基于分别由右和左相机捕获的一对图像、通过使用立体匹配来获得右和左视差图像；滤波处理单元，其被配置为对于所述视差图像执行滤波处理；以及，第一合并单元，其被配置为在已经经过了所述滤波处理的所述视差图像中在所述右和左视差图像中的相互对应的位置处的视差值之间进行比较，并且基于比较结果来合并所述右和左视差图像的所述视差值。

而且，所述滤波处理单元可以对于所述右和左视差图像的至少一个执行所述滤波处理。

而且，所述滤波处理单元可以对于所述右和左视差图像的每个执行所述滤波处理。

而且，所述滤波处理单元包括中值滤波器。

而且，所述滤波处理单元可以对于所述右和左视差图像之一执行所述滤波处理。所述第一合并单元可以将在已经经过了所述滤波处理的所述视差图像的所述一个中的特定像素的视差值与在未经过所述滤波处理的另一个视差图像中的与所述特定像素对应的像素和多个相邻像素的视差值作比较。

而且，所述第一合并单元可以基于在预定阈值与差之间的比较结果来合并所述视差值，所述差为在所述特定像素的所述视差值和在所述另一个视差图像中的与所述特定像素对应的所述像素和多个相邻像素的所述视差值的每一个之间的差。

而且。所述第一合并单元可以基于用于限定在所述预定阈值和所述视差值的可靠度之间的关系的传递函数来合并所述视差值。

而且，所述图像处理装置可以进一步包括：第二合并单元，被配置为获得具有多个分辨率的所述捕获的图像；多个所述立体匹配单元，多个所述滤波处理单元和多个所述第一合并单元，它们被提供来用于所述多个分辨率的每个，并且被配置为合并其中每一个由所述第一合并单元合并的相应的多个分辨率的所述视差值。

而且，当未获得在具有第一分辨率的所述视差图像之一中的特定像素的视差值时，所述第二合并单元可以基于像素的视差值来合并所述相应的多个分辨率的所述视差值，所述像素与在具有低于所述第一分辨率的第二分辨率的所述视差图像之一中与所述特定像素对应。

而且，所述立体匹配单元可以包括可靠度计算单元，其被配置为计算所述右和左视差图像的所述视差值的可靠度。当所述可靠度可以大于预定阈值并且未获得在具有所述第一分辨率的视差图像中的所述特定像素的所述视差值时，所述第二合并单元将所述视差值看作未知值。

而且，所述第二合并单元可以基于具有第一分辨率的所述视差图像之一的视差值，来重写具有大于所述第一分辨率的第二分辨率的所述视差图像之一的视差值。

而且，当具有所述第一分辨率的所述视差图像的所述特定像素的所述视差值和与所述特定像素相邻的多个像素的视差值在预定范围内时，所述第二合并单元可以基于所述特定像素的所述视差值，来重写在具有所述第二分辨率的所述视差图像中的与所述特定像素对应的像素的所述视差值。

而且，所述第二合并单元可以基于在具有在所述多个分辨率中的最低分辨率的视差图像中的目标区域的视差值来选择所述多个分辨率之一，并且基于具有所选择的分辨率的视差图像来对于所述目标区域的所述视差值执行合并。

而且，根据本公开的一个实施例，提供了一种图像处理方法，包括：基于分别由右和左相机捕获的一对图像、通过使用立体匹配来获得右和左视差图像；对于所述视差图像执行滤波处理；以及，在已经经过了所述滤波处理的所述视差图像中在所述右和左视差图像中的相互对应的位置处的视差值之间进行比较，并且基于比较结果来合并所述右和左视差图像的所述视差值。

根据本公开的实施例，有可能以高精度来获得合并视差值，即使要基于立体匹配合并的所述视差值之一没有正确的值。

附图说明

结合附图，从下面对实施例的描述中，本发明的这些和/或其他方面、特征和优点将变得清楚和更加容易理解，其中：

图1是图示根据本公开的一个实施例的图像处理装置的概要配置的示意图；

图2是图示由投影转换单元和逆投影转换单元进行的处理的示意图；

图3是图示立体匹配单元如何计算视差值的示意图；

图4是图示在后滤波单元是中值滤波器的情况下的处理的示意图；

图5是用于说明合并单元的算法的基本概念的示意图；

图6是图示由合并单元进行的基本处理的示意图；

图7是用于说明在图6中的处理的示意图；

图8是图示根据一实施例的处理的示意图，该处理包括向其增加的后滤波处理；

图9是图示其中仅对于作为参考源的右视差图像执行后滤波处理的示例的示意图；

图10是图示用于通过将视差dR与作为相邻并且包括左参考目标像素的9个像素的视差dL[i]的每一个作比较而确定右目标像素的视差dR的可靠度的方法的示意图；

图11是详细图示在图10中的处理的示意图；

图12是图示一种方法的示意图，通过该方法，从右目标像素的视差值dR获得左参考像素的位置，并且其后，将在dR和与参考像素相邻的视差值dL[i]（i=0,…8）的每一个之间的差加权的同时确定视差值dR的可靠度。

图13是图示物体与右和左相机的位置的示意图，该物体是右和左相机的被摄体；

图14是用于说明基于分辨率的搜索范围的示意图；

图15是图示在图像的分辨率和可推论深度之间的关系的示意图；

图16是图示在图像的分辨率和可推论深度之间的关系的示意图；

图17是图示在图像的分辨率和可推论深度之间的关系的示意图；

图18是图示在第二实施例中使用多个分辨率的情况下的处理的示意图；

图19图示：向在图18中的配置加上的投影转换单元、预滤波单元和逆投影转换单元；以及，作为独立块提供的立体匹配单元和合并单元；

图20是用于说明由合并单元进行的处理的示意图；

图21是图示用于基于亮度值的和来判断块匹配可靠度的方法的示意图；

图22是图示下述配置的示意图：其中，立体匹配单元获得立体匹配可靠度，并且与视差图像一起输出关于可靠度的信息；

图23是图示基于视差值的可靠度来合并不同分辨率视差的处理的流程图；

图24是用于说明在第二实施例中的处理的示意图；

图25是用于说明在第二实施例中的处理的示意图；

图26是用于说明在第二实施例中的处理的示意图；

图27是用于说明在第二实施例中的处理的示意图；

图28是用于说明在第二实施例中的处理的示意图；

图29是用于说明在第二实施例中的处理的示意图；

图30是图示下述配置的示意图：其中，立体匹配单元被配置来分别输出视差图像2和3，并且分别包括可靠度计算单元106a；

图31是图示错块匹配的示意图；

图32是图示基于低分辨率来合并多个分辨率的示意图；

图33是图示基于低分辨率来合并多个分辨率的示意图；

图34是图示基于低分辨率来合并多个分辨率的示意图；

图35是图示基于低分辨率来合并多个分辨率的示意图；

图36是图示其中向与在图18中相同的配置加上目标区域检测和跟踪单元112的示例的示意图；

图37是图示用于通过使用具有多个分辨率的视差图像来增强目标区域的视差获得性能的方法的示意图；

图38是图示通过使用具有多个分辨率的视差图像来增强目标区域的视差获得性能的处理的示意图；以及

图39是图示网格信息的示意图。

具体实施方式

以下，将参考附图详细描述本公开的优选实施例。注意，在本说明书和附图中，使用相同的附图标号来表示具有大体相同的功能和结构的结构元件，并且省略这些结构元件的重复说明。

注意，以下面的顺序来给出说明。

1.第一实施例

1.1.图像处理装置的配置示例

1.2.用于合并单元的算法

2.第二实施例

2.1.在相对于物体的距离和分辨率之间的关系

2.2.合并多个分辨率的具体示例

2.3.基于低分辨率来合并多个分辨率的具体示例

2.4.用于增强目标区域的视差获得性能的方法

<1.第一实施例>

[1.1.图像处理装置的配置示例]

首先，将参考图1来描述根据本公开的第一实施例的产生视差图像的整体流程。图1是根据本实施例的图像处理装置100的概要配置的示意图。如图1中所示，图像处理装置100包括投影转换单元102a、102b、预滤波单元104a、104b、立体匹配单元106、合并单元108、后滤波单元110和逆投影转换单元112。

如图1中所示，作为相机图像（相机图像（左）和相机图像（右））获取在右左方向上分离的相应相机的两个图像。投影转换单元102a、102b对于相应的图像执行投影转换，并且将结果产生的图像输出为校正图像（左）和校正图像（右）。预滤波单元104a、104b对于右和左校正图像执行预滤波处理，并且将结果产生的图像输出为边缘图像（左）和边缘图像（右）。每一个边缘图像被输入到立体匹配单元106内以经历立体匹配。立体匹配单元106执行立体匹配，并且因此输出右和左视差图像（视差图像（左）和视差图像（右））。右和左视差图像被输入到合并单元108内。合并单元108合并视差图像（左和右），并且向后滤波单元110输出通过该合并获得的图像。后滤波单元110对于输入的图像执行后滤波处理，并且向逆投影转换单元112内输入已经经历了后滤波处理的图像。逆投影转换单元112对于输入图像执行逆投影转换，并且将结果产生的图像输出为视差图像。

以下，将描述由在图1中所示的每一个组件执行的处理。图2是由投影转换单元102a、102b和逆投影转换单元112执行的处理的示意图。为了便利在随后的处理中的立体匹配，投影转换单元102a、102b每一个将右和左图像变形，使得在右和左图像中的彼此对应的点在水平线（＝匹配搜索方向）上对齐。具体地说，投影转换单元102a、102b将外极线平行化。此时，投影转换单元102a、102b每一个使用网格（mesh）信息或单应矩阵。图39是图示网格信息的示意图。在此，网格信息是用于指示在输入的相机图像中拍摄的正方栅格和栅格的正确的位置（在校正后的位置）之间的关系的信息。通过预先拍摄栅格来准备网格信息，如图39中所示。对于在由相机拍摄的栅格和正确的位置（在校正后的位置）之间的关系，将用于指示拍摄目标应当处于的位置的信息记录为网格信息，如图39中所示。也可能从网格信息计算单应矩阵。逆投影转换单元112执行与由投影转换单元102a、102b进行的处理相反的处理。逆投影转换单元112执行将由投影转换单元102a、102b变形的图像的状态恢复为在原始输入图像的位置关系中的原始状态的处理。

预滤波单元104a、104b执行预滤波处理以减小在右和左相机之间的亮度差异和在立体匹配处理中的阴影的影响。例如，使用Sobel滤波器或Prewitt滤波器来产生垂直边缘图像。这促进了在立体匹配中在水平方向上的相互对应点的视差的搜索。具体地说，当输入图像的亮度值是g(x,y)时，并且当输出图像的亮度值是f(x,y)时，通过计算下面的公式（1）来获得亮度值f(x,y)。

f (x, y) = \underset{j = 0,1,2}{Σ} \underset{i = 0,1,2}{Σ} {g (x + i - 1, y + j - 1) \cdot h (i, j)}

当使用Sobel滤波器时，可以将在公式（1）中的h的值表达为下面的公式（2）。

h = (\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix})

立体匹配单元106基于相应的右和左图像来产生视差图像。视差图像每一个具有关于右和左图像的每一个像素的视差的信息（视差值）。因为这个原因，立体匹配单元106执行右和左图像的块匹配以产生视差图像，并且提取具有最高类似度的块。当左图像被用作参考时，如图3中所示，立体匹配单元106计算视差值，该视差值指示与在左图像中的目标块类似的在右图像中的块在水平方向上从在左图像中的目标块的位置移动多少像素。

具体地说，立体匹配单元106在如下所述的处理流程中计算视差。例如，当以4×4块为单位来执行处理时，输出坐标(x,y)的范围是在x和y二者上在垂直和水平方向上的输入图像的范围的1/4。从预滤波单元104a、104b输出的右和左边缘图像分别是左(x,y)和右(x,y)，并且，将在右和左图像之间的视差表达为视差。在输出坐标中在相应的右和左图像中的4×4像素块的差绝对值的和block_abs_sum(x,y,disparity)可以被表达为下面的公式（3）。

\begin{matrix} block_abs_sum (x, y, disparity) \\ = \underset{j = 0,1,2,3}{Σ} \underset{i = 0,1,2,3}{Σ} abs {left (4 x + i + disparity, 4 y + j) - right (4 x + i, 4 y + j)} \end{matrix}

视差在每个坐标(x,y)的输出图像的预定范围（例如，从0至63）中以一个相位为单位连续地改变，并且，获得具有在上述公式中的4×4像素块中的差绝对值的最小和block_abs_sum(x,y,disparity)的视差的值。所获得的值是作为视差(x,y)的视差。

合并单元108接收已经经历了立体匹配的右和左视差图像，并且输出单个合并的视差图像。以下将详细描述由合并单元108进行的处理。

后滤波单元110执行后滤波处理以消除由合并单元108获得的视差图像的异常值，并且填充具有不使能视差值计算的低可靠度的像素。后滤波单元110通过使用例如中值滤波器来执行后滤波处理。

图4是图示在后滤波单元110是中值滤波器的情况下的处理的示意图。如图4中所示，当在3×3像素区域中执行滤波时，以行排列提取目标像素和相邻像素的像素值，并且将目标像素的像素值（20）替换为9个像素值的中值（2）。这使得有可能消除异常值，并且填充其视差值计算失败的像素。

[1.2.用于合并单元的算法]

图5是用于说明由合并单元108使用的算法的基本概念的示意图，并且图示了从立体匹配单元106输出的右和左视差图像。如上所述，立体匹配单元106基于相应的右和左图像来产生视差图像。因为这个原因，在右和左视差图像中的相互对应的点被认为具有类似的视差值。因此，右和左视差图像之一的目标点的视差值用于获得与目标点对应的另一个视差图像的参考点，将目标点和参考点的两个视差彼此作比较，并且由此计算可靠度。

图6是图示由合并单元108进行的基本处理的示意图。图6图示了下述情况：该情况作为由根据本实施例的合并单元108执行的处理的前提，并且其中，基于右视差图像的视差，将该视差与左视差图像的参考点的视差作比较。

如图6中所示，从右视差图像的目标像素的视差计算在左图像中要被参考的位置（参考像素）（步骤S10）。接下来，将右视差（目标像素的视差）与左视差（参考像素的视差）作比较以计算可靠度（步骤S12）。然后，当可靠度大于预定阈值时，输出右视差图像的视差（步骤S14）。

图7是用于说明在图6中的处理的示意图，并且图示了下述示例：基于右视差图像的目标像素来计算在左视差图像中的参考像素。如图7中所示，投影转换等导致在右和左视差图像中获取的物体的相同高度（在垂直方向上的位置）。在该情况下，可以在还包括目标像素的水平线上发现参考像素。当在右视差图像的目标像素中的位置(xR,yR)中的视差是dR时，在左视差图像中的参考像素的位置(xL,yL)是(xL,yL)=(xR+dR,yR)。因此，可以通过下述方式来判断视差值的可靠度：将在位置(xR,yR)处的目标像素的视差dR与在位置(xL,yL)处的参考像素的视差的dL作比较。

因此，当“右目标像素的视差dR”和“左参考所述的视差dL”具有类似的视差值时，可以将目标像素的视差值认为可靠。在该情况下，在右和左视差之间的差的绝对值abs(dR-dL)的倒数被用作用于指示可靠度的值。然后，将abs(dR-dL)与用于判断可靠度的阈值（threshold_same_disparity）作比较。在abs(dR-dL)<(threshold_same_disparity)的情况下，视差的值可靠，并且因此，右视差图像的目标像素的视差dR被输出为已经经历了合并的视差（merged_disparity）。在abs(dR-dL)≥(threshold_same_disparity)的情况下，视差的值不可靠，并且因此，“无视差（＝0）”被输出为已经经历了合并的视差（merged_disparity）。下面的示例可想象为算法的示例。

在上述算法中，abs(dR-dL)是用于指示可靠度的视差值的倒数的值，并且threshold_same_disparity是用于确定dR是否可靠的阈值。换句话说，可以基于阈值来判断dR和dL是否是相同的视差。

同时，在图6和7中所示的方法中，仅在仅一对一的基础上彼此作比较视差。当右和左视差之一具有异常值时，将视差的值判断为不可靠。因为这个原因，在右和左视差图像中的视差的许多异常值导致在合并后具有0视差的许多像素，并且在合并后的视差图像具有许多空白空间。

因此，在一个实施例中，在确定参考像素的位置之前，视差图像经历后滤波处理以预先消除异常值。这可以在右视差图像的目标像素和在左视差图像中的参考像素之间的相互参考时增大有效区域。中值滤波器被用作后滤波器。

图8图示了根据本实施例的包括后滤波处理的处理。用于右和左视差图像的后滤波处理单元107被加到在图6中的处理。如上所述，包括后滤波处理提供了消除异常值的效果，并且可以最小化在合并后的0视差。

另外，为了减少处理时间，可以仅对于作为视差参考源的图像执行后滤波处理。图9图示了下述示例：其中，仅对于作为参考源的右视差图像执行后滤波处理。在对于作为参考源的右视差图像执行后滤波处理后，将参考源的目标像素的视差和在参考目标中的对应像素的视差彼此作比较以计算可靠度，并且确定在合并后的视差。这可以实现高速处理，因为仅对于右和左视差图像之一执行后滤波处理。然而，许多视差异常值可能留在作为参考目标的左视差图像中，并且因此期望设计用于计算在合并中的可靠度的方法以在合并后留下许多有效的视差值。

因为这个原因，如图10中所示，将右目标像素的视差dR与相邻并且包括左参考像素的9个像素的视差dL[i](i=0,…,8)的每一个作比较，并且确定dR的可靠度。例如，计数具有与在相邻并且包括参考像素的3×3像素中的参考源的目标像素的视差值类似的视差值的像素，并且将计数值针对可靠度与阈值作比较。下面示出了在该情况下的算法。

在该算法中，threshold_same_disparity是用于判断dR是否是与dL[i]的视差类似的视差的阈值，并且count是用于指示与参考像素相邻地存在多少与dR的视差类似的视差并且指示可靠度的值。在该算法中，当可靠度小于或等于阈值时，将视差值看作不确定值（未知值），并且因此赋值“0”。

图11是详细图示在图10中的处理和如上所述的算法的示意图。将右视差图像的目标像素的视差dR依次与在左视差图像中的参考像素和与参考像素相邻的8个像素的视差dL[i](i=0,…,8)的每一个作比较，并且计算在视差dR和左参考像素和视差值dL[i](i=0,…,8)的每一个之间的差abs(dR-dL[i])。

然后，将abs(dR-dL[i])与阈值threshold_same_disparity作比较，并且，计数具有等于或小于阈值的值的像素（在参考像素周围存在多少具有与dR相同的视差值的像素）。然后，基于计数值来确定在合并后的视差merged_disparity。如图11中所示，在必要时改变阈值。当abs(dR-dL[i])等于或小于阈值时，将目标像素的视差dR和参考像素的视差dL看作大体相同。

图12是图示一种方法的示意图，通过该方法，从右目标像素的视差值dR获得左参考像素的位置，将在与参考像素相邻的每一个视差值dL[i]（i=0,…8）和dR之间的差加权，并且由此确定可靠度。以与在图11中的处理中相同的方式来计算在视差dR和左参考像素与视差值dL[i](i=0,…,8)的每一个之间的差abs(dR-dL[i])。在图12中，用于指示在可靠度和在右和左视差之间的差之间的关系的阶梯形传递函数用于基于该传递函数来将在右和左视差之间的差abs(dR-dL[i])转换为可靠度，并且，通过相加这些而获得的值被用作目标像素的可靠度conf[i]。当在图12中的阈值1是1、阈值2是2、阈值3是3、可靠度1在10、可靠度2是5并且可靠度3是2时，在图12中的目标像素的可靠度conf(x,y)是

conf(x,y)=conf+conf+…+conf=27.

因此，有可能基于可靠度conf[i]来判断视差的可靠度。

根据如上所述的第一实施例，在合并已经经历立体匹配的视差图像之前对于右和左视差图像执行后滤波处理，并且因此，有可能预先消除在视差图像中的视差的异常值。这可以在右视差图像目标像素和在左视差图像中的参考像素之间的相互参考时增大有效区域，并且因此可以最小化在合并后的0（无视差）的视差。

<2.第二实施例>

接下来，将描述本发明的第二实施例。在第二实施例中，输入多个分辨率以产生视差图像。

在第二实施例中，基本处理流与在图1中所示的第一实施例中的处理流程相同。在第二实施例中，立体匹配单元106使用分别具有多个分辨率的输入图像。

[2.1.在相对于物体的距离和分辨率之间的关系]

图13是图示右和左相机和作为被摄体的物体的位置的示意图。如图13中所示，与相机接近的物体具有大的视差，而远离相机的物体具有小的视差。如图13中所示，相对于相机较远的物体具有小的视差。因为这个原因，需要使用在一定程度上高的分辨率来在由立体匹配单元106执行的匹配后提取在深度方向上的距离。

相反，与相机较近的物体具有大的视差。因为这个原因，所以需要搜索图像的大平面，以在由立体匹配单元106执行的匹配后提取在深度方向上的距离（深度）。

因为如上所述接近和远离相机的物体具有不同的视差，所以在匹配上的固定搜索范围根据输入图像的分辨率而引起在可获得的视差上的差别。如图14的左部分中所示，较大的分辨率使能在更细范围中的搜索并且因此使能搜索小的视差。这使得能够提取远离相机的物体的深度。

相反，如图14的右部分中所示，较小的分辨率使得能够在相同物体的情况下搜索较大的区域。这使得能够搜索大的视差，并且提取与相机接近的物体的深度。

图15至17每一个是图示在图像的分辨率和可推论深度之间的关系的示意图。图15图示了640×480的图像大小和64像素搜索的情况。在该情况下，D11或相对于相机更短的距离使得难以推论深度。

图16图示了320×240的图像大小和64像素搜索的情况。在该情况下，D12或相对于相机更短的距离使得难以推论深度，距离D12小于D11。图17图示了160×120的图像大小和64像素搜索的情况。在该情况下，D13或相对于相机更短的距离使得难以推论深度，距离D13小于D12。如上所述，可以了解到较低的分辨率使得能够推论较近的物体的深度。

在第二实施例中，利用如上所述的特性。相应的多个分辨率的图像被输入，并且对于该相应的分辨率合并多个视差信息。这使得能够可扩展地提取视差，而不增大处理成本。这使得能够最小化在图像中未获取其视差的区域。

[2.2.合并多个分辨率的具体示例]

图18是图示在第二实施例中的使用多个分辨率的处理的示意图。图18图示了作为集成块的立体匹配单元106和合并单元108。关于投影转换单元102a、102b、预滤波单元104a、104b、后滤波单元110和逆投影转换单元112，省略其图示。立体匹配单元106和合并单元108对于多个分辨率的每一个执行立体匹配和合并。

如图18中所示，假定右和左相机图像的原始分辨率（图像比例）是“1”。图像比例“1”的图像被缩小为1/4，使得产生图像比例“1/4”的图像。而且，具有图像比例“1/4”的图像被缩小为1/4，使得产生具有图像比例“1/16”的图像。然后，向立体匹配单元106内输入图像比例“1”、“1/4”和“1/16”的右和左相机图像。

图19图示：向在图18中的配置加上的投影转换单元102a、102b、预滤波单元104a、104b和逆投影转换单元112；以及，被示出为独立块的立体匹配单元106和合并单元108。对于多个分辨率的每一个提供了投影转换单元102a、102b、预滤波单元104a、104b、立体匹配单元106和合并单元108。因此，向被配置为合并具有不同分辨率的视差的合并单元120输入具有对应的分辨率的、从合并单元108输出的合并的视差图像。如上所述，对于“最高分辨率图像”、“低一级的分辨率图像”和“最低分辨率图像”的每一个提供与在图1中相同的配置。在此，“最高分辨率图像”对应于在图18中的图像比例“1”的图像；“低一级的分辨率图像”对应于在图18中的图像比例“1/4”的图像；并且，“最低分辨率图像”对应于在图18中的图像比例“1/16”的图像。

每一个合并单元108合并用于“最高分辨率图像”、“低一级的分辨率图像”和“最低分辨率图像”的对应的一个的右和左视差，并且向合并单元120内输入结果。注意，可以通过在向合并单元108的输入之前向“最高分辨率图像”、“低一级的分辨率图像”和“最低分辨率图像”的每一个的视差图像应用后滤波来消除异常值。

如在图19中在第二实施例中的使用多个分辨率的算法中所示，如上所述准备多个分辨率的输入图像，多个分辨率的输入图像的每一个通过立体匹配单元106经历立体匹配，并且由此获得视差图像。可以对于具有多个分辨率的输入图像并行地执行获得视差图像的这个处理。

图20是用于说明由合并单元120进行的处理的示意图。首先，对于具有在最高分辨率视差图像1中的视差值（视差值≠0）的部分，使用该视差值。关于没有视差值（视差值＝0）的部分，通过使用在低一级分辨率的视差图像2中的视差值来执行填充处理。而且，如果视差图像2也没有视差值，则通过使用在更低一级分辨率的视差图像3中的视差值来执行填充处理。当在重复这样的处理后在最低分辨率视差图像中未获得视差值时，将处理目标部分认为“没有视差值”。这可以最小化在视差图像1中的被判断为“无视差”的区域。

如上所述，当在“高分辨率视差图像”中未获得视差时，对于“仅低一级分辨率的视差图像”执行搜索像素的视差信息。当存在视差信息时，使用该视差信息。从“最高分辨率的视差图像（视差图像1）”分级地执行这样的处理。这可以最小化被判断为“无视差”的区域。

在此，在每一个图像中没有视差值的部分被认为是闭塞区域或无纹理区域。因为在闭塞区域（其中前物体隐藏后物体的区域）中天生未获得视差值，所以不必通过使用低分辨率图像来获得视差值。因为这个原因，下面的方法用于防止在闭塞区域中执行使用低分辨率图像的处理。

在第一方法中，在立体匹配时预先计算每一个视差的可靠度，并且这被用作指标。具体地说，当视差具有低可靠度时，防止执行使用低分辨率图像的处理。指标的示例包括相机图像的亮度分布（纹理的存在或不存在）。该方法使用在立体匹配时计算的可靠度作为在合并多个分辨率时的指标。在使用亮度分布的示例中，使用在边缘图像的块中的亮度值的和。例如，假定其中在4×4块中执行匹配的情况。当具有坐标(x,y)的边缘图像的亮度值是lum(x,y)，可以将在块中的亮度值的和表达为下面的公式（4）。该值可以用于判断边缘的存在或不存在。

block_lum_sum (x, y) = \underset{j = 0,1,2,3}{Σ} \underset{i = 0,1,2,3}{Σ} lum (4 x + i, 4 y + j)

如图21中所示，当亮度值的和大于预定阈值时，判断存在边缘（纹理区域），并且因此块匹配可靠度高。相反，当亮度值的和小于预定阈值时，判断不存在边缘（无纹理区域），并且因此，块匹配可靠度低。因此，当块匹配可靠度高时，有可能在防止获得使用低分辨率视差图像的视差值的同时执行处理。

第二方法使用如在下面的两种文献中描述的现有的闭塞检测方法。判断为闭塞区域导致判断为高块匹配可靠度，并且有可能在防止获得使用低分辨率视差图像的视差值的同时执行处理。

（文献1）

A Cooperative Algorithm for Stereo Matching and Occlusion Detection

作者Zitnick,C.,Kanade,T.

Tech Report CMU-RI-TR-99-35(1999)

（文献2）

Real-Time Correlation-Based Stereo Vision with Reduced Border Errors

作者Hirschmuller,H.,Innocent,P.R.,Garibaldi,J.M.

In International Journal of Computer Vision,vol.47(1/2/3),pp.229-246.(2002)

图22图示了下述配置：其中，立体匹配单元106之一获得立体匹配可靠度，并且与视差图像一起输出可靠度信息。如图22中所示，输出来自最高分辨率图像的视差图像的立体匹配单元106包括可靠度计算单元106a。可靠度计算单元106a通过上述方法之一来计算立体匹配可靠度，并且输出该立体匹配可靠度。

图23是图示基于视差值可靠度合并具有不同分辨率的视差的流程图。首先，在步骤S200中，判断目标像素是否具有视差值。当目标像素具有视差值时，处理进行到步骤S202以输出视差值。另一方面，当目标像素没有视差时，处理进行到步骤S204以判断目标像素是否具有高的可靠度。

当在步骤S204中目标像素具有高的可靠度时，处理进行到步骤S206。在此，“高可靠度”表示闭塞区域或纹理区域的高概率。因此，在步骤S206中输出“无”视差值。另一方面，当目标像素在步骤S204中没有高可靠度时，处理进行到步骤S208。在步骤S208中，查看在低一级分辨率的图像中的对应的目标像素。在步骤S208后，该处理进行到步骤S210。

在步骤S210中，在低一级分辨率的图像中查看目标像素是否具有视差值。当目标像素具有视差值时，处理进行到步骤S202以输出视差值。另一方面，当目标像素没有视差值时，处理进行到步骤S212以判断是否已经查看了在最低分辨率视差图像中的视差。

当在步骤S212中判断已经在最低分辨率视差图像中查看了视差值时，处理进行到步骤S206，以输出“无”视差值。另一方面，在步骤S212中判断还没有在最低分辨率视差图像中查看视差值，则处理移回步骤S208，以判断目标像素是否在低一级分辨率的图像中具有视差值。

根据如上所述的在图23中的处理，当目标像素具有高的可靠度时，有可能输出视差值“没有”而不查看低一级分辨率的视差图像，该输出取决于可靠度。因此，对于诸如闭塞区域的、天生从其未提取视差值的区域，不通过使用低分辨率视差图像来提取视差值，并且因此，可以简化处理。也对于纹理区域，其高可靠度使得有可能输出“无”视差值，而不查看低一级分辨率的视差图像。

图24至29是用于说明在第二实施例中的处理的示意图。参考图24至29，给出了使用最高分辨率视差图像1、具有比视差图像1的分辨率低一级的分辨率的视差图像2和具有比视差图像2的分辨率进一步低一级的分辨率的视差图像3的处理的描述。

首先，如图24中所示，从在图19中的配置中的相应的合并单元108来获得视差图像1、视差图像2和视差图像3。在所获得的视差图像中，×标记每一个表示没有视差值的像素（对于其未获得视差值的像素），而粗×体标记每一个表示没有视差值但是具有高的可靠度的像素（很可能是闭塞区域，而不是纹理区域）。

然后，合并单元120通过使用所获得的视差图像1、2和3来合并视差值，并且输出视差值。如图25中所示，以从位于最高分辨率视差图像1的左上角处的像素11起的顺序来提取视差值。因为在视差图像中的像素11中获得视差值，所以从合并单元120输出的在视差图像10中的像素101的视差值具有在视差图像1中的像素11的视差值。

接下来，如图26中所示，从在最高分辨率视差图像1中的像素12提取视差值。因为像素12没有视差值，所以在低一级分辨率的视差图像2中查看在与像素12对应的位置处的像素21的视差值。因为在图26的示例中在视差图像2中的像素21也没有视差值，所以在具有更低分辨率的视差图像3中查看在对应于像素21对应的位置处的像素31的视差值，如图27中所示。

因为在图27中的示例中在视差图像3中的像素31中获得视差值，所以在视差图像3中的像素31的视差值被用作在从合并单元120输出的视差图像10中的像素102的视差值。

接下来，如图28中所示，从在最高分辨率视差图像1中的像素16提取视差值。像素16无视差值，并且具有高的可靠度，因此更可能是闭塞区域。因此，“无视差值”被输出为在视差图像10中的像素106的视差值，而不查看作为较低水平的视差图像2。该处理对应于在图23中的步骤S204、S206中的处理。

图29图示了在重复上述处理后的下述状态：其中，确定在从合并单元120输出的视差图像中的所有像素的视差值。从在视差图像1和视差图像10之间的比较清楚的，在视差图像1中被看作“无视差值”的像素的许多在视差图像10中的被看作“具有视差值”。因此，合并具有多个分辨率的视差图像使得有可能更详细地获得视差值。

另外，上面的描述示出了在最高分辨率视差图像中获得可靠度的示例，但是可以不仅在视差图像1中而且在视差图像2和3中计算立体匹配可靠度。图30图示了其中被配置为分别输出视差图像2和3的立体匹配单元106包括各自的可靠度计算单元106a的配置。在该情况下，可以每次在每一个分辨率中查看“目标像素是否具有视差（在图23中的步骤S200和S210）”时查看可靠度，并且因此，可以对于闭塞区域执行更强壮的处理（防止干扰）。

同时，当通过携带来自低分辨率的信息来填充视差值时，在视差值之间的边界可能因为分辨率差而像块那样清晰地显出。在图29中的示例中，在区域A中建立关系（输出的分辨率>原始信息的分辨率），并且因此块可能清晰地显出。因为这个原因，也可能通过使用在下面的文献中描述的方法来防止块边界清晰地显出，在该文献中，引用亮度信息，并且在保持边缘的同时，执行上采样。

（文献3）

"Joint Bilateral Upsampling"

作者Kopf,J.,Cohen,M.F.,Linschinski,D.,Uyttendaele,M.

ACM Transaction of Graphics(2007)

(文献4)JP2011-186958A

如上所述，在用于基于高分辨率视差图像来合并具有多个分辨率的视差图像的方法中，从低分辨率视差图像起补偿信息，并且由此有可能最小化在高分辨率视差图像中的没有视差的区域。

[2.3.基于低分辨率来合并多个分辨率的具体示例]

相反，高分辨率视差图像的使用可能使得难以获得参考图13至17描述的与相机接近的物体的视差，但是可能导致因为失配导致计算的视差值。例如，如图31中所示，假定下述情况：具有重复图案的家具150等较接近相机放置。虽然在右图像中未拍摄家具150的区域A1，但是可能在块匹配中执行错误的匹配，因为家具150具有重复的类似图案。

因为这个原因，所以在该情况下合并基于低分辨率的多个分辨率。在可以在低分辨率视差图像中获得并且接近相机（具有大的视差）的部分中，检测由类似的视差值围绕的像素，并且所检测的视差值重写在高分辨率图像中的对应的位置处的视差值，同时信任该像素的视差。具体地说，如图32中所示，在低分辨率视差图像中，有可能在接近相机的接近部分中以适当的深度精度提取视差信息。相反，该接近部分在高分辨率视差图像中具有过大的精度，并且具有低的闭塞抗力（occlusion resistance）。因为这个原因，所以可能在高分辨率视差图像中对于接近部分获得错误的视差。注意，图32图示了具有相同的密度的像素具有相同的视差值。

因为在图32中与像素G1相邻的四个像素具有相同的视差值，所以像素G1很可能具有与相邻像素相同的深度。因此，判断不是接近物体的边缘的区域。例如，判断在图32的与像素G1相邻的全部四个像素是否在允许被看作相同物体的预定范围内具有深度差。预定深度差的示例包括大约10cm的深度。通过使用与大约10cm的深度等同的视差来进行判断。当具有在预定范围中的深度差时，所有四个相邻像素被判断为作为接近物体的非边缘区域的“填充目标区域”。然后，在目标分辨率图像中的视差值重写与在最高分辨率视差图像中的像素G1对应的部分的视差值。替代地，可以仅在低分辨率图像中获得的任何区域的视差值也可以重写在高分辨率图像中的对应区域的视差值，而不需边缘判断。

具体地说，如图33中所示，最低分辨率是目标分辨率，并且执行搜索像素G1的处理，像素G1具有与相邻像素相同的视差值。注意，与像素相邻的四个像素具有相同的视差值，并且在图33中检测该像素，可以确定具有相同像素值并且与用于检测的目标像素相邻的任何数量的像素值。

如图34中所示，在目标分辨率中的视差值重写与在最高分辨率视差图像中的像素G1对应的部分的视差值。另外，对于具有在目标分辨率和最高分辨率之间的分辨率的图像，在对应的部分中设置用于指示“这个部分已经被重写”的标记。因此，变得不必在其中设置了该标记的区域中执行随后的搜索，并且因此可以减少计算时间。

在如图35中所示完成从最低分辨率的重写后，在使用低一级分辨率作为目标分辨率的同时重复相同的处理。然后，执行搜索具有与相邻像素的视差值相同的视差值的像素G2的处理，并且，在目标分辨率中的视差值重写与在最高分辨率视差图像中像素G2对应的部分的视差值。此时，较低分辨率防止获得在接近部分中的视差，并且因此，考虑到可以在分辨率中获得的视差来执行搜索。

如上所述，在使用高分辨率图像来计算视差中，不在接近相机的部分中计算视差值，并且视差图像具有没有视差的许多像素（在所谓的充斥状态（riddled state）中）。然而，根据基于高分辨率的合并方法，在低分辨率视差图像中的视差值可以补偿在高分辨率视差图像中的没有视差的像素，并且可以最小化不具有视差的像素。

在使用高分辨率图像来计算视差中，假定在接近相机的部分中计算出错的视差。具体地说，视差的计算可能在+搜索范围之外失效。因此，使用基于低分辨率的合并方法。低分辨率视差图像被引用，接近相机并且在物体的边缘内的部分被检测，并且在高分辨率视差图像中的对应部分的视差值被重写。由此有可能重写和校正在高分辨率视差图像中的可能错误的视差值。如上所述，基于在允许适当地检测接近相机的部分的深度的低分辨率中的视差值，有可能补偿在高分辨率中的视差值，并且减少计算量。

注意，可以彼此组合地使用基于高分辨率来合并多个分辨率和基于低分辨率来合并多个分辨率。

[2.4.用于增强目标区域的视差获得性能的方法]

接下来，给出通过使用具有多个分辨率的视差图像来增强目标区域的视差获得性能的方法的说明。为了增强在期望有利地获得视差的目标区域（诸如在图像中的手或面部）中的视差计算性能，也可能使用具有多个分辨率的视差图像。在图36中，向与在图18中的配置相同的配置加上目标区域检测和跟踪单元112。目标区域检测和跟踪单元112检测诸如图像中的“手”或“面部”的目标区域以及跟踪目标区域的移动。立体匹配单元106和合并单元108根据目标区域的视差值来选择基于其执行合并的视差图像的分辨率。

注意，例如在JP2012-113622A中描述的方法可以被用作用于提取诸如手的目标区域的方法。在该情况下，首先，以块为单位（例如，每16×16像素）检测“局部尖端部分（在特定区域中的最前部分的坐标）”，并且然后将其与相邻块（例如，3×3块）作比较，并且由此提取宽视场尖端部分（＝目标区域）。

另外，计算指标，该指标指示“用于合并视差图像的哪个分辨率应当用于有利地获得目标区域的视差”。在被认为容易被填充视差信息的“最低分辨率视差图像”中的目标区域中的视差的平均值可以被用作该指标的示例。

基于图37，给出了下述情况的具体说明：其中，期望在包括三个人的图像中有利地获得在相对于相机中等距离的人（在中心的人）的“手”的视差，该三个人是在相对于相机“短距离”的人、“中等”距离的人和“长”距离的人。首先，对于相应的多个分辨率产生视差图像。

参考具有“高”分辨率的视差图像之一，可以提取远离相机的人的视差，但是接近相机的人的视差具有许多异常值。因为这个原因，所以从最低分辨率图像提取目标区域（手）的视差。此时，基于参考图15至17描述的“在图像分辨率和可推论深度之间的关系”来选择被认为允许最有利地提取视差的分辨率。

图38是图示处理的流程图。首先，在步骤S300中，产生具有相应的分辨率的视差图像。在下一个步骤S302中，获得在最低分辨率视差图像中的目标区域。在下一个步骤S304中，计算目标区域的视差值的平均值。在下一个步骤S306中，基于在步骤S304中计算的视差值的平均值来选择具有被认为最佳地用于有利地提取目标区域的视差值的分辨率的图像。基于所选择的分辨率，参考在较低分辨率视差图像中的视差值。其后，处理移回在图23中的步骤S200。

此时，在步骤S306中，预先基于参考图15至17描述的“在图像分辨率和可推论深度之间的关系”来确定用于指示在分辨率和视差值之间的使用对应性的传递函数，并且基于该传递函数选择具有被认为最优的分辨率的图像。当目标物体远离相机时，高分辨率使得有可能在固定搜索范围的情况下更有利地提取视差。相反，当目标物体接近相机时，低分辨率使得有可能在固定搜索范围的情况下更有利地提取视差。

也在该情况下，对于所有的分辨率计算上述可靠度的信息。当基于另一个视差图像的视差值来补偿某一分辨率的视差图像时，有可能考虑到闭塞而简化处理。

根据如上所述的第二实施例，使用具有多个分辨率的视差图像，并且由此可以通过根据从相机到被摄体的距离使用最佳分辨率视差图像来获得视差值。因此，有可能最小化具有视差值0的像素，并且可靠地防止错误的视差值。

本领域内的技术人员应当明白，可以根据设计要求和其他因素来进行各种修改、组合、子组合和改变，只要它们在所附的权利要求或其等同内容的范围内。

另外，本技术也可以被配置如下。

（1）一种图像处理装置，包括：

立体匹配单元，其被配置为基于分别由右和左相机捕获的一对图像、通过使用立体匹配来获得右和左视差图像；

滤波处理单元，其被配置为对于所述视差图像执行滤波处理；以及

第一合并单元，其被配置为在已经经过了所述滤波处理的所述视差图像中在所述右和左视差图像中的相互对应的位置处的视差值之间进行比较，并且基于比较结果来合并所述右和左视差图像的所述视差值。

（2）.根据（1）所述的图像处理装置，

其中，所述滤波处理单元对于所述右和左视差图像的至少一个执行所述滤波处理。

（3）根据（1）所述的图像处理装置，

其中，所述滤波处理单元对于所述右和左视差图像的每个执行所述滤波处理。

（4）根据（1）所述的图像处理装置，

其中，所述滤波处理单元包括中值滤波器。

（5）根据（1）所述的图像处理装置，

其中，所述滤波处理单元对于所述右和左视差图像之一执行所述滤波处理，并且

其中，所述第一合并单元将在已经经过了所述滤波处理的所述视差图像之一中的特定像素的视差值与在未经过所述滤波处理的另一个视差图像中的与所述特定像素对应的像素和多个相邻像素的视差值作比较。

（6）根据（5）所述的图像处理装置，

其中，所述第一合并单元基于在预定阈值与差之间的比较结果来合并所述视差值，所述差为在所述特定像素的所述视差值和所述另一个视差图像中的与所述特定像素对应的所述像素以及多个相邻像素的所述视差值的每一个之间的差。

（7）根据（6）所述的图像处理装置，

其中，所述第一合并单元基于用于限定在所述预定阈值和所述视差值的可靠度之间的关系的传递函数来合并所述视差值。

（8）根据（1）所述的图像处理装置，进一步包括：

第二合并单元

被配置为获得具有多个分辨率的所述捕获的图像，

多个所述立体匹配单元，多个所述滤波处理单元和多个所述第一合并单元，它们被提供来用于所述多个分辨率的每个，以及

被配置为合并每个由所述第一合并单元合并的相应的多个分辨率的所述视差值。

（9）根据（8）所述的图像处理装置，

其中，当未获得在具有第一分辨率的所述视差图像之一中的特定像素的视差值时，所述第二合并单元基于像素的视差值来合并所述相应的多个分辨率的所述视差值，所述像素在具有低于所述第一分辨率的第二分辨率的所述视差图像之一中与所述特定像素对应。

（10）根据（9）所述的图像处理装置，

其中，所述立体匹配单元包括可靠度计算单元，其被配置为计算所述右和左视差图像的所述视差值的可靠度，并且

其中，当所述可靠度大于预定阈值并且未获得在具有所述第一分辨率的视差图像中的所述特定像素的所述视差值时，所述第二合并单元将所述视差值看作未知值。

（11）根据（8）所述的图像处理装置，

其中，所述第二合并单元基于具有第一分辨率的所述视差图像之一的视差值，来重写具有大于所述第一分辨率的第二分辨率的所述视差图像之一的视差值。

（12）根据（11）所述的图像处理装置，

其中，当具有所述第一分辨率的所述视差图像的所述特定像素的所述视差值和与所述特定像素相邻的多个像素的视差值在预定范围内时，所述第二合并单元基于所述特定像素的所述视差值，来重写在具有所述第二分辨率的所述视差图像中的与所述特定像素对应的像素的所述视差值。

（13）根据（8）所述的图像处理装置，

其中，所述第二合并单元基于在具有所述多个分辨率中的最低分辨率的视差图像中的目标区域的视差值来选择所述多个分辨率之一，并且基于具有所选择的分辨率的视差图像来对于所述目标区域的所述视差值执行合并。

（14）一种图像处理方法，包括：

基于分别由右和左相机捕获的一对图像、通过使用立体匹配来获得右和左视差图像；

对于所述视差图像执行滤波处理；以及

在已经经过了所述滤波处理的所述视差图像中在所述右和左视差图像中的相互对应的位置处的视差值之间进行比较，并且基于比较结果来合并所述右和左视差图像的所述视差值。

Claims

1.一种图像处理装置，包括：

2.根据权利要求1所述的图像处理装置，

3.根据权利要求1所述的图像处理装置，

4.根据权利要求1所述的图像处理装置，

其中，所述滤波处理单元包括中值滤波器。

5.根据权利要求1所述的图像处理装置，

6.根据权利要求5所述的图像处理装置，

7.根据权利要求6所述的图像处理装置，

8.根据权利要求1所述的图像处理装置，进一步包括：

第二合并单元

其被配置为获得具有多个分辨率的所述捕获的图像，

9.根据权利要求8所述的图像处理装置，

10.根据权利要求9所述的图像处理装置，

11.根据权利要求8所述的图像处理装置，

12.根据权利要求11所述的图像处理装置，

13.根据权利要求8所述的图像处理装置，

14.一种图像处理方法，包括：

对于所述视差图像执行滤波处理；以及