CN105931231A

CN105931231A - 一种基于全连接随机场联合能量最小化的立体匹配方法

Info

Publication number: CN105931231A
Application number: CN201610239547.6A
Authority: CN
Inventors: 薛弘扬; 蔡登�
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2016-09-07

Abstract

本发明公开了一种基于全连接随机场联合能量最小化的双目立体匹配方法，包括如下步骤：计算目标图像中每个像素点相对于匹配图像的匹配误差向量，所述匹配误差向量的维数等于预设的视差级别总数；根据匹配误差向量基于全连接随机场联合能量构建图像视差值的随机场模型；以随机场模型的能量最小作为求解目标，使用平均场近似算法迭代求解所述的随机场模型得到目标图像中所有像素点的分类概率向量以构建视差图。本发明的随机场模型同时包括全局能量和局部能量，在平坦的区域通过全局能量项得到更加平滑的结果，在精细的区域通过局部能量项保留了更多细节；利用平均场近似求解的方法保证了一定的求解速度。

Description

一种基于全连接随机场联合能量最小化的立体匹配方法

技术领域

本发明涉及立体视觉领域，具体涉及一种基于全连接随机场联合能量最小化的立体匹配方法，在利用全连接随机场建立的模型基础上，通过能量最小化计算双目图像对应的视差图。

背景技术

一直以来，立体匹配问题都是计算机视觉中最为基本、最为重要也是最为困难的问题之一。给定同一场景在不同视角下的多张图像，立体匹配的任务是要找到这些图像之间点与点之间的匹配对应关系，进而能够利用这些对应关系通过三维几何关系计算图像中物体离相机的距离信息。立体匹配被广泛应用于三维环境感知与建模、机器人、无人驾驶等诸多领域，也能为物体检测与跟踪、图像分割等应用提供便利。立体匹配算法通常先得到视差图，然后在视差图基础上，利用提前获得的相机参数计算得到深度值(即每个点离相机中心的距离)。对于场景中同一个点，表现在同时拍摄的左右图像中，必然位于图像不同的位置。对于经过校正的左右图或者相机(相机的成像平面共面，而且相机朝向平行)，同一个点在左右图像中对应的像素点必然位于同一条水平线上，视差就是指这一对位于同一条水平线上的像素点之间的横向距离。

早期的立体匹配限于计算机计算能力的制约，大多只计算图像特征点的视差，得到离散点的深度信息，比如提取左右两张图像中的角点或者sift特征点，然后只在这些特征点之间进行匹配，这样相对于全部像素点而言，需要匹配的点数量明显减少，之后，为了得到其他区域的视差信息，研究者们采用各种插值和拟合策略，从已有离散特征点的视差出发，估计整张图像的视差。随着计算机计算能力的发展，人们开始关注整张图像稠密的视差计算，这是因为在大多数应用场景中，离散特征点的视差值只占图像中很小的一部分，大部分区域的视差是未知的，通过插值拟合得到的结果准确性很差。估算图像上每一处的视差，也叫做稠密立体匹配，主要分为两个部分，一个是匹配误差，另一个是立体模型。在左右图像中各选一个像素点，匹配误差是用来衡量这两个点同属于三维空间中同一个点的可能性。通常，匹配误差就是基于像素及其周围小区域之内颜色的差异。对于匹配误差而言，它的选定主要要考虑到不同视角可能会造成的像素外观差异，目前比较鲁棒的方法是利用统计变换和汉明距离，这种方法计算速度较快而且对于各种场景的适应性也较强，几乎为所有立体匹配算法所采用。

由于匹配误差并不能完全确定点与点的对应关系(比如颜色相同或者近似的点总是会有很多对)，直接使用匹配误差最小来确定每个点的对应关系，往往会得到非常糟糕的结果，实际上，许多真正对应的点，其匹配误差并非最小。因此需要引入一些先验假设，立体模型主要就是引入了一些关于视差图的先验假设，利用平滑性等约束建立一个随机场，将所有像素点的误差计入到一个总的能量函数中去。平滑性的假设约束不仅弥补了匹配误差的缺陷，同时还降低了整个问题的维度。这个能量函数的最优化是一个NP问题，因此我们只能去近似求解它们。

研究者们往往将优化局限在单条扫描线或者把多连通图变成一棵树的方法上，比如图切割和置信度传播的方法，这些方法的不足之处在于求解问题时不能考虑全局的信息，因此难以得到接近全局最优的结果。另有一些研究者利用采样的思想，利用蒙特卡洛马尔科夫链逼近最优解，但是这一类方法速度非常慢，难以实用。

发明内容

本发明提供了一种计算双目视差图的立体匹配方法——基于全连接随机场联合能量最小化的方法，能够考虑所有点之间的相关关系，并且得到全局的立体匹配结果。全连接性意味着我们要考虑图像中任意两点的颜色和空间关系，联合能量是指既考虑全局的能量项，也考虑局部的能量项。我们的方法计算的是每个像素点属于每一级视差的分类概率，最后使用赢者通吃的策略获得每个点的视差值。

一种基于全连接随机场联合能量最小化的双目立体匹配方法，从左图和右图中任意选择一个作为目标图像，以另一个作为匹配图像，进行双目立体匹配时针对目标图像进行如下步骤：

(1)计算目标图像中每个像素点相对于匹配图像的匹配误差向量，所述匹配误差向量的维数等于预设的视差级别总数；

(2)根据匹配误差向量基于全连接随机场联合能量构建图像视差值的随机场模型；

(3)以随机场模型的能量最小作为求解目标，使用平均场近似算法迭代求解所述的随机场模型以更新分类概率(即视差分类概率)，每次迭代得到的迭代结果为目标图像中所有像素点的分类概率向量，并比较相邻两次迭代结果以判断本次迭代结果是否收敛：

若收敛，则停止迭代，并根据此次迭代结果确定各个像素点的视差值以构建目标图像的视差图；

否则，继续进行下一次迭代；

第一次迭代完成后判断迭代收敛时，将第一次迭代结果与初始分类概率向量比较，其中，目标图像中每个像素点的初始分类概率向量根据相应的匹配误差向量计算得到。

在双目视觉匹配领域，通常选择左图作为目标图像，实际上选择右图作为目标图像也是可行的。

所述随机场模型如下：

其中，E(d)为随机场的能量，ψ_u(d_i)为目标图像中第i个像素点的视差值为d_i时的单项匹配误差，d_i为目标图像中第i个像素点的视差值，d_j为目标图像第j个像素的视差值，ψ_p(d_i,d_j)表示目标图像中第i个像素点的视差值为d_i、第j像素点的视差值为d_j时的全局能量项，表示目标图像中第i个像素点的视差值为d_i、第j像素点的视差值为d_j时的局部能量项，N(i)表示第i个像素点的八个相邻像素点的集合(以第i个像素点为中心的3×3区域内的像素点)，ω为全局能量影响因子，为局部能量影响因子。

随机场模型中d_i和d_j相互独立，二者取值可以相同也可以不同。

全局能量项的表达式如下：

ψ_p(d_i,d_j)＝μ(d_i,d_j)·k(i,j)，

μ(d_i,d_j)采用Potts模型计算：

k(i,j)为第i个像素和第j个像素之间的双边滤波项，其公式如下：

σ_x和σ_f为双边滤波项的参数(取值范围大于0，优选为5和55)，x_i为第i个像素点在目标图像中的位置向量(即坐标)，x_j为第j个像素点在图像中的位置向量，I_i为第i个像素点的颜色向量，I_j为第j个像素点的颜色向量。

局部能量项的表达式如下：

满足λ₁＜λ₂＜λ₃，作为优选，λ₁、λ₂、λ₃三者的取值分别0.5，1.5，6.0；

是目标图像中第i个像素点和第j个像素点的颜色相似性对视差相似性的影响因子，其目的是给两个像素基于颜色相似性施加视差相似性要求；

为第i个像素的视差值为d_i，第j个像素的视差值为d_j时第i个像素和第j个像素点的视差平滑值，通过如下公式计算：

μ₁和μ₂和β都是给定的参数，作为优选，三者取值分别为3，7，1/6。

ω和之间的相对大小能够体现全局能量项和局部能量项之间的相对重要性，用于平衡二者对随机场总能量的影响。作为优选，ω的取值为200～1000。的取值为1000～2000。进一步优选，ω为2000，为800。

所述步骤(3)每次迭代时具体包括如下步骤：

(3-1)在随机场上进行消息传递，分别计算各个像素点的全局空间累积分类概率向量和局部空间累积分类概率向量；

(3-2)在随机场上进行标签兼容性变换，分别计算各个像素点的全局标签累积概率向量和局部标签累积概率向量；

(3-3)针对任意一个像素点，根据如下公式计算该像素点的分类概率向量在第d_i维上的分量Q_i(d_i)，并根据计算结果进行归一化处理得到分类概率向量：

其中，和分别为第i个像素点的全局标签累积概率向量和局部标签累积概率向量在第d_i维上的分量。

分别根据如下公式计算各个像素点的全局空间累积分类概率向量和局部空间累积分类概率向量：

其中，为目标图像中第i个像素点在视差值为l时的全局空间累积分类概率向量，

为目标图像中第i个像素点在视差值为l时的局部空间累积分类概率向量，

Q_j(l)为目标图像中第j个像素点的分类概率向量在第l维上的分量，

k(i,j)为第i个像素点和第j个像素点的双边滤波核，

是目标图像中第i个像素点和第j个像素点的颜色相似性对视差相似性的影响因子。

分别计算各个像素点的全局标签累积概率向量和局部标签累积概率向量，对于第i个像素点，其全局标签累积概率向量和局部标签累积概率向量和根据如下公式计算：

其中，和分别为全局标签累积概率向量和局部标签累积概率向量和在第d_i维上的分量，μ(d_i,l)采用Potts模型计算(与计算μ(d_i,d_j)的方式相同)，为第i个像素的视差值为d_i，第j个像素的视差值为l时第i个像素和第j个像素点的视差平滑值。

所述步骤(3)中针对任意一个像素点，根据最后一个的迭代结果中该像素点对应的分类概率向量在各维上的分量采用赢者通吃策略得到该像素点的视差值(最终视差值)。

以第i个像素点为例，其视差值d_i根据如下公式确定：

d_i＝argmax_dQ_i(d)，

其中，argmax_dQ_i(d)表示求取使Q_i(d)最大的d的取值，Q_i(d)为最后一次迭代结果中第i个像素点的分类概率向量(即第i个像素点的最终分类概率向量)在第d维上的分量。

为便于按确定第一次迭代得到的迭代结果的收敛性，采用如下公式根据相应的匹配误差向量计算目标图像中每个像素点的初始分类概率向量：

其中，Q_i(d)为第i个像素点的初始分类向量在第d维上的分量，为第i个像素点的匹配误差向量在第d维上的分量。

进一步，作为优选，本发明的双目立体匹配方法还包括互换目标图像和匹配图像，并计算互换后的目标图像的视差图，并根据互换后目标图像的视差图进行如下后处理：

使用左右图交叉校准方法对左图和右图的视差图进行交叉校准处理分别得到校准后的左视差图、右视差图，然后对校准后的左视差图依次进行加权中值滤波和遮挡填充得到左图的最终视差图。

通过互换目标图像和匹配图像以求解得到左图和右图的视差图，分别记为左视差图和右视差图，然后采用后续处理以提高最终得到的视差图的精度。在实际应用中，通常取左图的最终视差图。实际上在后处理时也可以选择然对校准后的右视差图依次进行加权中值滤波和遮挡填充得到右图的最终视差图。

本发明中对算法收敛性的判断采用简单的策略，在实际应用时，通过实验观察，该算法通常在15次迭代之后达到收敛，因此也可以直接将迭代次数设置为15次。

与现有技术相比，本发明基于全连接随机场联合能量最小化的立体匹配方法具有以下优点：

(a)构建了的随机场模型同时包括全局能量和局部能量，在平坦的区域通过全局能量项得到更加平滑的结果，在精细的区域通过局部能量项保留了更多细节；。

(b)利用平均场近似求解的方法保证了一定的求解速度。

(c)具有较好的可移植性，能够采用各种不同的匹配误差度量方法，以便适用于各种不同场景。

附图说明

图1是本发明方法的流程图。

具体实施方式

下面将结合附图和具体实施例对本发明进行详细说明。

本实施例的基于全连接随机场联合能量最小化的双目立体匹配方法在执行前需要读取左右图，初始化视差级别总数，即预先设定视差级别总数，并从左图和右图中任意选择一个作为目标图像，以另一个作为匹配图像。

本实施例中预先设定的视差级别总数为……，并以左图作为目标图像，右图作为匹配图像。

如图1所示，进行双目立体匹配时针对目标图像(即左图)进行如下步骤：

(1)计算左图中每个像素点相对于右图的匹配误差向量ψ_u；

对左右图I_L,I_R进行统计变换(Census Transform)得到S_L,S_R，再对左右图I_L,I_R分别计算梯度图像G_L,G_R，通过统计变换后图像S_L,S_R之间的汉明距离和梯度图像的像素差(G_L,G_R之间的)来计算左图中每个像素点相对于右图的匹配误差向量ψ_u。

该向量的维度等于预先设定的视差级别总数。对于像素点(m,n)，匹配误差向量的第d个分量ψ_u(d)由下式计算得到：

ψ_u(d)＝α||G_L(m,n)-G_R(m-d,n)||+ham(S_L(m,n),S_R(m-d,n))

其中α为常数，本实施例中取值为……，G_L(m,n)为梯度图像G_L上像素点(m,n)的值(对于梯度图像该值为二维向量)，G_R(i-d,j)梯度图像G_R上像素点(m-d,n)的值，S_L(m,n)为图像S_L上像素点(m,n)的值，S_R(m-d,n)为图像S_R上像素点(m-d,n)的值。

(2)根据匹配误差向量基于全连接随机场联合能量构建图像视差值的随机场模型：

全局能量项的表达式如下：

ψ_p(d_i,d_j)＝μ(d_i,d_j)·k(i,j)，

μ(d_i,d_j)采用Potts模型计算：

σ_x和σ_f为双边滤波项的参数(取值范围大于0，本实施例中二者取值分别为5和55)，x_i为第i个像素点在目标图像中的位置向量(即坐标)，x_j为第j个像素点在图像中的位置向量，I_i为第i个像素点的颜色向量，I_j为第j个像素点的颜色向量。

局部能量项的表达式如下：

ω和之间的相对大小能够体现全局能量项和局部能量项之间的相对重要性，用于平衡二者对随机场总能量的影响。本实施例中ω为2000，为800。

(3)以随机场模型的能量最小作为求解目标，使用平均场近似算法迭代求解所述的随机场模型，每次迭代得到的迭代结果为目标图像中所有像素点的分类概率向量，并比较相邻两次迭代结果以判断本次迭代结果是否收敛：

否则，继续进行下一次迭代；

本实施例中采用如下公式根据相应的匹配误差向量计算目标图像中每个像素点的初始分类概率向量：

步骤(3)采用平均场近似算法迭代求解随机场模型时，每次迭代具体包括如下步骤：

本实施例中分别根据如下公式计算各个像素点的全局空间累积分类概率向量和局部空间累积分类概率向量：

k(i,j)为第i个像素点和第j个像素点的双边滤波核，

本实施例中分别计算各个像素点的全局标签累积概率向量和局部标签累积概率向量，对于第i个像素点，其全局标签累积概率向量和局部标签累积概率向量和根据如下公式计算：

步骤(3)中针对任意一个像素点，根据最后一个的迭代结果中该像素点对应的分类概率向量在各维上的分量采用赢者通吃策略得到该像素点的视差值(最终视差值)。

以第i个像素点为例，其视差值(最终视差值)d_i根据如下公式确定：

d_i＝argmax_dQ_i(d)，

本实施例中根据如下方法判断本次迭代结果是否收敛：

判断本次迭代结果与上次迭代结果之间的相对误差是否小于预设的误差阈值(本实施例中预设的误差阈值为1.0^-5)，如果是，则认为收敛，否则，则认为不收敛。

由于一个迭代结果包括所有像素点的分类概率向量，本实施例中判断收敛比较两次迭代结果的相对误差时，实际上是分别将每个像素点的分类概率进行比较得到该像素点的分类概率向量之间的误差，当所有像素点的分类概率向量之间的误差值小于1.0^-5则认为收敛。

进一步，为提高精度，本实施例中还通过步骤(1)～(3)获取右图的视差图，然后进行后处理：

主要分三个策略：

(a)左右图交叉校验(LRC)

对于左图中的每个像素(i,j)，其视差记作d_L(i,j)，同样的，在右图中的像素(i,j)，其视差为d_R(i,j)。

左右图交叉检验同时考虑左视差图和右视差图的结果，利用视差对应关系，对视差图进行校正：

d_L(i,j)＝min(d_L(i,j),d_R(i-d_L(i,j),j)

本步骤的交叉校验也可以不使用上面的校正公式，而是只标记左右视差不一致的像素，即满足

|d_L(i,j)-d_R(i-d_L(i,j),j)|＞2

的那些像素点，把这些点记为无效点。

然后对这些像素点作遮挡填充和加权中值滤波。

(b)遮挡填充(OF)

遮挡填充主要是为了给那些由于遮挡因素没有在左右图中同时出现的像素点赋有意义且合理的视差值，这一步需要在每个无效点的附近寻找有效的最小视差，作为该点的视差值。

(c)加权中值滤波(WMF)

这是一种常用的立体匹配方法后处理工序，只在上一步经过遮挡填充的点上进行。首先计算每个像素点的累积直方图，其中像素点p的累积直方图h_p在第t维上的分量h_p(t)为：

其中，t为从0到最大视差级别的某一视差，即t∈L，L为{1,2,3,……，M}，M为最大视差级别总数，l_q是经过遮挡填充的左视差图在像素点q位置的视差值，σ_x和σ_f是中值滤波器的参数，V是左图中全体像素点构成的集合。

之后再通过如下公式估计最终的视差值：

l_p＝arg_t∈L med(h_p(t))。

arg_t∈L med(h_p(t))表示求取直方图h_p的中位数对应的下标(即t的取值)。

为验证本发明方法的有效性，在MiddleburyStereo数据集上进行了对比实验。实验时设置了视差总数为208。Middlebury Stereo数据集是一个国际公认的立体匹配算法测试数据集，包括了训练集中的十五对图像和测试集中的十五对图像。本实验在训练集上比较了两种方法，一种是本发明的联合能量最小化立体匹配方法，另一种是只有分两步求解随机场最小化能量的立体匹配方法。

对比实验结果如表1所示，从实验结果可以看出，本实施例的方法相比于分两步最小化能量的方法具有更低的误差。在运行时间上，联合能量最小化方法平均花费时间30秒(在Intel 4770K 3.5GHzCPU和16G内存的机器上运行)，两步能量最小化方法则耗时约40秒(在与前面同样的机器上)，本实施例的方法略快于两步能量最小化方法。因此总而言之，联合能量最小化方法优于两步能量最小化方法。

表1

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于全连接随机场联合能量最小化的双目立体匹配方法，其特征在于，从左图和右图中任意选择一个作为目标图像，以另一个作为匹配图像，进行双目立体匹配时针对目标图像进行如下步骤：

否则，继续进行下一次迭代；

2.如权利要求1所述的基于全连接随机场联合能量最小化的双目立体匹配方法，其特征在于，所述随机场模型如下：

其中，E(d)为随机场的能量，ψ_u(d_i)为目标图像中第i个像素点的视差值为d_i时的单项匹配误差，ψ_p(d_i,d_j)表示目标图像中第i个像素点的视差值为d_i、第j像素点的视差值为d_j时的全局能量项，表示目标图像中第i个像素点的视差值为d_i、第j像素点的视差值为d_j时的局部能量项，N(i)表示第i个像素点的八个相邻像素点的集合，ω为全局能量影响因子，为局部能量影响因子。

3.如权利要求2所述的基于全连接随机场联合能量最小化的双目立体匹配方法，其特征在于，ω的取值为200～1000 。

4.如权利要求3所述的基于全连接随机场联合能量最小化的双目立体匹配方法，其特征在于，的取值为1000～2000 。

5.如权利要求3所述的基于全连接随机场联合能量最小化的双目立体匹配方法，其特征在于，所述步骤(3)每次迭代具体包括如下步骤：

6.如权利要求3所述的基于全连接随机场联合能量最小化的双目立体匹配方法，其特征在于，所述步骤(3)中针对任意一个像素点，根据最后一个的迭代结果中该像素点对应的分类概率向量在各维上的分量采用赢者通吃策略得到该像素点的视差值。

7.如权利要求1～5中任意一项所述的基于全连接随机场联合能量最小化的双目立体匹配方法，其特征在于，采用如下公式根据相应的匹配误差向量计算目标图像中每个像素点的初始分类概率向量：

8.如权利要求1～5中任意一项所述的基于全连接随机场联合能量最小化的双目立体匹配方法，其特征在于，还包括互换目标图像和匹配图像，并计算互换后的目标图像的视差图，并根据互换后目标图像的视差图进行如下处理：