CN108038905A

CN108038905A - 一种基于超像素的目标重建方法

Info

Publication number: CN108038905A
Application number: CN201711421006.6A
Authority: CN
Inventors: 袁丁; 刘畅; 费晓雅; 张弘
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-05-15
Anticipated expiration: 2037-12-25
Also published as: CN108038905B

Abstract

本发明提供一种基于超像素的目标重建方法，该方法由从运动到结构的投影矩阵估计、超像素下多视图立体视觉匹配以及深度图的合成与融合组成,具体流程包括六大步骤，步骤一：读入图像序列，利用运动到结构方法SFM估计相机投影矩阵；步骤二：对图像对进行超像素分割；步骤三：为每个超像素计算可能的深度值；步骤四：利用MRF模型选择超像素的最优深度值；步骤五：建立多尺度超像素框架；步骤六：深度图融合与表面网格化。本发明克服了基于超像素的立体视觉匹配精度不足的缺点，并利用其对噪声与亮度偏差鲁棒性强、能够准确提供目标轮廓信息以及计算复杂度小的优点，针对纹理区域及无纹理区域均可实现较好的重建结果，普适性强，具有广阔的应用背景。

Description

一种基于超像素的目标重建方法

技术领域

本发明涉及一种基于超像素的目标重建方法，针对具有复杂细节表面的物体、非漫反射表面的物体以及具有高光区域表面的物体均具有较好的重建效果，属于计算机视觉领域。

背景技术

无人机是一种由机载设备程序控制或人为遥控的不载人飞行器，可携带各种设备执行任务。随着无人机技术的飞速发展，其应用领域也更加广泛。其中，由无人机拍摄图像序列来进行目标检测并对它进行三维重建是研究中的重点也是难点。

三维重建的本质概括来说是通过一定的技术手段获取三维信息，这些技术手段通常分为以下三种类型：主动距离获取重建方法，计算机图形学类方法，以及基于序列图像的计算机视觉类方法。

主动距离获取重建方法利用激光、结构光或红外深度传感器来直接获取待重建物体的深度信息，然后运用距离数据归并技术将各个深度图整合为一致的3D表面。其中最近提出的一种是利用Kinect设备的方法，该方法利用Kinect的红外传感器获得目标深度图，然后直接对深度图进行融合。这类方法具有较高的建模精度，建模方法简单且效率较高，适用于对精度要求高的重建任务，但是采用的设备昂贵且不能很好完成较大物体的重建。

计算机图形学类方法利用优秀的建模软件，例如AutoCAD、3DSMAX等来创建三维模型。该类方法使用长方体、椭球体等基本集合图形通过一系列复杂操作来构建模型。其缺点在于重建操作复杂，需要训练有素的专业人员与充分准确的重建目标数据，同时建模周期较长、成本较高。

基于序列图像的计算机视觉类重建方法从包含重建目标的序列图像中恢复物体的几何结构。该方法通过自动化的复杂重建算法减少了人工参与从而减轻了人工劳动强度。同时该方法所需的数据可通过普通数码相机采集，使得建模的成本下降并且可用于多种类型场景的重建任务。基于图像重建空间实体目标或场景是计算机视觉中一个重要的研究分支。空间实体表面纹理等特征信息通过二维图像反映，对这些信息进行提取和相应的处理即可建立二维图像到三维空间结构的联系，而这一联系可由基于图像的三维重建技术建立。基于图像的三维重建技术从二维图像构建出真实感较强的三维模型，是基于三维场景计算机视觉应用的基础。通过基于图像三维重建获取的模型可以应用于虚拟现实应用，古建筑原貌恢复、文物电子档案保存以及电子游戏产业等方面。

一直以来基于图像获取目标的三维信息就是计算机视觉方向的研究热点，Martin在1983年就提出了利用图像中物体的轮廓进行重建的方法，随后在1986年与1987年Chien与Potsmesi又分别提出了利用正交投影提取目标模型的方法与利用多视图透视投影构建目标模型的方法。本发明研究的方法为利用序列图像对中的立体匹配点信息进行三维重建的方法。同时由于本发明是基于超像素匹配，属于基于分割的立体匹配技术，所以在下面将介绍一下基于分割的立体视觉匹配技术。

在将分割用于匹配之前已经有很多技术试图把图像分割为小块然后在这些分割块上进行进一步的处理，例如Baker利用分割块来计算平面方程，然后利用该平面方程与视差来计算出局部深度值得分布情况。绝大多数情况下相互临近同时又具有相同的颜色与亮度值的像素点很有可能具有非常接近且连续变化的深度，研究者们已经在很多工作中利用这一通过观察得出的结论使用图像的分割块来简化立体视觉匹配问题。

利用分割块进行匹配可以使在有噪声干扰，亮度偏差以及轻微偏离漫反射假设的表面获取正确的匹配结果。在基于分割块的立体匹配中，分割块的尺寸选择同样至关重要，每个分割块需要包含足够多的信息使得匹配过程能够与真实视差分布的特点保持一致。因此超像素分割提供了一个很好的解决方案，保证了超像素分割块中包含有足够多的正确匹配需要用到的信息，同时能够很好的降低在一个超像素分割块中同时包含有多个物体以及纹理不同的区域的风险。在多视图立体视觉匹配重建中利用基于超像素分割的匹配能够为重建目标提供一个很好的轮廓信息，同时因为视差值的估计从像素单位转换为了超像素单位，算法的计算复杂度也随之下降了。本发明包含了超像素技术特有的优点，同时有效的避免了其内在的短板，填补了超像素技术在多视图立体视觉匹配领取应用的空白。

发明内容

本发明的技术解决问题是：提出一种基于超像素的目标重建方法，该方法由运动到结构的投影矩阵估计、超像素下多视图立体视觉匹配以及深度图的合成与融合组成。它具有鲁棒性强、能够准确提供目标轮廓信息等优点，特别是针对无纹理区域具有较好的重建结果。

本发明的技术解决方案是：一种基于超像素的目标重建方法，其输入量是飞行器对目标跟踪拍摄的序列图像，输出为目标的三维表面网格模型。

第一步，利用运动到结构方法SFM处理图像序列，估计每幅图像对应的投影矩阵；

第二步，对图像序列进行极线校正，利用自适应的简单线性迭代聚类超像素算法Adaptive-SLIC对图像序列进行分割，实现图像序列的超像素分割，得到图像序列中的每幅图像中超像素块的分割结果；

第三步，将经过分割得到的超像素块中的超像素作为匹配窗，利用零归一化互相关相似性测度ZNCC，作为匹配代价为每一个分割后的超像素计算出一系列可能的超像素的深度值，记为深度值的可能值集合；

第四步，以超像素作为马尔科夫随机场模型节点，深度值的可能值集合中的每个深度值作为该马尔科夫随机场模型中节点的各个状态值，通过求解马尔科夫随机场模型来获得每个超像素的最优深度值；

第五步，为进一步提高最优深度值估计的精确度，建立多尺度超像素框架，对每个匹配后的图像对的参考图像进行多次的Adaptive-SLIC超像素分割，将参考图像分割为不同数量的超像素，对应不同的超像素尺寸，利用这些不同尺寸的超像素进行基于MRF的立体匹配即得到参考图像中同一个像素点的M个候选深度值；

第六步，深度图融合与表面网格化，M个候选深度值对应各自的视差值pi，利用极线约束与所述视差值pi对M个候选深度值重新评估，评价的指标为ZNCC值，将ZNCC值最高的深度值赋给指定像素，遍历所有像素便完成了深度图的合成，再将每个视角的深度图转换到同一视角下表达，最后利用泊松表面重建方法对重建结果进行表面网格化，得到重建模型，完成基于超像素的目标重建。

所述第三步中，具体过程如下：

(1)在参考图像中依次选取超像素块，并将极线投影到参考图像的相邻图像m_ne∈N(m_refer)，从而利用极线约束来简化匹配过程；

(2)制作该选中超像素的模板，将该模板沿极线投影到相邻的图像m_ne上；

(3)利用模板在图像m_ne上提取一个与s_i相同大小、形状的超像素块s_i′，在深度范围d_i(p)内沿极线移动s_i′，由公式(2)计算两个超像素块之间的ZNCC值，在移动的过程中利用ZNCC值在这两个超像素之间进行一个类窗匹配，记录下深度范围d_i(p)中每一个视差值pi所对应的ZNCC值；

其中I_i是s_i中像素的亮度值，I′_i为s_i′中像素的亮度值，N为超像素中的像素个数，和代表s_i和s_i′分别在参考图像和相邻图像所覆盖区域像素的平均亮度值；

(4)选择最佳的L个深度值d_i(p_i,l),l∈{1,...,L}组成可能深度值集合，与每个深度值相对应的ZNCC值为c_i(p_i,l),l∈{1,...,L}，每一个超像素s_i的标签对应一个视差值p_i,l，每一个p_i,l对应于一个深度值d_i(p_i,l)和一个ZNCC值c_i(p_i,l)。

所述第四步中，具体过程如下：

(1)建立MRF模型的代价方程，由数据项和平滑项组成；

(2)建立数据项ZNCC值的范围在[-1,1]之间，通过反指数函数将ZNCC值映射为一个取值为可作为数据项代价的正值即得到数据项；

(3)建立平滑项根据相邻超像素节点的深度值和亮度差异来设计这个温和的平滑项，对Potts模型进行改进得到最终的平滑项；

(4)求解能量函数得到最优标签也就是每个超像素对应的最优深度值，采用基于图割理论的α扩张算法来求解这个NP难问题，利用gco-v3.0库函数调用α扩张算法对多标签离散MRF进行优化；

(5)能量函数中参数的确定，所有出现在MRF模型中参数的选择值如下：计算能量函数的数据项对于所有像素的平均值K，数据项参数λ为1，ρ为1，平滑项规则化参数ε为K/3，深度假设值的数量L为7，深度差异阈值α为3，亮度值差异阈值为5，能量函数参数θ为0.95。

所述第五步具体过程如下：利用Adaptive-SLIC超像素分割算法将每一幅参考图像以不同超像素块数分割M次，假设n代表最小超像素块中的像素数，则余下的四次分割所对应的超像素块的大小可通过n·u，u＝2,3,4,5…M获得，根据参考图像的分辨率得到其包含的像素数N，然后通过s＝N/(n·u)计算出每次分割的超像素个数s，s是Adaptive-SLIC超像素分割算法的唯一输入值，通过以上步骤得到M个对同一个参考图像的分割结果，然后利用步骤四分别对这M个分割结果求解，得到同一个像素点对应的M个深度候选值。本发明中M为5。

下面具体说明。

1、由运动到结构(SfM)的投影矩阵估计方法

两视图投影矩阵估计可以分为以下三步：首先对图像序列中的图像进行两两顺序分组，每两幅图像构成一个图像对，随后分别对各个图像对进行特征点检测、提取以及特征点匹配，同时利用图像EXIF信息计算相机内参数矩阵。EXIF(Exchangeable Image Fileformat)的中文名称为可交换图像文件格式，是专门为数码相机拍摄图像设定的用于记录数码照片的属性信息和拍摄数据的文件格式。在EXIF文件中可以轻松读取到镜头的实际焦距长度F以及图像x轴y轴两个方向的像素距离Px、Py，即图像的像素分辨率。再利用相机感光元件CCD或CMOS的长边实际尺寸L，根据公式(1)可以得到像素单位下的焦距f；

接下来利用匹配特征点与极线约束条件计算该图像对的基础矩阵，然后在其基础上计算本质矩阵，对本质矩阵进行分解得到相机的外参数矩阵，外参数矩阵与计算得到的内参数矩阵共同组成摄像机投影矩阵；最后利用摄像机矩阵并通过三角测量得到匹配特征点所对应的空间点，从而完成两视图由运动到结构的投影矩阵估计。

两视图投影矩阵估后的图像对融合过程如下：假设给定的图像序列的长度为n，图像序列中每一幅图像的特征点的集合为I，且前i副图像经过三角测量得到三维点云的集合为Si，第一幅图像与第二幅图像以特征点集I1与I2与已知的相机投影矩阵P1，P2为基础经过三角测量得到三维点云集合S2，对于第三幅图像I3首先需要将其投影矩P3阵转换到与前两幅图像相同的世界坐标系下，然后利用该转换矩阵将图像I3中所对应的三维点云也转换到S2的世界坐标系下，然后利用三角测量重建出I3中特征点对应的三维空间点，这样加上S2就组成了S3，此后每加入一副新的图像Ii，i＝4,…,n都进行上述操作，经过重建得到Si，一直到将所有图像融合完成，最终获得Sn。这其中在每一次得到新的Si都会重新进行bundle adjustment优化以及对外点outliers进行剔除的操作。

2、超像素下多视图立体视觉匹配方法

首先利用SLIC超像素算法对图像对进行匹配，建立一个离散马尔科夫随机场为各个像素估计合适的深度值，并提出了一个多尺寸超像素框架，该框架利用多个候选深度图来生成一个高精度的最终深度图，最后融合多个深度图。

(1)SLIC超像素图像分割。在SLIC超像素分割前，需要对图像对做极线矫正，目的是让匹配过程从二维降至一维，从而简化该过程。SLIC算法将彩色图像转化为CIELAB颜色空间和X、Y坐标下的5维特征向量，然后对5维特征向量构造距离度量标准，对图像像素进行局部的聚类。首先初始化种子点(聚类中心)；在种子点的n*n邻域内重新选择种子点(一般取n＝3)；在每个种子点周围的邻域内为每个像素点分配类标签；对搜索到的像素点进行颜色和空间距离度量；最后不断迭代优化得到结果。

(2)基于离散马尔科夫随机场的立体匹配。MRF算法的输入为经过极线矫正后的SLIC分割图像序列α，输出为图像序列对应的深度图序列β。该方法包含两个步骤：利用ZNCC作为匹配代价来为每个超像素计算出一系列可能的深度值；以超像素为节点，超像素的深度值为标签的状态建立离散马尔科夫随机场。通过求解该马尔科夫随机场模型来获得每个超像素的深度值。同时将超像素中包含的像素点赋予同一深度值也使得像素间的颜色一致性约束得到了加强。

首先为每一个超像素s_i∈m_refer计算深度值的可能值集合，该集合中的可能深度值将作为MRF模型中的节点标签的各个状态值。第一步在参考图像中依次选取超像素块，并将极线投影到参考图像的相邻图像m_ne∈N(m_refer)，从而利用极线约束来简化匹配过程。然后制作该选中超像的模板，将该模板沿极线投影到相邻的图像m_ne上。接下来利用模板在图像m_ne上提取一个与s_i相同大小、形状的超像素块s_i′，在深度范围di(p)内沿极线移动s_i′，接着利用ZNCC在这两个超像素之间进行一个类窗匹配，记录下深度范围di(p)中每一个视差值pi所对应的ZNCC值。超像素块之间ZNCC值的计算公式如下：

其中I_i是s_i中像素的亮度值，I_i′为s_i′中像素的亮度值，N为超像素中的像素个数，和代表s_i和s_i′分别在参考图像和相邻图像所覆盖区域像素的平均亮度值。

然后建立离散的MRF模型为每一个超像素从其L个可能深度值中选择一个最优的深度值作为其最终的深度值。为每个超像素节点提供L个标签，这L个标签分别对应L个最高的ZNCC值c_i(p_i,l),l∈{1,...,L}和其相对的深度值d_i(p_i,l),l∈{1,...,L}。该离散MRF模型的优化过程就是为参考图像中的各个超像素块分配一个最优的标签这些标签组成一个标签向量其中n为超像素的个数。因此整个模型的代价方程为：

其中为每个超像素的数据项，为一个一阶的平滑项。

数据项的建立。根据建立数据项遵循的原则，将各个深度候选值中ZNCC匹配值较小的深度筛选出去。ZNCC算子产生一个在[-1,1]的匹配值，利用反指数函数将ZNCC值映射为一个取值为可作为数据项代价的正值，由此，离散MRF模型的数据项可以表示为：

其中λ和ρ为控制变量，数据项与λ成正相关关系，与ρ成负相关关系。

平滑项的建立。首先定义超像素节点之间的连接边，规定只要两个超像素相邻，那么在这两个超像素节点之间就建立起一个节点。具体来说，如果两个超像素中各自有一个像素点互为8领域关系，那么这两个超像素就被认为是相邻，其间将会建立起一个连接边。

通常情况下，建立平滑项意在强化连接节点之间标签的平滑性，因此会建立惩罚方程对互相连接但标签状态不同的节点进行惩罚。但由于深度图候选计算已经将同一个超像素中包含的像素赋予了同一个深度，如果仍然采用以上传统的建立平滑项的方法，必将导致最后深度图的过度平滑。为避免过度平滑，本发明设计的平滑项只提供一个较为温和的平滑约束。该平滑项方程是根据相邻超像素节点的深度值和亮度差异来设计的，该方程如下：

其中δ是深度值差异的阈值，如果两个相邻超像素s_i和s_j之间的深度值和的绝对值小于δ，则认为这两超像素具有相同的标签状态，同时将不会对它们进行平滑惩罚。

在V(i,j)的设计中，将继续利用响度亮度作为度量，在与建立数据项的ZNCC度量值保持一致的同时使得相邻的且具有相似亮度的超像素拥有差异不大的深度值，V(i,j)项表示如下：

其中和分别为超像素s_i和s_j的平均像素亮度，3ε和ε是经验阈值，该设定可以使得V(i,j)与成负相关。亮度阈值通过实验调整得到。最后，采用基于图割理论的α扩张算法来求解能量函数以得到最优标签

(3)多尺度超像素框架。多尺度超像素框架对每个图像对的参考图像进行多次的Adaptive-SLIC超像素分割，将参考图像分割为不同数量的超像素块，对应不同的超像素尺寸。利用这些不同尺寸的超像素块进行立体匹配便可得到不同分辨率下的深度图。

规定输入图像的分辨率为640x480，考虑到重建物体的表面投影到最小超像素块大小的区域时可近似为平面，因此将算法中最小的超像素块设置为30个像素。每一幅参考图像以不同超像素块数分割M次，将M设为5次，假设n代表最小超像素块中的像素数，则余下的四次分割所对应的超像素块的大小可通过n·u，u＝2,3,4,5获得。根据参考图像的分辨率可得到其包含的像素数N，然后通过s＝N/(n·u)即可计算出每次分割的超像素个数s，该s是Adaptive-SLIC超像素分割算法的唯一出入值。

通过以上步骤得到了5个同一个图像对参考图像的分割结果，然后利用上一步的离散MRF方法分别对这五个分割结果进行深度图求解。因此，对于每个参考图像中的像素点，本发明提供了5个优质的深度候选值。

3、深度图融合与表面网格化

(1)深度图合成与融合。由于多尺度超像素框架在同一个视角下得到了多个深度图，本发明将利用这些深度候选值合成最终的高精度深度图。对于参考图像中的一个指定像素点来说，存在五个深度值候选d(p_i),i＝1,2,...,5，这五个候选深度值对应各自的视差值pi。利用极线约束与视差值pi，对这些候选深度值重新评估，其评价的指标为其ZNCC值。将ZNCC值最高的深度值赋给指定像素，遍历所有像素便完成了深度图的合成。

具体步骤如下：假设参考图像中的指定像素点为P，然后依次选取像素点P的各个候选深度值d(p_i),i＝1,2,...,5进行以下操作，首先通过候选深度值d(p_i)可确定与之对应的视差值pi，然后利用该视差值确定出在目标图像中像素点P所对应像素点P’，当定位好P’后计算在参考图像与目标图像中包含P与P’点的最小超像素块区域之间的ZNCC值：

其中Pi为参考图像中的指定像素，s为像素点Pi的候选深度值的编号，nj为参考图像中包含像素点Pi的最小超像素区域，c(n_j)为目标图像中包含Pi’的对应超像素区域。和分别为这两个区域中像素的平均亮度。

假定每个像素的候选深度值个数为S(本发明中S＝5)，然后在各个深度值候选中选取ZNCC值最大的候选，并将其所对应的深度值作为最终像素点Pi的准确深度值。

其中s*代表被选中候选深度值的编号。该合成方法利用候选深度值对应的视差值巧妙的避免了反复投影操作，同时更具有普适性。

在将各视角下的点云融合成整体点云之前，需要对外点进行处理，规定当一个点的法向方向与其视线方向所成的角在5°-45°之间时将该点视为外点而被清除。利用点云携带的图像一致性及相机参数等信息，来定义冲突点准则。在融合过程中，如果任一点对满足冲突点准则，具有较低ZNCC值的点将会被当作外点剔除。

(2)表面网格化。得到完整的点云后，利用MVS重建中广泛使用的泊松表面重建算法来获得表面网格模型，该算法通过隐式函数框架解决表面重建问题并利用散度算子将表面重建问题转化为泊松方程的解。源代码在其作者Michael Kazhdan的网站上有所提供，可直接使用。

本发明与现有技术相比的优点在于：

(1)相比于利用单一像素点为中心的正方形小窗来进行匹配代价的计算，利用整个超像素块来计算匹配代价能够更好的对噪声以及亮度偏差进行修正，使得匹配过程更加具有鲁棒性；

(2)基于颜色的超像素分割能够准确的确定重建目标的轮廓边际，从而可以让匹配过程在有效区域内进行，这样可以大大减少单目标重建中的背景噪声；

(3)利用超像素块来进行匹配代价的计算可以减少计算复杂度；

(4)传统的基于超像素的立体视觉匹配技术的匹配精度较低是其无法避免的问题，而本发明采用建立一个离散马尔科夫随机场和多尺度超像素框架的方法，有效提高了深度值估计的精度，从而避免了传统方法的不足。

附图说明

图1为本发明基于超像素的目标重建方法流程图；

图2为本发明基于超像素的目标重建方法过程示意图；

图3为templeRing数据集实验结果与真值对比图；

图4为dinoRing数据集实验结果与真值对比图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

本发明的实验平台配置为Intel Core i7 3.5GHz CPU和16GB RAM多核处理平台。代码环境为MATLAB 2014b。SLIC超像素分割的代码来自VLFeat MATLAB工具箱，Adaptive-SLIC为C++代码，本发明使用MATLAB中的MEX函数将其在MATLAB环境中编译并使用。α扩张方法代码来自gco-v3.0库。

多尺度超像素框架中，对于分辨率较低的Middlebury数据集，在最小超像素块大小为n＝30个像素的前提下，对图像对中的参考图像进行五次(u＝1,2,3,4,5)超像素分割，对于实验室自行采集的真实世界数据集，由于图像的分辨率较大，只对参考图像进行三次(u＝6,7,8)超像素分割，由公式n*u可以计算得到真实世界数据集下最小超像素尺寸为180个像素。整个程序的计算时间大部分被多尺度超像素框架处理所占据，因为每次不同尺寸的超像素分割够都需要进行一次MRF求解，本发明相应的使用MATLAB中SPMD(SingleProgram/Multiple Data)指令来对该过程进行并行计算加速。

本发明的流程见图1所示。该方法包括以下步骤：

步骤一：读入图像序列I_i(x)，利用SFM估计投影矩阵。

(1)在Matlab R2014b语言环境下读入图像序列I_i(x)；

(2)对图像序列中的图像进行两两顺序分组，每两幅图像构成一个图像对，并进行特征点检测、提取及匹配(SIFT特征)；

(3)利用图像EXIF信息计算相机内参数矩阵K1；

(4)利用匹配特征点与极线约束条件计算该图像对的基础矩阵F和本质矩阵E，分解本质矩阵E得到相机外参数矩阵K2，由相机内参数矩阵K1和外参数矩阵K2共同组成投影矩阵M；

(5)通过三角测量法由投影矩阵可得到匹配特征点对应的空间点，将每组图像对生成的空间点进行融合转换到同一个世界坐标系下，并在每次的融合中加入bundleadjustment剔除外点outliers。

步骤二：超像素分割。

(1)对图像序列进行预处理，包括极线校正等；

(2)初始化种子点(聚类中心)：按照设定的超像素个数，在图像内均匀的分配种子点。假设图片总共有N个像素点，预分割为K个相同尺寸的超像素，那么每个超像素的大小为N/K，则相邻种子点的距离近似为

(3)在种子点的n*n邻域内重新选择种子点(一般取n＝3)。具体方法为：计算该邻域内所有像素点的梯度值，将种子点移到该邻域内梯度最小处来避免种子点落在梯度较大的轮廓边界上，从而影响后续聚类效果；

(4)在每个种子点周围的邻域内为每个像素点分配类标签。和标准的k-means在整张图中搜索不同，SLIC的搜索范围限制为2S*2S，可以加速算法收敛。在此注意一点：期望的超像素尺寸为S*S，但是搜索的范围是2S*2S；

(5)距离度量。包括颜色距离和空间距离。对于每个搜索到的像素点，分别计算它和该种子点的距离。距离计算方法如下：

其中，dc代表颜色距离，ds代表空间距离，Ns是类内最大空间距离，定义为Ns＝适用于每个聚类。最大的颜色距离Nc既随图片不同而不同，也随聚类不同而不同，所以可取一个固定常数m(取值范围[1,40],一般取10)代替。最终的距离度量D'如下：

由于每个像素点都会被多个种子点搜索到，所以每个像素点都会有一个与周围种子点的距离，取最小值对应的种子点作为该像素点的聚类中心。

(6)迭代优化。理论上上述步骤不断迭代直到误差收敛，即每个像素点聚类中心不再发生变化。实践发现10次迭代对绝大部分图片都可以得到较理想效果；

(7)增强连通性。经过上述迭代优化可能出现以下瑕疵：出现多连通情况、超像素尺寸过小，单个超像素被切割成多个不连续超像素等，这些情况可以通过增强连通性解决。主要思路是：新建一张标记表，表内元素均为-1，按照“Z”型走向(从左到右，从上到下顺序)将不连续的超像素、尺寸过小超像素重新分配给邻近的超像素，遍历过的像素点分配给相应的标签，直到所有点遍历完毕为止。

步骤三：为每个超像素计算可能的深度值。

(3)利用模板在图像m_ne上提取一个与s_i相同大小、形状的超像素块s_i′，在深度范围d_i(p)内沿极线移动s_i′，由公式(2)计算两个超像素块之间的ZNCC值，在移动的过程中利用ZNCC在这两个超像素之间进行一个类窗匹配，记录下深度范围d_i(p)中每一个视差值pi所对应的ZNCC值；

(4)选择最佳的L个深度值d_i(p_i,l),l∈{1,...,L}组成可能深度值集合，与其相对应的ZNCC值表示为c_i(p_i,l),l∈{1,...,L}。这里每一个超像素s_i的标签对应一个视差值p_i,l，每一个p_i,l对应于一个深度值d_i(p_i,l)和一个ZNCC值c_i(p_i,l)。

步骤四：利用MRF模型选择超像素的最优深度值。

(1)建立MRF模型的代价方程，由数据项和平滑项组成；

(2)建立数据项。ZNCC值的范围在[-1,1]中，通过反指数函数将ZNCC值映射为一个取值为可作为数据项代价的正值即得到数据项，见公式(4)；

(3)建立平滑项。根据相邻超像素节点的深度值和亮度差异来设计这个温和的平滑项，对Potts模型进行改进得到最终的平滑项，见公式(5)；

(4)求解能量函数得到最优标签采用基于图割理论的α扩张算法来求解这个NP难问题，利用gco-v3.0库函数调用α扩张算法对多标签离散MRF进行优化，该函数库支持由任何形式数据项与平滑项组合而成的能量函数的优化求解；

(5)代价函数中参数的确定。首先计算出对于所有像素的平均值K。原则上参数的设置应尽量使得数据项与平滑项之间能够达成一定的平衡，根据以上原则这里将ε设置为与K成比例，并规定ε＝K/3来平衡数据项与平滑项。为了减少过度平滑且提高数据项的权重，将θ设置为0.95。下表列出了本发明中包括ε于θ在内所有出现在MRF模型中参数的选择值。

表1 MRF模型参数选择表

步骤五：建立多尺度超像素框架。

本发明规定算法输入图像的分辨率为640x480，最小的超像素块为30个像素。利用Adaptive-SLIC超像素分割算法将每一幅参考图像以不同超像素块数分割五次，假设n代表最小超像素块中的像素数，则余下的四次分割所对应的超像素块的大小可通过n·u，u＝2,3,4,5获得。根据参考图像的分辨率可得到其包含的像素数N，然后通过s＝N/(n·u)就可以计算出每次分割的超像素个数s，s是Adaptive-SLIC超像素分割算法的唯一输入值。通过以上步骤得到了五个同一个图像对参考图像的分割结果，然后利用步骤四分别对这五个分割结果进行深度图求解。

步骤六：深度图融合与表面网格化。

假设参考图像中的指定像素点为P，然后依次选取像素点P的各个候选深度值d(p_i),i＝1,2,...,5进行以下操作：

(1)通过候选深度值d(p_i)确定与之对应的视差值pi，然后利用该视差值确定出在目标图像中像素点P所对应像素点P’，接下来利用公式(7)计算在参考图像与目标图像中包含P与P’点的最小超像素块区域之间的ZNCC值；

(2)在各个深度值候选中选取ZNCC值最大的候选，并将其所对应的深度值作为最终像素点Pi的准确深度值；

(3)将每个角度下的深度图转换为点云形式，并根据规定当一个点的法向方向与其视线方向所成的角在5°-45°之间时，将该点视为外点清除；

(4)定义冲突点准则。在融合过程中，如果任一点对满足该准则，具有较低ZNCC值的点将会被当做外点剔除；

(5)利用泊松表面重建源代码的作者Michael Kazhdan提供的源代码进行表面网格化。

本发明的有效性和准确性已经通过Middlebury数据集和真实世界数据集进行了验证，取得了很好的重建结果。本发明的最大优势在于超像素立体视觉匹配对噪声与亮度偏差鲁棒性强、能够准确提供目标轮廓信息等优点，在保证完整度较好的同时有效避免了其匹配精度较低的不足。

图3为本发明对于templeRing数据集的重建结果，其中左图是本发明的结果，右图是激光扫描真值；图4为本发明对于dinoRing数据集的重建结果，其中左图是本发明的结果，右图是激光扫描真值。从图中可以看到对于像神庙的柱子、阶梯以及恐龙脚这类细节被很好地再现了出来，并且对于缺乏纹理的dinoRing也实现了较好的重建结果。

表2为对于精确度和完整度的测评结果，其中精确度的单位为毫米，完整度是与激光扫描的真值模型为基准进行对比的百分比，其中对于dinoRing数据的评测结果表明本发明的方法对于无纹理目标的重建也可以实现较高的完整度。

表2 Middlebury数据集定量评估统计表

数据集	精确度	完整度
			templeRing	0.59	99.4
dinoRing	0.63	98.9

从实验结果看，本发明的目标重建方法能够很好地应对具有复杂细节表面的物体、非漫反射表面的物体以及具有高光区域表面的物体，进一步说明本发明具有良好的普适性以及广阔的应用前景和价值。

Claims

1.一种基于超像素的目标重建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于超像素的目标重建方法，其特征在于：所述第三步中，具体过程如下：

(2)制作选中的超像素块的模板，将模板沿极线投影到相邻的图像m_ne上；

<mrow> <mi>Z</mi> <mi>N</mi> <mi>C</mi> <mi>C</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>-</mo> <mover> <mi>I</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>I</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>-</mo> <mover> <msubsup> <mi>I</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>-</mo> <mover> <mi>I</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>&CenterDot;</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>I</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>-</mo> <mover> <msubsup> <mi>I</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中I_i是s_i中像素的亮度值，I_i′为s_i′中像素的亮度值，N为超像素中的像素个数，和代表s_i和s_i′分别在参考图像和相邻图像所覆盖区域像素的平均亮度值；

(4)选择最佳的L个深度值d_i(p_i,l),l∈{1,...,L}组成可能深度值集合，与每个深度值相对应的ZNCC值为c_i(p_i,l),l∈{1,...,L}，每一个超像素s_i的标签对应一个视差值p_i,l，每一个p_i,l对应于一个深度值d_i(p_i,l)和一个ZNCC值c_i(p_i,l)，最后将最佳的L个深度值d_i(p_i,l),l∈{1,...,L}记为深度值的可能值集合。

3.根据权利要求1所述的基于超像素的目标重建方法，其特征在于：所述第四步中，具体过程如下：

(1)建立马尔科夫随机场(MRF)模型的代价方程，由数据项和平滑项组成；

(2)建立MRF模型中的数据项ZNCC值的范围在[-1,1]之间，通过反指数函数将ZNCC值映射为一个取值作为数据项代价的正值，即得到数据项；

(3)建立MRF模型中的平滑项根据相邻超像素节点的深度值和亮度差异来设计平滑项；

(4)求解MRF模型的能量函数得到最优标签即每个超像素对应的最优深度值，采用基于图割理论的α扩张算法来求解这个NP难问题，利用gco-v3.0库函数调用α扩张算法对多标签离散MRF进行优化，最终获得每个超像素的最优深度值。

4.根据权利要求1所述的基于超像素的目标重建方法，其特征在于：所述第五步具体过程如下：

利用Adaptive-SLIC超像素分割算法将每一幅参考图像以不同超像素块数分割M次，假设n代表最小超像素块中的像素数，则余下的M-1次分割所对应的超像素块的大小可通过n·u，u＝2,3,4,5…M获得，根据参考图像的分辨率得到其包含的像素数N，然后通过s＝N/(n·u)计算出每次分割的超像素个数s，s是Adaptive-SLIC超像素分割算法的唯一输入值，通过以上步骤得到M个对同一个参考图像的分割结果，然后分别对每一个分割结果做步骤三和步骤四的处理：将经过分割得到的超像素作为匹配窗，利用零归一化互相关相似性测度ZNCC，作为匹配代价为每一个分割后的超像素计算出一系列可能的超像素的深度值，记为深度值的可能值集合；以超像素作为马尔科夫随机场模型节点，深度值的可能值集合中的每个深度值作为该马尔科夫随机场模型中节点的各个状态值，通过求解马尔科夫随机场模型来获得每个超像素的最优深度值；处理完这M个分割结果，也就得到了同一个像素点对应的M个深度候选值。