CN113516699A

CN113516699A - 一种基于超像素分割的立体匹配系统

Info

Publication number: CN113516699A
Application number: CN202110542632.0A
Authority: CN
Inventors: 袁丽英; 陈昊然
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-10-19

Abstract

本发明公开了一种基于超像素分割的立体匹配系统，涉及视觉技术领域；包括如下方法：步骤一：系统搭建：采用平行式结构对双目系统进行搭建；步骤二：相机模型；步骤三：相机标定及校正；步骤四：立体匹配；步骤五：三维点云重建；本发明能够通过对系统的分析，完成对立体匹配算法的改进；通过双目视觉平台进行三维重建，完成对改进后的匹配算法的验证。

Description

一种基于超像素分割的立体匹配系统

技术领域

本发明属于视觉技术领域，具体涉及一种基于超像素分割的立体匹配系统。

背景技术

人类通过眼睛观看外部的世界，获取外部环境的信息。所以视觉对于人工智能的机器更显重要，机器视觉或者计算机视觉是人工智能发展的一个具有重要意义的领域。计算机视觉参考了人类的视觉系统，使用双目相机采集目标物体图像，利用CCD/CMOS等摄像机传感器为计算机处理信息进行输入，从而感知、分析、理解三维场景中的形状、位置、姿态等三维几何信息，之后凭借机器数据的分析，对客观环境进行识别、描述、解释、归类、判断等智能行为。

双目立体视觉技术能够很好地模拟人眼的功能，可以对三维世界进行立体感知。在计算机视觉的研究中发挥着越来越重要的作用。双目视觉既可用于目标检测与跟踪，又可以做三维测量、三维重建等，已经运用到很多方面，例如：矿难救灾、月球车自主导航，在智能生产，交通监控，机器导航，航空航天，医学建模，视觉仿真，文物复原，非接触高精度测量等方面有不可替代的作用。

基于双目视觉的三维重建技术是通过使用不同位置的两台拍摄同一幅场景，能够得到同一场景两幅二维图像，应用图像处理、立体匹配、计算深度、三维重建等方法处理，实现一种模拟人的双眼，从二维图像恢复场景的三维图形的立体视觉的方法。它利用了二维摄像机投影恢复物体三维立体信息(形状等)的这一过程，从二维图像内获取具有真实世界三维物体的信息。三维重建涉及到图像处理、模式识别和计算机视觉等诸多学科，因此，可以进一步促进这些学科的交叉融合，并且推动相关学科的发展。

通过对二维图像的处理，利用立体视觉的原理获取场景中目标的三维信息，在两幅图像上找到了一对对应点(即它们是物体表面同一点的投影)，根据两幅图像上的视差，就可以计算深度信息，实现三角剖分。在智能制造行业有广泛的应用前景，比如在物料分拣、工件识别中引入双目视觉技术，能够对物料或工件进行精确识别与定位。不仅从理论上是可行的，而且还有利于节约人工成本，提高生产效率。

基于双目视觉的三维重建技术操作简便有效,在很多行业都具有重要的实用价值。该技术已经逐渐被普及到生产和生活的各个领域，未来有着广阔的发展前景和极高的需求，对于时代的进步和科技的发展有着巨大推动作用，然而目前该技术依旧不成熟。

发明内容

为解决背景技术中的问题；本发明的目的在于提供一种基于超像素分割的立体匹配系统。

本发明的一种基于超像素分割的立体匹配系统，包括如下方法：

步骤一：系统搭建：采用平行式结构对双目系统进行搭建；

步骤二：相机模型：

2.1、基本模型：

转换涉及到的坐标系有：世界坐标系、摄像机坐标系、成像平面坐标系、像素坐标系；

2.2、畸变模型：

畸变的引入使得成像模型中的几何变换关系变为非线性，畸变主要分为两种：一是沿着透镜半径方向分布的径向畸变；二是由于透镜本身与相机传感器平面或图像平面不平行而产生的切向畸变；

步骤三：相机标定及校正：

3.1、相机标定及图像校正：

相机标定的目的就是建立各个坐标系之间的关系；方法就是根据摄像机模型，由已知特征点的坐标求解摄像机的模型参数，要求解的参数包括4个内参数和4个畸变参数，还有外部参数旋转矩阵和平移矩阵；再利用单目标定的结果来求取两个摄像机坐标系之间的旋转平移矩阵；

3.2、双目立体校正：

立体校正的目的就是把现实中非共面行对准的两幅图像，校正成共面行对准；

a.将右图像平面相对于左图像平面的旋转矩阵分解成两个矩阵，校正过程中两个图像平面均旋转一半的，这样可以使重投影畸变最小；

b.通过系统的偏移矩阵构造变换矩阵使得基线与成像平面平行；

通过合成旋转矩阵与变换矩阵相乘获得左右相机的整体旋转矩阵；左右相机坐标系乘以各自的整体旋转矩阵就可使得左右相机的主光轴平行，且像平面与基线平行；如此得到理想的平行配置的双目立体系图像；

步骤四：立体匹配：

立体匹配是寻找水平极线方向的匹配关系并用视差信息反映出来的过程；

4.1、预处理：采用SLIC算法来进行超像素的分割。

4.2、代价计算：

匹配代价计算的目的是计算参考图像上的每一个待匹配像素与目标图上每一个可能的视差范围内的候选像素之间的相关性，最后得到一个大小为W×H×D的代价矩阵C；

4.3、代价聚合：半全局匹配算法；

4.4、视差计算：视差计算采用赢家通吃算法，每个像素选择最小聚合代价值所对应的视差值作为最终视差；视差计算的结果是和图片相同尺寸的视差图，存储每个像素的视差值；

4.5、视差优化：

a.左右一致性检测：b.超像素修正：

4.6、评判标准：

算法的评估以误匹配率为准，误匹配率的计算公式如下：

式中d_c(x,y)——算法的输出的视差图；

d_T(x,y)——精准的视差图；

N——像素的总个数；

δ_d——为错误阈值，一般设置为一个像素点。

当输入的视差图与标准视差值对比，当视差值的误差大于δ_d时，则算做错误视差值；所以评估系统中对三项进行评估，分别是图像总的误匹配率，非遮挡区域的误匹配率，以及不连续区域的误匹配率；

步骤五：三维点云重建：

5.1、三维点云获取：

在获取视差图像后，通过视差图像和相机基线焦距等内外参数信息，获取三维点云。一般双目摄像机中，焦距f和基线T的值固定，每个像素代表的实际距离也可以通过三角形相似原理推理得到。

利用三角形相似定理，可以得到：

其中(u,v)表示像素坐标系下的点的坐标，(u₀,v₀)为相机图像平面的原点在像素坐标系下的坐标值。

将物体表面从像素距离转化到物理距离，即由视差图得到深度信息。视差与深度的关系如下：

图像中d＝X_L-X_R，在公式中将X_L-X_R替换为视差d，则点P的第三维信息Z_w的值为：

5.2、点云的三角剖分：采用分治算法来实现Delaunay三角剖分。

与现有技术相比，本发明的有益效果为：

一、能够通过对系统的分析，完成对立体匹配算法的改进。

二、通过双目视觉平台进行三维重建，完成对改进后的匹配算法的验证。

附图说明

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1为本发明的流程图；

图2为本发明中双目系统安装方式图；

图3为本发明中相机模型坐标变换流程图；

图4为本发明中相机模型图；

图5为本发明中立体匹配流程图；

图6为本发明中预处理流程图；

图7为本发明中赢家通吃算法示意图；

图8为本发明中视差与深度关系图；

图9为本发明中点云坐标计算原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

如图1所示，本具体实施方式采用以下技术方案：双目视觉的工作原理来源于人类的双目视觉系统，是从不同的视角通过两个相同的相机捕获同一个位置下的左右两侧图像，然后再通过立体匹配获取物体的视差信息，利用这些视差信息获取三维点云，再通过三角剖分重建出物体的三维模型。整体流程图如图1所示。

包括如下方法：

步骤一：系统搭建：

根据两个相机安装位置的不同可分为两种双目视觉系统，一种称为平行式光轴双目视觉系统，另一种被称为汇聚式光轴双目视觉系统。如图2所示显示了这两种系统。

a.汇聚式结构在匹配过程中视差太大会产生误匹配点增多、匹配范围扩大等问题。最重要的是，当相机摆放的角度太大会造成立体匹配相当困难，进而产生较大误差。

b.平行式光轴双目视觉系统是比较理想的系统。在平行式光轴视觉系统中，左右相机互相对齐，它们的光轴也要互相平行，形成一个共面的成像平面。由于左右相机只在轴上的位置不同，而其他参数是相同的，因此，左右相机拍摄的同一物体所成的像分别在左右两图像上对应的对极线上，可以较好的实现立体匹配。

综上所述，拟采用平行式结构对双目系统进行搭建。

步骤二：相机模型：

2.1基本模型：

相机在计算机视觉应用中起着重要作用，作为图像数据的来源，影响着后续的处理步骤。成像模型就是用数学公式刻画整个成像过程，即被拍摄物体空间点到照片成像点之间的几何变换关系。坐标变化换流程如图3所示：

相机模型图如4所示。转换涉及到的坐标系有：世界坐标系、摄像机坐标系、成像平面坐标系、像素坐标系。像素坐标系的原点为像素点O，U轴、V轴是它的两个坐标轴，它们是图像的两条边。图像坐标系的原点是图中的点O_img，点O_img是图像的中心，图像物理坐标系的x轴、y轴各自与U轴、V轴平行。

摄像机坐标系(O_c-X_c Y_c Z_c)的原点是图中的点O_c，摄像机坐标系的X_c轴、Y_c轴各自与U轴、V轴平行，摄像机坐标系的Z_c轴垂直于图像平面，与摄像机光轴Z_c平行。世界坐标系(O_w-X_w Y_w Z_w)的原点一般取相机光心或者相机基线的中点，世界坐标系的Z_w轴方向与Z_c轴的相反，世界坐标系的X_w轴、Y_w轴各自与U轴、V轴方向一致。

世界坐标系下的某点P(x_w,y_w,z_w)与像素坐标系下的点P’(u,v)之间的转化关系如下式：

式中d_x为像素在像素坐标系下u轴方向的物理尺寸，d_y为像素在像素坐标系下v轴方向的物理尺寸，f为焦距，

u₀，x₀表示相机内参，R、T表示相机外参。

2.2、畸变模型：

理想的针孔成像模型确定的坐标变换关系均为线性的，而实际上，现实中使用的相机由于镜头中镜片因为光线的通过产生的不规则的折射，镜头畸变总是存在的，即根据理想针孔成像模型计算出来的像点坐标与实际坐标存在偏差。畸变的引入使得成像模型中的几何变换关系变为非线性，增加了模型的复杂度，但更接近真实情形。畸变主要分为两种：一是沿着透镜半径方向分布的径向畸变；二是由于透镜本身与相机传感器平面(像平面)或图像平面不平行而产生的切向畸变。

步骤三：相机标定及校正：

3.1、相机标定及图像校正：

相机标定的目的就是建立各个坐标系之间的关系。方法就是根据摄像机模型，由已知特征点的坐标求解摄像机的模型参数，要求解的参数包括4个内参数和4个畸变参数，还有外部参数旋转矩阵和平移矩阵。该环节通过张正友平面标定法实现。

再利用单目标定的结果来求取两个摄像机坐标系之间的旋转平移矩阵。

3.2、双目立体校正(Bouguet校正)：

现实中的双目立体视觉系统中，是不存在完全的共面行对准的两个摄像机图像平面的，所以要进行立体校正。立体校正的目的就是，把现实中非共面行对准的两幅图像，校正成共面行对准。

a.将右图像平面相对于左图像平面的旋转矩阵分解成两个矩阵，校正过程中两个图像平面均旋转一半的，这样可以使重投影畸变最小。

b.通过系统的偏移矩阵构造变换矩阵使得基线与成像平面平行。

通过合成旋转矩阵与变换矩阵相乘获得左右相机的整体旋转矩阵。左右相机坐标系乘以各自的整体旋转矩阵就可使得左右相机的主光轴平行，且像平面与基线平行。如此就能得到理想的平行配置的双目立体系图像。

步骤四：立体匹配：

立体匹配是寻找水平极线方向的匹配关系并用视差信息反映出来的过程。立体匹配流程图如图5所示。

①预处理：

超像素分割将图像按照上下文信息的相似性程度分割成多个子区域，每个区域被称为一个超像素。超像素是一种超越像素级别的图像性质及特征的表达方式，常用来划分图像中的不同物体和边界，是对图像中的每个像素加标签的过程，具有某种共同视觉特征的像素会聚合在一个超像素中。

a.分水岭算法：

分水岭方法用拓扑地形图来描述一幅图像，分水岭算法借鉴了数学形态学的理论知识，采用了浸没算法的实现方案，将分水岭计算分为排序过程和浸没过程。分水岭算法的优点是简洁、复杂度低、运行时间短，且提取出的物体边缘轮廓线是封闭的，能准确定位目标物体。但是它也存在一定的缺点，分水岭分割会得到成千上万的集水盆，结果很细致，导致图像出现非常严重的过分割现象。

b.Superpixellattice算法：

一种无监督的过分割算法。算法输入的是图像的边界图，目的是搜寻穿过图像的最小权重路径，在边界代价图最小处分割图像。通过在垂直和水平条带两个方向搜索最优路径，不断地将图像从垂直和水平方向进行二分来得到常规网格超像素。该算法处理速度较快，但是分割效果严重受到输入边界图的影响。

c.SLIC算法：

简单线性迭代聚类方法(SLIC)，将彩色图像转换为CIELAB颜色空间和XY坐标下的5维特征向量，然后对5维特征向量构造度量标准，对图像像素进行局部聚类的过程。该算法速度较快，能生成紧凑、近似均匀的超像素。SLIC通过将搜索空间限制为与超像素大小成比例的区域，显着地减少了优化中的距离计算的数量。这降低了像素数N的线性复杂度，并且与超像素k的数量无关。然后加权距离度量组合颜色和空间接近度，同时提供对超像素的尺寸和紧凑性的控制。

综合分析，拟采用SLIC算法来进行超像素的分割。

②代价计算：

匹配代价计算的目的是计算参考图像上的每一个待匹配像素与目标图上每一个可能的视差范围内的候选像素之间的相关性，最后得到一个大小为W×H×D(D为视差搜索范围)的代价矩阵C(也叫视差空间图Disparity Space Image，DSI)，代价计算算法是双目匹配的核心之一，不同的计算方式有不同的优势，有时候可以结合多种计算方法。

通过构造相似性测度函数来计算代价值，对于不同的匹配基元有不同的相似性测度函数，大致分为基于像素和基于区域。由于基于像素的方式采用的是最基本的点特征元，所含的有效信息量相对较少，所以一般采用基于区域的方法来计算代价值。基于区域的方法有像素灰度差的绝对值之和(SAD)，归一化交叉相关函数(NCC)，Census变换等相似性测度函数。

a.像素灰度差的绝对值之和(SAD)：

b.像素灰度差的平方和(SSD)：

c.归一化交叉相关函数(NCC)：

d.Census变换：

由于各种相似性测度函数各有优劣，所以拟采用SAD、NCC和Census变换三种不同的相似性测度函数相互结合用做匹配代价计算，通过对多相似性测度函数进行融合，来提高匹配代价结果的鲁棒性。

③代价聚合：

a.局部匹配算法：

局部匹配算法只考虑以匹配像素为中心一个小窗口之内的相关性，没有考虑全局信息，与全局匹配法相比，能量函数只有数据项，而没有平滑项，因此只能求取局部最优解。

b.全局匹配算法：

全局匹配算法与局部匹配算法不同，全局算法是利用图像的全局约束信息，通过构建全局能量函数，在整个图像上计算能量最小值，即全局能量最优化策略，简单来说就是寻找每个像素的最优视差使得全局能量函数最小。全局能量函数的定义如公式所示：

E(d)＝E_data(d)+E_smooth(d) (5)

其中，E_data(d)为数据项，是反应视差图对应的总体匹配代价的测度；E_smooth(d)是平滑项，为了让视差图满足某些条件假设的约束。能量函数最小化是一个二维最优问题，可以找到最优解，但计算速度非常慢。

c.半全局匹配算法：

为了更高效的解决能量函数最小化这个二维最优化问题，半全局匹配(SGM)算法采用基于类似于扫描线的方法，将像素所有视差下的匹配代价进行像素周围所有路径上的一维代价聚合，然后再将所有的一维代价聚合值相加，以近似二维的最优，这不仅可以取得和全局算法相媲美的结果，还大大的增加了效率。半全局算法全局能量函数如下：

式中第一项是数据项，第二项和第三项是平滑项；

d指视差图，E(d)是该视差图对应的能量函数；

p代表当前像素，q代表当前像素的相邻像素；

N_p指像素p的相邻像素点集合(一般认为8连通)；

C(p,d_p)指当前像素点视差为d_p时，该像素点的代价值；

δ[.]表示克罗内克函数，如果函数中的参数为真则返回1，否则返回0；

P₁、P₂为惩罚系数，用来增加平滑性约束。

综合分析，拟采用半全局匹配算法。

④视差计算：

视差计算采用赢家通吃(WTA)算法，如图7所示，每个像素选择最小聚合代价值所对应的视差值作为最终视差。视差计算的结果是和图片相同尺寸的视差图，存储每个像素的视差值。

⑤视差优化：

a.左右一致性检测：

在获得左右图像的视差图后，需要在左右图像视差图中找到相应的遮挡区域，主要目的是提纯视差图像，这样不仅视差图的错误匹配数据会被剔除，而且在计算目标物体三维坐标时，获取的数据精度也能够得到保证。视差图像的遮挡区域，是由于左右相机的位置不同，在拍摄目标图像时，造成的右图像采集不到目标左边缘、左图采集不到目标右边缘的现象，遮挡区域往往是一个连续的区域。目前的检测算法是左右一致性检测算法，根据左右两幅输入图像，分别得到左右图像的视差图，计算出遮挡区域。再对遮挡区域的赋值。

b.超像素修正：

在超像素内进行修正，对超像素内的视差值进行统计，并对超像素内的不同视差值进行分别处理，若该超像素内的视差值均正确，则不对该超像素进行处理；若存在错误视差值，则将该超像素内的视差都更新成正确视差；若该超像素内没有正确视差，则在该超像素周围进行搜索，寻找颜色差最小的点的视差值填充该超像素。

⑥评判标准：

算法的评估以误匹配率为准，误匹配率的计算公式如下：

式中d_c(x,y)——算法的输出的视差图；

d_T(x,y)——精准的视差图；

N——像素的总个数；

δ_d——为错误阈值，一般设置为一个像素点。

当输入的视差图与标准视差值对比，当视差值的误差大于δ_d时，则算做错误视差值。所以评估系统中对三项进行评估，分别是图像总的误匹配率，非遮挡区域的误匹配率，以及不连续区域的误匹配率。

步骤五：三维点云重建：

①三维点云获取：

如图9，利用三角形相似定理，可以得到：

将物体表面从像素距离转化到物理距离，即由视差图得到深度信息。视差与深度的关系如图8所示。

②点云的三角剖分：

点云的三角剖分是一项常用的数据预处理技术，常用于数值分析以及图形学。其中，Delaunay三角剖分具有空圆特性和最大化最小角特性，其中空圆特性是指：在Delaunay三角形网中任一三角形的外接圆范围内不会有其它点存在；最大化最小角的特性是指：在散点集可能形成的三角剖分中，Delaunay三角剖分所形成的三角形的最小角最大。

Delaunay剖分是一种三角剖分的标准，实现它有多种算法。

a.分治算法：

分治算法的原理是：将所有数据点分割成数个容易进行三角剖分的子集，在各个小点集内生成小三角网，然后再逐级合并。整个过程是一个递归的过程。同时进行LOP(Local Optimization Procedure)优化，最终形成整体的三角网，因此具有较高的计算效率。

b.三角网生长算法：

三角网生长算法的原理是：在离散点集合中任取一点作为起始点，在剩余点集中找出与其相距最近的点，以两点连线作为三角网的初始基线。利用判别准则在初始基线的右边找出与该基线构成Delaunay三角形的第三点，并与原来两点连接形成Delaunay三角形，特点是算法简单，占用内存空间较小，但时间复杂度较高。

c.逐点插入算法：

逐点插入算法的原理是：建立一个足够大的三角形或多边形作为初始包围盒，把所有离散点的数据包含起来，然后在初始三角网中插入一点，把该点与包含它的三角形的三个顶点相连，形成三个新的三角形，同时进行LOP优化。每插入一个点都会定位插入点所在目标三角形，该过程时间复杂度较高。

综合分析，拟采用分治算法来实现Delaunay三角剖分。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于超像素分割的立体匹配系统，其特征在于：包括如下方法：

步骤一：系统搭建：采用平行式结构对双目系统进行搭建；

步骤二：相机模型：

(2.1)、基本模型：

(2.2)、畸变模型：

步骤三：相机标定及校正：

(3.1)、相机标定及图像校正：

(3.2)、双目立体校正：

(a).将右图像平面相对于左图像平面的旋转矩阵分解成两个矩阵，校正过程中两个图像平面均旋转一半的，这样可以使重投影畸变最小；

(b).通过系统的偏移矩阵构造变换矩阵使得基线与成像平面平行；

步骤四：立体匹配：

(4.1)、预处理：采用SLIC算法来进行超像素的分割；

(4.2)、代价计算：

(4.3、代价聚合：半全局匹配算法；

(4.4)、视差计算：视差计算采用赢家通吃算法，每个像素选择最小聚合代价值所对应的视差值作为最终视差；视差计算的结果是和图片相同尺寸的视差图，存储每个像素的视差值；

(4.5)、视差优化：

(a).左右一致性检测：(b).超像素修正：

(4.6)、评判标准：

算法的评估以误匹配率为准，误匹配率的计算公式如下：

式中d_c(x,y)——算法的输出的视差图；

d_T(x,y)——精准的视差图；

N——像素的总个数；

δ_d——为错误阈值，一般设置为一个像素点；

步骤五：三维点云重建：

(5.1)、三维点云获取：

在获取视差图像后，通过视差图像和相机基线焦距等内外参数信息，获取三维点云；一般双目摄像机中，焦距f和基线T的值固定，每个像素代表的实际距离通过三角形相似原理推理得到；

(5.2)、点云的三角剖分：采用分治算法来实现Delaunay三角剖分。