CN110853151A

CN110853151A - 一种基于视频的三维立体点集恢复方法

Info

Publication number: CN110853151A
Application number: CN201910978745.8A
Authority: CN
Inventors: 王映辉; 赵艳妮; 宁小娟; 杨奔奔
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-02-28
Anticipated expiration: 2039-10-15
Also published as: CN110853151B

Abstract

本发明公开了一种基于视频的三维立体点集恢复方法，具体按照如下步骤实施：步骤1，采集视频数据，并进行两帧图像特征点的计算和匹配，实现图形帧自动获取；步骤2，计算两帧图像在同一坐标系间变换关系，分解变换矩阵获得旋转矩阵和平移向量，并根据极线约束关系对两帧图像进行平行校正，使得两帧图像对应的像素点处于同一高度上；步骤3，获取初始视差图；步骤4，优化初始视差图；步骤5，结合三角相似性原理，在步骤4优化的视差图基础上对目标场景进行三维点云恢复，获取目标场景的深度。本发明的目的是提供一种基于视频的三维立体点集恢复方法，解决了现有技术中存在的因遮挡、视差不连续导致的视差缺失，而引起的匹配效果不好的问题。

Description

一种基于视频的三维立体点集恢复方法

技术领域

本发明属于计算机图形学和虚拟现实相结合的交叉学科技术领域，涉及一种基于视频的三维立体点集恢复方法。

背景技术

三维立体恢复技术在诸多领域扮演极为重要角色，直接影响基于图像的三维视觉广泛应用。虽3D扫描仪获取的点云能直观有效反映场景或物体深度信息及物体空间位置关系，但3D设备造价昂贵且采集过程繁琐，而双目相机存在左右参数不一致对复杂纹理适用性差问题，此外现有单目图像深度恢复方法都对图像质量有较高依赖，如通过单目相机拍摄的图片序列进行立体匹配来恢复任意三维场景点云信息，这将会有着非常明显的实用价值。

目前立体匹配算法分为局部和全局立体匹配。局部立体匹配包括区域立体匹配、基于特征立体匹配、基于相位立体匹配三类。区域立体匹配需选择窗口大小，将像素点及窗口范围内相邻像素点信息作为基元进行匹配，所获视差图为稠密视差图。基于特征匹配是对特征点进行匹配求取特征点视差，所获视差图为稀疏视差图。基于相位立体匹配计算相位信息，寻找局部相位相等对应点计算视差，所获视差图为稠密视差图。全局立体匹配包括图割法、信念传播法、动态规划法三类，三者均需要构建能量函数，将视差计算转化为能量最小化求解问题，然后采用不同策略进行最优化求解，所得视差图均为稠密视差图。局部立体匹配针对局部信息计算，在计算效率上有一定优势，但信息量相对较少在面对遮挡、视差不连续等情况很难有较好匹配效果；全局立体匹配弥补此缺陷，但仍存在视差缺失问题，且大量迭代计算导致算法复杂度较高。此外，无论局部还是全局立体匹配，现有方法都对参数要求较高，需不断调整参数重复大量实验才可获取较为理想匹配效果。

发明内容

本发明的目的是提供一种基于视频的三维立体点集恢复方法，解决了现有技术中存在的因遮挡、视差不连续导致的视差缺失，而引起的匹配效果不好的问题。

本发明所采用的技术方案是，一种基于视频的三维立体点集恢复方法，具体按照如下步骤实施：

步骤1，使用单目相机采集视频数据，并进行两帧图像特征点的计算和匹配，计算叠加比例，实现图形帧自动获取，并进行相机内参标定；

步骤2，计算两帧图像在同一坐标系间变换关系，分解变换矩阵获得旋转矩阵和平移向量，并根据极线约束关系对两帧图像进行平行校正，使得两帧图像对应的像素点处于同一高度上；

步骤3，对经步骤2处理的两帧图像采用自适应方式根据图像纹理不同计算最合适的窗口大小，采用动态规划算法在8个方向上寻找最小代价匹配路径，获取初始视差图；

步骤4，对步骤3获取的初始视差图，采用基于融合的插值优化方法进行优化；

步骤5，结合三角相似性原理，在步骤4优化的视差图基础上对目标场景进行三维点云恢复，获取目标场景的深度。

本发明的特征还在于，

步骤1具体为：

步骤1.1，使用单目相机在空间上匀速移动进行视频数据采集；

步骤1.2，针对步骤1.1获取的视频数据，选取SURF算子求取图像特征点，两帧图像特征点分别存在集合A_set{A₀,A₁,A₂......}和B_set{B₀,B₁,B₂......}中，获取SURF特征点后，基于K近邻的双向匹配方式进行特征点匹配，寻找两图像上对应点，得到特征点匹配对；

步骤1.3，计算水平方向重叠比例d/w，对步骤1.2匹配的每对特征点计算d，叠加比例选取出现频率最高的d进行计算，其中，d为A_set和B_set中对应特征点两两对齐在水平方向上移动的长度，w表示图像宽度；

步骤1.4，依据步骤1.3获得的重叠比例进行图像帧自动截取；

步骤1.5，采用张正友标定法计算相机参数，获得相机内参数矩阵K。

步骤1.2具体为：

设置阈值T，迭代计算A₀与B_set中每一点的欧氏距离，其中，欧氏距离用Cos&表示，以O为原点的空间坐标系中，两向量

和

间的夹角记为Cos&，记录欧式距离最小点与第二小点的欧式距离min1、min2，如min1/min2＜T，则直接将最小点作为A₀特征点的对应点；

如此逐一在B_set中匹配A_set中各个特征点的对应点；

匹配完后采用双向匹配进行验证，即以同样方法对B_set中特征点寻找A_set中对应点，如结果一致，则确认此两点为一对匹配点，否则删除该对匹配点。

步骤1.4具体为：

对采取视频的每一帧图像按顺序编号，基准帧标记为0，依次标记记为1、2、3…n，随机选取一帧，若所选取图像帧的水平方向重叠比例d/w＞p，则下次选择第2m个帧进行水平方向重叠比例的计算以及选择第m/2个帧进行水平方向重叠比例的计算，以此类推，直到d/w最接近于p，记录该帧编号x，此时基准帧和第x帧为筛选结果，然后再以第x帧为基准帧以同样方式寻找下一帧，直到最后一帧n则结束，从而实现图形帧自动获取；

其中，m＜30＜n，p为依据实验设置重叠面积比例，m/2进行取整。

步骤2具体为：

步骤2.1，计算本质矩阵E，具体为：

对步骤1.2获取的特征点匹配对，根据对极几何关系建立式(1)，

X'^TFX＝0 (1)

其中，X与X'为任意一对相互的匹配特征点，x，y分别是X的两个坐标值，x′和y′分别是X'的两个坐标值，F为基础矩阵，带入匹配点式(1)形成式(2)，

展开得出式(3)，

x'xf₁₁+x'yf₁₂+x'f₁₃+y'xf₂₁+yy'f₂₂+y'f₂₃+xf₃₁+yf₃₂+f₃₃＝0 (3)

采用八点法选8对特征点建立式(3)联立方程求解基础矩阵，再计算本质矩阵E：

E＝K^TFK (4)；

步骤2.2，采用基于SVD奇异值分解方式，对步骤2.1获得的本质矩阵进行分解，得到两帧图像间的旋转矩阵R和平移向量T，具体为：

假设M*N矩阵E，则E描述为式(5)，

E＝UΣV^T (5)

其中，U为M*M正交矩阵，V为N*N正交矩阵，Σ＝diag(σ₁，σ₂，.....,σ_r，.......σ_n)为M*N对角阵，r为矩阵E的秩，对角线上的元素值按照递减顺序排列即σ₁≥σ₂.....≥σ_r，σ_r后元素都为0，对于矩阵E假设存在一组正交基{ν₁，ν₂，......,ν_n}使得映射后任意两个元素正交，即式(6)，

Eν_i.Eν_j＝(Eν_i)^T.Eν_j＝ν_i ^TE^T.Eν_j＝0 (6)

其中，i＝1、2、3…n，j＝1、2、3…n，i≠j，由于正交基存在，ν_i ^Tν_j＝ν_iν_j＝0，E^TE为对称矩阵，当作为E^TE特征向量时，其中，ν为ν₁，ν₂，......,ν_n中任意一个，ν也存在任意两元素间都满足正交的关系，即式(7)，

ν_i ^TE^T.Eν_j＝ν_i ^Tλ_jν_j＝λ_jν_iν_j＝0 (7)

其中，λ为特征向量v对应的特征值，对于矩阵E存在式(8)，

Eν_i.Eν_i＝λ_i (8)

联立式(6)、(7)，并取向量的单位向量，得出式(9)、(10)，

其中，u_i是E的左奇异向量，ν_i为E的右奇异向量，σ_i为E的奇异值；

利用矩阵分块相乘方式对本征矩阵完成分解，将E转换成R与T相乘形式，即式(11)、(12)、(13)；

之后完成拆分，分别获取两帧图片之间的旋转矩阵R与平移向量T；

步骤2.3，图像校正，具体为：

首先，将步骤2.2获取的R拆为R₁、R₂，使左右图像根据旋转矩阵各旋转一半，

其次，根据平移向量T构造变换矩阵T_a，使得图像平面与基线平行；

构造e₁使左极线与图像不存在极点，即图像与基线不存在交点或交点无穷远，

由极线约束模型知e₂与右帧图像所在相机光轴正交，且与e₁垂直，则通过e₁与主光轴方向的叉积并归一化获得e₂

构造e₃，e₃与e₁、e₂都存在正交关系，即e₃＝e₁×e₂；

变换矩阵T_a为：

最后，将式(15)中R₁、R₂分别与式(17)获得的变换矩阵T_a相乘，获取左右两帧图像旋转程度R_a1、R_a2，并依据左右两帧图像旋转程度R_a1、R_a2对两帧图像进行旋转校正；

步骤3具体为：

步骤3.1，计算图像梯度，具体为：

步骤3.1.1，采用Sobel算子在水平方向对经步骤2处理的图像每个像素点进行处理，

其中，P为图像中某一像素点，x、y为P的横、纵坐标；

步骤3.1.2，引入常数参数α，据式(19)将经过水平Sobel算子处理后的图像上每个像素点映射成一个新的图像，P_New表示新图像上的像素点：

即得到图像的梯度信息；

步骤3.2，计算图像灰度，具体为：

按照按照3:6:1权重将图像的RGB三个颜色值转换为黑白图，具体为：

Gray＝R×0.3+G×0.6+B×0.1 (21)

其中，R、G、B分别为图像中某像素点三个颜色值，Gray为该像素点转换后的灰度值；

步骤3.3，梯度代价计算和基于灰度的SAD代价计算，具体为：

首先，在图像上选取大小N×N窗口记作D，使用Birch等提出的采样方法计算窗口内图像梯度代价C_BT：

C_BT(x_i，y_i，I_L，I_R)＝max(0，I_L(x_i-I_max)，I_min-I_L(x_i)) (22)

其中，I表示灰度值，左帧图像中心点x_i，左右相邻点x_i-1，x_i+1，右帧图像中心点y_i，左右相邻点y_i-1，y_i+1，I_min＝I_R ^-，I_max＝I_R(y_i)，I_L(x_i)是左帧中心点x_i的灰度值，I_R ^-指右帧中心点左相邻点y_i-1的灰度值，I_R(y_i)是右帧中心点y_i的灰度值；

其次，计算左右帧图像窗口中所有对应像素之差的绝对值之和，即窗口内像素的SAD代价：

C_SAD(u，v，d)＝Σ_{(i，j)∈D(u，v)}|L(i，j)-R(i，j+d)| (23)

其中，L(i，j)为左帧图像中像素灰度值，R(i，j+d)为右帧图像中像素灰度值，公式整体计算左右窗口的灰度和的差值；

步骤3.4，利用图像标准差自适应计算最佳匹配窗口，具体为：

首先，设置初始窗口D大小N×N，将图像按D大小分割成S个局部区域，计算每个局部区域图像的标准差δ(i,j)：

其中，P为局部区域；δ(i,j)是以像素(i,j)为中心的局部区域标准差；D_x，D_y为局部区域大小；

其次，引入标准差阈值δ_T，统计δ(i,j)>δ_T的像素个数记作Max，δ(i,j)<δ_T的像素个数记作Min，引入阈值K作为纹理强弱的参考：

当Min/Max≥K,则图像整体纹理信息弱，需增大匹配窗口，此时增大为(N+2)×(N+2)，迭代步骤3.4.1和步骤3.4.2；窗口最大设置为M×M，如N≤M则继续迭代运算，否则选取M×M为匹配窗口大小；

当Min/Max＜K则直接选择当前窗口大小为匹配窗口大小；

步骤3.5，采用动态规划算法寻找最小代价匹配路径，获取初始视差图，具体为：

对像素p，在水平、垂直、对角线共8个方向进行代价累积计算，a是8个方向中的某一个方向，则p的a方向上代价聚合值L_a(p，D_p)为：

其中，p-a表示像素点p在邻域a方向上的逐单位地递推像素，D表示图像视差；C(p,D_p)为像素p的匹配代价，L_a(p-a，D_p)为像素p邻域a方向上像素点p-a的当前视差代价聚合值，L_a(p-a，D_p-1)为p-a与当前视差差值相减为1的代价聚合值加P₁，L_a(p-a，D_p-1)为p-a与当前视差差值相减为-1的代价聚合值，L_a(p-a，i)为p-a与当前视差差值大于1的最小代价聚合值，

是为防止最终结果过大导致溢出而减去该方向上前一像素的最小代价；

将像素p邻域内各个方向上的代价聚合值分别进行计算并统计代价和S(p,D_p)，计算得到的累计代价最小时的视差即为该像素点的初始视差图。

步骤4具体为：

步骤4.1，在初始基准帧前后选取两帧图像，依照步骤1-3进行处理并完成校正，获取各自视差图M、N，以M为参照，对N进行补充，即对N中像素逐个判断，如某像素位置上存在视差值则不做改变，如无视差值则选M中特征点的对应点的视差值作为N在该位置上的视差值，若M、N此像素均无视差则不予处理；

步骤4.2，采用步骤4.1的方式，对视差图逐行检测得出无视差区域A，标记出A左右两边边界视差值的边界点P(x1,y)和P1(x2,y)，O((x1+x2)/2,y)是P P1中点，对A中任意点q(x,y)的视差值：

视差是两帧图像重叠区域，所以视差图最左边没有视差，因此将检测的无视差区域右边界的视差值作为参考进行填充，获得完整的视差图；

步骤4.3，采用高斯滤波对步骤4.2获取的视差图进行滤波处理，消除存在的噪点，达到优化目的获取最终视差图。

步骤5具体为：

步骤5.1，世界坐标系中某点成像过程表示为：

其中Xc、Yc、Zc表示相机坐标系3个轴坐标，u、v表示图像坐标系下某一坐标点，u₀、v₀表示图像坐标系中心点坐标，Xw、Zw、Zw是描述世界坐标系中的三维坐标，R、T是世界坐标系到相机坐标系的平移、旋转关系，为：

将式(28)带入(27)中可得：

步骤5.2，根据(29)推导出图像中某像素点(u,v)在世界坐标系中所对应的三维坐(Xw,Yw,Zw)为：

步骤5.3，建立一坐标系，根据校正后的彩色图像中任意一像素及该像素在视差图中对应视差值计算得到该像素点在世界坐标系中的三维坐标，迭代计算图像中每个像素点的三维坐标，并在同一坐标系下表示，从而获取场景图像的三维点云信息。

本发明的有益效果是：本发明是一种基于视频的三维立体点集恢复方法，在半全局立体匹配算法基础上自适应获取匹配窗口大小计算图像视差，解决手动选取参数问题，而对遮挡、视差不连续导致的视差缺失问题，本发明基于融合插值思想根据视差图前后帧的视差信息对缺失部分进行补充完善，较为真实的反映场景的视差信息，匹配效果好。

附图说明

图1是本发明一种基于视频的三维立体点集恢复方法中欧式距离计算示意图；

图2是本发明一种基于视频的三维立体点集恢复方法中双向特征点匹配效果图；

图3是本发明一种基于视频的三维立体点集恢复方法中截取的图像帧序列效果图；

图4是本发明一种基于视频的三维立体点集恢复方法中图形校正效果图；

图5是本发明一种基于视频的三维立体点集恢复方法中是C_BT的定义和计算示意图；

图6是本发明一种基于视频的三维立体点集恢复方法中依据标准差自适应选取最佳窗口大小效果图；

图7是本发明一种基于视频的三维立体点集恢复方法中融合后的视差图；

图8是本发明一种基于视频的三维立体点集恢复方法中左端无视差区域图；

图9是本发明一种基于视频的三维立体点集恢复方法中的最终视差图；

图10是本发明一种基于视频的三维立体点集恢复方法中三维立体点集恢复视图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于视频的三维立体点集恢复方法，具体按照如下步骤实施：

步骤1，使用单目相机采集视频数据，并进行两帧图像特征点的计算和匹配，计算叠加比例，实现图形帧自动获取，并进行相机内参标定；具体为：

步骤1.2，针对步骤1.1获取的视频数据，选取SURF算子求取图像特征点，两帧图像特征点分别存在集合A_set{A₀,A₁,A₂......}和B_set{B₀,B₁,B₂......}中，获取SURF特征点后，基于K近邻的双向匹配方式进行特征点匹配，寻找两图像上对应点，得到特征点匹配对，具体为：

图1中Dis(A,B)表示欧氏距离，两向量

之间欧式距离通常指向量方向上的差别，用两向量间夹角Cos&表示；设置阈值T，迭代计算A₀与B_set中每一点的欧氏距离，以O为原点的空间坐标系中，两向量

和

如此逐一在B_set中匹配A_set中各个特征点的对应点；

匹配完后采用双向匹配进行验证，即以同样方法对B_set中特征点寻找A_set中对应点，如结果一致，则确认此两点为一对匹配点，否则删除该对匹配点，匹配效果如图2所示，a是基于K近邻的特征点匹配效果图，b是基于K近邻的双向特征点匹配效果图；

步骤1.4，依据步骤1.3获得的重叠比例进行图像帧自动截取，具体为：

对采取视频的每一帧图像按顺序编号，基准帧标记为0，依次标记记为1、2、3…n，随机选取一帧，若所选取图像帧的水平方向重叠比例d/w＞p，则下次选择第2m个帧进行水平方向重叠比例的计算以及选择第m/2个帧进行水平方向重叠比例的计算，以此类推，直到d/w最接近于p，记录该帧编号x，此时基准帧和第x帧为筛选结果，然后再以第x帧为基准帧以同样方式寻找下一帧，直到最后一帧n则结束，从而实现图形帧自动获取，图像帧自动截取效果如图3所示；

其中，m＜30＜n，p为依据实验设置重叠面积比例，m/2进行取整，p为0.8；

步骤1.5，采用张正友标定法计算相机参数，获得相机内参数矩阵K；

步骤2，计算两帧图像在同一坐标系间变换关系，分解变换矩阵获得旋转矩阵和平移向量，并根据极线约束关系对两帧图像进行平行校正，使得两帧图像对应的像素点处于同一高度上，具体为：

步骤2.1，计算本质矩阵E，具体为：

X'^TFX＝0 (1)

展开得出式(3)，

E＝K^TFK (4)；

假设M*N矩阵E，则E描述为式(5)，

E＝UΣV^T (5)

其中，U为M*M正交矩阵，V为N*N正交矩阵，∑＝diag(σ₁，σ₂，.....,σ_r，.......σ_n)为M*N对角阵，r为矩阵E的秩，对角线上的元素值按照递减顺序排列即σ₁≥σ₂.....≥σ_r，σ_r后元素都为0，对于矩阵E假设存在一组正交基{ν₁，ν₂，......,ν_n}使得映射后任意两个元素正交，即式(6)，

Eν_i.Eν_j＝(Eν_i)^T.Eν_j＝ν_i ^TE^T.Eν_j＝0 (6)

ν_i ^TE^T.Eν_j＝ν_i ^Tλ_jν_j＝λ_jν_iν_j＝0 (7)

其中，λ为特征向量v对应的特征值，对于矩阵E存在式(8)，

Eν_i.Eν_i＝λ_i (8)

联立式(6)、(7)，并取向量的单位向量，得出式(9)、(10)，

步骤2.3，图像校正，具体为：

构造e₃，e₃与e₁、e₂都存在正交关系，即e₃＝e₁×e₂；

变换矩阵T_a为：

最后，将式(15)中R₁、R₂分别与式(17)获得的变换矩阵T_a相乘，获取左右两帧图像旋转程度R_a1、R_a2，并依据左右两帧图像旋转程度R_a1、R_a2对两帧图像进行旋转校正，校正效果图如图4所示，a是校正前的原始图，b是校正后的效果图；

步骤3，对经步骤2处理的两帧图像采用自适应方式根据图像纹理不同计算最合适的窗口大小，采用动态规划算法在8个方向上寻找最小代价匹配路径，获取初始视差图；具体为：

步骤3.1，计算图像梯度，具体为：

其中，P为图像中某一像素点，x、y为P的横、纵坐标；

即得到图像的梯度信息；

步骤3.2，计算图像灰度，具体为：

Gray＝R×0.3+G×0.6+B×0.1 (21)

步骤3.3，梯度代价计算和基于灰度的SAD代价计算，具体为：

首先，如图5所示，在图像上选取大小N×N窗口记作D，使用Birch等提出的采样方法计算窗口内图像梯度代价C_BT：

C_BT(x_i，y_i，I_L，I_R)＝max(0，I_L(x_i-I_max)，I_min-I_L(x_i)) (22)

C_SAD(u，v，d)＝∑_{(i，j)∈D(u，v)}|L(i，j)-R(i，j+d)| (23)

当Min/Max＜K则直接选择当前窗口大小为匹配窗口大小；

步骤3.5，采用动态规划算法寻找最小代价匹配路径，获取初始视差图，本发明采用Middlebury视觉库中Aloe(1)原始图像，实验效果图为图6所示，a是Middlebury提供的实验数据Aloe(1)原图，b是匹配后的视差图，具体为：

其中，p-a表示像素点p在邻域a方向上的逐单位地递推像素，D表示图像视差；C(p,Dp)为像素p的匹配代价，L_a(p-a，D_p)为像素p邻域a方向上像素点p-a的当前视差代价聚合值，L_a(p-a，D_p-1)为p-a与当前视差差值相减为1的代价聚合值加P₁，L_a(p-a，D_p-1)为p-a与当前视差差值相减为-1的代价聚合值，L_a(p-a，i)为p-a与当前视差差值大于1的最小代价聚合值，

将像素p邻域内各个方向上的代价聚合值分别进行计算并统计代价和S(p,D_p)，计算得到的累计代价最小时的视差即为该像素点的初始视差图；

步骤4，对步骤3获取的初始视差图，采用基于融合的插值优化方法进行优化；具体为：

步骤4.1，在初始基准帧前后选取两帧图像，依照步骤1-3进行处理并完成校正，获取各自视差图M、N，以M为参照，对N进行补充，即对N中像素逐个判断，如某像素位置上存在视差值则不做改变，如无视差值则选M中特征点的对应点的视差值作为N在该位置上的视差值，若M、N此像素均无视差则不予处理，融合后的左视差图如图7所示，a是左右两视差图，b是融合后的左视差图；

视差是两帧图像重叠区域，所以视差图最左边没有视差，如图8所示，因此将检测的无视差区域右边界的视差值作为参考进行填充，获得完整的视差图；

步骤4.3，采用高斯滤波对步骤4.2获取的视差图进行滤波处理，消除存在的噪点，达到优化目的获取最终视差图，如图9所示；

步骤5，结合三角相似性原理，在步骤4优化的视差图基础上对目标场景进行三维点云恢复，获取目标场景的深度，具体为：

步骤5.1，世界坐标系中某点成像过程表示为：

将式(28)带入(27)中可得：

步骤5.3，建立一坐标系，根据校正后的彩色图像中任意一像素及该像素在视差图中对应视差值计算得到该像素点在世界坐标系中的三维坐标，迭代计算图像中每个像素点的三维坐标，并在同一坐标系下表示，从而获取场景图像的三维点云信息，最终三维立体点集恢复效果如图10所示，a是三维立体点集恢复的正视图，b是三维立体点集恢复的侧视图。