CN105654492B - 基于消费级摄像头的鲁棒实时三维重建方法 - Google Patents

基于消费级摄像头的鲁棒实时三维重建方法 Download PDF

Info

Publication number
CN105654492B
CN105654492B CN201511029299.4A CN201511029299A CN105654492B CN 105654492 B CN105654492 B CN 105654492B CN 201511029299 A CN201511029299 A CN 201511029299A CN 105654492 B CN105654492 B CN 105654492B
Authority
CN
China
Prior art keywords
depth
cost
key frame
frame
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511029299.4A
Other languages
English (en)
Other versions
CN105654492A (zh
Inventor
王宽全
李兆歆
左旺孟
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201511029299.4A priority Critical patent/CN105654492B/zh
Publication of CN105654492A publication Critical patent/CN105654492A/zh
Application granted granted Critical
Publication of CN105654492B publication Critical patent/CN105654492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/30Polynomial surface description
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

基于消费级摄像头的鲁棒实时三维重建方法,本发明涉及基于消费级摄像头的鲁棒实时三维重建方法。本发明是要解决现有方法计算成本高,重建的模型不精确并且不完整的问题。一、在摄像头移动的过程中,基于摄像头当前的视频帧作为输入,估计每一视频帧在场景坐标系下的相机姿态:二、在视频帧中选择最佳的关键帧用于深度估计;三、采用快速鲁棒的深度估计算法估计每一视频帧的深度信息得到每一视频帧的深度图:四、将每一视频帧的深度图转换为截断符号距离场,在体素上并行地执行TSDF的加权平均,增量地融合每一视频帧的深度图,并通过Marching cubes算法构建三角网格表面。本发明应用于图像处理领域。

Description

基于消费级摄像头的鲁棒实时三维重建方法
技术领域
本发明涉及基于消费级摄像头的鲁棒实时三维重建方法。
背景技术
随着手机,数码相机的普及,获取高质量的图像越来越便捷,一个迫切的需求是利用这些图片数据重建我们所生活的三维世界,包括:物体、场景甚至整个环境。已有的基于图像的三维重建方法,所采用的工业相机设备价格昂贵,且计算成本较高,对于一个小场景的重建一般需要一台高性能计算机几个小时的处理时间。然而,传感器噪声,遮挡和光照变化经常导致三维重建任务失败,这些问题仅通过观察图像往往难以预测。由于这些问题,花费几个小时重建的模型往往是不精确的,不完整的,且包含瑕疵。在很多场合,几乎不可能重新返回待重建场景重新捕获图像数据。即便可以对待重建场景反复的拍摄和重建,造成的计算负担和工作量仍然是巨大的。因此,期望有一个重建方法能够在拍摄过程中就实时的反馈重建结果的质量,并帮助用户评估重建质量,规划可提高重建精度和完整度的相机移动轨迹。
发明内容
本发明是要解决现有方法计算成本高,重建的模型不精确并且不完整的问题,而提供了基于消费级摄像头的鲁棒实时三维重建方法。
基于消费级摄像头的鲁棒实时三维重建方法,按以下步骤实现:
一、在摄像头移动的过程中,基于摄像头当前的视频帧作为输入,估计每一视频帧在场景坐标系下的相机姿态:
二、在视频帧中选择最佳的关键帧用于深度估计;
三、采用快速鲁棒的深度估计算法估计每一视频帧的深度信息得到每一视频帧的深度图:
四、将每一视频帧的深度图转化为截断符号距离场,并在体素上增量的融合,最后输出三角网格表面,即完成了基于消费级摄像头的鲁棒实时三维重建方法。
发明效果:
本发明技术方案提出一个实时、低成本的三维重建方法,可以实时地且高质量地重建并可视化真实场景。如图1所示,提出的方法使用低成本消费级摄像头的视频作为输入,如网络摄像头或是手机摄像头。由于这些消费级摄像头广泛用于日常生活,方法实际上可允许重建相当广泛的场景。三维重建的模型可以直接用于增强现实,3D打印,计算机游戏等应用,如图2。在实验中,使用一枚视频分辨率为640×360的网络摄像头,帧率为30Hz。算法在一台配置为CPU i7,32G RAM,显卡NVIDIATitian black,6G显存的台式电脑上运行。深度融合中体素的解析度为256×256×256。算法平均运行速度是每秒5帧。研究内容主要包括了视频帧相机姿态的实时估计,基于置信度的鲁棒深度估计算,以及基于GPU的深度融合。虽然基于消费级摄像头的实时三维重建非常有价值,提出的方法需要解决几个挑战问题:首先,相机在每一个视频帧中的姿态是未知的;第二,消费级相机的成像质量比工业级相机要低很多;第三,弱纹理或无纹理区域广泛存在,这些区域的三维重建的质量和可靠性较差,比如人脸重建。本发明有效解决上述难题。
(1)通过随机策略初始化深度搜索范围,深度估计算法具有尺度可扩展性;
(2)提出的深度估计算法对于弱纹理区域比较鲁棒。算法为每一个深度估计一个置信度值,并基于高置信度区域构建一个分段线性模型用于预测弱纹理区域的深度。
(3)大多数重建方法使用稀疏采样的关键帧进行重建,提出的专利使用视频的每一帧进行模型的估计,充分的利用了视频图像的冗余信息,能够生成更稠密的重建,以及处理遮挡问题。
(4)在深度融合阶段,我们采用了基于GPU和体网格的融合,可以高效的抑制噪声并重建复杂的场景结构。通过对体数据进行可视化,可以实时可视化重建过程。
附图说明
图1是提出的实时三维重建方法的概述图;
图2是提出的重建方法在3D打印上的应用实例图;
图3是提出的单目相机三维重建的算法流程图;
图4是深度传播示意图;
图5是基于置信度的深度调整;
图6是截断符号距离场的图示;
图7单目实时三维重建方法对静态场景三维重建结果图;其中,第一列和第三列是输入的视频的某一帧,第二列和第四列是可视化的三维重建结果;
图8是提出的单目相机三维重建方法对人脸的重建结果以及与LSD-SLAM算法的对比图;其中,第一行,从左到右:输入视频的一帧,基于图像间直接匹配的LSD-SLAM算法估计的深度图,基于随机初始化和成本传播生成的深度图,以及使用置信度调整后的深度图;
第二行,从左到右:基于图像间直接匹配的LSD-SLAM的稀疏点云重建结果,不使用基于置信度的深度调整的稠密重建结果,使用所提出的基于置信度的深度调整的稠密重建结果;
图9是提出的单目相机三维重建方法对人脸的重建结果以及与LSD-SLAM算法的对比图;其中,第一行,从左到右:输入视频的一帧,基于图像间直接匹配的LSD-SLAM算法估计的深度图,基于随机初始化和成本传播生成的深度图,以及使用置信度调整后的深度图;
第二行,从左到右:基于图像间直接匹配的LSD-SLAM的稀疏点云重建结果,不使用基于置信度的深度调整的稠密重建结果,使用所提出的基于置信度的深度调整的稠密重建结果;
图10是提出的单目相机三维重建方法对人脸的重建结果以及与LSD-SLAM算法的对比图;第一行,从左到右:输入视频的一帧,基于图像间直接匹配的LSD-SLAM算法估计的深度图,基于随机初始化和成本传播生成的深度图,以及使用置信度调整后的深度图;
第二行,从左到右:基于图像间直接匹配的LSD-SLAM的稀疏点云重建结果,不使用基于置信度的深度调整的稠密重建结果,使用所提出的基于置信度的深度调整的稠密重建结果。
具体实施方式
具体实施方式一:结合图1~图10说明本实施方式,本实施方式的基于消费级摄像头的鲁棒实时三维重建方法,按以下步骤实现:
一、在摄像头移动的过程中,基于摄像头当前的视频帧作为输入,估计每一视频帧在场景坐标系下的相机姿态:
二、在视频帧中选择最佳的关键帧用于深度估计;
三、采用快速鲁棒的深度估计算法估计每一视频帧的深度信息得到每一视频帧的深度图:
四、将每一视频帧的深度图转化为截断符号距离场,并在体素上增量的融合,最终初始三角网格表面,即完成了基于消费级摄像头的鲁棒实时三维重建方法。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一具体为:
(a)构建一组关键帧集合
在摄像头移动的过程中,依据时间距离和空间距离阈值从视频帧中选取关键帧k,每一个关键帧对应一个估计的相机姿态,所有关键帧构成关键帧集合
(b)构建三维图
三维图中包含点云数据其中pi为点云数据中的某一三维点,的基,即中元素的数量,当新的关键帧被加入关键帧集合时,它与关键帧集合中其他关键帧执行立体匹配,产生新的点云数据加入点云中的每一个三维点pi记录着它的三维坐标,法线方向,像素特征。当关键帧加入关键帧集合时,它与关键帧集合中其他关键帧进行匹配,产生点云数据;
(c)三维图和关键帧集合通过全局捆绑调整进行精细优化:
其中ejk为第j个三维点相对于第k个关键帧的重投影误差,Obj为Huber函数,以增加对噪声和野点的鲁棒性,Sk为在关键帧k上可见的三维图的子集,分别表示第2个和第个关键帧的相机姿态;μ为待估计的相机姿态,p为待估计的三维点;
(d)估计每一视频帧在场景坐标系下的相机姿态:
相机姿态为三维空间的刚体变换,假设当前视频帧序号为i,相机姿态包括了3×3的旋转矩阵Ri和3×1的平移矢量ti,在李群和李代数中,用一个6维的矢量μi等价的表示相机姿态;配准当前视频帧i与三维图即寻找最优的相机姿态参数使得三维图中相对于视频帧i的可见点集Si的重投影误差最小:
其中,μ为待估计的相机姿态向量,ej代表Si中第j个三维点相对于当前视频帧i的重投影误差,Obj为Huber函数。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤二具体为:
(一)将关键帧集合中的关键帧按照和当前帧的基线大小的升序排列,并选择前M帧构成一个子集,从中选择与当前帧夹角最小的关键帧子集假设关键帧集合中的相机中心坐标依次是c1,c2,c3...cn,当前帧的相机中心坐标为c,当前帧与第m个关键帧的基线的计算方法是:
(二)根据基线大小,按照升序进行排序,根据距离阈值T从中选择一个关键帧子集T值定义为相邻关键帧之间距离的平均值的2倍,当前帧与关键帧之间的夹角的计算如下:
假设当前帧的光学轴为r,某一关键帧的光学轴为rm,则二者的夹角为:
其中i为点积操作,||为矢量范数;
(三)根据当前帧与关键帧子集中的关键帧逐个的计算夹角,从中选择夹角最小的关键帧Km作为最佳关键帧用于下一步的深度估计。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述步骤三采用快速鲁棒的深度估计算法估计每一视频帧的深度信息:
(a)随机初始化:对于当前立体图像当前帧It和最佳关键帧目标是估计It上每一像素的深度;设深度搜索范围为[dmin,dmax],对于It中的每一个像素位置p=(x,y),随机初始化一个深度值dp,基于对光照变化的鲁棒性,使用ZNCC的负值作为度量深度假设的成本,对于当前帧It的像素位置p,选择一个以它为中心的w×w的窗口,对于窗口中的每一个像素位置其深度值为dp,计算其在的对应的像素位置,并计算匹配成本;其中,所述dmin和dmax分别为深度搜索范围中的最小深度和最大深度;
(b)如图4所示,深度传播:采用基于扫描线的传播方式,即:
(i)行扫描:逐行从左向右比较相邻像素的成本,如果cost(dx-1,y)<cost(dx,y),则dx,y=dx-1,y,然后逐行从右向左扫描,如果cost(dx+1,y)<cost(dx,y),则dx,y=dx+1,y;其中,所述cost(dx,y)是像素(x,y)的深度为dx,y时的图像匹配成本,cost(dx-1,y)是像素(x-1,y)的深度为dx-1,y时的图像匹配成本,cost(dx+1,y)是像素(x+1,y)的深度为dx+1,y时的图像匹配成本;
(ii)列扫描:逐列从上向下比较相邻像素的成本,如果cost(dx,y-1)<cost(dx,y),则dx,y=dx,y-1;然后逐列从下向上扫描,如果cost(dx,y+1)<cost(dx,y),则dx,y=dx,y+1;其中,所述cost(dx,y-1)是像素(x,y-1)的深度为dx,y-1时的图像匹配成本,cost(dx,y+1)是像素(x,y+1)的深度为dx,y+1时的图像匹配成本;
因为每一行或列的操作相对于其他行或列都是数据独立的,使用GPU并行实现,通过上述操作,正确的深度假设会从图像像素的四邻域区域传播到当前像素;
(c)置信度调整
为了鲁棒的估计弱纹理区域的深度,提出一种基于置信度的深度估计调整算法(confidence-based depthadjustment)。置信度是深度假设正确性的评价指标,置信度越高,深度假设正确的可能性就越高。算法首先提取当前高置信度的深度假设所对应的像素位置,而后根据这些当前高置信度的深度值和像素位置预测那些当前深度假设的置信度较低的像素点的深度值。算法的具体步骤如下:
(i)提取高置信度的深度值:使用深度假设的图像间匹配成本作为置信度的度量指标;选择一个ZNCC阈值,选取ZNCC值大或对应的成本较小的像素位置;去掉大部分的弱纹理区域的像素,而同时去除一部分在强纹理区域深度假设不正确的像素值;
对于每一个候选点,进一步执行空间一致性检查操作以过滤可能存在的野点;在以当前候选点为中心的局部窗口内(ws×ws)统计与当前候选点的深度假设小于某一阈值Td的像素的数量;如果满足以上条件的像素数量大于Tc,则将当前候选点及其深度值作为地面控制点,最终,通过以上步骤记录一组高置信度的点和其深度值作为GCPs;
通过这一阈值操作,去掉大部分的弱纹理区域的像素,而同时去除一部分在强纹理区域深度假设不正确的像素值;在实际中,ZNCC的阈值设置为0.5,并将ZNCC大于0.5的深度值和对应的像素位置作为候选点。在实验中,ws设置为5,Td设置为11,而Tc设置为6;最终,通过以上步骤可以记录一组高置信度的点和其深度值作为GCPs;过于密集的GPCs会影响后续基于GCPs的深度预测步骤的效率,并且可能包含噪声,出于效率和对噪声鲁棒的考虑,以上提取GCPs的操作,仅在输入图像中每隔5个像素的位置执行,即对原始输入图像进行大小的降采样;
(ii)基于GCPs的深度预测:使用一组GCPs和所对应的深度值预测周边临近区域的深度值;采用一组分段线性函数,在GCPs上基于计算Delaunay三角化实现GCPs周围临近区域的深度值插值,对于一个GCPs点有如下的平面方程π的约束:其中,所述区域为ZNCC阈值小于0.5的区域;
其中i是三角形的索引,为GCPs点的深度值,ai,bi和ci为平面方程的系数,对于每一个三角形,包含3个GCPs,获得三个类似的等式,因此平面参数(ai,bi,ci)通过求解线性系统得出;对于图像中某一像素位置(xn,yn),如果位于三角形i的投影范围内,则其经由GCPs预测的深度值为:
为像素位置(xn,yn)经由GCPs的预测的深度值,通过以上的操作,将GCPs的可靠深度值分段线性的插值到周围的区域,从而获得对弱纹理区域更平滑可靠的预测;
通过以上的操作,将GCPs的可靠深度值分段线性的插值到周围的区域,从而获得对弱纹理区域更平滑可靠的预测,如图5所示。方法的优势在于可在非均匀的区域进行插值;选取的GCPs不能保证是彼此等距离的网格点,通过Delaunay三角化,不同区域间三角形的大小可以是不一样的,保证了在强纹理区域会有更多的GCPs,构建的三角形较密集且面积较小,通过插值保证了局部的细节恢复,而位于弱纹理区域GCPs点的数量较少,构建的三角形较稀疏且面积较大,通过插值可以产生局部较平滑的结果。
图5中虚线链接的像素点为GCPs,结合其深度信息构建空间的三角面Pgi。图像中某一像素位置(xn,yn)如恰好位于GCPs所构成的三角形i的投影范围内,则(xn,yn)经由GCPs预测的深度值为其在三角面Pgi上的投影
(d)后处理:经由置信度调整处理后,系统包含一些不连续的小块,根据邻域深度的一致性将深度图聚成一些连通分量,去除那些像素数目小于150的连通分量。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:所述步骤四基于TSDF和体素的深度在线增量融合,每一视频帧的深度图转化为截断符号距离场(Truncated signed distance field,TSDF):
(一)如图6所示,待重建的物体表面位于解析度为Nx×Ny×Nz的包围盒中,其中Nx,Ny和Nz分别为X,Y和Z方向的体素的解析度,视线为从相机中心出发穿过像素的射线;从体素中心到表面的符号距离定义在视线上,且增加一个权值因子1/δ并截断至区间[-1,1],δ控制相关的近表面区域的宽度,反映了在z-axis方向对深度值期望的不确定性;
(二)假设在时间t,获得深度图Dt,将深度图Dt转换为 在逐帧的深度融合的过程中,期望获得在包围盒的体素上的一个平滑的符号距离场u,使得u=0为估计的模型表面,u<0位于模型表面内侧,u>0位于模型表面外侧,对于每一个体素x,获得如下的增量更新:
其中,wt是t时刻的TSDF的权重,与表面的不确定性成正比,wt-1是t-1时刻的权重,是t时刻的权重增量,ut-1是t-1时刻时的符号距离场u,(x)代表在体素x位置,权重增量在实际中设置为 为深度图Dt对应的TSDF;融合过程可独立的在每一个体素x上执行,因此使用GPU进行并行处理,融合过程可独立的在每一个体素x上执行,因此使用GPU进行并行处理。
其它步骤及参数与具体实施方式一至四之一相同。
实施例:
本发明对于若纹理物体的重建特别有效,比如人脸的重建,与LSD-SLAM算法(Engel J,Sch¨opsT,Cremers D.LSD-SLAM:Large-Scale Direct MonocularSLAM[C]//Proc.European Conf.Comput.Vis.Zurich,Switzerland:Springer,2014:834–849)的对比实验列在图7-10中,在这些图中,强调了所提出的深度估计算法的有效性。
使用提出的方法在apples,pear,boot,dinosaur,earphone和Mario&house上的运行结果如图7所示。从apples,pear和dinosaur的重建效果可以看出,算法可以有效的恢复表面的形状,同时有效的去除噪声,从boot的重建结果可以看出,鞋子上的细微的表面特征也可以有效的恢复。earphone场景包含一个由弱纹理覆盖的耳机,提出的基于置信度的深度调整算法可以较好的重建耳机的形状。Mario&house场景包含一个Mario模型,一个房屋微缩模型和一个苹果。其中Mario模型和苹果的纹理较弱,而房屋模型的纹理较丰富,从重建结果可以看出,本文基于置信度的深度调整算法,在弱纹理区域可以有效的平滑噪声,产生光滑的重建效果,而同时,对于强纹理区域,也可以有效的保留表面的边缘特征。相比于其它的数据集,人脸数据集包含大量的弱纹理区域。LSD-SLAM算法在估计相机位置的同时,也可以输出一组半稠密的点云数据,对一位志愿者的人脸重建如图8所示。这些点云数据依赖于表面的纹理信息,对于展示三维物体,特别是包含大量弱纹理区域的人脸,仍然过于稀疏且包含较多的噪声。本文使用LSD-SLAM算法估计相机姿态后执行基于随机初始化和深度传播的深度估计,产生稠密的深度图,然后从中选择高置信度的像素位置构成GCPs,并使用分段线性插值重新调整弱纹理区域的深度。可以看出,提出的深度调整算法可以有效的抑制由于弱纹理导致的噪声和空洞现象。对另外两个志愿者的人脸重建结果,分别如图9和10所示。

Claims (3)

1.基于消费级摄像头的鲁棒实时三维重建方法,其特征在于按以下步骤实现:
一、在摄像头移动的过程中,基于摄像头当前的视频帧作为输入,估计每一视频帧在场景坐标系下的相机姿态,其具体过程为:
(a)构建一组关键帧集合
在摄像头移动的过程中,依据时间距离和空间距离阈值从视频帧中选取关键帧k,每一个关键帧对应一个估计的相机姿态,所有关键帧构成关键帧集合
(b)构建三维图
三维图中包含点云数据其中pi为点云数据中的某一三维点,的基,即中元素的数量,当新的关键帧被加入关键帧集合时,它与关键帧集合中其他关键帧执行立体匹配,产生新的点云数据加入点云中的每一个三维点pi记录着它的三维坐标,法线方向,像素特征;
(c)三维图和关键帧集合通过全局捆绑调整进行精细优化:
其中ejk为第j个三维点相对于第k个关键帧的重投影误差,Obj为Huber函数,以增加对噪声和野点的鲁棒性,Sk为在关键帧k上可见的三维图的子集,分别表示第2个和第个关键帧的相机姿态估计值;μ为待优化的相机姿态,p为待优化的三维点;
(d)估计每一视频帧在场景坐标系下的相机姿态:
相机姿态为三维空间的刚体变换,假设当前视频帧序号为i,相机姿态包括了3×3的旋转矩阵Ri和3×1的平移矢量ti,在李群和李代数中,用一个6维的矢量μi等价的表示相机姿态;配准当前视频帧i与三维图即寻找最优的相机姿态参数使得三维图中相对于视频帧i的可见点集Si的重投影误差最小:
其中,μ为待优化相机姿态,ej代表Si中第j个三维点相对于当前视频帧i的重投影误差,Obj为Huber函数;
二、在视频帧中选择最佳的关键帧用于深度估计,其具体过程为:
(一)将关键帧集合中的关键帧按照和当前帧的基线大小的升序排列,并选择前M帧构成一个子集,从中选择与当前帧夹角最小的关键帧子集假设关键帧集合中的相机中心坐标依次是c1,c2,c3...cn,当前帧的相机中心坐标为c,当前帧与第m个关键帧的基线的计算方法是:
(二)根据基线大小,按照升序进行排序,根据距离阈值T从中选择一个关键帧子集T值定义为相邻关键帧之间距离的平均值的2倍,当前帧与关键帧之间的夹角的计算如下:
假设当前帧的光学轴为r,某一关键帧的光学轴为rm,则二者的夹角为:
其中·为点积操作,||为矢量范数;
(三)根据当前帧与关键帧子集中的关键帧逐个的计算夹角,从中选择夹角最小的关键帧Km作为最佳关键帧用于下一步的深度估计;
三、采用快速鲁棒的深度估计算法估计每一视频帧的深度信息得到每一视频帧的深度图:
四、将每一视频帧的深度图转化为截断符号距离场,并在体素上执行增量的深度融合,最后输出三角网格表面,即完成了基于消费级摄像头的鲁棒实时三维重建方法。
2.根据权利要求1所述的基于消费级摄像头的鲁棒实时三维重建方法,其特征在于所述步骤三采用快速鲁棒的深度估计算法估计每一视频帧的深度信息:
(a)随机初始化:对于当前帧It和最佳关键帧目标是估计It上每一像素的深度;设深度搜索范围为[dmin,dmax],对于It中的每一个像素位置p=(x,y),随机初始化一个深度值dp,基于对光照变化的鲁棒性,使用ZNCC的负值作为度量深度假设的成本,对于当前帧It的像素位置p,选择一个以它为中心的w×w的窗口,对于窗口中的每一个像素位置其深度值为dp,计算其在的对应的像素位置,并计算匹配成本;其中,所述dmin和dmax分别为深度搜索范围中的最小深度和最大深度;
(b)深度传播:采用基于扫描线的传播方式,即:
(i)行扫描:逐行从左向右比较相邻像素的成本,如果cost(dx-1,y)<cost(dx,y),则dx,y=dx-1,y,然后逐行从右向左扫描,如果cost(dx+1,y)<cost(dx,y),则dx,y=dx+1,y;其中,所述cost(dx,y)是像素(x,y)的深度为dx,y时的图像匹配成本,cost(dx-1,y)是像素(x-1,y)的深度为dx-1,y时的图像匹配成本,cost(dx+1,y)是像素(x+1,y)的深度为dx+1,y时的图像匹配成本;
(ii)列扫描:逐列从上向下比较相邻像素的成本,如果cost(dx,y-1)<cost(dx,y),则dx,y=dx,y-1;然后逐列从下向上扫描,如果cost(dx,y+1)<cost(dx,y),则dx,y=dx,y+1;其中,所述cost(dx,y-1)是像素(x,y-1)的深度为dx,y-1时的图像匹配成本,cost(dx,y+1)是像素(x,y+1)的深度为dx,y+1时的图像匹配成本;
因为每一行或列的操作相对于其他行或列都是数据独立的,使用GPU并行实现,通过上述操作,正确的深度假设会从图像像素的四邻域区域传播到当前像素;
(c)置信度调整
(i)提取高置信度的深度值:使用深度假设的图像间匹配成本作为置信度的度量指标;选择一个ZNCC阈值,选取ZNCC值大或对应的成本较小的像素位置;去掉大部分的弱纹理区域的像素,而同时去除一部分在强纹理区域深度假设不正确的像素值;
对于每一个候选点,进一步执行空间一致性检查操作以过滤可能存在的野点;在以当前候选点为中心的局部窗口内(ws×ws)统计与当前候选点的深度假设小于某一阈值Td的像素的数量;如果满足以上条件的像素数量大于Tc,则将当前候选点及其深度值作为地面控制点,最终,通过以上步骤记录一组高置信度的点和其深度值作为GCPs;
(ii)基于GCPs的深度预测:使用一组GCPs和所对应的深度值预测周边临近区域的深度值;采用一组分段线性函数,在GCPs上基于计算Delaunay三角化实现GCPs周围临近区域的深度值插值,对于一个GCPs点有如下的平面方程π的约束:
其中i是三角形的索引,为GCPs点的深度值,ai,bi和ci为平面方程的系数,对于每一个三角形,包含3个GCPs,获得三个类似的等式,因此平面参数(ai,bi,ci)通过求解线性系统得出;对于图像中某一像素位置(xn,yn),如果位于三角形i的投影范围内,则其经由GCPs预测的深度值为:
为像素位置(xn,yn)经由GCPs的预测的深度值,通过以上的操作,将GCPs的可靠深度值分段线性的插值到周围的区域,从而获得对弱纹理区域更平滑可靠的预测;
(d)后处理:经由置信度调整处理后,系统包含一些不连续的小块,根据邻域深度的一致性将深度图聚成一些连通分量,去除那些像素数目小于150的连通分量。
3.根据权利要求2所述的基于消费级摄像头的鲁棒实时三维重建方法,其特征在于所述步骤四将每一视频帧的深度图转化为截断符号距离场并在体素上增量的融合:
(一)待重建的物体表面位于解析度为Nx×Ny×Nz的包围盒中,其中Nx,Ny和Nz分别为X,Y和Z方向的体素的解析度;视线为从相机中心出发穿过像素的射线;从体素中心到表面的符号距离定义在视线上,且增加一个权值因子1/δ并截断至区间[-1,1],δ控制相关的近表面区域的宽度,反映了在z-axis方向对深度值期望的不确定性;
(二)假设在时间t,获得深度图Dt,将深度图Dt转换为 在逐帧的深度融合的过程中,期望获得在包围盒的体素上的一个平滑的符号距离场u,使得u=0为估计的模型表面,u<0位于模型表面内侧,u>0位于模型表面外侧,对于每一个体素x,获得如下的增量更新:
其中,wt是t时刻的TSDF的权重,与表面的不确定性成正比,wt-1是t-1时刻的权重,是t时刻的权重增量,ut-1是t-1时刻时的符号距离场u,(x)代表在体素x位置,权重增量在实际中设置为 为深度图Dt对应的TSDF;融合过程可独立的在每一个体素x上执行,因此使用GPU进行并行处理,融合过程可独立的在每一个体素x上执行,因此使用GPU进行并行处理。
CN201511029299.4A 2015-12-30 2015-12-30 基于消费级摄像头的鲁棒实时三维重建方法 Active CN105654492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511029299.4A CN105654492B (zh) 2015-12-30 2015-12-30 基于消费级摄像头的鲁棒实时三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511029299.4A CN105654492B (zh) 2015-12-30 2015-12-30 基于消费级摄像头的鲁棒实时三维重建方法

Publications (2)

Publication Number Publication Date
CN105654492A CN105654492A (zh) 2016-06-08
CN105654492B true CN105654492B (zh) 2018-09-07

Family

ID=56491259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511029299.4A Active CN105654492B (zh) 2015-12-30 2015-12-30 基于消费级摄像头的鲁棒实时三维重建方法

Country Status (1)

Country Link
CN (1) CN105654492B (zh)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680073A (zh) * 2016-08-02 2018-02-09 富士通株式会社 几何重建对象的方法和设备
CN107680074A (zh) * 2016-08-02 2018-02-09 富士通株式会社 几何重建对象的方法和设备
CN106651942B (zh) * 2016-09-29 2019-09-17 苏州中科广视文化科技有限公司 基于特征点的三维旋转运动检测与旋转轴定位方法
CN106504320B (zh) * 2016-11-02 2019-12-17 华东师范大学 一种基于gpu及面向深度图像的实时三维重构方法
CN106844289A (zh) * 2017-01-22 2017-06-13 苏州蜗牛数字科技股份有限公司 基于手机摄像头扫描环境进行建模的方法
CN106846417A (zh) * 2017-02-06 2017-06-13 东华大学 基于视觉里程计的单目红外视频三维重建方法
CN106997614B (zh) * 2017-03-17 2021-07-20 浙江光珀智能科技有限公司 一种基于深度相机的大规模场景3d建模方法及其装置
CN108629799B (zh) * 2017-03-24 2021-06-01 成都理想境界科技有限公司 一种实现增强现实的方法及设备
US10614591B2 (en) 2017-05-31 2020-04-07 Google Llc Hand tracking based on articulated distance field
CN107358624B (zh) * 2017-06-06 2020-01-07 武汉几古几古科技有限公司 单目稠密即时定位与地图重建方法
CN107633532B (zh) * 2017-09-22 2020-10-23 武汉中观自动化科技有限公司 一种基于白光扫描仪的点云融合方法及系统
US11175148B2 (en) * 2017-09-28 2021-11-16 Baidu Usa Llc Systems and methods to accommodate state transitions in mapping
KR102468897B1 (ko) * 2017-10-16 2022-11-21 삼성전자주식회사 깊이 값을 추정하는 방법 및 장치
CN107862733B (zh) * 2017-11-02 2021-10-26 南京大学 基于视线更新算法的大规模场景实时三维重建方法和系统
CN107862674B (zh) * 2017-11-08 2020-07-03 杭州测度科技有限公司 深度图像融合方法及系统
CN107767454A (zh) * 2017-11-10 2018-03-06 泰瑞数创科技(北京)有限公司 一种实景三维移动快速建模方法、装置及系统
WO2019104571A1 (zh) * 2017-11-30 2019-06-06 深圳市大疆创新科技有限公司 图像处理方法和设备
CN108122281B (zh) * 2017-12-22 2021-08-24 洛阳中科众创空间科技有限公司 一种大范围实时人体三维重建方法
CN109961417B (zh) * 2017-12-26 2021-04-06 广州极飞科技有限公司 图像处理方法、装置及移动装置控制方法
CN109977740B (zh) * 2017-12-28 2023-02-03 沈阳新松机器人自动化股份有限公司 一种基于深度图的手部跟踪方法
WO2019144281A1 (zh) * 2018-01-23 2019-08-01 深圳市大疆创新科技有限公司 表面图形确定方法和装置
CN108564616B (zh) * 2018-03-15 2020-09-01 中国科学院自动化研究所 快速鲁棒的rgb-d室内三维场景重建方法
CN108564618B (zh) * 2018-04-11 2020-12-01 清华大学 基于多体素块的手几何运动重建方法及装置
CN108734772A (zh) * 2018-05-18 2018-11-02 宁波古德软件技术有限公司 基于Kinect fusion的高精度深度图像获取方法
CN108765566A (zh) * 2018-05-21 2018-11-06 瞪羚实训(北京)科技有限公司 图像处理方法和装置、存储介质、3d建模系统和方法
CN108765481B (zh) * 2018-05-25 2021-06-11 亮风台(上海)信息科技有限公司 一种单目视频的深度估计方法、装置、终端和存储介质
CN113762068A (zh) * 2018-05-31 2021-12-07 谷歌有限责任公司 用于估计手的当前姿势的方法和电子装置
CN108898654B (zh) * 2018-06-28 2022-07-26 苏州乐米信息科技股份有限公司 一种三维物体的移动方法和系统
CN109035394B (zh) * 2018-08-22 2023-04-07 广东工业大学 人脸三维模型重建方法、装置、设备、系统及移动终端
CN109242974A (zh) * 2018-08-28 2019-01-18 广州智美科技有限公司 基于体素的图像处理方法及装置
CN109377525B (zh) * 2018-09-13 2021-08-20 武汉雄楚高晶科技有限公司 一种拍摄目标的三维坐标估计方法和拍摄设备
CN109360268B (zh) * 2018-09-29 2020-04-24 清华大学 重建动态物体的表面优化方法及装置
CN111179162B (zh) * 2018-11-12 2023-10-24 北京魔门塔科技有限公司 一种特殊环境下的定位初始化方法及车载终端
CN110102050B (zh) * 2019-04-30 2022-02-18 腾讯科技(深圳)有限公司 虚拟对象显示方法、装置、电子设备及存储介质
CN110148217A (zh) * 2019-05-24 2019-08-20 北京华捷艾米科技有限公司 一种实时三维重建方法、装置及设备
CN110264505B (zh) * 2019-06-05 2021-07-30 北京达佳互联信息技术有限公司 一种单目深度估计方法、装置、电子设备及存储介质
CN112184603B (zh) * 2019-07-04 2022-06-24 浙江商汤科技开发有限公司 一种点云融合方法、装置、电子设备和计算机存储介质
CN110544294B (zh) * 2019-07-16 2023-09-01 深圳进化动力数码科技有限公司 一种基于全景视频的稠密三维重构方法
CN110487274B (zh) * 2019-07-30 2021-01-29 中国科学院空间应用工程与技术中心 用于弱纹理场景的slam方法、系统、导航车及存储介质
CN110793441B (zh) * 2019-11-05 2021-07-27 北京华捷艾米科技有限公司 一种高精度物体几何尺寸测量方法及装置
CN110992487B (zh) * 2019-12-10 2020-09-29 南京航空航天大学 手持式飞机油箱快速三维地图重建装置及重建方法
CN111105460B (zh) * 2019-12-26 2023-04-25 电子科技大学 一种室内场景三维重建的rgb-d相机位姿估计方法
CN111260706B (zh) * 2020-02-13 2023-04-25 青岛联合创智科技有限公司 一种基于单目相机的稠密深度图计算方法
CN111402422B (zh) * 2020-03-16 2024-04-16 京东方科技集团股份有限公司 三维表面重建方法、装置和电子设备
CN111626220A (zh) * 2020-05-28 2020-09-04 北京拙河科技有限公司 一种多人三维姿态的估计方法、装置、介质及设备
CN113096175B (zh) * 2021-03-24 2023-10-24 苏州中科广视文化科技有限公司 一种基于卷积神经网络的深度图置信度估计方法
CN113177984B (zh) * 2021-06-30 2021-09-17 湖北亿咖通科技有限公司 基于稀疏直接法的语义要素测距方法、装置和电子设备
CN113689540B (zh) * 2021-07-22 2024-04-23 清华大学 基于rgb视频的物体重建方法和装置
CN113744410A (zh) * 2021-09-13 2021-12-03 浙江商汤科技开发有限公司 网格生成方法、装置、电子设备及计算机可读存储介质
CN116437063A (zh) * 2023-06-15 2023-07-14 广州科伊斯数字技术有限公司 一种三维图像显示系统及方法
CN116824070B (zh) * 2023-08-31 2023-11-24 江西求是高等研究院 一种基于深度图像的实时三维重建方法及系统
CN116958449B (zh) * 2023-09-12 2024-04-30 北京邮电大学 城市场景三维建模方法、装置及电子设备
CN117437404B (zh) * 2023-10-26 2024-07-19 合肥工业大学 一种基于虚拟点云的多模态目标检测方法
CN117272758B (zh) * 2023-11-20 2024-03-15 埃洛克航空科技(北京)有限公司 基于三角格网的深度估计方法、装置、计算机设备和介质
CN117933380A (zh) * 2024-01-31 2024-04-26 国网江苏省电力有限公司南通供电分公司 一种电力行业科研知识抽取方法及系统
CN117710469B (zh) * 2024-02-06 2024-04-12 四川大学 一种基于rgb-d传感器的在线稠密重建方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103247075A (zh) * 2013-05-13 2013-08-14 北京工业大学 基于变分机制的室内环境三维重建方法
CN103500013A (zh) * 2013-10-18 2014-01-08 武汉大学 基于Kinect和流媒体技术的实时三维测图系统及方法
CN103559737A (zh) * 2013-11-12 2014-02-05 中国科学院自动化研究所 一种对象全景建模方法
CN104715504A (zh) * 2015-02-12 2015-06-17 四川大学 一种鲁棒的大场景稠密三维重建方法
CN104933704A (zh) * 2015-05-28 2015-09-23 西安算筹信息科技有限公司 一种三维立体扫描方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103247075A (zh) * 2013-05-13 2013-08-14 北京工业大学 基于变分机制的室内环境三维重建方法
CN103500013A (zh) * 2013-10-18 2014-01-08 武汉大学 基于Kinect和流媒体技术的实时三维测图系统及方法
CN103559737A (zh) * 2013-11-12 2014-02-05 中国科学院自动化研究所 一种对象全景建模方法
CN104715504A (zh) * 2015-02-12 2015-06-17 四川大学 一种鲁棒的大场景稠密三维重建方法
CN104933704A (zh) * 2015-05-28 2015-09-23 西安算筹信息科技有限公司 一种三维立体扫描方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于RGB_D深度相机的室内场景重建;梅峰 等;《中国图象图形学报》;20151016;第20卷(第2015年第10期);第1366-1373页 *

Also Published As

Publication number Publication date
CN105654492A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105654492B (zh) 基于消费级摄像头的鲁棒实时三维重建方法
Yang et al. Unsupervised learning of geometry from videos with edge-aware depth-normal consistency
CN110443842B (zh) 基于视角融合的深度图预测方法
CN108537871B (zh) 信息处理设备和信息处理方法
Yang et al. Color-guided depth recovery from RGB-D data using an adaptive autoregressive model
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN109271933A (zh) 基于视频流进行三维人体姿态估计的方法
CN113963117B (zh) 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN108416751A (zh) 一种基于深度辅助全分辨率网络的新视点图像合成方法
CN110910437B (zh) 一种复杂室内场景的深度预测方法
Xue et al. Boundary-induced and scene-aggregated network for monocular depth prediction
Condorelli et al. A comparison between 3D reconstruction using nerf neural networks and mvs algorithms on cultural heritage images
CN117036612A (zh) 一种基于神经辐射场的三维重建方法
CN113592913A (zh) 一种消除自监督三维重建不确定性的方法
Chen et al. Laplacian pyramid neural network for dense continuous-value regression for complex scenes
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
Sharma et al. Point cloud upsampling and normal estimation using deep learning for robust surface reconstruction
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
Li et al. Deep learning based monocular depth prediction: Datasets, methods and applications
CN117523100A (zh) 基于神经网络与多视图一致性的三维场景重建方法和装置
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN114219900A (zh) 基于混合现实眼镜的三维场景重建方法、重建系统和应用
Haji-Esmaeili et al. Large-scale monocular depth estimation in the wild
Aboali et al. A Multistage Hybrid Median Filter Design of Stereo Matching Algorithms on Image Processing
Liang et al. Agnet: Attention guided sparse depth completion using convolutional neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant