CN113256698A - 一种具有深度预测的单目3d重建方法 - Google Patents

一种具有深度预测的单目3d重建方法 Download PDF

Info

Publication number
CN113256698A
CN113256698A CN202110640679.0A CN202110640679A CN113256698A CN 113256698 A CN113256698 A CN 113256698A CN 202110640679 A CN202110640679 A CN 202110640679A CN 113256698 A CN113256698 A CN 113256698A
Authority
CN
China
Prior art keywords
depth
reconstruction
prediction
frame
monocular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110640679.0A
Other languages
English (en)
Other versions
CN113256698B (zh
Inventor
陈颖文
段志敏
胡博文
于鹄杰
陈晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110640679.0A priority Critical patent/CN113256698B/zh
Publication of CN113256698A publication Critical patent/CN113256698A/zh
Application granted granted Critical
Publication of CN113256698B publication Critical patent/CN113256698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种具有深度预测的单目3D重建方法,包括以下步骤:A、使用单目深度估计网络获得RGB图像的深度图和粗略的位姿估计;B、结合ICP算法和PnP算法来计算相机位姿估计,在局部和全局两个级别上执行回环检测,以保证重建模型的一致性;C、将深度图转化为全局模型,然后将当前帧的随机蕨类编码插入数据库中。本发明能够解决现有技术的不足,实现大规模高质量的三维重建。

Description

一种具有深度预测的单目3D重建方法
技术领域
本发明涉及三维重建技术领域,具体是一种具有深度预测的单目3D重建方法。
背景技术
近年来,许多研究人员将注意力放到了具有细节信息的室内密集三维重建。同步定位与地图构建技术旨在解决未知环境中的导航和地图构建问题,已被证明是一种可行的三维重建方法。随着深度相机的发布,出现了许多优秀的SLAM方法如:KinectFusion,InfiniTAM,ElasticFusion,RGB-D SLAM等。这些方法可以广泛应用于自动驾驶、模型构建、增强现实等领域。但是深度相机的不足给这些方法带来了难以克服的局限性。首先,深度相机的探测范围有限,且对光照条件十分敏感,这导致上述方法在光照不均匀的条件下重建精度很差。其次,深度摄像头在消费级设备上远未普及,使其很难在真实场景上应用。
为了克服上述不足,一些研究人员提出了单目同步定位与地图构建技术(SLAM)。这些方法在连续的相邻帧上执行特征匹配,使用立体匹配来恢复图像深度信息,并最终重建目标场景。然而,不确定的绝对尺度限制了这些方法的应用前景。即使位姿估计和表面重建均准确完成,最终的重建结果仍然让人难以接受。单目同步定位与地图构建技术的另一个限制是纯旋转运动条件下的位姿估计问题,当相机进行纯旋转运动时,无法找到相应的立体匹配,这将导致跟踪和重建的失败。
与此同时,深度学习在三维重建领域取得了巨大成功。训练后,神经网络能够从单幅图像,立体图像或图像集合中预测深度值。网络通过调整网络结构可直接从训练数据集中学习整个三维重建处理框架。此外深度学习可以从图像中直接获取场景的绝对尺度而不需要其他辅助信息。然而,这些方法也有其缺点,很难训练神经网络直接使用多视图几何的基本原理。此外,网络预测的深度会部分模糊,导致重建场景缺少形状细节。
发明内容
本发明要解决的技术问题是提供一种具有深度预测的单目3D重建方法,能够解决现有技术的不足,实现大规模高质量的三维重建。
本发明的内容包括以下步骤:
A、使用单目深度估计网络获得RGB图像的深度图和粗略的位姿估计;
B、结合ICP算法和PnP算法来计算相机位姿估计,在局部和全局两个级别上执行回环检测,以保证重建模型的一致性,并利用不确定性对深度图进行细化,提高重建质量;
C、将深度图转化为全局模型,然后将当前帧的随机蕨类编码插入数据库中。
作为优选,步骤A中,在前向传播阶段,子网之间的迭代优化可以产生准确的深度预测。然后,我们根据相机参数校正深度图,并将结果传输到位姿估计模块。
作为优选,步骤A中,
利用多视图几何原理将RGB图转化为深度图;首先,每个RGB图使用一个由两个沙漏模块组成的2D特征提取器来提取特征并通过后台项目构建成本量;然后将成本量用于立体匹配,并使用池化层在不同视图之间聚合信息;3D沙漏模块用于处理汇总成本量以获取中间深度;在深度维度中,Softmax运算符用于获取每个像素深度的概率分布,以便将最大深度函数映射为深度估计;
通过解决最小二乘问题来优化位姿估计;通过使用2D特征提取器提取RGB图片的特征并预测当前帧与关键帧之间的相对运动;沙漏网络传输连接的特征图并计算残差流;使用可微分的高斯牛顿法来优化残差项的组合以计算位姿校正项。
作为优选,步骤A中,在进行深度预测之后,对网络预测得到的深度图进行深度校正,使用以下公式调整深度图,
Figure 795819DEST_PATH_IMAGE001
其中,
Figure 109120DEST_PATH_IMAGE002
是第k张RGB图像预测的深度图
Figure 638059DEST_PATH_IMAGE003
中点
Figure 985995DEST_PATH_IMAGE004
的深度值,
Figure 608432DEST_PATH_IMAGE005
是当前相机的焦距,
Figure 2504DEST_PATH_IMAGE006
是采集训练数据集相机的焦距。
作为优选,步骤B中,
将场景表示为一组无序的面圆M,所有面圆
Figure 335135DEST_PATH_IMAGE007
都具有以下参数:位置坐标
Figure 537577DEST_PATH_IMAGE008
,法向量
Figure 8878DEST_PATH_IMAGE009
,权重
Figure 326465DEST_PATH_IMAGE010
,面圆半径
Figure 964251DEST_PATH_IMAGE011
,计数器
Figure 260015DEST_PATH_IMAGE012
,创建时间
Figure 325054DEST_PATH_IMAGE013
和更新时间t,
Figure 395516DEST_PATH_IMAGE014
描述面圆的覆盖范围,
Figure 102572DEST_PATH_IMAGE015
作为优选,步骤B中,
在姿态估计当中,定义RGB帧
Figure 512562DEST_PATH_IMAGE016
由深度图像
Figure 14082DEST_PATH_IMAGE017
和颜色图像
Figure 119310DEST_PATH_IMAGE018
组成,对于点
Figure 615012DEST_PATH_IMAGE019
定义反向投影如下,
Figure 36766DEST_PATH_IMAGE020
其中,
Figure 709187DEST_PATH_IMAGE021
是相机内参矩阵,
Figure 691924DEST_PATH_IMAGE022
Figure 6362DEST_PATH_IMAGE023
的齐次坐标,
Figure 656524DEST_PATH_IMAGE024
Figure 906371DEST_PATH_IMAGE023
的深度值,对于3D点
Figure 641983DEST_PATH_IMAGE025
定义如下变换,
Figure 228954DEST_PATH_IMAGE026
其中,
Figure 890879DEST_PATH_IMAGE027
是焦距,
Figure 675076DEST_PATH_IMAGE028
为图像原点相对于光心成像点的纵横偏移量,将旋转矩阵定义如下,
Figure 399450DEST_PATH_IMAGE029
计算当前帧的预测深度图
Figure 429592DEST_PATH_IMAGE030
和由全局模型投影得到的深度图
Figure 821390DEST_PATH_IMAGE031
之间的帧到模型误差,
Figure 662307DEST_PATH_IMAGE032
Figure 372512DEST_PATH_IMAGE030
中的顶点反向投影得到
Figure 832443DEST_PATH_IMAGE033
Figure 187070DEST_PATH_IMAGE034
Figure 74254DEST_PATH_IMAGE033
的匹配点在前一帧相机坐标系中的坐标,
Figure 163433DEST_PATH_IMAGE035
Figure 919731DEST_PATH_IMAGE034
的法向量,
Figure 895909DEST_PATH_IMAGE036
是从
Figure 452530DEST_PATH_IMAGE037
Figure 29004DEST_PATH_IMAGE038
的变换矩阵,函数
Figure 830738DEST_PATH_IMAGE039
的作用是将李代数
Figure 159957DEST_PATH_IMAGE040
中的值转化为李群
Figure 654524DEST_PATH_IMAGE041
中的值,顶点之间的对应关系由KinectFusion框架中顶点匹配算法得出,
Figure 452715DEST_PATH_IMAGE038
Figure 25517DEST_PATH_IMAGE037
之间计算3D-2D误差,并通过寻找
Figure 241866DEST_PATH_IMAGE042
最小化误差,
Figure 411728DEST_PATH_IMAGE043
其中,
Figure 166057DEST_PATH_IMAGE044
Figure 575173DEST_PATH_IMAGE038
上点
Figure 878984DEST_PATH_IMAGE045
的坐标,
Figure 715353DEST_PATH_IMAGE046
Figure 488137DEST_PATH_IMAGE045
Figure 933900DEST_PATH_IMAGE047
上特征匹配点的坐标。
作为优选,步骤B中,
对帧到模型误差和帧到帧误差进行加权,损失函数如下,
Figure 593682DEST_PATH_IMAGE048
其中,
Figure 99488DEST_PATH_IMAGE049
,将神经网络预测得到的位姿估计作为损失函数求解的初始值,在每次迭代过程中,对下列等式进行求解,
Figure 93989DEST_PATH_IMAGE050
目标是求解
Figure 844907DEST_PATH_IMAGE051
并且更新旋转矩阵
Figure 140889DEST_PATH_IMAGE052
,得出以下等式,
Figure 53481DEST_PATH_IMAGE053
Figure 800857DEST_PATH_IMAGE051
是一个6*1的向量,由3*1的旋转向量
Figure 588422DEST_PATH_IMAGE054
和3*1的平移向量
Figure 222797DEST_PATH_IMAGE055
组成,使用并行树约简来求解雅克比矩阵
Figure 804826DEST_PATH_IMAGE056
和误差
Figure 773919DEST_PATH_IMAGE057
,使用Cholesky分解获得
Figure 866640DEST_PATH_IMAGE051
将当前深度图
Figure 854056DEST_PATH_IMAGE058
上的任意一点
Figure 374030DEST_PATH_IMAGE059
投影到输入的剩余N-1帧深度图中,并得到列表
Figure 830420DEST_PATH_IMAGE060
Figure 965647DEST_PATH_IMAGE061
Figure 574614DEST_PATH_IMAGE062
其中
Figure 764024DEST_PATH_IMAGE063
是点
Figure 442130DEST_PATH_IMAGE064
在深度图
Figure 876654DEST_PATH_IMAGE065
上的对应点,
Figure 104242DEST_PATH_IMAGE066
是从当前帧到第i帧的变换矩阵,
Figure 90652DEST_PATH_IMAGE067
是点
Figure 397000DEST_PATH_IMAGE068
的深度值,
使用不同深度图中同一场景点的平方误差来描述深度图的不确定性,将点的不确定性初始化为相邻深度图之间像素深度的平方差:
Figure 743536DEST_PATH_IMAGE069
Figure 186150DEST_PATH_IMAGE070
初始化之后,根据以下加权方法对深度图
Figure 609041DEST_PATH_IMAGE071
进行细化,并对其不确定性进行更新,
Figure 629782DEST_PATH_IMAGE072
Figure 281474DEST_PATH_IMAGE073
Figure 342709DEST_PATH_IMAGE074
用来增加图像不确定性的白噪声方差,提高结果精度。
作为优选,步骤C中,
使用局部和全局两个级别的回环检测来消除重建模型的偏移误差;如果当前帧与模型中的面圆匹配,则更新面圆的相关参数,并修改更新时间;将超过
Figure 670922DEST_PATH_IMAGE075
时间没有更新的面圆划分为非活动区域,剩余的面圆划分为活动区域;非活动区域的数据不能参加位姿估计和表面融合阶段;在每帧图像的处理过程中,将当前活动区域与非活动区域进行配准;如果匹配成功,则将当前模型变形到对应的位置,然后将非活动区域标记为活动区域,并且可以参与跟踪与表面融合阶段;
设活动区域偏离非活动区域,并且本地环路无法闭合,采用全局闭环方法来引导表面融合,并使活动区域与非活动区域对齐,以实现全局一致性;使用随机蕨类编码方法进行全局回环检测;对当前帧进行蕨类编码之后再数据库中进行匹配,如果匹配成功且满足相关约束则执行表面变形。
作为优选,步骤C中,
表面融合的目标是将深度图集成到全局模型当中;将所有活动的面圆投影到当前图像平面上,以找到面圆之间的对应关系;然后依据法线角度,与视线的距离和置信度对面圆进行筛查;确定关联关系之后,对面圆进行平均,并更新面圆的相关属性;最后从模型中删除不稳定的面圆;对于更新过的面圆,如果存在重叠面圆且属性值类似,则将这些面圆也融合起来。
作为优选,步骤C中,按照硬件平台的计算能力对系统中的若干参数进行动态调整,进行动态调整的参数包括,
在进行跟踪之前,是否对两帧图像计算像素差的平方和,以实现预对准;
在进行特征点提取的时候,对高斯金字塔的层数进行调整;
通过改变时间窗口阈值大小,对处于活跃状态的面圆数量进行调整;
在深度预测过程中,对迭代次数和同时进行深度预测的图像数目进行调整。
本发明的有益效果是:本发明可以高质量地重建室内场景,解决了用于三维重建的传感器和用于捕获训练数据集的传感器参数不同的问题。通过对位姿估计的联合优化方法,可在深度信息不足的情况下有效地改善跟踪和3D重建精度。在获得相机位姿的基础上,利用深度细化策略实现提高了深度预测的精度。另外,针对各种硬件平台条件自适应调整系统参数,在保持重建精度的同时又提高了帧率。
附图说明
图1为本发明的原理图。
图2为使用CNN-SLAM在NYU Depth v2数据集的kitchen_0046序列上的重建结果。
图3为使用本发明在NYU Depth v2数据集的kitchen_0046序列上的重建结果。
图4为使用CNN-SLAM在ICL-NUIM数据集的起居室kt2序列上的重建结果。
图5为使用本发明在ICL-NUIM数据集的起居室kt2序列上的重建结果。
图6为使用CNN-SLAM在TUM RGB-D数据集的fr1_rpy序列上的重建结果。
图7为使用LSD-SLAM在TUM RGB-D数据集的fr1_rpy序列上的重建结果。
图8为使用本发明TUM RGB-D数据集的fr1_rpy序列上的重建结果。
图9为自适应策略在GeForceGTX1660TiGPU上对系统性能影响的对比图。
图10为自适应策略在GeForceGTX2080GPU上对系统性能影响的对比图。
图11为自适应策略在RTXTITANGPU上对系统性能影响的对比图。
图12为三种GPU的平均处理时间对比图。
图13为三种GPU的3D重建性能对比图。
具体实施方式
一种具有深度预测的单目3D重建方法,包括以下步骤:
A、使用单目深度估计网络获得RGB图像的深度图和粗略的位姿估计;
B、结合ICP算法和PnP算法来计算相机位姿估计,在局部和全局两个级别上执行回环检测,以保证重建模型的一致性,并利用不确定性对深度图进行细化,提高重建质量;
C、将深度图转化为全局模型,然后将当前帧的随机蕨类编码插入数据库中。
步骤A中,在前向传播阶段,子网之间的迭代优化可以产生准确的深度预测。然后,我们根据相机参数校正深度图,并将结果传输到位姿估计模块。
步骤A中,
利用多视图几何原理将RGB图转化为深度图;首先,每个RGB图使用一个由两个沙漏模块组成的2D特征提取器来提取特征并通过后台项目构建成本量;然后将成本量用于立体匹配,并使用池化层在不同视图之间聚合信息;3D沙漏模块用于处理汇总成本量以获取中间深度;在深度维度中,Softmax运算符用于获取每个像素深度的概率分布,以便将最大深度函数映射为深度估计;
通过解决最小二乘问题来优化位姿估计;通过使用2D特征提取器提取RGB图片的特征并预测当前帧与关键帧之间的相对运动;沙漏网络传输连接的特征图并计算残差流;使用可微分的高斯牛顿法来优化残差项的组合以计算位姿校正项。
步骤A中,在进行深度预测之后,对网络预测得到的深度图进行深度校正,使用以下公式调整深度图,
Figure 686282DEST_PATH_IMAGE001
其中,
Figure 374621DEST_PATH_IMAGE002
是第k张RGB图像预测的深度图
Figure 791827DEST_PATH_IMAGE003
中点
Figure 25363DEST_PATH_IMAGE004
的深度值,
Figure 292134DEST_PATH_IMAGE005
是当前相机的焦距,
Figure 285629DEST_PATH_IMAGE076
是采集训练数据集相机的焦距。
步骤B中,
将场景表示为一组无序的面圆M,所有面圆
Figure 327315DEST_PATH_IMAGE007
都具有以下参数:位置坐标
Figure 997331DEST_PATH_IMAGE008
,法向量
Figure 721704DEST_PATH_IMAGE009
,权重
Figure 17425DEST_PATH_IMAGE010
,面圆半径
Figure 799436DEST_PATH_IMAGE011
,计数器
Figure 515720DEST_PATH_IMAGE012
,创建时间
Figure 101291DEST_PATH_IMAGE013
和更新时间t,
Figure 561222DEST_PATH_IMAGE014
描述面圆的覆盖范围,
Figure 197740DEST_PATH_IMAGE015
步骤B中,
在姿态估计当中,定义RGB帧
Figure 317880DEST_PATH_IMAGE016
由深度图像
Figure 423370DEST_PATH_IMAGE017
和颜色图像
Figure 937527DEST_PATH_IMAGE077
组成,对于点
Figure 428551DEST_PATH_IMAGE019
定义反向投影如下,
Figure 486637DEST_PATH_IMAGE020
其中,
Figure 46800DEST_PATH_IMAGE021
是相机内参矩阵,
Figure 848534DEST_PATH_IMAGE022
Figure 459644DEST_PATH_IMAGE023
的齐次坐标,
Figure 921587DEST_PATH_IMAGE024
Figure 470511DEST_PATH_IMAGE023
的深度值,对于3D点
Figure 574471DEST_PATH_IMAGE078
定义如下变换,
Figure 774508DEST_PATH_IMAGE026
其中,
Figure 174397DEST_PATH_IMAGE027
是焦距,
Figure 715011DEST_PATH_IMAGE028
为图像原点相对于光心成像点的纵横偏移量,将旋转矩阵定义如下,
Figure 514340DEST_PATH_IMAGE029
计算当前帧的预测深度图
Figure 444250DEST_PATH_IMAGE079
和由全局模型投影得到的深度图
Figure 388941DEST_PATH_IMAGE031
之间的帧到模型误差,
Figure 37091DEST_PATH_IMAGE032
Figure 108953DEST_PATH_IMAGE079
中的顶点反向投影得到
Figure 391904DEST_PATH_IMAGE033
Figure 540120DEST_PATH_IMAGE034
Figure 800200DEST_PATH_IMAGE033
的匹配点在前一帧相机坐标系中的坐标,
Figure 784074DEST_PATH_IMAGE035
Figure 563942DEST_PATH_IMAGE034
的法向量,
Figure 234790DEST_PATH_IMAGE036
是从
Figure 982166DEST_PATH_IMAGE080
Figure 5617DEST_PATH_IMAGE081
的变换矩阵,函数
Figure 404106DEST_PATH_IMAGE082
的作用是将李代数
Figure 753179DEST_PATH_IMAGE040
中的值转化为李群
Figure 722272DEST_PATH_IMAGE083
中的值,顶点之间的对应关系由KinectFusion框架中顶点匹配算法得出,
Figure 454473DEST_PATH_IMAGE081
Figure 67988DEST_PATH_IMAGE080
之间计算3D-2D误差,并通过寻找
Figure 712596DEST_PATH_IMAGE042
最小化误差,
Figure 542887DEST_PATH_IMAGE043
其中,
Figure 49086DEST_PATH_IMAGE044
Figure 287081DEST_PATH_IMAGE081
上点
Figure 837011DEST_PATH_IMAGE045
的坐标,
Figure 921642DEST_PATH_IMAGE046
Figure 730067DEST_PATH_IMAGE045
Figure 318174DEST_PATH_IMAGE084
上特征匹配点的坐标。
步骤B中,
对帧到模型误差和帧到帧误差进行加权,损失函数如下,
Figure 304584DEST_PATH_IMAGE048
其中,
Figure 984833DEST_PATH_IMAGE085
,将神经网络预测得到的位姿估计作为损失函数求解的初始值,在每次迭代过程中,对下列等式进行求解,
Figure 957469DEST_PATH_IMAGE050
目标是求解
Figure 898617DEST_PATH_IMAGE086
并且更新旋转矩阵
Figure 55929DEST_PATH_IMAGE052
,得出以下等式,
Figure 724939DEST_PATH_IMAGE053
Figure 282958DEST_PATH_IMAGE051
是一个6*1的向量,由3*1的旋转向量
Figure 970291DEST_PATH_IMAGE054
和3*1的平移向量
Figure 173870DEST_PATH_IMAGE055
组成,使用并行树约简来求解雅克比矩阵
Figure 563132DEST_PATH_IMAGE056
和误差
Figure 877570DEST_PATH_IMAGE057
,使用Cholesky分解获得
Figure 419410DEST_PATH_IMAGE051
将当前深度图
Figure 433371DEST_PATH_IMAGE058
上的任意一点
Figure 936028DEST_PATH_IMAGE059
投影到输入的剩余N-1帧深度图中,并得到列表
Figure 178790DEST_PATH_IMAGE087
Figure 683459DEST_PATH_IMAGE061
Figure 369786DEST_PATH_IMAGE062
其中
Figure 598554DEST_PATH_IMAGE063
是点
Figure 910587DEST_PATH_IMAGE064
在深度图
Figure 36806DEST_PATH_IMAGE065
上的对应点,
Figure 126990DEST_PATH_IMAGE066
是从当前帧到第i帧的变换矩阵,
Figure 604239DEST_PATH_IMAGE067
是点
Figure 188804DEST_PATH_IMAGE068
的深度值,
使用不同深度图中同一场景点的平方误差来描述深度图的不确定性,将点的不确定性初始化为相邻深度图之间像素深度的平方差:
Figure 933644DEST_PATH_IMAGE088
Figure 696195DEST_PATH_IMAGE070
初始化之后,根据以下加权方法对深度图
Figure 159275DEST_PATH_IMAGE071
进行细化,并对其不确定性进行更新,
Figure 281952DEST_PATH_IMAGE072
Figure 382763DEST_PATH_IMAGE073
Figure 74470DEST_PATH_IMAGE074
用来增加图像不确定性的白噪声方差,提高结果精度。
步骤C中,
使用局部和全局两个级别的回环检测来消除重建模型的偏移误差;如果当前帧与模型中的面圆匹配,则更新面圆的相关参数,并修改更新时间;将超过
Figure 260732DEST_PATH_IMAGE075
时间没有更新的面圆划分为非活动区域,剩余的面圆划分为活动区域;非活动区域的数据不能参加位姿估计和表面融合阶段;在每帧图像的处理过程中,将当前活动区域与非活动区域进行配准;如果匹配成功,则将当前模型变形到对应的位置,然后将非活动区域标记为活动区域,并且可以参与跟踪与表面融合阶段;
设活动区域偏离非活动区域,并且本地环路无法闭合,采用全局闭环方法来引导表面融合,并使活动区域与非活动区域对齐,以实现全局一致性;使用随机蕨类编码方法进行全局回环检测;对当前帧进行蕨类编码之后再数据库中进行匹配,如果匹配成功且满足相关约束则执行表面变形。
步骤C中,
表面融合的目标是将深度图集成到全局模型当中;将所有活动的面圆投影到当前图像平面上,以找到面圆之间的对应关系;然后依据法线角度,与视线的距离和置信度对面圆进行筛查;确定关联关系之后,对面圆进行平均,并更新面圆的相关属性;最后从模型中删除不稳定的面圆;对于更新过的面圆,如果存在重叠面圆且属性值类似,则将这些面圆也融合起来。
步骤C中,按照硬件平台的计算能力对系统中的若干参数进行动态调整,进行动态调整的参数包括,
在进行跟踪之前,是否对两帧图像计算像素差的平方和,以实现预对准;
在进行特征点提取的时候,对高斯金字塔的层数进行调整;
通过改变时间窗口阈值大小,对处于活跃状态的面圆数量进行调整;
在深度预测过程中,对迭代次数和同时进行深度预测的图像数目进行调整。
由于系统中大多数的计算任务都在GPU中进行,因此上述自适应策略将GPU的计算能力指数作为输入。通过NVIDIA的官方网站上获得了GPU的计算能力指数。综上所述,本发明的优化元组为
Figure 187100DEST_PATH_IMAGE089
,如表1所示,我们提出了4组参数组合,他=可以使本发明在不同的硬件条件下表现的更好。
表1
Figure 640953DEST_PATH_IMAGE090
跟踪精度实验评估
使用ICL-NUIM和TUM RGB-D这两个公开数据集对本发明的跟踪精度进行实验。ICL-NUIM数据集是由计算机合成的,包含了起居室和办公室两个场景,共8个序列。TUM数据集是通过深度相机收集的真实场景数据,经常用来测试算法的跟踪准确性。为了确保实验结果的可靠性,将跟踪结果与许多出色的单目SLAM系统进行了比较,并与基于直接法的LSD-SLAM和基于特征点法的ORB-SLAM进行了比较。此外,还与Laina等人的工作进行了比较,他们将CNN网络预测的深度图输入到最先进的RGB-D SLAM当中完成对场景的重建。为了试验的完整性,还与CNN-SLAM进行了比较。绝对轨迹均方根误差(ATE RMSE)是位姿估计值与地面真实值之间欧氏距离的均方根值,可以直观的反应算法的准确性和轨迹的全局一致性。按照惯例,也使用ATE RMSE来描述系统的跟踪性能。为了证明联合PnP算法用于位姿估计的有效性,将未添加PnP算法的结果作为性能基准。ATE RMSE的结果显示在表2中。本发明(RGB-Fusion)在所有场景中均显示了令人满意的结果,并且本发明的跟踪性能在大多数序列中精度都是最高的。
表2
Figure 10885DEST_PATH_IMAGE091
深度估计实验评估
评估了深度估计性能作为系统3D重建效果的基本参考。测量了预测深度值和地面真值之间的差异的像素的百分比,以便评估深度预测的性能。
表3
Figure 182978DEST_PATH_IMAGE092
重建精度实验评估
利用Handa等人提出的度量标准来量化重建精度,该精度表示从重建模型上的面圆到地面真实模型上最近的面圆的平均距离。由于ICL-NUIM数据集提供了地面真实三维模型,因此在此数据集上进行重建性能的评估。为了试验更加完整,与最先进的SfM系统COLMAP和VisualSfM进行了比较,结果如表4(单位:米,RGB-Fusion表示没有PnP算法的重建精度,RGB-Fusion(op)代表有PnP算法的重建精度)所示。如图2-8所示,还在三个数据集上对CNN-SLAM和本发明(RGB-Fusion)进行了定性比较,实验结果表明本发明的方法表现更好。
表4
Figure 178616DEST_PATH_IMAGE093
自适应策略的影响
在不使用自适应策略的情况下评估了平均帧延迟和3D重建精度。如果不使用自适应策略,则本发明将使用默认参数重建场景。在硬件平台上计算能力不足的情况下,它将显著增加帧的处理延迟。在具有不同计算能力的三种硬件平台上分别运行本发明所提出的重建方法(分别配备GeForceGTX1660TiGPU,GeForceGTX2080GPU和RTXTITANGPU)以比较自适应策略对系统性能的影响。如图9-12所示(数据是在ICL-NUIM数据集的起居室kt1序列上测量的),在不同的硬件条件下使用自适应策略时,每个序列的帧处理时间减少了15ms以上。图13(数据是在ICL-NUIM数据集的起居室kt1序列上测量的)显示了采用和不采用自适应策略时本发明的3D重建性能。每个硬件平台的3D重建误差增加了不到0.03m。简而言之,自适应策略可以有效地减少帧处理延迟,同时保持相似的重建性能。

Claims (8)

1.一种具有深度预测的单目3D重建方法,其特征在于包括以下步骤:
A、使用单目深度估计网络获得RGB图像的深度图和粗略的位姿估计;
B、结合ICP算法和PnP算法来计算相机位姿估计,在局部和全局两个级别上执行回环检测,以保证重建模型的一致性,并利用不确定性对深度图进行细化;
在进行深度预测之后,对网络预测得到的深度图进行深度校正,使用以下公式调整深度图,
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
是第k张RGB图像预测的深度图
Figure DEST_PATH_IMAGE003
中点
Figure DEST_PATH_IMAGE004
的深度值,
Figure DEST_PATH_IMAGE005
是当前相机的焦距,
Figure DEST_PATH_IMAGE006
是采集训练数据集相机的焦距;
将当前深度图
Figure DEST_PATH_IMAGE007
上的任意一点
Figure DEST_PATH_IMAGE008
投影到输入的剩余N-1帧深度图中,并得到列表
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
其中
Figure DEST_PATH_IMAGE012
是点
Figure DEST_PATH_IMAGE013
在深度图
Figure DEST_PATH_IMAGE014
上的对应点,
Figure DEST_PATH_IMAGE015
是从当前帧到第i帧的变换矩阵,
Figure DEST_PATH_IMAGE016
是点
Figure DEST_PATH_IMAGE017
的深度值,
使用不同深度图中同一场景点的平方误差来描述深度图的不确定性,将点的不确定性初始化为相邻深度图之间像素深度的平方差:
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
初始化之后,根据以下加权方法对深度图
Figure DEST_PATH_IMAGE020
进行细化,并对其不确定性进行更新,
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
用来增加图像不确定性的白噪声方差,提高结果精度;
C、将深度图转化为全局模型,然后将当前帧的随机蕨类编码插入数据库中。
2.根据权利要求1所述的具有深度预测的单目3D重建方法,其特征在于:步骤A中,在前向传播阶段,子网之间的迭代优化可以产生准确的深度预测;然后,我们根据相机参数校正深度图,并将结果传输到位姿估计模块。
3.根据权利要求2所述的具有深度预测的单目3D重建方法,其特征在于:步骤A中,
利用多视图几何原理将RGB图转化为深度图;首先,每个RGB图使用一个由两个沙漏模块组成的2D特征提取器来提取特征并通过后台项目构建成本量;然后将成本量用于立体匹配,并使用池化层在不同视图之间聚合信息;3D沙漏模块用于处理汇总成本量以获取中间深度;在深度维度中,Softmax运算符用于获取每个像素深度的概率分布,以便将最大深度函数映射为深度估计;
通过解决最小二乘问题来优化位姿估计;通过使用2D特征提取器提取RGB图片的特征并预测当前帧与关键帧之间的相对运动;沙漏网络传输连接的特征图并计算残差流;使用可微分的高斯牛顿法来优化残差项的组合以计算位姿校正项。
4.根据权利要求3所述的具有深度预测的单目3D重建方法,其特征在于:步骤B中,
将场景表示为一组无序的面圆M,所有面圆
Figure DEST_PATH_IMAGE024
都具有以下参数:位置坐标
Figure DEST_PATH_IMAGE025
,法向量
Figure DEST_PATH_IMAGE026
,权重
Figure DEST_PATH_IMAGE027
,面圆半径
Figure DEST_PATH_IMAGE028
,计数器
Figure DEST_PATH_IMAGE029
,创建时间
Figure DEST_PATH_IMAGE030
和更新时间t,
Figure DEST_PATH_IMAGE031
描述面圆的覆盖范围,
Figure DEST_PATH_IMAGE032
5.如权利要求4所述的具有深度预测的单目3D重建方法,其特征在于:步骤B中,
在姿态估计当中,定义RGB帧
Figure DEST_PATH_IMAGE033
由深度图像
Figure DEST_PATH_IMAGE034
和颜色图像
Figure DEST_PATH_IMAGE035
组成,对于点
Figure DEST_PATH_IMAGE036
定义反向投影如下,
Figure DEST_PATH_IMAGE037
其中,
Figure DEST_PATH_IMAGE038
是相机内参矩阵,
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
的齐次坐标,
Figure DEST_PATH_IMAGE041
Figure 386435DEST_PATH_IMAGE040
的深度值,对于3D点
Figure DEST_PATH_IMAGE042
定义如下变换,
Figure DEST_PATH_IMAGE044
其中,
Figure DEST_PATH_IMAGE045
是焦距,
Figure DEST_PATH_IMAGE046
为图像原点相对于光心成像点的纵横偏移量,将旋转矩阵定义如下,
Figure DEST_PATH_IMAGE047
计算当前帧的预测深度图
Figure DEST_PATH_IMAGE048
和由全局模型投影得到的深度图
Figure DEST_PATH_IMAGE049
之间的帧到模型误差,
Figure DEST_PATH_IMAGE050
Figure 455498DEST_PATH_IMAGE048
中的顶点反向投影得到
Figure DEST_PATH_IMAGE051
Figure DEST_PATH_IMAGE052
Figure 137058DEST_PATH_IMAGE051
的匹配点在前一帧相机坐标系中的坐标,
Figure DEST_PATH_IMAGE053
Figure 513551DEST_PATH_IMAGE052
的法向量,
Figure DEST_PATH_IMAGE054
是从
Figure DEST_PATH_IMAGE055
Figure DEST_PATH_IMAGE056
的变换矩阵,函数
Figure DEST_PATH_IMAGE057
的作用是将李代数
Figure DEST_PATH_IMAGE058
中的值转化为李群
Figure DEST_PATH_IMAGE059
中的值,顶点之间的对应关系由KinectFusion框架中顶点匹配算法得出,
Figure 410837DEST_PATH_IMAGE056
Figure 943144DEST_PATH_IMAGE055
之间计算3D-2D误差,并通过寻找
Figure DEST_PATH_IMAGE060
最小化误差,
Figure DEST_PATH_IMAGE061
其中,
Figure DEST_PATH_IMAGE062
Figure 637300DEST_PATH_IMAGE056
上点
Figure DEST_PATH_IMAGE063
的坐标,
Figure DEST_PATH_IMAGE064
Figure 833795DEST_PATH_IMAGE063
Figure 149369DEST_PATH_IMAGE055
上特征匹配点的坐标;
对帧到模型误差和帧到帧误差进行加权,损失函数如下,
Figure DEST_PATH_IMAGE065
其中,
Figure DEST_PATH_IMAGE066
,将神经网络预测得到的位姿估计作为损失函数求解的初始值,在每次迭代过程中,对下列等式进行求解,
Figure DEST_PATH_IMAGE067
目标是求解
Figure DEST_PATH_IMAGE068
并且更新旋转矩阵
Figure DEST_PATH_IMAGE069
,得出以下等式,
Figure DEST_PATH_IMAGE070
Figure 221886DEST_PATH_IMAGE068
是一个6*1的向量,由3*1的旋转向量
Figure DEST_PATH_IMAGE071
和3*1的平移向量
Figure DEST_PATH_IMAGE072
组成,使用并行树约简来求解雅克比矩阵
Figure DEST_PATH_IMAGE073
和误差
Figure DEST_PATH_IMAGE074
,使用Cholesky分解获得
Figure 13125DEST_PATH_IMAGE068
6.如权利要求5所述的具有深度预测的单目3D重建方法,其特征在于:步骤C中,
使用局部和全局两个级别的回环检测来消除重建模型的偏移误差;如果当前帧与模型中的面圆匹配,则更新面圆的相关参数,并修改更新时间;将超过
Figure DEST_PATH_IMAGE075
时间没有更新的面圆划分为非活动区域,剩余的面圆划分为活动区域;非活动区域的数据不能参加位姿估计和表面融合阶段;在每帧图像的处理过程中,将当前活动区域与非活动区域进行配准;如果匹配成功,则将当前模型变形到对应的位置,然后将非活动区域标记为活动区域,并且可以参与跟踪与表面融合阶段;
设活动区域偏离非活动区域,并且本地环路无法闭合,采用全局闭环方法来引导表面融合,并使活动区域与非活动区域对齐,以实现全局一致性;使用随机蕨类编码方法进行全局回环检测;对当前帧进行蕨类编码之后再数据库中进行匹配,如果匹配成功且满足相关约束则执行表面变形。
7.如权利要求6所述的具有深度预测的单目3D重建方法,其特征在于:步骤C中,
表面融合的目标是将深度图集成到全局模型当中;将所有活动的面圆投影到当前图像平面上,以找到面圆之间的对应关系;然后依据法线角度,与视线的距离和置信度对面圆进行筛查;确定关联关系之后,对面圆进行平均,并更新面圆的相关属性;最后从模型中删除不稳定的面圆;对于更新过的面圆,如果存在重叠面圆且属性值类似,则将这些面圆也融合起来。
8.如权利要求7所述的具有深度预测的单目3D重建方法,其特征在于:步骤C中,按照硬件平台的计算能力对系统中的若干参数进行动态调整,进行动态调整的参数包括,
在进行跟踪之前,是否对两帧图像计算像素差的平方和,以实现预对准;
在进行特征点提取的时候,对高斯金字塔的层数进行调整;
通过改变时间窗口阈值大小,对处于活跃状态的面圆数量进行调整;
在深度预测过程中,对迭代次数和同时进行深度预测的图像数目进行调整。
CN202110640679.0A 2021-06-09 2021-06-09 一种具有深度预测的单目3d重建方法 Active CN113256698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110640679.0A CN113256698B (zh) 2021-06-09 2021-06-09 一种具有深度预测的单目3d重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110640679.0A CN113256698B (zh) 2021-06-09 2021-06-09 一种具有深度预测的单目3d重建方法

Publications (2)

Publication Number Publication Date
CN113256698A true CN113256698A (zh) 2021-08-13
CN113256698B CN113256698B (zh) 2021-11-05

Family

ID=77187159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110640679.0A Active CN113256698B (zh) 2021-06-09 2021-06-09 一种具有深度预测的单目3d重建方法

Country Status (1)

Country Link
CN (1) CN113256698B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643359A (zh) * 2021-08-26 2021-11-12 广州文远知行科技有限公司 一种目标对象定位方法、装置、设备及存储介质
CN114219900A (zh) * 2022-02-21 2022-03-22 北京影创信息科技有限公司 基于混合现实眼镜的三维场景重建方法、重建系统和应用
CN115797570A (zh) * 2023-02-03 2023-03-14 长春理工大学 基于颜色匹配slam的立体腹腔镜图像三维重建方法和系统
CN116295097A (zh) * 2023-02-15 2023-06-23 天津大学 一种具有材质普适性的三维数据集采集评估方法及装置
CN117496074A (zh) * 2023-12-29 2024-02-02 中国人民解放军国防科技大学 一种适应相机快速移动的高效三维场景重建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180176543A1 (en) * 2016-12-21 2018-06-21 Canon Kabushiki Kaisha Method, System and Apparatus for Refining a Depth Map
CN108303099A (zh) * 2018-06-14 2018-07-20 江苏中科院智能科学技术应用研究院 基于三维视觉slam的无人机室内自主导航方法
US20200380711A1 (en) * 2016-12-28 2020-12-03 Interdigital Ce Patent Holdings Method and device for joint segmentation and 3d reconstruction of a scene
US10929654B2 (en) * 2018-03-12 2021-02-23 Nvidia Corporation Three-dimensional (3D) pose estimation from a monocular camera
CN112435325A (zh) * 2020-09-29 2021-03-02 北京航空航天大学 基于vi-slam和深度估计网络的无人机场景稠密重建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180176543A1 (en) * 2016-12-21 2018-06-21 Canon Kabushiki Kaisha Method, System and Apparatus for Refining a Depth Map
US20200380711A1 (en) * 2016-12-28 2020-12-03 Interdigital Ce Patent Holdings Method and device for joint segmentation and 3d reconstruction of a scene
US10929654B2 (en) * 2018-03-12 2021-02-23 Nvidia Corporation Three-dimensional (3D) pose estimation from a monocular camera
CN108303099A (zh) * 2018-06-14 2018-07-20 江苏中科院智能科学技术应用研究院 基于三维视觉slam的无人机室内自主导航方法
CN112435325A (zh) * 2020-09-29 2021-03-02 北京航空航天大学 基于vi-slam和深度估计网络的无人机场景稠密重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KE WANG ET AL: "A 6D-ICP approach for 3D reconstruction and motion estimate of unknown and non-cooperative target", 《2016 28TH CHINESE CONTROL AND DECISION CONFERENCE (CCDC)》 *
姚翰: "场景深度及结构预测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643359A (zh) * 2021-08-26 2021-11-12 广州文远知行科技有限公司 一种目标对象定位方法、装置、设备及存储介质
CN114219900A (zh) * 2022-02-21 2022-03-22 北京影创信息科技有限公司 基于混合现实眼镜的三维场景重建方法、重建系统和应用
CN115797570A (zh) * 2023-02-03 2023-03-14 长春理工大学 基于颜色匹配slam的立体腹腔镜图像三维重建方法和系统
CN115797570B (zh) * 2023-02-03 2023-04-28 长春理工大学 基于颜色匹配slam的立体腹腔镜图像三维重建方法和系统
CN116295097A (zh) * 2023-02-15 2023-06-23 天津大学 一种具有材质普适性的三维数据集采集评估方法及装置
CN116295097B (zh) * 2023-02-15 2024-01-09 天津大学 一种具有材质普适性的三维数据集采集评估方法及装置
CN117496074A (zh) * 2023-12-29 2024-02-02 中国人民解放军国防科技大学 一种适应相机快速移动的高效三维场景重建方法
CN117496074B (zh) * 2023-12-29 2024-03-22 中国人民解放军国防科技大学 一种适应相机快速移动的高效三维场景重建方法

Also Published As

Publication number Publication date
CN113256698B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN113256698B (zh) 一种具有深度预测的单目3d重建方法
CN111968129B (zh) 具有语义感知的即时定位与地图构建系统及方法
CN114782691B (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN107025668B (zh) 一种基于深度相机的视觉里程计的设计方法
CN109974707B (zh) 一种基于改进点云匹配算法的室内移动机器人视觉导航方法
CN109658449B (zh) 一种基于rgb-d图像的室内场景三维重建方法
US9613420B2 (en) Method for locating a camera and for 3D reconstruction in a partially known environment
CN108010081B (zh) 一种基于Census变换和局部图优化的RGB-D视觉里程计方法
CN114399554B (zh) 一种多相机系统的标定方法及系统
CN113658337B (zh) 一种基于车辙线的多模态里程计方法
CN110764504A (zh) 一种用于变电站电缆沟道巡检的机器人导航方法及系统
CN114494589A (zh) 三维重建方法、装置、电子设备和计算机可读存储介质
CN116958419A (zh) 一种基于波前编码的双目立体视觉三维重建系统和方法
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
Kallwies et al. Triple-SGM: stereo processing using semi-global matching with cost fusion
CN111429571A (zh) 一种基于时空图像信息联合相关的快速立体匹配方法
CN116894876A (zh) 基于实时图像的6-dof的定位方法
CN117197333A (zh) 基于多目视觉的空间目标重构与位姿估计方法及系统
Coorg Pose imagery and automated three-dimensional modeling of urban environments
CN112419411A (zh) 一种基于卷积神经网络和光流特征视觉里程计的实现方法
CN114935316B (zh) 基于光学跟踪与单目视觉的标准深度图像生成方法
CN111197976A (zh) 一种顾及弱纹理区域多阶段匹配传播的三维重建方法
CN112767481B (zh) 一种基于视觉边缘特征的高精度定位及建图方法
CN115063542A (zh) 一种几何不变量的预测和模型构建方法与系统
CN114863021A (zh) 一种基于三维重建场景的仿真数据集分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant