CN113160391B - 一种双阶段三维场景建模方法 - Google Patents
一种双阶段三维场景建模方法 Download PDFInfo
- Publication number
- CN113160391B CN113160391B CN202110484938.5A CN202110484938A CN113160391B CN 113160391 B CN113160391 B CN 113160391B CN 202110484938 A CN202110484938 A CN 202110484938A CN 113160391 B CN113160391 B CN 113160391B
- Authority
- CN
- China
- Prior art keywords
- model
- map
- time
- camera
- point cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000011084 recovery Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 230000008901 benefit Effects 0.000 claims abstract description 8
- 230000001360 synchronised effect Effects 0.000 claims abstract description 6
- 230000000007 visual effect Effects 0.000 claims abstract description 4
- 230000003287 optical effect Effects 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 2
- 238000006798 ring closing metathesis reaction Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000006872 improvement Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 230000007547 defect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种双阶段三维场景建模方法,属于计算机视觉范畴。包括:使用RGBD相机和单目相机同时采集RGB数据和深度数据,使用基于视觉同步定位与建图的三维重建算法和基于运动恢复结构的三维重建算法分别以不同的速度进行建模。第一阶段实时记录SLAM重建进度,进行图像帧配准、姿态估计和点云匹配,回环检测和模型融合,短时内生成较稀疏的重建模型,且可以帮助实时定位和导航,增强数据时序性;第二阶段通过大量高清RGB图像进行基于运动恢复结构的三维重建算法,生成稠密完整且细节丰富的重建模型。既保证了对短时内重建结果辅助定位的要求,具有时效性,又能提供高重建精度的稠密重建结果。
Description
技术领域
本发明属于三维成像领域,具体来说,是一种基于RGBD相机的室内动态场景的三维重建方法。
背景技术
同步定位与建图(SimultaneousLocalization andMapping,SLAM)技术的出现很好的解决了在智能机器人识图、建图和定位等领域的问题,利用搭载在机器人上的传感器(例如双目、单目相机)来获得外界信息,利用这些信息构建出地图,且对自身的位置和姿态进行估计。
RGBD相机则可以帮助做好更好的重建,因为带有可以获取深度信息的传感器,可以实时或保存良好的深度信息,再通过一些计算,更好地进行三维重建。
运动恢复结构(Structurefrom Motion,SFM)是一种从时间序列的2D图像中推算出3D信息的三维重建方法,好处是可以用尽可能多的图片,来进行特征匹配和对齐,而构建出更多细节的模型。
传统的SLAM方法优点是速度快,可以快速地算出结点并输出一个模型,但缺点也是不够精细,通常局限于深度相机的分辨率,导致与之对应的光学图像分辨率也不能太高;而SFM方法的优点是分辨率足够高,精度很高,但缺点是计算量大,需要非常多的匹配,且模型不好收敛,因此速度会很慢。
发明内容
本发明的目的是针对现有的三维重建方法在场景下出现的精度和时间不能同时保证的问题下提出了一种双阶段三维场景重建方法,是利用RGBD相机和光学相机对室内环境进行三维重建。
一种双阶段三维场景建模方法,三维重建方法所用的装置包括带有GPU的PC,RGBD相机及光学相机,具体步骤如下:
1)固定装置:将RGBD相机和光学相机固定在机器人上,能够平稳并流畅地采集数据;
2)标定RGBD相机和光学相机:得到RGBD相机的RGB内参和深度内参,两个相机的转移矩阵,光学相机的内参值;
3)采集场景图像:利用搭载机器人操作系统,载有Ubuntu系统的主机连接RGBD相机,采集每一帧RGB图像和深度图像,并通过时间戳将两者对齐,同时基于SLAM部分的即时定位和导航技术,采集具有时序性和连续性的光学图像,每一帧都是高清RGB图;
4)相机位姿估计:运行程序接收相机传来的场景图像,之后使用几何帧到模型的追踪来预测一个深度图,利用光学帧到模型的追踪,来预测色彩的模型面片,将几何位姿估计和光学位姿估计的方式联合起来,并最终通过优化损失函数的方式减少位姿估计带来的误差,以此来增加位姿的准确性,便于之后的重建,并且,使用位姿估计来使生成的点云在合适的位置,使用光学帧和几何帧结合的方式生成模型面片,利于之后的模型建立;
5)点云模型建立:使用一种嵌入式形变技术来做变形图,最终得到整个模型;
6)局部回环检测:这部分是为了优化相机位姿估计部分,在帧追踪和融合的同时,会设定一个时间阈值,只有生成时间离现在近的点云才会变成激活结点,其实只有激活结点参与计算,而之前生成但是超过了时间阈值的就是非激活节点,当非激活区域和激活区域之间已经近成一个回环时,这部分非激活区域的点则将继续变成激活结点,并且使用并计算他们的特征和匹配,使用高斯牛顿优化算法来对齐两个视角,如果它们的残差小于某个阈值,且内部测量次数高于某个阈值,则代表实现高质量的对齐,这时生成一组表面约束Q,这些约束将被送到变形图优化中,同时重新初始化这些面片(点云生成模型的一种表示形式)的时间戳,并进行新的相机位姿解析,在这一点上,一系列被对齐的面片重新激活,并进行实时相机跟踪并与现有的活动面片融合。这具有连续的帧到模型跟踪以及模型到模型跟踪的优点,该跟踪提供了视点不变的局部循环闭合;
7)全局回环检测:局部回环检测只能够处理激活结点和非激活结点相距低于一个我们设定的阈值的情况,如果相距太远的话,则需要进行全局回环检测,将近期活跃的部分和近期不活跃的部分进行表面紧致连接;
8)基于运动恢复结构的三维重建:使用经典运动恢复结构方法和深度学习的运动恢复结构方法来进行,输入为光学图像,流程为特征提取、特征匹配、增量式重建、输出点云模型,最终得到精细建模的结果;
9)由于前面基于同步定位与建图的方式生成的模型较快(可以达到实时的效果),但模型较为稀疏和模糊;而基于运动恢复结构生成的重建模型过程较慢,但最终更为清晰,因此同步定位与建图的方法实时生成一个稀疏模型,而之后基于运动恢复结构生成一个稠密且清晰的模型,此时,将精细建模结果直接替代掉同步定位与建图出的粗糙结果,得到最终的清晰结果,满足时效性和之后的清晰度。
优选的是,本发明步骤4)中,相机位姿估计包括如下步骤:
4.1)表面环闭合:使用光学帧和几何帧相结合的方式得到表面环,为确保重建地图中局部和全局表面的一致性,在模型面片集合中要有成功的表面环闭合,不能有巨大空洞,这个可以通过对面片的稀疏性进行判断,否则就直接放弃,而生成成功的表面换在后续的回环检测中提供约束。
4.2)定义时间窗口阈值:要定义一个时间窗口阈值t来区分面片是激活或非激活状态,只有激活状态的面片可以用来做姿态估计和深度图融合,当面片距上次更新的时间超过阈值,则转为非激活状态。
优选的是,本发明步骤5)中,点云模型建立包括如下步骤:
5.1)设立变形图:相机位姿估计之后,根据获得的点云来将其映射到模型之中,并且这个模型将点云的表示方式用成面片,这些面片组成变形图。每个变形图由一系列通过点云模型变形得来的结点和边组成,结点为点云的点,而边为点云之间的连接,每个结点有一个时间戳、一个位置和相邻结点集。相邻结点集之间组成边,本发明中为四个。
5.2)每一帧都构造了一组面片的新变形图,这样比在现有的图上增量地修改效率更高。并且每一个面片产生的变形图有着时间顺序,在计算图的连通性时使用G的时间顺序将结点依次连接,也可防止时间上不连续的地方相互影响。
5.3)优化变形图来更新面片地图,这时要确定每个面片周围会影响的结点集,在每个面片发生形变时,收集四个欧式时间(即时间上的欧式距离)最短的结点,并计算这些点的权重。
5.4)利用四个损失函数加权来进行优化建立点云模型,而这个表示形式为面片图。第一个是使用弗罗贝尼乌斯(Frobenius)范式来使地图刚性最大化,第二个是可确保整个图平滑变形的正则化项,第三个是约束项,减少当前结点造成太大的误差;第四个损失函数将模型的非活动区域“固定”在适当的位置,从而确保始终将模型的非活动区域变形为非活动的坐标系,减少当前时间激活结点和非激活结点直接造成的误差(即只在活动区域进行操作)。
优选的是,本发明步骤6)中,局部回环检测包括如下步骤:
6.1)具体方式:若在当前建模地图中有两组不相交的点云集,这两组点云集分别是之前检测到的非活动结点和最新的活动节点,并提取几何帧的icp特征来计算他们的特征和匹配,使用高斯牛顿优化算法来对齐两个点云集,如果通过算法得到它们的残差小于我们选取的差阈值,且内部测量次数高于我们选取的次数阈值,则代表实现高质量的对齐,这时生成一组表面约束Q,这些约束将被送到变形图优化中,同时重新初始化这些面片的时间戳,并进行新的相机位姿解析,在这一点上,一系列被对齐的面片重新激活,并进行实时相机跟踪并与现有的活动面片融合。
优选的是,本发明步骤7)中,全局回环检测包括如下步骤:
7.1)对特征进行编码:使用随机蕨编码方法将原始地图与实时摄影机视图对齐并融合后,使用表面地图的预测视图。
7.2)具体计算方式:进行全局回环操作之前,使用随机蕨编码方法将原始地图与实时摄影机视图对齐并融合后,要先看这两个视图对比的一致性条件,如果小于阈值,则代表我们的映射没有问题,不必使用变形和回环来改变模型。若大于阈值,说明当前生成的区域和之前的区域有了较大的差异,因此需要将优化变形图并分析高斯-牛顿系统的最终状态,以判断是否进行改变。如果优化后的对于整个变形图重建的损失小于我们规定的阈值,代表不会新增或减少模型太多,而总的变形损失也小于一定的阈值,代表形状没有太大改变,则接受闭环并将变形图应用于整个面片地图,得到相对变换矩阵H∈SE3,该矩阵使当前模型预测与匹配帧对齐。
优选的是,本发明步骤8)中,基于运动恢复结构的三维重建包括如下步骤:对我们的模型输入高清光学图片、基于SIFT算子进行特征提取、之后对于各个帧之间的特征使用RANSAC方式进行匹配、之后得到一个个对应点,这些对应点可以重建三维点云、不断读取图像获取点云并添加在前面的模型上进行增量式重建、最终输出三维模型。
优选的是,本发明步骤8)中,用于运动恢复结构的三维重建的图片受到同步定位与建图技术中即时定位和导航所影响,而有较好的时序性和连续性。
本发明通过将两种方法结合起来,既可以快速地得出一个稍粗糙但分辨清的模型,又可以通过SLAM的实时定位和导航功能,使得SFM方法中的数据也拥有较好的时序性和连续性,并且在之后进行优化和替换,最终得到精细的模型,补足了两者的缺陷。
附图说明
图1为本发明系统的流程示意图。
图2为本发明SLAM重建方式的具体流程图。
图3为本发明SFM重建的具体流程图。
图4(a)为本发明SLAM阶段重建效果示例1。
图4(b)为本发明SLAM阶段重建效果示例2。
图4(c)为本发明SLAM阶段重建效果示例3。
图4(d)为本发明SFM阶段重建效果示例1。
图4(e)为本发明SFM阶段重建效果示例2。
图4(f)为本发明SFM阶段重建效果示例3。
具体实施方式
本发明是通过以下技术方案来实现的:
如图1所示,本发明公开了一种双阶段三维场景建模方法,三维重建方法所用的装置主要包括带有GPU的PC,RGBD相机及光学相机,具体步骤如下:
1)固定装置:将RGBD相机和光学相机用较好的方式固定在机器人上(或手持),使其可以平稳并持续地采集数据;
2)标定RGBD相机和光学相机:得到RGBD相机的RGB内参和深度内参,还有两个相机的转移矩阵,还有光学相机的内参值;
3)采集场景图像:利用ROS连接RGBD相机,采集每一帧RGB图像和深度图像,并通过时间戳将两者对齐,同时采集光学图像,每一帧都是高清RGB图;
4)相机位姿估计:使用几何帧到模型的追踪来预测一个深度图,利用光学帧到模型的追踪,来预测色彩的模型面片,将几何位姿估计和光学位姿估计的方式联合起来,并最终通过优化损失函数的方式减少误差。
Etrack=Eicp+wrgbErgb,
其中,Etrack是联合之后的损失函数,Eicp是通过几何帧的迭代就近点(IterativeClosestPoint,ICP)特征提取得到的损失函数,Ergb,通过RGB帧的计算来最小化光学误差的损失函数,wrgb是权重,本发明中取0.1;
5)点云模型建立:使用一种嵌入式形变技术做变形图,最终得到整个模型;
6)局部回环检测:在帧追踪和融合时,只有激活结点参与计算,但当非激活区域和激活区域之间已经近成一个回环时,这些点则将继续变成激活结点,这具有连续的帧到模型跟踪以及模型到模型跟踪的优点,该跟踪提供了视点不变的局部循环闭合;
7)全局回环检测:局部回环检测只能够处理激活结点和非激活结点相距不太远的情况,如果相距太远的话,则需要进行全局回环检测,将活动模型和非活动模型进行表面紧致连接;
8)基于SFM的三维重建:输入高清图并通过运动恢复结构的方法,提取SIFT算子,使用RANSAC方式进行模型匹配,并使用增量式的方式将得到的点云加到模型上,最终得到更精细的结果;
9)在生成粗糙模型之后,基于SFM的三维重建将精细建模结果替代掉SLAM出的粗糙结果。
作为进一步地改进,本发明所述的步骤4)中,为确保重建地图中局部和全局表面的一致性,在面片集合中要有成功的表面环闭合,这些在后续的回环检测中提供约束。
作为进一步地改进,本发明所述的步骤4)中要定义一个时间窗口阈值t来区分面片是激活或非激活状态,只有激活状态的面片可以用来做姿态估计和深度图融合,当面片距上次更新的时间超过阈值,则转为非激活状态。
作为进一步地改进,在步骤5)中,每个变形图由一系列通过模型变形得来的结点和边组成,每个结点有一个时间戳、一个位置和相邻结点集。相邻结点集之间组成边,本发明中为四个。
作为进一步地改进,在步骤5)中,每一帧都构造了一组面片的新变形图,这样比在现有的变形图上增量地修改效率更高。并且每一个面片产生的变形图有着时间顺序,在计算图的连通性时使用G的时间顺序将结点依次连接,也可防止时间上不连续的地方相互影响。
作为进一步地改进,在步骤5)中优化变形图来更新面片地图,这时要确定每个面片周围会影响的结点集,在每个面片发生变形时,收集四个欧式时间(即时间上的欧式距离)最短的结点,并计算这些点的权重。
作为进一步的改进,在步骤5)中利用四个损失函数加权来进行优化建图。第一个是使用弗罗贝尼乌斯范式来使地图刚性最大化,第二个是可确保整个图平滑变形的正则化项,第三个是约束项,减少当前结点造成太大的误差;第四个损失函数将模型的非活动区域“固定”在适当的位置,从而确保始终将模型的非活动区域变形为非活动的坐标系,减少当前时间激活结点和非激活结点直接造成的误差(即只在活动区域进行操作)。
Edef=wrotErot+wregEreg+wconEcon+wconEpin
其中,Erot为使用弗罗贝尼乌斯范式来约束模型最大化刚性,Ereg是确保整个图形平滑变形的正则化项,Econ是为了减少位置约束集上的误差的约束项,Epin是将非活动区域固定的约束项,相应的w为其各自的权重。
作为进一步地改进,在步骤6)中,局部回环检测的具体方式为在地图中有两组不相交的点集,并计算他们的特征和匹配,使用高斯牛顿优化算法来对齐两个视角,如果它们的残差小于某个阈值,且内部测量次数高于某个阈值,则代表实现高质量的对齐,这时生成一组表面约束Q,这些约束将被送到变形图优化中,同时重新初始化这些面片的时间戳,并进行新的相机位姿解析,在这一点上,一系列被对齐的面片重新激活,并进行实时相机跟踪并与现有的活动面片融合。
作为进一步地改进,在步骤7)中,使用随机蕨编码方法将原始地图与实时摄影机视图对齐并融合后,使用表面地图的预测视图。
作为进一步地改进,在步骤7)中,进行全局回环操作之前,要先计算匹配差,如果小于阈值,则不必使用变形和回环来改变模型。若达到条件,将优化变形图并分析高斯-牛顿系统的最终状态,以判断是否进行改变。如果优化后的重建损失足够小,而总的变形损失也很小,则接受闭环并将变形图应用于整个面片地图,得到相对变换矩阵H∈SE3,该矩阵使当前模型预测与匹配帧对齐。
作为进一步地改进,在步骤7)中,和步骤6)局部回环不同的是,非激活的结点在此不作重新激活,因为如果全局回环对齐正确,则下一帧会触发局部循环闭合;如果不正确,则不重新激活也允许地图从不正确的全局回环之中恢复正常。如果跟踪失败,则通过编码数据库来全局重新定位。
作为进一步地改进,在步骤8)中,如图3所示,本发明的步骤为:输入高清图到重建程序中、使用SIFT对图片进行特征提取、使用RANSAC方法进行特征匹配、将匹配后的点云对于模型进行增量式重建、输出三维模型。
作为进一步地改进,在步骤8)中,用于SFM的三维重建的图片受到SLAM中即时定位和导航所影响,而有较好的时序性和连续性。
本发明的一种双阶段三维场景建模方法,三维重建方法所用的固定装置主要包括带有GPU的PC,RGBD相机及光学相机。
固定装置:将RGBD相机和光学相机用较好的方式固定在机器人上(显然,手持或用无人车也可以),使其可以远程操作、平稳并合适地采集数据;
标定RGBD相机和光学相机:如图1所示,得到RGBD相机的RGB相机内参和深度相机内参,还有两个相机的转移矩阵,还有光学相机的内参值。
采集场景图像:利用ROS连接RGBD相机,采集每一帧RGB图像和深度图像,并通过时间戳将两者对齐,同时采集光学图像,每一帧都是高清RGB图。且在此过程中,SLAM方法具有实时定位和导航的效果,因此可以辅助到图片采集;
基于SLAM方法,如图2所示,流程为:输入RGBD图像、相机位姿估计、点云模型建立、局部回环检测、全局回环检测、输出重建模型。
在本发明的SLAM方法中,相机位姿估计部分使用几何帧到模型的追踪来预测一个深度图,利用光学帧到模型的追踪,来预测色彩的模型面片,将几何位姿估计和光学位姿估计的方式联合起来,并通过优化损失函数的方式减少误差。
相机位姿估计中,为确保重建地图中局部和全局表面的一致性,在面片集合中要有成功的表面环闭合,这些在后续的回环检测中提供约束。
相机位姿估计中,本发明定义一个时间窗口阈值t来区分面片是激活或非激活状态,只有激活状态的面片可以用来做姿态估计和深度图融合,当面片距上次更新的时间超过阈值,则转为非激活状态。
在本发明的SLAM方法中,点云模型建立部分使用一种嵌入式形变技术来做变形图,最终得到整个模型。
点云模型建立中,使用变形图来构建,每个变形图由一系列通过点云模型变形得来的结点和边组成,每个结点有一个时间戳、一个位置和相邻结点集。相邻结点集之间组成边,本发明选择四个。
点云模型建立中,每一帧都构造了一组面片的新变形图,这样比在现有的变形图上增量地修改效率更高。并且每一个面片产生的变形图有着时间顺序,在计算图的连通性时使用G的时间顺序将结点依次连接,也可防止时间上不连续的地方相互影响。
点云模型建立中,优化变形图来更新面片地图,这时要确定每个面片周围会影响的结点集,在每个面片发生变形时,收集四个欧式时间(即时间上的欧式距离)最短的结点,并计算这些点的权重。
点云模型建立中,利用四个损失函数加权来进行优化建图。第一个是使用弗罗贝尼乌斯范式使地图刚性最大化,第二个是可确保整个图平滑变形的正则化项,第三个是约束项,减少当前结点造成太大的误差;第四个损失函数将模型的非活动区域“固定”在适当的位置,从而确保始终将模型的非活动区域变形为非活动的坐标系,减少当前时间激活结点和非激活结点直接造成的误差(即只在活动区域进行操作)。
在本发明的SLAM方法中,局部回环检测部分,在帧追踪和融合时,只有激活结点参与计算,但当非激活区域和激活区域之间已经近成一个回环时,这些点则将继续变成激活结点,这具有连续的帧到模型跟踪以及模型到模型跟踪的优点,该跟踪提供了视点不变的局部循环闭合。
局部回环检测中,局部回环检测的具体方式为在地图中有两组不相交的点集,并计算他们的特征和匹配,使用高斯牛顿优化算法来对齐两个视角,如果它们的残差小于某个阈值,且内部测量次数高于某个阈值,则代表实现高质量的对齐,这时生成一组表面约束Q,这些约束将被送到变形图优化中,同时重新初始化这些面片的时间戳,并进行新的相机位姿解析,在这一点上,一系列被对齐的面片重新激活,并进行实时相机跟踪并与现有的活动面片融合。
在本发明的SLAM方法中,由于局部回环检测只能够处理激活结点和非激活结点相距不太远的情况,如果相距太远的话,则需要进行更好的匹配,将活动模型和非活动模型进行表面紧致连接,因此本发明加入了全局回环检测部分
在全局回环检测中,使用随机蕨编码方法将原始地图与实时摄影机视图对齐并融合后,使用表面地图的预测视图。
在全局回环检测中,进行全局回环操作之前,要先计算匹配差,如果小于阈值,则不必使用变形和回环来改变模型。若达到条件,将优化变形图并分析高斯-牛顿系统的最终状态,以判断是否进行改变。如果优化后的重建损失足够小,而总的变形损失也很小,则接受闭环并将变形图应用于整个面片地图,得到相对变换矩阵H∈SE3,该矩阵使当前模型预测与匹配帧对齐。
基于SFM的三维重建中,如图3所示,流程为:输入高清图到重建程序中、使用SIFT对图片进行特征提取、使用RANSAC方法进行特征匹配、将匹配后的点云对于模型进行增量式重建、输出三维模型,并且优点在于,受到SLAM中即时定位和导航的影响,收到的数据具有较好的时序性和连续性,有利于建出效果更好的模型。
本发明的重建效果如图4所示,其中,(a)、(b)、(c)为SLAM阶段生成的重建模型,因为深度图的分辨率输入限制,点云较为稀疏模糊;(d)、(e)、(f)为SFM阶段的重建模型,输入图较清晰,且受到SLAM阶段定位与导航的影响,输入数据有较好的时序性,可以看出,最终生成的模型更为清晰和稠密。
Claims (7)
1.一种双阶段三维场景建模方法,其特征在于,三维重建方法所用的装置包括带有GPU的PC,RGBD相机及光学相机,具体步骤如下:
1)固定装置:将RGBD相机和光学相机固定在机器人上,能够平稳并流畅地采集数据;
2)标定RGBD相机和光学相机:得到RGBD相机的RGB内参和深度内参,两个相机的转移矩阵,光学相机的内参值;
3)采集场景图像:利用搭载机器人操作系统,载有Ubuntu系统的主机连接RGBD相机,采集每一帧RGB图像和深度图像,并通过时间戳将两者对齐,同时基于SLAM部分的即时定位和导航技术,采集具有时序性和连续性的光学图像,每一帧都是高清RGB图;
4)相机位姿估计:运行程序接收相机传来的场景图像,之后使用几何帧到模型的追踪来预测一个深度图,利用光学帧到模型的追踪,来预测色彩的模型面片,将几何位姿估计和光学位姿估计的方式联合起来,并最终通过优化损失函数的方式减少位姿估计带来的误差,以此来增加位姿的准确性,便于之后的重建,并且,使用位姿估计来使生成的点云在合适的位置,使用光学帧和几何帧结合的方式生成模型面片,利于之后的模型建立;
5)点云模型建立:使用一种嵌入式形变技术来做变形图,最终得到整个模型;
6)局部回环检测:这部分是为了优化相机位姿估计部分,在帧追踪和融合的同时,会设定一个时间阈值,只有生成时间离现在近的点云才会变成激活结点,其实只有激活结点参与计算,而之前生成但是超过了时间阈值的就是非激活节点,当非激活区域和激活区域之间已经近成一个回环时,这部分非激活区域的点则将继续变成激活结点,并且使用并计算他们的特征和匹配,使用高斯牛顿优化算法来对齐两个视角,如果它们的残差小于某个阈值,且内部测量次数高于某个阈值,则代表实现高质量的对齐,这时生成一组表面约束Q,这些约束将被送到变形图优化中,同时重新初始化这些面片的时间戳,并进行新的相机位姿解析,在这一点上,一系列被对齐的面片重新激活,并进行实时相机跟踪并与现有的活动面片融合;这具有连续的帧到模型跟踪以及模型到模型跟踪的优点,该跟踪提供了视点不变的局部循环闭合;
7)全局回环检测:局部回环检测只能够处理激活结点和非激活结点相距低于一个我们设定的阈值的情况,如果相距太远的话,则需要进行全局回环检测,将近期活跃的部分和近期不活跃的部分进行表面紧致连接;
8)基于运动恢复结构的三维重建:使用经典运动恢复结构方法和深度学习的运动恢复结构方法来进行,输入为光学图像,流程为特征提取、特征匹配、增量式重建、输出点云模型,最终得到精细建模的结果;
9)由于前面基于同步定位与建图的方式生成的模型较快,但模型较为稀疏和模糊;而基于运动恢复结构生成的重建模型过程较慢,但最终更为清晰,因此同步定位与建图的方法实时生成一个稀疏模型,而之后基于运动恢复结构生成一个稠密且清晰的模型,此时,将精细建模结果直接替代掉同步定位与建图出的粗糙结果,得到最终的清晰结果,满足时效性和之后的清晰度。
2.根据权利要求1所述的双阶段三维场景建模方法,其特征在于,所述的步骤4)中,相机位姿估计包括如下步骤:
4.1)表面环闭合:使用光学帧和几何帧相结合的方式得到表面环,为确保重建地图中局部和全局表面的一致性,在模型面片集合中要有成功的表面环闭合,不能有巨大空洞,通过对面片的稀疏性进行判断,否则就直接放弃,而生成成功的表面换在后续的回环检测中提供约束;
4.2)定义时间窗口阈值:要定义一个时间窗口阈值t来区分面片是激活或非激活状态,只有激活状态的面片可以用来做姿态估计和深度图融合,当面片距上次更新的时间超过阈值,则转为非激活状态。
3.根据权利要求1中所述的双阶段三维场景建模方法,其特征在于,所述的步骤5)中,点云模型建立包括如下步骤:
5.1)设立变形图:相机位姿估计之后,根据获得的点云来将其映射到模型之中,并且这个模型将点云的表示方式用成面片,这些面片组成变形图;每个变形图由一系列通过点云模型变形得来的结点和边组成,结点为点云的点,而边为点云之间的连接,每个结点有一个时间戳、一个位置和相邻结点集;相邻结点集之间组成边;
5.2)每一帧都构造了一组面片的新变形图,这样比在现有的图上增量地修改效率更高;并且每一个面片产生的变形图有着时间顺序,在计算图的连通性时使用G的时间顺序将结点依次连接,也可防止时间上不连续的地方相互影响;
5.3)优化变形图来更新面片地图,这时要确定每个面片周围会影响的结点集,在每个面片发生形变时,收集四个欧式时间最短的结点,并计算这些点的权重;
5.4)利用四个损失函数加权来进行优化建立点云模型,而这个表示形式为面片图;第一个是使用弗罗贝尼乌斯范式来使地图刚性最大化,第二个是可确保整个图平滑变形的正则化项,第三个是约束项,减少当前结点造成太大的误差;第四个损失函数将模型的非活动区域“固定”在适当的位置,从而确保始终将模型的非活动区域变形为非活动的坐标系,减少当前时间激活结点和非激活结点直接造成的误差。
4.根据权利要求1中所述的双阶段三维场景建模方法,其特征在于,所述的步骤6)中,局部回环检测包括如下步骤:
6.1)具体方式:若在当前建模地图中有两组不相交的点云集,这两组点云集分别是之前检测到的非活动结点和最新的活动节点,并提取几何帧的icp特征来计算他们的特征和匹配,使用高斯牛顿优化算法来对齐两个点云集,如果通过算法得到它们的残差小于我们选取的差阈值,且内部测量次数高于我们选取的次数阈值,则代表实现高质量的对齐,这时生成一组表面约束Q,这些约束将被送到变形图优化中,同时重新初始化这些面片的时间戳,并进行新的相机位姿解析,在这一点上,一系列被对齐的面片重新激活,并进行实时相机跟踪并与现有的活动面片融合。
5.根据权利要求1中所述的双阶段三维场景建模方法,其特征在于,所述的步骤7)中,全局回环检测包括如下步骤:
7.1)对特征进行编码:使用随机蕨编码方法将原始地图与实时摄影机视图对齐并融合后,使用表面地图的预测视图;
7.2)具体计算方式:进行全局回环操作之前,使用随机蕨编码方法将原始地图与实时摄影机视图对齐并融合后,要先看这两个视图对比的一致性条件,如果小于阈值,则代表我们的映射没有问题,不必使用变形和回环来改变模型;若大于阈值,说明当前生成的区域和之前的区域有了较大的差异,因此需要将优化变形图并分析高斯-牛顿系统的最终状态,以判断是否进行改变;如果优化后的对于整个变形图重建的损失小于我们规定的阈值,代表不会新增或减少模型太多,而总的变形损失也小于一定的阈值,代表形状没有太大改变,则接受闭环并将变形图应用于整个面片地图,得到相对变换矩阵H∈SE3,该矩阵使当前模型预测与匹配帧对齐。
6.根据权利要求1中所述的双阶段三维场景建模方法,其特征在于,所述的步骤8)中,基于运动恢复结构的三维重建包括如下步骤:对我们的模型输入高清光学图片、基于SIFT算子进行特征提取、之后对于各个帧之间的特征使用RANSAC方式进行匹配、之后得到一个个对应点,这些对应点可以重建三维点云、不断读取图像获取点云并添加在前面的模型上进行增量式重建、最终输出三维模型。
7.根据权利要求1中所述的双阶段三维场景建模方法,其特征在于,所述的步骤8)中,用于运动恢复结构的三维重建的图片受到同步定位与建图技术中即时定位和导航所影响,而有较好的时序性和连续性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110484938.5A CN113160391B (zh) | 2021-04-30 | 2021-04-30 | 一种双阶段三维场景建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110484938.5A CN113160391B (zh) | 2021-04-30 | 2021-04-30 | 一种双阶段三维场景建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113160391A CN113160391A (zh) | 2021-07-23 |
CN113160391B true CN113160391B (zh) | 2022-11-08 |
Family
ID=76873161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110484938.5A Active CN113160391B (zh) | 2021-04-30 | 2021-04-30 | 一种双阶段三维场景建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160391B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643346A (zh) * | 2021-07-28 | 2021-11-12 | 杭州易现先进科技有限公司 | 场景重建方法和扫描设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087394A (zh) * | 2018-08-02 | 2018-12-25 | 福州大学 | 一种基于低成本rgb-d传感器的实时室内三维重建方法 |
CN112435325A (zh) * | 2020-09-29 | 2021-03-02 | 北京航空航天大学 | 基于vi-slam和深度估计网络的无人机场景稠密重建方法 |
-
2021
- 2021-04-30 CN CN202110484938.5A patent/CN113160391B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087394A (zh) * | 2018-08-02 | 2018-12-25 | 福州大学 | 一种基于低成本rgb-d传感器的实时室内三维重建方法 |
CN112435325A (zh) * | 2020-09-29 | 2021-03-02 | 北京航空航天大学 | 基于vi-slam和深度估计网络的无人机场景稠密重建方法 |
Non-Patent Citations (1)
Title |
---|
基于半直接法SLAM的大场景稠密三维重建系统;徐浩楠等;《模式识别与人工智能》;20180515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113160391A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427877B (zh) | 一种基于结构信息的人体三维姿态估算的方法 | |
Wang et al. | Learning depth from monocular videos using direct methods | |
JP7177062B2 (ja) | 統計モデルを用いた画像データからの深度予測 | |
CN109087329B (zh) | 基于深度网络的人体三维关节点估计框架及其定位方法 | |
CN109671120A (zh) | 一种基于轮式编码器的单目slam初始化方法及系统 | |
CN111209915A (zh) | 一种基于深度学习的三维图像同步识别和分割方法 | |
CN112750198B (zh) | 一种基于非刚性点云的稠密对应预测方法 | |
CN111062326B (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
WO2024045632A1 (zh) | 基于双目视觉和imu的水下场景三维重建方法及设备 | |
CN111862299A (zh) | 人体三维模型构建方法、装置、机器人和存储介质 | |
CN113506342B (zh) | 一种基于多相机全景视觉的slam全向回环校正方法 | |
US11195297B2 (en) | Method and system for visual localization based on dual dome cameras | |
CN111899280A (zh) | 采用深度学习和混合型位姿估计的单目视觉里程计方法 | |
CN112183506A (zh) | 一种人体姿态生成方法及其系统 | |
CN110706269A (zh) | 一种基于双目视觉slam的动态场景密集建模方法 | |
CN111860651A (zh) | 一种基于单目视觉的移动机器人半稠密地图构建方法 | |
CN113160391B (zh) | 一种双阶段三维场景建模方法 | |
CN116772820A (zh) | 一种基于slam和语义分割的局部细化建图系统及方法 | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 | |
CN112991400A (zh) | 一种无人艇的多传感器辅助定位方法 | |
CN116698012A (zh) | 一种基于密集约束和图优化的离线地图构建方法 | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN114399547B (zh) | 一种基于多帧的单目slam鲁棒初始化方法 | |
CN115131404A (zh) | 基于运动估计深度的单目3d检测方法 | |
CN114863021A (zh) | 一种基于三维重建场景的仿真数据集分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |