CN118071932A - 一种三维静态场景图像重建方法及系统 - Google Patents
一种三维静态场景图像重建方法及系统 Download PDFInfo
- Publication number
- CN118071932A CN118071932A CN202410277179.9A CN202410277179A CN118071932A CN 118071932 A CN118071932 A CN 118071932A CN 202410277179 A CN202410277179 A CN 202410277179A CN 118071932 A CN118071932 A CN 118071932A
- Authority
- CN
- China
- Prior art keywords
- scene image
- static scene
- dynamic
- information
- dimensional static
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003068 static effect Effects 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000011218 segmentation Effects 0.000 claims description 20
- 230000005855 radiation Effects 0.000 claims description 17
- 230000003287 optical effect Effects 0.000 claims description 16
- 230000001537 neural effect Effects 0.000 claims description 13
- 238000009877 rendering Methods 0.000 claims description 10
- 210000005036 nerve Anatomy 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 abstract description 12
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000013507 mapping Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 102000008115 Signaling Lymphocytic Activation Molecule Family Member 1 Human genes 0.000 description 3
- 108010074687 Signaling Lymphocytic Activation Molecule Family Member 1 Proteins 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种三维静态场景图像重建方法及系统。该方法包括:获取动态环境中使用移动摄像机采集的视频;根据所述视频基于DROID‑SLAM检测运动对象,得到动态掩码;根据所述动态掩码,获取关键帧信息和相机姿态估计信息;根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像。本发明能够在动态环境中有效降低视觉SLAM系统的轨迹误差,同时提升其地图生成的密集度和精细度。
Description
技术领域
本发明涉及静态场景图像重建领域,特别是涉及一种三维静态场景图像重建方法及系统。
背景技术
同步定位与地图构建(SLAM)技术在空间定位中发挥着至关重要的作用,它能获取环境信息并构建地图,同时确定自身在空间中的位置和姿态。在计算机视觉领域,密集视觉SLAM作为一项基本挑战,致力于实现详尽且完整的环境再现,涵盖丰富的纹理和颜色信息。该技术被广泛应用于自动驾驶、机器人技术以及虚拟/增强现实等多个领域,其核心目标是在近似估计相机姿态的同时,精确地构建未知环境的3D地图。该技术旨在通过近似相机姿态的同时,实现对未知环境的3D地图构建,为各种应用提供准确的空间定位和场景感知信息。
传统的视觉SLAM系统在设计和运行时往往基于静态环境的假设,这使得它们在面对动态对象时难以维持稳定和精确的定位与映射功能。此外,尽管传统视觉SLAM系统高度重视定位精度,但其生成的地图往往相对粗略,缺乏细节。
发明内容
本发明提供一种三维静态场景图像重建方法及系统,能够在动态环境中有效降低视觉SLAM系统的轨迹误差,同时提升其地图生成的密集度和精细度。
为实现上述目的,本发明提供了如下方案:
一种三维静态场景图像重建方法包括:
获取动态环境中使用移动摄像机采集的视频;
根据所述视频基于DROID-SLAM检测运动对象,得到动态掩码;
根据所述动态掩码,获取关键帧信息和相机姿态估计信息;
根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像。
可选地,所述根据所述视频基于DROID-SLAM,得到动态掩码,具体包括:
在DROID-SLAM基础上,根据所述视频结合语义分割和连续帧的光流检测运动对象,得到动态掩码。
可选地,所述根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像,具体包括:
根据所述动态掩码、关键帧信息和相机姿态估计信息基于神经辐射场和截断有符号距离场,建立三维静态场景图像。
可选地,所述根据所述动态掩码、关键帧信息和相机姿态估计信息基于神经辐射场和截断有符号距离场,建立三维静态场景图像,具体包括:
根据所述动态掩码进行预测,得到二值掩码;
迭代更新当前帧的姿势和深度,根据关键帧和相机姿态估计信息,将每个点依据神经辐射场投影到粗特征平面和细特征平面上,进行粗重建和细重建,基于截断有符号距离场的渲染过程估计每个像素的深度和颜色,得到深度信息和颜色信息;
根据所述深度信息、颜色信息和二值掩码,得到三维静态场景图像。
一种三维静态场景图像重建系统包括:
视频获取模块,用于获取动态环境中使用移动摄像机采集的视频;
动态掩码确定模块,用于根据所述视频基于DROID-SLAM检测运动对象,得到动态掩码;
关键帧信息和相机姿态估计信息获取模块,用于根据所述动态掩码,获取关键帧信息和相机姿态估计信息;
三维静态场景图像确定模块,用于根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像。
可选地,所述动态掩码确定模块,具体包括:
动态掩码确定单元,用于在DROID-SLAM基础上,根据所述视频结合语义分割和连续帧的光流检测运动对象,得到动态掩码。
可选地,所述三维静态场景图像确定模块,具体包括:
三维静态场景图像确定单元,用于根据所述动态掩码、关键帧信息和相机姿态估计信息基于神经辐射场和截断有符号距离场,建立三维静态场景图像。
可选地,所述三维静态场景图像确定单元,具体包括:
二值掩码确定子单元,用于根据所述动态掩码进行预测,得到二值掩码;
深度信息和颜色信息确定子单元,用于迭代更新当前帧的姿势和深度,根据关键帧和相机姿态估计信息,将每个点依据神经辐射场投影到粗特征平面和细特征平面上,进行粗重建和细重建,基于截断有符号距离场的渲染过程估计每个像素的深度和颜色,得到深度信息和颜色信息;
三维静态场景图像确定子单元,用于根据所述深度信息、颜色信息和二值掩码,得到三维静态场景图像。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种三维静态场景图像重建方法,该方法包括:获取动态环境中使用移动摄像机采集的视频;根据所述视频基于DROID-SLAM检测运动对象,得到动态掩码;根据所述动态掩码,获取关键帧信息和相机姿态估计信息;根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像。本发明能够在动态环境中有效降低视觉SLAM系统的轨迹误差,同时提升其地图生成的密集度和精细度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为系统总体框架图;
图2为本发明三维静态场景图像重建方法流程图;
图3为动态对象检测图;
图4为DROID-SLAM和本发明在部分序列上的ATE结果比较示意图,其中,图4(a)、(b)为DROID-SLAM和本发明在TUMRGB-D部分序列上的ATE结果比较示意图,图4(c)、(d)为DROID-SLAM和本发明在BONNRGB-D部分序列上的ATE结果比较示意图;
图5为本发明三维静态场景图像重建系统结构图;
图6为本发明在TUM数据集部分序列上的三维重建效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种三维静态场景图像重建方法及系统,能够在动态环境中有效降低视觉SLAM系统的轨迹误差,同时提升其地图生成的密集度和精细度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一:
神经辐射场(NeRF)在密集视觉同步定位和映射(SLAM)领域已经展现出令人瞩目的性能。在这一领域,Imap开创性地将NeRF用作SLAM地图表示,并成功演示了如何在没有姿态信息的情况下,仅凭RGB-D图像实现精确的三维场景重建。此外,NICE-SLAM通过采用分层结构和占用网络,实现了有效的跟踪和地图构建,为该领域的发展注入了新的活力。Orbeez-SLAM使用ORB-SLAM2提供初始位姿,提供了无需预训练的快速NERF-SLAM,ESLAM利用神经辐射场研究的最新进展来提高基于神经隐式的SLAM系统的速度和准确性,但是这些方法都难以适应动态环境,在动态环境下的定位精度和3D重建效果较差。密集SLAM结合了语义分割和光流,提高了动态环境下相机定位的鲁棒性,并将神经辐射场(NeRF)和截断有符号距离场(TSDF)的相关研究纳入SLAM系统,聚焦于静态区域密集地图的建立。
在本发明之前进行了以下相关工作:
1.动态环境下的视觉SLAM系统
在SLAM系统的常规运作中,它们往往假定场景内的物体是静止不动的。但是,动态物体的出现会打破这一假设,改变场景的几何形态,进而可能导致SLAM在构建地图时产生偏差,影响其对场景的整体理解。为了提高SLAM在动态环境中的精确性和稳定性,需要采取有效措施来检测和过滤掉动态特征,以避免这些特征对系统产生不良影响。
近年来,视觉SLAM系统在动态环境下的鲁棒性问题成为了众多研究的热点。研究者们纷纷围绕这一主题,深入探讨如何在动态环境中提升SLAM系统的稳定性和准确性。DynaSLAM采用了深度学习的方式,将语义分割网络与ORB-SLAM2相结合,增加了动态目标检测和背景绘制功能,有效降低动态环境下的轨迹误差。
Blitz-SLAM基于深度信息修复BlitzNet的掩码,并采用极线约束来对潜在的动态区域进行分类,区分出静态和动态匹配点。Jietal.(TRS)在处理流程中,仅对关键帧执行语义分割任务,并对深度图像数据进行聚类分析。借助重投影误差的融入,辨识场景中的动态物体。CFP-SLAM基于目标检测,结合语义和几何约束,计算物体、关键点及地图点的静态概率,并以其为权重优化相机位姿估计。
2.稠密SLAM
稠密SLAM旨在构建精确且连续的环境地图,提供更加丰富的场景细节。稀疏视觉SLAM算法估计准确的相机姿态,并且只有稀疏点云作为地图表示,但密集视觉SLAM方法专注于恢复场景的密集地图。
DTAM通过使用与稀疏PTAM相同的范式来实现密集SLAM,DTAM保持了对关键帧的稠密深度映射。为了减少深度变量的数量,CodeSLAM反而优化了从图像推断深度图的自动编码器的潜在变量。DroidSLAM表明,通过将最先进的密集光流估计架构应用于视觉里程计问题,通过使用下采样的深度图来避免维度问题,下采样深度图随后使用学习的上采样算子进行上采样。实现稠密的建图。
3.神经隐式三维重建。
神经辐射场的相关研究中,大多数认为相机的姿势是已知的,位姿一般由COLMAP提供,消除其对部分已知相机姿态的依赖是一个值得探讨的问题。这对于NeRF的构建尤其具有吸引力。近期的一些研究尝试将SLAM与NeRF相结合,联合优化神经辐射场和相机位姿,降低对特定姿态信息的依赖。
IMAP引入了一种类似NeRF的密集SLAM系统。在此基础上,NICE-SLAM引入分层场景表示,利用对空间进行体积划分的学习,通过采用体素网格特征进行场景建模,扩展了iMAP的功能。Nicer-SLAM通过引入局部自适应的SDF体积密度变换技术,对相机姿态和分层神经隐式地图表示进行了精细化优化,从而实现了在室内环境下对场景的细致重建。ESLAM采用了基于紧凑平面的特征,这些特征被直接解码为TSDF,提高了定位和重的效率和准确性。他们的工作更加注重于对静态场景的定位与重建,会受动态场景的影响导致定位精度和重建质量的下降。
总的来说,本发明更加关注动态场景的存在,提高系统在动态场景下的定位,同时又结合了神经隐式三维重建的方法生成了稠密地图,在建立密集地图时减少动态环境影响,对场景中的静态区域进行表示。
图1输入的是在动态环境中使用移动摄像机拍摄的视频,并且不知道它的姿势。目的是沿动态输入估计相机姿势以及建立一个静态场景3D表示。本发明基于DROID-SLAM,结合语义分割和连续帧的光流来检测运动对象,从而得到动态掩码,去除动态干扰后进行SLAM跟踪获得估计位姿。采用基于特征平面的3D重建方法,结合关键帧、动态掩码和预测的相机姿态建立静态场景3D表示。
对图1进行概述:建立在DROID-SLAM的基础上,使用RGB-D图像作为系统输入,采用动态掩模预测获得二值掩模,迭代更新当前帧的位姿和深度,通过全局光束调整生成全局一致的位姿,映射线程根据关键帧和位姿信息将每个点投影到粗、精特征平面上,进行粗、精重建。通过基于sdf的渲染过程估计每个像素的深度和颜色,结合动态二进制掩模,去除动态点并生成静态场景的3D表示。
图2为本发明三维静态场景图像重建方法流程图。如图2所示,本发明提供一种三维静态场景图像重建方法,该方法包括:
步骤101:获取动态环境中使用移动摄像机采集的视频;
步骤102:根据所述视频基于DROID-SLAM检测运动对象,得到动态掩码。
该步骤具体包括:
在DROID-SLAM基础上,根据所述视频结合语义分割和连续帧的光流检测运动对象,得到动态掩码。
运动蒙版常用于排除场景中的动态区域,有助于提高摄像机姿态估计的鲁棒性。语义分割能将图像分割成多个语义类别,并为每个像素分配对应的标签,完成细致的像素级别的分割。如图1所示,使用语义分割MASKRCNN来分割出具有潜在运动的物体,屏蔽常见的运动对象,如人,箱子等,使用ResNet作为骨干网络,并且采用了特征金字塔网络(FPN)来增强特征提取能力,从而更好地识别不同尺度和大小的目标。为了估计具有运动特征的物体并且检测一些不易于被语义分割网络检测的动态对象,如流水等,使用了RAFT来获取连续帧之间的光流来估计基本矩阵,通过基本矩阵计算出图像中一个点到另一个图像中的对应点的线(极线),计算了每个像素到估计的极线的距离(Sampson误差),以获得二进制运动掩码,最后将语义分割的结果与极距阈值法相结合,得到最终的运动掩模。图3为在bonn-balloon上的分割结果,可见语义分割得到了人的掩码,但是气球未被分割出来,而我们通过光流得到了气球的运动信息,最终在动态掩码中同时分割得到了人和气球,可见本发明的方法是有效的。将运动掩码应用于系统的跟踪部分,潜在的动态像素将不会被考虑用于优化,以此来减少动态对象对系统定位的影响。
采用语义分割得到了潜在运动的对象,结合光流得到最终的动态掩码,排除动态的干扰,实现在动态环境中对相机路径的稳健跟踪。
步骤103:根据所述动态掩码,获取关键帧信息和相机姿态估计信息;
该步骤具体包括:
基于DROID-SLAM进行位姿估计,DROID-SLAM提出可微密集束调整(DBA)层,致力于解决在每次迭代过程中一组关键帧的密集束调整难题,从而得到与之对应的姿态G和深度d:
其中(i,j)∈ε表示关键帧图中的任意一条边,为估计的光流,Gij是姿态Gi和姿态Gj之间的运动,pi和di分别表示第i帧的像素网格和深度逆图。∑ij=diag(wij)是用RAFT法计算光流的置信度wij加权,对误差项进行加权的Mahalanobis距离。在此框架上,在SLAM估计位姿过程中采取了优化,按照GO-SLAM的方法,建立关键帧图,主动执行高效的闭环,并且在一个单独的线程中在线运行完整的BA,为全局束调整构建所有已创建关键帧之间的关键帧图,使用密集束调整层进行姿态和深度优化。并且在这基础上引入动态掩码,根据二值运动掩码,潜在的动态像素将不会被考虑用于优化。
步骤104:根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像。
该步骤具体包括:
根据所述动态掩码、关键帧信息和相机姿态估计信息基于神经辐射场和截断有符号距离场,建立三维静态场景图像。
进一步,上述步骤具体包括:
根据所述动态掩码进行预测,得到二值掩码;
迭代更新当前帧的姿势和深度,根据关键帧和相机姿态估计信息,将每个点依据神经辐射场投影到粗特征平面和细特征平面上,进行粗重建和细重建,基于截断有符号距离场的渲染过程估计每个像素的深度和颜色,得到深度信息和颜色信息;
根据所述深度信息、颜色信息和二值掩码,得到三维静态场景图像。
神经辐射场作为一种具有隐式场景表示的新型视场合成技术,通过训练一系列不同视点的2D图像来重建3D场景。一些基于体素网格的NeRF架构表现出快速收敛,但是在立方体内存增长方面存在困难,缓解内存增长问题是一个关键的问题,受到ESLAM的启发,采用特征平面的方式进行静态场景的表示。使用三平面结构,并且分为粗和细两个尺度,即使用三个粗特征平面和三个精细特征平面来表示几何形状,粗级表示允许用更少的样本点和优化迭代有效地重建自由空间,精细级表示可以进行更精细的场景表示,使用这种架构可以防止模型大小随着时间的增长而呈立方体增长。
根据输入帧,仿照NeRF中的光线投射选择随机像素,并使用由SLAM估计的相机姿态{Ri|ti}计算其对应的光线。沿着穿过每个像素的发射光线生成Nray=Nstart+Nimp总采样点,其中Nstart点使用分层采样,采用重要性采样技术对Nimp点进行采样。
对于射线上的所有N=Nstart+Nimp点,从网络中查询TSDFφg(pn)和原始颜色φa(pn),并使用StyleSDF中基于SDF的渲染方法将SDF值转换为体积密度:
σ(pn)=β·Sigmoid(-β·φg(pn))
其中,φg(pn)是使用MLP将特征平面解码为TSDF,β作为可训练参数,在调节表面边界的锐度方面起作用。当SDF为负值时,sigmoid函数收敛于1,进而决定了物体内部的体密度分布。然后使用这个体密度信息来渲染对应于每条光线的颜色和深度信息:
为了更有效地优化TSDF模型,考虑了表面附近自由空间和符号距离损失的组合。自由空间损失是通过将TSDF预测值与传感器测量的真实深度值进行比较来测量的,在自由空间中,TSDF值倾向于接近1。另一方面,地表附近的符号距离损失量化了地表附近点的预测值与真实深度值之间的差异。为了区分重要程度,将地表附近的点划分为中心区域和尾随区域,更加注重中心区域的重建,以提高最终的重建质量。
对于重建损失,对于具有地面真实深度的像素,在渲染深度和传感器测量的深度之间施加一致性:
在像素颜色和渲染颜色之间施加一致性:
在局部建图线程中进行场景的重建,为了确保选择的关键帧具有最相关的优化更新,并且在建图过程中保持全局一致性。通过优先选择与当前状态差异较大的关键帧,并保留最新的关键帧和未优化的关键帧,可以有效地更新重建,按照当前状态与上次更新状态之间的姿态差异降序对所有关键帧进行排序,并在访问时从排序列表中选择前10个关键帧,这些关键帧将用于之后的重建。
将关键帧应用于动态下的场景重建,目的是将动态对象进行剔除,在最终的网格表示中呈现静态区域。基于关键帧和特征平面数据,用TSDF(Truncated Signed DistanceFunction)解码器和颜色解码器,实现从点云数据到具有几何形状和颜色的网格模型的转换,通过迭代遍历帧列表,并根据每个帧的深度图、相机参数、点云数据进行计算和筛选,的目的是生成静态场景的网格表示,需要对动态对象进行剔除,根据动态掩码,将这些位于掩码区域的深度值置为无效值以及从网格中剔除这些点,实现静态场景的重建。
利用相机定位和动态掩码,采用隐式截断有符号距离场(TSDF)来表示静态下的几何体,并使用多尺度轴对齐的特征平面减少场景边长的内存占用增长率,完成对静态对象的三维重建。
将通过实验结果来验证本发明的优越性。选择公共数据集TUMRGB-D和BONN来评估本发明的性能。在评估过程中,不仅将本发明与原始的DROID-SLAM进行了对比,还分别在高动态和低动态场景下与其他领先的SLAM系统进行了测试分析比较,所有对比实验均在我们的设备上进行。为了更全面地评估跟踪效果,采用绝对轨迹误差(ATE)作为主要的评价指标,ATE在评估弹道全局一致性方面表现优异,使用根均方误差(RMSE)来量化系统的鲁棒性和稳定性。进行多次测试,将每个序列运行了5次并取中值结果。以解释系统的不确定性。在Intel i9 CPU、RTX4090、32GB内存的计算机上进行实验。
TUM数据集:
TUM数据集在评估SLAM系统方面得到了广泛应用。在TUM-RGB-D中,真实室内场景下的图像序列被记录,涵盖了RGB图像、深度图像以及地面真实度数据。这些图像序列的分辨率为640×480。TUM-RGB-D数据集的Dynamic Objects部分包含了四个低动态序列(标记为fr3/s)和四个高动态序列(标记为fr3/w)。
在低动态序列fr3/s中,描绘了两个人坐在办公桌前交谈并偶尔做手势的场景,这类场景被归类为低动态。通过这些序列,可以有效评估视觉SLAM系统在面对缓慢移动的动态对象时的鲁棒性。而高动态序列fr3/w则展示了两个人在办公室内快速走动的情形。这些序列中存在着高度动态的对象,其特征点在高动态运动区域内会引入错误的空间约束,从而显著降低定位精度和鲁棒性。因此,这些序列被用来评估视觉SLAM系统在应对快速移动动态对象时的性能表现。
表1在TUMRGB-D数据集上的绝对轨迹误差
表1显示了在TUMRGB-D动态序列中,本发明与DROID-SLAM以及其他先进的动态SLAM系统DS-SLAM,TRSPointerror、bLitz-SLAM、Cfp-SLAM进行比较的结果,其中DROID-SLAM在我们的实验设备上进行测试得到的结果,DS-SLAM,bLitz-SLAM,Cfp-SLAM,TRS、DS-SLAM的数据来自于其原始论文结果。在表1中,以粗体标注了最佳结果,可见在TUMRGBD的高动态序列中,本发明在轨迹精度上超越了其他SLAM算法。其绝对轨迹误差(ATE)仅在1-3厘米左右,充分证明了本发明在动态场景下的出色定位能力,以及对高动态环境的适应性。
图4(a)、(b)中评估了本发明和DROID-SLAM在fr3/walking_rpy和fr3/walking_halfsphere中估计轨迹与地面真值的差异。
本发明的估计轨迹接近于groundtruth,并且在动态环境下偏移比DROID-SLAM更少,在动态环境下具有更好的鲁棒性。图6显示了本发明对于TUM数据集序列中对TUMRGB-D数据集部分序列的重建效果。在fr3/walking-static中,一开始人覆盖背景,人在周围走动,本发明根据检测到的动态对象(人)加入动态遮罩,将动态遮罩与基于检测到的动态对象(人、椅子)对静态场景进行三维重建相结合,生成网格时去除动态区域。在低动态序列fr3/sittingxyz中,场景中的人做出手势等小动作,并且人总是坐在椅子上,因此在重建后得到的最终网格中,将人添加到场景重建中。
BONN数据集:
BONNRGB-D动态由24个动态序列组成,其图像的分辨率为640×480,在BONNRGB-D中有着更具挑战性的动态场景,如balloon中进行了抛气球的动作,移动的气球会以干扰定位,crowd序列中人群的走动会对定位产生很大的影响,’person_tracking’序列中摄像机下一个人持续地走动,这会导致定位的误差不断累积增大。为了更好地验证本发明,在BONNRGB-D24个序列上都进行实验测试,并且使用ATE来进行评估。
表2不同方法在TUM数据集上的绝对跟踪误差(ATE)结果比较
表2中是在BONNRGB-D动态数据集上进行实验的结果,在相同设备上测试了DynaSLAM、DROID-SLAM,REFUSION的结果来自于原文数据,对比了不同算法的绝对轨迹精度(ATE),并将最好的结果加粗表示,可见在绝大部分的序列中,本发明都取得了更优的结果。
图4(c)(d)中评估了本发明和原始DROID-SLAM在Bonn_balloon和Bonn_removing_no_box中估计轨迹与地面真值的差异,本发明的估计轨迹接近于groundtruth,并且在动态环境下偏移比DROID-SLAM更少,在动态环境下具有更好的鲁棒性。
在TUM数据集和BONN数据集进行了定量和定性实验,与原始的DROID-SLAM和其他先进的动态SLAM算法进行对比,大部分序列中我们的系统取得了更优的效果,具有更强的鲁棒性。
本发明提出了一种三维静态场景图像重建方法,为了应对动态环境的干扰,结合语义分割网络和光流估计,采用Sampson误差得到动态掩码,在跟踪过程中排除动态掩码区域,以此来提高SLAM系统在动态环境下的精度。并且,结合动态掩码,利用神经辐射场和截断有符号距离场(TSDF)的相关研究来表示静态下的几何体,关注于静态的场景重建。
实施例二:
图5为本发明三维静态场景图像重建系统结构图。如图5所示,本发明提供一种三维静态场景图像重建系统,该系统包括:
视频获取模块201,用于获取动态环境中使用移动摄像机采集的视频;
动态掩码确定模块202,用于根据所述视频基于DROID-SLAM检测运动对象,得到动态掩码;
关键帧信息和相机姿态估计信息获取模块203,用于根据所述动态掩码,获取关键帧信息和相机姿态估计信息;
三维静态场景图像确定模块204,用于根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像。
所述动态掩码确定模块202,具体包括:
动态掩码确定单元,用于在DROID-SLAM基础上,根据所述视频结合语义分割和连续帧的光流检测运动对象,得到动态掩码。
所述三维静态场景图像确定模块204,具体包括:
三维静态场景图像确定单元,用于根据所述动态掩码、关键帧信息和相机姿态估计信息基于神经辐射场和截断有符号距离场,建立三维静态场景图像。
所述三维静态场景图像确定单元,具体包括:
二值掩码确定子单元,用于根据所述动态掩码进行预测,得到二值掩码;
深度信息和颜色信息确定子单元,用于迭代更新当前帧的姿势和深度,根据关键帧和相机姿态估计信息,将每个点依据神经辐射场投影到粗特征平面和细特征平面上,进行粗重建和细重建,基于截断有符号距离场的渲染过程估计每个像素的深度和颜色,得到深度信息和颜色信息;
三维静态场景图像确定子单元,用于根据所述深度信息、颜色信息和二值掩码,得到三维静态场景图像。
实施例三:
本实施例提供一种电子设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行实施例一的三维静态场景图像重建方法。
可选地,上述电子设备可以是服务器。
另外,本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的三维静态场景图像重建方法。
本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种三维静态场景图像重建方法,其特征在于,所述三维静态场景图像重建方法包括:
获取动态环境中使用移动摄像机采集的视频;
根据所述视频基于DROID-SLAM检测运动对象,得到动态掩码;
根据所述动态掩码,获取关键帧信息和相机姿态估计信息;
根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像。
2.根据权利要求1所述的三维静态场景图像重建方法,其特征在于,所述根据所述视频基于DROID-SLAM,得到动态掩码,具体包括:
在DROID-SLAM基础上,根据所述视频结合语义分割和连续帧的光流检测运动对象,得到动态掩码。
3.根据权利要求2所述的三维静态场景图像重建方法,其特征在于,所述根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像,具体包括:
根据所述动态掩码、关键帧信息和相机姿态估计信息基于神经辐射场和截断有符号距离场,建立三维静态场景图像。
4.根据权利要求3所述的三维静态场景图像重建方法,其特征在于,所述根据所述动态掩码、关键帧信息和相机姿态估计信息基于神经辐射场和截断有符号距离场,建立三维静态场景图像,具体包括:
根据所述动态掩码进行预测,得到二值掩码;
迭代更新当前帧的姿势和深度,根据关键帧和相机姿态估计信息,将每个点依据神经辐射场投影到粗特征平面和细特征平面上,进行粗重建和细重建,基于截断有符号距离场的渲染过程估计每个像素的深度和颜色,得到深度信息和颜色信息;
根据所述深度信息、颜色信息和二值掩码,得到三维静态场景图像。
5.一种三维静态场景图像重建系统,其特征在于,所述三维静态场景图像重建系统包括:
视频获取模块,用于获取动态环境中使用移动摄像机采集的视频;
动态掩码确定模块,用于根据所述视频基于DROID-SLAM检测运动对象,得到动态掩码;
关键帧信息和相机姿态估计信息获取模块,用于根据所述动态掩码,获取关键帧信息和相机姿态估计信息;
三维静态场景图像确定模块,用于根据所述动态掩码、关键帧信息和相机姿态估计信息,建立三维静态场景图像。
6.根据权利要求5所述的三维静态场景图像重建系统,其特征在于,所述动态掩码确定模块,具体包括:
动态掩码确定单元,用于在DROID-SLAM基础上,根据所述视频结合语义分割和连续帧的光流检测运动对象,得到动态掩码。
7.根据权利要求7所述的三维静态场景图像重建系统,其特征在于,所述三维静态场景图像确定模块,具体包括:
三维静态场景图像确定单元,用于根据所述动态掩码、关键帧信息和相机姿态估计信息基于神经辐射场和截断有符号距离场,建立三维静态场景图像。
8.根据权利要求7所述的三维静态场景图像重建系统,其特征在于,所述三维静态场景图像确定单元,具体包括:
二值掩码确定子单元,用于根据所述动态掩码进行预测,得到二值掩码;
深度信息和颜色信息确定子单元,用于迭代更新当前帧的姿势和深度,根据关键帧和相机姿态估计信息,将每个点依据神经辐射场投影到粗特征平面和细特征平面上,进行粗重建和细重建,基于截断有符号距离场的渲染过程估计每个像素的深度和颜色,得到深度信息和颜色信息;
三维静态场景图像确定子单元,用于根据所述深度信息、颜色信息和二值掩码,得到三维静态场景图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410277179.9A CN118071932A (zh) | 2024-03-12 | 2024-03-12 | 一种三维静态场景图像重建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410277179.9A CN118071932A (zh) | 2024-03-12 | 2024-03-12 | 一种三维静态场景图像重建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118071932A true CN118071932A (zh) | 2024-05-24 |
Family
ID=91101710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410277179.9A Pending CN118071932A (zh) | 2024-03-12 | 2024-03-12 | 一种三维静态场景图像重建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118071932A (zh) |
-
2024
- 2024-03-12 CN CN202410277179.9A patent/CN118071932A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN111598998B (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
CN113516664B (zh) | 一种基于语义分割动态点的视觉slam方法 | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
US20120250982A1 (en) | Image processing apparatus, image processing method, program, and recording medium | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN117456136A (zh) | 一种基于多模态视觉识别的数字孪生场景智能生成方法 | |
CN117274515A (zh) | 基于ORB和NeRF映射的视觉SLAM方法及系统 | |
CN113920170A (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN111581313A (zh) | 一种基于实例分割的语义slam鲁棒性改进方法 | |
Tao et al. | Indoor 3D semantic robot VSLAM based on mask regional convolutional neural network | |
Isaacson et al. | Loner: Lidar only neural representations for real-time slam | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN118071873A (zh) | 一种在动态环境下稠密高斯地图重建方法及系统 | |
CN113065506B (zh) | 一种人体姿态识别方法及系统 | |
CN104463962A (zh) | 基于gps信息视频的三维场景重建方法 | |
CN112950786A (zh) | 一种基于神经网络的车辆三维重建方法 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
WO2022139784A1 (en) | Learning articulated shape reconstruction from imagery | |
CN117115343A (zh) | 动态场景自主定位与线上高精度三维重建方法 | |
Ammar et al. | Comparative Study of latest CNN based Optical Flow Estimation | |
US20200364877A1 (en) | Scene segmentation using model subtraction | |
Bao et al. | 3d gaussian splatting: Survey, technologies, challenges, and opportunities | |
CN115810219A (zh) | 一种基于rgb摄像头的三维手势追踪方法 | |
Wang et al. | A new era of indoor scene reconstruction: A survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |