CN117523100A - 基于神经网络与多视图一致性的三维场景重建方法和装置 - Google Patents

基于神经网络与多视图一致性的三维场景重建方法和装置 Download PDF

Info

Publication number
CN117523100A
CN117523100A CN202311534531.4A CN202311534531A CN117523100A CN 117523100 A CN117523100 A CN 117523100A CN 202311534531 A CN202311534531 A CN 202311534531A CN 117523100 A CN117523100 A CN 117523100A
Authority
CN
China
Prior art keywords
frame
depth
camera
parameters
dimensional scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311534531.4A
Other languages
English (en)
Inventor
陈昊
徐光锴
沈春华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202311534531.4A priority Critical patent/CN117523100A/zh
Publication of CN117523100A publication Critical patent/CN117523100A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Architecture (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经网络与多视图一致性的三维场景重建方法和装置,方法包括:从视频数据中提取图像帧进行下采样,采用预训练的单目绝对深度估计模型对下采样图像进行预测,采用尺度偏移量恢复模块恢复下采样绝对深度图间不一致的尺度与偏移量,将得到的尺度偏移量一致深度图通过可优化相机参数在下采样图像帧间进行投影,进行局部和全局关键帧的选取,并监督光流信息、几何一致性及正则化项,优化深度与相机参数,将相关参数输入图像‑深度融合模块处理,输出三维场景重建结果。本发明可减少现有方法对传感器依赖,提升三维场景重建方法的稠密程度与鲁棒性,解决现有三维场景重建方法鲁棒性与稠密性难以兼得的问题。

Description

基于神经网络与多视图一致性的三维场景重建方法和装置
技术领域
本发明涉及一种计算机视觉技术领域的三维场景重建方法,具体涉及一种基于神经网络与多视图一致性的三维场景重建方法和装置。
背景技术
随着人工智能的发展,稠密三维重建在自动驾驶、虚拟现实、增强现实、医疗3D建模等领域有着广泛的应用。现有三维场景重建技术可分为基于多视图几何约束的优化方法和基于神经网络的学习方法。其中,基于多视图几何约束的优化方法通过匹配不同视角图像帧之间的特征信息,计算获取图像帧深度图并投影至三维空间融合,从而实现三维重建场景,例如文献Im S,Jeon H G,Lin S,et al.DPSNet:End-to-end Deep Plane SweepStereo[C].International Conference on Learning Representations.2018.中所述,可通过模拟传统平面扫描的方法,计算图片像素级特征之间的相似度获得匹配信息,从而预测图片深度信息,然后通过传感器获取相机位姿、相机标定计算得到相机内参,并将图片投影至三维空间融合得到三维场景重建。
基于神经网络的学习方法通过训练大型神经网络,从图像帧直接学习拟合及预测三维几何信息,例如文献Sun J,Xie Y,Chen L,et al.NeuralRecon:Real-time coherent3D reconstruction from monocular video[C].Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2021:15598-15607.中所述,利用卷积神经网络提取图像特征,将特征投影至三维空间,并使用卷积GRU融合模块将特征融合进三维全局隐式表征(Global Hidden State)中,最终通过训练学习预测输出场景的三维场景重建表达。
以上是现有三维场景重建的代表性方法,主要缺点包括三方面。第一,基于多视图几何约束的优化方法在相机图像低纹理区域、光照剧烈变化、遮挡区域表现不佳,特征匹配容易出错,从而导致重建出的三维场景过于稀疏。第二,基于神经网络的学习方法非常依赖海量数据驱动学习鲁棒几何信息,然而现有三维场景重建数据集数量及多样性有限,该类重建方法在现实场景中缺少鲁棒性。第三,两种方法大多依赖传感器获取相机位姿,应用场景受限。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于神经网络与多视图一致性的三维场景重建方法和装置,该方法利用神经网络学习鲁棒深度信息,结合多视图一致性几何约束进行优化,减少现有方法对传感器依赖的同时,提升三维场景重建方法的稠密程度与鲁棒性。
本发明第一个方面提供了一种基于神经网络与多视图一致性的三维场景重建方法,包括以下步骤:
步骤1、构建预训练的单目绝对深度估计模型;
步骤2、从待处理的视频数据中提取图像帧并进行下采样,得到下采样图像帧,将下采样图像帧输入步骤1的预训练的单目绝对深度估计模型,获取单目预测绝对深度图,采用模型预测绝对深度尺度偏移量恢复模块中的可优化深度参数,对单目预测绝对深度图间不一致的尺度与偏移量进行恢复,得到尺度偏移量一致深度图,将尺度偏移量一致深度图通过可优化的相机参数,在下采样图像帧间进行投影;
步骤3、利用LoFTR算法提取每张下采样图像帧的稀疏特征,并与其他下采样图像帧进行匹配,选取局部关键帧,根据两帧下采样图像之间的相对旋转角度选取全局关键帧,基于投影结果构建监督信号L,基于监督信号L对深度参数和相机参数进行训练,优化深度参数及相机参数;
步骤4、将单目预测绝对深度图和优化后的深度参数输入模型预测绝对深度尺度偏移量恢复模块,获取尺度偏移量一致深度图,将获取的尺度偏移量一致深度图与下采样图像帧和优化后的相机参数输入图像-深度融合模块,输出三维场景重建结果。
本发明以一段视频序列作为输入,首先对输入视频序列提取图像帧,将视频格式的输入信息转化为时序上离散化后的视频图像帧,便于使用图像处理的相关知识处理视频信息。首先,本发明通过利用神经网络强大的学习能力,在千万量级海量图片-深度图数据对上进行学习训练,实现根据输入的单张图片预测每一帧图像帧的绝对深度信息;其次,网络预测的绝对深度信息仍存在帧间不一致,通过图片帧与帧之间的关联,利用多视图几何一致性约束,恢复神经网络模型逐帧预测的绝对深度图中帧间不一致的尺度信息与偏移量信息,优化相机参数和深度参数。在优化阶段针对视频中提取的图像帧进行下采样和关键帧匹配对选取,并设计合理的优化目标作为优化的监督信号。最后,将下采样图像帧及其对应的绝对深度、优化完成的深度参数和相机参数进行后处理,输出三维场景面片表达。
进一步地,步骤1中,所述的构建预训练的单目绝对深度估计模型的方法为:收集RGB-D图片-深度真值匹配对数据并分为高、中、低三种质量,采用不同的监督信号学习训练单目绝对深度估计模型,在模型训练时,设置标准相机空间,并根据拍摄图片相机的实际相机内参与标准相机空间的比例,将拍摄图片统一转换到标准相机空间进行学习,在推理时通过该变换的逆变换转换回原相机空间推理获取绝对深度。
本发明通过训练单目绝对深度估计模型,获取图像帧的基础深度信息。该步骤中收集的海量数据数量应尽可能多,多样性应尽可能广泛,且训练时需要根据数据标注质量的不同,采用不同的损失函数监督。
进一步地,步骤2中,所述的下采样策略为:首先选定第1帧图像帧为第1帧下采样图像帧,针对第i帧下采样图像帧,往时间轴增加的方向挑选图像帧,当挑选到的图像帧与第i帧下采样图像帧之间的变化程度大于1/6时,选定该帧为第i+1帧下采样图像帧,i从1开始迭代此过程,直至遍历所有图像帧。
由于单目绝对深度估计模型预测的绝对深度帧间含有不一致的尺度与偏移量,会导致重建点云或面片产生重影或形变,降低三维场景重建精度。本发明步骤2中采用模型预测绝对深度尺度偏移量恢复模块中的可优化深度参数对单目预测绝对深度图间不一致的尺度与偏移量进行恢复。
进一步地,步骤2中,所述的可优化深度参数包括全局尺度、全局偏移量和稀疏权重,基于全局尺度和全局偏移量对单目预测绝对深度图间全局尺度偏移量进行恢复,基于稀疏权重对单目预测绝对深度图间局部尺度偏移量进行恢复。
本发明采用最小二乘拟合和基于地理加权回归实现全局和局部尺度偏移量恢复,基于全局尺度、全局偏移量和稀疏权重更佳地恢复帧间一致的绝对深度信息。
进一步地,步骤2中,所述的可优化的相机参数为相机位姿和相机内参,包括每两帧图像间的相对相机位姿欧拉角、平移向量和相机焦距优化系数。
根据绝对深度信息和彩色图像帧,可将二维图像像素投影至相机坐标系的三维空间中形成带颜色的点云,投影过程中需要已知相机内参。此外,帧与帧之间仍存在着相机位姿差异,需要通过旋转矩阵与平移矩阵纠正和对齐相机的姿态变化。本发明提出相机参数优化方案,设定相机内参的焦距、以及每相邻两帧之间的相对相机位姿为可优化变量,利用帧间的一致性,自适应迭代优化得到相机参数。
进一步地,步骤3中,所述的监督信号L由各关键帧之间的光流监督Lflow、几何一致性Lgc、以及稀疏权重的正则化监督Lregu三部分组成:
L=λflowLflowgcLgcreguLregu
其中,分别为从第i帧到第j帧每两帧相机位姿之间的相对旋转欧拉角和相对位姿平移量;δ为相机内参可优化系数;αi,βi,ωi分别为为第i帧的全局尺度、全局偏移量值和稀疏权重;V代表第i帧投影到第j帧的有效投影点像素坐标集合;pi表示第i帧的像素坐标,并从V中获取;K′代表选取的关键帧集合,(i,j)代表第i帧与第j帧匹配的匹配对;即采样第i帧和第j帧。pi→j表示从第i帧像素坐标pi投影至第j帧计算得到的像素坐标;Fi→j表示鲁棒光流网络RAFT预测得到的从第i帧到第j帧的光流信息;fsample(Dj,pi→j)表示从第j帧尺度偏移量一致深度图Dj中采样像素pi→j处的深度值;fsample(Di→j,pi)表示从第i帧投影至第j帧计算得到的投影深度图Di→j中采样像素pi处的深度值;ωi,t代表第i帧稀疏权重ωi的第t个分量;P表示下采样图像帧的数量;M表示一维向量ωi的长度;λflow,λgc和λregu为平衡各监督信号的权重超参数。
在步骤2中的优化参数设计完成之后,需要采用合适的优化目标,根据图像帧之间的一致性,迭代优化获取相机参数及深度参数。本发明步骤3中采用光流监督与几何一致性监督相结合的方案,既保证了图像帧间的匹配准确,又保证了帧间投影关系满足多视图几何一致性约束。本发明的关键帧选取并分为局部关键帧选取和全局关键帧选取两部分,局部关键帧利用LoFTR算法针对图像关键帧进行采样与优化,可以保证重建结果的局部一致性;全局关键帧选取策略根据每两帧之间的相对相机外参,概率性地选取重叠区域合适的两帧作为关键帧匹配对,优化整体三维场景重建结果。此外,针对深度参数尺度、偏移量优化不当导致重建点云形变过大的情况,本发明还采用另一个正则化项,对局部尺度偏移量恢复中的稀疏权重进行正则化限制,能够重建出更精确的点云。
进一步地,步骤4中,采用基于截断的带符号距离函数对获取的尺度偏移量一致深度图与下采样图像帧和优化后的相机参数进行融合处理,输出三维场景重建结果。
本发明将获取的尺度偏移量一致深度图与下采样图像帧和优化后的相机参数输入截断的带符号距离函数融合,自适应地针对帧与帧之间不一致的点云做平滑去噪处理,并输出三维场景面片表达。
本发明第二个方面提供了一种基于神经网络与多视图一致性的三维场景重建装置,包括:
模型训练模块,用于构建预训练的单目绝对深度估计模型;
下采样及模型预测绝对深度尺度偏移量恢复模块,从待处理的视频数据中提取图像帧并进行下采样,得到下采样图像帧,将下采样图像帧输入预训练的单目绝对深度估计模型获取单目预测绝对深度图,采用模型预测绝对深度尺度偏移量恢复模块中的可优化深度参数,对单目预测绝对深度图间不一致的尺度与偏移量进行恢复,得到尺度偏移量一致深度图,将尺度偏移量一致深度图通过可优化的相机参数,在下采样图像帧间进行投影;
关键帧选取及参数优化模块,用于利用LoFTR算法提取每张下采样图像帧的稀疏特征,并与其他下采样图像帧进行匹配,选取局部关键帧,根据两帧下采样图像之间的相对旋转角度选取全局关键帧,基于投影结果构建监督信号L,基于监督信号L对深度参数和相机参数进行训练,优化深度参数及相机参数;
三维场景重建后处理模块,用于将单目预测绝对深度图和优化后的深度参数输入模型预测绝对深度尺度偏移量恢复模块,获取尺度偏移量一致深度图,将获取的尺度偏移量一致深度图与下采样图像帧和优化后的相机参数输入图像-深度融合模块,输出三维场景重建结果。
本发明第三个方面提供了一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的基于神经网络与多视图一致性的三维场景重建方法。
本发明第四个方面提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的基于神经网络与多视图一致性的三维场景重建方法。
相比于现有技术,本发明具备以下有益效果:
(1)本发明利用神经网络学习鲁棒深度信息,结合多视图一致性几何约束进行优化,减少现有方法对传感器依赖的同时,提升三维场景重建方法的稠密程度与鲁棒性,解决了现有三维场景重建方法鲁棒性与稠密性难以兼得的问题。
(2)本发明对获取的视频图像帧进行下采样,获取下采样图像帧及其深度信息,采用最小二乘拟合和基于地理加权回归实现全局和局部尺度偏移量恢复,基于全局尺度、全局偏移量和稀疏权重,更佳地恢复帧间一致的绝对深度信息,解决了单目绝对深度估计模型预测的绝对深度帧间含有不一致的尺度与偏移量,会导致重建点云或面片产生重影或形变,降低三维场景重建精度的问题。
(3)本发明采用光流监督与几何一致性监督相结合的方案对深度参数和相机参数进行优化,既保证了图像帧间的匹配准确,又保证了帧间投影关系满足多视图几何一致性约束,同时优化过程中采用正则化项对局部尺度偏移量恢复中的稀疏权重进行正则化限制,能够重建出更精确的点云。
附图说明
图1是实施例中的基于神经网络与多视图一致性的三维场景重建方法的流程图。
图2是实施例中的模型预测绝对深度尺度偏移量恢复模块示意图。
图3是实施例中的三维重建结果示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步说明,本发明的基于神经网络与多视图一致性的三维场景重建方法的流程图如图1所示,包括以下步骤:
步骤1:构建预训练的单目绝对深度估计模型。
收集海量单目深度数据,训练单目绝对深度估计模型,该模型具有较高的精度和准确性。其中,训练数据分为高质量、中质量、低质量三类,高质量数据包含雷达等传感器获取的准确深度信息,中等质量包含双目匹配等方案匹配计算获取的深度信息,低质量包含光流生成的深度信息伪标签,并针对不同质量数据采用不同损失函数。高质量数据监督逐像素法向量回归、多尺度梯度损失、图像排序损失,中质量监督多尺度梯度损失、图像级别的法向量回归、深度排序损失,低质量监督仅监督深度排序损失。在模型训练时,设置标准相机空间,并根据拍摄图片相机的实际相机内参与标准相机空间的比例,将拍摄图片统一转换到标准相机空间进行学习,在推理时通过该变换的逆变换转换回原相机空间推理获取绝对深度。
步骤2、从待处理的视频数据中提取图像帧并进行下采样,得到下采样图像帧,将下采样图像帧输入步骤1的预训练的单目绝对深度估计模型,获取单目预测绝对深度图,采用模型预测绝对深度尺度偏移量恢复模块中的可优化深度参数,对单目预测绝对深度图间不一致的尺度与偏移量进行恢复,得到尺度偏移量一致深度图,将尺度偏移量一致深度图通过可优化的相机参数,在下采样图像帧间进行投影。
步骤2-1:针对输入的彩色视频数据,提取N张图像帧并进行下采样,本实施例所采用的下采样策略为:首先选定第1帧图像帧为第1帧下采样图像帧。针对第i帧下采样图像帧,往时间轴增加的方向挑选图像帧,当挑选到的图像帧与第i帧下采样图像帧之间的变化程度大于1/6时,选定该帧为第i+1帧下采样图像帧,i从1开始迭代此过程,直至遍历所有图像帧,得到P张下采样图像帧/>将P张下采样图像帧输入步骤1预训练的单目绝对深度估计模型,获取单目预测绝对深度图,得到对应的单目预测绝对深度/>
步骤2-2:由于单目预测绝对深度图间不一致的尺度与偏移量会导致其投影至三维空间中的点云发生重影与形变,因此引入模型预测绝对深度尺度偏移量恢复模块,恢复多张图像帧的尺度与偏移量并在时序上对齐。模型预测绝对深度尺度偏移量恢复模块如图2所示,包含全局尺度偏移量对齐和局部尺度偏移量对齐两部分。全局对齐针对每张单目预测绝对深度图,恢复每张图像帧的像素间共享的尺度值αi和偏移量值βi,且该值可参与优化:
其中,上式全局对齐输出得到的深度图称为全局对齐深度图。局部对齐中的尺度Ai∈RH×W和偏移量Bi∈RH×W为逐像素生成、且大小与图像帧大小相同的两张图片,具体生成方式为从全局对齐深度图中均匀采样m个点/>并针对每个采样点逐点乘上对应的稀疏权重/>作为稀疏锚点。将全局对齐深度图/>与稀疏锚点/>做地理加权回归对齐,并将输出得到的尺度图Ai与偏移量图Bi分别和全局对齐尺度图/>做逐像素乘法和加法:
其中M的值为25,符号⊙表示逐像素乘法,fLWLR(·)来源于以下论文中提及的地理加权回归算法:Towards 3d scene reconstruction from locally scale-alignedmonocular video depth.arXiv preprint arXiv:2202.01470,2022。
采用模型预测绝对深度尺度偏移量恢复模块对单目预测绝对深度图间不一致的尺度与偏移量进行恢复后,得到尺度偏移量一致深度图。
步骤2-3:将步骤2-2得到的尺度偏移量一致深度图通过可优化的相机位姿与相机内参,在下采样后的图像帧间进行投影。其中,相机位姿初始化为每两张相邻图像帧之间的相对旋转欧拉角ri→(i+1)与位姿平移量ti→(i+1),相机内参初始化为简易小孔模型,相机焦距初始化为图片帧最长边的1.2倍,并设置可优化系数δ。在实际优化过程中,相对旋转欧拉角ri→(i+1)与位姿平移量ti→(i+1)需要转换为相机位姿变换矩阵,相机位姿Pi及相机内参K表示如下:
其中,P1代表第1帧的相机位姿,E4,4代表4x4的单位矩阵,代表从相对旋转欧拉角ri→(i+1)和位姿平移量ti→(i+1)到相机位姿Pi→(i+1)的映射函数。f0为相机焦距初始化参数,W和H分别代表图像帧的像素宽度和像素高度。
相机位姿Pi与相机旋转矩阵Ri和平移矩阵ti之间的关系为:
然后利用相机内参、相机位姿以及图像帧深度,在下采样后的图像帧之间投影:
di(pi)=fsample(Di,pi) (6)
di→j(pi)=fsample(Di→j,Pi), (7)
其中,fsample(Di,pi)表示从深度图Di中采样像素pi处的深度值di(pi),fsample(Di→j,pi)表示从从第i帧投影到第j帧计算得到的投影深度图Di→j中采样采样像素pi处的深度值di→j(pi);Ri和ti表示第i帧的相机旋转矩阵与平移矩阵,为Pi的组成部分;pi→j是坐标pi从第i帧投影到第j帧的坐标值;代表第j帧的相机旋转矩阵的转置矩阵,tj代表表示第j帧的相机平移矩阵。
本发明中的可优化变量为全局尺度、全局偏移量、稀疏权重值、相对欧拉角、相对位姿平移量以及相机焦距系数。设定好可优化参数表达与初始化后,需要选取对应关键帧进行帧间一致性优化,该步骤涉及到优化关键帧选取以及优化监督信号选择。
步骤3:利用LoFTR算法提取每张下采样图像帧的稀疏特征,并与其他下采样图像帧进行匹配,选取局部关键帧,根据两帧下采样图像之间的相对旋转角度选取全局关键帧,基于投影结果构建监督信号L,基于监督信号L对深度参数和相机参数进行训练,优化深度参数及相机参数。
步骤3-1:关键帧的选取可分为局部关键帧选取和全局关键帧选取两个部分,分为两个阶段。在优化第一阶段,利用LoFTR算法提取每张图片稀疏特征,并与其他关键帧进行匹配。针对获取的匹配图像对,对其进行均匀采样,并根据公式(12)中设计的监督信号批量优化,直至关键帧之间的局部几何达到一致。局部关键帧的采样概率如下:
其中,pl为第一阶段关键帧采样概率。
在优化第二阶段,除了局部关键帧的选取之外,还需根据两帧之间的相对旋转角度选取全局关键帧。具体而言,计算每两帧之间的旋转角度,关键帧采样概率的大小随着旋转角度的增大逐渐增大后逐渐减小,并在旋转角度为φ处达到最大值。在第二阶段,全局采样概率和局部采样概率分别占总采样概率的1/2,如下式所示:
其中,θij表示第i帧和第j帧之间的相对旋转角度,φ为角度阈值,设置为p为全局采样概率,pg为第二阶段总采样概率。
步骤3-2:在优化过程中,对于步骤3-1中选定的关键帧第i帧和第j帧,将第i帧投影至第j帧,监督信号L由各关键帧之间的光流监督Lflow、几何一致性Lgc以及稀疏权重的正则化监督Lregu三部分组成:
L=λflowLflowgcLgcreguLregu (14)
其中,每一次迭代最小化的可优化参数包括:从第i帧到第j帧每两帧相机位姿之间的相对旋转欧拉角相对位姿平移量/>相机内参可优化系数δ,第i帧的全局尺度αi,全局偏移量值βi,以及稀疏权重ωi。V代表第i帧投影到第j帧的有效投影点像素坐标集合,像素坐标pi表示第i帧的像素坐标,并从V中获取;K′代表步骤3-1中选取的关键帧集合,(i,j)代表第i帧与第j帧匹配的匹配对,即采样第i帧和第j帧。pi→j代表从第i帧像素坐标pi投影至第j帧计算得到的像素坐标。Fi→j代表鲁棒光流网络RAFT预测得到的从第i帧到第j帧的光流信息。fsample(Dj,pi→j)表示从第j帧尺度偏移量一致深度图Dj中采样像素pi→j处的深度值,fsample(Di→j,pi)表示从第i帧投影至第j帧计算得到的投影深度图Di→j中采样像素pi处的深度值;ωi,t代表第i帧稀疏权重ωi的第t个分量。P表示下采样图像帧的数量,M表示一维向量ωi的长度。λflow,λgc和λregu为平衡各监督信号的权重超参数。
整体优化迭代次数为6000次,每次优化采样50个关键帧匹配对。其中第一阶段2000次迭代,监督信号损失超参数λflow,λgc和λregu分别设置为2,0.5,0.01。第二阶段4000次迭代,其中前2000次监督信号损失超参数λflow,λgc和λregu分别设置为2,1,0.01,后2000次监督信号损失超参数λflow,λgc和λregu分别设置为2,0.1,0.01。
步骤4:将单目预测绝对深度图和优化后的深度参数输入模型预测绝对深度尺度偏移量恢复模块,获取尺度偏移量一致深度图,将获取的尺度偏移量一致深度图与下采样图像帧和优化后的相机参数输入基于截断的带符号距离函数融合后处理(TSDF-Fusion),输出精确且鲁棒的三维场景重建结果(如图3所示)。
本实施例还提供了一种基于神经网络与多视图一致性的三维场景重建装置,包括:
模型训练模块,用于构建预训练的单目绝对深度估计模型;
下采样及模型预测绝对深度尺度偏移量恢复模块,从待处理的视频数据中提取图像帧并进行下采样,得到下采样图像帧,将下采样图像帧输入预训练的单目绝对深度估计模型获取单目预测绝对深度图,采用模型预测绝对深度尺度偏移量恢复模块中的可优化深度参数,对单目预测绝对深度图间不一致的尺度与偏移量进行恢复,得到尺度偏移量一致深度图,将尺度偏移量一致深度图通过可优化的相机参数,在下采样图像帧间进行投影;
关键帧选取及参数优化模块,用于利用LoFTR算法提取每张下采样图像帧的稀疏特征,并与其他下采样图像帧进行匹配,选取局部关键帧,根据两帧下采样图像之间的相对旋转角度选取全局关键帧,基于投影结果构建监督信号L,基于监督信号L对深度参数和相机参数进行训练,优化深度参数及相机参数;
三维场景重建后处理模块,用于将单目预测绝对深度图和优化后的深度参数输入模型预测绝对深度尺度偏移量恢复模块,获取尺度偏移量一致深度图,将获取的尺度偏移量一致深度图与下采样图像帧和优化后的相机参数输入图像-深度融合模块,输出三维场景重建结果。
本实施例还提供了一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的基于神经网络与多视图一致性的三维场景重建方法。
本实施例还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的基于神经网络与多视图一致性的三维场景重建方法。

Claims (10)

1.一种基于神经网络与多视图一致性的三维场景重建方法,其特征在于,包括以下步骤:
步骤1、构建预训练的单目绝对深度估计模型;
步骤2、从待处理的视频数据中提取图像帧并进行下采样,得到下采样图像帧,将下采样图像帧输入步骤1的预训练的单目绝对深度估计模型,获取单目预测绝对深度图,采用模型预测绝对深度尺度偏移量恢复模块中的可优化深度参数,对单目预测绝对深度图间不一致的尺度与偏移量进行恢复,得到尺度偏移量一致深度图,将尺度偏移量一致深度图通过可优化的相机参数,在下采样图像帧间进行投影;
步骤3、利用LoFTR算法提取每张下采样图像帧的稀疏特征,并与其他下采样图像帧进行匹配,选取局部关键帧,根据两帧下采样图像之间的相对旋转角度选取全局关键帧,基于投影结果构建监督信号L,基于监督信号L对深度参数和相机参数进行训练,优化深度参数及相机参数;
步骤4、将单目预测绝对深度图和优化后的深度参数输入模型预测绝对深度尺度偏移量恢复模块,获取尺度偏移量一致深度图,将获取的尺度偏移量一致深度图与下采样图像帧和优化后的相机参数输入图像-深度融合模块,输出三维场景重建结果。
2.根据权利要求1所述的三维场景重建方法,其特征在于,步骤1中,所述的构建预训练的单目绝对深度估计模型的方法为:收集RGB-D图片-深度真值匹配对数据并分为高、中、低三种质量,采用不同的监督信号学习训练单目绝对深度估计模型,在模型训练时,设置标准相机空间,并根据拍摄图片相机的实际相机内参与标准相机空间的比例,将拍摄图片统一转换到标准相机空间进行学习,在推理时通过该变换的逆变换转换回原相机空间推理获取绝对深度。
3.根据权利要求1所述的三维场景重建方法,其特征在于,步骤2中,所述的下采样策略为:首先选定第1帧图像帧为第1帧下采样图像帧,针对第i帧下采样图像帧,往时间轴增加的方向挑选图像帧,当挑选到的图像帧与第i帧下采样图像帧之间的变化程度大于1/6时,选定该帧为第i+1帧下采样图像帧,i从1开始迭代此过程,直至遍历所有图像帧。
4.根据权利要求1所述的三维场景重建方法,其特征在于,步骤2中,所述的可优化深度参数包括全局尺度、全局偏移量和稀疏权重,基于全局尺度和全局偏移量对单目预测绝对深度图间全局尺度偏移量进行恢复,基于稀疏权重对单目预测绝对深度图间局部尺度偏移量进行恢复。
5.根据权利要求4所述的三维场景重建方法,其特征在于,步骤2中,所述的可优化的相机参数为相机位姿和相机内参,包括每两帧图像间的相对相机位姿欧拉角、平移向量和相机焦距优化系数。
6.根据权利要求5所述的三维场景重建方法,其特征在于,步骤3中,所述的监督信号L由各关键帧之间的光流监督Lflow、几何一致性Lgc、以及稀疏权重的正则化监督Lregu三部分组成:
L=λflowLflowgcLgcreguLregu
其中,分别为从第i帧到第j帧每两帧相机位姿之间的相对旋转欧拉角和相对位姿平移量;δ为相机内参可优化系数;αi,βi,ωi分别为为第i帧的全局尺度、全局偏移量值和稀疏权重;V代表第i帧投影到第j帧的有效投影点像素坐标集合;pi表示第i帧的像素坐标,并从V中获取;K′代表选取的关键帧集合,(i,j)代表第i帧与第j帧匹配的匹配对;pi→j表示从第i帧像素坐标pi投影至第j帧计算得到的像素坐标;Fi→j表示鲁棒光流网络RAFT预测得到的从第i帧到第j帧的光流信息;fsample(Dj,pi→j)表示从第j帧尺度偏移量一致深度图Dj中采样像素pi→j处的深度值;fsample(Di→j,pi)表示从第i帧投影至第j帧计算得到的投影深度图Di→j中采样像素pi处的深度值;ωi,t代表第i帧稀疏权重ωi的第t个分量;P表示下采样图像帧的数量;M表示一维向量ωi的长度;λflow,λgc和λregu为平衡各监督信号的权重超参数。
7.根据权利要求1所述的三维场景重建方法,其特征在于,步骤4中,采用基于截断的带符号距离函数对获取的尺度偏移量一致深度图与下采样图像帧和优化后的相机参数进行融合处理,输出三维场景重建结果。
8.一种基于神经网络与多视图一致性的三维场景重建装置,包括:
模型训练模块,用于构建预训练的单目绝对深度估计模型;
下采样及模型预测绝对深度尺度偏移量恢复模块,从待处理的视频数据中提取图像帧并进行下采样,得到下采样图像帧,将下采样图像帧输入预训练的单目绝对深度估计模型获取单目预测绝对深度图,采用模型预测绝对深度尺度偏移量恢复模块中的可优化深度参数,对单目预测绝对深度图间不一致的尺度与偏移量进行恢复,得到尺度偏移量一致深度图,将尺度偏移量一致深度图通过可优化的相机参数,在下采样图像帧间进行投影;
关键帧选取及参数优化模块,用于利用LoFTR算法提取每张下采样图像帧的稀疏特征,并与其他下采样图像帧进行匹配,选取局部关键帧,根据两帧下采样图像之间的相对旋转角度选取全局关键帧,基于投影结果构建监督信号L,基于监督信号L对深度参数和相机参数进行训练,优化深度参数及相机参数;
三维场景重建后处理模块,用于将单目预测绝对深度图和优化后的深度参数输入模型预测绝对深度尺度偏移量恢复模块,获取尺度偏移量一致深度图,将获取的尺度偏移量一致深度图与下采样图像帧和优化后的相机参数输入图像-深度融合模块,输出三维场景重建结果。
9.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现权利要求1-7中任一项所述的基于神经网络与多视图一致性的三维场景重建方法。
10.一种存储介质,存储有程序,所述程序被处理器执行时,实现权利要求1-7中任一项所述的基于神经网络与多视图一致性的三维场景重建方法。
CN202311534531.4A 2023-11-17 2023-11-17 基于神经网络与多视图一致性的三维场景重建方法和装置 Pending CN117523100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311534531.4A CN117523100A (zh) 2023-11-17 2023-11-17 基于神经网络与多视图一致性的三维场景重建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311534531.4A CN117523100A (zh) 2023-11-17 2023-11-17 基于神经网络与多视图一致性的三维场景重建方法和装置

Publications (1)

Publication Number Publication Date
CN117523100A true CN117523100A (zh) 2024-02-06

Family

ID=89754632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311534531.4A Pending CN117523100A (zh) 2023-11-17 2023-11-17 基于神经网络与多视图一致性的三维场景重建方法和装置

Country Status (1)

Country Link
CN (1) CN117523100A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117964029A (zh) * 2024-03-28 2024-05-03 内蒙古莱科作物保护有限公司 基于溴虫腈生产中产生的废液制备对氯苯甘氨酸的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117964029A (zh) * 2024-03-28 2024-05-03 内蒙古莱科作物保护有限公司 基于溴虫腈生产中产生的废液制备对氯苯甘氨酸的方法

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
Aleotti et al. Generative adversarial networks for unsupervised monocular depth prediction
Yang et al. Unsupervised learning of geometry from videos with edge-aware depth-normal consistency
Mou et al. IM2HEIGHT: Height estimation from single monocular imagery via fully residual convolutional-deconvolutional network
CN105654492B (zh) 基于消费级摄像头的鲁棒实时三维重建方法
CN110689562A (zh) 一种基于生成对抗网络的轨迹回环检测优化方法
Li et al. Generalizing to the open world: Deep visual odometry with online adaptation
CN117523100A (zh) 基于神经网络与多视图一致性的三维场景重建方法和装置
CN114782628A (zh) 基于深度相机的室内实时三维重建方法
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
CN113963117A (zh) 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN115880720A (zh) 一种基于置信度分享的无标注场景自适应人体姿态和外形估计方法
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
Li et al. Deep learning based monocular depth prediction: Datasets, methods and applications
Fang et al. Self-supervised learning of depth and ego-motion from videos by alternative training and geometric constraints from 3-d to 2-d
Wang et al. Underwater self-supervised monocular depth estimation and its application in image enhancement
Hosseinzadeh et al. Unsupervised learning of camera pose with compositional re-estimation
Sun et al. Cycle-SfM: Joint self-supervised learning of depth and camera motion from monocular image sequences
Lu Deep unsupervised visual odometry via bundle adjusted pose graph optimization
CN111696167A (zh) 自范例学习引导的单张影像超分辨率重构方法
CN107194334B (zh) 基于光流模型的视频卫星影像密集匹配方法及系统
Liang et al. Agnet: Attention guided sparse depth completion using convolutional neural networks
Zhang et al. Dyna-depthformer: Multi-frame transformer for self-supervised depth estimation in dynamic scenes
CN115115685A (zh) 一种基于自注意力神经网络的单目图像深度估计算法
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination