CN118196298A - 一种无先验位姿输入的三维重建方法 - Google Patents
一种无先验位姿输入的三维重建方法 Download PDFInfo
- Publication number
- CN118196298A CN118196298A CN202410393330.5A CN202410393330A CN118196298A CN 118196298 A CN118196298 A CN 118196298A CN 202410393330 A CN202410393330 A CN 202410393330A CN 118196298 A CN118196298 A CN 118196298A
- Authority
- CN
- China
- Prior art keywords
- image
- pose
- module
- radiation field
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000005855 radiation Effects 0.000 claims abstract description 58
- 210000005036 nerve Anatomy 0.000 claims abstract description 50
- 238000009877 rendering Methods 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 25
- 230000006798 recombination Effects 0.000 claims description 23
- 238000005215 recombination Methods 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 17
- 238000012952 Resampling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000001537 neural effect Effects 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 241000282326 Felis catus Species 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000002834 transmittance Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 230000008521 reorganization Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及三维重建领域,具体涉及一种无先验位姿输入的三维重建方法,包括以下步骤:S1、基于单目估计网络模型估计预处理多视角图像的深度图像和法向图像;S2、在无先验位姿输入的情况下,多视角图像基于多层感知器网络构建无位姿神经辐射场并经过体渲染预测三维模型颜色信息及对应输入图像视角下的深度图像和法向图像;S3、在构建无位姿神经辐射场的同时,利用相邻帧间提取几何信息优化相对位姿,之后经过体渲染,输出无畸变深度图像和无畸变法向图像得到三维模型几何信息;S4、通过等值面算法,将得到三维模型几何信息和颜色信息的无位姿神经辐射场转化为三维网格模型;本发明提高重建的准确性和鲁棒性,并能够处理更加复杂的场景和数据。
Description
技术领域
本发明涉及三维重建领域,具体涉及一种无先验位姿输入的三维重建方法。
背景技术
现有的基于深度学习的三维重建方法分为基于显式与基于隐式表达两类;显式表达方法,是基于如点云、体素、网格等显式内容通过学习图像特征、深度估计、点云重建等多个阶段构造深度学习网络重建三维模型的方法,但因为显式表达的离散性,使得模型不够精细化造成重叠等伪影,而且比较消耗内存。隐式表达方法,对图像基于隐式函数进行三维重建,通过使用神经网络学习隐式函数,可以从大规模数据集中学习物体的形状表示。这样的集成可以提高重建的准确性和鲁棒性,并能够处理更加复杂的场景和数据。
而隐式表达的三维重建方法,依赖于多视图的图像真值以及准确的相机坐标位置,常用的,相机坐标位置例如相机位姿和相机内参通过COLMAP等基于运动估计(Structure From Motion,SFM)的算法得到。但是,当一组图片的重叠度过低或者场景纹理特征匹配度不高时,COLMAP无法得到相机位姿,并且COLMAP估计的相机坐标位置信息限制了之后神经网络生成三维模型的准确性。
因此,需要改进隐式表达的三维重建方法,优化相机位姿的估计提高重建三维模型的准确性。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种无先验位姿输入的三维重建方法。
本发明提供了一种无先验位姿输入的三维重建方法,包括以下步骤:
S1、基于单目估计网络模型估计预处理多视角图像的深度图像和法向图像;
S2、在无先验位姿输入的情况下,多视角图像基于多层感知器网络构建无位姿神经辐射场并经过体渲染预测三维模型颜色信息及对应输入图像视角下的深度图像和法向图像;
S3、在构建无位姿神经辐射场的同时,利用相邻帧间提取几何信息优化相对位姿,之后经过体渲染,输出无畸变深度图像和无畸变法向图像得到三维模型几何信息;
S4、通过等值面算法,将得到三维模型几何信息和颜色信息的无位姿神经辐射场转化为三维网格模型。
进一步,在所述步骤S1中,具体包括以下步骤:
S1.1:对多视角图像进行预处理后提取标识;
输入多视角图像I0~In,多视角图像的尺寸是H×W,像素个数为p2,将所述多视角图像切分成Np个非重叠图像片元并利用特征提取模块提取对应的标识其中,Np=HW/p2,为每个标识属于维度为D的特征空间;同时引入一个对提取特征进行增强的嵌入标识强化空间位置信息,融合嵌入标识后得到共计Np+1个标识;
S1.2:对提取标识利用编码器和解码器进行编码、解码处理得到类图像;
将所有的Np+1个标识送入L层编码器进行编码,其中,每个编码器由多头自注意力机制模块和多层感知器组成,通过序列多头自注意力机制模块处理Np+1个标识,获取标识间的相关性;经过编码器后,标识t0转换为新的特征标识tl,其中l为第l层编码器的输出,之后,特征标识tl进入重组模块和融合模块组成的解码器,解码器将不同编码器层的标识tl组合为不同分辨率的类图像特征tR,通过三阶段重组模块完成特征解码;
经过重组模块解码后,多视角图像数据输入融合模块进行处理,所述融合模块包括残差卷积模块和上采样模块,在每个融合模块中,不同阶段抽取的特征图像首先作残差卷积,之后相加,接着再作残差卷积,最后进行渐进式采样融合,得到同输入多视角图像尺寸大小相同的类图像;
S1.3:所述类图像通过深度生成模块和法向图像生成模块生成对应的单目深度图像和法向图像。
进一步,对提取标识通过三阶段重组模块完成特征解码,具体步骤包括:
三阶段重组模块包括读入模块、连接模块和重采样模块;
所述重组模块的表达式为:
其中为输出特征维度,s为恢复的类图像tR的大小相对于输入多视角图像I0~In的大小之比;
(1)读入模块表达式为:
其中,t0为提取标识经过某一层编码器输出新的特征标识,cat(t1,t0)表示拼接标识t0与标识t1,表示将Np+1个标识映射为与空间连接的Np个标识;
通过读入模块,首先将标识t0与其他标识进行拼接,其中,为特征向量,然后使用GELU非线性层mlp将标识信息投影到原始特征维度D,从而将Np+1个标识映射为与空间连接的Np个标识;
(2)通过连接模块,将重塑的Np个标识拼接为类图像tR,生成具有D个通道的大小为(H+W)/P的特征图像;
(3)通过重采样模块,利用重采样方法得到四个尺寸的特征图像进行输出,输出特征维度为D,特征图像大小为(H+W)/S。
进一步,在步骤S1.3中,所述类图像通过深度生成模块和法向图像生成模块构生成对应的单目深度图像和法向图像;具体包括:
所述深度图像生成模块和法向图像生成模块均包括3×3卷积模块、1×1卷积模块和上一倍采样模块;
所述单目估计网络模型中的深度图像生成模块和法向图像生成模块对类图像作3×3卷积,之后做上一倍采样,再做3×3卷积和1×1卷积生成对应的深度图像和法向图像。
进一步,步骤S2中,在无先验位姿输入的情况下,多视角图像基于多层感知器网络构建无位姿神经辐射场,并经过体渲染预测三维模型的颜色信息及对应输入图像视角下的深度图像和法向图像,具体包括以下步骤:
步骤S2.1:多视角图像基于多层感知器网络构建无位姿神经辐射场,获取多视角图像的体密度与颜色信息;
对输入三维空间场景点的位置信息x和输入图像视角方向信息d通过位置编码生成对应的第一特征维数γ(x)为60和第二特征维数γ(d)为24;
所述位置编码的表达式为:
γ(p)=(sin(20πp),cos(20πp),…,sin(2L-1πp),cos(2L-1πp));
所述第一特征维数γ(x)和第二特征维数γ(d)基于多层感知器网络获取多层感知器参数,通过多层感知器参数构建无位姿神经辐射场;
S2.2:所述无位姿神经辐射场使用体渲染获取三维空间采样点的颜色及对应输入图像视角下的深度图像和法向图像;
S2.2a:三维空间采样点的颜色获取:在给定体密度与颜色信息的基础上,无位姿神经辐射场使用体渲染获取相机光线r(t)=o+td的颜色信息,其中d为方向信息、o为光心、t为光心到采样点的距离,通过跟随图像中的任意像素的相机光线颜色C(r)来渲染新视角,通过积分为:
其中,T(t)为光线从tn到t的累计透过率;r(t)为相机光线;σ(r(t))和c(r(t),d)为任意像素的相机光线预测密度及颜色信息;
对于离散数据,计算颜色的公式为:
其中,
δi为区域内抽取样本i到i+1的距离,σi和ci分别为沿着给定射线的样本点i的预测密度及颜色;
S2.2b:输入图像视角下的深度图像和法向图像的获取:
计算得到渲染的深度图像和法向图像计算公式如下式:
其中,ti和分别为沿着给定射线的样本点i的预测深度值和梯度值;
多视角图像通过步骤S2.2a和S2.2b训练得到粗糙网络后,根据体密度的概率密度确定物体存在的位置范围,通过采用层级采样的方法,设置每条光线采样点Nc+Nf个,其中包括Nc个均匀采样的点和Nf个层级采样的点,按粗糙网络的步骤训练精细网络,对于每一个像素,无位姿神经辐射场用粗糙网络和精细网络的平方误差之和L通过光度一致性约束对多层感知器参数进行优化,计算公式如下式:
其中,R为训练中每一批次光线的集合,为通过粗糙网络计算得到的颜色值,为精细网络计算得到的颜色值,C(r)为真实的颜色值;
对同预测的深度图像和法向图像一同送入多层感知器网络映射获得三维坐标及相应的颜色和密度值。
进一步,所述第一特征维数γ(x)和第二特征维数γ(d)基于多层感知器网络获取多层感知器参数,通过多层感知器参数构建无位姿神经辐射场,具体包括:
所述多层感知器网络包括8个依次排列通道数为256的第一全连接层和1个通道数为128的第二全连接层,其中,第8个第一全连接层无激活函数,第二全连接层的激活函数为s型激活函数;第1个至第7个第一全连接层的激活函数为线性整流函数,第一特征维数γ(x)通过第1个至第5个第一全连接层处理,第二特征维数γ(d)通过第8个第一全连接层输入编码后输出体密度,第二特征维数γ(d)通过第二全连接层的激活函数激活,输出在x位置上方向为d的射线的颜色信息,所述多层感知器参数包括所述体密度与所述颜色信息,通过多层感知器参数构建无位姿神经辐射场。
进一步,所述步骤S3,具体包括以下步骤:
将单目深度图像和法向图像融入所述无位姿神经辐射场的训练中提供几何约束优化相对位姿,几何约束包括单目深度图像、法向图像之间的损失、点云损失和基于表面的光度损失,
所述单目深度图像、法向图像之间的损失:通过无位姿神经辐射场渲染不连续的深度图像Di,法向图像Ni,经过线性变换的尺度系数αi,ηi和偏移系数βi,λi的校正,得到无畸变的深度图像和法向图像计算公式如下式:
因此,计算优化前后的深度图像损失Ldepth和法向图像损失Lnormal来优化尺度系数αi,ηi和偏移系数βi,λi,计算公式如下式:
所述点云损失:从无畸变的深度图像反投影可得到第i帧的点云之后利用第i帧的相机位姿Ti和第j帧的相机位姿Tj,把第i帧的点云Pi投影到第j帧的点云上,公式为:
并用倒角距离lcd衡量两个点云之间的差异,公式如下:
其中,第一部分求和运算为点云Pi中的点pi到点云Pj中的点pj里的所有点的最小距离之和,第二部分求和运算为点云Pj中的点pj到点云Pi中的点pi的所有点的最小距离之和;
因此,通过点云损失Lpc来优化相对位姿T,公式如下:
所述基于表面的光度损失:利用相机i的相机内参Ki和相机j的相机内参Kj把点云投影到第i帧图像Ii和第j帧图像Ij上,之后在两幅图像上对投影位置采样作差,采样操作为<·>,由此构建基于表面的光度损失Lrgb-s,公式如下:
通过光度损失Lrgb-s惩罚相关像素之间的差异,优化相对位姿T。
进一步,其特征在于,在步骤S4中,具体包括以下步骤:
S4.1,加载无位神经辐射场模型权重,并将三维空间场景划分成离散的体素,每个体素包含一个三维坐标和相应的颜色值和密度值;
S4.2,采用等值面提取算法,将获得的三维坐标和相应的颜色和密度值的神经辐射场转化为三维网格模型;
S4.2a,对每个体素格子,根据无位神经辐射场模型计算其8个顶点的颜色值和密度值,并根据颜色值和密度值,确定体素格子内部是否包含等值面,并计算等值面与体素边界之间的交叉点;
S4.2b,根据交叉点的位置和边界情况,生成相应的三角面片,此外,根据交叉点的相对位置,确定三角面片的连接方式;重复上述步骤,处理每个体素格子,直到整个体素化场景被遍历;
S4.2c,通过将共享顶点的三角面片连接在一起,将生成的三角面片连接成一个完整的三角网格模型,得到由三角面片组成的显式三维模型;
与现有技术相比,本发明的有益效果在于:
本发明基于无先验位姿输入的神经辐射场构建三维模型的隐式表达,利用单目估计网络得到的深度图像、法向图像来给神经辐射场的训练提供几何约束优化相对位姿,此外利用相邻帧间的多视图像一致性来优化相对位姿,采用等值面提取算法,将获得的三维坐标和相应的颜色和密度值的神经辐射场转化为三维网格模型;本申请通过使用神经网络学习隐式函数,可从大规模数据集中学习物体的形状,这样的集成可以提高重建的准确性和鲁棒性,并能够处理更加复杂的场景和数据。
附图说明
以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的范围,其中:
图1:本发明无先验位姿输入的三维重建方法具体实施例流程图;
图2:本发明单目估计网络结构图;
图3:本发明神经辐射场的多层感知器网络结构图;
图4:本发明无先验位姿输入的三维重建方法流程图。
具体实施方式
为了使本发明的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种无先验位姿输入的三维重建方法,包括以下步骤:
S1、基于单目估计网络模型估计预处理多视角图像的深度图像和法向图像;
多视角图像为摄像机在不同角度采集的,场景目标的连续的、不同角度的原始影像及;
其中,在所述步骤S1中,具体包括以下步骤:
S1.1:对多视角图像进行预处理后提取标识;
输入多视角图像I0~In,多视角图像的尺寸是H×W,像素个数为p2,将所述多视角图像切分成Np个非重叠图像片元并利用ResNet50构成的特征提取模块提取对应的标识其中,Np=HW/p2,为每个标识属于维度为D的特征空间;同时引入一个对提取特征进行增强的嵌入标识强化空间位置信息,融合嵌入标识后得到Np+1标识,
S1.2:对提取标识利用编码器和解码器进行编码、解码处理得到类图像;
将Np+1标识送入L层编码器进行编码,其中,每个编码器由多头自注意力机制模块和多层感知器组成,通过序列多头自注意力机制模块处理Np+1个标识,获取标识间的相关性;经过编码器后,标识t0转换为新的特征标识tl,其中l为第l层编码器的输出,之后,特征标识tl进入重组模块和融合模块组成的解码器,解码器将不同编码器层的标识tl组合为不同分辨率的类图像特征tR,通过三阶段重组模块完成特征解码;
重组模块包括读入模块、连接模块和重采样模块;
其中,所述重组模块的表达式为,
其中为输出特征维度,s为恢复的类图像tR相对于输入多视角图像的大小比;所述重组模块由读入模块、连接模块和重采样模块组成,其中,重组模块中重组模块4、重组模块8、重组模块12、重组模块32分别为该模块中重采样模块的采样倍数为4、8、12、32;
(1)读入模块表达式为:
其中,t0为提取标识经过某一层编码器输出新的特征标识,cat(t1,t0)表示拼接标识t0与标识t1;表示将Np+1个标识映射为与空间连接的Np个标识;
通过读入模块,首先将标识t0与其他标识进行拼接,其中,为特征向量,然后使用GELU非线性层mlp将标识信息投影到原始特征维度D,从而将Np+1个标识映射为与空间连接的Np个标识;
(2)通过连接模块,将重塑的Np个标识拼接为类图像tR,生成具有D个通道的大小为(H+W)/P的特征图像;
(3)通过重采样模块,利用重采样方法得到四个尺寸的特征图像进行输出,输出特征维度为D,特征图像大小为(H+W)/S;
经过重组模块解码后,基于RefineNet的特征融合模块,其中,所述融合模块包括残差卷积模块和上采样模块,对每个融合模块中先对不同阶段抽取的特征图像作残差卷积,之后相加,再作残差卷积,最后进行渐进式采样融合,得到同输入多视角图像尺寸大小相同的类图像;
S1.3:所述类图像通过深度生成模块和法向图像生成模块生成对应的单目深度图像和法向图像;
所述深度图像生成模块和法向图像生成模块均包括3×3卷积模块、1×1卷积模块和上一倍采样模块,
所述单目估计网络模型中的深度图像生成模块和法向图像生成模块首先对类图像为作3×3卷积,之后做上一倍采样,再做3×3卷积和1×1卷积生成对应深度图像和法向图像;
具体实施中,图1对应步骤S1中构建的单目估计网络,输入图片先进行无重叠的切割,生成Np个图像片元,之后经过ResNet50构成的特征提取模块,生成Np个对应标识,此外引入1个嵌入标识得到Np+1个标识,将Np+1个标识送入L层编码器模块进行编码,其中,每个编码器由多头自注意力机制模块和多层感知器组成,通过序列多头自注意力机制模块处理Np+1个标识,获取标识间的相关性;
之后,重组模块和融合模块组成的解码器,将标识解码为类图像,类图像为大小同输入图像大小相同。
每个重组模块由读入模块、连接模块和重采样模块组成,其中重组模块4、重组模块8、重组模块12、重组模块32分别为该模块中重采样模块的采样倍数为4、8、12、32。每个融合模块中先对特征作残差卷积,之后相加,再作残差卷积,最后进行一倍上采样。最后,通过深度图像生成模块和法向图像生成模块生成深度图像和法向图像。各模块首先对类图像为作3×3卷积,之后做上一倍采样,再作3×3卷积和1×1卷积生成对应图像;
S2、在无先验位姿输入的情况下,多视角图像基于多层感知器网络构建无位姿神经辐射场并经过体渲染预测三维模型颜色信息及对应输入图像视角下的深度图像和法向图像;
在步骤S2中,在无先验位姿输入的情况下,相机光线基于多层感知器网络构建无位姿神经辐射场,无位姿神经辐射场经过体渲染预测三维模型的颜色信息;
步骤S2.1:对输入三维空间场景点的位置信息x和输入图像视角方向信息d通过位置编码生成对应的第一特征维数为60γ(x)和第二特征维数为24γ(d);
所述位置编码的表达式为:
γ(p)=(sin(20πp),cos(20πp),…,sin(2L-1πp),cos(2L-1πp));
所述第一特征维数γ(x)和第二特征维数γ(d)基于多层感知器网络获取多层感知器参数,通过多层感知器参数构建无位姿神经辐射场;
所述多层感知器网络包括8个依次排列通道数为256的第一全连接层和1个通道数为128的第二全连接层,其中,第8个第一全连接层无激活函数,第二全连接层的激活函数为sigmoid,sigmoid为常用的连续、平滑的s型激活函数;第1个至第7个第一全连接层的激活函数为ReLU,ReLU全称为RectifiedLinearUnit,中文名称是线性整流函数,γ(x)通过第1个至第5个第一全连接层处理,γ(d)通过第8个第一全连接层输入编码后输出体密度σ,γ(d)通过第二全连接层的激活函数sigmoid激活,输出在x位置上方向为d的射线的RGB信息c=(r,g,b);其中,r为红色,g为绿色,b为蓝色;所述体密度σ和RGB信息为多层感知器参数;通过多层感知器参数构建无位姿神经辐射场;
具体实施中,图2对应步骤S2中构建的神经辐射场的多层感知器网络,输入的位置信息x和方向信息d通过位置编码生成对应的特征维数为60的γ(x)和特征维数为24的γ(d)。之后送入多层感知器网络。网络由8个通道数为256的全连接层和1个通道数为128的全连接层组成,其中第8个通道数为256的全连接层无激活函数,通道数为128的全连接层的激活函数为sigmoid,其他全连接层的激活函数为ReLU。γ(x)在第1个和第5个全连接层输入,γ(d)在第8个全连接层输入。在第8个全连接层输出体密度,通道数为128的全连接层输出RGB值,之后经过体渲染得到三维空间采样点的颜色,和对应输入图像视角下的深度图像和法向图像。体渲染中,对于尺寸为400*400的输入图像,随机选512个点的构造光线,每条光线采样196个点,包括64个均匀采样点和128个层级采样点。
S2.2:所述无位姿神经辐射场使用体渲染获取三维空间采样点的颜色及对应输入图像视角下的深度图像和法向图像;包括:
S2.2a:三维空间采样点的颜色获取:在给定体密度与颜色信息的基础上,无位姿神经辐射场使用体渲染获取相机光线r(t)=o+td的颜色信息,其中,d为方向信息、o为光心、t为光心到采样点的距离,通过跟随图像中的任意像素的相机光线颜色C(r)来渲染新视角,通过积分为:
其中,T(t)为光线从tn到t的累计透过率;r(t)为相机光线;σ(r(t))和c(r(t),d)为任意像素的相机光线预测密度及颜色信息;
对于离散数据,计算颜色的公式为:
其中,
δi为区域内抽取样本i到i+1的距离,σi和ci分别为沿着给定射线的样本点i的预测密度及颜色;
S2.2b:输入图像视角下的深度图像和法向图像的获取:
通过计算得到渲染的深度图像和法向图像计算公式如下式:
其中,ti和分别为沿着给定射线的样本点i预测深度值和梯度值;
多视角图像通过步骤S2.2a和S2.2b训练得到粗糙网络后,根据体密度的概率密度确定物体存在的位置范围,通过采用层级采样的方法,设置每条光线采样点Nc+Nf个,其中包括Nc个均匀采样的点和Nf个层级采样的点,按粗糙网络的步骤训练精细网络,对于每一个像素,无位姿神经辐射场用粗糙网络和精细网络的平方误差之和L通过光度一致性约束对多层感知器参数进行优化,公式如下式,
其中,R为训练中每一批次光线的集合,为通过粗糙网络计算得到的颜色值,为精细网络计算得到的颜色值,C(r)为真实的颜色值;
对同预测的深度图像和法向图像一同送入多层感知器网络映射获得三维坐标及相应的颜色和密度值;
S3、在构建无位姿神经辐射场的同时,利用相邻帧间提取几何信息优化相对位姿,之后经过体渲染,输出无畸变深度图像和无畸变法向图像得到三维模型几何信息;
将单目深度图像和法向图像融入所述无位姿神经辐射场的训练中提供几何约束优化相对位姿,几何约束包括单目深度图像、法向图像之间的损失、点云损失和基于表面的光度损失,
所述单目深度图像、法向图像之间的损失:通过无位姿神经辐射场渲染不连续的深度图像Di,法向图像Ni,经过线性变换的尺度系数αi,ηi和偏移系数βi,λi的校正,得到优化后的深度图像和法向图像计算公式如下式:
因此,计算优化前后的深度图像损失Ldepth和法向图像损失Lnormal来优化尺度系数αi,ηi和偏移系数βi,λi;
所述点云损失:从无畸变的深度图像反投影可得到第i帧的点云之后利用第i帧的相机位姿Ti和第j帧的相机位姿Tj,把第i帧的点云Pi投影到第j帧的点云上,计算公式如下式:
并用倒角距离lcd衡量两个点云之间的差异,计算公式如下式:
其中,第一部分求和运算为点云Pi中的点pi到点云Pj中的点pj里的所有点的最小距离之和,第二部分求和运算为点云Pj中的点pj到点云Pi中的点pi的所有点的最小距离之和;
因此,通过点云损失Lpc来优化相对位姿T,计算公式如下式:
所述基于表面的光度损失:利用相机i的相机内参Ki和相机j的相机内参Kj把点云投影到第i帧图像Ii和第j帧图像Ij上,之后在两幅图像上对投影位置采样作差,采样操作为<·>,由此构建基于表面的光度损失Lrgb-s,计算公式如下式:
通过光度损失Lrgb-s惩罚相关像素之间的差异,优化相对位姿T;
S4、通过等值面算法,将得到三维模型几何信息和颜色信息的无位姿神经辐射场转化为三维网格模型;
S4.1,加载无位神经辐射场模型权重,并将三维空间场景划分成离散的体素,每个体素包含一个三维坐标和相应的颜色值和密度值;
S4.2,采用等值面提取算法,将获得的三维坐标和相应的颜色和密度值的神经辐射场转化为三维网格模型;
S4.2a,对每个体素格子,根据无位神经辐射场模型计算其8个顶点的颜色值和密度值,并根据颜色值和密度值,确定体素格子内部是否包含等值面,并计算等值面与体素边界之间的交叉点;
S4.2b,根据交叉点的位置和边界情况,生成相应的三角面片,此外,根据交叉点的相对位置,确定三角面片的连接方式;重复上述步骤,处理每个体素格子,直到整个体素化场景被遍历;
S4.2c,通过将共享顶点的三角面片连接在一起,将生成的三角面片连接成一个完整的三角网格模型,得到由三角面片组成的显式三维模型;
本发明三维重建方法适用于场景或者物体的三维重建,输入多视图像,最终得到对应场景或者物体的合成的新视角图像和显式网格模型,通过几何先验来优化相机位姿的估计,为基于隐式表达的三维重建提供了一种无先验位姿输入的方法。
本发明基于无先验位姿输入的神经辐射场构建三维模型的隐式表达,利用单目估计网络得到的深度图像、法向图像来给神经辐射场的训练提供几何约束优化相对位姿,此外利用相邻帧间的多视图像一致性来优化相对位姿;采用等值面提取算法,将获得的三维坐标和相应的颜色和密度值的神经辐射场转化为三维网格模型;本申请通过使用神经网络学习隐式函数,可从大规模数据集中学习物体的形状,这样的集成可以提高重建的准确性和鲁棒性,并能够处理更加复杂的场景和数据;截取重建后模型的渲染图像和原始图像,通过峰值信噪比(Peak Signal to Noise Ratio,PSNR)、结构相似性指数(structuralsimilarity index,SSIM)和学习感知图像块相似度(Learned Perceptual Image PatchSimilarity,LPIPS)衡量重建效果,得到平均峰值信噪比为20.22,结构相似性指数为0.65,学习感知图像块相似度为0.60,如下表1所示,
表1算法定量对比
综上可见,同无先验位姿输入方法BARF比较,说明本发明可以得到更好的重建效果。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (8)
1.一种无先验位姿输入的三维重建方法,其特征在于,包括以下步骤:
S1、基于单目估计网络模型估计预处理多视角图像的深度图像和法向图像;
S2、在无先验位姿输入的情况下,多视角图像基于多层感知器网络构建无位姿神经辐射场并经过体渲染预测三维模型颜色信息及对应输入图像视角下的深度图像和法向图像;
S3、在构建无位姿神经辐射场的同时,利用相邻帧间提取几何信息优化相对位姿,之后经过体渲染,输出无畸变深度图像和无畸变法向图像得到三维模型几何信息;
S4、通过等值面算法,将得到三维模型几何信息和颜色信息的无位姿神经辐射场转化为三维网格模型。
2.根据权利要求1所述的一种无先验位姿输入的三维重建方法,其特征在于,在所述步骤S1中,具体包括以下步骤:
S1.1:对多视角图像进行预处理后提取标识;
输入多视角图像I0~In,多视角图像的尺寸是H×W,像素个数为p2,将所述多视角图像切分成Np个非重叠图像片元并利用特征提取模块提取对应的标识其中,Np=HW/p2,表示每个标识属于维度为D的特征空间;同时引入一个对提取特征进行增强的嵌入标识强化空间位置信息,融合嵌入标识后得到共计Np+1个标识;
S1.2:对提取标识利用编码器和解码器进行编码、解码处理得到类图像;
将Np+1个标识送入L层编码器进行编码,其中,每个编码器由多头自注意力机制模块和多层感知器组成,通过序列多头自注意力机制模块处理Np+1个标识,获取标识间的相关性;经过编码器后,标识t0转换为新的特征标识tl,其中l为第l层编码器的输出,之后,特征标识tl进入重组模块和融合模块组成的解码器,解码器将不同编码器层的标识tl组合为不同分辨率的类图像特征tR,通过三阶段重组模块完成特征解码;
经过重组模块解码后,多视角图像数据输入融合模块进行处理,所述融合模块包括残差卷积模块和上采样模块,在每个融合模块中,不同阶段抽取的特征图像首先作残差卷积,之后相加,接着再作残差卷积,最后进行渐进式采样融合,得到同输入多视角图像尺寸大小相同的类图像;
S1.3:所述类图像通过深度生成模块和法向图像生成模块生成对应的单目深度图像和法向图像。
3.根据权利要求1所述的一种无先验位姿输入的三维重建方法,其特征在于,对提取标识通过三阶段重组模块完成特征解码,具体步骤包括:
三阶段重组模块包括读入模块、连接模块和重采样模块;
所述重组模块的表达式为:
其中为输出特征维度,s为恢复的类图像tR的大小相对于输入多视角图像I0~In的大小之比;
(1)读入模块表达式为:
其中,t0为提取标识经过某一层编码器输出新的特征标识,cat(t1,t0)表示拼接标识t0与标识t1,表示将Np+1个标识映射为与空间连接的Np个标识;
通过读入模块,首先将标识t0与其他标识进行拼接,其中,为特征向量,然后使用GELU非线性层mlp将标识信息投影到原始特征维度D,从而将Np+1个标识映射为与空间连接的Np个标识;
(2)通过连接模块,将重塑的Np个标识拼接为类图像tR,生成具有D个通道的大小为(H+W)/P的特征图像;
(3)通过重采样模块,利用重采样方法得到四个尺寸的特征图像进行输出,输出特征维度为D,特征图像大小为(H+W)/S。
4.根据权利要求2所述的一种无先验位姿输入的三维重建方法,其特征在于,在步骤S1.3中,所述类图像通过深度生成模块和法向图像生成模块构生成对应的单目深度图像和法向图像;具体包括:
所述深度图像生成模块和法向图像生成模块均包括3×3卷积模块、1×1卷积模块和上一倍采样模块;
所述单目估计网络模型中的深度图像生成模块和法向图像生成模块对类图像作3×3卷积,之后做上一倍采样,再做3×3卷积和1×1卷积生成对应的深度图像和法向图像。
5.根据权利要求1所述的一种无先验位姿输入的三维重建方法,其特征在于,步骤S2中,在无先验位姿输入的情况下,多视角图像基于多层感知器网络构建无位姿神经辐射场,并经过体渲染预测三维模型的颜色信息及对应输入图像视角下的深度图像和法向图像,具体包括以下步骤:
步骤S2.1:多视角图像基于多层感知器网络构建无位姿神经辐射场;
对输入三维空间场景点的位置信息x和输入图像视角方向信息d通过位置编码生成对应的第一特征维数γ(x)为60和第二特征维数γ(d)为24;
所述位置编码的表达式为:
γ(p)=(sin(20πp),cos(20πp),…,sin(2L-1πp),cos(2L-1πp));
所述第一特征维数γ(x)和第二特征维数γ(d)基于多层感知器网络获取多层感知器参数,通过多层感知器参数构建无位姿神经辐射场;
S2.2:所述无位姿神经辐射场使用体渲染获取三维空间采样点的颜色及对应输入图像视角下的深度图像和法向图像;
S2.2a:三维空间采样点的颜色获取:在给定体密度与颜色信息的基础上,无位姿神经辐射场使用体渲染获取相机光线r(t)=o+td的颜色信息,其中,d为方向信息、o为光心、t为光心到采样点的距离,通过跟随图像中的任意像素的相机光线颜色C(r)来渲染新视角,通过积分为:
其中,T(t)为光线从tn到t的累计透过率;r(t)为相机光线;σ(r(t))和c(r(t),d)为任意像素的相机光线预测密度及颜色信息;
对于离散数据,计算颜色的公式为:
其中,
δi为区域内抽取样本i到i+1的距离,σi和ci分别为沿着给定射线的样本点i的预测密度及颜色;
S2.2b:输入图像视角下的深度图像和法向图像的获取:
通过计算得到渲染的深度图像和法向图像计算公式如下式:
其中,ti和分别为沿着给定射线的样本点i的预测深度值和梯度值;
多视角图像通过步骤S2.2a和S2.2b训练得到粗糙网络后,根据体密度的概率密度确定物体存在的位置范围,通过采用层级采样的方法,设置每条光线采样点Nc+Nf个,其中包括Nc个均匀采样的点和Nf个层级采样的点,按粗糙网络的步骤训练精细网络,对于每一个像素,无位姿神经辐射场用粗糙网络和精细网络的平方误差之和L通过光度一致性约束对多层感知器参数进行优化,计算公式如下式:
其中,R为训练中每一批次光线的集合,为通过粗糙网络计算得到的颜色值,为精细网络计算得到的颜色值,C(r)为真实的颜色值;
对同预测的深度图像和法向图像一同送入多层感知器网络映射获得三维坐标及相应的颜色和密度值。
6.根据权利要求5所述的一种无先验位姿输入的三维重建方法,其特征在于,所述第一特征维数γ(x)和第二特征维数γ(d)基于多层感知器网络获取多层感知器参数,通过多层感知器参数构建无位姿神经辐射场;具体包括:
所述多层感知器网络包括8个依次排列通道数为256的第一全连接层和1个通道数为128的第二全连接层,其中,第8个第一全连接层无激活函数,第二全连接层的激活函数为s型激活函数;第1个至第7个第一全连接层的激活函数为线性整流函数,第一特征维数γ(x)通过第1个至第5个第一全连接层处理,第二特征维数γ(d)通过第8个第一全连接层输入编码后输出体密度;第二特征维数γ(d)通过第二全连接层的激活函数激活,输出在x位置上方向为d的射线的颜色信息;
所述多层感知器参数包括体密度与颜色信息,通过多层感知器参数构建无位姿神经辐射场。
7.根据权利要求1所述的一种无先验位姿输入的三维重建方法,其特征在于,所述步骤S3,具体包括以下步骤:
将单目深度图像和法向图像融入所述无位姿神经辐射场的训练中提供几何约束优化相对位姿,几何约束包括单目深度图像、法向图像之间的损失、点云损失和基于表面的光度损失,
所述单目深度图像、法向图像之间的损失:通过无位姿神经辐射场渲染不连续的深度图像Di,法向图像Ni,经过线性变换的尺度系数αi,ηi和偏移系数βi,λi的校正,得到无畸变的深度图像和法向图像计算公式如下式:
因此,计算优化前后的深度图像损失Ldepth和法向图像损失Lnormal来优化尺度系数αi,ηi和偏移系数βi,λi,计算公式如下式:
所述点云损失:从无畸变的深度图像反投影可得到第i帧的点云之后利用第i帧的相机位姿Ti和第j帧的相机位姿Tj,把第i帧的点云Pi投影到第j帧的点云Pj *上,公式为:
并用倒角距离lcd衡量两个点云之间的差异,公式如下:
其中,第一部分求和运算为点云Pi中的点pi到点云Pj中的点pj里的所有点的最小距离之和,第二部分求和运算为点云Pj中的点pj到点云Pi中的点pi的所有点的最小距离之和;
因此,通过点云损失Lpc来优化相对位姿T,公式如下:
所述基于表面的光度损失:利用相机i的相机内参Ki和相机j的相机内参Kj把点云Pi *投影到第i帧图像Ii和第j帧图像Ij上,之后在两幅图像上对投影位置采样作差,采样操作为<·>,由此构建基于表面的光度损失Lrgb-s,公式如下:
通过光度损失Lrgb-s惩罚相关像素之间的差异,优化相对位姿T。
8.根据权利要求1所述的一种无先验位姿输入的三维重建方法,其特征在于,在步骤S4中,具体包括以下步骤:
S4.1,加载无位神经辐射场模型权重,并将三维空间场景划分成离散的体素,每个体素包含一个三维坐标和相应的颜色值和密度值;
S4.2,采用等值面提取算法,将获得的三维坐标和相应的颜色和密度值的神经辐射场转化为三维网格模型;
S4.2a,对每个体素格子,根据无位神经辐射场模型计算其8个顶点的颜色值和密度值,并根据颜色值和密度值,确定体素格子内部是否包含等值面,并计算等值面与体素边界之间的交叉点;
S4.2b,根据交叉点的位置和边界情况,生成相应的三角面片,此外,根据交叉点的相对位置,确定三角面片的连接方式;重复上述步骤,处理每个体素格子,直到整个体素化场景被遍历;
S4.2c,通过将共享顶点的三角面片连接在一起,将生成的三角面片连接成一个完整的三角网格模型,得到由三角面片组成的显式三维模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410393330.5A CN118196298A (zh) | 2024-04-02 | 2024-04-02 | 一种无先验位姿输入的三维重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410393330.5A CN118196298A (zh) | 2024-04-02 | 2024-04-02 | 一种无先验位姿输入的三维重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118196298A true CN118196298A (zh) | 2024-06-14 |
Family
ID=91415019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410393330.5A Pending CN118196298A (zh) | 2024-04-02 | 2024-04-02 | 一种无先验位姿输入的三维重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118196298A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118644562A (zh) * | 2024-08-15 | 2024-09-13 | 北京天数智芯半导体科技有限公司 | 一种模型训练方法、三维点云获取方法及电子设备 |
-
2024
- 2024-04-02 CN CN202410393330.5A patent/CN118196298A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118644562A (zh) * | 2024-08-15 | 2024-09-13 | 北京天数智芯半导体科技有限公司 | 一种模型训练方法、三维点云获取方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Genova et al. | Local deep implicit functions for 3d shape | |
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
CN110009674B (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
CN118196298A (zh) | 一种无先验位姿输入的三维重建方法 | |
CN113762147B (zh) | 人脸表情迁移方法、装置、电子设备及存储介质 | |
CN111768452A (zh) | 一种基于深度学习的非接触式自动贴图方法 | |
CN112614070B (zh) | 一种基于DefogNet的单幅图像去雾方法 | |
CN113850900B (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
CN116416375A (zh) | 一种基于深度学习的三维重建方法和系统 | |
CN116721210A (zh) | 基于神经有符号距离场的实时高效三维重建方法及装置 | |
CN117413300A (zh) | 用于训练量化神经辐射场的方法和系统 | |
CN114742966A (zh) | 一种基于图像的三维场景重建方法及装置 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
EP4292059A1 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN116912405A (zh) | 一种基于改进MVSNet的三维重建方法及系统 | |
CN113763539B (zh) | 一种基于图像和三维输入的隐式函数三维重建方法 | |
CN117274493A (zh) | 一种融合深度估计的神经隐式表面重建方法及装置 | |
CN117745932A (zh) | 一种基于深度融合约束的神经隐式曲面重建方法 | |
CN117115359A (zh) | 一种基于深度图融合的多视图电网三维空间数据重建方法 | |
CN117252987B (zh) | 一种基于显式和隐式混合编码的动态场景重建方法 | |
CN118154770A (zh) | 基于神经辐射场的单幅树木图像三维重建方法和装置 | |
CN117893701A (zh) | 水下环境三维重建方法、装置及系统和存储介质 | |
CN117939092A (zh) | 一种基于明暗通道先验的投影融合补偿方法及系统 | |
CN112115864B (zh) | 红外图像及深度图像双模态目标分割方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |