CN116452748A - 一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端 - Google Patents
一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端 Download PDFInfo
- Publication number
- CN116452748A CN116452748A CN202310455368.6A CN202310455368A CN116452748A CN 116452748 A CN116452748 A CN 116452748A CN 202310455368 A CN202310455368 A CN 202310455368A CN 116452748 A CN116452748 A CN 116452748A
- Authority
- CN
- China
- Prior art keywords
- implicit
- dimensional reconstruction
- depth
- image
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000009877 rendering Methods 0.000 title claims abstract description 31
- 238000005070 sampling Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000004069 differentiation Effects 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 239000003086 colorant Substances 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端,包括:构建隐式三维重建模型,输入单张单视图并对所述单视图进行图像编码;对编码后的图像进行等间距采样,得到采样点;根据所述采样点预估表面深度;根据预估的表面深度计算深度损失,将采样点反投影到3D空间并在给定深度评估其RGB纹理,其中,利用隐式微分计算表面深度相对于网络参数的梯度;根据深度损失与RGB纹理评估结果对所述隐式三维重建模型进行训练;调用训练好的隐式三维重建模型进行单视图的三维重建。本发明能够满足低内存占用的三维重建需求,同时以更好的分辨率输出三维模型。
Description
技术领域
本发明涉及三维重建技术领域,尤其涉及一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端。
背景技术
三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中建立表达客观世界的虚拟现实的关键技术。三维重建技术是移动机器人自主导航、位置环境模型重构、大规模数字化监控等的重要组成部分,也是虚拟现实(Virtual Reality,VR))、增强现实(AugmentedReality,AR)技术的基础,经过重建后的三维模型可以直接应用到VR或AR的场景中。在计算机视觉中,三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视频的信息不完全,因此三维重建需要利用经验知识。而多视图的三维重建(类似人的双目定位)相对比较容易,其方法是先对摄像机进行标定,即计算出摄像机的图象坐标系与世界坐标系的关系,然后利用多个二维图象中的信息重建出三维信息。物体三维重建是计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。在计算机内生成物体三维表示主要有两类方法。一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型,另一类是通过一定的手段获取真实物体的几何形状。前者实现技术已经十分成熟,现有若干软件支持,比如:3DMAX、Maya、AutoCAD、UG等等,它们一般使用具有数学表达式的曲线曲面表示几何形状。
近些年来,随着深度学习技术(Deep learning)在计算机视觉领域的广泛应用,基于深度学习的3D重建方法已经取得了令人瞩目的成果,其通过在训练过程中获取丰富的先验知识,它们能够从一张图像中推断出一个3D模型。然而,大多数基于深度学习方法的适用范围都受限于合成数据集,主要是因为它们需要准确的3D真实模型参数作为训练的监督值。而非合成数据集往往难以提供如此完整精准的监督标准。为了克服这个障碍,一些工作提出了只需要二维监督(如深度图或多视角图像)的方法。但它们受到特定的3D表示形式(例如体素或网格)的限制,这些表示形式容易出现离散化伪影,而且计算成本限制了它们的分辨率或对固定模板网格的变形。然而,现有使用隐式表示形式的方法需要3D地面真实模型进行训练,而如何仅从图像数据中学习隐式表示形式仍然不清楚。
所以目前基于深度学习的三维重建方法障碍在于:(1)在3D监督的条件下,可用于训练的数据集非常少,导致深度神经网络的学习受限,无法进行通用性三维重建。(2)使用2D监督的神经网络模型的数据表示形式受限,如体素受限于内存占用和计算时间,输出结果的分辨率需要立方级的成本付出;而网格表示形式容易出现伪影、自交叠等模型问题,需要重新修正。
发明内容
本发明的目的在于克服现有三维重建方法存在的不足,提供了一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端,能在不改变内存占用和计算成本的条件下表示高分辨率的三维模型,提高三维重建质量。
本发明的目的是通过以下技术方案来实现的:
在第一方面,提供一种基于可微分体积渲染的隐式三维重建方法,所述方法包括以下步骤:
S1、构建隐式三维重建模型,输入单张单视图并对所述单视图进行图像编码;
S2、对编码后的图像进行等间距采样,得到采样点;
S3、根据所述采样点预估表面深度;
S4、根据预估的表面深度计算深度损失,将采样点反投影到3D空间并在给定深度评估其RGB纹理;所述根据预估的表面深度计算深度损失,包括:
利用隐式微分计算表面深度相对于网络参数的梯度,所述网络参数表示模型中各个神经元的权重集合;
S5、根据深度损失与RGB纹理评估结果对所述隐式三维重建模型进行训练;
S6、调用训练好的隐式三维重建模型进行单视图的三维重建。
作为一优选项,一种基于可微分体积渲染的隐式三维重建方法,所述对所述单视图进行图像编码,包括:
通过全局描述符约束隐式三维重建模型的输出。
作为一优选项,一种基于可微分体积渲染的隐式三维重建方法,所述对编码后的图像进行等间距采样,包括:
对图像点以一定的射线采样精度采样。
作为一优选项,一种基于可微分体积渲染的隐式三维重建方法,所述步骤S3包括:
将采样点投影到三维空间,并在沿着从相机原点到该点的射线上的固定步骤中评估存在概率网络;
通过存在概率网络在光线上的变化确定表面深度。
作为一优选项,一种基于可微分体积渲染的隐式三维重建方法,应用迭代割线法,计算表面深度的估量值。
作为一优选项,一种基于可微分体积渲染的隐式三维重建方法,所述根据预估的表面深度计算深度损失,包括:
在单个图像观测上计算重建损失如下:
其中,I表示观察到的图像,是由DIR隐式渲染的图像,Iu表示任意像素处的RGB真实值,/>表示对应位置的预测值;||·||是L1范数,代表向量中各个元素的绝对值之和。
作为一优选项,一种基于可微分体积渲染的隐式三维重建方法,所述隐式三维重建模型的网络结构包括ResNet-18编码器、5个全连接层和4个维度的输出层。
在第二方面,提供一种基于可微分体积渲染的隐式三维重建系统,所述系统包括:
图像编码器,配置为构建隐式三维重建模型,输入单张单视图并对所述单视图进行图像编码;
图像采样模块,配置为对编码后的图像进行等间距采样,得到采样点;
综合推断网络,配置为根据所述采样点预估表面深度;
深度损失计算模块,配置为根据预估的表面深度计算深度损失;所述根据预估的表面深度计算深度损失,包括:
利用隐式微分计算表面深度相对于网络参数的梯度,所述网络参数表示模型中各个神经元的权重集合;
RGB纹理损失计算模块,将采样点反投影到3D空间并在给定深度评估其RGB纹理;
模型训练模块,配置为根据深度损失与RGB纹理评估结果对所述隐式三维重建模型进行训练;
三维重建模块,配置为调用训练好的隐式三维重建模型进行单视图的三维重建。
在第三方面,提供一种计算机存储介质,其上存储有计算机指令,所述计算机指令运行时执行任意一项所述一种基于可微分体积渲染的隐式三维重建方法中相关步骤。
在第四方面,提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行任意一项所述一种基于可微分体积渲染的隐式三维重建方法中相关步骤。
需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
(1)本发明利用隐式微分计算表面深度相对于网络参数的梯度,隐式微分的目标是学习网络参数和表面点,不需要像基于体素的方法那样存储中间结果(例如体积数据)以计算关于网络参数的损失梯度,可以在计算成本和内存占用一定的条件下,以更好的分辨率输出三维模型。
(2)本发明使用2D监督的训练,减少了数据集限制,进一步提升了深度神经网络在重建类目上的广度。
(3)本发明提供了一种端到端的三维重建模式,用户只需输入单帧图像便可进行重建取得结果。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明实施例示出的一种基于可微分体积渲染的隐式三维重建方法的流程图;
图2为本发明实施例示出的可微分隐式渲染方法的示意图;
图3为本发明实施例示出的DIR网络结构示意图;
图4为本发明实施例示出的渲染二维点RGB颜色的示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明利用隐式微分计算表面深度相对于网络参数的梯度,隐式表达是拟合三维模型一个连续函数,隐式微分的目标是学习网络参数和表面点,不需要像基于体素的方法那样存储中间结果(例如体积数据)以计算关于网络参数的损失梯度,可以在计算成本和内存占用一定的条件下,以更好的分辨率输出三维模型。
实施例1
参照图1,在一示例性实施例中,提供一种基于可微分体积渲染的隐式三维重建方法,所述方法包括以下步骤:
S1、构建隐式三维重建模型,输入单张单视图并对所述单视图进行图像编码;
S2、对编码后的图像进行等间距采样,得到采样点;
S3、根据所述采样点预估表面深度;
S4、根据预估的表面深度计算深度损失,将采样点反投影到3D空间并在给定深度评估其RGB纹理;所述根据预估的表面深度计算深度损失,包括:
利用隐式微分计算表面深度相对于网络参数的梯度,所述网络参数表示模型中各个神经元的权重集合;
S5、根据深度损失与RGB纹理评估结果对所述隐式三维重建模型进行训练;
S6、调用训练好的隐式三维重建模型进行单视图的三维重建。
具体地,可微分隐式渲染DIR(Differentiable Implicit Rendering)方法首先定义用于表示三维形状和纹理的隐式表达方法,进一步地,给出DIR完整描述以及相关实现细节,如图2所示。对于给定的相机矩阵进行存在评估来预测表面深度。为此,先将采样的像素点u投影到三维空间,并在沿着从相机原点到该点的射线上的固定步骤中评估存在概率网络。然后,将表面深度反投影回三维空间,并在给定的三维位置处评估其RGB纹理。生成的(x,y,z)对应的二维渲染状况可以与真实图像进行比较。当能获取到真实的深度图信息时,还可以直接在预测的表面深度上定义深度损失。此外,通过一个额外的图像编码器编码全局描述符z,并以此约束模型预测出的三维形状和RGB纹理。
进一步地,使用存在概率网络隐式地表达物体的三维形状。其数学表达式为:
fθ:R3×Z→[0,1]
存在概率网络fθ(p,z)描述了空间中任意点p∈R3的存在率。在单视图重建任务中,使用编码器ψθ(·)和对应输出z来约束fθ。而物体的三维表面由阈值参数τ∈[0,1]来确定,确定的等值面为fθ=τ。而纹理方面,可以同样地使用纹理场来描述三维物体的RGB纹理:
tθ:R3×Z→R3
对空间中任意点p∈R3回归其RGB颜色,同样tθ受到全局描述符z的约束。物体的RGB纹理由tθ在表面fθ=τ上的映射值给出。
网络结构方面,所述隐式三维重建模型的网络结构包括ResNet-18编码器、5个全连接层和4个维度的输出层,一个维度用于推断深度信息,另外三个维度用于推断RGB纹理。参照图3,将存在概率网络和RGB纹理网络合并在同一个神经网络实现。该神经网络以一批N个3D点和图像x作为输入,输出一维的存在概率概率和三维RGB空间中的RGB颜色。首先,输入通过具有ReLU激活函数的全连接层传递点坐标(p1,p2,p3)。然后将输出传递到五个连续的同样使用ReLU激活函数和128(2D监督模型)或512(2.5D监督模型)的隐藏维度的ResNet[8]模块中。同时,可以通过完全连接层将潜在向量z嵌入到模型中,并在每个ResNet模块之前添加它。在这种情况下,使用ResNet18[8]作为图像编码器最终输出这N个空间点的一维存在概率和三维RGB颜色。
进一步地,将目标聚焦在如何从2D图像观测中学习fθ和tθ上。为了实现这个目标,在单个图像观测上计算重建损失如下:
这里,I表示观察到的图像,是由DIR隐式渲染的图像。Iu表示任意像素u处的RGB真实值,/>表示对应位置的预测值。||·||是L1范数,代表向量中各个元素的绝对值之和,用其度量/>和Iu之间的损失具有较好的鲁棒性。为了最小化该重建损失,进一步要对网络参数θ进行梯度优化。目标包括:对于给定的fθ和tθ预测得到/>以及计算损失/>
接下来介绍上述两个目标的实现细节,从而实现从2D图像学习隐式3D表示的高效算法。参照图4,渲染过程如下:
对于一台位于r0处的相机,可以通过从r0通过u沿着方向w发射一条光线,并确定与等值面{p∈R3|fθ(p)=τ}的第一个交点进一步地,可以评估对应点/>得到其RGB纹理,并得到二维/>值:
接着,为了获得损失对于网络参数θ的梯度,首先使用多元链式法则:
其中,表示向量函数/>关于向量自变量x的雅可比矩阵,而·表示矩阵乘法。进一步地,根据/>可以得到:
因为tθ和二者都依赖于θ,所以求偏导时需要展开。又由于/>是隐式定义的,计算的可行性很低。但是可以利用/>位于从r0通过u发出的光线上。对于任意像素点u,该光线可以描述为r(d)=r0+dw,其中w是连接r0和u的向量。由于/>必须位于射线r(d)上,因此必然存在一个深度值/>使得/>这里把/>称为表面深度,并据此可以代换上一个公式中
接下来,可以利用隐式微分[3,65]计算表面深度相对于网络参数θ的梯度。对两边关于θ同时微分:
可以推出:
重新排列上述公式,得到一下表面深度的梯度表达:
显然,计算表面深度相对于网络参数θ的梯度仅涉及计算fθ在/>的梯度。隐式微分的目标是学习网络参数θ和表面点/>这就不需要像基于体素的方法一样存储中间结果(例如体积数据)以计算关于θ的损失的梯度。因而本发明提出的方法能够满足低内存占用的三维重建需求。
构建了学习fθ和tθ的模式,还需要使用自动微分进行训练。为了使用自动微分,需要实现表面深度预测步骤/>的前向传播和反向传播。接下来,将具体描述如何实现这两个传递步骤。
前向传播:如图3所示,可以通过存在概率网络fθ在光线r(d)上的变化确定而为了检测fθ的变化,对图像点以一定的射线采样精度采样,具体地,在光线r上的n个等间距采样点/>对其进行推理。给定步长Δs,这些点的坐标可以表示为:
其中s0是最近的可能表面点。首先找到使得fθ从空白空间(fθ<τ)跃升到物体存在空间(fθ≥τ)的最小的j:
进一步地,在区间[jΔs+s0,(j+1)Δs+s0]应用迭代割线法,可以得到表面深度的估量值。在实践中,本发明并行地计算一批Np点的表面深度。值得注意的是,这里不需要展开前向传递或存储任何中间结果,因为利用隐式微分可以直接获得了关于θ的/>梯度。
反向传播:反向传播的输入是损失关于表面深度/>的梯度/>而反向传播的输出是/>然而,在实践中,仅为单个表面深度/>实现反向传播是不够的,还需要为整个批次实现反向传播。这一点可以通过重写/>来有效实现:
且/>
重要的是,公式左边的表达对应神经网络fθ正常的反向传播,而右侧是批处理中所有元素的标量积。因此,可以通过先将传入的梯度λ逐个和上述因子相乘,再通过便捷地计算/>的反向传播。这两个操作都可以在常见的深度学习框架中高效地并行计算。
进一步地,对所述隐式三维重建模型进行训练时,首先假设每次给定相同相机内外参数的N个图像和对应的物体掩膜/>DIR仅需要每个物体的单张图像即可生效。此外,如果有对应的深度信息/>也可以直接定义深度损失。
为了训练fθ和tθ,先在单张图像Ik的图像平面上随机采样Np个点u。之后区分以下三种情况:
1.p0表示位于物体掩膜Mk上且预测表面深度为的点u的集合。对于这些点,可以直接在预测的图片/>上定义RGB损失/>
2.p1表示位于物体掩膜Mk外部的点u的集合。此时虽然不能定义RGB损失,但是可以定义损失以训练神经网络沿相应射线去除虚假表面。
3.p2表示位于物体掩膜Mk内部但深度不为的点u的集合。同样定义RGB损失,但可以定义/>来训练隐式表面的有界性。
对于第一种情况p0中的每一个点,根据上文所述算法检测表面深度然后可以将其RGB损失/>定义为:
其中ξ(·)计算图像特征,||·||是计算损失的鲁棒性衡量。实际部署中使用RGB值、图像梯度作为特征,而L1范数作为损失度量。
当真实深度信息可得时,可以直接用L1范数计算深度损失并合并:
其中d表示采样的图像点u的真实深度值,表示其预测的表面深度。
对于第二种情况,如果点u位于物体掩膜外但是预测出其表面深度有效,则表明神经网络错误地预测出/>因此用如下损失进行惩罚:
其中BCE表示二分类交叉熵。当没有预测到表面深度时,在光线上随机采样观测点,并将/>应用于这些点。
对于第三种情况,如果一个点u位于物体掩膜内但预测的表面深度为无穷大,则表明神经网络错误地预测光线r上没有表面点。此时应该激励神经网络在该光束上预测存在概率。可以通过定义均匀采样深度值drandom并使用如下损失来实现:
在单视图重建实验中,使用光线上第一个在所有物体掩膜内部的点(视觉外壳的深度)。如果能获取额外的深度信息,将使用地面真实深度评估损失。直观地说,鼓励神经网络沿着光线方向填充空间。然后可以使用(12)中的/>和(13)中的/>来约束修正初始的填充情况。
除上述训练设计以外,隐式表达方法还额外支持通过表面法线来设定损失,达到平滑曲面的目的。这在处理真实世界中的数据时格外有效,因为使用2D或2.5D监督进行训练时,会包含一些无约束区域,而此种损失约束能够强制生成更平滑自然的形状。法线损失可以定义为:
其中n(·)表示法向量,表示预测的表面点,qu表示随机采样的/>的邻接点。
结合上述五种损失,可以给出每个采样视图的综合损失:
其中,本发明实验中λ3=λ4=1。而λ2用于调整平滑度的约束强度,实验中根据情况进行调整。本文的单视图重建实验中λ2=0.05,多视图实验中λ2=0.1。根据模型为2D监督还是2.5D监督将λ0和λ1设定为0或者1。
实施例2
在另一示例性实施例中,提供一种基于可微分体积渲染的隐式三维重建系统,所述系统包括:
图像编码器,配置为构建隐式三维重建模型,输入单张单视图并对所述单视图进行图像编码;
图像采样模块,配置为对编码后的图像进行等间距采样,得到采样点;
综合推断网络,配置为根据所述采样点预估表面深度;
深度损失计算模块,配置为根据预估的表面深度计算深度损失;所述根据预估的表面深度计算深度损失,包括:
利用隐式微分计算表面深度相对于网络参数的梯度,所述网络参数表示模型中各个神经元的权重集合;
RGB纹理损失计算模块,将采样点反投影到3D空间并在给定深度评估其RGB纹理;
模型训练模块,配置为根据深度损失与RGB纹理评估结果,对所述隐式三维重建模型进行训练;
三维重建模块,配置为调用训练好的隐式三维重建模型进行单视图的三维重建。
具体地,图像编码器编码输入的单张图像,通过ResNet-18对输入图像编码,以固定间隔采样空间点传入综合推断网络并执行点位综合推理,其中,对图像点以N=16的射线采样精度采样。并将推理出的表面深度传入深度损失计算模块,并根据深度损失计算模块计算出的损失结果训练综合推断网络。同时将推理的表面深度反投影到3D空间,并在给定的3D位置上评估RGB颜色,并传入RG B纹理损失计算模块协同训练综合推断网络。
进一步地,系统还包括数据存储模块,将最终训练完成的综合推断网络参数保存在数据存储模块中。用户使用单张图片重建其三维模型和RGB纹理时,将调用数据存储模块的模型参数。
实施例3
在另一示例性实施例中,本发明提供一种计算机存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述一种基于可微分体积渲染的隐式三维重建方法中相关步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例4
在另一示例性实施例中,本发明提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行所述一种基于可微分体积渲染的隐式三维重建方法中相关步骤。
处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的处理器包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于可微分体积渲染的隐式三维重建方法,其特征在于,所述方法包括以下步骤:
S1、构建隐式三维重建模型,输入单张单视图并对所述单视图进行图像编码;
S2、对编码后的图像进行等间距采样,得到采样点;
S3、根据所述采样点预估表面深度;
S4、根据预估的表面深度计算深度损失,将采样点反投影到3D空间并在给定深度评估其RGB纹理;所述根据预估的表面深度计算深度损失,包括:
利用隐式微分计算表面深度相对于网络参数的梯度,所述网络参数表示模型中各个神经元的权重集合;
S5、根据深度损失与RGB纹理评估结果对所述隐式三维重建模型进行训练;
S6、调用训练好的隐式三维重建模型进行单视图的三维重建。
2.根据权利要求1所述的一种基于可微分体积渲染的隐式三维重建方法,其特征在于,所述对所述单视图进行图像编码,包括:
通过全局描述符约束隐式三维重建模型的输出。
3.根据权利要求1所述的一种基于可微分体积渲染的隐式三维重建方法,其特征在于,所述对编码后的图像进行等间距采样,包括:
对图像点以一定的射线采样精度采样。
4.根据权利要求1所述的一种基于可微分体积渲染的隐式三维重建方法,其特征在于,所述步骤S3包括:
将采样点投影到三维空间,并在沿着从相机原点到该点的射线上的固定步骤中评估存在概率网络;
通过存在概率网络在光线上的变化确定表面深度。
5.根据权利要求4所述的一种基于可微分体积渲染的隐式三维重建方法,其特征在于,应用迭代割线法,计算表面深度的估量值。
6.根据权利要求1所述的一种基于可微分体积渲染的隐式三维重建方法,其特征在于,所述根据预估的表面深度计算深度损失,包括:
在单个图像观测上计算重建损失如下:
其中,I表示观察到的图像,是由DIR隐式渲染的图像,Iu表示任意像素处的RGB真实值,表示对应位置的预测值;||·||是L1范数,代表向量中各个元素的绝对值之和。
7.根据权利要求1所述的一种基于可微分体积渲染的隐式三维重建方法,其特征在于,所述隐式三维重建模型的网络结构包括ResNet-18编码器、5个全连接层和4个维度的输出层。
8.一种基于可微分体积渲染的隐式三维重建系统,其特征在于,所述系统包括:
图像编码器,配置为构建隐式三维重建模型,输入单张单视图并对所述单视图进行图像编码;
图像采样模块,配置为对编码后的图像进行等间距采样,得到采样点;
综合推断网络,配置为根据所述采样点预估表面深度;
深度损失计算模块,配置为根据预估的表面深度计算深度损失;所述根据预估的表面深度计算深度损失,包括:
利用隐式微分计算表面深度相对于网络参数的梯度,所述网络参数表示模型中各个神经元的权重集合;
RGB纹理损失计算模块,将采样点反投影到3D空间并在给定深度评估其RGB纹理;
模型训练模块,配置为根据深度损失与RGB纹理评估结果对所述隐式三维重建模型进行训练;
三维重建模块,配置为调用训练好的隐式三维重建模型进行单视图的三维重建。
9.一种计算机存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-7中任意一项所述一种基于可微分体积渲染的隐式三维重建方法中相关步骤。
10.一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,其特征在于,处理器运行计算机指令时执行权利要求1-7中任意一项所述一种基于可微分体积渲染的隐式三维重建方法中相关步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310455368.6A CN116452748A (zh) | 2023-04-25 | 2023-04-25 | 一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310455368.6A CN116452748A (zh) | 2023-04-25 | 2023-04-25 | 一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116452748A true CN116452748A (zh) | 2023-07-18 |
Family
ID=87121862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310455368.6A Pending CN116452748A (zh) | 2023-04-25 | 2023-04-25 | 一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452748A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011493A (zh) * | 2023-10-07 | 2023-11-07 | 天度(厦门)科技股份有限公司 | 基于符号距离函数表示的三维人脸重建方法、装置及设备 |
CN117745924A (zh) * | 2024-02-19 | 2024-03-22 | 北京渲光科技有限公司 | 基于深度无偏估计的神经渲染方法、系统及设备 |
-
2023
- 2023-04-25 CN CN202310455368.6A patent/CN116452748A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011493A (zh) * | 2023-10-07 | 2023-11-07 | 天度(厦门)科技股份有限公司 | 基于符号距离函数表示的三维人脸重建方法、装置及设备 |
CN117011493B (zh) * | 2023-10-07 | 2024-01-16 | 天度(厦门)科技股份有限公司 | 基于符号距离函数表示的三维人脸重建方法、装置及设备 |
CN117745924A (zh) * | 2024-02-19 | 2024-03-22 | 北京渲光科技有限公司 | 基于深度无偏估计的神经渲染方法、系统及设备 |
CN117745924B (zh) * | 2024-02-19 | 2024-05-14 | 北京渲光科技有限公司 | 基于深度无偏估计的神经渲染方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bozic et al. | Transformerfusion: Monocular rgb scene reconstruction using transformers | |
EP3510561B1 (en) | Predicting depth from image data using a statistical model | |
CN116452748A (zh) | 一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端 | |
JP5120926B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
Lafarge et al. | A hybrid multiview stereo algorithm for modeling urban scenes | |
KR20210119417A (ko) | 깊이 추정법 | |
CN102549622B (zh) | 用于处理体图像数据的方法 | |
CN115731365A (zh) | 基于二维图像的网格模型重建方法、系统、装置及介质 | |
EP4172862A1 (en) | Object recognition neural network for amodal center prediction | |
CN115375836A (zh) | 基于多元置信度滤波的点云融合三维重建方法和系统 | |
CN115797561A (zh) | 三维重建方法、设备及可读存储介质 | |
CN115359173A (zh) | 虚拟多视点视频生成方法、装置、电子设备和存储介质 | |
JP2024510230A (ja) | 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測 | |
Yao et al. | Vision-based environment perception and autonomous obstacle avoidance for unmanned underwater vehicle | |
CN116721210A (zh) | 基于神经有符号距离场的实时高效三维重建方法及装置 | |
CN117315153A (zh) | 一种协同光场与占用场的人体重建与渲染方法及装置 | |
CN116863078A (zh) | 三维人体模型重建方法、装置、电子设备和可读介质 | |
CN115953476A (zh) | 基于可泛化神经辐射场的人体自由视角合成方法 | |
CN116486038A (zh) | 一种三维构建网络训练方法、三维模型生成方法以及装置 | |
CN113281779B (zh) | 一种3d物体快速检测方法、装置、设备及介质 | |
CN115239559A (zh) | 一种融合视图合成的深度图超分辨率方法及系统 | |
CN114494574A (zh) | 一种多损失函数约束的深度学习单目三维重建方法及系统 | |
CN110738719A (zh) | 一种基于视距分层优化的Web3D模型渲染方法 | |
KR102555165B1 (ko) | 단안 비디오에서 뉴럴 레이디언스 기반의 라이트필드 합성 방법 및 시스템 | |
CN117830991B (zh) | 一种基于多模融合的四足机器人复杂场景感知方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |