CN116681839A

CN116681839A - 一种基于改进NeRF的实景三维目标重建与单体化方法

Info

Publication number: CN116681839A
Application number: CN202310962519.7A
Authority: CN
Inventors: 叶绍泽; 周皓然; 孟先进; 杨廷栋; 陆国峰; 余齐; 张举冠
Original assignee: Shenzhen Senge Data Technology Co ltd
Current assignee: Shenzhen Senge Data Technology Co ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-09-01
Anticipated expiration: 2043-08-02
Also published as: CN116681839B

Abstract

本发明公开了一种基于改进NeRF的实景三维目标重建与单体化方法，涉及三维建模技术领域；该方法包括以下步骤：S10、获取场景内的多张二维图像；S20、采用SAM全分割模型，对二维图像进行层次性分割；S30、将分割后的对象输入孪生神经网络中完成对象图像的配对；S40、根据图片特征相似度与位姿重叠关系，进行图片优选；S50、以NeRF神经网络作为基础模型，构建基于改进NeRF的实景三维目标重建模型Sen‑NeRF，将获取目标对象的不同角度的分割图件作为标签，结合原始图像的基本信息，通过实景三维目标重建模型Sen‑NeRF进行渲染；S60、截取mesh模型场景目标，完成实景三维目标重建模型Sen‑NeRF的单体化；本发明的有益效果是：能显著提高了NeRF网络的建模精度，实现了三维目标分割。

Description

一种基于改进NeRF的实景三维目标重建与单体化方法

技术领域

本发明涉及三维建模技术领域，更具体的说，本发明涉及一种基于改进NeRF的实景三维目标重建与单体化方法。

背景技术

近年来，三维重建技术在计算机视觉、虚拟实、增强现实等领域得到了广泛的应用。传统的三维重建方法，如光学三角测量和多视图体匹配，通常依赖于手动定义的规则和复杂的算法来生成三维模型。然而，这些方法在处理复杂场景和纹理时，往往难以实现高精度的三维重建。

神经辐射场（NeRF）作为一种创新的三维重建技术，利用深度学习算法从大量真实世界图像中学习场景特征，能够生成具有高度真实感和细节的三维模型。相较于传统方法，NeRF具有以下优点：1.更高的真实感：NeRF能够捕捉物体的形状、材质和纹理等物理特性，生成具有不同照条件下的真实感图像。2.更强的泛化能力：NeRF可以从有限的二维图像中生成高质量的三维模型，适应各种复杂场景；3.更高的建模精度：NeRF利用神经网络表示场景，实现了比传统方法更高的建模精度。

然而，NeRF在处理序列图像时，仍存在一定的局限性，不能对对象进行多层次分割进而三维模型单体化。

发明内容

为了克服现有技术的不足，本发明提供一种基于改进NeRF的实景三维目标重建与单体化方法，该方法能显著提高了NeRF网络的建模精度，实现了三维目标分割。

本发明解决其技术问题所采用的技术方案是：一种基于改进NeRF的实景三维目标重建与单体化方法，其改进之处在于，该方法包括以下步骤：

S10、获取场景内的多张二维图像；

S20、采用SAM全分割模型，对二维图像进行层次性分割；

S30、将分割后的对象输入孪生神经网络中完成对象图像的配对；

S40、根据图片特征相似度与位姿重叠关系，进行图片优选；

S50、以NeRF神经网络作为基础模型，构建基于改进NeRF的实景三维目标重建模型Sen-NeRF，将获取目标对象的不同角度的分割图件作为标签，结合原始图像的基本信息，通过实景三维目标重建模型Sen-NeRF进行渲染；

S60、截取mesh模型场景目标，完成实景三维目标重建模型Sen-NeRF的单体化。

进一步的，步骤S10中，通过高清相机对场景进行全方位的覆盖性拍摄，获取足够数量的二维图像。

进一步的，步骤S20中，采用colmap获取二维图像的详细信息，并通过SAM全分割模型对二维图像进行全量分割，对分割后的图片进行编号。

进一步的，所述步骤S30之前，还包括对分割的对象进行提取并填充背景的步骤；

步骤S30中，所述的孪生神经网络为Sen-siam孪生神经网络，该Sen-siam孪生神经网络包括第一卷积神经网络和第二卷积神经网络，且第一卷积神经网络和第二卷积神经网络共享权重，通过第一卷积神经网络和第二卷积神经网络对两个角度图片分割对象进行相似度分析。

进一步的，Sen-siam孪生神经网络中：

；

其中，为第一个图片输入，/>为第二个图片输入，/>为网络共享权重，为不同图片在卷积神经网络阶段输出的欧氏距离，/>为第一角度的图片的卷积神经网络输出，/>为第二角度的图片的卷积神经网络输出；

Sen-siam孪生神经网络损失函数：

；

其中，m为阈值；N为图片的序号，为特征距离/>；y为是否匹配标签。

进一步的，所述第一卷积神经网络和第二卷积神经网络采用改进ResNet50作为基础框架，去除全连接层，并将最后一个卷积特征接入空间金字塔池化层。

进一步的，步骤S40中，分别将相邻图片对输入Sen-siam孪生神经网络中，可以求得特征距离；

对两个图片的位置参数：图片中心与x轴的夹角、图片中心与z轴的夹角/>进行计算，分别取权重/>和/>，加权后可获得图片优选阈值S，其计算公式如下：

；

其中，为第一张图片中心与x轴的夹角，/>为第二张图片中心与x轴的夹角，为第一张图片中心与z轴的夹角，/>为第二张图片中心与z轴的夹角；三维坐标轴为x、y、z，分别指向正东、正北与垂直向上。

进一步的，步骤S50中，包括以下步骤：

S501、在实景三维目标重建模型Sen-NeRF中，对位置与视点分别建立多层感知机结构，分别为位置MLP和视点MLP；

S502、针对位置MLP估计体密度的最后一个隐藏层特征与视点MLP最后一个隐藏层特征进行拼接，连接若干个全连接层后输出RGB值；

S503、通过多层感知机结构的调整，使位置、视点、色彩与体密度建立更准确的映射关系。

进一步的，步骤S50中，还包括以下步骤：

S504、采用体素渲染方程获得生成视角图片：

；

其中，为体渲染方程，实现色彩与密度的建模；r为射线，t为时间，光线到交点的前后边界分别为tn到tf；/>表示射线从tn到t时刻的光线累积量，该射线从tn到t时刻都没有因击中任何粒子而被停下的概率；/>为体素密度，表示一条穿过空间的射线，在x处被一个无穷小的粒子终止的概率，这个概率是可微分的，可以将其近似理解为该位置点的不透明度；c(x)表示颜色，反应了该具体的三维坐标上，从光线方向看去，粒子反射的颜色；

其中，r(t)=o+td，r(t)为从原点出发，沿着射线方向的光线，t 时刻到达点的射线；其中o为射线原点，d为相机射线的角度,t为时间；

；

其中，r为射线，；/>为网络输出近似计算光线的像素值，将光路划分为N个等距区间/>，/>表示等距区间/>的长度，/>为等距区间/>的色素，/>为等距区间/>的体密度，/>为等距区间/>的光线累积量。

进一步的，步骤S50中，采用升维和多层次渲染提升模型渲染细节，其中升维方法包括：

将三维空间转化到更高维空间的输入：

；

其中，p为编码位置，包括位置X=（x,y,z）和视点d=（θ,φ）；针对两种输入，进行不同的K进行升维度，维度K的选取策略为：构建网格，针对网格取值进行升维网络训练，进行若干次迭代渲染，比较L损失值最终稳定区间，取损失最小的K值对作为升维依据；

多层次渲染包括：

采样较为稀疏的Nc个点色素累加，，其中/>是等距区间的色素，/>是等距区间/>的权重，，/>；

与原视角图片计算损失更新网络：

；

其中L为损失函数，为采样较为稀疏的Nc个点色素累加，/>是正常采样的色素累加。

本发明的有益效果是：本发明提出的一种基于改进Nerf的实景三维重建与单体化方法，相较于传统倾斜影像以及点云三维建模，可以更真实的完成场景的还原和渲染，将实景三维建模过程和时间复杂度大幅降低；本发明仅需少量的二维照片即可快速实现三维重建，并且根据二维图像分割结果对三维重建对象进行有效分割，最终实现模型单体化效果。

附图说明

图1为本发明的一种基于改进NeRF的实景三维目标重建与单体化方法的流程示意图。

图2为本发明中SAM全分割模型与孪生神经网络的示意图。

图3为本发明中孪生神经网络的结构示意图。

图4为本发明中改进ResNet50网络的示意图。

图5为本发明中残差结构的示意图。

图6为本发明中空间金字塔池化的示意图。

图7为本发明中nerf神经渲染模型结构示意图。

图8为本发明中隐式表达网络结构的示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。另外，专利中涉及到的所有联接/连接关系，并非单指构件直接相接，而是指可根据具体实施情况，通过添加或减少联接辅件，来组成更优的联接结构。本发明创造中的各个技术特征，在不互相矛盾冲突的前提下可以交互组合。

参照图1所示，本发明提供了一种基于改进NeRF的实景三维目标重建与单体化方法，本实施例中，包括以下的步骤：

S10、图像的获取：获取场景内的多张二维图像；本实施例中，通过高清相机对场景进行全方位的覆盖性拍摄，获取足够数量的二维图像；colmap是一款专用于获取图片相机位姿信息的解算方法，使用colmap获取各相机照片详细信息，包括(x,y,z,θ,φ)，其中x,y,z为图像三个方向坐标，θ和φ为观察方向。

S20、图像的层次性分割：采用SAM全分割模型，对二维图像进行层次性分割；

本实施例中，通过SAM全分割模型对二维图像进行全量分割，对分割后的图片进行编号；分别对不同的对象进行背景填充，构建若干不同分割对象的图片，例如：001_obj1.jpg 、001_obj2.jpg,....,002_obj1.jpg,.....；

参照图2所示，SAM模型是一个可以实现全量分割的大模型，本发明引入该模型完成全量分割，该模型可以通过图像编码处实现图像特征提取,图像编码模块采用了VIT（vision transfomer）作为特征提取模块，针对图像特征转化为图像嵌入向量，将生成的全分割mask经过卷积操作后与图像嵌入向量进行拼接，获得图像编码向量，同时针对输入图像的大小生成w/4, w/8和w/10向下取整值为点间隔的prompt网格，例如图像宽为128，则点间隔分别为32，16，12的等距网格点作为prompt编码区的输入；完成mask解码后可以获得若干图像分割对象。

S30、将分割

后的对象输入孪生神经网络中完成对象图像的配对；

结合图2、图3所示，步骤S30中，所述的孪生神经网络为Sen-siam孪生神经网络，该Sen-siam孪生神经网络包括第一卷积神经网络和第二卷积神经网络，且第一卷积神经网络和第二卷积神经网络共享权重，通过第一卷积神经网络和第二卷积神经网络对两个角度图片分割对象进行相似度分析。

进一步的对各角度生成图件按照网格结构对应各图件，分别输入孪生神经网络进行相似度分析。分别对两个角度图片分割对象进行逐一分析，保留特征相似度最大的对象作为同一对象，判断条件是置信度不能低于0.5，低于0.5则认为不存在同一对象，相似度分析仅选取相机位置最近的四张图片的分割对象图件进行分析，将判断为同一对象的分割图片以及原图mask进行记录保存。

结合图3所示，Sen-siam孪生神经网络中：

；

Sen-siam孪生神经网络损失函数：

；

其中，m为阈值，取值为0.5；N为图片的序号，为特征距离；y为是否匹配标签。

在本实施例中，结合图4所示，为改进ResNet50网络的示意图，所述第一卷积神经网络和第二卷积神经网络采用改进ResNet50作为基础框架，去除全连接层，并将最后一个卷积特征接入空间金字塔池化层。参照图5所示，为残差结构的示意图。

残差结构包括两种映射：一种是恒等映射（Identity Mapping），即图5中的曲线连接部分，其通过捷径连接（Shortcut Connections）的方式，直接把输入x传入到输出；另一种是残差映射（Residual Mapping），即图5中的直线连接部分，因此该残差结构的最后输出结果表示为：

；

恒等映射是自身的映射，在shangshi中是指x；残差映射指的是‘差’，也就是H(x)-x，即F(x)部分。可以看出深度残差网络是在浅层网络上叠加y=x的恒等映射，来增加网络的层数，形成深层网络，同时恒等层也使深层网络退化成浅层网络。如图6所示，残差块表示为1x1与64，分别表示使用1x1卷积和64个特征通道，而3表示为重复相同残差结构3次。

S40、根据图片特征相似度与位姿重叠关系，进行图片优选；

本实施例中，步骤S40中，分别将相邻图片对输入Sen-siam孪生神经网络中，可以求得特征距离；

；

参照图7所示，为NeRF神经网络渲染模型结构示意图，经过足量对比后获取目标对象不同角度的分割图件作为标签，结合原始图像的基本信息，通过nerf神经网络进行渲染。基本步骤为：建立方向、空间位置与色彩、体密度隐式表达，按一条射线方向采样点加权叠加，叠加结果与该方向二维图件的真实值求取损失值，反向传播损失值，调整权重。

用network存体素信息：(x,y,z,θ,φ)→(c,σ), 隐式表达网络结构如图8所示。其中，x,y,z为三个方向坐标，θ和φ是观察方向，c是RGB色彩，σ是体密度。

结合图8所示，步骤S50包括以下步骤：

S503、通过多层感知机结构的调整，使位置、视点、色彩与体密度建立更准确的映射关系；

S504、采用体素渲染方程获得生成视角图片：

；

其中，为体渲染方程，实现色彩与密度的建模；r为射线，t为时间，光线到交点的前后边界分别为tn到tf；/>表示射线从tn到t时刻的光线累积量，该射线从tn到t时刻都没有因击中任何粒子而被停下的概率；/>为体素密度，表示一条穿过空间的射线，在x处被一个无穷小的粒子终止的概率，这个概率是可微分的，可以将其近似理解为该位置点的不透明度；这个概率是可微分的，可以将其近似理解为该位置点的不透明度；c(x)表示颜色，反应了该具体的三维坐标上，从光线方向看去，粒子反射的颜色；

；

在所述的步骤S50中，采用升维和多层次渲染提升模型渲染细节，其中升维方法包括：

将三维空间转化到更高维空间的输入：

；

多层次渲染包括：

与原视角图片计算损失更新网络：

；

本实施例中，根据语义分割空间结果对Mesh模型场景目标截取，完成模型的单体化；这一步骤将三维重建得到的模型，生成一个完整的、具有单体化特性的三维模型。

本发明提出的一种基于改进Nerf的实景三维重建与单体化方法，具有以下的特点：1、构建了一套实景三维重建与模型单体化的技术流程；2、采用mask背景填充的方法对不同角度同一对象部件进行分层次提取和配对；3、对ResNet50进行优化，使其适应不同尺寸图像输入；4、针对nerf的MLP网络进行了优化，使其具有更丰富的隐式表达能力；5、针对网络训练策略进行了优化，使其具有更易渲染还原真实。

相较于传统倾斜影像以及点云三维建模，本发明可以更真实的完成场景的还原和渲染，将实景三维建模过程和时间复杂度大幅降低；本发明仅需少量的二维照片即可快速实现三维重建，并且根据二维图像分割结果对三维重建对象进行有效分割，最终实现模型单体化效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，该方法包括以下步骤：

S10、获取场景内的多张二维图像；

S20、采用SAM全分割模型，对二维图像进行层次性分割；

S40、根据图片特征相似度与位姿重叠关系，进行图片优选；

2.根据权利要求1所述的一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，步骤S10中，通过高清相机对场景进行全方位的覆盖性拍摄，获取足够数量的二维图像。

3.根据权利要求2所述的一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，步骤S20中，采用colmap获取二维图像的详细信息，并通过SAM全分割模型对二维图像进行全量分割，对分割后的图片进行编号。

4.根据权利要求1所述的一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，所述步骤S30之前，还包括对分割的对象进行提取并填充背景的步骤；

5.根据权利要求4所述的一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，Sen-siam孪生神经网络中：

；

Sen-siam孪生神经网络损失函数：

；

6.根据权利要求5所述的一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，所述第一卷积神经网络和第二卷积神经网络采用改进ResNet50作为基础框架，去除全连接层，并将最后一个卷积特征接入空间金字塔池化层。

7.根据权利要求5所述的一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，步骤S40中，分别将相邻图片对输入Sen-siam孪生神经网络中，可以求得特征距离；

；

其中，为第一张图片中心与x轴的夹角，/>为第二张图片中心与x轴的夹角，/>为第一张图片中心与z轴的夹角，/>为第二张图片中心与z轴的夹角；三维坐标轴为x、y、z，分别指向正东、正北与垂直向上。

8.根据权利要求7所述的一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，步骤S50中，包括以下步骤：

9.根据权利要求8所述的一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，步骤S50中，还包括以下步骤：

S504、采用体素渲染方程获得生成视角图片：

；

其中，r为射线，；/>为网络输出近似计算光线的像素值，将光路划分为N个等距区间/>，/>表示等距区间/>的长度，/>为等距区间的色素，/>为等距区间/>的体密度，/>为等距区间/>的光线累积量。

10.根据权利要求9所述的一种基于改进NeRF的实景三维目标重建与单体化方法，其特征在于，步骤S50中，采用升维和多层次渲染提升模型渲染细节，其中升维方法包括：

将三维空间转化到更高维空间的输入：

；

多层次渲染包括：

与原视角图片计算损失更新网络：

；

其中L为损失函数，为采样较为稀疏的Nc个点色素累加，/>是正常采样的色素累加，r为射线。