CN117671138A

CN117671138A - 一种基于SAM大模型与NeRF的数字孪生建模方法及系统

Info

Publication number: CN117671138A
Application number: CN202311603362.5A
Authority: CN
Inventors: 袁东风; 李筱蒸; 马翔雪; 韩乔剑
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-03-08

Abstract

本发明涉及一种基于SAM大模型与NeRF的数字孪生建模方法及系统，属于三维建模与计算机视觉领域。包括：对建模物体的多角度采集得到同一场景的静态2D图像；估计对应的相机内外参；为目标物体提供分割提示信息；将静态2D图像及分割提示信息输入SAM预训练模型，得到分割掩码，完成分割任务；将获得分割图像的五维坐标，输入NeRF模型中进行训练，得到预测的颜色与透明度；进行网络训练得到三维模型；利用点云重建技术对三维模型进行表面粗糙度的重建得到物体高精度数字孪生模型。方法能够有效地利用SAM大模型的强大语义理解能力和NeRF神经辐射场算法的高效三维重建能力，实现数字孪生建模的自动化和精确化。

Description

一种基于SAM大模型与NeRF的数字孪生建模方法及系统

技术领域

本发明涉及一种基于SAM大模型与NeRF的数字孪生建模方法及系统，属于三维建模与计算机视觉领域。

背景技术

数字孪生是充分利用物理模型、传感器更新、运行历史等数据，集成多学科、多物理量、多尺度的仿真过程，在虚拟空间中完成映射，从而反映、模拟、验证、预测、控制物理实体全生命周期过程的技术手段。从数字孪生的定义出发，数字孪生关键技术包含通信，感知，控制，建模，可视化技术。而建模是由物理实体到数字孪生的关键，传统机械工业中的计算机辅助技术为数字孪生建模提供了基本思路，包括CAD(Computer Aided Design)、CAE(Computer Aided Engineering)、CAPP(Computer Aided Process Planning)和CAM(Computer Aided Manufacturing)。其中三维建模是数字孪生建模技术的重要部分。现阶段大多数工作使用了人工建模，由于其操作繁琐，基于AI和大数据的建模方法被提出。

NeRF(Neural Radiance Fields)神经辐射场是一种生成三维场景的神经网络模型，通过多视角图片将其渲染成为三维模型，进行自动实时的精细化建模。然而在相机拍摄的多视角图片中存在着背景图像噪声的杂糅的问题，会导致物体建模不够精确、NeRF进行训练的速度较慢，进而影响数字孪生的精确度与仿真速度。SAM大模型是一种基于神经网络的图像分割方法，它可以根据不同的提示(如点、框、文本等)从图像中分割出感兴趣的对象，并且具有强大的零样本泛化能力。采用SAM大模型进行图像分割后再进行基于NeRF进行三维重建可以提高数字孪生建模的速度与精度。

发明内容

本发明提供一种基于SAM大模型与NeRF的数字孪生建模方法，以解决上述背景技术中提出的问题。

本发明旨在一种基于SAM大模型与NeRF的数字孪生建模方法，SAM对获得的多视角图片进行分割，去除背景图像噪声，NeRF对分割得到的图像进行建模渲染得到三维模型，并利用点云重建技术将进行物体表面粗糙度的重建来得到高精度的数字孪生模型。

本发明还提供了一种基于SAM大模型与NeRF的数字孪生建模系统。

为实现上述目的，本发明提供如下技术方案：

一种基于SAM大模型与NeRF的数字孪生建模方法，包括：

对建模物体的多角度采集得到同一场景的静态2D图像；

估计得到每张静态2D图像对应的相机内外参；

在每张静态2D图像上为目标物体提供分割提示信息，包括：前景点、背景点、边界框、文本描述及任意区域；

将静态2D图像及分割提示信息输入SAM预训练模型，得到分割掩码，完成分割任务；

将获得分割图像的五维坐标，输入NeRF模型中进行训练，得到预测的颜色与透明度；

进行体积渲染以及使用梯度下降法进行网络训练得到三维模型；

利用点云重建技术对三维模型进行表面粗糙度的重建得到物体高精度数字孪生模型。

根据本发明优选的，将静态2D图像及分割提示信息输入SAM预训练模型，完成分割任务，得到分割图像；包括：

静态2D图像和分割提示信息分别通过图像编码器(Image Encoder)和提示编码器(Hint Encoder)处理得到掩码，通过元素级的求和操作进行合并；其中，掩码是指用于对图像的特定部分进行遮挡或突出的二值图像或像素级别的掩模；

通过掩码解码器将这些图像编码器和提示编码器生成的特征组合在一起，形成嵌入的掩码升维到图像本身的大小，从而得到一输入大小匹配的分割掩码。

根据本发明优选的，SAM预训练模型包括图像编码器、提示编码器及掩码解码器；

图像编码器用于：接收输入的静态2D图像，编码该静态2D图像的信息，将图像转换为一种表示，该表示为一个向量或一组特征图；

提示编码器用于：接收分割提示信息，提示编码器将这些分割提示信息编码为与图像编码器输出相匹配的表示；

掩码解码器用于：将特征图从低维度空间解码成像素级别的分割掩码。

进一步优选的，提示编码器将稀疏输入和密集输入都变成256维的向量进行嵌入；如果输入是密集输入，则使用卷积操作；如果输入是稀疏输入，则使用位置编码；如果输入是文本提示，则使用剪贴嵌入。

根据本发明优选的，将获得分割图像的五维坐标输入NeRF模型中的多层感知机网络MLP进行训练，得到预测的颜色与透明度；包括：

将三维坐标进行位置编码，位置编码公式即高频编码函数如式(I)所示：

γ(p)＝(sin(2⁰πp),cos(2⁰πp),…,sin(2^L-1πp),cos(2^L-1πp)) (I)

其中，p表示分割图像的五维坐标的训练向量的任意一维元素，L为高频编码函数的维度,经式(I)升维后,训练向量中的每一维元素将升至(2L+1)维；

在位置编码完成后，MLP先使用8个全连接层处理三维位置(x，y，z)，输出体素密度σ和256维特征向量；然后，将得到的256维特征向量与二维方位视角(θ，φ)合并，接着用1个全连接层处理，输出颜色c＝(r，g，b)。

根据本发明优选的，通过体积渲染以及使用梯度下降法，进行网络训练，得到三维模型；包括：

根据体积渲染将颜色叠加得到最终的像素值，将预测的像素值与真实的图像进行比较，计算损失函数，并用梯度下降法更新网络参数，得到训练的三维的NeRF模型。

进一步优选的，体积渲染是通过MLP输出的每一个点密度σ_i和颜色c＝(r，g，b)，来模拟一条光线，计算成像的像素；其光线公式如式(II)所示：

r(t)＝o+td (II)

式(II)中，r(t)动态表示光线这条射线，t表示位置，o就是指光心的坐标，d指方向。

进一步优选的，采用离散化采样，沿着相机光线的N个采样点，预期的颜色如式(III)所示：

式(III)中，表示每条光线的颜色，函数T_i表示沿射线累积的透过率，即射线而没有击中任何其他粒子的概率，δ_i代表在光线r上的采样间隔，c_i表示在r这条射线上t位置对d方向的光强，j、i分别是指采样时刻，σ_i指代在r这条射线上t位置的体积密度。

进一步优选的，对于给定的场景，采用不同位姿的摄像头拍摄得到n幅图像，利用梯度下降的方法，通过最小化预测图像Ip与真实图像Ic之间的误差进行拟合，即：I_p、I_c、n分别是指预测图像的像素值、真实图像像素值、图像的个数。

根据本发明优选的，利用点云重建技术对三维模型进行表面粗糙度的重建得到物体高精度数字孪生模型，包括：

使用表面形貌测量仪测量粗糙表面，以获得表征该实体的三维形貌的点云数据集；

对点云数据集进行预处理；包括：识别和删除明显不在物体表面上的点；平滑点云数据并减少噪声；进行数据对齐；数据修复；

曲面粗糙度重建：包括：点云数据读取；特征点拟合；特征区域线拟合；根据识别的特征点，拟合曲线或曲面；网格处理：将点云数据转换为网格(mesh)数据；曲面编辑；构建物体高精度数字孪生模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于SAM大模型与NeRF的数字孪生建模方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于SAM大模型与NeRF的数字孪生建模方法的步骤。

一种基于SAM大模型与NeRF的数字孪生建模系统，包括：

图像获取及处理单元，被配置为：对建模物体的多角度采集得到同一场景的静态2D图像；估计得到每张静态2D图像对应的相机内外参；

图像分割单元，被配置为：将静态2D图像及分割提示信息输入SAM预训练模型，完成分割任务，得到分割图像；

颜色与透明度预测单元，被配置为：将获得分割图像的五维坐标，输入NeRF模型中进行训练，得到预测的颜色与透明度；

数字孪生模型单元，被配置为：利用点云重建技术对三维模型进行表面粗糙度的重建得到物体高精度数字孪生模型。

本发明的有益效果为：

1、精细的三维重建：结合SAM和NeRF，可以实现更精细的三维物体重建。SAM大模型可以帮助精确分割和识别物体的各个部分，NeRF则提供了高质量的整体三维重建，从而获得更完整和准确的数字孪生模型。

2、改进的物体检测和识别：结合SAM和NeRF的数字孪生模型可以用于改进物体检测和识别的性能，因为它提供了更多的关于物体形状和外观的信息。

3、本发明能够有效地利用SAM大模型的强大语义理解能力和NeRF神经辐射场算法的高效三维重建能力，实现数字孪生建模的自动化和精确化。

4、工程和制造应用：在工程领域，这种系统可以用于制造定制零件和进行工程分析，有助于提高产品质量和性能。

附图说明

图1为本发明提供的基于SAM大模型与NeRF的数字孪生建模方法的流程示意图。

图2为本发明提供的基于SAM大模型与NeRF的数字孪生建模方法中的SAM预训练模型和NeRF模型的网络架构示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于SAM大模型与NeRF的数字孪生建模方法，如图1所示，包括：

通过相机对建模物体的多角度采集得到同一场景的静态2D图像；

采用COLMAP等工具估计得到每张静态2D图像对应的相机内外参；相机内外参包括内参和外参；内参包括：焦距、主点和畸变参数；外参包括：旋转矩阵和位移向量；

相机内外参的获取步骤包括：进行特征提取从每张图像中提取特征点；再进行特征匹配将不同图像中的特征点进行匹配，以建立图像之间的对应关系；通过匹配的特征点，工具会估计每个图像的相机姿势，包括旋转矩阵和位移向量；通过多个图像的相机姿势信息，工具可以进行三维重建，将特征点转换为世界坐标系中的三维点；在三维重建的基础上，工具可以估计相机的内参，包括焦距、主点和畸变参数。

将获得分割图像的五维坐标，五维坐标包括三维坐标与二维视角，三维坐标为(x,y,z)，表示图像三维空间坐标，二维视角为(θ，φ)，表示观察点的极角与方位角；输入NeRF模型中进行训练，得到预测的颜色与透明度；

实施例2

根据实施例1所述的一种基于SAM大模型与NeRF的数字孪生建模方法，其区别在于：

将静态2D图像及分割提示信息输入SAM预训练模型，完成分割任务，得到分割图像；包括：静态2D图像和分割提示信息分别通过图像编码器(Image Encoder)和提示编码器(Hint Encoder)处理得到掩码，通过元素级的求和操作进行合并；其中，掩码是指用于对图像的特定部分进行遮挡或突出的二值图像或像素级别的掩模；

如图2所示，SAM预训练模型包括图像编码器、提示编码器及掩码解码器；

图像编码器用于：接收输入的静态2D图像，通过神经网络编码该静态2D图像的信息，将图像转换为一种表示，该表示为一个向量或一组特征图；图像编码器的目标是将图像内容编码为有意义的特征，以便在后续的任务中使用；

提示编码器用于：接收分割提示信息，通常是与图像中的对象或区域相关的语义分割掩码或标签。提示编码器将这些分割提示信息编码为与图像编码器输出相匹配的表示；以便在后续的任务中使用。

掩码解码器用于：掩码解码器是一个神经网络，其任务是将特征图从低维度空间解码成像素级别的分割掩码。这个解码过程通常包括上采样操作(例如反卷积或转置卷积)，以逐渐扩大特征图的空间尺寸，使其与输入图像的大小匹配。

图像编码器、提示编码器和掩码解码器均为采用现有的transformer网络架构，图像编码器与提示编码器采用了ViT(version transform)的掩码自动编码器，掩码解码器采用图像-提示双向Transformer解码器。

提示编码器将稀疏输入和密集输入都变成256维的向量进行嵌入；如果输入是密集输入，比如一个物体的简单掩码，则使用卷积操作；如果输入是稀疏输入，比如点或边界框，则使用位置编码；如果输入是文本提示，则使用剪贴嵌入。

将获得分割图像的五维坐标输入NeRF模型中的多层感知机网络MLP进行训练，得到预测的颜色与透明度；包括：

MLP网络不善于学习高频信息，但是纹理等信息都是高频的(比如某张图片上的轮廓信息就是高频的，因为在轮廓周围信息变化剧烈)，如果直接使用MLP学习，会导致学得生成的图片太近会模糊，太远会产生锯齿。因此，将三维坐标进行位置编码，让MLP同时学习高低频信息，提升清晰度。其位置编码公式即高频编码函数如式(I)所示：

γ(p)＝(sin(2⁰πp),cos(2⁰πp),…,sin(2^L-1πp),cos(2^L-1πp)) (I)

这个高频编码函数有点类似傅里叶级数的方式，其中p就是(x，y，z，θ，φ)输入，并且输入均归一化于[-1，1]，在具体的实验中针对于(x，y，z)输入取L＝10，针对于(θ，φ)输入取L＝4；

γ((x,y,z))＝(sin(2⁰π(x,y,z)),cos(2⁰π(x,y,z)),…,sin(2⁹π(x,y,z)),cos(2⁹π(x,y,z))

NeRF模型工作的过程可以分成两部分：三维重建和渲染：

三维重建部分本质上是一个2D到3D的建模过程，利用3D点的位置(x，y，z)及方位视角(θ，φ)作为输入，通过多层感知机(MLP)建模该点对应的颜色color(c)及体素密度volume density(σ)，形成了3D场景的“隐式表示”。

渲染部分本质上是一个3D到2D的建模过程，渲染部分根据光线公式利用重建部分得到的3D点的颜色及不透明度沿着光线进行整合得到最终的2D图像像素值。

在位置编码完成后，MLP先使用8个全连接层处理三维位置(x，y，z)，输出体素密度σ和256维特征向量；因此，体素密度σ仅是关于三维位置(x，y，z)的函数；然后，将得到的256维特征向量与二维方位视角(θ，φ)合并，接着用1个全连接层处理，输出颜色c＝(r，g，b)。

通过体积渲染以及使用梯度下降法，进行网络训练，得到三维模型；包括：

根据体积渲染的原理将颜色叠加得到最终的像素值，将预测的像素值与真实的图像进行比较，计算损失函数，并用梯度下降法更新网络参数，得到训练的三维的NeRF模型。

体积渲染是通过MLP输出的每一个点密度σ_i和颜色c＝(r，g，b)，来模拟一条光线，计算成像的像素；其光线公式如式(II)所示：

r(t)＝o+td (II)

密集地计算神经辐射场，这种策略并不高效，所以采用离散化采样，沿着相机光线的N个采样点，预期的颜色如式(III)所示：

式(III)是利用光线公式进行体积渲染，这是通过沿着光线投射来自3D场景的颜色来完成的。这个过程是允许NeRF生成最终的图像，将学到的3D场景信息以可视化的形式呈现出来。

为了训练MLP具体参数，对于给定的场景，采用不同位姿的摄像头拍摄得到n幅图像，利用梯度下降的方法，通过最小化预测图像Ip与真实图像Ic之间的误差进行拟合，即：I_p、I_c、n分别是指预测图像的像素值、真实图像像素值、图像的个数。

NeRF模型进行三维重建通常用于捕获物体的整体外观和几何信息，点云是一种轻量级的三维数据表示方式，它只包含了物体表面上的离散点，具有高度的空间分辨率。点云数据可以非常有效地捕捉物体的精细几何信息，包括表面粗糙度、细节纹理等。利用点云重建技术对三维模型进行表面粗糙度的重建得到物体高精度数字孪生模型，包括：

使用表面形貌测量仪测量粗糙表面，以获得表征该实体的三维形貌的点云数据集；点云数据集包含了数以千计的点，每个点都记录了物体表面上的三维坐标；

对点云数据集进行预处理；避免测量环境、噪声等干扰因素的影响，以保证工作的平滑性和准确性。包括：识别和删除明显不在物体表面上的点；使用滤波方法来平滑点云数据并减少噪声；进行数据对齐确保点云与物体坐标系对齐；数据修复填补任何缺失的部分；

曲面粗糙度重建：是在CAD建模环境中进行，包括：点云数据读取；将预处理后的点云数据导入CAD建模环境中，以准备进行进一步的处理；特征点拟合；在CAD建模环境中，使用拟合算法来识别物体表面上的关键特征点，例如，边缘、角点或曲线的拐点；特征区域线拟合；根据识别的特征点，拟合曲线或曲面；以重建物体表面的形状。通常包括使用曲线拟合算法来近似曲线形状；网格处理：将点云数据转换为网格(mesh)数据；这是一个由三角形构成的表示形式，用于更好地描述物体表面的形状；曲面编辑；在CAD环境中，进一步编辑和细化物体表面的曲线和曲面，以获得所需的粗糙度和几何形状；构建物体高精度数字孪生模型。基于编辑后的曲线和曲面，构建实体模型，即包含物体的完整三维几何信息的数字孪生模型。

NeRF提供了整体的三维场景表示，而点云提供了更丰富的局部几何信息。这使得数字孪生模型能够更全面地模拟和表征物体，包括其整体外观和细节。

本发明应用于医学影像处理：从医疗设备获取CT扫描图像，这些CT扫描图像包含有关患者身体部位的信息。采用本发明方法，使用SAM大模型对CT扫描图像进行分割，将不同组织和器官进行精确分割，包括肝脏、肺部、心脏、肿瘤等，基于分割的图像进行NeRF三维重建：对每个分割出的器官和病灶区域，应用NeRF进行三维重建，以获取每个器官的形状、密度和纹理信息。以此得到器官的数字孪生模型基于数字孪生模型，医生可以进行高度个性化的诊断和治疗规划，提供了详细的患者解剖结构信息，允许医生更好地理解患者的生理状态。

实施例3

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1或2所述的基于SAM大模型与NeRF的数字孪生建模方法的步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1或2所述的基于SAM大模型与NeRF的数字孪生建模方法的步骤。

实施例5

一种基于SAM大模型与NeRF的数字孪生建模系统，包括：

图像获取及处理单元，被配置为：通过相机对建模物体的多角度采集得到同一场景的静态2D图像；采用COLMAP等工具估计得到每张静态2D图像对应的相机内外参；相机内外参包括内参和外参；内参包括：焦距、主点和畸变参数；外参包括：旋转矩阵和位移向量；

颜色与透明度预测单元，被配置为：将获得分割图像的五维坐标，五维坐标包括三维坐标与二维视角，三维坐标为(x,y,z)，表示图像三维空间坐标，二维视角为(θ，φ)，表示观察点的极角与方位角；输入NeRF模型中进行训练，得到预测的颜色与透明度；

Claims

1.一种基于SAM大模型与NeRF的数字孪生建模方法，其特征在于，包括：

对建模物体的多角度采集得到同一场景的静态2D图像；

估计得到每张静态2D图像对应的相机内外参；

2.根据权利要求1所述的一种基于SAM大模型与NeRF的数字孪生建模方法，其特征在于，将静态2D图像及分割提示信息输入SAM预训练模型，完成分割任务，得到分割图像；包括：

静态2D图像和分割提示信息分别通过图像编码器和提示编码器处理得到掩码，通过元素级的求和操作进行合并；其中，掩码是指用于对图像的特定部分进行遮挡或突出的二值图像或像素级别的掩模；

3.根据权利要求1所述的一种基于SAM大模型与NeRF的数字孪生建模方法，其特征在于，SAM预训练模型包括图像编码器、提示编码器及掩码解码器；

掩码解码器用于：将特征图从低维度空间解码成像素级别的分割掩码；

4.根据权利要求1所述的一种基于SAM大模型与NeRF的数字孪生建模方法，其特征在于，将获得分割图像的五维坐标输入NeRF模型中的多层感知机网络MLP进行训练，得到预测的颜色与透明度；包括：

γ(p)＝(sin(2⁰πp),cos(2⁰πp),…,sin(2^L-1πp),cos(2^L-1πp)) (I)

5.根据权利要求1所述的一种基于SAM大模型与NeRF的数字孪生建模方法，其特征在于，通过体积渲染以及使用梯度下降法，进行网络训练，得到三维模型；包括：

根据体积渲染将颜色叠加得到最终的像素值，将预测的像素值与真实的图像进行比较，计算损失函数，并用梯度下降法更新网络参数，得到训练的三维的NeRF模型；

r(t)＝o+td (II)

式(II)中，r(t)动态表示光线这条射线，t表示位置，o就是指光心的坐标，d指方向；

6.根据权利要求1所述的一种基于SAM大模型与NeRF的数字孪生建模方法，其特征在于，对于给定的场景，采用不同位姿的摄像头拍摄得到n幅图像，利用梯度下降的方法，通过最小化预测图像Ip与真实图像Ic之间的误差进行拟合，即：I_p、I_c、n分别是指预测图像的像素值、真实图像像素值、图像的个数。

7.根据权利要求1-7任一所述的一种基于SAM大模型与NeRF的数字孪生建模方法，其特征在于，利用点云重建技术对三维模型进行表面粗糙度的重建得到物体高精度数字孪生模型，包括：

曲面粗糙度重建：包括：点云数据读取；特征点拟合；特征区域线拟合；根据识别的特征点，拟合曲线或曲面；网格处理：将点云数据转换为网格数据；曲面编辑；构建物体高精度数字孪生模型。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于SAM大模型与NeRF的数字孪生建模方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于SAM大模型与NeRF的数字孪生建模方法的步骤。

10.一种基于SAM大模型与NeRF的数字孪生建模系统，其特征在于，包括：