CN116681839A - 一种基于改进NeRF的实景三维目标重建与单体化方法 - Google Patents
一种基于改进NeRF的实景三维目标重建与单体化方法 Download PDFInfo
- Publication number
- CN116681839A CN116681839A CN202310962519.7A CN202310962519A CN116681839A CN 116681839 A CN116681839 A CN 116681839A CN 202310962519 A CN202310962519 A CN 202310962519A CN 116681839 A CN116681839 A CN 116681839A
- Authority
- CN
- China
- Prior art keywords
- nerf
- dimensional
- neural network
- picture
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 30
- 238000009877 rendering Methods 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 33
- 239000000049 pigment Substances 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 239000002245 particle Substances 0.000 claims description 9
- 230000001174 ascending effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 239000013307 optical fiber Substances 0.000 claims description 3
- 230000009013 pigment accumulation Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Generation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进NeRF的实景三维目标重建与单体化方法,涉及三维建模技术领域;该方法包括以下步骤:S10、获取场景内的多张二维图像;S20、采用SAM全分割模型,对二维图像进行层次性分割;S30、将分割后的对象输入孪生神经网络中完成对象图像的配对;S40、根据图片特征相似度与位姿重叠关系,进行图片优选;S50、以NeRF神经网络作为基础模型,构建基于改进NeRF的实景三维目标重建模型Sen‑NeRF,将获取目标对象的不同角度的分割图件作为标签,结合原始图像的基本信息,通过实景三维目标重建模型Sen‑NeRF进行渲染;S60、截取mesh模型场景目标,完成实景三维目标重建模型Sen‑NeRF的单体化;本发明的有益效果是:能显著提高了NeRF网络的建模精度,实现了三维目标分割。
Description
技术领域
本发明涉及三维建模技术领域,更具体的说,本发明涉及一种基于改进NeRF的实景三维目标重建与单体化方法。
背景技术
近年来,三维重建技术在计算机视觉、虚拟实、增强现实等领域得到了广泛的应用。传统的三维重建方法,如光学三角测量和多视图体匹配,通常依赖于手动定义的规则和复杂的算法来生成三维模型。然而,这些方法在处理复杂场景和纹理时,往往难以实现高精度的三维重建。
神经辐射场(NeRF)作为一种创新的三维重建技术,利用深度学习算法从大量真实世界图像中学习场景特征,能够生成具有高度真实感和细节的三维模型。相较于传统方法,NeRF具有以下优点:1.更高的真实感:NeRF能够捕捉物体的形状、材质和纹理等物理特性,生成具有不同照条件下的真实感图像。2.更强的泛化能力:NeRF可以从有限的二维图像中生成高质量的三维模型,适应各种复杂场景;3.更高的建模精度:NeRF利用神经网络表示场景,实现了比传统方法更高的建模精度。
然而,NeRF在处理序列图像时,仍存在一定的局限性,不能对对象进行多层次分割进而三维模型单体化。
发明内容
为了克服现有技术的不足,本发明提供一种基于改进NeRF的实景三维目标重建与单体化方法,该方法能显著提高了NeRF网络的建模精度,实现了三维目标分割。
本发明解决其技术问题所采用的技术方案是:一种基于改进NeRF的实景三维目标重建与单体化方法,其改进之处在于,该方法包括以下步骤:
S10、获取场景内的多张二维图像;
S20、采用SAM全分割模型,对二维图像进行层次性分割;
S30、将分割后的对象输入孪生神经网络中完成对象图像的配对;
S40、根据图片特征相似度与位姿重叠关系,进行图片优选;
S50、以NeRF神经网络作为基础模型,构建基于改进NeRF的实景三维目标重建模型Sen-NeRF,将获取目标对象的不同角度的分割图件作为标签,结合原始图像的基本信息,通过实景三维目标重建模型Sen-NeRF进行渲染;
S60、截取mesh模型场景目标,完成实景三维目标重建模型Sen-NeRF的单体化。
进一步的,步骤S10中,通过高清相机对场景进行全方位的覆盖性拍摄,获取足够数量的二维图像。
进一步的,步骤S20中,采用colmap获取二维图像的详细信息,并通过SAM全分割模型对二维图像进行全量分割,对分割后的图片进行编号。
进一步的,所述步骤S30之前,还包括对分割的对象进行提取并填充背景的步骤;
步骤S30中,所述的孪生神经网络为Sen-siam孪生神经网络,该Sen-siam孪生神经网络包括第一卷积神经网络和第二卷积神经网络,且第一卷积神经网络和第二卷积神经网络共享权重,通过第一卷积神经网络和第二卷积神经网络对两个角度图片分割对象进行相似度分析。
进一步的,Sen-siam孪生神经网络中:
;
其中,为第一个图片输入,/>为第二个图片输入,/>为网络共享权重,为不同图片在卷积神经网络阶段输出的欧氏距离,/>为第一角度的图片的卷积神经网络输出,/>为第二角度的图片的卷积神经网络输出;
Sen-siam孪生神经网络损失函数:
;
其中,m为阈值;N为图片的序号,为特征距离/>;y为是否匹配标签。
进一步的,所述第一卷积神经网络和第二卷积神经网络采用改进ResNet50作为基础框架,去除全连接层,并将最后一个卷积特征接入空间金字塔池化层。
进一步的,步骤S40中,分别将相邻图片对输入Sen-siam孪生神经网络中,可以求得特征距离;
对两个图片的位置参数:图片中心与x轴的夹角、图片中心与z轴的夹角/>进行计算,分别取权重/>和/>,加权后可获得图片优选阈值S,其计算公式如下:
;
其中,为第一张图片中心与x轴的夹角,/>为第二张图片中心与x轴的夹角,为第一张图片中心与z轴的夹角,/>为第二张图片中心与z轴的夹角;三维坐标轴为x、y、z,分别指向正东、正北与垂直向上。
进一步的,步骤S50中,包括以下步骤:
S501、在实景三维目标重建模型Sen-NeRF中,对位置与视点分别建立多层感知机结构,分别为位置MLP和视点MLP;
S502、针对位置MLP估计体密度的最后一个隐藏层特征与视点MLP最后一个隐藏层特征进行拼接,连接若干个全连接层后输出RGB值;
S503、通过多层感知机结构的调整,使位置、视点、色彩与体密度建立更准确的映射关系。
进一步的,步骤S50中,还包括以下步骤:
S504、采用体素渲染方程获得生成视角图片:
;
;
其中,为体渲染方程,实现色彩与密度的建模;r为射线,t为时间,光线到交点的前后边界分别为tn到tf;/>表示射线从tn到t时刻的光线累积量,该射线从tn到t时刻都没有因击中任何粒子而被停下的概率;/>为体素密度,表示一条穿过空间的射线,在x处被一个无穷小的粒子终止的概率,这个概率是可微分的,可以将其近似理解为该位置点的不透明度;c(x)表示颜色,反应了该具体的三维坐标上,从光线方向看去,粒子反射的颜色;
其中,r(t)=o+td,r(t)为从原点出发,沿着射线方向的光线,t 时刻到达点的射线;其中o为射线原点,d为相机射线的角度,t为时间;
;
其中,r为射线,;/>为网络输出近似计算光线的像素值,将光路划分为N个等距区间/>,/>表示等距区间/>的长度,/>为等距区间/>的色素,/>为等距区间/>的体密度,/>为等距区间/>的光线累积量。
进一步的,步骤S50中,采用升维和多层次渲染提升模型渲染细节,其中升维方法包括:
将三维空间转化到更高维空间的输入:
;
其中,p为编码位置,包括位置X=(x,y,z)和视点d=(θ,φ);针对两种输入,进行不同的K进行升维度,维度K的选取策略为:构建网格,针对网格取值进行升维网络训练,进行若干次迭代渲染,比较L损失值最终稳定区间,取损失最小的K值对作为升维依据;
多层次渲染包括:
采样较为稀疏的Nc个点色素累加,,其中/>是等距区间的色素,/>是等距区间/>的权重,,/>;
与原视角图片计算损失更新网络:
;
其中L为损失函数,为采样较为稀疏的Nc个点色素累加,/>是正常采样的色素累加。
本发明的有益效果是:本发明提出的一种基于改进Nerf的实景三维重建与单体化方法,相较于传统倾斜影像以及点云三维建模,可以更真实的完成场景的还原和渲染,将实景三维建模过程和时间复杂度大幅降低;本发明仅需少量的二维照片即可快速实现三维重建,并且根据二维图像分割结果对三维重建对象进行有效分割,最终实现模型单体化效果。
附图说明
图1为本发明的一种基于改进NeRF的实景三维目标重建与单体化方法的流程示意图。
图2为本发明中SAM全分割模型与孪生神经网络的示意图。
图3为本发明中孪生神经网络的结构示意图。
图4为本发明中改进ResNet50网络的示意图。
图5为本发明中残差结构的示意图。
图6为本发明中空间金字塔池化的示意图。
图7为本发明中nerf神经渲染模型结构示意图。
图8为本发明中隐式表达网络结构的示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。另外,专利中涉及到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本发明创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。
参照图1所示,本发明提供了一种基于改进NeRF的实景三维目标重建与单体化方法,本实施例中,包括以下的步骤:
S10、图像的获取:获取场景内的多张二维图像;本实施例中,通过高清相机对场景进行全方位的覆盖性拍摄,获取足够数量的二维图像;colmap是一款专用于获取图片相机位姿信息的解算方法,使用colmap获取各相机照片详细信息,包括(x,y,z,θ,φ),其中x,y,z为图像三个方向坐标,θ和φ为观察方向。
S20、图像的层次性分割:采用SAM全分割模型,对二维图像进行层次性分割;
本实施例中,通过SAM全分割模型对二维图像进行全量分割,对分割后的图片进行编号;分别对不同的对象进行背景填充,构建若干不同分割对象的图片,例如:001_obj1.jpg 、001_obj2.jpg,....,002_obj1.jpg,.....;
参照图2所示,SAM模型是一个可以实现全量分割的大模型,本发明引入该模型完成全量分割,该模型可以通过图像编码处实现图像特征提取,图像编码模块采用了VIT(vision transfomer)作为特征提取模块,针对图像特征转化为图像嵌入向量,将生成的全分割mask经过卷积操作后与图像嵌入向量进行拼接,获得图像编码向量,同时针对输入图像的大小生成w/4, w/8和w/10向下取整值为点间隔的prompt网格,例如图像宽为128,则点间隔分别为32,16,12的等距网格点作为prompt编码区的输入;完成mask解码后可以获得若干图像分割对象。
S30、将分割
后的对象输入孪生神经网络中完成对象图像的配对;
结合图2、图3所示,步骤S30中,所述的孪生神经网络为Sen-siam孪生神经网络,该Sen-siam孪生神经网络包括第一卷积神经网络和第二卷积神经网络,且第一卷积神经网络和第二卷积神经网络共享权重,通过第一卷积神经网络和第二卷积神经网络对两个角度图片分割对象进行相似度分析。
进一步的对各角度生成图件按照网格结构对应各图件,分别输入孪生神经网络进行相似度分析。分别对两个角度图片分割对象进行逐一分析,保留特征相似度最大的对象作为同一对象,判断条件是置信度不能低于0.5,低于0.5则认为不存在同一对象,相似度分析仅选取相机位置最近的四张图片的分割对象图件进行分析,将判断为同一对象的分割图片以及原图mask进行记录保存。
结合图3所示,Sen-siam孪生神经网络中:
;
其中,为第一个图片输入,/>为第二个图片输入,/>为网络共享权重,为不同图片在卷积神经网络阶段输出的欧氏距离,/>为第一角度的图片的卷积神经网络输出,/>为第二角度的图片的卷积神经网络输出;
Sen-siam孪生神经网络损失函数:
;
其中,m为阈值,取值为0.5;N为图片的序号,为特征距离;y为是否匹配标签。
在本实施例中,结合图4所示,为改进ResNet50网络的示意图,所述第一卷积神经网络和第二卷积神经网络采用改进ResNet50作为基础框架,去除全连接层,并将最后一个卷积特征接入空间金字塔池化层。参照图5所示,为残差结构的示意图。
残差结构包括两种映射:一种是恒等映射(Identity Mapping),即图5中的曲线连接部分,其通过捷径连接(Shortcut Connections)的方式,直接把输入x传入到输出;另一种是残差映射(Residual Mapping),即图5中的直线连接部分,因此该残差结构的最后输出结果表示为:
;
恒等映射是自身的映射,在shangshi中是指x;残差映射指的是‘差’,也就是H(x)-x,即F(x)部分。可以看出深度残差网络是在浅层网络上叠加y=x的恒等映射,来增加网络的层数,形成深层网络,同时恒等层也使深层网络退化成浅层网络。如图6所示,残差块表示为1x1与64,分别表示使用1x1卷积和64个特征通道,而3表示为重复相同残差结构3次。
S40、根据图片特征相似度与位姿重叠关系,进行图片优选;
本实施例中,步骤S40中,分别将相邻图片对输入Sen-siam孪生神经网络中,可以求得特征距离;
对两个图片的位置参数:图片中心与x轴的夹角、图片中心与z轴的夹角/>进行计算,分别取权重/>和/>,加权后可获得图片优选阈值S,其计算公式如下:
;
其中,为第一张图片中心与x轴的夹角,/>为第二张图片中心与x轴的夹角,为第一张图片中心与z轴的夹角,/>为第二张图片中心与z轴的夹角;三维坐标轴为x、y、z,分别指向正东、正北与垂直向上。
S50、以NeRF神经网络作为基础模型,构建基于改进NeRF的实景三维目标重建模型Sen-NeRF,将获取目标对象的不同角度的分割图件作为标签,结合原始图像的基本信息,通过实景三维目标重建模型Sen-NeRF进行渲染;
参照图7所示,为NeRF神经网络渲染模型结构示意图,经过足量对比后获取目标对象不同角度的分割图件作为标签,结合原始图像的基本信息,通过nerf神经网络进行渲染。基本步骤为:建立方向、空间位置与色彩、体密度隐式表达,按一条射线方向采样点加权叠加,叠加结果与该方向二维图件的真实值求取损失值,反向传播损失值,调整权重。
用network存体素信息:(x,y,z,θ,φ)→(c,σ), 隐式表达网络结构如图8所示。其中,x,y,z为三个方向坐标,θ和φ是观察方向,c是RGB色彩,σ是体密度。
结合图8所示,步骤S50包括以下步骤:
S501、在实景三维目标重建模型Sen-NeRF中,对位置与视点分别建立多层感知机结构,分别为位置MLP和视点MLP;
S502、针对位置MLP估计体密度的最后一个隐藏层特征与视点MLP最后一个隐藏层特征进行拼接,连接若干个全连接层后输出RGB值;
S503、通过多层感知机结构的调整,使位置、视点、色彩与体密度建立更准确的映射关系;
S504、采用体素渲染方程获得生成视角图片:
;
;
其中,为体渲染方程,实现色彩与密度的建模;r为射线,t为时间,光线到交点的前后边界分别为tn到tf;/>表示射线从tn到t时刻的光线累积量,该射线从tn到t时刻都没有因击中任何粒子而被停下的概率;/>为体素密度,表示一条穿过空间的射线,在x处被一个无穷小的粒子终止的概率,这个概率是可微分的,可以将其近似理解为该位置点的不透明度;这个概率是可微分的,可以将其近似理解为该位置点的不透明度;c(x)表示颜色,反应了该具体的三维坐标上,从光线方向看去,粒子反射的颜色;
其中,r(t)=o+td,r(t)为从原点出发,沿着射线方向的光线,t 时刻到达点的射线;其中o为射线原点,d为相机射线的角度,t为时间;
;
其中,r为射线,;/>为网络输出近似计算光线的像素值,将光路划分为N个等距区间/>,/>表示等距区间/>的长度,/>为等距区间/>的色素,/>为等距区间/>的体密度,/>为等距区间/>的光线累积量。
在所述的步骤S50中,采用升维和多层次渲染提升模型渲染细节,其中升维方法包括:
将三维空间转化到更高维空间的输入:
;
其中,p为编码位置,包括位置X=(x,y,z)和视点d=(θ,φ);针对两种输入,进行不同的K进行升维度,维度K的选取策略为:构建网格,针对网格取值进行升维网络训练,进行若干次迭代渲染,比较L损失值最终稳定区间,取损失最小的K值对作为升维依据;
多层次渲染包括:
采样较为稀疏的Nc个点色素累加,,其中/>是等距区间的色素,/>是等距区间/>的权重,,/>;
与原视角图片计算损失更新网络:
;
其中L为损失函数,为采样较为稀疏的Nc个点色素累加,/>是正常采样的色素累加。
S60、截取mesh模型场景目标,完成实景三维目标重建模型Sen-NeRF的单体化。
本实施例中,根据语义分割空间结果对Mesh模型场景目标截取,完成模型的单体化;这一步骤将三维重建得到的模型,生成一个完整的、具有单体化特性的三维模型。
本发明提出的一种基于改进Nerf的实景三维重建与单体化方法,具有以下的特点:1、构建了一套实景三维重建与模型单体化的技术流程;2、采用mask背景填充的方法对不同角度同一对象部件进行分层次提取和配对;3、对ResNet50进行优化,使其适应不同尺寸图像输入;4、针对nerf的MLP网络进行了优化,使其具有更丰富的隐式表达能力;5、针对网络训练策略进行了优化,使其具有更易渲染还原真实。
相较于传统倾斜影像以及点云三维建模,本发明可以更真实的完成场景的还原和渲染,将实景三维建模过程和时间复杂度大幅降低;本发明仅需少量的二维照片即可快速实现三维重建,并且根据二维图像分割结果对三维重建对象进行有效分割,最终实现模型单体化效果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,该方法包括以下步骤:
S10、获取场景内的多张二维图像;
S20、采用SAM全分割模型,对二维图像进行层次性分割;
S30、将分割后的对象输入孪生神经网络中完成对象图像的配对;
S40、根据图片特征相似度与位姿重叠关系,进行图片优选;
S50、以NeRF神经网络作为基础模型,构建基于改进NeRF的实景三维目标重建模型Sen-NeRF,将获取目标对象的不同角度的分割图件作为标签,结合原始图像的基本信息,通过实景三维目标重建模型Sen-NeRF进行渲染;
S60、截取mesh模型场景目标,完成实景三维目标重建模型Sen-NeRF的单体化。
2.根据权利要求1所述的一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,步骤S10中,通过高清相机对场景进行全方位的覆盖性拍摄,获取足够数量的二维图像。
3.根据权利要求2所述的一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,步骤S20中,采用colmap获取二维图像的详细信息,并通过SAM全分割模型对二维图像进行全量分割,对分割后的图片进行编号。
4.根据权利要求1所述的一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,所述步骤S30之前,还包括对分割的对象进行提取并填充背景的步骤;
步骤S30中,所述的孪生神经网络为Sen-siam孪生神经网络,该Sen-siam孪生神经网络包括第一卷积神经网络和第二卷积神经网络,且第一卷积神经网络和第二卷积神经网络共享权重,通过第一卷积神经网络和第二卷积神经网络对两个角度图片分割对象进行相似度分析。
5.根据权利要求4所述的一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,Sen-siam孪生神经网络中:
;
其中,为第一个图片输入,/>为第二个图片输入,/>为网络共享权重,为不同图片在卷积神经网络阶段输出的欧氏距离,/>为第一角度的图片的卷积神经网络输出,/>为第二角度的图片的卷积神经网络输出;
Sen-siam孪生神经网络损失函数:
;
其中,m为阈值;N为图片的序号,为特征距离/>;y为是否匹配标签。
6.根据权利要求5所述的一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,所述第一卷积神经网络和第二卷积神经网络采用改进ResNet50作为基础框架,去除全连接层,并将最后一个卷积特征接入空间金字塔池化层。
7.根据权利要求5所述的一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,步骤S40中,分别将相邻图片对输入Sen-siam孪生神经网络中,可以求得特征距离;
对两个图片的位置参数:图片中心与x轴的夹角、图片中心与z轴的夹角/>进行计算,分别取权重/>和/>,加权后可获得图片优选阈值S,其计算公式如下:
;
其中,为第一张图片中心与x轴的夹角,/>为第二张图片中心与x轴的夹角,/>为第一张图片中心与z轴的夹角,/>为第二张图片中心与z轴的夹角;三维坐标轴为x、y、z,分别指向正东、正北与垂直向上。
8.根据权利要求7所述的一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,步骤S50中,包括以下步骤:
S501、在实景三维目标重建模型Sen-NeRF中,对位置与视点分别建立多层感知机结构,分别为位置MLP和视点MLP;
S502、针对位置MLP估计体密度的最后一个隐藏层特征与视点MLP最后一个隐藏层特征进行拼接,连接若干个全连接层后输出RGB值;
S503、通过多层感知机结构的调整,使位置、视点、色彩与体密度建立更准确的映射关系。
9.根据权利要求8所述的一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,步骤S50中,还包括以下步骤:
S504、采用体素渲染方程获得生成视角图片:
;
;
其中,为体渲染方程,实现色彩与密度的建模;r为射线,t为时间,光线到交点的前后边界分别为tn到tf;/>表示射线从tn到t时刻的光线累积量,该射线从tn到t时刻都没有因击中任何粒子而被停下的概率;/>为体素密度,表示一条穿过空间的射线,在x处被一个无穷小的粒子终止的概率,这个概率是可微分的,可以将其近似理解为该位置点的不透明度;c(x)表示颜色,反应了该具体的三维坐标上,从光线方向看去,粒子反射的颜色;
其中,r(t)=o+td,r(t)为从原点出发,沿着射线方向的光线,t 时刻到达点的射线;其中o为射线原点,d为相机射线的角度,t为时间;
;
其中,r为射线,;/>为网络输出近似计算光线的像素值,将光路划分为N个等距区间/>,/>表示等距区间/>的长度,/>为等距区间的色素,/>为等距区间/>的体密度,/>为等距区间/>的光线累积量。
10.根据权利要求9所述的一种基于改进NeRF的实景三维目标重建与单体化方法,其特征在于,步骤S50中,采用升维和多层次渲染提升模型渲染细节,其中升维方法包括:
将三维空间转化到更高维空间的输入:
;
其中,p为编码位置,包括位置X=(x,y,z)和视点d=(θ,φ);针对两种输入,进行不同的K进行升维度,维度K的选取策略为:构建网格,针对网格取值进行升维网络训练,进行若干次迭代渲染,比较L损失值最终稳定区间,取损失最小的K值对作为升维依据;
多层次渲染包括:
采样较为稀疏的Nc个点色素累加,,其中/>是等距区间的色素,/>是等距区间/>的权重,,/>;
与原视角图片计算损失更新网络:
;
其中L为损失函数,为采样较为稀疏的Nc个点色素累加,/>是正常采样的色素累加,r为射线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310962519.7A CN116681839B (zh) | 2023-08-02 | 2023-08-02 | 一种基于改进NeRF的实景三维目标重建与单体化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310962519.7A CN116681839B (zh) | 2023-08-02 | 2023-08-02 | 一种基于改进NeRF的实景三维目标重建与单体化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116681839A true CN116681839A (zh) | 2023-09-01 |
CN116681839B CN116681839B (zh) | 2024-02-23 |
Family
ID=87791290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310962519.7A Active CN116681839B (zh) | 2023-08-02 | 2023-08-02 | 一种基于改进NeRF的实景三维目标重建与单体化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681839B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496072A (zh) * | 2023-12-27 | 2024-02-02 | 南京理工大学 | 一种三维数字人生成和交互方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220139072A1 (en) * | 2019-03-28 | 2022-05-05 | Hoffmann-La Roche Inc. | Machine learning using distance-based similarity labels |
CN115600307A (zh) * | 2022-12-01 | 2023-01-13 | 北京飞渡科技有限公司(Cn) | 一种从城市场景的Mesh模型中生成单体化建筑的方法 |
CN116012517A (zh) * | 2023-02-02 | 2023-04-25 | 北京数原数字化城市研究中心 | 一种正则化的图像渲染方法及装置 |
CN116051740A (zh) * | 2023-01-04 | 2023-05-02 | 华南理工大学 | 一种基于神经辐射场的室外无界场景三维重建方法及系统 |
CN116188723A (zh) * | 2022-12-26 | 2023-05-30 | 武汉唯理科技有限公司 | 基于Hashgrid的神经辐射场及二维体密度分割的建模方法 |
CN116310076A (zh) * | 2022-12-29 | 2023-06-23 | 深圳万兴软件有限公司 | 基于神经辐射场的三维重建方法、装置、设备及存储介质 |
CN116416375A (zh) * | 2023-02-17 | 2023-07-11 | 贵州大学 | 一种基于深度学习的三维重建方法和系统 |
WO2023138471A1 (zh) * | 2022-01-24 | 2023-07-27 | 阿里巴巴(中国)有限公司 | 三维场景渲染方法、设备以及存储介质 |
-
2023
- 2023-08-02 CN CN202310962519.7A patent/CN116681839B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220139072A1 (en) * | 2019-03-28 | 2022-05-05 | Hoffmann-La Roche Inc. | Machine learning using distance-based similarity labels |
WO2023138471A1 (zh) * | 2022-01-24 | 2023-07-27 | 阿里巴巴(中国)有限公司 | 三维场景渲染方法、设备以及存储介质 |
CN115600307A (zh) * | 2022-12-01 | 2023-01-13 | 北京飞渡科技有限公司(Cn) | 一种从城市场景的Mesh模型中生成单体化建筑的方法 |
CN116188723A (zh) * | 2022-12-26 | 2023-05-30 | 武汉唯理科技有限公司 | 基于Hashgrid的神经辐射场及二维体密度分割的建模方法 |
CN116310076A (zh) * | 2022-12-29 | 2023-06-23 | 深圳万兴软件有限公司 | 基于神经辐射场的三维重建方法、装置、设备及存储介质 |
CN116051740A (zh) * | 2023-01-04 | 2023-05-02 | 华南理工大学 | 一种基于神经辐射场的室外无界场景三维重建方法及系统 |
CN116012517A (zh) * | 2023-02-02 | 2023-04-25 | 北京数原数字化城市研究中心 | 一种正则化的图像渲染方法及装置 |
CN116416375A (zh) * | 2023-02-17 | 2023-07-11 | 贵州大学 | 一种基于深度学习的三维重建方法和系统 |
Non-Patent Citations (2)
Title |
---|
SHUAIFENG ZHI等: "In-Place Scene Labelling and Understanding with Implicit Scene Representation", ARXIV, pages 1 - 8 * |
清欢守护者: "精读深度学习论文(25) Siamese Network", 知乎, pages 1 - 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496072A (zh) * | 2023-12-27 | 2024-02-02 | 南京理工大学 | 一种三维数字人生成和交互方法及系统 |
CN117496072B (zh) * | 2023-12-27 | 2024-03-08 | 南京理工大学 | 一种三维数字人生成和交互方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116681839B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113706714B (zh) | 基于深度图像和神经辐射场的新视角合成方法 | |
CN110163974B (zh) | 一种基于无向图学习模型的单图像面片重建方法 | |
WO2024007478A1 (zh) | 基于单手机的人体三维建模数据采集与重建方法及系统 | |
CN113963117B (zh) | 一种基于可变卷积深度网络的多视图三维重建方法及装置 | |
CN113345063B (zh) | 基于深度学习的pbr三维重建方法、系统与计算机存储介质 | |
CN114998515B (zh) | 一种基于多视角图像的3d人体自监督重建方法 | |
Condorelli et al. | A comparison between 3D reconstruction using nerf neural networks and mvs algorithms on cultural heritage images | |
CN117036612A (zh) | 一种基于神经辐射场的三维重建方法 | |
CN115761178A (zh) | 基于隐式神经表示的多视图三维重建方法 | |
WO2021219835A1 (en) | Pose estimation method and apparatus | |
CN115428027A (zh) | 神经不透明点云 | |
CN115147709B (zh) | 一种基于深度学习的水下目标三维重建方法 | |
CN116681839B (zh) | 一种基于改进NeRF的实景三维目标重建与单体化方法 | |
CN114782628A (zh) | 基于深度相机的室内实时三维重建方法 | |
JP2024510230A (ja) | 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測 | |
Kulkarni et al. | 360fusionnerf: Panoramic neural radiance fields with joint guidance | |
CN117990088A (zh) | 一种使用三维高斯后端表征的稠密视觉slam方法及系统 | |
Liu et al. | Creating simplified 3D models with high quality textures | |
CN118154770A (zh) | 基于神经辐射场的单幅树木图像三维重建方法和装置 | |
CN117501313A (zh) | 基于深度神经网络的毛发渲染系统 | |
CN117830520A (zh) | 基于深度残差和神经隐式表面学习的多视图三维重建方法 | |
CN116310228A (zh) | 一种针对遥感场景的表面重建与新视图合成方法 | |
Han et al. | Learning residual color for novel view synthesis | |
CN117593618B (zh) | 基于神经辐射场和深度图的点云生成方法 | |
Kim et al. | OmniSDF: Scene Reconstruction using Omnidirectional Signed Distance Functions and Adaptive Binoctrees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |