CN114118367B - 增量式神经辐射场构建的方法及设备 - Google Patents
增量式神经辐射场构建的方法及设备 Download PDFInfo
- Publication number
- CN114118367B CN114118367B CN202111359377.2A CN202111359377A CN114118367B CN 114118367 B CN114118367 B CN 114118367B CN 202111359377 A CN202111359377 A CN 202111359377A CN 114118367 B CN114118367 B CN 114118367B
- Authority
- CN
- China
- Prior art keywords
- probability
- radiation field
- probability feature
- feature map
- voxel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000005855 radiation Effects 0.000 title claims abstract description 43
- 210000005036 nerve Anatomy 0.000 title claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 42
- 230000001537 neural effect Effects 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000002834 transmittance Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims 1
- 239000002131 composite material Substances 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 238000009877 rendering Methods 0.000 abstract description 7
- 238000012549 training Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical group OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了增量式神经辐射场构建的方法及设备,涉及计算机视觉领域。其中,方法包括:初始化结构与外观的概率特征图;根据新的相机位姿与拍摄图像,采用神经网络生成新的概率特征图,并依照卡尔曼优化方法将新生成的概率特征图作为增量添加到已有概率特征图中;重复添加过程直至概率特征图满足要求;基于概率特征图与采样图像,可训练得到构建后的神经辐射场。本发明构建的神经辐射场具有泛化能力强、指向性好及渲染速度快的特点。
Description
技术领域
本发明涉及计算机视觉领域,特别是涉及增量式神经辐射场构建的方法及设备。
背景技术
BenMildenhall等人于ECCV2020提出了神经辐射场NeRF(NeuralRadi-anceField),该方法采用神经网络对静态场景进行隐式建模,训练好网络后,可以从任意角度渲染出清晰的场景图片。
作为三维视觉的新范式,NeRF对现实场景进行非显式表达,基于离散角度拍摄的二维图片,可以渲染出全角度的高拟真度场景图片,结合现阶段的计算机视觉技术,能够在三维场景建模中发挥重要的作用。
NeRF被提出以后,后续大量的工作陆续跟进,从速度、效果、风格、动态场景、泛化能力、多尺度等各个方面对NeRF进行了改进,各种变体NeRF被不断提出。
然而,从现有的方法来看,目前各类方法仍集中在单一方面的原理性研究上,尚缺少一种高泛化性、高渲染速度的神经网络构建方法,难以满足针对神经辐射场的工程化需求。
发明内容
有鉴于此,本发明提供了增量式神经辐射场构建的方法及设备。其方法先根据场景特点初始化结构与外观的概率特征图,然后根据新的相机位姿与拍摄图像,采用神经网络生成新的概率特征图,并依照卡尔曼优化方法将新生成的概率特征图作为增量添加到已有概率特征图中,重复增量添加过程直至概率特征图满足要求,最后基于概率特征图与采样图像,可训练得到构建后的神经辐射场,并且整个方法流程在本发明提出的电子设备中运行与存储。本发明构建的神经辐射场具有泛化能力强、指向性好及渲染速度快的特点。
本发明采用的技术方案如下:
根据本发明的第一方面,提出了增量式神经辐射场构建的方法,其步骤如下。
根据目标场景的特点,构建体素网格,体素网格采用顶点和体素边长描述,一个体素网格顶点V对应着一个概率特征向量/>
假定目标场景的长宽高分别为SL,SW,SH,以体素边长E初始化体素网格矩阵M,则长宽高三个维度对应的索引iL,iW,iH分别满足:
其中,公式(1)中,表示向上取整运算。
构造好体素网格矩阵后,对矩阵内每个体素网格顶点Vi对应的概率特征向量/>进行初始化,其中,i∈[0,iLiWiH)为体素网格顶点的索引。初始化方式可采用置零初始化,或者随机初始化。
体素网格矩阵中顶点各自对应着概率特征向量,本发明实施例中,采用多维高斯分布描述概率模型,表达式如下:
其中为随机变量,均值μ为D维向量,协方差矩阵∑的维度为D×D,则概率特征向量/>由μ与∑展开成一维后拼接得到。
本发明实施例中,对于体素网格顶点V,假定其对应随机变量为三维向量,一维展开其均值μ和协方差矩阵∑,得到概率特征向量/>
公式(3)中,μ0,μ1,μ2为均值μ三个维度的分量,为协方差矩阵∑mn第m行,第n列的分量。
依照结构特征与外观特征构建所述概率特征,所述结构特征由空间向量描述,所述外观特征由外观向量/>描述。
本发明实施例中,空间向量由笛卡尔三维空间坐标系描述,描述方式如下:
本发明实施例中,外观向量由颜色空间红绿蓝描述,描述方式如下:
公式(5)中,r,g,b分别为红绿蓝三原色分量。
根据空间向量的描述,对于索引为i的体素网格顶点Vi,其空间范围Ri为:
令表示所述空间向量/>落在所述体素网格内概率,/>为阈值,基于所述神经辐射场建模时,满足下面条件的体素网格可以不作处理:
公式(7)中,ε为大于零的小数,本发明实施例中,取ε=0.01。此时,满足公式(7)的体素网格在空间中出现的概率比较小,可以不参与建模过程,从而提升神经辐射场的建模速度。
通过测量或图像三维重建的方式获取相机位姿,依据所述相机位姿,基于特征提取神经网络,输入拍摄图像,可生成新的概率特征图。
本发明实施例中,其特征提取神经网络采用UNet架构,参考单目图像深度估计的思路,将输入图像I转化为特征图。
本发明实施例中,对于输入图像通过UNet网络,输出得到特征图其中LΓ为概率特征向量/>的长度,W,H为图像的宽度和高度,j为图像索引,用如下公式表示:
Γj=Uψ(Ij) (8)
公式(8)中,U为特征提取神经网络,ψ为特征提取神经网络的超参数。
对于特征图长宽平面上某一点(wk,hk)的概率特征向量将其恢复为均值μk与协方差矩阵∑k,然后根据相机内参和位姿反向映射到体素网格空间中。
相机内参为K,相机位姿相对体素网格世界坐标系的转移矩阵为T,此时相机坐标PC到世界坐标PW的映射关系如下:
PW=T-1K-1PC (9)
本发明实施例中,概率特征向量由三维的空间向量/>与三维的外观向量/>构成,令H=T-1K-1,此时有:
μW=BμC;∑W=B∑CBT (10)
公式(10)中,μW与∑W为世界坐标系下的均值与协方差矩阵,μC与∑C为相机坐标系下的均值与协方差矩阵,矩阵B为线性变换矩阵:
公式(11)中,I3×3为单位矩阵。
利用公式(10),可得世界坐标系内的概率特征向量,对每次新拍摄的图像做特征映射并不断添加到原始概率特征图中,可实现体素网格矩阵的概率特征不断更新。
本发明实施例中,所采用的添加操作为卡尔曼优化方法。在体素网格矩阵的世界坐标系中,假定添加前的概率特征均值为μt-1,协方差矩阵为∑t-1,当前的概率特征均值为μt,协方差矩阵为∑t,则添加后的概率特征的均值μt+1与协方差矩阵∑t+1分别为:
已知体素网格矩阵的概率特征图时,通过生成辐射场网络,可构建得到所述神经辐射场,神经辐射场的映射函数为:
Fθ(x,d;z)=(c,σ) (13)
其中,θ为辐射场网络的超参数,z为随机变量的采样,/>为体素网格顶点V的空间坐标,/>为体素的观测方向,/>为体素的颜色,/>为体素的透光率。
给定相机位姿后,以相机位置为起点,跟踪图像中每个像素对应的射线,对每条射线上的体素颜色与透光率进行积分,可得像素的颜色值。其中,射线跟踪时可跳过满足公式(7)条件的体素网格,提升射线跟踪效率。
根据本发明的第二方面,提出了一种电子设备,该电子设备包括:
处理器;
以及用于存储计算机可执行指令的存储器;
以及计算机程序,其计算机程序存储在上述存储器中,由一个或多个处理器执行;
该计算机程序被所述处理执行时实现上述的任一方法。
根据本发明的再一方面,提出了一种计算机可读存储介质,该计算机可读存储介质上存储有可实现增量式神经辐射场构建的方法的计算机程序,
该计算机程序被所述处理执行时实现上述的增量式神经辐射场构建的方法中任一方法。
综上所述,根据本发明,根据场景特点初始化体素网格矩阵的结构外观概率特征图,采用特征提取神经网络对新拍摄的图像提取概率特征向量,然后基于相机内参与相机位姿将相机坐标系内的概率特征向量映射到世界坐标系中。然后依照卡尔曼优化方法,在世界坐标系中,不断将新生成的概率特征图添加到已有概率特征图中,重复添加过程直至满足要求。最后,基于概率特征图与采样图像,可训练得到构建后的神经辐射场。
由于本发明通过特征提取神经网络拟合目标场景的结构特性和外观特性,抽象后的结构特性与外观特性作为神经辐射场的映射函数的条件概率,使得本发明的方法能够泛化到一般性的场景中。同时,目标场景的结构外观条件概率可结合卡尔曼优化方法不断更新调整,从而针对纹理复杂的局部场景,可重复多次采样达到高指向性的要求。此外,目标场景的结构特性条件概率服从多维高斯分布时,可设立阈值,对于条件概率低于阈值的体素网格不作处理,提升场景渲染速度。基于上述特点,本发明能够实现高泛化性、高指向性、及高速率的构建神经辐射场。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一些实施例的方法流程的示意图。
图2示出了根据本发明一些实施例的概率特征图构建的示意图。
图3示出了根据本发明一些实施例的计算设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明的实施例进行详细的描述说明。其描述涉及附图时,相同的附图标记通常表示相同或者相似的元素。
应当理解,本示例性实施例所描述的实施方式不应被本公开所阐述的实施例所限制,提供实施例是为了更透彻的理解本公开,并且能将本公开的范围完整的传达给本领域的技术人员。各种形式的实现方式仅是如所附权利要求书中所详述的,本公开的某些方面相一致的方法、装置或设备的样例。
神经辐射场NeRF构建与渲染作为三维视觉的新范式,越来越受人们的关注。NeRF被提出后,针对其速度、效果、风格、动态场景、泛化能力、多尺度等各个方面对NeRF进行了改进,各种变体NeRF被不断提出。
为适应产业工程中的高时效渲染的需求,本发明实施例提出了增量式神经辐射场构建的方法及设备。基于本发明提出的方法与设备,利用卡尔曼优化的方法,不断优化迭代目标场景的概率特征图,从而有效的适应一般性环境,达到NeRF高泛化能力、指向性好及高渲染速度的要求。
以下结合附图,详细说明本发明各实施例提供的技术方案。
本发明采用的技术方案如下:
根据本发明的第一方面,提出了增量式神经辐射场构建的方法,图1给出了本发明方法的步骤流程。
首先,依照步骤110初始化目标场景的概率特征图,图2给出了概率特征图构建200的示意图。
图2中,根据目标场景的特点,构建体素网格220,体素网格220采用顶点和体素边长/>描述,一个体素网格220顶点V对应着一个概率特征向量/>
假定目标场景的长宽高分别为SL,SW,SH,以体素边长E初始化体素网格矩阵M210,则长宽高三个维度对应的索引iL,iW,iH分别满足:
其中,公式(1)中,表示向上取整运算。
构造好体素网格矩阵210后,对矩阵内每个体素网格220顶点Vi对应的概率特征向量/>进行初始化,其中,i∈[0,iLiWiH)为体素网格220顶点的索引。初始化方式可采用置零初始化,或者随机初始化。
体素网格矩阵210中顶点各自对应着概率特征向量,本发明实施例中,采用多维高斯分布描述概率模型,表达式如下:
其中为随机变量,均值μ为D维向量,协方差矩阵∑的维度为D×D,则概率特征向量/>由μ与∑展开成一维后拼接得到。
本发明实施例中,对于体素网格220顶点V,假定其对应随机变量为三维向量,一维展开其均值μ和协方差矩阵∑,得到概率特征向量/>
公式(3)中,μ0,μ1,μ2为均值μ三个维度的分量,为协方差矩阵∑mn第m行,第n列的分量。
依照结构特征与外观特征构建所述概率特征,所述结构特征由空间向量描述,所述外观特征由外观向量/>描述。
本发明实施例中,空间向量由笛卡尔三维空间坐标系描述,描述方式如下:
本发明实施例中,外观向量由颜色空间红绿蓝描述,描述方式如下:
公式(5)中,r,g,b分别为红绿蓝三原色分量。
根据空间向量的描述,对于索引为i的体素网格220顶点Vi,其空间范围Ri为:
令表示所述空间向量/>落在所述体素网格220内概率,/> 为阈值,基于所述神经辐射场建模时,满足下面条件的体素网格220可以不作处理:
公式(7)中,ε为大于零的小数,本发明实施例中,取ε=0.01。此时,满足公式(7)的体素网格220在空间中出现的概率比较小,可以不参与建模过程,从而提升神经辐射场的建模速度。
通过测量或图像三维重建的方式获取相机位姿,依据所述相机位姿,基于特征提取神经网络,输入拍摄图像,可生成新的概率特征图。
本发明实施例中,其特征提取神经网络采用UNet架构,参考单目图像深度估计的思路,将输入图像I转化为特征图。
本发明实施例中,对于输入图像通过UNet网络,输出得到特征图其中LΓ为概率特征向量F的长度,W,H为图像的宽度和高度,j为图像索引,用如下公式表示:
Γj=Uψ(Ij) (8)
公式(8)中,U为特征提取神经网络,ψ为特征提取神经网络的超参数。
对于特征图长宽平面上某一点(wk,hk)的概率特征向量将其恢复为均值μk与协方差矩阵∑k,然后根据相机内参和位姿反向映射到体素网格空间中。
相机内参为K,相机位姿相对体素网格220世界坐标系的转移矩阵为T,此时相机坐标PC到世界坐标PW的映射关系如下:
PW=T-1K-1PC (9)
本发明实施例中,概率特征向量由三维的空间向量/>与三维的外观向量/>构成,令H=T-1K-1,此时有:
μW=BμC;∑W=B∑CBT (10)
公式(10)中,μW与∑W为世界坐标系下的均值与协方差矩阵,μC与∑C为相机坐标系下的均值与协方差矩阵,矩阵B为线性变换矩阵:
公式(11)中,I3×3为单位矩阵。
利用公式(10),可得世界坐标系内的概率特征向量,对每次新拍摄的图像做特征映射并不断添加到原始概率特征图中,可实现体素网格矩阵的概率特征不断更新。
本发明实施例中,以图2为例说明相机坐标系与世界坐标系的映射关系。
假定以体素网格矩阵210的长宽高方向建立世界坐标系,相机在点OA拍摄的图像为IA 250,OA相机坐标系到世界坐标系的转移矩阵为TA;在点OB拍摄的图像为IB 260,OB相机坐标系到世界坐标系的转移矩阵为TB。
此时,通过特征提取神经网络U提取IA和IB的特征图ΓA和特征图ΓB后,将ΓA和ΓB依照公式(9)和公式(10)统一映射到体素网格矩阵210的世界坐标系中,从而可实现概率特征图在体素网格矩阵内210内的更新与优化。
本发明实施例中,所采用的添加操作为卡尔曼优化方法。在体素网格矩阵210的世界坐标系中,假定添加前的概率特征均值为μt-1,协方差矩阵为∑t-1,当前的概率特征均值为μt,协方差矩阵为∑t,则添加后的概率特征的均值μt+1与协方差矩阵∑t+1分别为:
已知体素网格矩阵210的概率特征图时,通过生成辐射场网络,可构建得到所述神经辐射场,神经辐射场的映射函数为:
Fθ(x,d;z)=(c,σ) (13)
其中,θ为辐射场网络的超参数,z为随机变量的采样,/>为体素网格220顶点V的空间坐标,/>为体素220的观测方向,/>为体素220的颜色,/>为体素220的透光率。
给定相机位姿后,以相机位置为起点,跟踪图像中每个像素对应的射线,对每条射线上的体素颜色与透光率进行积分,可得像素的颜色值。其中,射线跟踪时可跳过满足公式(7)条件的体素网格,提升射线跟踪效率。
本方面实施例中,射线RA 230以OA为起点,指向体素网格矩阵210中的体素网格220;射线RB 240以OB为起点,指向体素网格矩阵210中的体素网格220。
射线RA 230与射线RB 240对其射线路径上所有历经的体素网格220进行积分运算,可以分别得到射线RA 230与射线RB 240对应的像素颜色值。并且,射线跟踪过程中,对于空间概率较小的体素网格220可以跳过运算,提升跟踪效率。
图3是一种可以任选地用来执行本发明技术描述的一个或者多个方面的示例计算设备。计算设备300包括以下一个或者多个子系统:输入设备子系统310,输出设备子系统320,外存储器子系统330,处理器子系统350,主存储器子系统360,应用软件子系统370,通信设备子系统380,以及各子系统之间数据交换的总线子系统,包括I/O总线341,系统总线342和内存总线343。其中,计算设备300的应用软件370中包含执行根据本发明的上述方法的多条程序指令。
输入设备子系统310包括但不限于鼠标312、键盘311、触摸笔、触摸屏或触摸板、扫描器、用于获取图像视频的前置或者后置摄像头314、用于音频输入的麦克风313、各类信号传感器、和其他类型的输入设备。传感器包括并不限于光传感器(CMOS或CCD图像传感器)、加速度传感器、磁传感器、压力传感器或温度传感器。一般地,输入设备子系统由所有可能类型的设备部分或者自由组合所构成,该子系统旨在将外界信息经编码转换后输入到计算设备300中。
输出设备子系统320包括但不限于打印机、传真机、扫描机、用于显示视频图像的显示器321、用于音频输出的扬声器322、和其他类型的输出设备。显示器可包括阴极射线管(CRT)、液晶显示器(LCD)的平板设备、投影设备、或用于产生视频图像的其他设备。一般地,输出设备子系统由所有可能类型的设备部分或者自由组合所构成,该子系统旨在将计算设备300内的信息经转换后输出到用户或者外界环境中。
外存储器子系统330包括但不限于硬盘驱动器、软盘驱动器以及关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒、和其他磁盘332和磁盘控制器331等存储设备。一般地,外存储器子系统由所有可能类型的设备或者自由组合所构成,该子系统旨在将计算设备300内的产生的信息存储到相关设备中,为程序和数据文件提供持久存储。
处理器子系统350包括但不限于处理器核351、高速缓存352、总线接口353、寄存器、和其他处理设备。处理器350可以被中央处理器(CPU)、图形处理器(GPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、微处理器(MPU)、控制器、微控制器或其他电子元件的部分或者自由组合实现。
处理器核351包括但不限于运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)、CUDA核或者它们的自由组合。高速缓存包括直接映射高速缓存、组相联高速缓存和全相联高速缓存,实现处理器核351与系统总线342之间的数据交换。总线接口353与系统总线342相连接。一般地,处理器子系统由所有可能类型的设备或者自由组合所构成,该子系统旨在为计算设备300提供串行或者并行的信息处理能力。
主存储器子系统360包括但不限于在程序执行期间存储指令和数据的主随机存取存储器(SRAM,RAM)和存储有固定指令的只读存储器(ROM、EEP-ROM、PROM、闪存等)。主随机存储器和只读存储器均与内存总线343相连接。一般地,主存储器子系统由所有可能类型的设备或者自由组合所构成,该子系统旨在将计算设备300内的产生的过程信息临时存储到相关设备中。
应用软件子系统370包括但不限于程序数据371、计算机程序372、操作系统373。这些软件模块一般地由处理器350进行执行。在一些实施方式中,应用软件370可以布置为在操作系统上由一个或多个处理器350利用计算机程序370执行指令。一般地,应用软件子系统由所有可能类型的计算机程序的部分或者自由组合所构成,该子系统旨在对处理器350子系统生成的信息进行逻辑加工处理,提供本文中所描述模块中的一些或全部的功能性的数据构造、加工和编程。
通信设备380子系统包括但不限于网络接口381。网络接口381提供与外部网络或者其他计算设备通信的接口及设备。通信设备380子系统可以接入基于通信标准的无线网络,如WiFi、4G、5G、6G,或它们的组合。网络通信通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频、微波、红外、激光或者其它无线介质在内的各种无线介质。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。一般地,通信设备子系统由所有可能类型的设备或者自由组合所构成,该子系统旨在将计算设备300内的信息通过通信网络输出到外部网络或者其他计算设备中。
总线子系统包括但不限于I/O总线341,系统总线342和内存总线343。各类总线通过I/O桥340进行桥接,基于340系统总线342连接总线接口353,内存总线343连接主存储器360,I/O总线341连接输入设备310、输出设备320、外存储器330、以及通信设备380。一般地,总线子系统由所有可能类型的总线设备或者自由组合所构成,该子系统旨在提供计算设备300内各个组件和子系统之间的内部信息通信,总线子系统的实施方式可选择使用多条总线。
计算设备300可具有各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器群,或任何其它数据处理系统或计算设备。计算设备300也可以实现为小尺寸便携或者移动等微型电子设备的一部分,诸如蜂窝电话、数码照相机、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。由于计算机和网络的不断变化的性质,图3中描绘的计算设备300的描述仅旨在作为用于图示一些实施方式的目的的具体示例。计算设备300的许多其它配置可能具有比图3中描绘的计算设备更多或更少的组件。
根据本发明的第二方面,在根据本发明的实施例中,计算设备300被配置为执行根据本发明的增量式神经辐射场构建的方法。其中,计算设备300包含执行根据本发明的上述方法的多条程序指令。
本领域技术人员可以理解,为了详细描述本公开的技术特征,本公开提供了大量具体的实施细节,依据部分细节即可对一些实施例进行实践。同时,为了突出本公开的关键技术特征,一些实施例中,并未详尽地示出公知的实施细节。
本公开并不局限于已经描述并在附图中示出的具体特征,应该理解到,本领域技术人员可以依据本公开中所描述优点中的一个或者多个的技术特征,在不脱离其范围进行各种修改和改变,这样的变化或修改的每一个均被视为在本公开描述的实施方式的范围内。
本公开所述的一些实施例可以包括其它实施例中所包括的某些特征,不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。应当理解,本公开的实施方式涉及本文中描述的每个单独的设备、系统和方法,如果所描述的设备、系统和方法不相互矛盾,则两个或多个设备、系统和方法的任何组合都被包括在本公开的范围内。
应当理解的,本公开的示例中的设备模块、单元或组件可以布置在如实施例中所描述的设备中,或者可替换地布置在与示例设备不同的一个或多个设备中。示例中的模块可以组合为一个模块或者拆分为多个子模块。
应当理解的,本公开的示例中的系统可以由计算机系统的处理器或者相同功能的其他装置,以及实施方法或方法元素的组合构成。示例中的装置或方法元素可以自由组合,或者拆解装置为多个子模块,以及转化方法元素为近似元素。
应当理解的,本公开所描述的所有参数、结构和配置均为示例性的,并且实际的参数、结构和配置将取决于一个或多个具体的应用。
在本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,不能理解为对本发明的限制。
本领域技术人员可以理解,在本公开描述的本发明范围内,,可以设想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (3)
1.增量式神经辐射场构建的方法,其特征在于,包括:
初始化概率特征图;
根据相机位姿与拍摄图像,生成新的概率特征图;
将所述新的概率特征图添加到已有的所述概率特征图中,并根据需求重复所述添加操作;
基于概率特征图,构建得到神经辐射场;
所述概率特征图包含若干概率特征,所述概率特征图分布在根据目标场景的特点构建的体素网格中,在所述体素网格中,一个体素网格顶点V对应一个概率特征向量其中,体素网格采用顶点/>和体素边长/>描述;
所述概率特征向量采用多维高斯分布建模,表达式如下:
其中为随机变量,均值μ为D维向量,协方差矩阵∑的维度为D×D,所述概率特征向量由μ与∑展开成一维后拼接得到;
对于体素网格顶点V,其对应的随机变量为三维向量,一维展开其均值μ和协方矩阵∑,得到概率特征向量/>
式中,μ0,μ1,μ2为均值μ三个维度的分量,∑00,∑01,∑02,∑10,∑11,∑12,∑20,∑21,∑22为协方差矩阵第m行,第n列的分量,m=0,1,2,n=0,1,2;
依照结构特征与外观特征构建所述概率特征向量,所述结构特征由空间向量描述,所述外观特征由外观向量/>描述;
其中,空间向量由笛卡尔三维空间坐标系描述,描述方式如下:
外观向量由颜色空间红绿蓝描述,描述方式如下:
式中,r,g,b分别为红绿蓝三原色分量;
对于空间坐标为(u,v,w)的所述体素网格顶点V,其范围R为:
令表示所述空间向量/>落在所述体素网格内概率,E为体素网格空间的体素边长;
为阈值,基于所述神经辐射场建模时,对于/>的体素网格可不作处理;
所述相机位姿可通过测量或图像三维重建的方式获取,依据所述相机位姿,基于特征提取神经网络,输入所述拍摄图像,可生成所述新的概率特征图;
其中,通过特征提取神经网络,提取表征相机位姿的输入图像中的特征,然后基于对于相机坐标系相机位姿相对于体素网格世界坐标系的转换矩阵,得到相机坐标相对于世界坐标的特征映射关系,进而得到世界坐标系内的概率特征向量,对每次新拍摄的图像做特征映射并不断添加到原始概率特征图中,实现体素网格空间中概率特征更新,进而生成新的概率特征图;
所述添加操作为卡尔曼优化方法,添加前的所述概率特征向量均值为μt-1,所述协方差矩阵为∑t-1,当前的所述概率特征向量均值μt,所述协方差矩阵为∑t,则添加后的所述概率特征向量的均值μt-1与所述协方差矩阵∑t+1分别为:
μt+1=(∑t-1μt+∑tμt-1)(∑t-1+∑t)-1
∑t+1=∑t-1(∑t-1+∑t)-1∑t
通过生成辐射场网络,输入所述概率特征图,构建得到所述神经辐射场,神经辐射场的映射函数为:
Fθ(x,d;z)=(c,σ)
其中,θ为所述生成辐射场网络的超参数,z为所述随机变量的采样,x为组成概率特征图的概率特征向量在体素网格空间对应的所述体素网格顶点V的空间坐标,d为所述体素的观测方向,c为所述体素的颜色,σ为所述体素的透光率。
2.一种电子设备,包括:
处理器;
以及用于存储计算机可执行指令的存储器;
计算机程序,所述计算机程序存储在所述存储器中,由一个或多个处理器执行;
所述计算机程序被所述处理执行时实现如权利要求1中所述的增量式神经辐射场构建的方法。
3.一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质上存储有可实现增量式神经辐射场构建的方法的计算机程序;
所述计算机程序被处理执行时,实现如权利要求1中所述的增量式神经辐射场构建的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111359377.2A CN114118367B (zh) | 2021-11-16 | 2021-11-16 | 增量式神经辐射场构建的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111359377.2A CN114118367B (zh) | 2021-11-16 | 2021-11-16 | 增量式神经辐射场构建的方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114118367A CN114118367A (zh) | 2022-03-01 |
CN114118367B true CN114118367B (zh) | 2024-03-29 |
Family
ID=80397058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111359377.2A Active CN114118367B (zh) | 2021-11-16 | 2021-11-16 | 增量式神经辐射场构建的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118367B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863037B (zh) * | 2022-07-06 | 2022-10-11 | 杭州像衍科技有限公司 | 基于单手机的人体三维建模数据采集与重建方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201802950D0 (en) * | 2018-02-23 | 2018-04-11 | Canon Kk | 3D skeleton reconstruction from images using volumic probability data |
EP3552146A1 (fr) * | 2016-12-09 | 2019-10-16 | Université d'Orleans | Détection de nerfs dans une série d'images échographiques |
WO2020238790A1 (zh) * | 2019-05-27 | 2020-12-03 | 浙江商汤科技开发有限公司 | 相机定位 |
WO2020238111A1 (zh) * | 2019-05-27 | 2020-12-03 | 浙江大学 | 一种基于半峰值概率密度分布的三维重建方法 |
CN112200874A (zh) * | 2020-10-30 | 2021-01-08 | 中国科学院自动化研究所 | 狭窄空间的多层次场景重建和快速分割方法、系统及装置 |
CN112613609A (zh) * | 2020-12-18 | 2021-04-06 | 中山大学 | 基于联合位姿优化的神经辐射场增强方法 |
-
2021
- 2021-11-16 CN CN202111359377.2A patent/CN114118367B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3552146A1 (fr) * | 2016-12-09 | 2019-10-16 | Université d'Orleans | Détection de nerfs dans une série d'images échographiques |
GB201802950D0 (en) * | 2018-02-23 | 2018-04-11 | Canon Kk | 3D skeleton reconstruction from images using volumic probability data |
WO2020238790A1 (zh) * | 2019-05-27 | 2020-12-03 | 浙江商汤科技开发有限公司 | 相机定位 |
WO2020238111A1 (zh) * | 2019-05-27 | 2020-12-03 | 浙江大学 | 一种基于半峰值概率密度分布的三维重建方法 |
CN112200874A (zh) * | 2020-10-30 | 2021-01-08 | 中国科学院自动化研究所 | 狭窄空间的多层次场景重建和快速分割方法、系统及装置 |
CN112613609A (zh) * | 2020-12-18 | 2021-04-06 | 中山大学 | 基于联合位姿优化的神经辐射场增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114118367A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | High-resolution image inpainting using multi-scale neural patch synthesis | |
Chen et al. | Visibility-aware point-based multi-view stereo network | |
US11640690B2 (en) | High resolution neural rendering | |
CN111243071A (zh) | 实时三维人体重建的纹理渲染方法、系统、芯片、设备和介质 | |
CN112927362A (zh) | 地图重建方法及装置、计算机可读介质和电子设备 | |
Akhtar et al. | Pu-dense: Sparse tensor-based point cloud geometry upsampling | |
CN113160296B (zh) | 基于可微渲染的振动液滴三维重建方法及装置 | |
Dong et al. | Learning spatially variant linear representation models for joint filtering | |
CN115953513B (zh) | 一种可驱动三维人头模型重建方法、装置、设备及介质 | |
CN111612898B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN116070687B (zh) | 一种基于全局光线空间仿射变换的神经网络光场表示方法 | |
CN113971719B (zh) | 一种神经辐射场采样与重建的系统、方法及设备 | |
CN114118367B (zh) | 增量式神经辐射场构建的方法及设备 | |
CN115797561A (zh) | 三维重建方法、设备及可读存储介质 | |
Hara et al. | Enhancement of novel view synthesis using omnidirectional image completion | |
Sumantri et al. | 360 panorama synthesis from a sparse set of images on a low-power device | |
CN117152330A (zh) | 一种基于深度学习的点云3d模型贴图方法和装置 | |
CN116452715A (zh) | 动态人手渲染方法、装置及存储介质 | |
CN116109799A (zh) | 调整模型训练方法、装置、计算机设备及存储介质 | |
CN116310105A (zh) | 基于多视图的物体三维重建方法、装置、设备及存储介质 | |
WO2022198686A1 (en) | Accelerated neural radiance fields for view synthesis | |
WO2022197439A1 (en) | High resolution neural rendering | |
CN113901247A (zh) | 一种光学图像目标检测的方法及计算设备 | |
JP6967150B2 (ja) | 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム | |
AKIMOTO et al. | Image completion of 360-degree images by cGAN with residual multi-scale dilated convolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |