CN115731340A - 基于网格表征的神经辐射场的训练方法及图像渲染方法 - Google Patents
基于网格表征的神经辐射场的训练方法及图像渲染方法 Download PDFInfo
- Publication number
- CN115731340A CN115731340A CN202211583451.3A CN202211583451A CN115731340A CN 115731340 A CN115731340 A CN 115731340A CN 202211583451 A CN202211583451 A CN 202211583451A CN 115731340 A CN115731340 A CN 115731340A
- Authority
- CN
- China
- Prior art keywords
- training
- grid representation
- characteristic value
- grid
- radiation field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000009877 rendering Methods 0.000 title claims abstract description 61
- 230000005855 radiation Effects 0.000 title claims abstract description 50
- 230000001537 neural effect Effects 0.000 title claims abstract description 21
- 210000005036 nerve Anatomy 0.000 claims abstract description 32
- 238000012512 characterization method Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 238000000354 decomposition reaction Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 235000019587 texture Nutrition 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Generation (AREA)
Abstract
本发明提供了一种基于网格表征的神经辐射场的训练方法及图像渲染方法,训练方法包括:从待渲染场景中选定训练图片;网格表征端利用三维网格表征对训练图片进行采样获得网格表征端的特征值,并根据网格表征端的特征值进行运算得到网格表征端的特征值对应的颜色和密度值并输出;神经辐射场端获取网格表征端的特征值,将网格表征端的特征值与位置编码进行结合,并通过深层的多层感知机渲染获得神经辐射场端的特征值,根据神经辐射场端的特征值进行运算得到神经辐射场端的特征值对应的颜色和密度值,输出神经辐射场端的特征值对应的颜色和密度值。本发明的训练方法,训练时间明显缩短,且在大规模城市场景图片上训练稳定。
Description
技术领域
本发明涉及一种电子技术领域,尤其涉及一种基于网格表征的神经辐射场的训练方法及图像渲染方法。
背景技术
神经辐射场(Neural Radiance Fields,简称NeRF)作为一种新型的三维模型表征方式,在大规模场景中的应用得到了广泛关注。现有方法在大场景中建模时,由于神经网络受限于单一NeRF模型有限的表征能力,渲染质量不佳且训练时间冗长,于是提出了对大区域进行分割、每个子区域由单个NeRF模型来负责渲染的方式,通过在每一个子区域单独训练一个子网络模型,以保证充足的网络能力达到最终的高质量渲染效果。然而,这种分割的方式难以避免地随着区域面积的不断增大而使得计算和存储消耗呈线性增加,导致算力和计算资源的不足。因此该方式对计算资源的依赖过高,难以扩展应用到更大区域范围的场景。
发明内容
本发明旨在解决上述问题之一。
本发明的主要目的在于提供一种基于网格表征的神经辐射场的训练方法。
本发明的另一目的在于提供一种图像渲染方法。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明一方面提供了一种基于网格表征的神经辐射场的训练方法,包括:从待渲染场景中选定训练图片;网格表征端利用三维网格表征对所述训练图片进行采样获得所述网格表征端的特征值,并根据所述网格表征端的特征值进行运算得到所述网格表征端的特征值对应的颜色和密度值,输出所述网格表征端的特征值对应的颜色和密度值;神经辐射场端获取所述网格表征端的特征值,将所述网格表征端的特征值与位置编码进行结合,并通过深层的多层感知机渲染获得神经辐射场端的特征值,根据所述神经辐射场端的特征值进行运算得到所述神经辐射场端的特征值对应的颜色和密度值,输出所述神经辐射场端的特征值对应的颜色和密度值。
本发明另一方面提供一种图像渲染方法,包括:确定所述待渲染场景;利用前述的训练方法训练出的基于网格表征的神经辐射场对所述待渲染场景进行渲染;得到所述待渲染场景的渲染图像。
由上述本发明提供的技术方案可以看出,本发明提供了一种基于网格表征的神经辐射场的训练方法及图像渲染方法,该训练方法致力于在模型层面提出一个新的场景隐式表征和训练范式,摆脱现有基于NeRF模型的方法对区域分割的要求,且能在准确高效得表征大规模三维城市场景的同时,达到较高质量的新视角渲染效果。本发明提供的训练方法,克服了网格表征中网格特征参数的训练欠约束且缺乏全局的连续性的缺点。且相较于现有NeRF模型的训练方法训练慢,且模型表征力较弱、难以捕捉大场景的缺点,本发明提供的训练方法得益于网格表征的优势,训练时间明显缩短,且在大规模城市场景图片上训练稳定。此外,由于单纯网格表征的神经场表示对网格参数敏感,在大场景上容易因网格优化不稳定而渲染质量不理想,本发明通过改进的网格表征(多分辨率、二维特征平面分解)使该问题得到缓解,且网格的优化更稳定。另外,基于二维特征平面分解的方式可以得到干净的平面特征地图,也易于在多种城市应用场景上做进一步的分析和编辑。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例1提供的基于网格表征的神经辐射场的训练方法的流程图;
图2为本发明实施例1提供的从原始3D场景中选择训练图片的示意图;
图3为本发明实施例1提供的基于网格表征的神经辐射场的训练方法的具体实现图;
图4为本发明实施例1提供的双阶段训练范式的具体实现图;
图5为本发明实施例1提供的图像渲染方法的流程图;
图6为本发明实施例1提供的对图2的3D场景图片进行渲染的效果对比图;
图7为本发明实施例1提供的二维特征平面的对比图;
图8为本发明实施例1提供的在大规模城市场景中的效果对比图;
图9为本发明实施例1提供的消融实验对双支训练结构渲染效果验证的效果图;
图10为本发明实施例1提供的利用学到的二维特征平面渲染新视角图片的效果图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或数量或位置。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面将结合附图对本发明实施例作进一步地详细描述。
实施例1
本实施例提供一种基于网格表征的神经辐射场的训练方法,本实施例的神经辐射场模型是双支结构的模型,分别由网格表征端分支(Grid Branch,下文中也简称为网格端或网格分支)和神经辐射场端分支(NeRF Branch,下文中也简称为NeRF端或NeRF分支)完成,并从两端分别输出两种表征的渲染结果。如图1所示,本实施例的基于网格表征的神经辐射场的训练方法具体包括以下步骤:
步骤S101,从待渲染场景中选定训练图片;具体的实施方式中,可以如图2所示,从一个3D城市城市场景图中选定一张真实图片作为训练图片来进行训练。
步骤S102,网格表征端利用三维网格表征对训练图片进行采样获得网格表征端的特征值,并根据网格表征端的特征值进行运算得到网格表征端的特征值对应的颜色和密度值,输出网格表征端的特征值对应的颜色和密度值;具体来说,基于城市在地标平面上的大规模布局特点,本发明可以进一步优化传统的三维网格表征,借鉴矩阵分解的方式,可以在三维场景看做颜色(RGB)和密度值(Density)的二维特征平面在高度方向上通过向量外积或拼接的方式展开。即,在一个可选的实施方式中,三维网格表征是一组二维特征平面在高度方向上通过向量外积或拼接而成的。基于二维特征平面分解的方式可以得到干净的平面特征地图,易于在多种城市应用场景上做进一步的分析和编辑。同时,本发明还可以采用一个多分辨率的金字塔特征平面表征,来捕捉大场景中不同细粒度的物体和内容信息。即,在一个可选的实施方式中,一组二维特征平面中每个二维特征平面采用不同的分辨率。多分辨率的特征平面表征有利于捕捉场景中不同尺度的场景信息。在具体的实施中,多分辨率的网格表征可以采用64*64、256*256、1024*1024等维度的三个特征平面来表示。
在网格表征端的具体实施方式中,可以用一个多层级(具有不同分辨率)的二维特征平面组(如图中3二维特征平面金字塔所示)来捕捉场景信息。对训练图片中的每个像素点,可以通过计算其相机模型中的光束方向,在光束上随机采样一组点。每个点通过空间坐标从特征平面中取出对应的特征值,结合高度方向的位置编码,用浅层的多层感知机(Multi-Layer Perceptron,MLP)翻译成空间中点对应的点颜色c和点密度σ。通过体渲染的方式积分成最终的像素值,与真实图片的像素值作差,计算损失函数来优化特征平面和网络参数。即,在一个可选的实施方式中,可以通过体渲染的方式将网格表征端输出的颜色和密度值积分成最终的像素值,并与训练图片的像素值作差计算出网格表征端损失函数。网格表征端的损失L_grid计算公式如下:
L_grid=MSE(C_grid-C_gt)
其中,MSE表示均方误差,C_grid表示网格端输出的像素颜色,C_gt表示训练图片像素颜色的真实值。
步骤S103,神经辐射场端获取网格表征端的特征值,将网格表征端的特征值与位置编码进行结合,并通过深层的多层感知机渲染获得神经辐射场端的特征值,根据神经辐射场端的特征值进行运算得到神经辐射场端的特征值对应的颜色和密度值,输出神经辐射场端的特征值对应的颜色和密度值。具体来说,通过将网格表征端的特征值输入至NeRF端,可以更好地辅助NeRF端得到更精确的特征值。在一个可选的实施方式中,位置编码是通过对坐标向量和视角向量进行傅里叶特征转换获得的。位置编码(Positional Encoding,PE)分别对坐标向量(位置x)和视角向量(方向d)进行傅里叶特征转换,具体形式为:
PE(位置)=(sin(x),cos(x),…sin(2L-1*x),cos(2L-1*x))
PE(方向)=(sin(d),cos(d),…sin(2L-1*d),cos(2L-1*d))
其中,x表示位置;d表示方向;L表示编码中的幂次方,L通常设为10,对应10个等级的变换。
在一个可选的实施方式中,神经辐射场端通过体渲染的方式将神经辐射场端输出的颜色和密度值积分成最终的像素值,并与训练图片的像素值作差计算出神经辐射场端损失函数;将网格表征端损失函数和神经辐射场端损失函数相加获得双支输出端损失函数。双支输出端的损失函数是网格表征端和NeRF端两端损失函数的叠加。双支结构的损失函数计算公式如下:
Loss=L_grid+L_nerf=MSE(C_grid-C_gt)+MSE(C_nerf-C_gt)
其中,MSE表示均方误差,C_grid表示网格端输出的像素颜色,C_nerf表示NeRF端输出的像素颜色,C_gt表示训练图片像素颜色的真实值。
本实施例提供的基于网格表征的神经辐射场的训练方法,致力于在模型层面提出一个新的场景隐式表征和训练范式,摆脱现有基于NeRF模型的方法对区域分割的要求,且能在准确高效得表征大规模三维城市场景的同时,达到较高质量的新视角渲染效果。本实施例提供的训练方法,克服了网格表征中网格特征参数的训练欠约束且缺乏全局的连续性的缺点。且相较于现有NeRF模型的训练方法训练慢,且模型表征力较弱、难以捕捉大场景的缺点,本实施例提供的训练方法得益于网格表征的优势,训练时间明显缩短,且在大规模城市场景图片上训练稳定。此外,由于单纯网格表征的神经场表示对网格参数敏感,在大场景上容易因网格优化不稳定而渲染质量不理想,本实施例通过改进的网格表征(多分辨率、二维特征平面分解)使该问题得到缓解,且网格的优化更稳定。另外,基于二维特征平面分解的方式可以得到干净的平面特征地图,也易于在多种城市应用场景上做进一步的分析和编辑。
本实施例还提出了一个基于网格表征的神经场模型(Grid-guided NeuralRadiance Fields)的具体实现模型,如图3所示,该模型设计为双支结构,分别对应于网格表征端分支和基于网格表征的NeRF端分支,并从两个输出端输出两种表征的渲染结果。双端的输出分别受真实图片的损失函数(计算均方误差MSE)监督,双支结构的损失函数是网格端和NeRF端两端损失函数的叠加。具体而言,网格端的特征值在三维网格表征中采样得到,NeRF端的特征值由网格端的特征值组合位置编码,并通过深层的MLP渲染得到。两个输出端的共同表征有效解决了两种表征各自的缺陷(网格表征的模型欠约束、NeRF表征的模型表达力不够)的问题,可以使得两个输出端互相促进,达到更稳定的训练和更优的渲染效果。
双端输出结果同时受真实图片的真实像素值的损失函数监督。双端输出鼓励网格表征和NeRF表征同时去最大化地捕捉场景信息。两种表征在中间层融合,输入至NeRF端做进一步处理。网格端的输出是为了保证网格特征本身能尽可能地捕捉场景信息,减轻位置编码PE去捕捉场景内容的难度。
在一个可选的实施方式中,还可以采用双阶段的训练范式。双阶段的训练范式包括网格预训练阶段和双支共同训练阶段。双支共同训练阶段可以采用前述的双支结构模型。网格预训练阶段的具体流程包括:网格表征端还利用三维网格表征进行预训练,预训练是指网格表征端利用三维网格表征对训练图片进行粗糙采样,获得网格表征端的粗粒度特征值,并根据粗粒度特征值进行运算获得对应的颜色和密度值。在一个可选的实施方式中,在根据粗粒度特征值进行运算获得对应的颜色和密度值之后,方法还包括:利用通过体渲染的方式将粗粒度特征值对应的颜色和密度值积分成像素值,并与训练图片的像素值作差计算出预训练损失函数;利用预训练损失函数对网格表征端的网络参数进行优化。
双阶段训练范式的一个实施方式可以如图4所示,具体来说,在阶段一的网格预训练阶段,首先用一个多层级的二维特征平面组来捕捉场景粗粒度信息,如图3中的二维特征平面金字塔所示。对训练图片中的每个像素点,先计算其相机模型中的光束方向,在光束上随机采样一组点。每个点通过空间坐标从二维特征平面中取出对应的特征值,结合高度方向的位置编码,用浅层的MLP翻译成空间中点对应的颜色和密度值。通过体渲染的方式积分成最终的像素值,与真实图片的像素值作差,计算损失函数来优化特征平面和网络参数。
由于在预训练阶段是将场景信息粗略地用二维特征平面储存。然而,预训练中得到的特征平面的精度是不足够的,且由于每个网格单元的优化是相对独立的,渲染的图片由于网格特征值的离散化,具有显著的瑕疵。因此,在阶段二的双支共同训练阶段同时优化双支网络。在阶段二中,网格端采用精细采样,网格端的特征值在输出其预测结果的同时,将采样的特征值提供给NeRF端的位置编码,两种特征信息共同送入NeRF端的深层的MLP网络。双支训练阶段的模型及输入输出信息示意图也如图3所示。此阶段中,网格端的特征平面相比预训练阶段得到进一步优化,可以更好地辅助NeRF端得到更精确的特征值。此阶段的损失函数由双支输出端与真实像素颜色分别作差累积计算。
本实施例还提供一种图像渲染方法,该图像渲染方法应用上述的基于网格表征的神经辐射场的训练方法来对场景和图像进行渲染。如图5所示,该图像渲染方法包括:
步骤S501,确定待渲染场景;
步骤S502,利用前述的基于网格表征的神经辐射场的训练方法训练出的基于网格表征的神经辐射场对待渲染场景进行渲染;
步骤S503,得到待渲染场景的渲染图像。
本实施例提供的图像渲染方法,致力于在模型层面提出一个新的场景隐式表征和训练范式,摆脱现有基于NeRF模型的方法对区域分割的要求,且能在准确高效得表征大规模三维城市场景的同时,达到较高质量的新视角渲染效果。本实施例提供的图像渲染方法,克服了网格表征中网格特征参数的训练欠约束且缺乏全局的连续性的缺点。且相较于现有NeRF模型的训练方法训练慢,且模型表征力较弱、难以捕捉大场景的缺点,本实施例提供的图像渲染方法得益于网格表征的优势,训练时间明显缩短,且在大规模城市场景图片上渲染稳定。此外,由于单纯网格表征的神经场表示对网格参数敏感,在大场景上容易因网格优化不稳定而渲染质量不理想,本实施例通过改进的网格表征(多分辨率、二维特征平面分解)使该问题得到缓解,且网格的优化更稳定。
为了更好的展现本发明的定量和定性结果,本实施例还提供一些基于本发明的方法应用的具体场景编辑示例,分别如图6、7、8、9、10所示。
图6是基于图2中的3D城市场景中选取的真实图片分别采用不同的模型进行渲染的效果对比图。图6(a)是基于现有的NeRF模型方法的渲染效果图,图6(b)是基于现有的网格表征的渲染效果图,图6(c)是本发明的双端输出渲染效果图,图6(d)是真实图片。图6中的PSNR(图像评价指标)的值越大,则表明图片质量约接近真实值。从图可以看出,本发明的渲染效果明显优于现有技术的效果。
图7展示了本发明获得的二维特征平面的对比图,图7(a)左图是TensoRF(现有技术的一种建模和重建辐射场的方法)通过向量矩阵(Vector Matrix,VM)分解得到的X-Y平面分解,右图是本发明得到的X-Y平面特征平面分解;图7(b)是对比本发明中预训练阶段和双支共同训练后的特征平面,左图是密度场的特征平面经过预训练阶段和双支共同训练后的对比,右图是颜色场的特征平面经过预训练阶段和双支共同训练后的对比。根据图7可知,本发明的二维特征平面相较于现有方法的二维特征平面要更干净清晰、易于编辑,且经过双支共同训练后的效果更佳。
图8展示了在大规模城市场景中的效果对比,主要测试用倾斜摄影采集的大规模城市场景数据(2平方公里左右、5千图片数量级),图8中图(a)为真实图片,图(b)、(c)、(d)分别为现有的NeRF、Mega-NeRF(现有技术的一种建模和重建辐射场的方法)和TensoRF渲染的结果图,图(e)、(f)、(g)分别为本发明网格预训练阶段、双支训练网格端、双支训练NeRF端输出的渲染结果图。从图8可以看出,本发明的训练方法在渲染质量上比其他现有方法有明显提升。
图9展示的是消融实验对双支训练结构渲染效果的验证。图9中通过消融实验进一步验证了双支训练结构(见图9(a))以及NeRF端提供高频位置编码信息见图9(b)的有效性。图9中的标识意义分别如下:Grid res=512/2048分别表示网格分辨率为512/2048;PE=20,…22/20,…216分别表示PE位置编码度数为22或216;MLP(D=3,W=32/256)分别表示MLP网络的深度和宽度,即深度=3,宽度=32/256。从图9(a)中看到,在经过双支训练结构的共同训练后,网格端的渲染效果有显著提升(例如墙面细节纹理的增加)可以验证NeRF端对网格端的帮助;图9(b)可以验证NeRF端更大容量(高频、更宽)的网络有助于NeRF端输出达到更佳的渲染效果。
图10展示了利用本发明的方法学到的二维特征平面用来渲染新视角图片的效果图。图左侧是学到的二维特征平面,图右侧是通过所学到的二维特征平面在新视角下的渲染效果。从图可见,本发明的的训练方法可以输出较高保真度的大场景内容,可用于渲染大场景中穿梭的视角图片及视频。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
Claims (8)
1.基于网格表征的神经辐射场的训练方法,其特征在于,包括:
从待渲染场景中选定训练图片;
网格表征端利用三维网格表征对所述训练图片进行采样获得所述网格表征端的特征值,并根据所述网格表征端的特征值进行运算得到所述网格表征端的特征值对应的颜色和密度值,输出所述网格表征端的特征值对应的颜色和密度值;
神经辐射场端获取所述网格表征端的特征值,将所述网格表征端的特征值与位置编码进行结合,并通过深层的多层感知机渲染获得神经辐射场端的特征值,根据所述神经辐射场端的特征值进行运算得到所述神经辐射场端的特征值对应的颜色和密度值,输出所述神经辐射场端的特征值对应的颜色和密度值。
2.根据根据权利要求1所述的训练方法,其特征在于,所述三维网格表征是一组二维特征平面在高度方向上通过向量外积或拼接而成的。
3.根据权利要求2所述的训练方法,其特征在于,所述一组二维特征平面中每个二维特征平面采用不同的分辨率。
4.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:
通过体渲染的方式将所述网格表征端输出的颜色和密度值积分成最终的像素值,并与所述训练图片的像素值作差计算出网格表征端损失函数;
通过体渲染的方式将所述神经辐射场端输出的颜色和密度值积分成最终的像素值,并与所述训练图片的像素值作差计算出神经辐射场端损失函数;
将所述网格表征端损失函数和所述神经辐射场端损失函数相加获得双支输出端损失函数。
5.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:
所述网格表征端还利用所述三维网格表征进行预训练,所述预训练是指所述网格表征端利用所述三维网格表征对所述训练图片进行粗糙采样,获得所述网格表征端的粗粒度特征值,并根据所述粗粒度特征值进行运算获得对应的颜色和密度值。
6.根据权利要求5所述的训练方法,其特征在于,在根据所述粗粒度特征值进行运算获得对应的颜色和密度值之后,所述方法还包括:
利用通过体渲染的方式将所述粗粒度特征值对应的颜色和密度值积分成像素值,并与所述训练图片的像素值作差计算出预训练损失函数;
利用所述预训练损失函数对所述网格表征端的网络参数进行优化。
7.根据权利要求1所述的训练方法,其特征在于,所述位置编码是通过对坐标向量和视角向量进行傅里叶特征转换获得的。
8.图像渲染方法,其特征在于,包括:
确定所述待渲染场景;
利用如权利要求1至7任一项所述的训练方法训练出的基于网格表征的神经辐射场对所述待渲染场景进行渲染;
得到所述待渲染场景的渲染图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211583451.3A CN115731340B (zh) | 2022-12-09 | 2022-12-09 | 基于网格表征的神经辐射场的训练方法及图像渲染方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211583451.3A CN115731340B (zh) | 2022-12-09 | 2022-12-09 | 基于网格表征的神经辐射场的训练方法及图像渲染方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115731340A true CN115731340A (zh) | 2023-03-03 |
CN115731340B CN115731340B (zh) | 2024-06-04 |
Family
ID=85301107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211583451.3A Active CN115731340B (zh) | 2022-12-09 | 2022-12-09 | 基于网格表征的神经辐射场的训练方法及图像渲染方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115731340B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129030A (zh) * | 2023-04-18 | 2023-05-16 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的场景物体融合方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706714A (zh) * | 2021-09-03 | 2021-11-26 | 中科计算技术创新研究院 | 基于深度图像和神经辐射场的新视角合成方法 |
CN114998548A (zh) * | 2022-05-31 | 2022-09-02 | 北京非十科技有限公司 | 一种图像重建的方法和系统 |
WO2022197439A1 (en) * | 2021-03-17 | 2022-09-22 | Microsoft Technology Licensing, Llc | High resolution neural rendering |
CN115170559A (zh) * | 2022-08-12 | 2022-10-11 | 杭州像衍科技有限公司 | 基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法 |
-
2022
- 2022-12-09 CN CN202211583451.3A patent/CN115731340B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022197439A1 (en) * | 2021-03-17 | 2022-09-22 | Microsoft Technology Licensing, Llc | High resolution neural rendering |
CN113706714A (zh) * | 2021-09-03 | 2021-11-26 | 中科计算技术创新研究院 | 基于深度图像和神经辐射场的新视角合成方法 |
CN114998548A (zh) * | 2022-05-31 | 2022-09-02 | 北京非十科技有限公司 | 一种图像重建的方法和系统 |
CN115170559A (zh) * | 2022-08-12 | 2022-10-11 | 杭州像衍科技有限公司 | 基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法 |
Non-Patent Citations (2)
Title |
---|
WANG, ZY ET.AL: "MirrorNeRF: One-shot Neural Portrait Radiance Field from Multi-mirror Catadioptric Imaging", 2021 IEEE INTERNATIONAL CONFERENCE ON COMPUTATIONAL PHOTOGRAPHY (ICCP), 30 September 2021 (2021-09-30), pages 1 - 5 * |
王振宇 等: "插值算法在辐射场重构中的应用现状", 兵工自动化, vol. 41, no. 7, 14 July 2022 (2022-07-14), pages 29 - 35 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129030A (zh) * | 2023-04-18 | 2023-05-16 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的场景物体融合方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115731340B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340867B (zh) | 图像帧的深度估计方法、装置、电子设备及存储介质 | |
Hirschmüller et al. | Memory efficient semi-global matching | |
US10477178B2 (en) | High-speed and tunable scene reconstruction systems and methods using stereo imagery | |
Shen | Accurate multiple view 3d reconstruction using patch-based stereo for large-scale scenes | |
Yang et al. | Non-parametric depth distribution modelling based depth inference for multi-view stereo | |
CN116071484B (zh) | 十亿像素级大场景光场智能重建方法及装置 | |
CN115731340B (zh) | 基于网格表征的神经辐射场的训练方法及图像渲染方法 | |
CN116258658A (zh) | 基于Swin Transformer的图像融合方法 | |
CN115035235A (zh) | 三维重建方法及装置 | |
CN115147535A (zh) | 场景的三维重建方法、装置、计算设备和存储介质 | |
CN116993826A (zh) | 一种基于局部空间聚合神经辐射场的场景新视图生成方法 | |
He et al. | Learning scene dynamics from point cloud sequences | |
CN114494589A (zh) | 三维重建方法、装置、电子设备和计算机可读存储介质 | |
Wu et al. | Remote sensing novel view synthesis with implicit multiplane representations | |
Cai et al. | An end-to-end approach to reconstructing 3D model from image set | |
CN117274514A (zh) | 基于地空视角几何变换的遥感图像生成方法及装置 | |
CN116977963A (zh) | 基于bev视角的自动驾驶多模态协同感知方法及系统 | |
CN116486038A (zh) | 一种三维构建网络训练方法、三维模型生成方法以及装置 | |
Huang et al. | Obmo: One bounding box multiple objects for monocular 3d object detection | |
CN115115535A (zh) | 深度图的去噪方法、装置、介质及设备 | |
Yao et al. | Real-time stereo to multi-view conversion system based on adaptive meshing | |
Xia et al. | HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras | |
Tao et al. | SiLVR: Scalable Lidar-Visual Reconstruction with Neural Radiance Fields for Robotic Inspection | |
CN117994444B (zh) | 复杂场景的重建方法、设备及存储介质 | |
Richard et al. | Semantic 3D reconstruction with finite element bases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |