CN117058302A - 一种基于NeRF的可泛化性场景渲染方法 - Google Patents

一种基于NeRF的可泛化性场景渲染方法 Download PDF

Info

Publication number
CN117058302A
CN117058302A CN202311095029.8A CN202311095029A CN117058302A CN 117058302 A CN117058302 A CN 117058302A CN 202311095029 A CN202311095029 A CN 202311095029A CN 117058302 A CN117058302 A CN 117058302A
Authority
CN
China
Prior art keywords
sampling points
sampling
sampling point
image
coarse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311095029.8A
Other languages
English (en)
Inventor
袁丁
张思哲
张弘
杨一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202311095029.8A priority Critical patent/CN117058302A/zh
Publication of CN117058302A publication Critical patent/CN117058302A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于NeRF的可泛化性场景渲染方法,采用图像外观信息编码器、图像几何信息编码器、低频前向推理模块、高频前向推理模块,在目标视角下沿光线在空间进行采样,为了减轻采样过程中容易导致的频谱混叠问题,将每个采样点参数成一个某种尺度下各向同性的高斯分布,并将采样点投影到其他已知视角下,利用上述模块,可得到对应点的颜色值和密度值,在得到辐射场和密度场后,沿着整条光线,用体渲染技术得到对应像素点的像素值。相比于现有技术,本发明提出的新视角合成方法,可在输入少量带有相机内参、外参的图片下,获得较好的新视角合成效果;同时具有较好的跨场景渲染能力。

Description

一种基于NeRF的可泛化性场景渲染方法
技术领域
本发明涉计算机视觉领域,具体涉及一种基于NeRF的可泛化性场景渲染方法。
背景技术
神经辐射场(Neural Radiance Fields,NeRF)作为一种新型的3D场景表示方式,它通过在已知视角下对场景拍摄一系列带有相机内外参的照片,用神经网络隐式编码空间点的密度和颜色,三维空间就可以被表示为一组可学习且连续的辐射场。在网络训练完成后,就可以针对该场景,在任意视角下渲染出逼真的新视角视图。
然而,目前很多基于NeRF的新视角合成方法,通常需要大量的图像和长时间的基于特定场景的训练优化,当场景改变时,又需要重新做一遍整个训练过程,这非常不利于落地实际应用。而且由于相机附近和远处物体的细节和比例不平衡,所以现有的很多NeRF模型通常会产生模糊或低分辨率的渲染。
发明内容
本发明的技术解决问题是:克服现有技术的不足,设计一种基于NeRF的可泛化性场景渲染方法;同时兼顾频谱抗混叠效果,有效提升渲染质量;并且分别设计低频和高频前向推理模块,合理分配网络容量。在只拥有稀疏视角下的少量图片时,仍然可以渲染出逼真的新视角视图;同时使得模型具有跨场景泛化能力,即在之前场景训练下的模型可以被新场景充分利用,在迁移到新场景后,利用之前的先验知识直接推理。
为达到上述目的,本发明的技术方案具体是:
本发明提供一种基于NeRF的可泛化性场景渲染方法,该方法包括图像外观信息编码器、图像几何信息编码器、低频前向推理模块、高频前向推理模块。实现了稀疏视角下的重建,具有跨场景渲染能力,且能兼顾远近物体的渲染质量。具体包括以下步骤:
步骤1:对场景进行拍摄,获取稀疏的彩色图像,通过colmap等方式得到相机内参,以及拍摄各个图像时的相机外参,随机选其中一张作为目标视角图像,剩下的作为源图像。
步骤2:将各个源图像通过一个共享参数的图像外观信息编码器,和一个共享参数的图像几何信息编码器,得到和源图像像素对齐的外观特征图和几何特征图,将这两个特征图双线性插值到和输入图像同样的大小。
步骤3:从目标视角发出光线,沿光线在空间先进行粗采样,即均匀采样,得到采样点的方向d、坐标x和距离目标相机光心的距离ttgt。将采样点参数化成各向同性的三维高斯分布,其均值就是采样点所在的空间位置坐标,方差为rttgt·λ,其中r是世界坐标系下像素的实际宽度,λ是手动调的一个超参数。
采样过程中每条光线上的采样点会随模型训练不断地被重采样,使采样点逐渐集中在物体表面。
步骤4:将目标相机下沿着某一光线上的采样点用三维各向同性高斯分布参数化,把它投影到各个源视角的外观特征图和几何特征图上,得到特征查询范围。该范围上的权重分布服从二维高斯分布,其均值就是采样点投影到特征图上的位置,其方差为rtsrc·η,其中η是一个超参数,tsrc是采样点距离源相机的距离。利用该权重对查询范围内的特征进行加权求期望,得到该采样点对应在各个源视图下的外观和几何特征信息。
步骤5:将粗采样点的坐标参数化成一个各向同性的三维高斯分布,对采样点的方向和参数化高斯分布的位置进行傅里叶编码,傅里叶编码公式为:
γ(x)=[sin(x),cos(x),…,sin(2L-1x),cos(2L-1x)]T
x为任意变量;L是一个超参数。
将粗采样点对应在各个源图像上的几何特征信息做平均池化,得到合成几何特征,连同傅里叶编码一起送入低频前向推理模块,得到粗采样点的密度值。
步骤6:根据粗采样点的密度值和采样点之间的间隔,可算出每个采样点对应的权重(这里的权重就是体渲染时颜色值前的权重系数)。将粗采样点的权重除以权重和,归一化得到分段常数式的概率密度函数;再根据这个概率密度函数,进行接下来的细采样。将细采样点进行步骤5中同样的傅里叶编码后,然后再按步骤4的方式,得到细采样点对应在各个源视角特征图上的外观特征,做平均池化得到合成外观特征,连同细采样点的傅里叶编码一起送入高频前向推理模块,得到细采样点的密度值和颜色值。
步骤7:将光线上所有细采样点的密度值和颜色值,通过体渲染得到预测像素值。最后将预测像素值与目标视角下的图像真值计算损失函数
步骤8:同步骤6算出沿着光线上所有细采样点的权重分布,即概率密度函数。设置损失函数来用细采样点的权重分布引导更新粗采样点的权重分布,将两个损失函数和/>相加作为最终损失函数,对模型参数应用反向传播算法进行优化,直到收敛。
本发明与现有技术相比的优点在于:(1)将图像中的外观信息和几何信息解耦开,编码器可作为通用场景特征提取器,根据输入图像,编码出符合新数据的外观特征和几何特征,充分利用输入图像的二维先验信息。(2)合理分配网络容量,低频前向推理模块采用很小的MLP,用于几何轮廓的预测;高频前向推理模块采用稍大一些的MLP,用于学习几何细节信息和外观颜色信息。(3)考虑采样点的尺度问题,一方面将采样点参数化成一个各向同性的三维高斯分布;另一方面投影到特征图时也对应一片区域,对这片区域的特征进行加权。从而实现一定的自适应滤波功能,从而远近物体都能有较好的渲染质量。
附图说明
图1为本发明的整体框架图;
图2为本发明求合成特征时具体实现示意图;
图3为本发明低频前向推理模块示意图;
图4为本发明高频前向推理模块示意图;
图5为本发明新视角合成的效果图。
具体实施方式
为了更清楚的说明本发明的目的、技术方案和优点,下面结合附图对本发明的具体实施方式做进一步说明。
如图1所示,本发明的一种基于NeRF的可泛化性场景渲染方法的整体结构图,整体上由一个图像外观信息编码器,一个图像几何信息编码器,一个低频前向推理模块,以及一个高频前向推理模块组成。训练时需要两张及以上的图片,推理时可仅输入一张图片。
在本发明的描述中,颜色值是采样点的一个属性,而平时我们说的图像上的颜色,本文中用像素值指代。如果下文中的特征图没具体说明是外观特征图还是几何特征图,则同时泛指两个,对它们执行同样的操作。
方法依次包括以下步骤:
1、具体先获取相机内参已知的少量图片,通过colmap等工具获取各个照片拍摄时的相机位姿。训练前,需要先随机选一张图片作为待重建目标图像视角的真值(groundtruth),剩下的图片作为源图像,即模型的输入数据。目标图像对应的相机叫做目标相机,从目标相机发光心发射出光线,穿过目标图像上像素位置。
2、先在光线上做均匀的、间隔较大的粗采样,对粗采样点的坐标和方向进行傅里叶编码,傅里叶编码公式为:
γ(x)=[sin(x),cos(x),…,sin(2L-1x),cos(2L-1x)]T
x为任意变量。对于方向d来说,直接将方向向量的每个维度代入公式即可得到方向编码;将位置坐标的每个维度代入公式即可得到位置编码;L是一个超参数。
对于高斯分布参数化的位置坐标来说,
其中,μ,∑分别是该高斯分布在世界坐标系下的均值和方差,分别是沿光线方向的方差和垂直于光线方向的方差,μt是采样点距离光心的距离。σt=σr=rμtλ,r是世界坐标系下像素的实际宽度,λ是手动调的一个超参数,d是目标相机光心到图像平面某像素点的方向向量。
然后求高斯分布位置编码γ(x)的期望:
μγ=Pμ,Σγ=PΣPT
得到基P下的均值和方差。然后经过正弦和余弦调制,已知:
最终得到多元高斯的位置编码后期望。
其中表示按元素相乘。
3、图像外观信息编码器和几何信息编码器,二者都采用resnet50(去掉最后一层),并加载其在imagenet训练后的预训练权重,送入所有源图像得到对应的外观特征图和几何特征图。
4、将采样点参数化后的三维高斯分布投影到各个源相机下的特征图上,投影范围取三维高斯分布的3σ边界,这个范围称为特征查询范围。然后对该查询范围上的特征做加权求期望,特征的权重服从一个二维高斯分布。这个二维高斯的均值就是采样点投影到特征图上的位置,其方差为rtsrc·η,其中r是像素宽度,η是一个超参数,tsrc是空间采样点距离源相机的距离。这个加权过程的具体实现是在查询区域进行平面采样,为了与前面的空间采样点区分,这里平面采样得到的采样点成为平面采样点;用逆变换法生成二维高斯分布的采样,将平面采样点所在的特征相加后再除以总的平面采样点数目n,向上取整,α为超参数,R是特征查询范围的半径;如果平面采样点超过源相机下的特征图边界,该平面采样点认为无效,即认为其所在的特征向量认为是0,且不计入总的平面采样点数目n中,这个过程如图2所示,网格就是特征图,点是特征图上的采样点。得到采样点对应在各个源视角特征图上的特征向量后,做平均池化得到合成特征。
5、将步骤2中的位置编码和方向编码,连同几何合成特征,送入低频前向推理模块,该模块如图3所示,每个框代表一层,框中是神经元,数字表示神经元个数;输出采样点的密度σ,进而计算得到空间采样点颜色值对应的权重w。计算过程如下:
这里需要提前说明体渲染,即在得到空间采样点的密度值和颜色值时,沿某条光线上所有空间采样点做下式中的积分,得到这条光线r对应的预测像素值这个积分公式就是体渲染的公式。
其中,表示沿光线的累积透射率;tn和tf分别表示沿光线采样时距离相机的的近、远平面,用于确定积分的范围。将积分离散成求和得到:
其中,δi=ti+1-ti是采样点间的间距;
可以把这个公式看成对颜色的加权求和,定义权重等于w(t)=T(t)σ(t)进而在得到粗采样的密度值后可得到每一点对应的权重wi
6、将这些权重w归一化就沿光线产生了一个分段常数的概率密度函数,Nc是每条光线上的粗采样点个数,我们使用逆变换从这个分布中抽取细采样点。
7、重复过程4,将细采样点的位置编码和方向编码,连同外观合成特征,送入高频前向推理模块,该模块如图4所示,是一个多层感知机(MLP),每个框代表一层,框中神经元,数字表示神经元个数;得到细采样点对应的密度值σ和颜色值c。利用上述体渲染公式得到对应光线的预测像素值。
8、将每条光线r对应的预测像素值与目标视角下的图像真值C(r)计算损失函数
9、算出沿着光线上所有细采样点的权重分布,即概率密度函数。设置损失函数来用细采样点的权重分布引导更新粗采样点的权重分布,/>是粗、细采样点之间的KL散度:
其中,P是细采样点对应的归一化权重分布,Q是粗采样点对应的归一化权重分布。这里需要注意一点:做权重更新时,梯度回传仅仅传到低频前向推理模块所在的支路,不会影响高频前向推理模块的参数。
将两个损失函数和/>相加作为最终损失函数,对模型参数应用反向传播算法进行优化即可。如图5所示,为本发明新视角合成的效果图。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于NeRF的可泛化性场景渲染方法,其特征在于,包括如下步骤:
步骤1:获取相机稀疏采集的含有相机内外参的彩色图像,随机选其中一张图像作为目标图像,剩下的作为源图像;
步骤2:将各个源图像通过一个具有共享参数的外观信息编码器和几何信息编码器,得到和源图像像素对齐的外观特征图和几何特征图;
步骤3:从目标视角发出光线,沿光线在空间先进行粗采样,即均匀采样,得到采样点的方向d、位置坐标x和距离目标相机光心的距离ttgt;采样过程中每条光线上的采样点会随模型训练不断地被重采样,使采样点逐渐集中在物体表面;
步骤4:将粗采样点用三维各向同性高斯分布参数化后,把它投影到各个源图像的外观特征图和几何特征图上,得到特征查询范围,该范围上的特征的权重分布服从二维高斯分布,其均值就是采样点投影到特征图上的位置坐标,其方差为rtsrc·η,其中η是一个超参数,tsrc是采样点距离源相机的距离,r是世界坐标系下像素的实际宽度,利用该权重对特征查询范围内的特征进行加权求期望,得到该采样点对应在各个源图像下的外观特征信息和几何特征信息;
步骤5:将粗采样点的位置坐标x参数化成一个各向同性的三维高斯分布,对采样点的方向和位置坐标进行傅里叶编码得到方向编码和位置编码,将粗采样点对应在各个源图像上的几何特征信息做平均池化,得到合成几何特征,连同方向标码和位置编码一起送入低频前向推理模块,得到粗采样点的密度值;
步骤6:根据粗采样点的密度值和采样点之间的间隔,可算出每个采样点对应的体渲染时颜色值前的权重,将粗采样点的颜色值前的权重除以颜色值前的权重和进行归一化得到分段常数式的概率密度函数;再根据这个概率密度函数,进行接下来的细采样,将细采样点进行步骤5中同样的傅里叶编码后得到细采样点的方向编码和位置编码,然后再按步骤4的方式,得到细采样点对应在各个源图像的外观特征图上的外观特征信息,做平均池化得到合成外观特征,连同细采样点的方向编码和位置编码一起送入高频前向推理模块,得到细采样点的密度值和颜色值;
步骤7:将光线上所有细采样点的密度值和颜色值,通过体渲染得到预测像素值,最后将预测像素值与目标视角下的目标图像真值计算损失函数
步骤8:同步骤6算出沿着光线上所有细采样点的权重分布,即概率密度函数,设置损失函数其作用是利用细采样点的权重分布引导更新粗采样点的权重分布,将两个损失函数/>和/>相加作为最终损失函数,对模型参数应用反向传播算法进行优化,直到收敛。
2.根据权利要求1所述的可泛化性场景渲染方法,其特征在于,步骤2中,该图像外观信息编码器和图像几何信息编码器均使用去掉最后一层的resnet50,并加载其在ImageNet训练后的预训练权重,记第i张图片为I(i),编码得到各个源图像的特征图F(i)=E(I(i))。
3.根据权利要求1所述的可泛化性场景渲染方法,其特征在于,步骤4中,第i张图片为I(i),从世界坐标系到其对应相机坐标系下的转换矩阵记为P(i),其中P(i)=[R(i)t(i)],R是旋转矩阵,t是平移向量,对于目标视角下沿光线上的采样点x,转换到每个源相机坐标系下,变换后的坐标为x(i)=P(i)x,然后再乘内参矩阵得到各个源图像坐标系下的图像坐标Π(x(i)),据此在特征图上找到相应位置,即二维高斯分布的均值。
4.根据权利要求1所述的可泛化性场景渲染方法,其特征在于,特征查询范围的确定是将采样点参数化的三维高斯分布的3σ边界与源相机光心相连,特征图上被截取的范围就是步骤4中的特征查询范围。
5.一种基于NeRF的可泛化性场景渲染方法,其特征在于,该方法的推理过程,包括如下步骤:
给定任意目标视角,沿光线做粗采样,将粗采样点的空间位置和观察视角都进行傅里叶编码后,连同粗采样点对应在各个源图像上的几何特征信息一起送入低频前向推理模块,得到粗采样点的权重分布,据此进行细采样点的放置,同样,将细采样点的空间位置和观察视角进行傅里叶编码,和细采样点对应在各个源图像上的外观和几何特征信息一起高频前向推理模块,得到该目标视角下的渲染结果。
CN202311095029.8A 2023-08-29 2023-08-29 一种基于NeRF的可泛化性场景渲染方法 Pending CN117058302A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311095029.8A CN117058302A (zh) 2023-08-29 2023-08-29 一种基于NeRF的可泛化性场景渲染方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311095029.8A CN117058302A (zh) 2023-08-29 2023-08-29 一种基于NeRF的可泛化性场景渲染方法

Publications (1)

Publication Number Publication Date
CN117058302A true CN117058302A (zh) 2023-11-14

Family

ID=88669150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311095029.8A Pending CN117058302A (zh) 2023-08-29 2023-08-29 一种基于NeRF的可泛化性场景渲染方法

Country Status (1)

Country Link
CN (1) CN117058302A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456078A (zh) * 2023-12-19 2024-01-26 北京渲光科技有限公司 基于多种采样策略的神经辐射场渲染方法、系统和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456078A (zh) * 2023-12-19 2024-01-26 北京渲光科技有限公司 基于多种采样策略的神经辐射场渲染方法、系统和设备
CN117456078B (zh) * 2023-12-19 2024-03-26 北京渲光科技有限公司 基于多种采样策略的神经辐射场渲染方法、系统和设备

Similar Documents

Publication Publication Date Title
CN113962858B (zh) 一种多视角深度获取方法
CN108230235B (zh) 一种视差图生成系统、方法及存储介质
CN113450396B (zh) 基于骨骼特征的三维/二维图像配准方法及装置
CN111986084A (zh) 一种基于多任务融合的多相机低光照图像质量增强方法
WO2022198684A1 (en) Methods and systems for training quantized neural radiance field
CN117058302A (zh) 一种基于NeRF的可泛化性场景渲染方法
CN116993826A (zh) 一种基于局部空间聚合神经辐射场的场景新视图生成方法
JP2024507727A (ja) 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング
CN116342804A (zh) 一种室外场景三维重建方法、装置、电子设备及存储介质
CN116109757A (zh) 基于内蕴坐标的哈希编码的动态三维人体渲染合成方法
CN117173343B (zh) 一种基于神经辐射场的重新照明方法及系统
CN117173315A (zh) 基于神经辐射场的无界场景实时渲染方法、系统及设备
CN116843551A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN116863053A (zh) 一种基于知识蒸馏的点云渲染增强方法
CN117332840B (zh) 神经辐射场的训练方法、获取目标场景图像的方法及装置
Wang et al. High-Quality Sonar Image Generation Algorithm Based on Generative Adversarial Networks
CN117274066B (zh) 一种图像合成模型、方法、设备及存储介质
US20230267306A1 (en) Machine-learning techniques for representing items in a spectral domain
CN116309073B (zh) 一种基于深度学习的低对比度条纹sim重建方法和系统
US20230267659A1 (en) Machine-learning techniques for sparse-to-dense spectral reconstruction
CN117058293A (zh) 一种场景自适应的注视点神经辐射场渲染方法及系统
CN118279168A (zh) 一种用于模糊场景的神经辐射场新视角合成方法
CN117252987A (zh) 一种基于显式和隐式混合编码的动态场景重建方法
Bengtson et al. Adjustable Visual Appearance for Generalizable Novel View Synthesis
CN118247414A (zh) 基于结合扩散纹理约束神经辐射场的小样本图像重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination