CN114241113A - 一种基于深度引导采样的高效神经辐射场渲染方法 - Google Patents
一种基于深度引导采样的高效神经辐射场渲染方法 Download PDFInfo
- Publication number
- CN114241113A CN114241113A CN202111421781.8A CN202111421781A CN114241113A CN 114241113 A CN114241113 A CN 114241113A CN 202111421781 A CN202111421781 A CN 202111421781A CN 114241113 A CN114241113 A CN 114241113A
- Authority
- CN
- China
- Prior art keywords
- depth
- sampling
- cost
- radiation field
- target view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/08—Volume rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/61—Scene description
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Image Generation (AREA)
Abstract
本发明公开了一种基于深度引导采样的高效神经辐射场渲染方法,首先获取目标视图,并获取目标视图的图像特征;在目标视图前,采样若干深度平面,利用提取到的图片特征在每个深度平面上构建以方差为代价的代价体;利用基于3D卷积的神经网络处理代价体获取概率体,并得到每一个像素上的深度;对每个像素点,在深度可能所处的区间采样少量点,同时利用神经网络计算神经辐射场;利用体渲染公式计算每个像素点的颜色,得到最终渲染出来的图片。本发明能够支持高速的基于神经辐射场的渲染。高速的基于神经辐射场的渲染能够支持大场景和动态场景下新视角合成的相关应用,包括自由视点视频直播等应用。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种基于深度引导采样的高效神经辐射场渲染方法。
背景技术
近期一些基于神经辐射场的渲染技术在新视角合成上取得了极佳的效果,但是这种技术需要数小时的训练过程和漫长的渲染过程。为了避免数小时的训练,一些方法利用图像特征重建神经辐射场,这使得此技术能够在新的场景泛化,从而避免训练,但它仍然需要漫长的渲染过程。为了解决这个问题,一些方法利用高效的数据结构将场景的神经辐射场预计算并缓存下来,从而实现加速。但是,预计算需要较长的时间,缓存需要大量的存储空间,这些缺点阻止了基于神经辐射应用的新视角合成技术在大场景和动态场景下。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于深度引导采样的高效神经辐射场渲染方法。
本发明的目的是通过以下技术方案来实现的:一种基于深度引导采样的高效神经辐射场渲染方法,该方法具体的步骤如下:
(1)获取M张待渲染视角附近的图片,通过深度神经网络提取得到M张图片特征{Fi|i=1,…,N},其中Fi为第i张图片的特征;记待渲染视角的图片为目标视图,获取的待渲染视角附近的图片为给定视图。
(2)利用给定视图计算目标视图的深度图像D,用D(u,v)表示目标视图上像素点(u,v)的深度值。
(3)对于目标视图上的一个像素点(u,v),在其深度可能所处的区间[D(u,v)-ΔD(u,v), D(u,v)+ΔD(u,v)],采样Nk个点{xk|k=1,…,Nk},其中ΔD(u,v)为真实深度值与步骤(2) 计算得到的深度值的最大误差,xk为目标视图标准化设备坐标空间的坐标;
(4)对于步骤(3)采样的点xk,利用神经网络Φ计算采样点的神经辐射场(c,σ)=Φ(d,f)。其中,c和σ分别是点xk的辐射和体密度,d是相机中心穿过像素点(u,v)的射线在3D空间中的方向;f是xk投影在步骤(1)深度神经网络输入图片上的对应的图像特征的聚合;
(5)利用体渲染的公式聚合每一个像素点上所有采样点的神经辐射场(c,σ),得到最终渲染出来的图片。
进一步地,利用均方误差损失函数实现对步骤(1)的深度神经网络、步骤(3)中的神经网络Φ进行监督。
进一步地,步骤(2)中计算目标视图深度图像D的过程为先后构建两个代价体;第二个代价体的分辨率比第一个代价体的分辨率更高;构建过程如下:在目标视图前,给定包含场景物体的范围,在此范围内均匀采样M′个平面{Lj′|j=1,…,M′},L′j为第j个平面的深度;利用步骤(1)提取到的图片特征在每个深度平面上构建的以方差为代价的代价体;具体为,由第 i张给定视图Ii的相机参数[Ki,Ri,ti]和目标视图的相机参数[K,R,t]定义一个单应变换:其中n表示目标视图的相机中心轴,此单应变换 Hi(z)将目标视图上一个像素点(u,v)在深度为z的情况下转换到第i张给定视图Ii上,插值求出转换后的像素点对应的特征F′i,z(u,v)=Fi(Hi(z)[u,v,1]T),其中,Fi(Hi(z)[u,v,1]T))为从图像特征Fi取出Hi(z)[u,v,1]T对应像素点的特征;基于转换好的特征,代价体中每个元素的值定义为给定视图上特征{F′i,z(u,v}|i=1,…,N}的方差;将此代价体输入到基于3D卷积的神经网络中处理,得到一个深度的概率体P′,概率体P′的第j个平面P′j在像素点(u,v)的概率代表了对应像素点上的深度落在此平面上的概率;像素点(u,v)的深度定义为M′个深度平面上概率分布的期望根据上述步骤计算得到的深度D′,在深度范围 [D′(u,v)-ΔD′(u,v),D′(u,v)+ΔD′(u,v)],采样M个深度平面{Lj|j=1,…,M},Lj(u,v)为像素点(u,v)在第j个平面的深度;利用步骤(1)提取到的图片特征在每个深度平面上构建以方差为代价的代价体;将此代价体输入到基于3D卷积的神经网络中处理,得到一个深度的概率体P,概率体P的第j个平面Pj在像素点(u,v)的概率代表了对应像素点上的深度落在此平面上的概率;像素点(u,v)的深度定义为M个深度平面上概率分布的期望
进一步地,步骤(4)计算f的过程为,使用平均池化操作φ聚合N张图片的特征,得到N张图片的上的平均特征f=φ(F1,…,FN)。
本发明的有益效果:本发明能够无额外开销的支持高速的基于神经辐射场的渲染。高速的基于神经辐射场的渲染能够支持大场景和动态场景下新视角合成的相关应用,包括自由视点视频直播等应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于深度指导采样的高效神经辐射场渲染的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1所示,本发明提供一种基于深度引导采样的高效神经辐射场渲染方法,基于多视点方法估计深度,以此深度指导神经辐射场的采样。具体的步骤为:
1.获取N张渲染视角附近的图片,使用一个现存的深度神经网络,如2D的U-Net,提取得到N图片特征{Fi|i=1,…,N},利用均方误差损失函数对深度神经网络进行监督。其中Fi为第i张图片的特征;记待渲染视角的图片为目标视图,获取的待渲染视角附近的图片为给定视图。
2.利用给定视图计算目标视图的深度图像D,用D(u,v)表示目标视图上像素点(u,v)的深度值。计算目标视图深度图像D的过程如下:
先后构建两个代价体;第二个代价体的分辨率比第一个代价体的分辨率更高;构建过程如下:在目标视图前,给定包含场景物体的范围,在此范围内均匀采样M′个平面{Lj′|j= 1,…,M′},L′j为第j个平面的深度;利用步骤(1)提取到的图片特征在每个深度平面上构建的以方差为代价的代价体;具体为,由第i张给定视图Ii的相机参数[Ki,Ri,ti]和目标视图的相机参数[K,R,t]定义一个单应变换:其中n表示目标视图的相机中心轴,此单应变换Hi(z)将目标视图上一个像素点(u,v)在深度为z的情况下转换到第i张给定视图Ii上,插值求出转换后的像素点对应的特征F′i,z(u,v)=Fi(Hi(z)[u,v,1]T),其中,Fi(Hi(z)[u,v,1]T))为从图像特征Fi取出Hi(z)[u,v,1]T对应像素点的特征;基于转换好的特征,代价体中每个元素的值定义为给定视图上特征{F′i,z(u,v}|i=1,…,N}的方差;将此代价体输入到基于3D卷积的神经网络中处理,得到一个深度的概率体P′,概率体P′的第j个平面P′j在像素点(u,v)的概率代表了对应像素点上的深度落在此平面上的概率;像素点(u,v)的深度定义为M′个深度平面上概率分布的期望根据上述步骤计算得到的深度D′,在深度范围[D′(u,v)-ΔD′(u,v),D′(u,v)+ΔD′(u,v)],采样M个深度平面 {Lj|j=1,…,M},Lj(u,v)为像素点(u,v)在第j个平面的深度;利用步骤(1)提取到的图片特征在每个深度平面上构建以方差为代价的代价体;将此代价体输入到基于3D卷积的神经网络中处理,得到一个深度的概率体P,概率体P的第j个平面Pj在像素点(u,v)的概率代表了对应像素点上的深度落在此平面上的概率;像素点(u,v)的深度定义为M个深度平面上概率分布的期望
3.对于目标视图上的一个像素点(u,v),计算真实深度值与步骤2计算得到的深度值的最大误差ΔD(u,v),具体过程为:在其深度可能所处的区间[D(u,v)-ΔD(u,v),D(u,v)+ΔD(u,v)],采样Nk个点{xk|k=1,…,Nk},K取值为 2~8,其中xk为目标视图标准化设备坐标空间的坐标;对于采样点,利用神经网络Φ,如一个深度为8宽度为256的多层感知机,计算神经辐射场(c,σ)=Φ(d,f),利用均方误差损失函数对神经网络Φ进行监督。其中,d是xk在目标视图标准化设备坐标空间中的方向。f是xk在步骤1深度神经网络输入图片上的对应的图像特征的聚合。具体而言,使用平均池化操作φ聚合N张图片的特征,得到N张图片的上的平均特征f=φ(F1,…,FN)。
4.利用体渲染的公式聚合每一个像素点上所有采样点的神经辐射场(c,σ),得到最终渲染出来的图片。
具体实施例:
在DTU数据集上,给定目标视图,获取3个邻近视图为给定视图。利用一个2D的U-Net 获取3张图像特征;在目标视图前,结合步骤(2)所述过程估计深度D;利用步骤(3)所述过程,对每个像素点采样2个点,同时利用一个深度为8宽度为256的多层感知机计算每个点颜色和体密度;利用体渲染公式计算每个像素点的颜色,利用均方差损失函数完成对2D U-Net以及多层感知机的监督。传统方法没有采用本发明步骤(2)的具体过程,本发明创新的采用概率体P处理预测像素点的深度,以及计算神经辐射场,传统方法在本发明步骤(3) 的过程中需要从步骤(1)包含物体的范围内采样多个点(128到256个点)才能达到和本方法在步骤(3)获取的深度附近采样少量点(2个点)同水平的渲染质量。因此本发明能够无额外开销的支持高速的基于神经辐射场的渲染。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (5)
1.一种基于深度引导采样的高效神经辐射场渲染方法,其特征在于,该方法具体的步骤如下:
(1)获取N张待渲染视角附近的图片,通过深度神经网络提取得到N张图片特征{Fi|i=1,...,N},其中Fi为第i张图片的特征;记待渲染视角的图片为目标视图,获取的待渲染视角附近的图片为给定视图;
(2)利用给定视图计算目标视图的深度图像D,用D(u,v)表示目标视图上像素点(u,v)的深度值;
(3)对于目标视图上的一个像素点(u,v),在其深度可能所处的区间[D(u,v)-ΔD(u,v),D(u,v)+ΔD(u,v)],采样Nk个点{xk|k=1,...,Nk},其中ΔD(u,v)为真实深度值与步骤(2)计算得到的深度值的最大误差,xk为从相机中心穿过像素点(u,v)的射线在上述深度区间上均匀采样的点;
(4)对于步骤(3)采样的点xk,利用神经网络Φ计算采样点的神经辐射场(c,σ)=Φ(d,f);其中,c和σ分别是点xk的辐射和体密度,d是相机中心穿过像素点(u,v)的射线在3D空间中的方向;f是xk投影在步骤(1)深度神经网络输入图片上的对应的图像特征的聚合;
(5)利用体渲染的公式聚合每一个像素点上所有采样点的神经辐射场(c,σ),得到最终渲染出来的图片。
2.根据权利要求1所述的一种基于深度引导采样的高效神经辐射场渲染方法,其特征在于,利用均方误差损失函数实现对步骤(1)的深度神经网络、步骤(4)中的神经网络Φ进行监督。
3.根据权利要求1所述的一种基于深度引导采样的高效神经辐射场渲染方法,其特征在于,步骤(2)中计算目标视图深度图像D的过程为先后构建两个代价体;第二个代价体的分辨率比第一个代价体的分辨率更高;构建过程如下:
在目标视图前,给定包含场景物体的范围,在此范围内均匀采样M′个平面{Lj′|j=1,...,M′},L′j为第j个平面的深度;利用步骤(1)提取到的图片特征在每个深度平面上构建的以方差为代价的代价体;具体为,由第i张给定视图Ii的相机参数[Ki,Ri,ti]和目标视图的相机参数[K,R,t]定义一个单应变换:其中n表示目标视图的相机中心轴,此单应变换Hi(z)将目标视图上一个像素点(u,v)在深度为z的情况下转换到第i张给定视图Ii上,插值求出转换后的像素点对应的特征F′i,z(u,v)=Fi(Hi(z)[u,v,1]T),其中Fi(Hi(z)[u,v,1]T))为从图像特征Fi取出Hi(z)[u,v,1]T对应像素点的特征;基于转换好的特征,代价体中每个元素的值定义为给定视图上特征{F′i,z(u,v}|i=1,...,N}的方差;将此代价体输入到基于3D卷积的神经网络中处理,得到一个深度的概率体P′,概率体P′的第j个平面P′j在像素点(u,v)的概率代表了对应像素点上的深度落在此平面上的概率;像素点(u,v)的深度定义为M′个深度平面上概率分布的期望
5.根据权利要求1所述的一种基于深度引导采样的高效神经辐射场渲染方法,其特征在于,步骤(4)计算f的过程为,使用平均池化操作φ聚合N张图片的特征,得到N张图片的上的平均特征f=φ(F1,...,FN)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111421781.8A CN114241113A (zh) | 2021-11-26 | 2021-11-26 | 一种基于深度引导采样的高效神经辐射场渲染方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111421781.8A CN114241113A (zh) | 2021-11-26 | 2021-11-26 | 一种基于深度引导采样的高效神经辐射场渲染方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241113A true CN114241113A (zh) | 2022-03-25 |
Family
ID=80751510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111421781.8A Pending CN114241113A (zh) | 2021-11-26 | 2021-11-26 | 一种基于深度引导采样的高效神经辐射场渲染方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241113A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549731A (zh) * | 2022-04-22 | 2022-05-27 | 清华大学 | 视角图像的生成方法、装置、电子设备及存储介质 |
CN114863037A (zh) * | 2022-07-06 | 2022-08-05 | 杭州像衍科技有限公司 | 基于单手机的人体三维建模数据采集与重建方法及系统 |
CN115731336A (zh) * | 2023-01-06 | 2023-03-03 | 粤港澳大湾区数字经济研究院(福田) | 图像渲染方法、图像渲染模型生成方法及相关装置 |
CN116681818A (zh) * | 2022-10-28 | 2023-09-01 | 荣耀终端有限公司 | 新视角重建方法、新视角重建网络的训练方法及装置 |
WO2024007182A1 (zh) * | 2022-07-06 | 2024-01-11 | 北京原创力科技有限公司 | 静态NeRF模型与动态NeRF模型融合的视频渲染方法及系统 |
CN117456078A (zh) * | 2023-12-19 | 2024-01-26 | 北京渲光科技有限公司 | 基于多种采样策略的神经辐射场渲染方法、系统和设备 |
-
2021
- 2021-11-26 CN CN202111421781.8A patent/CN114241113A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549731A (zh) * | 2022-04-22 | 2022-05-27 | 清华大学 | 视角图像的生成方法、装置、电子设备及存储介质 |
CN114549731B (zh) * | 2022-04-22 | 2022-09-16 | 清华大学 | 视角图像的生成方法、装置、电子设备及存储介质 |
CN114863037A (zh) * | 2022-07-06 | 2022-08-05 | 杭州像衍科技有限公司 | 基于单手机的人体三维建模数据采集与重建方法及系统 |
CN114863037B (zh) * | 2022-07-06 | 2022-10-11 | 杭州像衍科技有限公司 | 基于单手机的人体三维建模数据采集与重建方法及系统 |
WO2024007182A1 (zh) * | 2022-07-06 | 2024-01-11 | 北京原创力科技有限公司 | 静态NeRF模型与动态NeRF模型融合的视频渲染方法及系统 |
CN116681818A (zh) * | 2022-10-28 | 2023-09-01 | 荣耀终端有限公司 | 新视角重建方法、新视角重建网络的训练方法及装置 |
CN116681818B (zh) * | 2022-10-28 | 2024-04-09 | 荣耀终端有限公司 | 新视角重建方法、新视角重建网络的训练方法及装置 |
CN115731336A (zh) * | 2023-01-06 | 2023-03-03 | 粤港澳大湾区数字经济研究院(福田) | 图像渲染方法、图像渲染模型生成方法及相关装置 |
CN115731336B (zh) * | 2023-01-06 | 2023-05-16 | 粤港澳大湾区数字经济研究院(福田) | 图像渲染方法、图像渲染模型生成方法及相关装置 |
CN117456078A (zh) * | 2023-12-19 | 2024-01-26 | 北京渲光科技有限公司 | 基于多种采样策略的神经辐射场渲染方法、系统和设备 |
CN117456078B (zh) * | 2023-12-19 | 2024-03-26 | 北京渲光科技有限公司 | 基于多种采样策略的神经辐射场渲染方法、系统和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114241113A (zh) | 一种基于深度引导采样的高效神经辐射场渲染方法 | |
US10552989B2 (en) | Point cloud attribute compression method based on KD tree and optimized graph transformation | |
CN106558022B (zh) | 一种基于边缘差异约束的单幅图像超分辨率重建方法 | |
CN114004941A (zh) | 一种基于神经辐射场的室内场景三维重建系统及方法 | |
WO2022141178A1 (zh) | 图像处理方法及装置 | |
CN115690324A (zh) | 一种基于点云的神经辐射场重建优化方法及装置 | |
CN115205489A (zh) | 一种大场景下的三维重建方法、系统及装置 | |
CN110753181A (zh) | 一种基于特征跟踪和网格路径运动的视频稳像方法 | |
US20240046557A1 (en) | Method, device, and non-transitory computer-readable storage medium for reconstructing a three-dimensional model | |
Sargent et al. | Zeronvs: Zero-shot 360-degree view synthesis from a single real image | |
CN108830812A (zh) | 一种基于网格结构深度学习的视频高帧率重制方法 | |
CN111932452B (zh) | 基于可见光图像增强的红外图像卷积神经网络超分辨方法 | |
CN116958437A (zh) | 融合注意力机制的多视图重建方法及系统 | |
CN116977536A (zh) | 一种基于混合神经辐射场的无边界场景新视角合成方法 | |
CN114863062B (zh) | 基于点、体素特征表示的工业场景3d点云模型构建方法 | |
CN112489198A (zh) | 一种基于对抗学习的三维重建系统及其方法 | |
Xi et al. | Super resolution reconstruction algorithm of video image based on deep self encoding learning | |
CN116912405A (zh) | 一种基于改进MVSNet的三维重建方法及系统 | |
CN117115359A (zh) | 一种基于深度图融合的多视图电网三维空间数据重建方法 | |
CN111681236A (zh) | 一种带注意力机制的目标密度估计方法 | |
Zhu et al. | A signal-processing framework for occlusion of 3D scene to improve the rendering quality of views | |
EP4293623A1 (en) | Image depth prediction method and electronic device | |
CN115953317A (zh) | 图像增强方法、装置、电子设备及存储介质 | |
CN113191947B (zh) | 一种图像超分辨率的方法及系统 | |
CN114612305A (zh) | 一种基于立体图建模的事件驱动视频超分辨率方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |