CN113327299A - 一种基于联合采样结构的神经网络光场方法 - Google Patents

一种基于联合采样结构的神经网络光场方法 Download PDF

Info

Publication number
CN113327299A
CN113327299A CN202110781579.XA CN202110781579A CN113327299A CN 113327299 A CN113327299 A CN 113327299A CN 202110781579 A CN202110781579 A CN 202110781579A CN 113327299 A CN113327299 A CN 113327299A
Authority
CN
China
Prior art keywords
sampling
network
color
fine
light field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110781579.XA
Other languages
English (en)
Other versions
CN113327299B (zh
Inventor
刘绍华
李明豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110781579.XA priority Critical patent/CN113327299B/zh
Publication of CN113327299A publication Critical patent/CN113327299A/zh
Application granted granted Critical
Publication of CN113327299B publication Critical patent/CN113327299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Geometry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Graphics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明是一种基于联合采样结构的神经网络光场方法,用于三维场景的重建。本发明方法建立联合采样结构的神经网络光场,利用标定了相机参数的图片进行训练,然后利用训练好的神经网络光场计算所求新视图中的每个像素的颜色,生成新视图。本发明改进现有使用粗糙和细腻双网络采样拟合空间光场的技术方案,建立联合采样结构的神经网络光场,将粗糙网络和细腻网络进行级联,最终的颜色输出为两个网络输出共同生成的结果。本发明对细腻网络不再执行均匀采样,减少采样计算量和计算时间,在减少计算量的同时保证视图合成质量,并提高了生成三维视图的速度,节省了网络模型的训练时间。

Description

一种基于联合采样结构的神经网络光场方法
技术领域
本发明属于图像处理技术领域,涉及基于图像的三维场景获取、重建及展示,具体涉及一种基于联合采样结构的神经网络模型拟合并展示三维场景光线信息的方法。
背景技术
光场(Light Field)绘制是一种新的便捷、动态呈现三维场景的技术。光场绘制技术不需要专业人员设计重建复杂的几何模型,也不需要精细的纹理贴图和光照模拟,只要在多个视点位置拍摄一定数量的照片,就可以在未拍摄的新视点利用原始图片直接合成逼真的场景视图。光场绘制的原理是尽可能地采集场景空间中的光线信息,然后使用这些光线信息再还原出某一位置和角度观察到的场景视图。传统光场绘制技术由于使用启发式的采样方式,往往需要密集和规则的照片捕获,难以扩展到实验室外广泛应用。
近年来,一些方法将深度学习技术用于光场绘制。神经网络光场(NeuralReflectance Field,NeRF)方法使用神经网络隐式地编码输入图片中的场景光线,然后通过分层采样近似积分可以绘制出高质量的目标视图。NeRF方法适用于从虚拟合成到真实世界手持拍摄的各种数据集,并都取得了高质量的视图合成结果。但由于其需要隐式地拟合场景中所有光线的采样情况,目前还普遍存在训练时间长,运算速度慢的问题。
目前的NeRF方法使用粗糙和细腻双网络分离的采样方案来拟合空间光场(参考文献1:Mildenhall B,Srinivasan P P,Tancik M,et al.NeRF:Representing Scenes asNeural Radiance Fields for View Synthesis[A].//Proceedings of the ComputerVision--ECCV 2020[C],Cham:Springer International Publishing,2020:405-421.)。在这个过程中,粗糙的采样网络的输入是整个场景范围内沿某一光线均匀分布的采样点,输出是在这些采样点上存在有效颜色值的概率。通过对一条光线上所有采样点的有效概率进行统计,可以反向采样得到这条光线上概率大的位置更稠密、概率小的位置则更稀疏的细腻采样位置。在原始的NeRF方法中,粗糙网络的均匀采样结果的作用是生成细腻网络的输入(待采样位置),而细腻网络在细腻采样位置的采样结果被用来近似积分合成新视图。NeRF方法合成视图的质量与在每根光线有效位置(即场景中非透明区域)的采样精细度成正比。在网络训练初期,粗糙网络采样结果可能并不可靠,通过其推导出的细腻采样位置偏离有效位置,继而无法合成合理的视图颜色。因此,原始的NeRF方法选择由细腻网络在与粗糙网络相同的均匀采样位置也进行采样,并与在细腻采样位置的采样结果一起合成最终的视图像素颜色,这无疑导致了更大的计算量和更长的计算时间。
发明内容
针对原始NeRF方法拟合空间光场时存在重复均匀采样带来的训练时间长,运算速度慢的问题,本发明提出了一种基于联合采样结构的神经网络光场方法,利用粗糙网络和细腻网络共享均匀采样结果,协同合成新视图的联合采样,减少了整个过程的计算量,继而减少网络的训练时间,加快视图合成速度。
本发明提出的基于联合采样的神经网络光场方法,输入已采集的三维场景中的场景图片,使用输入图片拟合三维场景中的光线信息,并利用光线信息生成三维场景在未预先拍摄的视角所观察到的新视图。其中,本发明方法在于拟合三维场景中的光线信息,简称光场,包括如下步骤:
步骤(1):对输入的各个照片对应的相机参数进行标定,得到每张图片的相机参数信息。相机参数包括但不限于相机序号、相机模型、图片宽度、图片高度、焦距、光心位置、图像序号、三维姿态和相机位置信息。
步骤(2):利用输入的图片和相应相机参数对网络进行训练,构建基于联合采样的神经网络光场。
步骤(3):利用训练好的神经网络光场计算所求新视图中的每个像素的颜色,生成新视图。
所述步骤(2)中,构建基于联合采样的神经网络光场,包括:构建粗糙网络和细腻网络;粗糙网络的输入是光线r上的Nc个均匀采样位置,输出是对应采样位置的颜色和体密度,计算每个均匀采样位置存在有效采样值的概率密度函数;结合所述概率密度函数执行反采样,可以获取光线r上Nf个非均匀采样位置,作为细腻网络的输入,细腻网络的输出是对应采样位置的颜色和体密度;对所述Nc个均匀采样位置和Nf个非均匀采样位置合并再重排序,然后将粗糙网络输出的光线r的Nc个均匀采样结果,以及细腻网络输出的Nf个非均匀采样结果结合计算出最终视图像素对应的光线颜色。
所述步骤(2)中,对步骤(1)采集的每张图片,计算图中像素对应的光线起点和方向,对每条光线计算均匀采样位置,用于输入粗糙网络。
所述步骤(2)中,在训练神经网络光场时,将在每个像素上计算的粗糙网络的颜色结果和细腻网络的颜色结果分别与像素真实颜色的误差之和作为损失函数来同步训练粗糙网络和细腻网络。
相对于现有技术,本发明提出的基于联合采样的神经网络光场方法具有如下优点:(1)本发明改进现有使用粗糙和细腻双网络采样拟合空间光场的技术方案,对细腻网络不再执行均匀采样,减少采样计算量和计算时间;(2)本发明联合粗糙网络和细腻网络的采样位置,联合两网络的采样结果一起计算最终视图像素对应的光线颜色,在减少计算量的同时保证视图合成质量,并提高了生成三维视图的速度,同时还节省了网络模型的训练时间。(3)本发明将一个粗糙网络和一个细腻网络进行级联,最终的颜色输出为两个网络输出共同生成的结果,这种技术与网络的数量无关,可以从两个网络级联拓展到多个网络级联,也与每个网络的采样位置数量无关,不同的采样位置数量均可以应用本发明的联合采样技术。
附图说明
图1为本发明的神经网络光场绘制视图的步骤流程图;
图2为本发明提出的联合采样技术示意图;
图3为本发明实施例中神经网络的结构示意图。
具体实施方式
下面结合附图和实施例来说明本发明的实现,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于联合采样的神经网络光场方法,可以使用输入图片便捷地拟合三维场景中的光线信息,并利用光线信息生成三维场景在未预先拍摄的视角所观察到的新视图。如图1所示,本发明包括如下4个步骤。
步骤1:对于某一三维场景,使用相机、智能手机等具有拍摄功能的设备在场景的各个位置从不同角度拍摄或以其他方式采集一定数量的场景照片。
步骤2:可通过预先手工测量或使用从运动到结构(Structure from Motion,SFM)算法对各个照片对应的相机参数进行标定,得到每张图片的相机参数信息。相机参数包括但不限于相机序号、相机模型、图片宽度、图片高度、焦距、光心位置、图像序号、三维姿态和相机位置信息。
步骤3:构建和训练基于联合采样的神经网络光场。
光场绘制的原理是用一个5D全光函数来表示一个三维空间场景的所有光线信息。函数的输入是三维位置x=(x,y,z)和基于球坐标系的方向向量d=(θ,φ)。θ,φ分别是仰角和方位角。函数的输出是光线沿着方向d到达三维位置x所呈现的颜色c=(r,g,b)和体密度σ。基于深度学习的神经网络光场通过一个多层感知机(Multi-Layer Perceptron,MLP)网络隐式地拟合这个场景的5D全光函数FΘ(x,d)。神经网络的训练过程就是不断地调整网络模型的权重参数Θ,使其最终可以在给定输入位置和方向后,输出与实际光线一致的颜色c和体密度σ。在场景中拍摄照片,实质上是根据一定规则采集相机观察到的所有光线,并将其叠加到相机感光元件所属的2D平面的过程。照片上的每一个像素值可以看作是一根光线在相机感光平面呈现的颜色。
通过在一条光线上设置许多的采样点,神经网络可以在这些采样位置进行运算得到其颜色和体密度,然后积分得到一条光线在相机拍摄照片上的像素颜色C(r)。一条光线可以用r(t)=o+td表示,其中o为光线起点,d为光线方向,t是沿着光线方向距离起点的采样距离。对于从近平面tn到远平面tf的一条光线r,其在投影到近平面上呈现的颜色C(r)计算如下:
Figure BDA0003152694130000041
其中,T(t)表示从tn到t累积的透光度,即光线从tn到t位置过程中没有被遮挡或者阻断的概率。而光线采样位置的体密度σ可以看作是光线在某一无穷小位置处终止的微分概率。摄像机的感光元件平面设置为近平面,无穷远处为远平面。c(r(t))是指光线在这一无穷小位置呈现的颜色。而由于实际中计算机无法模拟完美的连续信号,因此需要一种离散的采样方式来近似。
本发明在实现神经网络光场时,提出了一种“联合采样”的方案,将粗糙网络输出的光线颜色信息重复利用起来,与细腻网络的非均匀采样结果联合起来生成最终的像素颜色。而原来细腻网络中与粗糙网络采样位置相同的均匀采样部分,不再输入到细腻网络中进行计算。相比原始的NeRF方法,本发明的联合采样方案理论上节省了一个粗糙网络均匀采样的计算量。本发明的联合采样方案如图2所示。
对每张采样图像,计算图中每个像素对应的光线起点和方向,并计算均匀的采样位置。设粗糙网络的均匀采样数量为Nc,细腻网络的采样数量为Nf。粗糙网络在Nc个均匀采样位置的采样结果如下:
Figure BDA0003152694130000042
其中,
Figure BDA0003152694130000043
Figure BDA0003152694130000044
分别为粗糙网络输出的第i个采样点的颜色和体密度。由于同处一根光线,所有采样位置有相同的方向d,Δt为均匀采样的采样间隔,
Figure BDA0003152694130000045
代表粗糙网络对应的采样函数。使用粗糙网络输出的体密度
Figure BDA0003152694130000046
可以计算每个均匀采样位置存在有效采样值的概率密度函数。通过结合概率密度函数执行反采样,可以得到Nf个非均匀采样位置,其输入到细腻网络中,得到细腻采样结果:
Figure BDA0003152694130000047
其中
Figure BDA0003152694130000048
代表细腻网络对应的采样函数,
Figure BDA0003152694130000049
为第j个非均匀采样位置。
Figure BDA00031526941300000410
分别为细腻网络输出的第j个采样点的颜色和体密度。
对于光线r,计算两个颜色,粗糙颜色Cc(r)和细腻颜色Cf(r),其中粗糙颜色仅使用粗糙网络输出的均匀采样结果:
Figure BDA00031526941300000411
其中,
Figure BDA00031526941300000412
为第i个均匀采样位置,
Figure BDA00031526941300000413
Figure BDA00031526941300000414
位置的体密度,
Figure BDA00031526941300000415
Figure BDA00031526941300000416
位置的采样颜色,
Figure BDA00031526941300000417
Ti表示从第1个均匀采样点到第i个均匀采样点累积的透光度,δi表示第i-1采样位置到第i个采样位置的距离。而细腻颜色作为最终真正用于合成视图的像素颜色,则由细腻网络的非均匀采样结果与粗糙网络的均匀采样结果混合而成。但由于光线采样结果的累计需要由近至远进行,为了解决这个问题,本发明所提出的联合采样技术将非均匀和均匀的采样位置合并做一次重排序:
Figure BDA0003152694130000051
其中,sort表示排序。同时,将每一个xk与各自的采样结果对应起来,设σk为xk位置的体密度,ck为xk位置的采样颜色。然后联合两种采样结果一起计算出最终视图像素对应的光线颜色:
Figure BDA0003152694130000052
其中,xk-xk-1为第k个采样位置与前一个采样位置的距离,x0的值为0。
最后,进行网络训练。通过比较计算颜色与真实颜色的差值迭代地训练神经网络,调整网络权重参数使其收敛。在合成新视图的测试阶段,将计算颜色作为目标像素颜色。本发明在每个像素上计算粗糙和细腻两种颜色结果的L2误差作为损失函数来同步训练两个网络:
Figure BDA0003152694130000053
其中,Cgt(r)为光线对应像素颜色的真实值,
Figure BDA0003152694130000054
表示求向量的二范数,即Euclid范数。
步骤4:在已知相机参数的情况下,通过重复步骤3计算画面中每一个像素的颜色,从而合成一张场景的观察视图。
实施例:
实现本发明神经网络光场的应用环境如下:
神经网络光场绘制算法程序由Python语言编写,其中神经网络部分基于PyTorch框架实现。程序的数据处理和逻辑为CPU单线程运行,而算法效率的主要瓶颈在于神经网络计算光线采样结果,该部分由GPU进行运算。算法运行在服务器上,服务器需要安装CUDA(Compute Unified Device Architecture,统一计算设备架构)以进行神经网络的推理训练。
神经网络光场算法涉及到的参数包括两类:
第一类,光线采样相关参数。本次实施例中,每根光线输入到粗糙网络进行均匀采样的位置数Nc=64,输入到细腻网络的非均匀采样位置数Nf=128。同时为了提高神经网络学习图像的高频细节,在将位置和方向向量输入到网络前预先执行一个扩张维度的编码。扩张维度编码的函数并不唯一,本发明实施例的编码函数为:
γ(p)=(sin(20πp),…,sin(2L-1πp),cos(2L-1πp) (8)
其中,p是一个一维值,编码函数将一维值γ(p)通过傅里叶变换扩展为一个2L维的向量。实际计算时位置向量的维度为3,对其编码的L=10,方向向量维度为3,对其编码的L=4。
第二类,神经网络训练相关参数。训练网络每次迭代的并行光线数量为1024,每个神经网络单次计算的采样位置数量为16384。以上两个参数可根据显卡实际可用的显存容量进行调节。训练使用Adam优化器学习和更新权重参数,初始学习率设为5×10-4,并向5×10-5指数递减。每个场景训练50万次。
本发明实施例执行如下步骤:
步骤1:在场景中各个位置和角度拍摄一组场景图片,每组3张以上图片。
步骤2:使用COLMAP或其他三维重建软件还原出所有图片对应的相机参数。
步骤3:为所有图像的每个像素计算其对应的光线起点和方向,并计算均匀的采样位置。
步骤4:对每个采样的位置向量和方向向量进行扩张维度编码。
步骤5:将经过编码后的位置和方向向量输入到粗糙神经网络中,输出均匀采样结果。粗糙网络模型的结构如图3所示,γ(x)、γ(d)分别代表编码后的位置向量和方向向量,60、24分别代表位置向量和方向向量的维度。
步骤6:根据粗糙网络的均匀采样结果反采样出非均匀采样位置,经步骤4编码后输入到细腻神经网络中。细腻网络与粗糙网络的网络结构相同。
步骤7:使用联合采样技术综合两个网络的采样结果计算最终的像素颜色,并计算与真实值的差异,迭代训练网络。
步骤8:网络训练完成后,通过输入需要合成视图的位置和方向,重复步骤3-6,合成视图中所有像素颜色,得到目标图片。
采用本发明方法所能得到的技术效果如下说明。
设单个MLP神经网络执行单个采样位置的计算量为τ,在每根光线上由粗糙网络执行的均匀采样数量Nc=64,细腻网络执行的非均匀采样数量Nf=128。原始的NeRF方法由于细腻网络仍需再执行一遍均匀采样,其采样单根光线的总计算量为256τ。本发明方法中由于细腻网络不再执行Nc=64的均匀采样,而是共享粗糙网络已有的均匀采样结果,其采样单根光线的总计算量为192τ。也就是说,本发明的联合采样技术相比原始级联采样理论上可以在神经网络部分可以节省25%的计算量。
本发明方法目的在于减少计算量的同时保证与普通级联采样一致的视图合成质量,并提高速度。因此,在训练完成后,使用每张图片合成所需时间以及网络训练时间来衡量算法的效率,使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)两项得分来评估本发明神经网络光场方法合成的目标视图的质量。
神经网络光场算法测试常用的公共数据集为Realistic Synthetic 360°合成场景数据集和Real Forward-Facing真实世界数据集。Realistic Synthetic 360°数据集包括Chair、Drums、Ficus、Hotdog、Lego、Materials、Mic和Ship等八个由Blender软件精细建模的复杂非朗伯场景。每个场景的图片由三维软件Blender的环形路径追踪插件采集,其中6个场景从上半球方向环绕拍摄,另外2个则从整个球形的各个方向采集。每个场景的图片选取100张输入到神经网络中进行训练,13张用于测试。该数据集所有图片的分辨率为800×800像素。Real Forward-Facing数据集包括Room、Fern、Leaves、Fortress、Orchids、Flower、Trex和Horns等八个真实世界场景。与Realistic Synthetic 360°数据集是环绕采集不同,Real Forward-Facing数据集的图片是使用智能手机面对着场景上下左右平移拍摄,即Forward-Facing。由于是手持拍摄的真实场景,每张图片对应的摄像机参数由COLMAP软件估计得到。每个场景的图片数量为20至62不等,其中八分之一作为测试集,其他图片作为训练集。该数据集所有图片的分辨率为1008×756像素。
表1展示了在Realistic Synthetic 360°数据集上两种方案的合成视图质量及效率。可以看出,相比原始NeRF方法,本发明方法在减少了25%的计算时间的同时,保证了和原始方法几乎一致的视图合成质量。
表1在Realistic Synthetic 360°数据集上的结果对比
Figure BDA0003152694130000071
其中,Time为合成每张图片所需时间,单位为秒(s);加粗的数字为最佳得分。
表2展示了在Real Forward-Facing数据集上两种方案的合成视图质量及效率。可以看出,与表1中的结果类似,本发明方法在大幅度减少了计算时间的同时,保证了和原始方法几乎一致的视图合成质量,在速度和质量两方面的均衡取得了最优。
表2在Real Forward-Facing数据集上的结果对比
Figure BDA0003152694130000072
Figure BDA0003152694130000081
另外,由于神经网络光场本质上是使用权重参数对单一场景进行隐式编码,实际应用时其需要在每个场景上都单独重新训练模型。因此,节省网络模型的训练时间也十分有必要。
表3展示了在两个数据集上平均每个场景的训练时间。
表3平均每个场景的训练时间(单位为小时/h)
原始NeRF 本发明方法
Realistic Synthetic 360° 52.37h 40.17h
Real Forward-Facing 56.90h 43.59h
可以看出,本发明方法相较于原始NeRF方法减少了20%左右的训练时间。本发明方法中粗糙网络和细腻网络是协同训练的,颜色变化除了反馈给细腻网络,也实时反馈给粗糙网络,与原始NeRF方法相比,粗糙网络训练迭代调整参数的方向并不相同。通过上面实验可以看出,本发明方法在保证三维视图生成质量的前提下,提高了生成速度,节省模型训练时间。

Claims (3)

1.一种基于联合采样的神经网络光场方法,利用已采集的三维场景中的场景图片,拟合三维场景中的光线信息,利用光线信息生成三维场景中的新视图,其特征在于,拟合三维场景中的光线信息包括:
(1)预先对已采集的场景图片对应的相机参数进行标定,获得每张图片的相机参数;
(2)构建和训练基于联合采样的神经网络光场;
所述的构建基于联合采样的神经网络光场,包括:构建粗糙网络和细腻网络;粗糙网络的输入是光线r上的Nc个均匀采样位置,输出是对应采样位置的颜色和体密度,计算每个均匀采样位置存在有效采样值的概率密度函数;结合所述概率密度函数执行反采样,获取光线r上Nf个非均匀采样位置,作为细腻网络的输入,细腻网络的输出是对应采样位置的颜色和体密度;对所述Nc个均匀采样位置和Nf个非均匀采样位置合并再重排序,然后将粗糙网络输出的光线r的Nc个均匀采样结果,以及细腻网络输出的Nf个非均匀采样结果结合计算出最终视图像素对应的光线颜色;
利用标定了相机参数的图片组成训练集用于训练神经网络光场,训练时将在每个像素上计算的粗糙网络的颜色结果和细腻网络的颜色结果分别与像素真实颜色的误差之和作为损失函数来同步训练粗糙网络和细腻网络;
(3)利用训练好的神经网络光场计算新视图中的每个像素的颜色,生成新视图。
2.根据权利要求1所述的方法,其特征在于,所述的(1)中,相机参数包括但不限于相机序号、相机模型、图片宽度、图片高度、焦距、光心位置、图像序号、三维姿态和相机位置。
3.根据权利要求1所述的方法,其特征在于,所述的(2)中,基于联合采样的神经网络光场中,粗糙网络在Nc个均匀采样位置的采样结果如下:
Figure FDA0003152694120000011
其中,
Figure FDA0003152694120000012
Figure FDA0003152694120000013
分别为粗糙网络输出的第i个均匀采样位置的颜色和体密度;o为光线起点,d为光线方向,Δt为均匀采样的采样间隔,
Figure FDA0003152694120000014
代表粗糙网络对应的采样函数;
使用粗糙网络输出的体密度
Figure FDA0003152694120000015
计算每个均匀采样位置存在有效采样值的概率密度函数,结合概率密度函数执行反采样,获取Nf个非均匀采样位置,输入到细腻网络中,得到细腻采样结果如下:
Figure FDA0003152694120000016
其中,
Figure FDA0003152694120000017
代表细腻网络对应的采样函数,
Figure FDA0003152694120000018
为第j个非均匀采样位置,
Figure FDA0003152694120000019
分别为细腻网络输出的第j个非均匀采样位置的颜色和体密度;
对于光线r,计算粗糙颜色Cc(r)和细腻颜色Cf(r);其中粗糙颜色仅使用粗糙网络输出的均匀采样结果得到,如下:
Figure FDA0003152694120000021
其中,
Figure FDA0003152694120000022
为第i个均匀采样位置,Ti表示从第1个均匀采样点到第i个均匀采样点累积的透光度,δi表示第i-1采样位置与第i个采样位置之间的距离;
细腻颜色由细腻网络的非均匀采样结果与粗糙网络的均匀采样结果混合而成,先将非均匀采样位置和均匀采样位置合并做一次重排序,如下:
Figure FDA0003152694120000023
其中,sort表示排序;同时将每一个采样位置xk与各自的采样结果对应起来,设σk、ck分别为xk位置的体密度和采样颜色;然后联合两种采样结果一起计算出细腻颜色,作为最终视图像素对应的光线颜色,如下:
Figure FDA0003152694120000024
其中,x0的值为0;
在训练基于联合采样的神经网络光场时,在每个像素上计算粗糙和细腻两种颜色结果的L2误差作为损失函数来同步训练粗糙网络和细腻网络,损失函数如下:
Figure FDA0003152694120000025
其中,Cgt(r)为光线对应像素颜色的真实值,
Figure FDA0003152694120000026
表示求向量的二范数。
CN202110781579.XA 2021-07-07 2021-07-07 一种基于联合采样结构的神经网络光场方法 Active CN113327299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110781579.XA CN113327299B (zh) 2021-07-07 2021-07-07 一种基于联合采样结构的神经网络光场方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110781579.XA CN113327299B (zh) 2021-07-07 2021-07-07 一种基于联合采样结构的神经网络光场方法

Publications (2)

Publication Number Publication Date
CN113327299A true CN113327299A (zh) 2021-08-31
CN113327299B CN113327299B (zh) 2021-12-14

Family

ID=77426132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110781579.XA Active CN113327299B (zh) 2021-07-07 2021-07-07 一种基于联合采样结构的神经网络光场方法

Country Status (1)

Country Link
CN (1) CN113327299B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820901A (zh) * 2022-04-08 2022-07-29 浙江大学 一种基于神经网络的大场景自由视点插值方法
CN115147577A (zh) * 2022-09-06 2022-10-04 深圳市明源云科技有限公司 Vr场景生成方法、装置、设备及存储介质
CN116070687A (zh) * 2023-03-06 2023-05-05 浙江优众新材料科技有限公司 一种基于全局光线空间仿射变换的神经网络光场表示方法
CN117078772A (zh) * 2023-09-05 2023-11-17 博识峰云(湖南)信息技术有限公司 一种基于NeRF的相机自标定方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109829967A (zh) * 2019-03-06 2019-05-31 叠境数字科技(上海)有限公司 一种基于深度学习的移动端表面光场渲染方法
US20190304069A1 (en) * 2018-03-29 2019-10-03 Pixar Denoising monte carlo renderings using neural networks with asymmetric loss
CN111127536A (zh) * 2019-12-11 2020-05-08 清华大学 基于神经网络的光场多平面表示重建方法及装置
CN111915484A (zh) * 2020-07-06 2020-11-10 天津大学 基于密集匹配与自适应融合的参考图引导超分辨率方法
CN111985372A (zh) * 2020-08-12 2020-11-24 兰州交通大学 一种深度学习的遥感影像水体提取系统
CN112581483A (zh) * 2020-12-22 2021-03-30 清华大学 基于自学习的植物叶片叶脉分割方法和装置
CN112613609A (zh) * 2020-12-18 2021-04-06 中山大学 基于联合位姿优化的神经辐射场增强方法
CN112767466A (zh) * 2021-01-20 2021-05-07 大连理工大学 一种基于多模态信息的光场深度估计方法
US20210151198A1 (en) * 2019-07-23 2021-05-20 The Broad Institute, Inc. Health data aggregation and outbreak modeling

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190304069A1 (en) * 2018-03-29 2019-10-03 Pixar Denoising monte carlo renderings using neural networks with asymmetric loss
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109829967A (zh) * 2019-03-06 2019-05-31 叠境数字科技(上海)有限公司 一种基于深度学习的移动端表面光场渲染方法
US20210151198A1 (en) * 2019-07-23 2021-05-20 The Broad Institute, Inc. Health data aggregation and outbreak modeling
CN111127536A (zh) * 2019-12-11 2020-05-08 清华大学 基于神经网络的光场多平面表示重建方法及装置
CN111915484A (zh) * 2020-07-06 2020-11-10 天津大学 基于密集匹配与自适应融合的参考图引导超分辨率方法
CN111985372A (zh) * 2020-08-12 2020-11-24 兰州交通大学 一种深度学习的遥感影像水体提取系统
CN112613609A (zh) * 2020-12-18 2021-04-06 中山大学 基于联合位姿优化的神经辐射场增强方法
CN112581483A (zh) * 2020-12-22 2021-03-30 清华大学 基于自学习的植物叶片叶脉分割方法和装置
CN112767466A (zh) * 2021-01-20 2021-05-07 大连理工大学 一种基于多模态信息的光场深度估计方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
B. MILDENHALL 等: "NeRF: representing scenes as neural radiance fields for view synthesis", 《COMPUTER VISION--ECCV 2020》 *
K. ZHANG 等: "NeRF++: analyzing and Improving Neural Radiance Fields", 《ARXIV在线公开: ARXIV.ORG/ABS/2010.07492》 *
S. SHEN 等: "Non-line-of-Sight Imaging via Neural Transient Fields", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
SHAOHUA LIU 等: "Image-Based Rendering for Large-Scale Outdoor Scenes With Fusion of Monocular and Multi-View Stereo Depth", 《IEEE ACCESS》 *
Z. WANG: "NeRF--: Neural Radiance Fields Without Known Camera Parameters", 《ARXIV在线公开: ARXIV.ORG/ABS/2102.07064》 *
刘绍华 等: "一种联合采样的神经网络光场", 《北京邮电大学学报》 *
常远 等: "基于神经辐射场的视点合成算法综述", 《图学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820901A (zh) * 2022-04-08 2022-07-29 浙江大学 一种基于神经网络的大场景自由视点插值方法
CN114820901B (zh) * 2022-04-08 2024-05-31 浙江大学 一种基于神经网络的大场景自由视点插值方法
CN115147577A (zh) * 2022-09-06 2022-10-04 深圳市明源云科技有限公司 Vr场景生成方法、装置、设备及存储介质
CN116070687A (zh) * 2023-03-06 2023-05-05 浙江优众新材料科技有限公司 一种基于全局光线空间仿射变换的神经网络光场表示方法
CN117078772A (zh) * 2023-09-05 2023-11-17 博识峰云(湖南)信息技术有限公司 一种基于NeRF的相机自标定方法

Also Published As

Publication number Publication date
CN113327299B (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN113327299B (zh) 一种基于联合采样结构的神经网络光场方法
US10944960B2 (en) Free-viewpoint video generating method and free-viewpoint video generating system
CN109410307B (zh) 一种场景点云语义分割方法
Cai et al. Pix2nerf: Unsupervised conditional p-gan for single image to neural radiance fields translation
CN112288627B (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN113962858B (zh) 一种多视角深度获取方法
CN110458765A (zh) 基于感知保持卷积网络的图像质量增强方法
CN111862278B (zh) 一种动画获得方法、装置、电子设备及存储介质
CN112634163A (zh) 基于改进型循环生成对抗网络去图像运动模糊方法
CN116957931A (zh) 一种基于神经辐射场的相机图像画质提升方法
CN116168067B (zh) 基于深度学习的有监督多模态光场深度估计方法
US12100105B2 (en) Method for performing volumetric reconstruction
CN117274501B (zh) 一种可驱动数字人建模方法、装置、设备及介质
CN111612898B (zh) 图像处理方法、装置、存储介质及电子设备
CN112184912A (zh) 一种基于参数化模型和位置图的多度量三维人脸重建方法
CN116385667A (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
Debbagh Neural Radiance Fields (NeRFs): A Review and Some Recent Developments
Liu et al. Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo
Hara et al. Enhancement of novel view synthesis using omnidirectional image completion
CN112989952A (zh) 一种基于遮罩引导的人群密度估计方法及装置
Wang et al. Hyb-NeRF: A Multiresolution Hybrid Encoding for Neural Radiance Fields
CN116310228A (zh) 一种针对遥感场景的表面重建与新视图合成方法
CN116883524A (zh) 图像生成模型训练、图像生成方法、装置和计算机设备
CN111932670A (zh) 基于单个rgbd相机的三维人体自画像重建方法及系统
Tian et al. Research on Super-Resolution Enhancement Technology Using Improved Transformer Network and 3D Reconstruction of Wheat Grains

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant