CN116129030B - 一种基于神经辐射场的场景物体融合方法及装置 - Google Patents

一种基于神经辐射场的场景物体融合方法及装置 Download PDF

Info

Publication number
CN116129030B
CN116129030B CN202310413920.5A CN202310413920A CN116129030B CN 116129030 B CN116129030 B CN 116129030B CN 202310413920 A CN202310413920 A CN 202310413920A CN 116129030 B CN116129030 B CN 116129030B
Authority
CN
China
Prior art keywords
scene
illumination
density
picture
reflectivity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310413920.5A
Other languages
English (en)
Other versions
CN116129030A (zh
Inventor
邓正秋
吕绍和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Malanshan Video Advanced Technology Research Institute Co ltd
Original Assignee
Hunan Malanshan Video Advanced Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Malanshan Video Advanced Technology Research Institute Co ltd filed Critical Hunan Malanshan Video Advanced Technology Research Institute Co ltd
Priority to CN202310413920.5A priority Critical patent/CN116129030B/zh
Publication of CN116129030A publication Critical patent/CN116129030A/zh
Application granted granted Critical
Publication of CN116129030B publication Critical patent/CN116129030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/60Shadow generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Image Generation (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供了一种基于神经辐射场的场景物体融合方法及装置,所述方法包括如下步骤:S1,获取一组在固定未知环境光下捕获的场景图片和一组在固定未知环境光下捕获的单个物体图片;S2,使用基于神经辐射场获取所述场景图片和所述物体图片的反射信息和光照信息;S3,获取指定物体插入场景的位置,沿场景光线采样后,根据人为指定的场景和物体坐标系的变换关系,将场景点转换得到对应的物体点坐标,将对应点的密度和颜色对应融合;本发明通过结合本征图像分解算法,从神经辐射场中分解出光照图和反射图,表示为场景的材质和光照信息,基于本征图像分解的先验知识,实现在单一静态未知光源下获取的图片的逆渲染分解。

Description

一种基于神经辐射场的场景物体融合方法及装置
技术领域
本发明涉及图像处理技术领域,具体来说,涉及一种基于神经辐射场的场景物体融合方法及装置。
背景技术
物体和场景的融合编辑和渲染是计算机图形学中的经典研究问题,并在影视娱乐产业、虚拟现实、增强现实等领域中得到广泛应用。其目标是将物体融合到场景中生成用户所需要的视觉场景并提供身临其境的视觉体验。
传统计算机图形学的算法通常依赖于对物理世界的费力捕捉和重建,包括几何、纹理等属性,利用场景和物体的几何模型进行组合,然后采用光栅化、光线追踪等传统渲染方法进行视图合成,以提供用户所自定义的视觉体验。随着深度学习和神经网络的发展,越来越多传统图形学中的渲染方法通过结合神经网络产生不错的效果。其中参考文献1通过用多层感知机隐式的表示三维场景,并采用直接体渲染的方法实现了高质量逼真效果的新视角合成。NeRF首次利用五维输入的隐式神经辐射场来表示复杂场景,并结合了可微分的体渲染方法。该方法思路新颖且形式简洁,同时能效果达到惊艳的新视角合成效果。Blender等三维图形图像软件只支持载入三维模型后的任意视角渲染,虽然也可以实现物体插入场景的渲染,但获取三维模型是困难的。因此基于神经辐射场实现一种只依靠二维图片作为输入,将物体插入场景生成任意视角视图的方法是有重要意义和需求的。
目前已有一些相关技术从其他思路来解决此问题,比如:
(1)基于神经辐射场的物体和场景融合的方法:
基于神经辐射场的物体和场景融合根据融合的内容可大致分为两类:融合输入(融合MLP的输入),融合输出(融合颜色和体素密度)。
参考文献2:Control-NeRF是融合输入的典型方法,提出将场景表示和网络分离,学习一个潜在的场景特征表示。网络的输入不再只是三维空间点和视角,还包括空间点对应的特征向量。网络不再是只针对单一场景的表示,改变场景只需改变输入的特征向量,多个场景可以通过不同的特征向量作为输入经过同一个网络得到三维场景的表示(颜色和体素密度)。因此,将物体插入场景,只需要修改输入的特征向量,特征向量为物体和场景对应点特征向量的和,经过网络预测得到融合后的颜色和体素密度。通过修改点的对应关系可以实现物体在场景中的平移旋转。这种方法提高了NeRF的泛化性并能快速实现场景融合,但没有考虑光照的影响,对于光线差距较大的场景和物体,不能生成合理的视觉效果。
参考文献3,Yang等人提出用两个MLP分支分别建模背景和物体的属性,不同的物体通过不同的可学习的编码进行区别,实现从场景中分离单个物体的功能。参考文献4,Sosuk等人也采用两个分支,一个分支预测体素的颜色,一个分支预测语义特征。参考文献5,通过语义特征分支用预训练好的CLIP网络监督训练,分解时计算任意点语义分支输出和CLIP网络输出的相似性可得到该点的属于该语义信息的概率,从而通过语义分离出单个物体。
这类方法由于是对同一个场景中的物体进行编辑,因此不考虑亮度的一致性,也常常忽略融合后阴影的合理性。
(2)基于神经辐射场的逆渲染方法:
逆渲染是指从图像中恢复三维场景的几何、材质和光照。
参考文献6,NeRFactor利用了物体自遮挡的可视信息以及数据驱动的双向反射分布函数(Bidirectional Reflectance Distribution Function,BRDF)先验模型,实现了物体级别的光照和材质分解,以及一定程度上的动态光照和材质编辑效果。然而,该方法假设了物体被基于图像的 HDR 环境光照亮,因此只实现了单个物体的光照和材质分解。且该方法利用物体自遮挡信息,包含了几何不变的约束,对于将物体融入场景,几何发生改变的情况并不适用。
(3)基于神经辐射场的本征图像分解方法:
本征图像分解是指将一幅图像I分解成两个部分:反射率图R和照射图S(或称亮度图或高光图),这两幅分解得到图像就是原图像的本征图像。反射率图反映了物体在无色均匀光照下的颜色和表面材质属性,即物体的本征反射属性。而亮度图则由场景中的各种光照和物体的几何形状构成,反映了场景中各个位置的光照信息。符号化表示为:I=R∙S。
参考文献7,IntrinsicNeRF将本征分解引入到神经辐射场中,实现了在房间场景中的本征分解和的新颖视图合成。具体的,提出了一种距离感知的点采样和自适应反射率迭代聚类优化方法,使具有传统本征分解约束的IntrinsicNeRF能够以无监督的方式进行训练。该方法实现的重光照只实现了在原有光照下的光照增强或减弱的效果,不支持全新光照的重光照效果。
参考文献1: B Mildenhall,PP Srinivasan,M Tancik,JT Barron,RRamamoorthi,N Ren. "NeRF: Representing Scenes as Neural Radiance Fields forView Synthesis." European Conference on Computer Vision,2020.
参考文献2:Verica Lazova, Vladimir Guzov, Kyle Olszewski, SergeyTulyakov, Gerard Pons-Moll. "Control-NeRF:Editable Feature Volumes for SceneRendering and Manipulation." ,2022.
参考文献3:Bangbang Yang, Yinda Zhang, Yinghao Xu, Yijin Li, Han Zhou,Hujun Bao, Guofeng Zhang, Zhaopeng Cui. "Learning Object-Compositional NeuralRadiance Field for Editable Scene Rendering.",International Conference onComputer Vision,2021.
参考文献4:Sosuke Kobayashi, Eiichi Matsumoto, Vincent Sitzmann."Decomposing NeRF for Editing via Feature Field Distillation",Conference andWorkshop on Neural Information Processing Systems,2022.
参考文献5:Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh,Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin,Jack Clark, Gretchen Krueger, Ilya Sutskever."CLIP:Learning TransferableVisual Models From Natural Language Supervision.",In Conference on ComputerVision and Pattern Recognition, 2021.
参考文献6:Xiuming Zhang, Pratul P. Srinivasan, Boyang Deng, PaulDebevec, William T. Freeman, Jonathan T. Barron. "NeRFactor: NeuralFactorization of Shape and Reflectance Under an Unknown Illumination." 2021.
参考文献7:Weicai Ye, Shuo Chen, Chong Bao, Hujun Bao, Marc Pollefeys,Zhaopeng Cui, Guofeng Zhang."IntrinsicNeRF: Learning Intrinsic NeuralRadiance Fields for Editable Novel View Synthesis.”,2022.
发明内容
针对相关技术中的上述技术问题,本发明提出了一种基于神经辐射场的场景物体融合方法,包括如下步骤:
S1,获取一组在固定未知环境光下捕获的场景图片和一组在固定未知环境光下捕获的单个物体图片;
S2,使用基于神经辐射场获取所述场景图片和所述物体图片的反射信息和光照信息;
S3,获取指定物体插入场景的位置,沿场景光线采样后,根据人为指定的场景和物体坐标系的变换关系,将场景点转换得到对应的物体点坐标,将对应点的密度和颜色对应融合;
具体的,所述步骤S3具体为:
S31,采样空间点,场景在此包围盒外的采样点不变,在此包围盒内的光线部分改为采样128个点;
S32,计算场景和物体的光照值、反射率、法向,将场景采样点输入到训练好的场景的网络,得到对应的体素密度、光照值、反射率;将物体采样点输入到训练好的物体的网络,得到对应的体素密度、反射率、法向;
S33,融合场景和物体的对应点渲染得到图片,对应点融合需要分别融合光照值、反射率和密度,融合后的密度为相加后归一化的结果,保证密度始终在0-1之间;融合后的光照值和反射率为加权和,权重为体素粒子的密度;然后通过累积公式得到的光照图和反射图,并合成最终的图片。
具体的,所述步骤S33还包括:
获取人为指定光源视角下生成深度图,空间中任意三维体素粒子的光源可见性可通过比较该粒子在光源视角下的深度是否比光源视角深度更大,如果更大说明该体素粒子前面有遮挡,因此该体素粒子光源可见性为0,需要添加阴影,反之,光源可见性为1,并将光源可见性乘该粒子的光照值得到包含阴影效果的粒子光照值。
具体的,所述步骤S2具体为:使用基于神经辐射场通过图片自监督训练MLP网络获取所述场景图片和所述物体图片的反射信息和光照信息。
具体的,所述步骤S2中,约束物体和场景的反射率图的三通道颜色值的最大值的均值为0.6;并采用两种正则化约束,一为限制反射率图和输入图片的色度一致;二为平滑光照图,使得光照图的亮度差异尽可能小。
第二方面,本发明的另一个实施例公开了一种基于神经辐射场的场景物体融合装置,包括如下单元:
场景图片和物体图片获取单元,用于获取一组在固定未知环境光下捕获的场景图片和一组在固定未知环境光下捕获的单个物体图片;
分解单元,用于使用基于神经辐射场获取所述场景图片和所述物体图片的反射信息和光照信息;
融合单元,用于获取指定物体插入场景的位置,沿场景光线采样后,根据人为指定的场景和物体坐标系的变换关系,将场景点转换得到对应的物体点坐标,将对应点的密度和颜色对应融合。
具体的,所述融合单元还包括:
空间点采样单元,用于采样空间点,场景在此包围盒外的采样点不变,在此包围盒内的光线部分改为采样128个点;
场景和物体信息计算单元,用于计算场景和物体的光照值、反射率、法向,将场景采样点输入到训练好的场景的网络,得到对应的体素密度、光照值、反射率;将物体采样点输入到训练好的物体的网络,得到对应的体素密度、反射率、法向;
融合渲染单元,用于融合场景和物体的对应点渲染得到图片,对应点融合需要分别融合光照值、反射率和密度,融合后的密度为相加后归一化的结果,保证密度始终在0-1之间;融合后的光照值和反射率为加权和,权重为体素粒子的密度;然后通过累积公式得到的光照图和反射图,并合成最终的图片。
具体的,所述融合渲染单元还包括:
获取人为指定光源视角下生成深度图,空间中任意三维体素粒子的光源可见性可通过比较该粒子在光源视角下的深度是否比光源视角深度更大,如果更大说明该体素粒子前面有遮挡,因此该体素粒子光源可见性为0,需要添加阴影,反之,光源可见性为1,并将光源可见性乘该粒子的光照值得到包含阴影效果的粒子光照值。
具体的,所述分解单元具体为:使用基于神经辐射场通过图片自监督训练MLP网络获取所述场景图片和所述物体图片的反射信息和光照信息。
具体的,所述分解单元中,约束物体和场景的反射率图的三通道颜色值的最大值的均值为0.6;并采用两种正则化约束,一为限制反射率图和输入图片的色度一致;二为平滑光照图,使得光照图的亮度差异尽可能小。
本发明的基于神经辐射场的场景物体融合方法,通过结合本征图像分解算法,从神经辐射场中分解出光照图和反射图,表示为场景的材质和光照信息,基于本征图像分解的先验知识,实现在单一静态未知光源下获取的图片的逆渲染分解。进一步的,针对静态场景和静态物体的图片,本发明在基于NeRF获取光照信息和反射率信息时,通过平滑光照图和约束反射率图和原图色度一致实现更准确的分解。进一步的,针对场景和物体尺寸差别较大的情形,本发明结合NeRF采样的特点,使用分段采样的策略,保证在物体所在的地方进行相对稠密的采样,在尽可能减少计算开销的同时,保证物体插入场景后,物体几何细节不丢失。进一步的,为了更真实的视觉效果,增加新光源需要增加阴影效果,增强图片的真实感。本发明将传统光栅化中的阴影贴图的方式引入,只需要提前生成一张光源视角的深度图即可添加阴影效果,避免了沿阴影线上采样点计算光的累计透射率带来的大量计算。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于神经辐射场的场景物体融合方法流程图;
图2是本发明实施例提供的直接融合与替换物体部分光照值的效果示意图;其中(a)为直接融合的示意图;(b)为换物体部分光照值的融合示意图;
图3是本发明实施例提供的一种基于神经辐射场的场景物体融合装置示意图;
图4是本发明实施例提供的一种基于神经辐射场的场景物体融合设备示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参考图1,本实施例提供了一种基于神经辐射场的场景物体融合方法,其包括如下步骤:
S1,获取一组在固定未知环境光下捕获的场景图片和一组在固定未知环境光下捕获的单个物体图片;
S2,使用基于神经辐射场获取所述场景图片和所述物体图片的反射信息和光照信息;
给定一组在固定未知环境光下捕获的场景图片,和另外一组在固定未知环境光下捕获的单个物体图片,研究如何把该物体插入场景中任意指定位置,同时保证场景的光照一致性,进一步的人为可交互的添加光源,渲染得到新光源下的图片,增加阴影效果,最后与原环境光下的图片融合。
本实施的基于神经辐射场的场景物体融合方法主要分为两部分,神经辐射场分解部分(即步骤S2),场景物体融合部分(步骤S3),分解部分为网络训练过程,场景融合部分为网络测试过程。分解部分基于神经辐射场通过图片自监督训练MLP网络,分解得到场景和物体的反射信息和光照信息。融合部分利用训练好的场景和物体的神经辐射场进行融合,生成在场景光照下的物体插入场景的新视角图片。
输入数据为已知位姿的360度拍摄得到的场景图片和物体图片。训练过程中,对具体的一个场景或物体的训练网络,网络输入和NeRF的输入一致,为空间三维点坐标和光线视角。网络的直接输出包括空间点对应的反射率(reflectance),光照值(shading),体素密度(density)。法向由体素密度的梯度值得到。通过累积公式得到法向图,反射率图,光照图。累积公式如下:
Figure SMS_1
其中,x代表被观察空间点的位置,view为其被观察的方向,
Figure SMS_2
为该位置的反射率,/>
Figure SMS_3
代表该点的密度值。反射率图只使用表面点计算得到,即采样光线上权重(不透光率)最大的点。反射率图点乘光照图得到最终的渲染图片。通过对图片进行下采样,存储法向和对应的光照值到文件中,以方便在后续融合过程中替换物体光照值。损失函数为渲染图片和输入图片的MSE损失。我们期望不同场景和物体的反射率表示在同一水平,用来突出不同场景和物体的光照差异,因此采用对齐反射率的方法,使得不同场景和物体的反射率图的亮度均值尽可能保持一致,具体的,约束反射率图的三通道颜色值的最大值的均值为0.6。为了约束得到的反射率图更多的表示物体和场景的颜色信息,光照值更多的表示物体和场景的光照和几何信息,采用两种正则化约束。一为限制反射率图和输入图片的色度一致。二为平滑光照图,使得光照图的亮度差异尽可能小。
S3,获取指定物体插入场景的位置,沿场景光线采样后,根据人为指定的场景和物体坐标系的变换关系,将场景点转换得到对应的物体点坐标,将对应点的密度和颜色对应融合;
融合阶段的目标为,通过人为指定物体插入场景的位置,生成物体插入场景的图片。融合策略大致为:沿场景光线采样后,根据人为指定的场景和物体坐标系的变换关系,将场景点转换得到对应的物体点坐标,将对应点的密度和颜色对应融合。融合的流程分为3步:采样空间点,计算场景和物体的光照值、反射率、法向,融合场景和物体的对应点渲染得到图片。
1) 采样空间点:为了解决的物体细节丢失的问题,采样分段采样的策略。在物体所在的包围盒内稠密采样,采样128个点。即场景在此包围盒外的采样点不变,在此包围盒内的光线部分改为采样128个点。
融合的方法为融合对应点的体素密度和颜色,物体和场景的尺度通常是不一致的,场景的采样最远处通常为足够远的点,而物体的大小通常较小。同时,NeRF的采样策略为先沿光线均匀采样,再根据概率密度分布函数确定精细采样的范围。因此,在均匀采样阶段采样点落在物体所在区域的数量很可能极少,导致精细采样的范围不准确,最终渲染的图片中插入场景的物体细小部分丢失。
因此,本实施例通过采用分段采样的策略,在物体所在的包围盒内增加采样点个数,即保证不过大增加计算数据,也保证物体细节不丢失。
2) 计算场景和物体的光照值、反射率、法向:将场景采样点输入到训练好的场景的网络,得到对应的体素密度、光照值、反射率。同理,将物体采样点输入到训练好的物体的网络,得到对应的体素密度、反射率、法向。
默认只考虑哑光反射部分,因此我们认为在同一场景中,同样的法向对应同样的光照值。因此将物体的采样点的法向转换到场景坐标系,并在存储好的场景的法向-光照文件中查询得到与物体法向相近的前200个法向对应的光照值,并对这些光照值求均值作为物体采样点的光照值。至此,我们得到了场景采样点的体素密度、光照值、反射率,物体采样点的体素密度、光照值、反射率。
3) 融合场景和物体的对应点渲染得到图片:有了场景和物体的三维体素粒子的光照值、反射率和密度,对应点融合需要分别融合光照值、反射率和密度。融合后的密度为相加后归一化的结果,保证密度始终在0-1之间。融合后的光照值和反射率为加权和,权重为体素粒子的密度。然后通过累积公式得到的光照图和反射图,并合成最终的图片。
至此,本实施例实现了如图2所示的物体插入场景的任意视角渲染结果,将目标物体插入新场景后,看起来光影是和谐一致的。对比图2所示的“直接插入”,即不进行任何光照编辑,本实施例达到的增强现实效果更加真实。
为了更真实的视觉效果,本实施例还设计了通过添加光源增加阴影效果,以增强图片的真实感。
阴影产生的原因是光照强度的衰减,即光照强度在空间中不同位置是不同的,用光源可见性表示光照强度的衰减,现有基于NeRF的考虑阴影的算法,通过生成阴影线来计算光的累计透射率来得到光照可见性,但阴影线上点的采样大大增加了计算开销,降低了渲染速度。
本实施例将传统光栅化中的阴影贴图的思想引入本实施例,并使用光源可见性(visibility)表示任意一点是否是直接被光照射的,0表示被遮挡,1表示直接被光照射。在人为指定光源视角下生成深度图,空间中任意三维体素粒子的光源可见性可通过比较该粒子在光源视角下的深度是否比光源视角深度更大,如果更大说明该体素粒子前面有遮挡,因此该体素粒子光源可见性为0,需要添加阴影。反之,光源可见性为1。并将光源可见性乘该粒子的光照值得到包含阴影效果的粒子光照值。然后按照上面融合部分的第三步生成含有阴影效果的融合图片。
本实施例的基于神经辐射场的场景物体融合方法,通过结合本征图像分解算法,从神经辐射场中分解出光照图和反射图,表示为场景的材质和光照信息,基于本征图像分解的先验知识,实现在单一静态未知光源下获取的图片的逆渲染分解。进一步的,针对静态场景和静态物体的图片,本实施例在基于NeRF获取光照信息和反射率信息时,通过平滑光照图和约束反射率图和原图色度一致实现更准确的分解。进一步的,针对场景和物体尺寸差别较大的情形,本实施例结合NeRF采样的特点,使用分段采样的策略,保证在物体所在的地方进行相对稠密的采样,在尽可能减少计算开销的同时,保证物体插入场景后,物体几何细节不丢失。进一步的,为了更真实的视觉效果,增加新光源需要增加阴影效果,增强图片的真实感。本实施例将传统光栅化中的阴影贴图的方式引入,只需要提前生成一张光源视角的深度图即可添加阴影效果,避免了沿阴影线上采样点计算光的累计透射率带来的大量计算。
实施例二
参考图3,本实施例提供了一种基于神经辐射场的场景物体融合装置,其包括如下单元:
场景图片和物体图片获取单元,用于获取一组在固定未知环境光下捕获的场景图片和一组在固定未知环境光下捕获的单个物体图片;
分解单元,用于使用基于神经辐射场获取所述场景图片和所述物体图片的反射信息和光照信息;
给定一组在固定未知环境光下捕获的场景图片,和另外一组在固定未知环境光下捕获的单个物体图片,研究如何把该物体插入场景中任意指定位置,同时保证场景的光照一致性,进一步的人为可交互的添加光源,渲染得到新光源下的图片,增加阴影效果,最后与原环境光下的图片融合。
本实施的基于神经辐射场的场景物体融合方法主要分为两部分,神经辐射场分解部分(即步骤S2),场景物体融合部分(步骤S3),分解部分为网络训练过程,场景融合部分为网络测试过程。分解部分基于神经辐射场通过图片自监督训练MLP网络,分解得到场景和物体的反射信息和光照信息。融合部分利用训练好的场景和物体的神经辐射场进行融合,生成在场景光照下的物体插入场景的新视角图片。
输入数据为已知位姿的360度拍摄得到的场景图片和物体图片。训练过程中,对具体的一个场景或物体的训练网络,网络输入和NeRF的输入一致,为空间三维点坐标和光线视角。网络的直接输出包括空间点对应的反射率(reflectance),光照值(shading),体素密度(density)。法向由体素密度的梯度值得到。通过累积公式得到法向图,反射率图,光照图。累积公式如下:
Figure SMS_4
其中,x代表被观察空间点的位置,view为其被观察的方向,
Figure SMS_5
为该位置的反射率,/>
Figure SMS_6
代表该点的密度值。反射率图只使用表面点计算得到,即采样光线上权重(不透光率)最大的点。反射率图点乘光照图得到最终的渲染图片。通过对图片进行下采样,存储法向和对应的光照值到文件中,以方便在后续融合过程中替换物体光照值。损失函数为渲染图片和输入图片的MSE损失。我们期望不同场景和物体的反射率表示在同一水平,用来突出不同场景和物体的光照差异,因此采用对齐反射率的方法,使得不同场景和物体的反射率图的亮度均值尽可能保持一致,具体的,约束反射率图的三通道颜色值的最大值的均值为0.6。为了约束得到的反射率图更多的表示物体和场景的颜色信息,光照值更多的表示物体和场景的光照和几何信息,采用两种正则化约束。一为限制反射率图和输入图片的色度一致。二为平滑光照图,使得光照图的亮度差异尽可能小。
融合单元,用于获取指定物体插入场景的位置,沿场景光线采样后,根据人为指定的场景和物体坐标系的变换关系,将场景点转换得到对应的物体点坐标,将对应点的密度和颜色对应融合;
融合阶段的目标为,通过人为指定物体插入场景的位置,生成物体插入场景的图片。融合策略大致为:沿场景光线采样后,根据人为指定的场景和物体坐标系的变换关系,将场景点转换得到对应的物体点坐标,将对应点的密度和颜色对应融合。融合的流程分为3步:采样空间点,计算场景和物体的光照值、反射率、法向,融合场景和物体的对应点渲染得到图片。
1) 采样空间点:为了解决的物体细节丢失的问题,采样分段采样的策略。在物体所在的包围盒内稠密采样,采样128个点。即场景在此包围盒外的采样点不变,在此包围盒内的光线部分改为采样128个点。
融合的方法为融合对应点的体素密度和颜色,物体和场景的尺度通常是不一致的,场景的采样最远处通常为足够远的点,而物体的大小通常较小。同时,NeRF的采样策略为先沿光线均匀采样,再根据概率密度分布函数确定精细采样的范围。因此,在均匀采样阶段采样点落在物体所在区域的数量很可能极少,导致精细采样的范围不准确,最终渲染的图片中插入场景的物体细小部分丢失。
因此,本实施例通过采用分段采样的策略,在物体所在的包围盒内增加采样点个数,即保证不过大增加计算数据,也保证物体细节不丢失。
2) 计算场景和物体的光照值、反射率、法向:将场景采样点输入到训练好的场景的网络,得到对应的体素密度、光照值、反射率。同理,将物体采样点输入到训练好的物体的网络,得到对应的体素密度、反射率、法向。
默认只考虑哑光反射部分,因此我们认为在同一场景中,同样的法向对应同样的光照值。因此将物体的采样点的法向转换到场景坐标系,并在存储好的场景的法向-光照文件中查询得到与物体法向相近的前200个法向对应的光照值,并对这些光照值求均值作为物体采样点的光照值。至此,我们得到了场景采样点的体素密度、光照值、反射率,物体采样点的体素密度、光照值、反射率。
3) 融合场景和物体的对应点渲染得到图片:有了场景和物体的三维体素粒子的光照值、反射率和密度,对应点融合需要分别融合光照值、反射率和密度。融合后的密度为相加后归一化的结果,保证密度始终在0-1之间。融合后的光照值和反射率为加权和,权重为体素粒子的密度。然后通过累积公式得到的光照图和反射图,并合成最终的图片。
至此,本实施例实现了如图2所示的物体插入场景的任意视角渲染结果,将目标物体插入新场景后,看起来光影是和谐一致的。对比图2所示的“直接插入”,即不进行任何光照编辑,本实施例达到的增强现实效果更加真实。
为了更真实的视觉效果,本实施例还设计了通过添加光源增加阴影效果,以增强图片的真实感。
阴影产生的原因是光照强度的衰减,即光照强度在空间中不同位置是不同的,用光源可见性表示光照强度的衰减,现有基于NeRF的考虑阴影的算法,通过生成阴影线来计算光的累计透射率来得到光照可见性,但阴影线上点的采样大大增加了计算开销,降低了渲染速度。
本实施例将传统光栅化中的阴影贴图的思想引入本实施例,并使用光源可见性(visibility)表示任意一点是否是直接被光照射的,0表示被遮挡,1表示直接被光照射。在人为指定光源视角下生成深度图,空间中任意三维体素粒子的光源可见性可通过比较该粒子在光源视角下的深度是否比光源视角深度更大,如果更大说明该体素粒子前面有遮挡,因此该体素粒子光源可见性为0,需要添加阴影。反之,光源可见性为1。并将光源可见性乘该粒子的光照值得到包含阴影效果的粒子光照值。然后按照上面融合部分的第三步生成含有阴影效果的融合图片。
本实施例的基于神经辐射场的场景物体融合方法,通过结合本征图像分解算法,从神经辐射场中分解出光照图和反射图,表示为场景的材质和光照信息,基于本征图像分解的先验知识,实现在单一静态未知光源下获取的图片的逆渲染分解。进一步的,针对静态场景和静态物体的图片,本实施例在基于NeRF获取光照信息和反射率信息时,通过平滑光照图和约束反射率图和原图色度一致实现更准确的分解。进一步的,针对场景和物体尺寸差别较大的情形,本实施例结合NeRF采样的特点,使用分段采样的策略,保证在物体所在的地方进行相对稠密的采样,在尽可能减少计算开销的同时,保证物体插入场景后,物体几何细节不丢失。进一步的,为了更真实的视觉效果,增加新光源需要增加阴影效果,增强图片的真实感。本实施例将传统光栅化中的阴影贴图的方式引入,只需要提前生成一张光源视角的深度图即可添加阴影效果,避免了沿阴影线上采样点计算光的累计透射率带来的大量计算。
实施例三
参考图4,图4是本实施例的一种基于神经辐射场的场景物体融合设备的结构示意图。该实施例的基于神经辐射场的场景物体融合设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述方法实施例中的步骤。或者,所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器22中,并由所述处理器21执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述基于神经辐射场的场景物体融合设备20中的执行过程。例如,所述计算机程序可以被分割成实施例二中的各个模块,各模块具体功能请参考上述实施例所述的装置的工作过程,在此不再赘述。
所述基于神经辐射场的场景物体融合设备20可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,所述示意图仅仅是基于神经辐射场的场景物体融合设备20的示例,并不构成对基于神经辐射场的场景物体融合设备20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述基于神经辐射场的场景物体融合设备20还可以包括输入输出设备、网络接入设备、总线等。
所述处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器21是所述基于神经辐射场的场景物体融合设备20的控制中心,利用各种接口和线路连接整个基于神经辐射场的场景物体融合设备20的各个部分。
所述存储器22可用于存储所述计算机程序和/或模块,所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块,以及调用存储在存储器22内的数据,实现所述基于神经辐射场的场景物体融合设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述基于神经辐射场的场景物体融合设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器21执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于神经辐射场的场景物体融合方法,其特征在于:包括如下步骤:
S1,获取一组在固定未知环境光下捕获的场景图片和一组在固定未知环境光下捕获的单个物体图片;
S2,使用基于神经辐射场获取所述场景图片和所述物体图片的反射信息和光照信息;
S3,获取指定物体插入场景的位置,沿场景光线采样后,根据人为指定的场景和物体坐标系的变换关系,将场景点转换得到对应的物体点坐标,将对应点的密度和颜色对应融合;所述将对应点的密度和颜色对应融合具体为:对应点融合需要分别融合光照值、反射率和密度,融合后的密度为相加后归一化的结果;融合后的光照值和反射率为加权和,权重为体素粒子的密度;通过累积公式得到的光照图和反射图;所述累积公式如下:
Figure QLYQS_1
其中,x代表被观察空间点的位置,view为其被观察的方向,
Figure QLYQS_2
为该位置的反射率,
Figure QLYQS_3
代表该点的密度值,shading(x,view)代表在x点处沿着view方向的着色值,dt代表积分单位,near代表近裁剪面,far代表远裁剪面。
2.根据权利要求1所述的方法,其特征在于:所述步骤S3具体为:
S31,采样空间点,场景在包围盒外的采样点不变,在包围盒内的光线部分改为采样128个点;
S32,计算场景和物体的光照值、反射率、法向,将场景采样点输入到训练好的场景的网络,得到对应的体素密度、光照值、反射率;将物体采样点输入到训练好的物体的网络,得到对应的体素密度、反射率、法向;
S33,融合场景和物体的对应点渲染得到图片,对应点融合需要分别融合光照值、反射率和密度,融合后的密度为相加后归一化的结果,保证密度始终在0-1之间;融合后的光照值和反射率为加权和,权重为体素粒子的密度;然后通过累积公式得到的光照图和反射图,并合成最终的图片。
3.根据权利要求2所述的方法,其特征在于:所述步骤S33还包括:
获取人为指定光源视角下生成深度图,空间中任意三维体素粒子的光源可见性可通过比较该粒子在光源视角下的深度是否比光源视角深度更大,如果更大说明该体素粒子前面有遮挡,因此该体素粒子光源可见性为0,需要添加阴影,反之,光源可见性为1,并将光源可见性乘该粒子的光照值得到包含阴影效果的粒子光照值。
4.根据权利要求1所述的方法,其特征在于:所述步骤S2具体为:使用基于神经辐射场通过图片自监督训练MLP网络获取所述场景图片和所述物体图片的反射信息和光照信息。
5.根据权利要求4所述的方法,其特征在于:所述步骤S2中,约束物体和场景的反射率图的三通道颜色值的最大值的均值为0.6;并采用两种正则化约束,一为限制反射率图和输入图片的色度一致;二为平滑光照图,使得光照图的亮度差异尽可能小。
6.一种基于神经辐射场的场景物体融合装置,其特征在于:包括如下单元:
场景图片和物体图片获取单元,用于获取一组在固定未知环境光下捕获的场景图片和一组在固定未知环境光下捕获的单个物体图片;
分解单元,用于使用基于神经辐射场获取所述场景图片和所述物体图片的反射信息和光照信息;
融合单元,用于获取指定物体插入场景的位置,沿场景光线采样后,根据人为指定的场景和物体坐标系的变换关系,将场景点转换得到对应的物体点坐标,将对应点的密度和颜色对应融合;所述将对应点的密度和颜色对应融合具体为:对应点融合需要分别融合光照值、反射率和密度,融合后的密度为相加后归一化的结果;融合后的光照值和反射率为加权和,权重为体素粒子的密度;通过累积公式得到的光照图和反射图;所述累积公式如下:
Figure QLYQS_4
其中,x代表被观察空间点的位置,view为其被观察的方向,
Figure QLYQS_5
为该位置的反射率,
Figure QLYQS_6
代表该点的密度值,shading(x,view)代表在x点处沿着view方向的着色值,dt代表积分单位,near代表近裁剪面,far代表远裁剪面。
7.根据权利要求6所述的装置,其特征在于:所述融合单元还包括:
空间点采样单元,用于采样空间点,场景在包围盒外的采样点不变,在包围盒内的光线部分改为采样128个点;
场景和物体信息计算单元,用于计算场景和物体的光照值、反射率、法向,将场景采样点输入到训练好的场景的网络,得到对应的体素密度、光照值、反射率;将物体采样点输入到训练好的物体的网络,得到对应的体素密度、反射率、法向;
融合渲染单元,用于融合场景和物体的对应点渲染得到图片,对应点融合需要分别融合光照值、反射率和密度,融合后的密度为相加后归一化的结果,保证密度始终在0-1之间;融合后的光照值和反射率为加权和,权重为体素粒子的密度;然后通过累积公式得到的光照图和反射图,并合成最终的图片。
8.根据权利要求7所述的装置,其特征在于:所述融合渲染单元还包括:
获取人为指定光源视角下生成深度图,空间中任意三维体素粒子的光源可见性可通过比较该粒子在光源视角下的深度是否比光源视角深度更大,如果更大说明该体素粒子前面有遮挡,因此该体素粒子光源可见性为0,需要添加阴影,反之,光源可见性为1,并将光源可见性乘该粒子的光照值得到包含阴影效果的粒子光照值。
9.根据权利要求6所述的装置,其特征在于:所述分解单元具体为:使用基于神经辐射场通过图片自监督训练MLP网络获取所述场景图片和所述物体图片的反射信息和光照信息。
10.根据权利要求9所述的装置,其特征在于:所述分解单元中,约束物体和场景的反射率图的三通道颜色值的最大值的均值为0.6;并采用两种正则化约束,一为限制反射率图和输入图片的色度一致;二为平滑光照图,使得光照图的亮度差异尽可能小。
CN202310413920.5A 2023-04-18 2023-04-18 一种基于神经辐射场的场景物体融合方法及装置 Active CN116129030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310413920.5A CN116129030B (zh) 2023-04-18 2023-04-18 一种基于神经辐射场的场景物体融合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310413920.5A CN116129030B (zh) 2023-04-18 2023-04-18 一种基于神经辐射场的场景物体融合方法及装置

Publications (2)

Publication Number Publication Date
CN116129030A CN116129030A (zh) 2023-05-16
CN116129030B true CN116129030B (zh) 2023-07-04

Family

ID=86299508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310413920.5A Active CN116129030B (zh) 2023-04-18 2023-04-18 一种基于神经辐射场的场景物体融合方法及装置

Country Status (1)

Country Link
CN (1) CN116129030B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953476A (zh) * 2022-12-15 2023-04-11 南京邮电大学 基于可泛化神经辐射场的人体自由视角合成方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022026692A1 (en) * 2020-07-31 2022-02-03 Google Llc View synthesis robust to unconstrained image data
EP4244819A1 (en) * 2020-11-16 2023-09-20 Google LLC Deformable neural radiance fields
US20220239844A1 (en) * 2021-01-27 2022-07-28 Facebook Technologies, Llc Neural 3D Video Synthesis
CN113706714B (zh) * 2021-09-03 2024-01-05 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法
CN114119839B (zh) * 2022-01-24 2022-07-01 阿里巴巴(中国)有限公司 三维模型重建与图像生成方法、设备以及存储介质
CN114119849B (zh) * 2022-01-24 2022-06-24 阿里巴巴(中国)有限公司 三维场景渲染方法、设备以及存储介质
CN115115688B (zh) * 2022-05-31 2023-05-02 荣耀终端有限公司 一种图像处理方法及电子设备
CN115512036A (zh) * 2022-09-28 2022-12-23 浙江大学 一种基于本征神经辐射场的可编辑新颖视图合成方法
CN115661320B (zh) * 2022-11-28 2023-07-25 荣耀终端有限公司 图像处理方法及电子设备
CN115731340B (zh) * 2022-12-09 2024-06-04 上海人工智能创新中心 基于网格表征的神经辐射场的训练方法及图像渲染方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953476A (zh) * 2022-12-15 2023-04-11 南京邮电大学 基于可泛化神经辐射场的人体自由视角合成方法

Also Published As

Publication number Publication date
CN116129030A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
Rudnev et al. Nerf for outdoor scene relighting
Bi et al. Deep reflectance volumes: Relightable reconstructions from multi-view photometric images
Kopanas et al. Point‐Based Neural Rendering with Per‐View Optimization
Tremblay et al. Rain rendering for evaluating and improving robustness to bad weather
Kuang et al. Neroic: Neural rendering of objects from online image collections
Rematas et al. Novel views of objects from a single image
Zollmann et al. Image-based ghostings for single layer occlusions in augmented reality
Li et al. Physically-based editing of indoor scene lighting from a single image
US11887256B2 (en) Deferred neural rendering for view extrapolation
Einabadi et al. Deep neural models for illumination estimation and relighting: A survey
Wei et al. Object-based illumination estimation with rendering-aware neural networks
CN116958492A (zh) 一种基于NeRf重建三维底座场景渲染的VR编辑应用
CN117557714A (zh) 三维重建方法、电子设备及可读存储介质
CN116416376A (zh) 一种三维头发的重建方法、系统、电子设备及存储介质
Zhu et al. Learning-based inverse rendering of complex indoor scenes with differentiable monte carlo raytracing
Tojo et al. Recolorable Posterization of Volumetric Radiance Fields Using Visibility‐Weighted Palette Extraction
Wang et al. Neural opacity point cloud
CN116129030B (zh) 一种基于神经辐射场的场景物体融合方法及装置
US20240161362A1 (en) Target-augmented material maps
US20240037829A1 (en) Computing images of controllable dynamic scenes
Liu et al. Fog effect for photography using stereo vision
Jeong et al. Real-time dynamic bokeh rendering with efficient look-up table sampling
WO2011069285A1 (en) Concave surface modeling in image-based visual hull
Luo et al. Controllable motion-blur effects in still images
Schwandt et al. Environment estimation for glossy reflections in mixed reality applications using a neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant