CN116543086A - 神经辐射场处理方法、装置及电子设备 - Google Patents

神经辐射场处理方法、装置及电子设备 Download PDF

Info

Publication number
CN116543086A
CN116543086A CN202310504302.1A CN202310504302A CN116543086A CN 116543086 A CN116543086 A CN 116543086A CN 202310504302 A CN202310504302 A CN 202310504302A CN 116543086 A CN116543086 A CN 116543086A
Authority
CN
China
Prior art keywords
radiation field
training
target
style
nerve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310504302.1A
Other languages
English (en)
Inventor
李凌志
徐诗瑶
申丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202310504302.1A priority Critical patent/CN116543086A/zh
Publication of CN116543086A publication Critical patent/CN116543086A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Generation (AREA)

Abstract

本申请公开了一种神经辐射场处理方法、装置及电子设备。其中,该方法包括:获取预训练神经辐射场;获取风格图像,其中,风格图像具有预定风格;在预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场,其中,目标神经辐射场中包括对初始变型模块进行训练后得到的目标变型模块,目标变型模块学习有风格图像的几何特征。本申请解决了相关技术中对三维场景进行风格化后,存在风格化结果的质量不高的技术问题。

Description

神经辐射场处理方法、装置及电子设备
技术领域
本申请涉及数据处理领域,具体而言,涉及一种神经辐射场处理方法、装置及电子设备。
背景技术
在相关技术中,图像风格化的研究取得了较大成功,并催生了许多流行的风格化应用。随着三维场景生成技术的发展,三维场景的风格化自然引起了关注。风格迁移可看作是一种图像生成任务,这些生成图像同时匹配输入图像的语义内容和给定风格图的艺术特征。
目前的三维场景风格化主要将图像风格迁移任务与不同的三维场景表示结合。在进行三维场景风格化时,一个直接的想法是结合现有的新视角合成和图像/视频风格转换方法,通常对不同视角的物体逐帧进行风格化。然而在相关技术中,对三维场景进行风格化时,所采用的方法一般是,基于点云对三维场景进行风格化,采用网格的表达方式进行风格化。然而,这些工作的风格化结果往往受限与使用的三维场景表达的限制,无法产生高质量风格化结果。
因此,在相关技术中,对三维场景进行风格化后,存在风格化结果的质量不高的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种神经辐射场处理方法、装置及电子设备,以至少解决相关技术中对三维场景进行风格化后,存在风格化结果的质量不高的技术问题。
根据本申请实施例的一个方面,提供了一种神经辐射场处理方法,包括:获取预训练神经辐射场;获取风格图像,其中,所述风格图像具有预定风格;在所述预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;基于所述风格图像,对所述初始神经辐射场进行训练,得到目标神经辐射场,其中,所述目标神经辐射场中包括对所述初始变型模块进行训练后得到的目标变型模块,所述目标变型模块学习有所述风格图像的几何特征。
可选地,所述基于所述风格图像,对所述初始神经辐射场进行训练,得到目标神经辐射场,包括:确定用于对所述初始神经辐射场进行训练的多个视角;采用对所述多个视角中的一个视角进行一次训练的方式,基于所述风格图像以及所述多个视角分别对应的投射区域,对所述初始神经辐射场迭代对应的多次训练,得到所述目标神经辐射场。
可选地,所述采用对所述多个视角中的一个视角进行一次训练的方式,包括:确定所述多个视角中的一个视角为目标视角,在基于所述目标视角进行的训练为本次训练,本次训练前的迭代结果为前一迭代结果;所述目标视角对应的投射区域为目标区域;获取所述目标区域上所投射的光线对应的第一数量的采样点;从所述第一数量的采样点中选取第二数量的采样点,其中,所述第二数量小于第一数量;采用选取的所述第二数量的采样点,基于所述风格图像对所述前一迭代结果进行所述本次训练,得到所述本次训练的迭代结果。
可选地,所述从所述第一数量的采样点中选取第二数量的采样点,包括:对所述目标区域上所包括的所述第一数量的采样点按照阵列的方式进行排列,得到光线阵列;从所述光线阵列中选择所述第二数量的采样点。
可选地,所述从所述光线阵列中选择所述第二数量的采样点,包括以下至少之一:按照等距地每第三数量的采样点中选择一个代表点的方式,得到所述第二数量的采样点;从所述光线阵列中选择样点分块,确定所述样点分块所包括的采样点为所述第二数量的采样点;从所述光线阵列中随机选择所述第二数量的采样点。
可选地,所述采用选取的所述第二数量的采样点,基于所述风格图像对所述前一迭代结果进行所述本次训练,得到所述本次训练的迭代结果,包括:所述前一迭代结果包括前一迭代变型模块和前一迭代神经辐射场,获取所述第二数量的采样点的坐标;采用所述前一迭代变型模块对所述第二数量的采样点的坐标进行调整,得到调整后的坐标;基于调整后的坐标,采用所述前一迭代神经辐射场对所述第二数量的采样点进行渲染,得到渲染图像;确定所述渲染图像相对于所述风格图像的风格损失;基于所述风格损失,对所述前一迭代变型模块和所述前一迭代神经辐射场进行调整,得到所述本次训练的迭代结果。
可选地,所述确定所述渲染图像相对于所述风格图像的风格损失,包括:对所述渲染图像进行模糊上采样处理,得到处理后的图像;确定所述处理后的图像与所述风格图像之间的损失为所述风格损失。
可选地,在所述基于所述风格图像,对所述初始神经辐射场进行训练,得到目标神经辐射场之后,还包括:确定渲染视角;基于所述渲染视角,对所述目标神经辐射场进行光线投射以及体渲染,得到在所述渲染视角下的风格渲染图像。
根据本申请实施例的另一个方面,提供了一种神经辐射场处理方法,包括:响应作用于操作界面上的第一指令,在所述操作界面上显示预训练神经辐射场;响应作用于所述操作界面上的第二指令,在所述操作界面上显示风格图像;响应作用于所述操作界面上的第三指令,在所述操作界面上显示目标神经辐射场,其中,所述目标神经辐射场基于所述风格图像,对初始神经辐射场进行训练得到,所述初始神经辐射场包括初始变型模块和预训练神经辐射场,所述目标神经辐射场包括目标变型模块,所述目标变型模块由对所述初始变型模块进行训练得到,所述目标变型模块学习有所述风格图像的几何特征;响应作用于所述操作界面上的第四指令,在所述操作界面上显示所述目标神经辐射场在目标视角下的渲染图像。
根据本申请实施例的另一个方面,提供了一种神经辐射场处理方法,包括:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标神经辐射场,其中,所述目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,所述初始神经辐射场包括初始变型模块和预训练神经辐射场,所述目标神经辐射场包括目标变型模块,所述目标变型模块由对所述初始变型模块进行训练得到,所述目标变型模块学习有所述风格图像的几何特征;确定目标视角;驱动所述VR设备或所述AR设备展示所述目标神经辐射场在所述目标视角下的渲染图像。
根据本申请实施例的还一个方面,提供了一种神经辐射场处理装置,包括:第一获取模块,用于获取预训练神经辐射场;第二获取模块,用于获取风格图像,其中,所述风格图像具有预定风格;构建模块,用于在所述预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;训练模块,用于基于所述风格图像,对所述初始神经辐射场进行训练,得到目标神经辐射场,其中,所述目标神经辐射场中包括对所述初始变型模块进行训练后得到的目标变型模块,所述目标变型模块学习有所述风格图像的几何特征。
根据本申请实施例的再一个方面,提供了一种电子设备,包括:存储器,存储有可执行程序;处理器,用于运行所述程序,其中,所述程序运行时执行上述任意一项所述的神经辐射场处理方法。
根据本申请实施例的又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的可执行程序,其中,在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求上述任意一项所述的神经辐射场处理方法。
在本申请实施例中,采用在所述预训练神经辐射场上构建初始变型模块的方式,通过基于风格图像对初始变型模块进行训练,得到目标变型模块,达到了目标变型模块学习到风格图像的几何特征的目的,从而实现了使得神经辐射场不仅具备表示场景的颜色,纹理等特征,还可以表示更体现风格的几何特征,有效提高了神经辐射场的风格化结果的质量的技术效果,进而解决了相关技术中对三维场景进行风格化后,存在风格化结果的质量不高的技术问题。
容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种神经辐射场处理方法的虚拟现实设备的硬件环境的示意图;
图2是根据本申请实施例的一种神经辐射场处理方法的计算环境的结构框图;
图3是根据本申请实施例1的神经辐射场处理方法的流程图;
图4是根据本发明实施例中所提供的神经辐射场的风格迁移算法的示意图;
图5是根据本发明实施例中所提供的神经辐射场的风格迁移算法中扩展采样的示意图;
图6是根据本发明实施例中所提供的神经辐射场的风格迁移算法中的结果展示图;
图7是根据本申请实施例2的神经辐射场处理方法的流程图;
图8是根据本申请实施例3的神经辐射场处理方法的流程图;
图9是根据本发明实施例提供的神经辐射场处理装置的结构框图;
图10是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
辐射场(Radiance Field),描述了光的传播行为。在三维空间中,对于任意一条光线(即起点和方向),场景中的每个点都可以计算出该光线在该点的辐射度。对于每个点,辐射场可以用一个颜色值和一个辐射度值来表示。颜色值指的是该点的表面颜色,而辐射度值指的是该点在光照下的明暗程度。通过在整个三维场景中计算光线的辐射度,可以生成高质量的渲染图像。
神经辐射场(Neural Radiance Fields,简称NeRF),是一种计算机视觉技术,用于生成高质量的三维重建模型。它利用深度学习技术从多个视角的图像中提取出对象的几何形状和纹理信息,然后使用这些信息生成一个连续的三维辐射场,从而可以在任意角度和距离下呈现出高度逼真的三维模型。NeRF技术在计算机图形学、虚拟现实、增强现实等领域有着广泛的应用前景。
辐射场的概念被扩展为在三维空间中对于任意一条光线,计算场景中的每个点在该光线方向上的颜色和密度。因此,NeRF的辐射场可以用来表示三维场景中的物体表面颜色和密度信息。利用这些信息,可以在任意角度和距离下呈现出高度逼真的三维模型。
多层感知机(Multilayer Perceptron,简称MLP),是一种前馈神经网络(Feedforward Neural Network)结构。它由多个全连接的神经元层组成,每层的神经元与上一层的所有神经元相连。主要思想是通过非线性映射将输入数据映射到高维空间中,并通过多层的非线性变换,将这些映射结果组合成输出。
点的密度,在计算机图形学中,点的密度通常指的是在一个给定的区域内,所包含的点的数量。例如,如果有一个场景,需要对其进行渲染,可以将场景分成多个小区域,并计算每个区域内的点的密度。如果一个区域内的点的密度较高,说明在该区域内有更多的几何细节,需要更高的采样率来捕捉细节;相反,如果一个区域内的点的密度较低,说明在该区域内的几何结构相对简单,需要较低的采样率来捕捉几何信息。
体积渲染(Volume Rendering),或称为体渲染,是一种将3D数据(例如医学图像、CT扫描、地质勘探数据等)转换成可视化图像的技术。在3D数据中,每个像素不仅包含颜色信息,还包含了各种物理量信息,如密度、温度、速度等。体积渲染技术可以将这些物理量信息可视化出来,使得人们可以更好地理解和分析3D数据。
体积纹理(Volume texture),是指一种将三维图像数据储存在三维纹理(3Dtexture)中的技术,可以实现在三维空间中对体积数据进行快速渲染和操作。
渲染方程,在NeRF的训练阶段,模型需要学习到每个场景中每个点的颜色和透明度。为了实现这个目标,NeRF引入了渲染方程(Rendering Equation),用于描述从相机到场景中某个点的光线经过的路径上所有光线与物体之间相互作用的物理规律。
渲染方程是计算机图形学中的一个重要概念,它描述了光线从相机出发穿过场景中各种材质的路径,最终到达像素的过程,并计算出该像素的颜色值。渲染方程通常表示为一个积分方程,其中包含场景中的各种光线传播和交互的物理过程。
实施例1
根据本申请实施例,提供了一种神经辐射场处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种神经辐射场处理方法的虚拟现实设备的硬件环境的示意图。如图1所示,虚拟现实设备104与终端106相连接,终端106与服务器102通过网络进行连接,上述虚拟现实设备104并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端106并不限定于PC、手机、平板电脑等,服务器102可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
可选地,该实施例的虚拟现实设备104包括:存储器、处理器和传输装置。存储器用于存储应用程序,该应用程序可以用于执行:获取预训练神经辐射场;获取风格图像,其中,风格图像具有预定风格;在预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场,其中,目标神经辐射场中包括对初始变型模块进行训练后得到的目标变型模块,目标变型模块学习有风格图像的几何特征,从而解决了相关技术中对三维场景进行风格化后,存在风格化结果的质量不高的技术问题,达到了使得神经辐射场不仅具备表示场景的颜色,纹理等特征,还可以表示更体现风格的几何特征,有效提高了神经辐射场的风格化结果的质量的目的。
该实施例的终端可以用于执行在虚拟现实(Virtual Reality,简称为VR)设备或增强现实(Augmented Reality,简称为AR)设备的呈现画面上展示目标神经辐射场,其中,目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,初始神经辐射场包括初始变型模块和预训练神经辐射场,目标神经辐射场包括目标变型模块,目标变型模块由对初始变型模块进行训练得到,目标变型模块学习有风格图像的几何特征;并向虚拟现实设备104发送确定的目标视角,虚拟现实设备104在接收到确定的目标视角之后在目标投放位置将目标神经辐射场在目标视角下的渲染图像显示出来。
可选地,该实施例的虚拟现实设备104带有的眼球追踪的HMD(Head MountDisplay,头戴式显示器)头显与眼球追踪模块与上述实施例中的作用相同,也即,HMD头显中的屏幕,用于显示实时的画面,HMD中的眼球追踪模块,用于获取用户眼球的实时运动轨迹。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向。
图1示出的硬件结构框图,不仅可以作为上述AR/VR设备(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,一种可选实施例中,图2以框图示出了使用上述图1所示的AR/VR设备(或移动设备)作为计算环境201中计算节点的一种实施例。图2是根据本申请实施例的一种神经辐射场处理方法的计算环境的结构框图,如图2所示,计算环境201包括运行在分布式网络上的多个(图中采用210-1,210-2,…,来示出)计算节点(如服务器)。不同计算节点都包含本地处理和内存资源,终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境201中的多个服务220-1,220-2,220-3和220-4进行提供,分别代表服务“A”,“D”,“E”和“H”。
终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务,在一些实施例中,可以将终端用户202的供应和/或请求提供给入口网关230。入口网关230可以包括一个相应的代理来处理针对服务(计算环境201中提供的一个或多个服务)的供应和/或请求。
服务是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中,可以根据基于虚拟机(Virtual Machine,VM)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机,在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时,根据基于容器的虚拟化,可以启动容器来虚拟化整个操作系统(Operating System,OS),以便多个工作负载可以在单个操作系统实例上运行。
在基于容器虚拟化的一个实施例中,服务的若干容器可以被组装成一个Pod(例如,KubernetesPod)。举例来说,如图2所示,服务220-2可以配备一个或多个Pod 240-1,240-2,…,240-N(统称为Pod)。Pod可以包括代理245和一个或多个容器242-1,242-2,…,242-M(统称为容器)。Pod中一个或多个容器处理与服务的一个或多个相应功能相关的请求,代理245通常控制与服务相关的网络功能,如路由、负载均衡等。其他服务也可以为类似于Pod的Pod。
在操作过程中,执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务,执行一个服务的一个或多个功能需要调用另一个服务的一个或多个功能。如图2所示,服务“A”220-1从入口网关230接收终端用户202的用户请求,服务“A”220-1可以调用服务“D”220-2,服务“D”220-2可以请求服务“E”220-3执行一个或多个功能。
上述的计算环境可以是云计算环境,资源的分配由云服务提供上管理,允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能,而不是扩展单个硬件设备来处理潜在的负载。
在上述运行环境下,本申请提供了如图3所示的神经辐射场处理方法。需要说明的是,该实施例的神经辐射场处理方法可以由图1所示实施例的移动终端执行。图3是根据本申请实施例1的神经辐射场处理方法的流程图。如图3所示,该方法可以包括如下步骤:
步骤S302,获取预训练神经辐射场;
作为一种可选的实施例,在获取预训练神经辐射场时,可以基于多张真实场景照片来训练得到。例如,输入数十张真实场景的照片,通过预定的训练方法(例如,DirectVoxGo等方法)使用真实照片预训练一个神经辐射场,得到预训练神经辐射场。
在本发明实施例中,在进行三维场景风格化时,选择对真实场景重构出的神经辐射场(即预训练神经辐射场)进行风格化。在基于神经辐射场进行真实场景重建时,神经辐射场通过学习一个连续映射函数,建立从三维坐标与观测方向到体密度和颜色的连续映射关系,从而生成新视角图像。为了渲染给定相机姿势的图像,通过像素的相机射线的预期颜色是通过沿光线采样一组点并将它们的颜色积分以近似体渲染积分来估计的对应像素值从而渲染出图像。
步骤S304,获取风格图像,其中,风格图像具有预定风格;
作为一种可选的实施例,上述风格图像具有预定风格,该预定风格是需要迁移到预训练神经辐射场,即该预训练神经辐射场需要学习到的目标风格。另外,该预定风格可以是艺术性的,也可以是非艺术性的。例如,该预定风格是艺术性风格时,大胆扭曲的人脸曾被视为有名艺术作品《呐喊》的主要标志,即大胆扭曲的人脸对应的几何特征即是该作品图像的风格,可以基于该风格对预训练神经辐射场进行训练,使得该预训练神经辐射场学习到该风格。
步骤S306,在预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;
作为一种可选的实施例,在对上述预训练神经辐射场进行风格化时,可以先将变型模块引入该预训练神经辐射场。变型模块通过学习光线的坐标偏移量从而改变场景的几何形状,学习到参考的风格图像的几何特征。
在本发明实施例中,为了学习风格图像中的几何特征,即为了将几何特征从风格图像转移到基于预训练神经辐射场表示的目标三维场景,引入了一个变型模块来学习光线采样渲染时采样点的坐标偏移。变型模块的结构设计参考相关技术中动态场景重建与神经辐射场编辑任务时提出的变形网络的设计思想。
在本发明实施例中,该变型模块可以对光线上采样的点进行操作。该变型模块可以参考传统神经辐射场的设计,比如,由3层多层感知机(Multilayer Perceptron,简称MLP)组成。给定一个三维坐标点,变型模块学习在这条射线上采样的每个点的几何坐标变化,然后将坐标变化与输入坐标相加作为输出用于后续的纹理计算。
步骤S308,基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场,其中,目标神经辐射场中包括对初始变型模块进行训练后得到的目标变型模块,目标变型模块学习有风格图像的几何特征。
作为一种可选的实施例,通过学习光线上采样点的坐标偏移量,提出的变型模块在光线传播时可以调整每个样本点位置来修改全局几何流形。在本发明实施例中,提出的可变性风格化神经辐射场通过光线失真扭曲的约束和在渲染图像执行的风格迁移相关损失来训练网络。同时,输入风格图的几何特征是通过整体的训练过程学习的。
作为一种可选的实施例,基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场时,可以采用多种实现方式,例如,可以采用以下方式:先确定用于对初始神经辐射场进行训练的多个视角;采用对多个视角中的一个视角进行一次训练的方式,基于风格图像以及多个视角分别对应的投射区域,对初始神经辐射场迭代对应的多次训练,得到目标神经辐射场。基于多视角的训练,能够使得三维场景全面地获取到风格图像的几何特征,使得训练得到的目标神经辐射场较为精细地学习到风格图像中的风格。
作为一种可选的实施例,采用对多个视角中的一个视角进行一次训练的方式时,可以采用以下方式:确定多个视角中的一个视角为目标视角,在基于目标视角进行的训练为本次训练,本次训练前的迭代结果为前一迭代结果;目标视角对应的投射区域为目标区域;获取目标区域上所投射的光线对应的第一数量的采样点;从第一数量的采样点中选取第二数量的采样点,其中,第二数量小于第一数量;采用选取的第二数量的采样点,基于风格图像对前一迭代结果进行本次训练,得到本次训练的迭代结果。
在进行训练的过程中,风格损失的计算需要在整个图像上操作,因此需要渲染出整个图像,即W×H整个图像大小的光线矩阵。神经辐射场的体渲染过程在进行前向传播的时候需要迭代N×W×H次,使得风格化训练过程的内存开销和预计的时间开销难以接受。鉴于此,在本发明实施例中,提供了神经辐射场在重建与风格化过程时光线采样与梯度更新的过程。例如,为了减轻内存开销,一个直观的想法是尽量减少总的需要渲染的光线数量。在进行真实场景三维重建时,神经辐射场需要尽可能多的采样点与光线,来计算像素值,以渲染具有更多细节的图像。然而在风格化时,风格化的结果经常有重复的纹理,保留了一些比较低频的细节但更像输入的风格特征。因此,假设:在更新风格化神经辐射场时,网络的更新约束不需要同真实场景重建那么多的光线和采样点。因此,从信号采样原理和快速优化神经辐射场的思路出发,基于光线数量与不同光线采样方法对更新风格化神经辐射场的影响,提出了扩张采样。
在优化风格化的神经辐射场(预训练神经辐射场)时,由于风格化损失的局限性,即需要在整幅图像进行计算,一般是需要将整幅图像完整渲染。然而,一般所采用的训练策略都需要同时对所有光线进行多次前向和后向传播更新、计算梯度、损失等。因此,在本发明实施例中,提出了只采样部分光线对风格化网络进行更新的思想。注意此处提出的光线采样可以不是神经辐射场在前向传播时的光线选择过程,可以是梯度反向传播过程时,被选择的用来计算梯度和更新损失的光线。在进行真实场景的神经辐射场的三维渲染时,渲染过程可以看作是利用某个视图下的渲染图像来计算损失函数和梯度来更新整个神经辐射场,使用某个视角下来更新整个三维场景的过程可以看作是使用了总体光线的一部分来更新整个辐射场。简易且直观的想法是光线越多,重建出的图像细节越好。而对于风格化场景,由于抽象的、风格化的和局部重复的纹理的出现,在进行风格化渲染时为了获取渲染速度的提升,因此,认为在此过程中不需要那么多的光线即可进行风格化训练。采用上述“降采样”的光线集合代表整张图像的光线采样思想。根据只选择和更新部分光线的策略训练,可以只赋予选中光线的梯度用于更新整个网络而剩余的光线梯度将被屏蔽因而无需计算,这样做可以大大节省网络的计算开销,减少网络需要计算的光线数量从而节约计算空间降低计算时间。选中部分的梯度将被平均到整个网络以实现全部网络的更新。
在使用少部分光线就可更新整个风格化神经辐射场时,可以先确定如何选择部分光线的采样策略。作为一种可选的实施例,从第一数量的采样点中选取第二数量的采样点,可以采用以下处理:对目标区域上所包括的第一数量的采样点按照阵列的方式进行排列,得到光线阵列;从光线阵列中选择第二数量的采样点。
在本发明实施例中,从光线阵列中选择第二数量的采样点时,也可以采用多种处理方式,例如,可以采用以下处理方式至少之一:扩张采样:按照等距地每第三数量的采样点中选择一个代表点的方式,得到第二数量的采样点;分块采样:从光线阵列中选择样点分块,确定样点分块所包括的采样点为第二数量的采样点;随机采样:从光线阵列中随机选择第二数量的采样点。
下面对上述三种采样方式分别展开说明。
对于H×W光线的大小,扩张采样为:随机、均匀地为沿着整个光线阵列等距地按照每Nc个光线选择一个作为代表赋予梯度,在此过程会得到H×W/Nc2条带有梯度的光线而剩下的光线都将被屏蔽掉。之后用选中的梯度更新整个网络,整体过程可以看作是将小部分扩散到整体的平均过程,Nc在此是一个超参数。
分块采样为:从整体光线数组中随机选择一个大小为H×W/Nc2的块赋予梯度并参与计算。
随机采样为:从总体涉嫌中随机选择对应数量的光线进行计算。
对比上述三种采样方式,与降采样想法类似,容易想到扩张采样的效果较佳。
作为一种可选的实施例,采用选取的第二数量的采样点,基于风格图像对前一迭代结果进行本次训练,得到本次训练的迭代结果,包括:前一迭代结果包括前一迭代变型模块和前一迭代神经辐射场,获取第二数量的采样点的坐标;采用前一迭代变型模块对第二数量的采样点的坐标进行调整,得到调整后的坐标;基于调整后的坐标,采用前一迭代神经辐射场对第二数量的采样点进行渲染,得到渲染图像;确定渲染图像相对于风格图像的风格损失;基于风格损失,对前一迭代变型模块和前一迭代神经辐射场进行调整,得到本次训练的迭代结果。
为避免采用上述扩张采样所带来的几何特征的噪声,确定渲染图像相对于风格图像的风格损失,包括:对渲染图像进行模糊上采样处理,得到处理后的图像;确定处理后的图像与风格图像之间的损失为风格损失。
在本发明实施例中,目标神经辐射场的训练过程也从真实场景的重建开始。使用预训练的神经辐射场作为基础的神经辐射场。之后,引入变型模块到预训练神经辐射场中。欲学习风格图的几何特征,在针对真实场景重建时需要完成变型模块的初始化过程。在进行变型模块的初始化时,只需在所有训练视图中随机选择光线即可。
在接下来的风格化过程中,采用扩展采样进行网络优化与损失函数的计算。在训练时将被选中的光线取出,赋予梯度后被放回整张图像中,使用完整的图像计算损失函数等,然后将选中光线的梯度平均到整个光线阵列中用于更新整个图像与风格化辐射场。
当被选中的光线梯度反向传播时,如果扩张系数很小,意味着它会向后传播很多数量的射线,这时会超出内存的承受。在这时可以将分批传播选中的扩展光线,如相关技术中在处理所有光线时选择的分批处理那样。
在更新网络时,可以将变型模块和预训练神经辐射场网络视为一个整体,整体使用风格化损失Lsty+内容损失Lcon来鼓励网络学习几何风格变形。同时添加了针对变形的正则化项Ldx来防止风格化后的场景几何形状过度变化,以及促进平滑变形的Ltv损失。网络总体损失函数如下:Ltotal=λstyLsty+λconLcon+λdxLdx+λtvLtv。
作为一种可选的实施例,在基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场之后,还包括:确定渲染视角;基于渲染视角,对目标神经辐射场进行光线投射以及体渲染,得到在渲染视角下的风格渲染图像。因此,在得到目标神经辐射场之后,可以基于需求选择需要的视角,获得该视角下的风格渲染图像。需要的视角可以依据具体的场景而定,例如,可以基于虚拟现实场景中移动的视角来定,等。
基于上述处理,采用在预训练神经辐射场上构建初始变型模块的方式,通过基于风格图像对初始变型模块进行训练,得到目标变型模块,达到了目标变型模块学习到风格图像的几何特征的目的,从而实现了使得神经辐射场不仅具备表示场景的颜色,纹理等特征,还可以表示更体现风格的几何特征,有效提高了神经辐射场的风格化结果的质量的技术效果,进而解决了相关技术中对三维场景进行风格化后,存在风格化结果的质量不高的技术问题。
基于上述实施例及可选实施方式,提供了以下可选实施方式:
风格迁移任务是创建同时匹配输入图像的语义内容和给定艺术品审美风格的合成图像。在相关技术中,在进行风格迁移时大都将给定风格图像的纹理风格迁移到目标图中的同时保持目标图的内容结构。除了颜色和纹理等低级风格外,在进行风格迁移时艺术图像的几何特征也是需要迁移的关键特征。
然而,在相关技术中,以点云、体素或神经辐射场为代表的三维场景具有明显的三维多视图连续性。在对三维场景进行风格化时这些方法确实保持了风格化结果的多视图一致性,并在视觉效果上成功地捕捉到了目标风格特征。然而目前的生成结果看起来更像是直接将纹理粘贴到场景中的物体表面,而不是按照指定风格创建的三维艺术场景。
鉴于此,在本发明可选实施方式中,提供了一种更有效的三维可变形场景风格化方法,该方法不仅通过可微分的变型模块学习输入风格图像的内在几何信息,而且对风格化过程进行分析,从神经辐射场重建时光线采样的角度引入了一种更有效风格化光线采样方法,称为扩张采样。在本方法中,对风格图像中的几何信息进行学习,使风格化的三维场景变形,让风格化效果更合理,更接近输入图像的艺术风格。同时,从神经辐射场风格化过程的光线采样效率角度来看,扩张采样方法可以显著减少网络渲染时的前向与后向传播的次数,在不丢失整体结构信息和细节的情况下使程式化更加高效。
下面对该可选实施方式进行说明。
鉴于相关技术中,在进行神经辐射场风格迁移时,存在以下几个的问题:1)仅能在纹理层面上对神经辐射场进行风格化,2)训练效率很低,对一个场景进行风格化需要数个小时的训练时间,限制了实际场景中的使用效率。
针对上述问题,本发明可选实施方式中,提供了一种神经辐射场的风格迁移算法,图4是根据本发明实施例中所提供的神经辐射场的风格迁移算法的示意图,如图4所示,输入一张风格图片,即可对一个真实场景进行风格迁移,同时可以保证该风格迁移生成的场景具有多视角一致性,在不同的视角下,同一位置的风格迁移结果相同。下面对该方法进行说明。
Step1:输入数十张真实场景的照片,通过DirectVoxGo等方法使用真实照片预训练一个神经辐射场,得到预训练神经辐射场。该预训练神经辐射场可以渲染出该真实场景在任意视角下的渲染结果。
Step2:在已有一个能够输出真实化渲染结果的预训练神经辐射场以后,需要对该预训练神经辐射场进行风格迁移。通过对已有的预训练神经辐射场进行风格迁移时,可以采用以下处理:在一步训练迭代中,从一个视角出发投射出一个局部区域的(H*W)条光线,这些光线再投射到预训练神经辐射场中,每条光线会采样n个点,这些采样点的位置记为(x,y,z),即下图中的(x,y,z),为了将风格图片几何上的扭曲引入神经辐射场,这里使用了一个变型网络(DeformNet,或称变型模块)对采样点进行几何上的位移。这个DeformNet可以由可学习的MLP构成,同时因为具体空间坐标(x,y,z)并不适合作为网络的输入,因此,在DeformNet中加入了一个点嵌入(points embedding)模块,该模块可以将(x,y,z)坐标用一组正弦和余弦函数表达出来,以供网络更好的学习。
因为,实验中与神经辐射场中提出的位置编码问题类似,三维点的表达能力不佳,因此可以选择使用一组正弦和余弦函数将三维点投影到更高维度的空间:
来增加点的编码频率。
其中,γ为编码函数,P为编码位置,l的取值为0至L的整数,对于三维的坐标点L=5可以获得较佳性能。3维点因此将被映射到256维空间,之后与所有使用超平面的网络类似,需要从高维空间中编码回三维空间以计算偏移量Δx。被注入变化的几何坐标(x+Δx)接下来将被输入到风格化的神经辐射场,颜色和密度将从特征空间中采样得出。风格化的神经辐射场的整体优化过程通过渲染出的图片计算风格化损失函数等约束完成。
在上述变型网络输出了坐标的位移量之后,该位移量便会被加在原坐标上,得到位移以后的新坐标(x',y',z'),之后便使用新坐标在预训练神经辐射场进行采样,然后这个采样便会通过体渲染(volume rendering)得到最后的渲染结果,该渲染结果会和输入的风格图片计算风格损失,以对上述预训练神经辐射场的训练提供监督信号。
需要说明的是,在相关技术中,神经辐射场风格的迁移算法需要整体进行完一个前传以后,才能计算风格损失,因此极大的影响了训练速度。鉴于此,在本发明实施例中提出了采用扩张采样的方式来神经辐射场的训练进行加速。在进行风格迁移时,只对其中的一部分光线进行采样,具体来说即每隔Nc个点采样一次,这样总的采样光线数量即为(H*W)/(Nc^2)。例如,将Nc设为5,这样采样点数就会变成25分之一。图5是根据本发明实施例中所提供的神经辐射场的风格迁移算法中扩展采样的示意图,如图5所示,为了避免该采样方式带来的高频噪点,可以对采样后渲染的图片通过模糊上采样的方式,上采样的原始尺寸,之后使用该模糊上采样的图片进行全图的风格化损失计算,这一过程极大的加速了整个训练流程。
Step3:最终在整个训练流程完成以后,便可以基于生成的风格化后的神经辐射场渲染图像,只需要输入视角,便可以根据对应视角进行光线投射以及体渲染,获得该视角下的风格迁移结果。图6是根据本发明实施例中所提供的神经辐射场的风格迁移算法中的结果展示图,如图6所示,针对不同的视角,可以展示对应视角下的风格渲染图。
因此,上述方法提出了使用DeformNet对采样光线进行弯折,从而允许了对神经辐射场的几何进行形变。另外,该方法提出了扩张采样,通过减少采样点数,从而加速了神经辐射场的训练速度。
通过上述可选实施方式,基于神经辐射场的三维场景风格化模型,提供了一种高效的风格化神经辐射场算法,在进行风格迁移的同时通过变型模块的学习将风格图像的几何结构特征迁移到目标场景中。例如,首先在三维场景中将风格图像的几何信息引入预训练神经辐射场中,同时通过分析预训练神经辐射场的风格化过程,在进行场景风格化时提出了一种全新的扩张采样方式,解决了风格迁移时计算风格化损失和神经辐射场重建时的内存开销矛盾。
因此,上述可选实施方式所提供的方法,至少具备以下效果:
提供了一种新颖的三维场景风格化框架,它不仅可以学习风格特征,还可以使用可变形网络学习风格图的内在几何特征,将几何特征视作输入图像风格的重要组成部分。
是初次在风格化神经辐射场时学习几何风格的方法。
在风格化过程中引入一种有效的训练策略和扩张采样策略,在风格化神经辐射场同时减轻内存开销,加快训练时间。
提出的方法可以风格化高分辨率场景,例如大小为756×1008的输入图像,并产生高质量的多视图连续结果。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
实施例2
根据本申请实施例,还提供了一种神经辐射场处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图7是根据本申请实施例2的神经辐射场处理方法的流程图。如图7所示,该方法可以包括如下步骤:
步骤S702,响应作用于操作界面上的第一指令,在操作界面上显示预训练神经辐射场;
步骤S704,响应作用于操作界面上的第二指令,在操作界面上显示风格图像;
步骤S706,响应作用于操作界面上的第三指令,在操作界面上显示目标神经辐射场,其中,目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,初始神经辐射场包括初始变型模块和预训练神经辐射场,目标神经辐射场包括目标变型模块,目标变型模块由对初始变型模块进行训练得到,目标变型模块学习有风格图像的几何特征;
步骤S708,响应作用于操作界面上的第四指令,在操作界面上显示目标神经辐射场在目标视角下的渲染图像。
需要说明的是,上述第一指令可以是训练触发指令,即基于该指令,启动基于真实场景的神经辐射场的训练。上述第二指令可以是用于选择风格图像的指令,在接收该指令前,可以在操作界面上展示一些可供选择的图像。第三指令可以是结果展示指令,基于该指令对训练好的具有一定风格的目标神经辐射场进行展示。上述第四指令可以是视角图像展示指令,基于该指令,显示在对应视角下的渲染图像。
实施例3
根据本申请实施例,还提供了一种可以应用于虚拟现实VR设备、增强现实AR设备等虚拟现实场景下的神经辐射场处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图8是根据本申请实施例3的神经辐射场处理方法的流程图。如图8所示,该方法可以包括如下步骤:
步骤S802,在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标神经辐射场,其中,目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,初始神经辐射场包括初始变型模块和预训练神经辐射场,目标神经辐射场包括目标变型模块,目标变型模块由对初始变型模块进行训练得到,目标变型模块学习有风格图像的几何特征;
步骤S804,确定目标视角;
步骤S806,驱动VR设备或AR设备展示目标神经辐射场在目标视角下的渲染图像。
可选地,在本实施例中,上述神经辐射场处理方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标神经辐射场,其中,目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,初始神经辐射场包括初始变型模块和预训练神经辐射场,目标神经辐射场包括目标变型模块,目标变型模块由对初始变型模块进行训练得到,目标变型模块学习有风格图像的几何特征;确定目标视角;驱动VR设备或AR设备展示目标神经辐射场在目标视角下的渲染图像,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。
可选地,虚拟现实设备包括:存储器、处理器和传输装置。存储器用于存储应用程序,该应用程序可以用于执行:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标神经辐射场,其中,目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,初始神经辐射场包括初始变型模块和预训练神经辐射场,目标神经辐射场包括目标变型模块,目标变型模块由对初始变型模块进行训练得到,目标变型模块学习有风格图像的几何特征;确定目标视角;驱动VR设备或AR设备展示目标神经辐射场在目标视角下的渲染图像。
需要说明的是,该实施例的上述应用在VR设备或AR设备中的神经辐射场处理方法可以包括图3所示实施例的方法,以实现驱动VR设备或AR设备展示目标神经辐射场,以及目标神经辐射场在目标视角下的渲染图像的目的。
可选地,该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件,也可以用于上述处理器与存储器之间的数据传输。
可选地,在虚拟现实设备中,带有眼球追踪的头戴式显示器,该HMD头显中的屏幕,用于显示展示的视频画面,HMD中的眼球追踪模块,用于获取用户眼球的实时运动轨迹,跟踪系统,用于追踪用户在真实三维空间的位置信息与运动信息,计算处理单元,用于从跟踪系统中获取用户的实时位置与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向等。
在本申请实施例中,虚拟现实设备可以与终端相连接,终端与服务器通过网络进行连接,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端并不限定于PC、手机、平板电脑等,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
实施例4
根据本申请实施例,还提供了一种用于实施上述神经辐射场处理方法的装置,图9是根据本发明实施例提供的神经辐射场处理装置的结构框图,如图9所示,该装置包括:第一获取模块92,第二获取模块94,构建模块96和训练模块98,下面对该装置进行说明。
第一获取模块92,用于获取预训练神经辐射场;第二获取模块94,连接至上述第一获取模块92,用于获取风格图像,其中,风格图像具有预定风格;构建模块96,连接至上述第二获取模块94,用于在预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;训练模块98,连接至上述构建模块96,用于基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场,其中,目标神经辐射场中包括对初始变型模块进行训练后得到的目标变型模块,目标变型模块学习有风格图像的几何特征。
此处需要说明的是,上述第一获取模块92,第二获取模块94,构建模块96和训练模块98对应于实施例1中的步骤S302至步骤S308,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
实施例5
本申请的实施例可以提供一种AR/VR设备,该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地,在本实施例中,上述AR/VR设备也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述AR/VR设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述AR/VR设备可以执行神经辐射场处理方法中以下步骤的程序代码:获取预训练神经辐射场;获取风格图像,其中,风格图像具有预定风格;在预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场,其中,目标神经辐射场中包括对初始变型模块进行训练后得到的目标变型模块,目标变型模块学习有风格图像的几何特征。
可选地,图10是根据本申请实施例的一种计算机终端的结构框图。如图所示,该计算机终端10可以包括:一个或多个(图中仅示出一个)处理器102、存储器104、存储控制器、以及外设接口,其中,外设接口与射频模块、音频模块和显示器连接。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的神经辐射场处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的神经辐射场处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取预训练神经辐射场;获取风格图像,其中,风格图像具有预定风格;在预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场,其中,目标神经辐射场中包括对初始变型模块进行训练后得到的目标变型模块,目标变型模块学习有风格图像的几何特征。
可选的,上述处理器还可以执行如下步骤的程序代码:基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场,包括:确定用于对初始神经辐射场进行训练的多个视角;采用对多个视角中的一个视角进行一次训练的方式,基于风格图像以及多个视角分别对应的投射区域,对初始神经辐射场迭代对应的多次训练,得到目标神经辐射场。
可选的,上述处理器还可以执行如下步骤的程序代码:采用对多个视角中的一个视角进行一次训练的方式,包括:确定多个视角中的一个视角为目标视角,在基于目标视角进行的训练为本次训练,本次训练前的迭代结果为前一迭代结果;目标视角对应的投射区域为目标区域;获取目标区域上所投射的光线对应的第一数量的采样点;从第一数量的采样点中选取第二数量的采样点,其中,第二数量小于第一数量;采用选取的第二数量的采样点,基于风格图像对前一迭代结果进行本次训练,得到本次训练的迭代结果。
可选的,上述处理器还可以执行如下步骤的程序代码:从第一数量的采样点中选取第二数量的采样点,包括:对目标区域上所包括的第一数量的采样点按照阵列的方式进行排列,得到光线阵列;从光线阵列中选择第二数量的采样点。
可选的,上述处理器还可以执行如下步骤的程序代码:从光线阵列中选择第二数量的采样点,包括以下至少之一:按照等距地每第三数量的采样点中选择一个代表点的方式,得到第二数量的采样点;从光线阵列中选择样点分块,确定样点分块所包括的采样点为第二数量的采样点;从光线阵列中随机选择第二数量的采样点。
可选的,上述处理器还可以执行如下步骤的程序代码:采用选取的第二数量的采样点,基于风格图像对前一迭代结果进行本次训练,得到本次训练的迭代结果,包括:前一迭代结果包括前一迭代变型模块和前一迭代神经辐射场,获取第二数量的采样点的坐标;采用前一迭代变型模块对第二数量的采样点的坐标进行调整,得到调整后的坐标;基于调整后的坐标,采用前一迭代神经辐射场对第二数量的采样点进行渲染,得到渲染图像;确定渲染图像相对于风格图像的风格损失;基于风格损失,对前一迭代变型模块和前一迭代神经辐射场进行调整,得到本次训练的迭代结果。
可选的,上述处理器还可以执行如下步骤的程序代码:确定渲染图像相对于风格图像的风格损失,包括:对渲染图像进行模糊上采样处理,得到处理后的图像;确定处理后的图像与风格图像之间的损失为风格损失。
可选的,上述处理器还可以执行如下步骤的程序代码:在基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场之后,还包括:确定渲染视角;基于渲染视角,对目标神经辐射场进行光线投射以及体渲染,得到在渲染视角下的风格渲染图像。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:响应作用于操作界面上的第一指令,在操作界面上显示预训练神经辐射场;响应作用于操作界面上的第二指令,在操作界面上显示风格图像;响应作用于操作界面上的第三指令,在操作界面上显示目标神经辐射场,其中,目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,初始神经辐射场包括初始变型模块和预训练神经辐射场,目标神经辐射场包括目标变型模块,目标变型模块由对初始变型模块进行训练得到,目标变型模块学习有风格图像的几何特征;响应作用于操作界面上的第四指令,在操作界面上显示目标神经辐射场在目标视角下的渲染图像。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标神经辐射场,其中,目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,初始神经辐射场包括初始变型模块和预训练神经辐射场,目标神经辐射场包括目标变型模块,目标变型模块由对初始变型模块进行训练得到,目标变型模块学习有风格图像的几何特征;确定目标视角;驱动VR设备或AR设备展示目标神经辐射场在目标视角下的渲染图像。
采用本申请实施例,采用在预训练神经辐射场上构建初始变型模块的方式,通过基于风格图像对初始变型模块进行训练,得到目标变型模块,达到了目标变型模块学习到风格图像的几何特征的目的,从而实现了使得神经辐射场不仅具备表示场景的颜色,纹理等特征,还可以表示更体现风格的几何特征,有效提高了神经辐射场的风格化结果的质量的技术效果,进而解决了相关技术中对三维场景进行风格化后,存在风格化结果的质量不高的技术问题。
本领域普通技术人员可以理解,图10所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternetDevices,MID)、PAD等终端设备。图10并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本申请的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的神经辐射场处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于AR/VR设备网络中AR/VR设备终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取预训练神经辐射场;获取风格图像,其中,风格图像具有预定风格;在预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场,其中,目标神经辐射场中包括对初始变型模块进行训练后得到的目标变型模块,目标变型模块学习有风格图像的几何特征。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场,包括:确定用于对初始神经辐射场进行训练的多个视角;采用对多个视角中的一个视角进行一次训练的方式,基于风格图像以及多个视角分别对应的投射区域,对初始神经辐射场迭代对应的多次训练,得到目标神经辐射场。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采用对多个视角中的一个视角进行一次训练的方式,包括:确定多个视角中的一个视角为目标视角,在基于目标视角进行的训练为本次训练,本次训练前的迭代结果为前一迭代结果;目标视角对应的投射区域为目标区域;获取目标区域上所投射的光线对应的第一数量的采样点;从第一数量的采样点中选取第二数量的采样点,其中,第二数量小于第一数量;采用选取的第二数量的采样点,基于风格图像对前一迭代结果进行本次训练,得到本次训练的迭代结果。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:从第一数量的采样点中选取第二数量的采样点,包括:对目标区域上所包括的第一数量的采样点按照阵列的方式进行排列,得到光线阵列;从光线阵列中选择第二数量的采样点。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:从光线阵列中选择第二数量的采样点,包括以下至少之一:按照等距地每第三数量的采样点中选择一个代表点的方式,得到第二数量的采样点;从光线阵列中选择样点分块,确定样点分块所包括的采样点为第二数量的采样点;从光线阵列中随机选择第二数量的采样点。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采用选取的第二数量的采样点,基于风格图像对前一迭代结果进行本次训练,得到本次训练的迭代结果,包括:前一迭代结果包括前一迭代变型模块和前一迭代神经辐射场,获取第二数量的采样点的坐标;采用前一迭代变型模块对第二数量的采样点的坐标进行调整,得到调整后的坐标;基于调整后的坐标,采用前一迭代神经辐射场对第二数量的采样点进行渲染,得到渲染图像;确定渲染图像相对于风格图像的风格损失;基于风格损失,对前一迭代变型模块和前一迭代神经辐射场进行调整,得到本次训练的迭代结果。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:确定渲染图像相对于风格图像的风格损失,包括:对渲染图像进行模糊上采样处理,得到处理后的图像;确定处理后的图像与风格图像之间的损失为风格损失。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:在基于风格图像,对初始神经辐射场进行训练,得到目标神经辐射场之后,还包括:确定渲染视角;基于渲染视角,对目标神经辐射场进行光线投射以及体渲染,得到在渲染视角下的风格渲染图像。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:响应作用于操作界面上的第一指令,在操作界面上显示预训练神经辐射场;响应作用于操作界面上的第二指令,在操作界面上显示风格图像;响应作用于操作界面上的第三指令,在操作界面上显示目标神经辐射场,其中,目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,初始神经辐射场包括初始变型模块和预训练神经辐射场,目标神经辐射场包括目标变型模块,目标变型模块由对初始变型模块进行训练得到,目标变型模块学习有风格图像的几何特征;响应作用于操作界面上的第四指令,在操作界面上显示目标神经辐射场在目标视角下的渲染图像。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标神经辐射场,其中,目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,初始神经辐射场包括初始变型模块和预训练神经辐射场,目标神经辐射场包括目标变型模块,目标变型模块由对初始变型模块进行训练得到,目标变型模块学习有风格图像的几何特征;确定目标视角;驱动VR设备或AR设备展示目标神经辐射场在目标视角下的渲染图像。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (13)

1.一种神经辐射场处理方法,其特征在于,包括:
获取预训练神经辐射场;
获取风格图像,其中,所述风格图像具有预定风格;
在所述预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;
基于所述风格图像,对所述初始神经辐射场进行训练,得到目标神经辐射场,其中,所述目标神经辐射场中包括对所述初始变型模块进行训练后得到的目标变型模块,所述目标变型模块学习有所述风格图像的几何特征。
2.根据权利要求1所述的方法,其特征在于,所述基于所述风格图像,对所述初始神经辐射场进行训练,得到目标神经辐射场,包括:
确定用于对所述初始神经辐射场进行训练的多个视角;
采用对所述多个视角中的一个视角进行一次训练的方式,基于所述风格图像以及所述多个视角分别对应的投射区域,对所述初始神经辐射场迭代对应的多次训练,得到所述目标神经辐射场。
3.根据权利要求2所述的方法,其特征在于,所述采用对所述多个视角中的一个视角进行一次训练的方式,包括:
确定所述多个视角中的一个视角为目标视角,在基于所述目标视角进行的训练为本次训练,本次训练前的迭代结果为前一迭代结果;
所述目标视角对应的投射区域为目标区域;
获取所述目标区域上所投射的光线对应的第一数量的采样点;
从所述第一数量的采样点中选取第二数量的采样点,其中,所述第二数量小于第一数量;
采用选取的所述第二数量的采样点,基于所述风格图像对所述前一迭代结果进行所述本次训练,得到所述本次训练的迭代结果。
4.根据权利要求3所述的方法,其特征在于,所述从所述第一数量的采样点中选取第二数量的采样点,包括:
对所述目标区域上所包括的所述第一数量的采样点按照阵列的方式进行排列,得到光线阵列;
从所述光线阵列中选择所述第二数量的采样点。
5.根据权利要求4所述的方法,其特征在于,所述从所述光线阵列中选择所述第二数量的采样点,包括以下至少之一:
按照等距地每第三数量的采样点中选择一个代表点的方式,得到所述第二数量的采样点;
从所述光线阵列中选择样点分块,确定所述样点分块所包括的采样点为所述第二数量的采样点;
从所述光线阵列中随机选择所述第二数量的采样点。
6.根据权利要求3所述的方法,其特征在于,所述采用选取的所述第二数量的采样点,基于所述风格图像对所述前一迭代结果进行所述本次训练,得到所述本次训练的迭代结果,包括:
所述前一迭代结果包括前一迭代变型模块和前一迭代神经辐射场,获取所述第二数量的采样点的坐标;
采用所述前一迭代变型模块对所述第二数量的采样点的坐标进行调整,得到调整后的坐标;
基于调整后的坐标,采用所述前一迭代神经辐射场对所述第二数量的采样点进行渲染,得到渲染图像;
确定所述渲染图像相对于所述风格图像的风格损失;
基于所述风格损失,对所述前一迭代变型模块和所述前一迭代神经辐射场进行调整,得到所述本次训练的迭代结果。
7.根据权利要求6所述的方法,其特征在于,所述确定所述渲染图像相对于所述风格图像的风格损失,包括:
对所述渲染图像进行模糊上采样处理,得到处理后的图像;
确定所述处理后的图像与所述风格图像之间的损失为所述风格损失。
8.根据权利要求1至7中任一项所述的方法,其特征在于,在所述基于所述风格图像,对所述初始神经辐射场进行训练,得到目标神经辐射场之后,还包括:
确定渲染视角;
基于所述渲染视角,对所述目标神经辐射场进行光线投射以及体渲染,得到在所述渲染视角下的风格渲染图像。
9.一种神经辐射场处理方法,其特征在于,包括:
响应作用于操作界面上的第一指令,在所述操作界面上显示预训练神经辐射场;
响应作用于所述操作界面上的第二指令,在所述操作界面上显示风格图像;
响应作用于所述操作界面上的第三指令,在所述操作界面上显示目标神经辐射场,其中,所述目标神经辐射场基于所述风格图像,对初始神经辐射场进行训练得到,所述初始神经辐射场包括初始变型模块和预训练神经辐射场,所述目标神经辐射场包括目标变型模块,所述目标变型模块由对所述初始变型模块进行训练得到,所述目标变型模块学习有所述风格图像的几何特征;
响应作用于所述操作界面上的第四指令,在所述操作界面上显示所述目标神经辐射场在目标视角下的渲染图像。
10.一种神经辐射场处理方法,其特征在于,包括:
在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标神经辐射场,其中,所述目标神经辐射场基于风格图像,对初始神经辐射场进行训练得到,所述初始神经辐射场包括初始变型模块和预训练神经辐射场,所述目标神经辐射场包括目标变型模块,所述目标变型模块由对所述初始变型模块进行训练得到,所述目标变型模块学习有所述风格图像的几何特征;
确定目标视角;
驱动所述VR设备或所述AR设备展示所述目标神经辐射场在所述目标视角下的渲染图像。
11.一种神经辐射场处理装置,其特征在于,包括:
第一获取模块,用于获取预训练神经辐射场;
第二获取模块,用于获取风格图像,其中,所述风格图像具有预定风格;
构建模块,用于在所述预训练神经辐射场上构建初始变型模块,得到初始神经辐射场;
训练模块,用于基于所述风格图像,对所述初始神经辐射场进行训练,得到目标神经辐射场,其中,所述目标神经辐射场中包括对所述初始变型模块进行训练后得到的目标变型模块,所述目标变型模块学习有所述风格图像的几何特征。
12.一种电子设备,其特征在于,包括:
存储器,存储有可执行程序;
处理器,用于运行所述程序,其中,所述程序运行时执行权利要求1至10中任意一项所述的神经辐射场处理方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的可执行程序,其中,在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至10中任意一项所述的神经辐射场处理方法。
CN202310504302.1A 2023-05-04 2023-05-04 神经辐射场处理方法、装置及电子设备 Pending CN116543086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310504302.1A CN116543086A (zh) 2023-05-04 2023-05-04 神经辐射场处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310504302.1A CN116543086A (zh) 2023-05-04 2023-05-04 神经辐射场处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN116543086A true CN116543086A (zh) 2023-08-04

Family

ID=87443002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310504302.1A Pending CN116543086A (zh) 2023-05-04 2023-05-04 神经辐射场处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116543086A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934936A (zh) * 2023-09-19 2023-10-24 成都索贝数码科技股份有限公司 一种三维场景风格迁移方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934936A (zh) * 2023-09-19 2023-10-24 成都索贝数码科技股份有限公司 一种三维场景风格迁移方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110084874B (zh) 对于三维模型的图像风格迁移
CN110599605B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN114863038B (zh) 基于显式几何形变的实时动态自由视角合成方法及装置
CN113160296B (zh) 基于可微渲染的振动液滴三维重建方法及装置
CN116228943B (zh) 虚拟对象面部重建方法、面部重建网络训练方法及装置
CN116188689A (zh) 辐射场的处理方法、存储介质以及计算机终端
CN116543086A (zh) 神经辐射场处理方法、装置及电子设备
CN111142967B (zh) 一种增强现实显示的方法、装置、电子设备和存储介质
CN116097316A (zh) 用于非模态中心预测的对象识别神经网络
CN102201127B (zh) 虚拟世界应用中减少视觉模拟循环的总计算时间的方法
US9483847B2 (en) System and method for rendering virtual contaminants
CN114998514A (zh) 一种虚拟角色的生成方法及设备
Hu et al. 3D map reconstruction using a monocular camera for smart cities
CN115035231A (zh) 阴影烘焙方法、装置、电子设备和存储介质
US9754408B2 (en) System and method for modeling virtual contaminants
CN117197319B (zh) 图像生成方法、装置、电子设备及存储介质
US11961186B2 (en) Method and system for visually seamless grafting of volumetric data
CN116188698B (zh) 对象的处理方法和电子设备
Hall et al. Networked and multimodal 3d modeling of cities for collaborative virtual environments
CN116778065B (zh) 图像处理方法、装置、计算机及存储介质
Li et al. Real-Time Volume Rendering with Octree-Based Implicit Surface Representation
CN116797708A (zh) 虚拟对象的渲染方法、电子设备以及存储介质
Jiang et al. PMPI: Patch-Based Multiplane Images for Real-Time Rendering of Neural Radiance Fields
CN116664770A (zh) 拍摄实体的图像处理方法、存储介质及系统
CN117218278A (zh) 三维模型的重建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination