CN116433822B - 一种神经辐射场训练方法、装置、设备及介质 - Google Patents

一种神经辐射场训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN116433822B
CN116433822B CN202310479215.5A CN202310479215A CN116433822B CN 116433822 B CN116433822 B CN 116433822B CN 202310479215 A CN202310479215 A CN 202310479215A CN 116433822 B CN116433822 B CN 116433822B
Authority
CN
China
Prior art keywords
scene data
data
module
radiation field
uniform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310479215.5A
Other languages
English (en)
Other versions
CN116433822A (zh
Inventor
刘祥德
赵飞飞
王梦魁
于金波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Digital City Research Center
Original Assignee
Beijing Digital City Research Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Digital City Research Center filed Critical Beijing Digital City Research Center
Priority to CN202310479215.5A priority Critical patent/CN116433822B/zh
Publication of CN116433822A publication Critical patent/CN116433822A/zh
Application granted granted Critical
Publication of CN116433822B publication Critical patent/CN116433822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Image Analysis (AREA)

Abstract

一种神经辐射场训练方法、装置、设备与介质,涉及计算机视觉技术领域。该方法包括:获取场景数据;根据过滤算法对光照不均匀的场景数据进行均匀处理,以得到均匀场景数据;筛选掉均匀场景数据中的朝向偏差数据,以得到候选场景数据;基于候选场景数据,训练神经辐射场。由此,对于同一场景,不同时间段受到不同光照影响的数据可以通过过滤算法进行处理,从而消除光照的影响,并且筛选掉朝向偏差数据可以更准确地训练神经辐射场,进而获取更真实的渲染图像。

Description

一种神经辐射场训练方法、装置、设备及介质
技术领域
本申请涉及计算机视觉和计算机图形学技术领域,特别涉及一种神经辐射场训练方法、装置、设备及介质。
背景技术
新视角合成,即从一系列对某一场景的捕获图像中合成新视角下的图像,一直是计算机视觉和计算机图形学技术领域的重要任务。神经辐射场(Neural Radiance Fields)的出现大大推动了该任务的进展。神经辐射场方法是将真实场景表示为连续的映射函数,并使用体积渲染来合成新视角图像,从而实现了逼真的渲染效果,被广泛应用于虚拟现实和显示增强等领域中。
然而,基于神经辐射场执行新视角合成任务的过程仍存在一些局限性。第一,神经辐射场的主要限制是它假设世界在几何、物质和光度学上是静态的,即要求在相同位置和方向拍摄的任何两张照片必须相同,而在实际情况中即使是同一时间、同一地点拍摄的两张照片也可能因为曝光、色彩校正、色调映射等存在相当大的差异,此时就可能导致生成的图像不真实或场景表示不准确。第二,由于神经辐射场是通过对相机位姿的随机变换来生成不同角度下的渲染图像,神经辐射场对于相机位姿的准确度要求较高,如果提供的相机位姿不够准确,那么学习的结果就可能会不准确,渲染出来的图像也就不真实。
发明内容
有鉴于此,本申请实施例提供了一种神经辐射场训练方法、装置、设备及介质,能够对神经辐射场进行训练优化。
本申请实施例公开了如下技术方案:
第一方面,本申请提供了一种神经辐射场训练方法,所述方法包括:
获取场景数据;
根据过滤算法对光照不均匀的所述场景数据进行均匀处理,以得到均匀场景数据;
筛选掉所述均匀场景数据中的朝向偏差数据,以得到候选场景数据;
基于所述候选场景数据,训练神经辐射场。
可选的,所述筛选掉所述均匀场景数据中的朝向偏差数据,包括:
获取每个所述均匀场景数据的朝向和所有所述均匀场景数据的平均朝向;
计算每个所述均匀场景数据的朝向与所述平均朝向的夹角;
判断所述夹角是否大于角度阈值,所述角度阈值与每个所述均匀场景数据的朝向相关;
若是,则筛选掉大于角度阈值的夹角对应的所述均匀场景数据,所述大于角度阈值的夹角对应的所述均匀场景数据为朝向偏差数据。
可选的,所述获取每个所述均匀场景数据的朝向,包括:
根据所述均匀场景数据,获取相机参数;
根据所述相机参数,将所述均匀场景数据的相机坐标系转换为世界坐标系;
根据相机在所述世界坐标系的位置和物体中心点之间的向量,计算每个所述均匀场景数据的朝向。
可选的,在所述筛选掉所述均匀场景数据中的朝向偏差数据,以得到候选场景数据后,所述方法还包括:
筛选掉所述候选场景数据中的稀疏视角数据,以得到稠密场景数据;
所述基于所述候选场景数据,训练神经辐射场,包括:
基于所述稠密场景数据,训练神经辐射场。
可选的,所述筛选掉所述候选场景数据中的稀疏视角数据,包括:
对所述候选场景数据进行特征提取和预处理;
通过设置聚类数目,对处理后的候选场景数据完成聚类;
根据聚类结果,筛选掉所述候选场景数据中的稀疏视角数据。
可选的,所述聚类结果为表征聚类中心之间的距离是否大于距离阈值的结果;
所述根据聚类结果,筛选掉所述候选场景数据中的稀疏视角数据,包括:
若所述聚类中心之间的距离大于距离阈值,则筛选掉所述候选场景数据中的稀疏视角数据。
可选的,所述根据过滤算法对光照不均匀的所述场景数据进行均匀处理,包括:
将所述场景数据输入至神经辐射场模型,以输出体积密度和颜色;
通过体积密度和颜色的输出值,获取输出函数;
基于所述输出函数,利用生成潜在优化技术,对光照不均匀的所述场景数据进行均匀处理。
第二方面,本申请提供了一种神经辐射场训练装置,所述装置包括:所述装置包括:获取模块、均匀模块、筛选模块、训练模块;
所述获取模块,用于获取场景数据;
所述均匀模块,用于根据过滤算法对光照不均匀的所述场景数据进行均匀处理,以得到均匀场景数据;
所述筛选模块,用于筛选掉所述均匀场景数据中的朝向偏差数据,以得到候选场景数据;
所述训练模块,用于基于所述候选场景数据,训练神经辐射场。
第三方面,本申请提供了一种神经辐射场训练设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述计算机程序时实现上述神经辐射场训练方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述神经辐射场训练方法的步骤。
相较于现有技术,本申请具有以下有益效果:
本申请公开了一种神经辐射场训练方法、装置、设备及介质,首先根据过滤算法对获取到的场景数据中的不均匀光照进行处理,其次筛选掉处理后的场景数据中的朝向偏差数据,最后根据筛选后的场景数据训练神经辐射场。由此,对于同一场景,不同时间段受到不同光照影响的数据可以通过过滤算法进行处理,从而消除光照的影响,并且筛选掉朝向偏差数据可以更准确地训练神经辐射场,以获取更真实的渲染图像。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种神经辐射场训练方法的流程图;
图2为本申请实施例提供的一种神经辐射场的输入与输出示意图;
图3为本申请实施例提供的一种模型架构示意图;
图4为本申请实施例提供的一种神经辐射场相机轨迹重建示意图;
图5为本申请实施例提供的一种神经辐射场训练装置的示意图;
图6为本申请实施例提供的一种计算机可读介质的示意图;
图7为本申请实施例提供的一种服务器的硬件结构示意图。
具体实施方式
下面先对本申请所涉及的技术术语进行介绍。
神经辐射场网络(Representing Scenes as Neural Radiance Fields for ViewSynthesis,NeRF)是一种用于三维重建的深度学习方法,通过渲染不同角度下的图像来重建物体的三维形状。
运动恢复结构(Structure-from-Motion,SfM)是一种能够从多张图像或视频序列中自动地恢复出相机的参数以及场景三维结构的技术,神经辐射场使用运动恢复结构技术估计相机姿态,从而获得更准确的场景重建效果。
k-means聚类算法是一种无监督学习的算法,它的目标是将数据样本分为若干个相似的簇(Cluster)。聚类算法通常是在没有任何先验知识或标签的情况下进行数据分析,它可以帮助人们发现数据中的模式或结构,并将数据分组,方便人们进行进一步的分析和处理。
新视角合成,即从一系列对某一场景的捕获图像中合成新视角下的图像,一直是计算机视觉和计算机图形学技术领域的重要任务。神经辐射场(Neural Radiance Fields)的出现大大推动了该任务的进展。神经辐射场方法是将真实场景表示为连续的映射函数,并使用体积渲染来合成新视角图像,从而实现了逼真的渲染效果,被广泛应用于虚拟现实和显示增强等领域中。
然而,基于神经辐射场执行新视角合成任务的过程仍存在一些局限性,具体如下:
第一,神经辐射场的主要限制是它假设世界在几何、物质和光度学上是静态的,即要求世界的密度和辐射是恒定的,因此神经辐射场要求在相同位置和方向拍摄的任何两张照片必须相同。而在实际情况中,这一假设在许多真实世界的数据集中被严重违反,例如大规模的旅游地标或联网照片集等,即使是同一时间、同一地点拍摄的两张照片也可能因为曝光、色彩校正、色调映射等因素表现出相当大的差异。然而,由于神经辐射场基于可见光谱的均匀照明假设,因此其对于非均匀或多光源照明的鲁棒性可能受到限制。这些情况下,神经辐射场可能会在场景表示中引入伪影,从而导致生成的图像不真实或场景表示不准确。
第二,在训练神经辐射场模型时,需要提供相机轨迹及其对应的相机视角,神经辐射场模型会通过对相机位姿的随机变换来生成不同角度下的渲染图像。因此神经辐射场对于相机位姿的准确度要求较高,也就是说,在训练神经辐射场模型之前应该尽可能地提高相机位姿的准确度,从而有效地提高渲染结果的质量。如果提供的相机位姿不够准确,那么学习的结果就可能会不准确,渲染出来的图像也就不真实。
第三,神经辐射场需要大量的输入图像来训练网络,并生成高质量的三维渲染结果。然而在实际应用中,很难收集到足够数量的高质量图像数据,甚至一些稀疏视角图像可能会对训练产生负面影响。
有鉴于此,本申请提供了一种神经辐射场训练方法、装置、设备及介质,首先根据过滤算法对获取到的场景数据中的不均匀光照进行处理,其次筛选掉处理后的场景数据中的朝向偏差数据,最后根据筛选后的场景数据训练神经辐射场。由此,对于同一场景,不同时间段受到不同光照影响的数据可以通过过滤算法进行处理,从而消除光照的影响,并且筛选掉朝向偏差数据可以更准确地训练神经辐射场,以获取更真实的渲染图像。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种神经辐射场训练方法的流程图。该方法包括:
S101:获取场景数据。
场景数据可以指对现实场景或模拟场景拍摄的场景图像的数据,该场景数据可以是场景图像,也可以是相机参数和场景几何形状等,对于具体的场景数据格式,本申请不做限定。具体的,相机参数可以分为相机内参和相机外参。相机内参可以表征相机的固定参数,是一个3×3的矩阵,相机外参可以表征当前相机旋转和置相对于世界坐标系的参数,是一个4×4的矩阵。
在一些具体的实现方式中,若场景数据是场景图像,那么该场景数据可以表示为{Ii}N i=1。需要说明的是,上述场景图像为同一个场景的多个不同角度的图像,可以是RGB图像,也可以是其他格式的图像,对于具体的图像格式,本申请不做限定。上述所有场景图像可以是一系列不同方位的相机同时进行拍摄,也可以是单个相机进行移动拍摄,对于场景图像的具体拍摄方法,本申请不做限定。
可以理解的是,可以通过上述场景图像获取其对应的相机参数。示例性的,可以基于SFM中的Colmap方法对场景数据进行处理,以获取相机参数。具体的,Colmap方法是一种通用的运动结构恢复(SFM)和多视图立体(MVS)管道的方法,它为有序和无序图像集合的重建提供了广泛的功能。在另一些具体的实现方式中,还可以由本领域技术人员直接输入相机参数。对于相机参数的具体获取方法,本申请不做限定。
S102:通过过滤算法对场景数据的光照情况进行均匀处理。
对于同一场景,不同时间段受到不同光照影响的物体可以通过过滤算法进行处理,从而消除光照的影响。参见图3,该图为本申请实施例提供的一种模型架构示意图。在一些具体的实现方式中,上述通过过滤算法进行处理的过程可以使用以下步骤解决:
第一步,从获取到的场景数据中,学习体积密度表示Fθ模型。参见图2,该图为本申请实施例提供的一种神经辐射场的输入与输出示意图。由图可知,Fθ使用多层感知器(MLP)建模,该感知器将三维点的位置信息X=(x,y,z)和从相机看向该三维点的视角方向d=(θ,φ)作为输入,生成体积密度σ和颜色c=(R,G,B)。具体的,体积密度可以简单理解为当前坐标点的位置的不透明度,不透明度越高,其颜色占的比重越大。
第二步,根据输出的体积密度σ和颜色c,通过下列公式(1)、公式(2)获取输出函数z(t)。
其中,σ(t)是三维点r(t)处的体积密度,z(t)是输出函数,MLP是多层感知机,θ1是第一参数,θ2是第二参数,γx是用于表示位置的第一固定编码函数,c(t)是三维点r(t)处的颜色,γd是用于表示观察方向的第二固定编码函数,d是从相机看向该三维点的视角方向。
第三步,根据输出函数,采用生成潜在优化技术,对场景数据的光照情况进行均匀处理。
利用生成潜在优化技术(Generative Latent Optimization,GLO)可以生成多种不同的光照场景,例如白天、夜晚、室内、室外等等。此外,生成潜在优化技术还可以通过修改潜在空间中的向量来实现对生成光照场景的控制,例如增加或减少阴影,调整颜色和亮度等等。
在本申请实施例所公开的神经辐射场训练方法中,为了使神经辐射场适应可变光照和光度后处理,采用生成潜在优化技术,优化出每个输入图像的外观嵌入,因此学习到整个照片数据集中的共享外观表示,能够在环境变化时有很大的灵活性。
在一些可能的实现方式中,可以为每个场景数据赋予一个对应的实值外观嵌入向量其长度为n(a),利用图像相关的亮度ci(t)替换公式(2)中的颜色c(t)。
示例性的,获取上述图像相关的亮度ci(t)的公式可以如公式(3)所示:
其中,ci(t)是图像相关的亮度,MLP是多层感知机,θ2是第二参数,z(t)是输出函数,γd是用于表示观察方向的第二固定编码函数,d是从相机看向该三维点的视角方向,是实值外观嵌入向量。
由此,对于同一场景,不同时间段,受到不同光照影响的物体通过光照过滤算法进行处理,从而消除光照的影响。
S103:筛选掉场景数据中的朝向偏差数据。
在神经辐射场的训练过程中,所有相机都应朝向一个物体中心拍摄,但是有一些拍摄的场景数据偏离了大部分数据的朝向,为了筛选掉场景数据中的偏差数据,可以使用以下步骤解决:
第一步:计算每个场景数据的朝向。
场景数据的朝向指的是相机位置到物体中心点之间的向量。首先,使用相机内参和相机外参计算每个场景数据的视角朝向向量。
在一些具体的实现方式中,可以使用矩阵乘法将相机内参和相机外参相乘,以得到相机矩阵,然后使用相机矩阵,将相机坐标系下的点变换到世界坐标系下后,计算相机位置和物体中心点之间的向量,以得到每个场景数据的朝向。
示例性的,上述从相机坐标系下的点变换到世界坐标系下的转换公式可以如公式(4)所示:
其中,Xc、Yc、Zc为相机坐标,Xw、Yw、Zw为世界坐标,R为旋转矩阵,t为偏移向量。
示例性的,计算场景数据的朝向的公式可以如下公式(5)所示:
Vd=Ocenter-Pc (5)
其中,Vd为场景数据的朝向,Ocenter为物体中心点的坐标,Pc=(Xc,Yc,Zc)为相机在世界坐标系下的位置。
第二步:计算所有场景数据的平均朝向。
对第一步中获取的所有场景数据的朝向进行求平均值计算,从而得到物体中心点到相机视角平均朝向。
第三步:计算每个场景数据的朝向与平均朝向之间的夹角。
将每个场景数据的朝向与平均朝向进行向量的归一化后,计算每个场景数据的朝向与平均朝向之间的夹角。
第四步:依次判断每个夹角是否大于角度阈值。
依次判断每个夹角是否大于角度阈值,若存在夹角均大于角度阈值则说明该场景数据中存在朝向偏差数据,执行第五步的步骤,若每个夹角均小于角度阈值则保留所有场景数据,即说明该场景数据中不存在朝向偏差数据。
需要说明的是,上述角度阈值可以根据实际情况调整,若所有场景数据的差距不大,那么可以设置一个较小的角度阈值,若所有场景数据的差距较大,那么可以设置一个较大的角度阈值。在一些示例中,上述角度阈值可以是130°,也可以是90°等,对于具体的角度阈值,本申请不做限定。
第五步:筛选掉场景数据中的朝向偏差数据。
参见图4,该图为本申请实施例提供的一种神经辐射场相机轨迹重建示意图。如图可知,黑色框内的两个场景数据与其他场景数据的差距较大,则将该场景数据剔除,即筛选掉场景数据中的朝向偏差数据,以得到候选场景数据。
由此,神经辐射场是通过最小化渲染结果和真实数据之间的差异来进行训练的,因此如果一些偏差的场景数据(例如图片)与其他数据不一致,可能会导致训练过程出现偏差,进而影响渲染结果的准确性。因此,筛选掉朝向偏差数据对于神经辐射场的渲染结果和训练过程都是有益的。
S104:筛选掉场景数据中的稀疏视角数据。
在一些具体的实现方式中,可以利用K-means聚类算法筛选掉场景数据中的稀疏视角。K-means聚类算法可以用于将场景数据分成k个不同的簇(cluster),即分成k个类别,以便从中剔除一些场景数据。示例性的,可以使用以下步骤解决:
第一步:对场景数据进行特征提取和预处理。
对于每个视角的场景数据,可以将其视为一个高维向量,其中每个像素的灰度值都是一个特征。具体的,灰度值是指图像中每个像素的亮度值,通常用0到255的整数表示。
首先,将所有的场景数据进行特征提取和预处理,以便后期进行聚类。在一些具体的实现方式中,可以利用卷积神经网络(Convolutional Neural Networks,CNN)进行端到端的特征提取。具体的,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。
第二步:设置聚类数目,以完成场景数据的聚类。
聚类数目即用于将场景数据分成k个不同的簇。由于本申请所公开的神经辐射场训练方法所适用的场景轨迹一般为固定,稀疏视角图像较少,因此可以将聚类数目设置为k=2。需要说明的是,对于具体的聚类数目,本申请不做限定。
第三步:筛选掉场景数据中的稀疏视角数据。
根据聚类的结果,可以将某些簇中的场景数据剔除,以使剩余的场景数据更加稠密。在一些具体的实现方式中,剔除场景数据的根据可以是:判断聚类中心之间的距离是否大于距离阈值。若是,即聚类中心之间的距离大于距离阈值,则说明该场景数据的视角稀疏,需要删除。若否,即聚类中心之间的距离小于或等于距离阈值,则说明该场景数据的视角稠密,不需要删除。
由此,K-means聚类算法可以用于筛选掉这些稀疏视角图像,提高训练效率和模型性能。可以理解的是,若不需要筛选掉稀疏视角图像,则可以不执行S104的步骤,对此本申请不做限定。
S105:根据处理后的场景数据训练神经辐射场。
在对场景数据进行光照均匀处理、朝向偏差筛选、稀疏视角筛选后,可以基于处理后的场景数据对神经辐射场进行训练。
综上所述,本申请公开了一种神经辐射场训练方法,首先根据过滤算法对获取到的场景数据中的不均匀光照进行处理,其次筛选掉处理后的场景数据中的朝向偏差数据,最后根据筛选后的场景数据训练神经辐射场。由此,对于同一场景,不同时间段受到不同光照影响的数据可以通过过滤算法进行处理,从而消除光照的影响,并且筛选掉朝向偏差数据可以更准确地训练神经辐射场,以获取更真实的渲染图像。
参见图5,该图为本申请实施例提供的一种神经辐射场训练装置的示意图。该神经辐射场训练装置500包括:获取模块501、均匀模块502、第一筛选模块503、训练模块504。
其中,获取模块501,用于获取场景数据。均匀模块502,用于根据过滤算法对光照不均匀的场景数据进行均匀处理,以得到均匀场景数据。第一筛选模块503,用于筛选掉均匀场景数据中的朝向偏差数据,以得到候选场景数据。训练模块504,用于基于候选场景数据,训练神经辐射场。
在一些具体的实现方式中,上述第一筛选模块503具体包括:获取子模块、计算模块、判断模块、第一筛选子模块。
其中,获取子模块具体用于获取每个均匀场景数据的朝向和所有均匀场景数据的平均朝向。计算模块具体用于计算每个均匀场景数据的朝向与平均朝向的夹角。判断模块具体用于判断夹角是否大于角度阈值,角度阈值与每个均匀场景数据的朝向相关。第一筛选子模块具体用于若是,则筛选掉大于角度阈值的夹角对应的均匀场景数据,大于角度阈值的夹角对应的均匀场景数据为朝向偏差数据。
在一些具体的实现方式中,上述获取子模块具体包括:参数模块、转换模块、朝向模块。
其中,参数模块具体用于根据均匀场景数据,获取相机参数。转换模块具体用于根据相机参数,将均匀场景数据的相机坐标系转换为世界坐标系。朝向模块具体用于根据相机在世界坐标系的位置和物体中心点之间的向量,计算每个均匀场景数据的朝向。
在一些具体的实现方式中,该神经辐射场训练装500还包括:第二筛选模块。
具体的,第二筛选模块具体用于筛选掉候选场景数据中的稀疏视角数据,以得到稠密场景数据。此时,训练模块504具体用于基于稠密场景数据,训练神经辐射场。
在一些具体的实现方式中,第二筛选模块具体包括:预处理模块、聚类模块、第二筛选子模块。
其中,预处理模块具体用于对候选场景数据进行特征提取和预处理。聚类模块具体用于通过设置聚类数目,对处理后的候选场景数据完成聚类。第二筛选子模块具体用于根据聚类结果,筛选掉候选场景数据中的稀疏视角数据。
在一些具体的实现方式中,聚类结果为表征聚类中心之间的距离是否大于距离阈值的结果。第二筛选子模块具体用于若聚类中心之间的距离大于距离阈值,则筛选掉候选场景数据中的稀疏视角数据。
在一些具体的实现方式中,上述均匀模块502具体包括:第一输出模块、第二输出模块、均匀子模块。
其中,第一输出模块用于将场景数据输入至神经辐射场模型,以输出体积密度和颜色。第二输出模块用于通过体积密度和颜色的输出值,获取输出函数。均匀子模块用于基于输出函数,利用生成潜在优化技术,对光照不均匀的场景数据进行均匀处理。
综上所述,本申请公开了一种神经辐射场训练装置,该神经辐射场训练装置包括获取模块、均匀模块、第一筛选模块、训练模块。其中,获取模块用于获取场景数据。均匀模块用于根据过滤算法对光照不均匀的场景数据进行均匀处理,以得到均匀场景数据。第一筛选模块用于筛选掉均匀场景数据中的朝向偏差数据,以得到候选场景数据。训练模块用于基于候选场景数据,训练神经辐射场。由此,对于同一场景,不同时间段受到不同光照影响的数据可以通过过滤算法进行处理,从而消除光照的影响,并且筛选掉朝向偏差数据可以更准确地训练神经辐射场,以获取更真实的渲染图像。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
参见图6,该图为本申请实施例提供的一种计算机可读介质的示意图。该计算机可读介质300上存储有计算机程序311,该计算机程序311被处理器执行时实现上述图1的神经辐射场训练方法的步骤。
需要说明的是,本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本申请上述的机器可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
参见图7,该图为本申请实施例提供的一种服务器的硬件结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序440或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由神经辐射场训练方法所执行的步骤可以基于该图7所示的服务器结构。
还需要说明的,根据本申请的实施例,上述图1中的流程示意图描述的神经辐射场训练方法的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行上述图1的流程示意图中所示的方法的程序代码。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (7)

1.一种神经辐射场训练方法,其特征在于,所述方法包括:
获取场景数据;
根据过滤算法对光照不均匀的所述场景数据进行均匀处理,以得到均匀场景数据;
筛选掉所述均匀场景数据中的朝向偏差数据,以得到候选场景数据,所述朝向偏差数据为与其他所述均匀场景数据的朝向差距较大的数据;
对所述候选场景数据进行特征提取和预处理;
通过设置聚类数目,对处理后的候选场景数据完成聚类;
若所述聚类中心之间的距离大于距离阈值,则筛选掉所述候选场景数据中的稀疏视角数据,以得到稠密场景数据,所述聚类结果为表征聚类中心之间的距离是否大于距离阈值的结果;
基于所述稠密场景数据,训练神经辐射场。
2.根据权利要求1所述的方法,其特征在于,所述筛选掉所述均匀场景数据中的朝向偏差数据,包括:
获取每个所述均匀场景数据的朝向和所有所述均匀场景数据的平均朝向;
计算每个所述均匀场景数据的朝向与所述平均朝向的夹角;
判断所述夹角是否大于角度阈值,所述角度阈值与每个所述均匀场景数据的朝向相关;
若是,则筛选掉大于角度阈值的夹角对应的所述均匀场景数据,所述大于角度阈值的夹角对应的所述均匀场景数据为朝向偏差数据。
3.根据权利要求2所述的方法,其特征在于,所述获取每个所述均匀场景数据的朝向,包括:
根据所述均匀场景数据,获取相机参数;
根据所述相机参数,将所述均匀场景数据的相机坐标系转换为世界坐标系;
根据相机在所述世界坐标系的位置和物体中心点之间的向量,计算每个所述均匀场景数据的朝向。
4.根据权利要求1所述的方法,其特征在于,所述根据过滤算法对光照不均匀的所述场景数据进行均匀处理,包括:
将所述场景数据输入至神经辐射场模型,以输出体积密度和颜色;
通过体积密度和颜色的输出值,获取输出函数;
基于所述输出函数,利用生成潜在优化技术,对光照不均匀的所述场景数据进行均匀处理。
5.一种神经辐射场训练装置,其特征在于,所述装置包括:获取模块、均匀模块、筛选模块、预处理模块、聚类模块、第二筛选子模块和训练模块;
所述获取模块,用于获取场景数据;
所述均匀模块,用于根据过滤算法对光照不均匀的所述场景数据进行均匀处理,以得到均匀场景数据;
所述筛选模块,用于筛选掉所述均匀场景数据中的朝向偏差数据,以得到候选场景数据,所述朝向偏差数据为与其他所述均匀场景数据的朝向差距较大的数据;
所述预处理模块,用于对所述候选场景数据进行特征提取和预处理;
所述聚类模块,用于通过设置聚类数目,对处理后的候选场景数据完成聚类;
所述第二筛选子模块,用于若所述聚类中心之间的距离大于距离阈值,则筛选掉所述候选场景数据中的稀疏视角数据,以得到稠密场景数据,所述聚类结果为表征聚类中心之间的距离是否大于距离阈值的结果;
所述训练模块,用于基于所述稠密场景数据,训练神经辐射场。
6.一种神经辐射场训练设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至4中任一项所述的方法的各个步骤。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至4中任一项所述的方法的各个步骤。
CN202310479215.5A 2023-04-28 2023-04-28 一种神经辐射场训练方法、装置、设备及介质 Active CN116433822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310479215.5A CN116433822B (zh) 2023-04-28 2023-04-28 一种神经辐射场训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310479215.5A CN116433822B (zh) 2023-04-28 2023-04-28 一种神经辐射场训练方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116433822A CN116433822A (zh) 2023-07-14
CN116433822B true CN116433822B (zh) 2023-11-07

Family

ID=87089006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310479215.5A Active CN116433822B (zh) 2023-04-28 2023-04-28 一种神经辐射场训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116433822B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977525B (zh) * 2023-07-31 2024-03-01 之江实验室 一种图像渲染方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022167602A2 (en) * 2021-02-04 2022-08-11 Deepmind Technologies Limited Rendering new images of scenes using geometry-aware neural networks conditioned on latent variables
CN115049783A (zh) * 2022-05-20 2022-09-13 支付宝(杭州)信息技术有限公司 模型的确定方法、场景重建模型、介质、设备及产品
CN115359195A (zh) * 2022-07-18 2022-11-18 北京建筑大学 一种正射影像生成方法、装置、存储介质和电子设备
CN115841559A (zh) * 2022-12-30 2023-03-24 遥在(山东)数字科技有限公司 一种基于神经辐射场的城市大场景重建方法
CN116012515A (zh) * 2022-12-29 2023-04-25 华为技术有限公司 一种神经辐射场网络训练方法以及相关设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220292781A1 (en) * 2021-03-10 2022-09-15 Apple Inc. Generative scene networks
CN113688907B (zh) * 2021-08-25 2023-07-21 北京百度网讯科技有限公司 模型训练、视频处理方法,装置,设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022167602A2 (en) * 2021-02-04 2022-08-11 Deepmind Technologies Limited Rendering new images of scenes using geometry-aware neural networks conditioned on latent variables
CN115049783A (zh) * 2022-05-20 2022-09-13 支付宝(杭州)信息技术有限公司 模型的确定方法、场景重建模型、介质、设备及产品
CN115359195A (zh) * 2022-07-18 2022-11-18 北京建筑大学 一种正射影像生成方法、装置、存储介质和电子设备
CN116012515A (zh) * 2022-12-29 2023-04-25 华为技术有限公司 一种神经辐射场网络训练方法以及相关设备
CN115841559A (zh) * 2022-12-30 2023-03-24 遥在(山东)数字科技有限公司 一种基于神经辐射场的城市大场景重建方法

Also Published As

Publication number Publication date
CN116433822A (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN110570371B (zh) 一种基于多尺度残差学习的图像去雾方法
CN110956661B (zh) 基于双向单应矩阵的可见光与红外相机动态位姿计算方法
US20230169677A1 (en) Pose Estimation Method and Apparatus
CN110910437B (zh) 一种复杂室内场景的深度预测方法
CN103841298B (zh) 一种基于颜色恒量和几何不变特征的视频稳像方法
CN113688907B (zh) 模型训练、视频处理方法,装置,设备以及存储介质
CN112348747A (zh) 图像增强方法、装置及存储介质
CN110910456B (zh) 基于Harris角点互信息匹配的立体相机动态标定方法
CN111553845B (zh) 一种基于优化的三维重建的快速图像拼接方法
CN116433822B (zh) 一种神经辐射场训练方法、装置、设备及介质
CN110930411A (zh) 一种基于深度相机的人体分割方法及系统
Fan et al. Multiscale cross-connected dehazing network with scene depth fusion
Goncalves et al. Deepdive: An end-to-end dehazing method using deep learning
CN111626951A (zh) 一种基于内容感知信息的图像阴影消除方法
CN113065506B (zh) 一种人体姿态识别方法及系统
Tan et al. High dynamic range imaging for dynamic scenes with large-scale motions and severe saturation
CN110910457B (zh) 基于角点特征的多光谱立体相机外参计算方法
Peng et al. PDRF: progressively deblurring radiance field for fast scene reconstruction from blurry images
CN112132743B (zh) 可自适应光照的视频换脸方法
CN115953460A (zh) 基于自监督深度学习的视觉里程计方法
Chen et al. GADO-Net: an improved AOD-Net single image dehazing algorithm
Yu et al. Single image dehazing based on the fusion of multi-branch and attention mechanism
CN117593702B (zh) 远程监控方法、装置、设备及存储介质
CN116310408B (zh) 一种建立事件相机与帧相机数据关联的方法及装置
Liu et al. A low-light image enhancement method based on atmospheric scattering model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant