CN117853632A - 基于视图增强的用于神经渲染的方法和装置 - Google Patents
基于视图增强的用于神经渲染的方法和装置 Download PDFInfo
- Publication number
- CN117853632A CN117853632A CN202310808415.0A CN202310808415A CN117853632A CN 117853632 A CN117853632 A CN 117853632A CN 202310808415 A CN202310808415 A CN 202310808415A CN 117853632 A CN117853632 A CN 117853632A
- Authority
- CN
- China
- Prior art keywords
- image
- original training
- training
- nsr
- enhanced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000009877 rendering Methods 0.000 title claims abstract description 24
- 230000001537 neural effect Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 306
- 230000011218 segmentation Effects 0.000 claims abstract description 69
- 230000006870 function Effects 0.000 claims description 89
- 239000002131 composite material Substances 0.000 claims description 43
- 230000015654 memory Effects 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000002834 transmittance Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 19
- 238000003860 storage Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
提供了一种基于视图增强的用于神经渲染的方法和装置。一种训练神经场景表示(NSR)模型的方法包括:接收目标场景的原始训练图像,该原始训练图像分别对应于目标场景的基本视图;通过扭曲原始训练图像来生成目标场景的增强图像,该增强图像分别对应于目标场景的新视图;对原始训练图像和增强图像执行背景‑前景分割,以生成分割掩模;以及通过使用原始训练图像、增强图像和分割掩模来训练神经场景表示(NSR)模型以将其配置为用于目标场景的体积渲染。
Description
相关申请的交叉引用
本申请要求于2022年10月7日在韩国知识产权局提交的韩国专利申请No.10-2022-0128898和于2022年12月19日在韩国知识产权局提交的韩国专利申请No.10-2022-0178564的优先权,其全部公开内容通过引用合并于此以用于所有目的。
技术领域
以下描述涉及一种基于图像增强的用于神经渲染的方法和装置。
背景技术
三维(3D)渲染是计算机图形的领域,用于将3D场景渲染为二维(2D)图像。3D渲染可以用于各种应用领域,例如3D游戏、虚拟现实、动画、电影特效等。神经渲染可以涉及使用神经网络将3D场景变换为2D输出图像。神经网络可以基于深度学习来训练,然后通过将输入数据和输出数据映射成彼此非线性关系来根据目的执行推理。生成这种映射的训练能力可以被称为神经网络的学习能力。深度神经网络可以通过训练真实场景的图像来观察真实场景,从而学习场景的建模和渲染。
发明内容
提供本发明内容以用简化形式介绍对下面在具体实施方式中进一步描述的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征,也不意在帮助确定所请求保护的主题的范围。
在一个总体方面,一种训练神经场景表示(NSR)模型的方法包括:接收目标场景的原始训练图像,该原始训练图像分别对应于目标场景的基本视图;通过扭曲原始训练图像来生成目标场景的增强图像,该增强图像分别对应于目标场景的新视图;对原始训练图像和增强图像执行背景-前景分割,以生成分割掩模;以及通过使用原始训练图像、增强图像和分割掩模来训练神经场景表示(NSR)模型以将其配置为用于目标场景的体积渲染。
增强图像的生成可以包括:确定转换函数,该转换函数用于将原始训练图像中的第一原始训练图像的基本视图中的第一基本视图的相机姿态转换为增强图像中的第一增强图像的新视图中的第一新视图的相机姿态;以及通过使用第一原始训练图像的相机固有参数、与第一原始训练图像相对应的原始深度图、以及转换函数扭曲第一原始训练图像,来生成第一增强图像。
NSR模型的训练可以包括:使用原始训练图像、增强图像、分割掩模和第一损失函数来执行NSR模型的初级训练;以及使用原始训练图像和第二损失函数来执行NSR模型的次级训练。
第一损失函数可以基于(i)来自原始训练图像和增强图像的实际像素值与(ii)由NSR模型估计的像素值之间的像素误差,并且第二损失函数基于原始训练图像与由NSR模型估计的合成图像之间的像素误差、原始训练图像与合成图像之间的语义一致性、以及根据射线的透射率的不确定性。
初级训练的执行可以包括:从原始训练图像和增强图像中选择第一样本图像;根据定义第一射线的第一查询输入来确定NSR模型的第一查询输出;基于分割掩模,从第一样本图像的前景区域和第一样本图像的背景区域中确定第一射线所属的目标区域;以及基于由第一射线指定的目标区域的第一像素的实际像素值和根据第一查询输出的估计像素值,来确定第一损失函数的损失值。
目标区域的确定可以包括:通过将分割掩模中的与第一样本图像相对应的第一分割掩模应用于第一样本图像来划分第一样本图像的前景区域和第一样本图像的背景区域;当第一射线指示第一样本图像的前景区域时,确定第一样本图像的前景区域是目标区域;以及当第一射线指示第一样本图像的背景区域时,确定第一样本图像的背景区域是目标区域。
次级训练的执行可以包括:通过使用NSR模型,根据原始训练图像中的第一原始训练图像的第一射线集来生成第一合成图像;估计第一原始训练图像的区块的第一语义特性和第一合成图像的区块的第二语义特性;基于第一语义特性和第二语义特性之间的差异,确定第一原始训练图像与第一合成图像之间的语义一致性;以及基于所确定的语义一致性来确定第二损失函数的损失值。
次级训练的执行可以包括:基于原始训练图像中的第一原始训练图像的射线的采样点的体积密度和透射率的乘积,确定采样点的权重;以及基于所确定的权重来确定第二损失函数的损失值。
原始训练图像的数量可以被限制为预定数量。
在一个总体方面,一种训练装置包括:一个或多个处理器;以及存储器,存储指令,该指令被配置为使一个或多个处理器:接收目标场景的原始训练图像;通过扭曲原始训练图像来生成目标场景的增强图像;通过对原始训练图像和增强图像执行前景-背景分割来确定原始训练图像和增强图像的前景-背景分割掩模;以及通过使用原始训练图像、增强图像和前景-背景分割掩模来训练神经场景表示(NSR)模型以将其配置为用于目标场景的体积渲染。
原始训练图像可以分别与基本相机姿态相关联,增强图像可以分别与新相机姿态相关联,并且NSR模型的训练也可以使用基本相机姿态和新相机姿态。
为了生成增强图像,该指令还可以被配置为使一个或多个处理器:确定用于将原始训练图像中的第一原始训练图像的基本相机姿态转换为增强图像中的第一增强图像的新相机姿态的转换函数;以及通过使用第一原始训练图像的相机固有参数、与第一原始训练图像相对应的原始深度图、以及转换函数扭曲第一原始训练图像,来生成第一增强图像。
为了训练NSR模型,该指令还可以被配置为使一个或多个处理器:使用原始训练图像、增强图像、前景-背景分割掩模和第一损失函数来执行NSR模型的初级训练;以及使用原始训练图像和第二损失函数来执行NSR模型的次级训练。
第一损失函数可以基于原始训练图像和增强图像的实际像素值与由NSR模型估计的像素值之间的像素误差,并且第二损失函数可以基于原始训练图像与由NSR模型估计的合成图像之间的像素误差、原始训练图像与合成图像之间的语义一致性、以及根据射线的透射率的不确定性。
为了执行初级训练,该指令还可以被配置为使一个或多个处理器:从原始训练图像和增强图像中选择第一样本图像;根据指示第一射线的第一查询输入来确定NSR模型的第一查询输出;基于前景-背景分割掩模,在第一样本图像的前景区域和第一样本图像的背景区域中确定第一射线所属的目标区域;以及基于由第一射线指定的目标区域的第一像素的实际像素值和根据第一查询输出的估计像素值,来确定第一损失函数的损失值。
为了确定目标区域,该指令还可以被配置为使一个或多个处理器:通过将前景-背景分割掩模中的与第一样本图像相对应的第一前景-背景分割掩模应用于第一样本图像来划分第一样本图像的前景区域和第一样本图像的背景区域;当第一射线指示第一样本图像的前景区域时,确定第一样本图像的前景区域是目标区域;以及当第一射线指示第一样本图像的背景区域时,确定第一样本图像的背景区域是目标区域。
为执行次级训练,该指令还可以被配置为使一个或多个处理器:通过使用NSR模型,根据原始训练图像中的第一原始训练图像的第一射线集来生成第一合成图像;估计第一原始训练图像的多级区块的第一语义特性和第一合成图像的多级区块的第二语义特性;基于第一语义特性和第二语义特性之间的差异,确定第一原始训练图像和第一合成图像之间的语义一致性;以及基于所确定的语义一致性来确定第二损失函数的损失值。
在另一总体方面,一种电子设备包括:相机,其生成目标场景的各个原始相机姿态的原始训练图像;以及一个或多个处理器;存储器,存储指令,该指令被配置为使一个或多个处理器:通过扭曲原始训练图像来生成目标场景的各个增强图像相机姿态的增强图像;通过对原始训练图像和增强图像执行分割来确定用于划分原始训练图像和增强图像的区域的分割掩模;以及通过使用原始训练图像及其各自的原始相机姿态、增强图像及其各自的增强图像相机姿态、以及分割掩模来训练用于目标场景的体积渲染的神经场景表示(NSR)模型。
为了生成增强图像,该指令还可以被配置为使一个或多个处理器:确定用于将原始训练图像中的第一原始训练图像的第一原始相机姿态转换为增强图像中的第一增强图像的增强图像相机姿态中的第一增强图像相机姿态的转换函数;以及通过使用转换函数扭曲第一原始训练图像来生成第一增强图像。
为了训练NSR模型,该指令还可以被配置为使一个或多个处理器:使用原始训练图像、增强图像、分割掩模和第一损失函数来执行NSR模型的初级训练;以及使用原始训练图像和第二损失函数来执行NSR模型的次级训练,其中,第一损失函数基于原始训练图像和增强图像的实际像素值与由NSR模型估计的像素值之间的像素误差,并且其中,第二损失函数基于原始训练图像与由NSR模型估计的合成图像之间的像素误差、原始训练图像与合成图像之间的语义一致性、以及根据射线的透射率的不确定性。
其他特征和方面将通过以下详细描述、附图和权利要求而是显然的。
附图说明
图1示出了根据一个或多个实施例的示例神经场景表示。
图2示出了根据一个或多个实施例的使用神经场景表示(NSR)模型的示例渲染操作。
图3示出了根据一个或多个实施例的形成训练数据的示例过程。
图4示出了根据一个或多个实施例的通过图像/视图增强来生成增强图像的示例过程。
图5示出了根据一个或多个实施例的使用分割掩模将原始训练图像和增强图像分割为前景区域和背景区域的示例过程。
图6示出了根据一个或多个实施例的使用训练图像训练NSR模型的示例过程。
图7示出了根据一个或多个实施例的基于语义特性导出损失值的示例过程。
图8示出了根据一个或多个实施例的基于信息势导出损失值的示例。
图9示出了根据一个或多个实施例的训练NSR模型的示例方法。
图10示出了根据一个或多个实施例的训练装置的示例配置。
图11示出了根据一个或多个实施例的电子设备的示例配置。
在整个附图和详细描述中,除非另有描述或提供,否则相同或相似的附图标记将被理解为指代相同或相似的元件、特征以及结构。附图可以不按比例绘制,并且为了清楚、说明和方便,可以扩大附图中元件的相对尺寸、比例和描绘。
具体实施方式
提供以下详细描述以帮助读者获得对本文描述的方法、装置和/或系统的全面理解。然而,在理解了本申请的公开之后,本文中描述的方法、装置和/或系统的各种改变、修改和等同物将是显而易见的。例如,本文中描述的操作顺序仅仅是示例,并且不限于在本文中阐述的那些操作顺序,而是可以在理解本申请的公开之后明显改变,除了必须以一定顺序进行的操作之外。此外,为了更加清楚和简洁,可以省略在理解了本申请的公开之后对已知特征的描述。
本文描述的特征可以以不同形式来实施,并且不应被解释为限于本文描述的示例。相反,提供本文中描述的示例仅仅是为了说明实现本文中描述的方法、装置和/或系统的许多可行方式中的一些,在理解本申请的公开之后这些方式将显而易见。
本文中使用的术语仅用于描述各种示例,而不用于限制本公开。除非上下文另外明确指示,否则冠词“一”、“一个”和“该”也意在包括复数形式。如本文中所使用的,术语“和/或”包括关联列出的项目中的任何一个以及任何两个或更多个的任何组合。作为非限制性示例,术语“包括”、“包含”和“具有”表示存在所阐述的特征、数目、操作、构件、元件和/或其组合,但并不排除存在或添加一个或多个其他特征、数目、操作、构件、元件和/或其组合。
贯穿说明书,当组件或元件被描述为“连接到”、“耦接到”或“接合到”另一组件或元件时,它可以直接“连接到”、“耦接到”或“接合到”该另一组件或元件,或者可以合理地存在介于其间的一个或多个其他组件或元件。当组件或元件被描述为“直接连接到”、“直接耦接到”或“直接接合到”另一组件或元件时,可以不存在介于其间的其他元件。同样,例如“在...之间”和“紧接在...之间”以及“邻近”和“紧邻”的表述也可以如前文所述地被解释。
尽管本文中可以使用诸如“第一”、“第二”和“第三”、或“A”、“B”、(a)、(b)之类的术语来描述各种构件、组件、区域、层或部分,但这些构件、组件、区域、层或部分不应受这些术语的限制。例如,这些术语中的每一个不用于限定对应的构件、组件、区域、层或部分的实质、顺序或序列,而仅用于将对应的构件、组件、区域、层或部分与其他构件、组件、区域、层或部分区分开来。因此,在不脱离示例的教导的情况下,在本文中描述的示例中提及的第一构件、组件、区域、层或部分也可以被称为第二构件、组件、区域、层或部分。
除非另外定义,否则这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员基于对本申请的公开的理解通常所理解的含义相同的含义。诸如在常用词典中定义的术语应被解释为其含义与在相关技术的上下文和本申请的公开中的含义一致,而不应被解释为理想的或过于形式化的含义,除非本文明确地如此定义。在本文中,关于示例或实施例(例如,关于示例或实施例可以包括或实现什么)的术语“可以”的使用意味着存在至少一个包括或实现这种特征的示例或实施例,而所有示例不限于此。
图1示出了根据一个或多个实施例的神经场景表示的示例。
根据示例,三维(3D)空间的场景可以由神经场景表示(NSR)模型使用3D空间中的点来表示。图1示出了从指定3D空间中的点和方向的查询输入110导出与该点和方向相对应的NSR数据130的示例。NSR模型120可以基于查询输入110的输入来输出NSR数据130。NSR模型120可以是被设计和训练以从查询输入110输出NSR数据130的模块,并且可以包括例如神经网络。
图1示出了两个示例查询输入点。查询输入110可以包括表示3D空间中的对应点的坐标和3D空间中的视图方向。视图方向可以表示从面向要被合成和/或重建的二维(2D)场景(其图像)的视点穿过像素和/或与该像素相对应的点的方向(例如,图1的射线1或射线2)。在图1中,作为查询输入110的示例,示出了(x,y,z)的坐标和(θ,φ)的方向信息。(x,y,z)是根据基于预定原点的笛卡尔坐标系的坐标,并且(θ,φ)是视图方向相对于两个预定参考轴(例如,z轴的正方向和x轴的正方向)的角度。
NSR数据130可以是表示从若干个视图方向观察到的3D空间的场景的数据(即,神经场景表示),并且可以包括例如神经辐射场(NeRF)数据。NSR数据130可以包括对于3D空间的每个点和对于3D空间的每个视图方向的颜色信息和体积密度151和152。颜色信息可以包括根据颜色空间的颜色值(例如,根据RGB颜色空间的红色值、绿色值和蓝色值)。预定点/射线的体积密度151和152即σ可以被解释为对应射线在(例如,来自射线行进的)对应点的无穷小粒子处结束的可能性(例如,差分概率)。在图1所示的体积密度151和152的曲线图中,水平轴表示距视图方向上的视点的沿着射线的距离,并且竖直轴表示作为距离的函数的体积密度的值。也可以根据视图方向上的射线距离来确定颜色值(例如,RGB值)。然而,NSR数据130不限于以上描述,并且可以根据设计而变化。
NSR模型120(例如,神经网络)可以通过深度学习来学习对应于3D场景信息的NSR数据130。可以通过根据查询输入110从NSR模型120输出NSR数据130来渲染由查询输入110指定的特定视图的图像。NSR模型120可以包括基于多层感知器(MLP)的神经网络。对于指定射线的点和方向的(x,y,z,θ,φ)的查询输入110,可以训练神经网络以输出对应点的数据(RGB值、体积密度151和152)。例如,可以针对2D场景图像191和192的每个像素定义视图方向,并且可以通过神经网络操作来计算视图方向上的所有采样点的输出值(例如,NSR数据130)。图1示出了从前方观察到的车辆对象的2D场景图像191和从侧面观察到的车辆对象的2D场景图像192。
对于3D场景的各种视图的大量训练图像可以由NSR模型120处理,以学习3D场景,以从任意相应视图提供对2D场景的渲染。通过实际拍摄确保大量训练图像可能很困难。根据示例,可以通过基于图像扭曲的数据增强从基本视图的几个(稀疏)原始训练图像中导出各种新视图的多个增强图像。NSR模型120可以通过原始训练图像和增强图像来学习3D场景。补偿增强图像的不完整性的方法可以用于基于增强图像的训练。
图2示出了根据一个或多个实施例的使用NSR模型的渲染操作的示例。可以通过图像生成操作200从针对3D空间的查询输入210生成2D图像290。为了生成2D图像290,可以定义从查询输入210的视点朝向2D图像290的每个像素的视图方向。视点可以是例如具有预定视野(FOV)的虚拟相机被建模为捕获与2D图像290相对应的场景所处的位置。对于2D图像290的每个像素,查询输入210包括(或指定)分别对应的视图方向。可以沿着各个方向对射线进行采样;每条射线上可以存在采样点,并且可以生成指示射线上的每个采样点的坐标。
可以分别计算与2D图像290的一个像素相对应的对于视图方向上的射线上的采样点的查询输出230。查询输出230可以包括颜色信息和体积密度(或透明度)。可以使用针对2D图像290的相同像素(针对2D图像的每个像素)计算的查询输出来执行体积渲染240。体积渲染240可以包括根据各个视图方向累积颜色信息和体积密度的操作。基于NSR模块220(针对查询输入)的在视图方向上的射线的采样点的查询输出,可以通过累积针对射线的采样点计算的颜色信息和体积密度来确定对应于视图方向的像素信息。可以通过针对2D图像290的每个像素执行体积渲染240来确定2D图像290中包括的像素的像素值(例如,像素的颜色值)。可以通过以上述方式获得2D图像290的所有像素的像素值来生成2D图像290。
图3示出了根据一个或多个实施例的形成训练数据的示例过程。参见图3,可以生成或获得目标场景的各个基本视图的原始训练图像310(视图可以是位置和方向,例如相机姿态)。可以通过实际拍摄来生成原始训练图像310(可以针对所捕获的每个原始训练图像来捕获基本视图)。可以通过原始训练图像310的增强来生成增强图像320。增强可以包括图像扭曲。可以执行图像扭曲,使得增强图像320具有不同于基本视图的相应新视图。原始训练图像310和增强图像320中的每一个可以具有不同的相应视图。
原始训练图像310的数量可以被限制为预定数量。预定数量可以是人可以容易捕获到的小数量(例如,在10以内)。增强图像320的数量可以远大于原始训练图像310的数量。增强图像320的数量可以是人不便于捕获的数量(例如,大于或等于1000)。例如,当基本视图的相机姿态在x轴、y轴和z轴方向上在30度范围内旋转5度增量时,可以确定2196个增强视图。通过数据增强,各种视图的增强图像320可以足以训练NSR模型以学习在原始图像和增强图像中表示的3D场景。
通过对原始训练图像310和增强图像320进行的基于语义的分析,可以生成用于分离原始训练图像310和增强图像320的前景和背景的分割掩模330。分割掩模330可以对应于显著性图(saliency map)。NSR模型可以基于分割掩模330来分割原始训练图像310和增强图像320的前景和背景,这可以用于学习3D场景。
基于语义的分析可以包括语义分割。如接下来所说明的,可以基于语义分析来提高增强图像320作为训练数据的适用性。在数据增强期间,在增强图像320中可能形成不完整区域(例如,“孔洞”)。基于语义分析,可以将不完整区域分类为前景或背景。通过这种分类,可以降低不完整区域的不完整性的程度。这种基于语义的分析可以提高NSR模型在学习3D场景时的准确性。
图4示出了根据一个或多个实施例的通过图像/视图增强来生成增强图像的示例过程。参考图4,可以捕获3D空间410中的3D场景411作为基本相机姿态Pn,并且可以生成基本相机姿态Pn的原始训练图像In。变量n表示这些原始训练图像和对应的基本姿态/视图的数量。可以基于增强相机姿态P′m对原始训练图像In(作为示例)执行图像扭曲,并且可以基于增强相机姿态P′m来生成(增强视图的)增强图像I′m。变量m表示增强图像的数量。
基于原始数据集π和增强相机姿态P′m,可以根据图像扭曲(例如,前向扭曲)来生成示例增强图像I′m。下面所示的等式1可以用于图像扭曲。
等式1
p′=KTP→P′D(p)K-1p
在等式1中,K表示用于捕获原始训练图像In的相机固有参数(例如,焦距、光圈、视野、分辨率等)的矩阵,TP→P′表示用于将基本相机姿态(P)转换为增强相机姿态(P′)的转换函数,D表示深度图,p表示原始训练图像In的像素值,以及p′表示增强图像I′m的像素值。K-1表示K的逆矩阵,并且D(p)表示像素值p的深度。可以通过原始训练图像In的像素值来确定原始训练图像In的原始深度图。备选地,可以通过各种方法获得深度图,该各种方法包括使用深度相机、从3D模型(例如,点云)获得的数据等。可以通过使用固有参数K、原始深度图和转换函数TP→P′将原始训练图像In扭曲为增强图像I′m来生成扭曲结果。
根据示例,图像增强可以包括对于图像扭曲结果的附加图像处理。例如,附加图像处理可以包括喷涂,即,对由扭曲引起的遮挡区域进行着色。通过喷涂,可以减小由图像扭曲处理引起的扭曲误差。根据示例,图像增强可以包括两个增强操作。第一操作可以涉及图像扭曲。第二操作可以涉及对图像扭曲结果之间的视图进行插值。例如,可以通过对第一视图的图像扭曲结果(第一扭曲图像)和第二视图的图像扭曲结果(第二扭曲图像)进行插值来导出中间视图(第一视图和第二视图之间的视图)的增强图像。在图4中,X′m表示增强图像I′m和增强相机姿态P′m的增强数据集,并且X′表示一组增强数据集X′m。
图5示出了根据一个或多个实施例的使用分割掩模将原始训练图像和增强图像分割为前景区域和背景区域的示例过程。参考图5,可以从原始训练图像510和增强图像520中选择样本图像530,并且可以基于分割掩模540将样本图像530划分/分割为前景区域531和背景区域532。分割掩模540中的每一个可以将各个原始训练图像510和增强图像520中的每一个划分为前景区域(例如,前景531)和背景区域(例如,背景532)。例如,第一分割掩模可以将第一增强图像划分为第一前景区域和第一背景区域,第二分割掩模可以将第二增强图像划分为第二前景区域和第二背景区域,以及第三分割掩模可以将第三原始图像划分为第三前景区域和第三背景区域。
可以通过原始训练图像510和增强图像520的语义分割来确定分割掩模540。根据示例,被实现为神经网络的分割模型可以用于语义分割。例如,分割模型可以包括视觉转换器(ViT)。然而,可以使用前景-背景分割的任何方法。
增强图像520可以包括由于图像扭曲引起的扭曲误差。基于语义分割的分割掩模540可以减少扭曲误差的影响。不是直接地使用增强图像520来训练NSR模型,而是将增强图像520划分为前景区域和背景区域,并使用前景区域和背景区域来训练NSR模型,这可以有助于提高NSR模型对3D场景的学习准确性。
更具体地,当选择样本图像530并且基于指示第一射线的第一查询输入来确定NSR模型的第一查询输出时,可以使用分割掩模540(例如,对应于样本图像530的分割掩模)来确定第一射线到达的目标区域是样本图像530的前景区域531(或在样本图像530的前景区域531中)还是样本图像530的背景区域532(或在样本图像530的背景区域532中)。可以通过应用分割掩模540中的与样本图像530相对应的分割掩模来划分样本图像530的前景区域531和背景区域532。当第一射线指示样本图像530的前景区域531时,样本图像530的前景区域531可以被确定为目标区域。当第一射线指示样本图像530的背景区域532时,样本图像530的背景区域532可以被确定为目标区域。
可以基于由第一射线指定的目标区域的第一像素的实际像素值与基于第一查询输出的估计像素值之间的像素误差来训练NSR模型。可以重复地计算根据样本图像530的其他射线的像素误差和根据原始训练图像510和增强图像520的其他样本图像的像素误差,并且可以基于像素误差重复地训练NSR模型。可以确定损失函数的根据像素误差的损失值,并且可以在损失值减小的方向上训练NSR模型(赋予更多权重)。
图6示出了根据一个或多个实施例的使用训练图像训练NSR模型的示例过程。参考图6,可以基于前景区域图像611、背景区域图像612和原始训练图像620(其不是增强图像)来训练NSR模型630。可以以两个步骤训练NSR模型630,该两个步骤是初级训练和次级训练。初级训练可以对应于NSR模型630的初始化,并且次级训练可以对应于NSR模型630的精调。在基于预定迭代计数(或任何其他停止条件)执行初级训练之后,可以执行次级训练。
用于初级训练过程的初级训练数据集可以包括原始训练图像、增强图像和分割掩模。可以通过根据分割掩模对从原始训练图像和增强图像中采样的样本图像进行分割来确定前景区域图像611和背景区域图像612。因此,在一些情况下,由于前景区域图像和背景区域图像可能来自增强图像而不是原始训练图像620,原始训练图像620可能不同于前景区域图像611和背景区域图像612(作为整体来考虑)。前景区域图像611和背景区域图像612可以被称为初级训练图像。初级训练数据集还可以包括分别对应于初级训练图像的相机姿态。
对于初级训练图像,可以定义代表性射线rf和rb以及射线rf和rb上的采样点。射线rf是针对前景区域图像611定义的,并且射线rb是针对背景区域图像612定义的。射线集Rf和Rb可以分别包括多条射线和每条射线上的采样点。射线集Rf的射线对应于代表性射线rf,并且射线集Rb的射线对应于代表性射线rb。换言之,Rf是与前景相交的射线集,并且Rb是与背景相交的射线集。NSR模型630可以根据射线集Rf和Rb基于查询输入来输出合成图像640。例如,NSR模型630可以根据前景区域图像611的射线集Rf基于查询输入来输出与前景区域图像611的估计版本相对应的合成图像640,并且可以根据背景区域图像612的射线集Rb基于查询输入来输出与背景区域图像612的估计版本相对应的合成图像640。
可以使用原始训练图像、增强图像、分割掩模和第一损失函数来执行NSR模型的初级训练。在初级训练过程中,可以基于第一损失函数661来训练NSR模型630。可以基于合成图像640和训练图像650之间的像素误差来定义第一损失函数661。在初级训练中,训练图像650可以对应于包括前景区域图像611和背景区域图像612的样本图像。可以仅通过一些像素而不是整个图像来确定像素误差(下面进行讨论)。第一损失函数661可以基于前景区域图像611和背景区域图像612的实际像素值与由NSR模型630估计的对应像素值之间的像素误差来确定损失。在使用该像素误差的初级训练过程中,可以基于合成图像640的一些像素的像素误差来训练NSR模型630。在这种情况下,可以任意地(例如,随机地)确定一些像素以及到这些像素的射线rf和rb。
第一损失函数661可以用硬件和/或指令来实现,该硬件和/或指令被配置为由下面的等式2和3表示。可以通过等式2来计算根据前景区域图像611的射线rf的损失,并且可以通过等式3来计算根据背景区域图像612的射线rb的损失。
在概念上,第一损失函数是针对由NSR模型预测的像素值与真实图像(例如,训练图像650)的像素相比的损失。等式2和3中的每一个具有(i)与由NSR模型的精细子模型预测的像素值的损失相对应的第一项以及(ii)与由NSR模型的粗略子模型预测的像素值的损失相对应的第二项。第一损失函数可以被划分为前景部分(等式2)和背景部分(等式3)。等式2是基于前景区域图像611的预测像素值与训练图像650的对应前景像素值之间的差异,并且等式3是基于背景区域图像612的预测像素值与训练图像650的对应背景像素值之间的差异。总结一下,第一损失函数可以具有针对前景损失的等式2和针对背景损失的等式3。
等式2
等式3
在等式2和3中,下标“c”表示“粗略”(在下面讨论NSR模型630的粗略子模型),并且下标“f”表示“精细”(也在下面讨论NSR模型630的精细子模型)。在等式2和3中,LMSE表示第一损失函数661,θ表示NSR模型630,表示通过执行NSR模型630的第一(粗略)子模型而估计的根据r的像素值,以及/>表示通过执行NSR模型630的第二(精细)子模型而估计的根据r的像素值。
在等式2中,Rf表示前景区域图像611的射线集,并且C(r)表示训练图像650的根据r的像素值。等式2的射线r可以对应于射线rf。
在等式3中,Rb表示背景区域图像612的射线集,BG(例如,Cf(r))表示背景区域图像612的根据r的像素值,并且表示通过执行NSR模型630的第二子模型而估计的根据r的像素值。当背景区域的颜色固定时,BG可以具有预定值,并且当背景的颜色多种多样时,BG可以具有各种值。等式3可以假设背景区域的颜色是固定的。在这种情况下,BG可以具有0或255的值。当背景区域的颜色多种多样时,BG可以被确定为训练图像650的像素值,如等式2。等式3的射线r可以对应于射线rb。
如上所述,根据示例,NSR模型630可以被建模为包括第一子模型和第二子模型。第一子模型可以是粗略网络,并且第二子模型可以是精细网络。第一子模型可以使用均匀分布的采样点。第二子模型可以使用在高密度区域中具有高密度的采样点(例如,在高密度区域中存在较高采样率、较高特征变化率等)。第二子模型可以使用比第一子模型更多的采样点。
等式2、3和4(下面)可以假设NSR模型630包括所提到的第一子模型和第二子模型。然而,与等式2、3和4不同,所实现的NSR模型630可以仅是单个模型(或用于NSR建模目的的事实上的单个模型)。在这种情况下,应当注意,等式2、3和4具有两个像素误差项(针对各个子模型),可以通过根据NSR模型计算其中一个像素误差项并根据前景或背景区域(视情况而定)计算另一个像素误差项来计算第一损失函数661。例如,可以使用NSR模型来估计根据第一射线的第一像素值(针对第一像素误差项),可以从与第一射线相对应的前景区域图像611或背景区域图像612中提取根据第一射线的第二像素值(针对第二像素误差项),并且可以基于第一像素值和第二像素值之间的像素误差来确定第一损失函数的损失值。当第一射线指示前景区域时,可以从前景区域图像611中提取第二像素值,而当第一射线指示背景区域时,可以从背景区域图像612中提取第二像素值。
用于次级训练过程的次级训练数据集可以包括原始训练图像,例如原始训练图像620。可以使用原始训练图像和第二损失函数来执行NSR模型的次级训练。原始训练图像620可以被称为次级训练图像。次级训练数据集还可以包括分别对应于次级训练图像的相机姿态。对于次级训练图像,可以定义射线r和该射线r上的采样点。射线集R可以包括多条射线和每条射线上的采样点。射线集R中的多条射线可以对应于射线r。
NSR模型630可以根据射线集R基于查询输入来输出合成图像640。例如,NSR模型630可以根据原始训练图像620的射线集R基于查询输入来输出与原始训练图像620的估计版本相对应的合成图像640。在次级训练过程中,可以基于原始训练图像620和第二损失函数来训练NSR模型630。可以基于原始训练图像620与由NSR模型630估计的合成图像640之间的像素误差、原始训练图像620与合成图像640之间的语义一致性、以及根据射线的透射率的不确定性来定义第二损失函数。
第二损失函数的像素误差的子损失函数可以由等式4定义。
等式4
在等式4中,LMSE表示第二损失函数,θ表示NSR模型630,R表示原始训练图像620的射线集,表示通过执行NSR模型630的第一子模型而估计的根据r的像素值,C(r)表示训练图像650的根据r的像素值,以及/>表示通过执行NSR模型630的第二子模型而估计的根据r的像素值。等式4的r可以对应于射线r。在次级训练中,训练图像650可以对应于原始训练图像620。
可以基于针对多级语义误差的子损失函数和/或针对信息势(informationpotential)的子损失函数来确定第二损失函数的语义一致性和根据射线的透射率的不确定性。参考图7和图8描述第二损失函数的子损失函数。可以通过一些像素而不是整个图像来确定像素误差。与像素误差不同,可能需要整个图像来准确地评估语义一致性。在从次级训练过程中完全导出合成图像640之后,可以计算通过第二损失函数的损失值。
图7示出了根据一个或多个实施例的基于语义特性导出损失值的示例过程。参考图7,可以通过裁剪并调整训练图像710的大小来生成第一多级区块730,并且可以通过裁剪并调整合成图像720的大小来生成第二多级区块740。训练图像710可以对应于原始训练图像(例如,不是增强图像)。可以通过根据原始训练图像的射线集执行NSR模型来估计合成图像720。
通过对第一多级区块730和第二多级区块740的语义分析750,可以生成第一多级区块730和第二多级区块740的语义特性760。根据示例,基于神经网络的分割模型可以用于语义分析750。例如,分割模型可以包括ViT。语义特性760可以包括第一多级区块730的第一语义特性和/>以及第二多级区块740的第二语义特性/>和/>
可以基于第一语义特性和/>与第二语义特性/>和/>之间的差异来确定多级语义误差。多级语义误差可以表示训练图像710与合成图像720之间的语义一致性。等式5可以用于确定多级语义误差。
等式5
在等式5中,LMSC表示多级语义误差的子损失函数,L表示总级数,S表示相似度(例如,余弦相似度),表示合成图像720,I表示训练图像710,以及/>表示第1级(例如,缩放/放大级别)的区块的语义特性。
图8示出了根据一个或多个实施例的基于信息势导出损失值的示例。根据示例,根据射线的透射率的不确定性可以通过使用信息势(IP)的正则化来限制。采样点的透射率与体积密度的乘积可以被视为一个权重。采样点的权重可以由原始训练图像的射线的采样点的透射率和体积密度的乘积来确定,并且第二损失函数的子损失函数的损失值可以基于根据所确定的权重的透射率的不确定性来确定。
如图8中所示,权重分布(参见w(r))可能倾向于集中在场景810的表面上。随着概率密度函数锐化,香农熵(Shannon entropy)可能降低。通过考虑这一点,当NSR模型被优化到场景810时,可以使权重分布的熵最小化。基于该特性,可以使用从Renyi二次熵导出的IP。与香农熵相比,Renyi二次熵可能更适合于基于梯度的优化。可以通过从Renyi二次熵中丢弃负对数来表示权重的IP,如等式6所示。
等式6
在等式6中,LIp表示IP的子损失函数,并且R表示射线集。等式6的可以被表示为等式7,并且等式7的wi(r)可以被表示为等式8。
等式7
等式8
wi(r)=Ti(1-exp(-σiδi))
在等式7和8中,w1(r)表示射线r的第i个采样点的权重。Ti表示自第i个采样点根据射线r的累积透射率,σi表示第i个采样点的体积密度,以及δi表示第i个采样点与第i+1个采样点之间的距离。当权重分布集中在预定区间上时,IP可增加,因此,可以通过将-1乘以LIP来执行训练过程以使LIP的值最大化。
图9示出了根据一个或多个实施例的训练NSR模型的示例方法。参考图9,在操作910中,训练装置可以接收目标场景的基本视图的原始训练图像。在操作920中,训练装置可以通过扭曲原始训练图像来生成目标场景的新视图的增强图像。在操作930中,训练装置可以通过对原始训练图像和增强图像执行语义分割来确定用于分别划分原始训练图像和增强图像的前景区域与原始训练图像和增强图像的背景区域的分割掩模。在操作940中,可以通过使用原始训练图像(及其相机姿态)、增强图像(及其增强图像相机姿态(增强姿态))和分割掩模来训练NSR模型以将其用于目标场景的体积渲染。
操作920可以包括:确定转换函数的操作,该转换函数用于将原始训练图像中的第一原始训练图像的第一基本视图的相机姿态转换为增强图像中的对应第一增强图像的第一新视图的相机姿态;以及通过使用第一原始训练图像的相机固有参数、与第一原始训练图像相对应的原始深度图和转换函数扭曲第一原始训练图像来生成第一增强图像的操作。
操作940可以包括使用原始训练图像、增强图像、分割掩模和第一损失函数来执行NSR模型的初级训练的操作。操作940也可以包括使用原始训练图像和第二损失函数来执行NSR模型的次级训练的操作。
可以基于训练图像(原始训练图像和增强图像)的实际像素值与由NSR模型估计的像素值之间的像素误差来定义第一损失函数。可以基于原始训练图像与由NSR模型估计的合成图像之间的像素误差、原始训练图像与合成图像之间的语义一致性、以及根据射线的透射率的不确定性来定义第二损失函数。
执行初级训练的操作可以包括:从原始训练图像和增强图像中选择第一样本图像;根据指示第一射线的第一查询输入来确定NSR模型的第一查询输出;基于分割掩模,在第一样本图像的前景区域和第一样本图像的背景区域中确定与第一射线相交的目标区域;以及基于由第一射线指定的目标区域的第一像素的实际像素值和根据第一查询输出的估计像素值来确定第一损失函数的损失值。
确定目标区域的操作可以包括:通过将分割掩模中的与第一样本图像相对应的第一分割掩模应用于第一样本图像来划分第一样本图像的前景区域和第一样本图像的背景区域;当第一射线指示第一样本图像的前景区域,确定第一样本图像的前景区域是目标区域;以及当第一射线指示第一样本图像的背景区域时,确定第一样本图像的背景区域是目标区域。
执行次级训练的操作可以包括:通过使用NSR模型,根据原始训练图像中的第一原始训练图像的第一射线集来生成第一合成图像;估计第一原始训练图像的多级区块的第一语义特性和第一合成图像的多级区块的第二语义特性;基于第一语义特性和第二语义特性之间的差异,确定第一原始训练图像和第一合成图像之间的语义一致性;以及基于所确定的语义一致性来确定第二损失函数的损失值。
执行次级训练的操作可以包括:基于原始训练图像中的第一原始训练图像的射线的采样点的体积密度和透射率的乘积来确定采样点的权重;以及基于所确定的权重来确定第二损失函数的损失值。
原始训练图像的数量可以被限制为预定数量。
此外,参考图1至图8、图10和图11提供的描述通常可以适用于图9的训练方法。
图10示出了根据一个或多个实施例的训练装置的示例配置。参考图10,训练装置1000可以包括处理器1010和存储器1020。存储器1020可以连接到处理器1010,并存储可由处理器1010执行的指令、要由处理器1010计算的数据、或由处理器1010处理的数据。存储器1020包括非暂时性计算机可读介质(例如,高速随机存取存储器)和/或非易失性计算机可读存储介质(例如,至少一个磁盘存储设备、闪存设备、或其他非易失性固态存储设备)。
处理器1010可以执行指令以执行图1至图9以及图11的操作。例如,处理器1010可以被配置为:接收目标场景的基本视图的原始训练图像;通过扭曲原始训练图像来生成目标场景的新视图的增强图像;通过对原始训练图像和增强图像执行语义分割,确定用于分别划分原始训练图像和增强图像的前景区域与原始训练图像和增强图像的背景区域的分割掩模;以及通过使用原始训练图像、增强图像和分割掩模来训练用于目标场景的体积渲染的NSR模型。此外,参考图1至图9以及图11提供的描述通常可以适用于训练装置1000。
图11示出了根据一个或多个实施例的电子设备的示例配置。参考图11,电子设备1100可以包括可通过通信总线1180彼此通信的处理器1110、存储器1120、相机1130、存储设备1140、输入设备1150、输出设备1160和网络接口1170。例如,电子设备1100可以实现为以下设备的至少一部分:诸如移动电话、智能电话、PDA、上网本、平板计算机或膝上型计算机的移动设备;诸如智能手表、智能手环或智能眼镜的可穿戴设备;诸如台式机或服务器的计算设备;诸如电视、智能电视或冰箱的家用电器;诸如门锁的安全设备;或诸如自动驾驶汽车或智能汽车的车辆。电子设备1100可以在结构上和/或功能上包括图1 0的训练装置1000。
处理器1110可以执行要在电子设备1100中执行的功能和指令。例如,处理器1110可以处理存储器1120或存储设备1140中存储的指令。处理器1110可以执行上面参考图1至图10描述的操作或方法中的一个或多个或全部。存储器1120可以包括计算机可读存储介质或计算机可读存储设备。存储器1120可以存储要由处理器1110执行的指令,并且可以在软件和/或应用由电子设备1100执行时存储相关信息。
相机1130可以捕获照片和/或视频。相机1130可以生成目标场景的基本视图的原始训练图像。存储设备1140包括计算机可读存储介质或计算机可读存储设备。存储设备1140可以长期存储比存储器1120更多的信息量。例如,存储设备1140可以包括磁性硬盘、光盘、闪存、软盘或本领域已知的其他非易失性存储器。
输入设备1150可以以通过键盘和鼠标的传统输入方式以及以诸如触摸输入、语音输入和图像输入的新输入方式从用户接收输入。例如,输入设备1150可以包括键盘、鼠标、触摸屏、麦克风、或检测来自用户的输入并将所检测到的输入发送给电子设备1100的任何其他设备。输出设备1160可以通过视觉、听觉或触觉通道向用户提供电子设备1100的输出。输出设备1160可以包括例如显示器、触摸屏、扬声器、振动发生器、或向用户提供输出的任何其他设备。网络接口1170可以通过有线网络或无线网络与外部设备通信。
计算装置、车辆、电子设备、处理器、存储器、图像传感器/相机、显示器、信息输出系统和硬件、存储设备、以及本文关于图1至图11描述的其他装置、设备、单元、模块和组件由硬件组件实现或表示硬件组件。在适当的情况下可以用于执行本申请中所描述的操作的硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请中所描述的操作的任何其他电子组件。在其他示例中,执行本申请中所描述的操作的一个或多个硬件组件由计算硬件(例如,由一个或多个处理器或计算机)实现。处理器或计算机可以由一个或多个处理元件(例如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望结果的任何其他设备或设备的组合)来实现。在示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件,例如,操作系统(OS)和在OS上运行的一个或多个软件应用,以执行本申请中描述的操作。硬件组件还可以响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见,在本申请中所描述的示例的描述中可以使用单数术语“处理器”或“计算机”,但在其他示例中可以使用多个处理器或计算机,或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如,单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现,并且一个或多个其他硬件组件可以由一个或多个其他处理器、或另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可以具有不同的处理配置中的任一种或多种,该处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、以及多指令多数据(MIMD)多处理。
执行本申请中所描述的操作的图1至图11中示出的方法由计算硬件执行,例如,由一个或多个处理器或计算机执行,其中计算硬件如上所述地实现为执行指令或软件以执行本申请中所描述的由这些方法执行的操作。例如,单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可以由一个或多个处理器、或者处理器和控制器执行,并且一个或多个其他操作可以由一个或多个其他处理器、或者另一处理器和另一控制器执行。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件可以被编写为计算机程序、代码段、指令或其任何组合,用于单独或共同指示或配置一个或多个处理器或计算机作为机器或专用计算机操作,从而执行由上述硬件组件和方法执行的操作。在一个示例中,指令或软件包括由一个或多个处理器或计算机直接执行的机器代码,例如由编译器产生的机器代码。在另一示例中,指令或软件包括由一个或多个处理器或计算机使用解释器执行的更高级代码。可以基于附图中所示出的框图和流程图以及本文的对应描述(其公开了用于执行由上述硬件组件和方法执行的操作的算法),使用任何编程语言来编写指令或软件。
用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件、以及任何相关联的数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或其上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储设备、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡类型的存储器(例如,多媒体卡或微型卡(例如,安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘、以及被如下配置的任何其他设备:以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构,并且向一个或多个处理器或计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构,使得该一个或多个处理器或计算机可以执行所述指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得一个或多个处理器或计算机以分布方式存储、访问和执行指令和软件以及任何相关联的数据、数据文件和数据结构。
尽管本公开包括特定示例,但在理解了本申请的公开内容之后将显而易见的是,在不脱离权利要求及其等同物的精神和范围的情况下,可以在这些示例中进行形式和细节上的各种改变。本文描述的示例应仅被认为是描述性意义的,而不是为了限制的目的。对每个示例中的特征或方面的描述应被认为适用于其他示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或被其他组件或其等同物替换或补充,则可以实现合适的结果。
因此,除上述公开内容外,本公开的范围还可以由权利要求及其等同物限定,并且在权利要求及其等同物的范围内的所有变化都应被解释为包括在本公开中。
Claims (20)
1.一种训练神经场景表示NSR模型的方法,所述方法包括:
接收目标场景的原始训练图像,所述原始训练图像分别对应于所述目标场景的基本视图;
通过扭曲所述原始训练图像来生成所述目标场景的增强图像,所述增强图像分别对应于所述目标场景的新视图;
对所述原始训练图像和所述增强图像执行背景-前景分割,以生成分割掩模;以及
通过使用所述原始训练图像、所述增强图像和所述分割掩模来训练神经场景表示NSR模型以将其配置为用于所述目标场景的体积渲染。
2.根据权利要求1所述的方法,其中,所述增强图像的生成包括:
确定转换函数,所述转换函数用于将所述原始训练图像中的第一原始训练图像的基本视图中的第一基本视图的相机姿态转换为所述增强图像中的第一增强图像的新视图中的第一新视图的相机姿态;以及
通过使用所述第一原始训练图像的相机固有参数、与所述第一原始训练图像相对应的原始深度图、以及所述转换函数扭曲所述第一原始训练图像,来生成所述第一增强图像。
3.根据权利要求1所述的方法,其中,所述NSR模型的训练包括:
使用所述原始训练图像、所述增强图像、所述分割掩模和第一损失函数来执行所述NSR模型的初级训练;以及
使用所述原始训练图像和第二损失函数来执行所述NSR模型的次级训练。
4.根据权利要求3所述的方法,其中,所述第一损失函数基于(i)来自所述原始训练图像和所述增强图像的实际像素值与(ii)由所述NSR模型估计的像素值之间的像素误差,以及
所述第二损失函数基于所述原始训练图像与由所述NSR模型估计的合成图像之间的像素误差、所述原始训练图像与所述合成图像之间的语义一致性、以及根据射线的透射率的不确定性。
5.根据权利要求3所述的方法,其中,所述初级训练的执行包括:
从所述原始训练图像和所述增强图像中选择第一样本图像;
根据定义第一射线的第一查询输入来确定所述NSR模型的第一查询输出;
基于所述分割掩模,从所述第一样本图像的前景区域和所述第一样本图像的背景区域中确定所述第一射线所属的目标区域;以及
基于由所述第一射线指定的所述目标区域的第一像素的实际像素值和根据所述第一查询输出的估计像素值,来确定所述第一损失函数的损失值。
6.根据权利要求5所述的方法,其中,所述目标区域的确定包括:
通过将所述分割掩模中的与所述第一样本图像相对应的第一分割掩模应用于所述第一样本图像来划分所述第一样本图像的前景区域和所述第一样本图像的背景区域;
当所述第一射线指示所述第一样本图像的前景区域时,确定所述第一样本图像的前景区域是所述目标区域;以及
当所述第一射线指示所述第一样本图像的背景区域时,确定所述第一样本图像的背景区域是所述目标区域。
7.根据权利要求3所述的方法,其中,所述次级训练的执行包括:
通过使用所述NSR模型,根据所述原始训练图像中的第一原始训练图像的第一射线集来生成第一合成图像;
估计所述第一原始训练图像的区块的第一语义特性和所述第一合成图像的区块的第二语义特性;
基于所述第一语义特性和所述第二语义特性之间的差异,确定所述第一原始训练图像与所述第一合成图像之间的语义一致性;以及
基于所确定的语义一致性来确定所述第二损失函数的损失值。
8.根据权利要求3所述的方法,其中,所述次级训练的执行包括:
基于所述原始训练图像中的第一原始训练图像的射线的采样点的体积密度和透射率的乘积,确定所述采样点的权重;以及
基于所确定的权重来确定所述第二损失函数的损失值。
9.根据权利要求1所述的方法,其中,所述原始训练图像的数量被限制为预定数量。
10.一种训练装置,包括:
一个或多个处理器;以及
存储器,存储指令,所述指令被配置为使所述一个或多个处理器:
接收目标场景的原始训练图像,
通过扭曲所述原始训练图像来生成所述目标场景的增强图像,
通过对所述原始训练图像和所述增强图像执行前景-背景分割,来确定所述原始训练图像和所述增强图像的前景-背景分割掩模,以及
通过使用所述原始训练图像、所述增强图像和所述前景-背景分割掩模,来训练神经场景表示NSR模型以将其配置为用于所述目标场景的体积渲染。
11.根据权利要求10所述的训练装置,其中,所述原始训练图像分别与基本相机姿态相关联,所述增强图像分别与新相机姿态相关联,并且其中,所述NSR模型的训练也使用所述基本相机姿态和所述新相机姿态。
12.根据权利要求11所述的训练装置,其中,为了生成所述增强图像,所述指令还被配置为使所述一个或多个处理器:
确定转换函数,所述转换函数用于将所述原始训练图像中的第一原始训练图像的基本相机姿态转换为所述增强图像中的第一增强图像的新相机姿态,以及
通过使用所述第一原始训练图像的相机固有参数、与所述第一原始训练图像相对应的原始深度图、以及所述转换函数扭曲所述第一原始训练图像,来生成所述第一增强图像。
13.根据权利要求11所述的训练装置,其中,为了训练所述NSR模型,所述指令还被配置为使所述一个或多个处理器:
使用所述原始训练图像、所述增强图像、所述前景-背景分割掩模和第一损失函数来执行所述NSR模型的初级训练,以及
使用所述原始训练图像和第二损失函数来执行所述NSR模型的次级训练。
14.根据权利要求13所述的训练装置,其中,所述第一损失函数基于所述原始训练图像和所述增强图像的实际像素值与由所述NSR模型估计的像素值之间的像素误差,以及
所述第二损失函数基于所述原始训练图像与由所述NSR模型估计的合成图像之间的像素误差、所述原始训练图像与所述合成图像之间的语义一致性、以及根据射线的透射率的不确定性。
15.根据权利要求13所述的训练装置,其中,为了执行所述初级训练,所述指令还被配置为使所述一个或多个处理器:
从所述原始训练图像和所述增强图像中选择第一样本图像,
根据指示第一射线的第一查询输入来确定所述NSR模型的第一查询输出,
基于所述前景-背景分割掩模,在所述第一样本图像的前景区域和所述第一样本图像的背景区域中确定所述第一射线所属的目标区域,以及
基于由所述第一射线指定的所述目标区域的第一像素的实际像素值和根据所述第一查询输出的估计像素值,来确定所述第一损失函数的损失值。
16.根据权利要求15所述的训练装置,其中,为了确定所述目标区域,所述指令还被配置为使所述一个或多个处理器:
通过将所述前景-背景分割掩模中的与所述第一样本图像相对应的第一前景-背景分割掩模应用于所述第一样本图像来划分所述第一样本图像的前景区域和所述第一样本图像的背景区域,
当所述第一射线指示所述第一样本图像的前景区域时,确定所述第一样本图像的前景区域是所述目标区域,以及
当所述第一射线指示所述第一样本图像的背景区域时,确定所述第一样本图像的背景区域是所述目标区域。
17.根据权利要求13所述的训练装置,其中,为了执行所述次级训练,所述指令还被配置为使所述一个或多个处理器:
通过使用所述NSR模型,根据所述原始训练图像中的第一原始训练图像的第一射线集来生成第一合成图像,
估计所述第一原始训练图像的多级区块的第一语义特性和所述第一合成图像的多级区块的第二语义特性,
基于所述第一语义特性和所述第二语义特性之间的差异,确定所述第一原始训练图像与所述第一合成图像之间的语义一致性,以及
基于所确定的语义一致性来确定所述第二损失函数的损失值。
18.一种电子设备,包括:
相机,其生成目标场景的各个原始相机姿态的原始训练图像;以及
一个或多个处理器;
存储器,存储指令,所述指令被配置为使所述一个或多个处理器:
通过扭曲所述原始训练图像,生成所述目标场景的各个增强图像相机姿态的增强图像,
通过对所述原始训练图像和所述增强图像执行分割,确定用于划分所述原始训练图像和所述增强图像的区域的分割掩模,以及
通过使用所述原始训练图像及其各自的原始相机姿态、所述增强图像及其各自的增强图像相机姿态、以及所述分割掩模来训练用于所述目标场景的体积渲染的神经场景表示NSR模型。
19.根据权利要求18所述的电子设备,其中,为了生成所述增强图像,所述指令还被配置为使所述一个或多个处理器:
确定转换函数,所述转换函数用于将所述原始训练图像中的第一原始训练图像的第一原始相机姿态转换为所述增强图像中的第一增强图像的增强图像相机姿态中的第一增强图像相机姿态,以及
通过使用所述转换函数扭曲所述第一原始训练图像,来生成所述第一增强图像。
20.根据权利要求18所述的电子设备,其中,为了训练所述NSR模型,所述指令还被配置为使所述一个或多个处理器:
使用所述原始训练图像、所述增强图像、所述分割掩模和第一损失函数来执行所述NSR模型的初级训练,以及
使用所述原始训练图像和第二损失函数来执行所述NSR模型的次级训练,
其中,所述第一损失函数基于所述原始训练图像和所述增强图像的实际像素值与由所述NSR模型估计的像素值之间的像素误差,以及
其中,所述第二损失函数基于所述原始训练图像与由所述NSR模型估计的合成图像之间的像素误差、所述原始训练图像与所述合成图像之间的语义一致性、以及根据射线的透射率的不确定性。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2022-0128898 | 2022-10-07 | ||
KR10-2022-0178564 | 2022-12-19 | ||
KR1020220178564A KR20240049098A (ko) | 2022-10-07 | 2022-12-19 | 뷰 증강 기반의 뉴럴 렌더링 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117853632A true CN117853632A (zh) | 2024-04-09 |
Family
ID=90535467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310808415.0A Pending CN117853632A (zh) | 2022-10-07 | 2023-07-03 | 基于视图增强的用于神经渲染的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117853632A (zh) |
-
2023
- 2023-07-03 CN CN202310808415.0A patent/CN117853632A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109754064B (zh) | 执行解卷积的神经网络的方法和装置 | |
US11232286B2 (en) | Method and apparatus for generating face rotation image | |
CN110222573B (zh) | 人脸识别方法、装置、计算机设备及存储介质 | |
WO2016054779A1 (en) | Spatial pyramid pooling networks for image processing | |
CN106488215B (zh) | 图像处理方法和设备 | |
CN115735227A (zh) | 反转用于姿态估计的神经辐射场 | |
CN112750085A (zh) | 图像恢复方法和图像恢复设备 | |
US12026892B2 (en) | Figure-ground neural radiance fields for three-dimensional object category modelling | |
EP3905194A1 (en) | Pose estimation method and apparatus | |
Ding et al. | Real-time stereo vision system using adaptive weight cost aggregation approach | |
CN114445265A (zh) | 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层 | |
WO2021025761A1 (en) | Sub-pixel data simulation system | |
US20220076119A1 (en) | Device and method of training a generative neural network | |
CN114445479A (zh) | 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层 | |
Liao et al. | Adaptive depth estimation for pyramid multi-view stereo | |
JP2019091436A (ja) | 3d配置のタイプに応じた2d画像の分類 | |
EP4350632A2 (en) | Method and appratus with neural rendering based on view augmentation | |
CN118251698A (zh) | 面向稀疏数据的鲁棒nerf模型新颖视图合成 | |
CN115953464A (zh) | 全局定位方法和装置 | |
US20170046590A1 (en) | Image feature classification | |
CN117593431A (zh) | 用于表示渲染场景的方法和设备 | |
CN116362966A (zh) | 图像处理方法和装置 | |
CN117853632A (zh) | 基于视图增强的用于神经渲染的方法和装置 | |
Hu et al. | 3D map reconstruction using a monocular camera for smart cities | |
CN115619924A (zh) | 用于光估计的方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |