CN117876214A - 用于动态三维空间的二维场景重建的设备和方法 - Google Patents
用于动态三维空间的二维场景重建的设备和方法 Download PDFInfo
- Publication number
- CN117876214A CN117876214A CN202310641891.8A CN202310641891A CN117876214A CN 117876214 A CN117876214 A CN 117876214A CN 202310641891 A CN202310641891 A CN 202310641891A CN 117876214 A CN117876214 A CN 117876214A
- Authority
- CN
- China
- Prior art keywords
- feature extraction
- time
- data
- feature
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000000605 extraction Methods 0.000 claims abstract description 216
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 26
- 238000010801 machine learning Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 abstract description 11
- 238000012549 training Methods 0.000 description 27
- 238000009877 rendering Methods 0.000 description 15
- 239000013598 vector Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000009499 grossing Methods 0.000 description 10
- 230000000052 comparative effect Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000000644 propagated effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000011365 complex material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
一种电子设备,由多个特征提取模型从点信息和时间信息中提取多个特征数据,基于多个特征数据的插值获得时空特征数据,以及基于场景信息估计模型,根据时空特征数据和观看方向生成与在目标时刻处的目标点相关的场景信息。
Description
相关申请的交叉引用
本申请要求于2022年10月7日在韩国知识产权局递交的韩国专利申请No.10-2022-0128992、以及于2022年12月29日在韩国知识产权局递交的韩国专利申请No.10-2022-0188992的优先权,其全部公开内容通过引用合并于此以用于所有目的。
技术领域
以下描述涉及动态三维空间的二维场景的重建。
背景技术
计算机图形学的一个基本目标是逼真的图像合成。已经开发了用于模仿真实相机成像模型的方法和表示,包括复杂材料和全局照明处理。这些方法模拟光从光源到虚拟相机的传播,以基于物理定律进行合成。为此,需要在渲染过程中确定场景的所有相关物理参数。例如,参数可以包括关于场景几何和材料属性的信息,诸如反射率或不透明度。当提供此类信息时,最新的光线追踪技术可以生成逼真的图像。除了基于物理的渲染方法之外,还存在各种基于数学近似的技术,可以生成接近真实成像模型的结果。
发明内容
提供本发明内容以用简化形式介绍对下面在具体实施方式中进一步描述的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征,也不意在帮助确定所请求保护的主题的范围。
在一个总体方面,一种电子设备包括:一个或多个处理器;存储器,存储第一特征提取模型、第二特征提取模型、场景信息估计模型和指令,其中指令被配置为在由一个或多个处理器执行时,使一个或多个处理器:由第一特征提取模型,从从点信息和时间信息中提取在与所述时间信息相对应的目标时刻处三维(3D)空间中的由点信息指示的目标点的第一特征数据;由第二特征提取模型,从点信息和时间信息中提取在目标时刻处3D空间中的目标点的第二特征数据;基于第一特征数据和第二特征数据,获得时空特征数据;以及由场景信息估计模型,根据时空特征数据和观看方向生成与在目标时刻处的目标点相关的场景信息。
指令还可以被配置为使一个或多个处理器:基于第一特征数据和第二特征数据进行插值;以及基于插值的结果获得时空特征数据。
第一特征提取模型可以是针对在第一参考时刻处的3D空间进行训练的模型,并且第二特征提取模型可以是针对在不同于第一参考时刻的第二参考时刻处的3D空间进行训练的模型。
指令还可以被配置为使一个或多个处理器:基于第一参考时刻、第二参考时刻和目标时刻对第一特征数据和第二特征数据进行插值,基于该插值来确定时空特征数据。
指令还可以被配置为使一个或多个处理器通过以下方式执行插值:将基于第一参考时刻和目标时刻确定的第一权重应用于第二特征数据;以及将基于第二参考时刻和目标时刻确定的第二权重应用于第一特征数据。
指令还可以被配置为使一个或多个处理器:基于第一参考时刻与目标时刻之间的时间差,确定第一权重;以及基于第二参考时刻与目标时刻之间的时间差,确定第二权重。
指令还可以被配置为使一个或多个处理器:基于第一特征数据和第二特征数据,生成默认特征插值数据;以及基于特征插值数据和与附加细节层次(LOD)相对应的附加特征插值数据,确定时空特征数据。
指令还可以被配置为使一个或多个处理器:通过对默认特征插值数据和附加特征插值数据进行级联来确定时空特征数据。
指令还可以被配置为使一个或多个处理器:基于与附加LOD相对应的多个附加特征提取模型,提取与目标时刻和目标点相对应的多个附加特征数据;以及基于提取的多个附加特征数据,生成附加特征插值数据。
指令还可以被配置为使一个或多个处理器:基于目标时刻,从多个附加特征提取模型中选择两个附加特征提取模型;以及使用所选择的两个附加特征提取模型来提取多个附加特征数据。
指令还可以被配置为使一个或多个处理器:从三个或更多个默认特征提取模型中选择第一特征提取模型和第二特征提取模型。
指令还可以被配置为使一个或多个处理器:基于目标时刻,从三个或更多个默认特征提取模型中选择第一特征提取模型和第二特征提取模型。
指令还可以被配置为使一个或多个处理器:基于分别与三个或更多个默认特征提取模型相对应的参考时刻与目标时刻之间的比较,从三个或更多个默认特征提取模型中选择第一特征提取模型和第二特征提取模型。
第一特征提取模型可以对应于第一参考时刻,第二特征提取模型可以对应于第二参考时刻,并且其中,第一特征提取模型和第二特征提取模型可以是基于它们的参考时刻在分别与三个或更多个默认特征提取模型相对应的参考时刻中在时间上最接近目标时刻而被选择的。
指令还可以被配置为使一个或多个处理器:从5个默认特征提取模型中选择第一特征提取模型和第二特征提取模型;以及从20个附加特征提取模型中选择两个附加特征提取模型。
第一特征提取模型和第二特征提取模型可以是机器学习模型,其中每个模型包括神经网络或基于网格的表示。
指令还可以被配置为使一个或多个处理器:生成与从视点沿观看方向的点相关的多个场景信息;以及基于生成的多个场景信息,确定从观看位置观看到的、在目标时刻处在3D空间的二维(2D)场景中与观看方向相对应的像素位置的像素值。
指令还可以被配置为使一个或多个处理器:通过确定在所述2D场景中包括的所有像素的像素值来生成与所述2D场景相对应的2D图像。
在另一个总体方面,一种处理器实现的方法包括:由第一特征提取模型,从点信息和时间信息中提取在与所述时间信息相对应的目标时刻处三维(3D)空间中的由点信息指示的目标点的第一特征数据;由第二特征提取模型,从点信息和时间信息中提取在目标时刻处3D空间中的目标点的第二特征数据;基于第一特征数据和第二特征数据,获得时空特征数据;以及由场景信息估计模型,根据时空特征数据和观看方向生成与在目标时刻处的目标点相关的场景信息。
其他特征和方面将通过以下详细描述、附图和权利要求变得清楚明白。
附图说明
图1示出了示例场景重建方法。
图2示出了示例场景重建模型。
图3示出了示例特征提取模型和场景信息估计模型。
图4示出了确定特征插值数据的示例。
图5示出了根据附加细节层次(LOD)生成特征插值数据的示例。
图6示出了训练特征提取网络组的示例。
图7示出了特征提取模型的另一示例。
图8和图9示出了场景重建设备的示例配置。
在整个附图和详细描述中,除非另有描述或提供,否则相同或类似的附图标记应被理解为指代相同或类似的元件、特征以及结构等。附图可以不按比例绘制,并且为了清晰度、说明性和方便性,可以扩大附图中的元素的相对尺寸、比例和描绘。
具体实施方式
提供以下详细描述以帮助读者获得对本文描述的方法、装置和/或系统的全面理解。然而,在理解了本申请的公开之后,本文中描述的方法、装置和/或系统的各种改变、修改和等同物将是显而易见的。例如,本文中描述的操作顺序仅仅是示例,并且不限于在本文中阐述的那些操作顺序,而是可以在理解本申请的公开之后明显改变,除了必须以一定顺序进行的操作之外。此外,为了更加清楚和简洁,在理解本申请的公开之后可以省略对已知的特征的描述。
本文描述的特征可以以不同形式来实施,并且不应被解释为限于本文描述的示例。相反,提供本文中描述的示例仅仅是为了说明实现本文中描述的方法、装置和/或系统的许多可行方式中的一些,在理解本申请的公开之后这些方式将显而易见。
本文中使用的术语仅用于描述各种示例,而不用于限制本公开。除非上下文另外明确指示,否则冠词“一”、“一个”和“该”也意在包括复数形式。如本文中所使用的,术语“和/或”包括关联列出的项目中的任何一个和任何两个或更多个的任何组合。作为非限制性示例,术语“包括”或“包含”和“具有”表示存在所阐述的特征、数目、操作、构件、元件和/或其组合,但并不排除存在或添加一个或多个其他特征、数目、操作、构件、元件和/或其组合。
在整个说明书中,当组件或元件被描述为“连接到”、“耦接到”或“结合到”另一个组件或元件时,它可以直接“连接到”、“耦接到”或“结合到”其他组件或元件,或者可以有一个或多个其他组件或元件介于其间。当一个组件或元件被描述为“直接连接到”、“直接耦接到”或“直接结合到”另一个组件或元件时,在它们之间不存在其他元件介入。同样地,也应以如前面描述的表述来解释例如“在...之间”和“直接在......之间”以及“与......相邻”和“与......紧邻”的表述。
尽管本文中可以使用诸如“第一”、“第二”和“第三”、或者A、B、(a)、(b)之类的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不受这些术语的限制。例如,这些术语中的每一个都不用于定义对应的构件、组件、区域、层或部分的本质、顺序或序列,而是仅用于将对应的构件、组件、区域、层或部分与其他构件、组件、区域、层或部分区分开。因此,在不脱离示例的教导的情况下,本文中描述的示例中提及的第一构件、组件、区域、层或部分也可以被称为第二构件、组件、区域、层或部分。
除非另外定义,否则这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员基于对本申请的公开的理解通常所理解的含义相同的含义。诸如在常用词典中定义的术语应被解释为其含义与在相关技术和/或本申请的上下文中的含义相同,而不应被解释为理想的或过于正式的含义,除非本文明确如此定义。在本文中,关于示例或实施例(例如,关于示例或实施例可以包括或实现什么)的术语“可以”的使用意味着存在至少一个示例或实施例,其中这样的特征是被包括或实现的,而所有示例不限于此。
图1示出了示例场景重建方法。图2示出了示例场景重建模型。
根据示例的电子设备(例如,场景重建设备)可以在目标时刻生成和/或重建三维(3D)空间的场景(例如,2D场景)的二维(2D)图像,其中所述3D空间的场景是从任意视点在任意视场(FOV,例如投影)处看到的。例如,视点可以是具有任意FOV的相机(例如,虚拟相机)“捕捉”与2D图像相对应的场景的位置。2D图像中的像素值可以基于从视点沿观看方向的点的场景信息来确定。与2D图像中的任意像素相对应的观看方向可以是从视点到3D空间中的与该任意像素相对应的点的方向。
场景信息290是如下数据,其表示沿观看方向看到的在目标时刻处在3D空间中的目标点的场景分量,并且场景信息290包括例如神经场景表示(NSR)数据。NSR数据可以包括例如神经辐射场(NeRF)数据。NSR数据可以包括3D空间的每个点和每个观看方向的颜色信息和体积密度信息。颜色信息可以包括根据颜色空间的颜色值(例如,根据RGB颜色空间的红色值、绿色值和蓝色值)。预定点的体积密度σ可以被解释为射线终止于对应点的无穷小颗粒的概率(例如微分概率)。如稍后将描述的,目标点的颜色值(例如,RGB值)可以取决于观看方向,而体积密度可以与观看方向无关。然而,NSR数据不限于以上描述,并且可以根据设计而变化。
根据示例,场景重建模型200可以包括特征提取模型211和212以及场景信息估计模型250。与每个点相对应的场景信息290可以基于场景重建模型200来生成。下面描述使用特征提取模型211和212以及场景信息估计模型250对场景信息290的估计。作为参考,电子设备可以使用与目标点相关的点信息和时间信息(指示3D空间的时刻)作为场景重建模型200的第一特征提取模型211和第二特征提取模型212的输入数据280。
首先,在操作110中,电子设备可以基于第一特征提取模型211,从点信息和时间信息中提取在目标时刻处的目标点的第一特征数据231。目标点可以表示3D空间中的由点信息指示的点。点信息可以包括目标点在3D空间中的位置(例如,空间信息)。目标时刻可以表示与时间信息相对应的时刻。时间信息可以是指示希望重建和/或捕捉的随时间变化的3D空间的时刻的信息(例如,时间信息)。第一特征提取模型211被配置和训练为基于第一参考时刻提取与目标时刻和目标点相对应的第一特征数据231,并且第一特征提取模型211可以包括例如神经网络219。第一特征数据231是基于第一参考时刻被抽象化的目标时刻和目标点的数据,并且第一特征数据231例如可以包括特征向量。
在操作120中,电子设备可以基于第二特征提取模型212,从点信息和时间信息中提取在目标时刻处在3D空间中的目标点的第二特征数据232。以类似于上述第一特征提取模型211的方式,第二特征提取模型212被配置和训练为基于第二参考时刻提取与目标时刻和目标点相对应的第二特征数据232,并且第二特征提取模型212可以包括例如神经网络。第二特征提取模型212的神经网络可以具有与其他模型(例如,第一特征提取模型211)的参数(例如,连接权重)不同的参数。第二特征数据232也是基于第二参考时刻被抽象化的目标时刻和目标点的数据,并且第二特征数据232可以包括例如特征向量。
在该示例中,神经网络(例如,神经网络219)可以包括层,并且每个层可以包括节点。节点可以具有基于激活函数确定的节点值。任意层的节点可以通过具有连接权重的链路(例如,连接边)连接到另一层的节点(例如,另一节点)。节点的节点值可以经由链路传播到其他节点。例如,在神经网络的推理操作中,节点值可以从前一层向前传播到下一层。节点的节点值可以通过连接边传播(例如,前向传播)到下一层的与对应的节点连接的节点(例如,下一个节点)。例如,节点可以从通过连接边连接的先前节点(例如,多个节点)接收经过连接权重加权的值。节点的节点值可以基于从先前节点接收到的加权值的总和(例如,加权和)来确定,其中激活函数被应用于该节点值。神经网络的参数可以包括例如上述的连接权重。可以更新神经网络的参数,使得稍后将描述的目标函数值在目标方向(例如,损失最小的方向)上变化。稍后将描述目标函数。
第一参考时刻和第二参考时刻可以表示不同的时刻。当针对时间段定义3D空间时,时间段可以被划分为N个时间帧,并且可以被表示为第一时刻(例如,t0)到最后时刻(例如,tN-1)之间的时间。这里,N表示大于或等于2的整数。例如,目标时刻可以指示第i时间帧(例如,ti),即第一时刻(例如,t0)与最后时刻(例如,tN-1)之间的时刻。如结合图4所述,在该示例中,指示第i时间帧的值ti为第i时刻相对于整个时间段的比例或者第i时间帧相对于总帧数的比例,并且可以是0以上且1以下。指示第一时刻的值t0可以为0,并且指示最后时刻的值tN-1可以为1。
3D空间中的点可能会在定义的时间段内发生变化(例如,移动)。例如,第一参考时刻可以表示3D空间的初始时刻(例如,t0),并且第二参考时刻可以表示3D空间的最后时刻(例如,tN-1)。如稍后将描述的,第一特征提取模型211和第二特征提取模型212的多个特征数据可以基于根据参考时刻与目标时刻之间的比较所确定的权重来求和。特征提取模型211和212(例如,第一特征提取模型211和第二特征提取模型212)可以通过基于加权求和结果的目标函数值来训练。因此,每个特征提取模型可以输出特征数据,在该特征数据中,目标时刻相对于参考时刻和目标点的时间关系被抽象化。
在操作130中,电子设备可以基于第一特征数据231和第二特征数据232获得时空特征数据205。时空特征数据205是目标时刻和目标点被抽象化后的特征数据,并且例如可以是特征向量。电子设备可以基于第一特征数据231和第二特征数据232的插值结果来获得时空特征数据205。稍后将参照图4描述多个特征数据之间的插值。
在操作140中,电子设备可以基于场景信息估计模型250,根据时空特征数据205和观看方向生成与在目标时刻处的目标点相关的场景信息290。电子设备可以确定对应点的颜色信息(例如,颜色值)和体积密度作为场景信息290。场景信息估计模型250被配置和训练为根据时空特征数据205和观看方向输出场景信息290(例如,NSR数据),并且可以包括例如神经网络。场景信息估计模型250的神经网络可以具有与特征提取模型211和212的神经网络的参数不同的参数(例如,连接权重)。如上所述,由于时空特征数据205是目标时刻和目标点被抽象化后的特征数据,因此场景信息估计模型250可以响应于时空特征数据205和观看方向的输入,输出与目标时刻和目标点相对应的场景信息290。如参照图3所述,电子设备可以根据上述点信息和时间信息,基于场景信息估计模型250的一部分(例如,体积密度估计网络)估计目标点的体积密度信息和嵌入数据。电子设备可以根据嵌入数据和观看方向,基于场景信息估计模型250的其他部分(例如,颜色估计网络)根据观看方向估计目标点的颜色信息。如后文所述,体积密度信息和颜色信息用于确定2D场景图像的像素值(例如,像素的颜色值),并且相应地,经训练后的场景信息估计模型250可以被理解为学习在各个观看方向上每次看到的3D空间的场景。
根据示例,电子设备可以基于在上述操作110至140中获得的多个场景信息来生成2D图像。例如,电子设备可以生成与从视点沿观看方向的点的多个场景信息。电子设备可以基于生成的多个场景信息,确定与2D场景中的观看方向相对应的像素位置的像素值。2D场景可以是从观看位置看到的在目标时刻处的3D空间的场景。电子设备可以对沿观看方向获得的多个场景信息进行体渲染,从而确定与对应观看方向相对应的像素值。
例如,可以针对2D图像(例如,场景图像)的每个像素定义观看方向。电子设备可以将从预定视点朝向2D图像的每个像素的方向定义为观看方向。电子设备可以确定与2D图像的每个相应像素相对应的观看方向。电子设备可以在3D空间中沿观看方向对点(例如,采样点)进行采样。电子设备可以基于场景重建模型200(例如,第一特征提取模型211、第二特征提取模型212和场景信息估计模型250),通过神经网络运算计算观看方向上的所有采样点的输出值(例如,作为场景信息290的NSR数据)。作为参考,在图1所示的方法中,已经描述了针对采样点中的预定点(例如,目标点)的场景信息290进行的计算。电子设备可以生成指示每个目标点在3D空间中的观看方向上的位置的点信息。
电子设备可以通过使用针对2D场景图像的同一像素计算的多个场景信息来执行体渲染。体渲染可以包括根据观看方向累积颜色信息和体积密度的操作。电子设备可以通过累积针对沿观看方向的点计算的颜色信息和体积密度,确定关于与观看方向相对应的像素的像素信息(例如,像素的颜色值)。
电子设备可以通过重复上述像素信息的确定操作来生成2D图像。例如,电子设备可以通过确定包括在2D场景图像中的所有像素的像素值来生成与2D场景相对应的2D图像。例如,电子设备可以通过对2D图像的每个像素执行体渲染来确定包括在2D图像中的像素的像素值(例如,像素的颜色值)。电子设备可以通过获得2D图像的所有像素的像素值来生成2D图像。
根据示例,可以将以对静态对象进行3D渲染为目标的NeRF框架扩展到动态场景。动态场景可以是3D空间中的点随时间变化的场景。关于表示动态场景的NeRF框架,在第一个比较示例中,可以将时间值(例如t)简单地添加为坐标(例如,(x,y,z))的输入,其指示在时间t处在3D空间中的用于神经网络的训练的点。在第二个比较示例中,可以估计从前一帧移动到后一帧的3D场景流。在第二个比较示例中,可以估计每个帧的每个3D坐标的移动。在第三个比较示例中,可以构建规范帧并将每个帧图像映射到规范帧。在第一个比较示例中,场景重建性能较差,而在第二个和第三个比较示例中,有必要估计额外的学习参数,并且可能会出现不准确的场景重建,因为很难覆盖给定时间段内所有3D点和所有帧的变化。在比较示例中,通过将3D点设置为输入并将渲染图像与学习数据图像进行比较来执行端到端学习,然而,可能无法保证中间过程(例如,场景流或规范形状的学习)的准确性。
(与背景技术中描述的比较示例相比)根据示例的电子设备可以通过用简单的网络结构训练的场景重建模型200在动态场景的重建中表现出优异的3D神经渲染性能。
图3示出了特征提取模型和场景信息估计模型的示例。
根据示例的电子设备可以基于场景重建模型300,根据输入数据380估计场景信息390。
输入数据380可以包括点信息381、时间信息382、观看方向383和潜在外观信息384。输入数据380也可以称为询问输入。观看方向383可以是从观看要合成和/或重建的2D场景370的视点穿过与目标像素相对应的点的方向。2D场景370是3D空间360在目标时刻处从视点301针对FOV捕捉的场景(或投影)。2D场景370的点371可以对应于2D图像的像素。在图3所示的示例中,点信息381可以包括指示3D空间360中的目标点X的坐标(x,y,z),并且观看方向383可以包括指示从视点301朝向目标点X的方向的方向信息(θ,φ)。坐标(x,y,z)基于笛卡尔坐标系中的任意原点,并且(θ,φ)是两个任意参考轴(例如,z轴的正方向和x轴的正方向)中的每一个与观看方向383之间形成的角度。
根据示例,电子设备可以基于第一特征提取模型,从点信息381和时间信息382中提取第一特征数据。第一特征提取模型可以是被设计和训练为提取在第一参考时刻处在3D空间360中的点的特征的模型。第一特征提取模型(可以包括神经网络)也可以称为第一特征提取网络311。电子设备可以基于第二特征提取模型,从点信息381和时间信息382中提取第二特征数据。第二特征提取模型可以被配置和训练为提取在不同于第一参考时刻的第二参考时刻处在3D空间360中的点的特征。第二特征提取模型(也可以包括神经网络)也可以称为第二特征提取网络312。两个或更多个特征提取网络可以彼此独立,例如,被独立训练、具有不同的权重等(尽管它们可能具有相似配置的输入层和输出层)。
电子设备可以对第一特征数据和第二特征数据进行插值以获得时空特征数据305。第一特征数据和第二特征数据的插值可以基于第一参考时刻、第二参考时刻和目标时刻。时空特征数据305可以通过基于多个特征数据的线性插值进行的合并来生成。应用于用于插值的每个特征数据的权重可以根据询问帧(例如,由时间信息382指示的时间帧)而变化。参照图4描述基于插值来确定时空特征数据305。
根据示例,电子设备可以基于场景信息估计模型,根据时空特征数据305和观看方向383生成场景信息390。场景信息估计模型可以包括例如体积密度估计网络351和颜色估计网络352。体积密度估计网络351和颜色估计网络352均可实现为包括神经网络的多层感知机(MLP)网络。
电子设备可以基于体积密度估计网络351,根据时空特征数据305生成嵌入向量(或潜在向量)和体积密度信息391。如上所述,体积密度信息391可以包括对应的目标点处的体积密度值。
电子设备可以基于颜色估计网络352,根据附加输入连同嵌入向量来估计颜色信息392。附加输入可以包括例如观看方向383和潜在外观信息384。上面已经描述了观看方向383。如上所述,颜色信息392可以包括在观看方向383上观看到目标点的颜色值。作为参考,在估计颜色信息392的情况下,电子设备可以另外将潜在外观信息384(例如,潜在外观代码)输入到场景信息估计模型(例如,颜色估计网络352)。潜在外观信息384可以指示可能潜在地影响单个点的颜色的环境(例如,相机设置、相机型号或特定时刻处的照明)。
作为参考,在该示例中,X(或Xi)表示在第i时间帧(例如,ti)的3D空间360中沿观看方向383采样的3D点的坐标。θ和表示观看方向383。变量wi是时间信息382,并且例如可以是指示第i时间帧(例如,ti)的向量。时间信息382例如可以是变形代码。ψi是潜在外观信息384并且可以包括用于对场景(例如,与第i时间帧相对应的场景或由另一相机捕捉的场景)进行颜色校准的潜在外观代码。变量σ表示针对校正输入计算的体积密度,并且c表示针对相应输入计算的RGB颜色值。
作为参考,变形代码和潜在外观代码可以通过训练场景重建模型300来确定。例如,训练设备(例如,电子设备)可以基于通过将第i时间帧(例如,ti)和目标点前向传播到场景重建模型300而获得的输出来计算目标函数值。训练设备可以基于场景重建模型300的前向传播输出临时场景信息390(例如,颜色信息392和体积密度信息391),并且可以通过体渲染从临时场景信息390中获得与2D场景图像相对应的临时像素值。可以例如基于真实(GT)彩色图像的像素值与基于上述前向传播的临时像素值之间的差(例如,L2损失)来确定目标函数(例如,渲染损失)。然而,目标函数值不限于此并且可以根据设计而变化。训练设备可以基于后向传播来更新场景重建模型300(例如,颜色估计网络352、体积密度估计网络351、第一特征提取网络311和第二特征提取网络312)的参数(例如,连接权重),使得目标函数值在某个方向(例如,减小的方向)上变化。此时,训练设备可以更新时间信息382(例如,变形代码)以及神经网络的参数。
当训练完成时,可以确定指示每个时间帧的时间信息382。可以针对每个时间帧单独映射唯一的变形代码。类似地,训练设备可以基于通过将第i时间帧(例如,ti)、目标点、观看方向和潜在外观代码前向传播到场景重建模型而获得的输出来计算目标函数值300。潜在外观信息384(例如,潜在外观代码)也可以通过训练的更新来确定。可以针对每个环境单独映射唯一的潜在外观代码。根据示例,在使用场景重建模型300针对场景信息的推理操作中,电子设备可以接收变形代码和潜在外观代码,并将它们输入到场景重建模型300。
图4示出了确定特征插值数据的示例。
根据示例的电子设备可以通过特征提取网络组提取多个特征数据,并且基于提取的特征数据来确定插值特征数据。电子设备可以包括与多个(例如,L)细节层次(LOD)相对应的多个特征提取网络组。与给定LOD相对应的特征提取网络组可以包括多个特征提取网络(例如,诸如nk个特征提取网络之类的神经网络),其中,nk表示与第k个LOD相对应的特征提取网络组中包括的特征提取网络的数量,并且k在1到L之间(包括1和L)。
图4示出了这样的示例,其中,LOD的数量L是1(可以是默认的),并且一个特征提取网络组中包括的特征提取网络的数量n1是2。电子设备可以针对每个LOD,将3D点Xi和指示时间帧的潜在变量wi作为输入数据前向传播到特征提取网络组。在图4所示的示例中,与默认/1LOD相对应的特征提取网络组可以包括第一神经网络411和第二神经网络412。第一神经网络411可以输出第一特征数据feat1,并且第二神经网络412可以输出第二特征数据feat2。电子设备可以通过对特征提取网络组的输出应用线性插值430来计算特征插值数据(例如,f(Xi,wi))。例如,线性插值430可以通过下面所示的等式1来执行。
等式1
f(Xi,wi)=(1-ti)×feat1+ti×feat2
在等式1中,ti是指示目标时刻的时间帧(例如,第i时间帧)的值。当作为场景重建模型的学习目标的动态3D空间(例如,3D空间的视频)中的总帧数为N时,指示第i时间帧的值可以被定义为这里,N大于或等于2,并且i大于或等于0且小于或等于N-1。如上面等式1中所述,可以将由指示时间帧的值形成的权重应用于每个特征数据。
例如,电子设备可以将基于第一参考时刻(例如,tref,1=0)和目标时刻(例如,ti)确定的第一权重应用于第二特征数据。电子设备可以基于第一参考时刻与目标时刻之间的时间差(例如,ti-tref,1)来确定第一权重。电子设备可以将基于第二参考时刻(例如,tref,2=1)和目标时刻确定的第二权重应用于第一特征数据。电子设备可以基于第二参考时刻与目标时刻之间的时间差(例如,tref,2-ti)来确定第二权重。第一权重和第二权重之和例如可以为1。可以看出,这种基于时间的插值可以允许在一时间段内沿任意时间帧进行平滑的基于插值的场景重建。
随着目标时刻(例如,ti)离第二参考时刻越远且越接近第一参考时刻,就可以对从第一神经网络411输出的第一特征数据乘以更大的权重。随着目标时间点离第一参考时间点越远且越接近第二参考时间时刻,就可以对从第二神经网络412输出的第二特征数据乘以更大的权重。电子设备可以对以下项求和以作为特征插值数据(例如,f(Xi,wi)):(i)通过将第二权重乘以第一特征数据而获得的向量、以及(ii)通过将第一权重乘以第二特征数据而获得的向量,从而获得特征插值数据的向量。可以使用根据上述特征插值数据(例如,f(Xi,wi))的前向传播所确定的目标函数值来执行训练。因此,第一神经网络411可以被训练为基于第一参考时刻(例如,tref,1=0)输出第一特征数据(其中目标时刻和目标点被抽象化)。第二神经网络412可以被训练为基于第二参考时刻(例如,tref,2=1)输出第二特征数据(其中目标时刻和目标点被抽象化)。
例如,当目标时刻为第一参考时刻时,电子设备可以使用从第一神经网络411输出的第一特征数据作为时空特征数据。当目标时刻为第二参考时刻时,电子设备可以使用从第二神经网络412输出的第二特征数据作为时空特征数据。当目标时刻在第一参考时刻与第二参考时刻之间时,电子设备可以使用通过在从两个神经网络输出的多个特征数据之间按照等式1进行线性插值而获得的特征插值数据(例如,f(Xi,wi))作为时空特征数据。
然而,特征插值数据(例如,f(Xi,wi))的确定/使用不限于以上描述。当特征提取网络组包括三个或更多个特征提取网络时,电子设备可以从中选择两个特征提取网络,并且该选择可以基于目标时刻。例如,电子设备可以从三个或更多个默认特征提取模型中选择第一特征提取模型和第二特征提取模型。默认特征提取模型可以属于默认LOD(例如,第一LOD)的特征提取网络组。如上所述,可以基于目标时刻从三个或更多个默认特征提取模型中选择第一特征提取模型和第二特征提取模型。例如,电子设备可以基于分别与三个或更多个默认特征提取模型相对应的参考时刻和目标时刻之间的比较,选择第一特征提取模型和第二特征提取模型。电子设备可以基于与第一参考时刻相对应的特征提取模型来选择第一特征提取模型,并且基于与第二参考时刻相对应的特征提取模型来选择第二特征提取模型;在分别与该三个或更多个默认特征提取模型相对应的参考时刻中,第一参考时刻和第二参考时刻在时间上与目标时刻相邻。目标时刻可以包括在由第一参考时刻和第二参考时刻定义的时间范围内。第一参考时刻和第二参考时刻可以是参考时刻中在时间上最接近目标时刻的两个时刻。第一参考时刻可以是参考时刻中在目标时刻之前的最接近目标时刻的时刻,并且第二参考时刻可以是参考时刻中在目标时刻之后的最接近目标时刻的时刻。
为了描述方便,已经主要参照图4描述了默认LOD。参照图5描述了针对多个相应LOD选择特征提取网络以及使用所选择的特征提取网络来确定特征插值数据。
图5示出了根据附加LOD(或多个LOD)生成特征插值数据的示例。
根据示例,电子设备可以包括相应LOD的特征提取网络组。可以存储和访问关联信息。关联信息可以指示哪些LOD与哪些网络组相关联,并且可以用于针对给定LOD选择网络组。每个特征提取网络组可以包括多个特征提取网络。例如,L个LOD中的第k LOD的特征提取网络组可以包括nk个特征提取模型(例如,特征提取网络)。可以将参考时刻分配给每个组的每个特征提取模型。例如,可以将第j参考时刻分配给给定组的nk个特征提取模型中的第j特征提取模型。第j参考时刻(例如,tref,j)是将时间段(例如,0以上且1以下)除以(nk-1)而获得的时刻中的第j时刻,并且可以表示为tref,j=(j-1)(tN-1-t0)/(nk-1)=(j-1)/(nk-1)。这里,j代表大于或等于1并且小于或等于nk的整数。对于特征提取模型的数量nk为2(以上参照图4描述)以及特征提取网络组包括3个或更多个特征提取模型的情况,可以通过等式2生成插值数据。
等式2
在等式2中,j代表大于或等于1且小于或等于nk-1的整数。电子设备可以基于目标时刻与第j参考时刻(例如,第一参考时刻)之间的差(例如,ti-tref,j)获得权重。权重可以应用于从第(j+1)特征提取模型输出的第(j+1)特征数据(例如,featj+1)。基于目标时刻与第(j+1)参考时刻(例如,第二参考时刻)之间的差(例如,tref,j+1-ti)而获得的A权重可以应用于从第j特征提取模型输出的第j特征数据(例如,featj)。电子设备可以将以下项确定为特征插值数据:根据等式2将基于(i)目标时刻和(ii)参考时刻所确定的权重应用于多个特征数据的总和。电子设备可以通过等式2为与各个LOD相对应的特征提取网络组生成多个特征插值数据。
例如,电子设备可以通过使用分别与默认LOD和附加LOD相对应的特征提取网络组来生成多个特征插值数据。图5示出了LOD的数量L为2的示例。与默认LOD(n1为2)相对应的默认特征提取网络组510中可以包括2个特征提取模型。与附加LOD(n2为5)相对应的附加特征提取网络组520中可以包括5个特征提取模型。包括在组中的特征提取模型的数量不限于这些示例。电子设备可以确定与默认LOD相对应的默认特征插值数据(例如,f1(Xi,wi))、和与附加LOD相对应的附加特征插值数据(例如,f2(Xi,wi))。
例如,电子设备可以基于包括在默认组中的特征提取网络NN1_1和NN1_2来提取第一特征数据feat1_1和第二特征数据feat1_2。电子设备可以基于提取的第一特征数据feat1_1和第二特征数据feat1_2,通过上面参照图4描述的插值519来生成默认特征插值数据f1(Xi,wi)。
电子设备可以基于与附加LOD相对应的附加组的多个特征提取模型NN2_1-NN2_5来提取分别与目标时刻和目标点相对应的多个附加特征数据。电子设备可以基于这些提取的附加特征数据来生成附加特征插值数据。例如,电子设备可以基于目标时刻从多个附加特征提取模型NN2_1、NN2_2、NN2_3、NN2_4和NN2_5中选择两个附加特征提取模型NN2_2和NN2_3(例如,时间上最接近目标时刻的特征提取模型)。
详细地说,类似于参照图4描述的选择技术,电子设备可以基于目标时刻与分配给包括在附加组中的每个附加特征提取模型的参考时刻之间的比较,选择附加特征提取模型。电子设备可以选择已经分配给最接近目标时刻的两个参考时刻的附加特征提取模型NN2_2和NN2_3。目标时刻可以是分配给第一附加特征提取模型NN2_2的第一参考时刻与分配给第二附加特征提取模型NN2_3的第二参考时刻之间的时刻。可以使用所选择的两个附加特征提取模型NN2_2和NN2_3来提取附加特征数据feat2_2和feat2_3。电子设备可以通过将基于等式2的线性插值529应用于附加特征数据feat2_2和feat2_3来生成附加特征插值数据f2(Xi,wi)。
电子设备可以基于特征插值数据和与附加LOD相对应的附加特征插值数据来确定时空特征数据(f(x,y,z,t))。例如,电子设备可以通过对默认特征插值数据和附加特征插值数据进行级联(540)来确定时空特征数据(f(x,y,z,t)))。
作为参考,图5示出了默认组中的默认特征提取模型的数量为2并且附加组中的附加特征提取模型的数量为5的示例,但是该示例不限于此。它可以因设计而异。例如,默认特征提取模型的数量可以是5,并且附加特征提取模型的数量可以是20。电子设备可以从五个默认特征提取模型中选择第一特征提取模型和第二特征提取模型。电子设备可以在20个附加特征提取模型中选择两个附加特征提取模型。根据示例,神经网络的数量可以针对上述LOD中的每一个LOD而不同地配置。图5示出了LOD的数量为2的示例,但是可以存在分别具有不同数量的特征提取网络的三个或更多个LOD。
图6示出了训练特征提取网络组的示例。
根据示例,可以基于渲染损失来训练场景重建模型的网络(例如,特征提取网络、体积密度估计网络和颜色估计网络)。除了基于渲染损失的训练之外,还可以基于相邻时间帧之间的平滑项690进一步训练特征提取网络。
例如,一个特征提取网络组610可以包括特征提取模型211和212(如图2所示),而另一组可以包括特征提取网络311和312(如图3所示)。默认组510或附加组520可以包括神经网络411和412(如图4所示)。可以基于从多个特征提取网络(例如,两个特征提取网络)输出的多个特征数据来生成多个时空特征数据605-1和605-2。作为参考,时空特征数据605-1和605-2中的每一个可以是基于针对对应时间帧提取的多个特征数据进行线性插值的特征插值数据(例如,参见图4)、和通过对针对各个LOD获得的多个特征插值数据进行级联而获得的数据(例如,参见图5)。
训练设备(例如,电子设备)可以通过将相同的特征提取网络组610应用于不同的时间信息682-1和682-2处的相同的点信息681,获得不同时刻的多个时空特征数据。例如,如图6所示,训练设备可以基于将点信息681和第一时间信息682-1传播到特征提取网络组610的结果来确定第一时空特征数据605-1。训练设备可以基于将点信息681和第二时间信息682-2传播到特征提取网络组610的结果来确定第二时空特征数据605-2。第一时间信息682-1和第二时间信息682-2分别是不同的时刻,并且例如可以指示彼此相邻的时刻。例如,当第一时间信息682-1指示第i时间帧时,第二时间信息682-2可以指示第(i+1)时间帧。第一时空特征数据605-1和第二时空特征数据605-2可以针对相邻时间帧中的相同点被抽象化。训练设备可以基于第一时空特征数据605-1和第二时空特征数据605-2,通过下面所示的等式3来计算平滑项690。
等式3
||f(Xi,wi)-f(Xi,wi+1)||2
等式3是多个时空特征数据的平滑项690,其可以表示第一时空特征数据605-1与第二时空特征数据605-2之间的L2范数。项f(Xi,wi)表示针对第i帧提取的第一时空特征数据605-1,并且项f(Xi,wi+1)表示针对第(i+1)帧提取的第二时空特征数据605-2。训练设备可以基于包括基于等式3的平滑项690在内的目标函数值对特征提取网络组610执行训练。整个特征提取网络组610的参数(例如,连接权重)可以通过平滑项690的后向传播来更新,使得特征在相邻时间帧之间的相同3D点处变得相似。通过相应的平滑项690,即使对于在特定帧中未观看到的3D点,训练设备也可以有效地训练特征提取网络组610。
然而,平滑项690不限于此。训练设备可以使用不同时刻处的光流将平滑项690应用于匹配点的特征数据。在另一示例中,训练设备可以在针对不同时刻渲染的图像中找到彼此相似的小块,并且在小块之间应用平滑项690。
根据示例,平滑被应用于从特征提取网络组610提取的特征而不是由上述平滑项690获得的最终结果。因此,未包括在实际输出属性中的属性的特征也可以变得相似。它可以与上面参照图1至图5描述的插值一起使用,从而可以实现更有效的训练。
图7示出了特征提取模型的另一示例。
根据示例,用于提取时空特征数据的模型(例如,第一特征提取模型711和第二特征提取模型712)可以是包括神经网络和基于网格的表示(grid-based representation)在内的机器学习模型。已经主要参照图1至图6描述了特征提取模型包括神经网络的示例。该示例不限于此,并且特征提取模型可以被实现为基于网格的表示。
例如,如图7所示,第一特征提取模型711和第二特征提取模型712可以实现为基于网格的表示模型。基于网格的表示模型可以比神经网络训练得更快。基于网格的表示模型是四维张量网格,并且可以包括针对3D空间中每个体素的若干时间帧的特征向量。当时间帧由时间信息指定时,电子设备可以从基于网格的表示模型中检索并输出与由点信息指示的体素相对应的特征向量。与体素相对应的特征向量可以被有效地存储在存储器中并且基于哈希函数被参考(参照)。电子设备可以基于第一特征提取模型711的第一特征数据feature1与第二特征数据feature2之间的特征插值730获得特征插值数据。电子设备可以通过仅提取与沿观看方向的采样点相对应的体素的特征向量来获得多个特征插值数据,其中沿观看方向的采样点与基于网格的表示模型的体素中的像素相对应。电子设备可以基于场景信息估计模型,基于特征插值数据根据时空特征数据和观看方向估计多个场景信息,并且通过使用估计的场景信息来执行体渲染。
图8和图9示出了场景重建设备的示例配置。
根据示例的电子设备800是用于重建3D空间的动态场景的图像(例如,视频)的设备,并且可以包括处理器810和存储器820。
处理器810可以基于第一特征提取模型,从点信息和时间信息中提取与时间信息相对应的目标时刻处3D空间中的由点信息指示的目标点的第一特征数据。处理器810可以基于第二特征提取模型,从点信息和时间信息中提取在目标时刻处在3D空间中的目标点的第二特征数据。处理器810可以基于第一特征数据和第二特征数据获得时空特征数据。时空特征数据可以通过在时间轴上对第一特征数据和第二特征数据进行线性插值来确定。处理器810可以基于场景信息估计模型,根据时空特征数据生成与在目标时刻处的目标点相关的场景信息。然而,处理器810的操作不限于此,处理器810可以并行或按时间顺序执行参照图1至图7描述的操作中的至少一个。
存储器820可以存储第一特征提取模型、第二特征提取模型和场景信息估计模型。存储器820还可以包括用于附加LOD的附加特征提取模型以及用于默认LOD的第一特征提取模型和第二特征提取模型。场景信息估计模型可以包括体积密度估计模型和颜色估计模型。第一特征提取模型和第二特征提取模型可以被配置为独立地提取特征。
参照图9,电子设备900(例如,计算设备)可以包括输入接口910、处理器920、存储器930、显示器940和通信电路950。电子设备900是使用上面参照图1至图8描述的场景重建模型来对场景重建模型和/或推理(例如,场景重建)执行训练的设备。电子设备900可以是或者可以包括在例如图像处理设备、智能电话、可穿戴设备、平板电脑、上网本、膝上型电脑、台式机或个人数字助理(PDA)中。
输入接口910、处理器920、存储器930、显示器940和通信电路950可以通过通信总线彼此通信。
输入接口910可以通过触觉、视频、音频或触摸输入接收来自用户的输入。输入接口910可以包括例如键盘、鼠标、触摸屏、麦克风以及可以检测来自用户的输入并发送检测到的输入的其他设备。
处理器920执行电子设备900(例如,计算设备)中的功能和指令。例如,处理器920可以处理存储在存储器930中的指令。处理器920可以执行上文参照图1至图8描述的一个或多个操作。
存储器930存储处理器920的执行所需的信息或数据。例如,存储器930可以包括上述机器学习模型。存储器930可以包括非暂时性计算机可读存储介质或非暂时性计算机可读存储设备。存储器930可以存储将由处理器920执行的指令,并且可以在电子设备900执行软件和/或应用程序时存储相关信息。
显示器940可以在视觉上向用户提供电子设备900的输出。例如,显示器940可以显示由处理器920重建的2D场景图像。
通信电路950可以通过有线或无线网络与外部设备通信。通信电路950可以从外部设备(例如,服务器)接收上述机器学习模型、以及每个机器学习模型的参数(例如,训练参数)。
根据示例的电子设备800或900可以使用3D动态或可变形场景的神经渲染(例如,NeRF)来执行2D场景表示。电子设备800或900可以通过将NeRF扩展到动态对象和场景来执行根据3D空间和时间的场景表示的训练。当用户任意输入时间和观看方向时,电子设备800或900可以生成相应的2D场景图像。电子设备800或900可以根据由用户输入的时间信息在多个独立的特征提取网络中选择一些特征提取网络(例如,两个特征提取网络),并且对通过使用所选择的特征提取网络提取的特征数据进行线性插值,来确定时空特征数据。电子设备800或900可以基于场景信息估计模型,使用时空特征数据来估计NSR数据。电子设备800或900可以广泛应用于与计算机图形相关的所有任务。特别地,甚至可以重建没有被拍摄为视频的时刻的3D场景。电子设备800或900可以用于视频插值、视频稳定化等。电子设备800或900可以执行3D虚拟世界重建和新视频渲染和编码。
本文关于图1至图9描述的计算装置、电子设备、处理器、存储器、显示器、信息输出系统和硬件、存储设备和其他装置、设备、单元、模块和组件由硬件组件实现或代表硬件组件。在适当的情况下可以用于执行本申请中所描述的操作的硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请中所描述的操作的任何其他电子组件。在其他示例中,用于执行本申请中所描述的操作的一个或多个硬件组件由计算硬件(例如,由一个或多个处理器或计算机)实现。处理器或计算机可以由一个或多个处理元件(例如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望的结果的任何其他设备或设备的组合)来实现。在一个示例中,处理器或计算机包括(或连接到)存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件,例如,操作系统(OS)和在OS上运行的一个或多个软件应用,以执行本申请中描述的操作。硬件组件还可以响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见,在本申请中描述的示例的描述中可以使用单数术语“处理器”或“计算机”,但是在其他示例中可以使用多个处理器或计算机,或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如,单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现,并且一个或多个其他硬件组件可以由一个或多个其他处理器或另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可以具有不同的处理配置中的任一种或多种,所述处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、和多指令多数据(MIMD)多处理。
执行本申请描述的操作的图1至图9中示出的方法是由计算硬件来执行的,例如,是由如以上描述而实现的、实施指令或软件以执行本申请所述的操作(通过所述方法实现的操作)的一个或多个处理器或计算机来执行的。例如,单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可以由一个或多个处理器或者处理器和控制器执行,并且一个或多个其他操作可以由一个或多个其它处理器或者另一处理器和另一控制器执行。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件可以被编写为计算机程序、代码段、指令或其任何组合,用于单独或共同指示或配置一个或多个处理器或计算机以作为机器或专用计算机操作从而执行由上述硬件组件和方法执行的操作。在一个示例中,指令或软件包括由一个或多个处理器或计算机直接执行的机器代码,例如由编译器产生的机器代码。在另一示例中,指令或软件包括由一个或多个处理器或计算机使用解释器执行的更高级的代码。可以基于附图中所示出的框图和流程图以及本文中使用的对应描述(其公开了用于执行由硬件组件执行的运算和如上所述的方法的算法),使用任何编程语言来编写指令或软件。
用于控制计算硬件(例如,一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或其上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡类型的存储器(比如,多媒体卡或微型卡(例如,安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘以及任何其他设备,所述任何其他设备被配置为以非暂时性方式存储指令或软件以及任何相关数据、数据文件和数据结构,并且向一个或多个处理器或计算机提供指令或软件以及任何相关数据、数据文件和数据结构,使得一个或多个处理器或计算机可以执行所述指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得一个或多个处理器或计算机以分布方式存储、访问和执行所述指令和软件以及任何相关联的数据、数据文件和数据结构。
尽管本公开包括特定示例,但是在理解了本申请的公开内容之后将显而易见的是,在不脱离权利要求及其等同物的精神和范围的情况下,可以对这些示例进行形式和细节上的各种改变。本文描述的示例应仅被认为是描述性的,而不是为了限制的目的。每个示例中的特征或方面的描述被认为适用于其他示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或被其他组件或其等同物替换或补充,则可以实现合适的结果。
因此,除上述公开内容外,本公开内容的范围还可以由权利要求及其等同物来限定,并且在权利书要求及其等同物的范围内的所有变化都被解读为包括在本公开中。
Claims (20)
1.一种电子设备,包括:
一个或多个处理器;
存储器,存储第一特征提取模型、第二特征提取模型、场景信息估计模型和指令,其中所述指令被配置为在由所述一个或多个处理器执行时,使所述一个或多个处理器:
由所述第一特征提取模型,从点信息和时间信息中提取在与所述时间信息相对应的目标时刻处3D空间中的由所述点信息指示的目标点的第一特征数据;
由所述第二特征提取模型,从所述点信息和所述时间信息中提取在所述目标时刻处所述3D空间中的所述目标点的第二特征数据;
基于所述第一特征数据和所述第二特征数据,获得时空特征数据;以及
由所述场景信息估计模型,根据所述时空特征数据和观看方向生成与在所述目标时刻处的所述目标点相关的场景信息。
2.根据权利要求1所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
基于所述第一特征数据和所述第二特征数据进行插值;以及
基于所述插值的结果获得所述时空特征数据。
3.根据权利要求1所述的电子设备,
其中,所述第一特征提取模型是针对在第一参考时刻处的3D空间进行训练的模型,并且
其中,所述第二特征提取模型是针对在不同于所述第一参考时刻的第二参考时刻处的3D空间进行训练的模型。
4.根据权利要求1所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
基于第一参考时刻、第二参考时刻和所述目标时刻对所述第一特征数据和所述第二特征数据进行插值,基于所述插值来确定所述时空特征数据。
5.根据权利要求4所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器通过以下方式执行插值:
将基于所述第一参考时刻和所述目标时刻确定的第一权重应用于所述第二特征数据;以及
将基于所述第二参考时刻和所述目标时刻确定的第二权重应用于所述第一特征数据。
6.根据权利要求5所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
基于所述第一参考时刻与所述目标时刻之间的时间差,确定所述第一权重;以及
基于所述第二参考时刻与所述目标时刻之间的时间差,确定所述第二权重。
7.根据权利要求1所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
基于所述第一特征数据和所述第二特征数据,生成默认特征插值数据;以及
基于所述默认特征插值数据和与附加细节层次相对应的附加特征插值数据,确定所述时空特征数据。
8.根据权利要求7所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
通过对所述默认特征插值数据和所述附加特征插值数据进行级联来确定所述时空特征数据。
9.根据权利要求7所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
基于与所述附加细节层次相对应的多个附加特征提取模型,提取与所述目标时刻和所述目标点相对应的多个附加特征数据;以及
基于提取的所述多个附加特征数据,生成所述附加特征插值数据。
10.根据权利要求9所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
基于所述目标时刻,从所述多个附加特征提取模型中选择两个附加特征提取模型;以及
使用所选择的两个附加特征提取模型来提取所述多个附加特征数据。
11.根据权利要求1所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
从三个或更多个默认特征提取模型中选择所述第一特征提取模型和所述第二特征提取模型。
12.根据权利要求11所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
基于所述目标时刻,从所述三个或更多个默认特征提取模型中选择所述第一特征提取模型和所述第二特征提取模型。
13.根据权利要求11所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
基于分别与所述三个或更多个默认特征提取模型相对应的参考时刻与所述目标时刻之间的比较,从所述三个或更多个默认特征提取模型中选择所述第一特征提取模型和所述第二特征提取模型。
14.根据权利要求11所述的电子设备,其中,所述第一特征提取模型对应于第一参考时刻,所述第二特征提取模型对应于第二参考时刻,并且其中,所述第一特征提取模型和所述第二特征提取模型是基于它们的参考时刻在分别与所述三个或更多个默认特征提取模型相对应的参考时刻中在时间上最接近所述目标时刻而被选择的。
15.根据权利要求11所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
从5个默认特征提取模型中选择所述第一特征提取模型和所述第二特征提取模型;以及
从20个附加特征提取模型中选择两个附加特征提取模型。
16.根据权利要求1所述的电子设备,其中,所述第一特征提取模型和所述第二特征提取模型是机器学习模型,其中每个机器学习模型包括神经网络或基于网格的表示。
17.根据权利要求1所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
生成与从视点沿观看方向的点相关的多个场景信息;以及
基于生成的所述多个场景信息,确定从观看位置观看到的、在所述目标时刻处在3D空间的2D场景中与所述观看方向相对应的像素位置的像素值。
18.根据权利要求17所述的电子设备,其中,所述指令还被配置为使所述一个或多个处理器:
通过确定在所述2D场景中包括的所有像素的像素值来生成与所述2D场景相对应的2D图像。
19.一种处理器实现的方法,所述方法包括:
由第一特征提取模型,从点信息和时间信息中提取在与所述时间信息相对应的目标时刻处3D空间中的由所述点信息指示的目标点的第一特征数据;
由第二特征提取模型,从所述点信息和所述时间信息中提取在所述目标时刻处所述3D空间中的所述目标点的第二特征数据;
基于所述第一特征数据和所述第二特征数据,获得时空特征数据;以及
由场景信息估计模型,根据所述时空特征数据和观看方向生成与在所述目标时刻处的所述目标点相关的场景信息。
20.一种存储指令的非暂时性计算机可读存储介质,所述指令在由处理器执行时使所述处理器执行权利要求19所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2022-0128992 | 2022-10-07 | ||
KR1020220188992A KR20240049106A (ko) | 2022-10-07 | 2022-12-29 | 동적 3차원 공간에 대한 2차원 장면의 복원 장치 및 방법 |
KR10-2022-0188992 | 2022-12-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117876214A true CN117876214A (zh) | 2024-04-12 |
Family
ID=90583546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310641891.8A Pending CN117876214A (zh) | 2022-10-07 | 2023-06-01 | 用于动态三维空间的二维场景重建的设备和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117876214A (zh) |
-
2023
- 2023-06-01 CN CN202310641891.8A patent/CN117876214A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | InSituNet: Deep image synthesis for parameter space exploration of ensemble simulations | |
US10467820B2 (en) | Image style transfer for three-dimensional models | |
Boukhtache et al. | When deep learning meets digital image correlation | |
CN110140147B (zh) | 具有深度学习的视频帧合成 | |
EP3510561A1 (en) | Predicting depth from image data using a statistical model | |
US20230230275A1 (en) | Inverting Neural Radiance Fields for Pose Estimation | |
CN107133914B (zh) | 用于生成三维彩色图像的装置和用于生成三维彩色图像的方法 | |
WO2021044122A1 (en) | Scene representation using image processing | |
US20240119697A1 (en) | Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes | |
EP4207089A1 (en) | Image processing method and apparatus | |
US20230196651A1 (en) | Method and apparatus with rendering | |
US11836221B2 (en) | Systems and methods for refined object estimation from image data | |
EP4350631A2 (en) | Device and method with two-dimensional scene reconstruction for dynamic three-dimensional space | |
US20220180548A1 (en) | Method and apparatus with object pose estimation | |
CN117876214A (zh) | 用于动态三维空间的二维场景重建的设备和方法 | |
JP2023522041A (ja) | 画像間の空間的関係をラベリングする強化学習モデル | |
KR20240049106A (ko) | 동적 3차원 공간에 대한 2차원 장면의 복원 장치 및 방법 | |
EP4350632A2 (en) | Method and appratus with neural rendering based on view augmentation | |
EP4350634A2 (en) | Method and apparatus with neural scene representation data | |
EP4375943A1 (en) | Device and method with scene component information estimation | |
Zhang et al. | Feature interpolation convolution for point cloud analysis | |
EP4191526A1 (en) | Apparatus and method with object posture estimating | |
US20220383573A1 (en) | Frame interpolation for rendered content | |
US20240144584A1 (en) | Method and device with model for 3d scene generation | |
EP4322112A1 (en) | Method and device for representing rendered scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |