CN116228855A - 视角图像的处理方法、装置、电子设备及计算机存储介质 - Google Patents
视角图像的处理方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN116228855A CN116228855A CN202211737720.7A CN202211737720A CN116228855A CN 116228855 A CN116228855 A CN 116228855A CN 202211737720 A CN202211737720 A CN 202211737720A CN 116228855 A CN116228855 A CN 116228855A
- Authority
- CN
- China
- Prior art keywords
- camera pose
- volume density
- radiation field
- color rendering
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 16
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000003672 processing method Methods 0.000 title abstract description 6
- 238000009877 rendering Methods 0.000 claims abstract description 118
- 238000005070 sampling Methods 0.000 claims abstract description 101
- 230000005855 radiation Effects 0.000 claims abstract description 89
- 210000005036 nerve Anatomy 0.000 claims abstract description 63
- 238000009826 distribution Methods 0.000 claims abstract description 62
- 230000005540 biological transmission Effects 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000001537 neural effect Effects 0.000 claims abstract description 23
- 230000003287 optical effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Studio Circuits (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提供了一种视角图像的处理方法、装置、电子设备及计算机可读存储介质,涉及图像处理领域,该方法包括:确定原始视角图像的相机位姿参数;基于相机位姿参数确定隐藏场景分布,并从隐藏场景分布中进行采样,得到分布采样点;基于相机位姿参数和分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果;基于相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果;基于相机位姿参数确定原始视角图像中每条光线的第一透射权重;基于第一透射权重对第一体密度、第一颜色渲染结果、第二体密度和第二颜色渲染结果进行渲染,得到第一目标视角图像。本发明实施例生成高质量的新视角合成图像。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种视角图像的处理方法、一种视角图像的处理装置、一种电子设备和一种计算机可读存储介质。
背景技术
动态场景下的新视角合成指在给定一个或多个摄像机捕捉的视频片段时,学习恢复任意未在视频中出现的新视点图像。它能够在有限视图输入的条件下生成无限的视角图像,并且有着广泛的应用空间。例如制造电影、游戏中切换视角的特效,在AR(AugmentedReality,增强现实)、VR(Virtual Reality,虚拟现实)世界中渲染图像,或是辅助摄像头成像,实现机器人、自动驾驶感知和导航交互等。
近些年来的动态场景新视角合成方法都从神经辐射场出发进行改进。基于语义分割网络的辐射场方法可以用语义信息监督神经辐射场学习,但是受限于语义分割网络本身的表现,因此只适用于与分割网络相同的特定领域。基于时序信息的辐射场方法用一个或多个神经辐射场学习视频序列中的动态信息,但是只关注于相邻连续几帧之间的特征,无法捕捉整个场景的持续信息。
现有方法中,对于包含单个对象的场景,例如室内的乐高场景,视角的切换会导致相机平面上的2D场景投影发生巨大变化。与这些场景不同,现实世界的动态场景通常包含运动的前景和静态背景。这些静态背景(例如街区,建筑物等)距离相机镜头很远。现有方法只关注于视频帧序列间的时序信息,导致背景处的纹理恢复效果较差。
此外,现有的方法仅通过融合RGB空间中的渲染结果来判断物体间的遮挡关系,从而在判断静态背景和动态物体之间的遮挡关系时表现出不理想的性能。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视角图像的处理方法、一种视角图像的处理装置、一种电子设备和一种计算机可读存储介质。
为了解决上述问题,本发明实施例公开了一种视角图像的处理方法,所述方法包括:
确定原始视角图像的相机位姿参数;
基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点;
基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果;
基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果;
基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重;
基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。
在一个或多个实施例中,所述基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点,包括:
通过分布编码器采用多层感知机对所述相机位姿参数进行学习,得到隐藏场景分布;
从所述隐藏场景分布中进行采样,得到分布采样点。
在一个或多个实施例中,所述相机位姿参数包括三维位置和三维角度;
所述基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果,包括:
将所述分布采样点和所述三维位置经过多层感知机缩放至第一注意力空间,以及,将所述分布采样点和所述三维角度经过多层感知机缩放至第二注意力空间;
以所述分布采样点为键值和所述三维位置为查询计算所述第一注意力空间的注意力值,得到第一注意力值,以及,以所述分布采样点为键值和所述三维角度为查询计算所述第二注意力空间的注意力值,得到第二注意力值;
将所述第一注意力值和所述三维位置进行相加,得到所述背景神经辐射场的第一体密度,以及,将所述第二注意力值和所述三维角度进行相加,得到所述背景神经辐射场的第一颜色渲染结果。
在一个或多个实施例中,所述相机位姿参数和时间步还用于确定所述动态神经辐射场的光流;
所述方法还包括:
采用所述光流对所述动态神经辐射场进行更新,得到更新后的动态神经辐射场。
在一个或多个实施例中,所述基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重,包括:
基于所述相机位姿参数计算所述原始视角图像中每条光线的每个采样点的遮挡权重;
基于每条光线的每个采样点的遮挡权重计算所述每条光线的第一透射权重。
在一个或多个实施例中,还包括:
响应于相机位姿调整指令,基于调整后相机位姿参数和所述相机位姿参数确定出参数偏移量;
基于所述参数偏移量确定调整后的每条光线的第二透射权重、背景神经辐射场的第三体密度和第三颜色渲染结果,以及动态神经辐射场的第四体密度和第四颜色渲染结果;
基于所述第二透射权重对所述第三体密度、所述第三颜色渲染结果、所述第四体密度和所述第四颜色渲染结果进行渲染,得到相机位姿调整后的第二目标视角图像。
相应的,本发明实施例还公开了一种视角图像的处理装置,所述装置包括:
第一确定模块,用于确定原始视角图像的相机位姿参数;
第一处理模块,用于基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点;
第二处理模块,用于基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果;
第三处理模块,用于基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果;
第四处理模块,用于基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重;
渲染模块,用于基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。
在一个或多个实施例中,所述第一处理模块,具体用于:
通过分布编码器采用多层感知机对所述相机位姿参数进行学习,得到隐藏场景分布;
从所述隐藏场景分布中进行采样,得到分布采样点。
在一个或多个实施例中,所述相机位姿参数包括三维位置和三维角度;
所述第二处理模块,具体用于:
将所述分布采样点和所述三维位置经过多层感知机缩放至第一注意力空间,以及,将所述分布采样点和所述三维角度经过多层感知机缩放至第二注意力空间;
以所述分布采样点为键值和所述三维位置为查询计算所述第一注意力空间的注意力值,得到第一注意力值,以及,以所述分布采样点为键值和所述三维角度为查询计算所述第二注意力空间的注意力值,得到第二注意力值;
将所述第一注意力值和所述三维位置进行相加,得到所述背景神经辐射场的第一体密度,以及,将所述第二注意力值和所述三维角度进行相加,得到所述背景神经辐射场的第一颜色渲染结果。
在一个或多个实施例中,所述相机位姿参数和时间步还用于确定所述动态神经辐射场的光流;
所述装置还包括:
更新模块,用于采用所述光流对所述动态神经辐射场进行更新,得到更新后的动态神经辐射场。
在一个或多个实施例中,所述第四处理模块,具体用于:
基于所述相机位姿参数计算所述原始视角图像中每条光线的每个采样点的遮挡权重;
基于每条光线的每个采样点的遮挡权重计算所述每条光线的第一透射权重。
在一个或多个实施例中,还包括:
第二确定模块,用于响应于相机位姿调整指令,基于调整后相机位姿参数和所述相机位姿参数确定出参数偏移量;
所述第二处理模块,还用于背景神经辐射场的第三体密度和第三颜色渲染结果;
所述第三处理模块,还用于动态神经辐射场的第四体密度和第四颜色渲染结果;
所述第四处理模块,还用于基于所述参数偏移量确定调整后的每条光线的第二透射权重;
所述渲染模块,还用于基于所述第二透射权重对所述第三体密度、所述第三颜色渲染结果、所述第四体密度和所述第四颜色渲染结果进行渲染,得到相机位姿调整后的第二目标视角图像。
相应的,本发明实施例公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述视角图像的处理方法实施例的各个步骤。
相应的,本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述视角图像的处理方法实施例的各个步骤。
本发明实施例包括以下优点:
确定原始视角图像的相机位姿参数,基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点,然后基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果、基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果,以及,基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重,再基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。本发明实施例构建了一种基于注意力机制的分布驱动流程,从而能够捕获整体场景中的隐藏场景分布,同时,还构建了神经辐射场中光线采样点遮挡权重的计算方法,有效地学习出了前景物体与背景之间的遮挡关系,从而为每一条光线添加遮挡权重,提高了动态场景下合成新视角的效果,进而生成高质量的新视角合成图像,并且提供了一种分离前景与背景的3D范式。
附图说明
图1是本发明的一种视角图像的处理方法实施例一的步骤流程图;
图2是本发明的注意力机制的整体流程;
图3是本发明的透射权重网络的结构;
图4是本发明的逻辑流程示意图;
图5是本发明的一种视角图像的处理方法实施例二的步骤流程图;
图6A~6B是本发明的原始视角图像和第二目标视角图像;
图7是本发明的一种视角图像的处理装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,确定原始视角图像的相机位姿参数,基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点,然后基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果、基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果,以及,基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重,再基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。本发明实施例构建了一种基于注意力机制的分布驱动流程,从而能够捕获整体场景中的隐藏场景分布,同时,还构建了神经辐射场中光线采样点遮挡权重的计算方法,有效地学习出了前景物体与背景之间的遮挡关系,从而为每一条光线添加遮挡权重,提高了动态场景下合成新视角的效果,进而生成高质量的新视角合成图像,并且提供了一种分离前景与背景的3D范式。
参照图1,示出了本发明的一种视角图像的处理方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,确定原始视角图像的相机位姿参数。
其中,原始视角图像可以是相机在原始视角下拍摄得到的图像,图像可以是图片,也可以是包含视频帧的视频。由于在现实世界中,相机在拍摄时是具有真实的世界坐标的,所以,可以对图像进行计算,从而确定出在拍摄图像时相机的位姿参数,相机位姿参数包括但不限于相机的三维位置(记为“emb(x)”)和三维角度(记为“emb(d)”)。
进一步,相机位姿参数可以通过计算的方式确定,也可以通过深度相机拍摄的方式确定,还可以通过其它方式确定,在实际应用中,可以根据实际需求进行调整,本发明实施例对此不作限制。
步骤102,基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点。
在确定相机位姿参数后,就可以根据相机位姿参数确定出图像中场景整体的隐藏场景分布,然后从隐藏场景分布中进行采样,从而得到分布采样点。
在本发明实施例中,所述基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点,包括:
通过分布编码器采用多层感知机对所述相机位姿参数进行学习,得到隐藏场景分布;
从所述隐藏场景分布中进行采样,得到分布采样点。
具体而言,可以预先部署分布编码器(Distribution Encoder),在采样时,分布编码器采用多层感知机(MLP)对三维位置和三维角度进行学习,得到隐藏场景分布(记为“p(z|θ)”),然后从隐藏场景分布中进行采样,得到分布采样点(记为“z”)。
步骤103,基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果。
在得到分布采样点后,可以根据相机位姿参数将分布采样点与背景神经辐射场结合,采用注意力机制计算出背景神经辐射场的体密度(记为第一体密度,σb)和颜色渲染结果(记为第一颜色渲染结果,Cb)。
在本发明实施例中,所述基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果,包括:
将所述分布采样点和所述三维位置经过多层感知机缩放至第一注意力空间,以及,将所述分布采样点和所述三维角度经过多层感知机缩放至第二注意力空间;
以所述分布采样点为键值和所述三维位置为查询计算所述第一注意力空间的注意力值,得到第一注意力值,以及,以所述分布采样点为键值和所述三维角度为查询计算所述第二注意力空间的注意力值,得到第二注意力值;
将所述第一注意力值和所述三维位置进行相加,得到所述背景神经辐射场的第一体密度,以及,将所述第二注意力值和所述三维角度进行相加,得到所述背景神经辐射场的第一颜色渲染结果。
图2示出了注意力机制的整体流程。具体而言,分布采样点和三维位置可以经过多层感知机(MLP)缩放至同一注意力空间(记为第一注意力空间),在该维度大小下,将分布采样点作为键值(K,V),将三维位置作为查询(Q)来计算注意力,从而得到注意力值(记为第一注意力值),然后将第一注意力值和三维位置信息进行相加,从而得到背景神经辐射场的体密度(记为第一体密度)。
同理,分布采样点和三维角度可以经过多层感知机(MLP)缩放至同一注意力空间(记为第二注意力空间),在该维度大小下,将分布采样点作为键值(K,V),将三维角度作为查询(Q)来计算注意力,从而得到注意力值(记为第二注意力值),然后将第二注意力值和三维角度信息进行相加,从而得到背景神经辐射场的颜色渲染结果(记为第一颜色渲染结果)。
步骤104,基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果。
对于动态神经辐射场,可以构建一个考虑时序信息的网络,网络的输入包括三维位置、三维角度和时间步,网络的输入包括动态神经辐射场的体密度(记为第二体密度)、颜色渲染结果(记为第二颜色渲染结果),以及动态神经辐射场的光流(记为F())。
在本发明实施例中,所述方法还包括:
采用所述光流对所述动态神经辐射场进行更新,得到更新后的动态神经辐射场。
具体而言,光流可以用于监督动态神经辐射场在不同帧之间学习动态部分的建模,也就是说,可以采用光流对动态神经辐射场进行更新(反向传播),从而得到更新后的动态神经辐射场。
步骤105,基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重。
在现实世界中,在某个视角进行观察时,前景会遮挡背景,而遮挡处的光线与未遮挡处的光线是不一样的,所以,为了在图像中表现出光线的遮挡关系,可以根据相机位姿参数计算出原始视角图像中每条光线的透射权重(记为第一透射权重)。
在本发明实施例中,所述基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重,包括:
基于所述相机位姿参数计算所述原始视角图像中每条光线的每个采样点的遮挡权重;
基于每条光线的每个采样点的遮挡权重计算所述每条光线的第一透射权重。
图3示出了透射权重网络的结构,其中,H和W表示图像的长宽,x和y为相机的坐标,Np是光线采样点的个数,k表示第k个。也就是说,针对图像中的任一条光线,可以通过该网络计算出该任一条光线中每个光线采样点的遮挡权重(记为“Ω”),然后根据每个光线采样点的遮挡权重即可计算出该任一条光线的透射权重。依此类推,即可计算出每条光线的透射权重。
步骤106,基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。
在得到第一透射权重、第一体密度、第一颜色渲染结果、第二体密度和第二颜色渲染结果后,即可采用第一透射权重将第一体密度、第一颜色渲染结果、第二体密度和第二颜色渲染结果进行混合渲染,从而得到新的视角图像(记为第一目标视角图像)。
为方便理解,图4示出了本发明实施例的逻辑流程。具体的,在确定出相机的三维位置和三维角度后,将三维位置和三维角度输入分布编码器,得到隐藏场景分布,然后从其中进行采样,得到分布采样点,再将分布采样点、三维位置、三维角度输入背景神经辐射场,得到第一体密度和第一颜色渲染结果。同时,将三维位置和三维角度输入遮挡重量(occlusion weight)和透射权重网络,得到第一透射权重。进一步,将三维位置和三维角度输入动态神经辐射场,得到第二体密度、第二颜色渲染结果和光流。基于第一透射权重、第一体密度、第一颜色渲染结果、第二体密度和第二颜色渲染结果进行混合,得到第一目标视角图像。
在本发明实施例中,确定原始视角图像的相机位姿参数,基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点,然后基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果、基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果,以及,基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重,再基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。本发明实施例构建了一种基于注意力机制的分布驱动流程,从而能够捕获整体场景中的隐藏场景分布,同时,还构建了神经辐射场中光线采样点遮挡权重的计算方法,有效地学习出了前景物体与背景之间的遮挡关系,从而为每一条光线添加遮挡权重,提高了动态场景下合成新视角的效果,进而生成高质量的新视角合成图像,并且提供了一种分离前景与背景的3D范式。
参照图5,示出了本发明的一种视角图像的处理方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤501,确定原始视角图像的相机位姿参数。
步骤502,基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点。
步骤503,基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果。
步骤504,基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果。
步骤505,基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重。
步骤506,基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。
其中,步骤501~步骤506与步骤101~步骤106实质相同,为避免重复,在此就不赘述了。
步骤507,响应于相机位姿调整指令,基于调整后相机位姿参数和所述相机位姿参数确定出参数偏移量。
步骤508,基于所述参数偏移量确定调整后的每条光线的第二透射权重、背景神经辐射场的第三体密度和第三颜色渲染结果,以及动态神经辐射场的第四体密度和第四颜色渲染结果。
步骤509,基于所述第二透射权重对所述第三体密度、所述第三颜色渲染结果、所述第四体密度和所述第四颜色渲染结果进行渲染,得到相机位姿调整后的第二目标视角图像。
具体而言,用户可以调整相机的位姿从而改变视角,当用户将相机的位姿调整到目标位姿后,可以根据调整后的位姿与原始的位姿计算出位姿参数的偏移量。然后根据偏移量计算出目标位姿对应的每条光线的透射权重(记为第二透射权重)、背景神经辐射场的体密度(记为第三体密度)、颜色渲染结果(记为第三颜色渲染结果)、动态神经辐射场的体密度(记为第四体密度)和颜色渲染结果(记为第四颜色渲染结果)。再采用第二透射权重将第三体密度、第三颜色渲染结果、第四体密度和第四颜色渲染结果进行混合渲染,从而得到相机在目标位姿的视角图像(记为第二目标视角图像)。
图6A示出了原始视角图像,当调整相机的位姿后,即可得到图6B所示的第二目标视角图像。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图7,示出了本发明的一种视角图像的处理装置实施例的结构框图,具体可以包括如下模块:
第一确定模块701,用于确定原始视角图像的相机位姿参数;
第一处理模块702,用于基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点;
第二处理模块703,用于基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果;
第三处理模块704,用于基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果;
第四处理模块705,用于基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重;
渲染模块706,用于基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。
在本发明实施例中,所述第一处理模块,具体用于:
通过分布编码器采用多层感知机对所述相机位姿参数进行学习,得到隐藏场景分布;
从所述隐藏场景分布中进行采样,得到分布采样点。
在本发明实施例中,所述相机位姿参数包括三维位置和三维角度;
所述第二处理模块,具体用于:
将所述分布采样点和所述三维位置经过多层感知机缩放至第一注意力空间,以及,将所述分布采样点和所述三维角度经过多层感知机缩放至第二注意力空间;
以所述分布采样点为键值和所述三维位置为查询计算所述第一注意力空间的注意力值,得到第一注意力值,以及,以所述分布采样点为键值和所述三维角度为查询计算所述第二注意力空间的注意力值,得到第二注意力值;
将所述第一注意力值和所述三维位置进行相加,得到所述背景神经辐射场的第一体密度,以及,将所述第二注意力值和所述三维角度进行相加,得到所述背景神经辐射场的第一颜色渲染结果。
在本发明实施例中,所述相机位姿参数和时间步还用于确定所述动态神经辐射场的光流;
所述装置还包括:
更新模块,用于采用所述光流对所述动态神经辐射场进行更新,得到更新后的动态神经辐射场。
在本发明实施例中,所述第四处理模块,具体用于:
基于所述相机位姿参数计算所述原始视角图像中每条光线的每个采样点的遮挡权重;
基于每条光线的每个采样点的遮挡权重计算所述每条光线的第一透射权重。
在本发明实施例中,还包括:
第二确定模块,用于响应于相机位姿调整指令,基于调整后相机位姿参数和所述相机位姿参数确定出参数偏移量;
所述第二处理模块,还用于背景神经辐射场的第三体密度和第三颜色渲染结果;
所述第三处理模块,还用于动态神经辐射场的第四体密度和第四颜色渲染结果;
所述第四处理模块,还用于基于所述参数偏移量确定调整后的每条光线的第二透射权重;
所述渲染模块,还用于基于所述第二透射权重对所述第三体密度、所述第三颜色渲染结果、所述第四体密度和所述第四颜色渲染结果进行渲染,得到相机位姿调整后的第二目标视角图像。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述视角图像的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述视角图像的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种视角图像的处理方法和一种视角图像的处理装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种视角图像的处理方法,其特征在于,所述方法包括:
确定原始视角图像的相机位姿参数;
基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点;
基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果;
基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果;
基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重;
基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。
2.根据权利要求1所述的视角图像的处理方法,其特征在于,所述基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点,包括:
通过分布编码器采用多层感知机对所述相机位姿参数进行学习,得到隐藏场景分布;
从所述隐藏场景分布中进行采样,得到分布采样点。
3.根据权利要求1所述的视角图像的处理方法,其特征在于,所述相机位姿参数包括三维位置和三维角度;
所述基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果,包括:
将所述分布采样点和所述三维位置经过多层感知机缩放至第一注意力空间,以及,将所述分布采样点和所述三维角度经过多层感知机缩放至第二注意力空间;
以所述分布采样点为键值和所述三维位置为查询计算所述第一注意力空间的注意力值,得到第一注意力值,以及,以所述分布采样点为键值和所述三维角度为查询计算所述第二注意力空间的注意力值,得到第二注意力值;
将所述第一注意力值和所述三维位置进行相加,得到所述背景神经辐射场的第一体密度,以及,将所述第二注意力值和所述三维角度进行相加,得到所述背景神经辐射场的第一颜色渲染结果。
4.根据权利要求1所述的视角图像的处理方法,其特征在于,所述相机位姿参数和时间步还用于确定所述动态神经辐射场的光流;
所述方法还包括:
采用所述光流对所述动态神经辐射场进行更新,得到更新后的动态神经辐射场。
5.根据权利要求1所述的视角图像的处理方法,其特征在于,所述基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重,包括:
基于所述相机位姿参数计算所述原始视角图像中每条光线的每个采样点的遮挡权重;
基于每条光线的每个采样点的遮挡权重计算所述每条光线的第一透射权重。
6.根据权利要求1所述的视角图像的处理方法,其特征在于,还包括:
响应于相机位姿调整指令,基于调整后相机位姿参数和所述相机位姿参数确定出参数偏移量;
基于所述参数偏移量确定调整后的每条光线的第二透射权重、背景神经辐射场的第三体密度和第三颜色渲染结果,以及动态神经辐射场的第四体密度和第四颜色渲染结果;
基于所述第二透射权重对所述第三体密度、所述第三颜色渲染结果、所述第四体密度和所述第四颜色渲染结果进行渲染,得到相机位姿调整后的第二目标视角图像。
7.一种视角图像的处理装置,其特征在于,所述装置包括:
第一确定模块,用于确定原始视角图像的相机位姿参数;
第一处理模块,用于基于所述相机位姿参数确定隐藏场景分布,并从所述隐藏场景分布中进行采样,得到分布采样点;
第二处理模块,用于基于所述相机位姿参数和所述分布采样点确定背景神经辐射场的第一体密度和第一颜色渲染结果;
第三处理模块,用于基于所述相机位姿参数和时间步确定动态神经辐射场的第二体密度和第二颜色渲染结果;
第四处理模块,用于基于所述相机位姿参数确定所述原始视角图像中每条光线的第一透射权重;
渲染模块,用于基于所述第一透射权重对所述第一体密度、所述第一颜色渲染结果、所述第二体密度和所述第二颜色渲染结果进行渲染,得到第一目标视角图像。
8.根据权利要求7所述的视角图像的处理装置,其特征在于,所述第一处理模块,具体用于:
通过分布编码器采用多层感知机对所述相机位姿参数进行学习,得到隐藏场景分布;
从所述隐藏场景分布中进行采样,得到分布采样点。
9.根据权利要求7所述的视角图像的处理装置,其特征在于,所述相机位姿参数包括三维位置和三维角度;
所述第二处理模块,具体用于:
将所述分布采样点和所述三维位置经过多层感知机缩放至第一注意力空间,以及,将所述分布采样点和所述三维角度经过多层感知机缩放至第二注意力空间;
以所述分布采样点为键值和所述三维位置为查询计算所述第一注意力空间的注意力值,得到第一注意力值,以及,以所述分布采样点为键值和所述三维角度为查询计算所述第二注意力空间的注意力值,得到第二注意力值;
将所述第一注意力值和所述三维位置进行相加,得到所述背景神经辐射场的第一体密度,以及,将所述第二注意力值和所述三维角度进行相加,得到所述背景神经辐射场的第一颜色渲染结果。
10.根据权利要求7所述的视角图像的处理装置,其特征在于,所述相机位姿参数和时间步还用于确定所述动态神经辐射场的光流;
所述装置还包括:
更新模块,用于采用所述光流对所述动态神经辐射场进行更新,得到更新后的动态神经辐射场。
11.根据权利要求7所述的视角图像的处理装置,其特征在于,所述第四处理模块,具体用于:
基于所述相机位姿参数计算所述原始视角图像中每条光线的每个采样点的遮挡权重;
基于每条光线的每个采样点的遮挡权重计算所述每条光线的第一透射权重。
12.根据权利要求7所述的视角图像的处理装置,其特征在于,还包括:
第二确定模块,用于响应于相机位姿调整指令,基于调整后相机位姿参数和所述相机位姿参数确定出参数偏移量;
所述第二处理模块,还用于背景神经辐射场的第三体密度和第三颜色渲染结果;
所述第三处理模块,还用于动态神经辐射场的第四体密度和第四颜色渲染结果;
所述第四处理模块,还用于基于所述参数偏移量确定调整后的每条光线的第二透射权重;
所述渲染模块,还用于基于所述第二透射权重对所述第三体密度、所述第三颜色渲染结果、所述第四体密度和所述第四颜色渲染结果进行渲染,得到相机位姿调整后的第二目标视角图像。
13.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1~6中任一项所述视角图像的处理方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1~6中任一项所述视角图像的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211737720.7A CN116228855A (zh) | 2022-12-30 | 2022-12-30 | 视角图像的处理方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211737720.7A CN116228855A (zh) | 2022-12-30 | 2022-12-30 | 视角图像的处理方法、装置、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116228855A true CN116228855A (zh) | 2023-06-06 |
Family
ID=86581624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211737720.7A Pending CN116228855A (zh) | 2022-12-30 | 2022-12-30 | 视角图像的处理方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116228855A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912148A (zh) * | 2023-09-12 | 2023-10-20 | 深圳思谋信息科技有限公司 | 图像增强方法、装置、计算机设备及计算机可读存储介质 |
CN118115671A (zh) * | 2024-03-15 | 2024-05-31 | 中国传媒大学 | 一种光流引导的动态感知神经辐射场建模方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019100800A (ja) * | 2017-11-30 | 2019-06-24 | 国立大学法人東北大学 | 放射線画像生成装置 |
US20210390761A1 (en) * | 2020-06-15 | 2021-12-16 | Microsoft Technology Licensing, Llc | Computing images of dynamic scenes |
CN114882158A (zh) * | 2022-05-31 | 2022-08-09 | 苏州浪潮智能科技有限公司 | 基于注意力机制的nerf优化的方法、装置、设备及可读介质 |
WO2022197439A1 (en) * | 2021-03-17 | 2022-09-22 | Microsoft Technology Licensing, Llc | High resolution neural rendering |
US20220319055A1 (en) * | 2021-03-31 | 2022-10-06 | Sony Group Corporation | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture |
CN115482323A (zh) * | 2022-08-10 | 2022-12-16 | 上海大学 | 一种基于神经辐射场的立体视频视差控制与编辑方法 |
-
2022
- 2022-12-30 CN CN202211737720.7A patent/CN116228855A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019100800A (ja) * | 2017-11-30 | 2019-06-24 | 国立大学法人東北大学 | 放射線画像生成装置 |
US20210390761A1 (en) * | 2020-06-15 | 2021-12-16 | Microsoft Technology Licensing, Llc | Computing images of dynamic scenes |
WO2022197439A1 (en) * | 2021-03-17 | 2022-09-22 | Microsoft Technology Licensing, Llc | High resolution neural rendering |
US20220319055A1 (en) * | 2021-03-31 | 2022-10-06 | Sony Group Corporation | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture |
CN114882158A (zh) * | 2022-05-31 | 2022-08-09 | 苏州浪潮智能科技有限公司 | 基于注意力机制的nerf优化的方法、装置、设备及可读介质 |
CN115482323A (zh) * | 2022-08-10 | 2022-12-16 | 上海大学 | 一种基于神经辐射场的立体视频视差控制与编辑方法 |
Non-Patent Citations (2)
Title |
---|
ALBERT PUMAROLA 等: "D-NeRF: Neural Radiance Fields for Dynamic Scenes", 《2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 31 December 2021 (2021-12-31) * |
朱方 等: "3D 场景表征—神经辐射场(NeRF)近期成果综述", 《中国传媒大学学报(自然科学版)》, vol. 29, no. 5, 31 October 2022 (2022-10-31) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912148A (zh) * | 2023-09-12 | 2023-10-20 | 深圳思谋信息科技有限公司 | 图像增强方法、装置、计算机设备及计算机可读存储介质 |
CN116912148B (zh) * | 2023-09-12 | 2024-01-05 | 深圳思谋信息科技有限公司 | 图像增强方法、装置、计算机设备及计算机可读存储介质 |
CN118115671A (zh) * | 2024-03-15 | 2024-05-31 | 中国传媒大学 | 一种光流引导的动态感知神经辐射场建模方法及系统 |
CN118115671B (zh) * | 2024-03-15 | 2024-09-17 | 中国传媒大学 | 一种光流引导的动态感知神经辐射场建模方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663733B2 (en) | Depth determination for images captured with a moving camera and representing moving features | |
Goldstein et al. | Video stabilization using epipolar geometry | |
EP3997662A1 (en) | Depth-aware photo editing | |
JP4879326B2 (ja) | 3次元画像を合成するシステム及び方法 | |
Massey et al. | Salient stills: Process and practice | |
US10095953B2 (en) | Depth modification for display applications | |
CN116228855A (zh) | 视角图像的处理方法、装置、电子设备及计算机存储介质 | |
WO1998045816A1 (en) | Adaptive modeling and segmentation of visual image streams | |
US20210287424A1 (en) | Modification of a live-action video recording using volumetric scene reconstruction to replace a designated region | |
TW201342885A (zh) | 使用網際網路的整合立體轉換裝置 | |
US11328436B2 (en) | Using camera effect in the generation of custom synthetic data for use in training an artificial intelligence model to produce an image depth map | |
CN112446939A (zh) | 三维模型动态渲染方法、装置、电子设备及存储介质 | |
JP7479729B2 (ja) | 三次元表現方法及び表現装置 | |
US11328437B2 (en) | Method for emulating defocus of sharp rendered images | |
Wang et al. | 3d moments from near-duplicate photos | |
CN117527993A (zh) | 一种在可控空间中进行虚拟拍摄装置及进行虚拟拍摄的方法 | |
KR102561903B1 (ko) | 클라우드 서버를 이용한 ai 기반의 xr 콘텐츠 서비스 방법 | |
CN109379577B (zh) | 一种虚拟视点的视频生成方法、装置及设备 | |
US11677928B1 (en) | Method for image processing of image data for varying image quality levels on a two-dimensional display wall | |
Ueda et al. | Toward Multi-Plane Image Reconstruction from a Casually Captured Focal Stack | |
Gao et al. | Aesthetics Driven Autonomous Time-Lapse Photography Generation by Virtual and Real Robots | |
Ronfard et al. | Introducing 3D Cinematography [Guest editors' introduction] | |
Mayhew et al. | Three-dimensional visualization of geographical terrain data using temporal parallax difference induction | |
Salunkhe et al. | A survey on an adaptive video stabilization with tone adjustment | |
Albuquerque et al. | An overview on virtual sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |