CN117422809A - 一种光场图像渲染的数据处理方法 - Google Patents

一种光场图像渲染的数据处理方法 Download PDF

Info

Publication number
CN117422809A
CN117422809A CN202311745242.9A CN202311745242A CN117422809A CN 117422809 A CN117422809 A CN 117422809A CN 202311745242 A CN202311745242 A CN 202311745242A CN 117422809 A CN117422809 A CN 117422809A
Authority
CN
China
Prior art keywords
view
input
light field
target
ray
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311745242.9A
Other languages
English (en)
Other versions
CN117422809B (zh
Inventor
李宁
居法银
朱虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Youzhong Micro Nano Semiconductor Technology Co ltd
Zhejiang Unisom New Material Technology Co ltd
Original Assignee
Jiangsu Youzhong Micro Nano Semiconductor Technology Co ltd
Zhejiang Unisom New Material Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Youzhong Micro Nano Semiconductor Technology Co ltd, Zhejiang Unisom New Material Technology Co ltd filed Critical Jiangsu Youzhong Micro Nano Semiconductor Technology Co ltd
Priority to CN202311745242.9A priority Critical patent/CN117422809B/zh
Publication of CN117422809A publication Critical patent/CN117422809A/zh
Application granted granted Critical
Publication of CN117422809B publication Critical patent/CN117422809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/55Radiosity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Graphics (AREA)
  • Image Generation (AREA)

Abstract

本发明公开了一种光场图像渲染的数据处理方法,涉及图像渲染技术领域,该方法包括:获取多个输入视图的光场的四维参数,其中,多个输入视图之间存在几何约束;根据输入视图的光场的四维参数,确定各个输入视图的视图特征表示;根据输入视图的视图特征表示,计算目标视图的预测颜色,以对目标视图进行渲染,以解决相关技术中的光场图像渲染技术,需要密集视图采样,或难以处理非朗伯效应,导致光场图像渲染存在加大的局限性,进而降低光场图像的渲染性能的问题。

Description

一种光场图像渲染的数据处理方法
技术领域
本发明涉及图像渲染技术领域,特别是涉及一种光场图像渲染的数据处理方法。
背景技术
在计算机视觉领域,如何在给定稀疏图像集的情况下综合一个新颖的视图是计算机视觉和图形学中长久存在的问题。相关技术中,神经辐射场(NeRF)通过其神经结构设计避免了这种退化的解决方案,其中仅在多层感知机(MLPMultilayer Perceptron)的最后一层引入了观看方向,从而限制了亮度函数的表达性,这有效地转化为平滑的BRDF(双向反射分布函数)先验。因此,神经辐射场设法以牺牲非朗伯效应的保真度为代价来避免退化解。
非朗伯效应的逼真合成是神经渲染技术的少数障碍之一。神经辐射场通过学习一个函数来实现逼真的渲染,该函数沿着光线将点映射到颜色和不透明度,然后进行体绘制。NeX是一种基于多平面图像的场景表示,解决了神经辐射场难以对大视图依赖效果进行建模的问题。然而,在液体反射或折射引起的干扰模式等情况下,NeX仍然面临挑战。
相关技术中还通过引入IBR-Net网络,融合附近视图的特征进行渲染。他们的结构预测光线上每个点的颜色,是相邻视图颜色的加权平均。每个点的密度是通过使用单一的注意层聚合所有其他点的信息来预测的。然而,这些方法要么需要密集输入采样,要么运动范围有限,要么局限于简单场景。
针对相关技术中的光场图像渲染技术,需要密集视图采样,或难以处理非朗伯效应,导致光场图像渲染存在加大的局限性,进而降低光场图像的渲染性能的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供的一种光场图像渲染的数据处理方法,至少解决相关技术中的光场图像渲染技术,需要密集视图采样,或难以处理非朗伯效应,导致光场图像渲染存在加大的局限性,进而降低光场图像的渲染性能的问题。
本发明实施例提供的一种光场图像渲染的数据处理方法,包括:获取多个输入视图的光场的四维参数,其中,多个所述输入视图之间存在几何约束;根据输入视图的光场的四维参数,确定各个所述输入视图的视图特征表示;根据所述输入视图的视图特征表示,计算目标视图的预测颜色,以对所述目标视图进行渲染。
本发明实施例的有益效果:通过数据处理过程中采用具有几何约束的多个输入视图,进行光场渲染,结合了光场渲染和几何重建的优点,既能准确的表示视相关效果,而且还能逼真地建模非朗伯效应。利用多个输入视图的四维参数计算目标视图的预测颜色,实现目标视图的图像渲染,进一步提高渲染性能。
作为一种可选的实施例,获取多个输入视图的光场的四维参数,包括:通过图像采集设备在多个位置,分别获取对应的输入视图;在非全景场景下,获取各个所述输入视图的光场的射线的四元参数,作为所述四维参数,其中,所述四元参数包括所述射线上两点的二维坐标;在全景场景下,获取各个所述输入视图的光场的两球参数,作为所述四维参数。
对于不同场景下采用不同的四维参数,在非全景场景,采用光板的二维坐标,在全景场景下,采用两球参数,以便更准确的描述光场。
作为一种可选的实施例,根据输入视图的光场的四维参数,确定各个所述输入视图的视图特征表示,包括:根据所述四维参数确定所述输入视图的极外点集合和射线坐标集合;根据所述输入视图的所述极外点集合和所述射线坐标集合,计算与所述极外点对应的极外点特征表示;根据所述极外点特征表示和所述射线坐标集合,计算所述输入视图的第一权重;根据所述第一权重对各个所述输入视图的极外点特征表示进行聚合,得到所述输入视图的视图特征表示。
根据输入视图的四维参数,确定极外点集合和射线坐标集合,进而确定极外点特征表示,计算第一权重,并利用第一权重对具有几何约束的输入视图的极外点特征表示进行聚合,得到输入视图的特征表示。
作为一种可选的实施例,根据所述四维参数确定所述输入视图的极外点集合和射线坐标集合,包括:根据所述四维参数,结合对应输入视图的相机内参和外参,确定所述射线的坐标方程;基于所述射线的坐标方程,选取预设数量的采样点;将每个采样点投影到每个输入视图,得到极外点集合;将所述极外点集合中的各个极外点的射线参数进行关联,得到对应的射线坐标集合。
根据输入视图的四维参数,结合对应输入视图的相机内参和外参,确定射线的坐标方程,基于所述射线的坐标方程,选取预设数量的采样点,投影到每个输入视图,得到极外点集合,将极外点集合中的各个极外点的射线参数进行关联,得到对应的射线坐标集合。实现从多个的输入视图中隐式学习场景几何,优化视相关效果。
作为一种可选的实施例,根据所述输入视图的视图特征表示,计算目标视图的预测颜色,以对所述目标视图进行渲染,包括:根据所述输入视图的视图特征表示,结合所述输入视图的射线坐标集合,计算所述输入视图的第二权重;根据所述第二权重对各个所述输入视图的视图特征表示进行聚合,得到所述输入视图的目标射线特征表示;根据所述目标射线特征表示,利用逻辑函数,预测所述目标视图的像素的预测颜色。
根据输入视图的视图特征表示,计算输入视图的第二权重,根据第二权重对输入视图的试图特征表示进行聚合,得到输入视图的目标射线特征表示,利用逻辑函数,预测目标视图的像素的预测颜色。
作为一种可选的实施例,根据所述目标射线特征表示,利用逻辑函数,预测所述目标视图的像素的预测颜色,包括:对所述目标射线特征表示进行线性投影得到逻辑函数输入;将所述逻辑函数输入发送给所述逻辑函数,由所述逻辑函数输出所述目标视图的像素的预测颜色。
对目标射线特征表示进行线性投影再输入逻辑函数,由逻辑函数输出目标视图的像素的预测颜色,实现对目标视图的渲染。
作为一种可选的实施例,根据所述目标射线特征表示,利用逻辑函数,预测所述目标视图的像素的预测颜色之后,所述方法还包括:根据第一权重和第二权重和所述预测颜色,计算二次预测颜色;根据所述二次预测颜色和所述输入视图的像素颜色,计算辅助损耗,其中,所述辅助损耗用于指示预测偏差。
利用第一权重和第二权重,以及预测颜色,可以进一步更精准的预测二次预测颜色,并利用辅助损耗,来表征二次预测颜色的准确程度。
本发明实施例提供的一种光场图像渲染的数据处理装置,包括:获取模块,用于获取多个输入视图的光场的四维参数,其中,多个所述输入视图之间存在几何约束;特征模块,用于根据输入视图的光场的四维参数,确定各个所述输入视图的视图特征表示;预测模块,用于根据所述输入视图的视图特征表示,计算目标视图的预测颜色,以对所述目标视图进行渲染。
本发明实施例提供的一种电子设备,包括:处理器,以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述中任一项所述的方法。
本发明实施例提供的一种存储有计算机指令的非瞬时机器可读介质,所述计算机指令用于使所述计算机执行根据上述中任一项所述的方法。
本发明的一个或多个实施例的细节在以下附图和描述中提出,以使本发明的其他特征、目的和优点更加简明易懂。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1是本发明实施例的一种光场图像渲染的数据处理方法的流程图;
图2是本发明实施例的光场图像渲染模型架构的示意图;
图3是本发明实施例的联合优化架构的示意图;
图4是本发明实施例的一种光场图像渲染的数据处理装置的示意图;
图5是本实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本实施例的实施例。虽然附图中显示了本实施例的某些实施例,然而应当理解的是,本实施例可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本实施例。应当理解的是,本实施例的附图及实施例仅用于示例性作用,并非用于限制本实施例的保护范围。
相关技术中,光场渲染是一种用于生成视角相关的效果的技术,它可以捕捉到场景中的光线方向和强度信息,从而实现高质量的视角相关渲染。几何重建则是一种用于从图像中恢复场景几何信息的技术,它可以通过多个视角的图像来重建出场景的三维几何结构。这两种技术在计算机视觉和计算机图形学领域都有广泛的应用,但它们各自存在一些局限性,如光场渲染需要大量的输入图像,而几何重建则难以处理非兰伯特表面等复杂场景。
为了解决相关技术中的光场图像渲染技术,需要密集视图采样,或难以处理非朗伯效应,导致光场图像渲染存在加大的局限性,进而降低光场图像的渲染性能的问题,本发明实施例提供了一种光场图像渲染的数据处理方法。
图1是本发明实施例的一种光场图像渲染的数据处理方法的流程图,如图1所示,其中,本发明实施例所提供的光场图像渲染的数据处理方法,包括以下步骤:
步骤S101,获取多个输入视图的光场的四维参数,其中,多个输入视图之间存在几何约束;
步骤S102,根据输入视图的光场的四维参数,确定各个输入视图的视图特征表示;
步骤S103,根据输入视图的视图特征表示,计算目标视图的预测颜色,以对目标视图进行渲染。
本发明实施例提供的上述光场图像渲染的数据处理方法,通过数据处理过程中采用具有几何约束的多个输入视图,进行光场渲染,结合了光场渲染和几何重建的优点,既能准确的表示视相关效果,而且还能逼真地建模非朗伯效应。利用多个输入视图的四维参数计算目标视图的预测颜色,实现目标视图的图像渲染,进一步提高渲染性能。
上述步骤的执行主体可以为光场图像渲染模型,该模型可以为神经辐射场(NeRF),即一种有隐式场景表示的新视角合成方法。它通过使用一组输入视图优化一个完全连接的网络来合成场景的新视图,随后生成辐射场,也即是目标视图。
需要说明的是,输入视图的数量较少,通常在两位数以内,例如,本实施例可以采用9个不同机位的照片,作为输入视图。相比于相关技术中的光场渲染,需要采集大量的视图图像,本实施例的输入视图的集合,可称为稀疏的视图集合。
输入视图之间存在几何约束,也即是不同输入视图中的像素点之间存在几何约束,几何约束包括但不限于,不同输入视图的像素点重合为同一点,或为相邻点,或同处一条直线等几何关系。
在后续的处理中,在进行特征的聚合时,考虑了输入视图的几何约束,结合输入视图本身的几何信息,使得最终渲染的目标视图能够具有更好的视相关效果。
一个输入视图其对应一个光场,光场的四维参数,也即是用数据表示该光场的光线,或者射线的基本情况。
根据输入视图的光场的四维参数,可以确定输入视图的极外点集合和射线坐标集合,进而确定极外点特征表示,和输入视图的特征表示。然后根据输入视图的视图特征表示,计算目标视图的预测颜色,以对目标视图进行渲染。
上述过程可以采用神经辐射场(NeRF),通过使用一组输入视图优化一个完全连接的网络来合成场景的新的目标视图。神经辐射场的MLP网络将一组输入视图的连续的5D坐标(3D位置x和2D观看方向d)映射到发射颜色c和体积密度
其中为位置编码映射函数。为了从一个视点渲染神经辐射场,使用经典的体渲染将输出颜色c和密度/>累加到图像中。
生成神经辐射场目的是通过对未摆拍的二维图像进行训练,学习一种合成新场景的模型。具体可以采用对抗框架来训练辐射场生成模型(GRAF)。辐射场生成模型以形状代码和/>外观代码为条件,得到辐射场生成模型的模型表示:
也即是步骤S102和步骤S103之前,可以基于包含MLP网络的神经辐射场,以及采用对抗框架训练生成辐射场生成模型,基于辐射场生成模型,可以根据输入视图的光场的四维参数,确定各个输入视图的视图特征表示,计算目标视图的预测颜色,以对目标视图进行渲染。
从而结合光场渲染的辐射场生成模型,并结合几何重建技术的输入视图的几何约束的优点,既能准确的表示视相关效果,而且还能逼真地建模非朗伯效应。利用多个输入视图的四维参数计算目标视图的预测颜色,实现目标视图的图像渲染,进一步提高渲染性能。
作为一种可选的实施例,获取多个输入视图的光场的四维参数,包括:通过图像采集设备在多个位置,分别获取对应的输入视图;在非全景场景下,获取各个输入视图的光场的射线的四元参数,作为四维参数,其中,四元参数包括射线上两点的二维坐标;在全景场景下,获取各个输入视图的光场的两球参数,作为四维参数。
对于不同场景下采用不同的四维参数,在非全景场景,采用光板的二维坐标,在全景场景下,采用两球参数,以便更准确的描述光场。
由于光线的空间有四个自由度,可以用四维向量参数化,正面捕获采用光板参数化:每个光板由两个平行的平面组成,各自的二维坐标系表示为和/>,也即是射线上两点的二维坐标。光线则被表示为一个包含两个平面在各自坐标系中的交点坐标的4D元组,也即是四维参数:/>
对于360°的全景场景,可以使用光场的两球参数化。也即是给定一个包围场景的球体,来自相机的射线使用与球体的两个交点处的经度,/>和纬度/>,/>表示,也即是四维参数:/>
作为一种可选的实施例,根据输入视图的光场的四维参数,确定各个输入视图的视图特征表示,包括:根据四维参数确定输入视图的极外点集合和射线坐标集合;根据输入视图的极外点集合和射线坐标集合,计算与极外点对应的极外点特征表示;根据极外点特征表示和射线坐标集合,计算输入视图的第一权重;根据第一权重对各个输入视图的极外点特征表示进行聚合,得到输入视图的视图特征表示。
根据输入视图的四维参数,确定极外点集合和射线坐标集合,进而确定极外点特征表示,计算第一权重,并利用第一权重对具有几何约束的输入视图的极外点特征表示进行聚合,得到输入视图的特征表示。
上述根据四维参数确定输入视图的极外点集合和射线坐标集合,极外点特征,也即是极外点集合,以及射线坐标集合都是计算得到的,具体计算方式在后续进行详细说明,其中,射线坐标集合包括目标射线,目标射线的特征向量是它自己的坐标
上述极外点的特征可以包括很多内容,极外点的特征是包含射线坐标/>,沿目标射线的坐标/>投影到极外点/>的3D点/>的坐标,可学习的摄像机嵌入参数/>,在极外点的视觉特征/>,以及极外点/>的色彩/>
目标像素与极外点相匹配,则可以解出场景中对应的采样点,其坐标为/>,应用傅立叶特征位置编码来促进高频函数的学习,每一个极外点/>都用一个极外点特征表示:
其中,/>分别表示射线坐标和点坐标,/>表示连接。视图/>的编解码器transformer将作为输入/>。线性层首先将特征投影到相同的维数上,然后对整个序列进行自注意变换。
聚合对应于极点的/>个输出,以获得参考视图特征。该聚合是一个加权平均并注意机制来计算第一权重/>,如下所示:
是目标射线的输出特征,和/>是第一学习权重。第一阶段通过对所有视图重复下式,得到输入视图/>的视图特征表示/>
作为一种可选的实施例,根据四维参数确定输入视图的极外点集合和射线坐标集合,包括:根据四维参数,结合对应输入视图的相机内参和外参,确定射线的坐标方程;基于射线的坐标方程,选取预设数量的采样点;将每个采样点投影到每个输入视图,得到极外点集合;将极外点集合中的各个极外点的射线参数进行关联,得到对应的射线坐标集合。
根据输入视图的四维参数,结合对应输入视图的相机内参和外参,确定射线的坐标方程,基于射线的坐标方程,选取预设数量的采样点,投影到每个输入视图,得到极外点集合,将极外点集合中的各个极外点的射线参数进行关联,得到对应的射线坐标集合。实现从多个的输入视图中隐式学习场景几何,优化视相关效果。
根据四维参数,结合对应输入视图的相机内参和外参,确定射线的坐标方程,在齐次坐标中获得给定像素的光线坐标,从具有本征内参/>和姿态外参/>的图像中,首先获得参数化的世界坐标中的射线,坐标方程表示为:
然后求解系数以获得两个平面或球体的交点。
沿射线对点/>序列进行采样,并将每个采样点投影到每个参考视图,得到极外点集合:
其中,和/>分别表示本征和外征,且/>
集合由沿第j个/>参考视图中目标射线的极线的点组成。称/>为极外点。对于每个极外点,将其射线参数化关联起来得到射线坐标集合/>
作为一种可选的实施例,根据输入视图的视图特征表示,计算目标视图的预测颜色,以对目标视图进行渲染,包括:根据输入视图的视图特征表示,结合输入视图的射线坐标集合,计算输入视图的第二权重;根据第二权重对各个输入视图的视图特征表示进行聚合,得到输入视图的目标射线特征表示;根据目标射线特征表示,利用逻辑函数,预测目标视图的像素的预测颜色。
根据输入视图的视图特征表示,计算输入视图的第二权重,根据第二权重对输入视图的试图特征表示进行聚合,得到输入视图的目标射线特征表示,利用逻辑函数,预测目标视图的像素的预测颜色。
获取目标射线和每个参考视图的特征集。序列作为输入,其中是第一阶段计算的参考视图特征,输出是目标射线的单个特征向量,变压器输出序列使用加权平均值进行汇总。计算第二权重/>具有第二学习权重/>
输出是目标射线特征表示为:
作为一种可选的实施例,根据目标射线特征表示,利用逻辑函数,预测目标视图的像素的预测颜色,包括:对目标射线特征表示进行线性投影得到逻辑函数输入;将逻辑函数输入发送给逻辑函数,由逻辑函数输出目标视图的像素的预测颜色。
对目标射线特征表示进行线性投影再输入逻辑函数,由逻辑函数输出目标视图的像素的预测颜色,实现对目标视图的渲染。
也即是对目标射线特征进行线性投影,并通过逻辑函数sigmoid以产生像素颜色预测。需要说明的是,逻辑函数还可以为其他的逻辑函数,本实施例采用sigmoid具有更好的预测效果。
作为一种可选的实施例,根据目标射线特征表示,利用逻辑函数,预测目标视图的像素的预测颜色之后,方法还包括:根据第一权重和第二权重和预测颜色,计算二次预测颜色;根据二次预测颜色和输入视图的像素颜色,计算辅助损耗,其中,辅助损耗用于指示预测偏差。
利用第一权重和第二权重,以及预测颜色,可以进一步更精准的预测二次预测颜色,并利用辅助损耗,来表征二次预测颜色的准确程度。
因为第一权重的高值表示与目标射线的有效匹配,而第二权重/>的低值可能表示遮挡,添加辅助损失,为了保证极外点的第一权重/>和参考视图的第二权重/>的注意力权重是可解释的,获得更准确的渲染。使用注意权值组合参考像素颜色,并进行第二次颜色预测:
其中,是极外点/>的颜色。
辅助损耗则定义为/>和输入视图的真实值之间的损失。这种损失的影响是双重的:它获取较低的第一权重/>以避免辅助分支中的模糊预测,对于未排除的点,它获取更高的第二权重/>
需要说明的是,本实施例还提供了一种可选的实施方式,面向初始视图的稀疏性的核心挑战以及现有方法不能模拟非朗伯效应等问题,提出通过在训练和推理过程中加强几何约束,从稀疏的视图集合中隐式学习场景几何的方法能准确的表示视相关效果并且逼真地建模非朗伯效应。同时,提出的生成模型通过建立几何约束,联合优化多个视图,保证视图之间的几何一致性,进一步提高渲染性能。
本实施方式的技术方案主要内容如下:针对初始视图的稀疏性问题,构建一种基于稀疏性约束的生成对抗网络光场图像神经渲染模型,构建方法为先训练和推理过程中加强几何约束,从稀疏的视图集合中隐式学习场景几何,并联合优化带有几何约束的多个视图,准确再现与视角相关的效果,模型总体框架见附图2,图2是本发明实施例的光场图像渲染模型架构的示意图。
设计的特征级多视角联合优化的两阶段训练策略首先沿着极线聚合特征,然后使用遮挡和照明效果的原因来聚合多个视图中的特征以生成最终颜色,有效提高了渲染性能,具体流程见附图3,提出的生成模型通过建立几何约束,联合优化多个视图,保证视图之间的几何一致性,图3是本发明实施例的联合优化架构的示意图,图中的表示图像的姿态外参。
具体的数据处理过程如上所述,主要涉及以下步骤:
步骤1,神经辐射场(NeRF),即一种有隐式场景表示的新视角合成方法,席卷了计算机视觉领域。它通过使用一组输入视图优化一个完全连接的网络来合成场景的新视图,随后生成辐射场。
步骤2,为了高保真地捕捉视图相关的效果,使用光场的四维参数化作为输入。
步骤3,模型的第一阶段,通过聚合与极外点和目标射线相关的特征,计算每个参考视图的特征表示,特征集表示为,其中/>。模型学会匹配目标射线坐标与可用的参考特征,输出是一个代表视图/>的特征向量。
步骤4,第二阶段根据目标射线表示,通过聚合与每个参考视图相关的特征来预测目标射线的颜色。像素与关联光线/>的颜色被预测为/>
步骤5,添加辅助损失,以保证极外点和参考视图/>的注意力权重是可解释的。
本实施例提出的基于三维感知图像合成的多视图一致生成的光场图像神经渲染模型解决了初始视图的稀疏性问题,通过在训练和推理过程中加强几何约束,从稀疏的视图集合中隐式学习场景几何。而且,通过利用底层的三维几何信息,联合优化带有几何约束的多个视图。
本实施例提出的辐射场生成模型通过建立几何约束,联合优化多个视图,保证视图之间的几何一致性。此外,设计的特征级多视角联合优化的两阶段训练策略进一步提高渲染效果。
图4是本发明实施例的一种光场图像渲染的数据处理装置的示意图,如图4所示,基于本发明实施例提供的上述光场图像渲染的数据处理方法,本发明实施例还提供一种光场图像渲染的数据处理装置,应用于光场图像渲染,该光场图像渲染的数据处理装置包括:获取模块401,特征模块402,预测模块403,下面对该装置进行详细说明。
获取模块401,用于获取多个输入视图的光场的四维参数,其中,多个所述输入视图之间存在几何约束;特征模块402,与上述获取模块401相连,用于根据输入视图的光场的四维参数,确定各个所述输入视图的视图特征表示;预测模块403,与上述特征模块402相连,用于根据所述输入视图的视图特征表示,计算目标视图的预测颜色,以对所述目标视图进行渲染。
本发明实施例所提供的上述光场图像渲染的数据处理装置,通过数据处理过程中采用具有几何约束的多个输入视图,进行光场渲染,结合了光场渲染和几何重建的优点,既能准确的表示视相关效果,而且还能逼真地建模非朗伯效应。利用多个输入视图的四维参数计算目标视图的预测颜色,实现目标视图的图像渲染,进一步提高渲染性能。
本发明实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。上述存储器存储有能够被上述至少一个处理器执行的计算机程序,上述计算机程序在被上述至少一个处理器执行时用于使电子设备执行本发明实施例的方法。
本发明实施例还提供一种存储有计算机程序的非瞬时机器可读介质,其中,上述计算机程序在被计算机的处理器执行时用于使上述计算机执行本发明实施例的方法。
本发明实施例还提供一种计算机程序产品,包括计算机程序,其中,计算机程序在被计算机的处理器执行时用于使计算机执行本发明实施例的方法。
参考图5,现将描述可以作为本发明实施例的服务器或客户端的电子设备的结构框图,其是可以应用于本发明的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图5所示,电子设备包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储电子设备操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备中的多个部件连接至I/O接口505,包括:输入单元506、输出单元507、存储单元508以及通信单元509。输入单元506可以是能向电子设备输入信息的任何类型的设备,输入单元506可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元508可以包括但不限于磁盘、光盘。通信单元509允许电子设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于CPU、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如,在一些实施例中,本发明的方法实施例可被实现为计算机程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备上。在一些实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述的方法。
用于实施本发明实施例的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得计算机程序当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明实施例的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读信号介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本发明实施例使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。本发明实施例中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本发明实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本发明实施例所提供的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的保护范围在此方面不受限制。
“实施例”一词在本说明书中指的是结合实施例描述的具体特征、结构或特性可以包括在本发明的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见。尤其,对于装置、设备、系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (10)

1.一种光场图像渲染的数据处理方法,其特征在于,包括:
获取多个输入视图的光场的四维参数,其中,多个所述输入视图之间存在几何约束;
根据输入视图的光场的四维参数,确定各个所述输入视图的视图特征表示;
根据所述输入视图的视图特征表示,计算目标视图的预测颜色,以对所述目标视图进行渲染。
2.根据权利要求1所述的一种光场图像渲染的数据处理方法,其特征在于,获取多个输入视图的光场的四维参数,包括:
通过图像采集设备在多个位置,分别获取对应的输入视图;
在非全景场景下,获取各个所述输入视图的光场的射线的四元参数,作为所述四维参数,其中,所述四元参数包括所述射线上两点的二维坐标;
在全景场景下,获取各个所述输入视图的光场的两球参数,作为所述四维参数。
3.根据权利要求2所述的一种光场图像渲染的数据处理方法,其特征在于,根据输入视图的光场的四维参数,确定各个所述输入视图的视图特征表示,包括:
根据所述四维参数确定所述输入视图的极外点集合和射线坐标集合;
根据所述输入视图的所述极外点集合和所述射线坐标集合,计算与所述极外点对应的极外点特征表示;
根据所述极外点特征表示和所述射线坐标集合,计算所述输入视图的第一权重;
根据所述第一权重对各个所述输入视图的极外点特征表示进行聚合,得到所述输入视图的视图特征表示。
4.根据权利要求3所述的一种光场图像渲染的数据处理方法,其特征在于,根据所述四维参数确定所述输入视图的极外点集合和射线坐标集合,包括:
根据所述四维参数,结合对应输入视图的相机内参和外参,确定所述射线的坐标方程;
基于所述射线的坐标方程,选取预设数量的采样点;
将每个采样点投影到每个输入视图,得到极外点集合;
将所述极外点集合中的各个极外点的射线参数进行关联,得到对应的射线坐标集合。
5.根据权利要求1所述的一种光场图像渲染的数据处理方法,其特征在于,根据所述输入视图的视图特征表示,计算目标视图的预测颜色,以对所述目标视图进行渲染,包括:
根据所述输入视图的视图特征表示,结合所述输入视图的射线坐标集合,计算所述输入视图的第二权重;
根据所述第二权重对各个所述输入视图的视图特征表示进行聚合,得到所述输入视图的目标射线特征表示;
根据所述目标射线特征表示,利用逻辑函数,预测所述目标视图的像素的预测颜色。
6.根据权利要求5所述的一种光场图像渲染的数据处理方法,其特征在于,根据所述目标射线特征表示,利用逻辑函数,预测所述目标视图的像素的预测颜色,包括:
对所述目标射线特征表示进行线性投影得到逻辑函数输入;
将所述逻辑函数输入发送给所述逻辑函数,由所述逻辑函数输出所述目标视图的像素的预测颜色。
7.根据权利要求1至6中任一项所述的一种光场图像渲染的数据处理方法,其特征在于,根据所述目标射线特征表示,利用逻辑函数,预测所述目标视图的像素的预测颜色之后,所述方法还包括:
根据第一权重和第二权重和所述预测颜色,计算二次预测颜色;
根据所述二次预测颜色和所述输入视图的像素颜色,计算辅助损耗,其中,所述辅助损耗用于指示预测偏差。
8.一种光场图像渲染的数据处理装置,其特征在于,包括:
获取模块,用于获取多个输入视图的光场的四维参数,其中,多个所述输入视图之间存在几何约束;
特征模块,用于根据输入视图的光场的四维参数,确定各个所述输入视图的视图特征表示;
预测模块,用于根据所述输入视图的视图特征表示,计算目标视图的预测颜色,以对所述目标视图进行渲染。
9.一种电子设备,包括:处理器,以及存储程序的存储器,其特征在于,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时机器可读介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。
CN202311745242.9A 2023-12-19 2023-12-19 一种光场图像渲染的数据处理方法 Active CN117422809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311745242.9A CN117422809B (zh) 2023-12-19 2023-12-19 一种光场图像渲染的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311745242.9A CN117422809B (zh) 2023-12-19 2023-12-19 一种光场图像渲染的数据处理方法

Publications (2)

Publication Number Publication Date
CN117422809A true CN117422809A (zh) 2024-01-19
CN117422809B CN117422809B (zh) 2024-03-19

Family

ID=89530656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311745242.9A Active CN117422809B (zh) 2023-12-19 2023-12-19 一种光场图像渲染的数据处理方法

Country Status (1)

Country Link
CN (1) CN117422809B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110024002A (zh) * 2016-12-30 2019-07-16 谷歌有限责任公司 用于使用贡献区域来光场重构的系统和方法
CN111480183A (zh) * 2017-11-20 2020-07-31 上海科技大学 用于产生透视效果的光场图像渲染方法和系统
CN115769266A (zh) * 2020-04-27 2023-03-07 阿瓦龙全息照相技术股份公司 光场体积渲染系统和方法
CN115830406A (zh) * 2021-09-15 2023-03-21 南京大学 一种基于多视差尺度的快速光场深度估计方法
CN116070687A (zh) * 2023-03-06 2023-05-05 浙江优众新材料科技有限公司 一种基于全局光线空间仿射变换的神经网络光场表示方法
WO2023086194A1 (en) * 2021-11-15 2023-05-19 Google Llc High dynamic range view synthesis from noisy raw images
WO2023091408A1 (en) * 2021-11-16 2023-05-25 Google Llc Geometry-free neural scene representations for efficient object-centric novel view synthesis
CN116977522A (zh) * 2023-06-02 2023-10-31 腾讯科技(深圳)有限公司 三维模型的渲染方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110024002A (zh) * 2016-12-30 2019-07-16 谷歌有限责任公司 用于使用贡献区域来光场重构的系统和方法
CN111480183A (zh) * 2017-11-20 2020-07-31 上海科技大学 用于产生透视效果的光场图像渲染方法和系统
CN115769266A (zh) * 2020-04-27 2023-03-07 阿瓦龙全息照相技术股份公司 光场体积渲染系统和方法
CN115830406A (zh) * 2021-09-15 2023-03-21 南京大学 一种基于多视差尺度的快速光场深度估计方法
WO2023086194A1 (en) * 2021-11-15 2023-05-19 Google Llc High dynamic range view synthesis from noisy raw images
WO2023091408A1 (en) * 2021-11-16 2023-05-25 Google Llc Geometry-free neural scene representations for efficient object-centric novel view synthesis
CN116070687A (zh) * 2023-03-06 2023-05-05 浙江优众新材料科技有限公司 一种基于全局光线空间仿射变换的神经网络光场表示方法
CN116977522A (zh) * 2023-06-02 2023-10-31 腾讯科技(深圳)有限公司 三维模型的渲染方法、装置、计算机设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LI, Q ET AL.: "Learning Generalizable Light Field Networks from Few Images", IEEE, 16 November 2023 (2023-11-16) *
MIAO YUAN ET AL.: "Neural Radiance Field-Based Light Field Super-Resolution in Angular Domain", ACTA OPTICA SINICA, 16 November 2023 (2023-11-16) *
戴天翊: "基于深度学习的三维光场渲染算法研究", 万方学位论文库, 22 August 2023 (2023-08-22) *
韩磊;徐梦溪;王鑫;王慧斌;: "基于光场成像的多线索融合深度估计方法", 计算机学报, no. 01, 19 September 2019 (2019-09-19) *

Also Published As

Publication number Publication date
CN117422809B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN110910486B (zh) 室内场景光照估计模型、方法、装置、存储介质以及渲染方法
CN116310076A (zh) 基于神经辐射场的三维重建方法、装置、设备及存储介质
CN108805979A (zh) 一种动态模型三维重建方法、装置、设备和存储介质
US20220358675A1 (en) Method for training model, method for processing video, device and storage medium
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN116977522A (zh) 三维模型的渲染方法、装置、计算机设备和存储介质
JP2022522401A (ja) 画像をレンダリングするための3次元モデリングボリューム
CN115253300A (zh) 一种图形渲染方法以及装置
CN116246023A (zh) 三维模型重建方法、装置、设备、存储介质及程序产品
CN115529835A (zh) 用于新颖视图合成的神经混合
CN115205463A (zh) 基于多球面场景表达的新视角图像生成方法、装置和设备
CN115359173A (zh) 虚拟多视点视频生成方法、装置、电子设备和存储介质
US20220292781A1 (en) Generative scene networks
CN116778063A (zh) 一种基于特征纹理网格和哈希编码的快速虚拟视点合成方法及装置
CN115797561A (zh) 三维重建方法、设备及可读存储介质
US11748940B1 (en) Space-time representation of dynamic scenes
CN116134491A (zh) 用于面部表情、身体姿态形态和衣服表演捕捉的使用隐式可微分渲染器的多视图神经人体预测
CN116912148B (zh) 图像增强方法、装置、计算机设备及计算机可读存储介质
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
Hara et al. Enhancement of novel view synthesis using omnidirectional image completion
CN117422809B (zh) 一种光场图像渲染的数据处理方法
Dai et al. PBR-Net: Imitating physically based rendering using deep neural network
CN115439610B (zh) 模型的训练方法、训练装置、电子设备和可读存储介质
CN116863078A (zh) 三维人体模型重建方法、装置、电子设备和可读介质
CN115272575B (zh) 图像生成方法及装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant