CN114549731A - 视角图像的生成方法、装置、电子设备及存储介质 - Google Patents
视角图像的生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114549731A CN114549731A CN202210424728.1A CN202210424728A CN114549731A CN 114549731 A CN114549731 A CN 114549731A CN 202210424728 A CN202210424728 A CN 202210424728A CN 114549731 A CN114549731 A CN 114549731A
- Authority
- CN
- China
- Prior art keywords
- sampling
- color
- value
- transparency
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4007—Interpolation-based scaling, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
- G06T3/4076—Super resolution, i.e. output image resolution higher than sensor resolution by iteratively correcting the provisional high resolution image using the original low-resolution image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Abstract
本申请涉及图像处理技术领域,特别涉及一种视角图像的生成方法、装置、电子设备及存储介质,其中,方法包括:建立目标三维场景的第一神经辐射场,获取第一神经辐射场中每个离散点在每个预设采样方向上的颜色值和透明度值,并进行双线性插值采样,得到多个新采样方向上的颜色值和透明度值,并将每个离散点在预设采样方向和新采样方向上的颜色值和透明度值输入预设的三维卷积神经网络进行离散点重建,得到第二神经辐射场;沿着目标视角下每个像素方向,将第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,基于每个像素的最终颜色生成目标视角下的图像。由此,解决了相机分辨率受限场景下的高清渲染重建等问题。
Description
技术领域
本申请涉及图像处理、图形学、计算机视觉和人工智能技术领域,特别涉及一种视角图像的生成方法、装置、电子设备及存储介质。
背景技术
NeRf(Neuralradiancefield,神经辐射场)渲染技术提出了一个通过输入视图的稀疏采样集及其采样位姿优化该场景的神经辐射场函数,进而通过对神经辐射场到不同角度的投影得到新的视角的渲染方法。
与传统的渲染方法相比,NeRf不需要考虑场景的几何结构,且能实现单点的精细渲染,从相机光线查询的坐标和角度来合成视图,使用经典体积渲染技术将输出的颜色和密度投射到图像中。
然而,为了获得精细的表达方法,现有的NeRf需要对场景提供精细的二维采样,即高分辨率的采样图像,且需要对多个二维采样进行复杂的训练。
发明内容
本申请提供一种视角图像的生成方法、装置、电子设备及存储介质,以解决相机分辨率受限场景下的高清渲染重建等问题。
本申请第一方面实施例提供一种视角图像的生成方法,包括以下步骤:采集不同预设视角下目标三维场景的多张二维图像,并根据所述多张二维图像建立所述目标三维场景的第一神经辐射场,其中,所述第一神经辐射场包括多个离散点;获取每个离散点在每个预设采样方向上的颜色值和透明度值,对所述每个离散点进行不同方向的双线性插值采样,得到所述每个离散点在多个新采样方向上的颜色值和透明度值,并将每个离散点在预设采样方向和新采样方向上的颜色值和透明度值输入预设的三维卷积神经网络进行离散点重建,得到第二神经辐射场;沿着目标视角下每个像素方向,将所述第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,基于所述每个像素的最终颜色生成所述目标视角下的图像。
进一步地,所述获取每个离散点在每个预设采样方向上的颜色值和透明度值,包括:将所述多个离散点输入至预设多层感知机中,输出每个离散点在每个预设采样方向上的颜色值和透明度值。
进一步地,在将所述多个离散点输入至预设多层感知机中之前,还包括:
获取不同训练视角下训练三维场景的多张训练图像;根据所述不同训练视角计算训练图像中每个像素的角度,沿着所述角度对应的方向采样得到多个采样点,将所述多个采样点输入至预先构建的多层感知机中,得到每个采样点的颜色预测值和透明度预测值;根据每个采样点的颜色参考值和透明度参考值计算所述颜色预测值和所述透明度预测值对应的损失值,并根据所述损失值对所述预先构建的多层感知机进行训练,得到所述预设多层感知机。
进一步地,对所述每个离散点进行不同方向的双线性插值采样,得到所述每个离散点在多个新采样方向上的颜色值和透明度值,包括:在相同预设视角下,对所述第一神经辐射场中所有离散点进行双线性插值采样,并在遍历所有预设视角后,得到所述每个离散点在多个新采样方向上的颜色值和透明度值。
进一步地,所述沿着目标视角下每个像素方向,将所述第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,包括:获取目标观测位置和所述目标视角;根据所述目标观测位置和所述目标视角计算所述目标视角下每个像素方向和位置;以像素的位置为起点,沿着对应的像素方向从第二神经辐射场中采集离散点,并将采集的所有离散点的颜色值和透明度值进行线性叠加,得到对应像素的最终颜色。
本申请第二方面实施例提供一种视角图像的生成装置,包括:建立模块,用于采集不同预设视角下目标三维场景的多张二维图像,并根据所述多张二维图像建立所述目标三维场景的第一神经辐射场,其中,所述第一神经辐射场包括多个离散点;重建模块,用于获取每个离散点在每个预设采样方向上的颜色值和透明度值,对所述每个离散点进行不同角度的双线性插值采样,得到所述每个离散点在多个新采样方向上的颜色值和透明度值,并将每个离散点在预设采样方向和新采样方向上的颜色值和透明度值输入预设的三维卷积神经网络进行离散点重建,得到第二神经辐射场;叠加模块,用于沿着目标视角下每个像素方向,将所述第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,基于所述每个像素的最终颜色生成所述目标视角下的图像。
进一步地,所述重建模块进一步用于将所述多个离散点输入至预设多层感知机中,输出每个离散点在每个预设采样方向上的颜色值和透明度值。
进一步地,还包括:训练模块,用于在将所述多个离散点输入至预设多层感知机中之前,获取不同训练视角下训练三维场景的多张训练图像;根据所述不同训练视角计算训练图像中每个像素的角度,沿着所述角度对应的方向采样得到多个采样点;将所述多个采样点输入至预先构建的多层感知机中,得到每个采样点的颜色预测值和透明度预测值;根据每个采样点的颜色参考值和透明度参考值计算所述颜色预测值和所述透明度预测值对应的损失值,并根据所述损失值对所述预先构建的多层感知机进行训练,得到所述预设多层感知机。
进一步地,所述重建模块进一步用于在相同预设视角下,对所述第一神经辐射场中所有离散点进行双线性插值采样,并在遍历所有预设视角后,得到所述每个离散点在多个新采样方向上的颜色值和透明度值。
进一步地,所述叠加模块进一步用于获取目标观测位置和所述目标视角;根据所述目标观测位置和所述目标视角计算所述目标视角下每个像素方向和位置;以像素的位置为起点,沿着对应的像素方向从第二神经辐射场中采集离散点,并将采集的所有离散点的颜色值和透明度值进行线性叠加,得到对应像素的最终颜色。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的视角图像的生成方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的视角图像的生成方法。
由此,本申请至少具有如下有益效果:
根据多个低分辨率的采样对空间区域的描述,生成空间内任意视角的低分辨率的表达,随后利用超分辨的算法对该新视角进行重建,得到更精确的描述,从而基于低分辨率采样图像智能生成高分辨率视角,有效减少了图像渲染问题中的计算负载和渲染时延,提供了高效可靠的低功耗新视角图像智能生成方案。由此,解决了相机分辨率受限场景下的高清渲染重建等技术问题。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的视角图像的生成方法的流程示意图;
图2为根据本申请实施例提供的高分辨率新视角图像智能生成模型示意图;
图3为根据本申请实施例提供的低分辨率场的采样示意图;
图4为根据本申请实施例提供的角度超分辨率示意图;
图5为根据本申请实施例提供的场景超分辨率示意图;
图6为根据本申请实施例提供的视角图像的生成装置的示例图;
图7为根据本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
NeRf渲染技术具体包括:根据二维图像得到每个像素点的位置和方向,从每个像素点模拟一条射线,并在该射线上采样多个离散点。每个点具有颜色和方向两个属性,该像素的最终值是射线上多个点的颜色和透明度的线性叠加。多个不同方向射线的采样点形成一个神经辐射场,可以表述任意方向任意位置的观测颜色。然而,为了获得精细的表达方法,现有的NeRf需要对场景提供精细的二维采样,即高分辨率的采样图像,且需要对多个二维采样进行复杂的训练。
为此,本申请实施例提出了基于低分辨率采样图像的高分辨率新视角生成方案,在现有的NeRF的渲染方法上,利用多个低分辨率的采样图像,重建出高分辨率的渲染效果。
下面将参考附图描述本申请实施例的视角图像的生成方法、装置、电子设备及存储介质。具体而言,图1为本申请实施例所提供的一种视角图像的生成方法的流程示意图。
如图1所示,该视角图像的生成方法包括以下步骤:
在步骤S101中,采集不同预设视角下目标三维场景的多张二维图像,并根据多张二维图像建立目标三维场景的第一神经辐射场,其中,第一神经辐射场包括多个离散点。
其中,预设视角均可以根据实际需求具体设置或选择,对此不作具体限定。目标三维场景是指需要重建的场景,可以根据重建的需求具体选择,例如,图2中所示的场景即为一个三维场景。
可以理解的是,本申请实施例可以利用低分辨率采样的图像,形成低分辨率三维场景的神经辐射场表达,其中,三维场景的场可以根据低分辨率采样的二维图像得到每个像素点的位置和方向,从每个像素点模拟一条射线,并在该射线上采样多个离散点,设每个离散点具有颜色和方向两个属性,某一像素的最终值是射线上多个点的颜色和透明度的线性叠加;多个不同方向射线的采样点形成一个神经辐射场,可以表述任意方向任意位置的观测颜色。
具体而言,在给定多个角度的低分辨率采集图像后,可以将采集的图像看成待渲染的三维场景的离散二维采样。根据低分辨率采样的二维图像得到每个像素点的位置和方向,从每个像素点模拟一条射线,并在该射线上采样多个离散点。如图3所示,方块表示某一位置采集到的像素,线为该位置模拟的射线,点为采样的离散点,用于表达该场景的场。设每个离散点具有颜色和方向两个属性,某一像素的最终值是射线上多个点的颜色和透明度的线性叠加。多个不同方向射线的采样点形成一个神经辐射场,可以表述任意方向任意位置的观测颜色。
在步骤S102中,获取每个离散点在每个预设采样方向上的颜色值和透明度值,对每个离散点进行不同方向的双线性插值采样,得到每个离散点在多个新采样方向上的颜色值和透明度值,并将每个离散点在预设采样方向和新采样方向上的颜色值和透明度值输入预设的三维卷积神经网络进行离散点重建,得到第二神经辐射场。
其中,预设的三维卷积神经网络和预设采样方向均可以根据实际需求具体设置或选择,对此不作具体限定。
需要说明的是,由于同一点在不同角度描述的颜色和透明度相差不大,因此,如图4所示,本申请实施例可以在得到每个低分辨率采样点不同角度的颜色和透明度后,将每个点多个角度的采样进行线性插值。
可以理解的是,本申请实施例对神经辐射场进行上采样,根据每个点已知的在不同角度颜色和透明度,进行双线性插值得到角度上采样的结果,随后将任意角度的不同采样点进行双线性插值得到上采样的粗略估计结果,最后将粗略的上采样结果送入三维卷积神经网络,得到精确的神经辐射场的描述。
具体而言,本申请实施例可以根据学习到的该三维场景的离散点的低分辨率的表达,对三维场景进行三维超分辨率操作,可以将离散点的表达精细化,即;从而可以通过对该神经辐射场上采样获得该场景的精确描述;然后,通过对场景进行超分辨,可以得到该三维场景的精确表达。
为获得三维场景中多个离散点的表达,利用多层感知机进行拟合,与参考低分辨率采集图像进行对比和参数调整,获得该三维场景的离散点的表达。其中,三维场景的离散点的表达,给定某一观测方向和观测位置,三维场景中的某一点具有唯一的颜色和透明度。例如,设观测点位置为x、y和z,观测角度为θ,φ,则发出一条虚拟射线,在这条射线上进行多次采样,每个采样点存在唯一的颜色c和透明度σ;给定方向r下,沿着该角度的射线,设三维场景中采样M个离散点,离散点rj=(x,y,z,θ,φ),根据公式1计算某一像素观测到的颜色:
其中,
其中,τ j 表示第j个离散点的透射率,cj表示第j个离散点的颜色,σ j 表示第j个离散点的透明度,Δ j 表示相邻两个离散点的距离,即第j个离散点与第j-1个离散点之间的距离,σ t 表示第t个离散点的透明度,Δ t 表示相邻两个离散点的距离,即第t个离散点与第t-1个离散点之间的距离,t、j和M均为正整数。
在本申请实施例中,获取每个离散点在每个预设采样方向上的颜色值和透明度值,包括:将多个离散点输入至预设多层感知机中,输出每个离散点在每个预设采样方向上的颜色值和透明度值。
可以理解的是,在对三维场景进行充足训练后,多层感知机输出采样点的采样角度的颜色和透明度。在此基础上,将这些采样点看成对该三维场景的低精度描述,获得高分辨率的场景。
在本申请实施例中,在将多个离散点输入至预设多层感知机中之前,还包括:获取不同训练视角下训练三维场景的多张训练图像;根据不同训练视角计算训练图像中每个像素的角度,沿着角度对应的方向采样得到多个采样点,将多个采样点输入至预先构建的多层感知机中,得到每个采样点的颜色预测值和透明度预测值;根据每个采样点的颜色参考值和透明度参考值计算颜色预测值和透明度预测值对应的损失值,并根据损失值对预先构建的多层感知机进行训练,得到预设多层感知机。
其中,预先构建的多层感知机可以根据实际需求具体构建,例如,可以构建一个16层,每层有256个节点的多层感知机等,对此不作具体限定。颜色参考值和透明度参考值可以具体设置或标定,对此不作具体限定。
可以理解的是,在的多层感知机训练过程中,首先根据角度形成射线,并对射线上的点进行采样,将采样到的点的位置送入多层感知机,学习颜色和透明度对这一点对应的像素进行计算,通过与二维图像的实际像素进行比较,对感知机进行调整。损失函数L设置为:,C为像素对应的实际颜色值,为根据颜色预测值和透明度预测值计算得到的颜色值。
在本申请实施例中,对每个离散点进行不同方向的双线性插值采样,得到每个离散点在多个新采样方向上的颜色值和透明度值,包括:在相同预设视角下,对第一神经辐射场中所有离散点进行双线性插值采样,并在遍历所有预设视角后,得到每个离散点在多个新采样方向上的颜色值和透明度值。
可以理解的是,本申请实施例可以将所有离散点取统一观测角度,遍历每个统一观测角度,如图5所示,在任意角度上对离散点进行双线性插值上采样,然后利用三维卷积神经网络对其进行高精度的超分辨率操作,获得每个角度上的高分辨率场的表达。
在步骤S103中,沿着目标视角下每个像素方向,将第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,基于每个像素的最终颜色生成目标视角下的图像。
可以理解的是,本申请实施例可以对三维场景的场用神经网络进行拟合,得到对该场中的每个点的近似表达,并基于近似表达计算某一像素观测到的颜色。
在本申请实施例中,沿着目标视角下每个像素方向,将第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,包括:获取目标观测位置和目标视角;根据目标观测位置和目标视角计算目标视角下每个像素方向和位置;以像素的位置为起点,沿着对应的像素方向从第二神经辐射场中采集离散点,并将采集的所有离散点的颜色值和透明度值进行线性叠加,得到对应像素的最终颜色。
可以理解的是,本申请实施例可以根据精确的神经辐射场,通过给定场景中不同位置和不同角度,先从该位置发射出射线,对射线上的采样点进行线性加和,得到该位置和角度特定的颜色和透明度,从而可以根据该神经辐射场获得任意新视角的高分辨率二维图像,即在给定的任意视角下进行该场景的高分辨率渲染。
具体地,在获得高分辨率新视角图像的渲染结果时,计算高分辨率图像的每一个像素的位置和方向,发出一条射线,采样所有在此射线上描述该场景的神经辐射场的离散点,对其按公式1进行线性加和,得到该点的像素值。
以图2所示的场景为例,本申请实施例可以通过对某一场景的多个视角的低分辨率采集,借助于神经隐式表达,智能地生成任意视角下的高分辨率图像重建的结果。具体地,本申请实施例可以根据多个低分辨率的采样对空间区域的描述,生成空间内任意视角的低分辨率的表达,随后利用超分辨的算法对该新视角进行重建,得到更精确的描述。
下面将通过一个具体实施例对视角图像的生成方法进行阐述,具体如下:
(1)、假设相机在空间内对同意场景从任意视角采样了N张低分辨率照片,对N张照片,根据相机位姿,计算出每个像素接收的光线的角度,并在这条光线上采样M个点。
(2)、构建一个16层,每层有256个节点的多层感知机,将每个采样的位置和方向送入多层感知机,预测该点的颜色和透明度。根据损失函数L公式计算损失并对多层感知机进行训练,得到该点的颜色和透明度。
(3)、训练结束后,得到该场景的神经辐射场的低分辨率表达,每个点在采样方向上包含一个颜色值和一个透明度值,针对每个采样点,设现有8个采样方向,将其看成一维向量,利用该点现有的采样方向进行对方向进行双线性插值,得到16个的采样方向上的颜色和透明度。随后根据每个角度做三维采样点的双线性插值,设原始采样点为A*B*C个,则插值后得到2A*2B*2C个。
(4)、在上一步对每个角度的三维采样点的颜色和密度进行了双线性插值后,利用三维卷积神经网络,进行场景内采样点的高精度重建,得到2A*2B*2C个高精度描述的采样点的颜色和密度。
(5)、在颜色和透明度预测结束后,给定拟重建新视角的每个像素的位置和方向,沿着该方向对场中的离散点进行线性加和,得到最终的颜色。
根据本申请实施例提出的视角图像的生成方法,根据多个低分辨率的采样对空间区域的描述,生成空间内任意视角的低分辨率的表达,随后利用超分辨的算法对该新视角进行重建,得到更精确的描述,从而基于低分辨率采样图像智能生成高分辨率视角,有效减少了图像渲染问题中的计算负载和渲染时延,提供了高效可靠的低功耗新视角图像智能生成方案。
其次参照附图描述根据本申请实施例提出的视角图像的生成装置。
图6是本申请实施例的视角图像的生成装置的方框示意图。
如图6所示,该视角图像的生成装置10包括:建立模块100、重建模块200和叠加模块300。
其中,建立模块100用于采集不同预设视角下目标三维场景的多张二维图像,并根据多张二维图像建立目标三维场景的第一神经辐射场,其中,第一神经辐射场包括多个离散点;重建模块200用于获取每个离散点在每个预设采样方向上的颜色值和透明度值,对每个离散点进行不同角度的双线性插值采样,得到每个离散点在多个新采样方向上的颜色值和透明度值,并将每个离散点在预设采样方向和新采样方向上的颜色值和透明度值输入预设的三维卷积神经网络进行离散点重建,得到第二神经辐射场;叠加模块300用于沿着目标视角下每个像素方向,将第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,基于每个像素的最终颜色生成目标视角下的图像。
在本申请实施例中,重建模块200进一步用于将多个离散点输入至预设多层感知机中,输出每个离散点在每个预设采样方向上的颜色值和透明度值。
在本申请实施例中,本申请实施例的装置10还包括:训练模块。其中,训练模块,用于在将多个离散点输入至预设多层感知机中之前,获取不同训练视角下训练三维场景的多张训练图像;根据不同训练视角计算训练图像中每个像素的角度,沿着角度对应的方向采样得到多个采样点;将多个采样点输入至预先构建的多层感知机中,得到每个采样点的颜色预测值和透明度预测值;根据每个采样点的颜色参考值和透明度参考值计算颜色预测值和透明度预测值对应的损失值,并根据损失值对预先构建的多层感知机进行训练,得到预设多层感知机。
在本申请实施例中,重建模块200进一步用于在相同预设视角下,对第一神经辐射场中所有离散点进行双线性插值采样,并在遍历所有预设视角后,得到每个离散点在多个新采样方向上的颜色值和透明度值。
在本申请实施例中,叠加模块300进一步用于获取目标观测位置和目标视角;根据目标观测位置和目标视角计算目标视角下每个像素方向和位置;以像素的位置为起点,沿着对应的像素方向从第二神经辐射场中采集离散点,并将采集的所有离散点的颜色值和透明度值进行线性叠加,得到对应像素的最终颜色。
需要说明的是,前述对视角图像的生成方法实施例的解释说明也适用于该实施例的视角图像的生成装置,此处不再赘述。
根据本申请实施例提出的视角图像的生成装置,根据多个低分辨率的采样对空间区域的描述,生成空间内任意视角的低分辨率的表达,随后利用超分辨的算法对该新视角进行重建,得到更精确的描述,从而基于低分辨率采样图像智能生成高分辨率视角,有效减少了图像渲染问题中的计算负载和渲染时延,提供了高效可靠的低功耗新视角图像智能生成方案。
图7为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序。
处理器702执行程序时实现上述实施例中提供的视角图像的生成方法。
进一步地,电子设备还包括:
通信接口703,用于存储器701和处理器702之间的通信。
存储器701,用于存放可在处理器702上运行的计算机程序。
存储器701可能包含高速RAM(Random Access Memory,随机存取存储器)存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
如果存储器701、处理器702和通信接口703独立实现,则通信接口703、存储器701和处理器702可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral Component,外部设备互连)总线或EISA(Extended Industry Standard Architecture,扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器701、处理器702及通信接口703,集成在一块芯片上实现,则存储器701、处理器702及通信接口703可以通过内部接口完成相互间的通信。
处理器702可能是一个CPU(Central Processing Unit,中央处理器),或者是ASIC(Application Specific Integrated Circuit,特定集成电路),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的视角图像的生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列,现场可编程门阵列等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
Claims (12)
1.一种视角图像的生成方法,其特征在于,包括以下步骤:
采集不同预设视角下目标三维场景的多张二维图像,并根据所述多张二维图像建立所述目标三维场景的第一神经辐射场,其中,所述第一神经辐射场包括多个离散点;
获取每个离散点在每个预设采样方向上的颜色值和透明度值,对所述每个离散点进行不同方向的双线性插值采样,得到所述每个离散点在多个新采样方向上的颜色值和透明度值,并将每个离散点在预设采样方向和新采样方向上的颜色值和透明度值输入预设的三维卷积神经网络进行离散点重建,得到第二神经辐射场;以及
沿着目标视角下每个像素方向,将所述第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,基于所述每个像素的最终颜色生成所述目标视角下的图像。
2.根据权利要求1所述的方法,其特征在于,所述获取每个离散点在每个预设采样方向上的颜色值和透明度值,包括:
将所述多个离散点输入至预设多层感知机中,输出每个离散点在每个预设采样方向上的颜色值和透明度值。
3.根据权利要求2所述的方法,其特征在于,在将所述多个离散点输入至预设多层感知机中之前,还包括:
获取不同训练视角下训练三维场景的多张训练图像;
根据所述不同训练视角计算训练图像中每个像素的角度,沿着所述角度对应的方向采样得到多个采样点,将所述多个采样点输入至预先构建的多层感知机中,得到每个采样点的颜色预测值和透明度预测值;
根据每个采样点的颜色参考值和透明度参考值计算所述颜色预测值和所述透明度预测值对应的损失值,并根据所述损失值对所述预先构建的多层感知机进行训练,得到所述预设多层感知机。
4.根据权利要求1所述的方法,其特征在于,对所述每个离散点进行不同方向的双线性插值采样,得到所述每个离散点在多个新采样方向上的颜色值和透明度值,包括:
在相同预设视角下,对所述第一神经辐射场中所有离散点进行双线性插值采样,并在遍历所有预设视角后,得到所述每个离散点在多个新采样方向上的颜色值和透明度值。
5.根据权利要求1所述的方法,其特征在于,所述沿着目标视角下每个像素方向,将所述第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,包括:
获取目标观测位置和所述目标视角;
根据所述目标观测位置和所述目标视角计算所述目标视角下每个像素方向和位置;
以像素的位置为起点,沿着对应的像素方向从第二神经辐射场中采集离散点,并将采集的所有离散点的颜色值和透明度值进行线性叠加,得到对应像素的最终颜色。
6.一种视角图像的生成装置,其特征在于,包括:
建立模块,用于采集不同预设视角下目标三维场景的多张二维图像,并根据所述多张二维图像建立所述目标三维场景的第一神经辐射场,其中,所述第一神经辐射场包括多个离散点;
重建模块,用于获取每个离散点在每个预设采样方向上的颜色值和透明度值,对所述每个离散点进行不同角度的双线性插值采样,得到所述每个离散点在多个新采样方向上的颜色值和透明度值,并将每个离散点在预设采样方向和新采样方向上的颜色值和透明度值输入预设的三维卷积神经网络进行离散点重建,得到第二神经辐射场;以及
叠加模块,用于沿着目标视角下每个像素方向,将所述第二神经辐射场中离散点的颜色值和透明度值进行线性叠加,得到每个像素的最终颜色,基于所述每个像素的最终颜色生成所述目标视角下的图像。
7.根据权利要求6所述的装置,其特征在于,所述重建模块进一步用于将所述多个离散点输入至预设多层感知机中,输出每个离散点在每个预设采样方向上的颜色值和透明度值。
8.根据权利要求7所述的装置,其特征在于,还包括:
训练模块,用于在将所述多个离散点输入至预设多层感知机中之前,获取不同训练视角下训练三维场景的多张训练图像;根据所述不同训练视角计算训练图像中每个像素的角度,沿着所述角度对应的方向采样得到多个采样点;将所述多个采样点输入至预先构建的多层感知机中,得到每个采样点的颜色预测值和透明度预测值;根据每个采样点的颜色参考值和透明度参考值计算所述颜色预测值和所述透明度预测值对应的损失值,并根据所述损失值对所述预先构建的多层感知机进行训练,得到所述预设多层感知机。
9.根据权利要求6所述的装置,其特征在于,所述重建模块进一步用于在相同预设视角下,对所述第一神经辐射场中所有离散点进行双线性插值采样,并在遍历所有预设视角后,得到所述每个离散点在多个新采样方向上的颜色值和透明度值。
10.根据权利要求6所述的装置,其特征在于,所述叠加模块进一步用于获取目标观测位置和所述目标视角;根据所述目标观测位置和所述目标视角计算所述目标视角下每个像素方向和位置;以像素的位置为起点,沿着对应的像素方向从第二神经辐射场中采集离散点,并将采集的所有离散点的颜色值和透明度值进行线性叠加,得到对应像素的最终颜色。
11.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的视角图像的生成方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的视角图像的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424728.1A CN114549731B (zh) | 2022-04-22 | 2022-04-22 | 视角图像的生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424728.1A CN114549731B (zh) | 2022-04-22 | 2022-04-22 | 视角图像的生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114549731A true CN114549731A (zh) | 2022-05-27 |
CN114549731B CN114549731B (zh) | 2022-09-16 |
Family
ID=81666685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210424728.1A Active CN114549731B (zh) | 2022-04-22 | 2022-04-22 | 视角图像的生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114549731B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758081A (zh) * | 2022-06-15 | 2022-07-15 | 之江实验室 | 基于神经辐射场的行人重识别三维数据集构建方法和装置 |
CN114998548A (zh) * | 2022-05-31 | 2022-09-02 | 北京非十科技有限公司 | 一种图像重建的方法和系统 |
CN115272575A (zh) * | 2022-07-28 | 2022-11-01 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115359195A (zh) * | 2022-07-18 | 2022-11-18 | 北京建筑大学 | 一种正射影像生成方法、装置、存储介质和电子设备 |
CN115375884A (zh) * | 2022-08-03 | 2022-11-22 | 北京微视威信息科技有限公司 | 自由视点合成的模型生成方法、图像绘制方法及电子设备 |
CN115953544A (zh) * | 2023-03-16 | 2023-04-11 | 浪潮电子信息产业股份有限公司 | 一种三维重建方法、装置、电子设备及可读存储介质 |
CN115965736A (zh) * | 2023-03-16 | 2023-04-14 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN116612204A (zh) * | 2023-06-01 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像生成方法、训练方法、装置、电子设备以及存储介质 |
CN116703995A (zh) * | 2022-10-31 | 2023-09-05 | 荣耀终端有限公司 | 视频虚化处理方法和装置 |
CN117077461A (zh) * | 2023-10-18 | 2023-11-17 | 长沙北斗产业安全技术研究院股份有限公司 | 基于载体轨迹的仿真显示方法及装置 |
CN117173383A (zh) * | 2023-11-02 | 2023-12-05 | 摩尔线程智能科技(北京)有限责任公司 | 颜色生成方法、装置、设备及存储介质 |
WO2023231138A1 (zh) * | 2022-05-30 | 2023-12-07 | 元潼(北京)技术有限公司 | 基于元成像的多视角图像超分辨重建方法及装置 |
CN117197319A (zh) * | 2023-11-07 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN117333609A (zh) * | 2023-12-01 | 2024-01-02 | 北京渲光科技有限公司 | 图像渲染方法、网络的训练方法、设备及介质 |
CN116612204B (zh) * | 2023-06-01 | 2024-05-03 | 北京百度网讯科技有限公司 | 图像生成方法、训练方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613609A (zh) * | 2020-12-18 | 2021-04-06 | 中山大学 | 基于联合位姿优化的神经辐射场增强方法 |
CN113628348A (zh) * | 2021-08-02 | 2021-11-09 | 聚好看科技股份有限公司 | 一种确定三维场景中视点路径的方法及设备 |
CN114119838A (zh) * | 2022-01-24 | 2022-03-01 | 阿里巴巴(中国)有限公司 | 体素模型与图像生成方法、设备及存储介质 |
CN114241113A (zh) * | 2021-11-26 | 2022-03-25 | 浙江大学 | 一种基于深度引导采样的高效神经辐射场渲染方法 |
-
2022
- 2022-04-22 CN CN202210424728.1A patent/CN114549731B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613609A (zh) * | 2020-12-18 | 2021-04-06 | 中山大学 | 基于联合位姿优化的神经辐射场增强方法 |
CN113628348A (zh) * | 2021-08-02 | 2021-11-09 | 聚好看科技股份有限公司 | 一种确定三维场景中视点路径的方法及设备 |
CN114241113A (zh) * | 2021-11-26 | 2022-03-25 | 浙江大学 | 一种基于深度引导采样的高效神经辐射场渲染方法 |
CN114119838A (zh) * | 2022-01-24 | 2022-03-01 | 阿里巴巴(中国)有限公司 | 体素模型与图像生成方法、设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
ALEX YU等: "pixelNeRF: Neural Radiance Fields From One or Few Images", 《IEEE》 * |
ARINCHINA: "谷歌分享mip-NeRF 360渲染,为复杂场景生成逼真合成视图和详细深度映射", 《HTTPS://WWW.ARINCHINA.COM/12442.HTML》 * |
CHRISTIAN REISER等: "KiloNeRF: Speeding Up Neural Radiance Fields With Thousands of Tiny MLPs", 《IEEE》 * |
JIAXIN LI等: "MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis", 《HTTPS://ARXIV.ORG/ABS/2103.14910》 * |
QIANGENG XU等: "Point-NeRF: Point-based Neural Radiance Fields", 《HTTPS://ARXIV.ORG/ABS/2201.08845》 * |
TOM HARDY: "CVPR 2021 | pixelNeRF:一种基于NeRF的多视图三维重建网络", 《HTTPS://BLOG.CSDN.NET/QQ_29462849/ARTICLE/DETAILS/118160900》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023231138A1 (zh) * | 2022-05-30 | 2023-12-07 | 元潼(北京)技术有限公司 | 基于元成像的多视角图像超分辨重建方法及装置 |
CN114998548A (zh) * | 2022-05-31 | 2022-09-02 | 北京非十科技有限公司 | 一种图像重建的方法和系统 |
CN114998548B (zh) * | 2022-05-31 | 2024-02-13 | 北京非十科技有限公司 | 一种图像重建的方法和系统 |
WO2023093186A1 (zh) * | 2022-06-15 | 2023-06-01 | 之江实验室 | 基于神经辐射场的行人重识别三维数据集构建方法和装置 |
CN114758081A (zh) * | 2022-06-15 | 2022-07-15 | 之江实验室 | 基于神经辐射场的行人重识别三维数据集构建方法和装置 |
CN115359195A (zh) * | 2022-07-18 | 2022-11-18 | 北京建筑大学 | 一种正射影像生成方法、装置、存储介质和电子设备 |
CN115272575B (zh) * | 2022-07-28 | 2024-03-29 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115272575A (zh) * | 2022-07-28 | 2022-11-01 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115375884B (zh) * | 2022-08-03 | 2023-05-30 | 北京微视威信息科技有限公司 | 自由视点合成的模型生成方法、图像绘制方法及电子设备 |
CN115375884A (zh) * | 2022-08-03 | 2022-11-22 | 北京微视威信息科技有限公司 | 自由视点合成的模型生成方法、图像绘制方法及电子设备 |
CN116703995A (zh) * | 2022-10-31 | 2023-09-05 | 荣耀终端有限公司 | 视频虚化处理方法和装置 |
CN115965736A (zh) * | 2023-03-16 | 2023-04-14 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN115953544B (zh) * | 2023-03-16 | 2023-05-09 | 浪潮电子信息产业股份有限公司 | 一种三维重建方法、装置、电子设备及可读存储介质 |
CN115953544A (zh) * | 2023-03-16 | 2023-04-11 | 浪潮电子信息产业股份有限公司 | 一种三维重建方法、装置、电子设备及可读存储介质 |
CN116612204A (zh) * | 2023-06-01 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像生成方法、训练方法、装置、电子设备以及存储介质 |
CN116612204B (zh) * | 2023-06-01 | 2024-05-03 | 北京百度网讯科技有限公司 | 图像生成方法、训练方法、装置、电子设备以及存储介质 |
CN117077461B (zh) * | 2023-10-18 | 2024-02-02 | 长沙北斗产业安全技术研究院股份有限公司 | 基于载体轨迹的仿真显示方法及装置 |
CN117077461A (zh) * | 2023-10-18 | 2023-11-17 | 长沙北斗产业安全技术研究院股份有限公司 | 基于载体轨迹的仿真显示方法及装置 |
CN117173383A (zh) * | 2023-11-02 | 2023-12-05 | 摩尔线程智能科技(北京)有限责任公司 | 颜色生成方法、装置、设备及存储介质 |
CN117197319A (zh) * | 2023-11-07 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN117197319B (zh) * | 2023-11-07 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN117333609A (zh) * | 2023-12-01 | 2024-01-02 | 北京渲光科技有限公司 | 图像渲染方法、网络的训练方法、设备及介质 |
CN117333609B (zh) * | 2023-12-01 | 2024-02-09 | 北京渲光科技有限公司 | 图像渲染方法、网络的训练方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114549731B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114549731B (zh) | 视角图像的生成方法、装置、电子设备及存储介质 | |
Long et al. | Sparseneus: Fast generalizable neural surface reconstruction from sparse views | |
Mihajlovic et al. | KeypointNeRF: Generalizing image-based volumetric avatars using relative spatial encoding of keypoints | |
CN110163801B (zh) | 一种图像超分辨和着色方法、系统及电子设备 | |
CN112396645B (zh) | 一种基于卷积残差学习的单目图像深度估计方法和系统 | |
JP2019079565A (ja) | 深層畳み込みニューラルネットワークを用いる新ビュー合成 | |
US11823322B2 (en) | Utilizing voxel feature transformations for view synthesis | |
CN112750201B (zh) | 三维重建方法及相关装置、设备 | |
CN113313828B (zh) | 基于单图片本征图像分解的三维重建方法与系统 | |
CN112767467B (zh) | 一种基于自监督深度学习的双图深度估计方法 | |
CN116310076A (zh) | 基于神经辐射场的三维重建方法、装置、设备及存储介质 | |
WO2020104498A1 (en) | Neural network systems for decomposing video data into layered representations | |
CN115457188A (zh) | 一种基于注视点的3d渲染显示方法及系统 | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
CN112509106A (zh) | 文档图片展平方法、装置以及设备 | |
CN113077505A (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN114640885B (zh) | 视频插帧方法、训练方法、装置和电子设备 | |
JP2024507727A (ja) | 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング | |
CN115115805A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN115761178A (zh) | 基于隐式神经表示的多视图三维重建方法 | |
CN114972634A (zh) | 基于特征体素融合的多视角三维可变形人脸重建方法 | |
CN117036581B (zh) | 基于二维神经渲染的体渲染方法、系统、设备及介质 | |
CN115272608A (zh) | 一种人手重建方法及设备 | |
DE102018127265A1 (de) | Multi-einzelbild-videointerpolation mit optischem fluss | |
Polasek et al. | Vision UFormer: Long-range monocular absolute depth estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |