CN114119839A - 三维模型重建与图像生成方法、设备以及存储介质 - Google Patents
三维模型重建与图像生成方法、设备以及存储介质 Download PDFInfo
- Publication number
- CN114119839A CN114119839A CN202210081291.6A CN202210081291A CN114119839A CN 114119839 A CN114119839 A CN 114119839A CN 202210081291 A CN202210081291 A CN 202210081291A CN 114119839 A CN114119839 A CN 114119839A
- Authority
- CN
- China
- Prior art keywords
- target
- points
- point
- sight
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
Landscapes
- Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
本申请实施例提供一种三维模型重建与图像生成方法、设备以及存储介质。在本申请实施例中,以包含目标物体的多张原始图像为基础分别进行基于神经网络的三维重建和传统的三维重建,得到初始隐式3D表征模型和显式三维模型;基于显式三维模型进行随机视线和平均视角的生成,通过产生随机视线并以随机视线对应的平均视角信息代替其真实视角信息的方式,利用随机视线及其对应的平均视角信息增强视线数据,基于增强后的视线数据继续进行基于神经网络的三维重建,可以得到对视线具有较强鲁棒性的隐式3D表征模型,大大提升基于该隐式3D表征模型合成不同视角图像时的鲁棒性。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种三维模型重建与图像生成方法、设备以及存储介质。
背景技术
新视角合成技术是指针对一个三维场景,使用该三维场景的已有图像生成任意视角下的高真实感图像的技术。新视角合成依赖三维场景精确的几何结构,但是,由于现实世界中的三维场景比较复杂,很难获得三维场景精确的几何结构,这导致新视角合成技术从理论到落地实施较为困难。
于是,业界提出了神经辐射场(Neural Radiance Field,NERF)算法,该算法利用全连接网络来表示三维场景,其输入是一个连续的5维坐标:空间位置(x,y,z)和视角信息(θ,ϕ),其输出是该空间位置处的体积密度和视角相关的颜色信息;进一步结合立体渲染(volume rendering)技术,可以将输出的颜色信息和体积密度投影到2D图像上,从而实现新视图合成。由于简单结构和良好的渲染效果,NERF算法吸引了大量关注,但是,它的视角鲁棒性较差,部分视角的图像合成效果不好,难以应用于实际场景中。
发明内容
本申请的多个方面提供一种三维模型重建与图像生成方法、设备以及存储介质,用以提升基于隐式三维表征模型进行模型推理如视角图像合成时的视角鲁棒性。
本申请实施例提供一种三维模型重建方法,包括:根据包含目标物体的多张原始图像进行基于神经网络的三维重建,得到初始隐式3D表征模型,所述目标物体上的表面点与对应原始图像中的像素点对应,且与拍摄到所述像素点的第一视线对应;根据所述初始隐式3D表征模型和所述多张原始图像,构建显式三维模型,所述显式三维模型包括所述目标物体上表面点的颜色信息,每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的;随机生成所述显式三维模型上表面点对应的第二视线,并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息;根据所述第二视线对应的平均视角信息和所述第二视线上空间点的空间坐标,基于所述初始隐式3D表征模型进行基于神经网络的三维重建,得到目标隐式3D表征模型。
本申请实施例还提供一种图像生成方法,包括:根据待渲染的目标相机位姿和目标物体对应的显式三维模型,确定待渲染的目标视线和所述目标视线对应的平均视角信息;根据所述目标视线上空间点的空间坐标和所述目标视线对应的平均视角信息,结合所述目标物体对应的目标隐式3D表征模型,生成所述目标物体在所述目标相机位姿下的目标图像;其中,所述显式三维模型和目标隐式3D表征模型是融入视线先验信息和平均视角信息进行基于神经网络的三维重建得到的。
本申请实施例还提供一种计算机设备,包括:存储器和处理器;存储器,用于存储计算机程序;处理器耦合至存储器,用于执行计算机程序以用于执行本申请实施例提供的三维模型重建方法或图像生成方法中的步骤。
本申请实施例还提供一种存储有计算机程序的计算机存储介质,当计算机程序被处理器执行时,致使处理器能够实现本申请实施例提供的三维模型重建方法或图像生成方法中的步骤。
本实施例提供的三维模型重建方法,用于产生能够对目标物体进行隐式三维表示的神经网络模型,包括以下操作:以包含目标物体的多张原始图像为基础分别进行基于神经网络的三维重建和传统的三维重建,得到初始隐式3D表征模型和显式三维模型;基于显式三维模型进行随机视线和平均视角的生成,基于随机视线和平均视角在初始隐式3D表征模型基础上继续进行基于神经网络的三维重建,得到目标隐式3D表征模型。在该三维重建过程中,通过产生随机视线并以随机视线对应的平均视角信息代替其真实视角信息的方式,利用随机视线及其对应的平均视角信息增强视线数据,基于增强后的视线数据继续进行基于神经网络的三维重建,可以得到对视线具有较强鲁棒性的隐式3D表征模型,大大提升基于该隐式3D表征模型合成不同视角图像时的视角鲁棒性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种三维模型重建方法的流程示意图;
图2为示例性的视线从相机光心发射到物体空间的示意图;
图3为示例性的视线穿过目标物体表面点的示意图;
图4为示例性的三维模型重建方法所适用的应用场景图;
图5为示例性的随机视线生成示意图;
图6a为本申请实施例提供的一种三维模型生成方法的流程示意图;
图6b为本申请实施例提供的一种三维模型生成方法所适用的应用场景图;
图7为本申请实施例提供的一种三维模型重建装置的结构示意图;
图8为本申请实施例提供的一种图像生成装置的结构示意图;
图9为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对现有基于NERF算法的三维重建方案的鲁棒性较差,难以实际应用的问题,在本申请一些实施例中,在基于神经网络的三维重建过程中,融入视线先验信息和平均视角信息,提供一种新的基于神经网络的三维模型重建方法,该方法具有较高的鲁棒性,可大大降低三维建模成本,解决了基于神经网络进行三维重建的实际应用问题,具有较高的应用价值。本实施例提供的三维模型重建方法可以应用在模型训练阶段中以重建出对目标物体进行隐式三维(3D)表达的目标隐式3D表征模型,该目标隐式3D表征模型可在后期进行模型推理,一种基于目标隐式3D表征模型进行模型推理的场景为基于目标隐式3D表征模型进行新视角图像的合成,但不限于此。当然,本实施例的三维模型重建方法也可以是在实际应用场景中直接对目标物体进行三维重建的过程,而并非应用于预先生成对目标物体进行隐式三维(3D)表达的目标隐式3D表征模型的模型训练阶段。无论是哪种应用方式,本申请实施例提供的三维重建过程,用于产生能够对目标物体进行隐式三维(3D)表示的神经网络模型,即目标隐式3D表征模型。该过程主要包括以下操作:以包含目标物体的视频或者多张原始图像为输入,该视频中包含多张原始图像;以多张原始图像为基础分别进行基于神经网络的三维重建和传统的三维重建,得到初始隐式3D表征模型和显式三维模型;基于显式三维模型进行随机视线和平均视角的生成,基于随机视线和平均视角结合初始隐式3D表征模型继续进行基于神经网络的三维重建,得到目标隐式3D表征模型。其中,初始隐式3D表征模型和目标隐式3D表征模型都是对目标物体进行隐式三维表示的神经网络模型。在三维重建过程中,通过产生随机视线并以随机视线对应的平均视角信息代替其真实视角信息的方式,利用随机视线及其对应的平均视角信息增强三维重建所需的视线数据,基于增强后的视线数据继续进行基于神经网络的三维重建,可以得到对视线具有较强鲁棒性的隐式3D表征模型,大大提升基于该隐式3D表征模型合成不同视角图像时的鲁棒性。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的一种三维模型重建方法的流程示意图。如图1所示,该方法可以包括以下步骤:
101、根据包含目标物体的多张原始图像进行基于神经网络的三维重建,得到对目标物体进行隐式三维3D表达的初始隐式3D表征模型,目标物体上的表面点与对应原始图像中的像素点对应,且与拍摄到该像素点的第一视线对应。
102、根据初始隐式3D表征模型和多张原始图像,构建目标物体对应的显式三维模型,显式三维模型包括目标物体上表面点的颜色信息,每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的。
103、随机生成显式三维模型上表面点对应的第二视线,并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息。
104、根据第二视线对应的平均视角信息和第二视线上空间点的空间坐标,基于初始隐式3D表征模型进行基于神经网络的三维重建,得到对目标物体进行隐式三维3D表达的目标隐式3D表征模型。
在本实施例中,目标物体可以是任意物体,例如为鞋子、桌子、椅子、帽子、衣柜、苹果等等。在全景显示、自动化建模、3D商品展示、新视角图像合成等多种应用场景中,都需要目标物体的三维模型。为此,需要对目标物体进行三维重建。以新视角图像合成为例,可以基于目标物体的三维模型确定新视角下看到的模型内容,进而基于该模型内容渲染出新视角下的图像。在本实施例中,为了更好地保留物体的纹理信息,提高三维重建的模型质量,采用基于神经网络的三维重建方式,并利用最终得到的目标隐式3D表征模型对目标物体进行三维表达。在此过程中,进一步融合了传统的三维重建过程。也就是说,在本申请实施例中,以基于神经网络的三维重建为主,并融合了传统的三维重建,简称为对目标物体进行三维重建。
在对目标物体进行三维重建之前,获取包含目标物体的多张原始图像,以便基于包含目标物体的原始图像进行基于神经网络的三维重建。可选地,可以对处于真实世界中的目标物体从不同拍摄角度进行拍摄,得到包含该目标物体的多张原始图像或者得到该目标物体对应的视频,从视频中提取包含该目标物体的多张原始图像。进一步可选的,为了能够准确重建出目标物体的三维模型,进而提高基于三维模型的图像渲染质量,可以采用绕目标物体360度的环绕方式进行拍摄,得到目标物体的多张原始图像。需要说明的是,不同原始图像对应不同的相机位姿,相机位姿包括拍摄设备在拍摄图像时的位置和姿态。其中,本实施例对拍摄设备不做限制,拍摄设备例如可以是但不限于:相机、具有拍摄功能的手机、平板电脑、可穿戴设备等。
在本实施例中,将真实的拍摄设备在对处于真实世界中的目标物体进行拍摄时,从真实的拍摄设备的相机光心发射出去穿过物体空间的视线称作为第一视线,该第一视线可以认为是真实的拍摄设备发射出的实际视线,一条第一视线从拍摄设备的相机光心发射出来穿过所拍摄图像的各个像素点对应的物体空间。以图2为例,拍摄椅子图像I1的相机1和拍摄椅子图像I2的相机2是真实相机,从真实相机的光心发射出的视线(图2中的实线)是第一视线,也即视线r1和视线r2均是第一视线。在图2中,拍摄椅子图像I3的相机3是假设出来的虚拟相机(图2中虚线框内的相机),从虚拟相机的光心发射发出的视线(图2中带箭头的虚线)是虚拟视线,也即视线r3是虚拟视线。
需要说明的是,对于一张原始图像上的每个像素点都会对应一条第一视线,相应地,样本图像中的像素点是由第一视线射到目标物体的一个表面点上成像得到的,该第一视线也就是拍摄到该像素点的视线。由此可知,目标物体上的表面点与像素点以及拍摄到该像素点的第一视线之间存在对应关系。每张原始图像中的不同像素点与目标物体上的不同表面点对应,不同表面点对应不同的第一视线,也就是说,每张原始图像中的各像素点都会与穿过目标物体上与其对应的表面点的第一视线对应,不同像素点会与穿过不同表面点的第一视线对应。另外,因为不同样本图像对应的相机位姿不同,所以不同样本图像中的像素点可能对应目标物体上不同的表面点。对两张样本图像而言,其中可能有部分像素点对应相同的表面点,也可能所有像素点均对应不同的表面点。
在本实施例中,首先,利用多张原始图像进行基于神经网络的三维重建,得到初始隐式3D表征模型。初始隐式3D表征模型能够对目标物体进行隐式三维表达,例如可以表达目标物体的形状、纹理、材质等多个维度的物体信息。在本实施例中,初始隐式3D表征模型是一个全连接神经网络,全连接神经网络又称多层感知器((Multi-Layer Perceptron,MLP)。该初始隐式3D表征模型基于输入的空间点的空间坐标和视角信息,分别预测空间点的体积密度和颜色信息。其中,初始隐式3D表征模型可以表达为:
σ,c=F(d,x)……(1)
其中,x=(x,y,z),x记为空间点的空间坐标(x,y,z);d=(θ,φ),d=(θ,φ)记为空间点的视角信息(θ,φ),θ为方位角,φ为仰角。c=(r,g,b),c记为空间点的颜色信息(r,g,b),r是指红色(Red,R),g是指绿色(Green,G),b是指蓝色(Blue,B)。σ记为空间点的体积密度。
实际应用中,初始隐式3D表征模型包括用于预测σ体积密度的Fσ网络和用于预测c颜色信息的Fc网络。于是,初始隐式3D表征模型可以进一步表达为:
Fσ:x→(σ,f)……(2)
Fc:(d,f)→c……(3)
值得注意的是,Fσ网络输入的是空间点的空间坐标x,输出的是空间点的体积密度和中间特征f。Fc网络输入的是中间特征f和空间点的视角信息d,输入的是空间点的颜色信息RGB值。也就是说,体积密度只和空间坐标x有关,颜色信息RGB值和空间坐标及视角信息相关。
在本实施例中,在获取到目标物体的多张原始图像之后,分别计算每张原始图像对应的相机位姿,根据每张原始图像对应的相机位姿和相机内参等数据确定相机在拍摄每张原始图像时发射出来的多条第一视线以及每条第一视线的视角信息。在每条第一视线上进行采样,得到多个空间点。应理解,从同一条第一视线上采样得到的空间点的视角信息均是该第一视线的视角信息。例如,图3中视线r1的四个圆点是在视线r1上采样的4个空间点,视线r1的箭头所指方向是视线r1的视角信息,也是在视线r1上采样的4个空间点的视角信息。在得到多个空间点之后,利用多个空间点的空间坐标及其视角信息进行基于神经网络的三维重建,该过程可以是分批多次执行的过程,最终可得到初始隐式3D表征模型。需要说明的是,该分分批多次执行的三维重建过程可以是模型训练过程,但不限于此。具体地,可以采用不断迭代的方式进行基于神经网络的三维重建,例如每次可以随机选择k张原始图像,从k张原始图像中随机选择大小为m*n的图像块,利用k个图像块中各像素点对应的第一视线上空间点的空间坐标和视角信息进行基于神经网络的三维重建(或模型训练),直到三维重建过程的损失函数符合设定要求时终止三维重建过程。其中,k是大于或等于1的自然数,且k小于或等于原始图像的总数;m、n是大于或等于1的自然数,m、n分别表示图像块在横向和纵向维度上的像素数,m小于或等于原始图像的宽度(宽度维度对应横向),n小于或等于原始图像的长度(长度维度对应纵向),m和n可以相同,也可以不同。可选地,可以采用等间隔方式在每条第一视线上采样多个空间点,即任意两个相邻空间点之间的采样间隔是相同的。也可以采用不同采样间隔在每条第一视线上采样多个空间点,采样间隔的大小不做限定。
进一步可选的,可以采用SLAM(simultaneous localization and mapping,即时定位与地图构建)算法来更加准确计算每张原始图像对应的相机位姿。具体的,SLAM算法在计算相机位姿时,首先提取每张原始图像的特征点,接着,建立相邻两张原始图像的特征点之间的匹配关系,根据相邻两张原始图像的特征点之间的匹配关系计算相邻两张原始图像之间的相对相机位姿。根据两两原始图像之间的相对相机位姿计算每张原始图像对应的相机位姿。
在本实施例中,在得到对目标物体进行隐式三维表达的初始隐式3D表征模型之后,根据初始隐式3D表征模型和多张原始图像,可以构建目标物体对应的显式三维模型。
在本实施例中,显式三维模型可以是能够反映目标物体的表面特征且能够对目标物体进行显式三维表示的Mesh(网格)模型,该显式三维模型包括目标物体上的表面点及每个表面点的空间坐标和颜色信息。这些表面点可形成显式三维模型中的三角面和顶点,显式三维模型具体包括多个三角面和顶点,顶点的属性信息包括顶点的空间坐标、颜色信息、材质信息以及其它纹理信息等。顶点是表面点,每个三角面也包括多个表面点,其中,三角面上除作为顶点的表面点之外的其它表面点的空间坐标和颜色信息可由其所属三角面上的三个顶点的空间坐标和颜色信息进行插值计算得到。
在本实施例中,显式三维模型上每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的,表示该表面点对应的任何视线对应的平均视角信息。换而言之,显式三维模型上每个表面点的颜色信息并不是目标物体在光线照射下产生的真实颜色信息,而是与该表面点对应的各条第一视线的平均视角信息具有映射关系的颜色信息。
在一可选实现方式中,根据初始隐式3D表征模型和多张原始图像,构建目标物体对应的显式三维模型,包括:根据多张原始图像的图像特征,确定目标物体对应的空间范围;基于空间范围和初始隐式3D表征模型生成目标物体对应的初始三维模型,初始三维模型包括目标物体上的表面点;针对任一表面点,将该表面点对应的至少一条第一视线的视角信息的平均值转换为该表面点的颜色信息,以得到显式三维模型。
在本实施例中,可以采用诸如运动恢复结构(Structure from Motion,SfM)算法处理多张原始图像的图像特征,以估计出目标物体对应的稀疏3D点位置,目标物体对应的稀疏3D点位置可以帮助确定目标物体在世界坐标系中的空间范围。该空间范围可以是具有长、宽和高的空间范围,例如可以是正方体空间或长方体空间,但不限于此。
进一步可选的,上述基于空间范围和初始隐式3D表征模型生成目标物体对应的初始三维模型的一种实施方式是:基于空间范围和初始隐式3D表征模型生成目标物体对应的标量场数据,标量场数据包括多个体积元素(Volume Pixel),可简称为体素;对多个体积元素进行三角面解析,得到初始三维模型包含的多个三角面、多个三角面上的多个顶点及其空间坐标,多个三角面和多个顶点用于限定初始三维模型包含的各表面点。
进一步可选的,上述空间范围为具有长宽高的长方体空间,则上述基于空间范围和初始隐式3D表征模型生成目标物体对应的标量场数据的一种实施方式是:对长方体空间在长宽高三个维度上分别进行等间隔采样得到多个目标空间点,其中,相邻8个目标空间点形成一个体积元素;将多个目标空间点的空间坐标输入初始隐式3D表征模型,得到多个目标空间点的体积密度;体积元素和体积元素包含的目标空间点的体积密度形成标量场数据。
具体而言,在目标物体对应的空间范围内在长宽高三个维度上分别按照等间隔采样方式进行空间点采样,得到多个目标空间点;多个目标空间点可形成多个小立方体,其中一个小立方体即为一个体积元素;针对每个小立方体,将该小立方体上的空间点的空间坐标输入初始隐式3D表征模型中,得到这些目标空间点的体积密度,体积元素和体积元素包含的目标空间点的体积密度构成标量场数据;基于体积元素包含的目标空间点的体积密度,利用Marching cube(移动立方体)算法对体积元素进行三角面解析,得到初始三维模型包含的三角面、三角面上的顶点及其空间坐标,其中,三角面包括多个表面点,顶点也是表面点。根据三角面和顶点可以确定初始三维模型包含的各表面点。其中,Marching Cube算法会逐个处理三维标量场中的体素(也即体积元素),分离出与等值面相交的体素,采用插值计算出等值面与立方体边的交点;根据立方体每一顶点与等值面的相对位置,将等值面与立方体边的交点按一定方式连接生成三角面,作为等值面在该立方体内的一个逼近表示;进而,在得到所有三角面之后,这些三角面相互衔接可形成目标物体对应的初始三维模型。需要说明的是,上述等间隔采样是指在同一维度上进行等间隔采样,即在长宽高中任一维度上进行空间点采样使用的采样间隔相同,但是,在不同维度上的采样间隔可以不同,当然也可以相同。例如,在该空间范围为长方体的情况下,在长这一维度上采样间隔为1,在宽这一维度上的采样间隔为0.5,在高这一维度上的采样间隔为0.8,以保证在三个维度上采样出相同数量的目标空间点。又例如,在空间范围为正方体的情况下,长宽高三个维度上的采样间隔可以均为1,以保证在三个维度上采样出相同数量的目标空间点。
在本实施例中,在得到初始三维模型之后,针对初始三维模型上每个表面点,根据该表面点对应的至少一条第一视线的视角信息确定该表面点的颜色信息。在确定出初始三维模型上每个表面点的颜色信息后,将已经确定出各个表面点的颜色信息的初始三维模型称作为显式三维模型。其中,表面点的颜色信息可采用采用下述方式确定的:
针对任一表面点,从不同相机位姿对应的第一视线中,确定该表面点对应的至少一条第一视线,需要说明的是,同一表面点在同一相机位姿下只会有一条第一视线对应该表面点,但是,在采用不同相机位姿拍摄多张原始图像过程中,同一表面点通常会被两个或两个以上的相机位姿拍摄到,也就是说通常会有两条或两条以上来自不同相机位姿下的第一视线对应同一表面点,但是也会存在特殊情况,即某个表面点仅在一个相机位姿下被拍摄到,即只有一条第一视线对应该表面点。进一步,计算该表面点对应的至少一条第一视线的视角信息的平均值,将该平均值转换为该表面点的颜色信息进行保存。
进一步可选的,为了便于快速获取表面点对应的第一视线的视角信息,还可以生成每张原始图像对应的视角预存图,所述视角预存图中存储有该张原始图像中各像素点对应的第一视线的视角信息。值得注意的是,基于拍摄原始图像的相机位姿和相机内参,不难确定从拍摄原始图像时的光心位置出射并穿过原始图像的像素点对应的表面点的第一视线的直线方程信息,基于第一视线的直线方程信息根据几何原理可以快速获知第一视线的视角信息。
假设图像记为I,其对应的视角预存图记为R(I)。每张图像I与其视角预存图R(I)的图像尺寸大小相同,图像I与其视角预存图R(I)中的像素点具有一一对应关系,视角预存图R(I)中记录的是图像I中各像素点对应的第一视线的视角信息。应理解,第一视线从拍摄图像I时的相机光心位置出射并穿过图像I的像素点对应的目标物体上的表面点。为了便于理解,以图4为例进行说明,图4示出两张图像仅仅是示例性说明,将多张图像中的第i张图像记为Ii,图像Ii对应的视角预存图记为R(Ii),R(Ii)中记录的是图像Ii中各像素点对应的第一视线的视角信息。将多张图像中的第j张图像记为Ij,图像Ij对应的视角预存图记为R(Ij),R(Ij)中记录的是图像Ij中各像素点对应的第一视线的视角信息,其中,i,j为正整数,
相应地,针对任一表面点,将该表面点对应的至少一条第一视线的视角信息的平均值转换为表面点的颜色信息,以得到显式三维模型,包括:针对任一表面点,根据多张原始图像对应的相机位姿,结合初始三维模型,从多张原始图像中确定包含该表面点对应的目标像素点的至少一张目标原始图像;将至少一张目标原始图像对应的视角预存图中存储的该目标像素点对应的第一视线的视角信息的平均值转换为该表面点的颜色信息。
具体而言,多张原始图像对应不同的相机位姿,不同相机位姿对应不同的视角范围,落在视角范围内的任一表面点的图像数据可被采集到,进而在采集到的原始图像中包括与该表面点对应的目标像素点。为了便于理解,针对任一表面点,将该表面点对应的像素点称为目标像素点,并将多张原始图像中包含该表面点对应的目标像素点的原始图像称作目标原始图像;针对任一原始图像,基于原始图像的相机位姿和相机内参可以确定该相机位姿对应的视角范围。从初始三维模型获取任一表面点的空间坐标,若任一表面点的空间坐标落在相机位姿对应的视角范围内,则该相机位姿下拍摄到的原始图像为任一表面点对应的目标原始图像。若任一表面点的空间坐标未落在相机位姿对应的视角范围内,则该相机位姿下拍摄到的原始图像不是任一表面点对应的目标原始图像。
对任一表面点,在确定包含该表面点对应的目标像素点的至少一张目标原始图像之后,根据目标像素点在各张目标原始图像中的图像位置,查询各张目标原始图像对应的视角预存图对应图像位置上记录的第一视线的视角信息,获取目标像素点对应的第一视线的视角信息,并对这些目标像素点对应的第一视线的视角信息进行求平均值,得到该表面点对应的平均视角信息,以及采用视角信息与颜色信息的映射关系将该表面点对应的平均视角信息转化为该表面点的颜色信息。
进一步可选的,为了更加准确地获取目标物体上的每个表面点的平均视角信息,
针对任一表面点V,确定包括表面点V的多张目标原始图像,依次将表面点V在目标原始图像
中的图像坐标和目标原始图像中的目标像素点对应的第一视线的视角信息进行相乘,得到
多个乘积,基于多个乘积得到表面点V对应的平均视角信息。进一步,参见下述公式(4),
可以对多个乘积进行求平均得到表面点V对应的平均视角信息。
其中,VUV(Ii)可以按照公式(5)计算:
其中,VUV(Ii)是表面点V在图像Ii中的图像坐标,在计算VUV(Ii)的公式中,V带入的是表面点V在世界坐标系中的空间坐标(x,y,z),K是已知的相机内参,Z是V的深度信息。TW2C(Ii)表示的是图像Ii对应的相机坐标系与世界坐标系的变换矩阵。应理解,不同的图像的相机位姿不同,故不同的图像对应的相机坐标系也不同。
值得注意的是,L是指拍摄到表面点V的原始图像的数量。例如,拍摄目标物体得到的20张原始图像,其中,有5张原始图像包括表面点V,则L的取值为5。
在本实施例中,在得到目标物体的初始隐式3D表征模型和显式三维模型之后,还可以随机生成显式三维模型上各表面点对应的不同于第一视线的虚拟视线,为了便于理解,将随机生成的虚拟视线称作为第二视线,应理解,相对于真实相机发射出的第一视线来说,第二视线是假设的虚拟相机发射出的虚拟视线。可选地,针对显式三维模型任一表面点,可以随机生成该表面点对应的第二视线,并根据该表面点的颜色信息生成该表面点对应的第二视线对应的平均视角信息。
在本实施例中,针对显式三维模型上任一表面点,可以以该表面点对应的第一视线为参考视线,在该参考视线一定范围内随机生成该表面点对应的第二视线。值得注意的是,若该表面点出现在不同相机位姿下的多张原始图像中,可以针对每个相机位姿下的该表面点均随机生成其对应的第二视线。简单来说,对任一表面点,可以根据该表面点对应的第一视线随机生成该表面点对应的第二视线。
进一步可选的,根据该表面点对应的第一视线随机生成该表面点对应的第二视线包括:根据该表面点的空间坐标和该表面点对应的第一视线的视角信息,随机生成一条经过该表面点且不同于该表面点对应的第一视线的视线作为第二视线。
具体而言,根据该表面点的空间坐标和该目标像素点对应的第一视线的视角信息,确定候选空间范围;在该候选空间范围中,随机生成一条经过该表面点且不同于该目标像素点对应的第一视线的视线作为第二视线。其中,候选空间范围可以是任意形状的空间范围。可选的,候选空间范围是以表面点的空间坐标为圆点,以穿过目标像素点对应的第一视线为中心线的椎体空间范围。在确定候选空间范围时,可以是第二视线与穿过表面点的第一视线之间的夹角范围为[-η,η]度。其中,η例如为30度。
以图5为例,图5中的圆锥体以OV为中心线,以椅子的表面点5为圆锥圆点。O是发射第一视线的真实相机的光心位置,O′是发射第二视线的虚拟相机的光心位置,OV是第一视线,O′V是随机生成的第二视线,在圆锥体内所有O′V视线(图4中浅颜色的带箭头的射线)与OV之间的夹角范围为[-30,30]度。
进一步可选的,可以预先生成每张原始图像对应的深度预存图,以便基于深度预存图快速获取表面点的空间坐标,进而提高随机生成第二视线的效率。其中,每张原始图像对应的深度预存图中存储有该张原始图像中各像素点对应表面点的深度信息。基于此,针对任一表面点,根据该表面点对应的第一视线随机生成该表面点对应的第二视线的一种可选实现方式为:针对任一表面点,根据该多张原始图像对应的相机位姿,结合该显式三维模型,从该多张原始图像中确定包含该表面点对应的目标像素点的至少一张目标原始图像;针对每张目标原始图像,根据该目标原始图像对应的深度预存图中存储的该目标像素点对应表面点的深度信息,计算该表面点的空间坐标,根据该表面点的空间坐标和该目标像素点对应的第一视线的视角信息,随机生成一条经过该表面点且不同于该目标像素点对应的第一视线的视线作为第二视线。
关于从多张原始图像中选择任一表面点对应的至少一张目标原始图像的方式可以参见前述内容,在此不再赘述。需要说明的是,在上述过程中,可以再次执行从多张原始图像中选择任一表面点的至少一张目标原始图像的操作,也可以不再执行,而是在上文执行该操作时记录表面点与目标原始图像之间的对应关系,基于该对应关系直接获取任一表面点对应的至少一张目标原始图像。
在从深度预存图得到表面点的深度信息之后,基于穿过表面点的直线方程可以获取表面点的空间坐标。以图3为例,假设第一视线为视线r1,视线r1击中椅子上的表面点V,表面点V到光心位置O之间的距离(深度信息)记为tz,将tz带入直线方程r=O+td中,在已知光心位置O的空间坐标和视线r1的视角信息的情况下,可以计算出表面点V的空间坐标。
下面介绍几种可选的深度预存图生成方式。
方式1:针对每张原始图像中的任一像素点,针对该像素点对应的第一视线上的任一空间点,根据空间点之间的采样间距、该空间点的体积密度、深度信息以及该空间点之前其它空间点的体积密度,计算该空间点到该像素点对应的第一视线对应的相机光心的深度信息;对该像素点对应的第一视线上多个空间点到相机光心的深度信息进行加权平均,得到该像素点对应表面点到相机光心的深度信息;根据每张原始图像中各像素点对应表面点到相机光心的深度信息,生成每张原始图像对应的深度预存图。
值得注意的是,可以在获取到初始隐式3D表征模型之后开始采用方式1生成深度预存图,或者在构建显式三维模型之前或之后采用方式1生成深度预存图,本实施例对此不做限制。
具体而言,假设第一视线的直线方程记为r=O+td。O是第一视线对应的光心位置,d是第一视线的视角信息,t是第一视线上的某个空间点的深度信息,t反映的是第一视线上的某个空间点与光心位置O之间距离。在第一视线上采样N个目标空间点,N为大于1的正整数,针对第i个目标空间点,i为1至N之间的正整数,记第i个目标空间点对应的采样间距为δi、记第i个目标空间点对应的体积密度为σi、记第i个目标空间点对应的深度信息为ti、记前i-1个目标空间点的累加体积密度为Ti,记第一视线穿过的表面点到相机光心的深度信息记为tz,tz可以按照公式(6)计算:
其中,δi=ti+1-ti,ti可以通过第i个目标空间点的空间坐标和光心位置O的空间坐标之差得到。
方式2:
针对每张原始图像,利用该张原始图像对应的相机位姿对该显式三维模型进行光栅化渲染,得到该张原始图像中各像素点对应表面点到相机光心的深度信息;根据该张原始图像中各像素点对应表面点到相机光心的深度信息,生成该张原始图像对应的深度预存图。值得注意的是,在获取到显式三维模型之后再开始采用方式2生成深度预存图。
在本实施例中,采用上述实施例的方法,可以针对多张原始图像中各像素点对应的表面点分别随机生成第二视线,即可得到随机产生多条第二视线,并得到多条第二视线对应的平均视角信息,进一步可以利用多条第二视线对应的平均视角信息和多条第二视线上空间点的空间坐标,继续基于初始隐式3D表征模型进行基于神经网络的三维重建(或模型训练),得到目标隐式3D表征模型。例如,图3中视线r3可以视为随机生成的第二视线,视线r3上的圆点是多个空间点。需要说明的是,可以在对初始隐式3D表征模型进行训练之前预先采用上述方式产生所有的第二视线及其对应的平均视角信息,之后再采用多轮迭代的方式,每次使用其中部分第二视线对应的平均视角信息和部分第二视线上空间点的空间坐标,继续在初始隐式3D表征模型的基础上进行三维重建(或模型训练),直到得到三维重建的损失函数符合要求的目标隐式3D表征模型为止。或者,也可以在每次迭代过程中,实时采用上述方式产生本轮迭代所需的第二视线及其对应的平均视角信息,并基于实时产生的第二视线对应的平均视角信息和实时产生的第二视线上空间点的空间坐标,继续在初始隐式3D表征模型的基础上进行三维重建(或模型训练),直到得到三维重建的损失函数符合要求的目标隐式3D表征模型为止。
值得注意的是,针对同一表面点对应的多条第二视线,多条第二视线的视角信息
均相同,均为根据该表面点对应的第一视线的视角信息计算得到的平均视角信息。这样,
在初始隐式3D表征模型基础上继续进行三维重建的过程,针对第二视线上的任一空间点,
该空间点的颜色信息可以表达为:c=Fc(,Fσ(x)),其中,Fσ(x)表示的是用于预测σ体积密
度的Fσ网络基于第二视线上的空间点的空间坐标输出该空间点对应的中间特征。也即第二
视线上的任一空间点的颜色信息是基于平均视角信息和Fσ(x)得到的。
值得注意的是,在三维重建过程中,依次利用每条第二视线对应的平均视角信息和第二视线上空间点的空间坐标在该初始隐式3D表征模型的基础上继续进行三维重建,在每次利用上一批次的第二视线对应的平均视角信息和上一批次的第二视线上空间点的空间坐标执行一次重建操作后,采用立体渲染技术,利用预测出的上一批次中各条第二视线上各个空间点的体积密度分别对各条第二视线上各个空间点的RGB颜色信息进行积分,得到上一批次中各条第二视线对应的像素点的预测RGB颜色信息;基于上一批次中各条第二视线对应的像素点的预测RGB颜色信息与各条第二视线对应的像素点的实际RGB颜色信息(这里的实际RGB颜色信息是指相应样本图像中该像素点的颜色信息)计算损失函数,若损失函数收敛,至此完成三维重建(或模型训练)过程,若损失函数未收敛,则调整模型参数,并利用下一批次第二视线对应的平均视角信息和下一批次第二视线上空间点的空间坐标继续迭代训练,直至损失函数收敛。
在此对立体渲染技术进行简单说明,针对视线r,在视线r上采样N个空间点,N为大
于1的正整数,针对第i个目标空间点,i为1至N之间的正整数,记第i个目标空间点对应的采
样间距为δi、记第i个目标空间点对应的体积密度为σi、记第i个目标空间点对应的深度信息
为ti、记前i-1个目标空间点的累加体积密度为Ti,记视线r的颜色为,也即视线r的
颜色对应像素点的颜色信息,其中,δi=ti+1-ti,ti的取值范围在预设的数值区间[tn,tf]内,
数值tn和数值tf与目标物体的空间范围相关,也即目标物体的空间围在[tn,tf]内。于是,视
线r的颜色可以按照公式(6)表达为: (6)
其中,Ti可以按照公式(7)计算:
其中,j是1至i-1之间的正整数。
本申请实施例提供的三维模型重建方法,以包含目标物体的多张原始图像为基础分别进行基于神经网络的三维重建和传统的三维重建,得到初始隐式3D表征模型和显式三维模型;基于显式三维模型进行随机视线和平均视角的生成,基于随机视线和平均视角在初始隐式3D表征模型的基础上继续进行基于神经网络的三维重建,得到目标隐式3D表征模型。其中,初始隐式3D表征模型和目标隐式3D表征模型都是对目标物体进行隐式三维表示的神经网络模型。在三维重建过程中,通过产生随机视线并以随机视线对应的平均视角信息代替其真实视角信息的方式,利用随机视线及其对应的平均视角信息增强视线数据,基于增强后的视线数据继续进行基于神经网络的三维重建,可以得到对视线具有较强鲁棒性的隐式3D表征模型,大大提升基于该隐式3D表征模型合成不同视角图像时的鲁棒性。
基于目标物体的目标隐式3D表征模型和显式三维模型可以满足用户渲染出目标物体的任意视角图像的需求。如图4所示,结合目标隐式3D表征模型(图4中未示出)和显式三维模型携带的目标物体上各个表面点的颜色信息代表的平均视角信息,可以渲染出质量更好的视角图像。为此,基于上述实施例提供的三维模型重建方法得到的目标隐式3D表征模型和显式三维模型,本申请实施例还提供一种图像生成方法。图6a为本申请实施例提供的图像生成方法的流程示意图。如图6a所示,该方法可以包括以下步骤:
601、根据待渲染的目标相机位姿和目标物体对应的显式三维模型,确定待渲染的目标视线和目标视线对应的平均视角信息。
602、根据目标视线上空间点的空间坐标和目标视线对应的平均视角信息,结合目标物体对应的目标隐式3D表征模型,生成目标物体在目标相机位姿下的目标图像。
在本实施例中,显式三维模型和目标隐式3D表征模型是融入视线先验信息和平均视角信息进行基于神经网络的三维重建的过程中得到的。其中,融入视线先验信息和平均视角信息进行基于神经网络的三维重建的过程可采用上述实施例提供的三维重建方法实现,在此不再赘述。
在本实施例中,在需要渲染新视角图像时,可以获取待渲染的目标相机位姿,然后基于目标相机位姿和目标物体对应的显式三维模型,确定待渲染的目标视线和目标视线对应的平均视角信息;在得到目标视线和目标视线对应的平均视角信息之后,结合目标物体对应的目标隐式3D表征模型,生成目标物体在所述目标相机位姿下的目标图像。
在一可选实施例中,上述基于目标相机位姿和目标物体对应的显式三维模型,确定待渲染的目标视线和目标视线对应的平均视角信息的过程包括:基于待渲染的目标相机位姿对目标物体对应的显式三维模型的光栅化渲染结果,确定该显式三维模型上位于目标相机位姿对应视野范围内的目标表面点及其颜色信息;针对任一目标表面点,获取目标相机位姿对应的相机光心到该目标表面点的目标视线,在目标视线上进行空间点采样,获取目标视线上的空间点;并将该目标表面点的颜色信息转换为该颜色信息代表的平均视角信息,作为目标视线对应的平均视角信息,至此得到目标视线对应的平均视角信息和目标视线上空间点的空间坐标。
在一可选实施例中,上述根据目标视线上空间点的空间坐标和目标视线对应的平均视角信息,结合目标物体对应的目标隐式3D表征模型,生成目标物体在目标相机位姿下的目标图像的过程包括:将目标视线对应的平均视角信息和目标视线上空间点的空间坐标输入目标隐式3D表征模型,得到目标视线上各个空间点的颜色信息和体积密度;采用立体渲染技术,通过每条目标视线上各个空间点的体积密度,对每条目标视线上各个空间点的颜色信息进行积分,得到每条目标视线对应的目标表面点在目标相机位姿下的颜色信息。在得到目标视线对应的目标表面点在目标相机位姿下的颜色信息之后,根据目标表面点在目标相机位姿下的颜色信息可以渲染出目标物体在目标相机位姿下的目标图像。其中,目标图像是指包含目标物体的2D图像。值得注意的是,目标表面点的数量为多个,分别对应目标图像中的一个像素点。
在一可选实施例中,可以面向用户提供一种基于神经网络的三维重建服务,该服务可以部署在服务端,服务端可以在云端,在实现形态上可以是云端服务器、虚拟机、容器等;当然,服务端也可以采用传统服务器实现,对此不做限定。该服务面向用户提供人机交互界面,该人机交互界面可以是web界面或命令窗等。用户可以通过该服务提供的人机交互界面使用该服务,例如通过该人机交互界面向服务端提交原始图像或待渲染视角图像对应的目标相机位姿,并且可通过人机交互界面展示目标物体对应的显式三维模型或渲染出的视角图像等。
在一可选实施例中,用户在其使用的终端设备上展示基于神经网络的三维重建服务对应的人机交互界面,用户通过该人机交互界面进行图像上传或图像拍摄,以提交进行三维重建所需的包含目标物体的多张原始图像。基于此,响应于人机交互界面上的图像上传操作或图像拍摄操作,获取包含目标物体的多张原始图像;之后,执行三维重建过程,即根据包含目标物体的多张原始图像进行基于神经网络的三维重建,得到初始隐式3D表征模型;根据初始隐式3D表征模型和多张原始图像,构建显式三维模型;随机生成显式三维模型上表面点对应的第二视线,并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息;根据第二视线对应的平均视角信息和第二视线上空间点的空间坐标,基于初始隐式3D表征模型进行基于神经网络的三维重建,得到目标隐式3D表征模型。关于各步骤的详细实现可参见前述实施例,在此不再赘述。
进一步,在得到目标隐式3D表征模型之后,还可以在人机交互界面上输出已得到目标隐式3D表征模型的消息,以通知用户可以基于该目标隐式3D表征模型进行新视角图像的合成;用户在该人机交互界面上输入待渲染的目标相机位姿;响应人机交互界面上的输入操作,获取待渲染的目标相机位姿;之后,执行图像合成过程,即根据待渲染的目标相机位姿和目标物体对应的显式三维模型,确定待渲染的目标视线和目标视线对应的平均视角信息;根据目标视线上空间点的空间坐标和目标视线对应的平均视角信息,结合目标物体对应的目标隐式3D表征模型,生成目标物体在所述目标相机位姿下的目标图像,并输出该目标图像。关于各步骤的详细实现可参见前述实施例,在此不再赘述。
本申请实施例提供的图像生成方法,结合目标隐式3D表征模型和显式三维模型携带的目标物体上各个表面点的平均视角信息,可以渲染出质量更好的目标图像,满足了用户渲染出目标物体的任意视角图像的需求。
为了便于理解,下面介绍几种场景实施例对本申请实施例提供的三维模型重建方法进行详细说明。
场景实施例1:
在电商场景中,商品主图的好坏直接影响着电商店铺的客流量。目前,在制作商品主图时,通常需要利用相机从多个不同视角对商品对象进行拍摄,得到多张不同的图像,并从多张图像中选择一张质量较好的商品图像作为商品主图。然而,受限于拍摄人员的拍摄技巧,选择出的商品主图无法提供一个很好的视角展示商品信息,致使难以有效地吸引顾客点击商品链接,影响电商店铺的客流量。另外,需要拍摄大量的图像才能保证选择出质量较好的商品主图,人工成本较高,商品主图制作效率较低。
出于满足快速制作质量较好的商品主图的需求,可以利用本申请实施例提供的三维模型重建方法制作商品主图。参见图6b,实际应用中,商家可以用诸如手机、手机、平板电脑、可穿戴式智能设备、智能家居设备等终端设备环绕商品对象360度的环绕方式拍摄一段视频,商家可在终端设备提供的人机交互界面(例如为web界面)上发起图片上传操作,以将该包括多种商品图像的视频上传至执行三维模型重建方法的服务端,如图6b中①所示。该服务端为单个服务器或多个服务器组成的分布式服务器集群,进一步可选的,服务端可以为云端服务器。如图6b中②所示,服务端基于多张商品图像进行三维模型重建以获得对商品对象进行三维3D表达的目标隐式3D表征模型和商品对象的显示三维模型。在三维模型重建完毕后,商家可以在终端设备提供的人机交互界面上输入渲染视角,终端设备解析渲染视角获取对应的待渲染的相机位姿,并生成包括待渲染的相机位姿的新视角图像获取请求并向服务端发送该新视角图像获取请求,如图6b中③所示,服务端响应新视角图像获取请求,如图6b中④和⑤所示,基于目标隐式3D表征模型和显示三维模型生成在待渲染的相机位姿下的商品对象的新视角图像,并向终端设备发送商品对象的新视角图像以供终端设备展示该新视角图像。商家可在其终端设备上查看到商品对象的新视角图像。
场景实施例2:
在AI(Artificial Intelligence,人工智能)家装领域,为了给消费者提供3D场景化的购物体验,将查看商品从传统的看图片、看视频升级成在AI家居场景中看搭配、看效果。在创建AI家居场景过程中,除了需要创建三维立体户型图,还需要创建搭配到三维立体户型图中的家具、电器等三维模型。为此,设计人员可以用手机环绕真实场景中的家具、电器等物体360度的环绕方式拍摄一段视频,并将该视频上传至执行三维模型重建方法的三维模型重建装置,三维模型重建装置基于视频中的多张图像进行三维模型重建,获取家具、电器的三维模型,并将家具、电器的三维模型搭配到三维立体户型图中,以完成AI家居场景的创建任务。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101至步骤104的执行主体可以为设备A;又比如,步骤101和102的执行主体可以为设备A,步骤103和104的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图7为本申请实施例提供的一种三维模型重建装置的结构示意图。如图7所示,该装置可以包括:重建模块71、构建模块72和生成模块73;
其中,重建模块71,用于根据包含目标物体的多张原始图像进行基于神经网络的三维重建,得到对目标物体进行隐式三维3D表达的初始隐式3D表征模型,所述多张原始图像对应不同的相机位姿,且每张原始图像中的不同像素点与穿过目标物体上不同表面点的第一视线对应,或者说是,目标物体上的表面点与对应原始图像中的像素点对应,且与拍摄到像素点的第一视线对应。
构建模块72,用于根据所述初始隐式3D表征模型和所述多张原始图像,构建目标物体对应的显式三维模型,该显式三维模型包括目标物体上表面点的颜色信息,每个表面点的颜色信息是该表面点对应的至少一条第一视线的平均视角信息确定的。
生成模块73,用于随机生成显式三维模型上表面点对应的第二视线,并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息;
重建模块71,还用于根据所述第二视线对应的平均视角信息和所述第二视线上空间点的空间坐标,基于初始隐式3D表征模型进行基于神经网络的三维重建,得到对目标物体进行隐式三维3D表达的目标隐式3D表征模型。
进一步可选的,构建模块72根据初始隐式3D表征模型和多张原始图像,构建目标物体对应的显式三维模型时,具体用于:根据多张原始图像的图像特征,确定所述目标物体对应的空间范围;基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的初始三维模型,所述初始三维模型包括所述目标物体上的表面点;将所述初始三维模型上每个表面点对应的第一视线的视角信息的平均值,分别转换为每个表面点的颜色信息,以得到所述显式三维模型。
进一步可选的,构建模块72基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的初始三维模型时,具体用于:基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的标量场数据,所述标量场数据包括多个体积元素;对所述多个体积元素进行三角面解析,得到初始三维模型包含的多个三角面、所述多个三角面上的多个顶点及其空间坐标,所述多个三角面和多个顶点用于限定所述初始三维模型包含的各表面点。
进一步可选的,所述空间范围为具有长宽高的长方体空间,构建模块72基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的标量场数据时,具体用于:对所述长方体空间在长宽高三个维度上进行等间隔采样得到多个目标空间点,其中,相邻8个目标空间点形成一个体积元素;将所述多个目标空间点的空间坐标输入所述初始隐式3D表征模型,得到所述多个目标空间点的体积密度;所述体积元素和所述体积元素包含的目标空间点的体积密度形成所述标量场数据。
进一步可选的,生成模块73还用于:生成每张原始图像对应的视角预存图,所述视角预存图中存储有该张原始图像中各像素点对应的第一视线的视角信息;
相应地,构建模块72将所述初始三维模型上每个表面点对应的第一视线的视角信息的平均值,分别转换为每个表面点的颜色信息,以得到所述显式三维模型时,具体用于:针对任一表面点,根据所述多张原始图像对应的相机位姿,结合所述初始三维模型,从所述多张原始图像中确定包含所述表面点对应的目标像素点的至少一张目标原始图像;将所述至少一张目标原始图像对应的视角预存图中存储的所述目标像素点对应的第一视线的视角信息的平均值转换为所述表面点的颜色信息。
进一步可选的,生成模块73还用于:生成每张原始图像对应的深度预存图,所述深度预存图中存储有该张原始图像中各像素点对应表面点的深度信息;
相应地,生成模块73随机生成所述显式三维模型上表面点对应的第二视线时,具体用于:针对任一表面点,根据所述多张原始图像对应的相机位姿,结合所述显式三维模型,从所述多张原始图像中确定包含所述表面点对应的目标像素点的至少一张目标原始图像;针对每张目标原始图像,根据所述目标原始图像对应的深度预存图中存储的所述目标像素点对应表面点的深度信息,计算所述表面点的空间坐标,根据所述表面点的空间坐标和所述目标像素点对应的第一视线的视角信息,随机生成一条经过所述表面点且不同于所述目标像素点对应的第一视线的视线作为第二视线。
进一步可选的,生成模块73根据所述表面点的空间坐标和所述目标像素点对应的第一视线的视角信息,随机生成一条经过所述表面点且不同于所述目标像素点对应的第一视线的视线作为第二视线时,具体用于:根据所述表面点的空间坐标和所述目标像素点对应的第一视线的视角信息,确定候选空间范围;在所述候选空间范围中,随机生成一条经过所述表面点且不同于所述目标像素点对应的第一视线的视线作为第二视线。
进一步可选的,所述候选空间范围是以所述表面点的空间坐标为圆点,以所述目标像素点对应的第一视线为中心线的椎体空间范围。
进一步可选的,生成模块73生成每张原始图像对应的深度预存图时,具体用于:针对每张原始图像中的任一像素点,针对所述像素点对应的第一视线上的任一空间点,根据空间点之间的采样间距、所述空间点的体积密度、深度信息以及所述空间点之前其它空间点的体积密度,计算所述空间点到所述像素点对应的第一视线对应的相机光心的深度信息;对所述像素点对应的第一视线上多个空间点到相机光心的深度信息进行加权平均,得到所述像素点对应表面点到相机光心的深度信息;根据每张原始图像中各像素点对应表面点到相机光心的深度信息,生成每张原始图像对应的深度预存图;或者,针对每张原始图像,利用该张原始图像对应的相机位姿对所述显式三维模型进行光栅化渲染,得到该张原始图像中各像素点对应表面点到相机光心的深度信息;根据该张原始图像中各像素点对应表面点到相机光心的深度信息,生成该张原始图像对应的深度预存图。
进一步可选的,上述装置还包括:确定模块和渲染模块;
确定模块,用于根据待渲染的目标相机位姿和所述显式三维模型,确定待渲染的目标视线和所述目标视线对应的平均视角信息;
渲染模块,用于根据所述目标视线上空间点的空间坐标和所述目标视线对应的平均视角信息,结合所述目标隐式3D表征模型,生成所述目标物体在所述目标相机位姿下的目标图像。
在一可选实施例中,确定模块具体用于:根据所述目标相机位姿对所述显式三维模型进行光栅化渲染,得到位于所述目标相机位姿对应视野范围内的目标表面点及其颜色信息;针对任一目标表面点,获取所述目标相机位姿对应的相机光心到所述目标表面点的目标视线,并根据所述目标表面点的颜色信息生成所述目标视线对应的平均视角信息。
在一可选实施例中,渲染模块具体用于:将所述目标视线对应的平均视角信息和所述目标视线上空间点的空间坐标输入所述目标隐式3D表征模型,得到所述目标视线上空间点的颜色信息和体积密度;根据所述目标视线上空间点的颜色信息和体积密度进行体渲染,以得到所述目标物体在所述目标相机位姿下的目标图像。
关于图7所示的装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8为本申请实施例提供的一种图像生成装置的结构示意图。如图8所示,该装置可以包括:确定模块82和渲染模块83;
确定模块82,用于根据待渲染的目标相机位姿和目标物体对应的显式三维模型,确定待渲染的目标视线和所述目标视线对应的平均视角信息;
渲染模块83,用于根据所述目标视线上空间点的空间坐标和所述目标视线对应的平均视角信息,结合所述目标物体对应的目标隐式3D表征模型,生成所述目标物体在所述目标相机位姿下的目标图像;其中,所述显式三维模型和目标隐式3D表征模型是融入视线先验信息和平均视角信息进行基于神经网络的三维重建得到的。
在一可选实施例中,确定模块具体用于:根据所述目标相机位姿对所述显式三维模型进行光栅化渲染,得到位于所述目标相机位姿对应视野范围内的目标表面点及其颜色信息;针对任一目标表面点,获取所述目标相机位姿对应的相机光心到所述目标表面点的目标视线,并根据所述目标表面点的颜色信息生成所述目标视线对应的平均视角信息。
在一可选实施例中,渲染模块具体用于:将所述目标视线对应的平均视角信息和所述目标视线上空间点的空间坐标输入所述目标隐式3D表征模型,得到所述目标视线上空间点的颜色信息和体积密度;根据所述目标视线上空间点的颜色信息和体积密度进行体渲染,以得到所述目标物体在所述目标相机位姿下的目标图像。
进一步可选的,上述装置还包括:重建模块、构建模块和生成模块;
重建模块,用于根据包含目标物体的多张原始图像进行基于神经网络的三维重建,得到对所述目标物体进行隐式三维3D表达的初始隐式3D表征模型,所述目标物体上的表面点与对应原始图像中的像素点对应,且与拍摄到所述像素点的第一视线对应。另外,所述多张原始图像对应不同的相机位姿,且每张原始图像中的不同像素点与穿过所述目标物体上不同表面点的第一视线对应;
构建模块,用于根据所述初始隐式3D表征模型和所述多张原始图像,构建所述目标物体对应的显式三维模型,所述显式三维模型包括所述目标物体上表面点的颜色信息,每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的;
生成模块,用于随机生成所述显式三维模型上表面点对应的第二视线,并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息;
重建模块,还用于根据所述第二视线对应的平均视角信息和所述第二视线上空间点的空间坐标,基于所述初始隐式3D表征模型进行基于神经网络的三维重建,得到对所述目标物体进行隐式三维3D表达的目标隐式3D表征模型。
关于图8所示的装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9为本申请实施例提供的一种计算机设备的结构示意图。参见图9,该计算机设备包括:存储器91和处理器92。
存储器91,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器91可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器92,与存储器91耦合,用于执行存储器91中的计算机程序,以用于:根据包含目标物体的多张原始图像进行基于神经网络的三维重建,得到对所述目标物体进行隐式三维3D表达的初始隐式3D表征模型,所述目标物体上的表面点与对应原始图像中的像素点对应,且与拍摄到所述像素点的第一视线对应;所述多张原始图像对应不同的相机位姿,且每张原始图像中的不同像素点与穿过所述目标物体上不同表面点的第一视线对应;根据所述初始隐式3D表征模型和所述多张原始图像,构建所述目标物体对应的显式三维模型,所述显式三维模型包括所述目标物体上表面点的颜色信息,每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的;随机生成所述显式三维模型上表面点对应的第二视线,并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息;根据所述第二视线对应的平均视角信息和所述第二视线上空间点的空间坐标,基于所述初始隐式3D表征模型进行基于神经网络的三维重建,得到对所述目标物体进行隐式三维3D表达的目标隐式3D表征模型。
进一步可选的,处理器92根据所述初始隐式3D表征模型和所述多张原始图像,构建所述目标物体对应的显式三维模型时,具体用于:根据所述多张原始图像的图像特征,确定所述目标物体对应的空间范围;基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的初始三维模型,所述初始三维模型包括所述目标物体上的表面点;将所述初始三维模型上每个表面点对应的第一视线的视角信息的平均值,分别转换为每个表面点的颜色信息,以得到所述显式三维模型。
进一步可选的,处理器92基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的初始三维模型时,具体用于:基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的标量场数据,所述标量场数据包括多个体积元素;对所述多个体积元素进行三角面解析,得到初始三维模型包含的多个三角面、所述多个三角面上的多个顶点及其空间坐标,所述多个三角面和多个顶点用于限定所述初始三维模型包含的各表面点。
进一步可选的,所述空间范围为具有长宽高的长方体空间,处理器92基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的标量场数据时,具体用于:对所述长方体空间在长宽高三个维度上进行等间隔采样得到多个目标空间点,其中,相邻8个目标空间点形成一个体积元素;将所述多个目标空间点的空间坐标输入所述初始隐式3D表征模型,得到所述多个目标空间点的体积密度;所述体积元素和所述体积元素包含的目标空间点的体积密度形成所述标量场数据。
进一步可选的,处理器92还用于:生成每张原始图像对应的视角预存图,所述视角预存图中存储有该张原始图像中各像素点对应的第一视线的视角信息;
相应地,处理器92将所述初始三维模型上每个表面点对应的第一视线的视角信息的平均值,分别转换为每个表面点的颜色信息,以得到所述显式三维模型时,具体用于:针对任一表面点,根据所述多张原始图像对应的相机位姿,结合所述初始三维模型,从所述多张原始图像中确定包含所述表面点对应的目标像素点的至少一张目标原始图像;将所述至少一张目标原始图像对应的视角预存图中存储的所述目标像素点对应的第一视线的视角信息的平均值转换为所述表面点的颜色信息。
进一步可选的,处理器92还用于:生成每张原始图像对应的深度预存图,所述深度预存图中存储有该张原始图像中各像素点对应表面点的深度信息;
相应地,处理器92随机生成所述显式三维模型上表面点对应的第二视线时,具体用于:针对任一表面点,根据所述多张原始图像对应的相机位姿,结合所述显式三维模型,从所述多张原始图像中确定包含所述表面点对应的目标像素点的至少一张目标原始图像;针对每张目标原始图像,根据所述目标原始图像对应的深度预存图中存储的所述目标像素点对应表面点的深度信息,计算所述表面点的空间坐标,根据所述表面点的空间坐标和所述目标像素点对应的第一视线的视角信息,随机生成一条经过所述表面点且不同于所述目标像素点对应的第一视线的视线作为第二视线。
进一步可选的,处理器92根据所述表面点的空间坐标和所述目标像素点对应的第一视线的视角信息,随机生成一条经过所述表面点且不同于所述目标像素点对应的第一视线的视线作为第二视线时,具体用于:根据所述表面点的空间坐标和所述目标像素点对应的第一视线的视角信息,确定候选空间范围;在所述候选空间范围中,随机生成一条经过所述表面点且不同于所述目标像素点对应的第一视线的视线作为第二视线。
进一步可选的,所述候选空间范围是以所述表面点的空间坐标为圆点,以所述目标像素点对应的第一视线为中心线的椎体空间范围。
进一步可选的,处理器92生成每张原始图像对应的深度预存图时,具体用于:针对每张原始图像中的任一像素点,针对所述像素点对应的第一视线上的任一空间点,根据空间点之间的采样间距、所述空间点的体积密度、深度信息以及所述空间点之前其它空间点的体积密度,计算所述空间点到所述像素点对应的第一视线对应的相机光心的深度信息;对所述像素点对应的第一视线上多个空间点到相机光心的深度信息进行加权平均,得到所述像素点对应表面点到相机光心的深度信息;根据每张原始图像中各像素点对应表面点到相机光心的深度信息,生成每张原始图像对应的深度预存图;或者,针对每张原始图像,利用该张原始图像对应的相机位姿对所述显式三维模型进行光栅化渲染,得到该张原始图像中各像素点对应表面点到相机光心的深度信息;根据该张原始图像中各像素点对应表面点到相机光心的深度信息,生成该张原始图像对应的深度预存图。
进一步可选的,处理器92还用于:根据待渲染的目标相机位姿和所述显式三维模型,确定待渲染的目标视线和所述目标视线对应的平均视角信息;根据所述目标视线上空间点的空间坐标和所述目标视线对应的平均视角信息,结合所述目标隐式3D表征模型,生成所述目标物体在所述目标相机位姿下的目标图像。
进一步可选地,处理器92在根据待渲染的目标相机位姿和所述显式三维模型,确定待渲染的目标视线和所述目标视线对应的平均视角信息时,具体用于:根据所述目标相机位姿对所述显式三维模型进行光栅化渲染,得到位于所述目标相机位姿对应视野范围内的目标表面点及其颜色信息;针对任一目标表面点,获取所述目标相机位姿对应的相机光心到所述目标表面点的目标视线,并根据所述目标表面点的颜色信息生成所述目标视线对应的平均视角信息。
进一步可选地,处理器92在生成所述目标物体在所述目标相机位姿下的目标图像时,具体用于:将所述目标视线对应的平均视角信息和所述目标视线上空间点的空间坐标输入所述目标隐式3D表征模型,得到所述目标视线上空间点的颜色信息和体积密度;根据所述目标视线上空间点的颜色信息和体积密度进行体渲染,以得到所述目标物体在所述目标相机位姿下的目标图像。
进一步,如图9所示,该计算机设备还包括:通信组件93、显示器94、电源组件95、音频组件96等其它组件。图9中仅示意性给出部分组件,并不意味着计算机设备只包括图9所示组件。另外,图9中虚线框内的组件为可选组件,而非必选组件,具体可视排产设备的产品形态而定。本实施例的计算机设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备,也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的计算机设备实现为台式电脑、笔记本电脑、智能手机等终端设备,可以包含图9中虚线框内的组件;若本实施例的计算机设备实现为常规服务器、云服务器或服务器阵列等服务端设备,则可以不包含图9中虚线框内的组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算机设备执行的各步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器能够实现上述方法实施例中可由计算机设备执行的各步骤。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带存储器或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (16)
1.一种三维模型重建方法,其特征在于,包括:
根据包含目标物体的多张原始图像进行基于神经网络的三维重建,得到初始隐式3D表征模型,所述目标物体上的表面点与对应原始图像中的像素点对应,且与拍摄到所述像素点的第一视线对应;
根据所述初始隐式3D表征模型和所述多张原始图像,构建显式三维模型,所述显式三维模型包括所述目标物体上表面点的颜色信息,每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的;
随机生成所述显式三维模型上表面点对应的第二视线,并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息;
根据所述第二视线对应的平均视角信息和所述第二视线上空间点的空间坐标,基于所述初始隐式3D表征模型进行基于神经网络的三维重建,得到目标隐式3D表征模型。
2.根据权利要求1所述的方法,其特征在于,根据所述初始隐式3D表征模型和所述多张原始图像,构建显式三维模型,包括:
根据所述多张原始图像的图像特征,确定所述目标物体对应的空间范围;
基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的初始三维模型,所述初始三维模型包括所述目标物体上的表面点;
将所述初始三维模型上每个表面点对应的第一视线的视角信息的平均值,分别转换为每个表面点的颜色信息,以得到所述显式三维模型。
3.根据权利要求2所述的方法,其特征在于,基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的初始三维模型,包括:
基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的标量场数据,所述标量场数据包括多个体积元素;
对所述多个体积元素进行三角面解析,得到初始三维模型包含的多个三角面、所述多个三角面上的多个顶点及其空间坐标,所述多个三角面和多个顶点用于限定所述初始三维模型包含的各表面点。
4.根据权利要求3所述的方法,其特征在于,所述空间范围为具有长宽高的长方体空间,基于所述空间范围和所述初始隐式3D表征模型生成所述目标物体对应的标量场数据,包括:
对所述长方体空间在长宽高三个维度上进行等间隔采样得到多个目标空间点,其中,相邻8个目标空间点形成一个体积元素;
将所述多个目标空间点的空间坐标输入所述初始隐式3D表征模型,得到所述多个目标空间点的体积密度;所述体积元素和所述体积元素包含的目标空间点的体积密度形成所述标量场数据。
5.根据权利要求2所述的方法,其特征在于,还包括:生成每张原始图像对应的视角预存图,所述视角预存图中存储有该张原始图像中各像素点对应的第一视线的视角信息;
相应地,将所述初始三维模型上每个表面点对应的第一视线的视角信息的平均值,分别转换为每个表面点的颜色信息,以得到所述显式三维模型,包括:
针对任一表面点,根据所述多张原始图像对应的相机位姿,结合所述初始三维模型,从所述多张原始图像中确定包含所述表面点对应的目标像素点的至少一张目标原始图像;
将所述至少一张目标原始图像对应的视角预存图中存储的所述目标像素点对应的第一视线的视角信息的平均值转换为所述表面点的颜色信息。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:生成每张原始图像对应的深度预存图,所述深度预存图中存储有该张原始图像中各像素点对应表面点的深度信息;
相应地,随机生成所述显式三维模型上表面点对应的第二视线,包括:
针对任一表面点,根据所述多张原始图像对应的相机位姿,结合所述显式三维模型,从所述多张原始图像中确定包含所述表面点对应的目标像素点的至少一张目标原始图像;
针对每张目标原始图像,根据所述目标原始图像对应的深度预存图中存储的所述目标像素点对应表面点的深度信息,计算所述表面点的空间坐标,根据所述表面点的空间坐标和所述目标像素点对应的第一视线的视角信息,随机生成一条经过所述表面点且不同于所述目标像素点对应的第一视线的视线作为第二视线。
7.根据权利要求6所述的方法,其特征在于,根据所述表面点的空间坐标和所述目标像素点对应的第一视线的视角信息,随机生成一条经过所述表面点且不同于所述目标像素点对应的第一视线的视线作为第二视线,包括:
根据所述表面点的空间坐标和所述目标像素点对应的第一视线的视角信息,确定候选空间范围;
在所述候选空间范围中,随机生成一条经过所述表面点且不同于所述目标像素点对应的第一视线的视线作为第二视线。
8.根据权利要求7所述的方法,其特征在于,所述候选空间范围是以所述表面点的空间坐标为圆点,以所述目标像素点对应的第一视线为中心线的椎体空间范围。
9.根据权利要求6所述的方法,其特征在于,生成每张原始图像对应的深度预存图,包括:
针对每张原始图像中的任一像素点,针对所述像素点对应的第一视线上的任一空间点,根据空间点之间的采样间距、所述空间点的体积密度、深度信息以及所述空间点之前其它空间点的体积密度,计算所述空间点到所述像素点对应的第一视线对应的相机光心的深度信息;对所述像素点对应的第一视线上多个空间点到相机光心的深度信息进行加权平均,得到所述像素点对应表面点到相机光心的深度信息;根据每张原始图像中各像素点对应表面点到相机光心的深度信息,生成每张原始图像对应的深度预存图;
或者
针对每张原始图像,利用该张原始图像对应的相机位姿对所述显式三维模型进行光栅化渲染,得到该张原始图像中各像素点对应表面点到相机光心的深度信息;根据该张原始图像中各像素点对应表面点到相机光心的深度信息,生成该张原始图像对应的深度预存图。
10.根据权利要求1-5任一项所述的方法,其特征在于,在得到所述目标隐式3D表征模型之后,所述方法还包括:
根据待渲染的目标相机位姿和所述显式三维模型,确定待渲染的目标视线和所述目标视线对应的平均视角信息;
根据所述目标视线上空间点的空间坐标和所述目标视线对应的平均视角信息,结合所述目标隐式3D表征模型,生成所述目标物体在所述目标相机位姿下的目标图像。
11.一种图像生成方法,其特征在于,包括:
根据待渲染的目标相机位姿和目标物体对应的显式三维模型,确定待渲染的目标视线和所述目标视线对应的平均视角信息;
根据所述目标视线上空间点的空间坐标和所述目标视线对应的平均视角信息,结合所述目标物体对应的目标隐式3D表征模型,生成所述目标物体在所述目标相机位姿下的目标图像;
其中,所述显式三维模型和目标隐式3D表征模型是融入视线先验信息和平均视角信息进行基于神经网络的三维重建得到的。
12.根据权利要求11所述的方法,其特征在于,根据所述目标相机位姿和所述显式三维模型,确定待渲染的目标视线和所述目标视线对应的平均视角信息,包括:
根据所述目标相机位姿对所述显式三维模型进行光栅化渲染,得到位于所述目标相机位姿对应视野范围内的目标表面点及其颜色信息;
针对任一目标表面点,获取所述目标相机位姿对应的相机光心到所述目标表面点的目标视线,并根据所述目标表面点的颜色信息生成所述目标视线对应的平均视角信息。
13.根据权利要求11或12所述的方法,其特征在于,根据所述目标视线上空间点的空间坐标和所述目标视线对应的平均视角信息,结合所述目标隐式3D表征模型,生成所述目标物体在所述目标相机位姿下的目标图像,包括:
将所述目标视线对应的平均视角信息和所述目标视线上空间点的空间坐标输入所述目标隐式3D表征模型,得到所述目标视线上空间点的颜色信息和体积密度;
根据所述目标视线上空间点的颜色信息和体积密度进行体渲染,以得到所述目标物体在所述目标相机位姿下的目标图像。
14.根据权利要求11或12所述的方法,其特征在于,还包括:
根据包含目标物体的多张原始图像进行基于神经网络的三维重建,得到初始隐式3D表征模型,所述目标物体上的表面点与对应原始图像中的像素点对应,且与拍摄到所述像素点的第一视线对应;
根据所述初始隐式3D表征模型和所述多张原始图像,构建显式三维模型,所述显式三维模型包括所述目标物体上表面点及其颜色信息,每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的;
随机生成所述显式三维模型上表面点对应的第二视线,并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息;
根据所述第二视线对应的平均视角信息和所述第二视线上空间点的空间坐标,基于所述初始隐式3D表征模型进行基于神经网络的三维重建,得到目标隐式3D表征模型。
15.一种计算机设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器耦合至所述存储器,用于执行所述计算机程序以用于执行权利要求1-14任一项所述方法中的步骤。
16.一种存储有计算机程序的计算机存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器能够实现权利要求1-14任一项所述方法中的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210081291.6A CN114119839B (zh) | 2022-01-24 | 2022-01-24 | 三维模型重建与图像生成方法、设备以及存储介质 |
PCT/CN2023/071960 WO2023138477A1 (zh) | 2022-01-24 | 2023-01-12 | 三维模型重建与图像生成方法、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210081291.6A CN114119839B (zh) | 2022-01-24 | 2022-01-24 | 三维模型重建与图像生成方法、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114119839A true CN114119839A (zh) | 2022-03-01 |
CN114119839B CN114119839B (zh) | 2022-07-01 |
Family
ID=80361256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210081291.6A Active CN114119839B (zh) | 2022-01-24 | 2022-01-24 | 三维模型重建与图像生成方法、设备以及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114119839B (zh) |
WO (1) | WO2023138477A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758081A (zh) * | 2022-06-15 | 2022-07-15 | 之江实验室 | 基于神经辐射场的行人重识别三维数据集构建方法和装置 |
CN114841783A (zh) * | 2022-05-27 | 2022-08-02 | 阿里巴巴(中国)有限公司 | 商品信息处理方法、装置、终端设备及存储介质 |
CN114863037A (zh) * | 2022-07-06 | 2022-08-05 | 杭州像衍科技有限公司 | 基于单手机的人体三维建模数据采集与重建方法及系统 |
CN115100360A (zh) * | 2022-07-28 | 2022-09-23 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115243025A (zh) * | 2022-09-21 | 2022-10-25 | 深圳市明源云科技有限公司 | 三维渲染方法、装置、终端设备以及存储介质 |
CN115272575A (zh) * | 2022-07-28 | 2022-11-01 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115937907A (zh) * | 2023-03-15 | 2023-04-07 | 深圳市亲邻科技有限公司 | 社区宠物识别方法、装置、介质及设备 |
CN116129030A (zh) * | 2023-04-18 | 2023-05-16 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的场景物体融合方法及装置 |
WO2023138477A1 (zh) * | 2022-01-24 | 2023-07-27 | 阿里巴巴(中国)有限公司 | 三维模型重建与图像生成方法、设备以及存储介质 |
CN116612256A (zh) * | 2023-04-19 | 2023-08-18 | 深圳市兰星科技有限公司 | 一种基于NeRF的实时远程三维实景模型浏览方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315148B (zh) * | 2023-09-26 | 2024-05-24 | 北京智象未来科技有限公司 | 三维物体风格化方法、装置、设备、存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862733A (zh) * | 2017-11-02 | 2018-03-30 | 南京大学 | 基于视线更新算法的大规模场景实时三维重建方法和系统 |
CN108805979A (zh) * | 2018-02-05 | 2018-11-13 | 清华-伯克利深圳学院筹备办公室 | 一种动态模型三维重建方法、装置、设备和存储介质 |
CN109360268A (zh) * | 2018-09-29 | 2019-02-19 | 清华大学 | 重建动态物体的表面优化方法及装置 |
CN110998671A (zh) * | 2019-11-22 | 2020-04-10 | 驭势科技(南京)有限公司 | 三维重建方法、装置、系统和存储介质 |
CN111133477A (zh) * | 2019-12-20 | 2020-05-08 | 驭势科技(南京)有限公司 | 三维重建方法、装置、系统和存储介质 |
US20200175748A1 (en) * | 2017-06-08 | 2020-06-04 | Sony Interactive Entertainment Inc. | Information processing device and image generation method |
CN113099208A (zh) * | 2021-03-31 | 2021-07-09 | 清华大学 | 基于神经辐射场的动态人体自由视点视频生成方法和装置 |
US20210248811A1 (en) * | 2020-02-06 | 2021-08-12 | Apple Inc. | Neural rendering |
CN113706714A (zh) * | 2021-09-03 | 2021-11-26 | 中科计算技术创新研究院 | 基于深度图像和神经辐射场的新视角合成方法 |
US20210390761A1 (en) * | 2020-06-15 | 2021-12-16 | Microsoft Technology Licensing, Llc | Computing images of dynamic scenes |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628348B (zh) * | 2021-08-02 | 2024-03-15 | 聚好看科技股份有限公司 | 一种确定三维场景中视点路径的方法及设备 |
CN114119839B (zh) * | 2022-01-24 | 2022-07-01 | 阿里巴巴(中国)有限公司 | 三维模型重建与图像生成方法、设备以及存储介质 |
-
2022
- 2022-01-24 CN CN202210081291.6A patent/CN114119839B/zh active Active
-
2023
- 2023-01-12 WO PCT/CN2023/071960 patent/WO2023138477A1/zh unknown
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200175748A1 (en) * | 2017-06-08 | 2020-06-04 | Sony Interactive Entertainment Inc. | Information processing device and image generation method |
CN107862733A (zh) * | 2017-11-02 | 2018-03-30 | 南京大学 | 基于视线更新算法的大规模场景实时三维重建方法和系统 |
CN108805979A (zh) * | 2018-02-05 | 2018-11-13 | 清华-伯克利深圳学院筹备办公室 | 一种动态模型三维重建方法、装置、设备和存储介质 |
CN109360268A (zh) * | 2018-09-29 | 2019-02-19 | 清华大学 | 重建动态物体的表面优化方法及装置 |
CN110998671A (zh) * | 2019-11-22 | 2020-04-10 | 驭势科技(南京)有限公司 | 三维重建方法、装置、系统和存储介质 |
CN111133477A (zh) * | 2019-12-20 | 2020-05-08 | 驭势科技(南京)有限公司 | 三维重建方法、装置、系统和存储介质 |
US20210248811A1 (en) * | 2020-02-06 | 2021-08-12 | Apple Inc. | Neural rendering |
US20210390761A1 (en) * | 2020-06-15 | 2021-12-16 | Microsoft Technology Licensing, Llc | Computing images of dynamic scenes |
CN113099208A (zh) * | 2021-03-31 | 2021-07-09 | 清华大学 | 基于神经辐射场的动态人体自由视点视频生成方法和装置 |
CN113706714A (zh) * | 2021-09-03 | 2021-11-26 | 中科计算技术创新研究院 | 基于深度图像和神经辐射场的新视角合成方法 |
Non-Patent Citations (4)
Title |
---|
MILDENHALL, B等: "NeRF: representing scenes as neural radiance fields for view synthesis", 《COMPUTER VISION - ECCV 2020. 16TH EUROPEAN CONFERENCE. PROCEEDINGS. LECTURE NOTES IN COMPUTER SCIENCE》 * |
NEFF, T等: "《Point-Based Neural Rendering with Per-View Optimization》", 《COMPUTER GRAPHICS FORUM》 * |
常远 等: "基于神经辐射场的视点合成算法综述", 《图学学报》 * |
李明豪: "基于图像的自由视点合成方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023138477A1 (zh) * | 2022-01-24 | 2023-07-27 | 阿里巴巴(中国)有限公司 | 三维模型重建与图像生成方法、设备以及存储介质 |
CN114841783A (zh) * | 2022-05-27 | 2022-08-02 | 阿里巴巴(中国)有限公司 | 商品信息处理方法、装置、终端设备及存储介质 |
WO2023093186A1 (zh) * | 2022-06-15 | 2023-06-01 | 之江实验室 | 基于神经辐射场的行人重识别三维数据集构建方法和装置 |
CN114758081A (zh) * | 2022-06-15 | 2022-07-15 | 之江实验室 | 基于神经辐射场的行人重识别三维数据集构建方法和装置 |
CN114863037A (zh) * | 2022-07-06 | 2022-08-05 | 杭州像衍科技有限公司 | 基于单手机的人体三维建模数据采集与重建方法及系统 |
US12014463B2 (en) | 2022-07-06 | 2024-06-18 | Image Derivative Inc. | Data acquisition and reconstruction method and system for human body three-dimensional modeling based on single mobile phone |
CN114863037B (zh) * | 2022-07-06 | 2022-10-11 | 杭州像衍科技有限公司 | 基于单手机的人体三维建模数据采集与重建方法及系统 |
CN115100360B (zh) * | 2022-07-28 | 2023-12-01 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115272575A (zh) * | 2022-07-28 | 2022-11-01 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115272575B (zh) * | 2022-07-28 | 2024-03-29 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115100360A (zh) * | 2022-07-28 | 2022-09-23 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115243025A (zh) * | 2022-09-21 | 2022-10-25 | 深圳市明源云科技有限公司 | 三维渲染方法、装置、终端设备以及存储介质 |
CN115937907A (zh) * | 2023-03-15 | 2023-04-07 | 深圳市亲邻科技有限公司 | 社区宠物识别方法、装置、介质及设备 |
CN116129030A (zh) * | 2023-04-18 | 2023-05-16 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的场景物体融合方法及装置 |
CN116612256A (zh) * | 2023-04-19 | 2023-08-18 | 深圳市兰星科技有限公司 | 一种基于NeRF的实时远程三维实景模型浏览方法 |
CN116612256B (zh) * | 2023-04-19 | 2024-05-14 | 深圳市兰星科技有限公司 | 一种基于NeRF的实时远程三维实景模型浏览方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023138477A1 (zh) | 2023-07-27 |
CN114119839B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114119839B (zh) | 三维模型重建与图像生成方法、设备以及存储介质 | |
CN114119849B (zh) | 三维场景渲染方法、设备以及存储介质 | |
CN114119838B (zh) | 体素模型与图像生成方法、设备及存储介质 | |
Li et al. | Neural 3d video synthesis from multi-view video | |
Casas et al. | 4d video textures for interactive character appearance | |
CN109887003B (zh) | 一种用于进行三维跟踪初始化的方法与设备 | |
US10839585B2 (en) | 4D hologram: real-time remote avatar creation and animation control | |
JP6669063B2 (ja) | 画像処理装置および方法 | |
US20130321396A1 (en) | Multi-input free viewpoint video processing pipeline | |
EP3326156B1 (en) | Consistent tessellation via topology-aware surface tracking | |
CN113220251B (zh) | 物体显示方法、装置、电子设备及存储介质 | |
CN109906600B (zh) | 模拟景深 | |
CN112270736A (zh) | 增强现实处理方法及装置、存储介质和电子设备 | |
US20210166476A1 (en) | Automatic 3D Image Reconstruction Process from Real-World 2D Images | |
CN113628322A (zh) | 图像处理、ar显示与直播方法、设备及存储介质 | |
US20230274494A1 (en) | Cropping for efficient three-dimensional digital rendering | |
CN116486018A (zh) | 三维重建方法、设备和存储介质 | |
KR102468718B1 (ko) | 심층신경망을 이용하여 3차원 디지털 트윈 공간을 제공하기 위한 장치 및 방법 | |
CN114820988A (zh) | 三维建模方法、装置、设备和存储介质 | |
CN113592875B (zh) | 数据处理方法、图像处理方法、存储介质及计算设备 | |
CN114900743A (zh) | 基于视频推流的场景渲染过渡方法以及系统 | |
CN114241172A (zh) | 基于全息投影的三维模型展示方法、装置和计算机设备 | |
Gilbert et al. | Inpainting of wide-baseline multiple viewpoint video | |
US11830140B2 (en) | Methods and systems for 3D modeling of an object by merging voxelized representations of the object | |
US20240096041A1 (en) | Avatar generation based on driving views |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |