CN117237539A - 三维模型生成方法、装置、设备及可读存储介质 - Google Patents
三维模型生成方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117237539A CN117237539A CN202311348637.5A CN202311348637A CN117237539A CN 117237539 A CN117237539 A CN 117237539A CN 202311348637 A CN202311348637 A CN 202311348637A CN 117237539 A CN117237539 A CN 117237539A
- Authority
- CN
- China
- Prior art keywords
- dimensional image
- model
- radiation field
- dimensional
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000005855 radiation Effects 0.000 claims abstract description 133
- 210000005036 nerve Anatomy 0.000 claims abstract description 81
- 238000009792 diffusion process Methods 0.000 claims abstract description 54
- 230000001537 neural effect Effects 0.000 claims abstract description 52
- 230000006870 function Effects 0.000 claims description 44
- 230000000694 effects Effects 0.000 claims description 39
- 238000009877 rendering Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种三维模型生成方法、装置、设备及可读存储介质,其中,该方法包括S1:获取第一数据集中最近一次添加的二维图像;S2:基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像;第一扩散模型是基于初始二维图像的语义监督的扩散模型;S3:根据预测二维图像更新第一神经辐射场模型,获得第二神经辐射场模型;S4:若第二神经辐射场模型收敛,则将获得的第二神经场辐射模型作为三维模型,若第二神经辐射场模型不收敛,则将预测二维图像添加至第一数据集中,将第二神经辐射场模型作为下一次循环中的第一神经辐射场模型,并执行S1‑S4。本方案能够降低生成三维模型的时间成本,批量生成效率高。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种三维模型生成方法、装置、设备及可读存储介质。
背景技术
现有基于平面二维2D图像实现三维3D特效的技术方案,3D特效需由美术及建模人员事先完成特效绘制及建模,并在3D编辑器或通过平面检测算法中完成与2D图像的位置绑定,最终在用户扫描图像时触发预置的绑定特效,形成一个虚实叠加的轻量级增强现实(Augmented Reality,AR)玩法。
其中,3D特效由美术及建模人员完成特效绘制及建模后,需要更新特效,且在更新特效后,需更新客户端或者从服务端重新获取资源,针对不同的2D图像,单次部署相关资源的时间较长,从而导致时间成本高、批量生成效率低的问题。
发明内容
本发明的目的在于提供一种三维模型生成方法、装置、设备及可读存储介质,以解决现有基于平面2D图像实现3D特效的技术方案中存在的时间成本高、批量生成效率低的问题。
为了解决上述技术问题,本发明实施例提供一种三维模型生成方法,包括:
S1:获取第一数据集中最近一次添加的二维图像;
S2:基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,其中,所述预测二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;所述第一扩散模型是基于初始二维图像的语义监督的扩散模型,所述初始二维图像为所述第一数据集中的二维图像;
S3:根据所述预测二维图像更新所述第一神经辐射场模型,获得第二神经辐射场模型;
S4:若所述第二神经辐射场模型收敛,则将获得的第二神经场辐射模型作为三维模型,若所述第二神经辐射场模型不收敛,则将所述预测二维图像添加至所述第一数据集中,将所述第二神经辐射场模型作为下一次循环中的第一神经辐射场模型,并执行S1-S4。
其中,所述基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,包括:
基于所述第一神经辐射场模型,提取中间二维图像,所述中间二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;
将所述中间二维图像经过所述第一扩散模型进行处理,生成所述预测二维图像。
其中,所述将所述中间二维图像经过所述第一扩散模型进行处理,生成所述预测二维图像,包括:
将所述中间二维图像经过预设轮次高斯噪声化处理,得到噪声图像;
通过第一噪声解码器,对所述噪声图像进行噪声解码,获得所述预测二维图像,其中,所述第一噪声解码器是由所述初始二维图像以及描述所述初始二维图像对应的摄像头视角的文本联合指导的噪声解码器。
其中,所述根据所述预测二维图像更新所述第一神经辐射场模型,获得第二神经辐射场模型,包括:
基于所述预测二维图像和第一损失函数,更新所述第一神经辐射场模型,获得中间神经辐射场模型;其中,所述第一损失函数用于表征基于所述第一扩散模型估计的噪声与真实噪声之间的距离;
根据所述初始二维图像和第二损失函数,更新所述中间神经辐射场模型,获得第二神经辐射场模型;其中,所述第二损失函数用于表征在所述初始二维图像对应的摄像头视角下,利用所述中间神经辐射场模型生成的二维图像与所述初始二维图像之间的距离。
其中,首次循环对应的所述最近一次添加的二维图像为所述初始二维图像;
首次循环过程中,在获取第一数据集中最近一次添加的二维图像之后,基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像之前,所述方法还包括:
根据所述初始二维图像对应的摄像头视角和预训练权重的神经辐射场模型,获得参考深度图和参考渲染图像;
根据所述参考深度图和所述初始二维图像对应的深度图,得到深度图损失函数;
根据所述参考渲染图像和所述初始二维图像,得到图像损失函数;
基于所述深度图损失函数和所述图像损失函数,更新预训练权重的神经辐射场模型,获得第一神经辐射场模型。
其中,所述方法还包括:
获取用户设备上传的一张初始二维图像;
将所述初始二维图像添加至所述第一数据集中;其中,所述初始二维图像作为首次循环过程中所述第一数据集中最近一次添加的二维图像。
其中,所述方法还包括:
将所述三维模型投影至所述初始二维图像对应的摄像头视角下的二维效果,叠加至用户设备的摄像头画面;
将经二维效果叠加后的摄像头画面返回至所述用户设备的屏幕。
其中,所述方法还包括:
接收用户设备上报的第一信息,所述第一信息包括用户选择叠加至所述初始二维图像上的预制三维模型;
将所述第一信息注册至所述三维模型。
本发明实施例还提供一种三维模型生成装置,包括:
获取模块,用于获取第一数据集中最近一次添加的二维图像;
第一处理模块,用于基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,其中,所述预测二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;所述第一扩散模型是基于初始二维图像的语义监督的扩散模型,所述初始二维图像为所述第一数据集中的二维图像;
第二处理模块,用于根据所述预测二维图像更新所述第一神经辐射场模型,获得第二神经辐射场模型;
第三处理模块,用于在所述第二神经辐射场模型收敛的情况下,将获得的第二神经场辐射模型作为三维模型;在所述第二神经辐射场模型不收敛的情况下,将所述预测二维图像添加至所述第一数据集中,将所述第二神经辐射场模型作为下一次循环中的第一神经辐射场模型。
本发明实施例还提供了一种三维模型生成设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器执行所述程序时实现上述的三维模型生成方法。
本发明实施例还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的三维模型生成方法中的步骤。
本发明的上述技术方案的有益效果如下:
上述方案中,通过获取第一数据集中最近一次添加的二维图像;基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,其中,该预测二维图像对应的摄像头视角是该最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;第一扩散模型是基于初始二维图像的语义监督的扩散模型,初始二维图像为第一数据集中的二维图像;根据预测二维图像更新第一神经辐射场模型,获得第二神经辐射场模型;若第二神经辐射场模型收敛,则将获得的第二神经辐射场模型作为三维模型;若第二神经辐射场模型不收敛,则将所述预测二维图像添加至第一数据集中,将第二神经辐射场模型作为下一次循环中的第一神经辐射场模型,并返回执行上述步骤,这样,仅依赖一张初始二维图像(真实图像),通过上述反复迭代,最终生成该初始二维图像对应的三维模型,如此不需要人为绘制特效及建模,从而降低时间成本,批量生成效率高。
附图说明
图1为本发明实施例的三维模型生成方法的流程示意图;
图2为本发明实施例的三维模型生成装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
下面对本发明实施例提供的三维模型生成方法进行进一步说明。
如图1所示,本发明实施例提供了一种三维模型生成方法,该方法可包括:
S1:获取第一数据集中最近一次添加的二维图像;
需要说明的是,该方法是一个不断循环迭代的过程。这里,在首次(第一次)循环中,最近一次添加的二维图像为初始二维图像,此时,第一数据集中仅有初始二维2D图像,即一张真实2D图像。在首次之后的循环中,最近一次添加的二维图像是预测二维图像,且是与初始二维图像对应的摄像头视角不同的其他视角下的二维图像。
S2:基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,其中,所述预测二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;所述第一扩散模型是基于初始二维图像的语义监督的扩散模型,所述初始二维图像为所述第一数据集中的二维图像;
应理解,第一扩散模型是一个预测模块,通过第一神经辐射场模型的辅助,第一扩散模块可以从其他小幅度旋转角度(即旋转预设角度)提取新的2D图像,即得到预测二维图像。需要说明的是,第一扩散模型之所以是基于初始二维图像的语义监督的扩散模型,其目的是为了使得到的预测二维图像尽量接近初始二维图像,避免偏离初始二维图像过多,也就是,使得到的预测二维图像更可靠。
S3:根据所述预测二维图像更新所述第一神经辐射场模型,获得第二神经辐射场模型;
应理解,根据预测二维图像更新第一神经辐射场模型,是对第一神经辐射场模型调参的过程,通过不断的调参,最终得到全视角的3D模型。
S4:若所述第二神经辐射场模型收敛,则将获得的第二神经场辐射模型作为三维模型,若所述第二神经辐射场模型不收敛,则将所述预测二维图像添加至所述第一数据集中,将所述第二神经辐射场模型作为下一次循环中的第一神经辐射场模型,并执行S1-S4。
本发明实施例的三维模型生成方法,仅依赖一张初始二维图像,通过上述反复迭代,最终生成该初始二维图像对应的三维模型,如此不需要人为绘制特效及建模,由程序算法自动生成3D特效,从根本上解决了资源依赖的问题,不仅降低了时间成本,批量生成效率也得到了提高。
作为一可选地实现方式,首次循环对应的所述最近一次添加的二维图像为所述初始二维图像;首次循环过程中,在获取第一数据集中最近一次添加的二维图像之后,基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像之前,本发明的方法还包括:
(1)根据所述初始二维图像对应的摄像头视角和预训练权重的神经辐射场模型,获得参考深度图和参考渲染图像;
首次循环过程中,需系统初始化生成初始神经辐射场模型(即本实现方式中最终获得的第一神经辐射场模型)。此时,第一数据集中仅有一张初始二维图像,即真实的2D图像即为y0,该初始二维图像对应的摄像头视角记为T0(R0|t0),其中R0为摄像头朝向,t0为摄像头坐标位置。该初始二维图像对应的深度图记为DMR,初始二维图像对应的摄像头视角对应的文字描述记为z。
需要说明的是,初始二维图像对应的深度图可通过设备硬件直接获得,比如设备上安装有激光雷达,可通过激光雷达获得图像的深度图;初始二维图像对应的深度图还可通过算法获得,比如单目深度估计算法。
该步骤具体的,将初始二维图像对应的摄像头视角,即上述摄像头坐标位置t0和摄像头朝向R0输入至预训练权重的神经辐射场模型,得到该摄像头视角下的参考深度图(即为DMp)和参考渲染图像(即为x0)。
(2)根据所述参考深度图和所述初始二维图像对应的深度图,得到深度图损失函数;
这里,以初始二维图像对应的深度图DMR为参考深度图DMp的监督目标设计深度图损失函数,其目的是为了让生成的参考深度图DMp尽量接近于真实的初始二维图像对应的深度图DMR。
其中,一种可选的深度图损失函数形式如下:
其中,d(*)表示在深度图中,*像素的深度值。表示参考深度图DMp中的k像素,表示初始二维图像对应的深度图DMR中的k像素。
(3)根据所述参考渲染图像和所述初始二维图像,得到图像损失函数;
这里,以初始二维图像y0为参考渲染图像x0的监督目标设计图像损失函数。
其中,一种可选的图像损失函数形式如下:
其中,C(*)表示取图像颜色,整个图像损失函数的意义是对比两个图像各像素的颜色值差距的总和。
(4)基于所述深度图损失函数和所述图像损失函数,更新预训练权重的神经辐射场模型,获得第一神经辐射场模型。
这里,基于深度图损失函数和图像损失函数,通过反向传播优化预训练权重的神经辐射场模型的训练,获得第一神经辐射场模型,该实现方式中,第一神经辐射场模型指的是初始神经辐射场模型。需要说明的是,经过初始二维图像单一训练后,可得到一个初步的单视角三维模型(即初始神经辐射场模型)即为V0。
需要说明的是,可以维护一份可靠数据集(yi,Ti),其中,可靠数据集应理解为第一数据集,y表示可靠图像,T表示该图像对应的摄像头视角输入可靠图像及视角,由神经辐射场模型NeRF模型进行建模。其中,可靠图像分为两种,一种是最初由用户提供的初始二维图像,另一种是由第一扩散模型生成的其他视角下的二维图像,即预测二维图像。对于初始二维图像,可以将初始二维图像对应的摄像头视角(也可称相机位姿)定义为0,即原点,对于第一扩散模型生成的预测二维图像,可根据相机旋转的角度,在前一个图像位姿的基础上,增加相关的旋转角。随着可靠图像的增加,神经辐射场模型由最初的单面片模型,逐步完善成一个更全面的模型,直到最后完成360°视角采集后,生成完整三维模型。
作为一可选地实现方式,上述步骤S2,基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,可包括:
1)基于所述第一神经辐射场模型,提取中间二维图像,所述中间二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;
这里,最近一次添加的二维图像对应的摄像头视角即为Tn(Rn|tn),中间二维图像对应的摄像头视角是Tn(Rn|tn)旋转预设角度ΔR后的视角,即为Tn(Rn+ΔR|tn),以该视角Tn(Rn+ΔR|tn)从第一神经辐射场模型提取中间二维图像即为xn。
2)将所述中间二维图像经过所述第一扩散模型进行处理,生成所述预测二维图像。
具体的,该步骤2)可包括:
①将所述中间二维图像经过预设轮次高斯噪声化处理,得到噪声图像;
这里,噪声图像是一个服从均值为0,方差为1的标准高斯分布的纯噪声图像即为xit。
②通过第一噪声解码器,对所述噪声图像进行噪声解码,获得所述预测二维图像,其中,所述第一噪声解码器是由所述初始二维图像以及描述所述初始二维图像对应的摄像头视角的文本联合指导的噪声解码器。
具体的,将噪声图像xit输入至第一噪声解码器,获得预测二维图像x′n。
由所述初始二维图像y0以及描述所述初始二维图像对应的摄像头视角的文本z联合指导的噪声解码器,即第一噪声解码器,其中,第一噪声解码器可表示为pθ(xt|y0,z),用贝斯公式展开可得:
pθ(xt|y0,z)=pθ(y0|xt,z)pθ(xt|z)/pθ(y0|z),其中,pθ(xt|z)为已知文字描述,求xt图像,可使用一个预训练的文字画图模型(如stablediffusion等)记为εθ(xt|z);pθ(y0|z)为常数,因为y0和z均为已知量;pθ(y0|xt,z)为已知xt,z,求y0,可使用文本-图像匹配对模型(如CLIP)的图像编码器F,度量y0与xl′0两者的距离。
以上基于公式对第一噪声解码器的阐述,是第一噪声解码器的理论推导部分。
第一噪声解码器可由组合预训练的文字画图模型以及文本-图像匹配对模型的图像编码器进行实现。一种数学描述方式如下:
εθ(xt;y,z)=(1-ω)*εθ(xt;z)-ω*||F(x′n)-F(y0)||
其中,εθ(xt;y,z)为第一噪声解码器的数学描述,ω为权重参数,εθ(xt;z)为预训练的文字画图模型,F(*)为文本-图像匹配对的模型的图像编码器,||*||为任意一种可选地距离计算方法。x′n为经过噪声解码后生成的预测二维图像。
通过引入初始二维图像即真实图像y0的语义监督,具体的,通过上述ω*||F(x′n)-F(y0)||体现,第一扩散模型按照ΔR旋转角度后提取的中间二维图像,去生成该视角下的可靠图像,即预测二维图像。将该预测二维图像x′n及其对应的摄像头视角Tn(Rn+ΔR|tn)添加至第一数据集中。第一扩散模型之所以是基于初始二维图像的语义监督的扩散模型,其目的是为了使得到的预测二维图像尽量接近初始二维图像,避免偏离初始二维图像过多,也就是,使得到的预测二维图像更可靠。
作为一可选地实现方式,上述步骤S3,根据所述预测二维图像更新所述第一神经辐射场模型,获得第二神经辐射场模型,可包括:
1、基于所述预测二维图像和第一损失函数,更新所述第一神经辐射场模型,获得中间神经辐射场模型;其中,所述第一损失函数用于表征基于所述第一扩散模型估计的噪声与真实噪声之间的距离;
具体的,将预测二维图像(x′n,Tn)输入至第一神经辐射场模型,并通过第一损失函数更新第一神经辐射场模型。
这里,第一损失函数一种可用的数学表达方式为:
其中,αt,βt是两个噪声权重,t表示第一扩散模型的扩散轮次,ε为服从标准正态分布的高斯噪声,Tn表示预测二维图像对应的摄像头视角,V1表示第一神经辐射场模型,h(V1,Tn)表示以第一神经辐射场模型V1为基础,在相机视角Tn下采样生成的图像。
2、根据所述初始二维图像和第二损失函数,更新所述中间神经辐射场模型,获得第二神经辐射场模型;其中,所述第二损失函数用于表征在所述初始二维图像对应的摄像头视角下,利用所述中间神经辐射场模型生成的二维图像与所述初始二维图像之间的距离。
这里,取初始二维图像(y0,T0)输入至中间神经辐射场模型,通过第二损失函数更新中间神经辐射场模型。
这里,第二损失函数一种可用的数学表达方式为:
其中,h(V,T0)表示以中间神经辐射场模型V为基础,在相机视角T0下采样生成的图像。
需要说明的是,执行上述步骤2,是为了校验在初始二维图像对应的摄像头视角下,利用中间神经辐射场模型生成的二维图像与初始二维图像间的差距,避免偏离初始二维图像过多,做到及时修正神经辐射场模型。
作为一可选地实现方式,本发明的方法还可包括:
获取用户设备上传的一张初始二维图像;
将所述初始二维图像添加至所述第一数据集中;其中,所述初始二维图像作为首次循环过程中所述第一数据集中最近一次添加的二维图像。
该实现方式中新增用户设备的参与,具体的,用户可使用手机或其他设备摄像头拍摄一张二维图像,作为初始二维图像,上传至执行三维模型生成的设备,比如上传至云端服务器。
作为一可选地实现方式,本发明的方法还可包括:
将所述三维模型投影至所述初始二维图像对应的摄像头视角下的二维效果,叠加至用户设备的摄像头画面;
将经二维效果叠加后的摄像头画面返回至所述用户设备的屏幕。
该实现方式对应增加用户设备参与的情景,也就是,基于用户设备上传的初始二维图像,通过反复迭代处理,最终生成该初始二维图像对应的三维模型之后,该三维模型投影至该初始二维图像对应的摄像头视角下的二维效果会被叠加至用户设备的摄像头画面上,返回到用户设备的屏幕上,获得虚实叠加的AR效果。
作为一可选地实现方式,本发明的方法还可包括:
接收用户设备上报的第一信息,所述第一信息包括用户选择叠加至所述初始二维图像上的预制三维模型;
将所述第一信息注册至所述三维模型。
该实现方式对应于如下场景:当云端服务器侧将三维模型投影至初始二维图像对应的摄像头视角下的二维效果叠加至用户设备的摄像头画面上,,返回到用户设备的屏幕上后,用户终端获得虚实叠加的AR效果。用户根据观察到的虚实叠加的AR效果,手动选择预制(预先绘制)的其他AR特效;再次叠加到初始二维图像上,这样能够得到用户满意的效果。同时记录被选择的特效和相对应目标的相对位置,传输至云端服务器。云端服务器获取特效信息及位置信息后,将其注册到之前生成的三维模型中。由于预制特效已经是3D模型,神经辐射场模型无需再更新此类特效。
本发明实施例的三维模型生成方法,通过获取第一数据集中最近一次添加的二维图像;基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,其中,该预测二维图像对应的摄像头视角是该最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;第一扩散模型是基于初始二维图像的语义监督的扩散模型,初始二维图像为第一数据集中的二维图像;根据预测二维图像更新第一神经辐射场模型,获得第二神经辐射场模型;若第二神经辐射场模型收敛,则将获得的第二神经辐射场模型作为三维模型;若第二神经辐射场模型不收敛,则将所述预测二维图像添加至第一数据集中,将第二神经辐射场模型作为下一次循环中的第一神经辐射场模型,并返回执行上述步骤,这样,仅依赖一张初始二维图像,通过上述反复迭代,最终生成该初始二维图像对应的三维模型,如此不需要人为绘制特效及建模,从而降低时间成本,批量生成效率高
如图2所示,本发明实施例还提供了一种三维模型生成装置,该装置可包括:
获取模块201,用于获取第一数据集中最近一次添加的二维图像;
第一处理模块202,用于基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,其中,所述预测二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;所述第一扩散模型是基于初始二维图像的语义监督的扩散模型,所述初始二维图像为所述第一数据集中的二维图像;
第二处理模块203,用于根据所述预测二维图像更新所述第一神经辐射场模型,获得第二神经辐射场模型;
第三处理模块204,用于在所述第二神经辐射场模型收敛的情况下,将获得的第二神经场辐射模型作为三维模型;在所述第二神经辐射场模型不收敛的情况下,将所述预测二维图像添加至所述第一数据集中,将所述第二神经辐射场模型作为下一次循环中的第一神经辐射场模型。
可选地,第一处理模块202包括:
第一处理单元,用于基于所述第一神经辐射场模型,提取中间二维图像,所述中间二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;
第二处理单元,用于将所述中间二维图像经过所述第一扩散模型进行处理,生成所述预测二维图像。
可选地,第二处理单元具体用于:
将所述中间二维图像经过预设轮次高斯噪声化处理,得到噪声图像;
通过第一噪声解码器,对所述噪声图像进行噪声解码,获得所述预测二维图像,其中,所述第一噪声解码器是由所述初始二维图像以及描述所述初始二维图像对应的摄像头视角的文本联合指导的噪声解码器。
可选地,第二处理模块203包括:
第三处理单元,用于基于所述预测二维图像和第一损失函数,更新所述第一神经辐射场模型,获得中间神经辐射场模型;其中,所述第一损失函数用于表征基于所述第一扩散模型估计的噪声与真实噪声之间的距离;
第四处理单元,用于根据所述初始二维图像和第二损失函数,更新所述中间神经辐射场模型,获得第二神经辐射场模型;其中,所述第二损失函数用于表征在所述初始二维图像对应的摄像头视角下,利用所述中间神经辐射场模型生成的二维图像与所述初始二维图像之间的距离。
可选地,首次循环对应的所述最近一次添加的二维图像为所述初始二维图像;本发明实施例的装置还可包括:
第四处理模块,用于根据所述初始二维图像对应的摄像头视角和预训练权重的神经辐射场模型,获得参考深度图和参考渲染图像;
第五处理模块,用于根据所述参考深度图和所述初始二维图像对应的深度图,得到深度图损失函数;
第六处理模块,用于根据所述参考渲染图像和所述初始二维图像,得到图像损失函数;
第七处理模块,用于基于所述深度图损失函数和所述图像损失函数,更新预训练权重的神经辐射场模型,获得第一神经辐射场模型。
可选地,本发明实施例的装置还可包括:
获取模块,用于获取用户设备上传的一张初始二维图像;
第八处理模块,用于将所述初始二维图像添加至所述第一数据集中;其中,所述初始二维图像作为首次循环过程中所述第一数据集中最近一次添加的二维图像。
可选地,本发明实施例的装置还可包括:
第九处理模块,用于将所述三维模型投影至所述初始二维图像对应的摄像头视角下的二维效果,叠加至用户设备的摄像头画面;
第十处理模块,用于将经二维效果叠加后的摄像头画面返回至所述用户设备的屏幕。
可选地,本发明实施例的装置还可包括:
接收模块,用于接收用户设备上报的第一信息,所述第一信息包括用户选择叠加至所述初始二维图像上的预制三维模型;
注册模块,用于将所述第一信息注册至所述三维模型。
其中,上述三维模型生成方法的所述实现实施例均适用于该三维模型生成装置的实施例中,也能达到相同的技术效果。
本发明实施例还提供了一种三维模型生成设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器执行所述程序时实现如上述所述的三维模型生成方法。
其中,上述三维模型生成方法的所述实现实施例均适用于该三维模型生成设备的实施例中,也能达到相同的技术效果。
本发明实施例还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的三维模型生成方法中的步骤。
其中,上述三维模型生成方法的所述实现实施例均适用于该可读存储介质的实施例中,也能达到相同的技术效果。
需要说明的是,此说明书中所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述原理前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种三维模型生成方法,其特征在于,包括:
S1:获取第一数据集中最近一次添加的二维图像;
S2:基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,其中,所述预测二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;所述第一扩散模型是基于初始二维图像的语义监督的扩散模型,所述初始二维图像为所述第一数据集中的二维图像;
S3:根据所述预测二维图像更新所述第一神经辐射场模型,获得第二神经辐射场模型;
S4:若所述第二神经辐射场模型收敛,则将获得的第二神经场辐射模型作为三维模型,若所述第二神经辐射场模型不收敛,则将所述预测二维图像添加至所述第一数据集中,将所述第二神经辐射场模型作为下一次循环中的第一神经辐射场模型,并执行S1-S4。
2.根据权利要求1所述的方法,其特征在于,所述基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,包括:
基于所述第一神经辐射场模型,提取中间二维图像,所述中间二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;
将所述中间二维图像经过所述第一扩散模型进行处理,生成所述预测二维图像。
3.根据权利要求2所述的方法,其特征在于,所述将所述中间二维图像经过所述第一扩散模型进行处理,生成所述预测二维图像,包括:
将所述中间二维图像经过预设轮次高斯噪声化处理,得到噪声图像;
通过第一噪声解码器,对所述噪声图像进行噪声解码,获得所述预测二维图像,其中,所述第一噪声解码器是由所述初始二维图像以及描述所述初始二维图像对应的摄像头视角的文本联合指导的噪声解码器。
4.根据权利要求1所述的方法,其特征在于,所述根据所述预测二维图像更新所述第一神经辐射场模型,获得第二神经辐射场模型,包括:
基于所述预测二维图像和第一损失函数,更新所述第一神经辐射场模型,获得中间神经辐射场模型;其中,所述第一损失函数用于表征基于所述第一扩散模型估计的噪声与真实噪声之间的距离;
根据所述初始二维图像和第二损失函数,更新所述中间神经辐射场模型,获得第二神经辐射场模型;其中,所述第二损失函数用于表征在所述初始二维图像对应的摄像头视角下,利用所述中间神经辐射场模型生成的二维图像与所述初始二维图像之间的距离。
5.根据权利要求1所述的方法,其特征在于,首次循环对应的所述最近一次添加的二维图像为所述初始二维图像;
首次循环过程中,在获取第一数据集中最近一次添加的二维图像之后,基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像之前,所述方法还包括:
根据所述初始二维图像对应的摄像头视角和预训练权重的神经辐射场模型,获得参考深度图和参考渲染图像;
根据所述参考深度图和所述初始二维图像对应的深度图,得到深度图损失函数;
根据所述参考渲染图像和所述初始二维图像,得到图像损失函数;
基于所述深度图损失函数和所述图像损失函数,更新预训练权重的神经辐射场模型,获得第一神经辐射场模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户设备上传的一张初始二维图像;
将所述初始二维图像添加至所述第一数据集中;其中,所述初始二维图像作为首次循环过程中所述第一数据集中最近一次添加的二维图像。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述三维模型投影至所述初始二维图像对应的摄像头视角下的二维效果,叠加至用户设备的摄像头画面;
将经二维效果叠加后的摄像头画面返回至所述用户设备的屏幕。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户设备上报的第一信息,所述第一信息包括用户选择叠加至所述初始二维图像上的预制三维模型;
将所述第一信息注册至所述三维模型。
9.一种三维模型生成装置,其特征在于,包括:
获取模块,用于获取第一数据集中最近一次添加的二维图像;
第一处理模块,用于基于第一神经辐射场模型以及第一扩散模型,获得预测二维图像,其中,所述预测二维图像对应的摄像头视角是所述最近一次添加的二维图像对应的摄像头视角旋转预设角度后的视角;所述第一扩散模型是基于初始二维图像的语义监督的扩散模型,所述初始二维图像为所述第一数据集中的二维图像;
第二处理模块,用于根据所述预测二维图像更新所述第一神经辐射场模型,获得第二神经辐射场模型;
第三处理模块,用于在所述第二神经辐射场模型收敛的情况下,将获得的第二神经场辐射模型作为三维模型;在所述第二神经辐射场模型不收敛的情况下,将所述预测二维图像添加至所述第一数据集中,将所述第二神经辐射场模型作为下一次循环中的第一神经辐射场模型。
10.一种三维模型生成设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器执行所述程序时实现如权利要求1至8中任一项所述的三维模型生成方法。
11.一种可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述的三维模型生成方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348637.5A CN117237539A (zh) | 2023-10-18 | 2023-10-18 | 三维模型生成方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348637.5A CN117237539A (zh) | 2023-10-18 | 2023-10-18 | 三维模型生成方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117237539A true CN117237539A (zh) | 2023-12-15 |
Family
ID=89091184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311348637.5A Pending CN117237539A (zh) | 2023-10-18 | 2023-10-18 | 三维模型生成方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117237539A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953544A (zh) * | 2024-03-26 | 2024-04-30 | 安徽农业大学 | 一种目标行为监测方法及系统 |
-
2023
- 2023-10-18 CN CN202311348637.5A patent/CN117237539A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953544A (zh) * | 2024-03-26 | 2024-04-30 | 安徽农业大学 | 一种目标行为监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022267641A1 (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN106846467B (zh) | 基于每个相机位置优化的实体场景建模方法和系统 | |
CN107980150A (zh) | 对三维空间建模 | |
CN111402395B (zh) | 一种基于cnn校正的被动偏振三维重建方法 | |
CN115690382B (zh) | 深度学习模型的训练方法、生成全景图的方法和装置 | |
US20240046557A1 (en) | Method, device, and non-transitory computer-readable storage medium for reconstructing a three-dimensional model | |
CN109754464B (zh) | 用于生成信息的方法和装置 | |
CN117237539A (zh) | 三维模型生成方法、装置、设备及可读存储介质 | |
Ibáñez et al. | An advanced scatter search design for skull-face overlay in craniofacial superimposition | |
CN105261064A (zh) | 基于计算机立体视觉的三维文物重建系统及其方法 | |
US10885708B2 (en) | Automated costume augmentation using shape estimation | |
Zhong et al. | Deep attentional guided image filtering | |
CN116051766A (zh) | 一种基于神经辐射场地外行星表面环境重建方法 | |
CN116958378A (zh) | 面部贴图重建方法、装置、计算机可读介质及电子设备 | |
CN109816791B (zh) | 用于生成信息的方法和装置 | |
CN116543086A (zh) | 神经辐射场处理方法、装置及电子设备 | |
US20230145498A1 (en) | Image reprojection and multi-image inpainting based on geometric depth parameters | |
Hu et al. | 3D map reconstruction using a monocular camera for smart cities | |
CN114299152A (zh) | 一种获取姿态数据的方法及神经网络构建方法 | |
CN114998514A (zh) | 一种虚拟角色的生成方法及设备 | |
CN113902847A (zh) | 基于三维特征约束的单目深度图像位姿优化方法 | |
Chen et al. | MoCo‐Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary Monocular Cameras | |
Fotia et al. | Applying 3D and photogrammetric scanning systems to the case of cultural heritage | |
CN116310408B (zh) | 一种建立事件相机与帧相机数据关联的方法及装置 | |
CN117011122A (zh) | 图像处理方法及装置、设备、存储介质、程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |