CN117315148A - 三维物体风格化方法、装置、设备、存储介质 - Google Patents
三维物体风格化方法、装置、设备、存储介质 Download PDFInfo
- Publication number
- CN117315148A CN117315148A CN202311248760.XA CN202311248760A CN117315148A CN 117315148 A CN117315148 A CN 117315148A CN 202311248760 A CN202311248760 A CN 202311248760A CN 117315148 A CN117315148 A CN 117315148A
- Authority
- CN
- China
- Prior art keywords
- dimensional object
- point
- determining
- light
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000006870 function Effects 0.000 claims description 34
- 238000009792 diffusion process Methods 0.000 claims description 23
- 230000003287 optical effect Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 21
- 238000009877 rendering Methods 0.000 abstract description 18
- 230000008569 process Effects 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005400 testing for adjacent nuclei with gyration operator Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000004508 fractional distillation Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/506—Illumination models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Length Measuring Devices By Optical Means (AREA)
Abstract
本申请提供一种三维物体风格化方法、装置、设备、存储介质,该方法获取文本;根据文本,确定三维物体涉及的顶点;确定经过图像中各点的光线;基于光线和顶点,确定各点的深度值;根据光线确定各点的光强度;根据光强度和各点的深度值,生成风格化的三维物体。本申请提供的方法,通过各点的深度值引导三维物体的风格化渲染,进而实现了更加精准的文本控制。
Description
技术领域
本申请涉及三维建模技术领域,尤其涉及一种三维物体风格化方法、装置、设备、存储介质。
背景技术
现有的一种基于输入文本驱动的三维物体风格化方法为Text2Mesh和TANGO。
Text2Mesh通过预测符合目标文本输入的颜色和局部几何细节来对三维物体网格进行风格化。Text2Mesh利用深度神经网络对三维物体进行分解表示,将三维物体隐式表达为三维物体上点的颜色和位移,通过训练学习深度神经网络的参数来实现对三维物体的风格化。为了实现最终结果与输入文本匹配的风格,Text2Mesh利用预训练好的用于匹配图像和文本的预训练神经网络大模型CLIP(Contrastive Language-Image Pre-Training,对比语言-图像预训练)的表征能力,获得输入文本与风格化的三维物体的相似度得分来监督训练深度神经网络,最终实现三维物体的风格化。
TANGO为了实现将给定的三维物体表面网格渲染图片风格化,首先将三维物体的外观风格利用深度神经网络分解表示为空间变化的双向反射分布函数,局部几何变化和光照条件。并通过基于球形高斯的可微分渲染器渲染出三维物体图片。利用CLIP大模型计算图片和输入的文本提示之间的相似度,从而监督神经网络的训练。最终实现三维物体渲染的风格化。
但Text2Mesh和TANGO都是利用CLIP来监督三维物体的风格化,这导致了无法实现精准的细粒度的控制。
发明内容
为了解决上述技术缺陷之一,本申请提供了一种三维物体风格化方法、装置、设备、存储介质。
本申请第一个方面,提供了一种三维物体风格化方法,该方法包括:
获取文本;
根据文本,确定三维物体涉及的顶点;
确定经过图像中各点的光线;
基于光线和顶点,确定各点的深度值;
根据光线确定各点的光强度;
根据光强度和各点的深度值,生成风格化的三维物体。
可选地,经过图像中各点的光线也经过当前相机光心位置,且,光线以时间为自变量。
可选地,基于光线和顶点,确定各点的深度值,包括:
对于图像中任一点,确定与经过任一点的光线相交的首个顶点;根据首个顶点,当前相机光心位置以及过任一点的光线与标准光线的角度,确定任一点的深度值;
标准光线为经过前相机光心位置和图像中心像素点的光线。
可选地,根据光线确定各点的光强度,包括:
对于图像中任一点,确定入射光的光强度以及表面反射系数;根据入射光的光前度、表面反射系数以及任一点的法向量,确定任一点的光强度。
可选地,根据光强度和各点的深度值,生成风格化的三维物体,包括:
根据光强度生成初始风格化的三维物体;
根据各点的深度值,对初始风格化的三维物体进行噪声估计;
根据噪声估计和初始风格化的三维物体,确定损失函数;
根据损失函数和光强度生成最终风格化的三维物体。
可选地,根据各点的深度值,对初始风格化的三维物体进行噪声估计,包括:
根据预先训练的扩散先验模型,获取初始风格化的三维物体的第一图像;
根据预先训练的扩散先验模型,基于深度值和文本,获取第二图像;
根据第一图像和第二图像,对初始风格化的三维物体进行噪声估计。
可选地,根据噪声估计和初始风格化的三维物体,确定损失函数,包括:
计算噪声估计和初始风格化的三维物体的第三图像的差;
根据差的导数的期望,确定损失函数。
本申请第二方面,提供了一种三维物体风格化装置,该装置包括:
获取模块,用于获取文本;
第一确定模块,用于根据获取模块获取的文本,确定三维物体涉及的顶点;
第二确定模块,用于确定经过图像中各点的光线;
第三确定模块,用于基于第二确定模块确定的光线和第一确定模块确定的顶点,确定各点的深度值;
第四确定模块,用于根据第二确定模块确定的光线确定各点的光强度;
生成模块,用于根据第四确定模块确定的光强度和第三确定模块确定的各点的深度值,生成风格化的三维物体。
本申请第三个方面,提供了一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上述第一个方面所述的方法。
本申请第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如上述第一个方面所述的方法。
本申请提供一种三维物体风格化方法、装置、设备、存储介质,该方法获取文本;根据文本,确定三维物体涉及的顶点;确定经过图像中各点的光线;基于光线和顶点,确定各点的深度值;根据光线确定各点的光强度;根据光强度和各点的深度值,生成风格化的三维物体。本申请提供的方法,通过各点的深度值引导三维物体的风格化渲染,进而实现了更加精准的文本控制。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种三维物体风格化方法的流程示意图;
图2为本申请实施例提供的一种三维物体风格化方法的实现模型示意图;
图3为本申请实施例提供的一种三维物体风格化方法与现有方法的效果对比示意图意图;
图4为本申请实施例提供的一种三维物体风格化装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在实现本申请的过程中,发明人发现,现有的一种基于输入文本驱动的三维物体风格化方法为Text2Mesh和TANGO,但Text2Mesh和TANGO都是利用CLIP来监督三维物体的风格化,这导致了无法实现精准的细粒度的控制。
针对上述问题,本申请实施例中提供了一种三维物体风格化方法、装置、设备、存储介质,该方法获取文本;根据文本,确定三维物体涉及的顶点;确定经过图像中各点的光线;基于光线和顶点,确定各点的深度值;根据光线确定各点的光强度;根据光强度和各点的深度值,生成风格化的三维物体。本申请提供的方法,通过各点的深度值引导三维物体的风格化渲染,进而实现了更加精准的文本控制。
参见图1,本实施例提供的三维物体风格化方法实现过程如下:
101,获取文本。
其中,文本是描述三维物体的,如由用户提供的的自然语言提示文本y。
102,根据文本,确定三维物体涉及的顶点。
本步骤可以根据现有的方案根据文本确定对应的三维物体,进而得到三维物体网格M,该网格M由e个顶点V∈Re×3和u个面F∈{1,...,n}u×3组成。本步骤即确定e个顶点V∈Re ×3。
后续基于该三维物体涉及的顶点,通过步骤103至步骤106生成风格化的三维物体。为了生成风格化的三维物体,本实施例会将三维物体的渲染利用深度学习神经网络隐式表达,即将三维物体所在图像的风格参数化为三个可学习的MLP(MultilayerPerceptron,多层感知机)网络,其中分别呈现空间变化的双向反射分布函数(SVBRDF)、法线和光照属性。然后使用可微渲染器从优化的隐式神经网络中生成风格化的图像。
103,确定经过图像中各点的光线。
为了得到每个风格化三维物体所在图像中任一像素点p的颜色,可以通过可微渲染器从随机采样的当前相机光心位置c出发,沿方向vp穿过该像素点p射出相机光线Rp=c+tvp。其中,Rp为经过图像中像素点p的光线,t为时间。
因此,经过图像中各点的光线也经过当前相机光心位置,且,光线以时间为自变量。
104,基于光线和顶点,确定各点的深度值。
在步骤104中,对于图像中任一点,确定与经过任一点的光线相交的首个顶点。根据首个顶点,当前相机光心位置以及过任一点的光线与标准光线的角度,确定任一点的深度值。
其中,标准光线为经过前相机光心位置和图像中心像素点的光线。
例如,采用Ray Casting(光线投射)算法确定与经过任一像素点p的光线相交的首个顶点kp,同时还可以确定相交面fp,进而得到任一像素点p的深度值dp=||kp-c||2·cosγ。
其中,c为当前相机光心位置,γ是光线Rp与标准光线之间的角度。标准光线为一条从前相机光心位置到图像中心像素的光线。
105,根据光线确定各点的光强度。
在步骤105中,对于图像中任一点,确定入射光的光强度以及表面反射系数。根据入射光的光前度、表面反射系数以及任一点的法向量,确定任一点的光强度。
例如,使用法线预测网络Π()根据点kp的面法线np估计法向量即接下来,利用光照预测网络L()从入射光ωi方向预测入射光强度Li(ωi)。最后,利用SVBRDF预测网络fr()根据观察方向vp和入射光方向ωi估计任一像素点p处材料的表面反射系数fr(kp,vp,ωi),进而得到任一像素点p的光强度Lp(vp,kp,np),它是半球/>上的积分:
106,根据光强度和各点的深度值,生成风格化的三维物体。
为了渲染图像x∈[0,1]H×W×3,对应于该图像中的所有像素对光线集合进行采样,并将所得的颜色值排列成图像。图像渲染过程是完全可微的,这允许梯度反向传播到神经隐式表示网络中,优化神经网络参数。也即可以基于本实施例所提供的损失函数对上述风格化参数(包括任一点的颜色值,任一点的深度值,任一点的反射系数,任一点的光强度等参数)进行训练,基于训练好的参数实现三维物体的风格化。
具体的,步骤106的实现过程为:
106-1,根据光强度生成初始风格化的三维物体。
步骤106-1会基于得到的经过图像中各点的光线、各点的深度值和各点的光强度,同时渲染图像及其相应的深度图。
例如,由前相机光心位置c沿着方向vp发出,根据体积渲染原理,由该光线渲染出的任一像素点p的颜色值且任一像素点p的深度值为dp=||kp-c||2·cosγ,光强度为Lp(vp,kp,np)。
其中,tn为光线的起点,tf为光线的终点,W(t)为光线累计透过率,σ为三维物体在沿方向vp的视角下的辐射场强度。
106-2,根据各点的深度值,对初始风格化的三维物体进行噪声估计。
步骤106-2的实现过程可以基于蒸馏采样技术实现,其中,蒸馏采样技术的实现过程采用现有的过程,步骤106-2的具体实现过程如下:
1、根据预先训练的扩散先验模型,获取初始风格化的三维物体的第一图像。
例如,通过图像条件扩散模型ControlNet来重塑标准分数蒸馏采样,以实现细粒度的文本驱动的三维物体渲染风格化。
ControlNet是一种端到端神经网络架构,可控制大规模预训练图像扩散模型(例如Stable Diffusion,稳定扩散)根据不同的输入条件生成图像。
例如,在执行步骤106-2之前,会预先基于ControlNet-depth训练得到的扩散先验模型,该模型在大规模深度图-图像-文本对上进行训练,得到扩散先验模型的相关参数φ,还会得到权重w(t),该权重以时间为自变量,进而实现用深度图引导的文本到图像的生成。
因此,本步骤会基于预先训练的扩散先验模型,获取步骤106-1得到的初始风格化的三维物体的图像,为了区别其他图像,本实施例及后续实施例将106-1得到的初始风格化的三维物体的图像记为第一图像,其中的“第一”仅为标识,无实质含义,也就是说第一图像实际是一幅图像。为了方便表示第一图像,实施例及后续实施例将第一图像简记为∈φ(xt;t),xt为自变量。
2、根据预先训练的扩散先验模型,基于深度值和文本,获取第二图像。
本步骤会也会向预先训练的扩散先验模型,输入步骤104确定的各点的深度值和步骤101获取的文本,进而获取到扩散先验模型输出的图像,为了区别其他图像,本实施例及后续实施例将基于步骤104确定的各点的深度值和步骤101获取的文本得到的图像记为第二图像,其中的“第二”仅为标识,无实质含义,也就是说第二图像实际是一幅图像。为了方便表示第二图像,实施例及后续实施例将第一图像简记为∈φ(xt;t,y,d),y为步骤101中获取的文本,d为步骤104确定的各点的深度值。
3、根据第一图像和第二图像,对初始风格化的三维物体进行噪声估计。
由于ControlNet-depth有两个条件(各点的深度值和文本),因此噪声估计为:
其中,s是用户定义的常数,用于控制二者之差的影响程度。
106-3,根据噪声估计和初始风格化的三维物体,确定损失函数。
步骤106-1中会根据光强度生成初始风格化的三维物体,本步骤会先基于步骤106-1生成的三维物体生成一幅图像,记为第三图像∈(例如通过体积渲染进而从NeRF渲染出任意视角下的图像,即第三图像∈)。再计算噪声估计和初始风格化的三维物体的第三图像的差根据差的导数的期望,确定损失函数。
在训练散先验模型时会得到权重w(k),因此,可以基于w(k)与的导数得到损失函数LD-SDS,即
Et,∈[]为对时间t和风格化的三维物体的图像(即第三图像∈)的期望函数。θ为隐式表示三维物体的多层感知机的参数。
在计算损失函数LD-SDS时,利用从三维模型网格中提取到的精确深度信息,将三维空间的感知信息注入到分数蒸馏采样中,可以将文本条件概率密度缩小到一个更紧凑、更精确的区域,该区域也与深度线索紧密对齐,进而可以在三维物体风格化过程中提供更精确的监督。
106-4,根据损失函数和光强度生成最终风格化的三维物体。
本步骤会基于现有的模型训练过程,基于步骤106-3得到的损失函数,对步骤106-1生成初始风格化的三维物体是所采用的相关参数进行训练,直至得到最优的参数值,基于最优参数值生成最终风格化的三维物体。
本步骤是常规的模型训练过程,例如NeRF的训练过程。此处不进行详细阐述,参见现有的模型训练方法即可。但是训练过程中采用的损失函数即步骤106-3得到的损失函数LD-SDS。
本实施例提供的方法,在具体实现时可以基于图2所示模型结构实现。本实施例在生成最终风格化的三维物体时,所采用的损失函数LD-SDS可以在三维物体风格化过程中提供更精确的监督。通过本实施例提供的三维物体风格化方法可以将风格化三维物体网格的渲染和可控图像合成的二维扩散过程优雅地集成到端到端方案中,从而实现高质量的细粒度三维物体网格风格化。效果对比如图3所示,其中3DStyle-Diffusion为本实施例提供的三维物体风格化方法的实现效果。
本实施例提供的方法可以通过以端到端的训练方式,利用可控的二维扩散模型引导三维物体的渲染图片,从而实现了细粒度的文本驱动的三维物体风格化。
本实施例提供一种三维物体风格化方法,获取文本;根据文本,确定三维物体涉及的顶点;确定经过图像中各点的光线;基于光线和顶点,确定各点的深度值;根据光线确定各点的光强度;根据光强度和各点的深度值,生成风格化的三维物体,通过各点的深度值引导三维物体的风格化渲染,进而实现了更加精准的文本控制。
基于三维物体风格化方法的同一发明构思,本实施例提供一种三维物体风格化装置,如图4所示,该装置包括:
获取模块401,用于获取文本。
第一确定模块402,用于根据获取模块401获取的文本,确定三维物体涉及的顶点。
第二确定模块403,用于确定经过图像中各点的光线。
第三确定模块404,用于基于第二确定模块403确定的光线和第一确定模块402确定的顶点,确定各点的深度值。
第四确定模块405,用于根据第二确定模块403确定的光线确定各点的光强度。
生成模块406,用于根据第四确定模块405确定的光强度和第三确定模块404确定的各点的深度值,生成风格化的三维物体。
可选地,经过图像中各点的光线也经过当前相机光心位置,且,光线以时间为自变量。
可选地,第三确定模块404,用于对于图像中任一点,确定与经过任一点的光线相交的首个顶点。根据首个顶点,当前相机光心位置以及过任一点的光线与标准光线的角度,确定任一点的深度值。
标准光线为经过前相机光心位置和图像中心像素点的光线。
可选地,第四确定模块405,用于对于图像中任一点,确定入射光的光强度以及表面反射系数。根据入射光的光前度、表面反射系数以及任一点的法向量,确定任一点的光强度。
可选地,生成模块406,包括:
第一生成单元,用于根据光强度生成初始风格化的三维物体。
估计单元,用于根据各点的深度值,对初始风格化的三维物体进行噪声估计。
确定单元,用于根据噪声估计和初始风格化的三维物体,确定损失函数。
第二生成单元,用于根据损失函数和光强度生成最终风格化的三维物体。
可选地,估计单元,用于根据预先训练的扩散先验模型,获取初始风格化的三维物体的第一图像。根据预先训练的扩散先验模型,基于深度值和文本,获取第二图像。根据第一图像和第二图像,对初始风格化的三维物体进行噪声估计。
可选地,确定单元,用于计算噪声估计和初始风格化的三维物体的第三图像的差。根据差的导数的期望,确定损失函数。
本实施例提供的装置,获取文本;根据文本,确定三维物体涉及的顶点;确定经过图像中各点的光线;基于光线和顶点,确定各点的深度值;根据光线确定各点的光强度;根据光强度和各点的深度值,生成风格化的三维物体,通过各点的深度值引导三维物体的风格化渲染,进而实现了更加精准的文本控制。
基于三维物体风格化的同一发明构思,本实施例提供一种电子设备,该电子设备如图5所示,包括:存储器501,处理器502,以及计算机程序。
其中,计算机程序存储在存储器501中,并被配置为由处理器502执行以实现上述三维物体风格化。
具体的,
获取文本。
根据文本,确定三维物体涉及的顶点。
确定经过图像中各点的光线。
基于光线和顶点,确定各点的深度值。
根据光线确定各点的光强度。
根据光强度和各点的深度值,生成风格化的三维物体。
可选地,经过图像中各点的光线也经过当前相机光心位置,且,光线以时间为自变量。
可选地,基于光线和顶点,确定各点的深度值,包括:
对于图像中任一点,确定与经过任一点的光线相交的首个顶点。根据首个顶点,当前相机光心位置以及过任一点的光线与标准光线的角度,确定任一点的深度值。
标准光线为经过前相机光心位置和图像中心像素点的光线。
可选地,根据光线确定各点的光强度,包括:
对于图像中任一点,确定入射光的光强度以及表面反射系数。根据入射光的光前度、表面反射系数以及任一点的法向量,确定任一点的光强度。
可选地,根据光强度和各点的深度值,生成风格化的三维物体,包括:
根据光强度生成初始风格化的三维物体。
根据各点的深度值,对初始风格化的三维物体进行噪声估计。
根据噪声估计和初始风格化的三维物体,确定损失函数。
根据损失函数和光强度生成最终风格化的三维物体。
可选地,根据各点的深度值,对初始风格化的三维物体进行噪声估计,包括:
根据预先训练的扩散先验模型,获取初始风格化的三维物体的第一图像。
根据预先训练的扩散先验模型,基于深度值和文本,获取第二图像。
根据第一图像和第二图像,对初始风格化的三维物体进行噪声估计。
可选地,根据噪声估计和初始风格化的三维物体,确定损失函数,包括:
计算噪声估计和初始风格化的三维物体的第三图像的差。
根据差的导数的期望,确定损失函数。
本实施例提供的电子设备,其上计算机程序被处理器执行以通过各点的深度值引导三维物体的风格化渲染,进而实现了更加精准的文本控制。
基于三维物体风格化的同一发明构思,本实施例提供一种计算机可读存储介质,且其上存储有计算机程序。计算机程序被处理器执行以实现上述三维物体风格化。
具体的,
获取文本。
根据文本,确定三维物体涉及的顶点。
确定经过图像中各点的光线。
基于光线和顶点,确定各点的深度值。
根据光线确定各点的光强度。
根据光强度和各点的深度值,生成风格化的三维物体。
可选地,经过图像中各点的光线也经过当前相机光心位置,且,光线以时间为自变量。
可选地,基于光线和顶点,确定各点的深度值,包括:
对于图像中任一点,确定与经过任一点的光线相交的首个顶点。根据首个顶点,当前相机光心位置以及过任一点的光线与标准光线的角度,确定任一点的深度值。
标准光线为经过前相机光心位置和图像中心像素点的光线。
可选地,根据光线确定各点的光强度,包括:
对于图像中任一点,确定入射光的光强度以及表面反射系数。根据入射光的光前度、表面反射系数以及任一点的法向量,确定任一点的光强度。
可选地,根据光强度和各点的深度值,生成风格化的三维物体,包括:
根据光强度生成初始风格化的三维物体。
根据各点的深度值,对初始风格化的三维物体进行噪声估计。
根据噪声估计和初始风格化的三维物体,确定损失函数。
根据损失函数和光强度生成最终风格化的三维物体。
可选地,根据各点的深度值,对初始风格化的三维物体进行噪声估计,包括:
根据预先训练的扩散先验模型,获取初始风格化的三维物体的第一图像。
根据预先训练的扩散先验模型,基于深度值和文本,获取第二图像。
根据第一图像和第二图像,对初始风格化的三维物体进行噪声估计。
可选地,根据噪声估计和初始风格化的三维物体,确定损失函数,包括:
计算噪声估计和初始风格化的三维物体的第三图像的差。
根据差的导数的期望,确定损失函数。
本实施例提供的计算机可读存储介质,其上的计算机程序被处理器执行以通过各点的深度值引导三维物体的风格化渲染,进而实现了更加精准的文本控制。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种三维物体风格化方法,其特征在于,所述方法包括:
获取文本;
根据所述文本,确定三维物体涉及的顶点;
确定经过图像中各点的光线;
基于所述光线和所述顶点,确定各点的深度值;
根据所述光线确定各点的光强度;
根据所述光强度和各点的深度值,生成风格化的三维物体。
2.根据权利要求1所述的方法,其特征在于,经过图像中各点的光线也经过当前相机光心位置,且,所述光线以时间为自变量。
3.根据权利要求1所述的方法,其特征在于,所述基于所述光线和所述顶点,确定各点的深度值,包括:
对于图像中任一点,确定与经过所述任一点的光线相交的首个顶点;根据所述首个顶点,当前相机光心位置以及过所述任一点的光线与标准光线的角度,确定所述任一点的深度值;
所述标准光线为经过前相机光心位置和图像中心像素点的光线。
4.根据权利要求1所述的方法,其特征在于,所述根据所述光线确定各点的光强度,包括:
对于图像中任一点,确定入射光的光强度以及表面反射系数;根据入射光的光前度、表面反射系数以及所述任一点的法向量,确定所述任一点的光强度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述光强度和各点的深度值,生成风格化的三维物体,包括:
根据所述光强度生成初始风格化的三维物体;
根据各点的深度值,对初始风格化的三维物体进行噪声估计;
根据所述噪声估计和所述初始风格化的三维物体,确定损失函数;
根据所述损失函数和所述光强度生成最终风格化的三维物体。
6.根据权利要求5所述的方法,其特征在于,所述根据各点的深度值,对初始风格化的三维物体进行噪声估计,包括:
根据预先训练的扩散先验模型,获取所述初始风格化的三维物体的第一图像;
根据预先训练的扩散先验模型,基于所述深度值和所述文本,获取第二图像;
根据所述第一图像和所述第二图像,对初始风格化的三维物体进行噪声估计。
7.根据权利要求5所述的方法,其特征在于,所述根据所述噪声估计和所述初始风格化的三维物体,确定损失函数,包括:
计算所述噪声估计和所述初始风格化的三维物体的第三图像的差;
根据所述差的导数的期望,确定损失函数。
8.一种三维物体风格化装置,其特征在于,所述装置包括:
获取模块,用于获取文本;
第一确定模块,用于根据所述获取模块获取的文本,确定三维物体涉及的顶点;
第二确定模块,用于确定经过图像中各点的光线;
第三确定模块,用于基于所述第二确定模块确定的光线和所述第一确定模块确定的顶点,确定各点的深度值;
第四确定模块,用于根据所述第二确定模块确定的光线确定各点的光强度;
生成模块,用于根据所述第四确定模块确定的光强度和所述第三确定模块确定的各点的深度值,生成风格化的三维物体。
9.一种电子设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311248760.XA CN117315148A (zh) | 2023-09-26 | 2023-09-26 | 三维物体风格化方法、装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311248760.XA CN117315148A (zh) | 2023-09-26 | 2023-09-26 | 三维物体风格化方法、装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117315148A true CN117315148A (zh) | 2023-12-29 |
Family
ID=89259671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311248760.XA Pending CN117315148A (zh) | 2023-09-26 | 2023-09-26 | 三维物体风格化方法、装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315148A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140268324A1 (en) * | 2013-03-18 | 2014-09-18 | 3-D Virtual Lens Technologies, Llc | Method of displaying 3d images from 2d source images using a barrier grid |
CN111986076A (zh) * | 2020-08-21 | 2020-11-24 | 深圳市慧鲤科技有限公司 | 图像处理方法及装置、互动式展示装置和电子设备 |
US20210327119A1 (en) * | 2020-04-17 | 2021-10-21 | Occipital, Inc. | System for Generating a Three-Dimensional Scene Reconstructions |
WO2023040609A1 (zh) * | 2021-09-14 | 2023-03-23 | 北京字跳网络技术有限公司 | 三维模型风格化方法、装置、电子设备及存储介质 |
WO2023138477A1 (zh) * | 2022-01-24 | 2023-07-27 | 阿里巴巴(中国)有限公司 | 三维模型重建与图像生成方法、设备以及存储介质 |
CN116704090A (zh) * | 2023-06-07 | 2023-09-05 | 厦门大学 | 基于动态文本引导的文本驱动3d风格化方法 |
-
2023
- 2023-09-26 CN CN202311248760.XA patent/CN117315148A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140268324A1 (en) * | 2013-03-18 | 2014-09-18 | 3-D Virtual Lens Technologies, Llc | Method of displaying 3d images from 2d source images using a barrier grid |
US20210327119A1 (en) * | 2020-04-17 | 2021-10-21 | Occipital, Inc. | System for Generating a Three-Dimensional Scene Reconstructions |
CN111986076A (zh) * | 2020-08-21 | 2020-11-24 | 深圳市慧鲤科技有限公司 | 图像处理方法及装置、互动式展示装置和电子设备 |
WO2023040609A1 (zh) * | 2021-09-14 | 2023-03-23 | 北京字跳网络技术有限公司 | 三维模型风格化方法、装置、电子设备及存储介质 |
WO2023138477A1 (zh) * | 2022-01-24 | 2023-07-27 | 阿里巴巴(中国)有限公司 | 三维模型重建与图像生成方法、设备以及存储介质 |
CN116704090A (zh) * | 2023-06-07 | 2023-09-05 | 厦门大学 | 基于动态文本引导的文本驱动3d风格化方法 |
Non-Patent Citations (6)
Title |
---|
BEN POOLE等: "DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION", ARXIV, 29 September 2022 (2022-09-29), pages 1 - 18 * |
LVMIN ZHANG等: "Adding Conditional Control to Text-to-Image Diffusion Models", ARXIV, 10 February 2023 (2023-02-10), pages 1 - 33 * |
OSCAR MICHEL等: "Text2Mesh: Text-Driven Neural Stylization for Meshes", 2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 31 December 2022 (2022-12-31), pages 13482 - 13492 * |
YIWEI MA等: "X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance", ARXIV, 4 August 2023 (2023-08-04), pages 1 - 12 * |
YUANZHI ZHU等: "Conditional Text Image Generation with Diffusion Models", ARXIV, 19 June 2023 (2023-06-19), pages 1 - 11 * |
ZICHENG ZHANG等: "Transforming Radiance Field with Lipschitz Network for Photorealistic 3D Scene Stylization", 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 22 August 2023 (2023-08-22), pages 20712 - 20721 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hodaň et al. | BOP challenge 2020 on 6D object localization | |
CN109255831B (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
WO2021027759A1 (en) | Facial image processing | |
US8660305B2 (en) | Method and apparatus for removing a visual object from a visual data stream | |
US20220301295A1 (en) | Recurrent multi-task convolutional neural network architecture | |
JP2008513882A (ja) | ビデオイメージ処理システム及びビデオイメージ処理方法 | |
Panetta et al. | Tmo-net: A parameter-free tone mapping operator using generative adversarial network, and performance benchmarking on large scale hdr dataset | |
CN115797571A (zh) | 3d风格化场景的新视角合成方法 | |
CN114638767B (zh) | 基于生成对抗网络的腹腔镜影像除烟方法 | |
CN116109757A (zh) | 基于内蕴坐标的哈希编码的动态三维人体渲染合成方法 | |
Shen et al. | Clipgen: A deep generative model for clipart vectorization and synthesis | |
CN116416376A (zh) | 一种三维头发的重建方法、系统、电子设备及存储介质 | |
JP2024507727A (ja) | 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング | |
CN116385827A (zh) | 参数化人脸重建模型训练方法及关键点标签数据生成方法 | |
Bruch et al. | Synthesis of large scale 3D microscopic images of 3D cell cultures for training and benchmarking | |
Goswami et al. | Interactive landscape–scale cloud animation using DCGAN | |
CN117315148A (zh) | 三维物体风格化方法、装置、设备、存储介质 | |
US10706509B2 (en) | Interactive system for automatically synthesizing a content-aware fill | |
CN115482557A (zh) | 人体图像生成方法、系统、设备及存储介质 | |
CN115880526A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
Lou et al. | WS-SfMLearner: Self-supervised Monocular Depth and Ego-motion Estimation on Surgical Videos with Unknown Camera Parameters | |
CN108881899A (zh) | 基于光流场金字塔的图像预测方法和装置及电子设备 | |
Sun et al. | Robust pose transfer with dynamic details using neural video rendering | |
Tsai et al. | A novel method for 2D-to-3D video conversion based on boundary information | |
Macedo et al. | Live user-guided depth map estimation for single images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |