CN116129073A - 基于giraffe的教室场景三维重建方法 - Google Patents

基于giraffe的教室场景三维重建方法 Download PDF

Info

Publication number
CN116129073A
CN116129073A CN202211555501.7A CN202211555501A CN116129073A CN 116129073 A CN116129073 A CN 116129073A CN 202211555501 A CN202211555501 A CN 202211555501A CN 116129073 A CN116129073 A CN 116129073A
Authority
CN
China
Prior art keywords
scene
giraffe
rendering
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211555501.7A
Other languages
English (en)
Inventor
张福泉
傅天麟
邓人宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minjiang University
Original Assignee
Minjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minjiang University filed Critical Minjiang University
Priority to CN202211555501.7A priority Critical patent/CN116129073A/zh
Publication of CN116129073A publication Critical patent/CN116129073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

本发明涉及一种基于GIRAFFE的教室场景三维重建方法,包括以下步骤:步骤S1:基于可控的图像合成模型GIRAFFE,将场景表示为合成生成神经特征场,将单个对象从背景及其形状和外观中分离出来;步骤S2:对由多个单独对象的场景,利用特征字段的附加属性来合成;步骤S3:结合体渲染和神经渲染技术,对场景进行渲染;步骤S4:基于原始图像集中训练可控的图像合成模型,得到最终的三维场景模型。本发明通过特征场组合的方法有效的解决处理多物体重建时无法自由编辑每个单一物体的情况。

Description

基于GIRAFFE的教室场景三维重建方法
技术领域
本发明涉及三维重建技术领域,具体涉及一种基于GIRAFFE的教室场景三维重建方法。
背景技术
三维重建技术已经被广泛运用到游戏、影像娱乐、自动化驾驶、数字表演等众多领域,它的飞速发展加快了现实世界向虚拟现实世界映射的进程,链接了元宇宙数字空间。元宇宙是3D图像重建、VR、人工智能、可穿戴设备、Web3.0等前沿技术成熟之后相互融合的必然结果。随着“元宇宙”关键技术的发展,构建虚拟的、可参与的、实时交互的3D环境的任务也接踵而至。元宇宙作为沉浸式体验、跨空间融合的数字世界新入口,是实现高维度仿真、解决现实社会超复杂问题的全新方法论。三维重建与网络教育的结合将会是现代化教育的发展方向。元宇宙被认为是互联网从2D到3D的转变,在元宇宙中的生活、学习、工作等活动均将在3D场景中进行。在教育领域,元宇宙将为教师、学生、管理者等人员利用实景三维建模技术创建虚拟数字身份,突破空间的局限,营造了一个新的虚拟教育世界,将教学手段升级,更具备体验感。要实现这一转变,需要出色、具有与真实相似的三维重建。
发明内容
有鉴于此,本发明的目的在于提供一种基于GIRAFFE的教室场景三维重建方法,通过特征场组合的方法有效的解决处理多物体重建时无法自由编辑每个单一物体的情况。
为实现上述目的,本发明采用如下技术方案:
一种基于GIRAFFE的教室场景三维重建方法,包括以下步骤:
步骤S1:基于可控的图像合成模型GIRAFFE,将场景表示为合成生成神经特征场,将单个对象从背景及其形状和外观中分离出来;
步骤S2:对由多个单独对象的场景,利用特征字段的附加属性来合成;
步骤S3:结合体渲染和神经渲染技术,对场景进行渲染;
步骤S4:基于原始图像集中训练可控的图像合成模型,得到最终的三维场景模型。
进一步的,所述步骤S1具体为:
设辐射场是一个连续函数F,描述了场景中每个点和每个观看方向的颜色和体素密度:
Figure SMS_1
其中F为5D向量值函数,x=(x,y,z)是场景内坐标,(θ,
Figure SMS_2
)表示方位角和极视角,c=(r,g,b)表示颜色,σ表示体积密度;
将3D点
Figure SMS_4
和观察方向
Figure SMS_8
映射到体素密度
Figure SMS_11
Figure SMS_5
和RGB颜色值
Figure SMS_7
将观察方向
Figure SMS_10
映射到体素密度
Figure SMS_13
和RGB颜色值
Figure SMS_3
其中
Figure SMS_6
是三维空间,
Figure SMS_9
是线性RGB空间,
Figure SMS_12
是球坐标下的视角。将预定义的位置编码逐元素应用于x和d的每个分量:
γ(t,L)=
(sin(20tπ),cos(20tπ),...,sin(2Ltπ),cos(2Ltπ)) (2)
其中γ是
Figure SMS_14
空间的函数,t是标量输入,L是频率的倍频数;
通过多层感知器(MLP)参数化f来学习神经辐射场:
Figure SMS_15
Figure SMS_16
其中θ表示网络参数,Lx、Ld表示位置编码的输出维度;
使用单独的特征场结合仿射变换来表示每个对象:
T={s,t,R} (5)
其中T是平移,缩放和旋转的变化的集合,
Figure SMS_17
表示尺度和平移参数,R∈SO(3)表示旋转矩阵,将点从对象空间转换为场景空间,如下所示:
Figure SMS_18
其中k(x)是变换函数,s1,s2,s3是目标所在的坐标系。
在场景空间中进行体素渲染并在其规范对象空间中评估特征场:
(σ,f)=hθ(γ(k-1(x)),γ(k-1(d)),Zs,Za) (7)。
我们需要将生成的场景坐标系变回目标所在的坐标系,因此需要逆变换k-1,然后将逆变换后的位置和相机视角(就是在目标空间中的位置和观察角度)和噪声输入模型
进一步的,所述步骤S2具体为:
将单个实体的特征字段预测给定点x和观察方向d的密度
Figure SMS_19
Figure SMS_20
和特征向量
Figure SMS_21
当组合非固体物体时,x处的整体密度的自然选择是对各个密度求和,并使用密度加权平均值来组合(x,d)处的所有特征:
Figure SMS_22
进一步的,所述步骤S3具体为:
(1)体素渲染:
对于给定的相机外要素ξ,让
Figure SMS_23
为该像素沿相机射线d的采样点,(σj,fj)=C(xj,d)为相应的密度和场的特征向量,体素渲染算子πvol将这些评估结果映射到像素的最终特征向量
Figure SMS_24
使用数值积分,得到f为
Figure SMS_25
其中τj是透射率,aj是xj的alpha值,而δj=||xj+1-xj||2是相邻样本点之间的距离,通过评估每个像素的πvol来获得整个特征图像
(2)2D神经渲染:
Figure SMS_26
其中
Figure SMS_27
为神经渲染算子,HV×WV×Mf表示分辨率,H,W为输入图片的高和宽。权重θ将特征图像映射到最终合成图像,将
Figure SMS_28
参数化为具有leaky ReLU激活的2D卷积神经网络,并将最近邻上采样与3×3卷积相结合以提高空间分辨率;
选择小的kernel并且没有中间层,只允许空间上的小细化以避免在图像合成过程中纠缠全局场景属性,同时允许增加输出分辨率;
将特征图像映射到每个空间分辨率的RGB图像,并通过双线性上采样将前一个输出添加到下一个输出;对最后一个RGB层应用sigmoid激活来获得最终的图像预测。
进一步的,所述步骤S4具体为:设N是场景中实体的数量,Ns是沿每条射线的采样点数,dk是第k个像素的射线,xjk是第k个像素/射线的第j个采样点,采用用非饱和GAN对象训练模型和R1梯度惩罚
Figure SMS_29
所有对象特征字段
Figure SMS_30
共享它们的权重。
本发明与现有技术相比具有以下有益效果:
本发明通过语义协同联合表征多模态信息,将有利于高效地获取资源,也能更好的在实际教学中利用这些资源。将教学过程中抽象的概念情境化、可视化,为老与学生打造各个教育阶段的,高度融合、高度沉浸、高度交互的解决方案,为教师提供从课程内容制作的实用工具,能够辅助高效率的备课以及教学分析,大大提升了教学质量。
附图说明
图1是本发明方法流程示意图;
图2是本发明一实施例中生成器Gθ示意图;
图3是本发明一实施例中特征图像处理流程示意图;
图4是本发明一实施例中本发明与其他方法椅子三维重建示意图;
图5是本发明一实施例中椅子在642和2562像素值的三维重建,图展示了物体外观和对象旋转。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于GIRAFFE的教室场景三维重建方法,包括以下步骤:
步骤S1:基于可控的图像合成模型GIRAFFE,将场景表示为合成生成神经特征场,将单个对象从背景及其形状和外观中分离出来;
步骤S2:对由多个单独对象的场景,利用特征字段的附加属性来合成;
步骤S3:结合体渲染和神经渲染技术,对场景进行渲染;
步骤S4:基于原始图像集中训练可控的图像合成模型,得到最终的三维场景模型。
在本实施例中,所述步骤S1具体为:
设辐射场是一个连续函数F,描述了场景中每个点和每个观看方向的颜色和体素密度:
Figure SMS_31
其中x=(x,y,z)是场景内坐标,
Figure SMS_32
表示方位角和极视角,c=(r,g,b)表示颜色,σ表示体积密度;
将3D点
Figure SMS_35
和观察方向
Figure SMS_36
映射到体素密度
Figure SMS_39
Figure SMS_34
和RGB颜色值
Figure SMS_38
将观察方向
Figure SMS_40
映射到体素密度
Figure SMS_42
和RGB颜色值
Figure SMS_33
其中
Figure SMS_37
是三维空间,
Figure SMS_41
是线性RGB空间,
Figure SMS_43
是球坐标下的视角。将预定义的位置编码逐元素应用于x和d的每个分量:
γ(t,L)=
(sin(20tπ),cos(20tπ),...,sin(2Ltπ),cos(2Ltπ)) (2)
其中γ是
Figure SMS_44
空间的函数,t是标量输入,L是频率的倍频数;
通过多层感知器(MLP)参数化f来学习神经辐射场:
Figure SMS_45
Figure SMS_46
其中θ表示网络参数,Lx、Ld表示位置编码的输出维度;
将θ拟合到单个场景的多个姿势图像,Schwarz等人[提出了一种神经辐射场(GRAF)的生成模型,该模型通过未摆姿势的图像进行训练来学习合成新场景。为了学习NeRF的潜在空间,他们根据形状和外观代码zs,za N(0,I)来调节MLP:
Figure SMS_47
Figure SMS_48
对象表示:虽然GRAF已经在3D的图像生成方面实现了高分辨率的可控图像生成,但GRAF仅限于单物体的场景,而且在更复杂的真实世界图像生成方面的表现不尽人意。GIRAFFE[提出将场景表示为合成的neural feature fields,它可以控制相机的姿势,物体在场景中摆放的位置与角度,以及物体的形状与外观。与此同时,还可以在场景中自由地增加多个物体,将生成的场景从single-object扩展到multi-object,即使训练数据中没有这样的素材。基于此,使用单独的特征场结合仿射变换来表示每个对象。使用单独的特征场结合仿射,变换来表示每个对象:
T={s,t,R} (5)
其中T是平移,缩放和旋转的变化的集合,
Figure SMS_49
表示尺度和平移参数,R∈SO(3)表示旋转矩阵,将点从对象空间转换为场景空间,如下所示:
Figure SMS_50
其中k(x)是变换函数,s1,s2,s3是目标所在的坐标系。
在场景空间中进行体素渲染并在其规范对象空间中评估特征场:
(σ,f)=hθ(γ(k-1(x)),γ(k-1(d)),Zs,Za) (7)。
我们需要将生成的场景坐标系变回目标所在的坐标系,因此需要逆变换k-1,然后将逆变换后的位置和相机视角(就是在目标空间中的位置和观察角度)和噪声输入模型
在本实施例中,步骤S2具体为:
将单个实体的特征字段预测给定点x和观察方向d的密度
Figure SMS_51
Figure SMS_52
和特征向量
Figure SMS_53
当组合非固体物体时,x处的整体密度的自然选择是对各个密度求和,并使用密度加权平均值来组合(x,d)处的所有特征:
Figure SMS_54
在本实施例中,步骤S3具体为:
(1)体素渲染:已有的工作对RGB颜色值进行体素渲染,而GIRAFFE方法将这一表述扩展到渲染一个Mf-dimensional特征向量f
对于给定的相机外要素ξ,让
Figure SMS_55
为该像素沿相机射线d的采样点,(σj,fj)=C(xj,d)为相应的密度和场的特征向量,体素渲染算子πvol将这些评估结果映射到像素的最终特征向量
Figure SMS_56
使用数值积分,得到f为
Figure SMS_57
其中τj是透射率,aj是xj的alpha值,而δj=||xj+1-xj||2是相邻样本点之间的距离,通过评估每个像素的πvol来获得整个特征图像
(2)2D神经渲染:
Figure SMS_58
其中
Figure SMS_59
为神经渲染算子,HV×WV×Mf表示分辨率,H,W为输入图片的高和宽。权重θ将特征图像映射到最终合成图像,将
Figure SMS_60
参数化为具有leaky ReLU激活的2D卷积神经网络,并将最近邻上采样与3×3卷积相结合以提高空间分辨率;
选择小的kernel并且没有中间层,只允许空间上的小细化以避免在图像合成过程中纠缠全局场景属性,同时允许增加输出分辨率;
将特征图像映射到每个空间分辨率的RGB图像,并通过双线性上采样将前一个输出添加到下一个输出;对最后一个RGB层应用sigmoid激活来获得最终的图像预测。
在本实施例中,步骤S4具体为:
设N是场景中实体的数量,Ns是沿每条射线的采样点数,dk是第k个像素的射线,xjk是第k个像素/射线的第j个采样点,采用用非饱和GAN对象训练模型和R1梯度惩罚
Figure SMS_61
参考图3,生成器Gθ相机姿势和N个形状和外观代码
Figure SMS_62
以及仿生变换Ti做为输入,并合成一个由N-1个物体和背景组成的生成场景图像。鉴别器Dθ将生成的图像
Figure SMS_63
和真实的图像I作为输入,用对抗性损失来训练完整的模型。
参考图4,特征图像IV通过n个块的近邻上采样和3×3卷积与leaky ReLU激活进行处理。在每个分辨率下,我们用3×3卷积将特征图像映射为RGB图像,并通过双线性上采样将其添加到之前的输出。Michael Niemeyer等人应用了一个sigmoid激活来获得最终的图像
Figure SMS_64
其中f(t)=-log(1+exp(-t)),λ=10,pD表示数据分布。
在本实施例中,所有对象特征字段
Figure SMS_65
共享它们的权重,将它们参数化为具有ReLU激活的MLP。GIRAFFE模型使用8层,隐藏维度为128,密度和特征头分别为1和Mf=128。对于背景特征场
Figure SMS_66
使用一半的层和隐藏维度。我们使用Lx=2·3·10和Ld=2·3·4进行位置编码。并沿每条射线采样Ms=64个点。生成器的权重使用衰减为0.999的指数移动平均线。使用RMSprop优化器,批量大小为32,判别器和生成器的学习率分别为1×10-4和5×10-4。对于2562像素的实验,将Mf=256和生成器学习率的一半设置为2.5×10-4
实施例1:
在本实施例中,为了重建构成教室场景的课桌和教师形象要素,我们使用了常用单对象数据集Chairs,CelebA和CelebA-HQ,他们分别是由Photoshaper椅子的合成效果图和人脸的图像集,使用的数据集的对象通常是在中心。
参考图4-5,我们的方法GIRAFFE与先进的基于体素的3D感知图像合成模型PlatonicGAN[8]、HoloGAN[以及基于辐射场的GRAF进行比较;
我们使用Frechet Inception Distance(FID))来量化图像的保真度。我们将使用的模型与几个基线进行比较,看它们是否能产生高保真和高分辨率的输出;
我们使用的的模型与基线进行比较,所有方法都能够解开对象身份和相机视点。然而,通过对比图5和表中的FID分数,PlatonicGAN和HoloGAN都会导致可见的伪影。在训练过程中,PlatonicGAN使用3D卷积等方式直接对体素进行处理,会消耗大量的计算资源,限制体素的分辨率。GIRAFFE模型在很大程度上学会了生成不相干的场景表示。特别是,在无监督的情况下实现物体与背景的分离。为了实现这一目标,本模型利用了组合运算符是一个简单的加法运算的事实,并渲染单个组件和物体的alpha。由此可见,无监督的拆分是我们使用模型的一个属性,当在具有固定或不同数量物体的多物体场景中进行训练时,我们的模型能够正确地分离出单个物体。
我们展示了生成物体的外观和对象旋转。通过们能够进一步改变对象的外观而不改变它们的形状。由于学习的组合场景表示允许我们在训练分布之外进行泛化,我们使用的模型能够实现训练数据之外的泛化。
表1定量比较:我们报告了基线和我们的方法在642像素处的FID得分。基线和我们的方法。
Figure SMS_67
我们使用了642像素分辨率的Chairs数据集和CelebA人脸数据集,为了生成更好的教师形象,我们使用了2562像素分辨率的CelebA-HQ人脸数据集。与基线方法相比,我们的方法在642和2562像素分辨率下都获得了相近或更好的FID分数。对比生成的椅子图像(图5),我们发现,虽然所有的模型都能够大致完成重建任务,但是基于体素的PGAN方法生成的模型由于缺乏物体的表面信息出现了可见的伪影,并且在表示薄结构时表现较差。在生成人脸时,人脸的眼睛始终看着正前方。进行旋转时,生成的图像中的眼睛和头发不会保持固定,而是会进行调整。这是因为限制数据集偏差导致的,如果数据中存在固有偏差,我们的方法将难以解开变异因素。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (5)

1.一种基于GIRAFFE的教室场景三维重建方法,其特征在于,包括以下步骤:
步骤S1:基于可控的图像合成模型GIRAFFE,将场景表示为合成生成神经特征场,将单个对象从背景及其形状和外观中分离出来;
步骤S2:对由多个单独对象的场景,利用特征字段的附加属性来合成;
步骤S3:结合体渲染和神经渲染技术,对场景进行渲染;
步骤S4:基于原始图像集中训练可控的图像合成模型,得到最终的三维场景模型。
2.根据权利要求1所述基于GIRAFFE的教室场景三维重建方法,其特征在于,所述步骤S1具体为:
设辐射场是一个连续函数F,描述了场景中每个点和每个观看方向的颜色和体素密度:
Figure FDA0003983139130000011
其中F为5D向量值函数,x=(x,y,z)是场景内坐标,
Figure FDA0003983139130000012
Figure FDA0003983139130000013
表示方位角和极视角,c=(r,g,b)表示颜色,σ表示体积密度;
将3D点
Figure FDA0003983139130000014
和观察方向
Figure FDA0003983139130000015
映射到体素密度
Figure FDA0003983139130000016
Figure FDA0003983139130000017
和RGB颜色值
Figure FDA0003983139130000018
将观察方向
Figure FDA0003983139130000019
映射到体素密度
Figure FDA00039831391300000110
和RGB颜色值
Figure FDA00039831391300000111
其中
Figure FDA00039831391300000112
是三维空间,
Figure FDA00039831391300000113
是线性RGB空间,
Figure FDA0003983139130000021
是球坐标下的视角。将预定义的位置编码逐元素应用于x和d的每个分量:
γ(t,L)=
(sin(20tπ),cos(20tπ),...,sin(2Ltπ),cos(2Ltπ)) (2)
其中γ是
Figure FDA0003983139130000026
空间的函数,t是标量输入,L是频率的倍频数;
通过多层感知器(MLP)参数化f来学习神经辐射场:
Figure FDA0003983139130000022
Figure FDA0003983139130000023
其中θ表示网络参数,Lx、Ld表示位置编码的输出维度;
使用单独的特征场结合仿射变换来表示每个对象:
T={s,t,R} (5)
其中T是平移,缩放和旋转的变化的集合,
Figure FDA0003983139130000024
表示尺度和平移参数,R∈SO(3)表示旋转矩阵,将点从对象空间转换为场景空间,如下所示:
Figure FDA0003983139130000025
其中k(x)是变换函数,s1,s2,s3是目标所在的坐标系;
在场景空间中进行体素渲染并在其规范对象空间中评估特征场:
(σ,f)=hθ(γ(k-1(x)),γ(k-1(d)),Zs,Za) (7)。
将生成的场景坐标系变回目标所在的坐标系,因此需要逆变换k-1,然后将逆变换后的位置和相机视角和噪声输入模型。
3.根据权利要求1所述基于GIRAFFE的教室场景三维重建方法,其特征在于,所述步骤S2具体为:
将单个实体的特征字段预测给定点x和观察方向d的密度
Figure FDA0003983139130000031
Figure FDA0003983139130000032
和特征向量
Figure FDA0003983139130000033
当组合非固体物体时,x处的整体密度的自然选择是对各个密度求和,并使用密度加权平均值来组合(x,d)处的所有特征:
Figure FDA0003983139130000034
4.根据权利要求1所述基于GIRAFFE的教室场景三维重建方法,其特征在于,所述步骤S3具体为:
(1)体素渲染:
对于给定的相机外要素ξ,让
Figure FDA0003983139130000035
为该像素沿相机射线d的采样点,(σj,fj)=C(xj,d)为相应的密度和场的特征向量,体素渲染算子πvol将这些评估结果映射到像素的最终特征向量
Figure FDA0003983139130000036
使用数值积分,得到f为
Figure FDA0003983139130000037
其中τj是透射率,aj是xj的alpha值,而δj=||xj+1-xj||2是相邻样本点之间的距离,通过评估每个像素的πvol来获得整个特征图像
(2)2D神经渲染:
Figure FDA0003983139130000041
其中
Figure FDA0003983139130000042
为神经渲染算子,HV×WV×Mf表示分辨率,H,W为输入图片的高和宽;权重θ将特征图像映射到最终合成图像,将
Figure FDA0003983139130000043
参数化为具有leaky ReLU激活的2D卷积神经网络,并将最近邻上采样与3×3卷积相结合以提高空间分辨率;
选择小的kernel并且没有中间层,只允许空间上的小细化以避免在图像合成过程中纠缠全局场景属性,同时允许增加输出分辨率;
将特征图像映射到每个空间分辨率的RGB图像,并通过双线性上采样将前一个输出添加到下一个输出;对最后一个RGB层应用sigmoid激活来获得最终的图像预测。
5.根据权利要求1所述基于GIRAFFE的教室场景三维重建方法,其特征在于,所述步骤S4具体为:设N是场景中实体的数量,Ns是沿每条射线的采样点数,dk是第k个像素的射线,xjk是第k个像素/射线的第j个采样点,采用用非饱和GAN对象训练模型和R1梯度惩罚
Figure FDA0003983139130000044
所有对象特征字段
Figure FDA0003983139130000045
共享它们的权重。
CN202211555501.7A 2022-12-06 2022-12-06 基于giraffe的教室场景三维重建方法 Pending CN116129073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211555501.7A CN116129073A (zh) 2022-12-06 2022-12-06 基于giraffe的教室场景三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211555501.7A CN116129073A (zh) 2022-12-06 2022-12-06 基于giraffe的教室场景三维重建方法

Publications (1)

Publication Number Publication Date
CN116129073A true CN116129073A (zh) 2023-05-16

Family

ID=86294699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211555501.7A Pending CN116129073A (zh) 2022-12-06 2022-12-06 基于giraffe的教室场景三维重建方法

Country Status (1)

Country Link
CN (1) CN116129073A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958492A (zh) * 2023-07-12 2023-10-27 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑应用
CN117036581A (zh) * 2023-10-09 2023-11-10 易方信息科技股份有限公司 基于二维神经渲染的体渲染方法、系统、设备及介质
CN117853695A (zh) * 2024-03-07 2024-04-09 成都信息工程大学 基于局部空间自注意力的3d感知图像合成方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958492A (zh) * 2023-07-12 2023-10-27 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑应用
CN116958492B (zh) * 2023-07-12 2024-05-03 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑方法
CN117036581A (zh) * 2023-10-09 2023-11-10 易方信息科技股份有限公司 基于二维神经渲染的体渲染方法、系统、设备及介质
CN117036581B (zh) * 2023-10-09 2024-02-13 易方信息科技股份有限公司 基于二维神经渲染的体渲染方法、系统、设备及介质
CN117853695A (zh) * 2024-03-07 2024-04-09 成都信息工程大学 基于局部空间自注意力的3d感知图像合成方法和装置
CN117853695B (zh) * 2024-03-07 2024-05-03 成都信息工程大学 基于局部空间自注意力的3d感知图像合成方法和装置

Similar Documents

Publication Publication Date Title
Dong et al. Semantic image synthesis via adversarial learning
Singer et al. Text-to-4d dynamic scene generation
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN112887698B (zh) 基于神经辐射场的高质量人脸语音驱动方法
CN116129073A (zh) 基于giraffe的教室场景三维重建方法
CN111915693A (zh) 基于草图的人脸图像生成方法及系统
US20240095999A1 (en) Neural radiance field rig for human 3d shape and appearance modelling
CN117496072B (zh) 一种三维数字人生成和交互方法及系统
CN113344777A (zh) 基于三维人脸分解的换脸与重演方法及装置
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
Li et al. 3D-VRVT: 3D voxel reconstruction from a single image with vision transformer
Shi et al. Improving 3d-aware image synthesis with a geometry-aware discriminator
Wu et al. Self-driven dual-path learning for reference-based line art colorization under limited data
Jiang et al. Tcgan: Semantic-aware and structure-preserved gans with individual vision transformer for fast arbitrary one-shot image generation
Park et al. Bridging Implicit and Explicit Geometric Transformation for Single-Image View Synthesis
CN115482368A (zh) 一种利用语义图进行三维场景编辑的方法
Janda et al. Contrastive learning for self-supervised pre-training of point cloud segmentation networks with image data
Miao et al. Research on 3d reconstruction of furniture based on differentiable renderer
Mir et al. DiT-Head: High-Resolution Talking Head Synthesis using Diffusion Transformers
Cao et al. DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation
Chang et al. View synthesis by shared conditional adversarial autoencoder
Wang An Exploration into 3D Generative Models with Nerfstudio
Fu et al. Multi-scene representation learning with neural radiance fields
Wang et al. Animation Design Based on Anatomically Constrained Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination