CN116129073A - 基于giraffe的教室场景三维重建方法 - Google Patents
基于giraffe的教室场景三维重建方法 Download PDFInfo
- Publication number
- CN116129073A CN116129073A CN202211555501.7A CN202211555501A CN116129073A CN 116129073 A CN116129073 A CN 116129073A CN 202211555501 A CN202211555501 A CN 202211555501A CN 116129073 A CN116129073 A CN 116129073A
- Authority
- CN
- China
- Prior art keywords
- scene
- giraffe
- rendering
- image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 241000282816 Giraffa camelopardalis Species 0.000 title 1
- 238000009877 rendering Methods 0.000 claims abstract description 25
- 241000282819 Giraffa Species 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 12
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 12
- 210000005036 nerve Anatomy 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 230000001537 neural effect Effects 0.000 claims description 8
- 230000005855 radiation Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000007787 solid Substances 0.000 claims description 3
- 238000002834 transmittance Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/10—Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- Geometry (AREA)
- Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
本发明涉及一种基于GIRAFFE的教室场景三维重建方法,包括以下步骤:步骤S1:基于可控的图像合成模型GIRAFFE,将场景表示为合成生成神经特征场,将单个对象从背景及其形状和外观中分离出来;步骤S2:对由多个单独对象的场景,利用特征字段的附加属性来合成;步骤S3:结合体渲染和神经渲染技术,对场景进行渲染;步骤S4:基于原始图像集中训练可控的图像合成模型,得到最终的三维场景模型。本发明通过特征场组合的方法有效的解决处理多物体重建时无法自由编辑每个单一物体的情况。
Description
技术领域
本发明涉及三维重建技术领域,具体涉及一种基于GIRAFFE的教室场景三维重建方法。
背景技术
三维重建技术已经被广泛运用到游戏、影像娱乐、自动化驾驶、数字表演等众多领域,它的飞速发展加快了现实世界向虚拟现实世界映射的进程,链接了元宇宙数字空间。元宇宙是3D图像重建、VR、人工智能、可穿戴设备、Web3.0等前沿技术成熟之后相互融合的必然结果。随着“元宇宙”关键技术的发展,构建虚拟的、可参与的、实时交互的3D环境的任务也接踵而至。元宇宙作为沉浸式体验、跨空间融合的数字世界新入口,是实现高维度仿真、解决现实社会超复杂问题的全新方法论。三维重建与网络教育的结合将会是现代化教育的发展方向。元宇宙被认为是互联网从2D到3D的转变,在元宇宙中的生活、学习、工作等活动均将在3D场景中进行。在教育领域,元宇宙将为教师、学生、管理者等人员利用实景三维建模技术创建虚拟数字身份,突破空间的局限,营造了一个新的虚拟教育世界,将教学手段升级,更具备体验感。要实现这一转变,需要出色、具有与真实相似的三维重建。
发明内容
有鉴于此,本发明的目的在于提供一种基于GIRAFFE的教室场景三维重建方法,通过特征场组合的方法有效的解决处理多物体重建时无法自由编辑每个单一物体的情况。
为实现上述目的,本发明采用如下技术方案:
一种基于GIRAFFE的教室场景三维重建方法,包括以下步骤:
步骤S1:基于可控的图像合成模型GIRAFFE,将场景表示为合成生成神经特征场,将单个对象从背景及其形状和外观中分离出来;
步骤S2:对由多个单独对象的场景,利用特征字段的附加属性来合成;
步骤S3:结合体渲染和神经渲染技术,对场景进行渲染;
步骤S4:基于原始图像集中训练可控的图像合成模型,得到最终的三维场景模型。
进一步的,所述步骤S1具体为:
设辐射场是一个连续函数F,描述了场景中每个点和每个观看方向的颜色和体素密度:
γ(t,L)=
(sin(20tπ),cos(20tπ),...,sin(2Ltπ),cos(2Ltπ)) (2)
通过多层感知器(MLP)参数化f来学习神经辐射场:
其中θ表示网络参数,Lx、Ld表示位置编码的输出维度;
使用单独的特征场结合仿射变换来表示每个对象:
T={s,t,R} (5)
其中k(x)是变换函数,s1,s2,s3是目标所在的坐标系。
在场景空间中进行体素渲染并在其规范对象空间中评估特征场:
(σ,f)=hθ(γ(k-1(x)),γ(k-1(d)),Zs,Za) (7)。
我们需要将生成的场景坐标系变回目标所在的坐标系,因此需要逆变换k-1,然后将逆变换后的位置和相机视角(就是在目标空间中的位置和观察角度)和噪声输入模型
进一步的,所述步骤S2具体为:
进一步的,所述步骤S3具体为:
(1)体素渲染:
使用数值积分,得到f为
其中τj是透射率,aj是xj的alpha值,而δj=||xj+1-xj||2是相邻样本点之间的距离,通过评估每个像素的πvol来获得整个特征图像
(2)2D神经渲染:
其中为神经渲染算子,HV×WV×Mf表示分辨率,H,W为输入图片的高和宽。权重θ将特征图像映射到最终合成图像,将参数化为具有leaky ReLU激活的2D卷积神经网络,并将最近邻上采样与3×3卷积相结合以提高空间分辨率;
选择小的kernel并且没有中间层,只允许空间上的小细化以避免在图像合成过程中纠缠全局场景属性,同时允许增加输出分辨率;
将特征图像映射到每个空间分辨率的RGB图像,并通过双线性上采样将前一个输出添加到下一个输出;对最后一个RGB层应用sigmoid激活来获得最终的图像预测。
进一步的,所述步骤S4具体为:设N是场景中实体的数量,Ns是沿每条射线的采样点数,dk是第k个像素的射线,xjk是第k个像素/射线的第j个采样点,采用用非饱和GAN对象训练模型和R1梯度惩罚
本发明与现有技术相比具有以下有益效果:
本发明通过语义协同联合表征多模态信息,将有利于高效地获取资源,也能更好的在实际教学中利用这些资源。将教学过程中抽象的概念情境化、可视化,为老与学生打造各个教育阶段的,高度融合、高度沉浸、高度交互的解决方案,为教师提供从课程内容制作的实用工具,能够辅助高效率的备课以及教学分析,大大提升了教学质量。
附图说明
图1是本发明方法流程示意图;
图2是本发明一实施例中生成器Gθ示意图;
图3是本发明一实施例中特征图像处理流程示意图;
图4是本发明一实施例中本发明与其他方法椅子三维重建示意图;
图5是本发明一实施例中椅子在642和2562像素值的三维重建,图展示了物体外观和对象旋转。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于GIRAFFE的教室场景三维重建方法,包括以下步骤:
步骤S1:基于可控的图像合成模型GIRAFFE,将场景表示为合成生成神经特征场,将单个对象从背景及其形状和外观中分离出来;
步骤S2:对由多个单独对象的场景,利用特征字段的附加属性来合成;
步骤S3:结合体渲染和神经渲染技术,对场景进行渲染;
步骤S4:基于原始图像集中训练可控的图像合成模型,得到最终的三维场景模型。
在本实施例中,所述步骤S1具体为:
设辐射场是一个连续函数F,描述了场景中每个点和每个观看方向的颜色和体素密度:
γ(t,L)=
(sin(20tπ),cos(20tπ),...,sin(2Ltπ),cos(2Ltπ)) (2)
通过多层感知器(MLP)参数化f来学习神经辐射场:
其中θ表示网络参数,Lx、Ld表示位置编码的输出维度;
将θ拟合到单个场景的多个姿势图像,Schwarz等人[提出了一种神经辐射场(GRAF)的生成模型,该模型通过未摆姿势的图像进行训练来学习合成新场景。为了学习NeRF的潜在空间,他们根据形状和外观代码zs,za N(0,I)来调节MLP:
对象表示:虽然GRAF已经在3D的图像生成方面实现了高分辨率的可控图像生成,但GRAF仅限于单物体的场景,而且在更复杂的真实世界图像生成方面的表现不尽人意。GIRAFFE[提出将场景表示为合成的neural feature fields,它可以控制相机的姿势,物体在场景中摆放的位置与角度,以及物体的形状与外观。与此同时,还可以在场景中自由地增加多个物体,将生成的场景从single-object扩展到multi-object,即使训练数据中没有这样的素材。基于此,使用单独的特征场结合仿射变换来表示每个对象。使用单独的特征场结合仿射,变换来表示每个对象:
T={s,t,R} (5)
其中k(x)是变换函数,s1,s2,s3是目标所在的坐标系。
在场景空间中进行体素渲染并在其规范对象空间中评估特征场:
(σ,f)=hθ(γ(k-1(x)),γ(k-1(d)),Zs,Za) (7)。
我们需要将生成的场景坐标系变回目标所在的坐标系,因此需要逆变换k-1,然后将逆变换后的位置和相机视角(就是在目标空间中的位置和观察角度)和噪声输入模型
在本实施例中,步骤S2具体为:
在本实施例中,步骤S3具体为:
(1)体素渲染:已有的工作对RGB颜色值进行体素渲染,而GIRAFFE方法将这一表述扩展到渲染一个Mf-dimensional特征向量f
使用数值积分,得到f为
其中τj是透射率,aj是xj的alpha值,而δj=||xj+1-xj||2是相邻样本点之间的距离,通过评估每个像素的πvol来获得整个特征图像
(2)2D神经渲染:
其中为神经渲染算子,HV×WV×Mf表示分辨率,H,W为输入图片的高和宽。权重θ将特征图像映射到最终合成图像,将参数化为具有leaky ReLU激活的2D卷积神经网络,并将最近邻上采样与3×3卷积相结合以提高空间分辨率;
选择小的kernel并且没有中间层,只允许空间上的小细化以避免在图像合成过程中纠缠全局场景属性,同时允许增加输出分辨率;
将特征图像映射到每个空间分辨率的RGB图像,并通过双线性上采样将前一个输出添加到下一个输出;对最后一个RGB层应用sigmoid激活来获得最终的图像预测。
在本实施例中,步骤S4具体为:
设N是场景中实体的数量,Ns是沿每条射线的采样点数,dk是第k个像素的射线,xjk是第k个像素/射线的第j个采样点,采用用非饱和GAN对象训练模型和R1梯度惩罚
参考图3,生成器Gθ相机姿势和N个形状和外观代码以及仿生变换Ti做为输入,并合成一个由N-1个物体和背景组成的生成场景图像。鉴别器Dθ将生成的图像和真实的图像I作为输入,用对抗性损失来训练完整的模型。
参考图4,特征图像IV通过n个块的近邻上采样和3×3卷积与leaky ReLU激活进行处理。在每个分辨率下,我们用3×3卷积将特征图像映射为RGB图像,并通过双线性上采样将其添加到之前的输出。Michael Niemeyer等人应用了一个sigmoid激活来获得最终的图像其中f(t)=-log(1+exp(-t)),λ=10,pD表示数据分布。
在本实施例中,所有对象特征字段共享它们的权重,将它们参数化为具有ReLU激活的MLP。GIRAFFE模型使用8层,隐藏维度为128,密度和特征头分别为1和Mf=128。对于背景特征场使用一半的层和隐藏维度。我们使用Lx=2·3·10和Ld=2·3·4进行位置编码。并沿每条射线采样Ms=64个点。生成器的权重使用衰减为0.999的指数移动平均线。使用RMSprop优化器,批量大小为32,判别器和生成器的学习率分别为1×10-4和5×10-4。对于2562像素的实验,将Mf=256和生成器学习率的一半设置为2.5×10-4。
实施例1:
在本实施例中,为了重建构成教室场景的课桌和教师形象要素,我们使用了常用单对象数据集Chairs,CelebA和CelebA-HQ,他们分别是由Photoshaper椅子的合成效果图和人脸的图像集,使用的数据集的对象通常是在中心。
参考图4-5,我们的方法GIRAFFE与先进的基于体素的3D感知图像合成模型PlatonicGAN[8]、HoloGAN[以及基于辐射场的GRAF进行比较;
我们使用Frechet Inception Distance(FID))来量化图像的保真度。我们将使用的模型与几个基线进行比较,看它们是否能产生高保真和高分辨率的输出;
我们使用的的模型与基线进行比较,所有方法都能够解开对象身份和相机视点。然而,通过对比图5和表中的FID分数,PlatonicGAN和HoloGAN都会导致可见的伪影。在训练过程中,PlatonicGAN使用3D卷积等方式直接对体素进行处理,会消耗大量的计算资源,限制体素的分辨率。GIRAFFE模型在很大程度上学会了生成不相干的场景表示。特别是,在无监督的情况下实现物体与背景的分离。为了实现这一目标,本模型利用了组合运算符是一个简单的加法运算的事实,并渲染单个组件和物体的alpha。由此可见,无监督的拆分是我们使用模型的一个属性,当在具有固定或不同数量物体的多物体场景中进行训练时,我们的模型能够正确地分离出单个物体。
我们展示了生成物体的外观和对象旋转。通过们能够进一步改变对象的外观而不改变它们的形状。由于学习的组合场景表示允许我们在训练分布之外进行泛化,我们使用的模型能够实现训练数据之外的泛化。
表1定量比较:我们报告了基线和我们的方法在642像素处的FID得分。基线和我们的方法。
我们使用了642像素分辨率的Chairs数据集和CelebA人脸数据集,为了生成更好的教师形象,我们使用了2562像素分辨率的CelebA-HQ人脸数据集。与基线方法相比,我们的方法在642和2562像素分辨率下都获得了相近或更好的FID分数。对比生成的椅子图像(图5),我们发现,虽然所有的模型都能够大致完成重建任务,但是基于体素的PGAN方法生成的模型由于缺乏物体的表面信息出现了可见的伪影,并且在表示薄结构时表现较差。在生成人脸时,人脸的眼睛始终看着正前方。进行旋转时,生成的图像中的眼睛和头发不会保持固定,而是会进行调整。这是因为限制数据集偏差导致的,如果数据中存在固有偏差,我们的方法将难以解开变异因素。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.一种基于GIRAFFE的教室场景三维重建方法,其特征在于,包括以下步骤:
步骤S1:基于可控的图像合成模型GIRAFFE,将场景表示为合成生成神经特征场,将单个对象从背景及其形状和外观中分离出来;
步骤S2:对由多个单独对象的场景,利用特征字段的附加属性来合成;
步骤S3:结合体渲染和神经渲染技术,对场景进行渲染;
步骤S4:基于原始图像集中训练可控的图像合成模型,得到最终的三维场景模型。
2.根据权利要求1所述基于GIRAFFE的教室场景三维重建方法,其特征在于,所述步骤S1具体为:
设辐射场是一个连续函数F,描述了场景中每个点和每个观看方向的颜色和体素密度:
γ(t,L)=
(sin(20tπ),cos(20tπ),...,sin(2Ltπ),cos(2Ltπ)) (2)
通过多层感知器(MLP)参数化f来学习神经辐射场:
其中θ表示网络参数,Lx、Ld表示位置编码的输出维度;
使用单独的特征场结合仿射变换来表示每个对象:
T={s,t,R} (5)
其中k(x)是变换函数,s1,s2,s3是目标所在的坐标系;
在场景空间中进行体素渲染并在其规范对象空间中评估特征场:
(σ,f)=hθ(γ(k-1(x)),γ(k-1(d)),Zs,Za) (7)。
将生成的场景坐标系变回目标所在的坐标系,因此需要逆变换k-1,然后将逆变换后的位置和相机视角和噪声输入模型。
4.根据权利要求1所述基于GIRAFFE的教室场景三维重建方法,其特征在于,所述步骤S3具体为:
(1)体素渲染:
使用数值积分,得到f为
其中τj是透射率,aj是xj的alpha值,而δj=||xj+1-xj||2是相邻样本点之间的距离,通过评估每个像素的πvol来获得整个特征图像
(2)2D神经渲染:
其中为神经渲染算子,HV×WV×Mf表示分辨率,H,W为输入图片的高和宽;权重θ将特征图像映射到最终合成图像,将参数化为具有leaky ReLU激活的2D卷积神经网络,并将最近邻上采样与3×3卷积相结合以提高空间分辨率;
选择小的kernel并且没有中间层,只允许空间上的小细化以避免在图像合成过程中纠缠全局场景属性,同时允许增加输出分辨率;
将特征图像映射到每个空间分辨率的RGB图像,并通过双线性上采样将前一个输出添加到下一个输出;对最后一个RGB层应用sigmoid激活来获得最终的图像预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211555501.7A CN116129073A (zh) | 2022-12-06 | 2022-12-06 | 基于giraffe的教室场景三维重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211555501.7A CN116129073A (zh) | 2022-12-06 | 2022-12-06 | 基于giraffe的教室场景三维重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129073A true CN116129073A (zh) | 2023-05-16 |
Family
ID=86294699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211555501.7A Pending CN116129073A (zh) | 2022-12-06 | 2022-12-06 | 基于giraffe的教室场景三维重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129073A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958492A (zh) * | 2023-07-12 | 2023-10-27 | 数元科技(广州)有限公司 | 一种基于NeRf重建三维底座场景渲染的VR编辑应用 |
CN117036581A (zh) * | 2023-10-09 | 2023-11-10 | 易方信息科技股份有限公司 | 基于二维神经渲染的体渲染方法、系统、设备及介质 |
CN117853695A (zh) * | 2024-03-07 | 2024-04-09 | 成都信息工程大学 | 基于局部空间自注意力的3d感知图像合成方法和装置 |
-
2022
- 2022-12-06 CN CN202211555501.7A patent/CN116129073A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958492A (zh) * | 2023-07-12 | 2023-10-27 | 数元科技(广州)有限公司 | 一种基于NeRf重建三维底座场景渲染的VR编辑应用 |
CN116958492B (zh) * | 2023-07-12 | 2024-05-03 | 数元科技(广州)有限公司 | 一种基于NeRf重建三维底座场景渲染的VR编辑方法 |
CN117036581A (zh) * | 2023-10-09 | 2023-11-10 | 易方信息科技股份有限公司 | 基于二维神经渲染的体渲染方法、系统、设备及介质 |
CN117036581B (zh) * | 2023-10-09 | 2024-02-13 | 易方信息科技股份有限公司 | 基于二维神经渲染的体渲染方法、系统、设备及介质 |
CN117853695A (zh) * | 2024-03-07 | 2024-04-09 | 成都信息工程大学 | 基于局部空间自注意力的3d感知图像合成方法和装置 |
CN117853695B (zh) * | 2024-03-07 | 2024-05-03 | 成都信息工程大学 | 基于局部空间自注意力的3d感知图像合成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Semantic image synthesis via adversarial learning | |
Singer et al. | Text-to-4d dynamic scene generation | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN112887698B (zh) | 基于神经辐射场的高质量人脸语音驱动方法 | |
CN116129073A (zh) | 基于giraffe的教室场景三维重建方法 | |
CN111915693A (zh) | 基于草图的人脸图像生成方法及系统 | |
US20240095999A1 (en) | Neural radiance field rig for human 3d shape and appearance modelling | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
CN113344777A (zh) | 基于三维人脸分解的换脸与重演方法及装置 | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
Li et al. | 3D-VRVT: 3D voxel reconstruction from a single image with vision transformer | |
Shi et al. | Improving 3d-aware image synthesis with a geometry-aware discriminator | |
Wu et al. | Self-driven dual-path learning for reference-based line art colorization under limited data | |
Jiang et al. | Tcgan: Semantic-aware and structure-preserved gans with individual vision transformer for fast arbitrary one-shot image generation | |
Park et al. | Bridging Implicit and Explicit Geometric Transformation for Single-Image View Synthesis | |
CN115482368A (zh) | 一种利用语义图进行三维场景编辑的方法 | |
Janda et al. | Contrastive learning for self-supervised pre-training of point cloud segmentation networks with image data | |
Miao et al. | Research on 3d reconstruction of furniture based on differentiable renderer | |
Mir et al. | DiT-Head: High-Resolution Talking Head Synthesis using Diffusion Transformers | |
Cao et al. | DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation | |
Chang et al. | View synthesis by shared conditional adversarial autoencoder | |
Wang | An Exploration into 3D Generative Models with Nerfstudio | |
Fu et al. | Multi-scene representation learning with neural radiance fields | |
Wang et al. | Animation Design Based on Anatomically Constrained Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |