CN117496025A - 一种基于关系和风格感知的多模态场景生成方法 - Google Patents

一种基于关系和风格感知的多模态场景生成方法 Download PDF

Info

Publication number
CN117496025A
CN117496025A CN202311358550.6A CN202311358550A CN117496025A CN 117496025 A CN117496025 A CN 117496025A CN 202311358550 A CN202311358550 A CN 202311358550A CN 117496025 A CN117496025 A CN 117496025A
Authority
CN
China
Prior art keywords
shape
scene
layout
style
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311358550.6A
Other languages
English (en)
Other versions
CN117496025B (zh
Inventor
雷印杰
冯俊球
李鹏
刘春黔
刘杰
林浩然
周礼亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
CETC 10 Research Institute
Original Assignee
Sichuan University
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, CETC 10 Research Institute filed Critical Sichuan University
Priority to CN202311358550.6A priority Critical patent/CN117496025B/zh
Publication of CN117496025A publication Critical patent/CN117496025A/zh
Application granted granted Critical
Publication of CN117496025B publication Critical patent/CN117496025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于关系和风格感知的多模态场景生成方法,应用于计算机视觉及3D多模态技术领域。使用多模态大模型‑CLIP增强场景图数据的上下文关系信息,同时采用基于图卷积神经网络的双流结构,分别预测场景布局和相应的3D形状。其中在形状支路中,选择隐式扩散模型作为生成模型,解码器解码出关系形状嵌入作为其隐式条件。用户可输入风格文本,例如:中国风,中世纪风,欧洲风格等,然后利用生成的形状先验与神经辐射场,以CLIP作为优化时的指导,最后得到细粒度的3D场景。本发明可以通过场景图及用户输入的风格文本,实现可控的场景生成及风格感知,解决了目前现有的场景生成方法的不足。

Description

一种基于关系和风格感知的多模态场景生成方法
技术领域
本发明涉及计算机视觉及3D多模态技术领域,更具体的说是涉及一种基于关系和风格感知的多模态场景生成方法。
背景技术
3D场景生成主要是指利用计算机技术以及相应的算法生成真实的3D场景,这项技术在电影、视频、游戏产业、增强和虚拟现实技术和机器人等领域有着巨大应用潜力。其中,可控制的场景合成是指以一种允许控制或操纵场景生成的过程,用户可以指定他们想要在生成的场景中出现的3D物体。现有的可控场景生成方法常用的控制机制主要有文本描述、语义映射和场景图。其中,场景图提供了一个强大的工具来抽象场景内容,包括场景上下文和对象关系,同时场景图可以为用户提供一个更适合的操作界面。
目前的场景图主要分为两种:第一种方法只学习生成场景布局,3D物体则是从给定的数据库中检索,例如Graph-to-Box;第二种方法同时学习生成场景布局和3D物体形状,例如:Graph-to-3D。但是这两种方法都有明显的不足及缺陷:第一种基于检索的方法生成的物体形状受到检索的数据库的大小的限制;第二种方法,形状的生成依赖于预先训练好的形状编码,这些编码来自具有类别感知能力的自动解码器。这种半生成设计减少了生成输出的形状多样性,且生成的3D物体形状不具有细粒度的纹理特征。同时目前的各种方法对场景中所包含的对象之间的局部与全局上下文关系考虑甚少,这使得当前的3D场景生成方法的一致性效果较差。因此,如何提供一种基于关系和风格感知的多模态场景生成方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于关系和风格感知的多模态场景生成方法,使用多模态大模型-CLIP增强场景图数据的上下文关系信息,同时采用基于图卷积神经网络的双流结构,分别预测场景布局和相应的3D形状。
为了实现上述目的,本发明提供如下技术方案:
一种基于关系和风格感知的多模态场景生成方法,包括以下步骤:
S1、获取原始场景图,为原始场景图中每个节点和每条边初始化一个可学习的特征向量,使用CLIP的文本编码器将节点的语义标签和边的关系信息进行编码,同时将场景图中每个节点对应的位置3D框的参数特征化,得到特征增强后的场景图;
S2、将特征增强后的场景图分为两个部分,第一部分由可学习的特征向量和编码后的语义标签组成,第二部分由参数化后的每个物体对应的位置3D框参数组成,两部分场景图的边的特征都是编码后的关系信息,第一部分送入形状编码器,第二部分送入布局编码器;
S3、将形状编码器和布局编码器的输出送入一个基于图卷积神经网络的特征交互模块中,学习得到联合的布局-形状后验分布,最后采样得到特征向量zi,将特征向量zi更新为场景图每个节点的新信息;
S4、将更新后的场景图分别送入布局解码器和形状解码器中,其中布局解码器的输出为场景中对应的物体3D框及布局,形状解码器输出的为含有上下文关系信息的形状嵌入;
S5、将形状嵌入作为隐式扩散模型的条件输入,训练过程中使用VQ-VAE编码3D形状得到初始的形状特征,推理过程中随机的高斯噪声通过隐式扩散模型去噪,生成物体形状;
S6、用户首先输入风格提示文本,利用S5中生成的物体形状作为神经辐射场的初始化,然后使用CLIP指导对其进行优化,得到具有细粒度纹理及风格的物体的3D形状,最后将物体的3D形状和场景布局相融合,得到完整的场景。
可选的,S1中使用嵌入层初始化节点的边的特征,两个相邻的节点的特征分别记为oi和oj,连接它们的边的特征记为qi→j,编码后的语义标签为pi,编码后的关系信息文本为pi→j
pi=EclipT(label)
pi→j=EclipT(relation)
3D框的参数通过3层的MLP进行特征化,得到的特征表示为bi,特征增强后的场景图,节点的特征为FNi={oi,qi,bi},边的特征为FEi→j={qi→j,Pi→j}。
可选的,S2中的形状编码器Es和布局编码器El均由图卷积神经网络组成,形状编码器Es输出每个节点的特征为fs,i,布局编码器El输出每个节点的特征为fl,i
fs,i=Eshape(FNi),i∈{1,2...,N}
fl,i=Elayout(FNi),i∈{1,2…,N}
其中,N为节点的数量。
可选的,S3中的特征交互模块EC的输入为形状编码器Es和布局编码器El输出的串联,主体结构为图神经卷积网络,输出为fc
特征交互模块EC后接一层MLP网络,计算联合的布局-形状分布Z,Z为高斯分布下的后验概率(μ,θ),采样得到特征向量zi,保持场景图的边的特征不变,更新场景图相应节点的特征。
可选的,S4中形状解码器Ds和布局解码器Dl的输入均为更新后的场景图(zi,fs,i,fl,i),布局解码器Dl根据场景图及采样得到的特征向量zi,预测出物体相关的3D框,预测过程训练时的损失函数为:
式中,为边界框的大小,/>为边界框的位置,/>为边界框的旋转角度,λ为旋转分类标签,利用局部到全局的语义线索更新每个节点的特征;形状解码器Ds生成含有上下文信息的节点的形状嵌入R。
可选的,S5中使用体素化空间中截断SDF作为3D形状的表示,使用VQ-VAE模型作为3D形状的压缩器,将3D形状编码成一个潜在维度的特征x0,生成模型为隐式扩散模型,训练过程中,一个前向扩散过程将随机噪声添加到输入x0上,经过T步加噪过程得到xt,使用3D-UNet网络εθ进行去噪还原出x0,3D-UNet通过交叉注意将含有上下文信息的形状嵌入添加到3D-UNet的中间特征层中;生成模型损失函数为:
在推理过程中,给定隐式扩散模型一个随机的高斯噪声,形状嵌入R作为条件,即得到相应的3D形状。
可选的,S6中用户输入带有风格信息的文本提示y,利用多模态大模型CLIP的文本编码器ET对y进行特征编码,利用S5中生成的物体形状初始化神经辐射场,将3D形状参数化为θ,同时从多个视点渲染图像,将多视点的图像送入CLIP的图像编码器中进行特征编码,通过最小化CLIP相似度损失,得到具有细粒度纹理及风格的物体形状:
式中,为渲染过程,vi表示第i步优化步骤中的渲染视点,最后将渲染优化后的3D物体形状放入布局图中,得到生成后的场景。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于关系和风格感知的多模态场景生成方法,具有以下有益效果:本发明利用多模态大模型-CLIP处理分析上下文信息的能力,增强了场景图中的各节点之前的关系信息;使用生成模型-隐式扩散模型及神经辐射场,同时引入多模态大模型—CLIP进行优化指导,从而实现了生成物体形状的多样性及真实性;可以通过场景图及用户输入的风格文本,实现可控的场景生成及风格感知,解决了目前现有的场景生成方法的不足。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的多模态场景生成方法流程图;
图2为本发明一个实施例中的多模态场景生成方法流程图;
图3为本发明一个实施例中的多模态场景生成方法原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于关系和风格感知的多模态场景生成方法,如图1所示,包括以下步骤:
S1、获取原始场景图,为原始场景图中每个节点和每条边初始化一个可学习的特征向量,使用CLIP的文本编码器将节点的语义标签和边的关系信息进行编码,同时将场景图中每个节点对应的位置3D框的参数特征化,得到特征增强后的场景图;
S2、将特征增强后的场景图分为两个部分,第一部分由可学习的特征向量和编码后的语义标签组成,第二部分由参数化后的每个物体对应的位置3D框参数组成,两部分场景图的边的特征都是编码后的关系信息,第一部分送入形状编码器,第二部分送入布局编码器;
S3、将形状编码器和布局编码器的输出送入一个基于图卷积神经网络的特征交互模块中,学习得到联合的布局-形状后验分布,最后采样得到特征向量zi,将特征向量zi更新为场景图每个节点的新信息;
S4、将更新后的场景图分别送入布局解码器和形状解码器中,其中布局解码器的输出为场景中对应的物体3D框及布局,形状解码器输出的为含有上下文关系信息的形状嵌入;
S5、将形状嵌入作为隐式扩散模型的条件输入,训练过程中使用VQ-VAE编码3D形状得到初始的形状特征,推理过程中随机的高斯噪声通过隐式扩散模型去噪,生成物体形状;
S6、用户首先输入风格提示文本,利用S5中生成的物体形状作为神经辐射场的初始化,然后使用CLIP指导对其进行优化,得到具有细粒度纹理及风格的物体的3D形状,最后将物体的3D形状和场景布局相融合,得到完整的场景。
原始场景图数据主要由节点和连接节点的边组成,每个节点代表场景中的一个物体形状,节点带有语义标签;每条边代表场景中每个物体之间的关系,每条边带有相应的关系信息。在本发明的一个实施例中,以场景中的床和灯为例,其生成流程如图2所示,生成原理如图3所示,。
进一步的,S1中使用嵌入层初始化节点的边的特征,两个相邻的节点的特征分别记为oi和oj,连接它们的边的特征记为qi→j,编码后的语义标签为pi,编码后的关系信息文本为pi→j
pi=EclipT(label)
pi→j=EclipT(relation)
3D框的参数通过3层的MLP进行特征化,得到的特征表示为bi,特征增强后的场景图,节点的特征为FNi={oi,qi,bi},边的特征为FEi→j={qi→j,pi→j}。
进一步的,S2中的形状编码器Es和布局编码器El均由图卷积神经网络组成,形状编码器Es输出每个节点的特征为fs,i,布局编码器El输出每个节点的特征为fl,i
fs,i=Eshape(FNi),i∈{1,2...,N}
fl,i=Elayout(FNi),i∈{1,2...,N}
其中,N为节点的数量。
在本发明的一个实施例中,形状编码器Es主要用于学习场景中物体之间的一致性,如一张床和灯共存。布局编码器El主要用于学习物体的3D框之间的关系及场景布局中的位置
进一步的,S3中的特征交互模块EC的输入为形状编码器Es和布局编码器El输出的串联,主体结构为图神经卷积网络,输出为fc
特征交互模块EC后接一层MLP网络,计算联合的布局-形状分布Z,Z为高斯分布下的后验概率(μ,θ),采样得到特征向量zi,保持场景图的边的特征不变,更新场景图相应节点的特征。
在本发明的一个实施例中,由于布局和形状预测是相关的任务,因此使用基于图卷积神经网络的特征交互模块鼓励两条支路之间的交互。
进一步的,S4中形状解码器Ds和布局解码器Dl的输入均为更新后的场景图(zi,fs,i,fl,i),布局解码器Dl根据场景图及采样得到的特征向量zi,预测出物体相关的3D框,预测过程训练时的损失函数为:
式中,为边界框的大小,/>为边界框的位置,/>为边界框的旋转角度,λ为旋转分类标签,利用局部到全局的语义线索更新每个节点的特征;形状解码器Ds生成含有上下文信息的节点的形状嵌入R。将旋转角划分为个旋转空间,这样就可以将旋转角回归问题转化为分类问题。
在本发明的一个实施例中,形状解码器Ds和布局解码器Dl与编码器具有相同的主体结构,不同的是两种解码器最后一层为MLP网络。
进一步的,S5中使用体素化空间中截断SDF作为3D形状的表示,使用VQ-VAE模型作为3D形状的压缩器,将3D形状编码成一个潜在维度的特征x0,生成模型为隐式扩散模型,训练过程中,一个前向扩散过程将随机噪声添加到输入x0上,经过T步加噪过程得到xt,使用3D-UNet网络εθ进行去噪还原出x0,3D-UNet通过交叉注意将含有上下文信息的形状嵌入添加到3D-UNet的中间特征层中;生成模型损失函数为:
在推理过程中,给定隐式扩散模型一个随机的高斯噪声,形状嵌入R作为条件,即得到相应的3D形状。
进一步的,S6中用户输入带有风格信息的文本提示y,利用多模态大模型CLIP的文本编码器ET对y进行特征编码,利用S5中生成的物体形状初始化神经辐射场,将3D形状参数化为θ,同时从多个视点渲染图像,将多视点的图像送入CLIP的图像编码器中进行特征编码,通过最小化CLIP相似度损失,得到具有细粒度纹理及风格的物体形状:
式中,为渲染过程,vi表示第i步优化步骤中的渲染视点,最后将渲染优化后的3D物体形状放入布局图中,得到生成后的场景。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种基于关系和风格感知的多模态场景生成方法,其特征在于,包括以下步骤:
S1、获取原始场景图,为原始场景图中每个节点和每条边初始化一个特征向量,使用CLIP的文本编码器将节点的语义标签和边的关系信息进行编码,同时将场景图中每个节点对应的位置3D框的参数特征化,得到特征增强后的场景图;
S2、将特征增强后的场景图分为两个部分,第一部分由可学习的特征向量和编码后的语义标签组成,第二部分由参数化后的每个物体对应的位置3D框参数组成,两部分场景图的边的特征都是编码后的关系信息,第一部分送入形状编码器,第二部分送入布局编码器;
S3、将形状编码器和布局编码器的输出送入一个基于图卷积神经网络的特征交互模块中,学习得到联合的布局-形状后验分布,最后采样得到特征向量zi,将特征向量zi更新为场景图每个节点的新信息;
S4、将更新后的场景图分别送入布局解码器和形状解码器中,其中布局解码器的输出为场景中对应的物体3D框及布局,形状解码器输出的为含有上下文关系信息的形状嵌入;
S5、将形状嵌入作为隐式扩散模型的条件输入,训练过程中使用VQ-VAE编码3D形状得到初始的形状特征,推理过程中随机的高斯噪声通过隐式扩散模型去噪,生成物体形状;
S6、用户首先输入风格提示文本,利用S5中生成的物体形状作为神经辐射场的初始化,然后使用CLIP指导对其进行优化,得到具有细粒度纹理及风格的物体的3D形状,最后将物体的3D形状和场景布局相融合,得到完整的场景。
2.根据权利要求1所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,S1中使用嵌入层初始化节点的边的特征,两个相邻的节点的特征分别记为oi和oj,连接它们的边的特征记为qi→j,编码后的语义标签为pi,编码后的关系信息文本为pi→j
pi=EclipT(label)
pi→j=EclipT(relation)
3D框的参数通过3层的MLP进行特征化,得到的特征表示为bi,特征增强后的场景图,节点的特征为FNi={oi,qi,bi},边的特征为FEi→j={qi→j,pi→j}。
3.根据权利要求2所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,S2中的形状编码器Es和布局编码器El均由图卷积神经网络组成,形状编码器Es输出每个节点的特征为fs,i,布局编码器El输出每个节点的特征为fl,i
fs,i=Eshape(FNi),i∈{1,2...,N}
fl,i=Elayout(FNi),i∈{1,2...,N}
其中,N为节点的数量。
4.根据权利要求3所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,S3中的特征交互模块EC的输入为形状编码器Es和布局编码器El输出的串联,主体结构为图神经卷积网络,输出为fc
特征交互模块EC后接一层MLP网络,计算联合的布局-形状分布Z,Z为高斯分布下的后验概率(μ,θ),采样得到特征向量zi,保持场景图的边的特征不变,更新场景图相应节点的特征。
5.根据权利要求4所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,S4中形状解码器Ds和布局解码器Dl的输入均为更新后的场景图(zi,fs,i,fl,i),布局解码器Dl根据场景图及采样得到的特征向量zi,预测出物体相关的3D框,预测过程训练时的损失函数为:
式中,为边界框的大小,/>为边界框的位置,/>为边界框的旋转角度,λ为旋转分类标签,利用局部到全局的语义线索更新每个节点的特征;形状解码器Ds生成含有上下文信息的节点的形状嵌入R。
6.根据权利要求5所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,S5中使用体素化空间中截断SDF作为3D形状的表示,使用VQ-VAE模型作为3D形状的压缩器,将3D形状编码成一个潜在维度的特征x0,生成模型为隐式扩散模型,训练过程中,一个前向扩散过程将随机噪声添加到输入x0上,经过T步加噪过程得到xt,使用3D-UNet网络εθ进行去噪还原出x0,3D-UNet通过交叉注意将含有上下文信息的形状嵌入添加到3D-UNet的中间特征层中;生成模型损失函数为:
在推理过程中,给定隐式扩散模型一个随机的高斯噪声,形状嵌入R作为条件,即得到相应的3D形状。
7.根据权利要求6所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,S6中用户输入带有风格信息的文本提示y,利用多模态大模型CLIP的文本编码器ET对y进行特征编码,利用S5中生成的物体形状初始化神经辐射场,将3D形状参数化为θ,同时从多个视点渲染图像,将多视点的图像送入CLIP的图像编码器中进行特征编码,通过最小化CLIP相似度损失,得到具有细粒度纹理及风格的物体形状:
式中,为渲染过程,vi表示第i步优化步骤中的渲染视点,最后将渲染优化后的3D物体形状放入布局图中,得到生成后的场景。
CN202311358550.6A 2023-10-19 2023-10-19 一种基于关系和风格感知的多模态场景生成方法 Active CN117496025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311358550.6A CN117496025B (zh) 2023-10-19 2023-10-19 一种基于关系和风格感知的多模态场景生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311358550.6A CN117496025B (zh) 2023-10-19 2023-10-19 一种基于关系和风格感知的多模态场景生成方法

Publications (2)

Publication Number Publication Date
CN117496025A true CN117496025A (zh) 2024-02-02
CN117496025B CN117496025B (zh) 2024-06-04

Family

ID=89681881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311358550.6A Active CN117496025B (zh) 2023-10-19 2023-10-19 一种基于关系和风格感知的多模态场景生成方法

Country Status (1)

Country Link
CN (1) CN117496025B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113934890A (zh) * 2021-12-16 2022-01-14 之江实验室 一种自动文字生成场景视频的方法及系统
CN115797571A (zh) * 2023-02-03 2023-03-14 天津大学 3d风格化场景的新视角合成方法
WO2023091408A1 (en) * 2021-11-16 2023-05-25 Google Llc Geometry-free neural scene representations for efficient object-centric novel view synthesis
CN116563423A (zh) * 2023-03-30 2023-08-08 中山大学 一种细粒度语义操控的场景渲染方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023091408A1 (en) * 2021-11-16 2023-05-25 Google Llc Geometry-free neural scene representations for efficient object-centric novel view synthesis
CN113934890A (zh) * 2021-12-16 2022-01-14 之江实验室 一种自动文字生成场景视频的方法及系统
CN115797571A (zh) * 2023-02-03 2023-03-14 天津大学 3d风格化场景的新视角合成方法
CN116563423A (zh) * 2023-03-30 2023-08-08 中山大学 一种细粒度语义操控的场景渲染方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
兰红等: "图注意力网络的场景图到图像生成模型", 中国图象图形学报, vol. 25, no. 8, 31 August 2020 (2020-08-31) *

Also Published As

Publication number Publication date
CN117496025B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
JP7373554B2 (ja) クロスドメイン画像変換
Wu et al. Styleformer: Real-time arbitrary style transfer via parametric style composition
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN113934890B (zh) 一种文字自动生成场景视频的方法及系统
Zhao et al. Layout2image: Image generation from layout
Lim et al. Point cloud generation using deep adversarial local features for augmented and mixed reality contents
Liu et al. Gmm-unit: Unsupervised multi-domain and multi-modal image-to-image translation via attribute gaussian mixture modeling
Song et al. Deep novel view synthesis from colored 3d point clouds
DE102022100360A1 (de) Framework für maschinelles lernen angewandt bei einer halbüberwachten einstellung, um instanzenverfolgung in einer sequenz von bildframes durchzuführen
Shen et al. Clipgen: A deep generative model for clipart vectorization and synthesis
CN113781324A (zh) 一种老照片修复方法
Qin et al. Segmentation mask and feature similarity loss guided GAN for object-oriented image-to-image translation
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
US20210150369A1 (en) Weight demodulation for a generative neural network
Yu et al. Stacked generative adversarial networks for image compositing
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
Xu et al. Deep structured generative models
CN117496025B (zh) 一种基于关系和风格感知的多模态场景生成方法
CN116978057A (zh) 图像中人体姿态迁移方法、装置、计算机设备和存储介质
Sun et al. Channel attention networks for image translation
CN114677569A (zh) 一种基于特征解耦合的文字-图像对生成方法和装置
Zhang et al. Panoptic-level image-to-image translation for object recognition and visual odometry enhancement
Blum et al. X-GAN: Improving generative adversarial networks with ConveX combinations
Guo et al. Shape generation via learning an adaptive multimodal prior
Kumar et al. Steganography-based facial re-enactment using generative adversarial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant