CN117496025A

CN117496025A - 一种基于关系和风格感知的多模态场景生成方法

Info

Publication number: CN117496025A
Application number: CN202311358550.6A
Authority: CN
Inventors: 雷印杰; 冯俊球; 李鹏; 刘春黔; 刘杰; 林浩然; 周礼亮
Original assignee: Sichuan University; CETC 10 Research Institute
Current assignee: Sichuan University; CETC 10 Research Institute
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-02-02
Anticipated expiration: 2043-10-19
Also published as: CN117496025B

Abstract

本发明公开了一种基于关系和风格感知的多模态场景生成方法，应用于计算机视觉及3D多模态技术领域。使用多模态大模型‑CLIP增强场景图数据的上下文关系信息，同时采用基于图卷积神经网络的双流结构，分别预测场景布局和相应的3D形状。其中在形状支路中，选择隐式扩散模型作为生成模型，解码器解码出关系形状嵌入作为其隐式条件。用户可输入风格文本，例如：中国风，中世纪风，欧洲风格等，然后利用生成的形状先验与神经辐射场，以CLIP作为优化时的指导，最后得到细粒度的3D场景。本发明可以通过场景图及用户输入的风格文本，实现可控的场景生成及风格感知，解决了目前现有的场景生成方法的不足。

Description

一种基于关系和风格感知的多模态场景生成方法

技术领域

本发明涉及计算机视觉及3D多模态技术领域，更具体的说是涉及一种基于关系和风格感知的多模态场景生成方法。

背景技术

3D场景生成主要是指利用计算机技术以及相应的算法生成真实的3D场景，这项技术在电影、视频、游戏产业、增强和虚拟现实技术和机器人等领域有着巨大应用潜力。其中，可控制的场景合成是指以一种允许控制或操纵场景生成的过程，用户可以指定他们想要在生成的场景中出现的3D物体。现有的可控场景生成方法常用的控制机制主要有文本描述、语义映射和场景图。其中，场景图提供了一个强大的工具来抽象场景内容，包括场景上下文和对象关系，同时场景图可以为用户提供一个更适合的操作界面。

目前的场景图主要分为两种：第一种方法只学习生成场景布局，3D物体则是从给定的数据库中检索，例如Graph-to-Box；第二种方法同时学习生成场景布局和3D物体形状，例如：Graph-to-3D。但是这两种方法都有明显的不足及缺陷：第一种基于检索的方法生成的物体形状受到检索的数据库的大小的限制；第二种方法，形状的生成依赖于预先训练好的形状编码，这些编码来自具有类别感知能力的自动解码器。这种半生成设计减少了生成输出的形状多样性，且生成的3D物体形状不具有细粒度的纹理特征。同时目前的各种方法对场景中所包含的对象之间的局部与全局上下文关系考虑甚少，这使得当前的3D场景生成方法的一致性效果较差。因此，如何提供一种基于关系和风格感知的多模态场景生成方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于关系和风格感知的多模态场景生成方法，使用多模态大模型-CLIP增强场景图数据的上下文关系信息，同时采用基于图卷积神经网络的双流结构，分别预测场景布局和相应的3D形状。

为了实现上述目的，本发明提供如下技术方案：

一种基于关系和风格感知的多模态场景生成方法，包括以下步骤：

S1、获取原始场景图，为原始场景图中每个节点和每条边初始化一个可学习的特征向量，使用CLIP的文本编码器将节点的语义标签和边的关系信息进行编码，同时将场景图中每个节点对应的位置3D框的参数特征化，得到特征增强后的场景图；

S2、将特征增强后的场景图分为两个部分，第一部分由可学习的特征向量和编码后的语义标签组成，第二部分由参数化后的每个物体对应的位置3D框参数组成，两部分场景图的边的特征都是编码后的关系信息，第一部分送入形状编码器，第二部分送入布局编码器；

S3、将形状编码器和布局编码器的输出送入一个基于图卷积神经网络的特征交互模块中，学习得到联合的布局-形状后验分布，最后采样得到特征向量z_i，将特征向量z_i更新为场景图每个节点的新信息；

S4、将更新后的场景图分别送入布局解码器和形状解码器中，其中布局解码器的输出为场景中对应的物体3D框及布局，形状解码器输出的为含有上下文关系信息的形状嵌入；

S5、将形状嵌入作为隐式扩散模型的条件输入，训练过程中使用VQ-VAE编码3D形状得到初始的形状特征，推理过程中随机的高斯噪声通过隐式扩散模型去噪，生成物体形状；

S6、用户首先输入风格提示文本，利用S5中生成的物体形状作为神经辐射场的初始化，然后使用CLIP指导对其进行优化，得到具有细粒度纹理及风格的物体的3D形状，最后将物体的3D形状和场景布局相融合，得到完整的场景。

可选的，S1中使用嵌入层初始化节点的边的特征，两个相邻的节点的特征分别记为o_i和o_j，连接它们的边的特征记为q_i→j，编码后的语义标签为p_i，编码后的关系信息文本为p_i→j：

p_i＝E_clipT(label)

p_i→j＝E_clipT(relation)

3D框的参数通过3层的MLP进行特征化，得到的特征表示为b_i，特征增强后的场景图，节点的特征为F_Ni＝{o_i，q_i，b_i}，边的特征为F_Ei→j＝{q_i→j，P_i→j}。

可选的，S2中的形状编码器E_s和布局编码器E_l均由图卷积神经网络组成，形状编码器E_s输出每个节点的特征为f_s，i，布局编码器E_l输出每个节点的特征为f_l，i：

f_s，i＝E_shape(F_Ni)，i∈{1，2...，N}

f_l，i＝E_layout(F_Ni)，i∈{1，2…，N}

其中，N为节点的数量。

可选的，S3中的特征交互模块E_C的输入为形状编码器E_s和布局编码器E_l输出的串联，主体结构为图神经卷积网络，输出为f_c：

特征交互模块E_C后接一层MLP网络，计算联合的布局-形状分布Z，Z为高斯分布下的后验概率(μ，θ)，采样得到特征向量z_i，保持场景图的边的特征不变，更新场景图相应节点的特征。

可选的，S4中形状解码器D_s和布局解码器D_l的输入均为更新后的场景图(z_i，f_s，i，f_l，i)，布局解码器D_l根据场景图及采样得到的特征向量z_i，预测出物体相关的3D框，预测过程训练时的损失函数为：

式中，为边界框的大小，/>为边界框的位置，/>为边界框的旋转角度，λ为旋转分类标签，利用局部到全局的语义线索更新每个节点的特征；形状解码器D_s生成含有上下文信息的节点的形状嵌入R。

可选的，S5中使用体素化空间中截断SDF作为3D形状的表示，使用VQ-VAE模型作为3D形状的压缩器，将3D形状编码成一个潜在维度的特征x₀，生成模型为隐式扩散模型，训练过程中，一个前向扩散过程将随机噪声添加到输入x₀上，经过T步加噪过程得到x_t，使用3D-UNet网络ε_θ进行去噪还原出x₀，3D-UNet通过交叉注意将含有上下文信息的形状嵌入添加到3D-UNet的中间特征层中；生成模型损失函数为：

在推理过程中，给定隐式扩散模型一个随机的高斯噪声，形状嵌入R作为条件，即得到相应的3D形状。

可选的，S6中用户输入带有风格信息的文本提示y，利用多模态大模型CLIP的文本编码器E_T对y进行特征编码，利用S5中生成的物体形状初始化神经辐射场，将3D形状参数化为θ，同时从多个视点渲染图像，将多视点的图像送入CLIP的图像编码器中进行特征编码，通过最小化CLIP相似度损失，得到具有细粒度纹理及风格的物体形状：

式中，为渲染过程，v_i表示第i步优化步骤中的渲染视点，最后将渲染优化后的3D物体形状放入布局图中，得到生成后的场景。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种基于关系和风格感知的多模态场景生成方法，具有以下有益效果：本发明利用多模态大模型-CLIP处理分析上下文信息的能力，增强了场景图中的各节点之前的关系信息；使用生成模型-隐式扩散模型及神经辐射场，同时引入多模态大模型—CLIP进行优化指导，从而实现了生成物体形状的多样性及真实性；可以通过场景图及用户输入的风格文本，实现可控的场景生成及风格感知，解决了目前现有的场景生成方法的不足。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的多模态场景生成方法流程图；

图2为本发明一个实施例中的多模态场景生成方法流程图；

图3为本发明一个实施例中的多模态场景生成方法原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于关系和风格感知的多模态场景生成方法，如图1所示，包括以下步骤：

原始场景图数据主要由节点和连接节点的边组成，每个节点代表场景中的一个物体形状，节点带有语义标签；每条边代表场景中每个物体之间的关系，每条边带有相应的关系信息。在本发明的一个实施例中，以场景中的床和灯为例，其生成流程如图2所示，生成原理如图3所示，。

进一步的，S1中使用嵌入层初始化节点的边的特征，两个相邻的节点的特征分别记为o_i和o_j，连接它们的边的特征记为q_i→j，编码后的语义标签为p_i，编码后的关系信息文本为p_i→j：

p_i＝E_clipT(label)

p_i→j＝E_clipT(relation)

进一步的，S2中的形状编码器E_s和布局编码器E_l均由图卷积神经网络组成，形状编码器E_s输出每个节点的特征为f_s，i，布局编码器E_l输出每个节点的特征为f_l，i：

f_s，i＝E_shape(F_Ni)，i∈{1，2...，N}

f_l，i＝E_layout(F_Ni)，i∈{1，2...，N}

其中，N为节点的数量。

在本发明的一个实施例中，形状编码器E_s主要用于学习场景中物体之间的一致性，如一张床和灯共存。布局编码器E_l主要用于学习物体的3D框之间的关系及场景布局中的位置

进一步的，S3中的特征交互模块E_C的输入为形状编码器E_s和布局编码器E_l输出的串联，主体结构为图神经卷积网络，输出为f_c：

在本发明的一个实施例中，由于布局和形状预测是相关的任务，因此使用基于图卷积神经网络的特征交互模块鼓励两条支路之间的交互。

进一步的，S4中形状解码器D_s和布局解码器D_l的输入均为更新后的场景图(z_i，f_s，i，f_l，i)，布局解码器D_l根据场景图及采样得到的特征向量z_i，预测出物体相关的3D框，预测过程训练时的损失函数为：

式中，为边界框的大小，/>为边界框的位置，/>为边界框的旋转角度，λ为旋转分类标签，利用局部到全局的语义线索更新每个节点的特征；形状解码器D_s生成含有上下文信息的节点的形状嵌入R。将旋转角划分为个旋转空间，这样就可以将旋转角回归问题转化为分类问题。

在本发明的一个实施例中，形状解码器D_s和布局解码器D_l与编码器具有相同的主体结构，不同的是两种解码器最后一层为MLP网络。

进一步的，S5中使用体素化空间中截断SDF作为3D形状的表示，使用VQ-VAE模型作为3D形状的压缩器，将3D形状编码成一个潜在维度的特征x₀，生成模型为隐式扩散模型，训练过程中，一个前向扩散过程将随机噪声添加到输入x₀上，经过T步加噪过程得到x_t，使用3D-UNet网络ε_θ进行去噪还原出x₀，3D-UNet通过交叉注意将含有上下文信息的形状嵌入添加到3D-UNet的中间特征层中；生成模型损失函数为：

进一步的，S6中用户输入带有风格信息的文本提示y，利用多模态大模型CLIP的文本编码器E_T对y进行特征编码，利用S5中生成的物体形状初始化神经辐射场，将3D形状参数化为θ，同时从多个视点渲染图像，将多视点的图像送入CLIP的图像编码器中进行特征编码，通过最小化CLIP相似度损失，得到具有细粒度纹理及风格的物体形状：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于关系和风格感知的多模态场景生成方法，其特征在于，包括以下步骤：

S1、获取原始场景图，为原始场景图中每个节点和每条边初始化一个特征向量，使用CLIP的文本编码器将节点的语义标签和边的关系信息进行编码，同时将场景图中每个节点对应的位置3D框的参数特征化，得到特征增强后的场景图；

2.根据权利要求1所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S1中使用嵌入层初始化节点的边的特征，两个相邻的节点的特征分别记为o_i和o_j，连接它们的边的特征记为q_i→j，编码后的语义标签为p_i，编码后的关系信息文本为p_i→j：

p_i＝E_clipT(label)

p_i→j＝E_clipT(relation)

3.根据权利要求2所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S2中的形状编码器E_s和布局编码器E_l均由图卷积神经网络组成，形状编码器E_s输出每个节点的特征为f_s，i，布局编码器E_l输出每个节点的特征为f_l，i：

f_s，i＝E_shape(F_Ni)，i∈{1，2...，N}

f_l，i＝E_layout(F_Ni)，i∈{1，2...，N}

其中，N为节点的数量。

4.根据权利要求3所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S3中的特征交互模块E_C的输入为形状编码器E_s和布局编码器E_l输出的串联，主体结构为图神经卷积网络，输出为f_c：

5.根据权利要求4所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S4中形状解码器D_s和布局解码器D_l的输入均为更新后的场景图(z_i，f_s，i，f_l，i)，布局解码器D_l根据场景图及采样得到的特征向量z_i，预测出物体相关的3D框，预测过程训练时的损失函数为：

6.根据权利要求5所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S5中使用体素化空间中截断SDF作为3D形状的表示，使用VQ-VAE模型作为3D形状的压缩器，将3D形状编码成一个潜在维度的特征x₀，生成模型为隐式扩散模型，训练过程中，一个前向扩散过程将随机噪声添加到输入x₀上，经过T步加噪过程得到x_t，使用3D-UNet网络ε_θ进行去噪还原出x₀，3D-UNet通过交叉注意将含有上下文信息的形状嵌入添加到3D-UNet的中间特征层中；生成模型损失函数为：

7.根据权利要求6所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S6中用户输入带有风格信息的文本提示y，利用多模态大模型CLIP的文本编码器E_T对y进行特征编码，利用S5中生成的物体形状初始化神经辐射场，将3D形状参数化为θ，同时从多个视点渲染图像，将多视点的图像送入CLIP的图像编码器中进行特征编码，通过最小化CLIP相似度损失，得到具有细粒度纹理及风格的物体形状：