CN116704090A

CN116704090A - 基于动态文本引导的文本驱动3d风格化方法

Info

Publication number: CN116704090A
Application number: CN202310669840.6A
Authority: CN
Inventors: 纪荣嵘; 孙晓帅; 马祎炜; 张晓庆
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-09-05

Abstract

基于动态文本引导的文本驱动3D风格化方法，涉及3D风格化方法。1)用文本引导的动态注意力模块来提高文本提示对目标纹理的引导效果；2)用动态通道和空间注意力获得对目标文本敏感的顶点特征；3)使用两个多层感知机分别提取颜色和位置特征，并使用可微渲染器对mesh进行渲染；4)提出标准的文本到mesh的数据集MIT‑30；5)提出两个自动评估指标。通过在顶点属性预测的神经网络中加入文本驱动的动态注意力机制，生成更好的风格化3D产品，提高模型的收敛速度。提出数据集MIT‑30给不同的文本驱动的3D风格化工作提供更方便的研究对象。提出两个评估指标，对文本驱动的3D风格化方法公平和全面的比较。

Description

基于动态文本引导的文本驱动3D风格化方法

技术领域

本发明涉及3D风格化方法，尤其是涉及一种基于动态文本引导的快速精准的文本驱动的3D风格化方法。

背景技术

使用自然语言指导对给定的3D mesh渲染的任务是计算机视觉和计算机图形学的一个长期目标。传统的风格化主要是通过劳动密集型生产方式，通过专业人员使用专业的软件对给定的3D表示进行操作，从而生成想要的风格化产品。传统的创造是资源消耗和人力消耗型工作，但3D风格化产品有一系列实际应用，如游戏、虚拟现实和电影。在可用的风格化技术中，文本驱动的3D风格化是用户友好型的技术，因为文本提示比图像或3D形状更容易获得。然而，由于视觉信息和语言信息之间的显著差异，通过文本输入创建风格化的3D产品是一个重大挑战。视觉语言预训练模型(CLIP)^[1]的出现使实现文本驱动的3D风格化成为可能。

最近，Text2Mesh^[2]和TANGO^[3]基于CLIP语义损失通过预测mesh上每个顶点的属性，在3D风格化任务中取得了不错的进展。具体来说，Text2Mesh预测每个mesh顶点的颜色和位移，以生成与目标文本提示对齐的风格化mesh。类似地，TANGO使用神经场来预测漫反射、粗糙度、镜面反射和法线贴图，以按照类似的方法创建真实感3D产品。另一方面，当前的3D风格化渲染工作没有统一的数据集和标准的指标对不同工作进行衡量的，在不同的数据集上进行测试，产生的结果没有办法横向比较，由于人工评价比较主观，可能导致文章优劣没有办法客观比较。

现有的文本驱动的3D风格化方法存在限制，阻碍了模型的效率和有效性。一个主要缺点是它们在预测mesh顶点属性时未能充分考虑输入文本的语义。当前的方法^{[2][3][4][5][6]}完全依赖于CLIP损失将风格化mesh中的渲染图像与文本提示对齐，而在预测顶点属性时没有任何额外的文本语义指导。这种方法导致了风格化效果较差和收敛速度较慢的问题。传统的神经风格网络在属性预测期间不使用文本指导，导致预测的顶点属性可能与输入文本的语义上下文不一致，产生了风格化上下文不一致的3D产品。此外，由于缺乏额外的文本指导，以前的方法很难迅速收敛到可接受的结果。

此外，对现有文本驱动的3D风格化方法的风格化结果的质量评估提出了重大挑战。这一挑战主要体现在两个方面。首先，缺乏文本驱动的3D风格化问题的标准基准对评估现有方法的有效性提出了挑战。如果没有固定的文本提示和mesh，从以前的方法获得的结果是无法比拟的。这反过来阻碍了进展和制定更有效的解决方案。其次，当前对风格化3D产品的评估严重依赖于用户研究，这是一个耗时且昂贵的过程。此外，这种评估方法还受到个人解释的制约，这进一步阻碍了结果的再现性和一致性。

为了解决传统神经风格网络中的不一致性和缓慢收敛问题，本发明提出X-Mesh一个利用文本语义指导来预测mesh顶点属性的方法。该方法生成与输入文本一致的高质量风格化结果。此外，顶点属性预测期间加入文本指导，X-Mesh通常只需200次迭代即可获得稳定的结果。本发明基于一种新颖的文本驱动动态注意力模块(TDAM)^[7]，增强模型的文本感知能力从而实现更精准的文本驱动3D风格化mesh。TDAM中的注意模块参数是由文本特征动态生成的，这使顶点特征具有提示意识，并有助于生成与提示相关的顶点属性。本发明提出了第一个基准数据集和两个自动评估指标，用于对文本驱动的3D风格化方法进行公平、客观和可重复的比较。基准数据集MIT-30^{[8][9][10][11][12]}包含30类未风格化的mesh，每一类都带有5个文本提示，用于不同的风格化。此外，本发明引入两个评估指标，以克服先前工作中使用的主观和不可再现用户研究的局限性。基于基准数据集和评估指标就有可能对文本驱动的3D风格化方法进行公平和全面的比较。

参考文献：

[1].Radford A,Kim J W,Hallacy C,et al.Learning Transferable VisualModels From Natural Language Supervision[J].2021.

[2].Michel O,Bar-On R,Liu R,et al.Text2Mesh:Text-Driven NeuralStylization for Meshes[J].2021.

[3].Chen Y,Chen R,Lei J,et al.Tango:Text-driven photo-realistic androbust 3d stylization via lighting decomposition[J].arXivpreprint arXiv:2210.11277,2022.

[4].Mohammad Khalid N,Xie T,Belilovsky E,et al.CLIP-Mesh:Generatingtextured meshes from text using pretrained image-text models[C]//SIGGRAPHAsia 2022Conference Papers.2022:1-8.

[5].Sanghi A,Chu H,Lambourne J G,et al.Clip-forge:Towards zero-shottext-to-shape generation[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2022:18603-18613.

[6].Hong F,Zhang M,Pan L,et al.Avatarclip:Zero-shot text-drivengeneration and animation of3d avatars[J].arXiv preprint arXiv:2205.08535,2022.

[7].Ye J,Tian J,Yan M,et al.Shifting more attention to visualbackbone:Query-modulated refinement networks for end-to-end visual grounding[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition.2022:15502-15512.

[8].Angel X Chang,Thomas Funkhouser,Leonidas Guibas,Pat Hanrahan,Qixing Huang,Zimo Li,Silvio Savarese,Manolis Savva,Shuran Song,Hao Su,etal.Shapenet:An information-rich3d model repository.arXiv preprintarXiv:1512.03012,2015.

[9].Oana Sidi,Oliver van Kaick,Yanir Kleiman,Hao Zhang,and DanielCohen-Or.Unsupervised co-segmentation of a set ofshapes via descriptor-spacespectral clustering.In Proceed-ings ofthe 2011SIGGRAPHAsia Conference,pages1–10,2011.

[10].TurboSquid.Turbosquid 3d model repository,2021.https://www.turbosquid

[11].Zhirong Wu,Shuran Song,Aditya Khosla,Fisher Yu,Lin-guang Zhang,Xiaoou Tang,and Jianxiong Xiao.3dshapenets:A deep representation forvolumetric shapes.InProceedings ofthe IEEE conference on computer visionandpattern recognition,pages 1912–1920,

[12].Qingnan Zhou and Alec Jacobson.Thingi10k:Adataset of 10,0003d-printing models.arXiv preprintarXiv:1605.04797,201

发明内容

本发明的目的是针对现有的文本驱动的3D风格化方法在预测mesh顶点属性时未能充分考虑输入文本的语义，导致风格化效果较差、风格化效果上下文不一致和收敛速度较慢的问题，提供快速精准的基于动态文本引导的文本驱动3D风格化方法。此外，当前文本驱动的3D风格化方法的风格化结果的质量评估缺乏标准基准数据集和评估指标，以来人工打分，本发明提供基准数据集和两个自动评估指标给现有方法的评估提供了解决方案。

本发明包括以下步骤：

1)用文本引导的动态注意力模块来提高文本提示对目标纹理的引导效果；

2)用动态通道和空间注意力获得对目标文本敏感的顶点特征；

3)使用两个多层感知机分别提取颜色和位置特征，并使用可微渲染器对mesh进行渲染；

4)提出标准的文本到mesh的基准数据集MIT-30；

5)提出两个自动评估指标以提供模型间更公平的对比标准。

在步骤1)中，所述用文本引导的动态注意力模块来提高文本提示对目标纹理的引导效果的具体方法可为：

将输入的文本提示经由CLIP Text Encoder编码，以及输入mesh的位置编码同时喂入动态线性层中，从而增强文本对目标纹理的引导作用。

在步骤2)中，所述用动态通道和空间注意力获得对目标文本敏感的顶点特征，具体步骤包括：

(1)动态通道关注的目标是仅激活与目标文本相关的顶点特征的通道，给定顶点特征·N_v是顶点数，D_v是该输入mesh的通道维度，将其传递给动态MLP，通过平均池聚合空间维度；为了获得通道关注图，使用Sigmoid激活函数将值归一化到0到1的范围，如下：

其中，表示通道注意力映射,σ(·)表示Sigmoid函数，η₁(·)表示动态MLP；获得通道激活的顶点特征/>如下所示：

表示元素乘积；

(2)空间注意力的目标是激活与目标文本相关的顶点；将通道激活的顶点特征F送到另一个动态MLP中，并使用平均函数聚合通道维度；使用Sigmoid激活函数对输出进行归一化，如下：

其中，表示通道注意力映射，η₂(·)表示动态MLP不与η₁(·)共享参数。获得空间激活的顶点特征/>如下所示：

在步骤3)中，所述使用两个多层感知机分别提取颜色和位置特征，并使用可微渲染器对mesh进行渲染的具体步骤可为：

将文本引导的动态注意力模块提取的特征通过两个MLP(多层感知机)分支f_C(·)和f_p(·)，分别得到颜色偏移量Color Offset和点的偏移量Position Offset：

MLP(f_C(·))＝ΔC_p

MLP(f_p(·))＝ΔP_p

计算输入mesh上的颜色和坐标：C‘_p＝C_p+ΔC_p和P'_p＝P_p+ΔP_p，基于可插值的可微渲染器对mesh和仅仅包含几何形状的mesh的每个视角进行渲染。

在步骤4)中，所述基准数据集MIT-30包括从各种公共3D数据集收集的30个未渲染的mesh；为了确保风格化的多样性，每个mesh都使用五种不同的文本提示进行标注，发现“A3D renderingof…unreal engine.”作为默认模板是较好的策略，因此没有特殊说明，所有mesh都使用此提示模板进行标注。

在步骤5)中，所述两个自动评估指标为MES(Multi-view Expert Score)多视角期望得分用于评估风格化3D资产与目标文本的一致程度，而ITS(IterationforTargetScore)迭代目标得分用于评估模型的收敛速度。

MES使用专家模型的视觉和文本编码器将渲染图像和相应的文本提示嵌入到共享空间中，计算渲染图像和相应文本之间的余弦相似性分数，并通过平均它们获得MES；公式如下：

其中N表示渲染图像的数量，和/>分别表示风格化的3Dmesh和相应的文本提示E'_v(·)和E'_t(·)是指专家模型的图像编码器和文本编码器；

ITS表示实现目标所需的最小迭代次数，表示最小迭代次数。

本发明具有以下突出优点：

1)本发明解决当前3D风格化方法收敛速度较慢以及风格化上下文不一致的问题。通过在顶点属性预测的神经网络中加入文本驱动的动态注意力机制，本方法不仅生成了更好的风格化3D产品，而且大大提高模型的收敛速度。

2)本发明首次提出文本驱动的3D风格化的基准数据集MIT-30，该数据集中包括30个未风格化的mesh，并且每个mesh都配有5个文本提示，给不同的文本驱动的3D风格化工作提供了更方便的研究对象。

3)本发明提出两个评估指标，以克服先前工作中使用的主观和不可再现用户研究的局限性。基于该评估指标就有可能对文本驱动的3D风格化方法进行公平和全面的比较。

附图说明

图1为baseline和本发明的风格化效果和收敛速度的对比图；

图2为本发明的模型架构图；

图3为本发明的风格化结果展示；

图4为本发明与Text2Mesh和TANGO的风格化结果对比图；

图5为本发明中TDAM模块的消融实验展示图；

图6为有和没有TDAM的模型训练中每个mesh类别的损失变化图；

图7为有和没有TDAM的复杂文本提示生成的3D产品的定性比较图。

具体实施方式

现有方法基于CLIP损失作为文本驱动的基础，但文本提示在3D风格化过程中的能力并没有得到充分的发挥，以致点偏移量需要更多训练轮次来收敛，不仅耗费大量资源而且可能产生崩坏结果，本发明针对现有的文本驱动的3D风格化方法，在预测mesh顶点属性时未能充分考虑输入文本的语义，导致风格化效果较差、风格化效果上下文不一致和收敛速度较慢的问题，提出的基于动态文本引导的文本驱动3D风格化方法。此外，当前文本驱动的3D风格化方法的风格化结果的质量评估缺乏标准基准数据集和评估指标，以来人工打分，本发明提供基准数据集和两个自动评估指标给现有方法的评估提供解决方案。图1中展示了本方法的风格化效果和收敛速度都优于先前的工作，1(a)左侧表示神经风格网络baseline根据文本提示“Steve Jobs in ared sweater,bluejeans,brown leather shoesandcolorful golves.”基于CLIP损失监督生成的风格化mesh，1(b)左侧展示了本方法根据相同的文本提示，生成过程中给加入文本指导，并基于CLIP损失监督生成的风格化mesh，可视化结果展示出本文方法的优势，能够更好的理解复杂语义并生成细节丰富的风格化mesh。1(a)和1(b)右侧展示baseline和本方法生成风格化mesh的速度，从折线图可以清晰看到本方法收敛速度有了显著的提高。

具体的每个模块如下：

1、文本驱动的动态注意力模块

本方法具体的算法流程如图2中的图(a)所示。本方法输入一个Mesh和目标文本提示“A3D rendering ofSteve Jobs inunreal engine.”，在Positional Eocoding模块使用傅里叶特征映来计算位置编码，将得到的顶点位置编码使用TDAM模块(文本驱动动态注意力模块)在文本提示下进行动态处理，将提取的特征通过两个MLP(多层感知机)分支f_C(·)和f_p(·)，分别得到颜色偏移量Color Offset和点的偏移量Position Offset，计算输入mesh上的颜色和坐标，基于可插值的可微渲染器对每个视角进行渲染，将渲染后的图片进行Augmentation增强处理，最后用CLIPText Encoder对输入的文本提示编码，CLIPImageEncoder对增强图片进行编码，将编码后的文本和图像计算CLIP损失，对模型的渲染结果进行迭代优化。

文本引导的动态注意模块(TDAM)利用目标文本来指导属性预测过程。本模块如图2中的图(b)所示，TDAM的参数是基于目标文本特征动态生成的，参数生成由动态线性层来控制。基于动态线性层的设计TDAM来计算文本感知的动态通道和空间注意图。中的VertexFeature表示经过傅里叶特征变换后的点的特征，Textual Feature表示经过CLIP TextEncoder编码的文本特征，Dynamic MLP是动态线性层，Channel pooling表示通道注意力，Spatial pooling表示空间注意力。

2、动态线性层

动态线性层是基于目标文本特征生成的，动态线性层定义如下：

x_out＝x_inW_t+b_t (1)

其中，和/>表示动态线性层的输入和输出的向量，动态线性层的可训练参数记为公式(2)，它们是基于目标文本特征F_t生成的：

生成动态参数的一种简单方法是使用普通线性层，定义如下：

M_d ＝ F_tW_m + b_m (3)

其中，这种生成方法需要大量的训练参数，因此，使用矩阵分解来减少可训练参数的数量。因此，使用矩阵分解来减少可训练参数的数量。将/> 分解为/>和/>其中K是一个决定压缩比的超参数。其可表述如下：

M_d ＝ UV (4)

其中，U是基于目标文本特征动态生成的参数矩阵，V是静态可训练矩阵，U的公式可以表示为：

U＝Φ(F_tW_l+b_l) (5)

其中，和/>Φ(·)是输入的reshape函数，将输入从转化为/>

V^*＝LSF(V₁,V₂,…,V_n) (6)

通过矩阵压缩技术，训练参数量：

从(D_t+1)×(D_in+1)*D_out减少到(D_t+1)×(D_in+1)*K+K×D_out，节省多余训练成本，避免过拟合的风险。

3、动态通道和空间注意力

文本驱动的动态注意力模块建立在动态线性层之上，包括两种类型的注意力机制：通道注意力和空间注意力。

TDAM基于动态MLP，它由ReLU激活函数分隔的两个动态线性层，动态MLP的输入和输出维度是相同的。通道关注的目标是仅激活与目标文本相关的顶点特征的通道。具体来说，给定顶点特征N_v是顶点数，D_v是该输入mesh的通道维度，首先将其传递给动态MLP，然后通过平均池聚合空间维度。为获得通道关注图，使用Sigmoid激活函数将值归一化到0到1的范围，如下：

其中，表示通道注意力映射,σ(·)表示Sigmoid函数，η₁(·)表示动态MLP。获得通道激活的顶点特征/>如下所示：

表示元素乘积。

空间注意力的目标是激活与目标文本相关的顶点。首先，将通道激活的顶点特征F送到另一个动态MLP中，并使用平均函数聚合通道维度。然后使用Sigmoid激活函数对输出进行归一化，如下所示：

其中，表示空间注意力映射，η₂(·)表示动态MLP不与η₁(·)共享参数。获得空间激活的顶点特征/>如下所示：

4、基准数据集

本发明提出MIT-30基准数据集包括从各种公共3D数据集收集的30个标准mesh。为了确保风格化的多样性，每个mesh都使用五种不同的文本提示进行标注。发现“A 3Drendering of…unreal engine.”作为默认模板是较好的策略，因此没有特殊说明，所有mesh都会使用此提示模板进行标注。

5、自动评估指标

给定一个风格化的3D mesh，首先从24个固定视图渲染24个图像，利用8个方位角(0.0度、45.0度、90.0度、135度、180.0度、225度、270.0度、315.0度)和3个仰角(-30.0度、0.0度、30.0度)来渲染24个渲染图像。基于这24幅渲染图像和专家模型，提出两种自动评估度量。MES(Multi-view Expert Score)多视角期望得分用于评估风格化3D资产与目标文本的一致程度，而ITS(Iteration forTarget Score)迭代目标得分用于评估模型的收敛速度。

MES首先使用专家模型的视觉和文本编码器将24个渲染图像和相应的文本提示嵌入到共享空间中。然后，计算渲染图像和相应文本之间的余弦相似性分数，并通过平均它们来获得MES，如下所示：

其中和/>分别表示风格化的3Dmesh和相应的文本提示E'_v(·)和E'_t(·)是指专家模型的图像编码器和文本编码器。

ITS表示实现目标所需的最小迭代次数。例如，表示当时所需的最小迭代次数。在实验中，将每个mesh的最大训练迭代次数设置为1200。如果mesh在1200次迭代中未能达到目标，将此样本的ITS设置为2000。

具体实验结果如下：

图3展示本发明的风格化结果，从图中可以看出，风格化的mesh不仅忠于目标文本，视觉效果也是符合文本提示的，而且生成的结果在不同的视角有一致性。

图4展示本发明与Text2Mesh和TANGO的风格化的结果对比，从图上可以观察到Text2Mesh会产生不合理的变形，这可以归因于顶点的过度位移。另一方面，TANGO由于不会替换原始mesh的顶点，不会出现Text2Mesh中观察到的变形问题。然而，TANGO在风格化质量和文本理解方面仍存在一些不足。相比之下，本方法克服这两个问题，并通过对每个顶点进行适当的位移和颜色预测来生成符合目标文本的纹理。本方法将这一优势归因于在顶点属性预测期间引入文本的动态引导。通过结合动态文本指导，本方法能够生成与目标文本一致的更准确的结果。

图5展示本发明中TDAM模块的消融实验结果，图5中的结果表明，本发明提出的TDAM显著提高收敛速度，允许模型在100次迭代中达到可接受的结果。相反，没有TDAM的模型需要300多次迭代才能获得类似的结果。收敛速度的显著提高可以归因于\TDAM模块，该模块在属性预测过程中引入文本指导。因此，所提出的模型实现更快的收敛速度，使其成为文本驱动的3D风格化的有效解决方案。

图6展示有和没有TDAM的模型训练中每个mesh类别的损失变化图，这些曲线表明，在训练期间，具有TDAM的模型的损失值比不具有TDAM的模式的损失值降低得更快。所提出的模型的卓越性能表明，TDAM显著提高文本驱动的3D风格化的效率和有效性，使其成为3D内容创建的极具前景的工具。

图7展示有和没有TDAM的复杂文本提示生成的3D资产的效果，根据图中结果没有TDAM的模型在给出复杂提示时极易崩溃。最终的风格化结果失去正常的几何结构。这可能是由于文本无关属性预测很难将mesh与文本对齐。

表1文本驱动3D风格化的SOTA方法的定性比较

	BLEU-1	BLEU-2
			Text2Mesh	28.21	173.27
X-Mesh	29.26	88.53

表1总结文本驱动3D风格化的SOTA方法的定性比较。本发明提出的X-Mesh优于以前的方法。在MIT-30数据集上X-CLIP实现MES的0.41的绝对提高，表明本发明的方法比以前的作品产生更好的风格化质量。

Claims

1.基于动态文本引导的文本驱动3D风格化方法，其特征在于包括以下步骤：

4)提出标准的文本到mesh的基准数据集MIT-30；

5)提出两个自动评估指标以提供模型间更公平的对比标准。

2.如权利要求1所述基于动态文本引导的文本驱动3D风格化方法，其特征在于在步骤1)中，所述用文本引导的动态注意力模块来提高文本提示对目标纹理的引导效果的具体方法为：

将输入的文本提示经由CLIPTextEncoder编码，以及输入mesh的位置编码同时喂入动态线性层中，从而增强文本对目标纹理的引导作用。

3.如权利要求1所述基于动态文本引导的文本驱动3D风格化方法，其特征在于在步骤2)中，所述用动态通道和空间注意力获得对目标文本敏感的顶点特征，具体步骤包括：

表示元素乘积；

其中，表示通道注意力映射，η₂(·)表示动态MLP不与η₁(·)共享参数；获得空间激活的顶点特征/>如下：

4.如权利要求1所述基于动态文本引导的文本驱动3D风格化方法，其特征在于在步骤3)中，所述使用两个多层感知机分别提取颜色和位置特征，并使用可微渲染器对mesh进行渲染的具体步骤为：

将文本引导的动态注意力模块提取的特征通过两个MLP分支f_C(·)和f_p(·)，分别得到颜色偏移量ColorOffset和点的偏移量PositionOffset：

MLP(f_C(·))＝ΔC_p

MLP(f_p(·))＝ΔP_p

计算输入mesh上的颜色和坐标：C‘_p＝C_p+ΔC_p和P'_p＝P_p+ΔP_p，基于可插值的可微渲染器对mesh和仅包含几何形状的mesh的每个视角进行渲染。

5.如权利要求1所述基于动态文本引导的文本驱动3D风格化方法，其特征在于在步骤4)中，所述基准数据集MIT-30包括从各种公共3D数据集收集的30个未渲染的mesh；为确保风格化的多样性，每个mesh都使用五种不同的文本提示进行标注。

6.如权利要求1所述基于动态文本引导的文本驱动3D风格化方法，其特征在于在步骤5)中，所述两个自动评估指标为MES多视角期望得分用于评估风格化3D资产与目标文本的一致程度，而ITS迭代目标得分用于评估模型的收敛速度；

其中，N表示渲染图像的数量，和/>分别表示风格化的3Dmesh和相应的文本提示E'_v(·)和E'_t(·)是指专家模型的图像编码器和文本编码器；

ITS表示实现目标所需的最小迭代次数，表示最小迭代次数。