CN116910572B - 基于预训练语言模型的三维内容生成模型训练方法及装置 - Google Patents

基于预训练语言模型的三维内容生成模型训练方法及装置 Download PDF

Info

Publication number
CN116910572B
CN116910572B CN202311177094.5A CN202311177094A CN116910572B CN 116910572 B CN116910572 B CN 116910572B CN 202311177094 A CN202311177094 A CN 202311177094A CN 116910572 B CN116910572 B CN 116910572B
Authority
CN
China
Prior art keywords
noise
point cloud
dimensional content
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311177094.5A
Other languages
English (en)
Other versions
CN116910572A (zh
Inventor
杜国光
范宝余
王丽
郭振华
赵雅倩
李仁刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN202311177094.5A priority Critical patent/CN116910572B/zh
Publication of CN116910572A publication Critical patent/CN116910572A/zh
Application granted granted Critical
Publication of CN116910572B publication Critical patent/CN116910572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Architecture (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了基于预训练语言模型的三维内容生成模型训练方法及装置,应用于三维内容生成技术领域,包括:从第一训练数据集中获取三维内容以及三维内容的三维内容描述;三维内容描述包括三维内容对应的多个属性的文本描述;随机生成噪声以得到第一噪声,并将第一噪声添加至三维内容以得到第一噪声点云;利用三维内容描述、第一噪声点云以及扩散时间对第一扩散模型进行训练,得到三维内容生成模型;第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子。能够提升三维内容生成模型的性能,进而提升生成三维内容的准确性。

Description

基于预训练语言模型的三维内容生成模型训练方法及装置
技术领域
本发明涉及三维内容生成技术领域,特别涉及基于预训练语言模型的三维内容生成模型训练方法及装置、三维内容生成方法、电子设备、计算机可读存储介质。
背景技术
AIGC(Artificial Intelligence Generated Content,即人工智能内容生成),是指采用人工智能技术自动生产包括文本、音频、图像等模态的数字化内容,此外,AIGC还用于3D(即三维)内容的生成,也即3D内容智能生成技术,通过生成高质量、多样化的3D内容,作为3D数字资产广泛应用于虚拟现实、增强现实等行业。
目前的生成网络,文本形式的条件描述常使用整体编码的方式,也即被编码后直接注入生成网络,编码后的特征区分性不强,导致生成的3D内容与文本描述一致性较差。
发明内容
有鉴于此,本发明的目的在于提供基于预训练语言模型的三维内容生成模型训练方法及装置,能够提升三维内容生成模型的性能,进而提升生成三维内容的准确性。其具体方案如下:
第一方面,本发明公开了一种基于预训练语言模型的三维内容生成模型训练方法,包括:
从第一训练数据集中获取三维内容以及所述三维内容的三维内容描述;所述三维内容描述包括所述三维内容对应的多个属性的文本描述;
随机生成噪声以得到第一噪声,并将所述第一噪声添加至所述三维内容以得到第一噪声点云;
利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,得到三维内容生成模型;其中,所述第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子
可选的,所述第一扩散模型还包括点云描述子抽取结构、时间描述子抽取结构以及转换网络。
可选的,利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,包括:
将所述三维内容描述、所述第一噪声点云以及扩散时间输入第一扩散模型,并获取所述第一扩散模型预测的添加噪声以得到第二噪声;
基于所述第一噪声和所述第二噪声计算训练损失,并基于所述训练损失更新第一扩散模型的参数。
可选的,所述将所述三维内容描述、所述第一噪声点云以及扩散时间输入第一扩散模型,并获取所述第一扩散模型预测的添加噪声以得到第二噪声,包括:
将所述三维内容描述中每个属性的文本描述分别输入对应的条件描述子抽取结构,得到多个条件描述子抽取结构输出的多个条件描述子;
将所述第一噪声点云输入点云描述子抽取结构,得到点云描述子;
将所述扩散时间输入时间描述子抽取结构,得到时间描述子;
将所述多个条件描述子、所述点云描述子以及所述时间描述子输入所述转换网络,并基于所述转换网络的输出确定所述第一扩散模型预测的添加噪声以得到第二噪声。
可选的,所述第一扩散模型还包括连接于所述转换网络的预测噪声输出结构;相应的,所述基于所述转换网络的输出确定所述第一扩散模型预测的添加噪声以得到第二噪声,包括:
将所述转换网络的输出,输入至所述预测噪声输出结构并利用所述预测噪声输出结构将所述转换网络的输出转换至预设维数,得到第二噪声。
可选的,所述预测噪声输出结构为基于多层感知机确定的结构。
可选的,每个条件描述子抽取结构均包括一个图文比对预训练网络和多层感知机、所述点云描述子抽取结构以及时间描述子抽取结构均为基于多层感知机确定的结构。
可选的,利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,包括:逐个训练多个条件描述子抽取结构,在训练任一条件描述子抽取结构时,已训练完成的条件描述子抽取结构冻结,未训练的条件描述子抽取结构失活;
当所述多个条件描述子抽取结构均完成训练,则解冻所有冻结的条件描述子抽取结构,对所述第一扩散模型进行整体训练。
可选的,所述随机生成噪声以得到第一噪声,包括:
从标准正态分布中采样得到噪声,作为第一噪声。
可选的,第一噪声点云的计算公式为:
其中,xt为第一噪声点云,x0为添加噪声前的三维内容,为预设的随时间t变化的噪声权重系数,/>为第一噪声。
可选的,所述第一扩散模型之后还连接有上采样网络,用于对所述第一扩散模型生成的三维内容进行上采样。
可选的,所述上采样网络为第二扩散模型。
可选的,所述第二扩散模型的训练过程包括:
从第二训练数据集中获取三维内容以及该三维内容的三维内容描述;
对该三维内容进行采样,得到目标数量个点;
从所述目标数量点中采样预设数量个点,作为原始生成点云,剩余点作为上采样点云;
随机生成噪声以得到第三噪声,并将所述第三噪声添加至所述上采样点云以得到第二噪声点云;
将所述原始生成点云、该三维内容的三维内容描述、所述第二噪声点云以及扩散时间输入第二扩散模型,并获取所述第二扩散模型预测的添加噪声以得到第四噪声;
基于所述第三噪声和所述第四噪声计算训练损失,并基于该训练损失更新第二扩散模型的参数。
可选的,所述上采样网络为点云编解码结构。
可选的,点云编解码结构的训练过程包括:
从第三训练数据集中获取三维内容以及该三维内容的三维内容描述;
对该三维内容进行采样,得到目标数量个点;
从所述目标数量点中采样预设数量个点,作为原始生成点云,剩余点作为含真值上采样点云;
将该三维内容的三维内容描述以及原始生成点云输入点云编解码结构,得到点云编解码结构输出的上采样点云;
基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云计算训练损失,并基于该训练损失更新点云编解码结构的参数。
可选的,基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云计算训练损失,包括:
基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云以及原始生成点云计算训练损失。
可选的,所述基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云以及原始生成点云计算训练损失,包括:
基于公式loss=α*lossdis+β*lossfar计算训练损失;α和β为平衡权重;并且,
其中,G表示含真值上采样点云、G’表示所述点云编解码结构输出的上采样点云,K表示原始生成点云,p表示G’中的点,q表示G中的点,w表示K中的点。
第二方面,本发明公开了一种三维内容生成方法,包括:
获取目标描述以及目标噪声点云;所述目标描述为多个属性的文本描述;
将所述目标描述以及目标噪声点云输入三维内容生成模型,得到目标三维内容;其中,所述三维内容生成模型根据前述的基于预训练语言模型的三维内容生成模型训练方法训练得到。
可选的,所述获取目标描述,包括:
将用户输入文本以及针对多个属性的问题输入预训练语言问答模型,得到各属性对应的文本描述以及该文本描述对应的确信程度;
若任一文本描述对应的确信程度小于预设阈值,则基于所述预训练语言问答模型生成相应的文本描述;
将所述确信程度大于或等于所述预设阈值的文本描述以及所述预训练语言问答模型生成的文本描述确定为目标描述。
第三方面,本发明公开了一种三维内容生成模型训练装置,包括:
训练数据获取模块,用于从第一训练数据集中获取三维内容以及所述三维内容的三维内容描述;所述三维内容描述包括所述三维内容对应的多个属性的文本描述;
噪声点云获取模块,用于随机生成噪声以得到第一噪声,并将所述第一噪声添加至所述三维内容以得到第一噪声点云;
生成模型训练模块,用于利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,得到三维内容生成模型;其中,所述第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子。
第四方面,本发明公开了一种电子设备,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现前述的基于预训练语言模型的三维内容生成模型训练方法,和/或,前述的三维内容生成方法。
第五方面,本发明公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的基于预训练语言模型的三维内容生成模型训练方法,和/或,前述的三维内容生成方法。
可见,本发明从第一训练数据集中获取三维内容以及所述三维内容的三维内容描述;所述三维内容描述包括所述三维内容对应的多个属性的文本描述;随机生成噪声以得到第一噪声,并将所述第一噪声添加至所述三维内容以得到第一噪声点云;利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,得到三维内容生成模型;其中,所述第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子。也即,本发明中,采用的训练数据为三维内容以及三维内容的三维内容描述,三维内容描述包括三维内容对应的多个属性的文本描述,第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子。
本发明的有益效果在于,在训练过程中,通过多个条件描述子抽取结构对多个属性的文本描述分别编码,能够提升三维内容生成模型的性能,进而提升生成三维内容的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种三维内容生成模型方法流程图;
图2为本发明实施例提供的一种第一扩散模型结构示意图;
图3为本发明实施例提供的一种模型训练策略示意图;
图4为本发明实施例提供的一种上采样网络结构示意图;
图5为本发明实施例提供的另一种上采样网络结构示意图;
图6为本发明实施例提供的一种三维内容生成方法流程图;
图7为本发明实施例提供的一种三维内容生成示意图;
图8为本发明实施例提供的一种三维内容生成模型训练装置结构示意图;
图9为本发明实施例提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
人工智能是推动全球数字化发展的重要技术,正在引领新一轮科技和产业变革。人工智能内容生成,是指采用人工智能技术自动生产包括文本、音频、图像等模态的数字化内容,能够极大提升影视、娱乐、传媒等行业内容创作者的工作效率和质量,加速企业数字化和智能化进程。除文本、图像外,AIGC还用于3D内容的生成,也即3D内容智能生成技术,通过生成高质量、多样化的3D内容,作为3D数字资产广泛应用于虚拟现实、增强现实等行业。根据是否使用条件,3D内容智能生成可以分为无条件生成(Unconditional Generation)和有条件生成(Conditional Generation)。无条件生成,是指使用深度神经网络,直接学习得到3D内容的数据分布,之后从数据分布中采样生成新的3D内容;有条件生成,是指给定条件输入,通过合理的条件引入方式,控制深度神经网络生成与条件要求一致的3D内容。相比而言,有条件生成能够满足人们的应用需求,具有更高的应用价值,而本发明重点也在于如何提升有条件3D内容生成的效果。
常用的符合人类交互的条件控制方式是通过语言描述,也即文本描述,生成对应的3D内容,然而,由于缺少文本和3D成对的数据集,3D内容的生成质量较差。近年来,以CLIP(即Contrastive Language-Image Pre-training,图文对比预训练模型)为代表的图文大规模预训练模型的出现,有效缓解了对文本和3D成对数据集的依赖,极大了提升了有条件3D内容生成的能力。根据图文大规模预训练模型控制生成方式的不同,可以分为生成后引导的3D内容生成和生成前控制的3D内容生成。生成后引导的3D内容生成,是指在无条件生成3D内容后,使用图文大规模预训练模型,判定3D内容生成结果与给定文本条件的相似程度,调整生成过程以实现控制生成。生成前控制的3D内容生成是指借助图文大规模预训练模型将条件信号进行编码,在训练生成模型的过程中加入编码后的条件特征实现控制生成。生成后引导的3D内容生成,由于没有引入条件控制信号在生成细节上表现较差,而生成前控制的3D内容生成,通过显式的引入条件控制信号,可以实现高质量的3D内容生成。
然而,在生成前控制的3D内容生成方法中,文本形式的条件描述常使用整体编码的方式,也即被编码后直接注入生成网络。编码后的特征区分性不强,导致生成的3D内容与文本描述一致性较差。为此,本发明提供了一种三维内容生成模型训练及三维内容生成方案,能够提升三维内容生成模型的性能,进而提升生成三维内容的准确性。
参见图1所示,本发明实施例公开了一种基于预训练语言模型的三维内容生成模型训练方法,包括:
步骤S11:从第一训练数据集中获取三维内容以及所述三维内容的三维内容描述;所述三维内容描述包括所述三维内容对应的多个属性的文本描述。
其中,属性是对三维内容的特征的描述,多个属性可以包括但不限于概念、几何、颜色、材质等属性,概念属性表明是什么类别的物体,几何属性表明是什么样的几何形状,颜色属性表明具有什么样的颜色风格,材质属性表明具有什么样的材质。也即,本发明实施例对文本条件进行细粒度的描述,也即将三维内容的整体条件描述分解为针对概念描述、几何描述、颜色描述、材质描述等细粒度属性的描述,分别被编码控制三维内容的生成,则能够有效提升三维内容生成的准确性。并且,在一种实施方式中,本发明使用预训练语言问答模型进行问答,得到三维内容对应的多个属性的文本描述。
并且,三维内容即三维点云,为带颜色的三维点云,具体形式为一个K×6维度的张量,其中K代表点云的数量,六维中有三维代表(x,y,z)坐标、三维代表每个点的(R,G,B)颜色。
步骤S12:随机生成噪声以得到第一噪声,并将所述第一噪声添加至所述三维内容以得到第一噪声点云。
在具体的实施方式中,可以从标准正态分布中采样得到噪声,作为第一噪声。第一噪声点云的计算公式为:
其中,xt为第一噪声点云,x0为添加噪声前的三维内容,为预设的随时间t变化的噪声权重系数,/>为第一噪声。
步骤S13:利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,得到三维内容生成模型;其中,所述第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子。
其中,所述第一扩散模型还包括点云描述子抽取结构、时间描述子抽取结构以及转换网络(即Transformer)。每个条件描述子抽取结构均包括一个图文比对预训练网络和多层感知机、所述点云描述子抽取结构以及时间描述子抽取结构均为基于多层感知机确定的结构。
并且,在具体的实施方式中,可以将所述三维内容描述、所述第一噪声点云以及扩散时间输入第一扩散模型,并获取所述第一扩散模型预测的添加噪声以得到第二噪声;基于所述第一噪声和所述第二噪声计算训练损失,并基于所述训练损失更新第一扩散模型的参数。
进一步的,在具体的实施方式中,可以将所述三维内容描述中每个属性的文本描述分别输入对应的条件描述子抽取结构,得到多个条件描述子抽取结构输出的多个条件描述子;将所述第一噪声点云输入点云描述子抽取结构,得到点云描述子;将所述扩散时间输入时间描述子抽取结构,得到时间描述子;将所述多个条件描述子、所述点云描述子以及所述时间描述子输入所述转换网络,并基于所述转换网络的输出确定所述第一扩散模型预测的添加噪声以得到第二噪声。
并且,所述第一扩散模型还包括连接于所述转换网络的预测噪声输出结构;相应的,本发明实施例可以将所述转换网络的输出,输入至所述预测噪声输出结构并利用所述预测噪声输出结构将所述转换网络的输出转换至预设维数,得到第二噪声。其中,所述预测噪声输出结构为基于多层感知机确定的结构。
进一步的,在一种实施方式中,可以逐个训练多个条件描述子抽取结构,在训练任一条件描述子抽取结构时,已训练完成的条件描述子抽取结构冻结,未训练的条件描述子抽取结构失活;当所述多个条件描述子抽取结构均完成训练,则解冻所有冻结的条件描述子抽取结构,对所述第一扩散模型进行整体训练。需要指出的是,在训练任一条件描述子抽取结构时,将当前训练条件描述子抽取结构激活,已训练完成的条件描述子抽取结构冻结,未训练的条件描述子抽取结构失活,将所述三维内容描述、所述第一噪声点云以及扩散时间输入第一扩散模型,计算损失,更新模型参数时,更新当前训练的条件描述子抽取结构、点云描述子抽取结构、时间描述子抽取结构、转换网络、预测噪声输出结构的参数。
需要指出的是,在众多深度生成模型中,DDPM(即Denoising DiffusionProbabilistic Model,去噪扩散概率模型)通过预测每一次扩散添加的噪声并进行多次去噪逐步提高生成质量,取得了高质量的图像生成结果。3D内容存在多种不规则的表示形式,为了将DDPM应用于3D内容的高质量生成,使用显式的点云形式的3D内容表示方法,也即3D内容数据库中的3D模型都由带颜色3D点云来表示,具体形式为一个K×6维度的张量,其中K代表点云的数量,六维中有三维代表(x,y,z)坐标、三维代表每个点的(R,G,B)颜色。希望通过3D内容生成模型,直接得到带颜色的3D点云。如果是无条件生成,可以使用基于Transformer的结构,基于噪声点云和时间t,逐步预测点云的噪声,最后得到目标3D点云。
为了进行细粒度的条件控制生成,本发明实施例将多通道的文本条件进行编码,与噪声点云和时间t进行链接,多通道即多个属性,设计了一个多通道细粒度条件控制的3D内容生成网络架构也即前述第一扩散模型,参见图2所示,图2为本发明实施例公开的一种第一扩散模型结构示意图。
首先,多通道细粒度初始描述子生成:直接从头开始训练文本描述子提取网络,往往取得的效果较差。因此,本发明实施例借助图文大规模预训练模型CLIP,将m个通道的细粒度条件如概念文本描述、几何文本描述、颜色文本描述、材质文本描述等,分别进行特征抽取,得到m个维度为256×d'的细粒度初始描述子。
进一步的,多通道细粒度控制描述子生成:CLIP是用于文本和图像语义对齐的大规模预训练模型,抽取得到的初始描述子用于条件生成效果可能较差;因此,设计MLP(即Multi-Layer Perception,多层感知机)网络,将初始描述子,由256×d'转换到256×d维细粒度控制描述子;MLP网络结构可以灵活设置,例如可以设置MLP(d',2d)和MLP(2d,d)两层。针对m个通道,都进行转换,得到m个维度为256×d的细粒度控制描述子;d一般可取512、1024或者2048,越大的取值对应越大的网络参数量。
进一步的,基于输入的多通道控制描述子、扩散时间t和噪声点云,设计基于Transformer网络的扩散模型,预测每一个扩散时间t下需要去除的噪声。为了将扩散时间t输入扩散模型,使用MLP网络,将扩散时间t由一维转换到1×d扩散时间生成描述子;同样地,为了将噪声点云输入扩散模型,也使用MLP网络,将输入的初始噪声点云由K×6转换到K×d维点云生成描述子。这样,就获得了Transformer模型的输入,即(256×m+1+K)×d维度。在输出维度,取Transformer模型输出的最后K个位置特征作为扩散输出描述子,并使用MLP网络转换到K×6维预测的点云噪声,即针对3D点云中每个点预测的要去除的噪声;K可以取512、1024或者2048,代表3D点云的点数目。
训练时,3D内容生成网络会输入扩散时间t、噪声点云xt,以及细粒度文本条件conditions,输出预测的每一次扩散添加的噪声(xt,t,conditions)。其中,扩散时间t随机从t∈[1,T]采样,一般设置为1024;噪声点云xt的计算公式如下:
其中,x0为没有噪声的3D点云,为预设的随时间t变化的噪声权重系数, />~N(0,I)为从标准正态分布中采样的一个噪声;这样就获得了训练网络所需要的输入和输出,通过最小化损失函数‖/>-/>(xt,t,conditions)‖^2进行网络训练。
进一步的,为了适配多通道细粒度条件控制的3D内容生成,设计了一种多通道细粒度适配的模型训练策略,通过递进式地逐步训练单个细粒度的描述子抽取网络,以便实现整个网络稳定高效的训练,参见图3所示,图3为本发明实施例提供的一种模型训练策略示意图:
第一步,针对m个通道的细粒度条件,使粒度1处于激活状态,其余m-1个粒度处于失活状态,结合扩散时间t、噪声点云xt共同训练第一版网络模型;
第二步,冷冻粒度1通道已训练得到的描述子抽取网络,使粒度2处于激活状态,其余m-2个粒度处于失活状态,结合扩散时间t、噪声点云xt共同训练第二版网络模型;
第三步,逐步进行第一步和第二步,直至m个通道的描述子抽取网络都被训练完毕;
第四步,解冻m个通道的描述子抽取网络,整体训练进行微调,完成整个多通道细粒度条件控制的3D内容生成网络的训练。
通过多通道细粒度适配的模型训练策略,能够有效避免训练过程不可控问题,加快收敛速度,实现每一个通道细粒度条件的有效控制生成,高效完成网络模型的训练。
模型推理时,首先从一个高斯分布中任意采样得到噪声点云;其次,将多通道细粒度条件分别抽取得到细粒度控制描述子;再次,对于t时刻,预测噪声,将t时刻噪声点云xt减去/>即可得到xt-1,令t从T开始直到1,逐步完成去除噪声的过程,最后得到的x0即为最终的根据多通道细粒度条件生成的带颜色3D点云。
进一步的,在一种优选的实施例中,所述第一扩散模型之后还连接有上采样网络,用于对所述第一扩散模型生成的三维内容进行上采样。
在一种实施方式中,所述上采样网络为第二扩散模型。所述第二扩散模型的训练过程包括:从第二训练数据集中获取三维内容以及该三维内容的三维内容描述;对该三维内容进行采样,得到目标数量个点;从所述目标数量点中采样预设数量个点,作为原始生成点云,剩余点作为上采样点云;随机生成噪声以得到第三噪声,并将所述第三噪声添加至所述上采样点云以得到第二噪声点云;将所述原始生成点云、该三维内容的三维内容描述、所述第二噪声点云以及扩散时间输入第二扩散模型,并获取所述第二扩散模型预测的添加噪声以得到第四噪声;基于所述第三噪声和所述第四噪声计算训练损失,并基于该训练损失更新第二扩散模型的参数。
在另一种实施方式中,所述上采样网络为点云编解码结构。点云编解码结构的训练过程包括:从第三训练数据集中获取三维内容以及该三维内容的三维内容描述;对该三维内容进行采样,得到目标数量个点;从所述目标数量点中采样预设数量个点,作为原始生成点云,剩余点作为含真值上采样点云;将该三维内容的三维内容描述以及原始生成点云输入点云编解码结构,得到点云编解码结构输出的上采样点云;基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云计算训练损失,并基于该训练损失更新点云编解码结构的参数。
在一种具体的实施方式中,可以基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云以及原始生成点云计算训练损失。具体的:
基于公式loss=α*lossdis+β*lossfar计算训练损失;α和β为平衡权重;并且,
其中,G表示含真值上采样点云、G’表示所述点云编解码结构输出的上采样点云,K表示原始生成点云,p表示G’中的点,q表示G中的点,w表示K中的点,lossdis表示距离损失,lossfar表示惩罚损失。
也即,为了进一步提升生成3D点云的质量,本发明实施例增加了上采样模块,这样,在已生成的少量点云基础上,额外生成一些新的点云,使点云更稠密,体现更多的3D点云细节。由于该过程仍是一个条件生成问题,因此,既可以使用基于扩散生成模型的点云上采样方法,也可以使用基于编解码结构的点云上采样方法。
在一种实施方式中,为了能够生成更高质量的上采样点云,本发明采用一种基于扩散生成模型的点云上采样网络模型。上采样任务相比于直接生成任务相对简单,因此,本发明在这里仅考虑3D内容的整体文本描述作为条件之一输入;同时,将已生成的少量点云,作为初始点云条件输入,共同扩散生成目标上采样点云。参见图4所示,图4为本发明实施例提供的一种上采样网络结构示意图。令K代表已生成点云数量,目标是生成额外上采样的G个点云,使整体细节更丰富。
其中,3D内容文本描述控制描述子生成:针对3D内容的整体文本描述,首先基于用于文本和图像语义对齐的CLIP大规模预训练模型,抽取得到256×d'的初始描述子;其次,设计多层感知机网络,将初始描述子,由256×d'转换到256×d维的3D内容控制描述子;
进一步的,原始生成3D点云控制描述子生成:原始生成的3D点云,能够提供整体3D内容结构的监督,上采样点云需要分布在这些初始点云周围。为了更好的抽取特征作为条件输入,本发明使用多层感知机网络,将初始3D点云,由K×3转换到K×d维;
基于Transformer的扩散生成模型设计:首先,使用MLP网络,将扩散时间t由一维转换到1×d扩散时间生成描述子;其次,随机生成G×3维噪声上采样点云,使用MLP网络,转换到G×d维度;这样就得到了基于Transformer网络的扩散生成模型输入,即(256+1+K+G)×d维度。在输出维度,本发明取Transformer模型输出的最后G个位置特征作为扩散输出描述子,并使用MLP网络转换到G×3维预测的上采样点云噪声,即针对上采样3D点云中每个点预测的要去除的噪声;G通常可以取K的三倍、五倍等;
模型训练训练时,数据集中包含原始的高质量3D点云,首先可以将其采样得到K+G个点数目,之后通过随机采样K个点,作为原始生成点云,剩余G个点,作为上采样点云,可以获得训练数据。
首先,生成带噪声上采样点云xt,其计算方法如下:
其中,x0为没有噪声的上采样3D点云,为预设的随时间t变化的噪声权重系数,~N(0,I)为从标准正态分布中采样的一个噪声;其次,根据网络输入的扩散时间t、噪声点云xt,以及3D内容文本条件Conditiontext,原始生成点云条件Conditionpoint,输出预测的每一次扩散添加的噪声/>(xt,t,Conditiontext,Conditionpoint),通过最小化损失函数‖/>-/>(xt,t,Conditiontext,Conditionpoint)‖^2进行网络训练。
进一步的,在另一种实施方式中,还可以使用点云编解码结构,实现点云的上采样,与扩散生成模型相比,速度较快。参见图5所示,图5为本发明实施例公开的另一种上采样网络结构示意图,具体模块如下。
a.3D内容文本描述控制描述子生成:针对3D内容的整体文本描述,首先基于用于文本和图像语义对齐的CLIP大规模预训练模型,抽取得到256×d'的初始描述子;其次,设计多层感知机网络,将初始描述子,由256×d'转换到256×d维的3D内容控制描述子;最后,再使用MLP网络,得到1×256维3D内容文本描述编码描述子。
b.点云编码模块:针对输入的K×3个3D点云,本发明使用多层MLP网络,抽取得到K×2048维描述子;之后,进行池化操作得到1×2048维全局描述子,作为原始生成点云编码描述子;
c.点云解码模块:将3D内容文本描述编码描述子和原始生成点云编码描述子联合,可以得到1×2304维联合描述子;为了上采样新增G个新的3D点,本发明将联合描述子复制G份,得到G×2304维描述子;之后,经过多层MLP网络,最终得到G×3维度的结果向量,代表了上采样新增的G个3D点的3D坐标;
网络训练过程中,数据集中包含真值的上采样点云,因此,可以使用度量两片点云距离差异的损失函数,指导网络训练,具体地,令网络生成的上采样点云为G',真值的上采样点云为G,则距离损失函数为:
其中,第一项代表对于每一个G'中的点p,寻找G中的最近邻点q,并将所有点的距离累加;第二项代表对于每一个G中的点q,寻找G'中的最近邻点p,并将所有点的距离累加。通过该损失函数,可以使得生成的上采样点云,与真值上采样点云,非常接近。
另外,为了避免上采样的点云与原始生成点云的坐标重叠,新增一个惩罚loss(损失),也即使新增的点,与原始生成的K个3D点保持一定距离,因此,新增损失函数:
K表示原始生成点云,w表示K中的点,避免上采样的点与原始K个点距离为0。
因此,网络的最终损失函数为:loss=α*lossdis+β*lossfar,其中α和β为平衡权重,可以依训练情况而定,保证以距离损失为主,惩罚损失为辅。
进一步,参见图6所示,本发明实施例公开了一种三维内容生成方法,包括:
S21:获取目标描述以及目标噪声点云;所述目标描述为多个属性的文本描述。
在一种实施方式中,可以将用户输入文本以及针对多个属性的问题输入预训练语言问答模型,得到各属性对应的文本描述以及该文本描述对应的确信程度;若任一文本描述对应的确信程度小于预设阈值,则基于所述预训练语言问答模型生成相应的文本描述;将所述确信程度大于或等于所述预设阈值的文本描述以及所述预训练语言问答模型生成的文本描述确定为目标描述。
在另一种实施例方式中,通过用户终端向用户询问多个属性的问题,得到多个属性的文本描述,作为目标描述。
S22:将所述目标描述以及目标噪声点云输入三维内容生成模型,得到目标三维内容;其中,所述三维内容生成模型根据前述的基于预训练语言模型的三维内容生成模型训练方法训练得到。
可见,本发明实施例基于多个属性的文本描述,利用包含针对多个属性的多个条件描述子抽取结构进行三维内容生成,能够保障生成的三维内容更加准确。
另外,本发明实施例在目标三维内容可以利用上采样网络进行上采样,进一步提高生成点云的分辨率。
在具体的实施方式中,本发明实施例可以基于训练得到的网络模型参数,将该模型结构部署于实际的硬件平台上,则能够根据用户的文本条件输入,控制3D内容生成。然而,用户的条件输入多种多样且描述不清晰,因此,为了能够自动化地得到细粒度的文本描述,设计了一种基于大规模预训练模型的用户输入细粒度理解方法,能够得到细粒度的文本描述,再通过部署后的3D内容生成模型生成带颜色点云表示的3D内容,完成细粒度的3D内容生成。参见图7所示,图7为本发明实施例公开的一种三维内容生成示意图。具体包括以下步骤:
1)将用户文本输入,连同针对m个属性的问题,输入大规模预训练模型如GPT(即Generative Pre-trained Transformer,生成式预训练变换模型)-4,得到各个属性的细粒度文本描述。例如,针对概念属性,提问“用户想要的3D内容是什么?”,针对几何属性,提问“用户描述的物体具有什么样的几何结构?”,针对颜色属性,提问“用户描述物体的颜色风格是什么样的?”,针对材质属性,提问“用户描述物体具有什么样的材质?”等问题,可以得到如概念、几何、颜色、材质等细粒度属性的文本描述。此外,还要求大规模预训练模型额外回答针对每个问题从0到100%的确信程度;
2)如果针对某一回答的确信程度小于60%,也即大规模预训练模型不能够从用户的输入中很确信的了解到用户描述内容的属性信息,则要求大规模预训练模型基于自身认知能力,输出基于用户描述最接近物体的该属性的描述。例如,假如用户的输入没有包含颜色信息,则可以向大模型提问“用户描述的物体,最有可能具有什么样的颜色和风格?”等问题,得到用户输入关于颜色属性的细粒度描述;针对其他属性同理;通过这种方式,能够借助大规模预训练模型的强大认知能力,提供用户条件输入以外的细粒度知识,以便更好的生成用户想要的内容;
3)如果针对某一回答的确信程度大于60%,也即大规模预训练模型能够从用户的输入中很确信的了解到用户描述内容的属性信息,则将该细粒度文本描述作为最终3D内容生成模型的输入;
4)最后,通过部署后的3D内容生成模型,生成带颜色点云表示的3D内容,完成细粒度的3D内容生成。
另外,本发明不仅能够生成更符合用户需求的3D内容,还可以通过不同文本描述的组合,生成大量的相同类别几何相同而颜色风格不同,或者几何结构不同而颜色风格相同的大量3D内容,极大提升3D内容创作的多样性。另外,本方法扩展性较好,可以采用交互的用户输入策略,也即通过询问用户的方式,得到3D内容细粒度属性的描述,除本文使用的基于扩散模型的3D内容生成方法外,也可以使用其他能够有效编码细粒度文本描述的3D内容生成模型。
也即,本发明可以充分挖掘大规模预训练模型强大认知能力,首先基于大规模预训练模型生成细粒度描述3D内容数据集;其次设计多通道细粒度条件控制的3D内容生成网络模型,基于构建的3D内容数据集训练生成模型;最后,在推理时基于大规模预训练模型进行用户输入细粒度理解,以生成符合用户条件输入的3D内容。通过引入细粒度的属性描述,能够有效提升有条件3D内容生成结果的准确性。
参见图8所示,本发明实施例提供了一种三维内容生成模型训练装置,包括:
训练数据获取模块11,用于从第一训练数据集中获取三维内容以及所述三维内容的三维内容描述;所述三维内容描述包括所述三维内容对应的多个属性的文本描述;
噪声点云获取模块12,用于随机生成噪声以得到第一噪声,并将所述第一噪声添加至所述三维内容以得到第一噪声点云;
生成模型训练模块13,用于利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,得到三维内容生成模型;其中,所述第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子。
可见,本发明从第一训练数据集中获取三维内容以及所述三维内容的三维内容描述;所述三维内容描述包括所述三维内容对应的多个属性的文本描述;随机生成噪声以得到第一噪声,并将所述第一噪声添加至所述三维内容以得到第一噪声点云;利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练;其中,所述第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子;当满足预设训练停止条件,则将当前的第一扩散模型确定为三维内容生成模型。也即,本发明中,采用的训练数据为三维内容以及三维内容的三维内容描述,三维内容描述包括三维内容对应的多个属性的文本描述,第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子。这样,在训练过程中,通过多个条件描述子抽取结构对多个属性的文本描述分别编码,能够提升三维内容生成模型的性能,进而提升生成三维内容的准确性。
其中,所述第一扩散模型还包括点云描述子抽取结构、时间描述子抽取结构以及转换网络。
生成模型训练模块13,用于将所述三维内容描述、所述第一噪声点云以及扩散时间输入第一扩散模型,并获取所述第一扩散模型预测的添加噪声以得到第二噪声;基于所述第一噪声和所述第二噪声计算训练损失,并基于所述训练损失更新第一扩散模型的参数。具体的,将所述三维内容描述中每个属性的文本描述分别输入对应的条件描述子抽取结构,得到多个条件描述子抽取结构输出的多个条件描述子;将所述第一噪声点云输入点云描述子抽取结构,得到点云描述子;将所述扩散时间输入时间描述子抽取结构,得到时间描述子;将所述多个条件描述子、所述点云描述子以及所述时间描述子输入所述转换网络,并基于所述转换网络的输出确定所述第一扩散模型预测的添加噪声以得到第二噪声。
在一种实施方式中,所述第一扩散模型还包括连接于所述转换网络的预测噪声输出结构;相应的,所述基于所述转换网络的输出确定所述第一扩散模型预测的添加噪声以得到第二噪声,包括:将所述转换网络的输出,输入至所述预测噪声输出结构并利用所述预测噪声输出结构将所述转换网络的输出转换至预设维数,得到第二噪声。
其中,所述预测噪声输出结构为基于多层感知机确定的结构。每个条件描述子抽取结构均包括一个图文比对预训练网络和多层感知机、所述点云描述子抽取结构以及时间描述子抽取结构均为基于多层感知机确定的结构。
生成模型训练模块13,还用于逐个训练多个条件描述子抽取结构,在训练任一条件描述子抽取结构时,已训练完成的条件描述子抽取结构冻结,未训练的条件描述子抽取结构失活;当所述多个条件描述子抽取结构均完成训练,则解冻所有冻结的条件描述子抽取结构,对所述第一扩散模型进行整体训练。
噪声点云获取模块12包括第一噪声生成子模块;
其中,第一噪声生成子模块用于随机生成噪声以得到第一噪声,具体用于从标准正态分布中采样得到噪声,作为第一噪声。
另外,第一噪声点云的计算公式为:
其中,xt为第一噪声点云,x0为添加噪声前的三维内容,为预设的随时间t变化的噪声权重系数,/>为第一噪声。
进一步的,所述第一扩散模型之后还连接有上采样网络,用于对所述第一扩散模型生成的三维内容进行上采样。相应的,所述装置还包括上采样网络训练模块。
在一种实施方式中,所述上采样网络为第二扩散模型。上采样网络训练模块,具体用于从第二训练数据集中获取三维内容以及该三维内容的三维内容描述;对该三维内容进行采样,得到目标数量个点;从所述目标数量点中采样预设数量个点,作为原始生成点云,剩余点作为上采样点云;随机生成噪声以得到第三噪声,并将所述第三噪声添加至所述上采样点云以得到第二噪声点云;将所述原始生成点云、该三维内容的三维内容描述、所述第二噪声点云以及扩散时间输入第二扩散模型,并获取所述第二扩散模型预测的添加噪声以得到第四噪声;基于所述第三噪声和所述第四噪声计算训练损失,并基于该训练损失更新第二扩散模型的参数。
在另一种实施方式中,所述上采样网络为点云编解码结构。上采样网络训练模块具体用于从第三训练数据集中获取三维内容以及该三维内容的三维内容描述;对该三维内容进行采样,得到目标数量个点;从所述目标数量点中采样预设数量个点,作为原始生成点云,剩余点作为含真值上采样点云;将该三维内容的三维内容描述以及原始生成点云输入点云编解码结构,得到点云编解码结构输出的上采样点云;基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云计算训练损失,并基于该训练损失更新点云编解码结构的参数。
其中,可以基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云以及原始生成点云计算训练损失。
具体的,基于公式loss=α*lossdis+β*lossfar计算训练损失;α和β为平衡权重;并且,
其中,G表示含真值上采样点云、G’表示所述点云编解码结构输出的上采样点云,K表示原始生成点云,p表示G’中的点,q表示G中的点,w表示K中的点,lossdis表示距离损失,lossfar表示惩罚损失。
参见图8所示,本发明实施例公开了一种电子设备20,包括处理器21和存储器22;其中,所述存储器22,用于保存计算机程序;所述处理器21,用于执行所述计算机程序,前述实施例公开的基于预训练语言模型的三维内容生成模型训练方法,和/或,三维内容生成方法。
关于上述基于预训练语言模型的三维内容生成模型训练方法,和/或,三维内容生成方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
并且,所述存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,存储方式可以是短暂存储或者永久存储。
另外,所述电子设备20还包括电源23、通信接口24、输入输出接口25和通信总线26;其中,所述电源23用于为所述电子设备20上的各硬件设备提供工作电压;所述通信接口24能够为所述电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议,在此不对其进行具体限定;所述输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
进一步的,本发明实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的基于预训练语言模型的三维内容生成模型训练方法,和/或,三维内容生成方法。
关于上述基于预训练语言模型的三维内容生成模型训练方法,和/或,三维内容生成方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种基于预训练语言模型的三维内容生成模型训练方法,其特征在于,包括:
从第一训练数据集中获取三维内容以及所述三维内容的三维内容描述;所述三维内容描述包括所述三维内容对应的多个属性的文本描述;
随机生成噪声以得到第一噪声,并将所述第一噪声添加至所述三维内容以得到第一噪声点云;
利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,得到三维内容生成模型;其中,所述第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子;
所述第一扩散模型还包括点云描述子抽取结构、时间描述子抽取结构以及转换网络;
每个所述条件描述子抽取结构均包括一个图文比对预训练网络和多层感知机、所述点云描述子抽取结构以及所述时间描述子抽取结构均为基于所述多层感知机确定的结构;所述利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,包括:
将所述三维内容描述、所述第一噪声点云以及所述扩散时间输入所述第一扩散模型,并获取所述第一扩散模型预测的添加噪声以得到第二噪声;
基于所述第一噪声和所述第二噪声计算训练损失,并基于所述训练损失更新所述第一扩散模型的参数;
所述将所述三维内容描述、所述第一噪声点云以及所述扩散时间输入所述第一扩散模型,并获取所述第一扩散模型预测的添加噪声以得到第二噪声,包括:
将所述三维内容描述中每个属性的文本描述分别输入对应的所述条件描述子抽取结构,得到所述多个条件描述子抽取结构输出的多个条件描述子;
将所述第一噪声点云输入所述点云描述子抽取结构,得到点云描述子;
将所述扩散时间输入所述时间描述子抽取结构,得到时间描述子;
将所述多个条件描述子、所述点云描述子以及所述时间描述子输入所述转换网络,并基于所述转换网络的输出确定所述第一扩散模型预测的所述添加噪声以得到所述第二噪声。
2.根据权利要求1所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述第一扩散模型还包括连接于所述转换网络的预测噪声输出结构;相应的,所述基于所述转换网络的输出确定所述第一扩散模型预测的所述添加噪声以得到所述第二噪声,包括:
将所述转换网络的输出,输入至所述预测噪声输出结构并利用所述预测噪声输出结构将所述转换网络的输出转换至预设维数,得到所述第二噪声。
3.根据权利要求2所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述预测噪声输出结构为基于所述多层感知机确定的结构。
4.根据权利要求1所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,包括:
逐个训练所述多个条件描述子抽取结构,在训练任一所述条件描述子抽取结构时,已训练完成的所述条件描述子抽取结构冻结,未训练的所述条件描述子抽取结构失活;
当所述多个条件描述子抽取结构均完成训练,则解冻所有冻结的所述条件描述子抽取结构,对所述第一扩散模型进行整体训练。
5.根据权利要求1所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述随机生成噪声以得到第一噪声,包括:
从标准正态分布中采样得到噪声,作为所述第一噪声。
6.根据权利要求1所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述第一噪声点云的计算公式为:
其中,xt为第一噪声点云,x0为添加噪声前的三维内容,为预设的随时间t变化的噪声权重系数,/>为所述第一噪声。
7.根据权利要求1所述基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述第一扩散模型之后还连接有上采样网络,用于对所述第一扩散模型生成的所述三维内容进行上采样。
8.根据权利要求7所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述上采样网络为第二扩散模型。
9.根据权利要求8所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述第二扩散模型的训练过程包括:
从第二训练数据集中获取所述三维内容以及所述三维内容的三维内容描述;
对所述三维内容进行采样,得到目标数量个点;
从所述目标数量点中采样预设数量个点,作为原始生成点云,剩余点作为上采样点云;
随机生成噪声以得到第三噪声,并将所述第三噪声添加至所述上采样点云以得到第二噪声点云;
将所述原始生成点云、所述三维内容的三维内容描述、所述第二噪声点云以及所述扩散时间输入所述第二扩散模型,并获取所述第二扩散模型预测的添加噪声以得到第四噪声;
基于所述第三噪声和所述第四噪声计算训练损失,并基于该训练损失更新所述第二扩散模型的参数。
10.根据权利要求7所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述上采样网络为点云编解码结构。
11.根据权利要求10所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述点云编解码结构的训练过程包括:
从第三训练数据集中获取所述三维内容以及所述三维内容的三维内容描述;
对所述三维内容进行采样,得到目标数量个点;
从所述目标数量点中采样预设数量个点,作为原始生成点云,剩余点作为含真值上采样点云;
将所述三维内容的三维内容描述以及所述原始生成点云输入所述点云编解码结构,得到所述点云编解码结构输出的上采样点云;
基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云计算训练损失,并基于该训练损失更新所述点云编解码结构的参数。
12.根据权利要求11所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云计算训练损失,包括:
基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云以及所述原始生成点云计算训练损失。
13.根据权利要求12所述的基于预训练语言模型的三维内容生成模型训练方法,其特征在于,所述基于所述含真值上采样点云、所述点云编解码结构输出的上采样点云以及所述原始生成点云计算训练损失,包括:
基于公式loss=α*lossdis+β*lossfar计算训练损失;α和β为平衡权重;并且,
其中,G表示含真值上采样点云、G’表示所述点云编解码结构输出的上采样点云,K表示原始生成点云,p表示G’中的点,q表示G中的点,w表示K中的点,lossdis表示距离损失,lossfar表示惩罚损失。
14.一种三维内容生成方法,其特征在于,包括:
获取目标描述以及目标噪声点云;所述目标描述为多个属性的文本描述;
将所述目标描述以及目标噪声点云输入三维内容生成模型,得到目标三维内容;其中,所述三维内容生成模型根据权利要求1至13任一项所述的基于预训练语言模型的三维内容生成模型训练方法训练得到。
15.根据权利要求14所述的三维内容生成方法,其特征在于,所述获取目标描述,包括:
将用户输入文本以及针对多个属性的问题输入预训练语言问答模型,得到各属性对应的文本描述以及所述文本描述对应的确信程度;
若任一所述文本描述对应的确信程度小于预设阈值,则基于所述预训练语言问答模型生成相应的文本描述;
将所述确信程度大于或等于所述预设阈值的文本描述以及所述预训练语言问答模型生成的文本描述确定为目标描述。
16.一种三维内容生成模型训练装置,其特征在于,包括:
训练数据获取模块,用于从第一训练数据集中获取三维内容以及所述三维内容的三维内容描述;所述三维内容描述包括所述三维内容对应的多个属性的文本描述;
噪声点云获取模块,用于随机生成噪声以得到第一噪声,并将所述第一噪声添加至所述三维内容以得到第一噪声点云;
生成模型训练模块,用于利用所述三维内容描述、所述第一噪声点云以及扩散时间对第一扩散模型进行训练,得到三维内容生成模型;其中,所述第一扩散模型包括多个条件描述子抽取结构,每个条件描述子抽取结构对应一个属性的文本描述,用于抽取该属性的文本描述的描述子;
所述第一扩散模型还包括点云描述子抽取结构、时间描述子抽取结构以及转换网络;
每个所述条件描述子抽取结构均包括一个图文比对预训练网络和多层感知机、所述点云描述子抽取结构以及所述时间描述子抽取结构均为基于所述多层感知机确定的结构;
其中,所述生成模型训练模块,具体用于将所述三维内容描述、所述第一噪声点云以及所述扩散时间输入所述第一扩散模型,并获取所述第一扩散模型预测的添加噪声以得到第二噪声;并基于所述第一噪声和所述第二噪声计算训练损失,并基于所述训练损失更新所述第一扩散模型的参数;
将所述三维内容描述中每个属性的文本描述分别输入对应的所述条件描述子抽取结构,得到所述多个条件描述子抽取结构输出的多个条件描述子;
将所述第一噪声点云输入所述点云描述子抽取结构,得到点云描述子;
将所述扩散时间输入所述时间描述子抽取结构,得到时间描述子;
将所述多个条件描述子、所述点云描述子以及所述时间描述子输入所述转换网络,并基于所述转换网络的输出确定所述第一扩散模型预测的所述添加噪声以得到所述第二噪声。
17.一种电子设备,其特征在于,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现如权利要求1至13任一项所述的基于预训练语言模型的三维内容生成模型训练方法,和/或,如权利要求14或15所述的三维内容生成方法。
18.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至13任一项所述的基于预训练语言模型的三维内容生成模型训练方法,和/或,如权利要求14或15所述的三维内容生成方法。
CN202311177094.5A 2023-09-13 2023-09-13 基于预训练语言模型的三维内容生成模型训练方法及装置 Active CN116910572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311177094.5A CN116910572B (zh) 2023-09-13 2023-09-13 基于预训练语言模型的三维内容生成模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311177094.5A CN116910572B (zh) 2023-09-13 2023-09-13 基于预训练语言模型的三维内容生成模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN116910572A CN116910572A (zh) 2023-10-20
CN116910572B true CN116910572B (zh) 2024-02-09

Family

ID=88351519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311177094.5A Active CN116910572B (zh) 2023-09-13 2023-09-13 基于预训练语言模型的三维内容生成模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN116910572B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152363B (zh) * 2023-10-30 2024-02-13 浪潮电子信息产业股份有限公司 基于预训练语言模型的三维内容生成方法、装置及设备
CN117332860B (zh) * 2023-12-01 2024-03-19 北京红棉小冰科技有限公司 文本指令数据生成方法、装置、电子设备及存储介质
CN117392694B (zh) * 2023-12-07 2024-04-19 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备
CN117473105B (zh) * 2023-12-28 2024-04-05 浪潮电子信息产业股份有限公司 基于多模态预训练模型的三维内容生成方法及相关组件

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN114691879A (zh) * 2022-02-24 2022-07-01 北京快确信息科技有限公司 基于文本特征的信息抽取方法、装置及电子设备
CN116208807A (zh) * 2023-01-28 2023-06-02 阿里巴巴(中国)有限公司 视频帧处理方法及装置、视频帧去噪方法及装置
CN116310219A (zh) * 2023-03-20 2023-06-23 浙江大学 一种基于条件扩散模型的三维脚型生成方法
CN116721221A (zh) * 2023-08-08 2023-09-08 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质
CN116721200A (zh) * 2023-03-22 2023-09-08 浙江大学 一种基于扩散模型和语义引导的三维物体生成方法
CN116737897A (zh) * 2023-06-09 2023-09-12 电子科技大学 一种基于多模态的智慧楼宇知识抽取模型和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN114691879A (zh) * 2022-02-24 2022-07-01 北京快确信息科技有限公司 基于文本特征的信息抽取方法、装置及电子设备
CN116208807A (zh) * 2023-01-28 2023-06-02 阿里巴巴(中国)有限公司 视频帧处理方法及装置、视频帧去噪方法及装置
CN116310219A (zh) * 2023-03-20 2023-06-23 浙江大学 一种基于条件扩散模型的三维脚型生成方法
CN116721200A (zh) * 2023-03-22 2023-09-08 浙江大学 一种基于扩散模型和语义引导的三维物体生成方法
CN116737897A (zh) * 2023-06-09 2023-09-12 电子科技大学 一种基于多模态的智慧楼宇知识抽取模型和方法
CN116721221A (zh) * 2023-08-08 2023-09-08 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Diffusion Probabilistic Models for 3D Point Cloud Generation;Shitong Luo;《arXiv:2103.01458》;全文 *

Also Published As

Publication number Publication date
CN116910572A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN116910572B (zh) 基于预训练语言模型的三维内容生成模型训练方法及装置
US11386271B2 (en) Mathematical processing method, apparatus and device for text problem, and storage medium
CN107885756B (zh) 基于深度学习的对话方法、装置及设备
CN110134968B (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
CN111368118B (zh) 一种图像描述生成方法、系统、装置和存储介质
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
CN111932458B (zh) 一种基于区域间注意力机制的图像信息提取与生成方法
CN113761156A (zh) 人机交互对话的数据处理方法、装置、介质及电子设备
CN116452706A (zh) 演示文稿的图像生成方法及装置
CN115424013A (zh) 模型的训练方法、图像处理方法和设备、介质
CN117252957A (zh) 根据文字描述生成带精确文字图片的方法、装置及存储介质
CN117094365A (zh) 图文生成模型的训练方法、装置、电子设备及介质
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN115858756A (zh) 基于感知情绪倾向的共情人机对话系统
CN113836266A (zh) 基于bert的自然语言处理方法及相关设备
CN114638365B (zh) 一种机器阅读理解推理方法及装置、电子设备、存储介质
CN117808083B (zh) 一种分布式训练通信方法、装置、系统、设备及存储介质
CN116862803B (zh) 逆转图像重建方法、装置、设备及可读存储介质
CN116805046B (zh) 一种基于文本标签生成3d人体动作的方法
US20240153259A1 (en) Single image concept encoder for personalization using a pretrained diffusion model
CN116363737B (zh) 一种人脸图像属性编辑方法、系统、电子设备及存储介质
CN112802443B (zh) 语音合成方法及装置、电子设备和计算机可读存储介质
Zhoua et al. Research on Image Style Convolution Neural Network Migration Based on Deep Hybrid Generation Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant