CN116883587A - 训练方法、3d物体生成方法、装置、设备和介质 - Google Patents
训练方法、3d物体生成方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116883587A CN116883587A CN202310714650.1A CN202310714650A CN116883587A CN 116883587 A CN116883587 A CN 116883587A CN 202310714650 A CN202310714650 A CN 202310714650A CN 116883587 A CN116883587 A CN 116883587A
- Authority
- CN
- China
- Prior art keywords
- radiation field
- picture
- noise
- nerve
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 title claims abstract description 71
- 230000005855 radiation Effects 0.000 claims abstract description 138
- 210000005036 nerve Anatomy 0.000 claims abstract description 81
- 230000006870 function Effects 0.000 claims abstract description 42
- 238000005070 sampling Methods 0.000 claims description 69
- 230000001537 neural effect Effects 0.000 claims description 57
- 238000009792 diffusion process Methods 0.000 claims description 35
- 238000009877 rendering Methods 0.000 claims description 33
- 238000003860 storage Methods 0.000 claims description 14
- 239000003086 colorant Substances 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009966 trimming Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000013135 deep learning Methods 0.000 abstract description 7
- 230000003190 augmentative effect Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种用于3D物体生成的神经辐射场的训练方法、3D物体生成方法、装置、设备和介质,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。训练方法的具体实现方案为:获取神经辐射场渲染的2D图片,其中,所述神经辐射场是基于符号距离函数创建的;对所述2D图片增加随机噪声,得到2D噪声图片;根据提示文本对所述2D噪声图片进行噪声预测,得到预测噪声;根据所述随机噪声和预测噪声,对所述神经辐射场的参数进行优化,得到优化后的神经辐射场,其中,所述优化后的神经辐射场用于根据所述提示文本生成3D物体。本公开可以提升生成3D物体的效果。
Description
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景,具体涉及一种用于3D物体生成的神经辐射场的训练方法、3D物体生成方法、装置、设备和介质。
背景技术
随着人工智能技术的发展,已有技术能够实现基于文本自动生成图片,这不仅为相关工作者在工作上提供了极大的便利,也为普通用户提供了很多趣味十足的应用。
然而,目前的技术还很难自动生成具有良好效果的3D物体。
发明内容
本公开提供了一种用于3D物体生成的神经辐射场的训练方法、3D物体生成方法、装置、设备和介质。
根据本公开的一方面,提供了一种用于3D物体生成的神经辐射场的训练方法,包括:
获取神经辐射场渲染的2D图片,其中,所述神经辐射场是基于符号距离函数创建的;
对所述2D图片增加随机噪声,得到2D噪声图片;
根据提示文本对所述2D噪声图片进行噪声预测,得到预测噪声;
根据所述随机噪声和预测噪声,对所述神经辐射场的参数进行优化,得到优化后的神经辐射场,其中,所述优化后的神经辐射场用于根据所述提示文本生成3D物体。
根据本公开的另一方面,提供了一种3D物体生成方法,包括:
根据所述符号距离函数,从优化后的神经辐射场中提取目标采样点;其中,所述优化后的神经辐射场采用本公开任意实施例所述的用于3D物体生成的神经辐射场的训练方法进行训练得到;
根据所述目标采样点渲染3D物体。
根据本公开的另一方面,提供了一种用于3D物体生成的神经辐射场的训练装置,包括:
图片获取模块,用于获取神经辐射场渲染的2D图片,其中,所述神经辐射场是基于符号距离函数创建的;
噪声增加模块,用于对所述2D图片增加随机噪声,得到2D噪声图片;
噪声预测模块,用于根据提示文本对所述2D噪声图片进行噪声预测,得到预测噪声;
优化模块,用于根据所述随机噪声和预测噪声,对所述神经辐射场的参数进行优化,得到优化后的神经辐射场,其中,所述优化后的神经辐射场用于根据所述提示文本生成3D物体。
根据本公开的另一方面,提供了一种3D物体生成装置,包括:
采样点提取模块,用于根据所述符号距离函数,从优化后的神经辐射场中提取目标采样点;其中,所述优化后的神经辐射场通过本公开任意实施例中所述的用于3D物体生成的神经辐射场的训练装置进行训练得到;
渲染模块,用于根据所述目标采样点渲染3D物体。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任意实施例所述的用于3D物体生成的神经辐射场的训练方法或者3D物体生成方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开任意实施例所述的用于3D物体生成的神经辐射场的训练方法或者3D物体生成方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的用于3D物体生成的神经辐射场的训练方法的流程示意图;
图2是根据本公开实施例的用于3D物体生成的神经辐射场的训练方法中神经辐射场渲染2D图片的流程示意图;
图3是根据本公开实施例的扩散模型的训练过程示意图;
图4是根据本公开实施例的3D物体生成方法的流程示意图;
图5是根据本公开实施例的用于3D物体生成的神经辐射场的训练装置的结构示意图;
图6是根据本公开实施例的3D物体生成装置的结构示意图;
图7是用来实现本公开实施例的用于3D物体生成的神经辐射场的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例的用于3D物体生成的神经辐射场的训练方法的流程示意图,本实施例可适用于对神经辐射场进行训练,以基于优化后的神经辐射场生成3D物体的情况,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。该方法可由一种用于3D物体生成的神经辐射场的训练装置来执行,该装置采用软件和/或硬件的方式实现,优选是配置于电子设备中,例如服务器、任意计算机设备或智能终端等。如图1所示,该方法具体包括如下:
S101、获取神经辐射场渲染的2D图片,其中,所述神经辐射场是基于符号距离函数创建的。
S102、对2D图片增加随机噪声,得到2D噪声图片。
S103、根据提示文本对2D噪声图片进行噪声预测,得到预测噪声。
S104、根据随机噪声和预测噪声,对神经辐射场的参数进行优化,得到优化后的神经辐射场,其中,优化后的神经辐射场用于根据提示文本生成3D物体。
具体的,训练前先对神经辐射场进行随机初始化,之后神经辐射场会渲染出任意相机位姿下的2D图片。在一种实施方式中,神经辐射场可以经体素渲染的方式得到该2D图片。其中,神经辐射场是基于符号距离函数创建的,符号距离函数用于对神经辐射场生成的3D物体进行表面约束,从而达到使物体表面平滑的目的。
在获取神经辐射场渲染的2D图片之后,为该2D图片增加随机噪声,例如高斯噪声,从而得到2D噪声图片,然后再根据提示文本对2D噪声图片进行噪声预测,得到预测噪声。接着,根据随机噪声和预测噪声即可对神经辐射场的参数进行优化。例如,通过随机噪声和预测噪声的比对来构造损失函数,即根据随机噪声和预测噪声计算第一损失,利用第一损失对神经辐射场的参数进行优化。
其中,可以利用神经网络模型实现噪声预测,该网络模型可以通过噪声预测的方式根据提示文本生成去噪后的图片。而根据随机噪声和预测噪声对神经辐射场的参数进行优化,在迭代过程中让预测噪声与随机噪声的差异越来越小,从而确保神经辐射场渲染的2D图片的分布,与该网络模型根据提示文本生成图片的分布是一致的,也即图像语义或特征一致,由此,实现利用优化后的神经辐射场根据提示文本生成3D物体的目的,并且使得生成的3D物体与提示文本语义相关。需要说明的是,提示文本可以直接来自于用户输入的文本,也可以来自于语音中提取的文本,或者其他任意形式的输入中提取的文本,本公开对此不作任何限定。
在一种实施方式中,可以使用总损失来对神经辐射场的参数进行优化,该总损失包括上文所述的第一损失,还可以包括根据2D图片和提示图片计算的重建损失,也即,利用第一损失和重建损失对神经辐射场的参数进行优化,例如,将第一损失与重建损失相加来构建总损失。其中,重建损失可以是通过将2D图片和提示图片之间进行比对而计算得到。具体的,由于神经辐射场可以渲染任意相机位姿下对应的2D图片,因此,提示图片对应的相机视角可以与进行比对的2D图片对应的相机视角相同,例如,都是正面相机位姿,或者都是背面相机位姿等。通过重建损失对神经辐射场的参数进行优化,可以让神经辐射场最终生成的3D物体与提示图片语义相关。例如,当用户输入提示文本和提示图片,经过优化,神经辐射场最终可以生成与提示文本和提示图片语义相关的3D物体,从而提高3D物体生成的语义置信,而且生成的3D物体不论从哪一个相机视角观看都具有语义一致性,确保生成的3D物体准确无误。在该场景中,提示图片可以用于表示提示文本所描述的物体或场景,并对物体或场景进行更加细致的刻画,由此,实现根据文本和图片生成3D物体的多模态3D生成任务。
在另一种实施方式中,总损失还可以包括用于对所述神经辐射场的体素密度的聚集性进行监督的第二损失,也即,利用第一损失、第二损失和重建损失对神经辐射场的参数进行优化,例如,将第一损失、第二损失与重建损失相加来构建总损失。示例性的,该第二损失可以是根据采样点的可见密度计算的熵损失。具体的,将物体上的每个像素点对应的像素射线上的采样点的可见密度进行归一化,然后,根据熵函数和归一化的可见密度计算熵损失。通过第二损失对神经辐射场的参数进行优化,可以使得生成的3D物体表面更加锐利。其中采样点的可见密度是根据采样点的体素密度和符号距离计算出来的。
在又一种实施方式中,总损失还可以包括用于对所述符号距离函数的正确性进行监督的第三损失,也即,利用第一损失、第二损失、第三损失和重建损失对神经辐射场的参数进行优化,例如,将第一损失、第二损失、第三损失与重建损失相加来构建总损失。由于神经辐射场是基于符号距离函数构建的,优化过程中需要对符号距离函数的相关参数也进行优化,以确保优化后的符号距离函数能够真实的表示采样点的符号距离,因此,可以在总损失中加入对符号距离函数的正确性进行监督的第三损失,例如,该第三损失可以是Eikonal(程函)损失。通过第三损失对神经辐射场的参数进行优化,可以提高神经辐射场输出采样点符号距离的准确性,从而确定出更加准确的物体表面,进而提升生成的3D物体的准确性,同时,在渲染时可以对物体表面进行约束,提升物体表面的平滑度。
图2是根据本公开实施例的用于3D物体生成的神经辐射场的训练方法中神经辐射场渲染2D图片的流程示意图,本实施例在上述实施例的基础上,对神经辐射场如何渲染2D图片做出进一步的优化。如图2所示,该方法具体包括如下:
S201、根据任意相机位姿输出各相机位姿下各像素射线上采样点的颜色和符号距离。
其中,基于符号距离函数构建的神经辐射场用于输出采样点的颜色和符号距离,所述符号距离用于确定位于物体表面的采样点,例如,符号距离为零的采样点即为位于物体表面的采样点。在渲染过程中,位于物体表面的采样点在2D图片中像素点颜色上所占的权重大于其他采样点,也即,位于物体表面的采样点在渲染过程中对像素点颜色的贡献度高于其他采样点,这样,渲染出来的物体的表面会更加平滑,提高渲染效果。
S202、根据各像素射线上采样点的颜色和权重函数进行体素渲染,得到各像素射线对应的各像素点的颜色。
S203、根据各像素点的颜色得到各相机位姿下的2D图片;其中,根据符号距离确定的位于2D图片中物体表面的采样点的权重函数的值最大。
具体的,权重函数可以根据采样点的透明度和可见密度计算出来,而可见密度是根据采样点的体素密度和符号距离计算出来的,因此,符号距离不同,采样点的权重函数则不同。本实施例中,根据符号距离确定的位于2D图片中物体表面的采样点的权重函数的值最大,由此,可以通过符号距离实现物体的表面约束,提高物体表面的平滑度。需要说明的是,关于神经辐射场如何计算采样点的颜色,可以参考现有技术中的介绍,此处不再赘述。
在一种实施方式中,可以利用能够实现文本生成图像的扩散模型来实现噪声预测。也就是说,利用预先训练的扩散模型,根据提示文本对2D噪声图片进行噪声预测,得到预测噪声。其中,扩散模型是预先训练好的模型,其训练过程可以是先对扩散模型进行初始训练,然后基于给定图片再对初始训练后的扩散模型进行微调。其中,微调后的扩散模型用于生成与给定图片语义相关的图片。具体如图3所示,图3是根据本公开实施例的扩散模型的训练过程示意图,本实施例是在上述实施例的基础上,对如何训练扩散模型做出进一步的优化。该方法具体包括如下:
S301、对扩散模型进行初始训练。
其中,初始训练时可以采样现有技术中的训练方法实现,此处不再赘述。
S302、利用图片生成图片模型,生成给定图片在不同视角下的训练图片。
S303、利用初始训练时使用的给定提示词和训练图片训练扩散模型,以对扩散模型进行微调。
图片生成图片模型可以采用现有的模型实现,此处不再赘述。利用图片生成图片模型生成的训练图片可以是多张图片,并且是给定图片在其他视角下的图片,也就是说,通过图片生成图片模型可以构建出同一个物体在不同视角下的图片。然后,利用给定提示词和这些训练图片对初始训练后得到的扩散模型再进行训练,从而实现微调的目的。当给定提示词后,微调后的扩散模型生成的图片与训练时用到的训练图片具有高度的语义一致性。由此,利用微调后的扩散模型预测噪声,从而根据随机噪声和预测噪声对神经辐射场的参数进行优化,可以使得优化后的神经辐射场生成的不同视角下的3D图片之间具有语义一致性,提高3D物体生成质量。
本公开实施例的技术方案,基于符号距离函数来建模神经辐射场,可以实现无偏渲染,提高物体表面的平滑度,使得物体表面材质能够在渲染时起到最大的作用。而且,在优化神经辐射场的总损失函数中增加重建损失,可以提高渲染出来的图片与提供的图片之间的关联度,从而提高语义一致性,同时也可以实现多模态的高质量3D物体生成。此外,通过对扩散模型进行微调,进一步提升扩散模型生成的图片与提示词以及训练时用到的图片的语义一致性,继而提升神经辐射场在不同视角下渲染的3D物体的语义一致性。
图4是根据本公开实施例的3D物体生成方法的流程示意图,本实施例可适用于对神经辐射场进行训练,以基于优化后的神经辐射场生成3D物体的情况,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。该方法可由一种3D物体生成装置来执行,该装置采用软件和/或硬件的方式实现,优选是配置于电子设备中,例如服务器、任意计算机设备或智能终端等。如图4所示,该方法具体包括如下:
S401、根据符号距离函数,从优化后的神经辐射场中提取目标采样点;其中,优化后的神经辐射场采用如本公开任意实施例所述的用于3D物体生成的神经辐射场的训练方法进行训练得到。
S402、根据目标采样点渲染3D物体。
其中,可以从优化后的神经辐射场中提取符号距离为零的采样点作为目标采样点,也即位于物体表面的点,并获取神经辐射场计算的目标采样点的颜色,根据目标采样点的颜色即可确定3D物体的网格(mesh),从而根据网格渲染3D物体。示例性的,可以利用面绘制算法从优化后的神经辐射场中提取符号距离为零的采样点构成的等值面,从而得到3D物体的网格。而利用符号距离提取采样点并渲染3D物体的方式可以更准确的获取位于物体表面的等值面,使得生成的3D物体更加准确,提升渲染效果。
图5是根据本公开实施例的用于3D物体生成的神经辐射场的训练装置的结构示意图,本实施例可适用于对神经辐射场进行训练,以基于优化后的神经辐射场生成3D物体的情况,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。该装置可实现本公开任意实施例所述的用于3D物体生成的神经辐射场的训练方法。如图5所示,该装置500具体包括:
图片获取模块501,用于获取神经辐射场渲染的2D图片,其中,所述神经辐射场是基于符号距离函数创建的;
噪声增加模块502,用于对所述2D图片增加随机噪声,得到2D噪声图片;
噪声预测模块503,用于根据提示文本对所述2D噪声图片进行噪声预测,得到预测噪声;
优化模块504,用于根据所述随机噪声和预测噪声,对所述神经辐射场的参数进行优化,得到优化后的神经辐射场,其中,所述优化后的神经辐射场用于根据所述提示文本生成3D物体。
可选的,所述2D图片由所述神经辐射场经体素渲染得到。
可选的,所述神经辐射场用于输出采样点的颜色和符号距离,所述符号距离用于确定位于物体表面的采样点。
可选的,在渲染过程中,所述位于物体表面的采样点在所述2D图片中像素点颜色上所占的权重大于其他采样点。
可选的,所述2D图片通过所述神经辐射场按如下方式渲染:
根据任意相机位姿输出各相机位姿下各像素射线上采样点的颜色和符号距离;
根据所述各像素射线上采样点的颜色和权重函数进行体素渲染,得到所述各像素射线对应的各像素点的颜色;
根据所述各像素点的颜色得到所述各相机位姿下的2D图片;
其中,根据所述符号距离确定的位于所述2D图片中物体表面的采样点的权重函数的值最大。
可选的,所述优化模块包括:
第一优化单元,用于根据所述随机噪声和预测噪声计算第一损失,利用所述第一损失对所述神经辐射场的参数进行优化。
可选的,所述优化模块还包括:
第二优化单元,用于根据所述2D图片和提示图片计算重建损失,利用所述重建损失对所述神经辐射场的参数进行优化;其中,所述3D物体与所述提示图片语义相关。
可选的,所述优化模块还包括:
第三优化单元,用于利用第二损失对所述神经辐射场的参数进行优化,其中,所述第二损失用于对所述神经辐射场的体素密度的聚集性进行监督。
可选的,所述优化模块还包括:
第四优化单元,用于利用第三损失对所述神经辐射场的参数进行优化,其中,所述第三损失用于对所述符号距离函数的正确性进行监督。
可选的,所述噪声预测模块具体用于:
利用预先训练的扩散模型,根据提示文本对所述2D噪声图片进行噪声预测,得到预测噪声。
可选的,所述扩散模型通过如下方式训练得到:
对初始训练后的扩散模型,基于给定图片进行微调;其中,微调后的扩散模型用于生成与所述给定图片语义相关的图片。
可选的,所述微调的过程包括:
利用图片生成图片模型,生成所述给定图片在不同视角下的训练图片;
利用所述初始训练时使用的给定提示词和所述训练图片训练所述扩散模型,以对所述扩散模型进行微调。
图6是根据本公开实施例的3D物体生成装置的结构示意图,本实施例可适用于对神经辐射场进行训练,以基于优化后的神经辐射场生成3D物体的情况,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。该装置可实现本公开任意实施例所述的3D物体生成方法。如图6所示,该装置600具体包括:
采样点提取模块601,用于根据所述符号距离函数,从优化后的神经辐射场中提取目标采样点;其中,所述优化后的神经辐射场通过如本公开任意实施例所述的用于3D物体生成的神经辐射场的训练装置进行训练得到;
渲染模块602,用于根据所述目标采样点渲染3D物体。
可选的,所述目标采样点的符号距离为零。
可选的,所述渲染模块包括:
网格确定单元,用于根据所述目标采样点的颜色确定所述3D物体的网格;
渲染单元,用于根据所述网格渲染所述3D物体。
上述产品可执行本公开任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如XX方法。例如,在一些实施例中,XX方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时,可以执行上文描述的XX方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行XX方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
此外,根据本公开的实施例,本公开还提供了另一种电子设备、另一种可读存储介质和另一种计算机程序产品,用于执行本公开任意实施例所述的3D物体生成方法的一个或多个步骤。其具体的结构和程序代码可参见如图7所示的实施例的内容描述,此处不再赘述。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (33)
1.一种用于3D物体生成的神经辐射场的训练方法,包括:
获取神经辐射场渲染的2D图片,其中,所述神经辐射场是基于符号距离函数创建的;
对所述2D图片增加随机噪声,得到2D噪声图片;
根据提示文本对所述2D噪声图片进行噪声预测,得到预测噪声;
根据所述随机噪声和预测噪声,对所述神经辐射场的参数进行优化,得到优化后的神经辐射场,其中,所述优化后的神经辐射场用于根据所述提示文本生成3D物体。
2.根据权利要求1所述的方法,其中,所述2D图片由所述神经辐射场经体素渲染得到。
3.根据权利要求1或2所述的方法,其中,所述神经辐射场用于输出采样点的颜色和符号距离,所述符号距离用于确定位于物体表面的采样点。
4.根据权利要求3所述的方法,其中,在渲染过程中,所述位于物体表面的采样点在所述2D图片中像素点颜色上所占的权重大于其他采样点。
5.根据权利要求1所述的方法,其中,所述2D图片通过所述神经辐射场按如下方式渲染:
根据任意相机位姿输出各相机位姿下各像素射线上采样点的颜色和符号距离;
根据所述各像素射线上采样点的颜色和权重函数进行体素渲染,得到所述各像素射线对应的各像素点的颜色;
根据所述各像素点的颜色得到所述各相机位姿下的2D图片;
其中,根据所述符号距离确定的位于所述2D图片中物体表面的采样点的权重函数的值最大。
6.根据权利要求1所述的方法,其中,所述根据所述随机噪声和预测噪声,对所述神经辐射场的参数进行优化,包括:
根据所述随机噪声和预测噪声计算第一损失,利用所述第一损失对所述神经辐射场的参数进行优化。
7.根据权利要求6所述的方法,其中,所述对所述神经辐射场的参数进行优化,还包括:
根据所述2D图片和提示图片计算重建损失,利用所述重建损失对所述神经辐射场的参数进行优化;其中,所述3D物体与所述提示图片语义相关。
8.根据权利要求7所述的方法,其中,所述对所述神经辐射场的参数进行优化,还包括:
利用第二损失对所述神经辐射场的参数进行优化,其中,所述第二损失用于对所述神经辐射场的体素密度的聚集性进行监督。
9.根据权利要求8所述的方法,其中,所述对所述神经辐射场的参数进行优化,还包括:
利用第三损失对所述神经辐射场的参数进行优化,其中,所述第三损失用于对所述符号距离函数的正确性进行监督。
10.根据权利要求1所述的方法,其中,所述对所述2D噪声图片进行噪声预测,得到预测噪声,包括:
利用预先训练的扩散模型,根据提示文本对所述2D噪声图片进行噪声预测,得到预测噪声。
11.根据权利要求10所述的方法,其中,所述扩散模型通过如下方式训练得到:
对初始训练后的扩散模型,基于给定图片进行微调;其中,微调后的扩散模型用于生成与所述给定图片语义相关的图片。
12.根据权利要求11所述的方法,其中,所述微调的过程包括:
利用图片生成图片模型,生成所述给定图片在不同视角下的训练图片;
利用所述初始训练时使用的给定提示词和所述训练图片训练所述扩散模型,以对所述扩散模型进行微调。
13.一种3D物体生成方法,包括:
根据所述符号距离函数,从优化后的神经辐射场中提取目标采样点;其中,所述优化后的神经辐射场采用如权利要求1-12中任一项所述的方法进行训练得到;
根据所述目标采样点渲染3D物体。
14.根据权利要求13所述的方法,其中,所述目标采样点的符号距离为零。
15.根据权利要求13或14所述的方法,其中,所述根据所述目标采样点渲染3D物体,包括:
根据所述目标采样点的颜色确定所述3D物体的网格;
根据所述网格渲染所述3D物体。
16.一种用于3D物体生成的神经辐射场的训练装置,包括:
图片获取模块,用于获取神经辐射场渲染的2D图片,其中,所述神经辐射场是基于符号距离函数创建的;
噪声增加模块,用于对所述2D图片增加随机噪声,得到2D噪声图片;
噪声预测模块,用于根据提示文本对所述2D噪声图片进行噪声预测,得到预测噪声;
优化模块,用于根据所述随机噪声和预测噪声,对所述神经辐射场的参数进行优化,得到优化后的神经辐射场,其中,所述优化后的神经辐射场用于根据所述提示文本生成3D物体。
17.根据权利要求16所述的装置,其中,所述2D图片由所述神经辐射场经体素渲染得到。
18.根据权利要求16或17所述的装置,其中,所述神经辐射场用于输出采样点的颜色和符号距离,所述符号距离用于确定位于物体表面的采样点。
19.根据权利要求18所述的装置,其中,在渲染过程中,所述位于物体表面的采样点在所述2D图片中像素点颜色上所占的权重大于其他采样点。
20.根据权利要求16所述的装置,其中,所述2D图片通过所述神经辐射场按如下方式渲染:
根据任意相机位姿输出各相机位姿下各像素射线上采样点的颜色和符号距离;
根据所述各像素射线上采样点的颜色和权重函数进行体素渲染,得到所述各像素射线对应的各像素点的颜色;
根据所述各像素点的颜色得到所述各相机位姿下的2D图片;
其中,根据所述符号距离确定的位于所述2D图片中物体表面的采样点的权重函数的值最大。
21.根据权利要求16所述的装置,其中,所述优化模块包括:
第一优化单元,用于根据所述随机噪声和预测噪声计算第一损失,利用所述第一损失对所述神经辐射场的参数进行优化。
22.根据权利要求21所述的装置,其中,所述优化模块还包括:
第二优化单元,用于根据所述2D图片和提示图片计算重建损失,利用所述重建损失对所述神经辐射场的参数进行优化;其中,所述3D物体与所述提示图片语义相关。
23.根据权利要求22所述的装置,其中,所述优化模块还包括:
第三优化单元,用于利用第二损失对所述神经辐射场的参数进行优化,其中,所述第二损失用于对所述神经辐射场的体素密度的聚集性进行监督。
24.根据权利要求23所述的装置,其中,所述优化模块还包括:
第四优化单元,用于利用第三损失对所述神经辐射场的参数进行优化,其中,所述第三损失用于对所述符号距离函数的正确性进行监督。
25.根据权利要求16所述的装置,其中,所述噪声预测模块具体用于:
利用预先训练的扩散模型,根据提示文本对所述2D噪声图片进行噪声预测,得到预测噪声。
26.根据权利要求25所述的装置,其中,所述扩散模型通过如下方式训练得到:
对初始训练后的扩散模型,基于给定图片进行微调;其中,微调后的扩散模型用于生成与所述给定图片语义相关的图片。
27.根据权利要求26所述的装置,其中,所述微调的过程包括:
利用图片生成图片模型,生成所述给定图片在不同视角下的训练图片;
利用所述初始训练时使用的给定提示词和所述训练图片训练所述扩散模型,以对所述扩散模型进行微调。
28.一种3D物体生成装置,包括:
采样点提取模块,用于根据所述符号距离函数,从优化后的神经辐射场中提取目标采样点;其中,所述优化后的神经辐射场通过如权利要求16-27中任一项所述的装置进行训练得到;
渲染模块,用于根据所述目标采样点渲染3D物体。
29.根据权利要求28所述的装置,其中,所述目标采样点的符号距离为零。
30.根据权利要求28或29所述的装置,其中,所述渲染模块包括:
网格确定单元,用于根据所述目标采样点的颜色确定所述3D物体的网格;
渲染单元,用于根据所述网格渲染所述3D物体。
31.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的用于3D物体生成的神经辐射场的训练方法或3D物体生成方法。
32.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的用于3D物体生成的神经辐射场的训练方法或3D物体生成方法。
33.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现根据权利要求1-12中任一项所述的用于3D物体生成的神经辐射场的训练方法或3D物体生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310714650.1A CN116883587A (zh) | 2023-06-15 | 2023-06-15 | 训练方法、3d物体生成方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310714650.1A CN116883587A (zh) | 2023-06-15 | 2023-06-15 | 训练方法、3d物体生成方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116883587A true CN116883587A (zh) | 2023-10-13 |
Family
ID=88257661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310714650.1A Pending CN116883587A (zh) | 2023-06-15 | 2023-06-15 | 训练方法、3d物体生成方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883587A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210125034A1 (en) * | 2019-10-25 | 2021-04-29 | Element Al Inc. | 2d document extractor |
CN113706714A (zh) * | 2021-09-03 | 2021-11-26 | 中科计算技术创新研究院 | 基于深度图像和神经辐射场的新视角合成方法 |
CN114972632A (zh) * | 2022-04-21 | 2022-08-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 基于神经辐射场的图像处理方法及装置 |
CN115578515A (zh) * | 2022-09-30 | 2023-01-06 | 北京百度网讯科技有限公司 | 三维重建模型的训练方法、三维场景渲染方法及装置 |
CN115631418A (zh) * | 2022-11-18 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像处理方法、神经辐射场的训练方法和神经网络 |
WO2023086194A1 (en) * | 2021-11-15 | 2023-05-19 | Google Llc | High dynamic range view synthesis from noisy raw images |
WO2023086198A1 (en) * | 2021-11-15 | 2023-05-19 | Google Llc | Robustifying nerf model novel view synthesis to sparse data |
-
2023
- 2023-06-15 CN CN202310714650.1A patent/CN116883587A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210125034A1 (en) * | 2019-10-25 | 2021-04-29 | Element Al Inc. | 2d document extractor |
CN113706714A (zh) * | 2021-09-03 | 2021-11-26 | 中科计算技术创新研究院 | 基于深度图像和神经辐射场的新视角合成方法 |
WO2023086194A1 (en) * | 2021-11-15 | 2023-05-19 | Google Llc | High dynamic range view synthesis from noisy raw images |
WO2023086198A1 (en) * | 2021-11-15 | 2023-05-19 | Google Llc | Robustifying nerf model novel view synthesis to sparse data |
CN114972632A (zh) * | 2022-04-21 | 2022-08-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 基于神经辐射场的图像处理方法及装置 |
CN115578515A (zh) * | 2022-09-30 | 2023-01-06 | 北京百度网讯科技有限公司 | 三维重建模型的训练方法、三维场景渲染方法及装置 |
CN115631418A (zh) * | 2022-11-18 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像处理方法、神经辐射场的训练方法和神经网络 |
Non-Patent Citations (1)
Title |
---|
ZHENGYI WANG ET AL.: "ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation", ARXIV.ORG, 25 May 2023 (2023-05-25), pages 1 - 34 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7135125B2 (ja) | 近赤外画像の生成方法、近赤外画像の生成装置、生成ネットワークの訓練方法、生成ネットワークの訓練装置、電子機器、記憶媒体及びコンピュータプログラム | |
KR20210156228A (ko) | 광학 문자 인식 방법, 장치, 전자기기 및 기록매체 | |
EP3876197A2 (en) | Portrait extracting method and apparatus, electronic device and storage medium | |
CN113409430B (zh) | 可驱动三维人物生成方法、装置、电子设备及存储介质 | |
CN115330940B (zh) | 一种三维重建方法、装置、设备和介质 | |
CN113361363A (zh) | 人脸图像识别模型的训练方法、装置、设备及存储介质 | |
CN116309983B (zh) | 虚拟人物模型的训练方法、生成方法、装置和电子设备 | |
CN111754431B (zh) | 一种图像区域替换方法、装置、设备及存储介质 | |
CN115861462A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN117274491A (zh) | 三维重建模型的训练方法、装置、设备和介质 | |
CN112580666A (zh) | 图像特征的提取方法、训练方法、装置、电子设备及介质 | |
CN114120413A (zh) | 模型训练方法、图像合成方法、装置、设备及程序产品 | |
CN113344213A (zh) | 知识蒸馏方法、装置、电子设备及计算机可读存储介质 | |
US20230115765A1 (en) | Method and apparatus of transferring image, and method and apparatus of training image transfer model | |
CN114415997B (zh) | 显示参数设置方法、装置、电子设备及存储介质 | |
CN116320216A (zh) | 视频生成方法、模型的训练方法、装置、设备和介质 | |
CN116168132A (zh) | 街景重建模型获取及街景重建方法、装置、设备及介质 | |
CN116052288A (zh) | 活体检测模型训练方法、活体检测方法、装置和电子设备 | |
EP4156124A1 (en) | Dynamic gesture recognition method and apparatus, and device and storage medium | |
CN116883587A (zh) | 训练方法、3d物体生成方法、装置、设备和介质 | |
CN114037630A (zh) | 一种模型训练及图像去雾方法、装置、设备及存储介质 | |
CN114358198A (zh) | 实例分割方法、装置及电子设备 | |
CN113903071A (zh) | 人脸识别方法、装置、电子设备和存储介质 | |
CN114863450B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113362218B (zh) | 数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |