CN116977531A - 三维纹理图像的生成方法、装置、计算机设备和存储介质 - Google Patents
三维纹理图像的生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116977531A CN116977531A CN202310945819.4A CN202310945819A CN116977531A CN 116977531 A CN116977531 A CN 116977531A CN 202310945819 A CN202310945819 A CN 202310945819A CN 116977531 A CN116977531 A CN 116977531A
- Authority
- CN
- China
- Prior art keywords
- image
- texture
- view angle
- under
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000009877 rendering Methods 0.000 claims abstract description 152
- 238000012545 processing Methods 0.000 claims abstract description 64
- 230000008569 process Effects 0.000 claims abstract description 54
- 238000004590 computer program Methods 0.000 claims abstract description 25
- 238000009792 diffusion process Methods 0.000 claims description 47
- 238000005457 optimization Methods 0.000 claims description 33
- 230000004927 fusion Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 description 13
- 230000000007 visual effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- DBMJMQXJHONAFJ-UHFFFAOYSA-M Sodium laurylsulphate Chemical compound [Na+].CCCCCCCCCCCCOS([O-])(=O)=O DBMJMQXJHONAFJ-UHFFFAOYSA-M 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004508 fractional distillation Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
本申请涉及一种三维纹理图像的生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法可应用于人工智能领域,该方法包括:获取三维物体模型和纹理描述文本;在不同视角下对三维物体模型进行渲染,得到各视角下的第一模型渲染图像和用于表示三维物体模型在各视角下的第一深度图像;针对各视角下的第一模型渲染图像,通过纹理场对第一模型渲染图像进行纹理处理,得到二维的参考纹理;将参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;根据加噪图像、纹理描述文本和第一深度图像进行图像生成,获得各视角下的纹理图像;拼接各视角下的纹理图像,得到三维纹理图像。采用本方法能够有效提高三维纹理图像的纹理一致性和图像质量。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种三维纹理图像的生成方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
目前的二维扩散模型,在文本驱动的图像生成上取得了巨大突破,可以合成较高质量且符合文本描述的纹理图像,即利用二维扩散模型生成多个视角的二维纹理图像,然后将这些二维纹理图像拼接成三维纹理图像。这种通过用二维纹理图像来拼接合成三维纹理图像的方式,以不需要额外训练的方式迁移到三维纹理图像的生成任务上,这对缺乏大规模三维数据集的三维纹理图像生成领域是十分有意义的。
然而,由于生成过程的随机性和二维扩散模型的视角一致性较差,导致所获得的三维纹理图像的纹理一致性和图像质量较差。
发明内容
基于此,有必要针对上述技术问题,提供一种三维纹理图像的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,能够有效提高三维纹理图像的纹理一致性和图像质量。
第一方面,本申请提供了一种三维纹理图像的生成方法,所述方法包括:
获取三维物体模型和纹理描述文本;
分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第一模型渲染图像和用于表示所述三维物体模型在各所述视角下的第一深度图像;
针对各所述视角下的第一模型渲染图像,通过纹理场对所述第一模型渲染图像进行纹理处理,得到二维的参考纹理;将所述参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;根据所述加噪图像、所述纹理描述文本和所述第一深度图像进行图像生成,获得各所述视角下的纹理图像;
拼接各所述视角下的所述纹理图像,得到所述三维物体模型对应的三维纹理图像。
第二方面,本申请还提供了一种三维纹理图像的生成装置,所述装置包括:
获取模块,用于获取三维物体模型和纹理描述文本;
渲染模块,用于分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第一模型渲染图像和用于表示所述三维物体模型在各所述视角下的第一深度图像;
处理模块,用于针对各所述视角下的第一模型渲染图像,通过纹理场对所述第一模型渲染图像进行纹理处理,得到二维的参考纹理;
添加模块,用于将所述参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;
生成模块,用于根据所述加噪图像、所述纹理描述文本和所述第一深度图像进行图像生成,获得各所述视角下的纹理图像;
拼接模块,用于拼接各所述视角下的所述纹理图像,得到所述三维物体模型对应的三维纹理图像。
在其中的一个实施例中,所述获取模块,还用于接收目标应用发送的用于生成所述三维纹理图像的请求信息;从所述请求信息中读取三维物体模型和纹理描述文本;或者,从所述请求信息读取所述纹理描述文本,并根据所述纹理描述文本生成所述三维物体模型。
在其中的一个实施例中,所述渲染模块,还用于依次在所述三维物体模型的至少两个视角进行随机视角选取;分别在每次选取到的所述视角下对所述三维物体模型进行渲染,得到渲染图像序列和深度图像序列;其中,每次选取到的所述视角互不相同;所述渲染图像序列包括各所述视角下的第一模型渲染图像;所述深度图像序列包括用于表示所述三维物体模型在各所述视角下的第一深度图像。
在其中的一个实施例中,所述装置还包括:
确定模块,用于确定所述三维物体模型在各所述视角下的正对面积;根据所述正对面积确定视角数量;
所述渲染模块,还用于依次在所述三维物体模型的且个数所述视角数量的视角进行随机视角选取。
在其中的一个实施例中,所述装置还包括:
移除模块,用于当基于第一视角下的参考纹理生成所述第一视角下的所述纹理图像之后,将所述第一视角下的第一模型渲染图像从所述渲染图像序列中移除,得到更新渲染图像序列;所述第一视角是所述至少两个视角中的一个视角;
所述处理模块,还用于通过纹理场依次对所述更新渲染图像序列中的第一模型渲染图像进行纹理处理,得到二维的其它各所述视角下的参考纹理;其中,其它各所述视角是除所述第一视角之外的各视角。
在其中的一个实施例中,所述纹理图像是扩散模型在目标时间步生成的图像;
所述添加模块,还用于将所述参考纹理渲染至所述三维物体模型,得到包含所述参考纹理的图像;将包含所述参考纹理的图像作为噪声数据添加至去噪过程图像,得到加噪图像;其中,所述去噪过程图像为添加高斯噪声的图像,或在所述目标时间步的上一时间步生成的纹理图像。
在其中的一个实施例中,所述装置还包括:
所述获取模块,还用于获取与各所述视角下的第一模型渲染图像对应的掩码图像;
融合模块,用于将所述掩码图像与所述加噪图像进行融合,得到融合图像;
所述生成模块,还用于依据所述纹理描述文本和所述第一深度图像对所述融合图像进行去噪处理,得到与所述参考纹理匹配的纹理图像。
在其中的一个实施例中,所述融合模块,还用于将所述掩码图像、所述加噪图像和去噪过程图像进行融合,得到融合图像;
其中,所述去噪过程图像是在目标时间步的上一时间步生成的纹理图像,所述目标时间步是扩散模型在生成所述纹理图像时对应的时间步。
在其中的一个实施例中,所述装置还包括:
所述渲染模块,还用于分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第二模型渲染图像和用于表示所述三维物体模型在各所述视角下的第二度图像;
所述处理模块,还用于通过初始纹理场对各所述视角下的第二模型渲染图像进行纹理处理,得到各所述视角下的第一隐图像;
加噪模块,用于基于目标噪声对各所述视角下的第一隐图像进行加噪处理,得到各所述视角下的第一加噪隐图像;
解码模块,用于分别将各所述视角下的第一加噪隐图像、各所述视角下的第二深度图像和所述纹理描述文本输入至隐式扩散模型进行解码处理,得到第一预测噪声;
优化模块,用于基于所述第一预测噪声与所述目标噪声之间的损失值优化所述初始纹理场,得到第一次优化后的纹理场。
在其中的一个实施例中,所述装置还包括:
所述渲染模块,还用于分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第三模型渲染图像和用于表示所述三维物体模型在各所述视角下的第三深度图像;所述第三模型渲染图像的分辨率大于所述第二模型渲染图像的分辨率;
所述处理模块,还用于通过所述第一次优化后的纹理场对各所述视角下的第三模型渲染图像进行纹理处理,得到各所述视角下的第二隐图像;
所述加噪模块,还用于基于所述目标噪声对各所述视角下的第二隐图像进行加噪处理,得到各所述视角下的第二加噪隐图像;
所述解码模块,还用于分别将各所述视角下的第二加噪隐图像、各所述视角下的第三深度图像和所述纹理描述文本输入至隐式扩散模型进行解码处理,得到第二预测噪声;
所述优化模块,还用于基于所述第二预测噪声与所述目标噪声之间的损失值优化所述初始纹理场,得到第二次优化后的纹理场。
在其中的一个实施例中,所述加噪模块,还用于将各所述视角下的第二隐图像分别映射为三通道图像;通过与隐式扩散模型对应的编码器,分别对各所述视角下的所述三通道图像进行编码处理,得到各所述视角下的隐编码图像;基于所述目标噪声对各所述视角下的隐编码图像进行加噪处理,得到各所述视角下的第二加噪隐图像。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取三维物体模型和纹理描述文本;
分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第一模型渲染图像和用于表示所述三维物体模型在各所述视角下的第一深度图像;
针对各所述视角下的第一模型渲染图像,通过纹理场对所述第一模型渲染图像进行纹理处理,得到二维的参考纹理;将所述参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;根据所述加噪图像、所述纹理描述文本和所述第一深度图像进行图像生成,获得各所述视角下的纹理图像;
拼接各所述视角下的所述纹理图像,得到所述三维物体模型对应的三维纹理图像。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取三维物体模型和纹理描述文本;
分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第一模型渲染图像和用于表示所述三维物体模型在各所述视角下的第一深度图像;
针对各所述视角下的第一模型渲染图像,通过纹理场对所述第一模型渲染图像进行纹理处理,得到二维的参考纹理;将所述参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;根据所述加噪图像、所述纹理描述文本和所述第一深度图像进行图像生成,获得各所述视角下的纹理图像;
拼接各所述视角下的所述纹理图像,得到所述三维物体模型对应的三维纹理图像。
第五方面,本申请还提供了一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取三维物体模型和纹理描述文本;
分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第一模型渲染图像和用于表示所述三维物体模型在各所述视角下的第一深度图像;
针对各所述视角下的第一模型渲染图像,通过纹理场对所述第一模型渲染图像进行纹理处理,得到二维的参考纹理;将所述参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;根据所述加噪图像、所述纹理描述文本和所述第一深度图像进行图像生成,获得各所述视角下的纹理图像;
拼接各所述视角下的所述纹理图像,得到所述三维物体模型对应的三维纹理图像。
上述三维纹理图像的生成方法、装置、计算机设备、存储介质和计算机程序产品,首先获取三维物体模型和纹理描述文本,分别在不同视角下对三维物体模型进行渲染,从而得到各视角下的第一模型渲染图像和用于表示三维物体模型在各视角下的第一深度图像,可以确保在生成纹理图像时使纹理图像具有深度层次,有利于提高视觉效果;此外,针对各视角下的第一模型渲染图像,通过纹理场对第一模型渲染图像进行纹理处理,得到可以得到二维的视角一致性的参考纹理,因此将处理所得的参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像,根据加噪图像、纹理描述文本和第一深度图像进行图像生成,因此可以在不破坏参考纹理一致性的条件下,获得高质量的纹理图像,从而拼接各视角下的纹理图像,可以得到三维空间的纹理一致且高质量的纹理图像。
附图说明
图1为一个实施例中三维纹理图像的生成方法的应用环境图;
图2为一个实施例中三维纹理图像的生成方法的流程示意图;
图3为一个实施例中扩散模型处理过程的数据流转示意图;
图4为一个实施例中生成纹理图像并发布的示意图;
图5为一个实施例中第二阶段生成纹理图像的流程示意图;
图6为一个实施例中第二阶段中基于条件生成的流程示意图;
图7为一个实施例中采用低分辨率的方式对纹理场进行优化的流程示意图;
图8为一个实施例中采用高分辨率的方式对纹理场进行优化的流程示意图;
图9为一个实施例中第一阶段生成参考纹理的流程示意图;
图10为一个实施例中不同技术生成的纹理图像进行对比的示意图;
图11为一个实施例中三维纹理图像的生成装置的结构框图;
图12为另一个实施例中三维纹理图像的生成装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,在以下的描述中,所涉及的术语“第一、第二和第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一、第二和第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
在对本申请的方案进行描述之前,对涉及到的技术和技术术语进行说明,具体如下:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
扩散模型是一种生成模型,主要包含去噪器,在生成图像时,首先由高斯噪声开始,逐步使用去噪器还原得到自然图像。
隐式扩散模型是在扩散模型的基础上引入了编码器和解码器所得的模型。其中,编码器可以将图像转换为隐图像,而解码器可以将隐图像还原成自然图像。
隐图像是原始的自然图像经过隐式扩散模型的编码器输出的图像,在尺寸上通常比原始图像的尺寸小,以实现数据压缩和推理加速的功能。
本申请实施例提供的三维纹理图像的生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。需要指出的是,虽然本申请实施例提供了图1所示的应用环境,但在实际应用中,该三维纹理图像的生成方法可由图1中的终端102或服务器104执行,也可以由终端102和服务器104协同执行,以该三维纹理图像的生成方法由服务器104执行为例进行说明,具体执行过程如下:
当用户需要生成纹理图像时,可以在终端102的目标应用上输入纹理描述文本以及三维物体模型,此时终端102可以通过目标应用向服务器104发送用于生成纹理图像的请求信息。因此,服务器104根据该请求信息获得三维物体模型和纹理描述文本;分别在不同视角下对三维物体模型进行渲染,得到各视角下的第一模型渲染图像和用于表示三维物体模型在各视角下的第一深度图像;针对各视角下的第一模型渲染图像,通过纹理场对第一模型渲染图像进行纹理处理,得到二维的参考纹理;将参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;根据加噪图像、纹理描述文本和第一深度图像进行图像生成,获得各视角下的纹理图像;拼接各视角下的纹理图像,得到三维物体模型对应的三维纹理图像;最后,服务器104向终端102返回该三维纹理图像。
其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调和智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
服务器104可以是独立的物理服务器,也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间形成点对点(Peer To Peer)网络,点对点协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。此外,服务器104还可以是多个物理服务器构成的服务器集群,可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端102与服务器104之间可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者网络等通讯连接方式进行连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种三维纹理图像的生成方法,该方法可由图1中的服务器或终端执行,或由服务器和终端协同执行,以该方法由图1中的服务器执行为例进行说明,包括以下步骤:
S202,获取三维物体模型和纹理描述文本。
其中,三维物体模型可以是三维的图像化的物体模型。在一些具体的应用场景中,该三维物体模型可以是各种应用场景的模型,如三维的产品(如汽车、手机、电脑以及各种其它产品)模型、人物模型(如宇航员模型)、人体结构模型、动植物模型以及卡通模型。该三维物体模型可以由用户提供,也可以由服务器根据纹理描述文本生成。
纹理描述文本可以是用户在需要生成纹理图像之前所提出的图像需求信息,例如“请帮我生成一张身穿宇航服的宇航员图像”,又例如“请帮我按照这个三维宇航员模型生成一张身穿宇航服的宇航员图像”,又例如“请帮我生成多张身穿宇航服的宇航员图像,然后转成视频”。
在一个实施例中,服务器接收目标应用发送的用于生成纹理图像的请求信息;从请求信息中读取三维物体模型和纹理描述文本;或者,从请求信息读取纹理描述文本,并根据纹理描述文本生成三维物体模型。
其中,该目标应用可以是社交应用、办公类应用、视频应用、新闻资讯应用以及其它领域的应用程序。需要指出的是,在实际应用中,通过社交应用生成三维纹理图像之后,可以将该纹理图像发布到社交平台,以便社交应用的通讯录上的联系人(如授权的好友)可以查看到。此外,通过视频应用(如小视频应用)生成三维纹理图像之后,可以将生成的纹理图像转换为视频,然后进行视频发布。又例如,通过新闻资讯应用生成三维纹理图像之后,可以将生成的纹理图像插入至新闻资讯文本的相应位置,然后进行发布。
作为一个示例,用户可以在社交应用的交互页面上输入并发送纹理描述文本,如“请帮我生成一张身穿宇航服的宇航员图像”,此时服务器可以利用该输入的纹理描述文本生成三维的宇航员模型,以便利用该纹理描述文本和宇航员模型生成宇航员图像,然后可以根据用户的发布操作,将生成的宇航员图像发布于社交平台。需要指出的是,在进行发布时,还可以将宇航员图像和相应的文字信息一并进行发布。
S204,分别在不同视角下对三维物体模型进行渲染,得到各视角下的第一模型渲染图像和用于表示三维物体模型在各视角下的第一深度图像。
其中,视角可以是虚拟摄像头相对于三维物体模型的视场角度,如在三维物体模型的前、后、左和右这几个方位的视角。视角的数量可以是N,N为大于或等于2的正整数。
第一模型渲染图像可以是在某个视角下对三维物体模型进行渲染所得的二维图像,如采用可微渲染的方式对三维物体模型进行渲染。其中,可微渲染可以是对三维表示进行渲染并回传渲染颜色关于渲染参数的梯度的渲染方法。本申请实施例中的可微渲染可以是基于网格的可微渲染,其步骤主要包括:为某个角度下的三维物体模型中每个图片像素指定三角面片(即光栅化),然后根据图片像素对应的三角面片、光照和纹理等渲染参数计算像素颜色。
此外,第一模型渲染图像可以用于生成参考纹理,进而生成纹理图像。在不同视角下对三维物体模型进行的过程中,每个视角下都可以渲染出不同分辨率的图像,因此对三维物体模型进行渲染还可以得到第二模型渲染图像和第三模型渲染图像。其中,第一模型渲染图像的分辨率与第三模型渲染图像的分辨率相同,且大于第二模型渲染图像的分辨率。第二模型渲染图像和第三模型渲染图像可以用来当作训练数据对初始纹理场进行训练,得到优化后的纹理场。
第一深度图像可以是:在以某个角度对三维物体模型进行渲染时所得的用于表示虚拟摄像头与三维物体模型的各位置之间的距离的图像。
在一个实施例中,服务器可以采用可微渲染的方式对不同视角下的三维物体模型进行渲染,得到各视角下的第一模型渲染图像和用于表示三维物体模型在各视角下的第一深度图像。
在另一个实施例中,服务器依次在三维物体模型的至少两个视角进行随机视角选取;分别在每次选取到的视角下对三维物体模型进行渲染,得到渲染图像序列和深度图像序列。
其中,渲染图像序列和深度图像序列分别是:在所有视角下,三维物体模型所处的面对应的图像集合。例如,假设共有视角a、视角b、视角c和视角d等4个视角,那么渲染图像序列是视角a、视角b、视角c和视角d这4个视角对应的第一模型渲染图像所组成的图像序列。渲染图像序列包括各视角下的第一模型渲染图像;深度图像序列包括用于表示三维物体模型在各视角下的第一深度图像。
每次选取到的视角互不相同,如固定三维物体模型不动,第一次随机选取到的是三维物体模型前方的视角,此时表示虚拟摄像头置于三维物体模型的前方;在下一次随机选取视角时,随机选取到的是三维物体模型右侧的视角,此时表示虚拟摄像头置于三维物体模型的右侧。需要指出的是,每一次选取到的视角的视线与三维物体模型右侧所在的平面垂直。
在一个实施例中,为了避免不同视角之间三维物体模型所处的面出现重合而造成冲突,每个面对应的参考纹理均在一个视角下生成,且每个面都在视线向量与该面垂直的视角下生成,从而确保生成的参考纹理的畸变最小。此外,使用尽可能少的视角完成参考纹理的生成。基于此,可以采用以下方式确定视角数量,具体步骤如下:服务器确定三维物体模型在各视角下的正对面积;根据正对面积确定视角数量;因此,上述依次在三维物体模型的至少两个视角进行随机视角选取的步骤,具体可以包括:服务器依次在三维物体模型的且个数视角数量的视角进行随机视角选取。
例如,首先定义视角的正对面积其中视角由虚拟相机的高度角θ和方位角/>定义,ai为第i个面的面积,/>为正对于此视角且未完成生成的面的集合,正对于视角的面定义为满足/>的面;其中,/>表示视角的视线向量,/>表示第i个面的法向量。然后对视角θ,/>采样,估计/>的最大值,从而选择正对面积最大的视角,从而可以使视角数量尽可能少。
S206,针对各视角下的第一模型渲染图像,通过纹理场对第一模型渲染图像进行纹理处理,得到二维的参考纹理;将参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;根据加噪图像、纹理描述文本和第一深度图像进行图像生成,获得各视角下的纹理图像。
其中,纹理场可以是由哈希网格编码网络和多层感知机组成的模型。该纹理场可以是利用第二模型渲染图像对初始纹理场进行训练所得,具体地:该纹理场可以是利用第二模型渲染图像对应的第一加噪隐图像、与第二模型渲染图像对应的第二深度图像和纹理描述文本对初始纹理场进行训练所得。
此外,该纹理场也可以是依次利用第二模型渲染图像和第三模型渲染图像对初始纹理场进行训练所得。其中,第一次训练是用第二模型渲染图像对初始纹理场进行训练,得到第一次优化的纹理场;第二次训练可以是利用第三模型渲染图像对第一次优化的纹理场进行训练得到第二次优化的纹理场。其中,对于第二次优化的纹理场,可以是利用第三模型渲染图像对应的第二加噪隐图像、与第三模型渲染图像对应的第三深度图像和纹理描述文本对第一次优化的纹理场进行训练所得。
纹理图像可以是具有纹理细节的图像,可以是由扩展模型依据纹理描述文本和第一深度图像对加噪图像进行不断进行去噪处理之后所得的图像,可参考图3中的X0。对于三维物体模型,在每个视角下都具有对应的纹理图像。需要指出的是,对于每个视角下的第一模型渲染图像,均会执行一次S206,直至得到各视角下的纹理图像为止。
去噪过程图像可以是扩展模型在去噪过程中的图像,具体可以是在开始进行去噪时添加高斯噪声的图像,或在目标时间步的上一时间步生成的纹理图像。此外,对于扩散模型生成纹理图像的过程,可以参考图3,XT为T时间步的去噪过程图像,从时间步T到时间步0是去噪过程,从而可以生成纹理图像,若目标时间步为T时,去噪过程图像为添加高斯噪声的图像;若目标时间步为τ-1时,该去噪过程图像可以是时间步τ对应的纹理图像。其中,目标时间步可以是当前时间步。
在一个实施例中,S206中的“通过纹理场对第一模型渲染图像进行纹理处理,得到二维的参考纹理”这一步骤,具体可以包括:服务器获取第一模型渲染图像中各像素的坐标信息,然后将各像素的坐标信息输入至纹理场,通过纹理场中的哈希网格编码网络对坐标信息进行编码处理,然后通过多层感知机进行处理,得到二维的参考纹理。
在一个实施例中,服务器当基于第一视角下的参考纹理生成第一视角下的纹理图像之后,将第一视角下的第一模型渲染图像从渲染图像序列中移除,得到更新渲染图像序列。因此,S206中的“通过纹理场对第一模型渲染图像进行纹理处理,得到参考纹理”这一步骤,具体可以包括:服务器通过纹理场依次对更新渲染图像序列中的第一模型渲染图像进行纹理处理,得到二维的其它各视角下的参考纹理。
其中,第一视角是至少两个视角中的一个视角,可以是在至少两个视角中随机选取的视角。其它各视角是除第一视角之外的各视角。
在一个实施例中,考虑到纹理图像是扩散模型在目标时间步生成的图像;因此,S206中的“将参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像”这一步骤,具体可以包括:服务器将参考纹理渲染至三维物体模型,得到包含参考纹理的图像;将包含参考纹理的图像作为噪声数据添加至去噪过程图像,得到加噪图像。
在一个实施例中,服务器获取与各视角下的第一模型渲染图像对应的掩码图像;将掩码图像与加噪图像进行融合,得到融合图像;因此,S206中的“根据加噪图像、纹理描述文本和第一深度图像进行图像生成,获得各视角下的纹理图像”这一步骤,具体可以包括:服务器依据纹理描述文本和第一深度图像对融合图像进行去噪处理,得到与参考纹理匹配的纹理图像。其中,掩码图像可以是用于表示背景区域的图像。
此外,在进行融合时,还可以将掩码图像、加噪图像和去噪过程图像进行融合。其中,去噪过程图像是在目标时间步的上一时间步生成的纹理图像,目标时间步是扩散模型在生成纹理图像时对应的时间步。
S208,拼接各视角下的纹理图像,得到三维物体模型对应的三维纹理图像。
其中,当三维物体模型为待推广的产品模型时,该三维纹理图像可以是用于产品推荐的图像,如用于广告宣传的图像。
在一个实施例中,服务器在获得三维纹理图像之后,可以根据账号信息将该三维纹理图像发布至目标平台,或者将该三维纹理图像和对应的描述信息发布至目标平台,如发布至社交平台、视频平台或广告平台,以便用户可以查看到该纹理图像。
例如,用户在社交应用的交互页面中,输入“请帮我生成一张身穿宇航服的宇航员图像”这一纹理描述文本,服务器可以利用该纹理描述文本和对应的宇航员模型生成三维的宇航员图像,然后响应于在交互页面触发的发布操作,将该宇航员图像发布至社交平台,从而好友可以查看发布的宇航员图像;此外,在发布的过程中,可以输入图像描述信息,将该图像描述信息与该宇航员图像一起发布至社交平台。
在另一个实施例中,服务器还可以将三维纹理图像转换成视频,然后发布至目标平台,或者将转换的视频与对应的描述信息一起发布至目标平台。例如当生成的三维纹理图像有多个时,可以将多个三维纹理图像转换成视频,然后发布至社交平台。
为了更加清楚了解上述方案,这里结合图4、图5和图6进行描述,具体内容如下:
如图4所示,用户在交互页面输入“请帮我生成一张身穿宇航服的宇航员图像”的纹理描述文本,此时服务器可以根据该纹理描述文本获得三维的宇航员模型。
如图5所示,服务器随机选择一个视角(如视角a)对宇航员模型进行渲染,得到第一模型渲染图像和第一深度图像,此外还可以得到对应的掩码图像;其中,每个视角对应一个宇航员模型的面。然后,利用纹理场对该第一模型渲染图像进行纹理处理,得到参考纹理;将该参考纹理渲染到宇航员模型上,得到具有参考纹理的二维图像,并将该二维图像加噪到去噪过程图像上,如加噪到时间步t=τ的图像上,得到加噪图像Xt。
如图6所示,在获得加噪图像Xt之后,将该加噪图像Xt与掩码图像、第一深度图像进入融合,得到融合图像;然后将融合图像、第一深度图像以及纹理描述文本一并输入扩散模型,从而扩散模型利用第一深度图像和纹理描述文本对该融合图像进行去噪处理,从而生成该视角a下的纹理图像。
在得到视角a下的纹理图像之后,在未生成纹理图像的面缓存中,将视角a对应的面删除,从而可以在剩余的面上随机选取视角,再次执行上述过程,最终得到每个视角下的纹理图像。
上述实施例中,首先获取三维物体模型和纹理描述文本,分别在不同视角下对三维物体模型进行渲染,从而得到各视角下的第一模型渲染图像和用于表示三维物体模型在各视角下的第一深度图像,可以确保在生成纹理图像时使纹理图像具有深度层次,有利于提高视觉效果;此外,针对各视角下的第一模型渲染图像,通过纹理场对第一模型渲染图像进行纹理处理,得到可以得到二维的视角一致性的参考纹理,因此将处理所得的参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像,根据加噪图像、纹理描述文本和第一深度图像进行图像生成,因此可以在不破坏参考纹理一致性的条件下,获得高质量的纹理图像,从而拼接各视角下的纹理图像,可以得到三维空间的纹理一致且高质量的纹理图像。
在一个实施例中,如图7所示,该方法还可以包括:
S702,分别在不同视角下对三维物体模型进行渲染,得到各视角下的第二模型渲染图像和用于表示三维物体模型在各视角下的第二度图像。
其中,第二模型渲染图像可以是在某个视角下对三维物体模型进行渲染所得的图像,如采用可微渲染的方式对三维物体模型进行渲染。该第二模型渲染图像的分辨率小于第一模型渲染图像的分辨率。
第二深度图像可以是:在以某个角度对三维物体模型进行渲染时所得的用于表示虚拟摄像头与三维物体模型的各位置之间的距离的图像。当处于相同视角时,第一深度图像和第二深度图像可以是相同的深度图像。
此外,S702的具体实现过程可以参考上述S204。
S704,通过初始纹理场对各视角下的第二模型渲染图像进行纹理处理,得到各视角下的第一隐图像。
在一个实施例中,S704具体可以包括:针对各视角下的第二模型渲染图像,服务器获取第二模型渲染图像中各像素的坐标信息,然后将各像素的坐标信息输入至初始纹理场,通过初始纹理场中的哈希网格编码网络对坐标信息进行编码处理,然后通过多层感知机进行处理,最终得到各视角下的第一隐图像。
其中,第二模型渲染图像中各像素的坐标信息可以是三维坐标信息,如三维坐标值。
S706,基于目标噪声对各视角下的第一隐图像进行加噪处理,得到各视角下的第一加噪隐图像。
其中,该目标噪声可以是高斯噪声或其它类型的噪声。
S708,分别将各视角下的第一加噪隐图像、各视角下的第二深度图像和纹理描述文本输入至隐式扩散模型进行解码处理,得到第一预测噪声。
在一个实施例中,服务器分别将各视角下的第一加噪隐图像、各视角下的第二深度图像和纹理描述文本输入至隐式扩散模型,通过该隐士扩散模型的解码器,基于第二深度图像和纹理描述文本将第一加噪隐图像还原成自然图像,并且获取还原过程中预测的噪声,得到第一预测噪声。
S710,基于第一预测噪声与目标噪声之间的损失值优化初始纹理场,得到第一次优化后的纹理场。
在一个实施例中,服务器确定第一预测噪声与目标噪声之间的损失值,根据该损失值优化初始纹理场,得到第一次优化后的纹理场。
作为一个示例,使用初始的纹理场将纹理参数化,该纹理场由哈希网格编码网络和多层感知机构成。在每次优化迭代中,首先随机选择一个视角,使用可微渲染得到第二模型渲染图像的每个像素对应的三维坐标,输入纹理场得到对应的隐编码,构成第一隐图像。随后使用隐式扩散模型的分数蒸馏采样(Score Distillation Sampling,SDS)损失进行优化,得到第一次优化后的纹理场。在优化前期,为了优化效率,以较低的分辨率(如64×64)从纹理场中渲染得到隐图像,直接使用SDS计算损失值,根据该损失值得到对第一隐图像梯度,再通过反向传播更新纹理场的参数。具体来说,将当前视角对应的深度图、纹理描述文本和加噪后的第一隐图像输入隐式扩散模型,隐式扩散模型预测的噪声与加入的噪声之间的误差作为优化目标函数,计算目标函数对第一隐图像的梯度。
由于隐图像分辨率的限制,此时得到的纹理场分辨率较低,在优化后期使用高分辨率的RGB(Red Green Blue,红绿蓝)图像进行优化。在一个实施例中,如图8所示,该方法还可以包括:
S802,分别在不同视角下对三维物体模型进行渲染,得到各视角下的第三模型渲染图像和用于表示三维物体模型在各视角下的第三深度图像。
其中,第三模型渲染图像的分辨率大于第二模型渲染图像的分辨率、且等于第一模型渲染图像的分辨率。
S804,通过第一次优化后的纹理场对各视角下的第三模型渲染图像进行纹理处理,得到各视角下的第二隐图像。
在一个实施例中,服务器将各视角下的第二隐图像分别映射为三通道图像;通过与隐式扩散模型对应的编码器,分别对各视角下的三通道图像进行编码处理,得到各视角下的隐编码图像;基于目标噪声对各视角下的隐编码图像进行加噪处理,得到各视角下的第二加噪隐图像。
S806,基于目标噪声对各视角下的第二隐图像进行加噪处理,得到各视角下的第二加噪隐图像。
S808,分别将各视角下的第二加噪隐图像、各视角下的第三深度图像和纹理描述文本输入至隐式扩散模型进行解码处理,得到第二预测噪声。
S810,基于第二预测噪声与目标噪声之间的损失值优化初始纹理场,得到第二次优化后的纹理场。
其中,上述S802~S810的具体实现过程可以参考图7实施例。
例如,首先提升渲染的分辨率到512×512,并使用隐编码到RGB编码的映射函数从纹理场中得到高分辨率RGB图像,然后使用与隐扩散模型配套的编码器将RGB图像映射到隐图像,最后使用SDS计算优化目标函数对隐图像梯度,通过反向传播更新纹理场。
上述实施例中,通过对初始纹理场进行优化,从而可以实现对纹理的优化,即把纹理作为优化参数进行优化,从而可以在每个视角上获得一致性的纹理。
作为一个示例,本申请提出一种由粗到细的基于文本控制的纹理图像生成方法,可为三维物体模型生成符合文本描述的纹理图像,具体内容如下:
本申请通过渲染将三维物体模型转换到二维图像,借助二维隐式扩散模型由文本生成高质量图像的能力生成三维纹理图像。为兼顾纹理的视角一致性和质量,本申请由两个阶段构成:第一阶段将纹理作为优化的参数,通过SDS在随机视角上逐渐优化纹理场,使得每个视角上的渲染图像都趋于真实,从而获得一致连续的纹理,该纹理可以在第二阶段生成纹理图像时作为参考;第二阶段将第一阶段产生的纹理作为条件,使用条件可控的二维隐式扩散模型在不破坏一致性的条件下生成不同视角的高质量图像,进而将二维图像反映射为高清的纹理图像,从而得到视角一致且高质量的纹理。
第一阶段流程:如图9所示,本申请使用纹理场将纹理参数化,由哈希网格编码网络和多层感知机构成。优化前的纹理场可将三维坐标(x,y,z)映射到颜色,其中颜色由与隐式扩散模型绑定的隐编码表示。在每次优化迭代中,首先随机选择一个视角,使用可微渲染得到每个像素对应的三维坐标,将该三维坐标输入纹理场得到对应的隐编码,构成隐图像。随后使用隐式扩散模型的SDS损失优化纹理场。在优化前期,为了优化效率,纹理场以较低的分辨率(如64×64)进行渲染得到隐图像,然后直接使用SDS计算优化目标函数对隐图像的梯度,再通过反向传播更新纹理场的参数。具体来说,将当前视角对应的第一深度图像、参考文本和加噪后的隐图像输入隐式扩散模型,该隐式扩散模型预测的噪声与加入的噪声之间的误差作为优化目标函数,计算目标函数对隐图像的梯度。此外,第一阶段基于多视角优化,除了SDS外还可以使用其他优化目标,如直接根据当前纹理生成二维图像作为优化目标等。
由于隐图像分辨率的限制,此时得到的纹理场分辨率较低,在优化后期使用高分辨率的RGB图像进行优化。首先提升渲染的分辨率到512×512,并使用隐编码到RGB编码的映射函数得到高分辨率的RGB图像,然后使用与隐扩散模型配套的编码器(VAE Encoder)将RGB图像映射到隐图像,最后使用SDS计算优化目标函数对隐图像梯度,通过反向传播更新纹理场,得到更新后的纹理场。此外,隐图像和RGB图像分阶段优化也可以使用其他的实现方案,如采用不同的分阶段分辨率等。
经过第一阶段多视角优化,可以得到不同视角上一致且符合文本描述的纹理,考虑到多视角优化过程限制了纹理的质量和清晰度,为了获得高质量的纹理,第二阶段直接使用扩散模型在不同视角生成图像,并以第一阶段得到的多视角一致的纹理作为条件,要求生成的纹理图像在整体上符合第一阶段已生成的纹理。
第二阶段流程;如图5和图6所示,首先设计了自动化视角采样策略用于控制生成纹理的视角,其设计原则为:
(1)由于不同视角之间可见的面会出现重合,为防止冲突,每个面对应的纹理仅在一个视角下生成,并且期望每个面都能在视线向量与该面垂直的视角下生成纹理,此时渲染后纹理的畸变最小;
(2)为保证高效,应该用尽可能少的视角完成生成。
为此,本申请首先定义视角的正对面积其中视角由相机高度角θ和方位角/>定义,ai为第i个面的面积,/>为正对于此视角且未完成生成的面的集合,正对于视角的面定义为满足/>的面,其中/>表示视线向量,/>表示第i个面的法向量。然后对视角θ,/>采样,估计/>的最大值,从而选择正对面积最大的视角。
第二阶段使用迭代生成的策略,在每次迭代中,已知未完成纹理生成的面,使用上述生成视角选择策略确定视角和正对于该视角且未完成生成的面,并使用第一阶段的纹理场渲染二维图像及第一深度图像,使用扩散模型根据这些条件生成纹理图像,最后将这些面从未完成生成的面的集合中移除。
为了将第一阶段的结果作为条件,本申请设置噪声等级τ,扩散模型不再从高斯噪声开始去噪,而是以第一阶段的纹理场渲染的二维图像加噪到时间步t=τ的图像作为初始值。第一阶段的结果作为第二阶段的条件,除了上述方式还可以使用其它实现方法,例如使用ControlNet等可控生成模型;使用多视角条件生成进一步提升视角一致性等。
此外,为了防止与已生成的纹理在拼接处产生不平滑过渡,本申请引入了重绘制(RePaint)方法,使每次去噪后已生成部分的纹理不发生改变。由于经历完整的生成过程,第二阶段得到的纹理在保持了一致性的前提下,具有更好的细节,最终得到一致性好且高质量的纹理。
采用本申请的技术方案生成的纹理图像如图10所示,对比现有技术TEXTure方法生成的纹理图像(对应图10的第一列),本申请能实现更好的一致性,无明显的纹理不连续现象,不同视角下风格整体一致。此外,对比现有技术Latent-Paint方法生成的纹理图像(对应图10的第二列),本申请生成的纹理具有更好的细节、更逼真的颜色。总体来说,本申请通过渐进式的生成方法生成的纹理图像(对应图10的第三列),在不同阶段逐步强调纹理生成的一致性和视觉质量,以降低生成难度,最终实现在一致性和视觉质量上优于现有技术的综合效果。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的三维纹理图像的生成方法的纹理图像的生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个纹理图像的生成装置实施例中的具体限定可以参见上文中对于三维纹理图像的生成方法的限定,在此不再赘述。
在一个实施例中,如图11所示,提供了一种三维纹理图像的生成装置,包括:获取模块1102、渲染模块1104、处理模块1106、添加模块1108、生成模块1110和拼接模块1112,其中:
获取模块1102,用于获取三维物体模型和纹理描述文本;
渲染模块1104,用于分别在不同视角下对三维物体模型进行渲染,得到各视角下的第一模型渲染图像和用于表示三维物体模型在各视角下的第一深度图像;
处理模块1106,用于针对各视角下的第一模型渲染图像,通过纹理场对第一模型渲染图像进行纹理处理,得到二维的参考纹理;
添加模块1108,用于将参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;
生成模块1110,用于根据加噪图像、纹理描述文本和第一深度图像进行图像生成,获得各视角下的纹理图像;
拼接模块1112,用于拼接各视角下的纹理图像,得到三维物体模型对应的三维纹理图像。
在其中的一个实施例中,获取模块1102,还用于接收目标应用发送的用于生成三维纹理图像的请求信息;从请求信息中读取三维物体模型和纹理描述文本;或者,从请求信息读取纹理描述文本,并根据纹理描述文本生成三维物体模型。
在其中的一个实施例中,渲染模块1104,还用于依次在三维物体模型的至少两个视角进行随机视角选取;分别在每次选取到的视角下对三维物体模型进行渲染,得到渲染图像序列和深度图像序列;其中,每次选取到的视角互不相同;渲染图像序列包括各视角下的第一模型渲染图像;深度图像序列包括用于表示三维物体模型在各视角下的第一深度图像。
在其中的一个实施例中,如图12所示,该装置还包括:
确定模块1114,用于确定三维物体模型在各视角下的正对面积;根据正对面积确定视角数量;
渲染模块1104,还用于依次在三维物体模型的且个数视角数量的视角进行随机视角选取。
在其中的一个实施例中,如图12所示,该装置还包括:
移除模块1116,用于当基于第一视角下的参考纹理生成第一视角下的纹理图像之后,将第一视角下的第一模型渲染图像从渲染图像序列中移除,得到更新渲染图像序列;第一视角是至少两个视角中的一个视角;
处理模块1106,还用于通过纹理场依次对更新渲染图像序列中的第一模型渲染图像进行纹理处理,得到二维的其它各视角下的参考纹理;其中,其它各视角是除第一视角之外的各视角。
在其中的一个实施例中,纹理图像是扩散模型在目标时间步生成的图像;
添加模块1108,还用于将参考纹理渲染至三维物体模型,得到包含参考纹理的图像;将包含参考纹理的图像作为噪声数据添加至去噪过程图像,得到加噪图像;其中,去噪过程图像为添加高斯噪声的图像,或在目标时间步的上一时间步生成的纹理图像。
上述实施例中,首先获取三维物体模型和纹理描述文本,分别在不同视角下对三维物体模型进行渲染,从而得到各视角下的第一模型渲染图像和用于表示三维物体模型在各视角下的第一深度图像,可以确保在生成纹理图像时使纹理图像具有深度层次,有利于提高视觉效果;此外,针对各视角下的第一模型渲染图像,通过纹理场对第一模型渲染图像进行纹理处理,得到可以得到二维的视角一致性的参考纹理,因此将处理所得的参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像,根据加噪图像、纹理描述文本和第一深度图像进行图像生成,因此可以在不破坏参考纹理一致性的条件下,获得高质量的纹理图像,从而拼接各视角下的纹理图像,可以得到三维空间的纹理一致且高质量的纹理图像。
在其中的一个实施例中,如图12所示,该装置还包括:
获取模块1102,还用于获取与各视角下的第一模型渲染图像对应的掩码图像;
融合模块1118,用于将掩码图像与加噪图像进行融合,得到融合图像;
生成模块1110,还用于依据纹理描述文本和第一深度图像对融合图像进行去噪处理,得到与参考纹理匹配的纹理图像。
在其中的一个实施例中,融合模块1118,还用于将掩码图像、加噪图像和去噪过程图像进行融合,得到融合图像;其中,去噪过程图像是在目标时间步的上一时间步生成的纹理图像,目标时间步是扩散模型在生成纹理图像时对应的时间步。
在其中的一个实施例中,装置还包括:
渲染模块1104,还用于分别在不同视角下对三维物体模型进行渲染,得到各视角下的第二模型渲染图像和用于表示三维物体模型在各视角下的第二度图像;
处理模块1106,还用于通过初始纹理场对各视角下的第二模型渲染图像进行纹理处理,得到各视角下的第一隐图像;
加噪模块1120,用于基于目标噪声对各视角下的第一隐图像进行加噪处理,得到各视角下的第一加噪隐图像;
解码模块,用于分别将各视角下的第一加噪隐图像、各视角下的第二深度图像和纹理描述文本输入至隐式扩散模型进行解码处理,得到第一预测噪声;
优化模块1122,用于基于第一预测噪声与目标噪声之间的损失值优化初始纹理场,得到第一次优化后的纹理场。
在其中的一个实施例中,装置还包括:
渲染模块1104,还用于分别在不同视角下对三维物体模型进行渲染,得到各视角下的第三模型渲染图像和用于表示三维物体模型在各视角下的第三深度图像;第三模型渲染图像的分辨率大于第二模型渲染图像的分辨率;
处理模块1106,还用于通过第一次优化后的纹理场对各视角下的第三模型渲染图像进行纹理处理,得到各视角下的第二隐图像;
加噪模块1120,还用于基于目标噪声对各视角下的第二隐图像进行加噪处理,得到各视角下的第二加噪隐图像;
解码模块,还用于分别将各视角下的第二加噪隐图像、各视角下的第三深度图像和纹理描述文本输入至隐式扩散模型进行解码处理,得到第二预测噪声;
优化模块1122,还用于基于第二预测噪声与目标噪声之间的损失值优化初始纹理场,得到第二次优化后的纹理场。
在其中的一个实施例中,加噪模块1120,还用于将各视角下的第二隐图像分别映射为三通道图像;通过与隐式扩散模型对应的编码器,分别对各视角下的三通道图像进行编码处理,得到各视角下的隐编码图像;基于目标噪声对各视角下的隐编码图像进行加噪处理,得到各视角下的第二加噪隐图像。
上述实施例中,通过对初始纹理场进行优化,从而可以实现对纹理的优化,即把纹理作为优化参数进行优化,从而可以在每个视角上获得一致性的纹理。
上述三维纹理图像的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种三维纹理图像的生成方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述三维纹理图像的生成方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述三维纹理图像的生成方法的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述三维纹理图像的生成方法的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种三维纹理图像的生成方法,其特征在于,所述方法包括:
获取三维物体模型和纹理描述文本;
分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第一模型渲染图像和用于表示所述三维物体模型在各所述视角下的第一深度图像;
针对各所述视角下的第一模型渲染图像,通过纹理场对所述第一模型渲染图像进行纹理处理,得到二维的参考纹理;将所述参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;根据所述加噪图像、所述纹理描述文本和所述第一深度图像进行图像生成,获得各所述视角下的纹理图像;
拼接各所述视角下的所述纹理图像,得到所述三维物体模型对应的三维纹理图像。
2.根据权利要求1所述的方法,其特征在于,所述获取三维物体模型和纹理描述文本包括:
接收目标应用发送的用于生成所述三维纹理图像的请求信息;
从所述请求信息中读取三维物体模型和纹理描述文本;或者,
从所述请求信息读取所述纹理描述文本,并根据所述纹理描述文本生成所述三维物体模型。
3.根据权利要求2所述的方法,其特征在于,所述分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第一模型渲染图像和用于表示所述三维物体模型在各所述视角下的第一深度图像包括:
依次在所述三维物体模型的至少两个视角进行随机视角选取;
分别在每次选取到的所述视角下对所述三维物体模型进行渲染,得到渲染图像序列和深度图像序列;
其中,每次选取到的所述视角互不相同;所述渲染图像序列包括各所述视角下的第一模型渲染图像;所述深度图像序列包括用于表示所述三维物体模型在各所述视角下的第一深度图像。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定所述三维物体模型在各所述视角下的正对面积;
根据所述正对面积确定视角数量;
所述依次在所述三维物体模型的至少两个视角进行随机视角选取包括:
依次在所述三维物体模型的且个数所述视角数量的视角进行随机视角选取。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当基于第一视角下的参考纹理生成所述第一视角下的所述纹理图像之后,将所述第一视角下的第一模型渲染图像从所述渲染图像序列中移除,得到更新渲染图像序列;所述第一视角是所述至少两个视角中的一个视角;
所述通过纹理场对所述第一模型渲染图像进行纹理处理,得到二维的参考纹理包括:
通过纹理场依次对所述更新渲染图像序列中的第一模型渲染图像进行纹理处理,得到二维的其它各所述视角下的参考纹理;其中,其它各所述视角是除所述第一视角之外的各视角。
6.根据权利要求3所述的方法,其特征在于,所述纹理图像是扩散模型在目标时间步生成的图像;所述将所述参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像包括:
将所述参考纹理渲染至所述三维物体模型,得到包含所述参考纹理的图像;
将包含所述参考纹理的图像作为噪声数据添加至去噪过程图像,得到加噪图像;
其中,所述去噪过程图像为添加高斯噪声的图像,或在所述目标时间步的上一时间步生成的纹理图像。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与各所述视角下的第一模型渲染图像对应的掩码图像;
将所述掩码图像与所述加噪图像进行融合,得到融合图像;
所述根据所述加噪图像、所述纹理描述文本和所述第一深度图像进行图像生成,获得各所述视角下的纹理图像包括:
依据所述纹理描述文本和所述第一深度图像对所述融合图像进行去噪处理,得到与所述参考纹理匹配的纹理图像。
8.根据权利要求7所述的方法,其特征在于,所述将所述掩码图像与所述加噪图像进行融合,得到融合图像包括:
将所述掩码图像、所述加噪图像和去噪过程图像进行融合,得到融合图像;
其中,所述去噪过程图像是在目标时间步的上一时间步生成的纹理图像,所述目标时间步是扩散模型在生成所述纹理图像时对应的时间步。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:
分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第二模型渲染图像和用于表示所述三维物体模型在各所述视角下的第二度图像;
通过初始纹理场对各所述视角下的第二模型渲染图像进行纹理处理,得到各所述视角下的第一隐图像;
基于目标噪声对各所述视角下的第一隐图像进行加噪处理,得到各所述视角下的第一加噪隐图像;
分别将各所述视角下的第一加噪隐图像、各所述视角下的第二深度图像和所述纹理描述文本输入至隐式扩散模型进行解码处理,得到第一预测噪声;
基于所述第一预测噪声与所述目标噪声之间的损失值优化所述初始纹理场,得到第一次优化后的纹理场。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第三模型渲染图像和用于表示所述三维物体模型在各所述视角下的第三深度图像;所述第三模型渲染图像的分辨率大于所述第二模型渲染图像的分辨率;
通过所述第一次优化后的纹理场对各所述视角下的第三模型渲染图像进行纹理处理,得到各所述视角下的第二隐图像;
基于所述目标噪声对各所述视角下的第二隐图像进行加噪处理,得到各所述视角下的第二加噪隐图像;
分别将各所述视角下的第二加噪隐图像、各所述视角下的第三深度图像和所述纹理描述文本输入至隐式扩散模型进行解码处理,得到第二预测噪声;
基于所述第二预测噪声与所述目标噪声之间的损失值优化所述初始纹理场,得到第二次优化后的纹理场。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
将各所述视角下的第二隐图像分别映射为三通道图像;
通过与隐式扩散模型对应的编码器,分别对各所述视角下的所述三通道图像进行编码处理,得到各所述视角下的隐编码图像;
所述基于所述目标噪声对各所述视角下的第二隐图像进行加噪处理,得到各所述视角下的第二加噪隐图像包括:
基于所述目标噪声对各所述视角下的隐编码图像进行加噪处理,得到各所述视角下的第二加噪隐图像。
12.一种三维纹理图像的生成装置,其特征在于,所述装置包括:
获取模块,用于获取三维物体模型和纹理描述文本;
渲染模块,用于分别在不同视角下对所述三维物体模型进行渲染,得到各所述视角下的第一模型渲染图像和用于表示所述三维物体模型在各所述视角下的第一深度图像;
处理模块,用于针对各所述视角下的第一模型渲染图像,通过纹理场对所述第一模型渲染图像进行纹理处理,得到二维的参考纹理;
添加模块,用于将所述参考纹理作为噪声数据添加至去噪过程图像,得到加噪图像;
生成模块,用于根据所述加噪图像、所述纹理描述文本和所述第一深度图像进行图像生成,获得各所述视角下的纹理图像;
拼接模块,用于拼接各所述视角下的所述纹理图像,得到所述三维物体模型对应的三维纹理图像。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310945819.4A CN116977531A (zh) | 2023-07-28 | 2023-07-28 | 三维纹理图像的生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310945819.4A CN116977531A (zh) | 2023-07-28 | 2023-07-28 | 三维纹理图像的生成方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977531A true CN116977531A (zh) | 2023-10-31 |
Family
ID=88470908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310945819.4A Pending CN116977531A (zh) | 2023-07-28 | 2023-07-28 | 三维纹理图像的生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116977531A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197319A (zh) * | 2023-11-07 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN117372631A (zh) * | 2023-12-07 | 2024-01-09 | 之江实验室 | 一种多视角图像生成模型的训练方法、应用方法 |
-
2023
- 2023-07-28 CN CN202310945819.4A patent/CN116977531A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197319A (zh) * | 2023-11-07 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN117197319B (zh) * | 2023-11-07 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN117372631A (zh) * | 2023-12-07 | 2024-01-09 | 之江实验室 | 一种多视角图像生成模型的训练方法、应用方法 |
CN117372631B (zh) * | 2023-12-07 | 2024-03-08 | 之江实验室 | 一种多视角图像生成模型的训练方法、应用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961507B (zh) | 一种人脸图像生成方法、装置、设备及存储介质 | |
JP6663926B2 (ja) | DeepStereo:実世界の画像から新たなビューを予測するための学習 | |
US11308576B2 (en) | Visual stylization on stereoscopic images | |
CN116977531A (zh) | 三维纹理图像的生成方法、装置、计算机设备和存储介质 | |
US11823322B2 (en) | Utilizing voxel feature transformations for view synthesis | |
CN112868224B (zh) | 捕获和编辑动态深度图像的方法、装置和存储介质 | |
CN116051740A (zh) | 一种基于神经辐射场的室外无界场景三维重建方法及系统 | |
CN117015806A (zh) | 高分辨率神经渲染 | |
CN113902061A (zh) | 一种点云补全方法和装置 | |
CN113313832B (zh) | 三维模型的语义生成方法、装置、存储介质与电子设备 | |
CN115239861A (zh) | 人脸数据增强方法、装置、计算机设备和存储介质 | |
CN117078790B (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN116977169A (zh) | 数据处理方法、装置、设备、可读存储介质及程序产品 | |
US20230145498A1 (en) | Image reprojection and multi-image inpainting based on geometric depth parameters | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN114299105A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN117333627B (zh) | 一种自动驾驶场景的重建与补全方法、系统及存储介质 | |
CN114782256B (zh) | 图像重建方法、装置、计算机设备和存储介质 | |
US20240112394A1 (en) | AI Methods for Transforming a Text Prompt into an Immersive Volumetric Photo or Video | |
CN116051746A (zh) | 一种三维重建和神经渲染网络的改进方法 | |
WO2023217867A1 (en) | Variable resolution variable frame rate video coding using neural networks | |
Jiang et al. | PMPI: Patch-Based Multiplane Images for Real-Time Rendering of Neural Radiance Fields | |
CN114842127A (zh) | 地形渲染方法及装置、电子设备、介质及产品 | |
CN115861401A (zh) | 一种双目与点云融合深度恢复方法、装置和介质 | |
CN115358920A (zh) | 一种多注意力融合的图像风格迁移方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |