CN117036569B

CN117036569B - 三维模型颜色生成网络训练方法、颜色生成方法及装置

Info

Publication number: CN117036569B
Application number: CN202311290084.2A
Authority: CN
Inventors: 方顺; 冯星; 崔铭; 王月; 穆子杰; 汪成峰
Original assignee: Beijing Xuanguang Technology Co ltd
Current assignee: Beijing Xuanguang Technology Co ltd
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-01-30
Anticipated expiration: 2043-10-08
Also published as: CN117036569A

Abstract

本公开实施例提供了三维模型颜色生成网络训练方法、颜色生成方法及装置，基于三维模型顶点颜色与如下参量之间的函数关系构建用于三维模型颜色生成的神经网络模型：能够生成三维模型的图片中像素颜色、像素位置、与像素对应的三维模型顶点的深度；获取用于神经网络训练的待训三维模型，以及能够生成待训三维模型的待训图片；将待训图片中像素颜色、像素位置、以及与像素对应的所述待训三维模型顶点的深度作为神经网络的输入，将待训三维模型的真实顶点颜色作为标注值，对神经网络进行训练，得到训练后的三维模型颜色生成网络。解决了现有技术中三维重建时生成的三维形状表面颜色失真的问题。

Description

三维模型颜色生成网络训练方法、颜色生成方法及装置

技术领域

本公开涉及三维模型技术领域，尤其涉及三维模型颜色生成网络训练方法、颜色生成方法及装置。

背景技术

三维重建通常指根据单视图或者多视图图像重建原始三维信息的过程。传统的三维重建中，首先从不同角度拍摄待重建物体的深度图像，对于重建的三维模型的颜色，可以在采集深度图像的同时采集对应的彩色图像，随后通过迭代最近点（ICP，IterativeClosest Point）等算法计算相机姿态，并将场景隐式表达为体素网格模型，最后渲染出重建的视角，但是，通过这种方式重建的模型虽然有颜色，但是可能存在孔洞、纹理混叠、细节丢失等问题，导致生成的三维形状表面颜色失真。

发明内容

本公开实施例提供了三维模型颜色生成网络训练方法、颜色生成方法及装置，用以解决现有技术中三维重建时生成三维形状表面颜色失真的问题。

基于上述问题，第一方面、提供一种三维模型颜色生成网络训练方法，包括：

基于三维模型顶点颜色与如下参量之间的函数关系构建用于三维模型颜色生成的神经网络模型：能够生成所述三维模型的图片中像素颜色、像素位置、与像素对应的所述三维模型顶点的深度；

获取用于神经网络训练的待训三维模型，以及能够生成所述待训三维模型的待训图片；

将所述待训图片中像素颜色、像素位置、以及与像素对应的所述待训三维模型顶点的深度作为所述神经网络的输入，将所述待训三维模型的真实顶点颜色作为标注值，对所述神经网络进行训练，得到训练后的三维模型颜色生成网络。

在结合第一方面的任一种可能的实施方式中，基于三维模型顶点颜色与如下参量之间的函数关系构建用于三维模型颜色生成的神经网络模型：能够生成所述三维模型的图片中像素颜色、像素位置、与像素对应的所述三维模型顶点的深度，包括：将能够生成三维模型图片的像素作为自变量，构建表征像素在图片中位置的第一隐函数；将像素颜色和表征该像素在图片中位置的第一隐函数作为自变量，构建表征结合有像素位置信息的像素颜色的第二隐函数；将三维模型的顶点作为自变量，构建表征图片中像素对应顶点深度的顶点函数；将所述第二隐函数和所述顶点函数作为自变量，得到对三维模型顶点颜色进行表征的第三隐函数。

在结合第一方面的任一种可能的实施方式中，所述神经网络包括顺序连接的第一子神经网络、第二子神经网络、以及第三子神经网络；将所述待训图片中像素颜色、像素位置、以及与像素对应所述待训三维模型顶点的深度作为所述神经网络的输入，将所述待训三维模型的真实顶点颜色作为标注值，对所述神经网络进行训练，包括：将待训图片中像素位置信息输入第一子神经网络，得到表征待训图片中像素位置信息的第一特征向量；将所述第一特征向量与对应像素颜色信息输入第二子神经网络，得到表征待训图片中结合有像素位置信息的像素颜色的第二特征向量；将待训图片中像素对应待训三维模型顶点的深度信息，以及该像素对应第二特征向量输入第三子神经网络，得到该顶点的预测颜色；基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，对所述神经网络进行训练。

在结合第一方面的任一种可能的实施方式中，将待训图片中像素位置信息输入第一子神经网络，得到表征待训图片中像素位置信息的第一特征向量，包括：将待训图片以预设大小的超像素为单位进行分割；获取各超像素的位置信息并对位置信息进行二维编码；将超像素编码后的位置信息输入所述第一子神经网络，得到表征该超像素位置信息的第一特征向量；将所述第一特征向量与对应像素颜色信息输入第二子神经网络，得到表征待训图片中结合有像素位置信息的像素颜色的第二特征向量，包括：根据超像素包含的各像素的颜色信息确定超像素的颜色信息；使用超像素的颜色信息对表征该超像素位置信息的第一特征向量进行一维拓展；将拓展后的第一特征向量输入所述第二子神经网络，得到表征待训图片中结合有超像素位置信息的超像素颜色的第二特征向量。

在结合第一方面的任一种可能的实施方式中，将待训图片中像素对应待训三维模型顶点的深度信息，以及该像素对应第二特征向量输入第三子神经网络，得到该顶点的预测颜色，包括：确定待训图片中超像素对应待训三维模型顶点的深度信息，以及该超像素对应的第二特征向量；使用所述深度信息为对应第二特征向量进行一维拓展；将拓展后的第二特征向量输入所述第三子神经网络，得到顶点的预测颜色。

在结合第一方面的任一种可能的实施方式中，所述第一子神经网络和第二子神经网络均为Transformer网络，所述第三子神经网络为MLPs神经网络；基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，对所述神经网络进行训练，包括：基于预先为第一预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置信息；基于所述预测位置信息与掩码部分超像素真实位置信息之间的差距，确定所述第一子神经网络的损失，并基于该损失对所述第一子神经网络进行训练；基于预先为第二预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置和/或颜色信息；基于预测位置和/或颜色信息与掩码部分超像素真实位置和/或颜色信息之间的差距，确定所述第二子神经网络的损失，并基于该损失对所述第二子神经网络进行训练；基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，确定所述第三子神经网络的损失，并基于该损失对所述第三子神经网络进行训练。

在结合第一方面的任一种可能的实施方式中，所述第一子神经网络和第二子神经网络均为transformer网络，所述第三子神经网络为MLPs神经网络；基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，对所述神经网络进行训练，包括：基于预先为第一预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置信息，并基于所述预测位置信息与掩码部分超像素真实位置信息之间的差距，确定所述第一子神经网络的第一损失；基于预先为第二预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置和/或颜色信息，并基于预测位置和/或颜色信息与掩码部分超像素真实位置和/或颜色信息之间的差距，确定所述第二子神经网络的第二损失；基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，确定所述第三子神经网络的第三损失；基于所述第一损失、所述第二损失、和所述第三损失的和，对所述神经网络进行联合训练。

在结合第一方面的任一种可能的实施方式中，所述待训三维模型包括：点云、体素、和网格中的至少一种；所述待训图片包括：待训三维模型预设面的多个视图；所述多个视图为待训三维模型的不同倍数包围盒深度的距离下，通过渲染烘培的方式生成。

在结合第一方面的任一种可能的实施方式中，所述待训三维模型顶点颜色标注值通过对待训三维模型所在三维空间进行采样获得；所述方法还包括：按照预设采样比率，对三维空间中待训三维模型顶点采用正态采样，对三维空间中除顶点之外的点采用均匀采样。

第二方面、提供一种三维模型颜色生成方法，包括：

获取用于生成三维模型的图片；并

将所述图片中像素颜色、像素位置、以及与像素对应的所述三维模型顶点的深度输入如第一方面，或结合第一方面的任一种可能的实施方式所述的三维模型颜色生成网络训练方法训练得到的三维模型颜色生成网络，得到三维模型的顶点颜色。

第三方面、提供一种三维模型颜色生成相关装置，包括：提供如第一方面，或结合第一方面的任一种可能的实施方式所述的三维模型颜色生成网络训练方法的步骤对应功能模块的三维模型颜色生成网络训练装置；或者第二方面所述的三维模型颜色生成方法的步骤对应功能模块的三维模型颜色生成装置。

第四方面、提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面，或结合第一方面的任一种可能的实施方式所述的三维模型颜色生成网络训练方法的步骤，或者第二方面所述的三维模型颜色生成方法的步骤。

第五方面、提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面，或结合第一方面的任一种可能的实施方式所述的三维模型颜色生成网络训练方法的步骤，或者第二方面所述的三维模型颜色生成方法的步骤。

本公开实施例的有益效果包括：

本公开实施例提供的三维模型颜色生成网络训练方法、颜色生成方法及装置，基于三维模型顶点颜色与如下参量之间的函数关系构建用于三维模型颜色生成的神经网络模型：能够生成所述三维模型的图片中像素颜色、像素位置、与像素对应的所述三维模型顶点的深度；获取用于神经网络训练的待训三维模型，以及能够生成所述待训三维模型的待训图片；将所述待训图片中像素颜色、像素位置、以及与像素对应的所述待训三维模型顶点的深度作为所述神经网络的输入，将所述待训三维模型的真实顶点颜色作为标注值，对所述神经网络进行训练，得到训练后的三维模型颜色生成网络。再通过将图片输入训练好的三维模型颜色生成网络，生成三维形状表面的颜色，解决了现有技术中三维重建时生成三维形状表面颜色失真的问题。

附图说明

图1为本公开实施例提供的三维模型颜色生成网络训练方法的流程图；

图2为本公开实施例提供的三维模型颜色生成网络训练方法中对神经网络训练步骤的流程图；

图3为本公开实施例提供的三维模型颜色生成神经网络结构示意图；

图4为本公开实施例提供的三维模型颜色生成方法的流程图；

图5为本公开实施例提供的三维模型颜色生成网络训练装置结构示意图；

图6为本公开实施例提供的三维模型颜色生成装置的结构示意图。

实施方式

本公开实施例提供了三维模型颜色生成网络训练方法、颜色生成方法及装置，以下结合说明书附图对本公开的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本公开，并不用于限定本公开。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本公开实施例提供一种三维模型颜色生成网络训练方法，如图1所示，包括：

S101、基于三维模型顶点颜色与如下参量之间的函数关系构建用于三维模型颜色生成的神经网络模型：能够生成该三维模型的图片中像素颜色、像素位置、与像素对应的该三维模型顶点的深度；

S102、获取用于神经网络训练的待训三维模型，以及能够生成该待训三维模型的待训图片；

S103、将待训图片中像素颜色、像素位置、以及与像素对应的待训三维模型顶点的深度作为神经网络的输入，将待训三维模型的真实顶点颜色作为标注值，对神经网络进行训练，得到训练后的三维模型颜色生成网络。

本公开实施例中，三维（3D，3 Dimensions）模型的顶点颜色与能够生成该三维模型的二维图片的像素息息相关，包括二维图片中像素的位置、像素颜色、以及三维模型顶点与二维图片中对应像素的对应关系（二者之间的距离，又称顶点的深度）。由于在生成三维模型之前，二维图片像素的上述相关信息较容易获得，顶点深度也能够通过相机参数求得，因此可以构建三维模型顶点颜色与上述参量之间的函数关系，基于该函数关系建立神经网络模型，获取相关数据对神经网络进行训练，最终得到用于三维模型颜色生成的神经网络。解决现有技术中三维重建时生成的三维形状表面颜色失真的问题。

本公开实施例中，三维模型可以包括点云、体素、和网格（mesh）中的至少一种。其中，网格可以用于绘制复杂的模型，网格可以包含定义于三维空间的顶点，这些顶点可以被线连接形成多个三角形，三角形形成的网格可以表示任何曲面。因此，本公开实施例中的三维模型顶点对于网格构成的三维模型来说可以指网格的顶点，对于点云和体素构成的三维模型来说，可以指三维模型表面的点或体素。

本公开提供的又一实施例中，提供了图1所示的三维模型颜色生成网络的训练方法中“S101、基于三维模型顶点颜色与如下参量之间的函数关系构建用于三维模型颜色生成的神经网络模型：能够生成该三维模型的图片中像素颜色、像素位置、与像素对应的该三维模型顶点的深度”的实施方式，包括如下步骤：

步骤一、将能够生成三维模型图片的像素作为自变量，构建表征像素在图片中位置的第一隐函数；

步骤二、将像素颜色和表征该像素在图片中位置的第一隐函数作为自变量，构建表征结合有像素位置信息的像素颜色的第二隐函数；

步骤三、将三维模型的顶点作为自变量，构建表征图片中像素对应顶点的深度的顶点函数；

步骤四、将所述第二隐函数和所述顶点函数作为自变量，得到对三维模型顶点颜色进行表征的第三隐函数。

本公开实施例中，“显式”是指能在三维空间表示出来的3D模型，比如点云、体素、网格等。“隐式”是指能用数学表达式来表示3D模型，称为隐式函数，简称隐函数。

本公开实施例中，构建3D模型顶点颜色的函数表达式如式1所示：

式1

其中，表征图片中的像素，第一隐函数/>表征像素在图片中的位置特征向量；/>表征图片像素颜色，第二隐函数/>表征将像素颜色和位置作为输入，得到的结合位置信息的颜色特征向量；/>表征3D模型顶点，顶点函数/>表征3D模型顶点/>到图片中对应像素的距离，即顶点/>的深度；第三隐函数/>将第二隐函数和顶点函数作为自变量，对3D模型顶点颜色/>的函数模型进行表征。

在式1中，顶点函数可以通过相机参数求得，而第一隐函数/>、第二隐函数、以及第三隐函数/>均为未知，可以构建神经网络求得。

在本公开提供的又一实施例中，分别为上述未知隐函数构建了子神经网络，使子网络顺序连接实现三维模型颜色生成网络。提供了图1所示的三维模型颜色生成网络训练方法中“S103、将待训图片中像素颜色、像素位置、以及像素与待训三维模型中对应体素之间的距离作为神经网络的输入，将待训三维模型的真实顶点颜色作为期待输出，对神经网络进行训练，得到训练后的三维模型颜色生成网络”的实施方式，如图2所示，包括如下步骤：

S201、将待训图片中像素位置信息输入第一子神经网络，得到表征待训图片中像素位置信息的第一特征向量；

S202、将S201中得到的第一特征向量与对应像素颜色信息输入第二子神经网络，得到表征待训图片中结合有像素位置信息的像素颜色的第二特征向量；

S203、将待训图片中像素对应待训三维模型顶点的深度信息，以及该像素对应的第二特征向量输入第三子神经网络，得到该顶点的预测颜色；

S204、基于S203中得到的顶点预测颜色与该顶点颜色标注值之间的差距，对神经网络进行训练。

本公开实施例中，分别为第一隐函数、第二隐函数/>、以及第三隐函数/>构建了的第一子神经网络、第二子神经网络、以及第三子神经网络，三个子神经网络顺序连接构成整个神经网络模型，前一个子神经网络的输出可以作为后一个神经网络的输入，在一种可能的实施方式中，顺序连接的子神经网络的连接方式可以为全连接的方式。

在本公开提供的又一实施例中，上述步骤“S201、将待训图片中像素位置信息输入第一子神经网络，得到表征待训图片中像素位置信息的第一特征向量”可以实施为如下步骤：

步骤一、将待训图片以预设大小的超像素为单位进行分割；

步骤二、获取各超像素的位置信息并对位置信息进行二维编码；

步骤三、将超像素编码后的位置信息输入第一子神经网络，得到表征该超像素位置信息的第一特征向量。

本公开实施例中，由于单个像素包含的信息量有限，并且对每个像素进行处理对硬件性能要求较高，实施时，可以将待训图片以预设大小的超像素为单位进行分割。超像素一般由一系列位置相邻且颜色、亮度、纹理等特征相似的像素组成的小区域。假设输入图片的分辨率为512*512，以4个临近的田字形像素构成一个超像素为例，可以将图片分割成128个超像素。并且以超像素为单位确定超像素的位置信息。

在将超像素位置信息输入第一子神经网络之前，需要对超像素位置信息进行二维编码，例如：坐标(5, 8)表示第5行第8列的4个像素组成的超像素。将该编码后的超像素位置信息输入第一子神经网络，则可以得到表征该超像素位置信息的第一特征向量。

需要说明的是，待训图片的分辨率决定了训练过程中的数据处理量，可以根据用于模型训练的硬件设备的性能，选择分辨率适当的图片作为待训图片。

在本公开提供的又一实施例中，上述步骤“S202、将S201中得到的第一特征向量与对应像素颜色信息输入第二子神经网络，得到表征待训图片中结合有像素位置信息的像素颜色的第二特征向量”可以实施为如下步骤：

步骤一、根据超像素包含的各像素的颜色信息确定超像素的颜色信息；

步骤二、使用超像素的颜色信息对表征该超像素位置信息的第一特征向量进行一维拓展；

步骤三、将拓展后的第一特征向量输入第二子神经网络，得到表征待训图片中结合有超像素位置信息的超像素颜色的第二特征向量。

本公开实施例中，由于是以超像素为单位进行神经网络训练，而构成超像素的像素可能有不同的颜色，那么超像素的颜色可以结合构成该超像素的像素颜色来生成，例如：可以对构成超像素的4个像素三原色（RGB，Red green blue）求算数平均数，作为超像素的RGB值。

进一步地，第二子神经网络需要将超像素位置信息和颜色信息作为输入，而第一子神经网络输出了表征超像素位置信息的第一特征向量，那么可以将超像素的颜色信息作为第一特征向量的一维拓展，即为第一特征向量拓展一个维度用来存储对应超像素的颜色信息。将拓展后的第一特征向量输入第二子神经网络，得到表征待训图片中结合有超像素位置信息的超像素颜色的第二特征向量。

在本公开提供的又一实施例中，上述步骤“S203、将待训图片中像素对应待训三维模型顶点的深度信息，以及该像素对应的第二特征向量输入第三子神经网络，得到该顶点的预测颜色”可以实施为如下步骤：

步骤一、确定待训图片中超像素对应待训三维模型顶点的深度信息，以及该超像素对应的第二特征向量；

步骤二、使用该深度信息为对应第二特征向量进行一维拓展；

步骤三、将拓展后的第二特征向量输入第三子神经网络，得到顶点的预测颜色。

本公开实施例中，确定待训图片中超像素对应待训三维模型顶点的深度信息，并且确定出该超像素对应的第二特征向量。通过相机的视场（FOV，Field of View）值、相机距离等参数可以确定出3D模型顶点与对应超像素点之间的距离，即3D模型顶点的深度值。再将该深度值作为对应第二特征向量的一维拓展，与第二特征向量进行拼接，将拼接后的第二特征向量输入第三神经网络，得到顶点的预测颜色。

图3为本公开实施例提供的神经网络模型结构示意图，由于变换神经网络（Transformer）中增加了对元素位置信息的处理，采用Transformer解析图像特征，能确保每个超像素与整张图片的特征关系，使得每个局部超像素具有了全局图片的特征属性，能够大幅提升隐函数输出的准确性。并且Transformer相比卷积神经网络（CNN，Convolutional Neural Networks），不限制输入图像的分辨率，扩展性更高。因此，第一子神经网络和第二子神经网络分别采用Transformer网络来实现，分别记为Transformer-1和Transformer-2。第三子神经网络采用多层感知机（MLPs，Multi-LayerPerceptron）网络来实现。如图3所示：

1、假设待训图片分辨率为512*512，以相邻四个呈田字的像素为一个超像素为例，将待训图片分割为128个超像素，并在对超像素位置进行二维编码后，输入Transformer-1，输出表征待训图片中像素位置的特征向量F2。

2、从待训图片中采集超像素RGB，并将构成超像素的各像素的RGB的算数平均值作为超像素的RGB值。

3、在将F2输入Transformer-2之前，执行Add-1的操作，即直接将特征向量F2拓展一个向量维度，用来存放对应超像素的十六进制RGB值。

4、将拓展后的F2输入Transformer-2，此时输入Transformer-2的仍然为128个向量。经过Transformer-2生成结合超像素位置信息的颜色特征向量F1。

5、确定待训3D模型顶点的深度/>，即待训3D模型顶点/>与待训图片中对应超像素之间的距离，可以通过相机参数求得（例如：FOV值、相机距离等）。

6、在将F1输入MLPs网络之前，执行Add-2的操作，即为128个特征向量分别拼接对应的顶点深度值。实施时，可以为待训图片中超像素点/>确定其在待训3D模型中的顶点/>的深度，及其对应的特征向量F1，为F1拓展一个维度，将深度值直接拼接到特征向量F1。也就是说，如果F1是64维向量，则拼接后的F1就变成65维向量，MLPs的输入节点也是这65维向量构成的65个节点。

在本公开提供的又一实施例中，还提供了步骤“S204、基于S203中得到的顶点预测颜色与该顶点颜色标注值之间的差距，对神经网络进行训练”的一种实施方式，其中，第一子神经网络和第二子神经网络均为transformer网络，第三子神经网络为MLPs神经网络，各子神经网络可以单独确定损失并进行训练：

步骤一、基于预先为第一预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置信息；

步骤二、基于预测位置信息与掩码部分超像素真实位置信息之间的差距，确定第一子神经网络的损失，并基于该损失对第一子神经网络进行训练；

步骤三、基于预先为第二预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置和/或颜色信息；

步骤四、基于预测位置和/或颜色信息与掩码部分超像素真实位置和/或颜色信息之间的差距，确定第二子神经网络的损失，并基于该损失对第二子神经网络进行训练；

步骤五、基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，确定第三子神经网络的损失，并基于该损失对第三子神经网络进行训练。

本公开实施例中步骤一和步骤二为第一子神经网络确定损失并根据损失对第一子神经网络进行训练，步骤三和步骤四为第二子神经网络确定损失并根据损失对第二子神经网络进行训练，步骤五为为第三子神经网络确定损失并根据损失对第三神经网络进行训练。本公开实施例中，步骤的序号不对步骤的执行顺序进行限制。

由于Transformer网络自身的性质，将训练图片输入之后，可以通过设置遮挡预设数量的超像素数量，即设置掩码（mask），例如：掩码15%的超像素量，对掩码部分进行预测，再将预测的结果与去掉掩码的结果进行比对，计算损失，来训练每个超像素的三个权重矩阵。第一子神经网络和第二子神经网络均可实施为Transformer网络，则均可基于Transformer网络自身的性质进行训练，这里不再赘述。

Transformer的损失函数，可以通过类似BERT模型，采用掩码的方式求得。例如：将损失函数记为Loss=CrossEntropy（e，p），其中，e表征掩码遮住的真实值，p表征对遮住部分的预测值。通过反向传播计算损失函数关于模型参数的梯度，通过梯度下降更新模型参数。

进一步地，可以为超像素在待训3D模型中对应顶点计算深度/>，并拼接到对应图片超像素的特征向量，输入MLPs网络。生成该顶点的预测RGB值。通过生成的结果与真实值进行比较，算出损失函数，从而训练MLPs。

MLPs的损失函数 =隐函数与真实3D模型之间的均方误差（MSE），可以通过式2表示为：

式2

式3

其中，n表征顶点个数，表征3D模型在顶点的标注RGB值（即真实值）；表征MLPs网络预测的颜色RGB值（即预测值）；/>表征损失函数，通过预测值与真实值的均方误差确定。

MLPs输出的是隐函数输出预测值，显式表示的真实3D模型提供的是真实值（通过采样得到），通过损失函数的计算让预测值逼近真实值，从而训练MLPs网络。预测值是MLPs输出的结果，是每个待训三维模型顶点最可能的RGB值。真实值是以隐函数所在的3D空间为参照系，每个顶点的RGB值，是对真实3D模型顶点颜色的近似模拟。通过采样，将真实3D模型的顶点色转换为隐函数的输出结果。

如上所述，模型训练过程中待训三维模型是真实的三维模型，其顶点的真实颜色标注值通过采样获得。待训三维模型采样点包括待训三维模型所在三维（3D）空间采样点。在一种实施方式中，3D空间可以为由512*512*512个体素构成的空间。在3D空间中进行采样时，采样点可以为3D空间中任何位置的点，包括3D模型内部的点、表面的点、外部的点等。另外，采样点也可以不是3D模型的顶点，而是逼近它的统计估计值，可以使用这个采样点表示真实值。颜色RGB值可以用十六进制表示（例如：#FF0000表示红色）。

在本公开提供的又一实施例中，还提供了步骤S204的另一种实施方式，其中，第一子神经网络和第二子神经网络均为transformer网络，第三子神经网络为MLPs神经网络，各子神经网络可以联合确定损失并进行训练：

步骤一、基于预先为第一预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置信息；基于预测位置信息与掩码部分超像素真实位置信息之间的差距，确定第一子神经网络的第一损失；

步骤二、基于预先为第二预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置和/或颜色信息；基于预测位置和/或颜色信息与掩码部分超像素真实位置和/或颜色信息之间的差距，确定所述第二子神经网络的第二损失；

步骤三、基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，确定第三子神经网络的第三损失；

步骤四、基于第一损失、第二损失、和第三损失的和，对神经网络进行联合训练。

本公开实施例中，第一子神经网络、第二子神经网络、第三子神经网络的损失确定方法可参见上述实施例，本实施例中可以将第一子神经网络、第二子神经网络、第三子神经网络的损失函数相加，对神经网络模型进行联合训练，这里不再赘述。

在本公开提供的又一实施例中，待训三维模型包括：点云、体素、和网格中的至少一种；

待训图片包括：待训三维模型预设面的多个视图；该多个视图为待训三维模型的不同倍数包围盒深度的距离下，通过渲染烘培的方式生成。

本公开实施例中，在准备训练数据（包括待训三维模型和待训图片）时，可以准备显式表示的3D模型，例如：点云、体素、网格等。待训图片可以与待训3D模型成对儿准备，并且待训3D模型与对应待训图片为一对多的关系。因为3D模型有多个面（包括侧面、顶面、底面等），可以根据实际情况基于预设面生成待训图片。又因为面具有多种视图，则可以在待训三维模型的不同倍数包围盒深度的距离下，通过渲染烘培的方式生成。也就是说，可以先确定3D模型的包围盒深度（例如：将包围盒多条边中长度最长的边作为包围盒深度，或者射线穿入包围盒的点至穿出包围盒的点之间的距离作为包围盒深度，这里并不限制），再确定不同倍数包围盒深度的距离，在不同距离表征的远近不同的视角下，通过渲染烘培的方式生成对应视图作为待训图片。

假设准备点云、体素、网格各2万个待训3D模型，获取每个待训3D模型4个侧面，并确定采用1倍到5倍包围盒深度的距离，共5个距离，通过渲染烘焙的方式，生成5张512*512分辨率的视图（图片/图像/照片），4个侧面共计20张，2万个模型，共计40万张待训图片（三种3D模型表示方法可以共用图片）。再对3D模型进行采样，得到3D空间每个顶点的真实颜色值，完成训练数据的准备。

另外，整体网络模型生成效果与待训3D模型和待训图片的精度息息相关，因此图片分辨率、3D模型精度，以及对此3D模型的采样，都会直接影响到生成效果。可以对模型生成效果和硬件性能进行权衡，根据实际需要进行选择设置。

在本公开提供的又一实施例中，待训三维模型顶点颜色标注值通过对待训三维模型所在三维空间进行采样获得；因此还提供了采样的方法，所述方法还包括：

按照预设采样比率，对三维空间中待训三维模型顶点采用正态采样，对三维空间中除顶点之外的点采用均匀采样。

相关技术中包含多种采样方法，例如：随机采样、均匀采样、正态分布采样等。因为采样总数是固定的，采样方法将影响最终采样得到RGB值的真实程度。本公开实施例采用均匀采样结合正态分布采样，采样数比率例如为1:20（实施时，可以根据实际需求进行设置），在3D模型顶点附近采用正态分布采样， 3D空间其他位置采用均匀采样，这样既能重点关注到想要采样的区域，又能对其他区域采样，提高训练模型的鲁棒性。

本公开实施例还提供一种三维模型颜色生成方法，如图4所示，包括：

S401、获取用于生成三维模型的图片；并

S402、将S401中获取的图片中像素颜色、像素位置、以及与像素对应的三维模型顶点的深度输入采用上述任意实施例提供的三维模型颜色生成网络训练方法训练的三维模型颜色生成网络，得到三维模型的顶点颜色。

本公开实施例中，完成训练的三维模型颜色生成网络可以包括顺序连接的第一子神经网络、第二子神经网络和第三子神经网络，但不再需要进行损失计算以及参数调整。将用于生成三维模型的图片中像素颜色、像素位置、以及与像素对应的三维模型顶点的深度输入第一子神经网络，即可获得该三维模型顶点的颜色。解决了现有技术中三维重建时生成的三维形状表面颜色失真的技术问题。

基于同一公开构思，本公开实施例还提供了三维模型颜色生成网络的训练装置及三维模型颜色生成装置，三维模型颜色生成网络的训练装置提供了前述任意三维模型颜色生成网络的训练方法实施例中方法步骤对应的功能模块，三维模型颜色生成装置提供了前述任意三维模型颜色生成方法实施例中方法步骤对应的功能模块。由于这些装置所解决问题的原理与前述三维模型颜色生成网络的训练方法及三维模型颜色生成方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

本公开实施例提供的一种三维模型颜色生成网络训练装置，如图5所示，包括：

模型构建模块501，用于基于三维模型顶点颜色与如下参量之间的函数关系构建用于三维模型颜色生成的神经网络模型：能够生成所述三维模型的图片中像素颜色、像素位置、与像素对应的所述三维模型顶点的深度；

数据获取模块502，用于获取用于神经网络训练的待训三维模型，以及能够生成所述待训三维模型的待训图片；

网络训练模块503，用于将所述待训图片中像素颜色、像素位置、以及与像素对应的所述待训三维模型顶点的深度作为所述神经网络的输入，将所述待训三维模型的真实顶点颜色作为标注值，对所述神经网络进行训练，得到训练后的三维模型颜色生成网络。

在本公开提供的又一实施例中，模型构建模块501，用于将能够生成三维模型图片的像素作为自变量，构建表征像素在图片中位置的第一隐函数；将像素颜色和表征该像素在图片中位置的第一隐函数作为自变量，构建表征结合有像素位置信息的像素颜色的第二隐函数；将三维模型的顶点作为自变量，构建表征图片中像素对应顶点深度的顶点函数；将所述第二隐函数和所述顶点函数作为自变量，得到对三维模型顶点颜色进行表征的第三隐函数。

在本公开提供的又一实施例中，网络训练模块503，用于将待训图片中像素位置信息输入第一子神经网络，得到表征待训图片中像素位置信息的第一特征向量；将所述第一特征向量与对应像素颜色信息输入第二子神经网络，得到表征待训图片中结合有像素位置信息的像素颜色的第二特征向量；将待训图片中像素对应待训三维模型顶点的深度信息，以及该像素对应第二特征向量输入第三子神经网络，得到该顶点的预测颜色；基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，对所述神经网络进行训练；所述神经网络包括顺序连接的第一子神经网络、第二子神经网络、以及第三子神经网络。

在本公开提供的又一实施例中，网络训练模块503，用于将待训图片以预设大小的超像素为单位进行分割；获取各超像素的位置信息并对位置信息进行二维编码；将超像素编码后的位置信息输入所述第一子神经网络，得到表征该超像素位置信息的第一特征向量；以及

根据超像素包含的各像素的颜色信息确定超像素的颜色信息；使用超像素的颜色信息对表征该超像素位置信息的第一特征向量进行一维拓展；将拓展后的第一特征向量输入所述第二子神经网络，得到表征待训图片中结合有超像素位置信息的超像素颜色的第二特征向量。

在本公开提供的又一实施例中，网络训练模块503，用于确定待训图片中超像素对应待训三维模型顶点的深度信息，以及该超像素对应的第二特征向量；使用所述深度信息为对应第二特征向量进行一维拓展；将拓展后的第二特征向量输入所述第三子神经网络，得到顶点的预测颜色。

在本公开提供的又一实施例中，网络训练模块503，用于基于预先为第一预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置信息；基于所述预测位置信息与掩码部分超像素真实位置信息之间的差距，确定所述第一子神经网络的损失，并基于该损失对所述第一子神经网络进行训练；基于预先为第二预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置和/或颜色信息；基于预测位置和/或颜色信息与掩码部分超像素真实位置和/或颜色信息之间的差距，确定所述第二子神经网络的损失，并基于该损失对所述第二子神经网络进行训练；基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，确定所述第三子神经网络的损失，并基于该损失对所述第三子神经网络进行训练；所述第一子神经网络和第二子神经网络均为Transformer网络，所述第三子神经网络为MLPs神经网络。

在本公开提供的又一实施例中，网络训练模块503，用于基于预先为第一预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置信息，并基于所述预测位置信息与掩码部分超像素真实位置信息之间的差距，确定所述第一子神经网络的第一损失；基于预先为第二预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置和/或颜色信息，并基于预测位置和/或颜色信息与掩码部分超像素真实位置和/或颜色信息之间的差距，确定所述第二子神经网络的第二损失；基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，确定所述第三子神经网络的第三损失；基于所述第一损失、所述第二损失、和所述第三损失的和，对所述神经网络进行联合训练；所述第一子神经网络和第二子神经网络均为transformer网络，所述第三子神经网络为MLPs神经网络。

在本公开提供的又一实施例中，所述待训三维模型包括：点云、体素、和网格中的至少一种；所述待训图片包括：待训三维模型预设面的多个视图；所述多个视图为待训三维模型的不同倍数包围盒深度的距离下，通过渲染烘培的方式生成。

在本公开提供的又一实施例中，所述装置还包括：采样模块504；采样模块504，用于按照预设采样比率，对三维空间中待训三维模型顶点采用正态采样，对三维空间中除顶点之外的点采用均匀采样，所述待训三维模型顶点颜色标注值通过对待训三维模型所在三维空间进行采样获得。

本公开实施例还提供一种三维模型颜色生成装置，如图6所示，包括：

图片获取模块601，用于获取用于生成三维模型的图片；并

颜色生成模块602，用于将所述图片中像素颜色、像素位置、以及与像素对应的所述三维模型顶点的深度输入上述任意实施例所述的三维模型颜色生成网络训练装置训练得到的三维模型颜色生成网络，得到三维模型的顶点颜色。

本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述任一实施例所述的三维模型颜色生成网络训练方法的步骤，或者上述任一实施例所述的三维模型颜色生成方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例所述的三维模型颜色生成网络训练方法的步骤，或者上述任意实施例所述的三维模型颜色生成方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本公开实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本公开各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种三维模型颜色生成网络的训练方法，其特征在于，包括：

基于三维模型顶点颜色与如下参量之间的函数关系构建用于三维模型颜色生成的神经网络模型：能够生成所述三维模型的图片中像素颜色、像素位置以及与像素对应的所述三维模型顶点的深度，包括：

将能够生成三维模型图片的像素作为自变量，构建表征像素在图片中位置的第一隐函数；

将像素颜色和表征该像素在图片中位置的第一隐函数作为自变量，构建表征结合有像素位置信息的像素颜色的第二隐函数；

将三维模型的顶点作为自变量，构建表征图片中像素对应顶点深度的顶点函数；

将所述第二隐函数和所述顶点函数作为自变量，得到对三维模型顶点颜色进行表征的第三隐函数；

将所述待训图片中像素颜色、像素位置以及与像素对应的所述待训三维模型顶点的深度作为所述神经网络的输入，将所述待训三维模型的真实顶点颜色作为标注值，对所述神经网络进行训练，得到训练后的三维模型颜色生成网络；

所述神经网络包括顺序连接的为所述第一隐函数构建的第一子神经网络、为所述第二隐函数构建的第二子神经网络以及为所述第三隐函数构建的第三子神经网络；

将所述待训图片中像素颜色、像素位置以及与像素对应的所述待训三维模型顶点的深度作为所述神经网络的输入，将所述待训三维模型的真实顶点颜色作为标注值，对所述神经网络进行训练，包括：

将待训图片中像素位置信息输入第一子神经网络，得到表征待训图片中像素位置信息的第一特征向量；

将所述第一特征向量与对应像素颜色信息输入第二子神经网络，得到表征待训图片中结合有像素位置信息的像素颜色的第二特征向量，包括：

根据超像素包含的各像素的颜色信息确定超像素的颜色信息；所述超像素为将待训图片以预设大小的超像素为单位进行分割得到；

使用超像素的颜色信息对表征该超像素位置信息的第一特征向量进行一维拓展；

将拓展后的第一特征向量输入所述第二子神经网络，得到表征待训图片中结合有超像素位置信息的超像素颜色的第二特征向量；

将待训图片中像素对应待训三维模型顶点的深度信息，以及该像素对应第二特征向量输入第三子神经网络，得到该顶点的预测颜色，包括：

确定待训图片中超像素对应待训三维模型顶点的深度信息，以及该超像素对应的第二特征向量；

使用所述深度信息为对应第二特征向量进行一维拓展；

将拓展后的第二特征向量输入所述第三子神经网络，得到顶点的预测颜色；

基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，对所述神经网络进行训练。

2.如权利要求1所述的方法，其特征在于，将待训图片中像素位置信息输入第一子神经网络，得到表征待训图片中像素位置信息的第一特征向量，包括：

获取各超像素的位置信息并对位置信息进行二维编码；

将超像素编码后的位置信息输入所述第一子神经网络，得到表征该超像素位置信息的第一特征向量。

3.如权利要求1所述的方法，其特征在于，所述第一子神经网络和第二子神经网络均为Transformer网络，所述第三子神经网络为多层感知机神经网络；

基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，对所述神经网络进行训练，包括：

基于预先为第一预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置信息；

基于所述预测位置信息与掩码部分超像素真实位置信息之间的差距，确定所述第一子神经网络的损失，并基于所述第一子神经网络的损失对所述第一子神经网络进行训练；

基于预先为第二预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置和颜色信息；

基于预测位置信息与掩码部分超像素真实位置信息之间的差距，确定所述第二子神经网络的损失；或者基于预测颜色信息与掩码部分超像素真实颜色信息之间的差距，确定所述第二子神经网络的损失；或者基于预测位置和颜色信息与掩码部分超像素真实位置和颜色信息之间的差距，确定所述第二子神经网络的损失；并基于所述第二子神经网络的损失对所述第二子神经网络进行训练；

基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，确定所述第三子神经网络的损失，并基于所述第三子神经网络的损失对所述第三子神经网络进行训练。

4.如权利要求1所述的方法，其特征在于，所述第一子神经网络和第二子神经网络均为transformer网络，所述第三子神经网络为多层感知机神经网络；

基于预先为第一预设数量的超像素设置的掩码，确定掩码部分超像素的预测位置信息，并基于所述预测位置信息与掩码部分超像素真实位置信息之间的差距，确定所述第一子神经网络的第一损失；

基于预测位置信息与掩码部分超像素真实位置信息之间的差距，确定所述第二子神经网络的第二损失；或者基于预测颜色信息与掩码部分超像素真实颜色信息之间的差距，确定所述第二子神经网络的第二损失；或者基于预测位置和颜色信息与掩码部分超像素真实位置和颜色信息之间的差距，确定所述第二子神经网络的第二损失；

基于得到的顶点预测颜色与该顶点颜色标注值之间的差距，确定所述第三子神经网络的第三损失；

基于所述第一损失、所述第二损失和所述第三损失的和，对所述神经网络进行联合训练。

5.一种三维模型颜色生成方法，其特征在于，包括：

获取用于生成三维模型的图片；并

将所述图片中像素颜色、像素位置以及与像素对应的所述三维模型顶点的深度输入如权利要求1-4任一项所述的三维模型颜色生成网络的训练方法训练得到的三维模型颜色生成网络，得到三维模型的顶点颜色。

6.一种三维模型颜色生成网络的训练装置，其特征在于，包括：提供如权利要求1至4任一所述的三维模型颜色生成网络的训练方法的步骤对应功能模块的装置。

7.一种三维模型颜色生成装置，其特征在于，包括：提供如权利要求5所述的三维模型颜色生成方法的步骤对应功能模块的装置。

8.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的三维模型颜色生成网络的训练方法的步骤，或者权利要求5所述的三维模型颜色生成方法的步骤。