CN113920433A

CN113920433A - 物体表面材质的分析方法和装置

Info

Publication number: CN113920433A
Application number: CN202111234821.8A
Authority: CN
Inventors: 朱志鹏; 尹康; 王慧; 董怀琴
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-11
Anticipated expiration: 2041-10-22
Also published as: CN113920433B

Abstract

本申请实施例公开了一种物体表面材质的分析方法和装置。该方法包括：获取场景中物体的视觉图像，视觉图像可以是由普通采集设备采集到的二维图像；基于视觉图像进行视觉三维重建，确定视觉图像中多个像素点的编码信息。能够针对普通采集设备采集到的视觉图像，通过材质特征提取网络，对多个像素点的编码信息进行材质特征提取和解析，可以将编码信息中各个像素点的特征，转化为与材质相互联系的特征，从而确定各个像素点的材质类别。根据各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。

Description

物体表面材质的分析方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种物体表面材质的分析方法和装置。

背景技术

当前各类物品的材质多种多样，人们对材质的识别能力有限，物体表面材质的分析技术可以帮助人们对物体表面材质进行识别，该技术可以应用于计算机视觉、计算机图形学、虚拟现实和增强现实等领域。

现有技术中，通过光场相机采集4D(dimension)光场图像，4D光场图像中具有丰富的图像信息，从而可以通过深度神经网络方法从4D光场图像中，解析物体表面双向反射分布函数(Bidirectional Reflectance Distribution Function，BRDF)，进而对材质类型进行分类。

然而，由于现有技术中物体表面材质类型识别方法主要依赖于4D光场图像，而相较于4D光场图像，普通相机采集到的视觉图像具有的图像信息较少。视觉图像也可以理解为二维图像，二维图像是4D光场图像的一个二维切片，它仅记录了投影到当前像素位置的物理点所发射光线的强度及方向信息，而4D光场图像是自由空间中任意点沿着一定方向的光线的辐射度值，该空间所有的有向光线的集合就构成了光场的一个数据集。因此，现有技术中物体表面材质类型识别方法，对于视觉图像不能进行准确的识别，从而降低了物体表面材质的识别准确性。

发明内容

本申请实施例期望提供一种物体表面材质的分析方法和装置，针对视觉图像，通过视觉三维重建、材质特征提取和解析以及材质类别合并的过程，提高了物体表面材质的识别准确性。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种物体表面材质的分析方法，所述方法包括：获取场景中物体的视觉图像；基于所述视觉图像进行视觉三维重建，确定所述视觉图像中多个像素点的编码信息，所述编码信息表征所述视觉图像中像素点的特征之间的关系；通过材质特征提取网络，对所述多个像素点的编码信息进行材质特征提取和解析，得到各个像素点的材质类别；根据所述各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。

第二方面，本申请实施例提供一种物体表面材质的分析装置，所述装置包括：获取模块，用于获取场景中物体的视觉图像；视觉三维重建模块，用于基于所述视觉图像进行视觉三维重建，确定所述视觉图像中多个像素点的编码信息，所述编码信息表征所述视觉图像中像素点的特征之间的关系；材质特征提取模块，用于通过材质特征提取网络，对所述多个像素点的编码信息进行材质特征提取和解析，得到各个像素点的材质类别；分类模块，用于根据所述各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。

第三方面，本申请实施例提供一种物体表面材质的分析设备，所述设备包括存储器，用于存储可执行指令，处理器，用于执行所述存储器中存储的可执行指令时，实现上述物体表面材质的分析方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有可执行指令，用于被处理器执行时，实现上述物体表面材质的分析方法。

本申请实施例提供了一种物体表面材质的分析方法和装置。根据本申请实施例提供的方案，获取场景中物体的视觉图像，视觉图像可以是由普通采集设备采集到的二维图像；基于视觉图像进行视觉三维重建，确定视觉图像中多个像素点的编码信息，编码信息表征视觉图像中像素点的特征之间的关系。由于不同物体的像素点的特征是不同的，同一物体的像素点的特征之间相互联系，因此通过材质特征提取网络，对多个像素点的编码信息进行材质特征提取和解析，可以将编码信息中各个像素点的特征，转化为与材质相互联系的特征，从而确定各个像素点的材质类别。根据各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。本申请实施例能够针对普通采集设备采集到的视觉图像，通过材质特征提取网络对材质特征进行提取和解析，避免了繁杂的数据采集过程，从而提高了物体表面材质的识别准确性。

附图说明

图1为本申请实施例提供的一种物体表面材质的分析方法的可选的步骤流程图；

图2为本申请实施例提供的一种材质特征提取网络的示意性的结构图；

图3为本申请实施例提供的另一种物体表面材质的分析方法的可选的步骤流程图；

图4为本申请实施例提供的一种视觉图像编码的可选的步骤流程图；

图5为本申请实施例提供的一种基于NeRF网络的材质分析的可选的步骤流程图；

图6为本申请实施例提供的一种物体表面材质的分析装置的结构示意图；

图7为本申请实施例提供的一种物体表面材质的分析设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解的是，此处所描述的一些实施例仅仅用以解释本申请的技术方案，并不用于限定本申请的技术范围。

本申请实提供一种物体表面材质的分析方法，如图1所示，图1为本申请实施例提供的一种物体表面材质的分析方法的可选的步骤流程图，物体表面材质的分析方法包括以下步骤：

S101、获取场景中物体的视觉图像。

本申请实施例中的视觉图像可以是由普通采集设备采集到的二维图像，相较于4D光场图像，视觉图像的获取方式更容易，降低了对图像采集的要求。

本申请实施例中，可以采用普通的光学相机采集视觉图像，即，本申请实施例提供的物体表面材质的分析方法可以应用于终端。示例性的，终端可以为手机、手机、笔记本、平板电脑、POS(Point of sales)机和车载电脑等，本申请实施例不作限制。

在本申请实施例中，场景可以是任意内容形式的场景，可以理解为被采集物体时的背景。场景中物体的数量可以为一个或多个。物体可以是单一材质物体或者多种材质构成的物体，材质类别可以包括但不限于金属、陶瓷、玻璃、塑料、纤维、橡胶、棉花和布。视觉图像可以是单张图像，也可以是多张图像，多张图像可以是物体在多个不同视角下的图像。物体在多个不同视角下的图像均对应同一场景，以便后续利用材质特征提取网络对场景进行光场构建。

S102、基于视觉图像进行视觉三维重建，确定视觉图像中多个像素点的编码信息；编码信息表征视觉图像中像素点的特征之间的关系。

在本申请实施例中，物体表面材质的分析设备可以对采集到的视觉图像进行三维重建处理，从而可以得到视觉图像中的多个像素点的编码信息。

需要说明的是，多个像素点可以为视觉图像中的全部像素点，提高了编码信息的完整性。多个像素点也可以为视觉图像中的部分像素点。示例性的，以视觉图像包括N个视角图像为例，基于视觉图像进行视觉三维重建，确定在N个视角图像均存在的像素点的编码信息，该像素点的编码信息可以表征N个视角图像中像素点的特征之间的关系，提高了编码信息的准确性。

在本申请实施例中，视觉三维重建是基于视觉的三维重建技术，通过深度数据获取、预处理、点云配准与融合、生成物体表面等过程，把真实场景刻画成符合计算机逻辑表达的数学模型。视觉三维重建可以通过定位定姿、稠密重建、表面重建surfacereconstruction、纹理贴图等步骤，确定视觉图像中多个像素点的编码信息。视觉三维重建的具体实现方式包括但不限于：传统方法(COLMAP和COLMAP+OpenMVS)、深度学习方法(COLMAP+MVSNet和COLMAP+R-MVSNet)。

示例性的，以COLMAP方法为例对视觉三维重建进行说明，COLMAP方法是通过数据采集、稀疏重建、深度图估计和稠密重建的步骤进行视觉三维重建，COLMAP方法可以理解为结合运动结构恢复SfM(Structure-from-Motion)和MVS(Multi-View Stereo)的三维重建(Pipeline)。SfM方法是基于多视觉几何原理，用于从运动中实现3D重建，也就是从无时间序列的2D图像中推算三维信息，SfM方法可以包括但不限于增量式(incremental/sequential SfM)、全局式(global SfM)和混合式(hybrid SfM)和层次式(hierarchicaSfM)。其中，增量式SfM是一边三角化和相机姿态估计(pnp)，一边进行局部捆绑调整(Bundle Adjustment，BA)，即，先对两个视角图像进行匹配，然后重建整个场景，再加入新的视角图像，用于调整重建场景的精度。全局式SfM是先对所有的图像计算匹配关系，进行三角化生成三维点，通过相机姿态估计(pnp)估计出位姿，然后用全局捆绑调整(BundleAdjustment，BA)进行一个整体的优化，即，直接对所有视角图像进行匹配，然后重建整个场景。

在本申请实施例中，编码信息可以表征将图像特征、空间位置信息和图像色彩信息等特征向量，以及其之间的关系结合得到的信息。

本申请实施例中，物体表面材质的分析设备基于视觉图像进行视觉三维重建，获得像素点的空间位置信息，结合表征多个像素点空间位置关系、图像特征、图像色彩信息的特征向量，以及特征向量之间的联系，确定像素点的编码信息，提高了编码信息的丰富性和准确性。

S103、通过材质特征提取网络，对多个像素点的编码信息进行材质特征提取和解析，得到各个像素点的材质类别。

在本申请实施例中，材质特征提取网络可以是任意形式的全连接网络，对于采用的全连接网络的结构不做限制，只要是能够对编码信息进行材质特征提取和解析即可，包括但不限于全连接深度网络、神经辐射场(Neural Radiance Fields，NeRf)网络、PixelNeRF网络。

示例性的，以材质特征提取网络是NeRF网络为例进行说明，如图2所示，图2为本申请实施例提供的一种材质特征提取网络的示意性的结构图。图2中的layer表示层，ReLU表示线性纠正函数，image feature表示图像特征，channel表示通道，concat表示将不同全连接层得到的特征进行合并，material表示材质。NeRf网络包括8个全连接层，8个全连接层使用ReLU激活，且每层设置256个通道。NeRf网络还包括1个附加全连接层，该附加全连接层采用ReLU激活，附加全连接层设置128个通道。NeRF网络输入的是像素点的空间坐标位置(x,y,z)以及视角方向d，其中，视角方向d可以理解为某个视角下发射的光线的位置方向d。

在本申请实施例中，编码信息可以包括图像特征、多个像素点的空间位置信息和图像色彩信息等特征向量，将编码信息输入材质特征提取网络，进行材质特征提取和解析，从而得到各个像素点的材质类别。

S104、根据各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。

在本申请实施例中，材质特征提取网络输出的多个像素点的材质类别有多种。视觉图像可以包括一个或多个物体，若物体是一个，则需要将该物体的多个像素点的材质类别进行合并，得到该物体的表面材质类别。若物体有多个，则需要先区分开不同物体的像素点，分别针对属于同一物体的像素点，将多个像素点的材质类别进行合并，从而得到该物体的表面材质类别。

在本申请实施例中，在对多个像素点的材质类别进行合并，得到物体的表面材质类别时，可以通过以下方式实现。对多个像素点的材质类别进行合并，计算每种材质类别的概率，一种方式中，将概率最大值对应的材质类别作为物体的表面材质类别，此种情况下，只输出一种材质类别，例如，某物体的材质类别是金属的概率为70％、是塑料的概率为20％、是布的概率为10％，则该该物体的表面材质类别为金属。另一种方式中，将概率超过预设值对应的材质类别作为物体的表面材质类别，此种情况下，可以输出多种材质类别，例如，某物体的材质类别是金属的概率为60％、是陶瓷的概率为40％，预设值设置为20％，则该物体的表面材质类别为金属与陶瓷的结合，也就是说该物体包括多种材质类别。本申请实施例对物体的表面材质类别的输出形式不做限制。

在本申请实施例中，物体表面材质分析设备获取场景中物体的视觉图像，其中，视觉图像可以是由普通采集设备采集到的二维图像；基于视觉图像进行视觉三维重建，确定视觉图像中多个像素点的编码信息，编码信息表征视觉图像中像素点的特征之间的关系。由于不同物体的像素点的特征是不同的，同一物体的像素点的特征之间相互联系。因此通过材质特征提取网络，对多个像素点的编码信息进行材质特征提取和解析，可以将编码信息中各个像素点的特征，转化为与材质相互联系的特征，从而确定各个像素点的材质类别。物体表面材质分析设备根据各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。本申请实施例能够针对普通采集设备采集到的视觉图像，通过材质特征提取网络对材质特征进行提取和解析，避免了繁杂的数据采集过程，从而提高了物体表面材质的识别准确性。

在一些实施例中，上述S102可以通过以下方式实现，物体表面材质的分析设备对视觉图像进行特征提取，得到视觉图像的图像特征；获取视觉图像的图像色彩信息；基于图像特征进行视觉三维重建，确定重建图像中的多个像素点的空间位置信息；基于图像特征、多个像素点的空间位置信息和图像色彩信息，确定多个像素点中各个像素点的编码信息。

在本申请实施例中，图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征，图像特征表征图像中多个维度的特征以及不同维度之间的关系，物体表面材质的分析设备可以基于图像特征进行视觉三维重建，从而确定重建图像中的多个像素点的空间位置信息。像素点的图像特征、空间位置信息和图像色彩信息可以是特征向量，将这些特征向量组合成一个特征向量，将组合后的特征向量确定为像素点的编码信息。

本申请实施例中，图像特征用于表示图像的颜色、纹理、形状和空间之间的关系。示例性的，图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征。其中，颜色特征是一种全局特征，表征图像或图像区域所对应的景物的表面性质；纹理特征也是一种全局特征，表征图像或图像区域所对应景物的表面性质；形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域；空间关系特征，是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接或邻接关系、交叠或重叠关系，以及包含或包容关系等。

示例性的，图像特征提取网络可以是任意形式的卷积神经网络(ConvolutionalNeural Networks，CNN)的网络，对于采用的卷积神经网络的结构不做限制，只要是能够对视觉图像进行图像特征提取即可，包括但不限于LeNet、AlexNet、CaffeNet、ZFNet、VGG、NIN、GoogLeNet、Inception、ResNet、Inception V4。

在本申请实施例中，视觉图像携带图像色彩信息，物体表面材质的分析设备可以获取到视觉图像的图像色彩信息。

在本申请实施例中，图像色彩信息可以表征视觉图像的像素点的光学三原色信息，光学三原色包括红色(Red)、绿色(Green)和蓝色(Blue)。示例性的，图像色彩信息可以表示为像素点的RGB值或像素值。

在本申请实施例中，空间位置信息可以包括像素点的空间坐标以及空间坐标对应的坐标深度信息，坐标深度信息表征采集设备到像素点之间的距离。示例性的，以像素点的空间坐标是三维坐标(x,y,z)为例进行说明，每个像素点的空间坐标为(x,y,z)，坐标深度信息为

示例性的，以像素点的空间坐标是三维坐标(x,y,z)为例进行说明，对于每个像素点，空间位置信息包括三维坐标(3维)，空间坐标对应的坐标深度信息(1维)，图像色彩信息是RGB值(3维)，图像特征可以是64维、128维或256维等不同维度，具体维度可以由本领域技术人员根据实际需求进行设置，对此本申请实施例不做限制，相对应的，每个像素点的编码信息的维度可以是71、135或263等。

在本申请实施例中，物体表面材质的分析设备获取视觉图像的图像色彩信息；物体表面材质的分析设备对视觉图像进行特征提取，得到视觉图像的图像特征；基于图像特征进行视觉三维重建，确定重建图像中的多个像素点的空间位置信息；基于图像特征、多个像素点的空间位置信息和图像色彩信息，确定多个像素点中各个像素点的编码信息。编码信息从多个维度描述特征向量以及特征向量之间的关系，提高了编码信息的准确性。

在一些实施例中，在对视觉图像进行特征提取，得到视觉图像的图像特征时，可以通过以下方式实现。物体表面材质的分析设备对视觉图像进行滤波去噪和去模糊中至少一项的预处理，得到预处理后的图像；通过图像特征提取网络，对预处理后的图像进行图像特征提取，得到图像特征。

在本申请实施例中，物体表面材质的分析设备可以采用自适应维纳滤波器、中值滤波器、形态学噪声滤除器和小波去噪等方式实现对视觉图像进行滤波去噪。可以采用图像增强、图像复原和超分辨率重构等方式对视觉图像进行去模糊。

本申请实施例中，物体表面材质的分析设备通过视觉图像进行滤波去噪和去模糊等至少一项预处理，然后再进行特征提取，提高了图像特征的准确性。

在一些实施例中，视觉图像包括多个视角图像，也可以包括单张图像。在此列举两个示例分别对多个视角图像和单张图像进行说明。

示例一、当视觉图像包括多个视角图像时，基于图像特征进行视觉三维重建，确定重建图像中的多个像素点的空间位置信息，可以通过以下方式实现。物体表面材质的分析设备根据多个视角图像中每个视角图像的图像特征，对多个视角图像进行像素点匹配，得到多个像素点匹配对，一个像素点匹配对表征不同的视角图像之间存在的同一个像素点；根据多个像素点匹配对，对多个视角图像中的基准图像对应的场景进行三维图像重建，得到多个像素点匹配对对应的多个像素点的空间位置信息；其中，基准图像为多个视角图像中的任意一个图像。

在本申请实施例中，由于多个视角图像均是针对同一场景下物体的图像，不同视角图像中的像素点是相同的，将不同视角图像中存在的同一个像素点组成一个像素点匹配对，可以得到多个像素点匹配对。

在本申请的一些实施例中，对多个视角图像进行像素点匹配，得到多个像素点匹配对时，可以通过以下方式实现：在多个视角图像中任意选择一个图像作为基准图像；将多个视角图像中除去基准图像后的其余图像，与基准图像进行对齐，使得多个视角图像中采集设备位置位于同一水平线；然后根据对齐后的多个视角图像进行像素点匹配，得到多个像素点匹配对。

可以理解的是，由于每个视角图像均包括多个像素点，在组成像素点匹配对时，会存在有些像素点没有被匹配的情况。以N(N为大于1的整数)个视角图像为例，列举两种方式进行说明。第一种方式，若像素点a在N个视角图像均存在，则像素点a可以组成像素点匹配对，此种情况下，若像素点b只存在于M(M为小于N的整数)个视角图像中，则像素点不能组成像素点匹配对，舍弃像素点b。由于每个像素点匹配对包括N个视角图像的图像特征，分别来自于N个视角图像，提高了像素点匹配对的准确性。第二种方式，若像素点c在预设比例的视角图像均存在，则像素点c可以组成像素点匹配对，预设比例可以由本领域技术人员根据实际需求进行设置，例如，70％、80％、90％，对此本申请实施例不做限制。也就是说，像素点c可以存在于N个视角图像，也可以是存在于预设比例×N个视角图像中。上述第一种组成像素点匹配对的方式，提高了像素点匹配对的准确性。第二种组成像素点匹配对的方式，提高了像素点匹配对的完整性。本申请实施例可以根据第一种或第二种的方式得到多个像素点匹配对，一个像素点匹配对表征不同的视角图像之间存在的同一个像素点。

需要说明的是，无论是第一种还是第二种方式得到的多个像素点匹配对，均会存在像素点没有被匹配的情况。本申请实施例中的多个像素点的空间位置信息是属于多个像素点匹配对中的像素点。也就是说不能组成像素点匹配对的像素点被舍弃，相较于得到全部像素点的空间坐标位置信息的方法，提高了计算效率。并且，由于多个像素点的空间位置信息是属于多个像素点匹配对中的像素点，在后续得到各个像素点的编码信息时，其图像特征来自多个视角图像，从而提高了编码信息的准确性。

在本申请实施例中，每个视角图像均包括多个像素点，由于多个视角图像均是针对同一场景下物体的图像，不同视角图像中的像素点是相同的，因此，多个像素点的空间位置信息是共享的。本申请实施例可以在多个视角图像中任意选择一个图像作为基准图像，根据多个像素点匹配对，对多个视角图像中的基准图像对应的场景进行三维图像重建，得到多个像素点匹配对对应的多个像素点的空间位置信息，即可得到多个视角图像中多个像素点的空间位置信息。

在一些实施例中，物体表面材质的分析设备可以根据多个像素点匹配对，对多个视角图像中的基准图像对应的场景进行稀疏重建，得到多个像素点匹配对对应的多个像素点的空间位置信息。其中，稀疏重建可以理解为运动结构恢复(Structure from Motion，SfM)重建。SfM方法可以包括但不限于增量式(incremental/sequential SfM)、全局式(global SfM)和混合式(hybrid SfM)和层次式(hierarchica SfM)。SfM方法具体说明与S102中描述一致，在此不再赘述。

可以理解的是，本申请实施例也可以根据多个像素点匹配对，对多个视角图像中的基准图像对应的场景进行稠密重建，得到多个像素点匹配对对应的多个像素点的空间位置信息，从而提高多个像素点的完整性和全面性。

在一些实施例中，当视觉图像包括多个视角图像时，基于示例一中的像素点匹配对，在基于图像特征、多个像素点的空间位置信息和图像色彩信息，确定多个像素点中各个像素点的编码信息时，可以通过以下方式实现。物体表面材质的分析设备基于每个视角图像的图像特征、每个视角图像的图像色彩信息、每个视角图像的多个像素点的空间位置信息，得到每个视角图像的多个像素点的各个像素点的单一编码信息；根据像素点匹配对，将各个视角图像中的属于同一像素点的单一编码信息进行组合，得到多个像素点中各个像素点的编码信息。

需要说明的是，当视觉图像包括多个视角图像时，上述对视觉图像进行特征提取时，是对多个视角图像中每个视角图像进行特征提取，得到每个视角图像的子图像特征，图像特征包括多个视角图像的子图像特征。在此为便于描述，不再区分子图像特征和图像特征，将每个视角图像的子图像特征称为图像特征。

在本申请实施例中，针对每个视角图像，将图像特征、图像色彩信息和多个像素点的空间位置信息进行组合，得到视角图像中各个像素点的单一编码信息。针对像素点匹配对中的像素点，像素点匹配对表征不同的视角图像之间存在的同一个像素点，将同一像素点来自不同的视角图像的单一编码信息进行组合，得到该像素点的编码信息。以此方式可以得到各个像素点的编码信息。

本申请实施例中，像素点的编码信息包括多个单一编码信息，单一编码信息包含视角图像的图像特征、图像色彩信息和多个像素点的空间位置信息，从而提高了编码信息的丰富性。

示例二、当视觉图像包括单张图像时，基于图像特征进行视觉三维重建，确定重建图像中的多个像素点的空间位置信息，可以通过以下方式实现。物体表面材质的分析设备根据图像特征，对单张图像对应的场景进行单目重建，确定单张图像中多个像素点的空间位置信息。

在本申请实施例中，当视觉图像是单张图像时，单张图像中包括多个像素点，则基于图像特征对单张图像对应的场景进行单目重建，得到单张图像中多个像素点的空间位置信息。示例性的，单目重建可以理解为根据单目深度估计网络对单张图像进行三维重建，从而获得像素点的三维坐标信息。三维重建是根据像素点在图像坐标系中的位置，和目标物体离相机坐标原点的距离，还原目标物体的像素点在相机坐标系下的三维坐标。上述目标物体离相机坐标系原点的距离，即焦距，可以通过深度相机或者双目视觉等方式获取。

在本申请实施例中，通过根据图像特征，对单张图像对应的场景进行单目重建，确定单张图像中多个像素点的空间位置信息，无需进行像素点匹配，以及对多个视角图像中的基准图像对应的场景进行三维图像重建的步骤，减少了数据处理量，处理速度快，提高了图像视觉三维重建的效率。

在本申请实施例中，物体表面材质的分析设备还基于单张图像的图像特征、单张图像的图像色彩信息、单张图像中多个像素点的空间位置信息，确定单张图像的多个像素点的各个像素点的编码信息。相较于相关技术中无法采用视觉图像对材质类型进行分类的情况，本申请实施例通过对单张图像进行单目重建，确定各个像素点的编码信息，进而通过材质特征提取网络进行材质特征提取和解析，得到各个像素点的材质类别，统计合并后得到物体的表面材质类别，从而提高了物体表面材质类别的识别准确性。

在一些实施例中，上述S103可以通过以下方式实现，物体表面材质的分析设备通过材质特征提取网络的初始层，对多个像素点的编码信息进行光照特征提取，得到各个像素点的光照特征；通过材质特征提取网络的决定层，对各个像素点的光照特征进行解析，得到各个像素点的材质类别。

在本申请实施例中，将多个像素点的编码信息输入材质特征提取网络，材质特征提取网络对多个像素点的编码信息进行材质特征提取，输出各个像素点的材质类别。为便于描述材质特征提取过程，本申请实施例将材质特征提取网络分为初始层和决定层，初始层用于提取光照特征，决定层用于对光照特征进行解析，得到各个像素点的材质类别。

示例性的，以材质特征提取网络是NeRF网络为例进行说明，将多个像素点的编码信息输入NeRF网络，进行光照特征的提取。本示例是在NeRF网络的前半部分进行的，前半部分以NeRF初始层表示。由于初始层是分别对多个像素点编码信息进行光照特征提取和分析，因此输出的是一系列的特征向量组，即各个像素点的光照特征。这部分可以看做是光场的构建，编码信息经过NeRF初始层被转化为光照特征，不同的物体在不同的角度得到的光照特征是不同的，而同一物体在不同角度得到的光照特征是相互联系的。

在一些实施例中，材质特征提取网络包括预设数量的神经元。通过材质特征提取网络的初始层，对多个像素点的编码信息进行光照特征提取，得到各个像素点的光照特征，可以通过以下方式实现。在多个像素点的编码信息中选择预设数量的像素点的编码信息；根据材质特征提取网络的初始层，对预设数量的像素点的编码信息进行光照特征提取，得到各个像素点的光照特征。

在本申请实施例中，NeRF网络包括一系列的全连接网络，其神经元的预设数量可以由本领域技术人员根据实际需求进行设定，示例性的，预设数量可以根据编码信息的数量级决定，对此本申请实施例不做限制。

示例性的，设定神经元的个数为1000个，则在所有像素点的编码信息中随机选择1000个编码信息输入到NeRF网络中。可以理解的是，神经元的数量越多，可以进行材质特征提取的编码信息的数量就越多，得到的光照特征越全面，从而提高材质类别的准确性。

在本申请实施例中，视觉图像中像素点的编码信息的数量有很多，物体表面材质的分析设备是针对一部分的编码信息进行材质特征提取，减少数据处理量，提高材质特征提取的效率。

在本申请实施例中，上述各个像素点的光照特征，可以理解为一系列的特征向量组，本示例中利用NeRF网络的后半部分对多个像素点的光照特征进行聚合和解析，后半部分以NeRF决定层表示。NeRF决定层用于将同一像素点的不同角度的光照特征合并解析为该像素点的材质类别，即，NeRF网络输出的材质类别是像素级的。

在本申请实施例中，由于不同物体在不同视角下的光场信息是不同的，同一物体在不同视角下的光场信息是相互联系的，因此，通过材质特征提取网络，可以将编码信息中各个像素点的特征，转化为与光场信息相互联系的特征，从而能够实现对构建光场后的特征进行解析，确定视觉图像中各个像素点的材质类别。相较于采用4D光场图像对材质类型进行分类的方法，本申请实施例通过光场对物体表面材质进行分析，避免了繁杂的数据采集过程，从而提高了数据处理效率。

在一些实施例中，在将多个像素点的编码信息输入材质特征提取网络之前，本申请还包括对材质特征提取网络进行训练的过程，使用训练视觉图像样本，对材质特征提取网络进行训练。上述材质特征提取网络通过以下方式获取：获取训练视觉图像样本，其中，训练视觉图像样本包括物体样本的多个视角图像样本，以及物体样本的表面材质类别样本；将训练视觉图像样本输入初始材质特征提取网络，得到物体样本的预测表面材质类别；根据物体样本的预测表面材质类别和预设的损失函数，获得损失值；根据损失值对初始材质特征提取网络进行训练，得到材质特征提取网络。

在本申请实施例中，采用预设的损失函数对物体样本的预测表面材质类别进行训练优化，计算损失值，然后根据损失值对初始材质特征提取网络进行训练，得到材质特征提取网络，直至达到训练终止条件，例如，训练次数达到预设次数，或者，损失值达到预设阈值等。

在本申请实施例中，预设的损失函数(loss function)可以由本领域技术人员根据实际需求进行设置，包括但不限于交并比值(DiceLoss)、平滑Smooth L1损失函数和交叉熵损失函数等。

在一些实施例中，上述在获取训练视觉图像样本时，可以通过以下方式实现。由采集设备对物体样本进行图像采集，得到物体样本的多个视角图像样本；获取对物体样本的表面材质类别进行标注后得到的物体样本的表面材质类别样本；或者，获取多个视角图像样本集；根据预设的表面材质的分析方法对多个视角图像样本集进行分析，得到物体样本的表面材质类别样本。

在本申请实施例中，训练过程中训练视觉图像样本包括物体样本的多个视角图像样本，以及物体样本的表面材质类别样本。其中，多个视角图像样本的采集可以用一般的采集设备获取，例如，RGB摄像头，也可以直接利用现有的多个视角图像样本集。

在本申请实施例中，物体样本的表面材质类别样本可以根据多个视角图像样本的来源分别采集，示例性的，利用RGB摄像头采集的多个视角图像样本中的物体表面材质类别可以通过人工进行标定；利用现有的多个视角图像样本集得到的物体表面材质类别，可以利用预设的高精度的表面材质的分析方法进行分析后得到。

在本申请实施例中，预设的表面材质的分析方法可以由本领域技术人员根据实际需求进行选择，包括但不限于相关技术中的表面材质分析方法，只要是能够对多个视角图像样本集进行分析确定物体的表面材质类别即可。

在本申请实施例中，物体表面材质的分析设备可以通过不同的方式获取训练视觉图像样本，提高了获取训练样本集的丰富性。

在一些实施例中，上述S104可以通过以下方式实现。物体表面材质的分析设备对视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合；其中，像素集合与物体一一对应；针对每个像素集合，结合视觉图像中各个像素点的材质特征，得到每个像素集合中每个像素点的材质类别；对每个像素集合中每个像素点的材质类别进行合并，得到属于同一个物体的表面材质类别，直至多个像素集合分别合并完成时，得到视觉图像中不同物体的表面材质类别。

在本申请实施例中，视觉图像中物体的数量可以为一个或多个，当物体的数量是多个时，视觉图像中多个像素点是属于多个物体的，因此，还需要对多个像素点进行实例分割，一个实例可以理解为一个物体，从而将属于不同实例(即物体)的像素点分割开来，得到属于不同物体的多个像素集合。

在本申请实施例中，实例分割(instance segmentation)是针对图像中的像素点，当视觉图像包括单张图像时，对视觉图像中多个像素点进行实例分割，得到属于各个物体的多个像素集合。实例分割是指自动从图像中用目标检测(Object detection)方法框出不同实例，再用语义分割(Semantic segmentation)方法在不同实例区域内进行逐像素标记，实例分割用于得到属于同一个物体的像素点，例如，一张图像中包括两只猫，实例分割用于区分出哪些像素点属于第一只猫、哪些像素点属于第二只猫。

在本申请实施例中，上述目标检测不仅需要提供图像中物体的类别，还需要提供物体的位置(bounding box)。语义分割需要预测出输入图像的每一个像素点属于哪一类的标签。实例分割是在语义分割的基础上，还需要区分出同一类不同的个体。

在一些实施例中，可以通过实例分割网络对视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合。实例分割网络可以是任意形式的分类网络，本申请实施例对于采用的分类网络的结构不做限制，只要是能够对像素点进行实例分割即可，包括但不限于全卷积网络(Fully Convolution Networks，FCN)、AlexNet、VGG-Net、GoogLeNet、U-Net、SegNet、DeepLab、PSPNet。

在本申请实施例中，物体表面材质的分析设备对视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合；一个物体对应一个像素集合；针对每个像素集合，结合视觉图像中各个像素点的材质特征，获取每个像素集合中每个像素点的材质类别；对每个像素集合中每个像素点的材质类别进行合并，得到属于同一个物体的表面材质类别。通过像素集合，对多个像素点的材质类别进行分类的方式，提高了分类的准确性。

在一些实施例中，当视觉图像包括多个视角图像时，对视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合，可以通过以下方式实现。物体表面材质的分析设备对多个视角图像的基准图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合；其中，基准图像为多个视角图像中的任意一个图像。

在本申请实施例中，当视觉图像包括多个视角图像时，由于多个视角图像均是针对同一场景下物体的图像，在多个视角图像中确定基准图像，该基准图像中所包含的物体与多个视角图像中所包含的物体相同。本申请实施例对基准图像中的多个像素点进行实例分割，得到属于各个物体的多个像素集合，提高了实例分割的效率。

可以理解的是，本申请实施例也可以对每个视角图像中多个像素点分别进行实例分割，得到每个视角图像中属于多个物体的多个像素集合，再对每个视角图像中属于多个物体的多个像素集合进行去重合并，得到属于不同物体的多个像素集合。通过对每个视角图像中多个像素点分别进行实例分割的方式，避免漏掉由于视角原因被遮挡的物体，提高了实例分割结果的全面性和准确性。

需要说明的是，上述根据多个像素点匹配对进行三维图像重建时所采用的基准图像，与本示例中基准图像一致。基于基准图像进行三维图像重建，后续基于基准图像进行实例分割，前后所依据的图像一致，从而保证数据处理的一致性。

在本申请实施例中，由于每个像素点均携带空间位置信息(例如三维坐标)、图像色彩信息(例如RGB值)等特征，像素点的材质特征同样携带空间位置信息和图像色彩信息等特征。像素点集合中包括多个像素点，每个像素点携带空间位置信息、图像色彩信息等特征，利用这些特征可以在材质特征集合中确定对应的像素点，从而获取像素点的材质特征。通过遍历整个像素集合中的像素点，可以得到像素集合中每个像素点的材质特征。

在本申请实施例中，NeRF网络输出的材质类别是像素级的，还需要对这些像素点的材质类别进行合并。由于像素集合中包括多个属于同一物体的像素点，因此，对每个像素集合中每个像素点的材质类别进行合并，可以得到属于同一个物体的表面材质类别。

在本申请实施例中，物体表面材质的分析设备通过对视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合；针对每个像素集合，结合视觉图像中各个像素点的材质特征，得到每个像素集合中每个像素点的材质类别；对每个像素集合中每个像素点的材质类别进行合并，得到属于同一个物体的表面材质类别，直至多个像素集合分别合并完成时，得到视觉图像中不同物体的表面材质类别。避免了繁杂的数据采集过程，提高了物体表面材质的识别准确性。

在一些实施例中，对每个像素集合中每个像素点的材质类别进行合并，得到属于同一个物体的表面材质类别，可以通过以下方式实现。物体表面材质的分析设备将每个像素集合中的每个像素点的材质类别进行相同材质类别的统计，得到每个材质类别的统计值；基于统计值和预设统计阈值，确定属于同一个物体的表面材质类别。

在本申请实施例中，由于像素集合中包括多个属于同一物体的像素点，多个像素点的材质类别会存在不一样的情况，因此还需要对每个像素集合中各个材质类别进行统计，并从多个材质类别中确定物体的表面材质类别。

本申请实施例中，预设统计阈值可以由本领域技术人员根据实际需求进行设置，示例性的，预设统计阈值可以与多个像素点的数量相关，例如，预设统计阈值可以设置为多个像素点的数量的90％、80％、70％。以预设统计阈值是多个像素点的数量的80％，多个材质类别的统计值包括：金属的统计值为多个像素点的数量的82％、陶瓷的统计值为多个像素点的数量的18％，将金属作为物体的表面材质类别。本示例将多个材质类别的统计值中大于预设统计阈值对应的材质类别，确定为该像素集合对应的物体的表面材质类别，提高了表面材质类别的准确性。

上述在基于统计值和预设统计阈值，确定属于同一个物体的表面材质类别时，还可以通过以下方式实现。计算每个材质类别的统计值与多个像素点的数量的比值，得到每个材质类别的统计概率，将多个材质类别的统计概率最大值对应的材质类别，确定为该像素集合对应的物体的表面材质类别。

在一些实施例中，上述S102可以通过以下方式实现。物体表面材质的分析设备对视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合；其中，像素集合与物体一一对应；基于视觉图像中属于不同物体的多个像素集合，进行视觉三维重建，确定视觉图像中属于不同物体的多个像素点的编码信息。

在本申请实施例中，实例分割是针对图像中的像素点，本申请实施例提供的物体表面材质的分析方法，也可以先对视觉图像中的多个像素点进行实例分割，区分出属于不同的物体的像素点集合。针对同一物体的像素点集合，对该物体对应场景进行视觉三维重建，从而得到该物体的多个像素点的编码信息。然后通过材质特征提取网络，对该物体的多个像素点的编码信息进行材质特征提取和解析，即可得到该物体的各个像素点的材质类别。

在本申请实施例中，物体表面材质的分析设备可以对视觉图像的像素点先进行实例分割，再基于视觉图像进行视觉三维重建以及材质特征提取的步骤。也可以基于视觉图像先进行视觉三维重建以及材质特征提取的步骤，然后再对视觉图像的像素点进行实例分割的步骤。可以理解的是，若视觉图像是单个场景中单个物体的图像，则不需要实例分割的步骤。本申请实施例对于实例分割执行步骤顺序不做限制。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例在对视觉图像进行物体表面材质类别分析之前，本申请实施例还包括对NeRF网络的训练阶段。示例性的，采集场景的多个视角图像样本和表面材质类别样本；多个视角图像样本和表面材质类别样本用于构建训练数据集。多个视角图像样本的采集可以用一般的RGB摄像头获取，也可以直接利用现有的多个视角图像样本集。表面材质类别样本可以依据多个视角图像样本的来源分别获取，例如，利用RGB摄像头采集的多个视角图像样本中的物体表面材质类别可以通过人工进行标定；利用现有的多个视角图像样本集得到的物体表面材质类别，可以利用预设的高精度的表面材质的分析方法进行分析后得到。通过构建好的训练数据集对NeRF网络进行训练并保存训练完成的NeRF网络。

本申请实施例以NeRf网络表示材质特征提取网络、视觉图像包括N(N为大于1的整数)个视角图像、相机表示采集设备、稀疏重建表示三维图像重建、空间坐标和坐标深度表示空间位置信息、RGB值表示图像色彩信息为例进行说明。本申请实施例的物体表面材质类别的预测阶段，将单个场景下多张不同视角的图像输入到训练完成的网络模型中，得到场景中物体表面材质类别。如图3所示，图3为本申请实施例提供的另一种物体表面材质的分析方法的可选的步骤流程图。

S301、获取N个视角图像。

S302、基于N个视角图像进行视觉三维重建，得到多个像素点的编码信息。

S303、将多个像素点的编码信息输入NeRF网络，进行材质特征提取和解析，得到各个像素点的材质类别。

S304、根据各个像素点的材质类别，确定物体的表面材质类别。

物体表面材质类别的分析方法包括两个部分：基于视觉图像的编码流程，以及基于NeRF网络的材质类别分析流程。以下分别说明。

本示例对视觉图像的编码流程进行说明，即图3中S301和S302。基于图3，本申请实施例提供了一种视觉图像编码的可选的步骤流程图，如图4所示。视觉图像的编码流程包括S401-S406。

S401、获取N个视角图像。

S402、对N个视角图像进行预处理，得到预处理后的N个视角图像。

预处理包括滤波去噪，去模糊等方式。

S403、对预处理后的N个视角图像分别提取图像特征，得到N个视角图像的图像特征。

可以利用卷积网络对N个视角图像分别提取图像特征。

S404、根据N个视角图像的图像特征，对多个视角图像进行像素对齐和匹配，得到多个像素点匹配对。

在N个视角图像中选取任意一张图像为基准图像，将N个视角图像中除去基准图像后的其余图像，与基准图像进行对齐，使得N个视角图像中相机位置位于同一水平线。然后根据对齐后的N个视角图像进行像素点匹配，得到多个像素点匹配对，一个像素点匹配对中包含N个视角图像的图像特征，分别来源于N个视角图像。最后在进行实例分割时，也是对基准图像进行实例分割，并结合多个像素点的材质类别，输出物体的表面材质类别。

S405、根据多个像素点匹配对，对场景进行稀疏重建，获取多个像素点匹配对对应的多个像素点的空间坐标。

本步骤中三维图像重建的目的是获取像素点匹配对中像素点的空间坐标，因此，可以不需要考虑重建后像素点的稠密程度。稀疏重建包括但不限于增量式重建、全局式重建、混合式重建和层次式重建。

S406、针对每个视角图像，将该视角图像的图像特征、RGB值、空间坐标以及空间坐标对应的坐标深度合并为一个特征向量；根据像素点匹配对将不同视角图像上的特征向量组合为一个特征向量组，得到各个像素点的特征向量组。

该特征向量是一个像素点的单一编码信息，特征向量组是编码信息。

本示例对NeRF网络的材质类别分析流程进行说明，即图3中S303和S304。基于图3和图4，本申请实施例提供了一种基于NeRF网络的材质分析的可选的步骤流程图，如图5所示。NeRF网络的材质类别分析流程包括S407-SS409。

S407、将多个像素点的编码信息组分别输入到NeRF网络中，在NeRF网络中对多个像素点的编码信息组进行特征提取和分析，得到各个像素点的光照特征。

在本申请实施例中，NeRF网络是由一系列全连接网络组成的，其输入的神经元个数可以自由设定，一般由像素点匹配对的数量级决定。示例性的，设定神经元个数为1000，则在多个像素点的编码信息中随机选择1000个编码信息输入到NeRF网络中。

本示例是在NeRF网络的前半部分进行的，称为NeRF初始层。由于多个像素点的编码信息在初始层分别进行特征提取和分析，因此输出的依旧是一系列的特征向量组，即各个像素点的光照特征。这部分可以看做是光场的构建，编码信息经过NeRF初始层被转化为光照特征，不同的物体在不同的角度得到的光照特征是不同的，而同一物体在不同角度得到的光照特征是相互联系的。

S408、在NeRF网络中对各个像素点的光照特征进行特征聚合和特征解析，得到各个像素点的材质类别。

在S407得到一系列的光照特征之后，利用NeRF的后半部分对光照特征进行聚合和解析，该部分称为NeRF决定层。这部分网络的作用在于将同一像素点的不同视角的光照特征合并同时解析为材质类别。

S409、根据各个像素点的材质类别对同一物体的材质类别进行合并，输出N个视角图像的基准图像中的每个物体的表面材质类别，基准图像是N个视角图像中的任意一个图像。

NeRF输出的材质类别是像素级的，因此还需要对这些像素点的材质类别进行合并。本示例可以通过实例分割网路对基准图像进行实例分割，并将每个像素集合对应的物体上的类别进行合并，输出每个物体的表面材质类别。

本申请实施例提供的物体表面材质的分析方法，利用NeRF构建多个视角图像对应的场景的光场，并利用光场对物体表面材质进行分析，避免了繁杂的数据采集过程，只需要输入一组多个视角图像，即可对物体表面材质进行分析，得到物体表面材质类别。多个视角图像利用普通的采集设备即可获取，因此本申请实施例提供的物体表面材质的分析方法可以应用于移动终端，例如手机。

在一些实施例中，本申请实施例还可以对单张图像进行物体表面材质进行分析，得到物体表面材质类别。示例性的，物体表面材质的分析设备对输入的单张图像进行特征提取，得到图像特征；根据所述图像特征，对所述单张图像对应的场景进行单目重建，确定所述单张图像中多个像素点的空间位置信息；将所述图像特征、所述多个像素点的空间位置信息和所述图像色彩信息合并，得到所述多个像素点中各个像素点的编码信息。将多个像素点的编码信息输入到NeRF网络中。NeRF网络通过单张图像中不同像素点进行光场构建，即，利用单张图像的图像特征、RGB值、空间坐标和坐标深度，结合不同像素点的位置关系构建光场。，采用实例分割网络对单张图像的多个像素点进行实分割，结合NeRF网络输出的各个像素点的材质类别，得到物体表面的材质类别。

基于本申请实施例的物体表面材质的分析方法，本申请实施例还提供一种物体表面材质的分析装置，如图6所示，图6为本申请实施例提供的一种物体表面材质的分析装置的结构示意图，该物体表面材质的分析装置60包括：

获取模块601，用于获取场景中物体的视觉图像；

视觉三维重建模块602，用于基于所述视觉图像进行视觉三维重建，确定所述视觉图像中多个像素点的编码信息，所述编码信息表征所述视觉图像中像素点的特征之间的关系；

材质特征提取模块603，用于通过材质特征提取网络，对所述多个像素点的编码信息进行材质特征提取和解析，得到各个像素点的材质类别；

分类模块604，用于根据所述各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。

在一些实施例中，视觉三维重建模块602还用于对所述视觉图像进行特征提取，得到所述视觉图像的图像特征；

获取模块601还用于获取所述视觉图像的图像色彩信息；

视觉三维重建模块602还用于对基于所述图像特征进行视觉三维重建，确定重建图像中的多个像素点的空间位置信息；基于所述图像特征、所述多个像素点的空间位置信息和所述图像色彩信息，确定所述多个像素点中各个像素点的编码信息。

在一些实施例中，所述视觉图像包括：多个视角图像；

视觉三维重建模块602还用于根据所述多个视角图像中每个视角图像的所述图像特征，对所述多个视角图像进行像素点匹配，得到多个像素点匹配对，一个像素点匹配对表征不同的视角图像之间存在的同一个像素点；根据所述多个像素点匹配对，对所述多个视角图像中的基准图像对应的场景进行三维图像重建，得到所述多个像素点匹配对对应的多个像素点的空间位置信息；其中，所述基准图像为所述多个视角图像中的任意一个图像。

在一些实施例中，视觉三维重建模块602还用于基于所述每个视角图像的图像特征、所述每个视角图像的图像色彩信息、所述每个视角图像的所述多个像素点的空间位置信息，得到每个视角图像的多个像素点的各个像素点的单一编码信息；根据所述像素点匹配对，将所述各个视角图像中的属于同一像素点的单一编码信息进行组合，得到所述多个像素点中各个像素点的编码信息。

在一些实施例中，材质特征提取模块603还用于通过所述材质特征提取网络的初始层，对所述多个像素点的编码信息进行光照特征提取，得到各个像素点的光照特征；通过所述材质特征提取网络的决定层，对所述各个像素点的光照特征进行解析，得到所述各个像素点的材质类别。

在一些实施例中，所述材质特征提取网络包括预设数量的神经元；

材质特征提取模块603还用于在所述多个像素点的编码信息中选择所述预设数量的像素点的编码信息；根据所述材质特征提取网络的初始层，对所述预设数量的像素点的编码信息进行光照特征提取，得到各个像素点的光照特征。

在一些实施例中，物体表面材质的分析装置60还包括训练模块；

所述训练模块用于获取训练视觉图像样本，其中，所述训练视觉图像样本包括物体样本的多个视角图像样本，以及所述物体样本的表面材质类别样本；将所述训练视觉图像样本输入初始材质特征提取网络，得到物体样本的预测表面材质类别；根据所述物体样本的预测表面材质类别和预设的损失函数，获得损失值；根据所述损失值对所述初始材质特征提取网络进行训练，得到所述材质特征提取网络。

在一些实施例中，所述训练模块用于由采集设备对物体样本进行图像采集，得到所述物体样本的多个视角图像样本；获取对所述物体样本的表面材质类别进行标注后得到的所述物体样本的表面材质类别样本；或者，获取多个视角图像样本集；根据预设的表面材质的分析方法对所述多个视角图像样本集进行分析，得到所述物体样本的表面材质类别样本。

在一些实施例中，所述视觉图像包括：单张图像；

视觉三维重建模块602还用于根据所述图像特征，对所述单张图像对应的场景进行单目重建，确定所述单张图像中多个像素点的空间位置信息。

在一些实施例中，视觉三维重建模块602还用于对所述视觉图像进行滤波去噪和去模糊中至少一项的预处理，得到预处理后的图像；通过图像特征提取网络，对所述预处理后的图像进行图像特征提取，得到所述图像特征。

在一些实施例中，分类模块604还用于对所述视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合；其中，所述像素集合与物体一一对应；针对每个像素集合，结合所述视觉图像中各个像素点的材质特征，得到所述每个像素集合中每个像素点的材质类别；对所述每个像素集合中每个像素点的材质类别进行合并，得到属于同一个物体的表面材质类别，直至多个像素集合分别合并完成时，得到所述视觉图像中不同物体的表面材质类别。

在一些实施例中，分类模块604还用于将每个像素集合中的每个像素点的材质类别进行相同材质类别的统计，得到每个材质类别的统计值；基于统计值和预设统计阈值，确定属于所述同一个物体的表面材质类别。

在一些实施例中，所述视觉图像包括：多个视角图像；

分类模块604还用于对所述多个视角图像的基准图像中多个像素点进行实例分割，得到所述属于不同物体的多个像素集合；其中，所述基准图像为所述多个视角图像中的任意一个图像。

在一些实施例中，分类模块604还用于对所述视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合；其中，所述像素集合与物体一一对应；

视觉三维重建模块602还用于基于所述视觉图像中属于不同物体的多个像素集合，进行视觉三维重建，确定所述视觉图像中属于不同物体的多个像素点的编码信息。

需要说明的是，上述实施例提供的物体表面材质的分析装置在进行物体表面材质的分析时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的物体表面材质的分析装置与物体表面材质的分析方法实施例属于同一构思，其具体实现过程及有益效果详见方法实施例，这里不再赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

在本申请实施例中，图7为本申请实施例提出的物体表面材质的分析设备组成结构示意图，如图7所示，本申请实施例提出的设备70还可以包括处理器701、存储有处理器701可执行指令的存储器702，在一些实施例中，物体表面材质的分析设备70还可以包括通信接口703，和用于连接处理器701、存储器702以及通信接口703的总线704。

在本申请实施例中，上述处理器701可以为特定用途集成电路(ApplicationSpecific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(ProgRAMmable Logic Device，PLD)、现场可编程门阵列(Field ProgRAMmable GateArray，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

在本申请实施例中，总线704用于连接通信接口703、处理器701以及存储器702以及这些器件之间的相互通信。

在本申请实施例中，上述处理器701，用于获取场景中物体的视觉图像；基于所述视觉图像进行视觉三维重建，确定所述视觉图像中多个像素点的编码信息，所述编码信息表征所述视觉图像中像素点的特征之间的关系；通过材质特征提取网络，对所述多个像素点的编码信息进行材质特征提取和解析，得到各个像素点的材质类别；根据所述各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。

物体表面材质的分析设备70中存储器702可以与处理器701连接，存储器702用于存储可执行程序代码和数据，该程序代码包括计算机操作指令，存储器702可能包含高速RAM存储器，也可能还包括非易失性存储器，例如，至少两个磁盘存储器。在实际应用中，上述存储器702可以是易失性存储器(volatile memory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器701提供指令和数据。

另外，在本申请实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上任一实施例所述的物体表面材质的分析方法。

示例性的，本实施例中的一种物体表面材质的分析方法对应的程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种物体表面材质的分析方法对应的程序指令被一电子设备读取或被执行时，可以实现如上述任一实施例所述的物体表面材质的分析方法。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种物体表面材质的分析方法，其特征在于，所述方法包括：

获取场景中物体的视觉图像；

基于所述视觉图像进行视觉三维重建，确定所述视觉图像中多个像素点的编码信息，所述编码信息表征所述视觉图像中像素点的特征之间的关系；

通过材质特征提取网络，对所述多个像素点的编码信息进行材质特征提取和解析，得到各个像素点的材质类别；

根据所述各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。

2.根据权利要求1所述的方法，其特征在于，所述基于所述视觉图像进行视觉三维重建，确定所述视觉图像中多个像素点的编码信息，包括：

对所述视觉图像进行特征提取，得到所述视觉图像的图像特征；

获取所述视觉图像的图像色彩信息；

基于所述图像特征进行视觉三维重建，确定重建图像中的多个像素点的空间位置信息；

基于所述图像特征、所述多个像素点的空间位置信息和所述图像色彩信息，确定所述多个像素点中各个像素点的编码信息。

3.根据权利要求2所述的方法，其特征在于，所述视觉图像包括：多个视角图像；

基于所述图像特征进行视觉三维重建，确定重建图像中的多个像素点的空间位置信息，包括：

根据所述多个视角图像中每个视角图像的所述图像特征，对所述多个视角图像进行像素点匹配，得到多个像素点匹配对，一个像素点匹配对表征不同的视角图像之间存在的同一个像素点；

根据所述多个像素点匹配对，对所述多个视角图像中的基准图像对应的场景进行三维图像重建，得到所述多个像素点匹配对对应的多个像素点的空间位置信息；其中，所述基准图像为所述多个视角图像中的任意一个图像。

4.根据权利要求3所述的方法，其特征在于，所述基于所述图像特征、所述多个像素点的空间位置信息和所述图像色彩信息，确定所述多个像素点中各个像素点的编码信息，包括：

基于所述每个视角图像的图像特征、所述每个视角图像的图像色彩信息、所述每个视角图像的所述多个像素点的空间位置信息，得到每个视角图像的多个像素点的各个像素点的单一编码信息；

根据所述像素点匹配对，将所述各个视角图像中的属于同一像素点的单一编码信息进行组合，得到所述多个像素点中各个像素点的编码信息。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述通过材质特征提取网络，对所述多个像素点的编码信息进行材质特征提取和解析，得到各个像素点的材质类别，包括：

通过所述材质特征提取网络的初始层，对所述多个像素点的编码信息进行光照特征提取，得到各个像素点的光照特征；

通过所述材质特征提取网络的决定层，对所述各个像素点的光照特征进行解析，得到所述各个像素点的材质类别。

6.根据权利要求5所述的方法，其特征在于，所述材质特征提取网络包括预设数量的神经元；

所述根据所述材质特征提取网络的初始层，对所述多个像素点的编码信息进行光照特征提取，得到各个像素点的光照特征，包括：

在所述多个像素点的编码信息中选择所述预设数量的像素点的编码信息；

根据所述材质特征提取网络的初始层，对所述预设数量的像素点的编码信息进行光照特征提取，得到各个像素点的光照特征。

7.根据权利要求5所述的方法，其特征在于，所述材质特征提取网络通过以下方式获取：

获取训练视觉图像样本，其中，所述训练视觉图像样本包括物体样本的多个视角图像样本，以及所述物体样本的表面材质类别样本；

将所述训练视觉图像样本输入初始材质特征提取网络，得到物体样本的预测表面材质类别；

根据所述物体样本的预测表面材质类别和预设的损失函数，获得损失值；

根据所述损失值对所述初始材质特征提取网络进行训练，得到所述材质特征提取网络。

8.根据权利要求7所述的方法，其特征在于，所述获取训练视觉图像样本，包括：

由采集设备对物体样本进行图像采集，得到所述物体样本的多个视角图像样本；

获取对所述物体样本的表面材质类别进行标注后得到的所述物体样本的表面材质类别样本；

或者，获取多个视角图像样本集；

根据预设的表面材质的分析方法对所述多个视角图像样本集进行分析，得到所述物体样本的表面材质类别样本。

9.根据权利要求2至4任一项所述的方法，其特征在于，所述视觉图像包括：单张图像；

根据所述图像特征，对所述单张图像对应的场景进行单目重建，确定所述单张图像中多个像素点的空间位置信息。

10.根据权利要求2至4任一项所述的方法，其特征在于，所述对所述视觉图像进行图像特征提取，得到所述视觉图像的图像特征，包括：

对所述视觉图像进行滤波去噪和去模糊中至少一项的预处理，得到预处理后的图像；

通过图像特征提取网络，对所述预处理后的图像进行图像特征提取，得到所述图像特征。

11.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别，包括：

对所述视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合；其中，所述像素集合与物体一一对应；

针对每个像素集合，结合所述视觉图像中各个像素点的材质特征，得到所述每个像素集合中每个像素点的材质类别；

对所述每个像素集合中每个像素点的材质类别进行合并，得到属于同一个物体的表面材质类别，直至多个像素集合分别合并完成时，得到所述视觉图像中不同物体的表面材质类别。

12.根据权利要求11所述的方法，其特征在于，所述对所述每个像素集合中每个像素点的材质类别进行合并，得到属于同一个物体的表面材质类别，包括：

将每个像素集合中的每个像素点的材质类别进行相同材质类别的统计，得到每个材质类别的统计值；

基于统计值和预设统计阈值，确定属于所述同一个物体的表面材质类别。

13.根据权利要求11所述的方法，其特征在于，所述视觉图像包括：多个视角图像；

对所述视觉图像中多个像素点进行实例分割，得到属于不同物体的多个像素集合，包括：

对所述多个视角图像的基准图像中多个像素点进行实例分割，得到所述属于不同物体的多个像素集合；其中，所述基准图像为所述多个视角图像中的任意一个图像。

14.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述视觉图像进行视觉三维重建，确定所述视觉图像中多个像素点的编码信息，包括：

基于所述视觉图像中属于不同物体的多个像素集合，进行视觉三维重建，确定所述视觉图像中属于不同物体的多个像素点的编码信息。

15.一种物体表面材质的分析装置，其特征在于，所述装置包括：

获取模块，用于获取场景中物体的视觉图像；

视觉三维重建模块，用于基于所述视觉图像进行视觉三维重建，确定所述视觉图像中多个像素点的编码信息，所述编码信息表征所述视觉图像中像素点的特征之间的关系；

材质特征提取模块，用于通过材质特征提取网络，对所述多个像素点的编码信息进行材质特征提取和解析，得到各个像素点的材质类别；

分类模块，用于根据所述各个像素点的材质类别，将属于同一物体的不同像素点的材质类别进行合并，得到物体的表面材质类别。