CN113298931A

CN113298931A - 一种物体模型的重建方法、装置、终端设备和存储介质

Info

Publication number: CN113298931A
Application number: CN202110527277.XA
Authority: CN
Inventors: 王磊; 钟宏亮; 林佩珍; 程俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-24
Anticipated expiration: 2041-05-14
Also published as: CN113298931B

Abstract

本申请涉及图像处理技术领域，提出一种物体模型的重建方法、装置、终端设备和存储介质。首先，获取包含目标物体的原始图像和某个预设的网格模板，提取该原始图像的特征向量，然后将该特征向量和该网格模板中具有的各个顶点的位置坐标融合，得到特征矩阵。接着，采用解码网络对该特征矩阵进行处理，在解码时引入注意力机制以考虑物体各个顶点之间的位置相关性，得到解码后的各个顶点的目标位置坐标。最后，根据获得的各个顶点的目标位置坐标以及之前获取的各个顶点之间的连接关系数据，重建得到该目标物体对应的三维模型。该方法能够避免重建得到的物体三维模型的表面出现不自然的凸起或凹陷现象，提高三维模型的重建效果。

Description

一种物体模型的重建方法、装置、终端设备和存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种物体模型的重建方法、装置、终端设备和存储介质。

背景技术

室内场景的三维模型重建技术在虚拟现实和人机交互等领域具有巨大的应用价值。目前，通常采用基于深度学习的单目三维物体模型重建方法，该方法一般采用端到端的编码器-解码器结构的运算模型。然而，在解码器端预测物体表面的某个顶点位置分布时，通常只考量物体图像的全局信息以及该顶点的特征信息，这会使得重建得到的物体三维模型的表面出现不自然的凸起或凹陷现象，导致三维模型的重建效果变差。

发明内容

有鉴于此，本申请实施例提供了一种物体模型的重建方法、装置、终端设备和存储介质，能够避免重建得到的物体三维模型的表面出现不自然的凸起或凹陷现象，提高三维模型的重建效果。

本申请实施例的第一方面提供了一种物体模型的重建方法，包括：

获取预设的网格模板以及包含目标物体的原始图像，所述网格模板包含原始三维模型的各个顶点的初始位置坐标以及所述各个顶点之间的连接关系数据；

将所述原始图像输入预先构建的编码网络进行处理，输出所述原始图像对应的初始特征向量，所述编码网络为用于提取图像特征的神经网络；

将所述初始特征向量和所述各个顶点的初始位置坐标融合，得到第一特征矩阵，所述第一特征矩阵包含各个所述顶点分别对应的目标特征向量；

将所述第一特征矩阵输入预先构建的解码网络进行处理，输出第二特征矩阵，所述第二特征矩阵包含各个所述顶点分别对应的目标位置坐标，所述解码网络为包含全连接层和注意力机制层的神经网络，所述注意力机制层用于针对所述各个顶点中的每个顶点，分别根据各个所述顶点与该顶点之间的相关性融合各个所述顶点分别对应的目标特征向量，得到该顶点对应的融合后的目标特征向量，所述融合后的目标特征向量用于确定该顶点对应的目标位置坐标；

根据各个所述顶点分别对应的目标位置坐标以及所述各个顶点之间的连接关系数据，重建得到所述目标物体对应的目标三维模型。

本申请实施例首先获取包含目标物体的原始图像和某个预设的网格模板，提取该原始图像的特征向量，然后将该特征向量和该网格模板中具有的各个顶点的位置坐标融合，得到特征矩阵。接着，采用解码网络对该特征矩阵进行处理，在解码时引入注意力机制以考虑物体各个顶点之间的位置相关性，得到解码后的各个顶点的目标位置坐标。最后，根据获得的各个顶点的目标位置坐标以及之前获取的各个顶点之间的连接关系数据，重建得到该目标物体对应的三维模型。上述过程根据物体各个顶点之间的位置坐标的相关性执行特征向量的融合，能够考量物体各个顶点之间的相互影响关系，从而避免重建得到的物体三维模型的表面出现不自然的凸起或凹陷现象，提高三维模型的重建效果。

在本申请的一个实施例中，在将所述初始特征向量和所述各个顶点的初始位置坐标融合之前，还可以包括：

获取与所述目标物体对应的类别向量，所述类别向量用于表示所述目标物体所属的物体类别；

将所述类别向量和所述初始特征向量拼接，得到拼接后的特征向量；

所述将所述初始特征向量和所述各个顶点的初始位置坐标融合，具体可以为：

将所述拼接后的特征向量和所述各个顶点的初始位置坐标融合。

在本申请的一个实施例中，所述将所述初始特征向量和所述各个顶点的初始位置坐标融合，得到第一特征矩阵，可以包括：

将所述各个顶点的初始位置坐标表示为维度N*3的矩阵，N为所述各个顶点的数量；

将所述初始特征向量和所述维度N*3的矩阵在第二维度上拼接，得到维度N*(3+X)的所述第一特征矩阵，X为所述初始特征向量的元素数量。

在本申请的一个实施例中，所述解码网络包含多个级联的解码模块，每个所述解码模块依次包含全连接层、注意力机制层和批归一化层，所述将所述第一特征矩阵输入预先构建的解码网络进行处理，输出第二特征矩阵，可以包括：

将所述第一特征矩阵输入所述解码网络的第一个解码模块的全连接层进行处理，输出第一中间矩阵；

将所述第一中间矩阵输入所述第一个解码模块的注意力机制层进行处理，输出第二中间矩阵；

将所述第二中间矩阵和所述第一中间矩阵拼接，得到第三中间矩阵；

将所述第三中间矩阵输入所述第一个解码模块的批归一化层进行处理，得到第四中间矩阵；

将所述第四中间矩阵输入所述解码网络的第二个解码模块，继续采用与所述第一个解码模块相同的处理方式，直至获得由所述解码网络的最后一个解码模块输出的所述第二特征矩阵。

进一步的，所述第一中间矩阵包含各个所述顶点分别对应的目标特征向量，所述将所述第一中间矩阵输入所述第一个解码模块的注意力机制层进行处理，输出第二中间矩阵，可以包括：

针对所述各个顶点中的每个顶点，均根据可训练的权重矩阵分别计算得到各个所述顶点与该顶点之间的相关性权重，然后将各个所述顶点分别对应的目标特征向量按照各自对应的相关性权重执行加权求和处理，得到该顶点对应的融合后的目标特征向量，所述第二中间矩阵是由各个所述顶点分别对应的融合后的目标特征向量组成的矩阵。

在本申请的一个实施例中，在重建得到所述目标物体对应的目标三维模型之后，还可以包括：

根据所述目标三维模型的各个顶点的位置坐标计算得到所述目标三维模型具有的所有二面角的大小；

根据所述所有二面角的大小计算得到平滑损失；

基于所述平滑损失对所述解码网络的参数进行优化更新。

进一步的，所述根据所述所有二面角的大小计算得到平滑损失，具体可以为：

采用以下公式计算得到所述平滑损失：

其中，L_smooth表示所述平滑损失，θ_i,j表示所述目标三维模型具有的任意两个平面i，j之间的二面角，F表示所述目标三维模型具有的所有平面。

本申请实施例的第二方面提供了一种物体模型的重建装置，包括：

数据获取模块，用于获取预设的网格模板以及包含目标物体的原始图像，所述网格模板包含原始三维模型的各个顶点的初始位置坐标以及所述各个顶点之间的连接关系数据；

特征编码模块，用于将所述原始图像输入预先构建的编码网络进行处理，输出所述原始图像对应的初始特征向量，所述编码网络为用于提取图像特征的神经网络；

向量融合模块，用于将所述初始特征向量和所述各个顶点的初始位置坐标融合，得到第一特征矩阵，所述第一特征矩阵包含各个所述顶点分别对应的目标特征向量；

特征解码模块，用于将所述第一特征矩阵输入预先构建的解码网络进行处理，输出第二特征矩阵，所述第二特征矩阵包含各个所述顶点分别对应的目标位置坐标，所述解码网络为包含全连接层和注意力机制层的神经网络，所述注意力机制层用于针对所述各个顶点中的每个顶点，分别根据各个所述顶点与该顶点之间的相关性融合各个所述顶点分别对应的目标特征向量，得到该顶点对应的融合后的目标特征向量，所述融合后的目标特征向量用于确定该顶点对应的目标位置坐标；

模型重建模块，用于根据各个所述顶点分别对应的目标位置坐标以及所述各个顶点之间的连接关系数据，重建得到所述目标物体对应的目标三维模型。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例的第一方面提供的物体模型的重建方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请实施例的第一方面提供的物体模型的重建方法。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行本申请实施例的第一方面所述的物体模型的重建方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种物体模型的重建方法的流程图；

图2是本申请实施例提供的一种编码网络的结构示意图；

图3是本申请实施例提供的一种残差模块的结构示意图；

图4是本申请实施例提供的一种解码网络的结构示意图；

图5是本申请实施例提供的注意力机制层的处理示意图；

图6是本申请实施例提供的物体模型的重建方法的一种操作示意图；

图7是本申请实施例提供的物体模型的重建方法的处理效果示意图；

图8是本申请与现有技术中的Total3D原模型获得的三维模型重建结果的对比图；

图9是本申请实施例提供的一种物体模型的重建装置的结构图；

图10是本申请实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请提出一种物体模型的重建方法、装置、终端设备和存储介质，能够避免重建得到的物体三维模型的表面出现不自然的凸起或凹陷现象，提高三维模型的重建效果。应当理解，本申请各个方法实施例的执行主体为各种类型的终端设备或服务器，比如手机、平板电脑、笔记本电脑、台式电脑和可穿戴设备等。

请参阅图1，示出了本申请实施例提供的一种物体模型的重建方法，包括：

101、获取预设的网格模板以及包含目标物体的原始图像；

首先，获取预设的一个网格模板。该网格模板包含原始三维模型的各个顶点的初始位置坐标以及所述各个顶点之间的连接关系数据。例如，该网格模板可以是一个Mesh文件，该文件存储了原始三维模型的顶点位置以及顶点之间的连接关系，该原始三维模型可以是球体、立方体和长方体等各种形状的模型，而为了使各个顶点位置的分布比较均匀，一般建议采用球体形状的原始三维模型。假设该原始三维模型具有N个顶点，则该网格模板包含该N个顶点中每个顶点的三维位置坐标以及该N个顶点之间的连接关系数据，根据连接关系数据可以确定这N个顶点之间是如何连接的，从而可以获得对应的三维模型。

另外，还需要获取一幅包含目标物体的原始图像，该目标物体是需要重建出对应三维模型的任意类型的物体，例如可以是一个沙发、一个桌子或者一张床等。该原始图像具体可以是该目标物体的RGB图像或者灰度图像。

102、将所述原始图像输入预先构建的编码网络进行处理，输出所述原始图像对应的初始特征向量；

在获取到该原始图像之后，将该原始图像输入一个预先构建的编码网络进行处理，得到该原始图像对应的特征向量。其中，该编码网络是一个用于提取图像特征的神经网络，一般通过卷积层、池化层和全连接层等对图像进行处理以提取图像特征，获得对应的特征向量，本申请不对该神经网络的类型和结构进行限定。

本申请实施例提供的一种编码网络的结构示意图如图2所示，输入的维度为224*224*3的原始图像经过该编码网络的若干卷积层、ReLU激活函数层、最大池化层和全连接层等网络层处理后，最终得到1*1*1024的特征数据，该特征数据可以视作一个1024个元素的向量，也即该224*224*3的原始图像对应的初始特征向量。另外，为了避免过深的模型结构导致的图像特征的梯度爆炸或者梯度消失现象，还可以在图2所示的编码网络结构中添加多个堆叠的残差模块，其中每个残差模块的结构示意图如图3所示，输入的特征图通过两个带边缘填充的3*3卷积块处理，提取局部特征后，经由池化层进行特征的整合与筛选，缩小图像特征的维度。每个残差模块的输出都会与其原始输入相加，构成一条新的数据传输路径，该路径赋予残差网络进行恒等映射的能力。在实际应用中，可以使用PyTorch框架提供的残差网络模型ResNet-18及其预训练权重作为编码网络。

103、将所述初始特征向量和所述各个顶点的初始位置坐标融合，得到第一特征矩阵；

在获得初始特征向量之后，将该特征向量和该网格模板中的各个顶点的初始位置坐标融合，得到第一特征矩阵，该第一特征矩阵包含各个所述顶点分别对应的目标特征向量。某个顶点的初始位置坐标(x，y，z)可以视作3个元素的向量，故可以将该3个元素的向量和初始特征向量以拼接的方式融合，得到一个新向量，即目标特征向量。各个不同顶点分别对应的各个目标特征向量可以构成一个矩阵，也即该第一特征矩阵。

(1)将所述各个顶点的初始位置坐标表示为维度N*3的矩阵，N为所述各个顶点的数量；

(2)将所述初始特征向量和所述维度N*3的矩阵在第二维度上拼接，得到维度N*(3+X)的所述第一特征矩阵，X为所述初始特征向量的元素数量。

假设总共有N个顶点，每个顶点的初始位置坐标表示为3个元素的向量，则N个顶点的初始位置坐标可以表示为N*3的矩阵，再假设该初始特征向量的元素数量为X，则在第二维度拼接后会得到一个N*(X+3)的矩阵，作为第一特征矩阵。

(1)获取与所述目标物体对应的类别向量，所述类别向量用于表示所述目标物体所属的物体类别；

(2)将所述类别向量和所述初始特征向量拼接，得到拼接后的特征向量。

为了提高本申请的泛用性，使其能够兼容多个不同类别物体的三维模型重建处理，在将该初始特征向量和各个顶点的初始位置坐标融合之前，还可以先将某个类别向量与该初始特征向量拼接，然后再将拼接得到的向量和该初始位置坐标融合。

具体的，每个物体类别都对应唯一的一个类别向量，故类别向量可以采用独热编码的形式。例如，若待处理的数据集中总共有4类物体的图像，分别为桌子、椅子、电脑和飞机，则可以预先设置桌子对应的类别向量为(0，0，0，1)，椅子对应的类别向量为(0，0，1，0)，电脑对应的类别向量为(0，1，0，0)，飞机对应的类别向量为(1，0，0，0)，若当前处理的原始图像中的目标物体为桌子，则此时获取桌子对应的类别向量(0，0，0，1)，与该初始特征向量进行拼接。

举例说明具体的拼接方式如下：假设总共有2562个顶点，每个顶点的初始位置坐标表示为3个元素的向量，则2562个顶点的初始位置坐标可以表示为2562*3的矩阵。该初始特征向量的元素数量为1024，类别向量的元素数量为9，则先将初始特征向量和类别向量拼接，得到元素数量为1033的新特征向量，然后再将该新特征向量与该2562*3的矩阵的第二维度拼接，得到一个2562*1036的矩阵，作为第一特征矩阵。该第一特征矩阵中的每个1*1036的向量，就是每个模型顶点分别对应的语义向量。

104、将所述第一特征矩阵输入预先构建的解码网络进行处理，输出第二特征矩阵；

在获得第一特征矩阵之后，将其输入一个预先构建的解码网络进行处理，得到第二特征矩阵，该第二特征矩阵包含每个顶点分别对应的转换后的目标位置坐标。其中，该解码网络为包含全连接层和注意力机制层的神经网络，注意力机制层用于针对所述各个顶点中的每个顶点，分别根据各个所述顶点与该顶点之间的相关性融合各个所述顶点分别对应的目标特征向量，得到该顶点对应的融合后的目标特征向量，所述融合后的目标特征向量用于确定该顶点对应的目标位置坐标。普通的解码网络通常采用多层堆叠的全连接网络对网格模板的顶点坐标偏移进行预测，得到转换后的目标位置坐标。然而，这种方法只能在预测时对图像的全局信息与单个目标点的信息进行考量，没有考虑目标点的相关点，尤其是局部相邻点之间的相互影响，容易导致重建的三维模型的表面出现不自然的凸起或凹陷。针对个问题，本申请在解码网络中添加了注意力机制层，以捕获同一物体不同顶点之间的位置相互影响关系。

(1)将所述第一特征矩阵输入所述解码网络的第一个解码模块的全连接层进行处理，输出第一中间矩阵；

(2)将所述第一中间矩阵输入所述第一个解码模块的注意力机制层进行处理，输出第二中间矩阵；

(3)将所述第二中间矩阵和所述第一中间矩阵拼接，得到第三中间矩阵；

(4)将所述第三中间矩阵输入所述第一个解码模块的批归一化层进行处理，得到第四中间矩阵；

(5)将所述第四中间矩阵输入所述解码网络的第二个解码模块，继续采用与所述第一个解码模块相同的处理方式，直至获得由所述解码网络的最后一个解码模块输出的所述第二特征矩阵。

如图4所示，为本申请实施例提供的一种解码网络的结构示意图。该解码网络包括多个堆叠的解码模块，其中每个解码模块依次由全连接层、注意力机制层和批归一化层构成。全连接层可以采用1*1的卷积实现，对单个顶点的坐标偏移进行预测，之后通过注意力机制层筛选、提取与当前顶点最相关的若干个顶点(一般是局部的相邻顶点)的坐标信息，与原输出进行拼接，再经由批归一化层(即Batch Normalization层，也称作批规约层)处理，使数据符合高斯分布，然后投入后续的网络中。

如图5所示，为本申请采用的注意力机制层的处理示意图。将第一特征矩阵输入第一个解码模块的全连接层处理后，得到第一中间矩阵I∈R^N*C，其中，N表示顶点数量，C表示每个顶点对应的目标特征向量的元素个数。将第一中间矩阵I输入注意力机制层处理后，得到第二中间矩阵A∈R^N*C，然后将两个矩阵在第二维度拼接，得到第三中间矩阵O∈R^N*2C。接着，将第三中间矩阵O输入批归一化层进行处理，然后接入下一个解码模块执行相同方式的处理，以此类推，最终输出第二特征矩阵，这个过程可以称作点际注意力机制。

在将第一中间矩阵I输入注意力机制层后，具体的处理方式为：针对某个顶点P，均采用一个可训练的权重矩阵分别计算得到该N-1个顶点(除去顶点P)与顶点P之间的相关性权重，然后将该N-1个顶点分别对应的目标特征向量按照各自对应的相关性权重执行加权求和处理，得到顶点P对应的融合后的目标特征向量，这个过程中特征向量的维度不变(维度还是C)。采用与顶点P相同的处理方式得到该N个顶点分别对应的融合后的目标特征向量后，就会得到N个融合后的目标特征向量，它们组成第二中间矩阵A∈R^N*C。

在计算相关性权重时，可以采用以下的公式(1.1)：

其中，e_i，j表示该第N个顶点中的任意两个顶点i和j之间的相关性权重，p_i表示顶点i对应的目标特征向量，p_j表示顶点j对应的目标特征向量，W为一个可训练的权重矩阵，该权重矩阵的初始数值可以人工设置，之后该权重矩阵的数值在该解码网络的训练过程中不断迭代更新。假设p_i和p_j都为1*1036的向量，则权重矩阵W为1036*1036的矩阵，这样计算得到的相关性权重就会是一个数值，表示顶点i和j之间的相关性大小。

另外，还可以采用以下的公式(1.2)对获得的各个顶点对应的相关性权重进行处理，以保证针对某个顶点的各个相关性权重之和为1：

a_i＝softmax(e_i) (1.2)

其中，a_i表示softmax规约后的e_i，e_i是e_i，j按照第j维度拼接起来得到的一个向量，表示除顶点i外的所有其它顶点和顶点i之间的相关性权重。

顶点i对应的融合后的目标特征向量可以用以下的公式(1.3)表示：

其中，A_i表示顶点i对应的融合后的目标特征向量，a_i，j表示顶点j与顶点i之间规约后的相关性权重。

假设第一特征矩阵为2562*1036的矩阵，在将该矩阵输入解码网络后，解码网络中各个堆叠的解码模块会逐步对该矩阵执行降维操作(通过全连接层实现)，最终得到一个2562*3的结果矩阵，表示2562个顶点分别对应的转换后的三维位置坐标。

105、根据各个所述顶点分别对应的目标位置坐标以及所述各个顶点之间的连接关系数据，重建得到所述目标物体对应的目标三维模型。

最后，根据各个顶点分别对应的目标位置坐标，可以确定重建的三维模型中各个顶点的位置，然后再结合网格模板中包含的各个顶点之间的连接关系数据，就可以构建得到一个新的三维模型，作为该目标物体对应的目标三维模型。

在本申请的一个实施例中，在重建得到目标物体对应的目标三维模型之后，还可以包括：

(1)根据所述目标三维模型的各个顶点的位置坐标计算得到所述目标三维模型具有的所有二面角的大小；

(2)根据所述所有二面角的大小计算得到平滑损失；

(3)基于所述平滑损失对所述解码网络的参数进行优化更新。

在构建出目标三维模型后，由于其各个顶点坐标以及顶点之间的连接关系都是已知的，故可以方便地计算得到该目标三维模型的每个二面角的大小。然后，可以根据所有二面角的大小计算得到平滑损失，以该平滑损失作为目标函数，对该解码网络的参数进行优化更新。

采用以下公式(1.4)计算得到所述平滑损失：

其中，L_smooth表示所述平滑损失，θ_i,j表示所述目标三维模型具有的任意两个平面之间的二面角，F表示所述目标三维模型具有的所有平面。在采用网格模板拟合得到目标三维模型的过程中，顶点之间的连接关系是不变的，因而可以根据各个顶点坐标方便地计算出各个二面角，然后采用公式(1.4)计算平滑损失。

由于室内场景中的人造物体的表面通常是光滑的，而针对单个顶点的坐标的三维模型重建，由于神经网络的泛化性等原因，在重建物体模型的表面时往往会有不小的噪音，导致物体表面凹凸不平。为了解决这个问题，本申请实施例引入平滑损失对神经网络进行训练，对物体表面的平整性进行约束，能够使得重建得到的三维模型的表面更平整光滑，提高模型重建的效果。

如图6所示，为本申请实施例提供的物体模型的重建方法的一种操作示意图。首先，获取一张目标物体的图片，采用编码网络对该图片进行处理，得到对应的特征向量；然后，将该特征向量与该目标物体对应的类别向量进行拼接，并且与网格模板中的顶点坐标进行拼接；接着，将拼接得到的特征矩阵输入解码网络，该解码网络由堆叠的解码模块组成，每个解码模块依次包含全连接层、注意力机制层和批归一化层，通过点际注意力机制的方式，获得每个顶点经转换后得到的目标位置坐标；最后，根据每个顶点各自对应的目标位置坐标以及各个顶点之间的连接关系数据，重建得到该目标物体对应的三维模型。另外，可以根据重建得到的三维模型中的各个二面角计算得到平滑损失，并根据平滑损失对该解码网络进行优化训练，以提高获得的三维模型的表面的平整性。

如图7所示，为本申请提出的物体模型的重建方法的处理效果示意图。其中，图7上方的5个三维模型为未采用点际注意力机制获得的重建的三维模型，图7下方的5个三维模型为对应的采用点际注意力机制获得的重建的三维模型。可以看出，图7上方的5个三维模型中存在很多不自然的凸起和凹陷(见图中的虚线框选处)，而在图7下方的5个三维模型中则不存在这些凸起和凹陷，三维模型的重建效果更好。

为验证本申请的三维模型重建效果，现采用与现有技术中Total3D原模型同样的数据集进行了三维模型重建试验。模型的输入为一个2562个顶点的球形网格模板以及一幅224*224的输入图片，以下的表1展示了本申请的运算模型与现有技术中的Total3D原模型以及AtlasNet模型在Pix3D数据集上，共9个类别的实际场景室内物体上的三维模型重建精度对比。其中，斜切角距离反应的是重建物体模型顶点与真值之间的位置偏差，法向量距离反应的是重建物体表面与真值表面的法向量偏差。根据表1所示的三维模型重建指标对比可以获知，本申请提出的运算模型相较于现有技术中的Total3D原模型以及AtlasNet模型，能够获得更小的位置偏差以及法向量偏差，即有效提高了三维模型的重建效果。

表1

图8是本申请与现有技术中的Total3D原模型获得的三维模型重建结果的对比图，其中左侧的一列是输入图片，中间的一列视采用Total3D原模型获得的三维模型重建结果，右侧的一列是采用本申请获得的三维模型重建结果。由此可见，采用本申请提出的运算模型能够生成更准确、平整的三维物体模型。

应理解，上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上面主要描述了一种物体模型的重建方法，下面将对一种物体模型的重建装置进行描述。

请参阅图9，本申请实施例中一种物体模型的重建装置的一个实施例包括：

数据获取模块801，用于获取预设的网格模板以及包含目标物体的原始图像，所述网格模板包含原始三维模型的各个顶点的初始位置坐标以及所述各个顶点之间的连接关系数据；

特征编码模块802，用于将所述原始图像输入预先构建的编码网络进行处理，输出所述原始图像对应的初始特征向量，所述编码网络为用于提取图像特征的神经网络；

向量融合模块803，用于将所述初始特征向量和所述各个顶点的初始位置坐标融合，得到第一特征矩阵，所述第一特征矩阵包含各个所述顶点分别对应的目标特征向量；

特征解码模块804，用于将所述第一特征矩阵输入预先构建的解码网络进行处理，输出第二特征矩阵，所述第二特征矩阵包含各个所述顶点分别对应的目标位置坐标，所述解码网络为包含全连接层和注意力机制层的神经网络，所述注意力机制层用于针对所述各个顶点中的每个顶点，分别根据各个所述顶点与该顶点之间的相关性融合各个所述顶点分别对应的目标特征向量，得到该顶点对应的融合后的目标特征向量，所述融合后的目标特征向量用于确定该顶点对应的目标位置坐标；

模型重建模块805，用于根据各个所述顶点分别对应的目标位置坐标以及所述各个顶点之间的连接关系数据，重建得到所述目标物体对应的目标三维模型。

在本申请的一个实施例中，所述物体模型的重建装置还可以包括：

类别向量获取模块，用于获取与所述目标物体对应的类别向量，所述类别向量用于表示所述目标物体所属的物体类别；

向量拼接模块，用于将所述类别向量和所述初始特征向量拼接，得到拼接后的特征向量；

所述向量融合模块具体可以用于：

在本申请的一个实施例中，所述向量融合模块可以包括：

矩阵表示单元，用于将所述各个顶点的初始位置坐标表示为维度N*3的矩阵，N为所述各个顶点的数量；

向量拼接单元，用于将所述初始特征向量和所述维度N*3的矩阵在第二维度上拼接，得到维度N*(3+X)的所述第一特征矩阵，X为所述初始特征向量的元素数量。

在本申请的一个实施例中，所述解码网络包含多个级联的解码模块，每个所述解码模块依次包含全连接层、注意力机制层和批归一化层，所述特征解码模块可以包括：

第一处理单元，用于将所述第一特征矩阵输入所述解码网络的第一个解码模块的全连接层进行处理，输出第一中间矩阵；

第二处理单元，用于将所述第一中间矩阵输入所述第一个解码模块的注意力机制层进行处理，输出第二中间矩阵；

第三处理单元，用于将所述第二中间矩阵和所述第一中间矩阵拼接，得到第三中间矩阵；

第四处理单元，用于将所述第三中间矩阵输入所述第一个解码模块的批归一化层进行处理，得到第四中间矩阵；

第五处理单元，用于将所述第四中间矩阵输入所述解码网络的第二个解码模块，继续采用与所述第一个解码模块相同的处理方式，直至获得由所述解码网络的最后一个解码模块输出的所述第二特征矩阵。

进一步的，所述第一中间矩阵包含各个所述顶点分别对应的目标特征向量，所述第二处理单元具体可以用于：

二面角计算模块，用于根据所述目标三维模型的各个顶点的位置坐标计算得到所述目标三维模型具有的所有二面角的大小；

平滑损失计算模块，用于根据所述所有二面角的大小计算得到平滑损失；

网络参数优化模块，用于基于所述平滑损失对所述解码网络的参数进行优化更新。

进一步的，所述平滑损失计算模块具体用于：

采用以下公式计算得到所述平滑损失：

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如图1表示的任意一种物体模型的重建方法。

本申请实施例还提供一种计算机程序产品，当该计算机程序产品在终端设备上运行时，使得终端设备执行实现如图1表示的任意一种物体模型的重建方法。

图10是本申请一实施例提供的终端设备的示意图。如图10所示，该实施例的终端设备9包括：处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92。所述处理器90执行所述计算机程序92时实现上述各个物体模型的重建方法的实施例中的步骤，例如图1所示的步骤101至105。或者，所述处理器90执行所述计算机程序92时实现上述各装置实施例中各模块/单元的功能，例如图9所示模块801至805的功能。

所述计算机程序92可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器91中，并由所述处理器90执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序92在所述终端设备9中的执行过程。

所称处理器90可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91可以是所述终端设备9的内部存储单元，例如终端设备9的硬盘或内存。所述存储器91也可以是所述终端设备9的外部存储设备，例如所述终端设备9上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器91还可以既包括所述终端设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种物体模型的重建方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在将所述初始特征向量和所述各个顶点的初始位置坐标融合之前，还包括：

所述将所述初始特征向量和所述各个顶点的初始位置坐标融合，具体为：

3.如权利要求1所述的方法，其特征在于，所述将所述初始特征向量和所述各个顶点的初始位置坐标融合，得到第一特征矩阵，包括：

4.如权利要求1所述的方法，其特征在于，所述解码网络包含多个级联的解码模块，每个所述解码模块依次包含全连接层、注意力机制层和批归一化层，所述将所述第一特征矩阵输入预先构建的解码网络进行处理，输出第二特征矩阵，包括：

5.如权利要求4所述的方法，其特征在于，所述第一中间矩阵包含各个所述顶点分别对应的目标特征向量，所述将所述第一中间矩阵输入所述第一个解码模块的注意力机制层进行处理，输出第二中间矩阵，包括：

6.如权利要求1至5中任一项所述的方法，其特征在于，在重建得到所述目标物体对应的目标三维模型之后，还包括：

根据所述所有二面角的大小计算得到平滑损失；

基于所述平滑损失对所述解码网络的参数进行优化更新。

7.如权利要求6所述的方法，其特征在于，所述根据所述所有二面角的大小计算得到平滑损失，具体为：

采用以下公式计算得到所述平滑损失：

8.一种物体模型的重建装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的物体模型的重建方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的物体模型的重建方法。