CN113870422A

CN113870422A - 一种基于金字塔Transformer的点云重建方法、装置、设备及介质

Info

Publication number: CN113870422A
Application number: CN202111444030.8A
Authority: CN
Inventors: 刘琼; 张军; 杨铀
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2021-12-31
Anticipated expiration: 2041-11-30
Also published as: US11488283B1; CN113870422B

Abstract

本发明公开了一种基于金字塔Transformer的点云重建方法、装置、设备及介质，属于计算机视觉领域。方法包括：获得每张视图对应的点特征数据后，将点特征数据输入双通道金字塔网络，每一层输入的点特征均经过采样、图神经网络以及Transformer三个模块；点特征数据经过第一通道时，将每层注意力机制更新后的输出输入下一层，经过第二通道时，将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层；将第二通道最底层的注意力机制更新后的输出转换成点云坐标，得到每张视图的点云结果，并对每张视图的点云结果取交集，以表征点云重建后的目标对象。如此，本发明对于物体的三维重建精度更高。

Description

一种基于金字塔Transformer的点云重建方法、装置、设备及介质

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于金字塔Transformer的点云重建方法、装置、设备及介质。

背景技术

多视图立体三维重建技术利用输入的多张不同视角的图片重建出三维物体，该技术是研究如何通过图片的二维信息来获取物体在空间中的三维信息，最终得到物体的空间三维模型。传统的三维重建技术通过输入多张不同视角的图片，估算出每张图片对应的相机参数，再把图片中不同像素上的物体重投影到三维空间，从而重建出物体的三维结构。但是传统方法需要较多的输入图片，对反光物体、纹理较少物体重建效果较差。

近些年，深度学习不断发展，越来越多的研究基于深度学习展开。深度学习通过输入大量的图片和其对应的三维结构来训练网络，使网络能够自适应的提取图片中的信息，分辨出不同的物体形状。深度学习方法相比于传统方法，需要更少的输入图片并且能达到更加优秀的性能。然而，将深度学习应用在三维重建中并没有想象的那么简单。不像图片或者视频都是有序且排列规律的，很多三维表征方式如多边形网格、点云都是不规律或者无序的。因此，那些应用在二维领域的网络结构不一定保证在三维领域同样适用。

在中国专利CN113205579A中公开了一种三维重建方法、装置、设备及存储介质。这种方法充分考量每张视图内及每张视图间的特征，利用各视图的互补性和一致性有效提高重建结果精度。但该方法只考虑了单一尺度的局部特征，对于物体表面细节的重建精度较低。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于金字塔Transformer的点云重建方法、装置、设备及介质，旨在解决三维重建中物体表面细节重建精度较低的技术问题。

为实现上述目的，第一方面，本发明提供了一种基于金字塔Transformer的点云重建方法，包括：

获取目标对象不同视角下的多张视图，并对每张视图进行处理以得到相应的点特征数据；将所述点特征数据输入金字塔网络，所述金字塔网络包括从下至上的第一通道和从上至下的第二通道，所述第一通道和第二通道层数相同，且同一层采样点的数量相同；每一层均对输入的点特征进行采样，再基于每张视图采样后的点特征，利用其他视图可见部分的点特征更新当前视图不可见部分的点特征，并利用Transfromer获取每张视图中各更新后的点特征之间关联，得到注意力机制更新后的输出；所述点特征数据经过所述第一通道时，将每层注意力机制更新后的输出输入下一层，直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层；所述点特征数据经过所述第二通道时，将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层；将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标，得到每张视图的点云结果，并对每张视图的点云结果取交集，以表征点云重建后的目标对象。

进一步地，所述对每张视图进行处理以得到相应的点特征数据，包括：

根据神经网络算法对每张视图进行图像编码处理，以得到每张视图对应的特征图；根据预设相机内参矩阵以及每张视图的预设随机点云确定每张视图的局部特征数据；根据神经网络算法对所述预设随机点云进行处理，以得到的每张视图的全局特征数据；将每张视图的所述局部特征数据和所述全局特征数据进行拼接，以得到每张视图的所述点特征数据。

进一步地，所述根据预设相机内参矩阵以及每张视图的预设随机点云确定每张视图的局部特征数据，包括：

根据所述预设相机内参矩阵将每张视图的所述预设随机点云投影于对应的所述特征图上，得到所述预设随机点云在对应的所述特征图上的坐标数据；将所述坐标数据在对应的所述特征图上形成的特征确定为每张视图的所述局部特征数据。

进一步地，所述根据神经网络算法对所述预设随机点云进行处理，以得到的每张视图的全局特征数据，包括：

通过所述神经网络算法对所述预设随机点云进行处理，以得到所述预设随机点云对应的初始特征点；将所述初始特征点的均值和方差转换为对应的每个特征图的均值和方差；将所述特征图的均值和方差确定为对应的每张视图的全局特征数据。

进一步地，所述对输入的点特征进行采样，包括：通过学习带权重的矩阵，对输入的点特征进行自适应采样。

进一步地，在所述将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标之前，还包括：

将所述第二通道每一层的注意力机制更新后的输出转换成点云坐标，得到对应层的点云重建结果；基于对应层的损失函数对所述第二通道每一层进行调参处理，并得到所述第二通道每一层优化后的注意力机制更新后的输出；将所述第二通道每一层优化后的注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层，得到所述第二通道下一层优化后的注意力机制更新后的输出；直至得到所述第二通道最底层优化后的注意力机制更新后的输出。

第二方面，本发明提供了一种基于金字塔Transformer的点云重建装置，包括：

点特征获取模块，用于获取目标对象不同视角下的多张视图，并对每张视图进行处理以得到相应的点特征数据；点特征更新模块，用于将所述点特征数据输入金字塔网络，所述金字塔网络包括从下至上的第一通道和从上至下的第二通道，所述第一通道和第二通道层数相同，且同一层采样点的数量相同；每一层均对输入的点特征进行采样，再基于每张视图采样后的点特征，利用其他视图可见部分的点特征更新当前视图不可见部分的点特征，并利用Transfromer获取每张视图中各更新后的点特征之间关联，得到注意力机制更新后的输出；所述点特征数据经过所述第一通道时，将每层注意力机制更新后的输出输入下一层，直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层；所述点特征数据经过所述第二通道时，将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层；点云重建模块，用于将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标，得到每张视图的点云结果，并对每张视图的点云结果取交集，以表征点云重建后的目标对象。

第三方面，本发明提供一种电子设备，包括：存储器和至少一个处理器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

（1）本发明在获得每张视图对应的点特征数据后，将点特征数据输入双通道金字塔网络，每一层均对输入的点特征进行采样，再基于每张视图采样后的点特征，利用其他视图可见部分的点特征更新当前视图不可见部分的点特征，并利用Transfromer获取每张视图中各更新后的点特征之间关联，得到注意力机制更新后的输出。并且，点特征数据经过第一通道时，将每层注意力机制更新后的输出输入下一层，直至将第一通道最顶层的注意力机制更新后的输出输入第二通道最顶层；点特征数据经过第二通道时，将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层。将第二通道最底层的注意力机制更新后的输出转换成点云坐标，得到每张视图的点云结果，并对每张视图的点云结果取交集，以表征点云重建后的目标对象。如此，本发明可以考虑到物体表面的细节部分以及精细部分，孔洞等方面的重建，因而三维重建精度更高。

（2）本发明通过学习带权重的矩阵，对输入的点特征进行自适应采样，由于带权重的矩阵中每个参数考虑了点和点之间的关联，使得采样更加高效和准确。

（3）本发明通过损失函数依次优化金字塔网络第二通道各层的网络参数，使得每层反馈给下一层的注意力机制更新后的输出均是有效的，从而进一步提高三维重建精度。

附图说明

图1为本发明实施例提供的一种基于金字塔Transformer的点云重建方法的流程示意图。

图2为本发明实施例提供的一种基于金字塔Transformer的点云重建方法的整体网络结构示意图。

图3为本发明实施例提供的一种基于金字塔Transformer的点云重建装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例一

参阅图1，结合图2，本发明实施例提供了一种基于金字塔Transformer的点云重建方法，包括：

S1，获取目标对象不同视角下的多张视图，并对每张视图进行处理以得到相应的点特征数据。

本实施例中，为了得到更精确的点特征，从输入图像中提取多尺度的全局和局部信息。对于点的局部特征，本方案使用VGG16网络对输入图像进行编码，输出不同深度卷积神经网络的结果得到多尺度特征图。得到这些二维图片的特征图之后，利用相机的本征矩阵将初始化随机点云投影到特征图上，得到每个点在特征图上的坐标，该坐标在特征图对应的特征即为该点的局部特征。通过这种方式，将相机的相机矩阵编码到网络中，帮助网络更好的学习物体的几何信息。对于点的全局特征，先将初始化随机点云输入多个多层感知机MLP中，得到初始点的特征，然后将初始点特征的均值和方差转换成特征图的均值和方差，从而得到点的全局特征。最后将点的全局特征和局部特征拼接在一起，得到相应的点特征数据。

S2，将所述点特征数据输入金字塔网络，所述金字塔网络包括从下至上的第一通道和从上至下的第二通道，所述第一通道和第二通道层数相同，且同一层采样点的数量相同；每一层均对输入的点特征进行采样，再基于每张视图采样后的点特征，利用其他视图可见部分的点特征更新当前视图不可见部分的点特征，并利用Transfromer获取每张视图中各更新后的点特征之间关联，得到注意力机制更新后的输出；所述点特征数据经过所述第一通道时，将每层注意力机制更新后的输出输入下一层，直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层；所述点特征数据经过所述第二通道时，将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层。

本实施例中，金字塔网络结构旨在融合低层次的高精度几何特征和高层次的高精度表征特征，从而提取出更加丰富的点特征。如图2所示，本发明采用从下至上和从上至下的双通道结构，并在同一层次之间采用跳跃连接的方式设计金字塔结构。对于金字塔的每一层，都设有SGT单元对点的特征进行变换和更新，包括采样、图神经网络和Transformer三个模块，每一层经过采样后的点的数量并不相同，并在每一层重建出不同数量的点云结果。本实施例中，金字塔设置为3层，每一层的采样数量分别为2048、1024和512，从下至上方向逐层降低点的采样数量，从上至下方向逐层增加点的采样数量，两个方向上同一层点的数量是相同的。下采样点云会使得点的空间信息和整体形状信息更加清晰，上采样点云会使得细节的填充更加具体。同时随着网络的深入，高层次的点特征语义信息更丰富，低层次的几何信息更精确。通过融合这种不同层次和点数量上的特征，使得最后的点特征拥有足够准确的点特征去实现更高精度的重建。

具体的，每一层SGT单元均包括采样、图神经网络和Transformer三个模块。

（1）采样

本发明采用一种自适应的采样方式，充分考虑了点和点内部的关联。令每个视角下点的特征为：

。N1是输入的点的数量，D1是输入的点的特征。为了考虑到点和点之间的关联，我们让网络学习一个权重参数矩阵：

，N2是采样的数量（如果N1>N2，转换是下采样，如果N1<N2，转换是上采样）。令Fs是采样后的点特征集合，采样过程可以定义为：

是Fs中第i个点特征向量，f_k是f的第k个点特征，w_ik是权重参数矩阵W的权重，

，

是一维卷积层的权重和偏差。W的每个参数考虑了点和点之间的关联，因为每个点都能传递或多或少的信息，距离更远的点能传递的信息更少，距离更近的点能传递的信息更多。因此，Fs是基于点之间的关联来进行的采样，从而更加高效和准确。

（2）图神经网络

不同于2D图片，点云是无序不规则的，通用的网络模型并不适用于点云。图神经网络考虑点之间的连接，更加适用于不规则表征。我们利用图神经网络来聚合局部点特征同时利用不同视图的互补性更新点特征。图网络需要定义节点和边来传递信息。在本发明中，我们选择点特征作为图的节点，为了学习到局部特征和其他视图上的互补特征来更新每个视图下的可见部分和不可见部分，我们将每个点和每个视图上最近的k个点相连接，来作为图的边，由此来定义好图神经网络的节点和边。为了更新相邻的节点，我们采用注意力机制来动态的分配每条边的权重。具体地，令Ni是节点i的相邻边，j是相邻边中的某个节点，

和

是经过采样之后的点特征，

是当前节点更新之后的特征，具体过程定义为：

其中，

为每条边的权重，相连点的关系越大权重越大，相连点的关系越小权重越小，是一个可以学习的参数；

为卷积网络层参数，表示一次非线性变换；W用来增加点特征的维度，

用来表示拼接两个特征，

函数表示激活函数，本发明中选择leackyReLU函数。我们首先拼接当前节点特征和其相邻节点特征，然后利用Wa映射并归一化特征为相邻边的权重，最后用每条相邻边的权重更新当前节点的特征。由于权重是一个动态学习的过程，可以自适应的去考虑点和点之间的关联来更新特征。

（3）Transformer

Transformer专为序列建模任务而设计，因其使用注意力来对数据中的长期依赖项（例如词序列）进行建模而著称。而点云类似于文本词，个体之间的关系复杂且难以建模，而Transformer则适合对点之间的全局关系进行建模。受此启发，我们在SGT单元中使用Transformer架构。并且在本发明中，我们将原始位置编码和输入嵌入合并到点特征提取模块中，它可以生成可区分的特征，因为每个点都有代表其空间位置的唯一坐标。令

，

，其中Q，K，V分别query，key，value矩阵，G表示经过图神经网络之后的点特征，具体的转换过程如下：

其中

，

，共享可学习的线性变换，d_a是query和key向量的维度，d_e是value向量的维度。为了节约计算资源，本方案中选择将d_a设置为d_e/4。随后我们利用query和key矩阵得到注意力权重矩阵：

随后归一化为：

其中，

为自注意力层的输出参数，表示特征之间的相关联程度，表征一个全局的特征关系；

表示对

按照维度d_a归一化处理后的结果；

表示对

进行softmax归一化处理后的结果；

表示

的第k个元素。

自注意力权重更新之后的输出Fsa为

。为了得到最后的输出，我们采用类似的跳跃连接将Fsa和输入的特征G加起来得到最后的输出：Fout = Fsa + G。

在本发明中，每个视图输入到金字塔网络模块的点特征为

，代表每个视图输入是2048个点，每个点的特征维度是128，从下至上，每经过一层特征分别变换为

和

。随后从上至下，每经过一层特征分别变为

和

，然后将每一层的相同维度的特征级连起来，并将每一层的点特征通过一个输出通道为3的一维卷积层，得到每一层的点云输出。

S3，将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标，得到每张视图的点云结果，并对每张视图的点云结果取交集，以表征点云重建后的目标对象。

进一步的，在执行S3之前，本发明还可以通过损失函数依次优化金字塔网络第二通道各层的网络参数，使得每层反馈给下一层的注意力机制更新后的输出均是有效的，从而进一步提高三维重建精度。具体为：将所述第二通道每一层的注意力机制更新后的输出转换成点云坐标，得到对应层的点云重建结果；基于对应层的损失函数对所述第二通道每一层进行调参处理，并得到所述第二通道每一层优化后的注意力机制更新后的输出；将所述第二通道每一层优化后的注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层，得到所述第二通道下一层优化后的注意力机制更新后的输出；直至得到所述第二通道最底层优化后的注意力机制更新后的输出。

实施例二

参阅图3，本发明提供了本发明实施例提供的一种基于金字塔Transformer的点云重建装置300，所述装置300包括：

点特征获取模块310，用于获取目标对象不同视角下的多张视图，并对每张视图进行处理以得到相应的点特征数据；

点特征更新模块320，用于将所述点特征数据输入金字塔网络，所述金字塔网络包括从下至上的第一通道和从上至下的第二通道，所述第一通道和第二通道层数相同，且同一层采样点的数量相同；每一层均对输入的点特征进行采样，再基于每张视图采样后的点特征，利用其他视图可见部分的点特征更新当前视图不可见部分的点特征，并利用Transfromer获取每张视图中各更新后的点特征之间关联，得到注意力机制更新后的输出；所述点特征数据经过所述第一通道时，将每层注意力机制更新后的输出输入下一层，直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层；所述点特征数据经过所述第二通道时，将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层；

点云重建模块330，用于将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标，得到每张视图的点云结果，并对每张视图的点云结果取交集，以表征点云重建后的目标对象。

本实施例中，各模块的具体实施方式，请参考实施例一中的描述，在此将不作复述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于金字塔Transformer的点云重建方法，其特征在于，包括：

获取目标对象不同视角下的多张视图，并对每张视图进行处理以得到相应的点特征数据；

将所述点特征数据输入金字塔网络，所述金字塔网络包括从下至上的第一通道和从上至下的第二通道，所述第一通道和第二通道层数相同，且同一层采样点的数量相同；每一层均对输入的点特征进行采样，再基于每张视图采样后的点特征，利用其他视图可见部分的点特征更新当前视图不可见部分的点特征，并利用Transfromer获取每张视图中各更新后的点特征之间关联，得到注意力机制更新后的输出；

所述点特征数据经过所述第一通道时，将每层注意力机制更新后的输出输入下一层，直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层；

所述点特征数据经过所述第二通道时，将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层；

将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标，得到每张视图的点云结果，并对每张视图的点云结果取交集，以表征点云重建后的目标对象。

2.根据权利要求1所述的方法，其特征在于，所述对每张视图进行处理以得到相应的点特征数据，包括：

根据神经网络算法对每张视图进行图像编码处理，以得到每张视图对应的特征图；

根据预设相机内参矩阵以及每张视图的预设随机点云确定每张视图的局部特征数据；根据神经网络算法对所述预设随机点云进行处理，以得到的每张视图的全局特征数据；

将每张视图的所述局部特征数据和所述全局特征数据进行拼接，以得到每张视图的所述点特征数据。

3.根据权利要求2所述的方法，其特征在于，所述根据预设相机内参矩阵以及每张视图的预设随机点云确定每张视图的局部特征数据，包括：

根据所述预设相机内参矩阵将每张视图的所述预设随机点云投影于对应的所述特征图上，得到所述预设随机点云在对应的所述特征图上的坐标数据；

将所述坐标数据在对应的所述特征图上形成的特征确定为每张视图的所述局部特征数据。

4.根据权利要求2所述的方法，其特征在于，所述根据神经网络算法对所述预设随机点云进行处理，以得到的每张视图的全局特征数据，包括：

通过所述神经网络算法对所述预设随机点云进行处理，以得到所述预设随机点云对应的初始特征点；将所述初始特征点的均值和方差转换为对应的每个特征图的均值和方差；

将所述特征图的均值和方差确定为对应的每张视图的全局特征数据。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述对输入的点特征进行采样，包括：通过学习带权重的矩阵，对输入的点特征进行自适应采样。

6.根据权利要求1至4任一项所述的方法，其特征在于，在所述将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标之前，还包括：

将所述第二通道每一层的注意力机制更新后的输出转换成点云坐标，得到对应层的点云重建结果；基于对应层的损失函数对所述第二通道每一层进行调参处理，并得到所述第二通道每一层优化后的注意力机制更新后的输出；

将所述第二通道每一层优化后的注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层，得到所述第二通道下一层优化后的注意力机制更新后的输出；直至得到所述第二通道最底层优化后的注意力机制更新后的输出。

7.一种基于金字塔Transformer的点云重建装置，其特征在于，包括：

点特征获取模块，用于获取目标对象不同视角下的多张视图，并对每张视图进行处理以得到相应的点特征数据；

点特征更新模块，用于将所述点特征数据输入金字塔网络，所述金字塔网络包括从下至上的第一通道和从上至下的第二通道，所述第一通道和第二通道层数相同，且同一层采样点的数量相同；每一层均对输入的点特征进行采样，再基于每张视图采样后的点特征，利用其他视图可见部分的点特征更新当前视图不可见部分的点特征，并利用Transfromer获取每张视图中各更新后的点特征之间关联，得到注意力机制更新后的输出；所述点特征数据经过所述第一通道时，将每层注意力机制更新后的输出输入下一层，直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层；所述点特征数据经过所述第二通道时，将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层；

点云重建模块，用于将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标，得到每张视图的点云结果，并对每张视图的点云结果取交集，以表征点云重建后的目标对象。

8.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-6任一项所述的方法。