CN113887385A

CN113887385A - 一种基于多视角注意力卷积池化的三维点云分类方法

Info

Publication number: CN113887385A
Application number: CN202111150171.9A
Authority: CN
Inventors: 王涛; 王文举; 蔡宇
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04

Abstract

本发明公开了一种基于多视角注意力卷积池化的三维点云分类方法，包括：将三维点云模型进行三维体素化，将体素化的模型使用一组不同视角下的虚拟图像用来代替虚拟的三维模型；通过深度提取视觉特征模块进行视觉特征提取，将二维图像通过Res2Net提取到的多视角视觉特征转化为m×n大小的特征图，其输入表示为f_m×n；通过视觉特征融合分类模块将前一步骤得到的特征向量进行转化，所述特征向量通过全连接层转化为C×1的特征向量，并应用SoftMax函数来处理分类问题，得到待分类模型的概率分布情况。根据本发明，有效的解决了特征表示带来的特征信息损失，以及每个视图在降维过程丢失细节信息的问题，获得更高的分类精确度，可以实现优越的性能。

Description

一种基于多视角注意力卷积池化的三维点云分类方法

技术领域

本发明涉及三点云分类的技术领域，特别涉及一种基于多视角注意力卷积池化的三维点云分类方法。

背景技术

随着3D摄像头、Kinect、雷达、深度扫描仪等三维摄像、扫描设备的不断涌现，点云数据采集获取日益便利、精准。目前，点云数据已广泛应用于自动驾驶、智能机器人、虚拟现实、医学诊断、医学成像等领域。在对点云数据的诸多处理中，点云分类是上述应用领域进行目标识别跟踪、场景理解和三维重建等任务处理的基础。因此，三维点云分类的问题成为了当前的研究热点，具有重要的研究意义。

目前，传统的机器学习方法存在着一些局限性，例如训练的时间过长，分类准确度不高等。在过去的十年里，由于深度学习技术的快速发展以及三维模型数据集(如ShapeNet、ModelNet、PASCAL3D+和斯坦福计算机视觉和几何实验室数据集等)的出现，深度学习的方法已经广泛的应用于三维点云数据的分类任务上。根据卷积对象的不同，基于深度学习方法的点云分类方法可以分为三类，包括基于体素的方法、基于点云的方法和基于视图的方法。其中，基于体素的方法将点云转化为固定大小的体素，并采用卷积神经网络进行分类。对于基于点云的分类方法，直接将点云输入到神经网络中完成分类。基于视图的方法将三维点云从不同角度转化为二维图像，使三维点云的分类问题成为二维图像分类问题。现有的方法有如下问题：基于体素的有效方法通常仅限于小数据集或者用于单一对象分类，并且计算代价非常昂贵，而在大数据集上，该类方法在总体上分类精度不高。因此，该类方法依然具有很大的提升空间；基于点云的方法，由于点云密度的不均匀性,目前还不能够完美的解决适应非均匀点采样密度的三维点云数据分类问题，同时该类方法的分类精度也有待提高。此外，该类方法无法确定离散对象详尽定位也是一个很大的瓶颈问题；基于视图的有效方法使用多视角中每个视角下的视图来表示三维模型，通常表现为可以用较少的计算需求达到较高的分类精度需求，相比较基于体素的方法和基于点云的方法，该类方法具有较好的分类性能，但在视图的表征或处理过程中丢失了一些特征信息或细节信息，造成该类算法的精度还不是很高，依然具有较大的提升空间。

发明内容

针对现有技术中存在的不足之处，本发明的目的是提供一种基于多视角注意力卷积池化的三维点云分类方法，有效的解决了特征表示带来的特征信息损失，以及每个视图在降维过程丢失细节信息的问题，获得更高的分类精确度，可以实现优越的性能。为了实现根据本发明的上述目的和其他优点，提供了一种基于多视角注意力卷积池化的三维点云分类方法，包括：

S1、将三维点云模型进行三维体素化，将体素化的模型使用一组不同视角下的虚拟图像用来代替虚拟的三维模型；

S2、通过深度提取视觉特征模块进行视觉特征提取，将二维图像通过Res2Net提取到的多视角视觉特征转化为m×n大小的特征图，其输入表示为f_m×n；

S3、通过视觉特征融合分类模块将步骤S2得到的特征向量进行转化，所述特征向量通过全连接层转化为C×1的特征向量，并应用SoftMax函数来处理分类问题，得到待分类模型的概率分布情况。

优选的，所述步骤S1中将n个虚拟相机按照相同的间隔角度d水平的放置在圆轨道上，并且将虚拟相机的捕捉镜头对准三维模型的中心，用以模拟人类观察模型的情景。

优选的，所述步骤S2中通过ResNet方法的变异体Res2Net来提取视觉特征，将3×3的卷积层均匀的分割成p个子集，用x＝{x₁,x₂,x₃,…,x_p}表示，接着将每个子集(其中不包括x₁)输入3×3的卷积，记为Conv_p，然后从x₃开始，在输入Conv_p之前，将Conv_p－1的输出加入，从而增加一层内可能的感受域。

优选的，所述注意力-卷积池化包括利用注意力机制提取视图的特征信息与利用卷积操作提取视图的细节信息，所述注意力机制提取视图的特征信息通过四个1×1的卷积层生成三种特征图，分别用Query,Key₁,Key₂,和Value表示，将特征图Query转置成n×m大小的特征图Q^T，与特征图Key₁和Key₂分别进行积操作，得到两个n×n的特征图

和

将得到的

和

再做一次积操作，得到n×n的特征图，记为f_n×n；再使用softmax激活函数将其作为注意力权重；然后将Value与注意力权重做一次积操作，并使用最大池化对其降维处理，得到一个m×1的特征向量

优选的，所述积操作提取视图的细节信息包括将原始的特征图f_m×n通过一个1×n的卷积层生成m×1特征图，记为

当注意力机制提取视图的特征信息与卷积操作提取视图的细节信息后，将两个m×1的特征向量

和

拼接成2m×1的特征向量。

本发明与现有技术相比，其有益效果是：

(1)通过引入ResNet的变异体Res2Net，对一组多视角2D视图图像进行了特征提取，进一步的提高了三维模型分类任务中的准确性。

(2)利用注意力-卷积机制，可以更专注的找到输入数据中与当前输出相关的有用信息进行处理，有效的解决了特征表示带来的特征信息损失，以及每个视图在降维过程丢失细节信息的问题，从而提高分类的精确度。

(3)进行了大量的实验，以验证所提出方法的性能。与几种流行的方法相比，实验结果显示，分类方法的精度有了显著的提高，分类精度可达93.64％，证明了分类框架实现先进的性能。

附图说明

图1为根据本发明的基于多视角注意力卷积池化的三维点云分类方法的框架图；

图2为根据本发明的基于多视角注意力卷积池化的三维点云分类方法的生成三维模型的6个视图和12个视图数据的过程图；

图3为本发明的基于多视角注意力卷积池化的三维点云分类方法所使用的Res2Net结构示意图。

图4为根据本发明的基于多视角注意力卷积池化的三维点云分类方法的注意力卷积池化的流程框图；

图5为根据本发明的基于多视角注意力卷积池化的三维点云分类方法的视觉特征融合分类模块流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1-5，一种基于多视角注意力卷积池化网络(Multi-View Attention-Convolution Pooling Network,MVACPN)的三维点云分类方法，包括以下步骤：对于一个原始的三维点云模型，首先将其三维体素化，随后将体素化后的模型使用一组不同视角下的虚拟图像V＝{V₁,V₂,V₃,…,V_n}用来代替虚拟的三维模型，其中V_n表示一个三维模型在n视角下生成的n个虚拟图像。在这个过程中，将n个虚拟相机按照相同的间隔角度d水平的放置在圆轨道上，并且将虚拟相机的捕捉镜头对准三维模型的中心，用以模拟人类观察模型的情景。其中虚拟相机的间隔角度d与数目n的关系式为

在本文中，设置了三种类型的虚拟相机布置。第一种是放置3个虚拟相机，将间隔角度设置为d＝120°，得到3个视图；第二种是放置6个虚拟相机,因此需要设置间隔角度d＝60°，得到6个视图，如图2-a所示；第三种是放置12个虚拟相机，所以需要设置间隔角度d＝30°，得到12个视图，如图2-b所示。可以看出，所使用的方法也可以用于其他视角下多视图的生成。

对于三维模型的一组多视图V＝{V₁,V₂,V₃,…,V_n}，为了进一步的增加可接受域的数量，使得特征提取能力更强大，从而减少在特征提取过程中的信息损失问题，采用了ResNet方法的变异体Res2Net来提取视觉特征。如图3所示的Res2Net模块，将ResNet结构中的基础块用Res2Net模块替换。首先将3×3的卷积层均匀的分割成p个子集，用x＝{x₁,x₂,x₃,…,x_p}表示，接着将每个子集(其中不包括x₁)输入3×3的卷积，记为Conv_p，然后从x₃开始，在输入Conv_p之前，将Conv_p－1的输出加入，从而增加一层内可能的感受域。Res2Net模块的过程公式可表示为：

其中，y＝{y₁,y₂,y₃,…,y_p}是Res2Net模块的输出，然后将其连接并传递到一个1×1的卷积层中，用以保证Res2Net的残差模块的通道大小。

将二维图像通过Res2Net提取到的多视角视觉特征转化为m×n大小的特征图，其输入表示为f_m×n。本文所提出的注意力-卷积池化，主要可以分为两个部分，如图4所示。第一部分，利用注意力机制提取视图的特征信息；第二部分，利用卷积操作提取视图的细节信息。

在第一部分中，对于f_m×n，通过四个1×1的卷积层生成三种特征图，分别用

表示，该过程可用公式(2)进行表述：

其中，f_m×n代表m×n大小的输入特征图，Conv_1×1是使用1×1大小的卷积核进行卷积操作，Query,Key₁,Key₂,和Value表使用1×1大小的卷积核进行卷积操作后得到的特征图。

接着，将特征图Query转置成n×m大小的特征图Q^T，与特征图Key₁和Key₂分别进行积操作，得到两个n×n的特征图

和

该过程可用公式(3)进行表述：

其中，T代表特征图转置，

代表两个特征图之间的积操作。

接着将得到的

和

再做一次积操作，得到n×n的特征图，记为f_n×n；再使用softmax激活函数将其作为注意力权重；然后将

与注意力权重做一次积操作，并使用最大池化对其降维处理，得到一个m×1的特征向量

该过程可用公式(4)进行表述：

其中，softmax代表激活函数softmax，Max代表最大池化。

在第二部分中，将原始的特征图f_m×n通过一个1×n的卷积层生成m×1特征图，记为

该过程可用公式(5)进行表述：

其中，f_m×n代表m×n大小的输入特征图，

代表使用1×n大小的卷积核进行卷积操作后得到的特征图，Conv_1×n是使用1×n大小的卷积核进行卷积操作。

在第一部分、第二部分完成后，将两个m×1的特征向量

和

拼接成2m×1的特征向量，该过程可用公式(5)进行表述：

其中，Cat代表拼接，f_A-CP为本文提出的注意力-卷积池化

后所得到的特征向量。

整理可得：

通过前面的操作，得到了一个2m×1的特征向量，它代表着每个视图的特征信息和细节信息。在这里添加了一个全连接层，通过全连接层转化为C×1的特征向量，并应用SoftMax函数来处理分类问题，得到待分类模型的概率分布情况，如图5所示。该过程可用公式(8)进行表述：

其中，x为全连接层的输入，w为权重，b为偏置，

为SoftMax输出的概率，SoftMax的计算方式如下：

其中，C是数据集的类别。例如使用ModelNet40数据集，C在这里就设置为40。

在实验中采用每个样本的整体精度OA(Overall Accuracy)和每个类别的平均精度AA(Average Accuracy)来衡量的方法的分类性能，它们被定义为，

·每个样本的整体精度OA(Overall Accuracy):指被正确分类的样本个数与总的样本个数的比值，用公式可表示为：

其中，N是总的样本个数，x_ii是正确分类的个数沿着混淆矩阵的对角线分布，C是数据集的类别。

·每个类别的平均精度AA(Average Accuracy):指每一类预测正确的与每一类总体数量之间的比值，最终再取每一类的精度的平均值，用公式可表示为：

其中，recall表示预测对的在实际样本中的比值，C表示类别数。

配备了2个NVidia Titan Xp GPU,64GB的内存，使用PyTorch平台进行所有的实验。在实验时，共有两个阶段用来训练，第一阶段和第二阶段的训练次数分别设置为10次和20次。在第一阶段，仅对单个图片进行分类，用于微调模型；在第二阶段，对原始的三维点云模型经体素化后的模型的所有视图进行训练，这样可以训练整个分类框架。而在实验的测试阶段，仅对第二阶段进行测试。

为了优化整体架构，使用Adam作为两个阶段的优化器。此外，还设置了学习率衰减和权重衰减，学习率(lr)的初始值设置为0.0001,之后将下一次的学习率调整为上一次的一半，权重衰减使用的是L2正则化，目的是为了加快模型的训练以及减少模型的过拟合。

在选取提取视图的视觉特征的CNN框架时，将Simonyan等人提出的VGG-11模型、He等人提出的ResNet-50模型、Gao等人提出的ResNet模型的变异体Res2Net-50和Res2NeXt-50模型，以及Huang等人提出的DenseNet-121模型进行了实验对比，用作框架中深度提取视觉特征模块的骨干模型，实验结果如TABLE-Ⅰ所示。在这里，学习率(lr)将其设置为5×10^-5，第一阶段的批量大小(bs₁)和第二阶段的batch size(bs₂)分别设置为64和16，特征池化模块使用了最经典的最大池化方法，N视角中N赋值为6。可以看出Res2Net-50和Res2NeXt-50在OA和AA的性能上均超过92％和90％，因此选择了两种模型(性能次优的Res2Net-50和最优的Res2NeXt-50)作为之后实验的骨干模型。

TABLE-Ⅰ.骨干模型的不同对分类性能的影响结果。

N视角中N取值的不同对分类性能的影响

本文在探讨N视角中N取值的不同对分类性能的影响时，分别取N＝3、N＝6、N＝12进行比较实验，实验结果如TABLE-Ⅱ所示。在框架模型中，通过调节超参数(学习率和batchsize)，可以使得性能更优，在这里，将超参数设置为lr＝1×10^-4，bs₁＝128,bs₂＝32。

通过实验对比，发现在各个视角下，模型框架均超过其他方法，并且在6视角和12视角下，本申请的方法在OA的性能上均超过93％，达到了更优的水平。值得注意的是，本申请的方法在取N＝6时分类性能最佳。不仅如此，随着N值的增加，训练的时间也会越长，取N＝6时还可以让训练时间更短，在模型框架中对比骨干模型Res2Net-50和骨干模型Res2NeXt-50，Res2NeXt-50在N＝6时性能OA、AA分别为93.64％、91.53％，均达到最优。因此将骨干模型Res2NeXt-50和N＝6作为最优模型框架配置。

TABLE-Ⅱ.N视角中N取值的不同对分类性能的影响。

通过实验探讨了不同因素对三维点云的分类性能影响，确定了最优模型的实验设置，将本申请的方法与最先进的方法进行了比较，包括基于体素的有效方法、基于点云的有效方法、基于视图有效方法,对比结果如TABLE-Ⅲ所示。

结果表明，与其他方法相比，本申请提出的算法框架具有更好的性能，在性能OA、AA上以93.64％和91.53％的分类准确率获得了竞争优势，表明了模型具有高精度分类能力。这主要得益于两个原因：一)MVACPN通过引入Res2Net进一步的增加可接受域的数量，使得特征提取能力更强大，从而减少在特征提取过程中的信息损失问题；二)MVACPN中的注意力-卷积特征池化模块包括注意力机制和卷积操作，利用注意力机制提取视图的特征信息，利用卷积操作提取视图的细节信息。与传统的方法相比，

TABLE-Ⅲ.ModelNet40数据集分类结果的比较

该方法可以更专注的找到输入数据中与当前输出相关的有用信息，有效的解决了特征表示带来的特征信息损失，以及每个视图在降维过程丢失细节信息的问题，从而提高分类的精确度。

在本申请中，提出了一种多视角注意力-卷积池化网络框架(MVACPN)，用于三维点云高精度分类任务上。考虑特征表示带来的特征信息损失，以及每个视图在降维过程丢失细节信息的问题，提出了一种注意力-卷积池化结构，利用注意力-卷积运算可以更专注的找到输入数据中与当前输出相关的有用信息，从而提高分类的精确度。做了大量的实验用来得到最优模型的设置，获得最好的分类精度。在ModelNet 40上评估模型，实验结果表明，与最先进的方法的相比较，框架可以获得更高的分类精确度，证明了其优越性。

这里说明的设备数量和处理规模是用来简化本发明的说明的，对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于多视角注意力卷积池化的三维点云分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于多视角注意力卷积池化的三维点云分类方法，其特征在于，所述步骤S1中将n个虚拟相机按照相同的间隔角度d水平的放置在圆轨道上，并且将虚拟相机的捕捉镜头对准三维模型的中心，用以模拟人类观察模型的情景。

3.如权利要求1所述的一种基于多视角注意力卷积池化的三维点云分类方法，其特征在于，所述步骤S2中通过ResNet方法的变异体Res2Net来提取视觉特征，将3×3的卷积层均匀的分割成p个子集，用x＝{x₁,x₂,x₃,…,x_p}表示，接着将每个子集(其中不包括x₁)输入3×3的卷积，记为Conv_p，然后从x₃开始，在输入Conv_p之前，将Conv_p－1的输出加入，从而增加一层内可能的感受域。

4.如权利要求1所述的一种基于多视角注意力卷积池化的三维点云分类方法，其特征在于，所述注意力-卷积池化包括利用注意力机制提取视图的特征信息与利用卷积操作提取视图的细节信息，所述注意力机制提取视图的特征信息通过四个1×1的卷积层生成三种特征图，分别用Query,Key₁,Key₂,和Value表示，将特征图Query转置成n×m大小的特征图Q^T，与特征图Key₁和Key₂分别进行积操作，得到两个n×n的特征图

和

将得到的

和

5.如权利要求4所述的一种基于多视角注意力卷积池化的三维点云分类方法，其特征在于，所述积操作提取视图的细节信息包括将原始的特征图f_m×n通过一个1×n的卷积层生成m×1特征图，记为

和

拼接成2m×1的特征向量。