CN111695494A

CN111695494A - 一种基于多视角卷积池化的三维点云数据分类方法

Info

Publication number: CN111695494A
Application number: CN202010523532.9A
Authority: CN
Inventors: 窦曙光; 王文举
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-22

Abstract

本发明提供一种基于多视角卷积池化的三维点云数据分类方法，包括：将原始三维点云模型渲染成n个不同视角的二维图像，得多视角的二维图像图片集；在二维图像图片集中进行学习，得n个视角的深度视觉特征；将深度视觉特征转换为m×n大小的特征图，而后聚合不同视角的深度视觉特征，得聚合后的深度视觉特征向量；使用全连接神经网络将2m×1长度的特征向量转换为C×1的特征向量，再输入当前样本属于不同类别的概率分布情况，得预测向量；使用预测向量和当前样本的真实向量来计算交叉熵损失，而后迭代训练优化三维点云分类模型中的学习参数，重复上述步骤，迭代优化直到交叉熵损失为最小不再降低，即得到最优模型，再将最优模型用于预测测试集中样本的类别。

Description

一种基于多视角卷积池化的三维点云数据分类方法

技术领域

本发明涉及一种数据分类方法，具体涉及一种基于多视角卷积池化的三维点云数据分类方法。

背景技术

当前，通过各类机载、车载、手持三维扫描仪等设备均可快捷、高效地获取高精度大范围的点云数据用于三维重建、机器人、逆向工程、虚拟现实技术等应用领域。在这些点云数据应用处理的过程中，点云分类是不可缺失的重要组成部分，也是当前计算机科学相关领域的研究重点和热点。

基于深度学习的三维点云数据分类方法主要有四类：基于体素卷积神经网络，基于多视角卷积神经网络，基于特征和深度神经网络，和基于点云的方法。

基于体素卷积神经网络的代表方法是美国卡内基梅隆大学的 Maturana等人提出的VoxNet。然而，因为数据稀疏问题，体素结构受限于它的分辨率。三维卷积的计算复杂度相对于体素分辨率呈立体增长。此外，由于大多数三维几何表示是基于边界的，因此占用的区域不会随着离散化的大小成比例地增加，从而导致计算浪费。

基于多视角卷积神经网络的代表方法是美国马萨诸塞大学阿默斯特分校的Su提出的Multi-view-CNN。该方法首先提出一个标准的卷积神经网络结构，它被训练成能够独立识别形状渲染的视图。当提供多个形状的视图时，识别率进一步增加。此外，Su提出了一种新颖的卷积神经网络结构，它把来自三维模型的多个视图的信息组合成一个单一且紧凑的形状描述符，提供更好的识别性能。

基于的特征和深度神经网络的代表方法是美国纽约大学的Fang 提出的一种形状描述符。形状描述符是一种简洁但信息丰富的表示，它向三维模型提供作为某个类别的实例的标识。形状描述符本质上是一个将三维数据转换的特征向量，再由全连接神经网络进行分类。三维形状检索的实验结果表明，深层形状描述子在处理噪声、不完整性和结构变化方面优于现有技术。

基于点云的三维模型分类与分割方法的代表是美国斯坦福大学 Charles Qi提出的PointNet和PointNet++。PointNet系列方法认为点云是一种重要的几何数据结构。由于其格式不规则，大多数研究人员将这些数据转换成规则的三维体素网格或图像集合。然而，这使得数据不必要的庞大。因此Qi设计了一种直接消耗点云的新型神经网络，该神经网络很好地考虑了输入点的置换不变性。并且PointNet为从对象分类、部分分割到场景语义解析的应用程序提供了统一的体系结构。虽然简单，PointNet分类效果有效的。

尽管上述分类算法效果有效，但分类精度依然有进一步提升的空间。因此，需要一种能够提高分类精度的方法。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种基于多视角卷积池化的三维点云数据分类方法。

本发明提供了一种基于多视角卷积池化的三维点云数据分类方法，具有这样的特征，包括如下步骤：步骤1，通过PointImage预处理方法将原始三维点云模型渲染成n个不同视角的二维图像，从而得到多视角的二维图像图片集；步骤2，基于迁移学习的骨干模型在二维图像图片集中进行学习，得到n个视角的深度视觉特征；步骤3，将学习到的深度视觉特征转换为m×n大小的特征图，使用 ConvPooling的提升版Conv2Pooling池化方法来聚合不同视角的深度视觉特征，得到聚合后的深度视觉特征向量；步骤4，使用全连接层将2m×1长度的特征向量转换为C×1的特征向量，再通过Softmax函数输入当前样本属于不同类别的概率分布情况，得到预测向量，其中C 为待分类的类别数；步骤5，使用预测向量和当前样本的真实向量来计算交叉熵损失，而后通过BP优化方法来迭代训练优化三维点云分类模型中的学习参数；步骤6，重复步骤2到步骤5，迭代优化直到交叉熵损失为最小不再降低，即训练的模型为最优模型，再将最优模型用于预测测试集中样本的类别。

在本发明提供的基于多视角卷积池化的三维点云数据分类方法中，还可以具有这样的特征：其中，步骤1包括如下子步骤：步骤 1-1，根据预先设置的分辨率R将所在的原始三维点云模型所在空间划分为由个体素网格单元组成的体素网格空间；步骤1-2，对于处于同个网络单元的C中的n个点，将其近似为同一个点，其坐标为C 在体素空间中的坐标(r_x,r_y,r_z)；步骤1-3，根据选取的视角，将体素化的三维模型渲染成多个不同视角的二维图像，从而得到多视角的所述二维图像片集。

在本发明提供的基于多视角卷积池化的三维点云数据分类方法中，还可以具有这样的特征：其中，步骤3包括如下子步骤：步骤 3-1，将n视角m长度的多视角视觉特征视为大小为m×n的特征图；步骤3-2，使用三个1×1的卷积层由原始特征图生成查询层Query特征图，键层Key特征图以及值层Value特征图；步骤3-3，将Query 特征图转置为n×m的特征图后与Key特征图进行点积操作，得到n×n 的特征图，再使用Softmax激活函数将其作为注意力权重，将该注意力权重与Value特征图进行点积操作后重新得到m×n的特征图；步骤3-4，使用Max池化将m×n的特征图降维到m×1的最终的深度视觉特征向量。

在本发明提供的基于多视角卷积池化的三维点云数据分类方法中，还可以具有这样的特征：其中，步骤4中的全连接层由输入层、隐藏层和输出层组成，且隐藏层由多层神经元组成，每个神经元由权重函数、偏置函数和激活函数组成，其公式如下：

式(1)中，x为神经元的输入，w为神经元的权重，b为神经元的偏置，函数

为非线性激活函数，该非线性函数是Softmax函数，其公式为：

其中i＝1，···，n。

在本发明提供的基于多视角卷积池化的三维点云数据分类方法中，还可以具有这样的特征：其中，步骤5中的BP优化方法的公式如下：

式(2)中，α为学习率(Learning Rate)，θ^(k)为模型第k次迭代训练时的参数，

为第k次迭代训练时模型的梯度，J(θ)为模型的优化目标函数，由损失函数L(θ)和正则项R(θ)组成，λ控制正则项的比重。

发明的作用与效果

根据本发明所涉及的基于多视角卷积池化的三维点云数据分类方法，因为采用了PointImage预处理方法，所以得到了多视角的二维图像图片集；因为进行了特征池化，所以聚合了不同视角的视觉特征；因为采用反向传播算法来优化模型中待训练的参数，并通过多次迭代训练，所以能够使得目标损失函数最小，即预测值尽可能接近真实值。

因此，本发明的基于多视角卷积池化的三维点云数据分类方法，对三维点云数据进行分类时，不仅分类效果好，而且还提高了分类精度。

附图说明

图1是本发明中的三维点云分类框架示意图；

图2是本发明中的PointImage方法示意图；

图3是本发明中的VGG-11特征提取架构图；

图4是本发明中的注意力特征池化示意图；

图5是本发明中的全连接神经网络示意图；

图6是本发明中的全连接神经网络中神经元的数学模型示意图；

图7是本发明中的Sigmoid函数示意图。

具体实施方式

为了使本发明实现的技术手段与功效易于明白了解，以下结合实施例及附图对本发明作具体阐述。

图1是本发明中的三维点云分类框架示意图。

如图1所示，本发明提供一种基于多视角卷积池化的三维点云数据分类方法，包括如下步骤：

步骤1，通过PointImage预处理方法将原始三维点云模型渲染成 n个不同视角的二维图像，从而得到多视角的二维图像图片集，具体包括如下子步骤：

步骤1-1，根据预先设置的分辨率R将所在的原始三维点云模型所在空间划分为由个体素网格单元组成的体素网格空间；

步骤1-2，对于处于同个网络单元的C中的n个点，将其近似为同一个点，其坐标为C在体素空间中的坐标(r_x,r_y,r_z)；

步骤1-3，根据选取的视角，将体素化的三维模型渲染成多个不同视角的二维图像，从而得到多视角的所述二维图像片集。

图2是本发明中的PointImage方法示意图。

步骤1-3中，PointImage中选取的为上，下，左，右，前，后共 6个视角。PointImage渲染图片的核心在于坐标即是特征， (±r_x,±r_y,±r_z)其中两个值转换为图片的两维坐标，第三个值作为这个像素点的值，即像素值，其余像素点的值为0，如图2所示。例如，将体素化的三维模型渲染为俯视图，(r_x,r_y,r_z)的体素A映射为坐标为 (r_x,r_y)，值为r_z的二维像素点。

步骤2，基于迁移学习的骨干模型在二维图像图片集中进行学习，得到n个视角的深度视觉特征。

本发明中，通过PointImage的预处理后，原始的三维点云被渲染为直接可以直接被CNN处理的二维图片形式。对于基于图像的三维形状识别方法，本发明通过多视角卷积神经网络架构(Multi-View Convolutional Neural Network，MVCNN)从二维图片组中学习深度特征，来用于之后的分类任务。本发明所提多视角卷积神经网络是从 ImageNet分类任务的迁移学习中获益。采用在ImageNet数据集预训练后的分类模型VGG-11作为架构的主干，具体来说，就是将在 ImageNet数据集训练完成后的模型权重作为多视角卷积神经网络骨干模块的初始化参数。

在2014年，牛津大学视觉几何组(Visual Geometry Group)的 Karen和Andrew提出的一种以他们团队命名的深度卷积神经网络模型VGG系列架构。VGGNet与AlexNet使用较大的卷积核不同，全部使用3×3的小卷积核，再搭配2×2的池化核来构建深度架构。虽然在ImageNet分类上与同时期Google提出的GoogleNet相比性能略低，但VGGNet具有更强的迁移性，迁移到其它数据集上的很多任务上具有良好的泛化性。本项目多视角卷积神经网络正是看重这点，采用 VGG-M网络作为架构的骨干模型。

图3是本发明中的VGG-11特征提取架构图。

本发明选择VGG-11作为基线模型，VGG-11网络特征提取架构如图3所示。VGG-11将两个3×3大小的卷积层串联，其效果相当于一个5×5的卷积层，但是却带来更少的模型参数。VGG-11共有11 层神经网络，其中8层全为3×3的卷积层，另外3层为网络最后的全连接层，最后输出一个1×4096的特征向量。

图4是本发明中的注意力特征池化示意图。

如图4所示，步骤3，将学习到的深度视觉特征转换为m×n大小的特征图，使用ConvPooling的提升版Conv2Pooling池化方法来聚合不同视角的深度视觉特征，得到聚合后的深度视觉特征向量，具体包括如下子步骤：

步骤3-1，将n视角m长度的多视角视觉特征视为大小为m×n的特征图；

步骤3-2，使用三个1×1的卷积层由原始特征图生成查询层Query 特征图，键层Key特征图以及值层Value特征图；

步骤3-3，将Query特征图转置为n×m的特征图后与Key特征图进行点积操作，得到n×n的特征图，再使用Softmax激活函数将其作为注意力权重，将该注意力权重与Value特征图进行点积操作后重新得到m×n的特征图；

步骤3-4，使用Max池化将m×n的特征图降维到2m×1的最终的深度视觉特征向量。

本发明中，因为注意力机制在视觉领域的成功，GaitSet也将注意力机制用于池化中，证明注意力机制在池化中的有效性。因此，本发明也将自注意力机制融入到不同视角的视觉特征池化中。

步骤4，使用全连接神经网络将2m×1长度的特征向量转换为C×1 的特征向量，再通过Softmax函数输入当前样本属于不同类别的概率分布情况，得到预测向量，其中C为待分类的类别数。

图5是本发明中的全连接神经网络示意图。

本发明中，全连接神经网络是研究员根据神经元之间互相连接传送信息的结构设计的神经网络。全连接神经网络能充分逼近非常复杂的非线性关系，并且可以并行式的训练，因此成为最常用的神经网络之一。如图5所示，全连接神经网络由输入层、隐藏层和输出层组成，且隐藏层由多层神经元组成，每个神经元由权重函数、偏置函数和激活函数组成，并且神经元是一个具有多输入但只有单输出的信息处理单元，由于激活函数的非线性能力，神经元也具有对应信息进行非线性处理的能力，其公式如下：

为非线性激活函数，该非线性函数是Softmax函数，其公式为：

其中i＝1，···，n。

图6是本发明中的全连接神经网络中神经元的数学模型示意图。

此外，全连接神经网络中神经元的数学模型如图6所示。

步骤5，使用预测向量和当前样本的真实向量来计算交叉熵损失，而后通过BP优化方法来迭代训练优化三维点云分类模型中的学习参数。

其中，真实向量一般由人工进行标记。

图7是本发明中的Sigmoid函数示意图。

步骤6，重复步骤2到步骤5，迭代优化直到所述交叉熵损失为最小不再降低，即训练的模型为最优模型，再将所述最优模型用于预测测试集中样本的类别。

本发明中，在二分类任务中常将模型最后的输出用Sigmoid函数映射为[0,1]之间的概率，即输出结果大于0.5，则分类结果为1。若小于0.5，则分类结果为0。0和1代表二分类中的两个待分类的类别。

其中，Sigmoid函数如图7所示，可用以下公式表达：

将以上情况用数学表达式抽象出来，sigmoid的输出为模型输入x 被模型判别为1类别的概率,即为P(y＝1|x)。与之相反，输入x被模型判别为1类别的概率为P(y＝0|x)＝1-P(y＝1|x)。将以上两种情况相结合，可得到对于输入x判别为y的概率为：

P(y|x)＝P(y＝1|x)^y·P(y＝0|x)^1-y

＝P(y＝1|x)^y·(1-P(y＝1|x))^1-y

因为上式中包含指数级计算，为了简化计算。在等式两边加上log 函数，增加log函数不会改变函数原来的单调性，却能减少计算量。加上log函数后，以上公式可化为：

logP(y|x)＝log(P(y＝1|x)^y·(1-P(y＝1|x))^1-y)

＝ylogP(y＝1|x)+(1-y)log(1-P(y＝1|x))

此外，对于预测模型，通常希望模型中的参数θ能最大化P(y|x)，即最小化-logP(y|x)。由此可得损失函数：

Lk＝-[ylogP(y＝1|x)+(1-y)log(1-P(y＝1|x))]

以上为二分类的交叉熵损失函数，可推广到多分类任务。对于n分类任务，其交叉熵损失为：

其中，p_i为预测为第i类别的概率P(y|x＝i)，并且三维点云分类任务在本质上是多分类任务，因此选择多分类交叉熵损失作为分类模型的损失函数。

本发明中，对于深度神经网络，一般采用反向传播(Back Propagation,BP)算法来优化模型中待训练的参数，通过多次迭代训练从而目标损失函数最小，即预测值尽可能接近真实值。BP算法在本质上是基于梯度下降的优化方法，具体操作可通过以下数学公式来说明：

式(2)中，α为学习率即Learning Rate，θ^(k)为模型第k次迭代训练时的参数，

实施例：

对于三维形状分类，即使不同的方法使用的是不同三维表示形式，但对于三维形状分类，最被学术界认可并使用的数据集是普林斯顿大学提供的ModelNet系列数据集。因此，本实施例提出的方法将在ModelNet数据集上实现。

训练时共有两个阶段，第一阶段仅对每个图片进行分类，用于微调骨干模型。第二阶段对每个三维模型的所有视角的图片进行训练，用于训练整个分类框架。在测试时，仅使用第二阶段进行预测。实验硬件环境为2个NVidia Titan Xp GPU，64GB内存。对于单GPU (Graphics Processing Unit)训练，两个阶段的训练迭代次数将为30 次。而对于双GPU训练，由于实际训练时将批处理大小设置为单GPU 的两位发现模型收敛的很快，因此将第一阶段训练次数调整为10次，而第二阶段训练次数调整为20次。双GPU不仅单次迭代训练速度更快，并且总训练次数后者仅为前者的一半。对于双GPU训练，初始学习率(lr,learning rate)设置为0.0001，之后动态调节学习率，将下一次训练的学习率调整为上一次的一半，从而加快模型训练。除了在训练中使用学习率衰减外，还使用了权重衰减。权重衰减即是L2正则化，通过对权重的大小进行惩罚从而减少权重的值，这种技术可以减少深度模型过拟合的可能性。

基于不同三维模型表示方法与本实施例提出的方法的分类精度对比结果如表1所示。基于三维体素的VRN Single和三角网格的 MeshNet在OA上均没有达到92％以上。在以三维点云作为输入的其它5种方法最优秀的方法为Dynamic Graph，本实施例提出的多视角卷积池化方法在OA和AA上相比Dynamic Graph方法分别提升了 1.6％和1.3％。

表1基于不同三维模型表示方法的分类精度对比结果

实施例的作用与效果

由上述实施例可知，采用上述方法进行分类，使得在OA和AA 上相比DynamicGraph方法分别提升了1.6％和1.3％，即精度得到了提高。

进一步地，本发明的基于多视角卷积池化的三维点云数据分类方法，因为采用了PointImage预处理方法，所以得到了多视角的二维图像图片集；因为进行了特征池化，所以聚合了不同视角的视觉特征；因为采用反向传播算法来优化模型中待训练的参数，并通过多次迭代训练，所以能够使得目标损失函数最小，即预测值尽可能接近真实值。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。